CN110737756A - 确定针对用户输入数据的应答的方法、装置、设备和介质 - Google Patents
确定针对用户输入数据的应答的方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN110737756A CN110737756A CN201810717731.6A CN201810717731A CN110737756A CN 110737756 A CN110737756 A CN 110737756A CN 201810717731 A CN201810717731 A CN 201810717731A CN 110737756 A CN110737756 A CN 110737756A
- Authority
- CN
- China
- Prior art keywords
- input data
- user input
- determining
- search results
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
Abstract
根据本公开的示例实施例,提供了一种用于确定针对用户输入数据的应答的方法、装置、设备和计算机可读介质。该方法包括获取与来自用户的用户输入数据相关联的一组搜索结果。该方法还包括确定所述搜索结果与所述用户输入数据之间的相关度。该方法还包括基于所述搜索结果和所述相关度,构建针对所述用户输入数据的候选内容,候选内容包括所述搜索结果中的与所述用户输入数据相关联的段落。该方法还包括从所述候选内容中确定针对所述用户输入数据的应答。本公开的实施例通过从搜索结果生成候选内容,从候选内容提取针对用户输入数据的应答,从而能够更智能地为用户提供更准确的回答。
Description
技术领域
本公开的实施例总体涉及搜索领域,并且更具体地,涉及确定针对用户输入数据的应答的方法、装置、设备和计算机可读存储介质。
背景技术
随着计算机技术的快速发展,计算机在各个方面的应用逐渐增强。为了能让机器以与人相似的方式做出反应,人工智能也开始获得了快速的发展,各种人工智能设备开始出现在各个领域和行业。随着算法和数据处理能力的增强,人工智能应用的场景也越来越多。而且随着技术的发展,人工智能在很多方面已经表现出了很好的发展潜力。如在一些生产行业,一些人工智能机器人已经开始为人类服务。
在现实的生活中,通过提出问题来获得答案是一种常见的信息获取方式。随着数据处理能力的快速提高,人工智能开始用于解决这种问题。在日常生活中,已经研发出了一些能与用户进行简单交流的智能问答产品,例如微软的小冰,百度的度秘,IBM的Watson,Apple的Siri,等等。这些语音助手给我们的生活带来了极大的便利和乐趣,也激发了越来越多的企业对智能问答系统的关注和投入。此外,已经出现了许多智能问答机器人。虽然这些产品能够实现一定的对话功能,但是其并不能很好的针对给出的问题给出准确的答案,导致其在真实场景的应用中还有很多局限。
发明内容
根据本公开的示例实施例,提供了一种确定针对用户输入数据的应答的方法、装置、设备和计算机可读存储介质。
在本公开的第一方面中,提供了一种用于确定针对用户输入数据的应答的方法。该方法包括获取与来自用户的用户输入数据相关联的一组搜索结果。该方法还包括确定所述搜索结果与所述用户输入数据之间的相关度。该方法还包括基于所述搜索结果和所述相关度,构建针对所述用户输入数据的候选内容,该候选内容包括所述搜索结果中的与所述用户输入数据相关联的段落。该方法还包括从所述候选内容中确定针对所述用户输入数据的应答。
在本公开的第二方面中,提供了一种用于确定针对用户输入数据的应答的装置。该装置包括:获取模块,被配置为获取与来自用户的用户输入数据相关联的一组搜索结果;第一确定模块,被配置为确定所述搜索结果与所述用户输入数据之间的相关度;候选内容构建模块,被配置为基于所述搜索结果和所述相关度,构建针对所述用户输入数据的候选内容,该候选内容包括所述搜索结果中的与所述用户输入数据相关联的段落;以及应答确定模块,被配置为从所述候选内容中确定针对所述用户输入数据的应答。
在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器和存储装置。存储装置用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序在被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本公开的实施例能够实现在其中的示例环境的示意图100;
图2示出了根据本公开的实施例的用于获取用户输入数据应答方法的流程图200;
图3示出了根据本公开的实施例的搜索结果的示意图;
图4示出了根据本公开的实施例的用于构建候选内容的方法的流程图400;
图5示出了根据本公开的实施例的用于确定内容与用户输入数据的相关度的方法的流程图500;
图6示出了根据本公开的实施例的用于确定用户输入数据应答的方法的流程图600;
图7示出了根据本公开的实施例的用于确定应答的示意图;
图8示出了根据本公开的实施例的用于确定用户输入数据的应答的装置的框图800;以及
图9示出了能够实施本公开的多个实施例的电子设备的框图900。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。下文还可能包括其他明确的和隐含的定义。
如上文所提及的,人们期望通过应用人工智能来获得问题的准确答案。在现有的通过人工智能获取问题的答案的方法中,一般通过模版匹配法和基于关键词提取的语义分析法来获得问题的答案。
然而,在通过模板匹配法获得问题的答案时,需要预先确定各种问题的类型,并且还得预先设置各问题的模板,通过将获得的一些信息结合模板来生成问题的答案。这种实现方法需要预先针对不同种类的提问给出能够想到的所有回答模版,需要比较大的工作量。
在通过基于关键词提取的语义分析法来获得问题的答案时,需要通过问题分析、段落检索和答案抽取这三个过程来获得想要的答案。然而其在应用时也需要如模板匹配法一样来获得大量的模板,导致需要大量的前期工作。
此外,现有的这些技术还存在只能回答事实性问题,而无法回答观点性问题。如无法回答“请阐述二战对德国的影响”这样的问题。因此,现有技术在处理的问题的多样性、后台知识储备的规模,以及回答问题的满意程度方面,都存在着比较大的问题。
本公开的实施例提供了一种获取针对用户输入数据的应答的方案,该方案可用于例如回答用户的问题。本公开的实施例通过采用基于互联网搜索来首选获取用户输入数据的搜索结果,通过利用互联网搜索,可以大幅度增加知识库的规模和更新的效率。然后基于搜索结果与用户输入数据之间的相关度来确定候选内容,该候选内容包括搜索结果中的与用户输入数据相关联的段落;基于搜索结果和相关度,构建针对用户输入数据的候选内容。这样可以大幅度减小用于应答的网页的数目并且获得与用户输入数据相关度高的段落。最后从候选内容中确定应答,这样实现了将更精确的应答直接返回给用户,从而提升了用户体验。
在本公开的实施例中,术语“搜索结果”是指根据用户输入数据通过网络利用搜索引擎从数据库中获取与用户输入数据有关的信息。该搜索结查也可以利用其他方式获得,诸如从文件中直接检索。该搜索结果可以是网页,也可以是文本。上述搜索结查的类型仅是示例,而非对搜索结果的限制。
术语“候选内容”是指从一些文章或信息中选取的用于确定针对用户输入数据的应答的信息。其由搜索结果中的一些与用户输入数据有关的段落组成。例始,该候选内容可以包括一个或多个段落。术语“相关度”是指用户输入数据与对应的数据(诸如网页、段落)等之间相关联的程度。相关度高表示两者的相关联的程度高,而相关度低表示两者的相关联程度低。例如,关键词与网页的相关度可以通过在该关键词检索时网页被浏览的次数来确定。
本公开在图1中图示示例环境100的示意图。在该示例环境中,包括用户102,用户102将用户输入数据104发送到搜索引擎,通过网络106来获得搜索结果108。其中,输入数据可以为用户102输入的问题。
网络106可以为各种类型网络,诸如无线网络和有线网络。搜索结果108包括通过搜索引擎获得的各种与输入数据104有关的一组搜索结果。
应答确定装置110用于获取搜索结果108,然后确定搜索结果108中的搜索结果与输入数据104的相关度。然后应答确定装置110基于搜索结果108和相关度构建针对用户输入数据104的候选内容114,该候选内容114包括搜索结果108中与用户输入数据104相关联的段落116。然后该应答确定装置110从候选内容114中生成针对用户输入数据104的应答112。在用户102输入用户输入数据104时可以采用的任意合适的输入装置。在一些实施例中,该输入装置包括文本输入装置,也可以包括语音输入装置。该输入装置还可以包括其他任意合适的用于输入用户输入数据的装置。在一些实施例中,当以语音输入装置输入用户输入数据时,输入的语音被转换为文本。
应答确定装置110可以被实现为任何类型的计算设备,包括但不限于移动电话(例如,智能手机)、膝上型计算机、便携式数字助理(PDA)、电子书(电子书)阅读器、便携式游戏机、便携式媒体播放器、游戏机、机顶盒(STB)、智能电视(TV)、个人计算机、膝上型计算机、车载计算机(例如,导航单元)等。
上面图1图示了用于确定用户输入数据104的应答112的示例环境100,下面结合图2详细描述用于确定用户输入数据104的应答112的流程。
首先,用户通过输入装置输入用户输入数据。在一些实施例中,用户输入数据可以是问题。这些实施例只是用于说明用户输入数据,而非对用户输入数据的限制。诸如用户102输入用户输入数据“今天百度的股票怎么样”。在一些实施例中,用户可以通过输入装置直接输入文本形式的用户输入数据。在另一些实施例中,用户可以通过语音输入设备输入用户输入数据,如麦克风,然后将输入的语音转换成文本。在另一些实施例中,用户可以通过任意合适的输入设备来以任意形式输入用户输入数据。
在获得输入用户输入数据104后,在框202处,应答确定装置102通过搜索引擎来获取与来自用户102的用户输入数据104相关联的一组搜索结果108。用户输入数据104首选通过搜索引擎在网络106中检索与用户输入数据有关的搜索结果108。备选地或附加地,该搜索结果是网页。搜索引擎可以通过网络检索与用户输入数据有关的各种网页。
图3示出了根据本公开的实施例的搜索结果的示意图所示。在图3中,通过在输入“今天百度的股票怎么样”,通过检索可获得很多搜索结果。在接收到用户输入数据“今天百度的股票怎么样”时,搜索引擎会搜索出与“今天百度的股票怎么样”有关的网页。
通过使用搜索引擎来获得网页,可以大幅度增加系统的知识储备的规模和及时的更新,使得针对用户输入数据所获得的网页是从大量数据中获取的并且还是实时变化的。
在本公开的检索过程中所使用搜索引擎可以是任意现有的搜索引擎。如通过中文搜索时,采用百度的搜索引擎,在采用外文搜索时,可以采用微软的bing搜索引擎。上述示例仅是用于描述搜索引擎,而非对搜索引擎的限制。
在通过搜索引擎获取到与用户输入数据104相关联的搜索结果108之后,在框204处,确定搜索结果108与用户输入数据104之间的相关度。由于与用户输入数据104有关的搜索结果108的数目比较多。因此,为了更好的提供搜索结果,需首先确定搜索结果108中的搜索结果与用户输入数据104的相关度。
在一些实施例中,采用检索算法来确定用户输入数据相关度及相关度的顺序。备选的或附加的,例如采用百度的互联网搜索引擎的最佳网页列表来确定。在另一些实施例中,确定搜索结果与所述用户输入数据之间的相关度可以包括:首先确定用户输入数据中的关键词;基于针对该关键词的网页的历史浏览行为信息,来确定搜索结果与用户输入数据之间的相关度。
在确定好搜索结果和相关度之后,在框206处,基于搜索结果和所述相关度,构建针对所述用户输入数据104的候选内容114,该候选内容114包括所述搜索结果中的与所述用户输入数据104相关联的段落116。下面将结合图4详细描述构建用户输入数据104的候选内容114的过程。
在确定好候选内容114之后,在框208处,从确定好的候选内容114中确定针对该用户输入数据104的应答112。下面将结合图6详细描述通过候选内容确定针对用户输入数据的应答的过程。
在确定好针对用户输入数据104的应答112后,将该应答返回给用户102。在一些实施例中,通过语音、文本和表格中的至少一项来将经确定的所述应答112返回给所述用户102。在另一些实施例中,可以采用任何合适的方式将应答112返回给用户102。
通过基于用户102的用户输入数据104,确定一组与该用户输入数据104相关联的搜索结果108,然后从搜索结果108中选择与用户输入数据104相关度高的候选内容114,然后再生成用户输入数据104的应答112。这使得可以从大量的数据中获得更准确的结果,并且随着检索结果的改变,获得的用户输入数据的应答也会动态的更新,例如与网页的变化保持一致,并且能够生成更准确的应答,而非仅是返回一些相关信息。
在前面图3中描述了确定用户输入数据104的应答112的整体过程,下面将结合图4详细描述该过程中构建针对用户输入数据104的候选内容114的过程。
在确定好一组搜索结果108并且确定好搜索结果108与用户输入数据104的相关度之后,在框402处,从该一组搜索结果108中选择具有高相关度的搜索结果。
从该一组搜索结果108中选取预定数量的高相关度的搜索结果。在一些实施例中,该预定数量的搜索结果可以为100个搜索结果。在另一个示例中,该预定数量的搜索结果可以是依据需要设置的任意数目的搜索结果。
在一些实施例中,依据搜索结果与用户输入数据的相关度从大到小的顺序进行排序。这使得相关度高的搜索结果排在前面,而相关度低的搜索结果排在后面。因此,只需选择排在前面的预定数目的搜索结果。
在选择了具有高相关度的搜索结果之后,在框404处,确定经选择的该搜索结果中的段落与所述用户输入数据104之间的相关度。
在确定了预定数目的具有高相关度的搜索结果之后,表明该搜索结果中的内容包含与用户输入数据104的应答112有关的内容。为了确定更准确的应答信息,先获取所选择的搜索结果中的段落,然后计算搜索结果中的每个段落与用户输入数据的相关度。在一些实施例中,选取了与用户输入数据104相关度高的预定数目的网页,例如100个网页,则确定这些预定数目的网页中的每段与用户输入数据104的相关度。计算每段与用户输入数据104的相关度的方法将在下面结合图5进行详细描述。
在确定好搜索结果中的每段与用户输入数据104的相关度之后,在框406处,基于具有高相关度的段落,生成针对所述用户输入数据的候选内容。
在一些实施例中,在确定好搜索结果中的每段与用户输入数据的相关度之后,选择具有高相关度的段落116来形成候选内容,该候选内容包括搜索结果中的与所述用户输入数据相关联的段落。该候选内容可以包括一个或多个段落。在一些实施例中,所选择的内容按段落116与用户输入数据104的相关度由高到低的顺序拼接起来形成一个新的段落。上面描述的组合方式仅是示例,而非对本公开的限制。所选择的段落116可以以任意合适的方式组合。
备选地或附加地,从每个搜索结果中选取一个段落。
例如,在搜索出与“今天百度的股票怎么样”有关的预定数目的网页后,确定网页中的每个段落与该用户输入数据的相关度,然后从中选取与该用户输入数据的相关度较高的预定数目的段落来形成候选内容。
通过利用搜索结果108中一部分搜索结果,在该一部搜索结果为从所述搜索结果中选择的、与用户输入信息相关度高的搜索结果。然后从该一部分搜索结果中的段落与用户输入数据的相关度来选择段落116,最终形成候选内容114。这既可以大量减少与应答有关的搜索结果的数目,提高处理的效率和节省时间,还可以去除掉与应答有关的搜索结果中的不相关的内容,而只保留最相关的内容,以形成准确的应答。
上面图4描述了确定候选内容114的过程,下面将结合图5描述该过程中的确定经选择的所述搜索结果中的段落与所述用户输入数据之间的相关度的流程。
在确定搜索结果108中的段落与用户输入数据104的相关度时,在框502处,首先确定所述用户输入数据104中的关键词。本领域中基于用户输入数据104确定关键词的任意合适的方法均可以使被用。
在确定好用户输入数据中的关键词之后,在框504处,基于与关键词有关的历史浏览行为信息,确定搜索结果与用户输入数据104之间的相关度。
在确定关键词后,确定每个关键词与段落的相关度。在一些实施例中,关键词与段落的相关度可以通过相关度计算模型来确定。该相关度计算模型可以利用机器学习算法来基于训练数据而得到。训练数据包括例如中文语料库DuReader和英文语料库MSMARCO。这两份语料库的共同特点是:分别在百度和必应搜索引擎环境下,收集大量用户的用户输入信息和对应返回的文章(网页);同时,雇佣大量的专业标注人力,从这些文章(网页)的某些段落中选取一个或者多个文本段落作为对用户输入数据的准确回答。由于在语料库中标识出了与用户输入数据中的关键词相对应的大量用户选取的段落,因此,可以确定出针对用户输入数据中的各个关键词与段落的相关度。在该模型中还可以基于关键词在所有关键词中的权重来确定与每个关键词对应的段落的权重。再基于该权重和段落的相关度来确定不同关键词组合后所对应的段落的相关度。从而可以确定每个段落与用户输入数据的相关度。在一些实施中,关键词的权重是基于关键词出现的次数与所有关键词出现的次数的比值来确定的。
通过利用用户输入数据中的关键词与段落的相关性来确定段落与用户输入数据的相关度,可以提高用户输入数据与段落的相关度的准确性,并且能更快速的确定出相关度。
上面图5描述了确定段落116与用户输入数据104之间相关度的用户输入数据,下面结合图6详细描述如何从候选内容114中确定针对用户输入数据的应答112的流程。
在确定好候选内容114后,在框602处,确定候选内容114中的片段被用作为应答112的概率值。在一些实施例中,该片段是连续片段,例如连续文本片段。应当理解,在本公开的实施例中,片段可以具有多种形式,连续文本片段仅仅是为了说明的目的,而无意本公开的范围。
由于候选内容114是与用户输入数据104相关度大的内容,因此,需要从其中确定用作应答112的信息。在确定用作应答112的信息时,需要确定候选内容中的片段用于作为应答的概率值。
在一些实施例中,上述确定候选内容中的片段用于作为应答的概率值可以通过机器阅读理解模型来实现。该机器阅读理解模型是通过利用机器学习算法,训练训练数据来得到的。训练数据包括:中文语料库WebQA和英文语料库SQuAD。这两份语料库的共同特点是:给定一些百科文章,针对这些文章提出相关用户输入数据,并且利用文章中的内容经语言标识后作答;这些用户输入数据、对应的应答以及应答来源的文本都会被收集。训练机器阅读理解器模型的时候,针对用户输入数据,应答是由文本中的原始片段经内容提炼和语言改善后得到的。在该模型中,由于针对不同的问题训练大量的数据,因此,在该模型中可以确定针对用户的输入的每个字作为应答的概率。例如,针对用户输入数据得到的每篇文章中被用作应答的文字的概率,因此,通过大量的数据可以确定出针对用户的输入数据,各个文字作为应答的概率。因此在将用户输入数据104和获得的候选内容114输入该模型时会确定出每个字作为答案的概率。同时基于用户设置的片段可以包含的字的数目,可以计算片段的概率。一些实施例中,片段的概率是通过将各个字的概率相乘来确定的。备选地或附加的,片段应是连续的文本片段,因此计算的是连续文本片段的概率。
在框604处,选择具有高概率值的片段。在一些实施例中,在上述阅读理解模型中确定好片段的概率值之后,可以选择具有高概率的征段。选择的具有高概率值的数目可以基于用户的需要设置。因此,上述模型根据用户输入信息给出候选内容中最简洁、最精准的片段。
在框606处,基于经选择的片段,确定针对所述用户输入数据的所述应答。在确定了用于应答的片段后,将经选择的片段和用户输入数据104应用于应答生成模型,以生成应答112,其中应答生成模型是基于训练用户输入数据和训练片段而被确定的。
在一些实施例中,应答生成模型是通过训练用户输入数据和从上述机器阅读理解模块中获得的多个片段来得到的。由于针对用户输入数据和所获得多个片段,可以将获得的片段中变化的内容去除,而保留不变的内容来形成应答生成模型。通过利用应答生成模型,结合所选择的多个片段得到最精确的针对用户输入数据的应答。
在一些实施例中,在将获得的多个片段应用于应答生成模型时,基于片段中的类型,将获得的多个片段放置在模型中以形成应答112。备选地或附加地,在将多个片段应用于模型中时,该应答生成模型中各个位置处所需数据的类型是被预先确定的。
通过上述基于与应答相关联的概率确定片段,可以从候选内容中选出更准确的片段用于应答,从而保证了给出的应答的准确性,并且通过利用其他用户输入数据的应答的模板,还实现了应答的人性化。
图7示出了根据本公开的实施例的用于确定应答的示意图。图7的示例给出了针对用户输入数据“今天百度的股票怎么样”的应答,该应答包括了百度公司股票下跌状况和成交价,并且还给出了其相应的价格图。以此方式,利用了简洁的整合信息来对用户的问题提供了准确回答。在向用户呈现应答时,还可以采用音频、文本或表格等方式实现。上述示例仅是用于说明,而非对本公开的限制。在本公开中可以采用任何合适的方式向用户提供应答。
图8示出了根据本公开实施例的用于确定针对用户输入数据的应答的装置800的示意性框图。如图8所示,装置800可以包括获取模块810,其被配置为获取与来自用户的用户输入数据相关联的一组搜索结果。装置800还可以包括第一确定模块820,其被配置为确定所述搜索结果与所述用户输入数据之间的相关度。装置800还可以包括候选内容构建模块830,其被配置为基于所述搜索结果和所述相关度,构建针对所述用户输入数据的候选内容,该候选内容包括所述搜索结果中的与所述用户输入数据相关联的段落。装置800还可以包括应答确定模块840,被配置为从所述候选内容中确定针对所述用户输入数据的应答。
在一些实施例中,第一确定模块820包括:第一关键词确定模块,其被配置为确定所述用户输入数据中的关键词;第二确定模块,其被配置为基于与所述关键词有关的历史浏览行为装置,确定所述搜索结果与所述用户输入数据之间的相关度。
在一些实施例中,候选内容构建模块830包括:第一选择模块,其被配置为从所述一组搜索结果中选择具有高相关度的搜索结果;第三确定模块,其被配置为确定经选择的所述搜索结果中的段落与所述用户输入数据之间的相关度;候选内容生成模块,其被配置为基于具有高相关度的段落,生成针对所述用户输入数据的候选内容。
在一些实施例中,第三确定模块包括:第二关键词确定模块,其被配置为确定用户输入数据中的关键词;第四确定模块,其被配置为确定段落与关键词之间的相关度,以作为确定段落与用户输入数据之间的相关度。
在一些实施例中,应答确定模块840包括:概率值确定模块,被配置为确定所述候选内容中的片段被用作为应答的概率值;第二选择模块,被配置为基于选择具有高概率值的所述片段;第五确定模块,被配置为基于经选择的所述片段,确定针对所述用户输入数据的所述应答。
在一些实施例中,第五确定模块包括:应答生成模块,被配置为将经选择的所述片段和所述用户输入数据应答生成模型,以生成所述应答,其中所述应答生成模型是基于训练用户输入数据和训线片段而被确定的。
在一些实施例中,该确定针对用户输入数据的应答的装置还包括:返回模块,被配置为通过以下至少一种形式而向用户提供所述应答:语音、文本和表格。
图9示出了可以用来实施本公开的实施例的示例设备900的示意性框图。应当理解,设备900可以用于实现本公开所描述的用于确定用户输入数据的应答的装置900。如图所示,设备900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序指令,来执行各种适当的动作和处理。在RAM 903中,还可存储该设备900操作所需的各种程序和数据。CPU 901、ROM902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元901执行上文所描述的各个方法和过程,例如方法200、400、500和600。例如,在一些实施例中,方法200、400、500和600可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM903并由CPU 801执行时,可以执行上文描述的方法200、400、500和600的一个或多个动作或步骤。备选地,在其他实施例中,CPU 901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200和/或方法400。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD),等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各动作或步骤,但是这应当理解为要求这样动作或步骤以所示出的特定次序或以顺序次序执行,或者要求所有图示的动作或步骤应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开的实施例,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (16)
1.一种用于确定针对用户输入数据的应答的方法,包括:
获取与所述用户输入数据相关联的一组搜索结果;
确定所述搜索结果与所述用户输入数据之间的相关度;
基于所述搜索结果和所述相关度,构建针对所述用户输入数据的候选内容,所述候选内容包括所述搜索结果中的与所述用户输入数据相关联的段落;以及
从所述候选内容中确定针对所述用户输入数据的应答。
2.根据权利要求1所述的方法,其中确定所述搜索结果与所述用户输入数据之间的相关度包括:
确定所述用户输入数据中的关键词;以及
基于与所述关键词有关的历史浏览行为信息,确定所述搜索结果与所述用户输入数据之间的相关度。
3.根据权利要求1所述的方法,其中构建针对所述用户输入数据的候选内容包括:
从所述一组搜索结果中选择具有高相关度的搜索结果;
确定经选择的所述搜索结果中的段落与所述用户输入数据之间的相关度;以及
基于具有高相关度的段落,生成针对所述用户输入数据的候选内容。
4.根据权利要求3所述的方法,其中确定经选择的所述搜索结果中的段落与所述用户输入数据之间的相关度包括:
确定所述用户输入数据中的关键词;以及
确定所述段落与所述关键词之间的相关度,以作为所述段落与所述用户输入数据之间的相关度。
5.根据权利要求1所述的方法,其中从所述候选内容中确定针对所述用户输入数据的应答包括:
确定所述候选内容中的片段被用作应答的概率值;
选择具有高概率值的所述片段;以及
基于经选择的所述片段,确定针对所述用户输入数据的所述应答。
6.根据权利要求5所述的方法,其中基于经选择的所述片段,确定针对所述用户输入数据的所述应答包括:
将经选择的所述片段和所述用户输入数据应用于应答生成模型,以生成所述应答,其中所述应答生成模型是基于训练用户输入数据和训练片段而被确定的。
7.根据权利要求1所述的方法,还包括:
通过以下至少一种形式而向用户提供所述应答:语音、文本和表格。
8.一种用于确定针对用户输入数据的应答的装置,包括:
获取模块,被配置为获取与所述用户输入数据相关联的一组搜索结果;
第一确定模块,被配置为确定所述搜索结果与所述用户输入数据之间的相关度;
候选内容构建模块,被配置为基于所述搜索结果和所述相关度,构建针对所述用户输入数据的候选内容,所述候选内容包括所述搜索结果中的与所述用户输入数据相关联的段落;以及
应答确定模块,被配置为从所述候选内容中确定针对所述用户输入数据的应答。
9.根据权利要求8所述的方法,其中所述第一确定模块包括:
第一关键词确定模块,被配置为确定所述用户输入数据中的关键词;以及
第二确定模块,被配置为基于与所述关键词有关的历史浏览行为信息,确定所述搜索结果与所述用户输入数据之间的相关度。
10.根据权利要求8所述的装置,其中所述候选内容构建模块包括:
第一选择模块,被配置为从所述一组搜索结果中选择具有高相关度的搜索结果;
第三确定模块,被配置为确定经选择的所述搜索结果中的段落与所述用户输入数据之间的相关度;
候选内容生成模块,被配置为基于具有高相关度的段落,生成针对所述用户输入数据的候选内容。
11.根据权利要求10所述的装置,其中所述第三确定模块包括:
第二关键词确定模块,被配置为确定所述用户输入数据中的关键词;以及
第四确定模块,被配置为确定所述段落与所述关键词之间的相关度,以作为所述段落与所述用户输入数据之间的相关度。
12.根据权利要求8所述的装置,其中所述应答确定模块包括:
概率值确定模块,被配置为确定所述候选内容中的片段被用作应答的概率值;
第二选择模块,被配置为选择具有高概率值的所述片段;以及
第五确定模块,被配置为基于经选择的所述片段,确定针对所述用户输入数据的所述应答。
13.根据权利要求12所述的装置,其中所述第五确定模块包括:
应答生成模块,被配置为将经选择的所述片段和所述用户输入数据应用于应答生成模型,以生成所述应答,其中所述应答生成模型是基于训练用户输入数据和训线片段而被确定的。
14.根据权利要求8所述的装置,还包括:
返回模块,被配置为通过以下至少一种形式而向用户提供所述应答:语音、文本和表格。
15.一种电子设备,包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1-7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810717731.6A CN110737756B (zh) | 2018-07-03 | 2018-07-03 | 确定针对用户输入数据的应答的方法、装置、设备和介质 |
US16/459,282 US11238050B2 (en) | 2018-07-03 | 2019-07-01 | Method and apparatus for determining response for user input data, and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810717731.6A CN110737756B (zh) | 2018-07-03 | 2018-07-03 | 确定针对用户输入数据的应答的方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110737756A true CN110737756A (zh) | 2020-01-31 |
CN110737756B CN110737756B (zh) | 2023-06-23 |
Family
ID=69102222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810717731.6A Active CN110737756B (zh) | 2018-07-03 | 2018-07-03 | 确定针对用户输入数据的应答的方法、装置、设备和介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11238050B2 (zh) |
CN (1) | CN110737756B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808007A (zh) * | 2017-11-16 | 2018-03-16 | 百度在线网络技术(北京)有限公司 | 信息处理方法和装置 |
KR20200119531A (ko) * | 2019-04-10 | 2020-10-20 | 삼성전자주식회사 | 자연어 응답을 생성하는 전자 장치 및 자연어 응답 생성 방법 |
CN111800493B (zh) * | 2020-06-29 | 2023-07-28 | 百度在线网络技术(北京)有限公司 | 信息内容推送方法、装置、电子设备和存储介质 |
US11768843B1 (en) * | 2022-05-24 | 2023-09-26 | Microsoft Technology Licensing, Llc | Results ranking with simultaneous searchee and searcher optimization |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
US20090287678A1 (en) * | 2008-05-14 | 2009-11-19 | International Business Machines Corporation | System and method for providing answers to questions |
US20110125734A1 (en) * | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
US20120271843A1 (en) * | 2011-04-19 | 2012-10-25 | International Business Machines Corporation | Computer Processing Method and System for Searching |
WO2014068839A1 (ja) * | 2012-10-30 | 2014-05-08 | パナソニック株式会社 | 端末装置、基地局装置、受信方法及び送信方法 |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN106649786A (zh) * | 2016-12-28 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的答案检索方法及装置 |
CN106909628A (zh) * | 2017-01-24 | 2017-06-30 | 南京大学 | 一种基于区间的文本相似搜索方法 |
CN106970922A (zh) * | 2016-01-14 | 2017-07-21 | 北大方正集团有限公司 | 基于多字段关键词的索引建立方法、检索方法及索引系统 |
CN107330120A (zh) * | 2017-07-14 | 2017-11-07 | 三角兽(北京)科技有限公司 | 询问应答方法、询问应答装置及计算机可读存储介质 |
CN107609092A (zh) * | 2017-09-08 | 2018-01-19 | 北京百度网讯科技有限公司 | 智能应答方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6615209B1 (en) * | 2000-02-22 | 2003-09-02 | Google, Inc. | Detecting query-specific duplicate documents |
US6970863B2 (en) * | 2001-09-18 | 2005-11-29 | International Business Machines Corporation | Front-end weight factor search criteria |
US20050222989A1 (en) * | 2003-09-30 | 2005-10-06 | Taher Haveliwala | Results based personalization of advertisements in a search engine |
US8176031B1 (en) * | 2009-09-02 | 2012-05-08 | The United States Of America, As Represented By The Secretary Of The Navy | System and method for manipulating database search results |
US8874569B2 (en) * | 2012-11-29 | 2014-10-28 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for identifying and visualizing elements of query results |
CN104216913B (zh) * | 2013-06-04 | 2019-01-04 | Sap欧洲公司 | 问题回答方法、系统和计算机可读介质 |
US20160246476A1 (en) * | 2013-10-11 | 2016-08-25 | Lexisnexis, A Divison Of Reed Elsevier Inc. | Method, system and apparatus for user abandonment verification |
-
2018
- 2018-07-03 CN CN201810717731.6A patent/CN110737756B/zh active Active
-
2019
- 2019-07-01 US US16/459,282 patent/US11238050B2/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
US20090287678A1 (en) * | 2008-05-14 | 2009-11-19 | International Business Machines Corporation | System and method for providing answers to questions |
US20110125734A1 (en) * | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
US20120271843A1 (en) * | 2011-04-19 | 2012-10-25 | International Business Machines Corporation | Computer Processing Method and System for Searching |
WO2014068839A1 (ja) * | 2012-10-30 | 2014-05-08 | パナソニック株式会社 | 端末装置、基地局装置、受信方法及び送信方法 |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN106970922A (zh) * | 2016-01-14 | 2017-07-21 | 北大方正集团有限公司 | 基于多字段关键词的索引建立方法、检索方法及索引系统 |
CN106649786A (zh) * | 2016-12-28 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的答案检索方法及装置 |
CN106909628A (zh) * | 2017-01-24 | 2017-06-30 | 南京大学 | 一种基于区间的文本相似搜索方法 |
CN107330120A (zh) * | 2017-07-14 | 2017-11-07 | 三角兽(北京)科技有限公司 | 询问应答方法、询问应答装置及计算机可读存储介质 |
CN107609092A (zh) * | 2017-09-08 | 2018-01-19 | 北京百度网讯科技有限公司 | 智能应答方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20200012650A1 (en) | 2020-01-09 |
CN110737756B (zh) | 2023-06-23 |
US11238050B2 (en) | 2022-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210232761A1 (en) | Methods and systems for improving machine learning performance | |
CN110046304B (zh) | 一种用户推荐方法和装置 | |
CN109086303B (zh) | 基于机器阅读理解的智能对话方法、装置、终端 | |
US11003856B2 (en) | Processing text using neural networks | |
US11669744B2 (en) | Regularized neural network architecture search | |
US20200342181A1 (en) | Method and system for automatic formality classification | |
US11544474B2 (en) | Generation of text from structured data | |
CN109190049B (zh) | 关键词推荐方法、系统、电子设备和计算机可读介质 | |
US9767183B2 (en) | Method and system for enhanced query term suggestion | |
CN110737756A (zh) | 确定针对用户输入数据的应答的方法、装置、设备和介质 | |
US11651015B2 (en) | Method and apparatus for presenting information | |
CN110147494B (zh) | 信息搜索方法、装置,存储介质及电子设备 | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
CN113342958B (zh) | 问答匹配方法、文本匹配模型的训练方法和相关设备 | |
US20230004819A1 (en) | Method and apparatus for training semantic retrieval network, electronic device and storage medium | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
CN111309878A (zh) | 检索式问答方法、模型训练方法、服务器及存储介质 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN112380421A (zh) | 简历的搜索方法、装置、电子设备及计算机存储介质 | |
CN113343091A (zh) | 面向产业和企业的科技服务推荐计算方法、介质及程序 | |
CN111506596A (zh) | 信息检索方法、装置、计算机设备和存储介质 | |
CN113343101B (zh) | 一种对象排序方法及系统 | |
CN117131155A (zh) | 多类目识别方法、装置、电子设备及储存介质 | |
CN111488513A (zh) | 用于生成页面的方法和装置 | |
CN112434134B (zh) | 搜索模型训练方法、装置、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |