CN108959559A - 问答对生成方法和装置 - Google Patents

问答对生成方法和装置 Download PDF

Info

Publication number
CN108959559A
CN108959559A CN201810718125.6A CN201810718125A CN108959559A CN 108959559 A CN108959559 A CN 108959559A CN 201810718125 A CN201810718125 A CN 201810718125A CN 108959559 A CN108959559 A CN 108959559A
Authority
CN
China
Prior art keywords
answer
question
model
synonymous
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810718125.6A
Other languages
English (en)
Other versions
CN108959559B (zh
Inventor
孙兴武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810718125.6A priority Critical patent/CN108959559B/zh
Publication of CN108959559A publication Critical patent/CN108959559A/zh
Application granted granted Critical
Publication of CN108959559B publication Critical patent/CN108959559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提出一种问答对生成方法和装置。该方法包括:将查询文本输入问题生成模型,得到问题列表,所述问题列表中包括与所述查询文本相关的多个问题;根据问题列表中的各问题确定对应的答案片段;将每个问题及其对应的答案片段,输入到匹配模型进行相关性判断;根据相关性判断结果生成各问答对。本发明实施例的问答对挖掘过程不依赖于问答网站,而是直接从各种查询文本中得到,因此,挖掘过程可以是离线的,能够以离线的方式支持在线搜索引擎,不会给线上系统带来压力。

Description

问答对生成方法和装置
技术领域
本发明涉及信息检索技术领域,尤其涉及一种问答对生成方法和装置。
背景技术
传统的搜索引擎通过关键词检索获取相关文本或者片段,用户需要点开检索的链接以找到正确的答案片段。为了更直观的找到用户所求,通常的做法有两种。
一种在线的方式:对检索的文本分段并排序,找到与问题最相关的答案片段并返回。这种方法局限性在于,如果当前检索结果不好,就不能找到所需答案或者很难找到权威的答案,而且在线的特征提取和排序对线上性能造成压力,另外需要海量人工标注的数据训练模型。
另一种离线的方式从海量问答对中通过交叉验证得到问答对资源并灌库支持检索。这种方法的局限性在于,问答站的数据存在权威性不好、口语化等问题严重。
并且,在问题生成时,通过转换规则或模板生成问题,这些人工总结的规则或模板往往召回率低,很难解决问题。
发明内容
本发明实施例提供一种问答对生成方法和装置,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种问答对生成方法,包括:
将查询文本输入问题生成模型,得到问题列表,所述问题列表中包括与所述查询文本相关的多个问题;
根据问题列表中的各问题确定对应的答案片段;
将每个问题及其对应的答案片段,输入到匹配模型进行相关性判断;
根据相关性判断结果生成各问答对。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,将查询文本输入问题生成模型,得到问题列表,包括:
对所述查询文本进行分段,得到各段落;
对各段落进行词法处理和句法处理;
将每个段落的子标题输入所述问题生成模型,得到所述子标题对应的各问题。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,根据问题列表中的各问题确定对应的答案片段,包括:
将所述子标题所属的段落的内容,作为所述子标题对应的各问题的答案片段。
结合第一方面或其任意一种实现方式,本发明实施例在第一方面的第三种实现方式中,还包括:
将各问答对存入搜索数据库;
如果收到查询问题,在所述搜索数据库查找是否存与所述查询问题匹配的答案。
结合第一方面或其任意一种实现方式,本发明实施例在第一方面的第四种实现方式中,该方法还包括:
采用用户检索行为数据构建问题生成模型。
结合第一方面的第四种实现方式,本发明实施例在第一方面的第五种实现方式中,采用用户检索行为数据构建问题生成模型,包括:
对所述用户检索行为数据中的搜索点展数据进行分析和自动学习,得到若干同义需求;
对若干同义需求进行同义需求聚簇,得到各同义簇;
从各同义簇中挖掘出各泛化模式;
采用各泛化模式构建问题生成模型。
结合第一方面的第五种实现方式,本发明实施例在第一方面的第六种实现方式中,从各同义簇中挖掘出各泛化模式,包括:
对所述搜索点展数据进行词法处理和句法处理。
采用启发式算法对处理后的数据进行聚合;
对聚合后的数据进行模式挖掘,得到各泛化模式。
第二方面,本发明实施例提供了一种问答对生成装置,包括:
问题列表生成模块,用于将查询文本输入问题生成模型,得到问题列表,所述问题列表中包括与所述查询文本相关的多个问题;
答案片段查找模块,用于根据问题列表中的各问题确定对应的答案片段;
相关性判断模块,用于将每个问题及其对应的答案片段,输入到匹配模型进行相关性判断;
问答对生成模块,用于根据相关性判断结果生成各问答对。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述问题列表生成模块还包括:
分段子模块,用于对所述查询文本进行分段,得到各段落;
词法句法处理子模块,用于对各段落进行词法处理和句法处理;
问题生成子模块,用于将每个段落的子标题输入所述问题生成模型,得到所述子标题对应的各问题。
结合第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述答案片段查找模块还用于将所述子标题所属的段落的内容,作为所述子标题对应的各问题的答案片段。
结合第二方面或其任意一种实现方式,本发明实施例在第二方面的第三种实现方式中,该装置还包括:
数据库模块,用于将各问答对存入搜索数据库;
问答匹配模块,用于如果收到查询问题,在所述搜索数据库查找是否存与所述查询问题匹配的答案。
结合第二方面或其任意一种实现方式,本发明实施例在第二方面的第四种实现方式中,还包括:
模型建立模块,用于采用用户检索行为数据构建问题生成模型。
结合第二方面的第四种实现方式,本发明实施例在第二方面的第五种实现方式中,所述模型建立模块包括:
同义需求学习子模块,用于对所述用户检索行为数据中的搜索点展数据进行分析和自动学习,得到若干同义需求;
聚簇子模块,用于对若干同义需求进行同义需求聚簇,得到各同义簇;
泛化子模块,用于从各同义簇中挖掘出各泛化模式;
构建子模块,用于采用各泛化模式构建问题生成模型。
结合第二方面的第五种实现方式,本发明实施例在第二方面的第六种实现方式中,所述泛化子模块还用于:
对所述搜索点展数据进行词法处理和句法处理。
采用启发式算法对处理后的数据进行聚合;
对聚合后的数据进行模式挖掘,得到各泛化模式。
第三方面,本发明实施例提供了一种问答对生成装置,所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,问答对生成装置的结构中包括处理器和存储器,所述存储器用于存储支持问答对生成装置执行上述问答对生成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述问答对生成装置还可以包括通信接口,用于所述装置与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储问答对生成装置所用的计算机软件指令,其包括用于执行上述问答对生成方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:挖掘过程不依赖于问答网站,而是直接从各种查询文本中得到,因此,挖掘过程可以是离线的,能够以离线的方式支持在线搜索引擎,不会给线上系统带来压力。
上述技术方案中的另一个技术方案具有如下优点或有益效果:不依赖标注数据,从海量的搜索引擎用户点展日志中自动学习问题生成模型。查询文本可以是半结构化文本,可以利用各种包括普通半结构化文本中的网站的数据。结合各种半结构化权威网站,如百科等的数据,能够生成高准确权威的数据。此外,在搜索过程中,利用挖掘出的问答对构成的数据库,可以直接给出实体答案,减少用户的阅读成本。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明一实施例的问答对生成方法的流程图。
图2示出根据本发明一实施例的问答对生成方法的流程图
图3示出根据本发明一实施例的问答对生成装置的结构框图。
图4示出根据本发明一实施例的问答对生成装置的结构框图。
图5示出根据本发明一实施例的问答对生成方法的应用示例的示意图。
图6示出根据本发明一实施例的问答对生成装置的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明一实施例的问答对生成方法的流程图。如图1所示,该问答对生成方法可以包括以下步骤:
步骤101、将查询文本输入问题生成模型,得到问题列表,所述问题列表中包括与所述查询文本相关的多个问题;
步骤102、根据问题列表中的各问题确定对应的答案片段;
步骤103、将每个问题及其对应的答案片段,输入到匹配模型进行相关性判断;
步骤104、根据相关性判断结果生成各问答对。
在本实施例中,可以利用查询文本生成多个问题,组成问题列表。接着,利用这些问题查找对应的答案片段。然后判断这些问题与其对应的答案片段之间的相关性,如果某个问题与其对应的答案片段的相关性高例如高于设定的相关性阈值,则可以将该问题与其对应的答案片段作为优选的问答对。利用查询文本生成各优选的问答对,可以将这些问答对关联地存储。如果采用大量的查询文本分别进行挖掘,可能得到若干优选的问答对,从而可以作为问答系统的数据基础。查询文本的数量越多,范围越广,挖掘得到的问答对的数量和广度越大,能够支持的问题查询服务也越多。
在一种示例中,查询文本可以为离线的文本。查询文本可以包括但不限于半结构化文本。半结构化文本可以包括具有一定层级关系的文档。例如各种百科网站的文档中,包括多个标题和子标题,子标题中又包括一些详细的内容。
在一种可能的实现方式中,将查询文本输入问题生成模型,得到问题列表,包括:
对所述查询文本进行分段,得到各段落;
对各段落进行词法处理和句法处理;
将每个段落的子标题输入所述问题生成模型,得到所述子标题对应的各问题。
在本发明实施例中,词法处理包括但不限于分词处理、词性标注处理和实体识别处理中的至少一种;句法处理包括但不限于浅层句法处理、依存关系处理、指代消解处理和省略补全处理中的至少一种。
在一种可能的实现方式中,根据问题列表中的各问题确定对应的答案片段,包括:
将所述子标题所属的段落的内容,作为所述子标题对应的各问题的答案片段。
在本实施例中,将查询文本分为多个段落,对各段落进行词法、句法等处理后,可以得到各段落的子标题和段落的内容。将这些段落的子标题输入问题生成模型,可以生成多个问题。然后,将每个子标题对应的各问题与该子标题所属的段落的内容组成问答对,输入匹配模型进行相关性判断。如果可以将相关性高的问题与其对应的段落作为问答对,存入搜索数据库例如键值库。
例如,将查询文本分为段落S1、S2、S3。段落S1包括子标题S11和内容S12。将段落S1的子标题S11输入问题生成模型后,得到了多个问题Q11、Q12、Q13。将这个子标题S11和这些问题Q11、Q12、Q13分别与段落内容S12组成多个问答对{S11,S12}、{Q11,S12}、{Q12,S12}、{Q13,S12}。将这些问答对输入匹配模型中进行匹配,得到每个问答对的相关性评分。假设分别为0.9、0.7、0.5、0.3。如果设置的相关性阈值为0.6,则{S11,S12}、{Q11,S12}的相关性高于阈值,可以将这两个问答对存入键值库。
在一种可能的实现方式中,如图2所示,该方法还包括:
步骤201、将各问答对存入搜索数据库;
步骤202、如果收到查询问题,在所述搜索数据库查找是否存与所述查询问题匹配的答案。
在本实施例中,可以将各相关性较好的问答对存入搜索数据库例如键值库中。后续,如果获取用户输入的查询语句,可以在该键值库中查找是否有该查询语句对应的答案片段,如果有,则可以直接输出答案片段。
在一种可能的实现方式中,该方法还包括:
步骤301、采用用户检索行为数据构建问题生成模型。
在一种可能的实现方式中,采用用户检索行为数据构建问题生成模型,包括:
对所述用户检索行为数据中的搜索点展数据进行分析和自动学习,得到若干同义需求;
对若干同义需求进行同义需求聚簇,得到各同义簇;
从各同义簇中挖掘出各泛化模式;
采用各泛化模式构建问题生成模型。
举例而言,搜索点展数据可以包括但不限于每次搜索的关键词(句)、各搜索结果、用户选择的搜索结果等。可以对每次搜索的关键词(句)、各搜索结果、用户选择的搜索结果进行分析和自动学习,得到若干同义需求。
在一种可能的实现方式中,从各同义簇中挖掘出各泛化模式,包括:
对所述搜索点展数据进行词法处理和句法处理;
采用启发式算法对处理后的数据进行聚合;
对聚合后的数据进行模式挖掘,得到各泛化模式。
其中,对搜索点展数据进行词法处理包括但不限于对搜索点展数据进行分词处理、词性标注处理和实体识别处理中的至少一种;对搜索点展数据进行句法处理包括但不限于对搜索点展数据进行浅层句法处理、依存关系处理、指代消解处理和省略补全处理中的至少一种。
本发明实施例通过对查询文本进行逆向分析,可以得到问题列表,将问题列表和答案片段匹配后,通过匹配模型能够自动对问题答案匹配度打分,可以得到具有相关性的问答对,挖掘过程不依赖于问答网站,而是直接从各种查询文本中得到,因此,挖掘过程可以是离线的,能够以离线的方式支持在线搜索引擎,不会给线上系统带来压力。
进一步地,不依赖标注数据,从海量的搜索引擎用户点展日志中自动学习问题生成模型。查询文本可以是半结构化文本,可以利用各种包括普通半结构化文本中的网站的数据。结合各种半结构化权威网站,如百科等的数据,能够生成高准确权威的数据。此外,在搜索过程中,利用挖掘出的问答对构成的数据库,可以直接给出实体答案,减少用户的阅读成本,一目了然。
图3示出根据本发明一实施例的问答对生成装置的结构框图。如图3所示,该问答对生成装置可以包括:
问题列表生成模块41,用于将查询文本输入问题生成模型,得到问题列表,所述问题列表中包括与所述查询文本相关的多个问题;
答案片段查找模块43,用于根据问题列表中的各问题确定对应的答案片段;
相关性判断模块45,用于将每个问题及其对应的答案片段,输入到匹配模型进行相关性判断;
问答对生成模块47,用于根据相关性判断结果生成各问答对。
在一种可能的实现方式中,所述问题列表生成模块41还包括:
分段子模块,用于对所述查询文本进行分段,得到各段落;
词法句法处理子模块,用于对各段落进行词法处理和句法处理;
问题生成子模块,用于将每个段落的子标题输入所述问题生成模型,得到所述子标题对应的各问题。
在一种可能的实现方式中,所述答案片段查找模块43还用于将所述子标题所属的段落的内容,作为所述子标题对应的各问题的答案片段。
在一种可能的实现方式中,如图4所示,该装置还包括:
数据库模块51,用于将各问答对存入搜索数据库;
问答匹配模块53,用于如果收到查询问题,在所述搜索数据库查找是否存与所述查询问题匹配的答案。
在一种可能的实现方式中,该装置还包括:
模型建立模块55,用于采用用户检索行为数据构建问题生成模型。
在一种可能的实现方式中,所述模型建立模块55包括:
同义需求学习子模块,用于对所述用户检索行为数据中的搜索点展数据进行分析和自动学习,得到若干同义需求;
聚簇子模块,用于对若干同义需求进行同义需求聚簇,得到各同义簇;
泛化子模块,用于从各同义簇中挖掘出各泛化模式;
构建子模块,用于采用各泛化模式构建问题生成模型。
在一种可能的实现方式中,所述泛化子模块还用于:
对所述搜索点展数据进行词法处理和句法处理;
采用启发式算法对处理后的数据进行聚合;
对聚合后的数据进行模式挖掘,得到各泛化模式。
在一种可能的实现方式中,所述问题列表生成模块41还用于:
对所述查询文本进行分段,得到各段落;
对各段落进行词法处理和句法处理;
将每个段落的子标题输入所述问题生成模型,得到对应的问题列表。
在一种可能的实现方式中,所述答案片段查找模块43还用于根据问题列表中的各问题从半结构化文本中查找对应的答案片段。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
如图5所示,在本发明实施例的一种应用示例中,采用逆向的检索过程,从离线文本中生成问题,在该离线文本中查找问题对应的答案片段,然后将问题和对应的答案片段灌库,解决用户的检索需求。此外,本发明实施例可以应用于半结构化文本例如各种百科网站中的数据,这些半结构化文本包括很多标题和子标题,并且具有一定的层级关系。
在该应用示例中,基于半结构化文本生成问答对的方法可以参见图5所示的流程:
通过搜索点展数据自动学习问题生成模型。对用户行为数据中的搜索点展数据进行分析和自动学习,得到海量的同义需求;对同义需求聚簇,然后在同义簇内挖掘模式。
具体而言,可以对搜索点展数据中进行分词、词性标注和实体识别等词法处理(501),然后,再进行浅层句法、依存关系、指代消解和省略补全等句法处理(502),得到各种同义需求。接着,采用启发式算法对各种同义需求进行聚合(503),得到各种同义簇。然后,在同义簇中进行模式挖掘(504),得到各泛化模式。利用这些泛华模式构建问题生成模型(505)。
例如,假设查询文本(query)包括“头孢克肟”,若用户同时点击了“头孢克肟的副作用”和“头孢克肟的不良反应”,可以认为两次点击是相同的需求。再如,对于query“头孢克肟的副作用”用户点击了百科“不良反应”标题,可以认为两者是同义的需求。通过对海量用户行为数据的分析和自动学习可以得到海量的同义需求。对同义需求聚簇,然后在同义簇内挖掘模式,可以得到泛化的模式,例如:“A副作用”、“A不良反应”等。这些海量的模式用于构建问题生成模型。
问答对挖掘模块,首先,对输入的查询文档进行数据预处理(506)例如分段,对每个相应的段落经过词法分析(507)和句法分析(508)。对切分不完整的段落做省略补全,答案中的代词做指代消解等,形成结构化数据。将当前段落的子标题输入到问题生成模型,得到问题列表(509)。将每个问题和段落组成QA(Question Answering,问答对)输入到问题答案匹配模型做相关性判断(510),根据计算的特征做质量控制(511),输出相关性较好的问答对数据(512)。
其中,将生成的问题输入问题答案片段匹配模型,可以从对应的半结构化文本中找到答案片段。
具体而言,可以将问题和半结构化文本分段得到的若干片段通过匹配模型打分,匹配模型主要可以包括以下功能:实体数字特征匹配、对齐匹配和DNN(Deep NeuralNetworks,深度神经网络)BOW(Bag of Word,词包)匹配模型。
其中,实体数字特征匹配包括:通过对实体上下位关系的判断对该片段和query打分;
对齐匹配包括:通过用百度知道等筛选的问答数据训练IBM对齐模型,对问题答案匹配度打分;
DNN BOW模型包括:通过用百度知道筛选的问答数据训练BOW匹配模型打分。
然后,可以在线上展示结果。例如,将提取的问答对数据存入搜索库例如KV(Key-Value,键值)库中,并对用户的检索结果以卡片的形式展现,如图6所示。
采用本发明实施例的问答对生成方法的主要优点包括:
1、直接给出实体答案,减少用户的阅读成本,一目了然。
2、以离线的方式支持在线搜索引擎,不会给线上系统带来压力;
3、问答对的挖掘不再依赖问答站点,直接从普通半结构化文本中生成;
4、不依赖标注数据,从海量的搜索引擎用户点展日志中自动学习问题生成模型;
5、依赖半结构化权威站,如百科,能够生成高准确权威的数据,已经支持线上;
6、通过匹配模型能够自动对问题答案匹配度打分。
图6示出根据本发明实施例的问答对生成装置的结构框图。如图6所示,该装置包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的问答对生成方法。所述存储器910和处理器920的数量可以为一个或多个。
该装置还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种问答对生成方法,其特征在于,包括:
将查询文本输入问题生成模型,得到问题列表,所述问题列表中包括与所述查询文本相关的多个问题;
根据问题列表中的各问题确定对应的答案片段;
将每个问题及其对应的答案片段,输入到匹配模型进行相关性判断;
根据相关性判断结果生成各问答对。
2.根据权利要求1所述的方法,其特征在于,将查询文本输入问题生成模型,得到问题列表,包括:
对所述查询文本进行分段,得到各段落;
对各段落进行词法处理和句法处理;
将每个段落的子标题输入所述问题生成模型,得到所述子标题对应的各问题。
3.根据权利要求2所述的方法,其特征在于,根据问题列表中的各问题确定对应的答案片段,包括:
将所述子标题所属的段落的内容,作为所述子标题对应的各问题的答案片段。
4.根据权利要求1至3中任一项所述的方法,其特征在于,还包括:
将各问答对存入搜索数据库;
如果收到查询问题,在所述搜索数据库查找是否存与所述查询问题匹配的答案。
5.根据权利要求1至3中任一项所述的方法,其特征在于,还包括:
采用用户检索行为数据构建问题生成模型。
6.根据权利要求5所述的方法,其特征在于,采用用户检索行为数据构建问题生成模型,包括:
对所述用户检索行为数据中的搜索点展数据进行分析和自动学习,得到若干同义需求;
对若干同义需求进行同义需求聚簇,得到各同义簇;
从各同义簇中挖掘出各泛化模式;
采用各泛化模式构建问题生成模型。
7.根据权利要求6所述的方法,其特征在于,从各同义簇中挖掘出各泛化模式,包括:
对所述搜索点展数据进行词法处理和句法处理;
采用启发式算法对处理后的数据进行聚合;
对聚合后的数据进行模式挖掘,得到各泛化模式。
8.一种问答对生成装置,其特征在于,包括:
问题列表生成模块,用于将查询文本输入问题生成模型,得到问题列表,所述问题列表中包括与所述查询文本相关的多个问题;
答案片段查找模块,用于根据问题列表中的各问题确定对应的答案片段;
相关性判断模块,用于将每个问题及其对应的答案片段,输入到匹配模型进行相关性判断;
问答对生成模块,用于根据相关性判断结果生成各问答对。
9.根据权利要求8所述的装置,其特征在于,所述问题列表生成模块还包括:
分段子模块,用于对所述查询文本进行分段,得到各段落;
词法句法处理子模块,用于对各段落进行词法处理和句法处理;
问题生成子模块,用于将每个段落的子标题输入所述问题生成模型,得到所述子标题对应的各问题。
10.根据权利要求9所述的装置,其特征在于,所述答案片段查找模块还用于将所述子标题所属的段落的内容,作为所述子标题对应的各问题的答案片段。
11.根据权利要求8至10中任一项所述的装置,其特征在于,还包括:
数据库模块,用于将各问答对存入搜索数据库;
问答匹配模块,用于如果收到查询问题,在所述搜索数据库查找是否存与所述查询问题匹配的答案。
12.根据权利要求8至10中任一项所述的装置,其特征在于,还包括:
模型建立模块,用于采用用户检索行为数据构建问题生成模型。
13.根据权利要求12所述的装置,其特征在于,所述模型建立模块包括:
同义需求学习子模块,用于对所述用户检索行为数据中的搜索点展数据进行分析和自动学习,得到若干同义需求;
聚簇子模块,用于对若干同义需求进行同义需求聚簇,得到各同义簇;
泛化子模块,用于从各同义簇中挖掘出各泛化模式;
构建子模块,用于采用各泛化模式构建问题生成模型。
14.根据权利要求13所述的装置,其特征在于,所述泛化子模块还用于:
对所述搜索点展数据进行词法处理和句法处理;
采用启发式算法对处理后的数据进行聚合;
对聚合后的数据进行模式挖掘,得到各泛化模式。
15.一种问答对生成装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的方法。
16.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN201810718125.6A 2018-06-29 2018-06-29 问答对生成方法和装置 Active CN108959559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810718125.6A CN108959559B (zh) 2018-06-29 2018-06-29 问答对生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810718125.6A CN108959559B (zh) 2018-06-29 2018-06-29 问答对生成方法和装置

Publications (2)

Publication Number Publication Date
CN108959559A true CN108959559A (zh) 2018-12-07
CN108959559B CN108959559B (zh) 2021-02-26

Family

ID=64485141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810718125.6A Active CN108959559B (zh) 2018-06-29 2018-06-29 问答对生成方法和装置

Country Status (1)

Country Link
CN (1) CN108959559B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800286A (zh) * 2018-12-17 2019-05-24 北京百度网讯科技有限公司 对话生成方法和装置
CN109815482A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 一种新闻交互的方法、装置、设备和计算机存储介质
CN110232920A (zh) * 2019-06-21 2019-09-13 百度在线网络技术(北京)有限公司 语音处理方法和装置
CN110532369A (zh) * 2019-09-04 2019-12-03 腾讯科技(深圳)有限公司 一种问答对的生成方法、装置及服务器
CN110781274A (zh) * 2019-09-16 2020-02-11 腾讯科技(深圳)有限公司 一种问答对生成的方法与装置
WO2020151318A1 (zh) * 2019-01-24 2020-07-30 平安科技(深圳)有限公司 基于爬虫模型的语料构建方法、装置及计算机设备
CN111914062A (zh) * 2020-07-13 2020-11-10 上海乐言信息科技有限公司 一种基于关键词的长文本问答对生成系统
CN113127614A (zh) * 2020-01-16 2021-07-16 微软技术许可有限责任公司 基于隐式相关性反馈来提供qa训练数据以及训练qa模型
CN115203356A (zh) * 2022-06-15 2022-10-18 延边大学 专业领域问答库构建方法、问答方法及系统
WO2023125335A1 (zh) * 2021-12-28 2023-07-06 华为技术有限公司 问答对生成的方法和电子设备
CN115203356B (zh) * 2022-06-15 2024-06-04 延边大学 专业领域问答库构建方法、问答方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986293A (zh) * 2010-09-03 2011-03-16 百度在线网络技术(北京)有限公司 用于在搜索界面中呈现搜索答案信息的方法及设备
CN104679815A (zh) * 2014-12-08 2015-06-03 北京云知声信息技术有限公司 一种筛选问答对并实时更新问答库的方法及系统
CN105359144A (zh) * 2013-06-04 2016-02-24 谷歌公司 用于意图查询的自然语言搜索结果
CN107220296A (zh) * 2017-04-28 2017-09-29 北京拓尔思信息技术股份有限公司 问答知识库的生成方法、神经网络的训练方法以及设备
US20170371956A1 (en) * 2016-06-23 2017-12-28 International Business Machines Corporation System and method for precise domain question and answer generation for use as ground truth

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986293A (zh) * 2010-09-03 2011-03-16 百度在线网络技术(北京)有限公司 用于在搜索界面中呈现搜索答案信息的方法及设备
CN105359144A (zh) * 2013-06-04 2016-02-24 谷歌公司 用于意图查询的自然语言搜索结果
CN104679815A (zh) * 2014-12-08 2015-06-03 北京云知声信息技术有限公司 一种筛选问答对并实时更新问答库的方法及系统
US20170371956A1 (en) * 2016-06-23 2017-12-28 International Business Machines Corporation System and method for precise domain question and answer generation for use as ground truth
CN107220296A (zh) * 2017-04-28 2017-09-29 北京拓尔思信息技术股份有限公司 问答知识库的生成方法、神经网络的训练方法以及设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815482A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 一种新闻交互的方法、装置、设备和计算机存储介质
CN109800286A (zh) * 2018-12-17 2019-05-24 北京百度网讯科技有限公司 对话生成方法和装置
WO2020151318A1 (zh) * 2019-01-24 2020-07-30 平安科技(深圳)有限公司 基于爬虫模型的语料构建方法、装置及计算机设备
CN110232920A (zh) * 2019-06-21 2019-09-13 百度在线网络技术(北京)有限公司 语音处理方法和装置
CN110532369B (zh) * 2019-09-04 2022-02-01 腾讯科技(深圳)有限公司 一种问答对的生成方法、装置及服务器
CN110532369A (zh) * 2019-09-04 2019-12-03 腾讯科技(深圳)有限公司 一种问答对的生成方法、装置及服务器
CN110781274A (zh) * 2019-09-16 2020-02-11 腾讯科技(深圳)有限公司 一种问答对生成的方法与装置
CN113127614A (zh) * 2020-01-16 2021-07-16 微软技术许可有限责任公司 基于隐式相关性反馈来提供qa训练数据以及训练qa模型
CN111914062A (zh) * 2020-07-13 2020-11-10 上海乐言信息科技有限公司 一种基于关键词的长文本问答对生成系统
CN111914062B (zh) * 2020-07-13 2021-04-06 上海乐言科技股份有限公司 一种基于关键词的长文本问答对生成系统
WO2023125335A1 (zh) * 2021-12-28 2023-07-06 华为技术有限公司 问答对生成的方法和电子设备
CN115203356A (zh) * 2022-06-15 2022-10-18 延边大学 专业领域问答库构建方法、问答方法及系统
CN115203356B (zh) * 2022-06-15 2024-06-04 延边大学 专业领域问答库构建方法、问答方法及系统

Also Published As

Publication number Publication date
CN108959559B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN108959559A (zh) 问答对生成方法和装置
US10664660B2 (en) Method and device for extracting entity relation based on deep learning, and server
Al‐Sughaiyer et al. Arabic morphological analysis techniques: A comprehensive survey
CN104252533B (zh) 搜索方法和搜索装置
Bauer et al. Quantitive evaluation of Web site content and structure
US6363174B1 (en) Method and apparatus for content identification and categorization of textual data
CN109726274B (zh) 问题生成方法、装置及存储介质
CN108536708A (zh) 一种自动问答处理方法及自动问答系统
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
CN110443571A (zh) 基于知识图谱进行简历评估的方法、装置及设备
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
CN109325146B (zh) 一种视频推荐方法、装置、存储介质和服务器
Smith et al. Evaluating visual representations for topic understanding and their effects on manually generated topic labels
Vukić et al. Structural analysis of factual, conceptual, procedural, and metacognitive knowledge in a multidimensional knowledge network
JP2009104630A (ja) 大規模な電子的なドキュメントのコレクション(集まり)を探索するためのドキュメント関連性の決定に対する機械学習アプローチ
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
US20180097749A1 (en) Interactive virtual conversation interface systems and methods
Siew The orthographic similarity structure of English words: Insights from network science
Barbaresi Ad hoc and general-purpose corpus construction from web sources
CN110209721A (zh) 判决文书调取方法、装置、服务器及存储介质
Tran et al. ViMs: a high-quality Vietnamese dataset for abstractive multi-document summarization
Weng et al. Towards an understanding and explanation for mixed-initiative artificial scientific text detection
Wu Automating Knowledge Distillation and Representation from Richly Formatted Data
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant