CN112732885A - 用于问答系统的答案扩展方法、装置及电子设备 - Google Patents
用于问答系统的答案扩展方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112732885A CN112732885A CN202011643474.XA CN202011643474A CN112732885A CN 112732885 A CN112732885 A CN 112732885A CN 202011643474 A CN202011643474 A CN 202011643474A CN 112732885 A CN112732885 A CN 112732885A
- Authority
- CN
- China
- Prior art keywords
- data
- answer data
- answer
- question
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 abstract description 4
- 238000012216 screening Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 206010037742 Rabies Diseases 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种用于问答系统的答案扩展方法、装置及电子设备,其中,该方法包括:获取问答对数据,所述问答对数据包括答案数据;对所述答案数据进行扩展性分析,获得可扩展答案数据;对所述可扩展答案数据进行扩展,获得候选答案数据;对所述候选答案数据进行评分处理,获得最终答案数据。通过对原始的问句中的答案数据进行扩展,替换原始答案数据中的部分短语结构,获得更多答案数据,利用工具对数据扩展数据进行筛选,选择出得分最高的答案数据替换掉原始数据,作为最终结果输入神经网络,在不改变数据数量的基础上,对数据的准确性做进一步的提高,使得输入到神经网络中的数据集更加完善,经过训练后得到的模型更加准确。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种用于问答系统的答案扩展方法、装置及电子设备。
背景技术
随着科学技术的不断发展,各种人工智能的模型越来越多地应用在各种智能系统中,各种人机交互的需求被提出。智能问答机器人就是重要的应用,问答机器人可以节省人工,进行更有效的进行人机的交互。当前,问答机器人,已经不局限于利用常见的问题集合(FAQ)进行检索和匹配答案。更多的,可以直接从一段文本、一篇文章甚至一个表格中,找到答案,进行回复。目前使用的问答模型都是以数据驱动,在语料集(Corpus)上对模型进行训练,得到表现良好的参数结果。
在应用在系统中,根据问题,获取答案的主流方法,还是利用片段抽取的方法从文本中得到目标答案。得到的答案都比较简短,无法满足一些需要丰富表达的场合,使得智能对话机器人无法得到更大范围的普及和应用,如何能获取尽量的丰富的,表达方式多样的答案,是当前需要解决的问题。
发明内容
本申请实施例的目的在于提供一种用于问答系统的答案扩展方法、装置、电子设备及存储介质,可以扩展语义数据的丰富性,并且得到更加精准的答案,使机器语言表达性更加丰富,也扩大了智能对话机器人的使用范围和实用性,在神经网络训练中增加数据的准确性,使得训练结果准确率更高。
第一方面,提供了一种扩展问题答案语义丰富性的问答方法,所述方法包括:
获取问答对数据,所述问答对数据包括答案数据;
对所述答案数据进行扩展性分析,获得可扩展答案数据;
对所述可扩展答案数据进行扩展,获得候选答案数据;
对所述候选答案数据进行评分处理,获得最终答案数据。
在上述实现过程中,从一对完整的问题、答案进行可扩展性分析,再对得到的可扩展答案进行扩展,从所有扩展的候选答案中选取分数最高的代替原本的答案,这样做可以增加答案的准确性,在神经网络训练过程中提高最终的准确率,使对话机器人更接近人类对话。
进一步地,所述问答对数据还包括与所述答案数据相对应的问题数据,所述对所述答案数据进行扩展性分析,获得可扩展答案数据的步骤,包括:
获取所述答案数据中的词语数量;
判断所述答案数据中的词语数量是否小于或者等于阈值;
若所述答案数据中的词语数量小于或者等于阈值,判断所述问题数据中是否不包含敏感词汇;若所述答案数据中的词语数量大于阈值,判定所述答案数据为非可扩展答案数据;
若所述问题数据中不包含敏感词汇,获取所述答案数据中的可扩展答案数据;若所述问题数据中包含敏感词汇,判定所述答案数据为非扩展答案数据。
在上述实现过程中,根据词语数量和阈值大小对答案数据进行分析判断,答案数据可以分为可以进行扩展的和不可以进行扩展的,对答案数据进行初步判断,选取可以扩展的答案数据,进一步做扩展。
进一步地,所述对所述可扩展答案数据进行扩展,获得候选答案数据的步骤,包括:
获取所述可扩展答案数据对应的问题数据;
对所述可扩展答案数据对应的问题数据进行句法分析,获取短语结构树;
根据所述短语结构树生成候选答案数据。
在上述实现过程中,获取到可扩展答案数据后,对答案数据进行具体分析,拆分成单独的短语机构,再将短语结构组合成短语结构树。
进一步地,所述对所述候选答案数据进行评分处理,获得最终答案数据的步骤,包括:
获取候选答案的字串;
利用搜索引擎对所述字串进行评分,生成元组值;
获取所述元组值最高的候选答案数据。
在上述实现过程中,获得最终答案数据需要利用搜索引擎对答案数据中的字串进行评分处理,搜索引擎会根据字串的权重进行评分,选出分数最高的候选答案数据。
进一步地,所述对所述可扩展答案数据对应的问题数据进行句法分析,获取所述短语结构树的步骤,包括:
根据固定短语结构对所述问题数据进行拆分,获得结构化的问题数据,所述结构化的问题数据包括其中任意两种或多种:名词短语信息、动词短语信息、介词短语信息;
将所述结构化的问题数据生成所述短语结构树。
在上述实现过程中,对问题数据按照短语结构进行拆分,可以清晰直观地获得问题数据中的关键信息,再将问题数据按照短语结构重新排列成结构化的问题数据,方便后续生成候选答案数据。
进一步地,所述根据所述短语结构树生成候选答案数据的步骤,包括:
将所述短语结构进行替换生成基本答案数据;
根据所述基本答案数据生成一级候选答案数据;
根据所述基本答案数据和所述一级候选答案数据生成二级候选答案数据;
将所述基本答案数据、所述一级候选答案数据和所述二级候选答案数据合并,生成所述候选答案数据。
在上述实现过程中,候选答案数据分别由一级候选答案数据和二级候选答案数据共同构成,候选答案数据量更加丰富。
进一步地,所述根据所述基本答案数据生成一级候选答案数据的步骤,包括:
获取所述基本答案数据中的主语结构;
替换主语结构为代词结构,生成一级候选答案数据。
在上述实现过程中,一级候选答案数据为替换基本答案数据的主语结构所形成的答案数据,一级候选答案数据的所有主语都为代词结构,扩展一级候选答案数据可以增加候选答案数据的数据量。
进一步地,所述根据基本答案数据和一级候选答案数据生成二级候选答案数据的步骤,包括:
获取基本答案数据和一级候选答案数据中的动词结构;
删除动词结构中的名词结构,生成二级候选答案数据。
在上述实现过程中,根据一级候选答案数据和基本答案数据进而生成二级答案数据,二级答案数据在一级候选答案数据的基础上加以改进,获得的答案数据更加精准。
本申请通过进一步扩展答案数据得到更多的候选答案数据,再在候选答案数据中进行评分选取最准确的最终答案数据,使得语义分析结果可以更加准确。
第二方面,本申请实施例还提供了一种用于问答系统的答案扩展装置,所述装置包括:
问答对数据模块,用于获取问答对数据,所述问答对数据包括答案数据;
扩展性分析模块,用于对所述答案数据进行扩展性分析,获得可扩展答案数据;
扩展模块,用于对所述可扩展答案数据进行扩展,获得候选答案数据;
评分处理模块,用于对所述候选答案数据进行评分处理,获得最终答案数据。
在上述实现过程中,获取问答对数据模块获取到问答对数据,再对问答对数据进行扩展性分析,对获取到的可扩展答案数据扩展后进行评分处理,最终获得最终答案数据。
第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法。
第四方面,本申请实施例提供的一种存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
第五方面,本申请实施例提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他相关的附图。
图1为本申请实施例提供的用于问答系统的答案扩展方法的流程示意图;
图2为本申请实施例提供短语结构树的示意图;
图3为本申请实施例提供的用于问答系统的答案扩展装置的结构组成示意图;
图4为本申请实施例提供电子设备的结构组成示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
可选地,本申请以各个实施例的执行主体为计算机为例进行说明,且只针对本申请有效。本实施例对编译主题两方有特定要求,但对计算机设备类型不做具体要求。
实施例一
本申请实施例提供的用于问答系统的答案扩展方法的流程,如图1所示,该方法包括:
S1,获取问答对数据,该问答对数据包括答案数据;
S2,对答案数据进行扩展性分析,获得可扩展答案数据;
S3,对可扩展答案数据进行扩展,获得候选答案数据;
S4,对候选答案数据进行评分处理,获得最终答案数据。
在S1中,获得问答对数据,包括答案数据和问题数据,答案数据和问题数据相互对应,且每个问题相对的答案是固定的,获得的答案数据有且仅有一个。例如,获得的问题数据为:你的同桌叫什么名字?答案数据为:他叫小明。一对问答对数据一定由一个问题和一个答案构成。
在S2中,对答案数据进行扩展性分析,获得可扩展答案数据;
具体地,S2进一步包括:
获取所述答案数据中的词语数量;
判断答案数据中的词语数量是否小于或者等于阈值;
若答案数据中的词语数量小于或者等于阈值,判断问题数据中是否不包含敏感词汇;若答案数据中的词语数量大于阈值,判定答案数据为非可扩展答案数据;
若问题数据中不包含敏感词汇,获取答案数据中的可扩展答案数据;若问题数据中包含敏感词汇,判定答案数据为非扩展答案数据。
在一对问答对数据中,虽然答案相对问题固定,但是答案数量可以扩展成很多个,如答案数据为“他叫小明;小明;他的名字叫小明”可以是基于同一个问题数据的答案。需要说明的是,答案数据至少有一个,但是数量并不固定,并不是所有的答案数据都可以有很多个,一些答案数据不能扩展成多个,只有唯一一个。因此,需要对答案数据是否可以进行扩展作扩展性分析。
一般来说,对于一个问答对做如下的定义:一个问题i记作Question,对应的答案为Answer。两者组成一个问答对QApairi,表示为(Questioni,Answeri)。一个问题或者答案,可以由若干的分好的词组成,可以表示为其中i表示第i个问题(i_Q)或者答案(i_A),k为词序号,max表示允许的句子的最大的词的个数。判断一个答案Answeri是否可以进一步的进行扩展,本发明确定如下判断方法,如果均能满足则认为该答案可以进行扩展:
1.Answeri的词个数不大于4;
2.Questioni不包含“如何”“怎样”“步骤”等敏感词汇。
以上的处理是保证了需要被扩展的答案都是比较短的,是否包含敏感词汇需要判断是否是敏感词汇库中的词语,另外,只对事实类的问题进行回答,无需对方法、步骤类等不存在客观固定答案的答案数据进行扩展。经过扩展性分析之后,则可以获得可扩展答案数据。
在S3中,对可扩展答案数据进行扩展,获得候选答案数据。
具体地,S3进一步包括:
获取可扩展答案数据对应的问题数据;
对可扩展答案数据对应的问题数据进行句法分析,获取短语结构树;
根据短语结构树生成候选答案数据。
在获得可扩展答案数据之后,需要对答案进行扩展获得更多的答案数据,在应用在系统中,获得答案的方法一般有两种,一种是根据问题获得答案,一种是利用片段抽取的方法从文本中得到目标答案,无论哪种方法,其中的可扩展答案数据都可以扩展出表达方式多样的答案,但答案的扩展方法唯一。下面以具体例子来说明如何对答案进行扩展。
问答对中的问题的描述都会比较详细,本申请首先对进行短语句法分析。短语句法分析(phrase structure parsing)可以对句子进行比较详细的句法的结构,分析。最终用一些短语结构,例如名词短语(NP),动词短语(VP),介词短语(PP)等符号,把一句话用一棵树的形式进行展示。
以问答(“鲁迅在哪一年写的短篇小说《狂人日记》”,“1918年”)为例,进行分析,其中的问题在句法分析处理后的结果为图2所示:
图2中,最顶层的节点为IP,代表整个句子。NP、VP、PP分别为名词短语、动词短语和介词短语。WH-符号则是修饰符,代表了该结构中出现了问句结构(时间、地点、位置、数量等相关的问句)。当前已有大量开源的句法分析器可以使用,如Stanford Parser,BerkeleyParser等。
在得到问题的句法结构的基础上,本申请做如下的问题扩展方法:
1.进行目标位置确定,替换得到基本答案:
在句法分析的结果中,查找包含WH-修饰符的部分结构,找到该位置后,将答案进行替换。可以得到句子“鲁迅在1918年写的短篇小说《狂人日记》”。
2.基本答案的进一步扩展,进行如下操作:
①代词可选替换
对于基本的主谓结构NP VP结构中,主语部分的NP可以替换为代词。代词可以使用“他、她、它、他们、她们、它们”等。因为有性别的差别,本申请使用已有的人名性别库、基础的物品库等,进行查询确认。在此操作后,可以得到答案“他在1918年写的短篇小说《狂人日记》”。
②可选成分删除等操作
对于句子中部分的NP、VP等成分会出现冗余的部分,特别是对于位于VP下面的NP结构,可以选择性的删除。例如示例中的NP下有“短篇小说”和“《狂人日记》”两个词,可以选择性删除,甚至都删掉。
因为以上的两步操作均为可选操作,变化的组合会有种可选。枚举如下:“鲁迅在1918年写的”;“鲁迅在1918年写的短篇小说”;“鲁迅在1918年写的《狂人日记》”;“鲁迅在1918年写的短篇小说《狂人日记》”;“他在1918年写的”;“他在1918年写的短篇小说”;“他在1918年写的《狂人日记》”;“他在1918年写的短篇小说《狂人日记》”。
在S4中,对候选答案数据进行评分处理,获得最终答案数据;
具体地,S4进一步包括:
获取候选答案的字串;
利用搜索引擎对字串进行评分,生成元组值;
获取元组值最高的候选答案数据。
在以上几步获得了候选答案数据后,需要根据生成答案的准确性和流畅性进行打分、选取。为了提高效率,也可以进行自动的进行排序。具体来说,可以通过搜索引擎判断。
对一个候选的答案AnswerCandi,将句子的字串作为关键词,输入到搜索引擎(百度,谷歌等)进行搜索,返回找到的相关结果数scorecounti,该数值表征了句子的热度频次,得到元组(AnswerCandi,scorecounti)。根据scorecounti的最大值,选择作为最终答案。
本申请所提及的一种扩展问题答案丰富性的方法,通过对原始的问句中的答案进行扩展,进一步的利用网络数据进行筛选,最终能够对答案进行较好的扩展,答案数据更具准确性,可以提高神经网络的准确率,智能对话机器人的使用范围也更广泛。
实施例二
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种用于问答系统的答案扩展装置,如图3所示,该装置包括:
问答对数据模块1,用于获取问答对数据,问答对数据包括答案数据;
扩展性分析模块2,用于对答案数据进行扩展性分析,获得可扩展答案数据;
扩展模块3,用于对可扩展答案数据进行扩展,获得候选答案数据;
评分处理模块4,用于对候选答案数据进行评分处理,获得最终答案数据。
进一步地,扩展性分析模块2包括:
阈值判断单元,用于判断答案数据是否小于等于阈值;
敏感词汇判断单元,用于判断答案数据是否包含有敏感词汇。
词语获取单元,用于获取答案数据中的词语数量;
阈值判断单元,用于判断答案数据中的词语数量是否小于或者等于阈值;
当阈值判断单元的判断结果为是时,判断所述问题数据中是否不包含敏感词汇;当阈值判断单元的判断结果为否时,判定所述答案数据为非可扩展答案数据;
若所述问题数据中不包含敏感词汇,获取所述答案数据中的可扩展答案数据;若所述问题数据中包含敏感词汇,判定所述答案数据为非扩展答案数据。
进一步地,扩展模块3包括:
答案数据获取单元,用于获取可扩展答案数据对应的问题数据;
短语结构树获取单元,对可扩展答案数据对应的问题数据进行句法分析,获取短语结构树;
候选答案数据生成单元,用于根据短语结构树生成候选答案数据。
候选答案数据生成单元包括:
替换子单元,用于将短语结构进行替换生成基本答案数据;还用于获取基本答案数据中的主语结构,将主语结构进行替换;还用于获取基本答案数据和一级候选答案数据中的动词结构,删除动词结构中的名词结构;
生成子单元,用于根据基本答案数据生成一级候选答案数据;还用于根据基本答案数据和一级候选答案数据生成二级候选答案数据;还用于将基本答案数据、一级候选答案数据和二级候选答案数据合并,生成候选答案数据。
进一步地,评分处理模块4包括:
字串获取单元,用于获取候选答案的字串;
元组值生成单元,用于利用搜索引擎对候选答案的字串进行评分,生成元组值;
候选答案数据生成单元,用于获取元组值最高的候选答案数据。
实施例三
本申请实施例提供一种电子设备,包括存储器及处理器,该存储器用于存储计算机程序,该处理器运行计算机程序以使电子设备执行实施例一的用于问答系统的答案扩展方法。
可选地,上述电子设备可以是服务器。
请参见图4,图4为本申请实施例提供的电子设备的结构组成示意图。该电子设备可以包括处理器41、通信接口42、存储器43和至少一个通信总线44。其中,通信总线44用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口42用于与其他节点设备进行信令或数据的通信。处理器41可以是一种集成电路芯片,具有信号的处理能力。
上述的处理器41可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器41也可以是任何常规的处理器等。
存储器43可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器43中存储有计算机可读取指令,当计算机可读取指令由所述处理器41执行时,设备可以执行上述图1至图2方法实施例涉及的各个步骤。
可选地,电子设备还可以包括存储控制器、输入输出单元。存储器43、存储控制器、处理器41、外设接口、输入输出单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线44实现电性连接。处理器41用于执行存储器33中存储的可执行模块,例如设备包括的软件功能模块或计算机程序。
输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。输入输出单元可以是,但不限于,鼠标和键盘等。
可以理解,图4所示的结构仅为示意,电子设备还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
另外,本申请实施例还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一的用于问答系统的答案扩展方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种用于问答系统的答案扩展方法,其特征在于,所述方法包括:
获取问答对数据,所述问答对数据包括答案数据;
对所述答案数据进行扩展性分析,获得可扩展答案数据;
对所述可扩展答案数据进行扩展,获得候选答案数据;
对所述候选答案数据进行评分处理,获得最终答案数据。
2.如权利要求1所述的用于问答系统的答案扩展方法,其特征在于,所述问答对数据还包括与所述答案数据相对应的问题数据,所述对所述答案数据进行扩展性分析,获得可扩展答案数据的步骤,包括:
获取所述答案数据中的词语数量;
判断所述答案数据中的词语数量是否小于或者等于阈值;
若所述答案数据中的词语数量小于或者等于阈值,判断所述问题数据中是否不包含敏感词汇;若所述答案数据中的词语数量大于阈值,判定所述答案数据为非可扩展答案数据;
若所述问题数据中不包含敏感词汇,获取所述答案数据中的可扩展答案数据;若所述问题数据中包含敏感词汇,判定所述答案数据为非扩展答案数据。
3.如权利要求1所述的用于问答系统的答案扩展方法,其特征在于,所述对所述可扩展答案数据进行扩展,获得候选答案数据的步骤,包括:
获取所述可扩展答案数据对应的问题数据;
对所述可扩展答案数据对应的问题数据进行句法分析,获取短语结构树;
根据所述短语结构树生成候选答案数据。
4.根据权利要求1所述的用于问答系统的答案扩展方法,其特征在于,所述对所述候选答案数据进行评分处理,获得最终答案数据的步骤,包括:
获取候选答案的字串;
利用搜索引擎对所述字串进行评分,生成元组值;
获取所述元组值最高的候选答案数据。
5.根据权利要求3所述的用于问答系统的答案扩展方法,其特征在于,所述对所述可扩展答案数据对应的问题数据进行句法分析,获取所述短语结构树的步骤,包括:
根据固定短语结构对所述问题数据进行拆分,获得结构化的问题数据,所述结构化的问题数据包括其中任意两种或多种:名词短语信息、动词短语信息、介词短语信息;
将所述结构化的问题数据生成所述短语结构树。
6.根据权利要求3所述的用于问答系统的答案扩展方法,其特征在于,所述根据所述短语结构树生成候选答案数据的步骤,包括:
将所述短语结构进行替换生成基本答案数据;
根据所述基本答案数据生成一级候选答案数据;
根据所述基本答案数据和所述一级候选答案数据生成二级候选答案数据;
将所述基本答案数据、所述一级候选答案数据和所述二级候选答案数据合并,生成所述候选答案数据。
7.根据权利要求6所述的用于问答系统的答案扩展方法,其特征在于,所述根据所述基本答案数据生成一级候选答案数据的步骤,包括:
获取所述基本答案数据中的主语结构;
替换主语结构为代词结构,生成一级候选答案数据。
8.根据权利要求6所述的用于问答系统的答案扩展方法,其特征在于,所述根据基本答案数据和一级候选答案数据生成二级候选答案数据的步骤,包括:
获取基本答案数据和一级候选答案数据中的动词结构;
删除动词结构中的名词结构,生成二级候选答案数据。
9.一种用于问答系统的答案扩展装置,其特征在于,所述装置包括:
问答对数据模块,用于获取问答对数据,所述问答对数据包括答案数据;
扩展性分析模块,用于对所述答案数据进行扩展性分析,获得可扩展答案数据;
扩展模块,用于对所述可扩展答案数据进行扩展,获得候选答案数据;
评分处理模块,用于对所述候选答案数据进行评分处理,获得最终答案数据。
10.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011643474.XA CN112732885A (zh) | 2020-12-30 | 2020-12-30 | 用于问答系统的答案扩展方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011643474.XA CN112732885A (zh) | 2020-12-30 | 2020-12-30 | 用于问答系统的答案扩展方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112732885A true CN112732885A (zh) | 2021-04-30 |
Family
ID=75609264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011643474.XA Pending CN112732885A (zh) | 2020-12-30 | 2020-12-30 | 用于问答系统的答案扩展方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732885A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515932A (zh) * | 2021-07-28 | 2021-10-19 | 北京百度网讯科技有限公司 | 处理问答信息的方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100076978A1 (en) * | 2008-09-09 | 2010-03-25 | Microsoft Corporation | Summarizing online forums into question-context-answer triples |
CN104573028A (zh) * | 2015-01-14 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 实现智能问答的方法和系统 |
CN109213847A (zh) * | 2018-09-14 | 2019-01-15 | 广州神马移动信息科技有限公司 | 答案的分层方法及其装置、电子设备、计算机可读介质 |
CN112106056A (zh) * | 2018-05-09 | 2020-12-18 | 甲骨文国际公司 | 构造虚构的话语树来提高回答聚敛性问题的能力 |
-
2020
- 2020-12-30 CN CN202011643474.XA patent/CN112732885A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100076978A1 (en) * | 2008-09-09 | 2010-03-25 | Microsoft Corporation | Summarizing online forums into question-context-answer triples |
CN104573028A (zh) * | 2015-01-14 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 实现智能问答的方法和系统 |
CN112106056A (zh) * | 2018-05-09 | 2020-12-18 | 甲骨文国际公司 | 构造虚构的话语树来提高回答聚敛性问题的能力 |
CN109213847A (zh) * | 2018-09-14 | 2019-01-15 | 广州神马移动信息科技有限公司 | 答案的分层方法及其装置、电子设备、计算机可读介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515932A (zh) * | 2021-07-28 | 2021-10-19 | 北京百度网讯科技有限公司 | 处理问答信息的方法、装置、设备和存储介质 |
CN113515932B (zh) * | 2021-07-28 | 2023-11-10 | 北京百度网讯科技有限公司 | 处理问答信息的方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475623B (zh) | 基于知识图谱的案件信息语义检索方法及装置 | |
JP6813591B2 (ja) | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム | |
KR100546743B1 (ko) | 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템 | |
RU2488877C2 (ru) | Идентификация семантических взаимоотношений в косвенной речи | |
CN110276071B (zh) | 一种文本匹配方法、装置、计算机设备及存储介质 | |
KR20160026892A (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
JP2012520527A (ja) | ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法 | |
KR20040111715A (ko) | 검색 시스템에 사용하기 위해 텍스트 문서로부터 정보를검색하기 위한 자기 학습 시스템의 합성 방법 | |
WO2014008272A1 (en) | Learning-based processing of natural language questions | |
Bashir et al. | Arabic natural language processing for Qur’anic research: a systematic review | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN118170894B (zh) | 一种知识图谱问答方法、装置及存储介质 | |
KR20200014047A (ko) | 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램 | |
Rasywir et al. | Removal of Modulo as Hashing Modification Process in Essay Scoring System Using Rabin-Karp | |
US9507834B2 (en) | Search suggestions using fuzzy-score matching and entity co-occurrence | |
CN112732885A (zh) | 用于问答系统的答案扩展方法、装置及电子设备 | |
CN110750632A (zh) | 一种改进的中文alice智能问答方法及系统 | |
JP2013069170A (ja) | 検索装置、検索方法およびプログラム | |
JP2019003270A (ja) | 学習装置、映像検索装置、方法、及びプログラム | |
KR100452024B1 (ko) | 자연어 질의 응답 검색 엔진 및 검색 방법 | |
JP6553557B2 (ja) | 学習装置、映像検索装置、方法、及びプログラム | |
CN115270786B (zh) | 一种识别问句意图的方法、装置、设备和可读存储介质 | |
Ramos et al. | A QA System for learning Python | |
Hakkoum et al. | A portable natural language interface to Arabic ontologies | |
CN118093838B (zh) | 一种大语言模型提示词生成方法、系统、终端设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 201, building 4, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing Applicant after: Beijing Yunji Technology Co.,Ltd. Address before: Room 201, building 4, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing Applicant before: BEIJING YUNJI TECHNOLOGY Co.,Ltd. |