CN117216214A - 一种问答抽取的生成方法、装置、设备及介质 - Google Patents
一种问答抽取的生成方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117216214A CN117216214A CN202311178355.5A CN202311178355A CN117216214A CN 117216214 A CN117216214 A CN 117216214A CN 202311178355 A CN202311178355 A CN 202311178355A CN 117216214 A CN117216214 A CN 117216214A
- Authority
- CN
- China
- Prior art keywords
- target
- title
- titles
- question
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000000605 extraction Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 22
- 230000015572 biosynthetic process Effects 0.000 claims description 21
- 230000000295 complement effect Effects 0.000 claims description 21
- 230000000750 progressive effect Effects 0.000 claims description 13
- 230000000153 supplemental effect Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 34
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000001502 supplementing effect Effects 0.000 description 8
- 208000025174 PANDAS Diseases 0.000 description 6
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 6
- 240000004718 Panda Species 0.000 description 6
- 235000016496 Panda oleosa Nutrition 0.000 description 6
- RAXXELZNTBOGNW-UHFFFAOYSA-N imidazole Natural products C1=CNC=N1 RAXXELZNTBOGNW-UHFFFAOYSA-N 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请涉及自然语言处理领域,具体涉及一种问答抽取的生成方法、装置、设备及介质,用于解决根据文档内容生成问答抽取的准确性差的问题。该方法包括:确定业务文档的目录下各标题中的目标标题,其中,目标标题为各标题中路径层级非第一层级的标题中的部分或全部,第一层级与业务文档的标题相对应,针对任意一个目标标题,从预设的专有名词集合中查找与任意一个目标标题相匹配的目标专有名词,并基于目标专有名词生成与任意一个目标标题对应的问题,基于业务文档包括的任意一个目标标题对应的文档内容生成问题对应的答案,根据目录下的目标标题生成问题,并根据目标标题的文档内容生成答案的方式,有效提升了问答抽取的准确性。
Description
技术领域
本申请涉及自然语言处理领域,具体涉及一种问答抽取的生成方法、装置、设备及介质。
背景技术
问答抽取是指从文本中自动抽取问题和答案的过程,目前,在获取问答抽取的过程中,需要针对文档内容处理大量的自然语言数据和信息(即文档内容),获取的问答抽取的准确性较差,原因主要有以下几个方面:
一是,实际处理过程中的文档内容可能涉及比较复杂的问答场景和领域,例如,文档内容包括多个实体和事件等,这样无法保证问答抽取与文档内容的一致性。
二是,问答抽取过程中需要大量的标注数据来训练和评估模型,但受到文档内容的数据偏差和噪声的影响,无法保证标注数据的质量,进而无法保证问答抽取的准确性。
三是,目前问答抽取过程中需要对大量的自然语言数据和信息,相应的需要耗费的计算资源较多,进而导致运行成本过高,若要获取精确的问答抽取需要耗费更多的计算资源。
发明内容
本申请实施例提供一种问答抽取的生成方法、装置、设备及介质,用于解决问答抽取的准确性较差的问题。
第一方面,一种问答抽取的生成方法包括:
确定业务文档的目录下各标题中的目标标题,其中,目标标题为各标题中路径层级非第一层级的标题中的部分或全部,第一层级与业务文档的标题相对应;
针对任意一个目标标题,从预设的专有名词集合中查找与任意一个目标标题相匹配的目标专有名词,并基于目标专有名词生成与任意一个目标标题对应的问题;
基于业务文档包括的任意一个目标标题对应的文档内容生成问题对应的答案。
本申请实施例中,从业务文档的目录下的各个标题中确定出用于生成问题的目标标题,以及,运用预设的专有名词集合对上述目标标题进行匹配,进而根据相匹配的目标专有名词生成问题,从而有效提升了确定出来的问题的准确性,在此基础上,进一步根据目标标题对应的文档内容生成上述问题的答案,从而保证了确定出来的答案的准确性。
在一种可能的实施例中,确定业务文档的目录下各标题中的目标标题,包括:
提取业务文档的目录下各标题分别对应的目录标识;
基于各目录标识的样式确定各标题的路径层级的递进关系,并将属于同一个递进关系的路径层级的至少两个标题确定为一个分支目录,其中,分支目录下各标题的路径层级包括第一层级和至少一个非第一层级;
针对任意一个分支目录,将分支目录中路径层级不是第一层级的至少一个标题确定为目标标题,其中,一个分支目录对应至少一个问题。
在一种可能的实施例中,针对任意一个分支目录,将分支目录中路径层级不是第一层级的至少一个标题确定为目标标题,包括:
针对任意一个分支目录,确定分支目录下各标题的路径层级;
将路径层级最长的至少一个标题确定为目标标题。
在一种可能的实施例中,针对任意一个目标标题,从预设的专有名词集合中查找与任意一个目标标题相匹配的目标专有名词,包括:
针对任意一个目标标题,拆分目标标题的句子组成部分,得到多个句子成分词;
在专有名词集合中分别查找与句子成分词的相似度超过预设阈值的专有名词,并将查找到的至少一个专有名词作为与任意一个目标标题相匹配的目标专有名词;
基于目标专有名词生成与任意一个目标标题对应的问题,包括:
将目标专有名词按照预设的问题构成格式生成与目标标题对应的问题。
在一种可能的实施例中,将目标专有名词按照预设的问题构成格式生成与目标标题对应的问题之前,还包括:
确定目标专有名词在目标标题对应的文档内容中出现的频率;
从目标标题对应的文档内容中提取关键句;
若频率不大于预设词频,或者,关键句中不包括目标专有名词,则在预设的备选专有名词集合中查找与句子成分词的相似度超过预设阈值的备选专有名词;
将目标专有名词按照预设的问题构成格式生成与目标标题对应的问题,包括:
将在备选专有名词集合中查找到的备选专有名词按照预设的问题构成格式生成与目标标题对应的问题。
在一种可能的实施例中,基于目标专有名词生成与任意一个目标标题对应的问题之后,还包括:
基于预设的专有名词集合以及与目标标题相关联的各级相关标题,确定问题的补充问题,其中,目标标题和各级相关标题位于同一个分支目录中,相关标题在分支目录中的路径层级比目标标题的路径层级短;
将补充问题合并到问题中。
在一种可能的实施例中,基于预设的专有名词集合和与目标标题相关联的各级相关标题,确定问题的补充问题,包括:
将同一个分支目录下与目标标题的路径层级之间的路径层级差值小于预设层数的标题确定为与目标标题相关联的各级相关标题;
在预设的专有名词集合中分别查找与各级相关标题的句子组成成分的相似度超过预设阈值的专有名词;
将查找到的专有名词按照预设的问题构成格式生成问题的补充问题。
在一种可能的实施例中,将补充问题合并到问题中,包括:
基于补充问题与问题的限定关系,将补充问题中的专有名词和问题中的目标专有名词进行合并;
将合并后的专有名词和目标专有名词按照预设的问题构成格式转换为问句,并将问句作为问题。
在一种可能的实施例中,基于业务文档包括的任意一个目标标题对应的文档内容生成问题对应的答案,包括:
若业务文档包括的任意一个目标标题对应的文档内容与问题匹配,则将文档内容按照预设的格式进行划分,并基于划分后的文档内容生成问题对应的答案。
在一种可能的实施例中,通过以下方式判断业务文档包括的任意一个目标标题对应的文档内容与问题是否匹配:
提取业务文档包括的目标标题对应的文档内容中的关键词,并将关键词转换为关键词向量;
将问题中的目标专有名词转换为目标向量;
基于关键词向量和目标向量之间的距离确定向量相似度;
若向量相似度大于预设相似阈值,则判定业务文档包括的目标标题对应的文档内容与问题匹配;否则,则判定业务文档包括的目标标题对应的文档内容与问题不匹配。
第二方面,本申请提供一种问答抽取的生成装置,所述装置包括:
目标标题确定模块,用于确定业务文档的目录下各标题中的目标标题,其中,目标标题为各标题中路径层级非第一层级的标题中的部分或全部;
问题确定模块,用于针对任意一个目标标题,从预设的专有名词集合中查找与任意一个目标标题相匹配的目标专有名词,并基于目标专有名词生成与任意一个目标标题对应的问题;
答案确定模块,用于基于业务文档包括的任意一个目标标题对应的文档内容生成问题对应的答案。
在一种可能的实施例中,确定业务文档的目录下各标题中的目标标题,所述目标标题确定模块用于:
提取业务文档的目录下各标题分别对应的目录标识;
基于各目录标识的样式确定各标题的路径层级的递进关系,并将属于同一个递进关系的路径层级的至少两个标题确定为一个分支目录,其中,分支目录下各标题的路径层级包括第一层级和至少一个非第一层级;
针对任意一个分支目录,将分支目录中路径层级不是第一层级的至少一个标题确定为目标标题,其中,一个分支目录对应至少一个问题。
在一种可能的实施例中,针对任意一个分支目录,将分支目录中路径层级不是第一层级的至少一个标题确定为目标标题,所述问题确定模块用于:
针对任意一个分支目录,确定分支目录下各标题的路径层级;
将路径层级最长的至少一个标题确定为目标标题。
在一种可能的实施例中,针对任意一个目标标题,从预设的专有名词集合中查找与任意一个目标标题相匹配的目标专有名词,所述问题确定模块还用于:
针对任意一个目标标题,拆分目标标题的句子组成部分,得到多个句子成分词;
在专有名词集合中分别查找与句子成分词的相似度超过预设阈值的专有名词,并将查找到的至少一个专有名词作为与任意一个目标标题相匹配的目标专有名词;
基于目标专有名词生成与任意一个目标标题对应的问题,所述问题确定模块还用于:
将目标专有名词按照预设的问题构成格式生成与目标标题对应的问题。
在一种可能的实施例中,将目标专有名词按照预设的问题构成格式生成与目标标题对应的问题之前,所述装置还包括校验模块,所述校验模块用于:
确定目标专有名词在目标标题对应的文档内容中出现的频率;
从目标标题对应的文档内容中提取关键句;
若频率不大于预设词频,或者,关键句中不包括目标专有名词,则在预设的备选专有名词集合中查找与句子成分词的相似度超过预设阈值的备选专有名词;
将目标专有名词按照预设的问题构成格式生成与目标标题对应的问题,所述问题确定模块还用于:
将在备选专有名词集合中查找到的备选专有名词按照预设的问题构成格式生成与目标标题对应的问题。
在一种可能的实施例中,基于目标专有名词生成与任意一个目标标题对应的问题之后,所述装置还包括问题补充模块,所述问题补充模块用于:
基于预设的专有名词集合以及与目标标题相关联的各级相关标题,确定问题的补充问题,其中,目标标题和各级相关标题位于同一个分支目录中,相关标题在分支目录中的路径层级比目标标题的路径层级短;
将补充问题合并到问题中。
在一种可能的实施例中,基于预设的专有名词集合和与目标标题相关联的各级相关标题,确定问题的补充问题,所述问题补充模块还用于:
将同一个分支目录下与目标标题的路径层级之间的路径层级差值小于预设层数的标题确定为与目标标题相关联的各级相关标题;
在预设的专有名词集合中分别查找与各级相关标题的句子组成成分的相似度超过预设阈值的专有名词;
将查找到的专有名词按照预设的问题构成格式生成问题的补充问题。
在一种可能的实施例中,将补充问题合并到问题中,所述问题补充模块还用于:
基于补充问题与问题的限定关系,将补充问题中的专有名词和问题中的目标专有名词进行合并;
将合并后的专有名词和目标专有名词按照预设的问题构成格式转换为问句,并将问句作为问题。
在一种可能的实施例中,基于业务文档包括的任意一个目标标题对应的文档内容生成问题对应的答案,所述答案确定模块用于:
若业务文档包括的任意一个目标标题对应的文档内容与问题匹配,则将文档内容按照预设的格式进行划分,并基于划分后的文档内容生成问题对应的答案。
在一种可能的实施例中,通过以下方式判断业务文档包括的任意一个目标标题对应的文档内容与问题是否匹配:
提取业务文档包括的目标标题对应的文档内容中的关键词,并将关键词转换为关键词向量;
将问题中的目标专有名词转换为目标向量;
基于关键词向量和目标向量之间的距离确定向量相似度;
若向量相似度大于预设相似阈值,则判定业务文档包括的目标标题对应的文档内容与问题匹配;否则,则判定业务文档包括的目标标题对应的文档内容与问题不匹配。
第三方面,本申请提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中任一项所述的方法包括的步骤。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行第一方面中任一项所述的方法。
第五方面,本申请提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行第一方面中任一项所述的方法。
附图说明
图1为本申请实施例提供的一种问答抽取的生成方法的场景应用示意图;
图2为本申请实施例提供的一种问答抽取的生成方法的流程图;
图3为本申请实施例提供的一种确定目标标题的流程图;
图4为本申请实施例提供的一种根据路径层级确定目标标题的流程图;
图5为本申请实施例提供的一种根据目标标题确定问题的流程图;
图6为本申请实施例提供的一种运用补充问题对问题进行补充的流程图;
图7为本申请实施例提供的一种根据相关标题确定补充问题的流程图;
图8为本申请实施例提供的一种将补充问题合并到问题中的流程图;
图9为本申请实施例提供的第一种问答抽取的生成装置的结构图;
图10为本申请实施例提供的第二种问答抽取的生成装置的结构图;
图11为本申请实施例提供的第三种问答抽取的生成装置的结构图;
图12为本申请实施例提供的一种电子设备的结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以按不同于此处的顺序执行所示出或描述的步骤。
本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
本申请技术方案中,对数据的采集、传播、使用等,均符合国家相关法律法规要求。
在介绍本申请实施例所提供的问答抽取的生成方法之前,为了便于理解,首先对下面本申请实施例的技术背景进行详细介绍。
自然语言处理:自然语言处理(Natural Language Processing,NLP)是计算机科学和人工智能领域的一个重要方向,研究如何让计算机系统能够实现与人类之间用自然语言进行有效通信。它融合了语言学、计算机科学和数学等多个学科,与语言学研究有密切联系,但又有重要的区别。NLP主要关注实现自然语言通信的计算机系统,特别是软件系统。NLP的应用非常广泛,包括但不限于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文光学字符识别((Optical Character Recognition,OCR)等领域。
问答抽取:问答抽取是指从文本中自动抽取问题和答案的过程。问答抽取的方法通常可以分为以下两类:1.抽取问答数据,从大量的文本数据中抽取出问答数据,通常涉及到使用自然语言处理技术来识别问题和答案,并将它们链接到相关的问题和答案。2.问答分类,将抽取出的问答数据分为不同的类别,以便更好地理解问题和答案之间的语义关联,通常涉及到使用机器学习技术来训练分类器,并对每个问题-答案对进行分类。常见的问答抽取方法包括:规则抽取,模板抽取,机器学习抽取,语音识别抽取,多模态抽取。
目前,在获取问答抽取的过程中,需要针对文档内容处理大量的自然语言数据和信息,而文档内容可能涉及比较复杂的问答场景和领域,并且,受到文档内容的数据偏差和噪声的影响,无法保证问答抽取过程中的标注数据的质量,相应的需要耗费的计算资源较多,上述各种原因导致的问答抽取的准确性较差。
为了解决上述问答抽取的准确性较低的问题,下面结合附图对本公开优选的实施方式进行详细说明。
参阅图1所示,本公开实施例中,系统中包含了至少一个智能终端,在图1中,将业务文档输入到智能终端中,由智能终端对上述业务文档进行处理,以确定出问答抽取。下面对问答抽取的生成方法的实现步骤进行具体介绍,参阅图2所示:
步骤201:确定业务文档的目录下各标题中的目标标题,其中,目标标题为各标题中路径层级非第一层级的标题中的部分或全部,第一层级与业务文档的标题相对应。
本申请实施例中是以目录下的标题为依据来确定问答抽取的问题的。考虑到一个业务文档的目录下通常包括多个标题,并且,上述各个标题在目录中所处的路径层级不同。
例子1,业务文档A的目录a下包括的路径层级为第一层级的标题1为金融知识简介,在上述标题1下还有路径层级为第二层级的标题1.1金融概述和标题1.2金融产品简介,在上述标题1.2下还有路径层级为第三层级的标题1.2.1利率债和标题1.2.2股票简介。
需要说明的是,上述第一层级的标题1金融知识简介即为业务文档的标题。以上述例子来说明,实施过程中,上述除路径层级为第一层级的标题1金融知识简介以外的其他各标题都可以成为目标标题。
上述确定业务文档的目录下各标题中的目标标题,参阅图3所示,包括:
步骤2011:提取业务文档的目录下各标题分别对应的目录标识。
实施过程中,为了确定出目标标题,在确定了业务文档的目录后,提取出目录下各标题分别对应的目录标识。仍以上述例子1来进行说明,在确定了目录a下包括的各标题分别为目录标识1、目录标识1.1、目录标识1.2、目录标识1.2.1和目录标识1.2.2后,进一步提取各标题对应的目录标识,即上述例子1中的1、1.1、1.2、1.2.1和1.2.2。
步骤2012:基于各目录标识的样式确定各标题的路径层级的递进关系,并将属于同一个递进关系的路径层级的至少两个标题确定为一个分支目录,其中,分支目录下各标题的路径层级包括第一层级和至少一个非第一层级。
实施过程中,在确定出目录标识后,对上述各个目录标识的样式进行分析,上述例子1中,路径层级为第一层级的目录标识1下包括第二层级的1.1和1.2,第二层级的1.2下包括第二层级的1.2.1和1.2.2。即上述1.1与1是同一个递进关系,上述1.2.1与1.2和1是同一个递进关系,上述1.2.2与1.2和1是同一个递进关系。
进一步将上述目录标识1和目录标识1.1构成一个分支目录1,上述目录标识1、目录标识1.2和目录标识1.2.1构成一个分支目录2,上述目录标识1、目录标识1.2和目录标识1.2.2构成一个分支目录3。
需要说明的是,上述各个分支目录下的标题的路径层级包括的层级数量为至少两个,即第一层级和至少一个非第一层级,例如,分支目录1即包括第一层级和一个第二层级。
步骤2013:针对任意一个分支目录,将分支目录中路径层级不是第一层级的至少一个标题确定为目标标题,其中,一个分支目录对应至少一个问题。
在根据各目录标识的样式确定出分支目录后,进一步根据分支目录中的标题来确定目标标题,需要说明的是,本申请实施例中,问答抽取的过程中一个分支目录确定出至少一个问题。
上述针对任意一个分支目录,将分支目录中路径层级不是第一层级的至少一个标题确定为目标标题,参阅图4所示,包括:
步骤20131:针对任意一个分支目录,确定分支目录下各标题的路径层级。
实施过程中,针对每一个分支目录都执行以下操作:确定出分支目录下各个标题的路径层级。以上述分支目录1为例来说明,路径层级包括第一层级1和第二层级1.1。以上述分支目录3为例来说明,路径层级包括第一层级1、第二层级1.2和第三层级1.2.2。
步骤20132:将路径层级最长的至少一个标题确定为目标标题。
实施过程中,针对每一个分支目录都执行以下操作:比较上述确定出来的各标题的路径层级的长度,并将路径层级最长的至少一个标题确定为目标标题。以上述分支目录3为例来说明,路径层级包括第一层级1、第二层级1.2和第三层级1.2.2,相应的路径层级的长度分别为1、2和3。
在确定了路径层级的长度后,将路径层级最长的一个标题确定为目标标题,以上述分支目录3为例来说明,将路径层级1.2.2对应的标题股票简介确定为目标标题。
步骤202:针对任意一个目标标题,从预设的专有名词集合中查找与任意一个目标标题相匹配的目标专有名词,并基于目标专有名词生成与任意一个目标标题对应的问题。
在确定了目标标题后,进一步根据目标标题来生成问题。上述针对任意一个目标标题,从预设的专有名词集合中查找与任意一个目标标题相匹配的目标专有名词,参阅图5所示,包括:
步骤2021:针对任意一个目标标题,拆分目标标题的句子组成部分,得到多个句子成分词。
考虑到目标标题的组成结构,实施过程中,先对任意一个目标标题进行拆分,优选地,利用马尔科夫链模型将目标标题按照主语、谓语、宾语等的句子组成部分进行拆分,得到多个句子成分词。例如,对上述目标标题股票简介进行拆分,得到的句子成分词为股票和简介。
需要进行说明的是,当标题的句子成分词较多时,还可以运用UIE模型对上述句子成分词进行筛选,即预先用下表1中的专有名词对UIE模型进行训练,然后,运用训练好的NIE模型进一步拆分句子成分词中的专有名词。
步骤2022:在专有名词集合中分别查找与句子成分词的相似度超过预设阈值的专有名词,并将查找到的至少一个专有名词作为与任意一个目标标题相匹配的目标专有名词。
考虑到业务文档所属的领域和核心思想,本申请实施例中会预先建立专有名词集合,通过上述专有名词集合来对上述句子成分词进行筛选。在一种实施方式中,将金融领域的专有名词预先分为表1中的五类:金融市场类、金融产品类、金融机构类、金融工具类和金融管理类,每一类中包括的专有名词如表1所示。
表1
考虑到句子成分词与专有名词集合中的专有名词有可能不一致,实施过程中,针对拆分出来的每一个句子成分词,计算该句子成分词与专有名词集合中的每一个专有名词之间的相似度,并从中将相似度超过预设阈值的专有名词作为与任意一个目标标题相匹配的目标专有名词。需要说明的是,上述预设阈值的具体数值与具体使用场景相关。
优选地,将相似度最大的专有名词作为与任意一个目标标题相匹配的目标专有名词,即在专有名词集合中挑选出一个相似度最大的专有名词作为与任意一个目标标题相匹配的目标专有名词。
假设,句子成分词为猫债券,专有名词集合中有专有名词熊猫债券,预设阈值为50%,那么,在计算猫债券和熊猫债券的相似度为75%后,由于,75%大于50%,将熊猫债券作为与任意一个目标标题相匹配的目标专有名词。
在确定了目标专有名词后,进而根据目标专有名词生成问题,具体的基于目标专有名词生成与任意一个目标标题对应的问题,包括:
步骤2023:将目标专有名词按照预设的问题构成格式生成与目标标题对应的问题。
实施过程中,为了生成问题,需要将上述确定出来的目标专有名词转换为问句。考虑到目标专有名词只是一个词,要转换为问句的话需要预设的问题构成格式,如表2所示。
表2
主语 | [主语]是什么? |
主语+宾语 | [主语]如何[宾语]? |
主语+宾语+谓语 | [主语]如何[宾语][谓语]? |
宾语+谓语 | 如何[宾语][谓语]? |
状语+主语 | [状语],[主语]是什么? |
状语+主语+宾语 | [状语],[主语]如何[宾语]? |
状语+主语+宾语+谓语 | [状语],[主语]如何[宾语][谓语]? |
状语+宾语+谓语 | [状语],如何[宾语][谓语]? |
实施过程中,结合目标专有名词在语句中充当的句子成分以及预设的问题构成格式,将上述目标专有名词转换为问句,即生成与目标标题对应的问题。
为了进一步提升问题确定的准确性,实施过程中,需要对上述确定出来的目标专有名词进一步进行校验,上述将目标专有名词按照预设的问题构成格式生成与目标标题对应的问题之前,还包括:
(一)确定目标专有名词在目标标题对应的文档内容中出现的频率。
实施过程中,首先根据目标标题对应的文档内容对上述目标专有名词进行校验。针对目标标题对应的文档内容,从文档内容中统计上述目标专有名词在文档内容中出现的次数,即频率。
实施过程中,只有当目标专有名词在目标标题对应的文档内容中出现的频率大于预设词频时,才能确定目标专有名词是与文档内容强相关的。
(二)从目标标题对应的文档内容中提取关键句。
为了校验目标专有名词与文档内容的贴合度,实施过程中,运用语义分析的技术从上述目标标题对应的文档内容中提取关键句,这样,能够有效排除掉文档内容中无关的冗余信息。
当提取出的关键句包括上述目标专有名词时,才能确定目标专有名词与文档内容是贴合的。
(三)若频率不大于预设词频,或者,关键句中不包括目标专有名词,则在预设的备选专有名词集合中查找与句子成分词的相似度超过预设阈值的备选专有名词。
实施过程中,如果,上述目标专有名词在目标标题对应的文档内容中出现的频率小于或者等于预设词频,或者,上述提取出来的关键句中不包括目标专有名词,上述两个条件中有一个不满足时,说明上述目标专有名词的准确性较差,在这种情况下,需要根据预设的备选专有名词集合来确定备选专用名词。
具体实施时,分别计算上述每一个句子成分词与预设的备选专有名词集合中的备选专有名词之间的相似度,并从中选取出相似度超过预设阈值的备选专有名词,该选取出的备选专有名词替换掉上述目标专有名词。
例如,当句子成分词为猫债券,专有名词集合中有专有名词债券,预设阈值为40%,那么,在计算猫债券和咪咪债券的相似度为51%后,由于,将咪咪债券作为与任意一个目标标题相匹配的目标专有名词。但当提取出的关键句不包括上述咪咪债券时,进一步通过相似度从备选专有名词集合中查找与猫债券的相似度超过预设阈值的备选专有名词熊猫债券。
在得到备选专有名词后,将目标专有名词按照预设的问题构成格式生成与目标标题对应的问题,包括:
(四)将在备选专有名词集合中查找到的备选专有名词按照预设的问题构成格式生成与目标标题对应的问题。
类似的为了生成问题,需要将上述确定出来的备选专有名词转换为问句。备选专有名词转换为问句的话也需要参照表2所示的预设的问题构成格式来构建。即结合备选专有名词在语句中充当的句子成分以及预设的问题构成格式,将上述备选专有名词转换为问句,即生成与目标标题对应的问题。
上述基于目标专有名词生成与任意一个目标标题对应的问题之后,参阅图6所示,还包括:
步骤2024:基于预设的专有名词集合以及与目标标题相关联的各级相关标题,确定问题的补充问题,其中,目标标题和各级相关标题位于同一个分支目录中,相关标题在分支目录中的路径层级比目标标题的路径层级短。
本申请实施例中,为了使确定出的问题更加精确,还需要结合各级相关标题来确定上述问题的补充问题。
上述基于预设的专有名词集合和与目标标题相关联的各级相关标题,确定问题的补充问题,参阅图7所示,包括:
步骤20241:将同一个分支目录下与目标标题的路径层级之间的路径层级差值小于预设层数的标题确定为与目标标题相关联的各级相关标题。
由于,目标标题通常为同一个分支目录中路径层级最长的标题,实施过程中,在上述同一个分支目录中进一步确定出各级相关标题,即将该同一个分支目录中路径层级比目标标题的路径层级短的标题确定为相关标题。
仍以上述分支目录3为例来说明,标题1金融知识简介、1.2金融产品简介和标题1.2.2股票简介都位于同一个分支目录中,标题1与目标标题股票简介的路径层级之间的路径层级差值为2,标题1.2与目标标题股票简介的路径层级之间的路径层级差值为1,假设,预设层数为1,那么,上述1.2金融产品简介即确定为与目标标题相关联的相关标题,假设,预设层数为2,那么,上述标题1金融知识简介和1.2金融产品简介都确定为与目标标题相关联的各级相关标题。
步骤20242:在预设的专有名词集合中分别查找与各级相关标题的句子组成成分的相似度超过预设阈值的专有名词。
实施过程中,在确定出各级相关标题后,进一步确定出相关标题的句子组成成分,这里句子组成成分的确定与上述句子成分词的确定过程类似,不再一一赘述。
在确定出句子组成成分后,针对每一个句子组成成分,计算该句子组成成分与专有名词集合中的每一个专有名词之间的相似度,并从中查找到相似度超过预设阈值的专有名词。
步骤20243:将查找到的专有名词按照预设的问题构成格式生成问题的补充问题。
实施过程中,将上述查找到的专有名词转换为问句,同样的,考虑到上述查找到的目标专有名词只是一个词,要转换为问句的话需要预设的问题构成格式,如上表2所示。
步骤2025:将补充问题合并到问题中。
本申请实施例中,问答抽取的问题是根据业务文档目录下的目标标题确定的,考虑到有些标题比较简短,可能无法完整的表达出核心意义。为此,实施过程中,在根据目标标题确定出问题,以及,在根据各级相关标题确定出补充问题后,需要进一步将上述补充问题合并到问题中。
上述将补充问题合并到问题中,参阅图8所示,包括:
步骤20251:基于补充问题与问题的限定关系,将补充问题中的专有名词和问题中的目标专有名词进行合并。
考虑到目录下各级标题之间的关联性,实施过程中,先确定出补充问题与问题之间的限定关系,例如,补充问题是柜台办理事宜,问题是利率债的实时交易金额数据,在该例子中补充问题即是对问题的发生场景的限定,相对于主语利率债而言,发生场景为主语的定语,这种情况下,即按照定语+主语的格式,将补充问题中的专有名词和问题中的目标专有名词进行合并,以上例来说,即将柜台办理和利率债进行合并。
步骤20252:将合并后的专有名词和目标专有名词按照预设的问题构成格式转换为问句,并将问句作为问题。
实施过程中,在将专有名词和目标专有名词进行合并后,按照上述表2所示的预设的问题构成格式将合并后的专有名词和目标专有名词转换为问句,转换后的问句即作为问答抽取的新的问题。
需要说明的是,在一些实施例中,可将上述补充问题和问题同时独立保留在问答抽取中,即在一个问答抽取中同时保留补充问题和问题这两个问题,并且,上述问答抽取中两个问题对应一个答案。
步骤203:基于业务文档包括的任意一个目标标题对应的文档内容生成问题对应的答案。
实施过程中,在根据目录下的各标题确定出问答抽取的问题后,进一步根据上述生成问题的目标标题对应的文档内容来生成答案。需要说明的是,业务文档中确定出来的目标标题的个数是不确定的,相应的问题的数量也是不确定的,根据文档内容生成的答案的数目也是不确定的,但答案与上述问题是一一对应的。
上述基于业务文档包括的任意一个目标标题对应的文档内容生成问题对应的答案,包括:
若业务文档包括的任意一个目标标题对应的文档内容与问题匹配,则将文档内容按照预设的格式进行划分,并基于划分后的文档内容生成问题对应的答案。
通常,业务文档的文档内容是很丰富的,即任意一个目标标题对应的文档内容相对于目标标题而言内容较多,文档内容与上述问题的关联性也是不确定的,有些文档内容与上述目标标题的关联性很小,甚至是毫无关系的背景知识,有些文档内容与上述目标标题的关联性很大,直面回答上述问题。
基于此,在根据目标标题对应的文档内容生成问题之前,先要判断业务文档包括的任意一个目标标题对应的文档内容与问题是否匹配,只有在确定目标标题对应的文档内容与问题匹配后,才会进一步将文档内容按照预设的格式进行划分,并基于划分后的文档内容生成问题对应的答案。
需要补充说明的是,上述预设的格式包括图文格式(例如,附图在左,文字在后)、图文表格式等,通过上述预设的格式来统一答案的格式,从而使问答抽取更为规范。实施过程中,将文档内容按照上述预设的格式进行划分,进一步整理上述划分后的文档内容,并生成问题对应的答案。
另外,需要补充说明的是,通过以下方式判断业务文档包括的任意一个目标标题对应的文档内容与问题是否匹配:
(1)提取业务文档包括的目标标题对应的文档内容中的关键词,并将关键词转换为关键词向量。
实施过程中,为了准确衡量文档内容与问题是否匹配,先在业务文档中找到目标标题对应的文档内容,然后,通过语义分析等手段提取出上述文档内容中的关键词,并运用向量处理工具将上述关键词转换为关键词向量。
(2)将问题中的目标专有名词转换为目标向量。
同样的,实施过程中,运用向量处理工具将上述问题中的目标专有名词转换为目标向量。
(3)基于关键词向量和目标向量之间的距离确定向量相似度。
实施过程中,在确定了关键词向量和目标向量之后,计算上述关键词向量和目标向量之间的距离,上述距离越大,向量相似度越大;上述距离越小,向量相似度越小。
(4)若向量相似度大于预设相似阈值,则判定业务文档包括的目标标题对应的文档内容与问题匹配;否则,则判定业务文档包括的目标标题对应的文档内容与问题不匹配。
实施过程中,如果,上述向量相似度大于预设相似阈值,即说明文档内容中的关键词和问题中的目标专有名词强关联,在这种情况下,判定业务文档包括的目标标题对应的文档内容与问题匹配;如果,上述向量相似度不大于预设相似阈值,即说明文档内容中的关键词和问题中的目标专有名词关联性不大,在这种情况下,判定业务文档包括的目标标题对应的文档内容与问题不匹配。
本申请实施例提出的一种问答抽取的生成方法,包括:确定业务文档的目录下各标题中的目标标题,其中,目标标题为各标题中路径层级非第一层级的标题中的部分或全部,第一层级与业务文档的标题相对应,针对任意一个目标标题,从预设的专有名词集合中查找与任意一个目标标题相匹配的目标专有名词,并基于目标专有名词生成与任意一个目标标题对应的问题,基于业务文档包括的任意一个目标标题对应的文档内容生成问题对应的答案,上述根据目录下的目标标题生成问题,并根据目标标题的文档内容生成答案的方式,有效提升了问答抽取的准确性,节约了处理资源,为了保证上述问题的完整性和准确性,运用补充问题对上述问题进行补充限定,从而进一步提升了问答抽取的准确性。
基于同一发明构思,本申请实施例提供一种问答抽取的生成装置,参阅图9所示,该装置包括:
目标标题确定模块901,用于确定业务文档的目录下各标题中的目标标题,其中,目标标题为各标题中路径层级非第一层级的标题中的部分或全部;
问题确定模块902,用于针对任意一个目标标题,从预设的专有名词集合中查找与任意一个目标标题相匹配的目标专有名词,并基于目标专有名词生成与任意一个目标标题对应的问题;
答案确定模块903,用于基于业务文档包括的任意一个目标标题对应的文档内容生成问题对应的答案。
在一种可能的实施例中,确定业务文档的目录下各标题中的目标标题,所述目标标题确定模块901用于:
提取业务文档的目录下各标题分别对应的目录标识;
基于各目录标识的样式确定各标题的路径层级的递进关系,并将属于同一个递进关系的路径层级的至少两个标题确定为一个分支目录,其中,分支目录下各标题的路径层级包括第一层级和至少一个非第一层级;
针对任意一个分支目录,将分支目录中路径层级不是第一层级的至少一个标题确定为目标标题,其中,一个分支目录对应至少一个问题。
在一种可能的实施例中,针对任意一个分支目录,将分支目录中路径层级不是第一层级的至少一个标题确定为目标标题,所述问题确定模块用于:
针对任意一个分支目录,确定分支目录下各标题的路径层级;
将路径层级最长的至少一个标题确定为目标标题。
在一种可能的实施例中,针对任意一个目标标题,从预设的专有名词集合中查找与任意一个目标标题相匹配的目标专有名词,所述问题确定模块还用于:
针对任意一个目标标题,拆分目标标题的句子组成部分,得到多个句子成分词;
在专有名词集合中分别查找与句子成分词的相似度超过预设阈值的专有名词,并将查找到的至少一个专有名词作为与任意一个目标标题相匹配的目标专有名词;
基于目标专有名词生成与任意一个目标标题对应的问题,所述问题确定模块还用于:
将目标专有名词按照预设的问题构成格式生成与目标标题对应的问题。
在一种可能的实施例中,将目标专有名词按照预设的问题构成格式生成与目标标题对应的问题之前,参阅图10所示,所述装置还包括校验模块910,所述校验模块910用于:
确定目标专有名词在目标标题对应的文档内容中出现的频率;
从目标标题对应的文档内容中提取关键句;
若频率不大于预设词频,或者,关键句中不包括目标专有名词,则在预设的备选专有名词集合中查找与句子成分词的相似度超过预设阈值的备选专有名词;
将目标专有名词按照预设的问题构成格式生成与目标标题对应的问题,所述问题确定模块还用于:
将在备选专有名词集合中查找到的备选专有名词按照预设的问题构成格式生成与目标标题对应的问题。
在一种可能的实施例中,基于目标专有名词生成与任意一个目标标题对应的问题之后,参阅图11所示,所述装置还包括问题补充模块920,所述问题补充模块920用于:
基于预设的专有名词集合以及与目标标题相关联的各级相关标题,确定问题的补充问题,其中,目标标题和各级相关标题位于同一个分支目录中,相关标题在分支目录中的路径层级比目标标题的路径层级短;
将补充问题合并到问题中。
在一种可能的实施例中,基于预设的专有名词集合和与目标标题相关联的各级相关标题,确定问题的补充问题,所述问题补充模块920还用于:
将同一个分支目录下与目标标题的路径层级之间的路径层级差值小于预设层数的标题确定为与目标标题相关联的各级相关标题;
在预设的专有名词集合中分别查找与各级相关标题的句子组成成分的相似度超过预设阈值的专有名词;
将查找到的专有名词按照预设的问题构成格式生成问题的补充问题。
在一种可能的实施例中,将补充问题合并到问题中,所述问题补充模块920还用于:
基于补充问题与问题的限定关系,将补充问题中的专有名词和问题中的目标专有名词进行合并;
将合并后的专有名词和目标专有名词按照预设的问题构成格式转换为问句,并将问句作为问题。
在一种可能的实施例中,基于业务文档包括的任意一个目标标题对应的文档内容生成问题对应的答案,所述答案确定模块903用于:
若业务文档包括的任意一个目标标题对应的文档内容与问题匹配,则将文档内容按照预设的格式进行划分,并基于划分后的文档内容生成问题对应的答案。
在一种可能的实施例中,通过以下方式判断业务文档包括的任意一个目标标题对应的文档内容与问题是否匹配:
提取业务文档包括的目标标题对应的文档内容中的关键词,并将关键词转换为关键词向量;
将问题中的目标专有名词转换为目标向量;
基于关键词向量和目标向量之间的距离确定向量相似度;
若向量相似度大于预设相似阈值,则判定业务文档包括的目标标题对应的文档内容与问题匹配;否则,则判定业务文档包括的目标标题对应的文档内容与问题不匹配。
基于同一发明构思,本申请实施例提供一种电子设备,该设备可以实现前文论述的问答抽取的生成方法,请参照图12,该设备包括处理器1001和存储器1002。
存储器1002,用于存储处理器1001执行的计算机程序。存储器1002可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1002可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1002也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器1002是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1002可以是上述存储器的组合。
处理器1001,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1001,用于调用存储器1002中存储的计算机程序时实现上述业务系统巡检方法。
基于同一发明构思,本申请实施例提供一种计算机可读存储介质,计算机程序产品包括:计算机程序代码,当计算机程序代码在计算机上运行时,使得计算机执行如前文论述任一的页面切换方法。由于上述计算机可读存储介质解决问题的原理与问答抽取的方法相似,因此上述计算机可读存储介质的实施可以参见方法的实施,重复之处不再赘述。
基于同一发明构思,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行如前文论述任一的页面切换方法。由于上述计算机程序产品解决问题的原理与问答抽取的方法相似,因此上述计算机程序产品的实施可以参见方法的实施,重复之处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列用户操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (14)
1.一种问答抽取的生成方法,其特征在于,包括:
确定业务文档的目录下各标题中的目标标题,其中,所述目标标题为所述各标题中路径层级非第一层级的标题中的部分或全部,所述第一层级与所述业务文档的标题相对应;
针对任意一个所述目标标题,从预设的专有名词集合中查找与所述任意一个所述目标标题相匹配的目标专有名词,并基于所述目标专有名词生成与所述任意一个所述目标标题对应的问题;
基于所述业务文档包括的所述任意一个目标标题对应的文档内容生成所述问题对应的答案。
2.如权利要求1所述的方法,其特征在于,所述确定业务文档的目录下各标题中的目标标题,包括:
提取所述业务文档的目录下各标题分别对应的目录标识;
基于各所述目录标识的样式确定各标题的路径层级的递进关系,并将属于同一个递进关系的路径层级的至少两个标题确定为一个分支目录,其中,所述分支目录下各标题的路径层级包括所述第一层级和至少一个非第一层级;
针对任意一个所述分支目录,将所述分支目录中路径层级不是第一层级的至少一个标题确定为所述目标标题,其中,一个所述分支目录对应至少一个所述问题。
3.如权利要求2所述的方法,其特征在于,所述针对任意一个所述分支目录,将所述分支目录中路径层级不是第一层级的至少一个标题确定为所述目标标题,包括:
针对任意一个所述分支目录,确定所述分支目录下各标题的路径层级;
将所述路径层级最长的至少一个标题确定为所述目标标题。
4.如权利要求1所述的方法,其特征在于,所述针对任意一个所述目标标题,从预设的专有名词集合中查找与所述任意一个所述目标标题相匹配的目标专有名词,包括:
针对任意一个所述目标标题,拆分所述目标标题的句子组成部分,得到多个句子成分词;
在所述专有名词集合中分别查找与所述句子成分词的相似度超过预设阈值的专有名词,并将查找到的至少一个专有名词作为与所述任意一个所述目标标题相匹配的目标专有名词;
所述基于所述目标专有名词生成与所述任意一个所述目标标题对应的问题,包括:
将所述目标专有名词按照预设的问题构成格式生成与所述目标标题对应的问题。
5.如权利要求4所述的方法,其特征在于,所述将所述目标专有名词按照预设的问题构成格式生成与所述目标标题对应的问题之前,还包括:
确定所述目标专有名词在所述目标标题对应的文档内容中出现的频率;
从所述目标标题对应的文档内容中提取关键句;
若所述频率不大于所述预设词频,或者,所述关键句中不包括所述目标专有名词,则在预设的备选专有名词集合中查找与所述句子成分词的相似度超过预设阈值的备选专有名词;
所述将所述目标专有名词按照预设的问题构成格式生成与所述目标标题对应的问题,包括:
将在所述备选专有名词集合中查找到的所述备选专有名词按照预设的问题构成格式生成与所述目标标题对应的问题。
6.如权利要求1所述的方法,其特征在于,所述基于所述目标专有名词生成与所述任意一个所述目标标题对应的问题之后,还包括:
基于预设的专有名词集合以及与所述目标标题相关联的各级相关标题,确定所述问题的补充问题,其中,所述目标标题和各级所述相关标题位于同一个分支目录中,所述相关标题在所述分支目录中的路径层级比所述目标标题的路径层级短;
将所述补充问题合并到所述问题中。
7.如权利要求6所述的方法,其特征在于,所述基于预设的专有名词集合和与所述目标标题相关联的各级相关标题,确定所述问题的补充问题,包括:
将同一个所述分支目录下与所述目标标题的路径层级之间的路径层级差值小于预设层数的标题确定为与所述目标标题相关联的各级相关标题;
在预设的专有名词集合中分别查找与各级所述相关标题的句子组成成分的相似度超过预设阈值的专有名词;
将查找到的专有名词按照预设的问题构成格式生成所述问题的补充问题。
8.如权利要求7所述的方法,其特征在于,所述将所述补充问题合并到所述问题中,包括:
基于所述补充问题与所述问题的限定关系,将所述补充问题中的专有名词和所述问题中的目标专有名词进行合并;
将合并后的所述专有名词和所述目标专有名词按照预设的问题构成格式转换为问句,并将所述问句作为所述问题。
9.如权利要求1~8任一项所述的方法,其特征在于,所述基于所述业务文档包括的任意一个所述目标标题对应的文档内容生成所述问题对应的答案,包括:
若所述业务文档包括的任意一个所述目标标题对应的文档内容与所述问题匹配,则将所述文档内容按照预设的格式进行划分,并基于划分后的文档内容生成所述问题对应的答案。
10.如权利要求9所述的方法,其特征在于,通过以下方式判断所述业务文档包括的任意一个所述目标标题对应的文档内容与所述问题是否匹配:
提取所述业务文档包括的所述目标标题对应的文档内容中的关键词,并将所述关键词转换为关键词向量;
将所述问题中的所述目标专有名词转换为目标向量;
基于所述关键词向量和所述目标向量之间的距离确定向量相似度;
若所述向量相似度大于预设相似阈值,则判定所述业务文档包括的所述目标标题对应的文档内容与所述问题匹配;否则,则判定所述业务文档包括的所述目标标题对应的文档内容与所述问题不匹配。
11.一种问答抽取的生成装置,其特征在于,包括:
目标标题确定模块,用于确定业务文档的目录下各标题中的目标标题,其中,所述目标标题为所述各标题中路径层级非第一层级的标题中的部分或全部;
问题确定模块,用于针对任意一个所述目标标题,从预设的专有名词集合中查找与所述任意一个所述目标标题相匹配的目标专有名词,并基于所述目标专有名词生成与所述任意一个所述目标标题对应的问题;
答案确定模块,用于基于所述业务文档包括的所述任意一个目标标题对应的文档内容生成所述问题对应的答案。
12.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1-10中任一项所述的方法包括的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行如权利要求1-10中任一项所述的方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述如权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311178355.5A CN117216214A (zh) | 2023-09-13 | 2023-09-13 | 一种问答抽取的生成方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311178355.5A CN117216214A (zh) | 2023-09-13 | 2023-09-13 | 一种问答抽取的生成方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117216214A true CN117216214A (zh) | 2023-12-12 |
Family
ID=89040072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311178355.5A Pending CN117216214A (zh) | 2023-09-13 | 2023-09-13 | 一种问答抽取的生成方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117216214A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725189A (zh) * | 2024-02-18 | 2024-03-19 | 国家超级计算天津中心 | 专业领域的生成式问答方法及电子设备 |
-
2023
- 2023-09-13 CN CN202311178355.5A patent/CN117216214A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725189A (zh) * | 2024-02-18 | 2024-03-19 | 国家超级计算天津中心 | 专业领域的生成式问答方法及电子设备 |
CN117725189B (zh) * | 2024-02-18 | 2024-04-16 | 国家超级计算天津中心 | 专业领域的生成式问答方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11521603B2 (en) | Automatically generating conference minutes | |
CN111046656B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN111091009B (zh) | 一种基于语义分析的文档关联审核方法 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
Hassani et al. | LVTIA: A new method for keyphrase extraction from scientific video lectures | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
CN114491034B (zh) | 一种文本分类方法及智能设备 | |
Drouin et al. | Automatic term extraction from newspaper corpora: Making the most of specificity and common features | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN113157887B (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
CN111783425B (zh) | 基于句法分析模型的意图识别方法及相关装置 | |
CN110852082B (zh) | 同义词的确定方法及装置 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
CN115496066A (zh) | 文本分析系统、方法、电子设备及存储介质 | |
CN115587163A (zh) | 一种文本分类方法、装置、电子设备及存储介质 | |
CN114780700A (zh) | 基于机器阅读理解的智能问答方法、装置、设备及介质 | |
CN113642321A (zh) | 面向金融领域的因果关系提取方法和系统 | |
CN109145297B (zh) | 基于hash存储的网络词汇语义分析方法和系统 | |
Suriyachay et al. | Thai named entity tagged corpus annotation scheme and self verification | |
CN111209752A (zh) | 一种基于辅助信息的中文抽取性集成无监督摘要的方法 | |
CN110909538A (zh) | 问答内容的识别方法、装置、终端设备及介质 | |
CN113505889B (zh) | 图谱化知识库的处理方法、装置、计算机设备和存储介质 | |
CN117573956B (zh) | 元数据管理方法、装置、设备及存储介质 | |
Sureja et al. | Using sentimental analysis approach review on classification of movie script |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |