CN115270802B - 一种问题语句的处理方法、电子设备及存储介质 - Google Patents

一种问题语句的处理方法、电子设备及存储介质 Download PDF

Info

Publication number
CN115270802B
CN115270802B CN202211195543.4A CN202211195543A CN115270802B CN 115270802 B CN115270802 B CN 115270802B CN 202211195543 A CN202211195543 A CN 202211195543A CN 115270802 B CN115270802 B CN 115270802B
Authority
CN
China
Prior art keywords
entity
list
target
initial
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211195543.4A
Other languages
English (en)
Other versions
CN115270802A (zh
Inventor
张正义
傅晓航
林方
常鸿宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202211195543.4A priority Critical patent/CN115270802B/zh
Publication of CN115270802A publication Critical patent/CN115270802A/zh
Application granted granted Critical
Publication of CN115270802B publication Critical patent/CN115270802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种问题语句的处理方法,所述方法包括如下步骤:获取目标问题语句列表,根据目标问题语句,得到对应的目标三元组并获取到对应的中间实体链路列表,其中,中间实体链路包括中间实体列表和中间关系列表,遍历中间实体列表,确定为目标实体链路;遍历目标实体链路对应的中间关系且当目标实体链路对应的所有中间关系均为继承关系时,则将目标实体链路作为最终实体链路;根据最终实体链路,获取到目标问题语句的结果;使得对目标问题语句的处理更高效、更准确。

Description

一种问题语句的处理方法、电子设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种问题语句的处理方法、电子设备及存储介质。
背景技术
当前,对于问题语句等自然语言常使用NLP进行处理,NLP是指Natural LanguageProcessing,自然语言处理。它是计算机和人工智能的一个重要领域。我们用文字描述事物、经历和思想。形成的文献资料,除了被阅读,往往还需要进行很多其他操作。比如,被翻译成其他语种,对内容进行摘要,在其中查找某个问题的答案,以及它们之间的关系如何等等。对于大量自然语言,使用人力进行处理会耗费过长的时间,且容易出错,因此,用机器而非人力来处理信息有更多的优点;然而基于模板的方法处理问题语句受限于手写模范对于问题类型的覆盖能力,使用Seq2seq模型无法捕获和合成多个句子之间的关系。
发明内容
针对上述技术问题,本发明采用的技术方案为一种问题语句的处理方法,所述方法包括如下步骤:
S100,获取目标问题语句列表A={A1,……,Ai,……,Am},Ai是指第i个目标问题语句,i=1……m,m为目标问题语句的数量;
S200,对Ai进行处理,得到Ai对应的目标三元组A'i=(A'i1,A'i2,A'i3),A'i1是指Ai对应的主实体,A'i2是指Ai对应的副实体,A'i3是指A'i1和A'i2之间的关联关系;
S300,根据目标三元组列表和A'i,获取到Ai对应的中间实体链路列表Bi={Bi1,……,Bij,……,Bin},Bij是指Ai对应的第j个中间实体链路,j=1……n,n为中间实体链路的数量,其中,Bij包括中间实体列表Cij={C1 ij,……,Cx ij,……,Cp ij}和中间关系列表Dij={D1 ij,……,Dy ij,……,Dq ij},Cx ij是指第x个中间实体,Dy ij是指第y个中间关系,x=1……p,y=1……q,p为中间实体数量,q为中间关系数量;
S400,当C1 ij=A'i1时,遍历Cij且当Cp ij=A'i2时,确定Bij为目标实体链路;
S500,遍历目标实体链路对应的中间关系且当目标实体链路对应的所有中间关系均为继承关系时,则将目标实体链路作为最终实体链路;
S600,根据最终实体链路,获取到目标问题语句的结果。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种问题语句的处理方法可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:对目标问题语句进行处理,获得对应的目标三元组,基于目标三元组获取中间实体链路列表,当与主实体和副实体对应一致时,作为最终实体链路,并获取到目标问题语句的结果,使得对目标问题语句的处理更高效、更准确。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的一种问题语句的处理方法的执行步骤的流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种获取目标位置的数据处理系统的具体实施方式及其功效,详细说明如后。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例
本实施例提供了一种问题语句的处理方法,其特征在于,所述方法包括如下步骤:
S100、获取目标问题语句列表A={A1,……,Ai,……,Am},Ai是指第i个目标问题语句,i=1……m,m为目标问题语句的数量;
S200、对Ai进行处理,得到Ai对应的目标三元组A'i=(A'i1,A'i2,A'i3),A'i1是指Ai对应的主实体,A'i2是指Ai对应的副实体,A'i3是指A'i1和A'i2之间的关联关系;
具体地,本领域技术人员知晓,现有技术中任何一种对目标问题语句进行处理获得目标三元组的方法均属于本发明保护范围,此处不再赘述。
S300、根据目标三元组列表和A'i,获取到Ai对应的中间实体链路列表Bi={Bi1,……,Bij,……,Bin},Bij是指Ai对应的第j个中间实体链路,j=1……n,n为中间实体链路的数量,其中,Bij包括中间实体列表Cij={C1 ij,……,Cx ij,……,Cp ij}和中间关系列表Dij={D1 ij,……,Dy ij,……,Dq ij},Cx ij是指第x个中间实体,Dy ij是指第y个中间关系,x=1……p,y=1……q,p为中间实体数量,q为中间关系数量;
具体地,将目标三元组列表和A'i,输入问题分解模型,获得Ai对应的中间实体链路列表Bi
具体地,所述问题分解模型包括如下步骤:
S301,对初始文本列表进行预处理,获取初始文本列表对应的初始实体列表和实体之间的初始关系列表;
具体地,所述初始文本列表可以通过现有技术中的任何一种方法获取,例如通过网页获取。所述初始关系列表包括初始实体之间的关系和关系的类型。
具体地,通过Stanford CoreNLP toolkit确定初始文本列表中的初始实体列表和初始关系列表;
进一步地,使用Stanford CoreNLP toolkit获取初始实体列表和初始关系列表时,把同名实体作为一个候选初始实体或把具有相同主键的实体作为一个候选初始实体,并获得候选初始实体对应的候选初始关系;对候选初始实体进行筛选,获取初始实体列表。
在本发明另一个实施例中,在使用Stanford CoreNLP toolkit获取候选初始实体时,根据序列的相似度进行确定候选初始实体;
更进一步地,对候选初始实体进行筛选包括对候选初始实体的相同指代、重复出现、部分出现进行判断;对候选初始实体和候选关系列表进行冲突进行判断和消除,冲突包括属性冲突、命名冲突、结构冲突等,所述命名冲突包括同名异义、异名同义,所述结构冲突包括同一候选初始实体在初始文本不同位置具有不同的名称、同一候选初始实体在不同初始文本中包含的属性个数和属性排列次序不完全相同等。
S303,基于初始实体列表和初始关系列表,生成实体图;
S305,基于初始关系列表和实体图,获取初始子图,构成初始实体链路;
具体地,将实体图和常识知识库进行融合,构建篇章知识图库;根据篇章知识图库、初始关系列表,获取初始子图;基于初始子图,获取初始实体链路;所述常识知识库是基于维基百科常识库获取的知识图谱库。
具体地,本领域技术人员知晓,任何一种根据实体图获取子图的方法均属于本发明保护范围,此处不再赘述。
在本发明一个实施例中,基于实体图抽取初始子图,初始子图包括初始序列子图、初始相交子图、初始对比子图,所述初始序列图是指使用初始实体作为初始实体链路的桥梁;所述初始交图是指在初始序列图的中间截取作为初始实体链路。
基于S301-S305,基于初始文本列表,对初始文本进行预处理,获得初始实体列表和初始关系列表,将初始实体列表和初始关系列表进行融合,生成实体图,所述实体图包括实体、实体具有的属性、实体和实体之间的关系,基于实体图构成初始实体链路,将初始文本构建成初始实体链路,使得在进行三元组的匹配时,更加高效。
S307,基于初始实体链路,构建生成-评价网络模型;
具体地,所述生成-评价网络模型包括生成器和评价器。
其中,所述生成器首先使用GCN抓取初始实体链路上的初始关系,然后使用seq2seq问题生成方法基于上下文生成问题。
其中,所述评价器通过建立一个混合监督学习与强化学习的评价机制,同时优化生成-评价网络模型。
进一步地,所述生成问题伴随类后处理机制,类后处理机制主要包括对重复词、错误的答案相关词、无关词的复制、与答案类型无关的疑问句的处理。
基于此,由于seq2seq问题生成方法无法捕获和合成多个句子之间的证据,生成器使用GCN抓取初始问题并基于上下文生成问题,可以构建伪训练集用于补充训练集,提高训练集的数量,更高数量的训练集能够带来更好的性能,从而提高生成-评价网络模型的性能。
S309,使用训练集,对生成-评价网络模型进行训练;
在本发明一个实施例中,使用HotpotQA训练集对生成-评价网络模型进行进行训练;
S311,将经过生成-评价网络模型的初始实体链路,作为中间实体链路。
基于此,将根据初始文本列表获得的初始实体链路经过训练的生成-评价模型,获取中间实体链路,便于和目标三元组进行匹配。
S400、当C1 ij=A'i1时,遍历Cij且当Cp ij=A'i2时,确定Bij为目标实体链路;
具体地,p满足如下条件:p≤20;优选地,p≤3。
可以理解为,在对中间实体列表进行遍历时,遍历的深度不能过大,当遍历深度过大时,会对执行本发明的服务器造成过大的负担,因此在优选的情况下,对中间实体遍历的深度小于等于3,减小对执行本发明的服务器的负担。
S500、遍历目标实体链路对应的中间关系且当目标实体链路对应的所有中间关系均为继承关系时,则将目标实体链路作为最终实体链路;
具体地,中间实体C1 ij到Cp ij的中间关系均为继承关系,所述继承关系是指Cx ij继承Cx-1 ij的功能,并可以增加新功能。
基于此,当目标实体链路对应的所有中间关系均为继承关系时,目标实体链路作为最终实体链路,实体之间的继承关系可以减少数据量,同时使用继承的方式更加准确地找到目标问题的结果。
进一步地,当最终实体链路的个数大于1时,执行以下步骤:
S501,获取最终实体链路列表E={E1,…,Eg,…,Eh},Eg是指第g个最终实体链路,g的取值范围是1到h,h是指最终实体链路的数量;
S503,获取最终实体链路列表E对应的中间实体数量列表P={P1,…,Pg,…,Ph},Pg是指Eg对应的中间实体数量;
S505,获取P'=min{P1,…,Pg,…,Ph}且将P'对应的最终实体链路执行S600。
基于S501-S505,当最终实体链路不止1条时,获取每个最终实体链路的中间实体数量,中间实体数量最少作为最终实体链路继续执行,中间实体数量最少表明为完成目标问题语句的最短路径、最快速的路径,因此更快速完成目标问题语句。
S600、根据最终实体链路,获取到目标问题语句的结果。
基于此,对目标问题语句进行处理,获得对应的目标三元组,基于目标三元组获取中间实体链路列表,当与主实体和副实体对应一致时,作为最终实体链路,并获取到目标问题语句的结果,使得对目标问题语句的处理更高效、更准确。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (9)

1.一种问题语句的处理方法,其特征在于,所述方法包括如下步骤:
S100,获取目标问题语句列表A={A1,……,Ai,……,Am},Ai是指第i个目标问题语句,i=1……m,m为目标问题语句的数量;
S200,对Ai进行处理,得到Ai对应的目标三元组A'i=(A'i1,A'i2,A'i3),A'i1是指Ai对应的主实体,A'i2是指Ai对应的副实体,A'i3是指A'i1和A'i2之间的关联关系;
S300,根据目标三元组列表和A'i,获取到Ai对应的中间实体链路列表Bi={Bi1,……,Bij,……,Bin},Bij是指Ai对应的第j个中间实体链路,j=1……n,n为中间实体链路的数量,其中,Bij包括中间实体列表Cij={C1 ij,……,Cx ij,……,Cp ij}和中间关系列表Dij={D1 ij,……,Dy ij,……,Dq ij},Cx ij是指第x个中间实体,Dy ij是指第y个中间关系,x=1……p,y=1……q,p为中间实体数量,q为中间关系数量;
S400,当C1 ij=A'i1时,遍历Cij且当Cp ij=A'i2时,确定Bij为目标实体链路;
S500,遍历目标实体链路对应的中间关系且当目标实体链路对应的所有中间关系均为继承关系时,则将目标实体链路作为最终实体链路;
S600,根据最终实体链路,获取到目标问题语句的结果。
2.根据权利要求1所述的问题语句的处理方法,其特征在于,在S300步骤中还通过如下步骤获取到Ai对应的中间实体链路列表:将目标三元组列表和A'i,输入问题分解模型,获得Ai对应的中间实体链路列表Bi
3.根据权利要求2所述的问题语句的处理方法,其特征在于,所述问题分解模型包括如下步骤:
S301、对初始文本列表进行预处理,获取初始文本列表对应的初始实体列表和实体之间的初始关系列表;
S303,基于初始实体列表和初始关系列表,生成实体图;
S305,基于初始关系列表和实体图,获取初始子图,构成初始实体链路;
S307,基于初始实体链路,构建生成-评价网络模型。
4.根据权利要求3所述的问题语句的处理方法,其特征在于,在S307之后还包括如下步骤:
S309,使用训练集,对生成-评价网络模型进行训练;
S311,将经过生成-评价网络模型的初始实体链路,作为中间实体链路。
5.根据权利要求1所述的问题语句的处理方法,其特征在于,p≤20。
6.根据权利要求5所述的问题语句的处理方法,其特征在于,p≤3。
7.根据权利要求1所述的问题语句的处理方法,其特征在于,在S500中,当最终实体链路的个数大于1时,执行以下步骤:
S501,获取最终实体链路列表E={E1,…,Eg,…,Eh},Eg是指第g个最终实体链路,g的取值范围是1到h,h是指最终实体链路的数量;
S503,获取最终实体链路列表E对应的中间实体数量列表P={P1,…,Pg,…,Ph},Pg是指Eg对应的中间实体数量;
S505,获取P'=min{P1,…,Pg,…,Ph}且将P'对应的最终实体链路执行S600。
8.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~7中任意一项的所述方法。
9.一种电子设备,其特征在于,包括处理器和权利要求8中的非瞬时性计算机可读存储介质。
CN202211195543.4A 2022-09-29 2022-09-29 一种问题语句的处理方法、电子设备及存储介质 Active CN115270802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211195543.4A CN115270802B (zh) 2022-09-29 2022-09-29 一种问题语句的处理方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211195543.4A CN115270802B (zh) 2022-09-29 2022-09-29 一种问题语句的处理方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115270802A CN115270802A (zh) 2022-11-01
CN115270802B true CN115270802B (zh) 2023-01-03

Family

ID=83756071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211195543.4A Active CN115270802B (zh) 2022-09-29 2022-09-29 一种问题语句的处理方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115270802B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096584B (zh) * 2019-05-14 2021-10-15 京东数字科技控股有限公司 一种应答方法和装置
CN113935486B (zh) * 2021-12-16 2022-03-04 中科雨辰科技有限公司 一种知识图谱的建立方法、计算机设备和存储介质
CN113535972B (zh) * 2021-06-07 2022-08-23 吉林大学 一种融合上下文语义的知识图谱链路预测模型方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148883A (zh) * 2019-06-29 2020-12-29 华为技术有限公司 一种知识图谱的嵌入表示方法及相关设备
CN112035637A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医学领域意图识别方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096584B (zh) * 2019-05-14 2021-10-15 京东数字科技控股有限公司 一种应答方法和装置
CN113535972B (zh) * 2021-06-07 2022-08-23 吉林大学 一种融合上下文语义的知识图谱链路预测模型方法及装置
CN113935486B (zh) * 2021-12-16 2022-03-04 中科雨辰科技有限公司 一种知识图谱的建立方法、计算机设备和存储介质

Also Published As

Publication number Publication date
CN115270802A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN111538819B (zh) 一种基于文档集多跳推理的问答系统的构建方法
US11341417B2 (en) Method and apparatus for completing a knowledge graph
CN111506714A (zh) 基于知识图嵌入的问题回答
CN108021560B (zh) 一种数据增强方法、系统、装置及计算机可读存储介质
CN107357757A (zh) 一种基于深度增强学习的代数应用题自动求解器
TWI590095B (zh) 軟體功能驗證系統及其驗證方法
Al-Khiaty et al. Matching UML class diagrams using a Hybridized Greedy-Genetic algorithm
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
WO2019160096A1 (ja) 関係性推定モデル学習装置、方法、及びプログラム
CN111949306A (zh) 一种支持开源项目碎片化学习的推送方法和系统
Fernandes et al. Learning to scaffold: Optimizing model explanations for teaching
Saini et al. Automated traceability for domain modelling decisions empowered by artificial intelligence
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN116302088B (zh) 一种代码克隆检测方法、存储介质及设备
CN115270802B (zh) 一种问题语句的处理方法、电子设备及存储介质
US20230153335A1 (en) Searchable data structure for electronic documents
CN114818682B (zh) 基于自适应实体路径感知的文档级实体关系抽取方法
Tran et al. Explain by evidence: An explainable memory-based neural network for question answering
CN113254612A (zh) 知识问答处理方法、装置、设备及存储介质
CN113887008A (zh) 信息处理方法、电子设备和计算机存储介质
CN117151247B (zh) 机器学习任务建模的方法、装置、计算机设备和存储介质
Štolfa et al. Value estimation of the use case parameters using SOM and fuzzy rules
Kabra et al. Student’s Performance Prediction Using Genetic Algorithm
Hauser et al. An Improved Assessing Requirements Quality with ML Methods
CN117349186B (zh) 一种基于语义流图的程序语言缺陷定位方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant