CN114444505A - 文本处理方法及装置 - Google Patents
文本处理方法及装置 Download PDFInfo
- Publication number
- CN114444505A CN114444505A CN202011191981.4A CN202011191981A CN114444505A CN 114444505 A CN114444505 A CN 114444505A CN 202011191981 A CN202011191981 A CN 202011191981A CN 114444505 A CN114444505 A CN 114444505A
- Authority
- CN
- China
- Prior art keywords
- entity
- candidate
- relations
- relationship
- question text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims abstract description 193
- 238000012545 processing Methods 0.000 claims abstract description 155
- 238000000034 method Methods 0.000 claims description 59
- 238000012216 screening Methods 0.000 claims description 50
- 239000011159 matrix material Substances 0.000 claims description 48
- 238000000605 extraction Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 33
- 239000013598 vector Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 239000002360 explosive Substances 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供文本处理方法及装置,其中所述文本处理方法包括:确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个候选关系;将所述多个候选关系与所述问题文本输入至相似度计算模块进行处理,获得各个候选关系与所述问题文本的相似度分值;将所述多个候选关系与所述问题文本输入至特征计算模块进行处理,获得各个候选关系与所述问题文本的特征分值;基于所述相似度分值和所述特征分值在所述多个候选关系中确定目标关系,并根据所述目标关系关联的实体确定所述问题文本的答案。
Description
技术领域
本申请涉及文本处理技术领域,特别涉及文本处理方法及装置。
背景技术
随着互联网技术的发展,越来越多的问答系统应运而生,而为了能够针对用户提出的问题进行精准的回答,通常在问答系统中抽取答案之前,都需要对用户提出的问题进行语义理解和解析,之后通过语义理解的信息再进行答案的查询和推理;如在知识库问答(knowledge base question answering,KB-QA)系统中,常用的算法流程为实体识别、实体链接、关系识别和答案检索四个步骤,但是在此过程中,由于针对问题确定的候选关系过多,很大程度上会影响确定答案的精准度,无法有效的针对用户提出的问题进行作答,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了文本处理装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个候选关系;
将所述多个候选关系与所述问题文本输入至相似度计算模块进行处理,获得各个候选关系与所述问题文本的相似度分值;
将所述多个候选关系与所述问题文本输入至特征计算模块进行处理,获得各个候选关系与所述问题文本的特征分值;
基于所述相似度分值和所述特征分值在所述多个候选关系中确定目标关系,并根据所述目标关系关联的实体确定所述问题文本的答案。
可选地,所述确定问题文本对应的目标实体,包括:
获取所述问题文本,并将所述问题文本输入至命名实体识别模型进行处理,获得所述问题文本的候选实体;
基于所述候选实体查询所述知识库,并根据查询结果确定所述问题文本对应的所述目标实体。
可选地,所述在预设的知识库中提取所述目标实体对应的多个候选关系,包括:
确定所述问题文本的问题类型;
在所述问题类型为第一问题类型的情况下,在所述知识库中提取所述目标实体对应的多个头实体第一关系和多个尾实体第一关系,作为所述候选关系;
在所述问题类型为第二问题类型的情况下,在所述知识库中提取所述目标实体对应的多个头实体第一关系、多个尾实体第一关系、多个头实体第二关系和多个尾实体第二关系,作为所述候选关系。
可选地,所述将所述多个候选关系与所述问题文本输入至相似度计算模块进行处理,获得各个候选关系与所述问题文本的相似度分值,包括:
在所述问题类型为第一问题类型的情况下,将所述多个头实体第一关系与所述问题文本输入至所述相似度计算模块进行处理,获得各个头实体第一关系与所述问题文本的第一相似度分值;
将所述多个尾实体第一关系与所述问题文本输入至所述相似度计算模块进行处理,获得各个尾实体第一关系与所述问题文本的第二相似度分值。
可选地,所述将所述多个候选关系与所述问题文本输入至特征计算模块进行处理,获得各个候选关系与所述问题文本的特征分值,包括:
对所述多个头实体第一关系和所述问题文本进行预处理,获得各个头实体第一关系对应的第一特征矩阵;
将所述第一特征矩阵输入至所述特征计算模块进行处理,获得各个头实体第一关系与所述问题文本的第一特征分值;
对所述多个尾实体第一关系和所述问题文本进行预处理,获得各个尾实体第一关系对应的第二特征矩阵;
将所述第二特征矩阵输入至所述特征计算模块进行处理,获得各个尾实体第一关系与所述问题文本的第二特征分值。
可选地,所述基于所述相似度分值和所述特征分值在所述多个候选关系中确定目标关系,包括:
根据所述第一相似度分值和所述第一特征分值确定各个头实体第一关系的第一候选分值,以及根据所述第二相似度分值和所述第二特征分值确定各个尾实体第一关系的第二候选分值;
在各个头实体第一关系的第一候选分值和各个尾实体第一关系的第二候选分值中选择目标候选分值,并确定所述目标候选分值对应的所述目标关系。
可选地,所述将所述多个候选关系与所述问题文本输入至相似度计算模块进行处理,获得各个候选关系与所述问题文本的相似度分值,包括:
在所述问题类型为第二问题类型的情况下,根据所述多个头实体第一关系和所述多个头实体第二关系确定头实体关系对,并将所述头实体关系对和所述问题文本输入至所述相似度计算模块进行处理,获得各个头实体关系对与所述问题文本的第三相似度分值;
根据所述多个尾实体第一关系和所述多个尾实体第二关系确定尾实体关系对,并将所述尾实体关系对和所述问题文本输入至所述相似度计算模块进行处理,获得各个尾实体关系对与所述问题文本的第六相似度分值。
可选地,所述根据所述多个头实体第一关系和所述多个头实体第二关系确定头实体关系对,包括:
将所述多个头实体第一关系和所述问题文本输入至所述相似度计算模块中的第一相似度计算模型进行处理,获得各个头实体第一关系与所述问题文本的第一相似度分值;
根据所述第一相似度分值在所述多个头实体第一关系中筛选出设定数目的头实体第一候选关系,并根据所述设定数目的头实体第一候选关系在所述多个头实体第二关系中筛选出设定数目的头实体第二候选关系;
将所述设定数目的头实体第二候选关系和所述问题文本输入至所述相似度计算模块中的第二相似度计算模型进行处理,获得各个头实体第二候选关系与所述问题文本的第二相似度分值;
根据所述第二相似度分值在所述设定数目的头实体第二候选关系中筛选出头实体第二目标关系,并将所述设定数目的头实体第一候选关系和所述头实体第二目标关系进行整合,获得所述头实体关系对。
可选地,所述根据所述多个尾实体第一关系和所述多个尾实体第二关系确定尾实体关系对,包括:
将所述多个尾实体第一关系和所述问题文本输入至所述相似度计算模块中的第一相似度计算模型进行处理,获得各个尾实体第一关系与所述问题文本的第四相似度分值;
根据所述第四相似度分值在所述多个尾实体第一关系中筛选出设定数目的尾实体第一候选关系,并根据所述设定数目的尾实体第一候选关系在所述多个尾实体第二关系中筛选出设定数目的尾实体第二候选关系;
将所述设定数目的尾实体第二候选关系和所述问题文本输入至所述相似度计算模块中的第二相似度计算模型进行处理,获得各个尾实体第二候选关系与所述问题文本的第五相似度分值;
根据所述第五相似度分值在所述设定数目的尾实体第二候选关系中筛选出尾实体第二目标关系,并将所述设定数目的尾实体第一候选关系和所述尾实体第二目标关系进行整合,获得所述尾实体关系对。
可选地,所述将所述多个候选关系与所述问题文本输入至特征计算模块进行处理,获得各个候选关系与所述问题文本的特征分值,包括:
根据所述多个候选关系确定所述头实体关系对和所述尾实体关系对;
将所述头实体关系对和所述问题文本输入至所述特征计算模块进行处理,获得所述头实体关系对与所述问题文本的第一特征分值;
将所述尾实体关系对和所述问题文本输入至所述特征计算模块进行处理,获得所述尾实体关系对与所述问题文本的第二特征分值。
可选地,所述基于所述相似度分值和所述特征分值在所述多个候选关系中确定目标关系,包括:
根据所述第三相似度分值和所述第一特征分值计算所述头实体关系对的第一相似度总分值;
根据所述第六相似度分值和所述第二特征分值计算所述尾实体关系对的第二相似度总分值;
基于所述第一相似度总分值和所述第二相似度总分值对所述头实体关系对和所述尾实体关系对进行排序,根据排序结果确定所述目标关系。
可选地,所述根据所述目标关系关联的实体确定所述问题文本的答案,包括:
在所述知识库中确定所述目标实体基于所述目标关系映射的关联实体;
根据所述关联实体生成所述问题文本的答案。
根据本申请实施例的第二方面,提供了一种文本处理装置,包括:
确定目标实体模块,被配置为确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个候选关系;
相似度分值计算模块,被配置为将所述多个候选关系与所述问题文本输入至相似度计算模块进行处理,获得各个候选关系与所述问题文本的相似度分值;
特征分值计算模块,被配置为将所述多个候选关系与所述问题文本输入至特征计算模块进行处理,获得各个候选关系与所述问题文本的特征分值;
确定答案模块,被配置为基于所述相似度分值和所述特征分值在所述多个候选关系中确定目标关系,并根据所述目标关系关联的实体确定所述问题文本的答案。
根据本申请实施例的第三方面,提供了另一种文本处理方法,包括:
确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个第一候选关系和多个第二候选关系;
基于所述多个第一候选关系和所述多个第二候选关系确定设定数目的候选关系对,并计算各个候选关系对与所述问题文本的相似度分值;
将所述设定数目的候选关系对与所述问题文本输入至特征计算模块进行处理,获得各个候选关系对与所述问题文本的特征分值;
基于所述相似度分值和所述特征分值在所述设定数目的候选关系对中确定目标关系对,并根据所述目标关系对关联的实体确定所述问题文本的答案。
根据本申请实施例的第四方面,提供了另一种文本处理装置,包括:
提取模块,被配置为确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个第一候选关系和多个第二候选关系;
计算相似度模块,被配置为基于所述多个第一候选关系和所述多个第二候选关系确定设定数目的候选关系对,并计算各个候选关系对与所述问题文本的相似度分值;
计算特征模块,被配置为将所述设定数目的候选关系对与所述问题文本输入至特征计算模块进行处理,获得各个候选关系对与所述问题文本的特征分值;
确定模块,被配置为基于所述相似度分值和所述特征分值在所述设定数目的候选关系对中确定目标关系对,并根据所述目标关系对关联的实体确定所述问题文本的答案。
根据本申请实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理的步骤。
本申请提供的文本处理方法,在获取到问题文本后,将确定问题文本的目标实体,同时在预设的知识库中提取目标实体对应的多个候选关系,之后将多个候选关系和问题文本输入至相似度计算模块进行处理,得到每个候选关系与问题文本的相似度分值,同时还将多个候选关系和问题文本输入至特征计算模块进行处理,得到每个候选关系与问题文本的特征分值,最后通过整合相似度分值和特征分值的方式,在多个候选关系中确定目标关系,再基于目标关系即可确定问题文本的答案,实现了在针对问题文本筛选答案的过程中,通过减少候选关系数量的方式提高确定答案的效率,同时通过相似度维度和特征维度结合的方式保证确定目标关系的准确率,进一步提高了确定答案的精准度,实现在较短的时间内针对问题获得精准度较高的答案。
附图说明
图1是本申请一实施例提供的一种文本处理方法的流程图;
图2是本申请一实施例提供的一种应用于一度关系的文本处理方法的处理流程图;
图3是本申请一实施例提供的一种文本处理装置的结构示意图;
图4是本申请一实施例提供的另一种文本处理方法的流程图;
图5是本申请一实施例提供的一种应用于二度关系的文本处理方法的处理流程图;
图6是本申请一实施例提供的一种实体关系的结构示意图;
图7是本申请一实施例提供的另一种文本处理装置的结构示意图;
图8是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
一度问题:经过一次查询即可获得结果的问题,可以理解为一个关系,如“A的职务是什么?”。
二度问题:需要经过两步查询可以获得的结果,可以理解为多个关系,如“B集团董事长的儿子是谁?”。
KBQA:知识库问答(knowledge base question answering,KB-QA)。KBQA基于知识图谱的问答系统,基本流程是根据问句查询知识图谱,然后根据知识图谱的信息生成一句答案返回给用户。
实体链接:实体链接(Entitylinking,EL),将文本中的实体提及映射到给定的知识库(KB)。
知识库:是指汇聚具体领域知识的知识库,知识组建形式是非结构的自然语言,而为了方便计算机处理和理解,将知识采用三元组表达的方式进行形式化和简洁化;知识库中的三元组即为(实体entity,实体关系relation,实体entity)。
命名实体识别:命名实体识别(Named Entity Recognition,NER),是指识别文本中具有特定意义的实体。
相似度分值:是指多个候选关系与问题文本之间在语义维度的相似度得分,相似度分值越高,说明候选关系与问题文本的相近程度越高,反之相似度分值越低,说明候选关系与问题文本的相近程度越低。
特征分值:是指多个候选关系与问题文本之间在特征维度的相近程度得分,特征分值越高,说明候选关系与问题文本的相近程度越高,反之特征分值越低,说明候选关系与问题文本的相近程度越低。
目标关系:是指从多个候选关系中筛选出能够协助问题文本确定正确答案的关系,目标关系关联的实体即为问题文本的答案。
BERT模型:(BidirectionalEncoder Representations from Transformer),是基于Transformer的双向编码器表征,BERT模型的根基就是Transformer,来源于attentionis all you need。其中双向的意思表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义。
在本申请中,提供了文本处理方法。本申请同时涉及文本处理装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
实际应用中,由于开放性领域的KBQA关系实体通常都是较为复杂的,如在PKUBASE知识库中包含6400多万个三元组,1000多万的实体以及40多万的关系,在针对用户提出的问题进行答复时,只能通过检索知识库的方式进行答案的确定;然而,由于知识库的复杂程度较高,在针对问题进行筛选答案时,一般会得出大量的候选关系,如果在基于大量的候选关系进行答案的筛选,将很大程度上降低答案抽取效率以及准确率,并且在面对多度问题时,更容易造成候选关系爆炸性增长,因此在面对开放性领域的KBQA系统抽取答案时,如何提高答案抽取效率和精准度是急需解决的重要问题。
图1示出了根据本申请一实施例提供的一种文本处理方法的流程图,具体包括以下步骤:
步骤S102:确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个候选关系。
本申请提供的文本处理方法,在答案抽取时,为了能够提高效率和精准度,将在获取到问题文本后,确定问题文本的目标实体,同时在预设的知识库中提取目标实体对应的多个候选关系,之后将多个候选关系和问题文本输入至相似度计算模块进行处理,得到每个候选关系与问题文本的相似度分值,同时还将多个候选关系和问题文本输入至特征计算模块进行处理,得到每个候选关系与问题文本的特征分值,最后通过整合相似度分值和特征分值的方式,在多个候选关系中确定目标关系,再基于目标关系即可确定问题文本的答案,实现了在针对问题文本筛选答案的过程中,通过减少候选关系数量的方式提高确定答案的效率,同时通过相似度维度和特征维度结合的方式保证确定目标关系的准确率,进一步提高了确定答案的精准度,实现在较短的时间内针对问题获得精准度较高的答案。
具体实施时,通过KBQA系统实现问题的答案确定时,通常需要经过命名实体识别>实体链接>句子分类(确定一度问题或多度问题)>关系抽取>关系排序>筛选正确答案这几部分完成,而在此过程中,由于不同问题的复杂程度不同,因此在关系抽取时得到的关系较多,就会造成后续答案的筛选难度提高,影响答案筛选的准确率,本实施例提供的文本处理方法,为了能够保证答案的准确度和筛选效率,将在关系抽取时进行进一步的限定,保证正确率的同时减少候选关系数量,从而满足后续确定答案的需求。
基于此,所述问题文本即为需要通过KBQA系统对应的知识库进行回答的问题,所述目标实体即为问题文本中包含的实体,该实体存在于知识库中,从而满足通过知识库可以回答实体所属的问题,相应的,所述候选关系具体是指与目标实体具有直接关联或间接关联的关系,通过从候选关系中确定出目标关系,便可以筛选出问题的正确答案。
进一步的,在确定所述问题文本对应的目标实体的过程中,由于不同的问题文本存在的实体不同,因此抽取难度也是不同的,为了能够精准的抽取实体,以方便后续的文本处理过程,可以通过命名实体识别模型完成实体抽取过程,本实施例中,具体实现方式如下所述:
获取所述问题文本,并将所述问题文本输入至命名实体识别模型进行处理,获得所述问题文本的候选实体;
基于所述候选实体查询所述知识库,并根据查询结果确定所述问题文本对应的所述目标实体。
具体的,所述候选实体具体是指所述问题文本中包含的实体,由于在所述知识库中可能存在重名的实体,因此需要通过候选实体查询知识库,以确定问题文本对应的目标实体,从而能够进一步保证后续筛选答案的精准度。
其中,所述命名实体识别模型具体是指能够对所述问题文本进行处理后得到候选实体的模型,具体实现方式是采用的数据标注的方式实现候选实体的抽取,即通过B(Begin,表示开始),I(ntermediate,表示中间),E(End,表示结尾),S(Single,表示单个字符),O(Other,表示其他,用于标记无关字符)对问题文本中的各个字符进行打标,命名实体识别模型输出的结果即为携带标识的序列,通过该序列即可确定问题文本中的候选实体;如问题文本是“甲的计算机修好了么?”通过命名实体识别模型对该问题文本进行处理,得到的序列为(S-PER,O,B-ORG,I-ORG,E-ORG,O,O,O,O),通过该序列即可确定人名实体“甲”,以及地名实体“计算机”。
具体实施时,所述命名实体识别模型包括但不限于隐马尔可夫模型(HMM,HiddenMarkov model)、最大熵模型(ME,Maximum Entropy)、支持向量机(SVM,Support VectorMachine)或条件随机场(CRF,conditional random field),只需要能够在命名实体识别过程中完成问题文本中的候选实体抽取即可,实际应用中,所述命名实体识别模型的选择可以根据实际应用场景设定,本实施例在此不作任何限定。
基于此,在获取到问题文本之后,将所述问题文本输入至命名实体识别模型进行处理,即可得到所述问题文本中的候选实体,之后基于所述候选实体查询所述知识库,根据查询结果选择与所述问题文本对应的实体作为所述目标实体即可。
例如,问题文本是“甲住在哪里?”此时通过命名实体识别模型即可抽取出问题文本中的候选实体“甲”,而知识库中不仅存在实体为名字甲,还存在地名甲,歌曲甲和产品名称甲,而不同的实体甲将对应不同的关系,因此为了能够精准的确定问题文本“甲住在哪里?”的答案,此时将通过语义维度确定问题文本对应的目标实体,即目标实体为名字:甲。
综上,为了能够提高后续答案确定的精准度,将采用命名实体识别模型抽取实体的方式进行,并且通过语义分析的方式进行目标实体的确定,进一步促进后续筛选正确答案的精准度。
更进一步的,在确定所述问题文本的目标实体后,由于问题文本的结构是实体加关系构成,因此在筛选正确答案时,也要在知识库中确定与问题文本结构相同的实体加关系,从而才能够确定正确答案,但是由于不同的问题文本复杂程度不同,因此需要确定大量的候选关系后,从中筛选出满足筛选正确答案的目标关系进行答案的确定,本实施例中,将针对复杂程度不同的问题采用不同的处理方式完成答案的确定,具体实现方式如下所述:
确定所述问题文本的问题类型;
在所述问题类型为第一问题类型的情况下,在所述知识库中提取所述目标实体对应的多个头实体第一关系和多个尾实体第一关系,作为所述候选关系;
在所述问题类型为第二问题类型的情况下,在所述知识库中提取所述目标实体对应的多个头实体第一关系、多个尾实体第一关系、多个头实体第二关系和多个尾实体第二关系,作为所述候选关系。
具体的,所述第一问题类型具体是指所述问题文本是单实体一度问题类型,所述第二问题类型具体是指所述问题文本是单实体二度问题类型或单实体多度问题类型;基于此,由于单实体一度问题只需要确定一度关系即可完成答案的确定,因此确定的候选关系相对于单实体二度问题或单实体多度问题要少,只需要精准的确定目标实体,之后从目标实体对应的一度关系中选出目标关系即可完成问题文本的答复;而在单实体二度问题或单实体多度问题中,不仅需要确定目标实体对应的一度关系,还需要确定目标实体的二度关系,之后通过一度和二度关系结合的方式筛选目标关系,才能够完成问题文本的答复。
基于此,在对问题文本进行处理之前,需要确定所述问题文本的问题类型,确定所述问题文本的问题类型的过程,实则是通过意图识别的方式将问题文本划分到相应的意图种类,通过意图种类确定问题文本的问题类型,若识别出问题文本表达的意图是直接意图,即可确定问题文本被划分的意图种类是直接意图种类,则确定问题文本的问题类型为一度问题;若识别出问题文本表达的意图是间接意图,即可确定问题文本被划分的意图种类是间接意图种类,则确定问题文本的问题类型为二度问题或多度问题,以方便后续针对不同类型的问题采用不同的方式进行文本处理。
其中,在对所述问题文本的意图进行识别时包括但不限于通过统计特征分类的方法实现(通过训练分类器实现意图分类,如朴素贝叶斯(Naive Bayes,NB),支持向量机(SVM)或逻辑回归等),通过识别模型实现(如LSTM和Softmax组合(利用LSTM对问题文本的词向量进行特征提取,并结合Softmax完成意图分类),或CNN和Softmax组合),或通过词典+规则实现(针对问题文本的领域选择领域词典并结合预设的规则实现),具体实施时,确定所述问题文本的问题类型的方式,可以根据实际应用场景进行选择,本实施例在此不作任何限定。
在完成问题文本的问题类型确定之后,通过问题类型选择不同的处理方式进行答案的筛选,本实施例将以所述问题文本为第一问题类型(单实体一度问题类型)进行描述,相应的,所述头实体第一关系具体是指:以所述目标实体作为起始特征确定的一度关系,所述尾实体第一关系具体是指:以所述目标实体为末端特征确定的一度关系;即在所述知识库中确定目标实体对应的全部关系,以生成所述多个头实体第一关系和所述多个尾实体一度关系,作为所述候选关系,用于后续处理过程;其中,一度关系具体是指与实体具有直接联系的关系。
沿用上例,在确定问题文本“甲住在哪里?”的目标实体为甲后,此时确定该问题文本属于一度问题,则在知识库中提取与目标实体直接对应的关系,确定头实体一度关系有:姓名关系(甲的姓名),住址关系(甲的住址),年龄关系(甲的年龄)等等,以及确定尾实体一度关系有:父子关系(父亲是甲),身份标识关系(身份标识是甲),任职关系(职位是甲)等等,作为问题文本的候选关系,用于筛选问题文本的正确答案。
综上,由于不同问题类型的处理方式不同,因此为了能够提高问题处理效率,将在处理前对问题进行分类,从而选择与问题类型匹配的方式完成后续答案的确定过程,以提高问题答复效率。
步骤S104,将所述多个候选关系与所述问题文本输入至相似度计算模块进行处理,获得各个候选关系与所述问题文本的相似度分值。
具体的,在上述确定所述问题文本对应的多个候选关系的基础上,进一步的,为了提高答案的精准度,可以从语义维度进行相似度的计算,同时也从特征维度进行相似度的计算,从而得到满足答复需求的答案;基于此,在语义维度的分析过程中,将结合相似度计算模块完成各个候选关系与问题文本相似度的计算,其中,所述相似度计算模块是由不同的语义相似度计算模型整合而成,不同的语义相似度计算模型将对应不同的问题类型;如单实体一度问题中包含的候选关系仅有一个,在通过语义相似度计算模型计算该关系与问题文本的相似度时,只需要计算该关系对应的编码向量和问题文本对应的编码向量二者的余弦相似度,即可得到该关系与所述问题文本的相似度分值;而在单实体二度问题中包含的候选关系有两个,如果依旧采用单实体一度问题对应的语义相似度模型进行关系与问题文本相似度的计算,可能会导致相似度分值误差过大的问题,从而可能影响后续处理过程,为了能够针对不同问题类型的问题文本都可以精准的进行处理,实际应用中,在针对单实体二度问题中的候选关系与问题文本的相似度计算时,将在相似度计算模块中配置只用于单实体二度问题的候选关系和问题文本相似度计算的语义相似度计算模型,从而实现精准的计算出单实体二度问题中候选关系和问题文本的相似度分值。
具体实施时,在通过语义相似度模型实现候选关系和问题文本的相似度计算时,首先将对所述问题文本和所述候选关系分别进行嵌入化处理,得到所述问题文本对应的问题文本向量,和候选关系对应的候选关系向量;其次再对问题文本向量和候选关系向量分别进行编码处理,得到问题文本向量对应的问题文本编码向量,和候选关系向量对应的候选关系编码向量;最后再计算问题文本编码向量和候选关系编码向量的余弦值确定所述问题文本和所述候选关系的相似度分值;实际应用中,所述语义相似度计算模型可以使用BERT模型构建,即在BERT模型中得到编码向量后进行余弦相似度的计算。
需要说明的是,所述相似度分值是指所述各个候选关系与所述问题文本的语义相似度得分,所述相似度分值越高,说明候选关系与所述问题文本的语义相似程度越高,反之,所述相似度分值越低,说明候选关系与所述问题文本的语义相似程度越低。
进一步的,在所述问题文本为第一问题类型的情况下,说明此时只需要通过计算一度关系与问题文本的相似度得分即可,本实施例中,计算相似度分值的具体过程如下所述:
将所述多个头实体第一关系与所述问题文本输入至所述相似度计算模块进行处理,获得各个头实体第一关系与所述问题文本的第一相似度分值;以及将所述多个尾实体第一关系与所述问题文本输入至所述相似度计算模块进行处理,获得各个尾实体第一关系与所述问题文本的第二相似度分值。
具体的,由于所述多个候选关系中包含多个头实体第一关系可以及多个尾实体第一关系,而头实体第一关系和尾实体第一关系的结构不同,因此将针对两种关系分别进行相似度分值的计算,即将所述多个头实体第一关系与所述问题文本输入至所述相似度计算模块进行处理,获得各个头实体第一关系与所述问题文本的第一相似度分值,同时将所述多个尾实体第一关系与所述问题文本输入至所述相似度计算模块进行处理,获得各个尾实体第一关系与所述问题文本的第二相似度分值。
具体实施时,由于头实体第一关系和尾实体第一关系的结构不同,因此在输入至相似度计算模块进行处理前,将按照各自的结构转换为不同的输入格式,实际应用中,可以使用<实体><关系><pad>表达头实体第一关系的关系序列,使用<pad><关系><实体>表达尾实体第一关系的关系序列;其中<pad>表示实体和关系在知识库中的位置信息,<实体>表示目标实体,<关系>表示各个头实体第一关系或各个尾实体第一关系。
此外,所述头实体第一关系和尾实体第一关系还可以采用其他的关系序列表示,只需要符合所述相似度计算模块的输入格式即可,本实施例在此不作任何限定。
沿用上例,在确定问题文本“甲住在哪里?”的头实体一度关系和尾实体一度关系之后,将对各个关系进行转换,确定姓名关系(甲的姓名)对应的关系序列是<甲><姓名><pad_S1>,住址关系(甲的住址)对应的关系序列是<甲><住址><pad_S2>,年龄关系(甲的年龄)对应的关系序列是<甲><年龄><pad_S3>……;以及父子关系(父亲是甲)对应的关系序列是<pad_P1><父子><甲>,身份标识关系(身份标识是甲)对应的关系序列是<pad_P2><身份标识><甲>,任职关系(职位是甲)对应的关系序列是<pad_P3><任职><甲>……。
进一步的,再将各个关系序列分别与问题文本输入至BERT模型进行相似度分值计算,确定头实体一度关系中:姓名关系(甲的姓名)与问题文本的相似度分值是0.3,住址关系(甲的住址)与问题文本的相似度分值是0.85,年龄关系(甲的年龄)与问题文本的相似度分值是0.25……;确定尾实体一度关系中:父子关系(父亲是甲)与问题文本的相似度分值是0.20,身份标识关系(身份标识是甲)与问题文本的相似度分值是0.10,任职关系(职位是甲)与问题文本的相似度分值是0.30……。
综上所述,由于问题文本所对应的正确答案可能会基于头实体第一关系确定,也可能会基于尾实体第一关系确定,因此在进行相似度分值计算时,不同的关系将分别进行计算,以方便更加准确的分析各个关系与问题文本的语义相似度,以提高后续确定答案的精准度。
步骤S106,将所述多个候选关系与所述问题文本输入至特征计算模块进行处理,获得各个候选关系与所述问题文本的特征分值。
具体的,在上述确定所述问题文本对应的多个候选关系的基础上,进一步的,为了提高答案的精准度,也将从特征维度进行相似度的计算,从而得到满足答复需求的答案;基于此,在特征维度的分析过程中,将结合特征计算模块完成各个候选关系与问题文本相似度的计算,其中,所述特征计算模块是由不同的特征相似度计算模型整合而成,而不同的特征相似度计算模型将对应不同的问题类型;由于单实体一度问题中包含的候选关系仅有一个,当通过特征相似度计算模型计算该关系与问题文本在特征维度的相似度时,只需要得到该候选关系的特征矩阵和问题文本的特征矩阵即可完成二者在特征维度的相似度计算;而单实体二度问题中包含的候选关系有两个,此时如果还采用上述特征相似度计算模型计算两个候选关系与问题文本的特征相似度,将会出现割裂的问题,即单独计算各个候选关系与问题文本的特征相似度,无法从整体上考虑两个候选关系与所述问题文本的特征相似度,因此在针对单实体二度问题中的候选关系与问题文本的特征相似度计算时,将在所述特征计算模块中配置用于单实体二度问题的候选关系和问题文本特征相似度计算的特征相似度计算模型,从而实现从整体上考虑候选关系与问题文本在特征维度的相似度,以提高后续处理的处理效率。
具体实施时,在通过特征相似度计算模型实现候选关系和问题文本的相似度计算时,为了能够提高特征分值计算的精准度,以及在模型准备阶段减少训练模型所消耗的资源,优先使用LGBM分类器构建所述特征相似度计算模型。
需要说明的是,所述特征分值是指所述各个候选关系与所述问题文本的特征相似度得分,所述特征分值越高,说明候选关系与所述问题文本的特征相似程度越高,反之,所述特征分值越低,说明候选关系与所述问题文本的特征相似程度越低,其中,特征分值具体是指候选关系与问题文本在字数、词数、字重叠数和/或词重叠数等多个角度计算得到的分值,是指二者在形式/格式上的相似程度。
此外,本实施例中的相似度计算模块和特征计算模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的相似度计算过程和特征计算过程应当理解为主要通过本实施例记载的内容,以解决技术相似度计算问题和特征计算问题的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
进一步的,在所述问题文本为第一问题类型的情况下,说明此时只需要通过计算一度关系与问题文本的特征得分即可,本实施例中,计算特征分值的具体过程如下所述:
对所述多个头实体第一关系和所述问题文本进行预处理,获得各个头实体第一关系对应的第一特征矩阵;将所述第一特征矩阵输入至所述特征计算模块进行处理,获得各个头实体第一关系与所述问题文本的第一特征分值;
对所述多个尾实体第一关系和所述问题文本进行预处理,获得各个尾实体第一关系对应的第二特征矩阵;将所述第二特征矩阵输入至所述特征计算模块进行处理,获得各个尾实体第一关系与所述问题文本的第二特征分值。
具体的,由于所述多个候选关系中包含多个头实体第一关系可以及多个尾实体第一关系,而头实体第一关系和尾实体第一关系的结构不同,因此将针对两种关系分别进行特征分值的计算,并且为了能够满足所述特征计算模块的输入,将对所述多个头实体第一关系和所述问题文本进行预处理,获得各个头实体第一关系对应的第一特征矩阵,同时也对多个尾实体第一关系和所述问题文本进行预处理,获得各个尾实体第一关系对应的第二特征矩阵。
之后将所述第一特征矩阵输入至所述特征计算模块进行处理,获得各个头实体第一关系与所述问题文本的第一特征分值,以及将所述第二特征矩阵输入至所述特征计算模块进行处理,获得各个尾实体第一关系与所述问题文本的第二特征分值。
具体实施时,预处理过程是指按照预设的特征处理维度进行特征矩阵的转换,所述特征处理维度可以包括关系长度特征维度,关系和问题文本字重叠数目特征维度,关系在知识库的流行度特征维度,在问题文本中出现特征维度和/或与实体的相对位置特征维度等等,本实施例在此不作任何限定。
此外,在问题类型为一度问题类型的情况下,步骤S104和步骤S106可以同时进行,也可以按照设定的先后执行顺序进行,本实施例在此不作任何限定。
沿用上例,在确定问题文本“甲住在哪里?”的头实体一度关系和尾实体一度关系之后,将基于特征处理维度对各个头实体第一关系和问题文本进行矩阵转换,分别获得姓名关系(甲的姓名)与问题文本的特征表达矩阵,住址关系(甲的住址)与问题文本的特征表达矩阵,年龄关系(甲的年龄)与问题文本的特征表达矩阵……;同时也将基于特征处理维度对各个尾实体一度关系和问题文本进行矩阵转换,分别获得父子关系(父亲是甲)与问题文本的特征表达矩阵,身份标识关系(身份标识是甲)与问题文本的特征表达矩阵,任职关系(职位是甲)与问题文本的特征表达矩阵……。
之后将各个特征表达矩阵输入至LGBM分类器进行特征相似度的计算,获得姓名关系(甲的姓名)与问题文本的特征分值是0.10;住址关系(甲的住址)与问题文本的特征分值是0.70,年龄关系(甲的年龄)与问题文本的特征分值是0.25……;父子关系(父亲是甲)与问题文本的特征分值是0.20,身份标识关系(身份标识是甲)与问题文本的特征分值是0.10,任职关系(职位是甲)与问题文本的特征分值是0.15……。
综上所述,由于问题文本所对应的正确答案可能会基于头实体第一关系确定,也可能会基于尾实体第一关系确定,因此在进行特征分值计算时,不同的关系将分别进行计算,以方便更加准确的分析各个关系与问题文本的特征相似度,以提高后续确定答案的精准度。
步骤S108,基于所述相似度分值和所述特征分值在所述多个候选关系中确定目标关系,并根据所述目标关系关联的实体确定所述问题文本的答案。
具体的,在上述获得各个候选关系与所述问题文本的相似度分值和特征分值的基础上,进一步的,将结合语义维度和特征维度共同确定所述目标关系,所述目标关系具体是指能够确定问题文本正确答案的关系;相应的,在知识库中实体关系的架构是实体-关系-实体,在确定目标实体和目标关系后,即可基于目标实体和目标关系确定连接的另一实体,通过该实体即可确定所述问题文本的答案。
而所述目标关系是通过所述语义维度和所述特征维度共同分析确定的,因此可以通过将各个候选关系在语义维度的相似度分值和特征维度的特征分值进行求和,选择求和结果最大的候选关系作为所述目标关系,以用于筛选所述问题文本的正确答案,本实施例中,具体实现方式如下所述:
根据所述第一相似度分值和所述第一特征分值确定各个头实体第一关系的第一候选分值,以及根据所述第二相似度分值和所述第二特征分值确定各个尾实体第一关系的第二候选分值;
在各个头实体第一关系的第一候选分值和各个尾实体第一关系的第二候选分值中选择目标候选分值,并确定所述目标候选分值对应的所述目标关系。
具体的,所述第一候选分值具体是指各个头实体第一关系整合特征维度和语义维度的相似度得分后得到的分值,所述第二候选关系具体是指各个尾实体第一关系整合特征维度和语义维度的相似度得分后得到的分值,所述目标候选分值具体是指相似度得分最高的分值,所述目标关系即为按照得分最高的分值从候选关系中选出的关系,通过目标关系即可确定所述问题文本的答案。
基于此,首先基于第一相似度分值和第一特征分值确定各个头实体第一关系的第一候选分值,同时根据第二相似度分值和第二特征分值确定各个尾实体第一关系的第二候选分值,其次可按照候选分值对各个头实体第一关系和尾实体第一关系按照从高到低的顺序进行排序,之后选择排序在第一位的关系作为所述目标关系。
更进一步的,在确定所述目标关系之后,需要根据所述目标关系进行问题文本的答案确定,本实施例中,具体实现方式如下所述:
在所述知识库中确定所述目标实体基于所述目标关系映射的关联实体;
根据所述关联实体生成所述问题文本的答案。
具体的,通过所述目标实体和所述目标关系即可在所述知识库中确定映射的关联实体,之后根据所述关联实体即可生成所述问题文本的正确答案。
沿用上例,将姓名关系(甲的姓名)与问题文本的相似度分值和特征分值相加0.30+0.10=0.40;将住址关系(甲的住址)与问题文本的相似度分值和特征分值相加0.85+0.70=1.55;将年龄关系(甲的年龄)与问题文本的相似度分值和特征分值相加0.25+0.25=0.5……;将父子关系(父亲是甲)与问题文本的相似度分值和特征分值相加0.20+0.20=0.40;将身份标识关系(身份标识是甲)与问题文本的相似度分值和特征分值相加0.10+0.10=0.20;将任职关系(职位是甲)与问题文本的相似度分值和特征分值相加0.30+0.15=0.45……。
在计算出各个一度关系与问题文本的总得分(结合相似度分值和特征分值)之后,此时将按照总得分对多个头实体一度关系和多个尾实体一度关系进行排序,排序结果为住址关系(甲的住址)>年龄关系(甲的年龄)>任职关系(职位是甲)……;之后根据排序结果选择住址关系(甲的住址)作为目标关系,通过住址关系(甲的住址)在KBQA系统对应的知识库中确定映射的关联实体是A城市,则确定问题文本“甲住在哪里?”的答案是“A城市”。
综上,通过结合语义维度和特征维度进行整体分析所述问题文本对应的目标关系,不仅可以保证目标关系确定的精准度,还能够有效的分析出所述问题文本的答案,从而实现满足用户的问答需求。
本实施方式中提供另一具体实施例,该实施例将以所述问题文本为第二问题类型为例进行描述,以具体说明在二度问题或多度问题中如何完成问题文本正确答案的确定,需要说明的是,本实施例中相应的名词解释或对应的内容可以参见上述实施例中的具体描述内容,本年实施例在此不作过多赘述;在二度问题或多度问题中如何完成问题文本正确答案的确定,具体实现方式如下所述:
步骤1,确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个头实体第一关系、多个尾实体第一关系、多个头实体第二关系和多个尾实体第二关系。
实际应用中,由于二度问题涉及的关系较为复杂,为了能够提高针对二度问题回答的精准度,本实施例将在确定所述目标关系时,逐层减少候选关系的数量,并且通过特征维度和语义维度提高答案筛选的精准度,从而实现针对二度问题作出答复。
具体实施时,随着问题文本的度数增加,所涉及的候选关系也会变得更多,因此为了避免候选关系爆炸性增长,将采用逐步减少候选关系的方式提高问题文本的答复效率,本实施例将以所述问题文本为单实体二度问题为例进行描述,单实体多度问题的描述过程可以参见本实施例相应的描述内容,本申请在此不作过多赘述。
基于此,在单实体二度问题中,不仅需要确定目标实体对应的一度关系,还需要确定目标实体的二度关系,之后通过一度和二度关系结合的方式筛选目标关系,才能够完成问题文本的答复;其中,一度关系具体是指与实体具有直接联系的关系,而二度关系具体是指与目标实体具有间接对应的关系;相应的,所述多个候选关系将包含多个头实体第一关系、多个尾实体第一关系、多个头实体第二关系和多个尾实体第二关系,以用于后续分析二度问题的答案。
例如,问题文本为“甲的住址天气如何?”,通过命名实体识别模型进行实体抽取后,确定问题文本对应的目标实体是“甲”,之后将基于目标实体“甲”在知识库中进行一度关系的抽取和二度关系的抽取,从而确定头实体第一关系和尾实体第一关系为{一度关系①,住址关系②,一度关系③,一度关系④},确定头实体第二关系和尾实体第二关系为{气候关系a,二度关系b,二度关系c,二度关系d,二度关系e,二度关系f,二度关系g,二度关系h}。
需要说明的是,为了方便进行描述,本实施并未针对具体一度关系和二度关系进行详细说明,其中头实体第一关系可以是姓名关系(甲的姓名),尾实体第一关系可以是父子关系(父亲是甲);相应的头实体第二关系可以是退休关系(甲的年龄到退休年龄),尾实体第二关系可以是气候关系(**天气的城市住有甲),本实施例在此不对上述一度关系和二度关系进行赘述,以概括的方式进行描述。
步骤2,根据所述多个头实体第一关系和所述多个头实体第二关系确定头实体关系对,并将所述头实体关系对和所述问题文本输入至所述相似度计算模块进行处理,获得各个头实体关系对与所述问题文本的第三相似度分值。
具体的,在上述获得多个候选关系之后,此时为了避免头实体第二关系和尾实体第二关系爆炸性增长,影响后续确定问题文本答案的效率,可以通过确定头实体关系对的方式减少候选关系的数量,其中,所述头实体关系对具体是指基于头实体第一关系和头实体第二关系组成的关系对,组成头实体关系对中的头实体第一关系是从多个头实体第一关系中筛选出的,组成头实体关系对中的头实体第二关系是从多个头实体第二关系中筛选出的,从而可以降低候选关系的数量,以提高文本处理效率。
基于此,在确定所述头实体关系对后,已经说明了候选关系得到有效的减少,因此后续通过头实体关系对和尾实体关系对即可完成问题文本答案的确定,则计算头实体关系对和问题文本的语义相似度即可。
进一步的,在根据所述多个头实体第一关系和所述多个头实体第二关系确定头实体关系对的过程中,由于头实体第一关系和头实体第二关系的数量较大,因此需要逐步筛选的方式减少关系的数量,从而得到满足使用需求的头实体关系对,本实施例中,具体实现方式如下所述:
将所述多个头实体第一关系和所述问题文本输入至所述相似度计算模块中的第一相似度计算模型进行处理,获得各个头实体第一关系与所述问题文本的第一相似度分值;
根据所述第一相似度分值在所述多个头实体第一关系中筛选出设定数目的头实体第一候选关系,并根据所述设定数目的头实体第一候选关系在所述多个头实体第二关系中筛选出设定数目的头实体第二候选关系;
将所述设定数目的头实体第二候选关系和所述问题文本输入至所述相似度计算模块中的第二相似度计算模型进行处理,获得各个头实体第二候选关系与所述问题文本的第二相似度分值;
根据所述第二相似度分值在所述设定数目的头实体第二候选关系中筛选出头实体第二目标关系,并将所述设定数目的头实体第一候选关系和所述头实体第二目标关系进行整合,获得所述头实体关系对。
具体的,所述第一相似度分值具体是指头实体第一关系与所述问题文本的语义相似度得分,所述头实体第一候选关系具体是指设定数目第一相似度分值较高的头实体第一关系,所述头实体第二候选关系具体是指在头实体第一候选关系的基础上关联的头实体第二关系,所述第二相似度分值具体是指所述头实体第二候选关系与所述问题文本的语义相似度得分,所述头实体第二目标关系具体是指设定数目第二相似度分值较高的头实体第二关系,所述头实体关系对具体是指具有关联的头实体第二目标关系和头实体第一候选关系组成的关系对。
进一步的,首先将通过所述相似度计算模块中的第一相似度计算模型计算所述多个头实体第一关系和所述问题文本的语义相似度,得到各个头实体第一关系与所述问题文本的第一相似度分值;其次为了能够减少头实体第二关系爆炸性增长的问题,将按照第一相似度分值在所述多个头实体第一关系中筛选出设定数目的头实体第一候选关系,即选择第一相似度分值较高的设定数目的头实体第一关系作为所述头实体第一候选关系;之后在所述多个头实体第二关系中确定与所述头实体第一候选关系具有关联关系的头实体第二关系,作为在所述多个头实体第二关系中筛选出设定数目的头实体第二候选关系,此时得到的头实体第二候选关系相对于多个头实体第二关系数量较少,能够有效的提高后续文本处理效率。
更进一步的,在确定设定数目的头实体第二候选关系后,可能存在的候选关系还是较多,不方便后续确定问题文本的答案,则可以通过相似度计算模块中的第二相似度计算模型计算各个头实体第二候选关系与所述问题文本的第二相似度分值,之后再从所述设定数目的头实体第二候选关系中筛选出头实体第二目标关系,即选择第二相似度分值较高的头实体第二候选关系作为所述头实体第二目标关系,此时得到的头实体第二目标关系已经相对于多个头实体第二关系数量更少了,可以用于后续确定问题文本的正确答案,则在从所述设定数目的头实体第一候选关系中确定与所述头实体第二目标关系具有关联关系的头实体第一候选关系,组成所述头实体关系对,以输入到所述相似度计算模块进行处理,获得各个头实体关系对与所述问题文本的第三相似度分值。
具体实施时,头实体第一候选关系和头实体第二候选关系的选择数量可以根据实际应用场景进行设定,本实施例在此不作任何限定。
沿用上例,对各个头实体第一关系进行转换,获得住址关系②(甲的住址)对应的关系序列是<甲><住址><pad_S1>,一度关系①对应的关系序列是<甲><关系①><pad_S2>;之后将转换后的各个关系序列分别与问题文本“甲的住址天气如何?”组成一组,分别输入至第一BERT相似度模型进行各个头实体第一关系与问题文本的相似度得分计算,确定住址关系②(甲的住址)与问题文本“甲的住址天气如何?”的相似度得分是0.8,一度关系①与问题文本“甲的住址天气如何?”的相似度得分是0.2。
在确定各个头实体第一关系与问题文本的第一相似度得分之后,将按照相似度得分从高到低的顺序从中筛选出前2个头实体第一关系作为头实体第一候选关系,此时即可确定头实体第一候选关系分别是住址关系②(甲的住址)和一度关系①。
按照住址关系②(甲的住址)和一度关系①在目标实体涉及的二度关系中进行头实体第二候选关系的筛选,确定头实体第二关系分别是:气候关系a,二度关系b和二度关系h。
在确定头实体第二关系分别是:气候关系a,二度关系b和二度关系h之后,此时为了提高确定问题文本的精准度,将通过第二BERT相似度模型进行头实体第二候选关系与问题文本的相似度计算,而在此之前,也需要对头实体第二候选关系进行转换,获得以<pad><关系><pad>表达的关系序列;即气候关系a对应的关系序列是<pad_S1><气候><pad_D1>,二度关系b对应的关系序列是<pad_S2><关系b><pad_D2>,二度关系h对应的关系序列是<pad_S3><关系h><pad_D3>。
之后将转换后的各个关系序列分别与问题文本“甲的住址天气如何?”组成一组,并输入至第二BERT相似度模型进行各个头实体第二候选关系与问题文本的相似度得分计算,获得模型输出的气候关系a与问题文本的相似度得分是0.5,二度关系b与问题文本的相似度得分是0.15,二度关系h与问题文本的相似度得分是0.2。
当确定头实体第一选度关系包括:住址关系②(甲的住址)和一度关系①,以及头实体第二候选关系包括:气候关系a,二度关系b和二度关系h之后,按照第二相似度得分选择排在前2位的头实体第二候选关系作为头实体第二目标关系,即确定气候关系a和二度关系h为头实体第二目标关系;之后按照彼此之间存在的关联关系对头实体第一候选关系和头实体第二目标关系进行整合,获得的头实体关系对分别是{住址关系②,气候关系a}和{一度关系①,二度关系h}。
而将头实体关系对和问题文本输入至第三BERT相似度模型之前,需要对各个头实体关系对进行关系序列的转换,确定{住址关系②,气候关系a}对应的关系序列是<甲><住址><pad_S1><pad_S1><气候><pad_D1>,{一度关系①,二度关系h}对应的关系序列是<甲><关系①><pad_S2><pad_S3><关系h><pad_D3>。
之后将转换后的各个关系序列分别与问题文本“甲的住址天气如何?”组成一组,并输入至第三BERT相似度模型进行各个头实体关系对与问题文本的相似度得分计算,获得模型输出的{住址关系②,气候关系a}与问题文本的相似度得分是0.9,{一度关系①,二度关系h}与问题文本的相似度得分是0.3。
综上,通过语义相似度分析的方式逐步减少第二关系的数量,可以有效的避免第二关系爆炸性增长的问题,实现进一步提高所述问题文本答案确定的效率,满足答复问题文本的答复需求。
步骤3,根据所述多个尾实体第一关系和所述多个尾实体第二关系确定尾实体关系对,并将所述尾实体关系对和所述问题文本输入至所述相似度计算模块进行处理,获得各个尾实体关系对与所述问题文本的第六相似度分值。
具体的,在上述获得多个候选关系之后,此时为了避免头实体第二关系和尾实体第二关系爆炸性增长,影响后续确定问题文本答案的效率,可以通过确定尾实体关系对的方式减少候选关系的数量,其中,所述尾实体关系对具体是指基于尾实体第一关系和尾实体第二关系组成的关系对,组成尾实体关系对中的尾实体第一关系是从多个尾实体第一关系中筛选出的,组成尾实体关系对中的尾实体第二关系是从多个尾实体第二关系中筛选出的,从而可以降低候选关系的数量,以提高文本处理效率。
基于此,在确定所述尾实体关系对后,已经说明了候选关系得到有效的减少,因此后续通过头实体关系对和尾实体关系对即可完成问题文本答案的确定,则计算尾实体关系对和问题文本的语义相似度即可。
进一步的,在根据所述多个尾实体第一关系和所述多个尾实体第二关系确定尾实体关系对的过程中,由于尾实体第一关系和尾实体第二关系的数量较大,因此需要逐步筛选的方式减少关系的数量,从而得到满足使用需求的尾实体关系对,本实施例中,具体实现方式如下所述:
将所述多个尾实体第一关系和所述问题文本输入至所述相似度计算模块中的第一相似度计算模型进行处理,获得各个尾实体第一关系与所述问题文本的第四相似度分值;
根据所述第四相似度分值在所述多个尾实体第一关系中筛选出设定数目的尾实体第一候选关系,并根据所述设定数目的尾实体第一候选关系在所述多个尾实体第二关系中筛选出设定数目的尾实体第二候选关系;
将所述设定数目的尾实体第二候选关系和所述问题文本输入至所述相似度计算模块中的第二相似度计算模型进行处理,获得各个尾实体第二候选关系与所述问题文本的第五相似度分值;
根据所述第五相似度分值在所述设定数目的尾实体第二候选关系中筛选出尾实体第二目标关系,并将所述设定数目的尾实体第一候选关系和所述尾实体第二目标关系进行整合,获得所述尾实体关系对。
具体的,所述第四相似度分值具体是指尾实体第一关系与所述问题文本的语义相似度得分,所述尾实体第一候选关系具体是指设定数目第四相似度分值较高的尾实体第一关系,所述尾实体第二候选关系具体是指在尾实体第一候选关系的基础上关联的尾实体第二关系,所述第五相似度分值具体是指所述尾实体第二候选关系与所述问题文本的语义相似度得分,所述尾实体第二目标关系具体是指设定数目第五相似度分值较高的尾实体第二关系,所述尾实体关系对具体是指具有关联的尾实体第二目标关系和尾实体第一候选关系组成的关系对。
需要说明的是,所述尾实体关系对的确定过程可以参见上述头实体关系对的确定过程,并且后续的第六相似度分值计算也可以参见上述第三相似度分值的计算过程,本实施例在此不作过多赘述。
步骤4,将所述头实体关系对和所述问题文本输入至所述特征计算模块进行处理,获得所述头实体关系对与所述问题文本的第一特征分值;将所述尾实体关系对和所述问题文本输入至所述特征计算模块进行处理,获得所述尾实体关系对与所述问题文本的第二特征分值。
具体的,在上述计算出所述头实体关系对和问题文本的语义相似度,以及尾实体关系对与所述问题文本的语义相似度的基础上,进一步的,为了能够提高确定问题文本正确答案的准确率,将从特征维度在此计算头实体关系对与所述问题文本的特征相似度,以及所述尾实体关系对与所述问题文本的特征相似度,从而得到头实体关系对与所述问题文本的第一特征分值,以及所述尾实体关系对与所述问题文本的第二特征分值;其中,所述特征计算模块是由不同的特征相似度计算模型整合而成,而不同的特征相似度计算模型将对应不同的问题类型,实际应用中,所述特征相似度计算模型可以使用LGBM分类器构建。
实际应用中,在将所述头实体关系对和问题文本输入至所述特征计算模块进行处理之前,还需要基于所述头实体关系对和问题文本构建特征表达矩阵作为所述特征计算模块的输入,同时也需要基于所述尾实体关系对和问题文本构建特征表达矩阵作为所述特征计算模块的输入,以满足特征计算模块的处理需求。
沿用上例,通过对头实体关系对和问题文本进行矩阵转换,分别获得{住址关系②,气候关系a}与问题文本“甲的住址天气如何?”的特征表达矩阵,{一度关系①,二度关系h}与问题文本“甲的住址天气如何?”的特征表达矩阵。之后将各个特征表达矩阵输入至LGBM分类器进行特征相似度的计算,获得{住址关系②,气候关系a}与问题文本“甲的住址天气如何?”的特征相似度得分是0.8,{一度关系①,二度关系h}与问题文本“甲的住址天气如何?”的特征相似度得分是0.3;同理也将对尾实体关系对和问题文本进行矩阵转换,并通过LGBM分类器进行特征分值的计算,得到各个尾实体关系对与问题文本的特征相似度得分。
步骤5,根据所述第三相似度分值和所述第一特征分值计算所述头实体关系对的第一相似度总分值;根据所述第六相似度分值和所述第二特征分值计算所述尾实体关系对的第二相似度总分值。
具体的,在得到所述头实体关系对在语义维度的第三相似度分值,以及在特征维度的第一特征分值后,可以结合两个维度总分值的方式确定所述头实体关系对相对于所述问题文本的第一相似度总分值,同理,在得到所述尾实体关系对在语义维度的第六相似度分值,以及在特征维度的第二特征分值后,可以结合两个维度总分值的方式确定所述尾实体关系对相对于所述问题文本的第二相似度总分值。
沿用上例,将{住址关系②,气候关系a}与问题文本的相似度得分和特征相似度得分相加,确定{住址关系②,气候关系a}与问题文本的相似度总得分为0.9+0.8=1.7;将{一度关系①,二度关系h}与问题文本的相似度得分和特征相似度得分相加,确定{一度关系①,二度关系h}与问题文本的相似度总得分为0.3+0.3=0.6;同理将尾实体关系对与问题文本的相似度得分和特征相似度得分相加,确定相似度总得分。
步骤6,基于所述第一相似度总分值和所述第二相似度总分值对所述头实体关系对和所述尾实体关系对进行排序,根据排序结果确定所述目标关系。
具体的,在上述计算获得所述第一相似度总分值和所述第二相似度总分值的基础上,此时可以按照相似度总分值对所述头实体关系对和所述尾实体关系对进行排序,根据排序结果选择相似度总分值最高的关系对确定所述目标关系,即所述目标关系将由一个实体第一关系和一个实体第二关系组成,并且二者具有关联关系。
沿用上例,通过相似度总得分确定头实体关系对:{住址关系②,气候关系a}为总得分最高的实体关系对,则将{住址关系②,气候关系a}确定为目标关系对,以用于在KBQA系统对应的知识图谱中确定问题文本“甲的住址天气如何?”的答案。
步骤7,在所述知识库中确定所述目标实体基于所述目标关系映射的关联实体;根据所述关联实体生成所述问题文本的答案。
具体的,在确定所述目标关系之后,通过在所述知识库中即可确定目标实体基于所述目标关系映射的关联实体,此时基于所述关联实体即可分析出所述问题文本的答案。
沿用上例,基于{住址关系②,气候关系a}在KBQA系统对应的知识库中确定映射的关联实体是晴,则确定问题文本“甲的住址天气如何?”的答案是“晴”,即确定甲的住址天气是晴天。
综上所述,在对单实体二度问题进行答案确定时,将结合相似度计算模型和特征计算模型结合进行连续的实体关系对的筛选,从而在进行筛选实体关系度时可以减少计算量,从而提高实体关系对的筛选效率,并且通过多重筛选的方式可以有效的提高确定答案的精准度和效率,进一步满足用户的使用需求。
本申请提供的文本处理方法,在获取到问题文本后,将确定问题文本的目标实体,同时在预设的知识库中提取目标实体对应的多个候选关系,之后将多个候选关系和问题文本输入至相似度计算模块进行处理,得到每个候选关系与问题文本的相似度分值,同时还将多个候选关系和问题文本输入至特征计算模块进行处理,得到每个候选关系与问题文本的特征分值,最后通过整合相似度分值和特征分值的方式,在多个候选关系中确定目标关系,再基于目标关系即可确定问题文本的答案,实现了在针对问题文本筛选答案的过程中,通过减少候选关系数量的方式提高确定答案的效率,同时通过相似度维度和特征维度结合的方式保证确定目标关系的准确率,进一步提高了确定答案的精准度,实现在较短的时间内针对问题获得精准度较高的答案。
下述结合附图2,以本申请提供的文本处理方法在一度问题中应用为例,对所述文本处理方法进行进一步说明。其中,图2示出了本申请一实施例提供的一种应用于一度问题中的文本处理方法的处理流程图,具体包括以下步骤:
步骤S202,获取问题文本。
本实施例以所述问题文本为单实体一度问题为例,对所述文本处理方法进行描述;其中,所述问题文本为“甲的住址是哪里?”;相应的,此时将通过KBQA系统进行答案的确定并反馈,具体过程如下所述。
步骤S204,将问题文本输入至命名实体识别模型进行实体识别,获得问题文本对应的候选实体。
此时将问题文本“甲的住址是哪里?”输入至命名实体识别模型进行实体的抽取,获得问题文本的候选实体为“甲”。
步骤S206,根据候选实体查询预设的知识库,并根据查询结果确定候选实体映射的目标实体。
基于候选实体“甲”查询知识图谱对应的知识库,确定在该库中存在多个重名实体均为“甲”,分别是姓名实体,歌曲实体,地址实体等等,此时为了能够精准的确定问题文本的答案,将对多个实体进行排序,并根据排序结果选择前n个实体作为后续筛选目标关系的目标实体,本实施例为了方便描述,将以n为1进行描述。
相应的,对多个实体进行排序之后,选择排在第一位的候选实体作为目标实体进行后续目标关系的确定,即将多个实体进行排序之后,确定姓名实体排序在第一位,则将姓名实体“甲”作为候选实体链接的目标实体。
步骤S208,在预设的知识库中抽取目标实体对应的多个头实体一度关系和多个尾实体一度关系。
在确定目标实体是姓名实体“甲”之后,此时将基于目标实体“甲”在知识库中进行一度关系的抽取,确定包含的头实体一度关系有:姓名关系(甲的姓名),住址关系(甲的住址),年龄关系(甲的年龄)等等,以及确定包含的尾实体一度关系有:父子关系(父亲是甲),身份标识关系(身份标识是甲),任职关系(职位是甲)等等。
步骤S210,将多个头实体一度关系和问题文本输入至BERT相似度模型进行相似度计算,获得各个头实体一度关系与问题文本的第一相似度得分。
在将多个头实体一度关系和问题文本输入至BERT相似度模型前,需要对各个头实体一度关系进行转换;即姓名关系(甲的姓名)对应的关系序列是<甲><姓名><pad_S1>,住址关系(甲的住址)对应的关系序列是<甲><住址><pad_S2>,年龄关系(甲的年龄)对应的关系序列是<甲><年龄><pad_S3>……;之后将转换后的各个关系序列分别与问题文本“甲的住址是哪里?”组成一组,分别输入至BERT相似度模型进行各个头实体一度关系与问题文本的相似度得分计算,确定姓名关系(甲的姓名)与问题文本“甲的住址是哪里?”的相似度得分是0.30,住址关系(甲的住址)与问题文本“甲的住址是哪里?”的相似度得分是0.85,年龄关系(甲的年龄)与问题文本“甲的住址是哪里?”的相似度得分是0.25……。
步骤S212,将多个尾实体一度关系和问题文本输入至BERT相似度模型进行相似度计算,获得各个尾实体一度关系与问题文本的第二相似度得分。
在将多个尾实体一度关系和问题文本输入至BERT相似度模型前,确定父子关系(父亲是甲)对应的关系序列是<pad_P1><父子><甲>,身份标识关系(身份标识是甲)对应的关系序列是<pad_P2><身份标识><甲>,任职关系(职位是甲)对应的关系序列是<pad_P3><任职><甲>……;之后将转换后的各个关系序列分别与问题文本“甲的住址是哪里?”组成一组后,分别输入至BERT相似度模型进行各个尾实体一度关系与问题文本的相似度得分计算,确定父子关系(父亲是甲)与问题文本的相似度得分是0.20,身份标识关系(身份标识是甲)与问题文本的相似度得分是0.10,任职关系(职位是甲)与问题文本的相似度得分是0.30……。
步骤S214,将多个头实体一度关系和问题文本输入至LGBM分类器进行特征相似度计算,获得各个头实体一度关系与问题文本的第一特征相似度得分。
此时将基于上述特征处理维度对各个头实体一度关系和问题文本进行矩阵转换,分别获得姓名关系(甲的姓名)与问题文本“甲的住址是哪里?”的特征表达矩阵,住址关系(甲的住址)与问题文本“甲的住址是哪里?”的特征表达矩阵,年龄关系(甲的年龄)与问题文本“甲的住址是哪里?”的特征表达矩阵……;之后将各个特征表达矩阵输入至LGBM分类器进行特征相似度的计算,获得姓名关系(甲的姓名)与问题文本“甲的住址是哪里?”的特征相似度得分是0.10;住址关系(甲的住址)与问题文本“甲的住址是哪里?”的特征相似度得分是0.70,年龄关系(甲的年龄)与问题文本“甲的住址是哪里?”的特征相似度得分是0.25……。
步骤S216,将多个尾头实体一度关系和问题文本输入至LGBM分类器进行特征相似度计算,获得各个尾实体一度关系与问题文本的第二特征相似度得分。
此时将基于上述特征处理维度对各个尾实体一度关系和问题文本进行矩阵转换,分别获得父子关系(父亲是甲)与问题文本的特征表达矩阵,身份标识关系(身份标识是甲)与问题文本的特征表达矩阵,任职关系(职位是甲)与问题文本的特征表达矩阵……;之后将各个特征表达矩阵输入至LGBM分类器进行特征相似度的计算,获得父子关系(父亲是甲)与问题文本的特征相似度得分是0.20,身份标识关系(身份标识是甲)与问题文本的特征相似度得分是0.10,任职关系(职位是甲)与问题文本的特征相似度得分是0.15……。
步骤S218,对第一相似度得分和第一特征相似度得分进行求和,以及对第二相似度得分和第二特征相似度得分进行求和。
步骤S220,根据求和结果对多个头实体一度关系和多个尾实体一度关系进行排序,并根据排序结果选择目标关系。
具体的,将姓名关系(甲的姓名)与问题文本的相似度得分和特征相似度得分相加0.30+0.10=0.40;将住址关系(甲的住址)与问题文本的相似度得分和特征相似度得分相加0.85+0.70=1.55;将年龄关系(甲的年龄)与问题文本的相似度得分和特征相似度得分相加0.25+0.25=0.5……;将父子关系(父亲是甲)与问题文本的相似度得分和特征相似度得分相加0.20+0.20=0.40;将身份标识关系(身份标识是甲)与问题文本的相似度得分和特征相似度得分相加0.10+0.10=0.20;将任职关系(职位是甲)与问题文本的相似度得分和特征相似度得分相加0.30+0.15=0.45……。
在计算出各个一度关系与问题文本的总得分(结合相似度得分和特征相似度得分)之后,此时将按照总得分对多个头实体一度关系和多个尾实体一度关系进行排序,排序结果为住址关系(甲的住址)>年龄关系(甲的年龄)>任职关系(职位是甲)……;之后根据排序结果选择住址关系(甲的住址)作为目标关系,以用于在KBQA系统对应的知识图谱中确定问题文本“甲的住址是哪里?”的答案。
步骤S222,基于目标关系在预设的知识库中映射的关联实体确定问题文本的答案。
通过住址关系(甲的住址)在KBQA系统对应的知识图谱中确定映射的关联实体是A城市,则确定问题文本“甲的住址是哪里?”的答案是“A城市”。
综上所述,为了基于KBQA系统能够精准且高效的对问题文本进行作答,将在筛选出问题文本实体对应的关系之后,通过结合BERT模型和LGBM分类器进行两个维度的得分计算,之后通过计算获得的总得分筛选目标关系,再通过目标关系进行问题文本答案的确定,可以有效的提高确定答案的精准度和效率,进一步满足用户的使用需求。
与上述方法实施例相对应,本申请还提供了文本处理装置实施例,图3示出了本申请一实施例提供的一种文本处理装置的结构示意图。如图3所示,该装置包括:
确定目标实体模块302,被配置为确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个候选关系;
相似度分值计算模块304,被配置为将所述多个候选关系与所述问题文本输入至相似度计算模块进行处理,获得各个候选关系与所述问题文本的相似度分值;
特征分值计算模块306,被配置为将所述多个候选关系与所述问题文本输入至特征计算模块进行处理,获得各个候选关系与所述问题文本的特征分值;
确定答案模块308,被配置为基于所述相似度分值和所述特征分值在所述多个候选关系中确定目标关系,并根据所述目标关系关联的实体确定所述问题文本的答案。
一个可选的实施例中,所述确定目标实体模块302,包括:
获取问题文本单元,被配置为获取所述问题文本,并将所述问题文本输入至命名实体识别模型进行处理,获得所述问题文本的候选实体;
确定目标实体单元,被配置为基于所述候选实体查询所述知识库,并根据查询结果确定所述问题文本对应的所述目标实体。
一个可选的实施例中,所述确定目标实体模块302,包括:
确定问题类型单元,被配置为确定所述问题文本的问题类型;
在所述问题类型为第一问题类型的情况下,运行第一提取单元,所述第一提取单元,被配置为在所述知识库中提取所述目标实体对应的多个头实体第一关系和多个尾实体第一关系,作为所述候选关系;
在所述问题类型为第二问题类型的情况下,运行第二提取单元,所述第二提取单元,被配置为在所述知识库中提取所述目标实体对应的多个头实体第一关系、多个尾实体第一关系、多个头实体第二关系和多个尾实体第二关系,作为所述候选关系。
一个可选的实施例中,所述相似度分值计算模块304,包括:
第一相似度分值计算单元,被配置为在所述问题类型为第一问题类型的情况下,将所述多个头实体第一关系与所述问题文本输入至所述相似度计算模块进行处理,获得各个头实体第一关系与所述问题文本的第一相似度分值;
第二相似度分值计算单元,被配置为将所述多个尾实体第一关系与所述问题文本输入至所述相似度计算模块进行处理,获得各个尾实体第一关系与所述问题文本的第二相似度分值。
一个可选的实施例中,所述特征分值计算模块306,包括:
第一预处理单元,被配置为对所述多个头实体第一关系和所述问题文本进行预处理,获得各个头实体第一关系对应的第一特征矩阵;
第一特征计算单元,被配置为将所述第一特征矩阵输入至所述特征计算模块进行处理,获得各个头实体第一关系与所述问题文本的第一特征分值;
第二预处理单元,被配置为对所述多个尾实体第一关系和所述问题文本进行预处理,获得各个尾实体第一关系对应的第二特征矩阵;
第二特征计算单元,被配置为将所述第二特征矩阵输入至所述特征计算模块进行处理,获得各个尾实体第一关系与所述问题文本的第二特征分值。
一个可选的实施例中,所述确定答案模块308,包括:
确定候选分值单元,被配置为根据所述第一相似度分值和所述第一特征分值确定各个头实体第一关系的第一候选分值,以及根据所述第二相似度分值和所述第二特征分值确定各个尾实体第一关系的第二候选分值;
第一确定目标关系单元,被配置为在各个头实体第一关系的第一候选分值和各个尾实体第一关系的第二候选分值中选择目标候选分值,并确定所述目标候选分值对应的所述目标关系。
一个可选的实施例中,所述相似度分值计算模块304,包括:
确定第三相似度分值单元,被配置为在所述问题类型为第二问题类型的情况下,根据所述多个头实体第一关系和所述多个头实体第二关系确定头实体关系对,并将所述头实体关系对和所述问题文本输入至所述相似度计算模块进行处理,获得各个头实体关系对与所述问题文本的第三相似度分值;
确定第六相似度分值单元,被配置为根据所述多个尾实体第一关系和所述多个尾实体第二关系确定尾实体关系对,并将所述尾实体关系对和所述问题文本输入至所述相似度计算模块进行处理,获得各个尾实体关系对与所述问题文本的第六相似度分值。
一个可选的实施例中,所述确定第三相似度分值单元,包括:
确定第一相似度分值子单元,被配置为将所述多个头实体第一关系和所述问题文本输入至所述相似度计算模块中的第一相似度计算模型进行处理,获得各个头实体第一关系与所述问题文本的第一相似度分值;
筛选第二候选关系子单元,被配置为根据所述第一相似度分值在所述多个头实体第一关系中筛选出设定数目的头实体第一候选关系,并根据所述设定数目的头实体第一候选关系在所述多个头实体第二关系中筛选出设定数目的头实体第二候选关系;
确定第二相似度分值子单元,被配置为将所述设定数目的头实体第二候选关系和所述问题文本输入至所述相似度计算模块中的第二相似度计算模型进行处理,获得各个头实体第二候选关系与所述问题文本的第二相似度分值;
第一整合子单元,被配置为根据所述第二相似度分值在所述设定数目的头实体第二候选关系中筛选出头实体第二目标关系,并将所述设定数目的头实体第一候选关系和所述头实体第二目标关系进行整合,获得所述头实体关系对。
一个可选的实施例中,所述确定第六相似度分值单元,包括:
确定第四相似度分值子单元,被配置为将所述多个尾实体第一关系和所述问题文本输入至所述相似度计算模块中的第一相似度计算模型进行处理,获得各个尾实体第一关系与所述问题文本的第四相似度分值;
筛选第二候选关系子单元,被配置为根据所述第四相似度分值在所述多个尾实体第一关系中筛选出设定数目的尾实体第一候选关系,并根据所述设定数目的尾实体第一候选关系在所述多个尾实体第二关系中筛选出设定数目的尾实体第二候选关系;
确定第五相似度分值子单元,被配置为将所述设定数目的尾实体第二候选关系和所述问题文本输入至所述相似度计算模块中的第二相似度计算模型进行处理,获得各个尾实体第二候选关系与所述问题文本的第五相似度分值;
第二整合子单元,被配置为根据所述第五相似度分值在所述设定数目的尾实体第二候选关系中筛选出尾实体第二目标关系,并将所述设定数目的尾实体第一候选关系和所述尾实体第二目标关系进行整合,获得所述尾实体关系对。
一个可选的实施例中,所述特征分值计算模块306,包括:
确定关系对单元,被配置为根据所述多个候选关系确定所述头实体关系对和所述尾实体关系对;
第一特征计算模块处理单元,被配置为将所述头实体关系对和所述问题文本输入至所述特征计算模块进行处理,获得所述头实体关系对与所述问题文本的第一特征分值;
第二特征计算模块处理单元,被配置为将所述尾实体关系对和所述问题文本输入至所述特征计算模块进行处理,获得所述尾实体关系对与所述问题文本的第二特征分值。
一个可选的实施例中,所述确定答案模块308,包括:
计算第一相似度总分值单元,被配置为根据所述第三相似度分值和所述第一特征分值计算所述头实体关系对的第一相似度总分值;
计算第二相似度总分值单元,被配置为根据所述第六相似度分值和所述第二特征分值计算所述尾实体关系对的第二相似度总分值;
第二确定目标关系单元,被配置为基于所述第一相似度总分值和所述第二相似度总分值对所述头实体关系对和所述尾实体关系对进行排序,根据排序结果确定所述目标关系。
一个可选的实施例中,所述确定答案模块308进一步被配置为:
在所述知识库中确定所述目标实体基于所述目标关系映射的关联实体;根据所述关联实体生成所述问题文本的答案。
本实施例提供的一种文本处理装置,在获取到问题文本后,将确定问题文本的目标实体,同时在预设的知识库中提取目标实体对应的多个候选关系,之后将多个候选关系和问题文本输入至相似度计算模块进行处理,得到每个候选关系与问题文本的相似度分值,同时还将多个候选关系和问题文本输入至特征计算模块进行处理,得到每个候选关系与问题文本的特征分值,最后通过整合相似度分值和特征分值的方式,在多个候选关系中确定目标关系,再基于目标关系即可确定问题文本的答案,实现了在针对问题文本筛选答案的过程中,通过减少候选关系数量的方式提高确定答案的效率,同时通过相似度维度和特征维度结合的方式保证确定目标关系的准确率,进一步提高了确定答案的精准度,实现在较短的时间内针对问题获得精准度较高的答案。
上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图4示出了根据本申请一实施例提供的另一种文本处理方法的流程图,具体包括以下步骤:
步骤S402:确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个第一候选关系和多个第二候选关系。
步骤S404,基于所述多个第一候选关系和所述多个第二候选关系确定设定数目的候选关系对,并计算各个候选关系对与所述问题文本的相似度分值。
步骤S406,将所述设定数目的候选关系对与所述问题文本输入至特征计算模块进行处理,获得各个候选关系对与所述问题文本的特征分值。
步骤S408基于所述相似度分值和所述特征分值在所述设定数目的候选关系对中确定目标关系对,并根据所述目标关系对关联的实体确定所述问题文本的答案。
需要说明的是,本实施例提供的另一种文本处理方法应用于二度问题的处理过程,具体描述内容均可参见上述一种文本处理方法中相应的描述内容,本实施例在此不作过多赘述。
本实施例提供的另一种文本处理方法,实现了在针对问题文本筛选答案的过程中,通过减少候选关系数量的方式提高确定答案的效率,同时通过相似度维度和特征维度结合的方式保证确定目标关系的准确率,进一步提高了确定答案的精准度,实现在较短的时间内针对问题反馈精准度较高的答案。
下述结合附图5,以本申请提供的文本处理方法在二度问题中应用为例,对所述文本处理方法进行进一步说明。其中,图5示出了本申请一实施例提供的一种应用于二度问题中的文本处理方法的处理流程图,具体包括以下步骤:
步骤S502,获取问题文本。
本实施例以所述问题文本为单实体二度问题为例,对所述文本处理方法进行描述;其中,所述问题文本为“甲的住址天气如何?”;相应的,此时将通过KBQA系统进行答案的确定并反馈,具体过程如下所述。
步骤S504,将问题文本输入至命名实体识别模型进行实体识别,获得问题文本对应的候选实体。
步骤S506,根据候选实体查询预设的知识库,并根据查询结果确定候选实体映射的目标实体。
此时将问题文本“甲的住址天气如何?”输入至命名实体识别模型进行实体的抽取,获得问题文本的候选实体为“甲”,之后基于候选实体“甲”查询知识图谱对应的知识库,确定在该库中存在多个重名实体均为“甲”,分别是姓名实体,歌曲实体,地址实体等等,此时为了能够精准的确定问题文本的答案,将对多个实体进行排序,并根据排序结果选择前n个实体作为后续筛选目标关系的目标实体,本实施例为了方便描述,将以n为1进行描述。
相应的,对多个实体进行排序之后,选择排在第一位的候选实体作为目标实体进行后续目标关系的确定,即将多个实体进行排序之后,确定姓名实体排序在第一位,则将姓名实体“甲”作为候选实体链接的目标实体。
步骤S508,在预设的知识库中抽取目标实体对应的多个头实体一度关系、多个尾实体一度关系、多个头实体二度关系和多个尾实体二度关系。
在确定目标实体是姓名实体“甲”之后,此时将基于目标实体“甲”在知识库中进行一度关系的抽取和二度关系的抽取;从而确定头实体一度关系和尾实体一度关系为如图6所示:{一度关系①,住址关系②,一度关系③,一度关系④},确定头实体二度关系和尾实体二度关系为如图6所示:{气候关系a,二度关系b,二度关系c,二度关系d,二度关系e,二度关系f,二度关系g,二度关系h}。
步骤S510,将多个头实体一度关系和问题文本输入至第一BERT相似度模型进行相似度计算,获得各个头实体一度关系与问题文本的第一相似度得分。
在将多个头实体一度关系和问题文本输入至第一BERT相似度模型前,需要对各个头实体一度关系进行转换,即住址关系②(甲的住址)对应的关系序列是<甲><住址><pad_S1>,一度关系①对应的关系序列是<甲><关系①><pad_S2>;之后将转换后的各个关系序列分别与问题文本“甲的住址天气如何?”组成一组,分别输入至第一BERT相似度模型进行各个头实体一度关系与问题文本的相似度得分计算,确定住址关系②(甲的住址)与问题文本“甲的住址天气如何?”的相似度得分是0.8,一度关系①与问题文本“甲的住址天气如何?”的相似度得分是0.2。
步骤S512,根据第一相似度得分在多个头实体一度关系中筛选出设定数目的头实体一度候选关系。
在确定各个头实体一度关系与问题文本的第一相似度得分之后,将按照相似度得分从高到低的顺序从中筛选出前2个头实体一度关系作为头实体一度候选关系,此时即可确定头实体一度候选关系分别是住址关系②(甲的住址)和一度关系①。
步骤S514,根据设定数目的头实体一度候选关系在多个头实体二度关系中筛选出设定数目的头实体二度候选关系。
参见图6所示,按照住址关系②(甲的住址)和一度关系①在目标实体涉及的二度关系中进行头实体二度候选关系的筛选,确定头实体二度关系分别是:气候关系a,二度关系b和二度关系h。
步骤S516,将设定数目的头实体二度候选关系和问题文本输入至第二BERT相似度模型进行相似度计算,获得各个头实体二度候选关系与问题文本的第二相似度得分。
在确定头实体二度关系分别是:气候关系a,二度关系b和二度关系h之后,此时为了提高确定问题文本的精准度,将通过第二BERT相似度模型进行头实体二度候选关系与问题文本的相似度计算,而在此之前,也需要对头实体二度候选关系进行转换,即气候关系a对应的关系序列是<pad_S1><气候><pad_D1>,二度关系b对应的关系序列是<pad_S2><关系b><pad_D2>,二度关系h对应的关系序列是<pad_S3><关系h><pad_D3>。
之后将转换后的各个关系序列分别与问题文本“甲的住址天气如何?”组成一组,并输入至第二BERT相似度模型进行各个头实体二度候选关系与问题文本的相似度得分计算,获得模型输出的气候关系a与问题文本的相似度得分是0.5,二度关系b与问题文本的相似度得分是0.15,二度关系h与问题文本的相似度得分是0.2。
步骤S518,根据第二相似度得分在设定数目的头实体二度候选关系中筛选出头实体二度目标关系,并将头实体一度候选关系和头实体二度目标关系进行整合,获得头实体关系对。
确定头实体一候选度关系包括:住址关系②(甲的住址)和一度关系①,以及头实体二度选度关系包括:气候关系a,二度关系b和二度关系h之后,按照第二相似度得分选择排在前2位的头实体二度候选关系作为头实体二度目标关系,即确定气候关系a和二度关系h为头实体二度目标关系;之后按照彼此之间存在的关联关系对头实体一度候选关系和头实体二度目标关系进行整合,获得的头实体关系对分别是{住址关系②,气候关系a}和{一度关系①,二度关系h}。
步骤S520,将头实体关系对和问题文本输入至第三BERT相似度模型进行相似度计算,获得各个头实体关系对与问题文本的第三相似度得分。
而将头实体关系对和问题文本输入至第三BERT相似度模型之前,需要对各个头实体关系对进行关系序列的转换,确定{住址关系②,气候关系a}对应的关系序列是<甲><住址><pad_S1><pad_S1><气候><pad_D1>,{一度关系①,二度关系h}对应的关系序列是<甲><关系①><pad_S2><pad_S3><关系h><pad_D3>。
之后将转换后的各个关系序列分别与问题文本“甲的住址天气如何?”组成一组,并输入至第三BERT相似度模型进行各个头实体关系对与问题文本的相似度得分计算,获得模型输出的{住址关系②,气候关系a}与问题文本的相似度得分是0.9,{一度关系①,二度关系h}与问题文本的相似度得分是0.3。
步骤S522,将头实体关系对和问题文本输入至LGBM分类器进行特征相似度计算,获得各个头实体关系对与问题文本的第一特征相似度得分。
此时将进行矩阵转换,分别获得{住址关系②,气候关系a}与问题文本“甲的住址天气如何?”的特征表达矩阵,{一度关系①,二度关系h}与问题文本“甲的住址天气如何?”的特征表达矩阵。之后将各个特征表达矩阵输入至LGBM分类器进行特征相似度的计算,获得{住址关系②,气候关系a}与问题文本“甲的住址天气如何?”的特征相似度得分是0.8,{一度关系①,二度关系h}与问题文本“甲的住址天气如何?”的特征相似度得分是0.3。
步骤S524,对第三相似度得分和第一特征相似度得分进行求和,获得各个头实体关系对的第一相似度总得分。
具体的,将{住址关系②,气候关系a}与问题文本的相似度得分和特征相似度得分相加,确定{住址关系②,气候关系a}与问题文本的相似度总得分为0.9+0.8=1.7;将{一度关系①,二度关系h}与问题文本的相似度得分和特征相似度得分相加,确定{一度关系①,二度关系h}与问题文本的相似度总得分为0.3+0.3=0.6。
步骤S526,将多个尾实体一度关系和问题文本输入至第一BERT相似度模型进行相似度计算,获得各个尾实体一度关系与问题文本的第四相似度得分。
步骤S528,根据第四相似度得分在多个尾实体一度关系中筛选出设定数目的尾实体一度候选关系。
步骤S530,根据设定数目的尾实体一度候选关系在多个尾实体二度关系中筛选出设定数目的尾实体二度候选关系。
步骤S532,将设定数目的尾实体二度候选关系和问题文本输入至第二BERT相似度模型进行相似度计算,获得各个尾实体二度候选关系与问题文本的第五相似度得分。
步骤S534,根据第五相似度得分在设定数目的尾实体二度候选关系中筛选出尾实体二度目标关系,并将尾实体一度候选关系和尾实体二度目标关系进行整合,获得尾实体关系对。
步骤S536,将尾实体关系对和问题文本输入至第三BERT相似度模型进行相似度计算,获得各个尾实体关系对与问题文本的第六相似度得分。
步骤S538,将尾实体关系对和问题文本输入至LGBM分类器进行特征相似度计算,获得各个尾实体关系对与问题文本的第二特征相似度得分。
步骤S540,对第六相似度得分和第二特征相似度得分进行求和,获得各个尾实体关系对的第二相似度总得分。
具体的,所述步骤S526至步骤S540是针对尾实体关系对的确定过程,该过程可以参见步骤S510至步骤S524相应的描述内容,本实施例在此不作过多赘述,相似的地方均可相互参见;此外,需要说明的是,由于尾实体一度关系和尾实体二度关系不同于头实体一度关系和头实体二度关系,因此,在生成尾实体关系对时,将以<pad><一度关系><实体><pad><二度关系><pad>该关系序列进行转换,再进行相应的处理即可。
步骤S542,根据第一相似度总得分和第二相似度总得分对多个头实体关系对和多个尾实体关系对进行排序,并根据排序结果选择目标关系对。
具体的,通过相似度总得分确定头实体关系对:{住址关系②,气候关系a}为总得分最高的实体关系对,则将{住址关系②,气候关系a}确定为目标关系对,以用于在KBQA系统对应的知识图谱中确定问题文本“甲的住址天气如何?”的答案。
步骤S544,基于目标关系对在预设的知识库中映射的关联实体确定问题文本的答案。
参见图6所示,基于{住址关系②,气候关系a}在KBQA系统对应的知识图谱中确定映射的关联实体是晴,则确定问题文本“甲的住址天气如何?”的答案是“晴”,即确定甲的住址天气是晴天。
综上所述,在基于KBQA系统对单实体二度问题进行答案确定时,将结合三个BERT相似度模型和LGBM分类器结合进行连续的实体关系对的筛选,从而在进行筛选实体关系度时可以减少计算量,从而提高实体关系对的筛选效率,并且通过多重筛选的方式可以有效的提高确定答案的精准度和效率,进一步满足用户的使用需求。
与上述方法实施例相对应,本申请还提供了另一种文本处理装置实施例,图7示出了本申请一实施例提供的另一种文本处理装置的结构示意图。如图7所示,该装置包括:
提取模块702,被配置为确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个第一候选关系和多个第二候选关系;
计算相似度模块704,被配置为基于所述多个第一候选关系和所述多个第二候选关系确定设定数目的候选关系对,并计算各个候选关系对与所述问题文本的相似度分值;
计算特征模块706,被配置为将所述设定数目的候选关系对与所述问题文本输入至特征计算模块进行处理,获得各个候选关系对与所述问题文本的特征分值;
确定模块708,被配置为基于所述相似度分值和所述特征分值在所述设定数目的候选关系对中确定目标关系对,并根据所述目标关系对关联的实体确定所述问题文本的答案。
本实施例提供的另一种文本处理装置,实现了在针对问题文本筛选答案的过程中,通过减少候选关系数量的方式提高确定答案的效率,同时通过相似度维度和特征维度结合的方式保证确定目标关系的准确率,进一步提高了确定答案的精准度,实现在较短的时间内针对问题反馈精准度较高的答案。
上述为本实施例的另一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的另一种文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述另一种文本处理方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图8示出了根据本申请一实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接,数据库850用于保存数据。
计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
其中,处理器820用于执行如下计算机可执行指令:
确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个候选关系;
将所述多个候选关系与所述问题文本输入至相似度计算模块进行处理,获得各个候选关系与所述问题文本的相似度分值;
将所述多个候选关系与所述问题文本输入至特征计算模块进行处理,获得各个候选关系与所述问题文本的特征分值;
基于所述相似度分值和所述特征分值在所述多个候选关系中确定目标关系,并根据所述目标关系关联的实体确定所述问题文本的答案。
或者,
确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个第一候选关系和多个第二候选关系;
基于所述多个第一候选关系和所述多个第二候选关系确定设定数目的候选关系对,并计算各个候选关系对与所述问题文本的相似度分值;
将所述设定数目的候选关系对与所述问题文本输入至特征计算模块进行处理,获得各个候选关系对与所述问题文本的特征分值;
基于所述相似度分值和所述特征分值在所述设定数目的候选关系对中确定目标关系对,并根据所述目标关系对关联的实体确定所述问题文本的答案。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的两种文本处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述两种文本处理方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个候选关系;
将所述多个候选关系与所述问题文本输入至相似度计算模块进行处理,获得各个候选关系与所述问题文本的相似度分值;
将所述多个候选关系与所述问题文本输入至特征计算模块进行处理,获得各个候选关系与所述问题文本的特征分值;
基于所述相似度分值和所述特征分值在所述多个候选关系中确定目标关系,并根据所述目标关系关联的实体确定所述问题文本的答案。
或者,
确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个第一候选关系和多个第二候选关系;
基于所述多个第一候选关系和所述多个第二候选关系确定设定数目的候选关系对,并计算各个候选关系对与所述问题文本的相似度分值;
将所述设定数目的候选关系对与所述问题文本输入至特征计算模块进行处理,获得各个候选关系对与所述问题文本的特征分值;
基于所述相似度分值和所述特征分值在所述设定数目的候选关系对中确定目标关系对,并根据所述目标关系对关联的实体确定所述问题文本的答案。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的两种文本处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述两种文本处理方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (17)
1.一种文本处理方法,其特征在于,包括:
确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个候选关系;
将所述多个候选关系与所述问题文本输入至相似度计算模块进行处理,获得各个候选关系与所述问题文本的相似度分值;
将所述多个候选关系与所述问题文本输入至特征计算模块进行处理,获得各个候选关系与所述问题文本的特征分值;
基于所述相似度分值和所述特征分值在所述多个候选关系中确定目标关系,并根据所述目标关系关联的实体确定所述问题文本的答案。
2.根据权利要求1所述的文本处理方法,其特征在于,所述确定问题文本对应的目标实体,包括:
获取所述问题文本,并将所述问题文本输入至命名实体识别模型进行处理,获得所述问题文本的候选实体;
基于所述候选实体查询所述知识库,并根据查询结果确定所述问题文本对应的所述目标实体。
3.根据权利要求2所述的文本处理方法,其特征在于,所述在预设的知识库中提取所述目标实体对应的多个候选关系,包括:
确定所述问题文本的问题类型;
在所述问题类型为第一问题类型的情况下,在所述知识库中提取所述目标实体对应的多个头实体第一关系和多个尾实体第一关系,作为所述候选关系;
在所述问题类型为第二问题类型的情况下,在所述知识库中提取所述目标实体对应的多个头实体第一关系、多个尾实体第一关系、多个头实体第二关系和多个尾实体第二关系,作为所述候选关系。
4.根据权利要求3所述的文本处理方法,其特征在于,所述将所述多个候选关系与所述问题文本输入至相似度计算模块进行处理,获得各个候选关系与所述问题文本的相似度分值,包括:
在所述问题类型为第一问题类型的情况下,将所述多个头实体第一关系与所述问题文本输入至所述相似度计算模块进行处理,获得各个头实体第一关系与所述问题文本的第一相似度分值;
将所述多个尾实体第一关系与所述问题文本输入至所述相似度计算模块进行处理,获得各个尾实体第一关系与所述问题文本的第二相似度分值。
5.根据权利要求4所述的文本处理方法,其特征在于,所述将所述多个候选关系与所述问题文本输入至特征计算模块进行处理,获得各个候选关系与所述问题文本的特征分值,包括:
对所述多个头实体第一关系和所述问题文本进行预处理,获得各个头实体第一关系对应的第一特征矩阵;
将所述第一特征矩阵输入至所述特征计算模块进行处理,获得各个头实体第一关系与所述问题文本的第一特征分值;
对所述多个尾实体第一关系和所述问题文本进行预处理,获得各个尾实体第一关系对应的第二特征矩阵;
将所述第二特征矩阵输入至所述特征计算模块进行处理,获得各个尾实体第一关系与所述问题文本的第二特征分值。
6.根据权利要求5所述的文本处理方法,其特征在于,所述基于所述相似度分值和所述特征分值在所述多个候选关系中确定目标关系,包括:
根据所述第一相似度分值和所述第一特征分值确定各个头实体第一关系的第一候选分值,以及根据所述第二相似度分值和所述第二特征分值确定各个尾实体第一关系的第二候选分值;
在各个头实体第一关系的第一候选分值和各个尾实体第一关系的第二候选分值中选择目标候选分值,并确定所述目标候选分值对应的所述目标关系。
7.根据权利要求3所述的文本处理方法,其特征在于,所述将所述多个候选关系与所述问题文本输入至相似度计算模块进行处理,获得各个候选关系与所述问题文本的相似度分值,包括:
在所述问题类型为第二问题类型的情况下,根据所述多个头实体第一关系和所述多个头实体第二关系确定头实体关系对,并将所述头实体关系对和所述问题文本输入至所述相似度计算模块进行处理,获得各个头实体关系对与所述问题文本的第三相似度分值;
根据所述多个尾实体第一关系和所述多个尾实体第二关系确定尾实体关系对,并将所述尾实体关系对和所述问题文本输入至所述相似度计算模块进行处理,获得各个尾实体关系对与所述问题文本的第六相似度分值。
8.根据权利要求7所述的文本处理方法,其特征在于,所述根据所述多个头实体第一关系和所述多个头实体第二关系确定头实体关系对,包括:
将所述多个头实体第一关系和所述问题文本输入至所述相似度计算模块中的第一相似度计算模型进行处理,获得各个头实体第一关系与所述问题文本的第一相似度分值;
根据所述第一相似度分值在所述多个头实体第一关系中筛选出设定数目的头实体第一候选关系,并根据所述设定数目的头实体第一候选关系在所述多个头实体第二关系中筛选出设定数目的头实体第二候选关系;
将所述设定数目的头实体第二候选关系和所述问题文本输入至所述相似度计算模块中的第二相似度计算模型进行处理,获得各个头实体第二候选关系与所述问题文本的第二相似度分值;
根据所述第二相似度分值在所述设定数目的头实体第二候选关系中筛选出头实体第二目标关系,并将所述设定数目的头实体第一候选关系和所述头实体第二目标关系进行整合,获得所述头实体关系对。
9.根据权利要求7所述的文本处理方法,其特征在于,所述根据所述多个尾实体第一关系和所述多个尾实体第二关系确定尾实体关系对,包括:
将所述多个尾实体第一关系和所述问题文本输入至所述相似度计算模块中的第一相似度计算模型进行处理,获得各个尾实体第一关系与所述问题文本的第四相似度分值;
根据所述第四相似度分值在所述多个尾实体第一关系中筛选出设定数目的尾实体第一候选关系,并根据所述设定数目的尾实体第一候选关系在所述多个尾实体第二关系中筛选出设定数目的尾实体第二候选关系;
将所述设定数目的尾实体第二候选关系和所述问题文本输入至所述相似度计算模块中的第二相似度计算模型进行处理,获得各个尾实体第二候选关系与所述问题文本的第五相似度分值;
根据所述第五相似度分值在所述设定数目的尾实体第二候选关系中筛选出尾实体第二目标关系,并将所述设定数目的尾实体第一候选关系和所述尾实体第二目标关系进行整合,获得所述尾实体关系对。
10.根据权利要求7所述的文本处理方法,其特征在于,所述将所述多个候选关系与所述问题文本输入至特征计算模块进行处理,获得各个候选关系与所述问题文本的特征分值,包括:
根据所述多个候选关系确定所述头实体关系对和所述尾实体关系对;
将所述头实体关系对和所述问题文本输入至所述特征计算模块进行处理,获得所述头实体关系对与所述问题文本的第一特征分值;
将所述尾实体关系对和所述问题文本输入至所述特征计算模块进行处理,获得所述尾实体关系对与所述问题文本的第二特征分值。
11.根据权利要求10所述的文本处理方法,其特征在于,所述基于所述相似度分值和所述特征分值在所述多个候选关系中确定目标关系,包括:
根据所述第三相似度分值和所述第一特征分值计算所述头实体关系对的第一相似度总分值;
根据所述第六相似度分值和所述第二特征分值计算所述尾实体关系对的第二相似度总分值;
基于所述第一相似度总分值和所述第二相似度总分值对所述头实体关系对和所述尾实体关系对进行排序,根据排序结果确定所述目标关系。
12.根据权利要求6或11所述的文本处理方法,其特征在于,所述根据所述目标关系关联的实体确定所述问题文本的答案,包括:
在所述知识库中确定所述目标实体基于所述目标关系映射的关联实体;
根据所述关联实体生成所述问题文本的答案。
13.一种文本处理装置,其特征在于,包括:
确定目标实体模块,被配置为确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个候选关系;
相似度分值计算模块,被配置为将所述多个候选关系与所述问题文本输入至相似度计算模块进行处理,获得各个候选关系与所述问题文本的相似度分值;
特征分值计算模块,被配置为将所述多个候选关系与所述问题文本输入至特征计算模块进行处理,获得各个候选关系与所述问题文本的特征分值;
确定答案模块,被配置为基于所述相似度分值和所述特征分值在所述多个候选关系中确定目标关系,并根据所述目标关系关联的实体确定所述问题文本的答案。
14.一种文本处理方法,其特征在于,包括:
确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个第一候选关系和多个第二候选关系;
基于所述多个第一候选关系和所述多个第二候选关系确定设定数目的候选关系对,并计算各个候选关系对与所述问题文本的相似度分值;
将所述设定数目的候选关系对与所述问题文本输入至特征计算模块进行处理,获得各个候选关系对与所述问题文本的特征分值;
基于所述相似度分值和所述特征分值在所述设定数目的候选关系对中确定目标关系对,并根据所述目标关系对关联的实体确定所述问题文本的答案。
15.一种文本处理装置,其特征在于,包括:
提取模块,被配置为确定问题文本对应的目标实体,并在预设的知识库中提取所述目标实体对应的多个第一候选关系和多个第二候选关系;
计算相似度模块,被配置为基于所述多个第一候选关系和所述多个第二候选关系确定设定数目的候选关系对,并计算各个候选关系对与所述问题文本的相似度分值;
计算特征模块,被配置为将所述设定数目的候选关系对与所述问题文本输入至特征计算模块进行处理,获得各个候选关系对与所述问题文本的特征分值;
确定模块,被配置为基于所述相似度分值和所述特征分值在所述设定数目的候选关系对中确定目标关系对,并根据所述目标关系对关联的实体确定所述问题文本的答案。
16.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至12或14任意一项所述文本处理方法的步骤。
17.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至12或14任意一项所述文本处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011191981.4A CN114444505A (zh) | 2020-10-30 | 2020-10-30 | 文本处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011191981.4A CN114444505A (zh) | 2020-10-30 | 2020-10-30 | 文本处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114444505A true CN114444505A (zh) | 2022-05-06 |
Family
ID=81357910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011191981.4A Pending CN114444505A (zh) | 2020-10-30 | 2020-10-30 | 文本处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114444505A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502621A (zh) * | 2019-07-03 | 2019-11-26 | 平安科技(深圳)有限公司 | 问答方法、问答装置、计算机设备及存储介质 |
CN110825860A (zh) * | 2019-10-24 | 2020-02-21 | 厦门快商通科技股份有限公司 | 知识库问答抽取方法、系统、移动终端及存储介质 |
CN111382255A (zh) * | 2020-03-17 | 2020-07-07 | 北京百度网讯科技有限公司 | 用于问答处理的方法、装置、设备和介质 |
-
2020
- 2020-10-30 CN CN202011191981.4A patent/CN114444505A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502621A (zh) * | 2019-07-03 | 2019-11-26 | 平安科技(深圳)有限公司 | 问答方法、问答装置、计算机设备及存储介质 |
CN110825860A (zh) * | 2019-10-24 | 2020-02-21 | 厦门快商通科技股份有限公司 | 知识库问答抽取方法、系统、移动终端及存储介质 |
CN111382255A (zh) * | 2020-03-17 | 2020-07-07 | 北京百度网讯科技有限公司 | 用于问答处理的方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN109271505B (zh) | 一种基于问题答案对的问答系统实现方法 | |
WO2021159632A1 (zh) | 智能问答方法、装置、计算机设备及计算机存储介质 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN114090776A (zh) | 文档解析方法、系统及装置 | |
CN113159187B (zh) | 分类模型训练方法及装置、目标文本确定方法及装置 | |
CN112784590A (zh) | 文本处理方法及装置 | |
CN117909466A (zh) | 领域问答系统、构造方法、电子设备及存储介质 | |
CN113342958A (zh) | 问答匹配方法、文本匹配模型的训练方法和相关设备 | |
CN118113815B (zh) | 内容搜索方法、相关装置和介质 | |
CN117874161A (zh) | 表格问答优化方法、装置、电子设备及可读存储介质 | |
CN115577080A (zh) | 一种问题回复匹配方法、系统、服务器及存储介质 | |
CN116595026A (zh) | 信息查询方法 | |
CN114003706A (zh) | 关键词组合生成模型训练方法及装置 | |
CN118035405A (zh) | 一种基于大模型的知识库问答构建方法及装置 | |
CN112989803A (zh) | 一种基于主题向量学习的实体链接模型 | |
CN114491010A (zh) | 信息抽取模型的训练方法及装置 | |
CN112487263A (zh) | 一种信息处理方法、系统、设备及计算机可读存储介质 | |
CN116956068A (zh) | 基于规则引擎的意图识别方法、装置、电子设备及介质 | |
CN109684357B (zh) | 信息处理方法及装置、存储介质、终端 | |
CN114138947A (zh) | 文本处理方法及装置 | |
CN111104422A (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN113868389B (zh) | 基于自然语言文本的数据查询方法、装置及计算机设备 | |
CN113362026B (zh) | 文本处理方法及装置 | |
CN114417863A (zh) | 词权重生成模型训练方法及装置、词权重生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |