CN112784590A - 文本处理方法及装置 - Google Patents

文本处理方法及装置 Download PDF

Info

Publication number
CN112784590A
CN112784590A CN202110137335.8A CN202110137335A CN112784590A CN 112784590 A CN112784590 A CN 112784590A CN 202110137335 A CN202110137335 A CN 202110137335A CN 112784590 A CN112784590 A CN 112784590A
Authority
CN
China
Prior art keywords
entity
candidate
text
question
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110137335.8A
Other languages
English (en)
Inventor
侯依宁
汪洲
李长亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Software Co Ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Software Co Ltd filed Critical Beijing Kingsoft Software Co Ltd
Priority to CN202110137335.8A priority Critical patent/CN112784590A/zh
Publication of CN112784590A publication Critical patent/CN112784590A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供文本处理方法及装置,其中所述文本处理方法包括:获取问题文本,并识别所述问题文本中的问题实体;在预设的知识库中链接所述问题实体对应的多个候选实体,以及根据所述问题实体识别所述问题文本的问题类型;基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,并根据所述至少一条候选路径确定目标路径;将所述目标路径转换为查询语句,并根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本。

Description

文本处理方法及装置
技术领域
本申请涉及文本处理技术领域,特别涉及文本处理方法及装置。
背景技术
随着互联网技术的发展,越来越多的问答系统应运而生,通过底层复杂的知识库支持,实现可以对用户提出的问题进行回答;现有技术在根据知识库创建的问答系统中,基本上都是采用语义解析的方法和信息检索的方法;其中,基于语义解析的方法通常是使用字典、规则和机器学习,直接从问题中解析出实体、关系和逻辑组合;而基于语义解析的方法通常使用分类模型进行关系的预测,其面临未登录关系的问题,即训练集未出现的关系难以被预测出来。而基于信息检索的方法通常是根据问题得到若干个候选实体,根据预定义的逻辑形式,从知识库中抽取与候选实体相连的关系作为候选查询路径,再使用文本匹配模型,选择出与问题相似度最高的候选查询路径到知识库中检索答案;而基于信息检索的方法存在应用场景较小的问题,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
获取问题文本,并识别所述问题文本中的问题实体;
在预设的知识库中链接所述问题实体对应的多个候选实体,以及根据所述问题实体识别所述问题文本的问题类型;
基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,并根据所述至少一条候选路径确定目标路径;
将所述目标路径转换为查询语句,并根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本。
可选地,所述识别所述问题文本中的问题实体,包括:
基于预设的识别策略对所述问题文本进行实体识别,获得所述问题实体;
其中,所述预设的识别策略包括模型识别策略、字典识别策略和/或规则识别策略。
可选地,所述基于预设的识别策略对所述问题文本进行实体识别,获得所述问题实体,包括:
将所述问题文本输入至实体识别模型进行实体识别,获得所述问题文本对应的第一问题实体;
基于所述知识库对应的实体词典对所述问题文本进行实体识别,获得所述问题文本对应的第二问题实体;
通过正则匹配规则对所述问题文本进行实体识别,获得所述问题文本对应的第三问题实体;
根据所述第一问题实体、所述第二问题实体和所述第三问题实体确定所述问题实体。
可选地,所述在预设的知识库中链接所述问题实体对应的多个候选实体,包括:
基于所述问题实体查询所述知识库对应的实体映射表,并根据查询结果确定所述问题实体对应的多个初始候选实体;
根据所述多个初始候选实体筛选出设定数据量的初始候选实体作为所述多个候选实体。
可选地,所述根据所述多个初始候选实体筛选出设定数据量的初始候选实体作为所述多个候选实体,包括:
根据所述知识库确定所述多个初始候选实体中各个初始候选实体分别对应的一度关系;
将所述多个初始候选实体、所述问题文本以及各个初始候选实体对应的一度关系输入至计算模块,计算各个初始候选实体分别对应的相似度分值;
基于所述相似度分值对各个初始候选实体进行排序,获得实体排序列表;
按照优先级顺序在所述实体排序列表中筛选出设定数量的初始候选实体作为所述多个候选实体。
可选地,所述将所述多个初始候选实体、所述问题文本以及各个初始候选实体对应的一度关系输入至计算模块,计算各个初始候选实体分别对应的相似度分值,包括:
将所述多个初始候选实体、所述问题文本以及各个初始候选实体对应的一度关系输入至所述计算模块;
通过对各个初始候选实体与各个初始候选实体对应的一度关系进行拼接,并将拼接结果和所述问题文本输入至所述计算模块中的文本处理模型进行文本相似度计算,获得各个初始候选实体分别对应的文本相似度分值;
将所述问题文本和各个初始候选实体输入至所述计算模块中的特征处理模型进行特征相似度计算,获得各个初始候选实体分别对应的特征相似度分值;
根据所述文本相似度分值和所述特征相似度分值确定各个初始候选实体分别对应的相似度分值,并通过所述计算模块输出。
可选地,所述根据所述问题实体识别所述问题文本的问题类型,包括:
识别所述问题实体的实体数量,并根据所述实体数量确定所述问题文本对应的实体问题类型;
将所述问题文本输入至关系识别模型进行处理,获得所述问题文本对应的关系问题类型;
根据所述实体问题类型和所述关系问题类型确定所述问题类型;
其中,所述问题类型包括下述至少一项:单实体一度问题类型,单实体二度问题类型,多实体一度问题类型。
可选地,所述基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,包括:
在所述问题类型为单实体一度问题类型的情况下,根据所述单实体一度问题类型在所述知识库中读取所述多个候选实体中各个候选实体对应的一度关系;
基于所述多个候选实体中的各个候选实体以及各个候选实体对应的一度关系生成所述问题文本对应的所述至少一条候选路径。
可选地,所述基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,包括:
在所述问题类型为单实体二度问题类型的情况下,根据所述单实体二度问题类型在所述知识库中读取所述多个候选实体中各个候选实体对应的一度关系;
根据各个候选实体对应的一度关系在所述知识库中读取所述多个候选实体中各个候选实体对应的二度关系;
基于各个候选实体以及各个候选实体对应的一度关系和二度关系生成所述问题文本对应的所述至少一条候选路径。
可选地,所述根据各个候选实体对应的一度关系在所述知识库中读取所述多个候选实体中各个候选实体对应的二度关系,包括:
将所述问题文本和各个候选实体对应的一度关系输入至相似度模型进行处理,获得各个候选实体对应的目标一度关系;
根据各个候选实体对应的目标一度关系在所述知识库中读取所述多个候选实体中各个候选实体对应的二度关系;
相应的,所述基于各个候选实体以及各个候选实体对应的一度关系和二度关系生成所述问题文本对应的所述至少一条候选路径,包括:
基于各个候选实体以及各个候选实体对应的目标一度关系和二度关系生成所述问题文本对应的所述至少一条候选路径。
可选地,所述基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,包括:
在所述问题类型为多实体一度问题类型的情况下,根据所述多实体一度问题类型将所述问题文本拆分为多个单实体一度问题文本;
根据所述多个候选实体确定所述多个单实体一度问题文本中各个单实体一度问题文本对应的候选实体;
在所述知识库中读取各个单实体一度问题文本对应的候选实体的一度关系;
基于各个单实体一度问题文本对应的候选实体以及各个单实体一度问题文本对应的候选实体的一度关系生成所述问题文本对应的所述至少一条候选路径。
可选地,所述根据所述至少一条候选路径确定目标路径,包括:
将所述问题文本和所述至少一条候选路径输入至相似度计算模块进行处理,获得所述问题文本与各个候选路径的路径相似度分值;
选择所述路径相似度分值最高的候选路径作为所述目标路径。
可选地,所述将所述问题文本和所述至少一条候选路径输入至相似度计算模块进行处理,获得所述问题文本与各个候选路径的路径相似度分值,包括:
将所述问题文本和所述至少一条候选路径输入至所述相似度计算模块中的文本相似度模型,获得所述问题文本与各个候选路径的文本路径相似度分值;
将所述问题文本和所述至少一条候选路径输入至所述相似度计算模块中的特征相似度模型,获得所述问题文本与各个候选路径的特征路径相似度分值;
确定各个候选路径对应的候选实体的实体分值,并根据所述实体分值、文本路径相似度分值和所述特征路径相似度分值确定所述路径相似度分值。
可选地,所述将所述目标路径转换为查询语句,包括:
在所述问题类型为多实体一度问题类型的情况下,根据所述目标路径确定多个子路径;
对所述多个子路径进行拼接获得目标拼接路径,并将所述目标拼接路径转换为所述查询语句。
可选地,所述根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本,包括:
根据所述查询语句在所述知识库中查询所述问题文本对应的目标实体;
基于所述目标实体生成所述问题文本对应的所述答案文本。
根据本申请实施例的第二方面,提供了一种文本处理装置,包括:
获取模块,被配置为获取问题文本,并识别所述问题文本中的问题实体;
链接模块,被配置为在预设的知识库中链接所述问题实体对应的多个候选实体,以及根据所述问题实体识别所述问题文本的问题类型;
确定模块,被配置为基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,并根据所述至少一条候选路径确定目标路径;
查询模块,被配置为将所述目标路径转换为查询语句,并根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理的步骤。
本申请提供的文本处理方法,在获取到问题文本之后,将对识别所述问题文本中的问题实体,之后在预设的知识库中链接所述问题文本对应的多个候选实体,同时根据问题实体识别问题文本的问题类型,基于多个候选实体和问题类型创建问题文本对应的候选路径,并在候选路径中确定目标路径,最后将目标路径转换为查询语句,通过所述查询语句即可在所述知识库中查询到所述问题文本对应的答案文本,实现了在针对所述问题文本回答的过程中,保证了答复所述问题文本的精准度,同时还提高了确定所述答案文本的处理效率。
附图说明
图1是本申请一实施例提供的一种文本处理方法的流程图;
图2是本申请一实施例提供的一种应用于单实体一度问题答复场景中的文本处理方法的处理流程图;
图3是本申请一实施例提供的一种文本处理装置的结构示意图;
图4是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
一度问题:经过一次查询即可获得结果的问题,可以理解为一个关系,如“A的职务是什么?”。
二度问题:需要经过两步查询可以获得的结果,可以理解为多个关系,如“B集团董事长的儿子是谁?”。
KBQA:知识库问答(knowledge base question answering,KB-QA)。KBQA基于知识图谱的问答系统,基本流程是根据问句查询知识图谱,然后根据知识图谱的信息生成一句答案返回给用户。
实体链接:实体链接(Entity linking,EL),将文本中的实体提及映射到给定的知识库(KB)。
知识库:是指汇聚具体领域知识的知识库,知识组建形式是非结构的自然语言,而为了方便计算机处理和理解,将知识采用三元组表达的方式进行形式化和简洁化;知识库中的三元组即为(实体entity,实体关系relation,实体entity)。
命名实体识别:命名实体识别(Named Entity Recognition,NER),是指识别文本中具有特定意义的实体。
BERT模型:(BidirectionalEncoder Representations from Transformer),是基于Transformer的双向编码器表征,BERT模型的根基就是Transformer,来源于attentionis all you need。其中双向的意思表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义。
在本申请中,提供了一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
实际应用中,由于开放性领域的KBQA关系实体通常都是较为复杂的,如在PKUBASE知识库中包含6400多万个三元组,1000多万的实体以及40多万的关系,在针对用户提出的问题进行答复时,只能通过检索知识库的方式进行答案的确定;然而,由于知识库的复杂程度较高,在针对问题进行筛选答案时,通常是按照实体识别、实体链接、路径排序和答案检索的流程完成答案的筛选,该过程不仅无法精准的保证答案的正确性,还会由于问题的复杂程度,造成候选关系爆炸性增长的问题,因此在面对开放性领域的KBQA系统抽取答案时,如何提高答案抽取效率和精准度是急需解决的重要问题。
本申请提供的文本处理方法,在获取到问题文本之后,将对识别所述问题文本中的问题实体,之后在预设的知识库中链接所述问题文本对应的多个候选实体,同时根据问题实体识别问题文本的问题类型,基于多个候选实体和问题类型创建问题文本对应的候选路径,并在候选路径中确定目标路径,最后将目标路径转换为查询语句,通过所述查询语句即可在所述知识库中查询到所述问题文本对应的答案文本,实现了在针对所述问题文本回答的过程中,保证了答复所述问题文本的精准度,同时还提高了确定所述答案文本的处理效率。
图1示出了根据本申请一实施例提供的一种文本处理方法的流程图,具体包括以下步骤:
步骤S102,获取问题文本,并识别所述问题文本中的问题实体。
本实施例提供的文本处理方法应用于KBQA问答系统,在对问题文本进行答复的过程中,按照实体识别>实体链接>问句分类>路径生成>路径排序>答案检索的步骤完成答案的抽取,可以有效的提高答案抽取的精准度,以及答复问题的效率,从而保证KBQA问答系统处理问题的高效性,满足用户的使用需求。
基于此,实体识别阶段用于识别问题文本中出现的实体和属性;实体链接阶段将实体链接到知识库中的候选实体并排序;问句分类阶段判断问题文本的类型,如判断问题文本是单实体问句或多实体问句;路径生成阶段实现从知识库中召回候选路径,并通过路径相似度计算进行筛选;路径排序阶段实现对单实体问题的候选路径进行重排序;答案检索节点构造查询语句并从知识库中检索问题文本的答案;通过上述六个步骤相互配合,实现针对所述问题文本进行精准的答复,以避免其他因素(路径过多,问题种类无法确定等)造成影响,从而保证处理效率的同时,提高答复精准度。
基于此,所述问题实体是指出现在问题文本中的命名实体和属性;在获取到所述问题文本之后,说明需要通过KBQA问答系统对所述问题文本进行答复,此时则需要识别所述问题文本中的问题实体,以用于后续为答案的抽取做准备。
进一步的,在识别所述问题文本中的问题实体的过程中,由于问题实体识别的精准度决定着后续抽取答案的精准度,即问题实体抽取正确会提高确定问题文本对应答案的精准度,问题实体抽取错误会降低确定问题文本对应答案的精准度,因此为了能够保证问题实体识别的精准度,本申请采用多种识别策略组合的方式实现,本实施例中,具体实现方式如下所述:
基于预设的识别策略对所述问题文本进行实体识别,获得所述问题实体;
其中,所述预设的识别策略包括模型识别策略、字典识别策略和/或规则识别策略。
具体的,所述预设的识别策略具体是指整合一种或多种识别策略的集合,相应的,能够整合到所述预设的识别策略中的策略可以是模型识别策略、字典识别策略和/或规则策略。
其中,所述模型识别策略具体是指通过预设的命名实体识别模型完成实体识别,即可以基于BERT+CRF(Conditional Random Fields,是给定一组输入序列条件输出另一组序列的条件概率分布模型)训练两个实体识别模型,其一是在评测的训练数据上训练识别实体边界的模型,其二是训练出能够识别出人名和机构名的模型,通过召回人名实体和机构名实体,以提升实体的召回率。所述字典识别策略具体是指将问题文本中的词单元与字典中包含的命名实体进行匹配,将匹配的词单元作为识别出的实体,即基于链接词典和知识库构建实体词典,同时基于知识库构建属性值词典,在此基础上通过与词典最大匹配识别问题文本中的实体和属性值。所述规则识别策略具体是指针对数字、日期、书名等特殊实体和属性值进行识别的规则,通过正则匹配以完成特殊实体的识别。
具体实施时,针对不同的应用场景可以采用不同的方式进行实体识别,如单独采用模型实体策略、字典识别策略或规则识别策略;也可以将至少两种识别策略进行组合,如采用模型识别策略+规则识别策略;字典识别策略+规则识别策略;或模型识别策略+字典识别策略;以实现通过多种识别策略整合的方式提高从问题文本中识别问题实体的精准度,实际应用中,预设的识别策略的组合方式可以根据实际应用场景进行设定,本实施例在此不作任何限定。
进一步的,考虑到问题实体对答案抽取精准度的影响,因此也可以采用三种识别策略整合的方式进行问题识别实体,即将模型识别策略、字典识别策略和规则识别策略的识别结果进行整合,以确定所述问题文本的问题实体,本实施例中,具体实现方式如下所述:
将所述问题文本输入至实体识别模型进行实体识别,获得所述问题文本对应的第一问题实体;
基于所述知识库对应的实体词典对所述问题文本进行实体识别,获得所述问题文本对应的第二问题实体;
通过正则匹配规则对所述问题文本进行实体识别,获得所述问题文本对应的第三问题实体;
根据所述第一问题实体、所述第二问题实体和所述第三问题实体确定所述问题实体。
具体的,所述第一问题实体具体是指通过所述实体识别模型从所述问题文本中抽取出的实体,所述第二问题实体具体是指通过所述实体字典从所述问题文本中抽取出的实体,所述第三问题实体具体是指通过所述正则匹配规则从所述问题文本中抽取出的实体。
基于此,将所述问题文本分别通过实体识别模型、实体字典和正则匹配规则进行实体识别,获得第一问题实体、第二问题实体和第三问题实体,之后通过将上述三种问题实体进行整合,即可准确的确定所述问题文本对应的问题实体。
实际应用中,在基于所述第一问题实体、所述第二问题实体和所述第三问题实体确定所述问题实体的过程中,可以以实体识别模型输出的第一问题实体为主,利用字典识别结果和正则识别结果加以补充,实现确定所述问题实体;也可以采用取三者交集的方式确定所述问题实体,即选择所述第一问题实体、所述第二问题实体和所述第三问题实体中均包含的问题实体作为所述问题文本对应的问题实体。
例如,问题文本是“A现任董事长是谁?”,此时将问题文本输入至实体识别模型进行处理,获得第一问题实体是“A”,之后再根据KBQA问答系统中知识库对应的实体词典对问题文本进行实体识别,获得第二问题实体是“A”和“董事长”,通过正则匹配规则对问题文本进行实体识别,获得第三问题实体是“A”和“董事长”;通过将第一问题实体、第二问题实体和第三问题实体进行整合,确定实体“A”出现的频率最高,则可以将“A”作为问题文本对应的问题实体,以用于后续进行问题的答复处理。
综上,通过结合多种识别策略的方式进行问题实体识别,不仅可以提高识别实体的精准度,还能够为后续进行答案的抽取做好基础,从而保证后续抽取答案的准确性。
步骤S104,在预设的知识库中链接所述问题实体对应的多个候选实体,以及根据所述问题实体识别所述问题文本的问题类型。
具体的,在上述识别出所述问题文本中问题实体的基础上,进一步的,将对所述问题实体进行实体链接,以实现可以从所述知识库中抽取出所述问题文本对应的答案;基于此,由于所述知识库中所包含的实体较多,并且存在名称相同而属性不同的实体也是较多的,如李白,在知识库中可以查询到的实体有诗人-李白,歌曲-李白,政要人员-李白等,因此在进行实体链接时,会出现针对问题实体链接出多个候选实体,所述多个候选实体即为所述知识库中与所述问题实体形式相同的实体,且各个候选实体的属性值不同。
进一步的,在进行实体链接时,也可以同时识别所述问题文本类型的处理,即根据所述问题实体识别所述问题文本的问题类型,其中,所述问题类型可以包括单实体一度问题类型,单实体二度问题类型,多实体一度问题类型和多实体多度问题类型,需要说明的是,由于不用问题类型的问题文本结构不同,因此针对不同的问题类型在后续进行路径生成/路径排序时将采用不同的处理方式,以保证针对问题文本进行答复的准确性。
实际应用中,在进行实体链接和问题类型识别(问句分类)的过程中,实体链接和问题类型识别可以同时执行,也可以按照先后顺序并列执行,具体实现方式可以根据实际应用场景进行设定,本实施例在此不作任何限定。
进一步的,在进行实体链接的过程中,由于所述知识库中所包含的实体数量较为庞大,并且实体名称存在重复的也可能较多,因此可能出现实体链接后的候选实体数量较多的情况,如果基于大量的候选实体进行后续的答案抽取,可能会影响答案的精准度,为了能够提高答案抽取的精准度,可以在进行实体链接时,剔除一些与问题实体相似度较低的实体,选择设定数量的初始候选实体作为所述多个候选实体,本实施例中,具体实现方式可以通过步骤1和步骤2实现:
步骤1,基于所述问题实体查询所述知识库对应的实体映射表,并根据查询结果确定所述问题实体对应的多个初始候选实体;
步骤2,根据所述多个初始候选实体筛选出设定数据量的初始候选实体作为所述多个候选实体。
具体的,所述实体映射表是指记录知识库中实体名称和属性值的表格,且所述知识库中包含的全部实体均可以在所述实体映射表中查询到,实际应用中,为了能够方便查询所述实体映射表,可以在构建所述实体映射表时,按照不同的实体类型构建不同的实体映射表;也可以在同一表中填写全部实体,之后按照不同的类型进行实体分区,以提高实体链接时的处理效率。
其中,所述多个初始候选实体具体是指所述实体映射表中与所述问题实体名称相同的全部实体;相应的,筛选出设定数量的初始候选实体作为所述多个候选实体时,所述设定数量的取值可以是2,5或8等,实际应用中,所述设定数量的取值还可以根据KBQA问答系统的处理能力确定,取值越大,后续进行答案检索的资源消耗也就越高,取值越小,后续进行答案检索的资源消耗也就越小,具体取值大小可以根据实际应用场景进行设定,本实施例在此不作任何限定。
基于此,通过查询所述知识库对应的所述实体映射表,即可确定所述知识库中有多少个与所述问题实体形式相同的初始候选实体,为了能够保证后续的处理效率以及准确性,此时可以在所述多个初始候选实体中筛选出设定数量的实体作为所述多个候选实体,实现通过较少实体链接数量的方式加快后续处理效率。
更进一步的,在筛选出多个候选实体的过程中,如果采用随机筛选的方式可能无法保证后续回答问题文本的准确性,因此为了能够提高后续处理效率的同时保证答复精准度,本实施例中,上述步骤2筛选出所述多个候选实体的过程可以采用如下步骤2-1至步骤2-4的方式实现:
步骤2-1,根据所述知识库确定所述多个初始候选实体中各个初始候选实体分别对应的一度关系;
步骤2-2,将所述多个初始候选实体、所述问题文本以及各个初始候选实体对应的一度关系输入至计算模块,计算各个初始候选实体分别对应的相似度分值;
步骤2-3,基于所述相似度分值对各个初始候选实体进行排序,获得实体排序列表;
步骤2-4,按照优先级顺序在所述实体排序列表中筛选出设定数量的初始候选实体作为所述多个候选实体。
具体的,所述一度关系是指所述初始候选实体在所述知识库中直接关联的关系;所述计算模块具体是指计算初始候选实体与问题文本相似度分值的模块,相应的,所述相似度分值具体是指表征初始候选实体与问题文本相似程度的分值,所述相似度分值越高,表明初始候选实体与问题文本的相关程度越高,越说明该初始候选实体与问题实体是同一实体的概率越高,反之,相似度分值越低,表明初始候选实体与问题文本的相关程度越低,越说明该初始候选实体与问题实体是同一实体的概率越低;所述实体排序列表具体是指按照相似度分值从大到小的顺序对初始候选实体进行排序后得到的列表。
基于此,在获得多个初始候选实体之后,为了能够保证后续的处理效率以及准确性,此时可以在所述知识库中确定各个初始候选实体对应的一度关系,之后将各个初始候选实体对应的一度关系与其对应的初始候选实体进行拼接,并将拼接结果和问题文本分别输入至所述计算模块,以此来计算各个初始候选实体与所述问题文本之间的相似度,获得所述计算模块输出的各个初始候选实体与所述问题文本之间的相似度分值,之后基于相似度分值对各个初始候选实体进行排序,即可获得所述实体排序列表,最后按照优先级顺序在所述实体排序列表中筛选出设定数量的初始候选实体作为所述多个候选实体即可。
具体实施时,再按照优先级顺序筛选所述多个候选实体的过程中,考虑到噪音实体(与问题文本相关程度较低的初始候选实体)干扰后续处理过程,而且候选实体过多会导致后续计算耗时过程,因而对所述初始候选实体排序得到实体排序列表后,可以选择topNl个初始候选实体作为所述多个候选实体,其中选择topNl个初始候选实体是指:从实体排序列表的top1初始候选实体(相似度分值最高的初始候选实体)开始顺序查Nl个初始候选实体作为所述多个候选实体,Nl的取值可以根据实际应用场景设定,本实施例在此不作任何限定。
实际应用中,在所述实体排序列表中包含的初始候选实体数量小于设定数量的情况下,则可以直接将所述实体排序列表中的初始候选实体作为所述多个候选实体,以进行后续的处理操作。
综上,通过结合相似度分值的方式筛选所述多个候选实体,不仅可以减少确定的候选实体的数量,还能够保证候选实体与所述问题文本的贴合度,从而提高后续检索答案的精准度。
更进一步的,在通过所述计算模块计算所述问题文本与所述初始候选实体的相似度的过程中,由于相似度分值是决定初始候选实体是否被剔除的重要因素,因此精准的计算相似度分值是保证精准的筛选所述多个候选实体的基础,本实施提供的文本处理方法通过结合特征相似度分值和文本相似度分值来得到所述相似度分值,以保证从语义层面和结构层面结合的方式筛选多个候选实体,本实施例中,上述步骤2-2计算相似度分值的过程可以通过如下步骤2-2-1至步骤2-2-4实现:
步骤2-2-1,将所述多个初始候选实体、所述问题文本以及各个初始候选实体对应的一度关系输入至所述计算模块;
步骤2-2-2,通过对各个初始候选实体与各个初始候选实体对应的一度关系进行拼接,并将拼接结果和所述问题文本输入至所述计算模块中的文本处理模型进行文本相似度计算,获得各个初始候选实体分别对应的文本相似度分值;
步骤2-2-3,将所述问题文本和各个初始候选实体输入至所述计算模块中的特征处理模型进行特征相似度计算,获得各个初始候选实体分别对应的特征相似度分值;
步骤2-2-4,根据所述文本相似度分值和所述特征相似度分值确定各个初始候选实体分别对应的相似度分值,并通过所述计算模块输出。
具体的,所述文本处理模型具体是指计算初始候选实体和问题文本在语义维度相似度的模型,所述文本处理模型可以采用预训练的BERT模型实现;相应的,所述特征处理模型具体是指计算初始候选实体和问题文本在特征维度相似度的模型,所述特征处理模型可以采用LightGBM模型实现;其中文本处理模型通过将每个初始候选实体与其对应的全部一度关系进行拼接,之后计算拼接结果与问题文本之间的文本相似度,以获得各个初始候选实体与所述问题文本之间的文本相似度分值;特征处理模型通过融合初始候选实体的浅层特征(包括实体长度,与疑问词的距离,在问题文本中的位置,流行度等),计算各个初始候选实体与所述问题文本之间的特征相似度,以获得各个初始候选实体与所述问题文本之间的特征相似度分值。
基于此,在获得各个初始候选实体对应的全部一度关系后,将各个初始候选实体与其对应的一度关系进行拼接,之后将拼接结果和问题文本一同输入至所述文本处理模型进行文本相似度计算,获得初始候选实体与问题文本的文本相似度分值,同时将问题文本和初始候选实体分别输入至特征处理模型进行特征相似度计算,获得初始候选实体与问题文本的特征相似度分值;最后将每个初始候选实体对应的特征相似度分值和文本相似度分值进行求和,即可获得所述各个初始候选实体的相似度分值,以用于后续筛选所述多个候选实体。
沿用上例,在确定问题实体是“A”的基础上,此时将需要进行实体链接处理:基于问题实体“A”查询知识库对应的实体映射表,根据查询结果确定与问题实体“A”对应的初始候选实体包括{A1,A2,A3,A4,A5},其中A1是人名,A2是工厂名,A3是超市名,A4和A5是企业名;基于此,根据知识库确定初始候选实体A1的一度关系包括{亲属关系,职业关系,国籍关系},确定初始候选实体A2的一度关系包括{任职关系,规模关系,位置关系},确定初始候选实体A3的一度关系包括{位置关系,时间关系,销售关系},确定初始候选实体A4的一度关系包括{任职关系,位置关系,经营关系},确定初始候选实体A5的一度关系包括{任职关系,位置关系,经营关系}。
进一步的,将初始候选实体A1与{亲属关系,职业关系,国籍关系}分别进行拼接,并将拼接后的结果与问题文本输入至BERT模型进行文本相似度计算,获得初始候选实体A1的文本相似度分值是T1,同时将初始候选实体A1与问题文本输入至LightGBM模型进行特征相似度计算,获得初始候选实体A1的特征相似度分值F1;同理,经过计算获得初始候选实体A2的文本相似度分值是T2,特征相似度分值F2;初始候选实体A3的文本相似度分值是T3,特征相似度分值F3;初始候选实体A4的文本相似度分值是T4,特征相似度分值F4;初始候选实体A5的文本相似度分值是T5,特征相似度分值F5;之后再将各个初始候选实体的特征相似度分值和文本相似度分值进行相加,确定初始候选实体A1的相似度分值是S1=T1+F1;初始候选实体A2的相似度分值是S2=T2+F2;初始候选实体A3的相似度分值是S3=T3+F3;初始候选实体A4的相似度分值是S4=T4+F4;初始候选实体A5的相似度分值是S5=T5+F5
更进一步的,按照相似度分值对各个初始候选实体进行排序,确定在实体排序列表中按照相似度分值从高到低的顺序是A5>A4>A2>A3>A1,最后选择top3的初始候选实体作为链接的候选实体即可,即候选实体为(A5、A4、A2),以用于后续进行答案的检索处理。
综上,通过采用特征维度和语义维度结合的方式筛选所述多个候选实体,不仅可以避免噪音实体对候选处理的影响,还能够保证筛选出的候选实体的精准度,从而提高后续的处理效率以及准确性。
在进行实体连接的同时,还可以同时对所述问题文本的类型进行识别,而在识别所述问题文本类型的过程中,由于不同的问题类型将影响后续采用不同的方式进行答案的检索,因此只有保证问题类型识别准确才能够提高后续处理效率,本实施例中,识别所述问题类型的具体实现方式如下所述:
识别所述问题实体的实体数量,并根据所述实体数量确定所述问题文本对应的实体问题类型;
将所述问题文本输入至关系识别模型进行处理,获得所述问题文本对应的关系问题类型;
根据所述实体问题类型和所述关系问题类型确定所述问题类型;
其中,所述问题类型包括下述至少一项:单实体一度问题类型,单实体二度问题类型,多实体一度问题类型。
具体的,所述实体问题类型具体是指划分所述问题文本属于单实体问题或多实体问题的类型,所述关系问题类型具体是指划分所述问题文本属于一度问题、二度问题或多度问题的类型;通过结合所述实体问题类型和所述关系问题类型即可确定所述问题文本的问题类型。
基于此,首选对识别出的问题实体数量进行检测,以确定所述问题文本对应的实体问题类型,之后再将所述问题文本输入至关系识别模型进行处理,以确定所述问题文本对应的关系问题类型,最后整合所述实体问题类型和所述关系问题类型即可确定所述问题文本的问题类型;实际应用中,所述关系识别模型可以采用预训练的BERT分类模型实现。
此外,如果通过识别所述问题实体的数量确定所述问题文本是单实体问题类型的情况下,可以直接通过所述关系识别模型识别所述问题文本的度数关系,从而确定所述问题文本属于单实体一度问题类型或单实体二度问题类型;如果通过识别所述问题实体的数量确定所述问题文本是多实体问题类型的情况下,根据日常生活习惯,可以默认所述多实体问题类型的问题文本是多实体一度问题类型。
沿用上例,确定问题文本的问题实体只有一个“A”,因此可以确定问题文本“A现任董事长是谁?”属于单实体问题类型,之后再将问题文本输入至BERT分类模型进行度数判断,确定问题文本“A现任董事长是谁?”属于一度问题类型,通过整合一度问题类型和单实体问题类型确定问题文本的问题类型是单实体一度问题类型,在后续进行答案检索时,通过分析候选实体的一度关系即可检索出问题文本的答案。
综上,通过对所述问题文本的类型进行判断,可以辅助后续快速的选择出相应的处理方法进行答案的检索,以提高针对所述问题文本进行答复的效率。
步骤S106,基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,并根据所述至少一条候选路径确定目标路径。
具体的,在上述获得多个候选实体以及确定所述问题类型的基础上,进一步的,将根据所述多个候选实体和所述问题类型进行路径的创建,而由于候选实体的数量不只有一个,并且每个候选实体的一度关系或二度关系也可能存在多个,因此在基于所述问题类型和所述候选实体创建候选路径时,将生成一条、两条或多条候选路径,不同的候选路径将在知识库中映射不同的实体或关系,因此只有在所述至少一条候选路径中确定所述目标路径,才能够精准的筛选出所述问题文本对应的答案。
基于此,由于不同的问题类型涉及的实体数量和关系数量都不同,因此在创建所述至少一条候选路径的过程中,不同的问题类型将采用不同的方式创建,本实施例中,在所述问题类型为单实体一度问题类型的情况下,说明问题文本只涉及一个实体和该实体关联的一度关系,此时则可以基于各个候选实体以及各个候选实体对应的一度关系创建所述至少一条候选路径,具体实现方式如下所述:
在所述问题类型为单实体一度问题类型的情况下,根据所述单实体一度问题类型在所述知识库中读取所述多个候选实体中各个候选实体对应的一度关系;
基于所述多个候选实体中的各个候选实体以及各个候选实体对应的一度关系生成所述问题文本对应的所述至少一条候选路径。
具体的,在所述问题类型为单实体一度问题类型的情况下,表明只需要在知识库中读取各个候选实体的一度关系即可创建出所述至少一条候选路径;基于此,在知识库中读取各个候选实体对应的一度关系,之后基于候选实体及其对应的一度关系即可生成至少一条候选路径。
具体实施时,在根据候选实体及其对应的一度关系创建候选路径的过程中,由于候选实体在知识库中具有不同的映射关系,因此根据候选实体及其对应的一度关系可能创建出头实体候选路径和尾实体候选路径,头实体候选路径的表达可以是<实体><关系><?x>,尾实体候选路径的表达可以是<?x><关系><实体>;其中“?x”表示需要在知识库中确定的实体或关系,以用于确定问题文本的答案。
举例说明,问题文本“A现任董事长是谁?”为单实体一度问题类型,通过实体链接处理确定候选实体为(A2、A5),并通过读取知识库确定A2的一度关系包括{任职关系,规模关系,位置关系},A5的一度关系包括{任职关系,位置关系,经营关系},之后基于候选实体A2及其对应的一度关系生成头实体候选路径为<A2><位置><?x>和<A2><规模><?x>,尾实体候选路径为<?x><任职><A2>;基于候选实体A5及其对应的一度关系生成头实体候选路径为<A5><经营><?x>和<A5><位置><?x>,尾实体候选路径为<?x><任职><A5>;在确定六条候选路径后,即可从六条候选路径中筛选出一条与问题文本相似度较高的候选路径作为目标候选路径,用于针对问题文本进行答案的检索。
本实施例中,在所述问题类型为单实体二度问题类型的情况下,说明问题文本只涉及一个实体和该实体关联的一度关系及二度关系,此时则可以基于候选实体,候选实体对应的一度关系和二度关系创建所述至少一条候选路径,具体实现方式如下所述:
在所述问题类型为单实体二度问题类型的情况下,根据所述单实体二度问题类型在所述知识库中读取所述多个候选实体中各个候选实体对应的一度关系;
根据各个候选实体对应的一度关系在所述知识库中读取所述多个候选实体中各个候选实体对应的二度关系;
基于各个候选实体以及各个候选实体对应的一度关系和二度关系生成所述问题文本对应的所述至少一条候选路径。
具体的,在所述问题类型为单实体二度问题类型的情况下,表明需要在所述知识库中读取与候选实体具体直接关系的一度关系,以及与候选实体具有间接关系的二度关系创建所述至少一条候选路径;基于此,首先可以在所述知识库中读取各个候选实体对应的一度关系,之后在一度关系的基础上再从所述知识库中读取各个候选实体对应的二度关系,最后基于候选实体及其对应的一度关系和二度关系即可创建出所述至少一条候选路径。
具体实施时,在根据所述候选实体及其对应的一度关系和二度关系创建候选路径的过程中,由于候选实体在知识库中具有不同的映射关系,因此根据候选实体及其对应的一度关系可以优先确定头实体候选路径和尾实体候选路径,之后再头实体候选路径和尾实体候选路径的基础上扩展二度路径,相应的表达形式可以是<实体><关系1><?x><?x><关系2><?y>和<?x><关系1><实体><?x><关系2><?y>,其中“?x”表示需要根据一度关系在知识库中确定的实体或关系,“?y”表示在一度关系的基础上,结合二度关系在知识库中确定的实体或关系。
而在此过程中,由于一度关系是与候选实体具有直接联系的关系,而二度关系是与候选实体具有间接联系的关系,因此如果候选实体的一度关系就有很多的情况下,相应的二度关系将出现爆炸性增长的问题,比如候选实体具有的一度关系为40个,而在一度关系的基础上,每个一度关系所映射的实体也具有40个一度关系,也就是说,候选实体在每个一度关系的基础上就有40个二度关系,此时结合候选实体及其对应的一度关系和二度关系将创建40*40=1600条候选路径,如果再进行后续的路径排序和答案检索,不仅需要消耗较多的时间才能够完成路径拍戏,而且由于候选路径的数量较多,很可能会影响答复精准度,因此可以通过减少候选实体一度关系的方式来避免候选路径增长过度的问题,本实施例中,具体实现方式如下所述:
将所述问题文本和各个候选实体对应的一度关系输入至相似度模型进行处理,获得各个候选实体对应的目标一度关系;
根据各个候选实体对应的目标一度关系在所述知识库中读取所述多个候选实体中各个候选实体对应的二度关系;
基于各个候选实体以及各个候选实体对应的目标一度关系和二度关系生成所述问题文本对应的所述至少一条候选路径。
具体的,在获得候选实体对应的全部一度关系后,可以将所述一度关系和候选实体进行拼接,获得一度路径,之后将一度路径和所述问题文本输入至相似度计算模型进行处理,从而确定各个一度路径与问题文本之间的相似度,之后选择相似度较高的一度路径对应的一度关系作为所述目标一度关系,再从所述目标一度关系的基础上,从所述知识库中读取所述各个候选实体对应的二度关系,最后基于各个候选实体的目标一度关系和二度关系即可创建出所述至少一条候选路径。
具体实施时,在通过相似度模型进行候选路径压缩时,可以利用相似度模型计算候选实体结合一度关系生成的一度路径与问题文本的相似度分值,根据相似度分值筛选出topNsemr1候选一度路径用于扩展至二度路径,并利用相似度模型计算扩展出的全部二度关系结合候选实体生成的二度路径与问题文本的相似度分值,并筛选出topNsemr2个路径作为候选二度路径,最后通过将topNsemr1个候选一度路径和对应的topNsemr2个候选二度路径进行拼接,即可得到Nsemr1*Nsemr2个候选路径,以用于后续从中确定目标路径,用于检索问题文本的答案。
例如,问题文本为“甲的住址天气如何?”通过实体链接确定候选实体为“甲”,通过读取知识库确定候选实体“甲”的一度关系包括{一度关系1,一度关系2,一度关系3,一度关系4},而一度关系1所映射的实体具有1个一度关系,一度关系2所映射的实体具有3个一度关系,一度关系3所映射的实体具有1个一度关系,一度关系4所映射的实体具有3个一度关系,此时如果创建候选路径,则需要创建8条候选路径,为了能够提高后续处理的效率,可以通过计算相似度的方式剔除相关程度较低的候选路径。
即:基于候选实体“甲”及其对应的一度关系创建4个一度路径,之后将一度路径和问题文本输入至相似度模型进行相似度计算,确定一度路径1(关联一度关系1)与问题文本的相似度分值是X1,确定一度路径2(关联一度关系2)与问题文本的相似度分值是X2,确定一度路径3(关联一度关系3)与问题文本的相似度分值是X3,确定一度路径4(关联一度关系4)与问题文本的相似度分值是X4,并且X2>X1>X3>X4,此时可以以一度关系2作为基础读取二度关系,而一度关系2所映射的实体具有3个一度关系,也就是说,候选实体“甲”基于一度关系2能够读取到的二度关系有3个,分别为二度关系a,二度关系b和二度关系c,此时根据一度关系2和3个二度关系即可创建出3条候选路径,分别为<甲><关系2><?x><?x><关系a><?y>、<甲><关系2><?x><?x><关系b><?y>和<?x><关系2><甲><?x><关系c><?y>;在确定三条候选路径后,即可从三条候选路径中筛选出一条与问题文本相似度较高的候选路径作为目标候选路径,用于针对问题文本进行答案的检索。
此外,在所述问题类型为多实体一度问题类型的情况下,表明问题文本是由多个单实体一度问题组成,此时如果针对多实体一度问题类型的问题文本创建候选路径,可以采用拆分-拼接的方式创建,即针对各个单实体一度问题进行创建,之后将各个单实体一度问题对应的路径进行拼接,即可得到所述问题文本对应的候选路径,本实施例中,具体实现方式如下所述:
在所述问题类型为多实体一度问题类型的情况下,根据所述多实体一度问题类型将所述问题文本拆分为多个单实体一度问题文本;
根据所述多个候选实体确定所述多个单实体一度问题文本中各个单实体一度问题文本对应的候选实体;
在所述知识库中读取各个单实体一度问题文本对应的候选实体的一度关系;
基于各个单实体一度问题文本对应的候选实体以及各个单实体一度问题文本对应的候选实体的一度关系生成所述问题文本对应的所述至少一条候选路径。
具体的,在所述问题类型为多实体一度问题类型的情况下,表明需要在所述知识库中读取问题文本中各个问题实体的一度关系创建所述候选路径;基于此,由于多实体一度问题类型中包含有多个实体,因此在实体链接时可以针对每个实体进行连接多个候选实体;进一步的,为了能够针对多实体一度问题类型的问题文本创建候选路径,可以对问题文本进行拆分,获得多个单实体一度问题文本,同时确定每个单实体一度问题对应的候选实体,确定方式可以参见上述实施例相应的描述内容,本实施例在此不作任何限定。
之后在所述知识库中读取各个单实体一度问题文本对应的候选实体的一度关系,通过将各个单实体一度问题文本对应的候选实体以及各个单实体一度问题文本对应的候选实体的一度关系进行拼接,即可创建出所述问题文本对应的所述至少一条候选路径。
例如,问题文本是“甲和乙共同参见了什么会议?”,根据问题类型对问题文本进行拆分,得到两个单实体一度问题文本“甲参见了什么会议?”和“乙参见了什么会议?”;通过实体链接确定问题实体“甲”对应的候选实体为(甲1,甲2),问题实体“乙”对应的候选实体为(乙1,乙2),之后通过读取知识库确定“甲1”对应的一度关系包括{一度关系1,一度关系2},确定“甲2”对应的一度关系包括{一度关系3,一度关系4};以及确定“乙1”对应的一度关系包括{一度关系5,一度关系6},确定“乙2”对应的一度关系包括{一度关系7,一度关系8};最后将候选实体(甲1,甲2)分别对应的一度关系与候选实体(乙1,乙2)分别对应的一度关系进行拼接,即可得到16条候选路径;在确定三条候选路径后,即可从三条候选路径中筛选出一条与问题文本相似度较高的候选路径作为目标候选路径,用于针对问题文本进行答案的检索。
综上,在针对不同问题类型的问题文本进行路径创建时,为了能够提高后续检索答案的效率,可以采用不同的方式进行创建,不仅可以保证检索精准度,还能够避免噪声实体产生的影响,从而提高用户的使用体验。
在上述获得至少一条候选路径的基础上,进一步的,由于各个候选路径在知识库中映射的实体或关系不同,因此为了能够精准的确定问题文本的答案,需要在至少一条候选路径中确定目标路径,用于针对所述问题文本进行正确答案的检索,本实施例中,确定所述目标路径的具体实现方式如下所述:
将所述问题文本和所述至少一条候选路径输入至相似度计算模块进行处理,获得所述问题文本与各个候选路径的路径相似度分值;
选择所述路径相似度分值最高的候选路径作为所述目标路径。
具体的,所述目标路径具体是指从所述候选路径中筛选出与所述问题文本相关程度最高的候选路径,也即是说,根据所述目标路径可以在所述知识库中精准的检索到所述问题文本的答案;基于此,为了能够保证后续针对所述问题文本进行答复的精准度,就需要确保从所述候选路径中筛选所述目标路径的精准度,则可以采用相似度计算模块对各个候选路径与问题文本之间的相似度进行计算,通过选择路径相似度分值最高的候选路径作为所述目标路径,即可满足后续检索答案的准确性。
进一步的,在计算所述路径相似度分值的过程中,由于各个候选路径之间也可能存在相似度较高的候选路径,因此为了能够筛选出所述目标路径,可以结合特征维度和语义维度进行路径相似度分值的计算,本实施例中,具体实现方式如下所述:
将所述问题文本和所述至少一条候选路径输入至所述相似度计算模块中的文本相似度模型,获得所述问题文本与各个候选路径的文本路径相似度分值;
将所述问题文本和所述至少一条候选路径输入至所述相似度计算模块中的特征相似度模型,获得所述问题文本与各个候选路径的特征路径相似度分值;
确定各个候选路径对应的候选实体的实体分值,并根据所述实体分值、文本路径相似度分值和所述特征路径相似度分值确定所述路径相似度分值。
具体的,所述文本路径相似度分值具体是指候选路径与所述问题文本在语义维度的相似度分值,所述特征路径相似度分值具体是指候选路径与所述问题文本在特征维度的相似度分值,所述实体分值具体是指候选实体与问题文本的相似度分值。
基于此,将所述问题文本和各个候选路径分别输入至文本相似度模型进行处理,以获得各个候选路径与问题文本的文本路径相似度分值,同时将问题文本和各个候选路径分别输入至特征相似度模型进行处理,以获得各个候选路径与问题文本的特征路径相似度分值,最后将文本路径相似度分值、特征路径相似度分值和候选实体的实体分值进行相加,即可确定各个候选路径与问题文本的路径相似度分值,最后通过选择路径相似度分值最高的候选路径作为目标路径即可,以实现对问题文本进行答复的处理。
具体实施时,在确定所述目标路径的过程中,实则是进行路径排序的处理,即将候选路径按照与问题文本的路径相似度分值进行排序,选择排序结果中的top1作为目标路径即可。在通过文本相似度模型和特征相似度模型进行相似度打分的过程中,可以融合以下特征以提高路径相似度分值的合理性,融合的特征可以包括:候选路径的长度;候选路径与问题文本的相同字数及字级别向量相似度;候选路径与问题文本的相同词数及词级别向量相似度;候选路径在知识库中的流行度,即在知识库中出现的次数;候选路径是否直接出现在问题文本原文中;候选路径与问题文本的语义相似度分数;候选实体与候选路径的相对位置,即出现在三元组头还是三元组尾等;需要说明的是,上述可以融合的特征是结合在文本/特征相似度模型中的,即通过模型进行相似度分值计算时,将综合上述特征给出每个候选路径的特征相似度分值和路径相似度分值,从而保证筛选出正确的目标路径。
沿用上例,问题文本是“A现任董事长是谁?”,通过实体链接确定候选实体为(A2、A5),再通过路径生成处理确定候选实体A2对应的候选路径A21:<A2><位置><?x>、候选路径A22:<A2><规模><?x>和候选路径A23:<?x><任职><A2>;候选实体A5对应的候选路径A51:<A5><经营><?x>、候选路径A52:<A5><位置><?x>和候选路径A53:<?x><任职><A5>;之后将各个候选路径与问题文本分别输入至文本相似度模型和特征相似度模型;
经过计算确定候选路径A21与问题文本的文本路径相似度分值是TR21,特征路径相似度分值是FR21;候选路径A22与问题文本的文本路径相似度分值是TR22,特征路径相似度分值是FR22;候选路径A23与问题文本的文本路径相似度分值是TR23,特征路径相似度分值是FR23。候选路径A51与问题文本的文本路径相似度分值是TR51,特征路径相似度分值是FR51;候选路径A52与问题文本的文本路径相似度分值是TR52,特征路径相似度分值是FR52;候选路径A53与问题文本的文本路径相似度分值是TR53,特征路径相似度分值是FR53;同时确定候选实体A2的实体分值是ES2,候选实体A5的实体分值是ES5
进一步的,通过将每个候选路径的实体分值、特征路径相似度分值和文本路径相似度分值进行相加,得到每个候选路径与问题文本的路径相似度分值,确定候选路径A21与问题文本的路径相似度分值为M21=TR21+FR21+ES2;候选路径A22与问题文本的路径相似度分值为M22=TR22+FR22+ES2;候选路径A23与问题文本的路径相似度分值为M23=TR23+FR23+ES2;候选路径A51与问题文本的路径相似度分值为M51=TR51+FR51+ES5;候选路径A52与问题文本的路径相似度分值为M52=TR52+FR52+ES5;候选路径A53与问题文本的路径相似度分值为M53=TR53+FR53+ES5;通过比较确定M53>M52>M23>M51>M21>M22,则说明候选路径A53:<?x><任职><A5>与问题文本“A现任董事长是谁?”的相似度最高,则选择候选路径A53作为目标路径,进行后续的答案检索即可。
综上,通过结合实体分值、特征路径相似度分值和文本路径相似度分值进行目标路径的确定,实现考虑到多维度的影响,进一步确保了筛选所述目标路径的精准度,从而提高后续答案检索的准确性。
步骤S108,将所述目标路径转换为查询语句,并根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本。
具体的,在上述确定所述目标路径的基础上,进一步的,根据所述目标路径即可实现在所述知识库中查询所述问题文本对应的答案文本;其中,所述查询语句具体是指根据所述查询路径生成的语句,所述答案文本具体是指根据所述查询语句在所述知识库中检索到的实体或者关系生成的文本。
进一步的,由于知识库是通过实体和关系搭建而成,因此在根据所述目标路径进行答案检索时,可以根据所述目标路径转换后的查询语句确定目标实体,根据所述目标实体即可生成所述答案文本,本实施例中,具体实现方式如下所述:
根据所述查询语句在所述知识库中查询所述问题文本对应的目标实体;
基于所述目标实体生成所述问题文本对应的所述答案文本。
沿用上例,在确定问题文本“A现任董事长是谁?”的目标路径为A53:<?x><任职><A5>的情况下,此时可以将目标路径A53:<?x><任职><A5>转换为查询语句Q53,之后基于查询语句Q53在知识库中检索,根据检索结果确定目标路径映射的目标实体是“丙”,则根据目标实体“丙”确定问题文本“A现任董事长是谁?”对应的答案文本是“A现任董事长是丙”,并将答案文本反馈给用户即可。
此外,如果问题文本的问题类型是单实体一度问题类型或单实体二度问题类型,则可以直接按照目标路径转换的查询语句进行答案检索即可;而问题文本的问题类型为多实体一度问题的情况下,就需要满足目标路径的映射关系是指向同一实体的,也就是说,目标路径中将包含多个子路径,此时可以通过桥接的方式转换出所述目标路径对应的查询语句,本实施例中,具体实现方式如下所述:
在所述问题类型为多实体一度问题类型的情况下,根据所述目标路径确定多个子路径;
对所述多个子路径进行拼接获得目标拼接路径,并将所述目标拼接路径转换为所述查询语句。
例如,问题文本是“C和D共同参加了什么会议?”,此时通过实体识别>实体链接>问句分类>路径生成>路径排序得到多个子路径,分别为<C><参加><?x1>和<D><参加><?x2>,并且由于问题文本属于多实体一度问题,因此可以确定在知识库中“?x1=?x2”,也就是说,子路径<C><参加><?x1>映射的实体和子路径<D><参加><?x2>映射的实体相同,此时可以将子路径<C><参加><?x1>和<D><参加><?x2>进行拼接,得到目标拼接路径<C><参加><?x1><参加><D>,之后将目标拼接路径<C><参加><?x1><参加><D>转换为查询语句QCD,再通过查询语句QCD在知识库中检索,根据检索结果确定目标路径映射的目标实体是“***会议”,最后根据目标实体即可确定问题文本“C和D共同参加了什么会议?”对应的答案文本是“C和D共同参加了***会议”,并将答案文本反馈给用户即可。
本申请提供的文本处理方法,在获取到问题文本之后,将对识别所述问题文本中的问题实体,之后在预设的知识库中链接所述问题文本对应的多个候选实体,同时根据问题实体识别问题文本的问题类型,基于多个候选实体和问题类型创建问题文本对应的候选路径,并在候选路径中确定目标路径,最后将目标路径转换为查询语句,通过所述查询语句即可在所述知识库中查询到所述问题文本对应的答案文本,实现了在针对所述问题文本回答的过程中,保证了答复所述问题文本的精准度,同时还提高了确定所述答案文本的处理效率。
下述结合附图2,以本申请提供的文本处理方法对单实体一度问题答复场景中的应用为例,对所述文本处理方法进行进一步说明。其中,图2示出了本申请一实施例提供的一种应用于单实体一度问题答复场景中的文本处理方法的处理流程图,具体包括以下步骤:
步骤S202,获取用户提交的问题文本。
本实施例以用户提交的问题文本为单实体一度问题“冥王星的发现者是谁?”为例对所述文本处理方法进行描述。
步骤S204,基于预设的识别策略对问题文本进行实体识别,获得问题实体。
具体的,在获得问题文本“冥王星的发现者是谁?”之后,采用BERT+CRF模型结构的实体识别模型对问题文本进行实体识别,得到实体识别模型输出的实体为“冥王星”;同时通过KBQA知识库对应的实体词典再次对问题文本进行实体识别,得到与词典匹配度最高的实体是“冥王星”;再根据正则匹配规则对问题文本再进行实体识别,得到的实体是“王星”;最后通过对三种识别方式识别出的实体进行分析,确定问题文本对应的问题实体是“冥王星”。
步骤S206,基于问题实体查询预设知识库对应的实体映射表,并根据查询结果确定问题实体对应的多个初始候选实体。
具体的,在得到问题实体是“冥王星”之后,通过问题实体“冥王星”查询KBQA知识库的实体映射表,确定在知识库中与“冥王星”名称相同的实体有三个,分别是“冥王星-1”(表示冥王星是一个星体),“冥王星-2”(表示冥王星是一部电影)以及“冥王星-3”(表示冥王星是一个名字),此时确定问题实体“冥王星”对应有三个初始候选实体。
步骤S208,在多个初始候选实体中筛选出设定数量的候选实体作为候选实体。
具体的,为了能够保证筛选出的候选实体的精准度,可以为每个初始候选实体构建特征,即确定“冥王星-1”的特征分别为:实体长度是3个字符,在问题文本中的位置是1-3,在知识库中出现频次是100次;之后将“冥王星-1”的特征作为输入,使用LightGBM算法计算初始候选实体“冥王星-1”的特征相似度分值是P1。同时再将“冥王星-1”与问题文本“冥王星的发现者是谁?”作为模型的输入,使用BERT模型计算问题文本与初始候选实体的文本相似度分值是S1。
确定“冥王星-2”的特征分别为:实体长度是3个字符,在问题文本中的位置是1-3,在知识库中出现频次是80次;之后将“冥王星-2”的特征作为输入,使用LightGBM算法计算初始候选实体“冥王星-2”的特征相似度分值是P2;同时再将“冥王星-2”与问题文本“冥王星的发现者是谁?”作为模型的输入,使用BERT模型计算问题文本与初始候选实体的文本相似度分值是S2。
确定“冥王星-3”的特征分别为:实体长度是3个字符,在问题文本中的位置是1-3,在知识库中出现频次是20次;之后将“冥王星-3”的特征作为输入,使用LightGBM算法计算初始候选实体“冥王星-3”的特征相似度分值是P3;同时再将“冥王星-3”与问题文本“冥王星的发现者是谁?”作为模型的输入,使用BERT模型计算问题文本与初始候选实体的文本相似度分值是S3。
之后将特征相似度分值P1和文本相似度分值S1相加,得到“冥王星-1”的得分PS1;将特征相似度分值P2和文本相似度分值S2相加,得到“冥王星-2”的得分PS2;特征相似度分值P3和文本相似度分值S3相加,得到“冥王星-3”的得分PS3;之后按照分值大小PS1>PS2>PS3对初始候选实体进行排序,并根据排序结果选择TOP*2的实体作为问题文本的候选实体,确定“冥王星-1”和“冥王星-2”是问题文本“冥王星的发现者是谁?”的候选实体。
步骤S210,根据问题实体识别问题文本的问题类型为单实体一度问题类型。
具体的,确定问题实体“冥王星”的实体数量是1,确定问题文本“冥王星的发现者是谁?”为单实体问题,之后再将问题文本作为输入,使用BERT分类模型预测问题文本的度数,确定BERT分类模型的预测结果是一度问题,根据单实体问题和一度问题确定“冥王星的发现者是谁?”的问题类型是单实体一度问题类型。
步骤S212,根据单实体一度问题类型在知识库中读取候选实体对应的一度关系,并根据候选实体以及候选实体对应的一度关系生成候选路径。
具体的,在确定“冥王星的发现者是谁?”是单实体一度问题类型的情况下,在知识库中读取“冥王星-1”对应的一度关系有{发现者关系,位置关系,命名关系},以及“冥王星-2”对应的一度关系有{作者关系,拍摄关系,演员关系}。
基于此,根据“冥王星-1”及其对应的一度关系{发现者关系,位置关系,命名关系},确定“冥王星-1”作为头实体的候选路径包括:<冥王星-1><发现者><?x>;作为尾实体的候选路径包括:<?x><位置><冥王星-1>,<?x><命名><冥王星-1>。
基于此,根据“冥王星-2”及其对应的一度关系{作者关系,拍摄关系,演员关系},确定“冥王星-2”作为头实体的候选路径包括:<冥王星-2><作者><?x>,<冥王星-2><演员><?x>;作为尾实体的候选路径包括:<?x><拍摄><冥王星-2>。
步骤S214,将问题文本和候选路径输入至相似度计算模块进行处理,获得问题文本与各个候选路径的路径相似度分值。
步骤S216,选择路径相似度分值最高的候选路径作为目标路径。
具体的,在得到上述候选实体对应的6条候选路径后,为了能够精准的确定问题文本的答案文本,此时将通过文本维度和特征维度进行目标路径的筛选,具体实现方式如下所述:
将问题文本“冥王星的发现者是谁?”与候选实体对应的各个候选路径进行组合,并将组合结果分别输入至BERT相似度模型和LightGBM相似度模型,进行文本相似度计算和特征相似度计算,需要说明的是,在计算文本相似度的过程中,是计算问题文本与各个候选路径之间的语义相似度;在计算特征相似度的过程中,是计算问题文本与各个候选路径之间的特征相似度,如候选路径长度与问题文本长度的相似度;候选路径字符与问题文本字符的字符相似度(相同字数);候选路径词单元与问题文本词单元的词单元相似度;候选路径在知识库中的流行度等等,最后通过将文本相似度分值和特征相似度分值进行求和,即可得到问题文本与各个候选路径之间的路径相似度分值。
即:问题文本与头实体候选路径<冥王星-1><发现者><?x>的文本相似度分值是W1a1,特征相似度分值是T1a1;问题文本与尾实体候选路径<?x><位置><冥王星-1>的文本相似度分值是W1b2,特征相似度分值是T1b2,问题文本与尾实体候选路径<?x><命名><冥王星-1>的文本相似度分值是W1b3,特征相似度分值是T1b3。
问题文本与头实体候选路径<冥王星-2><作者><?x>的文本相似度分值是W2a1,特征相似度分值是T2a1,问题文本与头实体候选路径<冥王星-2><演员><?x>的文本相似度分值是W2a3,特征相似度分值是T2a3;问题文本与尾实体候选路径<?x><拍摄><冥王星-2>的文本相似度分值是W2b2,特征相似度分值是T2b2。
同时确定候选实体“冥王星-1”的实体得分是PS1,此时确定候选路径<冥王星-1><发现者><?x>与问题文本的路径相似度分值是PS1+W1a1+T1a1=L1a1;确定候选路径<?x><位置><冥王星-1>与问题文本的路径相似度分值是PS1+W1b2+T1b2=L1b2;确定候选路径<?x><命名><冥王星-1>与问题文本的路径相似度分值是PS1+W1b3+T1b3=L1b3。
确定候选实体“冥王星-2”的实体得分是PS2,此时确定候选路径<冥王星-2><作者><?x>与问题文本的路径相似度分值是PS2+W2a1+T2a1=L2a1;确定候选路径<冥王星-2><演员><?x>与问题文本的路径相似度分值是PS2+W2a3+T2a3=L2a3;确定候选路径<?x><拍摄><冥王星-2>与问题文本的路径相似度分值是PS2+W2b2+T2b2=L2b2。
通过将路径相似度按照从大到小的顺序进行排序,确定排序结果为L1a1>L1b3>L1b2>L2a3>L2a1>L2b2;此时确定候选路径<冥王星-1><发现者><?x>与问题文本“冥王星的发现者是谁?”的相似度最高,则可以将<冥王星-1><发现者><?x>确定为目标路径。
步骤S218,将目标路径转换为查询语句,并根据查询语句在知识库中查询问题文本对应的答案文本向用户进行反馈。
具体的,在确定目标路径为<冥王星-1><发现者><?x>的情况下,此时将<冥王星-1><发现者><?x>转换为查询语句,并通过查询语句确定目标路径<冥王星-1><发现者><?x>指向的实体为“克莱德·威廉·汤博”,即确定问题文本“冥王星的发现者是谁?”的答案是“克莱德·威廉·汤博”,并向用户进行反馈该答案即可。
本申请提供的文本处理方法,在获取到问题文本之后,将对识别所述问题文本中的问题实体,之后在预设的知识库中链接所述问题文本对应的多个候选实体,同时根据问题实体识别问题文本的问题类型,基于多个候选实体和问题类型创建问题文本对应的候选路径,并在候选路径中确定目标路径,最后将目标路径转换为查询语句,通过所述查询语句即可在所述知识库中查询到所述问题文本对应的答案文本,实现了在针对所述问题文本回答的过程中,保证了答复所述问题文本的精准度,同时还提高了确定所述答案文本的处理效率。
与上述方法实施例相对应,本申请还提供了文本处理装置实施例,图3示出了本申请一实施例提供的一种文本处理装置的结构示意图。如图3所示,该装置包括:
获取模块302,被配置为获取问题文本,并识别所述问题文本中的问题实体;
链接模块304,被配置为在预设的知识库中链接所述问题实体对应的多个候选实体,以及根据所述问题实体识别所述问题文本的问题类型;
确定模块306,被配置为基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,并根据所述至少一条候选路径确定目标路径;
查询模块308,被配置为将所述目标路径转换为查询语句,并根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本。
一个可选的实施例中,所述获取模块302进一步被配置为:
基于预设的识别策略对所述问题文本进行实体识别,获得所述问题实体;
其中,所述预设的识别策略包括模型识别策略、字典识别策略和/或规则识别策略。
一个可选的实施例中,所述获取模块302进一步被配置为:
将所述问题文本输入至实体识别模型进行实体识别,获得所述问题文本对应的第一问题实体;基于所述知识库对应的实体词典对所述问题文本进行实体识别,获得所述问题文本对应的第二问题实体;通过正则匹配规则对所述问题文本进行实体识别,获得所述问题文本对应的第三问题实体;根据所述第一问题实体、所述第二问题实体和所述第三问题实体确定所述问题实体。
一个可选的实施例中,所述链接模块304进一步被配置为:
基于所述问题实体查询所述知识库对应的实体映射表,并根据查询结果确定所述问题实体对应的多个初始候选实体;根据所述多个初始候选实体筛选出设定数据量的初始候选实体作为所述多个候选实体。
一个可选的实施例中,所述链接模块304进一步被配置为:
根据所述知识库确定所述多个初始候选实体中各个初始候选实体分别对应的一度关系;将所述多个初始候选实体、所述问题文本以及各个初始候选实体对应的一度关系输入至计算模块,计算各个初始候选实体分别对应的相似度分值;基于所述相似度分值对各个初始候选实体进行排序,获得实体排序列表;按照优先级顺序在所述实体排序列表中筛选出设定数量的初始候选实体作为所述多个候选实体。
一个可选的实施例中,所述链接模块304进一步被配置为:
将所述多个初始候选实体、所述问题文本以及各个初始候选实体对应的一度关系输入至所述计算模块;通过对各个初始候选实体与各个初始候选实体对应的一度关系进行拼接,并将拼接结果和所述问题文本输入至所述计算模块中的文本处理模型进行文本相似度计算,获得各个初始候选实体分别对应的文本相似度分值;将所述问题文本和各个初始候选实体输入至所述计算模块中的特征处理模型进行特征相似度计算,获得各个初始候选实体分别对应的特征相似度分值;根据所述文本相似度分值和所述特征相似度分值确定各个初始候选实体分别对应的相似度分值,并通过所述计算模块输出。
一个可选的实施例中,所述链接模块304进一步被配置为:
识别所述问题实体的实体数量,并根据所述实体数量确定所述问题文本对应的实体问题类型;将所述问题文本输入至关系识别模型进行处理,获得所述问题文本对应的关系问题类型;根据所述实体问题类型和所述关系问题类型确定所述问题类型;
其中,所述问题类型包括下述至少一项:单实体一度问题类型,单实体二度问题类型,多实体一度问题类型。
一个可选的实施例中,所述确定模块306进一步被配置为:
在所述问题类型为单实体一度问题类型的情况下,根据所述单实体一度问题类型在所述知识库中读取所述多个候选实体中各个候选实体对应的一度关系;基于所述多个候选实体中的各个候选实体以及各个候选实体对应的一度关系生成所述问题文本对应的所述至少一条候选路径。
一个可选的实施例中,所述确定模块306进一步被配置为:
在所述问题类型为单实体二度问题类型的情况下,根据所述单实体二度问题类型在所述知识库中读取所述多个候选实体中各个候选实体对应的一度关系;根据各个候选实体对应的一度关系在所述知识库中读取所述多个候选实体中各个候选实体对应的二度关系;基于各个候选实体以及各个候选实体对应的一度关系和二度关系生成所述问题文本对应的所述至少一条候选路径。
一个可选的实施例中,所述确定模块306进一步被配置为:
将所述问题文本和各个候选实体对应的一度关系输入至相似度模型进行处理,获得各个候选实体对应的目标一度关系;根据各个候选实体对应的目标一度关系在所述知识库中读取所述多个候选实体中各个候选实体对应的二度关系;
相应的,所述基于各个候选实体以及各个候选实体对应的一度关系和二度关系生成所述问题文本对应的所述至少一条候选路径,包括:基于各个候选实体以及各个候选实体对应的目标一度关系和二度关系生成所述问题文本对应的所述至少一条候选路径。
一个可选的实施例中,所述确定模块306进一步被配置为:
在所述问题类型为多实体一度问题类型的情况下,根据所述多实体一度问题类型将所述问题文本拆分为多个单实体一度问题文本;根据所述多个候选实体确定所述多个单实体一度问题文本中各个单实体一度问题文本对应的候选实体;在所述知识库中读取各个单实体一度问题文本对应的候选实体的一度关系;基于各个单实体一度问题文本对应的候选实体以及各个单实体一度问题文本对应的候选实体的一度关系生成所述问题文本对应的所述至少一条候选路径。
一个可选的实施例中,所述确定模块306进一步被配置为:
将所述问题文本和所述至少一条候选路径输入至相似度计算模块进行处理,获得所述问题文本与各个候选路径的路径相似度分值;选择所述路径相似度分值最高的候选路径作为所述目标路径。
一个可选的实施例中,所述确定模块306进一步被配置为:
将所述问题文本和所述至少一条候选路径输入至所述相似度计算模块中的文本相似度模型,获得所述问题文本与各个候选路径的文本路径相似度分值;将所述问题文本和所述至少一条候选路径输入至所述相似度计算模块中的特征相似度模型,获得所述问题文本与各个候选路径的特征路径相似度分值;确定各个候选路径对应的候选实体的实体分值,并根据所述实体分值、文本路径相似度分值和所述特征路径相似度分值确定所述路径相似度分值。
一个可选的实施例中,所述查询模块308进一步被配置为:
在所述问题类型为多实体一度问题类型的情况下,根据所述目标路径确定多个子路径;对所述多个子路径进行拼接获得目标拼接路径,并将所述目标拼接路径转换为所述查询语句。
一个可选的实施例中,所述查询模块308进一步被配置为:
根据所述查询语句在所述知识库中查询所述问题文本对应的目标实体;
基于所述目标实体生成所述问题文本对应的所述答案文本。
本实施例提供的文本处理装置,在获取到问题文本之后,将对识别所述问题文本中的问题实体,之后在预设的知识库中链接所述问题文本对应的多个候选实体,同时根据问题实体识别问题文本的问题类型,基于多个候选实体和问题类型创建问题文本对应的候选路径,并在候选路径中确定目标路径,最后将目标路径转换为查询语句,通过所述查询语句即可在所述知识库中查询到所述问题文本对应的答案文本,实现了在针对所述问题文本回答的过程中,保证了答复所述问题文本的精准度,同时还提高了确定所述答案文本的处理效率。
上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图4示出了根据本申请一实施例提供的一种计算设备400的结构框图。该计算设备400的部件包括但不限于存储器410和处理器420。处理器420与存储器410通过总线430相连接,数据库450用于保存数据。
计算设备400还包括接入设备440,接入设备440使得计算设备400能够经由一个或多个网络460通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备400的上述部件以及图4中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图4所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备400可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备400还可以是移动式或静止式的服务器。其中,处理器420用于执行文本处理方法对应的计算机可执行指令。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于实现文本处理方法;上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (18)

1.一种文本处理方法,其特征在于,包括:
获取问题文本,并识别所述问题文本中的问题实体;
在预设的知识库中链接所述问题实体对应的多个候选实体,以及根据所述问题实体识别所述问题文本的问题类型;
基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,并根据所述至少一条候选路径确定目标路径;
将所述目标路径转换为查询语句,并根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本。
2.根据权利要求1所述的文本处理方法,其特征在于,所述识别所述问题文本中的问题实体,包括:
基于预设的识别策略对所述问题文本进行实体识别,获得所述问题实体;
其中,所述预设的识别策略包括模型识别策略、字典识别策略和/或规则识别策略。
3.根据权利要求2所述的文本处理方法,其特征在于,所述基于预设的识别策略对所述问题文本进行实体识别,获得所述问题实体,包括:
将所述问题文本输入至实体识别模型进行实体识别,获得所述问题文本对应的第一问题实体;
基于所述知识库对应的实体词典对所述问题文本进行实体识别,获得所述问题文本对应的第二问题实体;
通过正则匹配规则对所述问题文本进行实体识别,获得所述问题文本对应的第三问题实体;
根据所述第一问题实体、所述第二问题实体和所述第三问题实体确定所述问题实体。
4.根据权利要求1所述的文本处理方法,其特征在于,所述在预设的知识库中链接所述问题实体对应的多个候选实体,包括:
基于所述问题实体查询所述知识库对应的实体映射表,并根据查询结果确定所述问题实体对应的多个初始候选实体;
根据所述多个初始候选实体筛选出设定数据量的初始候选实体作为所述多个候选实体。
5.根据权利要求4所述的文本处理方法,其特征在于,所述根据所述多个初始候选实体筛选出设定数据量的初始候选实体作为所述多个候选实体,包括:
根据所述知识库确定所述多个初始候选实体中各个初始候选实体分别对应的一度关系;
将所述多个初始候选实体、所述问题文本以及各个初始候选实体对应的一度关系输入至计算模块,计算各个初始候选实体分别对应的相似度分值;
基于所述相似度分值对各个初始候选实体进行排序,获得实体排序列表;
按照优先级顺序在所述实体排序列表中筛选出设定数量的初始候选实体作为所述多个候选实体。
6.根据权利要求5所述的文本处理方法,其特征在于,所述将所述多个初始候选实体、所述问题文本以及各个初始候选实体对应的一度关系输入至计算模块,计算各个初始候选实体分别对应的相似度分值,包括:
将所述多个初始候选实体、所述问题文本以及各个初始候选实体对应的一度关系输入至所述计算模块;
通过对各个初始候选实体与各个初始候选实体对应的一度关系进行拼接,并将拼接结果和所述问题文本输入至所述计算模块中的文本处理模型进行文本相似度计算,获得各个初始候选实体分别对应的文本相似度分值;
将所述问题文本和各个初始候选实体输入至所述计算模块中的特征处理模型进行特征相似度计算,获得各个初始候选实体分别对应的特征相似度分值;
根据所述文本相似度分值和所述特征相似度分值确定各个初始候选实体分别对应的相似度分值,并通过所述计算模块输出。
7.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述问题实体识别所述问题文本的问题类型,包括:
识别所述问题实体的实体数量,并根据所述实体数量确定所述问题文本对应的实体问题类型;
将所述问题文本输入至关系识别模型进行处理,获得所述问题文本对应的关系问题类型;
根据所述实体问题类型和所述关系问题类型确定所述问题类型;
其中,所述问题类型包括下述至少一项:单实体一度问题类型,单实体二度问题类型,多实体一度问题类型。
8.根据权利要求7所述的文本处理方法,其特征在于,所述基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,包括:
在所述问题类型为单实体一度问题类型的情况下,根据所述单实体一度问题类型在所述知识库中读取所述多个候选实体中各个候选实体对应的一度关系;
基于所述多个候选实体中的各个候选实体以及各个候选实体对应的一度关系生成所述问题文本对应的所述至少一条候选路径。
9.根据权利要求7所述的文本处理方法,其特征在于,所述基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,包括:
在所述问题类型为单实体二度问题类型的情况下,根据所述单实体二度问题类型在所述知识库中读取所述多个候选实体中各个候选实体对应的一度关系;
根据各个候选实体对应的一度关系在所述知识库中读取所述多个候选实体中各个候选实体对应的二度关系;
基于各个候选实体以及各个候选实体对应的一度关系和二度关系生成所述问题文本对应的所述至少一条候选路径。
10.根据权利要求9所述的文本处理方法,其特征在于,所述根据各个候选实体对应的一度关系在所述知识库中读取所述多个候选实体中各个候选实体对应的二度关系,包括:
将所述问题文本和各个候选实体对应的一度关系输入至相似度模型进行处理,获得各个候选实体对应的目标一度关系;
根据各个候选实体对应的目标一度关系在所述知识库中读取所述多个候选实体中各个候选实体对应的二度关系;
相应的,所述基于各个候选实体以及各个候选实体对应的一度关系和二度关系生成所述问题文本对应的所述至少一条候选路径,包括:
基于各个候选实体以及各个候选实体对应的目标一度关系和二度关系生成所述问题文本对应的所述至少一条候选路径。
11.根据权利要求7所述的文本处理方法,其特征在于,所述基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,包括:
在所述问题类型为多实体一度问题类型的情况下,根据所述多实体一度问题类型将所述问题文本拆分为多个单实体一度问题文本;
根据所述多个候选实体确定所述多个单实体一度问题文本中各个单实体一度问题文本对应的候选实体;
在所述知识库中读取各个单实体一度问题文本对应的候选实体的一度关系;
基于各个单实体一度问题文本对应的候选实体以及各个单实体一度问题文本对应的候选实体的一度关系生成所述问题文本对应的所述至少一条候选路径。
12.根据权利要求8至11任意一项所述的文本处理方法,其特征在于,所述根据所述至少一条候选路径确定目标路径,包括:
将所述问题文本和所述至少一条候选路径输入至相似度计算模块进行处理,获得所述问题文本与各个候选路径的路径相似度分值;
选择所述路径相似度分值最高的候选路径作为所述目标路径。
13.根据权利要求12所述的文本处理方法,其特征在于,所述将所述问题文本和所述至少一条候选路径输入至相似度计算模块进行处理,获得所述问题文本与各个候选路径的路径相似度分值,包括:
将所述问题文本和所述至少一条候选路径输入至所述相似度计算模块中的文本相似度模型,获得所述问题文本与各个候选路径的文本路径相似度分值;
将所述问题文本和所述至少一条候选路径输入至所述相似度计算模块中的特征相似度模型,获得所述问题文本与各个候选路径的特征路径相似度分值;
确定各个候选路径对应的候选实体的实体分值,并根据所述实体分值、文本路径相似度分值和所述特征路径相似度分值确定所述路径相似度分值。
14.根据权利要求7所述的文本处理方法,其特征在于,所述将所述目标路径转换为查询语句,包括:
在所述问题类型为多实体一度问题类型的情况下,根据所述目标路径确定多个子路径;
对所述多个子路径进行拼接获得目标拼接路径,并将所述目标拼接路径转换为所述查询语句。
15.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本,包括:
根据所述查询语句在所述知识库中查询所述问题文本对应的目标实体;
基于所述目标实体生成所述问题文本对应的所述答案文本。
16.一种文本处理装置,其特征在于,包括:
获取模块,被配置为获取问题文本,并识别所述问题文本中的问题实体;
链接模块,被配置为在预设的知识库中链接所述问题实体对应的多个候选实体,以及根据所述问题实体识别所述问题文本的问题类型;
确定模块,被配置为基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,并根据所述至少一条候选路径确定目标路径;
查询模块,被配置为将所述目标路径转换为查询语句,并根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本。
17.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至15任意一项所述文本处理方法的步骤。
18.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至15任意一项所述文本处理方法的步骤。
CN202110137335.8A 2021-02-01 2021-02-01 文本处理方法及装置 Pending CN112784590A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110137335.8A CN112784590A (zh) 2021-02-01 2021-02-01 文本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110137335.8A CN112784590A (zh) 2021-02-01 2021-02-01 文本处理方法及装置

Publications (1)

Publication Number Publication Date
CN112784590A true CN112784590A (zh) 2021-05-11

Family

ID=75760274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110137335.8A Pending CN112784590A (zh) 2021-02-01 2021-02-01 文本处理方法及装置

Country Status (1)

Country Link
CN (1) CN112784590A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392197A (zh) * 2021-06-15 2021-09-14 吉林大学 问答推理方法、装置、存储介质及电子设备
CN113742447A (zh) * 2021-07-19 2021-12-03 暨南大学 基于查询路径生成的知识图谱问答方法、介质和设备
CN114610845A (zh) * 2022-03-02 2022-06-10 北京百度网讯科技有限公司 基于多系统的智能问答方法、装置和设备
CN114860892A (zh) * 2022-07-06 2022-08-05 腾讯科技(深圳)有限公司 层次类目预测方法、装置、设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358890A1 (en) * 2013-06-04 2014-12-04 Sap Ag Question answering framework
WO2016050066A1 (zh) * 2014-09-29 2016-04-07 华为技术有限公司 知识库中问句解析的方法及设备
CN106897559A (zh) * 2017-02-24 2017-06-27 黑龙江特士信息技术有限公司 一种面向多数据源的症状体征类实体识别方法及装置
CN110688838A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种成语同义词列表的生成方法及装置
CN111401065A (zh) * 2020-03-10 2020-07-10 中国平安人寿保险股份有限公司 实体识别方法、装置、设备及存储介质
CN111949787A (zh) * 2020-08-21 2020-11-17 平安国际智慧城市科技股份有限公司 基于知识图谱的自动问答方法、装置、设备及存储介质
CN111949758A (zh) * 2019-05-16 2020-11-17 北大医疗信息技术有限公司 医疗问答推荐方法、推荐系统和计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358890A1 (en) * 2013-06-04 2014-12-04 Sap Ag Question answering framework
WO2016050066A1 (zh) * 2014-09-29 2016-04-07 华为技术有限公司 知识库中问句解析的方法及设备
US20170199928A1 (en) * 2014-09-29 2017-07-13 Huawei Technologies Co.,Ltd. Method and device for parsing question in knowledge base
CN106897559A (zh) * 2017-02-24 2017-06-27 黑龙江特士信息技术有限公司 一种面向多数据源的症状体征类实体识别方法及装置
CN111949758A (zh) * 2019-05-16 2020-11-17 北大医疗信息技术有限公司 医疗问答推荐方法、推荐系统和计算机可读存储介质
CN110688838A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种成语同义词列表的生成方法及装置
CN111401065A (zh) * 2020-03-10 2020-07-10 中国平安人寿保险股份有限公司 实体识别方法、装置、设备及存储介质
CN111949787A (zh) * 2020-08-21 2020-11-17 平安国际智慧城市科技股份有限公司 基于知识图谱的自动问答方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李波;高文君;邱锡鹏;: "基于语法分析和统计方法的答案排序模型", 中文信息学报, no. 02, 15 March 2009 (2009-03-15), pages 25 - 29 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392197A (zh) * 2021-06-15 2021-09-14 吉林大学 问答推理方法、装置、存储介质及电子设备
CN113392197B (zh) * 2021-06-15 2023-08-04 吉林大学 问答推理方法、装置、存储介质及电子设备
CN113742447A (zh) * 2021-07-19 2021-12-03 暨南大学 基于查询路径生成的知识图谱问答方法、介质和设备
CN113742447B (zh) * 2021-07-19 2024-04-02 暨南大学 基于查询路径生成的知识图谱问答方法、介质和设备
CN114610845A (zh) * 2022-03-02 2022-06-10 北京百度网讯科技有限公司 基于多系统的智能问答方法、装置和设备
CN114610845B (zh) * 2022-03-02 2024-05-14 北京百度网讯科技有限公司 基于多系统的智能问答方法、装置和设备
CN114860892A (zh) * 2022-07-06 2022-08-05 腾讯科技(深圳)有限公司 层次类目预测方法、装置、设备和介质
CN114860892B (zh) * 2022-07-06 2022-09-06 腾讯科技(深圳)有限公司 层次类目预测方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN108153876B (zh) 智能问答方法及系统
CN109408627B (zh) 一种融合卷积神经网络和循环神经网络的问答方法及系统
KR102054514B1 (ko) 인공지능(ai)을 통한 딥러닝훈련모듈과, 순위화프레임워크모듈을 활용하여, 법률전문가에게 최적화된 모범답안을 제시하는 한편, 법률정보를 의미 벡터로 변환하여, 데이터베이스에 저장하고, 이에 대한 문자열 사전모듈을 활용한 온라인 법률정보사전을 제공하는 시스템 및 그 방법
CN112784590A (zh) 文本处理方法及装置
WO2021159632A1 (zh) 智能问答方法、装置、计算机设备及计算机存储介质
CN111597314B (zh) 推理问答方法、装置以及设备
CN117033608A (zh) 一种基于大语言模型的知识图谱生成式问答方法及系统
CN112650840A (zh) 一种基于知识图谱推理的医疗智能问答处理方法及系统
CN110795527B (zh) 候选实体排序方法、训练方法及相关装置
CN109960814B (zh) 模型参数搜索方法以及装置
CN110019729B (zh) 智能问答方法及存储介质、终端
CN113297410A (zh) 一种图像检索方法、装置、计算机设备及存储介质
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN113076423A (zh) 数据处理方法及装置、数据查询方法及装置
CN113220832A (zh) 一种文本处理方法及装置
KR20190046062A (ko) 대화 시스템을 위한 대화 시나리오 데이터베이스 구축 방법 및 장치
CN113159187A (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN117473034A (zh) 交互文本处理方法、装置、电子设备及存储介质
CN110351183B (zh) 即时通讯中的资源收藏方法以及装置
CN116049376A (zh) 一种信创知识检索回复的方法、装置和系统
CN116069876A (zh) 基于知识图谱的问答方法、装置、设备及存储介质
CN114647719A (zh) 一种基于知识图谱的问答方法及装置
CN114417863A (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
CN114003706A (zh) 关键词组合生成模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination