CN113468307A

CN113468307A - 文本处理方法、装置、电子设备及存储介质

Info

Publication number: CN113468307A
Application number: CN202110736457.9A
Authority: CN
Inventors: 汪硕芃; 张林箭; 宋有伟; 张聪; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-10-01
Anticipated expiration: 2041-06-30
Also published as: CN113468307B

Abstract

本申请提供一种文本处理方法、装置、电子设备及存储介质，涉及信息处理技术领域。该方法包括：获取待处理的文本的实体信息、以及归一化后的文本；将待处理的文本输入预先训练的意图识别模型中，获取待处理的文本的意图信息，意图识别模型基于抽取的原子意图所扩充出的样本文本训练得到，原子意图用于表征缺失至少一种语句成分的文本结构；根据待处理的文本的实体信息、归一化后的文本、以及待处理的文本的意图信息，进行实体属性抽取，得到待处理的文本的实体信息对应的属性信息；根据实体信息以及属性信息、查询知识图谱，获取待处理的文本对应的答语。通过本方法可得到精确度较高的属性信息，从而提升了知识问答系统的精准性。

Description

文本处理方法、装置、电子设备及存储介质

技术领域

本申请涉及信息处理技术领域，具体而言，涉及一种文本处理方法、装置、电子设备及存储介质。

背景技术

随着自然语言处理技术的不断发展，基于知识图谱的自动化知识问答系统应用而生。基于知识图谱的问答系统，利用知识图谱中已有的结构化的数据，对自然语言问题进行回答，其所面对的挑战是将自然语言问题通过不同方法映射到结构化的查询的过程，即识别到文本中实体和属性关系，以及对应的问题类型。

现有技术中，主要采用的是基于正则表达式和模版对的方式，来提取自然语言句子文本中的实体和属性的对应关系。

但是，上述方法在知识图谱发生扩充时，很难进行相关的泛化扩充，从而导致对于实体和属性对应关系的识别准确性较差的问题。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种文本处理方法、装置、电子设备及存储介质，以便于解决现有技术中存在的实体与属性关系抽取准确性较差的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种文本处理方法，包括：

获取待处理的文本的实体信息、以及归一化后的文本，所述归一化后的文本采用所述实体信息对所述文本进行归一化处理得到；

将所述待处理的文本输入预先训练的意图识别模型中，获取所述待处理的文本的意图信息，所述意图识别模型基于抽取的原子意图所扩充出的样本文本训练得到，所述原子意图用于表征缺失至少一种语句成分的文本结构；

根据所述待处理的文本的实体信息、所述归一化后的文本、以及所述待处理的文本的意图信息，进行实体属性抽取，得到所述待处理的文本的实体信息对应的属性信息；

根据所述实体信息以及所述属性信息、查询知识图谱，获取所述待处理的文本对应的答语，所述知识图谱为表征实体与属性的对应关系的结构图。

可选地，所述获取所述待处理的文本的实体信息、以及归一化后的文本，包括：

基于规则匹配策略、以及预先训练的文本实体识别模型，对待处理的文本进行实体识别，获取所述待处理的文本的实体信息、以及归一化后的文本。

可选地，所述基于规则匹配策略、以及预先训练的文本实体识别模型，对待处理的文本进行实体识别，获取所述待处理的文本的实体信息、以及归一化后的文本，包括：

基于知识图谱、以及所述规则匹配策略，对所述待处理的文本进行第一识别，获取第一识别结果，所述第一识别结果包括：待处理的文本中包含的记录在所述知识图谱中的所有实体信息，所述知识图谱为表征实体与属性的对应关系的图谱；

基于预先训练的文本实体识别模型，对待处理的文本进行第二识别，获取第二识别结果，所述第二识别结果包括：待处理的文本包含的部分实体信息、以及各实体信息对应的实体类型，所述文本实体识别模型采用标记有实体信息标签的训练文本训练得到；

对所述第一识别结果和所述第二识别结果进行合并处理，得到所述待处理的文本的实体信息；

采用所述实体信息对应的实体类型，对所述待处理的文本中的实体信息进行替换，得到归一化后的文本。

可选地，所述对所述第一识别结果和所述第二识别结果进行合并处理，得到所述待处理的文本的实体信息，包括：

根据所述第一识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型、以及所述第二识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型，对所述第一识别结果和所述第二识别结果进行合并处理，得到所述待处理的文本的实体信息。

可选地，所述根据所述第一识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型、以及所述第二识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型，对所述第一识别结果和所述第二识别结果进行合并处理，得到所述待处理的文本的实体信息，包括：

若所述第一识别结果中第一实体信息与所述第二识别结果中第二实体信息存在重合，且所述第二实体信息的字符长度小于所述第一实体信息的字符长度，则将所述第一实体信息作为所述待处理的文本的实体信息，所述第一实体信息为所述第一识别结果中的任一实体信息，所述第二实体信息为所述第二识别结果中的任一实体信息。

若所述第一识别结果中包含所述第二识别结果中不存在的实体信息，则从所述第一识别结果中删除所述不存在的实体信息，得到所述待处理的文本的实体信息。

若所述第一识别结果与所述第二识别结果中存在实体信息相同，但实体信息对应的实体类型不同，则将所述实体信息作为所述待处理的文本的实体信息，且将所述第二识别结果中所述实体信息对应的实体类型作为所述待处理的文本的实体类型。

可选地，所述意图识别模型采用如下方式训练得到：

基于知识图谱，抽取预设数量的原子意图；

针对每个原子意图，扩写各原子意图对应的样本文本，得到正样本数据集；

获取非问句样本文本，得到负样本数据集；

采用所述正样本数据集和所述负样本数据集，训练得到所述意图识别模型。

可选地，所述根据所述待处理的文本的实体信息、所述归一化后的文本、以及所述待处理的文本的意图信息，进行实体属性抽取，得到所述待处理的文本的实体信息对应的属性信息，包括：

根据所述待处理的文本的意图信息、以及所述待处理的文本的实体信息，确定目标实体信息、以及所述目标实体信息的实体类型，所述目标实体信息用于表征进行属性抽取的实体信息；

根据所述目标实体信息、以及构建的目标实体信息与属性信息的正则表达关系，确定所述目标实体信息对应的至少一个属性信息；

根据所述目标实体信息的实体类型与各所述属性信息的对应关系，构建所述目标实体信息的实体类型与各所述属性信息的至少一个虚拟文本；

根据各虚拟文本、以及所述归一化后的文本，得到所述待处理的文本的实体信息对应的属性信息。

可选地，所述根据所述目标实体信息、以及构建的目标实体信息与属性信息的正则表达关系，确定所述目标实体信息对应的属性信息之前，所述方法还包括：

根据所述知识图谱中包含的实体信息与属性信息的对应关系，确定所述目标实体信息对应的至少一个高频属性信息；

对各所述高频属性信息进行同义词扩充，得到所述目标实体信息对应的至少一个高频属性信息集合；

根据所述目标实体信息、以及所述至少一个高频属性信息集合，构建所述目标实体信息与属性信息的正则表达关系。

可选地，所述根据所述目标实体信息、以及构建的目标实体信息与属性信息的正则表达关系，确定所述目标实体信息对应的至少一个属性信息，包括：

将所述目标实体信息与所述正则表达关系进行匹配，确定所述目标实体信息对应的至少一个属性信息。

可选地，所述根据各虚拟文本、以及所述归一化后的文本，得到所述待处理的文本的实体信息对应的属性信息，包括：

将各所述虚拟文本分别与所述归一化后的文本进行语义相似度计算，确定各所述虚拟文本的相似度指标；

判断最大的相似度指标是否大于预设阈值；

若大于，则将最大的相似度指标对应的虚拟文本中所包含的属性信息确定为所述待处理的文本的实体信息对应的属性信息。

可选地，所述将各所述虚拟文本分别与所述归一化后的文本进行语义相似度计算，确定各所述虚拟文本的相似度指标，包括：

分别将各所述虚拟文本、以及所述归一化后的文本进行编码处理，得到各所述虚拟文本的语义向量、以及所述归一化后的文本的语义向量；

分别计算各所述虚拟文本的语义向量与所述归一化后的文本的语义向量的余弦相似度，确定各所述虚拟文本的相似度指标。

第二方面，本申请实施例还提供了一种文本处理装置，包括：获取模块；

所述获取模块，用于获取待处理的文本的实体信息、以及归一化后的文本，所述归一化后的文本采用所述实体信息对所述文本进行归一化处理得到；

所述获取模块，用于将所述待处理的文本输入预先训练的意图识别模型中，获取所述待处理的文本的意图信息，所述意图识别模型基于抽取的原子意图所扩充出的样本文本训练得到，所述原子意图用于表征缺失至少一种语句成分的文本结构；

所述获取模块，用于根据所述待处理的文本的实体信息、所述归一化后的文本、以及所述待处理的文本的意图信息，进行实体属性抽取，得到所述待处理的文本的实体信息对应的属性信息；

所述获取模块，用于根据所述实体信息以及所述属性信息、查询知识图谱，获取所述待处理的文本对应的答语，所述知识图谱为表征实体与属性的对应关系的结构图。

可选地，所述获取模块，具体用于基于规则匹配策略、以及预先训练的文本实体识别模型，对待处理的文本进行实体识别，获取所述待处理的文本的实体信息、以及归一化后的文本。

可选地，所述获取模块，具体用于基于知识图谱、以及所述规则匹配策略，对所述待处理的文本进行第一识别，获取第一识别结果，所述第一识别结果包括：待处理的文本中包含的记录在所述知识图谱中的所有实体信息；

可选地，所述获取模块，具体用于根据所述第一识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型、以及所述第二识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型，对所述第一识别结果和所述第二识别结果进行合并处理，得到所述待处理的文本的实体信息。

可选地，所述获取模块，具体用于若所述第一识别结果中第一实体信息与所述第二识别结果中第二实体信息存在重合，且所述第二实体信息的字符长度小于所述第一实体信息的字符长度，则将所述第一实体信息作为所述待处理的文本的实体信息，所述第一实体信息为所述第一识别结果中的任一实体信息，所述第二实体信息为所述第二识别结果中的任一实体信息。

可选地，所述获取模块，具体用于若所述第一识别结果中包含所述第二识别结果中不存在的实体信息，则从所述第一识别结果中删除所述不存在的实体信息，得到所述待处理的文本的实体信息。

可选地，所述获取模块，具体用于若所述第一识别结果与所述第二识别结果中存在实体信息相同，但实体信息对应的实体类型不同，则将所述实体信息作为所述待处理的文本的实体信息，且将所述第二识别结果中所述实体信息对应的实体类型作为所述待处理的文本的实体类型。

可选地，所述装置还包括：训练模块；

所述训练模块，用于基于知识图谱，抽取预设数量的原子意图；

获取非问句样本文本，得到负样本数据集；

可选地，所述获取模块，具体用于根据所述待处理的文本的意图信息、以及所述待处理的文本的实体信息，确定目标实体信息、以及所述目标实体信息的实体类型，所述目标实体信息用于表征进行属性抽取的实体信息；

可选地，所述装置还包括：确定模块、构建模块；

所述确定模块，用于根据所述知识图谱中包含的实体信息与属性信息的对应关系，确定所述目标实体信息对应的至少一个高频属性信息；

所述获取模块，用于对各所述高频属性信息进行同义词扩充，得到所述目标实体信息对应的至少一个高频属性信息集合；

所述构建模块，用于根据所述目标实体信息、以及所述至少一个高频属性信息集合，构建所述目标实体信息与属性信息的正则表达关系。

可选地，所述确定模块，具体用于将所述目标实体信息与所述正则表达关系进行匹配，确定所述目标实体信息对应的至少一个属性信息。

可选地，所述获取模块，具体用于将各所述虚拟文本分别与所述归一化后的文本进行语义相似度计算，确定各所述虚拟文本的相似度指标；

判断最大的相似度指标是否大于预设阈值；

可选地，所述确定模块，还用于分别将各所述虚拟文本、以及所述归一化后的文本进行编码处理，得到各所述虚拟文本的语义向量、以及所述归一化后的文本的语义向量；

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，存储介质存储有处理器可执行的机器可读指令，当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行机器可读指令，以执行时执行如第一方面中提供的方法的步骤。

第四方面，本申请实施例提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面提供的方法的步骤。

本申请的有益效果是：

本申请提供一种文本处理方法、装置、电子设备及存储介质，该方法包括：获取待处理的文本的实体信息、以及归一化后的文本，归一化后的文本采用实体信息对文本进行归一化处理得到；将待处理的文本输入预先训练的意图识别模型中，获取待处理的文本的意图信息，意图识别模型基于抽取的原子意图所扩充出的样本文本训练得到，原子意图用于表征缺失至少一种语句成分的文本结构；根据待处理的文本的实体信息、归一化后的文本、以及待处理的文本的意图信息，进行实体属性抽取，得到待处理的文本的实体信息对应的属性信息；根据实体信息以及属性信息、查询知识图谱，获取待处理的文本对应的答语，知识图谱为表征实体与属性的对应关系的结构图。本方案中，通过抽取的原子意图所训练得到的意图识别模型进行意图识别，可提高获取的待处理的文本的意图信息的准确性，基于所获取的意图信息、结合得到的待处理的文本的实体信息、以及归一化后的文本进行实体属性的抽取，可得到精确度较高的属性信息，从而使得基于实体信息与属性信息，查询获取的待处理的文本对应的问答的准确性较高，提升了知识问答系统的精准性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种文本处理系统的架构示意图；

图2为本申请实施例提供的文本处理方法的流程示意图一；

图3为本申请实施例提供的文本处理方法的流程示意图二；

图4为本申请实施例提供的文本处理方法的流程示意图三；

图5为本申请实施例提供的文本处理方法的流程示意图四；

图6为本申请实施例提供的文本处理方法的流程示意图五；

图7为本申请实施例提供的文本处理方法的流程示意图六；

图8为本申请实施例提供的文本处理方法的流程示意图七；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

首先，对本申请方法所涉及的背景进行简单说明：

基于知识图谱的问答系统，利用知识图谱中已有的结构化的数据，对自然语言问题进行回答。例如，在图谱中已有实体对象，“张三”，且该实体对象拥有属性“女儿”，那么在面对自然语言问题，询问张三的女儿是谁时，可以检索知识图谱中的实体对象“张三”的属性“女儿”作为返回，从而得到该自然语言问题的答案。

在实践的过程中，主要面对的挑战是将自然语言问题通过不同方法映射到结构化的查询的过程，即识别到文本中实体和属性关系，以及对应的问题类型。映射方法的好坏，直接影响整体基于知识图谱问答系统的准确性。

在本案中，第一：对于实体识别出现的识别提取呆板和提取不全的问题，引入基于规则匹配和模型提取结合的方式进行解决。第二：对于意图识别过程时，未考虑问句的形式，以及意图过多造成识别准确率下降的问题，引入原子意图的形式来进行解决。第三：对于提取实体的属性时，采用规则或者模型提取的方式，造成的泛化性和准确率较低的问题，本申请采用基于对象的正则匹配抽取属性和基于语义相似度的属性抽取结合的方式，进行抽取相似的属性。通过本申请的方法，可使得抽取的实体的属性准确性更高，从而提升了整体基于知识图谱问答系统的准确性。

图1为本申请实施例提供的一种文本处理系统的架构示意图，如图1所示，该文本处理系统可包括：系统输入、实体识别、意图识别、属性关系抽取等四个功能模块，其中，实体识别模块可包括：规则匹配策略、文本实体识别模型、合并处理三个子模块；意图识别模块可包括：原子意图抽取、训练样本编写、训练意图识别模型三个子模块；属性关系抽取模块可包括：正则匹配、语义相似度识别三个子模块。其中，待处理的文本可通过系统输入模块进行输入，实体识别模块可分别结合规则匹配策略和模型识别、以及合并处理，从待处理的文本中获取实体信息，意图识别模块可识别获取待处理的文本的意图信息，属性关系抽取模块可结合上述得到的实体信息和意图信息，相继利用正则匹配、语义相似度识别的方式，进行实体属性的抽取，得到待处理的文本中实体信息对应的属性信息，从而通过查找知识图谱中对应的实体信息和属性信息的关系，从而找到待处理的文本对应的答案。

图2为本申请实施例提供的文本处理方法的流程示意图一；如图2所示，该方法可包括：

S201、获取待处理的文本的实体信息、以及归一化后的文本，归一化后的文本采用实体信息对文本进行归一化处理得到。

本方法中，待处理的文本可以指问句形式的文本，实体信息不一定是现实生活中的一个具体事物，也可以是事物的一个属性值，例如：人物、地点等。

可选地，可针对待处理的文本进行实体提取，获取待处理的文本中包含的实体信息，实体信息可用于进行实体属性的抽取。

可选地，基于获取到的待处理的文本的实体信息、以及待处理的文本本身，可对待处理的文本进行归一化处理，得到待处理的文本对应的归一化后的文本，其中，归一化后的文本同样可用于实体属性的抽取中。

S202、将待处理的文本输入预先训练的意图识别模型中，获取待处理的文本的意图信息，意图识别模型基于抽取的原子意图所扩充出的样本文本训练得到，原子意图用于表征缺失至少一种语句成分的文本结构。

通常，待处理的文本中可能包括多个实体信息，过多的实体信息可能造成待处理的文本的意图过多，从而引起意图识别准确率的下降。

本实施例中，可采用基于抽取的原子意图而扩充出的样本文本，可训练得到所需的意图识别模型。采用该意图识别模型对待处理的文本进行意图识别，可针对不同的实体信息只需基于原子意图进行识别即可，有效的提升了对待处理的文本的意图识别的准确性。

其中，原子意图用于表征缺失至少一种语句成分的文本结构，也即，原子意图是基于主语缺失或宾语缺失两种类型而构造出来的。比如，“介绍xxx”是宾语缺失情况下抽象出来的原子意图；“xxx的联系方式”是主语缺失情况下抽象出来的原子意图。基于抽取的原子意图，可编写不同的话术，得到样本文本。

S203、根据待处理的文本的实体信息、归一化后的文本、以及待处理的文本的意图信息，进行实体属性抽取，得到待处理的文本的实体信息对应的属性信息。

通常，一个实体信息对应的属性信息是较多的，而当相同的实体信息出现在不同的待处理的文本、以及出现在具有不同意图的待处理的文本中时，其所对应的属性信息是不同的。

可选地，可基于上述获取的待处理的文本的实体信息、归一化后的文本、以及待处理的文本的意图信息，采用属性抽取方式，得到待处理的文本的实体信息对应的属性信息。

S204、根据实体信息以及属性信息、查询知识图谱，获取待处理的文本对应的答语，知识图谱为表征实体与属性的对应关系的结构图。

可选地，可基于上述得到的待处理的文本的实体信息以及属性信息，进行知识图谱的查找，也即查找知识图谱中对应的实体信息和属性信息关系，从而找到待处理的文本对应的答案，也即找到问句所对应的答语。

需要说明的是，知识图谱可以使用三元组(entity-1实体，relation属性关系，entity-2实体)来表示，每一条记录描述一个事实，例如：(五岳，五岳之一，泰山)表示“泰山是五岳之一”这样一个事实。需要注意的是，如果relation是确定的，那么entity-1与entity-2的位置不能够颠倒的，因为一个三元组描述一条有向边(事实)。

假设上述得到的待处理的文本的实体信息为五岳，属性信息为五岳之一，则可查找知识图谱，找到待处理的文本对应的答案为：泰山。

综上，本实施例提供一种文本处理方法，包括：获取待处理的文本的实体信息、以及归一化后的文本，归一化后的文本采用实体信息对文本进行归一化处理得到；将待处理的文本输入预先训练的意图识别模型中，获取待处理的文本的意图信息，意图识别模型基于抽取的原子意图所扩充出的样本文本训练得到，原子意图用于表征缺失至少一种语句成分的文本结构；根据待处理的文本的实体信息、归一化后的文本、以及待处理的文本的意图信息，进行实体属性抽取，得到待处理的文本的实体信息对应的属性信息；根据实体信息以及属性信息、查询知识图谱，获取待处理的文本对应的答语，知识图谱为表征实体与属性的对应关系的结构图。本方案中，通过抽取的原子意图所训练得到的意图识别模型进行意图识别，可提高获取的待处理的文本的意图信息的准确性，基于所获取的意图信息、结合得到的待处理的文本的实体信息、以及归一化后的文本进行实体属性的抽取，可得到精确度较高的属性信息，从而使得基于实体信息与属性信息，查询获取的待处理的文本对应的问答的准确性较高，提升了知识问答系统的精准性。

可选地，步骤S201中，获取待处理的文本的实体信息、以及归一化后的文本，可以包括：基于规则匹配策略、以及预先训练的文本实体识别模型，对待处理的文本进行实体识别，获取待处理的文本的实体信息、以及归一化后的文本。

本方法中，可采用基于规则匹配策略和文本实体识别模型相结合的方式，识别获取待处理的文本中的实体信息。考虑到基于规则匹配策略获取的实体信息准确性较低，可利用预先训练的文本实体识别模型进行进一步地识别，将两种方式所识别到的实体信息进行综合处理，从而得到待处理的文本的实体信息。

图3为本申请实施例提供的文本处理方法的流程示意图二；可选地，上述步骤中，基于规则匹配策略、以及预先训练的文本实体识别模型，对待处理的文本进行实体识别，获取待处理的文本的实体信息、以及归一化后的文本，可以包括：

S301、基于知识图谱、以及规则匹配策略，对待处理的文本进行第一识别，获取第一识别结果，第一识别结果包括：待处理的文本中包含的记录在知识图谱中的所有实体信息。

可选地，可利用知识图谱构建自动机的形式，也即将知识图谱中所包含的实体信息进行有限自动机的转换，构建自动机形式。基于构建的自动机形式，对待处理的文本进行自动化最长匹配，从而获取到第一识别结果，其中，第一识别结果可包括待处理的文本中所包含的记录在知识图谱中的所有实体信息，也即第一识别结果中包括待处理的文本中出现的符合知识图谱所记录的实体名称的所有潜在实体信息。

S302、基于预先训练的文本实体识别模型，对待处理的文本进行第二识别，获取第二识别结果，第二识别结果包括：待处理的文本包含的部分实体信息、以及各实体信息对应的实体类型，文本实体识别模型采用标记有实体信息标签的训练文本训练得到。

可选地，本实施例中所使用的文本实体识别模型可以是采用标记有实体信息标签的训练文本训练得到，模型可采用bert+CRF的网络结构，具体的训练方法可以采用现有的网络模型训练方式，此处不作为重点描述。

可将待处理的文本输入文本实体识别模型中，获取第二识别结果，第二识别结果中包括待处理的文本中包含的部分实体信息，更加智能的根据待处理的文本的语义，识别出待处理的文本中可能的一些实体信息。

S303、对第一识别结果和第二识别结果进行合并处理，得到待处理的文本的实体信息。

考虑到模型本身也会出现识别不全面的问题，在这里，仍需要相关的后处理规则，对上述的第一识别结果和第二识别结果进行合并处理，从而保证获取的待处理的文本的实体信息的准确性。

S304、采用实体信息对应的实体类型，对待处理的文本中的实体信息进行替换，得到归一化后的文本。

需要说明的是，不同实体信息对应的实体类型是不同的，相同实体信息在不同的文本中对应的实体类型也可能是不同的，实体信息与实体类型的对应关系可以是预先构建的。

上述在确定了实体信息后，可基于实体信息与实体类型的对应关系，确定实体信息对应的实体类型，从而可将待处理的文本中的实体信息替换为实体类型，得到归一化后的文本。例如：待处理的文本为：“张三的国籍是啥”；其中实体信息为“张三”，实体信息对应的实体类型为“人物”，则归一化后的文本可以为：“人物的国籍是啥”。

可选地，步骤S303中，对第一识别结果和第二识别结果进行合并处理，得到待处理的文本的实体信息，可以包括：根据第一识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型、以及第二识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型，对第一识别结果和第二识别结果进行合并处理，得到待处理的文本的实体信息。

由于基于规则匹配策略获取的第一识别结果中仅包括实体信息，那么第一识别结果中各实体信息对应的实体类型可根据预先构建的实体信息与实体类型的对应关系进行确定。而训练的文本实体识别模型既可以输出待处理的文本中的实体信息，同时也可输入各实体信息对应的实体类型，在训练模型时对训练样本加入实体类型标签即可，也即，第二识别结果中各实体信息对应的实体类型可以是通过模型自动识别获取的。

可选地，上述步骤中，根据第一识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型、以及第二识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型，对第一识别结果和第二识别结果进行合并处理，得到待处理的文本的实体信息，可以包括：若第一识别结果中第一实体信息与第二识别结果中第二实体信息存在重合，且第二实体信息的字符长度小于第一实体信息的字符长度，则将第一实体信息作为待处理的文本的实体信息，第一实体信息为第一识别结果中的任一实体信息，第二实体信息为第二识别结果中的任一实体信息。

在一种可实现的方式中，当针对同一种实体信息，第一识别结果中识别得到的与第二识别结果中识别得到的存在重合，例如：第一识别结果中识别到的为“阿里巴巴”，第二识别结果中识别到的为“阿里”，两个实体信息存在重合，且第二识别结果识别到的该实体信息的字符长度小于第一识别结果识别到的，这种情况可能是模型识别不全面所造成的，则可将第一识别结果识别到的该实体信息作为待处理的文本的实体信息。

可选地，上述步骤中，根据第一识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型、以及第二识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型，对第一识别结果和第二识别结果进行合并处理，得到待处理的文本的实体信息，可以包括：若第一识别结果中包含第二识别结果中不存在的实体信息，则从第一识别结果中删除不存在的实体信息，得到待处理的文本的实体信息。

在另一种可实现的方式中，当第一识别结果中包含的一实体信息未包含在第二识别结果中时，也即，基于规则匹配策略识别到的实体信息未被模型识别到，那么可能是规则匹配策略方式出现了误识别，则可将未被模型识别到的实体信息从第一识别结果中删除，将第一识别结果中剩余的实体信息作为待处理的文本的实体信息。

可选地，上述步骤中，根据第一识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型、以及第二识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型，对第一识别结果和第二识别结果进行合并处理，得到待处理的文本的实体信息，可以包括：若第一识别结果与第二识别结果中存在实体信息相同，但实体信息对应的实体类型不同，则将实体信息作为待处理的文本的实体信息，且将第二识别结果中实体信息对应的实体类型作为待处理的文本的实体类型。

在又一种可实现的方式中，第一识别结果和第二识别结果中存在相同的实体信息，但是该相同实体信息对应的实体类型不同，例如：实体“杨梅”对应的实体类型既可以是人物，也可以是水果。这种情况下，考虑到基于规则匹配策略可能对实体类型识别不如模型敏感，那么可将通过模型识别的实体信息对应的实体类型作为最终的实体类型进行返回，以保证可以连接到正确的同名实体信息中，而在这种方案中，待处理的文本的实体信息即为上述所识别到的相同的实体信息。

图4为本申请实施例提供的文本处理方法的流程示意图三；可选地，步骤S202中，意图识别模型可采用如下方式训练得到：

S401、基于知识图谱，抽取预设数量的原子意图。

可选地，可基于知识图谱中所记录的实体和属性信息，整理一批常见抽象的原子意图，例如：询问机构介绍，询问景点情况，询问政策方向等等。

S402、针对每个原子意图，扩写各原子意图对应的样本文本，得到正样本数据集。

针对每一个原子意图，可编写不同的话术，得到每个原子意图所扩充出来的样本文本。比如针对“询问景点情况”意图，可以编写“你知道xxx应该怎么去吗？”“我该这么联系xxx的工作人员呢？”“你知道xxx是开放时间吗”等成分缺失的语料。从而可将各原子意图所扩充出来的样本文本作为正样本数据集。

S403、获取非问句样本文本，得到负样本数据集。

同时，可以将从文本数据库中抽取出的非问句样本文本，作为负样本数据集。

S404、采用正样本数据集和负样本数据集，训练得到意图识别模型。

可选地，可采用上述所获取的正负样本数据集，训练获取意图识别模型，采用意图识别模型对待处理的文本进行意图识别时，针对知识图谱不同的实体均只需要基于原子意图进行识别即可。

图5为本申请实施例提供的文本处理方法的流程示意图四；可选地，步骤S203中，根据待处理的文本的实体信息、归一化后的文本、以及待处理的文本的意图信息，进行实体属性抽取，得到待处理的文本的实体信息对应的属性信息，可以包括：

S501、根据待处理的文本的意图信息、以及待处理的文本的实体信息，确定目标实体信息、以及目标实体信息的实体类型，目标实体信息用于表征进行属性抽取的实体信息。

在一些实施例中，可结合待处理的文本的意图信息，对待处理的文本的实体信息进行辅助验证，若验证通过，则将待处理的文本的实体信息确定为目标实体信息，若验证不通过，则认为实体信息获取失败。另外，根据待处理的文本的意图信息也可确定目标实体信息对应的实体类型。

S502、根据目标实体信息、以及构建的目标实体信息与属性信息的正则表达关系，确定目标实体信息对应的至少一个属性信息。

可选地，每个实体信息均具有对应的属性列表，可构建目标实体信息与其各属性信息的正则表达关系，其中，可先对各属性信息进行归一化，以提升属性信息的泛化性，基于归一化后的各属性信息，构建目标实体信息与各属性信息的正则表达关系，从而可基于正则表达关系，确定目标实体信息对应的至少一个属性信息。

S503、根据目标实体信息的实体类型与各属性信息的对应关系，构建目标实体信息的实体类型与各属性信息的至少一个虚拟文本。

考虑到减轻筛选时间负担问题，可根据目标实体信息的实体类型与上述所确定的至少一个属性信息的对应关系，构建目标实体信息的实体类型与各属性信息的至少一个虚拟文本。

S504、根据各虚拟文本、以及归一化后的文本，得到待处理的文本的实体信息对应的属性信息。

可选地，可将各虚拟文本分别与归一化后的文本进行计算，得到各虚拟文本与归一化后的文本的语义相似度，从而基于语义相似度，从各虚拟文本中确定目标虚拟文本，根据目标虚拟文本得到待处理的文本的实体信息对应的属性信息。

图6为本申请实施例提供的文本处理方法的流程示意图五；可选地，步骤S502中，根据目标实体信息、以及构建的目标实体信息与属性信息的正则表达关系，确定目标实体信息对应的属性信息之前，本申请的方法还可包括：

S601、根据知识图谱中包含的实体信息与属性信息的对应关系，确定目标实体信息对应的至少一个高频属性信息。

其中，针对同一个实体信息，在知识图谱中可以对应存在多个属性信息，本实施例中，可以确定目标实体对应的至少一个高频属性信息，也即常见的属性信息。

S602、对各高频属性信息进行同义词扩充，得到目标实体信息对应的至少一个高频属性信息集合。

比如：高频属性信息为“女儿”，女儿有不同的叫法如“千金、闺女、丫头、姑娘、娃儿”等，则可以根据这些同义词，对每个高频属性信息进行扩充，得到各高频属性信息对应的属性信息集合。

S603、根据目标实体信息、以及至少一个高频属性信息集合，构建目标实体信息与属性信息的正则表达关系。

可选地，可根据目标实体信息、以及上述的至少一个高频属性信息集合，构造正则匹配规则，构建目标实体信息与属性信息的正则表达关系(也即正则表达式)。

可选地，步骤S502中，根据目标实体信息、以及构建的目标实体信息与属性信息的正则表达关系，确定目标实体信息对应的至少一个属性信息，可以包括：将目标实体信息与正则表达关系进行匹配，确定目标实体信息对应的至少一个属性信息。

可将目标实体信息与所构建的正则表达关系进行匹配，若能匹配到属性信息，则将匹配到的属性信息作为目标实体信息对应的至少一个属性信息，若未匹配到任何属性信息，则可进一步地通过下述构造虚拟文本的方式进行属性抽取。

图7为本申请实施例提供的文本处理方法的流程示意图六；可选地，步骤S203中，根据各虚拟文本、以及归一化后的文本，得到待处理的文本的实体信息对应的属性信息，可以包括：

S701、将各虚拟文本分别与归一化后的文本进行语义相似度计算，确定各虚拟文本的相似度指标。

可选地，假设目标实体信息为“人物”，其下有属性信息为“国籍”，那么可构建目标实体信息与属性信息的虚拟文本为“人物的国籍是”，同时可根据上述对属性信息的同义词扩充，将虚拟文本中的“国籍”进行同义词替换，以扩充得到多个虚拟文本。也即，针对目标实体信息与一个属性信息，可得到至少虚拟文本，而针对目标实体信息与确定的至少一个属性信息，均可得到至少一个虚拟文本。

需要说明的是，当上述基于正则表达关系未确定出目标实体信息对应的属性信息时，此时，可构建目标实体信息与其下所有属性信息之间的至少一个虚拟文本，仅仅是计算量较大而已。

可选地，可将得到的每个虚拟文本均与归一化后的文本进行语义相似度的计算，得到各虚拟文本的相似度指标，也即相似度值。

S702、判断最大的相似度指标是否大于预设阈值。

从各相似度指标中确定最大的相似度指标，也即取相似度值最大的，判断最大的相似度指标是否大于预设的阈值。

S703、若大于，则将最大的相似度指标对应的虚拟文本中所包含的属性信息确定为待处理的文本的实体信息对应的属性信息。

可选地，若大于，则可将该最大的相似度指标对应的虚拟文本作为目标虚拟文本，而将目标虚拟文本所对应的属性信息作为待处理的文本的实体信息对应的属性信息。

图8为本申请实施例提供的文本处理方法的流程示意图七；可选地，步骤S701中，将各虚拟文本分别与归一化后的文本进行语义相似度计算，确定各虚拟文本的相似度指标，可以包括：

S801、分别将各虚拟文本、以及归一化后的文本进行编码处理，得到各虚拟文本的语义向量、以及归一化后的文本的语义向量。

通常，无法直接对两个文本进行语义相似度的计算，故，可先将各虚拟文本进行编码处理，得到各虚拟文本的语义向量，对归一化后的文本也同样做编码处理，得到归一化后的文本的语义向量。

S802、分别计算各虚拟文本的语义向量与归一化后的文本的语义向量的余弦相似度，确定各虚拟文本的相似度指标。

可选地，可分别计算各虚拟文本的语义向量与归一化后的文本的语义向量的余弦相似度，确定各虚拟文本的相似度指标，具体的计算方式可参照现有的余弦相似度计算公式计算得到。

如下通过一个简单的示例对本方法各环节进行说明：

1、系统输入阶段，待处理的文本比如“能否给我介绍一下A公司周边的交通情况”。

2、实体识别阶段，将利用规则和模型同时进行处理，从而得知A公司是个实体，得到“能否给我介绍一下地点周边的交通情况”这样一个归一化的文本。

3、意图识别阶段，将利用训练得到的意图识别模型进行推断，输出概率最大的意图，继续上述例子，模型将输出“介绍xxx地点情况”的意图信息。

4、属性关系抽取阶段，在得到待处理的文本的意图信息后，将进行属性关系抽取，相继利用正则表达关系和基于虚拟文本和归一化后的文本语义相似度的进行属性抽取，从而抽到“交通情况”。

5、完成上述流程后，得到实体信息：A公司，属性信息：交通情况，进而查找知识图谱中对应的实体信息和属性信息关系，从而找到待处理的文本对应的答案。

其次，通过规则匹配策略结合实体识别模型的方式进行实体获取，可提升识别的文本中实体信息的准确性和召回率。

另外，采用基于正则表达关系和基于构建的虚拟文本的语义相似度相结合的属性抽取方式，可有效解决属性抽取准确率较低的问题，且由于仅需要利用最新的知识图谱的实体类型和属性信息构建虚拟文本，所构建的虚拟文本本身的扩展性较好。

下述对用以执行本申请所提供的文本处理方法的装置、电子设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

本申请实施例还提供了一种文本处理装置，该文本处理方法装置实现的功能对应上述方法执行的步骤。该装置可包括：获取模块；

获取模块，用于获取待处理的文本的实体信息、以及归一化后的文本，归一化后的文本采用实体信息对文本进行归一化处理得到；

获取模块，用于将待处理的文本输入预先训练的意图识别模型中，获取待处理的文本的意图信息，意图识别模型基于抽取的原子意图所扩充出的样本文本训练得到，原子意图用于表征缺失至少一种语句成分的文本结构；

获取模块，用于根据待处理的文本的实体信息、归一化后的文本、以及待处理的文本的意图信息，进行实体属性抽取，得到待处理的文本的实体信息对应的属性信息；

获取模块，用于根据实体信息以及属性信息、查询知识图谱，获取待处理的文本对应的答语，知识图谱为表征实体与属性的对应关系的结构图。

可选地，获取模块，具体用于基于规则匹配策略、以及预先训练的文本实体识别模型，对待处理的文本进行实体识别，获取待处理的文本的实体信息、以及归一化后的文本。

可选地，获取模块，具体用于基于知识图谱、以及规则匹配策略，对待处理的文本进行第一识别，获取第一识别结果，第一识别结果包括：待处理的文本中包含的记录在知识图谱中的所有实体信息；

基于预先训练的文本实体识别模型，对待处理的文本进行第二识别，获取第二识别结果，第二识别结果包括：待处理的文本包含的部分实体信息、以及各实体信息对应的实体类型，文本实体识别模型采用标记有实体信息标签的训练文本训练得到；

对第一识别结果和第二识别结果进行合并处理，得到待处理的文本的实体信息；

采用实体信息对应的实体类型，对待处理的文本中的实体信息进行替换，得到归一化后的文本。

可选地，获取模块，具体用于根据第一识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型、以及第二识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型，对第一识别结果和第二识别结果进行合并处理，得到待处理的文本的实体信息。

可选地，获取模块，具体用于若第一识别结果中第一实体信息与第二识别结果中第二实体信息存在重合，且第二实体信息的字符长度小于第一实体信息的字符长度，则将第一实体信息作为待处理的文本的实体信息，第一实体信息为第一识别结果中的任一实体信息，第二实体信息为第二识别结果中的任一实体信息。

可选地，获取模块，具体用于若第一识别结果中包含第二识别结果中不存在的实体信息，则从第一识别结果中删除不存在的实体信息，得到待处理的文本的实体信息。

可选地，获取模块，具体用于若第一识别结果与第二识别结果中存在实体信息相同，但实体信息对应的实体类型不同，则将实体信息作为待处理的文本的实体信息，且将第二识别结果中实体信息对应的实体类型作为待处理的文本的实体类型。

可选地，该装置还包括：训练模块；

训练模块，用于基于知识图谱，抽取预设数量的原子意图；

获取非问句样本文本，得到负样本数据集；

采用正样本数据集和负样本数据集，训练得到意图识别模型。

可选地，获取模块，具体用于根据待处理的文本的意图信息、以及待处理的文本的实体信息，确定目标实体信息、以及目标实体信息的实体类型，目标实体信息用于表征进行属性抽取的实体信息；

根据目标实体信息、以及构建的目标实体信息与属性信息的正则表达关系，确定目标实体信息对应的至少一个属性信息；

根据目标实体信息的实体类型与各属性信息的对应关系，构建目标实体信息的实体类型与各属性信息的至少一个虚拟文本；

根据各虚拟文本、以及归一化后的文本，得到待处理的文本的实体信息对应的属性信息。

可选地，该装置还包括：确定模块、构建模块；

确定模块，用于根据知识图谱中包含的实体信息与属性信息的对应关系，确定目标实体信息对应的至少一个高频属性信息；

获取模块，用于对各高频属性信息进行同义词扩充，得到目标实体信息对应的至少一个高频属性信息集合；

构建模块，用于根据目标实体信息、以及至少一个高频属性信息集合，构建目标实体信息与属性信息的正则表达关系。

可选地，确定模块，具体用于将目标实体信息与正则表达关系进行匹配，确定目标实体信息对应的至少一个属性信息。

可选地，获取模块，具体用于将各虚拟文本分别与归一化后的文本进行语义相似度计算，确定各虚拟文本的相似度指标；

判断最大的相似度指标是否大于预设阈值；

若大于，则将最大的相似度指标对应的虚拟文本中所包含的属性信息确定为待处理的文本的实体信息对应的属性信息。

可选地，确定模块，还用于分别将各虚拟文本、以及归一化后的文本进行编码处理，得到各虚拟文本的语义向量、以及归一化后的文本的语义向量；

分别计算各虚拟文本的语义向量与归一化后的文本的语义向量的余弦相似度，确定各虚拟文本的相似度指标。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。

需要说明的是，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(System-on-a-chip，简称SOC)的形式实现。

图9为本申请实施例提供的一种电子设备的结构示意图，该设备可包括：处理器801、存储器802。

存储器802用于存储程序，处理器801调用存储器802存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

其中，存储器802存储有程序代码，当程序代码被处理器801执行时，使得处理器801执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的方法中的各种步骤。

处理器801可以是通用处理器，例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器802作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器802还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

可选地，本申请还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种文本处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述待处理的文本的实体信息、以及归一化后的文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于规则匹配策略、以及预先训练的文本实体识别模型，对待处理的文本进行实体识别，获取所述待处理的文本的实体信息、以及归一化后的文本，包括：

基于知识图谱、以及所述规则匹配策略，对所述待处理的文本进行第一识别，获取第一识别结果，所述第一识别结果包括：待处理的文本中包含的记录在所述知识图谱中的所有实体信息；

4.根据权利要求3所述的方法，其特征在于，所述对所述第一识别结果和所述第二识别结果进行合并处理，得到所述待处理的文本的实体信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型、以及所述第二识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型，对所述第一识别结果和所述第二识别结果进行合并处理，得到所述待处理的文本的实体信息，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述第一识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型、以及所述第二识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型，对所述第一识别结果和所述第二识别结果进行合并处理，得到所述待处理的文本的实体信息，包括：

7.根据权利要求4所述的方法，其特征在于，所述根据所述第一识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型、以及所述第二识别结果中的各实体信息、各实体信息的字符长度、各实体信息对应的实体类型，对所述第一识别结果和所述第二识别结果进行合并处理，得到所述待处理的文本的实体信息，包括：

8.根据权利要求1所述的方法，其特征在于，所述意图识别模型采用如下方式训练得到：

基于知识图谱，抽取预设数量的原子意图；

获取非问句样本文本，得到负样本数据集；

9.根据权利要求1-8任一所述的方法，其特征在于，所述根据所述待处理的文本的实体信息、所述归一化后的文本、以及所述待处理的文本的意图信息，进行实体属性抽取，得到所述待处理的文本的实体信息对应的属性信息，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述目标实体信息、以及构建的目标实体信息与属性信息的正则表达关系，得到所述目标实体信息对应的属性信息之前，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述根据所述目标实体信息、以及构建的目标实体信息与属性信息的正则表达关系，确定所述目标实体信息对应的至少一个属性信息，包括：

12.根据权利要求11所述的方法，其特征在于，所述根据各虚拟文本、以及所述归一化后的文本，得到所述待处理的文本的实体信息对应的属性信息，包括：

判断最大的相似度指标是否大于预设阈值；

13.根据权利要求12所述的方法，其特征在于，所述将各所述虚拟文本分别与所述归一化后的文本进行语义相似度计算，确定各所述虚拟文本的相似度指标，包括：

14.一种文本处理装置，其特征在于，包括：获取模块；

所述获取模块，用于获取所述待处理的文本的实体信息、以及归一化后的文本，所述归一化后的文本采用所述实体信息对所述文本进行归一化处理得到；

15.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行时执行如权利要求1至13任一所述的方法的步骤。

16.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至13任一所述的方法的步骤。