CN111783465A

CN111783465A - 一种命名实体归一化方法、系统及相关装置

Info

Publication number: CN111783465A
Application number: CN202010630635.5A
Authority: CN
Inventors: 孙俊; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-16
Anticipated expiration: 2040-07-03
Also published as: CN111783465B

Abstract

本申请提供一种命名实体归一化方法，包括：获取用户问句；对所述用户问句进行分词和命名实体识别，得到通用命名实体集；对所述通用命名实体集利用CYK算法生成句法树集合；对所述句法树集合遍历得到最大树组合；遍历所述最大树组合，按照预设语法顺序转化为固定表达式。本申请能够有效提高对于复杂问句的解析匹配能力，进一步提高智能设备的人机交互能力。本申请还提供一种命名实体归一化系统、计算机可读存储介质和语音识别终端，具有上述有益效果。

Description

一种命名实体归一化方法、系统及相关装置

技术领域

本申请涉及人工智能领域，特别涉及一种命名实体归一化方法、系统及相关装置。

背景技术

随着NLP(Natural Language Processing，自然语音处理)任务的不断扩充，命名实体识别的内容不再局限于传统的三大类(实体类、时间类和数字类)和七小类(人名、地名、组织名、机构名、时间、日期、货币和百分比)，在特定领域还出现了很多特定的类别，例如医药领域中，药名、疾病等类别；股票领域中，股票、基金、指标术语等类别。也可以将命名实体识别的内容按照领域分为通用领域和限定领域。对于Q&A场景(question and answer，即问答场景)而言，命名实体识别是服务于问答的，理解问句，方便进行后续数据查询，给出答案。这个过程需要将用户问句中识别到的内容与数据库中的内容联系对等起来，才能实现正确的召回。对于例如地名、商品名称等实体类的实体，因为对于此类业务场景而言，其数量有限，限定在一定范围内的，因此，可以建立候选实体库，然后通过各种实体链接手段，将识别的命名实体与真实数据实体联系起来；但是对于时间类、数字类等命名实体，由于其数字特性，存在多种多样的情况，并不能直接穷举，并不适用于构建候选库的方式来做归一化。所谓归一化包含符号化和标准化两个过程，符号化指将文本转化为计算机可以识别的特定标记的过程，而标准化指的是将相同表述的文本利用统一形式或格式表述，减少词汇量，便于进行批处理。

发明内容

本申请的目的是提供一种命名实体归一化方法、系统、计算机可读存储介质和语音识别终端，能够解析用户问句并转化为数据库查询所需的固定表达式形式。

为解决上述技术问题，本申请提供一种命名实体归一化方法，具体技术方案如下：

获取用户问句；

对所述用户问句进行分词和命名实体识别，得到通用命名实体集；

对所述通用命名实体集利用CYK算法生成句法树集合；

对所述句法树集合遍历得到最大树组合；

遍历所述最大树组合，按照预设语法顺序转化为固定表达式；所述固定表达式用于作为数据库查询条件查找所述用户问句对应的回答。

可选的，对所述用户问句进行分词和命名实体识别，得到通用命名实体集包括：

利用预设模板匹配、正则匹配和机器学习算法匹配中的一种或任意几种对所述用户问句进行分词和命名实体识别，得到通用命名实体集。

可选的，对所述通用命名实体集利用CYK算法生成句法树集合时，还包括：

通过中间节点利用所述CYK算法将非CNF形式语法转化为对应的句法树，并在转化结束后删除所述中间节点。

可选的，对所述句法树集合遍历得到最大树组合包括：

按照自顶向下、自左向右的方式遍历所述句法树集合，得到最大树组合；

其中，横向遍历优先级高于纵向遍历优先级。

本申请还提供一种命名实体归一化系统，具体技术方案如下：

获取模块，用于获取用户问句；

识别模块，用于对所述用户问句进行分词和命名实体识别，得到通用命名实体集；

规则匹配模块，用于对所述通用命名实体集利用CYK算法生成句法树集合；

遍历模块，用于对所述句法树集合遍历得到最大树组合；

命名模块，用于遍历所述最大树组合，按照预设语法顺序转化为固定表达式；所述固定表达式用于作为数据库查询条件查找所述用户问句对应的回答。

可选的，所述识别模块包括：

识别单元，用于利用预设模板匹配、正则匹配和机器学习算法匹配中的一种或任意几种对所述用户问句进行分词和命名实体识别，得到通用命名实体集。

可选的，还包括：

记录模块，用于对所述通用命名实体集利用CYK算法生成句法树集合时，用中间节点记录从所述通用命名实体集得到所述句法树集合对应的语法转化过程。

可选的，所述遍历模块具体为用于从左上顶点开始沿对角线遍历所述句法树集合，得到最大树组合的模块。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种语音识别终端，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种命名实体归一化方法，具体技术方案如下：获取用户问句；对所述用户问句进行分词和命名实体识别，得到通用命名实体集；对所述通用命名实体集利用CYK算法生成句法树集合；对所述句法树集合遍历得到最大树组合；遍历所述最大树组合，按照预设语法顺序转化为固定表达式。

本申请先对用户问句进行语言识别，得到通用命名实体集。在得到一系列的通用的命名实体识别结果后，会根据句法语法进行句法分析，在利用CYK算法的基础上加以改进，使得目标不再只是将整句话解析为一棵树，而是可以允许一句话同时对应多棵树，每棵句法树代表一个限制条件。得到所有的树后，对每棵树按照树的遍历转化为固定的格式，便于进行数据库查询，有效提高对于复杂问句的解析匹配能力，同时借助CYK算法降低计算量、优化了句法分析性能，进一步提高智能设备的人机交互能力。本申请还提供一种命名实体归一化系统、计算机可读存储介质和语音识别终端，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种命名实体归一化方法的流程图；

图2为本申请实施例所提供的一种CYK算法分析示意图；

图3为本申请实施例所提供的一种基于CYK算法的句法分析结果示意图；

图4为本申请实施例所提供的另一种命名实体归一化方法的流程图；

图5为本申请实施例所提供的另一种基于CYK算法的句法分析结果示意图；

图6为本申请实施例所提供的一种句法树划分示意图；

图7为本申请实施例所提供的一种命名实体归一化系统结构示意图；

图8为本申请实施例所提供的一种语音识别终端的应用环境示意图。

具体实施方式

本申请提出了一种基于句法分析的通用命名实体归一化的方法，其主要贡献是将句法分析应用到了命名实体归一化上，并提出了一种应用CYK算法处理非CFG语法的方法，实现了很好的应用效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种命名实体归一化方法的流程图

S101：获取用户问句；

本步骤旨在获取用户问句，但是对于如何获取用户问题并不做具体限定，可以通过用户输入或者接收语音消息并进行语音识别得到用户问句。需要注意的是，不管采用何种获取方式均需要将其转化为后文所需要的可识别形式，以便在后续步骤执行分词和命名实体识别。该可识别形式可以为文字格式，或者在文字基础上的编码格式等。

特别需要指出的是，本步骤的用户问句并非仅仅指疑问句，还可以包括对应检测结果的陈述句。例如，“请查询昨天天气”为陈述句，但其实际所要表达的含义与“昨天是什么天气”的疑问句所表达的含义实际相同，均为包含需要检测目标的语句，因此该陈述句实际也为用户问句。

S102：对用户问句进行分词和命名实体识别，得到通用命名实体集；

在得到用户问句后，首先需要对用户问句进行解析，即得到其中的通用命名实体集。所谓通用命名实体集，指的是用户问句中所包含的关键信息，包括名词信息、动词信息和介词信息等，在此过程可以自动过滤无意义的词语表达，主要得到与领域信息无关且不随业务场景变更而变化的词语，例如数字或数词、时间、比较动词、比较介词和连词等。

在此对于如何得到通用命名实体集不做具体限定，例如可以利用预设模板匹配、正则匹配和机器学习算法匹配中的一种或任意几种对用户问句进行分词和命名实体识别，在此对于采用何种预设模板进行匹配不作限定。容易理解的是，本领域技术人员也可以采用其他方法进行分词和命名实体识别，在此不作一一限定。

需要注意的是，本步骤得到的通用命名实体集是以词为粒度，对于表达信息上过于片段化，为了使结果表达的信息尽可能精确，方便在知识图谱中查找，对NER((NamedEntity Recognition，命名实体识别)结果可以进一步整合，整合为完整的限制条件、操作指令、时间单元、数值等，并归一化为统一的表达形式，易于后续步骤处理。

因为归一化过程针对通用命名实体，其可以在各种垂直领域迁移。在多个业务场景上积累了一些实体列表，并应用模板匹配、正则匹配和一些模型，例如CRF(ConditionalRandom Fields，随机场模型)、BiLSTM(Bi-directional Long Short-Term Memory，一种自然语言处理模型)+CRF等，因此本步骤也可以结合多种策略实现数字和时间的识别，并将识别结果作为通用命名实体集合。

S103：对通用命名实体集利用CYK算法生成句法树集合；

本步骤旨在利用CYK算法得到句法树集合。在得到包含一系列的通用的命名实体识别结果的通用命名实体集后，采用CYK算法根据句法语法进行句法分析，需要注意的是，本步骤不再只是将整句话语法分析为一棵树，而是可以允许一句话可以同时对应多棵句法树，且每棵句法树代表一个限制条件。得到所有的句法树后，对每棵树按照树的遍历转化为固定的格式。由于采用CYK算法得到的句法树一定为二叉树，而二叉树的遍历为本领域技术人员的常用技术手段，在此不作赘述。

这里应用通过大量的真实问句归纳总结的通用语法规则，进行规则匹配，得到相应的句法树，以每棵句法树为单元来整合命名实体，得到条件短语。

具体实现细节如下：

对于规则匹配，生成句法树的过程，若直接使用暴力搜索实现，在语法规则拓展到一定的程度的时候，或是问句足够长，包含的NER数量过多时，单纯的暴力搜索策略将影响程序的性能。

为了提高性能，本步骤采用了CYK算法(Cocke–Younger–Kasami algorithm，缩写为CYK algorithm)来实现规则匹配过程。CYK算法是一种用来对CFG(Context FreeGrammar，上下文无关文法)进行语法分析的算法，是一种基于动态规划思想设计的自底向上的语法分析算法。要用CYK算法处理CFG，要求语法规则必须符合乔姆斯基范式(CNF,Chomsky Normal Form)，采用CNF形式的语法规则只有两种形式：A→B C和A→a。

为了更好的描述本步骤中的CYK算法，下文针对本申请提供的CYK算法作进一步说明：

如图2所示，CYK算法的具体过程就是一个填格子的过程，按照动态规划思想，自底向上填格子。

以上图中的例子进行匹配，其过程是：

初始状态：张三(N)是(V)县长(N)派(V)来(V)的(de)

1.遍历A→a的语法规则，根据N→NP可以跨度1的格子；

2.遍历A→BC的语法规则，填跨度2的格子的时候，对于(1，2)这个格子，因为没有语法可以匹配NP→V和N→V，所以这个格子为空，不填内容；对于(2，2)这个格子，根据语法V→NP VP，所以可以将VP填入这个格子，根据规则依次填写跨度为2的格子；

3.向上匹配，直到填完所有下三角的格子，如果最上面的格子填入了内容，也即匹配成功，说明此句话，根据现有的语法可以匹配得到句法树。

对于上述例子得到的句法树可以如图3所示。

S104：对句法树集合遍历得到最大树组合；

为了适应语法习惯，可以按照自顶向下、自左向右的方式遍历所述句法树集合，得到最大树组合。需要注意的是，横向遍历优先级高于纵向遍历优先级。即从最上一行的最左侧开始遍历，此后横向遍历，直至本行遍历结束，从下一行最左侧开始遍历，直至遍历完句法树得到最大树结合。容易理解的是，最大树集合中可以包含多棵句法树。

当然，具体的遍历方式可以根据语法做适应性的改变，本领域技术人员也可以在其他实施例中采用相适应的遍历方式。

S105：遍历最大树组合，按照预设语法顺序转化为固定表达式。

本步骤中得到的固定表达式用于作为数据库查询条件查找用户问句对应的回答。处理完的结果即固定表达式可以直接作为数据库查询条件，即实现了将用户问句转化为数据库所对应的查询请求，即可根据用户所提出的疑问句在数据库中检索对应的回答，实现人机交互。

在此对于采用何种语法顺序不作限定，目的是将树形态转化为表达式形态，实现语法格式变化，便于利用固定表达式作为数据库检索查询条件。因此，将树形态转为数据库可识别的表达式形态的语法均可以为本步骤中的预设语法。且容易理解的是，其语法顺序随着所检索的数据库类型不同，本步骤所得到的固定表达式的形式也可以存在相应变化。例如，固定表达式可以包含数据符号。

本申请实施例先对用户问句进行语言识别，得到通用命名实体集。在得到一系列的通用的命名实体识别结果后，会根据句法语法进行句法分析，用CYK算法使得目标不再只是将整句话解析为一棵树，而是可以允许一句话同时有多棵树存在，每棵句法树代表一个限制条件。得到所有的树后，对每棵树按照树的遍历转化为固定的格式，便于进行数据库查询，有效提高对于复杂问句的解析匹配能力，进一步提高智能设备的人机交互能力。

基于上述实施例，作为优选的实施例，在执行步骤S103对通用命名实体集利用CYK算法生成句法树集合时，并非所有的语法可以直接被CYK算法处理，因此，在执行步骤S103时，对于非CNF形式的语法，可以通过中间节点利用CYK算法将非CNF形式语法转化为对应的句法树，并在转化结束后删除所述中间节点。

由于CYK算法只能处理CNF形式的语法，因此需要将所有语法转化为CNF形式。而任何语法都是可以转化为一个弱等价的CNF形式，具体方法转化方式可以如下：

Step 1：convert A→BCD to A→BX,X→CD

Step 2：convert A→Bc,A→BC,C→c

语法规则并不符合CNF形式，虽然可以通过上述转化方法进行转化，但是并不希望生成一棵二分叉的句法树，而是一棵符合定制的符合语义的句法树。本申请实施例通过中间节点将语法转化过程放在语法分析(即，CYK规则匹配)过程中进行，以中间节点来记录转化过程。并且在存储的时候，保证中间节点的子节点只存叶子节点，而不直接保存中间节点，即在存储句法树的时候还是按照原始语法规则来存储，只有在匹配过程按照CNF形式进行匹配。此外，存储非CNF形式语法得到的句法树时依旧按照原语法存储，而不按照转化的CNF形式存储，可以避免后续解析CNF句法树时过于复杂造成解析效率低的问题。

则执行步骤S103时，可以具体采用如下步骤：

获取通用命名实体集中的语法，并判断语法是否为CNF形式；

若是，则利用CYK算法生成对应的句法树；

若否，通过中间节点利用CYK算法将非CNF形式语法转化为对应的句法树；

整合所有句法树，得到句法树集合。

此时，可参见图4，图4为本申请实施例所提供的另一种命名实体归一化方法的流程图，其具体过程如下：

S201：获取用户问句；

S202：对所述用户问句进行分词和命名实体识别，得到通用命名实体集；

S203：获取通用命名实体集中的语法，并判断语法是否为CNF形式；若是，进入S204；若否，进入S205；

S204：利用CYK算法生成对应的句法树；

S205：通过中间节点利用CYK算法将非CNF形式语法转化为对应的句法树；

S206：整合所有句法树，得到句法树集合；

S207：对所述句法树集合遍历得到最大树组合；

S208：遍历所述最大树组合，按照预设语法顺序转化为固定表达式。

下文对于如何利用中间节点实现非CNF形式语法的句法转化加以说明：

对于不符合CNF格式的语法：

例如

From:Value,Joiner,Value

To:DataRange

Operation:(range Value Value)

以Value,Joiner@Value,Joiner,Value这种方式保存中间节点，其子节点为Value和Joiner；当Value,Joiner@Value,Joiner,Value和Value匹配生成新的节点Value,Joiner,Value时，其子节点不直接保存Value,Joiner@Value,Joiner,Value和Value，而是保存所有的叶子节点，也就是保存Value,Joiner@Value,Joiner,Value的子节点和Value，即为Value,Joiner,Value。只要保证子节点中不存在中间节点，只存在叶子节点，最终生成的句法树就会按照原始语法结构呈现。对于30万/300000/Value/3/6-/～/Joiner/6/7 40万/400000/Value/7/10这个NER结果，经过CFG匹配，可以得到句法树为如图5所示。

在上述实施例的基础上，下文针对于步骤S104和S105举例加以说明。参见图6，以“股价大于30万小于40万排名第一的股票”为例，可以得到两棵句法树。分别为“大于30万小于40万”，“第一”，。

则第一棵树的语法为from:CompareOp,Value,CompareOp,Value；to:DataRange。例如“大于30万小于40万”按照顺序遍历可以得到[“>”,”300000”,”<”,”400000”]，由此可以转化为固定表达式(300000，400000)。第二棵树的语法为from:ArgmodFirst,Value；to:Limit。例如“第一”按照顺序遍历可以得到[“order”,”1”]，由此可以转化为固定表达式“order 1”。

下面对本申请实施例提供的一种命名实体归一化系统进行介绍，下文描述的命名实体归一化系统与上文描述的一种命名实体归一化方法可相互对应参照。

参见图7，图7为本申请实施例所提供的一种命名实体归一化系统结构示意图，本申请还提供一种命名实体归一化系统，包括：

获取模块，用于获取用户问句；

识别模块，用于对用户问句进行分词和命名实体识别，得到通用命名实体集；

规则匹配模块，用于对通用命名实体集利用CYK算法生成句法树集合；

遍历模块，用于对句法树集合遍历得到最大树组合；

命名模块，用于遍历最大树组合，按照预设语法顺序转化为固定表达式；固定表达式用于作为数据库查询条件查找用户问句对应的回答。

在上述实施例的基础上，作为优选的实施例，识别模块可以包括：

识别单元，用于利用预设模板匹配、正则匹配和机器学习算法匹配中的一种或任意几种对用户问句进行分词和命名实体识别，得到通用命名实体集。

在上述实施例的基础上，作为优选的实施例，该系统还可以包括：

记录模块，用于对所述通用命名实体集利用CYK算法生成句法树集合时，通过中间节点利用所述CYK算法将非CNF形式语法转化为对应的句法树，并在转化结束后删除所述中间节点。

可选的，遍历模块具体为按照自顶向下、自左向右的方式遍历所述句法树集合，得到最大树组合的模块；

其中，横向遍历优先级高于纵向遍历优先级。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种语音识别终端，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述语音识别终端还可以包括各种网络接口，电源等组件。

请参阅图8，图8示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的命名实体归一化方法可以应该用于如图7所示的交互系统。交互系统包括终端设备11以及服务器12，服务器12与终端设备11通信连接。其中，服务器12可以是传统服务器，也可以是云端服务器，在此不做具体限定。

其中，终端设备11可以是具有显示屏、具有数据处理模块、具有拍摄相机、具有音频输入/输出等功能，且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、自助服务终端和可穿戴式电子设备等。具体的，数据输入可以是基于电子设备上具有的语音模块输入语音、字符输入模块输入字符等。

其中，终端设备11上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP，微信小程序等)。用户可以在终端设备11上输入用户语句，终端设备11将用户语句发送至服务器12，使得服务器12可以执行如下步骤：

获取用户问句；

对所述通用命名实体集利用CYK算法生成句法树集合；

对所述句法树集合遍历得到最大树组合；

在一些实施方式中，在终端设备11具备相应的处理器和存储器，且存储器中包含由执行上述步骤的计算机程序，使得终端设备11无需依赖于服务器12建立通信即可实现本申请所公开的命名实体归一化方法，此时交互系统100可以只包括终端设备11。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种命名实体归一化方法，其特征在于，包括：

获取用户问句；

对所述通用命名实体集利用CYK算法生成句法树集合；

对所述句法树集合遍历得到最大树组合；

2.根据权利要求1所述的命名实体归一化方法，其特征在于，对所述用户问句进行分词和命名实体识别，得到通用命名实体集包括：

3.根据权利要求1所述的命名实体归一化方法，其特征在于，对所述通用命名实体集利用CYK算法生成句法树集合时，还包括：

4.根据权利要求1所述的命名实体归一化方法，其特征在于，对所述句法树集合遍历得到最大树组合包括：

其中，横向遍历优先级高于纵向遍历优先级。

5.一种命名实体归一化系统，其特征在于，包括：

获取模块，用于获取用户问句；

遍历模块，用于对所述句法树集合遍历得到最大树组合；

6.根据权利要求5所述的命名实体归一化方法，其特征在于，所述识别模块包括：

7.根据权利要求5所述的命名实体归一化方法，其特征在于，还包括：

8.根据权利要求5所述的命名实体归一化方法，其特征在于，所述遍历模块具体为用于按照自顶向下、自左向右的方式遍历所述句法树集合，得到最大树组合的模块；

其中，横向遍历优先级高于纵向遍历优先级。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的方法的步骤。

10.一种语音识别终端，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-4任一项所述的方法的步骤。