CN111738008B

CN111738008B - 基于多层模型的实体识别方法、装置、设备及存储介质

Info

Publication number: CN111738008B
Application number: CN202010696698.0A
Authority: CN
Inventors: 杨志专
Original assignee: Shenzhen Saiante Technology Service Co Ltd
Current assignee: Shenzhen Saiante Technology Service Co Ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2021-04-27
Anticipated expiration: 2040-07-20
Also published as: CN111738008A

Abstract

本申请涉及大数据、区块链和人工智能技术领域，提供一种基于多层模型的实体识别方法、装置、设备及存储介质，该方法包括：获取语句信息，并基于词语识别模型对语句信息进行分词处理，得到多个分词信息；通过句法分析模型，提取每个分词信息的句法关系；基于命名实体识别模型，根据每个分词信息的句法关系，确定语句信息中的实体信息。本申请可应用于智慧医疗领域，极大提高了实体识别的准确性。

Description

基于多层模型的实体识别方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理的技术领域，尤其涉及一种基于多层模型的实体识别方法、装置、设备及存储介质。

背景技术

命名实体识别(NER)是自然语言处理中的关键技术，通常使用命名实体识别模型来提取语句中的主要实体。但目前的命名实体识别模型的训练周期长，训练样本大，还需要对大量的训练样本进行标注，产生了极高的标注成本。同时，虽然现有的命名实体识别模型使用了大量的训练样本进行训练，但目前的命名实体识别模型仍不能对一些生僻或者口语化的文本进行精确地识别与提取。例如，即便是训练了海量语料的命名实体识别模型，在遇到如“上3年8月份”、“二零一九年一月到三月”等时间类实体时也容易出现错误识别的情况。因此，如何有效地提高实体识别的准确性成为了亟需解决的问题。

发明内容

本申请的主要目的在于提供一种基于多层模型的实体识别方法、装置、设备及存储介质，旨在通过大数据和人工智能相关技术手段实现提高实体识别的准确性的功能，可应用于智慧城市的智慧医疗领域，从而推动智慧城市的建设。

第一方面，本申请提供一种基于多层模型的实体识别方法，所述多层模型包括词语识别模型、句法分析模型和命名实体识别模型，所述方法包括：

获取语句信息，并基于所述词语识别模型对所述语句信息进行分词处理，得到多个分词信息；

通过所述句法分析模型，提取每个所述分词信息的句法关系；

基于所述命名实体识别模型，根据每个所述分词信息的句法关系，确定所述语句信息中的实体信息。

第二方面，本申请还提供一种基于多层模型的实体识别装置，所述多层模型包括词语识别模型、句法分析模型和命名实体识别模型，所述装置包括：

分词模块，用于获取语句信息，并基于所述词语识别模型对所述语句信息进行分词处理，得到多个分词信息；

句法分析模块，通过所述句法分析模型，提取每个所述分词信息的句法关系；

实体识别模块，基于所述命名实体识别模型，根据每个所述分词信息的句法关系，确定所述语句信息中的实体信息。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上所述的基于多层模型的实体识别方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上所述的基于多层模型的实体识别方法的步骤。

本申请提供一种基于多层模型的实体识别方法、装置、设备及存储介质，本申请基于词语识别模型对获取的语句信息进行分词处理，得到多个分词信息，再通过句法分析模型，提取每个分词信息的句法关系，然后基于命名实体识别模型，根据每个分词信息的句法关系，确定语句信息中的实体信息。通过多层模型可以极大地提高命名实体识别的准确性，只需利用小样本对命名实体识别模型进行机器学习即可准确地提取出语句信息中的实体信息，解决了当前实体识别时精确度不理想、应对口语化表达效果不好的现实问题。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于多层模型的实体识别方法的步骤流程示意图；

图2为图1中的基于多层模型的实体识别方法的子步骤流程示意图；

图3为本申请实施例提供的另一种基于多层模型的实体识别方法的步骤流程示意图；

图4为本申请实施例提供的一种基于多层模型的实体识别装置的示意性框图；

图5为图4中的基于多层模型的实体识别装置的子模块的示意性框图；

图6为本申请实施例提供的另一种基于多层模型的实体识别装置的示意性框图；

图7为本申请实施例提供的一种计算机设备的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

本申请实施例提供一种基于多层模型的实体识别方法、装置、设备及存储介质。其中，该基于多层模型的实体识别方法可应用于终端设备或服务器中，该终端设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备；该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。以下以该基于多层模型的实体识别方法应用于服务器为例进行解释说明。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种基于多层模型的实体识别方法的步骤流程示意图。

如图1所示，该基于多层模型的实体识别方法包括步骤S101至步骤S103，其中，该多层模型包括词语识别模型、句法分析模型和命名实体识别模型。

步骤S101、获取语句信息，并基于所述词语识别模型对所述语句信息进行分词处理，得到多个分词信息。

在一实施例中，终端设备显示一语句输入界面，用户可以通过该语句输入界面输入语句信息。例如，该语句输入界面包括有输入框和确定按钮，当用户点击该输入框，则输入框显示一光标，同时语句输入界面弹出一输入键盘，该光标用于控制并提示用户输入位置，该输入键盘用于向输入语句信息，用户可通过该输入键盘和光标向输入框中输入语句信息；用户在输入框中输入文字信息，并点击上述确定按钮时，终端设备获取用户输入的语句信息，并将用户输入的语句信息发送至服务器，以供服务器基于接收到的语句信息执行后续操作。

可以理解的是，该语句输入界面还可以包括有一录音控件，当用户触发该录音控件之后，终端设备采集外界环境的音频信息，并通过语音识别技术将该音频信息转化为文字信息，然后将该文字信息作为语句信息发送至服务器，并由服务器将该语句信息存储至云端或者存储器。

在一实施例中，服务器可以直接从云端或者存储器中获取语句信息。示例性地，用户通过控制设备发出语句信息获取指令，服务器在接收到该语句信息获取指令之后，从存储器或者云端数据库中获取语句信息。例如，用户可以通过触发外部设备（例如鼠标、键盘、遥控器等）等方式控制上述控制设备向服务器发出语句信息获取指令。或者，用户通过控制设备发出语句信息识别请求，该语句信息识别请求携带有语句信息，服务器在接收到该语句信息识别请求之后，直接通过语句信息识别请求获取语句信息，本申请对此不做具体限制。

在一实施例中，获取语句信息之后，服务器查询实体识别历史记录，该实体识别历史记录登记有历史识别过的语句信息，历史识别过的语句信息存储于本地或者云端数据库。确定实体识别历史记录中是否存在与该语句信息相同的历史识别过的语句信息，若存在，则直接调取该历史识别过的语句信息的识别结果，并输出该识别结果，从而无需对模型进行重新训练，提高对语句信息的识别速度。

需要说明的是，为进一步保证上述语句信息的存储私密和安全性，上述语句信息等相关信息还可以存储于一区块链的节点中，本申请的技术方案还可适用于添加其他存储于区块链上的数据文件，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

获取语句信息之后，基于预设的词语识别模型对语句信息进行分词处理，得到多个分词信息。其中，词语识别模型包括规则分词模型、统计分词模型与混合分词模型等，该混合分词模型包括规则分词模型与统计分词模型相结合的模型，或者是规则分词模型、统计分词模型与其他方式的分词模型相结合的模型，本申请对词语识别模型不做具体限定。

在一实施例中，词语识别模型通过设立词典对语句信息进行切词，即通过预先设立好的词典去匹配待分词的语句信息，如果该语句信息遇到词典中存在的词则切分开，从而得到多个分词信息。例如，规则分词模型包括有以下匹配方法：正向最大匹配法（MaximumMatch Method）、逆向最大匹配法（Reversed Maximum Match Method）以及双向最大匹配法（Bi-direction Matching Method）。在一些实施例中，可以基于分词工具包和自定义分词词典，对词语识别模型进行增量训练，以得到训练好的词语识别模型。

示例性的，语句信息为：“人民医院前年3月份到今年3月份门诊量在1000到2000之间的科室有哪些”。将该语句信息输入词语识别模型，通过jieba分词工具包可以得到语句信息的如下分词信息：“人民/医院/前年/3/月份/到/今年/3/月份/门诊量/在/1000/到/2000/之间/的/科室/有/哪些”。

步骤S102、通过所述句法分析模型，提取每个所述分词信息的句法关系。

将多个分词信息输入至句法分析模型，得到每个分词信息在语句信息中的句法关系。其中，句法关系可以通过句法树进行表示，或者，句法关系可以用每个分词信息在语句信息中的当前节点、父节点、节点间的距离等关键信息来表达。

其中，句法分析模型包括基于概率上下文无关文法（Probabilistic ContextFree Grammar，PCFG）的句法分析模型、最大间隔马尔科夫网络的句法分析模型、基于条件随机场（conditional random field，CRF）的句法分析模型、基于深度学习的句法分析模型、隐马尔可夫模型（Hidden Markov Model，HMM）等模型或者模型组合，本申请对句法分析模型不做具体限定。需要说明的是，句法分析模型的任务是利用语言知识自动识别语句信息的语法结构，即识别语句信息所包含的分词信息以及多个分词信息之间的句法关系，例如句法关系可为树状数据结构的句法树。

在一些实施例中，可以基于开源的句法分析器对句法分析模型进行增量训练，可以快速得到训练好的句法分析模型，可选地，句法分析器为stanford parse。

在一实施例中，多层模型还包括有句法分析算法。在得到多个分词信息之后，通过句法分析算法，对每个分词信息进行筛选，以确定满足句法分析模型要求的分词信息，得到多个目标分词信息；再将多个目标分词信息输入至句法分析模型，以提取每个目标分词信息的句法关系。其中，句法分析算法包括LR（Logistic Regression）算法、GLR(GeneralizedLogistic Regression )算法、CYK（Cocke Younger Kasami）算法、Chart算法、Earley算法中的至少一种。

需要说明的是，通过句法分析算法确定每个分词信息的分析结果的评价概率，当每个分词信息的分析结果的评价概率大于预设评价概率时，将对应的分词信息作为目标分词信息。根据句法分析模型来评价目标分词信息，从而选出最优的句法分析树，也可以看作是一个歧义消解的过程。有利地，通过句法分析算法，可以极大地提高句法分析模型提取分词信息的句法关系的效率和正确率两方面的性能。

步骤S103、基于所述命名实体识别模型，根据每个所述分词信息的句法关系，确定所述语句信息中的实体信息。

得到每个分词信息的句法关系之后，将每个分词信息以及每个分词信息的句法关系输入命名实体识别模型，可以得到语句信息中的至少一个实体信息。其中，该至少一个实体信息可以是语句信息中的至少一个复杂实体，该复杂实体即为语句信息中的复杂程度较高的实体信息，例如复杂实体为“前年一季度到今年一季度”或者为“深圳市南山区前海街道月亮湾大道23号滨海大厦C区一单元2栋3F”等，复杂实体可以通过语句信息中的句法关系来识别。本申请实施例可极大提高命名实体识别模型对复杂实体的识别准确率。

在一实施例中，如图2所示，步骤S103包括：子步骤S1031至子步骤S1033。

子步骤S1031、根据所述多个分词信息，选取所述命名实体识别模型的训练语料。

其中，需要确定待处理的多个分词信息的类型，并根据待处理的多个分词信息的类型，选取命名实体识别模型的训练语料。其中，分词信息的类型包括时间、地点、机构、部门、地址、人名、指标名称、限定条件等。比如语句信息为“深圳市第一人民医院心内科近2个月床位数变化的原因是什么”，其中，“深圳市第一人民医院”为机构、“心内科”为部门、“床位数”为指标名称、“近2个月”为时间。

在一实施例中，确定每个分词信息的类型，并获取每个分词信息的类型各自对应的语料集合；对每个语料集合中的标注信息进行筛选，得到多个筛选后的语料集合，并将多个筛选后的语料集合作为命名实体识别模型的训练语料。

其中，可以通过头脑风暴、问卷调查等方式，让不同的人来做口语化表达，或者通过网络爬虫等方式，得到多个语句信息；对多个语句信息中的分词信息进行分类处理，得到多个语料集合，其中，每个语料集合可以包括同一类型的多个分词信息；通过对每个类型的语料集合设立标签，并将该多个类型的语料集合存储于数据库，以便通过标签快速地从存储器中查找到对应的语料集合。或者，可以通过收集现有样本数据集中的多个类型的分词信息，并对多个类型的分词信息进行分类处理，从而得到多个语料集合。其中，每个语料集合可以包括同一类型的多个分词信息；建立分词信息的类型与语料集合之间的对应关系，并将收集到的每个类型的语料集合，以及分词信息的类型与语料集合之间的对应关系存储于云端。服务器可以根据与分词信息的类型与语料集合之间的对应关系，确定目标语料集合，并确定目标语料集合的标签；通过目标语料集合的标签可以调用数据库或云端中的语料集合，从而得到命名实体识别模型的训练语料，能够极大减少训练语料的数量，加快命名实体识别模型的训练和识别速度。

在一实施例中，得到多个语料集合的方式还包括：获取包括有复杂实体的多个语句信息，并提取每个语句信息的语句模板；基于每个语句信息的语句模板，对各自对应的语句信息进行排列组合，以获取每个语句信息各自对应的至少一个关联语句；将每个语句信息和各自对应的至少一个关联语句作为一个语句集合，得到多个语句集合；对多个语句集合中的分词信息进行分类处理，得到多个语料集合。需要说明的是，复杂实体包括时间类实体（如前年一季度到今年一季度）、查询条件类实体（如门诊量在1000到2000之间）、地址类实体（如深圳市南山区前海街道月亮湾大道23号滨海大厦C区一单元2栋3F）、人名嵌套关系实体（如：滨海集团的董事长的老婆的弟弟、深圳人民医院的院长）等等。

例如，当语句信息包括：语句1、人民医院前年一季度到今年一季度门诊量在1000到2000之间的科室有哪些；语句2、前年一季度到今年一季度门诊量在1000到2000之间的医院有哪些；语句3、有哪些医院前年一季度到今年一季度门诊量在1000到2000之间。通过提取每个语句信息的语句模板，并替换每个语句模板的中的词语可以得到：模板1、条件：医疗机构+时间+指标限定条件，指标对象：科室，目标：有哪些；模板2、条件：时间+指标限定条件，指标对象：医院，目标：有哪些；模板3、目标：有哪些，指标对象：医院，条件：时间+指标限定条件。根据模板1的语句模板中的条件、指标对象和目标，对语句1进行排列组合，可以得到多种不同顺序的关联语句，将将语句1和语句1对应的多个关联语句作为一个语句集合，对该语句集合中的分词信息进行分类处理，可以得出复杂实体的多种表达方式，从而提高命名实体模型对复杂实体的识别准确率。

在一实施例中，对每个语料集合中的标注信息进行筛选，得到多个筛选后的语料集合，包括：从每个语料集合中获取每个分词信息各自对应的标注信息集；基于句法关系的表达式，对每个标注信息集中的标注信息进行筛选，得到多个筛选后的标注信息集；将每个语料集合各自对应的多个筛选后的标注信息集进行汇集，得到多个筛选后的语料集合。

需要说明的是，每个语料集合中包括有多个分词信息，每个分词信息各自对应一个标注信息集，标注信息集包括多个标注信息，例如包括分词信息的当前实体编号、实体名称、当前节点词性、节点间的距离、父节点词性、父节点实体编号、句法类型、实体类型等。其中，节点间的距离为分词信息的当前节点与父节点之间，与父节点词性相同的词的数量。同时，节点间的距离可以通过“+/-”号表示当前节点在语句中相对于父节点的方向。当然，节点间的距离也可用其他合适的方式来定义。句法类型例如为状中结构、介宾关系等句法结构的标注。实体类型包括B/I/E/O共4种类别的标注，分别代表开始、中间、结尾与其他4种状态同时，还可以分为时间(time)、条件(con)等类型的复杂实体的标注。

示例性的，语句信息为“人民医院前年3月份到今年3月份门诊量在1000到2000之间的科室有哪些”，对应的分词信息共17个分别为“人民医院/前年/3月份/到/今年/3/月份/门诊量/在/1000/到/2000/之间/的/科室/有/哪些”。对该语句信息的分词信息进行标注，标注的顺序为当前实体编号、实体名称、当前节点词性、节点间的距离、父节点词性、父节点实体编号、句法类型、实体类型，可以得到18个标注信息集分别为{['1'， '人民医院'，'ns'， '1'， 'v'， '16'， '主谓关系'，'O']、 ['2'， '前年'，'nt'， '1'， 'nt'， '3'，'定中关系'，'B_time']、['3'， '3月份'， 'nt'， '1'， 'v'， '16'， '状中结构'，'I_time']、['4'， '到'，'p'， '1'， 'v'， '16'， '状中结构'，'I_time']、['5'， '今年'，'nt'， '1'， 'm'， '6'， '定中关系'，'I_time']、['6'， '3'，'m'， '1'， 'n'， '7'， '定中关系'，'I_time']，['7'， '月份'，'n'， '1'， 'n'， '8'， '定中关系'，'E_time']、['8'， '门诊量'，'n'， '-1'， 'p'， '4'， '介宾关系'，'B_con']、['9'， '在'，'p'， '1'， 'v'， '16'， '状中结构'，'I_con']、['10'， '1000'，'m'， '-1'， 'p'， '9'， '介宾关系'，'I_con']、['11'， '到'，'p'， '1'， 'v'， '16'， '状中结构'，'I_con']、['12'， '2000'，'nt'， '1'， 'nd'， '13'， '定中关系'，'I_con']、['13'， '之间'，'nd'， '1'， 'n'， '15'，'定中关系'，'E_con']、 ['14'， '的'，'u'， '-1'， 'nd'， '13'， '右附加关系'，'O']、['15'， '科室'，'v'， '0'， 'Root'， '11'， '介宾关系'，'O']、['16'， '有'，'r'， '-1'， 'v'， '0'， '核心关系'，'O']和['17'， '哪些'，'r'， '-1'， 'v'，'16'， '动宾关系'，'O']}。

在一个语句信息中，分词信息的句法关系可以通过当前节点、父节点、节点间的距离这3个关键信息来表达。本申请可以基于分词信息的句法关系来进行实体识别，因此实体信息可以不用参与模型训练，有利于控制训练语料的规模，减少模型训练耗时。可以筛选出：当前节点词性、节点间的距离、父节点词性、实体类型这4个字段的信息作为进一步的候选语料。例如，筛选后的多个标注信息集为：{['ns'， '1'， 'v'， 'O']、['nt'， '1'， 'nt'，'B_time']、['nt'， '1'， 'v'， 'I_time']、['p'， '1'， 'v'， 'I_time']、['nt'， '1'， 'm'， 'I_time']、['m'， '1'， 'n'， 'I_time']、['n'， '1'， 'n'， 'E_time']、['n'， '-1'，'p'， 'B_con']、['p'， '1'， 'v'， 'I_con']、['m'， '-1'， 'p'， 'I_con']、['p'， '1'， 'v'， 'I_con']、['nt'， '1'， 'nd'， 'I_con']、['nd'， '1'， 'n'， 'E_con']、['u'， '-1'，'nd'， 'O']、['n'， '-1'， 'p'， 'O']、['v'， '0'， 'Root'， 'O']、['r'， '-1'， 'v'， 'O']和['wp'， '-1'， 'v'， 'O']}。按照多个标注信息集中的实体类型，将每个语料集合各自对应的多个筛选后的标注信息集进行汇集，可以得到多个筛选后的语料集合。

子步骤S1032、基于所述训练语料对所述命名实体识别模型进行迭代训练，直至所述命名实体识别模型收敛，得到更新的命名实体识别模型。

确定命名实体识别模型的训练语料之后，基于该训练语料对命名实体识别模型进行迭代训练，其中，该命名实体识别模型包括CRF模型或者biLSTM（Bi-directional LongShort-Term Memory）模型，可以理解的，也可以采用CRF+biLSTM的混合模型进行训练。当采用CRF模型作为命名实体识别模型，可使用unigram和bigram两种特征模板生成命名实体识别模型的特征函数，该特征模板可以包括节点词性、节点间的距离、父节点词性等特征，无需包含更多的特征数据，从而简化特征模板的设计复杂度，并控制特征函数的规模，减少了模型训练的代价。

示例性地，语句信息为“人民医院{2017年一季度至今年3月份}{门诊量处于1000至2000之间}的科室有哪些”，训练语料包括语句1：“人民医院{前年一季度到今年一季度}{门诊量在1000到2000之间}的科室有哪些”，以及语句2：“人民医院{前年3月份到今年3月份}{门诊量在1000到2000之间}的科室有哪些”，通过语句1和语句2中的数十条分词信息的标注信息集作为训练语料，对命名实体识别模型进行迭代训练，直至命名实体识别模型收敛，得到更新的命名实体识别模型。

需要说明的是，基于句法分析模型提取得到的句法关系，有助于命名实体识别模型对实体特征的提取，无需通过海量的训练语料对命名实体识别模型进行训练，以关联度较高的小样本数据作为语料集合更便于对语句信息进行增量的快速迭代训练，可行性更高。

子步骤S1033、通过更新的命名实体识别模型，根据每个所述分词信息的句法关系，确定所述语句信息中的实体信息。

例如，通过语句1和语句2中的数十条分词信息的标注信息集作为训练语料训练出来的命名实体识别模型，根据每个分词信息的句法关系，可以提取出语句信息中的时间类实体{2017年一季度至今年3月份}和查询条件类实体{门诊量处于1000至2000之间}。其中，F1值为0.88，较好实现了泛化推理的效果，准确地提取语句信息中的实体信息。

在一实施例中，将每个分词信息和每个分词信息的句法关系输入更新的命名实体识别模型，得到多个实体信息和每个实体信息的概率；根据多个实体信息和每个实体信息的概率，确定语句信息中的实体信息。需要说明的是，确定每个实体信息的概率是否大于或等于预设概率，更新的命名实体识别模型输出概率大于或等于预设概率的实体信息，得到语句信息中的实体信息。例如，时间类实体{2017年一季度至今年3月份}对应的概率为0.89，查询条件类实体{门诊量处于1000至2000之间}对应的概率为0.90，预设概率为0.88，则输出{2017年一季度至今年3月份}和{门诊量处于1000至2000之间}。

上述实施例提供的基于多层模型的实体识别方法，基于词语识别模型对获取的语句信息进行分词处理，得到多个分词信息，再通过句法分析模型，提取每个分词信息的句法关系，然后基于命名实体识别模型，根据每个分词信息的句法关系，确定语句信息中的实体信息。通过多层模型可以极大地提高命名实体识别的准确性，只需利用小样本对命名实体识别模型进行机器学习即可准确地提取出语句信息中的实体信息，解决了当前实体识别时精确度不理想、应对口语化表达效果不好的现实问题。

请参照图3，图3为本申请实施例提供的另一种基于多层模型的实体识别方法的步骤流程示意图。

如图3所示，该基于多层模型的实体识别方法包括步骤S201至S204，其中，该多层模型包括词语识别模型、句法分析模型、命名实体识别模型。

步骤S201、获取语句信息，并基于所述词语识别模型对所述语句信息进行分词处理，得到多个分词信息。

用户可以通过终端设备输入语句信息，并通过终端设备将输入的语句信息发送至服务器，或者服务器可以直接从云端或者存储器中获取语句信息，本申请对此不做具体限定。

步骤S202、通过所述句法分析模型，提取每个所述分词信息的句法关系。

将多个分词信息输入至句法分析模型，得到每个分词信息在语句信息中的句法关系。其中，句法关系可以通过句法树或者每个分词信息在语句信息中的当前节点、父节点、节点间的距离等关键信息来表达。句法分析模型可以是单个的模型或者多个模型的组合，也可以是一句法分析器，本申请对句法分析模型不做具体限定。

步骤S203、基于所述命名实体识别模型，根据每个所述分词信息的句法关系，确定所述语句信息中的实体信息。

得到每个分词信息的句法关系之后，将每个分词信息以及每个分词信息的句法关系输入命名实体识别模型，可以得到语句信息中的至少一个实体信息。其中，该至少一个实体信息可以是语句信息中的至少一个复杂实体，复杂实体包括时间类实体（如前年一季度到今年一季度）、查询条件类实体（如门诊量在1000到2000之间）、地址类实体（如深圳市南山区前海街道月亮湾大道23号滨海大厦C区一单元2栋3F）、人名嵌套关系实体（如：滨海集团的董事长的老婆的弟弟、深圳人民医院的院长）等等。

步骤S204、将所述语句信息中的实体信息输入预先设置好的问答响应模型，以获取所述问题语句信息的答案信息。

语句信息为问题语句信息，将问题语句信息中的实体信息输入预先设置好的问答响应模型，以获取问题语句信息的答案信息。该问答响应模型可以广泛应用于某些特定的智能搜索、基于知识图谱的智能问答、智能化BI系统交互查询等场景。

其中，问答响应模型包括实体编码层、句法分析层、实体解码层、意图理解层和答案生成层；将问题语句信息中的实体信息输入预先设置好的问答响应模型，以获取问题语句信息的答案信息，包括：通过实体编码层，对问题语句信息中的目标实体信息进行编码映射，得到目标问题语句信息；基于句法分析层，对目标问题语句信息进行句法分析，得到句法分析树；通过实体解码层，对句法分析树中的目标问题语句信息进行解码，得到目标句法分析树；通过意图理解层确定目标句法分析树的意图，得到语义查询图；基于答案生成层，根据语义查询图确定问题语句信息的答案信息。

需要说明的是，实体编码层用于对目标实体信息（例如复杂实体）进行编码映射，以减低语义分析理解的复杂度。即将目标实体信息进行替换，以简化语句信息，编码规则可以根据目标实体信息的类型进行设置，例如，语句信息为：“人民医院2017年一季度至今年3月份门诊量处于1000至2000之间的科室有哪些”。通过实体编码层，将时间类实体：2017年一季度至今年3月份，替换为“9001年”，将查询条件类实体：门诊量处于1000至2000之间，替换为“符合条件”，则经过替换后的语句信息（即目标问题语句信息）为：“人民医院9001年符合条件的科室有哪些”。大大简化了语句信息，同时提高句法分析层提取语句信息的句法关系的准确性。

需要说明的是，实体解码层与实体编码层相对应，用于将句法分析树中的目标问题语句信息进行解码，以还原编码前的语句信息的目标实体信息。有利地，将句法分析结果中的目标实体信息精确映射回原始的实体信息，最终实现了实体识别结果与目标句法分析树的无缝融合。意图理解层用于基于目标句法分析树生成语义查询图，例如，基于图节点遍历算法（包括深度优先遍历），搜索语句信息的目标句法分析树，以确定语句信息的意图，并生成语义查询图。答案生成层用于生成并输出语句信息的答案信息，可选的，根据语义查询图生成查询语句，包括SQL(Structured Query Language)语句（对应关系型数据库）或生成SPARQL(SPARQL Protocol and RDF Query Language)查询语句（对应图数据库），并在数据库或者知识图谱中进行查询，以输出答案信息。

在一实施例中，在数据库或者知识图谱中进行查询之前，确定语句信息中的实体信息是否与数据库或者知识图谱中的实体信息一致，若语句信息中的实体信息与数据库或者知识图谱中的实体信息不一致，则对语句信息中的实体信息进行实体消歧，可选的，包括有监督语义消歧方法、无监督语义消歧方法、基于贝叶斯分类器消歧方法等，还可以通过词义拓展的方式，如利用同义词库或者近义词库进行扩展。如：“人民医院的收益”，将其中的词语“收益”替换或扩展为“收入、营收”等词语，能极大提高问答响应模型输出答案信息的准确性。

上述实施例提供的基于多层模型的实体识别方法，基于词语识别模型对获取的语句信息进行分词处理，得到多个分词信息，再通过句法分析模型，提取每个分词信息的句法关系，然后基于命名实体识别模型，根据每个分词信息的句法关系，确定语句信息中的实体信息，同时，将语句信息中的实体信息输入预先设置好的问答响应模型，以获取问题语句信息的答案信息。本申请实施例可以有效的提高实体识别的精确性，得到准确的答案信息，解决了当前问答响应时精确度不理想、应对口语化表达效果不好的现实问题。

请参照图4，图4为本申请实施例提供的一种基于多层模型的实体识别装置的示意性框图。

如图4所示，该基于多层模型的实体识别装置300，包括：分词模块301、句法分析模块302和实体识别模块303，其中，该多层模型包括词语识别模型、句法分析模型和命名实体识别模型。

分词模块301，用于获取语句信息，并基于所述词语识别模型对所述语句信息进行分词处理，得到多个分词信息；

句法分析模块302，通过所述句法分析模型，提取每个所述分词信息的句法关系；

实体识别模块303，基于所述命名实体识别模型，根据每个所述分词信息的句法关系，确定所述语句信息中的实体信息。

在一个实施例中，如图5所示，所述实体识别模块303包括：

语料选取子模块3011，用于根据所述多个分词信息，选取所述命名实体识别模型的训练语料；

模型训练子模块3012，用于基于所述训练语料对所述命名实体识别模型进行迭代训练，直至所述命名实体识别模型收敛，得到更新的命名实体识别模型；

实体确定子模块3013，用于通过更新的命名实体识别模型，根据每个所述分词信息的句法关系，确定所述语句信息中的实体信息。

在一个实施例中，语料选取模块3011还用于：

确定每个所述分词信息的类型，并获取每个所述分词信息的类型各自对应的语料集合；

对每个所述语料集合中的标注信息进行筛选，得到多个筛选后的语料集合，并将所述多个筛选后的语料集合作为所述命名实体识别模型的训练语料。

在一个实施例中，语料选取模块3011还用于：

从每个所述语料集合中获取每个所述分词信息各自对应的标注信息集；

基于句法关系的表达式，对每个所述标注信息集中的标注信息进行筛选，得到多个筛选后的标注信息集；

将每个所述语料集合各自对应的多个筛选后的标注信息集进行汇集，得到多个筛选后的语料集合。

在一个实施例中，实体确定模块3013还用于：

将每个所述分词信息和每个所述分词信息的句法关系输入更新的命名实体识别模型，得到多个实体信息和每个所述实体信息的概率；

根据所述多个实体信息和每个所述实体信息的概率，确定所述语句信息中的实体信息。

请参照图6，图6为本申请实施例提供的另一种基于多层模型的实体识别装置的示意性框图。

如图6所示，该基于多层模型的实体识别装置400，包括：

分词模块401，用于获取语句信息，并基于所述词语识别模型对所述语句信息进行分词处理，得到多个分词信息；

句法分析模块402，通过所述句法分析模型，提取每个所述分词信息的句法关系；

实体识别模块403，基于所述命名实体识别模型，根据每个所述分词信息的句法关系，确定所述语句信息中的实体信息；

问答响应模块404，用于将所述语句信息中的实体信息输入预先设置好的问答响应模型，以获取所述问题语句信息的答案信息。

在一个实施例中，所述语句信息为问题语句信息，所述问答响应模型包括实体编码层、句法分析层、实体解码层、意图理解层和答案生成层；问答响应模块404还用于：

通过所述实体编码层，对所述问题语句信息中的目标实体信息进行编码映射，得到目标问题语句信息；

基于所述句法分析层，对目标问题语句信息进行句法分析，得到句法分析树；

通过所述实体解码层，对所述句法分析树中的目标问题语句信息进行解码，得到目标句法分析树；

通过所述意图理解层确定目标句法分析树的意图，得到语义查询图；

基于所述答案生成层，根据所述语义查询图确定所述问题语句信息的答案信息。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述基于多层模型的实体识别方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端设备。

如图7所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种基于多层模型的实体识别方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种基于多层模型的实体识别方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元 (Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述多层模型包括词语识别模型、句法分析模型和命名实体识别模型，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一个实施例中，所述处理器在实现所述基于所述命名实体识别模型，根据每个所述分词信息的句法关系，确定所述语句信息中的实体信息时，用于实现：

根据所述多个分词信息，选取所述命名实体识别模型的训练语料；

基于所述训练语料对所述命名实体识别模型进行迭代训练，直至所述命名实体识别模型收敛，得到更新的命名实体识别模型；

通过更新的命名实体识别模型，根据每个所述分词信息的句法关系，确定所述语句信息中的实体信息。

在一个实施例中，所述处理器在实现所述根据所述多个分词信息，选取所述命名实体识别模型的训练语料时，用于实现：

对每个所述语料集合中的标注信息进行筛选，得到多个筛选后的语料集合，并将所述多个筛选后的语料集合作为所述命名实体识别模型的训练语料。在一个实施例中，所述处理器在实现所述对每个所述语料集合中的标注信息进行筛选，得到多个筛选后的语料集合时，用于实现：

在一个实施例中，所述处理器在实现所述通过更新的命名实体识别模型，根据每个所述分词信息的句法关系，确定所述语句信息中的实体信息时，用于实现：

在一个实施例中，所述处理器在实现所述语句信息为问题语句信息；所述确定所述语句信息中的实体信息之后，还用于实现：

将所述问题语句信息中的实体信息输入预先设置好的问答响应模型，以获取所述问题语句信息的答案信息。

在一个实施例中，所述问答响应模型包括实体编码层、句法分析层、实体解码层、意图理解层和答案生成层；所述处理器在实现所述将所述问题语句信息中的实体信息输入预先设置好的问答响应模型，以获取所述问题语句信息的答案信息时，用于实现：

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述计算机设备的具体工作过程，可以参考前述基于多层模型的实体识别方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请基于多层模型的实体识别方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于多层模型的实体识别方法，其特征在于，所述多层模型包括词语识别模型、句法分析模型和命名实体识别模型，所述方法包括：

获取包括至少一个复杂实体的语句信息，并基于所述词语识别模型对所述语句信息进行分词处理，得到多个分词信息；

通过所述句法分析模型，提取每个所述分词信息的句法关系，所述句法关系包括当前节点、父节点和节点间的距离；

基于句法关系的表达式，对每个所述标注信息集中的标注信息进行筛选，得到多个筛选后的标注信息集，所述筛选后的标注信息集包括实体类型、当前节点词性、父节点词性和节点间的距离；

将每个所述语料集合各自对应的多个筛选后的标注信息集进行汇集，得到所述命名实体识别模型的训练语料，所述训练语料包括多个复杂实体的筛选后的标注信息集；

将每个所述分词信息以及每个所述分词信息的句法关系输入所述更新的命名实体识别模型，得到所述语句信息中的至少一个复杂实体。

2.如权利要求1所述的基于多层模型的实体识别方法，其特征在于，所述将每个所述分词信息以及每个所述分词信息的句法关系输入所述更新的命名实体识别模型，得到所述语句信息中的至少一个复杂实体，包括：

根据所述多个实体信息和每个所述实体信息的概率，确定所述语句信息中的至少一个复杂实体。

3.如权利要求1所述的基于多层模型的实体识别方法，其特征在于，所述语句信息为问题语句信息；所述得到所述语句信息中的至少一个复杂实体之后，还包括：

4.如权利要求3所述的基于多层模型的实体识别方法，其特征在于，所述问答响应模型包括实体编码层、句法分析层、实体解码层、意图理解层和答案生成层；所述将所述问题语句信息中的实体信息输入预先设置好的问答响应模型，以获取所述问题语句信息的答案信息，包括：

5.一种基于多层模型的实体识别装置，其特征在于，所述多层模型包括词语识别模型、句法分析模型和命名实体识别模型，所述装置包括：

分词模块，用于获取包括至少一个复杂实体的语句信息，并基于所述词语识别模型对所述语句信息进行分词处理，得到多个分词信息；

句法分析模块，用于通过所述句法分析模型，提取每个所述分词信息的句法关系，所述句法关系包括当前节点、父节点和节点间的距离；

实体识别模块，用于确定每个所述分词信息的类型，并获取每个所述分词信息的类型各自对应的语料集合；

6.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至4中任一项所述的基于多层模型的实体识别方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至4中任一项所述的基于多层模型的实体识别方法的步骤。