CN107797989A

CN107797989A - 企业名称识别方法、电子设备及计算机可读存储介质

Info

Publication number: CN107797989A
Application number: CN201710960222.1A
Authority: CN
Inventors: 徐冰; 汪伟; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-10-16
Filing date: 2017-10-16
Publication date: 2018-03-13
Also published as: WO2019075967A1

Abstract

本发明公开了一种企业名称识别方法，该方法包括步骤：接收输入的特定文字序列；将特定文字序列中的每个汉字转化为对应的词向量并输入至递归神经网络；通过所述递归神经网络计算每个词向量的状态向量并输入至条件随机场；通过特定的回归模型将每个词向量的状态向量转换成特征向量，并利用所述条件随机场和预先设定的三元标注规则，对每个词向量的特征向量进行解码，得到所述特定文字序列中所有汉字的三元标注集，并通过最佳标签序列输出所有汉字的三元标注集；根据所述预先设定的三元标注规则，从所述最佳标签序列中识别出特定企业名称。本发明可以提高企业名称识别精确度。

Description

企业名称识别方法、电子设备及计算机可读存储介质

技术领域

本发明涉及计算机信息技术领域，尤其涉及一种企业名称识别方法、电子设备及计算机可读存储介质。

背景技术

舆情分析需要把财经新闻结构化，其中第一步是识别新闻中的企业实体。传统的自然语言处理技术一般采用条件随机场或者隐式马尔科夫模型进行序列建模，但是，这些方法非常依赖于特征的选取、泛化能力很弱。故，现有技术中的企业名称识别方法设计不够合理，亟需改进。

发明内容

有鉴于此，本发明提出一种企业名称识别方法、电子设备及计算机可读存储介质，通过LSTM+CRF模型的结合，自动提取有效特征，并且在识别企业名称时能够利用上下文信息，在打标签的阶段有效利用了句子级别的标记信息，提高了识别精确度与召回率。

首先，为实现上述目的，本发明提出一种电子设备，所述电子设备包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的企业名称识别系统，所述企业名称识别系统被所述处理器执行时实现如下步骤：

接收输入的特定文字序列；

将所述特定文字序列中的每个汉字转化为对应的词向量，并将转化后的词向量输入至递归神经网络；

通过所述递归神经网络计算每个词向量的状态向量，并将每个词向量的状态向量输入至条件随机场；

通过特定的回归模型将每个词向量的状态向量转换成特征向量，并利用所述条件随机场和预先设定的三元标注规则，对每个词向量的特征向量进行解码，得到所述特定文字序列中所有汉字的三元标注集，并通过最佳标签序列输出所有汉字的三元标注集；及

根据所述预先设定的三元标注规则，从所述最佳标签序列中识别出特定企业名称。

优选地，所述预先设定的三元标注规则包括：通过第一标签表示企业名称的第一个汉字，第二标签表示企业名称的剩余汉字，及第三标签表示不属于企业名称的汉字。

优选地，所述状态向量包括第一隐藏层状态向量和第二隐藏层状态向量；

所述状态向量的计算包括：

调用所述递归神经网络的双向长短期记忆模块，从左向右根据当前词向量的前一个词向量的隐藏层状态向量计算当前词向量的第一隐藏层状态向量，并从右向左根据当前词向量的后一个词向量的隐藏层状态向量计算当前词向量的第二隐藏层状态向量。

所述特征向量的计算包括：通过所述特定的回归模型将每个词向量对应的第一隐藏层状态向量和第二隐藏层状态向量进行合并，得到每个词向量的特征向量。

优选地，所述最佳标签序列通过预定的标签序列计算公式获取，所述预定的标签序列计算公式设置为：

其中，X代表每个词向量的特征向量，y代表待预测的标签序列，n代表所述特定文字序列中的汉字个数，i代表所述特定文字序列中的第i个汉字；

A代表状态转移矩阵，A_yi,yi+1代表从第yi个标签转移到第yi+1个标签的概率，P_i,yi代表第i个汉字被标记为第yi个标签的概率；及

s(X,y)代表衡量每条标签序列的指标，通过最大化s(X，y)得到所述最佳标签序列。

优选地，所述特定企业名称的识别包括：从所述最佳标签序列中提取连续标注的第一标签和所有第二标签对应的汉字，将提取的汉字作为特定企业名称。

此外，为实现上述目的，本发明还提供一种企业名称识别方法，该方法应用于电子设备，所述方法包括：

接收输入的特定文字序列；

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有企业名称识别系统，所述企业名称识别系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述的企业名称识别方法的步骤。

相较于现有技术，本发明所提出的电子设备、企业名称识别方法及计算机可读存储介质，通过LSTM+CRF模型的结合，自动提取有效特征，并且在识别企业名称时能够利用上下文信息，在打标签的阶段有效利用了句子级别的标记信息。相比传统序列建模方法，本发明所提出的企业名称识别方法提高了识别精确度与召回率。

附图说明

图1是本发明电子设备一可选的硬件架构的示意图；

图2是本发明电子设备中企业名称识别系统一实施例的程序模块示意图；

图3为本发明企业名称识别方法一实施例的实施流程示意图；

图4为本发明进行企业名称识别的示例图。

附图标记：

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

进一步需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

首先，本发明提出一种电子设备2。

参阅图1所示，是本发明电子设备2一可选的硬件架构的示意图。本实施例中，所述电子设备2可包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23。需要指出的是，图1仅示出了具有组件21-23的电子设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述电子设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备，该电子设备2可以是独立的服务器，也可以是多个服务器所组成的服务器集群。

所述存储器21至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器21可以是所述电子设备2的内部存储单元，例如该电子设备2的硬盘或内存。在另一些实施例中，所述存储器21也可以是所述电子设备2的外部存储设备，例如该电子设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括所述电子设备2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器21通常用于存储安装于所述电子设备2的操作系统和各类应用软件，例如所述企业名称识别系统20的程序代码等。此外，所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子设备2的总体操作，例如执行与所述电子设备2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述的企业名称识别系统20等。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述电子设备2与其他电子设备之间建立通信连接。例如，所述网络接口23用于通过网络将所述电子设备2与外部数据平台相连，在所述电子设备2与外部数据平台之间的建立数据传输通道和通信连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

至此，己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面，将基于上述应用环境和相关设备，提出本发明的各个实施例。

参阅图2所示，是本发明电子设备2中企业名称识别系统20一实施例的程序模块图。本实施例中，所述的企业名称识别系统20可以被分割成一个或多个程序模块，所述一个或者多个程序模块被存储于所述存储器21中，并由一个或多个处理器(本实施例中为所述处理器22)所执行，以完成本发明。例如，在图2中，所述的企业名称识别系统20可以被分割成接收模块201、转化模块202、计算模块203、标注模块204、以及识别模块205。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述企业名称识别系统20在所述电子设备2中的执行过程。以下将就各程序模块201-205的功能进行详细描述。

所述接收模块201，用于接收输入的特定文字序列。在本实施例中，所述特定文字序列为中文字符，包括汉字和空格，如新闻句子“中国平安发布了新产品”。

所述转化模块202，用于将所述特定文字序列中的每个汉字转化为对应的词向量x_i(i＝0,1,2,…n，向量维数为100)，并将转化后的词向量输入至递归神经网络(RecurrentNeural Network，RNN)。在本实施例中，所述递归神经网络采用长短期记忆模块(LongShort-Term Memory，LSTM)，优选采用双向长短期记忆模块(Bi-directional LSTM)。

所述计算模块203，用于通过所述递归神经网络计算每个词向量的状态向量，并将每个词向量的状态向量输入至条件随机场(Conditional Random Field，CRF)。其中，所述状态向量包括第一隐藏层状态向量和第二隐藏层状态向量。

优选地，在本实施例中，所述状态向量的计算具体包括如下步骤：

调用所述递归神经网络的双向长短期记忆模块LSTM，从左向右根据当前词向量x_i的前一个词向量x-_i的隐藏层状态向量h_i-1计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左根据当前词向量x_i的后一个词向量x-_i+1的隐藏层状态向量h_i+1计算当前词向量x_i的第二隐藏层状态向量h_i'。

上述的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i'实质是通过LSTM对原输入特定文字序列的特征自动提取，这种提取特征的方式与传统方法有所区别，不依赖于特征的选取、泛化能力较强。

所述标注模块204，用于通过特定的回归模型(如softmax模型)将每个词向量的状态向量转换成特征向量X_i，并利用所述条件随机场和预先设定的三元标注规则，对每个词向量的特征向量X_i进行解码，得到所述特定文字序列中所有汉字的三元标注集(B，I，S)，并通过最佳标签序列(用Y_i表示)输出所有汉字的三元标注集。

在本实施例中，所述预先设定的三元标注规则包括：通过第一标签(如“B”)表示企业名称的第一个汉字，第二标签(如“I”)表示企业名称的剩余汉字，第三标签(如“S”)表示不属于企业名称的汉字。

优选地，在本实施例中，所述将每个词向量的状态向量转换成特征向量X_i包括：通过特定的回归模型(如softmax模型)将每个词向量对应的第一隐藏层状态向量h_i和第二隐藏层状态向量h_i'进行合并，得到每个词向量的特征向量X_i。

优选地，在本实施例中，所述最佳标签序列Y_i通过预定的标签序列计算公式(如下公式1)获取。

其中，X代表每个词向量的特征向量X_i集合，即X＝(X₁,X₂,…,X_n)，y代表待预测的标签序列，即y＝(y1,y2,…,yn)，n代表所述特定文字序列中的汉字个数(n＞＝1)，s(X,y)计算公式中i代表所述特定文字序列中的第i个汉字(i＞＝1)，s(X,y)代表衡量每条标签序列的指标，通过最大化s(X，y)得到所述最佳标签序列Y_i。

A代表状态转移矩阵，A_yi,yi+1代表从第yi个标签转移到第yi+1个标签的概率，P_i,yi代表第i个汉字被标记为第yi个标签的概率。

在本实施例中，对于输入X_i，可以定义LSTM的输出概率矩阵P{n*k}，其中，n代表所述特定文字序列中的汉字个数(n＞＝1)，k代表输出标签的个数(本实施例中，k＝3)，即所述三元标注集(B，I，S)的标签个数。

本实施例中引入的CRF，其实是对输出标签三元组进行建模，然后使用动态规划进行计算，最终根据得到的最优路径进行标注，即通过最大化s(X，y)得到所述最佳标签序列Y_i。

所述识别模块205，用于根据所述预先设定的三元标注规则，从所述最佳标签序列中识别出特定企业名称。优选地，所述特定企业名称的识别包括：从所述最佳标签序列中提取连续标注的第一标签和所有第二标签对应的汉字，将提取的汉字作为特定企业名称。

举例而言，参阅图4所示，假设输入的特定文字序列为“中国平安发布了新产品”，通过本发明采用的LSTM+CRF模型输出的最佳标签序列为{B,I,I,I,S,S,S,S,S,S}，即表示从特定文字序列中识别的企业名称为“中国平安”，即连续标注的第一标签和所有第二标签(B,I,I,I)对应的汉字。在图4的例子中，LSTM+CRF模型最后一步通过最优化s(X,y)来得到最佳标签序列{B,I,I,I,S,S,S,S,S,S}，即最佳标签序列{B,I,I,I,S,S,S,S,S,S}的s(X,y)比其他序列的s(X,y)都要大，所以确定{B,I,I,I,S,S,S,S,S,S}为最佳标签序列。其中，{B,I,I,I}就代表中国平安这四个字是企业名称，因为根据所述预先设定的三元标注规则，B表示企业名称的第一个汉字，I表示企业名称的剩余汉字，S表示不属于企业名称的汉字。

需要说明的是，本发明所采用的方法适用于模型训练及模型应用。模型训练的过程中，企业全称为样本数据，模型的输出结果(企业简称)为已知的参考数据。经过大量的样本数据逐步对LSTM模型进行训练，得到模型的空间维度、系数矩阵等参数或变量，再根据已知的参考数据对模型进行调整，直到训练得到较为可靠的模型。模型应用的时候，将待确定的句子输入模型，即可预测其中包含的企业名称。

通过上述程序模块201-205，本发明所提出的企业名称识别系统20，通过LSTM+CRF模型的结合，可以自动提取有效特征，并且在识别企业名称时能够利用上下文信息，在打标签的阶段有效利用了句子级别的标记信息。相比传统序列建模方法，本发明所提出的企业名称识别方法提高了识别精确度与召回率。

此外，本发明还提出一种企业名称识别方法。

参阅图3所示，是本发明企业名称识别方法一实施例的实施流程示意图。在本实施例中，根据不同的需求，图3所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S31，接收输入的特定文字序列。在本实施例中，所述特定文字序列为中文字符，包括汉字和空格，如新闻句子“中国平安发布了新产品”。

步骤S32，将所述特定文字序列中的每个汉字转化为对应的词向量x_i(i＝0,1,2,…n，向量维数为100)，并将转化后的词向量输入至递归神经网络(Recurrent NeuralNetwork，RNN)。在本实施例中，所述递归神经网络采用长短期记忆模块(Long Short-TermMemory，LSTM)，优选采用双向长短期记忆模块(Bi-directional LSTM)。

步骤S33，通过所述递归神经网络计算每个词向量的状态向量，并将每个词向量的状态向量输入至条件随机场(Conditional Random Field，CRF)。其中，所述状态向量包括第一隐藏层状态向量和第二隐藏层状态向量。

步骤S34，通过特定的回归模型(如softmax模型)将每个词向量的状态向量转换成特征向量X_i，并利用所述条件随机场和预先设定的三元标注规则，对每个词向量的特征向量X_i进行解码，得到所述特定文字序列中所有汉字的三元标注集(B，I，S)，并通过最佳标签序列(用Y_i表示)输出所有汉字的三元标注集。

步骤S35，根据所述预先设定的三元标注规则，从所述最佳标签序列中识别出特定企业名称。优选地，所述特定企业名称的识别包括：从所述最佳标签序列中提取连续标注的第一标签和所有第二标签对应的汉字，将提取的汉字作为特定企业名称。

通过上述步骤S31-S35，本发明所提出的企业名称识别方法，通过LSTM+CRF模型的结合，可以自动提取有效特征，并且在识别企业名称时能够利用上下文信息，在打标签的阶段有效利用了句子级别的标记信息。相比传统序列建模方法，本发明所提出的企业名称识别方法提高了识别精确度与召回率。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质(如ROM/RAM、磁碟、光盘)，所述计算机可读存储介质存储有企业名称识别系统20，所述企业名称识别系统20可被至少一个处理器22执行，以使所述至少一个处理器22执行如上所述的企业名称识别方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的企业名称识别系统，所述企业名称识别系统被所述处理器执行时实现如下步骤：

接收输入的特定文字序列；

2.如权利要求1所述的电子设备，其特征在于，所述预先设定的三元标注规则包括：通过第一标签表示企业名称的第一个汉字，第二标签表示企业名称的剩余汉字，及第三标签表示不属于企业名称的汉字。

3.如权利要求2所述的电子设备，其特征在于，所述状态向量包括第一隐藏层状态向量和第二隐藏层状态向量；

所述状态向量的计算包括：

4.如权利要求2所述的电子设备，其特征在于，所述最佳标签序列通过预定的标签序列计算公式获取，所述预定的标签序列计算公式为：

<mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>A</mi> <mrow> <mi>y</mi> <mi>i</mi> <mo>,</mo> <mi>y</mi> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>P</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>y</mi> <mi>i</mi> </mrow> </msub> <mo>;</mo> </mrow>

5.如权利要求2所述的电子设备，其特征在于，所述特定企业名称的识别包括：从所述最佳标签序列中提取连续标注的第一标签和所有第二标签对应的汉字，将提取的汉字作为特定企业名称。

6.一种企业名称识别方法，应用于电子设备，其特征在于，所述方法包括：

接收输入的特定文字序列；

7.如权利要求6所述的企业名称识别方法，其特征在于，所述预先设定的三元标注规则包括：通过第一标签表示企业名称的第一个汉字，第二标签表示企业名称的剩余汉字，及第三标签表示不属于企业名称的汉字。

8.如权利要求7所述的企业名称识别方法，其特征在于，所述最佳标签序列通过预定的标签序列计算公式获取，所述预定的标签序列计算公式为：

9.如权利要求7所述的企业名称识别方法，其特征在于，所述特定企业名称的识别包括：从所述最佳标签序列中提取连续标注的第一标签和所有第二标签对应的汉字，将提取的汉字作为特定企业名称。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有企业名称识别系统，所述企业名称识别系统可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求6-9中任一项所述的企业名称识别方法的步骤。