CN107797989A - 企业名称识别方法、电子设备及计算机可读存储介质 - Google Patents
企业名称识别方法、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107797989A CN107797989A CN201710960222.1A CN201710960222A CN107797989A CN 107797989 A CN107797989 A CN 107797989A CN 201710960222 A CN201710960222 A CN 201710960222A CN 107797989 A CN107797989 A CN 107797989A
- Authority
- CN
- China
- Prior art keywords
- vector
- sequence
- label
- mrow
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种企业名称识别方法,该方法包括步骤:接收输入的特定文字序列;将特定文字序列中的每个汉字转化为对应的词向量并输入至递归神经网络;通过所述递归神经网络计算每个词向量的状态向量并输入至条件随机场;通过特定的回归模型将每个词向量的状态向量转换成特征向量,并利用所述条件随机场和预先设定的三元标注规则,对每个词向量的特征向量进行解码,得到所述特定文字序列中所有汉字的三元标注集,并通过最佳标签序列输出所有汉字的三元标注集;根据所述预先设定的三元标注规则,从所述最佳标签序列中识别出特定企业名称。本发明可以提高企业名称识别精确度。
Description
技术领域
本发明涉及计算机信息技术领域,尤其涉及一种企业名称识别方法、电子设备及计算机可读存储介质。
背景技术
舆情分析需要把财经新闻结构化,其中第一步是识别新闻中的企业实体。传统的自然语言处理技术一般采用条件随机场或者隐式马尔科夫模型进行序列建模,但是,这些方法非常依赖于特征的选取、泛化能力很弱。故,现有技术中的企业名称识别方法设计不够合理,亟需改进。
发明内容
有鉴于此,本发明提出一种企业名称识别方法、电子设备及计算机可读存储介质,通过LSTM+CRF模型的结合,自动提取有效特征,并且在识别企业名称时能够利用上下文信息,在打标签的阶段有效利用了句子级别的标记信息,提高了识别精确度与召回率。
首先,为实现上述目的,本发明提出一种电子设备,所述电子设备包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的企业名称识别系统,所述企业名称识别系统被所述处理器执行时实现如下步骤:
接收输入的特定文字序列;
将所述特定文字序列中的每个汉字转化为对应的词向量,并将转化后的词向量输入至递归神经网络;
通过所述递归神经网络计算每个词向量的状态向量,并将每个词向量的状态向量输入至条件随机场;
通过特定的回归模型将每个词向量的状态向量转换成特征向量,并利用所述条件随机场和预先设定的三元标注规则,对每个词向量的特征向量进行解码,得到所述特定文字序列中所有汉字的三元标注集,并通过最佳标签序列输出所有汉字的三元标注集;及
根据所述预先设定的三元标注规则,从所述最佳标签序列中识别出特定企业名称。
优选地,所述预先设定的三元标注规则包括:通过第一标签表示企业名称的第一个汉字,第二标签表示企业名称的剩余汉字,及第三标签表示不属于企业名称的汉字。
优选地,所述状态向量包括第一隐藏层状态向量和第二隐藏层状态向量;
所述状态向量的计算包括:
调用所述递归神经网络的双向长短期记忆模块,从左向右根据当前词向量的前一个词向量的隐藏层状态向量计算当前词向量的第一隐藏层状态向量,并从右向左根据当前词向量的后一个词向量的隐藏层状态向量计算当前词向量的第二隐藏层状态向量。
所述特征向量的计算包括:通过所述特定的回归模型将每个词向量对应的第一隐藏层状态向量和第二隐藏层状态向量进行合并,得到每个词向量的特征向量。
优选地,所述最佳标签序列通过预定的标签序列计算公式获取,所述预定的标签序列计算公式设置为:
其中,X代表每个词向量的特征向量,y代表待预测的标签序列,n代表所述特定文字序列中的汉字个数,i代表所述特定文字序列中的第i个汉字;
A代表状态转移矩阵,Ayi,yi+1代表从第yi个标签转移到第yi+1个标签的概率,Pi,yi代表第i个汉字被标记为第yi个标签的概率;及
s(X,y)代表衡量每条标签序列的指标,通过最大化s(X,y)得到所述最佳标签序列。
优选地,所述特定企业名称的识别包括:从所述最佳标签序列中提取连续标注的第一标签和所有第二标签对应的汉字,将提取的汉字作为特定企业名称。
此外,为实现上述目的,本发明还提供一种企业名称识别方法,该方法应用于电子设备,所述方法包括:
接收输入的特定文字序列;
将所述特定文字序列中的每个汉字转化为对应的词向量,并将转化后的词向量输入至递归神经网络;
通过所述递归神经网络计算每个词向量的状态向量,并将每个词向量的状态向量输入至条件随机场;
通过特定的回归模型将每个词向量的状态向量转换成特征向量,并利用所述条件随机场和预先设定的三元标注规则,对每个词向量的特征向量进行解码,得到所述特定文字序列中所有汉字的三元标注集,并通过最佳标签序列输出所有汉字的三元标注集;及
根据所述预先设定的三元标注规则,从所述最佳标签序列中识别出特定企业名称。
优选地,所述预先设定的三元标注规则包括:通过第一标签表示企业名称的第一个汉字,第二标签表示企业名称的剩余汉字,及第三标签表示不属于企业名称的汉字。
优选地,所述最佳标签序列通过预定的标签序列计算公式获取,所述预定的标签序列计算公式设置为:
其中,X代表每个词向量的特征向量,y代表待预测的标签序列,n代表所述特定文字序列中的汉字个数,i代表所述特定文字序列中的第i个汉字;
A代表状态转移矩阵,Ayi,yi+1代表从第yi个标签转移到第yi+1个标签的概率,Pi,yi代表第i个汉字被标记为第yi个标签的概率;及
s(X,y)代表衡量每条标签序列的指标,通过最大化s(X,y)得到所述最佳标签序列。
优选地,所述特定企业名称的识别包括:从所述最佳标签序列中提取连续标注的第一标签和所有第二标签对应的汉字,将提取的汉字作为特定企业名称。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有企业名称识别系统,所述企业名称识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的企业名称识别方法的步骤。
相较于现有技术,本发明所提出的电子设备、企业名称识别方法及计算机可读存储介质,通过LSTM+CRF模型的结合,自动提取有效特征,并且在识别企业名称时能够利用上下文信息,在打标签的阶段有效利用了句子级别的标记信息。相比传统序列建模方法,本发明所提出的企业名称识别方法提高了识别精确度与召回率。
附图说明
图1是本发明电子设备一可选的硬件架构的示意图;
图2是本发明电子设备中企业名称识别系统一实施例的程序模块示意图;
图3为本发明企业名称识别方法一实施例的实施流程示意图;
图4为本发明进行企业名称识别的示例图。
附图标记:
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
首先,本发明提出一种电子设备2。
参阅图1所示,是本发明电子设备2一可选的硬件架构的示意图。本实施例中,所述电子设备2可包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23。需要指出的是,图1仅示出了具有组件21-23的电子设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,所述电子设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该电子设备2可以是独立的服务器,也可以是多个服务器所组成的服务器集群。
所述存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子设备2的内部存储单元,例如该电子设备2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子设备2的外部存储设备,例如该电子设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子设备2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子设备2的操作系统和各类应用软件,例如所述企业名称识别系统20的程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子设备2的总体操作,例如执行与所述电子设备2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的企业名称识别系统20等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子设备2与其他电子设备之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子设备2与外部数据平台相连,在所述电子设备2与外部数据平台之间的建立数据传输通道和通信连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例。
参阅图2所示,是本发明电子设备2中企业名称识别系统20一实施例的程序模块图。本实施例中,所述的企业名称识别系统20可以被分割成一个或多个程序模块,所述一个或者多个程序模块被存储于所述存储器21中,并由一个或多个处理器(本实施例中为所述处理器22)所执行,以完成本发明。例如,在图2中,所述的企业名称识别系统20可以被分割成接收模块201、转化模块202、计算模块203、标注模块204、以及识别模块205。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述企业名称识别系统20在所述电子设备2中的执行过程。以下将就各程序模块201-205的功能进行详细描述。
所述接收模块201,用于接收输入的特定文字序列。在本实施例中,所述特定文字序列为中文字符,包括汉字和空格,如新闻句子“中国平安发布了新产品”。
所述转化模块202,用于将所述特定文字序列中的每个汉字转化为对应的词向量xi(i=0,1,2,…n,向量维数为100),并将转化后的词向量输入至递归神经网络(RecurrentNeural Network,RNN)。在本实施例中,所述递归神经网络采用长短期记忆模块(LongShort-Term Memory,LSTM),优选采用双向长短期记忆模块(Bi-directional LSTM)。
所述计算模块203,用于通过所述递归神经网络计算每个词向量的状态向量,并将每个词向量的状态向量输入至条件随机场(Conditional Random Field,CRF)。其中,所述状态向量包括第一隐藏层状态向量和第二隐藏层状态向量。
优选地,在本实施例中,所述状态向量的计算具体包括如下步骤:
调用所述递归神经网络的双向长短期记忆模块LSTM,从左向右根据当前词向量xi的前一个词向量x-i的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据当前词向量xi的后一个词向量x-i+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi'。
上述的第一隐藏层状态向量hi、第二隐藏层状态向量hi'实质是通过LSTM对原输入特定文字序列的特征自动提取,这种提取特征的方式与传统方法有所区别,不依赖于特征的选取、泛化能力较强。
所述标注模块204,用于通过特定的回归模型(如softmax模型)将每个词向量的状态向量转换成特征向量Xi,并利用所述条件随机场和预先设定的三元标注规则,对每个词向量的特征向量Xi进行解码,得到所述特定文字序列中所有汉字的三元标注集(B,I,S),并通过最佳标签序列(用Yi表示)输出所有汉字的三元标注集。
在本实施例中,所述预先设定的三元标注规则包括:通过第一标签(如“B”)表示企业名称的第一个汉字,第二标签(如“I”)表示企业名称的剩余汉字,第三标签(如“S”)表示不属于企业名称的汉字。
优选地,在本实施例中,所述将每个词向量的状态向量转换成特征向量Xi包括:通过特定的回归模型(如softmax模型)将每个词向量对应的第一隐藏层状态向量hi和第二隐藏层状态向量hi'进行合并,得到每个词向量的特征向量Xi。
优选地,在本实施例中,所述最佳标签序列Yi通过预定的标签序列计算公式(如下公式1)获取。
其中,X代表每个词向量的特征向量Xi集合,即X=(X1,X2,…,Xn),y代表待预测的标签序列,即y=(y1,y2,…,yn),n代表所述特定文字序列中的汉字个数(n>=1),s(X,y)计算公式中i代表所述特定文字序列中的第i个汉字(i>=1),s(X,y)代表衡量每条标签序列的指标,通过最大化s(X,y)得到所述最佳标签序列Yi。
A代表状态转移矩阵,Ayi,yi+1代表从第yi个标签转移到第yi+1个标签的概率,Pi,yi代表第i个汉字被标记为第yi个标签的概率。
在本实施例中,对于输入Xi,可以定义LSTM的输出概率矩阵P{n*k},其中,n代表所述特定文字序列中的汉字个数(n>=1),k代表输出标签的个数(本实施例中,k=3),即所述三元标注集(B,I,S)的标签个数。
本实施例中引入的CRF,其实是对输出标签三元组进行建模,然后使用动态规划进行计算,最终根据得到的最优路径进行标注,即通过最大化s(X,y)得到所述最佳标签序列Yi。
所述识别模块205,用于根据所述预先设定的三元标注规则,从所述最佳标签序列中识别出特定企业名称。优选地,所述特定企业名称的识别包括:从所述最佳标签序列中提取连续标注的第一标签和所有第二标签对应的汉字,将提取的汉字作为特定企业名称。
举例而言,参阅图4所示,假设输入的特定文字序列为“中国平安发布了新产品”,通过本发明采用的LSTM+CRF模型输出的最佳标签序列为{B,I,I,I,S,S,S,S,S,S},即表示从特定文字序列中识别的企业名称为“中国平安”,即连续标注的第一标签和所有第二标签(B,I,I,I)对应的汉字。在图4的例子中,LSTM+CRF模型最后一步通过最优化s(X,y)来得到最佳标签序列{B,I,I,I,S,S,S,S,S,S},即最佳标签序列{B,I,I,I,S,S,S,S,S,S}的s(X,y)比其他序列的s(X,y)都要大,所以确定{B,I,I,I,S,S,S,S,S,S}为最佳标签序列。其中,{B,I,I,I}就代表中国平安这四个字是企业名称,因为根据所述预先设定的三元标注规则,B表示企业名称的第一个汉字,I表示企业名称的剩余汉字,S表示不属于企业名称的汉字。
需要说明的是,本发明所采用的方法适用于模型训练及模型应用。模型训练的过程中,企业全称为样本数据,模型的输出结果(企业简称)为已知的参考数据。经过大量的样本数据逐步对LSTM模型进行训练,得到模型的空间维度、系数矩阵等参数或变量,再根据已知的参考数据对模型进行调整,直到训练得到较为可靠的模型。模型应用的时候,将待确定的句子输入模型,即可预测其中包含的企业名称。
通过上述程序模块201-205,本发明所提出的企业名称识别系统20,通过LSTM+CRF模型的结合,可以自动提取有效特征,并且在识别企业名称时能够利用上下文信息,在打标签的阶段有效利用了句子级别的标记信息。相比传统序列建模方法,本发明所提出的企业名称识别方法提高了识别精确度与召回率。
此外,本发明还提出一种企业名称识别方法。
参阅图3所示,是本发明企业名称识别方法一实施例的实施流程示意图。在本实施例中,根据不同的需求,图3所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S31,接收输入的特定文字序列。在本实施例中,所述特定文字序列为中文字符,包括汉字和空格,如新闻句子“中国平安发布了新产品”。
步骤S32,将所述特定文字序列中的每个汉字转化为对应的词向量xi(i=0,1,2,…n,向量维数为100),并将转化后的词向量输入至递归神经网络(Recurrent NeuralNetwork,RNN)。在本实施例中,所述递归神经网络采用长短期记忆模块(Long Short-TermMemory,LSTM),优选采用双向长短期记忆模块(Bi-directional LSTM)。
步骤S33,通过所述递归神经网络计算每个词向量的状态向量,并将每个词向量的状态向量输入至条件随机场(Conditional Random Field,CRF)。其中,所述状态向量包括第一隐藏层状态向量和第二隐藏层状态向量。
优选地,在本实施例中,所述状态向量的计算具体包括如下步骤:
调用所述递归神经网络的双向长短期记忆模块LSTM,从左向右根据当前词向量xi的前一个词向量x-i的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据当前词向量xi的后一个词向量x-i+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi'。
上述的第一隐藏层状态向量hi、第二隐藏层状态向量hi'实质是通过LSTM对原输入特定文字序列的特征自动提取,这种提取特征的方式与传统方法有所区别,不依赖于特征的选取、泛化能力较强。
步骤S34,通过特定的回归模型(如softmax模型)将每个词向量的状态向量转换成特征向量Xi,并利用所述条件随机场和预先设定的三元标注规则,对每个词向量的特征向量Xi进行解码,得到所述特定文字序列中所有汉字的三元标注集(B,I,S),并通过最佳标签序列(用Yi表示)输出所有汉字的三元标注集。
在本实施例中,所述预先设定的三元标注规则包括:通过第一标签(如“B”)表示企业名称的第一个汉字,第二标签(如“I”)表示企业名称的剩余汉字,第三标签(如“S”)表示不属于企业名称的汉字。
优选地,在本实施例中,所述将每个词向量的状态向量转换成特征向量Xi包括:通过特定的回归模型(如softmax模型)将每个词向量对应的第一隐藏层状态向量hi和第二隐藏层状态向量hi'进行合并,得到每个词向量的特征向量Xi。
优选地,在本实施例中,所述最佳标签序列Yi通过预定的标签序列计算公式(如下公式1)获取。
其中,X代表每个词向量的特征向量Xi集合,即X=(X1,X2,…,Xn),y代表待预测的标签序列,即y=(y1,y2,…,yn),n代表所述特定文字序列中的汉字个数(n>=1),s(X,y)计算公式中i代表所述特定文字序列中的第i个汉字(i>=1),s(X,y)代表衡量每条标签序列的指标,通过最大化s(X,y)得到所述最佳标签序列Yi。
A代表状态转移矩阵,Ayi,yi+1代表从第yi个标签转移到第yi+1个标签的概率,Pi,yi代表第i个汉字被标记为第yi个标签的概率。
在本实施例中,对于输入Xi,可以定义LSTM的输出概率矩阵P{n*k},其中,n代表所述特定文字序列中的汉字个数(n>=1),k代表输出标签的个数(本实施例中,k=3),即所述三元标注集(B,I,S)的标签个数。
本实施例中引入的CRF,其实是对输出标签三元组进行建模,然后使用动态规划进行计算,最终根据得到的最优路径进行标注,即通过最大化s(X,y)得到所述最佳标签序列Yi。
步骤S35,根据所述预先设定的三元标注规则,从所述最佳标签序列中识别出特定企业名称。优选地,所述特定企业名称的识别包括:从所述最佳标签序列中提取连续标注的第一标签和所有第二标签对应的汉字,将提取的汉字作为特定企业名称。
举例而言,参阅图4所示,假设输入的特定文字序列为“中国平安发布了新产品”,通过本发明采用的LSTM+CRF模型输出的最佳标签序列为{B,I,I,I,S,S,S,S,S,S},即表示从特定文字序列中识别的企业名称为“中国平安”,即连续标注的第一标签和所有第二标签(B,I,I,I)对应的汉字。在图4的例子中,LSTM+CRF模型最后一步通过最优化s(X,y)来得到最佳标签序列{B,I,I,I,S,S,S,S,S,S},即最佳标签序列{B,I,I,I,S,S,S,S,S,S}的s(X,y)比其他序列的s(X,y)都要大,所以确定{B,I,I,I,S,S,S,S,S,S}为最佳标签序列。其中,{B,I,I,I}就代表中国平安这四个字是企业名称,因为根据所述预先设定的三元标注规则,B表示企业名称的第一个汉字,I表示企业名称的剩余汉字,S表示不属于企业名称的汉字。
需要说明的是,本发明所采用的方法适用于模型训练及模型应用。模型训练的过程中,企业全称为样本数据,模型的输出结果(企业简称)为已知的参考数据。经过大量的样本数据逐步对LSTM模型进行训练,得到模型的空间维度、系数矩阵等参数或变量,再根据已知的参考数据对模型进行调整,直到训练得到较为可靠的模型。模型应用的时候,将待确定的句子输入模型,即可预测其中包含的企业名称。
通过上述步骤S31-S35,本发明所提出的企业名称识别方法,通过LSTM+CRF模型的结合,可以自动提取有效特征,并且在识别企业名称时能够利用上下文信息,在打标签的阶段有效利用了句子级别的标记信息。相比传统序列建模方法,本发明所提出的企业名称识别方法提高了识别精确度与召回率。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质(如ROM/RAM、磁碟、光盘),所述计算机可读存储介质存储有企业名称识别系统20,所述企业名称识别系统20可被至少一个处理器22执行,以使所述至少一个处理器22执行如上所述的企业名称识别方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的企业名称识别系统,所述企业名称识别系统被所述处理器执行时实现如下步骤:
接收输入的特定文字序列;
将所述特定文字序列中的每个汉字转化为对应的词向量,并将转化后的词向量输入至递归神经网络;
通过所述递归神经网络计算每个词向量的状态向量,并将每个词向量的状态向量输入至条件随机场;
通过特定的回归模型将每个词向量的状态向量转换成特征向量,并利用所述条件随机场和预先设定的三元标注规则,对每个词向量的特征向量进行解码,得到所述特定文字序列中所有汉字的三元标注集,并通过最佳标签序列输出所有汉字的三元标注集;及
根据所述预先设定的三元标注规则,从所述最佳标签序列中识别出特定企业名称。
2.如权利要求1所述的电子设备,其特征在于,所述预先设定的三元标注规则包括:通过第一标签表示企业名称的第一个汉字,第二标签表示企业名称的剩余汉字,及第三标签表示不属于企业名称的汉字。
3.如权利要求2所述的电子设备,其特征在于,所述状态向量包括第一隐藏层状态向量和第二隐藏层状态向量;
所述状态向量的计算包括:
调用所述递归神经网络的双向长短期记忆模块,从左向右根据当前词向量的前一个词向量的隐藏层状态向量计算当前词向量的第一隐藏层状态向量,并从右向左根据当前词向量的后一个词向量的隐藏层状态向量计算当前词向量的第二隐藏层状态向量。
所述特征向量的计算包括:通过所述特定的回归模型将每个词向量对应的第一隐藏层状态向量和第二隐藏层状态向量进行合并,得到每个词向量的特征向量。
4.如权利要求2所述的电子设备,其特征在于,所述最佳标签序列通过预定的标签序列计算公式获取,所述预定的标签序列计算公式为:
<mrow>
<mi>s</mi>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>A</mi>
<mrow>
<mi>y</mi>
<mi>i</mi>
<mo>,</mo>
<mi>y</mi>
<mi>i</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>P</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>y</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>;</mo>
</mrow>
其中,X代表每个词向量的特征向量,y代表待预测的标签序列,n代表所述特定文字序列中的汉字个数,i代表所述特定文字序列中的第i个汉字;
A代表状态转移矩阵,Ayi,yi+1代表从第yi个标签转移到第yi+1个标签的概率,Pi,yi代表第i个汉字被标记为第yi个标签的概率;及
s(X,y)代表衡量每条标签序列的指标,通过最大化s(X,y)得到所述最佳标签序列。
5.如权利要求2所述的电子设备,其特征在于,所述特定企业名称的识别包括:从所述最佳标签序列中提取连续标注的第一标签和所有第二标签对应的汉字,将提取的汉字作为特定企业名称。
6.一种企业名称识别方法,应用于电子设备,其特征在于,所述方法包括:
接收输入的特定文字序列;
将所述特定文字序列中的每个汉字转化为对应的词向量,并将转化后的词向量输入至递归神经网络;
通过所述递归神经网络计算每个词向量的状态向量,并将每个词向量的状态向量输入至条件随机场;
通过特定的回归模型将每个词向量的状态向量转换成特征向量,并利用所述条件随机场和预先设定的三元标注规则,对每个词向量的特征向量进行解码,得到所述特定文字序列中所有汉字的三元标注集,并通过最佳标签序列输出所有汉字的三元标注集;及
根据所述预先设定的三元标注规则,从所述最佳标签序列中识别出特定企业名称。
7.如权利要求6所述的企业名称识别方法,其特征在于,所述预先设定的三元标注规则包括:通过第一标签表示企业名称的第一个汉字,第二标签表示企业名称的剩余汉字,及第三标签表示不属于企业名称的汉字。
8.如权利要求7所述的企业名称识别方法,其特征在于,所述最佳标签序列通过预定的标签序列计算公式获取,所述预定的标签序列计算公式为:
<mrow>
<mi>s</mi>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>A</mi>
<mrow>
<mi>y</mi>
<mi>i</mi>
<mo>,</mo>
<mi>y</mi>
<mi>i</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>P</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>y</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>;</mo>
</mrow>
其中,X代表每个词向量的特征向量,y代表待预测的标签序列,n代表所述特定文字序列中的汉字个数,i代表所述特定文字序列中的第i个汉字;
A代表状态转移矩阵,Ayi,yi+1代表从第yi个标签转移到第yi+1个标签的概率,Pi,yi代表第i个汉字被标记为第yi个标签的概率;及
s(X,y)代表衡量每条标签序列的指标,通过最大化s(X,y)得到所述最佳标签序列。
9.如权利要求7所述的企业名称识别方法,其特征在于,所述特定企业名称的识别包括:从所述最佳标签序列中提取连续标注的第一标签和所有第二标签对应的汉字,将提取的汉字作为特定企业名称。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有企业名称识别系统,所述企业名称识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求6-9中任一项所述的企业名称识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710960222.1A CN107797989A (zh) | 2017-10-16 | 2017-10-16 | 企业名称识别方法、电子设备及计算机可读存储介质 |
PCT/CN2018/076164 WO2019075967A1 (zh) | 2017-10-16 | 2018-02-10 | 企业名称识别方法、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710960222.1A CN107797989A (zh) | 2017-10-16 | 2017-10-16 | 企业名称识别方法、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107797989A true CN107797989A (zh) | 2018-03-13 |
Family
ID=61533188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710960222.1A Pending CN107797989A (zh) | 2017-10-16 | 2017-10-16 | 企业名称识别方法、电子设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107797989A (zh) |
WO (1) | WO2019075967A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726266A (zh) * | 2018-12-21 | 2019-05-07 | 珠海市小源科技有限公司 | 短信签名处理方法、设备及计算机可读存储介质 |
CN109726397A (zh) * | 2018-12-27 | 2019-05-07 | 网易(杭州)网络有限公司 | 中文命名实体的标注方法、装置、存储介质和电子设备 |
CN109815952A (zh) * | 2019-01-24 | 2019-05-28 | 珠海市筑巢科技有限公司 | 品牌名称识别方法、计算机装置及计算机可读存储介质 |
CN109885702A (zh) * | 2019-01-17 | 2019-06-14 | 哈尔滨工业大学(深圳) | 自然语言处理中的序列标注方法、装置、设备及存储介质 |
CN110516241A (zh) * | 2019-08-26 | 2019-11-29 | 北京三快在线科技有限公司 | 地理地址解析方法、装置、可读存储介质及电子设备 |
CN110555182A (zh) * | 2018-05-31 | 2019-12-10 | 中国电信股份有限公司 | 用户画像的确定方法、装置及计算机可读存储介质 |
CN111209392A (zh) * | 2018-11-20 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 污染企业的挖掘方法、装置及设备 |
CN111507108A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 别名生成方法、装置、电子设备及计算机可读存储介质 |
CN111914535A (zh) * | 2020-07-31 | 2020-11-10 | 平安科技(深圳)有限公司 | 一种单词识别方法、装置、计算机设备和存储介质 |
CN112925961A (zh) * | 2019-12-06 | 2021-06-08 | 北京海致星图科技有限公司 | 一种基于企业实体的智能问答方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975555A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的企业简称提取方法 |
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
CN106980609A (zh) * | 2017-03-21 | 2017-07-25 | 大连理工大学 | 一种基于词向量表示的条件随机场的命名实体识别方法 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
CN107203511A (zh) * | 2017-05-27 | 2017-09-26 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10395118B2 (en) * | 2015-10-29 | 2019-08-27 | Baidu Usa Llc | Systems and methods for video paragraph captioning using hierarchical recurrent neural networks |
-
2017
- 2017-10-16 CN CN201710960222.1A patent/CN107797989A/zh active Pending
-
2018
- 2018-02-10 WO PCT/CN2018/076164 patent/WO2019075967A1/zh active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975555A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的企业简称提取方法 |
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
CN106980609A (zh) * | 2017-03-21 | 2017-07-25 | 大连理工大学 | 一种基于词向量表示的条件随机场的命名实体识别方法 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
CN107203511A (zh) * | 2017-05-27 | 2017-09-26 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
Non-Patent Citations (2)
Title |
---|
ZHIHENG HUANG,ET AL.: "Bidirectional LSTM-CRF Models for Sequence Tagging", 《ARXIV:ORG》 * |
徐冰等: "基于浅层句法特征的评价对象抽取研究", 《自动化学报》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555182A (zh) * | 2018-05-31 | 2019-12-10 | 中国电信股份有限公司 | 用户画像的确定方法、装置及计算机可读存储介质 |
CN111209392A (zh) * | 2018-11-20 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 污染企业的挖掘方法、装置及设备 |
CN109726266A (zh) * | 2018-12-21 | 2019-05-07 | 珠海市小源科技有限公司 | 短信签名处理方法、设备及计算机可读存储介质 |
CN109726397A (zh) * | 2018-12-27 | 2019-05-07 | 网易(杭州)网络有限公司 | 中文命名实体的标注方法、装置、存储介质和电子设备 |
CN109726397B (zh) * | 2018-12-27 | 2024-02-02 | 网易(杭州)网络有限公司 | 中文命名实体的标注方法、装置、存储介质和电子设备 |
CN109885702A (zh) * | 2019-01-17 | 2019-06-14 | 哈尔滨工业大学(深圳) | 自然语言处理中的序列标注方法、装置、设备及存储介质 |
CN109815952A (zh) * | 2019-01-24 | 2019-05-28 | 珠海市筑巢科技有限公司 | 品牌名称识别方法、计算机装置及计算机可读存储介质 |
CN110516241A (zh) * | 2019-08-26 | 2019-11-29 | 北京三快在线科技有限公司 | 地理地址解析方法、装置、可读存储介质及电子设备 |
CN112925961A (zh) * | 2019-12-06 | 2021-06-08 | 北京海致星图科技有限公司 | 一种基于企业实体的智能问答方法及装置 |
CN111507108A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 别名生成方法、装置、电子设备及计算机可读存储介质 |
CN111507108B (zh) * | 2020-04-17 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 别名生成方法、装置、电子设备及计算机可读存储介质 |
CN111914535A (zh) * | 2020-07-31 | 2020-11-10 | 平安科技(深圳)有限公司 | 一种单词识别方法、装置、计算机设备和存储介质 |
CN111914535B (zh) * | 2020-07-31 | 2023-03-24 | 平安科技(深圳)有限公司 | 一种单词识别方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019075967A1 (zh) | 2019-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107797989A (zh) | 企业名称识别方法、电子设备及计算机可读存储介质 | |
CN109815339A (zh) | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 | |
CN107844634A (zh) | 多元通用模型平台建模方法、电子设备及计算机可读存储介质 | |
CN108629043A (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN110110726A (zh) | 电力设备铭牌识别方法、装置、计算机设备和存储介质 | |
CN107818491A (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
CN110321426B (zh) | 摘要抽取方法、装置及计算机设备 | |
CN106067019A (zh) | 针对图像进行文字识别的方法及装置 | |
CN113704429A (zh) | 基于半监督学习的意图识别方法、装置、设备及介质 | |
CN107844468A (zh) | 表格信息跨页识别方法、电子设备及计算机可读存储介质 | |
CN115392237B (zh) | 情感分析模型训练方法、装置、设备及存储介质 | |
CN113468338A (zh) | 针对数字化云业务的大数据分析方法及大数据服务器 | |
CN113989549A (zh) | 一种基于伪标签的半监督学习图像分类优化方法及系统 | |
CN111091004A (zh) | 一种语句实体标注模型的训练方法、训练装置及电子设备 | |
CN115099326A (zh) | 基于人工智能的行为预测方法、装置、设备及存储介质 | |
CN107688651A (zh) | 新闻情感方向判断方法、电子设备及计算机可读存储介质 | |
CN107766322A (zh) | 同名实体识别方法、电子设备及计算机可读存储介质 | |
JP2022082524A (ja) | 機械学習を通じての学習モデルを使った情報提供方法および装置 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN113344125A (zh) | 长文本匹配识别方法、装置、电子设备及存储介质 | |
CN111754352A (zh) | 一种观点语句正确性的判断方法、装置、设备和存储介质 | |
CN115952800A (zh) | 命名实体识别方法、装置、计算机设备及可读存储介质 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
CN113705201B (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 | |
CN109978607A (zh) | 广告推荐方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180313 |
|
RJ01 | Rejection of invention patent application after publication |