CN107943788B - 企业简称生成方法、装置及存储介质 - Google Patents

企业简称生成方法、装置及存储介质 Download PDF

Info

Publication number
CN107943788B
CN107943788B CN201711141756.8A CN201711141756A CN107943788B CN 107943788 B CN107943788 B CN 107943788B CN 201711141756 A CN201711141756 A CN 201711141756A CN 107943788 B CN107943788 B CN 107943788B
Authority
CN
China
Prior art keywords
vector
hidden layer
word
enterprise
layer state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711141756.8A
Other languages
English (en)
Other versions
CN107943788A (zh
Inventor
徐冰
汪伟
罗傲雪
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201711141756.8A priority Critical patent/CN107943788B/zh
Priority to PCT/CN2018/076127 priority patent/WO2019095568A1/zh
Publication of CN107943788A publication Critical patent/CN107943788A/zh
Application granted granted Critical
Publication of CN107943788B publication Critical patent/CN107943788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种企业简称生成方法、装置及存储介质,该方法包括:从企业全称中依次提取出每个汉字;得到企业全称中每个字的词向量xi;使用长短期记忆模块从左向右根据前一个词向量xi‑1的隐藏层状态向量hi‑1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’;利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码,得到企业全称中所有汉字的二元标注集,根据二元标注集中的标注生成企业全称的企业简称。本发明通过对文本的字进行特征的自动学习,生成有效的企业简称,有利于对新闻中企业实体的识别。

Description

企业简称生成方法、装置及存储介质
技术领域
本发明涉及数据分析领域,尤其涉及一种企业简称生成方法、装置及计算机可读存储介质。
背景技术
在新闻中,企业的名称往往以企业简称出现。然而,由于企业简称用字规律不强与随意性,对我们识别企业带来了困难。例如,“华米信息科技有限公司”的简称在新闻中有时以“华米信息”出现,有时以“华米科技”出现,使我们在新闻中对华米信息科技有限公司的识别带来了困难。同时,也无法人工总结出完备的企业简称构成规则。
目前,使用序列建模的方法,如条件随机场,对企业名称生成企业简称。这种方法对特征模板的选取具有很强的依赖性(即输入序列的前后依赖关系),容易出现神经网络梯度消失的问题。
发明内容
鉴于以上内容,本发明提供一种企业简称生成方法、装置及计算机可读存储介质,其主要目的在于有效地处理输入序列的前后依赖关系,解决神经网络梯度消失的问题,生成有效的企业简称。
为实现上述目的,本发明提供一种企业简称生成方法,该方法包括:
提取步骤:从企业全称中依次提取出每个汉字,作为循环神经网络第一层的模型输入;
生成步骤:得到企业全称中每个字的词向量xi,作为循环神经网络第二层的模型输入,其中i=(1,2,…,n);
计算步骤:在循环神经网络的第三层,使用长短期记忆模块从左向右根据前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’;
解码步骤:利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码,得到企业全称中所有汉字的二元标注集,根据二元标注集中的标注生成企业全称的企业简称。
优选地,所述生成步骤包括:
将提取出的汉字以one-hot向量的方法表示,得到初始词向量,将企业全称中的每个词的左、右邻接词的初始词向量输入Word2Vec模型,预测得到该词的词向量xi,直至预测得到该企业全称中每个字的词向量。
优选地,所述one-hot向量的方法是指把每个词表示为一个多维的向量,向量的维度表示词的个数,其中只有一个维度的值为1,其余维度为0,该向量就代表当前词。
优选地,所述解码步骤中利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码是指:根据每个汉字对应的第一隐藏层状态向量hi、第二隐藏层状态向量hi’计算得到该汉字对应的隐藏层状态向量的平均向量,利用条件随机场对该平均向量进行解码。
可选地,所述解码步骤中利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码是指:将每个汉字对应的第一隐藏层状态向量hi、第二隐藏层状态向量hi’拼接成一个加强向量,利用条件随机场对该加强向量进行解码。
此外,本发明还提供一种电子装置,该电子装置包括:存储器、处理器及显示器,所述存储器上存储企业简称生成程序,所述企业简称生成程序被所述处理器执行,可实现如下步骤:
提取步骤:从企业全称中依次提取出每个汉字,作为循环神经网络第一层的模型输入;
生成步骤:得到企业全称中每个字的词向量xi,作为循环神经网络第二层的模型输入,其中i=(1,2,…,n);
计算步骤:在循环神经网络的第三层,使用长短期记忆模块从左向右根据前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’;
解码步骤:利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码,得到企业全称中所有汉字的二元标注集,根据二元标注集中的标注生成企业全称的企业简称。
优选地,所述生成步骤包括:
将提取出的汉字以one-hot向量的方法表示,得到初始词向量,将企业全称中的每个词的左、右邻接词的初始词向量输入Word2Vec模型,预测得到该词的词向量xi,直至预测得到该企业全称中每个字的词向量。
优选地,所述one-hot向量的方法是指把每个词表示为一个多维的向量,向量的维度表示词的个数,其中只有一个维度的值为1,其余维度为0,该向量就代表当前词。
优选地,所述解码步骤中利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码是指:根据每个汉字对应的第一隐藏层状态向量hi、第二隐藏层状态向量hi’计算得到该汉字对应的隐藏层状态向量的平均向量,利用条件随机场对该平均向量进行解码。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括企业简称生成程序,所述企业简称生成程序被处理器执行时,可实现如上所述企业简称生成方法中的任意步骤。
本发明提出的企业简称生成方法、电子装置及计算机可读存储介质,利用企业全称对循环神经网络模型进行训练,得到可靠的模型,再将待测的企业全称输入训练好的模型中,得到企业全称中所有汉字的二元标注集,根据二元标注集中的标注生成该企业全称对应的企业简称,有效地处理输入序列的前后依赖关系,提高对新闻中企业实体的识别。
附图说明
图1为本发明电子装置较佳实施例的示意图;
图2为图1中企业简称生成程序较佳实施例的模块示意图;
图3为本发明企业简称生成方法较佳实施例的流程图;
图4为RNN模型的示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,是本发明电子装置1较佳实施例的示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、个人电脑、便携计算机以及其他具有运算功能的电子设备。
该电子装置1包括:存储器11、处理器12、显示器13、网络接口14及通信总线15。其中,网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。通信总线15用于实现这些组件之间的连接通信。
存储器11至少包括一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述存储器11可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述存储器11也可以是所述电子装置1的外部存储单元,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card,FC)等。
在本实施例中,所述存储器11不仅可以用于存储安装于所述电子装置1的应用软件及各类数据,例如企业简称生成程序10、企业简称库,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其它数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行企业简称生成程序10的计算机程序代码及循环神经网络(Recurrent NeuralNetwork,RNN)模型和长短期记忆模块(Long Short-Term Memory,LSTM)模型的训练等。
显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的工作界面,如:显示生成的企业简称。
优选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中存储企业简称生成程序10的程序代码,处理器12执行企业简称生成程序10的程序代码时,实现如下步骤:
提取步骤:从企业全称中依次提取出每个汉字,作为循环神经网络(RecurrentNeural Network,RNN)第一层的模型输入;
生成步骤:得到企业全称中每个字的词向量xi,作为RNN第二层的模型输入,其中i=(1,2,…,n);
计算步骤:在RNN的第三层,使用长短期记忆模块(Long Short-Term Memory,LSTM)从左向右根据前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’;
解码步骤:利用条件随机场(Conditional Random Field,CRF)对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码,得到企业全称中所有汉字的二元标注集,根据二元标注集中的标注生成企业全称的企业简称。
本实施例中,当需要根据企业全称生成有效的企业简称时,获取企业全称,从企业全称中依次提取出每个汉字,作为RNN第一层的模型输入。例如,需要生成“佳虹通信技术有限公司”的企业简称时,获取公司全称“佳虹通信技术有限公司”,依次从“佳虹通信技术有限公司”中提取出每个汉字,得到如下结果“佳”、“虹”、“通”、“信”、“技”、“术”、“有”、“限”、“公”、“司”,作为RNN第一层的模型输入。
将提取出的每个汉字以one-hot向量的方法表示,得到初始词向量。其中one-hot向量的方法是指把每个词表示为一个多维的向量,向量的维度表示词的个数,其中只有一个维度的值为1,其余维度为0,该向量代表当前词。例如,“佳”的初始词向量为[1000000000]、“虹”的初始词向量为[0100000000]。然后将企业全称中的每个字的左、右邻接字的初始词向量输入Word2Vec模型,预测得到该词的词向量xi,直至预测得到该企业全称中每个字的词向量。例如,提取出企业全称“佳虹通信技术有限公司”后,将“虹”的左邻接字“佳”、右邻接字“通”的初始词向量输入Word2Vec模型,预测得到“虹”的词向量x2;将“通”的左邻接字“虹”的初始词向量或当前词向量、右邻接字“信”的初始词向量输入Word2Vec模型,预测得到“通”的词向量x3……如此迭代训练,直至预测得到上述所有字的词向量xi,i=(0,1,2,…,n),作为RNN第二层的模型输入。
在RNN模型的第三层,接着用LSTM从左向右根据当前词向量xi的前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据当前词向量xi的后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’。例如,“佳虹通信技术有限公司”句子中,用LSTM从左向右根据“佳”的词向量x1的隐藏层状态向量h1计算“虹”的词向量x2的第一隐藏层状态向量h2,并从右向左根据“通”的词向量x3的隐藏层状态向量h3计算“虹”的词向量x2的第二隐藏层状态向量h2’。
其中,当我们需要得到词向量x1的第一隐藏层状态向量h1时,则词向量x1的前一个词向量为词向量xn(假设该企业全称有n个汉字)。同理,词向量xn的后一个词向量为词向量x1。例如,企业全称“佳虹通信技术有限公司”中,“佳”的词向量x1的前一个词向量为“司”的词向量x10。“司”的词向量x10的后一个词向量为“佳”的词向量x1
根据每个汉字对应的第一隐藏层状态向量hi和二隐藏层状态向量hi’计算得到该汉字对应的隐藏层状态向量的平均向量,再利用CFR对该平均向量进行解码,得到企业全称中所有汉字的二元标注集,根据二元标注集中的标注生成企业全称的企业简称。例如,根据RNN模型第三层计算得到的每个汉字对应的第一隐藏层状态向量hi和二隐藏层状态向量hi’,利用Average函数对每个汉字对应的第一隐藏层状态向量hi和二隐藏层状态向量hi’进行计算得到该汉字对应的隐藏层状态向量的平均向量,再利用CFR对该平均向量进行解码,得到“佳虹通信技术有限公司”对应的二元标注集:{B,B,B,B,I,I,I,I,I,I},其中B表示这个字属于简称的部分,I表示这个字不计入简称部分。再将二元标注集:{B,B,B,B,I,I,I,I,I,I}中的标注去掉I标注,留下B标注,得到{B,B,B,B},即生成的简称为“佳虹通信”。
可选地,在其他实施例中,还可以通过Concatenate函数将每个汉字对应的第一隐藏层状态向量hi和二隐藏层状态向量hi’拼接成该汉字的加强隐藏层状态向量,再利用CFR对该加强向量进行解码。
上述实施例提出的企业简称生成方法为模型应用的过程,该方法同样适用于模型的训练。在模型训练的过程中,企业全称为样本数据,模型的输出结果(企业简称或二元标注集)为已知的参考数据。经过大量的样本数据对RRN模型进行训练,调整模型的空间维度、系数等变量,直到训练得到可靠的模型。
上述实施例提出的企业简称生成方法,通过从企业全称中依次提取出每个汉字并转化为词向量xi,使用LSTM从左向右计算出xi的第一隐藏层状态向量hi,在从右向左计算出xi的第二隐藏层hi’,最后利用CRF对第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行解码,得到企业全称的所有汉字的二元标注集,生成有效的企业简称,使得企业简称靠谱有效,方便在新闻中对企业实体的识别。
如图2所示,是图1中企业简称生成程序较佳实施例的模块示意图。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
在本实施例中,企业简称生成程序10包括:提取模块110、生成模块120、计算模块130、解码模块140,所述模块110-140所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
提取模块110,用于从企业全称中依次提取出每个汉字,作为循环神经网络第一层的模型输入;
生成模块120,用于得到企业全称中每个字的词向量xi,作为循环神经网络第二层的模型输入,其中i=(1,2,…,n);
计算模块130,用于在循环神经网络的第三层,使用长短期记忆模块从左向右根据前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’;
解码模块140,用于利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码,得到企业全称中所有汉字的二元标注集,根据二元标注集中的标注生成企业全称的企业简称。
如图3所示,是本发明企业简称生成方法较佳实施例的流程图。
在本实施例中,处理器12执行存储器11中存储的企业简称生成程序10的计算机程序时实现企业简称生成方法的如下步骤:
步骤S10,从企业全称中依次提取出每个汉字,作为循环神经网络第一层的模型输入;
步骤S20,得到企业全称中每个字的词向量xi,作为循环神经网络第二层的模型输入,其中i=(1,2,…,n);
步骤S30,在循环神经网络的第三层,使用长短期记忆模块从左向右根据前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’;
步骤S40,利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码,得到企业全称中所有汉字的二元标注集,根据二元标注集中的标注生成企业全称的企业简称。
本实施例中,当需要根据企业全称生成有效的企业简称时,获取企业全称,从企业全称中依次提取出每个汉字,作为RNN第一层的模型输入。如图4所示,是RNN模型的示意图。例如,需要生成“佳虹通信技术有限公司”的企业简称时,依次从“佳虹通信技术有限公司”中提取每个汉字,得到如下结果“佳”、“虹”、“通”、“信”、“技”、“术”、“有”、“限”、“公”、“司”,作为RNN第一层的模型输入。
将提取出的每个汉字以one-hot向量的方法表示,得到初始词向量。其中one-hot向量的方法是指把每个词表示为一个多维的向量,向量的维度表示词的个数,其中只有一个维度的值为1,其余维度为0,该向量代表当前词。例如,“佳”的初始词向量为[1000000000]、“虹”的初始词向量为[0100000000]。然后将企业全称中的每个字的左、右邻接字的初始词向量输入Word2Vec模型中,预测得到该词的词向量xi,直至预测得到该企业全称中每个字的词向量。例如,将“虹”的左邻接字“佳”、右邻接字“通”的初始词向量输入Word2Vec模型中,预测得到“虹”的词向量x2;将“通”的左邻接字“虹”的初始词向量或当前词向量、右邻接字“信”的初始词向量输入Word2Vec模型,预测得到“通”的词向量x3……如此迭代训练,直至预测得到上述所有字的词向量xi,i=(0,1,2,…,n),作为RNN第二层的模型输入。
在RNN模型的第三层,接着用LSTM从左向右根据当前词向量xi的前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据当前词向量xi的后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’。例如,“佳虹通信技术有限公司”句子中,用LSTM从左向右根据“佳”的词向量x1的隐藏层状态向量h1计算“虹”的词向量x2的第一隐藏层状态向量h2,并从右向左根据“通”的词向量x3的隐藏层状态向量h3计算“虹”的词向量x2的第二隐藏层状态向量h2’。
其中,当我们需要得到词向量x1的第一隐藏层状态向量h1时,则词向量x1的前一个词向量为词向量xn(假设该企业全称有n个汉字)。同理,词向量xn的后一个词向量为词向量x1。例如,企业全称“佳虹通信技术有限公司”中,“佳”的词向量x1的前一个词向量为“司”的词向量x10。“司”的词向量x10的后一个词向量为“佳”的词向量x1
根据每个汉字对应的第一隐藏层状态向量hi和二隐藏层状态向量hi’计算得到该汉字对应的隐藏层状态向量的平均向量,再利用CFR对该平均向量进行解码,得到企业全称中所有汉字的二元标注集,根据二元标注集中的标注生成企业全称的企业简称。例如,根据RNN模型第三层计算得到的每个汉字对应的第一隐藏层状态向量hi和二隐藏层状态向量hi’,利用Average函数对每个汉字对应的第一隐藏层状态向量hi和二隐藏层状态向量hi’进行计算得到该汉字对应的隐藏层状态向量的平均向量,再利用CFR对该平均向量进行解码,得到“佳虹通信技术有限公司”对应的二元标注集:{B,B,B,B,I,I,I,I,I,I},其中B表示这个字属于简称的部分,I表示这个字不计入简称部分。再将二元标注集:{B,B,B,B,I,I,I,I,I,I}中的标注去掉I标注,留下B标注,得到{B,B,B,B},即生成的简称为“佳虹通信”。
其中,所述CFR指给定一组输入随机变量条件下,求另一组输出随机变量的条件概率分布的模型。所述的CFR模型是预先训练好的,通过将样本数据中的平均向量及其对应的二元标注集输入代入到模型中训练,调整模型系数,直到训练得到可靠的CFR模型。
可选地,在其他实施例中,还可以通过Concatenate函数将每个汉字对应的第一隐藏层状态向量hi和二隐藏层状态向量hi’拼接成该汉字的加强隐藏层状态向量,再利用CFR对该加强向量进行解码。
上述实施例提出的企业简称生成方法为模型应用的过程,该方法同样适用于模型的训练。在模型训练的过程中,企业全称为样本数据,模型的输出结果(企业简称或二元标注集)为已知的参考数据。经过大量的样本数据对RRN模型进行训练,调整模型的空间维度、系数等变量,直到训练得到可靠的模型。
上述实施例提出的企业简称生成方法,通过调用训练好的RNN模型提取企业全称中的每个汉字并将每个汉字转化成词向量xi,使用LSTM算出每个词向量xi,的第一隐藏层状态向量hi和第二隐藏层状态向量hi’,再利用CRF对第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行解码,得到所有汉字的二元标注集,生成企业简称,有效地处理输入序列的前后依赖关系,同时解决神经网络梯度消失的问题,规范了新闻中企业简称的用字。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括企业简称生成程序10,所述企业简称生成程序10被处理器执行时实现如下操作:
提取步骤:从企业全称中依次提取出每个汉字,作为循环神经网络第一层的模型输入;
生成步骤:得到企业全称中每个字的词向量xi,作为循环神经网络第二层的模型输入,其中i=(1,2,…,n);
计算步骤:在循环神经网络的第三层,使用长短期记忆模块从左向右根据前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’;
解码步骤:利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码,得到企业全称中所有汉字的二元标注集,根据二元标注集中的标注生成企业全称的企业简称。
优选地,所述生成步骤包括:
将提取出的汉字以one-hot向量的方法表示,得到初始词向量,将企业全称中的每个词的左、右邻接词的初始词向量输入Word2Vec模型,预测得到该词的词向量xi,直至预测得到该企业全称中每个字的词向量。
优选地,所述one-hot向量的方法是指把每个词表示为一个多维的向量,向量的维度表示词的个数,其中只有一个维度的值为1,其余维度为0,该向量就代表当前词。
优选地,所述解码步骤中利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码是指:根据每个汉字对应的第一隐藏层状态向量hi、第二隐藏层状态向量hi’计算得到该汉字对应的隐藏层状态向量的平均向量,利用条件随机场对该平均向量进行解码。
可选地,所述解码步骤中利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码是指:将每个汉字对应的第一隐藏层状态向量hi、第二隐藏层状态向量hi’拼接成一个加强向量,利用条件随机场对该加强向量进行解码。
本发明之计算机可读存储介质的具体实施方式与上述企业简称生成方法的具体实施方式大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种企业简称生成方法,应用于计算装置,其特征在于,所述方法包括:
提取步骤:从企业全称中依次提取出每个汉字,作为循环神经网络第一层的模型输入;
生成步骤:得到企业全称中每个字的词向量xi,作为循环神经网络第二层的模型输入,其中i=(1,2,…,n);
所述生成步骤包括:
将提取出的汉字以one-hot向量的方法表示,得到初始词向量,将企业全称中的每个词的左、右邻接词的初始词向量输入Word2Vec模型,预测得到该词的词向量xi,直至预测得到该企业全称中每个字的词向量;
计算步骤:在循环神经网络的第三层,使用长短期记忆模块从左向右根据前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’;词向量x1的前一个词向量为词向量xn,所述企业全称有n个汉字;词向量xn的后一个词向量为词向量x1
解码步骤:利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码,得到企业全称中所有汉字的二元标注集,根据二元标注集中的标注生成企业全称的企业简称。
2.根据权利要求1所述的企业简称生成方法,其特征在于,所述one-hot向量的方法是指把每个词表示为一个多维的向量,向量的维度表示词的个数,其中只有一个维度的值为1,其余维度为0,该向量就代表当前词。
3.根据权利要求1所述的企业简称生成方法,其特征在于,所述解码步骤中利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码是指:根据每个汉字对应的第一隐藏层状态向量hi、第二隐藏层状态向量hi’计算得到该汉字对应的隐藏层状态向量的平均向量,利用条件随机场对该平均向量进行解码。
4.根据权利要求1或3所述的企业简称生成方法,其特征在于,所述解码步骤中利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码是指:将每个汉字对应的第一隐藏层状态向量hi、第二隐藏层状态向量hi’拼接成一个加强向量,利用条件随机场对该加强向量进行解码。
5.一种电子装置,其特征在于,所述装置包括:存储器、处理器及显示器,所述存储器上存储有企业简称生成程序,所述企业简称生成程序被所述处理器执行,可实现如下步骤:
提取步骤:从企业全称中依次提取出每个汉字,作为循环神经网络第一层的模型输入;
生成步骤:得到企业全称中每个字的词向量xi,作为循环神经网络第二层的模型输入,其中i=(1,2,…,n);
所述生成步骤包括:
将提取出的汉字以one-hot向量的方法表示,得到初始词向量,将企业全称中的每个词的左、右邻接词的初始词向量输入Word2Vec模型,预测得到该词的词向量xi,直至预测得到该企业全称中每个字的词向量;
计算步骤:在循环神经网络的第三层,使用长短期记忆模块从左向右根据前一个词向量xi-1的隐藏层状态向量hi-1计算当前词向量xi的第一隐藏层状态向量hi,并从右向左根据后一个词向量xi+1的隐藏层状态向量hi+1计算当前词向量xi的第二隐藏层状态向量hi’;词向量x1的前一个词向量为词向量xn,所述企业全称有n个汉字;词向量xn的后一个词向量为词向量x1
解码步骤:利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码,得到企业全称中所有汉字的二元标注集,根据二元标注集中的标注生成企业全称的企业简称。
6.根据权利要求5所述的电子装置,其特征在于,所述one-hot向量的方法是指把每个词表示为一个多维的向量,向量的维度表示词的个数,其中只有一个维度的值为1,其余维度为0,该向量就代表当前词。
7.根据权利要求5所述的电子装置,其特征在于,所述解码步骤中利用条件随机场对每个汉字的第一隐藏层状态向量hi、第二隐藏层状态向量hi’进行解码是指:根据每个汉字对应的第一隐藏层状态向量hi、第二隐藏层状态向量hi’计算得到该汉字对应的隐藏层状态向量的平均向量,利用条件随机场对该平均向量进行解码。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括企业简称生成程序,所述企业简称生成程序被处理器执行时,可实现如权利要求1至4中任一项所述企业简称生成方法的步骤。
CN201711141756.8A 2017-11-17 2017-11-17 企业简称生成方法、装置及存储介质 Active CN107943788B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711141756.8A CN107943788B (zh) 2017-11-17 2017-11-17 企业简称生成方法、装置及存储介质
PCT/CN2018/076127 WO2019095568A1 (zh) 2017-11-17 2018-02-10 企业简称生成方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711141756.8A CN107943788B (zh) 2017-11-17 2017-11-17 企业简称生成方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN107943788A CN107943788A (zh) 2018-04-20
CN107943788B true CN107943788B (zh) 2021-04-06

Family

ID=61931583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711141756.8A Active CN107943788B (zh) 2017-11-17 2017-11-17 企业简称生成方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN107943788B (zh)
WO (1) WO2019095568A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置
CN109800332A (zh) * 2018-12-04 2019-05-24 北京明略软件系统有限公司 处理字段名的方法、装置、计算机存储介质及终端
CN110377887A (zh) * 2019-07-19 2019-10-25 出门问问(苏州)信息科技有限公司 实体简称转化方法、可读存储介质和电子设备
CN111339319B (zh) * 2020-03-02 2023-08-04 北京百度网讯科技有限公司 一种企业名的消歧方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104049755A (zh) * 2014-06-18 2014-09-17 中国科学院自动化研究所 信息处理方法及装置
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7515733B2 (en) * 1993-11-18 2009-04-07 Digimarc Corporation Methods and arrangements employing digital content items
US8694305B1 (en) * 2013-03-15 2014-04-08 Ask Ziggy, Inc. Natural language processing (NLP) portal for third party applications
US10181098B2 (en) * 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
US10140262B2 (en) * 2015-05-04 2018-11-27 King Fahd University Of Petroleum And Minerals Systems and associated methods for Arabic handwriting synthesis and dataset design
CN106484682B (zh) * 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN105787560B (zh) * 2016-03-18 2018-04-03 北京光年无限科技有限公司 基于循环神经网络的对话数据交互处理方法及装置
CN105975555A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于双向递归神经网络的企业简称提取方法
CN107203511B (zh) * 2017-05-27 2020-07-17 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统
CN107168957A (zh) * 2017-06-12 2017-09-15 云南大学 一种中文分词方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104049755A (zh) * 2014-06-18 2014-09-17 中国科学院自动化研究所 信息处理方法及装置
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于BP神经网络的面向STEP-NC加工工步序列生成";欧阳华兵;《计算机集成制造系统》;20150715;第21卷(第7期);第1810-1819页 *
Saeid Shokri 等." Improvement of the prediction performance of a soft sensor model based on support vector regression for production of ultra-low sulfur diesel".《Petroleum Science》.2015,第12卷(第1期), *

Also Published As

Publication number Publication date
WO2019095568A1 (zh) 2019-05-23
CN107943788A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN107943788B (zh) 企业简称生成方法、装置及存储介质
WO2019085328A1 (zh) 企业关系提取方法、装置及存储介质
WO2019095572A1 (zh) 企业投资风险评估方法、装置及存储介质
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
CN111198948A (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN114047929B (zh) 基于知识增强的用户定义函数识别方法、装置及介质
CN111950279A (zh) 实体关系的处理方法、装置、设备及计算机可读存储介质
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
CN112016314A (zh) 一种基于bert模型的医疗文本理解方法及系统
CN112560504B (zh) 抽取表单文档中信息的方法、电子设备和计算机可读介质
CN110866042A (zh) 表格智能查询方法、装置及计算机可读存储介质
CN113205814A (zh) 语音数据标注方法、装置、电子设备及存储介质
CN115099233A (zh) 一种语义解析模型的构建方法、装置、电子设备及存储介质
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN114022891A (zh) 扫描文本的关键信息提取方法、装置、设备及存储介质
CN116774973A (zh) 数据渲染方法、装置、计算机设备及存储介质
CN116030295A (zh) 物品识别方法、装置、电子设备及存储介质
CN113706207A (zh) 基于语义解析的订单成交率分析方法、装置、设备及介质
CN113569741A (zh) 图像试题的答案生成方法、装置、电子设备及可读介质
CN113723114A (zh) 基于多意图识别的语义分析方法、装置、设备及存储介质
CN113239215A (zh) 多媒体资源的分类方法、装置、电子设备及存储介质
CN106843884B (zh) 一种查询数据处理方法及其设备
CN114971744B (zh) 一种依据稀疏矩阵的用户画像确定方法及装置
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant