CN107943788B

CN107943788B - 企业简称生成方法、装置及存储介质

Info

Publication number: CN107943788B
Application number: CN201711141756.8A
Authority: CN
Inventors: 徐冰; 汪伟; 罗傲雪; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2021-04-06
Anticipated expiration: 2037-11-17
Also published as: WO2019095568A1; CN107943788A

Abstract

本发明公开了一种企业简称生成方法、装置及存储介质，该方法包括：从企业全称中依次提取出每个汉字；得到企业全称中每个字的词向量x_i；使用长短期记忆模块从左向右根据前一个词向量x_i‑1的隐藏层状态向量h_i‑1计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左根据后一个词向量x_i+1的隐藏层状态向量h_i+1计算当前词向量x_i的第二隐藏层状态向量h_i’；利用条件随机场对每个汉字的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’进行解码，得到企业全称中所有汉字的二元标注集，根据二元标注集中的标注生成企业全称的企业简称。本发明通过对文本的字进行特征的自动学习，生成有效的企业简称，有利于对新闻中企业实体的识别。

Description

企业简称生成方法、装置及存储介质

技术领域

本发明涉及数据分析领域，尤其涉及一种企业简称生成方法、装置及计算机可读存储介质。

背景技术

在新闻中，企业的名称往往以企业简称出现。然而，由于企业简称用字规律不强与随意性，对我们识别企业带来了困难。例如，“华米信息科技有限公司”的简称在新闻中有时以“华米信息”出现，有时以“华米科技”出现，使我们在新闻中对华米信息科技有限公司的识别带来了困难。同时，也无法人工总结出完备的企业简称构成规则。

目前，使用序列建模的方法，如条件随机场，对企业名称生成企业简称。这种方法对特征模板的选取具有很强的依赖性(即输入序列的前后依赖关系)，容易出现神经网络梯度消失的问题。

发明内容

鉴于以上内容，本发明提供一种企业简称生成方法、装置及计算机可读存储介质，其主要目的在于有效地处理输入序列的前后依赖关系，解决神经网络梯度消失的问题，生成有效的企业简称。

为实现上述目的，本发明提供一种企业简称生成方法，该方法包括：

提取步骤：从企业全称中依次提取出每个汉字，作为循环神经网络第一层的模型输入；

生成步骤：得到企业全称中每个字的词向量x_i，作为循环神经网络第二层的模型输入，其中i＝(1,2,…,n)；

计算步骤：在循环神经网络的第三层，使用长短期记忆模块从左向右根据前一个词向量x_i-1的隐藏层状态向量h_i-1计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左根据后一个词向量x_i+1的隐藏层状态向量h_i+1计算当前词向量x_i的第二隐藏层状态向量h_i’；

解码步骤：利用条件随机场对每个汉字的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’进行解码，得到企业全称中所有汉字的二元标注集，根据二元标注集中的标注生成企业全称的企业简称。

优选地，所述生成步骤包括：

将提取出的汉字以one-hot向量的方法表示，得到初始词向量，将企业全称中的每个词的左、右邻接词的初始词向量输入Word2Vec模型，预测得到该词的词向量x_i，直至预测得到该企业全称中每个字的词向量。

优选地，所述one-hot向量的方法是指把每个词表示为一个多维的向量，向量的维度表示词的个数，其中只有一个维度的值为1，其余维度为0，该向量就代表当前词。

优选地，所述解码步骤中利用条件随机场对每个汉字的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’进行解码是指：根据每个汉字对应的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’计算得到该汉字对应的隐藏层状态向量的平均向量，利用条件随机场对该平均向量进行解码。

可选地，所述解码步骤中利用条件随机场对每个汉字的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’进行解码是指：将每个汉字对应的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’拼接成一个加强向量，利用条件随机场对该加强向量进行解码。

此外，本发明还提供一种电子装置，该电子装置包括：存储器、处理器及显示器，所述存储器上存储企业简称生成程序，所述企业简称生成程序被所述处理器执行，可实现如下步骤：

优选地，所述生成步骤包括：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括企业简称生成程序，所述企业简称生成程序被处理器执行时，可实现如上所述企业简称生成方法中的任意步骤。

本发明提出的企业简称生成方法、电子装置及计算机可读存储介质，利用企业全称对循环神经网络模型进行训练，得到可靠的模型，再将待测的企业全称输入训练好的模型中，得到企业全称中所有汉字的二元标注集，根据二元标注集中的标注生成该企业全称对应的企业简称，有效地处理输入序列的前后依赖关系，提高对新闻中企业实体的识别。

附图说明

图1为本发明电子装置较佳实施例的示意图；

图2为图1中企业简称生成程序较佳实施例的模块示意图；

图3为本发明企业简称生成方法较佳实施例的流程图；

图4为RNN模型的示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，是本发明电子装置1较佳实施例的示意图。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、个人电脑、便携计算机以及其他具有运算功能的电子设备。

该电子装置1包括：存储器11、处理器12、显示器13、网络接口14及通信总线15。其中，网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。通信总线15用于实现这些组件之间的连接通信。

存储器11至少包括一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述存储器11可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述存储器11也可以是所述电子装置1的外部存储单元，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card,FC)等。

在本实施例中，所述存储器11不仅可以用于存储安装于所述电子装置1的应用软件及各类数据，例如企业简称生成程序10、企业简称库，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其它数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行企业简称生成程序10的计算机程序代码及循环神经网络(Recurrent NeuralNetwork,RNN)模型和长短期记忆模块(Long Short-Term Memory,LSTM)模型的训练等。

显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的工作界面，如：显示生成的企业简称。

优选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中存储企业简称生成程序10的程序代码，处理器12执行企业简称生成程序10的程序代码时，实现如下步骤：

提取步骤：从企业全称中依次提取出每个汉字，作为循环神经网络(RecurrentNeural Network,RNN)第一层的模型输入；

生成步骤：得到企业全称中每个字的词向量x_i，作为RNN第二层的模型输入，其中i＝(1,2,…,n)；

计算步骤：在RNN的第三层，使用长短期记忆模块(Long Short-Term Memory,LSTM)从左向右根据前一个词向量x_i-1的隐藏层状态向量h_i-1计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左根据后一个词向量x_i+1的隐藏层状态向量h_i+1计算当前词向量x_i的第二隐藏层状态向量h_i’；

解码步骤：利用条件随机场(Conditional Random Field,CRF)对每个汉字的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’进行解码，得到企业全称中所有汉字的二元标注集，根据二元标注集中的标注生成企业全称的企业简称。

本实施例中，当需要根据企业全称生成有效的企业简称时，获取企业全称，从企业全称中依次提取出每个汉字，作为RNN第一层的模型输入。例如，需要生成“佳虹通信技术有限公司”的企业简称时，获取公司全称“佳虹通信技术有限公司”，依次从“佳虹通信技术有限公司”中提取出每个汉字，得到如下结果“佳”、“虹”、“通”、“信”、“技”、“术”、“有”、“限”、“公”、“司”，作为RNN第一层的模型输入。

将提取出的每个汉字以one-hot向量的方法表示，得到初始词向量。其中one-hot向量的方法是指把每个词表示为一个多维的向量，向量的维度表示词的个数，其中只有一个维度的值为1，其余维度为0，该向量代表当前词。例如，“佳”的初始词向量为[1000000000]、“虹”的初始词向量为[0100000000]。然后将企业全称中的每个字的左、右邻接字的初始词向量输入Word2Vec模型，预测得到该词的词向量x_i，直至预测得到该企业全称中每个字的词向量。例如，提取出企业全称“佳虹通信技术有限公司”后，将“虹”的左邻接字“佳”、右邻接字“通”的初始词向量输入Word2Vec模型，预测得到“虹”的词向量x₂；将“通”的左邻接字“虹”的初始词向量或当前词向量、右邻接字“信”的初始词向量输入Word2Vec模型，预测得到“通”的词向量x₃……如此迭代训练，直至预测得到上述所有字的词向量x_i，i＝(0,1,2,…,n)，作为RNN第二层的模型输入。

在RNN模型的第三层，接着用LSTM从左向右根据当前词向量x_i的前一个词向量x_i-1的隐藏层状态向量h_i-1计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左根据当前词向量x_i的后一个词向量x_i+1的隐藏层状态向量h_i+1计算当前词向量x_i的第二隐藏层状态向量h_i’。例如，“佳虹通信技术有限公司”句子中，用LSTM从左向右根据“佳”的词向量x₁的隐藏层状态向量h₁计算“虹”的词向量x₂的第一隐藏层状态向量h₂，并从右向左根据“通”的词向量x₃的隐藏层状态向量h₃计算“虹”的词向量x₂的第二隐藏层状态向量h₂’。

其中，当我们需要得到词向量x₁的第一隐藏层状态向量h₁时，则词向量x₁的前一个词向量为词向量x_n(假设该企业全称有n个汉字)。同理，词向量x_n的后一个词向量为词向量x₁。例如，企业全称“佳虹通信技术有限公司”中，“佳”的词向量x₁的前一个词向量为“司”的词向量x₁₀。“司”的词向量x₁₀的后一个词向量为“佳”的词向量x₁。

根据每个汉字对应的第一隐藏层状态向量h_i和二隐藏层状态向量h_i’计算得到该汉字对应的隐藏层状态向量的平均向量，再利用CFR对该平均向量进行解码，得到企业全称中所有汉字的二元标注集，根据二元标注集中的标注生成企业全称的企业简称。例如，根据RNN模型第三层计算得到的每个汉字对应的第一隐藏层状态向量h_i和二隐藏层状态向量h_i’，利用Average函数对每个汉字对应的第一隐藏层状态向量h_i和二隐藏层状态向量h_i’进行计算得到该汉字对应的隐藏层状态向量的平均向量，再利用CFR对该平均向量进行解码，得到“佳虹通信技术有限公司”对应的二元标注集：{B,B,B,B,I,I,I,I,I,I}，其中B表示这个字属于简称的部分，I表示这个字不计入简称部分。再将二元标注集：{B,B,B,B,I,I,I,I,I,I}中的标注去掉I标注，留下B标注，得到{B,B,B,B}，即生成的简称为“佳虹通信”。

可选地，在其他实施例中，还可以通过Concatenate函数将每个汉字对应的第一隐藏层状态向量h_i和二隐藏层状态向量h_i’拼接成该汉字的加强隐藏层状态向量，再利用CFR对该加强向量进行解码。

上述实施例提出的企业简称生成方法为模型应用的过程，该方法同样适用于模型的训练。在模型训练的过程中，企业全称为样本数据，模型的输出结果(企业简称或二元标注集)为已知的参考数据。经过大量的样本数据对RRN模型进行训练，调整模型的空间维度、系数等变量，直到训练得到可靠的模型。

上述实施例提出的企业简称生成方法，通过从企业全称中依次提取出每个汉字并转化为词向量x_i，使用LSTM从左向右计算出x_i的第一隐藏层状态向量h_i，在从右向左计算出x_i的第二隐藏层h_i’，最后利用CRF对第一隐藏层状态向量h_i和第二隐藏层状态向量h_i’进行解码，得到企业全称的所有汉字的二元标注集，生成有效的企业简称，使得企业简称靠谱有效，方便在新闻中对企业实体的识别。

如图2所示，是图1中企业简称生成程序较佳实施例的模块示意图。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

在本实施例中，企业简称生成程序10包括：提取模块110、生成模块120、计算模块130、解码模块140，所述模块110-140所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

提取模块110，用于从企业全称中依次提取出每个汉字，作为循环神经网络第一层的模型输入；

生成模块120，用于得到企业全称中每个字的词向量x_i，作为循环神经网络第二层的模型输入，其中i＝(1,2,…,n)；

计算模块130，用于在循环神经网络的第三层，使用长短期记忆模块从左向右根据前一个词向量x_i-1的隐藏层状态向量h_i-1计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左根据后一个词向量x_i+1的隐藏层状态向量h_i+1计算当前词向量x_i的第二隐藏层状态向量h_i’；

解码模块140，用于利用条件随机场对每个汉字的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’进行解码，得到企业全称中所有汉字的二元标注集，根据二元标注集中的标注生成企业全称的企业简称。

如图3所示，是本发明企业简称生成方法较佳实施例的流程图。

在本实施例中，处理器12执行存储器11中存储的企业简称生成程序10的计算机程序时实现企业简称生成方法的如下步骤：

步骤S10，从企业全称中依次提取出每个汉字，作为循环神经网络第一层的模型输入；

步骤S20，得到企业全称中每个字的词向量x_i，作为循环神经网络第二层的模型输入，其中i＝(1,2,…,n)；

步骤S30，在循环神经网络的第三层，使用长短期记忆模块从左向右根据前一个词向量x_i-1的隐藏层状态向量h_i-1计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左根据后一个词向量x_i+1的隐藏层状态向量h_i+1计算当前词向量x_i的第二隐藏层状态向量h_i’；

步骤S40，利用条件随机场对每个汉字的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’进行解码，得到企业全称中所有汉字的二元标注集，根据二元标注集中的标注生成企业全称的企业简称。

本实施例中，当需要根据企业全称生成有效的企业简称时，获取企业全称，从企业全称中依次提取出每个汉字，作为RNN第一层的模型输入。如图4所示，是RNN模型的示意图。例如，需要生成“佳虹通信技术有限公司”的企业简称时，依次从“佳虹通信技术有限公司”中提取每个汉字，得到如下结果“佳”、“虹”、“通”、“信”、“技”、“术”、“有”、“限”、“公”、“司”，作为RNN第一层的模型输入。

将提取出的每个汉字以one-hot向量的方法表示，得到初始词向量。其中one-hot向量的方法是指把每个词表示为一个多维的向量，向量的维度表示词的个数，其中只有一个维度的值为1，其余维度为0，该向量代表当前词。例如，“佳”的初始词向量为[1000000000]、“虹”的初始词向量为[0100000000]。然后将企业全称中的每个字的左、右邻接字的初始词向量输入Word2Vec模型中，预测得到该词的词向量x_i，直至预测得到该企业全称中每个字的词向量。例如，将“虹”的左邻接字“佳”、右邻接字“通”的初始词向量输入Word2Vec模型中，预测得到“虹”的词向量x₂；将“通”的左邻接字“虹”的初始词向量或当前词向量、右邻接字“信”的初始词向量输入Word2Vec模型，预测得到“通”的词向量x₃……如此迭代训练，直至预测得到上述所有字的词向量x_i，i＝(0,1,2,…,n)，作为RNN第二层的模型输入。

其中，所述CFR指给定一组输入随机变量条件下，求另一组输出随机变量的条件概率分布的模型。所述的CFR模型是预先训练好的，通过将样本数据中的平均向量及其对应的二元标注集输入代入到模型中训练，调整模型系数，直到训练得到可靠的CFR模型。

上述实施例提出的企业简称生成方法，通过调用训练好的RNN模型提取企业全称中的每个汉字并将每个汉字转化成词向量x_i,使用LSTM算出每个词向量x_i,的第一隐藏层状态向量h_i和第二隐藏层状态向量h_i’，再利用CRF对第一隐藏层状态向量h_i和第二隐藏层状态向量h_i’进行解码，得到所有汉字的二元标注集，生成企业简称，有效地处理输入序列的前后依赖关系，同时解决神经网络梯度消失的问题，规范了新闻中企业简称的用字。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括企业简称生成程序10，所述企业简称生成程序10被处理器执行时实现如下操作：

优选地，所述生成步骤包括：

本发明之计算机可读存储介质的具体实施方式与上述企业简称生成方法的具体实施方式大致相同，在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种企业简称生成方法，应用于计算装置，其特征在于，所述方法包括：

所述生成步骤包括：

将提取出的汉字以one-hot向量的方法表示，得到初始词向量，将企业全称中的每个词的左、右邻接词的初始词向量输入Word2Vec模型，预测得到该词的词向量x_i，直至预测得到该企业全称中每个字的词向量；

计算步骤：在循环神经网络的第三层，使用长短期记忆模块从左向右根据前一个词向量x_i-1的隐藏层状态向量h_i-1计算当前词向量x_i的第一隐藏层状态向量h_i，并从右向左根据后一个词向量x_i+1的隐藏层状态向量h_i+1计算当前词向量x_i的第二隐藏层状态向量h_i’；词向量x₁的前一个词向量为词向量x_n，所述企业全称有n个汉字；词向量x_n的后一个词向量为词向量x₁；

2.根据权利要求1所述的企业简称生成方法，其特征在于，所述one-hot向量的方法是指把每个词表示为一个多维的向量，向量的维度表示词的个数，其中只有一个维度的值为1，其余维度为0，该向量就代表当前词。

3.根据权利要求1所述的企业简称生成方法，其特征在于，所述解码步骤中利用条件随机场对每个汉字的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’进行解码是指：根据每个汉字对应的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’计算得到该汉字对应的隐藏层状态向量的平均向量，利用条件随机场对该平均向量进行解码。

4.根据权利要求1或3所述的企业简称生成方法，其特征在于，所述解码步骤中利用条件随机场对每个汉字的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’进行解码是指：将每个汉字对应的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’拼接成一个加强向量，利用条件随机场对该加强向量进行解码。

5.一种电子装置，其特征在于，所述装置包括：存储器、处理器及显示器，所述存储器上存储有企业简称生成程序，所述企业简称生成程序被所述处理器执行，可实现如下步骤：

所述生成步骤包括：

6.根据权利要求5所述的电子装置，其特征在于，所述one-hot向量的方法是指把每个词表示为一个多维的向量，向量的维度表示词的个数，其中只有一个维度的值为1，其余维度为0，该向量就代表当前词。

7.根据权利要求5所述的电子装置，其特征在于，所述解码步骤中利用条件随机场对每个汉字的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’进行解码是指：根据每个汉字对应的第一隐藏层状态向量h_i、第二隐藏层状态向量h_i’计算得到该汉字对应的隐藏层状态向量的平均向量，利用条件随机场对该平均向量进行解码。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括企业简称生成程序，所述企业简称生成程序被处理器执行时，可实现如权利要求1至4中任一项所述企业简称生成方法的步骤。