CN116187332A

CN116187332A - 联合多视角字符嵌入的中文社交评论实体识别方法与装置

Info

Publication number: CN116187332A
Application number: CN202310146540.XA
Authority: CN
Inventors: 陈艺; 秦琪; 丁贾明; 汪玉; 王安宁; 赵龙; 李宾宾; 杨瑞雪; 包佳佳; 丁洁; 吕鹏飞; 刘耕云; 范明豪; 马亚彬; 翟玥; 陈庆涛; 黄杰; 刘鑫
Original assignee: Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; Hefei University of Technology
Current assignee: Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; Hefei University of Technology
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-05-30

Abstract

本发明提供一种联合多视角字符嵌入的中文社交评论实体识别方法与装置，涉及自然语言处理技术领域。包括：获取待识别中文社交评论实体的文本数据，并转换成字符序列和词级序列，输入到嵌入表示层得到多视角字符嵌入向量组和词级嵌入向量组，使用向量拼接方式拼接得到联合多视角字符嵌入向量组，将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征，基于标签解码层，对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码，获取标签序列。本方法通过原始语句中多视角字符嵌入和词级嵌入，有效解决了中文社交评论实体识别中字符替换和非正式表达等问题。

Description

联合多视角字符嵌入的中文社交评论实体识别方法与装置

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种联合多视角字符嵌入的中文社交评论实体识别方法与装置。

背景技术

信息技术的发展为人们的生活带来了很大的便利，但是每天巨大的信息量让人们目不暇接，对这些海量信息进行有效的信息提取和知识图谱构建有利于快速捕捉有用信息提高工作效率。对于信息识别和知识图谱构建，命名实体识别一直是重要的任务。而在中文互联网下，由于用户在中文社交评论当中的表达随意性，字符替换和非正式表达是普遍存在的问题。而现有的命名实体识别的方法针对中文社交评论中存在的字符替换和非正式表达等问题，尚不能给出很好的解决方案。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别方法与装置，解决了现有技术针对中文社交评论当中的实体字符替换和非正式表达等问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别方法，所述方法包括：

获取待识别中文社交评论实体的文本数据，并将所述中文社交评论实体的文本数据转换成字符序列和词级序列；

将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组；

将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组；

将所述多视角字符嵌入向量组与所述词级嵌入向量组使用向量拼接方式组合得到联合多视角字符嵌入向量组；

将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征；

基于标签解码层，对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码，获取标签序列。

优选地，所述将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组，包括：使用多种嵌入方法从字符的多个视角提取字符特征；

所述多种嵌入方法包括字符嵌入、拼音嵌入、部首嵌入、字形嵌入；将利用所述字符嵌入、拼音嵌入、部首嵌入、字形嵌入得到的向量进行连接得到所述多视角字符嵌入向量组。

优选地，所述字符嵌入包括：基于BERT模型对所述待识别中文社交评论实体的文本数据进行编码，获取字符嵌入。

优选地，所述拼音嵌入包括：使用Python中的xpinyin库将所述待识别中文社交评论实体的文本数据中的汉字转化成拼音；使用word2vec模型提取所述拼音的拼音嵌入；基于所述拼音嵌入，利用全连接层提取基于上下文特征的拼音向量。

优选地，所述部首嵌入包括：从中文字符字典中查找待识别中文社交评论实体的文本数据中每个字符的部首；使用word2vec模型提取所述部首的部首嵌入；基于所述部首嵌入，利用全连接层提取基于上下文特征的部首向量。

优选地，所述字形嵌入包括：从中文字符字典中查找待识别中文社交评论实体的文本数据中每个字符对应的英文字母表示；使用word2vec模型提取所述字形的字形嵌入；基于所述字形嵌入，利用Bi-LSTM层提取基于上下文特征的字形向量。

优选地，所述将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组，包括：构建领域词典，并将所述领域词典加入到分词词典中；基于所述分词词典对所述待识别中文社交评论实体的文本数据进行分词；使用word2vec模型提取所述分词的词级嵌入。

优选地，所述构建领域词典包括：在相关社交媒体上收集相关领域评论数据；对收集到的所述评论数据进行预处理和分词，得到候选词；对每个所述候选词进行卡方统计，将得分大于阈值的候选词作为领域词典中的领域词。

优选地，所述将所述联合多视角字符嵌入向量组输入到序列建模层获取全局特征及局部特征，包括：所述序列建模层包括Bi-LSTM层和一个注意力机制层；

所述Bi-LSTM层基于所述联合多视角字符嵌入向量组获取全局字符特征、全局词特征；所述注意力机制层根据所述全局字符特征、所述全局词特征获取所述局部字符特征、局部词特征。

第二方面，本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别装置，所述装置包括：

文本获取模块，用于获取待识别中文社交评论实体的文本数据，并将所述中文社交评论实体的文本数据转换成字符序列和词级序列；

嵌入表示模块，将所述字符序列输入到所述嵌入表示模块得到所述字符序列的多视角字符嵌入向量组；将所述词级序列输入到嵌入表示模块得到所述词级序列的词级嵌入向量组；

向量拼接模块，将所述多视角字符嵌入向量组与所述词级嵌入向量组组合得到联合多视角字符嵌入向量组；

序列建模模块，将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征；

标签解码模块，对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码，获取标签序列。

(三)有益效果

本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别方法与装置。与现有技术相比，具备以下有益效果：

对于中文社交评论实体识别，本方案考虑到了中文字符及中文表达的特点，通过对字符的多视角特征提取及领域词典的构建，有效解决了中文社交评论字符替换与非正式表达的问题，提高了中文社交评论实体识别的成功率和准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提出的一种联合多视角字符嵌入的中文社交评论实体识别方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例通过提供一种联合多视角字符嵌入的中文社交评论实体识别方法与装置，解决了中文社交评论实体识别存在的字符替换和非正式表达等问题，实现针对中文社交评论实体更加精准的识别。

本发明实施例中的技术方案为解决上述技术问题，总体思路如下：

针对现有命名实体识别无法根据中文字符的特殊性及中文表达的特点对中文社交评论实体进行识别，本发明根据中文社交评论的特点，从中文字符的多个视角特征出发，同时构建领域词典，使用多种嵌入方法对字符、拼音、部首和字形进行嵌入并深度融合，以扩展字符的特征表示，明确实体边界。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别方法，所述方法包括：

其中标签解码层输出的标签序列即是中文社交评论实体识别的结果。本发明通过对字符的多视角特征提取及词级特征的提取，以扩展字符的特征表示，并明确实体边界。可以解决中文社交评论字符替换与非正式表达的问题。

优选地，所述将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组，包括：使用多种嵌入方法从字符的多个视角提取字符特征；所述多种嵌入方法包括字符嵌入、拼音嵌入、部首嵌入、字形嵌入；将利用所述字符嵌入、拼音嵌入、部首嵌入、字形嵌入得到的向量进行连接得到所述多视角字符嵌入向量组。

根据中文字符本身的特点以及中文社交评论中经常出现的非正式表达的问题，本发明使用多视角字符嵌入及词级嵌入的方法提取字符特征。其中多视角字符嵌入是使用多种嵌入方法从字符的多个视角提取字符特征。词级嵌入是将原始语句分词后，使用嵌入方法从单词中提取特征。多视角字符嵌入主要包括四个部分1)字符嵌入；2)拼音嵌入；3)部首嵌入；4)字形嵌入。将利用所述字符嵌入、拼音嵌入、部首嵌入、字形嵌入得到的向量进行连接得到所述多视角字符嵌入向量组。本方法使用多种嵌入方法对字符、拼音、部首和字形进行嵌入并深度融合，以扩展字符的特征表示，明确实体边界，对在中文背景下的中文社交评论命名实体识别具有更好的识别效果。

其中字符嵌入使用BERT预训练语言模型，从原始语料中充分学习字符级、词语级和句子级的关系特征，来增强字符向量的语义表示。BERT模型使用多个Transformer双向编码器对字符进行编码，使得每个字符的深度双向表示都可以通过前向和后向文本信息来获得。给定一个评论句子S＝(c₁,c₂,...,c_l)，字符嵌入可以通过BERT预训练模型获得：

其中，

是c_i的字符嵌入。

拼音是一种辅助发音工具，它将4个声调字符和字母组合成1300个音节。据统计，3000个常用字符可以覆盖99％的书面材料。也就是说，一个音节可以对应相同的汉字。在中文社交评论中，命名实体中的一些字符经常被错误地替换成其他发音相同的字符。针对中文社交评论中经常出现的字符被错误地替换成其他发音相同的字符的问题，现有命名实体识别方案并没有针对这一问题提出针对性的解决方案，对此本发明对拼音进行嵌入，以扩展字符的特征表示。首先，使用Python中的xpinyin库将语料库中的汉字转化成拼音。然后，使用word2vec模型提取拼音嵌入。在此基础上，利用全连接层提取基于上下文特征的拼音向量。具体计算公式如下：

其中，

表示句子中每个字符的拼音，xpinyin()表示字符到拼音的转换，Word2Vec^p表示发音嵌入查找表，/>

是/>

的向量。

部首是表达汉字意思的基本单位。每一个字符都有相应的部首，并且含有相同部首的字符意思相似，针对汉字的这一特性对部首进行嵌入，以扩展字符的特征表示。首先，从中文字符字典中查找语料库中每个字符的部首。然后，使用word2vec模型提取部首嵌入。在此基础上，利用全连接层提取基于上下文特征的部首向量。具体计算公式如下：

其中，

表示句子中每个字符的部首，Lookup_table()表示从汉字字典中提取每个字符的部首，Word2Vec^r表示部首嵌入查找表，/>

是/>

的向量。

汉字由五种基本笔画组成：横、竖、撇、捺、折，并逐渐产生一系列的字符根。为了方便输入汉字，字符根被映射为25个英文字母(z除外)。每一个中文字符都可以被不多于4个英文字母表示。由于五笔输入法在中文输入法中比较常见，社交评论中的命名实体经常被错误地替换成其他包含相同字形的字符，针对汉字输入法的这一特性对字形进行嵌入，扩展字符的特征表示。首先，从中文字符字典中查找语料库中每个字符对应的英文字母表示。然后，使用word2vec模型提取字形嵌入。在此基础上，利用Bi-LSTM层提取基于上下文特征的字形向量。具体计算公式如下：

其中，

表示句子中每个字符的字形，字形由对应的英文字母表示，Lookup_table()表示从汉字字典中提取每个字符的字形，Word2Vec^g表示字形嵌入查找表，/>

是

的向量。

为了形成扩展的字符表示，将字符嵌入、拼音嵌入、部首嵌入和字形嵌入进行连接。公式如下：

其中，

表示多视角字符嵌入。

由于中文有其特有的表述习惯，在对中文社交评论实体进行分词前，为了使分词结果更加准确，本发明针对中文表述的特点构建了领域词典，并将所述领域词典加入到分词词典中获得更准确的分词结果。最后，使用word2vec对每个词语进行向量化。

所述领域词典的构建过程为首先，在相关社交媒体上收集相关领域评论数据；然后，对收集到的数据进行预处理和分词，得到候选词并统计；最后，对每个候选词进行卡方统计，将得分大于阈值的候选词作为领域词典中的领域词。此外，邀请具有丰富行业经验的领域专家对领域词进行判断，最终得到领域词典。领域词典针对中文表述的特点，使得分词结果更加准确。

给定一个句子S＝(c₁,c₂,...,c_l)，其分词后为S＝(w₁,w₂,...,w_m)，使用word2vec模型得到词的嵌入。具体计算公式如下：

其中，Word2Vec^w表示词嵌入查找表，

是w_i的词嵌入。

多视角字符嵌入和词级嵌入来自两种不同的信息源，前者来源于基于字符的多视角信息，而后者来源于领域知识。c_i是w_j中的字符，通过使用向量拼接方式组合多视角字符嵌入和词级嵌入。具体公式如下：

其中，x_i是字符c_i的联合多视角字符嵌入。

优选地，所述将所述联合多视角字符嵌入向量组输入到序列建模层获取全局特征及局部特征，包括：所述序列建模层包括Bi-LSTM层和一个注意力机制层；所述Bi-LSTM层基于所述联合多视角字符嵌入向量组获取全局字符特征、全局词特征；所述注意力机制层根据所述全局字符特征、所述全局词特征获取所述局部字符特征、局部词特征。

序列建模层主要包括一个Bi-LSTM层和一个注意力机制层。首先使用Bi-LSTM层来提取双向评论文本信息，可以提高特征表示的能力。同时，Bi-LSTM层缺乏对句子局部特征的获取能力，并存在梯度扩散现象。其次，使用注意力机制层获取句子局部特征，并对重要字符进行加权。

Bi-LSTM层由前向和后向LSTM网络组成，对嵌入表示层生成的嵌入进行学习。具体计算公式如下：

其中

和/>

分别代表t时刻字符c_i前向和后向LSTM的隐藏状态。LSTM主要由四个部分组成：内存单元、输入门、遗忘门和输出门。具体计算公式如下：

f_t＝σ(W_fh_t-1+U_fv_t+b_f)；

i_t＝σ(W_ih_t-1+U_iv_t+b_i)；

o_t＝σ(W_oh_t-1+U_ov_t+b_o)；

g_t＝tanh(W_ch_t-1+U_cv_t+b_c)；

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_ch_t-1+U_cv_t+b_c)；

h_t＝o_t⊙tanh(c_t)；

其中，W和b分别表示权重矩阵和偏置向量，σ表示sigmoid激活函数，⊙表示点积运算，f_t，i_t，c_t，o_t和h_t分别表示遗忘门、输入门、记忆单元、输出门和隐藏状态的输入向量。最终隐藏状态h_t表示如下：

H＝(h₁,h₂,...,h_l)；

其中，H表示Bi-LSTM层生成的句子S＝(c₁,c₂,…,c_l)的特征表示。

给定由Bi-LSTM层产生的特征表示H＝(h₁,h₂,…,h_l)，注意力机制的公式具体如下：

e_ij＝Attention(s_i-1,h_j)；

a_ij＝softmax(e_ij)；

其中，e_ij表示注意力得分函数，a_ij表示隐藏状态h_t的注意力分布，

是最终的文本序列表示。

所述最终的文本序列表示

经过线性层，被转化为标签预测概率：

其中，

和b_h表示线性层的权重矩阵和偏差项。

最后，标签解码层通过考虑相邻标签之间的关系对序列建模层输出的文本序列表示加以限制，来保证预测标签的合理性。对于每个句子S＝(c₁,c₂,…,c_l)，其对应的标签序列集合是Y＝(y₁,y₂,…,y_l)。在命名实体识别任务中，其预测得分为：

其中，l为序列长度，A为转移得分矩阵，

表示第i个位置标签输出y_i的概率，A_ij表示从标签i到标签j的转移得分，并利用softmax函数进行归一化，得到y序列标签的最大概率。具体计算公式如下：

其中，

表示真实标签，Yx是所有可能的标签集合。在训练过程中，正确标签序列的最大似然概率计算公式如下：

最后，通过Viterbi算法得到所有序列上预测总分最高的预测，作为命名实体的标签结果，具体计算公式如下：

为了对本发明提供的方法有效性进行试验，以面向中文汽车评论的命名实体识别为例，要求识别出汽车评论中预定义的命名实体。

获取汽车领域评论数据并构建数据集，使用Python工具开发的爬虫算法对社交媒体网站上与汽车领域相关的评论数据进行爬取，如汽车之家、易车网等。然后，对爬取的评论数据进行数据预处理和数据标注以获得高质量且有效的实验数据集。在汽车社交领域中，我们预定义四类实体，分别是汽车品牌(BRA)、汽车型号(MOD)、汽车属性(ATT)和汽车结构(STR)。表1列出了每种实体类型的定义和实例。该专利采用BIO方案进行标注，即标签集合Set＝[B,I,O]；其中，B表示实体的开始，I表示实体的内部，O表示非实体。表2给出了数据标注的实例。

表1每种实体类型的定义和实例

表2数据标注的实例

通过上述步骤，得到包含4000条评论数据的数据集，并按照8:1:1的比例划分成训练集、测试集和验证集。实验数据集的统计信息如表3所示。将测试集输入到训练完成得到的社交评论实体识别模型中进行测试，并采用精确率(Precision,P)、召回率(Recall,R)和F1-score值对模型性能进行评估，具体公式如下：

/>

其中，T_P，F_P和F_N分别表示正确分类的正例实体、错误分类的正例实体和错误分类的负例实体。

表3实验数据集的统计数据

为了验证所提出的联合多视角字符嵌入的中文社交评论实体识别方法的有效性，将该方法和其余四种先进方法进行对比。表4展示了整体的实验结果对比。

表4实验结果

从试验结果可以清楚的看到，采用本发明的联合多视角字符嵌入的中文社交评论实体识别方法在精确率、召回率及F1-score值上的表现均优于现有其他方法。

另一方面，本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别装置，其特征在于，所述装置包括：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。