CN108874997A

CN108874997A - 一种面向电影评论的人名命名实体识别方法

Info

Publication number: CN108874997A
Application number: CN201810607883.0A
Authority: CN
Inventors: 禤镇宇
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-11-23

Abstract

本发明公开了一种面向电影评论的人名命名实体识别方法，属于实体识别的技术领域，包括以下内容：定义电影评论中人名的命名实体类型；构建训练数据集TrainSet；对未标注数据集进行以字符为单位的切割，构造字符矩阵，利用word2vec中的skip‑gram模型，构建字符与字向量的映射字典；产生各字符对应的命名特征字典；对字符的字向量和命名特征进行组合生成训练人名识别模型的特征向量矩阵；利用Bi‑LSTM和CRF进行混合模型的构造，以此进行人名识别模型训练；通过训练的人名识别模型对特征向量矩阵进行识别人名，以实现面向电影评论人名识别任务的人名定义、人名识别时对字符级别进行人名标注、命名特征的获取方法以及将word2vec训练所得字向量与命名特征进行组合运用。

Description

一种面向电影评论的人名命名实体识别方法

技术领域

本发明属于实体识别的技术领域，具体而言，涉及一种面向电影评论的人名命名实体识别方法。

背景技术

电影评论是对一部电影的导演、演员、拍摄技术、剧情、线索、环境、色彩等进行分析和评论。随着互联网的发展和普及，人们对电影的讨论从线下搬到了线上，由此产生了海量的网络电影评论。

电影评论作为观众的一种主要反馈信息，具有巨大的分析价值。从海量的电影评论中抽取出相关的导演和演员名，能够为电影营销、明星营销、人物情感分析等各种上层应用提供信息支持。然而，目前并没有专门针对电影评论的人名抽取方法。在学术界，一般认为人名识别是命名实体识别(Name Entity Recognition)的任务之一。命名实体指文本中具有命名性指称的实体。命名实体一般分为七大类别：人名、地名、机构名、时间、货币和百分比等。由于人名构成具有多样性和复杂性，人名识别是命名实体识别的难点之一。而且，目前的人名识别方法并不适用于电影评论。主要的问题如下：

1.当前人名识别方法很多，如：隐马尔可夫模型(Hidden Markov Model)、条件随机场(conditional random field,CRF)、最大熵模型等等。然而这些方法，考虑的特征主要是状态(标注对象)特征和转移特征(上文标注对当前标注的影响)。这样的考虑不仅忽略了下文特征对当前状态标注的影响，也忽略了长距离文本信息对当前状态标注的影响。

2.传统的命名实体识别方法，多以词作为标注单位。语言学中，一般认为词是最小的语义构成单位，以词作为序列标注单位，不仅能利用字符级的特征，也能利用词语级的特征，具有较强的表征能力。然而电影评论作为网络文本之一，具有如语言形式复杂、句法不规则、用词多样新颖等特点。通用型的分词工具对网络文本的分词效果不佳，而构建领域性的分词器则需要标注较大规模的语料，人工成本太高。可见，基于词的方法并不适合电影等特定领域。

3.电影评论中的人名与一般中文人名识别任务的人名定义不同，中文人名识别任务一般将人名分为中文人名、外国译名、日本人名。反观电影评论，观众对演员和导演的称呼较为多样，例如人名简称、昵称、英文名等。当使用人名简称或者昵称进行评价时，相应的语法规则和用词规律也会有所不同，这会大大影响基于上下文特征的人名识别方法的效果，因此单纯的分为三类人名进行识别并不适合。

4.电影具有很强的时效性，新的电影往往存在较多未登录词。利用旧的标注集训练的模型，难以取得很好的效果。而对新电影进行大规模的标注，则失去了电影评论人名识别的意义。因此，如何通过无监督的方法，对新电影进行学习，减少人工标注成本，是解决电影评论中人名识别的关键所在。

发明内容

为了解决现有技术存在的上述问题，本发明目的在于提供一种面向电影评论的人名命名实体识别方法以达到传统中文人名定义与电影评论中人名相适应，基于词的人名识别方法适用于电影领域，适应电影的强时效性以及克服长距离文本信息对当前状态标注的影响的目的。

本发明所采用的技术方案为：一种面向电影评论的人名命名实体识别方法，包括以下内容：

1、定义电影评论中人名的命名实体类型：根据人名的命名实体类型的不同形成不同的标签；

2、构造数据集：利用网络爬虫，爬取大规模的未标注电影评论，构建未标注数据集；在未标注的电影中随机挑选若干电影，基于步骤1中的命名实体类型，用字符标签定义电影评论中的人名，构建训练数据集TrainSet；

3、字向量字典构建：对未标注数据集进行以字符为单位的切割，构造字符矩阵，构造字符矩阵作为输入数据，利用word2vec中的skip-gram模型，对字符矩阵进行无监督的字嵌入预训练，构建字符与字向量的映射字典；

4、构建命名特征字典：从网络中获取人名数据集，根据人名的命名特征定义字典类型，每种类型的字典对应一个命名特征，以产生各字符对应的命名特征字典；

5、特征组合和数值化：对字符的字向量和命名特征进行组合生成训练人名识别模型的特征向量矩阵；

其中，利用tensorflow中的双向长短期记忆网络(Bi-LSTM)和条件随机场模型(CRF)进行混合模型的构造，以此进行人名识别模型训练。

6、人名识别：通过训练的人名识别模型对特征向量矩阵进行字序列标注，抽取出标注为人名标签的连续字符串，根据标签类别重新组合为词级别的人名。

进一步地，所述步骤2中构建训练数据集TrainSet的具体步骤如下：

(1)标记电影评论对应人名和人名类别：随机抽取包含人名的评论集合CS，对CS中的每一条评论CS_i，依照步骤1中的定义抽取CS_i中的人名，组成人名集合N_i，依照N_i生成对应的标签集T_i；对评论CS_i进行基于字符的切割，生成对应的字符序列C_i；将CS_i对应的C_i，N_i，T_i组合为三元组(C_i,N_i,T_i)；三元组集合结构如下：

(C_i,N_i,T_i)＝([c₁,c₂,...c_m],[n₁,n₂,...n_k],[tag₁,tag₂,...tag_k])

其中，m为评论CS_i的字符数；c_j表示C_i中的第j个字符；k为评论CS_i包含的人名数，n_j表示N_i中的第j个人名，tag_j表示n_j对应的人名类别；

将所有CS_i对应的三元组(C_i,N_i,T_i)组成三元组集TS，TS结构如下：

TS＝{(C₁,N₂,T₃),(C₁,N₂,T₃),...(C_n,N_n,T_n)}；

(2)遍历TS中所有三元组，对每一个三元组(C_i,N_i,T_i)进行以下操作：

基于C_i中字符数量j，初始化字符标签数组S_i＝[s₁,s₂,...s_j]；初始值均为字符“u”，“u”表示非人名字符，基于三元组(C_i,N_i,T_i)的人名集N_i和标签集T_i，修改S_i中对应为人名字符的字符标签；

(3)产生训练数据集TrainSet中字符对应的标签：将TS中每一字符序列C_i与对应的S_i组合为二元组(C_i,S_i)。

进一步地，所述步骤3中映射字典的生成方法如下：

(1)对未标注数据集进行基于字符的切割，切割时，将连续英文字符串作一个字符，构建字符向量矩阵CharMat；所述字符向量矩阵CharMat的形式如下：CharMat＝[vec1,vec2,......vecn]，其中，n为未标注数据集中的评论数，vec为评论切割后生成的字符向量；

(2)将CharMat输入至skip-gram模型中，以字符代替词进行训练，构造字符的字向量。

进一步地，所述步骤4中命名特征字典的构建方法如下：

(1)从网络中获取人名数据集，人名数据集包括：中文人名集合、国外译名集合和英文名集合；

(2)根据人名的命名特征定义字典类型：包括：中文姓氏字典、中文单字名字典、中文双字名首字字典、中文双字名尾字字典、国外译名首字字典，国外译名中字字典、国外译名尾字字典和英文名字典，不同的字典类型对应不同的命名特征；

(3)产生各字符的命名特征字典：

1)在英文名集合中，将每一个英文名看作中文文本中的一个字符，将字符转化为字符特征向量时，若字符为英文，则标记为“1”，若字符为非英文，则标记为“0”，以获得英文名字典；

2)在中文人名集合和国外译名集合中统计人名中位于名首、名中和名末的用字频率；其次，对用字频率作离散化处理，将字频率映射至“0”，“1”，“2”，“3”，“4”，“5”六个层级，作为特征值；对于每一个字，将字和对应特征值组成键值对，获得相应命名特征字典；离散化处理公式如下：

value(c)＝round((freq(c)-min)/(max-min)*5.0)

其中，c为字符，value为字符c对应特征值，freq为字符c在人名某位置的频率，min为频率最大值，min为频率最少值，round()函数对浮点型数据进行四舍五入。

进一步地，所述步骤5中生成特征向量矩阵的具体步骤如下：

(a)构建字符映射字典：遍历C_i中每一字符c，判断字符映射字典中是否存在当前字符，若存在则跳过；若不存在则添加到字符映射字典，并赋予唯一数值型映射值；

(b)构建标签映射字典；遍历S_i中每一标签，判断标签映射字典中是否存在当前标签，若存在则跳过；若不存在则添加到标签映射字典，并赋予唯一数值型映射值；

(c)遍历步骤2生成的训练数据集TrainSet，对每一个二元组(C_i,S_i)，将S_i中每一个标签替换为标签映射字典中对应的映射值；将C_i中每一个字符c替换为字符映射字典中对应的映射值和命名特征字典中对应的命名特征；

c＝[index,n1,n2,n3,n4,n5,n6,n7,n8]

其中，index为字符c对应的映射值，n1～n8为各类命名特征；

(d)更新训练数据集TrainSet中的每一个二元组。

进一步地，所述步骤5中人名识别模型的模型训练方法过程如下：

(1)初始化两个LSTM神经网络，一个进行正向计算，一个进行反向计算；

(2)构造Bi-LSTM神经网络，Bi-LSTM神经网络包含输入层、正向层、反向层和输出层；

(3)设置正向层和反向层LSTM网络；

(4)添加CRF层，在正向层和方向层添加一层CRF，将Bi-LSTM神经网络输出的结果作为特征输入至CRF层，组成Bi-LSTM-CRF模型；

(5)设置输入层和输出层结构：输入层为[batch_size,sen_len,9]的三维矩阵，输出层为[batch_size,sen_len,tag_type]的三维矩阵；

(6)训练模型：将步骤(d)中所得的更新训练数据集TrainSet，按8：2切分为训练集和验证集；将更新训练数据集TrainSet按照batch_size切为若干份，并作为输入数据输入到Bi-LSTM-CRF模型中对网络中的参数进行训练；

(7)将字符特征替换为步骤3中所获取的字向量，并开始模型训练；

(8)训练时，基于随机梯度下降法(SGD)，对神经网络中的参数进行迭代优化；每次迭代后，利用更新后的Bi-LSTM-CRF模型，对验证集进行预测，预测结果为输出层的标签得分矩阵；

(9)对分矩阵计算损失函数值：损失函数采用交叉熵(Cross Entropy)，通过随机梯度下降法(SGD)不断减少损失函数值，从而将网络模型内各权重参数调至最优，获得混合特征的Bi-LSTM-CRF型人名识别器。

本发明的有益效果为：

1.本发明中提出一种适应电影评论的人名的命名实体类型，重新定义人名识别任务中的人名类别，解决了传统中文人名定义与电影评论中人名不相适应的问题；

2.以字符作为人名识别的标注对象，人名识别时采用四词位的标注法，对字符进行人名标注，标注后，再基于标注结果，将字符组合成词级别的人名，避免人名识别器在分词时的错误；

3.采用了组合特征的方法，组合利用字嵌入特征(字向量)和字符对应的命名特征，强化特征表达能力，提升了人名识别效果；

4.基于统计以及离散化将命名特征分为0-5六个级别，级别越高，表示字符作为人名字符的频率越高；

5.本发明中采用混合特征的Bi-LSTM-CRF型人名识别器，既利用Bi-LSTM神经网络能够保存上下文语义特征的特点，同时也利用了CRF层从句子层面考虑前后标注结果对当前标注的影响，强化了模型的学习能力。

附图说明

图1是本发明提供的面向电影评论的人名命名实体识别方法的模型训练流程图；

图2是本发明提供的面向电影评论的人名命名实体识别方法中Bi-LSTM神经网络构造图；

图3是本发明提供的面向电影评论的人名命名实体识别方法中Skip-gram模型的构造示意图；

图4是本发明提供的面向电影评论的人名命名实体识别方法中Bi-LSTM-CRF的构造示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步阐述。

如图1-图4所示，本发明提供了一种面向电影评论的人名命名实体识别方法，包括以下内容：

优选的，考虑到观众对演员和导演的称谓普遍带有主观性色彩，单纯中文人名并不能满足影评人名识别的需要。本文对影评中常用的人名称谓进行观察和归纳。最终将人名类别分为中文名(nr)，国外译名(nrf)，昵称(nrn)，英文名(nre)等四类。在进行数据集标注和预测人名时，同样分为四类进行标注，这是考虑到四类人名的内部结构，边界特征和上下文可能都存在区别。表1给出人名类别的详细定义，命名实体类型包括中文人名(nr)，国外译名(nrf)，英文名(nre)，昵称(nrn)等。以此为基础，进行后续的人工标注、模型训练、人名识别，解决传统人名识别任务中人名定义不适用于电影评论的问题。

给出各类人名的定义：

中文人名(nr)

组成：姓氏+单字名例：陈坤

组成：姓氏+双字名例：吴亦凡

国外译名(nrf)

组成：译名姓氏例：亚伯拉罕

组成:译名名称例：珍妮

组成:名称+“·”+姓氏例：范·迪塞尔

英文名(nre)

组成：名称例：Vin、jack

组成：昵称例：angelababy

组成：姓氏例：Diesel

组成：名称+“”+姓氏例：Vin Diesel

昵称(nrn)

组成：双字名例：亦凡

组成：名用字+名用字例：凡凡，鹿鹿

组成：姓氏+称呼例：凡先生、冯导演

组成：昵称字+名用字例：老吴，啊包，我凡

组成：名用字+昵称字例：凡哥

组成：特殊称谓例：水果姐(凯蒂·佩里)，医生(陈奕迅)。

本文采用基于字的人名标注方法，需要对影评中出现的字符标签进行定义。本文参考四词位标注法，结合四类影评人名，将标签分为十一类，见表2。

表2字符标签类别

后续工作都基于上述标签定义对影评数据进行标注，预处理以及最终的标签预测。

3、字向量字典构建：对未标注数据集进行以字符为单位的切割，构造字符矩阵，构造字符矩阵作为输入数据，利用word2vec中的skip-gram模型，对字符矩阵进行无监督的字嵌入预训练，skip-gram模型将每个字投射到统一维度的向量空间中，从而表征字的语义，得到语义中每个字符的字向量，构建字符与字向量的映射字典；利用字向量，可以计算两个字间的语义相似度，字向量将字抽象为可计算的向量结构，为基于字的人名识别方法提供语义特征；

4、构建命名特征字典：从网络中获取人名数据集，根据人名的命名特征定义字典类型，每种类型的字典对应一个命名特征，命名特征包括以下八类：中文姓氏特征，中文单字名特征，中文双字名首字特征，中文双字名尾字特征，国外译名首字特征，国外译名中字特征和英文名特征，以产生各字符对应的命名特征字典；外部字典为人名识别器提供更多的特征，能够尽可能弥补由于标注数据有限带来的不足。

其中，利用tensorflow中的双向长短期记忆网络(Bi-LSTM)和条件随机场模型(CRF)进行混合模型的构造，以此进行人名识别模型训练，既利用Bi-LSTM能够保存上下文语义的特点，也利用了CRF层从句子层面考虑前后标注结果对当前标注的影响。模型适用于句法不规则、语言形式复杂的电影评论中。

6、人名识别：对待识别的电影评论进行步骤5中的处理以获得特征向量矩阵，通过训练的人名识别模型对特征向量矩阵进行字序列标注，抽取出标注为人名标签的连续字符串(标签不是“u”)，根据标签类别(B词首，M词中，E词尾，S单字词)重新组合为词级别的人名。

所述步骤2中构建训练数据集TrainSet的具体步骤如下：

TS＝{(C₁,N₂,T₃),(C₁,N₂,T₃),...(C_n,N_n,T_n)}；

修改方法如下，具体说明，参考中文分词中常用的四词位标注法，将人名中的字符分为<B,M,E,S>四类，其中B为人名词首，M为人名词中，E为人名词尾，S为单字符人名：

对N_i中的所有人名n_j，获取人名n_j所在评论字符序列C_i中的首字索引t和人名n_j的长度k，并执行以下操作；

如果人名n_j对应Ti中的标签为nr且k＝2，则：

S_i[i]＝“B-nr”；

S_i[i+1]＝“E-nr”；

如果人名n_j对应T_i中的标签为nr且k>2，则：

S_i[i]＝“B-nr”；

S_i[i+1]＝“M-nr”；

...

S_i[i+K-2]＝“M-nr”；

S_i[i+k-1]＝“E-nr”

如果人名n_j对应T_i中的标签为nrn且k＝2，则：

S_i[i]＝“B-nrn”；

S_i[i+1]＝“E-nrn”；

如果人名n_j对应T_i中的标签为nrn且k>2，则：

S_i[i]＝“B-nrn”；

S_i[i+1]＝“M-nrn”；

...

S_i[i+K-2]＝“M-nrn”；

S_i[i+k-1]＝“E-nrn”

如果人名n_j对应T_i中的标签为nrf且k＝2，则：

S_i[i]＝“B-nrf”；

S_i[i+1]＝“E-nrf”；

如果人名n_j对应T中的标签为nrf且k>2，则：

S_i[i]＝“B-nrf”；

S_i[i+1]＝“M-nrf”；

...

S_i[i+K-2]＝“M-nrf”；

S_i[i+k-1]＝“E-nrf”；

如果人名n_j对应T_i中的标签为nre则：

S_i[i]＝“S-nre”；

所述步骤3中映射字典的生成方法如下：

(2)将CharMat输入至skip-gram模型中，以字符代替词进行训练，构造字符的字向量；训练时设置字向量维度为200维，最终以键值对的形式构造字向量索引字典。

其中，skip-gram模型实质上只是一个三层的神经网络，包含输入层，输出层和隐藏层，skip-gram模型如图3所示，Skip-gram模型是一个基于当前词w(t),预测上下文(语境)的神经网络。与一般的神经网络不同，skip-gram的目的并非是输出层的预测结果，而是训练后隐藏层中的参数。Skip-gram模型为输入层为经过one-hot编码的词向量，模型训练实质其实是极大似然估计(Maximum Likelihood Estimation)，训练目标是获取最大概率产生当前观测数据的神经网络参数。

通过公式阐述skip-gram模型训练原理：

(一)定义如下符号：

文本集合：T，待训练的文本

当前词：w，文本

其中，条件概率p(s|c；θ)的计算使用逻辑回归扩展Softmax对θ进行标准化处理,如式(2)所示：

式中Vs和Vw分别是s和w的词向量；词向量通过各词的one-hot编码和参数矩阵θ进行乘积计算获得编码。ont-hot编码是一个非常稀疏的向量|D|，每一维代表了文本词典D中的一个词；参数矩阵θ的行数也是|D|，而列数就是训练后词向量的维度。

(二)通过以常数e为底的自然log运算，将式(1)中的概率乘积转话为概率求和，利用梯度上升法，最大化概率之和，从而获得参数矩阵θ，而参数矩阵中的每一行正是对应词的词向量。

所述步骤4中命名特征字典的构建方法如下：

(3)产生各字符的命名特征字典：

2)在中文人名集合和国外译名集合中统计人名中位于名首、名中和名末的用字频率；其次，对用字频率作离散化处理，将字频率映射至“0”，“1”，“2”，“3”，“4”，“5”六个层级，作为特征值；对于每一个字，将字和对应特征值组成键值对，获得相应命名特征字典；对于每一个字，作为某类名字内部结构的频率越高，说明其越表征能力越强，特征构造方法如下：

其中，c为字符，v为字符c对应特征值，fc为c的字符频率，f_max为频率最大值，f_min为频率最少值，round()函数对浮点型数据进行四舍五入。

离散化处理公式如下：

value(c)＝round((freq(c)-min)/(max-min)*5.0)

所述步骤5中生成特征向量矩阵的具体步骤如下：

c＝[index,n1,n2,n3,n4,n5,n6,n7,n8]

其中，index为字符c对应的映射值，n1～n8为各类命名特征；

(d)更新训练数据集TrainSet中的每一个二元组，更新训练数据集TrainSet则可作为后续步骤中Bi-LSTM-CRF模型的输入层。

模型组合背景：模型的混合在Bi-LSTM的基础上进行，实际上，Bi-LSTM网络层加上Softmax层便可实现模型的训练和预测，Softmax层可以将Bi-LSTM网络输出的各标签得分转换为概率。

而Bi-LSTM-CRF模型则是舍弃Softmax层并在Bi-LSTM层和输出层间添加CRF层，如图4所示，在这里CRF的作用主要是对Bi-lstm网络的输出结果增加约束，由于CRF的目标函数是通过条件概率计算和优化的，这也意味着CRF能更加考虑上下文的约束问题，避免不合法的标注情况出现。如：标签“B-nr”后面接标签“E-nrn”。

所述步骤5中人名识别模型的模型训练方法过程如下：

(1)初始化两个LSTM神经网络，一个进行正向计算，一个进行反向计算；以此考虑上文和下文标注结果对当前标注计算的影响。

(2)构造Bi-LSTM神经网络，Bi-LSTM神经网络包含输入层(Input Layer)、正向层(Forward Layer)、反向层(Backward Layer)和输出层(Output Layer)，如图2所示。

(3)设置正向层和反向层LSTM网络，两层神经网络均设置256个全连接LSTM神经元，训练时基于dropout函数进行随机剪枝，以提高训练速度和防止过拟合(overfitting)；LSTM层包含了对应输出层各个特征的权重参数，并组成矩阵。

(4)添加CRF层，在正向层和方向层添加一层CRF，将Bi-LSTM神经网络输出的结果作为特征输入至CRF，从而考虑前后标注结果对当前标注的影响，组成Bi-LSTM-CRF模型；

(5)设置输入层和输出层结构：输入层为[batch_size,sen_len,9]的三维矩阵，其中，第一维batch_size为数据块大小，设为32，每一次训练32条评论；第二维Sen_len为评论的最大长度，设为133；训练的单条评论字符数小于或等于133，当评论长度小于133时，用“0”填充空缺；第三维为特征向量，根据步骤2.2.5的设置，特征向量共9维特征。

输出层为[batch_size,sen_len,tag_type]的三维矩阵；前两维与输入层一致，第三维为标签类别数量，第三维向量得到字符被标注为各类标签的得分。

(6)训练模型：将步骤(d)中所得的更新训练数据集TrainSet，按8：2切分为训练集和验证集；将更新训练数据集TrainSet按照batch_size切为若干份，并作为输入数据输入到Bi-LSTM-CRF模型中对网络中的参数进行训练；验证集作为模型训练时的优化依据。

(8)训练时，基于随机梯度下降法(SGD)，对神经网络中的参数进行迭代优化；每次迭代后，利用更新后的Bi-LSTM-CRF模型，对验证集进行预测，预测结果为输出层的标签得分矩阵；将分矩阵中各得分通过softmax函数转换为字符属于各类标签的概率；

(9)对分矩阵计算损失函数值：损失函数采用交叉熵(Cross Entropy)，通过随机梯度下降法(SGD)不断减少损失函数值，从而将网络模型内各权重参数调至最优，迭代停止的标准为：在最近的5次迭代中，损失函数计算的损失值均无下降，损失函数是指一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数，更通俗地说，在统计学中损失函数是一种衡量损失和错误(这种损失与“错误地”估计有关，如费用或者设备的损失)程度的函数，以获得混合特征的Bi-LSTM-CRF型人名识别器。

为验证方法的效果，进行了实验验证。验证数据集获取自豆瓣中1224部电影约600万评论作为未标注数据集。其中，对80部电影进行人工标注，电影类别包含除动画电影外的各类电影。65部作为训练集，15部作为测试集。以此方法模拟基于现有电影对新电影进行人名识别的应用场景。预测测试集中共有454条评论，各类别人名数目为674个。

对本发明的识别效果评测标准为：

1)准确率P＝正确预测的人名数/预测为人名数；

2)召回率R＝正确预测人名数/实际标注的人名数；

3)综合指标F1＝2*P*R/(P+R)；

为证明本发明效果，引入crf模型+字符特征，crf模型+命名特征，Bi-LSTM-CRF+字符特征，Bi-LSTM-CRF+字向量，Bi-LSTM-CRF+命名特征等模型进行对比实验。字符特征指仅利用字符本身作为特征。对以上方法与本发明方法进行准确率，召回率，F1值等指标的对比实验。实验结果如下：

通过实验证明，本发明方法，Bi-LSTM-CRF模型+命名特征+字向量在三类指标中均取得最好的效果。

本发明不局限于上述可选实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是落入本发明权利要求界定范围内的技术方案，均落在本发明的保护范围之内。

Claims

1.一种面向电影评论的人名命名实体识别方法，其特征在于，包括以下内容：

其中，利用tensorflow中的双向长短期记忆网络(Bi-LSTM)和条件随机场模型(CRF)进行混合模型的构造，以此进行人名识别模型训练；

2.根据权利要求1所述的面向电影评论的人名命名实体识别方法，其特征在于，所述步骤2中构建训练数据集TrainSet的具体步骤如下：

TS＝{(C₁,N₂,T₃),(C₁,N₂,T₃),...(C_n,N_n,T_n)}；

基于C_i中字符数量j，初始化字符标签数组S_i＝[s₁,s2,...s_j]；初始值均为字符“u”，“u”表示非人名字符，基于三元组(C_i,N_i,T_i)的人名集N_i和标签集T_i，修改S_i中对应为人名字符的字符标签；

3.根据权利要求1所述的面向电影评论的人名命名实体识别方法，其特征在于，所述步骤3中映射字典的生成方法如下：

4.根据权利要求1所述的面向电影评论的人名命名实体识别方法，其特征在于，所述步骤4中命名特征字典的构建方法如下：

(3)产生各字符的命名特征字典：

value(c)＝round((freq(c)-min)/(max-min)*5.0)

5.根据权利要求1所述的面向电影评论的人名命名实体识别方法，其特征在于，所述步骤5中生成特征向量矩阵的具体步骤如下：

c＝[index,n1,n2,n3,n4,n5,n6,n7,n8]

其中，index为字符c对应的映射值，n1～n8为各类命名特征字典；

(d)更新训练数据集TrainSet中的每一个二元组。

6.根据权利要求5所述的面向电影评论的人名命名实体识别方法，其特征在于，所述步骤5中人名识别模型的模型训练方法过程如下：

(3)设置正向层和反向层LSTM网络；