CN109960728A

CN109960728A - 一种开放域会议信息命名实体识别方法及系统

Info

Publication number: CN109960728A
Application number: CN201910182287.7A
Authority: CN
Inventors: 熊蕊; 吴晨生
Original assignee: Beijing Institute Of Science And Technology Information (beijing Science And Technology Information Center)
Current assignee: Beijing Science And Tech Research Inst
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2019-07-02
Anticipated expiration: 2039-03-11
Also published as: CN109960728B

Abstract

本发明公开了一种开放域会议信息命名实体识别方法及系统。识别方法具体包括：获取开放域数据会议的原始文本信息；将原始文本信息转化为多个数字序列，每一个数字序列为一句话；将所述数字序列通过词嵌入层映射为字向量，获得字向量；将字向量采用命名实体识别模型，获得每个时间各个标签的最优标签组合索引；将最优组合标签索引通过词表转化为标签名；将字对应的标签名合成为词标签；根据词标签获得会议名称命名实体和会议地点命名实体。本发明采用基于字进行标注，标注实体类型的首字、中间字、末尾字，能够组成一个词的标注类型，规避了对新词的处理及不同分词工具、分词错误对识别及抽取效果的影响。

Description

一种开放域会议信息命名实体识别方法及系统

技术领域

本发明涉及会议信息检索领域，特别是涉及一种开放域会议信息命名实体识别方法及系统。

背景技术

随着科学技术的飞速发展，科技工作者之间学术交流的平台、方式也越来越多。学术会议就是科技工作者通过开展学术讲座、发表学术论文的方式，介绍和分享自己的科研工作和成果，以及了解相关领域的研究内容、研究成果的一个平台。通过学术会议能够追踪相关领域的研究方向，研究热点，了解当前研究中的研究难点及关键技术方法，得到具有指导意义的结论。另外，追踪学术会议的相关信息，对信息进行抽取挖掘，也是科技工作者的一个重要手段。因此，会议相关的事件知识和实体知识变得越来越重要。

信息时代，学术会议相关信息以自然语言、非结构化的形式湮没在海量的互联网信息中。如何从互联网海量的非结构化数据提取相关的信息并以结构化的形式存储显示，是科技情报工作者寄到科技亟待要解决的技术问题。命名实体识别及抽取是信息检索、信息处理、数据挖掘、事件知识和实体知识获取的一个重要的基础技术。狭义上，命名实体主要分为三类：人名、地名、机构名。广义上是指各个特定领域的专有名词；比如生物医药领域的基因名、药品名，商业领域的产品名称，不同领域的命名实体识别及抽取的任务也会相应的不同。

早期的命名实体识别及抽取以基于规则的方法为主，但是由于不同的命名实体类型在不同的领域具有多变性、复杂性的特点，依靠语言学知识构建的规则移植性很差，具有局限性。近年来，随着机器学习、深度学习的兴起，基于统计的方法因其仅需使用带有标注的语料库进行训练，从语料中对特征进行统计的精度低，缺乏特定领域公开的标注语料，导致识别抽取开放域文本中的精度低。

发明内容

本发明的目的是提供一种能够提高开放域文本的命名实体的识别精度的开放域会议信息命名实体识别方法及系统。

为实现上述目的，本发明提供了如下方案：

一种开放域会议信息命名实体识别方法，所述识别方法具体包括：

获取开放域数据会议的原始文本信息；

将所述原始文本信息转化为多个数字序列，所述每一个所述数字序列为一句话；

将所述数字序列通过词嵌入层映射为字向量；

将所述字向量采用命名实体识别模型，获得每个时间各个标签的最优标签组合索引，基于标注好的训练集进行训练获得所述命名实体识别训练模型；

将所述最优组合标签索引通过词表转化为标签名；

将字对应的标签名合成为词标签；

根据所述词标签获得会议名称命名实体和会议地点命名实体。

可选的，所述在将所述原始文本信息转化为多个数字序列之前还包括：

从互联网资源中获取训练数据集；

将所述训练数据集标注命名实体，获得标注训练数据集；

将网站有地名的开源词库作为地名命名实体识别词典资源，获得地名命名实体词典；通过筛选所述训练数据集的会议名称作为词典资源，获得会议名称实体词典；

预处理所述标注训练数据集，获得预处理训练数据集；

采用分词工具将所述训练数据集的原始文本分词处理，获得分词结果；

将所述分词结果分别与所述地名命名实体词典和所述会议名称实体词典相匹配，获得匹配结果；

将所述匹配结果为成功的词打上相应的命名实体标签，获得标签词；

将所述标签词中的字进行标签标注，会议名称的首字标注为B-CON，会议名称的中间字标注为M-CON，会议名称的末尾字标注为E-CON，地点名称的首字标注为B-LOC，地点名称的中间字标注为M-LOC，地点名称的末尾字标注为E-LOC，其他类型的字标注为O。

可选的，所述将所述原始文本信息转化为多个数字序列具体包括：

采用字符串的形式获取按照字标注的训练数据集，获得标注训练数据集；

获取所述标注训练数据集中的字和标签；

将所述字根据词频按照降序排列，在所述字上标上序号，获得序号字，并将所述序号字存储在字的词表中；

将所述标签从1到7标号，并存储于标签的词表中；

将所述字和所述标签都转化为数值的映射，并存储在所述标签的词表和所述字的词表中，获得词表集；

所述词表集包括字到数值的映射、数值到字的映射、标签到数值的映射、数值到标签的映射；

将所述训练数据集的字和标签分开，并根据所述字到数值的映射和所述标签到数值的映射，获得字和标签的数值序列。

可选的，命名实体识别训练模型具体包括：

将所述训练数据集中的句子序列字向量化处理，获得字向量；

包含n个字的句子序列为x＝(x₁,x₂,x₃,...,x_t,...,x_n)，其中x_t表示第t个时间步的字的数值，经过词嵌入层处理后的字向量为X＝(x′₁,x′₂,x′₃,..,x′_t,...,x′_n)，x′_t为第t个时间步的字的数值经过词嵌入层得到的字向量，x′_t∈R^d，d为字嵌入的维度；

根据所述训练数据集训练双向长短时记忆网络；

时刻t的一个长短时单元用公式表示为

i_t＝σ(W_i[h_t-1,x_t]+b_i)

f_t＝σ(W_i[h_t-1,x_t]+b_f)

h_t＝o_t⊙tanh(c_t)；

其中，f表示遗忘门，确定从前一时刻发送的信息的丢弃部分；i表示输入门；是候选值的向量，通过i和可以得到C来更新神经元的状态；o是输出门h是LSTM的隐状态序列；W是连接权值向量；b_i,b_f,b_c是偏置向量；

将所述字向量输入所述双向长短时记忆网络，将正向LSTM层的隐状态序列与反向LSTM层的隐状态序列在各个时间步位置按时间步拼接得到完整的隐状态序列(h₁，h₂，...，h_n)∈R^n×m；

接入一个线性层o_t＝Vh_t，V为权值矩阵，将隐状态序列向量映射为相应的所述双向长短时记忆网络的输出为O＝(o₁，o₂，o₃，...o_t，...，o_n)∈R^n×k,o_t为第t个时间步的输出向量，该向量为将字x_t分类到各个标签状态i的打分值(o_i)_t，i表示标签类型，k表示标签个数；每一个时间步的预测输出结果为y_t＝softmax((o_i)_t)；

训练采用的代价函数为(y_i)_t是时间步t对应的状态i的索引。

可选的，所述将所述字向量采用训练好的命名实体识别模型，获得每个时间各个标签的最优标签组合索引具体包括：

根据所述训练数据集计算各个标签状态之间的转移概率a_ij；

基于训练集数据统计所有标签组合的出现次数N_ij，状态i到下一时间步状态j的转移概率为

对输出训练数据集进行解码运算；

时间步t时状态为i的所有路径中的最大值用δ_t(i)表示，时间步t时状态为i的所有路径中的最大值的路径索引用ψ_t(i)表示，时间步t＝1时，有篱笆网络的初始状态

δ₁(i)＝π_i(o_i)₁，i＝1，2，...，7

ψ₁(i)＝0，i＝1，2，...，7

对于时刻t＝2,3,…,依次类推

在一个序列最后一个时间步有

各标签类型的中间字和首字有3种标签状态；

i_n ^*为最后一个字的最优路径索引；

对t＝n-1，n-2，…,1,有i_t ^*＝ψ_t+1(i_t+1 ^*)

i_t ^*表示时间步t时的最优路径索引，得到一个句子所时间步最优标签索引组合(i₁ ^*，i₂ ^*，...，i_t ^*，...，i_n ^*)。

可选的，所述识别方法还包括：

获取存在所述会议名称命名实体和所述会议地点命名实体的句子序列；

将所述句子序列进行时间命名实体模块进行命名实体识别和抽取，获得抽取结果；

将所述抽取结果采用文本形式存储。

一种开放域会议信息命名实体识别系统，所述识别系统具体包括：

原始文本信息获取模块，用于获取开放域数据会议的原始文本信息；

数字序列转化模块，用于将所述原始文本信息转化为多个数字序列，所述每一个所述数字序列为一句话；

词嵌入层映射模块，用于将所述数字序列通过词嵌入层映射为字向量，获得字向量；

识别训练模型模块，用于将所述字向量采用命名实体识别训练模型，获得每个时间各个标签的最优标签组合索引；

标签名转化模块，用于将所述最优组合标签索引通过词表转化为标签名；

词标签合成模块，用于将字对应的标签名合成为词标签；

命名实体模块，用于根据所述词标签获得会议名称命名实体和会议地点命名实体。

可选的，所述识别系统还包括：

训练数据获取模块，用于从互联网资源中获取训练数据集；

命名实体标注模块，用于将所述训练数据集标注命名实体，获得标注训练数据集；

实体词典获取模块，用于将网站有地名的开源词库作为地名命名实体识别词典资源，获得地名命名实体词典；通过筛选所述训练数据集的会议名称作为词典资源，获得会议名称实体词典；

预处理模块，用于预处理所述标注训练数据集，获得预处理训练数据集；

分词模块，用于采用分词工具将所述训练数据集的原始文本分词处理，获得分词结果；

匹配模块，用于将所述分词结果分别与所述地名命名实体词典和所述会议名称实体词典相匹配，获得匹配结果；

标签标注模块，用于将所述标签词中的字进行标签标注，会议名称的首字标注为B-CON，会议名称的中间字标注为M-CON，会议名称的末尾字标注为E-CON，地点名称的首字标注为B-LOC，地点名称的中间字标注为M-LOC，地点名称的末尾字标注为E-LOC，其他类型的字标注为O。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明公开了一种开放域会议信息命名实体识别方法及系统。所述识别方法具体包括：获取开放域数据会议的原始文本信息；将所述原始文本信息转化为多个数字序列，所述每一个所述数字序列为一句话；将所述数字序列通过词嵌入层映射为字向量，获得字向量；将所述字向量采用命名实体识别模型，获得每个时间各个标签的最优标签组合索引；将所述最优组合标签索引通过词表转化为标签名；将字对应的标签名合成为词标签；根据所述词标签获得会议名称命名实体和会议地点命名实体。本发明采用基于字进行标注，标注实体类型的首字、中间字、末尾字，能够组成一个词的标注类型，规避了对新词的处理及不同分词工具、分词错误对识别及抽取效果的影响。利用上下文语境作为约束进行标签组合，提高了命名实体识别及抽取的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种开放域会议信息命名实体识别方法的流程图；

图2为本发明提供的识别训练模型示意图；

图3为本发明提供的维特比算法篱笆网络示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，一种开放域会议信息命名实体识别方法，所述识别方法具体包括：

步骤100：获取开放域数据会议的原始文本信息；

步骤200：将所述原始文本信息转化为多个数字序列，所述每一个所述数字序列为一句话；

步骤300：将所述数字序列通过词嵌入层映射为字向量，获得字向量；

步骤400：将所述字向量采用命名实体识别训练模型，获得每个时间各个标签的最优标签组合索引，基于标注好的训练集进行训练获得所述命名实体识别训练模型；

步骤500：将所述最优组合标签索引通过词表转化为标签名；

步骤600：将字对应的标签名合成为词标签；

步骤700：根据所述词标签获得会议名称命名实体和会议地点命名实体。

所述在将所述原始文本信息转化为多个数字序列之前还包括：

从互联网资源中获取训练数据集；

将所述训练数据集标注命名实体，获得标注训练数据集；

预处理所述标注训练数据集，获得预处理训练数据集；

所述将所述原始文本信息转化为多个数字序列具体包括：

获取所述标注训练数据集中的字和标签；

将所述标签从1到7标号，并存储于标签的词表中；

如图2所示，命名实体识别训练模型具体包括：

根据所述训练数据集训练双向长短时记忆网络；

时刻t的一个长短时单元用公式表示为

i_t＝σ(W_i[h_t-1,x_t]+b_i)

f_t＝σ(W_i[h_t-1,x_t]+b_f)

h_t＝o_t⊙tanh(c_t)；

训练采用的代价函数为(y_i)_t是时间步t对应的状态i的索引。

所述将所述字向量采用命名实体识别训练模型，获得每个时间各个标签的最优标签组合索引具体包括：

根据所述训练数据集计算各个标签状态之间的转移概率a_ij；

采用维特比算法对所述双向长短时记忆网络的输出训练数据集进行解码运算；

δ₁(i)＝π_i(o_i)₁，i＝i，2，...，7

ψ₁(i)＝0，i＝1，2，...，7

对于时刻t＝2,3,…,依次类推

在一个序列最后一个时间步有

各标签类型的中间字和首字有3种标签状态；

i_n ^*为最后一个字的最优路径索引；

对t＝n-1，n-2，…,1,有i_t ^*＝ψ_t+1(i_t+1 ^*)

所述识别方法还包括：

将所述抽取结果采用文本形式存储。

词标签合成模块，用于将字对应的标签名合成为词标签；

可选的，所述识别系统还包括：

训练数据获取模块，用于从互联网资源中获取训练数据集；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种开放域会议信息命名实体识别方法，其特征在于，所述识别方法具体包括：

获取开放域数据会议的原始文本信息；

将所述数字序列通过词嵌入层映射为字向量，获得字向量；

将所述字向量采用命名实体识别训练模型，获得每个时间各个标签的最优标签组合索引，基于标注好的训练集进行训练获得所述命名实体识别训练模型；

将所述最优组合标签索引通过词表转化为标签名；

将字对应的标签名合成为词标签；

2.根据权利要求1所述的一种开放域会议信息命名实体识别方法，其特征在于，所述在将所述原始文本信息转化为多个数字序列之前还包括：

从互联网资源中获取训练数据集；

将所述训练数据集标注命名实体，获得标注训练数据集；

预处理所述标注训练数据集，获得预处理训练数据集；

3.根据权利要求1所述的一种开放域会议信息命名实体识别方法，其特征在于，所述将所述原始文本信息转化为多个数字序列具体包括：

获取所述标注训练数据集中的字和标签；

将所述标签从1到7标号，并存储于标签的词表中；

4.根据权利要求2所述的一种开放域会议信息命名实体识别方法，其特征在于，命名实体识别训练模型具体包括：

根据所述训练数据集训练双向长短时记忆网络；

时刻t的一个长短时单元用公式表示为

i_t＝σ(W_i[h_t-1,x_t]+b_i)

f_t＝σ(W_i[h_t-1,x_t]+b_f)

训练采用的代价函数为(y_i)_t是时间步t对应的状态i的索引。

5.根据权利要求2所述的一种开放域会议信息命名实体识别方法，其特征在于，所述将所述字向量采用命名实体识别训练模型，获得每个时间各个标签的最优标签组合索引具体包括：

根据所述训练数据集计算各个标签状态之间的转移概率a_ij；

对输出训练数据集进行解码运算；

δ_t(i)＝π_i(o_i)₁，i＝i，2，...，7

ψ₁(i)＝0，i＝i，2，...，7

对于时刻t＝2,3,…,依次类推

在一个序列最后一个时间步有

各标签类型的中间字和首字有3种标签状态；

i_n ^*为最后一个字的最优路径索引；

对t＝n-1，n-2，…,1,有i_t ^*＝ψ_t+1*(i_t+1 ^*)

6.根据权利要求1所述的一种开放域会议信息命名实体识别方法，其特征在于，所述识别方法还包括：

将所述抽取结果采用文本形式存储。

7.一种开放域会议信息命名实体识别系统，其特征在于，所述识别系统具体包括：

词嵌入层映射模块，用于将所述数字序列通过词嵌入层映射为字向量；

词标签合成模块，用于将字对应的标签名合成为词标签；

8.根据权利要求7所述的一种开放域会议信息命名实体识别系统，其特征在于，所述识别系统还包括：

训练数据获取模块，用于从互联网资源中获取训练数据集；