CN109960728A - 一种开放域会议信息命名实体识别方法及系统 - Google Patents
一种开放域会议信息命名实体识别方法及系统 Download PDFInfo
- Publication number
- CN109960728A CN109960728A CN201910182287.7A CN201910182287A CN109960728A CN 109960728 A CN109960728 A CN 109960728A CN 201910182287 A CN201910182287 A CN 201910182287A CN 109960728 A CN109960728 A CN 109960728A
- Authority
- CN
- China
- Prior art keywords
- word
- name
- label
- entity
- obtains
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种开放域会议信息命名实体识别方法及系统。识别方法具体包括:获取开放域数据会议的原始文本信息;将原始文本信息转化为多个数字序列,每一个数字序列为一句话;将所述数字序列通过词嵌入层映射为字向量,获得字向量;将字向量采用命名实体识别模型,获得每个时间各个标签的最优标签组合索引;将最优组合标签索引通过词表转化为标签名;将字对应的标签名合成为词标签;根据词标签获得会议名称命名实体和会议地点命名实体。本发明采用基于字进行标注,标注实体类型的首字、中间字、末尾字,能够组成一个词的标注类型,规避了对新词的处理及不同分词工具、分词错误对识别及抽取效果的影响。
Description
技术领域
本发明涉及会议信息检索领域,特别是涉及一种开放域会议信息命名实体识别方法及系统。
背景技术
随着科学技术的飞速发展,科技工作者之间学术交流的平台、方式也越来越多。学术会议就是科技工作者通过开展学术讲座、发表学术论文的方式,介绍和分享自己的科研工作和成果,以及了解相关领域的研究内容、研究成果的一个平台。通过学术会议能够追踪相关领域的研究方向,研究热点,了解当前研究中的研究难点及关键技术方法,得到具有指导意义的结论。另外,追踪学术会议的相关信息,对信息进行抽取挖掘,也是科技工作者的一个重要手段。因此,会议相关的事件知识和实体知识变得越来越重要。
信息时代,学术会议相关信息以自然语言、非结构化的形式湮没在海量的互联网信息中。如何从互联网海量的非结构化数据提取相关的信息并以结构化的形式存储显示,是科技情报工作者寄到科技亟待要解决的技术问题。命名实体识别及抽取是信息检索、信息处理、数据挖掘、事件知识和实体知识获取的一个重要的基础技术。狭义上,命名实体主要分为三类:人名、地名、机构名。广义上是指各个特定领域的专有名词;比如生物医药领域的基因名、药品名,商业领域的产品名称,不同领域的命名实体识别及抽取的任务也会相应的不同。
早期的命名实体识别及抽取以基于规则的方法为主,但是由于不同的命名实体类型在不同的领域具有多变性、复杂性的特点,依靠语言学知识构建的规则移植性很差,具有局限性。近年来,随着机器学习、深度学习的兴起,基于统计的方法因其仅需使用带有标注的语料库进行训练,从语料中对特征进行统计的精度低,缺乏特定领域公开的标注语料,导致识别抽取开放域文本中的精度低。
发明内容
本发明的目的是提供一种能够提高开放域文本的命名实体的识别精度的开放域会议信息命名实体识别方法及系统。
为实现上述目的,本发明提供了如下方案:
一种开放域会议信息命名实体识别方法,所述识别方法具体包括:
获取开放域数据会议的原始文本信息;
将所述原始文本信息转化为多个数字序列,所述每一个所述数字序列为一句话;
将所述数字序列通过词嵌入层映射为字向量;
将所述字向量采用命名实体识别模型,获得每个时间各个标签的最优标签组合索引,基于标注好的训练集进行训练获得所述命名实体识别训练模型;
将所述最优组合标签索引通过词表转化为标签名;
将字对应的标签名合成为词标签;
根据所述词标签获得会议名称命名实体和会议地点命名实体。
可选的,所述在将所述原始文本信息转化为多个数字序列之前还包括:
从互联网资源中获取训练数据集;
将所述训练数据集标注命名实体,获得标注训练数据集;
将网站有地名的开源词库作为地名命名实体识别词典资源,获得地名命名实体词典;通过筛选所述训练数据集的会议名称作为词典资源,获得会议名称实体词典;
预处理所述标注训练数据集,获得预处理训练数据集;
采用分词工具将所述训练数据集的原始文本分词处理,获得分词结果;
将所述分词结果分别与所述地名命名实体词典和所述会议名称实体词典相匹配,获得匹配结果;
将所述匹配结果为成功的词打上相应的命名实体标签,获得标签词;
将所述标签词中的字进行标签标注,会议名称的首字标注为B-CON,会议名称的中间字标注为M-CON,会议名称的末尾字标注为E-CON,地点名称的首字标注为B-LOC,地点名称的中间字标注为M-LOC,地点名称的末尾字标注为E-LOC,其他类型的字标注为O。
可选的,所述将所述原始文本信息转化为多个数字序列具体包括:
采用字符串的形式获取按照字标注的训练数据集,获得标注训练数据集;
获取所述标注训练数据集中的字和标签;
将所述字根据词频按照降序排列,在所述字上标上序号,获得序号字,并将所述序号字存储在字的词表中;
将所述标签从1到7标号,并存储于标签的词表中;
将所述字和所述标签都转化为数值的映射,并存储在所述标签的词表和所述字的词表中,获得词表集;
所述词表集包括字到数值的映射、数值到字的映射、标签到数值的映射、数值到标签的映射;
将所述训练数据集的字和标签分开,并根据所述字到数值的映射和所述标签到数值的映射,获得字和标签的数值序列。
可选的,命名实体识别训练模型具体包括:
将所述训练数据集中的句子序列字向量化处理,获得字向量;
包含n个字的句子序列为x=(x1,x2,x3,...,xt,...,xn),其中xt表示第t个时间步的字的数值,经过词嵌入层处理后的字向量为X=(x′1,x′2,x′3,..,x′t,...,x′n),x′t为第t个时间步的字的数值经过词嵌入层得到的字向量,x′t∈Rd,d为字嵌入的维度;
根据所述训练数据集训练双向长短时记忆网络;
时刻t的一个长短时单元用公式表示为
it=σ(Wi[ht-1,xt]+bi)
ft=σ(Wi[ht-1,xt]+bf)
ht=ot⊙tanh(ct);
其中,f表示遗忘门,确定从前一时刻发送的信息的丢弃部分;i表示输入门;是候选值的向量,通过i和可以得到C来更新神经元的状态;o是输出门h是LSTM的隐状态序列;W是连接权值向量;bi,bf,bc是偏置向量;
将所述字向量输入所述双向长短时记忆网络,将正向LSTM层的隐状态序列与反向LSTM层的隐状态序列在各个时间步位置按时间步拼接得到完整的隐状态序列(h1,h2,...,hn)∈Rn×m;
接入一个线性层ot=Vht,V为权值矩阵,将隐状态序列向量映射为相应的所述双向长短时记忆网络的输出为O=(o1,o2,o3,...ot,...,on)∈Rn×k,ot为第t个时间步的输出向量,该向量为将字xt分类到各个标签状态i的打分值(oi)t,i表示标签类型,k表示标签个数;每一个时间步的预测输出结果为yt=softmax((oi)t);
训练采用的代价函数为(yi)t是时间步t对应的状态i的索引。
可选的,所述将所述字向量采用训练好的命名实体识别模型,获得每个时间各个标签的最优标签组合索引具体包括:
根据所述训练数据集计算各个标签状态之间的转移概率aij;
基于训练集数据统计所有标签组合的出现次数Nij,状态i到下一时间步状态j的转移概率为
对输出训练数据集进行解码运算;
时间步t时状态为i的所有路径中的最大值用δt(i)表示,时间步t时状态为i的所有路径中的最大值的路径索引用ψt(i)表示,时间步t=1时,有篱笆网络的初始状态
δ1(i)=πi(oi)1,i=1,2,...,7
ψ1(i)=0,i=1,2,...,7
对于时刻t=2,3,…,依次类推
在一个序列最后一个时间步有
各标签类型的中间字和首字有3种标签状态;
in *为最后一个字的最优路径索引;
对t=n-1,n-2,…,1,有it *=ψt+1(it+1 *)
it *表示时间步t时的最优路径索引,得到一个句子所时间步最优标签索引组合(i1 *,i2 *,...,it *,...,in *)。
可选的,所述识别方法还包括:
获取存在所述会议名称命名实体和所述会议地点命名实体的句子序列;
将所述句子序列进行时间命名实体模块进行命名实体识别和抽取,获得抽取结果;
将所述抽取结果采用文本形式存储。
一种开放域会议信息命名实体识别系统,所述识别系统具体包括:
原始文本信息获取模块,用于获取开放域数据会议的原始文本信息;
数字序列转化模块,用于将所述原始文本信息转化为多个数字序列,所述每一个所述数字序列为一句话;
词嵌入层映射模块,用于将所述数字序列通过词嵌入层映射为字向量,获得字向量;
识别训练模型模块,用于将所述字向量采用命名实体识别训练模型,获得每个时间各个标签的最优标签组合索引;
标签名转化模块,用于将所述最优组合标签索引通过词表转化为标签名;
词标签合成模块,用于将字对应的标签名合成为词标签;
命名实体模块,用于根据所述词标签获得会议名称命名实体和会议地点命名实体。
可选的,所述识别系统还包括:
训练数据获取模块,用于从互联网资源中获取训练数据集;
命名实体标注模块,用于将所述训练数据集标注命名实体,获得标注训练数据集;
实体词典获取模块,用于将网站有地名的开源词库作为地名命名实体识别词典资源,获得地名命名实体词典;通过筛选所述训练数据集的会议名称作为词典资源,获得会议名称实体词典;
预处理模块,用于预处理所述标注训练数据集,获得预处理训练数据集;
分词模块,用于采用分词工具将所述训练数据集的原始文本分词处理,获得分词结果;
匹配模块,用于将所述分词结果分别与所述地名命名实体词典和所述会议名称实体词典相匹配,获得匹配结果;
标签标注模块,用于将所述标签词中的字进行标签标注,会议名称的首字标注为B-CON,会议名称的中间字标注为M-CON,会议名称的末尾字标注为E-CON,地点名称的首字标注为B-LOC,地点名称的中间字标注为M-LOC,地点名称的末尾字标注为E-LOC,其他类型的字标注为O。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明公开了一种开放域会议信息命名实体识别方法及系统。所述识别方法具体包括:获取开放域数据会议的原始文本信息;将所述原始文本信息转化为多个数字序列,所述每一个所述数字序列为一句话;将所述数字序列通过词嵌入层映射为字向量,获得字向量;将所述字向量采用命名实体识别模型,获得每个时间各个标签的最优标签组合索引;将所述最优组合标签索引通过词表转化为标签名;将字对应的标签名合成为词标签;根据所述词标签获得会议名称命名实体和会议地点命名实体。本发明采用基于字进行标注,标注实体类型的首字、中间字、末尾字,能够组成一个词的标注类型,规避了对新词的处理及不同分词工具、分词错误对识别及抽取效果的影响。利用上下文语境作为约束进行标签组合,提高了命名实体识别及抽取的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种开放域会议信息命名实体识别方法的流程图;
图2为本发明提供的识别训练模型示意图;
图3为本发明提供的维特比算法篱笆网络示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种能够提高开放域文本的命名实体的识别精度的开放域会议信息命名实体识别方法及系统。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,一种开放域会议信息命名实体识别方法,所述识别方法具体包括:
步骤100:获取开放域数据会议的原始文本信息;
步骤200:将所述原始文本信息转化为多个数字序列,所述每一个所述数字序列为一句话;
步骤300:将所述数字序列通过词嵌入层映射为字向量,获得字向量;
步骤400:将所述字向量采用命名实体识别训练模型,获得每个时间各个标签的最优标签组合索引,基于标注好的训练集进行训练获得所述命名实体识别训练模型;
步骤500:将所述最优组合标签索引通过词表转化为标签名;
步骤600:将字对应的标签名合成为词标签;
步骤700:根据所述词标签获得会议名称命名实体和会议地点命名实体。
所述在将所述原始文本信息转化为多个数字序列之前还包括:
从互联网资源中获取训练数据集;
将所述训练数据集标注命名实体,获得标注训练数据集;
将网站有地名的开源词库作为地名命名实体识别词典资源,获得地名命名实体词典;通过筛选所述训练数据集的会议名称作为词典资源,获得会议名称实体词典;
预处理所述标注训练数据集,获得预处理训练数据集;
采用分词工具将所述训练数据集的原始文本分词处理,获得分词结果;
将所述分词结果分别与所述地名命名实体词典和所述会议名称实体词典相匹配,获得匹配结果;
将所述匹配结果为成功的词打上相应的命名实体标签,获得标签词;
将所述标签词中的字进行标签标注,会议名称的首字标注为B-CON,会议名称的中间字标注为M-CON,会议名称的末尾字标注为E-CON,地点名称的首字标注为B-LOC,地点名称的中间字标注为M-LOC,地点名称的末尾字标注为E-LOC,其他类型的字标注为O。
所述将所述原始文本信息转化为多个数字序列具体包括:
采用字符串的形式获取按照字标注的训练数据集,获得标注训练数据集;
获取所述标注训练数据集中的字和标签;
将所述字根据词频按照降序排列,在所述字上标上序号,获得序号字,并将所述序号字存储在字的词表中;
将所述标签从1到7标号,并存储于标签的词表中;
将所述字和所述标签都转化为数值的映射,并存储在所述标签的词表和所述字的词表中,获得词表集;
所述词表集包括字到数值的映射、数值到字的映射、标签到数值的映射、数值到标签的映射;
将所述训练数据集的字和标签分开,并根据所述字到数值的映射和所述标签到数值的映射,获得字和标签的数值序列。
如图2所示,命名实体识别训练模型具体包括:
将所述训练数据集中的句子序列字向量化处理,获得字向量;
包含n个字的句子序列为x=(x1,x2,x3,...,xt,...,xn),其中xt表示第t个时间步的字的数值,经过词嵌入层处理后的字向量为X=(x′1,x′2,x′3,..,x′t,...,x′n),x′t为第t个时间步的字的数值经过词嵌入层得到的字向量,x′t∈Rd,d为字嵌入的维度;
根据所述训练数据集训练双向长短时记忆网络;
时刻t的一个长短时单元用公式表示为
it=σ(Wi[ht-1,xt]+bi)
ft=σ(Wi[ht-1,xt]+bf)
ht=ot⊙tanh(ct);
其中,f表示遗忘门,确定从前一时刻发送的信息的丢弃部分;i表示输入门;是候选值的向量,通过i和可以得到C来更新神经元的状态;o是输出门h是LSTM的隐状态序列;W是连接权值向量;bi,bf,bc是偏置向量;
将所述字向量输入所述双向长短时记忆网络,将正向LSTM层的隐状态序列与反向LSTM层的隐状态序列在各个时间步位置按时间步拼接得到完整的隐状态序列(h1,h2,...,hn)∈Rn×m;
接入一个线性层ot=Vht,V为权值矩阵,将隐状态序列向量映射为相应的所述双向长短时记忆网络的输出为O=(o1,o2,o3,...ot,...,on)∈Rn×k,ot为第t个时间步的输出向量,该向量为将字xt分类到各个标签状态i的打分值(oi)t,i表示标签类型,k表示标签个数;每一个时间步的预测输出结果为yt=softmax((oi)t);
训练采用的代价函数为(yi)t是时间步t对应的状态i的索引。
所述将所述字向量采用命名实体识别训练模型,获得每个时间各个标签的最优标签组合索引具体包括:
根据所述训练数据集计算各个标签状态之间的转移概率aij;
基于训练集数据统计所有标签组合的出现次数Nij,状态i到下一时间步状态j的转移概率为
采用维特比算法对所述双向长短时记忆网络的输出训练数据集进行解码运算;
时间步t时状态为i的所有路径中的最大值用δt(i)表示,时间步t时状态为i的所有路径中的最大值的路径索引用ψt(i)表示,时间步t=1时,有篱笆网络的初始状态
δ1(i)=πi(oi)1,i=i,2,...,7
ψ1(i)=0,i=1,2,...,7
对于时刻t=2,3,…,依次类推
在一个序列最后一个时间步有
各标签类型的中间字和首字有3种标签状态;
in *为最后一个字的最优路径索引;
对t=n-1,n-2,…,1,有it *=ψt+1(it+1 *)
it *表示时间步t时的最优路径索引,得到一个句子所时间步最优标签索引组合(i1 *,i2 *,...,it *,...,in *)。
所述识别方法还包括:
获取存在所述会议名称命名实体和所述会议地点命名实体的句子序列;
将所述句子序列进行时间命名实体模块进行命名实体识别和抽取,获得抽取结果;
将所述抽取结果采用文本形式存储。
一种开放域会议信息命名实体识别系统,所述识别系统具体包括:
原始文本信息获取模块,用于获取开放域数据会议的原始文本信息;
数字序列转化模块,用于将所述原始文本信息转化为多个数字序列,所述每一个所述数字序列为一句话;
词嵌入层映射模块,用于将所述数字序列通过词嵌入层映射为字向量,获得字向量;
识别训练模型模块,用于将所述字向量采用命名实体识别训练模型,获得每个时间各个标签的最优标签组合索引;
标签名转化模块,用于将所述最优组合标签索引通过词表转化为标签名;
词标签合成模块,用于将字对应的标签名合成为词标签;
命名实体模块,用于根据所述词标签获得会议名称命名实体和会议地点命名实体。
可选的,所述识别系统还包括:
训练数据获取模块,用于从互联网资源中获取训练数据集;
命名实体标注模块,用于将所述训练数据集标注命名实体,获得标注训练数据集;
实体词典获取模块,用于将网站有地名的开源词库作为地名命名实体识别词典资源,获得地名命名实体词典;通过筛选所述训练数据集的会议名称作为词典资源,获得会议名称实体词典;
预处理模块,用于预处理所述标注训练数据集,获得预处理训练数据集;
分词模块,用于采用分词工具将所述训练数据集的原始文本分词处理,获得分词结果;
匹配模块,用于将所述分词结果分别与所述地名命名实体词典和所述会议名称实体词典相匹配,获得匹配结果;
标签标注模块,用于将所述标签词中的字进行标签标注,会议名称的首字标注为B-CON,会议名称的中间字标注为M-CON,会议名称的末尾字标注为E-CON,地点名称的首字标注为B-LOC,地点名称的中间字标注为M-LOC,地点名称的末尾字标注为E-LOC,其他类型的字标注为O。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种开放域会议信息命名实体识别方法,其特征在于,所述识别方法具体包括:
获取开放域数据会议的原始文本信息;
将所述原始文本信息转化为多个数字序列,所述每一个所述数字序列为一句话;
将所述数字序列通过词嵌入层映射为字向量,获得字向量;
将所述字向量采用命名实体识别训练模型,获得每个时间各个标签的最优标签组合索引,基于标注好的训练集进行训练获得所述命名实体识别训练模型;
将所述最优组合标签索引通过词表转化为标签名;
将字对应的标签名合成为词标签;
根据所述词标签获得会议名称命名实体和会议地点命名实体。
2.根据权利要求1所述的一种开放域会议信息命名实体识别方法,其特征在于,所述在将所述原始文本信息转化为多个数字序列之前还包括:
从互联网资源中获取训练数据集;
将所述训练数据集标注命名实体,获得标注训练数据集;
将网站有地名的开源词库作为地名命名实体识别词典资源,获得地名命名实体词典;通过筛选所述训练数据集的会议名称作为词典资源,获得会议名称实体词典;
预处理所述标注训练数据集,获得预处理训练数据集;
采用分词工具将所述训练数据集的原始文本分词处理,获得分词结果;
将所述分词结果分别与所述地名命名实体词典和所述会议名称实体词典相匹配,获得匹配结果;
将所述匹配结果为成功的词打上相应的命名实体标签,获得标签词;
将所述标签词中的字进行标签标注,会议名称的首字标注为B-CON,会议名称的中间字标注为M-CON,会议名称的末尾字标注为E-CON,地点名称的首字标注为B-LOC,地点名称的中间字标注为M-LOC,地点名称的末尾字标注为E-LOC,其他类型的字标注为O。
3.根据权利要求1所述的一种开放域会议信息命名实体识别方法,其特征在于,所述将所述原始文本信息转化为多个数字序列具体包括:
采用字符串的形式获取按照字标注的训练数据集,获得标注训练数据集;
获取所述标注训练数据集中的字和标签;
将所述字根据词频按照降序排列,在所述字上标上序号,获得序号字,并将所述序号字存储在字的词表中;
将所述标签从1到7标号,并存储于标签的词表中;
将所述字和所述标签都转化为数值的映射,并存储在所述标签的词表和所述字的词表中,获得词表集;
所述词表集包括字到数值的映射、数值到字的映射、标签到数值的映射、数值到标签的映射;
将所述训练数据集的字和标签分开,并根据所述字到数值的映射和所述标签到数值的映射,获得字和标签的数值序列。
4.根据权利要求2所述的一种开放域会议信息命名实体识别方法,其特征在于,命名实体识别训练模型具体包括:
将所述训练数据集中的句子序列字向量化处理,获得字向量;
包含n个字的句子序列为x=(x1,x2,x3,...,xt,...,xn),其中xt表示第t个时间步的字的数值,经过词嵌入层处理后的字向量为X=(x′1,x′2,x′3,..,x′t,...,x′n),x′t为第t个时间步的字的数值经过词嵌入层得到的字向量,x′t∈Rd,d为字嵌入的维度;
根据所述训练数据集训练双向长短时记忆网络;
时刻t的一个长短时单元用公式表示为
it=σ(Wi[ht-1,xt]+bi)
ft=σ(Wi[ht-1,xt]+bf)
其中,f表示遗忘门,确定从前一时刻发送的信息的丢弃部分;i表示输入门;是候选值的向量,通过i和可以得到C来更新神经元的状态;o是输出门h是LSTM的隐状态序列;W是连接权值向量;bi,bf,bc是偏置向量;
将所述字向量输入所述双向长短时记忆网络,将正向LSTM层的隐状态序列与反向LSTM层的隐状态序列在各个时间步位置按时间步拼接得到完整的隐状态序列(h1,h2,...,hn)∈Rn×m;
接入一个线性层ot=Vht,V为权值矩阵,将隐状态序列向量映射为相应的所述双向长短时记忆网络的输出为O=(o1,o2,o3,...ot,...,on)∈Rn×k,ot为第t个时间步的输出向量,该向量为将字xt分类到各个标签状态i的打分值(oi)t,i表示标签类型,k表示标签个数;每一个时间步的预测输出结果为yt=softmax((oi)t);
训练采用的代价函数为(yi)t是时间步t对应的状态i的索引。
5.根据权利要求2所述的一种开放域会议信息命名实体识别方法,其特征在于,所述将所述字向量采用命名实体识别训练模型,获得每个时间各个标签的最优标签组合索引具体包括:
根据所述训练数据集计算各个标签状态之间的转移概率aij;
基于训练集数据统计所有标签组合的出现次数Nij,状态i到下一时间步状态j的转移概率为
对输出训练数据集进行解码运算;
时间步t时状态为i的所有路径中的最大值用δt(i)表示,时间步t时状态为i的所有路径中的最大值的路径索引用ψt(i)表示,时间步t=1时,有篱笆网络的初始状态
δt(i)=πi(oi)1,i=i,2,...,7
ψ1(i)=0,i=i,2,...,7
对于时刻t=2,3,…,依次类推
在一个序列最后一个时间步有
各标签类型的中间字和首字有3种标签状态;
in *为最后一个字的最优路径索引;
对t=n-1,n-2,…,1,有it *=ψt+1*(it+1 *)
it *表示时间步t时的最优路径索引,得到一个句子所时间步最优标签索引组合(i1 *,i2 *,...,it *,...,in *)。
6.根据权利要求1所述的一种开放域会议信息命名实体识别方法,其特征在于,所述识别方法还包括:
获取存在所述会议名称命名实体和所述会议地点命名实体的句子序列;
将所述句子序列进行时间命名实体模块进行命名实体识别和抽取,获得抽取结果;
将所述抽取结果采用文本形式存储。
7.一种开放域会议信息命名实体识别系统,其特征在于,所述识别系统具体包括:
原始文本信息获取模块,用于获取开放域数据会议的原始文本信息;
数字序列转化模块,用于将所述原始文本信息转化为多个数字序列,所述每一个所述数字序列为一句话;
词嵌入层映射模块,用于将所述数字序列通过词嵌入层映射为字向量;
识别训练模型模块,用于将所述字向量采用命名实体识别训练模型,获得每个时间各个标签的最优标签组合索引;
标签名转化模块,用于将所述最优组合标签索引通过词表转化为标签名;
词标签合成模块,用于将字对应的标签名合成为词标签;
命名实体模块,用于根据所述词标签获得会议名称命名实体和会议地点命名实体。
8.根据权利要求7所述的一种开放域会议信息命名实体识别系统,其特征在于,所述识别系统还包括:
训练数据获取模块,用于从互联网资源中获取训练数据集;
命名实体标注模块,用于将所述训练数据集标注命名实体,获得标注训练数据集;
实体词典获取模块,用于将网站有地名的开源词库作为地名命名实体识别词典资源,获得地名命名实体词典;通过筛选所述训练数据集的会议名称作为词典资源,获得会议名称实体词典;
预处理模块,用于预处理所述标注训练数据集,获得预处理训练数据集;
分词模块,用于采用分词工具将所述训练数据集的原始文本分词处理,获得分词结果;
匹配模块,用于将所述分词结果分别与所述地名命名实体词典和所述会议名称实体词典相匹配,获得匹配结果;
标签标注模块,用于将所述标签词中的字进行标签标注,会议名称的首字标注为B-CON,会议名称的中间字标注为M-CON,会议名称的末尾字标注为E-CON,地点名称的首字标注为B-LOC,地点名称的中间字标注为M-LOC,地点名称的末尾字标注为E-LOC,其他类型的字标注为O。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910182287.7A CN109960728B (zh) | 2019-03-11 | 2019-03-11 | 一种开放域会议信息命名实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910182287.7A CN109960728B (zh) | 2019-03-11 | 2019-03-11 | 一种开放域会议信息命名实体识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109960728A true CN109960728A (zh) | 2019-07-02 |
CN109960728B CN109960728B (zh) | 2021-01-22 |
Family
ID=67024216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910182287.7A Active CN109960728B (zh) | 2019-03-11 | 2019-03-11 | 一种开放域会议信息命名实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109960728B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348021A (zh) * | 2019-07-17 | 2019-10-18 | 湖北亿咖通科技有限公司 | 基于命名实体模型的字符串识别方法、电子设备、存储介质 |
CN110516247A (zh) * | 2019-08-27 | 2019-11-29 | 湖北亿咖通科技有限公司 | 基于神经网络的命名实体识别方法及计算机存储介质 |
CN110569332A (zh) * | 2019-09-09 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种语句特征的提取处理方法及装置 |
CN111178080A (zh) * | 2020-01-02 | 2020-05-19 | 杭州涂鸦信息技术有限公司 | 一种基于结构化信息的命名实体识别方法及系统 |
CN111783436A (zh) * | 2020-06-03 | 2020-10-16 | 广州云趣信息科技有限公司 | 基于深度学习的自动提取商家信息的方法 |
CN111831929A (zh) * | 2019-09-24 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 一种获取poi信息的方法及装置 |
CN112036183A (zh) * | 2020-08-31 | 2020-12-04 | 湖南星汉数智科技有限公司 | 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质 |
CN112182253A (zh) * | 2020-11-26 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、设备以及计算机可读存储介质 |
CN112633001A (zh) * | 2020-12-28 | 2021-04-09 | 咪咕文化科技有限公司 | 文本命名实体识别方法、装置、电子设备及存储介质 |
CN113342964A (zh) * | 2021-06-03 | 2021-09-03 | 云南大学 | 一种基于移动业务的推荐类型确定方法及系统 |
CN114626378A (zh) * | 2020-12-22 | 2022-06-14 | 亚信科技(中国)有限公司 | 命名实体识别方法、装置、电子设备及计算机可读存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832289A (zh) * | 2017-10-12 | 2018-03-23 | 北京知道未来信息技术有限公司 | 一种基于lstm‑cnn的命名实体识别方法 |
CN108255816A (zh) * | 2018-03-12 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法、装置及系统 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108717410A (zh) * | 2018-05-17 | 2018-10-30 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及系统 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
US20180342233A1 (en) * | 2017-05-23 | 2018-11-29 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for correcting speech recognition error based on artificial intelligence, and storage medium |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
CN109190120A (zh) * | 2018-08-31 | 2019-01-11 | 第四范式(北京)技术有限公司 | 神经网络训练方法和装置及命名实体识别方法和装置 |
CN109359291A (zh) * | 2018-08-28 | 2019-02-19 | 昆明理工大学 | 一种命名实体识别方法 |
CN109388807A (zh) * | 2018-10-30 | 2019-02-26 | 中山大学 | 电子病历命名实体识别的方法、装置及存储介质 |
-
2019
- 2019-03-11 CN CN201910182287.7A patent/CN109960728B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180342233A1 (en) * | 2017-05-23 | 2018-11-29 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for correcting speech recognition error based on artificial intelligence, and storage medium |
CN107832289A (zh) * | 2017-10-12 | 2018-03-23 | 北京知道未来信息技术有限公司 | 一种基于lstm‑cnn的命名实体识别方法 |
CN108255816A (zh) * | 2018-03-12 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法、装置及系统 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108717410A (zh) * | 2018-05-17 | 2018-10-30 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及系统 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
CN109359291A (zh) * | 2018-08-28 | 2019-02-19 | 昆明理工大学 | 一种命名实体识别方法 |
CN109190120A (zh) * | 2018-08-31 | 2019-01-11 | 第四范式(北京)技术有限公司 | 神经网络训练方法和装置及命名实体识别方法和装置 |
CN109388807A (zh) * | 2018-10-30 | 2019-02-26 | 中山大学 | 电子病历命名实体识别的方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
于永波: "Web信息抽取中的若干关键问题研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348021A (zh) * | 2019-07-17 | 2019-10-18 | 湖北亿咖通科技有限公司 | 基于命名实体模型的字符串识别方法、电子设备、存储介质 |
CN110516247A (zh) * | 2019-08-27 | 2019-11-29 | 湖北亿咖通科技有限公司 | 基于神经网络的命名实体识别方法及计算机存储介质 |
CN110569332B (zh) * | 2019-09-09 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 一种语句特征的提取处理方法及装置 |
CN110569332A (zh) * | 2019-09-09 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种语句特征的提取处理方法及装置 |
CN111831929A (zh) * | 2019-09-24 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 一种获取poi信息的方法及装置 |
CN111831929B (zh) * | 2019-09-24 | 2024-01-02 | 北京嘀嘀无限科技发展有限公司 | 一种获取poi信息的方法及装置 |
CN111178080A (zh) * | 2020-01-02 | 2020-05-19 | 杭州涂鸦信息技术有限公司 | 一种基于结构化信息的命名实体识别方法及系统 |
CN111178080B (zh) * | 2020-01-02 | 2023-07-18 | 杭州涂鸦信息技术有限公司 | 一种基于结构化信息的命名实体识别方法及系统 |
CN111783436A (zh) * | 2020-06-03 | 2020-10-16 | 广州云趣信息科技有限公司 | 基于深度学习的自动提取商家信息的方法 |
CN112036183A (zh) * | 2020-08-31 | 2020-12-04 | 湖南星汉数智科技有限公司 | 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质 |
CN112036183B (zh) * | 2020-08-31 | 2024-02-02 | 湖南星汉数智科技有限公司 | 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质 |
CN112182253B (zh) * | 2020-11-26 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、设备以及计算机可读存储介质 |
CN112182253A (zh) * | 2020-11-26 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、设备以及计算机可读存储介质 |
CN114626378A (zh) * | 2020-12-22 | 2022-06-14 | 亚信科技(中国)有限公司 | 命名实体识别方法、装置、电子设备及计算机可读存储介质 |
CN112633001A (zh) * | 2020-12-28 | 2021-04-09 | 咪咕文化科技有限公司 | 文本命名实体识别方法、装置、电子设备及存储介质 |
CN113342964B (zh) * | 2021-06-03 | 2022-04-19 | 云南大学 | 一种基于移动业务的推荐类型确定方法及系统 |
CN113342964A (zh) * | 2021-06-03 | 2021-09-03 | 云南大学 | 一种基于移动业务的推荐类型确定方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109960728B (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109960728A (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN108959252B (zh) | 基于深度学习的半监督中文命名实体识别方法 | |
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
CN107977361B (zh) | 基于深度语义信息表示的中文临床医疗实体识别方法 | |
CN110232192A (zh) | 电力术语命名实体识别方法及装置 | |
Nguyen et al. | Recurrent neural network-based models for recognizing requisite and effectuation parts in legal texts | |
Pham et al. | End-to-end recurrent neural network models for vietnamese named entity recognition: Word-level vs. character-level | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和系统 | |
CN109684642B (zh) | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN112926324B (zh) | 融合词典与对抗迁移的越南语事件实体识别方法 | |
Tran et al. | Understanding what the users say in chatbots: A case study for the Vietnamese language | |
Ekbal et al. | Named entity recognition in Bengali: A multi-engine approach | |
CN111274829B (zh) | 一种利用跨语言信息的序列标注方法 | |
CN117076653A (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
Jabbar et al. | An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach | |
CN112464669B (zh) | 股票实体词消歧方法、计算机设备及存储介质 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
Deng et al. | Self-attention-based BiGRU and capsule network for named entity recognition | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN109446523A (zh) | 基于BiLSTM和条件随机场的实体属性抽取模型 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
Alrajhi et al. | Automatic arabic part-of-speech tagging: Deep learning neural lstm versus word2vec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220824 Address after: 100089 Beike building, 27 Xisanhuan North Road, Haidian District, Beijing Patentee after: Beijing Science and Tech. Research Inst. Address before: No.19, South Xiwai street, Xicheng District, Beijing Patentee before: Beijing Institute of Science and Technology Information (Beijing Science and Technology Information Center) |