CN110688854B - 命名实体识别方法、装置及计算机可读存储介质 - Google Patents

命名实体识别方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110688854B
CN110688854B CN201910825074.1A CN201910825074A CN110688854B CN 110688854 B CN110688854 B CN 110688854B CN 201910825074 A CN201910825074 A CN 201910825074A CN 110688854 B CN110688854 B CN 110688854B
Authority
CN
China
Prior art keywords
named entity
entity
text
neural
inference engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910825074.1A
Other languages
English (en)
Other versions
CN110688854A (zh
Inventor
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910825074.1A priority Critical patent/CN110688854B/zh
Priority to PCT/CN2019/116935 priority patent/WO2021042516A1/zh
Publication of CN110688854A publication Critical patent/CN110688854A/zh
Application granted granted Critical
Publication of CN110688854B publication Critical patent/CN110688854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种人工智能技术领域,揭露了一种命名实体识别方法,包括:接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据;获取具有多层结构的神经实体推理机识别模型,并对所述神经实体推理机识别模型进行训练;将所述文本向量数据输入训练后的所述神经实体推理机识别模型进行训练得到命名实体集合;将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。本发明还提出一种命名实体识别装置以及一种计算机可读存储介质。本发明可以实现精准高效的命名实体识别。

Description

命名实体识别方法、装置及计算机可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本数据集中的命名实体识别方法、装置及计算机可读存储介质。
背景技术
随着当今互联网的发展,人们生活中的信息量也越来越多,而其中大部分是文本信息。因此,如何对文本信息进行处理,识别出其中的人名、机构名、地名等命名实体,从而简化人们对文本信息的提取是一大难题。然而,目前识别实体的主要方法是基于传统神经实体推理方法,但由于此方法过于依赖局部和底层的语言特征,当出现有歧义的说法或者少见的人名时,这类方法往往会遇到困难。
发明内容
本发明提供一种命名实体识别方法、装置及计算机可读存储介质,其主要目的在于对原始文本数据集进行深度学习从而得到命名实体的方法。
为实现上述目的,本发明提供的一种命名实体识别方法,包括:
接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据;
获取具有多层结构的神经实体推理机识别模型;
将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合;
将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。
优选地,所述神经实体推理机识别模型的每一层结构通过Bi-LSTM模型通过Bi-LSTM模型进行编码,并通过解码器进行解码,,解码完成后的数据进入下一层结构再次进行编码和解码。
优选地,所述将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合包括:
输入经过预处理的所述文本向量数据;
利用所述Bi-LSTM模型对所述文本向量数据进行编码,得到编码表示序列和初始命名实体,将所述初始命名实体加入候选池;
将所述编码表示序列和所述候选池中的所述初始命名实体输入所述推理机中进行处理,得到引用信息;
将所述编码表示序列和所述引用信息输入解码器,得到预测标签,根据所述预测标签更新所述候选池,得到所述命名实体集合。
优选地,所述解码器包括:
Figure BDA0002188612890000021
其中,X表示经过上述预处理的所述文本向量数据,y表示经过所述神经实体推理机识别模型训练后得到的所述预测标签,yi表示所述神经实体推理机识别模型中第i层的预测标签,xt表示在t时刻文本向量x的值。
优选地,所述对所述第一文本数据进行预处理得到文本向量数据包括:
对所述第一文本数据进行分词操作得到第二文本数据,对所述第二文本数据进行去停用词操作得到第三文本数据,对所述第三文本数据进行去重操作得到第四文本数据;
对所述第四文本数据利用TF-IDF算法进行词向量形式转化,得到所述文本向量数据。
此外,为实现上述目的,本发明还提供一种命名实体识别装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的命名实体识别程序,所述命名实体识别程序被所述处理器执行时实现如下步骤:
接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据;
获取具有多层结构的神经实体推理机识别模型;
将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合;
将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。
优选地,所述神经实体推理机识别模型的每一层结构通过Bi-LSTM模型通过Bi-LSTM模型进行编码,并通过解码器进行解码,,解码完成后的数据进入下一层结构再次进行编码和解码。
优选地,所述将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合包括:
输入经过预处理的的文本向量数据:
利用所述Bi-LSTM模型对所述文本向量数据进行编码,得到编码表示序列和初始命名实体,将所述初始命名实体加入候选池;
将所述编码表示序列和所述候选池中的所述初始命名实体输入所述推理机中进行处理,得到引用信息;
将所述编码表示序列和所述引用信息输入解码器,得到预测标签,根据所述预测标签更新所述候选池,得到所述命名实体集合。
优选地,所述解码器包括:
Figure BDA0002188612890000031
其中,X表示经过上述预处理的所述文本向量数据,y表示经过所述神经实体推理机识别模型训练后得到的所述预测标签,yi表示所述神经实体推理机识别模型中第i层的预测标签,xt表示在t时刻文本向量x的值。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有命名实体识别程序,所述命名实体识别程序可被一个或者多个处理器执行,以实现如上所述的命名实体识别方法的步骤。
本发明所述命名实体识别方法、装置及计算机可读存储介质应用了深度学习技术,其中神经实体推理机识别模型包括多层结构,每一层都可以独立完成一次命名实体识别,而每层的命名实体识别结果作为下一层的参考,此时通过推理机便能得到最优的识别结果;每个层的命名实体识别在大多数情况下都可以共享参数。因此本发明提出的一种命名实体识别方法、装置及计算机可读存储介质,可以实现精准高效且连贯的进行命名实体识别。
附图说明
图1为本发明一实施例提供的命名实体识别法的流程示意图;
图2为本发明一实施例提供的命名实体识别装置的内部结构示意图;
图3为本发明一实施例提供的命名实体识别方法程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种命名实体识别方法。参照图1所示,为本发明一实施例提供的命名实体识别方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,命名实体识别方法包括:
S1、接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据。
本发明较佳实施例中,所述预处理包括对所述第一文本数据进行分词、去停用词、去重等操作。
具体地,本发明对所述第一文本数据进行分词操作得到第二文本数据,对所述第二文本数据进行去停用词操作得到第三文本数据,对所述第三文本数据进行去重操作得到第四文本数据,对所述第四文本数据利用TF-IDF算法进行词向量形式转化,从而得到预处理完成后的所述文本向量数据。
本发明收集大量待识别的原始语句,组成所述第一文本数据。文本数据是非结构化或半结构化的数据,不能被分类算法直接识别,而预处理的目的是将文本数据转化为向量空间模型:di=(w1,w2,...,wn),其中,wj为第j个特征词的权重。
所述分词是对原始语句中的每句话进行切分得到单个的词,因为在汉语表示中,词和词之间没有明确的分隔标识,所以分词是必不可少的。对于中文文本,词语具有真实反映文档内容的能力,因此通常将词语作为向量空间模型中的文本特征词。但是中文文本不像英文文本那样词和词之间采用空格分开,因此需要首先对中文文本进行分词操作。
较佳地,本发明所述分词可以采用基于词典的分词方法,将待分词中文字符串和预设词典中的词条根据某种策略,如遍历操作,进行匹配,得到最终的分词结果。
具体地,所述词典可以包括统计词典。所述统计词典是利用统计方法得到的所有可能的分词构造的词典。进一步地,所述词典也可以包括前缀词典。所述前缀词典包括所述统计词典中每一个分词的前缀,例如所述统计词典中的词“北京大学”的前缀分别是“北”、“北京”、“北京大”;词“大学”的前缀是“大”等。
所述去停用词是去掉文本数据功能词中没有实际意义的,对文本的分类没有影响,但是出现频率高的词语,包括常用的代词、介词等。在本发明实施例中,所选取的去停用词的方法为停用词表过滤,即通过预先构建好的停用词表和文本数据中的词语进行一一匹配,如果匹配成功,则这个词语就是停用词,需要将该词删除。
进一步地,由于所收集的文本数据来源错综复杂,其中可能会存在很多重复的文本数据。大量的重复数据会影响分类精度,因此,需要进行执行去重操作。在本发明实施例利用欧式距离方法进行去重操作,其公式如下:
Figure BDA0002188612890000051
其中,w1j和w2j分别为2个文本数据,d为欧式距离。在分别计算每两个文本数据的欧式距离后,欧式距离越小,说明文本数据越相似,则删除欧氏距离小于预设阈值的两个文本数据中的其中一个。
在经过分词、去停用词、去重后,文本由一系列的特征词(关键词)表示,但是这种文本形式的数据不能直接被分类算法所处理,而应该转化为数值形式,因此需要对这些特征词进行权重计算,用来表征该特征词在文本中的重要性。
在本发明的一些实施例中,使用TF-IDF算法进行特征词计算,对所述经过分词、分词、去停用词、去重等操作后的数据进行预处理得到文本向量数据。所述TF-IDF算法是利用统计信息、词向量信息以及词语间的依存句法信息,通过构建依存关系图来计算词语之间的关联强度,利用TextRank算法迭代算出词语的重要度得分。
具体地,本发明在进行特征词的权重计算时,首先计算任意两词语(关键词)Wi和wj的依存关联度为:
Figure BDA0002188612890000052
其中len(Wi,Wj)表示词语Wi和Wj之间的依存路径长度,b是超参数。
本发明认为两个词之间的语义相似度无法准确衡量词语的重要程度,只有当两个词中至少有一个在文本中出现的频率很高,才能证明两个词很重要。根据万有引力的概念,将词频看作质量,将两个词的词向量间的欧氏距离视为距离,根据万有引力公式来计算两个词之间的引力。然而在当前文本环境下,仅利用词频来衡量文本中某个词的重要程度太过片面,因此本发明引入了IDF值,将词频替换为TF-IDF值,从而考虑到更全局性的信息,于是得到了新的词引力值公式。文本词语Wi和Wj的引力为:
Figure BDA0002188612890000061
其中,tfidf(W)是词W的TF-IDF值,d是词Wi和wj的词向量之间的欧式距离。
因此,两个词语之间的关联度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
最后,本发明利用TextRank算法建立一个无向图G=(V,E),其中V是顶点的集合,E是边的集合,根据下列式子算出词语Wi的得分,:
Figure BDA0002188612890000062
其中
Figure BDA0002188612890000063
是与顶点Wi有关的集合,η为阻尼系数,由此得到特征权重WS(Wi),并因此将每个词语表示成数值向量形式,即得到所述文本向量数据。
S2、获取具有多层结构的神经实体推理机识别模型。
较佳地,本发明所示神经实体推理机识别模型是一个多层的架构,每一层都是一个编码-解码的Bi-LSTM模型。同时,每一层都独立完成一次命名实体的神经推理,而每层的命名实体神经推理结果会通过一个符号化的缓存存储起来,作为下一层的参考,这种参考是通过一个交互式的池化神经网络实现的,本质是一个基于多个实时的推理模型。同时,为更好的对模型流程进行解读,本发明以示范文本“Dong met Tao and Wiener John metthe family of Tao”为例进行命名实体神经推理模型结构的分析。该段语句实际含有的命名实体有“John”、“Tao”、“Dong”、“Wiener”四个词。在本发明的命名实体神经推理模型未经训练时,在命名实体神经推理模型的第一层,候选池是空的,因为没有经过训练识别出初始命名实体。在此刻的模型中,识别出的命名实体结果为“John”,因为“John”是一个普通人的名字。在常规的训练模型中作为普通人的名字出现频率高,很容易进行对应进而被识别为命名实体。在前述模型识别过程中,“Tao”可能会被省略。首先“Tao”不是一个普通的人名,因此在训练模型中作为人名出现的频率不高,其次,因为上下文语义中出现了“met thefamily”不足以表达“Tao”作为人名的特征,因此训练模型中没有足够的和强烈的信号来对“Tao”进行正确识别。在经过本次训练后模型将“John”的信息作为初始命名实体信息存储到候选池中。这样在第二层,模型可以由推理机进行推理。推理的具体原理为,该模型可以根据“John”的信息知道“met”之前的单词是一个人名,也知道“Tao”是一个人名,所以推理机可推断得出“John”和第一个“Tao”在语句逻辑以及语法定位保持一致性,然后更新候选池将“Tao”作为初始命名实体存储进入候选池。同理,神经实体推理机识别模型模型可以在第三层中由推理机识别出“Wiener”在语句逻辑以及语法定位与前述的“Tao”一样都是人名,将其识别为命名实体,经过多层训练,对待识别文本中的所有词语单元进行识别,最终识别出文本多包含的全部命名实体,并完成整个神经实体推理机的命名实体识别过程。
优选地,在本发明实施例中,上述经过预处理的文本向量数据被编码成一个编码表示序列,每一层的解码器就可以依靠单词表达及其上下文生成信息独立给出预测标签。由于预测标签指出哪些词是实体,因此本发明可以从预测标签中找出实体表示。同时,本发明的模型始终记录整个神经实体推理机识别过程,包括已识别的实体信息,这样本发明所建立的模型就可以“看到”过去的所有决策,然后每个层可通过推理机从中引用,并更新候选池,使来自预测结果以帮助下一个分层以保持全局一致性并获得更好的结果。
S3、将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合。
较佳地,将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合包括以下步骤:
步骤S301、利用所述Bi-LSTM模型对所述文本向量数据进行编码,得到编码表示序列。
在本发明的实施例中,一个神经实体推理机识别模型层可以看作是一个基于神经实体推理机识别模型的规则编解码器框架,它可以接收推理机额外的信息。在这项工作中,本发明的模型使用了Bi-LSTM模型作为编码器,LSTM模型作为解码器。候选池是一个简单的列表,它由命名实体的编码表示序列组成,它可以包含在整个文本中或在整个结果中识别出的所有命名实体。各层的解码器和编码器可以共享参数,避免参数增长,使模型易于训练为端到端模型,因此各层之间唯一的区别就是候选池和命名实体的不同。
LSTM模型的设计是为了解决梯度消失和学习长期依赖关系的问题。形式上,在时刻t时,对基本LSTM单元的记忆c_t和隐藏状态h_t更新如下式:
Figure BDA0002188612890000081
Figure BDA0002188612890000082
ht=ot⊙tanh(ct)
式中,⊙表示元素积,σ是sigmoid函数,xt表示在t时刻输入的向量,ht,Ot,ct,ft分别表示第t步输入门、忘记门、输出门的更新。由于LSTM只接收当前输入字之前的信息,但是在顺序任务中,后面的上下文信息也很重要。为了捕获来自过去和未来的上下文信息,本发明使用Bi-LSTM模型对其进行编码,其编码规则如下所示,据此得到编码表示序列:
Figure BDA0002188612890000083
式中,
Figure BDA0002188612890000084
表示LSTM模型正向隐藏状态;
Figure BDA0002188612890000085
表示LSTM模型反向隐藏状态。
步骤S302、输入所述编码表示序列和所述候选池中的所述初始命名实体由所述推理机进行处理,得到引用信息。
所述推理机是一组程序,用来控制、协调整个系统。是在一定的控制策略下,专家系统根据问题信息(用户与专家系统交流的信息)及知识库中的知识执行对问题的求解。即在目标引擎设定目标对象后,使用外部信息作为输入,使用演绎归纳等逻辑运算方法根据已建立的模式匹配,针对目标对象进行演算生成结论的引擎。
较佳地,本实施例中所述推理机实际上是一个多事实推理模型,在这个模型中,当前的编码表示序列信息是查询,候选池中的初始命名实体信息是事实。本实施例使用一个内核K(query,fact)来计算当前的编码表示序列信息与每个词之间的关系,其中初始命名实体信息在候选池中,计算结果s={s1,s2,s3,...,sn}表示给每个初始命名实体信息的建议,然后根据推理机从这些建议中得到引用信息。
步骤S303、将所述编码表示序列和所述引用信息输入解码器,得到预测标签;根据所述预测标签更新所述候选池,得到所述命名实体集合。
较佳地,由于本发明的实施例使用Bi-LSTM模型,因此可以得到一个很好的预测标签yi。同时本发明采用BMEOS(Begin、Middle、End、Other、Single)标记方案,这样就可以从预测标签yi中知道每个命名实体的开始或结束在哪里从而形成边界信息,然后使用所述边界信息来组织和形成文档的缓存。由于该模型依赖于本地语言特性来进行决策,因此本发明考虑如何在此基础上更合理有效地存储命名实体信息。在本发明实施例中,把一个命名实体看作是一个独立的、不可分割的对象,它由几个单词组成,所以一个实体出现的模式可以这样描述:[向前上下文][实体][向后上下文]。因此,本发明以这种模式存储实体。
进一步地,由于每个实体的编码表示序列都包含信息来决定它的预测标签。编码层中的编码器是前向
Figure BDA0002188612890000091
和后向
Figure BDA0002188612890000092
的组合。因此,本发明将得到的预测标签存储在候选池中,为推理机提供决定性的信息,以给出推理结果。基于候选池,本发明实际上将一个实体存储为一个对象,这个对象有三个描述。所以对于每一个要预测的单词,本发明可以从三个方面利用当前单词和候选词库之间的相似性作为参考,做出更好的决策。候选池中的每个矩阵实际上都是一个向量表示列表,其中也包含部分实体信息的事实,据此本发明可以使用一个特殊的多事实推理模型从中获取建议。
进一步地,所述解码器包括:
Figure BDA0002188612890000093
式中,X表示经过上述预处理的文本向量数据,yi表示所述神经实体推理机识别模型中第i层的预测标签,xt表示在t时刻文本向量x的值。
进一步地,在本实施例中,每个层的基于神经实体推理的命名实体识别模型在大多数情况下都可以共享参数,这使得本发明的模型真正实现了端到端。
因此,根据所述预测标签实时地更新所述候选池,得到所述命名实体集合。
S4、将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。
在本实施例中,通过将文本向量数据输入所述所述神经实体推理机识别模型中进行训练获得了稳定的命名实体神经推理机。
同时,根据此神经实体推理机识别模型,通过输入待识别的原始语句中的文本数据,经过多层神经实体推理机识别模型,得到相应的初始命名实体,并由初始命名实体形成命名实体集合。
本发明利用经过训练后的所述神经实体推理机识别模型推理机对文本向量数据和命名实体集合进行推理,得到命名实体。
发明还提供一种命名实体识别装置。参照图2所示,为本发明一实施例提供的命名实体识别装置的内部结构示意图。
在本实施例中,所述命名实体识别装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该命名实体识别装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是命名实体识别装置1的内部存储单元,例如该命名实体识别装置1的硬盘。存储器11在另一些实施例中也可以是命名实体识别装置1的外部存储设备,例如命名实体识别装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括命名实体识别装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于命名实体识别装置1的应用软件及各类数据,例如命名实体识别程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如命名实体识别程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在基于神经实体推理机的命名实体识别装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及基于神经实体推理机的命名实体识别程序01的命名实体识别装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对命名实体识别装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有命名实体识别程序01;处理器12执行存储器11中存储的命名实体识别程序01时实现如下步骤:
步骤一、接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据。
本发明较佳实施例中,所述预处理包括对所述第一文本数据进行分词、去停用词、去重等操作。
具体地,本发明对所述第一文本数据进行分词操作得到第二文本数据,对所述第二文本数据进行去停用词操作得到第三文本数据,对所述第三文本数据进行去重操作得到第四文本数据,对所述第四文本数据利用TF-IDF算法进行词向量形式转化,从而得到预处理完成后的所述文本向量数据。
本发明收集大量待识别的原始语句,组成所述第一文本数据。文本数据是非结构化或半结构化的数据,不能被分类算法直接识别,而预处理的目的是将文本数据转化为向量空间模型:di=(w1,w2,...,wn),其中,wj为第j个特征词的权重。
所述分词是对原始语句中的每句话进行切分得到单个的词,因为在汉语表示中,词和词之间没有明确的分隔标识,所以分词是必不可少的。对于中文文本,词语具有真实反映文档内容的能力,因此通常将词语作为向量空间模型中的文本特征词。但是中文文本不像英文文本那样词和词之间采用空格分开,因此需要首先对中文文本进行分词操作。
较佳地,本发明所述分词可以采用基于词典的分词方法,将待分词中文字符串和预设词典中的词条根据某种策略,如遍历操作,进行匹配,得到最终的分词结果。
具体地,所述词典可以包括统计词典。所述统计词典是利用统计方法得到的所有可能的分词构造的词典。进一步地,所述词典也可以包括前缀词典。所述前缀词典包括所述统计词典中每一个分词的前缀,例如所述统计词典中的词“北京大学”的前缀分别是“北”、“北京”、“北京大”;词“大学”的前缀是“大”等。
所述去停用词是去掉文本数据功能词中没有实际意义的,对文本的分类没有影响,但是出现频率高的词语,包括常用的代词、介词等。在本发明实施例中,所选取的去停用词的方法为停用词表过滤,即通过预先构建好的停用词表和文本数据中的词语进行一一匹配,如果匹配成功,则这个词语就是停用词,需要将该词删除。
进一步地,由于所收集的文本数据来源错综复杂,其中可能会存在很多重复的文本数据。大量的重复数据会影响分类精度,因此,需要进行执行去重操作。在本发明实施例利用欧式距离方法进行去重操作,其公式如下:
Figure BDA0002188612890000121
其中,w1j和w2j分别为2个文本数据,d为欧式距离。在分别计算每两个文本数据的欧式距离后,欧式距离越小,说明文本数据越相似,则删除欧氏距离小于预设阈值的两个文本数据中的其中一个。
在经过分词、去停用词、去重后,文本由一系列的特征词(关键词)表示,但是这种文本形式的数据不能直接被分类算法所处理,而应该转化为数值形式,因此需要对这些特征词进行权重计算,用来表征该特征词在文本中的重要性。
在本发明的一些实施例中,使用TF-IDF算法进行特征词计算,对所述经过分词、分词、去停用词、去重等操作后的数据进行预处理得到文本向量数据。所述TF-IDF算法是利用统计信息、词向量信息以及词语间的依存句法信息,通过构建依存关系图来计算词语之间的关联强度,利用TextRank算法迭代算出词语的重要度得分。
具体地,本发明在进行特征词的权重计算时,首先计算任意两词语(关键词)Wi和wj的依存关联度为:
Figure BDA0002188612890000131
其中len(Wi,Wj)表示词语Wi和Wj之间的依存路径长度,b是超参数。
本发明认为两个词之间的语义相似度无法准确衡量词语的重要程度,只有当两个词中至少有一个在文本中出现的频率很高,才能证明两个词很重要。根据万有引力的概念,将词频看作质量,将两个词的词向量间的欧氏距离视为距离,根据万有引力公式来计算两个词之间的引力。然而在当前文本环境下,仅利用词频来衡量文本中某个词的重要程度太过片面,因此本发明引入了IDF值,将词频替换为TF-IDF值,从而考虑到更全局性的信息,于是得到了新的词引力值公式。文本词语Wi和Wj的引力为:
Figure BDA0002188612890000132
其中,tfidf(W)是词W的TF-IDF值,d是词Wi和wj的词向量之间的欧式距离。
因此,两个词语之间的关联度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
最后,本发明利用TextRank算法建立一个无向图G=(V,E),其中V是顶点的集合,E是边的集合,根据下列式子算出词语Wi的得分,:
Figure BDA0002188612890000133
其中
Figure BDA0002188612890000134
是与顶点Wi有关的集合,η为阻尼系数,由此得到特征权重WS(Wi),并因此将每个词语表示成数值向量形式,即得到所述文本向量数据。
步骤二、获取具有多层结构的神经实体推理机识别模型。
较佳地,本发明所示神经实体推理机识别模型是一个多层的架构,每一层都是一个编码-解码的Bi-LSTM模型。同时,每一层都独立完成一次命名实体的神经推理,而每层的命名实体神经推理结果会通过一个符号化的缓存存储起来,作为下一层的参考,这种参考是通过一个交互式的池化神经网络实现的,本质是一个基于多个实时的推理模型。同时,为更好的对模型流程进行解读,本发明以示范文本“Dong met Tao and Wiener John metthe family of Tao”为例进行命名实体神经推理模型结构的分析。该段语句实际含有的命名实体有“John”、“Tao”、“Dong”、“Wiener”四个词。在本发明的命名实体神经推理模型未经训练时,在命名实体神经推理模型的第一层,候选池是空的,因为没有经过训练识别出初始命名实体。在此刻的模型中,识别出的命名实体结果为“John”,因为“John”是一个普通人的名字。在常规的训练模型中作为普通人的名字出现频率高,很容易进行对应进而被识别为命名实体。在前述模型识别过程中,“Tao”可能会被省略。首先“Tao”不是一个普通的人名,因此在训练模型中作为人名出现的频率不高,其次,因为上下文语义中出现了“met thefamily”不足以表达“Tao”作为人名的特征,因此训练模型中没有足够的和强烈的信号来对“Tao”进行正确识别。在经过本次训练后模型将“John”的信息作为初始命名实体信息存储到候选池中。这样在第二层,模型可以由推理机进行推理。推理的具体原理为,该模型可以根据“John”的信息知道“met”之前的单词是一个人名,也知道“Tao”是一个人名,所以推理机可推断得出“John”和第一个“Tao”在语句逻辑以及语法定位保持一致性,然后更新候选池将“Tao”作为初始命名实体存储进入候选池。同理,神经实体推理机识别模型模型可以在第三层中由推理机识别出“Wiener”在语句逻辑以及语法定位与前述的“Tao”一样都是人名,将其识别为命名实体,经过多层训练,对待识别文本中的所有词语单元进行识别,最终识别出文本多包含的全部命名实体,并完成整个神经实体推理机的命名实体识别过程。
优选地,在本发明实施例中,上述经过预处理的文本向量数据被编码成一个编码表示序列,每一层的解码器就可以依靠单词表达及其上下文生成信息独立给出预测标签。由于预测标签指出哪些词是实体,因此本发明可以从预测标签中找出实体表示。同时,本发明的模型始终记录整个神经实体推理机识别过程,包括已识别的实体信息,这样本发明所建立的模型就可以“看到”过去的所有决策,然后每个层可通过推理机从中引用,并更新候选池,使来自预测结果以帮助下一个分层以保持全局一致性并获得更好的结果。
步骤三、将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合。
较佳地,将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合包括以下步骤:
第一步骤、利用所述Bi-LSTM模型对所述文本向量数据进行编码,得到编码表示序列。
在本发明的实施例中,一个神经实体推理机识别模型层可以看作是一个基于神经实体推理机识别模型的规则编解码器框架,它可以接收推理机额外的信息。在这项工作中,本发明的模型使用了Bi-LSTM模型作为编码器,LSTM模型作为解码器。候选池是一个简单的列表,它由命名实体的编码表示序列组成,它可以包含在整个文本中或在整个结果中识别出的所有命名实体。各层的解码器和编码器可以共享参数,避免参数增长,使模型易于训练为端到端模型,因此各层之间唯一的区别就是候选池和命名实体的不同。
LSTM模型的设计是为了解决梯度消失和学习长期依赖关系的问题。形式上,在时刻t时,对基本LSTM单元的记忆c_t和隐藏状态h_t更新如下式:
Figure BDA0002188612890000151
Figure BDA0002188612890000152
ht=ot⊙tanh(ct)
式中,⊙表示元素积,σ是sigmoid函数,xt表示在t时刻输入的向量,ht,ot,ct,ft分别表示第t步输入门、忘记门、输出门的更新。由于LSTM只接收当前输入字之前的信息,但是在顺序任务中,后面的上下文信息也很重要。为了捕获来自过去和未来的上下文信息,本发明使用Bi-LSTM模型对其进行编码,其编码规则如下所示,据此得到编码表示序列:
Figure BDA0002188612890000153
式中,
Figure BDA0002188612890000154
表示LSTM模型正向隐藏状态;
Figure BDA0002188612890000155
表示LSTM模型反向隐藏状态。
第二步骤、输入所述编码表示序列和所述候选池中的所述初始命名实体由所述推理机进行处理,得到引用信息。
所述推理机是一组程序,用来控制、协调整个系统。是在一定的控制策略下,专家系统根据问题信息(用户与专家系统交流的信息)及知识库中的知识执行对问题的求解。即在目标引擎设定目标对象后,使用外部信息作为输入,使用演绎归纳等逻辑运算方法根据已建立的模式匹配,针对目标对象进行演算生成结论的引擎。
较佳地,本实施例中所述推理机实际上是一个多事实推理模型,在这个模型中,当前的编码表示序列信息是查询,候选池中的初始命名实体信息是事实。本实施例使用一个内核K(query,fact)来计算当前的编码表示序列信息与每个词之间的关系,其中初始命名实体信息在候选池中,计算结果s={s1,s2,s3,...,sn}表示给每个初始命名实体信息的建议,然后根据推理机从这些建议中得到引用信息。
第三步骤、将所述编码表示序列和所述引用信息输入解码器,得到预测标签;根据所述预测标签更新所述候选池,得到所述命名实体集合。
较佳地,由于本发明的实施例使用Bi-LSTM模型,因此可以得到一个很好的预测标签yi。同时本发明采用BMEOS(Begin、Middle、End、Other、Single)标记方案,这样就可以从预测标签yi中知道每个命名实体的开始或结束在哪里从而形成边界信息,然后使用所述边界信息来组织和形成文档的缓存。由于该模型依赖于本地语言特性来进行决策,因此本发明考虑如何在此基础上更合理有效地存储命名实体信息。在本发明实施例中,把一个命名实体看作是一个独立的、不可分割的对象,它由几个单词组成,所以一个实体出现的模式可以这样描述:[向前上下文][实体][向后上下文]。因此,本发明以这种模式存储实体。
进一步地,由于每个实体的编码表示序列都包含信息来决定它的预测标签。编码层中的编码器是前向
Figure BDA0002188612890000161
和后向
Figure BDA0002188612890000162
的组合。因此,本发明将得到的预测标签存储在候选池中,为推理机提供决定性的信息,以给出推理结果。基于候选池,本发明实际上将一个实体存储为一个对象,这个对象有三个描述。所以对于每一个要预测的单词,本发明可以从三个方面利用当前单词和候选词库之间的相似性作为参考,做出更好的决策。候选池中的每个矩阵实际上都是一个向量表示列表,其中也包含部分实体信息的事实,据此本发明可以使用一个特殊的多事实推理模型从中获取建议。
进一步地,所述解码器包括:
Figure BDA0002188612890000171
式中,X表示经过上述预处理的文本向量数据,yi表示所述神经实体推理机识别模型中第i层的预测标签,xt表示在t时刻文本向量x的值。
进一步地,在本实施例中,每个层的基于神经实体推理的命名实体识别模型在大多数情况下都可以共享参数,这使得本发明的模型真正实现了端到端。
因此,根据所述预测标签实时地更新所述候选池,得到所述命名实体集合。
步骤四、将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。
在本实施例中,通过将文本向量数据输入所述所述神经实体推理机识别模型中进行训练获得了稳定的命名实体神经推理机。
同时,根据此神经实体推理机识别模型,通过输入待识别的原始语句中的文本数据,经过多层神经实体推理机识别模型,得到相应的初始命名实体,并由初始命名实体形成命名实体集合。
本发明利用经过训练后的所述神经实体推理机识别模型推理机对文本向量数据和命名实体集合进行推理,得到命名实体。
可选地,在其他实施例中,命名实体识别程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述命名实体识别程序在命名实体识别装置中的执行过程。
例如,参照图3所示,为本发明命名实体识别装置一实施例中的命名实体识别程序的模块示意图,该实施例中,所述命名实体识别程序可以被分割为数据接收及处理模块10、词向量转化模块20、模型训练模块30、命名实体输出模块40示例性地:
所述数据接收及处理模块10用于:接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行分词、去停用词、去重等操作。
所述词向量转化模块20用于:利用TF-IDF算法对分词、去停用词、去重等操作之后的所述第一文本数据进行词向量形式转化,从而得到文本向量数据据。
所述模型训练模块30用于:获取具有多层结构的神经实体推理机识别模型,其中,每一层都是一个编码-解码的Bi-LSTM模型,且每一层都独立完成一次命名实体的神经推理,而每层的命名实体神经推理结果会通过一个符号化的缓存存储起来,作为下一层的参考。
所述命名实体输出模块40用于:将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合,并将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。
上述数据接收及处理模块10、词向量转化模块20、模型训练模块30、命名实体输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有命名实体识别程序,所述命名实体识别程序可被一个或多个处理器执行,以实现如下操作:
接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据;
获取具有多层结构的神经实体推理机识别模型;
将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合;
将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种命名实体识别方法,其特征在于,所述方法包括:
接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据;
获取具有多层结构的神经实体推理机识别模型,所述神经实体推理机识别模型的每一层结构通过Bi-LSTM模型进行编码,并通过解码器进行解码,解码完成后的数据进入下一层结构再次进行编码和解码;
将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合,其中,所述神经实体推理机识别模型中的各层结构共享参数,所述将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合包括:输入经过预处理的所述文本向量数据;利用所述Bi-LSTM模型对所述文本向量数据进行编码,得到编码表示序列和初始命名实体,将所述初始命名实体加入候选池;将所述编码表示序列和所述候选池中的所述初始命名实体输入所述神经实体推理机识别模型中的推理机中进行处理,得到引用信息;将所述编码表示序列和所述引用信息输入解码器,得到预测标签,根据所述预测标签更新所述候选池,得到所述命名实体集合;
将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。
2.如权利要求1所述的命名实体识别方法,其特征在于,所述解码器包括:
Figure FDA0003477941220000011
其中,X表示经过上述预处理的所述文本向量数据,y表示经过所述神经实体推理机识别模型训练后得到的所述预测标签,yi表示所述神经实体推理机识别模型中第i层的预测标签,xt表示在t时刻文本向量x的值。
3.如权利要求1~2中任一项所述的命名实体识别方法,其特征在于,所述对所述第一文本数据进行预处理得到文本向量数据包括:
对所述第一文本数据进行分词操作得到第二文本数据,对所述第二文本数据进行去停用词操作得到第三文本数据,对所述第三文本数据进行去重操作得到第四文本数据;
对所述第四文本数据利用TF-IDF算法进行词向量形式转化,得到所述文本向量数据。
4.一种命名实体识别装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的命名实体识别程序,所述命名实体识别程序被所述处理器执行时实现如下步骤:
接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据;
获取具有多层结构的神经实体推理机识别模型,所述神经实体推理机识别模型的每一层结构通过Bi-LSTM模型进行编码,并通过解码器进行解码,解码完成后的数据进入下一层结构再次进行编码和解码;
将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合,其中,所述神经实体推理机识别模型中的各层结构共享参数,所述将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合包括:输入经过预处理的所述文本向量数据;利用所述Bi-LSTM模型对所述文本向量数据进行编码,得到编码表示序列和初始命名实体,将所述初始命名实体加入候选池;将所述编码表示序列和所述候选池中的所述初始命名实体输入所述神经实体推理机识别模型中的推理机中进行处理,得到引用信息;将所述编码表示序列和所述引用信息输入解码器,得到预测标签,根据所述预测标签更新所述候选池,得到所述命名实体集合;
将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。
5.如权利要求4所述的命名实体识别装置,其特征在于,所述解码器包括:
Figure FDA0003477941220000021
其中,X表示经过上述预处理的所述文本向量数据,y表示经过所述神经实体推理机识别模型训练后得到的所述预测标签,yi表示所述神经实体推理机识别模型中第i层的预测标签,xt表示在t时刻文本向量x的值。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有命名实体识别程序,所述命名实体识别程序可被一个或者多个处理器执行,以实现如权利要求1至3中任一项所述的命名实体识别方法的步骤。
CN201910825074.1A 2019-09-02 2019-09-02 命名实体识别方法、装置及计算机可读存储介质 Active CN110688854B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910825074.1A CN110688854B (zh) 2019-09-02 2019-09-02 命名实体识别方法、装置及计算机可读存储介质
PCT/CN2019/116935 WO2021042516A1 (zh) 2019-09-02 2019-11-10 命名实体识别方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910825074.1A CN110688854B (zh) 2019-09-02 2019-09-02 命名实体识别方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110688854A CN110688854A (zh) 2020-01-14
CN110688854B true CN110688854B (zh) 2022-03-25

Family

ID=69108711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910825074.1A Active CN110688854B (zh) 2019-09-02 2019-09-02 命名实体识别方法、装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN110688854B (zh)
WO (1) WO2021042516A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353310B (zh) * 2020-02-28 2023-08-11 腾讯科技(深圳)有限公司 基于人工智能的命名实体识别方法、装置及电子设备
CN111709052B (zh) * 2020-06-01 2021-05-25 支付宝(杭州)信息技术有限公司 一种隐私数据识别和处理方法、装置、设备和可读介质
CN112256828B (zh) * 2020-10-20 2023-08-08 平安科技(深圳)有限公司 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN112434532B (zh) * 2020-11-05 2024-05-28 西安交通大学 一种支持人机双向理解的电网环境模型及建模方法
CN113051921B (zh) * 2021-03-17 2024-02-20 北京智慧星光信息技术有限公司 互联网文本实体识别方法、系统、电子设备及存储介质
CN113254581B (zh) * 2021-05-25 2022-08-19 深圳市图灵机器人有限公司 一种基于神经语义解析的金融文本公式抽取方法及装置
CN113343702B (zh) * 2021-08-03 2021-11-30 杭州费尔斯通科技有限公司 一种基于无标注语料的实体匹配方法和系统
CN113609860B (zh) * 2021-08-05 2023-09-19 湖南特能博世科技有限公司 文本切分方法、装置及计算机设备
CN113505598A (zh) * 2021-08-06 2021-10-15 贵州江南航天信息网络通信有限公司 一种基于混合神经网络的网络文本实体关系抽取算法
CN115688777B (zh) * 2022-09-28 2023-05-05 北京邮电大学 面向中文金融文本的嵌套和不连续实体的命名实体识别系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902570B (zh) * 2012-12-27 2018-11-09 腾讯科技(深圳)有限公司 一种文本分类特征提取方法、分类方法及装置
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
US11222253B2 (en) * 2016-11-03 2022-01-11 Salesforce.Com, Inc. Deep neural network model for processing data through multiple linguistic task hierarchies
CN107832400B (zh) * 2017-11-01 2019-04-16 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
KR101846824B1 (ko) * 2017-12-11 2018-04-09 가천대학교 산학협력단 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체
CN108536679B (zh) * 2018-04-13 2022-05-20 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法
CN109635279B (zh) * 2018-11-22 2022-07-26 桂林电子科技大学 一种基于神经网络的中文命名实体识别方法
CN109885824B (zh) * 2019-01-04 2024-02-20 北京捷通华声科技股份有限公司 一种层次的中文命名实体识别方法、装置及可读存储介质
CN109933792B (zh) * 2019-03-11 2020-03-24 海南中智信信息技术有限公司 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN110008469B (zh) * 2019-03-19 2022-06-07 桂林电子科技大学 一种多层次命名实体识别方法
AU2019207309C1 (en) * 2019-04-25 2021-02-11 Advanced New Technologies Co., Ltd. Identifying entities in electronic medical records
CN110110330B (zh) * 2019-04-30 2023-08-11 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110110335B (zh) * 2019-05-09 2023-01-06 南京大学 一种基于层叠模型的命名实体识别方法

Also Published As

Publication number Publication date
CN110688854A (zh) 2020-01-14
WO2021042516A1 (zh) 2021-03-11

Similar Documents

Publication Publication Date Title
CN110688854B (zh) 命名实体识别方法、装置及计算机可读存储介质
CN113792818B (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN110851596B (zh) 文本分类方法、装置及计算机可读存储介质
CN110737758A (zh) 用于生成模型的方法和装置
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN114020936B (zh) 多模态事理图谱的构建方法、系统和可读存储介质
CN111241828A (zh) 情感智能识别方法、装置及计算机可读存储介质
CN114676234A (zh) 一种模型训练方法及相关设备
CN113378970B (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN112016314A (zh) 一种基于bert模型的医疗文本理解方法及系统
CN114021582B (zh) 结合语音信息的口语理解方法、装置、设备及存储介质
CN114722069A (zh) 语言转换方法和装置、电子设备及存储介质
CN114626097A (zh) 脱敏方法、脱敏装置、电子设备及存储介质
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN114358201A (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN114416995A (zh) 信息推荐方法、装置及设备
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN114492661A (zh) 文本数据分类方法和装置、计算机设备、存储介质
Hung Vietnamese diacritics restoration using deep learning approach
CN113609857A (zh) 基于级联模型和数据增强的法律命名实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40019638

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant