CN114528840A - 融合上下文信息的中文实体识别方法、终端及存储介质 - Google Patents

融合上下文信息的中文实体识别方法、终端及存储介质 Download PDF

Info

Publication number
CN114528840A
CN114528840A CN202210071410.XA CN202210071410A CN114528840A CN 114528840 A CN114528840 A CN 114528840A CN 202210071410 A CN202210071410 A CN 202210071410A CN 114528840 A CN114528840 A CN 114528840A
Authority
CN
China
Prior art keywords
word
vector
information
context information
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210071410.XA
Other languages
English (en)
Inventor
蔡树彬
谢勋超
明仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202210071410.XA priority Critical patent/CN114528840A/zh
Publication of CN114528840A publication Critical patent/CN114528840A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种融合上下文信息的中文实体识别方法、终端及存储介质,方法包括:获取待识别语句信息,并对待识别语句信息进行预处理,生成对应的字向量;根据字向量生成对应的词向量,并将词向量与对应的字向量进行拼接处理,得到拼接向量;将拼接向量输入至双向LSTM网络模型中,得到拼接向量及其上下文信息;根据拼接向量及其上下文信息对待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别。本发明通过提取待识别语句信息中的字向量和词向量,并将字向量与词向量进行拼接,利用类别识别对拼接后的信息进行分类,得到各字符的实体类型,从而在融合上下文信息的情况下实现了中文实体识别,解决了中文实体识别不准确的问题。

Description

融合上下文信息的中文实体识别方法、终端及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及的是一种融合上下文信息的中文实体识别方法、终端及存储介质。
背景技术
命名实体识别作为自然语言处理问题中一个任务,主要的目标是识别出文本中的人名、地名等专有名称和有意义的事件、日期等数量短语并加以归类。同时,命名实体识别任务也是信息抽取,信息检索,机器翻译,问答系统等多种自然语言处理技术必不可少的组成部分。
对中文命名实体识别的研究是,近年来命名实体识别领域中热度较高的一个方向。与英文不同,中文在字词多义性,分词不确定性等方面与英文有着比较大的差距。因此,在命名实体识别领域往往取得的效果不如英文。在大规模的预训练语言模型被广泛应用之后,词语多义性的问题已经得到了比较好的解决,但是,相比于有着明确单词界限的英文来说,中文命名实体识别中对于单词信息的利用难度较高。在英文中能够很容易地将单词作为输入的词向量,单词中的字符作为字符向量,然后进行拼接,得到最终的输入向量。以这种方式实现字符信息与单词信息的融合。但是,在中文领域,在很长的一段时间内只能使用句子中每个字对应的字向量作为输入,而忽略了词信息。
在之前的工作中,当需要对字符进行embedding(嵌入)的时候,使用的是Word2Vec或者Glove这一类的预训练向量来对输入进行表示;这些预训练向量通过对大量的语料进行训练和信息提取,生成一个能够表示字符的向量。但是,使用这些方法作为字符的embedding有一个问题是这些向量是静态的,不会改变。而一个字符在不同的语境下所表达的意思有可能是不同的,这时如果使用相同的向量来进行表示显然是不合适的。这就是一词多义的问题。而预训练语言模型的优点就是能够动态地生成向量,会根据字符所处的句子的含义不同,位置不同而生成一个能够更好地表示在当前句子中单词意思的向量。这时字符和向量就不是一对一的固定关系了,向量可以随着语境的不同动态生成,很好地解决了一词多义的问题。
除了预训练语言模型的应用,中文实体识别近年来取得提升的第二个主要因素是词信息的利用。第一个在中文实体识别中较好使用词信息的工作是《Chinese ner usinglattice lstm》中提出的Lattice-LSTM。它在传统的序列化标注模型的基础上,使用基于图模型的处理方式,将句子中每一个字符关联的单词信息添加到模型的表示层中。模型的结构也因此变得十分复杂,训练速度远不如常规的命名实体识别任务。因此,论文《Simplifythe usage of lexicon in Chinese NER》提出SoftLexicon对Lattice-LSTM的模型结构进行了调整。抛弃了复杂的图模型结构,将任务还原为序列标注任务,在输入层加入词信息。SoftLexicon创建了一个词典,对输入的句子中的每一个字查找包含这个词的所有单词。然后根据单词中这个字所处的位置,按照前中后的顺序将对应的单词的向量与字向量进行拼接,得到一个包含单词信息的输入向量。但是这两个相关的模型在拼接单词信息时所使用的词向量都是预训练好的词向量,即Word2Vec。这就会出现上面提到的对当前语境和一词多义信息的表达不够准确的问题。
因此,现有技术还有待改进。
发明内容
本发明要解决的技术问题在于,针对现有技术缺陷,本发明提供一种融合上下文信息的中文实体识别方法、终端及存储介质,以解决现有的中文命名实体识别方式对语境和一词多义信息的表达不准确的技术问题。
本发明解决技术问题所采用的技术方案如下:
第一方面,本发明提供一种融合上下文信息的中文实体识别方法,融合上下文信息的中文实体识别方法包括:
获取待识别语句信息,并对所述待识别语句信息进行预处理,生成对应的字向量;
根据所述字向量生成对应的词向量,并将所述词向量与对应的字向量进行拼接处理,得到拼接向量;
将所述拼接向量输入至双向LSTM网络模型中,得到所述拼接向量及其上下文信息;
根据所述拼接向量及其上下文信息对所述待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别。
在一种实现方式中,所述获取待识别语句信息,并对所述待识别语句信息进行预处理,生成对应的字向量,之前包括:
在嵌入层设置预训练语言模型。
在一种实现方式中,所述获取待识别语句信息,并对所述待识别语句信息进行预处理,生成对应的字向量,包括:
获取所述待识别语句信息;
通过所述预训练语言模型对所述待识别语句信息进行特征提取,得到所述待识别语句信息中每个字符对应的字向量。
在一种实现方式中,所述根据字向量生成对应的词向量,并将所述词向量与对应的字向量进行拼接处理,得到拼接向量,包括:
通过分词工具对所述待识别语句信息中的字符进行划分,得到词集合;
根据所述词集合制作每个词对应的词表,并通过所述预训练语言模型和所述词表对所述待识别语句信息进行特征提取,得到所述待识别语句信息中与所述字向量对应的词向量;
将所述词向量拼接到所述词向量中每个字符对应的字向量中,得到所述拼接向量。
在一种实现方式中,所述将拼接向量输入至双向LSTM网络模型中,得到所述拼接向量及其上下文信息,包括:
将所述拼接向量输入至所述双向LSTM网络模型中,提取所述拼接向量的上下文信息;
将所述拼接向量与所述上下文信息进行组合,得到所述拼接向量及其上下文信息。
在一种实现方式中,所述根据拼接向量及其上下文信息对所述待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别,包括:
根据训练数据集对实体分布和分词结果的相关性进行分析,确定各实体的类型;
根据确定的类型和所述拼接向量及其上下文信息,对所述待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别。
在一种实现方式中,所述融合上下文信息的中文实体识别方法还包括:
将所述字向量输入至所述双向LSTM网络模型中;
通过所述双向LSTM网络模型对所述字向量进行编码,得到所述字向量及其上下文信息;
将所述字向量及其上下文信息输入至解码层,通过所述解码层对所述待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别。
在一种实现方式中,所述将字向量及其上下文信息输入至解码层,通过所述解码层对所述待识别语句信息中对应的字符进行实体分类,包括:
将条件随机场设置为所述解码层;
通过所述条件随机场对所述解码层的输出规则进行限定;
根据限定的规则和所述字向量及其上下文信息,对所述待识别语句信息中对应的字符进行实体分类。
第二方面,本发明提供一种终端,包括:处理器以及存储器,所述存储器存储有融合上下文信息的中文实体识别程序,所述融合上下文信息的中文实体识别程序被所述处理器执行时用于实现如第一方面所述的融合上下文信息的中文实体识别方法。
第三方面,本发明提供一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有融合上下文信息的中文实体识别程序,所述融合上下文信息的中文实体识别程序被处理器执行时用于实现如第一方面所述的融合上下文信息的中文实体识别方法。
本发明采用上述技术方案具有以下效果:
本发明通过提取待识别语句信息中的字向量和词向量,并将字向量与词向量进行拼接,利用类别识别模块对拼接后的信息进行分类,得到待识别语句信息中各字符的实体类型,从而在融合上下文信息的情况下,实现了待识别语句信息中各字符的中文实体识别过程,解决了中文实体识别在不同语境和一词多义情况下识别不准确的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明的一种实现方式中融合上下文信息的中文实体识别方法的流程图。
图2是本发明的一种实现方式中中文实体识别模型的结构示意图。
图3是本发明的一种实现方式中终端的功能原理图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
示例性方法
如图1所示,本发明实施例提供一种融合上下文信息的中文实体识别方法,融合上下文信息的中文实体识别方法包括以下步骤:
步骤S100,获取待识别语句信息,并对所述待识别语句信息进行预处理,生成对应的字向量。
在本实施例中,所述融合上下文信息的中文实体识别方法应用于终端中,所述终端包括但不限于:计算机、移动终端以及可穿戴设备等。
在本实施例中,所述融合上下文信息的中文实体识别方法应用于中文实体识别场景中,可用于自动识别目标文本或目标语句信息中的人名和地名等专有名称,以及识别有意义的事件和日期等数量短语,并对识别到的专有名称和数量短语进行归类,从而得到符合当前语境的字符实体类别,为信息检索、机器翻译以及问答系统等领域提供有利的数据支持。
在本实施例中,所述融合上下文信息的中文实体识别方法通过全新的中文实体识别模型实现,所述中文实体识别模型是一个多任务训练模型,即同时通过多个任务对所述中文实体识别模型进行训练,得到训练后的中文实体识别模型;通过所述中文实体识别模型可以提取目标文本或目标语句信息中的字向量和词向量,并通过拼接的方式将字向量和词向量进行结合,从而对拼接后的字向量和词向量进行分类,实现目标文本或目标语句信息中实体识别的过程。
如图2所示,在所述中文实体识别模型中,包括两个子模块:命名实体识别模块和类型识别模块;其中,所述命名实体识别模块即为命名实体识别模型,可以将目标文本或目标语句信息中的每一个字符以字向量的形式进行展示,并通过双向LSTM网络模型提取每一个字向量的上下文信息,进而利用该字向量以及提取的上下文信息对目标文本或目标语句信息中的中文实体进行识别。
而所述类型识别模块即为类型识别模型,可以将目标文本或目标语句信息中的每一个词以词向量的形式进行展示,并以动态组合的方式将词向量与对应的字向量进行拼接,从而将拼接向量作为最终的输入信息,通过双向LSTM网络模型提取拼接向量的上下文信息,进而利用该拼接向量以及提取的上下文信息对目标文本或目标语句信息中的中文实体进行识别。
值得一提的是,在本实施例中,所述类型识别模块作为整个中文实体识别模型的辅助模块,可以在训练过程中辅助所述命名实体识别模块进行训练,完成目标文本或目标语句信息中的中文实体识别过程;通过所述类型识别模块的辅助作用,可以减小整个中文实体识别模型的训练过程,从而提高整个中文实体识别模型的训练效率;同时,通过所述类型识别模块的辅助作用,还可以提高所述命名实体识别模块在实际识别过程中的识别准确率和识别效率。
在本实施例中,在实施所述融合上下文信息的中文实体识别方法之前,需要在所述中文实体识别模型的嵌入层设置预训练语言模型;其中,所设置的预训练语言模型可以是BERT模型(Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型),通过所述BERT模型可以对需要识别的文本信息(即待识别语句信息)进行划分,从而生成该文本信息中每个字符对应的字向量,以及生成文本信息中每个词对应的词向量,并以字向量和词向量的方式表示该文本信息。
即在本实施例的一种实现方式中,步骤S100之前包括以下步骤:
步骤S001,在嵌入层设置预训练语言模型。
在本实施例中,在嵌入层设置所述预训练语言模型后,通过预先设置的训练数据集,可对所述命名实体识别模块和所述类型识别模块进行训练,待所述命名实体识别模块和所述类型识别模块训练后,即可得到训练后的中文实体识别模型。
在训练的过程中,可获取待识别语句信息,并将所述待识别语句信息输入至中文实体识别模型的嵌入层中,以通过所述嵌入层中的预训练语言模型(即BERT模型)对所述待识别语句信息进行预处理;其中,所述待识别语句信息可以是目标文本或目标语句信息,例如:所述目标语句信息为“小明去北京了”。
进一步地,在所述预训练语言模型预处理的过程中,所述预训练语言模型可以对所述待识别语句信息进行特征提取,得到所述待识别语句信息每一个字符,例如:经过特征提取后,得到的字符依次为“小”、“明”、“去”、“北”、“京”、“了”。
在得到每个字符后,所述预训练语言模型可以根据字符的对应关系,将每个字符以字向量的形式进行展示,例如:根据对应关系,上述字符对应的字向量依次为“C1”、“C2”、“C3”、“C4”、“C5”、“C6”。
即在本实施例的一种实现方式中,步骤S100具体包括以下步骤:
步骤S101,获取所述待识别语句信息;
步骤S102,通过所述预训练语言模型对所述待识别语句信息进行特征提取,得到所述待识别语句信息中每个字符对应的字向量。
本实施例通过预训练语言模型生成字向量,使得生成的字向量可以更好地对待识别语句信息中的上下文的具体语义信息进行表示,从而更好地对待识别语句信息进行实体分类。
如图1所示,在本发明实施例的一种实现方式中,融合上下文信息的中文实体识别方法还包括以下步骤:
步骤S200,根据所述字向量生成对应的词向量,并将所述词向量与对应的字向量进行拼接处理,得到拼接向量。
在本实施例中,通过所述预训练语言模型生成字向量后,还需要通过所述预训练语言模型生成词向量,从而通过生成的词向量与已有的字向量进行拼接,以动态生成的方式获取词向量和拼接向量。
具体地,不同于已有的词向量添加方法(即将训练好的词向量作为拼接向量,以此来添加词信息),本实施例中使用动态生成的方式来获取需要添加的词向量。
首先,可以通过分词工具对所述待识别语句信息中的字符进行分词,得到词集合;其中,所述词集合包含所述待识别语句信息中所有的词语,例如:通过对语句信息“小明去北京了”进行划分,得到的词集合包含“小明”、“去”、“北京”、“了”。
然后,根据所述词集合制作每个词对应的词表,并采用类似于所述预训练语言模型生成字向量的方法,使用BERT模型生成词向量;即通过所述预训练语言模型和所述词表对所述待识别语句信息进行特征提取,得到所述待识别语句信息中与所述字向量对应的词向量;例如:通过对上述词集合进行处理,得到的词向量依次为:“W1”、“W2”、“W3”、“W4”。
最后,将得到的词向量与对应的字向量进行拼接处理,得到拼接向量,并以所述拼接向量作为所述中文实体识别模型的最终输入向量;其中,所述拼接向量为所述词向量与组成该词向量中每一个字对应的字向量的拼接向量;例如:词向量“W1”对应的字向量为“C1”和“C2”,则拼接向量为“C1W1”和“C2W1”。
即在本实施例的一种实现方式中,步骤S200具体包括以下步骤:
步骤S201,通过分词工具对所述待识别语句信息中的字符进行划分,得到词集合;
步骤S202,根据所述词集合制作每个词对应的词表,并通过所述预训练语言模型和所述词表对所述待识别语句信息进行特征提取,得到所述待识别语句信息中与所述字向量对应的词向量;
步骤S203,将所述词向量拼接到所述词向量中每个字符对应的字向量中,得到所述拼接向量。
不同于其他方法的是,本实施例使用分词工具从输入的待识别语句信息本身中获取相应的单词,并使用BERT预训练模型动态生成词向量,使得生成的词向量能够更好地表示当前词在具体语境中的意思,而且拼接到字向量上能够进一步提升最终表示向量对于信息的表示质量。
如图1所示,在本发明实施例的一种实现方式中,融合上下文信息的中文实体识别方法还包括以下步骤:
步骤S300,将所述拼接向量输入至双向LSTM网络模型中,得到所述拼接向量及其上下文信息。
在本实施例中,在得到拼接向量后,先将所述拼接向量输入至双向LSTM网络模型中,以通过所述双向LSTM网络模型对所述拼接向量进行编码,进一步提取所述拼接向量的上下文信息;其中,所述编码是指根据输入的拼接向量提取与之相关联的上下文信息;然后,将所述拼接向量与所述上下文信息进行组合,得到所述拼接向量及其上下文信息。
即在本实施例的一种实现方式中,步骤S300具体包括以下步骤:
步骤S301,将所述拼接向量输入至所述双向LSTM网络模型中,提取所述拼接向量的上下文信息;
步骤S302,将所述拼接向量与所述上下文信息进行组合,得到所述拼接向量及其上下文信息。
本实施例不必花费额外的时间去对预训练向量进行训练,也不用额外的对预训练向量作为文件进行存储,而是可以在训练的过程中直接生成词向量并加以使用,通过将拼接向量输入至双向LSTM网络模型中进行编码,可以进一步提升训练的效率。
如图1所示,在本发明实施例的一种实现方式中,融合上下文信息的中文实体识别方法还包括以下步骤:
步骤S400,根据所述拼接向量及其上下文信息对所述待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别。
在本实施例中,通过双向LSTM网络模型编码后,即可根据所述拼接向量及其上下文信息对所述待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别。
具体地,将所述拼接向量及其上下文信息输入至所述类型识别模块的解码层,利用所述解码层对所述待识别语句信息中对应的字符进行实体分类;在解码分类的过程中,先根据训练数据集对实体分布和分词结果的相关性进行分析,确定各实体的类型;然后,根据确定的类型和所述拼接向量及其上下文信息,对所述待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别。
本实施例中通过引进一个类型识别的子模块对常规的命名实体识别任务进行辅助,以及通过对训练数据集进行分析,可以发现实体的分布和分词结果的分布呈现出比较大的相关性;即作为实体的一个序列,在分词后,往往也是作为一个单词序列的存在。因此,本实施例中在嵌入词信息之后,将其传入一个类型识别的模型中进行训练,进一步地利用词信息,来对主体的命名实体识别任务进行提升。
即在本实施例的一种实现方式中,步骤S400具体包括以下步骤:
步骤S401,根据训练数据集对实体分布和分词结果的相关性进行分析,确定各实体的类型;
步骤S402,根据确定的类型和所述拼接向量及其上下文信息,对所述待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别。
在本实施例中,在所述类型识别模块的解码层中,可以进行一个按照类型分类的任务,即不区分当前字符(即待识别语句信息中对应的字符)所在实体的具体位置情况,只对当前字符属于什么类型的实体做分类;在对待识别语句信息中的每个字符做实体分类后,可以使用CRF(即Conditional Random Field,条件随机场)计算当前任务的损失值,得到所述类型识别模块的损失值,以此确定当前训练任务的训练效果。
具体地,在所述类型识别模块的解码层中,使用的解码层网络结构是条件随机场(CRF):
在类型识别模块中使用条件随机场作为解码层,比使用常规的线性层分类加上交叉熵损失函数作为模型损失的计算方法有着更好的效果;因为,在条件随机场会中,会对模型的输出限定一些规则,这在命名实体识别中有着重要的作用。
在本实施例中,除了所述类型识别模块的训练过程,还有所述命名实体识别模块的训练过程;在所述命名实体识别模块的训练过程中,可以将所述类型识别模块的分类结果和训练数据作为参考,从而实现所述类型识别模块对所述待识别语句信息的实体分类分过程。
具体地,所述命名实体识别模块所需要的字向量也是通过BERT预训练模型生成;在所述命名实体识别模块的嵌入层中,首先使用生成的字向量表示所述待识别语句信息中的每个字符。
然后,将得到的字向量输入至所述双向LSTM网络模型中,通过所述双向LSTM网络模型对所述字向量进行编码,以进一步提取所述字向量的上下文信息,从而得到所述字向量及其上下文信息。
最后,所述双向LSTM网络模型输出的向量中包含每个字符的前后文段信息,将其输入至所述命名实体识别模块的解码层,对每个字符进行实体分类,即可得到对应的中文实体类别。
在本发明实施例的一种实现方式中,融合上下文信息的中文实体识别方法还包括以下步骤:
步骤S501,将所述字向量输入至所述双向LSTM网络模型中;
步骤S502,通过所述双向LSTM网络模型对所述字向量进行编码,得到所述字向量及其上下文信息;
步骤S503,将所述字向量及其上下文信息输入至解码层,通过所述解码层对所述待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别。
在本实施例中,通过所述命名实体识别模块进行分类时,所述命名实体识别模块使用的解码层网络结构也可以是条件随机场(CRF):
在所述命名实体识别模块中,使用条件随机场作为解码层,比使用常规的线性层分类加上交叉熵损失函数作为模型损失的计算方法有着更好的效果。
因为,在条件随机场中,会对模型的输出限定一些规则,这在命名实体识别中有着重要的作用。例如:命名实体识别数据集中的标注一般会区分当前字符所在的实体中的具体位置,即使用前缀“B”代表位于实体开头,使用前缀“I”代表位于实体内部。条件随机场就会在对模型输出生成分数的时候充分考虑到这些规则。例如,输出的同一实体的“I”前缀标签一定不会出现在“B”前缀标签之前。因此,使用CRF作为实体识别任务的解码层和损失函数计算方法是更好的选择。
即在本实施例的一种实现方式中,步骤S503具体包括以下步骤:
步骤S503a,将条件随机场设置为所述解码层;
步骤S503b,通过所述条件随机场对所述解码层的输出规则进行限定;
步骤S503c,根据限定的规则和所述字向量及其上下文信息,对所述待识别语句信息中对应的字符进行实体分类。
在本实施例中,经过所述命名实体识别模块和所述类型识别模块的训练过程后,根据CRF计算得到各自的损失值,通过将所述命名实体识别模块的损失值与所述类型识别模块的损失值进行加权,得到整个中文实体识别模型的最终损失值。
本实施例在中文实体识别数据集Resume和MSRA上进行了充分的实验,主要对比了常规的命名实体识别方法和近年来进行了词信息融入的相关方法,效果上均取得了提升。因此,本实施例中提出的中文实体识别模型在中文命名实体识别的准确率上具有很大的提升。
本实施例采取上述技术方案具有以下技术效果:
本实施例通过提取待识别语句信息中的字向量和词向量,并将字向量与词向量进行拼接,利用类别识别模块对拼接后的信息进行分类,得到待识别语句信息中各字符的实体类型,从而在融合上下文信息的情况下,实现了待识别语句信息中各字符的中文实体识别过程,解决了中文实体识别在不同语境和一词多义情况下识别不准确的问题。
示例性设备
基于上述实施例,本发明还提供一种终端,其原理框图可以如图3所示。
该终端包括:通过系统总线连接的处理器、存储器、接口、显示屏以及通讯模块;其中,该终端的处理器用于提供计算和控制能力;该终端的存储器包括存储介质以及内存储器;该存储介质存储有操作系统和计算机程序;该内存储器为存储介质中的操作系统和计算机程序的运行提供环境;该接口用于连接外部终端设备,例如,移动终端以及计算机等设备;该显示屏用于显示相应的融合上下文信息的中文实体识别信息;该通讯模块用于与云端服务器或移动终端进行通讯。
该计算机程序被处理器执行时用以实现一种融合上下文信息的中文实体识别方法。
本领域技术人员可以理解的是,图3中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种终端,其中,包括:处理器和存储器,存储器存储有融合上下文信息的中文实体识别程序,融合上下文信息的中文实体识别程序被处理器执行时用于实现如上的融合上下文信息的中文实体识别方法。
在一个实施例中,提供了一种存储介质,其中,该存储介质为计算机可读存储介质,该存储介质存储有融合上下文信息的中文实体识别程序,融合上下文信息的中文实体识别程序被处理器执行时用于实现如上的融合上下文信息的中文实体识别方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
综上,本发明提供了一种融合上下文信息的中文实体识别方法、终端及存储介质,其中,方法包括:获取待识别语句信息,并对待识别语句信息进行预处理,生成对应的字向量;根据字向量生成对应的词向量,并将词向量与对应的字向量进行拼接处理,得到拼接向量;将拼接向量输入至双向LSTM网络模型中,得到拼接向量及其上下文信息;根据拼接向量及其上下文信息对待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别。本发明通过提取待识别语句信息中的字向量和词向量,并将字向量与词向量进行拼接,利用类别识别对拼接后的信息进行分类,得到各字符的实体类型,从而在融合上下文信息的情况下实现了中文实体识别,解决了中文实体识别不准确的问题。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种融合上下文信息的中文实体识别方法,其特征在于,所述融合上下文信息的中文实体识别方法包括:
获取待识别语句信息,并对所述待识别语句信息进行预处理,生成对应的字向量;
根据所述字向量生成对应的词向量,并将所述词向量与对应的字向量进行拼接处理,得到拼接向量;
将所述拼接向量输入至双向LSTM网络模型中,得到所述拼接向量及其上下文信息;
根据所述拼接向量及其上下文信息对所述待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别。
2.根据权利要求1所述的融合上下文信息的中文实体识别方法,其特征在于,所述获取待识别语句信息,并对所述待识别语句信息进行预处理,生成对应的字向量,之前包括:
在嵌入层设置预训练语言模型。
3.根据权利要求2所述的融合上下文信息的中文实体识别方法,其特征在于,所述获取待识别语句信息,并对所述待识别语句信息进行预处理,生成对应的字向量,包括:
获取所述待识别语句信息;
通过所述预训练语言模型对所述待识别语句信息进行特征提取,得到所述待识别语句信息中每个字符对应的字向量。
4.根据权利要求1所述的融合上下文信息的中文实体识别方法,其特征在于,所述根据字向量生成对应的词向量,并将所述词向量与对应的字向量进行拼接处理,得到拼接向量,包括:
通过分词工具对所述待识别语句信息中的字符进行划分,得到词集合;
根据所述词集合制作每个词对应的词表,并通过所述预训练语言模型和所述词表对所述待识别语句信息进行特征提取,得到所述待识别语句信息中与所述字向量对应的词向量;
将所述词向量拼接到所述词向量中每个字符对应的字向量中,得到所述拼接向量。
5.根据权利要求1所述的融合上下文信息的中文实体识别方法,其特征在于,所述将拼接向量输入至双向LSTM网络模型中,得到所述拼接向量及其上下文信息,包括:
将所述拼接向量输入至所述双向LSTM网络模型中,提取所述拼接向量的上下文信息;
将所述拼接向量与所述上下文信息进行组合,得到所述拼接向量及其上下文信息。
6.根据权利要求1所述的融合上下文信息的中文实体识别方法,其特征在于,所述根据拼接向量及其上下文信息对所述待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别,包括:
根据训练数据集对实体分布和分词结果的相关性进行分析,确定各实体的类型;
根据确定的类型和所述拼接向量及其上下文信息,对所述待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别。
7.根据权利要求1所述的融合上下文信息的中文实体识别方法,其特征在于,所述融合上下文信息的中文实体识别方法还包括:
将所述字向量输入至所述双向LSTM网络模型中;
通过所述双向LSTM网络模型对所述字向量进行编码,得到所述字向量及其上下文信息;
将所述字向量及其上下文信息输入至解码层,通过所述解码层对所述待识别语句信息中对应的字符进行实体分类,得到对应的中文实体类别。
8.根据权利要求7所述的融合上下文信息的中文实体识别方法,其特征在于,所述将字向量及其上下文信息输入至解码层,通过所述解码层对所述待识别语句信息中对应的字符进行实体分类,包括:
将条件随机场设置为所述解码层;
通过所述条件随机场对所述解码层的输出规则进行限定;
根据限定的规则和所述字向量及其上下文信息,对所述待识别语句信息中对应的字符进行实体分类。
9.一种终端,其特征在于,包括:处理器以及存储器,所述存储器存储有融合上下文信息的中文实体识别程序,所述融合上下文信息的中文实体识别程序被所述处理器执行时用于实现如权利要求1-8中任意一项所述的融合上下文信息的中文实体识别方法。
10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质存储有融合上下文信息的中文实体识别程序,所述融合上下文信息的中文实体识别程序被处理器执行时用于实现如权利要求1-8中任意一项所述的融合上下文信息的中文实体识别方法。
CN202210071410.XA 2022-01-21 2022-01-21 融合上下文信息的中文实体识别方法、终端及存储介质 Pending CN114528840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210071410.XA CN114528840A (zh) 2022-01-21 2022-01-21 融合上下文信息的中文实体识别方法、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210071410.XA CN114528840A (zh) 2022-01-21 2022-01-21 融合上下文信息的中文实体识别方法、终端及存储介质

Publications (1)

Publication Number Publication Date
CN114528840A true CN114528840A (zh) 2022-05-24

Family

ID=81621510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210071410.XA Pending CN114528840A (zh) 2022-01-21 2022-01-21 融合上下文信息的中文实体识别方法、终端及存储介质

Country Status (1)

Country Link
CN (1) CN114528840A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818717A (zh) * 2022-05-25 2022-07-29 华侨大学 融合词汇和句法信息的中文命名实体识别方法及系统
CN117669574A (zh) * 2024-02-01 2024-03-08 浙江大学 基于多语义特征融合的人工智能领域实体识别方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818717A (zh) * 2022-05-25 2022-07-29 华侨大学 融合词汇和句法信息的中文命名实体识别方法及系统
CN117669574A (zh) * 2024-02-01 2024-03-08 浙江大学 基于多语义特征融合的人工智能领域实体识别方法及系统
CN117669574B (zh) * 2024-02-01 2024-05-17 浙江大学 基于多语义特征融合的人工智能领域实体识别方法及系统

Similar Documents

Publication Publication Date Title
CN110717017B (zh) 一种处理语料的方法
CN108287858B (zh) 自然语言的语义提取方法及装置
CN111625635A (zh) 问答处理、语言模型的训练方法、装置、设备及存储介质
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN107861954B (zh) 基于人工智能的信息输出方法和装置
US11361002B2 (en) Method and apparatus for recognizing entity word, and storage medium
CN111428514A (zh) 语义匹配方法、装置、设备以及存储介质
CN113590865B (zh) 图像搜索模型的训练方法及图像搜索方法
Poostchi et al. BiLSTM-CRF for Persian named-entity recognition ArmanPersoNERCorpus: the first entity-annotated Persian dataset
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN113220836A (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
CN114528840A (zh) 融合上下文信息的中文实体识别方法、终端及存储介质
CN111639228A (zh) 视频检索方法、装置、设备及存储介质
CN112115252A (zh) 智能辅助写作处理方法、装置、电子设备及存储介质
CN114218940B (zh) 文本信息处理、模型训练方法、装置、设备及存储介质
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN114020886A (zh) 语音意图识别方法、装置、设备及存储介质
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质
CN113434631A (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN115169370B (zh) 语料数据增强方法、装置、计算机设备及介质
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination