CN109388795A

CN109388795A - 一种命名实体识别方法、语言识别方法及系统

Info

Publication number: CN109388795A
Application number: CN201710665560.2A
Authority: CN
Inventors: 王昊; 陈见耸; 沈磊; 高鹏
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2019-02-26
Anticipated expiration: 2037-08-07
Also published as: CN109388795B

Abstract

本发明公开了一种命名实体识别方法、语言识别方法及系统，属于自然语言处理技术领域；方法包括：训练得到字向量模型，准备实体词典；获取关联于预设的文本领域的训练语句；对训练语句进行分字，并根据字向量模型提取每个字的字向量特征；根据对应训练语句的命名实体领域的实体词典提取每个字的词典特征；拼接字向量特征和对应的词典特征分别形成关联于每个字的融合特征向量；将每个字的融合特征向量输入识别模型中，以分别输出每个字的标签信息，从而训练形成识别模型。再利用识别模型对输入语句进行识别。上述技术方案的有益效果是：提升命名实体识别的识别精度，避免漏识别或者误识别的情况发生，并且有助于对新实体的识别。

Description

一种命名实体识别方法、语言识别方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种命名实体识别方法、语言识别方法及系统。

背景技术

自然语言的处理过程中的重要步骤为识别出具有特定意义的命名实体。所谓命名实体，是指自然语言中例如人名、地名、机构名称以及歌曲名称等具有特定意义的专有名词，识别出这些专有名词在自然语言的处理过程中对语义的识别有着极大的帮助。中文的命名实体识别作为中文分词任务的延续，是中文信息处理领域的一个基础任务，其被广泛且成功地应用到信息抽取、信息检索、信息推荐以及机器翻译等任务中。例如查询语句理解的任务中，能够从查询语句中正确识别并抽取出关键的命名实体信息，就可以有效地帮助理解输入语句的意图。

现有技术中对于命名实体的识别方法通常包括：

1)基于词典的规则匹配方法，这种方法中，会根据各命名实体类别的词典集合去匹配输入语句中的子句，判断子句是否在词典集合中，从而找出关键信息的槽位。这种方法的可扩展性比较差，词典集合中不可能包括所有词语，因此对新命名实体的发现效果也不好，无法利用上下文的语义信息来进行识别。

2)基于统计的识别方法，即将命名实体的识别任务转换成序列标注的问题，并采用条件随机场(conditional random field,CRF)模型或者基于深度学习的方法来对命名实体进行识别。这种方法可以利用句子的句式语义信息来对命名实体进行识别。这种方法在识别效果上有一些提升，但是并没有融入规则的词典信息，在识别效果上还不够，依然存在漏识别和误识别的问题，并且对新发现的实体的识别效果也不够好。

发明内容

根据现有技术中存在的上述问题，现提供一种命名实体识别方法、语言识别方法及系统的技术方案，旨在提升命名实体识别的识别精度，有效减少漏识别或者误识别的情况发生，并且有助于对新实体的识别。

上述技术方案具体包括：

一种命名实体识别方法，适用于自然语言处理过程中；其中，包括预先训练形成关联于不同的文本领域内对命名实体进行识别的识别模型的方法；

预先形成关联于一个预设的所述文本领域的所述识别模型的方法具体包括：

步骤S1，预先训练得到中文的字向量模型，以及预先准备预设的所述文本领域内分别关联于不同的实体类别的所述命名实体的实体词典；

步骤S2，获取关联于预设的所述文本领域的训练语句；

步骤S3，对所述训练语句进行分字，并根据所述字向量模型提取每个字的字向量特征；

步骤S4，根据所述训练语句所对应的所述文本领域内不同的所述实体类别的所述命名实体的所述实体词典提取每个字的词典特征；

步骤S5，拼接所述字向量特征和对应的所述词典特征分别形成关联于每个字的融合特征向量；

步骤S6，将每个字的所述融合特征向量输入所述识别模型中，以分别输出每个字的标签信息，从而训练形成所述识别模型；

所述标签信息用于表示对应的字所属的所述实体类别，每个所述文本领域内包括至少一个所述实体类别；

所述命名实体识别方法还包括：

对需要识别的输入语句进行所述文本领域的判断，并根据判断结果将所述输入语句输入至对应的所述文本领域内的训练形成的所述识别模型中，以输出所述语句中每个字的所述标签信息，并且根据每个字的所述标签信息提取所述输入语句中识别出的每个所述命名实体。

优选的，该命名实体识别方法，其中，每个所述实体词典分别对应所述文本领域内的一个所述实体类别；

针对每个字的所述词典特征分别包括多维的特征向量，每一维的所述特征向量分别关联于对应的所述文本领域内的一个对应的所述实体类别；

所述步骤S4中，获取一条所述训练语句中的当前字的所述词典特征的步骤具体包括：

步骤S41，获取当前字针对对应的所述文本领域内每个所述实体类别的所述实体词典的所述特征向量；

步骤S42，将所有所述特征向量拼接形成完整的所述词典特征。

优选的，该命名实体识别方法，其中，每一维的所述特征向量包括三维的补充特征；

则对于每一维的所述特征向量，根据所述当前字在对应的所述命名实体中的位置，将对应维度的所述补充特征设定为第一取值，以及将其余维度的所述补充特征设定为第二取值。

优选的，该命名实体识别方法，其中，所述步骤S6中，所述识别模型包括BLSTM模型。

优选的，该命名实体识别方法，其中，在所述BLSTM模型的输出层增加一条件随机场模型，以保证输出的所述标签信息的前后依赖关系。一种语言识别方法，其中，包括上述命名实体识别方法。

一种语言识别系统，其中，采用上述语言识别方法。

上述技术方案的有益效果是：提升命名实体识别的识别精度，有效降低漏识别或者误识别的情况发生，并且有助于对新实体的识别。

附图说明

图1是本发明的较佳的实施例中，一种命名实体识别方法中，预先形成识别模型的流程示意图；

图2是本发明的较佳的实施例中，于图1的基础上，获取一条训练语句中的当前字的词典特征的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

基于现有技术中存在的上述问题，现提供一种命名实体识别方法，该方法应用于自然语言处理过程中，即在对自然语言的输入语句进行识别的过程中采用上述方法对语句中包括的命名实体进行识别。

上述命名实体识别方法中，首先包括预先训练形成关联于不同的文本领域内对命名实体进行识别的识别模型的方法；

则预先形成关联于一个预设的文本领域的识别模型的方法具体如图1中所示，包括：

步骤S1，预先训练得到中文的字向量模型，以及预先准备预设的文本领域内分别关联于不同的实体类别的命名实体的实体词典；

步骤S2，获取关联于预设的文本领域的训练语句；

步骤S3，对训练语句进行分字，并根据字向量模型提取每个字的字向量特征；

步骤S4，根据训练语句所对应的文本领域内不同的实体类别的命名实体的实体词典提取每个字的词典特征；

步骤S5，拼接字向量特征和对应的词典特征分别形成关联于每个字的融合特征向量；

步骤S6，将每个字的融合特征向量输入识别模型中，以分别输出每个字的标签信息，从而训练形成识别模型；

标签信息用于表示对应的字所属的实体类别，每个文本领域内包括至少一个实体类别；

命名实体识别方法还包括：

对需要识别的输入语句进行文本领域的判断，并根据判断结果将输入语句输入至对应的文本领域内的训练形成的识别模型中，以输出语句中每个字的标签信息，并且根据每个字的标签信息提取输入语句中识别出的每个命名实体。

本发明技术方案中的命名实体识别方法主要为对中文的命名实体进行识别。

具体地，本实施例中，上述命名实体方法中，首先需要预先训练形成用于对命名实体进行识别的识别模型。具体地，需要针对不同的文本领域分别形成用于识别该领域内的命名实体的识别模型，例如针对音乐领域训练形成对应的识别模型，或者针对体育领域训练形成对应的识别模型等。本实施例中以针对音乐领域生成对应的识别模型为例来对本发明技术方案进行进一步的阐述。

本实施例中，上述步骤S1中，首先预先训练得到中文的字向量模型。具体地，词向量是对词语进行稀疏性语义表述的向量，其可以根据语义距离得到语义相近的词。在本实施例中，可以使用中文的字向量，其类似于中文词向量，区别在于中文字向量以中文汉字为粒度来训练得到向量模型，而不是中文词语为粒度。训练形成中文的字向量模型的方式可以通过爬取中文的文本语料、对文本语料数据进行清洗、将中文语句进行分字并且根据分字后的语句训练字向量模型等过程。由于现有技术中存在较多训练得到中文字向量模型的实现方式，因此训练得到中文字向量模型的具体步骤在此不再赘述。

本实施例中，上述步骤S1中，还需要预先准备上述预设的文本领域内针对不同的实体类别的命名实体的实体词典。具体地，由于需要生成音乐领域的识别模型，因此需要实现准备音乐领域内的具体的实体词典。在音乐领域内的命名实体的实体类别大致分为歌手、歌曲名称以及曲风信息等，因此在准备实体词典时至少需要准备歌手词典、歌曲词典以及曲风词典三种。可以采用爬取网络上百科实体的分类数据或者一些开放的资源数据来获得需要的实体类别中的实体集合。在实际的应用中，需要准备的实体词典通常针对的是比较典型和常见的实体类别，因此可以很方便地爬取或者下载这些实体类别下的命名实体的实体集合，并且根据这些实体集合准备相应的实体词典。

本实施例中，在训练得到中文的字向量模型，并且准备好相关的文本领域内不同的实体类别的实体词典后，开始准备训练语句并训练识别模型。则上述步骤S2中，需要准备并输入相关的文本领域内的训练语句。例如需要训练形成音乐领域的识别模型，则需要输入音乐领域内的多个训练语句，这些训练语句都是语义完整的语句。

在准备并获取到训练语句后，上述步骤S3中，首先对每个训练语句进行分字的操作，将训练语句中的每个字分开，并且利用事先训练好的字向量模型对每个字进行检索，以获取每个字的字向量特征。检索字向量模型并获取每个字的字向量特征的技术手段在现有技术中已有较多的实现方式，在此不再赘述。

随后，本实施例中，上述步骤S4中，利用事先准备的文本领域内不同的实体类别的实体词典获取训练语句中每个字的词典特征。并且，上述步骤S5中，将每个字的字向量特征和词典特征拼接形成一个完整的融合特征向量。

最后，上述步骤S6中，将上述每个字的融合特征向量分别输入待训练的识别模型中，该识别模型的输出为每个字的标签信息，从而训练形成上述预设的文本领域(例如音乐领域)内的识别模型。具体地，上述标签信息用于表示对应的字所关联的命名实体的实体类别，例如，在音乐领域内，识别模型输出的标签信息可以为singer(歌手)，或者song(歌曲)，或者style(曲风)。又或者在体育领域内，识别模型输出的标签信息可以为athlete(运动员)或者运动项目(event)。

本实施例中，针对不同的文本领域重复上述步骤S1-S6，以分别训练形成不同的文本领域内用于识别命名实体的识别模型。

本实施例中，在训练形成识别模型后，首先对需要识别的输入语句进行文本领域的区分和判断，该区分和判断的过程可以采用现有的依照事先训练得到的判断模型来实现，在此不再赘述。随后，根据判断结果将输入语句输入至对应的文本领域内的识别模型中，以获得输入语句中每个字的标签信息，并且根据标签信息提取出输入语句中被识别出的归属于不同的实体类别的命名实体。

本发明的较佳的实施例中，每个实体词典分别对应文本领域内的一个实体类别；

针对每个字的词典特征分别包括多维的特征向量，每一维的特征向量分别关联于对应的文本领域内的一个对应的实体类别；

则上步骤S4中，如图2中所示，获取一条训练语句中的当前字的词典特征的步骤具体包括：

步骤S41，获取当前字针对对应的文本领域内每个实体类别的实体词典的特征向量；

步骤S42，将所有特征向量拼接形成完整的词典特征。

具体地，本实施例中，如上文中所述，每个实体词典对应于某个文本领域内的其中一个实体类别，例如歌手词典对应于音乐领域内的歌手(singer)的实体类别，歌曲词典对应于音乐领域内的歌曲(song)的实体类别等。

则本实施例中，上述步骤S41中，针对当前字，分别根据不同的实体词典形成对应的特征向量。例如在音乐领域内，针对当前字，分别根据歌手词典、歌曲词典以及曲风词典分别形成三个不同的特征向量。

随后，上述步骤S42中，将当前字对应的所有特征向量拼接形成对应当前字的完整的词典特征。

因此，本实施例中，由于音乐领域内总共具有三个不同的实体类别(歌手类别、歌曲类别和曲风类别)

本实施例中，循环执行上述步骤S41-S42，以对训练语句中所有字形成对应的词典特征。

进一步地，本发明的较佳的实施例中，如上文中所述，词典特征为n维的特征向量，n的取值由该词典特征对应的文本领域内所具有的实体类别的数量所决定。

并且，每一维的特征向量进一步包括了三维的补充特征；

则对于每一维的特征向量，根据当前字在对应的命名实体中的位置，将对应维度的补充特征设定为第一取值，以及将其余维度的补充特征设定为第二取值。

由于二进制是计算机语言最容易识别并处理的计数方式，因此上述第一取值可以为1，第二取值可以为0。

具体地，本发明的一个较佳的实施例中，在一个训练语句中，由当前字以及当前字前后的字组成的命名实体为音乐领域中的歌手名称“周杰伦”，其中的字“周”、“杰”和“伦”的词典特征均为三维的特征向量。

其中，“周”为命名实体中的第一个字，即位于命名实体的开头，因此相对于“周”根据歌手词典得到的特征向量可以表示为[1,0,0]。相应地，“杰”为命名实体中的第二个字，则相对于“杰”根据歌手词典得到的特征向量可以表示为[0,1,0]。最后一个字“伦”为命名实体中的第三个字，则相对于“伦”根据歌手词典得到的特征向量可以表示为[0,0,1]。

而无论对于歌曲词典还是曲风词典而言，“周杰伦”都不在这些词典当中，因此上述这三个字相对于歌曲词典和曲风词典的词典特征均为[0,0,0]。

在分别根据每个实体词典得到对应的特征向量后，拼接针对一个字的所有特征向量以形成针对这个字的词典特征。例如，拼接得到的“周”的词典特征为[1,0,0,0,0,0,0,0,0]。

本实施例中，每个特征向量包括三维的补充特征，这三维的补充特征啊按照顺序依次表示字位于命名实体的开头位置(第一个字的位置)、中间位置以及结尾位置(最后一个字的位置)，因此上述中间位置即表示字位于命名实体中除去第一个字和最后一个字的其余位置。例如对于像歌曲“平凡之路”这样由四字组成的命名实体而言，其中的“平”位于命名实体的开头位置，“凡”和“之”均位于命名实体的中间位置，“路”位于命名实体的结尾位置。则相对于歌曲词典而言，“平”的特征向量为[1,0,0]，“凡”和“之”的特征向量均为[0,1,0]，“路”的特征向量为[0,0,1]。

本发明的较佳的实施例中，上述步骤S6中，上述识别模型包括了BLSTM模型。即在步骤S6中，将拼接后形成的融合特征向量输入到BLSTM模型中，该模型最后输出的为预测的每个字的标签信息，从而训练形成识别模型。

进一步地，本发明的较佳的实施例中，上述步骤S6中，在上述BLSTM模型的输出层增加一条件随机场(CRF)模型，以保证输出的标签信息的前后依赖关系。即BLSTM模型的输出再经过CRF模型的处理，最终形成完整的识别模型，以识别并输出预测的每个字的标签信息。

本发明的较佳的实施例中，还提供一种语言识别方法，其中包括上文中所述的命名实体识别方法。在通过命名实体识别方法对自然语言的输入语句中的命名实体进行识别之后，再采用现有技术中的语言语义识别方法对输入语句进行后续的识别，在此不再赘述。

本发明的较佳的实施例中，还提供一种语言识别系统，其中采用上文中所述的语言识别方法。该语言识别系统的系统构成与现有技术中类似，并可以由计算机设备中的软硬件结构实现该语言识别系统中的全部功能，在此不再赘述。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种命名实体识别方法，适用于自然语言处理过程中；其特征在于，包括预先训练形成关联于不同的文本领域内对命名实体进行识别的识别模型的方法；

步骤S2，获取关联于预设的所述文本领域的训练语句；

所述命名实体识别方法还包括：

2.如权利要求1所述的命名实体识别方法，其特征在于，每个所述实体词典分别对应所述文本领域内的一个所述实体类别；

3.如权利要求2所述的命名实体识别方法，其特征在于，每一维的所述特征向量包括三维的补充特征；

4.如权利要求3所述的命名实体识别方法，其特征在于，所述第一取值为1，所述第二取值为0。

5.如权利要求1所述的命名实体识别方法，其特征在于，所述步骤S6中，所述识别模型包括BLSTM模型。

6.如权利要求5所述的命名实体识别方法，其特征在于，在所述BLSTM模型的输出层增加一条件随机场模型，以保证输出的所述标签信息的前后依赖关系。

7.一种语言识别方法，其特征在于，包括如权利要求1-6中所述的命名实体识别方法。

8.一种语言识别系统，其特征在于，采用如权利要求7所述的语言识别方法。