CN110969021A

CN110969021A - 单轮对话中的命名实体识别方法、装置、设备及介质

Info

Publication number: CN110969021A
Application number: CN201911338110.8A
Authority: CN
Inventors: 简仁贤; 吴文杰; 李强; 刘影
Original assignee: Emotibot Technologies Ltd
Current assignee: Emotibot Technologies Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-04-07

Abstract

本发明公开了单轮对话中的命名实体识别方法、装置、设备及介质，所述方法包括步骤一、采集单轮对话中发问方的一句问句数据，采集单轮对话中回答方的一句对问句数据进行回答的答句数据；步骤二、将步骤一中采集的问句数据和答句数据合成为一句单轮对话数据；步骤三、将步骤二中合成的一句单轮对话数据输入至命名实体识别模型，识别出答句数据的命名实体识别结果。本发明能够在一定程度上解决单轮对话中句子命名实体识别真歧义的问题。

Description

单轮对话中的命名实体识别方法、装置、设备及介质

技术领域

本发明属于计算机数据处理技术领域，尤其涉及一种单轮对话中的命名实体识别方法、装置、设备及介质。

背景技术

命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。现有的对话系统中的命名实体识别都是单句子的，并没有利用单轮对话中的信息。在对话系统中，用户的句子通常不会很长，所以在进行命名实体识别时候，单从当前的句子中是无法对一些有真歧义的专有词识别其类型的，比如有一个地名叫黄龙，有一个人名也叫黄龙，所以当一个句子是：“黄龙”时，这里的“黄龙”是标注成地名还是人名呢，如果从单句子看，标成哪一种类型都是对的，这个就是有真歧义的，目前是没有技术来解决的。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供单轮对话中的命名实体识别方法、装置、设备及介质，能够在一定程度上解决单轮对话中句子命名实体识别真歧义的问题。

为解决上述技术问题，本发明采用的技术方案是：本发明第一方面公开了一种单轮对话中的命名实体识别方法，包括以下步骤：

步骤一、采集单轮对话中发问方的一句问句数据，采集单轮对话中回答方的一句对问句数据进行回答的答句数据；

步骤二、将步骤一中采集的问句数据和答句数据合成为一句单轮对话数据；

步骤三、将步骤二中合成的一句单轮对话数据输入至命名实体识别模型，识别出答句数据的命名实体识别结果。

上述单轮对话中的命名实体识别方法，步骤三中命名实体识别模型为经过训练的序列标注算法模型。

上述单轮对话中的命名实体识别方法，所述序列标注算法模型为HMM模型、CRF模型或Deep Learning模型。

上述单轮对话中的命名实体识别方法，步骤三中将步骤二中合成的一句单轮对话数据输入至命名实体识别模型前，将单轮对话数据转换为文本数据，然后将该文本数据输入至命名实体识别模型。

本发明第二方面公开了一种单轮对话中的命名实体识别装置，包括数据采集模块、数据合成模块和命名实体识别模块；

所述数据采集模块，用于采集单轮对话中发问方的一句问句数据，还用于采集单轮对话中回答方的一句对问句数据进行回答的答句数据；

所述数据合成模块，用于将数据采集模块采集的问句数据和答句数据合成为一句单轮对话数据；

所述命名实体识别模块，用于将数据合成模块合成的一句单轮对话数据输入至命名实体识别模型，识别出答句数据的命名实体识别结果。

上述单轮对话中的命名实体识别装置，所述命名实体识别模型为经过训练的序列标注算法模型。

上述单轮对话中的命名实体识别装置，所述序列标注算法模型为HMM模型、CRF模型或Deep Learning模型。

上述单轮对话中的命名实体识别装置，所述命名实体识别模块包括数据转换单元，所述数据转换单元用于将数据合成模块合成的一句单轮对话数据转换为文本数据，然后输入至命名实体识别模型。

本发明第三方面公开了一种命名实体识别设备，其中所述设备包括自然语言数据采集装置、处理器和存储器，所述存储器包含一组指令，所述一组指令在由所述处理器执行时使所述命名实体识别设备执行如第一方面公开的命名实体识别方法。

本发明第四方面公开了一种计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时执行如第一方面公开的命名实体识别方法。

本发明与现有技术相比具有以下优点：本发明通过采集单轮对话中发问方的一句问句数据和回答方的答句数据；将问句数据和答句数据合成为一句单轮对话数据输入至命名实体识别模型，识别出答句数据的命名实体识别结果；能够在一定程度上避免答句数据命名实体识别时，出现真歧义的问题。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明实施例的命名实体识别方法流程图。

图2为本发明实施例的命名实体识别装置原理框图。

具体实施方式

实施例1

如图1所示，一种单轮对话中的命名实体识别方法，包括以下步骤：

需要说明的是，假设一段单轮对话为“发问方：你打电话给谁呢？回答方：黄龙”，另一段对话单轮对话为“发问方：你想去哪里玩呢？回答方：黄龙”；从以上两段单轮对话不难看出，第一段单轮对话中的“黄龙”为人名，第二段单轮对话中的“黄龙”为地名，若从“黄龙”这单个句子看，是很难确定将“黄龙”标注成人名还是地名的。

本实施例中，所述命名实体识别方法，通过在对单轮对话中的问句数据和答句数据整合成一句单轮对话数据输入至命名实体识别模型中，识别出答句数据的命名实体识别结果，能够在一定程度上避免出现真歧义的问题。例如在对第二段单轮对话中的“黄龙”进行命名实体识别时，将“发问方：你想去哪里玩呢？回答方：黄龙”整体输入到命名实体识别模型中，即可得出“黄龙”标注成地名的命名实体识别结果。

本实施例中，步骤三中命名实体识别模型为经过训练的序列标注算法模型。系列标注算法模型在训练时，采用把单轮对话中的发问方的问句数据和回答方的答句数据合成为一句单轮对话数据，并作为一条训练语料去训练。这样使得在调用命名实体识别模型进行命名实体识别操作的时候，对输入的一句单轮对话数据，能够准确识别出答句数据的命名实体识别结果。

本实施例中，所述序列标注算法模型为HMM模型、CRF模型或Deep Learning模型。

本实施例中，步骤三中将步骤二中合成的一句单轮对话数据输入至命名实体识别模型前，将单轮对话数据转换为文本数据，然后将该文本数据输入至命名实体识别模型。

需要说明的是，所述单轮对话数据为语音数据或文本数据，还可以为其他类型的数据。当单轮对话数据为语音数据时，通过语音识别技术将语音数据转换为文本数据；当单轮对话数据为文本数据时，则无需进行数据转换；当单轮对话数据为其他类型的数据时，采用相对应的技术将单轮对话数据转换为文本数据。

实施例2

如图2所示，一种单轮对话中的命名实体识别装置，包括数据采集模块、数据合成模块和命名实体识别模块；

本实施例中，所述命名实体识别装置，通过在对单轮对话中的问句数据和答句数据整合成一句单轮对话数据输入至命名实体识别模型中，识别出答句数据的命名实体识别结果，能够在一定程度上避免出现真歧义的问题。例如在对第二段单轮对话中的“黄龙”进行命名实体识别时，将“发问方：你想去哪里玩呢？回答方：黄龙”整体输入到命名实体识别模型中，即可得出“黄龙”标注成地名的命名实体识别结果。

本实施例中，所述数据采集模块为语音采集模块，例如麦克风。

本实施例中，所述命名实体识别模型为经过训练的序列标注算法模型。系列标注算法模型在训练时，采用把单轮对话中的发问方的问句数据和回答方的答句数据合成为一句单轮对话数据，并作为一条训练语料去训练。这样使得在调用命名实体识别模型进行命名实体识别操作的时候，对输入的一句单轮对话数据，能够准确识别出答句数据的命名实体识别结果。

本实施例中，所述命名实体识别模块包括数据转换单元，所述数据转换单元用于将数据合成模块合成的一句单轮对话数据转换为文本数据，然后输入至命名实体识别模型。

本实施例中，所述数据转换单元为将语音数据转换为文本数据的语音识别单元，所述数据转换单元通过语音识别技术实现。

实施例3

一种命名实体识别设备，其中所述设备包括自然语言数据采集装置和一个或多个专用或通用的计算机处理系统模块或部件；一个或多个专用或通用的计算机处理系统模块或部件其可以包括至少一个处理器及存储器。所述存储器包含一组指令，所述一组指令在由所述处理器执行时使所述命名实体识别设备执行上述实施例1中所述的方法。

本实施例中，自然语言数据采集装置为语音采集装置，例如麦克风组件，其可包括麦克风、麦克风套管、安装杆、连接线等；其也可为无线麦克风或麦克风电路。一个或多个专用或通用的计算机处理系统模块或部件可以是例如个人电脑、笔记本电脑、平板电脑、手机、个人数码助理(personaldigital assistance，PDA)、智能眼镜、智能手表、智能指环、智能头盔及任何智能便携设备。

实施例4

一种计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时执行上述实施例1中所述的方法。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.单轮对话中的命名实体识别方法，其特征在于：包括以下步骤：

2.按照权利要求1所述的单轮对话中的命名实体识别方法，其特征在于：步骤三中命名实体识别模型为经过训练的序列标注算法模型。

3.按照权利要求2所述的单轮对话中的命名实体识别方法，其特征在于：所述序列标注算法模型为HMM模型、CRF模型或Deep Learning模型。

4.按照权利要求1所述的单轮对话中的命名实体识别方法，其特征在于：步骤三中将步骤二中合成的一句单轮对话数据输入至命名实体识别模型前，将单轮对话数据转换为文本数据，然后将该文本数据输入至命名实体识别模型。

5.单轮对话中的命名实体识别装置，其特征在于：包括数据采集模块、数据合成模块和命名实体识别模块；

6.按照权利要求5所述的单轮对话中的命名实体识别装置，其特征在于：所述命名实体识别模型为经过训练的序列标注算法模型。

7.按照权利要求6所述的单轮对话中的命名实体识别装置，其特征在于：所述序列标注算法模型为HMM模型、CRF模型或Deep Learning模型。

8.按照权利要求5所述的单轮对话中的命名实体识别装置，其特征在于：所述命名实体识别模块包括数据转换单元，所述数据转换单元用于将数据合成模块合成的一句单轮对话数据转换为文本数据，然后输入至命名实体识别模型。

9.一种命名实体识别设备，其中所述设备包括自然语言数据采集装置、处理器和存储器，所述存储器包含一组指令，所述一组指令在由所述处理器执行时使所述命名实体识别设备执行上述权利要求1-4中任意一项权利要求所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机可读的指令，当利用计算机执行所述指令时执行上述权利要求1-4中任意一项权利要求所述的方法。