CN111382569B

CN111382569B - 对话语料中实体的识别方法、装置和计算机设备

Info

Publication number: CN111382569B
Application number: CN201811613439.6A
Authority: CN
Inventors: 熊友军; 罗沛鹏; 廖洪涛
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2024-05-03
Anticipated expiration: 2038-12-27
Also published as: CN111382569A

Abstract

本发明实施例公开了一种对话语料中实体的识别方法、装置和计算机设备，包括：获取待识别实体的语料文本；将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵；将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。通过上述方式，能够提高实体识别的准确率。

Description

对话语料中实体的识别方法、装置和计算机设备

技术领域

本发明涉及机器学习技术领域，尤其涉及一种对话语料中实体的识别方法、装置、计算机设备及存储介质。

背景技术

随着语音识别技术的发展，将语音识别成文本的瓶颈突破了，机器人对人表达的意思将更清楚，对话将更为简单。然而，在对语音进行语音识别后，得到的只是一串文本，机器人并不知晓该文本表达的含义。

为了理解文本含义，现有的方法是对文本中的实体进行识别，然后根据识别出的实体来理解文本表达的含义。但是，现有的实体识别模型通常是根据输入的词向量进行训练的，以根据输入的词语信息来识别实体，这样的方式导致最终识别的实体准确率低。

发明内容

基于此，有必要针对上述问题，提出一种识别率高的对话语料中实体的识别方法、装置和计算机设备。

一种对话语料中实体的识别方法，所述方法包括：

获取待识别实体的语料文本；

将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；

获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵；

将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。

一种对话语料中实体的识别装置，所述装置包括：

第一获取模块，用于获取待识别实体的语料文本；

文本分词模块，用于将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；

第二获取模块，用于获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵；

第三获取模块，用于将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待识别实体的语料文本；

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取待识别实体的语料文本；

本发明提出了一种对话语料中实体的识别方法、装置和计算机设备，首先获取待识别实体的语料文本；同时将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；然后获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵；最后将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。由于机器人的对话问句通常都特别短，是典型的短文本，有时候句中可能就只有一个词或一个字，所以采用字向量对实体进行识别相对于采用词向量能够提高识别的准确率，因为若是采用词向量进行识别，很可能因为机器人的实体只有一个字导致实体识别失败，进一步的，由于常用的汉字的数量是比较确定的，而词语的数量会因为不同汉字的组合不同，所以词语的数量相对于汉字的数量是很大的，而且随着网络用语的不断发展，词语的数量还在继续扩大，所以相较于采用词向量的方式来识别实体，采用字向量来预测实体的准确率将更高，因为其不存在发现新词的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中对话语料中实体的识别方法的实现流程示意图；

图2为一个实施例中BiLSTM+CRF模型的示意图；

图3为一个实施例中步骤1022的实现流程示意图；

图4为一个实施例中对话语料中实体的识别方法的实现流程示意图；

图5为一个实施例中对话语料中实体的识别装置的结构框图；

图6为一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在一个实施例中，提供了一种对话语料中实体的识别方法。该方法应用于服务器。所述服务器为高性能计算机或高性能计算机集群。该对话语料中实体的识别方法具体包括如下步骤：

步骤102，获取待识别实体的语料文本。

所述语料文本，为一个包含一个或者多个汉字的文本，所述语料文本可以是经过语音识别得到文本。例如，所述语料文本为：我要去吃饭。在经过语音识别获取到待识别实体的原始语料文本后，需要对原始的语料文本进行一些处理，比如去除停用词(标点符号)，然后才得到最终的待识别实体的语料文本。

步骤S104，将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字。

例如，将语料文本“我要去吃饭”进行分词，得到的分词结果为：我，要，去，吃，饭。

步骤S106，获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵。

所述字向量，用于通过一个向量来表达一个字，可以通过训练word2vec模型获取不同字的字向量，例如，采用CBOW模型或者采用Skip-Gram模型。

对于分词结果中的每一个字，获取这些字的字向量。例如，字“我”的字向量为[0.10.5 0.4]，字“要”的字向量为[0.2 0.3 0.5]，字“去”的字向量为[0.1 0.60.2]，字“吃”的字向量为[0.4 0.3 0.2]，字“饭”的字向量为[0.3 0.3 0.4]，然后将这些字的字向量进行组合，得到语料文本的文本矩阵：

需要说明的是，由于每个语料文本中包含的字的个数不一致，所以需要统一语料文本的文本矩阵的维度，对于不够预置的维度的，采用padding机制补齐。例如，假设预置的文本矩阵的维度是6×3，而语料文本“我要去吃饭”的维度是5×3，所以需要采用padding机制补齐，得到如下文本矩阵：

步骤108，将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。

所述实体识别模型，为能够识别语料文本中实体的模型，例如，BiLSTM+CRF模型。其中，所述实体，指文本中的一些关键词。例如，语料文本“我要去吃饭”中的实体为“吃饭”。

如图2所示，BiLSTM+CRF模型包括前向LSTM层、后向LSTM层，BiLSTM输出层和CRF实体标记层，首先将语料文本训练样本集中的各个语料文本训练样本输入BiLSTM+CRF模型，然后经过前向LSTM层对语料文本训练样本的前向特征进行挖掘，同时经过后向LSTM层对语料文本训练样本的后向特征进行挖掘，进一步的，将前向LSTM层和后向LSTM层的特征拼接起来，作为BiLSTM的特征输出，最后，将BiLSTM的输出作为CRF标记算法的输入，根据CRF层的输出结果得到最终的实体。

在本发明实施例中，为了获取到能够识别实体的实体识别模型，需要预先对模型进行训练，以得到训练好的实体识别模型，再用该训练好的实体识别模型对语料文本进行预测，所以，在步骤102所述获取待识别实体的语料文本之前，还包括：步骤1021，获取语料文本训练样本集，所述语料文本训练样本集包括多个语料文本训练样本，所述语料文本训练样本包括口语化的口语语料文本训练样本和对所述口语语料文本训练样本进行语义联想的联想语料文本训练样本；步骤1022，根据所述语料文本训练样本集对所述实体识别模型进行训练，得到所述实体识别模型。

所述语料文本训练样本集，包括多个语料文本训练样本，用于实体识别模型的训练，具体的，是将语料文本训练样本集中的多个语料文本训练样本用于实体识别模型的训练。

由于机器人的对话通常是比较口语化的，所以可以多采用口语化的语料文本训练样本集对实体识别模型进行训练，提高实体识别模型对口语化的语料文本的识别的准确率。同时，为了增大实体识别模型对某些句型或者说某些表达同一含义的语料文本的识别率，还需要得到对所述口语语料文本训练样本进行语义联想的联想语料文本训练样本，语义联想的内容可以包括但不限于：同义联想，例如，“我很生气”，联想为“我超生气”；丰富语气助词，例如，“向左转”，联想为“向左转行不行”；礼貌用语联想，例如，“麻烦你向左转”。

在本发明实施例中，语料文本训练样本集中的语料文本训练样本，可以从多种渠道获取，例如从即时通信应用、视频直播应用、视频观看应用、新闻资讯应用、论坛和贴吧获取，由于从多种渠道获取，能够提高实体识别模型的识别精度，例如，随着网络发展，出现了大量的网络用语，于是可以从即时通信应用、视频直播应用、视频观看应用、新闻资讯应用、论坛和贴吧获取到这些网络用语用语对实体识别模型的训练，使得实体识别模型能够对这些用语有更高的识别精度。

其中，即时通信应用可以包括但不限于QQ和微信；所述视频直播应用应用可以包括但不限于斗鱼直播和熊猫直播；所述视频观看应用可以包括但不限于腾讯视频和爱奇艺；所述新闻资讯应用可以包括但不限于今日头盔和微博；所述论坛可以包括但不限于天涯论坛；所述贴吧可以包括但不限于百度贴吧。

作为本发明的一种实施例，如图3所示，步骤1022所述根据所述语料文本训练样本集对所述实体识别模型进行训练，得到所述实体识别模型，包括：

步骤1022A，将所述语料文本训练样本集中的各个所述语料文本训练样本进行分词，得到每个所述语料文本训练样本的包含多个字的分词结果。

例如，语料文本训练样本集中有两个语料文本：我要去吃饭和我要喝茶，对这两个语料文本进行分词，得到分词结果为：“我，要，去，吃，饭”和“我，要，喝，茶”。

步骤1022B，根据字向量查找表和每个所述语料文本训练样本的分词结果，得到与所述语料文本训练样本集对应的训练文本矩阵。

所述字向量查找表，记载了每个字的字标识和与该字标识对应的字向量，例如，字向量查找表可以如表1所示，根据分词结果，确定需要查找的字，然后再根据表1所示的字向量查找表，得到语料文本中每个字的字向量，最后将各个语料文本的字向量进行组合，得到对应语料文本的文本矩阵。

表1

步骤1022C，获取每个所述语料文本训练样本中每个字对应的标注，得到所述语料文本训练样本集对应的训练文本标注矩阵，所述标注用于区分实体和非实体。

所述标注，用于区分语料文本训练样本中的实体和非实体，如表2所示。例如，语料文本训练样本为“我很生气啊”，则对该语料文本训练样本的标注为“FFKJF”，将其转换为计算机能够识别的数字为“33203”，所述训练文本标注矩阵即为包含数字的矩阵(计算机处理时是识别数字，而不是字母，所以需要将字母型标注转换为数字型标注)。

同样对上面的语料文本训练样本集：我要去吃饭和我要喝茶，得到我要去吃饭的标注矩阵为：[3 3 3 2 0]，得到我要喝茶的标注矩阵为：[3 3 2 0 3]，于是，将两个语料文本的标注矩阵进行组合，得到与语料文本训练样本集对应的训练文本标注矩阵为：

表2

步骤1022D，将所述训练文本矩阵作为实体识别模型的输入，将对应的所述训练文本标注矩阵作为所述实体识别模型的输出，对所述实体识别模型进行训练，得到目标实体识别模型。

在本发明实施例中，步骤108所述将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体，包括：将所述文本矩阵作为实体识别模型的输入，得到所述语料文本中的实体和非实体的位置分布信息；根据所述位置分布信息，得到所述语料文本中的实体。

由于上述对实体识别模型进行训练的时候，作为输出的是训练文本标注矩阵，该训练文本标注矩阵记载了实体和非实体的位置分布信息，因此，在识别的时候得到的也是文本标注矩阵，例如，将语料文本“我要去吃饭”作为实体识别模型的输入，得到实体识别模型输出的与该文本矩阵对应的文本标注矩阵为[3 3 3 2 0]，该文本标注矩阵明确的记载了“我要去吃饭”中的每个字属于实体还是非实体，并且，该标注矩阵充分表明了实体和非实体的位置分布信息，通过获取对应位置的数字，能够清楚的知晓该数字对应的字是实体还是非实体。

作为本发明的一种实施例，所述语料文本训练样本的样本类型包括命令型、情感型、名字型和动作型，步骤1022所述根据所述语料文本训练样本集对所述实体识别模型进行训练，得到所述实体识别模型，包括：获取命令型语料文本训练样本、情感型语料文本训练样本、名字型语料文本训练样本和动作型语料文本训练样本的训练比例；根据所述命令型语料文本训练样本、所述情感型语料文本训练样本、所述名字型语料文本训练样本和所述动作型语料文本训练样本的训练比例，从所述语料文本训练样本集中获取对应数量的语料文本训练样本；根据获取的对应数量的语料文本训练样本，对所述实体识别模型进行训练，得到所述实体识别模型。

命令型语料文本训练样本的语料为实体内容包含命令口语的语料，例如，“向左转”，“向右转”；情感型语料文本训练样本的语料为实体内容用于表达情感的语料，例如，“我有点生气”，“和你聊天很开心”；名字型语料文本训练样本的语料为实体内容包含名词的语料，所述名词包括但不限于名字、名胜古迹名称和地名，例如，“刘某某”，“峨眉山”；动作型语料文本训练样本的语料为实体包含动作指示的语料，例如，“我要去吃饭”，“我要喝茶”。

对于命令型语料文本训练样本、情感型语料文本训练样本、名字型语料文本训练样本和动作型语料文本训练样本，他们的训练比例可以设置为相同，例如将不同类型的训练比例均为60％，假设语料文本训练样本集中命令型语料文本训练样本、情感型语料文本训练样本、名字型语料文本训练样本和动作型语料文本训练样本的个数分别为100个、200个、300个和200个，那么根据训练比例，最终送入实体识别模型进行训练的命令型语料文本训练样本、情感型语料文本训练样本、名字型语料文本训练样本和动作型语料文本训练样本个数为60个，120个，180个和120个；或者，也可以将他们训练比例设置为不同，例如，分别设置为60％，70％，40％和80％，则最终送入实体识别模型进行训练的命令型语料文本训练样本、情感型语料文本训练样本、名字型语料文本训练样本和动作型语料文本训练样本个数为60个，140个，120个和160个。具体的，可以根据实际的应用场景确定训练比例，例如，某一机器人是用于执行命令的机器人，那么可以将命令型语料文本训练样本的训练比例设置高一些，例如，设置为100％，即将全部的命令型语料文本训练样本送入实体识别模型进行训练。

上述对话语料中实体的识别方法，首先获取待识别实体的语料文本；同时将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；然后获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵；最后将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。由于机器人的对话问句通常都特别短，是典型的短文本，有时候句中可能就只有一个词或一个字，所以采用字向量对实体进行识别相对于采用词向量能够提高识别的准确率，因为若是采用词向量进行识别，很可能因为机器人的实体只有一个字导致实体识别失败，进一步的，由于常用的汉字的数量是比较确定的，而词语的数量会因为不同汉字的组合不同，所以词语的数量相对于汉字的数量是很大的，而且随着网络用语的不断发展，词语的数量还在继续扩大，所以相较于采用词向量的方式来识别实体，采用字向量来预测实体的准确率将更高，因为其不存在发现新词的问题。

在本发明实施例中，如图4所示，在步骤108所述将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体之后，还包括：

步骤109，到实体库中查找是否存在所述实体。

步骤110，若所述实体库中存在所述实体，则所述实体为可信实体。

步骤111，若所述实体库中不存在所述实体，则所述实体为可疑实体。

所述实体库，用于存储实体。在这里，主要是对获取的实体的可信度进行判断，如果经过识别之后得到的实体存在于预置的实体库中，则认为该实体是可信实体，如果经过识别之后得到的实体没有存在于预置的实体库中，则该实体为可疑实体，即该实体很可能是新实体，进一步的，在确定该识别是可疑实体之后，需要进一步的判断该实体是否是新实体，若该实体确实是新的实体，则将其加入实体库。

在本发明实施例中，所述实体库包括命令型实体库、情感型实体库、名字型实体库和动作型实体库，在所述若所述实体库中存在所述实体，则所述实体为可信实体之后，还包括：

根据所述实体所在的实体库的类型确定所述实体的实体类型。

获取与所述实体类型对应的答复模板，以在所述答复模板中查找答复结果。

在这里，将实体库分为命令型实体库、情感型实体库、名字型实体库和动作型实体库，命令型实体库中存储命令型实体，例如，“左转”，情感型实体库中存储情感型实体，例如，“高兴”，名字型实体库中存储名字型实体，例如，“刘某某”，动作型实体库中存储动作型实体，例如，“吃饭”。

在本发明实施例中，对于不同类型的实体，其答复模板可能比较相似，因此，为不同类型的实体设置不同的答复模板，以在判断该实体的类型之后，在与该类型对应的答复模板中进行匹配，找到与该实体对应的答复内容，通过给不同类型的实体设置答复模板，能够很大程度的缩小匹配的量，即在搜索与该实体对应的语料文本的答复内容的时候，只用在这个类型的答复模板中搜索，而不用在一个大的包含多种类型的答复模板中搜索，能够大大的提高搜索效率。

如图5所示，本发明实施例提供一种对话语料中实体的识别装置500，该装置500包括：

第一获取模块502，用于获取待识别实体的语料文本；

文本分词模块504，用于将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；

第二获取模块506，用于获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵；

第三获取模块508，用于将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。

上述对话语料中实体的识别装置，首先获取待识别实体的语料文本；同时将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；然后获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵；最后将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。由于机器人的对话问句通常都特别短，是典型的短文本，有时候句中可能就只有一个词或一个字，所以采用字向量对实体进行识别相对于采用词向量能够提高识别的准确率，因为若是采用词向量进行识别，很可能因为机器人的实体只有一个字导致实体识别失败，进一步的，由于常用的汉字的数量是比较确定的，而词语的数量会因为不同汉字的组合不同，所以词语的数量相对于汉字的数量是很大的，而且随着网络用语的不断发展，词语的数量还在继续扩大，所以相较于采用词向量的方式来识别实体，采用字向量来预测实体的准确率将更高，因为其不存在发现新词的问题。

在其中一个实施例中，所述装置500还包括：样本集获取模块，用于获取语料文本训练样本集，所述语料文本训练样本集包括多个语料文本训练样本，所述语料文本训练样本包括口语化的口语语料文本训练样本和对所述口语语料文本训练样本进行语义联想的联想语料文本训练样本；模型训练模块，用于根据所述语料文本训练样本集对所述实体识别模型进行训练，得到所述实体识别模型。

在其中一个实施例中，所述模型训练模块，包括：训练样本分词模块，用于将所述语料文本训练样本集中的各个所述语料文本训练样本进行分词，得到每个所述语料文本训练样本的包含多个字的分词结果；训练文本矩阵获取模块，用于根据字向量查找表和每个所述语料文本训练样本的分词结果，得到与所述语料文本训练样本集对应的训练文本矩阵；标注模块，用于获取每个所述语料文本训练样本中每个字对应的标注，得到所述语料文本训练样本集对应的训练文本标注矩阵，所述标注用于区分实体和非实体；目标实体模型训练模块，用于将所述训练文本矩阵作为实体识别模型的输入，将对应的所述训练文本标注矩阵作为所述实体识别模型的输出，对所述实体识别模型进行训练，得到目标实体识别模型。

在其中一个实施例中，所述语料文本训练样本的样本类型包括命令型、情感型、名字型和动作型，所述模型训练模块，包括：训练比例获取模块，用于获取命令型语料文本训练样本、情感型语料文本训练样本、名字型语料文本训练样本和动作型语料文本训练样本的训练比例；比例样本获取模块，用于根据所述命令型语料文本训练样本、所述情感型语料文本训练样本、所述名字型语料文本训练样本和所述动作型语料文本训练样本的训练比例，从所述语料文本训练样本集中获取对应数量的语料文本训练样本；比例样本训练模块，用于根据获取的对应数量的语料文本训练样本，对所述实体识别模型进行训练，得到所述实体识别模型。

在其中一个实施例中，所述装置500，还包括：实体查找模块，用于到实体库中查找是否存在所述实体；可信实体模块，用于若所述实体库中存在所述实体，则所述实体为可信实体；可以实体模块，用于若所述实体库中不存在所述实体，则所述实体为可疑实体。

在其中一个实施例中，所述实体库包括命令型实体库、情感型实体库、名字型实体库和动作型实体库，所述装置500，还包括：实体类型确定模块，用于根据所述实体所在的实体库的类型确定所述实体的实体类型；答复模板获取模块，用于获取与所述实体类型对应的答复模板，以在所述答复模板中查找答复结果。

在其中一个实施例中，所述第三获取模块408，包括：位置分布获取模块，用于将所述文本矩阵作为实体识别模型的输入，得到所述语料文本中的实体和非实体的位置分布信息；位置实体获取模块，用于根据所述位置分布信息，得到所述语料文本中的实体。

图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器。如图6所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现对话语料中实体的识别方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行对话语料中实体的识别方法。网络接口用于与外部进行通信。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的对话语料中实体的识别方法可以实现为一种计算机程序的形式，计算机程序可在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成对话语料中实体的识别装置的各个程序模板。比如，第一获取模块502、文本分词模块504、第二获取模块506以及第三获取模块508。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取待识别实体的语料文本；

上述计算机设备，首先获取待识别实体的语料文本；同时将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；然后获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵；最后将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。由于机器人的对话问句通常都特别短，是典型的短文本，有时候句中可能就只有一个词或一个字，所以采用字向量对实体进行识别相对于采用词向量能够提高识别的准确率，因为若是采用词向量进行识别，很可能因为机器人的实体只有一个字导致实体识别失败，进一步的，由于常用的汉字的数量是比较确定的，而词语的数量会因为不同汉字的组合不同，所以词语的数量相对于汉字的数量是很大的，而且随着网络用语的不断发展，词语的数量还在继续扩大，所以相较于采用词向量的方式来识别实体，采用字向量来预测实体的准确率将更高，因为其不存在发现新词的问题。

在其中一个实施例中，上述计算机程序被所述处理器执行时，还用于执行以下步骤：

获取语料文本训练样本集，所述语料文本训练样本集包括多个语料文本训练样本，所述语料文本训练样本包括口语化的口语语料文本训练样本和对所述口语语料文本训练样本进行语义联想的联想语料文本训练样本；

根据所述语料文本训练样本集对所述实体识别模型进行训练，得到所述实体识别模型。

在其中一个实施例中，所述根据所述语料文本训练样本集对所述实体识别模型进行训练，得到所述实体识别模型，包括：

将所述语料文本训练样本集中的各个所述语料文本训练样本进行分词，得到每个所述语料文本训练样本的包含多个字的分词结果；

根据字向量查找表和每个所述语料文本训练样本的分词结果，得到与所述语料文本训练样本集对应的训练文本矩阵；

获取每个所述语料文本训练样本中每个字对应的标注，得到所述语料文本训练样本集对应的训练文本标注矩阵，所述标注用于区分实体和非实体；

将所述训练文本矩阵作为实体识别模型的输入，将对应的所述训练文本标注矩阵作为所述实体识别模型的输出，对所述实体识别模型进行训练，得到目标实体识别模型。

在其中一个实施例中，所述语料文本训练样本的样本类型包括命令型、情感型、名字型和动作型，所述根据所述语料文本训练样本集对所述实体识别模型进行训练，得到所述实体识别模型，包括：

获取命令型语料文本训练样本、情感型语料文本训练样本、名字型语料文本训练样本和动作型语料文本训练样本的训练比例；

根据所述命令型语料文本训练样本、所述情感型语料文本训练样本、所述名字型语料文本训练样本和所述动作型语料文本训练样本的训练比例，从所述语料文本训练样本集中获取对应数量的语料文本训练样本；

根据获取的对应数量的语料文本训练样本，对所述实体识别模型进行训练，得到所述实体识别模型。

到实体库中查找是否存在所述实体；

若所述实体库中存在所述实体，则所述实体为可信实体；

若所述实体库中不存在所述实体，则所述实体为可疑实体。

根据所述实体所在的实体库的类型确定所述实体的实体类型；

所述将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体，包括：

将所述文本矩阵作为实体识别模型的输入，得到所述语料文本中的实体和非实体的位置分布信息；

根据所述位置分布信息，得到所述语料文本中的实体。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取待识别实体的语料文本；

上述计算机可读存储介质，首先获取待识别实体的语料文本；同时将所述语料文本进行分词，得到分词结果，所述分词结果中包含多个字；然后获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵；最后将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体。由于机器人的对话问句通常都特别短，是典型的短文本，有时候句中可能就只有一个词或一个字，所以采用字向量对实体进行识别相对于采用词向量能够提高识别的准确率，因为若是采用词向量进行识别，很可能因为机器人的实体只有一个字导致实体识别失败，进一步的，由于常用的汉字的数量是比较确定的，而词语的数量会因为不同汉字的组合不同，所以词语的数量相对于汉字的数量是很大的，而且随着网络用语的不断发展，词语的数量还在继续扩大，所以相较于采用词向量的方式来识别实体，采用字向量来预测实体的准确率将更高，因为其不存在发现新词的问题。

到实体库中查找是否存在所述实体；

若所述实体库中存在所述实体，则所述实体为可信实体；

若所述实体库中不存在所述实体，则所述实体为可疑实体。

根据所述位置分布信息，得到所述语料文本中的实体。

需要说明的是，上述对话语料中实体的识别方法、对话语料中实体的识别装置、计算机设备和计算机可读存储介质属于同一个发明构思，对话语料中实体的识别方法、对话语料中实体的识别装置、计算机设备和计算机可读存储介质中涉及的内容可相互适用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种对话语料中实体的识别方法，其特征在于，所述方法包括：

获取待识别实体的语料文本；

获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的预置维度的文本矩阵；

将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体；

到实体库中查找是否存在所述实体；

若所述实体库中存在所述实体，则所述实体为可信实体；

若所述实体库中不存在所述实体，则所述实体为可疑实体；

若所述实体为可信实体，则根据所述实体所在的实体库的类型确定所述实体的实体类型，其中，所述实体库包括命令型实体库、情感型实体库、名字型实体库和动作型实体库；

获取与所述实体类型对应的答复模板，以在所述答复模板中查找答复结果；

其中，所述将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体，包括：将所述文本矩阵作为实体识别模型的输入，得到所述语料文本中的实体和非实体的位置分布信息，根据所述位置分布信息，得到所述语料文本中的实体；

其中，在所述获取待识别实体的语料文本之前，还包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述语料文本训练样本集对所述实体识别模型进行训练，得到所述实体识别模型，包括：

3.如权利要求1所述的方法，其特征在于，所述语料文本训练样本的样本类型包括命令型、情感型、名字型和动作型，所述根据所述语料文本训练样本集对所述实体识别模型进行训练，得到所述实体识别模型，包括：

4.如权利要求1所述的方法，其特征在于，所述实体识别模型为BiLSTM+CRF模型，所述BiLSTM+CRF模型包括前向LSTM层、后向LSTM层，BiLSTM输出层和CRF实体标记层。

5.如权利要求1所述的方法，其特征在于，若所述实体为可疑实体，则所述方法还包括：

判断所述实体是否为新实体；

若所述实体确实为新实体，则将所述实体加入所述实体库。

6.如权利要求1所述的方法，其特征在于，所述语义联想包括：同义联想、丰富语气助词和礼貌用语联想中的至少一种。

7.一种对话语料中实体的识别装置，其特征在于，所述装置包括：

样本集获取模块，用于获取语料文本训练样本集，所述语料文本训练样本集包括多个语料文本训练样本，所述语料文本训练样本包括口语化的口语语料文本训练样本和对所述口语语料文本训练样本进行语义联想的联想语料文本训练样本；

模型训练模块，用于根据所述语料文本训练样本集对所述实体识别模型进行训练，得到所述实体识别模型；

第一获取模块，用于获取待识别实体的语料文本；

第二获取模块，用于获取所述分词结果中的每个字对应的字向量，将所述每个字对应的字向量进行组合得到所述语料文本对应的预置维度的文本矩阵；

第三获取模块，用于将所述文本矩阵作为实体识别模型的输入，获取所述实体识别模型输出的所述语料文本中的实体；

实体查找模块，用于到实体库中查找是否存在所述实体；

可信实体模块，用于若所述实体库中存在所述实体，则所述实体为可信实体；

可疑实体模块，用于若所述实体库中不存在所述实体，则所述实体为可疑实体；

实体类型确定模块，用于若所述实体为可信实体，则根据所述实体所在的实体库的类型确定所述实体的实体类型，其中，所述实体库包括命令型实体库、情感型实体库、名字型实体库和动作型实体库；

答复模板获取模块，用于获取与所述实体类型对应的答复模板，以在所述答复模板中查找答复结果；

其中，所述第三获取模块，包括：

位置分布获取模块，用于将所述文本矩阵作为实体识别模型的输入，得到所述语料文本中的实体和非实体的位置分布信息；

位置实体获取模块，用于根据所述位置分布信息，得到所述语料文本中的实体。

8.如权利要求7所述的装置，其特征在于，所述模型训练模块，包括：

训练样本分词模块，用于将所述语料文本训练样本集中的各个所述语料文本训练样本进行分词，得到每个所述语料文本训练样本的包含多个字的分词结果；

训练文本矩阵获取模块，用于根据字向量查找表和每个所述语料文本训练样本的分词结果，得到与所述语料文本训练样本集对应的训练文本矩阵；

标注模块，用于获取每个所述语料文本训练样本中每个字对应的标注，得到所述语料文本训练样本集对应的训练文本标注矩阵，所述标注用于区分实体和非实体；

目标实体模型训练模块，用于将所述训练文本矩阵作为实体识别模型的输入，将对应的所述训练文本标注矩阵作为所述实体识别模型的输出，对所述实体识别模型进行训练，得到目标实体识别模型。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。