CN111078893A

CN111078893A - 一种大规模高效获取识别对话意图用语料的方法

Info

Publication number: CN111078893A
Application number: CN201911264412.5A
Authority: CN
Inventors: 简仁贤; 王海波
Original assignee: Emotibot Technologies Ltd
Current assignee: Emotibot Technologies Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-04-28

Abstract

本发明属于计算机技术领域，公开了一种大规模高效获取识别对话意图用语料的方法，包括以下步骤：步骤一、根据对话意图从预置数据库中调取对应于该对话意图的一个或多个种子语料；步骤二、取一个种子语料输入搜索引擎进行搜索，获取搜索结果；然后进入步骤三；步骤三、对获取到的搜索结果，逐条进行标题抽取操作，将抽取到的标题作为待选语料，获得待选语料集合。本发明解决了现有技术中扩充语料效率低，容易受标注人员水平影响和不能反映真实语料多样性的问题。

Description

一种大规模高效获取识别对话意图用语料的方法

技术领域

本发明属于计算机技术领域，尤其涉及一种大规模高效获取识别对话意图用语料的方法。

背景技术

随着聊天机器人的兴起，很多企业开始着手构建自己的聊天机器人系统，提供7天24小时不间断服务，以缓解对客服人力的大量需求。机器学习模型在这些系统中扮演着重要角色，通常是这些系统智能化的来源。训练一个好的机器学习模型需要大量训练语料，这些语料通常需要人工撰写。比如我们在进行意图识别的时候，对于每个意图，通常需要扩写大量的语句来表达该意图。例如某平台要识别用户“查红包”的意图，为了识别该意图，通常需要扩写大量用户可能表达“查红包”的各种语句，比如：“我账户里面的红包数据是多少啊？”、“现在有几个红包了”、“我的账户上有没有红包”、“红包优惠可以在哪儿看？”、“查一下红包明细”、“查红包”等等，并期望这些扩写能够覆盖“查红包”的各种说法，进而利用机器学习训练意图模型对用户输入进行识别。

如何快速高质量地扩写相关语料成为影响项目实施成本和效率的关键，在一定程度上甚至会影响到企业的口碑和竞争力。

传统的语料扩写方法通常是由语料标注人员根据个人理解人工撰写出一系列跟对话意图语义相似的扩展语料。这种语料扩充方法比较依赖语料标注者本人的素质和水平，相当于重新创作，效率难以保证，同时扩充出的语料容易跟真实用户的查询query脱节。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种大规模高效获取识别对话意图用语料的方法，以解决扩充语料效率低，容易受标注人员水平影响和不能反映真实语料多样性的问题。

为解决上述技术问题，本发明采用的技术方案是：一种大规模高效获取识别对话意图用语料的方法，包括以下步骤：

步骤一、根据对话意图从预置数据库中调取对应于该对话意图的一个或多个种子语料；

步骤二、取一个种子语料输入搜索引擎进行搜索，获取搜索结果；然后进入步骤三；

步骤三、对获取到的搜索结果，逐条进行标题抽取操作，将抽取到的标题作为待选语料，获得待选语料集合。

上述一种大规模高效获取识别对话意图用语料的方法，还包括步骤四、取一条种子语料，对待选语料集合中的每个待选语料均与该种子语料计算相似度，并按相似度由大到小的顺序对待选语料集合中的所有待选语料进行排序；获得排序后的待选语料集合。

另外步骤四还可以是：取一条种子语料，对待选语料集合中的每个待选语料均与该种子语料计算相似度，若相似度S＜Q，Q为预设阈值，则将对应的待选语料从待选语料集合剔除。进一步的，还包括步骤五、对步骤四完成后的待选语料集合中的所有待选语料按相似度由大到小的顺序排序，获得排序后的待选语料集合。

上述一种大规模高效获取识别对话意图用语料的方法，两种步骤四中计算相似度时，采用计算待选语料词向量和种子语料词向量的余弦距离来计算相似度。

上述一种大规模高效获取识别对话意图用语料的方法，所述步骤三中进行标题抽取操作时，采用web抓取框架Scrapy。

本发明与现有技术相比具有以下优点：本发明通过利用种子语料在搜索引擎中进行搜索，提取出搜索结果的主题作为待选语料(扩充语料)，能够快速的获取到大量的扩充语料，相比传统标注人员进行创作式的扩充，效率有巨大的提升，扩充的语料受标注人员的人为因素影响小，扩充出的语料质量稳定。因搜索结果的主题来源于用户的真实输入，所以采用本发明得到的扩充语料丰富多彩，能够反映实际中的真实语料情况，便于应用在训练聊天机器人的机器学习模型中。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明实施例1的方法流程图。

图2为“基金申赎到账时间”在百度搜索中的搜索结果。

图3为本发明实施例2的方法流程图。

具体实施方式

实施例1

如图1所示，一种大规模高效获取识别对话意图用语料的方法，包括以下步骤：

步骤一、根据对话意图从预置数据库中调取对应于该对话意图的一个或多个种子语料；对每个种子语料执行步骤二至步骤四；

步骤三、对获取到的搜索结果，逐条进行标题抽取操作，将抽取到的标题作为待选语料，获得待选语料集合；

步骤四、取一个种子语料，优选取步骤二中的种子语料，对待选语料集合中的每个待选语料均与该种子语料计算相似度，并按相似度由大到小的顺序对待选语料集合中的所有待选语料进行排序；获得排序后的待选语料集合。

本实施例中，步骤四中计算相似度时，采用计算待选语料词向量和种子语料词向量的余弦距离来计算相似度。

本实施例中，所述步骤三中进行标题抽取操作时，采用web抓取框架Scrapy。(Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。)

下面举例对本发明进一步说明：

此处假设对话意图为“基金申赎到账时间”，从预置数据库中调取对应于该对话意图的所有种子语料，比如种子语料有“基金申赎到账时间”“基金赎回时效？”，“基金到账时间”，“我的基金卖了为何钱到不了帐呀？”。种子语料包括语料标注者撰写表达类似对话意图的相似语料，以及对话意图本身。

取一个种子语料，例如“基金申赎到账时间”，输入搜索引擎进行搜索，搜索引擎为现有的搜索引擎，例如百度、谷歌、搜狗等，获取搜索结果；然后进入步骤三；搜索结果如图2所示；

对获取到的搜索结果，逐条进行标题抽取操作，将抽取到的标题作为待选语料，获得待选语料集合。进行标题抽取操作时，采用web抓取框架Scrapy。

抽取到的待选语料如下：

一般基金赎回到账时间是多久？

基金赎回后多久才能到账呢,到账之后是否有什么变化

基金认购、申购、赎回后何时到账？

基金的购买和赎回时间是什么时候？

基金的申赎周期是几天.比如1号买的几号可以赎回

赎回基金或无法按时到账银行、券商等机构有点懵

基金赎回后几天到账？基金到帐乍比股票慢这么多？

基金申购赎回,一般需要几天时间

可以看到，抽取到的待选语料大部分在语义上跟种子语料“基金申赎到账时间”比较类似，可以作为供标注人员后期提取部分训练聊天机器人的机器学习模型用。

最后取步骤二中的种子语料“基金申赎到账时间”，对待选语料集合中的每个待选语料均与该种子语料计算相似度，并按相似度由大到小的顺序对待选语料集合中的所有待选语料进行排序；获得排序后的待选语料集合。计算相似度时，采用计算待选语料词向量(比如word2vec)和种子语料词向量(比如word2vec)的余弦距离来计算相似度。

需要说明的是，通过采用相似度排序，标注人员可以快速的从大量的待选语料中定位出训练聊天机器人的机器学习模型用的真实语料。

实施例2

如图3所示，一种大规模高效获取识别对话意图用语料的方法，包括以下步骤：

步骤四、取一条种子语料，优选取步骤二中的种子语料，对待选语料集合中的每个待选语料均与该种子语料计算相似度，若相似度S＜Q，Q为预设阈值，则将对应的待选语料从待选语料集合剔除；

步骤五、对步骤四完成后的待选语料集合中的所有待选语料按相似度由大到小的顺序排序，获得排序后的待选语料集合。

下面举例对本发明进一步说明：

抽取到的待选语料如下：

一般基金赎回到账时间是多久？

基金赎回后多久才能到账呢,到账之后是否有什么变化

基金认购、申购、赎回后何时到账？

基金的购买和赎回时间是什么时候？

基金的申赎周期是几天.比如1号买的几号可以赎回

赎回基金或无法按时到账银行、券商等机构有点懵

基金赎回后几天到账？基金到帐乍比股票慢这么多？

基金申购赎回,一般需要几天时间

最后取步骤二中的种子语料“基金申赎到账时间”，对待选语料集合中的每个待选语料均与该种子语料计算相似度，若相似度S＜Q，Q为预设阈值，0.4＜Q＜0.6，则将对应的待选语料从待选语料集合剔除；再对待选语料集合中的所有待选语料按相似度由大到小的顺序排序，获得排序后的待选语料集合。计算相似度时，采用计算待选语料词向量(比如word2vec)和种子语料词向量(比如word2vec)的余弦距离来计算相似度。

需要说明的是，通过相似度S＜Q，将相似度过低的待选语料从待选语料集合剔除，以及通过采用相似度排序，标注人员可以快速的从大量的待选语料中定位出训练聊天机器人的机器学习模型用的真实语料。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种大规模高效获取识别对话意图用语料的方法，其特征在于：包括以下步骤：

2.按照权利要求1所述的一种大规模高效获取识别对话意图用语料的方法，其特征在于：还包括步骤四、取一条种子语料，对待选语料集合中的每个待选语料均与该种子语料计算相似度，并按相似度由大到小的顺序对待选语料集合中的所有待选语料进行排序；获得排序后的待选语料集合。

3.按照权利要求1所述的一种大规模高效获取识别对话意图用语料的方法，其特征在于：还包括步骤四、取一条种子语料，对待选语料集合中的每个待选语料均与该种子语料计算相似度，若相似度S＜Q，Q为预设阈值，则将对应的待选语料从待选语料集合剔除。

4.按照权利要求3所述的一种大规模高效获取识别对话意图用语料的方法，其特征在于：还包括步骤五、对步骤四完成后的待选语料集合中的所有待选语料按相似度由大到小的顺序排序，获得排序后的待选语料集合。

5.按照权利要求2、3或4所述的一种大规模高效获取识别对话意图用语料的方法，其特征在于：步骤四中计算相似度时，采用计算待选语料词向量和种子语料词向量的余弦距离来计算相似度。

6.按照权利要求1所述的一种大规模高效获取识别对话意图用语料的方法，其特征在于：所述步骤三中进行标题抽取操作时，采用web抓取框架Scrapy。