CN111061853B

CN111061853B - 一种快速获取faq模型训练语料的方法

Info

Publication number: CN111061853B
Application number: CN201911368811.6A
Authority: CN
Inventors: 简仁贤; 王海波
Original assignee: Emotibot Technologies Ltd
Current assignee: Emotibot Technologies Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2024-01-12
Anticipated expiration: 2039-12-26
Also published as: CN111061853A

Abstract

本发明公开了一种快速获取FAQ模型训练语料的方法，包括以下步骤：获取标准问句队列，从标准问句队列中调取第一个标准问句；将调取的标准问句输入搜索引擎进行搜索，获取搜索结果；对获取到的搜索结果，逐条进行标题抽取操作，将抽取到的标题作为扩写问句；对获取的扩写问句进行存储；判断标准问句队列中是否还有下一个标准问句；调取标准问句队列中下一个标准问句；将存储的所有扩写问句和标准问句放到一块进行聚类操作；对聚类得到的每个簇类进行判断，判断簇类中是否有标准问句，若是，则将该簇类中的扩写问句和标准问句作为FAQ模型训练语料。本发明扩写训练语料效率高，不易受标注人员水平影响，能反映真实语料多样性。

Description

一种快速获取FAQ模型训练语料的方法

技术领域

本发明属于计算机技术领域，尤其涉及一种快速获取FAQ模型训练语料的方法。

背景技术

在智能客服领域，有一种模型叫FAQ模型，主要的功能是将用户的查询问句映射到预先设置好的标准问句，之后返回该标准问句对应的回答给用户，从而完成一次FAQ查询的交互。

例如，系统里面有标准问句：“小金库收益是否复利计算？”；当用户输入“小金库的收益是复利计算的吗”，FAQ模型应当将其映射到“小金库收益是否复利计算？”并返回对应的事先设定好的回答。

通常，企业提供标准的FAQ问答对，然后由语料标注人员根据标准问句句Q扩写出一批语义类似的语料作为训练数据，然后采用有监督学习的方式来训练FAQ模型来回答FAQ问题。这种做法需要标注人员扩写语料，涉及大量人力，成本高，而且依赖于标注人员的写作素质，质量稳定性难以保证。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种快速获取FAQ模型训练语料的方法，以解决人工扩写语料效率低，容易受标注人员水平影响和不能反映真实语料多样性的问题。

为解决上述技术问题，本发明采用的技术方案是：一种快速获取FAQ模型训练语料的方法，包括以下步骤：

步骤一、获取标准问句队列，从标准问句队列中调取第一个标准问句；

步骤二、将调取的标准问句输入搜索引擎进行搜索，获取搜索结果；然后进入步骤三；

步骤三、对获取到的搜索结果，逐条进行标题抽取操作，将抽取到的标题作为扩写问句；对获取的扩写问句进行存储；

步骤四、判断标准问句队列中是否还有下一个标准问句；若是，则进入步骤五；若否，则进入步骤六；

步骤五、调取标准问句队列中下一个标准问句，然后进入步骤二；

步骤六、将存储的所有扩写问句和标准问句放到一块进行聚类操作；

步骤七、对步骤六中聚类得到的每个簇类进行判断，判断簇类中是否有标准问句，若是，则将该簇类中的扩写问句和标准问句作为FAQ模型训练语料。

上述一种快速获取FAQ模型训练语料的方法，还包括步骤八、将步骤七中作为FAQ模型训练语料的扩写问句作为标准问句加入到步骤一中所述的标准问句队列，得到新标准问句队列；

还包括步骤九、判断步骤七中作为FAQ模型训练语料的扩写问句和标准问句的总数量N＞M是否成立，M为阈值，若否，则进入步骤十；

还包括步骤十、将步骤八得到的新标准问句队列作为步骤一中获取的标准问句队列执行步骤一至步骤八。

上述一种快速获取FAQ模型训练语料的方法，所述步骤三中进行标题抽取操作时，采用web抓取框架Scrapy。

上述一种快速获取FAQ模型训练语料的方法，所述步骤一和步骤五中，从标准问句队列中删除调取的标准问句。

本发明与现有技术相比具有以下优点：本发明通过利用标准问句在搜索引擎中进行搜索，提取出搜索结果的主题作为扩写问句，能够快速的获取到大量的扩写语料，相比传统标注人员进行创作式的扩写，效率有巨大的提升，并且扩写的语料受标注人员的人为因素影响小，扩写出的语料质量稳定。因搜索结果的主题来源于用户的真实输入，所以采用本发明得到的扩写语料丰富多彩，能够反映实际中的真实语料情况，扩写的语料便于应用在训练FAQ模型中。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明实施例1的方法流程图。

图2为“小金库收益是否复利计算”在百度搜索中的搜索结果。

图3为“京东小金库收益是否复利计算”在百度搜索中的搜索结果。

具体实施方式

一种快速获取FAQ模型训练语料的方法，包括以下步骤：

步骤六、将存储的所有扩写问句和标准问句放到一块进行聚类操作；所述聚类操作通过现有基于密度的聚类方法实现，例如DBSCAN聚类方法；

本实施例中，还包括步骤八、将步骤七中作为FAQ模型训练语料的扩写问句作为标准问句加入到步骤一中所述的标准问句队列，得到新标准问句队列；

本实施例中，所述步骤三中进行标题抽取操作时，采用web抓取框架Scrapy。(Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。)

本实施例中，所述步骤一和步骤五中，从标准问句队列中删除调取的标准问句。通过删除调取过的标准问句能够减小缓存占用，并且每次调取时只对队列头的标准问句进行调取即可。

下面通过具体案例对本发明进行说明：

假设步骤一中获取的标准问句队列中仅有“小金库收益是否复利计算”一个标准问句；

将该“小金库收益是否复利计算”输入搜索引擎，搜索引擎为现有的搜索引擎，例如百度、谷歌、搜狗等，获取搜索结果；搜索结果如图2所示；

用步骤三所述标题抽取操作，可以抽取到“京东小金库收益是否复利计算”、“京东金融小金库复利计算公式”等扩写问句；

对抽取到的扩写问句、以及原来的标准问句放到一块进行聚类操作；

对聚类得到的每个簇类进行判断，判断簇类中是否有标准问句，若是，则将该簇类中的扩写问句和标准问句作为FAQ模型训练语料；此处聚类后“京东小金库收益是否复利计算”与“小金库收益是否复利计算”在相同的簇类中；则将“京东小金库收益是否复利计算”加入标准问句队列形成新标准问句队列；

当判断作为FAQ模型训练语料的扩写问句和标准问句的总数量N＞M是否成立的结果为“否”时，则说明训练语料的数量不够；需要继续扩充，则执行一次步骤十；

将新标准问句队列中的“京东小金库收益是否复利计算”输入搜索引擎，搜索结果如图3所示。可以看到，对于“京东小金库收益是否复利计算”输入搜索引擎，出现了“把钱存入京东小金库,我们的钱该如何计算呢”新的扩写问句。

通过多次执行步骤十，直至步骤九中判断作为FAQ模型训练语料的扩写问句和标准问句的总数量N＞M是否成立的结果为“是”时停止。

这样可以快速的获取到大量的FAQ模型训练语料，并且获取到的训练语料大多源自用户真实的表述，质量更高、泛化性也更好。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种快速获取FAQ模型训练语料的方法，其特征在于：包括以下步骤：

步骤七、对步骤六中聚类得到的每个簇类进行判断，判断簇类中是否有标准问句，若是，则将该簇类中的扩写问句和标准问句作为FAQ模型训练语料；

还包括步骤八、将步骤七中作为FAQ模型训练语料的扩写问句作为标准问句加入到步骤一中所述的标准问句队列，得到新标准问句队列；

2.按照权利要求1所述的一种快速获取FAQ模型训练语料的方法，其特征在于：所述步骤三中进行标题抽取操作时，采用web抓取框架Scrapy。

3.按照权利要求1或2所述的一种快速获取FAQ模型训练语料的方法，其特征在于：所述步骤一和步骤五中，从标准问句队列中删除调取的标准问句。