CN110413761A

CN110413761A - 一种基于知识库的领域性单独对话的方法

Info

Publication number: CN110413761A
Application number: CN201910719092.1A
Authority: CN
Inventors: 李百成; 马驰
Original assignee: Ho Whale Cloud Computing Polytron Technologies Inc
Current assignee: Ho Whale Cloud Computing Polytron Technologies Inc
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-05

Abstract

一种基于知识库的领域性单独对话的方法,包括以下步骤：知识库构建；接收用户发送的语句；根据算法流程将用户语句与知识库相关知识匹配；返回相似度最高的知识答案；知识库在项目前期构建，知识库包含五大元素：核心词、核心词同义词、标准问句、相似问句、答案，算法流程包括核心词检索、粗检索、精检索三大步骤，各个步骤可单独运作。本发明相对于传统的基于知识库的对话方法，具有精度高、速度快等优点。

Description

一种基于知识库的领域性单独对话的方法

技术领域

本发明属于人机问答的数据处理方法，尤其涉及一种基于知识库的领域性单独对话的方法。

背景技术

随着深度学习等AI技术的发展，越来越多的工作可以用AI来完成，从而降低人工的投入，例如智能客服、电话营销、智能催缴等。而这些场景的应用都需要依赖文本技术来实现，自然语言理解能力为这些技术提供底层的支持，帮助使用者更好的利用AI技术来辅助企业运营。智能客服的本质是对话系统，它包含了许多从基础科学到深度学习的方法与知识，是通过结合机器学习、人工智能自然语言理解方向的算法和系统调度处理等方法，实现让机器人理解并生成对话的产物。随着技术的发展，多种不同类型的对话机器人服务于各行各业。技术方需针对不用类型的用户与场景选用合适的机器人类型。目前业内普遍有四种类型的对话机器人：检索型单轮对话机器人、知识图谱型机器人、任务型多轮对话机器人和闲聊型机器人。其中，检索型对话机器人的应用最为广泛，它的实现也相对简单。

发明内容

本发明提出一种基于知识库的领域性单独对话的方法，具有匹配精度高、速度快等优点。

本发明的技术方案：一种基于知识库的领域性单独对话的方法，括以下步骤：

s1：知识库构建；

s2：接收用户发送的语句；

s3：根据算法流程将用户语句与知识库相关知识匹配；

s4：返回相似度最高的知识答案；

s1中所述的知识库在项目前期构建，知识库包含五大元素：核心词、核心词同义词、标准问句、相似问句、答案,s3中所述的算法流程包括核心词检索、粗检索、精检索三大步骤，各个步骤可单独运作。

进一步的改进在于，所述的核心词为一个知识标题中，最具有代表性的词组，且一个知识标题有且只有一个核心词，所述的核心词同义词为核心词的同义词，同义词可以有多个，同义词不能是已存在的核心词，所述的标准问句又称为知识标题，是一条知识的标准问法，所述的答案对应知识，每条知识只有一条答案。

进一步的改进在于，所述的核心词检索步骤包括以下子步骤：

S11：用户输入一句问句;

S12：系统需检测问句中是否包含核心词或者是某个核心词对应的同义词，如果存在，系统将从整个知识库中筛选核心词为该核心词的知识到备选区。

进一步的改进在于，所述的粗检索步骤包括以下子步骤：

S21：通过分词算法对用户问句以及备选区的知识进行分词；

S22：结合word2vec模型得出各个词组的词向量；

S23：采用词向量平均法得出句子的向量；

S24：句子相似度的度量采用余弦相似度，返回高于某阈值的知识进入到下一阶段。

进一步的改进在于，所述的精检索步骤包括以下子步骤：

s31：采用深度学习模型，对粗检索返回的结果进行精排序；

s32:分值高于设置的直出阈值的知识数量大于等于一时，则直接返回分数最高的知识答案；

s33：分值高于设置的最低阈值且低于直出阈值的知识数量大于等于一，则返回分数最高的前三条知识作为推荐知识供用户点选。

进一步的改进在于，所述的深度学习模型主模型任务的形式为给定一个前提文本，根据这个前提去推断假说文本与前提的关系。

进一步的改进在于，所述的主模型分为计算注意力、比较和组合三个阶段。

进一步的改进在于，所述的组合阶段融入句子向量相似度计算，结合原模型的计算结果，结合方式如下：

其中，为最终得分为原DA模型的得分为句子相似度得分；为变量。

进一步的改进在于，所述的句子向量相似度计算采用word2vec词向量，并添加领域性的无监督数据进行微调。

本发明相对于传统的基于知识库的对话方法，具有以下优点：

精度高，采用注意力机制模型结合句子相似度的方式能提高匹配的效果，减少过拟合，具有很好的泛化能力。速度快，该方法在保证准确率的情况下，能大大地减少推理的速度，能适应线上多并发的情况。通过核心词概念，可以很好的找出相关知识、过滤不相关的知识，减少计算量。

附图说明

图1为本发明所述的算法处理流程图。

具体实施方式

下面结合附图以及具体实施方式对本发明做进一步的描述。

一种基于知识库的领域性单独对话的方法,包括以下步骤：

s1：知识库构建；

s2：接收用户发送的语句；

s3：根据算法流程将用户语句与知识库相关知识匹配；

s4：返回相似度最高的知识答案；

s1中所述的知识库在项目前期构建，知识库包含五大元素：核心词、核心词同义词、标准问句、相似问句、答案, s3中所述的算法流程包括核心词检索、粗检索、精检索三大步骤，各个步骤可单独运作。

所述的核心词为一个知识标题中，最具有代表性的词组，且一个知识标题有且只有一个核心词，如：“酒店”；核心词同义词为核心词的同义词，同义词可以有多个，但同义词不能是已存在的核心词，如：“旅馆、旅店”；标准问句又称为知识标题，是一条知识的标准问法，如：“度假村里有几家酒店”；相似问句为与标准问句的意思相近的问句，如：“度假村有多少酒店”。答案对应知识，每条知识只有一条答案，如：“度假村共有三家酒店”。

所述的核心词检索步骤包括以下子步骤：

S11：用户输入一句问句；

所述的粗检索步骤包括以下子步骤：

S21：通过分词算法对用户问句以及备选的知识进行分词；

S22：结合word2vec模型得出各个词组的词向量；

S23：采用词向量平均法得出句子的向量；

所述的精检索步骤包括以下子步骤：

s31：采用深度学习模型，对粗检索返回的结果进行精排序；

s32：分值高于设置的直出阈值的知识数量大于等于一时，则直接返回分数最高的知识答案；

本发明采用的精检索模型结构为主模型（以下简称DA）选自《A DecomposableAttention Model for Natural Language Inference》，该模型擅长实现自然语言推断，其实就是文本蕴含任务，所述的深度学习模型主模型任务的形式为给定一个前提文本，根据这个前提去推断假说文本与前提的关系，一般分为蕴含关系和矛盾关系，蕴含关系表示从前提中可以推断出推断假说文本；矛盾关系即推断文本与前提文本矛盾。

所述的主模型分为计算注意力、比较和组合三个阶段。

所述的组合阶段融入句子向量相似度计算，结合原模型的计算结果，结合方式如下：

所述的句子向量相似度计算采用word2vec词向量，并添加领域性的无监督数据进行微调。

本发明相对于传统的基于知识库的对话方法，具有以下优点：精度高，采用注意力机制模型结合句子相似度的方式能提高匹配的效果，减少过拟合，具有很好的泛化能力。速度快，该方法在保证准确率的情况下，能大大地减少推理的速度，能适应线上多并发的情况。通过核心词概念，可以很好的找出相关知识、过滤不相关的知识，减少计算量。

尽管已用具体实施例来说明和描述了本发明，然而应意识到，在不背离本发明的精

神和范围的情况下可以做出许多其它的更改和修改。因此，这意味着在所附权利要求中包

括属于本发明范围内的所有这些变化和修改。

Claims

1.一种基于知识库的领域性单独对话的方法,其特征在于，包括以下步骤：

s1：知识库构建；

s2：接收用户发送的语句；

s3：根据算法流程将用户语句与知识库相关知识匹配；

s4：返回相似度最高的知识答案；

其中，s1中所述的知识库在项目前期构建，知识库包含五大元素：核心词、核心词同义词、标准问句、相似问句、答案,s3中所述的算法流程包括核心词检索、粗检索、精检索三大步骤，各个步骤可单独运作。

2.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于，所述的核心词为一个知识标题中，最具有代表性的词组，且一个知识标题有且只有一个核心词，所述的核心词同义词为核心词的同义词，同义词可以有多个，同义词不能是已存在的核心词，所述的标准问句又称为知识标题，是一条知识的标准问法，所述的答案对应知识，每条知识只有一条答案。

3.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于，所述的核心词检索步骤包括以下子步骤：

S11：用户输入一句问句；

4.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于，所述的粗检索步骤包括以下子步骤：

S21：通过分词算法对用户问句以及备选区的知识进行分词；

S22：结合word2vec模型得出各个词组的词向量；

S23：采用词向量平均法得出句子的向量；

5.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于，所述的精检索步骤包括以下子步骤：

s31：采用深度学习模型，对粗检索返回的结果进行精排序；

6.根据权利要求5所述的一种基于知识库的领域性单独对话的方法,其特征在于，所述的深度学习模型主模型任务的形式为给定一个前提文本，根据这个前提去推断假说文本与前提的关系。

7.根据权利要求6所述的一种基于知识库的领域性单独对话的方法,其特征在于，所述的主模型分为计算注意力、比较和组合三个阶段。

8.根据权利要求7所述的一种基于知识库的领域性单独对话的方法,其特征在于，所述的组合阶段融入句子向量相似度计算，结合原模型的计算结果，结合方式如下：

9.根据权利要求8所述的一种基于知识库的领域性单独对话的方法,其特征在于，所述的句子向量相似度计算采用word2vec词向量，并添加领域性的无监督数据进行微调。