CN110019708A

CN110019708A - 聊天机器人的语料生成方法及装置、存储介质、服务器

Info

Publication number: CN110019708A
Application number: CN201711129734.XA
Authority: CN
Inventors: 顾抑扬; 俞晨光
Original assignee: Shanghai Dig Internet Technology Co Ltd
Current assignee: Shanghai Dig Internet Technology Co Ltd
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2019-07-16

Abstract

一种聊天机器人的语料生成方法及装置、存储介质、服务器，所述语料生成方法包括：建立包含多个对话语料的核心对话库，其中，每个对话语料包含语料上下文及对应的响应信息；获取内容语料；搜索所述核心对话库，以得到与所述内容语料相匹配的至少一条响应信息；生成新对话语料，所述新对话语料的提问部分为所述至少一条响应信息对应的语料上下文，所述新对话语料的回答部分为所述内容语料。通过本发明提供的技术方案，提高了生成新对话语料的效率，减少了人为编写聊天机器人的语料的负担，可以满足聊天机器人的语料数量需求。

Description

聊天机器人的语料生成方法及装置、存储介质、服务器

技术领域

本发明涉及信息处理技术领域，具体涉及一种聊天机器人的语料生成方法及装置、存储介质、服务器。

背景技术

近年来，在人工智能研究热潮的推动下，智能聊天机器人被定位成未来各种产品和服务的入口，已成为各相关领域公司的重点研究项目。智能问答作为人机交互的主要方式具有广泛的应用场景。

现有技术中，训练者通过机器人教学界面向聊天机器人输入提问部分并给出回答部分，以所述提问部分和所述回答部分作为对话语料的语料上下文及对应的响应信息，并将所述对话语料作为聊天机器人的语料。通过训练者多次输入的对话语料丰富所述聊天机器人的语料内容。为保证聊天机器人实现正常的人机交互，所述聊天机器人的语料数量至少需要数万条，单纯依靠人工编写，其成本非常高、效率低下。实际应用中，训练者也可以为只包含回答，没有对应提问的内容语料编写对应的提问，以组成对话语料用于聊天机器人。但个人能力相对有限，可能导致人工编写的对话语料内容匮乏，在很多情况下，相同的提问总是会获得相同的回答，导致用户体验差。

由上，现有的技术方案通过人工编写对话语料的方式生成聊天机器人的语料，难以满足聊天机器人的语料数量需求，且成本高、效率低。

发明内容

本发明解决的技术问题是如何提高生成对话语料的效率，降低聊天机器人的语料的人为编写成本，满足聊天机器人的语料数量需求。

为解决上述技术问题，本发明实施例提供一种聊天机器人的语料生成方法，所述语料生成方法包括：建立包含多个对话语料的核心对话库，其中，每个对话语料包含语料上下文及对应的响应信息；获取内容语料；搜索所述核心对话库，以得到与所述内容语料相匹配的至少一条响应信息；生成新对话语料，所述新对话语料的提问部分为所述至少一条响应信息对应的语料上下文，所述新对话语料的回答部分为所述内容语料。

可选的，所述建立包含多个对话语料的核心对话库包括：从原始作品中获取所述多个对话语料，并将所述多个对话语料添加至所述核心对话库。

可选的，所述原始作品包括以下一项或多项：小说、剧本、漫画、新闻资讯。

可选的，所述获取内容语料包括：通过访问互联网获取互联网信息；将所述互联网信息拆分成至少一条内容语料。

可选的，所述搜索所述核心对话库，以得到与所述内容语料相匹配的至少一条响应信息包括：计算所述内容语料与所述核心对话库中的各个响应信息的语义相似度；确定与所述内容语料的语义相似度高于预设阈值的至少一条响应信息，或者确定与所述内容语料的语义相似度最高的至少一条响应信息。

为解决上述技术问题，本发明实施例还提供一种聊天机器人的语料生成装置，所述语料生成装置包括：建立模块，适于建立包含多个对话语料的核心对话库，其中，每个对话语料包含语料上下文及对应的响应信息；获取模块，适于获取内容语料；搜索模块，适于搜索所述核心对话库，以得到与所述内容语料相匹配的至少一条响应信息；生成模块，适于生成新对话语料，所述新对话语料的提问部分为所述至少一条响应信息对应的语料上下文，所述新对话语料的回答部分为所述内容语料。

可选的，所述建立模块包括：添加子模块，适于从原始作品中获取所述多个对话语料，并将所述多个对话语料添加至所述核心对话库。

可选的，所述获取模块包括：获取子模块，适于通过访问互联网获取互联网信息；拆分子模块，适于将所述互联网信息拆分成至少一条内容语料。

可选的，所述搜索模块包括：计算子模块，适于计算所述内容语料与所述核心对话库中的各个响应信息的语义相似度；确定子模块，适于确定与所述内容语料的语义相似度高于预设阈值的至少一条响应信息，或者确定与所述内容语料的语义相似度最高的至少一条响应信息。

为解决上述技术问题，本发明实施例还提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述聊天机器人的语料生成方法的步骤。

为解决上述技术问题，本发明实施例还提供一种服务器，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述聊天机器人的语料生成方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供一种聊天机器人的语料生成方法，首先建立包含多个对话语料的核心对话库，其中，每个对话语料包含语料上下文及对应的响应信息；然后获取内容语料，所述内容语料可以作为新对话语料的响应信息；接着，搜索所述核心对话库，以得到与所述内容语料相匹配的至少一条响应信息，从而得到所述内容语料对应的语料上下文；最后，将所述至少一条响应信息对应的语料上下文作为所述内容语料的提问部分，所述提问部分的回答部分即为所述内容语料，至此，生成新对话语料。通过本发明提供的技术方案，可以大大提高对话语料的生成效率，降低聊天机器人的语料编写成本，减轻训练、构造聊天机器人的负担，易于满足聊天机器人的语料数量需求，进而提高用户体验。

进一步，所述语料生成方法可以通过访问互联网获取互联网信息，将所述互联网信息拆分成至少一条内容语料。通过从互联网获取互联网信息，可以丰富聊天机器人的语料内容，扩展聊天机器人的话题的广度与深度，大幅提升与聊天机器人对话的用户满意度。

附图说明

图1是本发明实施例的一种聊天机器人的语料生成方法的流程示意图；

图2是本发明实施例的聊天机器人的语料生成方法的一种典型应用场景示意图；

图3是本发明实施例的一种聊天机器人的语料生成装置的结构示意图。

具体实施方式

本领域技术人员理解，如背景技术所述，现有依靠人工编写方式生成聊天机器人的语料的方案，代价高、效率低，难以满足聊天机器人的语料数量需求。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例的一种聊天机器人的语料生成方法的流程示意图。所述聊天机器人的语料(也即对话语料)可以分为提问部分(也即语料上下文)和回答部分(也即响应信息)。当用户与聊天机器人对话时，所述聊天机器人利用用户的输入信息搜索所述对话语料，当查找出与所述输入信息匹配的语料上下文时，所述聊天机器人可以将与所述语料上下文对应的响应信息作为回答信息输出至用户。由上，所述聊天机器人需要大量的对话语料回答用户提问，以提高用户的满意度。

具体地，参照图1，本发明实施例提供的聊天机器人的语料生成方法可以包括如下步骤：

步骤S101：建立包含多个对话语料的核心对话库，其中，每个对话语料包含语料上下文及对应的响应信息；

步骤S102：获取内容语料；

步骤S103：搜索所述核心对话库，以得到与所述内容语料相匹配的至少一条响应信息；

步骤S104：生成新对话语料，所述新对话语料的提问部分为所述至少一条响应信息对应的语料上下文，所述新对话语料的回答部分为所述内容语料。

更具体而言，在步骤S101中，服务器可以建立核心对话库，所述核心对话库可以包含多个(例如数万个)对话语料。每个对话语料可以包含语料上下文及对应的响应信息，也即包含提问部分及对应的回答部分。

具体实施中，所述核心对话库负责管理、审核与发布所述对话语料。所述对话语料可以从原始作品中获取得到，例如，从小说、剧本、漫画中得到。本领域技术人员理解，所述原始作品并非局限于文学作品，也可以来源于互联网信息，例如新闻资讯。考虑到小说、剧本、漫画以及新闻资讯等原始作品包含很多重复和冗余信息，因而需要对所述原始作品进行清洗，以得到包含语料上下文及对应响应信息的对话语料。

进一步地，所述内容语料相当于所述对话语料中的响应信息，但其相应的语料上下文缺失。在步骤S102中，所述服务器可以从外部获取内容语料。例如，可以利用爬虫或其它工具从互联网中抓取互联网信息(例如网页或应用内容)，以获取资讯信息。所述资讯信息可以是时事要闻、技术动态、政策条目、观点评论、学术讨论等任何可用信息。所述内容语料可以通过拆分获取的原始语料(例如互联网信息或其它信息)而得到。

具体实施中，可以根据标点符号对从外部获取的原始语料(例如互联网信息)进行拆分，例如，可以按照逗号、分号、句号、感叹号等标点符号对原始语料进行拆分，并将拆分后得到的语句作为内容语料。或者，还可以根据段落对所述原始语料进行拆分，例如，将一篇文章按照自然划分的段落进行拆分，并将拆分后得到的段落作为内容语料。或者，还可以根据文章完整性对所述原始语料进行拆分，例如，将一本诗集按照完整的诗词结构进行拆分，拆分后得到的每一首完整的诗词作为内容语料。或者，还可以按照话题对所述原始语料进行拆分，将拆分得到的具有完整语义的每一话题内容作为内容语料，比如，将一位知乎用户回答“人这一生为什么要努力？”的全部回复信息作为一条内容语料。当然，本领域技术人员可以根据实际需要变化出更多实施例，在此不予赘述。

进一步地，经过拆分得到的内容语料可能存在表达不完整的问题，或者因语句意思不完整而出现语义模糊、不清楚等问题，或者因文字错误或技术过时出现内容错误或信息偏差，或者因新闻资讯来源多样，格式多样而出现内容重复、冗余，因而一般情况下，拆分后得到的语句、段落、完整文章，话题内容等需要经过清洗、整理后才能成为内容语料。

作为一个非限制性的例子，假设服务器利用爬虫爬取到一条互联网信息“京东为什么年年说亏损，但是还是不倒闭？”所述服务器可以将其拆分为“京东为什么年年说亏损”和“但是还是不倒闭？”两个语句，并直接将这两个语句作为内容语料。进一步地，所述服务器也可以对这两个语句进行清洗，以使得到的内容语料更容易与其它语句衔接，例如，清洗后得到的内容语料分别为“为什么年年说亏损”和“还是不倒闭”。本领域技术人员理解，实际应用中，可以通过清洗、整理拆分后得到的段落、诗词、话题等信息，进而得到更多的内容语料，在此不再一一列举。

进一步地，在步骤S103中，所述服务器可以基于内容检索算法搜索所述核心对话库，为所述内容语料匹配与其语义相似度高的对话语料的响应信息。所述响应信息可以是一条，也可以是多条。

进一步地，本发明实施例引入“词向量(word2vec)”技术，以便在所述核心对话库中搜索与所述内容语料匹配的对话语料包含的响应信息时，所述聊天机器人可以从语义上理解语料内容，得到与所述内容语料匹配的对话语料包含的响应信息。

作为一个非限制性的例子，所述服务器可以采用词向量技术搜索所述核心对话库，使得聊天机器人能够基于语义相似度得到匹配所述内容语料的对话语料包含的响应信息。其中，所述词向量具有良好的语义特性，是表示词语特征的常用方式，它的每一维度表示词语的一个潜在词语特征，该词语特征捕获了有用的句法和语义特征。通过比较词向量的相似度，可以得到句子的语义相似度。

进一步地，基于词向量计算语义相似度的方法可以包括以下步骤：

首先，从互联网中获取海量(例如，200万篇)新闻资讯，并清洗新闻资讯内容，得到无重复、冗余的清洗后资讯信息，并采用中文分词器对所述清洗后资讯信息进行分词，以得到多个词句；

然后，使用词向量技术，利用得到的词句训练神经网络，并基于所述神经网络获得中文词句的向量(例如256维多维实数向量)，所述向量包含自然语言中的语义和语法关系；

接着，计算两个句子的相似度，例如计算句子A和句子B的相似度，可以使用词频-逆向文件频率(Term Frequency-Inverse Document Frequency，简称TF-IDF)算法分别提取句子A中的n个关键词a1，a2，……，an和句子B中的m个关键词b1，b2，……，bm，并分别计算关键词a1，a2，……，an对应的256维向量加权平均和关键词b1，b2，……，bm的256维向量加权平均，分别得到句子A和句子B的关键词的TF-IDF值，进而得到句子A和句子B的256维向量；

最后，计算句子A与句子B对应的256维向量的余弦相似度，以得到句子A和句子B的文本相似度。其中，余弦相似度指的是各向量之间的余弦距离，用于表示词语之间的语义相似度。两个句子的语义相似度越高，其表达的句子含义(也即包含的信息)越接近。

进一步地，基于计算所述内容语料与所述核心对话库中的各个对话语料包含的响应信息的语义相似度，所述服务器可以得到与所述内容语料的语义相似度匹配度高的响应信息。

进一步地，如果所述服务器预先设定语义相似度的阈值，则所述服务器可以在搜索完所述核心对话库后得到一条或多条高于预设阈值的响应信息。如果存在多条高于预设阈值的响应信息，则所述服务器可以分别将各个响应信息对应的语料上下文与所述内容语料结合，生成多个新对话语料。

进一步地，所述服务器也可以按语义相似度降序排列，得到与所述内容语料的语义相似度最高的响应信息。如果存在一条语义相似度最高的响应信息，则所述服务器可以将所述响应信息对应的语料上下文与所述内容语料结合，生成一个新对话语料。如果存在多条语义相似度最高的响应信息，则所述服务器可以分别将各个响应信息对应的语料上下文与所述内容语料结合，生成多个新对话语料。

作为一种典型的应用场景，参考图2，所述服务器(图未示)建立了核心对话库，所述核心对话库中包含多个对话语料，如对话语料1(图未示)包含提问1和回答1，对话语料2(图未示)包含提问2和回答2，对话语料3(图未示)包含提问3和回答3，……，对话语料N(图未示)包含提问N和回答N。图2示出的内容语料为“你不要催啦！”。

进一步地，为生成新对话语料，所述服务器可以在所述核心对话库中基于内容检索算法搜索与所述内容语料相对应的语料上下文。此时，可以在所述核心对话库中搜索与“你不要催啦！”的语义相似度匹配的对话语料包含的响应信息。

进一步地，在搜索完所述核心对话库后，得到与“你不要催啦！”的语义相似度匹配的对话语料包含的响应信息为“不要催人家”。所述服务器可以将“不要催人家”的提问(也即对话语料的语料上下文)“你快点，我们该迟到了”作为“你不要催啦！”的语料上下文，至此，生成提问为“你快点，我们该迟到了”，回答为“你不要催啦！”的新对话语料。

本领域技术人员理解，在所述核心对话库中搜索与所述内容语料的语义相似度匹配的对话语料包含的响应信息时，可以采用穷尽式搜索，还可以采用分布搜索、降维搜索(例如粗略检索和精细检索)等搜索方法实现快速搜索，以提高生成新对话语料的速率。

需要说明的是，所述对话语料和内容语料除包括文本格式的对话语料，还可以包括音频格式或视频格式的对话语料。本领域技术人员理解，其内容相似度也可以基于现有技术中的图片相似度的计算方法进行计算，例如通过多媒体搜索方法为音频格式或视频格式的内容语料搜索与之匹配的对话语料的语料上下文，进而生成音频格式或视频格式的新对话语料。

由上，与人工编写对话语料相比，本发明实施例提供的生成语料方案效率更高、成本更低，且易于满足聊天机器人的语料数量需求。

图3是发明实施例的一种聊天机器人的语料生成装置，所述语料生成装置3可用于实施图1所示的聊天机器人的语料生成方法技术方案。

具体而言，所述语料生成装置3可以包括：建立模块31、获取模块32、搜索模块33和生成模块34。

进一步地，所述建立模块31适于建立包含多个对话语料的核心对话库，其中，每个对话语料包含语料上下文及对应的响应信息；所述获取模块32适于获取内容语料；所述搜索模块33适于搜索所述核心对话库，以得到与所述内容语料相匹配的至少一条响应信息；所述生成模块34适于生成新对话语料，所述新对话语料的提问部分为所述至少一条响应信息对应的语料上下文，所述新对话语料的回答部分为所述内容语料。

进一步地，所述建立模块31可以包括添加子模块311。所述添加子模块311适于从原始作品中获取所述多个对话语料，并将所述多个对话语料添加至所述核心对话库。其中，所述原始作品可以包括以下一项或多项：小说、剧本、漫画、新闻资讯。

进一步地，所述获取模块32可以包括获取子模块321和拆分子模块322。

具体而言，所述获取子模块321适于通过访问互联网获取互联网信息；所述拆分子模块322适于将所述互联网信息拆分成至少一条内容语料。

进一步地，所述搜索模块33可以包括计算子模块331和确定子模块332。

具体而言，所述计算子模块331适于计算所述内容语料与所述核心对话库中的各个响应信息的语义相似度；所述确定子模块332适于确定与所述内容语料的语义相似度高于预设阈值的至少一条响应信息，或者确定与所述内容语料的语义相似度最高的至少一条响应信息。

关于所述语料生成装置3的工作原理、工作方式的更多内容，可以一并参照图1和图2中的相关描述，这里不再赘述。

进一步地，本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述图1所示实施例中的所述聊天机器人的语料生成方法的步骤。优选地，所述存储介质可以包括计算机可读存储介质。在具体实施中，所述存储介质可以包括ROM、RAM、磁盘或光盘等。

进一步地，本发明实施例还公开了一种服务器，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述图1所示实施例中的所述聊天机器人的语料生成方法的步骤。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种聊天机器人的语料生成方法，其特征在于，包括：

建立包含多个对话语料的核心对话库，其中，每个对话语料包含语料上下文及对应的响应信息；

获取内容语料；

搜索所述核心对话库，以得到与所述内容语料相匹配的至少一条响应信息；

生成新对话语料，所述新对话语料的提问部分为所述至少一条响应信息对应的语料上下文，所述新对话语料的回答部分为所述内容语料。

2.根据权利要求1所述的语料生成方法，其特征在于，所述建立包含多个对话语料的核心对话库包括：

从原始作品中获取所述多个对话语料，并将所述多个对话语料添加至所述核心对话库。

3.根据权利要求2所述的语料生成方法，其特征在于，所述原始作品包括以下一项或多项：小说、剧本、漫画、新闻资讯。

4.根据权利要求1所述的语料生成方法，其特征在于，所述获取内容语料包括：

通过访问互联网获取互联网信息；

将所述互联网信息拆分成至少一条内容语料。

5.根据权利要求1所述的语料生成方法，其特征在于，所述搜索所述核心对话库，以得到与所述内容语料相匹配的至少一条响应信息包括：

计算所述内容语料与所述核心对话库中的各个响应信息的语义相似度；

确定与所述内容语料的语义相似度高于预设阈值的至少一条响应信息，或者确定与所述内容语料的语义相似度最高的至少一条响应信息。

6.一种聊天机器人的语料生成装置，其特征在于，包括：

建立模块，适于建立包含多个对话语料的核心对话库，其中，每个对话语料包含语料上下文及对应的响应信息；

获取模块，适于获取内容语料；

搜索模块，适于搜索所述核心对话库，以得到与所述内容语料相匹配的至少一条响应信息；

生成模块，适于生成新对话语料，所述新对话语料的提问部分为所述至少一条响应信息对应的语料上下文，所述新对话语料的回答部分为所述内容语料。

7.根据权利要求6所述的语料生成装置，其特征在于，所述建立模块包括：

添加子模块，适于从原始作品中获取所述多个对话语料，并将所述多个对话语料添加至所述核心对话库。

8.根据权利要求7所述的语料生成装置，其特征在于，所述原始作品包括以下一项或多项：小说、剧本、漫画、新闻资讯。

9.根据权利要求6所述的语料生成装置，其特征在于，所述获取模块包括：

获取子模块，适于通过访问互联网获取互联网信息；

拆分子模块，适于将所述互联网信息拆分成至少一条内容语料。

10.根据权利要求6所述的语料生成装置，其特征在于，所述搜索模块包括：

计算子模块，适于计算所述内容语料与所述核心对话库中的各个响应信息的语义相似度；

确定子模块，适于确定与所述内容语料的语义相似度高于预设阈值的至少一条响应信息，或者确定与所述内容语料的语义相似度最高的至少一条响应信息。

11.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至5任一项所述的聊天机器人的语料生成方法的步骤。

12.一种服务器，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至5中任一项所述的聊天机器人的语料生成方法的步骤。