CN113486165A

CN113486165A - 一种用于云化机器人的faq自动问答方法、设备及介质

Info

Publication number: CN113486165A
Application number: CN202110774150.8A
Authority: CN
Inventors: 冯落落; 尹青山; 王建华
Original assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Current assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-10-08

Abstract

本说明书实施例公开了一种用于云化机器人的FAQ自动问答方法、设备及介质。用以解决现有技术中问答机器人问答效率和精度低，用户体验差的问题。该方案包括：根据语料库进行TF‑IDF模型训练，获得TF‑IDF模型以及所述分词结果对应的权重，并根据所述语料库进行word2vec模型训练，获得word2vec模型以及所述分词结果对应的词向量；通过所述权重对所述词向量进行相加，得到所述自定义问答信息对应的多个句向量，并生成句向量矩阵；基于用户输入的发问信息，确定所述发问信息对应的句向量，并确定所述发问信息对应的句向量与所述向量矩阵中的句向量的最大相似度，在所述最大相似度大于预设阈值时，返回所述发问信息对应的回答信息。

Description

一种用于云化机器人的FAQ自动问答方法、设备及介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种用于云化机器人的FAQ自动问答方法、设备及介质。

背景技术

常见问题解答(Frequently Asked Questions，FAQ)是当前网络上提供在线帮助的主要手段。随着人工智能的快速发展，问答机器人已经成为我们生活中比较常见的辅助工具，但是当前问答机器人的 FAQ一般适用于通用场景，不能自定义问答信息以适应于如博物馆、展览馆等特定场景，导致问答效率和精度低，用户体验差。

发明内容

本说明书一个或多个实施例提供一种用于云化机器人的FAQ自动问答方法、设备及介质。用以解决如下技术问题：现有技术中问答机器人问答效率和精度低，用户体验差的问题。

为解决上述技术问题，本说明书一个或多个实施例是这样实现的：

一方面，本说明书一个或多个实施例提供一种用于云化机器人的 FAQ自动问答方法，包括：

将自定义问答信息进行分词处理，得到分词结果；

对所述分词结果进行词性标注，并根据所述词性标注对所述分词结果进行筛选，并将筛选后的分词结果中的敏感词剔除，获得语料库；

根据所述语料库进行TF-IDF模型训练，获得TF-IDF模型以及所述分词结果对应的权重，并根据所述语料库进行word2vec模型训练，获得word2vec模型以及所述分词结果对应的词向量；

通过所述权重对所述词向量进行相加，得到所述自定义问答信息对应的多个句向量，并生成句向量矩阵；

基于用户输入的发问信息，确定所述发问信息对应的句向量，并确定所述发问信息对应的句向量与所述向量矩阵中的句向量的最大相似度，在所述最大相似度大于预设阈值时，返回所述发问信息对应的回答信息。

能够自定义问答信息，并根据自定义问答信息获得语料库，根据语料库进行模型训练并得到自定义问答信息对应的句向量矩阵，适用于如博物馆、展览馆等特定场景，并且能够根据场景的不同自定义不同的问答信息以提高用户查询信息的精准度和效率。

在本申请的一种实现方式中，所述将自定义问答信息进行分词处理，得到分词结果，具体包括：

将所述自定义问答信息包括的连续文字序列按照预设规则切分成多个单独的词，将所述多个单独的词作为分词结果。

通过分词处理能够切断上下文耦合，降低词序的影响。

在本申请的一种实现方式中，所述自定义问答信息，包括：

通过文本文件自定义的问答信息；或

通过音频文件自定义的问答信息，所述音频文件能够转化为文本文件。

在本申请的一种实现方式中，所述根据所述词性标注对所述分词结果进行筛选，并将筛选后的分词结果中的敏感词剔除，具体包括：

将所述分词结果按照不同的词性标注进行区分，并去除所述词性标注为助词的分词结果；

通过停用词工具，在去除所述词性标注为助词的分词结果中，检索并剔除敏感词。

对于一段连续的文字序列，有些词性并不重要，有或者没有都不影响语义，进行分词处理后，将不重要的词性去除，能够减少工作量。去掉有暴力倾向、不健康色彩的词，防止造成不良影响。

在本申请的一种实现方式中，所述基于用户输入的发问信息，确定所述发问信息对应的句向量，具体包括：

将用户输入的所述发问信息进行分词处理、词性标注、筛选、敏感词剔除，获得所述发问信息对应的语料；

将所述语料分别输入到所述TF-IDF模型和所述word2vec模型，获得所述语料对应的权重和词向量；

通过所述语料对应的权重对所述语料对应的词向量进行相加，获得所述发问信息对应的句向量。

在本申请的一种实现方式中，所述确定所述发问信息对应的句向量与所述向量矩阵中的句向量的最大相似度，具体包括：

确定所述发问信息对应的句向量与所述向量矩阵中的句向量的最短余弦距离；

根据余弦距离与相似度的对应关系，确定所述最短余弦距离对应的最大相似度。

在本申请的一种实现方式中，所述在确定所述发问信息对应的句向量与所述向量矩阵中的句向量的最大相似度之后，所述方法还包括：

在所述最大相似度不大于所述预设阈值时，返回所述云化机器人中预存的默认回答。

在本申请的一种实现方式中，所述根据所述语料库进行word2vec 模型训练，具体包括：

根据所述语料库，通过Skip-Gram算法训练word2vec模型。

另一方面，本说明书一个或多个实施例提供一种用于云化机器人的FAQ自动问答设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如下指令：

将自定义问答信息进行分词处理，得到分词结果；

另一方面，本说明书一个或多个实施例还提供了一种存储介质，所述存储介质为非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有至少一个程序，每个所述程序包括指令，所述指令当被终端执行时，使所述终端执行上述方法。

通过本申请提出的一种用于云化机器人的FAQ自动问答方法、设备及介质，能够带来如下有益效果：

本发明能够自定义问答信息，并根据自定义问答信息获得语料库，根据语料库进行模型训练并得到自定义问答信息对应的句向量矩阵，适用于如博物馆、展览馆等特定场景，并且能够根据场景的不同自定义不同的问答信息以提高用户查询信息的精准度和效率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的一种用于云化机器人的FAQ自动问答方法流程示意图；

图2为本说明书一个或多个实施例提供的一种智能对话框架；

图3为本说明书一个或多个实施例提供的一种用于云化机器人的FAQ自动问答设备结构示意图。

具体实施方式

本申请实施例提供一种用于云化机器人的FAQ自动问答方法、设备及介质。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为解决上述问题，本说明书实施例提供一种用于云化机器人的 FAQ自动问答方法、设备及介质。能够自定义问答信息，并根据自定义问答信息获得语料库，根据语料库进行模型训练并得到自定义问答信息对应的句向量矩阵，适用于如博物馆、展览馆等特定场景，并且能够根据场景的不同自定义不同的问答信息以提高用户查询信息的精准度和效率。

本发明将云计算和机器人相结合，形成云化机器人，能够使机器人拥有更加强大的智能能力。如图2所示，云化机器人分为离线和在线两种方式，离线是指把少部分功能部署到边端，也就是机器人本体上，在线是指把问答部署到云端，通过云端进行语义解析，经过处理将结果返回到机器人上。边端经过语音识别、语音合成、文字识别通过会话管理与云端进行通信，云端对语言进行理解并通过对话管理进行语言生成并反馈给边端。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书一个或多个实施例提供的一种用于云化机器人的FAQ自动问答方法流程示意图。如图1所示，用于云化机器人的 FAQ自动问答方法包括以下步骤：

S101：将自定义问答信息进行分词处理，得到分词结果。

现有的智能问答机器人如百度小度、小米小爱同学等都是适用于通用场景，并不能自定义问答信息。自定义问答信息包括发问信息和回答信息，发问信息和回答信息组成一对。自定义问答信息是基于特定场景的，比如博物馆，发问信息比如“能不能讲解一下本博物馆中的各个展区”，与之相对应的回答信息是各个展区的介绍。自定义问答信息包括多条，涵盖博物馆的方方面面。另外，将本来应用在博物馆的云化机器人应用到展览馆时，可以自定义有关该展览馆的问答信息，以使云化机器人能够高效精准的提供服务。

在本说明书的一个或多个实施例中，将自定义问答信息包括的连续文字序列按照预设规则切分成多个单独的词，将多个单独的词作为分词结果。

通过分词工具可以将自定义问答信息包括的连续文字序列切分成多个单独的词，分词工具可以为jieba，预设规则可分为3种：精确模式、全模式、搜索引擎模式。例如，自定义问答信息包括的连续文字序列为“今天天气真好”，在精确模式下，可切分为今天天气，真，好；在全模式下，可切分为今天，今天天气，天天，天气，真好；在搜索引擎模式下，可切分为今天，天天，天气，今天天气，真，好。切分后形成的单独的词作为分词结果。具体按照哪种预设规则切分不做具体要求。

在本说明书的一个或多个实施例中，自定义问答信息包括通过文本文件自定义的问答信息；或通过音频文件自定义的问答信息，音频文件能够转化为文本文件。

自定义问答信息可以分为由文字输入的或者由语音输入的。由文字输入的可以分为即时编辑输入或者以文本文件形式输入，文本文件是指包括自定义问答信息的TXT文件或word文件。由语音输入的可以分为现场语音输入或者以音频文件输入，音频文件是指通过声音录入设备录制的自定义问答信息的原始声音。

S102：对分词结果进行词性标注，并根据词性标注对分词结果进行筛选，并将筛选后的分词结果中的敏感词剔除，获得语料库。

在本说明书的一个或多个实施例中，将分词结果按照不同的词性标注进行区分，并去除词性标注为助词的分词结果；通过停用词工具，在去除词性标注为助词的分词结果中，检索并剔除敏感词。

分词结果中每个单独的词都具有词性，词性，指以词的特点作为划分词类的根据，主要用来描述一个词在上下文中的作用。中文中常见的有形容词、副词、名词等。通过jieba中的词性标注工具对每一个词进行词性标注，可根据词性进行筛选。对于一段连续的文字序列，有些词性并不重要，可以将不重要的词性去除。例如，结构助词、时态助词等助词。

停用词包括人类语言中包含的功能词，没有实际含义。以 stopwords停用词工具为例，停用词工具能够剔除敏感词，在本申请中，敏感词包括停用词以及带有暴力倾向、不健康色彩的词。将助词和敏感词去掉之后得到能够进行模型训练的语料库，语料库中包括多个能够进行模型训练的单独的词。

S103：根据语料库进行TF-IDF模型训练，获得TF-IDF模型以及分词结果对应的权重，并根据语料库进行word2vec模型训练，获得word2vec模型以及分词结果对应的词向量。

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。使用sklearn算法将语料库中的每个词的词频进行计算，获得分词结果中的每个词对应的权重。

在本说明书的一个或多个实施例中，根据语料库，通过Skip-Gram 算法训练word2vec模型。word2vec模型训练过程中的窗口大小设置为5，词向量的维度设置为300d。窗口大小设置为5是指除了输入字本身以外还包括输入字之前与之后的两个字。训练完成的word2vec 模型能够映射每一个词到一个向量。

S104：通过权重对词向量进行相加，得到自定义问答信息对应的多个句向量，并生成句向量矩阵。

以自定义问答信息为“你的名字叫什么，多少岁了”为例，经过上述步骤处理后，得到名字的权重为0.4、叫的权重为0.3、多少岁的权重为0.5的数据。通过权重对词向量进行相加，例如，0.4*名字的词向量加0.3*叫的词向量得到你的名字叫什么的句向量。若有100个自定义问答信息，则生成一个100*300的句向量矩阵。

S105：基于用户输入的发问信息，确定发问信息对应的句向量，并确定发问信息对应的句向量与向量矩阵中的句向量的最大相似度，在最大相似度大于预设阈值时，返回发问信息对应的回答信息。

在本说明书的一个或多个实施例中，将用户输入的发问信息进行分词处理、词性标注、筛选、敏感词剔除，获得发问信息对应的语料；将语料分别输入到TF-IDF模型和word2vec模型，获得语料对应的权重和词向量；通过语料对应的权重对语料对应的词向量进行相加，获得发问信息对应的句向量。

在本说明书的一个或多个实施例中，确定发问信息对应的句向量与向量矩阵中的句向量的最短余弦距离；根据余弦距离与相似度的对应关系，确定最短余弦距离对应的最大相似度。余弦距离越小，表明发问信息对应的句向量与向量矩阵中对应的句向量相似度越高。若向量矩阵中有100个问答信息对应的句向量，则分别确定发问信息对应的句向量与这100个问答信息对应的句向量的余弦距离，并确定最小余弦距离对应的向量矩阵中的句向量。最小余弦距离小于预设距离时，最大相似度大于预设阈值。

在本说明书一个或多个实施例中，在最大相似度不大于预设阈值时，返回云化机器人中预存的默认回答。

在最大相似度不大于预设阈值时，表明用户输入的发问信息不在自定义问答信息内，云化机器人无法回答用户的发问，此时，云化机器人会返回预存的默认回答。

如图3所示，用于云化机器人的FAQ自动问答设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

将自定义问答信息进行分词处理，得到分词结果；

本说明书一个或多个实施例还提供一种存储介质，所述存储介质为非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有至少一个程序，每个所述程序包括指令，所述指令当被终端执行时，使所述终端执行上述方法。

本说明书一个或多个实施例提供的一种用于云化机器人的FAQ 自动问答方法、设备及介质。能够自定义问答信息，并根据自定义问答信息获得语料库，根据语料库进行模型训练并得到自定义问答信息对应的句向量矩阵，适用于如博物馆、展览馆等特定场景，并且能够根据场景的不同自定义不同的问答信息以提高用户查询信息的精准度和效率。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种用于云化机器人的FAQ自动问答方法，其特征在于，包括：

将自定义问答信息进行分词处理，得到分词结果；

2.根据权利要求1所述的一种用于云化机器人的FAQ自动问答方法，其特征在于，所述将自定义问答信息进行分词处理，得到分词结果，具体包括：

3.根据权利要求2所述的一种用于云化机器人的FAQ自动问答方法，其特征在于，所述自定义问答信息，包括：

通过文本文件自定义的问答信息；或

4.根据权利要求1所述的一种用于云化机器人的FAQ自动问答方法，其特征在于，所述根据所述词性标注对所述分词结果进行筛选，并将筛选后的分词结果中的敏感词剔除，具体包括：

5.根据权利要求1所述的一种用于云化机器人的FAQ自动问答方法，其特征在于，所述基于用户输入的发问信息，确定所述发问信息对应的句向量，具体包括：

6.根据权利要求1所述的一种用于云化机器人的FAQ自动问答方法，其特征在于，所述确定所述发问信息对应的句向量与所述向量矩阵中的句向量的最大相似度，具体包括：

7.根据权利要求1所述的一种用于云化机器人的FAQ自动问答方法，其特征在于，所述在确定所述发问信息对应的句向量与所述向量矩阵中的句向量的最大相似度之后，所述方法还包括：

8.根据权利要求1所述的一种用于云化机器人的FAQ自动问答方法，其特征在于，所述根据所述语料库进行word2vec模型训练，具体包括：

根据所述语料库，通过Skip-Gram算法训练word2vec模型。

9.一种用于云化机器人的FAQ自动问答设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

将自定义问答信息进行分词处理，得到分词结果；

10.一种存储介质，其特征在于，所述存储介质为非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有至少一个程序，每个所述程序包括指令，所述指令当被终端执行时，使所述终端执行根据权利要求1-8任一项所述的方法。