CN113590778A

CN113590778A - 智能客服意图理解方法、装置、设备及存储介质

Info

Publication number: CN113590778A
Application number: CN202110740445.3A
Authority: CN
Inventors: 南蓉
Original assignee: Shanghai Yitan Network Technology Co ltd
Current assignee: Shanghai Yitan Network Technology Co ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-11-02

Abstract

本发明公开了一种智能客服意图理解方法、装置、设备及存储介质，应用于陪玩业务中的智能客服问答系统，该方法包括：用户输入、文本处理、图像处理、意图匹配、执行反馈五个部分，在采用TF‑IDF算法进行问题匹配的基础上，针对匹配分数较低的问题引入BERT模型进行文本分类，并结合匹配和分类分数给出匹配结果，并且基于用户习惯发送图像的行为，引入图像分类模型，以解决图像无法识别的问题。相较于传统的检索式对话系统，本发明通过利用文本和图像信息能更大程度上理解用户需求，降低人工成本，提高解决问题的时效性。

Description

智能客服意图理解方法、装置、设备及存储介质

技术领域

本发明属于智能问答的技术领域，尤其涉及一种智能客服意图理解方法、装置、设备及存储介质。

背景技术

随着人工智能技术的不断发展和应用，更多机器人服务场景的应用落地，人机交互已经成为未来发展的常态，而智能客服机器人由于其不仅能够帮助企业节约成本，并且还能大幅度的提升工作效率而得到快速发展，现在主要分为基于问答知识库的机器人、基于任务对话型机器和基于闲聊类型机器人，而基于问答知识库的机器人是信息检索的一种高级形式，其是通过相似问题匹配，即对比用户问题与现有FAQ知识库中问题的相似度，返回用户问题对应的最准确的答案，因此该方法能够更加准确地理解用户用自然语言提出的问题，并通过问答知识库返回简洁、准确的匹配答案。一般的处理流程如下：

1.问答对数据集的清洗

2.Embedding(tf-idf，word2ec,doc2vec,elmo,BERT…)

3.计算文本相似度

4.在问答库中选出与输入问题相似度最高的问题

5.返回相似度最高的问题所对应的答案

但是该方法在实际业务场景中的有些问题匹配上准确率较低，且基于检索的模型不会产生新的文字，只能从预先定义的“回答集”中挑选出一个较为合适的回答。而检索式对话系统不会产生新的回复，其能够回复类型与内容都由语料库所决定。一旦用户的问话超出了语料库的范围，那么对话系统将无法准确回答用户。

而且，当用户输入的是图像时，上述方法无法实现对图像的识别，不能理解用户意图，相应的无法给出答案，从而对智能客服机器人不满，不能达到大幅提升工作效率、节约企业成本的目的。

发明内容

本发明的目的是提供一种智能客服意图理解方法、装置、设备及存储介质，利用文本和图像信息理解用户意图，降低人工成本，提高解决问题的时效性。

为解决上述问题，本发明的技术方案为：

一种智能客服意图理解方法，基于文本和图像信息，应用于陪玩业务中的智能客服问答，包括以下步骤：

获取用户会话，判断用户会话的内容是否为文本信息，若是，则采用LAC词法分析工具对文本信息进行分词得到待处理文本，对待处理文本采用预设的问题匹配算法与知识库中的问题进行匹配，得到目标问题；若否，则判断用户会话的内容是否为图像信息，若是，则对图像信息进行预处理后，输入预设的图像分类模型，得到目标类别，将目标类别转换为问题列表，得到用户意图。

根据本发明一实施例，所述采用LAC词法分析工具对文本信息进行分词得到待处理文本进一步包括：

采用LAC词法分析工具对文本信息进行分词及词语重要性标注，根据重要性权重，去除文本信息中的冗余词以及权重值低于预设阈值的词，对剩余分词进行同义词替换，得到待处理文本。

根据本发明一实施例，所述对待处理文本采用预设的问题匹配算法与知识库中的问题进行匹配进一步包括：

采用TF-IDF算法对待处理文本与知识库中的语料进行相似度计算，若得到的相似度分数低于匹配阈值，则采用微调后的BERT模型对待处理文本进行文本分类，根据BERT模型的预测数值确定匹配结果，得到目标问题。

根据本发明一实施例，所述对图像信息进行预处理后，输入预设的图像分类模型，得到目标类别进一步包括：

将图像信息进行缩放至预设大小，并进行归一化；将归一化后的图像信息输入训练好的VGG16图像分类模型中进行图像类别识别，输出目标类别。

根据本发明一实施例，对图像分类模型进行训练进一步包括：

获取用户输入的历史图像信息，对历史图像进行打标，对打标后的图像进行翻转、旋转、裁剪、变形及缩放多种数据增强操作，得到图像样本集；

将图像样本集以7:2:1的比例划分为训练集、验证集和测试集，对图像分类模型进行训练，得到训练好的满足准确度要求的图像分类模型。

一种智能客服意图理解装置，基于文本和图像信息，应用于陪玩业务中的智能客服问答，包括以下模块：

输入判断模块，用于获取用户会话，判断用户会话的内容是否为文本信息；

文本处理模块，用于响应于所述输入判断模块输出的文本信息结果，采用LAC词法分析工具对文本信息进行分词得到待处理文本；

图像处理模块，用于响应于所述输入判断模块输出的图像信息结果，对图像信息进行预处理；

意图理解模块，用于对所述文本处理模块输出的待处理文本采用预设的问题匹配算法与知识库中的问题进行匹配，得到目标问题；或将所述图像处理模块输出的处理后的图像信息输入预设的图像分类模型，得到目标类别，将目标类别转换为问题列表，得到用户意图。

根据本发明一实施例，所述意图理解模块包括TF-IDF单元、BERT单元；

所述TF-IDF单元用于对所述文本处理模块输出的待处理文本与知识库中的语料进行相似度计算，输出最相似问题；

所述BERT单元用于在所述TF-IDF单元得到的相似度分数低于匹配阈值的前提下，采用微调后的BERT模型对待处理文本进行文本分类，根据BERT模型的预测数值确定匹配结果，得到目标问题。

根据本发明一实施例，所述意图理解模块还包括图像分类单元，所述图像分类单元用于将所述图像处理模块输出的图像信息输入训练好的VGG16图像分类模型中进行图像类别识别，输出目标类别，将目标类别转换为问题列表，得到用户意图。

一种智能客服意图理解设备，包括：

存储器和处理器，所述存储器中存储有指令，所述存储器和所述处理器通过线路互连；

所述处理器调用所述存储器中的所述指令，实现本发明一实施例中的智能客服意图理解方法。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本发明一实施例中的智能客服意图理解方法。

本发明由于采用以上技术方案，使其与现有技术相比具有以下的优点和积极效果：

本发明一实施例中的智能客服意图理解方法，针对现有的检索式对话系统的智能问答，因其回复类型与内容都由语料库所决定，一旦用户的问话超脱了语料库的范围，对话系统无法准确回答用户的问题，通过先采用TF-IDF算法，该算法计算较快，理解起来也比较简单；但是相较于使用词向量生成句子向量的方法，由于它只考虑词频的因素，没有体现出词汇在文中上下文的地位，因此不能够很好的突出语义信息，会造成相似度结果不理想的情况。因此在此基础上增加BERT分类模型，针对TF-IDF算法相似度分数较低问题进行再次判断，由于该方法只是在TF-IDF算法相似度分数较低时才进行调用，所以其不仅能增加模型的准确率，而且也不会影响整体的计算速度，同时由于目前的客服系统只是针对文本和音频信息而对于用户发送的图像类信息无法识别，但是基于用户行为发现在聊天过程中有大约20％的用户会发送图像，因此为了解决图像无法识别问题引入图像分类模型。上述通过同时利用文本和图像信息能更大程度上理解用户需求，降低人工成本，提高解决问题的时效性。

附图说明

图1为本发明一实施例中的智能客服意图理解方法的流程图；

图2为本发明一实施例中的智能客服意图理解装置框图；

图3为本发明一实施例中的智能客服意图理解设备的示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的一种智能客服意图理解方法、装置、设备及存储介质作进一步详细说明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。

实施例一

实施例中的智能客服意图理解方法，针对现有的检索式对话系统的智能问答，因其回复类型与内容都由语料库所决定，一旦用户的问话超脱了语料库的范围，对话系统无法准确回答用户，以及现有的智能客服无法识别图像信息的问题，提出了一种基于文本和图像信息的智能客服意图理解方法，该方法应用于陪玩业务中的智能客服问答系统，通过同时利用文本和图像信息能更大程度上理解用户需求，降低人工成本，提高解决问题的时效性。

实际应用中，该智能客服意图理解方法应用的智能客服问答系统可以包括接口层、意图理解层、储存层以及数据层。

其中，接口层，即对外提供的所有智能问答相关的接口，主要包括输入接口、传输接口及反馈接口。其中，输入接口用于用户输入文本或图像等询问信息，以使智能问答系统接收并理解用户意图。传输接口用于将用户输入的询问信息传输至意图理解层。而反馈接口用于接收智能客服响应于用户的询问信息给出的解决方案(回答)，并反馈给用户(如以音频的方式播报，或以文字的方式显示)。

意图理解层，包括理解配置、理解核心模型和意图分析，其中理解配置主要包括分词策略配置、同义词设置、索引字段配置、排序策略配置、过滤词配置等基础识别配置项。理解核心模型包括用于文本分析的LAC分词模型、TF-IDF匹配模型、BERT分类模型，及用于图像处理的VGG16模型。其中，LAC分词模型主要用于对文件进行分词和词语重要性标注，以得到待处理文本；TF-IDF匹配模型用于将待处理文本与知识库中的语料进行相似度计算，以得到匹配结果；BERT分类模型用于在TF-IDF匹配模型的相似度计算值均不满足匹配要求的前提下，对待处理文本重新进行分类，计算相似度；VGG16模型用于识别图像类别，并返回该类别对应的问题列表。而意图分析主要提供针对用户输入内容、理解结果的基础分析功能。

另外，增加行业相关词库可以为获取更多的识别词候选，提高智能客服系统理解准确性。

存储层，主要用于索引数据存储。索引数据存储使用实时分布式搜索分析引擎(Elastic Search)存储架构，支持亿级内容吞吐，索引更新达到秒级。

数据层，即原始数据层，包含各类用户数据、日志数据、访问信息等，主要分为结构化数据、半结构化数据和非结构化数据等。

本实施例提供的智能客服意图理解方法主要运行环境为上述智能客服问答系统的意图理解层。

具体的，该智能客服意图理解方法包括以下步骤：

请参看图1，上述智能客服意图理解方法可分为以下几个步骤：

S1：获取客户会话，判断用户输入的是文本信息，还是图像信息。

判断用户输入的是文本信息或者图像信息以方便后期对其进行不同的处理，判断文本或者图像是本领域技术人员常用技术，在此不再详述。

S2：针对用户输入的文本信息，需对文本进行数据清洗、分词和词语重要性标注，以得到待处理文本。

对文本进行数据清洗，主要是将文本与停用词词表进行比对，在停用词表内的词将从文本内去除，达到对文本的清洗的目的。本实施例采用LAC分词工具对文本信息进行分词和词语重要性标注，然后根据重要性权重去除问题中的冗余词以及限定较弱的词，再对剩余分词进行同义词替换得到待处理文本。LAC全称LexicalAnalysis ofChinese，是百度自然语言处理部研发的一款联合的词法分析工具，实现中文分词、词性标注、专名识别等功能。

例如，用户输入“你好，我想问下，怎么申请lol大神资质啊”时采用LexicalAnalysis ofChinese进行分词后得到分词列表“['你好','，','我','想','问','下','，','怎么','申请','lol','大神资质','啊']”以及每个词对应的权重[2,0,1,0,0,0,0,1,2,3,2,0]，然后根据权重过滤小于1的词得到['你好','申请','lol','大神资质']。

S3：采用TF-IDF算法对待处理文本与知识库中的语料进行相似度计算，以得到匹配结果。

本实施例通过查看TF-IDF表进行和知识库的数据进行相似度计算，其中TF-IDF表是将语料库中的所有语料进行分词后计算得到的TF-IDF权重表，而相似度则是将步骤S2处理后的文本和已经经过相同处理的知识库中的所有文本进行余弦计算。

例如：根据得到的['你好','申请','lol','大神资质']词表，查找其对应的TF-IDF表的权重，计算该问题与带匹配问题(如：“lol大神资质申请”经步骤S102处理后得到['lol','大神资质','申请'])的余弦距离，具体计算公式如下：

若匹配问题中的词在待匹配问题中则根据权重表计算出该词在匹配句中的权重及待匹配句中的权重，例如：

和

并根据如下公式计算出相似度：

S4：当步骤S3得到的相似度分数低于匹配阈值时，则采用微调后的BERT模型对待处理文本进行文本分类，根据BERT模型的预测数值确定匹配结果，得到目标问题。

例如：预先设置匹配阈值为0.97，对知识库中的所有数据进行上述相似度计算后，取top5(按相似度从大到小排列，取前5个)，若只有top1大于0.97，则返回一个精准匹配问题，若top5中有多个值大于0.97，则返问题列表；相反若top1的值小于0.97，则将待处理文本输入到已训练好的BERT模型中重新进行判断。若BERT模型得到的最大分值大于0.6，且其分类结果在上述top5中则返回该分值对应的问题；若BERT模型得到的最大分值小于0.6，则返回固定值(如无匹配项)。

对于BERT模型的训练，先对知识库中的文本进行打标，将同类型问题作为一种标签；然后将已标注文本分为训练验证测试集并将训练集输入BERT预训练模型进行微调。如将标注好的文本划分为训练集、验证集和测试集，比例为7:2:1；然后采用BERT模型进行微调。其中，微调(Fine-tune)原理是在已有的数据集上训练一个新的深度学习模型时，一般采取在训练好的模型上进行微调，从而训练出基于客服分类的模型，得到分类结果。

S5：针对用户输入的图像信息，对图像信息进行预处理。

将图像信息进行缩放至预设大小(如224*448)，并进行归一化，将图像的大小处理成与后续的图像分类模型的训练集中的图像大小一致。

S6：将预处理后的图像输入训练好的图像分类模型中确定图像所属类别。

其中，图像分类模型可采用VGG16算法。对于采用VGG16算法的图像分类模型，可冻结其前10层，使用本实施例中的场景数据进行微调得到。通常VGG16算法的网络由13个卷积层和3个全连接层组成，卷积层和全连接层的激活函数都使用relu。

在对上述图像分类模型进行训练时，可获取用户输入的历史图像信息，对常被用户提问的图像进行打标。若用户常用的图像数量较少(不足以支撑模型的训练)时，可对这些图像进行数据增强操作，如对打标后的图像进行翻转、旋转、裁剪、变形及缩放多种数据增强操作，得到大量的图像样本，用以对图像分类模型进行训练。

如将图像样本集以7:2:1的比例划分为训练集、验证集和测试集，对图像分类模型进行训练，得到训练好的满足准确度要求的图像分类模型。

将预处理后的图像输入训练好的图像分类模型中确定图像所属类别，根据图像所属类别，返回相应的问题列表，得到用户意图。智能客服问答系统正确匹配到问题后，经过重复项过滤，为用户推荐解决方案。

本实施例提供的智能客服意图理解方法，针对现有的检索式对话系统的智能问答，因其回复类型与内容都由语料库所决定，一旦用户的问话超出了语料库的范围，对话系统无法准确回答用户的问题，通过先采用TF-IDF算法，该算法计算较快，理解起来也比较简单；但是相较于使用词向量生成句子向量的方法，由于它只考虑词频的因素，没有体现出词汇在文中上下文的地位，因此不能够很好的突出语义信息，会造成相似度结果不理想的情况。因此在此基础上增加BERT分类模型，针对TF-IDF算法相似度分数较低问题进行再次判断，由于该方法只是在TF-IDF算法相似度分数较低时才进行调用，所以其不仅能增加模型的准确率，而且也不会影响整体的计算速度，同时由于目前的客服系统只是针对文本和音频信息而对于用户发送的图像类信息无法识别，但是基于用户行为发现在聊天过程中有大约20％的用户会发送图像，因此为了解决图像无法识别问题引入图像分类模型。上述通过同时利用文本和图像信息能更大程度上理解用户需求，降低人工成本，提高解决问题的时效性。

实施例二

本实施例提供一种智能客服意图理解装置，基于文本和图像信息，应用于陪玩业务中的智能客服问答。请参看图2，该智能客服意图理解装置包括以下模块：

输入判断模块1，用于获取用户会话，判断用户会话的内容是否为文本信息；

文本处理模块2，用于响应于所述输入判断模块输出的文本信息结果，采用LAC词法分析工具对文本信息进行分词得到待处理文本；

图像处理模块3，用于响应于所述输入判断模块输出的图像信息结果，对图像信息进行预处理；

意图理解模块4，用于对所述文本处理模块输出的待处理文本采用预设的问题匹配算法与知识库中的问题进行匹配，得到目标问题；或将所述图像处理模块输出的处理后的图像信息输入预设的图像分类模型，得到目标类别，将目标类别转换为问题列表，得到用户意图。

其中，意图理解模块包括TF-IDF单元、BERT单元及图像分类单元。TF-IDF单元用于对所述文本处理模块输出的待处理文本与知识库中的语料进行相似度计算，输出最相似问题。BERT单元用于在所述TF-IDF单元得到的相似度分数低于匹配阈值的前提下，采用微调后的BERT模型对待处理文本进行文本分类，根据BERT模型的预测数值确定匹配结果，得到目标问题。图像分类单元用于将所述图像处理模块输出的图像信息输入训练好的VGG16图像分类模型中进行图像类别识别，输出目标类别，将目标类别转换为问题列表，得到用户意图。

上述输入判断模块1、文本处理模块2、图像处理模块3及意图理解模块4的功能及实现方法均如上述实施例一中所述，在此不再赘述。

实施例三

本实施例提供了一种智能客服意图理解设备。请参看图3，该智能客服意图理解设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对智能客服意图理解设备500中的一系列指令操作。

进一步地，处理器510可以设置为与存储介质530通信，在智能客服意图理解设备500上执行存储介质530中的一系列指令操作。

智能客服意图理解设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve、Vista等等。

本领域技术人员可以理解，图3示出的智能客服意图理解设备结构并不构成对智能客服意图理解设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质。该计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得计算机执行实施例一中的智能客服意图理解方法的步骤。

实施例二中的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件的形式体现出来，该计算机软件存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-only memory，ROM)、随机存取存储器(Random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置及设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式。即使对本发明作出各种变化，倘若这些变化属于本发明权利要求及其等同技术的范围之内，则仍落入在本发明的保护范围之中。

Claims

1.一种智能客服意图理解方法，基于文本和图像信息，应用于陪玩业务中的智能客服问答，其特征在于，包括以下步骤：

2.如权利要求1所述的智能客服意图理解方法，其特征在于，所述采用LAC词法分析工具对文本信息进行分词得到待处理文本进一步包括：

3.如权利要求1所述的智能客服意图理解方法，其特征在于，所述对待处理文本采用预设的问题匹配算法与知识库中的问题进行匹配进一步包括：

4.如权利要求1所述的智能客服意图理解方法，其特征在于，所述对图像信息进行预处理后，输入预设的图像分类模型，得到目标类别进一步包括：

5.如权利要求4所述的智能客服意图理解方法，其特征在于，对图像分类模型进行训练进一步包括：

6.一种智能客服意图理解装置，基于文本和图像信息，应用于陪玩业务中的智能客服问答，其特征在于，包括以下模块：

7.如权利要求6所述的智能客服意图理解装置，其特征在于，所述意图理解模块包括TF-IDF单元、BERT单元；

8.如权利要求7所述的智能客服意图理解装置，其特征在于，所述意图理解模块还包括图像分类单元，所述图像分类单元用于将所述图像处理模块输出的图像信息输入训练好的VGG16图像分类模型中进行图像类别识别，输出目标类别，将目标类别转换为问题列表，得到用户意图。

9.一种智能客服意图理解设备，其特征在于，包括：

所述处理器调用所述存储器中的所述指令，实现如权利要求1-5中任意一项所述的智能客服意图理解方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任意一项所述的智能客服意图理解方法。