CN110992067B

CN110992067B - 消息推送方法、装置、计算机设备及存储介质

Info

Publication number: CN110992067B
Application number: CN201911283945.8A
Authority: CN
Inventors: 杨春春
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2023-08-08
Anticipated expiration: 2039-12-13
Also published as: CN110992067A

Abstract

本申请实施例属于人工智能领域，涉及一种消息推送方法，包括获取记录有通话内容的语音数据以生成每条语音数据对应的分词组；将两个分词组中的分词汇总并去除重复的分词以形成基准分词组；计算第一分词组中的每个分词的权值，将每个分词对应的权值组合以形成第一分词组向量；计算第二分词组中的每个分词的权值，将每个分词对应的权值组合以形成第二分词组向量；根据第一分词组向量和第二分词组向量进行聚类，根据聚类结果向终端推送消息。本申请还提供一种消息推送装置、计算机设备及存储介质。本申请能够根据语音数据对终端推送相应的消息，从而能够将人工回访时产生的大量语音数据利用起来，提高消息推送的准确率。

Description

消息推送方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及基于人工智能的消息推送方法、装置、计算机设备及存储介质。

背景技术

在业务的服务流程中，通常都会有人工电话回访环节。在这一环节中，工作人员会与意向客户进行电话沟通，并按照给定的话术对客户进行产品介绍或推销，但由于给定的话术总是千篇一律，人工电话回访的针对性不强，且会浪费巨大的人力。另外，随着人工智能技术的兴起，人们希望使用智能技术取代传统的人工坐席。现今，较为常见的做法是将业务相关的消息推送至意向客户的终端以代替人工电话回访。但是，由于缺少客户的意向数据、推送策略不够精准等原因，现有的消息推送方法往往准确率不高。

发明内容

本申请实施例的目的在于提出一种基于人工智能的消息推送方法、装置、计算机设备及存储介质，以解决现有的消息推送方法准确率不高的问题。

为了解决上述技术问题，本申请实施例提供一种基于人工智能的消息推送方法，采用了如下所述的技术方案：

获取记录有通话内容的语音数据，对每条语音数据进行分析以生成每条语音数据对应的分词组；

在每两个分词组之间进行如下处理以获得每两个分词组之间的相似值：

将两个分词组中的分词汇总并去除重复的分词以形成基准分词组，在所述基准分词组中，分词依次顺序排列；

计算第一分词组中的每个分词的权值，将每个分词对应的权值组合以形成第一分词组向量，所述第一分词组向量中的每一个元素与所述基准分词组中的每一个分词存在一一对应的关系，并且每一个元素在所述第一分词组向量中的位置与该元素对应的分词在所述基准分词组中顺序排列的位置相同；

计算第二分词组中的每个分词的权值，将每个分词对应的权值组合以形成第二分词组向量，所述第二分词组向量中的每一个元素与所述基准分词组中的每一个分词存在一一对应的关系，并且每一个元素在所述第二分词组向量中的位置与该元素对应的分词在所述基准分词组中顺序排列的位置相同；

计算所述第一分词组向量与所述第二分词组向量之间的偏离值，以所述偏离值为所述第一分词组和所述第二分词组之间的相似值；

根据分词组间的相似值对分词组进行聚类分析以获得各个聚类组；

根据聚类组中分词组的分词确定每个聚类组的标签；

根据所有聚类组的标签向终端推送消息。

进一步的，所述计算第一分词组中的每个分词的权值包括：

计算所述第一分词组中每个分词的频数，通过以下公式计算：；

其中，为单个分词的频数，/>为所述单个分词在所述第一分词组中出现的次数，T为所述基准分词组包含的分词的总个数；

计算所述第一分词组中每个分词的逆向频数，通过以下公式计算：;

其中，为单个分词的逆向频数，N为分词组的总数量，/>为包含有所述单个分词的分词组的个数；

计算所述第一分词组中每个分词的权值，通过以下公式计算：;

其中，为单个分词的权值，/>为单个分词的频数，/>为单个分词的逆向频数；

进一步的，所述计算第二分词组中的每个分词的权值包括：

计算所述第二分词组中每个分词的频数，通过以下公式计算：;

其中，为单个分词的频数，/>为所述单个分词在所述第一分词组中出现的次数，/>为所述基准分词组包含的分词的总个数；

计算所述第二分词组中每个分词的逆向频数，通过以下公式计算：;

其中，为单个分词的逆向频数，/>为分词组的总数量，/>为包含有所述单个分词的分词组的个数；

根据所述第二分词组中每个分词的频数和逆向频数，计算所述第二分词组中每个分词的权值，通过以下公式计算：;

其中，为单个分词的权值，/>为单个分词的频数，/>为单个分词的逆向频数。

进一步的，在所述计算所述第一分词组向量与所述第二分词组向量之间的偏离值，以所述偏离值为所述第一分词组和所述第二分词组之间的相似值的步骤中，

所述偏离值是所述第一分词组向量和所述第二分词组向量之间的夹角的余弦值或者所述第一分词组向量和所述第二分词组向量之间的欧式距离。

进一步的，所述标签包括一级标签和二级标签，所述一级标签与所述二级标签存在对应关系，一种所述二级标签对应有多种所述一级标签，所述根据聚类组中分词组的分词确定每个聚类组的标签包括：

将聚类组中所有分词组的分词作为所述聚类组的分词以形成聚类分词组；

检测预设的标签词语在聚类分词组中出现的次数，当所述次数满足一级标签条件时，将所述标签词语设置为所述聚类组的一级标签；

在所有的一级标签中，将属于同一种二级标签的一级标签分为一类，并计算每一类中一级标签的个数，当所述个数满足二级标签条件时，将该种二级标签设置为所述聚类组的二级标签。

进一步的，所述消息包括一级消息和二级消息，所述一级消息与所述一级标签对应，所述二级消息与所述二级标签对应，所述根据所有聚类组的标签向终端推送消息包括：

当所述一级标签的个数大于个数阈值时，向终端推送所述一级消息和所述二级消息；

当所述一级标签的个数小于或等于个数阈值时，向终端推送所述一级消息。

进一步的，所述获取记录有通话内容的语音数据包括：

获取记录有通话内容的原始语音数据；

在所述原始语音数据中，提取各段音强大于音强阈值的原始语音数据，并将每一段原始语音数据都作为一条所述语音数据。

为了解决上述技术问题，本申请实施例还提供一种基于人工智能的消息推送装置，采用了如下所述的技术方案：

获取模块，用于获取记录有通话内容的语音数据，对每条语音数据进行分析以生成每条语音数据对应的分词组；

相似值计算模块，用于在每两个分词组之间进行处理以获得每两个分词组之间的相似值，包括：

聚类分析模块，用于根据分词组间的相似值对分词组进行聚类分析以获得各个聚类组；

标签确定模块，用于根据聚类组中分词组的分词确定每个聚类组的标签；

消息推送模块，用于根据所有聚类组的标签向终端推送消息。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项的消息推送方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项的消息推送方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

获取记录有通话内容的语音数据，并对每条语音数据进行分析以生成对应的分词组，然后通过对两个分词组中的分词设置权值以计算每两条语音数据的分词组之间的相似值，根据相似值对所有的分词组进行聚类以获得各个聚类组，并根据聚类组中的分词确定聚类组的标签，最后根据各个聚类组的标签向终端推送消息，这样，能够通过语音数据中的通话内容确定客户的标签，根据客户的标签对终端推送相应的消息，从而能够将人工回访时产生的大量语音数据利用起来，提高消息推送的准确率，解决现有的消息推送方法准确率不高的问题。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的消息推送方法的一个实施例的流程图；

图3是图2中步骤S1的一种具体实施方式的流程图；

图4是图2中步骤S3的一种具体实施方式的流程图；

图5是图2中步骤S4的一种具体实施方式的流程图；

图6是图2中步骤S7的一种具体实施方式的流程图；

图7是图2中步骤S8的一种具体实施方式的流程图；

图8是根据本申请的消息推送装置的一个实施例的结构示意图；

图9是图8所示相似值计算模块一种具体实施方式的结构示意图；

图10是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的消息推送方法一般由服务器/终端设备执行，相应地，消息推送装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

参考图2，示出了根据本申请的消息推送方法的一个实施例的流程图。所述的消息推送方法，包括以下步骤：

S1：获取记录有通话内容的语音数据，对每条语音数据进行分析以生成每条语音数据对应的分词组。

在上述步骤S1中，对每条语音数据进行分析以生成每条语音数据对应的分词组可以通过请求第三方语音转文本的服务来实现，例如，科大讯飞的语音转文本服务。这里，语音数据可以是已经分割好的语音片段。例如，语音片段：“你们公司有健康险吗”为一条语音数据，语音片段：“我的职业是程序员”为一条语音数据。可选地，对每条语音数据进行分析以生成每条语音数据对应的分词组时，还可以识别分词组中的停用词，并将停用词在分词组中删除。停用词是指汉语中“的”、“地”等词语。可以将分词与预设的停用词库或第三方停用词库进行比对以识别分词组中的停用词。

进一步地，如图3所示，当原始的语音数据是一段时间较长的通话语音时，获取记录有通话内容的语音数据可以包括：

S11：获取记录有通话内容的原始语音数据。

在上述步骤S11中，原始语音数据可以是记录有一通回访电话的通话语音。在每通回访电话中，人工坐席通常会与意向客户进行多方面的详细的回访，所以每通回访电话的通话时长通常会较长。

S12：在所述原始语音数据中，提取各段音强大于音强阈值的原始语音数据，并将每一段原始语音数据都作为一条所述语音数据。

在上述步骤S12中，原始语音数据的音强可以通过解析原始语音数据生成音频的波形图来获取。音强阈值可以取值为20分贝，25分贝等。人类说话的声音大多在20分贝以上，所以音强阈值优选为20分贝。在人工坐席与客户对话的间隙，语音的音强都会很低，而在人工坐席或客户说话的时候，语音的音强都会有一定的量级。所以，在原始的通话语音中，音强大于音强阈值的语音片段一般都记录有人工坐席或客户说话的内容，而音强小于音强阈值的语音片段一般都是人工坐席与客户对话的间隙。通过将音强大于音强阈值的各段原始语音数据提取出来能够将原始语音数据划分为多个语音片段，并且每个语音片段中记录有一句话或几句话，并不会记录有太多句话语，这样能够便于后续的处理。

在上述步骤S1之后，在每两个分词组之间进行处理以获得每两个分词组之间的相似值。所述在每两个分词组之间进行处理以获得每两个分词组之间的相似值可以包括下述步骤S2、S3、S4和S5。

S2：将两个分词组中的分词汇总并去除重复的分词以形成基准分词组，在所述基准分词组中，分词依次顺序排列。

在上述步骤S2中，例如，在两个分词组中，第一分词组为“你们”、“公司”、“有”、“健康险”、“吗”，第二分词组为“你们”、“公司”、“健康险”、“怎么样”，即得到的基准分词组为“你们”、“公司”、“有”、“健康险”、“吗”、“怎么样”。这里，将两个分词组中的分词汇总是指在所有的分词组中依次对分词组两组两组地进行汇总，例如，分词组包括1、2、3、4组，则1和2、1和3、1和4、2和3、2和4、3和4均会被作为两个分词组进行汇总。

S3：计算第一分词组中的每个分词的权值，将每个分词对应的权值组合以形成第一分词组向量，所述第一分词组向量中的每一个元素与所述基准分词组中的每一个分词存在一一对应的关系，并且每一个元素在所述第一分词组向量中的位置与该元素对应的分词在所述基准分词组中顺序排列的位置相同。

在上述步骤S3中，在上述步骤S2的例子的基础之上，假设第一分词组中“你们”、“公司”、“有”、“健康险”、“吗”的权值依次设置为0.152、0.126、0.255、0.266、0.356，即形成的第一分词组向量为（0.152，0.126，0.255，0.266，0.356，0）。

进一步地，如图4所示，计算第一分词组中的每个分词的权值可以包括：

S31：计算所述第一分词组中每个分词的频数，通过以下公式计算：；

其中，为单个分词的频数，/>为所述单个分词在所述第一分词组中出现的次数，T为所述基准分词组包含的分词的总个数。

在上述步骤S31中，在上述步骤S2的例子的基础之上，分词“健康险”的为1，T为6，所以/>。

S32：计算所述第一分词组中每个分词的逆向频数，通过以下公式计算：;

其中，为单个分词的逆向频数，N为分词组的总数量，/>为包含有所述单个分词的分词组的个数。

在上述步骤S32中，例如，第一分词组包括有“你们”、“公司”、“有”、“健康险”、“吗”，对语音数据进行分析后生成的分词组的总数量有100个，其中包括分词“健康险”的分词组有10个，所以分词“健康险”的。

S33：根据所述第一分词组中每个分词的频数和逆向频数，计算所述第一分词组中每个分词的权值，通过以下公式计算：；

在上述步骤S33中，在上述步骤S31和步骤S32的例子基础之上，分词“健康险”的权值为0.166*1=0.166。

具体地，与这个词在本分词组中出现的频率呈正相关，这个词在本词组出现的频率越大即表示这个词可能是本词组越重要的词，所以把权值调大。/>与这个词在其他分词组中出现的频率呈负相关。这个词在其他分词组出现的频率越少，越有可能是用于区分本词组和其他分词组的关键词，所以把权值调大。如果这个词在其他分词组出现的频率较多，则这个词可能不是一个区分的关键词，可能是一些常用的词语，比如，代词：“我”、“你”，这种对区分分词组意义不大的词，此时即把权值调小。因此，在分词组中出现频率越高的分词越能体现该分词组与其他分词组的区别，同时在其他分词组中出现频率越少的分词也越能体现该分词组与其他分词组的区别，所以通过上述步骤S31、S32、S33先计算分词的频数和分词的逆向频数，然后将频数与逆向频数相乘以的到分词的权值，这样能够为分词设置合适的权值，从而使两个分词组之间的相似值更加准确。

S4：计算第二分词组中的每个分词的权值，将每个分词对应的权值组合以形成第二分词组向量，所述第二分词组向量中的每一个元素与所述基准分词组中的每一个分词存在一一对应的关系，并且每一个元素在所述第二分词组向量中的位置与该元素对应的分词在所述基准分词组中顺序排列的位置相同。

在上述步骤S4中，在上述步骤S2的例子的基础之上，假设第二分词组中“你们”、“公司”、“健康险”、“怎么样”的权值依次设置为0.152、0.126、0.266、0.4，即形成的第二分词组向量为（0.152，0.126，0，0.266，0,0.4）。

进一步地，如图5所示，计算第二分词组中的每个分词的权值可以包括：

S41：计算所述第二分词组中每个分词的频数，通过以下公式计算：；

其中，为单个分词的频数，/>为所述单个分词在所述第二分词组中出现的次数，/>为所述基准分词组包含的分词的总个数。

在上述步骤S41中，在上述步骤S2的例子的基础之上，分词“健康险”的为1，/>为6，所以/>。

S42：计算所述第二分词组中每个分词的逆向频数，通过以下公式计算：;

其中，为单个分词的逆向频数，/>为分词组的总数量，/>为包含有所述单个分词的分词组的个数。

在上述步骤S42中，例如，第二分词组包括有“你们”、“公司”、“健康险”、“怎么样”，对语音数据进行分析后生成的分词组的总数量有100个，其中包括分词“健康险”的分词组有10个，所以分词“健康险”的。

S43：根据所述第二分词组中每个分词的频数和逆向频数，计算所述第二分词组中每个分词的权值，通过以下公式计算：;

在上述步骤S43中，在上述步骤S41和步骤S42的例子基础之上，分词“健康险”的权值为0.166*1=0.166。

在分词组中出现频率越高的分词越能体现该分词组与其他分词组的区别，同时在其他分词组中出现频率越少的分词也越能体现该分词组与其他分词组的区别，所以通过上述步骤S41、S42、S43先计算分词的频数和分词的逆向频数，然后将频数与逆向频数相乘以的到分词的权值，这样能够为分词设置合适的权值，从而使两个分词组之间的相似值更加准确。

S5：计算所述第一分词组向量与所述第二分词组向量之间的偏离值，以所述偏离值为所述第一分词组和所述第二分词组之间的相似值。

在上述步骤S5中，偏离值可以是第一分词组向量和第二分词组向量之间的夹角的余弦值，也可以是第一分词组向量和第二分词组向量之间的欧式距离。由于不同的语音数据分析得到的分词组中的分词数量不一定相同，导致第一分词组向量和第二分词组向量的维度并不确定，当第一分词组向量和第二分词组向量的维度过多时，若使用欧式距离作为偏离值，其准确度可能会有所下降，所以此时优选使用余弦值作为偏离值。

S6:根据分词组间的相似值对分词组进行聚类分析以获得各个聚类组。

在上述步骤S6中，根据分词组间的相似值对分词组进行聚类分析以获得各个聚类组可以通过以下方式实现：

将所有分词组组成一个原始分组池，对原始分组池中的每个分词组进行如下处理以获得各个聚类组：以所述原始分组池中任意一个分词组为聚类中心，将与所述聚类中心的相似值满足聚类条件的分词组置入所述聚类中心的聚类组中，并将其从所述原始分组池中删除。其中，聚类条件可以是欧式距离小于一定数值或余弦值小于一定数值。

S7:根据聚类组中分词组的分词确定每个聚类组的标签。

进一步地，如图6所示，所述标签包括一级标签和二级标签，所述一级标签与所述二级标签存在对应关系，一种所述二级标签对应有多种所述一级标签，所述根据聚类组中分词组的分词确定每个聚类组的标签可以包括：

S71:将聚类组中所有分词组的分词作为所述聚类组的分词以形成聚类分词组。

在上述步骤S71中，例如，一个聚类组中的分词组包括有分词组：“你们”、“公司”、“有”、“健康险”、“吗”，分词组：“你们”、“公司”、“车险”、“怎么样”，分词组：“你们”、“健康险”、“保额”、“是”、“多少”。即该聚类组的分词包括：“你们”、“公司”、“有”、“健康险”、“吗”、“你们”、“公司”、“车险”、“怎么样”、“你们”、“健康险”、“保额”、“是”、“多少”。

S72:检测预设的标签词语在聚类分词组中出现的次数，当所述次数满足一级标签条件时，将所述标签词语设置为所述聚类组的一级标签。

在上述步骤S72中，预设的标签词语可以是预先设置好的一些敏感词汇，例如：“健康险”、“车险”、“保额”。一级标签条件可以是次数大于或等于一定数值，例如一定数值取值为1，承接上述步骤S71的例子，此时，聚类组中有三个标签词语“健康险”、“车险”、“保额”，其次数分别为2、1、1，所以该聚类组的一级标签有“健康险”、“车险”、“保额”。这里，一级标签条件可以是对所有的标签词语设置统一的一级标签阈值，当标签词语的次数大于该统一的一级标签阈值时，即为满足一级标签条件。

S73:在所有的一级标签中，将属于同一种二级标签的一级标签分为一类，并计算每一类中一级标签的个数，当所述个数满足二级标签条件时，将该种二级标签设置为所述聚类组的二级标签。

在上述步骤S73中，二级标签条件可以是个数大于或等于一定数值，例如一定数值取值为2。举个例子，二级标签包括有“业务类型”和“投资回报”，其中“业务类型”与一级标签“健康险”、“车险”对应，“投资回报”与一级标签“保额”对应，继续承接上述步骤S72的例子，此时，聚类组中一级标签“健康险”、“车险”分为一类，该类的一级标签个数为2，满足条件，所以将对应的二级标签“业务类型”设置为该聚类组的二级标签。而一级标签“保额”分为一类，该类的一级标签个数为1，不满足条件，所以不将对应的二级标签“投资回报”设置为该聚类组的二级标签。这里，二级标签条件可以是对所有的二级标签设置统一的二级标签阈值，当二级标签对应的一级标签的个数大于该统一的二级标签阈值时，即为满足二级标签条件。

S8:根据所有聚类组的标签向终端推送消息。

进一步地，如图7所示，所述消息包括一级消息和二级消息，所述一级消息与所述一级标签对应，所述二级消息与所述二级标签对应，所述根据所有聚类组的标签向终端推送消息可以包括：

S81:当所述一级标签的个数大于个数阈值时，向终端推送所述一级消息和所述二级消息。

在上述步骤S81中，一级消息可以是与一级标签相关的消息，例如，一级标签为“健康险”，则该一级标签对应的一级消息是健康险业务的相关内容和介绍。二级消息可以是在二级标签对应的所有一级标签中，选取出来的推荐系数较高的一级标签有关的消息。选取推荐系数较高的一级标签有关的消息时，可以根据其他终端的推送反馈或者本终端的推荐历史等等。例如，根据其他终端的推荐反馈，当终端的二级标签为“业务类型”时，推荐“商业险”一级标签相关的消息反馈较好，即当二级标签为“业务类型”，向终端推送商业险业务的相关内容和介绍。承接上述步骤S73的例子，若个数阈值取值为2，此时一级标签的个数为3大于2，所以向终端推送一级消息（即健康险、车险和保额的相关内容）和二级消息（即商业险的相关内容和介绍）。

S82:当所述一级标签的个数小于或等于个数阈值时，向终端推送所述一级消息。

在上述步骤S82中，承接上述步骤S73的例子，若个数阈值取值为3，此时一级标签的个数为3等于个数阈值，所以仅向终端推送一级消息（即健康险、车险和保额的相关内容）。

通过上述步骤S71、S72、S73、S81和S82能够在语音数据的量足够大的时候，生成客户的二级标签从而对客户的意向内容进行判断，并根据判断的结果进行相关的消息推荐从而使推荐更加准确。另外，在语音数据的量不够的时候，通过聚类生成的标签往往并不具备很强的代表性，此时不根据判断的结果进行相关的消息推送，从而避免了推送错误的消息，降低推送的准确度。

在本实施例中，获取记录有通话内容的语音数据，并对每条语音数据进行分析以生成对应的分词组，然后通过对两个分词组中的分词设置权值以计算每两条语音数据的分词组之间的相似值，根据相似值对所有的分词组进行聚类以获得各个聚类组，并根据聚类组中的分词确定聚类组的标签，最后根据各个聚类组的标签向终端推送消息，这样，能够通过语音数据中的通话内容确定客户的标签，根据客户的标签对终端推送相应的消息，从而能够将人工回访时产生的大量语音数据利用起来，提高消息推送的准确率，解决现有的消息推送方法准确率不高的问题。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图8，作为对上述图2所示方法的实现，本申请提供了一种消息推送装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例所述的消息推送装置400包括：获取模块401、相似值计算模块402、聚类分析模块403、标签确定模块404以及消息推送模块405。其中：

获取模块401，用于获取记录有通话内容的语音数据，对每条语音数据进行分析以生成每条语音数据对应的分词组。

相似值计算模块402，用于在每两个分词组之间进行处理以获得每两个分词组之间的相似值，包括：

计算所述第一分词组向量与所述第二分词组向量之间的偏离值，以所述偏离值为所述第一分词组和所述第二分词组之间的相似值。

聚类分析模块403，用于根据分词组间的相似值对分词组进行聚类分析以获得各个聚类组。

标签确定模块404，用于根据聚类组中分词组的分词确定每个聚类组的标签。

消息推送模块405，用于根据所有聚类组的标签向终端推送消息。

进一步地，如图9所示，所述相似值计算模块402可以包括：

第一分词组频数计算单元4021，用于计算所述第一分词组中每个分词的频数，通过以下公式计算：；

第一分词组逆向频数计算单元4022，用于计算所述第一分词组中每个分词的逆向频数，通过以下公式计算：;

第一分词组权值计算单元4023，用于根据所述第一分词组中每个分词的频数和逆向频数，计算所述第一分词组中每个分词的权值，通过以下公式计算：；

进一步地，所述相似值计算模块402也可以包括：

第二分词组频数计算单元，用于计算所述第二分词组中每个分词的频数，通过以下公式计算：；

第二分词组逆向频数计算单元，用于计算所述第二分词组中每个分词的逆向频数，通过以下公式计算：;

第二分词组权值计算单元，用于根据所述第二分词组中每个分词的频数和逆向频数，计算所述第二分词组中每个分词的权值，通过以下公式计算：;

进一步地，所述标签包括一级标签和二级标签，所述一级标签与所述二级标签存在对应关系，一种所述二级标签对应有多种所述一级标签，所述标签确定模块404可以包括：

分词聚合单元，用于将聚类组中所有分词组的分词作为所述聚类组的分词以形成聚类分词组。

一级标签确定单元，用于检测预设的标签词语在聚类分词组中出现的次数，当所述次数满足一级标签条件时，将所述标签词语设置为所述聚类组的一级标签。

二级标签确定单元，用于在所有的一级标签中，将属于同一种二级标签的一级标签分为一类，并计算每一类中一级标签的个数，当所述个数满足二级标签条件时，将该种二级标签设置为所述聚类组的二级标签。

进一步地，所述消息包括一级消息和二级消息，所述一级消息与所述一级标签对应，所述二级消息与所述二级标签对应，所述消息推送模块405可以包括：

二级推送单元，用于当所述一级标签的个数大于个数阈值时，向终端推送所述一级消息和所述二级消息。

一级推送单元，用于当所述一级标签的个数小于或等于个数阈值时，向终端推送所述一级消息。

进一步地，所述获取模块401可以包括：

原始获取单元，用于获取记录有通话内容的原始语音数据。

提取单元，用于在所述原始语音数据中，提取各段音强大于音强阈值的原始语音数据，并将每一段原始语音数据都作为一条所述语音数据。

具体地，对于消息推送装置的具体限定与上述消息推送方法的具体限定一致，在此不再一一赘述。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图10，图10为本实施例计算机设备基本结构框图。

所述计算机设备11包括通过系统总线相互通信连接存储器111、处理器112、网络接口113。需要指出的是，图中仅示出了具有组件111-113的计算机设备11，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器111至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器111可以是所述计算机设备11的内部存储单元，例如该计算机设备11的硬盘或内存。在另一些实施例中，所述存储器111也可以是所述计算机设备11的外部存储设备，例如该计算机设备11上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。当然，所述存储器111还可以既包括所述计算机设备11的内部存储单元也包括其外部存储设备。本实施例中，所述存储器111通常用于存储安装于所述计算机设备11的操作系统和各类应用软件，例如消息推送方法的程序代码等。此外，所述存储器111还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器112在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器112通常用于控制所述计算机设备11的总体操作。本实施例中，所述处理器112用于运行所述存储器111中存储的程序代码或者处理数据，例如运行所述消息推送方法的程序代码。

所述网络接口113可包括无线网络接口或有线网络接口，该网络接口113通常用于在所述计算机设备11与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有消息推送程序，所述消息推送程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的消息推送方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于人工智能的消息推送方法，其特征在于，包括下述步骤：

在每两个分词组之间进行处理以获得每两个分词组之间的相似值，包括：

根据聚类组中分词组的分词确定每个聚类组的标签；

根据所有聚类组的标签向终端推送消息；

所述计算第一分词组中的每个分词的权值包括：

计算所述第一分词组中每个分词的频数，通过以下公式计算：;

根据所述第一分词组中每个分词的频数和逆向频数，计算所述第一分词组中每个分词的权值，通过以下公式计算：;

所述计算第二分词组中的每个分词的权值包括：

2.根据权利要求1所述的消息推送方法，其特征在于，在所述计算所述第一分词组向量与所述第二分词组向量之间的偏离值，以所述偏离值为所述第一分词组和所述第二分词组之间的相似值的步骤中，所述偏离值是所述第一分词组向量和所述第二分词组向量之间的夹角的余弦值或者所述第一分词组向量和所述第二分词组向量之间的欧式距离。

3.根据权利要求1所述的消息推送方法，其特征在于，所述标签包括一级标签和二级标签，所述一级标签与所述二级标签存在对应关系，一种所述二级标签对应有多种所述一级标签，所述根据聚类组中分词组的分词确定每个聚类组的标签包括：

4.根据权利要求3所述的消息推送方法，其特征在于，所述消息包括一级消息和二级消息，所述一级消息与所述一级标签对应，所述二级消息与所述二级标签对应，所述根据所有聚类组的标签向终端推送消息包括：

5.根据权利要求1-4任意一项所述的消息推送方法，其特征在于，所述获取记录有通话内容的语音数据包括：

获取记录有通话内容的原始语音数据；

6.一种基于人工智能的消息推送装置，其特征在于，包括：

消息推送模块，用于根据所有聚类组的标签向终端推送消息；

所述计算第一分词组中的每个分词的权值包括：

所述计算第二分词组中的每个分词的权值包括：

7.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的消息推送方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的消息推送方法的步骤。