CN116204635A

CN116204635A - 一种基于企业微信的潜在客户意向级别判别方法及系统

Info

Publication number: CN116204635A
Application number: CN202310101583.6A
Authority: CN
Inventors: 曹怀杰
Original assignee: Jinmao Cloud Technology Service Beijing Co ltd
Current assignee: Jinmao Cloud Technology Service Beijing Co ltd
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-06-02

Abstract

本发明公开了一种基于企业微信的潜在客户意向级别判别方法及系统，获取企业微信会话记录，并进行解密和数据析构处理，结合用户基础信息数据生成目标客户文本数据；将原始目标客户文本进行分词转换成词序列，将词序列转换成词编号序列，其中每个词表中的词都具有唯一编号，并将词编号序列中每个元素转换为词向量形式得到词向量文本序列；将得到的词向量文本序列输入至构建的智能意图识别模型，输出目标客户文本的意图分类概率，获取客户意向等级判别结果；根据得到客户意向等级判别结果结合多维度用户信息，生成目标数据并进行推送。可智能识别潜在客户的购房意向等级；方便企业置业顾问实时掌握客户沟通的工作情况，对高意向客户进行及时跟进。

Description

一种基于企业微信的潜在客户意向级别判别方法及系统

技术领域

本发明涉及计算机技术领域，具体涉及一种基于企业微信的潜在客户意向级别判别方法及系统。

背景技术

客户管理是一个不断加强与客户交流，不断了解客户情况，并不断对产品及服务进行改进和提高的连续的过程，其内涵是企业利用信息技术和互联网技术实现对客户的整合营销，是以客户为核心的企业营销的技术实现和管理实现。

目前，对客户进行管理时，客户资源冗杂，置业顾问无法准确快速的识别客户的购房意向，导致资源的浪费，且客户信息展示维度单一，不方便对客户进行营销管理。随着计算机与因特网的普及，由计算机辅助的沟通方式改变了人际互动的模式。

企业微信是腾讯微信团队打造的企业通讯与办公工具，可帮助企业连接内部、连接生态伙伴、连接消费者。但企业微信官网不提供会话记录查阅功能，并且企业微信会话记录云存储仅保留90天，若员工手机丢失或更换，即无法查询早期的会话记录；此外，有些离职人员在组织架构中被移除，查找离职员工的会话记录将变得相对困难和繁琐。此外，企业微信官方不提供敏感词匹配功能，无法满足一些对回扣、内部消息等违规词汇要求严格的企业在会话审计和员工监管中的要求。企业微信虽然提供了拉取会话记录接口，允许用户将会话记录拉取到本地数据库，但是拉取后的数据处理工作，如数据保存、数据统计和分析的工作，还需要企业自行开发软件来执行，无法实现对企业微信会话记录进行自动意图识别以及准确快速的识别客户的购房意向。

发明内容

为此，本发明提供一种基于企业微信的潜在客户意向级别判别方法及系统，以解决以上技术问题。

为了实现上述目的，本发明提供如下技术方案：

根据本发明实施例的第一方面，提出了一种基于企业微信的潜在客户意向级别判别方法，所述方法包括：

获取企业微信会话记录，并对得到的会话数据进行解密和数据析构处理，结合用户基础信息数据生成目标客户文本数据；

将原始目标客户文本进行分词转换成词序列，将词序列转换成词编号序列，其中每个词表中的词都具有唯一编号，并将词编号序列中每个元素转换为词向量形式得到词向量文本序列；

将得到的词向量文本序列输入至构建的智能意图识别模型，输出目标客户文本的意图分类概率，获取客户意向等级判别结果；

根据得到客户意向等级判别结果结合多维度用户信息，生成目标数据并进行推送。

进一步地，获取企业微信会话记录，具体包括：

通过SDK从企业微信后台来获取企业一段时间内的会话记录，一次拉取调用上限预设条数会话记录，通过分页拉取的方式来依次拉取；NewSdk返回的sdk指针，用seq标识消息的序号，从指定的seq开始拉取消息，再次拉取需要带上上次回包中最大的seq。

进一步地，对得到的会话数据进行解密，具体包括：

首先对每条消息中的加密公钥进行base64反编码得到字符串str1，使用系统中保存的私钥信息对字符串str1进行RSAOKCS1算法解密，从而得到解密的公钥信息；

将消息密文、公钥传入企业微信的SDK解密接口，使用解密的公钥对消息密文进行解密获得消息明文。

进一步地，数据析构处理具体包括：

判断是否需要拉取媒体文件，若需要则通过SDK从企业微信后台拉取媒体数据，对后台返回的媒体数据内容进行解密得到媒体文件内容，所述媒体文件包括文件、语音条、短视频、图片。

进一步地，将原始目标客户文本进行分词转换成词序列，具体包括：

使用jieba分词工具进行分词操作，将目标客户文本转化为目标客户词序列，同时使用nltk工具包对转换后的目标客户词序列进行数据清洗，去除包括标点、姓名、数字的干扰信息。

进一步地，所述智能意图识别模型包括输入层、三组平行设置的组合层、全连接层以及激活层，所述组合层包括依次连接的卷积层、激活层、池化层、Flatter()压平卷积层，最后的激活层采用softmax并输出目标客户文本的意图分类概率。

进一步地，根据得到客户意向等级判别结果结合多维度用户信息，生成目标数据并进行推送，具体包括：

对用户添加对应的包括标签、客户画像、意向等级的多维度信息，推送给置业顾问。

根据本发明实施例的第二方面，提出了一种基于企业微信的潜在客户意向级别判别系统，所述系统包括：

会话获取模块，获取企业微信会话记录，并对得到的会话数据进行解密和数据析构处理，结合用户基础信息数据生成目标客户文本数据；

词向量转换模块，用于将原始目标客户文本进行分词转换成词序列，将词序列转换成词编号序列，其中每个词表中的词都具有唯一编号，并将词编号序列中每个元素转换为词向量形式得到词向量文本序列；

意图识别模块，用于将得到的词向量文本序列输入至构建的智能意图识别模型，输出目标客户文本的意图分类概率，获取客户意向等级判别结果；

目标数据生成模块，用于根据得到客户意向等级判别结果结合多维度用户信息，生成目标数据并进行推送。

根据本发明实施例的第三方面，提出了一种计算机存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种基于企业微信的潜在客户意向级别判别系统执行如上任一项所述的方法。

本发明具有如下优点：

本发明提出的一种基于企业微信的潜在客户意向级别判别方法及系统，获取企业微信会话记录，并对得到的会话数据进行解密和数据析构处理，结合用户基础信息数据生成目标客户文本数据；将原始目标客户文本进行分词转换成词序列，将词序列转换成词编号序列，其中每个词表中的词都具有唯一编号，并将词编号序列中每个元素转换为词向量形式得到词向量文本序列；将得到的词向量文本序列输入至构建的智能意图识别模型，输出目标客户文本的意图分类概率，获取客户意向等级判别结果；根据得到客户意向等级判别结果结合多维度用户信息，生成目标数据并进行推送。及时获取企业微信会话内容，解密析构后按会话人分类入库；通过进行词向量拆分，智能识别潜在客户的购房意向等级；方便企业置业顾问实时掌握客户沟通的工作情况，对高意向客户进行及时跟进。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的一种基于企业微信的潜在客户意向级别判别方法的流程示意图；

图2为本发明实施例提供的一种基于企业微信的潜在客户意向级别判别方法的整体流程图；

图3为本发明实施例提供的一种基于企业微信的潜在客户意向级别判别方法中获取会话存档时序图；

图4为本发明实施例提供的一种基于企业微信的潜在客户意向级别判别方法中n-gram模型示意图；

图5为本发明实施例提供的一种基于企业微信的潜在客户意向级别判别方法中文本预处理流程图；

图6为本发明实施例提供的一种基于企业微信的潜在客户意向级别判别方法中智能意图识别模型示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提出了一种基于企业微信的潜在客户意向级别判别方法，所述方法包括：

S100、获取企业微信会话记录，并对得到的会话数据进行解密和数据析构处理，结合用户基础信息数据生成目标客户文本数据；

S200、将原始目标客户文本进行分词转换成词序列，将词序列转换成词编号序列，其中每个词表中的词都具有唯一编号，并将词编号序列中每个元素转换为词向量形式得到词向量文本序列；

S300、将得到的词向量文本序列输入至构建的智能意图识别模型，输出目标客户文本的意图分类概率，获取客户意向等级判别结果；

S400、根据得到客户意向等级判别结果结合多维度用户信息，生成目标数据并进行推送。

本发明实施例提出的一种基于企业微信的潜在客户意向级别判别方法，用于解决现有技术中只能简单的匹配固定的敏感词，无法对企业微信会话记录进行自动意图识别的问题，并可实现自动识别潜在客户的购房意向等级。如图2所示，具体实施内容如下：

1、使用sdk分页批量拉取企业会话记录

如图3所示，通过sdk来获取公司一段时间内的会话记录。一次拉取调用上限1000条会话记录，可以通过分页拉取的方式来依次拉取。NewSdk返回的sdk指针，用seq标识消息的序号，从指定的seq开始拉取消息，，再次拉取需要带上上次回包中最大的seq。

2、对会话数据进行解密

通过GetChatData获取到会话数据后：

a)需首先对每条消息的encrypt_random_key内容进行base64decode,得到字符串str1.

b)使用publickey_ver指定版本的私钥，使用RSAPKCS1算法对str1进行解密，得到解密内容str2.

c)得到str2与对应消息的encrypt_chat_msg，调用DecryptData接口，即可获得消息明文。

(1)、处理加密后的公钥：首先对消息体中的公钥进行base64反编码，对使用系统中保存的私钥信息进行RSAOKCS1算法解密，从而得到公钥信息；之所以采用这种方案，是因为会话内容是通过配置的公钥进行加密处理后的信息，想得到消息体的实际信息，需要使用公钥进行解密，而消息体中的公钥信息是通过RSA加密算算进行了加密处理的。所以首先需要对公钥信息进行解密操作。

(2)处理消息密文，在上一步完成公钥解密操作后，获取了实际公钥的信息，将消息密文、公钥传入企业微信的SDK解密接口。其中，获取的结果就是解密后的实际明文消息体。

其中encrypt_random_key是使用企业在管理端填写的公钥(使用模值为2048bit的秘钥)，采用RSA加密算法进行加密处理后base64encode的内容，加密内容为企业微信产生。RSA使用PKCS1。

d)将解密数据保存到数据库中；

3、使用工具函数，进行数据的析构等处理

消息类型支持：文本、图片、语音、视频、位置等多种消息类型。判断是否有记录需要拉取媒体文件，需要则根据返回消息体内容进行拉取；其中，媒体文件包括文件、语音条、短视频、图片等，通过from和tolist还原会话记录。

From：消息发送方id。同一企业内容为userid，非相同企业为external_userid。消息如果是机器人发出，也为external_userid。String类型

Tolist：消息接收方列表，可能是多个，同一个企业内容为userid，非相同企业为external_userid。数组，内容为string类型

4、获取基础信息

关联微信生态系统，绑定UnionId，获取用户基础信息数据：微信号、授权手机号、昵称、头像，将用户的基础信息数据与用户互动数据进行合并；

5、意图识别

使用ASR(自动语音识别，AutomaticSpeechRecognition)技术将目标客户音频文件转换为文本。然后利用开源接口，通过回译的方式对上述文本进行扩充以得到更大规模的对话文本数据集作为目标客户文本。

使用jieba分词工具进行分词操作，将目标客户文本转化为目标客户词序列，同时使用nltk工具包，对转换后的目标客户词序列进行数据清洗，去除标点、姓名、数字等干扰信息。

根据目标句子节点与目标词节点之间的连边权值和各目标词节点之间的共现概率构建目标异质文本图。对目标异质文本图进行编码得到目标异质文本矩阵，将目标异质文本矩阵输入基于训练异质文本矩阵创建的客户意图识别模型中，得到目标客户意图。识别目标文本中的目标槽位和目标关键词的方法可以包括序列标注模型、正则匹配、词典匹配和上下文无关文法匹配等。

根据已获取的聊天消息和用户基础信息文件提取待识别语句的第一单词向量；将所述第一单词向量输入至双向长短时记忆网络，得到包含上下文信息的第二单词向量；将第二向量输入至图卷积神经网络，得到包含上下文信息和句法信息的第三单词向量；对词向量进行拼接，确定为所述待识别语句的语义向量表示，基于所述语义向量表示确定所述待识别语句的意图。

可以通过深度学习模型将目标文本表示成一个连续的高维向量，获得目标文本对应的目标文本向量，例如，目标文本“我要买房”通过深度学习模型之后，可以输出一个100维的连续向量[0.11,0.24,0.33，......，0.09]，同时，可以用相同的方法预先将样本库中包含的多个文本也以文本向量的形式展示。

由于文本对应的高维文本向量中包含有文本中各字符或词语之间的逻辑关系，使得文本向量具有一定的语义关联度，从而利用目标文本向量与样本库中的文本向量进行匹配，从文本库中确定与目标文本相似度最高的文本时，不仅仅是根据目标文本和文本中是否包含相同的字符来确定两者的相似度，还考虑到目标文本和文本是否具有相似的语义，使用向量方式代替文本方式进行检索匹配，可以提升语义级召回，提高匹配过程的准确度。

以“我要买房”为待识别语句为例，需要先进行单词向量化，可以使用预训练的嵌入层的词向量将输入单词向量化，确定出每个单词“我”“要”“买”“房”的向量。

将确定出的“我”“要”“买”“房”的向量输入至双向长短时记忆网络中，双向长短时记忆网络会学习单词的上下文信息，将双向长短时记忆网络学习到的单词向量拼接。双向长短时记忆网络的输入是“我”“要”“买”“房”的向量，这个向量可以通过两个方式获取，一是自己根据搜集的语料，如百度百科等，自己训练单词的向量；二是调用已经训练好的单词向量，即预训练词向量。因此，经过双向长短时记忆网络，能同时学习每个输入单词周围单词的语义信息。

“我要买房”可以看成一个时序的序列，前后出现的词都符合语法规定，如“我”后面会不会直接接上“买房”等，而双向长短时记忆网络就是用于学习这样的语义信息，也就是用周围单词的语义信息来补充当前单词的语义信息，如“户型”这个单词，其实在不同场景下代表不同的意思，“我要贷款”里指的是支付环己，“我要看样板间”里指的是了解信息，因此我们可以用周围词的信息来补充“样板间”的语义信息，即用周围词的信息判断句中的“样板间”是了解信息、贷款还是其他东西。

所谓词向量方式就是通过神经网络来训练语言模型，并在训练过程钟生成一组向量，这组向量将每个词表示为一个n维向量。举个例子，假如我们将"买房"表示为一个2维向量，可能的一种结果如买房＝(1.1,2.2),在这里买房这个词就被表示为一个2维的向量。但是除了将词表示为向量以外，词向量还要保证语义相近的词在词向量表示方法中的空间距离应当是相近的。比如'我要'-'买房'≈'他要'-'看房'。上述条件可在下列词向量分布时满足，'买房'＝(1.1,2.2)，'我要'＝(1.2,2.3)，'看房'＝(1.5,2.4)，'他要'＝(1.6,2.5)。通过三层的神经网络n-gram模型来构建语言模型：

图4中最下方的w_t-n+1,…,w_t-2,w_t-1就是前n-1个词。现在需要根据这已知的n-1个词预测下一个词w_t。C(w)表示词w所对应的词向量，整个模型中使用的是一套唯一的词向量，存在矩阵C(一个|V|\timesm的矩阵)中。其中|V|表示词表的大小(语料中的总词数)，m表示词向量的维度。w到C(w)的转化就是从矩阵中取出一行。

网络的第一层(输入层)是将C(w_t-n+1),…,C(w_t-2),C(w_t-1)这n-1个向量首尾相接拼起来，形成一个(n-1)m维的向量，下面记为x。

网络的第二层(隐藏层)就如同普通的神经网络，直接使用d+Hx计算得到。d是一个偏置项。在此之后，使用tanh作为激活函数。

网络的第三层(输出层)一共有|V|个节点，每个节点y_i表示下一个词为i的未归一化log概率。最后使用softmax激活函数将输出值y归一化成概率。最终y的计算公式为：

y＝b+Wx+U\tanh(d+Hx)

式子中的U(一个|V|\timesh的矩阵)是隐藏层到输出层的参数，整个模型的多数计算集中在U和隐藏层的矩阵乘法中。后文的提到的3个工作，都有对这一环节的简化，提升计算的速度。

式子中还有一个矩阵W(|V|\times(n-1)m)，这个矩阵包含了从输入层到输出层的直连边。直连边就是从输入层直接到输出层的一个线性变换，也是神经网络中的一种常用技巧。如果不需要直连边的话，将W置为0就可以了。直连边虽然不能提升模型效果，但是可以少一半的迭代次数，可以生成更好的词向量。

图5为文本预处理流程图，以'想看看120平方的三居'这一文本为例，介绍了将其转换成词向量为元素的序列表示，最后得到了一个2维矩阵，该矩阵可用于后续神经网络的训练等操作。

图6为智能识别示意图，第一层数据输入层，将文本序列展开成词向量的序列，之后连接卷积层、激活层、池化层，这里的卷积层因为卷积窗口大小不同，平行放置了三个卷积层，垂直方向则放置了三重(卷积层、激活层、池化层的组合)。之后连接全脸阶层和激活层，激活层采用softmax并输出该文本属于某类的概率。

6、生成目标数据

对用户添加对应的标签、生成客户画像、意向等级等，推送给置业顾问，使其实时了解多维度信息，施行有针对性、个性化的运营与营销、从而实现客户价值的最大化。

本发明实施例通过拉取企业微信会话存档数据解密生成后结合用户基础信息生成待处理客户文本数据，通过神经网络模型进行文本预处理，将原始文本分词并转换成以词的序列；将词序列转换成以词编号(每个词表中的词都有唯一编号)为元素的序列；将词的编号序列中的每个元素(某个词)展开为词向量的形式；将文本序列展开成词向量的序列，之后连接卷积层、激活层、池化层，这里的卷积层因为卷积窗口大小不同，平行放置了三个卷积层，垂直方向则放置了三重(卷积层、激活层、池化层的组合)，之后连接全连接层和激活层，激活层采用softmax并输出该文本属于某类的概率，最终智能识别出潜在客户的购房意向等级。方便企业置业顾问实时掌握客户沟通的工作情况，对高意向客户进行及时跟进。

与上述实施例相对应的，本实施例提出了一种基于企业微信的潜在客户意向级别判别系统，所述系统包括：

本发明实施例提供的一种基于企业微信的潜在客户意向级别判别系统中各部件所执行的功能均已在上述实施例中做了详细介绍，因此这里不做过多赘述。

与上述实施例相对应的，本实施例提出了一种计算机存储介质，计算机存储介质中包含一个或多个程序指令，一个或多个程序指令用于被一种基于企业微信的潜在客户意向级别判别系统执行如上实施例的方法。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于企业微信的潜在客户意向级别判别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于企业微信的潜在客户意向级别判别方法，其特征在于，获取企业微信会话记录，具体包括：

3.根据权利要求1所述的一种基于企业微信的潜在客户意向级别判别方法，其特征在于，对得到的会话数据进行解密，具体包括：

4.根据权利要求1所述的一种基于企业微信的潜在客户意向级别判别方法，其特征在于，数据析构处理具体包括：

5.根据权利要求1所述的一种基于企业微信的潜在客户意向级别判别方法，其特征在于，将原始目标客户文本进行分词转换成词序列，具体包括：

6.根据权利要求1所述的一种基于企业微信的潜在客户意向级别判别方法，其特征在于，所述智能意图识别模型包括输入层、三组平行设置的组合层、全连接层以及激活层，所述组合层包括依次连接的卷积层、激活层、池化层、Flatter()压平卷积层，最后的激活层采用softmax并输出目标客户文本的意图分类概率。

7.根据权利要求1所述的一种基于企业微信的潜在客户意向级别判别方法，其特征在于，根据得到客户意向等级判别结果结合多维度用户信息，生成目标数据并进行推送，具体包括：

8.一种基于企业微信的潜在客户意向级别判别系统，其特征在于，所述系统包括：

9.一种计算机存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种基于企业微信的潜在客户意向级别判别系统执行如权利要求1-7任一项所述的方法。