CN112287076B

CN112287076B - 一种基于用户聊天记录的标签挖掘方法及设备

Info

Publication number: CN112287076B
Application number: CN202011556453.4A
Authority: CN
Inventors: 王清琛; 张蹲; 孟凡华; 茆传羽; 杜振东; 程云; 张洪磊
Original assignee: Nanjing Yunwen Network Technology Co ltd
Current assignee: Nanjing Yunwen Network Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-02
Anticipated expiration: 2040-12-25
Also published as: CN112287076A

Abstract

本发明公开了一种基于用户聊天记录的标签挖掘方法及设备。该方法包括对通过语音助手与用户闲聊生成的聊天数据进行预处理，基于标签抽取模型和统计方法从预处理后的聊天数据中抽取用户标签，基于关系发现模型挖掘相似度在设定阈值以上的所有标签。本发明借助神经网络的机器学习方法，使得模型可根据语义选择合适的标签，标签效果好；当系统运行一段时间后会积累更多的用户聊天数据，可以再次进行标注训练来达到更好的效果，可支持进一步优化；本发明在经过前期人工标注后，后期可以自动化抽取标签，节省了大量的人力，提升效率。

Description

一种基于用户聊天记录的标签挖掘方法及设备

技术领域

本发明涉及语音助手技术领域，具体涉及一种基于用户聊天记录的标签挖掘方法及设备。

背景技术

在智能语音助手场景中，为了更好的为用户提供服务，通常需要对用户构建画像、打标签，然后基于这些标签对用户做推荐服务。

个性化推荐在与用户交互的整个过程中。一方面可以针对用户的岗位特征等推荐一些知识或业务信息，比如与之相关的新政策等等，同时也可以针对用户的个人喜好进行相关话题的讨论，谈论一些喜欢吃什么，爱看什么电影等等。成为一个人性化十足的语音助手，渗透到用户的工作生活中的各个角落，提高用户粘性。

当前情况下，构建用户画像需要用户手工填写信息。或者通过系统平台获取一定的订单行为等信息。

但是在实际使用情况中，大量的信息采集对于用户来说是一种负担，严重降低了用户体验，此外，用户订单、操作等信息等出于隐私保护的原因不易获取，或者因数据的稀疏性做不到良好的推荐服务。

发明内容

本发明的目的是针对现有技术存在的不足，提供一种基于用户聊天记录的标签挖掘方法及设备。

为实现上述目的，在第一方面，本发明提供了一种基于用户聊天记录的标签挖掘方法，包括：

步骤1：对通过语音助手与用户闲聊生成的聊天数据进行预处理；

步骤2：基于标签抽取模型和统计方法从预处理后的聊天数据中抽取用户标签；

所述标签抽取模型通过以下步骤生成：

步骤201：选取一批聊天数据，标注聊天记录中每句话的用户标签；

步骤202：根据标注数据训练神经网络模型；

步骤203：对于步骤202中训练好的模型计算用户标签抽取准确率，计算公式如下：

当标签抽取准确率大于设定阈值时，即获得标签抽取模型；

步骤3：基于关系发现模型挖掘相似度在设定阈值以上的所有标签；

具体包括以下步骤：

步骤301 ：根据标签向量模型获取用户标签的向量；

步骤302 ：获取用户标签中的每个字，用于后续相似度计算；

步骤303：根据用户标签向量，计算任意两个用户标签之间的余弦夹角；根据用户标签中的字信息，计算两个用户标签的集合相似度值；

步骤304 ：对于两个用户标签的余弦夹角和集合相似度值取平均作为最终相似度值。

进一步的，所述每句话的用户标签包括在该句话中的每个字以及每个字的类别，所述每个字的类别的标注规则如下：

如该字是用户标签的开始，则这个字的类别记为B；

如该字是用户标签的结束，则这个字的类别记为E；

如该字在用户标签的中间，则这个字的类别记为I；

如该字不在用户标签中，则这个字的类别记为O。

进一步的，所述步骤202具体包括：

通过以下公式将标注聊天数据中的每一句话转化为矩阵形式：

（1）

其中，

是闲聊语句中的第i个字，

为向量维度，

为1行n列的实数矩阵，通过

函数将闲聊语句中的字映射成字向量，闲聊语句中每个字都会被映射为字向量，神经网络中会提前预存所有字向量，字向量可以从公开数据中获取；

（2）

其中，m是句子中字的个数，

为m行n列的实数矩阵，通过公式2可将所有字向量拼接起来；

（3）

其中，W1，b1是神经网络中的参数，

为n行n列的实数矩阵，

为1行n列的实数矩阵；

(4)

其中，

是神经网络中的参数，

为n行4列的实数矩阵，

为1行2列的实数矩阵，

是归一化函数，用于把向量中的值映射为0-1之间的小数，

公式如下：

（5）

其中，

的意思是向量s中的第i个值，

是s中所有值的求和，通过公式4获得的

是一个4维向量，其数值分别代表了每个字属于各个用户标签的概率。

进一步的，所述从预处理后的聊天数据中抽取用户标签包括：

步骤211：基于标签抽取模型抽取用户标签；

步骤212：使用公开的分词工具对聊天记录进行分词，然后选取出现次数在设定阈值以上的名词作为用户标签；

步骤213 ：将步骤211和步骤212抽取的用户标签合并，然后计算每个用户标签的得分，最后根据得分排序，选取得分高的若干作为用户标签，计算每个用户标签的得分的方式如下：

其中，

是该标签在聊天记录中出现的次数，

是聊天记录总字数，

是该标签在通用语料库中出现的次数，

是通用语料库总字数。

进一步的，所述预处理包括依次进行的统一编码、简繁转换和移除无效字符。

在第二方面，本发明提供了一种基于用户聊天记录的标签挖掘设备，包括：

预处理模块，用以对通过语音助手与用户闲聊生成的聊天数据进行预处理；

标签抽取模块，用以基于标签抽取模型和统计方法从预处理后的聊天数据中抽取用户标签；

所述标签抽取模型通过以下方式生成：

选取一批聊天数据，标注聊天记录中每句话的用户标签；

根据标注数据训练神经网络模型；

对训练好的模型计算用户标签抽取准确率，计算公式如下：

当标签抽取准确率大于设定阈值时，即获得标签抽取模型；

标签挖掘模块，用以基于关系发现模型挖掘相似度在设定阈值以上的所有标签；

具体包括：

根据标签向量模型获取用户标签的向量；

获取用户标签中的每个字，用于后续相似度计算；

根据用户标签向量，计算任意两个用户标签之间的余弦夹角；根据用户标签中的字信息，计算两个用户标签的集合相似度值；

对于两个用户标签的余弦夹角和集合相似度值取平均作为最终相似度值。

如该字是用户标签的开始，则这个字的类别记为B；

如该字是用户标签的结束，则这个字的类别记为E；

如该字在用户标签的中间，则这个字的类别记为I；

如该字不在用户标签中，则这个字的类别记为O。

进一步的，所述根据标注数据训练神经网络模型具体包括：

（1）

其中，

是闲聊语句中的第i个字，

为向量维度，

为1行n列的实数矩阵，通过

（2）

其中，m是句子中字的个数，

为m行n列的实数矩阵，通过公式2可将所有字向量拼接起来；

（3）

其中，W1，b1是神经网络中的参数，

为n行n列的实数矩阵，

为1行n列的实数矩阵；

(4)

其中，

是神经网络中的参数，

为n行4列的实数矩阵，

为1行2列的实数矩阵，

是归一化函数，用于把向量中的值映射为0-1之间的小数，

公式如下：

（5）

其中，

的意思是向量s中的第i个值，

是s中所有值的求和，通过公式4获得的

基于标签抽取模型抽取用户标签；

使用公开的分词工具对聊天记录进行分词，然后选取出现次数在设定阈值以上的名词作为用户标签；

将以上两种方式抽取的用户标签合并，然后计算每个用户标签的得分，最后根据得分排序，选取得分高的若干作为用户标签，计算每个用户标签的得分的方式如下：

其中，

是该标签在聊天记录中出现的次数，

是聊天记录总字数，

是该标签在通用语料库中出现的次数，

是通用语料库总字数。

有益效果：1、本发明借助神经网络的机器学习方法，使得模型可根据语义选择合适的标签，标签效果好。

2、当系统运行一段时间后会积累更多的用户聊天数据，可以再次进行标注训练来达到更好的效果，可支持进一步优化。

3、本发明在经过前期人工标注后，后期可以自动化抽取标签，节省了大量的人力，提升效率。

附图说明

图1是本发明实施例的基于用户聊天记录的标签挖掘方法的示意图；

图2是本发明实施例的基于用户聊天记录的标签挖掘设备的示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，本实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

如图1所示，本发明实施例提供了一种基于用户聊天记录的标签挖掘方法，包括：

步骤1：对通过语音助手与用户闲聊生成的聊天数据进行预处理。预处理可清洗用户问题，避免数据噪音对准确性的影响。预处理具体包括依次进行的统一编码、简繁转换和移除无效字符。统一后的编码优选为UTF8编码。简繁转换后即统一转换为简体。移除无关语义的词，比如汉字“的”，“了”以及无意义符号等，具体做法：首先准备无效词表，无效词表使用网络公开的词表，然后根据使用场景可以选择添加或删除，然后检测用户闲聊记录中是否包含无效字符，凡是用户问题里的词出现在无效字符库中就将该词移除掉，最终会得到不包含停用词的用户闲聊记录。

步骤2：基于标签抽取模型和统计方法从预处理后的聊天数据中抽取用户标签。

标签抽取模型通过以下步骤生成：

步骤201：数据标注。选取一批聊天数据，标注聊天记录中每句话的标签。具体的，每句话的用户标签包括在该句话中的每个字以及每个字的类别，每个字的类别的标注规则如下：

1）如果这个字是用户标签的开始，则这个字的类别记为B。

2）如果这个字是用户标签的结束，则这个字的类别记为E。

3）如果这个字在用户标签的中间，则这个字的类别记为I。

4）如果这个字不在用户标签中，则这个字的类别记为O。

以“我喜欢吃四川菜”这句话为例，“四川菜”是用户标签，则标注结果是“我/O喜/O欢/O吃/O四/B川/I菜/E”。

步骤202：根据标注数据训练神经网络模型。

具体包括：

首先，通过以下公式将标注聊天数据中的每一句话转化为矩阵形式：

（1）

其中，

是闲聊语句中的第i个字，

为向量维度，

为1行n列的实数矩阵，通过

（2）

其中，m是句子中字的个数，

为m行n列的实数矩阵，通过公式2可将所有字向量拼接起来；

（3）

其中，W1，b1是神经网络中的参数，

为n行n列的实数矩阵，

为1行n列的实数矩阵；

(4)

其中，

是神经网络中的参数，

为n行4列的实数矩阵，

为1行2列的实数矩阵，

是归一化函数，用于把向量中的值映射为0-1之间的小数，

公式如下：

（5）

其中，

的意思是向量s中的第i个值，

是s中所有值的求和，通过公式4获得的

是一个4维向量，其数值分别代表了每个字属于各个用户标签（B、I、O、E）的概率。预测概率最大的类别就会是最终类别。最后可以根据每个字的类别确定用户标签，比如“四川菜”三个字的类别分别是BIE，则四川菜就是用户标签。

通常情况下我们把这一组数字称为向量，数字的个数就是向量的维度。把每个值转化为概率的方法就是用每个值除以这一组数字的总和。假设某个字BIOE标签四个得分分别是 [1, 2, 3, 4]，那么把分值"1"转化为概率的公式就是 1/(1+2+3+4)。分值“2”转化为概率的公式就是2/(1+2+3+4) 。

在训练模型时，根据预测概率和真实标签，通过梯度下降方法就可以对模型参数进行更新，从而获取最好的参数(参数即上述公式中的W1，W2和词向量等)。梯度下降方法是更新神经网络参数的常用方法，就不再赘述。

从预处理后的聊天数据中抽取用户标签包括：

步骤211：基于标签抽取模型抽取用户标签；

其中，

是该标签在聊天记录中出现的次数，

是聊天记录总字数，

是该标签在通用语料库中出现的次数，

是通用语料库总字数。

当标签抽取准确率大于设定阈值时，即获得标签抽取模型，就可以投入使用了。一般情况下，此处的设定阈值可设定为85%至90%以上，可以根据应用场景需要进行调整。

步骤3：基于关系发现模型挖掘相似度在设定阈值以上的所有标签。

具体包括以下步骤：

步骤301 ：标签向量表征。根据训练好的标签向量模型获取用户标签的向量。

步骤302 ：统计特征。获取用户标签中的每个字，用于后续相似度计算。

步骤303：相似度计算。根据用户标签向量，计算任意两个用户标签之间的余弦夹角；根据用户标签中的字信息，计算两个用户标签的集合相似度值。需要说明的是，余弦夹角和集合相似度值为已有指标，这里不再赘述。

步骤304 ：相似度合并。对于两个用户标签的余弦夹角和集合相似度值取平均作为最终相似度值。一些用户标签存在一定的关联性，比如“四川菜”和“川菜”，“足球”和“篮球”，计算标签之间的相似度可以为用户推荐更多的标签。

如图2所示，基于以上实施例，本领域技术人员可以理解，本发明还提供了一种基于用户聊天记录的标签挖掘设备，包括预处理模块1、标签抽取模块2和标签挖掘模块3。

其中，预处理模块1用以对通过语音助手与用户闲聊生成的聊天数据进行预处理。预处理可清洗用户问题，避免数据噪音对准确性的影响。预处理具体包括依次进行的统一编码、简繁转换和移除无效字符。统一后的编码优选为UTF8编码。简繁转换后即统一转换为简体。移除无关语义的词，比如汉字“的”，“了”以及无意义符号等，具体做法：首先准备无效词表，无效词表使用网络公开的词表，然后根据使用场景可以选择添加或删除，然后检测用户闲聊记录中是否包含无效字符，凡是用户问题里的词出现在无效字符库中就将该词移除掉，最终会得到不包含停用词的用户闲聊记录。

标签抽取模块2用以基于标签抽取模型和统计方法从预处理后的聊天数据中抽取用户标签。

具体的，标签抽取模型通过以下方式生成：

数据标注，选取一批聊天数据，标注聊天记录中每句话的标签。具体的，每句话的用户标签包括在该句话中的每个字以及每个字的类别，每个字的类别的标注规则如下：

1）如果这个字是用户标签的开始，则这个字的类别记为B。

2）如果这个字是用户标签的结束，则这个字的类别记为E。

3）如果这个字在用户标签的中间，则这个字的类别记为I。

4）如果这个字不在用户标签中，则这个字的类别记为O。

根据标注数据训练神经网络模型。

具体包括：

（1）

其中，

是闲聊语句中的第i个字，

为向量维度，

为1行n列的实数矩阵，通过

（2）

其中，m是句子中字的个数，

为m行n列的实数矩阵，通过公式2可将所有字向量拼接起来；

（3）

其中，W1，b1是神经网络中的参数，

为n行n列的实数矩阵，

为1行n列的实数矩阵；

(4)

其中，

是神经网络中的参数，

为n行4列的实数矩阵，

为1行2列的实数矩阵，

是归一化函数，用于把向量中的值映射为0-1之间的小数，

公式如下：

（5）

其中，

的意思是向量s中的第i个值，

是s中所有值的求和，通过公式4获得的

从预处理后的聊天数据中抽取用户标签包括：

基于标签抽取模型抽取用户标签；

其中，

是该标签在聊天记录中出现的次数，

是聊天记录总字数，

是该标签在通用语料库中出现的次数，

是通用语料库总字数。

对训练好的模型计算用户标签抽取准确率，计算公式如下：

标签挖掘模块3用以基于关系发现模型挖掘相似度在设定阈值以上的所有标签。

具体包括：

标签向量表征。根据训练好的标签向量模型获取用户标签的向量。

统计特征。获取用户标签中的每个字，用于后续相似度计算。

相似度计算。根据用户标签向量，计算任意两个用户标签之间的余弦夹角；根据用户标签中的字信息，计算两个用户标签的集合相似度值。需要说明的是，余弦夹角和集合相似度值为已有指标，这里不再赘述。

相似度合并。对于两个用户标签的余弦夹角和集合相似度值取平均作为最终相似度值。一些用户标签存在一定的关联性，比如“四川菜”和“川菜”，“足球”和“篮球”，计算标签之间的相似度可以为用户推荐更多的标签。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，其它未具体描述的部分，属于现有技术或公知常识。在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于用户聊天记录的标签挖掘方法，其特征在于，包括：

所述标签抽取模型通过以下步骤生成：

步骤202：根据标注数据训练神经网络模型；

当标签抽取准确率大于设定阈值时，即模型性能符合要求，可以投入使用；

具体包括以下步骤：

步骤301 ：根据标签向量模型获取用户标签的向量；

步骤302 ：获取用户标签中的每个字，用于后续相似度计算；

步骤304 ：对于两个用户标签的余弦夹角和集合相似度值取平均作为最终相似度值；

所述步骤202具体包括：

（1）

其中，

是闲聊语句中的第i个字，

为向量维度，

为1行n列的实数矩阵，通过

（2）

其中，m是句子中字的个数，

为m行n列的实数矩阵，通过公式2可将所有字向量拼接起来；

（3）

其中，W1，b1是神经网络中的参数，

为n行n列的实数矩阵，

为1行n列的实数矩阵；

(4)

其中，

是神经网络中的参数，

为n行4列的实数矩阵，

为1行2列的实数矩阵，

是归一化函数，用于把向量中的值映射为0-1之间的小数，

公式如下：

（5）

其中，

的意思是向量s中的第i个值，

是s中所有值的求和，通过公式4获得的

2.根据权利要求1所述的基于用户聊天记录的标签挖掘方法，其特征在于，所述每句话的用户标签包括在该句话中的每个字以及每个字的类别，所述每个字的类别的标注规则如下：

如该字是用户标签的开始，则这个字的类别记为B；

如该字是用户标签的结束，则这个字的类别记为E；

如该字在用户标签的中间，则这个字的类别记为I；

如该字不在用户标签中，则这个字的类别记为O。

3.根据权利要求1所述的基于用户聊天记录的标签挖掘方法，其特征在于，所述从预处理后的聊天数据中抽取用户标签包括：

步骤211：基于标签抽取模型抽取用户标签；

其中，

是该标签在聊天记录中出现的次数，

是聊天记录总字数，

是该标签在通用语料库中出现的次数，

是通用语料库总字数。

4.根据权利要求1所述的基于用户聊天记录的标签挖掘方法，其特征在于，所述预处理包括依次进行的统一编码、简繁转换和移除无效字符。

5.一种基于用户聊天记录的标签挖掘设备，其特征在于，包括：

所述标签抽取模型通过以下方式生成：

选取一批聊天数据，标注聊天记录中每句话的用户标签；

根据标注数据训练神经网络模型；

对训练好的模型计算用户标签抽取准确率，计算公式如下：

当标签抽取准确率大于设定阈值时，即获得标签抽取模型；

具体包括：

根据标签向量模型获取用户标签的向量；

获取用户标签中的每个字，用于后续相似度计算；

对于两个用户标签的余弦夹角和集合相似度值取平均作为最终相似度值；

所述根据标注数据训练神经网络模型具体包括：

（1）

其中，

是闲聊语句中的第i个字，

为向量维度，

为1行n列的实数矩阵，通过

（2）

其中，m是句子中字的个数，

为m行n列的实数矩阵，通过公式2可将所有字向量拼接起来；

（3）

其中，W1，b1是神经网络中的参数，

为n行n列的实数矩阵，

为1行n列的实数矩阵；

(4)

其中，

是神经网络中的参数，

为n行4列的实数矩阵，

为1行2列的实数矩阵，

是归一化函数，用于把向量中的值映射为0-1之间的小数，

公式如下：

（5）

其中，

的意思是向量s中的第i个值，

是s中所有值的求和，通过公式4获得的

6.根据权利要求5所述的基于用户聊天记录的标签挖掘设备，其特征在于，所述每句话的用户标签包括在该句话中的每个字以及每个字的类别，所述每个字的类别的标注规则如下：

如该字是用户标签的开始，则这个字的类别记为B；

如该字是用户标签的结束，则这个字的类别记为E；

如该字在用户标签的中间，则这个字的类别记为I；

如该字不在用户标签中，则这个字的类别记为O。

7.根据权利要求5所述的基于用户聊天记录的标签挖掘设备，其特征在于，所述从预处理后的聊天数据中抽取用户标签包括：

基于标签抽取模型抽取用户标签；

其中，

是该标签在聊天记录中出现的次数，

是聊天记录总字数，

是该标签在通用语料库中出现的次数，

是通用语料库总字数。

8.根据权利要求5所述的基于用户聊天记录的标签挖掘设备，其特征在于，所述预处理包括依次进行的统一编码、简繁转换和移除无效字符。