CN107066450B

CN107066450B - 一种基于学习的即时通信会话切分方法

Info

Publication number: CN107066450B
Application number: CN201710391483.6A
Authority: CN
Inventors: 唐积强; 马秀娟; 李传海; 毛洪亮; 吴震; 李焱余; 苏沐冉; 王秀文; 徐小磊; 张露晨; 王海平; 王峰
Original assignee: Beijing Scistor Technologies Co ltd; National Computer Network and Information Security Management Center
Current assignee: Beijing Scistor Technologies Co ltd; National Computer Network and Information Security Management Center
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2020-04-10
Anticipated expiration: 2037-05-27
Also published as: CN107066450A

Abstract

本发明公开了一种基于学习的即时通信会话切分技术与方法，属于大数据分析领域；将即时通信会话用户两两划分为一组，并将每组的会话话单明细进行分类和基于时间排序；会话切分为：依次选取相邻两条话单R1和R2，计算时间间隔Δt，文本内容相似度Δsim和距离值F(R1,R2)；如果F(R1,R2)<f，则话单R1和R2同属于一个会话；否则，话单R1和R2分别属于两个不同的会话；通过spark并行对所有用户组以及每个用户组的所有类话单明细数据分别同时操作，最终将所有即时通信的用户所有的会话进行切分。本发明综合考虑了会话时间距离影响因子和会话文本内容距离影响因子，实现了不同会话用户组差异化的会话切分标准，有效解决了大数据背景下海量即时通信文本会话切分的准确性和高效性问题。

Description

一种基于学习的即时通信会话切分方法

技术领域

本发明属于大数据分析领域，涉及一种基于学习的即时通信会话切分方法。

背景技术

随着大数据技术的成熟与普及，越来越多的企业和相关机构尝试基于用户的各种数据进行用户分析，例如基于用户的即时通信数据分析用户每个会话时所讨论的主题，再基于用户历史会话主题对用户进行分析和标签化。通常情况下，数据分析人员所面对的是即时通信双方的历史会话话单明细数据，这些明细数据并没有明确标识出其所属的会话，因此，如何基于已有的即时通信话单明细数据进行会话切分，对分析用户会话内容主题，进而对用户进行分析，具有至关重要的作用。

即时通信会话切分具有以下特点和挑战：(1)即时通信文本一般情况下属于超短文本，因此很难基于会话文本内容，单纯使用文本分类聚类技术实现高效准确地即时通信文本切分；(2)即时通信会话具有时效性，一般来说，即时通信双方在某个连续时间段内的通信主题相同，因此可以通过考虑即时通信时间来协助完成会话切分；(3)由于性格、习惯、身份等特征，不同的即时通信会话回复的时间间隔不同，即便是相同的通信用户组，也可能由于客观导致某个会话参与者的回复时间间隔异于平常，因此不能简单地基于某个固定的时间间隔阈值来进行会话切分。

发明内容

本发明提供了一种基于学习的即时通信会话切分方法，用于实现对海量及时通信明细数据进行会话切分，为会话主题分析、基于会话内容的用户分析提供数据支持。

具体步骤如下：

步骤一、针对所有的即时通信会话用户，按照每两个用户之间的通信联系，将该两个用户划分为一组；

步骤二、针对某通信会话用户组，将原始会话话单明细数据进行记录并分类；

话单明细数据R＝(RS,RR,T,C)；

RS表示会话发起者(Record Sender)，RR表示通信会话接收者(Record Reciver)，T表示话单R的发送时间，C为话单R的文本内容；

步骤三、将每类的会话话单明细数据按照发送时间的先后顺序排序；

步骤四、针对每类排序后的会话话单明细数据，选取相邻两条话单R1和R2，计算该两条话单记录的时间间隔Δt；

Δt＝F2(T2-T1)＝T2-T1；T2＞T1

T1为话单R1的发送时间；T2为话单R2的发送时间；

步骤五、计算该相邻两条话单R1和R2记录的文本内容相似度Δsim；

具体步骤如下：

步骤501、利用word2vec得到话单R1的文本内容C1，以及话单R2的文本内容C2；

步骤502、对文本内容C1和C2进行分词和去除停用词，得到词集。

文本内容C1得到的单词为wc1个；文本内容C2得到的单词为wc2个；

步骤503、计算相邻话单R1和R2的文本内容距离F3；

sim(wc1_i,wc2_j)采用cos余弦方法进行计算；wc1_i表示文本内容C1的第i个单词；wc2_j表示文本内容C2里的第j个单词。

步骤504、利用文本内容距离F3计算话单R1和R2的文本内容相似度Δsim；

Δsim＝F3(C1,C2)

步骤六、采用话单距离算法计算出相邻话单R1和R2的距离值F(R1,R2)；

F(R1,R2)＝α×Δt+β×Δsim

α为会话时间距离影响因子，β为会话文本内容距离的值；

步骤七、判断距离值F(R1,R2)是否小于阈值f，如果是，则话单R1和R2同属于一个会话；否则，话单R1和R2分别属于两个不同的会话；

话单R1和R2分别属于两个不同的会话，即上一个会话的最后一条消息为R1，新会话的第一条消息为R2。

步骤八、针对该通信会话用户组的所有类会话话单明细数据，通过spark计算将所有类并行切分；

每个通信会话用户组的会话距离符合以下特征：若同属1个会话，则不同相邻话单记录的距离值集中分布；若不同属于1个会话，则不同相邻话单记录的距离值分布稀疏。

步骤九、针对所有分组的即时通信会话用户，通过spark并行运算步骤二到步骤八，将所有通信会话用户组并行工作。

本发明的优点在于：

1)、一种基于学习的即时通信会话切分方法，可以实现不同会话用户组差异化的会话切分标准。

2)、一种基于学习的即时通信会话切分方法，综合考虑了会话时间距离影响因子和会话文本内容距离影响因子，有效解决了大数据背景下海量即时通信文本会话切分的准确性和高效性问题。

附图说明

图1为本发明一种基于学习的即时通信会话切分方法的原理示意图；

图2为本发明一种基于学习的即时通信会话切分方法的流程示意图；

图3为本发明计算相邻两条话单R1和R2记录的文本内容相似度的方法流程图。

具体实施例

下面结合附图对本发明的具体实施方法进行详细说明。

本发明提出了一种基于学习的即时通信会话切分方法，综合了会话短文本内容相似性和话单记录时间间隔两种因素，提出了基于学习的切分方法。如图1所示，针对所有的即时通信会话用户，两两划分为一组，并将每个会话用户组的会话话单明细数据(RS,RR,T,C)进行分类和基于时间排序；通过spark并行对所有用户组以及每个用户组的所有类话单明细数据分别同时操作；具体会话切分为：依次选取相邻两条话单R1和R2，计算该两条话单记录的时间间隔Δt和文本内容相似度Δsim；采用多元线性函数拟合模型，得到会话时间距离影响因子α和会话文本内容距离因子β；进一步计算出相邻话单R1和R2的距离值F(R1,R2)；训练距离阈值f,根据距离值F(R1,R2)与阈值f之间的大小判断话单R1和R2是否同属于相同会话：如果F(R1,R2)<f，则话单R1和R2同属于一个会话；否则，话单R1和R2分别属于两个不同的会话；即上一个会话的最后1条消息为R1，新会话的第一条消息为R2；最终将所有即时通信的用户所有的会话进行切分。

如图2所示，具体步骤如下：

所有的通信参与者包括消息发送者和消息接收者，根据通信联系将通信的两个用户划分为一组并去重；通信联系包括电话通信，邮件通信，微信通信以及短信通信等。

话单明细数据R＝(RS,RR,T,C)；

按照不同的通信方式将该通信会话用户组的所有通信联系划分为不同的类，如微信通信的为一类，短信通信的为一类等。

Δt＝F2(T2-T1)＝T2-T1；T2＞T1

话单明细数据R1＝(RS1,RR1,T1,C1)；话单明细数据R2＝(RS2,RR2,T2,C2)；

RS1,RR1,RS2,RR2为通信参与者组的用户ID；T1为话单R1的发送时间；T2为话单R2的发送时间；C1为话单R1的文本内容；C2为话单R2的文本内容；

适用于即时通信文本会话切分的文本内容距离相似度计算算法，基于word2vec和余弦距离设计实现。如图3所示，具体步骤如下：

利用word2vec得到词集及对应的词特征向量；

步骤503、计算相邻话单R1和R2的文本内容距离F3；

Δsim＝F3(C1,C2)

F(R1,R2)＝α×Δt+β×Δsim

α为会话时间距离影响因子，β为会话文本内容距离参数影响因子；

α和β的学习模型主要如下：采样某个会话用户组的一批话单通信明细记录数据并按照时间排序，通过人工标注的方法标注任意相邻2条话单记录数据是否同属1个会话，若同属一个会话，则其距离值标注为1，若不属于相同会话过程，则距离值为-1.然后基于这些标准后的样本数据进行函数拟合，主要采用多元线性函数拟合模型，得到α和β的值。

每个通信会话用户组的会话距离符合以下特征：若同属1个会话，则不同相邻话单记录的距离值集中分布；若不同属于1个会话，则不同相邻话单记录的距离值分布稀疏。通过分析不同距离值对应的相邻话单数来进行计算求解，具体计算算法为极值求解算法求拐点。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种基于学习的即时通信会话切分方法，其特征在于，具体步骤如下：

Δt＝F2(T2-T1)＝T2-T1；T2＞T1

T1为话单R1的发送时间；T2为话单R2的发送时间；F2为相邻话单R1和R2的发送时间距离；

Δsim＝F3(C1,C2)

C1为话单R1的文本内容，C2为话单R2的文本内容；F3为相邻话单R1和R2的文本内容距离；

F(R1,R2)＝α×Δt+β×Δsim

α为会话时间距离影响因子，β为会话文本内容距离的值；

话单R1和R2分别属于两个不同的会话，即上一个会话的最后一条消息为R1，新会话的第一条消息为R2；

2.如权利要求1所述的一种基于学习的即时通信会话切分方法，其特征在于，所述的步骤二中，话单明细数据R＝(RS,RR,T,C)；

RS表示会话发起者(Record Sender)，RR表示通信会话接收者(Record Reciver)，T表示话单R的发送时间，C为话单R的文本内容。

3.如权利要求1所述的一种基于学习的即时通信会话切分方法，其特征在于，所述的步骤五具体步骤如下：

步骤502、对文本内容C1和C2进行分词和去除停用词，得到词集；

步骤503、计算相邻话单R1和R2的文本内容距离F3；

sim(wc1_i,wc2_j)采用cos余弦方法进行计算；wc1_i表示文本内容C1的第i个单词；wc2_j表示文本内容C2里的第j个单词；

Δsim＝F3(C1,C2)。

4.如权利要求1所述的一种基于学习的即时通信会话切分方法，其特征在于，所述的通信会话用户组的各自的会话距离符合以下特征：若同属1个会话，则不同相邻话单记录的距离值集中分布；若不同属于1个会话，则不同相邻话单记录的距离值分布稀疏。