CN107066450B - 一种基于学习的即时通信会话切分方法 - Google Patents
一种基于学习的即时通信会话切分方法 Download PDFInfo
- Publication number
- CN107066450B CN107066450B CN201710391483.6A CN201710391483A CN107066450B CN 107066450 B CN107066450 B CN 107066450B CN 201710391483 A CN201710391483 A CN 201710391483A CN 107066450 B CN107066450 B CN 107066450B
- Authority
- CN
- China
- Prior art keywords
- session
- ticket
- text content
- distance
- conversation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明公开了一种基于学习的即时通信会话切分技术与方法,属于大数据分析领域;将即时通信会话用户两两划分为一组,并将每组的会话话单明细进行分类和基于时间排序;会话切分为:依次选取相邻两条话单R1和R2,计算时间间隔Δt,文本内容相似度Δsim和距离值F(R1,R2);如果F(R1,R2)<f,则话单R1和R2同属于一个会话;否则,话单R1和R2分别属于两个不同的会话;通过spark并行对所有用户组以及每个用户组的所有类话单明细数据分别同时操作,最终将所有即时通信的用户所有的会话进行切分。本发明综合考虑了会话时间距离影响因子和会话文本内容距离影响因子,实现了不同会话用户组差异化的会话切分标准,有效解决了大数据背景下海量即时通信文本会话切分的准确性和高效性问题。
Description
技术领域
本发明属于大数据分析领域,涉及一种基于学习的即时通信会话切分方法。
背景技术
随着大数据技术的成熟与普及,越来越多的企业和相关机构尝试基于用户的各种数据进行用户分析,例如基于用户的即时通信数据分析用户每个会话时所讨论的主题,再基于用户历史会话主题对用户进行分析和标签化。通常情况下,数据分析人员所面对的是即时通信双方的历史会话话单明细数据,这些明细数据并没有明确标识出其所属的会话,因此,如何基于已有的即时通信话单明细数据进行会话切分,对分析用户会话内容主题,进而对用户进行分析,具有至关重要的作用。
即时通信会话切分具有以下特点和挑战:(1)即时通信文本一般情况下属于超短文本,因此很难基于会话文本内容,单纯使用文本分类聚类技术实现高效准确地即时通信文本切分;(2)即时通信会话具有时效性,一般来说,即时通信双方在某个连续时间段内的通信主题相同,因此可以通过考虑即时通信时间来协助完成会话切分;(3)由于性格、习惯、身份等特征,不同的即时通信会话回复的时间间隔不同,即便是相同的通信用户组,也可能由于客观导致某个会话参与者的回复时间间隔异于平常,因此不能简单地基于某个固定的时间间隔阈值来进行会话切分。
发明内容
本发明提供了一种基于学习的即时通信会话切分方法,用于实现对海量及时通信明细数据进行会话切分,为会话主题分析、基于会话内容的用户分析提供数据支持。
具体步骤如下:
步骤一、针对所有的即时通信会话用户,按照每两个用户之间的通信联系,将该两个用户划分为一组;
步骤二、针对某通信会话用户组,将原始会话话单明细数据进行记录并分类;
话单明细数据R=(RS,RR,T,C);
RS表示会话发起者(Record Sender),RR表示通信会话接收者(Record Reciver),T表示话单R的发送时间,C为话单R的文本内容;
步骤三、将每类的会话话单明细数据按照发送时间的先后顺序排序;
步骤四、针对每类排序后的会话话单明细数据,选取相邻两条话单R1和R2,计算该两条话单记录的时间间隔Δt;
Δt=F2(T2-T1)=T2-T1;T2>T1
T1为话单R1的发送时间;T2为话单R2的发送时间;
步骤五、计算该相邻两条话单R1和R2记录的文本内容相似度Δsim;
具体步骤如下:
步骤501、利用word2vec得到话单R1的文本内容C1,以及话单R2的文本内容C2;
步骤502、对文本内容C1和C2进行分词和去除停用词,得到词集。
文本内容C1得到的单词为wc1个;文本内容C2得到的单词为wc2个;
步骤503、计算相邻话单R1和R2的文本内容距离F3;
sim(wc1i,wc2j)采用cos余弦方法进行计算;wc1i表示文本内容C1的第i个单词;wc2j表示文本内容C2里的第j个单词。
步骤504、利用文本内容距离F3计算话单R1和R2的文本内容相似度Δsim;
Δsim=F3(C1,C2)
步骤六、采用话单距离算法计算出相邻话单R1和R2的距离值F(R1,R2);
F(R1,R2)=α×Δt+β×Δsim
α为会话时间距离影响因子,β为会话文本内容距离的值;
步骤七、判断距离值F(R1,R2)是否小于阈值f,如果是,则话单R1和R2同属于一个会话;否则,话单R1和R2分别属于两个不同的会话;
话单R1和R2分别属于两个不同的会话,即上一个会话的最后一条消息为R1,新会话的第一条消息为R2。
步骤八、针对该通信会话用户组的所有类会话话单明细数据,通过spark计算将所有类并行切分;
每个通信会话用户组的会话距离符合以下特征:若同属1个会话,则不同相邻话单记录的距离值集中分布;若不同属于1个会话,则不同相邻话单记录的距离值分布稀疏。
步骤九、针对所有分组的即时通信会话用户,通过spark并行运算步骤二到步骤八,将所有通信会话用户组并行工作。
本发明的优点在于:
1)、一种基于学习的即时通信会话切分方法,可以实现不同会话用户组差异化的会话切分标准。
2)、一种基于学习的即时通信会话切分方法,综合考虑了会话时间距离影响因子和会话文本内容距离影响因子,有效解决了大数据背景下海量即时通信文本会话切分的准确性和高效性问题。
附图说明
图1为本发明一种基于学习的即时通信会话切分方法的原理示意图;
图2为本发明一种基于学习的即时通信会话切分方法的流程示意图;
图3为本发明计算相邻两条话单R1和R2记录的文本内容相似度的方法流程图。
具体实施例
下面结合附图对本发明的具体实施方法进行详细说明。
本发明提出了一种基于学习的即时通信会话切分方法,综合了会话短文本内容相似性和话单记录时间间隔两种因素,提出了基于学习的切分方法。如图1所示,针对所有的即时通信会话用户,两两划分为一组,并将每个会话用户组的会话话单明细数据(RS,RR,T,C)进行分类和基于时间排序;通过spark并行对所有用户组以及每个用户组的所有类话单明细数据分别同时操作;具体会话切分为:依次选取相邻两条话单R1和R2,计算该两条话单记录的时间间隔Δt和文本内容相似度Δsim;采用多元线性函数拟合模型,得到会话时间距离影响因子α和会话文本内容距离因子β;进一步计算出相邻话单R1和R2的距离值F(R1,R2);训练距离阈值f,根据距离值F(R1,R2)与阈值f之间的大小判断话单R1和R2是否同属于相同会话:如果F(R1,R2)<f,则话单R1和R2同属于一个会话;否则,话单R1和R2分别属于两个不同的会话;即上一个会话的最后1条消息为R1,新会话的第一条消息为R2;最终将所有即时通信的用户所有的会话进行切分。
如图2所示,具体步骤如下:
步骤一、针对所有的即时通信会话用户,按照每两个用户之间的通信联系,将该两个用户划分为一组;
所有的通信参与者包括消息发送者和消息接收者,根据通信联系将通信的两个用户划分为一组并去重;通信联系包括电话通信,邮件通信,微信通信以及短信通信等。
步骤二、针对某通信会话用户组,将原始会话话单明细数据进行记录并分类;
话单明细数据R=(RS,RR,T,C);
RS表示会话发起者(Record Sender),RR表示通信会话接收者(Record Reciver),T表示话单R的发送时间,C为话单R的文本内容;
按照不同的通信方式将该通信会话用户组的所有通信联系划分为不同的类,如微信通信的为一类,短信通信的为一类等。
步骤三、将每类的会话话单明细数据按照发送时间的先后顺序排序;
步骤四、针对每类排序后的会话话单明细数据,选取相邻两条话单R1和R2,计算该两条话单记录的时间间隔Δt;
Δt=F2(T2-T1)=T2-T1;T2>T1
话单明细数据R1=(RS1,RR1,T1,C1);话单明细数据R2=(RS2,RR2,T2,C2);
RS1,RR1,RS2,RR2为通信参与者组的用户ID;T1为话单R1的发送时间;T2为话单R2的发送时间;C1为话单R1的文本内容;C2为话单R2的文本内容;
步骤五、计算该相邻两条话单R1和R2记录的文本内容相似度Δsim;
适用于即时通信文本会话切分的文本内容距离相似度计算算法,基于word2vec和余弦距离设计实现。如图3所示,具体步骤如下:
步骤501、利用word2vec得到话单R1的文本内容C1,以及话单R2的文本内容C2;
利用word2vec得到词集及对应的词特征向量;
步骤502、对文本内容C1和C2进行分词和去除停用词,得到词集。
文本内容C1得到的单词为wc1个;文本内容C2得到的单词为wc2个;
步骤503、计算相邻话单R1和R2的文本内容距离F3;
sim(wc1i,wc2j)采用cos余弦方法进行计算;wc1i表示文本内容C1的第i个单词;wc2j表示文本内容C2里的第j个单词。
步骤504、利用文本内容距离F3计算话单R1和R2的文本内容相似度Δsim;
Δsim=F3(C1,C2)
步骤六、采用话单距离算法计算出相邻话单R1和R2的距离值F(R1,R2);
F(R1,R2)=α×Δt+β×Δsim
α为会话时间距离影响因子,β为会话文本内容距离参数影响因子;
α和β的学习模型主要如下:采样某个会话用户组的一批话单通信明细记录数据并按照时间排序,通过人工标注的方法标注任意相邻2条话单记录数据是否同属1个会话,若同属一个会话,则其距离值标注为1,若不属于相同会话过程,则距离值为-1.然后基于这些标准后的样本数据进行函数拟合,主要采用多元线性函数拟合模型,得到α和β的值。
步骤七、判断距离值F(R1,R2)是否小于阈值f,如果是,则话单R1和R2同属于一个会话;否则,话单R1和R2分别属于两个不同的会话;
话单R1和R2分别属于两个不同的会话,即上一个会话的最后一条消息为R1,新会话的第一条消息为R2。
步骤八、针对该通信会话用户组的所有类会话话单明细数据,通过spark计算将所有类并行切分;
每个通信会话用户组的会话距离符合以下特征:若同属1个会话,则不同相邻话单记录的距离值集中分布;若不同属于1个会话,则不同相邻话单记录的距离值分布稀疏。通过分析不同距离值对应的相邻话单数来进行计算求解,具体计算算法为极值求解算法求拐点。
步骤九、针对所有分组的即时通信会话用户,通过spark并行运算步骤二到步骤八,将所有通信会话用户组并行工作。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
Claims (4)
1.一种基于学习的即时通信会话切分方法,其特征在于,具体步骤如下:
步骤一、针对所有的即时通信会话用户,按照每两个用户之间的通信联系,将该两个用户划分为一组;
步骤二、针对某通信会话用户组,将原始会话话单明细数据进行记录并分类;
步骤三、将每类的会话话单明细数据按照发送时间的先后顺序排序;
步骤四、针对每类排序后的会话话单明细数据,选取相邻两条话单R1和R2,计算该两条话单记录的时间间隔Δt;
Δt=F2(T2-T1)=T2-T1;T2>T1
T1为话单R1的发送时间;T2为话单R2的发送时间;F2为相邻话单R1和R2的发送时间距离;
步骤五、计算该相邻两条话单R1和R2记录的文本内容相似度Δsim;
Δsim=F3(C1,C2)
C1为话单R1的文本内容,C2为话单R2的文本内容;F3为相邻话单R1和R2的文本内容距离;
步骤六、采用话单距离算法计算出相邻话单R1和R2的距离值F(R1,R2);
F(R1,R2)=α×Δt+β×Δsim
α为会话时间距离影响因子,β为会话文本内容距离的值;
步骤七、判断距离值F(R1,R2)是否小于阈值f,如果是,则话单R1和R2同属于一个会话;否则,话单R1和R2分别属于两个不同的会话;
话单R1和R2分别属于两个不同的会话,即上一个会话的最后一条消息为R1,新会话的第一条消息为R2;
步骤八、针对该通信会话用户组的所有类会话话单明细数据,通过spark计算将所有类并行切分;
步骤九、针对所有分组的即时通信会话用户,通过spark并行运算步骤二到步骤八,将所有通信会话用户组并行工作。
2.如权利要求1所述的一种基于学习的即时通信会话切分方法,其特征在于,所述的步骤二中,话单明细数据R=(RS,RR,T,C);
RS表示会话发起者(Record Sender),RR表示通信会话接收者(Record Reciver),T表示话单R的发送时间,C为话单R的文本内容。
3.如权利要求1所述的一种基于学习的即时通信会话切分方法,其特征在于,所述的步骤五具体步骤如下:
步骤501、利用word2vec得到话单R1的文本内容C1,以及话单R2的文本内容C2;
步骤502、对文本内容C1和C2进行分词和去除停用词,得到词集;
文本内容C1得到的单词为wc1个;文本内容C2得到的单词为wc2个;
步骤503、计算相邻话单R1和R2的文本内容距离F3;
sim(wc1i,wc2j)采用cos余弦方法进行计算;wc1i表示文本内容C1的第i个单词;wc2j表示文本内容C2里的第j个单词;
步骤504、利用文本内容距离F3计算话单R1和R2的文本内容相似度Δsim;
Δsim=F3(C1,C2)。
4.如权利要求1所述的一种基于学习的即时通信会话切分方法,其特征在于,所述的通信会话用户组的各自的会话距离符合以下特征:若同属1个会话,则不同相邻话单记录的距离值集中分布;若不同属于1个会话,则不同相邻话单记录的距离值分布稀疏。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710391483.6A CN107066450B (zh) | 2017-05-27 | 2017-05-27 | 一种基于学习的即时通信会话切分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710391483.6A CN107066450B (zh) | 2017-05-27 | 2017-05-27 | 一种基于学习的即时通信会话切分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107066450A CN107066450A (zh) | 2017-08-18 |
CN107066450B true CN107066450B (zh) | 2020-04-10 |
Family
ID=59617598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710391483.6A Active CN107066450B (zh) | 2017-05-27 | 2017-05-27 | 一种基于学习的即时通信会话切分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107066450B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708866B (zh) * | 2020-08-24 | 2020-12-11 | 北京世纪好未来教育科技有限公司 | 会话切分方法、装置、电子设备和存储介质 |
CN112256879B (zh) * | 2020-10-29 | 2021-07-20 | 贝壳找房(北京)科技有限公司 | 信息处理方法和装置、电子设备和计算机可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101552737A (zh) * | 2008-03-31 | 2009-10-07 | 国际商业机器公司 | 基于主题的即时消息通信方法和装置 |
US20130273976A1 (en) * | 2010-10-27 | 2013-10-17 | Nokia Corporation | Method and Apparatus for Identifying a Conversation in Multiple Strings |
JP5514703B2 (ja) * | 2010-11-29 | 2014-06-04 | Kddi株式会社 | 検索ログに応じた関連情報を配信する検索配信サーバ、プログラム及び方法 |
CN103686617B (zh) * | 2013-12-23 | 2017-08-25 | 百度在线网络技术(北京)有限公司 | 创建即时通讯群组的方法及装置 |
CN105450497A (zh) * | 2014-07-31 | 2016-03-30 | 国际商业机器公司 | 生成聚类模型以及基于该聚类模型进行聚类的方法和装置 |
CN106789572B (zh) * | 2016-12-19 | 2019-09-24 | 重庆博琨瀚威科技有限公司 | 一种实现自适应消息过滤的即时通讯系统和即时通讯方法 |
-
2017
- 2017-05-27 CN CN201710391483.6A patent/CN107066450B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107066450A (zh) | 2017-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492026B (zh) | 一种基于改进的主动学习技术的电信欺诈分类检测方法 | |
EP2782369A1 (en) | Information prompt method and device and terminal equipment | |
CN106815588B (zh) | 垃圾图片过滤方法及装置 | |
CN108257594A (zh) | 一种会议系统及其信息处理方法 | |
CN108924371B (zh) | 电力客服过程中通过来电号码识别户号的方法 | |
CN107066450B (zh) | 一种基于学习的即时通信会话切分方法 | |
CN111651566B (zh) | 基于多任务的小样本学习的裁判文书争议焦点提取方法 | |
CN114650229B (zh) | 基于三层模型sftf-l的网络加密流量分类方法与系统 | |
CN110689357B (zh) | 基于机器学习的用于在线客服的工单生成方法 | |
CN105488364A (zh) | 一种利用二维码区分用户类别的方法、装置及系统 | |
CN110675263B (zh) | 交易数据的风险识别方法以及装置 | |
CN112801721B (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN101719924A (zh) | 基于群件理解的不良彩信过滤方法 | |
Al Maruf et al. | Ensemble approach to classify spam sms from bengali text | |
CN114708080B (zh) | 一种分布式财务数据在线处理方法 | |
CN114513473B (zh) | 一种流量类别检测方法、装置及设备 | |
CN102984076B (zh) | 流量业务类型识别方法和装置 | |
CN114519343A (zh) | 基于95598的重复来电预处理方法、装置、设备及存储介质 | |
CN111026835B (zh) | 一种聊天主题检测方法、装置、存储介质 | |
CN111353019A (zh) | 一种微信公众号公号主题分类方法及装置 | |
CN110955754A (zh) | 一种用于重复来电分析识别的模型构建方法 | |
CN115438629A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN113157993A (zh) | 一种基于时序图极化分析的网络水军行为预警模型 | |
CN110990570A (zh) | 一种基于深度学习的邮件落款提取方法 | |
CN111199426A (zh) | 一种基于随机森林模型的微信公众号roi预估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |