CN111061865A - 一种会话场景文本挖掘的方法及计算装置 - Google Patents

一种会话场景文本挖掘的方法及计算装置 Download PDF

Info

Publication number
CN111061865A
CN111061865A CN201811208617.7A CN201811208617A CN111061865A CN 111061865 A CN111061865 A CN 111061865A CN 201811208617 A CN201811208617 A CN 201811208617A CN 111061865 A CN111061865 A CN 111061865A
Authority
CN
China
Prior art keywords
cluster
texts
center point
text
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811208617.7A
Other languages
English (en)
Inventor
徐乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201811208617.7A priority Critical patent/CN111061865A/zh
Publication of CN111061865A publication Critical patent/CN111061865A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请实施例公开了一种会话场景文本挖掘的方法,用于提炼主播过程中的具体聊天场景,为机器人提供针对场景的会话答复,使得机器人更加智能化,提高用户体验。本申请实施例方法包括:根据文本距离计算公式计算N个文本中任意两个文本之间的距离d(ti,tj);选择任意两个文本之间的距离中最大距离对应的两个文本t1和t2;当簇中心点的个数为k为2时,根据文本距离计算公式,将N‑k个文本分配到k个簇集合中;根据中心点最优函数计算每个簇集合中的新中心点;在每个簇集合中,选取新中心点;根据标准测度函数公式计算第一次分配的分配误差Gi和第二次分配的分配误差Gj;当|Gi‑Gj|≤ε时,停止迭代。

Description

一种会话场景文本挖掘的方法及计算装置
技术领域
本申请涉及大数据领域,尤其涉及一种会话场景文本挖掘的方法及计算装置。
背景技术
随着科技的发展,聊天机器人(Chatbot)越来越成为重要的沟通工具,维基百科将聊天机器人定义为:通过听觉或文本方法进行对话的计算机程序。但现在的市场舆论认为机器人是下一个大变革:一种能立即接近客户的方式。专家预估,到了2021年有超过50%的企业每年会花在聊天机器人的投资将超过传统计算机应用程序(Application,App),这揭示了聊天机器人是未来改变做生意以及客服方式的那把钥匙。
聊天机器人创造了一个新的层次,使消费者和品牌之间有了即时可及性、始终在线服务、和超人的能力。从用户的电脑屏幕到用户的手机到用户的厨房柜台,到处都可以是它们。当今的公司面临着日益不可能做到的完美服务需求(每天24小时,每周7天),聊天机器人由此变得更有吸引力。
一般用户想聊天机器人的回复更人性化,会设计一个通用回复和针对特定的场景的个性化回复,那么用户怎么提炼到直播间主播聊天过程中的具体聊天场景?这是一个亟待解决的问题。
发明内容
本申请实施例提供了一种会话场景文本挖掘的方法及计算装置,用于通过无监督的聚类方法,可以从直播间的大量弹幕文本中,提炼出K个会话场景,并将这些弹幕文本分类至K个会话场景中,为机器人提供针对场景的会话答复,使得机器人的功能更加智能化,提高了用户体验。
有鉴于此,本申请实施例第一方面提供了一种会话场景文本挖掘的方法,所述方法应用于大数据系统,所述大数据系统包括k个场景,N个文本,最大的迭代次数num,N>k,k为大于2的正整数,可以包括:
根据文本距离计算公式计算所述N个文本中任意两个文本之间的距离d(ti,tj),其中,ti表示第i个文本,tj表示第j个文本;
选择所述任意两个文本之间的距离中最大距离对应的两个文本t1和t2,其中,所述t1为第一簇中心点,所述t2为第二簇中心点;
当簇中心点的个数为k为2时,根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点和所述第二簇中心点,且同一个簇集合中包括所述第一簇中心点或所述第二簇中心点中的任意一个;
根据中心点最优函数计算每个簇集合中的新中心点;
在每个簇集合中,选取所述新中心点;
根据标准测度函数公式计算第一次分配的分配误差Gi和第二次分配的分配误差Gj
当|Gi-Gj|≤ε时,停止迭代,其中,ε为所有簇集合中心点与簇集合内每个点的距离之和。
可选的,在本申请的一些实施例中,当簇中心点的个数k为3时,所述方法还包括:
根据公式d(t1,t3)*d(t2,t3)≥d(t1,ti)*d(t2,tj),(i,j∈(1,N)),在N-2个文本中选择第三簇中心点,其中,所述N-2个文本为N个文本中除去t1和t2的文本;
根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包所述第一簇中心点、所述第二簇中心点和所述第三簇中心点,且同一个簇集合中包括所述第一簇中心点、所述第二簇中心点和所述第三簇中心点中的任意一个。
可选的,在本申请的一些实施例中,
所述文本距离计算公式为:
Figure BDA0001831858620000021
其中,h表示调节系数,h∈(0,1)。
可选的,在本申请的一些实施例中,
所述中心点最优函数为:
Figure BDA0001831858620000022
其中,Ci表示第i个簇集合,t表示每个簇集合内的文本,
Figure BDA0001831858620000023
表示第i个簇集合的中心点,
Figure BDA0001831858620000031
表示第i个簇集合选出的新中心点。
可选的,在本申请的一些实施例中,
所述标准测度函数公式为:
Figure BDA0001831858620000032
其中,
Figure BDA0001831858620000033
表示第i个簇集合的中心点,
Figure BDA0001831858620000034
表示第i个簇集合选出的新中心点。
可选的,在本申请的一些实施例中,所述方法还可以包括:
若|Gi-Gj|>ε,且迭代次数为num,则停止迭代。
可选的,在本申请的一些实施例中,每个簇集合的中心点与新中心点相同或者不相同。
可选的,在本申请的一些实施例中,在所述根据文本距离计算公式计算所述N个文本中两两之间的距离之前,所述方法还可以包括:
对所述N个文本进行word2vec向量化。
本申请实施例第二方面还提供一种计算装置,所述计算装置应用于大数据系统,所述大数据系统包括k个场景,N个文本,最大的迭代次数num,N>k,k为大于2的正整数,其特征在于,可以包括:
第一计算模块,用于根据文本距离计算公式计算所述N个文本中任意两个文本之间的距离d(ti,tj),其中,ti表示第i个文本,tj表示第j个文本;
第一选择模块,用于选择所述任意两个文本之间的距离中最大距离对应的两个文本t1和t2,其中,所述t1为第一簇中心点,所述t2为第二簇中心点;
分配模块,用于当簇中心点的个数为k为2时,根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点和所述第二簇中心点,且同一个簇集合中包括所述第一簇中心点和所述第二簇中心点中的任意一个;
第二计算模块,用于根据中心点最优函数计算每个簇集合中的新中心点;
第二选择模块,用于在每个簇集合中,选取所述新中心点;
第三计算模块,用于根据标准测度函数公式计算第一次分配的分配误差Gi和第二次分配的分配误差Gj
处理模块,用于当|Gi-Gj|≤ε时,停止迭代,其中,ε为所有簇集合中心点与簇集合内每个点的距离之和。
可选的,在本申请的一些实施例中,当簇中心点的个数k为3时,
所述第一选择模块,还用于根据公式d(t1,t3)*d(t2,t3)≥d(t1,ti)*d(t2,tj),(i,j∈(1,N)),在N-2个文本中选择第三簇中心点,其中,所述N-2个文本为N个文本中除去t1和t2的文本;
所述分配模块,还用于根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点、所述第二簇中心点和所述第三簇中心点,且同一个簇集合中包括所述第一簇中心点、所述第二簇中心点或所述第三簇中心点中的任意一个。
可选的,在本申请的一些实施例中,
所述处理模块,还用于若|Gi-Gj|>ε,且迭代次数为num,则停止迭代。
可选的,在本申请的一些实施例中,
所述文本距离计算公式为:
Figure BDA0001831858620000041
其中,h表示调节系数,h∈(0,1)。
可选的,在本申请的一些实施例中,
所述中心点最优函数为:
Figure BDA0001831858620000042
其中,Ci表示第i个簇集合,t表示每个簇集合内的文本,
Figure BDA0001831858620000043
表示第i个簇集合的中心点,
Figure BDA0001831858620000044
表示第i个簇集合选出的新中心点。
可选的,在本申请的一些实施例中,
所述标准测度函数公式为:
Figure BDA0001831858620000045
其中,
Figure BDA0001831858620000046
表示第i个簇集合的中心点,
Figure BDA0001831858620000047
表示第i个簇集合选出的新中心点。
可选的,在本申请的一些实施例中,每个簇集合的中心点与新中心点相同或者不相同。
可选的,在本申请的一些实施例中,
所述处理模块,还用于对所述N个文本进行word2vec向量化。
第三方面,本发明实施例提供了一种计算装置,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前述第一方面实施例中所述的会话场景文本挖掘的方法的步骤。
第四方面,本发明实施例提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述第一方面实施例中所述的会话场景文本挖掘的方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
在大数据系统包括k个场景,N个文本,最大的迭代次数num,N>k,k为大于2的正整数的前提下,根据文本距离计算公式计算所述N个文本中任意两个文本之间的距离d(ti,tj),其中,ti表示第i个文本,tj表示第j个文本;选择所述任意两个文本之间的距离中最大距离对应的两个文本t1和t2,其中,所述t1为第一簇中心点,所述t2为第二簇中心点;当簇中心点的个数为k为2时,根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包所述第一簇中心点和所述第二簇中心点,且同一个簇集合中包括所述第一簇中心点或所述第二簇中心点中的任意一个;根据中心点最优函数计算每个簇集合中的新中心点;在每个簇集合中,选取所述新中心点;根据标准测度函数公式计算第一次分配的分配误差Gi和第二次分配的分配误差Gj;当|Gi-Gj|≤ε时,停止迭代,其中,ε为所有簇集合中心点与簇集合内每个点的距离之和。通过无监督的聚类方法,可以从直播间的大量弹幕文本中,提炼出K个会话场景,并将这些弹幕文本分类至K个会话场景中,为机器人提供针对场景的会话答复。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,还可以根据这些附图获得其它的附图。
图1为本发明实施例中提供的会话场景文本挖掘的方法的一个实施例示意图;
图2为本发明实施例中提供的会话场景文本挖掘的方法的另一个实施例示意图;
图3为本申请实施例中提供的计算装置的一个实施例示意图;
图4为本申请实施例中提供的计算装置的另一个实施例示意图;
图5为本申请实施例中提供的计算机可读存储介质的另一个实施例示意图。
具体实施方式
本申请实施例提供了一种会话场景文本挖掘的方法及计算装置,用于通过无监督的聚类方法,可以从直播间的大量弹幕文本中,提炼出K个会话场景,并将这些弹幕文本分类至K个会话场景中,为机器人提供针对场景的会话答复。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,都应当属于本申请保护的范围。
随着人工智能(Artificial Intelligence,AI)、机器学习、自然语言处理的进步,聊天机器人的应答会变得越来越像人类,不久的将来也会如同App一般渗入用户的日常生活中。据预估,45%的顾客在未来都会优先使用聊天机器人客服,用于构建及分析聊天机器人资料的工具将会越来越多元,功能逐渐成熟后,除了能同步收集同一顾客的数据,更能替顾客创造无缝接轨的体验,而这将是企业要准备好面对的未来。
聊天机器人会面对如雪花一样多的场景,且没有两次场景会完全一样,因此聊天机器人应该被设计为能够利用动态语境来捉取信息,创建个性化的响应。通过如重要日期、天气、日程表等信息都可以是在做出反应时的重要参考因素。聊天机器人越深入地了解用户(例:开什么车,起床时吃什么),它的表现就会越好。
在本发明中,提出了一种无监督的聚类的方法,从直播间的弹幕文本中挖掘出直播聊天过程中的场景。
如图1所示,为本发明实施例中提供的一种会话场景文本挖掘的方法的一个实施例示意图。该实施例应用于大数据系统,所述大数据系统包括k个场景,N个文本,最大的迭代次数num,N>k,k为大于2的正整数,可以包括:
101、计算装置根据文本距离计算公式计算所述N个文本中两两之间的距离d(ti,tj),其中,ti表示第i个文本,tj表示第j个文本。
在本发明实施例中,所述文本距离计算公式为:
Figure BDA0001831858620000071
其中,h表示调节系数,h∈(0,1)。文本距离计算公式主要是为了计算任意2个文本之间的距离。可以理解的是,距离较大的文本样本点分到同一个簇集合的可能性小,反之可能就很大。
可选的,首先对所述N个文本进行word2vec向量化。即文本距离计算公式中的ti表示第i个文本,word2vec向量化表示;tj表示第j个文本,word2vec向量化表示。
示例性的,利用公式一计算N个样本两两之间的距离d(ti,tj),这样可以找到d(t1,t2)≥d(ti,tj),(i,j∈(1,N)),因此可以将t1,t2作为2个初始簇中心点。
例如:第一个文本和第二个文本之间的距离为:
Figure BDA0001831858620000072
第二个文本和第三个文本之间的距离为:
Figure BDA0001831858620000073
第一个文本和第三个文本之间的距离为:
Figure BDA0001831858620000074
可以理解的是,本申请中的文本也可以称为样本,或者文本样本,是从直播间的大量弹幕文本。
102、计算装置选择所述两两之间的距离中最大值对应的两个文本t1为第一簇中心点,t2为第二簇中心点。
如果,d(t1,t2)>d(t2,t3),且d(t1,t2)>d(t1,t3),则可以选择t1,t2为第一簇中心点和第二簇中心点。
可选的,在另一种实现方式中,当簇中心点的个数k大于2小于等于3时,计算装置还可以根据公式d(t1,t3)*d(t2,t3)≥d(t1,ti)*d(t2,tj),(i,j∈(1,N)),在N-2个文本中选择第三簇中心点,其中,所述N-2个文本为N个文本中除去t1和t2的文本。可以理解的是,K大于2小于等于3时,在剩下的N-2个文本中,可以根据公式d(t1,t3)*d(t2,t3)≥d(t1,ti)*d(t2,tj),(i,j∈(1,N)),选择符合的第三簇中心点。即距离t1,t2最远的点作为第3个簇的中心点。
可选的,当K大于3时,接着在(N-3)个文本中,按照上述公式所示的类似方法,得到符合的第四簇中心点,一直选取出K个簇中心点。
103、当簇中心点的个数为k为2时,根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点和所述第二簇中心点,且同一个簇集合中包括所述第一簇中心点和所述第二簇中心点中的任意一个。
可选的,根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点、所述第二簇中心点和所述第三簇中心点,且同一个簇集合中包括所述第一簇中心点、所述第二簇中心点和所述第三簇中心点中的任意一个。
例如:这里有3个簇集合,第一簇集合中的中心点为第一簇中心点,第二簇集合中的中心点为第二簇中心点,第三簇集合中的中心点为第三簇中心点。根据文本距离计算公式,将N-k个文本分到这3个簇集合中。
104、计算装置根据中心点最优函数计算每个簇集合中的新中心点。
对上述分好的3个簇集合,可以再根据中心点最优函数计算每个簇集合中的新中心点。
其中,所述中心点最优函数为:
Figure BDA0001831858620000081
其中,Ci表示第i个簇集合,t表示每个簇集合内的文本,
Figure BDA0001831858620000082
表示第i个簇集合的中心点,
Figure BDA0001831858620000083
表示第i个簇集合选出的新中心点。
公式二的含义在于,在每一轮迭代过程中,寻找新的中心点的最优函数。
105、计算装置在每个簇集合中,选取所述新中心点。
然后,在每个簇集合中,选取对应的新中心点。可选的,每个簇集合的中心点与新中心点相同或者不相同。
106、计算装置根据标准测度函数公式计算所述第一次分配的分配误差Gi和所述第二次分配的分配误差Gj
所述标准测度函数公式为:
Figure BDA0001831858620000084
其中,
Figure BDA0001831858620000085
表示第i个簇集合的中心点,
Figure BDA0001831858620000086
表示第i个簇集合选出的新中心点。
公式三的含义在于:每一轮聚类过程中,所有簇中心点与簇集合内所有点的距离之和,可以确定迭代的收敛条件ε。
可以理解的是,
Figure BDA0001831858620000091
107、当|Gi-Gj|≤ε时,计算装置停止迭代,其中,ε为所有簇集合中心点与簇集合内每个点的距离之和。
当第一分配误差与第二分配误差的差值的绝对值小于收敛值时,即当|Gi-Gj|≤ε时,停止迭代,其中,ε为所有簇集合中心点与簇集合内每个点的距离之和。
或者,
若|Gi-Gj|>ε,且迭代次数为num,则停止迭代。
需要说明的是,当|Gi-Gj|>ε时,计算装置重新执行步骤105-107(选取和上次迭代不同的中心点),进行再次迭代。
在本申请实施例中,本专利通过无监督的聚类方法,可以从直播间的大量弹幕文本中,提炼出K个会话场景,并将这些弹幕文本分类至K个会话场景中,为机器人提供针对场景的会话答复。
如图2所示,为本发明实施例中提供的一种会话场景文本挖掘的方法的另一个实施例示意图。
假设,当前大数据系统中有5个样本,聚成2类集合,最大迭代10次,最小误差为ε=0.01。
201、计算装置根据公式一计算两两样本之间的距离。
Figure BDA0001831858620000092
假设,调节系数h=0.5,
根据公式一计算5个样本两两之间的距离如下:
t1样本和t2样本之间的距离,d(t1,t2)=0.56;
t1样本和t3样本之间的距离,d(t1,t3)=1.69,
t1样本和t4样本之间的距离,d(t1,t4)=0.12,
……
t5样本和t4样本之间的距离,d(t5,t4)=0.34。
因此,d(t1,t3)>t(ti,tj),计算装置可以选取t1和t3作为2个簇中心点。
202、计算装置根据式公式一将剩下的样本分到t1和t3的两个集合中。
计算装置根据式公式一将剩下的样本分到t1和t3的两个集合中。例如:t1集合为:{t1,t4};t3集合为:{t2,t3,t5}。
203、计算装置根据公式二在每个集合内重新选取一个中心点,重新进行分配新中心点。
首先,计算装置根据式公式一计算两两样本之间的距离,之后,重新分配结果为:
T1集合的新中心点为t1,T3集合的新中心点为t2。
204、计算装置根据公式三计算第一次和第二次的分配误差。
假设第一次的分配误差为:G1=0.65;
第二次的分配误差为:G2=1.15,那么|G1-G2|>ε。
因此,计算装置开始进行下一轮迭代。
205、若|G1-G2|>ε,将(N-K)个文本按照步骤203中的中心点重新划分,并执行步骤204,如果达到最大迭代次数10,则计算装置终止迭代,或者,|G1-G2|<0.01计算装置也停止迭代。
可以理解的是,上述是以一个实际例子对本申请方案做的进一步说明,本专利通过无监督的聚类方法,可以从直播间的大量弹幕文本中,提炼出K个会话场景,并将这些弹幕文本分类至K个会话场景中,为机器人提供针对场景的会话答复。
如图3所示,为本申请实施例中提供的计算装置的一个实施例示意图,所述计算装置应用于大数据系统,所述大数据系统包括k个场景,N个文本,最大的迭代次数num,N>k,k为大于2的正整数,可以包括:
第一计算模块301,用于用于根据文本距离计算公式计算所述N个文本中任意两个文本之间的距离d(ti,tj),其中,ti表示第i个文本,tj表示第j个文本;
第一选择模块302,用于选择所述任意两个文本之间的距离中最大距离对应的两个文本t1和t2,其中,所述t1为第一簇中心点,所述t2为第二簇中心点;
分配模块303,用于当簇中心点的个数为k为2时,根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点和所述第二簇中心点,且同一个簇集合中包括所述第一簇中心点和所述第二簇中心点中的任意一个;
第二计算模块304,用于根据中心点最优函数计算每个簇集合中的新中心点;
第二选择模块305,用于在每个簇集合中,选取所述新中心点;
第三计算模块306,用于根据标准测度函数公式计算第一次分配的分配误差Gi和第二次分配的分配误差Gj
处理模块307,用于当|Gi-Gj|≤ε时,停止迭代,其中,ε为所有簇集合中心点与簇集合内每个点的距离之和。
可选的,在本发明的一些实施例中,
第一选择模块302,还用于还用于根据公式d(t1,t3)*d(t2,t3)≥d(t1,ti)*d(t2,tj),(i,j∈(1,N)),在N-2个文本中选择第三簇中心点,其中,所述N-2个文本为N个文本中除去t1和t2的文本;
分配模块303,还用于还用于根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点、所述第二簇中心点和所述第三簇中心点,且同一个簇集合中包括所述第一簇中心点、所述第二簇中心点和所述第三簇中心点中的任意一个。
可选的,在本发明的一些实施例中,
处理模块307,还用于若|Gi-Gj|>ε,且迭代次数为num,则停止迭代。
可选的,在本发明的一些实施例中,
所述文本距离计算公式为:
Figure BDA0001831858620000111
其中,h表示调节系数,h∈(0,1)。
可选的,在本发明的一些实施例中,
所述中心点最优函数为:
Figure BDA0001831858620000121
其中,Ci表示第i个簇集合,t表示每个簇集合内的文本,
Figure BDA0001831858620000122
表示第i个簇集合的中心点,
Figure BDA0001831858620000123
表示第i个簇集合选出的新中心点。
可选的,在本发明的一些实施例中,
所述标准测度函数公式为:
Figure BDA0001831858620000124
其中,
Figure BDA0001831858620000125
表示第i个簇集合的中心点,
Figure BDA0001831858620000126
表示第i个簇集合选出的新中心点。
可选的,在本发明的一些实施例中,
每个簇集合的中心点与新中心点相同或者不相同。
可选的,在本申请的一些实施例中,
处理模块307,还用于对所述N个文本进行word2vec向量化。
如图4所示,本发明实施例提供了一种计算装置,包括存储器410、处理器420及存储在存储器420上并可在处理器420上运行的计算机程序411,处理器420执行计算机程序411时可以实现以下步骤:
根据文本距离计算公式计算所述N个文本中任意两个文本之间的距离d(ti,tj),其中,ti表示第i个文本,tj表示第j个文本;
选择所述任意两个文本之间的距离中最大距离对应的两个文本t1和t2,其中,所述t1为第一簇中心点,所述t2为第二簇中心点;
当簇中心点的个数为k为2时,根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点和所述第二簇中心点,且同一个簇集合中包括所述第一簇中心点和所述第二簇中心点中的任意一个;
根据中心点最优函数计算每个簇集合中的新中心点;
在每个簇集合中,选取所述新中心点;
根据标准测度函数公式计算第一次分配的分配误差Gi和第二次分配的分配误差Gj
当|Gi-Gj|≤ε时,停止迭代,其中,ε为所有簇集合中心点与簇集合内每个点的距离之和。
可选的,在本申请的一些实施例中,处理器420执行计算机程序411时还可以实现以下步骤:
当簇中心点的个数k大于2小于等于3时,根据公式d(t1,t3)*d(t2,t3)≥d(t1,ti)*d(t2,tj),(i,j∈(1,N)),在N-2个文本中选择第三簇中心点,其中,所述N-2个文本为N个文本中除去t1和t2的文本;
根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点、所述第二簇中心点和所述第三簇中心点,且同一个簇集合中包括所述第一簇中心点、所述第二簇中心点和所述第三簇中心点中的任意一个。
可选的,在本申请的一些实施例中,处理器420执行计算机程序411时还可以实现以下步骤:
若|Gi-Gj|>ε,且迭代次数为num,则停止迭代。
可选的,在本申请的一些实施例中,处理器420执行计算机程序411时还可以实现以下步骤:
对所述N个文本进行word2vec向量化。
请参阅图5,图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
如图5所示,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序511,该计算机程序511被处理器执行时可以实现如下步骤:
根据文本距离计算公式计算所述N个文本中任意两个文本之间的距离d(ti,tj),其中,ti表示第i个文本,tj表示第j个文本;
选择所述任意两个文本之间的距离中最大距离对应的两个文本t1和t2,其中,所述t1为第一簇中心点,所述t2为第二簇中心点;
当簇中心点的个数为k为2时,根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点和所述第二簇中心点,且同一个簇集合中包括所述第一簇中心点和所述第二簇中心点中的任意一个;
根据中心点最优函数计算每个簇集合中的新中心点;
在每个簇集合中,选取所述新中心点;
根据标准测度函数公式计算第一次分配的分配误差Gi和第二次分配的分配误差Gj
当|Gi-Gj|≤ε时,停止迭代,其中,ε为所有簇集合中心点与簇集合内每个点的距离之和。
可选的,在本申请的一些实施例中,该计算机程序511被处理器执行时还可以实现如下步骤:
当簇中心点的个数k大于2小于等于3时,根据公式d(t1,t3)*d(t2,t3)≥d(t1,ti)*d(t2,tj),(i,j∈(1,N)),在N-2个文本中选择第三簇中心点,其中,所述N-2个文本为N个文本中除去t1和t2的文本;
根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点、所述第二簇中心点和所述第三簇中心点,且同一个簇集合中包括所述第一簇中心点、所述第二簇中心点和所述第三簇中心点中的任意一个。
可选的,在本申请的一些实施例中,该计算机程序511被处理器执行时还可以实现如下步骤:
若|Gi-Gj|>ε,且迭代次数为num,则停止迭代。
可选的,在本申请的一些实施例中,该计算机程序511被处理器执行时还可以实现如下步骤:
对所述N个文本进行word2vec向量化。
由于本实施例所介绍的计算装置为实施本发明实施例中一种会话场景文本挖掘的方法中所采用的设备,故而基于本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的计算装置的具体实施方式以及其各种变化形式,所以在此对于该计算装置如何实现本发明实施例中的方法不再详细介绍,只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明所欲保护的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种会话场景文本挖掘的方法,所述方法应用于大数据系统,所述大数据系统包括k个场景,N个文本,最大的迭代次数num,N>k,k为大于2的正整数,其特征在于,所述方法包括:
根据文本距离计算公式计算所述N个文本中任意两个文本之间的距离d(ti,tj),其中,ti表示第i个文本,tj表示第j个文本;
选择所述任意两个文本之间的距离中最大距离对应的两个文本t1和t2,其中,所述t1为第一簇中心点,所述t2为第二簇中心点;
当簇中心点的个数k为2时,根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点和所述第二簇中心点,且同一个簇集合中包括所述第一簇中心点和所述第二簇中心点中的任意一个;
根据中心点最优函数计算每个簇集合中的新中心点;
在每个簇集合中,选取所述新中心点;
根据标准测度函数公式计算第一次分配的分配误差Gi和第二次分配的分配误差Gj
当|Gi-Gj|≤ε时,停止迭代,其中,ε为所有簇集合中心点与簇集合内每个点的距离之和。
2.根据权利要求1所述的方法,其特征在于,当簇中心点的个数k为3时,所述方法还包括:
根据公式d(t1,t3)*d(t2,t3)≥d(t1,ti)*d(t2,tj),(i,j∈(1,N)),在N-2个文本中选择第三簇中心点,其中,所述N-2个文本为N个文本中除去t1和t2的文本;
根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点、所述第二簇中心点和所述第三簇中心点,且同一个簇集合中包括所述第一簇中心点、所述第二簇中心点和所述第三簇中心点中的任意一个。
3.根据权利要求1或2所述的方法,其特征在于,
所述文本距离计算公式为:
Figure FDA0001831858610000011
其中,h表示调节系数,h∈(0,1)。
4.根据权利要求1或2所述的方法,其特征在于,
所述中心点最优函数为:
Figure FDA0001831858610000021
其中,Ci表示第i个簇集合,t表示每个簇集合内的文本,
Figure FDA0001831858610000022
表示第i个簇集合的中心点,
Figure FDA0001831858610000023
表示第i个簇集合选出的新中心点。
5.根据权利要求1或2所述的方法,其特征在于,
所述标准测度函数公式为:
Figure FDA0001831858610000024
其中,
Figure FDA0001831858610000025
表示第i个簇集合的中心点,
Figure FDA0001831858610000026
表示第i个簇集合选出的新中心点。
6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
若|Gi-Gj|>ε,且迭代次数为num,则停止迭代。
7.根据权利要求1或2所述的方法,其特征在于,在所述根据文本距离计算公式计算所述N个文本中两两之间的距离之前,所述方法还包括:
对所述N个文本进行word2vec向量化。
8.一种计算装置,所述计算装置应用于大数据系统,所述大数据系统包括k个场景,N个文本,最大的迭代次数num,N>k,k为大于2的正整数,其特征在于,包括:
第一计算模块,用于根据文本距离计算公式计算所述N个文本中任意两个文本之间的距离d(ti,tj),其中,ti表示第i个文本,tj表示第j个文本;
第一选择模块,用于选择所述任意两个文本之间的距离中最大距离对应的两个文本t1和t2,其中,所述t1为第一簇中心点,所述t2为第二簇中心点;
分配模块,用于当簇中心点的个数为k为2时,根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点和所述第二簇中心点,且同一个簇集合中包括所述第一簇中心点和所述第二簇中心点中的任意一个;
第二计算模块,用于根据中心点最优函数计算每个簇集合中的新中心点;
第二选择模块,用于在每个簇集合中,选取所述新中心点;
第三计算模块,用于根据标准测度函数公式计算第一次分配的分配误差Gi和第二次分配的分配误差Gj
处理模块,用于当|Gi-Gj|≤ε时,停止迭代,其中,ε为所有簇集合中心点与簇集合内每个点的距离之和。
9.一种计算装置,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一项所述的会话场景文本挖掘的方法的步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的会话场景文本挖掘的方法的步骤。
CN201811208617.7A 2018-10-17 2018-10-17 一种会话场景文本挖掘的方法及计算装置 Pending CN111061865A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811208617.7A CN111061865A (zh) 2018-10-17 2018-10-17 一种会话场景文本挖掘的方法及计算装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811208617.7A CN111061865A (zh) 2018-10-17 2018-10-17 一种会话场景文本挖掘的方法及计算装置

Publications (1)

Publication Number Publication Date
CN111061865A true CN111061865A (zh) 2020-04-24

Family

ID=70296921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811208617.7A Pending CN111061865A (zh) 2018-10-17 2018-10-17 一种会话场景文本挖掘的方法及计算装置

Country Status (1)

Country Link
CN (1) CN111061865A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376057A (zh) * 2014-11-06 2015-02-25 南京邮电大学 一种基于最大最小距离和K-means的自适应聚类方法
CN106597262A (zh) * 2017-01-17 2017-04-26 太仓市同维电子有限公司 一种基于K‑means算法的无线测试校准方法
WO2017076205A1 (zh) * 2015-11-04 2017-05-11 陈包容 一种获取聊天发起句的回复提示内容的方法及装置
CN108268611A (zh) * 2017-12-29 2018-07-10 天津南大通用数据技术股份有限公司 一种基于MapReduce的k-means文本聚类的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376057A (zh) * 2014-11-06 2015-02-25 南京邮电大学 一种基于最大最小距离和K-means的自适应聚类方法
WO2017076205A1 (zh) * 2015-11-04 2017-05-11 陈包容 一种获取聊天发起句的回复提示内容的方法及装置
CN106597262A (zh) * 2017-01-17 2017-04-26 太仓市同维电子有限公司 一种基于K‑means算法的无线测试校准方法
CN108268611A (zh) * 2017-12-29 2018-07-10 天津南大通用数据技术股份有限公司 一种基于MapReduce的k-means文本聚类的方法及装置

Similar Documents

Publication Publication Date Title
CN105427129B (zh) 一种信息的投放方法及系统
CN104579768B (zh) 客户端升级方法和装置
CN105893406A (zh) 群体用户画像方法及系统
CN104537000B (zh) 一种用于推送信息的方法和装置
CN108062573A (zh) 模型训练方法及装置
CN108334601B (zh) 基于标签主题模型的歌曲推荐方法、装置及存储介质
CN107306355B (zh) 一种内容推荐方法及服务器
CN111885399B (zh) 内容分发方法、装置、电子设备以及存储介质
CN105023165A (zh) 社交网络平台中投放任务的控制方法、装置及系统
CN110135912B (zh) 一种信息推送方法、装置、服务器和存储介质
CN102135983A (zh) 基于网络用户行为的群体划分方法和装置
CN111861596B (zh) 一种文本分类方法和装置
CN104834652A (zh) 一种服务于社交网络的短信策略的构建方法及其装置
JP2013164704A (ja) 情報処理装置、情報処理方法およびプログラム
CN108038734B (zh) 基于点评数据的城市商业设施空间分布探测方法及系统
CN109978575B (zh) 一种挖掘用户流量经营场景的方法及装置
CN107133268B (zh) 一种用于Web服务推荐的协同过滤方法
CN110855487A (zh) 网络用户相似度管理方法、装置及存储介质
CN111026969A (zh) 一种内容推荐方法、装置及存储介质和服务器
KR20180078022A (ko) 패션 분야의 트렌드 분석방법 및 이를 포함하는 저장매체
CN102902674A (zh) 服务群组分类方法和系统
CN112287111B (zh) 一种文本处理方法和相关装置
CN106846795A (zh) 人群密集区域的获取方法及装置
CN104965846B (zh) MapReduce平台上的虚拟人建立方法
CN106844743B (zh) 维吾尔语文本的情感分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200424