CN110750619B - 聊天记录关键词的提取方法、装置、计算机设备及存储介质 - Google Patents
聊天记录关键词的提取方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110750619B CN110750619B CN201910753715.7A CN201910753715A CN110750619B CN 110750619 B CN110750619 B CN 110750619B CN 201910753715 A CN201910753715 A CN 201910753715A CN 110750619 B CN110750619 B CN 110750619B
- Authority
- CN
- China
- Prior art keywords
- category
- chat
- word
- weight
- chat records
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 abstract description 4
- 238000001914 filtration Methods 0.000 description 12
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种聊天记录主题提取方法、装置、计算机设备及存储介质,该方法包括以下步骤:获取多条待提取主题的聊天记录;对所述多条聊天记录进行分词处理;对经过分词处理后的多条聊天记录进行聚类处理,以将所述多条聊天记录分成多个类别;根据所述每个类别下的聊天记录,获取每个类别对应的关键词;根据所述每个类别下聊天记录对应的关键词,得到所述多条聊天记录的主题。本发明在用户查看聊天记录时,可以通过显示聊天主题代替冗长的聊天记录,使显示内容更简洁、直观,提升用户体验。
Description
技术领域
本发明涉及文本处理领域,尤其涉及一种聊天记录主题提取方法、装置、计算机设备及存储介质。
背景技术
目前,基于通信网络的聊天工具正蓬勃发展,越来越多的人利用聊天工具进行聊天活动。聊天工具又称IM(Instant Messaging,即时通信)软件或者IM工具,主要提供基于互联网络的客户端进行实时语音、文字传输,为用户与用户之间提供会话服务。现有的聊天工具包括腾讯QQ、微信、易信、钉钉、百度HI、飞信、阿里旺旺、京东咚咚、以及各网站平台的在线客服等。在利用聊天工具进行聊天时,聊天的双方需要在人机界面上登录启动聊天设备后输入聊天信息,聊天设备将聊天信息发送给对方,以使双方进行聊天活动。当用户需要查看聊天记录时,由于聊天记录是以零散句子的形式显示给用户,需要用户翻看多页聊天记录,才能明白聊天记录涉及的主要内容,给查阅聊天内容造成不便。如果能够将聊天记录以简短的主题形式表达出来,供用户查阅,则用户可以迅速定位聊天记录,找到所需聊天内容,必然能够给用户带来新鲜的服务体验。目前常用的主题提取算法为LDA(LatentDirichlet Allocation,隐含狄利克雷分布)算法,但LDA算法不适合提取聊天记录这样的短文本关键词,因为LDA输出的关键词是通过计算TF-IDF(TermFrequency–InverseDocument Frequency,词频--反转文件频率)得到的,然而聊天记录携带的信息比较少,上下文语境不强,通过TF-IDF计算关键词没有考虑语义,因而无法获得准确的主题。
因此,本发明亟待提供一种更准确的聊天记录主题提取方法。
发明内容
针对上述现有技术的不足,本发明的目的在于提供一种聊天记录主题提取方法,以解决现有技术无法获得准确的聊天记录主题的问题。
为了实现上述目的,本发明提供一种聊天记录主题提取方法,包括以下步骤:
获取多条待提取主题的聊天记录;
对所述多条聊天记录进行分词处理;
对经过分词处理后的多条聊天记录进行聚类处理,以将所述多条聊天记录分成多个类别;
根据所述每个类别下的聊天记录,获取每个类别对应的关键词;
根据所述每个类别下聊天记录对应的关键词,得到所述多条聊天记录的主题。
进一步地,在对所述多条聊天记录进行分词处理后,还包括:对经过分词处理后的多条聊天记录进行预处理。
进一步地,所述预处理包括:
删除与预设停用表中的词相同的词;
删除词性为指定词性的词;和/或
删除词长度小于2的词。
进一步地,所述对经过分词处理后的多条聊天记录进行聚类的步骤通过LDA算法实现。
进一步地,所述根据所述每个类别下的聊天记录,获取每个类别对应的关键词的步骤包括:
根据textrank算法,构建所述每个类别各自对应的词图,并根据所述每个类别各自对应的词图计算所述每个类别下各词的textrank权重;
对于所述每个类别,提取相应类别下textrank权重最大的预定数量的词作为相应类别对应的关键词。
进一步地,所述根据所述每个类别下的聊天记录,获取每个类别对应的关键词的步骤包括:
根据textrank算法,构建所述每个类别各自对应的词图,并根据所述每个类别各自对应的词图计算所述每个类别下各词的textrank权重;
根据所述每个类别下各词的textrank权重及初始权重,计算所述每个类别下各词的综合权重
对于所述每个类别,提取相应类别下综合权重最大的预定数量的词作为相应类别对应的关键词。
进一步地,在所述获取多条待提取主题的聊天记录后,还包括:若获取的聊天记录为音频数据,则将所述音频数据转换为文字。
为了实现上述目的,本发明提供一种聊天记录主题提取装置,包括:
聊天记录获取模块,用于获取多条待提取主题的聊天记录;
词切分模块,用于对所述多条聊天记录进行分词处理;
聚类模块,用于对经过分词处理后的多条聊天记录进行聚类处理,以将所述多条聊天记录分成多个类别;
关键词获取模块,用于根据所述每个类别下的聊天记录,获取每个类别对应的关键词;
聊天主题获取模块,用于根据所述每个类别下聊天记录对应的关键词,得到所述多条聊天记录的主题。
进一步地,所述聊天记录主题提取装置还包括:预处理模块,用于在对所述多条聊天记录进行分词处理后,对经过分词处理后的多条聊天记录进行预处理。
进一步地,所述预处理模块包括:
停用词过滤单元,用于删除与预设停用表中的词相同的词;
词性过滤单元,用于删除词性为指定词性的词;和/或
词长过滤单元,用于删除词长度小于2的词。
进一步地,所述聚类模块通过LDA算法对经过分词处理后的多条聊天记录进行聚类。
进一步地,所述关键词获取模块具体用于:
根据textrank算法,构建所述每个类别各自对应的词图,并根据所述每个类别各自对应的词图计算所述每个类别下各词的textrank权重;
对于所述每个类别,提取相应类别下textrank权重最大的预定数量的词作为相应类别对应的关键词。
进一步地,所述关键词获取模块具体用于:
根据textrank算法,构建所述每个类别各自对应的词图,并根据所述每个类别各自对应的词图计算所述每个类别下各词的textrank权重;
根据所述每个类别下各词的textrank权重及初始权重,计算所述每个类别下各词的综合权重
对于所述每个类别,提取相应类别下综合权重最大的预定数量的词作为相应类别对应的关键词。
进一步地,所述聊天记录获取模块还用于:
在获取多条待提取主题的聊天记录后,检测是否有聊天记录为音频数据,若是,则将所述音频数据转换为文字。
为了实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方法的步骤。
通过采用上述技术方案,本发明具有如下有益效果:
本发明通过先采用LDA算法对聊天记录进行聚类,再采用textrank算法提取每个类别对应的关键词的方式得到准确的聊天记录主题,从而当用户查看聊天记录时,可以通过显示主题替代冗长的聊天记录,使显示内容更简洁、直观,提升用户体验。由于textrank算法考虑了词之间的依赖关系,即,考虑了上下文语义,使得到的关键词更能反应聊天记录的主题。同时,在采用textrank算法提取关键词之前进行聚类,可以分类提取每个类别下的主题个数,加快了计算效率,减小了系统资源消耗。
附图说明
图1为本发明聊天记录主题提取方法的一个实施例的流程图;
图2为本发明聊天记录主题提取装置的一个实施例的结构框图;
图3为本发明计算机设备的一个实施例的硬件架构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
参考图1,本实施例提供一种聊天记录主题提取方法,包括以下步骤:
S1,接收多条待提取主题的聊天记录,该聊天记录可以由腾讯QQ、微信、易信、钉钉、百度HI、飞信、阿里旺旺、京东咚咚、以及各网站平台的在线客服等提供,本步骤只要接收即可。
其中,若接收到的聊天记录为音频数据,则将音频数据转换为文字。在本实施例中,可以采用本领域常规的语音识别方法将音频数据转换为文字,如基于动态时间规整(DTW)的方法、基于隐马尔可夫(HMM)理论的方法或者基于矢量量化(VQ)的方法。语音识别是本领域的常用技术,在此对各种识别方法的具体实现过程不再赘述。
S2,对接收到的多条聊天记录分别进行分词处理,以将每条聊天记录分别切分成多个词。例如,将聊天记录“我们今天或者明天直接办理那个车险的话呢”切分成“我们/今天/或者/明天/直接/办理/那个/车险/的/话/呢”。通过本步骤的处理,可以将每一条聊天记录切分成若干个词,得到每一条聊天记录对应的词集,便于后续的处理操作。
在本步骤中,分词处理可以采用本领域常规的分词处理方法实现,例如将聊天记录中出现的词与预设的词库中的词作比较,当聊天记录中出现的词与词库中的词一致,则将该词切分出来。值得注意的是,本发明中提及的词可以为单个字,也可以为词语。例如,当聊天记录中的“我们”与字词库中的“我们”一致,则将该聊天记录中的“我们”单独切分出来。当聊天记录中的“的”与字词库中的“的”一致,则将该聊天记录中的“的”单独切分出来。优选地,可以采用各种现有的开源分词工具进行分词处理,例如开源的“结巴分词”工具。
S3,对经过分词处理后的多条聊天记录进行聚类,以将这些聊天记录分成多个类别。在本实施例中,优选采用LDA算法进行聚类,具体将多条聊天记录中的每一条聊天记录分别作为一个文档d,所有文档d组成文档集合D,各文档d经过前述分词处理后得到的词集为<w1,w2,...,wn>,其中wi表示第i个词,n表示各文档d的词数量。通过LDA算法对文档集合D进行聚类时,预先指定主题(topic)数目,其中,一个topic就是一类,假设预先指定k个topic,ti表示第i个topic。通过LDA聚类后,得到以下结果:对任意文档d,对应到不同topic的概率θd<Pt1,Pt2,...,Ptk>,其中,Pti表示文档d对应第i个topic的概率,若一文档d对应到某topic的概率最大,则将该文档d归属于该topic,并将归属于同一个topic的文档d归于同一类别。
此外,应该理解,步骤S2分词后的结果通常会包含若干无意义的字词如“的、了、过”,这些字词不仅对主题没有帮助,而且还占用了大量的计算存储资源,因此优选在聚类之前对其进行预处理。在本实施例中,预处理包括:停用词过滤、词性过滤以及词长度过滤。其中,停用词过滤是指将“的、了、过”之类无意义的字词汇总在预设的停用表中,当判断出聊天信息中出现上述字词,则删除该聊天记录中的上述字词。词性过滤是指对聊天记录中的各词进行标注,并将标注为指定词性(如形容词、副词)的字词删除。词长度过滤是指将词长度小于2的词(即分词处理产生的单个字)删除。
S4,根据每个类别下的聊天记录,提取各类别对应的关键词。具体地,根据textrank算法,构建每个类别各自对应的聊天记录词图,即以相应类别下聊天记录中的词作为词图中的节点,聊天记录中词的位置相邻关系作为节点间的连接边(将当前词与当前词后面的4个词分别组合成4条边),构建相应的聊天记录词图。例如,假设分词后的聊天记录“有/媒体/曝光/明星A/和明星B/现身/台北/桃园/机场/的/照片”,对于‘媒体‘这个词,就有('媒体','曝光')、('媒体','’明星A)、('媒体','和')、('媒体','明星B')4条边,且每条边权值为1,当某条边在之后再次出现时,权值再在基础上加1。
而后,根据如下公式(1)迭代计算每个节点的textrank权重,直到节点权重的变化量收敛到预定阀值(一般阀值为0.0001)为止:
(1)
其中,Vi表示第i个节点,Vj表示第j个节点,WS(Vi)表示节点Vi的textrank权重,WS(Vj)表示节点Vj的textrank权重,wji表示节点Vj和Vi和之间连接边的权重,一般用节点Vj和节点Vi的相似度表示;In(Vi)表示指向Vi节点的所有节点集合,Out(Vj)表示节点Vj指向的所有节点集合;d为迭代的阻尼系数(0≤d≤1),设置为0.85,可以以任意初始值(一般为1)开始迭代,迭代直至收敛为止。
迭代结束后,每个节点的textrank权重即为其所代表的词的重要程度,将每个类别下所有聊天记录的词按照textrank权重大小倒序排列并提取排列在前的预定数量的词,即获得相应类别下聊天记录对应的关键词。
S5,根据每个类别下聊天记录对应的关键词,得到多条聊天记录的主题。具体地,将将各类别下聊天记录对应的关键词进行拼接组合,即可得到待提取主题的多条聊天记录的主题。进而在用户查看聊天记录时,可以通过显示主题替代冗长的聊天记录,使显示内容更简洁、直观,提升用户体验。
例如,假设用户需提取如下四条聊天记录的主题:
第一条:四百块钱的一个返现金,今年是直接给您返现金的不是在人保上过了,就是相当于说您到时候,其实办理下来一千多也就可以办理了。
第二条:就您的保单拿出来就能看得到了今年的话呢,把这个所有的服务呢,也都给您开通了十三个增值服务。
第三条:我们今天或者明天直接办理那个车险的话呢?我们是有一些那个优惠,它是可以直接返现呢,是一千三百。
第四条:那我们保险还存在您一年的保险责任的对吧,所有的增值服务是三个服务,必要服务都开通的磕了碰了刮了蹭了什么的,就不用您自己再跑了什么的。
上述四条聊天记录经过本发明的LDA聚类步骤后,得到第一条和第三条聊天记录归于第一类别、第二条和第四条聊天记录归于第二类别的聚类结果;对第一类别进行词图构造和textrank权重计算后,将得到textrank权重最大的三个词:返现(权重为0.645)、优惠(权重为0.235)、办理(权重为0.025);对第二类别进行词图构造和textrank权重计算后,将得到textrank权重最大的三个词:增值服务(权重为0.456)、服务(权重为0.213)、(开通权重为0.012);最终,将得到上述四条聊天记录的主题:返现优惠办理、增值服务服务开通。
此外,在上述步骤S4中,根据业务需求,还可以对聊天记录中的某些词的权重进行调整。例如,假设用户认为聊天记录中“增值服务”这个词非常作要,则可以预先设置该词的权重,当通过textrank算法计算得到“增值服务”的textrank权重后,将“增值服务”对应的预设权重与计算得到的textrank权重相加,即可得到其综合权重。最后,将相应类别下所有聊天记录的词按照综合权重大小倒序排列并提取排列在前的若干词,即获得相应类别下聊天记录对应的关键词。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
实施例二
如图2所示,本发明提供一种聊天记录主题提取装置10,包括聊天记录接收模块11、词切分模块12、预处理模块13、聚类模块14、关键词获取模块15和聊天主题获取模块16,下面对各模块分别进行描述:
聊天记录接收模块11用于接收多条待提取主题的聊天记录,这些聊天记录可以由腾讯QQ、微信、易信、钉钉、百度HI、飞信、阿里旺旺、京东咚咚、以及各网站平台的在线客服等提供,本申请直接接收数据即可。若接收到的聊天记录为音频数据,则将音频数据转换为文字。
词切分模块12用于对接收到的多条聊天记录进行分词处理,以将每条聊天记录分别切分成多个词。例如,将聊天记录“我们今天或者明天直接办理那个车险的话呢”切分成“我们/今天/或者/明天/直接/办理/那个/车险/的/话/呢”。可见,通过本步骤的处理,可以将一条聊天记录切分成若干个词,得到每一条聊天记录对应的词集,便于后续的处理操作。
在本步骤中,分词处理可以采用本领域常规的分词处理方法实现,例如将聊天记录中出现的词与预设的词库中的词作比较,当聊天记录中出现的词与词库中的词一致,则将该词切分出来。值得注意的是,本发明中提及的词可以为单个字,也可以为词语。例如,当聊天记录中的“我们”与字词库中的“我们”一致,则将该聊天记录中的“我们”单独切分出来。当聊天记录中的“的”与字词库中的“的”一致,则将该聊天记录中的“的”单独切分出来。优选地,可以采用各种现有的开源分词工具进行分词处理,例如开源的“结巴分词”工具。
预处理模块13用于对经过分词处理后的多条聊天记录进行预处理。在本实施例中,所述预处理模块包括:停用词过滤单元,用于删除与预设停用表中的词相同的词;词性过滤单元,用于删除词性为指定词性的词;和/或词长过滤单元,用于删除词长度小于2的词。
聚类模块14用于对经过预处理的多条聊天记录进行聚类处理,以将所述多条聊天记录分成多个类别。在本实施例中,优选采用LDA算法进行聚类,具体将多条聊天记录中的每一条聊天记录分别作为一个文档d,所有文档d组成文档集合D,各文档d经过前述分词处理后得到的词集为<w1,w2,...,wn>,其中wi表示第i个词,n表示各文档d的词数量。通过LDA算法对文档集合D进行聚类时,预先指定主题(topic)数目,其中,一个topic就是一类,假设预先指定k个topic,ti表示第i个topic。通过LDA聚类后,得到以下结果:对任意文档d,对应到不同topic的概率θd<Pt1,Pt2,...,Ptk>,其中,Pti表示文档d对应第i个topic的概率,若一文档d对应到某topic的概率最大,则将该文档d归属于该topic,并将归属于同一个topic的文档d归于同一类别。
关键词获取模块15用于根据所述每个类别下的聊天记录,获取每个类别对应的关键词。具体地,根据textrank算法,构建每个类别各自对应的聊天记录词图,即以相应类别下聊天记录中的词作为词图中的节点,聊天记录中词的位置相邻关系作为节点间的连接边(将当前词与当前词后面的4个词分别组合成4条边),构建相应的聊天记录词图。例如,假设分词后的聊天记录“有/媒体/曝光/明星A/和/明星B/现身/台北/桃园/机场/的/照片”,对于‘媒体‘这个词,就有('媒体','曝光')、('媒体','明星A')、('媒体','和')、('媒体','明星B')4条边,且每条边权值为1,当某条边在之后再次出现时,权值再在基础上加1。
而后,根据如下公式(1)迭代计算每个节点的textrank权重,直到节点权重的变化量收敛到预定阀值(一般阀值为0.0001)为止:
(1)
其中,Vi表示第i个节点,Vj表示第j个节点,WS(Vi)表示节点Vi的textrank权重,WS(Vj)表示节点Vj的textrank权重,wji表示节点Vj和Vi和之间连接边的权重,一般用节点Vj和节点Vi的相似度表示;In(Vi)表示指向Vi节点的所有节点集合,Out(Vj)表示节点Vj指向的所有节点集合;d为迭代的阻尼系数(0≤d≤1),设置为0.85,可以以任意初始值(一般为1)开始迭代,迭代直至收敛为止。
迭代结束后,每个节点的textrank权重即为其所代表的词的重要程度,将每个类别下所有聊天记录的词按照textrank权重大小倒序排列并提取排列在前的预定数量的词,即获得相应类别下聊天记录对应的关键词。
此外,根据业务需求,关键词获取模块还可以对聊天记录中的某些词的权重进行调整。例如,假设用户认为聊天记录中“增值服务”这个词非常作要,则可以预先设置该词的权重,当通过textrank算法计算得到“增值服务”的textrank权重后,将“增值服务”对应的预设权重与计算得到的textrank权重相加,即可得到其综合权重。最后,将相应类别下所有聊天记录的词按照综合权重大小倒序排列并提取排列在前的若干词,即获得相应类别下聊天记录对应的关键词。
聊天主题获取模块16用于根据所述每个类别下聊天记录对应的关键词,得到所述多条聊天记录的主题。具体地,将各类别下聊天记录对应的关键词进行拼接组合,得到所述多条聊天记录的主题。进而在用户查看聊天记录时,可以通过显示主题替代冗长的聊天记录,使显示内容更简洁、直观,提升用户体验。
本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的模块并不一定是本发明所必须的。
实施例三
本发明还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器22,如图3所示。需要指出的是,图3仅示出了具有组件21-22的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件,例如实施例二的聊天记录主题提取装置10的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行聊天记录主题提取装置10,以实现实施例一的聊天记录主题提取方法。
实施例四
本发明还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储聊天记录主题提取装置10,被处理器执行时实现实施例一的聊天记录主题提取方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种聊天记录主题提取方法,其特征在于,包括以下步骤:
接收多条待提取主题的聊天记录;
对多条聊天记录进行分词处理;
对经过分词处理后的多条聊天记录进行聚类处理,以将所述多条聊天记录分成多个类别;其中,将多条聊天记录中的每一条聊天记录分别作为一个文档,所有文档组成文档集合;所述对经过分词处理后的多条聊天记录进行聚类的步骤通过LDA算法实现,通过LDA算法对文档集合进行聚类时,预先指定主题数目k,一个主题为一类,通过LDA聚类后,对任意文档,对应到不同主题的概率θd<Pt1,Pt2,...,Ptk>,其中,ti表示第i个主题,Pti表示文档对应第i个主题的概率;若第一文档对应到第一主题的概率最大,则将所述第一文档归属于所述第一主题,并将归属于同一个主题的文档归于同一类别;所述第一文档是所有文档中的一个,所述第一主题是k个主题中的一个;
根据每个类别下的聊天记录,获取所述每个类别对应的关键词;其中,包括:根据textrank算法,构建所述每个类别各自对应的词图,并根据所述每个类别各自对应的词图计算所述每个类别下各词的textrank权重;对于所述每个类别,提取相应类别下textrank权重最大的预定数量的词作为相应类别对应的关键词;或根据textrank算法,构建所述每个类别各自对应的词图,并根据所述每个类别各自对应的词图计算所述每个类别下各词的textrank权重;根据所述每个类别下各词的textrank权重及初始权重,计算所述每个类别下各词的综合权重;对于所述每个类别,提取相应类别下综合权重最大的预定数量的词作为相应类别对应的关键词;
根据所述每个类别下聊天记录对应的关键词,得到所述多条聊天记录的主题。
2.根据权利要求1所述的聊天记录主题提取方法,其特征在于,在对所述多条聊天记录进行分词处理后,还包括:对经过分词处理后的多条聊天记录进行预处理。
3.根据权利要求2所述的聊天记录主题提取方法,其特征在于,所述预处理包括:
删除与预设停用表中的词相同的词;
删除词性为指定词性的词;和/或
删除词长度小于2的词。
4.根据权利要求1所述的聊天记录主题提取方法,其特征在于,接收多条待提取主题的聊天记录后,还包括:若获取的聊天记录为音频数据,则将所述音频数据转换为文字。
5.一种聊天记录主题提取装置,其特征在于,包括:
聊天记录接收模块,用于接收多条待提取主题的聊天记录;
词切分模块,用于对多条聊天记录进行分词处理;
聚类模块,用于对经过分词处理后的多条聊天记录进行聚类处理,以将所述多条聊天记录分成多个类别;其中,所述对经过分词处理后的多条聊天记录进行聚类的步骤通过LDA算法实现,将多条聊天记录中的每一条聊天记录分别作为一个文档,所有文档组成文档集合,通过LDA算法对文档集合进行聚类时,预先指定主题数目k,一个主题为一类,通过LDA聚类后,对任意文档,对应到不同主题的概率θd<Pt1,Pt2,...,Ptk>,其中,ti表示第i个主题,Pti表示文档对应第i个主题的概率;若第一文档对应到第一主题的概率最大,则将所述第一文档归属于所述第一主题,并将归属于同一个主题的文档归于同一类别;所述第一文档是所有文档中的一个,所述第一主题是k个主题中的一个;
关键词获取模块,用于根据每个类别下的聊天记录,获取所述每个类别对应的关键词;其中,包括:根据textrank算法,构建所述每个类别各自对应的词图,并根据所述每个类别各自对应的词图计算所述每个类别下各词的textrank权重;对于所述每个类别,提取相应类别下textrank权重最大的预定数量的词作为相应类别对应的关键词;或根据textrank算法,构建所述每个类别各自对应的词图,并根据所述每个类别各自对应的词图计算所述每个类别下各词的textrank权重;根据所述每个类别下各词的textrank权重及初始权重,计算所述每个类别下各词的综合权重;对于所述每个类别,提取相应类别下综合权重最大的预定数量的词作为相应类别对应的关键词;
聊天主题获取模块,用于根据所述每个类别下聊天记录对应的关键词,得到所述多条聊天记录的主题。
6.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910753715.7A CN110750619B (zh) | 2019-08-15 | 2019-08-15 | 聊天记录关键词的提取方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910753715.7A CN110750619B (zh) | 2019-08-15 | 2019-08-15 | 聊天记录关键词的提取方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110750619A CN110750619A (zh) | 2020-02-04 |
CN110750619B true CN110750619B (zh) | 2024-05-28 |
Family
ID=69275857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910753715.7A Active CN110750619B (zh) | 2019-08-15 | 2019-08-15 | 聊天记录关键词的提取方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110750619B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111555960A (zh) * | 2020-04-24 | 2020-08-18 | 上海盛付通电子支付服务有限公司 | 信息生成的方法 |
CN113127746B (zh) * | 2021-05-13 | 2022-10-04 | 心动网络股份有限公司 | 基于用户聊天内容分析的信息推送方法及其相关设备 |
CN113821603A (zh) * | 2021-09-29 | 2021-12-21 | 平安普惠企业管理有限公司 | 记录信息处理方法、装置、设备和存储介质 |
CN114818661A (zh) * | 2022-01-27 | 2022-07-29 | 南京万得资讯科技有限公司 | 一种即时聊天通讯工具快速爬楼方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108595425A (zh) * | 2018-04-20 | 2018-09-28 | 昆明理工大学 | 基于主题与语义的对话语料关键词抽取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016070028A1 (en) * | 2014-10-31 | 2016-05-06 | Informite Inc. | Systems and methods for keyword research and analysis for paid search |
US10635703B2 (en) * | 2017-10-19 | 2020-04-28 | International Business Machines Corporation | Data clustering |
-
2019
- 2019-08-15 CN CN201910753715.7A patent/CN110750619B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108595425A (zh) * | 2018-04-20 | 2018-09-28 | 昆明理工大学 | 基于主题与语义的对话语料关键词抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110750619A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750619B (zh) | 聊天记录关键词的提取方法、装置、计算机设备及存储介质 | |
US11663411B2 (en) | Ontology expansion using entity-association rules and abstract relations | |
US11593671B2 (en) | Systems and methods for semantic analysis based on knowledge graph | |
CN111368043A (zh) | 基于人工智能的事件问答方法、装置、设备及存储介质 | |
US8516052B2 (en) | Dynamically managing online communication groups | |
US8768686B2 (en) | Machine translation with side information | |
CN106960030B (zh) | 基于人工智能的推送信息方法及装置 | |
CN110929043B (zh) | 业务问题提取方法及装置 | |
WO2020087774A1 (zh) | 基于概念树的意图识别方法、装置及计算机设备 | |
CN110866110A (zh) | 基于人工智能的会议纪要生成方法、装置、设备及介质 | |
CN110929145A (zh) | 舆情分析方法、装置、计算机装置及存储介质 | |
WO2013068854A2 (en) | Systems, methods, and interfaces for analyzing conceptually-related portions of text | |
CN110427453B (zh) | 数据的相似度计算方法、装置、计算机设备及存储介质 | |
CN111061837A (zh) | 话题识别方法、装置、设备及介质 | |
CN110909120A (zh) | 简历搜索/投递方法、装置、系统及电子设备 | |
CN111507114B (zh) | 基于反向翻译的口语文本增强方法及系统 | |
CN107766498B (zh) | 用于生成信息的方法和装置 | |
US20210319481A1 (en) | System and method for summerization of customer interaction | |
CN113934848A (zh) | 一种数据分类方法、装置和电子设备 | |
CN113111658A (zh) | 校验信息的方法、装置、设备和存储介质 | |
CN108768742B (zh) | 网络构建方法及装置、电子设备、存储介质 | |
CN113157896B (zh) | 一种语音对话生成方法、装置、计算机设备及存储介质 | |
CN115688769A (zh) | 一种基于长文本的意图识别方法、装置、设备及存储介质 | |
CN115080744A (zh) | 一种数据处理的方法和装置 | |
CN112287101B (zh) | 信息处理方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |