CN105005555A

CN105005555A - 基于聊天时间的关键词提取方法及装置

Info

Publication number: CN105005555A
Application number: CN201510446388.2A
Authority: CN
Inventors: 陈包容
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-07-28
Filing date: 2015-07-28
Publication date: 2015-10-28

Abstract

本发明公开了一种基于聊天时间的关键词提取方法及装置，通过获取历史聊天文本，对历史聊天文本进行预处理，获得特征项文本，预处理包括分词、去除停用词，统计特征项文本的词频数，计算特征项文本的平均聊天时间差，平均聊天时间差为每一个特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差，基于特征项文本的词频数和平均聊天时间差获取关键词，解决了仅仅根据特征项文本的词频数提取关键词可能导致提取的关键词不准确或并非是用户真正感兴趣的关键词的技术问题，实现了结合聊天时间进行关键词的提取，从而使得提取的关键词更准确，更与时俱进和个性化。

Description

基于聊天时间的关键词提取方法及装置

技术领域

本发明涉及通讯领域，特别地，涉及一种基于聊天时间的关键词提取方法及装置。

背景技术

随着通信技术的发展，越来越多的用户喜欢在移动终端与好友进行聊天，且通过对用户的聊天文本进行分析可以获得聊天文本的关键词，从而获得用户感兴趣的内容。现有对聊天文本提取关键词的方法层出不穷，例如最常见的是基于词频数的方法提取关键词，具体地，首先对聊天文本进行分词等预处理操作，获得特征项文本，然后计算特征项文本的词频数，最后再基于词频数的大小提取关键词。

仅仅根据特征项文本的词频数作为关键词提取的指标，可能会出现一些不是用户真正感兴趣的关键词。例如当两个对电视剧都感兴趣的聊天双方于2014年主要讨论的电视剧为“来自星星的你”，而于2015年主要讨论的电视剧为“武则天”，故经分词后的有关“武则天”电视剧的特征项文本（例如“范冰冰”）的词频数可能远远小于2014年的“来自星星的你”的特征项文本（例如“炸鸡、啤酒”）的词频数，而类似“炸鸡、啤酒”关键词内容的流行度在2015年已经消退了，故用户对这种尽管词频数较大的关键词并不感兴趣。因此，亟需提供一种能根据用户的聊天时间提取关键词的方法及装置。

发明内容

本发明提供了一种基于聊天时间的关键词提取方法及装置，以解决仅仅根据特征项文本的词频数提取关键词可能导致提取的关键词不准确或并非是用户真正感兴趣的关键词的技术问题。

根据本发明的一方面，提供了一种基于聊天时间的关键词提取方法，包括：

获取历史聊天文本；

对历史聊天文本进行预处理，获得特征项文本，预处理包括分词、去除停用词；

统计特征项文本的词频数；

计算特征项文本的平均聊天时间差，平均聊天时间差为每一个特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差；

基于特征项文本的词频数和平均聊天时间差获取关键词。

进一步地，基于特征项文本的词频数和平均聊天时间差获取关键词包括：

根据特征项文本的平均聊天时间差计算特征项文本的聊天时间系数，聊天时间系数的计算公式为：，其中代表聊天时间系数，代表特征项文本的平均聊天时间差；

将特征项文本的词频数与其对应的聊天时间系数的乘积作为特征项文本的关键度；

选取关键度大于预设阈值的特征项文本作为关键词。

进一步地，历史聊天文本为与当前聊天对象的历史聊天文本，和/或与其他聊天对象的历史聊天文本。

进一步地，基于特征项文本的词频数和平均聊天时间差获取关键词之后还包括：

将关键词进行高亮显示。

进一步地，将关键词进行高亮显示包括：

判断关键词是否均包含于聊天双方的历史聊天文本中，若是，则将关键词在聊天双方的当前聊天文本中同时进行高亮显示，

若否，则只在发送包含关键词的聊天文本对应的聊天方进行高亮显示。

进一步地，将关键词进行高亮显示之后还包括：

采用模糊搜索机制在预先建立的数据库和/或互联网上搜索并弹框显示与关键词对应的搜索结果页面。

根据本发明的另一方面，提供了一种基于聊天时间的关键词提取装置，包括：

历史聊天文本获取装置，用于获取历史聊天文本；

预处理装置，用于对历史聊天文本进行预处理，获得特征项文本，预处理包括分词、去除停用词；

词频数统计装置，用于统计特征项文本的词频数；

平均时间差计算装置，用于计算特征项文本的平均聊天时间差，平均聊天时间差为每一个特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差；

关键词获取装置，用于基于特征项文本的词频数和平均聊天时间差获取关键词。

进一步地，关键词获取装置包括：

聊天时间系数计算装置，用于根据特征项文本的平均聊天时间差计算特征项文本的聊天时间系数，聊天时间系数的计算公式为：，其中代表聊天时间系数，代表特征项文本的平均聊天时间差；

关键度计算装置，用于将特征项文本的词频数与其对应的聊天时间系数的乘积作为特征项文本的关键度；

选取装置，用于选取关键度大于预设阈值的特征项文本作为关键词。

进一步地，基于聊天时间的关键词提取装置还包括：

高亮显示装置，用于将关键词进行高亮显示。

进一步地，基于聊天时间的关键词提取装置还包括：

搜索装置，用于采用模糊搜索机制在预先建立的数据库和/或互联网上搜索并弹框显示与关键词对应的搜索结果页面。

本发明具有以下有益效果：

本发明公开了的基于聊天时间的关键词提取方法及装置，通过获取历史聊天文本，对历史聊天文本进行预处理，获得特征项文本，预处理包括分词、去除停用词，统计特征项文本的词频数，计算特征项文本的平均聊天时间差，平均聊天时间差为每一个特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差，基于特征项文本的词频数和平均聊天时间差获取关键词，解决了仅仅根据特征项文本的词频数提取关键词可能导致提取的关键词不准确或并非是用户真正感兴趣的关键词的技术问题，实现了结合聊天时间进行关键词的提取，从而使得提取的关键词更准确，更与时俱进和个性化。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的基于聊天时间的关键词提取方法的流程图；

图2是本发明优选实施例针对一个精简的实施例的基于聊天时间的关键词提取方法的流程图；

图3是本发明优选实施例的基于聊天时间的关键词提取装置的结构示意图。

附图标记说明：

10、历史聊天文本获取装置；20、预处理装置；30、词频数统计装置；40、平均时间差计算装置；50、关键词获取装置。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1，本发明的优选实施例提供了一种基于聊天时间的关键词提取方法，包括：

步骤S101，获取历史聊天文本；

步骤S102，对历史聊天文本进行预处理，获得特征项文本，预处理包括分词、去除停用词；

步骤S103，统计特征项文本的词频数；

步骤S104，计算特征项文本的平均聊天时间差，平均聊天时间差为每一个特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差；

步骤S105，基于特征项文本的词频数和平均聊天时间差获取关键词。

本发明优选实施例的基于聊天时间的关键词提取方法，通过获取历史聊天文本，对历史聊天文本进行预处理，获得特征项文本，预处理包括分词、去除停用词，统计特征项文本的词频数，计算特征项文本的平均聊天时间差，平均聊天时间差为每一个特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差，基于特征项文本的词频数和平均聊天时间差获取关键词，解决了仅仅根据特征项文本的词频数提取关键词可能导致提取的关键词不准确或并非是用户真正感兴趣的关键词的技术问题，实现了结合聊天时间进行关键词的提取，从而使得提取的关键词更准确，更与时俱进和个性化。本实施例通过对历史聊天文本的分析，智能提取聊天过程中关键词，整个过程无需人工参与且智能化程度高。

本实施例中的历史聊天文本处于实时更新的状态，即只要接收成功的聊天文本都属于历史聊天文本，但在具体的实施过程中，可以仅仅取近期（近一周、近一个月）的聊天文本作为历史聊天文本、也可以是用户自定义的任一时间段内的聊天文作为历史聊天文本。

本实施例采用正向最大匹配法或逆向最大匹配法对历史聊天文本进行分词，其中正向最大匹配法的具体过程为，首先预先设置对历史聊天文本分词用的词典，然后从待切分的历史聊天文本中按自左到右的顺序截取一个定长的文字串，通常为6至8个文字（或长度为词典中的最大词长），这个字符串的长度称为最大词长。将这个具有最大词长的字符串与词典中的词进行匹配，若匹配成功，则可确定这个字符串为词，计算机程序的指针向后移动与给定最大词长相应个数的文字，继续进行匹配，否则，把该字符串从右边逐次减去一个文字，再与词典中的词进行匹配，直到成功为止。逆向最大匹配法的基本原理与正向最大匹配法的基本原理相同，所不同的是分词时对待切分历史聊天文本的扫描方向。具体地，逆向最大匹配法从待切分历史聊天文本中截取字符串的方向是从右至左，且在与词典匹配不成功时，将所截取的字符串从左至右逐次减去一个文字，再与词典中的词进行匹配，直到匹配成功。

可选地，基于特征项文本的词频数和平均聊天时间差获取关键词包括：

选取关键度大于预设阈值的特征项文本作为关键词。

本实施例基于特征项文本的平均聊天时间差计算特征项文本的聊天时间系数，其中聊天时间系数的计算公式为：，其中代表聊天时间系数，代表特征项文本的平均聊天时间差，本实施例设计的聊天时间系数的计算函数为一个递减函数，即随着特征项文本的平均聊天时间差的增大而减小。在获得特征项文本的聊天时间系数后，将特征项文本的词频数与其对应的聊天时间系数的乘积作为特征项文本的关键度，并选取关键度大于预设阈值的特征项文本作为关键词。由此可见，本实施例结合特征项文本的词频数和平均聊天时间差计算出的关键度获取最终的关键词，提高了关键词提取的准确度。

本实施例中最终的关键词可以为一个也可以为多个，具体的可以根据设置不同的预设阈值来获取，在具体的实施过程中，本实施例也可以提高多个关键词供用户选择，并将用户选择的一个或多个关键词作为最终的关键词，大大的提升了用户体验。此外，本实施例中根据特征项文本的平均聊天时间差计算特征项文本的聊天时间系数函数不限于采用本实施例的计算公式，也可以是其他关于随特征项文本的平均聊天时间差递减的函数。

可选地，历史聊天文本为与当前聊天对象的历史聊天文本，和/或与其他聊天对象的历史聊天文本。

在具体的实施过程中，历史聊天文本可以仅仅为用户与当前聊天对象的历史聊天文本，或者仅仅为用户与其他聊天对象的历史聊天文本，或者既包含用户与当前聊天对象的历史聊天文本，又包含用户与其他聊天对象的历史聊天文本。同时，用户与当前聊天对象的聊天文本可以是近期（近一周、近一个月）的历史聊天文本、也可以是用户自定义的任一时间段内的聊天文本；用户与其他聊天对象的历史聊天文本可以是用户与所有的聊天对象的历史聊天文本，也可以是用户与部分聊天对象的历史聊天文本。本实施例通过将用户与其他聊天对象的历史聊天文本作为提取关键词的历史聊天文本，增大了关键词提取的历史聊天文本数量，不仅能提取出用户与当前聊天对象同时感兴趣的关键词，还能提取用户与其他聊天对象同时感兴趣的关键词，扩大了关键词的提取范围及领域，提高了用户聊天体验。

可选地，基于特征项文本的词频数和平均聊天时间差获取关键词之后还包括将关键词进行高亮显示。

为了将提取的关键词起到更好的提示作用，本实施例在基于特征项文本的词频数和平均聊天时间差获取关键词之后还包括将关键词进行高亮显示。本实施例将关键词进行高亮显示只是将该关键词突出的一种形式，但本实施例不限于采用该种突出显示形式，例如本实施例还可以通过将关键词进行字体颜色改变、字体字形改变等多种方式进行突出。

可选地，将关键词进行高亮显示包括：

由于历史聊天文本可以为与当前聊天对象的历史聊天文本，也可以为与其他聊天对象的历史聊天文本，故当历史聊天文本包括与其他聊天对象的历史聊天文本时，可能出现提取的关键词仅仅为其中一方的感兴趣内容，即对分析出的关键词不感兴趣的聊天方并不希望高亮显示该关键词。针对这个问题，本实施例判断关键词是否均包含于当前聊天双方的历史聊天文本中，若是，则将关键词在当前聊天双方的当前聊天文本中同时进行高亮显示，若否，则只在发送包含关键词的当前聊天文本对应的聊天方进行高亮显示。通过判断提取出的关键词是否均包含于当前聊天双方的历史聊天文本中，从而可知该关键词是否为当前聊天双方均感兴趣的内容，若是，则将关键词在当前聊天双方的当前聊天文本中同时进行高亮显示，否则，只在发送包含关键词的当前聊天文本对应的聊天方进行高亮显示，从而增强了关键词的个性化显示，提升了用户聊天体验。

可选地，将关键词进行高亮显示之后还包括：采用模糊搜索机制在预先建立的数据库和/或互联网上搜索并弹框显示与关键词对应的搜索结果页面。

本实施例在检测到高亮的关键词被访问或点击时，通过模糊搜索机制在预先建立的数据库和/或互联网上搜索与关键词和/或属性关键词对应的搜索结果页面。其中，本实施例中的模糊检索机制是与精确搜索相对应的一个概念，是指搜索系统自动按照关键词的同义词进行模糊检索，从而得出较多的检索结果，同义词为系统预先设置的，例如。如将“电脑”与“computer”配置为同义词后，检索“电脑”，则包含“computer”的搜索结果，也会出现在检索结果页面中。模糊检索机制也就是同义词检索，这里的同义词是用户通过“检索管理”中的“同义词典”来配置的。采用模糊搜索机制，在进行搜索匹配时，则关键词的所有同义词信息也都被检索出来。采用这种模糊搜索机制，可以自动搜索关键词的同义词, 从而提高搜索的精确性。

下面以一个精简的实施例对本实施例的基于聊天时间的关键词提取方法进行更进一步的说明，参照图2，该方法主要包括以下步骤：

步骤S201，获取历史聊天文本。

步骤S202，对历史聊天文本进行预处理，获得特征项文本，预处理包括分词、去除停用词。

步骤S203，统计特征项文本的词频数。

步骤S204，计算特征项文本的平均聊天时间差，平均聊天时间差为每一个特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差。本实施例假设当前的系统时间为2015年7月10日（本实施例以日为最小时间单位，处于同一日的特征项文本所处的历史聊天文本对应的系统时间相同），且假设经过对历史聊天文本进行预处理后，得到的特征项文本、特征项文本的词频数以及特征项文本所处的历史聊天文本对应的系统时间如表1所示，表1列举了三个特征项文本的词频数，及其每一个特征项文本所处的历史聊天文本对应的系统时间。根据表1所述的数据，可以得到特征项文本的平均聊天时间差。

表1

步骤S205，根据特征项文本的平均聊天时间差计算特征项文本的聊天时间系数，聊天时间系数的计算公式为：，其中代表聊天时间系数，代表特征项文本的平均聊天时间差。通过计算公式，可以得到特征项文本的聊天时间系数如表2所示。

步骤S206，将特征项文本的词频数与其对应的聊天时间系数的乘积作为特征项文本的关键度。从表2可以看出，尽管词频数最大的特征项文本为t1，但从表1中可知特征项文本t1所处的历史聊天文本对应的系统时间主要集中在2014年，如果仅仅根据特征项文本的词频数为指标选取关键词，可能会得到并非聊天双方真正感兴趣的关键词，故本实施例将特征项文本的词频数与其对应的聊天时间系数的乘积作为关键词的选取指标，从而提高了关键词提取的准确度，且选取的关键词也更具有个性化以及更与时俱进。

表2

特征项文本的词频数	特征项文本的平均聊天时间差	聊天时间系数	关键度
				t1=6	434.67	0.38	2.28
t2=3	66.67	0.55	1.65
				t3=3	17.67	0.79	2.37

步骤S207，选取关键度大于预设阈值的特征项文本作为关键词。在具体的实施过程中，既可以通过预设阈值获取关键词，还可以先根据关键度对特征项文本进行排序，然后通过设置选取前若干个特征项文本作为关键词。

参照图3，本实施例提供了一种基于聊天时间的关键词提取装置，包括：

历史聊天文本获取装置10，用于获取历史聊天文本；

预处理装置20，用于对历史聊天文本进行预处理，获得特征项文本，预处理包括分词、去除停用词；

词频数统计装置30，用于统计特征项文本的词频数；

平均时间差计算装置40，用于计算特征项文本的平均聊天时间差，平均聊天时间差为每一个特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差；

关键词获取装置50，用于基于特征项文本的词频数和平均聊天时间差获取关键词。

可选地，关键词获取装置50包括：

可选地，基于聊天时间的关键词提取装置还包括：

高亮显示装置，用于将关键词进行高亮显示。

可选地，基于聊天时间的关键词提取装置还包括：

本实施例的基于聊天时间的关键词提取装置的具体工作过程和工作原理可参照本实施例中的基于聊天时间的关键词提取方法的工作过程和工作原理。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于聊天时间的关键词提取方法，其特征在于，包括：

获取历史聊天文本；

对所述历史聊天文本进行预处理，获得特征项文本，所述预处理包括分词、去除停用词；

统计所述特征项文本的词频数；

计算所述特征项文本的平均聊天时间差，所述平均聊天时间差为每一个所述特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差；

基于所述特征项文本的词频数和平均聊天时间差获取关键词。

2.根据权利要求1所述的基于聊天时间的关键词提取方法，其特征在于，基于所述特征项文本的词频数和平均聊天时间差获取关键词包括：

根据所述特征项文本的平均聊天时间差计算所述特征项文本的聊天时间系数，所述聊天时间系数的计算公式为：，其中代表聊天时间系数，代表所述特征项文本的平均聊天时间差；

将所述特征项文本的词频数与其对应的聊天时间系数的乘积作为所述特征项文本的关键度；

选取所述关键度大于预设阈值的特征项文本作为关键词。

3.根据权利要求1-2任一所述的基于聊天时间的关键词提取方法，其特征在于，所述历史聊天文本为与当前聊天对象的历史聊天文本，和/或与其他聊天对象的历史聊天文本。

4.根据权利要求3所述的基于聊天时间的关键词提取方法，其特征在于，基于所述特征项文本的词频数和平均聊天时间差获取关键词之后还包括：

将所述关键词进行高亮显示。

5.根据权利要求4所述的基于聊天时间的关键词提取方法，其特征在于，将所述关键词进行高亮显示包括：

判断所述关键词是否均包含于聊天双方的历史聊天文本中，若是，则将所述关键词在所述聊天双方的当前聊天文本中同时进行高亮显示，

若否，则只在发送包含所述关键词的聊天文本对应的聊天方进行高亮显示。

6.根据权利要求5述的基于聊天时间的关键词提取方法，其特征在于，将所述关键词进行高亮显示之后还包括：

采用模糊搜索机制在预先建立的数据库和/或互联网上搜索并弹框显示与所述关键词对应的搜索结果页面。

7.一种基于聊天时间的关键词提取装置，其特征在于，包括：

历史聊天文本获取装置（10），用于获取历史聊天文本；

预处理装置（20），用于对所述历史聊天文本进行预处理，获得特征项文本，所述预处理包括分词、去除停用词；

词频数统计装置（30），用于统计所述特征项文本的词频数；

平均时间差计算装置（40），用于计算所述特征项文本的平均聊天时间差，所述平均聊天时间差为每一个所述特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差；

关键词获取装置（50），用于基于所述特征项文本的词频数和平均聊天时间差获取关键词。

8.根据权利要求7所述的基于聊天时间的关键词提取装置，其特征在于，关键词获取装置（50）包括：

聊天时间系数计算装置，用于根据所述特征项文本的平均聊天时间差计算所述特征项文本的聊天时间系数，所述聊天时间系数的计算公式为：，其中代表聊天时间系数，代表所述特征项文本的平均聊天时间差；

关键度计算装置，用于将所述特征项文本的词频数与其对应的聊天时间系数的乘积作为所述特征项文本的关键度；

选取装置，用于选取所述关键度大于预设阈值的特征项文本作为关键词。

9.根据权利要求8所述的基于聊天时间的关键词提取装置，其特征在于，基于聊天时间的关键词提取装置还包括：

高亮显示装置，用于将所述关键词进行高亮显示。

10.根据权利要求7-9任一所述的基于聊天时间的关键词提取装置，其特征在于，基于聊天时间的关键词提取装置还包括：

搜索装置，用于采用模糊搜索机制在预先建立的数据库和/或互联网上搜索并弹框显示与所述关键词对应的搜索结果页面。