CN107526791A

CN107526791A - 一种热句识别方法及系统

Info

Publication number: CN107526791A
Application number: CN201710697563.4A
Authority: CN
Inventors: 黄颖; 徐博; 崔颢甜
Original assignee: Ai Mu (shanghai) Culture Media Co Ltd
Current assignee: Ai Mu (shanghai) Culture Media Co Ltd
Priority date: 2017-08-15
Filing date: 2017-08-15
Publication date: 2017-12-29

Abstract

本发明公开了一种热句识别方法及系统，该方法包括以下步骤：对网页中的文本信息进行抓取，获取原始数据；对所述原始数据进行预处理，获得目标数据；根据预设的VSM模型对所述目标数据进行特征项选取，得出热句集合，并计算所述热句集合中特征项的第一词频，得出关键词；根据所述关键词进行权值计算，得出逆向文本频率；根据所述逆向文本频率计算出不同文本信息之间的相似度，并与预设的阈值进行比较，将超过所述阈值的文本信息进行合并，并计算合并后文本信息中所述特征项的第二词频；根据所述第二词频，将合并后的文本信息展示在客户端上；其效果是：避免了人工进行热词筛选的同时，也提高了查找的工作效率。

Description

一种热句识别方法及系统

技术领域

本发明属于计算机文本信息处理领域，具体地涉及一种热句识别方法及系统。

背景技术

随着计算机通信技术的发展，用户的网络生活越来越丰富，在各种社交网络上浏览新闻、逛贴吧、发布信息等，渐渐成为大众生活的一部分。在这些网页上面，留下了很多热句，这些热句可以应用在文案写作上面。目前网上大部分的热句是经过人工筛选，缺少对热句的自动识别，工作效率低。

发明内容

为了解决上述问题，本发明提供一种热句识别方法及系统，以解决现有技术中需要人工进行筛选、工作效率低的缺陷。

本发明采取的一种技术方案为：一种热句识别方法，包括以下步骤：

对文本信息进行抓取，获取原始数据；

对所述原始数据进行预处理，获得目标数据；

根据预设的VSM模型对所述目标数据进行特征项选取，得出热句集合，并计算所述热句集合中特征项的第一词频，得出关键词；

根据所述关键词进行权值计算，得出逆向文本频率；

根据所述逆向文本频率计算出不同文本信息之间的相似度，并与预设的阈值进行比较，将超过所述阈值的文本信息进行合并，并计算合并后文本信息中所述特征项的第二词频；

根据所述第二词频，将合并后的文本信息展示在客户端上。

优选的，所述预处理的方法包括删除所述原始数据中的停用词。

优选的，采用爬虫技术对网页中的文本信息进行抓取。

优选的，采用公式TF1＝N/M,计算所述热句集合中特征项的第一词频TF1，其中N表示该特征项出现的词数，M为文本信息中的词数。

优选的，采用公式IDF＝log D/Dw,计算所述逆向文本频率IDF，其中D表示总文本信息数，Dw表示关键词出现的文本信息数。

优选的，采用公式：

计算所述相似度，其中：

T_k(D1)表示D1文本中第k个特征项，T_k(D2)表示D2文本中第k个特征项，k为自然数，且要求满足1<＝k<＝N，D1表示D1文本，D2表示D2文本，sim(D1,D2)表示两个文本D1和D2之间的内容相似度，cosθ表示文本D1和D2之间向量的余弦值。

优选的，将合并后的文本信息通过降序排列的方式展示在客户端上。

本发明采取的另一种方案为，一种热句识别系统，包括数据采集模块、数据预处理模块、数据计算模块和数据展示模块；

所述数据采集模块用于对文本信息进行抓取，获取原始数据；

所述数据预处理模块用于对所述原始数据进行预处理，获得目标数据；

所述数据计算模块包括第一计算模块、第二计算模块和第三计算模块；

所述第一计算模块用于根据预设的VSM模型对所述目标数据进行特征项选取，得出热句集合，并计算所述热句集合中特征项的第一词频，得出关键词；

所述第二计算模块用于根据所述关键词进行权值计算，得出逆向文本频率；

所述第三计算模块用于根据所述逆向文本频率计算出不同文本信息之间的相似度，并与预设的阈值进行比较，将超过所述阈值的文本信息进行合并，并计算合并后文本信息中所述特征项的第二词频；

所述数据展示模块用于将合并后的文本信息展示在客户端上。

优选的，采用爬虫技术对网页中的文本信息进行抓取。

采用上述技术方案，与现有技术相比，通过对进行停用词删除、特征项选取、关键字提取，并根据所述关键字进行权值计算，计算出不同文本之间的相似度，将超过相似度阈值的文本进行合并与显示，避免了人工进行热词筛选的同时，也提高了查找的工作效率。

附图说明

图1为本发明的方法流程图；

图2为本发明的系统框图。

具体实施方式

为了使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述，这里的描述不意味着对应于实施例中陈述的具体实例的所有主题都在权利要求中引用了。

参考图1所示，本发明提供的一种热句识别方法，包括以下步骤：

S101，对文本信息进行抓取，获取原始数据；

具体地，采用爬虫技术对相应的文本信息进行抓取，在实际应用中，也可采用购买的方式获取相应的文本信息。

S102，对所述原始数据进行预处理，获得目标数据；

具体地，所述预处理的方法包括删除所述原始数据中的停用词，所述停用词表示对文本内容识别意义不大但出现频率很高的句子，但实际上它们对文本所表达的意思几乎没有什么影响，例如，“对该作感兴趣的玩家可关注我们的后续报道”等句子。

S103，根据预设的VSM模型对所述目标数据进行特征项选取，得出热句集合，并计算所述热句集合中特征项的第一词频，得出关键词；

具体地，所述VSM(Vector Space Model，向量空间模型)模型，用于把对文本内容的处理，简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂；选择具有代表性的特征项，得出热句集合，计算所述热句集合中特征项的第一词频TF1，是通过下列公式得到：TF1＝N/M，其中N表示该特征项出现的词数，M为文本信息中的词数,TF(Term frequency，词频)。

S104，根据所述关键词进行权值计算，得出逆向文本频率IDF；

具体地，计算所述逆向文本频率，是通过下列公式得到:IDF＝log D/Dw，其中D表示总文本信息数，Dw表示关键词出现的文本信息数,IDF(Inverse document frequency,逆向文本频率)。

S105，根据所述逆向文本频率计算出不同文本信息之间的相似度，并与预设的阈值进行比较，将超过所述阈值的文本信息进行合并，并计算合并后文本信息中所述特征项的第二词频；

具体地，所述相似度是通过下列公式得到：

其中：

特征项Term，用T表示，指出现在文本D中的每个关键词的权值，文本可以用特征项集表示为D(T1，T2，…，Tn)，其中T_k(D1)表示D1文本中第k个特征项，T_k(D2)表示D2文本中第k个特征项，k为自然数，且要求满足1<＝k<＝N，D1表示D1文本，D2表示D2文本，sim(D1,D2)表示两个文本D1和D2之间的内容相似度，cosθ表示文本D1和D2之间向量的余弦值，两个向量的夹角越小，它们越靠近，我们就认为两个文本越相似，夹角越小、越相似，余弦值越高。

S106，根据所述第二词频，将合并后的文本信息展示在客户端上。

具体地，所述第二词频的计算方式与所述第一词频计算的方式相同，得到出现频率最高的热句，将合并后的文本信息通过降序排列的方式展示在客户端上，所述客户端可采用电脑、手机或其它智能终端。

参考图2所示，本发明提供的一种热句识别系统，包括数据采集模块、数据预处理模块、数据计算模块和数据展示模块；

进一步地，通过采用爬虫技术对网页中的文本信息进行抓取。

最后需要说明的是，上述描述为本发明的优选实施例，本领域的普通技术人员在本发明的启示下，在不违背本发明宗旨及权利要求的前提下，可以做出多种类似的表示，这样的变换均落入本发明的保护范围之内。

Claims

1.一种热句识别方法，其特征在于，包括以下步骤：

对文本信息进行抓取，获取原始数据；

对所述原始数据进行预处理，获得目标数据；

根据所述关键词进行权值计算，得出逆向文本频率；

根据所述第二词频，将合并后的文本信息展示在客户端上。

2.根据权利要求1所述的一种热句识别方法，其特征在于，所述预处理的方法包括删除所述原始数据中的停用词。

3.根据权利要求1所述的一种热句识别方法，其特征在于，采用爬虫技术对网页中的文本信息进行抓取。

4.根据权利要求1所述的一种热句识别方法，其特征在于，采用公式TF1＝N/M,计算所述热句集合中特征项的第一词频TF1，其中N表示该特征项出现的词数，M为文本信息中的词数。

5.根据权利要求1所述的一种热句识别方法，其特征在于，采用公式IDF＝log D/Dw,计算所述逆向文本频率IDF，其中D表示总文本信息数，Dw表示关键词出现的文本信息数。

6.根据权利要求1所述的一种热句识别方法，其特征在于，采用公式：

计算所述相似度，其中：

7.根据权利要求1所述的一种热句识别方法，其特征在于，将合并后的文本信息通过降序排列的方式展示在客户端上。

8.一种热句识别系统，其特征在于，包括数据采集模块、数据预处理模块、数据计算模块和数据展示模块；

9.根据权利要求8所述的一种热句识别系统，其特征在于，采用爬虫技术对网页中的文本信息进行抓取。