CN107526791A - 一种热句识别方法及系统 - Google Patents
一种热句识别方法及系统 Download PDFInfo
- Publication number
- CN107526791A CN107526791A CN201710697563.4A CN201710697563A CN107526791A CN 107526791 A CN107526791 A CN 107526791A CN 201710697563 A CN201710697563 A CN 201710697563A CN 107526791 A CN107526791 A CN 107526791A
- Authority
- CN
- China
- Prior art keywords
- text
- text message
- hot
- frequency
- characteristic item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种热句识别方法及系统,该方法包括以下步骤:对网页中的文本信息进行抓取,获取原始数据;对所述原始数据进行预处理,获得目标数据;根据预设的VSM模型对所述目标数据进行特征项选取,得出热句集合,并计算所述热句集合中特征项的第一词频,得出关键词;根据所述关键词进行权值计算,得出逆向文本频率;根据所述逆向文本频率计算出不同文本信息之间的相似度,并与预设的阈值进行比较,将超过所述阈值的文本信息进行合并,并计算合并后文本信息中所述特征项的第二词频;根据所述第二词频,将合并后的文本信息展示在客户端上;其效果是:避免了人工进行热词筛选的同时,也提高了查找的工作效率。
Description
技术领域
本发明属于计算机文本信息处理领域,具体地涉及一种热句识别方法及系统。
背景技术
随着计算机通信技术的发展,用户的网络生活越来越丰富,在各种社交网络上浏览新闻、逛贴吧、发布信息等,渐渐成为大众生活的一部分。在这些网页上面,留下了很多热句,这些热句可以应用在文案写作上面。目前网上大部分的热句是经过人工筛选,缺少对热句的自动识别,工作效率低。
发明内容
为了解决上述问题,本发明提供一种热句识别方法及系统,以解决现有技术中需要人工进行筛选、工作效率低的缺陷。
本发明采取的一种技术方案为:一种热句识别方法,包括以下步骤:
对文本信息进行抓取,获取原始数据;
对所述原始数据进行预处理,获得目标数据;
根据预设的VSM模型对所述目标数据进行特征项选取,得出热句集合,并计算所述热句集合中特征项的第一词频,得出关键词;
根据所述关键词进行权值计算,得出逆向文本频率;
根据所述逆向文本频率计算出不同文本信息之间的相似度,并与预设的阈值进行比较,将超过所述阈值的文本信息进行合并,并计算合并后文本信息中所述特征项的第二词频;
根据所述第二词频,将合并后的文本信息展示在客户端上。
优选的,所述预处理的方法包括删除所述原始数据中的停用词。
优选的,采用爬虫技术对网页中的文本信息进行抓取。
优选的,采用公式TF1=N/M,计算所述热句集合中特征项的第一词频TF1,其中N表示该特征项出现的词数,M为文本信息中的词数。
优选的,采用公式IDF=log D/Dw,计算所述逆向文本频率IDF,其中D表示总文本信息数,Dw表示关键词出现的文本信息数。
优选的,采用公式:
计算所述相似度,其中:
Tk(D1)表示D1文本中第k个特征项,Tk(D2)表示D2文本中第k个特征项,k为自然数,且要求满足1<=k<=N,D1表示D1文本,D2表示D2文本,sim(D1,D2)表示两个文本D1和D2之间的内容相似度,cosθ表示文本D1和D2之间向量的余弦值。
优选的,将合并后的文本信息通过降序排列的方式展示在客户端上。
本发明采取的另一种方案为,一种热句识别系统,包括数据采集模块、数据预处理模块、数据计算模块和数据展示模块;
所述数据采集模块用于对文本信息进行抓取,获取原始数据;
所述数据预处理模块用于对所述原始数据进行预处理,获得目标数据;
所述数据计算模块包括第一计算模块、第二计算模块和第三计算模块;
所述第一计算模块用于根据预设的VSM模型对所述目标数据进行特征项选取,得出热句集合,并计算所述热句集合中特征项的第一词频,得出关键词;
所述第二计算模块用于根据所述关键词进行权值计算,得出逆向文本频率;
所述第三计算模块用于根据所述逆向文本频率计算出不同文本信息之间的相似度,并与预设的阈值进行比较,将超过所述阈值的文本信息进行合并,并计算合并后文本信息中所述特征项的第二词频;
所述数据展示模块用于将合并后的文本信息展示在客户端上。
优选的,采用爬虫技术对网页中的文本信息进行抓取。
采用上述技术方案,与现有技术相比,通过对进行停用词删除、特征项选取、关键字提取,并根据所述关键字进行权值计算,计算出不同文本之间的相似度,将超过相似度阈值的文本进行合并与显示,避免了人工进行热词筛选的同时,也提高了查找的工作效率。
附图说明
图1为本发明的方法流程图;
图2为本发明的系统框图。
具体实施方式
为了使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述,这里的描述不意味着对应于实施例中陈述的具体实例的所有主题都在权利要求中引用了。
参考图1所示,本发明提供的一种热句识别方法,包括以下步骤:
S101,对文本信息进行抓取,获取原始数据;
具体地,采用爬虫技术对相应的文本信息进行抓取,在实际应用中,也可采用购买的方式获取相应的文本信息。
S102,对所述原始数据进行预处理,获得目标数据;
具体地,所述预处理的方法包括删除所述原始数据中的停用词,所述停用词表示对文本内容识别意义不大但出现频率很高的句子,但实际上它们对文本所表达的意思几乎没有什么影响,例如,“对该作感兴趣的玩家可关注我们的后续报道”等句子。
S103,根据预设的VSM模型对所述目标数据进行特征项选取,得出热句集合,并计算所述热句集合中特征项的第一词频,得出关键词;
具体地,所述VSM(Vector Space Model,向量空间模型)模型,用于把对文本内容的处理,简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂;选择具有代表性的特征项,得出热句集合,计算所述热句集合中特征项的第一词频TF1,是通过下列公式得到:TF1=N/M,其中N表示该特征项出现的词数,M为文本信息中的词数,TF(Term frequency,词频)。
S104,根据所述关键词进行权值计算,得出逆向文本频率IDF;
具体地,计算所述逆向文本频率,是通过下列公式得到:IDF=log D/Dw,其中D表示总文本信息数,Dw表示关键词出现的文本信息数,IDF(Inverse document frequency,逆向文本频率)。
S105,根据所述逆向文本频率计算出不同文本信息之间的相似度,并与预设的阈值进行比较,将超过所述阈值的文本信息进行合并,并计算合并后文本信息中所述特征项的第二词频;
具体地,所述相似度是通过下列公式得到:
其中:
特征项Term,用T表示,指出现在文本D中的每个关键词的权值,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk(D1)表示D1文本中第k个特征项,Tk(D2)表示D2文本中第k个特征项,k为自然数,且要求满足1<=k<=N,D1表示D1文本,D2表示D2文本,sim(D1,D2)表示两个文本D1和D2之间的内容相似度,cosθ表示文本D1和D2之间向量的余弦值,两个向量的夹角越小,它们越靠近,我们就认为两个文本越相似,夹角越小、越相似,余弦值越高。
S106,根据所述第二词频,将合并后的文本信息展示在客户端上。
具体地,所述第二词频的计算方式与所述第一词频计算的方式相同,得到出现频率最高的热句,将合并后的文本信息通过降序排列的方式展示在客户端上,所述客户端可采用电脑、手机或其它智能终端。
参考图2所示,本发明提供的一种热句识别系统,包括数据采集模块、数据预处理模块、数据计算模块和数据展示模块;
所述数据采集模块用于对文本信息进行抓取,获取原始数据;
所述数据预处理模块用于对所述原始数据进行预处理,获得目标数据;
所述数据计算模块包括第一计算模块、第二计算模块和第三计算模块;
所述第一计算模块用于根据预设的VSM模型对所述目标数据进行特征项选取,得出热句集合,并计算所述热句集合中特征项的第一词频,得出关键词;
所述第二计算模块用于根据所述关键词进行权值计算,得出逆向文本频率;
所述第三计算模块用于根据所述逆向文本频率计算出不同文本信息之间的相似度,并与预设的阈值进行比较,将超过所述阈值的文本信息进行合并,并计算合并后文本信息中所述特征项的第二词频;
所述数据展示模块用于将合并后的文本信息展示在客户端上。
进一步地,通过采用爬虫技术对网页中的文本信息进行抓取。
最后需要说明的是,上述描述为本发明的优选实施例,本领域的普通技术人员在本发明的启示下,在不违背本发明宗旨及权利要求的前提下,可以做出多种类似的表示,这样的变换均落入本发明的保护范围之内。
Claims (9)
1.一种热句识别方法,其特征在于,包括以下步骤:
对文本信息进行抓取,获取原始数据;
对所述原始数据进行预处理,获得目标数据;
根据预设的VSM模型对所述目标数据进行特征项选取,得出热句集合,并计算所述热句集合中特征项的第一词频,得出关键词;
根据所述关键词进行权值计算,得出逆向文本频率;
根据所述逆向文本频率计算出不同文本信息之间的相似度,并与预设的阈值进行比较,将超过所述阈值的文本信息进行合并,并计算合并后文本信息中所述特征项的第二词频;
根据所述第二词频,将合并后的文本信息展示在客户端上。
2.根据权利要求1所述的一种热句识别方法,其特征在于,所述预处理的方法包括删除所述原始数据中的停用词。
3.根据权利要求1所述的一种热句识别方法,其特征在于,采用爬虫技术对网页中的文本信息进行抓取。
4.根据权利要求1所述的一种热句识别方法,其特征在于,采用公式TF1=N/M,计算所述热句集合中特征项的第一词频TF1,其中N表示该特征项出现的词数,M为文本信息中的词数。
5.根据权利要求1所述的一种热句识别方法,其特征在于,采用公式IDF=log D/Dw,计算所述逆向文本频率IDF,其中D表示总文本信息数,Dw表示关键词出现的文本信息数。
6.根据权利要求1所述的一种热句识别方法,其特征在于,采用公式:
计算所述相似度,其中:
Tk(D1)表示D1文本中第k个特征项,Tk(D2)表示D2文本中第k个特征项,k为自然数,且要求满足1<=k<=N,D1表示D1文本,D2表示D2文本,sim(D1,D2)表示两个文本D1和D2之间的内容相似度,cosθ表示文本D1和D2之间向量的余弦值。
7.根据权利要求1所述的一种热句识别方法,其特征在于,将合并后的文本信息通过降序排列的方式展示在客户端上。
8.一种热句识别系统,其特征在于,包括数据采集模块、数据预处理模块、数据计算模块和数据展示模块;
所述数据采集模块用于对文本信息进行抓取,获取原始数据;
所述数据预处理模块用于对所述原始数据进行预处理,获得目标数据;
所述数据计算模块包括第一计算模块、第二计算模块和第三计算模块;
所述第一计算模块用于根据预设的VSM模型对所述目标数据进行特征项选取,得出热句集合,并计算所述热句集合中特征项的第一词频,得出关键词;
所述第二计算模块用于根据所述关键词进行权值计算,得出逆向文本频率;
所述第三计算模块用于根据所述逆向文本频率计算出不同文本信息之间的相似度,并与预设的阈值进行比较,将超过所述阈值的文本信息进行合并,并计算合并后文本信息中所述特征项的第二词频;
所述数据展示模块用于将合并后的文本信息展示在客户端上。
9.根据权利要求8所述的一种热句识别系统,其特征在于,采用爬虫技术对网页中的文本信息进行抓取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710697563.4A CN107526791A (zh) | 2017-08-15 | 2017-08-15 | 一种热句识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710697563.4A CN107526791A (zh) | 2017-08-15 | 2017-08-15 | 一种热句识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107526791A true CN107526791A (zh) | 2017-12-29 |
Family
ID=60681191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710697563.4A Pending CN107526791A (zh) | 2017-08-15 | 2017-08-15 | 一种热句识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107526791A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187325A (zh) * | 2023-04-28 | 2023-05-30 | 北京数字政通科技股份有限公司 | 一种数据检测方法及其系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101488150A (zh) * | 2009-03-04 | 2009-07-22 | 哈尔滨工程大学 | 一种实时多角度网络热点事件分析装置及分析方法 |
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
-
2017
- 2017-08-15 CN CN201710697563.4A patent/CN107526791A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101488150A (zh) * | 2009-03-04 | 2009-07-22 | 哈尔滨工程大学 | 一种实时多角度网络热点事件分析装置及分析方法 |
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187325A (zh) * | 2023-04-28 | 2023-05-30 | 北京数字政通科技股份有限公司 | 一种数据检测方法及其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10977447B2 (en) | Method and device for identifying a user interest, and computer-readable storage medium | |
US10769133B2 (en) | Method and apparatus for recognizing a low-quality news resource, computer device and readable medium | |
WO2021190174A1 (zh) | 信息确定方法、装置、计算机设备及存储介质 | |
CN105183833A (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN109509010B (zh) | 一种多媒体信息处理方法、终端及存储介质 | |
WO2020147409A1 (zh) | 一种文本分类方法、装置、计算机设备及存储介质 | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
Fang et al. | Topic aspect-oriented summarization via group selection | |
CN112104642B (zh) | 一种异常账号确定方法和相关装置 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
CN113722438B (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN102929861A (zh) | 一种文本情感指数计算方法和系统 | |
CN109508373A (zh) | 企业舆情指数的计算方法、设备及计算机可读存储介质 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN112995414B (zh) | 基于语音通话的行为质检方法、装置、设备及存储介质 | |
CN110134781A (zh) | 一种金融文本摘要自动抽取方法 | |
CN113837630A (zh) | 基于文本识别的区域内esg指数确定方法及相关产品 | |
CN111988668B (zh) | 一种视频推荐方法、装置、计算机设备及存储介质 | |
CN113743079A (zh) | 一种基于共现实体交互图的文本相似度计算方法及装置 | |
CN107526791A (zh) | 一种热句识别方法及系统 | |
CN111859898B (zh) | 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质 | |
CN112749131A (zh) | 信息消重处理方法、装置及计算机可读存储介质 | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
CN115130453A (zh) | 互动信息生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171229 |