CN113505197A - 一种针对单一舆情事件评论中高频词语的判断方法 - Google Patents

一种针对单一舆情事件评论中高频词语的判断方法 Download PDF

Info

Publication number
CN113505197A
CN113505197A CN202110770603.XA CN202110770603A CN113505197A CN 113505197 A CN113505197 A CN 113505197A CN 202110770603 A CN202110770603 A CN 202110770603A CN 113505197 A CN113505197 A CN 113505197A
Authority
CN
China
Prior art keywords
words
word
frequency
comments
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110770603.XA
Other languages
English (en)
Inventor
郭齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Kangnai Network Technology Co ltd
Original Assignee
Xi'an Kangnai Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Kangnai Network Technology Co ltd filed Critical Xi'an Kangnai Network Technology Co ltd
Priority to CN202110770603.XA priority Critical patent/CN113505197A/zh
Publication of CN113505197A publication Critical patent/CN113505197A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Abstract

本发明公开了一种针对单一舆情事件评论中高频词语的判断方法,涉及数据处理技术领域,利用过滤算法、切分算法、统计算法对网民评论进行热门词汇统计,在网民评论热词统计方面,较以往实现了高细粒度、高准确度、未登录词识别精准、长短语准确切分保留、句词转换识别歧义并解决歧义、单字词汇等无意义词汇准确剔除等优点。在某些关键短语被切分成词时,本发明算法有部分黏合效果,提高高频词语判断的准确率和召回率。

Description

一种针对单一舆情事件评论中高频词语的判断方法
技术领域
本发明涉及数据处理技术领域,特别涉及一种针对单一舆情事件评论中高频词语的判断方法。
背景技术
对于舆情信息,网民评论将依据舆情事件的性质和关注焦点的不同而产生不同的影响,但在同一网络舆情热点事件中,网民的行为影响往往不是单一的,而是多种舆论效应交互作用并内聚强化的复合体。应随时关注跟踪网民的舆论动向,正确认识和剖析网民行为背后的动机,可为舆情处置提供直观的网民评论焦点。
现有的普通词云热词统计算法较为传统,在停用词、单字词汇过滤、多字词汇权重等方面存在缺陷与不足,在高频词统计中,对于未登录词无法正确地从句子中切分,影响统计效果。
针对现有技术存在的问题,本申请提供了一种针对单一舆情事件评论中高频词语的判断方法,解决传统词频分析中高频词统计误差、停用词有限且无法识别表情、多字短语被迫切分、单字词汇词频高、由句到词时切割不准确等问题。
发明内容
本发明的目的在于提供一种针对单一舆情事件评论中高频词语的判断方法,解决传统词频分析中高频词统计误差、停用词有限且无法识别表情、多字短语被迫切分、单字词汇词频高、由句到词时切割不准确等问题。
本发明提供了一种针对单一舆情事件评论中高频词语的判断方法,包括以下步骤:
采集单一舆情的网络用户评论;
基于统计词典构造前缀词典,根据前缀词典对输入的网络用户评论语句进行切分,输出所有的切分结果;
根据切分结果生成网络用户评论语句中汉字成词情况所构成的有向无环图;
查找有向无环图中的最大概率路径,找出基于词频的最大切分组合,并输出切分成词的语句;
对切分成词的语句进行多字短语的权重提升;
过滤权重提升后的语句中的单字及无意义词汇;
基于TF-IDF和TextRank的算法,抽取出高词频的关键词并输出。
进一步地,对网络用户评论的逐条过滤包括:
去除评论中停用词:根据大数据调整停用词词典,创建停用词列表,过滤掉网络用户评论中不符合要求的字或词;
去除评论中的Emoji表情:建立Emoji表情过滤正则表达式,替换为符合Emoji表情规则的文本。
进一步地,若遇到统计词典中未收录的词,则使用基于汉字成词能力的HMM模型,套用Viterbi算法对其进行语句分割。
进一步地,TF-IDF算法中词频TF表示关键词在文档中出现的频率,逆文档频率IDF反映关键词的普遍程度。
进一步地,关键词在文档中出现的TF-IDF值表示为:
Figure BDA0003152815770000021
其中,w表示关键词,Di表示文档。
进一步地,TextRank算法通过词之间的相邻关系构建网络,用PageRank迭代计算每个节点的rank值,对rank值排序得到关键词,基于不同词对有不同的共现,TextRank将共现作为无向图边的权值。
进一步地,TextRank的迭代计算公式如下:
Figure BDA0003152815770000031
其中,WS(Vi)表示结点Vi的rank值,In(Vi)表示结点Vi的前驱结点集合,Out(Vj)表示结点Vj的后继结点集合,d为damping factor用于做平滑,权重项Wji用来表示两个节点之间的边连接有不同的重要程度。
进一步地,若提取出的若干关键词在文本中相邻,则构成一个被提取的关键短语。
与现有技术相比,本发明具有如下显著优点:
(一)本发明提出的一种针对单一舆情事件评论中高频词语的判断方法,在网民评论热词统计方面,较以往实现了高细粒度、高准确度、未登录词识别精准、长短语准确切分保留、句词转换识别歧义并解决歧义、单字词汇等无意义词汇准确剔除等优点。在某些关键短语被切分成词时,本发明算法有部分黏合效果,提高高频词语判断的准确率和召回率。
(二)本发明提出的一种针对单一舆情事件评论中高频词语的判断方法,利用过滤算法、切分算法、统计算法对网民评论进行热门词汇统计。
附图说明
图1为本发明实施例提供的判断流程图。
具体实施方式
下面结合本发明中的附图,对本发明实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
参照图1,本发明提供了一种针对单一舆情事件评论中高频词语的判断方法,包括以下步骤:
采集单一舆情的网络用户评论,并对网络用户评论采用过滤算法进行逐条过滤;
基于统计词典构造前缀词典,实现高效的词图扫描,根据前缀词典利用切分算法对输入的网络用户评论语句进行切分,输出所有的切分结果;
根据切分结果生成网络用户评论语句中汉字成词情况所构成的有向无环图DAG;
采用动态规划查找有向无环图中的最大概率路径,找出基于词频的最大切分组合,并输出切分成词的语句;
利用统计算法对切分成词的语句进行多字短语的权重提升;
过滤权重提升后的语句中的单字及无意义词汇,把已经切分成词且长度为1的无意义字剔除;
基于TF-IDF和TextRank的算法,抽取出高词频的关键词并输出。
其中,若遇到统计词典中未收录的词,则使用基于汉字成词能力的HMM模型,套用Viterbi算法对其进行语句分割。
若提取出的若干关键词在文本中相邻,则构成一个被提取的关键短语。
实施例1
对网络用户评论的逐条过滤包括:
去除评论中停用词:根据大数据调整停用词词典,创建停用词列表,过滤掉网络用户评论中不符合要求的字或词;
去除评论中的Emoji表情:建立Emoji表情过滤正则表达式,替换为符合Emoji表情规则的文本,去除原语句中的Emoji表情。
其中,停用词是指在信息检索中,为提高输出效果,在处理自然语言数据之前会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。
实施例2
TF-IDF算法中词频TF表示关键词在文档中出现的频率,逆文档频率IDF反映关键词的普遍程度。
关键词在文档中出现的TF-IDF值表示为:
Figure BDA0003152815770000051
其中,w表示关键词,Di表示文档。
当一个词在文档频率越高并且新鲜度高(即普遍度低),其TF-IDF值越高。TF-IDF兼顾词频与新鲜度,过滤一些常见词,保留能提供更多信息的重要词。
实施例3
TextRank算法通过词之间的相邻关系构建网络,用PageRank迭代计算每个节点的rank值,对rank值排序得到关键词,基于不同词对有不同的共现(co-occurrence),TextRank将共现作为无向图边的权值。TextRank的迭代计算公式如下:
Figure BDA0003152815770000052
其中,WS(Vi)表示结点Vi的rank值,In(Vi)表示结点Vi的前驱结点集合,Out(Vj)表示结点Vj的后继结点集合,d为damping factor用于做平滑,权重项Wji用来表示两个节点之间的边连接有不同的重要程度。
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (8)

1.一种针对单一舆情事件评论中高频词语的判断方法,其特征在于,包括以下步骤:
采集单一舆情的网络用户评论;
基于统计词典构造前缀词典,根据前缀词典对输入的网络用户评论语句进行切分,输出所有的切分结果;
根据切分结果生成网络用户评论语句中汉字成词情况所构成的有向无环图;
查找有向无环图中的最大概率路径,找出基于词频的最大切分组合,并输出切分成词的语句;
对切分成词的语句进行多字短语的权重提升;
过滤权重提升后的语句中的单字及无意义词汇;
基于TF-IDF和TextRank的算法,抽取出高词频的关键词并输出。
2.如权利要求1所述的一种针对单一舆情事件评论中高频词语的判断方法,其特征在于,对网络用户评论的逐条过滤包括:
去除评论中停用词:根据大数据调整停用词词典,创建停用词列表,过滤掉网络用户评论中不符合要求的字或词;
去除评论中的Emoji表情:建立Emoji表情过滤正则表达式,替换为符合Emoji表情规则的文本。
3.如权利要求1所述的一种针对单一舆情事件评论中高频词语的判断方法,其特征在于,若遇到统计词典中未收录的词,则使用基于汉字成词能力的HMM模型,套用Viterbi算法对其进行语句分割。
4.如权利要求1所述的一种针对单一舆情事件评论中高频词语的判断方法,其特征在于,TF-IDF算法中词频TF表示关键词在文档中出现的频率,逆文档频率IDF反映关键词的普遍程度。
5.如权利要求4所述的一种针对单一舆情事件评论中高频词语的判断方法,其特征在于,关键词在文档中出现的TF-IDF值表示为:
Figure FDA0003152815760000021
其中,w表示关键词,Di表示文档。
6.如权利要求1所述的一种针对单一舆情事件评论中高频词语的判断方法,其特征在于,TextRank算法通过词之间的相邻关系构建网络,用PageRank迭代计算每个节点的rank值,对rank值排序得到关键词,基于不同词对有不同的共现,TextRank将共现作为无向图边的权值。
7.如权利要求6所述的一种针对单一舆情事件评论中高频词语的判断方法,其特征在于,TextRank的迭代计算公式如下:
Figure FDA0003152815760000022
其中,WS(Vi)表示结点Vi的rank值,In(Vi)表示结点Vi的前驱结点集合,Out(Vj)表示结点Vj的后继结点集合,d为damping factor用于做平滑,权重项Wji用来表示两个节点之间的边连接有不同的重要程度。
8.如权利要求1所述的一种针对单一舆情事件评论中高频词语的判断方法,其特征在于,若提取出的若干关键词在文本中相邻,则构成一个被提取的关键短语。
CN202110770603.XA 2021-07-07 2021-07-07 一种针对单一舆情事件评论中高频词语的判断方法 Pending CN113505197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110770603.XA CN113505197A (zh) 2021-07-07 2021-07-07 一种针对单一舆情事件评论中高频词语的判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110770603.XA CN113505197A (zh) 2021-07-07 2021-07-07 一种针对单一舆情事件评论中高频词语的判断方法

Publications (1)

Publication Number Publication Date
CN113505197A true CN113505197A (zh) 2021-10-15

Family

ID=78012089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110770603.XA Pending CN113505197A (zh) 2021-07-07 2021-07-07 一种针对单一舆情事件评论中高频词语的判断方法

Country Status (1)

Country Link
CN (1) CN113505197A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统
CN110750993A (zh) * 2019-10-15 2020-02-04 成都数联铭品科技有限公司 分词方法及分词器、命名实体识别方法及系统
CN112131863A (zh) * 2020-08-04 2020-12-25 中科天玑数据科技股份有限公司 一种评论观点主题抽取方法、电子设备及存储介质
CN112328792A (zh) * 2020-11-09 2021-02-05 浪潮软件股份有限公司 一种基于dbscan聚类算法识别信用事件的优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统
CN110750993A (zh) * 2019-10-15 2020-02-04 成都数联铭品科技有限公司 分词方法及分词器、命名实体识别方法及系统
CN112131863A (zh) * 2020-08-04 2020-12-25 中科天玑数据科技股份有限公司 一种评论观点主题抽取方法、电子设备及存储介质
CN112328792A (zh) * 2020-11-09 2021-02-05 浪潮软件股份有限公司 一种基于dbscan聚类算法识别信用事件的优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHBZZ2007: ""结巴分词1--结巴分词系统介绍"", 《HTTPS://WWW.CNBLOGS.COM/ZHBZZ2007/P/6076246.HTML》 *

Similar Documents

Publication Publication Date Title
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
US7461056B2 (en) Text mining apparatus and associated methods
JP6335898B2 (ja) 製品認識に基づく情報分類
CN104881458B (zh) 一种网页主题的标注方法和装置
CN108073571B (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
CN112131863A (zh) 一种评论观点主题抽取方法、电子设备及存储介质
WO2017091985A1 (zh) 停用词识别方法与装置
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN109086355B (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN114266256A (zh) 一种领域新词的提取方法及系统
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
CN107239455B (zh) 核心词识别方法及装置
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
CN110765762B (zh) 一种大数据背景下在线评论文本最佳主题提取系统和方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
US20170293597A1 (en) Methods and systems for data processing
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN115617981A (zh) 一种面向社交网络短文本的信息层次摘要提取方法
CN113505197A (zh) 一种针对单一舆情事件评论中高频词语的判断方法
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211015

RJ01 Rejection of invention patent application after publication