CN105824959A - 舆情监控方法及系统 - Google Patents

舆情监控方法及系统 Download PDF

Info

Publication number
CN105824959A
CN105824959A CN201610201194.0A CN201610201194A CN105824959A CN 105824959 A CN105824959 A CN 105824959A CN 201610201194 A CN201610201194 A CN 201610201194A CN 105824959 A CN105824959 A CN 105824959A
Authority
CN
China
Prior art keywords
text data
word
event
text
public sentiment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610201194.0A
Other languages
English (en)
Other versions
CN105824959B (zh
Inventor
郭洪韬
龚承亮
陈道新
董利钢
聂欣慧
赵振川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CAPITAL INFORMATION DEVELOPMENT Co Ltd
Original Assignee
CAPITAL INFORMATION DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CAPITAL INFORMATION DEVELOPMENT Co Ltd filed Critical CAPITAL INFORMATION DEVELOPMENT Co Ltd
Priority to CN201610201194.0A priority Critical patent/CN105824959B/zh
Publication of CN105824959A publication Critical patent/CN105824959A/zh
Application granted granted Critical
Publication of CN105824959B publication Critical patent/CN105824959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种舆情监控方法及系统,涉及数据处理领域,通过采集服务器获取待处理的文本数据,处理服务器根据基础词典对所述文本数据进行分词,然后判断分词结果与文本主题数据的相关度是否大于或等于预设阈值,若是,则确认所述分词结果为关键词。利用上述系统,解决舆情监控的处理效率、准确性较低的问题。

Description

舆情监控方法及系统
技术领域
本发明涉及数据处理领域,尤其涉及一种舆情监控方法及系统。
背景技术
舆情是“舆论情况”的简称,网络舆情监控系统是指通过对网络各类信息进行汇集、分类、整合、筛选等技术处理后,形成对网络热点、动态、网民意见等实时统计分析的软件,它通过对某一主题相关数据进行实时抓取、存储、过滤、和分析,以便对舆情进行动态式观察。
目前,舆情监控系统是将搜索引擎技术和自然语言处理技术相结合,现有的舆情监控系统处理文本时,利用中文分词方法结合不同的语义分析算法实现舆情监控。但是现有中文分词方法中对于人名、地名识别不准确,导致根据中文分词而提取的关键词准确率较低,使得舆情监控中文本分析处理的效果较差。
发明内容
本发明提供了舆情监控系统,为解决舆情监控处理效率较低的问题。
为了解决上述技术问题,本发明提供了舆情监控方法,该系统包括:
获取待处理的文本数据;
根据基础词典对所述文本数据进行分词,所述基础词典包括预置范围的人名及地名;
判断分词结果与文本主题数据的相关度是否大于或等于预设阈值;
若是,则确认所述分词结果为关键词。
为了解决上述技术问题,本发明提供了舆情监控系统,该系统包括:
采集服务器,用于获取待处理的文本数据;
处理服务器,与所述采集服务器连接,用于根据基础词典对所述文本数据进行分词,所述基础词典包括预置范围的人名及地名;
所述处理服务器,还用于判断分词结果与文本主题数据的相关度是否大于或等于预设阈值;
所述处理服务器,还用于若是,则确认所述分词结果为关键词。
借由上述技术方案,本发明舆情监控系统至少具有下列优点:
本发明提供一种舆情监控方法及系统,通过采集服务器获取待处理的文本数据,处理服务器根据基础词典对所述文本数据进行分词,然后判断分词结果与文本主题数据的相关度是否大于或等于预设阈值,若是,则确认所述分词结果为关键词。与现有技术的关键词提取及中文分词相比,本发明通过根据基础词典对文本数据进行分词,继而根据与文本主题相关度的预置确认出关键词,并基于关键词对文本数据进行分析,使得文本以事件的形式进行展示,提高了舆情监控中文处理效率和准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种舆情监控方法的流程图;
图2示出了本发明实施例提供的另一种舆情监控方法的流程图;
图3示出了本发明实施例提供的一种舆情监控系统的结构示意图;
图4示出了本发明实施例提供的另一种舆情监控系统的结构示意图。
具体实施方式
面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供的一种舆情监控方法,如图1所示,其中包括:
101、获取待处理的文本数据。
其中,所述获取待处理的文本数据来源包括新闻、论坛、博客,所述获取文本数据的方法为爬虫爬取,以便于将爬取到的文本数据立刻进行处理,并保存在当前数据库中,以便于可以对采集到的文本数据进行索引及数据管理。
102、根据基础词典对所述文本数据进行分词。
其中,所述基础词典包括预置范围的人名及地名,所述预置范围为包含网络、词典及可以查询到的所有的人名和地名,所述分词为将一个汉字序列的句子切分成一个一个单独的词语,即将连续的字序列按照一定的规范重新组合成词序列的过程,所述基础词典的来源可以包含北京语言大学语料库、现代汉语词典第六版、英文缩写、网络新词、缩略语等本发明实施例不做具体限定,即可以为基于所述词源采用统计学方法的分词器,所述语料为按照标点符号集对文本数据进行句子分割。通过将爬取到的文本数据立刻进行分词处理,从而实现舆情监控的实时处理及实时监控。
103、判断分词结果与文本主题数据的相关度是否大于或等于预设阈值。
其中,所述文本主题数据为文本的题目内容,所述相关度为分词结果中的词语与题目分词结果中的词语相近度,所述相近度的阈值可以根据基础词典中的近义词及与所述近义词相似程度进行设定,所述预设阈值可以为1/2、3/5等,本发明实施例不做具体限定。
104、若判断分词结果与文本主题数据的相关度大于或等于预设阈值,则确认所述分词结果为关键词。
其中,所述关键词用于表示文本数据,以便于利用关键词建立合理的文本数据的向量空间模型。
对于本发明实施例,所述舆情监控系统中提供的舆情分析技术可以为文本分类技术、文本分类技术,可以通过向量空间模型计算文本数据之间的相似性。例如,给定一个文档D(t1,w1;t2,w2;…;tn,wn),其中,t为特征项(字、词或短语),w为特征项t的权重,那么上述文档就可以看成是n维空间中的一个向量,其中,提取的关键词可以作为特征项。
对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包括:获取到一篇题目为“幼儿园老师打小朋友”的文章,根据基础词典对文本进行分词,得到词语“幼儿园”、“小朋友”、“淘气”、“打”、“体罚”、“老师”、“家长”、“投诉”等,判断出分词结果中“幼儿园”、“小朋友”、“打”、“老师”与题目相似度等于相关度1,则“幼儿园”、“小朋友”、“打”、“老师”为关键词。
本发明提供一种舆情监控方法,通过获取待处理的文本数据,根据基础词典对所述文本数据进行分词,然后判断分词结果与文本主题数据的相关度是否大于或等于预设阈值,若是,则确认所述分词结果为关键词。与现有技术的关键词提取及中文分词相比,本发明通过根据基础词典对文本数据进行分词,继而根据与文本主题相关度的预置确认出关键词,并基于关键词对文本数据进行分析,使得文本以事件的形式进行展示,提高了舆情监控中文处理效率和准确性。
本发明实施例提供的另一种舆情监控方法,如图2所示,其中包括:
201、获取待处理的文本数据。
其中,所述获取待处理的文本数据来源包括新闻、论坛、博客,所述获取文本数据的方法为爬虫爬取,并将爬取到的文本数据保存在当前数据库中,以便于可以对采集到的文本数据进行索引及数据管理。
202、根据基础词典对所述文本数据进行分词。
其中,所述基础词典包括预置范围的人名及地名,所述预置范围为包含网络、词典及可以查询到的所有的人名和地名,所述分词为将一个汉字序列的句子切分成一个一个单独的词语,即将连续的字序列按照一定的规范重新组合成词序列的过程,所述基础词典的来源可以包含北京语言大学语料库、现代汉语词典第六版、英文缩写、网络新词、缩略语等本发明实施例不做具体限定,即可以为基于所述词源采用统计学方法的分词器,所述语料为按照标点符号集对文本数据进行句子分割。
对于本发明实施例,步骤202具体可以为:根据预置统计算法计算所述分词结果中人名和地名的成词阈值,提取成词阈值大于预设阈值的人名和地名。其中,所述预置统计算法为数学计算中的统计算法与基础词典相结合的算法,所述成词阈值为单独的字或词组成人名或地名的概率,所述预设阈值可以人为设定,本发明实施例不做具体限定。
203、判断分词结果与文本主题数据的相关度是否大于或等于预设阈值。
其中,所述文本主题数据为文本的题目内容,所述预设阈值可以为1/2、3/5等,本发明实施例不做具体限定。
204、若判断分词结果与文本主题数据的相关度大于或等于预设阈值,则确认所述分词结果为关键词。
其中,所述关键词用于表示文本数据,以便于利用关键词建立合理的文本数据的向量空间模型。
205、根据所述关键词对所述文本数据进行处理分析。
其中,所述对所述文本数据进行分析可以包括文本自动摘要、文本情感分析、文本自动分类、事件发现、热点事件评估、事件追踪、事件关联、事件短标题、数据统计、可视化处理。所述热点事件评估通过对热点事件建立评估模型,对聚类生成的事件进行评分排序,以便向用户展示焦点事件。所述事件追踪可以根据社会发生的事件发展趋势随时间的推移而不断变化,用于挖掘事件发展的脉络和走势。所述事件关联通过扩展监测范围,以便于向用户展现、归纳与事件相关的一系列事件。所述事件短标题用于为用户展现事件的核心内容,从而实现对事件标题的缩减和概括。所述数据统计包括统计事件信息、相关媒体、报道量、正负情感比例等。所述可视化处理为将处理后的文本数据进行展示处理,用以向用户展示多元化的文本数据。通过关键词对文本数据进行处理分析,实现为用户提供不同功能特征的文本数据,从而提高舆情监控的处理效率。
其中,所述文本自动摘要可以为利用计算机实现本文预处理、语义分析,生成摘要性本文的自动提取技术,摘要字数控制在150字以内,以便于在用户查看事件详情时,显示所述事件的所有相关报道内容。文本自动摘要具体可以为:对文本数据进行分词、分句,然后根据句子间聚类对文本数据进行冗余处理,再根据句子权重计算识别文本数据的重要信息,最后整合文本摘要。其中,所述冗余信息的识别方法为计算句子间的相似性,所述重要信息的识别方法为在生成的每个聚类的类簇结果中,选出每个类中最有代表性的句子,以便于表达这个类别的主要信息。由于句子是由一系列有意义的词语组合而成,因此衡量句子的重要程度,可以转化为计算句子中包含关键词语数量的程度。所述文摘整合为选取重要句子按照原文章的位置结构进行整合,同时考虑字数限制。所述句子间聚类方法可以计算句子的相似度,包括两个句子中的词相似、句子间的词序相似、句子长度相似,相似度函数为:
S i m i l a r i t y ( S 1 , S 2 ) = λ 1 * w o r d S i m i l a r i t y ( S 1 , S 2 ) + λ 2 * o r d e r S i m i l a r i t y ( S 1 , S 2 ) λ 3 * S e n t e n c e L e n S i m i l a r i t y ( S 1 , S 2 ) - - - ( 4 ) ,
句子权重计算公式为:所述句子整合为将每组句子类簇的代表句子按句子的权值排序,按文本原有结构进行整合,整合的过程中考虑字数限制来进行删减。
对于本发明实施例,步骤205具体可以为:根据所述基础词典提取所述分词结果中具有情感色彩的词语;根据情感词语确认所述词语的情感极性,所述情感极性包括正向、负向、中立,以便于计算文本数据的情感极性。其中,情感分析处理具体可以为:首先对文本数据进行语料处理,根据通用情感词典对语料进行分词,提取出包含情感词语的句子,然后根据程度词词典、情感词词典和否定词词典对提取的句子进行配置情感极性,以便生成带有情感极性的文本数据,对文本数据进行可视化处理,用于为用户提供带有情感标签的文本。所述情感词典具体可以为:根据正、负向情感词集合并去重后生成基础词集,然后通过过滤提取高频情感词集,添加网络情感词集后合成最终的通用情感词集。通过对文本数据进行感情极性的判别,便于用户根据喜好来搜索相关文本数据,从而达到舆情监控的目的。
其中,所述文本自动分类可以预先设定类别,也可以人为参与分类,分类体系包括:环保、反腐、食品、药品、医疗、经济物价、住房、教育、市政市容、交通、公安、国家安全、司法、计生,所述一个文本数据可同时属于多个分类类别,本发明不做具体限定。例如,新闻报道“山东招远杀人案犯罪嫌疑人被逮捕”既可以划分到类别“公安”,也可以划分到类别“司法”中。所述分类方法具体可以为:首先收集已制定的分类文本数据的语料,利用机器自动提取所有类别的关键词集,为了提高分类效果,加入人工参与的方法,修正类别关键词集,并建立相应的类别模型。在对目标文本数据进行自动分类过程中,首先对目标文本数据进行关键词提取,然后对文本数据建立可与分类模型进行计算的向量空间模型,将目标文本数据与所有已知分类模型进行相似度比较,继而分配类别标签。例如,类别C,提取C中所有样本语料的关键词集,利用卡方(χ2)统计的方法计算候选关键词集与已知分类的关系,过滤和修剪候选词集,提取类别C1的代表词集。所述卡方(χ2)统计方法为假设词汇t与类别C之间统计独立,计算真实与假设的偏差,偏差的大小可以判别假设是否成立,若计算结果的偏差大,则认为假设不成立,即t与类别C不独立,就是t与C密切相关,可以用t作为C的关键词。计算公式为
χ 2 ( t , c i ) = N * ( A D - B C ) 2 ( A + C ) * ( A + B ) * ( B + D ) * ( C + D ) - - - ( 1 )
其中,A、B、C、D为文档数,A为属于类别Ci且包含词汇t的文档数目,B为不属于类别Ci且包含词汇t的文档数,C为属于类别Ci但不包含词汇t的文档数,D为不属于类别Ci且也不包含词汇t的文档数,N为总的文档数。通过对文本数据信息分类,便于用户对同类信息的查找,便于用户根据类别喜好选择所关注的内容。
对于本发明实施例,所述相似度计算采用余弦距离与文本向量空间模型相结合。文本向量空间模型为将文本映射成一个多维向量,用这个向量代表文本。如果两个向量相似,则对应的文本相似。向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,则计算余弦定理计算向量的夹角,具体公式如下:
C o s ( &theta; ) = < V 1 , V 2 > | V 1 | | V 2 | - - - ( 2 ) ,
其中,分子为两个向量内积,分母为两个向量长度的乘积,V1=(x1,x2,...,xn),V2=(y1,y2,...,yn)可以转换为:
C o s ( &theta; ) = x 1 y 1 + x 2 y 2 + ... + x n y n ( x 1 2 + ... + x n 2 ) ( y 1 2 + ... + y n 2 ) - - - ( 3 ) .
对于本发明实施例,步骤205具体可以为:为文本数据配置文本分类类别;当文本数据中存在与所述类别对应的事件中的关键词匹配的关键词时,则判断所述文本数据中的关键词个数是否大于与所述类别对应事件的关键词个数;若是,则根据预置算法计算所述文本数据与所述事件的距离阈值;若所述距离阈值小于所述类别对应事件的距离阈值,则确认文本数据为对应的事件。其中,所述事件若不属于所述分类下的事件,则创建一个新的事件。其中,所述文本数据中存在与所述类别对应事件中的关键词匹配的关键词为文本数据中的关键词与对应事件中的关键词存在交集,所述距离阈值通过上述余弦定理计算。其中,所述距离阈值设定的越小代表文本数据与对应的事件关系越近,以此可以确认文本数据属于对应事件,所述事件发现具体还用于数据事件化、事件展现、事件表述、事件具备跟踪追加机制、事件需要进行情感分析等。其中,所述事件化为存储在数据库中的文本数据按照已建立的分类体系形成事件,所述事件展现为系统向用户展现事件及包含的所有文章,所述事件描述包括事件标题、事件关键词及其他统计信息,所述事件具备跟踪追加机制为预留事件关联和事件追踪的功能,所述事件需要进行情感分析为事件包含的所有文本数据需要进行正负面情感极性的判别。通过对文本数据分类确定文本类别标签;对同一类别下的文本进行聚类形成多个不同事件,实现基于社会发生事件的文本数据显示,从而提高舆情监控智能性及准确性。
206、接收用户请求展示指令,所述用户请求展示指令携带有展示信息。
其中,所述用户请求展示指令可以通过用户触发舆情监控系统中的按钮进行操作,所述展示信息包含展示舆情焦点、监测追踪、搜索,所述舆情焦点还包括焦点事件、热词榜、分类等,所述监测追踪包括事件导读、事件脉络、关联阅读、统计信息等,所述搜索包括事件搜索和其他搜索。
207、向用户展示与所述展示信息对应的处理分析结果。
其中,根据用户请求展示指令中过携带的展示信息向用户展示与展示信息对应的文本数据。通过向用户发送不同展示信息对应的文本数据,实现展示文本数据的多样性,从而提高舆情监控的处理效率。
对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包括:获取到一篇题目为“幼儿园老师打小朋友”的文本,根据基础词典对文本进行分词,得到词语“幼儿园”、“小朋友”、“淘气”、“打”、“体罚”、“老师”、“家长”、“投诉”等,判断出分词结果中“幼儿园”、“小朋友”、“打”、“老师”与题目相似度等于相关度1,则“幼儿园”、“小朋友”、“打”、“老师”为关键词,根据关键词生成摘要,根据文本数据中“投诉”等情感词语为文本标注为负面情感,为文本分类为教育及司法,当用户触发舆情监控系统中的教育分类中的负面新闻时,向用户展示“幼儿园老师打小朋友”的文本在摘要及关键词,若用户触发“幼儿园老师打小朋友”标题,则通过索引向用户展示全文。
本发明提供另一种舆情监控方法,通过获取待处理的文本数据,根据基础词典对所述文本数据进行分词,然后判断分词结果与文本主题数据的相关度是否大于或等于预设阈值,若是,则确认所述分词结果为关键词。与现有技术的关键词提取及中文分词相比,本发明通过根据基础词典对文本数据进行分词,继而根据与文本主题相关度的预置确认出关键词,并基于关键词对文本数据进行分析,使得文本以事件的形式进行展示,提高了舆情监控中文处理效率和准确性。
进一步地,作为图1所示方法的具体实现,本发明实施例提供一种舆情监控系统,如图3所示,所述系统可以包括:采集服务器31、处理服务器32。
采集服务器31,用于获取待处理的文本数据;
处理服务器32,与所述采集服务器连接,用于根据基础词典对所述文本数据进行分词,所述词典包括预置范围的人名及地名;
所述处理服务器32,还用于判断分词结果与文本主题数据的相关度是否大于或等于预设阈值;
所述处理服务器32,还用于若是,则确认所述分词结果为关键词。
本发明提供一种舆情监控系统,通过采集服务器获取待处理的文本数据,处理服务器根据基础词典对所述文本数据进行分词,然后判断分词结果与文本主题数据的相关度是否大于或等于预设阈值,若是,则确认所述分词结果为关键词。与现有技术的关键词提取及中文分词相比,本发明通过根据基础词典对文本数据进行分词,继而根据与文本主题相关度的预置确认出关键词,并基于关键词对文本数据进行分析,使得文本以事件的形式进行展示,提高了舆情监控中文处理效率和准确性。
进一步地,作为图2所示方法的具体实现,本发明实施例提供另一种舆情监控系统,如图4所示,所述系统可以包括:采集服务器41、处理服务器42、显示服务器43。
采集服务器41,用于获取待处理的文本数据;
处理服务器42,与所述采集服务器连接,用于根据基础词典对所述文本数据进行分词,所述基础词典包括预置范围的人名及地名;
所述处理服务器42,还用于判断分词结果与文本主题数据的相关度是否大于或等于预设阈值;
所述处理服务器42,还用于若是,则确认所述分词结果为关键词。
所述处理服务器42,具体用于根据预置统计算法计算所述分词结果中人名和地名的成词阈值.
所述处理服务器42,具体还用于提取成词阈值大于预设阈值的人名和地名。
所述处理服务器42,还用于根据所述关键词对所述文本数据进行处理分析。
进一步地,所述系统包括:
显示服务器43,与所述处理服务器连接,用于接收用户请求展示指令,所述用户请求展示指令携带有展示信息;
所述显示服务器43,还用于向用户展示与所述展示信息对应的处理分析结果。
进一步地,所述处理服务器42包括:
文本情感分析模块4201,用于提取所述分词结果中具有情感色彩的词语;
所述文本情感分析模块4201,还用于根据情感词典确认所述词语的情感极性,所述情感极性包括正向、负向、中立,以便于计算文本数据信息的情感极性。
进一步地,所述处理服务器42还包括:
事件发现模块4202,用于为文本数据信息配置文本分类类别;
所述事件发现模块4202,还用于当文本数据中存在与所述类别对应事件中的关键词匹配的关键词时,则判断所述文本数据信息的关键词是否大于与所述类别对应事件的关键词个数;
所述事件发现模块4202,还用于若是,则根据预置算法计算所述文本数据信息与所述事件的距离阈值;
所述事件发现模块4202,还用于若所述距离阈值小于所述类别对应的事件的距离阈值,则确认文本数据信息为对应的事件。
本发明提供另一种舆情监控系统,通过采集服务器获取待处理的文本数据,处理服务器根据基础词典对所述文本数据进行分词,然后判断分词结果与文本主题数据的相关度是否大于或等于预设阈值,若是,则确认所述分词结果为关键词。与现有技术的关键词提取及中文分词相比,本发明通过根据基础词典对文本数据进行分词,继而根据与文本主题相关度的预置确认出关键词,并基于关键词对文本数据进行分析,使得文本以事件的形式进行展示,提高了舆情监控中文处理效率和准确性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (12)

1.一种舆情监控方法,其特征在于,所述系统包括:
获取待处理的文本数据;
根据基础词典对所述文本数据进行分词,所述基础词典包括预置范围的人名及地名;
判断分词结果与文本主题数据的相关度是否大于或等于预设阈值;
若是,则确认所述分词结果为关键词。
2.根据权利要求1所述的舆情监控方法,其特征在于,所述根据基础词典对所述文本数据进行分词,包括:
根据预置统计算法计算所述分词结果中人名和地名的成词阈值;
提取成词阈值大于预设阈值的人名和地名。
3.根据权利要求1所述的舆情监控方法,其特征在于,所述若是,则确认所述分词结果为关键词之后,所述方法还包括:
根据所述关键词对所述文本数据进行处理分析。
4.根据权利要求3所述的舆情监控方法,其特征在于,根据所述关键词对所述文本数据进行处理分析之后,所述方法还包括:
接收用户请求展示指令,所述用户请求展示指令携带有展示信息;
向用户展示与所述展示信息对应的处理分析结果。
5.根据权利要求3所述的舆情监控方法,其特征在于,根据所述关键词对所述文本数据进行处理分析包括:
根据所述基础词典提取所述分词结果中具有情感色彩的词语;
根据情感词语确认所述词语的情感极性,所述情感极性包括正向、负向、中立,以便于计算文本数据的情感极性。
6.根据权利要求3所述的舆情监控方法,其特征在于,根据所述关键词对所述文本数据进行处理分析包括:
为文本数据配置文本分类类别;
当文本数据中存在与所述类别对应事件中的关键词匹配的关键词时,则判断所述文本数据中的关键词个数是否大于与所述类别对应事件的关键词个数;
若是,则根据预置算法计算所述文本数据与所述事件的距离阈值;
若所述距离阈值小于所述类别对应事件的距离阈值,则确认文本数据为对应的事件。
7.一种舆情监控系统,其特征在于,所述系统包括:
采集服务器,用于获取待处理的文本数据;
处理服务器,与所述采集服务器连接,用于根据基础词典对所述文本数据进行分词,所述基础词典包括预置范围的人名及地名;
所述处理服务器,还用于判断分词结果与文本主题数据的相关度是否大于或等于预设阈值;
所述处理服务器,还用于若是,则确认所述分词结果为关键词。
8.根据权利要求7所述的舆情监控系统,其特征在于,
所述处理服务器,具体用于根据预置统计算法计算所述分词结果中人名和地名的成词阈值;
所述处理服务器,具体还用于提取成词阈值大于预设阈值的人名和地名。
9.根据权利要求7所述的舆情监控系统,其特征在于,
所述处理服务器,还用于根据所述关键词对所述文本数据进行处理分析。
10.根据权利要求9所述的舆情监控系统,其特征在于,所述系统还包括:显示服务器,
所述显示服务器,与所述处理服务器连接,用于接收用户请求展示指令,所述用户请求展示指令携带有展示信息;
所述显示服务器,还用于向用户展示与所述展示信息对应的处理分析结果。
11.根据权利要求9所述的舆情监控系统,其特征在于,所述处理服务器包括;
文本情感分析模块,用于提取所述分词结果中具有情感色彩的词语;
所述文本情感分析模块,还用于根据情感词典确认所述词语的情感极性,所述情感极性包括正向、负向、中立,以便于计算文本数据信息的情感极性。
12.根据权利要求9所述的舆情监控系统,其特征在于,所述处理服务器包括;
事件发现模块,用于为文本数据信息配置文本分类类别;
所述事件发现模块,还用于当文本数据中存在与所述类别对应事件中的关键词匹配的关键词时,则判断所述文本数据信息的关键词是否大于与所述类别对应事件的关键词个数;
所述事件发现模块,还用于若是,则根据预置算法计算所述文本数据信息与所述事件的距离阈值;
所述事件发现模块,还用于若所述距离阈值小于所述类别对应事件的距离阈值,则确认文本数据信息为对应的事件。
CN201610201194.0A 2016-03-31 2016-03-31 舆情监控方法及系统 Active CN105824959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610201194.0A CN105824959B (zh) 2016-03-31 2016-03-31 舆情监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610201194.0A CN105824959B (zh) 2016-03-31 2016-03-31 舆情监控方法及系统

Publications (2)

Publication Number Publication Date
CN105824959A true CN105824959A (zh) 2016-08-03
CN105824959B CN105824959B (zh) 2021-09-10

Family

ID=56525425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610201194.0A Active CN105824959B (zh) 2016-03-31 2016-03-31 舆情监控方法及系统

Country Status (1)

Country Link
CN (1) CN105824959B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
CN106649875A (zh) * 2017-01-04 2017-05-10 成都四方伟业软件股份有限公司 舆情大数据的可视化系统
CN106708803A (zh) * 2016-12-21 2017-05-24 东软集团股份有限公司 一种特征提取方法及装置
CN106776536A (zh) * 2016-11-21 2017-05-31 国家电网公司客户服务中心 一种供电服务客户满意度关键词库构建方法及装置
CN107016107A (zh) * 2017-04-12 2017-08-04 四川九鼎瑞信软件开发有限公司 舆情分析方法及系统
CN107918633A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 基于语义分析技术的敏感舆情内容识别方法和预警系统
CN108153764A (zh) * 2016-12-05 2018-06-12 腾讯科技(深圳)有限公司 一种舆情处理方法及装置
CN108228808A (zh) * 2017-12-29 2018-06-29 东软集团股份有限公司 确定热点事件的方法、装置和存储介质以及电子设备
CN108320255A (zh) * 2017-01-16 2018-07-24 软通动力信息技术(集团)有限公司 一种信息处理方法及装置
CN108536762A (zh) * 2018-03-21 2018-09-14 上海蔚界信息科技有限公司 一种大批量文本数据自动分析方案
CN109408819A (zh) * 2018-10-16 2019-03-01 武大吉奥信息技术有限公司 一种基于自然语言处理技术的核心地名提取方法及装置
WO2019085355A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
CN110134849A (zh) * 2019-05-20 2019-08-16 瑞森网安(福建)信息科技有限公司 一种网络舆情监控方法及系统
CN110175323A (zh) * 2018-05-31 2019-08-27 腾讯科技(深圳)有限公司 消息摘要的生成方法和装置
CN110457599A (zh) * 2019-08-15 2019-11-15 中国电子信息产业集团有限公司第六研究所 热点话题追踪方法、装置、服务器及可读存储介质
CN110852090A (zh) * 2019-11-07 2020-02-28 中科天玑数据科技股份有限公司 一种用于舆情爬取的机构特征词汇扩展系统和方法
CN111160019A (zh) * 2019-12-30 2020-05-15 中国联合网络通信集团有限公司 一种舆情监测的方法、装置及系统
CN112115263A (zh) * 2020-09-08 2020-12-22 浙江嘉兴数字城市实验室有限公司 一种基于nlp的社会治理大数据监测预警的方法
CN113609296A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于舆情数据识别的数据处理方法和装置
CN113742452A (zh) * 2021-09-08 2021-12-03 平安科技(深圳)有限公司 基于文本分类的舆情监测方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955775A (zh) * 2012-06-14 2013-03-06 华东师范大学 基于上下文语义的外国人名自动识别控制方法
CN103186662A (zh) * 2012-12-28 2013-07-03 中联竞成(北京)科技有限公司 一种动态舆情关键词抽取系统和方法
CN104035960A (zh) * 2014-05-08 2014-09-10 东莞市巨细信息科技有限公司 互联网资讯信息热点预测方法
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法
CN104572877A (zh) * 2014-12-22 2015-04-29 网易(杭州)网络有限公司 游戏舆情的检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955775A (zh) * 2012-06-14 2013-03-06 华东师范大学 基于上下文语义的外国人名自动识别控制方法
CN103186662A (zh) * 2012-12-28 2013-07-03 中联竞成(北京)科技有限公司 一种动态舆情关键词抽取系统和方法
CN104035960A (zh) * 2014-05-08 2014-09-10 东莞市巨细信息科技有限公司 互联网资讯信息热点预测方法
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法
CN104572877A (zh) * 2014-12-22 2015-04-29 网易(杭州)网络有限公司 游戏舆情的检测方法及系统

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776536A (zh) * 2016-11-21 2017-05-31 国家电网公司客户服务中心 一种供电服务客户满意度关键词库构建方法及装置
CN108153764A (zh) * 2016-12-05 2018-06-12 腾讯科技(深圳)有限公司 一种舆情处理方法及装置
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
CN106708803A (zh) * 2016-12-21 2017-05-24 东软集团股份有限公司 一种特征提取方法及装置
CN106649875B (zh) * 2017-01-04 2020-04-07 成都四方伟业软件股份有限公司 舆情大数据的可视化系统
CN106649875A (zh) * 2017-01-04 2017-05-10 成都四方伟业软件股份有限公司 舆情大数据的可视化系统
CN108320255A (zh) * 2017-01-16 2018-07-24 软通动力信息技术(集团)有限公司 一种信息处理方法及装置
CN107918633A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 基于语义分析技术的敏感舆情内容识别方法和预警系统
CN107918633B (zh) * 2017-03-23 2021-07-02 广州思涵信息科技有限公司 基于语义分析技术的敏感舆情内容识别方法和预警系统
CN107016107A (zh) * 2017-04-12 2017-08-04 四川九鼎瑞信软件开发有限公司 舆情分析方法及系统
CN107016107B (zh) * 2017-04-12 2020-05-12 四川九鼎瑞信软件开发有限公司 舆情分析方法及系统
WO2019085355A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
CN108228808A (zh) * 2017-12-29 2018-06-29 东软集团股份有限公司 确定热点事件的方法、装置和存储介质以及电子设备
CN108228808B (zh) * 2017-12-29 2020-07-31 东软集团股份有限公司 确定热点事件的方法、装置和存储介质以及电子设备
CN108536762A (zh) * 2018-03-21 2018-09-14 上海蔚界信息科技有限公司 一种大批量文本数据自动分析方案
CN110175323B (zh) * 2018-05-31 2022-05-13 腾讯科技(深圳)有限公司 消息摘要的生成方法和装置
CN110175323A (zh) * 2018-05-31 2019-08-27 腾讯科技(深圳)有限公司 消息摘要的生成方法和装置
CN109408819A (zh) * 2018-10-16 2019-03-01 武大吉奥信息技术有限公司 一种基于自然语言处理技术的核心地名提取方法及装置
CN110134849A (zh) * 2019-05-20 2019-08-16 瑞森网安(福建)信息科技有限公司 一种网络舆情监控方法及系统
CN110457599B (zh) * 2019-08-15 2021-09-03 中国电子信息产业集团有限公司第六研究所 热点话题追踪方法、装置、服务器及可读存储介质
CN110457599A (zh) * 2019-08-15 2019-11-15 中国电子信息产业集团有限公司第六研究所 热点话题追踪方法、装置、服务器及可读存储介质
CN110852090A (zh) * 2019-11-07 2020-02-28 中科天玑数据科技股份有限公司 一种用于舆情爬取的机构特征词汇扩展系统和方法
CN110852090B (zh) * 2019-11-07 2024-03-19 中科天玑数据科技股份有限公司 一种用于舆情爬取的机构特征词汇扩展系统和方法
CN111160019A (zh) * 2019-12-30 2020-05-15 中国联合网络通信集团有限公司 一种舆情监测的方法、装置及系统
CN111160019B (zh) * 2019-12-30 2023-08-15 中国联合网络通信集团有限公司 一种舆情监测的方法、装置及系统
CN112115263A (zh) * 2020-09-08 2020-12-22 浙江嘉兴数字城市实验室有限公司 一种基于nlp的社会治理大数据监测预警的方法
CN113609296A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于舆情数据识别的数据处理方法和装置
CN113742452A (zh) * 2021-09-08 2021-12-03 平安科技(深圳)有限公司 基于文本分类的舆情监测方法、装置、设备及介质
CN113742452B (zh) * 2021-09-08 2023-07-18 平安科技(深圳)有限公司 基于文本分类的舆情监测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN105824959B (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN105824959A (zh) 舆情监控方法及系统
CN108197163B (zh) 一种基于裁判文书的结构化处理方法
Salloum et al. Mining social media text: extracting knowledge from Facebook
US10565233B2 (en) Suffix tree similarity measure for document clustering
CN103678564B (zh) 一种基于数据挖掘的互联网产品调研系统
CN105045875B (zh) 个性化信息检索方法及装置
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN110232149A (zh) 一种热点事件检测方法和系统
Dang et al. Framework for retrieving relevant contents related to fashion from online social network data
CN109960756A (zh) 新闻事件信息归纳方法
CN107967290A (zh) 一种基于海量科研资料的知识图谱网络构建方法及系统、介质
CN113553429A (zh) 一种规范化标签体系构建及文本自动标注方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN110245239A (zh) 一种面向汽车领域知识图谱的构建方法及系统
CN103778206A (zh) 一种网络服务资源的提供方法
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
Gong et al. Phrase-based hashtag recommendation for microblog posts.
Maynard et al. Multimodal sentiment analysis of social media
Campbell et al. Content+ context networks for user classification in twitter
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
Baraniak et al. News articles similarity for automatic media bias detection in Polish news portals
CN109766442A (zh) 一种对用户笔记进行分类的方法及系统
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
CN114238735B (zh) 一种互联网数据智能采集方法
Aref Mining publication papers via text mining Evaluation and Results

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant