CN107045524B - 一种网络文本舆情分类的方法及系统 - Google Patents
一种网络文本舆情分类的方法及系统 Download PDFInfo
- Publication number
- CN107045524B CN107045524B CN201611260608.3A CN201611260608A CN107045524B CN 107045524 B CN107045524 B CN 107045524B CN 201611260608 A CN201611260608 A CN 201611260608A CN 107045524 B CN107045524 B CN 107045524B
- Authority
- CN
- China
- Prior art keywords
- word
- sensitive
- text
- weight
- web
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种网络文本舆情分类的方法及系统,该方法包括以下步骤:构建敏感词词表;将敏感词词表分类成多个敏感类别,每个敏感类别包含多个关键词;通过第一相似度算法将多个关键词与网络文本进行匹配,根据匹配结果对网络文本进行舆情分类。该系统包括:处理模块和匹配模块。本发明通过对文本处理获取阶段时间内人们关注的热点信息;利用敏感词词库对网络文本实现了自动化分类工作,适用于网络舆情监测、敏感信息过滤、重大新闻事件追踪等应用,可以为决策层全面掌握舆情动态提供分析依据,提供服务并助于相关信息技术工作。
Description
技术领域
本发明涉及语言类信息处理领域,具体涉及一种网络文本舆情分类的方法及系统。
背景技术
网络舆情是指网民通过互联网对政府管理和社会生活中的种种现象,问题表达政治信念,态度,意见和情绪的总和,跟现实中的舆论相比较,网络舆情传播更快,范围更大等特点。如何提取有效的藏文信息以及开展藏文舆情分析工作,是非常值得研究的课题。
了解社会动态和发展趋势,更快更全面的抓住舆情动向,从而进行正确的引导舆论和宣传。对藏文网络舆情的分析,可以得到舆情信息的时间和空间分布,通过对热点深层次的追踪,可以了解到舆情的源头以及动向,对政府部门应对网络突发的公共事件具有推动作用。
本发明提供的一种网络文本舆情分类的方法及系统,在关于舆情处理技术部分,首先采集了敏感词库,通过敏感词库可以对网络文本进行舆情词追踪。对舆情词库进行类别分类后,利用这个词库对网络文本进行舆情分类,通过对藏文舆情词追踪以及舆情相关技术处理结果有较高的准确率。
本发明将有助于藏文文本相关信息技术工作。通过舆情词作为文本处理的特征来获取阶段时间内人们关注的热点信息。利用舆情词库对网络文本实现了自动化分类工作,适用于网络舆情监测、敏感信息过滤、重大新闻事件追踪等应用,可以为决策层全面掌握舆情动态提供分析依据,为相关部门提供服务。
发明内容
本发明的目的是解决现阶段藏文文本相关信息技术工作中的缺点,本发明通过舆情词作为文本处理的特征来获取阶段时间内人们关注的热点信息。利用舆情词库对网络文本实现了自动化分类工作,适用于网络舆情监测、敏感信息过滤、重大新闻事件追踪等应用,可以为决策层全面掌握舆情动态提供分析依据,为相关部门提供服务。
为实现上述目的,一方面,本发明提供了一种网络文本舆情分类的方法,该方法包括以下步骤:构建敏感词词表;将敏感词词表分类成至少一个敏感类别,每个敏感类别包含至少一个关键词;将至少一个关键词与网络文本进行匹配,获得匹配结果,根据第一相似度算法及匹配结果对网络文本进行舆情分类。
优选地,根据网络词汇构建敏感词词表的步骤之后还包括以下步骤:对网络文本进行分词和去停用词处理,获得第一网络文本;根据敏感词词表获得第一网络文本中的敏感词;根据词权重计算算法确定敏感词中的热度敏感词;对热度敏感词和第一网络文本进行第二相似度算法计算,并根据计算结果对第一网络文本进行舆情分类。
词权重计算算法包括以下步骤:对敏感词词表中的词汇所在的文本进行去分词和去停用词处理,将文本进行文本向量化处理获得待计算权重的词汇;设置Temp表,通过权重计算公式获得多个待计算权重的词汇的权重值,将待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中,敏感词词表与网络文本集进行匹配,匹配出的词存储Temp表中。
权重计算公式如下所示:
weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)
其中,ti表示Temp表中的每个词,weight(ti)表示Temp表中的每个词的权重,Title_(ti)表示Temp表中的每个词在文本标题中出现的次数,Content_tf(ti)表示Temp表中的每个词在文本正文中出现的次数,a为预设值(a为正整数)。
此外,第一相似度算法的公式如下所示:
Sim[Di,Cj]=(0.7*n+0.3*m)/|Cj|
Di表示第一网络文本,Cj表示敏感类别,n表示词频总数,m表示匹配词数。
另一方面,本发明提供了一种网络文本舆情分类的系统,该系统包括:处理模块和匹配模块。
处理模块,用于构建敏感词词表;将敏感词词表分类成至少一个敏感类别,每个敏感类别包含至少一个关键词。
匹配模块,将至少一个关键词与网络文本进行匹配,获得匹配结果,根据第一相似度算法及匹配结果对网络文本进行舆情分类。
优选地,处理模块具体用于,对网络文本进行分词和去停用词处理,获得第一网络文本;根据敏感词词表获得第一网络文本中的敏感词;根据词权重计算算法确定敏感词中的热度敏感词;对热度敏感词和第一网络文本进行第二相似度算法计算,并根据计算结果对第一网络文本进行舆情分类。
其中,词权重计算算法包括以下步骤:对敏感词词表中的词汇所在的文本进行去分词和去停用词处理,将文本进行文本向量化处理获得待计算权重的词汇;设置Temp表,通过权重计算公式获得多个待计算权重的词汇的权重值,将待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中,敏感词词表与网络文本集进行匹配,匹配出的词存储Temp表中。
权重计算公式如下所示:
weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)
ti表示Temp表中的每个词,weight(ti)表示Temp表中的每个词的权重,Title_(ti)表示Temp表中的每个词在文本标题中出现的次数,Content_tf(ti)表示Temp表中的每个词在文本正文中出现的次数,a为预设值(a为正整数)。
此外,匹配模块具体用于,第一相似度算法的公式如下所示:
Sim[Di,Cj]=(0.7*n+0.3*m)/|Cj|
其中,Di表示第一网络文本,Cj表示敏感类别,n表示Di和Cj匹配出的词频总数,m表示Di和Cj匹配出的敏感词次数,|Cj|表示Cj类词的个数。
本发明通过敏感词作为文本处理的特征来获取阶段时间内人们关注的热点信息。利用敏感词库对网络文本实现了自动化分类工作,适用于网络舆情监测、敏感信息过滤、重大新闻事件追踪等应用,可以为决策层全面掌握舆情动态提供分析依据,为相关部门提供服务并助于藏文文本相关信息技术工作。
附图说明
图1为本发明实施例提供的一种网络文本舆情分类的方法流程图;
图2为本发明实施例提供的另一种网络文本舆情分类的方法流程图;
图3为本发明实施例提供的一种词权重计算算法流程图;
图4为本发明实施例提供的一种舆情分类主界面示意图;
图5为本发明实施例提供的一种网络文本舆情分类的系统结构示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明实施例提供的一种网络文本舆情分类的方法流程图。如图1所示,该方法包括步骤S101-S103:
步骤S101,构建敏感词词表。
具体地,根据人工筛选书籍或在网络上获取敏感词并翻译为需要的语言类型,本发明实施例提供的语言类型为藏语。
例如,通过人工筛选,获取与恐怖、暴力、宗教、社会安全等方面的网络词汇2000词,并构建敏感词词表的示例如表1所示:
1、炸弹
2、海洛因
3、冰毒
4、大麻
5、险情
6、恐怖袭击
7、伪装
8、人质
9、对手
10、敌手
11、战术
12、死亡人数
13、暴动
14、抢劫
15、军营
16、武力
17、侵犯
18、武器核查
19、驱逐
20、俘虏
表1 敏感词词表
步骤S102,将敏感词词表分类成至少一个敏感类别,每个敏感类别包含至少一个关键词。
步骤S103,将至少一个关键词与网络文本进行匹配,获得匹配结果,根据第一相似度算法及匹配结果对网络文本进行舆情分类。
具体地,第一相似度算法的公式如下所示:
Sim[Di,Cj]=(0.7*n+0.3*m)/|Cj|
其中,Di表示第一网络文本,Cj表示敏感类别,n表示Di和Cj匹配出的词频总数,m表示Di和Cj匹配出的敏感词次数,|Cj|表示Cj类词的个数。
例如,我们将采集到的热度敏感词分类成十五个敏感类别,分别是:法律执法,反腐倡廉,公共卫生事件,教育改革,垄断企业,部门职能改革,扫黄打非,社会安全,社会思潮,事故灾难,网络建设发展,文化之争,阅读文化,医疗与健康,舆论监督,自然灾害。每个敏感类别下都有至少一个关键词,通过这些关键词与网络文本进行匹配,并通过相似度算法进行网络文本类别判定,并对网络文本赋予标签。
对网络文本舆情分类的算法如下:
在第一相似度公式Sim[Di,Cj]=(0.7*n+0.3*m)/|Cj|中,分别考虑到了文章Di在某敏感类别Cj中词频总数n和词数m对相似度的影响,其中词频总数n对相似度的影响占0.7的比重,词数m对相似度的影响占0.3的比重。对于第一相似度Sim[Di,Cx]=(0.7*nx+0.3*mx)/|Cj|和Sim[Di,Cy]=(0.7*ny+0.3*my)/|Cj|,当|Cx|=|Cy|,mx=my时,如果nx>ny,则Sim[Di,Cx]>Sim[Di,Cy],说明文章中含某类热度舆情词词频总数大,那么判别文章属于该类的概率就大。当|Cx|=|Cy|,nx=ny时,如果mx>my,则Sim[Di,Cx]>Sim[Di,Cy],说明文章中含某类热度舆情词词数多,那么判别文章属于该类的概率就大。当mx=my、nx=ny时,如果|Cx|<|Cy|,则Sim[Di,Cx]>Sim[Di,Cy],说明某类舆情词词表中词数少,文章属于该类的概率大,其中,Cx表示第x个敏感类别,Cy表示敏感词第y类。
此外,根据网络词汇构建敏感词词表的步骤之后还包括步骤S201-S204:
步骤S201,对网络文本进行分词和去停用词处理,获得第一网络文本。
步骤S202,根据敏感词词表获得第一网络文本中的敏感词。
步骤S203,根据词权重计算算法确定敏感词中的热度敏感词。
步骤S204,对热度敏感词和第一网络文本进行第二相似度算法计算,并根据计算结果对第一网络文本进行舆情分类。
其中,词权重计算算法包括以下步骤:对敏感词词表中的词汇所在的文本进行去分词和去停用词处理,将文本进行文本向量化处理获得待计算权重的词汇;设置temp表,通过权重计算公式获得多个待计算权重的词汇的权重值,将待计算权重的词汇的权重值所对应的敏感词储存于所述temp表中。
权重计算公式如下所示:
weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)
其中,ti表示Temp表中的每个词,weight(ti)表示Temp表中的每个词的权重,Title_(ti)表示Temp表中的每个词在文本标题中出现的次数,Content_tf(ti)表示Temp表中的每个词在文本正文中出现的次数,a为预设值(a为正整数)。
例如,将预处理后的藏文网络文本进行分词和去除停用词,将敏感词词表与预处理后的藏文网络文本进行数据比对分析,统计出敏感词某时间段内在藏文网络文本中出现的频率,并记录敏感词在各文章中出现的频次,计算敏感词的权重。
可以统计某时间段(如某天或者某一周内)出现的敏感词的权重排行,输出权重高即热度敏感词,为舆情处理工作提供一个直观的监测。
例如,敏感词追踪以天为单位进行,根据表1所示的敏感词词表,对表2所示的各网站发布的新闻进行敏感词比对,其中,表2和表3分别给出2016年9月9日和9月10日的提取的敏感词信息,表2和表3如下所示:
表2 9月9日提取的敏感词
表3 9月10日提取的敏感词
此外,敏感词追踪的算法如下:
输入:网页预处理后的某时间段内s篇藏文新闻文本,敏感词表T。
输出:m个高热度的敏感词
Begin
将s篇新闻文本进行分词和去停用词(S为正整数),随后对每篇文本Di进行文本向量化,将Di的标题title中的词汇转为向量V_title(Di)=(a,b,c,d,..),将Di的正文中的词汇转为向量V_content(Di)=(a,b,c,d,..),向量中a,b,c,d,..的表示文本中的词汇。
其中,公式weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)中,ti表示Temp表中的每个词,weight(ti)表示Temp词表中的每个词的权重,Title_(ti)表示Temp表中的每个词在文本标题中出现的次数,Content_tf(ti)表示Temp表中的每个词在文本正文中出现的次数,a为预设值(a为正整数)。
将获得的m个最高热度的敏感词命名为热度敏感词,将m个热度敏感词与某篇网络文本dx进行热度匹配获得b个热度敏感词,根据b个热度敏感词对dx进行二次分类。b个热度敏感词可能属于不同类别,如果b个热度敏感词某类热度敏感词权重之和最高,就将某篇网络文本dx赋予该类标签。如果某2类中的热度敏感词的权重和最高并且相同,则将含有热度敏感词个数多的类别标签赋予该网络文本dx。
除了正文和标题中的词汇,每个新闻文本还有一些标签,例如作者,发表时间等,在敏感词追踪的过程中,除文本集中的敏感词信息外,还可生成敏感词在各新闻文本中出现的频率,文章名,来源网站,总频率等,通过这些标签可以有效的将敏感追踪到文章,相关网站等重要内容。
图3为本发明实施例提供的一种词权重计算算法流程图。如图3所示,词权重计算算法包括步骤S301-S302:
步骤S201:对敏感词词表中的词汇所在的文本进行去分词和去停用词处理,将文本进行文本向量化处理获得待计算权重的词汇。
步骤S202:设置Temp表,通过权重计算公式获得多个待计算权重的词汇的权重值,将待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中。
其中,权重计算公式如下所示:
weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)
ti表示Temp表中的每个词,weight(ti)表示Temp表中的每个词的权重,Title_(ti)表示Temp表中的每个词在文本标题中出现的次数,Content_tf(ti)表示Temp表中的每个词在文本正文中出现的次数,a为预设值(a为正整数),敏感词词表与网络文本集进行匹配,匹配出的词存储Temp表中。
图4为本发明实施例提供的一种舆情分类主界面示意图。如图4所示,舆情分类基于敏感词词表,将预处理后的XML文件以天为单位进行自动分类。舆情分类工具软件如图4所示,分类软件将每一天所有文件的类别写入txt文件保存。
由于敏感词表规模所致,有一些文件不能与敏感词词表匹配,我们将其标记为“未分类”,舆情分类的准确率依靠敏感词词表,舆情分类的结果通过对比是可观的,可以大大减少人工监测分类的财力物力消耗,为藏文舆情相关处理工作提供了分析依据。
图5为本发明实施例提供的一种网络文本舆情分类的系统结构示意图。如图5所示,该系统包括:处理模块501和匹配模块502。
处理模块501,用于构建敏感词词表;将敏感词词表分类成至少一个敏感类别,每个敏感类别包含至少一个关键词。
匹配模块502,将至少一个关键词与网络文本进行匹配,获得匹配结果,根据第一相似度算法及匹配结果对网络文本进行舆情分类。
具体地,处理模块具体用于,对网络文本进行分词和去停用词处理,获得第一网络文本;根据敏感词词表获得第一网络文本中的敏感词;根据词权重计算算法确定敏感词中的热度敏感词;对热度敏感词和第一网络文本进行第二相似度算法计算,并根据计算结果对第一网络文本进行舆情分类。
其中,词权重计算算法包括以下步骤:对敏感词词表中的词汇所在的文本进行去分词和去停用词处理,将文本进行文本向量化处理获得待计算权重的词汇;设置Temp表,通过权重计算公式获得多个待计算权重的词汇的权重值,将待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中。
此外,权重计算公式如下所示:
weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)
ti表示Temp表中的每个词,weight(ti)表示Temp表中的每个词的权重,Title_(ti)表示Temp表中的每个词在文本标题中出现的次数,Content_tf(ti)表示Temp表中的每个词在文本正文中出现的次数,a为预设值(a为正整数)。
匹配模块403,用于通过第一相似度算法将所述多个关键词与网络文本进行匹配,根据匹配结果对所述网络文本进行舆情分类。
其中,匹配模块具体用于,第一相似度算法的公式如下所示:
Sim[Di,Cj]=(0.7*n+0.3*m)/|Cj|
其中,Di表示第一网络文本,Cj表示敏感类别,n表示Di和Cj匹配出的词频总数,m表示Di和Cj匹配出的敏感词次数,|Cj|表示Cj类词的个数。
本发明通过敏感词作为文本处理的特征来获取阶段时间内人们关注的热点信息。利用敏感词词库对网络文本实现了自动化分类工作,适用于网络舆情监测、敏感信息过滤、重大新闻事件追踪等应用,可以为决策层全面掌握舆情动态提供分析依据,为相关部门提供服务并助于藏文文本相关信息技术工作。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种网络文本舆情分类的方法,其特征在于,包括以下步骤:
构建敏感词词表;
对所述网络文本进行分词和去停用词处理,获得第一网络文本;根据所述敏感词词表获得所述第一网络文本中的敏感词;根据词权重计算算法确定所述敏感词中的热度敏感词;对所述热度敏感词和所述第一网络文本进行第二相似度算法计算,并根据计算结果对所述第一网络文本进行舆情分类;
将所述敏感词词表分类成至少一个敏感类别,每个敏感类别包含至少一个关键词;
将所述至少一个关键词与网络文本进行匹配,获得匹配结果,根据第一相似度算法及匹配结果对所述网络文本进行舆情分类;其中,
所述第一相似度算法的公式如下所示:
Sim[Di,Cj]=(0.7*n+0.3*m)/|Cj|
其中,Di表示第一网络文本,Cj表示敏感类别,n表示Di和Cj匹配出的词频总数,m表示Di和Cj匹配出的敏感词次数,|Cj|表示Cj类词的个数。
2.根据权利要求1所述的方法,其特征在于,所述词权重计算算法包括以下步骤:
对所述敏感词词表中的词汇所在的文本进行去分词和去停用词处理,将所述文本进行文本向量化处理获得待计算权重的词汇;
设置Temp表,通过权重计算公式获得多个所述待计算权重的词汇的权重值,将所述待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中,所述敏感词词表与网络文本进行匹配,匹配出的词存储所述Temp表中。
3.根据权利要求2所述的方法,其特征在于,所述权重计算公式如下所示:
weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)
其中,ti表示Temp表中的每个词,weight(ti)表示Temp表中的每个词的权重,Title_(ti)表示Temp表中的每个词在文本标题中出现的次数,Content_tf(ti)表示Temp表中的每个词在文本正文中出现的次数,a为预设值,a为正整数。
4.一种网络文本舆情分类的系统,其特征在于,包括:
处理模块,用于构建敏感词词表;对所述网络文本进行分词和去停用词处理,获得第一网络文本;根据所述敏感词词表获得所述第一网络文本中的敏感词;根据词权重计算算法确定所述敏感词中的热度敏感词;对所述热度敏感词和所述第一网络文本进行第二相似度算法计算,并根据计算结果对所述第一网络文本进行舆情分类;将所述敏感词词表分类成至少一个敏感类别,每个敏感类别包含至少一个关键词;
匹配模块,将所述至少一个关键词与网络文本进行匹配,获得匹配结果,根据第一相似度算法及匹配结果对所述网络文本进行舆情分类;其中,所述匹配模块具体用于,所述第一相似度算法的公式如下所示:
Sim[Di,Cj]=(0.7*n+0.3*m)/|Cj|
其中,Di表示第一网络文本,Cj表示敏感类别,n表示词频总数,m表示匹配词数。
5.根据权利要求4所述的系统,其特征在于,所述词权重计算算法包括以下步骤:
对所述敏感词词表中的词汇所在的文本进行去分词和去停用词处理,将所述文本进行文本向量化处理获得待计算权重的词汇;
设置Temp表,通过权重计算公式获得多个所述待计算权重的词汇的权重值,将所述待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中,所述敏感词词表与网络文本进行匹配,匹配出的词存储所述Temp表中。
6.根据权利要求5所述的系统,其特征在于,所述权重计算公式如下所示:
weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)
其中,ti表示Temp表中的每个词,weight(ti)表示Temp表中的每个词的权重,Title_(ti)表示Temp表中的每个词在文本标题中出现的次数,Content_tf(ti)表示Temp表中的每个词在文本正文中出现的次数,a为预设值,a为正整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611260608.3A CN107045524B (zh) | 2016-12-30 | 2016-12-30 | 一种网络文本舆情分类的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611260608.3A CN107045524B (zh) | 2016-12-30 | 2016-12-30 | 一种网络文本舆情分类的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107045524A CN107045524A (zh) | 2017-08-15 |
CN107045524B true CN107045524B (zh) | 2019-12-27 |
Family
ID=59542834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611260608.3A Active CN107045524B (zh) | 2016-12-30 | 2016-12-30 | 一种网络文本舆情分类的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107045524B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019760B (zh) * | 2017-11-02 | 2022-05-06 | 中移(杭州)信息技术有限公司 | 一种文本信息的处理方法及系统 |
CN107967310A (zh) * | 2017-11-17 | 2018-04-27 | 深圳市城市公共安全技术研究院有限公司 | 舆情数据的处理方法、装置及存储介质 |
CN108334610A (zh) * | 2018-02-06 | 2018-07-27 | 北京神州泰岳软件股份有限公司 | 一种新闻文本分类方法、装置及服务器 |
CN108628974B (zh) * | 2018-04-25 | 2023-04-18 | 平安科技(深圳)有限公司 | 舆情信息分类方法、装置、计算机设备和存储介质 |
CN108763952B (zh) * | 2018-05-03 | 2022-04-05 | 创新先进技术有限公司 | 一种数据分类方法、装置及电子设备 |
CN110737770B (zh) * | 2018-07-03 | 2023-01-20 | 百度在线网络技术(北京)有限公司 | 文本数据敏感性识别方法、装置、电子设备及存储介质 |
CN109325114A (zh) * | 2018-07-24 | 2019-02-12 | 武汉理工大学 | 一种融合统计特征与Attention机制的文本分类算法 |
CN109492110A (zh) * | 2018-11-28 | 2019-03-19 | 南京中孚信息技术有限公司 | 文档分类方法及装置 |
CN109840300A (zh) * | 2019-03-04 | 2019-06-04 | 深信服科技股份有限公司 | 网络舆情分析方法、装置、设备及计算机可读存储介质 |
CN110347804B (zh) * | 2019-07-22 | 2023-05-12 | 同方知网数字出版技术股份有限公司 | 一种线性时间复杂度的敏感信息检测方法 |
CN110767211B (zh) * | 2019-09-23 | 2022-02-18 | 浙江斑智科技有限公司 | 一种基于文本内容数据清洗的语音合成播报系统 |
CN113378172B (zh) * | 2020-02-25 | 2023-12-29 | 奇安信科技集团股份有限公司 | 用于识别敏感网页的方法、装置、计算机系统和介质 |
CN111008525B (zh) * | 2020-03-11 | 2020-06-30 | 北京搜狐新媒体信息技术有限公司 | 一种关注度的计算方法及系统 |
US20210304341A1 (en) * | 2020-03-26 | 2021-09-30 | International Business Machines Corporation | Preventing disclosure of sensitive information |
CN111859013A (zh) * | 2020-07-17 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
CN112148936A (zh) * | 2020-10-10 | 2020-12-29 | 广州瀚信通信科技股份有限公司 | 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法 |
CN112699674A (zh) * | 2021-01-11 | 2021-04-23 | 山东特检鲁安工程技术服务有限公司 | 一种特种设备舆情分类方法 |
CN113934848B (zh) * | 2021-10-22 | 2023-04-07 | 马上消费金融股份有限公司 | 一种数据分类方法、装置和电子设备 |
CN115062107A (zh) * | 2022-06-10 | 2022-09-16 | 浙江嘉兴数字城市实验室有限公司 | 社会场景自动识别及其检查计划动态生成方法 |
CN116167603B (zh) * | 2023-02-28 | 2023-09-26 | 科技日报社 | 一种全媒体全流程内容监测的方法和系统 |
CN117453863B (zh) * | 2023-12-22 | 2024-03-29 | 珠海博维网络信息有限公司 | 一种舆情文本归类方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102385579A (zh) * | 2010-08-30 | 2012-03-21 | 腾讯科技(深圳)有限公司 | 互联网信息分类方法和系统 |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN104361081A (zh) * | 2014-11-13 | 2015-02-18 | 河海大学 | 一种基于web文档的自动摘要方法 |
CN104933443A (zh) * | 2015-06-26 | 2015-09-23 | 北京途美科技有限公司 | 一种敏感数据自动识别与分类的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2943447B2 (ja) * | 1991-01-30 | 1999-08-30 | 三菱電機株式会社 | テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置 |
US10157225B2 (en) * | 2014-12-17 | 2018-12-18 | Bogazici Universitesi | Content sensitive document ranking method by analyzing the citation contexts |
-
2016
- 2016-12-30 CN CN201611260608.3A patent/CN107045524B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102385579A (zh) * | 2010-08-30 | 2012-03-21 | 腾讯科技(深圳)有限公司 | 互联网信息分类方法和系统 |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN104361081A (zh) * | 2014-11-13 | 2015-02-18 | 河海大学 | 一种基于web文档的自动摘要方法 |
CN104933443A (zh) * | 2015-06-26 | 2015-09-23 | 北京途美科技有限公司 | 一种敏感数据自动识别与分类的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107045524A (zh) | 2017-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107045524B (zh) | 一种网络文本舆情分类的方法及系统 | |
Hamed et al. | Fake news detection model on social media by leveraging sentiment analysis of news content and emotion analysis of users’ comments | |
Sharif et al. | Identification and classification of textual aggression in social media: Resource creation and evaluation | |
Samonte | Polarity analysis of editorial articles towards fake news detection | |
Dasari et al. | A stacking ensemble approach for identification of informative tweets on twitter data | |
Manzoor et al. | Social mining for sustainable cities: thematic study of gender-based violence coverage in news articles and domestic violence in relation to COVID-19 | |
Alazab et al. | Fake-news detection system using machine-learning algorithms for arabic-language content | |
Dey et al. | Using machine learning to detect events on the basis of bengali and banglish facebook posts | |
Borah | Detecting covid-19 vaccine hesitancy in india: a multimodal transformer based approach | |
Lucas | Methods for monitoring and mapping online hate speech | |
Vogel | Big data and biodefense: Prospects and pitfalls | |
Bermeo et al. | Human trafficking in social networks: A review of machine learning techniques | |
Khanehzar et al. | Framing unpacked: A semi-supervised interpretable multi-view model of media frames | |
Pranto et al. | Are you misinformed? a study of covid-related fake news in bengali on facebook | |
Lopes-Cardoso et al. | Robust complaint processing in portuguese | |
Pimpalkar et al. | A Novel Paradigm for Sentiment Analysis on COVID-19 Tweets with Transfer Learning Based Fine-Tuned BERT | |
Mothe et al. | Instruments and tools to identify radical textual content | |
Ngoge | Real–time sentiment analysis for detection of terrorist activities in Kenya | |
van der Vegt et al. | Understanding lone-actor violence through linguistic analysis | |
Siddiqui et al. | An ensemble approach for the identification and classification of crime tweets in the English language | |
Muhariya et al. | Utilizing K-means Clustering for the Detection of Cyberbullying Within Instagram Comments. | |
Norah et al. | An Effective Text Classifier Using Machine Learning for Identifying Tweets’ Polarity Concerning Terrorist Connotation | |
Oswal | Identifying and categorizing offensive language in social media | |
Yadav et al. | Fake news detection using hybrid deep learning method | |
Chen et al. | An automated online spam detector based on deep cascade forest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |