CN106055541A - 一种新闻内容敏感词过滤方法及系统 - Google Patents

一种新闻内容敏感词过滤方法及系统 Download PDF

Info

Publication number
CN106055541A
CN106055541A CN201610496504.6A CN201610496504A CN106055541A CN 106055541 A CN106055541 A CN 106055541A CN 201610496504 A CN201610496504 A CN 201610496504A CN 106055541 A CN106055541 A CN 106055541A
Authority
CN
China
Prior art keywords
sensitive
news
sensitive word
word
grades
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610496504.6A
Other languages
English (en)
Other versions
CN106055541B (zh
Inventor
张新钰
刘聪
吴新刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610496504.6A priority Critical patent/CN106055541B/zh
Publication of CN106055541A publication Critical patent/CN106055541A/zh
Application granted granted Critical
Publication of CN106055541B publication Critical patent/CN106055541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种新闻内容敏感词过滤方法及系统,所述方法包括:S1、对获取的新闻文本进行预处理;S2、根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;S3、当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;S4、当判定为过滤到的敏感词为不良敏感词时,将所述新闻文本标记为负面新闻,否则标记文正面新闻。本发明通过建立马尔可夫逻辑网的情感分析模型对过滤的敏感词进行二次判定,以确定过滤到的敏感词是否具有负面信息,从而在过滤负面新闻的同时,不会将打击负面信息的正面新闻过滤掉,提高了新闻内容敏感词过滤的可靠性。

Description

一种新闻内容敏感词过滤方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于马尔可夫逻辑网的情感分析的新闻内容敏感词过滤方法及系统。
背景技术
新闻内容敏感词过滤安全管控涉及语言学、计算机科学、认知科学、数学等多学科交叉的科学。新闻内容安全管控针对单篇新闻内容进行管控,提供词级别的粗粒度的内容过滤。在语义数据处理技术与自然语言处理技术的基础上,目的是应对新闻舆情的快速反应,做到实时收集、迅速处理分析舆情信息、扑捉热点,掌握舆论方向,预测危机等级,进而辅助管控平台的管理者和决策者第一时间作出反馈。
目前,新闻内容安全管控首先基于关键词匹配的过滤方法进行管控,其原理是:首先准备一个关键词库,库中记录预选出的一些关键词。当对一个新闻内容进行判断时,将这个新闻内容与关键词库中的词逐一进行匹配,如果存在着一个或多个关键词能够与新闻内容中的文本内容匹配上,即有关键词在文本中出现,则判断这个网页是否属于需要管控的信息,如果是,则对这个新闻内容进行过滤;否则,则说明这一网页不是需要过滤的目标。
基于关键词匹配方法的优点是:算法准确率高,效率高,运行速度快。它的缺点在于仅依靠简单词语的匹配是无法理解新闻文本的语义信息,不能深入把握新闻的内涵,因此很难对新闻的内容做出准确的判断。包含某一类的词只能说明文本的内容可能会与某一方面或者某几个方面有关,但不能反映出文本内容真正的含义及其内容中的立场和感情色彩。例如:同样是“淫秽“一词,它既可能出现在正面的打击色情的新闻中,也可能出现在一些色情新闻内容之中,而这两种新闻在性质上是完全不同的。因此, 如果简单的使用关键词过滤,很可能错将很多正面的新闻“冤杀”下去。所以,关键词过滤不能提供对极端词的点到点的精确过滤。
发明内容
本发明的目的在于克服上述技术的不足,提供一种基于马尔可夫逻辑网的情感分析的新闻内容敏感词过滤方法及系统,通过建立马尔可夫逻辑网的情感分析模型对过滤的敏感词进行二次判定,以确定过滤到的敏感词是否具有负面信息,从而在过滤负面新闻的同时,不会将打击负面信息的正面新闻过滤掉,提高了新闻内容敏感词过滤的可靠性。
基于上述目的,本发明提供一种新闻内容敏感词过滤方法,其特征在于,所述方法包括:
S1、对获取的新闻文本进行预处理;
S2、根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;
S3、当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;
S4、当判定为过滤到的敏感词为不良敏感词时,将所述新闻文本标记为负面新闻,否则标记文正面新闻。
其中,所述步骤S1中,对所述新闻文本进行预处理具体包括:
去除所述新闻文本中的特征字符、繁体字转换成简体字、停用词过滤和分词。
其中,所述步骤S1之前还包括:构建敏感词库,所述敏感词库包括第一类敏感词和第二类敏感词,并且所述敏感词库中的敏感词分为三个等级:
一级敏感词设定为具有一级关键词,即一级敏感词包括第一类一级和第二类一级;
二级类敏感词设定为具有二级关键词,即二级敏感词包括第一类二级和第二类二级;
三级敏感词设定为具有三级关键词,即三级敏感词包括第一类三级和第二类三级。
其中,所述步骤S2中,对敏感词的优先级设定具体为:
第一类一级,第二类一级>第一类二级,第二类二级>第一类三级,第二类三级。
其中,所述敏感词多级过滤算法为Wu-Manber算法。
其中,所述步骤S3具体包括:
S31、提取所述新闻文本的特征向量,所述特征向量包括标题、正文长度、代表性词语;
S32、使用预设的具有人工标注的新闻文本为训练集,训练得到基于马尔可夫逻辑网的情感分析模型;
S33、根据所述基于马尔可夫逻辑网的情感分析模型,对所述新闻文本进行敏感词判断。
其中,所述马尔可夫逻辑网的情感分析模型,具体为:
P ( Y = 1 | X = x w ) = 1 1 + e - ( αx w + β )
其中Y是类别标签,当Y=1时表示该新闻传播不良信息,为负面新闻,当Y=0时表示是正面新闻,X是特征向量,表示敏感词的级别,x为在某一个级别中的一个敏感词,α为权重,β为偏置项,P(Y=1|X=xw)表示当特征向量X=xw时,新闻传播不良信息的概率,其中,α和β通过如下目标函数求解:
O ( α , β ) = Π w ∈ W P ( Y = 1 | X = x w ) y w P ( Y = 0 | X = x w ) 1 - y w ,
其中,W表示总的不良信息分类的集合,w表示集合中的某一个元素或一个子集合,y表示对应于w是不良信息还是正面信息的取值;O(α,β)表示计算α和β目标函数。
根据本发明的另一个方面,提供一种新闻内容敏感词过滤系统,其特征在于,所述系统包括:
获取模块,用于获取待过滤的新闻文本;
预处理模块,用于对获取的新闻文本进行预处理;
过滤模块,用于根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;
敏感词判断模块,用于当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;
新闻标记模块,用于当判定为过滤到的敏感词为不良敏感词时,将所述新闻文本标记为负面新闻,否则标记文正面新闻。
其中,所述敏感词判断模块具体包括:
特征提取单元,用于提取所述新闻文本的特征向量,所述特征向量包括标题、正文长度、代表性词语;
模型建立单元,用于使用预设的具有人工标注的新闻文本为训练集,训练得到基于马尔可夫逻辑网的情感分析模型;
敏感词判断单元,用于根据所述基于马尔可夫逻辑网的情感分析模型,对所述新闻文本进行敏感词判断。
其中,所述马尔可夫逻辑网的情感分析模型,具体为:
P ( Y = 1 | X = x w ) = 1 1 + e - ( αx w + β )
其中Y是类别标签,当Y=1时表示该新闻传播不良信息,为负面新闻,当Y=0时表示是正面新闻,X是特征向量,α为权重,β为偏置项,P(Y=1|X=xw)表示当特征向量X=xw时,新闻传播不良信息的概率,其中,α和β通过如下目标函数求解:
O ( α , β ) = Π w ∈ W P ( Y = 1 | X = x w ) y w P ( Y = 0 | X = x w ) 1 - y w ,
其中,W表示总的不良信息分类的集合,w表示集合中的某一个元素或一个子集合,y表示对应于w是不良信息还是正面信息的取值;O(α,β)表示计算α和β目标函数。
本发明的新闻敏感词过滤方法及系统,通过建立马尔可夫逻辑网的情感分析模型对过滤的敏感词进行二次判定,以确定过滤到的敏感词是否具有负面信息,从而在过滤负面新闻的同时,不会将打击负面信息的正面新闻过滤掉,提高了新闻敏感词过滤的正确性,减少新闻敏感词的过滤的漏检与错检测;并大大地减少大量的人力、物力与财力,准确率高,效率高,运行速度快。
附图说明
图1示出了本发明的新闻内容敏感词过滤方法的流程图。
图2示出了本发明的新闻内容敏感词过滤系统的结构框图。
具体实施方式
下面将结合附图对本发明的实施例进行详细描述。
本发明的实施例中,敏感词是指新闻内容中要求禁止或需要控制的词语,这些词语常常是用来传播不良信息,这类信息常常会给社会带来极其不利的影响,但同时新闻也可能是打击这些负面信息的正面新闻,因此需要对新闻的情感倾向进行进一步的分析,从而确定是否要对这类信息进行禁止或加强管控。
本发明的新闻内容敏感词过滤方法,在进行新闻内容敏感词过滤之前,首先建立敏感词库,然后根据敏感词库中的敏感词进行过滤。
在本实施例中,构建的敏感词库可以由管理员维护,随着需求不断更新与增加。
敏感词库的敏感词主要分为两类:第一类和第二类。其中,第一类敏感词这类信息所传播的新闻内容可能会直接关乎社会和国家的稳定、人民的生命安全,对这类信息的及时过滤和管控可以发现并预防某些暴力恐怖事件的发生,因此这类信息的优先级更高。
第二类敏感词对于社会的稳定也会造成不良的影响,虽然这种影响不会对人民的生命财产安全带来特别直接的、规模较大的危害,但若对此类信息管理不好,也会给人们的正常工作生活带来很大的影响,如相关疾病的传播、社会生活不稳定等等,因此,第一类和第二类在同一级别上的信息 都会给社会带来极不利的影响。
根据敏感词影响的不同,对敏感词分为三个等级,按照等级顺序匹配过滤,并在每一敏感等级采取不同的管控方式。
所述一级敏感词,这类关键词直接表述了对国家、社会和人民反对和破坏的思想和意图,为了保护社会、国家和人民的稳定和安全,这类信息要提出严重警告,并直接给予过滤,将信息置为不可读。
所述二级敏感词,所包含的信息为与社会和人民的利益相违背的,但这类信息并不意味着一定会带来直接的社会动荡和人民安危。需要进一步调用马尔可夫逻辑网的情感分析的新闻内容有监督分类算法对新闻倾向进行分类,若是负面倾向,则不做任何处理;若是正面倾向,则对于这类信息系统给予提示预警,并标记信息,供管理员审核和操作。
所述三级敏感词,这类关键词具有共同的特点,是关乎政治、军事等的特殊词语,多为指代性的名词,所表达的意思需要根据上下文进行判断,出现在一段文本中,并不意味着是对社会和人民带来危害的信息。因此对于这类信息,需要进行标记,供管理员根据上下文查看文字所表达的意思是否会带来不良的影响。
本发明基于上述构建的敏感词库,对新闻文本的内容进行敏感词过滤。
图1示出了本发明的新闻内容敏感词过滤方法的流程图。
参照图1,本发明的新闻内容敏感词过滤方法,具体包括:
S1、对获取的新闻文本进行预处理;
本实施例中,对新闻文本的预处理包括除去特殊字符、繁体字转换简体字、停用词过滤、分词等,具体处理过程如下:
除去特殊字符:网络文本所包含一些特殊字符,比如由传输中编码问题引起等。后续自然语言处理技术的噪音定义为殊字符可以看作,不能提供语法或语义的信息;并且增加了处理的时间复杂度,而且大大降低分析的效果,甚至引起分析技术工具包的bug;因此首先去除特殊符号。
繁体字转换简体字:根据繁体到简体词典与常用繁体字词到简体的映 射。根据最长匹配原则与采用二分trie树的前缀查询算法进行替换。
停用词过滤:维护一个停用词表,直接在分词的基础上进行停用词的去除。
分词:采用中科院ICTCLAS提供的API将一句话切分成多个单独的词进行分词操作。
S2、根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;
本发明的实施例中,运用敏感词多级过滤算法对于不同种类信息过滤或关注的优先级排序为:第一类一级,第二类一级>第一类二级,第二类二级>第一类三级,第二类三级。
由于敏感词分为三个等级,为了提高系统对关键词的过滤处理效率,将匹配分三步进行,按照一级、二级、三级的先后顺序加载进行扫描过滤。如果存在上一级的敏感词,则停止扫描;否则继续。
本发明的敏感词多级过滤算法采用了Wu-Manber算法,将多级过滤思想与BM算法相结合,使其运用在多个模式串匹配中,具有较高的效率。
S3、当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;
本实施例中,在过滤到敏感词,尤其是第二级的敏感词时,并不能确定具有该敏感词的是传播不良信息的不良新闻,还是打击负面信息的正面新闻,因此,通过马尔可夫逻辑网的情感分析模型对新闻内容的敏感词进行判定,其具体过程为:
具体为:
S31、提取所述新闻文本的特征向量,所述特征向量包括标题、正文长度、代表性词语(比如tfidf值高的词语)等内容。
S32、使用预设的具有人工标注的新闻文本为训练集,训练得到基于马尔可夫逻辑网的情感分析模型;
S33、根据所述基于马尔可夫逻辑网的情感分析模型,对所述新闻文本进行敏感词判断。
上述过程中,马尔可夫逻辑网的有监督的情感分析分类模型定义如下:
P ( Y = 1 | X = x w ) = 1 1 + e - ( αx w + β )
其中Y是类别标签,当Y=1时表示该新闻传播不良信息,为负面新闻,当Y=0时表示是正面新闻,X是特征向量,表示敏感词的级别,x为在某一个级别中的一个敏感词,α为权重,β为偏置项,P(Y=1|X=xw)表示当特征向量X=xw时,新闻传播不良信息的概率,其中,α和β通过如下目标函数求解:
O ( α , β ) = Π w ∈ W P ( Y = 1 | X = x w ) y w P ( Y = 0 | X = x w ) 1 - y w ,
其中,W表示总的不良信息分类的集合,w表示集合中的某一个元素或一个子集合,y表示对应于w是不良信息还是正面信息的取值;O(α,β)表示计算α和β目标函数。
在本发明的另一个实施例中,提供一种新闻内容敏感词过滤系统,如图2所示,该系统包括:
获取模块10,用于获取待过滤的新闻文本;
预处理模块20,用于对获取的新闻文本进行预处理;
过滤模块30,用于根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;
敏感词判断模块40,用于当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;
新闻标记模块50,用于当判定为过滤到的敏感词为不良敏感词时,将所述新闻文本标记为负面新闻,否则标记文正面新闻。
在上述系统中,所述敏感词判断模块40具体包括:
特征提取单元401,用于提取所述新闻文本的特征向量,所述特征向量包括标题、正文长度、代表性词语;
模型建立单元402,用于使用预设的具有人工标注的新闻文本为训练集,训练得到基于马尔可夫逻辑网的情感分析模型;
敏感词判断单元403,用于根据所述基于马尔可夫逻辑网的情感分析模型,对所述新闻文本进行敏感词判断。
本发明的新闻敏感词过滤方法及系统,通过建立马尔可夫逻辑网的情感分析模型对过滤的敏感词进行二次判定,以确定过滤到的敏感词是否具有负面信息,从而在过滤负面新闻的同时,不会将打击负面信息的正面新闻过滤掉,提高了新闻敏感词过滤的正确性,减少新闻敏感词的过滤的漏检与错检测;并大大地减少大量的人力、物力与财力,准确率高,效率高,运行速度快。
本实施例为本发明的系统的实施例,由于与方法的实施例基本相似,所以描述的比较简单,相关之处请参见方法实施例部分的说明。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征 的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种新闻内容敏感词过滤方法,其特征在于,所述方法包括:
S1、对获取的新闻文本进行预处理;
S2、根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;
S3、当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;
S4、当判定为过滤到的敏感词为不良敏感词时,将所述新闻文本标记为负面新闻,否则标记文正面新闻。
2.根据权利要求1所述的过滤方法,其特征在于,所述步骤S1中,对所述新闻文本进行预处理具体包括:
去除所述新闻文本中的特征字符、繁体字转换成简体字、停用词过滤和分词。
3.根据权利要求1或2所述的过滤方法,其特征在于,所述步骤S1之前还包括:构建敏感词库,所述敏感词库包括第一类敏感词和第二类敏感词,并且所述敏感词库中的敏感词分为三个等级:
一级敏感词设定为具有一级关键词,即一级敏感词包括第一类一级和第二类一级;
二级类敏感词设定为具有二级关键词,即二级敏感词包括第一类二级和第二类二级;
三级敏感词设定为具有三级关键词,即三级敏感词包括第一类三级和第二类三级。
4.根据权利要求3所述的过滤方法,其特征在于,所述步骤S2中,对敏感词的优先级设定具体为:
第一类一级,第二类一级>第一类二级,第二类二级>第一类三级,第二类三级。
5.根据权利要求1所述的过滤方法,其特征在于,所述敏感词多级过 滤算法为Wu-Manber算法。
6.根据权利要求1所述的过滤方法,其特征在于,所述步骤S3具体包括:
S31、提取所述新闻文本的特征向量,所述特征向量包括标题、正文长度、代表性词语;
S32、使用预设的具有人工标注的新闻文本为训练集,训练得到基于马尔可夫逻辑网的情感分析模型;
S33、根据所述基于马尔可夫逻辑网的情感分析模型,对所述新闻文本进行敏感词判断。
7.根据权利要求1或6所述的过滤方法,其特征在于,所述马尔可夫逻辑网的情感分析模型,具体为:
其中Y是类别标签,当Y=1时表示该新闻传播不良信息,为负面新闻,当Y=0时表示是正面新闻,X是特征向量,表示敏感词的级别,x为在某一个级别中的一个敏感词,α为权重,β为偏置项,P(Y=1|X=xw)表示当特征向量X=xw时,新闻传播不良信息的概率,其中,α和β通过如下目标函数求解:
其中,W表示总的不良信息分类的集合,w表示集合中的某一个元素或一个子集合,y表示对应于w是不良信息还是正面信息的取值;O(α,β)表示计算α和β目标函数。
8.一种新闻内容敏感词过滤系统,其特征在于,所述系统包括:
获取模块,用于获取待过滤的新闻文本;
预处理模块,用于对获取的新闻文本进行预处理;
过滤模块,用于根据预先构建的敏感词库,使用敏感词多级过滤算法根据敏感词的优先级对所述新闻文本进行敏感词过滤;
敏感词判断模块,用于当过滤到所述新闻文本中存在预设的敏感词时,通过基于马尔可夫逻辑网的情感分析模型,对过滤到的敏感词进行判定;
新闻标记模块,用于当判定为过滤到的敏感词为不良敏感词时,将所述新闻文本标记为负面新闻,否则标记文正面新闻。
9.根据权利要求8所述的新闻内容敏感词过滤系统,其特征在于,所述敏感词判断模块具体包括:
特征提取单元,用于提取所述新闻文本的特征向量,所述特征向量包括标题、正文长度、代表性词语;
模型建立单元,用于使用预设的具有人工标注的新闻文本为训练集,训练得到基于马尔可夫逻辑网的情感分析模型;
敏感词判断单元,用于根据所述基于马尔可夫逻辑网的情感分析模型,对所述新闻文本进行敏感词判断。
10.根据权利要求8所述的新闻内容敏感词过滤系统,其特征在于,所述马尔可夫逻辑网的情感分析模型,具体为:
其中Y是类别标签,当Y=1时表示该新闻传播不良信息,为负面新闻,当Y=0时表示是正面新闻,X是特征向量,α为权重,β为偏置项,P(Y=1|X=xw)表示当特征向量X=xw时,新闻传播不良信息的概率,其中,α和β通过如下目标函数求解:
其中,W表示总的不良信息分类的集合,w表示集合中的某一个元素或一个子集合,y表示对应于w是不良信息还是正面信息的取值;O(α,β)表示计算α和β目标函数。
CN201610496504.6A 2016-06-29 2016-06-29 一种新闻内容敏感词过滤方法及系统 Active CN106055541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610496504.6A CN106055541B (zh) 2016-06-29 2016-06-29 一种新闻内容敏感词过滤方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610496504.6A CN106055541B (zh) 2016-06-29 2016-06-29 一种新闻内容敏感词过滤方法及系统

Publications (2)

Publication Number Publication Date
CN106055541A true CN106055541A (zh) 2016-10-26
CN106055541B CN106055541B (zh) 2018-12-28

Family

ID=57167218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610496504.6A Active CN106055541B (zh) 2016-06-29 2016-06-29 一种新闻内容敏感词过滤方法及系统

Country Status (1)

Country Link
CN (1) CN106055541B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503160A (zh) * 2016-10-31 2017-03-15 电信科学技术第五研究所 一种基于大数据平台实现对新闻管控的方法及装置
CN107908619A (zh) * 2017-11-15 2018-04-13 中国平安人寿保险股份有限公司 基于舆情监控的处理方法、装置、终端及计算机存储介质
CN107908694A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
CN107977423A (zh) * 2017-11-27 2018-05-01 厦门二五八网络科技集团股份有限公司 基于含有违法词的互联网文章自动过滤处理方法及系统
CN107992471A (zh) * 2017-11-10 2018-05-04 北京光年无限科技有限公司 一种人机交互过程中的信息过滤方法及装置
CN108038190A (zh) * 2017-12-11 2018-05-15 杭州有赞科技有限公司 基于多层字典树的敏感词过滤方法及系统
CN108269115A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 一种广告安全评估方法及系统
CN108287823A (zh) * 2018-02-07 2018-07-17 平安科技(深圳)有限公司 消息数据处理方法、装置、计算机设备和存储介质
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN108829680A (zh) * 2018-06-22 2018-11-16 北京百悟科技有限公司 一种违规宣传检测方法和装置、计算机可读存储介质
CN109033266A (zh) * 2018-07-09 2018-12-18 北京三快在线科技有限公司 信息投放方法、装置、电子设备及计算机可读介质
CN109376293A (zh) * 2018-05-17 2019-02-22 新华网股份有限公司 一种文本信息的过滤方法、装置和电子设备
CN110020035A (zh) * 2017-09-06 2019-07-16 腾讯科技(北京)有限公司 数据识别方法和装置、存储介质及电子装置
CN110209795A (zh) * 2018-06-11 2019-09-06 腾讯科技(深圳)有限公司 评论识别方法、装置、计算机可读存储介质和计算机设备
WO2019237546A1 (zh) * 2018-06-12 2019-12-19 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN110750981A (zh) * 2019-10-16 2020-02-04 杭州安恒信息技术股份有限公司 一种基于机器学习的高准确度网站敏感词检测方法
CN110765761A (zh) * 2019-09-16 2020-02-07 平安科技(深圳)有限公司 基于人工智能的合同敏感词校验方法、装置及存储介质
CN110767211A (zh) * 2019-09-23 2020-02-07 浙江从泰网络科技有限公司 一种基于文本内容数据清洗的语音合成播报系统
CN110851590A (zh) * 2019-09-11 2020-02-28 上海爱数信息技术股份有限公司 一种通过敏感词检测与非法内容识别进行文本分类的方法
CN111079186A (zh) * 2019-12-20 2020-04-28 百度在线网络技术(北京)有限公司 数据分析的方法、装置、设备和存储介质
CN111126373A (zh) * 2019-12-23 2020-05-08 北京中科神探科技有限公司 基于跨模态识别技术的互联网短视频判违装置及方法
CN111967245A (zh) * 2020-07-09 2020-11-20 福建亿榕信息技术有限公司 一种自动审核校验文档的方法、装置、及计算机设备
CN112131352A (zh) * 2020-10-10 2020-12-25 南京工业大学 一种网页文本类不良信息的检测方法与检测系统
CN112417847A (zh) * 2020-11-19 2021-02-26 湖南红网新媒体集团有限公司 一种新闻内容安全监测方法、系统、装置和存储介质
CN112487798A (zh) * 2020-12-08 2021-03-12 上海适享文化传播有限公司 基于知识图谱的文本高效精准噪词处理方法
CN112732895A (zh) * 2018-03-26 2021-04-30 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
CN113761112A (zh) * 2020-10-09 2021-12-07 北京沃东天骏信息技术有限公司 一种敏感词过滤方法和装置
CN114239591A (zh) * 2021-12-01 2022-03-25 马上消费金融股份有限公司 敏感词识别方法及装置
CN114706940A (zh) * 2022-01-19 2022-07-05 浙报融媒体科技(浙江)股份有限公司 基于敏感词的新闻类文件审核方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130144812A1 (en) * 2011-12-01 2013-06-06 Microsoft Corporation Probabilistic model approximation for statistical relational learning
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN104794209A (zh) * 2015-04-24 2015-07-22 清华大学 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
CN105335483A (zh) * 2015-10-14 2016-02-17 广州市畅运信息科技有限公司 一种文本敏感词过滤系统和方法
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130144812A1 (en) * 2011-12-01 2013-06-06 Microsoft Corporation Probabilistic model approximation for statistical relational learning
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
CN104794209A (zh) * 2015-04-24 2015-07-22 清华大学 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
CN105335483A (zh) * 2015-10-14 2016-02-17 广州市畅运信息科技有限公司 一种文本敏感词过滤系统和方法
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HONGJIE DAI ET AL.: "Integration of Gene Normalization Stages and Co-reference Resolution Using a Markov-Logic Network", 《BIOINFORMATICS》 *
余进玉: "面向无线局域网的舆情监控框架设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
杨立公 等: "基于马尔科夫逻辑网的句子情感分析方法", 《北京理工大学学报》 *
胡传志 等: "网络敏感信息自适应多重过滤模型研究", 《计算机科学》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503160A (zh) * 2016-10-31 2017-03-15 电信科学技术第五研究所 一种基于大数据平台实现对新闻管控的方法及装置
CN108269115A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 一种广告安全评估方法及系统
CN110020035B (zh) * 2017-09-06 2023-05-12 腾讯科技(北京)有限公司 数据识别方法和装置、存储介质及电子装置
CN110020035A (zh) * 2017-09-06 2019-07-16 腾讯科技(北京)有限公司 数据识别方法和装置、存储介质及电子装置
CN107908694A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
CN107992471A (zh) * 2017-11-10 2018-05-04 北京光年无限科技有限公司 一种人机交互过程中的信息过滤方法及装置
CN107908619A (zh) * 2017-11-15 2018-04-13 中国平安人寿保险股份有限公司 基于舆情监控的处理方法、装置、终端及计算机存储介质
CN107977423A (zh) * 2017-11-27 2018-05-01 厦门二五八网络科技集团股份有限公司 基于含有违法词的互联网文章自动过滤处理方法及系统
CN108038190A (zh) * 2017-12-11 2018-05-15 杭州有赞科技有限公司 基于多层字典树的敏感词过滤方法及系统
CN108287823A (zh) * 2018-02-07 2018-07-17 平安科技(深圳)有限公司 消息数据处理方法、装置、计算机设备和存储介质
CN112732895B (zh) * 2018-03-26 2024-01-19 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
CN112732895A (zh) * 2018-03-26 2021-04-30 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN108717408B (zh) * 2018-05-11 2023-08-22 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN109376293A (zh) * 2018-05-17 2019-02-22 新华网股份有限公司 一种文本信息的过滤方法、装置和电子设备
CN110209795A (zh) * 2018-06-11 2019-09-06 腾讯科技(深圳)有限公司 评论识别方法、装置、计算机可读存储介质和计算机设备
WO2019237546A1 (zh) * 2018-06-12 2019-12-19 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN108829680A (zh) * 2018-06-22 2018-11-16 北京百悟科技有限公司 一种违规宣传检测方法和装置、计算机可读存储介质
CN109033266B (zh) * 2018-07-09 2021-08-20 北京三快在线科技有限公司 信息投放方法、装置、电子设备及计算机可读介质
CN109033266A (zh) * 2018-07-09 2018-12-18 北京三快在线科技有限公司 信息投放方法、装置、电子设备及计算机可读介质
CN110851590A (zh) * 2019-09-11 2020-02-28 上海爱数信息技术股份有限公司 一种通过敏感词检测与非法内容识别进行文本分类的方法
CN110765761A (zh) * 2019-09-16 2020-02-07 平安科技(深圳)有限公司 基于人工智能的合同敏感词校验方法、装置及存储介质
WO2021052148A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 基于人工智能的合同敏感词校验方法、装置、计算机设备及存储介质
CN110767211B (zh) * 2019-09-23 2022-02-18 浙江斑智科技有限公司 一种基于文本内容数据清洗的语音合成播报系统
CN110767211A (zh) * 2019-09-23 2020-02-07 浙江从泰网络科技有限公司 一种基于文本内容数据清洗的语音合成播报系统
CN110750981A (zh) * 2019-10-16 2020-02-04 杭州安恒信息技术股份有限公司 一种基于机器学习的高准确度网站敏感词检测方法
CN111079186B (zh) * 2019-12-20 2022-05-03 百度在线网络技术(北京)有限公司 数据分析的方法、装置、设备和存储介质
CN111079186A (zh) * 2019-12-20 2020-04-28 百度在线网络技术(北京)有限公司 数据分析的方法、装置、设备和存储介质
CN111126373A (zh) * 2019-12-23 2020-05-08 北京中科神探科技有限公司 基于跨模态识别技术的互联网短视频判违装置及方法
CN111967245A (zh) * 2020-07-09 2020-11-20 福建亿榕信息技术有限公司 一种自动审核校验文档的方法、装置、及计算机设备
CN113761112A (zh) * 2020-10-09 2021-12-07 北京沃东天骏信息技术有限公司 一种敏感词过滤方法和装置
CN112131352A (zh) * 2020-10-10 2020-12-25 南京工业大学 一种网页文本类不良信息的检测方法与检测系统
CN112417847A (zh) * 2020-11-19 2021-02-26 湖南红网新媒体集团有限公司 一种新闻内容安全监测方法、系统、装置和存储介质
CN112487798A (zh) * 2020-12-08 2021-03-12 上海适享文化传播有限公司 基于知识图谱的文本高效精准噪词处理方法
CN114239591A (zh) * 2021-12-01 2022-03-25 马上消费金融股份有限公司 敏感词识别方法及装置
CN114239591B (zh) * 2021-12-01 2023-08-18 马上消费金融股份有限公司 敏感词识别方法及装置
CN114706940A (zh) * 2022-01-19 2022-07-05 浙报融媒体科技(浙江)股份有限公司 基于敏感词的新闻类文件审核方法和系统

Also Published As

Publication number Publication date
CN106055541B (zh) 2018-12-28

Similar Documents

Publication Publication Date Title
CN106055541A (zh) 一种新闻内容敏感词过滤方法及系统
CN110008311B (zh) 一种基于语义分析的产品信息安全风险监测方法
CN110188344A (zh) 一种多特征融合的关键词提取方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN110134849A (zh) 一种网络舆情监控方法及系统
CN106294619A (zh) 舆情智能监管方法
CN108647225A (zh) 一种电商黑灰产舆情自动挖掘方法和系统
CN108509561B (zh) 基于机器学习的岗位招聘数据筛选方法、系统及存储介质
CN108345686A (zh) 一种基于搜索引擎技术的数据分析方法及系统
JP2015121896A (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
KR20220064016A (ko) 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법
CN107943514A (zh) 一种软件文档中核心代码元素的挖掘方法及系统
CN103176984A (zh) 一种用户生成内容中欺骗性垃圾意见检测方法
CN114385775B (zh) 一种基于大数据的敏感词识别方法
CN109492097B (zh) 一种企业新闻数据风险分类方法
CN107797994A (zh) 基于约束条件随机场的越南语名词组块识别方法
CN115396147A (zh) 一种融合云网端日志与威胁知识的apt检测方法
Wang et al. Automatic tagging of cyber threat intelligence unstructured data using semantics extraction
CN116244446A (zh) 社交媒体认知威胁检测方法及系统
Zhu et al. Using text mining and multilevel association rules to process and analyze incident reports in China
CN110796565A (zh) 监理日志的分析方法及分析系统
Slobodkin et al. Attribute First, then Generate: Locally-attributable Grounded Text Generation
WO2021012684A1 (zh) 市场情绪监测体系建立方法和系统
Oostdijk et al. Shallow parsing for recognizing threats in Dutch tweets

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant