CN103942191B - 一种基于内容的恐怖文本识别方法 - Google Patents

一种基于内容的恐怖文本识别方法 Download PDF

Info

Publication number
CN103942191B
CN103942191B CN201410171360.8A CN201410171360A CN103942191B CN 103942191 B CN103942191 B CN 103942191B CN 201410171360 A CN201410171360 A CN 201410171360A CN 103942191 B CN103942191 B CN 103942191B
Authority
CN
China
Prior art keywords
mrow
msub
text
word
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410171360.8A
Other languages
English (en)
Other versions
CN103942191A (zh
Inventor
胡卫明
刘国旗
李兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin Zhongke Beijing Intelligent Technology Co ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201410171360.8A priority Critical patent/CN103942191B/zh
Publication of CN103942191A publication Critical patent/CN103942191A/zh
Application granted granted Critical
Publication of CN103942191B publication Critical patent/CN103942191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于内容的恐怖文本识别方法,该方法包括:首先,对需要识别的文本进行预处理,以消除错误数据和冗余数据对识别结果的消极影响;其次,构建基于内容的文本分类器模型,该模型能够分别利用文本标题分类器和文本内容分类器对文本标题和文本内容进行独立识别,然后将两种识别结果进行决策融合,最终得出识别结果;最后,将格式化后的待识别文本数据作为基于文本分类器模型的输入,该模型的输出即为文本的识别结果。该方法在实验数据库上能够取得良好的实验效果,其识别结果具有较高的可靠性和稳定性。

Description

一种基于内容的恐怖文本识别方法
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于内容的恐怖文本识别方法。
背景技术
随着互联网技术的飞速发展和广泛应用,网络上开始不断涌现出大量的恐怖信息,如恐怖小说、恐怖图片和恐怖视频等,这些对青少年特别是儿童的健康成长环境构成了严重地威胁。心理学家和生理学家的研究表明:恐怖信息对于儿童青少年恐惧心理的产生和进一步延续甚至恶化有着主要的促成作用,有88.8%的青少年将他们的恐怖症的病因归咎于过多的接触恐怖信息;过多的恐怖信息可能使人长期处于极度的恐惧和焦虑中,更甚者使人身心受到损害,且非常容易产生心理失衡或障碍,严重时出现病理症状,导致各种恐怖症的产生,甚至引发其它的精神疾病;过多的接触恐怖信息是恐惧症及其它心理病症的根源所在,同时,恐怖信息的泛滥导致儿童、青少年的恐惧被泛化,很容易从一个人传播到另一个人,进而影响他们的社会认知及未来人格的健康发展;过多的接触恐怖信息将影响孩子的阅读取向,影响儿童青少年的审美情趣,可能引发学习不良行为,甚至引发犯罪。
恐怖文本分类问题是一种情感分类问题。在情感分类中根据文本的不同,文本情感分析的对象主要可分为两大类:基于新闻评论的文本情感分析和基于产品的文本情感分析,而对恐怖文本的分析很少见。
特征提取是分类的前提,也是情感分类中最为关键的步骤。情感词(特征)的提取主要分为基于语料库和基于词典两种方法。基于语料库的情感词语提取主要是利用大语料库的统计特征,观察一些现象来挖掘语料库中的评价词语并判断极性。这些特征选择算法主要有互信息、文档频率、信息增益、开方检验等等多种。基于语料库的方法最大的优点在于简单易行,缺点则在于可利用的情感语料库有限,同时情感词在大语料库中的分布等现象并不容易归纳。基于辞典的情感词语的提取方法主要是使用辞典中的词语之间的词义联系来挖掘情感词语。这种方法对词典中词的准确度依赖很高,并且在构建词典的过程中很容易引入噪声。基于词典的方法的优点在于获取的情感词语的规模非常可观,但是由于很多词存在一词多义现象,构建情感词典往往含有较多的歧义词。
发明内容
(一)要解决的技术问题
本发明的目的在于提出一种准确率高的恐怖文本识别方法,解决提取有效的内容特征问题、快速高效的识别恐怖文本的问题。
(二)技术方案
为实现上述目的,本文提出了一种基于内容的恐怖文本识别方法,该方法包括以下主要步骤:
步骤1:对训练文本集合和待识别的文本进行预处理;
步骤2:利用预处理后的训练文本集合构建基于内容的文本分类模型;
步骤3:将预处理后的待识别文本作为文本分类模型的输入进行识别,文本分类模型的输出即为识别结果。
(三)有益效果
本发明所提出的基于内容的恐怖文本识别方法,利用分布相似度算法提取有效的高可信度的文本内容特征证词,分别针对文本标题和文本内容设计相互独立的文本标题分类器和文本内容分类器构建分类模型,能够快速有效的对待识别文本进行识别。
附图说明
图1是本发明中对待分类文本进行分类示意图。
图2是本发明中分类模型的构建示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明的方法具体运行的硬件和编程语言并不受限制,用任何语言编写都可以实现本发明的方法。本发明采用一台具有2.53G赫兹中央处理器和4G字节内存的Windows7操作系统的计算机,利用Visual Studio2010集成开发环境,结合C++语言设计完成了具体算法,实现了本发明的方法。
图1示出了本发明提出的基于内容的恐怖文本识别方法流程图。如图1所示,该方法包括以下主要步骤:
步骤1:对文本数据库中的训练文本及待识别的文本进行预处理,以消除错误数据和冗余数据对识别结果的消极影响;
步骤2:构建基于内容的文本分类模型;
步骤3:将待识别的文本格式化后的数据作为文本分类模型的输入进行识别,文本分类模型的输出即为识别结果。
步骤1中对文本的预处理具体包括以下步骤:
步骤11:利用分词程序对文本进行分词,词与词之间用空格隔开;
步骤12:利用人工先验知识和统计的方法构建停用词表(如“的”“了”“啊”等),并对步骤11处理后的文本进行去停用词处理;停用词表的具体构成为:介词、助词、语气词、人称代词和非常用字词等。
步骤13:对步骤12处理后的文本进行去标点符号处理;
步骤14:对步骤13处理后的文本进行去短词(一个字的词)和去长词(超过四个字的词)处理,以消除歧义。
图2示出了本发明中基于内容的文本分类模型的构建示意图。如图2所示,步骤2中构建基于内容的文本分类模型具体包括如下步骤:
步骤21:利用常规特征提取方法(如人工标注、信息增益、卡法检验、文档频率等)对步骤1处理后的训练文本进行少量的精确的特征提取,并将提取出的特征词作为种子词;
步骤22:结合步骤21提取的种子词,然后对经过步骤1处理后的训练文本进行较大量的特征提取。
步骤23:根据所提取的特征利用朴素贝叶斯算法(Native Bayes,NB)构建文本标题分类器。
步骤24:根据所提取的特征利用支持向量机(Support Vector Machine,SVM)构建文本内容分类器。
步骤25:对标题分类结果A1和内容分类结果A2进行决策融合。
下面详细给出本发明中构建基于内容的文本分类模型所涉及的各个步骤。
对于步骤22,具体包括如下步骤:
步骤221:利用互信息特征提取方法、信息增益特征提取方法、文档频率特征提取方法等相结合,并采用人工标注的方式对步骤1处理后的文本进行少量的可信度高的特征提取。将提取出的特征词作为种子词。
步骤222:度量种子词库中每个种子词的分布与每个训练文本中每个词的分布的KL距离,即信息熵:
其中,w表示训练文本向量;s表示类别标签;fsk(w,s)表示训练文本中的词k在训练文本向量中的文档频率,表示的是种子词库中的种子词k′在训练文本向量中的文档频率;θ为拉格朗日算子,是未知参数,可以利用IIS(improved iterative scalingalgorithm)算法求出;k′表示的是种子词库中的某个词;k表示的是训练文本中的某个词。其中,Eθ[fsk(w,s)]的计算公式为:
wi表示第i个训练文本,s取第j类标。这里Pθ(s|w)采用最大熵描述:θsi表示的是在文本w中第i个词的权重,ti为文本w中的第i个词。并且Z(w)=∑s exp(∑iθsiti);属性函数fjk(w,s)表示的是词k在类别s下的分布,定义为δ(s=j)δ(k∈wi),其中D为训练文本集合的文本数量,即文本数据库;δ(x)是一个指示函数,当且仅当x为真时,其值为1,否则为0;w为一个文本,是一个词的集合,可以表示为一个向量w={t1,t2,...,tm};s表示的是一个文本的类别标签,即为恐怖或非恐怖;于是,可将Eθ[fsk(w,s)]最终表示为:
表示的是文本w的先验分布,可以在文本数据库上被估计出。利用公式G(Eθ[f(w,s)])遍历所有训练文本中的每个词,当其值大于给定的阈值时,便将该值对应的文本中的词作为恐怖文本的一个特征词,最后将这些选出来的特征词和种子词库中的种子词一起作为文本的内容特征。
对于步骤23,标题t属于类别cj的概率P(cj|t)可由下式计算:
l表示的是类别的个数。将标题t表示为词的集合a1,a2…an,于是P(cj|t)可改写为:
经过我们的统计,标题的词与词之间存在相当程度的独立性,于是上式可进一步改写为:
计算出的P(c=恐怖|a1,a2…an)值如果超过给定的阈值,将标题t判断为恐怖,否则判断为非恐怖。
对于步骤24,利用TF-IDF计算每个特征词在每篇文本中的权重,然后将文本定义为wi={ti1,ti2,...,tim}格式,其中tij表示的是第j个特征词在第i个文本中的权重。将训练样本以(cj,wi)的形式输入到SVM中,经过SVM训练后的模型即为文本内容分类器模型。
对于步骤25,将文本标题分类器的识别结果A1和文本内容分类器的识别结果A2进行融合:
上式中,P(Q|r)表示A1或A2为真的条件下,该文本被识别为恐怖文本的概率,表示A1或A2为真的条件下,该文本被识别为非恐怖文本的概率;若T>1则该文本被识别的最终结果为恐怖文本,反之,则为非恐怖文本;Q表示事件“文本属性为恐怖”,表示事件“文本属性为非恐怖”;r表示事件“一个文本的标题和内容中有且只有一个被分类为恐怖,另一个被分类为非恐怖”;P1表示的是一个恐怖文本的内容被错分类为非恐怖的概率,P2表示的是恐怖文本的标题被错分类为非恐怖的概率,P3表示的是非恐怖文本的内容被错分类为恐怖的概率,P4表示的是非恐怖文本的标题非错分类为恐怖的概率。P1和P2能够通过统计在一个恐怖文本集合上文本内容被错分的非恐怖文本数被计算出,P3和P4能够通过统计在一个非恐怖文本集合上文本内容被错分的恐怖的文本数被计算出来。。
由全概率公式:P(r|Q)=(1-P1)P2+P1(1-P2), 为两个概率的比值。当决策因子T大于1时,文本被分类为恐怖;否则为非恐怖。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于内容的恐怖文本识别方法,该方法包括以下几个步骤:
步骤1:对训练文本集合和待识别的文本进行预处理;
步骤2:利用预处理后的训练文本集合构建基于内容的文本分类模型;
步骤3:将预处理后的待识别文本作为文本分类模型的输入进行识别,文本分类模型的输出即为识别结果;
所述步骤2包括:
步骤21:对经过步骤1处理过的训练文文本进行第一次特征提取,并将提取出的特征词作为种子词;
步骤22:利用步骤21中的种子词并结合期望相似度算法对经过步骤1处理过的训练文本进行第二次特征提取,并将步骤21和该步骤中提取的特征词作为恐怖文本的特征词;
步骤23:根据所提取的特征词利用SVM构建文本内容分类器;
步骤24:根据所提取的特征词利用朴素贝叶斯算法构建文本标题分类器;
步骤25:构建基于统计学的融合策略;
其中,步骤22包括:
度量步骤21中得到的种子词构成的种子词库中每个种子词的分布与每个训练文本中每个词的分布的KL距离,即信息熵:
<mrow> <mi>G</mi> <mrow> <mo>(</mo> <msub> <mi>E</mi> <mi>&amp;theta;</mi> </msub> <mo>&amp;lsqb;</mo> <msub> <mi>f</mi> <mrow> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mo>(</mo> <mrow> <mi>w</mi> <mo>,</mo> <mi>s</mi> </mrow> <mo>)</mo> <mo>&amp;rsqb;</mo> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&amp;Sigma;</mo> <mi>s</mi> </msub> <mover> <msub> <mi>f</mi> <mrow> <msup> <mi>sk</mi> <mo>&amp;prime;</mo> </msup> </mrow> </msub> <mo>^</mo> </mover> <mo>&amp;CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mover> <msub> <mi>f</mi> <mrow> <msup> <mi>sk</mi> <mo>&amp;prime;</mo> </msup> </mrow> </msub> <mo>^</mo> </mover> <mrow> <msub> <mi>E</mi> <mi>&amp;theta;</mi> </msub> <mo>&amp;lsqb;</mo> <msub> <mi>f</mi> <mrow> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> </mfrac> </mrow>
其中,w表示训练文本向量;s表示类别标签;fsk(w,s)表示训练文本中的词k在训练文本向量中的文档频率,表示的是种子词库中的种子词k′在训练文本向量中的文档频率;θ为拉格朗日算子;k′表示的是种子词库中的某个词;k表示的是训练文本中的某个词;其中,Eθ[fsk(w,s)]的计算公式为:
<mrow> <msub> <mi>E</mi> <mi>&amp;theta;</mi> </msub> <mo>&amp;lsqb;</mo> <msub> <mi>f</mi> <mrow> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>=</mo> <msub> <mi>E</mi> <mover> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> <mo>~</mo> </mover> </msub> <mo>&amp;lsqb;</mo> <msub> <mi>E</mi> <mrow> <msub> <mi>P</mi> <mi>&amp;theta;</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>|</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>&amp;lsqb;</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>&amp;rsqb;</mo> <mo>=</mo> <mover> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> <mo>~</mo> </mover> <msub> <mi>P</mi> <mi>&amp;theta;</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>|</mo> <mi>w</mi> <mo>)</mo> </mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <msub> <mo>|</mo> <mrow> <mi>w</mi> <mo>=</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>s</mi> <mo>=</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>&amp;Element;</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> </mrow> </msub> </mrow>
wi表示第i个训练文本,s取第j类标;这里Pθ(s|w)采用最大熵描述:θsi表示的是在文本w中第i个词的权重,ti为文本w中的第i个词;并且Z(w)=∑sexp(∑iθsiti);属性函数fjk(w,s)表示的是词k在类别s下的分布,定义为 其中D为训练文本集合的文本数量,即文本数据库;δ(x)是一个指示函数,当且仅当x为真时,其值为1,否则为0;w为一个文本,是一个词的集合,可以表示为一个向量w={t1,t2,...,tm};s表示的是一个文本的类别标签,即为恐怖或非恐怖;于是,可将Eθ[fsk(w,s)]最终表示为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>E</mi> <mi>&amp;theta;</mi> </msub> <mo>&amp;lsqb;</mo> <msub> <mi>f</mi> <mrow> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>=</mo> <msub> <mi>E</mi> <mover> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> <mo>~</mo> </mover> </msub> <mo>&amp;lsqb;</mo> <msub> <mi>E</mi> <mrow> <msub> <mi>P</mi> <mi>&amp;theta;</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>|</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>&amp;lsqb;</mo> <msub> <mi>f</mi> <mrow> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>&amp;rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mover> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> <mo>~</mo> </mover> <mo>&amp;CenterDot;</mo> <msub> <mi>P</mi> <mi>&amp;theta;</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>|</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <msub> <mi>f</mi> <mrow> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <msub> <mo>|</mo> <mrow> <mi>w</mi> <mo>=</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>&amp;Element;</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>
表示的是文本w的先验分布;利用公式G(Eθ[fsk(w,s)])遍历所有训练文本中的每个词,当其值大于给定的阈值时,便将该值对应的文本中的词作为恐怖文本的一个特征词,最后将这些选出来的特征词和种子词库中的种子词一起作为文本的内容特征。
2.根据权利要求1所述的方法,其特征在于,所述步骤1包括:
步骤11:构建停用词表;
步骤12:对训练文本和待识别文本进行分词处理;
步骤13:对经过步骤12处理的文本进行去停用词、去标点符号、去短词、去长词处理。
3.根据权利要求1所述的方法,其特征在于,在所述步骤23中,利用TF-IDF计算从训练文本集合提取出的每个特征词在每篇训练文本中的权重,然后将训练文本定义为wi={ti1,ti2...,tim}格式,其中tij表示的是第j个特征词在第i个文本中的权重;将训练文本以(cj,wi)的形式输入到SVM中,经过SVM训练后的模型即为文本内容分类器模型。
4.根据权利要求1所述的方法,其特征在于,在所述步骤24中,标题分类器通过朴素贝叶斯分类器构造:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>a</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>a</mi> <mn>2</mn> </msub> <mn>...</mn> <msub> <mi>a</mi> <mi>R</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msub> <mo>&amp;Pi;</mo> <mi>i</mi> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mi>r</mi> <mi>l</mi> </msubsup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <msub> <mo>&amp;Pi;</mo> <mi>i</mi> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>c</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
式中cj表示类别标签,当j=1时该标签表示恐怖文本,当j=0时该标签表示非恐怖文本;(a1,a2…an)表示训练文本集合中一个文本标题,其中ai为文本标题中的一个词,n表示标题中词的个数。
5.根据权利要求1所述的方法,其特征在于,在所述步骤25中,将文本标题分类器的识别结果A1和文本内容分类器的识别结果A2进行融合:
其中P(Q|r)表示A1或A2为真的条件下,该文本被识别为恐怖文本的概率,表示A1或A2为真的条件下,该文本被识别为非恐怖文本的概率;若T>1则该文本被识别的最终结果为恐怖文本,反之,则为非恐怖文本。
CN201410171360.8A 2014-04-25 2014-04-25 一种基于内容的恐怖文本识别方法 Active CN103942191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410171360.8A CN103942191B (zh) 2014-04-25 2014-04-25 一种基于内容的恐怖文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410171360.8A CN103942191B (zh) 2014-04-25 2014-04-25 一种基于内容的恐怖文本识别方法

Publications (2)

Publication Number Publication Date
CN103942191A CN103942191A (zh) 2014-07-23
CN103942191B true CN103942191B (zh) 2018-04-27

Family

ID=51189861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410171360.8A Active CN103942191B (zh) 2014-04-25 2014-04-25 一种基于内容的恐怖文本识别方法

Country Status (1)

Country Link
CN (1) CN103942191B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966031B (zh) * 2015-07-01 2018-02-27 复旦大学 安卓应用程序中非权限相关隐私数据的识别方法
CN105138570B (zh) * 2015-07-26 2019-02-05 吉林大学 网络言论数据疑似犯罪度计算方法
CN106445908B (zh) * 2015-08-07 2019-11-15 阿里巴巴集团控股有限公司 文本识别方法和装置
CN105183914A (zh) * 2015-10-14 2015-12-23 合一网络技术(北京)有限公司 数据特征格式化方法及装置
CN106056154A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 故障码识别和分类的方法
CN108268880A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种行业类别的识别方法及装置
CN106897439B (zh) * 2017-02-28 2020-04-14 百度在线网络技术(北京)有限公司 文本的情感识别方法、装置、服务器以及存储介质
CN108628822B (zh) * 2017-03-24 2021-12-07 创新先进技术有限公司 无语义文本的识别方法及装置
CN110069625B (zh) * 2017-09-22 2022-09-23 腾讯科技(深圳)有限公司 一种内容分类方法、装置及服务器
CN108304379B (zh) * 2018-01-15 2020-12-01 腾讯科技(深圳)有限公司 一种文章识别方法、装置及存储介质
CN109918579B (zh) * 2019-01-29 2021-07-09 中国人民解放军战略支援部队信息工程大学 基于语义特性提取位置指示词的位置推断方法
CN114090779B (zh) * 2022-01-11 2022-04-22 中南大学 篇章级文本的层级多标签分类方法、系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法

Also Published As

Publication number Publication date
CN103942191A (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
CN103942191B (zh) 一种基于内容的恐怖文本识别方法
CN105824922B (zh) 一种融合深层特征和浅层特征的情感分类方法
TWI735543B (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN104516947B (zh) 一种融合显性和隐性特征的中文微博情感分析方法
CN112035669A (zh) 基于传播异质图建模的社交媒体多模态谣言检测方法
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
CN107247702A (zh) 一种文本情感分析处理方法和系统
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN108804651B (zh) 一种基于强化贝叶斯分类的社交行为检测方法
CN103984943A (zh) 一种基于贝叶斯概率框架的场景文本识别方法
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN107832290B (zh) 中文语义关系的识别方法及装置
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN109858034A (zh) 一种基于注意力模型和情感词典的文本情感分类方法
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN108363699A (zh) 一种基于百度贴吧的网民学业情绪分析方法
CN107145514A (zh) 基于决策树和svm混合模型的中文句型分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191210

Address after: 250101 2F, Hanyu Jingu new media building, high tech Zone, Jinan City, Shandong Province

Patentee after: Renmin Zhongke (Shandong) Intelligent Technology Co.,Ltd.

Address before: 100190 Zhongguancun East Road, Beijing, No. 95, No.

Patentee before: Institute of Automation, Chinese Academy of Sciences

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200310

Address after: Room 201, 2 / F, Hanyu Jingu new media building, no.7000, Jingshi Road, Jinan City, Shandong Province, 250000

Patentee after: Renmin Zhongke (Jinan) Intelligent Technology Co.,Ltd.

Address before: 250101 2F, Hanyu Jingu new media building, high tech Zone, Jinan City, Shandong Province

Patentee before: Renmin Zhongke (Shandong) Intelligent Technology Co.,Ltd.

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 100176 1401, 14th floor, building 8, No. 8 courtyard, No. 1 KEGU street, Beijing Economic and Technological Development Zone, Daxing District, Beijing (Yizhuang group, high-end industrial area, Beijing Pilot Free Trade Zone)

Patentee after: Renmin Zhongke (Beijing) Intelligent Technology Co.,Ltd.

Address before: Room 201, 2 / F, Hangu Jinggu new media building, 7000 Jingshi Road, Jinan City, Shandong Province

Patentee before: Renmin Zhongke (Jinan) Intelligent Technology Co.,Ltd.

CP03 Change of name, title or address