CN102609407A - 一种网络不良文本内容的细粒度语义检测方法 - Google Patents

一种网络不良文本内容的细粒度语义检测方法 Download PDF

Info

Publication number
CN102609407A
CN102609407A CN2012100348881A CN201210034888A CN102609407A CN 102609407 A CN102609407 A CN 102609407A CN 2012100348881 A CN2012100348881 A CN 2012100348881A CN 201210034888 A CN201210034888 A CN 201210034888A CN 102609407 A CN102609407 A CN 102609407A
Authority
CN
China
Prior art keywords
text
model
sentence
detection
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100348881A
Other languages
English (en)
Other versions
CN102609407B (zh
Inventor
曾剑平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201210034888.1A priority Critical patent/CN102609407B/zh
Publication of CN102609407A publication Critical patent/CN102609407A/zh
Application granted granted Critical
Publication of CN102609407B publication Critical patent/CN102609407B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明属于文本内容过滤技术领域,具体为一种网络不良文本内容的细粒度语义检测方法。本发明方法围绕所引入的不良信息场景,构造以独立句子为基本单元的训练文本集,从而运用概率话题模型建立场景的数学描述。将待检测的Web页面进行信息内容提取,对文本信息进行句子识别,并基于所建立的概率话题模型,计算每个句子在该模型下的条件概率,在设定的内容检测敏感度下完成细粒度的语义检测。本发明模型的构造受话题数的影响小,并且能够有效地进行句子及词汇层面的概率计算,适应各种需要不良文本内容检测的应用场合。本方法也支持对文本内容进行不良词汇、句子的细粒度检测,能更有效地提升检测率、降低误报率,有利于提升文本内容过滤的实用性。

Description

一种网络不良文本内容的细粒度语义检测方法
技术领域
本发明属于文本内容过滤技术领域,具体涉及一种网络不良文本信息内容的检测方法。
背景技术
目前互联网已经成为一种创造信息和共享信息的主要途径和空间,而随着各种网络论坛和社会化交互媒体的不断出现,每天都有大量的文本信息产生,如各种新闻报道、产品介绍、各种网络评论等等。而这其中,大量的不良文本信息内容充满各种网络空间。色情信息、暴力信息、网络谩骂等不良信息的出现对青少年的健康成长造成了很大的危害,并且对于上班族而言,不断地浏览这类信息,也导致工作效率的低下。因此,对于不良文本信息内容的检测已经成为互联网信息过滤的一个重要需求。而目前有多种检测过滤方法,可以实现网络不良信息内容的过滤。基本流程是,对要检测的Web页面进行信息提取,采用检测手段进行内容分析,根据设定的灵敏度进行结果的判定。而检测手段主要有关键词方法、文本内容分类方法、以及智能信息内容分析方法。
由于不良文本内容的制造者为了避免信息内容被计算机系统过滤,通常采用各种变换手段来实现他们的目的。而这其中最难于处理的是对具有语义不良性的文本内容的识别,也就因此成为文本内容过滤的主要技术发展方向。虽然在检测手段上人们进行了比较广泛的研究,也有不少的技术手段可以用来进行网络文本内容过滤,但是在面对语义不良内容、以及如何处理语义信息内容等问题方面,现有方法存在一定问题和不足,导致现实中的应用并不能令人满意。具体而言,所存在的问题列举如下:
1.依赖于一个关键词列表,如果是事先设定的,则难于适应内容创造者的各种形式上的变换;如果在检测中自行更新,则容易导致列表过大,并且大量并非不良的词汇被加入到列表中,导致产生大量的误检。但不管是事先设定还是自行更新,在面对语义不良内容的识别上都难于有好的效果。
2.采用分类思想来实现语义内容检测的方法需要事先建立分类模型,而模型的建立依赖于所提供的正类和反类的训练文本集。而这两类文本集在实际应用中并不容易构造,从而导致检测性能低下。
3.采用LSA(潜在语义分析)[1] 之类的简单语义分析技术的检测方法虽然考虑到语义识别,但是在语义空间的建立以及语义提取过程中,空间维数设定等主要方面存在难于解决的问题,使得在面对灵活多变的文本内容检测上性能不高。
4.在词汇、句子等细粒度层面上进行内容过滤,对于Web信息共享是非常关键的。而分类方法、简单的语义的分析方法在这方面存在一定缺陷。
由此可见,实现和提升不良文本内容的语义检测能力的同时,实现细粒度检测是非常关键的。现有方法在词汇设定、训练文本设定以及语义空间构建上存在不足,尚难于满足对不良语义文本内容检测过滤的要求。
发明内容
本发明的目的主要是针对现有各种文本信息内容过滤方法在进行语义识别中存在的不足,提出一种网络不良文本内容的细粒度语义检测方法。
本发明提出的网络不良文本内容的细粒度语义检测方法,围绕所引入的不良信息场景,构造以独立句子为基本单元的训练文本集,从而运用概率话题模型建立场景的数学描述。将待检测的Web页面进行信息内容提取,对文本信息进行句子识别,并基于所建立的概率话题模型,计算每个句子在该模型下的条件概率,在设定的内容检测敏感度下完成细粒度的语义检测。具体步骤如下:
1、场景的语义话题模型的建立。
(1)设定需要检测的不良信息场景,选择与该场景相关的句子,构造描述该场景的文本集。
(2)采用现有的分词方法[2]将文本集中的各个句子分割成独立的词序列,同时去除停用词,从而将整个文本集中的文本用单个词语来描述。
(3)为文本集构造词语频率矩阵,矩阵的行表示词语,列表示文档,矩阵中的元素表示词语在该文档中出现的频率。矩阵的大小为词语的总数×文档总数。
(4)设定话题数,并对词语频率矩阵使用LDA(隐狄利克雷分配)[3] 模型在这个空间中对这个文本集进行话题提取,得到文本集的语义话题描述。
2、基于语义话题模型的细粒度检测。
(1)对于待检测的Web页面,利用Html页面解析技术进行页面信息内容提取[4]。
(2)对提取后的文本信息,进行句子的识别和提取,并对每个句子进行如下处理:
(2-1)以话题模型的词汇表为维度,以词频为权重,建立句子的空间向量;
(2-2)计算句子向量相对于话题模型的似然值;
(2-3)判定似然值是否超过设定的检测敏感度,如果是则将该句子标注为不良;否则良性;
(2-4)获得下一个句子,并重复执行步骤(2-1)-(2-4),直到所有的句子都处理完毕。
上述两个流程见图1、图2所示。
本发明中,所构造的训练文本集具有如下特点:文本集包含一个文本文件,其中的每一行是一个独立的句子;要求选择的句子应尽可能地描述所设定的场景的各个方面。
本发明中,将模型参数记录到模型参数文件中,同时将所建立的词语表也保存到模型的词语文件中;这两类文件共同构成模型文件。
本发明在进行实际检测之前,从模型文件中读取模型参数和模型词语表,在内存中建立已经训练好的LDA模型。
本发明中,对Web页面中的文本信息,以句子为单位进行识别、提取和检测判断。
本发明中,按照下面公式计算句子S相对于话题模型的似然值,并作为与敏感度阈值相比较的依据:
Figure 504757DEST_PATH_IMAGE001
其中,N是句子中所包含的词语总数,N1是不在模型词语表中的词语个数, 
Figure 717170DEST_PATH_IMAGE002
是模型参数,V是句子S的词频向量。
本发明具有实质性特点和显著进步:(1)基于独立句子的不良样本集能更精确地描述需要检测的场景,相比较关键词检测方法中关键词列表构造,以及分类方法中的文本选择,用户在选择独立句子时所存在的不确定性和主观性较小;(2)使用语义话题模型来描述不良样本集,能够保留不同词汇在一个句子中的语义关系。同时由于选择的句子限定于给定的场景,这种语义关系受所设定的话题个数的影响很小,相比现有的语义检测方法,能够较好地实现对文本内容检测的语义识别要求;(3)在确保语义分析处理能力的基础上,由于引入语义话题模型,使得检测判断可以在句子及词汇层面上进行,因此能够兼顾检测的粒度,实现细粒度的内容检测,能够更好地满足实际应用的要求。
本发明利用语义话题模型建立不良样本的数学描述,而基于所提出的不良信息场景概念,该模型的构造受话题数的影响小,并且能够有效地进行句子及词汇层面的概率计算,从而为网络不良文本的检测提供一种细粒度的、具有一定语义判别能力的新方法,适应各种需要不良文本内容检测的应用场合。这种方法也支持对文本内容进行不良词汇、句子的细粒度检测,能更有效地提升检测率、降低误报率,有利于提升文本内容过滤的实用性。
附图说明
 图1为场景的语义话题模型的建立流程。
图2为基于语义话题模型的细粒度检测流程。
具体实施方式
1、场景的语义话题模型的建立。
(1)设定需要检测的不良信息场景,选择与该场景相关的句子,构造描述该场景的文本集。
与场景相关的文本信息可以来源于互联网,通过人工阅读提取的方式进行,构造一个文本集。该文本集包含一个文本文件,其中的每一行是一个独立的句子。所选择的句子应尽可能地描述所设定的场景的各个方面。
(2)文本集的预处理
对文本集中的各个句子进行分词,去除一些常见的停用词,从而得到一个与该文本集相对应的词语表T,词语表的每一行是一个词,并且词语表中不存在重复的词。
(3) 构造词频矩阵
对文本集中的每一个句子S,构造一个行向量v i ={c i1c i2c i3, …, c iX },i=1,2,…,Y, 这里X表示词语表T中的所有词个数,Y表示文本集中的句子个数。c ij 的计算方法如下:
Figure 480596DEST_PATH_IMAGE003
其中,TC ij 表示文档i中词j出现的次数。
构造整个文本集的词频矩阵M1={v 1- Tv 2  T, ...v Y T}。
(4)建立文本集的LDA(隐狄利克雷分配)话题模型,并存储模型参数。
设定话题数k,以词频矩阵M1作为输入的训练数据,采用Bayes方法构造LDA模型的参数α,β,并把模型记为λ=(k,α,β)。这两个参数对应于两个矩阵,其大小分别为:Y×kk×X。将模型参数记录到模型参数文件中,同时将步骤(2)所建立的词语表T也保存到模型的词语文件中,这两类文件共同构成模型文件。
2、基于语义话题模型的细粒度检测。
在检测时按照以下步骤进行:
(1)设定检测的敏感程度值 ξ。
(2)从模型文件中读取模型参数和模型词语表,在内存中建立已经训练好的LDA模型映像。
(3)对于待检测的Web页面,进行页面信息内容提取。
对于输入的Web页面,运用WEB页面信息提取技术将页面中所包含的文本信息提取出来。
(4)对提取后的文本信息,进行句子的识别和提取。句子识别方法是逐个读取文本信息中的字符,并判断字符是否为表示句子结束的标点符号,包括句号、分号、感叹号、问号。从而可以从文本信息中切分出各个句子,并对每个句子进行如下处理:
(4-1)根据模型的词语表T中的每个词语,计算该词语在句子中出现的次数,从而构造一个词频向量V;
(4-2)计算句子相对于话题模型的似然值;
统计不在模型词语表中的词语个数N1,按照下面公式计算句子相对于话题模型的似然值:
Figure 174008DEST_PATH_IMAGE004
其中,N是句子中所包含的词语总数。
(4-3)根据敏感度值进行判断:
如果
Figure 519538DEST_PATH_IMAGE005
≥ξ,那么判断该句子为不良句子;否则为良性句子。
(4-4)从文本信息中获得下一个句子;
(4-5)重复(4-1)- (4-4)直到所有的句子都处理完毕。
设定的ξ方法类似于入侵检测等模式分类问题[5],是在实际应用当中根据检测率和误报率的实际情况调整ξ的值,使它们达到应用要求。
从上述实施过程可以看出,本发明引入了不良文本信息场景概念作为用户选择训练文本的参照物,而训练文本是以句子为基本记录单位,既克服关键词方法无法描述语义的问题,也克服了分类方法在检测过滤上以整篇文档为对象的粗粒度处理问题。同时,本发明中引入话题模型来建立不良语义模式的数学描述,而依赖于场景的文本信息内容具有明确的话题数,因此话题模型的话题数这个关键参数的设定就比较容易。因此检测过程可以基于概率推理计算,可以更合理地根据设定的敏感度阈值进行Web页面信息的内容检测。
具体例子:
假设不良信息内容场景设定为“血腥场面”,典型的句子包含了描述使用凶器、流血、残杀、格斗等相关方面。经过预处理、构造词频矩阵、设定话题数,从而建立描述该场景的LDA话题模型,并将模型参数保存到模型文件中。
在检测流程中,读入模型参数,建立模型的内存映像。设定检测的敏感度值ξ=0.0001。针对天涯论坛上的帖子进行检测试验,提取帖子中的信息内容,识别句子,对每个句子似然值计算。结果如下表:
 句子 判定结果
那身黑色西服上已经洒满了鲜血,怎么洗也洗不净。 不良
割破的部位遍及全身,因人而异,有时是额头、鼻子、嘴唇、耳朵。 不良
用石刀或动物骨头、贝壳、荆棘等锋利尖锐的东西,给自己放血。 不良
他用力踢了一下足球,可是小腿上的伤口流血了。 良性
参考文献:
[1] Deerwester S., Dumais S., Landauer T., Furnas G., and Harshman R. Indexing by Latent Semantic Analysis. Journal of the American Society of Information Science, 41(6):391–407, 1990.
[2] 马光志, 李专. 基于特征词的自动分词研究.    华中科技大学学报(自然科学版), 2003, 31(3):60-62.
[3] Blei D., Ng A., and Jordan M. Latent Dirichlet Allocation. Journal of Machine Learning Research, 2003, 3(5):993–1022.
[4] Xiangwen Ji, Jianping Zeng, Shiyong Zhang, Chengrong Wu. Tag Tree Template for Web Information and Schema Extraction. Expert Systems With Applications, 2010,37(12): 8492-8498.
[5] Jianping Zeng, Donghui Guo. Agent-based Intrusion Detection for Network-based Application. International Journal of Network Security, 2009, 8(2):187-196。 

Claims (6)

1.一种网络不良文本内容的细粒度语义检测方法,其特征在于具体步骤为:
 一、场景的语义话题模型的建立:
(1)设定需要检测的不良信息场景,选择与该场景相关的句子,构造描述该场景的文本集;
(2)采用分词方法将文本集中的各个句子分割成独立的词序列,同时去除停用词,从而将整个文本集中的文本用单个词语来描述;
(3) 为文本集构造词语频率矩阵,矩阵的行表示词语,列表示文档,矩阵中的元素表示词语在该文档中出现的频率,矩阵的大小为词语的总数×文档总数;
(4) 设定话题数,并对词语频率矩阵使用LDA模型对这个文本集进行话题提取,得到文本集的语义话题描述;
二、基于语义话题模型的细粒度检测
(1) 对于待检测的Web页面,利用Html页面解析技术进行页面信息内容提取;
(2) 对提取后的文本信息,进行句子的识别和提取,并对每个句子进行如下处理:
(2-1)以话题模型的词汇表为维度,以词频为权重,建立句子的空间向量;
(2-2)计算句子向量相对于话题模型的似然值;
(2-3)判定似然值是否超过设定的检测敏感度,如果是则将该句子标注为不良;否则良性;
(2-4)获得下一个句子,并重复执行步骤(2-1)-(2-4),直到所有的句子都处理完毕。
2.如权利要求1所述的网络不良文本内容的语义检测方法,其特征在于:所构造的训练文本集具有如下特点:文本集包含一个文本文件,其中的每一行是一个独立的句子;要求选择的句子应尽可能地描述所设定的场景的各个方面。
3.如权利要求1所述的网络不良文本内容的语义检测方法,其特征在于:将模型参数记录到模型参数文件中,同时将所建立的词语表也保存到模型的词语文件中;这两类文件共同构成模型文件。
4.如权利要求1所述的网络不良文本内容的语义检测方法,其特征在于:在进行实际检测之前,从模型文件中读取模型参数和模型词语表,在内存中建立已经训练好的LDA模型。
5.如权利要求1所述的网络不良文本内容的语义检测方法,其特征在于:对Web页面中的文本信息,以句子为单位进行识别、提取和检测判断。
6.如权利要求1所述的网络不良文本内容的语义检测方法,其特征在于:按照下面公式计算句子S相对于话题模型的似然值,并作为与敏感度阈值相比较的依据:
其中,N是句子中所包含的词语总数,N1是不在模型词语表中的词语个数, 是模型参数,V是句子S的词频向量。
CN201210034888.1A 2012-02-16 2012-02-16 一种网络不良文本内容的细粒度语义检测方法 Expired - Fee Related CN102609407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210034888.1A CN102609407B (zh) 2012-02-16 2012-02-16 一种网络不良文本内容的细粒度语义检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210034888.1A CN102609407B (zh) 2012-02-16 2012-02-16 一种网络不良文本内容的细粒度语义检测方法

Publications (2)

Publication Number Publication Date
CN102609407A true CN102609407A (zh) 2012-07-25
CN102609407B CN102609407B (zh) 2014-10-29

Family

ID=46526790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210034888.1A Expired - Fee Related CN102609407B (zh) 2012-02-16 2012-02-16 一种网络不良文本内容的细粒度语义检测方法

Country Status (1)

Country Link
CN (1) CN102609407B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999576A (zh) * 2012-11-13 2013-03-27 北京百度网讯科技有限公司 用于确定目标页面所对应的页面描述信息的方法和设备
CN103279476A (zh) * 2013-04-11 2013-09-04 深圳市易聆科信息技术有限公司 一种web应用系统敏感文字的检测方法及系统
CN103778226A (zh) * 2014-01-23 2014-05-07 北京奇虎科技有限公司 构建语言信息识别模型的方法及语言信息识别装置
CN103853701A (zh) * 2012-11-30 2014-06-11 中国科学院声学研究所 一种基于神经网络的自学习语义检测方法及系统
CN104584003A (zh) * 2012-08-24 2015-04-29 微软公司 词检测和域字典推荐
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
CN109656141A (zh) * 2019-01-11 2019-04-19 武汉天喻聚联网络有限公司 基于人工智能技术的违规识别及机器行为控制方法、设备、存储介质
CN109766447A (zh) * 2018-12-25 2019-05-17 东软集团股份有限公司 一种确定敏感信息的方法和装置
CN110019817A (zh) * 2018-12-04 2019-07-16 阿里巴巴集团控股有限公司 一种视频中文字信息的检测方法、装置及电子设备
CN111797631A (zh) * 2019-04-04 2020-10-20 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
WO2022120211A1 (en) * 2020-12-04 2022-06-09 Turbosquid, Inc. Method and system detecting model file content

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254884A1 (en) * 2008-04-08 2009-10-08 Infosys Technologies Ltd. Identification of topics in source code
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254884A1 (en) * 2008-04-08 2009-10-08 Infosys Technologies Ltd. Identification of topics in source code
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIANPING ZENG ET AL.: "Incorporating topic transition in topic detection and tracking algorithms", 《EXPERT SYSTEMS WITH APPLICATIONS》 *
JIANPING ZENG ET AL.: "Semantic multi-grain mixture topic model for text analysis", 《EXPERT SYSTEMS WITH APPLICATIONS》 *
RACHIT ARORA ET AL.: "Latent Dirichlet Allocation and Singular Value Decomposition based Multi-Document Summarization", 《2008 EIGHTH IEEE INTERNATIONAL CONFERENCE ON DATA MINING》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
CN104584003A (zh) * 2012-08-24 2015-04-29 微软公司 词检测和域字典推荐
CN102999576A (zh) * 2012-11-13 2013-03-27 北京百度网讯科技有限公司 用于确定目标页面所对应的页面描述信息的方法和设备
CN102999576B (zh) * 2012-11-13 2016-08-17 北京百度网讯科技有限公司 用于确定目标页面所对应的页面描述信息的方法和设备
CN103853701A (zh) * 2012-11-30 2014-06-11 中国科学院声学研究所 一种基于神经网络的自学习语义检测方法及系统
CN103279476B (zh) * 2013-04-11 2016-12-28 深圳市易聆科信息技术股份有限公司 一种web应用系统敏感文字的检测方法及系统
CN103279476A (zh) * 2013-04-11 2013-09-04 深圳市易聆科信息技术有限公司 一种web应用系统敏感文字的检测方法及系统
CN103778226A (zh) * 2014-01-23 2014-05-07 北京奇虎科技有限公司 构建语言信息识别模型的方法及语言信息识别装置
CN110019817A (zh) * 2018-12-04 2019-07-16 阿里巴巴集团控股有限公司 一种视频中文字信息的检测方法、装置及电子设备
CN109766447A (zh) * 2018-12-25 2019-05-17 东软集团股份有限公司 一种确定敏感信息的方法和装置
CN109656141A (zh) * 2019-01-11 2019-04-19 武汉天喻聚联网络有限公司 基于人工智能技术的违规识别及机器行为控制方法、设备、存储介质
CN111797631A (zh) * 2019-04-04 2020-10-20 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
WO2022120211A1 (en) * 2020-12-04 2022-06-09 Turbosquid, Inc. Method and system detecting model file content
US11790254B2 (en) 2020-12-04 2023-10-17 Shutterstock, Inc. Method and system for detecting model file content

Also Published As

Publication number Publication date
CN102609407B (zh) 2014-10-29

Similar Documents

Publication Publication Date Title
CN102609407B (zh) 一种网络不良文本内容的细粒度语义检测方法
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
US20200143289A1 (en) Systems and method for performing contextual classification using supervised and unsupervised training
CN110516067B (zh) 基于话题检测的舆情监控方法、系统及存储介质
CN107437038B (zh) 一种网页篡改的检测方法及装置
CN108804421A (zh) 文本相似性分析方法、装置、电子设备及计算机存储介质
CN109829151B (zh) 一种基于分层狄利克雷模型的文本分割方法
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN104731812A (zh) 一种基于文本情感倾向识别的舆情检测方法
CN109657058A (zh) 一种公告信息的抽取方法
Pembeci Using word embeddings for ontology enrichment
CN110263169A (zh) 一种基于卷积神经网络和关键词聚类的热点事件检测方法
CN109902289A (zh) 一种面向模糊文本挖掘的新闻视频主题分割方法
CN107679075A (zh) 网络监控方法和设备
CN115269833B (zh) 基于深度语义和多任务学习的事件信息抽取方法及系统
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
CN114579695A (zh) 一种事件抽取方法、装置、设备及存储介质
CN116680590B (zh) 基于工作说明书解析的岗位画像标签提取方法及装置
CN108804524B (zh) 基于层次化分类体系的情感判别和重要性划分方法
CN115659969A (zh) 文档标注方法、装置、电子设备及存储介质
CN111563276B (zh) 一种网页篡改检测方法、检测系统及相关设备
KR102086642B1 (ko) 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법
CN111611394A (zh) 一种文本分类方法、装置、电子设备及可读存储介质
Banovic et al. How Soon Can We Detect Depression?
CN114969339B (zh) 一种文本匹配方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141029

Termination date: 20170216