CN102929897A - 用于检测文本中不良信息的方法和设备 - Google Patents

用于检测文本中不良信息的方法和设备 Download PDF

Info

Publication number
CN102929897A
CN102929897A CN2011102338042A CN201110233804A CN102929897A CN 102929897 A CN102929897 A CN 102929897A CN 2011102338042 A CN2011102338042 A CN 2011102338042A CN 201110233804 A CN201110233804 A CN 201110233804A CN 102929897 A CN102929897 A CN 102929897A
Authority
CN
China
Prior art keywords
text
evaluation value
entry evaluation
algorithm
flame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102338042A
Other languages
English (en)
Inventor
姚海阔
高婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Oak Pacific Interactive Technology Development Co Ltd
Original Assignee
Beijing Oak Pacific Interactive Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Oak Pacific Interactive Technology Development Co Ltd filed Critical Beijing Oak Pacific Interactive Technology Development Co Ltd
Priority to CN2011102338042A priority Critical patent/CN102929897A/zh
Publication of CN102929897A publication Critical patent/CN102929897A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及用于检测文本中不良信息的方法和设备。该方法包括:对文本进行评估以得到初步评估值;基于辅助信息,对所述初步评估值进行调整;基于经调整的初步评估值,判断所述文本中是否包含不良信息。通过本发明的技术方案,可以更精确和更灵活地检测文本中的不良信息。

Description

用于检测文本中不良信息的方法和设备
技术领域
本发明涉及信息处理领域,具体而言,涉及用于检测文本中不良信息的方法和设备。
背景技术
随着Web 2.0时代的到来,用户在互联网上获得更大和更好的传播和分享信息的自由。例如,用户越来越多地可以在各种社交网络、资源共享网络、各种论坛、博客、微博等媒介上创作并发布各种信息和内容。
然而,与此同时,以利益驱动的机构和个人为源头,利用这个平台产生了其它用户并不希望得到的一些不良信息,例如其中包括广告信息、骚扰信息等等。
为了限制和避免这些不良信息的发布和传播,可以通过人为审核来区分这些不良信息,从而阻止这些不良信息发布和传播出去。但这种人为审核的方式存在较高的人力成本,并且时间延迟比较长。
于是出现了代替人力,基于算法来自动地检测文本中的不良信息的方法。
一种检测文本中的不良信息的方法是基于贝叶斯(bayes)算法的处理方法。具体来说,在基于贝叶斯算法的处理方法中,利用文本属于不良信息的先验概率和文本属于不良信息的条件概率通过使用训练模型来判断文本是否为不良信息。基于贝叶斯算法的检测结果很大程度上依赖于先验概率。关于贝叶斯算法的技术细节,可以参见Langley P,Iba W,Thompson K等人于1992年发表的题为“Ananalysis of Bayesian classifiers”的文章(参见Proceedings of the 10thNational Conference on Artificial Intelligence Menlo park:AAA I Press,1992:223-228),其全部内容通过引用合并于此。
另一种检测文本中的不良信息的方法是基于支持向量机(SupportVector Machine,SVM)算法的处理方法。具体来说,在基于支持向量机算法的处理方法中,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以获得较好的检测结果。基于支持向量机算法的针对文本中不良信息的检测方法在小样本、非线性及高维模式识别的应用场景中具有许多特有的优势。关于基于支持向量机算法的技术细节,可以参见C.Cortes和V.Vapnik于1995年发表的题为“Support-Vector Networks”的文章(参见Machine Learning;Volume 20,Number 3,273-297,1995),其全部内容通过引用合并于此。
此外,另一种检测文本中的不良信息的方法是基于隐含语义分析(Latent Semantic Analysis,LSA)算法的处理方法。具体来说,在基于隐含语义分析算法的处理方法中,使用统计计算的方法对大量的文本集进行分析,提取出词与词之间隐含的语义结构,并用这种隐含的语义结构来表示词和文本,到达消除词之间的相关性和简化文本向量实现降维,其中通过奇异阵分解(SVD)技术将高维的向量空间模型(VSM)表示中的文档(即训练文本和特征词汇等)映射到低维的隐含语义空间中,从而在低维的隐含语义空间中实现文本中的不良信息的检测。基于隐含语义分析算法的对文本中不良信息的检测可以消除文本中同义词、多义词的影响,提高了检测的精度。关于隐含语义分析算法的技术细节,可以参见Deerwester,S.、S.T.Dumais、G.W.Furnas、T.K.Landauer和R.Harshman于1990年发表的题为“Indexing by Latent Semantic Analysis”的文章(参见,Journalof the American Society for Information Science,391-407,1990),其全部内容通过引用合并于此。
然而,随着互联网技术的发展,在检测中可能会面对多种复杂的应用场景,仅基于一种单一算法来检测文本中的不良信息并非是足够准确的。因此,希望存在一种可以针对复杂应用场景来灵活地检测文本中的不良信息的方案。
此外,在进行检测时,也希望在检测中可以进一步利用辅助信息(例如,与发布文本的用户相关的信息以及文本自身的特点等)来进一步提高检测的准确性和效率。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的在于提供一种可以更精确和更灵活地检测文本中的不良信息的方法和设备。
根据本发明的一个方面,提供了一种用于检测文本中不良信息的方法,包括:a.对文本进行评估以得到初步评估值;b.基于辅助信息,对初步评估值进行调整;c.基于经调整的初步评估值,判断文本是否包含不良信息。
在本发明的一个实施例中,步骤a包括:基于一种算法对文本进行评估来得到初步评估值。
在本发明的另一个实施例中,步骤a包括:a1.基于多种算法,分别对文本进行评估从而得到多个算法评估值;a2.为多个算法评估值中的每一个值分别赋予对应的预定权重值;a3.基于多个算法评估值以及各自的权重来得到初步评估值。
在本发明的一个实施例中,步骤b包括:b1.根据辅助信息,设置用于调整初步评估值的调整因子;b2.将调整因子应用于初步评估值,从而得到经调整的初步评估值。
在本发明的一个实施例中,步骤c包括:c1.将经调整的初步评估值与预定阈值进行比较;c2.如果经调整的初步评估值大于预定阈值,则判定文本中包括不良信息。
在本发明的一个实施例中,辅助信息包括用户信息和文本信息中的至少一个。
在本发明的一个实施例中,用户信息包括用户注册时间和用户违禁历史中的至少一个。
在本发明的一个实施例中,文本信息包括文本内容和文本结构特征中的至少一个。
在本发明的一个实施例中,文本结构特征包括文本中特征词汇的个数和特征词汇在文本中所占的比例中的至少一个。
在本发明的一个实施例中,算法包括贝叶斯算法、支持向量机算法以及隐含语义分析算法中的一个或多个。
根据本发明的另一方面,提供了一种用于检测文本中不良信息的设备,包括:初步评估装置,用于对文本进行评估以得到初步评估值;调整装置,用于基于辅助信息,对初步评估值进行调整;判断装置,用于基于经调整的初步评估值,判断文本是否包含不良信息。
在本发明的一个实施例中,初步评估装置包括算法评估单元,该算法评估单元用于基于一种算法对文本进行评估来得到初步评估值。
在本发明的另一个实施例中,初步评估装置包括:算法评估单元,用于基于多种算法,分别对文本进行评估从而得到多个算法评估值;权重设置单元,用于为多个算法评估值中的每一个值分别赋予对应的预定权重值;初步评估值确定单元,用于基于多个算法评估值以及各自的权重来得到初步评估值。
在本发明的一个实施例中,调整装置包括:调整因子设置单元,用于根据辅助信息,设置用于调整初步评估值的调整因子;初步评估值调整单元,用于将调整因子应用于初步评估值,从而得到经调整的初步评估值。
在本发明的一个实施例中,判断装置包括:比较单元,用于将经调整的初步评估值与预定阈值进行比较;判定单元,用于如果经调整的初步评估值大于预定阈值,则判定文本中包括不良信息。
在本发明的一个实施例中,辅助信息包括用户信息和文本信息中的至少一个。
在本发明的一个实施例中,用户信息包括用户注册时间和用户违禁历史中的至少一个。
在本发明的一个实施例中,文本信息包括文本内容和文本结构特征中的至少一个。
在本发明的一个实施例中,文本结构特征包括文本中特征词汇的个数和特征词汇在文本中所占的比例中的至少一个。
在本发明的一个实施例中,算法包括贝叶斯算法、支持向量机算法以及隐含语义分析算法中的一个或多个。
根据本发明的用于检测文本中不良信息的方法和设备,可以更精确和更灵活地检测文本中的不良信息。
附图说明
通过结合附图阅读以下对目前优选的实施例的详细描述,本发明的前述和其他特征及优点将变得更加明显。该详细描述和附图只是用于说明本发明,而不是用于限制本发明的范围,本发明的范围由所附的权利要求及其等同形式来限定。
图1示出了根据本发明一个实施例的用于检测不良信息的方法的流程图;
图2示出了根据本发明一个实施例的基于多种用于检测不良信息的算法来得到初步评估值的处理的流程图;
图3示出了根据本发明一个实施例的利用辅助信息来对计算出的初步评估值进行调整的处理的流程图;
图4示出了根据本发明一个实施例的基于经调整的初步评估值来判断文本中是否包含不良信息的处理的流程图;
图5示出了根据本发明一个实施例的用于检测文本中不良信息的设备的示意图;
图6示出了根据本发明一个实施例的初步评估装置的结构示意图,其中该初步评估装置可以基于多种用于检测不良信息的算法来得到初步评估值;
图7示出了根据本发明一个实施例的调整装置的结构示意图,其中该调整装置可以利用辅助信息来对计算出的初步评估值进行调整;
图8示出了根据本发明一个实施例的判断装置的结构示意图,其中该判断装置可以基于经调整的初步评估值来判断文本中是否包含不良信息;以及
图9示出了可以实现根据本发明的实施例的计算设备的示意图。
具体实施方式
以下将参考附图详细地描述本发明的实施例。
图1示出根据本发明一个实施例的用于检测文本中不良信息的方法的流程图。
如图1所示,在步骤a处,可以对文本进行评估以得到初步评估值。
具体来说,所述文本可以是从网站实时抓取来的网页中的文本(例如用户从论坛、博客、微博等发布的文本),或者,也可以是已经下载的待检测的文本(例如,存储在存储介质中的文本)。
可以基于单个用于检测不良信息的算法(包括已知的可以用于检测不良信息的算法和将来将要出现的可以用于检测不良信息的算法)来对待检测的文本进行评估,由此得到初步评估值。或者,也可以基于多种用于检测不良信息的算法(包括已知的可以用于检测不良信息的算法和将来将要出现的可以用于检测不良信息的算法)来对待检测的文本进行评估,由此得到初步评估值。
回到图1,在步骤b处,可以进一步基于辅助信息,对初步评估值进行调整。
例如,在本发明的一个实施例中,辅助信息可以包括与文本对应的用户(例如,论坛中发布文本的发帖人、博客的博主)的用户信息和/或文本的文本信息。
在本发明的一个具体实施例中,所述用户信息可以包括用户注册时间和/或用户违禁历史(即用户之前是否发表过不良信息)。
在本发明的另一个具体实施例中,所述文本信息可以包括文本内容和/或文本结构特征。其中文本结构特征则可以包括文本中特征词汇的个数和特征词汇在文本中所占的比例。
以上关于辅助信息、辅助信息所包括的用户信息、辅助信息所包括的文本信息的描述仅为示例,本发明不限于此,辅助信息、用户信息、文本信息也可以包括其它合适的信息。
回到图1,在步骤c处,可以基于经调整的初步评估值来判断文本中是否包含不良信息,由此可以实现对文本中的不良信息的检测。
在图1所示的实施例中,由于在针对文本中的不良信息的检测过程中进一步利用了辅助信息(例如,用户信息和文本信息),所以可以提高检测的准确性。
如上所述,在根据本发明实施例的用于检测不良信息的方法中,可以利用单个用于检测不良信息的算法(包括已知的可以用于检测不良信息的算法和将来将要出现的可以用于检测不良信息的算法)来对待检测的文本进行评估,也可以基于多种用于检测不良信息的算法(包括已知的可以用于检测不良信息的算法和将来将要出现的可以用于检测不良信息的算法)来对待检测的文本进行评估。
例如,在本发明的一个实施例中,可以基于贝叶斯算法、支持向量机算法和隐含语义分析算法中的任意一种来对待检测的文本进行评估,将评估结果作为可以表示文本中是否存在不良信息的初步评估值。作为一个优选的示例,算法的评估结果以及初步评估值均可以通过表示文本中存在不良信息的概率来表示。算法的评估结果、初步评估值越大,则表明文本中存在不良信息的概率越大。
此外,在本发明的另一个实施例中,也可以基于贝叶斯算法、支持向量机算法和隐含语义分析算法中的任意两种算法或全部三种算法来得到可以表示文本中是否存在不良信息的初步评估值。作为一个优选的示例,算法的评估结果以及初步评估值均可以通过表示文本中存在不良信息的概率来表示。算法的评估结果、初步评估值越大,则表明文本中存在不良信息的概率越大。
图2是示出根据本发明一个实施例的基于多种用于检测不良信息的算法来得到初步评估值的处理的流程图。
如图2所示,在步骤a1处,可以基于多种算法分别对所述文本进行评估从而得到多个算法评估值。
在本发明的一个具体实施例中,可以利用贝叶斯算法、支持向量机算法和隐含语义分析算法中的每个来对待检测的文本进行评估,据此可以得到与各个算法对应的表示文本中是否存在不良信息的多个算法评估值(例如,贝叶斯算法评估值、支持向量机算法评估值和隐含语义分析算法评估值)。
接着,在步骤a2处,可以为多个算法评估值中的每一个值分别赋予对应的预定权重值。
具体来说,可以根据实际应用场景来为多个算法评估值分别设置合理的预定权重值。
例如,在贝叶斯算法较为适用的情形下(例如,文本属于不良信息的先验概率的信息较为准确和充分的情况),可以为贝叶斯算法评估值设置较大的权重值;在支持向量机算法较为适用的情形下(例如,小样本、非线性及高维模式识别的应用场景),可以为支持向量机算法评估值设置较大的权重值;在隐含语义分析算法较为适用的情形下(例如,文本中同义词、多义词较多的情况),可以为隐含语义分析算法评估值设置较大的权重值。
在本发明的一个具体实施例中,在已经基于贝叶斯算法、支持向量机算法和隐含语义分析算法中的每一个分别对待检测的文本进行了评估的情况下,如果可以确定贝叶斯算法较为适用(例如,应用场景为文本属于不良信息的先验概率的信息较为准确和充分的情况),则可以为贝叶斯算法评估值设置较大的权重值而为支持向量机算法评估值和隐含语义分析算法评估值设置较小的权重值。例如,可以将贝叶斯算法评估值的权重设置为0.6而将支持向量机算法评估值和隐含语义分析算法评估值的权重值分别设置为0.2。
接着,在步骤a3处,可以基于所述多个算法评估值以及各评估值相应的权重来得到初步评估值。
作为一个简单的示例,可以通过权重和的方式来计算初步评估值。
具体来说,可以将每个算法评估值与其相应的权重值相乘,并计算所述多个算法评估值的加权和,作为初步评估值。
这样,在根据上述实施例的用于检测不良信息的方法中,通过针对各种不同的应用场景灵活地设置相应的权重,由此可以提高适应当前应用场景的算法的在整个检测过程中的影响比例,因而可以更为准确地计算出初步评估值,由此也可以更为准确地判断出文本中是否存在不良信息。
尽管在上述关于基于多种用于检测不良信息的算法来得到初步评估值的处理的描述中,以贝叶斯算法、支持向量机算法和隐含语义分析算法为例进行了说明,但以上说明仅为示例,本发明并不限于此。例如,也可以基于其它数目的算法来得到初步评估值,并且还可以使用其它任意已知的可以用于检测不良信息的算法和将来将要出现的可以用于检测不良信息的算法。
在根据任意上述实施例的用于检测文本中的不良信息的方法中,在计算出初步评估值之后,还可以进一步利用辅助信息来对计算出的初步评估值进行调整,并根据调整后的初步评估值来进行判断,以便进一步提高检测的准确性。
图3示出了根据本发明一个实施例的利用辅助信息来对计算出的初步评估值进行调整的处理的流程图。
如图3所示,在步骤b1处,可以根据辅助信息来得到用于调整初步评估值的调整因子。
在本发明的一个实施例中,辅助信息可以仅包括与发布文本的用户有关的用户信息,并可以利用该用户信息来设置调整因子。
在一个具体实施例中,用户信息可以仅包括用户的注册时间,因而可以基于用户的注册时间来设置调整因子。例如,如果用户信息中的注册时间较短(例如将注册时间小于三天视为注册时间较短等),则表明该用户是新注册用户即该用户发布的文本中包含不良信息的概率较高,因而可以将用于调整初步评估值的调整因子设置为使调整后的初步评估值变大。例如,可以将调整因子设置为大于1(例如,1.01、1.02、1.03等)的值。
在另一个具体实施例中,用户信息可以仅包括用户违禁历史,因而可以基于用户违禁历史来设置调整因子。例如,如果用户信息中的用户违禁历史表明用户曾经发布过不良信息,则表明该用户发布的文本中包含不良信息的概率较高,因而可以将用于调整初步评估值的调整因子设置为使调整后的初步评估值变大。例如,可以将调整因子设置为大于1(例如,1.05、1.1、1.15等)的值。
在另一个具体示例中,用户信息也可以包括用户的注册时间和用户违禁历史,在这种情况下,优选地,可以将对应于用户的注册时间的调整因子与对应于用户违禁历史的调整因子相乘来作为用于调整初步评估值的调整因子。
在本发明的一个实施例中,辅助信息也可以仅包括反映文本自身特点的文本信息,因而可以该文本信息来设置调整因子。
在一个具体示例中,文本信息中可以包括仅文本内容,因而可以基于文本内容来设置调整因子。例如,如果文本信息中的文本内容与已知的不良信息匹配程度很高,则表明该文本中包含不良信息的概率较高,因而可以将用于调整初步评估值的调整因子设置为使调整后的初步评估值变大。例如,可以将调整因子设置为大于1(例如,1.1、1.15、1.2等)的值。
在另一个具体示例中,文本信息可以仅包括文本结构特征,因而可以基于文本结构特征来设置调整因子。例如,如果文本结构特征表明该文本中包含不良信息的概率较高(例如,文本结构特征中的特征词汇的个数超过阈值或者文本结构特征中的特征词汇在文本中所占的比例超过阈值),因而可以将用于调整初步评估值的调整因子设置为使调整后的初步评估值变大。例如,可以将调整因子设置为大于1(例如,1.05、1.1、1.15等)的值。
在另一个具体示例中,文本信息也可以包括文本内容和文本结构特征,在这种情况下,优选地,可以将对应于文本内容的调整因子与对应于文本结构特征的调整因子相乘来作为用于调整初步评估值的调整因子。
此外,如上所述,辅助信息也可以包括用户信息和文本信息。在这种情况下,优选地,可以将对应于用户信息的调整因子与对应于文本信息的调整因子相乘来作为用于调整初步评估值的调整因子。
接着,如图3所述,在步骤b2处,可以将设置的调整因子应用于初步评估值,从而得到经调整的初步评估值。
具体来说,可以将调整因子与初步评估值相乘,来得到经调整的初步评估值。在这种情况下,如果调整因子大于1,则经调整的初步评估值增加(即文本中存在不良信息的概率增大);类似地,如果调整因子小于1,则经调整的初步评估值减少(即文本中存在不良信息的概率减少)。
由此,可以通过辅助信息对初步评估值进行调整,由此可以进一步提高对文本中不良信息检测的准确性。
在根据任意上述实施例的用于检测文本中的不良信息的方法中,在基于辅助信息对初步评估值进行调整之后,还可以基于经调整的初步评估值来判断文本中是否包含不良信息。例如,在本发明的一个实施例中,可以通过阈值比较的方法来基于经调整的初步评估值来判断文本中是否包含不良信息。
图4示出了根据该实施例的基于经调整的初步评估值来判断文本中是否包含不良信息的处理的流程图。
如图4所示,在步骤c1处,将经调整的初步评估值与预定阈值进行比较,从而判断经调整的初步评估值是否大于预定阈值。
其中,该预定阈值可以是根据经验值预先设定的值,优选地,该预定阈值可以是0.85、0.9、0.95等。
参见图4,如果经调整的初步评估值大于预定阈值,则可以在步骤c2处判定文本中包括不良信息,否则,则可以在步骤c3处判定文本中不包括不良信息。
通过根据任意上述实施例的方法,可以更精确和更灵活地检测文本中的不良信息。与上述方法类似,本发明的实施例还提供了用于检测文本中的不良信息的设备。
图5示出了根据本发明一个实施例的用于检测文本中不良信息的设备500的示意图。
如图5所示,根据该实施例的用于检测文本中不良信息的设备500可以包括初步评估装置501、调整装置502和判断装置503。
其中,初步评估装置501可以对文本进行评估以得到初步评估值。
例如,初步评估装置501可以基于单个用于检测不良信息的算法(包括已知的可以用于检测不良信息的算法和将来将要出现的可以用于检测不良信息的算法)来对文本进行评估,由此得到初步评估值。或者,初步评估装置501也可以基于多种用于检测不良信息的算法(包括已知的可以用于检测不良信息的算法和将来将要出现的可以用于检测不良信息的算法)来对文本进行评估,由此得到初步评估值。
调整装置502可以进一步基于辅助信息,对初步评估值进行调整。
关于辅助信息的具体内容,可以参见之前结合方法实施例进行的描述,在此不再进行赘述以使说明书保持简洁。
判断装置503可以基于经调整的初步评估值来判断文本是否包含不良信息,由此可以实现对文本中的不良信息的检测。
在图5所示的实施例中,由于用于检测文本中不良信息的设备500在针对文本中的不良信息的检测过程中进一步利用了辅助信息(例如,用户信息和文本信息),所以可以提高检测的准确性。
如上所述,初步评估装置501可以利用单个用于检测不良信息的算法(包括已知的可以用于检测不良信息的算法和将来将要出现的可以用于检测不良信息的算法)来对文本进行评估,也可以基于多种用于检测不良信息的算法(包括已知的可以用于检测不良信息的算法和将来将要出现的可以用于检测不良信息的算法)来对文本进行评估。
在本发明的一个实施例中,初步评估装置可以基于单个算法来得到初步评估值。具体来说,初步评估装置可以包括算法评估单元。该算法评估单元例如可以基于贝叶斯算法、支持向量机算法和隐含语义分析算法中的任意一种来对待检测的文本进行评估,将评估结果作为可以表示文本中是否存在不良信息的初步评估值。
此外,在本发明的另一个实施例中,初步评估装置也可以基于多种算法来得到初步评估值。具体来说,初步评估装置例如可以基于贝叶斯算法、支持向量机算法和隐含语义分析算法中的任意两种算法或全部三种算法来得到可以表示文本中是否存在不良信息的初步评估值。
图6示出了根据本发明一个实施例的初步评估装置的结构示意图,其中该初步评估装置可以基于多种用于检测不良信息的算法来得到初步评估值。
如图6所示,初步评估装置600可以包括算法评估单元601、权重设置单元602和初步评估值确定单元603。
具体来说,算法评估单元601可以基于多种算法,分别对所述文本进行评估从而得到多个算法评估值。权重设置单元602可以根据具体应用场景来为多个算法评估值中的每一个值分别赋予对应的预定权重值。初步评估值确定单元603可以基于所述多个算法评估值以及各自的权重来得到所述初步评估值。
这样,在根据上述实施例的包括上述初步评估装置的用于检测不良信息的设备中,通过针对各种不同的应用场景灵活地设置相应的权重,由此可以提高适应当前应用场景的算法的在整个检测过程中的影响比例,因而可以更为准确地计算出初步评估值,由此也可以更为准确地判断出文本中是否存在不良信息。
在根据任意上述实施例的用于检测文本中的不良信息的设备中,调整装置可以在计算出初步评估值之后,可以进一步利用辅助信息来对计算出的初步评估值进行调整,并根据调整后的初步评估值来进行判断,以便进一步提高检测的准确性。
图7示出了根据本发明一个实施例的调整装置的结构示意图,该调整装置可以利用辅助信息来对计算出的初步评估值进行调整。
如图7所示,调整装置700可以包括调整因子设置单元701和初步评估值调整单元702。调整因子设置单元701可以根据辅助信息来设置用于调整所述初步评估值的调整因子。初步评估值调整单元702可以将调整因子应用于所述初步评估值,从而得到所述经调整的初步评估值。
由此,调整装置可以通过辅助信息对初步评估值进行调整,由此包括该调整装置的用于检测文本中的不良信息的设备可以进一步提高对文本中不良信息检测的准确性。
在根据任意上述实施例的用于检测文本中的不良信息的设备中,判断装置可以基于经调整的初步评估值来判断文本是否包含不良信息。
图8示出了根据本发明一个实施例的判断装置的结构示意图。
如图8所述,判断装置800可以包括比较单元801和判定单元802。其中,比较单元801可以将经调整的初步评估值与预定阈值进行比较;判定单元802可以在经调整的初步评估值大于预定阈值情况下,则判定所述文本中包括不良信息。
通过根据任意上述实施例的用于检测文本中的不良信息的设备,可以更精确和更灵活地检测文本中的不良信息。此外,根据本发明实施例的用于检测文本中的不良信息的设备与上述的用于检测文本中的不良信息的方法是对应的,关于用于检测文本中的不良信息的设备的更为具体的技术细节,可以参见之前结合方法进行的描述,在此不再进行赘述以使说明书保持简洁。
图9示出了可以实现根据本发明的实施方式的计算设备的示意图。
图9中所示的计算机系统包括CPU(中央处理单元)901、RAM(随机存取存储器)902、ROM(只读存储器)903、系统总线904,硬盘控制器905、键盘控制器906、串行接口控制器907、并行接口控制器908、显示器控制器909、硬盘910、键盘911、串行外部设备912、并行外部设备913和显示器914。在这些部件中,与系统总线904相连的有CPU 901、RAM 902、ROM 903、硬盘控制器905、键盘控制器906、串行接口控制器907、并行接口控制器908和显示器控制器909。硬盘910与硬盘控制器905相连,键盘911与键盘控制器906相连,串行外部设备912与串行接口控制器907相连,并行外部设备913与并行接口控制器908相连,以及显示器914与显示器控制器909相连。
图9中每个部件的功能在本技术领域内都是众所周知的,并且图9所示的结构也是常规的。这种结构不仅用于个人计算机,而且用于手持设备,如Palm PC、PDA(个人数据助理)、移动电话等等。在不同的应用中,可以向图9中所示的结构添加某些部件,或者图9中的某些部件可以被省略。图9中所示的整个系统由通常作为软件存储在硬盘910中、或者存储在EPROM或者其它非易失性存储器中的计算机可读指令控制。软件也可从网络(图中未示出)下载。或者存储在硬盘910中,或者从网络下载的软件可被加载到RAM902中,并由CPU 901执行,以便完成由软件确定的功能。
尽管图9中描述的计算机系统能够支持根据本发明的检测文本中不良信息的方案,但是该计算机系统只是计算机系统的一个例子。本领域的熟练技术人员可以理解,许多其它计算机系统设计也能实现本发明的实施方式。
本发明还可以实现为例如由图9所示计算机系统所使用的计算机程序产品,其可以包含有用于实现根据本发明的检测文本中不良信息的方法的代码。在使用之前,可以把代码存储在其它计算机系统的存储器中,例如,存储在硬盘或诸如光盘或软盘的可移动的存储器中,或者经由因特网或其它计算机网络进行下载。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在所附权利要求的范围内做出各种变形或修改。

Claims (20)

1.一种用于检测文本中不良信息的方法,包括:
a.对所述文本进行评估以得到初步评估值;
b.基于辅助信息,对所述初步评估值进行调整;
c.基于经调整的初步评估值,判断所述文本是否包含不良信息。
2.根据权利要求1所述的方法,其中所述步骤a包括:基于一种算法对所述文本进行评估来得到所述初步评估值。
3.根据权利要求1所述的方法,其中所述步骤a包括:
a1.基于多种算法,分别对所述文本进行评估从而得到多个算法评估值;
a2.为所述多个算法评估值中的每一个值分别赋予对应的预定权重值;
a3.基于所述多个算法评估值以及各自的权重来得到所述初步评估值。
4.根据权利要求1所述的方法,其中所述步骤b包括:
b 1.根据所述辅助信息,设置用于调整所述初步评估值的调整因子;
b2.将所述调整因子应用于所述初步评估值,从而得到所述经调整的初步评估值。
5.根据权利要求1所述的方法,其中所述步骤c包括:
c1.将所述经调整的初步评估值与预定阈值进行比较;
c2.如果所述经调整的初步评估值大于预定阈值,则判定所述文本中包括不良信息;
c3.如果所述经调整的初步评估值小于或等于预定阈值,则判定所述文本中不包括不良信息。
6.根据权利要求1所述的方法,其中所述辅助信息包括用户信息和文本信息中的至少一个。
7.根据权利要求6所述的方法,其中所述用户信息包括用户注册时间和用户违禁历史中的至少一个。
8.根据权利要求6所述的方法,其中所述文本信息包括文本内容和文本结构特征中的至少一个。
9.根据权利要求8所述的方法,其中所述文本结构特征包括文本中特征词汇的个数和特征词汇在文本中所占的比例中的至少一个。
10.根据权利要求2或3所述的方法,其中所述算法包括贝叶斯算法、支持向量机算法以及隐含语义分析算法中的一个或多个。
11.一种用于检测文本中不良信息的设备,包括:
初步评估装置,用于对所述文本进行评估以得到初步评估值;
调整装置,用于基于辅助信息,对所述初步评估值进行调整;
判断装置,用于基于经调整的初步评估值,判断所述文本是否包含不良信息。
12.根据权利要求1所述的设备,其中所述初步评估装置包括算法评估单元,该算法评估单元用于基于一种算法对所述文本进行评估来得到所述初步评估值。
13.根据权利要求1所述的设备,其中所述初步评估装置包括:
算法评估单元,用于基于多种算法,分别对所述文本进行评估从而得到多个算法评估值;
权重设置单元,用于为所述多个算法评估值中的每一个值分别赋予对应的预定权重值;
初步评估值确定单元,用于基于所述多个算法评估值以及各自的权重来得到所述初步评估值。
14.根据权利要求1所述的设备,其中所述调整装置包括:
调整因子设置单元,用于根据所述辅助信息,设置用于调整所述初步评估值的调整因子;
初步评估值调整单元,用于将所述调整因子应用于所述初步评估值,从而得到所述经调整的初步评估值。
15.根据权利要求1所述的设备,其中所述判断装置包括:
比较单元,用于将所述经调整的初步评估值与预定阈值进行比较;
判定单元,用于如果所述经调整的初步评估值大于预定阈值,则判定所述文本中包括不良信息,并且如果所述经调整的初步评估值小于或等于预定阈值,则判定所述文本中不包括不良信息。
16.根据权利要求1所述的设备,其中所述辅助信息包括用户信息和文本信息中的至少一个。
17.根据权利要求16所述的设备,其中所述用户信息包括用户注册时间和用户违禁历史中的至少一个。
18.根据权利要求16所述的设备,其中所述文本信息包括文本内容和文本结构特征中的至少一个。
19.根据权利要求18所述的设备,其中所述文本结构特征包括文本中特征词汇的个数和特征词汇在文本中所占的比例中的至少一个。
20.根据权利要求12或13所述的设备,其中所述算法包括贝叶斯算法、支持向量机算法以及隐含语义分析算法中的一个或多个。
CN2011102338042A 2011-08-12 2011-08-12 用于检测文本中不良信息的方法和设备 Pending CN102929897A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102338042A CN102929897A (zh) 2011-08-12 2011-08-12 用于检测文本中不良信息的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102338042A CN102929897A (zh) 2011-08-12 2011-08-12 用于检测文本中不良信息的方法和设备

Publications (1)

Publication Number Publication Date
CN102929897A true CN102929897A (zh) 2013-02-13

Family

ID=47644696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102338042A Pending CN102929897A (zh) 2011-08-12 2011-08-12 用于检测文本中不良信息的方法和设备

Country Status (1)

Country Link
CN (1) CN102929897A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392172A (zh) * 2014-10-30 2015-03-04 北京科技大学 一种基于嵌入式的工业系统的安全检测方法及系统
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
CN105653649A (zh) * 2015-12-28 2016-06-08 福建亿榕信息技术有限公司 海量文本中低占比信息识别方法及装置
CN105704005A (zh) * 2014-11-28 2016-06-22 深圳市腾讯计算机系统有限公司 恶意用户举报方法及装置、举报信息处理方法及装置
CN106503152A (zh) * 2016-10-21 2017-03-15 合网络技术(北京)有限公司 标题处理方法和装置
CN106716397A (zh) * 2016-06-29 2017-05-24 深圳狗尾草智能科技有限公司 一种不良语料内容检测装置和方法
CN111539208A (zh) * 2020-06-22 2020-08-14 北京百度网讯科技有限公司 语句处理方法和装置、以及电子设备和可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6996572B1 (en) * 1997-10-08 2006-02-07 International Business Machines Corporation Method and system for filtering of information entities
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN101917352A (zh) * 2010-06-12 2010-12-15 盈世信息科技(北京)有限公司 识别图片垃圾邮件的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6996572B1 (en) * 1997-10-08 2006-02-07 International Business Machines Corporation Method and system for filtering of information entities
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN101917352A (zh) * 2010-06-12 2010-12-15 盈世信息科技(北京)有限公司 识别图片垃圾邮件的方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392172A (zh) * 2014-10-30 2015-03-04 北京科技大学 一种基于嵌入式的工业系统的安全检测方法及系统
CN104392172B (zh) * 2014-10-30 2017-07-04 北京科技大学 一种基于嵌入式的工业系统的安全检测方法及系统
CN105704005A (zh) * 2014-11-28 2016-06-22 深圳市腾讯计算机系统有限公司 恶意用户举报方法及装置、举报信息处理方法及装置
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
CN104850574B (zh) * 2015-02-15 2018-07-06 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
CN105653649A (zh) * 2015-12-28 2016-06-08 福建亿榕信息技术有限公司 海量文本中低占比信息识别方法及装置
CN105653649B (zh) * 2015-12-28 2019-05-21 福建亿榕信息技术有限公司 海量文本中低占比信息识别方法及装置
CN106716397A (zh) * 2016-06-29 2017-05-24 深圳狗尾草智能科技有限公司 一种不良语料内容检测装置和方法
CN106503152A (zh) * 2016-10-21 2017-03-15 合网络技术(北京)有限公司 标题处理方法和装置
CN111539208A (zh) * 2020-06-22 2020-08-14 北京百度网讯科技有限公司 语句处理方法和装置、以及电子设备和可读存储介质
CN111539208B (zh) * 2020-06-22 2023-11-14 北京百度网讯科技有限公司 语句处理方法和装置、以及电子设备和可读存储介质

Similar Documents

Publication Publication Date Title
CN102929897A (zh) 用于检测文本中不良信息的方法和设备
EP3678072A1 (en) Model integration method and device
CN110297912A (zh) 欺诈识别方法、装置、设备及计算机可读存储介质
CN110417721A (zh) 安全风险评估方法、装置、设备及计算机可读存储介质
CN107229689B (zh) 一种微博舆情风险研判的方法
CN111210335B (zh) 用户风险识别方法、装置及电子设备
CN111078880B (zh) 子应用的风险识别方法以及装置
JP2006092538A5 (zh)
CN103885976B (zh) 在网页中配置推荐信息的方法及索引服务器
CN104508657A (zh) 用于产生语义标签的介导计算装置和关联的方法
CN104636415A (zh) 提取重要关键字的方法和执行所述方法的服务器
US20230168804A1 (en) Systems for real-time intelligent haptic correction to typing errors and methods thereof
CN105183743A (zh) 一种微博舆情传播范围预测的方法
CN110222513A (zh) 一种线上活动的异常监测方法、装置及存储介质
CN103838806A (zh) 一种社会网络用户参与主题行为分析方法
CN105262719A (zh) 一种Web环境下用户行为的信任评估方法
Tsai et al. Formalizing generalization and robustness of neural networks to weight perturbations
Bian et al. Reliability analysis for systems subject to mutually dependent degradation and shock processes
CN113298121B (zh) 基于多数据源建模的消息发送方法、装置和电子设备
Wei et al. Using network flows to identify users sharing extremist content on social media
CN107480703B (zh) 交易故障检测方法及装置
CN110796450B (zh) 可信关系处理方法以及装置
CN110704614B (zh) 对应用中的用户群类型进行预测的信息处理方法及装置
CN111382909A (zh) 基于生存分析模型扩展坏样本的拒绝推断方法及相关设备
CN110942192A (zh) 犯罪概率的确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130213

WD01 Invention patent application deemed withdrawn after publication