CN104850574A - 一种面向文本信息的敏感词过滤方法 - Google Patents

一种面向文本信息的敏感词过滤方法 Download PDF

Info

Publication number
CN104850574A
CN104850574A CN201510083247.9A CN201510083247A CN104850574A CN 104850574 A CN104850574 A CN 104850574A CN 201510083247 A CN201510083247 A CN 201510083247A CN 104850574 A CN104850574 A CN 104850574A
Authority
CN
China
Prior art keywords
text message
sensitive words
word
responsive
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510083247.9A
Other languages
English (en)
Other versions
CN104850574B (zh
Inventor
白春玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yibo interworking Enterprise Service Technology Co.,Ltd.
Original Assignee
BEYONDSOFT Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEYONDSOFT Corp filed Critical BEYONDSOFT Corp
Priority to CN201510083247.9A priority Critical patent/CN104850574B/zh
Publication of CN104850574A publication Critical patent/CN104850574A/zh
Application granted granted Critical
Publication of CN104850574B publication Critical patent/CN104850574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种面向文本信息的敏感词过滤方法,包括以下步骤:(1)接收用户的文本信息,验证文本信息的数据格式是否正确,若数据格式验证不通过,则回到步骤(1);若通过验证,则转至步骤(2);(2)对文本信息进行语义分析:从文本信息中取出一个词组,在语义分析库中进行匹配,得到词组的词重;按照词重对文本信息的所有词组重新排序,然后将排序后的文本信息转换成数组格式;(3)对数组格式的文本信息进行敏感词过滤;如果有敏感词存在,将匹配出的敏感词返回给用户;如果不存在,返回给用户一个空信息。本发明不仅对敏感词进行词重分类,并且对分完类的敏感词又按照字母类别分类,有效提高了敏感词的过滤速度。

Description

一种面向文本信息的敏感词过滤方法
技术领域
本发明涉及一种敏感词过滤方法,尤其涉及一种面向文本信息的敏感词过滤方法,属于网络安全技术领域。
背景技术
随着互联网行业的高速发展,网站内容日益丰富,用户数量急剧上升,给互联网管理工作带来了很大的压力。当前,不少用户将自己制作的内容通过互联网平台进行展示或者提供给其他用户,如UGC(User Generated Content,用户生产内容)网站或社交应用软件。伴随而来也会产生许多不符合互联网使用环境甚至违反国家法律法规的内容,即非法内容,如政治敏感、色情词汇等等,导致相关的网站因违反国家法律法规的强制性规定,存在安全运营风险。
因此,有必要采用技术手段对上述非法内容进行过滤。这就需要一些能够禁止或者过滤掉网站中非法内容的方法或者软件。由于互联网中存在着海量的数据,在对网站中的非法内容进行处理时,无需对整段整句内容进行检索,只需要对可能涉及到非法的敏感词进行检索即可。这就需要对敏感词进行过滤。通过敏感词过滤,可以将各种网络信息的内容里面不该出现的敏感词汇过滤掉,从而营造一个良好的互联网使用环境。
申请公布号为CN 102208992A的中国专利申请公开了一种面向互联网的不良信息过滤系统及其过滤方法。该不良信息过滤系统包括用户数据提交模块、用户服务管理系统、用户交互信息审核平台、净化服务运营平台、知识库及至少一个标引引擎,运用多项智能技术:分词、关键词匹配、向量模型,以及多个高性能的处理算法对数据进行处理,可以为互联网社区提供敏感、色情、低俗、灌水及商业广告等信息的标引服务。但是,该技术方案需要调用知识库中的实例库进行过滤。如果希望检索到更多、更全的内容时,需要更大词汇量的词库支持,这样给不良信息的过滤速度带来了很大的压力。
发明内容
针对现有技术的不足,本发明所要解决的技术问题在于提供一种面向文本信息的敏感词过滤方法。
为实现上述发明目的,本发明采用下述的技术方案:
一种面向文本信息的敏感词过滤方法,包括以下步骤:
(1)接收用户的文本信息,验证所述文本信息的数据格式是否正确,若数据格式验证不通过,则回到步骤(1);若通过验证,则转至步骤(2);
(2)对所述文本信息进行语义分析:从所述文本信息中取出一个词组,在语义分析库中进行匹配,得到所述词组的词重;按照词重对所述文本信息的所有词组重新排序,然后将排序后的文本信息转换成数组格式;
(3)对所述数组格式的文本信息进行敏感词过滤;如果有敏感词存在,将匹配出的敏感词返回给用户;如果不存在,返回给用户一个空信息。
其中较优地,所述步骤(1)中,所述文本信息采用可扩展标记语言XML的数据格式,包括用户ID、过滤内容和签名三个参数。
其中较优地,所述步骤(2)中,将文本信息转换成数组格式的步骤为:把每个词组的第一个字组成数组的键,把所述每个词组做成多维数组或者一维数组,所述每个词组的值为整个词组。
其中较优地,所述步骤(2)中,采用正则方式把文本信息转换成数组格式。
其中较优地,所述步骤(2)中,采用贪婪匹配算法对数组格式的文本信息进行匹配。
其中较优地,所述步骤(3)中,从做完语义分析后的文本信息中,取出第一个字的首字母,并初始化首字母对应的敏感词库,逐级检索是否存在敏感词。
其中较优地,所述敏感词库包括一级敏感词库、二级敏感词库、三级敏感词库;其中,
所述一级敏感词库、所述二级敏感词库、所述三级敏感词库中分别存有26个敏感词表,所述26个敏感词表以首字母为表名。
其中较优地,所述步骤(3)中,通过匹配过滤后的敏感词放到结果数组中保存。
与现有技术相比较,本发明不仅对敏感词进行词重分类,并且对分完类的敏感词又按照字母类别进一步分类,有效提高了过滤速度。利用本发明,可以快速、准确地为用户过滤掉违反规定的信息,从而为用户提供一个经过净化的良好网络信息环境。
附图说明
图1是本发明所提供的面向文本信息的敏感词过滤方法流程图;
图2是本发明中,文本信息语义分析的流程图;
图3是本发明中,数据打散后的多维数组结构示意图;
图4是本发明中,词库结构的示意图;
图5是本发明中,文本信息正则后的数据格式示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容作进一步的详细说明。
如图1所示,本发明提供了一种面向文本信息的敏感词过滤方法,包括以下步骤:
(1)接收用户的文本信息,验证所述文本信息的数据格式是否正确,若数据格式验证不通过,则回到步骤(1);若通过验证,则转至步骤(2);
(2)对所述文本信息进行语义分析:从所述文本信息中取出一个词组,在语义分析库中进行匹配,得到所述词组的词重;按照词重对所述文本信息的所有词组重新排序,然后将排序后的文本信息转换成数组格式;
(3)对所述数组格式的文本信息进行敏感词过滤;如果有敏感词存在,将匹配出的敏感词返回给用户;如果不存在,返回给用户一个空信息。
下面对上述各步骤进行详细说明。
第1步:接收文本信息,验证文本信息的格式调用是否正确。
在本发明的一个实施例中,具有敏感词过滤功能的第三方网站向某个网站开放敏感词过滤功能,需要向该网站开放对应的接口。用户访问该网站时,首先会使用第三方网站的敏感词过滤功能,即用户访问接口时,文本信息格式需要与接口的数据格式相同。本发明中采用可扩展标记语言(eXtensible Markup Language,简写为XML)的方式进行访问,即采用XML的格式。该格式有3个参数,uid为用户id,content是需要过滤的内容,sign为签名。当3个参数都存在时,并且与第三方网站的服务器的本地的数据相匹配,才可以通过验证。
例如,以下格式的数据是正确的:
第2步:接收文本信息,验证文本信息的格式,并进行语义分析。
接收到文本信息后,由于文本信息中携带成对出现的固定格式的标记,因此,需要去除文本信息中html标记以及脚本标记,去除时可以采用标签去除函数,如strip_tags函数、trim函数等。去掉标记后的文本信息放在一个变量中进行存储。这样可以防止由于文本信息中携带插入编写的代码而引起的程序处理错误,排除了影响文本信息的可用性的可能,从而达到保护文本信息的目的。
从第三方网站的服务器中的语义分析库中取出所有词组,与文本信息进行匹配,进而做语义分析,如图2所示,语义分析过程包括:(1)取出文本信息中的某一词组;(2)与语义分析库中的所有词组进行匹配,得到该词组的词重;(3)按照词重的级别,对文本信息的所有词组进行重新排序;对文本信息的词组匹配时,重新排序能够更好地提高准确率。最后把没有匹配的词组按照原格式返回,把匹配到的词组的前后面加上分隔符。(4)把每个词组的第一个字,组成数组的键(Key);把该词组做成多维数组或者一维数组,其值(value)为整个词组。
如图3所示,第三方网站的服务器接收到文本信息“我要倒卖军刀”,可能的敏感词为“倒卖军刀”,将“倒卖军刀”词组打散成“倒”、“卖”、“军”和“刀”的单字形式。其中,(1)key名为[word]的value值为
{[id]=>1235
[name]=>倒卖军刀}
(2)key名为“刀”的value值为
(3)key名为“军”的value值为
(4)key名为“卖”的value值为
(5)key名为“倒”的value值为
最后形成如图3所示的多维数组或者一维数组。通过对文本信息格式的转换,即文本信息格式转换成用户数组格式,有利于提高语义分析的效率。
第3步:对语义分析过的文本信息进行敏感词过滤。
从做完语义分析后的文本信息中,取出每个词组中第一个字的首字母,并初始化首字母对应的敏感词库,逐级检索是否存在敏感词。具体地说,先从一级敏感词库开始检索,再检索二级敏感词库、三级敏感词库,依此类推。
如图4所示,在本发明的一个实施例中,具体的词库结构由一级敏感词库、二级敏感词库、三级敏感词库、扩展敏感词库与词义分词库共5个级别组成。其中,在一级敏感词库、二级敏感词库、三级敏感词库中,分别存在26个敏感词表。这26个敏感词表以首字母为表名,按照每个字的拼音首字母放入到相应的敏感词表中。各个敏感词表中存在每个词的扩展词语。另外,扩展敏感词库中为有可能存在繁杂、多重的标点符号的敏感词语。词义分词只做语气分词作用。这样原本要检索1000个的敏感词,本发明中理论上只需要检索1000/26=39次,为原来检索工作量的1%。虽然在实际运行时会存在一些误差,本发明的检索速率也能比原来提高70%,大大提高了检索效率。
在检索敏感词的过程中,以文本信息中词组的第一个字为条件,进行模糊匹配,选出所对应的全部数据。把选出的数据利用上述方式进行打散,拆分成以每个字作为一个多维数组的key,最后一个字里的数组变成当前词语的values。把拆分的全部数据进行存储,并且过期时间设置为永久不过期。在本发明的一个实施例中,可以利用高性能的分布式内存对象缓存系统(简称为MemCache)缓存起来。由于数据存储为现有技术,在此就不具体说明了。
在本发明中,使用正则表达式,即使用单个字符串来描述、匹配一系列符合所设定句法规则的字符串,用来检索、替换文本信息中符合要求的内容。
其具体格式为:
preg_match_all('/[\w\W]/u',strip_tags(用户的文本信息内容),最后得到的结果)。
如图5所示,对于用户所传输过来的文本信息,采用正则方式全部变成数组,即把用户的文本信息进行打散,并匹配成一个一维数组,该一维数组由单个汉字、单个数字、单个标点符号、单个特殊字符组成。
通过MemCache系统取得缓存过的数据库,并遍历这个文本信息的一维数组,以单一元素作为Key值,取得在数据库中的词组的对应元素,其中,单一元素是不与其他元素重复的唯一性的元素。
如果在缓存中这个key值所对应的值存在,就从这个文本信息的元素开始做贪婪匹配算法,检索是否在对应的数组中存在该敏感词。
其中,贪婪匹配算法是在一段内容里面搜索一个固定内容,例如可以是一个词语、一个成语、一句话或者一段话,如果匹配到该内容的第一个字的时候,则继续往下匹配,直至匹配到不再对应该内容的文本信息时为止,或者可以说匹配到对应内容的最后一个字或者字符为止,下面举例对贪婪匹配算法作详细说明。
以“我要倒卖军刀”为例:在“我要倒卖军刀”中,搜索“倒卖军刀”敏感词,用贪婪匹配算法处理如下
(1)首先,把敏感词“倒卖军刀”打散处理成所需要的多维数组文本信息格式。
(2)其次,把文本信息“我要倒卖军刀”利用正则方式变成数组,每一个字便是数组的一个元素。
(3)再次,取得文本信息的第一个字,判断步骤(2)中敏感词的key是否存在。
上述方法就是把敏感词处理成需要的数组格式之后,确认查找的键是否存在,若相等则存在该敏感词。
例如,“我”不在敏感词第一层的key里面,第一层的key是“倒”,第二层的key是“卖”,第三层的key是“军”,第四层的key是“刀”,直到文本信息里面的“倒”,在第一层的key里面被搜索到。取出文本信息的第二个字“倒”,在敏感词的第二层进行搜索:如果搜索到,则取文本信息内容的第三个字对第三层进行搜索;如果没有搜索到,说明这个不是敏感词,或者是不需要匹配的词根据上述步骤一直匹配直到最后,整个敏感词全部匹配完成,则能取出最后一层的核心敏感词并存入设置好的数组中。上述就是贪婪匹配算法的具体处理过程。
经过对文本信息进行匹配,如果与敏感词表完全匹配,则属于真正的敏感词,同时将该文本信息存入到一个二维数组中;如果文本信息不存在于敏感词表中,那么该文本信息就不是敏感词,从而排除了敏感词的可能性,结束本次匹配。继续下一个文本信息的匹配工作,初始化对应数据表,然后依次匹配完所有数据,并把最终结果存入二维数组中。完成一级敏感词库的检索后,继续初始化二级敏感词库、三级敏感词库,并根据上述方案匹配关联敏感词,然后把结果存入二维数组中。
最后,判断存放敏感词的数组中是否为空。如数组不为空,说明有匹配到的敏感词存在,则返回状态为1,1代表成功。如数组中是空的,那么就没有敏感词存在,则返回状态为0与空值,0代表失败。
本发明通过对敏感词进行词重分类,并且对已分类的敏感词再次按照字母类别进行分类。这样可以快速、准确地为用户过滤掉违反规定的信息,从而为用户提供一个经过净化的良好网络信息环境。
以上对本发明所提供的面向文本信息的敏感词过滤方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

Claims (8)

1.一种面向文本信息的敏感词过滤方法,其特征在于包括以下步骤:
(1)接收用户的文本信息,验证所述文本信息的数据格式是否正确,若数据格式验证不通过,则回到步骤(1);若通过验证,则转至步骤(2);
(2)对所述文本信息进行语义分析:从所述文本信息中取出一个词组,在语义分析库中进行匹配,得到所述词组的词重;按照词重对所述文本信息的所有词组重新排序,然后将排序后的文本信息转换成数组格式;
(3)对所述数组格式的文本信息进行敏感词过滤;如果有敏感词存在,将匹配出的敏感词返回给用户;如果不存在,返回给用户一个空信息。
2.如权利要求1所述的敏感词过滤方法,其特征在于,
所述步骤(1)中,所述文本信息采用可扩展标记语言XML的数据格式,包括用户ID、过滤内容和签名三个参数。
3.如权利要求1所述的敏感词过滤方法,其特征在于,
所述步骤(2)中,将文本信息转换成数组格式的步骤为:把每个词组的第一个字组成数组的键,把所述每个词组做成多维数组或者一维数组,所述每个词组的值为整个词组。
4.如权利要求1所述的敏感词过滤方法,其特征在于,
所述步骤(2)中,采用正则方式把文本信息转换成数组格式。
5.如权利要求4所述的敏感词过滤方法,其特征在于,
所述步骤(2)中,采用贪婪匹配算法对数组格式的文本信息进行匹配。
6.如权利要求1所述的敏感词过滤方法,其特征在于,
所述步骤(3)中,从做完语义分析后的文本信息中,取出第一个字的首字母,并初始化首字母对应的敏感词库,逐级检索是否存在敏感词。
7.如权利要求6所述的敏感词过滤方法,其特征在于,
所述敏感词库包括一级敏感词库、二级敏感词库、三级敏感词库;其中,
所述一级敏感词库、所述二级敏感词库、所述三级敏感词库中分别存有26个敏感词表,所述26个敏感词表以首字母为表名。
8.如权利要求1所述的敏感词过滤方法,其特征在于,
所述步骤(3)中,通过匹配过滤后的敏感词放到结果数组中保存。
CN201510083247.9A 2015-02-15 2015-02-15 一种面向文本信息的敏感词过滤方法 Active CN104850574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510083247.9A CN104850574B (zh) 2015-02-15 2015-02-15 一种面向文本信息的敏感词过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510083247.9A CN104850574B (zh) 2015-02-15 2015-02-15 一种面向文本信息的敏感词过滤方法

Publications (2)

Publication Number Publication Date
CN104850574A true CN104850574A (zh) 2015-08-19
CN104850574B CN104850574B (zh) 2018-07-06

Family

ID=53850220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510083247.9A Active CN104850574B (zh) 2015-02-15 2015-02-15 一种面向文本信息的敏感词过滤方法

Country Status (1)

Country Link
CN (1) CN104850574B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统
CN105760445A (zh) * 2016-02-03 2016-07-13 北京光年无限科技有限公司 用于过滤垃圾词的方法及系统
CN105843950A (zh) * 2016-04-12 2016-08-10 乐视控股(北京)有限公司 敏感词过滤方法及装置
CN105956180A (zh) * 2016-05-30 2016-09-21 北京京东尚科信息技术有限公司 一种敏感词过滤方法
CN105956200A (zh) * 2016-06-24 2016-09-21 武汉斗鱼网络科技有限公司 一种基于过滤和转换的弹幕拦截方法及装置
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及系统
CN106909630A (zh) * 2017-01-26 2017-06-30 武汉奇米网络科技有限公司 基于动态词库的敏感词过滤方法及系统
CN107025239A (zh) * 2016-02-01 2017-08-08 博雅网络游戏开发(深圳)有限公司 敏感词过滤的方法和装置
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN108829680A (zh) * 2018-06-22 2018-11-16 北京百悟科技有限公司 一种违规宣传检测方法和装置、计算机可读存储介质
CN109033150A (zh) * 2018-06-12 2018-12-18 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN109766441A (zh) * 2018-12-28 2019-05-17 北京奇安信科技有限公司 文本分类方法、装置及系统
CN110534113A (zh) * 2019-08-26 2019-12-03 深圳追一科技有限公司 音频数据脱敏方法、装置、设备和存储介质
CN110765302A (zh) * 2019-09-20 2020-02-07 广州坚和网络科技有限公司 一种对海量用户生产内容进行自动内容管控的方法
CN112287385A (zh) * 2020-10-09 2021-01-29 杭州电魂网络科技股份有限公司 敏感词过滤方法、装置、计算机设备和可读存储介质
CN112597772A (zh) * 2020-12-31 2021-04-02 讯飞智元信息科技有限公司 一种热点信息确定方法、计算机设备以及装置
CN117236328A (zh) * 2023-11-10 2023-12-15 深圳市泰铼科技有限公司 基于数据分析的金融文本智能核查系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080044016A1 (en) * 2006-08-04 2008-02-21 Henzinger Monika H Detecting duplicate and near-duplicate files
CN102929897A (zh) * 2011-08-12 2013-02-13 北京千橡网景科技发展有限公司 用于检测文本中不良信息的方法和设备
CN103279476A (zh) * 2013-04-11 2013-09-04 深圳市易聆科信息技术有限公司 一种web应用系统敏感文字的检测方法及系统
CN103714056A (zh) * 2012-09-28 2014-04-09 深圳市微讯移通信息技术有限公司 一种基于后台程序的关键字/敏感词过滤方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080044016A1 (en) * 2006-08-04 2008-02-21 Henzinger Monika H Detecting duplicate and near-duplicate files
CN102929897A (zh) * 2011-08-12 2013-02-13 北京千橡网景科技发展有限公司 用于检测文本中不良信息的方法和设备
CN103714056A (zh) * 2012-09-28 2014-04-09 深圳市微讯移通信息技术有限公司 一种基于后台程序的关键字/敏感词过滤方法
CN103279476A (zh) * 2013-04-11 2013-09-04 深圳市易聆科信息技术有限公司 一种web应用系统敏感文字的检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牛洪波: "基于文本分类技术的信息过滤方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统
CN105574090B (zh) * 2015-12-10 2017-12-26 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统
CN107025239A (zh) * 2016-02-01 2017-08-08 博雅网络游戏开发(深圳)有限公司 敏感词过滤的方法和装置
CN107025239B (zh) * 2016-02-01 2019-12-27 博雅网络游戏开发(深圳)有限公司 敏感词过滤的方法和装置
CN105760445A (zh) * 2016-02-03 2016-07-13 北京光年无限科技有限公司 用于过滤垃圾词的方法及系统
CN105843950A (zh) * 2016-04-12 2016-08-10 乐视控股(北京)有限公司 敏感词过滤方法及装置
CN105956180A (zh) * 2016-05-30 2016-09-21 北京京东尚科信息技术有限公司 一种敏感词过滤方法
CN105956200A (zh) * 2016-06-24 2016-09-21 武汉斗鱼网络科技有限公司 一种基于过滤和转换的弹幕拦截方法及装置
CN106055541B (zh) * 2016-06-29 2018-12-28 清华大学 一种新闻内容敏感词过滤方法及系统
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及系统
CN106909630A (zh) * 2017-01-26 2017-06-30 武汉奇米网络科技有限公司 基于动态词库的敏感词过滤方法及系统
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN108717408B (zh) * 2018-05-11 2023-08-22 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN109033150A (zh) * 2018-06-12 2018-12-18 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN109033150B (zh) * 2018-06-12 2024-01-30 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
WO2019237546A1 (zh) * 2018-06-12 2019-12-19 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN108829680A (zh) * 2018-06-22 2018-11-16 北京百悟科技有限公司 一种违规宣传检测方法和装置、计算机可读存储介质
CN109766441A (zh) * 2018-12-28 2019-05-17 北京奇安信科技有限公司 文本分类方法、装置及系统
CN110534113B (zh) * 2019-08-26 2021-08-24 深圳追一科技有限公司 音频数据脱敏方法、装置、设备和存储介质
CN110534113A (zh) * 2019-08-26 2019-12-03 深圳追一科技有限公司 音频数据脱敏方法、装置、设备和存储介质
CN110765302A (zh) * 2019-09-20 2020-02-07 广州坚和网络科技有限公司 一种对海量用户生产内容进行自动内容管控的方法
CN112287385A (zh) * 2020-10-09 2021-01-29 杭州电魂网络科技股份有限公司 敏感词过滤方法、装置、计算机设备和可读存储介质
CN112597772A (zh) * 2020-12-31 2021-04-02 讯飞智元信息科技有限公司 一种热点信息确定方法、计算机设备以及装置
CN117236328A (zh) * 2023-11-10 2023-12-15 深圳市泰铼科技有限公司 基于数据分析的金融文本智能核查系统
CN117236328B (zh) * 2023-11-10 2024-01-30 深圳市泰铼科技有限公司 基于数据分析的金融文本智能核查系统

Also Published As

Publication number Publication date
CN104850574B (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN104850574B (zh) 一种面向文本信息的敏感词过滤方法
AU2019201531B2 (en) An in-app conversational question answering assistant for product help
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
CN102254014B (zh) 一种网页特征自适应的信息抽取方法
AU2005203239A1 (en) Phrase-based indexing in an information retrieval system
CN101425071A (zh) 位置描述检测装置、程序以及存储介质
KR100847376B1 (ko) 질의어 자동 추출을 이용한 검색 방법 및 장치
Jabbar et al. A survey on Urdu and Urdu like language stemmers and stemming techniques
Kotenko et al. Analysis and evaluation of web pages classification techniques for inappropriate content blocking
US10176256B1 (en) Title rating and improvement process and system
US20140040297A1 (en) Keyword extraction
CN107341188A (zh) 基于语义分析的高效数据筛选方法
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
KR20180129001A (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
Yang et al. Ontology generation for large email collections.
CN111680128A (zh) 一种网页敏感词检测方法、检测系统及相关装置
US8862586B2 (en) Document analysis system
Siklósi Using embedding models for lexical categorization in morphologically rich languages
US9430566B2 (en) Control of web content tagging
Krokos et al. A look into twitter hashtag discovery and generation
Bhaskar et al. A hybrid tweet contextualization system using IR and summarization
CN106776590A (zh) 一种获取词条译文的方法及系统
CN109710944A (zh) 热词提取方法、装置、电子设备及计算机可读存储介质
Pi et al. Simhash-based effective and efficient detecting of near-duplicate short messages
Sharma et al. Lfwe: Linguistic feature based word embedding for hindi fake news detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220119

Address after: 100193 room E602, 6 / F, building 7, East District, courtyard 10, northwest Wangdong Road, Haidian District, Beijing

Patentee after: Yibo interworking Enterprise Service Technology Co.,Ltd.

Address before: 100094 block a, zone 3, building 9, Zhongguancun Software Park, No. 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee before: BEYONDSOFT Corp.

TR01 Transfer of patent right