CN104866465A - 敏感文本检测方法及装置 - Google Patents
敏感文本检测方法及装置 Download PDFInfo
- Publication number
- CN104866465A CN104866465A CN201410064854.6A CN201410064854A CN104866465A CN 104866465 A CN104866465 A CN 104866465A CN 201410064854 A CN201410064854 A CN 201410064854A CN 104866465 A CN104866465 A CN 104866465A
- Authority
- CN
- China
- Prior art keywords
- keyword
- text
- string
- state machine
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种敏感文本检测方法及装置,属于信息处理技术领域。方法包括:获取当前检测文本的特征文本字符串;根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率;对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重;当至少一个关键词类别的权重大于预设阈值时,确定文本为敏感文本。本发明根据预先建立的有限自动状态机对特征文本字符串进行检测时,仅需进行一次从头至尾的扫描,所以提高了检测效率,加快了检测速度;且在确定敏感文本时,还需基于关键词的预设权重,所以提高了检测粒度。
Description
技术领域
本发明涉及信息处理技术领域,特别涉及一种敏感文本检测方法及装置。
背景技术
随着互联网的兴起,网络文学以其方便阅读且涵盖海量数据等特点,得到了快速的发展。而在网络文学迅速普及且内容快速增长的同时,也伴随着大量内容涉及情色、暴力、政治言论等有害青少年身心健康的敏感文本的出现,敏感文本给阅读者造成了阅读障碍。因此,为了给阅读者创造一个良好的阅读环境,如何检测敏感文本,以将检测出来的敏感文本及时进行隔离,成为了一个关键问题。
现有技术预先配置一个关键词列表,所述关键词列表中包含多个关键词。当检测到一个新文本后,首先从关键词列表中选取一个关键词,然后对该文本进行从头至尾的扫描,统计该关键词在该文本中的出现频率;以此类推,直至遍历关键词列表中的所有关键词,得到关键词列表中每个关键词在该文本中的出现频率。最后,根据关键词列表中每个关键词在该文本中的出现频率检测该文本是否为敏感文本;如果至少一个关键词在该文本中的出现频率大于预设阈值,则确定该文本为敏感文本。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于在根据关键词列表中的关键词对文本进行检测时,需根据每一个关键词对文本进行多次从头至尾的扫描,所以消耗了大量的时间,导致文本检测的效率低下。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种敏感文本检测方法及装置。所述技术方案如下:
一方面,提供了一种敏感文本检测方法,所述方法包括:
获取当前检测文本的特征文本字符串;
根据预先建立的有限自动状态机对所述特征文本字符串进行检测,得到每个关键词在所述特征文本字符串中的出现频率,所述有限自动状态机中包括多个关键词;
对于多个关键词类别中的每个关键词类别,基于所述关键词类别对应的每个关键词的出现频率及所述每个关键词的预设权重,计算所述关键词类别在所述文本中的权重;
当至少一个关键词类别的权重大于预设阈值时,确定所述文本为敏感文本。
另一方面,提供了一种敏感文本检测装置,所述装置包括:
字符串获取模块,用于获取当前检测文本的特征文本字符串;
关键词检测模块,用于根据预先建立的有限自动状态机对所述特征文本字符串进行检测,得到每个关键词在所述特征文本字符串中的出现频率,所述有限自动状态机中包括多个关键词;
权重计算模块,用于对于多个关键词类别中的每个关键词类别,基于所述关键词类别对应的每个关键词的出现频率及所述每个关键词的预设权重,计算所述关键词类别在所述文本中的权重;
敏感文本确定模块,用于当至少一个关键词类别的权重大于预设阈值时,确定所述文本为敏感文本。
本发明实施例提供的技术方案带来的有益效果是:
在获取当前检测文本的特征文本字符串后,根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率;由于基于预先建立的有限自动状态机对特征文本字符串进行检测,所以在检测过程中,只需对特征文本字符串进行一次从头至尾的扫描,所以提高了检测效率,加快了检测速度,降低了资源占用率;且对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重,并根据关键词类别的权重确定当前检测文本是否为敏感文本,由于在确定敏感文本时,还需基于关键词的预设权重,所以提高了检测粒度,提高了检测精准率,可净化网络阅读环境。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种敏感文本检测方法流程图;
图2是本发明实施例二提供的一种敏感文本检测方法流程图;
图3是本发明实施例二提供的一种有限自动状态机的结构示意图;
图4是本发明实施例二提供的一种字符匹配之前的特征文本字符串的检测示意图;
图5是本发明实施例二提供的一种字符匹配之后的特征文本字符串的检测示意图;
图6是本发明实施例三提供的一种敏感文本检测装置的结构示意图;
图7是本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种敏感文本检测方法,参见图1,本实施例提供的方法流程包括:
101、获取当前检测文本的特征文本字符串。
102、根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率,有限自动状态机中包括多个关键词。
103、对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重。
104、当至少一个关键词类别的权重大于预设阈值时,确定文本为敏感文本。
本实施例提供的方法,在获取当前检测文本的特征文本字符串后,根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率;由于基于预先建立的有限自动状态机对特征文本字符串进行检测,所以在检测过程中,只需对特征文本字符串进行一次从头至尾的扫描,所以提高了检测效率,加快了检测速度,降低了资源占用率;且对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重,并根据关键词类别的权重确定当前检测文本是否为敏感文本,由于在确定敏感文本时,还需基于关键词的预设权重,所以提高了检测粒度,提高了检测精准率,可净化网络阅读环境。
进一步地,根据预先建立的有限自动状态机对特征文本字符串进行检测之前,该方法还包括:
配置关键词列表,关键词列表中至少包括多个关键词、每个关键词的关键词类别及每个关键词的预设权重;
确定关键词列表中全部关键词具有的公共前缀;
将公共前缀作为根节点,建立树状有限自动状态机,树状有限自动状态机的每一个分支中至少包含一个关键词。
进一步地,根据预先建立的有限自动状态机对特征文本字符串进行检测,包括:
从特征文本字符串的尾部开始,基于有限自动状态机利用坏字符跳转技术由后向前对特征文本字符串进行检测。
进一步地,基于有限自动状态机利用坏字符跳转技术由后向前对特征文本字符串进行检测,包括:
步骤a、确定有限自动状态机中最小长度字符串,将有限自动状态机由特征文本字符串的尾部向前移动,直至最小长度字符串的尾字符与特征文本字符串的尾字符对齐;
步骤b、判断公共前缀的首字符是否与公共前缀对齐的特征文本字符串的第一字符相匹配;
步骤c、如果匹配,则从与公共前缀的首字符对齐的字符开始,基于有限自动状态机判断特征文本字符串中是否存在关键词;如果存在关键词,则将关键词的出现频率加1,并将有限自动状态机向前移动最大长度字符串对应的长度;
步骤d、如果不匹配,则判断有限自动状态机中是否存在与第一字符相匹配的字符;如果存在与第一字符相匹配的字符,则将有限自动状态机向前移动,直至有限自动状态机中与第一字符相匹配的字符同第一字符对齐,从与公共前缀的首字符对齐的字符开始,基于有限自动状态机判断特征文本字符串中是否存在关键词;如果存在关键词,则将关键词的出现频率加1,并将有限自动状态机向前移动最大长度字符串对应的长度;
步骤e、以此类推,重复执行步骤b至步骤d,直至公共前缀到达特征文本字符串的首部。
进一步地,计算关键词类别在文本中的权重之前,该方法还包括:
确定关键词类别对应的每个关键词在文本中的位置权重;
计算关键词类别在文本中的权重,包括:
基于关键词类别对应的每个关键词的出现频率、每个关键词的预设权重及每个关键词的位置权重,计算关键词类别在文本中的权重。
进一步地,确定文本为敏感文本之后,该方法还包括:
当至少一个关键词类别的权重大于预设阈值时,根据权重最大的关键词类别确定文本的类别;
根据权重最大的关键词类别的权重与预设阈值的大小关系,确定文本的敏感程度;
输出文本的敏感程度。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
实施例二
本发明实施例提供了一种敏感文本检测方法,现结合上述实施例一的内容,对本发明实施例提供的敏感文本检测方式进行详细地解释说明。参见图2,本实施例提供的方法流程包括:
201、配置关键词列表,关键词列表中至少包括多个关键词、每个关键词的关键词类别及每个关键词的预设权重。
在本实施例中,配置关键词列表时,可由后台服务器的管理者或程序开发人员进行预先配置。其中,关键词列表中包括多个关键词类别,且每个关键词类别具有一个或多个关键词。比如,关键词类别可分为政治类别、暴力类别及色情类别等;比如,暴力类别可包括打架、斗殴、群架等多个关键词。本实施例对关键词类别及每个关键词类别具有的关键词个数均不进行具体限定。
此外,关键词列表中的每个关键词除对应一个关键词类别外,还对应一个预设权重,而预设权重的大小可反应出该关键词的敏感程度。假设预设权重为0-1之间的小数,则当某个关键词的预设权重为0.5以上的值,则说明该关键词敏感程度较高;而当某个关键词的预设权重为0.5以下的值,则说明该关键词敏感程度较低。通过对关键词设置预设权重,可在后续过程中对当前检测文本是否为敏感文本进行精确检测。
202、确定关键词列表中全部关键词具有的公共前缀;将公共前缀作为根节点,建立树状有限自动状态机,树状有限自动状态机的每一个分支中至少包含一个关键词。
其中,公共前缀指代每个关键词所具有的相同字符部分。比如,字符串in,inn和int所具有的公共前缀便是“in”;字符串ethernetmovesme,ethernetisking,ethernetisdead和ethernetforever所具有的公共前缀便是“ethernet”。有限自动状态机是表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型。在建立树状有限自动状态机时,以关键词为ethernetmovesme,ethernetisking,ethernetisdead和ethernetforever为例,则先将公共前缀“ethernet”作为根节点,之后,以根节点为起始基于各个关键词的字符建立各个分支,且从根节点开始直至某一分支的底部至少包含一个关键词,建立好的树状有限自动状态机可如图3所示。在图3中,4个关键词分别占据一个分支。
此外,若关键词列表中的各个关键词不具有一个统一的公共前缀,则还可为各个关键词设置一个统一的公共前缀,以便建立树状有限自动状态机。
需要说明的是,在执行本实施例提供的方法时,上述步骤201和步骤202无需每次均执行,仅在初次对敏感文本进行检测时执行即可。且当配置好了关键词列表及建立好了基于公共前缀的有限自动状态机后,当后台服务器检测到一个新文本后,便可通过下述步骤203至步骤210对该新文本进行检测,以确定该文本是否为敏感文本。
203、获取当前检测文本的特征文本字符串。
其中,当前检测文本通常为最新检测到的文本,也即,网络用户终端新上传的文本。当检测到新文本后,可触发生成包含该文本标识的文本检测请求,并将该文本检测请求发送至敏感文本检测装置,从而敏感文本检测装置便可根据该文件检测请求从存储设备中将该文本的内容加载至内存,进而对该文本进行敏感文本检测。
可选地,检测新文本时,可采取周期性检测方式,即每隔预设时间检测一次网络用户终端是否上传新文本;当检测到新文本后,触发生成文本检测请求,而文本检测请求也是周期性的生成。此外,在检测新文本时,还可采取实时检测方式,即实时监测网络用户终端是否上传了新文本;当检测到一个新文本后,立即触发生成文本检测请求。在执行本实施例提供的方法时,具体采取何种检测方式,本实施例对此不作具体限定。
在获取当前检测文本的特征文本字符串时,可将当前检测文本的正文字符和标题字符进行拼接,得到包含当前检测文本正文和标题的特征文本字符串。
204、根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率,有限自动状态机中包括多个关键词。
在本实施例中,根据预先建立的有限自动状态机对特征文本字符串进行检测,包括:
从特征文本字符串的尾部开始,基于有限自动状态机利用坏字符跳转技术由后向前对特征文本字符串进行检测。
可选地,基于有限自动状态机利用坏字符跳转技术由后向前对特征文本字符串进行检测,具体包括如下步骤:
步骤a、确定有限自动状态机中最小长度字符串,将有限自动状态机由特征文本字符串的尾部向前移动,直至最小长度字符串的尾字符与特征文本字符串的尾字符对齐;
其中,最小长度字符串指代具有最少字符个数的关键词。特征文本字符串的尾部指代特征文本字符串的最后一个字符所在位置。
步骤b、判断公共前缀的首字符是否与公共前缀对齐的特征文本字符串的第一字符相匹配;
其中,判断公共前缀的首字符与第一字符是否相匹配,也即,判断公共前缀的首字符与第一字符是否相同;如果公共前缀的首字符与第一字符相同,则二者匹配;如果公共前缀的首字符与第一字符不相同,则二者不匹配。
步骤c、如果匹配,则从与公共前缀的首字符对齐的字符开始,基于有限自动状态机判断特征文本字符串中是否存在关键词;如果存在关键词,则将关键词的出现频率加1,并将有限自动状态机向前移动最大长度字符串对应的长度;
此外,如果不存关键词,则直接将有限自动状态机向前移动最大长度字符串对应的长度;其中,最大长度字符串指代具有最多字符个数的关键词。
步骤d、如果不匹配,则判断有限自动状态机中是否存在与第一字符相匹配的字符;如果存在与第一字符相匹配的字符,则将有限自动状态机向前移动,直至有限自动状态机中与第一字符相匹配的字符同第一字符对齐,从与公共前缀的首字符对齐的字符开始,基于有限自动状态机判断特征文本字符串中是否存在关键词;如果存在关键词,则将关键词的出现频率加1,并将有限自动状态机向前移动最大长度字符串对应的长度;
此外,如果不存在与第一字符相匹配的字符,则直接将有限自动状态机向前移动最大长度字符串对应的长度。如果不存关键词,则也直接将有限自动状态机向前移动最大长度字符串对应的长度。
步骤e、以此类推,重复执行步骤b至步骤d,直至公共前缀到达特征文本字符串的首部。
下面以一个具体的例子对基于有限自动状态机利用坏字符跳转技术由后向前对特征文本字符串进行检测的过程进行详细地解释说明。
如图4所示,当前待检测文本为最底下一行“nothingtoworryaboutinthis”,上边为树状有限自动状态机。在该有限自动状态中最小长度字符串为关键词“ethernetisdead”对应的字符串,其长度为14个字符,则在第一次匹配时,将有限自动状态机由特征文本字符串的尾字符“s”开始向前移动,直至最小长度字符串ethernetisdead”的尾字符“d”与特征文本字符串的尾字符“s”对齐;此时,公共前缀的首字符“e”与特征文本字符串中“worry”的第一次出现的“r”字符对齐,由于公共前缀的首字符“e”与特征文本字符串中“worry”的第一次出现的“r”字符不匹配,所以第一次匹配失败,有限自动状态机需向前移动。由于有限自动状态机的公共前缀中的第5个字符与特征文本字符串中“worry”的第一次出现的“r”字符一致,所以将有限自动状态机向前移动,直至有限自动状态机中第5个字符“r”与特征文本字符串中“worry”的第一次出现的“r”字符对齐,详见图5。在图5中,从与公共前缀的首字符“e”对齐的字符“t”开始,基于有限自动状态机判断特征文本字符串中是否存在关键词;由于从与公共前缀的首字符“e”对齐的字符“t”开始,特征文本字符串中不存在关键词,所以将有限自动状态机继续向前移动,且此时移动的位移为最大长度字符串“ethernetforever”对应的长度,也即向前移动15个字符。由于向前移动15个字符后,有限自动状态机已到达特征文本字符串的首部,所以至此完成对特征文本字符串的检测。
需要说明的是,通过上述步骤203至步骤204便可完成对特征文本字符串的检测,得到每个关键词在特征文本字符串中的出现频率。进一步地,为了得到更加精确的敏感文本检测结果,本实施例提供的方法还包括如下步骤205。
205、确定各个关键词类别对应的每个关键词在文本中的位置权重。
其中,在确定关键词类别对应的每个关键词在文本中的位置权重时,需先确定关键词类别对应的每个关键词在文本中的出现位置。而每个关键词在文本中的出现位置,在上述步骤204对特征文本字符串进行检测时,便可确定。在确定每个关键词在文本中的出现位置后,根据预先设置的不同位置对应的位置权重便可确定各个关键词类别对应的每个关键词在文本中的位置权重。而在进行位置权重的设置时,可将文本的开头部分和结尾部分对应的位置权重设置的大一些,而将文本的中间部分对应的位置权重设置的小一些。比如,将文本的前三分之一部分和后三分之一部分对应的位置权重设置为0.8,而将文本的中间三分之一部分对应的位置权重设置为0.2,本实施例对位置权重设置的方式不进行具体限定。进一步地,之所以将文本的开头部分和结尾部分对应的位置权重设置的大一些,而将文本的中间部分对应的位置权重设置的小一些,是由于文本的开头部分和结尾部分通常包含结论性内容,而这些结论性内容通常能反应文本的主旨所在。此外,如果某一关键词在文本开头或结尾部分、文本中间部分均出现,则进一步比较该关键词在文本开头或结尾部分的出现频率同该关键词在文本中间部分的出现频率的大小关系,出现频率高的部分即为该关键词的出现位置。此外,如果某一关键词在文本中未出现,则其对应的位置权重为0。
206、基于关键词类别对应的每个关键词的出现频率、每个关键词的预设权重及每个关键词的位置权重,计算关键词类别在文本中的权重。
其中,在计算关键词类别在文本中的权重时,针对该关键词类别对应的多个关键词中的每一个关键词,可将其出现频率、预设权重及位置权重进行相乘,得到每个关键词的权重;进而将每个关键词的权重进行相加,得到该关键词类别在文本中的权重。
此外,也可仅根据关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重。具体采用哪种计算关键词类别在文本中的权重的方式,本实施例对此不作具体限定。本实施例仅以基于关键词类别对应的每个关键词的出现频率、每个关键词的预设权重及每个关键词的位置权重,计算关键词类别在文本中的权重为例进行说明。
下面以一个具体的例子对计算关键词类别在文本中的权重的过程进行详细地解释说明。
以关键词类别为类别S,其所对应的关键词分别为关键词A、关键词B和关键词C,关键词A的出现频率为a1、预设权重为b1、位置权重为c1,关键词B的出现频率为a2、预设权重为b2、位置权重为c2,关键词C的出现频率为0、预设权重为b3、位置权重为0为例,则首选分别计算关键词A、关键词B和关键词C各自的权重。关键词A的权重=a1*b1*c1,关键词B的权重=a2*b2*c2,关键词C的权重=0*b1*0=0。所以类别S在文本中的权重=a1*b1*c1+a2*b2*c2。
207、当至少一个关键词类别的权重大于预设阈值时,根据权重最大的关键词类别确定文本的类别。
当一个关键词类别的权重大于预设阈值时,则根据该关键词类别可直接确定文本的类别;比如,关键词类别为政治类别,则敏感文本的类别为政治类别。
当至少一个关键词类别的权重大于预设阈值时,根据权重最大的关键词类别确定文本的类别。比如,关键词类别分别为政治类别和暴力类别,且暴力类别的权重大于政治类别的权重,则敏感文本的类别为暴力类别。
208、根据权重最大的关键词类别的权重与预设阈值的大小关系,确定文本的敏感程度。
在根据权重最大的关键词类别的权重与预设阈值的大小关系,确定文本的敏感程度时,具体可采用如下方式:
当关键词类别的权重大于预设阈值0%-20%时,可将该文本的敏感程度确定为一星级;当关键词类别的权重大于预设阈值20%-40%时,可将该文本的敏感程度确定为二星级;当关键词类别的权重大于预设阈值40%-60%时,可将该文本的敏感程度确定为三星级;当关键词类别的权重大于预设阈值60%-80%时,可将该文本的敏感程度确定为四星级;当关键词类别的权重大于预设阈值80%-100%时,可将该文本的敏感程度确定为五星级。
上述仅给出确定文本的敏感程度的一种可能的实施方式,本实施例对确定文本的敏感程度的实现方式不进行具体限定。
209、输出文本的敏感程度。
为了给后续的敏感文本审核人员提供参考数据,可将确定的敏感程度进行输出,以便敏感文本审核人员确定是否发布文本。在输出文本的敏感程度时,可将文本的敏感程度通过特定显示界面进行输出,本实施例对此不作具体限定。
需要说明的是,在执行本实施例提供的方法时,也可不执行上述步骤207至步骤209,也即,不确定敏感文本所对应的类别及敏感文本的敏感程度;而直接执行步骤210。步骤210具体包括如下内容:当至少一个关键词类别的权重大于预设阈值时,确定文本为敏感文本。
其中,预设阈值的大小可为10或20等等,本实施例对预设阈值的大小不进行具体限定,可视具体情况而定。
针对一个文本而言,在对其进行检测时,有可能存在多个关键词类别的权重均大于预设阈值的情况。针对该种情况,无论是那几个关键词类别对应的权重大于预设阈值,都直接将该文本确定为敏感文本。也即,该文本可能涉及政治言论、色情或严重暴力等不适合披露的内容,需将该文本进行隔离,并在后续过程中进行人工审核,以确定该文本是否发布。
此外,在执行完上述步骤201至步骤206,且直接执行步骤210后,若当前检测文本为敏感文本,则也可确定并输出该敏感文本的敏感程度,以便能够明确该敏感文本的敏感程度,方便后续进行发布决策。
本实施例提供的方法,在获取当前检测文本的特征文本字符串后,根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率;由于基于预先建立的有限自动状态机对特征文本字符串进行检测,所以在检测过程中,只需对特征文本字符串进行一次从头至尾的扫描,所以提高了检测效率,加快了检测速度,降低了资源占用率;且对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重,并根据关键词类别的权重确定当前检测文本是否为敏感文本,由于在确定敏感文本时,还需基于关键词的预设权重,所以提高了检测粒度,提高了检测精准率,可净化网络阅读环境。此外,由于设置了关键词类别,所以根据关键词类别确定敏感文本的类别,可实现对敏感文本的有效区分。且基于敏感文本的敏感程度,可以显式的方式直观地反应敏感文本是否适合发布,为审核人员的对敏感文本的审核提供了便利。
实施例三
本发明实施例提供了一种敏感文本检测装置,用于执行上述实施例一或实施例二所提供的方法。参见图6,该装置包括:字符串获取模块601、关键词检测模块602、权重计算模块603及敏感文本确定模块604。
其中,字符串获取模块601,用于获取当前检测文本的特征文本字符串;关键词检测模块602与字符串获取模块601连接,用于根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率,有限自动状态机中包括多个关键词;权重计算模块603与关键词检测模块602连接,用于对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重;敏感文本确定模块604与权重计算模块603连接,用于当至少一个关键词类别的权重大于预设阈值时,确定文本为敏感文本。
可选地,该装置还包括:
配置模块,用于配置关键词列表,关键词列表中至少包括多个关键词、每个关键词的关键词类别及每个关键词的预设权重;
公共前缀确定模块,用于确定关键词列表中全部关键词具有的公共前缀;
状态机建立模块,用于将公共前缀作为根节点,建立树状有限自动状态机,树状有限自动状态机的每一个分支中至少包含一个关键词。
可选地,关键词检测模块,用于从特征文本字符串的尾部开始,基于有限自动状态机利用坏字符跳转技术由后向前对特征文本字符串进行检测。
可选地,关键词检测模块,包括:
确定单元,用于确定有限自动状态机中最小长度字符串,将有限自动状态机由特征文本字符串的尾部向前移动,直至最小长度字符串的尾字符与特征文本字符串的尾字符对齐;
判断单元,用于判断公共前缀的首字符是否与公共前缀对齐的特征文本字符串的第一字符相匹配;如果匹配,则从与公共前缀的首字符对齐的字符开始,基于有限自动状态机判断特征文本字符串中是否存在关键词;如果存在关键词,则将关键词的出现频率加1,并将有限自动状态机向前移动最大长度字符串对应的长度;如果不匹配,则判断有限自动状态机中是否存在与第一字符相匹配的字符;如果存在与第一字符相匹配的字符,则将有限自动状态机向前移动,直至有限自动状态机中与第一字符相匹配的字符同第一字符对齐,从与公共前缀的首字符对齐的字符开始,基于有限自动状态机判断特征文本字符串中是否存在关键词;如果存在关键词,则将关键词的出现频率加1,并将有限自动状态机向前移动最大长度字符串对应的长度;以此类推,直至公共前缀到达特征文本字符串的首部。
可选地,该装置还包括:
位置权重确定模块,用于确定关键词类别对应的每个关键词在文本中的位置权重;
权重计算模块,用于基于关键词类别对应的每个关键词的出现频率、每个关键词的预设权重及每个关键词的位置权重,计算关键词类别在文本中的权重。
可选地,该装置还包括:
文本类别确定模块,用于当至少一个关键词类别的权重大于预设阈值时,根据权重最大的关键词类别确定文本的类别;
敏感程度确定模块,用于根据权重最大的关键词类别的权重与预设阈值的大小关系,确定文本的敏感程度;
敏感程度输出模块,用于输出文本的敏感程度。
综上所述,本发明实施例提供的装置,在获取当前检测文本的特征文本字符串后,根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率;由于基于预先建立的有限自动状态机对特征文本字符串进行检测,所以在检测过程中,只需对特征文本字符串进行一次从头至尾的扫描,所以提高了检测效率,加快了检测速度,降低了资源占用率;且对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重,并根据关键词类别的权重确定当前检测文本是否为敏感文本,由于在确定敏感文本时,还需基于关键词的预设权重,所以提高了检测粒度,提高了检测精准率,可净化网络阅读环境。
实施例四
本实施例提供了一种服务器,该服务器可以用于执行上述实施例中提供的敏感文本检测方法。参见图7,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源727,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
具体在本实施例中,经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令:
获取当前检测文本的特征文本字符串;
根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率,有限自动状态机中包括多个关键词;
对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重;
当至少一个关键词类别的权重大于预设阈值时,确定文本为敏感文本。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,服务器的存储器中,还包含用于执行以下操作的指令:
配置关键词列表,关键词列表中至少包括多个关键词、每个关键词的关键词类别及每个关键词的预设权重;
确定关键词列表中全部关键词具有的公共前缀;
将公共前缀作为根节点,建立树状有限自动状态机,树状有限自动状态机的每一个分支中至少包含一个关键词。
在第一种可能的实施方式作为基础而提供的第三种可能的实施方式中,服务器的存储器中,还包含用于执行以下操作的指令:
从特征文本字符串的尾部开始,基于有限自动状态机利用坏字符跳转技术由后向前对特征文本字符串进行检测。
在第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,服务器的存储器中,还包含用于执行以下操作的指令:
步骤a、确定有限自动状态机中最小长度字符串,将有限自动状态机由特征文本字符串的尾部向前移动,直至最小长度字符串的尾字符与特征文本字符串的尾字符对齐;
步骤b、判断公共前缀的首字符是否与公共前缀对齐的特征文本字符串的第一字符相匹配;
步骤c、如果匹配,则从与公共前缀的首字符对齐的字符开始,基于有限自动状态机判断特征文本字符串中是否存在关键词;如果存在关键词,则将关键词的出现频率加1,并将有限自动状态机向前移动最大长度字符串对应的长度;
步骤d、如果不匹配,则判断有限自动状态机中是否存在与第一字符相匹配的字符;如果存在与第一字符相匹配的字符,则将有限自动状态机向前移动,直至有限自动状态机中与第一字符相匹配的字符同第一字符对齐,从与公共前缀的首字符对齐的字符开始,基于有限自动状态机判断特征文本字符串中是否存在关键词;如果存在关键词,则将关键词的出现频率加1,并将有限自动状态机向前移动最大长度字符串对应的长度;
步骤e、以此类推,重复执行步骤b至步骤d,直至公共前缀到达特征文本字符串的首部。
在第一种可能的实施方式作为基础而提供的第五种可能的实施方式中,服务器的存储器中,还包含用于执行以下操作的指令:
确定关键词类别对应的每个关键词在文本中的位置权重;
计算关键词类别在文本中的权重,包括:
基于关键词类别对应的每个关键词的出现频率、每个关键词的预设权重及每个关键词的位置权重,计算关键词类别在文本中的权重。
在第一种可能的实施方式作为基础而提供的第六种可能的实施方式中,服务器的存储器中,还包含用于执行以下操作的指令:
当至少一个关键词类别的权重大于预设阈值时,根据权重最大的关键词类别确定文本的类别;
根据权重最大的关键词类别的权重与预设阈值的大小关系,确定文本的敏感程度;
输出文本的敏感程度。
本实施例提供的服务器,在获取当前检测文本的特征文本字符串后,根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率;由于基于预先建立的有限自动状态机对特征文本字符串进行检测,所以在检测过程中,只需对特征文本字符串进行一次从头至尾的扫描,所以提高了检测效率,加快了检测速度,降低了资源占用率;且对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重,并根据关键词类别的权重确定当前检测文本是否为敏感文本,由于在确定敏感文本时,还需基于关键词的预设权重,所以提高了检测粒度,提高了检测精准率,可净化网络阅读环境。
实施例五
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入服务器中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,一个或者一个以上程序被一个或者一个以上的处理器用来执行敏感文本检测方法,方法包括:
获取当前检测文本的特征文本字符串;
根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率,有限自动状态机中包括多个关键词;
对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重;
当至少一个关键词类别的权重大于预设阈值时,确定文本为敏感文本。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,根据预先建立的有限自动状态机对特征文本字符串进行检测之前,该方法还包括:
配置关键词列表,关键词列表中至少包括多个关键词、每个关键词的关键词类别及每个关键词的预设权重;
确定关键词列表中全部关键词具有的公共前缀;
将公共前缀作为根节点,建立树状有限自动状态机,树状有限自动状态机的每一个分支中至少包含一个关键词。
在第一种可能的实施方式作为基础而提供的第三种可能的实施方式中,根据预先建立的有限自动状态机对特征文本字符串进行检测,包括:
从特征文本字符串的尾部开始,基于有限自动状态机利用坏字符跳转技术由后向前对特征文本字符串进行检测。
在第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,基于有限自动状态机利用坏字符跳转技术由后向前对特征文本字符串进行检测,包括:
步骤a、确定有限自动状态机中最小长度字符串,将有限自动状态机由特征文本字符串的尾部向前移动,直至最小长度字符串的尾字符与特征文本字符串的尾字符对齐;
步骤b、判断公共前缀的首字符是否与公共前缀对齐的特征文本字符串的第一字符相匹配;
步骤c、如果匹配,则从与公共前缀的首字符对齐的字符开始,基于有限自动状态机判断特征文本字符串中是否存在关键词;如果存在关键词,则将关键词的出现频率加1,并将有限自动状态机向前移动最大长度字符串对应的长度;
步骤d、如果不匹配,则判断有限自动状态机中是否存在与第一字符相匹配的字符;如果存在与第一字符相匹配的字符,则将有限自动状态机向前移动,直至有限自动状态机中与第一字符相匹配的字符同第一字符对齐,从与公共前缀的首字符对齐的字符开始,基于有限自动状态机判断特征文本字符串中是否存在关键词;如果存在关键词,则将关键词的出现频率加1,并将有限自动状态机向前移动最大长度字符串对应的长度;
步骤e、以此类推,重复执行步骤b至步骤d,直至公共前缀到达特征文本字符串的首部。
在第一种可能的实施方式作为基础而提供的第五种可能的实施方式中,计算关键词类别在文本中的权重之前,该方法还包括:
确定关键词类别对应的每个关键词在文本中的位置权重;
计算关键词类别在文本中的权重,包括:
基于关键词类别对应的每个关键词的出现频率、每个关键词的预设权重及每个关键词的位置权重,计算关键词类别在文本中的权重。
在第一种可能的实施方式作为基础而提供的第六种可能的实施方式中确定文本为敏感文本之后,该方法还包括:
当至少一个关键词类别的权重大于预设阈值时,根据权重最大的关键词类别确定文本的类别;
根据权重最大的关键词类别的权重与预设阈值的大小关系,确定文本的敏感程度;
输出文本的敏感程度。
本实施例提供的计算机可读存储介质,在获取当前检测文本的特征文本字符串后,根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率;由于基于预先建立的有限自动状态机对特征文本字符串进行检测,所以在检测过程中,只需对特征文本字符串进行一次从头至尾的扫描,所以提高了检测效率,加快了检测速度,降低了资源占用率;且对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重,并根据关键词类别的权重确定当前检测文本是否为敏感文本,由于在确定敏感文本时,还需基于关键词的预设权重,所以提高了检测粒度,提高了检测精准率,可净化网络阅读环境。
需要说明的是:上述实施例提供的敏感文本检测装置在进行敏感文本时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的敏感文本检测装置与敏感文本检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种敏感文本检测方法,其特征在于,所述方法包括:
获取当前检测文本的特征文本字符串;
根据预先建立的有限自动状态机对所述特征文本字符串进行检测,得到每个关键词在所述特征文本字符串中的出现频率,所述有限自动状态机中包括多个关键词;
对于多个关键词类别中的每个关键词类别,基于所述关键词类别对应的每个关键词的出现频率及所述每个关键词的预设权重,计算所述关键词类别在所述文本中的权重;
当至少一个关键词类别的权重大于预设阈值时,确定所述文本为敏感文本。
2.根据权利要求1所述的方法,其特征在于,所述根据预先建立的有限自动状态机对所述特征文本字符串进行检测之前,所述方法还包括:
配置关键词列表,所述关键词列表中至少包括多个关键词、每个关键词的关键词类别及每个关键词的预设权重;
确定所述关键词列表中全部关键词具有的公共前缀;
将所述公共前缀作为根节点,建立树状有限自动状态机,所述树状有限自动状态机的每一个分支中至少包含一个关键词。
3.根据权利要求1所述的方法,其特征在于,所述根据预先建立的有限自动状态机对所述特征文本字符串进行检测,包括:
从所述特征文本字符串的尾部开始,基于所述有限自动状态机利用坏字符跳转技术由后向前对所述特征文本字符串进行检测。
4.根据要求3所述的方法,其特征在于,所述基于所述有限自动状态机利用坏字符跳转技术由后向前对所述特征文本字符串进行检测,包括:
步骤a、确定所述有限自动状态机中最小长度字符串,将所述有限自动状态机由所述特征文本字符串的尾部向前移动,直至所述最小长度字符串的尾字符与所述特征文本字符串的尾字符对齐;
步骤b、判断公共前缀的首字符是否与所述公共前缀对齐的所述特征文本字符串的第一字符相匹配;
步骤c、如果匹配,则从与所述公共前缀的首字符对齐的字符开始,基于所述有限自动状态机判断所述特征文本字符串中是否存在关键词;如果存在关键词,则将所述关键词的出现频率加1,并将所述有限自动状态机向前移动最大长度字符串对应的长度;
步骤d、如果不匹配,则判断所述有限自动状态机中是否存在与所述第一字符相匹配的字符;如果存在与所述第一字符相匹配的字符,则将所述有限自动状态机向前移动,直至所述有限自动状态机中与所述第一字符相匹配的字符同所述第一字符对齐,从与所述公共前缀的首字符对齐的字符开始,基于所述有限自动状态机判断所述特征文本字符串中是否存在关键词;如果存在关键词,则将所述关键词的出现频率加1,并将所述有限自动状态机向前移动所述最大长度字符串对应的长度;
步骤e、以此类推,重复执行所述步骤b至所述步骤d,直至所述公共前缀到达所述特征文本字符串的首部。
5.根据权利要求1所述的方法,其特征在于,所述计算所述关键词类别在所述文本中的权重之前,所述方法还包括:
确定所述关键词类别对应的每个关键词在所述文本中的位置权重;
所述计算所述关键词类别在所述文本中的权重,包括:
基于所述关键词类别对应的每个关键词的出现频率、所述每个关键词的预设权重及所述每个关键词的位置权重,计算所述关键词类别在所述文本中的权重。
6.根据权利要求1所述的方法,其特征在于,所述确定所述文本为敏感文本之后,所述方法还包括:
当至少一个关键词类别的权重大于所述预设阈值时,根据权重最大的关键词类别确定所述文本的类别;
根据所述权重最大的关键词类别的权重与所述预设阈值的大小关系,确定所述文本的敏感程度;
输出所述文本的敏感程度。
7.一种敏感文本检测装置,其特征在于,所述装置包括:
字符串获取模块,用于获取当前检测文本的特征文本字符串;
关键词检测模块,用于根据预先建立的有限自动状态机对所述特征文本字符串进行检测,得到每个关键词在所述特征文本字符串中的出现频率,所述有限自动状态机中包括多个关键词;
权重计算模块,用于对于多个关键词类别中的每个关键词类别,基于所述关键词类别对应的每个关键词的出现频率及所述每个关键词的预设权重,计算所述关键词类别在所述文本中的权重;
敏感文本确定模块,用于当至少一个关键词类别的权重大于预设阈值时,确定所述文本为敏感文本。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
配置模块,用于配置关键词列表,所述关键词列表中至少包括多个关键词、每个关键词的关键词类别及每个关键词的预设权重;
公共前缀确定模块,用于确定所述关键词列表中全部关键词具有的公共前缀;
状态机建立模块,用于将所述公共前缀作为根节点,建立树状有限自动状态机,所述树状有限自动状态机的每一个分支中至少包含一个关键词。
9.根据权利要求7所述的装置,其特征在于,所述关键词检测模块,用于从所述特征文本字符串的尾部开始,基于所述有限自动状态机利用坏字符跳转技术由后向前对所述特征文本字符串进行检测。
10.根据要求9所述的装置,其特征在于,所述关键词检测模块,包括:
确定单元,用于确定所述有限自动状态机中最小长度字符串,将所述有限自动状态机由所述特征文本字符串的尾部向前移动,直至所述最小长度字符串的尾字符与所述特征文本字符串的尾字符对齐;
判断单元,用于判断公共前缀的首字符是否与所述公共前缀对齐的所述特征文本字符串的第一字符相匹配;如果匹配,则从与所述公共前缀的首字符对齐的字符开始,基于所述有限自动状态机判断所述特征文本字符串中是否存在关键词;如果存在关键词,则将所述关键词的出现频率加1,并将所述有限自动状态机向前移动最大长度字符串对应的长度;如果不匹配,则判断所述有限自动状态机中是否存在与所述第一字符相匹配的字符;如果存在与所述第一字符相匹配的字符,则将所述有限自动状态机向前移动,直至所述有限自动状态机中与所述第一字符相匹配的字符同所述第一字符对齐,从与所述公共前缀的首字符对齐的字符开始,基于所述有限自动状态机判断所述特征文本字符串中是否存在关键词;如果存在关键词,则将所述关键词的出现频率加1,并将所述有限自动状态机向前移动所述最大长度字符串对应的长度;以此类推,直至所述公共前缀到达所述特征文本字符串的首部。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
位置权重确定模块,用于确定所述关键词类别对应的每个关键词在所述文本中的位置权重;
所述权重计算模块,用于基于所述关键词类别对应的每个关键词的出现频率、所述每个关键词的预设权重及所述每个关键词的位置权重,计算所述关键词类别在所述文本中的权重。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
文本类别确定模块,用于当至少一个关键词类别的权重大于所述预设阈值时,根据权重最大的关键词类别确定所述文本的类别;
敏感程度确定模块,用于根据所述权重最大的关键词类别的权重与所述预设阈值的大小关系,确定所述文本的敏感程度;
敏感程度输出模块,用于输出所述文本的敏感程度。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410064854.6A CN104866465B (zh) | 2014-02-25 | 2014-02-25 | 敏感文本检测方法及装置 |
PCT/CN2015/072749 WO2015127859A1 (en) | 2014-02-25 | 2015-02-11 | Sensitive text detecting method and apparatus |
US15/110,541 US9710455B2 (en) | 2014-02-25 | 2015-02-11 | Feature text string-based sensitive text detecting method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410064854.6A CN104866465B (zh) | 2014-02-25 | 2014-02-25 | 敏感文本检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104866465A true CN104866465A (zh) | 2015-08-26 |
CN104866465B CN104866465B (zh) | 2017-11-03 |
Family
ID=53912305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410064854.6A Active CN104866465B (zh) | 2014-02-25 | 2014-02-25 | 敏感文本检测方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9710455B2 (zh) |
CN (1) | CN104866465B (zh) |
WO (1) | WO2015127859A1 (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649262A (zh) * | 2016-10-31 | 2017-05-10 | 复旦大学 | 一种社交媒体中企业硬件设施敏感信息防护方法 |
CN107229759A (zh) * | 2017-07-27 | 2017-10-03 | 深圳市乐宜科技有限公司 | 一种字符串模式匹配的方法 |
CN107861950A (zh) * | 2017-11-28 | 2018-03-30 | 北京潘达互娱科技有限公司 | 异常文本的检测方法和装置 |
CN107870945A (zh) * | 2016-09-28 | 2018-04-03 | 腾讯科技(深圳)有限公司 | 内容分级方法和装置 |
CN108519970A (zh) * | 2018-02-06 | 2018-09-11 | 平安科技(深圳)有限公司 | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 |
CN109033224A (zh) * | 2018-06-29 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 一种风险文本识别方法和装置 |
CN109637520A (zh) * | 2018-10-16 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于语音分析的敏感内容识别方法、装置、终端及介质 |
CN110110069A (zh) * | 2019-04-04 | 2019-08-09 | 上海易点时空网络有限公司 | 关键词过滤方法及装置 |
CN110134785A (zh) * | 2019-04-15 | 2019-08-16 | 平安普惠企业管理有限公司 | 论坛文章的管理方法、装置、存储介质及设备 |
CN110674255A (zh) * | 2019-09-24 | 2020-01-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 文本内容审核方法及装置 |
CN111695835A (zh) * | 2020-06-23 | 2020-09-22 | 上海用正医药科技有限公司 | 用于评估临床试验风险的方法 |
CN111695131A (zh) * | 2020-06-23 | 2020-09-22 | 上海用正医药科技有限公司 | 用于临床试验的文档管理方法及系统 |
CN111916161A (zh) * | 2020-06-23 | 2020-11-10 | 上海用正医药科技有限公司 | 用于临床试验过程中多数据源采集转换的方法及装置 |
CN112801488A (zh) * | 2020-06-23 | 2021-05-14 | 上海用正医药科技有限公司 | 临床试验质量实时管控优化方法和系统 |
CN112908364A (zh) * | 2021-01-14 | 2021-06-04 | 深圳市云之音科技有限公司 | 一种电话号码状态判断方法及系统 |
CN114648027A (zh) * | 2022-05-23 | 2022-06-21 | 每日互动股份有限公司 | 一种文本信息的处理方法、装置、计算机设备及存储介质 |
CN115762053A (zh) * | 2022-11-14 | 2023-03-07 | 浙江力石科技股份有限公司 | 一种智慧景区人机交互式应急报警方法、系统及智能终端 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6495850B2 (ja) * | 2016-03-14 | 2019-04-03 | 株式会社東芝 | 情報処理装置、情報処理方法、プログラムおよび認識システム |
US11334800B2 (en) * | 2016-05-12 | 2022-05-17 | International Business Machines Corporation | Altering input search terms |
CN107133201B (zh) * | 2017-04-21 | 2021-03-16 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于文本编码识别的热点信息采集方法和装置 |
CN109002423A (zh) * | 2017-06-06 | 2018-12-14 | 北大方正集团有限公司 | 文本搜索方法及装置 |
US10504511B2 (en) * | 2017-07-24 | 2019-12-10 | Midea Group Co., Ltd. | Customizable wake-up voice commands |
CN107562720B (zh) * | 2017-08-08 | 2020-09-25 | 国网浙江桐庐县供电公司 | 一种电力信息网络安全联动防御的告警数据匹配方法 |
CN109657134A (zh) * | 2018-11-06 | 2019-04-19 | 北京奇虎科技有限公司 | 一种数据过滤方法及装置 |
CN111597310B (zh) * | 2020-05-26 | 2023-10-20 | 成都卫士通信息产业股份有限公司 | 一种敏感内容检测方法、装置、设备、介质 |
CN112307167A (zh) * | 2020-10-30 | 2021-02-02 | 广州华多网络科技有限公司 | 文本切句方法、装置、计算机设备和存储介质 |
CN113486656B (zh) * | 2021-07-16 | 2023-11-10 | 支付宝(杭州)信息技术有限公司 | 一种语料生成方法及装置 |
US20230039689A1 (en) * | 2021-08-05 | 2023-02-09 | Ebay Inc. | Automatic Synonyms, Abbreviations, and Acronyms Detection |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6990496B1 (en) * | 2000-07-26 | 2006-01-24 | Koninklijke Philips Electronics N.V. | System and method for automated classification of text by time slicing |
CN101158948A (zh) * | 2006-10-08 | 2008-04-09 | 中国科学院软件研究所 | 文本内容过滤方法和系统 |
CN101901268A (zh) * | 2010-08-02 | 2010-12-01 | 华为技术有限公司 | 一种规则匹配方法及装置 |
CN102521357A (zh) * | 2011-12-13 | 2012-06-27 | 曙光信息产业(北京)有限公司 | 一种利用自动机实现文本精确匹配的系统和方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6085201A (en) | 1996-06-28 | 2000-07-04 | Intel Corporation | Context-sensitive template engine |
US8914361B2 (en) * | 1999-09-22 | 2014-12-16 | Google Inc. | Methods and systems for determining a meaning of a document to match the document to content |
AUPR208000A0 (en) * | 2000-12-15 | 2001-01-11 | 80-20 Software Pty Limited | Method of document searching |
US6886010B2 (en) * | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
US7493322B2 (en) * | 2003-10-15 | 2009-02-17 | Xerox Corporation | System and method for computing a measure of similarity between documents |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
CN1614607B (zh) | 2004-11-25 | 2011-08-31 | 中国科学院计算技术研究所 | 垃圾邮件过滤的方法和系统 |
US7860871B2 (en) * | 2005-09-14 | 2010-12-28 | Jumptap, Inc. | User history influenced search results |
US20070185868A1 (en) * | 2006-02-08 | 2007-08-09 | Roth Mary A | Method and apparatus for semantic search of schema repositories |
CN101477544B (zh) * | 2009-01-12 | 2011-09-21 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
US8849649B2 (en) * | 2009-12-24 | 2014-09-30 | Metavana, Inc. | System and method for determining sentiment expressed in documents |
US8768934B2 (en) * | 2010-06-15 | 2014-07-01 | Chacha Search, Inc | Method and system of providing verified content |
CN101976253B (zh) | 2010-10-27 | 2013-03-06 | 重庆邮电大学 | 一种中文变异文本匹配识别方法 |
CN102033964B (zh) * | 2011-01-13 | 2012-05-09 | 北京邮电大学 | 基于块划分及位置权重的文本分类方法 |
-
2014
- 2014-02-25 CN CN201410064854.6A patent/CN104866465B/zh active Active
-
2015
- 2015-02-11 US US15/110,541 patent/US9710455B2/en active Active
- 2015-02-11 WO PCT/CN2015/072749 patent/WO2015127859A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6990496B1 (en) * | 2000-07-26 | 2006-01-24 | Koninklijke Philips Electronics N.V. | System and method for automated classification of text by time slicing |
CN101158948A (zh) * | 2006-10-08 | 2008-04-09 | 中国科学院软件研究所 | 文本内容过滤方法和系统 |
CN101901268A (zh) * | 2010-08-02 | 2010-12-01 | 华为技术有限公司 | 一种规则匹配方法及装置 |
CN102521357A (zh) * | 2011-12-13 | 2012-06-27 | 曙光信息产业(北京)有限公司 | 一种利用自动机实现文本精确匹配的系统和方法 |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107870945A (zh) * | 2016-09-28 | 2018-04-03 | 腾讯科技(深圳)有限公司 | 内容分级方法和装置 |
CN106649262A (zh) * | 2016-10-31 | 2017-05-10 | 复旦大学 | 一种社交媒体中企业硬件设施敏感信息防护方法 |
CN106649262B (zh) * | 2016-10-31 | 2020-07-07 | 复旦大学 | 一种社交媒体中企业硬件设施敏感信息防护方法 |
CN107229759A (zh) * | 2017-07-27 | 2017-10-03 | 深圳市乐宜科技有限公司 | 一种字符串模式匹配的方法 |
CN107229759B (zh) * | 2017-07-27 | 2020-08-11 | 深圳市乐宜科技有限公司 | 一种字符串模式匹配的方法 |
CN107861950A (zh) * | 2017-11-28 | 2018-03-30 | 北京潘达互娱科技有限公司 | 异常文本的检测方法和装置 |
CN108519970B (zh) * | 2018-02-06 | 2021-08-31 | 平安科技(深圳)有限公司 | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 |
CN108519970A (zh) * | 2018-02-06 | 2018-09-11 | 平安科技(深圳)有限公司 | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 |
CN109033224A (zh) * | 2018-06-29 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 一种风险文本识别方法和装置 |
CN109033224B (zh) * | 2018-06-29 | 2022-02-01 | 创新先进技术有限公司 | 一种风险文本识别方法和装置 |
CN109637520A (zh) * | 2018-10-16 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于语音分析的敏感内容识别方法、装置、终端及介质 |
CN109637520B (zh) * | 2018-10-16 | 2023-08-22 | 平安科技(深圳)有限公司 | 基于语音分析的敏感内容识别方法、装置、终端及介质 |
CN110110069A (zh) * | 2019-04-04 | 2019-08-09 | 上海易点时空网络有限公司 | 关键词过滤方法及装置 |
CN110134785A (zh) * | 2019-04-15 | 2019-08-16 | 平安普惠企业管理有限公司 | 论坛文章的管理方法、装置、存储介质及设备 |
CN110674255A (zh) * | 2019-09-24 | 2020-01-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 文本内容审核方法及装置 |
CN111695835B (zh) * | 2020-06-23 | 2021-04-16 | 上海用正医药科技有限公司 | 用于评估临床试验风险的方法 |
CN111916161A (zh) * | 2020-06-23 | 2020-11-10 | 上海用正医药科技有限公司 | 用于临床试验过程中多数据源采集转换的方法及装置 |
CN111695131A (zh) * | 2020-06-23 | 2020-09-22 | 上海用正医药科技有限公司 | 用于临床试验的文档管理方法及系统 |
CN112801488A (zh) * | 2020-06-23 | 2021-05-14 | 上海用正医药科技有限公司 | 临床试验质量实时管控优化方法和系统 |
CN113159502B (zh) * | 2020-06-23 | 2024-04-05 | 上海用正医药科技有限公司 | 用于评估临床试验风险的方法 |
CN113159502A (zh) * | 2020-06-23 | 2021-07-23 | 上海用正医药科技有限公司 | 用于评估临床试验风险的方法 |
CN111695835A (zh) * | 2020-06-23 | 2020-09-22 | 上海用正医药科技有限公司 | 用于评估临床试验风险的方法 |
CN111695131B (zh) * | 2020-06-23 | 2021-04-02 | 上海用正医药科技有限公司 | 用于临床试验的文档管理方法及系统 |
CN112801488B (zh) * | 2020-06-23 | 2024-02-23 | 上海用正医药科技有限公司 | 临床试验质量实时管控优化方法和系统 |
CN111916161B (zh) * | 2020-06-23 | 2021-04-16 | 上海用正医药科技有限公司 | 用于临床试验过程中多数据源采集转换的方法及装置 |
CN112908364B (zh) * | 2021-01-14 | 2023-11-17 | 深圳市云之音科技有限公司 | 一种电话号码状态判断方法及系统 |
CN112908364A (zh) * | 2021-01-14 | 2021-06-04 | 深圳市云之音科技有限公司 | 一种电话号码状态判断方法及系统 |
CN114648027A (zh) * | 2022-05-23 | 2022-06-21 | 每日互动股份有限公司 | 一种文本信息的处理方法、装置、计算机设备及存储介质 |
CN115762053A (zh) * | 2022-11-14 | 2023-03-07 | 浙江力石科技股份有限公司 | 一种智慧景区人机交互式应急报警方法、系统及智能终端 |
Also Published As
Publication number | Publication date |
---|---|
US9710455B2 (en) | 2017-07-18 |
CN104866465B (zh) | 2017-11-03 |
US20160350282A1 (en) | 2016-12-01 |
WO2015127859A1 (en) | 2015-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104866465A (zh) | 敏感文本检测方法及装置 | |
JP7058304B2 (ja) | 異種グラフにおけるノード表現の生成方法、装置及び電子機器 | |
CN105224606B (zh) | 一种用户标识的处理方法及装置 | |
KR20210152924A (ko) | 엔티티 연결 방법, 장치, 기기 및 저장 매체 | |
WO2020108063A1 (zh) | 特征词的确定方法、装置和服务器 | |
WO2022227388A1 (zh) | 日志异常检测模型训练方法、装置及设备 | |
JP2019518257A (ja) | 状態制御方法及び装置 | |
AU2017404119A9 (en) | Random forest model training method, electronic apparatus and storage medium | |
CN112506759B (zh) | 伺服系统控制软件的自动化测试方法、装置及存储介质 | |
CN108090043A (zh) | 基于人工智能的纠错举报处理方法、装置及可读介质 | |
JP2021111334A (ja) | 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器 | |
CN113342500B (zh) | 任务执行方法、装置、设备及存储介质 | |
CN104516921A (zh) | 自动回复方法及装置 | |
CN107179933A (zh) | 动态语言变量识别方法、装置、翻译方法及软件移植方法 | |
WO2023045184A1 (zh) | 一种文本类别识别方法、装置、计算机设备及介质 | |
CN116597473B (zh) | 手势识别方法、装置、设备及存储介质 | |
CN106027674A (zh) | 一种互联网与智能制造相结合的架构系统 | |
CN108460068A (zh) | 报表导入导出的方法、装置、存储介质及终端 | |
CN109408658A (zh) | 表情图片提示方法、装置、计算机设备及存储介质 | |
CN106776329A (zh) | 储能变流器的调试方法和调试设备 | |
CN109657317A (zh) | 一种cpld管脚分配的方法、系统及设备 | |
CN105404529A (zh) | 刷机用操作系统弹窗的弹出方法、装置及系统 | |
CN109492759B (zh) | 神经网络模型预测方法、装置和终端 | |
CN114756211B (zh) | 模型训练方法、装置、电子设备和存储介质 | |
CN105279157A (zh) | 一种正则查询的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190805 Address after: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403 Co-patentee after: Tencent cloud computing (Beijing) limited liability company Patentee after: Tencent Technology (Shenzhen) Co., Ltd. Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403 Patentee before: Tencent Technology (Shenzhen) Co., Ltd. |
|
TR01 | Transfer of patent right |