CN112559672A - 信息检测方法、电子设备及计算机存储介质 - Google Patents
信息检测方法、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN112559672A CN112559672A CN202110195961.2A CN202110195961A CN112559672A CN 112559672 A CN112559672 A CN 112559672A CN 202110195961 A CN202110195961 A CN 202110195961A CN 112559672 A CN112559672 A CN 112559672A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- data
- information
- sensitive
- sensitive word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 121
- 230000014509 gene expression Effects 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims description 18
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 8
- 244000144730 Amygdalus persica Species 0.000 description 7
- 235000006040 Prunus persica var persica Nutrition 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请涉及通信技术领域,提供一种信息检测方法、电子设备及计算机存储介质,所述信息检测方法包括:获取待检测信息中表情符号对应的文字信息;根据所述文字信息对应的中文描述,替换所述待检测信息中的所述表情符号,得到检测信息;获取所述检测信息对应的拼音,得到拼音数据;将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词;当所述拼音数据中不存在敏感词时,获取所述拼音数据对应的拼音首字母;根据所述拼音首字母生成缩写数据;将所述缩写数据与所述敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词,根据判断结果,处理所述待检测信息。本申请提供的方法提高了敏感信息的检测效率。
Description
技术领域
本申请涉及通信技术领域,尤其涉及一种信息检测方法、电子设备及计算机存储介质。
背景技术
表情符号就是一种独特的网络语言,用来生动呈现和描摹日常面对面交际中的非言语信息,携带语义信息,如emoji表情。由于emoji的种类丰富,通过emoji与文字的组合可以表达一定的语义信息,增加了沟通表达的趣味性,越来越多的人使用emoji来代替语言文字本身。部分网络用户利用emoji本身携带语义信息的特性,文字将emoji代替部分语言文字,从而隐藏一些敏感信息,这些敏感信息可能涉及恐怖、暴力、色情、赌博、负面社会舆论等。目前,网络平台通常使用敏感词库的匹配方式对用户发送的内容进行敏感信息检测,由于emoji本身是符合规定的,所以使用emoji代替部分文字发送敏感信息的情况就难以被检测出。如果依靠人工进行敏感信息检测,又需要消耗大量人力成本且检测耗时长,导致检测的效率较低。
发明内容
有鉴于此,本申请的主要目的在于提供一种信息检测方法、电子设备及计算机存储介质,旨在解决如何提高敏感信息检测的效率。
本申请的第一方面提供一种信息检测方法,所述信息检测方法包括:
获取待检测信息中表情符号对应的文字信息;
根据所述文字信息对应的中文描述,替换所述待检测信息中的所述表情符号,得到检测信息;
获取所述检测信息对应的拼音,得到拼音数据;
将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词;
当所述拼音数据中不存在敏感词时,获取所述拼音数据对应的拼音首字母;
根据所述拼音首字母生成缩写数据;
将所述缩写数据与所述敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词;
根据判断结果,处理所述待检测信息。
根据本申请的一个可选的实施例,所述获取所述检测信息对应的拼音,得到拼音数据包括:
检测所述检测信息中是否存在预设字符;
当所述检测信息中存在所述预设字符时,对所述检测信息中的所述预设字符进行剔除处理;
获取剔除处理后的检测信息对应的拼音,得到拼音数据。
根据本申请的一个可选的实施例,所述将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词包括:
按照预设的拆分规则对所述拼音数据进行拆分,得到拼音组合;
将所述拼音组合与预设的敏感词数据库进行数据匹配,判断所述拼音组合中是否存在敏感词。
根据本申请的一个可选的实施例,将所述拼音组合与预设的敏感词数据库进行数据匹配,判断所述拼音组合中是否存在敏感词包括:
判断所述拼音组合中是否有拼音与所述敏感词数据库中敏感词的拼音相同;
当所述拼音组合中有拼音与所述敏感词数据库中敏感词的拼音相同,确定所述拼音组合中存在敏感词;
当所述拼音组合中没有拼音与所述敏感词数据库中敏感词的拼音相同,计算所述拼音组合中的拼音与所述敏感词数据库中敏感词的拼音的相似度;
当所述相似度大于预设相似阈值时,确定所述拼音组合中存在敏感词;
当所述相似度小于或等于所述预设相似阈值时,确定所述拼音组合中不存在敏感词。
根据本申请的一个可选的实施例,所述将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词包括:
将所述拼音数据中首字符拼音与预设的敏感词数据库中的索引拼音节点进行比较,判断是否存在与所述首字符拼音相同的索引拼音节点;
当存在与所述首字符拼音相同的索引拼音节点时,将所述检测信息的首字符拼音之后的剩余字符拼音按照顺序依次与所述索引拼音节点对应的敏感拼音节点进行比较;
计算所述剩余字符拼音与所述敏感拼音节点的匹配度,当所述匹配度大于匹配度阈值时,判断所述拼音数据中存在敏感词;
当不存在与所述首字符拼音相同的索引拼音节点时,将所述检测信息的首字符拼音之后的剩余字符拼音按照顺序依次与所述敏感词数据库中的索引拼音节点进行比较,判断是否存在与所述剩余字符拼音相同的索引拼音节点;
当存在与所述剩余字符拼音相同的索引拼音节点时,将所述剩余字符拼音之后的其它字符拼音按照顺序依次与所述索引拼音节点对应的敏感拼音节点进行比较;
计算所述其它字符拼音与所述敏感拼音节点的匹配度,当所述匹配度大于匹配度阈值时,判断所述拼音数据中存在敏感词。
根据本申请的一个可选的实施例,所述将所述缩写数据与预设的敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词包括:
按照预设的拆分规则对所述缩写数据进行拆分,得到缩写组合;
将所述缩写组合与预设的敏感词数据库进行数据匹配,判断所述缩写组合中是否存在敏感词。
根据本申请的一个可选的实施例,所述方法还包括:
当所述缩写数据中不存在敏感词时,获取所述待检测信息中除所述表情符号外的信息对应的拼音,得到第一数据;
确定所述表情符号对应的英文描述,并根据所述英文描述得到第二数据;
将所述第一数据和所述第二数据进行拼接,得到混合数据;
将所述混合数据与所述预设敏感词数据库进行数据匹配,判断所述混合数据中是否存在敏感词。
根据本申请的一个可选的实施例,所述敏感词数据库的生成过程包括:
获取敏感词和所述敏感词对应的描述信息,所述描述信息包括拼音信息、缩写信息和/或中英混合信息;
生成所述敏感词和所述描述信息的信息映射表,所述信息映射表包括所述敏感词和所述描述信息之间的映射关系;
根据所述敏感词、所述描述信息和所述信息映射表,生成敏感词数据库。
本申请的第二方面提供一种电子设备,所述电子设备包括:
存储器,用于存储至少一个指令;
处理器,用于执行所述至少一个指令时实现如上所述的信息检测方法。
本申请的第三方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被处理器执行时实现如上所述的信息检测方法。
由以上技术方案可以看出,本申请通过获取待检测信息中表情符号对应的文字信息,并根据所述文字信息对应的中文描述,替换所述待检测信息中的所述表情符号,得到检测信息,接着获取所述检测信息对应的拼音,得到拼音数据,并将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词;当所述拼音数据中不存在敏感词时,获取所述拼音数据对应的拼音首字母;根据所述拼音首字母生成缩写数据;将所述缩写数据与所述敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词,并根据判断结果,处理所述待检测信息,通过将待检测信息中表情符号转换为中文,并将转换后的待检测信息进行拼音获取处理得到拼音数据,避免因表情符号影响敏感信息检测的情况发生,提高了对用户利用表情符号的语义信息传递敏感信息等事件的检测准确率,提高了敏感信息检测的效率。同时在所述拼音数据不存在敏感词时,获取所述拼音数据对应的拼音首字母生成缩写数据,并判断所述缩写数据中是否存在敏感词,进一步提高了敏感信息检测的准确率。
附图说明
图1为本申请实施例的一种信息检测方法的场景示意图;
图2为本申请实施例的一种信息检测方法的示意流程图;
图3为本申请实施例的信息检测方法的一种应用示意图;
图4为本申请实施例的信息检测方法的另一种应用示意图;
图5为本申请实施例提供的一种电子设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的示意流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种信息检测方法、电子设备及计算机可读存储介质。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
本申请实施例提供了一种信息检测方法,该信息检测方法可应用于终端设备或服务器中,该终端设备可以手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备,该服务器可以为单台的服务器,也可以为由多台服务器组成的服务器集群。下面以该信息检测方法应用于服务器为例,进行说明。
图1为本申请的一个信息检测方法的应用示意图,如图1所示,服务器101获取终端102准备发送/发表的数据信息,所述数据信息中包括表情符号,并将所述数据信息作为待检测信息,服务器101获取待检测信息中表情符号对应的文字信息,并根据所述文字信息对应的中文描述,替换所述待检测信息中的所述表情符号,得到检测信息,接着获取所述检测信息对应的拼音,得到拼音数据,并将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词;当所述拼音数据中不存在敏感词时,获取所述拼音数据对应的拼音首字母;根据所述拼音首字母生成缩写数据;将所述缩写数据与所述敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词,并根据判断结果,处理所述待检测信息。
通过将待检测信息中表情符号转换为中文,并将转换后的待检测信息进行拼音获取处理得到拼音数据,避免因表情符号影响敏感信息检测的情况发生,提高了对用户利用表情符号的语义信息传递敏感信息等事件的检测准确率,提高了敏感信息检测的效率。同时在所述拼音数据不存在敏感词时,获取所述拼音数据对应的拼音首字母生成缩写数据,并判断所述缩写数据中是否存在敏感词,进一步提高了敏感信息检测的准确率。
示例性的,终端102可以包括手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
示例性的,所述表情符号可以包括emoji表情。一些通用的emoji表情配置有统一码Unicode,由于统一码Unicode具有跨平台的通用性,大多数终端的输入法以及应用程序中都自带通用的emoji表情库,用户在聊天或者编辑信息时,可以很方便地使用emoji表情来表达自我情绪、以及代替文字来传递一些信息。
请参阅图2,图2是本申请实施例提供的一种信息检测方法的示意流程图。如图2所示,所述信息检测方法具体包括步骤S21至S28,根据不同的需求,该示意流程图中步骤的顺序可以改变,某些可以省略。
步骤S21、获取待检测信息中表情符号对应的文字信息。
其中,所述待检测信息可以是终端用户向其他终端用户发送的包含表情符号的文字信息,也可以是终端用户准备在论坛/博客等社交平台发表的包含表情文字信息。
不同的表情符号对于不同的文字信息,所述表情符号包括emoji。示例性的,可以根据所述待检测信息中表情符号对应的标识,如Unicode码,获取所述表情符号对应的文字信息。
步骤S22、根据所述文字信息对应的中文描述,替换所述待检测信息中的所述表情符号,得到检测信息。
例如,图3为本申请实施例的信息检测方法的一种应用示意图。如图3所示,当用户B向用户A发送信息“快加我,有[门]路”时,触发本实施例所述的信息检测方法,此时该条信息在用户A的用户界面上是无法显示的,当所述信息被放行后,用户A的用户界面上显示所述信息。所述待检测信息中包括一表情符号[门],根据图3中表情符号[门]对应的文字信息确定所述表情符合对应的中文描述为“门”。接着根据所述中文描述替换所述待检测中的所述表情符号,即将所述表情符号替换为所述表情符合对应的中文描述“门”,得到检测信息,如“快加我,有门路”。
步骤S23、获取所述检测信息对应的拼音,得到拼音数据。
对所述检测信息中的每个中文按照顺序依次进行拼音获取处理,得到所述检测信息对应的拼音数据。例如,检测信息为“快加我,有门路”,将所述检测信息进行拼音获取处理,得到的拼音数据为“kuaijia wo you men lu”。
在一实施方式中,所述获取所述检测信息对应的拼音,得到拼音数据包括:
检测所述检测信息中是否存在预设字符;
当所述检测信息中存在所述预设字符时,对所述检测信息中的所述预设字符进行剔除处理;
获取剔除处理后的检测信息对应的拼音,得到拼音数据。
示例性的,可根据实际需求预设字符,如将标点符号作为预设字符。当所述检测信息中包括预设字符时,对所述检测信息中的所述预设字符进行剔除处理。
例如,当检测信息“快加我,有门路”中存在预设字符“,”时,对所述检测信息中的所述预设字符进行剔除处理,得到“快加我有门路”,并对“快加我有门路”进行拼音获取处理,得到拼音数据“kuaijia wo you men lu”。
通过预设字符并对所述检测信息中的预设字符进行剔除处理,可以避免字符对拼音获取处理过程造成干扰,影响获取的结果,提高了对检测信息进行拼音获取处理的效率,从而提高了信息检测的效率。
步骤S24、将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词。
将所述拼音数据与预设的敏感词数据库进行数据匹配,当所述敏感词数据库中存在与所述拼音数据中相同的拼音时,确定所述拼音数据中存在敏感词。
其中,敏感词数据库中包括敏感词和敏感词对应的拼音。
在一实施方式中,所述敏感词数据库的生成过程包括:
获取敏感词和所述敏感词对应的描述信息,所述描述信息包括拼音信息、缩写信息和/或中英混合信息;
生成所述敏感词和所述描述信息的信息映射表,所述信息映射表包括所述敏感词和所述描述信息之间的映射关系;
根据所述敏感词、所述描述信息和所述信息映射表,生成敏感词数据库。
其中,所述拼音信息包括拼音。所述缩写信息包括一些具有特殊含义的敏感词缩写,如“NMSL”、“NTM”、“MDZZ”等。
所述中英混合信息为中文与英文共同表述的信息,所述中文可以包括汉字表述或拼音表述,例如“你想peach”和“nixiangpeach”。
在一实施方式中,生成所述敏感词数据库后,还可以包括:根据所述信息映射表建立所述敏感词数据库对应的索引。其中,所述索引包括索引拼音节点和/或索引英文节点。
建立所述敏感词和所述描述信息的信息映射表,加快了从所述敏感词数据库中获取敏感词和/或描述信息的速率,加快了数据匹配的速率,从而加快了信息检测的速率。
在一实施方式中,所述将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词包括:
按照预设的拆分规则对所述拼音数据进行拆分,得到拼音组合;
将所述拼音组合与预设的敏感词数据库进行数据匹配,判断所述拼音组合中是否存在敏感词。
所述拆分规则可根据实际需求进行自定义设置。例如,可以按照固定的拼音数量进行拆分。例如,按照固定拼音数量3个,对拼音数据“kuaijia wo you men lu”进行拆分,得到两个拼音组合“kuaijia wo”和“you men lu”。或者根据固定拼音数据为3设置滑动窗口,利用所述滑动窗口对拼音数据“kuaijia wo you men lu”进行拆分,得到四个拼音组合“kuaijia wo”、“jia wo you”、“wo you men”和“you men lu”。当然,所述固定的拼音数量也可以为2或者其它数字,以上仅作举例说明,不对所述拆分规则做任何限制。
通过对所述拼音数据进行拆分处理,得到多个拼音组合,可以分布式对所述拼音组合进行数据匹配,加快信息检测的速率。
在一实施方式中,所述将所述拼音组合与预设的敏感词数据库进行数据匹配,判断所述拼音组合中是否存在敏感词包括:
判断所述拼音组合中是否有拼音与所述敏感词数据库中敏感词的拼音相同;
当所述拼音组合中有拼音与所述敏感词数据库中敏感词的拼音相同,确定所述拼音组合中存在敏感词;
当所述拼音组合中没有拼音与所述敏感词数据库中敏感词的拼音相同,计算所述拼音组合中的拼音与所述敏感词数据库中敏感词的拼音的相似度;
当所述相似度大于预设相似阈值时,确定所述拼音组合中存在敏感词;
当所述相似度小于或等于所述预设相似阈值时,确定所述拼音组合中不存在敏感词。
其中,所述相似度可以根据预设的相似度计算规则进行计算,所述相似度计算规则可以根据实际情况进行设置。
示例性的,将所述拼音组合中首个拼音与预设的敏感词数据库中的索引拼音节点进行比较,判断是否存在与所述首个拼音相同的索引拼音节点;
当存在与所述首个拼音相同的索引拼音节点时,将所述首个拼音之后的剩余字符拼音按照顺序依次与所述索引拼音节点对应的敏感拼音节点进行比较;
计算所述剩余字符拼音与所述敏感拼音节点的相似度,当所述相似度大于预设相似阈值时,确定所述拼音组合中存在敏感词;当所述相似度小于或等于所述预设相似阈值时,确定所述拼音组合中不存在敏感词。
当不存在与所述首个拼音相同的索引拼音节点时,将所述检测信息的首个拼音之后的剩余拼音按照顺序依次与所述敏感词数据库中的索引拼音节点进行比较,判断是否存在与所述剩余字符拼音相同的索引拼音节点。
当存在与所述剩余拼音相同的索引拼音节点时,将所述剩余拼音之后的其它拼音按照顺序依次与所述索引拼音节点对应的敏感拼音节点进行比较;计算所述其它拼音与所述敏感拼音节点的相似度,当所述相似度大于预设相似阈值时,确定所述拼音组合中存在敏感词;当所述相似度小于或等于所述预设相似阈值时,确定所述拼音组合中不存在敏感词。
当不存在与所述剩余拼音相同的索引拼音节点时,确定所述拼音组合中不存在敏感词。
在一实施方式中,所述将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词包括:
将所述拼音数据中首字符拼音与预设的敏感词数据库中的索引拼音节点进行比较,判断是否存在与所述首字符拼音相同的索引拼音节点;
当存在与所述首字符拼音相同的索引拼音节点时,将所述检测信息的首字符拼音之后的剩余字符拼音按照顺序依次与所述索引拼音节点对应的敏感拼音节点进行比较;
计算所述剩余字符拼音与所述敏感拼音节点的匹配度,当所述匹配度大于匹配度阈值时,判断所述拼音数据中存在敏感词;
当不存在与所述首字符拼音相同的索引拼音节点时,将所述检测信息的首字符拼音之后的剩余字符拼音按照顺序依次与所述敏感词数据库中的索引拼音节点进行比较,判断是否存在与所述剩余字符拼音相同的索引拼音节点;
当存在与所述剩余字符拼音相同的索引拼音节点时,将所述剩余字符拼音之后的其它字符拼音按照顺序依次与所述索引拼音节点对应的敏感拼音节点进行比较;
计算所述其它字符拼音与所述敏感拼音节点的匹配度,当所述匹配度大于匹配度阈值时,判断所述拼音数据中存在敏感词。
示例性的,可以预设拆分阈值。当所述拼音数据的数据大小小于所述预设拆分阈值时,可以不对所述拼音数据进行拆分,直接将所述拼音数据与预设的敏感词数据库进行数据匹配。
步骤S25、当所述拼音数据中不存在敏感词时,获取所述拼音数据对应的拼音首字母。
通过对所述拼音数据进行敏感词识别,确定所述拼音数据中不存在敏感词时,获取所述拼音数据中每个拼音对应的拼音首字母。例如,拼音数据“nitemo qizhale”中不存在敏感词,则获取所述拼音数据中每个拼音对应的拼音首字母“n”、“t”、“m”、“q”、“z”和“l”。
步骤S26、根据所述拼音首字母生成缩写数据。
将所述拼音首字母生成缩写数据,例如根据拼音首字母“n”、“t”、“m”、“q”、“z”和“l”生成缩写数据“n t m q z l”。
步骤S27、将所述缩写数据与所述敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词。
将所述缩写数据与所述敏感词数据库进行数据匹配。例如,将所述缩写数据与所述敏感词数据库中存储的缩写信息进行匹配,判断所述缩写数据中是否存在敏感词。
示例性的,所述敏感词数据库中存储了缩写信息“ntm”,将所述缩写数据与所述敏感词数据库进行数据匹配后,确定所述缩写数据中存在敏感词。
在一实施方式中,所述将所述缩写数据与预设的敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词包括:
按照预设的拆分规则对所述缩写数据进行拆分,得到缩写组合;
将所述缩写组合与预设的敏感词数据库进行数据匹配,判断所述缩写组合中是否存在敏感词。
所述拆分规则可根据实际需求进行自定义设置。例如,可以按照固定的字母数量进行拆分。例如,按照固定字母数量3个,对缩写数据“n t m q z l”进行拆分,得到两个拼音组合“n t m”和“q z l”。或者根据固定拼音数据为3设置滑动窗口,利用所述滑动窗口对拼音数据“n t m q z l”进行拆分,得到四个拼音组合“n t m”、“t m q”、“m q z”和“q zl”。当然,所述固定的拼音数量也可以为2或者其它数字,以上仅作举例说明,不对所述拆分规则做任何限制。
通过对所述缩写数据进行拆分处理,得到多个缩写组合,可以分布式对所述缩写组合进行数据匹配,加快信息检测的速率。
在一实施方式中,所述方法还包括:
当所述缩写数据中不存在敏感词时,获取所述待检测信息中除所述表情符号外的信息对应的拼音,得到第一数据;
确定所述表情符号对应的英文描述,并根据所述英文描述得到第二数据;
将所述第一数据和所述第二数据进行拼接,得到混合数据;
将所述混合数据与所述预设敏感词数据库进行数据匹配,判断所述混合数据中是否存在敏感词。
例如,图4是本申请实施例的信息检测方法的另一种应用示意图,获取所述待检测信息中除所述表情符号外的信息对应的拼音,得到第一数据,即对信息“别做梦你想”进行拼音获取处理,得到第一数据“biezuo meng nixiang”。
例如,图4为本申请实施例的信息检测方法的另一种应用示意图。如图4所示,当用户B向用户A发送信息“别做梦,你想[桃子]”时,触发本实施例所述的信息检测方法,此时该条信息在用户A的用户界面上是无法显示的,当所述信息被放行后,用户A的用户界面上显示所述信息。所述信息中包括一表情符号[桃子],获取所述信息中除所述表情符号外的信息对应的拼音,得到第一数据,即对信息“别做梦你想”进行拼音获取处理,得到第一数据“biezuo meng nixiang”。示例性的,可以根据表情符号对应的文本信息,确定所述表情符号对应的英文描述。其中,可以根据所述表情符号对应的标识获取所述文本信息,如根据Unicode码获取所述文本信息。
示例性的,可以将所述英文描述作为第二数据,例如,图4中表情符号[桃子]对应的英文描述为“peach”,即所述第二数据为“peach”。将所述第一数据“biezuo mengnixiang”和所述第二数据“peach”进行拼接,得到混合数据“biezuo meng nixiangpeach”。
将所述混合数据“biezuo meng nixiangpeach”与所述预设敏感词数据库进行数据匹配,判断所述混合数据中是否存在敏感词。
示例性的,当所述敏感词数据库中存储有中英混合信息“nixiangpeach”时,将所述混合数据“biezuo meng nixiang peach”与所述预设敏感词数据库进行数据匹配后,确定所述混合数据中存在敏感词。
在一些实施方式中,当所述混合数据中存在敏感词时,对所述待检测信息进行拦截处理。在一些实施方式中,所述将所述混合数据与所述预设敏感词数据库进行数据匹配包括:按照预设的拆分规则对所述拼音数据进行拆分,得到混合组合;将所述混合组合与预设的敏感词数据库进行数据匹配,判断所述混合组合中是否存在敏感词。
步骤S28、根据判断结果,处理所述待检测信息。
示例性的,当判断结果为所述缩写数据中不存在敏感词时,对所述待检测信息进行放行处理;当判断结果为所述拼音数据中存在敏感词时,或当判断结果为所述缩写数据中存在敏感词时,对所述待检测信息进行拦截处理。
上述实施例提供的信息检测方法,通过获取待检测信息中表情符号对应的文字信息,并根据所述文字信息对应的中文描述,替换所述待检测信息中的所述表情符号,得到检测信息,接着获取所述检测信息对应的拼音,得到拼音数据,并将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词;当所述拼音数据中不存在敏感词时,获取所述拼音数据对应的拼音首字母;根据所述拼音首字母生成缩写数据;将所述缩写数据与所述敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词,并根据判断结果,处理所述待检测信息,通过将待检测信息中表情符号转换为中文,并将转换后的待检测信息进行拼音获取处理得到拼音数据,避免因表情符号影响敏感信息检测的情况发生,提高了对用户利用表情符号的语义信息传递敏感信息等事件的检测准确率,提高了敏感信息检测的效率。同时在所述拼音数据不存在敏感词时,获取所述拼音数据对应的拼音首字母生成缩写数据,并判断所述缩写数据中是否存在敏感词,进一步提高了敏感信息检测的准确率。
请参阅图5,图5为本申请实施例提供的一种电子设备的结构示意性框图。该电子设备50可以为服务器或终端设备。
电子设备50所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
如图5所示,该电子设备50包括通过通信接口501、存储器502、处理器503、输入/输出(Input / Output,I/O)接口504及总线505。处理器503通过总线505分别耦合于通信接口501、存储器502、I/O接口504。
通信接口501用于进行通信。通信接口501可以为电子设备50上已有的接口,也可以为在电子设备50上新建的接口。通信接口501可以为网络接口,例如无线区域网络(Wireless Local Area Network,WLAN)接口,蜂窝网络通信接口或其组合等。
存储器502可用于可存储操作系统和计算机程序。例如,存储器502存储了上述的信息检测方法对应的程序。
应当理解的是,存储器502可包括存储程序区和存储数据区。其中,存储程序区可用于存储操作系统、至少一个方法所需的应用程序(比如信息检测方法等)等;存储数据区可存储根据电子装置50的使用所创建的数据等。此外,存储器502可以包括易失性存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart MediaCard, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
处理器503提供计算和控制能力,支撑整个计算机设备的运行。例如,处理器503用于执行存储器502内存储的计算机程序,以实现上述的信息检测方法中的步骤。
应当理解的是,处理器503是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
I/O接口504用于提供用户输入或输出的通道,例如I/O接口504可用于连接各种输入输出设备(鼠标、键盘或3D触控装置等)、显示器,使得用户可以录入信息,或者使信息可视化。
总线505至少用于提供电子设备50中的通信接口501、存储器502、处理器503、I/O接口504之间相互通信的通道。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,在一个实施例中,处理器503执行存储器502内存储的计算机程序,以实现信息检测方法时,实现以下步骤:
获取待检测信息中表情符号对应的文字信息;
根据所述文字信息对应的中文描述,替换所述待检测信息中的所述表情符号,得到检测信息;
获取所述检测信息对应的拼音,得到拼音数据;
将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词;
当所述拼音数据中不存在敏感词时,获取所述拼音数据对应的拼音首字母;
根据所述拼音首字母生成缩写数据;
将所述缩写数据与所述敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词;
根据判断结果,处理所述待检测信息。
在一实施方式中,处理器503获取所述检测信息对应的拼音,得到拼音数据时,实现以下步骤:
检测所述检测信息中是否存在预设字符;
当所述检测信息中存在所述预设字符时,对所述检测信息中的所述预设字符进行剔除处理;
获取剔除处理后的检测信息对应的拼音,得到拼音数据。
在一实施方式中,处理器503将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词时,实现以下步骤:
按照预设的拆分规则对所述拼音数据进行拆分,得到拼音组合;
将所述拼音组合与预设的敏感词数据库进行数据匹配,判断所述拼音组合中是否存在敏感词。
在一实施方式中,处理器503将所述拼音组合与预设的敏感词数据库进行数据匹配,判断所述拼音组合中是否存在敏感词时,实现以下步骤:
判断所述拼音组合中是否有拼音与所述敏感词数据库中敏感词的拼音相同;
当所述拼音组合中有拼音与所述敏感词数据库中敏感词的拼音相同,确定所述拼音组合中存在敏感词;
当所述拼音组合中没有拼音与所述敏感词数据库中敏感词的拼音相同,计算所述拼音组合中的拼音与所述敏感词数据库中敏感词的拼音的相似度;
当所述相似度大于预设相似阈值时,确定所述拼音组合中存在敏感词;
当所述相似度小于或等于所述预设相似阈值时,确定所述拼音组合中不存在敏感词。
在一实施方式中,处理器503将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词时,实现以下步骤:
将所述拼音数据中首字符拼音与预设的敏感词数据库中的索引拼音节点进行比较,判断是否存在与所述首字符拼音相同的索引拼音节点;
当存在与所述首字符拼音相同的索引拼音节点时,将所述检测信息的首字符拼音之后的剩余字符拼音按照顺序依次与所述索引拼音节点对应的敏感拼音节点进行比较;
计算所述剩余字符拼音与所述敏感拼音节点的匹配度,当所述匹配度大于匹配度阈值时,判断所述拼音数据中存在敏感词;
当不存在与所述首字符拼音相同的索引拼音节点时,将所述检测信息的首字符拼音之后的剩余字符拼音按照顺序依次与所述敏感词数据库中的索引拼音节点进行比较,判断是否存在与所述剩余字符拼音相同的索引拼音节点;
当存在与所述剩余字符拼音相同的索引拼音节点时,将所述剩余字符拼音之后的其它字符拼音按照顺序依次与所述索引拼音节点对应的敏感拼音节点进行比较;
计算所述其它字符拼音与所述敏感拼音节点的匹配度,当所述匹配度大于匹配度阈值时,判断所述拼音数据中存在敏感词。
在一实施方式中,处理器503将所述缩写数据与预设的敏感词数据库进行数据匹配,判断所述缩写组合中是否存在敏感词时,实现以下步骤:
按照预设的拆分规则对所述缩写数据进行拆分,得到缩写组合;
将所述缩写数据与预设的敏感词数据库进行数据匹配,判断所述缩写组合中是否存在敏感词。
在一实施方式中,处理器503在实现所述信息检测方法时,还用于实现以下步骤:
当所述缩写数据中不存在敏感词时,获取所述待检测信息中除所述表情符号外的信息对应的拼音,得到第一数据;
确定所述表情符号对应的英文描述,并根据所述英文描述得到第二数据;
将所述第一数据和所述第二数据进行拼接,得到混合数据;
将所述混合数据与所述预设敏感词数据库进行数据匹配,判断所述混合数据中是否存在敏感词。
在一实施方式中,处理器503生成所述敏感词数据库时,实现以下步骤:
获取敏感词和所述敏感词对应的描述信息,所述描述信息包括拼音信息、缩写信息和/或中英混合信息;
生成所述敏感词和所述描述信息的信息映射表,所述信息映射表包括所述敏感词和所述描述信息之间的映射关系;
根据所述敏感词、所述描述信息和所述信息映射表,生成敏感词数据库。
具体地,处理器503对上述指令的具体实现方法可参考前述信息检测方法实施例中相关步骤的描述,在此不赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请信息检测方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的电子设备的内部存储单元,例如所述电子设备的硬盘或内存。所述计算机可读存储介质也可以是所述电子设备的外部存储设备,例如所述电子设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据电子设备的使用所创建的数据等。
前述实施例提供的电子设备及计算机可读存储介质,可以通过获取待检测信息中表情符号对应的文字信息,并根据所述文字信息对应的中文描述,替换所述待检测信息中的所述表情符号,得到检测信息,接着获取所述检测信息对应的拼音,得到拼音数据,并将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词;当所述拼音数据中不存在敏感词时,获取所述拼音数据对应的拼音首字母;根据所述拼音首字母生成缩写数据;将所述缩写数据与所述敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词,并根据判断结果,处理所述待检测信息,通过将待检测信息中表情符号转换为中文,并将转换后的待检测信息进行拼音获取处理得到拼音数据,避免因表情符号影响敏感信息检测的情况发生,提高了对用户利用表情符号的语义信息传递敏感信息等事件的检测准确率,提高了敏感信息检测的效率。同时在所述拼音数据不存在敏感词时,获取所述拼音数据对应的拼音首字母生成缩写数据,并判断所述缩写数据中是否存在敏感词,进一步提高了敏感信息检测的准确率。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种信息检测方法,其特征在于,所述信息检测方法包括:
获取待检测信息中表情符号对应的文字信息;
根据所述文字信息对应的中文描述,替换所述待检测信息中的所述表情符号,得到检测信息;
获取所述检测信息对应的拼音,得到拼音数据;
将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词;
当所述拼音数据中不存在敏感词时,获取所述拼音数据对应的拼音首字母;
根据所述拼音首字母生成缩写数据;
将所述缩写数据与所述敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词;
根据判断结果,处理所述待检测信息。
2.根据权利要求1所述的信息检测方法,其特征在于,所述获取所述检测信息对应的拼音,得到拼音数据包括:
检测所述检测信息中是否存在预设字符;
当所述检测信息中存在所述预设字符时,对所述检测信息中的所述预设字符进行剔除处理;
获取剔除处理后的检测信息对应的拼音,得到拼音数据。
3.根据权利要求1所述的信息检测方法,其特征在于,所述将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词包括:
按照预设的拆分规则对所述拼音数据进行拆分,得到拼音组合;
将所述拼音组合与预设的敏感词数据库进行数据匹配,判断所述拼音组合中是否存在敏感词。
4.根据权利要求3所述的信息检测方法,其特征在于,将所述拼音组合与预设的敏感词数据库进行数据匹配,判断所述拼音组合中是否存在敏感词包括:
判断所述拼音组合中是否有拼音与所述敏感词数据库中敏感词的拼音相同;
当所述拼音组合中有拼音与所述敏感词数据库中敏感词的拼音相同,确定所述拼音组合中存在敏感词;
当所述拼音组合中没有拼音与所述敏感词数据库中敏感词的拼音相同,计算所述拼音组合中的拼音与所述敏感词数据库中敏感词的拼音的相似度;
当所述相似度大于预设相似阈值时,确定所述拼音组合中存在敏感词;
当所述相似度小于或等于所述预设相似阈值时,确定所述拼音组合中不存在敏感词。
5.根据权利要求1所述的信息检测方法,其特征在于,所述将所述拼音数据与预设的敏感词数据库进行数据匹配,判断所述拼音数据中是否存在敏感词包括:
将所述拼音数据中首字符拼音与预设的敏感词数据库中的索引拼音节点进行比较,判断是否存在与所述首字符拼音相同的索引拼音节点;
当存在与所述首字符拼音相同的索引拼音节点时,将所述检测信息的首字符拼音之后的剩余字符拼音按照顺序依次与所述索引拼音节点对应的敏感拼音节点进行比较;
计算所述剩余字符拼音与所述敏感拼音节点的匹配度,当所述匹配度大于匹配度阈值时,判断所述拼音数据中存在敏感词;
当不存在与所述首字符拼音相同的索引拼音节点时,将所述检测信息的首字符拼音之后的剩余字符拼音按照顺序依次与所述敏感词数据库中的索引拼音节点进行比较,判断是否存在与所述剩余字符拼音相同的索引拼音节点;
当存在与所述剩余字符拼音相同的索引拼音节点时,将所述剩余字符拼音之后的其它字符拼音按照顺序依次与所述索引拼音节点对应的敏感拼音节点进行比较;
计算所述其它字符拼音与所述敏感拼音节点的匹配度,当所述匹配度大于匹配度阈值时,判断所述拼音数据中存在敏感词。
6.根据权利要求1所述的信息检测方法,其特征在于,所述将所述缩写数据与预设的敏感词数据库进行数据匹配,判断所述缩写数据中是否存在敏感词包括:
按照预设的拆分规则对所述缩写数据进行拆分,得到缩写组合;
将所述缩写组合与预设的敏感词数据库进行数据匹配,判断所述缩写组合中是否存在敏感词。
7.根据权利要求1所述的信息检测方法,其特征在于,所述方法还包括:
当所述缩写数据中不存在敏感词时,获取所述待检测信息中除所述表情符号外的信息对应的拼音,得到第一数据;
确定所述表情符号对应的英文描述,并根据所述英文描述得到第二数据;
将所述第一数据和所述第二数据进行拼接,得到混合数据;
将所述混合数据与所述预设敏感词数据库进行数据匹配,判断所述混合数据中是否存在敏感词。
8.根据权利要求1至7中任意一项所述的信息检测方法,其特征在于,所述敏感词数据库的生成过程包括:
获取敏感词和所述敏感词对应的描述信息,所述描述信息包括拼音信息、缩写信息和/或中英混合信息;
生成所述敏感词和所述描述信息的信息映射表,所述信息映射表包括所述敏感词和所述描述信息之间的映射关系;
根据所述敏感词、所述描述信息和所述信息映射表,生成敏感词数据库。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;
所述存储器用于存储至少一个指令;
所述处理器用于执行所述至少一个指令时实现如权利要求1至8中任意一项所述的信息检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至8中任意一项所述的信息检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110195961.2A CN112559672B (zh) | 2021-02-22 | 2021-02-22 | 信息检测方法、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110195961.2A CN112559672B (zh) | 2021-02-22 | 2021-02-22 | 信息检测方法、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112559672A true CN112559672A (zh) | 2021-03-26 |
CN112559672B CN112559672B (zh) | 2021-07-13 |
Family
ID=75036029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110195961.2A Expired - Fee Related CN112559672B (zh) | 2021-02-22 | 2021-02-22 | 信息检测方法、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559672B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761191A (zh) * | 2021-05-14 | 2021-12-07 | 京东数字科技控股股份有限公司 | 文本识别方法、装置、设备及存储介质 |
CN113904851A (zh) * | 2021-10-11 | 2022-01-07 | 中国电信股份有限公司 | 网络信息处理方法、用户面功能系统、介质和电子设备 |
CN114205156A (zh) * | 2021-12-13 | 2022-03-18 | 中国农业银行股份有限公司 | 面向切面技术的报文检测方法、装置、电子设备及介质 |
CN117892724A (zh) * | 2024-03-15 | 2024-04-16 | 成都赛力斯科技有限公司 | 一种文本检测方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354754A (zh) * | 2016-08-16 | 2017-01-25 | 清华大学 | 基于离散独立成分分析的自展式隐式特征挖掘方法和系统 |
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
CN108182246A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN108984530A (zh) * | 2018-07-23 | 2018-12-11 | 北京信息科技大学 | 一种网络敏感内容的检测方法及检测系统 |
CN110209796A (zh) * | 2019-04-29 | 2019-09-06 | 北京印刷学院 | 一种敏感词检测过滤方法、装置与电子设备 |
-
2021
- 2021-02-22 CN CN202110195961.2A patent/CN112559672B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354754A (zh) * | 2016-08-16 | 2017-01-25 | 清华大学 | 基于离散独立成分分析的自展式隐式特征挖掘方法和系统 |
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
CN108182246A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN108984530A (zh) * | 2018-07-23 | 2018-12-11 | 北京信息科技大学 | 一种网络敏感内容的检测方法及检测系统 |
CN110209796A (zh) * | 2019-04-29 | 2019-09-06 | 北京印刷学院 | 一种敏感词检测过滤方法、装置与电子设备 |
Non-Patent Citations (1)
Title |
---|
付聪: "中文敏感词变形体的识别方法研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761191A (zh) * | 2021-05-14 | 2021-12-07 | 京东数字科技控股股份有限公司 | 文本识别方法、装置、设备及存储介质 |
CN113761191B (zh) * | 2021-05-14 | 2024-08-16 | 京东科技控股股份有限公司 | 文本识别方法、装置、设备及存储介质 |
CN113904851A (zh) * | 2021-10-11 | 2022-01-07 | 中国电信股份有限公司 | 网络信息处理方法、用户面功能系统、介质和电子设备 |
CN114205156A (zh) * | 2021-12-13 | 2022-03-18 | 中国农业银行股份有限公司 | 面向切面技术的报文检测方法、装置、电子设备及介质 |
CN117892724A (zh) * | 2024-03-15 | 2024-04-16 | 成都赛力斯科技有限公司 | 一种文本检测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112559672B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112559672B (zh) | 信息检测方法、电子设备及计算机存储介质 | |
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
US20180060312A1 (en) | Providing ideogram translation | |
KR101716905B1 (ko) | 개체의 유사성을 계산하는 방법 | |
US9183535B2 (en) | Social network model for semantic processing | |
US10565520B2 (en) | Feature extraction for machine learning | |
CN111597351A (zh) | 可视化文档图谱构建方法 | |
CN104335607A (zh) | 用于识别和建议表情符号的系统和方法 | |
CN111460131A (zh) | 公文摘要提取方法、装置、设备及计算机可读存储介质 | |
US20200210053A1 (en) | Systems, devices and methods for electronic determination and communication of location information | |
CN107783976B (zh) | 用户信息挖掘方法及装置 | |
JP2008176721A (ja) | コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 | |
CN109074547B (zh) | 基于消息内容的文本消息排序 | |
US20180039614A1 (en) | Hybrid Grammatical and Ungrammatical Parsing | |
JP5121763B2 (ja) | 感情推定装置、及び方法 | |
JP2020077134A (ja) | 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法 | |
JP2010538345A (ja) | キーパッドテキスト入力の多義性解消 | |
CN114244795B (zh) | 一种信息的推送方法、装置、设备及介质 | |
CN111555960A (zh) | 信息生成的方法 | |
JP2020077356A (ja) | 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法 | |
CN113177407A (zh) | 数据字典的构建方法、装置、计算机设备及存储介质 | |
JP2010049633A (ja) | 情報処理装置及びプログラム | |
CN113326363A (zh) | 搜索方法及装置、预测模型训练方法及装置、电子设备 | |
CN111176456B (zh) | 用于输入地理位置名称的输入法编辑器 | |
JPWO2015075920A1 (ja) | 入力支援装置、入力支援方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210713 |
|
CF01 | Termination of patent right due to non-payment of annual fee |