CN112817996A - 一种违法关键词库的更新方法、装置、设备及存储介质 - Google Patents
一种违法关键词库的更新方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112817996A CN112817996A CN202110201665.9A CN202110201665A CN112817996A CN 112817996 A CN112817996 A CN 112817996A CN 202110201665 A CN202110201665 A CN 202110201665A CN 112817996 A CN112817996 A CN 112817996A
- Authority
- CN
- China
- Prior art keywords
- detected
- illegal
- pictograph
- character string
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000006399 behavior Effects 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种违法关键词库的更新方法,包括:获取待检象形文字,并确定出与待检象形文字对应的待检字符串;计算待检字符串与各违法关键词对应的违法字符串的相似度;从待检象形文字中确定出相似度超过预设阈值的目标违法关键词,并将目标违法关键词添加到预设的违法关键词库中。可见,利用本方法能够实现从待检象形文字中确定出目标违法关键词并利用违法关键词更新违法关键词库,因此能够提高违法关键词库中违法关键词的全面性和丰富性,进而提高检测网络违法行为的全面性和准确性。本申请还公开了一种违法关键词库的更新装置、设备及计算机可读存储介质,均具有上述有益效果。
Description
技术领域
本发明涉及网络安全领域,特别涉及一种违法关键词库的更新方法、装置、设备及计算机可读存储介质。
背景技术
近年来,随着网络技术的快速发展,检测网络中的网络违法行为也逐渐成为网络安全的工作重点之一。目前,一般是利用预设的违法关键词库进行检测,违法关键词库中预设有大量的已知的违法关键词,当检测到与违法关键词库中的违法关键词相匹配的网络词语时,即表示可能存在网络违法行为。并且,在实际应用过程中,需要根据信息系统、大数据系统中数据量不断膨胀的发展趋势不断更新违法关键词库。
现有技术中,更新违法关键词库的方式一般是计算各待检字符数据与已知的违法关键词的相似度,并将与已知的违法关键词相似度较高的待检字符数据确定为目标违法关键词并添加到预设的违法关键词库中,从而实现违法关键词库的更新。但是,现有技术中,仅仅是从字符串类型的待检字符数据中确定出目标违法关键词以更新违法关键词库,即违法关键词库中仅包括字符串类型的违法关键词;而在网络中也存在大量的如中文等象形文字,因此,利用现有技术中的仅包括字符串类型的违法关键词的违法关键词库进行网络违法行为的检测,将存在检测遗漏和检测不准确的情况。
因此,如何根据象形文字更新违法关键词库,提高违法关键词库中违法关键词的全面性和丰富性,进而提高检测网络违法行为的全面性和准确性,是本领域技术人员目前需要解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种违法关键词库的更新方法,能够根据象形文字更新违法关键词库,提高违法关键词库中违法关键词的全面性和丰富性,进而提高检测网络违法行为的全面性和准确性;本发明的另一目的是提供一种违法关键词库的更新装置、设备及计算机可读存储介质,均具有上述有益效果。
为解决上述技术问题,本发明提供一种违法关键词库的更新方法,包括:
获取待检象形文字,并确定出与所述待检象形文字对应的待检字符串;
计算所述待检字符串与各违法关键词对应的违法字符串的相似度;
从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,并将所述目标违法关键词添加到预设的违法关键词库中。
优选地,所述获取待检象形文字,并确定出与所述待检象形文字对应的待检字符串的过程,具体包括:
获取所述待检象形文字;
当所述待检象形文字与所述违法关键词为同音字时,将所述待检象形文字的拼音设置为所述待检字符串;
当所述待检象形文字与所述违法关键词为方言易混肴发音字时,获取所述待检象形文字的拼音,并将所述拼音中的预设易混肴音标进行转换,得出所述待检字符串;
当所述待检象形文字与所述违法关键词为字形相似时,根据所述待检象形文字的文字特征计算出所述待检字符串。
优选地,当所述待检象形文字与所述违法关键词为方言易混肴发音字时,所述计算所述待检字符串与各违法关键词对应的违法字符串的相似度的过程,具体包括:
分别为各所述预设易混肴音标设置对应的权重;
利用预设相似度算法和所述权重计算所述待检字符串与各所述违法关键词对应的违法字符串的所述相似度。
优选地,所述获取所述待检象形文字的过程,具体包括:
获取待检象形文字片段;
对所述待检象形文字片段进行分词处理,得到多个分词;
去除多个所述分词中的停用词,并将剩余的所述分词设置为所述待检象形文字。
优选地,在所述从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,并将所述目标违法关键词添加到预设的违法关键词库中之后,进一步包括:
确定出所述待检象形文字片段中的各所述目标违法关键词之间的相互联系,并根据所述相互联系确定出与所述待检象形文字片段对应的目标网络违法行为。
优选地,在所述从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,并将所述目标违法关键词添加到预设的违法关键词库中之后,进一步包括:
对所述目标违法关键词进行显示。
优选地,所述计算所述待检字符串与各违法关键词对应的违法字符串的相似度的过程,具体包括:
利用编辑距离算法或N-Gram算法或JaroWinkler算法或Soundex算法计算所述待检字符串与各所述违法关键词对应的违法字符串的所述相似度。
为解决上述技术问题,本发明还提供一种违法关键词库的更新装置,包括:
确定模块,用于获取待检象形文字,并确定出与所述待检象形文字对应的待检字符串;
计算模块,用于计算所述待检字符串与各违法关键词对应的违法字符串的相似度;
更新模块,用于从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,并将所述目标违法关键词添加到预设的违法关键词库中。
为解决上述技术问题,本发明还提供一种违法关键词库的更新设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一种违法关键词库的更新方法的步骤。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种违法关键词库的更新方法的步骤。
本发明提供的一种违法关键词库的更新方法,包括:获取待检象形文字,并确定出与待检象形文字对应的待检字符串;计算待检字符串与各违法关键词对应的违法字符串的相似度;从待检象形文字中确定出相似度超过预设阈值的目标违法关键词,并将目标违法关键词添加到预设的违法关键词库中。可见,本方法通过将待检形文字转换为对应的待检字符串,进而依据待检字符串与违法字符串的相似度确定出待检象形文字中的目标违法关键词;利用本方法能够实现从待检象形文字中确定出目标违法关键词并利用违法关键词更新违法关键词库,因此能够提高违法关键词库中违法关键词的全面性和丰富性,进而提高检测网络违法行为的全面性和准确性。
为解决上述技术问题,本发明还提供了一种违法关键词库的更新装置、设备及计算机可读存储介质,均具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种违法关键词库的更新方法的流程图;
图2为本发明实施例提供的一种违法关键词库的更新装置的结构图;
图3为本发明实施例提供的一种违法关键词库的更新设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的核心是提供一种违法关键词库的更新方法,能够根据象形文字更新违法关键词库,提高违法关键词库中违法关键词的全面性和丰富性,进而提高检测网络违法行为的全面性和准确性;本发明的另一核心是提供一种违法关键词库的更新装置、设备及计算机可读存储介质,均具有上述有益效果。
为了使本领域技术人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
图1为本发明实施例提供的一种违法关键词库的更新方法的流程图。如图1所示,一种违法关键词库的更新方法包括:
S10:获取待检象形文字,并确定出与待检象形文字对应的待检字符串。
具体的,在实际操作中,首先获取待检象形文字,其中,待检象形文字为需要进行判断的、可能是违法关键词的数据信息;然后需要确定出与待检象形文字对应的待检字符串。需要说明的是,待检字符串为包括待检象形文字的文字特征的字符串,文字特征包括字形特征、拼音特征等,本实施例对确定出与待检象形文字对应的待检字符串的具体方式不做限定。
S20:计算待检字符串与各违法关键词对应的违法字符串的相似度;
S30:从待检象形文字中确定出相似度超过预设阈值的目标违法关键词,并将目标违法关键词添加到预设的违法关键词库中。
具体的,违法字符串指的是包括违法关键词的文字特征的字符串,并且确定出违法字符串的方式与确定出待检字符串的方式应相同,以便对二者计算相似度。
具体的,在确定出待检象形文字以及对应的待检字符串之后,需要将该待检字符串与预设的违法关键词库中的各违法关键词的违法字符串分别进行相似度计算,确定出待检象形文字与各违法关键词分别对应的相似度,并将各相似度按照从高到低的顺序排列,将相似度最高的待检象形文字确定为目标违法关键词,或者是将相似度超过预设阈值的待检象形文字确定为目标违法关键词,再将确定出的目标违法关键词添加到预设的违法关键词库中。也就是说,将确定出的目标违法关键词作为新增的违法关键词添加到违法关键词库中,以更新违法关键词库中。即,本实施例中的违法关键词库中的违法关键词是通过手动添加已知的违法关键词的方式以及通过自动添加从待检象形文字中筛选出与违法关键词相似度高的目标关键词的方式得出的。
本发明实施例提供的一种违法关键词库的更新方法,包括:获取待检象形文字,并确定出与待检象形文字对应的待检字符串;计算待检字符串与各违法关键词对应的违法字符串的相似度;从待检象形文字中确定出相似度超过预设阈值的目标违法关键词,并将目标违法关键词添加到预设的违法关键词库中。可见,本方法通过将待检形文字转换为对应的待检字符串,进而依据待检字符串与违法字符串的相似度确定出待检象形文字中的目标违法关键词;利用本方法能够实现从待检象形文字中确定出目标违法关键词并利用违法关键词更新违法关键词库,因此能够提高违法关键词库中违法关键词的全面性和丰富性,进而提高检测网络违法行为的全面性和准确性。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例中,获取待检象形文字,并确定出与待检象形文字对应的待检字符串的过程,具体包括:
获取待检象形文字;
当待检象形文字与违法关键词为同音字时,将待检象形文字的拼音设置为待检字符串;
当待检象形文字与违法关键词为方言易混肴发音字时,获取待检象形文字的拼音,并将拼音中的预设易混肴音标进行转换,得出待检字符串;
当待检象形文字与违法关键词为字形相似时,根据待检象形文字的文字特征计算出待检字符串。
具体的,在本实施例中,具体是对三种类型的待检象形文字进行筛选以确定是否添加到预设的违法关键词库中;因此,在获取到待检象形文字之后,需要先确定待检象形文字的类型,然后根据其类型执行对应的操作。
第一类:待检象形文字与违法关键词为同音字。
对于同音字,需要先获取待检象形文字的拼音,然后将该拼音作为待检象形文字的待检字符串;对应的,对于违法关键词,同样将违法关键词的拼音设置为对应的违法字符串;再利用预设相似度算法计算待检字符串和违法字符串的相似度。
第二类:待检象形文字与违法关键词为方言易混肴发音字。
需要说明的是,在中国的各个省市中,不同地区有着各自截然不同的方言,这也导致了一些口音很重的地区无法识别一些拼音之间的区别;例如,许多南方人会将“L”和“N”两个音弄混,将“篮球”读作“南球”,而“刘德华”就变成了“牛德华”;因此,需要预设易混肴音标的对应转换关系,然后在获取待检象形文字的拼音之后,依据转换关系将拼音中的预设易混肴音标进行转换,得出待检字符串;同时,对违法关键词也进行同样的操作以得到对应的违法字符串,再利用预设相似度算法计算待检字符串和违法字符串的相似度。
本实施例对预设易混肴音标的对应转换关系的具体内容不做限定,例如,预设易混肴音标的对应转换关系可以包括如下内容:
“AN”–“ANG”;
“Z”–“ZH”;
“C”–“CH”;
“EN”–“ENG”。
作为优选的实时方式,当待检象形文字与违法关键词为方言易混肴发音字时,计算待检字符串与各违法关键词对应的违法字符串的相似度的过程,具体包括:
分别为各预设易混肴音标设置对应的权重;
利用预设相似度算法和权重计算待检字符串与各违法关键词对应的违法字符串的相似度。
在本实施例中,进一步分别为各预设易混肴音标设置对应的权重;然后在计算相似度时,具体是利用预设相似度算法和权重计算待检字符串与各违法关键词对应的违法字符串的相似度;因此按照本方法能够进一步提高计算出的相似度的准确度。
第三类:待检象形文字与违法关键词为字形相似。
具体的,例如,“杉杉有礼”和“彬彬有礼”即为一组字形相似的待检象形文字与违法关键词。对于这种类型的待检象形文字,需要利用hash算法等算法根据待检象形文字的文字特征计算出对应的待检字符串;对应的,利用相同的算法计算出违法关键词的违法字符串,然后,利用预设相似度算法计算待检字符串和违法字符串的相似度。
本实施例提供了根据三种类型计算待检字符串和违法字符串的相似度,即计算待检象形文字和违法关键词的相似度,能够针对各种类型的待检象形文字计算出对应的相似度。
需要说明的是,在实际操作中,可以预先根据三种类型的象形文字分别进行模型训练,得出与三种类型的象形文字分别对应的相似度计算模型,后续便可以根据待检象形文字的类型直接调用对应的相似度计算模型进行计算,得出对应的相似度。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例中,获取待检象形文字的过程,具体包括:
获取待检象形文字片段;
对待检象形文字片段进行分词处理,得到多个分词;
去除多个分词中的停用词,并将剩余的分词设置为待检象形文字。
在本实施例中,是进一步考虑到初始获取到的可能是一句话或者一段话甚至一篇文章等类型的数据信息,即待检象形文字片段;需要先对待检象形文字片段进行处理得到待检象形文字,再进行相似度的计算。
具体的,先从内部的信息系统,如银行系统、财务系统、通话记录、物流记录、交易记录等中获取待检象形文字片段,或者从网站网页中爬取待检象形文字片段;然后对获取到的待检象形文字片段进行分词处理,得到多个分词,其中,分词处理方法为本领域技术人员的公知常识,此处不做赘述;在得出多个分词后,去除多个分词中的停用词,其中停用词包括“这个”、“的”、“通过”、“包括”等,再将剩余的分词设置为待检象形文字。
按照本实施例的方法,能够更全面地获取待检象形文字,从而能够进一步提高违法关键词库中违法关键词的全面性和丰富性,进而提高检测网络违法行为的全面性和准确性。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例在从待检象形文字中确定出相似度超过预设阈值的目标违法关键词,并将目标违法关键词添加到预设的违法关键词库中之后,进一步包括:
确定出待检象形文字片段中的各目标违法关键词之间的相互联系,并根据相互联系确定出与待检象形文字片段对应的目标网络违法行为。
具体的,在本实施例中,是在确定出待检象形文字片段中的目标违法关键词之后,确定出各目标违法关键词之间的相互联系,根据目标违法关键词以及相互联系确定出网络违法行为空间关联数据,然后根据网络违法行为空间关联数据确定出与待检象形文字片段对应的目标网络违法行为。
可见,本实施例能够进一步确定出待检象形文字片段对应的目标网络违法行为,能够进一步提升用户的使用体验。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例在从待检象形文字中确定出相似度超过预设阈值的目标违法关键词,并将目标违法关键词添加到预设的违法关键词库中之后,进一步包括:
对目标违法关键词进行显示。
具体的,在本实施例中,是在从待检象形文字中确定出相似度超过预设阈值的目标违法关键词,并将目标违法关键词添加到预设的违法关键词库中之后,进一步利用预设的显示装置显示确定出的目标违法关键词。在实际操作中,可以仅显示当次确定出的目标违法关键词,也可以对违法关键词库中的所有违法关键词进行显示,本实施例对此不做限定。
本实施例中,对显示目标违法关键词的具体形式不做限定,另外对显示装置的具体类型也不做限定,例如可以是液晶显示屏或者触摸屏等。
可见,本实施例通过进一步显示目标违法关键词,因此能够便于用户更直观地查看违法关键词库中的违法关键词的信息,从而进一步提升用户的使用体验。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例中,计算待检字符串与各违法关键词对应的违法字符串的相似度的过程,具体包括:
利用编辑距离算法或N-Gram算法或JaroWinkler算法或Soundex算法计算待检字符串与各违法关键词对应的违法字符串的相似度。
具体的,编辑距离(Edit Distance)算法又称Levenshtein距离算法,该算法将两个字符串的相似度问题,归结为将待检字符串转化成违法字符串所需的最少编辑操作次数。编辑操作次数越多,说明两个字符串的相似度越低;反之亦然。通常可以选择的编辑操作包括插入,替换以及删除。
N-Gram算法则是基于这样的一个假设:在某个字符串中,出现第n个词只与前面n-1个词相关,而与其他任何词都不相关,整个字符串出现的概率就是各个词出现的概率的乘积。N-Gram本身也代表目标字符串中长度为n的子串,举例,“ARM”在“ARMY”中,便是一个3-Gram;当两个字符串中相同的N-Gram越多时,两个字串就会被认为更加相似。
Jaro Winkler算法则是在N-Gram算法的基础上进一步改进,将N-Gram算法中的不匹配的部分同时进行了换位的考虑,使得能获得更准确的相似度。JaroWinkler算法在比较两个较短字符串的情况下,能够更加精准。
Soundex算法先将两个字符串分别通过一定的hash算法转换成一个hash值,该值由四个字符构成,第一个字符为英文字母,后面三个为数字;进行转化的hash算法并非随机选取,而是利用了该拉丁文字符串的读音近似值;当获得了两个字符串的读音上的hash值之后,该算法再对两个hash的相似度进行计算,便可以得出输入字符串的读音相似度。
可见,本实施例提供了多种不同类型的用于计算相似度的算法,可根据实际需求进行选择。
上文对于本发明提供的一种违法关键词库的更新方法的实施例进行了详细的描述,本发明还提供了一种与该方法对应的违法关键词库的更新装置、设备及计算机可读存储介质,由于装置、设备及计算机可读存储介质部分的实施例与方法部分的实施例相互照应,因此装置、设备及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图2为本发明实施例提供的一种违法关键词库的更新装置的结构图,如图2所示,一种违法关键词库的更新装置包括:
确定模块21,用于获取待检象形文字,并确定出与待检象形文字对应的待检字符串;
计算模块22,用于计算待检字符串与各违法关键词对应的违法字符串的相似度;
更新模块23,用于从待检象形文字中确定出相似度超过预设阈值的目标违法关键词,并将目标违法关键词添加到预设的违法关键词库中。
本发明实施例提供的违法关键词库的更新装置,具有上述违法关键词库的更新方法的有益效果。
作为优选的实施方式,确定模块具体包括:
获取子模块,用于获取待检象形文字;
第一确定子模块,用于当待检象形文字与违法关键词为同音字时,将待检象形文字的拼音设置为待检字符串;
第二确定子模块,用于当待检象形文字与违法关键词为方言易混肴发音字时,获取待检象形文字的拼音,并将拼音中的预设易混肴音标进行转换,得出待检字符串;
第三确定子模块,用于当待检象形文字与违法关键词为字形相似时,根据待检象形文字的文字特征计算出待检字符串。
作为优选的实施方式,计算模块具体包括:
设置子模块,用于分别为各预设易混肴音标设置对应的权重;
计算子模块,用于利用预设相似度算法和权重计算待检字符串与各违法关键词对应的违法字符串的相似度。
作为优选的实施方式,获取子模块具体包括:
获取单元,用于获取待检象形文字片段;
分词单元,用于对待检象形文字片段进行分词处理,得到多个分词;
设置单元,用于去除多个分词中的停用词,并将剩余的分词设置为待检象形文字。
作为优选的实施方式,进一步包括:
违法行为判断模块,用于确定出待检象形文字片段中的各目标违法关键词之间的相互联系,并根据相互联系确定出与待检象形文字片段对应的目标网络违法行为。
作为优选的实施方式,进一步包括:
显示模块,用于对目标违法关键词进行显示。
图3为本发明实施例提供的一种违法关键词库的更新设备的结构图,如图3所示,一种违法关键词库的更新设备包括:
存储器31,用于存储计算机程序;
处理器32,用于执行计算机程序时实现如上述违法关键词库的更新方法的步骤。
本发明实施例提供的违法关键词库的更新设备,具有上述违法关键词库的更新方法的有益效果。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述违法关键词库的更新方法的步骤。
本发明实施例提供的计算机可读存储介质,具有上述违法关键词库的更新方法的有益效果。
以上对本发明所提供的违法关键词库的更新方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
Claims (10)
1.一种违法关键词库的更新方法,其特征在于,包括:
获取待检象形文字,并确定出与所述待检象形文字对应的待检字符串;
计算所述待检字符串与各违法关键词对应的违法字符串的相似度;
从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,并将所述目标违法关键词添加到预设的违法关键词库中。
2.根据权利要求1所述的方法,其特征在于,所述获取待检象形文字,并确定出与所述待检象形文字对应的待检字符串的过程,具体包括:
获取所述待检象形文字;
当所述待检象形文字与所述违法关键词为同音字时,将所述待检象形文字的拼音设置为所述待检字符串;
当所述待检象形文字与所述违法关键词为方言易混肴发音字时,获取所述待检象形文字的拼音,并将所述拼音中的预设易混肴音标进行转换,得出所述待检字符串;
当所述待检象形文字与所述违法关键词为字形相似时,根据所述待检象形文字的文字特征计算出所述待检字符串。
3.根据权利要求2所述的方法,其特征在于,当所述待检象形文字与所述违法关键词为方言易混肴发音字时,所述计算所述待检字符串与各违法关键词对应的违法字符串的相似度的过程,具体包括:
分别为各所述预设易混肴音标设置对应的权重;
利用预设相似度算法和所述权重计算所述待检字符串与各所述违法关键词对应的违法字符串的所述相似度。
4.根据权利要求2所述的方法,其特征在于,所述获取所述待检象形文字的过程,具体包括:
获取待检象形文字片段;
对所述待检象形文字片段进行分词处理,得到多个分词;
去除多个所述分词中的停用词,并将剩余的所述分词设置为所述待检象形文字。
5.根据权利要求4所述的方法,其特征在于,在所述从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,并将所述目标违法关键词添加到预设的违法关键词库中之后,进一步包括:
确定出所述待检象形文字片段中的各所述目标违法关键词之间的相互联系,并根据所述相互联系确定出与所述待检象形文字片段对应的目标网络违法行为。
6.根据权利要求1所述的方法,其特征在于,在所述从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,并将所述目标违法关键词添加到预设的违法关键词库中之后,进一步包括:
对所述目标违法关键词进行显示。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述计算所述待检字符串与各违法关键词对应的违法字符串的相似度的过程,具体包括:
利用编辑距离算法或N-Gram算法或JaroWinkler算法或Soundex算法计算所述待检字符串与各所述违法关键词对应的违法字符串的所述相似度。
8.一种违法关键词库的更新装置,其特征在于,包括:
确定模块,用于获取待检象形文字,并确定出与所述待检象形文字对应的待检字符串;
计算模块,用于计算所述待检字符串与各违法关键词对应的违法字符串的相似度;
更新模块,用于从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,并将所述目标违法关键词添加到预设的违法关键词库中。
9.一种违法关键词库的更新设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的违法关键词库的更新方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的违法关键词库的更新方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110201665.9A CN112817996A (zh) | 2021-02-23 | 2021-02-23 | 一种违法关键词库的更新方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110201665.9A CN112817996A (zh) | 2021-02-23 | 2021-02-23 | 一种违法关键词库的更新方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112817996A true CN112817996A (zh) | 2021-05-18 |
Family
ID=75865024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110201665.9A Pending CN112817996A (zh) | 2021-02-23 | 2021-02-23 | 一种违法关键词库的更新方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112817996A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187996A (zh) * | 2022-09-09 | 2022-10-14 | 中电科新型智慧城市研究院有限公司 | 语义识别方法、装置、终端设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1975899A1 (en) * | 2007-03-30 | 2008-10-01 | Yeshua Rachamim Levi | A method, system and device for detecting, protecting against and reporting traffic law violations |
US20120167209A1 (en) * | 2010-12-28 | 2012-06-28 | Microsoft Corporation | Automatic context-sensitive sanitization |
CN104965817A (zh) * | 2015-04-29 | 2015-10-07 | 湖北光谷天下传媒股份有限公司 | 一种检测文章与关键词关联程度的方法 |
CN111488732A (zh) * | 2019-01-25 | 2020-08-04 | 深信服科技股份有限公司 | 一种变形关键词检测方法、系统及相关设备 |
CN111626054A (zh) * | 2020-05-21 | 2020-09-04 | 北京明亿科技有限公司 | 新违法行为描述词识别方法与装置、电子设备及存储介质 |
CN113849597A (zh) * | 2021-08-31 | 2021-12-28 | 艾迪恩(山东)科技有限公司 | 基于命名实体识别的违法广告词检测方法 |
-
2021
- 2021-02-23 CN CN202110201665.9A patent/CN112817996A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1975899A1 (en) * | 2007-03-30 | 2008-10-01 | Yeshua Rachamim Levi | A method, system and device for detecting, protecting against and reporting traffic law violations |
US20120167209A1 (en) * | 2010-12-28 | 2012-06-28 | Microsoft Corporation | Automatic context-sensitive sanitization |
CN104965817A (zh) * | 2015-04-29 | 2015-10-07 | 湖北光谷天下传媒股份有限公司 | 一种检测文章与关键词关联程度的方法 |
CN111488732A (zh) * | 2019-01-25 | 2020-08-04 | 深信服科技股份有限公司 | 一种变形关键词检测方法、系统及相关设备 |
CN111626054A (zh) * | 2020-05-21 | 2020-09-04 | 北京明亿科技有限公司 | 新违法行为描述词识别方法与装置、电子设备及存储介质 |
CN113849597A (zh) * | 2021-08-31 | 2021-12-28 | 艾迪恩(山东)科技有限公司 | 基于命名实体识别的违法广告词检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187996A (zh) * | 2022-09-09 | 2022-10-14 | 中电科新型智慧城市研究院有限公司 | 语义识别方法、装置、终端设备和存储介质 |
CN115187996B (zh) * | 2022-09-09 | 2023-01-06 | 中电科新型智慧城市研究院有限公司 | 语义识别方法、装置、终端设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408526B (zh) | Sql语句生成方法、装置、计算机设备及存储介质 | |
JP5599662B2 (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
JP7153004B2 (ja) | コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体 | |
JP5379138B2 (ja) | 領域辞書の作成 | |
CN110569335B (zh) | 基于人工智能的三元组校验方法、装置及存储介质 | |
CN110741376B (zh) | 用于不同自然语言的自动文档分析 | |
JP2010531492A (ja) | ワード確率決定 | |
CN104008123B (zh) | 用于中文姓名匹配的方法和系统 | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
CN110032734B (zh) | 近义词扩展及生成对抗网络模型训练方法和装置 | |
CN111259262A (zh) | 一种信息检索方法、装置、设备及介质 | |
US20160085741A1 (en) | Entity extraction feedback | |
Xiong et al. | Extended HMM and ranking models for Chinese spelling correction | |
CN110837730A (zh) | 一种未知实体词汇的确定方法及装置 | |
CN112395866B (zh) | 报关单数据匹配方法及装置 | |
CN112817996A (zh) | 一种违法关键词库的更新方法、装置、设备及存储介质 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
KR20190024072A (ko) | 가상 키보드를 통하여 입력받은 문자열을 교정하는 모바일 장치 및 방법 | |
US11893977B2 (en) | Method for recognizing Chinese-English mixed speech, electronic device, and storage medium | |
KR20220024251A (ko) | 이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체 | |
US20210318949A1 (en) | Method for checking file data, computer device and readable storage medium | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
CN109086363B (zh) | 文件信息维护度确定方法、装置及设备 | |
CN114201607B (zh) | 一种信息处理的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210518 |