CN111737398A - 文本中的敏感词的检索方法、装置、电子设备及存储介质 - Google Patents

文本中的敏感词的检索方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111737398A
CN111737398A CN202010457241.4A CN202010457241A CN111737398A CN 111737398 A CN111737398 A CN 111737398A CN 202010457241 A CN202010457241 A CN 202010457241A CN 111737398 A CN111737398 A CN 111737398A
Authority
CN
China
Prior art keywords
sensitive word
sensitive
text
preset
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010457241.4A
Other languages
English (en)
Other versions
CN111737398B (zh
Inventor
熊超
杜英豪
王学兵
李琳科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010457241.4A priority Critical patent/CN111737398B/zh
Publication of CN111737398A publication Critical patent/CN111737398A/zh
Application granted granted Critical
Publication of CN111737398B publication Critical patent/CN111737398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本中的敏感词的检索方法、装置、电子设备及存储介质,涉及智能搜索领域。具体实现方案为:分别以预先统计的敏感词长度集合中的各敏感词长度为截取窗口,在待检索文本进行遍历,依次截取文本子串;对于各次截取的文本子串,判断文本子串是否为预设的敏感词集合中的敏感词;若是,将作为敏感词的文本子串加入敏感词列表;检测敏感词列表是否命中预设的敏感词规则列表中的预设的敏感词规则;各预设的敏感词规则中包括至少两个敏感词。与现有技术的至少两个敏感词的检索方式相比,本申请通过对包括至少两个敏感词的敏感词规则进行检索,可以实现同时对至少两个敏感词进行检索,能够有效地节省检索耗时,提高检索效率。

Description

文本中的敏感词的检索方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及智能搜索领域,具体涉及一种文本中的敏感词的检索方法、装置、电子设备及存储介质。
背景技术
随着移动互联网的发展,用户可以在各个网络平台发布信息,并且还可以对各网络平台上的媒体资源进行评论、与媒体资源的作者进行互动。但是,所有的良好互动均建立在优质的媒体资源以及良好的网络氛围的基础上。而构建良好的网络氛围,主要靠各个网络平台对内容进行检索和校验,确定为不良信息后,对不良信息进行拦截、过滤,以净化网络信息。
现有技术中,对用户要发布的文本进行检索时,主要检索文本中是否包括有预先采集的敏感词集合中的某个敏感词,若包括,便认为该用户要发布的文本属于不良信息,此时可以拦截该文本,避免其发布。
但是,现有技术中,通常存在需要检测文本中同时包括两个以上的敏感词时,才认为该文本为不良信息,此时按照上述方式分别对两个以上的敏感词分别检索,该检索方式的检索效率较低。
发明内容
为了解决上述技术问题,本申请提供了一种用于文本中的敏感词的检索方法、装置、电子设备及存储介质。
根据第一方面,提供了一种文本中的敏感词的检索方法,包括:
分别以预先统计的敏感词长度集合中的各敏感词长度为截取窗口,在待检索文本进行遍历,依次截取文本子串;
对于各次截取的文本子串,判断文本子串是否为预设的敏感词集合中的敏感词;
若是,将作为敏感词的文本子串加入敏感词列表;
检测敏感词列表是否命中预设的敏感词规则列表中的预设的敏感词规则;各预设的敏感词规则中包括至少两个敏感词。
根据第二方面,提供了一种文本中的敏感词的检索装置,包括:
截取模块,用于分别以预先统计的敏感词长度集合中的各敏感词长度为截取窗口,在待检索文本进行遍历,依次截取文本子串;
判断模块,用于对于各次截取的文本子串,判断文本子串是否为预设的敏感词集合中的敏感词;
加入模块,用于若是,将作为敏感词的文本子串加入敏感词列表;
检测模块,用于检测敏感词列表是否命中预设的敏感词规则列表中的一条预设的敏感词规则;各预设的敏感词规则中包括至少两个敏感词。
根据第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如上的方法。
根据本申请的技术,通过将检索到的敏感词加入敏感词列表,并检测敏感词列表是否命中预设的敏感词规则列表中的一条预设的敏感词规则,若是,则可以推出待检索文本中包括命中的预设的敏感词规则中的至少两个敏感词。与现有技术的至少两个敏感词的检索方式相比,本申请通过上述方案对包括至少两个敏感词的敏感词规则进行检索,可以实现同时对至少两个敏感词进行检索,能够有效地节省检索耗时,提高检索效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是根据本申请第三实施例的示意图;
图4是根据本申请第四实施例的示意图;
图5是根据本申请第五实施例的示意图;
图6是用来实现本申请实施例的文本中的敏感词的检索方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请第一实施例的示意图;如图1所示,本实施例提供了一种文本中的敏感词的检索方法,具体可以包括如下步骤:
S101、分别以预先统计的敏感词长度集合中的各敏感词长度为截取窗口,在待检索文本进行遍历,依次截取文本子串;
S102、对于各次截取的文本子串,判断文本子串是否为预设的敏感词集合中的敏感词;若是,执行步骤S103;否则,返回步骤S101,基于前一次截取文字子串的位置,开始下一位置的遍历,继续截取文本子串;
S103、将作为敏感词的文本子串加入敏感词列表;
S104、检测敏感词列表是否命中预设的敏感词规则列表中的预设的敏感词规则;若是,确定待检索文本中包括命中的预设的敏感词规则中的至少两个敏感词。否则,返回步骤S101,基于前一次截取文字子串的位置,开始下一位置的遍历,继续截取文本子串;
本实施例中,各条预设的敏感词规则中包括至少两个敏感词。
本实施例的文本中的敏感词的检索方法的执行主体可以为文本中的敏感词的检索装置,该装置可以为一电子实体,或者也可以为采用软件集成的应用。
需要说明的是,本实施例的敏感词集合中可以包括预设的敏感词规则列表所有敏感词规则中包括的所有敏感词。
可选地,本实施例中预先统计的敏感词长度集合可以为基于对敏感词集合中的所有敏感词的长度进行统计而得到。例如,本实施例的敏感词的长度可以采用字节长度来表征,如可以为2个字节、3个字节、6个字节或者其他数量的字节。
本实施例的待检索文本中主要包括文字,或者还可以包括采用文本编码方式编码的表情符号,如emoji表情符号。
可选地,在步骤S101在实施时,可以将预先统计的敏感词长度集合中的各敏感词长度按照由小到大的顺序排列,按照由小到大的顺序,依次选取截取窗口。对于选取的每一个截取窗口,均要基于该截取窗口,在待检索文本中进行遍历,依次截取文本子串。在暂不考虑对文本子串的分析结果的情况下,对于一个固定的截取窗口,在待检索文本中从前至后依次遍历该截取窗口大小的文本子串,直至待检索文本结尾,该截取窗口的遍历结束。紧接着,按照截取窗口由小到大的顺序,从预先统计的敏感词长度集合中获取下一个较长的截取窗口,然后继续在待检索文本中从前至后依次遍历该截取窗口大小的文本子串,直至待检索文本结尾。以此类推,直至截取窗口为敏感词长度集合中最大的敏感词长度,并以该最大的敏感词长度为截取窗口,在待检索文本中从前至后依次遍历该截取窗口大小的文本子串,直至待检索文本结尾,此时所有遍历结束。
例如,以待检索文本为“abccbdasdfghkmvnbyuwodl”为例,若敏感词长度集合中包括的最小敏感词长度为2字节,以该长度为截取窗口,此时从前至后遍历待检索文本,依次截取的文本子串可以包括:ab、bc、cc、cb、bd、da,……,od、dl。同理,若下一个较大的敏感词长度为4字节,以该长度为截取窗口,此时从前至后遍历待检索文本,依次截取的文本子串可以包括:abcc、bccb、ccbd、cbda、bdas,……,uwod、wodl。依次类推,按照上述方式,可以获取到该待检索文本的所有大小的截取窗口对应截取到的所有文本子串。
上述是以不考虑文本子串是否为敏感词的分析结果,仅介绍遍历待检索文本,截取文本子串的一个流程。实际的业务应用中,可以按照上述流程进行遍历分析,具体是否需要遍历完截取的所有文本子串,还需要根据具体场景的需求来分析。例如,有的场景中,在边遍历边分析的过程中,根据步骤S104确定敏感词列表命中预设的敏感词规则列表中的一条预设的敏感词规则,此时可以认为该待检索文本命中敏感词规则,此时可以对该待检索文本进行拦截,并过滤。或者在其他一些场景下,可能需要检索该待检索文本一共命中几条预设的敏感词规则。在按照上述方式,命中一条预设的敏感词规则之后,记录命中的敏感词规则标识,删除敏感词列表,并继续按照上述方式进行分析,直至分析完该待检索文本,按照所有的截取窗口截取的所有文本子串,可以返回命中的各条预设的敏感词规则的标识。
本实施例的文本中的敏感词的检索方法,用于实现至少两个敏感词的检索,为了便于检索,可以预先设置各种预设的敏感词规则,构成预设的敏感词规则列表。每种敏感词规则中包括至少两个敏感词。具体地,可以通过检测待检索文本中检测到的敏感词列表,是否命中预设的敏感词规则列表中的某条预设的敏感词规则,若命中,则可以确定该待检索文本为不良信息,后续可以对该待检索文本进行拦截及过滤处理。
本实施例的文本中的敏感词的检索方法,通过采用上述技术方案,通过将检索到的敏感词加入敏感词列表,并检测敏感词列表是否命中预设的敏感词规则列表中的一条预设的敏感词规则,若是,则可以推出待检索文本中包括命中的预设的敏感词规则中的至少两个敏感词。与现有技术的至少两个敏感词的检索方式相比,本实施例通过对包括至少两个敏感词的敏感词规则进行检索,可以实现同时对至少两个敏感词进行检索,能够有效地节省检索耗时,提高检索效率。
图2是根据本申请第二实施例的示意图;如图2所示,本实施例的文本中的敏感词的检索方法,在上述图1所示实施例的技术方案的基础上,进一步更加详细地介绍本申请的技术方案。如图2所示,本实施例的文本中的敏感词的检索方法,具体可以包括如下步骤:
S201、从预先统计的敏感词长度集合中获取未被选取过作为截取窗口的、长度最小的敏感词长度,作为当前的截取窗口;
S202、按照从前到后的遍历顺序,确定本次截取的开始位置,从待检索文本中截取长度等于当前的截取窗口的文本子串;
需要说明的是,以各当前的截取窗口,从待检索文本中截取文本子串时,首次截取的时候,均是从待检索文本的开头开始截取。非首次截取,均是上一次截取的开始位置向后移动一个单位的长度,如待检索文本为英文文本时,一个单位的长度可以为一个字节。而若是中文文本时,一个单位的长度为一个汉字的长度,如两个字节。
S203、提取截取的文本子串的字节特征;
S204、根据预先统计的敏感词字节特征集合,检测文本子串的字节特征是否有效;若有效,执行步骤S207;否则,执行步骤S205;
可选地,在该步骤S204之前,还可以包括:提取预设的敏感词集合中的各敏感词的字节特征;基于预设的敏感词集合中的各敏感词的字节特征,生成敏感词字节特征集合。
例如,在生成敏感词字节特征集合时,可以提取预设的敏感词集合中的各敏感词的所有字节的特征,作为对应的敏感词的字节特征;或者也可以提取预设的敏感词集合中的各敏感词的指定字节的特征,作为对应的敏感词的字节特征。例如,敏感词的字节长度大于或者等于1、且小于或者等于3时,可以提取第1字节的特征作为该敏感词的字节特征;敏感词的字节长度大于3、且小于或者等于6时,可以提取第1字节和第3个字节的特征作为该敏感词的字节特征;敏感词的字节长度大于6时,可以提取第1字节、第3个字节以及第6个字节的特征作为该敏感词的字节特征。上述情况仅为举例,实际应用中,可以根据实际需求,选取其他指定字节的特征作为该敏感词的字节特征。
本实施例中,提取文本子串的字节特征与敏感词字节特征集合中各敏感词的字节特征的提取方式必须一致。
S205、判断当前的文本子串是否为待检索文本的结尾;若是,执行步骤S206;否则,返回步骤S202,开始下一位置的遍历,继续截取文本子串。
S206、判断当前的截取窗口是否为敏感词长度集合中最大的敏感词长度;若是,检索结束。否则,返回步骤S201,更新当前的截取窗口。
需要说明的是,本实施例中,若直到检索结束,还是未检索到该待检测文本未命中任何预设的敏感词规则,可以直接返回当前的待检索文本未命中预设的敏感词列表中的预设的敏感词规则,此时标识该待检索文本是良好、健康的,不需要拦截,可以进行发布。
本实施例中预设的敏感词规则可以基于预先统计而得到。例如,根据经验总结,可以发现同时包括两个或者多个敏感词的文本涉及政治敏感话题、不健康话题、其他违背公共社会良俗的话题或者其他互联网平台不被允许发布的话题,这样可以预先统计敏感词规则,采用其包括的两个或者多个敏感词来标识。为便于对敏感词规则进行标识,可以设置敏感词规则列表,在其中标识每个预设的敏感词规则的标识,且每条敏感词规则对应配置有包括的至少两个敏感词的标识,每个敏感词的标识对应敏感词集合中的一个敏感词。
S207、确定文本子串为敏感词字节特征集合中、与文本子串的字节特征相同的字节特征对应的敏感词;执行步骤S208;
S208、将作为敏感词的文本子串加入敏感词列表;执行步骤S209;
S209、根据预先生成的敏感词规则索引表,获取作为敏感词的文本子串对应的规则标识;执行步骤S210;
S210、根据规则标识,从预设的敏感词规则列表中获取规则标识对应的目标敏感词规则;执行步骤S211;
S211、判断敏感词列表中包括的敏感词是否命中目标敏感词规则中包括的敏感词;若命中,执行步骤S212;否则,返回步骤S205;
实际应用中,获取到敏感词列表后,可以将该敏感词列表直接与预设敏感词规则列表中的每个敏感词规则进行对比,判断敏感词列表中是否包括敏感词列表中的每个敏感词。但是这种比对,需要将敏感词列表挨个与每个敏感词规则列表进行对比,效率较低。因此,本实施例中,可以预先生成敏感词规则索引表。在该敏感词规则索引表中能够找到每个敏感词对应的敏感词规则的标识。例如,具体可以根据预设的敏感词规则列表中的各预设的敏感词规则以及各预设的敏感词规则中包括的敏感词,生成敏感词规则索引表,用于实现敏感词到敏感词规则的索引。如基于该敏感词规则索引表,可以查询到敏感词A对应的敏感词规则有标识分别为1、2、4的敏感词规则,还可以查询到敏感词B对应的敏感词规则有标识为1、5、9的敏感词规则,等等之类的。这样,在确定当前的文本子串为敏感词时,直接根据该敏感词利用敏感词规则索引表,可以获取到对应的敏感词规则的标识,然后从敏感词规则列表中获取其敏感词规则,即该敏感词规则中包括的至少两个敏感词。实际应用中,一个敏感词对应的包括该敏感词的敏感词规则的条数非常有限,此时仅需要将该敏感词列表与包括该敏感词的几条敏感词规则进行比对,即可确定该敏感词列表是否命中某条敏感词规则。与现有技术中,与所有的敏感词规则分别比对,能够有效地提高两个以上的敏感词的检索效率。
S212、返回待检索文本命中的目标敏感词规则的标识。
此时,可以确定待检索文本中包括不良信息,还可以进一步直接对该待检索文本进行拦截及过滤处理。
本实施例的文本中的敏感词的检索方法,用于实现两个以上敏感词的检索。如上述方案所示,本实施例中,通过将两个以上的敏感词设置为一条预设的敏感词规则,通过检索该待检索文本中包括的敏感词列表是否命中预设的敏感词规则,来实现对两个以上敏感词的检索。
本实施例的文本中的敏感词的检索方法,通过采用上述技术方案,通过判断截取的文本子串的字节特征是否命中预设的敏感词字节特征中的字节特征,来判断该文本子串是否为敏感词,进而在该文本子串为敏感词时,将该敏感词加入敏感词列表中,并进一步检测敏感词列表是否命中预设的敏感词规则,并在命中时,返回待检索文本命中的预设的敏感词规则的标识。本实施例不用对每个敏感词单独进行检索,能够有效地缩短两个以上敏感词的检索时间,提高检索效率。
图3是根据本申请第三实施例的示意图;如图3所示,本实施例的文本中的敏感词的检索方法,在上述图2所示实施例的技术方案的基础上,进一步更加详细地介绍本申请的技术方案。如图3所示,本实施例的文本中的敏感词的检索方法,具体可以包括如下步骤:
S301、获取待检索文本和检索参数;
本实施例的检索参数可以包括政治敏感以及公共良俗等等。例如,在不同的互联网平台中,可能对发布的内容监控的标准不一样。有些平台中,不能涉及政治敏感话题,有的平台中不能包括有损坏公共良俗的内容,而有的平台还可能既不能有敏感话题,不能包括有损坏公共良俗的内容甚至更多的条件,此时检索参数可能包括有多个,等等。
也就是说,与上述图2所示实施例相比,本实施例中,敏感词集合是基于检索参数建立的,每个检索参数,都分别预先建立有对应的敏感词集合、敏感词长度集合、敏感词字节特征集合,敏感词规则列表、敏感词规则索引表等等。也可以认为上述图2所示实施例的方案在一个检索参数条件下执行的,或者也可以认为上述图2所示实施例的方案不区分检索参数,所有检索参数都适用。
S302、从预先统计的该检索参数对应的敏感词长度集合中获取未被选取过作为截取窗口的、长度最小的敏感词长度,作为当前的截取窗口;
S303、按照从前到后的遍历顺序,确定本次截取的开始位置,从待检索文本中截取长度等于当前的截取窗口的文本子串;
S304、提取截取的文本子串的字节特征;
S305、根据预先统计的该检索参数对应的敏感词字节特征集合,检测文本子串的字节特征是否有效;若有效,执行步骤S308;否则,执行步骤S306;
S306、判断当前的文本子串是否为待检索文本的结尾;若是,执行步骤S307;否则,返回步骤S303,开始下一位置的遍历,继续截取文本子串。
S307、判断当前的截取窗口是否为敏感词长度集合中最大的敏感词长度;若是,检索结束,执行步骤S320。否则,返回步骤S302,更新当前的截取窗口。
需要说明的是,上述步骤S302-S307与上述图2所示实施例的步骤S201-S206实施相同,详细可以参考上述图2所示实施例的记载,在此不再赘述。
需要说明的是,敏感词字节特征集合中包括的各敏感词的字节特征可以采用该敏感词的所有字节的特征,会占有的存储空间较大,为了减少存储空间,实际应用中,可以仅仅包括指定字节的特征。此时若直接认为文本子串,是敏感词字节特征集合中与文本子串命的字节特征相同的字节特征对应的敏感词,会存在一定的误差。此时上述步骤S305判断有效时,仅能够初步确定该文本子串疑似为敏感词,本实施例中还需要采用下面的步骤S308-S313进一步准确确定文本子串是否为敏感词。
S308、提取文本子串的特征数据;
例如,本实施例中,可以先将文本子串进行数字签名化处理,得到数据序列;然后将数据序列转换为预设长度的整形数据,作为文本子串的特征数据。预设长度可以根据实际需求来设置,经过该方式的处理,可以保证所有的文本子串的特征数据的大小都相同,都等于预设长度。
S309、对文本子串的特征数据进行哈希散列,得到哈希位置信息;
该步骤的实现可以参考相关哈希散列的处理方式,在此不再赘述。
S310、判断哈希位置信息在该检索参数对应的预设的哈希表中是否有效;若有效,执行步骤S311;否则,执行步骤S306;
S311、检测预设的哈希表中哈希位置信息对应的位置是否仅存储一个已知特征数据;若是,执行步骤S312;否则执行步骤S313;
S312、确定文本子串为预设的哈希表中哈希位置信息对应的位置存储的已知特征数据对应的敏感词;执行步骤S315;
S313、从预设的哈希表中哈希位置信息对应的位置存储的至少两个已知特征数据中,获取与文本子串的特征数据一致的目标特征数据;执行步骤S314;
进一步可选地,在步骤S310之前,还可以包括如下步骤:
(1)提取预设的敏感词集合中的各敏感词的特征数据;
(2)对各敏感词的特征数据进行哈希散列,得到哈希位置信息;
(3)对于得到的各哈希位置信息,检测哈希位置信息是否仅对应一个敏感词;若是,执行步骤(4);否则,执行步骤(5);
(4)建立该哈希表,在该哈希表中该哈希位置信息对应的位置,存储与哈希位置信息对应的敏感词的特征数据;结束。
(5)确定该哈希位置信息对应至少两个敏感词;执行步骤(6);
(6)在哈希表中该哈希位置信息对应位置下挂载至少两个敏感词的特征数据。例如,具体可以通过挂载节点的方式,实现在一个哈希位置上挂载至少两个敏感词的特征数据。
通过该方式,可以解决哈希表中哈希位置信息冲突的问题,对于冲突的哈希位置信息,可以在该位置下挂载节点存储敏感词的特征数据,以保证哈希表中各敏感词的特征数据都能够准确地存储,以便于后续基于哈希表检测文本子串是否为敏感词。需要说明的是,本实施例中,还可以在敏感词集合中为每个敏感词配置标识,如可以采用字母、数字或者其组合作为敏感词的标识。对应地,还可以建立一个敏感词特征数据的集合,其中可以存储每一个敏感词的特征数据及对应的敏感词标识。这样,根据哈希表中的每一个敏感词的特征数据,可以获知其对应的敏感词标识。
S314、确定文本子串为目标特征数据对应的敏感词;执行步骤S315;
S315、将作为敏感词的文本子串加入敏感词列表;执行步骤S316;
S316、根据预先生成的敏感词规则索引表,获取作为该敏感词的文本子串对应的规则标识;执行步骤S317;
可选地,本实施例在实施时,在步骤S314确定文本子串为目标特征数据对应的敏感词时,可以获取到该敏感词的标识,如可以从上述敏感词特征数据的集合找那个获取到目标特征数据对应的敏感词标识。且本实施例中敏感词列表中可以采用包括的各个敏感词的标识来表示,对应地,将敏感词的标识加入该敏感词列表,即表示将该敏感词加入该敏感词列表。对于每个敏感词,可以根据敏感词规则索引表,获取到其对应的规则标识。
S317、根据规则标识,从预设的敏感词规则列表中获取规则标识对应的目标敏感词规则;执行步骤S318;
S318、判断敏感词列表中包括的敏感词是否命中目标敏感词规则中包括的敏感词;若命中,执行步骤S319;否则,返回步骤S306;
S319、记录待检索文本命中的目标敏感词规则的标识;返回步骤S306。
S320、统计该待检索文本中一共命中多少条预设的敏感词规则,并返回。
与上述图2所示实施例不同的是,上述图2所示实施例中以检索到待检索文本命中一条预设的敏感词规则,便停止检索为例,此时便认为该待检索文本包括不良信息,可以直接拦截及过滤。而本实施例中,以对待检索文本中所有可能的文本子串都进行检索为例,即直至检索到当前的截取窗口为敏感词长度集合中最大的敏感词长度,且当前截取的文本子串为待检索文本的结尾,检索完毕,此时可以统计该待检索文本中一共命中多少条预设的敏感词规则。以统计该待检索文本中一共命中多少条预设的敏感词规则。例如,实际应用中,可以设置命中预设条数预设的敏感词规则,才拦截该待检索文本。此时,可以判断命中的条数是否达到预设条数,若达到,则拦截,否则可以不拦截。或者实际应用中,也可以在检索完之后,不做任何处理,直接返回命中的敏感词规则的标识或者未命中任何敏感词规则的信息,以供研发人员参考。
需要说明的是,在检索过程中,该敏感词列表类似于一个序列,每次检索到敏感词后,将敏感词加入该敏感词列表,并比对该敏感词规则是否命中一条预设的敏感词规则。在没有命中时,按照上述方案继续检索,将再次检索到的敏感词加入该敏感词列表,然后比对该敏感词列表是否命中一条预设的敏感词规则,以此类推,敏感词列表中加入的敏感词越来越多。例如,敏感词列表中可能包括有A、C、D、F、G等等,在敏感词F加入敏感词列表时,可以检测到敏感词列表命中包括有敏感词A、D、F的敏感词规则。在敏感词G计入敏感词列表中,可以检测到敏感词列表命中包括有敏感词D和G的敏感词规则,等等。
本实施例的文本中的敏感词的检索方法,通过采用上述技术方案,可以在初步确定文本子串疑似为敏感词时,进一步提取文本子串的特征数据,对文本子串的特征数据进行哈希散列,得到哈希位置信息,并基于预设的哈希表来进一步检测该文本子串是否为敏感词,能够进一步提高加入至敏感词列表中的敏感词的准确性,从而能够进一步提高包括两个以上敏感词的检索效率。
图4是根据本申请第四实施例的示意图;如图4所示,本实施例提供一种文本中的敏感词的检索装置400,包括:
截取模块401,用于分别以预先统计的敏感词长度集合中的各敏感词长度为截取窗口,在待检索文本进行遍历,依次截取文本子串;
判断模块402,用于对于各次截取的文本子串,判断文本子串是否为预设的敏感词集合中的敏感词;
加入模块403,用于若是,将作为敏感词的文本子串加入敏感词列表;
检测模块404,用于检测敏感词列表是否命中预设的敏感词规则列表中的一条预设的敏感词规则;各预设的敏感词规则中包括至少两个敏感词。
本实施例的文本中的敏感词的检索装置400,通过采用上述模块实现文本中的敏感词的检索的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图5是根据本申请第五实施例的示意图;如图5所示,本实施例提供一种文本中的敏感词的检索装置400,在上述图4所示实施例的技术方案的基础上,进一步更加详细地描述本申请的技术方案。
如图5所示,本实施例的文本中的敏感词的检索装置400中,判断模块402,包括:
提取单元4021,用于提取文本子串的字节特征;
检测单元4022,用于根据预先生成的敏感词字节特征集合,检测文本子串的字节特征是否有效;
确定单元4023,用于若是,确定文本子串为预设的敏感词集合中的敏感词。
进一步可选地,如图5所示,本实施例的文本中的敏感词的检索装置400中,还包括:
提取模块405,用于提取预设的敏感词集合中的各敏感词的字节特征;
特征集合生成模块406,用于基于预设的敏感词集合中的各敏感词的字节特征,生成敏感词字节特征集合。
进一步可选地,提取模块405,用于:
提取预设的敏感词集合中的各敏感词的所有字节的特征,作为对应的敏感词的字节特征;或者
提取预设的敏感词集合中的各敏感词的指定字节的特征,作为对应的敏感词的字节特征。
进一步可选地,如图5所示,本实施例的文本中的敏感词的检索装置400中,判断模块402还包括哈希处理单元4024;
提取单元4021,还用于提取文本子串的特征数据;
哈希处理单元4024,用于对文本子串的特征数据进行哈希散列,得到哈希位置信息;
检测单元4022,还用于判断哈希位置信息在预设的哈希表中是否有效;
确定单元4023,还用于若有效,确定文本子串为预设的哈希表中哈希位置信息对应的位置存储的已知特征数据对应的敏感词。
进一步可选地,提取单元4021,用于:
将文本子串进行数字签名化处理,得到数据序列;
将数据序列转换为预设长度的整形数据,作为文本子串的特征数据。
进一步可选地,检测单元4022,还用于:
检测并确定预设的哈希表中哈希位置信息对应的位置仅存储一个已知特征数据。
进一步可选地,如图5所示,本实施例的文本中的敏感词的检索装置400中,判断模块402还包括获取单元4025;
获取单元4025,用于检测并确定预设的哈希表中哈希位置信息对应的位置存储有至少两个已知特征数据时,从至少两个已知特征数据中获取与文本子串的特征数据一致的目标特征数据;
确定单元4023,还用于确定文本子串为目标特征数据对应的敏感词。
进一步可选地,如图5所示,本实施例的文本中的敏感词的检索装置400中,还包括哈希处理模块407、建立模块408和存储模块409;
提取模块405,还用于提取预设的敏感词集合中的各敏感词的特征数据;
哈希处理模块407,用于对各敏感词的特征数据进行哈希散列,得到哈希位置信息;
建立模块408。用于建立预设的哈希表;
存储模块409,用于在预设的哈希表中各哈希位置信息对应的位置,存储与哈希位置信息对应的敏感词的特征数据;
进一步地,检测模块404,还用于:
对于各哈希位置信息,检测并确定哈希位置信息是否仅对应一个敏感词;
进一步地,存储模块409,还用于若哈希位置信息对应至少两个敏感词时,在预设的哈希表中哈希位置信息对应位置下挂载至少两个敏感词的特征数据。
进一步可选地,检测模块404,用于:
根据预先生成的敏感词规则索引表,获取作为敏感词的文本子串对应的规则标识;
根据规则标识,从预设的敏感词规则列表中获取规则标识对应的目标敏感词规则;
判断敏感词列表中包括的敏感词是否与目标敏感词规则中包括的敏感词一致;
若一致,确定敏感词列表命中预设的敏感词规则列表中的一条预设的敏感词规则。
进一步可选地,如图5所示,本实施例的文本中的敏感词的检索装置400中,还包括:
索引表生成模块410,用于根据预设的敏感词规则列表中的各预设的敏感词规则以及各预设的敏感词规则中包括的敏感词,生成敏感词规则索引表。
本实施例的文本中的敏感词的检索装置400,通过采用上述模块实现文本中的敏感词的检索的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的实现文本中的敏感词的检索方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的文本中的敏感词的检索方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本中的敏感词的检索方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本中的敏感词的检索方法对应的程序指令/模块(例如,附图4和附图5所示的相关模块)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本中的敏感词的检索方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储实现文本中的敏感词的检索方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至实现文本中的敏感词的检索方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现文本中的敏感词的检索方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与实现文本中的敏感词的检索方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过采用上述技术方案,通过将检索到的敏感词加入敏感词列表,并检测敏感词列表是否命中预设的敏感词规则列表中的一条预设的敏感词规则,若是,则可以推出待检索文本中包括命中的预设的敏感词规则中的至少两个敏感词。与现有技术的至少两个敏感词的检索方式相比,可以实现同时对至少两个敏感词进行检索,能够有效地节省检索耗时,提高检索效率。
根据本申请实施例的技术方案,通过采用上述技术方案,通过判断截取的文本子串的字节特征是否命中预设的敏感词字节特征中的字节特征,来判断该文本子串是否为敏感词,进而在该文本子串为敏感词时,将该敏感词加入敏感词列表中,并进一步检测敏感词列表是否命中预设的敏感词规则,并在命中时,返回待检索文本命中的预设的敏感词规则的标识。本申请不用对每个敏感词单独进行检索,能够有效地缩短两个以上敏感词的检索时间,提高检索效率。
根据本申请实施例的技术方案,通过采用上述技术方案,可以在初步确定文本子串疑似为敏感词时,进一步提取文本子串的特征数据,对文本子串的特征数据进行哈希散列,得到哈希位置信息,并基于预设的哈希表来进一步检测该文本子串是否为敏感词,能够进一步提高加入至敏感词列表中的敏感词的准确性,从而能够进一步提高包括两个以上敏感词的检索效率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (24)

1.一种文本中的敏感词的检索方法,其特征在于,包括:
分别以预先统计的敏感词长度集合中的各敏感词长度为截取窗口,在待检索文本进行遍历,依次截取文本子串;
对于各次截取的文本子串,判断文本子串是否为预设的敏感词集合中的敏感词;
若是,将作为敏感词的文本子串加入敏感词列表;
检测敏感词列表是否命中预设的敏感词规则列表中的预设的敏感词规则;各预设的敏感词规则中包括至少两个敏感词。
2.根据权利要求1的方法,其特征在于,判断文本子串是否为预设的敏感词集合中的敏感词,包括:
提取文本子串的字节特征;
根据预先生成的敏感词字节特征集合,检测文本子串的字节特征是否有效;
若是,确定文本子串为预设的敏感词集合中的敏感词。
3.根据权利要求2的方法,其特征在于,根据预先生成的敏感词字节特征集合,检测文本子串的字节特征是否有效之前,方法包括:
提取预设的敏感词集合中的各敏感词的字节特征;
基于预设的敏感词集合中的各敏感词的字节特征,生成敏感词字节特征集合。
4.根据权利要求3的方法,其特征在于,提取预设的敏感词集合中的各敏感词的字节特征,包括:
提取预设的敏感词集合中的各敏感词的所有字节的特征,作为对应的敏感词的字节特征;或者
提取预设的敏感词集合中的各敏感词的指定字节的特征,作为对应的敏感词的字节特征。
5.根据权利要求2-4任一的方法,其特征在于,若文本子串的字节特征有效,确定文本子串为预设的敏感词集合中的敏感词之前,方法还包括:
提取文本子串的特征数据;
对文本子串的特征数据进行哈希散列,得到哈希位置信息;
判断哈希位置信息在预设的哈希表中是否有效;
若有效,确定文本子串为预设的哈希表中哈希位置信息对应的位置存储的已知特征数据对应的敏感词。
6.根据权利要求5的方法,其特征在于,提取文本子串的特征数据,包括:
将文本子串进行数字签名化处理,得到数据序列;
将数据序列转换为预设长度的整形数据,作为文本子串的特征数据。
7.根据权利要求5的方法,其特征在于,在哈希位置信息在预设的哈希表中有效时,确定文本子串为预设的哈希表中哈希位置信息对应的位置存储的已知特征数据对应的敏感词之前,方法还包括:
检测并确定预设的哈希表中哈希位置信息对应的位置仅存储一个已知特征数据。
8.根据权利要求7的方法,其特征在于,若文本子串的字节特征有效,确定文本子串为预设的敏感词集合中的敏感词之前,方法还包括:
检测并确定预设的哈希表中哈希位置信息对应的位置存储有至少两个已知特征数据时,从至少两个已知特征数据中获取与文本子串的特征数据一致的目标特征数据;
确定文本子串为目标特征数据对应的敏感词。
9.根据权利要求6-8任一的方法,其特征在于,判断哈希位置信息在预设的哈希表中是否有效之前,方法还包括:
提取预设的敏感词集合中的各敏感词的特征数据;
对各敏感词的特征数据进行哈希散列,得到哈希位置信息;
建立预设的哈希表;
在预设的哈希表中各哈希位置信息对应的位置,存储与哈希位置信息对应的敏感词的特征数据;
进一步地,在预设的哈希表中各哈希位置信息对应的位置,存储与哈希位置信息对应的敏感词的特征数据之前,方法还包括:
对于各哈希位置信息,检测并确定哈希位置信息是否仅对应一个敏感词;
进一步地,若哈希位置信息对应至少两个敏感词时,在预设的哈希表中哈希位置信息对应位置下挂载至少两个敏感词的特征数据。
10.根据权利要求1-4、6-8任一的方法,其特征在于,检测敏感词列表是否命中预设的敏感词规则列表中的一条预设的敏感词规则,包括:
根据预先生成的敏感词规则索引表,获取作为敏感词的文本子串对应的规则标识;
根据规则标识,从预设的敏感词规则列表中获取规则标识对应的目标敏感词规则;
判断敏感词列表中包括的敏感词是否与目标敏感词规则中包括的敏感词一致;
若一致,确定敏感词列表命中预设的敏感词规则列表中的一条预设的敏感词规则。
11.根据权利要求10的方法,其特征在于,根据预先生成的敏感词规则索引表,获取作为敏感词的文本子串对应的规则标识之前,方法还包括:
根据预设的敏感词规则列表中的各预设的敏感词规则以及各预设的敏感词规则中包括的敏感词,生成敏感词规则索引表。
12.一种文本中的敏感词的检索装置,其特征在于,包括:
截取模块,用于分别以预先统计的敏感词长度集合中的各敏感词长度为截取窗口,在待检索文本进行遍历,依次截取文本子串;
判断模块,用于对于各次截取的文本子串,判断文本子串是否为预设的敏感词集合中的敏感词;
加入模块,用于若是,将作为敏感词的文本子串加入敏感词列表;
检测模块,用于检测敏感词列表是否命中预设的敏感词规则列表中的一条预设的敏感词规则;各预设的敏感词规则中包括至少两个敏感词。
13.根据权利要求12的装置,其特征在于,判断模块,包括:
提取单元,用于提取文本子串的字节特征;
检测单元,用于根据预先生成的敏感词字节特征集合,检测文本子串的字节特征是否有效;
确定单元,用于若是,确定文本子串为预设的敏感词集合中的敏感词。
14.根据权利要求13的装置,其特征在于,装置还包括:
提取模块,用于提取预设的敏感词集合中的各敏感词的字节特征;
特征集合生成模块,用于基于预设的敏感词集合中的各敏感词的字节特征,生成敏感词字节特征集合。
15.根据权利要求14的装置,其特征在于,提取模块,用于:
提取预设的敏感词集合中的各敏感词的所有字节的特征,作为对应的敏感词的字节特征;或者
提取预设的敏感词集合中的各敏感词的指定字节的特征,作为对应的敏感词的字节特征。
16.根据权利要求14或15的装置,其特征在于,判断模块还包括哈希处理单元;
提取单元,还用于提取文本子串的特征数据;
哈希处理单元,用于对文本子串的特征数据进行哈希散列,得到哈希位置信息;
检测单元,还用于判断哈希位置信息在预设的哈希表中是否有效;
确定单元,还用于若有效,确定文本子串为预设的哈希表中哈希位置信息对应的位置存储的已知特征数据对应的敏感词。
17.根据权利要求16的装置,其特征在于,提取单元,用于:
将文本子串进行数字签名化处理,得到数据序列;
将数据序列转换为预设长度的整形数据,作为文本子串的特征数据。
18.根据权利要求16的装置,其特征在于,检测单元,还用于:
检测并确定预设的哈希表中哈希位置信息对应的位置仅存储一个已知特征数据。
19.根据权利要求18的装置,其特征在于,判断模块,还包括获取单元;
获取单元,用于检测并确定预设的哈希表中哈希位置信息对应的位置存储有至少两个已知特征数据时,从至少两个已知特征数据中获取与文本子串的特征数据一致的目标特征数据;
确定单元,还用于确定文本子串为目标特征数据对应的敏感词。
20.根据权利要求17-19任一的装置,其特征在于,装置还包括哈希处理模块、建立模块和存储模块;
提取模块,还用于提取预设的敏感词集合中的各敏感词的特征数据;
哈希处理模块,用于对各敏感词的特征数据进行哈希散列,得到哈希位置信息;
建立模块。用于建立预设的哈希表;
存储模块,用于在预设的哈希表中各哈希位置信息对应的位置,存储与哈希位置信息对应的敏感词的特征数据;
进一步地,检测模块,还用于:
对于各哈希位置信息,检测并确定哈希位置信息是否仅对应一个敏感词;
进一步地,存储模块,还用于若哈希位置信息对应至少两个敏感词时,在预设的哈希表中哈希位置信息对应位置下挂载至少两个敏感词的特征数据。
21.根据权利要求12-15、17-19任一的装置,其特征在于,检测模块,用于:
根据预先生成的敏感词规则索引表,获取作为敏感词的文本子串对应的规则标识;
根据规则标识,从预设的敏感词规则列表中获取规则标识对应的目标敏感词规则;
判断敏感词列表中包括的敏感词是否与目标敏感词规则中包括的敏感词一致;
若一致,确定敏感词列表命中预设的敏感词规则列表中的一条预设的敏感词规则。
22.根据权利要求21的装置,其特征在于,装置还包括:
索引表生成模块,用于根据预设的敏感词规则列表中的各预设的敏感词规则以及各预设的敏感词规则中包括的敏感词,生成敏感词规则索引表。
23.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行权利要求1-11中任一项的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,计算机指令用于使计算机执行权利要求1-11中任一项的方法。
CN202010457241.4A 2020-05-26 2020-05-26 文本中的敏感词的检索方法、装置、电子设备及存储介质 Active CN111737398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010457241.4A CN111737398B (zh) 2020-05-26 2020-05-26 文本中的敏感词的检索方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010457241.4A CN111737398B (zh) 2020-05-26 2020-05-26 文本中的敏感词的检索方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111737398A true CN111737398A (zh) 2020-10-02
CN111737398B CN111737398B (zh) 2023-06-23

Family

ID=72647687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010457241.4A Active CN111737398B (zh) 2020-05-26 2020-05-26 文本中的敏感词的检索方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111737398B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380411A (zh) * 2020-11-10 2021-02-19 北京达佳互联信息技术有限公司 敏感词处理方法、装置、电子设备、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306580A (ja) * 2000-04-27 2001-11-02 Matsushita Electric Ind Co Ltd 音楽データベース検索装置
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质
CN110457428A (zh) * 2019-06-26 2019-11-15 北京印刷学院 一种敏感词检测过滤方法、装置与电子设备
CN111159329A (zh) * 2019-12-24 2020-05-15 深圳市优必选科技股份有限公司 敏感词检测方法、装置、终端设备和计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306580A (ja) * 2000-04-27 2001-11-02 Matsushita Electric Ind Co Ltd 音楽データベース検索装置
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质
WO2019153605A1 (zh) * 2018-02-06 2019-08-15 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质
CN110457428A (zh) * 2019-06-26 2019-11-15 北京印刷学院 一种敏感词检测过滤方法、装置与电子设备
CN111159329A (zh) * 2019-12-24 2020-05-15 深圳市优必选科技股份有限公司 敏感词检测方法、装置、终端设备和计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MUSKAN GARG, MUKESH KUMAR: "TWCM Twitter Word Co-occurrence Model for Event Detection", 8TH INTERNATIONAL CONFERENCE ON ADVANCES IN COMPUTING & COMMUNICATIONS (ICACC-2018), vol. 43 *
余敦辉;张笑笑;付聪;张万山;: "基于决策树的敏感词变形体识别算法研究及应用", 计算机应用研究, no. 05 *
吕青松;曹书林;王一帆;尹乾;郑新;: "面向中文搜索引擎的网页结构化信息获取系统的设计与实现", 信息与电脑(理论版), no. 23 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380411A (zh) * 2020-11-10 2021-02-19 北京达佳互联信息技术有限公司 敏感词处理方法、装置、电子设备、系统及存储介质
CN112380411B (zh) * 2020-11-10 2024-01-09 北京达佳互联信息技术有限公司 敏感词处理方法、装置、电子设备、系统及存储介质

Also Published As

Publication number Publication date
CN111737398B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
TWI729472B (zh) 特徵詞的確定方法、裝置和伺服器
US10990511B2 (en) Apparatus and application interface traversing method
CN112559086A (zh) 小程序页面渲染方法、装置、电子设备及可读存储介质
CN112380847B (zh) 兴趣点处理方法、装置、电子设备及存储介质
CN111460289A (zh) 新闻资讯的推送方法和装置
CN112115313B (zh) 正则表达式的生成、数据提取方法、装置、设备及介质
CN111737966B (zh) 文档重复度检测方法、装置、设备和可读存储介质
CN110647472A (zh) 崩溃信息统计方法、装置、计算机设备及存储介质
CN106301979B (zh) 检测异常渠道的方法和系统
CN111586695A (zh) 短信识别方法及相关设备
CN112183052B (zh) 一种文档重复度检测方法、装置、设备和介质
CN110427622A (zh) 语料标注的评估方法、装置及存储介质
CN114048227A (zh) Sql语句异常检测方法、装置、设备及存储介质
CN111737398B (zh) 文本中的敏感词的检索方法、装置、电子设备及存储介质
US20210216710A1 (en) Method and apparatus for performing word segmentation on text, device, and medium
CN111984876A (zh) 兴趣点处理方法、装置、设备及计算机可读存储介质
US20140309985A1 (en) Optimizing generation of a regular expression
CN111966846A (zh) 图像查询方法、装置、电子设备和存储介质
CN108989902B (zh) 一种弹幕消息的处理方法、装置、终端和存储介质
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质
CN114519153A (zh) 一种网页历史记录显示方法、装置、设备及存储介质
CN113656731A (zh) 广告页面的处理方法、装置、电子设备和存储介质
CN112101012A (zh) 互动领域确定方法、装置、电子设备及存储介质
CN112182409A (zh) 数据处理方法、装置、设备及计算机存储介质
CN114861062B (zh) 信息过滤方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant