CN111539206A - 一种确定敏感信息的方法、装置、设备及存储介质 - Google Patents

一种确定敏感信息的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111539206A
CN111539206A CN202010343615.XA CN202010343615A CN111539206A CN 111539206 A CN111539206 A CN 111539206A CN 202010343615 A CN202010343615 A CN 202010343615A CN 111539206 A CN111539206 A CN 111539206A
Authority
CN
China
Prior art keywords
sensitive
participles
target
determining
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010343615.XA
Other languages
English (en)
Other versions
CN111539206B (zh
Inventor
李瑞男
狄潇然
张亚泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010343615.XA priority Critical patent/CN111539206B/zh
Publication of CN111539206A publication Critical patent/CN111539206A/zh
Application granted granted Critical
Publication of CN111539206B publication Critical patent/CN111539206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种确定敏感信息的方法、装置、设备及存储介质,包括:获取文本信息中的多个目标分词,并确定该多个目标分词中各个分词分别对应的敏感场景,然后,根据各个敏感场景分别对应的分词数量,可以确定文本信息是否为敏感信息。这样,即使属于敏感信息的文本信息中不包含显著敏感词,也可以是根据文本信息中各个分词对应的敏感场景来识别出该敏感信息。

Description

一种确定敏感信息的方法、装置、设备及存储介质
技术领域
本申请涉及信息处理技术领域,特别是涉及一种确定敏感信息的方法、装置、设备及存储介质。
背景技术
随着互联网的发展,网络上存在大量的文本信息,如可以是网民针对于一些事件、新闻等表达自己的意见与看法的文章等。而这些文本信息中可能存在部分敏感信息,诸如暴力、政治偏见等敏感信息。为了净化网络环境,通常需要对网络中的一些敏感信息进行过滤。
目前,通常是利用一些能够显著敏感词来确定文本信息是否为敏感信息。当文本信息中包含该显著敏感词时,则可以判定该文本信息为敏感信息,并从众多文本信息中过滤掉该敏感信息。但是,实际应用中,基于显著敏感词从文本信息中过滤出敏感信息的效果较差,剩余的文本信息中仍然存在大量敏感信息无法被过滤。
发明内容
本申请实施例提供了一种确定敏感信息的方法及装置,以确定出文本信息中的敏感信息,从而实现对文本信息中的敏感信息的过滤。
第一方面,本申请实施例提供了一种确定敏感信息的方法,所述方法包括:
获取文本信息中的多个目标分词;
确定所述多个目标分词中各个分词分别对应的敏感场景;
根据各个敏感场景分别对应的分词数量,确定所述文本信息是否为敏感信息。
在一种可能的实施方式中,所述根据各个敏感场景分别对应的分词数量,确定所述文本信息是否为敏感信息,包括:
确定第一分词所属的第一目标敏感场景,所述第一分词为所述多个目标分词中的任意一个分词;
确定与所述第一目标敏感场景具有依赖关系的第二目标敏感场景,所述第二目标敏感场景包括一个或者多个敏感场景;
确定所述目标分词集合中属于所述第二目标敏感场景的分词的数量,作为所述第一分词对应的依赖分词数量;
计算所述多个目标分词中各个分词对应的依赖分词数量之和,得到第一和值;
当所述第一和值大于敏感阈值,则确定所述文本信息为敏感信息。
在一种可能的实施方式中,所述方法还包括:
计算所述多个目标分词中各个分词对应的第二目标敏感场景的数量之和,得到第二和值;
根据所述第二和值,计算出所述敏感阈值。
在一种可能的实施方式中,所述根据所述第二和值,计算出所述敏感阈值,包括:
根据所述第二和值以及预设调节因子,计算出所述敏感阈值。
在一种可能的实施方式中,所述获取文本信息中的多个目标分词,包括:
对所述文本信息进行分词,得到分词集合,所述分词集合包括多个分词;
将所述分词集合中的分词与第一预设词库中的非显著敏感词进行匹配,并将匹配成功的分词确定为所述目标分词,得到所述多个目标分词。
在一种可能的实施方式中,所述确定所述多个目标分词中各个分词分别对应的敏感场景,包括:
根据预先建立的分词与敏感场景的对应关系,确定与所述多个目标分词中各个分词分别对应的敏感场景。
在一种可能的实施方式中,所述方法还包括:
将所述文本信息中的各个分词与第二预设词库中的显著敏感词进行匹配;
当所述文本信息中的各个分词中存在与所述第二预设词库中的显著敏感词匹配的分词时,确定所述文本信息为敏感信息。
第二方面,本申请实施例还提供了一种的装置,所述装置包括:
获取模块,用于获取文本信息中的多个目标分词;
第一确定模块,用于确定所述多个目标分词中各个分词分别对应的敏感场景;
第二确定模块,用于根据各个敏感场景分别对应的分词数量,确定所述文本信息是否为敏感信息。
在一种可能的实施方式中,所述第二确定模块,包括:
第一确定单元,用于确定第一分词所属的第一目标敏感场景,所述第一分词为所述多个目标分词中的任意一个分词;
第二确定单元,用于确定与所述第一目标敏感场景具有依赖关系的第二目标敏感场景,所述第二目标敏感场景包括一个或者多个敏感场景;
第三确定单元,用于确定所述目标分词集合中属于所述第二目标敏感场景的分词的数量,作为所述第一分词对应的依赖分词数量;
计算单元,用于计算所述多个目标分词中各个分词对应的依赖分词数量之和,得到第一和值;
第四确定单元,用于当所述第一和值大于敏感阈值,则确定所述文本信息为敏感信息。
在一种可能的实施方式中,所述装置还包括:
第一计算模块,用于计算所述多个目标分词中各个分词对应的第二目标敏感场景的数量之和,得到第二和值;
第二计算模块,用于根据所述第二和值,计算出所述敏感阈值。
在一种可能的实施方式中,所述第二计算模块,具体用于根据所述第二和值以及预设调节因子,计算出所述敏感阈值。
在一种可能的实施方式中,所述获取模块,包括:
分词单元,用于对所述文本信息进行分词,得到分词集合,所述分词集合包括多个分词;
匹配单元,用于将所述分词集合中的分词与第一预设词库中的非显著敏感词进行匹配,并将匹配成功的分词确定为所述目标分词,得到所述多个目标分词。
在一种可能的实施方式中,所述第一确定模块,具体用于根据预先建立的分词与敏感场景的对应关系,确定与所述多个目标分词中各个分词分别对应的敏感场景。
在一种可能的实施方式中,所述装置还包括:
匹配模块,用于将所述文本信息中的各个分词与第二预设词库中的显著敏感词进行匹配;
第三确定模块,用于当所述文本信息中的各个分词中存在与所述第二预设词库中的显著敏感词匹配的分词时,确定所述文本信息为敏感信息。
第三方面,本申请实施例还提供了一种设备,包括:处理器和存储器;
所述存储器,用于存储指令或计算机程序;
所述处理器,用于执行所述指令或计算机程序,执行上述第一方面任意一项所述的确定敏感信息的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,包括指令或计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面任意一项所述的确定敏感信息的方法。
在本申请实施例的上述实现方式中,获取文本信息中的多个目标分词,并确定该多个目标分词中各个分词分别对应的敏感场景,然后,根据各个敏感场景分别对应的分词数量,可以确定文本信息是否为敏感信息。可见,本实施例中是根据文本信息中对应于各个敏感场景的分词数量来确定文本信息是否为敏感信息,比如,当某个敏感场景中的分词数量较多时,可以认为该文本信息所描述的内容具有较大的可能性为描述该敏感场景的内容,从而可以认定该文本信息为敏感信息,这样,即使属于敏感信息的文本信息中不包含显著敏感词,也可以是根据文本信息中各个分词对应的敏感场景来识别出该敏感信息。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一应用场景示意图;
图2为本申请实施例中一种确定敏感信息的方法流程示意图;
图3为本申请实施例中一种确定敏感信息的装置结构示意图;
图4为本申请实施例中一种设备的硬件结构示意图。
具体实施方式
目前,在确定网络中的文本信息是否属于敏感信息时,通常是将该文本信息中所包含的词与显著敏感词进行匹配,若匹配成功,则确定该文本信息为敏感信息,而若匹配不成功,即文本信息中不包含显著敏感词,则确定该文本信息不是敏感信息。
但是,发明人经研究发现,部分文本信息中即使不包含显著敏感词,但是仍可能属于敏感信息。比如,假设文本信息具体为“今晚拿家伙干掉他”,并且该文本信息所表征的含义为利用武器让某个人(即文本信息中的“他”)失去生命,属于暴力性质的描述,应当被确定为敏感信息。但是,该文本信息中包括的各个词“今晚”、“拿”、“家伙”、“干掉”以及“他”,任意一个词均不适合作为显著敏感词,比如,“干掉”一词在其它语句“今晚把这瓶酒干掉”中的含义是指“喝光”,实际应用中通常并不属于敏感内容(其它词类似)。因此,基于显著敏感词确定文本信息中的敏感信息的方式,无法过滤掉不包含显著敏感词但是属于敏感信息的文本信息,从而会使得剩余的文本信息中仍然存在较多的敏感信息。
基于此,本申请实施例提供了一种确定敏感信息的方法,旨在确定出不包含显著敏感词但是属于敏感信息的文本信息。具体的,获取文本信息中的多个目标分词,并确定该多个目标分词中各个分词分别对应的敏感场景,然后,根据各个敏感场景分别对应的分词数量,可以确定文本信息是否为敏感信息。可见,本实施例中是根据文本信息中对应于各个敏感场景的分词数量来确定文本信息是否为敏感信息,比如,当某个敏感场景中的分词数量较多时,可以认为该文本信息所描述的内容具有较大的可能性为描述该敏感场景的内容,从而可以认定该文本信息为敏感信息,这样,即使属于敏感信息的文本信息中不包含显著敏感词,也可以是根据文本信息中各个分词对应的敏感场景来识别出该敏感信息。
作为一种示例,本申请实施例可以应用于如图1所示的示例性应用场景。在该场景中,用户101可以在终端102上编辑并上传相应的文本信息,如针对于某个新闻事件的看法等;终端102可以将用户编辑的文本信息发送至服务器103;服务器103可以获取该文本信息中的多个目标分词(如通过中文分词的方式确定目标分词等),并确定该多个目标分词中各个分词分别对应的敏感场景,从而可以根据各个敏感场景分别对应的分词数量,来确定出用户101所编辑的文本信息是否为敏感信息,并将确定结果反馈至终端102;终端102若根据该确定结果确定文本信息为敏感信息时,可以向用户101提示拒绝上传该文本信息,或者提示用户101重新对该文本信息进行编辑等。
可以理解的是,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。比如,在其它可能的应用场景中,也可以是由终端102执行上述确定敏感信息的过程,而无需通过服务器103进行实现;或者,上述确定敏感信息的过程,由终端102和服务器103配合完成等。总之,本申请可以适用于任何可适用的场景中,而不限于上述场景示例。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面将结合附图对本申请实施例中的各种非限定性实施方式进行示例性说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
参阅图2,图2示出了本申请实施例中一种呈现弹幕的方法的流程示意图,该方法可以应用于如图1所示的服务器103,也可以是应用于终端102中,或者是由终端102与服务器103协同配合完成等,该方法具体可以包括:
S201:获取文本信息中的多个目标分词。
实际应用中,可以将网络上用户已发表的文本信息或者上传网络前需要进行审核的文本信息,作为本实施例中需要确定是否属于敏感信息的文本信息。这样,在确定该文本信息属于敏感信息后,可以将该文本信息从网络中删除或者拒绝该信息文本上传网络。
本实施例中,对于需要确定是否属于敏感信息的文本信息,可以先获取文本信息中的多个目标分词,其中,该目标分词可以是文本信息所包括的所有分词,也可以是文本信息中所包括的部分分词。
在一种示例性的具体实施方式中,可以对该文本信息进行分词处理,例如,当文本信息为中文文本信息时,可以是利用ANSJ中文分词工具对文本信息中的语句进行分词等,由此可以得到分词集合,所得到的分词集合中通常包括多个分词。然后,可以将分词集合中的各个分词分别与预先建立的第一预设词库中的非显著敏感词进行匹配,并将匹配成功的分词确定为目标分词,从而得到多个目标分词,例如,可以是通过多模字符串匹配算法确定出文本信息中与非显著敏感词相匹配的目标分词等。
其中,本实施例中所描述的非显著敏感词,是指根据单独的一个词无法确定包含该词的文本信息是否属于敏感信息,如前述示例中的“干掉”这词,其可能是属于敏感信息中的词,也可能是属于非敏感信息中的词,从而仅基于该词无法确定出文本信息是否为敏感信息,而本实施例中所描述的非显著敏感词即是指代该类词。与之对应的,本申请中所描述的显著敏感词,是指仅基于该单独的一个词即可确定包括该词的文本信息属于敏感信息,对于这类词,即可作为本申请中的显著敏感词。
实际应用中,可以预先建立第一预设词库,而组成该第一预设词库中的各个分词可以是上述非显著敏感词,其可以是由技术人员根据实际应用的经验进行人为确定,如非显著敏感词可以包括上述“干掉”一词等,当然,在其它实施方式中,也可以是将“干掉”一词直接确定为显著敏感词等,本实施例中仅作为一种示例说明,并不用于限定本实施例的具体实现。并且,该第一预设词库中的分词,可以是根据实际应用的需要进行相应的增加、删除以及修改等。
值得注意的是,通过与第一预设词库中的非显著敏感词进行匹配所确定出的目标分词,通常可以是文本信息中的部分分词,比如,仍以“今晚拿家伙干掉他”为例,所确定出的目标分词可以是“家伙”以“干掉”,而文本信息中其余的分词“今晚”、“拿”以及“他”可以不作为本实施例中的目标分词。这样,可以仅基于所确定出的目标分词(“家伙”以“干掉”)确定文本信息是否属于敏感信息,而无需基于文本信息中的所有分词进行确定,从而可以减少确定敏感信息所需的计算量。当然,在其它可能的实施方式中,也可以是将文本信息中的全部分词均作为目标分词,即基于该文本信息中的所有分词来确定文本信息是否属于敏感信息。
S202:确定多个目标分词中各个分词分别对应的敏感场景。
本实施例中,敏感场景,例如可以是暴力场景、色情场景、政治场景、否定场景、非法独立场景、分裂场景、武器场景、地点场景、交通工具场景、职业场景中的一种或多种等。实际应用中,敏感场景还可以包括其它可能的场景,本实施例中对此列举上述示例仅用于进行简单说明,并不用于对本实施例中敏感场景所具有的可能实施方式进行限定。
对于每个目标分词,可以存在相应的敏感场景与其对应。示例性的,目标分词所对应的敏感场景,可以包括该目标分词所属的第一目标敏感场景以及与该第一目标敏感场景存在依赖关系的第二目标敏感场景。则,针对于每个目标分词,可以确定出与该目标分词对应的第一目标敏感场景以及第二目标敏感场景。实际应用中,该第二目标敏感场景可以包括一个或者多敏感场景,并且,第二目标敏感场景可以与第一目标敏感场景相同,也可以是与第一目标敏感场景不同。
其中,第一目标敏感场景与第二目标敏感场景存在依赖关系,是指当文本信息中同时出现属于第一目标敏感场景以及第二目标敏感场景的分词,则该文本信息具有较大的可能性是属于敏感信息。比如,假设目标分词为“炮弹”,则该目标分词属于“武器场景”,通常情况下,仅仅基于文本信息中“炮弹”难以直接确定该文本信息是否属于敏感信息,但是,若该文本信息中还包括地点、交通工具以及职业等内容,则该文本信息通常具有较大的可能性属于敏感信息,因此,本实施例中,可以在确定“炮弹”所属的第一目标敏感场景(武器场景)的同时,还可以确定与第一目标敏感场景存在依赖关系的第二目标敏感场景(如地点场景、交通工具场景以及职业场景等)。
具体实现时,可以是根据预先建立的分词与敏感场景的对应关系,确定多个目标分词中各个分词分别对应的敏感场景。该对应关系,可以预先由相应的技术人员根据实际应用中的经验进行设定和调整。
S203:根据各个敏感场景分别对应的分词数量,确定文本信息是否为敏感信息。
本实施例中,在确定出每个目标分词对应的敏感场景后,可以统计出各个敏感场景下所对应的目标分词的数量,比如,假设文本信息中存在A属于第一目标敏感场景,对应于第二目标敏感场景,并存在B属于第二目标敏感场景,对应于第一目标敏感场景,则第一目标敏感场景对应的分词数量为2(即包括A和B两个分词),第二目标敏感场景对应的分词数量也为2。然后,可以根据各个敏感场景分别对应的分词数量,确定文本信息是否为敏感信息。
可以理解,如果某个敏感场景(既可以作为第一目标敏感场景,同时也可以作为第二目标敏感场景)对应的分词数量较多,这说明文本信息中存在较多内容均在描述该敏感场景,也即该文本信息属于该敏感场景所对应的敏感信息的可能性也就越大,此时,可以确定该文本信息属于敏感信息。
在一种示例性的具体实施方式中,可以将各个敏感场景对应的分词数量与预设阈值进行比对,当存在至少一个敏感场景对应的分词数量大于该预设阈值时,则可以确定该文本信息属于敏感信息,而当任意一个敏感场景对应的分词数量均不大于该预设阈值时,则可以确定该文本信息不属于敏感信息。
此外,本申请实施例还提供了另一种根据敏感场景对应的分词数量确定文本信息是否为敏感信息的示例性实施方式。具体的,对于目标分词中的任意一个分词(以下称之为第一分词),可以确定第一分词所属的第一目标敏感场景,并确定与该第一目标敏感场景具有依赖关系的第二目标敏感场景,该第二目标敏感场景包括一个或者多个敏感场景;然后,确定目标分词集合中属于第二目标敏感场景的分词的数量,将其作为第一分词对应的依赖分词数量,也即为属于第二目标敏感场景的分词的数量,由此可以得到目标分词中各个分词分别对应的依赖分词数量;接着,可以计算出多个目标分词中各个分词对应的依赖分词数量之和,得到第一和值,并将该第一和值与敏感阈值进行比较,当第一和值大于敏感阈值时,可以确定该文本信息为敏感信息,而当第一和值不大于敏感阈值时,可以确定该文本信息不为敏感信息。
例如,对于一句待测文本,根据第一预设词库匹配到该文本所包括的所有的非显著敏感词word_1、word_2、...、word_m,设各个非显著敏感词所对应的第二目标敏感场景的个数分别为a1、a2、...、am,句子中出现的非显著敏感词属于word_1对应的第二目标敏感场景的词语有word_1_rely_counts个(也即为word_1对应的依赖分词数量),同时,句子中出现的非显著敏感词属于word_2对应的第二目标敏感场景的词语有word_2_rely_counts个,....,句子中出现的非显著敏感词属于word_n对应的第二目标敏感场景的词语有word_n_rely_counts个。则n个分词分别对应的依赖分词数量之和t为:
t=word_1_rely_counts+word_2_rely_counts+…+word_m_rely_counts
此时,若t大于敏感阈值T,则确定该待测文本属于敏感信息,而若t不大于敏感阈值T,则确定该待测文本不属于敏感信息。
在进一步可能的实施方式中,敏感阈值,还可以是根据文本信息进行计算得到,这样,基于不同(长度和/或内容)的文本信息可以计算出不同的敏感阈值,从而提高方案实施的灵活性以及普适性。
作为一种确定敏感阈值的示例,可以是计算多个目标分词中各个分词对应的第二目标场景的数量之和,得到第二和值,并根据该第二和值计算出敏感阈值。如可以是将第二和值与预设系数的乘积作为敏感阈值等。示例性的,本实施例中还提供了另外一种根据第二和值确定敏感阈值的具体实施方式,敏感阈值T具体可以是通过T=(a1+a2+...+am)^2*rate进行计算得到,其中,a1、a2、...、am分别为目标分词中各个分词对应的第二目标敏感场景的数量(假设多个目标分词包括m个分词),如a1为word_1对应的第二目标敏感场景的数量,am为word_m对应的第二目标敏感场景的数量;rate为预设调节因子。即,敏感阈值,具体可以是通过计算第二和值的平方所得到的值与预设调节因子之间的乘积得到。
进一步的,当文本信息中不包含显著敏感词时,可以通过上述过程确定该文本信息是否属于敏感信息,而若文本信息中包含显著敏感词时,可以直接将该文本信息确定为敏感信息,此时,可以无需再根据各个分词对应的敏感场景来确定文本信息是否为敏感信息。具体的,在确定目标文本后,可以将该文本信息中的各个分词与第二预设词库中的显著敏感词进行匹配,当文本信息中的各个分词存在与第二预设词库中的显著敏感词相匹配的分词时,表明文本信息中包含显著敏感词,此时可以直接确定文本信息为敏感信息;而当多个目标分词中不存在与第二预设词库中的显著敏感词相匹配的分词时,则可以继续执行步骤S202以及步骤S203的过程以确定该文本信息是否属于敏感信息。与第一预设词库的建立方式类似,该第二预设词库中的显著敏感词可以是由技术人员根据实际应用的经验进行人为确定,并将其添加至第二预设词库中,并且,该第二预设词库中的显著敏感词,可以是根据实际应用的需要进行相应的增加、删除以及修改等。
本实施例中,可以获取文本信息中的多个目标分词,并确定该多个目标分词中各个分词分别对应的敏感场景,然后,根据各个敏感场景分别对应的分词数量,可以确定文本信息是否为敏感信息。可见,本实施例中是根据文本信息中对应于各个敏感场景的分词数量来确定文本信息是否为敏感信息,比如,当某个敏感场景中的分词数量较多时,可以认为该文本信息所描述的内容具有较大的可能性为描述该敏感场景的内容,从而可以认定该文本信息为敏感信息,这样,即使属于敏感信息的文本信息中不包含显著敏感词,也可以是根据文本信息中各个分词对应的敏感场景来识别出该敏感信息。
此外,本申请实施例还提供了一种确定敏感信息的装置。参阅图3,图3示出了本申请实施例中一种确定敏感信息的装置结构示意图,该装置300包括:
获取模块301,用于获取文本信息中的多个目标分词;
第一确定模块302,用于确定所述多个目标分词中各个分词分别对应的敏感场景;
第二确定模块303,用于根据各个敏感场景分别对应的分词数量,确定所述文本信息是否为敏感信息。
在一种可能的实施方式中,所述第二确定模块303,包括:
第一确定单元,用于确定第一分词所属的第一目标敏感场景,所述第一分词为所述多个目标分词中的任意一个分词;
第二确定单元,用于确定与所述第一目标敏感场景具有依赖关系的第二目标敏感场景,所述第二目标敏感场景包括一个或者多个敏感场景;
第三确定单元,用于确定所述目标分词集合中属于所述第二目标敏感场景的分词的数量,作为所述第一分词对应的依赖分词数量;
计算单元,用于计算所述多个目标分词中各个分词对应的依赖分词数量之和,得到第一和值;
第四确定单元,用于当所述第一和值大于敏感阈值,则确定所述文本信息为敏感信息。
在一种可能的实施方式中,所述装置300还包括:
第一计算模块,用于计算所述多个目标分词中各个分词对应的第二目标敏感场景的数量之和,得到第二和值;
第二计算模块,用于根据所述第二和值,计算出所述敏感阈值。
在一种可能的实施方式中,所述第二计算模块,具体用于根据所述第二和值以及预设调节因子,计算出所述敏感阈值。
在一种可能的实施方式中,所述获取模块301,包括:
分词单元,用于对所述文本信息进行分词,得到分词集合,所述分词集合包括多个分词;
匹配单元,用于将所述分词集合中的分词与第一预设词库中的非显著敏感词进行匹配,并将匹配成功的分词确定为所述目标分词,得到所述多个目标分词。
在一种可能的实施方式中,所述第一确定模块302,具体用于根据预先建立的分词与敏感场景的对应关系,确定与所述多个目标分词中各个分词分别对应的敏感场景。
在一种可能的实施方式中,所述装置300还包括:
匹配模块,用于将所述文本信息中的各个分词与第二预设词库中的显著敏感词进行匹配;
第三确定模块,用于当所述文本信息中的各个分词中存在与所述第二预设词库中的显著敏感词匹配的分词时,确定所述文本信息为敏感信息。
需要说明的是,上述装置各模块、单元之间的信息交互、执行过程等内容,由于与本申请实施例中方法实施例基于同一构思,其带来的技术效果与本申请实施例中方法实施例相同,具体内容可参见本申请实施例前述所示的方法实施例中的叙述,此处不再赘述。
本实施例中是根据文本信息中对应于各个敏感场景的分词数量来确定文本信息是否为敏感信息,比如,当某个敏感场景中的分词数量较多时,可以认为该文本信息所描述的内容具有较大的可能性为描述该敏感场景的内容,从而可以认定该文本信息为敏感信息,这样,即使属于敏感信息的文本信息中不包含显著敏感词,也可以是根据文本信息中各个分词对应的敏感场景来识别出该敏感信息。
此外,本申请实施例还提供了一种设备。参阅图4,图4示出了本申请实施例中一种设备的硬件结构示意图,该设备400可以包括处理器401以及存储器402。
其中,所述存储器402,用于存储指令或计算机程序;
所述处理器401,用于根据所述指令或所述计算机程序执行上述方法实施例中所述的确定对象信息的方法。
具体的,处理器401可以根据指令或计算机程序执行如下步骤:
获取文本信息中的多个目标分词;
确定所述多个目标分词中各个分词分别对应的敏感场景;
根据各个敏感场景分别对应的分词数量,确定所述文本信息是否为敏感信息。
在一种可能的实施方式中,处理器401可以根据指令或计算机程序具体执行如下步骤:
确定第一分词所属的第一目标敏感场景,所述第一分词为所述多个目标分词中的任意一个分词;
确定与所述第一目标敏感场景具有依赖关系的第二目标敏感场景,所述第二目标敏感场景包括一个或者多个敏感场景;
确定所述目标分词集合中属于所述第二目标敏感场景的分词的数量,作为所述第一分词对应的依赖分词数量;
计算所述多个目标分词中各个分词对应的依赖分词数量之和,得到第一和值;
当所述第一和值大于敏感阈值,则确定所述文本信息为敏感信息。
在一种可能的实施方式中,处理器401可以根据指令或计算机程序还执行如下步骤:
计算所述多个目标分词中各个分词对应的第二目标敏感场景的数量之和,得到第二和值;
根据所述第二和值,计算出所述敏感阈值。
在一种可能的实施方式中,处理器401可以根据指令或计算机程序具体执行如下步骤:
根据所述第二和值以及预设调节因子,计算出所述敏感阈值。
在一种可能的实施方式中,处理器401可以根据计算机程序具体执行如下步骤:
对所述文本信息进行分词,得到分词集合,所述分词集合包括多个分词;
将所述分词集合中的分词与第一预设词库中的非显著敏感词进行匹配,并将匹配成功的分词确定为所述目标分词,得到所述多个目标分词。
在一种可能的实施方式中,处理器401可以根据指令或计算机程序具体执行如下步骤:
根据预先建立的分词与敏感场景的对应关系,确定与所述多个目标分词中各个分词分别对应的敏感场景。
在一种可能的实施方式中,处理器401可以根据计算机程序还执行如下步骤:
将所述文本信息中的各个分词与第二预设词库中的显著敏感词进行匹配;
当所述文本信息中的各个分词中存在与所述第二预设词库中的显著敏感词匹配的分词时,确定所述文本信息为敏感信息。
需要说明的是,上述设备中处理器401的具体执行内容,由于与本申请实施例中方法实施例基于同一构思,其带来的技术效果与本申请实施例中方法实施例相同,具体内容可参见本申请实施例前述所示的方法实施例中的叙述,此处不再赘述。
另外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方法实施例中所述的确定敏感信息的方法。
本申请实施例中提到的“第一确定模块”、“第一分词”、“第一计算模块”等名称中的“第一”只是用来做名字标识,并不代表顺序上的第一。该规则同样适用于“第二”、“第三”、“第四”等。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请示例性的实施方式,并非用于限定本申请的保护范围。

Claims (10)

1.一种确定敏感信息的方法,其特征在于,所述方法包括:
获取文本信息中的多个目标分词;
确定所述多个目标分词中各个分词分别对应的敏感场景;
根据各个敏感场景分别对应的分词数量,确定所述文本信息是否为敏感信息。
2.根据权利要求1所述的方法,其特征在于,所述根据各个敏感场景分别对应的分词数量,确定所述文本信息是否为敏感信息,包括:
确定第一分词所属的第一目标敏感场景,所述第一分词为所述多个目标分词中的任意一个分词;
确定与所述第一目标敏感场景具有依赖关系的第二目标敏感场景,所述第二目标敏感场景包括一个或者多个敏感场景;
确定所述目标分词集合中属于所述第二目标敏感场景的分词的数量,作为所述第一分词对应的依赖分词数量;
计算所述多个目标分词中各个分词对应的依赖分词数量之和,得到第一和值;
当所述第一和值大于敏感阈值,则确定所述文本信息为敏感信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
计算所述多个目标分词中各个分词对应的第二目标敏感场景的数量之和,得到第二和值;
根据所述第二和值,计算出所述敏感阈值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二和值,计算出所述敏感阈值,包括:
根据所述第二和值以及预设调节因子,计算出所述敏感阈值。
5.根据权利要求1所述的方法,其特征在于,所述获取文本信息中的多个目标分词,包括:
对所述文本信息进行分词,得到分词集合,所述分词集合包括多个分词;
将所述分词集合中的分词与第一预设词库中的非显著敏感词进行匹配,并将匹配成功的分词确定为所述目标分词,得到所述多个目标分词。
6.根据权利要求1所述的方法,其特征在于,所述确定所述多个目标分词中各个分词分别对应的敏感场景,包括:
根据预先建立的分词与敏感场景的对应关系,确定与所述多个目标分词中各个分词分别对应的敏感场景。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述文本信息中的各个分词与第二预设词库中的显著敏感词进行匹配;
当所述文本信息中的各个分词中存在与所述第二预设词库中的显著敏感词匹配的分词时,确定所述文本信息为敏感信息。
8.一种确定敏感信息的装置,其特征在于,所述装置包括:
获取模块,用于获取文本信息中的多个目标分词;
第一确定模块,用于确定所述多个目标分词中各个分词分别对应的敏感场景;
第二确定模块,用于根据各个敏感场景分别对应的分词数量,确定所述文本信息是否为敏感信息。
9.一种设备,其特征在于,包括:处理器和存储器;
所述存储器,用于存储指令或计算机程序;
所述处理器,用于执行所述指令或计算机程序,执行权利要求1-7任意一项所述的确定敏感信息的方法。
10.一种计算机可读存储介质,其特征在于,包括指令或计算机程序,当其在计算机上运行时,使得计算机执行以上权利要求1-7任意一项所述的确定敏感信息的方法。
CN202010343615.XA 2020-04-27 2020-04-27 一种确定敏感信息的方法、装置、设备及存储介质 Active CN111539206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010343615.XA CN111539206B (zh) 2020-04-27 2020-04-27 一种确定敏感信息的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010343615.XA CN111539206B (zh) 2020-04-27 2020-04-27 一种确定敏感信息的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111539206A true CN111539206A (zh) 2020-08-14
CN111539206B CN111539206B (zh) 2023-07-25

Family

ID=71978963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010343615.XA Active CN111539206B (zh) 2020-04-27 2020-04-27 一种确定敏感信息的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111539206B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051911A (zh) * 2021-03-23 2021-06-29 北京百度网讯科技有限公司 提取敏感词的方法、装置、设备、介质及程序产品
CN113472686A (zh) * 2021-07-06 2021-10-01 深圳乐信软件技术有限公司 信息识别方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590130A (zh) * 2017-09-30 2018-01-16 北京三快在线科技有限公司 场景确定方法及装置、存储介质和电子设备
CN109033150A (zh) * 2018-06-12 2018-12-18 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
US20190026367A1 (en) * 2017-07-24 2019-01-24 International Business Machines Corporation Navigating video scenes using cognitive insights
CN109447469A (zh) * 2018-10-30 2019-03-08 阿里巴巴集团控股有限公司 一种文本检测方法、装置及设备
CN110209819A (zh) * 2019-06-05 2019-09-06 江苏满运软件科技有限公司 文本分类方法、装置、设备和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190026367A1 (en) * 2017-07-24 2019-01-24 International Business Machines Corporation Navigating video scenes using cognitive insights
CN107590130A (zh) * 2017-09-30 2018-01-16 北京三快在线科技有限公司 场景确定方法及装置、存储介质和电子设备
CN109033150A (zh) * 2018-06-12 2018-12-18 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN109447469A (zh) * 2018-10-30 2019-03-08 阿里巴巴集团控股有限公司 一种文本检测方法、装置及设备
CN110209819A (zh) * 2019-06-05 2019-09-06 江苏满运软件科技有限公司 文本分类方法、装置、设备和介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051911A (zh) * 2021-03-23 2021-06-29 北京百度网讯科技有限公司 提取敏感词的方法、装置、设备、介质及程序产品
CN113051911B (zh) * 2021-03-23 2023-10-10 北京百度网讯科技有限公司 提取敏感词的方法、装置、设备、介质及程序产品
CN113472686A (zh) * 2021-07-06 2021-10-01 深圳乐信软件技术有限公司 信息识别方法、装置、设备及存储介质
CN113472686B (zh) * 2021-07-06 2024-03-08 深圳乐信软件技术有限公司 信息识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111539206B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN105389722B (zh) 恶意订单识别方法及装置
US8095547B2 (en) Method and apparatus for detecting spam user created content
CN106682906B (zh) 一种风险识别、业务处理方法和设备
US8001195B1 (en) Spam identification using an algorithm based on histograms and lexical vectors (one-pass algorithm)
CN107896170B (zh) 保险应用系统的监控方法及装置
CN108595422B (zh) 一种过滤不良彩信的方法
CN110072140B (zh) 一种视频信息提示方法、装置、设备及存储介质
CN105894028B (zh) 用户识别方法和装置
CN105657471A (zh) 一种管理账户的方法和装置
CN111539206A (zh) 一种确定敏感信息的方法、装置、设备及存储介质
CN112559903A (zh) 一种社区成员搜索方法、系统、装置及介质
CN108763251B (zh) 核身产品的个性化推荐方法及装置和电子设备
CN111273891A (zh) 基于规则引擎的业务决策方法、装置及终端设备
CN110956123A (zh) 一种富媒体内容的审核方法、装置、服务器及存储介质
US20210312140A1 (en) Self adaptive scanning
CN109062905B (zh) 一种弹幕文本价值评价方法、装置、设备及介质
CN109829043B (zh) 词性确认方法、装置、电子设备及存储介质
CN109857748B (zh) 一种合同数据处理方法、装置及电子设备
CN108566567B (zh) 电影剪辑方法及装置
CN114338102B (zh) 安全检测方法、装置、电子设备及存储介质
CN115659078A (zh) 基于人工智能的网络信息安全监控方法及系统
CN111198986B (zh) 信息发送方法、装置、电子设备及存储介质
CN113449506A (zh) 一种数据检测方法、装置、设备及可读存储介质
CN113609315A (zh) 一种媒资相似度的判定方法、装置、电子设备和存储介质
CN108182191B (zh) 一种热点数据处理方法及其设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant