CN109766447B - 一种确定敏感信息的方法和装置 - Google Patents

一种确定敏感信息的方法和装置 Download PDF

Info

Publication number
CN109766447B
CN109766447B CN201811594909.9A CN201811594909A CN109766447B CN 109766447 B CN109766447 B CN 109766447B CN 201811594909 A CN201811594909 A CN 201811594909A CN 109766447 B CN109766447 B CN 109766447B
Authority
CN
China
Prior art keywords
information
sensitive
entity
detected
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811594909.9A
Other languages
English (en)
Other versions
CN109766447A (zh
Inventor
赵耕弘
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811594909.9A priority Critical patent/CN109766447B/zh
Publication of CN109766447A publication Critical patent/CN109766447A/zh
Application granted granted Critical
Publication of CN109766447B publication Critical patent/CN109766447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种确定敏感信息的方法和装置,对于与第一敏感词匹配的第一信息,结合第一信息的上下文,对第一信息进行分析,通过判断第一信息是否具有敏感语义来判断待检测信息是否为敏感信息,而不是仅仅根据第一信息的字面上是否包括敏感词来判断,提高了敏感信息的过来准确性,提高了用户体验。具体的,可以在待检测信息中查找与第一敏感词匹配的信息,若查找到第一信息与第一敏感词匹配,则在知识图谱中查找第一信息匹配的第一实体,第一实体具有敏感语义,在知识图谱中查找与待检测信息中除第一信息之外的其他信息匹配的第二实体。根据第二实体与第一实体在知识图谱中的关系,确定待检测信息是否为敏感信息。

Description

一种确定敏感信息的方法和装置
技术领域
本申请涉及信息处理技术领域,特别是涉及一种确定敏感信息的方法和装置。
背景技术
随着互联网的发展,许多网络服务都为用户提供了发表言论的空间,因此,大量的用户言论被发布到互联网上。在这些用户言论中,往往充斥着一些涉黄、涉黑、政治反动等不法言论。为了对互联网上的不法言论进行监督控制,目前通常采用敏感词过滤的方式查找互联网上可能属于不法言论的敏感信息。对于一段网络信息来说,若该网络信息在字面上包含了敏感词,则该网络信息会被认定成敏感信息。但是,对有些网络信息来说,虽然该网络信息的字面包含了敏感词,但实际上该网络信息在语义上却并没有体现该敏感词所具有的敏感语义。因此,许多并不属于敏感信息的网络信息往往也被当作敏感信息进行了过滤。这不仅导致了敏感信息的过滤不够准确,而且也造成了不好的用户体验。
发明内容
本申请所要解决的技术问题是,提供一种确定敏感信息的方法和装置,以能够更准确地过滤敏感信息,提升用户体验。
第一方面,本申请实施例提供了一种确定敏感信息的方法,包括:
在待检测信息中查找与第一敏感词匹配的信息;
若查找到第一信息与所述第一敏感词匹配,在知识图谱中查找所述第一信息匹配的第一实体以及所述待检测信息中除所述第一信息之外的其他信息匹配的第二实体,其中,所述第一实体具有敏感语义;
根据所述第二实体与所述第一实体在所述知识图谱中的关系,确定所述待检测信息是否为敏感信息。
可选的,所述根据所述第二实体与所述第一实体在所述知识图谱中的关系,确定所述待检测信息是否为敏感信息,包括:
若所述第二实体中存在与所述第一实体在所述知识图谱中具有属性关系的实体,确定所述待检测信息为敏感信息。
可选的,所述根据所述第二实体与所述第一实体在所述知识图谱中的关系,确定所述待检测信息是否为敏感信息,包括:
若所述第一信息在所述知识图谱中还匹配第三实体且所述第三实体不具有敏感语义,在所述第二实体中分别查找与所述第一实体在所述知识图谱中具有属性关系的第四实体以及与所述第三实体在所述知识图谱中具有属性关系的第五实体;
根据所述第四实体的数量及所述第五实体的数量,确定所述待检测信息是否为敏感信息。
可选的,所述根据所述第四实体的数量及所述第五实体的数量,确定所述待检测信息是否为敏感信息,具体为:
根据所述第四实体的数量、所述第五实体的数量、所述第二实体的数量、所述知识图谱中与所述第一实体具有属性关系的实体数量、所述知识图谱中与所述第三实体具有属性关系的实体数量以及所述知识图谱中的实体数量,确定所述待检测信息是否为敏感信息。
可选的,所述方法还包括:
在所述待检测信息中查找与第二敏感词匹配的信息;
若查找到第二信息与所述第二敏感词匹配,确定所述待检测信息为敏感信息;
其中,所述第一敏感词与所述第二敏感词为两个不同类别的敏感词。
可选的,所述方法还包括:
若所述待检测信息被确定为敏感信息,向用户反馈所述待检测信息;
响应于针对所述待检测信息的用户确认操作,对所述待检测信息进行删除。
第二方面,本申请实施例还提供了一种确定敏感信息的装置,包括:
信息查找单元,用于在待检测信息中查找与第一敏感词匹配的信息;
实体查找单元,用于若查找到第一信息与所述第一敏感词匹配,在知识图谱中查找所述第一信息匹配的第一实体以及所述待检测信息中除所述第一信息之外的其他信息匹配的第二实体,其中,所述第一实体具有敏感语义;
第一敏感信息确定单元,用于根据所述第二实体与所述第一实体在所述知识图谱中的关系,确定所述待检测信息是否为敏感信息。
可选的,所述第一敏感信息确定单元,包括:
第一敏感信息确定子单元,用于若所述第二实体中存在与所述第一实体在所述知识图谱中具有属性关系的实体,确定所述待检测信息为敏感信息。
可选的,所述第一敏感信息确定子单元,包括:
实体获取单元,用于若所述第一信息在所述知识图谱中还匹配第三实体且所述第三实体不具有敏感语义,在所述第二实体中分别查找与所述第一实体在所述知识图谱中具有属性关系的第四实体以及与所述第三实体在所述知识图谱中具有属性关系的第五实体;
敏感信息判断单元,用于根据所述第四实体的数量及所述第五实体的数量,确定所述待检测信息是否为敏感信息。
可选的,所述敏感信息判断单元,具体用于:
根据所述第四实体的数量、所述第五实体的数量、所述第二实体的数量、所述知识图谱中与所述第一实体具有属性关系的实体数量、所述知识图谱中与所述第三实体具有属性关系的实体数量以及所述知识图谱中的实体数量,确定所述待检测信息是否为敏感信息。
可选的,所述装置还包括:
第二信息查找单元,用于在所述待检测信息中查找与第二敏感词匹配的信息;
第二敏感信息确定单元,用于若查找到第二信息与所述第二敏感词匹配,确定所述待检测信息为敏感信息;其中,所述第一敏感词与所述第二敏感词为两个不同类别的敏感词。
可选的,所述装置还包括:
反馈单元,用于若所述待检测信息被确定为敏感信息,向用户反馈所述待检测信息;
删除单元,用于响应于针对所述待检测信息的用户确认操作,对所述待检测信息进行删除。
第三方面,本申请实施例还提供了一种确定敏感信息的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行本申请实施例提供的确定敏感信息的方法。
第四方面,本申请实施例还提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行本申请实施例提供的确定敏感信息的方法。
与现有技术相比,本申请实施例具有以下优点:
本申请实施例提供了一种确定敏感信息的方法和装置,在待检测信息中查找与第一敏感词匹配的信息,若查找到第一信息与第一敏感词匹配,则在知识图谱中查找第一信息匹配的第一实体,第一实体具有敏感语义,在知识图谱中查找与待检测信息中除第一信息之外的其他信息匹配的第二实体。根据第二实体与第一实体在知识图谱中的关系,可以确定待检测信息中第一信息和除第一信息之外的其他信息之间的关系,从而确定第一信息在待检测信息中是否具有敏感语义,进而确定待检测信息是否为敏感信息。在本申请实施例中,对于与第一敏感词匹配的第一信息,结合第一信息的上下文,对第一信息进行分析,通过判断第一信息是否具有敏感语义来判断待检测信息是否为敏感信息,而不是仅仅根据第一信息的字面上是否包括敏感词来判断,提高了敏感信息的过来准确性,提高了用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种确定敏感信息的方法的流程图;
图2为本申请实施例中一种确定敏感信息的装置的结构框图;
图3为本申请实施例中一种确定敏感信息的设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,随着互联网的发展,许多网络服务都为用户提供了发表言论的空间,因此,大量的用户言论被发布到互联网上,在这些用户言论中,可能充斥着一些涉黄、涉黑、政治反动等不法言论。为了对互联网上的不法言论进行监督控制,可以采用敏感词过滤的方式查找互联网上可能属于不法言论的敏感信息,具体的,对于一段网络信息来说,若该网络信息在字面上包含了敏感词,则该网络信息会被认定为敏感信息。
但是,对有些网络信息来说,虽然该网络信息的字面包含了敏感词,但实际上该网络信息在语义上却并没有体现该敏感词所具有的敏感语义。举例来说,“条子”这个词,可以表示不法分子口中的警察,也可以表示麻将中的一种牌类,还可以表示长方形的纸张,而只有在语义为警察时,“条子”这个词才具有敏感语义,在语义为麻将的牌类或者长方形的纸张时,“条子”这个词不具有敏感语义。
因此,若仅仅通过判断网络信息在字面上是否包含敏感词来判断网络信息是否为敏感信息,会导致许多并不属于敏感信息的网络信息也被当作敏感信息进行了过滤。以上述示例来说,若网络信息中包括“条子”的敏感词,就将该网络信息作为敏感信息并进行过滤,则会将一些麻将相关的网络信息以及其他涉及纸张的网络信息作为敏感信息并进行过滤,而实际上,这些网络信息就其语义来说,并非是敏感信息。
因此,仅仅通过判断网络信息在字面上是否包含敏感词来判断网络信息是否为敏感信息,会导致敏感信息的过滤不够准确,不准确的信息过滤会严重打击用户发表正当言论的积极性,造成不好的用户体验。
基于以上技术问题,本申请实施例提供了一种确定敏感信息的方法和装置,对于与第一敏感词匹配的第一信息,结合第一信息的上下文,对第一信息进行分析,通过判断第一信息是否具有敏感语义来判断待检测信息是否为敏感信息,而不是仅仅根据第一信息的字面上是否包括敏感词来判断,提高了敏感信息的过来准确性,提高了用户体验。具体的,可以在待检测信息中查找与第一敏感词匹配的信息,若查找到第一信息与第一敏感词匹配,则在知识图谱中查找第一信息匹配的第一实体,第一实体具有敏感语义,在知识图谱中查找与待检测信息中除第一信息之外的其他信息匹配的第二实体。根据第二实体与第一实体在知识图谱中的关系,可以确定待检测信息中第一信息和除第一信息之外的其他信息之间的关系,从而确定第一信息在待检测信息中是否具有敏感语义,进而确定待检测信息是否为敏感信息。
下面结合附图对本申请实施例提供的一种确定敏感信息的方法和装置进行示例性的详细说明。参考图1所示为本申请实施例提供的一种确定敏感信息的方法的流程图,该方法包括以下步骤:
S101,在待检测信息中查找第一敏感词匹配的信息。
待检测信息是发布到互联网上的用户言论,是被监督控制的信息,若待检测信息是敏感信息,则可以对待检测信息进行过滤。待检测信息例如可以是在论坛中发布的贴文或评论等,也可以是在个人空间中发布的博文等,还可以是其他形式发布的用户言论,在此不做一一举例。
为了对待检测信息进行分析,可以预先设置敏感词库,敏感词库可以根据互联网中历史敏感词形成,包括大量涉黄、涉黑、政治反动等不法言论。当然,可以对敏感词库进行实时更新。本申请实施例中,敏感词库中的敏感词可以具有类别,用于区分敏感词是第一敏感词还是第二敏感词,从而针对不同敏感词确定与之匹配的信息所属的待检测信息是否为敏感信息。
其中,对于第一敏感词的定义:包括第一敏感词的信息不一定是敏感信息。具体的,第一敏感词可以是多义词,在不同语境中,可以具有敏感语义或非敏感语义,例如第一敏感词“条子”,既可以表示不法分子口中的警察,也可以表示麻将中的一种牌类,还可以表示长方形的纸张。第一敏感词也可以是在不同语境中有不同含义的其他词,例如“白粉”,在“白粉笔”、“漂白粉”中,以及单独出现时,含义均不同,类似这样的词也可以作为第一敏感词。
在敏感词库中,第一敏感词之外的其他敏感词可以作为第二敏感词,而包括第二敏感词的信息一定是敏感信息。例如,没有任何歧义的辱骂脏话等是第二敏感词,包括该辱骂脏话的信息是敏感信息。
也就是说,本申请实施例中,若待检测信息中存在与第一敏感词匹配的信息,待检测信息不一定就是敏感信息,若待检测信息中存在与第二敏感词匹配的信息,则待检测信息为敏感信息。因此,在S101之前,还可以先在待检测信息中查找第二敏感词匹配的信息,若查找到第二信息与第二敏感词匹配,则可以确定待检测信息为敏感信息;若待检测信息中不存在与第二敏感词匹配的信息,则不确定待检测信息是否为敏感信息,执行S101。
在待检测信息中查找第一敏感词的信息,可以具体为,将待检测信息中的部分内容与第一敏感词比对,根据比对结果判断待检测信息中是否存在与第一敏感词匹配的信息。其中,与第一敏感词匹配的部分内容,可以是与第一敏感词相同或相似的信息,比对结果可以是待检测信息中的部分内容与第一敏感词的相似度等能体现二者匹配程度的结果。
为了方便查找,在待检测信息中查找第一敏感词匹配的信息,还可以具体为,对待检测信息进行分词处理,得到分词结果,查找与第一敏感词匹配的分词结果,作为与第一敏感词匹配的信息。
具体的,对待检测信息进行分词,可以通过百科类词条作为自定义词典进行分词,百科类词条包括但不限于百度百科、维基百科和全民百科,得到的分词结果可以百科词条中的词条,也可以是与百科词条中的词条相似的词条。对待检测信息进行分词,也可以通过二元语言模型(Bi-gram)、三元语言模型(Tri-gram)等计算过程,对待检测信息进行分词,得到的分词结果可以是二元词或三元词等,例如待检测信息中“白粉笔”,通过二元语言模型进行分词,可以得到“白粉”和“粉笔”。
在对待检测信息进行分词处理得到分词结果后,可以查找与第一敏感词匹配的分词结果。具体的,可以比对各个分词结果和第一敏感词,根据比对结果确定与第一敏感词匹配的分词结果。与敏感词匹配的分词结果可以是与第一敏感词相同或相似的词,比对结果可以是分词结果与第一敏感词的相似度等能够体现二者匹配程度的结果。可以理解的是,在分词结果与第一敏感词的相似度大于或等于预设值时,可以认为分词结果与第一敏感词匹配。
在查找到与第一敏感词匹配的分词结果后,可以将该分词结果作为与第一敏感词匹配的信息。
S102,若查找到第一信息与第一敏感词匹配,在知识图谱中查找第一信息匹配的第一实体,以及待检测信息中除第一信息之外的其他信息匹配的第二实体。
若查找到第一信息与第一敏感词匹配,不能直接确定待检测信息是否为敏感信息,因此可以在知识图谱中查找第一信息匹配的第一实体,以及查找待检测信息中除第一信息之外的其他信息匹配的第二实体。其中,知识图谱可以是预先建立的词库,在知识图谱中存在多个实体,以及多个实体之间的属性关系。知识图谱可以是百科类词条,包括但不限于百度百科、维基百科和全民百科,知识图谱也可以是自定义的实体库。
知识图谱中第一信息匹配的实体可以是一个或多个。具体的,第一信息为多义词时,第一信息基于不同语义可以匹配有不同的实体,由于第一信息与第一敏感词匹配,则第一信息至少具有一个敏感语义。本申请实施例中,可以将第一信息匹配的实体中基于敏感语义匹配的实体作为第一信息匹配的第一实体,相应的,还可以将第一信息匹配的实体中基于非敏感语义匹配的实体作为第一信息匹配的第三实体。
举例来说,第一信息Word0具有LemmaA和LemmaB两种语义,LemmaA语义为敏感语义,LemmaB语义为非敏感语义,则基于语义LemmaA可以得到与第一信息匹配的第一实体LemmaA,基于语义LemmaB可以得到与第一信息匹配的第三实体LemmaB。例如,第一信息为“条子”,基于警察的语义可以有第一实体“警察”,基于长方形的纸张可以有第三实体“纸条”。
待检测信息中除第一信息之外的其他信息,可以是除第一信息之外的其他内容,例如是一段或者多段文字,则匹配的第二实体可以是与文字中的信息匹配的一个或多个实体;待检测信息中除第一信息之外的其他信息,也可以是待检测信息经过分词后的分词结果中除第一信息之外的一个或多个其他分词结果,则匹配的第二实体可以是与其他分词结果匹配的一个或多个实体。需要说明的是,为了减少工作量,待检测信息经过分词后的分词结果中除第一信息之外的其他分词结果可以只有一个语义。
举例来说,待检测信息经过分词后的分词结果中除第一信息之外的其他分词结果可以包括:Word1、Word2、Word3、Word4等,则匹配的第二实体SetText可以包括:Lemma1、Lemma2、Lemma3、Lemma4等。需要说明的是,一个分词结果可以对应一个或多个第二实体,也可以没有对应的第二实体。举例来说,第一信息为“条子”,待检测信息中除第一信息之外的其他信息匹配的第二实体可以为“警车”和“派出所”。
S103,根据第二实体与第一实体在知识图谱中的关系,确定待检测信息是否为敏感信息。
由于第一实体是与第一信息匹配的具有敏感语义的实体,第二实体与待检测信息中除第一信息之外的其他信息匹配的实体,根据第二实体与第一实体在知识图谱中的关系,可以确定第一实体和第二实体是否相关,若相关,则可以认为待检测信息中第一信息的上下文与第一信息的敏感语义相关,进一步推断第一信息在待检测信息中的实际语义为敏感语义,因此,确定待检测信息为敏感信息。
根据第二实体与第一实体在知识图谱中的关系,确定待检测信息是否为敏感信息,可以具体为,若第二实体中存在与第一实体在知识图谱中具有属性关系的实体,则确定待检测信息为敏感信息。这是因为,若第二实体中存在与第一实体在知识图谱中具有属性关系的实体,则认为第二实体和第一实体相关,第一信息的实际语义为敏感语义,则确定待检测信息为敏感信息。
举例来说,第一信息为“条子”,基于“警察”的敏感语义可以有第一实体“警察”,第二实体包括“警车”和“派出所”,其中,“警车”和“警察”具有属性关系,“派出所”和“警察”也具有属性关系,则说明“条子”的上下文是和敏感语义“警察”相关的,因此,可认为“条子”的实际语义为敏感语义“警察”,则可以确定待检测信息为敏感信息。
根据第二实体与第一实体在知识图谱中的关系,确定待检测信息是否为敏感信息,也可以具体为,在第二实体中查找与第一实体在知识图谱中具有属性关系的第四实体,根据第四实体的数量与第二实体的数量的比值,确定待检测信息是否为敏感信息。举例来说,若第四实体的数量与第二实体的数量的比值大于或等于预设比值,则说明第二实体中第四实体为主要成分,则可以认为第一信息在待检测信息中的实际语义为敏感语义的可能性较高,则确定待检测信息为敏感信息。预设比值可以是50%。
根据第二实体与第一实体在知识图谱中的关系,确定待检测信息是否为敏感信息,还可以具体为,在第二实体中查找与第一实体在知识图谱中具有属性关系的第四实体,在第二实体中查找与第三实体在知识图谱中具有属性关系的第五实体,根据第四实体的数量及第五实体的数量,确定待检测信息是否为敏感信息。
举例来说,第一信息为“条子”,基于警察的语义可以有第一实体“警察”,基于长方形的纸张可以有第三实体“纸条”,第二实体为待检测信息中第一信息的上下文内容对应的实体,若第二实体中包括5个第四实体,1个第五实体,第四实体的数量大于第二实体的数量,则认为第一信息的上下文的内容中,与第一实体相关的内容为主要内容,则可以确定第一信息在待检测信息中的实际语义为敏感语义“警察”,因此,可以确定待检测信息为敏感信息。
具体实施时,还可以在知识图谱中查找与第一实体具有属性关系的第六实体,则第四实体为第二实体和第六实体中相同的实体,在知识图谱中查找与第三实体具有属性关系的第七实体,则第五实体为第二实体和第七实体中相同的实体。举例来说,第六实体SetLemmaA可以包括:LemmaA1、LemmaA2、LemmaA3、LemmaA4等,第七实体SetLemmaB可以包括LemmaB1、LemmaB2、LemmaB3、LemmaB4等。
因此,根据第四实体的数量及第五实体的数量,确定待检测信息是否为敏感信息,还可以具体为,根据第四实体的数量、第五实体的数量、第二实体的数量、第六实体的数量、第七实体的数量以及知识图谱中的实体数量,确定待检测信息是否为敏感信息。
作为一种示例,可以根据以下公式(1)和公式(2)分别确定第一信息与敏感语义LemmaA的相关性指数,以及第一信息与非敏感语义LemmaB的相关性指数:
Figure BDA0001921138400000111
其中,Relevancy(Word0,LemmaA)表示第一信息Word0与敏感语义LemmaA的相关性指数,|SetText|为第二实体的数量,|SetLemmaA|为第六实体的数量,max(|SetText|,|SetLemmaA|)为第二实体的数量和第六实体的数量的较大值,min(|SetText|,|SetLemmaA|)为第二实体的数量和第六实体的数量的较小值,|SetText∩SetLemmaA|为第二实体和第六实体中相同的实体的数量,即第四实体的数量,|LemmaSet|为知识图谱中的实体数量;
Figure BDA0001921138400000112
其中,Relevancy(Word0,LemmaB)表示第一信息Word0与非敏感语义LemmaB的相关性指数,|SetText|为第二实体的数量,|SetLemmaB|为第七实体的数量,max(|SetText|,|SetLemmaB|)为第二实体的数量和第七实体的数量的较大值,min(|SetText|,|SetLemmaB|)为第二实体的数量和第七实体的数量的较小值,|SetText∩SetLemmaB|为第二实体和第七实体中相同的实体的数量,即第五实体的数量,|LemmaSet|为知识图谱中的实体数量;
在计算得到第一信息Word0和敏感语义LemmaA的相关性指数Relevancy(Word0,LemmaA),以及第一信息Word0与非敏感语义LemmaB的相关性指数Relevancy(Word0,LemmaB)后,可以将较高的相关性指数对应的语义作为第一信息Word0在待检测信息中的实际语义。可以理解的,若第一信息Word0在待检测信息中的实际语义为敏感语义LemmaA,则待检测信息为敏感信息,若第一信息Word0在待检测信息中的实际语义为非敏感语义LemmaB,则待检测信息不是敏感信息。
在本申请实施例中,若S101之前并未在待检测信息中查找第二敏感词匹配的信息,则还可以在上述确定待检测信息不是敏感信息之后,在待检测信息中查找第二敏感词匹配的信息,若查找到第二信息与第二敏感词匹配,则可以确定待检测信息为敏感信息。
在本申请实施例中,若确定待检测信息为敏感信息,则还可以向用户反馈待检测信息,并且响应于针对待检测信息的用户确认操作,可以对待检测信息进行删除。
本申请实施例提供了一种确定敏感信息的方法,在待检测信息中查找与第一敏感词匹配的信息,若查找到第一信息与第一敏感词匹配,则在知识图谱中查找第一信息匹配的第一实体,第一实体具有敏感语义,在知识图谱中查找与待检测信息中除第一信息之外的其他信息匹配的第二实体。根据第二实体与第一实体在知识图谱中的关系,可以确定待检测信息中第一信息和除第一信息之外的其他信息之间的关系,从而确定第一信息在待检测信息中是否具有敏感语义,进而确定待检测信息是否为敏感信息。在本申请实施例中,对于与第一敏感词匹配的第一信息,结合第一信息的上下文,对第一信息进行分析,通过判断第一信息是否具有敏感语义来判断待检测信息是否为敏感信息,而不是仅仅根据第一信息的字面上是否包括敏感词来判断,提高了敏感信息的过来准确性,提高了用户体验。
基于以上实施例提供的一种确定敏感信息的方法,本申请实施例还提供了一种确定敏感信息的装置,下面结合附图来详细说明其工作原理。
参考图2所示,该图为本申请实施例提供的一种确定敏感信息的装置的结构框图,该装置可以包括:
信息查找单元110,用于在待检测信息中查找与第一敏感词匹配的信息;
实体查找单元120,用于若查找到第一信息与所述第一敏感词匹配,在知识图谱中查找所述第一信息匹配的第一实体以及所述待检测信息中除所述第一信息之外的其他信息匹配的第二实体,其中,所述第一实体具有敏感语义;
第一敏感信息确定单元130,用于根据所述第二实体与所述第一实体在所述知识图谱中的关系,确定所述待检测信息是否为敏感信息。
可选的,所述第一敏感信息确定单元,包括:
第一敏感信息确定子单元,用于若所述第二实体中存在与所述第一实体在所述知识图谱中具有属性关系的实体,确定所述待检测信息为敏感信息。
可选的,所述第一敏感信息确定子单元,包括:
实体获取单元,用于若所述第一信息在所述知识图谱中还匹配第三实体且所述第三实体不具有敏感语义,在所述第二实体中分别查找与所述第一实体在所述知识图谱中具有属性关系的第四实体以及与所述第三实体在所述知识图谱中具有属性关系的第五实体;
敏感信息判断单元,用于根据所述第四实体的数量及所述第五实体的数量,确定所述待检测信息是否为敏感信息。
可选的,所述敏感信息判断单元,具体用于:
根据所述第四实体的数量、所述第五实体的数量、所述第二实体的数量、所述知识图谱中与所述第一实体具有属性关系的实体数量、所述知识图谱中与所述第三实体具有属性关系的实体数量以及所述知识图谱中的实体数量,确定所述待检测信息是否为敏感信息。
可选的,所述装置还包括:
第二信息查找单元,用于在所述待检测信息中查找与第二敏感词匹配的信息;
第二敏感信息确定单元,用于若查找到第二信息与所述第二敏感词匹配,确定所述待检测信息为敏感信息;其中,所述第一敏感词与所述第二敏感词为两个不同类别的敏感词。
可选的,所述装置还包括:
反馈单元,用于若所述待检测信息被确定为敏感信息,向用户反馈所述待检测信息;
删除单元,用于响应于针对所述待检测信息的用户确认操作,对所述待检测信息进行删除。
本申请实施例提供了一种确定敏感信息的装置,在待检测信息中查找与第一敏感词匹配的信息,若查找到第一信息与第一敏感词匹配,则在知识图谱中查找第一信息匹配的第一实体,第一实体具有敏感语义,在知识图谱中查找与待检测信息中除第一信息之外的其他信息匹配的第二实体。根据第二实体与第一实体在知识图谱中的关系,可以确定待检测信息中第一信息和除第一信息之外的其他信息之间的关系,从而确定第一信息在待检测信息中是否具有敏感语义,进而确定待检测信息是否为敏感信息。在本申请实施例中,对于与第一敏感词匹配的第一信息,结合第一信息的上下文,对第一信息进行分析,通过判断第一信息是否具有敏感语义来判断待检测信息是否为敏感信息,而不是仅仅根据第一信息的字面上是否包括敏感词来判断,提高了敏感信息的过来准确性,提高了用户体验。
基于以上一种确定敏感信息的方法,本申请实施例还提供了一种确定敏感信息的设备,参考图3所示,所述设备包括处理器以及存储器;
其中,所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行本申请实施例提供的确定敏感信息的方法。
本申请实施例还提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行本申请实施例提供的确定敏感信息的方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种确定敏感信息的方法,其特征在于,包括:
在待检测信息中查找与第一敏感词匹配的信息;
若查找到第一信息与所述第一敏感词匹配,在知识图谱中查找所述第一信息匹配的第一实体以及所述待检测信息中除所述第一信息之外的其他信息匹配的第二实体,其中,所述第一实体具有敏感语义;
根据所述第二实体与所述第一实体在所述知识图谱中的关系,确定所述待检测信息是否为敏感信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第二实体与所述第一实体在所述知识图谱中的关系,确定所述待检测信息是否为敏感信息,包括:
若所述第二实体中存在与所述第一实体在所述知识图谱中具有属性关系的实体,确定所述待检测信息为敏感信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第二实体与所述第一实体在所述知识图谱中的关系,确定所述待检测信息是否为敏感信息,包括:
若所述第一信息在所述知识图谱中还匹配第三实体且所述第三实体不具有敏感语义,在所述第二实体中分别查找与所述第一实体在所述知识图谱中具有属性关系的第四实体以及与所述第三实体在所述知识图谱中具有属性关系的第五实体;
根据所述第四实体的数量及所述第五实体的数量,确定所述待检测信息是否为敏感信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第四实体的数量及所述第五实体的数量,确定所述待检测信息是否为敏感信息,具体为:
根据所述第四实体的数量、所述第五实体的数量、所述第二实体的数量、所述知识图谱中与所述第一实体具有属性关系的实体数量、所述知识图谱中与所述第三实体具有属性关系的实体数量以及所述知识图谱中的实体数量,确定所述待检测信息是否为敏感信息。
5.根据权利要求1所述的方法,其特征在于,还包括:
在所述待检测信息中查找与第二敏感词匹配的信息;
若查找到第二信息与所述第二敏感词匹配,确定所述待检测信息为敏感信息;
其中,所述第一敏感词与所述第二敏感词为两个不同类别的敏感词。
6.根据权利要求1至5任意一项所述的方法,其特征在于,还包括:
若所述待检测信息被确定为敏感信息,向用户反馈所述待检测信息;
响应于针对所述待检测信息的用户确认操作,对所述待检测信息进行删除。
7.一种确定敏感信息的装置,其特征在于,包括:
第一信息查找单元,用于在待检测信息中查找与第一敏感词匹配的信息;
实体查找单元,用于若查找到第一信息与所述第一敏感词匹配,在知识图谱中查找所述第一信息匹配的第一实体以及所述待检测信息中除所述第一信息之外的其他信息匹配的第二实体,其中,所述第一实体具有敏感语义;
第一敏感信息确定单元,用于根据所述第二实体与所述第一实体在所述知识图谱中的关系,确定所述待检测信息是否为敏感信息。
8.根据权利要求7所述的装置,其特征在于,所述第一敏感信息确定单元,包括:
第一敏感信息确定子单元,用于若所述第二实体中存在与所述第一实体在所述知识图谱中具有属性关系的实体,确定所述待检测信息为敏感信息。
9.一种确定敏感信息的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至6任一项所述的确定敏感信息的方法。
10.一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1至6任一项所述确定敏感信息的方法。
CN201811594909.9A 2018-12-25 2018-12-25 一种确定敏感信息的方法和装置 Active CN109766447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811594909.9A CN109766447B (zh) 2018-12-25 2018-12-25 一种确定敏感信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811594909.9A CN109766447B (zh) 2018-12-25 2018-12-25 一种确定敏感信息的方法和装置

Publications (2)

Publication Number Publication Date
CN109766447A CN109766447A (zh) 2019-05-17
CN109766447B true CN109766447B (zh) 2020-10-16

Family

ID=66451546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811594909.9A Active CN109766447B (zh) 2018-12-25 2018-12-25 一种确定敏感信息的方法和装置

Country Status (1)

Country Link
CN (1) CN109766447B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570872A (zh) * 2019-07-15 2019-12-13 云知声智能科技股份有限公司 一种信息反馈的方法及系统
CN110390211B (zh) * 2019-07-30 2021-09-21 广东工业大学 一种敏感属性数据的处理方法及系统
CN112417457B (zh) * 2020-11-16 2022-02-08 中国电子科技集团公司第三十研究所 一种基于大数据的敏感数据还原检测的方法与系统
CN112818700A (zh) * 2021-01-20 2021-05-18 广州明朝互动科技股份有限公司 一种敏感信息的封禁方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832496A (en) * 1995-10-12 1998-11-03 Ncr Corporation System and method for performing intelligent analysis of a computer database
CN101989292A (zh) * 2009-07-31 2011-03-23 李超 一种敏感信息分析系统及方法
CN102609407B (zh) * 2012-02-16 2014-10-29 复旦大学 一种网络不良文本内容的细粒度语义检测方法
CN103617251A (zh) * 2013-11-28 2014-03-05 金蝶软件(中国)有限公司 一种敏感词匹配方法及系统
CN105468605B (zh) * 2014-08-25 2019-04-12 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN108038190A (zh) * 2017-12-11 2018-05-15 杭州有赞科技有限公司 基于多层字典树的敏感词过滤方法及系统
CN108170806B (zh) * 2017-12-28 2020-11-20 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备

Also Published As

Publication number Publication date
CN109766447A (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
Ozyurt et al. A new topic modeling based approach for aspect extraction in aspect based sentiment analysis: SS-LDA
CN109766447B (zh) 一种确定敏感信息的方法和装置
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
US9792277B2 (en) System and method for determining the meaning of a document with respect to a concept
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
CN107102993B (zh) 一种用户诉求分析方法和装置
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
CN109508373B (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
WO2017091985A1 (zh) 停用词识别方法与装置
CN109829151B (zh) 一种基于分层狄利克雷模型的文本分割方法
US20160350278A1 (en) Claim polarity identification
CN110909531A (zh) 信息安全的甄别方法、装置、设备及存储介质
Gao et al. Text classification research based on improved Word2vec and CNN
Argamon Computational forensic authorship analysis: Promises and pitfalls
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN111274366A (zh) 搜索推荐方法及装置、设备、存储介质
Wang et al. Sentiment information extraction of comparative sentences based on CRF model
CN110795573B (zh) 一种网页内容的地理位置预测方法及装置
CN110674288A (zh) 一种应用于网络安全领域的用户画像方法
CN110909532B (zh) 用户名称匹配方法、装置、计算机设备和存储介质
Devisree et al. A hybrid approach to relationship extraction from stories
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant