CN108519970A - 文本中敏感信息的鉴定方法、电子装置及可读存储介质 - Google Patents
文本中敏感信息的鉴定方法、电子装置及可读存储介质 Download PDFInfo
- Publication number
- CN108519970A CN108519970A CN201810114518.6A CN201810114518A CN108519970A CN 108519970 A CN108519970 A CN 108519970A CN 201810114518 A CN201810114518 A CN 201810114518A CN 108519970 A CN108519970 A CN 108519970A
- Authority
- CN
- China
- Prior art keywords
- text
- sensitive
- word
- identified
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种文本中敏感信息的鉴定方法、电子装置及可读存储介质,该方法包括:在收到待鉴定文本后,利用预设的段落分析规则将所述待鉴定文本分成各个独立段落;对各个独立段落进行分句,并对分得的各个语句进行分词处理;将各个分词与预先建立的敏感词库中的各个敏感词进行匹配,得到与预先建立的敏感词库中敏感词相匹配的分词;根据相匹配的分词所在的段落对应的预设段落权重,以及相匹配的分词对应的预设敏感词匹配权重,利用预设规则判断所述待鉴定文本中是否包含敏感信息。本发明能准确有效地判断出所述待鉴定文本中是否包含敏感信息。而且,无需人工进行检测,能自动进行文本中敏感信息的鉴定,有效提高检测效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本中敏感信息的鉴定方 法、电子装置及可读存储介质。
背景技术
目前,对于大型互联网金融企业,在各种业务流程中会涉及到大量文本, 而文本中有可能会夹杂各种敏感信息(如各种涉及色情、政治敏感、暴力、 恐怖等的不良信息),必须有效鉴定并剔除。传统的文本敏感信息的鉴定方 式是由人工对文本进行逐一审核以筛选出包含敏感信息的文本,这种人工检 测成本高,且比较耗时,效率较低。
发明内容
本发明的目的在于提供一种文本中敏感信息的鉴定方法、电子装置及可 读存储介质,旨在自动有效地识别出包含敏感信息的文本。
为实现上述目的,本发明提供一种电子装置,所述电子装置包括存储器、 处理器,所述存储器上存储有可在所述处理器上运行的文本中敏感信息的鉴 定系统,所述文本中敏感信息的鉴定系统被所述处理器执行时实现如下步 骤:
在收到待鉴定文本后,利用预设的段落分析规则将所述待鉴定文本分成 各个独立段落;
对各个独立段落进行分句,并对分得的各个语句进行分词处理;
将各个分词与预先建立的敏感词库中的各个敏感词进行匹配,得到与预 先建立的敏感词库中敏感词相匹配的分词;
根据相匹配的分词所在的段落对应的预设段落权重,以及相匹配的分词 对应的预设敏感词匹配权重,利用预设规则判断所述待鉴定文本中是否包含 敏感信息。
优选地,所述预设的段落分析规则包括:
检测所述待鉴定文本中是否有换行符,若有换行符,则直接将所述待鉴 定文本通过检测出的换行符划分成各个独立段落;若没有换行符,则在所述 待鉴定文本中句号后存在TAB符号时,进行分段,将TAB符号后的文本划 分为新的段落,依次将所述待鉴定文本划分成各个独立段落;
所述对各个独立段落进行分句,并对分得的各个语句进行分词处理的步 骤包括:
对各个独立段落按标点符号划分成若干句子,并对分得的各个语句采用 二元的Bi-Gram分词方法进行分词处理。
优选地,所述文本中敏感信息的鉴定系统被所述处理器执行时,还包括:
为所述待鉴定文本中各个独立段落设置对应的预设段落权重,其中,首 段落和/或尾段落的权重高于其他段落的权重;
为所述待鉴定文本中各个语句设置对应的预设语句权重,其中,在一个 独立段落内,段首和/或段尾语句的权重高于其他语句的权重。
优选地,所述文本中敏感信息的鉴定系统被所述处理器执行时,还包括:
若各个分词与预先建立的敏感词库中相匹配的敏感词为预设直接禁词, 则直接判断所述待鉴定文本中包含敏感信息;
若所述待鉴定文本的分词与预先建立的敏感词库中的预设直接禁词部 分相同或包含与所述预设直接禁词的相关同义词的部分,则为该分词利用预 设的字符串相似算法计算得到对应的第一预设敏感词匹配权重x,公式如下:
x=1/3(m/s1+m/s2+1-t/m)
其中,s1、s2为该分词以及对应的预设直接禁词的字符串长度,m为该 分词以及对应的预设直接禁词之间相同字符串长度,t为去除差异长度;
若所述待鉴定文本的分词与预先建立的敏感词库中的敏感词相匹配,且 相匹配的敏感词符合预设的第一词性,则检测在预先建立的敏感词库中与该 第一词性的敏感词相关联的第二词性和/或第三词性的相关敏感词的匹配情 况,并根据匹配情况及预设计算规则为该分词设定对应的第二预设敏感词匹 配权重。
此外,为实现上述目的,本发明还提供一种文本中敏感信息的鉴定方法, 所述文本中敏感信息的鉴定方法包括:
在收到待鉴定文本后,利用预设的段落分析规则将所述待鉴定文本分成 各个独立段落;
对各个独立段落进行分句,并对分得的各个语句进行分词处理;
将各个分词与预先建立的敏感词库中的各个敏感词进行匹配,得到与预 先建立的敏感词库中敏感词相匹配的分词;
根据相匹配的分词所在的段落对应的预设段落权重,以及相匹配的分词 对应的预设敏感词匹配权重,利用预设规则判断所述待鉴定文本中是否包含 敏感信息。
优选地,所述预设的段落分析规则包括:
检测所述待鉴定文本中是否有换行符,若有换行符,则直接将所述待鉴 定文本通过检测出的换行符划分成各个独立段落;若没有换行符,则在所述 待鉴定文本中句号后存在TAB符号时,进行分段,将TAB符号后的文本划 分为新的段落,依次将所述待鉴定文本划分成各个独立段落;
所述对各个独立段落进行分句,并对分得的各个语句进行分词处理的步 骤包括:
对各个独立段落按标点符号划分成若干句子,并对分得的各个语句采用 二元的Bi-Gram分词方法进行分词处理。
优选地,该方法还包括:
为所述待鉴定文本中各个独立段落设置对应的预设段落权重,其中,首 段落和/或尾段落的权重高于其他段落的权重;
为所述待鉴定文本中各个语句设置对应的预设语句权重,其中,在一个 独立段落内,段首和/或段尾语句的权重高于其他语句的权重。
优选地,该方法还包括:
若各个分词与预先建立的敏感词库中相匹配的敏感词为预设直接禁词, 则直接判断所述待鉴定文本中包含敏感信息;
若所述待鉴定文本的分词与预先建立的敏感词库中的预设直接禁词部 分相同或包含与所述预设直接禁词的相关同义词的部分,则为该分词利用预 设的字符串相似算法计算得到对应的第一预设敏感词匹配权重x,公式如下:
x=1/3(m/s1+m/s2+1-t/m)
其中,s1、s2为该分词以及对应的预设直接禁词的字符串长度,m为该 分词以及对应的预设直接禁词之间相同字符串长度,t为去除差异长度;
若所述待鉴定文本的分词与预先建立的敏感词库中的敏感词相匹配,且 相匹配的敏感词符合预设的第一词性,则检测在预先建立的敏感词库中与该 第一词性的敏感词相关联的第二词性和/或第三词性的相关敏感词的匹配情 况,并根据匹配情况及预设计算规则为该分词设定对应的第二预设敏感词匹 配权重。
优选地,所述利用预设规则判断所述待鉴定文本中是否包含敏感信息包 括:
按照如下公式计算得到P值:
P=a1*X1+a2*X2+a3*X3
其中,X1为所述待鉴定文本中相匹配的分词所在的段落对应的预设段 落权重,X2为所述待鉴定文本中相匹配的分词所在的语句对应的预设语句 权重,X3为所述待鉴定文本中相匹配的分词对应的预设敏感词匹配权重; a1、a2、a3为预先为预设段落权重X1,预设语句权重X2,以及预设敏感词 匹配权重X3设置的参数权重;
将计算得到的P值与预先设定的预警阈值进行比较,若P值大于预先设 定的预警阈值,则判断所述待鉴定文本中包含敏感信息。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质, 所述计算机可读存储介质存储有文本中敏感信息的鉴定系统,所述文本中敏 感信息的鉴定系统可被至少一个处理器执行,以使所述至少一个处理器执行 如上述的文本中敏感信息的鉴定方法的步骤。
本发明提出的文本中敏感信息的鉴定方法、系统及可读存储介质,通过 对待鉴定文本进行分段、分句及分词处理后,将分得的各个分词与预先建立 的敏感词库中的各个敏感词进行匹配,得到所述待鉴定文本中与预先建立的 敏感词库中敏感词相匹配的分词;并根据相匹配的分词所在的段落设置的对 应预设段落权重,以及相匹配的分词对应的预设敏感词匹配权重,利用预设 规则判断所述待鉴定文本中是否包含敏感信息。由于一般敏感信息在文本中 出现时在不同位置如不同段落的出现概率不同,本发明能将所述待鉴定文本 中的各个分词与预先建立的敏感词库中的各个敏感词进行匹配,根据匹配情 况分配对应的预设敏感词匹配权重,并根据相匹配的分词在所述待鉴定文本 中的位置即所在的段落设置对应预设段落权重,结合预设敏感词匹配权重以 及预设段落权重来进行综合鉴定,能更加准确有效地判断出所述待鉴定文本 中是否包含敏感信息。而且,无需人工进行检测,能自动进行文本中敏感信 息的鉴定,有效提高检测效率。
附图说明
图1为本发明文本中敏感信息的鉴定系统10较佳实施例的运行环境示 意图;
图2为本发明文本中敏感信息的鉴定方法一实施例的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及 实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施 例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领 域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都 属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述 目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特 征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括 至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必 须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛 盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的 保护范围之内。
本发明提供一种文本中敏感信息的鉴定系统。请参阅图1,是本发明文 本中敏感信息的鉴定系统10较佳实施例的运行环境示意图。
在本实施例中,所述的文本中敏感信息的鉴定系统10安装并运行于电 子装置1中。该电子装置1可包括,但不仅限于,存储器11、处理器12及 显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是, 并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器11为至少一种类型的可读计算机存储介质,所述存储器11 在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1 的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1 的外部存储设备,例如所述电子装置1上配备的插接式硬盘,智能存储卡 (Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括所述电子装置1的内部 存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装 置1的应用软件及各类数据,例如所述文本中敏感信息的鉴定系统10的程 序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的 数据。
所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器11中存储 的程序代码或处理数据,例如执行所述文本中敏感信息的鉴定系统10等。
所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控 式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管) 触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用 于显示可视化的用户界面,例如待鉴定文本的分段结果、分词结果、待鉴定 文本中与敏感词库中敏感词相匹配的分词(标记)、待鉴定文本中是否包含 敏感信息的最终鉴定结果等。所述电子装置1的部件11-13通过系统总线相 互通信。
文本中敏感信息的鉴定系统10包括至少一个存储在所述存储器11中的 计算机可读指令,该至少一个计算机可读指令可被所述处理器12执行,以 实现本申请各实施例。
其中,上述文本中敏感信息的鉴定系统10被所述处理器12执行时实现 如下步骤:
步骤S1,在收到待鉴定文本后,利用预设的段落分析规则将所述待鉴定 文本分成各个独立段落。
步骤S2,对各个独立段落进行分句,并对分得的各个语句进行分词处理。
本实施例中,文本中敏感信息的鉴定系统接收用户发出的包含待鉴定文 本的敏感信息鉴定请求,例如,接收用户通过手机、平板电脑、自助终端设 备等终端发送的敏感信息鉴定请求,如接收用户在手机、平板电脑、自助终 端设备等终端中预先安装的客户端上发送来的敏感信息鉴定请求,或接收用 户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的敏感 信息鉴定请求。
文本中敏感信息的鉴定系统在收到用户发出的敏感信息鉴定请求后,首 先对敏感信息鉴定请求中的待鉴定文本进行一系列的处理,以便后续对该待 鉴定文本中的敏感信息进行准确地判断。例如,可进行如下处理:
对待鉴定文本进行文字噪音去除等预处理,如对于待鉴定文本中存在畸 变字、变体字的情况,先进行校正处理;对于待鉴定文本中存在乱码、多个 同类型特殊字符的情况进行去除;还可以进行繁体字转换简体字等处理。
对待鉴定文本完成预处理后,可利用预设的段落分析规则对待鉴定文本 进行段落分析,将待鉴定文本分成各个独立的段落。例如,对于有换行符的 情况,直接将待鉴定文本通过换行符划分成不同的段落;对于没有换行符, 但在句号后存在TAB符号时,可将后续文本作为新段落处理。并为各个段 落设置权重X1,根据经验,为了取得博人眼球的宣传作用,文本中的不良 信息一般大概率会出现在一个文本的首段落和尾段落中,而出现在大量内容 的正文即中间段落的概率较小。因此,本实施例中可将待鉴定文本的首段落 和尾段落作为核心段落,相应的,对首段落和尾段落设定的权重高于其他段 落的权重。例如,对于首段落和尾段落设置较高的权重90%,对于中间段落 设置权重70%。
将待鉴定文本中划分的各个段落进行分句,如将每一段落按标点符号划 分成若干句子,并设置各个语句的权重X2。例如,可设置段落核心语句分 析,如对于段首的句子可设置较高权重90%,对于中间语句设置权重70%。
对待鉴定文本中的各个分句继续进行分词处理。对各个语句进行分词, 以便后续与敏感词库中的各个敏感词进行关键字匹配操作。本实施例中,可 采用N元文法统计模型(N-gram Model)、隐马尔科夫模型(Hidden Markov Model,简称HMM)、最大熵模型(MaximumEntropy Model)来进行分词, 分词算法可包括:正向最大匹配,反向最大匹配,双向最大匹配,最短路径 算法。例如,N-gram模型中,假设T是由词序列W1,W2,W3,…Wn组成的, 那么有如下公式:
P(T)=P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn -1)。具体地,在一种可选的实施方式中,采用二元的Bi-Gram分词方法进行 分词,采用bigram策略即一个词的出现仅依赖于它前面出现的两个词,公 式如下:
P(T)=P(W1W2W3)=P(W1)P(W2|W1)P(W3|W1W2)≈ P(W1)P(W2|W1)P(W3|W2)。
步骤S3,将各个分词与预先建立的敏感词库中的各个敏感词进行匹配, 得到与预先建立的敏感词库中敏感词相匹配的分词。
本实施例中,预先可建立敏感词库也即敏感关键词消息库,例如,可按 不同敏感类型建立敏感关键词消息库,包括:建立包含反动、反人类等危害 社会活动的消息库;建立包含宗教、政治、事件等敏感的消息库;建立包含 广告、诈骗等垃圾信息的消息库;建立包含黄赌毒等完全与金融活动无关的 消息库。
该敏感关键词消息库中包括直接禁词,即需直接屏蔽掉的禁词。还可按 词性将敏感关键词消息库中的敏感关键词划分为一般名词、辅助动词、辅助 负面词、辅助褒义词等不同词性,并进行标注。进一步地,还可对敏感关键 词定级。如可根据敏感词影响的不同,或出现频率高低,或国家公布、公司 规定、系统自定义等界定,对敏感关键词进行分级。如可将敏感关键词分为 三个等级,一级敏感关键词为最严重的,如直接表达出反动、危害人民安全 的敏感信息的,需直接给予过滤;二级敏感关键词为严重,所包含的信息虽 然敏感,但不意味着一定会带来直接的危害,对于这类可给予提示预警,并 标记信息,供管理员审核和操作;三级敏感关键词,是一些常与敏感信息相 关的特殊词汇,如关于政治、军事等的特殊词语,多为指代性的名词,其所 表达的意思往往需要根据上下文进行判断,其出现在一段文本中,并不意味着 一定会是具有危害性的敏感信息,因此,对于这类信息,也需要进行标记, 以供后续根据上下文查看文字所表达的意思是否会带来不良的影响。
在将待鉴定文本进行了文本预处理、段落分析、分词等一系列处理后, 可将待鉴定文本的各个分词与建立的敏感关键词消息库中的敏感词进行匹 配,并根据匹配的结果分配相应的匹配权重X3。具体地,可以包括以下几 种情况:
(1)精确匹配的情况,命中直接禁词,即待鉴定文本的分词中直接包含 了敏感关键词消息库中的直接禁词,则赋予匹配权重X3为100%。或者, 也可以直接依此命中直接禁词的结果判定待鉴定文本为不良信息文本,并对 待鉴定文本中的直接禁词进行标记。
(2)模糊匹配的情况,对于待鉴定文本的分词部分命中禁词或包含与禁 词同义相关词的部分,则赋予权重X3=x,其中x为利用字符串相似算法 Jaro-Winkler Distance计算得到,Jaro-Winkler Distance算法是一种计算两个 字符串之间相似度的方法,x为Jaro距离,公式如下:x=1/3(m/s1+m/s2+1-t/m), 其中,s1,s2为待鉴定文本的分词以及敏感关键词消息库中相似禁词的字符 串长度,m为两者之间相同字串长度即匹配的字符数,t为去除差异长度。
(3)多个关键字匹配的情况,若待鉴定文本的分词与敏感关键词消息库 中的敏感词相匹配,但该匹配的敏感词符合预设的第一词性,则进一步地还 需判定与该第一词性相关联的第二词性或第三词性的相关联敏感词的匹配 情况,以综合判定待鉴定文本是否为不良信息文本。例如,当待鉴定文本的 分词匹配命中敏感关键词消息库中的一般名词时,需要进一步判断与该一般 名词相关联的辅助动词或辅助褒义、负面词情况。通过如下公式:
w=w1(1+(1-w1)w2*sig1)(1+(1-w1(1+(1-w1)w2*sig))w3*sig2)
来计算最终的敏感词匹配权重X3,w1,w2为辅助动词和辅助褒义/负面 词命中权重。即本实施例中,预先按词性划分不同的敏感词,当一个词性的 敏感词被命中后,还会进一步地判断该词性的其他关联词性的敏感词,以更 准确地进行不良信息的鉴定。
步骤S4,根据相匹配的分词所在的段落对应的预设段落权重,以及相 匹配的分词对应的预设敏感词匹配权重,利用预设规则判断所述待鉴定文本 中是否包含敏感信息。
本实施例中,在利用预设规则判断所述待鉴定文本中是否包含敏感信息 时,可按照如下公式计算得到P值:
P=a1*X1+a2*X2+a3*X3
其中,X1为所述待鉴定文本中相匹配的分词所在的段落对应的预设段 落权重,X2为所述待鉴定文本中相匹配的分词所在的语句对应的预设语句 权重,X3为所述待鉴定文本中相匹配的分词对应的预设敏感词匹配权重;a1、a2、a3为预先为预设段落权重X1,预设语句权重X2,以及预设敏感词 匹配权重X3设置的参数权重,例如,可设置a1=0.2,a2=0.1,a3=0.7。
预先设定一预警阈值,将计算得到的P值与预先设定的预警阈值进行比 较,若P值大于预先设定的预警阈值,则判断所述待鉴定文本中包含敏感信 息,并进行预警。
与现有技术相比,本实施例通过对待鉴定文本进行分段、分句及分词处 理后,将分得的各个分词与预先建立的敏感词库中的各个敏感词进行匹配, 得到所述待鉴定文本中与预先建立的敏感词库中敏感词相匹配的分词;并根 据相匹配的分词所在的段落设置的对应预设段落权重,以及相匹配的分词对 应的预设敏感词匹配权重,利用预设规则判断所述待鉴定文本中是否包含敏 感信息。由于一般敏感信息在文本中出现时在不同位置如不同段落或语句的 出现概率不同,本实施例中能将所述待鉴定文本中的各个分词与预先建立的 敏感词库中的各个敏感词进行匹配,根据匹配情况分配对应的预设敏感词匹 配权重,并根据相匹配的分词在所述待鉴定文本中的位置即所在的段落设置 对应预设段落权重及所在语句对应设置预设语句权重,结合预设敏感词匹配 权重以及预设段落权重、预设语句权重来进行综合鉴定,能更加准确有效地 判断出所述待鉴定文本中是否包含敏感信息。而且,无需人工进行检测,能 自动进行文本中敏感信息的鉴定,有效提高检测效率。
在一可选的实施例中,在上述图1的实施例的基础上,所述文本中敏感 信息的鉴定系统10被所述处理器12执行时,还包括:
对于不同业务系统,除了采用公共的敏感关键词消息库进行匹配过滤 外,还可采用系统自定义关键词库进行针对不同业务特性相关的敏感词库过 滤。即针对不同业务系统,在进行关键字匹配时,不仅可将待鉴定文本的各 个分词与建立的敏感关键词消息库中的敏感关键词进行匹配,还可将待鉴定 文本的各个分词与系统自定义的针对不同业务特性相关的敏感词库中的敏 感关键词进行匹配。后续对于达到公共库预警阈值的即可进行预警,对于未 达到公共库阈值但达到系统自定义库阈值的也可进行预警,更加灵活实用。
在一可选的实施例中,所述文本中敏感信息的鉴定系统10被所述处理 器12执行时,还包括:
对敏感关键词消息库实施更新策略,如:将不同消息库在线实时或定时 更新同步到敏感关键词消息库中。还可通过数据库导出敏感关键词消息库文 件到指定路径,系统定期更新指定路径中的敏感关键词消息库数据,能够及 时更新最新敏感关键词消息进入敏感关键词消息库。
如图2所示,图2为本发明文本中敏感信息的鉴定方法一实施例的流程 示意图,该文本中敏感信息的鉴定方法包括以下步骤:
步骤S10,在收到待鉴定文本后,利用预设的段落分析规则将所述待鉴 定文本分成各个独立段落。
步骤S20,对各个独立段落进行分句,并对分得的各个语句进行分词处 理。
本实施例中,文本中敏感信息的鉴定系统接收用户发出的包含待鉴定文 本的敏感信息鉴定请求,例如,接收用户通过手机、平板电脑、自助终端设 备等终端发送的敏感信息鉴定请求,如接收用户在手机、平板电脑、自助终 端设备等终端中预先安装的客户端上发送来的敏感信息鉴定请求,或接收用 户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的敏感 信息鉴定请求。
文本中敏感信息的鉴定系统在收到用户发出的敏感信息鉴定请求后,首 先对敏感信息鉴定请求中的待鉴定文本进行一系列的处理,以便后续对该待 鉴定文本中的敏感信息进行准确地判断。例如,可进行如下处理:
对待鉴定文本进行文字噪音去除等预处理,如对于待鉴定文本中存在畸 变字、变体字的情况,先进行校正处理;对于待鉴定文本中存在乱码、多个 同类型特殊字符的情况进行去除;还可以进行繁体字转换简体字等处理。
对待鉴定文本完成预处理后,可利用预设的段落分析规则对待鉴定文本 进行段落分析,将待鉴定文本分成各个独立的段落。例如,对于有换行符的 情况,直接将待鉴定文本通过换行符划分成不同的段落;对于没有换行符, 但在句号后存在TAB符号时,可将后续文本作为新段落处理。并为各个段 落设置权重X1,根据经验,为了取得博人眼球的宣传作用,文本中的不良 信息一般大概率会出现在一个文本的首段落和尾段落中,而出现在大量内容 的正文即中间段落的概率较小。因此,本实施例中可将待鉴定文本的首段落 和尾段落作为核心段落,相应的,对首段落和尾段落设定的权重高于其他段 落的权重。例如,对于首段落和尾段落设置较高的权重90%,对于中间段落 设置权重70%。
将待鉴定文本中划分的各个段落进行分句,如将每一段落按标点符号划 分成若干句子,并设置各个语句的权重X2。例如,可设置段落核心语句分 析,如对于段首的句子可设置较高权重90%,对于中间语句设置权重70%。
对待鉴定文本中的各个分句继续进行分词处理。对各个语句进行分词, 以便后续与敏感词库中的各个敏感词进行关键字匹配操作。本实施例中,可 采用N元文法统计模型(N-gram Model)、隐马尔科夫模型(Hidden Markov Model,简称HMM)、最大熵模型(MaximumEntropy Model)来进行分词, 分词算法可包括:正向最大匹配,反向最大匹配,双向最大匹配,最短路径 算法。例如,N-gram模型中,假设T是由词序列W1,W2,W3,…Wn组成的, 那么有如下公式:
P(T)=P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn -1)。具体地,在一种可选的实施方式中,采用二元的Bi-Gram分词方法进行 分词,采用bigram策略即一个词的出现仅依赖于它前面出现的两个词,公 式如下:
P(T)=P(W1W2W3)=P(W1)P(W2|W1)P(W3|W1W2)≈ P(W1)P(W2|W1)P(W3|W2)。
步骤S30,将各个分词与预先建立的敏感词库中的各个敏感词进行匹配, 得到与预先建立的敏感词库中敏感词相匹配的分词。
本实施例中,预先可建立敏感词库也即敏感关键词消息库,例如,可按 不同敏感类型建立敏感关键词消息库,包括:建立包含反动、反人类等危害 社会活动的消息库;建立包含宗教、政治、事件等敏感的消息库;建立包含 广告、诈骗等垃圾信息的消息库;建立包含黄赌毒等完全与金融活动无关的 消息库。
该敏感关键词消息库中包括直接禁词,即需直接屏蔽掉的禁词。还可按 词性将敏感关键词消息库中的敏感关键词划分为一般名词、辅助动词、辅助 负面词、辅助褒义词等不同词性,并进行标注。进一步地,还可对敏感关键 词定级。如可根据敏感词影响的不同,或出现频率高低,或国家公布、公司 规定、系统自定义等界定,对敏感关键词进行分级。如可将敏感关键词分为 三个等级,一级敏感关键词为最严重的,如直接表达出反动、危害人民安全 的敏感信息的,需直接给予过滤;二级敏感关键词为严重,所包含的信息虽 然敏感,但不意味着一定会带来直接的危害,对于这类可给予提示预警,并 标记信息,供管理员审核和操作;三级敏感关键词,是一些常与敏感信息相 关的特殊词汇,如关于政治、军事等的特殊词语,多为指代性的名词,其所 表达的意思往往需要根据上下文进行判断,其出现在一段文本中,并不意味着 一定会是具有危害性的敏感信息,因此,对于这类信息,也需要进行标记, 以供后续根据上下文查看文字所表达的意思是否会带来不良的影响。
在将待鉴定文本进行了文本预处理、段落分析、分词等一系列处理后, 可将待鉴定文本的各个分词与建立的敏感关键词消息库中的敏感词进行匹 配,并根据匹配的结果分配相应的匹配权重X3。具体地,可以包括以下几 种情况:
(1)精确匹配的情况,命中直接禁词,即待鉴定文本的分词中直接包含 了敏感关键词消息库中的直接禁词,则赋予匹配权重X3为100%。或者, 也可以直接依此命中直接禁词的结果判定待鉴定文本为不良信息文本,并对 待鉴定文本中的直接禁词进行标记。
(2)模糊匹配的情况,对于待鉴定文本的分词部分命中禁词或包含与禁 词同义相关词的部分,则赋予权重X3=x,其中x为利用字符串相似算法 Jaro-Winkler Distance计算得到,Jaro-Winkler Distance算法是一种计算两个 字符串之间相似度的方法,x为Jaro距离,公式如下:x=1/3(m/s1+m/s2+1-t/m), 其中,s1,s2为待鉴定文本的分词以及敏感关键词消息库中相似禁词的字符 串长度,m为两者之间相同字串长度即匹配的字符数,t为去除差异长度。
(3)多个关键字匹配的情况,若待鉴定文本的分词与敏感关键词消息库 中的敏感词相匹配,但该匹配的敏感词符合预设的第一词性,则进一步地还 需判定与该第一词性相关联的第二词性或第三词性的相关联敏感词的匹配 情况,以综合判定待鉴定文本是否为不良信息文本。例如,当待鉴定文本的 分词匹配命中敏感关键词消息库中的一般名词时,需要进一步判断与该一般 名词相关联的辅助动词或辅助褒义、负面词情况。通过如下公式:
w=w1(1+(1-w1)w2*sig1)(1+(1-w1(1+(1-w1)w2*sig))w3*sig2)
来计算最终的敏感词匹配权重X3,w1,w2为辅助动词和辅助褒义/负面 词命中权重。即本实施例中,预先按词性划分不同的敏感词,当一个词性的 敏感词被命中后,还会进一步地判断该词性的其他关联词性的敏感词,以更 准确地进行不良信息的鉴定。
步骤S40,根据相匹配的分词所在的段落对应的预设段落权重,以及相 匹配的分词对应的预设敏感词匹配权重,利用预设规则判断所述待鉴定文本 中是否包含敏感信息。
本实施例中,在利用预设规则判断所述待鉴定文本中是否包含敏感信息 时,可按照如下公式计算得到P值:
P=a1*X1+a2*X2+a3*X3
其中,X1为所述待鉴定文本中相匹配的分词所在的段落对应的预设段 落权重,X2为所述待鉴定文本中相匹配的分词所在的语句对应的预设语句 权重,X3为所述待鉴定文本中相匹配的分词对应的预设敏感词匹配权重; a1、a2、a3为预先为预设段落权重X1,预设语句权重X2,以及预设敏感词 匹配权重X3设置的参数权重,例如,可设置a1=0.2,a2=0.1,a3=0.7。
预先设定一预警阈值,将计算得到的P值与预先设定的预警阈值进行比 较,若P值大于预先设定的预警阈值,则判断所述待鉴定文本中包含敏感信 息,并进行预警。
与现有技术相比,本实施例通过对待鉴定文本进行分段、分句及分词处 理后,将分得的各个分词与预先建立的敏感词库中的各个敏感词进行匹配, 得到所述待鉴定文本中与预先建立的敏感词库中敏感词相匹配的分词;并根 据相匹配的分词所在的段落设置的对应预设段落权重,以及相匹配的分词对 应的预设敏感词匹配权重,利用预设规则判断所述待鉴定文本中是否包含敏 感信息。由于一般敏感信息在文本中出现时在不同位置如不同段落或语句的 出现概率不同,本实施例中能将所述待鉴定文本中的各个分词与预先建立的 敏感词库中的各个敏感词进行匹配,根据匹配情况分配对应的预设敏感词匹 配权重,并根据相匹配的分词在所述待鉴定文本中的位置即所在的段落设置 对应预设段落权重及所在语句对应设置预设语句权重,结合预设敏感词匹配 权重以及预设段落权重、预设语句权重来进行综合鉴定,能更加准确有效地 判断出所述待鉴定文本中是否包含敏感信息。而且,无需人工进行检测,能 自动进行文本中敏感信息的鉴定,有效提高检测效率。
在一可选的实施例中,在上述实施例的基础上,该方法还包括:
对于不同业务系统,除了采用公共的敏感关键词消息库进行匹配过滤 外,还可采用系统自定义关键词库进行针对不同业务特性相关的敏感词库过 滤。即针对不同业务系统,在进行关键字匹配时,不仅可将待鉴定文本的各 个分词与建立的敏感关键词消息库中的敏感关键词进行匹配,还可将待鉴定 文本的各个分词与系统自定义的针对不同业务特性相关的敏感词库中的敏 感关键词进行匹配。后续对于达到公共库预警阈值的即可进行预警,对于未 达到公共库阈值但达到系统自定义库阈值的也可进行预警,更加灵活实用。
在一可选的实施例中,该方法还包括:
对敏感关键词消息库实施更新策略,如:将不同消息库在线实时或定时 更新同步到敏感关键词消息库中。还可通过数据库导出敏感关键词消息库文 件到指定路径,系统定期更新指定路径中的敏感关键词消息库数据,能够及 时更新最新敏感关键词消息进入敏感关键词消息库。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介 质存储有文本中敏感信息的鉴定系统,所述文本中敏感信息的鉴定系统可被 至少一个处理器执行,以使所述至少一个处理器执行如上述实施例中的文本 中敏感信息的鉴定方法的步骤,该文本中敏感信息的鉴定方法的步骤S10、 S20、S30等具体实施过程如上文所述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体 意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或 者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还 包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情 况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、 方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本 发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品 的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、 磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算 机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利 范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外, 虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的 顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现 本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。 凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在 本发明的权利范围之内。
Claims (10)
1.一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的文本中敏感信息的鉴定系统,所述文本中敏感信息的鉴定系统被所述处理器执行时实现如下步骤:
在收到待鉴定文本后,利用预设的段落分析规则将所述待鉴定文本分成各个独立段落;
对各个独立段落进行分句,并对分得的各个语句进行分词处理;
将各个分词与预先建立的敏感词库中的各个敏感词进行匹配,得到与预先建立的敏感词库中敏感词相匹配的分词;
根据相匹配的分词所在的段落对应的预设段落权重,以及相匹配的分词对应的预设敏感词匹配权重,利用预设规则判断所述待鉴定文本中是否包含敏感信息。
2.如权利要求1所述的电子装置,其特征在于,所述预设的段落分析规则包括:
检测所述待鉴定文本中是否有换行符,若有换行符,则直接将所述待鉴定文本通过检测出的换行符划分成各个独立段落;若没有换行符,则在所述待鉴定文本中句号后存在TAB符号时,进行分段,将TAB符号后的文本划分为新的段落,依次将所述待鉴定文本划分成各个独立段落;
所述对各个独立段落进行分句,并对分得的各个语句进行分词处理的步骤包括:
对各个独立段落按标点符号划分成若干句子,并对分得的各个语句采用二元的Bi-Gram分词方法进行分词处理。
3.如权利要求1或2所述的电子装置,其特征在于,所述文本中敏感信息的鉴定系统被所述处理器执行时,还包括:
为所述待鉴定文本中各个独立段落设置对应的预设段落权重,其中,首段落和/或尾段落的权重高于其他段落的权重;
为所述待鉴定文本中各个语句设置对应的预设语句权重,其中,在一个独立段落内,段首和/或段尾语句的权重高于其他语句的权重。
4.如权利要求3所述的电子装置,其特征在于,所述文本中敏感信息的鉴定系统被所述处理器执行时,还包括:
若各个分词与预先建立的敏感词库中相匹配的敏感词为预设直接禁词,则直接判断所述待鉴定文本中包含敏感信息;
若所述待鉴定文本的分词与预先建立的敏感词库中的预设直接禁词部分相同或包含与所述预设直接禁词的相关同义词的部分,则为该分词利用预设的字符串相似算法计算得到对应的第一预设敏感词匹配权重x,公式如下:
x=1/3(m/s1+m/s2+1-t/m)
其中,s1、s2为该分词以及对应的预设直接禁词的字符串长度,m为该分词以及对应的预设直接禁词之间相同字符串长度,t为去除差异长度;
若所述待鉴定文本的分词与预先建立的敏感词库中的敏感词相匹配,且相匹配的敏感词符合预设的第一词性,则检测在预先建立的敏感词库中与该第一词性的敏感词相关联的第二词性和/或第三词性的相关敏感词的匹配情况,并根据匹配情况及预设计算规则为该分词设定对应的第二预设敏感词匹配权重。
5.一种文本中敏感信息的鉴定方法,其特征在于,所述文本中敏感信息的鉴定方法包括:
在收到待鉴定文本后,利用预设的段落分析规则将所述待鉴定文本分成各个独立段落;
对各个独立段落进行分句,并对分得的各个语句进行分词处理;
将各个分词与预先建立的敏感词库中的各个敏感词进行匹配,得到与预先建立的敏感词库中敏感词相匹配的分词;
根据相匹配的分词所在的段落对应的预设段落权重,以及相匹配的分词对应的预设敏感词匹配权重,利用预设规则判断所述待鉴定文本中是否包含敏感信息。
6.如权利要求5所述的文本中敏感信息的鉴定方法,其特征在于,所述预设的段落分析规则包括:
检测所述待鉴定文本中是否有换行符,若有换行符,则直接将所述待鉴定文本通过检测出的换行符划分成各个独立段落;若没有换行符,则在所述待鉴定文本中句号后存在TAB符号时,进行分段,将TAB符号后的文本划分为新的段落,依次将所述待鉴定文本划分成各个独立段落;
所述对各个独立段落进行分句,并对分得的各个语句进行分词处理的步骤包括:
对各个独立段落按标点符号划分成若干句子,并对分得的各个语句采用二元的Bi-Gram分词方法进行分词处理。
7.如权利要求5或6所述的文本中敏感信息的鉴定方法,其特征在于,该方法还包括:
为所述待鉴定文本中各个独立段落设置对应的预设段落权重,其中,首段落和/或尾段落的权重高于其他段落的权重;
为所述待鉴定文本中各个语句设置对应的预设语句权重,其中,在一个独立段落内,段首和/或段尾语句的权重高于其他语句的权重。
8.如权利要求7所述的文本中敏感信息的鉴定方法,其特征在于,该方法还包括:
若各个分词与预先建立的敏感词库中相匹配的敏感词为预设直接禁词,则直接判断所述待鉴定文本中包含敏感信息;
若所述待鉴定文本的分词与预先建立的敏感词库中的预设直接禁词部分相同或包含与所述预设直接禁词的相关同义词的部分,则为该分词利用预设的字符串相似算法计算得到对应的第一预设敏感词匹配权重x,公式如下:
x=1/3(m/s1+m/s2+1-t/m)
其中,s1、s2为该分词以及对应的预设直接禁词的字符串长度,m为该分词以及对应的预设直接禁词之间相同字符串长度,t为去除差异长度;
若所述待鉴定文本的分词与预先建立的敏感词库中的敏感词相匹配,且相匹配的敏感词符合预设的第一词性,则检测在预先建立的敏感词库中与该第一词性的敏感词相关联的第二词性和/或第三词性的相关敏感词的匹配情况,并根据匹配情况及预设计算规则为该分词设定对应的第二预设敏感词匹配权重。
9.如权利要求8所述的文本中敏感信息的鉴定方法,其特征在于,所述利用预设规则判断所述待鉴定文本中是否包含敏感信息包括:
按照如下公式计算得到P值:
P=a1*X1+a2*X2+a3*X3
其中,X1为所述待鉴定文本中相匹配的分词所在的段落对应的预设段落权重,X2为所述待鉴定文本中相匹配的分词所在的语句对应的预设语句权重,X3为所述待鉴定文本中相匹配的分词对应的预设敏感词匹配权重;a1、a2、a3为预先为预设段落权重X1,预设语句权重X2,以及预设敏感词匹配权重X3设置的参数权重;
将计算得到的P值与预先设定的预警阈值进行比较,若P值大于预先设定的预警阈值,则判断所述待鉴定文本中包含敏感信息。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本中敏感信息的鉴定系统,所述文本中敏感信息的鉴定系统被处理器执行时实现如权利要求5至9中任一项所述的文本中敏感信息的鉴定方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810114518.6A CN108519970B (zh) | 2018-02-06 | 2018-02-06 | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 |
PCT/CN2018/089717 WO2019153605A1 (zh) | 2018-02-06 | 2018-06-03 | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810114518.6A CN108519970B (zh) | 2018-02-06 | 2018-02-06 | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108519970A true CN108519970A (zh) | 2018-09-11 |
CN108519970B CN108519970B (zh) | 2021-08-31 |
Family
ID=63432818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810114518.6A Active CN108519970B (zh) | 2018-02-06 | 2018-02-06 | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108519970B (zh) |
WO (1) | WO2019153605A1 (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284503A (zh) * | 2018-10-22 | 2019-01-29 | 传神语联网网络科技股份有限公司 | 翻译语句结束判断方法与系统 |
CN109446288A (zh) * | 2018-10-18 | 2019-03-08 | 重庆邮电大学 | 一种基于Spark互联网涉密地图检测算法 |
CN109614608A (zh) * | 2018-10-26 | 2019-04-12 | 平安科技(深圳)有限公司 | 电子装置、文本信息检测方法及存储介质 |
CN109657228A (zh) * | 2018-10-31 | 2019-04-19 | 北京三快在线科技有限公司 | 一种敏感文本确定方法及装置 |
CN109815395A (zh) * | 2018-12-26 | 2019-05-28 | 北京中科闻歌科技股份有限公司 | 网页垃圾信息过滤方法、装置及存储介质 |
CN110110715A (zh) * | 2019-04-30 | 2019-08-09 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN110209796A (zh) * | 2019-04-29 | 2019-09-06 | 北京印刷学院 | 一种敏感词检测过滤方法、装置与电子设备 |
CN110457428A (zh) * | 2019-06-26 | 2019-11-15 | 北京印刷学院 | 一种敏感词检测过滤方法、装置与电子设备 |
CN110516255A (zh) * | 2019-08-30 | 2019-11-29 | 广州华多网络科技有限公司 | 一种角色姓名提取方法及系统 |
CN110674247A (zh) * | 2019-09-23 | 2020-01-10 | 广州虎牙科技有限公司 | 弹幕信息的拦截方法、装置、存储介质及设备 |
CN111062208A (zh) * | 2019-12-13 | 2020-04-24 | 中国建设银行股份有限公司 | 一种文件审核的方法、装置、设备及存储介质 |
CN111079029A (zh) * | 2019-12-20 | 2020-04-28 | 珠海格力电器股份有限公司 | 敏感账号的检测方法、存储介质和计算机设备 |
CN111147465A (zh) * | 2019-12-18 | 2020-05-12 | 深圳市任子行科技开发有限公司 | 对https内容进行审计的方法及代理服务器 |
CN111191443A (zh) * | 2019-12-19 | 2020-05-22 | 深圳壹账通智能科技有限公司 | 基于区块链的敏感词检测方法、装置、计算机设备和存储介质 |
CN111737398A (zh) * | 2020-05-26 | 2020-10-02 | 北京百度网讯科技有限公司 | 文本中的敏感词的检索方法、装置、电子设备及存储介质 |
CN111783447A (zh) * | 2020-05-28 | 2020-10-16 | 中国平安财产保险股份有限公司 | 基于ngram距离的敏感词检测方法、装置、设备及存储介质 |
CN111797214A (zh) * | 2020-06-24 | 2020-10-20 | 深圳壹账通智能科技有限公司 | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 |
CN111881667A (zh) * | 2020-07-24 | 2020-11-03 | 南京烽火星空通信发展有限公司 | 一种敏感文本审核方法 |
CN111882371A (zh) * | 2019-04-15 | 2020-11-03 | 阿里巴巴集团控股有限公司 | 内容信息处理、图文内容处理方法、计算机设备、介质 |
CN112100655A (zh) * | 2020-09-09 | 2020-12-18 | 北京明朝万达科技股份有限公司 | 一种数据检测方法、装置、电子设备及可读存储介质 |
CN112183053A (zh) * | 2020-10-10 | 2021-01-05 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种数据处理方法及装置 |
CN112417103A (zh) * | 2020-12-02 | 2021-02-26 | 百度国际科技(深圳)有限公司 | 用于检测敏感词的方法、装置、设备和存储介质 |
CN112905743A (zh) * | 2021-02-20 | 2021-06-04 | 北京百度网讯科技有限公司 | 文本对象检测的方法、装置、电子设备和存储介质 |
CN112949285A (zh) * | 2020-10-13 | 2021-06-11 | 广州市百果园网络科技有限公司 | 语句文本检测方法、系统、电子设备及存储介质 |
WO2021151333A1 (zh) * | 2020-09-07 | 2021-08-05 | 平安科技(深圳)有限公司 | 基于人工智能的敏感词识别方法、装置及计算机设备 |
CN113221554A (zh) * | 2021-04-27 | 2021-08-06 | 北京字跳网络技术有限公司 | 文本处理方法、装置、电子设备和存储介质 |
CN113536765A (zh) * | 2020-04-16 | 2021-10-22 | 北京有限元科技有限公司 | 对话术文本信息进行检测的方法、装置以及存储介质 |
CN114140077A (zh) * | 2021-11-30 | 2022-03-04 | 宁波帮企一把企业服务平台有限公司 | 一种政府政策解构方法、装置、计算机设备和存储介质 |
CN115408490A (zh) * | 2022-11-01 | 2022-11-29 | 广东省信息工程有限公司 | 一种基于知识库的官文校对方法、系统、设备及存储介质 |
CN116701614A (zh) * | 2023-08-02 | 2023-09-05 | 南京壹行科技有限公司 | 一种用于文本智能采集的敏感数据模型建立方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010637A (zh) * | 2021-02-24 | 2021-06-22 | 世纪龙信息网络有限责任公司 | 一种文本审核方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100057720A1 (en) * | 2008-08-26 | 2010-03-04 | Saraansh Software Solutions Pvt. Ltd. | Automatic lexicon generation system for detection of suspicious e-mails from a mail archive |
CN104731797A (zh) * | 2013-12-19 | 2015-06-24 | 北京新媒传信科技有限公司 | 一种提取关键词的方法及装置 |
CN104866465A (zh) * | 2014-02-25 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 敏感文本检测方法及装置 |
US20170004128A1 (en) * | 2015-07-01 | 2017-01-05 | Institute for Sustainable Development | Device and method for analyzing reputation for objects by data mining |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN107357777A (zh) * | 2017-06-16 | 2017-11-17 | 北京神州泰岳软件股份有限公司 | 提取标签信息的方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9002700B2 (en) * | 2010-05-13 | 2015-04-07 | Grammarly, Inc. | Systems and methods for advanced grammar checking |
CN105574090B (zh) * | 2015-12-10 | 2017-12-26 | 北京中科汇联科技股份有限公司 | 一种敏感词过滤方法及系统 |
CN107633380A (zh) * | 2017-08-30 | 2018-01-26 | 北京明朝万达科技股份有限公司 | 一种数据防泄漏系统的任务审批方法和系统 |
-
2018
- 2018-02-06 CN CN201810114518.6A patent/CN108519970B/zh active Active
- 2018-06-03 WO PCT/CN2018/089717 patent/WO2019153605A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100057720A1 (en) * | 2008-08-26 | 2010-03-04 | Saraansh Software Solutions Pvt. Ltd. | Automatic lexicon generation system for detection of suspicious e-mails from a mail archive |
CN104731797A (zh) * | 2013-12-19 | 2015-06-24 | 北京新媒传信科技有限公司 | 一种提取关键词的方法及装置 |
CN104866465A (zh) * | 2014-02-25 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 敏感文本检测方法及装置 |
US20170004128A1 (en) * | 2015-07-01 | 2017-01-05 | Institute for Sustainable Development | Device and method for analyzing reputation for objects by data mining |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN107357777A (zh) * | 2017-06-16 | 2017-11-17 | 北京神州泰岳软件股份有限公司 | 提取标签信息的方法和装置 |
Non-Patent Citations (1)
Title |
---|
刘耕 等: "基于关联词和扩展规则的敏感词库设计", 《四川大学学报(自然科学版)》 * |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446288A (zh) * | 2018-10-18 | 2019-03-08 | 重庆邮电大学 | 一种基于Spark互联网涉密地图检测算法 |
CN109284503A (zh) * | 2018-10-22 | 2019-01-29 | 传神语联网网络科技股份有限公司 | 翻译语句结束判断方法与系统 |
CN109284503B (zh) * | 2018-10-22 | 2023-08-18 | 传神语联网网络科技股份有限公司 | 翻译语句结束判断方法与系统 |
CN109614608A (zh) * | 2018-10-26 | 2019-04-12 | 平安科技(深圳)有限公司 | 电子装置、文本信息检测方法及存储介质 |
CN109657228A (zh) * | 2018-10-31 | 2019-04-19 | 北京三快在线科技有限公司 | 一种敏感文本确定方法及装置 |
CN109815395A (zh) * | 2018-12-26 | 2019-05-28 | 北京中科闻歌科技股份有限公司 | 网页垃圾信息过滤方法、装置及存储介质 |
CN109815395B (zh) * | 2018-12-26 | 2021-06-08 | 北京中科闻歌科技股份有限公司 | 网页垃圾信息过滤方法、装置及存储介质 |
CN111882371A (zh) * | 2019-04-15 | 2020-11-03 | 阿里巴巴集团控股有限公司 | 内容信息处理、图文内容处理方法、计算机设备、介质 |
CN110209796B (zh) * | 2019-04-29 | 2022-02-08 | 北京印刷学院 | 一种敏感词检测过滤方法、装置与电子设备 |
CN110209796A (zh) * | 2019-04-29 | 2019-09-06 | 北京印刷学院 | 一种敏感词检测过滤方法、装置与电子设备 |
CN110110715A (zh) * | 2019-04-30 | 2019-08-09 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN110457428A (zh) * | 2019-06-26 | 2019-11-15 | 北京印刷学院 | 一种敏感词检测过滤方法、装置与电子设备 |
CN110457428B (zh) * | 2019-06-26 | 2023-07-04 | 北京印刷学院 | 一种敏感词检测过滤方法、装置与电子设备 |
CN110516255A (zh) * | 2019-08-30 | 2019-11-29 | 广州华多网络科技有限公司 | 一种角色姓名提取方法及系统 |
CN110674247A (zh) * | 2019-09-23 | 2020-01-10 | 广州虎牙科技有限公司 | 弹幕信息的拦截方法、装置、存储介质及设备 |
CN111062208B (zh) * | 2019-12-13 | 2023-05-12 | 建信金融科技有限责任公司 | 一种文件审核的方法、装置、设备及存储介质 |
CN111062208A (zh) * | 2019-12-13 | 2020-04-24 | 中国建设银行股份有限公司 | 一种文件审核的方法、装置、设备及存储介质 |
CN111147465A (zh) * | 2019-12-18 | 2020-05-12 | 深圳市任子行科技开发有限公司 | 对https内容进行审计的方法及代理服务器 |
CN111191443A (zh) * | 2019-12-19 | 2020-05-22 | 深圳壹账通智能科技有限公司 | 基于区块链的敏感词检测方法、装置、计算机设备和存储介质 |
CN111079029B (zh) * | 2019-12-20 | 2023-11-21 | 珠海格力电器股份有限公司 | 敏感账号的检测方法、存储介质和计算机设备 |
CN111079029A (zh) * | 2019-12-20 | 2020-04-28 | 珠海格力电器股份有限公司 | 敏感账号的检测方法、存储介质和计算机设备 |
CN113536765A (zh) * | 2020-04-16 | 2021-10-22 | 北京有限元科技有限公司 | 对话术文本信息进行检测的方法、装置以及存储介质 |
CN111737398A (zh) * | 2020-05-26 | 2020-10-02 | 北京百度网讯科技有限公司 | 文本中的敏感词的检索方法、装置、电子设备及存储介质 |
CN111737398B (zh) * | 2020-05-26 | 2023-06-23 | 北京百度网讯科技有限公司 | 文本中的敏感词的检索方法、装置、电子设备及存储介质 |
CN111783447B (zh) * | 2020-05-28 | 2023-02-03 | 中国平安财产保险股份有限公司 | 基于ngram距离的敏感词检测方法、装置、设备及存储介质 |
CN111783447A (zh) * | 2020-05-28 | 2020-10-16 | 中国平安财产保险股份有限公司 | 基于ngram距离的敏感词检测方法、装置、设备及存储介质 |
CN111797214A (zh) * | 2020-06-24 | 2020-10-20 | 深圳壹账通智能科技有限公司 | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 |
CN111881667B (zh) * | 2020-07-24 | 2023-09-29 | 上海烽烁科技有限公司 | 一种敏感文本审核方法 |
CN111881667A (zh) * | 2020-07-24 | 2020-11-03 | 南京烽火星空通信发展有限公司 | 一种敏感文本审核方法 |
WO2021151333A1 (zh) * | 2020-09-07 | 2021-08-05 | 平安科技(深圳)有限公司 | 基于人工智能的敏感词识别方法、装置及计算机设备 |
CN112100655A (zh) * | 2020-09-09 | 2020-12-18 | 北京明朝万达科技股份有限公司 | 一种数据检测方法、装置、电子设备及可读存储介质 |
CN112183053A (zh) * | 2020-10-10 | 2021-01-05 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种数据处理方法及装置 |
CN112949285A (zh) * | 2020-10-13 | 2021-06-11 | 广州市百果园网络科技有限公司 | 语句文本检测方法、系统、电子设备及存储介质 |
CN112949285B (zh) * | 2020-10-13 | 2024-04-05 | 广州市百果园网络科技有限公司 | 语句文本检测方法、系统、电子设备及存储介质 |
CN112417103A (zh) * | 2020-12-02 | 2021-02-26 | 百度国际科技(深圳)有限公司 | 用于检测敏感词的方法、装置、设备和存储介质 |
CN112905743B (zh) * | 2021-02-20 | 2023-08-01 | 北京百度网讯科技有限公司 | 文本对象检测的方法、装置、电子设备和存储介质 |
CN112905743A (zh) * | 2021-02-20 | 2021-06-04 | 北京百度网讯科技有限公司 | 文本对象检测的方法、装置、电子设备和存储介质 |
CN113221554A (zh) * | 2021-04-27 | 2021-08-06 | 北京字跳网络技术有限公司 | 文本处理方法、装置、电子设备和存储介质 |
CN114140077A (zh) * | 2021-11-30 | 2022-03-04 | 宁波帮企一把企业服务平台有限公司 | 一种政府政策解构方法、装置、计算机设备和存储介质 |
CN115408490A (zh) * | 2022-11-01 | 2022-11-29 | 广东省信息工程有限公司 | 一种基于知识库的官文校对方法、系统、设备及存储介质 |
CN116701614A (zh) * | 2023-08-02 | 2023-09-05 | 南京壹行科技有限公司 | 一种用于文本智能采集的敏感数据模型建立方法 |
CN116701614B (zh) * | 2023-08-02 | 2024-07-19 | 南京壹行科技有限公司 | 一种用于文本智能采集的敏感数据模型建立方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2019153605A1 (zh) | 2019-08-15 |
CN108519970B (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108519970A (zh) | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 | |
CN108399161A (zh) | 广告图片鉴定方法、电子装置及可读存储介质 | |
CN108647309B (zh) | 基于敏感词的聊天内容审核方法及系统 | |
CN107943941B (zh) | 一种可迭代更新的垃圾文本识别方法和系统 | |
US20190057310A1 (en) | Expert knowledge platform | |
CN106447239B (zh) | 一种数据发布的审核方法及装置 | |
CN108491388B (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
CN110069784A (zh) | 一种语音质检评分方法、装置、终端及可存储介质 | |
CN106376002B (zh) | 一种管理方法及装置、垃圾短信监控系统 | |
CN102694673A (zh) | 一种网络言论监控方法、设备及系统 | |
CN110727766A (zh) | 敏感词的检测方法 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN110197389A (zh) | 一种用户识别方法及装置 | |
CN111783132A (zh) | 基于机器学习的sql语句安全检测方法、装置、设备及介质 | |
CN107657286B (zh) | 一种广告识别方法及计算机可读存储介质 | |
CN112001170A (zh) | 一种识别经过变形的敏感词的方法和系统 | |
CN109873813A (zh) | 文本输入异常监控方法、装置、计算机设备及存储介质 | |
Park et al. | Ontological detection of phishing emails | |
CN109933648A (zh) | 一种真实用户评论的区分方法和区分装置 | |
Raja et al. | Fake news detection on social networks using Machine learning techniques | |
KR102206781B1 (ko) | 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치 | |
WO2024055603A1 (zh) | 一种未成年人文本识别方法及装置 | |
CN115563288B (zh) | 一种文本检测的方法、装置、电子设备及存储介质 | |
CN116546448A (zh) | 一种短信推送系统 | |
CN107665443B (zh) | 获取目标用户的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |