CN111753539A - 一种识别敏感文本的方法及装置 - Google Patents

一种识别敏感文本的方法及装置 Download PDF

Info

Publication number
CN111753539A
CN111753539A CN202010616349.3A CN202010616349A CN111753539A CN 111753539 A CN111753539 A CN 111753539A CN 202010616349 A CN202010616349 A CN 202010616349A CN 111753539 A CN111753539 A CN 111753539A
Authority
CN
China
Prior art keywords
text
sensitive
recognized
value
posterior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010616349.3A
Other languages
English (en)
Other versions
CN111753539B (zh
Inventor
农斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202010616349.3A priority Critical patent/CN111753539B/zh
Publication of CN111753539A publication Critical patent/CN111753539A/zh
Application granted granted Critical
Publication of CN111753539B publication Critical patent/CN111753539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本申请公开了一种识别敏感文本的方法,获取待识别文本之后,可以对待识别文本进行分词,得到多个分词。并确定该多个分词的似然敏感值和似然非敏感值,根据该待识别文本的先验敏感概率、多个分词分别对应的似然敏感值和似然非敏感值,确定待识别文本是否为敏感文本。在确定前述多个分词中每个分词的似然敏感值和似然非敏感值时,结合预先确定的敏感词库来确定。对于敏感词库中包括的分词,根据该分词的敏感程度值确定该分词的似然敏感值和似然非敏感值;对于敏感词库中包括的分词,根据预先确定的参数确定该分词的似然敏感值和似然非敏感值。使得该第一分词的似然敏感值和似然非敏感值更加准确,相应的,使得对待识别文本的识别结果更加准确。

Description

一种识别敏感文本的方法及装置
技术领域
本申请涉及数据处理领域,特别是涉及一种识别敏感文本的方法及装置。
背景技术
随着网络技术的发展,网络上的信息越来越多。伴随而来的是网络上也会出现一些敏感内容。例如,不符合国家法律法规的政治话题,又如,诸如不文明用语、色情用语等不符合互联网使用环境的话题。
因此,准确的对敏感文本进行识别,是目前急需解决的问题。
发明内容
本申请所要解决的技术问题是如何准确的识别出敏感文本,提供一种识别敏感文本的方法及装置。
第一方面,本申请实施例提供了一种识别敏感文本的方法,所述方法包括:
获取待识别文本,并对待识别文本进行分词,得到多个分词;
确定所述多个分词中每个分词分别对应的似然敏感值和似然非敏感值;
根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本;
其中:
所述多个分词包括第一分词,若敏感词库中包括所述第一分词,则所述第一分词的似然敏感值和似然非敏感值,根据所述第一分词的敏感程度值确定,所述第一分词的敏感程度值是预先确定的;若所述敏感词库中不包括所述第一分词,则所述第一分词的似然敏感值和所述第一分词的似然非敏感值根据预先确定的参数确定。
可选的,若所述敏感词库中不包括所述第一分词,所述第一分词的似然敏感值大于所述第一分词的似然非敏感程度值。
可选的,根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然敏感值,确定所述待识别文本的后验敏感值;
根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然非敏感值,确定所述待识别文本的后验非敏感值;
根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本。
可选的,所述方法还包括:
根据所述多个分词中、存在于所述敏感词库中的分词的敏感程度值,对所述待识别文本的后验敏感值进行修正,修正后的所述待识别文本的后验敏感值,大于修正前的所述待识别文本的后验敏感值;
所述根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的后验非敏感值和所述修正后的所述待识别文本的后验敏感值,确定所述待识别文本是否为敏感文本。
可选的,所述方法还包括:
确定所述存在于所述敏感词库中的分词所属的类别;
根据所述存在于所述敏感词库中的分词的敏感程度值,对所述待识别文本的后验敏感值进行修正,包括:
根据所述存在于所述敏感词库中的分词中的目标词汇的敏感程度值,对所述待识别文本的后验敏感值进行修正,所述目标词汇所属的类别为第一类别。
可选的,所述目标词汇包括多个分词,所述存在于所述敏感词库中的分词中,还包括其它类别的分词;第二类别为所述其它类别中的任意一个类别,所述存在于所述敏感词库中的分词中、所述第二类别对应的分词的数量,小于所述目标词汇包括的分词数量。
可选的,根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
若所述待识别文本的后验敏感值大于或者等于所述待识别文本的后验非敏感值,确定所述待识别文本为敏感文本;
若所述待识别文本的后验敏感值小于所述待识别文本的后验非敏感值,确定所述待识别文本为非敏感文本。
可选的,根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率;
根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本。
可选的,所述根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本,包括:
若所述待识别文本的后验敏感概率大于或者等于所述待识别文本的后验非敏感概率,确定所述待识别文本为敏感文本;
若所述待识别文本的后验敏感概率小于所述待识别文本的后验非敏感概率,确定所述待识别文本为非敏感文本。
第二方面,本申请实施例提供了一种识别敏感文本的装置,所述装置包括:
获取单元,用于获取待识别文本,并对待识别文本进行分词,得到多个分词;
第一确定单元,用于确定所述多个分词中每个分词分别对应的似然敏感值和似然非敏感值;
第二确定单元,用于根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本;
其中:
所述多个分词包括第一分词,若敏感词库中包括所述第一分词,则所述第一分词的似然敏感值和似然非敏感值,根据所述第一分词的敏感程度值确定,所述第一分词的敏感程度值是预先确定的;若所述敏感词库中不包括所述第一分词,则所述第一分词的似然敏感值和所述第一分词的似然非敏感值根据预先确定的参数确定。
可选的,若所述敏感词库中不包括所述第一分词,所述第一分词的似然敏感值大于所述第一分词的似然非敏感程度值。
可选的,所述第二确定单元,包括:
第一确定子单元,用于根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然敏感值,确定所述待识别文本的后验敏感值;
第二确定子单元,用于根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然非敏感值,确定所述待识别文本的后验非敏感值;
第三确定子单元,用于根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本。
可选的,所述装置还包括:
修正单元,用于根据所述多个分词中、存在于所述敏感词库中的分词的敏感程度值,对所述待识别文本的后验敏感值进行修正,修正后的所述待识别文本的后验敏感值,大于修正前的所述待识别文本的后验敏感值;
所述第三确定子单元,用于:
根据所述待识别文本的后验非敏感值和所述修正后的所述待识别文本的后验敏感值,确定所述待识别文本是否为敏感文本。
可选的,所述装置还包括:
第三确定单元,用于确定所述存在于所述敏感词库中的分词所属的类别;
所述修正单元,用于:
根据所述存在于所述敏感词库中的分词中的目标词汇的敏感程度值,对所述待识别文本的后验敏感值进行修正,所述目标词汇所属的类别为第一类别。
可选的,所述目标词汇包括多个分词,所述存在于所述敏感词库中的分词中,还包括其它类别的分词;第二类别为所述其它类别中的任意一个类别,所述存在于所述敏感词库中的分词中、所述第二类别对应的分词的数量,小于所述目标词汇包括的分词数量。
可选的,所述第三确定子单元,用于:
若所述待识别文本的后验敏感值大于或者等于所述待识别文本的后验非敏感值,确定所述待识别文本为敏感文本;
若所述待识别文本的后验敏感值小于所述待识别文本的后验非敏感值,确定所述待识别文本为非敏感文本。
可选的,所述第三确定子单元,用于:
根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率;
根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本。
可选的,所述根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本,包括:
若所述待识别文本的后验敏感概率大于或者等于所述待识别文本的后验非敏感概率,确定所述待识别文本为敏感文本;
若所述待识别文本的后验敏感概率小于所述待识别文本的后验非敏感概率,确定所述待识别文本为非敏感文本。
第三方面,本申请实施例提供了一种识别敏感文本的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待识别文本,并对待识别文本进行分词,得到多个分词;
确定所述多个分词中每个分词分别对应的似然敏感值和似然非敏感值;
根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本;
其中:
所述多个分词包括第一分词,若敏感词库中包括所述第一分词,则所述第一分词的似然敏感值和似然非敏感值,根据所述第一分词的敏感程度值确定,所述第一分词的敏感程度值是预先确定的;若所述敏感词库中不包括所述第一分词,则所述第一分词的似然敏感值和所述第一分词的似然非敏感值根据预先确定的参数确定。
可选的,若所述敏感词库中不包括所述第一分词,所述第一分词的似然敏感值大于所述第一分词的似然非敏感程度值。
可选的,根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然敏感值,确定所述待识别文本的后验敏感值;
根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然非敏感值,确定所述待识别文本的后验非敏感值;
根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本。
可选的,所述方法还包括:
根据所述多个分词中、存在于所述敏感词库中的分词的敏感程度值,对所述待识别文本的后验敏感值进行修正,修正后的所述待识别文本的后验敏感值,大于修正前的所述待识别文本的后验敏感值;
所述根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的后验非敏感值和所述修正后的所述待识别文本的后验敏感值,确定所述待识别文本是否为敏感文本。
可选的,所述方法还包括:
确定所述存在于所述敏感词库中的分词所属的类别;
根据所述存在于所述敏感词库中的分词的敏感程度值,对所述待识别文本的后验敏感值进行修正,包括:
根据所述存在于所述敏感词库中的分词中的目标词汇的敏感程度值,对所述待识别文本的后验敏感值进行修正,所述目标词汇所属的类别为第一类别。
可选的,所述目标词汇包括多个分词,所述存在于所述敏感词库中的分词中,还包括其它类别的分词;第二类别为所述其它类别中的任意一个类别,所述存在于所述敏感词库中的分词中、所述第二类别对应的分词的数量,小于所述目标词汇包括的分词数量。
可选的,根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
若所述待识别文本的后验敏感值大于或者等于所述待识别文本的后验非敏感值,确定所述待识别文本为敏感文本;
若所述待识别文本的后验敏感值小于所述待识别文本的后验非敏感值,确定所述待识别文本为非敏感文本。
可选的,根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率;
根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本。
可选的,所述根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本,包括:
若所述待识别文本的后验敏感概率大于或者等于所述待识别文本的后验非敏感概率,确定所述待识别文本为敏感文本;
若所述待识别文本的后验敏感概率小于所述待识别文本的后验非敏感概率,确定所述待识别文本为非敏感文本。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行以上第一方面以及以上第一方面任意一项所述的方法。
与现有技术相比,本申请实施例具有以下优点:
本申请实施例提供了一种识别敏感文本的方法,获取待识别文本之后,可以对待识别文本进行分词,得到多个分词。而后,进一步确定该多个分词的似然敏感值和似然非敏感值,最后,根据该待识别文本的先验敏感概率、所述多个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本。为方便描述,将所述多个分词中的任意一个分词称为第一分词。在本申请实施例中,为了提升对待识别文本进行识别的准确性,确定第一分词的似然敏感值和似然非敏感值时,可以结合预先确定的敏感词库来确定。该预先确定的敏感词库中,包括若干个敏感词汇。在本申请实施例中,若第一分词是敏感词库中包括的敏感词汇,则根据第一分词的敏感程度值确定第一分词的似然敏感值和似然非敏感值,其中,敏感词库中的敏感词汇的敏感程度值是已知的。若第一分词不是敏感词库中包括的敏感词汇,则根据预先确定的参数确定第一分词的似然敏感值和似然非敏感值。由此可见,利用本申请实施例的方案,在确定第一分词的似然敏感值和似然非敏感值时,结合了预先确定的敏感词库来确定,从而使得该第一分词的似然敏感值和似然非敏感值更加准确,进一步地,使得对待识别文本的识别结果更加准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种识别敏感文本的方法的流程示意图;
图2为本申请实施例提供的一种识别敏感文本的装置的结构示意图;
图3为本申请实施例提供的客户端的结构示意图;
图4为本申请实施例提供的服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的发明人经过研究发现,随着网络技术的发展,网络上出现了一些敏感内容。例如,出现了一些政治敏感话题,又如,出现了诸如不文明用语、色情用语等不符合互联网使用环境的话题。
目前,需要网络管理人员人工对网络上的内容进行识别,确定该内容是否为敏感内容。采用人工识别的方式,识别结果的准确性在一定程度上与网络管理人员对于敏感话题的认知相关,在一定程度也与网络管理人员对内容进行审核时的工作状态相关。因此,采用人工识别的方式,并不能准确的识别出敏感内容。
为了解决上述问题,本申请实施例提供了一种识别敏感文本的方法,可以准确的识别出待识别文本是否为敏感文本。
下面结合附图,详细说明本申请的各种非限制性实施方式。
示例性方法
在介绍本申请实施例提供的识别敏感文本的方法之前,首先对贝叶斯公式的相关内容进行简单介绍。
参见公式(1)所示的贝叶斯公式。
后验概率=(先验概率*似然值)/标准化常量 公式(1)
本申请的发明人发现,若将贝叶斯公式应用于敏感文本的识别中,则可以分别计算该待识别文本的后验敏感概率和后验非敏感概率,通过比较后验敏感概率和后验非敏感概率的方式,确定待识别文本是否为敏感文本。其中,待识别文本的后验敏感概率,指的是待识别文本为敏感文本的后验概率;待识别文本的后验非敏感概率,指的是待识别文本为非敏感文本的后验概率。
结合以上公式(1),本申请的发明人还发现,在计算待识别文本的后验敏感概率和后验非敏感概率时,标准化常量是相同的。而且,该标准化常量是一个正数,因此,可以通过比较上述公式(1)中的分子的方式,来确定待识别文本是否为敏感文本。举例说明:后验敏感概率=A/标准化常量,后验非敏感概率=B/标准化常量,则可以通过比较A和B的大小,来确定待识别文本是否为敏感文本。
另外,本申请的发明人还发现,对数函数是单调递增函数,因此,若对公式(1)的分子取对数运算,则也可以通过取对数之后的分子的方式,来确定待识别文本是否为敏感文本。举例说明:后验敏感概率=A/标准化常量,后验非敏感概率=B/标准化常量,则可以通过比较lnA和lnB的大小,来确定待识别文本是否为敏感文本。而且,对分子执行对数运算之后,可以将乘法运算转换成加法运算,因为ln(先验概率*似然值)=ln先验概率+ln似然值。其中,ln为自然对数运算符。
接下来,结合图1介绍本申请实施例提供的识别敏感文本的方法。
参见图1,该图为本申请实施例提供的一种识别敏感文本的方法的流程示意图。图1所示的方法,可以由具备数据处理功能的控制器或者处理器执行,也可以由包括前述控制器或者处理器的设备执行,本申请实施例不具体限定。其中,包括控制器或者处理器的设备包括但不限于终端设备以及服务器。
图1所示的方法,例如可以通过以下步骤S101-S103实现。
S101:获取待识别文本,并对待识别文本进行分词,得到多个分词。
在本申请实施例的一种实现方式中,所述待识别文本可以是用户已经发布至网络中的文本,也可以是用户已经提交发布请求,但尚未发布至网络中的文本,本申请实施例不具体限定。
在本申请实施例的一种实现方式中,所述待识别文本还可以是通过对语音进行语音识别得到的。该语音可以是已经发布至网络中的语音,也可以是用户已经提交发布请求,但尚未发布至网络中的语音,本申请实施例不具体限定。另外,该语音可以是视频中的音频,也可以是单独的音频,本申请实施例不做具体限定。
在本申请实施例中,获取待识别文本之后,可以对待识别文本进行分词处理,以得到多个分词,进一步地根据所述多个分词确定所述待识别文本是否为敏感文本。本申请实施例不具体限定对待识别文本进行分词处理的实现方式,作为一种示例,可以利用经典的分词算法对待识别文本进行分词处理。本申请实施例不具体限定前述分词算法,该分词算法包括但不限于最大匹配分词算法、最短路径分词算法等等。
S102:确定所述多个分词中每个分词分别对应的似然敏感值和似然非敏感值。
为方便描述,将所述多个分词中的任意一个分词称为“第一分词”。第一分词的似然敏感值,用于计算所述待识别文本为敏感文本的程度值;第一分词的似然非敏感值,用于计算所述待识别文本为非敏感文本的程度值。即,若利用公式(1)计算待识别文本为敏感文本的后验概率,则公式(1)中的似然值,可以根据第一分词的似然敏感值确定。若利用公式(1)计算待识别文本为非敏感文本的后验概率,则公式(1)中的似然值,可以根据第一分词的似然非敏感值确定。
在本申请实施例中,由于第一分词的似然敏感值,用于计算所述待识别文本为敏感文本的程度值,第一分词的似然非敏感值,用于计算所述待识别文本为非敏感文本的程度值。因此,第一分词的似然敏感值的准确性和第一分词的似然非敏感值的准确性,会影响确定待识别文本是否为敏感文本的准确性。鉴于此,在本申请实施例中,可以结合预先确定的敏感词库,确定第一分词的似然敏感值和似然非敏感值,以提升所确定的第一分词的似然敏感值和第一分词的似然非敏感值的准确性。
前述敏感词库中包括多个敏感词汇。本申请实施例不具体限定所述敏感词汇的构建方式,作为一种示例,所述敏感词库可以是人工构建的。在本申请实施例中,若敏感词库中包括第一分词,即第一分词是敏感词库中包括的敏感词汇,则可以根据第一分词的敏感程度值确定第一分词的似然敏感值和第一分词的似然非敏感值。其中,第一分词的敏感程度值是预先确定的。作为一种示例,所述敏感词库中除了包括敏感词汇之外,还可以包括敏感词汇对应的敏感程度值。在本申请实施例中,敏感词汇的敏感程度值,可以用于指示敏感词汇的敏感程度。敏感词汇的敏感程度值越大,该敏感词汇的敏感程度越高。作为一种示例,敏感程度值的取值范围可以在0到1之间。
在本申请实施例的一种实现方式中,若第一分词为敏感词库中包括的敏感词汇,则可以通过以下公式(2)确定第一分词的似然敏感值,通过以下公式(3)确定第一分词的似然非敏感值。
γi=k*lnsi 公式(2)
ρi=k*ln(1-si) 公式(3)
在公式(2)和公式(3)中:
下标i表示第一分词是对待识别文本进行分词处理之后得到的多个分词中的第i个分词,假设对待识别文本进行分词处理之后得到n个分词,则i可以为大于等于1、且小于等于n的整数;
γi表示第一分词的似然敏感值;
ρi表示第一分词的似然非敏感值;
si为第一分词的敏感程度值;
k为常数系数,k的取值例如可以为0.01。
在本申请实施例中,若第一分词不是敏感词库中包括的敏感词汇,则可以利用预先确定的参数来确定第一分词对应的似然敏感值和第一分词对应的似然非敏感值。本申请实施例不具体限定所述参数,所述参数可以根据实际情况确定。
在本申请实施例的一种实现方式中,为了营造健康的网络环境,对敏感文本的检测要求一般比较严格。因此,若第一分词不是敏感词库中包括的敏感词汇,则根据预先确定的参数所确定的第一分词的似然敏感值大于第一分词的似然非敏感值。这样一来,可以避免敏感文本被识别为非敏感文本。作为一种示例,当第一分词不是敏感词库中包括的敏感词汇时,则可以通过以下公式(4)确定第一分词的似然敏感值,通过以下公式(5)确定第一分词的似然非敏感值。
γi=lnω 公式(4)
ρi=lnω+lnβ 公式(5)
在公式(4)和公式(5)中:
下标i表示第一分词是对待识别文本进行分词处理之后得到的多个分词中的第i个分词,假设对待识别文本进行分词处理之后得到n个分词,则i可以为大于等于1、且小于等于n的整数;
γi表示第一分词的似然敏感值;
ρi表示第一分词的似然非敏感值;
ω和β均为常数,ω和β均为较小的值,例如,ω为0.001,β为0.0001。
S103:根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本。
在本申请实施例中,确定所述多个分词中每个分词分别对应的似然敏感值和似然非敏感值之后,可以进一步根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本。
关于所述待识别文本的先验敏感概率,需要说明的是,在本申请实施例中,待识别文本的先验敏感概率是一个预先确定的值。该先验敏感概率可以根据历史的敏感文本识别结果确定。例如,对10000个历史文本进行识别,其中有100个敏感文本,则待识别文本的先验敏感概率,可以等于0.01。
在本申请实施例的一种实现方式中,S103在具体实现时,例如可以根据所述待识别文本的先验敏感概率和所述多个分词的似然敏感值,确定所述待识别文本的后验敏感值。并根据所述待识别文本的先验敏感概率和所述多个分词的似然非敏感值,确定所述待识别文本的后验非敏感值。其中,待识别文本的后验敏感程度值,用于指示所述待识别文本是敏感文本的可能性。待识别文本的后验非敏感程度值,用于指示所述待识别文本是非敏感文本的可能性。
可参见以下公式(6)和公式(7),公式(6)示出了一种计算待识别文本的后验敏感程度值的方式,公式(7)示出了一种计算待识别文本的后验非敏感程度值的方式。
Figure BDA0002563844590000131
Figure BDA0002563844590000132
在公式(6)和公式(7)中:
v1为待识别文本的后验敏感程度值;
v2为待识别文本的后验非敏感程度值;
对待识别文本进行分词处理后,得到n个分词,γi表示第i个分词的似然敏感值,γi可以通过以上公式(2)或者公式(4)计算得到;ρi表示第i个分词的似然非敏感值,ρi可以通过以上公式(3)或者公式(5)计算得到;
p为待识别文本的先验敏感概率。
得到待识别文本的先验敏感程度值和待识别文本的后验敏感程度值之后,可以根据待识别文本的先验敏感程度值和待识别文本的后验敏感程度值,确定待识别文本是否为敏感文本。
在本申请实施例中,根据待识别文本的先验敏感程度值和待识别文本的后验敏感程度值,确定待识别文本是否为敏感文本,可以有多种实现方式。以下介绍两种可能的实现方式。
第一种实现方式:可以直接比较所述待识别文本的后验敏感程度值和所述待识别文本的后验非敏感程度值,根据比较结果确定待识别文本是否为敏感文本。
由于待识别文本的后验敏感程度值,用于指示所述待识别文本是敏感文本的可能性。待识别文本的后验非敏感程度值,用于指示所述待识别文本是非敏感文本的可能性。故而,若所述待识别文本的后验敏感程度值大于或者等于所述待识别文本的后验非敏感程度值,则说明所述待识别文本是敏感文本的可能性大于或者等于所述待识别文本是非敏感文本的可能性。反之,若所述待识别文本的后验敏感程度值小于所述待识别文本的后验非敏感程度值,则说明所述待识别文本是敏感文本的可能性小于所述待识别文本是非敏感文本的可能性。因此,在本申请实施例中,若所述待识别文本的后验敏感程度值大于或者等于所述待识别文本的后验非敏感程度值,则确定所述待识别文本为敏感文本,若所述待识别文本的后验敏感程度值小于所述待识别文本的后验非敏感程度值,则确定所述待识别文本为非敏感文本。
第二种实现方式:可以根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率;而后,根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本。
在本申请实施例的一种实现方式中,一方面,考虑到计算待识别文本的后验敏感程度值和后验非敏感程度值时,采用了对数运算。而指数运算是对数运算的逆运算。另一方面,指数函数是单调递增非负函数。因此,在计算待识别文本的后验敏感概率和后验非敏感概率时,可以采用指数运算计算。作为一种示例,可以采用以下公式(8)计算待识别文本的后验敏感概率,利用以下公式(9)计算待识别文本的后验非敏感概率。
Figure BDA0002563844590000141
Figure BDA0002563844590000142
在公式(8)和公式(9)中:
D1为待识别文本的后验敏感概率;
D2为待识别文本的后验非敏感概率;
v1为待识别文本的后验敏感程度值,v1可以利用前述公式(6)计算得到;
v2待识别文本的后验非敏感程度值,v2可以利用前述公式(7)计算得到。
在本申请实施例的一种实现方式中,根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本,在具体实现时,可以比较所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率的大小,从而确定所述待识别文本是否为敏感文本。
若所述待识别文本的后验敏感概率大于或者等于所述待识别文本的后验非敏感概率,则说明所述待识别文本是敏感文本的可能性大于或者等于所述待识别文本是非敏感文本的可能性。反之,若所述待识别文本的后验敏感概率小于所述待识别文本的后验非敏感概率,则说明所述待识别文本是敏感文本的可能性小于所述待识别文本是非敏感文本的可能性。因此,在本申请实施例中,若所述待识别文本的后验敏感概率大于或者等于所述待识别文本的后验非敏感概率,则确定所述待识别文本为敏感文本,若所述待识别文本的后验敏感概率小于所述待识别文本的后验非敏感概率,则确定所述待识别文本为非敏感文本。
通过以上描述可知,利用本申请实施例的方案,在确定第一分词的似然敏感值和似然非敏感值时,结合了预先确定的敏感词库来确定,从而使得该第一分词的似然敏感值和似然非敏感值更加准确,进一步地,使得对待识别文本的识别结果更加准确。
在本申请实施例的一种实现方式中,考虑到根据待识别文本分词得到的多个分词而言,若其中的一个或者多个分词是敏感词库中的分词,则表示待识别文本中存在敏感词汇。虽然待识别文本是否是敏感文本不是根据某一个分词是否是敏感词汇确定的,但是,待识别文本中存在敏感词汇,则表示待识别文本是敏感文本的可能性相对较高。鉴于此,为了避免敏感文本被识别成非敏感文本,确定待识别文本的后验敏感概率之后,还可以根据存在于敏感词库中的分词,对所述待识别文本的后验敏感值进行修正。进一步地,利用待识别文本的后验非敏感程度值和修正后的后验敏感程度值,确定待识别文本是否为敏感文本。
关于“利用待识别文本的后验非敏感程度值和修正后的后验敏感程度值,确定待识别文本是否为敏感文本”的具体实现方式,可以参考上文对于“利用待识别文本的后验非敏感程度值和后验敏感程度值,确定待识别文本是否为敏感文本”的具体实现方式的描述部分,此处不再重复描述。
在本申请实施例的一种实现方式中,对待识别文本的后验敏感程度值进行修正,在具体实现时,可以根据所述多个分词中、存在于所述敏感词库中的分词的敏感程度值,对所述待识别文本的后验敏感值进行修正,使得修正后的后验敏感程度值大于修正前的后验敏感程度值。这样一来,可以提升待识别文本被识别为敏感文本的可能性,从而避免敏感文本被识别成非敏感文本,提升识别准确性。
作为一个示例,修正后的后验敏感程度值,可以通过如下公式(10)计算得到:
v′1=v1+θ 公式(10)
在公式(10)中:
v′1为修正后的后验敏感程度值;
v1为修正前的后验敏感程度值,v1可以利用前述公式(6)计算得到;
θ为修正值。
在一个示例中,θ可以通过如下公式(11)计算得到:
Figure BDA0002563844590000161
在公式(11)中:
sj为第j个存在于敏感词库中的分词的敏感程度值;其中,对待识别文本进行分词得到的n个分词中,有m个分词为敏感词库中包括的敏感词汇。
在本申请实施例的一种实现方式中,考虑到不同网络环境对于敏感话题的容忍程度不同。例如,一些网络平台不允许讨论色情话题。又如,一些网络平台对于政治话题非常敏感。鉴于此,在本申请实施例中,对待识别文本的后验敏感概率进行修正时,可以按照前述多个分词中、存在于敏感词库中的某一类别的词汇的敏感程度值,对所述待识别文本的后验敏感概率进行修正。
作为一种示例,可以首先确定所述存在于所述敏感词库中的分词所属的类别,而后,根据所述存在于所述敏感词库中的分词中的目标词汇的敏感程度值,对所述待识别文本的后验敏感值进行修正,所述目标词汇所属的类别为第一类别。
对于这种方式,θ可以通过如下公式(12)计算得到:
Figure BDA0002563844590000162
关于公式(12),需要说明的是:
对待识别文本进行分词得到的n个分词中,有m个分词为敏感词库中包括的敏感词汇,该m个词汇中,有a个词汇所属的类别为第一类别,即目标词汇包括a个分词,sj指的是该a个属于第一类别的分词中,第j个分词的敏感程度值。
可以理解的是,若第一类别对应的敏感词汇中各个敏感词汇对应的敏感程度值均相同,则公式(2)可以等价于以下公式(13)
θ=-a*lnsj 公式(13)
关于敏感词汇所属的类别,例如可以包括“政治敏感类”、“色情敏感类”、“不文明用语敏感类”等等,本申请实施例不做具体限定。
在本申请实施例的一种实现方式中,所述敏感词库中除了包括敏感词汇之外,还可以包括敏感词汇所属的类别,因此,可以通过所述敏感词库确定所述存在于所述敏感词库中的分词所属的类别。
关于第一类别,需要说明的是,在一种实现方式中,所述第一类别例如可以根据待识别文本所处的网络环境确定。例如,所述待识别文本为某一论坛上的文本(或者待发布至该论坛上的文本),该论坛对政治话题非常敏感,则第一类别可以是政治敏感类。
在又一种实现方式中,所述第一类别可以根据待识别文本可能所属的敏感类别确定。关于第一待识别文本可能所属的类别,可以根据存在于所述敏感词库中的分词所属的类别来确定。可以理解的是,待识别文本中某一类别的敏感词汇越多,待识别文本属于该类别的可能性越大。因此,若前述目标词汇包括多个分词,所述存在于所述敏感词库中的分词中,还包括其它类别的分词,第二类别为所述其它类别中的任意一个类别,所述存在于所述敏感词库中的分词中、所述第二类别对应的分词的数量,小于所述目标词汇包括的分词数量。
举例说明,待识别文本中有15个敏感词汇,其中有12个敏感词汇所属的类别为“政治敏感类”,另外3个词汇所属的类别为“不文明用语敏感类”,因此,待识别文本所属的类别为政治敏感类的可能性比较高。则第一类别为“政治敏感类”,目标词汇包括该12个对应类别为“政治敏感类”的敏感词汇。在对待识别文本的后验敏感概率进行修正时,利用该12个敏感词汇的敏感程度值,对待识别文本的后验敏感概率进行修正。
示例性设备
基于以上实施例提供的方法,本申请实施例还提供了一种装置,以下结合附图介绍该装置。
参见图2,该图为本申请实施例提供的一种识别敏感文本的装置的结构示意图。图2所示的识别敏感文本的装置200,可以用于执行以上方法实施例提供的识别敏感文本的方法,所述装置200例如可以具体包括:获取单元201、第一确定单元202和第二确定单元203。
获取单元201,用于获取待识别文本,并对待识别文本进行分词,得到多个分词;
第一确定单元202,用于确定所述多个分词中每个分词分别对应的似然敏感值和似然非敏感值;
第二确定单元203,用于根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本;
其中:
所述多个分词包括第一分词,若敏感词库中包括所述第一分词,则所述第一分词的似然敏感值和似然非敏感值,根据所述第一分词的敏感程度值确定,所述第一分词的敏感程度值是预先确定的;若所述敏感词库中不包括所述第一分词,则所述第一分词的似然敏感值和所述第一分词的似然非敏感值根据预先确定的参数确定。
可选的,若所述敏感词库中不包括所述第一分词,所述第一分词的似然敏感值大于所述第一分词的似然非敏感程度值。
可选的,所述第二确定单元203,包括:
第一确定子单元,用于根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然敏感值,确定所述待识别文本的后验敏感值;
第二确定子单元,用于根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然非敏感值,确定所述待识别文本的后验非敏感值;
第三确定子单元,用于根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本。
可选的,所述装置还包括:
修正单元,用于根据所述多个分词中、存在于所述敏感词库中的分词的敏感程度值,对所述待识别文本的后验敏感值进行修正,修正后的所述待识别文本的后验敏感值,大于修正前的所述待识别文本的后验敏感值;
所述第三确定子单元,用于:
根据所述待识别文本的后验非敏感值和所述修正后的所述待识别文本的后验敏感值,确定所述待识别文本是否为敏感文本。
可选的,所述装置还包括:
第三确定单元,用于确定所述存在于所述敏感词库中的分词所属的类别;
所述修正单元,用于:
根据所述存在于所述敏感词库中的分词中的目标词汇的敏感程度值,对所述待识别文本的后验敏感值进行修正,所述目标词汇所属的类别为第一类别。
可选的,所述目标词汇包括多个分词,所述存在于所述敏感词库中的分词中,还包括其它类别的分词;第二类别为所述其它类别中的任意一个类别,所述存在于所述敏感词库中的分词中、所述第二类别对应的分词的数量,小于所述目标词汇包括的分词数量。
可选的,所述第三确定子单元,用于:
若所述待识别文本的后验敏感值大于或者等于所述待识别文本的后验非敏感值,确定所述待识别文本为敏感文本;
若所述待识别文本的后验敏感值小于所述待识别文本的后验非敏感值,确定所述待识别文本为非敏感文本。
可选的,所述第三确定子单元,用于:
根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率;
根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本。
可选的,所述根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本,包括:
若所述待识别文本的后验敏感概率大于或者等于所述待识别文本的后验非敏感概率,确定所述待识别文本为敏感文本;
若所述待识别文本的后验敏感概率小于所述待识别文本的后验非敏感概率,确定所述待识别文本为非敏感文本。
由于所述装置200是与以上方法实施例提供的方法对应的装置,所述装置200的各个单元的具体实现,均与以上方法实施例为同一构思,因此,关于所述装置200的各个单元的具体实现,可以参考以上方法实施例的描述部分,此处不再赘述。
本申请实施例提供的方法,可以由客户端执行也可以由服务器执行,以下对执行上述方法的客户端和服务器分别进行说明。
图3示出了一种客户端300的框图。例如,客户端300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,客户端300可以包括以下一个或多个组件:处理组件302,存储器304,电源组件306,多媒体组件308,音频组件310,输入/输出(I/O)的接口33,传感器组件314,以及通信组件316。
处理组件302通常控制客户端300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理部件302可以包括多媒体模块,以方便多媒体组件308和处理组件302之间的交互。
存储器304被配置为存储各种类型的数据以支持在客户端300的操作。这些数据的示例包括用于在客户端300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件306为客户端300的各种组件提供电力。电源组件306可以包括电源管理系统,一个或多个电源,及其他与为客户端300生成、管理和分配电力相关联的组件。
多媒体组件308包括在所述客户端300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当客户端300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(MIC),当客户端300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。
I/O接口为处理组件302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件314包括一个或多个传感器,用于为客户端300提供各个方面的状态评估。例如,传感器组件314可以检测到设备300的打开/关闭状态,组件的相对定位,例如所述组件为客户端300的显示器和小键盘,传感器组件314还可以检测客户端300或客户端300一个组件的位置改变,用户与客户端300接触的存在或不存在,客户端300方位或加速/减速和客户端300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件316被配置为便于客户端300和其他设备之间有线或无线方式的通信。客户端300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,客户端300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法:
获取待识别文本,并对待识别文本进行分词,得到多个分词;
确定所述多个分词中每个分词分别对应的似然敏感值和似然非敏感值;
根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本;
其中:
所述多个分词包括第一分词,若敏感词库中包括所述第一分词,则所述第一分词的似然敏感值和似然非敏感值,根据所述第一分词的敏感程度值确定,所述第一分词的敏感程度值是预先确定的;若所述敏感词库中不包括所述第一分词,则所述第一分词的似然敏感值和所述第一分词的似然非敏感值根据预先确定的参数确定。
可选的,若所述敏感词库中不包括所述第一分词,所述第一分词的似然敏感值大于所述第一分词的似然非敏感程度值。
可选的,根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然敏感值,确定所述待识别文本的后验敏感值;
根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然非敏感值,确定所述待识别文本的后验非敏感值;
根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本。
可选的,所述方法还包括:
根据所述多个分词中、存在于所述敏感词库中的分词的敏感程度值,对所述待识别文本的后验敏感值进行修正,修正后的所述待识别文本的后验敏感值,大于修正前的所述待识别文本的后验敏感值;
所述根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的后验非敏感值和所述修正后的所述待识别文本的后验敏感值,确定所述待识别文本是否为敏感文本。
可选的,所述方法还包括:
确定所述存在于所述敏感词库中的分词所属的类别;
根据所述存在于所述敏感词库中的分词的敏感程度值,对所述待识别文本的后验敏感值进行修正,包括:
根据所述存在于所述敏感词库中的分词中的目标词汇的敏感程度值,对所述待识别文本的后验敏感值进行修正,所述目标词汇所属的类别为第一类别。
可选的,所述目标词汇包括多个分词,所述存在于所述敏感词库中的分词中,还包括其它类别的分词;第二类别为所述其它类别中的任意一个类别,所述存在于所述敏感词库中的分词中、所述第二类别对应的分词的数量,小于所述目标词汇包括的分词数量。
可选的,根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
若所述待识别文本的后验敏感值大于或者等于所述待识别文本的后验非敏感值,确定所述待识别文本为敏感文本;
若所述待识别文本的后验敏感值小于所述待识别文本的后验非敏感值,确定所述待识别文本为非敏感文本。
可选的,根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率;
根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本。
可选的,所述根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本,包括:
若所述待识别文本的后验敏感概率大于或者等于所述待识别文本的后验非敏感概率,确定所述待识别文本为敏感文本;
若所述待识别文本的后验敏感概率小于所述待识别文本的后验非敏感概率,确定所述待识别文本为非敏感文本。
图4是本申请实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
更进一步地,中央处理器422可以执行下述方法:
获取待识别文本,并对待识别文本进行分词,得到多个分词;
确定所述多个分词中每个分词分别对应的似然敏感值和似然非敏感值;
根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本;
其中:
所述多个分词包括第一分词,若敏感词库中包括所述第一分词,则所述第一分词的似然敏感值和似然非敏感值,根据所述第一分词的敏感程度值确定,所述第一分词的敏感程度值是预先确定的;若所述敏感词库中不包括所述第一分词,则所述第一分词的似然敏感值和所述第一分词的似然非敏感值根据预先确定的参数确定。
可选的,若所述敏感词库中不包括所述第一分词,所述第一分词的似然敏感值大于所述第一分词的似然非敏感程度值。
可选的,根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然敏感值,确定所述待识别文本的后验敏感值;
根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然非敏感值,确定所述待识别文本的后验非敏感值;
根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本。
可选的,所述方法还包括:
根据所述多个分词中、存在于所述敏感词库中的分词的敏感程度值,对所述待识别文本的后验敏感值进行修正,修正后的所述待识别文本的后验敏感值,大于修正前的所述待识别文本的后验敏感值;
所述根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的后验非敏感值和所述修正后的所述待识别文本的后验敏感值,确定所述待识别文本是否为敏感文本。
可选的,所述方法还包括:
确定所述存在于所述敏感词库中的分词所属的类别;
根据所述存在于所述敏感词库中的分词的敏感程度值,对所述待识别文本的后验敏感值进行修正,包括:
根据所述存在于所述敏感词库中的分词中的目标词汇的敏感程度值,对所述待识别文本的后验敏感值进行修正,所述目标词汇所属的类别为第一类别。
可选的,所述目标词汇包括多个分词,所述存在于所述敏感词库中的分词中,还包括其它类别的分词;第二类别为所述其它类别中的任意一个类别,所述存在于所述敏感词库中的分词中、所述第二类别对应的分词的数量,小于所述目标词汇包括的分词数量。
可选的,根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
若所述待识别文本的后验敏感值大于或者等于所述待识别文本的后验非敏感值,确定所述待识别文本为敏感文本;
若所述待识别文本的后验敏感值小于所述待识别文本的后验非敏感值,确定所述待识别文本为非敏感文本。
可选的,根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率;
根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本。
可选的,所述根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本,包括:
若所述待识别文本的后验敏感概率大于或者等于所述待识别文本的后验非敏感概率,确定所述待识别文本为敏感文本;
若所述待识别文本的后验敏感概率小于所述待识别文本的后验非敏感概率,确定所述待识别文本为非敏感文本。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口456,一个或一个以上键盘456,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例还提供了一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行以上方法实施例提供的识别敏感文本的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种识别敏感文本的方法,其特征在于,所述方法包括:
获取待识别文本,并对待识别文本进行分词,得到多个分词;
确定所述多个分词中每个分词分别对应的似然敏感值和似然非敏感值;
根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本;
其中:
所述多个分词包括第一分词,若敏感词库中包括所述第一分词,则所述第一分词的似然敏感值和似然非敏感值,根据所述第一分词的敏感程度值确定,所述第一分词的敏感程度值是预先确定的;若所述敏感词库中不包括所述第一分词,则所述第一分词的似然敏感值和所述第一分词的似然非敏感值根据预先确定的参数确定。
2.根据权利要求1所述的方法,其特征在于,若所述敏感词库中不包括所述第一分词,所述第一分词的似然敏感值大于所述第一分词的似然非敏感程度值。
3.根据权利要求1或2所述的方法,其特征在于,根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然敏感值,确定所述待识别文本的后验敏感值;
根据所述待识别文本的先验敏感概率和所述多个分词中每个分词的似然非敏感值,确定所述待识别文本的后验非敏感值;
根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述多个分词中、存在于所述敏感词库中的分词的敏感程度值,对所述待识别文本的后验敏感值进行修正,修正后的所述待识别文本的后验敏感值,大于修正前的所述待识别文本的后验敏感值;
所述根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的后验非敏感值和所述修正后的所述待识别文本的后验敏感值,确定所述待识别文本是否为敏感文本。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
确定所述存在于所述敏感词库中的分词所属的类别;
根据所述存在于所述敏感词库中的分词的敏感程度值,对所述待识别文本的后验敏感值进行修正,包括:
根据所述存在于所述敏感词库中的分词中的目标词汇的敏感程度值,对所述待识别文本的后验敏感值进行修正,所述目标词汇所属的类别为第一类别。
6.根据权利要求3所述的方法,其特征在于,根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
若所述待识别文本的后验敏感值大于或者等于所述待识别文本的后验非敏感值,确定所述待识别文本为敏感文本;
若所述待识别文本的后验敏感值小于所述待识别文本的后验非敏感值,确定所述待识别文本为非敏感文本。
7.根据权利要求3所述的方法,其特征在于,根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本是否为敏感文本,包括:
根据所述待识别文本的后验敏感值和所述待识别文本的后验非敏感值,确定所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率;
根据所述待识别文本的后验敏感概率和所述待识别文本的后验非敏感概率,确定所述待识别文本是否为敏感文本。
8.一种识别敏感文本的装置,其特征在于,所述装置包括:
获取单元,用于获取待识别文本,并对待识别文本进行分词,得到多个分词;
第一确定单元,用于确定所述多个分词中每个分词分别对应的似然敏感值和似然非敏感值;
第二确定单元,用于根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本;
其中:
所述多个分词包括第一分词,若敏感词库中包括所述第一分词,则所述第一分词的似然敏感值和似然非敏感值,根据所述第一分词的敏感程度值确定,所述第一分词的敏感程度值是预先确定的;若所述敏感词库中不包括所述第一分词,则所述第一分词的似然敏感值和所述第一分词的似然非敏感值根据预先确定的参数确定。
9.一种识别敏感文本的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待识别文本,并对待识别文本进行分词,得到多个分词;
确定所述多个分词中每个分词分别对应的似然敏感值和似然非敏感值;
根据所述待识别文本的先验敏感概率、所述每个分词分别对应的似然敏感值和似然非敏感值,确定所述待识别文本是否为敏感文本;
其中:
所述多个分词包括第一分词,若敏感词库中包括所述第一分词,则所述第一分词的似然敏感值和似然非敏感值,根据所述第一分词的敏感程度值确定,所述第一分词的敏感程度值是预先确定的;若所述敏感词库中不包括所述第一分词,则所述第一分词的似然敏感值和所述第一分词的似然非敏感值根据预先确定的参数确定。
10.一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行权利要求1至7任意一项所述的方法。
CN202010616349.3A 2020-06-30 2020-06-30 一种识别敏感文本的方法及装置 Active CN111753539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010616349.3A CN111753539B (zh) 2020-06-30 2020-06-30 一种识别敏感文本的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010616349.3A CN111753539B (zh) 2020-06-30 2020-06-30 一种识别敏感文本的方法及装置

Publications (2)

Publication Number Publication Date
CN111753539A true CN111753539A (zh) 2020-10-09
CN111753539B CN111753539B (zh) 2023-12-26

Family

ID=72676787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010616349.3A Active CN111753539B (zh) 2020-06-30 2020-06-30 一种识别敏感文本的方法及装置

Country Status (1)

Country Link
CN (1) CN111753539B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146589A (zh) * 2021-03-29 2022-10-04 腾讯科技(深圳)有限公司 文本处理方法、装置、介质以及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010078792A1 (zh) * 2009-01-12 2010-07-15 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
US20120239380A1 (en) * 2011-03-15 2012-09-20 Accenture Global Services Limited Classification-Based Redaction in Natural Language Text
US20160241546A1 (en) * 2015-02-17 2016-08-18 Ca, Inc. Provide Insensitive Summary For An Encrypted Document
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN108763202A (zh) * 2018-05-18 2018-11-06 广州腾讯科技有限公司 识别敏感文本的方法、装置、设备及可读存储介质
US20190164539A1 (en) * 2017-11-28 2019-05-30 International Business Machines Corporation Automatic blocking of sensitive data contained in an audio stream
CN111079029A (zh) * 2019-12-20 2020-04-28 珠海格力电器股份有限公司 敏感账号的检测方法、存储介质和计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010078792A1 (zh) * 2009-01-12 2010-07-15 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
US20120239380A1 (en) * 2011-03-15 2012-09-20 Accenture Global Services Limited Classification-Based Redaction in Natural Language Text
US20160241546A1 (en) * 2015-02-17 2016-08-18 Ca, Inc. Provide Insensitive Summary For An Encrypted Document
US20190164539A1 (en) * 2017-11-28 2019-05-30 International Business Machines Corporation Automatic blocking of sensitive data contained in an audio stream
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN108763202A (zh) * 2018-05-18 2018-11-06 广州腾讯科技有限公司 识别敏感文本的方法、装置、设备及可读存储介质
CN111079029A (zh) * 2019-12-20 2020-04-28 珠海格力电器股份有限公司 敏感账号的检测方法、存储介质和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
金贵涛;石元兵;魏忠;王雍;刘峻豪;: "一种基于Word2vec的敏感内容识别技术", 通信技术, no. 11 *
陈欣;张菁;李晓光;卓力;: "一种面向中文敏感网页识别的文本分类方法", 测控技术, no. 05 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146589A (zh) * 2021-03-29 2022-10-04 腾讯科技(深圳)有限公司 文本处理方法、装置、介质以及电子设备

Also Published As

Publication number Publication date
CN111753539B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
WO2021051650A1 (zh) 人脸和人手关联检测方法及装置、电子设备和存储介质
US10061762B2 (en) Method and device for identifying information, and computer-readable storage medium
CN106202330B (zh) 垃圾信息的判断方法及装置
CN111145756B (zh) 一种语音识别方法、装置和用于语音识别的装置
CN110009090B (zh) 神经网络训练与图像处理方法及装置
US10802605B2 (en) Input method, device, and electronic apparatus
US11556761B2 (en) Method and device for compressing a neural network model for machine translation and storage medium
JP7116088B2 (ja) 音声情報処理方法、装置、プログラム及び記録媒体
CN107564526B (zh) 处理方法、装置和机器可读介质
CN111753895A (zh) 数据处理方法、装置及存储介质
CN111428032B (zh) 内容质量评价方法及装置、电子设备、存储介质
CN108509406B (zh) 一种语料抽取方法、装置和电子设备
CN111753539B (zh) 一种识别敏感文本的方法及装置
CN108984628B (zh) 内容描述生成模型的损失值获取方法及装置
CN111813932B (zh) 文本数据的处理方法、分类方法、装置及可读存储介质
CN109918624B (zh) 一种网页文本相似度的计算方法和装置
CN111832297A (zh) 词性标注方法、装置及计算机可读存储介质
CN112035651A (zh) 语句补全方法、装置及计算机可读存储介质
CN108108356B (zh) 一种文字翻译方法、装置及设备
CN112052395B (zh) 一种数据处理方法及装置
CN110837741B (zh) 一种机器翻译方法、装置及系统
CN113807540A (zh) 一种数据处理方法及装置
CN109388252B (zh) 一种输入方法及装置
CN110457560B (zh) 一种获得点击率的方法及相关装置
CN112507726A (zh) 一种义项嵌入向量的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant