CN113128220B - 文本判别的方法、装置、电子设备及存储介质 - Google Patents
文本判别的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113128220B CN113128220B CN202110479518.8A CN202110479518A CN113128220B CN 113128220 B CN113128220 B CN 113128220B CN 202110479518 A CN202110479518 A CN 202110479518A CN 113128220 B CN113128220 B CN 113128220B
- Authority
- CN
- China
- Prior art keywords
- text
- recall
- character
- tendency
- target character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
本申请涉及一种文本判别的方法、装置、电子设备及存储介质。应用于数据处理技术领域,其中文本判别方法包括:获取待识别文本,待识别文本中包括至少一个字符;确定待识别文本中目标字符的敏感度,目标字符为待识别文本中的任一字符;根据目标字符的敏感度和至少一个与目标字符相邻的邻域字符的敏感度,确定目标字符的召回倾向度,召回倾向度指示目标字符所在的待识别文本被召回的倾向程度;在目标字符的召回倾向度大于预设值时,确定待识别文本需要召回。本申请用以解决相关技术中,对敏感内容识别准确率低、召回结果不理想的问题。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本判别的方法、装置、电子设备及存储介质。
背景技术
随着社交网络、移动互联网的不断普及,人们在互联网上分享自己的生活所见、所闻及所想的现象越来越普遍。主要包括人们在互联网上发布自己的视频、评论等,而视频的标题以及评论的内容中,往往会存在一些低俗、违法、暴力倾向、政治敏感等不合规的信息,因此需要将此类内容进行识别并召回,以净化网络。
现有技术中,往往采用简单的敏感词匹配来确定文本中是否存在敏感词,即,将文本中的词汇与敏感词汇进行匹配,若匹配成功,则表示存在敏感词。在文本中存在敏感词时,便对文本进行召回。但是这种方法由于敏感词的歧义或者文本的分词错误将会导致精确性较低,但是,简单的敏感词匹配法会将其认为是同一概念,这种情况下,便会导致误判,准确性较低,使得召回结果不理想。
发明内容
本申请提供了一种文本判别的方法、装置、电子设备及存储介质,用以解决相关技术中,对敏感内容识别准确率低、召回结果不理想的问题。
第一方面,本申请提供了一种文本判别方法,包括:
获取待识别文本,所述待识别文本中包括至少一个字符;
确定所述待识别文本中目标字符的敏感度,所述目标字符为所述待识别文本中的任一字符;
根据所述目标字符的敏感度和至少一个与所述目标字符相邻的邻域字符的敏感度,确定所述目标字符的召回倾向度,所述召回倾向度指示所述目标字符所在的待识别文本被召回的倾向程度;
在所述目标字符的所述召回倾向度大于预设值时,确定所述待识别文本需要召回。
可选的,所述确定所述待识别文本中目标字符的敏感度,包括:
获取预设的敏感词集;
根据预设敏感词集对所述待识别文本进行全称匹配,得到匹配结果;
根据所述匹配结果,对所述目标字符进行赋值,将赋值结果作为所述目标字符的敏感度,其中,匹配成功的目标字符的敏感度大于未匹配成功的目标字符的敏感度。
可选的,所述根据所述目标字符的敏感度和至少一个与所述目标字符相邻的相邻字符的敏感度,确定所述目标字符的召回倾向度,包括:
根据每个所述目标字符的所述赋值结果,确定所述待识别文本的匹配序列;
对所述匹配序列进行平滑处理,得到平滑序列;
根据所述平滑序列,确定所述目标字符的召回倾向度。
可选的,还包括:
获取训练样本集,所述训练样本集中包括至少一个训练文本、各所述训练文本中各训练字符的真实召回倾向度以及所述训练文本的真实判别结果,所述真实召回倾向度和所述真实判别结果是所述训练文本通过执行所述判别过程得到;
根据所述训练样本集对初始神经网络进行训练,得到判别神经网络;
基于所述判别神经网络确定所述待识别文本是否需要召回。
可选的,所述根据所述训练样本集对初始神经网络进行训练,得到判别神经网络,包括:
分别对所述训练样本集中的每个训练文本执行以下训练过程:
将所述训练文本输入初始神经网络,对所述训练文本中的各训练字符赋予训练字符向量,将所述训练字符向量与初始查询向量点乘,得到所述训练字符的预测召回倾向度;根据所述预测召回倾向度对所述训练字符向量加权平均,并将加权平均后的结果依次输入隐藏层、全连接层和输出层,得到样本输出结果,根据所述样本输出结果判断所述训练文本是否需要召回,得到预测判别结果;
根据所述训练文本的所述预测召回倾向度和所述真实召回倾向度,更新所述初始查询向量的第一参数,以及根据所述预测判别结果和所述真实判别结果,更新所述初始神经网络的第二参数,重复执行所述训练过程,直至所述训练文本召回倾向度的准确度大于第一预设值,以及判别结果的准确度大于第二预设阈值;
将更新后的初始神经网络作为所述判别神经网络。
可选的,所述根据所述训练文本的所述预测召回倾向度和所述真实召回倾向度,更新所述初始查询向量的第一参数,包括:
根据所述训练文本的所述预测召回倾向度和所述真实召回倾向度,计算第一交叉熵;
根据所述第一交叉熵,将梯度反向传播到所述初始查询向量,优化所述初始查询向量的第一参数。
可选的,以及根据所述预测判别结果和所述真实判别结果,更新所述初始神经网络的第二参数,包括:
根据所述训练文本的所述预测判别结果和所述真实判别结果,计算第二交叉熵;
根据所述第二交叉熵,将梯度反向传播到所述初始神经网络,优化所述初始神经网络每一层的第二参数。
可选的,还包括:
获取所述召回倾向度;
根据所述召回倾向度对各所述字符匹配字符颜色,其中,所述字符颜色与所述召回倾向度相关;
显示所述待识别文本的字符颜色。
可选的,所述根据所述召回倾向度对各所述字符匹配字符颜色,包括:
确定所述召回倾向度所属的区间,所述区间是根据所述召回倾向度的取值范围预先划分的,并且,各所述区间的字符颜色不同;
将所述字符匹配所述区间对应的所述字符颜色。
第二方面,本申请提供了一种文本判别装置,包括:
获取模块,用于获取待识别文本,所述待识别文本中包括至少一个字符;
第一确定模块,用于确定所述待识别文本中目标字符的敏感度,所述目标字符为所述待识别文本中的任一字符;
第二确定模块,用于根据所述目标字符的敏感度和至少一个与所述目标字符相邻的字符的敏感度,确定所述目标字符的召回倾向度;
判别模块,用于在所述目标字符的所述召回倾向度大于预设值时,确定所述待识别文本需要召回。
第三方面,本申请提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的文本判别的方法。
第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的文本判别的方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,获取待识别文本,待识别文本中包括至少一个字符;确定待识别文本中目标字符的敏感度,目标字符为待识别文本中的任一字符;根据目标字符的敏感度和至少一个与目标字符相邻的邻域字符的敏感度,确定目标字符的召回倾向度,召回倾向度指示目标字符所在的待识别文本被召回的倾向程度;在目标字符的召回倾向度大于预设值时,确定待识别文本需要召回。在确定目标字符的召回倾向度时,是基于目标字符的敏感度和与其相邻的邻域字符的敏感度共同确定的,确定过程中加入了邻域字符对目标字符的影响,从而使得得到的召回倾向度更接近于字符本身含义,从而提高了对待识别文本判别的准确性,进而使召回结果更准确。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本申请实施例中文本判别的具体过程示意图;
图2为本申请另一实施例中文本判别的具体过程示意图;
图3为本申请又一实施例中文本判别的具体过程示意图;
图4为本申请又一实施例中文本判别的具体过程示意图;
图5为本申请实施例中神经网络模型的示意图;
图6为本申请实施例中文本判别装置结构示意图;
图7为本申请实施例中电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
根据本申请一实施例提供了一种文本判别方法。可选地,在本申请实施例中,上述文本判别方法可以应用于如图1所示的由终端101和服务器102所构成的硬件环境中。如图1所示,服务器102通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如视频服务、应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器102提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101并不限定于PC、手机、平板电脑等。
本申请实施例的文本判别方法可以由服务器102来执行,也可以由终端101来执行,还可以是由服务器102和终端101共同执行。其中,终端101执行本申请实施例的文本判别方法,也可以是由安装在其上的客户端来执行。
以终端执行本申请实施例的图元中元素的选择方法为例,图2是根据本申请实施例的一种可选的文本判别方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤201、获取待识别文本,待识别文本中包括至少一个字符。
一些实施例中,获取的待识别文本可以但不限于为用户上传的,或终端自动从相应API获取的。待识别文本可以为评论文本、短信文本或标题文本等。示例性的,待识别文本可以是用户在上传视频文件时该视频文件的标题,也可以是用户对视频文件或音频文件等的评论内容。
其中,待识别文本可为词语、成语或者字数在预设个数范围内的短文本,预设个数可根据实际情况进行设置,在此不做限定。
步骤202、确定待识别文本中目标字符的敏感度,目标字符为待识别文本中的任一字符。
一些实施例中,待识别文本中每个字符的表示的含义相同,通过确定待识别文本中的每个字符的敏感度,可以使进一步的通过字符的敏感度确定待识别文本是否需要被召回。其中,目标字符的敏感度指该目标字符为敏感词的程度。
在一个可选实施例中,确定待识别文本中目标字符的敏感度,具体可以为:获取预设的敏感词集;根据预设敏感词集对待识别文本进行全称匹配,得到匹配结果;根据匹配结果,对目标字符进行赋值,将赋值结果作为目标字符的敏感度,其中,匹配成功的目标字符的敏感度大于未匹配成功的目标字符的敏感度。
在获取到待识别文本后,将预设的敏感词集中的目标词汇与待识别文本进行全称匹配,若待识别文本中存在与上述目标词汇一致的字符,确定该字符为匹配成功,否则,确定该字符未匹配成功。其中,上述目标词汇为预设的敏感词集中的任一词汇。
在确定目标字符的匹配结果后,根据匹配结果对字符进行赋值,从而得到每个目标字符的敏感度。
示例性的,以待识别文本的内容为“我有一辆小三轮”为例。以匹配成功的字符赋值为1,未匹配成功的字符赋值为0为例,待识别文本中各字符的敏感度依次为“0、0、0、0、1、1和0”。
需要说明的是,上述赋值的0和1仅用于实例性解释,在实际应用中,也可以为其他数值。
其中,预设的敏感词集可以预先存储在终端的数据库中,预设的敏感词集中包括但不限于含有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩或不文明语的敏感词、广告用语或上述词汇的等。
步骤203、根据目标字符的敏感度和至少一个与目标字符相邻的字符的敏感度,确定目标字符的召回倾向度,召回倾向度指示目标字符所在的待识别文本被召回的倾向程度。
一些实施例中,在确定目标字符的召回倾向度时,不仅基于目标字符本身的敏感度,还考虑到了其相邻字符的敏感度,即相邻字符的敏感度也会对目标字符的召回倾向度产生一定的影响,基于此,使得确定的目标字符的召回倾向度能够更加贴近与该字符本身的含义。
在一个可选实施例中,确定目标字符的召回倾向度的过程可以通过以下方式得到:根据每个目标字符的赋值结果,确定待识别文本的匹配序列;对匹配序列进行平滑处理,得到平滑序列;根据平滑序列,确定目标字符的召回倾向度。
一些实施例中,在得到每个目标字符的赋值结果后,将待识别文本的所有字符的赋值结果合并,将合并后的结果作为匹配序列。示例性的,以赋值结果为上述的“0、0、0、0、1、1和0”,确定匹配序列为(0000110)。
进一步的,对匹配序列进行平滑处理的方式有多种,例如,可以通过高斯模糊的方式对匹配序列进行模糊处理。具体的,通过高斯函数和待识别文本的匹配序列卷积,便可以得到训练文本高斯模糊后的结果。
通过对匹配序列进行高斯模糊,可以使得匹配序列(01序列)变为一个浮点数序列。01序列中1的位置仍然为1;但01序列中0的位置中,越靠近1则权值越高,越远离1则权值越低。如此,可以使得除了敏感词本身之外,其周围的部分语境也拥有一定权值,进而,可以根据这些部分语境来对敏感词的真实含义进行判断。
进一步的,根据平滑序列,确定目标字符的召回倾向度。
一些实施例中,通过对高斯模糊后的匹配序列正规化,便可以得到该待识别文本中各目标字符的召回倾向度。
步骤204、在目标字符的召回倾向度大于预设值时,确定待识别文本需要召回。
一些实施例中,在目标字符的召回倾向度大于预设值时,表示该目标字符对应的词义与真实敏感词对应的词义相同,因此,确定该待识别文本需要召回,从而避免该待识别文本被大众查看到后产生不良影响。
其中,预设值可以根据实际情况进行设置,例如,可以设置为0.4-0.8中的任一数值,优选的设置为0.45。
在一个可选实施例中,在判断待识别文本是否需要召回的过程计算量较大,使得文本召回效率较低,为克服上述问题,参见图3,该方法还包括:
步骤301、获取训练样本集,训练样本集中包括至少一个训练文本、各训练文本中各训练字符的真实召回倾向度以及训练文本的真实判别结果。
一些实施例中,训练样本集中的训练文本可以通过上述待识别文本的获取方式得到。通过对训练样本集中的每个训练文本执行上述的步骤201至步骤204,即可得到每个训练文本的真实召回倾向度和真实判别结果。
可以理解的是,在训练样本集中的训练文本数量较少时,可以将训练文本多次输入神经网络中训练,以提高神经网络判别的准确性。
步骤302、根据训练样本集对初始神经网络进行训练,得到判别神经网络。
一些实施例中,初始神经网络可以为相关技术中的任一神经网络,优先的,该初始神经网络为循环神经网络(Recurrent Neural Network,RNN)。
进一步的,参见图4,对初始神经网络进行训练,得到判别神经网络的具体过程包括,分别对训练样本集中的每个训练文本执行以下训练过程:
步骤401、将训练文本输入初始神经网络,对训练文本中的各训练字符赋予训练字符向量,将训练字符向量与初始查询向量点乘,得到训练字符的预测召回倾向度;根据预测召回倾向度对训练字符向量加权平均,并将加权平均后的结果依次输入隐藏层、全连接层和输出层,得到样本输出结果,根据样本输出结果判断训练文本是否需要召回,得到预测判别结果。
一些实施例中,参照图5,训练文本输入初始神经网络后,由初始神经网络对训练文本中的各训练字符赋予训练字符向量(hi),并将训练字符向量与初始神经网络中的初始查询向量点乘,点乘的结果作为预测召回倾向度(wi)。并且,基于预测召回倾向度对训练字符向量加权平均,并进一步得到输出结果,从而依据样本输出结果得到预测判别结果。其中,i表示字符在待识别文本中的顺序。
其中,初始查询向量为初始神经网络中的。
本实施例中,基于神经网络中的注意力(attention)机制,基于神经网络中的为每个字符配置的训练字符向量,以及查询(query)向量,通过attention机制计算query向量与每一个训练字符向量的相似性,得到每个训练字符的预测召回倾向度,通过对预测召回倾向度对每个训练字符向量加权平均,得到最终attention数值,即在神经网络隐藏层表征,进一步以全连接的方式得到logist,并在softmax层得到输出结果。并进一步根据该输出结果,判断训练文本是否需要召回。
其中,对各训练字符赋予字符向量为该字符的特征向量,得到训练字符向量的方式有多种,例如,可以通过OneHotEncoder的编码方式,将训练文本中的每个字符转化为一个可直接计算的向量。
步骤402、根据训练文本的预测召回倾向度和真实召回倾向度,更新初始查询向量的第一参数,以及根据预测判别结果和真实判别结果,更新初始神经网络的第二参数,重复执行训练过程,直至训练文本召回倾向度的准确度大于第一预设值,以及判别结果的准确度大于第二预设阈值。
一些实施例中,通过对初始神经网络参数的更新,可以使神经网络的参数更加优化,使得到的预测召回倾向度更接近真实召回倾向度,以及使预测判别结果更接近真实判别结果,提高判别的准确度。
在一个可选实施例中,上述的根据训练文本的预测召回倾向度和真实召回倾向度,更新初始查询向量的第一参数,包括:根据训练文本的预测召回倾向度和真实召回倾向度,计算第一交叉熵;根据第一交叉熵,将梯度反向传播到初始查询向量,优化初始查询向量的第一参数。
本实施例中,通过对初始查询向量的第一参数进行优化,使得到的预测召回倾向度更接近真实召回倾向度,以提高神经网络预测召回倾向度的准确性。
在一个可选实施例中,根据预测判别结果和真实判别结果,更新初始神经网络的第二参数,包括:根据训练文本的预测判别结果和真实判别结果,计算第二交叉熵;根据第二交叉熵,将梯度反向传播到初始神经网络,优化初始神经网络每一层的第二参数。
本实施例中,通过对初始神经网络的第二参数进行优化,使得到的预测判别结果更接近真实判别结果,以提高神经网络预测判别结果的准确性。
步骤403、将更新后的初始神经网络作为判别神经网络。
一些实施例中,通过对初始神经网络的训练,对参数进行了优化,并训练文本召回倾向度的准确度大于第一预设值,以及判别结果的准确度大于第二预设阈值后,将训练完成的初始神经网络作为判别神经网络,从而通过该判别神经网络对待识别文本进行判别,从而降低判别过程的计算量。
其中,训练文本判别结果的准确度,可以通过对第一预设判别数量的训练文本的判别结果进行统计,并计算判别正确的数据量和第一预设判别数量的比值计算得到。训练文本召回倾向度的准确度可以通过对第二预设判别数量的训练文本的判别结果进行统计,并计算预测正确的数据量和第二预设判别数量的比值计算得到。
需要说明的是,上述判别正确的数据量指预测判别结果与真实判别结果相同的数据量;预测正确的数据量判别总量指预测召回倾向度与真实召回倾向度相同的数据量。
示例性,第一预设阈值和第二预设阈值可以根据实际情况进行设定,例如,可以为98%至90%中的任一数值,可选的,第一预设阈值和第二预设阈值设为95%。
步骤303、基于判别神经网络确定待识别文本是否需要召回。
一些实施例中,在训练得到判别神经网络后,便可以将待识别文本输入判别神经网络中,由判别神经网络预测各字符的召回倾向度,并输出判别结果,降低了判别过程中的计算量。
在一个可选实施例中,该文本判别方法还包括:获取召回倾向度;根据召回倾向度对各字符匹配字符颜色,其中,字符颜色与召回倾向度相关;显示待识别文本的字符颜色。
一些实施例中,为了对判别结果进行人工校验时,能够为工作人员提供更加可视化的参考意见,对待识别文本中的字符匹配字符颜色,并进一步显示,以使工作人员能够更加直观的判断待识别文本是否需要召回。
具体的,字符颜色与召回倾向度的匹配可以通过以下过程实现:确定召回倾向度所属的区间,区间是根据召回倾向度的取值范围预先划分的,并且,各区间的字符颜色不同;将字符匹配区间对应的字符颜色。
其中,召回倾向度的取值范围可以为0至1中的任一数值,本实施例中,可以以0.1为步长,将召回倾向度的取值范围划分为10个区间,并为各区间配置不同的颜色。可以理解的是,区间内的数值越大,表示该目标字符的召回倾向度越大,因此,可以将区间的取值由大到小配置的颜色逐渐变浅。可以理解的是,字符颜色也可以设置不同的颜色,例如,在0至0.1区间将颜色设置为绿色,0.9至1区间将颜色设置为红色,中间区间由绿色渐变至红色。
进一步的,在终端显示待识别文本的字符颜色,可以审核人员可以根据显示的结果,对待识别文本进行进一步的审核,通过对字符匹配相应的字符颜色并显示出来,可以为审核人员提供参考意见,字符的敏感度通过颜色体现出来,审核人员可以通过字符颜色直接了解到该文本中的敏感字符,具有较好的解释性,提高了审核效率。
在一个可选实施例中,该方法还包括:在确定待识别文本需要召回后,输出待识别文本的判别结果。
其中,可以将需要召回的待识别文本输出为“通过”,无需召回的待识别文本输出为“不通过”,以方便审核人员审核。
基于同一构思,本申请实施例中提供了一种文本判别的装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述。如图6所示,该装置主要包括:
获取模块601,用于获取待识别文本,待识别文本中包括至少一个字符;
第一确定模块602,用于确定待识别文本中目标字符的敏感度,目标字符为待识别文本中的任一字符;
第二确定模块603,用于根据目标字符的敏感度和至少一个与目标字符相邻的字符的敏感度,确定目标字符的召回倾向度,召回倾向度指示目标字符所在的待识别文本被召回的倾向程度;
判别模块604,用于在目标字符的召回倾向度大于预设值时,确定待识别文本需要召回。
基于同一构思,本申请实施例中还提供了一种电子设备,如图7所示,该电子设备主要包括:处理器701、通信接口702、存储器703和通信总线704,其中,处理器701、通信接口702和存储器703通过通信总线704完成相互间的通信。其中,存储器703中存储有可被至处理器701执行的程序,处理器701执行存储器703中存储的程序,实现如下步骤:
获取待识别文本,待识别文本中包括至少一个字符;
确定待识别文本中目标字符的敏感度,目标字符为待识别文本中的任一字符;
根据目标字符的敏感度和至少一个与目标字符相邻的邻域字符的敏感度,确定目标字符的召回倾向度,召回倾向度指示目标字符所在的待识别文本被召回的倾向程度;
在目标字符的召回倾向度大于预设值时,确定待识别文本需要召回。
上述电子设备中提到的通信总线704可以时外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线704可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口702用于上述电子设备与其他设备之间的通信。
存储器703可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器701的存储装置。
上述的处理器701可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的文本判别的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文本判别方法,其特征在于,包括: 执行以下判别过程:
获取待识别文本,所述待识别文本中包括至少一个字符;
确定所述待识别文本中目标字符的敏感度,所述目标字符为所述待识别文本中的任一字符;
根据所述目标字符的敏感度和至少一个与所述目标字符相邻的邻域字符的敏感度,确定所述目标字符的召回倾向度,所述召回倾向度指示所述目标字符所在的待识别文本被召回的倾向程度;
在所述目标字符的所述召回倾向度大于预设值时,确定所述待识别文本需要召回;
其中,所述确定所述待识别文本中目标字符的敏感度,包括:
获取预设的敏感词集;
根据预设敏感词集对所述待识别文本进行全称匹配,得到匹配结果;
根据所述匹配结果,对所述目标字符进行赋值,将赋值结果作为所述目标字符的敏感度,其中,匹配成功的目标字符的敏感度大于未匹配成功的目标字符的敏感度;
其中,所述根据所述目标字符的敏感度和至少一个与所述目标字符相邻的相邻字符的敏感度,确定所述目标字符的召回倾向度,包括:
根据每个所述目标字符的所述赋值结果,确定所述待识别文本的匹配序列;
对所述匹配序列进行平滑处理,得到平滑序列;
根据所述平滑序列,确定所述目标字符的召回倾向度。
2.根据权利要求1所述的文本判别方法,其特征在于,还包括:
获取训练样本集,所述训练样本集中包括至少一个训练文本、各所述训练文本中各训练字符的真实召回倾向度以及所述训练文本的真实判别结果,所述真实召回倾向度和所述真实判别结果是所述训练文本通过执行所述判别过程得到;
根据所述训练样本集对初始神经网络进行训练,得到判别神经网络;
基于所述判别神经网络确定所述待识别文本是否需要召回。
3.根据权利要求2所述的文本判别方法,其特征在于,所述根据所述训练样本集对初始神经网络进行训练,得到判别神经网络,包括:
分别对所述训练样本集中的每个训练文本执行以下训练过程:
将所述训练文本输入初始神经网络,对所述训练文本中的各训练字符赋予训练字符向量,将所述训练字符向量与初始查询向量点乘,得到所述训练字符的预测召回倾向度;根据所述预测召回倾向度对所述训练字符向量加权平均,并将加权平均后的结果依次输入隐藏层、全连接层和输出层,得到样本输出结果,根据所述样本输出结果判断所述训练文本是否需要召回,得到预测判别结果;
根据所述训练文本的所述预测召回倾向度和所述真实召回倾向度,更新所述初始查询向量的第一参数,以及根据所述预测判别结果和所述真实判别结果,更新所述初始神经网络的第二参数,重复执行所述训练过程,直至所述训练文本召回倾向度的准确度大于第一预设值,以及判别结果的准确度大于第二预设阈值;
将更新后的初始神经网络作为所述判别神经网络。
4.根据权利要求3所述的文本判别方法,其特征在于,所述根据所述训练文本的所述预测召回倾向度和所述真实召回倾向度,更新所述初始查询向量的第一参数,包括:
根据所述训练文本的所述预测召回倾向度和所述真实召回倾向度,计算第一交叉熵;
根据所述第一交叉熵,将梯度反向传播到所述初始查询向量,优化所述初始查询向量的第一参数。
5.根据权利要求3所述的文本判别方法,其特征在于,以及根据所述预测判别结果和所述真实判别结果,更新所述初始神经网络的第二参数,包括:
根据所述训练文本的所述预测判别结果和所述真实判别结果,计算第二交叉熵;
根据所述第二交叉熵,将梯度反向传播到所述初始神经网络,优化所述初始神经网络每一层的第二参数。
6.根据权利要求1-5任一项所述的文本判别方法,其特征在于,还包括:
获取所述召回倾向度;
根据所述召回倾向度对各所述字符匹配字符颜色,其中,所述字符颜色与所述召回倾向度相关;
显示所述待识别文本的字符颜色。
7.根据权利要求6所述的文本判别方法,其特征在于,所述根据所述召回倾向度对各所述字符匹配字符颜色,包括:
确定所述召回倾向度所属的区间,所述区间是根据所述召回倾向度的取值范围预先划分的,并且,各所述区间的字符颜色不同;
将所述字符匹配所述区间对应的所述字符颜色。
8.一种文本判别装置,其特征在于,包括:
获取模块,用于获取待识别文本,所述待识别文本中包括至少一个字符;
第一确定模块,用于确定所述待识别文本中目标字符的敏感度,所述目标字符为所述待识别文本中的任一字符;
第二确定模块,用于根据所述目标字符的敏感度和至少一个与所述目标字符相邻的字符的敏感度,确定所述目标字符的召回倾向度,所述召回倾向度指示所述目标字符所在的待识别文本被召回的倾向程度;
判别模块,用于在所述目标字符的所述召回倾向度大于预设值时,确定所述待识别文本需要召回;
其中,所述确定所述待识别文本中目标字符的敏感度,包括:
获取预设的敏感词集;
根据预设敏感词集对所述待识别文本进行全称匹配,得到匹配结果;
根据所述匹配结果,对所述目标字符进行赋值,将赋值结果作为所述目标字符的敏感度,其中,匹配成功的目标字符的敏感度大于未匹配成功的目标字符的敏感度;
其中,所述根据所述目标字符的敏感度和至少一个与所述目标字符相邻的相邻字符的敏感度,确定所述目标字符的召回倾向度,包括:
根据每个所述目标字符的所述赋值结果,确定所述待识别文本的匹配序列;
对所述匹配序列进行平滑处理,得到平滑序列;
根据所述平滑序列,确定所述目标字符的召回倾向度。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1-7任一项所述的文本判别方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的文本判别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110479518.8A CN113128220B (zh) | 2021-04-30 | 2021-04-30 | 文本判别的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110479518.8A CN113128220B (zh) | 2021-04-30 | 2021-04-30 | 文本判别的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113128220A CN113128220A (zh) | 2021-07-16 |
CN113128220B true CN113128220B (zh) | 2023-07-18 |
Family
ID=76780815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110479518.8A Active CN113128220B (zh) | 2021-04-30 | 2021-04-30 | 文本判别的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128220B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
CN109657228A (zh) * | 2018-10-31 | 2019-04-19 | 北京三快在线科技有限公司 | 一种敏感文本确定方法及装置 |
CN109657243A (zh) * | 2018-12-17 | 2019-04-19 | 江苏满运软件科技有限公司 | 敏感信息识别方法、系统、设备及存储介质 |
CN110737770A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 文本数据敏感性识别方法、装置、电子设备及存储介质 |
CN111159329A (zh) * | 2019-12-24 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 敏感词检测方法、装置、终端设备和计算机可读存储介质 |
CN111667066A (zh) * | 2020-04-23 | 2020-09-15 | 北京旷视科技有限公司 | 网络模型的训练、文字识别方法、装置和电子设备 |
CN111738011A (zh) * | 2020-05-09 | 2020-10-02 | 完美世界(北京)软件科技发展有限公司 | 违规文本的识别方法及装置、存储介质、电子装置 |
CN112328732A (zh) * | 2020-10-22 | 2021-02-05 | 上海艾融软件股份有限公司 | 敏感词检测、敏感词树构建方法及装置 |
CN112686047A (zh) * | 2021-01-21 | 2021-04-20 | 北京云上曲率科技有限公司 | 一种基于命名实体识别的敏感文本识别方法、装置、系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9092674B2 (en) * | 2011-06-23 | 2015-07-28 | International Business Machines Corportion | Method for enhanced location based and context sensitive augmented reality translation |
US10169414B2 (en) * | 2016-04-26 | 2019-01-01 | International Business Machines Corporation | Character matching in text processing |
US10984316B2 (en) * | 2017-06-19 | 2021-04-20 | International Business Machines Corporation | Context aware sensitive information detection |
US11159551B2 (en) * | 2019-04-19 | 2021-10-26 | Microsoft Technology Licensing, Llc | Sensitive data detection in communication data |
-
2021
- 2021-04-30 CN CN202110479518.8A patent/CN113128220B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
CN110737770A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 文本数据敏感性识别方法、装置、电子设备及存储介质 |
CN109657228A (zh) * | 2018-10-31 | 2019-04-19 | 北京三快在线科技有限公司 | 一种敏感文本确定方法及装置 |
CN109657243A (zh) * | 2018-12-17 | 2019-04-19 | 江苏满运软件科技有限公司 | 敏感信息识别方法、系统、设备及存储介质 |
CN111159329A (zh) * | 2019-12-24 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 敏感词检测方法、装置、终端设备和计算机可读存储介质 |
CN111667066A (zh) * | 2020-04-23 | 2020-09-15 | 北京旷视科技有限公司 | 网络模型的训练、文字识别方法、装置和电子设备 |
CN111738011A (zh) * | 2020-05-09 | 2020-10-02 | 完美世界(北京)软件科技发展有限公司 | 违规文本的识别方法及装置、存储介质、电子装置 |
CN112328732A (zh) * | 2020-10-22 | 2021-02-05 | 上海艾融软件股份有限公司 | 敏感词检测、敏感词树构建方法及装置 |
CN112686047A (zh) * | 2021-01-21 | 2021-04-20 | 北京云上曲率科技有限公司 | 一种基于命名实体识别的敏感文本识别方法、装置、系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113128220A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489639B (zh) | 一种内容推荐方法及装置 | |
CN108921206B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN108197652B (zh) | 用于生成信息的方法和装置 | |
CN108520470B (zh) | 用于生成用户属性信息的方法和装置 | |
CN107679211A (zh) | 用于推送信息的方法和装置 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN112347367A (zh) | 信息服务提供方法、装置、电子设备和存储介质 | |
CN109214501B (zh) | 用于识别信息的方法和装置 | |
CN110597965B (zh) | 文章的情感极性分析方法、装置、电子设备及存储介质 | |
CN114422267A (zh) | 流量检测方法、装置、设备及介质 | |
CN110473042B (zh) | 用于获取信息的方法及装置 | |
CN116932919A (zh) | 信息推送方法、装置、电子设备和计算机可读介质 | |
CN114117060A (zh) | 评论数据的质量分析方法、装置、电子设备及存储介质 | |
CN110837732B (zh) | 目标人物间亲密度识别方法、装置、电子设备及存储介质 | |
CN113128220B (zh) | 文本判别的方法、装置、电子设备及存储介质 | |
CN114119123A (zh) | 信息推送的方法和装置 | |
CN113704566B (zh) | 识别号主体识别方法、存储介质和电子设备 | |
CN111767938B (zh) | 一种异常数据检测方法、装置及电子设备 | |
CN109977913B (zh) | 一种目标检测网络训练方法、装置及电子设备 | |
CN114238968A (zh) | 应用程序检测方法及装置、存储介质及电子设备 | |
CN113836936B (zh) | 语义解析方法、系统、装置、设备及存储介质 | |
CN112115981A (zh) | 一种社交网络博主的embedding评估方法及系统 | |
CN112115300A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN111400678A (zh) | 一种用户检测方法及装置 | |
CN116911304B (zh) | 一种文本推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |