发明内容
本说明书一个或多个实施例的目的是提供一种文本的风险识别方法及装置,用以提高文本风险识别的准确率及召回率。
为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
一方面,本说明书一个或多个实施例提供一种文本的风险识别方法,包括:
获取用于训练文本分类模型的多个样本语句;其中,各所述样本语句分别对应有各自的分类标签,所述分类标签用于表示所述样本语句是否为风险语句;
对所述样本语句进行切分,得到多个样本切片,所述样本切片包括单词及非词;
确定各所述样本切片的粒度特征,根据各所述样本切片的粒度特征确定各所述样本语句的语句特征;
根据各所述样本语句的语句特征及所述样本语句对应的所述分类标签,训练所述文本分类模型;其中,所述文本分类模型用于识别目标语句的风险程度。
在一个实施例中,所述粒度特征包括以下至少一项:
各所述样本切片在所述样本语句中的风险语句中的第一风险概率;
各所述样本切片在所述样本语句中的第二风险概率;
各所述样本切片在所述样本语句中的非风险语句中的第三风险概率;
各所述样本切片在所述样本语句中的数量;
各所述样本切片在所述风险语句中的数量;
各所述样本切片在所述非风险语句中的数量;
各所述样本切片的切片类型,所述切片类型包括仅包含于所述风险语句中的第一类切片、仅包含于所述非风险语句中的第二类切片、同时包含于所述风险语句及所述非风险语句中的第三类切片中的至少一项。
在一个实施例中,当所述粒度特征包括所述第一风险概率时,在所述根据各所述样本切片的粒度特征确定各所述样本语句的语句特征之前,还包括:
确定各所述样本切片在各所述样本语句中的重要程度;
将所述重要程度作为所述第一风险概率的权值对所述第一风险概率进行加权处理,得到各所述样本切片在所述风险语句中的第一加权风险概率。
在一个实施例中,所述根据各所述样本切片的粒度特征确定各所述样本语句的语句特征,包括:
针对其中任一所述样本语句,确定所述样本语句包含的至少一个所述样本切片;
计算各所述样本切片的粒度特征的综合参数值;其中,所述综合参数值包括平均值、标准差、方差中的至少一项;
确定所述综合参数值为所述样本语句的语句特征。
在一个实施例中,所述对所述样本语句进行切分,包括:
确定对所述样本语句进行切分的切分长度;
按照所述切分长度,并利用N-gram算法对所述样本语句进行切分。
在一个实施例中,所述方法还包括:
对所述目标语句进行切分,得到所述目标语句对应的至少一个目标切片;
确定各所述目标切片的粒度特征;及,根据所述目标切片的粒度特征确定所述目标语句的语句特征;
将所述目标语句的语句特征作为所述文本分类模型的输入,识别出所述目标语句的风险概率。
在一个实施例中,所述方法还包括:
按照预设抽取规则,从所述样本语句中抽取多个待识别语句;其中,所述预设抽取规则包括随机抽取、按风险类型进行抽取中的至少一项;
利用所述文本分类模型对所述待识别语句的风险程度进行识别;
判断对所述待识别语句的风险程度的识别结果是否正确;
根据判断结果更新所述文本分类模型。
另一方面,本说明书一个或多个实施例提供一种文本的风险识别装置,包括:
获取模块,用于获取用于训练文本分类模型的多个样本语句;其中,各所述样本语句分别对应有各自的分类标签,所述分类标签用于表示所述样本语句是否为风险语句;
第一切分模块,用于对所述样本语句进行切分,得到多个样本切片,所述样本切片包括单词及非词;
第一确定模块,用于确定各所述样本切片的粒度特征,根据各所述样本切片的粒度特征确定各所述样本语句的语句特征;
训练模块,用于根据各所述样本语句的语句特征及所述样本语句对应的所述分类标签,训练所述文本分类模型;其中,所述文本分类模型用于识别目标语句的风险程度。
在一个实施例中,所述粒度特征包括以下至少一项:
各所述样本切片在所述样本语句中的风险语句中的第一风险概率;
各所述样本切片在所述样本语句中的第二风险概率;
各所述样本切片在所述样本语句中的非风险语句中的第三风险概率;
各所述样本切片在所述样本语句中的数量;
各所述样本切片在所述风险语句中的数量;
各所述样本切片在所述非风险语句中的数量;
各所述样本切片的切片类型,所述切片类型包括仅包含于所述风险语句中的第一类切片、仅包含于所述非风险语句中的第二类切片、同时包含于所述风险语句及所述非风险语句中的第三类切片中的至少一项。
在一个实施例中,所述装置还包括:
第二确定模块,用于当所述粒度特征包括所述第一风险概率时,在所述根据各所述样本切片的粒度特征确定各所述样本语句的语句特征之前,确定各所述样本切片在各所述样本语句中的重要程度;
加权模块,用于将所述重要程度作为所述第一风险概率的权值对所述第一风险概率进行加权处理,得到各所述样本切片在所述风险语句中的第一加权风险概率。
在一个实施例中,所述第一确定模块包括:
第一确定单元,用于针对其中任一所述样本语句,确定所述样本语句包含的至少一个所述样本切片;
第一计算单元,用于计算各所述样本切片的粒度特征的综合参数值;其中,所述综合参数值包括平均值、标准差、方差中的至少一项;
第二确定单元,用于确定所述综合参数值为所述样本语句的语句特征。
在一个实施例中,所述第一切分模块包括:
第三确定单元,用于确定对所述样本语句进行切分的切分长度;
切分单元,用于按照所述切分长度,并利用N-gram算法对所述样本语句进行切分。
在一个实施例中,所述装置还包括:
第二切分模块,用于对所述目标语句进行切分,得到所述目标语句对应的至少一个目标切片;
第二确定模块,用于确定各所述目标切片的粒度特征;及,根据所述目标切片的粒度特征确定所述目标语句的语句特征;
第一识别模块,用于将所述目标语句的语句特征作为所述文本分类模型的输入,识别出所述目标语句的风险概率。
在一个实施例中,所述装置还包括:
抽取模块,用于按照预设抽取规则,从所述样本语句中抽取多个待识别语句;其中,所述预设抽取规则包括随机抽取、按风险类型进行抽取中的至少一项;
第二识别模块,用于利用所述文本分类模型对所述待识别语句的风险程度进行识别;
判断模块,用于判断对所述待识别语句的风险程度的识别结果是否正确;
更新模块,用于根据判断结果更新所述文本分类模型。
再一方面,本说明书一个或多个实施例提供一种文本的风险识别设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取用于训练文本分类模型的多个样本语句;其中,各所述样本语句分别对应有各自的分类标签,所述分类标签用于表示所述样本语句是否为风险语句;
对所述样本语句进行切分,得到多个样本切片,所述样本切片包括单词及非词;
确定各所述样本切片的粒度特征,根据各所述样本切片的粒度特征确定各所述样本语句的语句特征;
根据各所述样本语句的语句特征及所述样本语句对应的所述分类标签,训练所述文本分类模型;其中,所述文本分类模型用于识别目标语句的风险程度。
再一方面,本申请实施例提供一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取用于训练文本分类模型的多个样本语句;其中,各所述样本语句分别对应有各自的分类标签,所述分类标签用于表示所述样本语句是否为风险语句;
对所述样本语句进行切分,得到多个样本切片,所述样本切片包括单词及非词;
确定各所述样本切片的粒度特征,根据各所述样本切片的粒度特征确定各所述样本语句的语句特征;
根据各所述样本语句的语句特征及所述样本语句对应的所述分类标签,训练所述文本分类模型;其中,所述文本分类模型用于识别目标语句的风险程度。
采用本说明书一个或多个实施例的技术方案,通过对所获取到的样本语句进行切分,得到多个样本切片(包括单词及非词),并确定各样本切片的粒度特征,进而根据各样本切片的粒度特征确定各样本语句的语句特征,再根据各样本语句的语句特征及样本语句对应的分类标签训练文本分类模型,使得所训练的文本分类模型能够用于识别目标语句的风险程度。可见,该技术方案在训练文本分类模型时,并非仅对样本语句中的单词进行切分,还能够切分出样本语句中的非词,从而使得训练得到的文本分类模型能够识别出不属于单词类的风险词,例如同音不同字的风险变种词,因此大大提高了识别风险语句的准确率及召回率。
具体实施方式
本说明书一个或多个实施例提供一种文本的风险识别方法及装置,用以提高文本风险识别的准确率及召回率。
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书一个或多个实施例保护的范围。
图1是根据本说明书一实施例的一种文本的风险识别方法的示意性流程图,如图1所示,该方法包括:
S102,获取用于训练文本分类模型的多个样本语句。
其中,各所述样本语句分别对应有各自的分类标签,该分类标签用于表示样本语句是否为风险语句。
分类标签的表征方式不限,例如,分类标签采用“有风险”和“无风险”的文字形式表示;或者,分类标签采用“passed”和“unpassed”的字符形式表示,其中,标签“passed”表示对应的样本语句没有风险,“unpassed”表示对应的样本语句属于风险语句;再或者,分类标签采用“黑”和“白”的文字形式表示,其中,标签“白”表示对应的样本语句没有风险,“黑”表示对应的样本语句属于风险语句;等等。
S104,对样本语句进行切分,得到多个样本切片,样本切片包括单词及非词。
其中,非词指与单词相对的、不构成词语的字或字的组合,例如,在样本语句“我爱北京天安门”中,样本切片“北京”属于单词,而样本切片“京天”则属于非词。
S106,确定各样本切片的粒度特征,根据各样本切片的粒度特征确定各样本语句的语句特征。
S108,根据各样本语句的语句特征及样本语句对应的分类标签,训练文本分类模型。
其中,文本分类模型用于识别目标语句的风险程度。
采用本说明书一个或多个实施例的技术方案,通过对所获取到的样本语句进行切分,得到多个样本切片(包括单词及非词),并确定各样本切片的粒度特征,进而根据各样本切片的粒度特征确定各样本语句的语句特征,再根据各样本语句的语句特征及样本语句对应的分类标签训练文本分类模型,使得所训练的文本分类模型能够用于识别目标语句的风险程度。可见,该技术方案在训练文本分类模型时,并非仅对样本语句中的单词进行切分,还能够切分出样本语句中的非词,从而使得训练得到的文本分类模型能够识别出不属于单词类的风险词,例如同音不同字的风险变种词,因此大大提高了识别风险语句的准确率及召回率。
以下详细说明上述实施例提高的文本的风险识别方法。
首先获取用于训练文本分类模型的多个样本语句。其中,样本语句包括风险语句和非风险语句。具体的,可通过在PAI(云机器学习算法)平台上查询ODPS(Open DataProcessing Service,原文链接)的方式获取样本语句,包括在线或离线的人工打标数据。其中,人工打标数据指由人工添加分类标签的语句。根据样本语句的分类标签,可将样本语句划分为黑样本(即属于风险语句的样本语句)和白样本(即属于非风险语句的样本语句)。
在一个实施例中,获取到多个样本语句后,为保证后续训练文本分类模型的准确度,可对多个样本语句进行清洗,以删除其中不合格的样本语句。例如,某个样本语句对应的分类标签同时包含表示有风险的黑标签和表示无风险的白标签,则说明该样本语句的分类标签准确度较低,可删除该样本语句。
获取到样本语句之后,对样本语句进行切分,得到多个样本切片其,其中,样本切片包括单词及非词。
在一个实施例中,可采用N-gram算法对样本语句进行切分。首先确定对样本语句进行切分的切分长度,即N-gram算法中的N值,然后按照切分长度、并利用N-gram算法对样本语句进行切分。
例如,采用N-gram算法对样本语句“我爱北京天安门”进行切分,假设N=3,即切分长度为3,那么切分后得到的样本切片包括“我爱北”、“爱北京”、“北京天”、“京天安”及“天安门”。显然,其中的样本切片既包括词语“天安门”,还包括非词“我爱北”、“爱北京”、“北京天”及“京天安”。
由此可知,本实施例由于N-gram算法能够更好地捕捉文本上下文的信息,且不关注文本段是否真的是一个“自然词”,因此,能够更好地切分出各类风险词,避免对一些风险变种词的忽略。
然后确定各样本切片的粒度特征。其中,各样本切片的粒度特征包括以下至少一项:
(1)各样本切片在样本语句中的风险语句中的第一风险概率;
(2)各样本切片在样本语句中的第二风险概率;
(3)各样本切片在样本语句中的非风险语句中的第三风险概率;
(4)各样本切片在样本语句中的数量;
(5)各样本切片在风险语句中的数量;
(6)各样本切片在非风险语句中的数量;
(7)各样本切片的切片类型,切片类型包括仅包含于风险语句中的第一类切片、仅包含于非风险语句中的第二类切片、同时包含于风险语句及非风险语句中的第三类切片中的至少一项。
在一个实施例中,当粒度特征包括第一风险概率时,可先确定各样本切片在各样本语句中的重要程度,然后将该重要程度作为第一风险概率的权值对第一风险概率进行加权处理,得到各样本切片在风险语句中的第一加权风险概率。进而,再利用包括该第一加权风险概率的粒度特征确定样本语句的语句特征。
下面先说明如何确定样本切片的第一加权风险概率。
首先确定样本切片在样本语句中的风险语句中的第一风险概率(可称之为黑概率)。本实施例中,采用NBR(即ngram black rate)表示样本切片的第一风险概率,那么,黑概率NBR可采用下述公式(1)来表述:
其中,NBR(t)表示样本切片t的黑概率,N表示所有样本语句集合,B表示所有样本语句中的风险语句集合,if(t in s)表示样本切片t是否包含于样本语句s中,显然,if(tin s)的值为0或1,当样本切片t包含于样本语句s中时,if(t in s)的值为1;当样本切片t不包含于样本语句s中时,if(t in s)的值为0。
然后确定样本切片在各样本语句中的重要程度。这里采用“term重要度”来表示样本切片在各样本语句中的重要程度。在确定term重要度时,首先要从所有样本语句中确定出相似样本语句集,且这些相似样本语句中包含相同的term。
因此,可采用下述公式(2)来表示“term重要度”:
其中,score(term,context)表示样本切片term在样本语句context中的term重要度,n为相似样本语句集中所包含的样本语句的数量,p(s|context)表示样本语句s与样本语句context的相似程度。if(term in s)表示样本切片term是否包含于样本语句s中,显然,if(term in s)的值为0或1,当样本切片term包含于样本语句s中时,if(term in s)的值为1;当样本切片term不包含于样本语句s中时,if(term in s)的值为0。
然后,将term重要度作为第一风险概率的权值对第一风险概率进行加权处理,得到如下公式(3)所示的第一加权风险概率:
其中,NBR_termwei(t)表示样本切片t的第一加权风险概率,N表示所有样本语句集合,B表示所有样本语句中的风险语句集合,topNBR_n(s)表示样本语句s中最重要的n个样本切片,其中,n的值可预先设定为任一正整数。例如,n=3,那么topNBR_3(s)就表示样本语句s中最重要的3个样本切片,即样本语句s中term重要度的值排在前3位的样本切片。if(t in topNBR_n(s))表示样本切片t是否属于样本语句s中最重要的n个样本切片之一。若样本切片t属于样本语句s中最重要的n个样本切片之一,则if(t in topNBR_n(s))的值为1;若样本切片t不属于样本语句s中最重要的n个样本切片之一,则if(t in topNBR_n(s))的值为0。
例如,对于样本切片a和样本切片b。其中,样本切片a包含于2000个风险语句中,其中有1800个风险语句,因此,样本切片a的未加权的风险概率为1800/2000=0.9。样本切片b包含于200个风险语句中,其中有180个风险语句,因此,样本切片b的未加权的风险概率为180/200=0.9。可见,样本切片a和样本切片b的风险概率相等,若不对风险概率进行加权,便会直接认为样本切片a和样本切片b的风险程度一致,但实际上由于样本切片a存在于1800个风险语句中,这相比于样本切片b所存在的风险语句数量大的多,说明样本切片a的重要程度大大高于样本切片b。因此,通过样本切片的重要程度对样本切片的风险概率进行加权处理,即可将样本切片a和样本切片b的风险概率区分开,从而避免样本语句的分类标签的有偏分布。
可见,本实施例中,通过term重要度对样本切片的第一风险概率进行加权处理,使得样本语句中各样本切片的风险概率更加准确,大大减少了样本语句中的噪声,抑制了样本语句的分类标签的有偏分布。
上述实施例详细说明了样本切片的第一风险概率的计算方法。当样本切片的粒度特征包含其他特征(如第二风险概率、第三风险概率等)时。各粒度特征的确定方法与上述实施例类似,在此不一一赘述。
表1列举了几个样本切片term的一些粒度特征。其中,wc(whitecount)表示样本切片term在白样本(即非风险语句)中的第一数量,bc(blackcount)表示样本切片term在黑样本(即风险语句)中的第二数量,pbc表示样本切片term仅在黑样本中的第三数量,即第二数量与第一数量的差。ba表示样本切片term在黑样本中的风险概率,即黑概率。pba表示样本切片term仅在黑样本中的风险概率,即纯黑概率。br1为样本切片term的黑概率所对应的加权概率,br2为样本切片term的纯黑概率所对应的加权概率。
表1
term |
wc |
bc |
pbc |
ba |
pba |
br1 |
br2 |
即可领 |
68 |
1817 |
1749 |
0.958839 |
0.922955 |
3.011231 |
2.99678 |
微信看 |
39 |
1055 |
1016 |
0.955616 |
0.92029 |
2.775236 |
2.761215 |
上满了 |
114 |
1065 |
951 |
0.895711 |
0.799832 |
2.464268 |
2.429162 |
力鸡有 |
3 |
359 |
356 |
0.965054 |
0.956989 |
2.382999 |
2.380758 |
加我微 |
131 |
1012 |
881 |
0.87771 |
0.764094 |
2.355844 |
2.315448 |
微下面 |
3 |
332 |
329 |
0.962319 |
0.953623 |
2.338337 |
2.335929 |
确定各样本切片的粒度特征之后,根据各样本切片的力度特征确定各样本语句的语句特征。
在一个实施例中,可采用如下方式确定各样本语句的语句特征:针对其中任一样本语句,首先确定样本语句包含的至少一个样本切片,然后计算各样本切片的粒度特征的综合参数值;其中,综合参数值包括平均值、标准差、方差中的至少一项;进而确定该综合参数值为样本语句的语句特征。
例如,某一样本语句中包含样本切片a、b、c,且样本切片a、b、c的粒度特征分别为f(a)、f(b)、f(c),那么计算f(a)、f(b)、f(c)的综合参数值,将该综合参数值确定为样本语句的语句特征。若综合参数值为平均值,则[f(a)+f(b)+f(c)]/3即为该样本语句的语句特征。
然后,根据各样本语句的语句特征及样本语句对应的分类标签,并利用GBDT/SVM等算法,训练文本分类模型。
在一个实施例中,利用文本分类模型识别目标语句时,首先对目标语句进行切分,得到目标语句对应的至少一个目标切片;然后确定各目标切片的粒度特征,并根据目标切片的粒度特征确定目标语句的语句特征;进而将目标语句的语句特征作为文本分类模型的输入,以识别出目标语句的风险概率。
本实施例中,目标切片的粒度特征与上述实施例中样本切片的粒度特征的确定方法类似,且目标语句的语句特征与上述实施例中样本语句的语句特征的确定方法类似,在此不一一赘述。
利用本实施例的文本分类方法对目标语句进行识别时,能够将目标语句中的风险变种词识别出来。例如,目标语句为“加我抠抠”,假设风险词为“QQ”。若采用传统的文本识别方法,则无法识别出目标语句中的“抠抠”,但若采用本实施例提供的文本的风险识别方法,则必然能识别出目标语句中的风险变种词“抠抠”。
在一个实施例中,训练文本分类模型之后,可按照预设抽取规则,从样本语句中抽取多个待识别语句,然后利用文本分类模型对待识别语句的风险程度进行识别,并判断对待识别语句的风险程度的识别结果是否正确,然后根据判断结果更新文本分类模型。其中,预设抽取规则包括随机抽取、按风险类型进行抽取中的至少一项。
本实施例中,为避免黑样本和白样本的比例悬殊(如黑白样本的比例超过1:100)以及人工标注的样本语句的噪声数据偏多的情况,可从获取到的大量样本语句中进行抽取,并利用抽取到的样本语句对文本分类模型进行迭代、评估。通过多次迭代及评估,可使文本分类模型的识别准确率得到提高,进而提高后续识别文本风险的准确率及召回率。
综上,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
以上为本说明书一个或多个实施例提供的文本的风险识别方法,基于同样的思路,本说明书一个或多个实施例还提供一种文本的风险识别装置。
图2是根据本说明书一实施例的一种文本的风险识别装置的示意性框图,如图2所示,文本的风险识别装置200包括:
获取模块210,用于获取用于训练文本分类模型的多个样本语句;其中,各样本语句分别对应有各自的分类标签,分类标签用于表示样本语句是否为风险语句;
第一切分模块220,用于对样本语句进行切分,得到多个样本切片,样本切片包括单词及非词;
第一确定模块230,用于确定各样本切片的粒度特征,根据各样本切片的粒度特征确定各样本语句的语句特征;
训练模块240,用于根据各样本语句的语句特征及样本语句对应的分类标签,训练文本分类模型;其中,文本分类模型用于识别目标语句的风险程度。
在一个实施例中,粒度特征包括以下至少一项:
各样本切片在样本语句中的风险语句中的第一风险概率;
各样本切片在样本语句中的第二风险概率;
各样本切片在样本语句中的非风险语句中的第三风险概率;
各样本切片在样本语句中的数量;
各样本切片在风险语句中的数量;
各样本切片在非风险语句中的数量;
各样本切片的切片类型,切片类型包括仅包含于风险语句中的第一类切片、仅包含于非风险语句中的第二类切片、同时包含于风险语句及非风险语句中的第三类切片中的至少一项。
在一个实施例中,装置200还包括:
第二确定模块,用于当粒度特征包括第一风险概率时,在根据各样本切片的粒度特征确定各样本语句的语句特征之前,确定各样本切片在各样本语句中的重要程度;
加权模块,用于将重要程度作为第一风险概率的权值对第一风险概率进行加权处理,得到各样本切片在风险语句中的第一加权风险概率。
在一个实施例中,第一确定模块230包括:
第一确定单元,用于针对其中任一样本语句,确定样本语句包含的至少一个样本切片;
第一计算单元,用于计算各样本切片的粒度特征的综合参数值;其中,综合参数值包括平均值、标准差、方差中的至少一项;
第二确定单元,用于确定综合参数值为样本语句的语句特征。
在一个实施例中,第一切分模块220包括:
第三确定单元,用于确定对样本语句进行切分的切分长度;
切分单元,用于按照切分长度,并利用N-gram算法对样本语句进行切分。
在一个实施例中,装置200还包括:
第二切分模块,用于对目标语句进行切分,得到目标语句对应的至少一个目标切片;
第二确定模块,用于确定各目标切片的粒度特征;及,根据目标切片的粒度特征确定目标语句的语句特征;
第一识别模块,用于将目标语句的语句特征作为文本分类模型的输入,识别出目标语句的风险概率。
在一个实施例中,装置200还包括:
抽取模块,用于按照预设抽取规则,从样本语句中抽取多个待识别语句;其中,预设抽取规则包括随机抽取、按风险类型进行抽取中的至少一项;
第二识别模块,用于利用文本分类模型对待识别语句的风险程度进行识别;
判断模块,用于判断对待识别语句的风险程度的识别结果是否正确;
更新模块,用于根据判断结果更新文本分类模型。
采用本说明书一个或多个实施例的装置,通过对所获取到的样本语句进行切分,得到多个样本切片(包括单词及非词),并确定各样本切片的粒度特征,进而根据各样本切片的粒度特征确定各样本语句的语句特征,再根据各样本语句的语句特征及样本语句对应的分类标签训练文本分类模型,使得所训练的文本分类模型能够用于识别目标语句的风险程度。可见,该技术方案在训练文本分类模型时,并非仅对样本语句中的单词进行切分,还能够切分出样本语句中的非词,从而使得训练得到的文本分类模型能够识别出不属于单词类的风险词,例如同音不同字的风险变种词,因此大大提高了识别风险语句的准确率及召回率。
本领域的技术人员应可理解,上述文本的风险识别装置能够用来实现前文所述的文本的风险识别方法,其中的细节描述应与前文方法部分描述类似,为避免繁琐,此处不另赘述。
基于同样的思路,本说明书一个或多个实施例还提供一种文本的风险识别设备,如图3所示。文本的风险识别设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器301和存储器302,存储器302中可以存储有一个或一个以上存储应用程序或数据。其中,存储器302可以是短暂存储或持久存储。存储在存储器302的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对文本的风险识别设备中的一系列计算机可执行指令。更进一步地,处理器301可以设置为与存储器302通信,在文本的风险识别设备上执行存储器302中的一系列计算机可执行指令。文本的风险识别设备还可以包括一个或一个以上电源303,一个或一个以上有线或无线网络接口304,一个或一个以上输入输出接口305,一个或一个以上键盘306。
具体在本实施例中,文本的风险识别设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对文本的风险识别设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取用于训练文本分类模型的多个样本语句;其中,各所述样本语句分别对应有各自的分类标签,所述分类标签用于表示所述样本语句是否为风险语句;
对所述样本语句进行切分,得到多个样本切片,所述样本切片包括单词及非词;
确定各所述样本切片的粒度特征,根据各所述样本切片的粒度特征确定各所述样本语句的语句特征;
根据各所述样本语句的语句特征及所述样本语句对应的所述分类标签,训练所述文本分类模型;其中,所述文本分类模型用于识别目标语句的风险程度。
可选地,
所述粒度特征包括以下至少一项:
各所述样本切片在所述样本语句中的风险语句中的第一风险概率;
各所述样本切片在所述样本语句中的第二风险概率;
各所述样本切片在所述样本语句中的非风险语句中的第三风险概率;
各所述样本切片在所述样本语句中的数量;
各所述样本切片在所述风险语句中的数量;
各所述样本切片在所述非风险语句中的数量;
各所述样本切片的切片类型,所述切片类型包括仅包含于所述风险语句中的第一类切片、仅包含于所述非风险语句中的第二类切片、同时包含于所述风险语句及所述非风险语句中的第三类切片中的至少一项。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
当所述粒度特征包括所述第一风险概率时,在所述根据各所述样本切片的粒度特征确定各所述样本语句的语句特征之前,确定各所述样本切片在各所述样本语句中的重要程度;
将所述重要程度作为所述第一风险概率的权值对所述第一风险概率进行加权处理,得到各所述样本切片在所述风险语句中的第一加权风险概率。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
针对其中任一所述样本语句,确定所述样本语句包含的至少一个所述样本切片;
计算各所述样本切片的粒度特征的综合参数值;其中,所述综合参数值包括平均值、标准差、方差中的至少一项;
确定所述综合参数值为所述样本语句的语句特征。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
确定对所述样本语句进行切分的切分长度;
按照所述切分长度,并利用N-gram算法对所述样本语句进行切分。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
对所述目标语句进行切分,得到所述目标语句对应的至少一个目标切片;
确定各所述目标切片的粒度特征;及,根据所述目标切片的粒度特征确定所述目标语句的语句特征;
将所述目标语句的语句特征作为所述文本分类模型的输入,识别出所述目标语句的风险概率。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
按照预设抽取规则,从所述样本语句中抽取多个待识别语句;其中,所述预设抽取规则包括随机抽取、按风险类型进行抽取中的至少一项;
利用所述文本分类模型对所述待识别语句的风险程度进行识别;
判断对所述待识别语句的风险程度的识别结果是否正确;
根据判断结果更新所述文本分类模型。
本说明书一个或多个实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行上述文本的风险识别方法,并具体用于执行:
获取用于训练文本分类模型的多个样本语句;其中,各所述样本语句分别对应有各自的分类标签,所述分类标签用于表示所述样本语句是否为风险语句;
对所述样本语句进行切分,得到多个样本切片,所述样本切片包括单词及非词;
确定各所述样本切片的粒度特征,根据各所述样本切片的粒度特征确定各所述样本语句的语句特征;
根据各所述样本语句的语句特征及所述样本语句对应的所述分类标签,训练所述文本分类模型;其中,所述文本分类模型用于识别目标语句的风险程度。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的权利要求范围之内。