发明内容
本说明书一个或多个实施例描述了一种计算机执行的文本风险预测的方法和装置,用于利用更多方面、更多层次的数据,对于待预测文本的关键词、预定词性的词等进行各种可能的挖掘,从而可以提高文本风险预测的准确性。
根据第一方面,提供了一种计算机执行的文本风险预测方法,包括:获取第一文本;通过预先训练的第一模型基于预设的候选词集提取所述第一文本的关键词,并基于所提取的关键词确定所述第一文本的关键词特征,其中,所述候选词集基于预设黑名单中的至少一个风险词确定;通过预先训练的第二模型,为所述第一文本中的词汇标注词性,并基于词性标注结果生成所述第一文本的词性相关特征,所述词性相关特征用于表征与词性相关的风险概率;对所述第一文本中的关键词和/或预定词性的词进行扩展,得到至少一个扩展词,并基于各个扩展词与所述至少一个风险词的匹配生成所述第一文本的扩展特征;至少基于所述关键词特征、所述词性相关特征及所述扩展特征,通过预先训练的预测模型预测所述第一文本的风险性。
在一个实施例中,所述获取第一文本之后,所述方法还包括:对所述第一文本进行分词、去除停用词处理,得到至少一个备选词汇。
在一个实施例中,所述通过预先训练的第一模型提取所述第一文本的关键词包括:将所述至少一个备选词汇输入所述第一模型,以供所述第一模型输出各个备选词汇对应的关键词概率,所述关键词概率表示相应备选词汇与所述候选词集中的候选词的相关性;按照各个关键词概率由大到小的顺序确定所述第一文本的关键词。
在一个实施例中,基于所提取的关键词确定所述第一文本的关键词特征包括以下中的一项:将所提取到的关键词所对应的关键词概率中,数值最大的关键词概率确定为所述第一文本的关键词特征;将所提取到的关键词所对应的关键词概率之和,确定为所述第一文本的关键词特征。
在一个实施例中,所述候选词集通过以下方式确定:获取与预设黑名单中的第一风险词相匹配的多个文本;将所述多个文本作为第一训练语料,从中提取至少一个第一关键词,并将所述至少一个第一关键词作为候选词加入所述候选词集。
在一个实施例中,所述候选词集中的各个候选词还对应有词权重,作为候选词的所述第一关键词对应的第一词权重通过以下方式确定:获取各个第一关键词在所述第一训练语料中的出现频次;将各个第一关键词的出现频次进行归一化处理,得到各个第一关键词的词权重,所述词权重与所述出现频次正相关,用于表示各个第一关键词与所述第一风险词的相关性。
在一个实施例中,词性相关特征包括词性统计特征,基于词性标注结果生成所述第一文本的词性相关特征包括:根据所述标注结果获取各预定词性词汇以及各预定词性词汇在所述第一文本中对应的出现频次;至少基于各预定词性词汇对应的出现频次,生成所述第一文本的词性统计特征。
在一个实施例中,各预定词性分别对应有预先确定的各个词性权重,其中,所述词性权重用于表示相应预定词性词汇的风险概率;以及,所述至少基于所述第一预定词性词汇对应的出现频次,生成所述第一文本的词性统计特征包括:基于各预定词性词汇的出现频次确定各预定词性在所述第一文本中的归一化系数;按照各个词性权重,对各预定词性词汇的归一化系数求加权和,以作为所述第一文本的词性特征。
在一个实施例中,所述词性相关特征包括词性位置特征,所述标注结果包括被标注第一词性的第一标注词汇;所述基于词性标注结果生成所述第一文本的词性相关特征包括:确定所述第一标注词汇在所述第一文本中的第一出现位置;将所述第一词性和所述第一出现位置输入预先训练的第三模型,根据所述第三模型的输出结果确定所述第一标注词汇是风险词的概率;将所述标注结果中各预定词性词汇是风险词的概率之和作为所述第一文本的词性位置特征。
在一个实施例中,所述第三模型通过以下方式训练:从训练语料中获取标注有词性的多个样本词,其中各个样本词分别对应有在训练语料中所在语句的相对位置,以及风险词或非风险词的标签;将各个样本词对应的词性及在训练语料中所在语句的相对位置分别输入选定的模型,并按照对应的风险词或非风险词的标签调整模型参数,以确定所述第三模型。
在一个实施例中,所述第一文本中的关键词和/或预定词性的词包括第一词汇;以及,所述对所述第一文本中的关键词和/或预定词性的词进行扩展,得到至少一个扩展词包括以下至少一项:通过词向量算法确定所述第一词汇的第一词向量,并从扩展语料中选择词向量与所述第一词向量的相似度在预定相似度范围内的词汇,作为所述第一词汇的扩展词汇,其中,所述扩展词汇的个数不超过预定个数;将所述第一词汇的同义词、近义词、改写词作为所述第一词汇的扩展词汇。
在一个实施例中,所述至少一个扩展词汇包括所述第一词汇对应的第一扩展词汇;所述基于各个扩展词与所述至少一个风险词的匹配生成所述第一文本的扩展特征包括:将所述第一扩展词与所述至少一个风险词的匹配分值确定为所述第一文本的第一扩展特征,其中,所述匹配分值基于以下中的至少一项确定:语义相似度、字符匹配度、编辑距离、哈希匹配度分值。
在一个实施例中,所述方法还包括:在所述第一文本的风险性满足预定条件的情况下,生成人工审理任务。
在一个实施例中,所述方法还包括:接收用户对所述人工审理任务的审理结果;根据所述审理结果,更新所述预测模型。
根据第二方面,提供一种文本风险预测的装置,包括:获取单元,配置为获取第一文本;第一确定单元,配置为通过预先训练的第一模型基于预设的候选词集提取所述第一文本的关键词,并基于所提取的关键词确定所述第一文本的关键词特征,其中,所述候选词集基于预设黑名单中的至少一个风险词确定;第二确定单元,配置为通过预先训练的第二模型,为所述第一文本中的词汇标注词性,并基于词性标注结果生成所述第一文本的词性相关特征,所述词性相关特征用于表征与词性相关的风险概率;第三确定单元,配置为对所述第一文本中的关键词和/或预定词性的词进行扩展,得到至少一个扩展词,并基于各个扩展词与所述至少一个风险词的匹配生成所述第一文本的扩展特征;预测单元,配置为至少基于所述关键词特征、所述词性相关特征及所述扩展特征,通过预先训练的预测模型预测所述第一文本的风险性。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的计算机执行的文本风险预测方法和装置,在获取待预测文本后,一方面,对文本的关键词分析关键词特征,对文本中的词分析词性相关特征;另一方面,对文本中的重要词汇进行挖掘,从而得到更多的相关词汇,生成扩展特征。进一步地,对文本的关键词特征、词性相关特征以及扩展特征综合分析,以确定文本的风险性。如此,可以利用更多层面的数据分析文本,可以提高文本风险预测的准确性。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1是本说明书实施例的一个示例性架构。在该示例性架构中,终端设备和服务器通过网络进行通信。其中,终端设备可以是智能手机、笔记本电脑、台式计算机等等。终端设备上可以安装有各种客户端应用。服务器可以是为各种客户端应用提供支持的后台服务器。用户可以通过终端设备上运行的客户端应用与服务端进行交互。
具体地,在一个应用场景中,上述客户端应用例如可以是聊天工具类应用(如QQ等),也可以是社交平台应用(如微博等),还可以是金融平台类应用等等。用户可以通过客户端应用发布或传递文本信息。客户端应用运行于其上的终端设备,或者为相应客户端应用提供支持的后台服务器的计算平台,可以对用户待发布或传递的文本进行风险预测。
上述计算平台获取上述文本后,一方面,可以先通过预先训练的第一模型基于预设的候选词集提取上述文本的关键词,并基于所提取的关键词确定上述文本的关键词特征;另一方面,可以通过预先训练的第二模型,为上述文本中的各个词标注词性,并基于词性标注结果生成上述文本的词性相关特征。进一步地,对于以上得到的关键词,以及词性标注结果,可以对其中的关键词和/或预定词性的词进行扩展,得到至少一个扩展词,并基于该至少一个扩展词与至少一个风险词的匹配生成上述文本的扩展特征。然后,可以将关键词特征、词性相关特征及扩展特征,输入预先训练的预测模型,以预测上述文本的风险性。如此,对于风险性较大的文本,可以禁止发布或传递,从而实现对互联网的文本环境进行监控,避免传递违禁信息或敏感信息。
图2示出根据一个实施例的计算机执行的文本风险预测方法流程图。该方法的执行主体可以是任何具有计算、处理能力的系统、设备、装置、平台或服务器,例如图1所示的服务器等。
如图2示,该方法包括以下步骤:步骤21,获取第一文本;步骤22,通过预先训练的第一模型基于预设的候选词集提取第一文本的关键词,并基于所提取的关键词确定第一文本的关键词特征,其中,候选词集基于预设黑名单中的至少一个风险词确定;步骤23,通过预先训练的第二模型,为第一文本中的词汇标注词性,并基于词性标注结果生成第一文本的词性相关特征,词性相关特征用于表征与词性相关的风险概率;步骤24,对第一文本中的关键词和/或预定词性的词进行扩展,得到至少一个扩展词,并基于至少一个扩展词与至少一个风险词的匹配生成第一文本的扩展特征;步骤25,至少基于上述关键词特征、词性相关特征及扩展特征,通过预先训练的预测模型预测第一文本的风险性。
首先,在步骤21中,获取待预测的第一文本。可以理解,这里所说的第一文本,可以是需要预测风险性的任一个文本。该第一文本例如可以是一句话,也可以是一篇文章,等等。
在一个实施例中,获取第一文本之后,还可以先对其进行分词、去停用词处理。分词,就是把文本中的字符分成一个一个的词。例如,对于文本“Knowledge is power”,可以按空格分割成“Knowledge”、“is”、“power”这样的词,对于文本“知识就是力量”,可以通过预先训练的词典分割得到“知识”、“就”、“是”、“就是”、“力量”之类的词。接着,去除“is”、“就”、“是”之类的停用词,得到“Knowledge、power”或者“知识、力量”这样的词汇。
可以理解,由于分词、去除停用词之后只剩下第一文本的有效词汇,在后续处理中,只使用有效词汇可以大大减少数据处理量。因此,在一些实施例中,可以仅将第一文本分词、去除停用词之后的词汇作为处理对象进行后续处理。为了描述方便,我们也可以将这些词汇称为备选词汇。
在获取上述第一文本后,一方面,在步骤22,通过预先训练的第一模型基于预设的候选词集提取第一文本的关键词,并基于所提取的关键词确定第一文本的关键词特征。其中,关键词特征可以是用于描述第一文本的词汇的语义倾向的特征。
这里,候选词集可以包括多个候选词。候选词的选择可以通过图3所示的方式进行:步骤31,获取与预设黑名单中的第一风险词相匹配的多个文本;步骤32,将多个文本作为第一训练语料,从中提取至少一个第一关键词,并将所提取的关键词加入候选词集。其中,黑名单可以包括预先确定的多个风险词。这些风险词例如可以是违禁词(如包含违法内容的词)、也可能是名称(如恐怖组织名称)等等。
可以理解,训练语料库可以包括数量庞大(如1亿条)的文本。对于训练语料库而言,对单个文本提取关键词的意义不是很大。而如果将训练语料库中的所有文本作为一篇训练语料提取关键词,可能无法体现对某个风险词偏向的针对性和关联性,意义也不是很大。因此,在步骤31中,可以针对黑名单中的某个风险词,将该风险词与训练语料库中的各个文本进行匹配,以获取与该风险词相匹配的多个文本。也可以人工标注训练语料库中的各个文本对应的风险词,这里,可以直接获取对应该风险词的多个文本。
进一步地,在步骤32,可以将训练语料库中与同一个风险词对应的多个文本作为一篇训练语料。如训练语料库的一亿条文本中的10万条与违禁词“赌博”相匹配,则将该1万条文本作为一篇训练语料。接着,将同一个风险词对应的多个文本作为一篇训练语料(可以称为第一训练语料),从中提取至少一个关键词(可以对应称为第一关键词),所提取的关键词作为候选词加入候选词集。对于一篇训练语料,可以通过诸如IF-IDF(term frequency-inverse document frequency,词频-逆频率指数)、文字排名TextRank之类的关键词提取算法从中提取关键词,在此不再赘述。如此,所提取到的关键词与对应的风险词具有相关性。
在一个实施例中,候选词集中的各个候选词还对应有词权重。词权重可以与候选词在训练语料中的出现频次正相关,用于表示各个第一关键词与第一风险词的相关性。可以理解,候选词集可以包括各个风险词对应的文本提取到的关键词。在一个实现中,词权重可以仅表示关键词与对应的风险词的相关性,如,通过与第一风险词相对应的第一训练语料提取的第一关键词,对应的第一词权重通过以下方式确定:获取各个第一关键词在第一训练语料中的出现频次;将各个第一关键词的出现频次进行归一化处理,得到各个第一关键词的词权重。例如“知识”出现50次,“力量”出现10次,则“知识”的词权重可以是“力量”的5倍。假设所有第一关键词的总出现频次为100词,则“知识”对应的词权重可以是50/100=0.5,“力量”对应的词权重可以是,20/100=0.2。在另一个实现中,还可以将从各个风险词对应的文本中提取到的关键词(即所有候选词)统一进行归一化。即对某个候选词,其词权重为该候选词在训练语料库中的出现频次/所有候选词在训练语料库中的出现频次之和。
根据一方面的实施例,第一模型可以是词汇匹配模型,通过将从第一文本中分词得到的备选词汇与候选词集中的候选词进行匹配,提取第一文本的关键词。例如备选词汇中的“知识”与候选词集中的候选词“知识”相匹配,可以将“知识”提取为第一文本中的关键词。在一些实现中,各个候选词对应有词权重,对于备选词汇中与候选词集中的候选词相匹配的多个词,可以按照词权重进行选择,例如匹配到“知识”0.35,“力量”0.2……则从对应词权重最高的词汇选择第一文本的关键词。例如只提取一个关键词,则选择词权重为0.35的“知识”作为关键词,相应的词权重0.35为关键词“知识”的关键词概率。
根据另一方面的实施例,第一模型还可以是根据候选词集训练的分类模型,用于预测各个备选词汇作为关键词的概率。此时,可以将候选词集的各个候选词,作为对应有关键词标签的正样本,其他词作为对应有非关键词标签的负样本训练第一模型。如此,通过第一模型可以预测第一文本中的各个备选词汇是否为与黑名单中的风险词相关的关键词的概率。可选地,可以去概率最高的备选词汇作为第一文本的关键词。
进一步地,在一个实施例中,可以将所提取到的关键词所对应的关键词概率中,数值最大的关键词概率确定为第一文本的关键词特征。在另一个实施例中,可以将所提取到的关键词所对应的关键词概率之和,确定为第一文本的关键词特征。如此,可以从词汇的角度,挖掘第一文本与黑名单中的风险词的相关性。
值得说明的是,虽然尚文仅以从第一文本中提取出备选词汇,通过第一模型提取关键词为例进行了说明,但是在该步骤22中,仍然可能将第一文本直接输入第一模型,预测或匹配其关键词。在一些实施例中,第一模型为匹配模型时,第一文本中的词汇和候选词的匹配还可以有一定的匹配度,第一文本的关键词特征还可以是对匹配度求加权和的结果。例如:第一文本中的词汇A匹配到了候选词K1,匹配度是P1,K1的权重为W1,第一文本中的词汇B匹配到了候选词K2,匹配度是P2,K2的权重为W2,则第一文本的关键词特征可以是P1×W1+P2×W2。
另一方面,通过步骤23,通过预先训练的第二模型,为第一文本中的各个词标注词性,并基于词性标注结果生成第一文本的词性相关特征。这里,第二模型可以是用于标注文本词性的词性标注模型。这里说的词性,可以是广义的词性,可以包括但不限于名词、动词、称谓词(如工程师)、命名体词(如人名等),等等中的一项或多项。这里的词性相关特征可以用于表征第一文本的、与词性相关的风险概率。
在一个实施例中,该词性标注模型例如可以通过以下方法训练:将通过人工标注词性标签的各个词汇作为训练样本,选定一个诸如支持向量机SVM、梯度提升决策树GBDT之类的分类模型,将作为样本的各个词汇依次作为特征输入该初始模型,按照人工标注的词性标签调整模型参数,训练得到第二模型。
在另一个实施例中,将通过人工标注有各个词汇的词性标签的多个文本作为训练样本,选定一个诸如支持向量机SVM、梯度提升决策树GBDT之类的分类模型,将作为样本的各个文本依次输入该选定的模型,根据各个文本中人工标注的词性标签调整模型参数,训练得到第二模型。这样的第二模型不仅可以单独标注各个词的词性,还可以考虑词汇在句子中的位置,词与词之间的依附关系,标注准确度更高。
其中,在一个实施例中,词性相关特征可以包括词性统计特征。该词性统计特征例如可以用于表示预定词性在第一文本中的比重。该比重与相应词性的词汇在第一文本中出现的频次正相关。例如,第一文本中包含2个动词,3个名词,假设动词和名词都是预定词性,则动词所占的比重低于名词所占的比重。
在一个实现中,可以将预定词性的词汇所占的比重作为第一文本的词性统计特征,例如将名词所占比重3/(2+3)作为上述例子的第一文本的词性统计特征。
在另一个实现中,还可以将不同的预定词性词汇出现的频次的比值作为词性统计特征,例如将名词与动词的出现频次的比值3/2作为上述例子的第一文本的名词对应的词性统计特征。
在又一个实现中,各预定词性还可以分别对应有预先确定的各个词性权重。词性权重可以用于表示相应预定词性词汇的风险概率。举例而言,黑名单中共有100个词,其中50个词是名词,则名词的风险概率可以是50%。此时,还可以基于各预定词性词汇的出现频次确定各预定词性在第一文本中的归一化系数,并按照各个词性权重,对各预定词性词汇的归一化系数求加权和,以作为第一文本的词性特征。作为示例,假设预定词性包括名词、形容词和动词,第一文本中名词出现频次为5次,形容词为4次,动词为1次。则名词对应的归一化系数可以为5/(5+4+1)=0.5,同理,形容词的归一化系数为0.4,动词的归一化系数为0.1。假设名词、形容词、动词的词性权重分别为:w1、w2、w3,则第一文本的词性统计特征可以是0.5w1+0.4w2+0.1w3。
如果第二模型在标注词性时,仅仅考虑单个词的词性,还可以进一步检测所标注的各个词性的词汇在文本中的位置,如句首、句中、句尾等等。可以理解,各个词性的词汇在文本中的不同位置,其风险度可能不相同。例如称谓词在句首,该称谓词是风险词的概率较大,而称谓词在句中,该称谓词是风险词的概率较小。因此,在一个实施例中,词性相关特征还可以包括词性位置特征。
在一个实现中,可以基于各个预定词性的词以及在文本中的出现位置,根据预先训练的第三模型,确定各个预定词性的词是风险词的概率,然后将各个预定词性的词是风险词的概率作为第一文本的词性位置特征。其中,上述第三模型可以通过以下方式训练:从训练语料中获取对应各预定词性的多个词汇作为样本,其中,各预定词性词汇对应有在训练语料中所在语句的相对位置,以及风险词或非风险词的标签;将各个词汇的预定词性及对应的相对位置输入选定的模型,按照对应的风险词或非风险词的标签调整模型参数,以确定第三模型。
综上,第一文本的词性相关特征可以是针对一个预定词性,得到的一个分值,也可以是针对多个预定词性,得到的各个分值组成的向量。
进一步地,通过步骤24,对第一文本中的关键词和/或预定词性的词进行扩展,得到至少一个扩展词,并基于至少一个扩展词与所述至少一个风险词的匹配生成第一文本的扩展特征。可以理解,扩展词是与文本中对应的关键词和/或预定词性的词,在语义、形式中的至少一项上具有相关性。为了描述方便,将待扩展的任一词汇称为第一词汇。该第一词汇是第一文本中的关键词和/或预定词性的词中的词汇。
在一个实施例中,可以按照语义对第一文本中的词汇进行扩展。可以将与第一词汇语义相近的此作为第一词汇对应的扩展词。词与词之间的语义相似关系可以通过预先训练的模型直接确定,也可以通过词向量的相似度确定。以下以通过词向量的相似度确定为例进行说明。可以预先存储有通过训练语料库训练诸如Word2Vec之类的词向量模型。首先,根据该词向量模型确定第一词汇的词向量。然后,在预定相似度范围内检测与第一词汇语义相似的词汇,以作为扩展词汇。也就是说,与第一词汇语义相似的词汇,其词向量与第一词汇的词向量的相似度大于或等于预定相似度。词向量的相似度计算方法例如可以是Jaccard系数、余弦相似度之类的方法。以Jaccard系数为例,假设A向量为[1,0,0,1],B向量为[0,0,1,1],则A向量和B向量都是四维向量,相同维为第二维和第四维,A向量和B向量的相似度可以为:相同维数/总维数=2/(4+4)。可选地,当与第一词汇语义相似的词汇数量较多时,还可以从与第一词汇语义相似的词汇中选择预定个数的词汇作为扩展词汇。
在另一个实施例中,还可以将第一词汇的同义词、近义词、改写词作为第一词汇的扩展词汇。其中同义词、近义词可以根据预先存储的词典确定。扩展词可以是形式、语种之间的扩展。例如第一词汇位“简单”,可以扩展为间单、简丹、jiandan、danjian、ji@nd@n、ji@ndan、JD等等。
进一步地,可以将每个扩展词分别与黑名单中的风险词进行匹配,并得到匹配分值。可以理解,某个扩展词和某个风险词之间的匹配分值,可以用于表示该扩展词与该风险词之间的匹配度,或者相关度。该匹配分值例如可以通过字符匹配度、编辑距离、simhash等等方式来衡量。在一个实现中,可以将各个匹配分值均作为与第一词汇对应的扩展特征。在另一个实现中,还可以将第一词汇的各个扩展词对应的匹配分值中,最高的匹配分值作为与第一词汇对应的扩展特征。在又一个实现中,还可以将第一词汇的各个扩展词对应的匹配分值的和,作为与第一词汇对应的扩展特征。
如此,对于第一文本,各个关键词和/或预定词性的词都可以确定出对应的扩展特征。第一文本的扩展特征可以是各个关键词和/或预定词性的词对应的扩展特征组成的向量,也可以是它们相加的和,在此不做限定。
接着,在步骤25,至少基于上述第一文本的关键词特征、词性相关特征及扩展特征,通过预先训练的预测模型预测第一文本的风险性。其中,预测模型是预先训练好的,也可以是经过初步训练的模型。该预测模型可以对第一文本的风险性进行预测,例如输出结果为第一文本有无风险,或者具体风险度。
预测模型可以是全连接神经网络模型,也可以是决策树模型(如GBDT),在此不做限定。如图4所示,给出了预测模型是决策树的示例。可以理解,在决策树中,每一个节点可以对一个特征进行判断。当该特征满足预定条件时,例如第一文本的关键词特征高于某个阈值,则判断第一文本的风险性为有风险。决策树中的节点还可以设置多个条件或阈值,如图4所示,特征2和特征3对应的节点,假设相应特征为某个分值,当前分值小于较小的阈值时,可以确定为相应文本无风险,当前分值大于较大的阈值时,可以确定相应文本为有风险,当前分值位于较小的阈值和较大的阈值之间时,进入下一节点。其中,各个节点的阈值通过训练确定。如此,在步骤25,利用决策树神经网络,对输入的关键词特征、词性相关特征及扩展特征进行全面关联分析,从而提供分类结果,例如第一文本有风险。
在一个实施例中,预测模型是预先训练好的,也就是说,预测模型经过训练集预先训练,使测试集能够满足设定的准确率(如95%)等条件。此时,训练集可以包括人工标注有风险标签的多个文本作为负样本,以及人工标注无风险标签的多个文本作为负样本。将负样本按照黑名单中的风险词分类,对应于同一个风险词的文本作为一个训练语料,从中提取关键词,确定关键词的词权重(关键词特征),并对该训练语料每一个文本,按照步骤22标注词性,以获取相应文本的词性特征以及词性位置特征。然后按照步骤23对文本中的关键词和/或预定词性的词进行扩展,以获取扩展特征。将这些特征输入选定的模型,按照人工标注的有风险或无风险的标签进行训练,得到预测模型。该实施例中训练预测模型需要较多数量的样本,但预测模型在使用中可以不进行更新。
在另一个实施例中,可以用少量样本训练预测模型,在使用模型预测文本的风险性过程中,根据文本的风险性确定是否需要人工复核。具体地,针对第一文本,可以检测第一文本的风险度是否满足预定条件,在满足预定条件的情况下,生成人工审理任务。这里,预定条件与预测模型的输出结果相关联。例如,预测模型输出的是第一文本的风险度,则预定条件可以是,大于预定风险度阈值(如80%)。再例如,预测模型的输出结果是有风险、无风险这样的分类结果,预定条件可以是其中的一个分类结果,如有风险。人工审理任务,就是需要用户人工进行审核的任务。
根据一种实现方式,在接收到人工审理结果,亦即用户对人工审理任务的审理结果时,根据该审理结果,更新预测模型。如此,相当于在使用过程中不断增加样本对预测模型进行再训练,从而提高预测模型的准确性。
根据另一个实施方式,还可以根据人工审理结果调节预定风险度阈值。例如,在预定时间段(如3天)内产生的人工审理任务,或者连续的预定数量(如500条)的人工审理任务,人工审理结果都是无风险,则可以人工提高风险度阈值。如此,经过不断更新预测模型,人工参与越来越少,进一步节约人工成本。
回顾以上过程,在对文本风险性预测过程中,可以利用更多数据:一方面,对文本的关键词分析关键词特征,对文本中的词分析词性相关特征;另一方面,对文本中的重要词汇进行挖掘,从而得到更多的相关词汇,生成扩展特征。进一步地,对文本的关键词特征、词性相关特征以及扩展特征综合分析,以确定文本的风险性。如此,利用更多层面的数据分析文本,可以提高文本风险预测的准确性。
根据另一方面的实施例,还提供一种文本风险预测装置。图5示出根据一个实施例的文本风险预测装置的示意性框图。如图5所示,文本风险预测装置500包括:获取单元51,配置为获取第一文本;第一确定单元52,配置为通过预先训练的第一模型基于预设的候选词集提取第一文本的关键词,并基于所提取的关键词确定第一文本的关键词特征,其中,候选词集基于预设黑名单中的至少一个风险词确定;第二确定单元53,配置为通过预先训练的第二模型,为第一文本中的词汇标注词性,并基于词性标注结果生成第一文本的词性相关特征,词性相关特征用于表征与词性相关的风险概率;第三确定单元54,配置为对第一文本中的关键词和/或预定词性的词进行扩展,得到至少一个扩展词,并基于各个扩展词与所述至少一个风险词的匹配生成第一文本的扩展特征;预测单元55,配置为至少基于关键词特征、词性相关特征及扩展特征,通过预先训练的预测模型预测第一文本的风险性。
根据一个可能的设计,装置500还可以包括预处理单元(配置为),配置为:
对所述第一文本进行分词、去除停用词处理,得到至少一个备选词汇。
在一个实施例中,第一确定单元52进一步配置为:
将至少一个备选词汇输入第一模型,以供第一模型输出各个备选词汇对应的关键词概率,关键词概率表示相应备选词汇与候选词集中的候选词的相关性;
按照各个关键词概率由大到小的顺序确定第一文本的关键词。
进一步地,第一确定单元52基于所提取的关键词,通过以下中的一项确定第一文本的关键词特征:
将所提取到的关键词所对应的关键词概率中,数值最大的关键词概率确定为第一文本的关键词特征;
将所提取到的关键词所对应的关键词概率之和,确定为第一文本的关键词特征。
根据一个实施方式,候选词集可以通过以下方式确定:
获取与预设黑名单中的第一风险词相匹配的多个文本;
将多个文本作为第一训练语料,从中提取至少一个第一关键词,并将至少一个第一关键词作为候选词加入候选词集。
进一步地,候选词集中的各个候选词还对应有词权重,作为候选词的第一关键词对应的第一词权重通过以下方式确定:
获取各个第一关键词在第一训练语料中的出现频次;
将各个第一关键词的出现频次进行归一化处理,得到各个第一关键词的词权重,词权重与出现频次正相关,用于表示各个第一关键词与第一风险词的相关性。
根据一方面的实施例,词性相关特征包括词性统计特征,第二确定单元53进一步配置为:
根据标注结果获取各预定词性词汇以及各预定词性词汇在第一文本中对应的出现频次;
至少基于各预定词性词汇对应的出现频次,生成第一文本的词性统计特征。
进一步地,各预定词性分别对应有预先确定的各个词性权重,其中,词性权重用于表示相应预定词性词汇的风险概率;以及
第二确定单元53还可以配置为:
基于各预定词性词汇的出现频次确定各预定词性在第一文本中的归一化系数;
按照各个词性权重,对各预定词性词汇的归一化系数求加权和,以作为第一文本的词性特征。
根据另一方面的实施例,词性相关特征还可以包括词性位置特征,标注结果包括被标注第一词性的第一标注词汇;
第二确定单元53进一步可以配置为:
确定第一标注词汇在第一文本中的第一出现位置;
将第一词性和第一出现位置输入预先训练的第三模型,根据第三模型的输出结果确定第一标注词汇是风险词的概率;
将标注结果中各预定词性词汇是风险词的概率之和作为第一文本的词性位置特征。
进一步地,装置500还可以包括模型训练单元(未示出),配置为通过以下方式训练第三模型:
从训练语料中获取标注有词性的多个样本词,其中各个样本词分别对应有在训练语料中所在语句的相对位置,以及风险词或非风险词的标签;
将各个样本词对应的词性及在训练语料中所在语句的相对位置分别输入选定的模型,并按照对应的风险词或非风险词的标签调整模型参数,以确定第三模型。
在一个实施例中,第一文本中的关键词和/或预定词性的词包括第一词汇;以及
第三确定单元54还可以配置为通过以下至少一项得到至少一个扩展词:
通过词向量算法确定第一词汇的第一词向量,并从扩展语料中选择词向量与第一词向量的相似度在预定相似度范围内的词汇,作为第一词汇的扩展词汇,其中,扩展词汇的个数不超过预定个数;
将第一词汇的同义词、近义词、改写词作为第一词汇的扩展词汇。
在一个实施例中,至少一个扩展词汇包括第一词汇对应的第一扩展词汇;
第三确定单元54还可以配置为:
将第一扩展词与至少一个风险词的匹配分值确定为第一文本的第一扩展特征,其中,匹配分值基于以下中的至少一项确定:语义相似度、字符匹配度、编辑距离、哈希匹配度分值。
在一个实施例中,装置500还可以包括生成单元(未示出),配置为:
在第一文本的风险性满足预定条件的情况下,生成人工审理任务。
在一个实施例中,装置500还可以包括更新单元(未示出),配置为:
接收用户对人工审理任务的审理结果;
根据审理结果,更新上述预测模型。
值得说明的是,图5所示的装置500是与图2示出的方法实施例相对应的装置实施例,图2示出的方法实施例中的相应描述同样适用于装置500,在此不再赘述。
通过以上装置,可以利用更多层面的数据分析文本,通过对文本的关键词特征、词性相关特征以及扩展特征综合分析,来确定文本的风险性,该装置可以提高文本风险预测的准确性。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。