文本审核方法以及装置
技术领域
本说明书涉及文本处理技术领域,特别涉及一种文本审核方法。本说明书同时涉及一种文本审核装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,信息的安全性对于很多人来说变得越来越重要,无论在何种业务当中,都存在对于业务本身很重要的信息,例如在医疗保险审核业务中,参保人的信息相对于提供医疗保险业务的一方就是重要的信息,需要进行风险防控,避免出现泄漏。
现有技术中,在对重要的文本信息进行风险防控的过程中,通常需要通过人工审核的方式来判断文本信息中存在的重要信息的重要程度,并且在对文本信通过人工进行审核的过程中,还能够对文本信息的中存在的非正常信息进行排查,进而可以通过人工方式确定文本信息是否为重要信息,还可以避免文本信息中出现非正常信息的现象。
然而,在通过人工方式对文本信息进行审核的过程中,需要根据不同的业务场景培养不同的人工对该业务维度的文本信息进行审核,这无疑是一笔很大的开销,并且人工审核的方式准确性不是很高,对人工审核人员的专业素养也是有一定要求的,因此,在传统业务维度的文本信息审核过程中,人工审核准确性低,效率不高,而且对于后续的二次审核过程工作量也是巨大的。
发明内容
有鉴于此,本说明书实施例提供了一种文本审核方法。本说明书同时涉及一种文本审核装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种文本审核方法,包括:
获取待审核文本,并确定所述待审核文本所属的业务维度;
基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合;
计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数;
根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合;
将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征;
将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果。
可选的,所述基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合,包括:
通过对所述待审核文本进行分词处理,根据分词处理结果获得所述待审核文本的关键词;
通过对所述关键词进行词性分析,获得与所述业务维度相关联的所述业务关键词;
提取所述业务关键词创建所述业务关键词集合。
可选的,所述计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数,包括:
确定所述关键词集合中包含的每个业务关键词在所述待审核文本中的业务关键词频次,以及所述业务关键词集合中包含的业务关键词的关键词数目;
计算所述业务关键词频次与所述关键词数目二者的比值,作为所述词优化参数。
可选的,所述将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征,包括:
通过所述优选关键词集合中包含的每个业务关键词构建所述待审核文本的文本共现矩阵;
基于所述文本共现矩阵以及所述优选关键词集合中包含的业务关键词数目确定所述待审核文本的维数;
通过所述待审核文本的所述维数对所述文本共现矩阵进行转换,获得所述每个业务关键词的词向量;
根据所述词向量生成所述每个业务关键词的向量特征。
可选的,所述根据所述词向量生成所述每个业务关键词的向量特征,包括:
确定所述优化关键词集合中包含的每个业务关键词在所述待审核文本中的特征权重;
基于所述特征权重以及所述词向量生成所述每个业务关键词的向量特征。
可选的,所述根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合,包括:
将所述业务关键词结合中包含的每个业务关键词的所述词优化参数与预设参数阈值进行比较;
将所述词优化参数小于所述预设参数阈值的业务关键词从所述业务关键词集合中剔除,获得所述优选关键词集合。
可选的,所述获取待审核文本,并确定所述待审核文本所属的业务维度步骤执行之前,还包括:
根据所述业务维度对待审核文书进行初步审核,获得所述待审核文本的初步审核结果;
基于所述初步审核结果对所述待审核文本进行二次审核,并执行所述获取待审核文本,并确定所述待审核文本所属的业务维度步骤。
可选的,所述将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果步骤执行之后,还包括:
通过对所述初步审核结果进行解析,获得所述待审核文本的初步风险标签,以及通过对所述审核结果进行解析,获得所述待审核文本的模型风险标签;
若所述初步风险标签和所述模型风险标签一致,则基于所述业务维度对所述待审核文本进行业务处理;
若所述初步风险标签和所述模型风险标签不一致,则根据所述初步审核结果对所述审核模型进行优化。
可选的,所述审核模型通过如下方式训练:
采集与所述业务维度匹配的训练文本,以及所述训练文本的审核结果;
将所述训练文本以及与所述训练文本对应的审核结果输入至基于所述训练文本和所述训练文本对应的审核结果的关联关系构建的审核模型进行训练,获得所述审核模型。
可选的,所述将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果步骤执行之后,还包括:
根据所述审核结果确定所述待审核文本的风险标签类型;
在所述风险标签类型为风险标签的情况下,将所述待审核文本进行复审,并获得复审结果;
根据所述复审结果以及所述业务维度确定所述待审核文本风险等级。
根据本说明书实施例的第二方面,提供了一种文本审核装置,包括:
获取文本模块,被配置为获取待审核文本,并确定所述待审核文本所属的业务维度;
组成集合模块,被配置为基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合;
计算词优化参数模块,被配置为计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数;
筛选业务关键词模块,被配置为根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合;
向量化处理模块,被配置为将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征;
模型审核模块,被配置为将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果。
可选的,所述组成集合模块,包括:
分词处理单元,被配置为通过对所述待审核文本进行分词处理,根据分词处理结果获得所述待审核文本的关键词;
词性分析单元,被配置为通过对所述关键词进行词性分析,获得与所述业务维度相关联的所述业务关键词;
创建业务关键词集合单元,被配置为提取所述业务关键词创建所述业务关键词集合。
可选的,所述计算词优化参数模块,包括:
确定单元,被配置为确定所述关键词集合中包含的每个业务关键词在所述待审核文本中的业务关键词频次,以及所述业务关键词集合中包含的业务关键词的关键词数目;
计算词优化参数单元,被配置为计算所述业务关键词频次与所述关键词数目二者的比值,作为所述词优化参数。
可选的,所述向量化处理模块,包括:
构建矩阵单元,被配置为通过所述优选关键词集合中包含的每个业务关键词构建所述待审核文本的文本共现矩阵;
确定维数单元,被配置为基于所述文本共现矩阵以及所述优选关键词集合中包含的业务关键词数目确定所述待审核文本的维数;
转换单元,被配置为通过所述待审核文本的所述维数对所述文本共现矩阵进行转换,获得所述每个业务关键词的词向量;
生成向量特征单元,被配置为根据所述词向量生成所述每个业务关键词的向量特征。
可选的,所述生成向量特征单元,包括:
确定特征权重子模块,被配置为确定所述优化关键词集合中包含的每个业务关键词在所述待审核文本中的特征权重;
生成向量特征子模块,被配置为基于所述特征权重以及所述词向量生成所述每个业务关键词的向量特征。
可选的,所述筛选业务关键词模块,包括:
比较单元,被配置为将所述业务关键词结合中包含的每个业务关键词的所述词优化参数与预设参数阈值进行比较;
剔除单元,被配置为将所述词优化参数小于所述预设参数阈值的业务关键词从所述业务关键词集合中剔除,获得所述优选关键词集合。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取待审核文本,并确定所述待审核文本所属的业务维度;
基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合;
计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数;
根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合;
将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征;
将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现任意一项所述文本审核方法的步骤。
本说明书提供的文本审核方法,获取待审核文本,并确定所述待审核文本所属的业务维度;基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合;计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数;根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合;将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征;将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果。
本说明书一实施例提供的文本审核方法,在对待审核文本进行审核的过程中,首选确定所述待审核文本所属的业务维度,之后根据业务维度对所述待审核文本进行标注,获得所述业务关键词集合,实现了对所述待审核文本中的关键信息的初步审核,之后在通过计算所述词优化参数,根据词优化参数对所述业务关键词集合进行进一步的筛选,获得所述优选关键词集合,实现了更进一步的确定所述待审核文本的关键信息,之后通过所述审核模型对所述待审核文本进行风险审核,可以确定所述待审核文本的存在的风险情况,不仅提高了对所述待审核文本的审核效率,并且对所述待审核文本的准确性也有很大的提升,有效的保证了所述待审核文本的风险情况能够及时被监控。
附图说明
图1是本说明书一实施例提供的一种文本审核方法的流程图;
图2是本说明书一实施例提供的一种应用于医疗保险业务中的文本审核方法的处理流程图;
图3是本说明书一实施例提供的一种文本审核装置的结构示意图;
图4是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
CNN:(Convolutional Neural Networks,卷积神经网络),是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一,卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类。
在本说明书中,提供了一种文本审核方法,本说明书同时涉及一种文本审核装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例提供的一种文本审核方法的流程图,包括步骤102至步骤112。
步骤102:获取待审核文本,并确定所述待审核文本所属的业务维度。
本说明书一实施例中所述待审核文本具体是指未进行审核的文本信息,其中审核具体是指对用户递交的文本进行风险审核,以及对文本中的内容进行关键信息审核,所述待审核文本是用户在所属的业务维度提交的需要审核的文本,并且所述待审核文本是与所述业务维度相关联,为了避免出现重要信息的泄露,以及出现用户通过待审核文本进行欺诈的现象发生,需要对待审核文本进行精准的审核,故在获取所述待审核文本的情况下,确定所述待审核文本所属的业务维度,所述业务维度具体是指不同的业务场景,例如,在医疗保险业务当中,对待审核文本进行审核,是避免出现骗保等情况发生,而在银行业务当中,对待审核文本进行审核,是避免出现用户信息泄露等情况发生。
基于此,将以所述待审核文本中包含重要信息的情况为例,对所述文本审核方法进行描述,在用户通过银行端口办理银行卡的情况下,通常银行端口需要用户提供足够的个人信息才能够成功办理,在此过程中,银行会向用户发放一张表单,用户需要在该表单上填写个人的详细信息,例如姓名、身份证号、家庭住址等,为了防止用户的个人信息泄露,银行会对用户的个人信息进行保密,避免不法分子利用用户的个人信息事件发生,可见,通过对文本信息进行审核,可以有效的防止信息的泄露并且还可以对文本存在的风险进行评估。
本说明书提供的文本审核方法中,为了能够提高对所述待审核文本的审核准确性,以及提高审核效率,通过在对待审核文本进行审核的过程中,首选确定所述待审核文本所属的业务维度,之后根据业务维度对所述待审核文本进行标注,获得所述业务关键词集合,实现了对所述待审核文本中的关键信息的初步审核,之后在通过计算所述词优化参数,根据词优化参数对所述业务关键词集合进行进一步的筛选,获得所述优选关键词集合,实现了更进一步的确定所述待审核文本的关键信息,之后通过所述审核模型对所述待审核文本进行风险审核,可以确定所述待审核文本的存在的风险情况,不仅提高了对所述待审核文本的审核效率,并且对所述待审核文本的准确性也有很大的提升,有效的保证了所述待审核文本的风险情况能够及时被监控,以及可以防止所述待审核文本中的信息泄露。
在上述确定所述待审核文本的所属业务维度之前,进一步的,本实施例的一个或多个实施方式中,为了提高对所述待审核文本的审核准确性,可以在通过所述审核模型审核之前,对所述待审核文本进行初步的审核,具体实现方式如下所述:
根据所述业务维度对待审核文书进行初步审核,获得所述待审核文本的初步审核结果;
基于所述初步审核结果对所述待审核文本进行二次审核,并执行所述获取待审核文本,并确定所述待审核文本所属的业务维度步骤。
具体的,在对所述待审核文本通过所述审核模型进行审核之前,可以通过人工审核的方式对所述待审核文本进行初步审核,对所述待审核文本进行初步审核的人工是与所述业务维度相关联的,例如,在医疗保险业务当中,人工是熟悉医疗保险业务的审核人员,在银行业务当中,人工是熟悉银行业务的审核人员;
基于此,根据人工审核所述待审核文本的初步审核过程,获得所述人工对所述待审核文本的初步审核结果,所述初步审核结果具体是指所述人工确定所述待审核文本是否存在风险的审核结果,或者所述人工确定所述待审核文本是否存在重要信息的审核结果;在确定所述初步审核结果的情况下,为了提高对所述待审核文本的审核准确性,进行二次审核,则执行所述步骤102即可。
在对所述待审核文本进行审核模型审核之前,通过人工的方式对所述待审核文本进行初步审核,在进行后续的审核处理过程,可以有效的提高对所述待审核文本的审核准确性,进而可以避免所述待审核文本中包含的重要信息的泄露,还能够对所述待审核文本中存在风险进行准确的评估。
步骤104:基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合。
具体的,在上述获取所述待审核文本并确定所述待审核文本的所属业务维度的基础上,进一步的,对所述待审核文本进行审核处理过程,根据所述待审核文本所属的业务维度,对所述待审核文本中包含的关键词进行标注,标注方式可以是对所述关键词添加标签;
基于此,在对所述待审核文本中包含的关键词进行标注之后,获得与所述业务维度相关联的业务关键词,所述业务关键词具体是指在所述待审核文本中将与所述业务相关联的关键词标注为所述业务关键词,例如,在医疗保险业务当中的待审核文本为“姓名甲,患病心脏病……”,标注与医疗保险业务相关联的业务关键词为“心脏病”,所述业务关键词即可表示出所述待审核文本所能表示的意思,在将所述业务关键词创建所述业务关键词集合,所述业务关键词集合中包含所述待审核文本中标注出的全部业务关键词。
在上述确定所述待审核文本所属的业务维度的基础上,进一步的,本实施例的一个或多个实施方式中,在对所述待审核文本中包含的关键词进行标注,获得所述业务关键词的过程中,需要根据所述业务维度进行标注,具体实现方式如下所述:
通过对所述待审核文本进行分词处理,根据分词处理结果获得所述待审核文本的关键词;
通过对所述关键词进行词性分析,获得与所述业务维度相关联的所述业务关键词;
提取所述业务关键词创建所述业务关键词集合。
具体的,通过对所述待审核文本进行分词处理,获得所述待审核文本的关键词,所述分词处理过程根据语义分析算法即可实现,例如,所述待审核文本为“居住地为甲路1号院”,则通过分词处理过程,获得的关键词为“居住”“地”“甲路”“1号院”,在对所述待审核文本进行分词处理过程,可以优先对所述待审核文本进行全文检测,根据检测结果在对所述待审核文本进行分词处理,可以实现分词处理的准确性,避免发生同一关键词先后分词处理之后获得的关键词语义发生变化;
基于此,通过对所述分词处理后的关键词进行词性分析,将所述待审核文本中包含的副词和与所述业务维度无关联关系的关键词删除,只保留与所述业务维度具有关联关系的业务关键词,例如,在医疗保险业务当中的待审核文本为“患者患有心脏病”,通过分词处理获得关键词为“患者”“患”“有”“心脏病”,通过对关键词进行词性分析,获得与医疗保险业务相关联的业务关键词为“心脏病”;基于此,通过提取所述业务关键词创建所述业务关键词集合。
例如,在银行业务当中,用户乙需要办理银行卡,在此情况下,该用户提交了一份办理银行卡申请书,申请书内容为“姓名:乙,居住地:A省A市A小区A楼”,通过对申请书进行分词处理,获得该审核书的关键词为:“姓名”“乙”“居住地”“A省A市A小区A楼”通过根据银行业务对关键词进行词性分析,获得与业务关联度较高的业务关键词包括“乙”“A省A市A小区A楼”,根据业务关键词创建关键词集合即可。
在创建所述业务关键词集合的过程中,通过对所述待审核文本的关键词进行词性分析,将所述待审核文本中的副词和非业务关键词进行剔除,只保留与所述业务维度相关联的业务关键词创建所述业务关键词集合,实现了可以提高对所述待审核文本的审核的准确性,并且在后续通过审核模型对所述待审核文本进行审核的过程中,可以降低所述审核模型产生的噪音数据,进而提高所述审核模型的准确率。
步骤106:计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数。
具体的,在上述获得与所述业务维度相关联的业务关键词创建所述业务关键词集合的基础上,进一步的,计算所述业务关键词集合中包含的每个业务关键词的词优化参数,所述词优化参数具体是指所述业务关键词在所述待审核文本中的占比,可以理解为所述业务关键词在所述待审核文本中的权重越高,则计算获得的所述词优化参数越高,进而可以决定所述业务关键词在所述待审核文本中的重要程度。
基于此,在计算所述词优化参数的过程中,需要对所述业务关键词集合中包含的每个业务关键词均进行计算,但是在计算所述词优化参数之前,需要对所述业务关键词集合中包含的业务关键词进行整合,整合过程具体是指将所述业务关键词集合中包含的重复业务关键词进行统一,每个业务关键词只保留一个业务关键词进行计算词优化参数即可。
在上述获得与所述业务维度相关联的业务关键词创建所述业务关键词集合的基础上,进一步的,本实施例的一个或多个实施方式中,在计算所述词优化参数的过程中,需要根据每个业务关键词的频次以及业务关键词的数目进行计算,具体实现方式如下所述:
确定所述关键词集合中包含的每个业务关键词在所述待审核文本中的业务关键词频次,以及所述业务关键词集合中包含的业务关键词的关键词数目;
计算所述业务关键词频次与所述关键词数目二者的比值,作为所述词优化参数。
具体的,通过统计所述业务关键词集合中包含的每个业务关键词确定所述每个业务关键词在所述待审核文本中出现的业务关键词频次,以及统计所述业务关键词集合中包含的全部业务关键词数目,其中,所述每个业务关键词在所述待审核文本中出现的频次可以通过将所述每个业务关键词作为一个索引,之后通过以该索引为检索标识在所述待审核文本中进行查询,即可确定每个业务关键词在所述待审核文本中出现的频次;
基于此,计算所述业务关键词频次与搜书关键词数目二者的比值,将计算结果作为每个业务关键词的词优化参数。
例如,待审核文本为某公司的重要信息文本,通过对该文本进行关键词标注,确定业务关键词集合中包含的业务关键词有100个,并且这100个业务关键词均布相同,通过对该文本进行检索确定在该文本中这100个业务关键词出现的频次为10,10,1,3,6......,根据统计出的业务关键词频次以及关键词集合中包含的业务关键词数目确定每个业务关键词的词优化参数为0.1,0.1,0.01,0.03,0.06......以此类推,确定重要信息文本中的每个业务关键词的词优化参数。
除此之外,在后续对模型进行训练或者调优的过程中,也需要对所述训练样本进行计算词优化参数,可以有效的提高所述审核模型的精准度。
通过创建所述业务关键词集合可以实现提高对所述待审核文本的审核准确性,并且再通过计算所述业务关键词集合中包含的每个业务关键词的词优化参数,对所述业务关键词集合进行了筛选,更进一步的提供了对所述待审核文本的审核准确性,而且通过计算每个业务关键词的词优化参数,提高了所述审核模型的精度。
步骤108:根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合。
具体的,在上述通过对所述业务关键词集合中包含的每个业务关键词进行计算词优化参数的基础上,获得所述每个业务关键词的词优化参数,再根据每个业务关键词的词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述优选关键词集合,所述优选关键词集合具体是指根据计算的所述词优化参数对对所述业务关键词集合中包含的业务关键词进行筛选,根据与所述词优化参数关联的预设规则对所述业务关键词集合进行筛选处理,即可获得所述优选关键词集合。
在上述通过对所述业务关键词集合中包含的每个业务关键词进行计算词优化参数的基础上,进一步的,本实施例的一个或多个实施方式中,在对所述业务关键词集合中包含的业务关键词进行筛选的过程中,需要根据所述词优化参数进行筛选,具体实现方式如下所述:
将所述业务关键词结合中包含的每个业务关键词的所述词优化参数与预设参数阈值进行比较;
将所述词优化参数小于所述预设参数阈值的业务关键词从所述业务关键词集合中剔除,获得所述优选关键词集合。
具体的,在根据所述词优化参数进行筛选优选关键词集合的过程中,通过将所述业务关键词集合中包含的每个业务关键词的词优化参数与所述预设参数阈值进行比较,所述预设参数阈值是根据所述业务维度设定的,不同的业务维度对应的参数阈值是不同的,并且即使在相同业务维度当中,所述预设参数阈值还需要根据所述待审核文本的长度进行设定;
基于此,将所述词优化参数小于所述预设参数阈值的业务关键词从所述业务关键词集合中剔除,在所述词优化参数小于所述预设参数阈值的情况下,说明所述业务关键词在所述待审核文本中的权重是较低的,故对待审核文本的风险评估结果和重要信息相关联较小,通过将词优化参数较低的业务关键词从所述业务关键词集合中剔除,获得所述优选关键词集合。
例如,业务关键词集合中包含的业务关键词为“银行卡”“密码”“123456”,其中“银行卡”的词优化参数为0.2,“密码”的词优化参数为0.25,“123456”的词优化参数为0.6,而在该业务维度当中预设参数阈值为0.3,根据比较确定获得的优选关键词集合包括“123456”。
通过将所述词优化参数与预设参数阈值进行比较,将词优化参数较低的业务关键词从所述业务关键词集合中剔除,将剩余的业务关键词创建所述优选关键词集合,更进一步的提供了对所述待审核文本的审核准确性。
步骤110:将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征。
具体的,在上述获得所述优选关键词集合的基础上,可以确定对所述待审核文本的业务关键词筛选完成,之后需要对所述业务关键词进行向量化处理,通过将所述优选关键词集合中包含的每个业务关键词均进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征。
具体实施时,在对所述每个业务关键词进行向量化处理的过程中,可以利用卷积神经网络对文本进行分类的算法(TextCNN)实现,在TextCNN当中,因为卷积核的宽度与业务关键词对应的词向量的维度是一致的特性,使得可以将每一行向量作为一个业务关键词,在进行提取每个业务关键词特征的过程中,业务关键词作为待审核文本的最小粒度,可以将卷积审核网络中的高度设置与该粒度相同,集合实现卷积核的宽度与业务关键词对应的词向量的维度一致性,不仅如此,当使用卷积核进行卷积的过程中,可以考虑到待审核文本的业务关键词的词义以及上下文,进而可以准确的确定所述词向量。
在上述获得所述优选关键词集合的基础上,进一步的,本实施例的一个或多个实施方式中,在对所述优选关键词集合中包含的业务关键词进行向量化处理的过程中,需要创建待审核文本的文本共现矩阵,再根据优选关键词中包含的业务关键词数目确定维数,基于所述维数确定所述向量特征,具体实现方式如下所述:
通过所述优选关键词集合中包含的每个业务关键词构建所述待审核文本的文本共现矩阵;
基于所述文本共现矩阵以及所述优选关键词集合中包含的业务关键词数目确定所述待审核文本的维数;
通过所述待审核文本的所述维数对所述文本共现矩阵进行转换,获得所述每个业务关键词的词向量;
根据所述词向量生成所述每个业务关键词的向量特征。
具体的,在根据所述优选关键词集合中包含的每个业务关键词创建所述文本共现矩阵的之前,可以将所述业务关键词按照在所述待审核文本中出现的次数进行构建所述待审核文本的文本共现矩阵;
基于此,通过文本共现矩阵以及所述优选关键词集合中包含的业务关键词数目确定所述待审核文本的维数,所述维数与所述优选关键词集合中包含的业务关键词数目成正比,业务关键词越多,维度越大,通过所述待审核文本的维数对所述文本共现矩阵转换,即可获得所述每个业务关键词的词向量,在获得所述词向量的情况下,根据每个业务关键词的词向量即可根据TextCNN生成所述业务关键词的向量特征。
具体实施时,通过所述维数对所述文本共现矩阵进行转换获得所述词向量的过程可以通过GloVe(Global Vectors或Global Vectors for Word Representation)算法实现,而GloVe算法是一个基于全局词频统计的词表征工具,可以将业务关键词表达成一个由实数组成的词向量,通过GloVe算法转换的词向量可以捕捉到业务关键词之间的语义特性,例如相似性或类别性等语义特性。
实际应用中,在对所述文本共现矩阵基于维数进行向量化处理的过程中,通过选择每个业务关键词对应的横向矩阵以及纵向矩阵,将横向矩阵和纵向矩阵相乘即可确定为每个业务关键词的词向量,例如,业务关键词的横向矩阵1*n的矩阵为(a,b,c)纵向矩阵n*1的矩阵为(1,2,3),则该业务关键词的向量为a+2b+3c。
在上述根据维数对所述文本共现矩阵进行转换获得所述业务关键词的词向量的基础上,进一步的,本实施例的一个或多个实施方式中,根据所述词向量生成所述向量特征的过程,具体实现方式如下所述:
确定所述优化关键词集合中包含的每个业务关键词在所述待审核文本中的特征权重;
基于所述特征权重以及所述词向量生成所述每个业务关键词的向量特征。
具体的,在通过对所述文本共现矩阵进行转换获得所述词向量的情况下,确定所述优选关键词集合中包含的每个业务关键词在所述待审核文本中的特征权重,所述特征权重用于表示所述每个业务关键词在所述待审核文本中的重要程度,基于所述特征权重以及所述词向量生成所述每个业务关键词的向量特征。
例如,获得的待审核文本如表1所示,其中X表示非标准文本,Y表示生成的向量;
表1
在Y序列中“1”表示性别男,“0”表示性别女,而“*”表示姓名,根据表1所示内容可以确定待审核文本为“Luck did better than**…”和“***师傅…”,而在待审核文本中确定的维数为100维,则“Luck did better than**…”通过确定业务关键词和通过向量化处理获得的向量为[-0.012882927,-0.01703793,0.05511724,0.04917628,-0.034238614,-0.066007696,-0.024405243,0.08266946,-0.041548014,-0.024370942,0.048147053,-0.07807824,-0.036935575,……]100维向量,在通过词向量生成的向量特征即可。
在生成所述向量特征的过程中,通过所述维数对所述文本共现矩阵进行转换的过程中,实现了可以将业务关键词转换为高纬度数据向量特征,并且结合TextCNN特性,实现了在不需要人工挖掘的情况下即可确定所述向量特征,在输入所述审核模型之前,实现了预处理过程,能够使得所述审核模型的输出结果更加准确。
步骤112:将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果。
具体的,在上将所述每个业务关键词进行向量化处理之后获得所述向量特征的基础上,将所述优选关键词集合中包含的每个业务关键词对应的向量特征输入至所述审核模型,通过输入审核模型的向量特征,所述审核模型可以根据向量特征对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果,其中,所述审核结果具体是指对确定所述待审核文本中是否存在风险或者是否存在重要信息的结果。
具体实施时,所述审核结果可以是所述审核模型通过在所述待审核文本上添加标签的方式确定。
本实施例的一个或多个实施方式中,所述审核模型通过如下方式训练:
采集与所述业务维度匹配的训练文本,以及所述训练文本的审核结果;
将所述训练文本以及与所述训练文本对应的审核结果输入至基于所述训练文本和所述训练文本对应的审核结果的关联关系构建的审核模型进行训练,获得所述审核模型。
具体的,通过采集所述业务维度匹配的训练文本,以及所述训练文本的审核结果,通过将所述训练文本进行关键词标注,之后再将训练文本的关键词选择与训练文本所属业务维度的关键词创建训练关键词集合,再经过计算词优化参数并进行筛选,确定所述训练文本的优选关键词结合,经过向量处理获得训练文本的向量特征,根据训练文本的向量特征以及对应的审核结果对基于所述训练文本和所述训练文本对应的审核结果的关联关系构建的审核模型进行训练,即可获得所述审核模型。
具体实施时,在对所述审核模型进行训练的过程中,为了能够提高所述审核模型的输出结果的准确率,可以引入其他信息特征作为训练样本,比如引入提供待审核文本的用户特征与所述向量特征相结合,作为模型的输入,即可实现对所述审核模型的参数的调整。
除此之外,在选择所述审核模型时,需要根据预设的目标函数选择所述审核模型,所述目标函数是根据审核模型的优化参数设定的。在对所述模型进行训练的过程中,可以通过GBDT(Gradient Boosting Decision Tree,梯度提升树)算法对所述审核模型进行训练,可以进一步提高所述审核模型的准确率。
在上述获得所述审核模型的输出所述待审核文本的审核结果的基础上,进一步的,本实施例的一个或多个实施方式中,可以将所述初步审核结果和模型审核结果进行比较,进而确定所述待审核文本实际审核结果,具体实现方式如下所述:
通过对所述初步审核结果进行解析,获得所述待审核文本的初步风险标签,以及通过对所述审核结果进行解析,获得所述待审核文本的模型风险标签;
若所述初步风险标签和所述模型风险标签一致,则基于所述业务维度对所述待审核文本进行业务处理;
若所述初步风险标签和所述模型风险标签不一致,则根据所述初步审核结果对所述审核模型进行优化。
具体的,在获得所述审核模型的审核结果之后,提取初步审核过程中的审核结果,同时将所述审核结果和所述初步审核结果进行解析,获得所述待审核文本在初步审核过程中被添加的初步风险标签,以及获得所述待审核文本在模型审核过程中被添加的模型风险标签,所述初步风险标签和所述模型风险标签具体是指根据审核结果中的判断情况对所述待审核文本添加的风险标签,风险标签存在两种,一是表示待审核文本存在风险对应的存在风险标签,二是表示待审核文本未存在风险对应的非风险标签;
基于此,在确定所述初步风险标签和所述模型风险标签的情况下,将所述初步风险标签和所述模型风险标签进行比较;
若所述初步风险标签和所述模型风险标签一致,则说明初步审核过程的审核结果和审核模型的审核结果相同,则可以根据所述风险标签的类型以及业务维度对所述待审核文本进行业务处理,例如在风险标签为存在风险的情况下,则可以进行后续的判断待审核文本存在的风险等级;在风险标签为未存在风险的情况下,则对待审核文本公开即可;
若所述初步风险标签和所述模型风险标签不一致,则说明初步审核过程的审核结果和审核模型的审核结果不相同,则可以将所述初步审核结果和所述待审核文本作为训练样本对所述审核模型进行优化,在优化的过程中可以提高所述审核模型审核准确性。
例如,在对待审核文本进行审核的过程中,首先通过人工审核确定待审核文本的初步审核结果,再通过审核模型对该待审核文本进行审核,获得审核模型的输出的审核结果,通过对初步审核结果进行解析,获得待审核文本的风险标签为1,同时通过对模型输出的审核结果进行解析,获得的审核文本的风险标签为0,其中,1表示待审核文本存在风险,而0表示待审核文本未存在风险,通过比较确定人工审核的初步审核结果和模型审核的审核结果不一致,则将人工审核的初步审核结果和待审核文本作为训练样本对审核模型进行优化。
通过初步审核以及二次审核的方式,提高了对所述待审核文本的审核准确性,并且在初步审核与二次审核的审核结果不一致的情况下,可以通过初步审核结果以及所述待审核文本对模型进行优化,实现了实时对所述审核模型的优化过程,更进一步的提高的所述审核模型的审核准确性。
在上述获得所述审核模型的输出所述待审核文本的审核结果的基础上,进一步的,本实施例的一个或多个实施方式中,在根据审核结果确定所述待审核文本存在风险的情况下,可以对所述待审核文本进行复审,具体实现方式如下所述:
根据所述审核结果确定所述待审核文本的风险标签类型;
在所述风险标签类型为风险标签的情况下,将所述待审核文本进行复审,并获得复审结果;
根据所述复审结果以及所述业务维度确定所述待审核文本风险等级。
具体的,根据所述审核模型的输出的所述审核结果确定所述待审核文本的风险标签类型,在所述风险标签类型为风险标签的情况下,说明所述待审核文本中的内容是存在风险的或者存在重要信息的,则可以将所述待审核文本进行复审,通过选择在业务维度更专业的审核人对所述待审核文本进行复审,并获得审核人员返回的复审结果,根据所述复审结果和所述业务维度确定所述待审核文本中存在的信息的风险等级,所述待审核文本中的内容风险越大或者重要程度越高,则风险等级越高,反之,所述待审核文本中的内容风险越小或者重要程度越低,则风险等级越低。
通过引入复审机制对所述待审核文本进行风险等级判断,可以有效的确定所述待审核文本的风险等级,可以根据风险等级选择不同的风险防控措施或者保护措施对所述待审核文本进行保护,有效的避免了泄露或者被盗用的事件发生。
本说明书提供的文本审核方法,通过在对待审核文本进行审核的过程中,首选确定所述待审核文本所属的业务维度,之后根据业务维度对所述待审核文本进行标注,获得所述业务关键词集合,实现了对所述待审核文本中的关键信息的初步审核,之后在通过计算所述词优化参数,根据词优化参数对所述业务关键词集合进行进一步的筛选,获得所述优选关键词集合,实现了更进一步的确定所述待审核文本的关键信息,之后通过所述审核模型对所述待审核文本进行风险审核,可以确定所述待审核文本的存在的风险情况,不仅提高了对所述待审核文本的审核效率,还提高了对所述待审核文本的审核准确性,在所述待审核文本存在风险情况下,还可以通过复审的方式进一步确定风险情况,有效的保证了所述待审核文本的安全,避免了待审核文本被泄露或者被盗用的事件发生。
下述结合附图2,以本说明书提供的文本审核方法在医疗保险业务中的应用为例,对所述文本审核方法进行进一步说明。其中,图2示出了本说明书一实施例提供的一种应用于医疗保险业务中的文本审核方法的处理流程图,具体步骤包括步骤202至步骤226。
步骤202:获得人工对待审核文本的初步审核结果。
具体的,用户计划参与医疗保险业务,在参与的过程中用户需要根据医疗保险业务所属的平台填写个人信息;
基于此,在用户填写完成个人信息的情况下,医疗保险业务所属的平台会对用户的个人信息对应的待审核文本进行初步审核,初步审核过程需要通过专业的审核人员进行审核,在审核完成的情况下获得初步审核结果;
医疗保险业务所属的平台为了提高对待审核文本的审核准确性,对待审核文本进行二次审核。
步骤204:对待审核文本进行分词处理,获得待审核文本的关键词。
步骤206:通过对关键词进行词性标注,获得与医疗保险业务维度相关联的医疗关键词创建医疗关键词集合。
具体的,通过对待审核文本进行分词处理,获得待审核文本包含的全部关键词;
基于此,将待审核文本包含的全部关键词根据词性进行标注,将副词和非医疗关键词进行剔除,获得医疗关键词并创建医疗关键词集合。
步骤208:确定医疗关键词在待审核文本中的频次以及医疗关键词集合中包含的医疗关键词的数目。
步骤210:计算频次和医疗关键词集合中包含的医疗关键词的数目二者的比值,作为每个医疗关键词的词优化参数。
具体的,通过统计医疗关键词在待审核文本中出现的次数,确定医疗关键词的频次,以及统计医疗关键词集合中包含的医疗关键词数目;
基于此,计算医疗关键词的频次和医疗关键词集合中包含的医疗关键词数目二者的比值,将比值结果作为医疗关键词集合中包含的每个医疗关键词的词优化参数。
步骤212:将词优化参数小于预设参数阈值的医疗关键词剔除医疗关键词集合,获得优选关键词集合。
具体的,通过将医疗关键词集合中包含的每个医疗关键词的词优化参数与预设参数阈值进行比较;
基于此,在医疗关键词集合中包含的每个医疗关键词的词优化参数小于预设参数阈值的情况下,说明医疗关键词在待审核文本中的权重较低,则可以将该医疗关键词从医疗关键词集合中剔除,将剩余的医疗关键词组成优选关键词集合。
步骤214:根据优选关键词集合创建文本共现矩阵,并根据优选关键词集合中包含的医疗关键词数目确定维数。
步骤216:根据维数对文本共现矩阵进行转换,获得优选关键词集合中包含的医疗关键词的向量特征。
具体的,在确定待审核文本的优选关键词集合的情况下,根据优选关键词集合中包含的医疗关键词构建文本共现矩阵,同时根据优选关键词集合中包含的医疗关键词数目确定待审核文本的维数;
基于此,基于待审核文本的维数对文本共现矩阵进行转化,获得优选关键词集合中包含的每个医疗关键词的词向量,通过每个医疗关键词的词向量生成优选关键词集合中包含的每个医疗关键词的向量特征。
步骤218:将每个医疗关键词的向量特征输入至审核模型,对待审核文本进行审核。
步骤220:获得审核模型输出的待审核文本的二次审核结果。
具体的,将优选关键词集合中包含的每个医疗关键词的向量特征输入至审核模型中,通过审核模型对待审核文本进行审核;
基于此,根据审核模型的输出结果确定对待审核文本的二次审核结果。
步骤222:判断初次审核结果和二次审核结果是否一致;若否,则执行步骤224;若是,则执行步骤226。
步骤224:将初步审核结果以及待审核文本作为优化训练样本对审核模型进行优化。
具体的,在初次审核结果和二次审核结果的判断结果为不一致的情况下,说明可能存在审核模型的审核结果是错误的,可以通过将初步审核结果以及待审核文本作为优化训练样本对审核模型进行优化。
步骤226:基于初步审核结果确定待审核文本存在风险的情况下,确定待审核文本风险等级。
具体的,在初次审核结果和二次审核结果的判断结果为一致的情况下,说明初步审核结果和审核模型的审核结果是一致的,并且根据初步审核结果确定待审核文本存在风险的情况下,医疗保险业务所属的平台可以根据风险结果确定待审核文本的风险等级,基于风险等级医疗保险业务所属的平台可以决定防控措施。
本说明书提供的文本审核方法中,通过在对待审核文本进行审核的过程中,首选确定待审核文本所属的业务维度,之后根据业务维度对待审核文本进行标注,获得业务关键词集合,实现了对待审核文本中的关键信息的初步审核,之后在通过计算词优化参数,根据词优化参数对业务关键词集合进行进一步的筛选,获得优选关键词集合,实现了更进一步的确定待审核文本的关键信息,之后通过审核模型对待审核文本进行风险审核,可以确定待审核文本的存在的风险情况,不仅提高了对待审核文本的审核效率,还提高了对待审核文本的审核准确性,有效的保证了待审核文本的安全,避免了待审核文本被泄露或者被盗用的事件发生。
与上述方法实施例相对应,本说明书还提供了文本审核装置实施例,图3示出了本说明书一实施例提供的一种文本审核装置的结构示意图。如图3所示,该装置包括:
获取文本模块302,被配置为获取待审核文本,并确定所述待审核文本所属的业务维度;
组成集合模块304,被配置为基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合;
计算词优化参数模块306,被配置为计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数;
筛选业务关键词模块308,被配置为根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合;
向量化处理模块310,被配置为将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征;
模型审核模块312,被配置为将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果。
一个可选的实施例中,所述组成集合模块304,包括:
分词处理单元,被配置为通过对所述待审核文本进行分词处理,根据分词处理结果获得所述待审核文本的关键词;
词性分析单元,被配置为通过对所述关键词进行词性分析,获得与所述业务维度相关联的所述业务关键词;
创建业务关键词集合单元,被配置为提取所述业务关键词创建所述业务关键词集合。
一个可选的实施例中,所述计算词优化参数模块306,包括:
确定单元,被配置为确定所述关键词集合中包含的每个业务关键词在所述待审核文本中的业务关键词频次,以及所述业务关键词集合中包含的业务关键词的关键词数目;
计算词优化参数单元,被配置为计算所述业务关键词频次与所述关键词数目二者的比值,作为所述词优化参数。
一个可选的实施例中,所述向量化处理模块310,包括:
构建矩阵单元,被配置为通过所述优选关键词集合中包含的每个业务关键词构建所述待审核文本的文本共现矩阵;
确定维数单元,被配置为基于所述文本共现矩阵以及所述优选关键词集合中包含的业务关键词数目确定所述待审核文本的维数;
转换单元,被配置为通过所述待审核文本的所述维数对所述文本共现矩阵进行转换,获得所述每个业务关键词的词向量;
生成向量特征单元,被配置为根据所述词向量生成所述每个业务关键词的向量特征。
一个可选的实施例中,所述生成向量特征单元,包括:
确定特征权重子模块,被配置为确定所述优化关键词集合中包含的每个业务关键词在所述待审核文本中的特征权重;
生成向量特征子模块,被配置为基于所述特征权重以及所述词向量生成所述每个业务关键词的向量特征。
一个可选的实施例中,所述筛选业务关键词模块308,包括:
比较单元,被配置为将所述业务关键词结合中包含的每个业务关键词的所述词优化参数与预设参数阈值进行比较;
剔除单元,被配置为将所述词优化参数小于所述预设参数阈值的业务关键词从所述业务关键词集合中剔除,获得所述优选关键词集合。
一个可选的实施例中,所述文本审核装置,还包括:
初步审核模块,被配置为根据所述业务维度对待审核文书进行初步审核,获得所述待审核文本的初步审核结果;
基于所述初步审核结果对所述待审核文本进行二次审核,并运行所述获取文本模块302。
一个可选的实施例中,所述文本审核装置,还包括:
解析模块,被配置为通过对所述初步审核结果进行解析,获得所述待审核文本的初步风险标签,以及通过对所述审核结果进行解析,获得所述待审核文本的模型风险标签;
若所述初步风险标签和所述模型风险标签一致,则运行业务处理模块;
所述业务处理模块,被配置为基于所述业务维度对所述待审核文本进行业务处理;
若所述初步风险标签和所述模型风险标签不一致,则运行优化模块;
所述优化模块,被配置为根据所述初步审核结果对所述审核模型进行优化。
一个可选的实施例中,所述审核模型通过如下方式训练:
采集与所述业务维度匹配的训练文本,以及所述训练文本的审核结果;
将所述训练文本以及与所述训练文本对应的审核结果输入至基于所述训练文本和所述训练文本对应的审核结果的关联关系构建的审核模型进行训练,获得所述审核模型。
一个可选的实施例中,所述文本审核装置,还包括:
确定标签模块,被配置为根据所述审核结果确定所述待审核文本的风险标签类型;
复审模块,被配置为在所述风险标签类型为风险标签的情况下,将所述待审核文本进行复审,并获得复审结果;
确定风险等级模块,被配置为根据所述复审结果以及所述业务维度确定所述待审核文本风险等级。
本说明书提供的文本审核装置中,通过在对待审核文本进行审核的过程中,首选确定所述待审核文本所属的业务维度,之后根据业务维度对所述待审核文本进行标注,获得所述业务关键词集合,实现了对所述待审核文本中的关键信息的初步审核,之后在通过计算所述词优化参数,根据词优化参数对所述业务关键词集合进行进一步的筛选,获得所述优选关键词集合,实现了更进一步的确定所述待审核文本的关键信息,之后通过所述审核模型对所述待审核文本进行风险审核,可以确定所述待审核文本的存在的风险情况,不仅提高了对所述待审核文本的审核效率,还提高了对所述待审核文本的审核准确性,在所述待审核文本存在风险情况下,还可以通过复审的方式进一步确定风险情况,有效的保证了所述待审核文本的安全,避免了待审核文本被泄露或者被盗用的事件发生。
上述为本实施例的一种文本审核装置的示意性方案。需要说明的是,该文本审核装置的技术方案与上述的文本审核方法的技术方案属于同一构思,文本审核装置的技术方案未详细描述的细节内容,均可以参见上述文本审核方法的技术方案的描述。
图4示出了根据本说明书一实施例提供的一种计算设备400的结构框图。该计算设备400的部件包括但不限于存储器410和处理器420。处理器420与存储器410通过总线430相连接,数据库450用于保存数据。
计算设备400还包括接入设备440,接入设备440使得计算设备400能够经由一个或多个网络460通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备400的上述部件以及图4中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图4所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备400可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备400还可以是移动式或静止式的服务器。
其中,处理器420用于执行如下计算机可执行指令:
获取待审核文本,并确定所述待审核文本所属的业务维度;
基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合;
计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数;
根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合;
将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征;
将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果。
可选的,所述基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合,包括:
通过对所述待审核文本进行分词处理,根据分词处理结果获得所述待审核文本的关键词;
通过对所述关键词进行词性分析,获得与所述业务维度相关联的所述业务关键词;
提取所述业务关键词创建所述业务关键词集合。
可选的,所述计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数,包括:
确定所述关键词集合中包含的每个业务关键词在所述待审核文本中的业务关键词频次,以及所述业务关键词集合中包含的业务关键词的关键词数目;
计算所述业务关键词频次与所述关键词数目二者的比值,作为所述词优化参数。
可选的,所述将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征,包括:
通过所述优选关键词集合中包含的每个业务关键词构建所述待审核文本的文本共现矩阵;
基于所述文本共现矩阵以及所述优选关键词集合中包含的业务关键词数目确定所述待审核文本的维数;
通过所述待审核文本的所述维数对所述文本共现矩阵进行转换,获得所述每个业务关键词的词向量;
根据所述词向量生成所述每个业务关键词的向量特征。
可选的,所述根据所述词向量生成所述每个业务关键词的向量特征,包括:
确定所述优化关键词集合中包含的每个业务关键词在所述待审核文本中的特征权重;
基于所述特征权重以及所述词向量生成所述每个业务关键词的向量特征。
可选的,所述根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合,包括:
将所述业务关键词结合中包含的每个业务关键词的所述词优化参数与预设参数阈值进行比较;
将所述词优化参数小于所述预设参数阈值的业务关键词从所述业务关键词集合中剔除,获得所述优选关键词集合。
可选的,所述获取待审核文本,并确定所述待审核文本所属的业务维度指令执行之前,处理器420还用于执行如下计算机可执行指令:
根据所述业务维度对待审核文书进行初步审核,获得所述待审核文本的初步审核结果;
基于所述初步审核结果对所述待审核文本进行二次审核,并执行所述获取待审核文本,并确定所述待审核文本所属的业务维度步骤。
可选的,所述将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果指令执行之后,处理器420还用于执行如下计算机可执行指令:
通过对所述初步审核结果进行解析,获得所述待审核文本的初步风险标签,以及通过对所述审核结果进行解析,获得所述待审核文本的模型风险标签;
若所述初步风险标签和所述模型风险标签一致,则基于所述业务维度对所述待审核文本进行业务处理;
若所述初步风险标签和所述模型风险标签不一致,则根据所述初步审核结果对所述审核模型进行优化。
可选的,所述审核模型通过如下方式训练:
采集与所述业务维度匹配的训练文本,以及所述训练文本的审核结果;
将所述训练文本以及与所述训练文本对应的审核结果输入至基于所述训练文本和所述训练文本对应的审核结果的关联关系构建的审核模型进行训练,获得所述审核模型。
可选的,所述将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果指令执行之后,处理器420还用于执行如下计算机可执行指令:
根据所述审核结果确定所述待审核文本的风险标签类型;
在所述风险标签类型为风险标签的情况下,将所述待审核文本进行复审,并获得复审结果;
根据所述复审结果以及所述业务维度确定所述待审核文本风险等级。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本审核方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本审核方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取待审核文本,并确定所述待审核文本所属的业务维度;
基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合;
计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数;
根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合;
将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征;
将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果。
可选的,所述基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合,包括:
通过对所述待审核文本进行分词处理,根据分词处理结果获得所述待审核文本的关键词;
通过对所述关键词进行词性分析,获得与所述业务维度相关联的所述业务关键词;
提取所述业务关键词创建所述业务关键词集合。
可选的,所述计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数,包括:
确定所述关键词集合中包含的每个业务关键词在所述待审核文本中的业务关键词频次,以及所述业务关键词集合中包含的业务关键词的关键词数目;
计算所述业务关键词频次与所述关键词数目二者的比值,作为所述词优化参数。
可选的,所述将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征,包括:
通过所述优选关键词集合中包含的每个业务关键词构建所述待审核文本的文本共现矩阵;
基于所述文本共现矩阵以及所述优选关键词集合中包含的业务关键词数目确定所述待审核文本的维数;
通过所述待审核文本的所述维数对所述文本共现矩阵进行转换,获得所述每个业务关键词的词向量;
根据所述词向量生成所述每个业务关键词的向量特征。
可选的,所述根据所述词向量生成所述每个业务关键词的向量特征,包括:
确定所述优化关键词集合中包含的每个业务关键词在所述待审核文本中的特征权重;
基于所述特征权重以及所述词向量生成所述每个业务关键词的向量特征。
可选的,所述根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合,包括:
将所述业务关键词结合中包含的每个业务关键词的所述词优化参数与预设参数阈值进行比较;
将所述词优化参数小于所述预设参数阈值的业务关键词从所述业务关键词集合中剔除,获得所述优选关键词集合。
可选的,所述获取待审核文本,并确定所述待审核文本所属的业务维度步骤执行之前,还包括:
根据所述业务维度对待审核文书进行初步审核,获得所述待审核文本的初步审核结果;
基于所述初步审核结果对所述待审核文本进行二次审核,并执行所述获取待审核文本,并确定所述待审核文本所属的业务维度步骤。
可选的,所述将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果步骤执行之后,还包括:
通过对所述初步审核结果进行解析,获得所述待审核文本的初步风险标签,以及通过对所述审核结果进行解析,获得所述待审核文本的模型风险标签;
若所述初步风险标签和所述模型风险标签一致,则基于所述业务维度对所述待审核文本进行业务处理;
若所述初步风险标签和所述模型风险标签不一致,则根据所述初步审核结果对所述审核模型进行优化。
可选的,所述审核模型通过如下方式训练:
采集与所述业务维度匹配的训练文本,以及所述训练文本的审核结果;
将所述训练文本以及与所述训练文本对应的审核结果输入至基于所述训练文本和所述训练文本对应的审核结果的关联关系构建的审核模型进行训练,获得所述审核模型。
可选的,所述将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果步骤执行之后,还包括:
根据所述审核结果确定所述待审核文本的风险标签类型;
在所述风险标签类型为风险标签的情况下,将所述待审核文本进行复审,并获得复审结果;
根据所述复审结果以及所述业务维度确定所述待审核文本风险等级。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本审核方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本审核方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。