CN110457478A

CN110457478A - 文本合规性检查方法及装置、电子设备和计算机可读介质

Info

Publication number: CN110457478A
Application number: CN201910735267.8A
Authority: CN
Inventors: 杨正良; 刘设伟
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2019-11-15
Anticipated expiration: 2039-08-09
Also published as: CN110457478B

Abstract

本公开提供一种文本合规性检查方法、装置以及电子设备和计算机可读存储介质，涉及计算机技术领域，该方法包括：获取待检查文本；生成所述待检查文本的第一序列和第二序列；通过第一循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第一特征向量；通过第二循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第二特征向量；通过分类网络对所述第一特征向量和所述第二特征向量进行处理，以获得所述待检查文本的合规性检查结果。本公开实施例提供的技术方案能够实现对文本的自动化、智能化检查，节省合规性检查人力成本。

Description

文本合规性检查方法及装置、电子设备和计算机可读介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种文本合规性检查方法及装置、电子设备和计算机可读存储介质。

背景技术

文本合规性检查一种文本分类方法，文本合规性检查是指自动识别判断待检查文本是否符合相关规章制度的规定。例如，金融保险行业是一种文字密集型行业，许多产品条款等都要遵从相关监管机构发布的相关法律或者法规等的规定，否则就会因为违反相关规定面临严重后果。

目前，通常通过人工方式完成对金融文本的合规性检查，以判断该金融文本是否符合相关规定。但是，通过人工方式进行合规性检查，不仅准确率低(检查者无法同时熟知各种规章制度)，而且效率差(待检查文本过多)，耗时耗力。

因此，一种可以实现对金融行业的文本进行高效、高准确率的合规性检查的方法，对金融企业来说尤为重要、

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开实施例提供一种文本合规性检查方法及装置、电子设备和计算机可读存储介质，能够实现对文本合规性的自动化、智能化的核查。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的第一个方面，提出一种文本合规性检查方法，该方法包括：获取待检查文本；生成所述待检查文本的第一序列和第二序列；通过第一循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第一特征向量；通过第二循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第二特征向量；通过分类网络对所述第一特征向量和所述第二特征向量进行处理，以获得所述待检查文本的合规性检查结果。

在一些实施例中，所述文本合规性检查方法还包括：分别对所述第一特征向量和所述第二特征向量依次进行卷积处理和池化处理；将池化后的第一特征向量和第二特征向量合并，以输入所述分类网络。

在一些实施例中，所述文本合规性检查还包括：所述第二序列是所述第一序列的逆序列。

在一些实施例中，所述文本合规性检查还包括：获取训练集；利用所述训练集联合训练所述第一循环神经网络、所述第二循环神经网络和所述分类网络。

在一些实施例中，所述训练集包括多条待训练词向量；其中，获取所述训练集，包括：获取待训练文本，所述待训练文本包括合规标注；根据所述待训练文本生成所述训练集中的待训练词向量。

在一些实施例中，生成所述待检查文本的第一序列和第二序列，包括：对所述待检查文本进行预处理；根据所述待检查文本生成N个预处理序列，N为大于等于1的正整数；根据所述N个预处理序列生成所述第一序列和所述第二序列。

在一些实施例中，根据所述N个预处理序列生成所述第一序列，包括：对所述N个预处理序列进行序列加权求和，以生成所述第一序列。

根据本公开实施例的第二方面，提出一种文本合规性检查装置，包括：文本获取模块，配置为获取待检查文本；序列生成模块，配置为生成所述待检查文本的第一序列和第二序列；第一特征向量生成模块，配置为通过第一循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第一特征向量；第二特征向量生成模块，配置为第二循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第二特征向量；结果获取模块，配置为通过分类网络对所述第一特征向量和所述第二特征向量进行处理，以获得所述待检查文本的合规性检查结果。

根据本公开实施例的第三方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一项所述的文本合规性检查方法。

根据本公开实施例的第四方面，提出一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如上述任一项所述的文本合规性检查方法。

本公开某些实施例提供的文本合规性检查方法、装置及电子设备和计算机可读存储介质，一方面使用第一循环神经网络和第二循环神经网络分别获取了待检查文本特征丰富的第一特征向量和第二特征向量，其中所述第一特征向量和第二特征向量能够表示文本的大量的重点的全局特征，有助于提高文本分类的准确性；另一方面，使用分类网络对待检查文本的的特征向量分类，以自动化、智能化、高精度的完成了对文本合规性的检查，大幅度节省了文本内容检查的人力成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用于本公开实施例的文本合规性检查方法或文本合规性检查装置的示例性系统架构的示意图。

图2是根据一示例性实施例示出的一种文本合规性检查方法的流程图。

图3是图2中的步骤S202在一示例性实施例中的流程图。

图4是根据本公开实施例示出的另一种文本合规性检查方法的流程图。

图5是根据本公开实施例示出的又一种文本合规性检查方法的流程图。

图6是图5中的步骤S208在一示例性实施例中的流程图。

图7是根据本公开实施例示出的另一种文本合规性检查方法的流程图。

图8是根据一示例性实施例示出的一种文本合规性检查装置的框图。

图9是根据一示例性实施例示出的一种应用于文本合规性检查装置的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图仅为本公开的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和步骤，也不是必须按所描述的顺序执行。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本说明书中，用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在一个或多个要素/组成部分/等；用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”、“第二”和“第三”等仅作为标记使用，不是对其对象的数量限制。

下面结合附图对本公开示例实施方式进行详细说明。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。其中，终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理，并将处理结果反馈给终端设备。

服务器105可例如：获取待检查文本；生成所述待检查文本的第一序列和第二序列；通过第一循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第一特征向量；通过第二循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第二特征向量；通过分类网络对所述第一特征向量和所述第二特征向量进行处理，以获得所述待检查文本的合规性检查结果。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的，服务器105可以是一个实体的服务器，还可以为多个服务器组成，根据实际需要，可以具有任意数目的终端设备、网络和服务器。

图2是根据一示例性实施例示出的一种文本合规性检查方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备处理，例如上述图1实施例中的服务器105和/或终端设备102、103，在下面的实施例中，以服务器105为执行主体为例进行举例说明，但本公开并不限定于此。

参照图2，本公开实施例提供的文本合规性检查方法可以包括以下步骤。

步骤S201，获取待检查文本。

在一些实施例中，所述待检查文本指的是那些需要进行合规性判断的文本。

例如，对于一个金融企业来讲，许多产品条款都需要遵循相关监管机构发布的法律法规等规定，那些需要进行合规性审查的产品条款就可以是所述待检查文本。

步骤S202，生成所述待检查文本的第一序列和第二序列。

在一些实施例中，所述第一序列和所述第二序列可以是根据所述待检查文本生成的词向量。

在一些实施例中，可以采用word2vec(词嵌入)或者doc2vec(文档嵌入)对所述待检查文本进行处理以生成所述待检查文本的第一序列和第二序列。

步骤S203，通过第一循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第一特征向量。

步骤S204，通过第二循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第二特征向量。

步骤S205，通过分类网络对所述第一特征向量和所述第二特征向量进行处理，以获得所述待检查文本的合规性检查结果。

在一些实施例中，通过本公开实施例提供的文本合规性检查方法对金融保险业行业的文本进行合规性检查，可以得到准确率为0.8、精准率为0.8以及召回率为0.86的高精度结果。其中，准确率指的判断正确的样本数和所有样本数的比例；精准率指的是被检查为不合规的样本数中，判断正确的不合规样本数的比例；召回率指的是被检查为不合规的样本数和所有不合规样本数的比例。本实施例提供的文本合规性检查方法，一方面使用双向门控循环单元和双向长短时记忆网络分别获取了待检查文本特征丰富的第一特征向量和第二特征向量，该第一特征向量和第二特征向量能够表示文本的大量的重点的全局特征，有助于提高文本分类的准确性；另一方面，使用分类网络基于待检查文本的丰富特征自动化、智能化、高精度的完成了对文本合规性的检查，大幅度节省了文本内容检查的人力成本。

图3是图2中的步骤S202在一示例性实施例中的流程图。

如图3所示，生成所述待检查文本的第一序列和第二序列可以包括以下步骤。

在步骤S2021中，对所述待检查文本进行预处理。

在一些实施例中，对所述待检查文本进行预处理可以包括：去除特殊符号(例如$等)、非unicode(Universal Multiple-Octet Coded Character Set，统一码)编码以及分词等。其中，可以利用例如结巴分词工具等任意可用的分词工具对所述待检查文本进行分词处理。

在步骤S2022中，根据所述待检查文本生成N个预处理序列，N为大于等于1的正整数。

在一些实施例中，可以根据N个向量语料库生成所述待检查文本的N个预处理序列。上述N个向量语料库可以是百度百科、维基百科、XX日报、知乎、微博、文学、金融、古汉语等向量语料库，本公开对此不做限制。

在一些实施例中，可以基于word2vec将所述待检查文本中的每一个词都转换为高维向量空间中的向量(即所述预处理序列)表示，蕴含上下文关系即词语特征求取，得到词语级别的每一个句子的特征编码。

以根据维基百科向量语料库生成预处理序列为例，假设待检查文本为“今天天气很好”，对待检查文本分词后可以得到“今天”、“天气”和“很好”三个词。在维基百科向量语料库中查找到“今天”、“天气”和“很好”等词，并确定上述三个词在语料库中的权值(例如分别是：0.05、0.007以及0.08)，将上述权值对应拼接后就可以得到待检查文本的一个预处理序列(将0.05、0.007以及0.08拼接后可以得到[0.05，0.007，0.08]的预处理序列)。

在步骤S2023中，根据所述N个预处理序列生成所述第一序列和所述第二序列。

在一些实施例中，可以对所述N个预处理序列进行序列加权求和，以生成所述第一序列。

例如，假设根据百度百科向量语料库、中文维基向量语料库以及XX日报向量语料库，分别生成了所述待检查文本的三个预处理序列，如A₁、A₂以及A₃。再假设，对根据上述预处理序列分别赋予权重a₁、a₂以及a₃，那么对上述三个预处理序列进行序加权求和可以表示为其中N代表了所述待检查文本对应的预处理序列的个数(本实施例N等于3)。

在一些实施例中，还可以对所述第一序列进行spatialDropout(正则化)操作，以解决过拟合问题。

在一些实施例中，所述第一序列可以是第二序列的逆序列。

上述实施例中，根据N个向量语料库生成了N个预处理序列，而N个不同的向量预料库可以来自不同的领域。例如，上述N个预料库可以是百度百科、维基百科、XX日报、知乎、微博、文学、金融、古汉语等。而每个预料库涵盖的领域不同，侧重的重点也不同。例如，金融语料库侧重于金融内容，XX日报侧重于新闻内容等。因此，本公开实施例根据N个向量语料库生成N个预处理序列，再根据N个预处理序列生成所述第一序列和所述第二序列，保证了所述第一序列和所述第二序列可以表示所述待检查文本中更加丰富、重点而全面的信息，提高了文本分类(即对文本是否合规的分类)的准确性。

图4是根据本公开实施例示出的另一种文本合规性检查方法的流程图。与上述实施例相比，图4实施例的不同之处在于，文本合规性检查方法还可以包括以下步骤。

在步骤S206中，分别对所述第一特征向量和所述第二特征向量依次进行卷积处理和池化处理。

在一些实施例中，可以通过所述第一循环神经网络对所述第一序列和所述的第二序列进行处理，以获得所述待检查文本的第一特征向量。

在一些实施例中，所述第二序列可以是所述第一序列的逆序列。

在一些实施例中，所述第一循环神经网络可例如是双向门控循环单元。

在一些实施例中，所述双向门控循环单元对所述的以序列和所述第二序列的处理过程可表示为如下过程。

在一些实施例中，双向门控循环单元由两个单向门控循环单元上下叠加组成，所以双向门控循环单元会有两个输入接口。

在一些实施例中，所述第一序列可以作为所述双向门控循环单元的第一输入接口的输入，所述第二序列可以作为所述双向门控循环单元的第二输入接口的输入。所述双向门控循环单元结合过去和未来时刻的文本信息，可以以确定当前时刻的文本信息的特征。

在一些实施例中，分别将第一序列和第二序列输入两个单向门控循环单元中。对于单向门控循环单元来说，可以根据当前输入序列和前一个隐藏层的状态计算出更新门和重置门；再根据重置门、当前序列以及前一个隐藏层的状态计算新的记忆单元内容。当重置门为1的时候，新的记忆单元内容忽略之前的所有记忆单元内容，最终的记忆单元内容是之前的隐藏层状态与新的记忆单元内容的结合。

在一些实施例中，可以根据下列公式确定单向门控循环单元输出的与当前输入序列(第一序列或者第二序列)相对应的第一向量。

z_t＝σ(W_zx_t+U_zh_t-1+b_z) (1)

γ_t＝σ(W_γx_t+W_γh_t-1+b_γ) (2)

其中，σ表示sigmoid激活函数，tanh表示双曲正切激活函数，z_t表示更新门，γ_t表示重置门，表示候选隐含状态。候选隐含状态使用重置门来控制包含过去时刻信息的上一个隐含状态的流入，如果重置门近似0，上一个隐含状态将被丢弃，如果重置门接近1，上一个隐含状态将被允许流入。因此，重置门提供了丢弃与未来无关的过去隐含状态的机制，也就是说，重置门决定了过去有多少信息被遗忘。h_t表示隐含状态，隐含状态h_t使用更新门z_t来对上一个隐含状态h_t-1和候选隐含状态进行更新。更新门可以控制过去的隐含状态在当前时刻的重要性，如果更新门一直近似1，过去的隐含状态将一直通过时间保存并传递至当前时刻。这个设计可以应对循环神经网络中的梯度衰减问题，并更好地捕捉时序数据中间隔较大的依赖关系。

在一些实施例中，上述公式的参数矩阵(W_z、U_z、W_γ以及W)和偏置参数(b_z、b_γ和b)都是先随机初始化，然后在模型训练中自动修正，最后会随神经网络的训练得到最终的值。

在一些实施例中，针对每个时刻t，将第一序列输入至所述双向门控循环单元可以得到第一向量h_fw1(通过公式(4)获取)，第二序列输入至所述双向长短时记忆网络可以得到第二向量h_bw1(同样通过公式(4)获取)。可以将上述第一向量h_fw1和第二向量h_bw1拼接起来，以形成所述第一特征向量h_t1＝[h_fw1,h_bw1]。

上述实施例通过一个双向门控循环单元对第一序列和第二序列(第一序列的逆序列)进行处理，既可以通过第一序列获取当前输入文本的历史信息，也可以通过第二序列获取当前输入信息的未来信息。本实施例提供的技术方案保证了训练完成后的双向门控循环单元，可以同时根据当前文本的历史信息和未来信息确定当前待检查文本的合规性，提高了合规性判断的准确性。

在一些实施例在中，可以采用最大池化对卷积后的第一特征向量进行池化处理。

在一些实施例中，可以通过所述第二循环神经网络对所述第一序列和所述的第二序列进行处理，以获得所述待检查文本的第二特征向量。

在一些实施例中，所述第二循环神经网络可例如是双向长短时记忆网络，其对所述第一序列和所述第二序列的处理过程可表示为如下过程。

在一些实施例中，双向长短时记忆网络由两个长短时记忆网络上下叠加组成，所以双向长短时记忆网络会有两个输入接口。

在一些实施例中，所述第一序列可以作为所述双向长短时记忆网络的第一输入接口的输入，所述第二序列可以作为所述双向长短时记忆网络的第二输入接口的输入。所述双向长短时记忆网络结合过去和未来时刻的文本信息，可以以确定当前时刻的文本信息的特征。

在一些实施例中，可以根据下列公式确实单向长短时记忆网络输出的与当输入序列(第一序列或者第二序列)对应的第一向量。

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i) (5)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f) (6)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c) (7)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o) (8)

h_t＝o_ttanh(c_t) (9)

其中，σ表示激活函数sigmoid，tanh表示双曲正切激活函数，x_t表示t时刻(第t个向量)输入的序列，i_t表示t时刻输入门的输出向量，f_t表示t时刻遗忘门的输出向量，o_t表示t时刻输出门的输出向量，c_t和c_t-1分别表示t时刻和t-1时刻的细胞单元的记忆流状态，h_t和h_t-1分别表示t时刻和t-1时刻隐藏层向量。上述公式中的权值矩阵和偏置参数描述可通过下表确定其含义，例如，W_xi表示输入和输入门的权值矩阵，W_hi表示隐藏层和输入门的权值矩阵，W_ci表示细胞单元和输入门的权值矩阵，b_i、b_f分别表示输入门和遗忘门的偏置参数。

在一些实施例中，上述公式的权值矩阵(W_xf、W_hf、W_cf、W_xc、W_hc、W_xo、W_ho以及W_co)和偏置参数(b_i、b_f、b_c和b_o)都是先随机初始化，然后在模型训练中自动修正，最后会随神经网络得到最终的值。

在一些实施例中，针对每个时刻t，第一序列输入所述双向长短时记忆网络中可以得到第三向量h_fw2(可通过个公式(8)获取)，第二序列输入所述双向长短时记忆网络可以得到第四向量h_bw2(也可通过个公式(8)获取)。可以将上述第三向量h_fw2和第四向量h_bw2拼接起来，以形成所述第二特征向量h_t2＝[h_fw2,h_bw2]。

上述实施例通过一个双向长短时记忆网络对第一序列和第二序列(第一序列的逆序列)进行处理，既可以通过第一序列获取当前输入文本的历史信息，也可以通过第二序列获取当前输入信息的未来信息。本实施例提供的技术方案保证了训练完成后的双向长短时记忆网络，可以同时根据当前文本的历史信息和未来信息确定当前待检查文本的合规性，提高了合规性判断的准确性。

在一些实施例中，可以对第二特征向量进行卷积处理。

在一些实施例中，可以采用平均池化对卷积后的第二特征向量进行池化处理。

在步骤S207中，将池化后的第一特征向量和第二特征向量合并，以输入所述分类网络。

在一些实施例中，所述分类网络可以是softmax(归一化支书函数)分类器或者SVM(Support Vector Machine。支持向量机)分类器。应当理解的是，本公开对分类网络的种类不做限制，任何可以实现分类的网络都可是本公开实施例提到的所述分类网络。

上述实施例提供的文本合规性检查方法，通过卷积和池化操作在提取到特征向量的全部信息的基础上，降低了数据的维度，减少了特征的数据量，简便了模型的训练过程。

图5是根据本公开实施例示出的又一种文本合规性检查方法的流程图。与

上述实施例相比，图5实施例的不同之处在于，还可以包括以下步骤。

在步骤S208中，获取训练集。

图6是图5中的步骤S208在一示例性实施例中的流程图。如图6所示，本公开实施例中上述步骤S208可以进一步包括以下步骤。

在步骤S2081中，获取待训练文本，所述待训练文本包括合规标注。

在一些实施例中，待训练文本也可以是那些需要进行合规性判断的文本，包括但不限于金融、保险、互联网、房地产等企业所涉及的需要进行合规性判断的文本。

在一些实施例中，所述待训练文本包括合规标注。

在一些实施例中，许多产品条款的合规性判断已由人工完成。例如，对于金融产品条款“不得违反合同法”可以被人工标注为合规，并标注为“1”，而“可以违法合同法”被人工标注为不合规，并标注为“0”，本公开并不限制合规标注的形式。

步骤S2082，根据所述待训练文本生成所述训练集中的待训练词向量。

在一些实施例中，所述待训练词向量可以包括所述待训练文本的第三序列和第四序列，所述第四序列可以是所述第三序列的逆序列。

在一些实施例中，根据待训练文本生成所述训练集中的待训练词向量可以包括以下步骤。

步骤一：对所述待训练文本进行预处理。

在一些实施例中，对所述待训练文本进行预处理可以包括：去除特殊符号(例如$等)、非unicode(Universal Multiple-Octet Coded Character Set，统一码)编码以及分词等。其中，可以利用例如结巴分词工具对所述待训练文本进行分词处理。

步骤二：根据所述待训练文本生成N个第一预处理序列，N为大于等于1的正整数。

在一些实施例中，可以根据N个向量语料库生成N个第一预处理序列，上述N个向量语料库可以是百度百科、维基百科、XX日报、知乎、微博、文学、金融、古汉语等向量语料库，本公开对此不做限制。

在一些实施例中，可以基于word2vec(word to vector，词汇转向量)将所述待训练文本中的每一个词都转换为高维向量空间中的向量(即所述第一预处理序列)表示，蕴含上下文关系即词语特征求取，得到词语级别的每一个句子的特征编码。上述特征编码就所述第一预处理序列。

在一些实施例中，根据不同的向量语料库就可以生成不同的所述待训练查文本的第一预处理序列。

步骤三：根据所述N个第一预处理序列生成所述待训练词向量。

在一些实施例中，可以对所述N个第一预处理序列进行序列加权求和，以生成所述第三序列。

例如，假设根据百度百科向量语料库、中文维基向量语料库以及XX日报向量语料库，分别生成了所述待训练文本的三个第一预处理序列，如A₁、A₂以及A₃。再假设，对根据上述第一预处理序列分别赋予权重a₁、a₂以及a₃，那么对上述三个第一预处理序列进行序加权求和可以表示为其中N代表了所述待训练文本对应的第一预处理序列的个数(本实施例N等于3)。

上述实施例中，可以根据N个向量语料库生成N个第一预处理序列，而N个不同的向量预料库可以来自不同的领域。例如，上述N个预料库可以是百度百科、维基百科、XX日报、知乎、微博、文学、金融、古汉语等。而每个预料库涵盖的领域不同，侧重的重点也不同。例如，金融语料库侧重于金融内容，XX日报侧重于新闻内容等。因此，本公开实施例根据N个向量语料库生成N个第一预处理序列，再根据N个第一预处理序列生成所述第三序列和所述第四序列，保证了所述第三序列和所述第四序列可以表示所述待训练文本中更加丰富、重点而全面的信息，以提高文本分类的准确性。

在步骤S209中，利用所述训练集联合训练所述第一循环神经网络、所述第二神经网络和所述分类网络。

在一些实施例中，可以根据训练集中的所述第三序列和所述第四序列联合训练所述第一循环神经网络(可例如是双向门控循环单元)、所述第二循环神经网络(可例如是双向长短时记忆网络)和所述分类网络(可例如是softmax)。在一些实施例中，所述第一循环神经网络、所述第二循环神经网络和所述分类网络的参数会随着训练不断的优化，以使得的所述分类网络的分类结果与实际标注更为相似。

如图7所示，文本合规性检查方法可以包括以下步骤。

步骤S701，获取待训练文本，所述待训练文本包括合规标注。

步骤S702，对所述待训练文本进行预处理。

步骤S703，根据所述待训练文本生成N个第一预处理序列，N为大于等于1的正整数。

步骤S704，对所述N个第一预处理序列进行序列加权求和，以生成训练集中的第三序列和第四序列。

步骤S705，利用所述训练集联合训练双向门控循环单元、双向长短时记忆网络和分类网络。

步骤S706，获取待检查文本。

步骤S707，生成所述待检查文本的第一序列和第二序列。

步骤S708，通过所述双向门控循环单元对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第一特征向量。

步骤S709，通过所述双向长短时记忆网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第二特征向量。

步骤S710，通过所述分类网络对所述第一特征向量和所述第二特征向量进行处理，以获得所述待检查文本的合规性检查结果。

本实施例提供的文本合规性检查方法，通过双向门控循环单元和双向长短时记忆网络分别生成了第一特征向量和第二特征向量，然后基于上述两个特征向量使用分类网络完成了对文本合规性的检查。该方法使用双向门控循环单元和双向长短时记忆网络分别获取了待检查文本特征丰富的第一特征向量个第二特征向量，该第一特征向量和第二特征向量能够表示文本的大量的重点的全局特征，提高了文本分类的准确性，然后使用分类网络基于待检查文本的丰富特征自动化、智能化、高精度的完成了对文本合规性的检查，大幅度节省了文本内容检查的人力成本。

图8是根据一示例性实施例示出的一种文本合规性检查装置的框图。参照图8，该装置800包括文本获取模块801、序列生成模块802、第一特征向量生成模块803、第二特征向量生成模块804以及结果获取模块805。

其中，文本获取模块801可以配置为获取待检查文本；序列生成模块802可以配置为生成所述待检查文本的第一序列和第二序列；第一特征向量生成模块803可以配置为通过第一循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第一特征向量；第二特征向量生成模块804可以配置为通过第二循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第二特征向量；结果获取模块805可以配置为通过分类网络对所述第一特征向量和所述第二特征向量进行处理，以获得所述待检查文本的合规性检查结果。

在一些实施例中，所述文本合规性检查装置800还可以包括：降维处理模块、分类处理模块。

其中，降维处理模块可以配置为分别对所述第一特征向量和所述第二特征向量依次进行卷积处理和池化处理；分类处理模块可以配置为将池化后的第一特征向量和第二特征向量合并，以输入所述分类网络。

在一些实施例中，序列生成模块802可以包括：预处理单元、序列生成第一单元以及序列生成第二单元。

其中，所述预处理单元可以配置为对所述待检查文本进行预处理；序列生成第一单元可以配置为根据所述待检查文本生成N个预处理序列，N为大于等于1的正整数；序列生成第二单元可以配置为根据所述N个预处理序列生成所述第一序列和所述第二序列。

在一些实施例中，序列生成第二单元可以包括：第一序列生成子单元。其中第一序列生成子单元可以配置为对所述N个预处理序列进行序列加权求和，以生成所述第一序列。

在一些实施例中，所述第二序列是所述第一序列的逆序列。

在一些实施例中，所述文本合规性检查装置800还可以包括：训练集获取模块和训练模块。

其中训练集获取模块可以配置为获取训练集；训练模块可以配置为利用所述训练集联合训练所述双向门控循环单元、双向长短时记忆网络和分类网络。

在一些实施例中，训练集获取模块可以包括：待训练文本获取单元和待训练词向量获取单元。

其中，待训练文本获取单元可以配置为获取待训练文本，所述待训练文本包括合规标注；待训练词向量获取单元可以配置为根据所述待训练文本生成所述训练集中的待训练词向量。

由于本公开的示例实施例的文本合规性检查装置800的各个功能模块与上述文本合规性检查方法的示例实施例的步骤对应，因此在此不再赘述。

下面参考图9，其示出了适于用来实现本申请实施例的终端设备的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备可实现功能包括：获取待检查文本；生成所述待检查文本的第一序列和第二序列；通过双向门控循环单元对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第一特征向量；通过双向长短时记忆网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第二特征向量；通过分类网络对所述第一特征向量和所述第二特征向量进行处理，以获得所述待检查文本的合规性检查结果。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者智能设备等)执行根据本公开实施例的方法，例如图2的一个或多个所示的步骤。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不限于这里已经示出的详细结构、附图方式或实现方法，相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种文本合规性检查方法，其特征在于，包括：

获取待检查文本；

生成所述待检查文本的第一序列和第二序列；

通过第一循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第一特征向量；

通过第二循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第二特征向量；

通过分类网络对所述第一特征向量和所述第二特征向量进行处理，以获得所述待检查文本的合规性检查结果。

2.根据权利要求1所述方法，其特征在于，还包括：

分别对所述第一特征向量和所述第二特征向量依次进行卷积处理和池化处理；

将池化后的第一特征向量和第二特征向量合并，以输入所述分类网络。

3.根据权利要求1所述方法，其特征在于，生成所述待检查文本的第一序列和第二序列，包括：

对所述待检查文本进行预处理；

根据所述待检查文本生成N个预处理序列，N为大于等于1的正整数；

根据所述N个预处理序列生成所述第一序列和所述第二序列。

4.根据权利要求3所述方法，其特征在于，根据所述N个预处理序列生成所述第一序列，包括：

对所述N个预处理序列进行序列加权求和，以生成所述第一序列。

5.根据权利要求1或3所述方法，其特征在于，所述第二序列是所述第一序列的逆序列。

6.根据权利要求1所述方法，其特征在于，还包括：

获取训练集；

利用所述训练集联合训练所述第一循环神经网络、所述第二循环神经网络和所述分类网络。

7.根据权利要求6所述方法，其特征在于，所述训练集包括多条待训练词向量；其中，获取所述训练集，包括：

获取待训练文本，所述待训练文本包括合规标注；

根据所述待训练文本生成所述待训练词向量。

8.一种文本合规性检查装置，其特征在于，包括：

文本获取模块，配置为获取待检查文本；

序列生成模块，配置为生成所述待检查文本的第一序列和第二序列；

第一特征向量生成模块，配置为通过第一循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第一特征向量；

第二特征向量生成模块，配置为通过第二循环神经网络对所述第一序列和所述第二序列进行处理，获得所述待检查文本的第二特征向量；

结果获取模块，配置为通过分类网络对所述第一特征向量和所述第二特征向量进行处理，以获得所述待检查文本的合规性检查结果。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。