CN113191134A

CN113191134A - 基于注意力机制的文档质量验证方法、装置、设备及介质

Info

Publication number: CN113191134A
Application number: CN202110602197.6A
Authority: CN
Inventors: 李彦轩; 刘卓
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-07-30
Anticipated expiration: 2041-05-31
Also published as: CN113191134B

Abstract

本发明公开了基于注意力机制的文档质量验证方法、装置、设备及介质，方法包括：分别获取初始文档中与文本信息对应的嵌入特征向量及与数值化信息对应的数值特征向量，进行整合得到对应的嵌入整合特征向量及对应的数值整合特征向量，根据嵌入整合特征向量及注意力神经网络对数值整合特征向量进行特征加权融合得到对应的加权特征向量，通过特征分类模型获取加权特征向量及嵌入整合特征向量对应的类型评估结果，并根据类型评估结果及初始文档的类型标签验证初始文档质量是否合格。本发明属于检测模型技术领域，涉及人工智能技术，可对文档中稀疏且具有较强关联性的内容进行准确提取及综合分析，从而大幅提高了对文档质量进行验证的准确性。

Description

基于注意力机制的文档质量验证方法、装置、设备及介质

技术领域

本发明涉及检测模型技术领域，属于智慧城市中基于注意力机制对文档质量进行智能验证的应用场景，尤其涉及一种基于注意力机制的文档质量验证方法、装置、设备及介质。

背景技术

日常生活中的信息通常是以文档的形式进行存储，当需要对文档质量进行评估验证时，通常是采用人工方式进行评估，随着计算机技术的发展，对部分电子文档进行质量评估时可采用计算机替代，例如，可通过计算机对电子病例的质量进行评估并从中筛选出质量符合要求的电子病例。虽然现有的质量验证方法能够解放人力，但由于这些方法主要是基于人为指定的客观规则进行验证，导致对文档质量问题进行验证时覆盖性不足，难以对文档中稀疏且具有较强关联性的内容进行综合分析，从而影响了对文档质量进行验证的准确性。因此，现有的技术方法对文档质量进行验证时存在验证准确率不高的问题。

发明内容

本发明实施例提供了一种基于注意力机制的文档质量验证方法、装置、设备及介质，旨在解决现有技术方法对文档质量进行验证时所存在的验证准确率不高的问题。

第一方面，本发明实施例提供了一种基于注意力机制的文档质量验证方法，其包括：

若接收到用户输入的初始文档，根据预置的文本特征提取模型从所述初始文档的文本信息中提取对应的嵌入特征向量；

将所述初始文档的数值化信息输入预置的数值特征提取模型得到对应的数值特征向量；

根据预置的特征向量整合规则对所述嵌入特征向量及所述数值特征向量分别进行信息整合得到对应的嵌入整合特征向量及数值整合特征向量；

根据所述嵌入整合特征向量及预置的注意力神经网络对所述数值整合特征向量进行特征加权融合，得到与所述数值整合特征向量对应的加权特征向量；

将所述加权特征向量及所述嵌入整合特征向量输入预置的特征分类模型进行分类，得到对应的类型评估结果；

根据所述类型评估结果对所述初始文档的类型标签是否与所述类型评估结果相匹配进行验证，得到所述初始文档质量是否合格的验证结果。

第二方面，本发明实施例提供了一种基于注意力机制的文档质量验证装置，其包括：

嵌入特征向量获取单元，用于若接收到用户输入的初始文档，根据预置的文本特征提取模型从所述初始文档的文本信息中提取对应的嵌入特征向量；

数值特征向量获取单元，用于将所述初始文档的数值化信息输入预置的数值特征提取模型得到对应的数值特征向量；

信息整合单元，用于根据预置的特征向量整合规则对所述嵌入特征向量及所述数值特征向量分别进行信息整合得到对应的嵌入整合特征向量及数值整合特征向量；

加权特征向量获取单元，用于根据所述嵌入整合特征向量及预置的注意力神经网络对所述数值整合特征向量进行特征加权融合，得到与所述数值整合特征向量对应的加权特征向量；

类型评估结果获取单元，用于将所述加权特征向量及所述嵌入整合特征向量输入预置的特征分类模型进行分类，得到对应的类型评估结果；

验证结果获取单元，用于根据所述类型评估结果对所述初始文档的类型标签是否与所述类型评估结果相匹配进行验证，得到所述初始文档质量是否合格的验证结果。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于注意力机制的文档质量验证方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于注意力机制的文档质量验证方法。

本发明实施例提供了一种基于注意力机制的文档质量验证方法、装置、计算机可读存储介质。分别获取初始文档中与文本信息对应的嵌入特征向量及与数值化信息对应的数值特征向量，根据特征向量整合规则进行整合得到与嵌入特征向量对应的嵌入整合特征向量及与数值特征向量对应的数值整合特征向量，根据嵌入整合特征向量及注意力神经网络对数值整合特征向量进行特征加权融合得到对应的加权特征向量，通过特征分类模型获取加权特征向量及嵌入整合特征向量对应的类型评估结果，并根据类型评估结果及初始文档的类型标签验证初始文档质量是否合格。通过上述方法，分别获取与文本信息对应的嵌入整合特征向量及与数值化信息对应的数值整合特征向量，并进行加权特征融合得到加权特征向量，可对文档中稀疏且具有较强关联性的内容进行准确提取及综合分析，从而大幅提高了对文档质量进行验证的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于注意力机制的文档质量验证方法的流程示意图；

图2为本发明实施例提供的基于注意力机制的文档质量验证方法的子流程示意图；

图3为本发明实施例提供的基于注意力机制的文档质量验证方法的另一子流程示意图；

图4为本发明实施例提供的基于注意力机制的文档质量验证方法的另一子流程示意图；

图5为本发明实施例提供的基于注意力机制的文档质量验证方法的另一子流程示意图；

图6为本发明实施例提供的基于注意力机制的文档质量验证方法的另一子流程示意图；

图7为本发明实施例提供的基于注意力机制的文档质量验证方法的另一子流程示意图；

图8为本发明实施例提供的基于注意力机制的文档质量验证装置的示意性框图；

图9为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的基于注意力机制的文档质量验证方法的流程示意图；该基于注意力机制的文档质量验证方法应用于用户终端或管理服务器中，该基于注意力机制的文档质量验证方法通过安装于用户终端或管理服务器中的应用软件进行执行，用户终端即是可接收用户输入的初始文档并基于基于注意力机制进行文档质量验证的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等，管理服务器即是可接收用户通过用终端发送的初始文档并基于基于注意力机制进行文档质量验证的服务器端，如企业、医疗机构或政府部门所构建的服务器。如图1所示，该方法包括步骤S110～S160。

S110、若接收到用户输入的初始文档，根据预置的文本特征提取模型从所述初始文档的文本信息中提取对应的嵌入特征向量。

若接收到用户输入的初始文档，根据预置的文本特征提取模型从所述初始文档的文本信息中提取对应的嵌入特征向量。用户可输入初始文档，初始文档即为需要进行质量验证的文档，初始文档中包括文本信息，文本信息即为初始文档中以文字形式进行描述的信息，例如，若初始文档为电子病例，则其中的文本信息可以包括主诉、现病史等信息。可通过文本特征提取模型从文本信息中提取得到对应的嵌入特征向量，嵌入特征向量可用于对文本信息包含的特征进行量化表示，其中，所述文本特征提取模型包括关键词集合及特征提取神经网络。

在一实施例中，如图2所示，步骤S110包括子步骤S111、S112和S113。

S111、获取所述初始文档的文本信息中与所述关键词集合相对应的目标关键词。

关键词集合即是由多个预设关键字所组合成的集合，可逐一判断文本信息中是否有与关键词集合相匹配的目标关键词，也即若文本信息中某一词汇与关键词集合中任一关键词相同，则将该词汇作为与关键词集合相对应的一个目标关键词，根据上述方法即可获取文本信息中与关键词集合相对应的目标关键词。

S112、根据所述关键词集合对所述目标关键词进行二值化处理得到对应的关键词特征向量。

可根据关键词集合对目标关键词进行二值化处理，具体的，关键词集合中与目标关键词相对应的一个关键词可标记为“1”，关键词集合中不与目标关键词对应的关键词可标记为“0”，通过上述方法即可对目标关键词进行二值化，则关键词特征向量中包含的向量值的数量即与关键词集合中包含的关键词数量相等，关键词特征向量也可称为独热(one-hot)向量。

S113、将所述关键词特征向量输入所述特征提取神经网络进行特征提取，得到与所述关键词特征向量对应的嵌入特征向量。

由于关键词集合中包含的关键词数量过大，为提高分析效率，可通过特征提取神经网络从关键词特征向量中提取对应的嵌入特征向量，将以独热向量表示的文本信息特征映射成低维稠密的特征向量。其中，特征提取神经网络即是基于人工智能所构建的智能神经网络，特征提取神经网络由一个输入层、多个中间层及一个输出层组成，输入层与中间层之间、中间层与其他相邻的中间层之间、中间层与输出节点之间均通过关联公式进行关联，每一关联公式均可表示为一个一次函数，一次函数中包含相应参数值，输入层中每一输入节点即与关键词特征向量中的一个向量值相对应，每一输出节点对应一个维度，将关键词特征向量输入特征提取神经网络即可得到相应输出结果，输出结果即为与每一输出节点对应维度的特征值，每一输出节点的特征值即可组合成为对应的嵌入特征向量。在使用特征提取神经网络提取嵌入特征向量之前，还可通过训练数据集对特征提取神经网络进行迭代训练，对特征提取神经网络进行训练也即是对该神经网络中包含的参数值进行优化调整。

例如，若关键词集合中包含1000个关键词，则所得到的关键词特征向量即为由“1”和“0”组合成的、包含1000个向量值的向量，特征提取神经网络的输出层包含80个输出节点，则可对应得到80个特征值，80个特征值即组合为对应的嵌入特征向量。

S120、将所述初始文档的数值化信息输入预置的数值特征提取模型得到对应的数值特征向量。

将所述初始文档的数值化信息输入预置的数值特征提取模型得到对应的数值特征向量。初始文档中还包含数值化信息，数值化信息可以是初始文档中包含的以数值化形式进行记载的信息，例如，若初始文档为电子病例，则其中的文本信息可以包括检验数据等信息，检验数据即为初始文档对应的检测者的医学检查信息，如血液常规检查分析的检验数据等，检验数据可以表格形式记载于初始文档中。可通过数值特征提取模型从数值化信息中提取对应的数值特征向量，则数值特征向量可用于对数值化信息的特征进行量化表征。其中，所述数值特征提取模型包括数值转换规则及数值特征提取网络。

在一实施例中，如图3所示，步骤S120包括子步骤S121和S122。

S121、根据所述数值转换规则对数值化信息中每一数值进行对应转换，得到每一所述数值对应的量化值。

可根据数值转换规则对数值化信息中的每一数值分别进行转换，得到对应量化值，数值转换规则包括激活函数以及与每一项数值对应的中间值，可将任意一项数值以及与该项数值对应的中间值同时输入激活函数进行计算，即可将计算结果作为对该项数值进行转换后所得到的量化值，则数值化信息中的任意一项数值均可对应转换得到与该项数值对应的一个量化值。

例如，激活函数可表示为

其中，x为数值化信息中的某一项数值，v为与该项数值对应的中间值。如血液常规检查分析中“单核细胞”对应的一项数值为“0.43”×10⁹/L，数值转换规则中与该项数值对应的中间值为“0.35”×10⁹/L，根据上述激活函数计算得到对应的量化值为0.9077。

S122、将每一所述量化值同时输入所述数值特征提取网络，得到与所述数值化信息对应的数值特征向量。

为提高分析效率，可通过数值特征提取网络从所得到的多个量化值中提取对应的数值特征向量。其中，数值特征提取网络即是基于人工智能所构建的智能神经网络，数值特征提取网络由一个输入层、多个中间层及一个输出层组成，输入层与中间层之间、中间层与其他相邻的中间层之间、中间层与输出节点之间均通过关联公式进行关联，每一关联公式均可表示为一个一次函数，一次函数中包含相应参数值，输入层中每一输入节点即与一项数值对应的量化值相对应，若与某一输入节点对应的量化值为空，则该输入节点的节点值为空，每一输出节点对应一个维度，将所得到的每一量化值同时输入数值特征提取网络即可得到相应输出结果，输出结果即为与每一输出节点对应维度的特征值，每一输出节点的特征值即可组合成为对应的数值特征向量。在使用数值特征提取网络提取数值特征向量之前，还可通过训练数据集对数值特征提取网络进行迭代训练，对数值特征提取网络进行训练也即是对该神经网络中包含的参数值进行优化调整。

S130、根据预置的特征向量整合规则对所述嵌入特征向量及所述数值特征向量分别进行信息整合得到对应的嵌入整合特征向量及数值整合特征向量。

根据预置的特征向量整合规则对所述嵌入特征向量及所述数值特征向量分别进行信息整合得到对应的嵌入整合特征向量及数值整合特征向量。可根据特征向量整合规则分别对嵌入特征向量及数值特征向量进行信息整合，进行信息整合即为对嵌入特征向量或数值特征向量中所包含的向量值进行整合处理，对嵌入特征向量进行整合即可得到嵌入整合特征向量，对数值特征向量进行整合即可得到数值整合特征向量。其中，所述特征向量整合规则包括卷积层及池化规则。

在一实施例中，如图4所示，步骤S130包括子步骤S131、S132、S133和S134。

S131、根据所述卷积层所包含的每一卷积核分别对所述数值特征向量进行卷积处理，将得到的与每一所述卷积核分别对应的卷积数值特征作为所述数值特征向量的数值整合特征向量。

数值特征向量包含的多个特征值可对应转换为矩阵形式进行表示，如数值特征向量中包含80个特征值，可对应转换得到一个10×8的向量矩阵，也即得到一个10行8列的向量矩阵。可通过卷积层中所包含的多个卷积核分别对数值特征向量进行卷积处理，卷积层中包含的卷积核的大小可以相等也可以不相等，进行卷积处理后即可得到与每一卷积核对应的一组或多组卷积数值特征，获取所有卷积数值特征即可组合为数值整合特征向量。

具体的，f_j即可表示为卷积层中所包含第j个卷积核，通过该卷积核对数值特征向量进行卷积处理的具体过程可采用公式(1)进行表示：

c_ij＝f_j(w_j·x_i：i+h-1+b_j) (1)；

其中，c_ij即表示通过卷积核f_j以数值特征向量的第i行为起点进行卷积运算的结果，f_j()表示通过卷积核f_j进行卷积运算，w_j表示卷积核f_j中的参数，x_i:i+h-1表示以数值特征向量的第i行为起点、第i+h-1行为终点的多个特征值作为卷积运算的输入信息，h为卷积核f_j的大小，b_j为卷积运算的偏置项。

卷积运算过程中只对每一行包含的多个特征值进行卷积处理，每一列包含的特征值数量保持不变。例如，对数值特征向量对应的向量矩阵中第3行至第6行包含的特征值进行卷积运算，卷积核大小为4，也即是对4×8大小的向量矩阵进行运算，可对应得到一组1×8的卷积数值特征。

S132、根据所述卷积层包含的每一卷积核分别对所述嵌入特征向量进行卷积处理，得到与每一所述卷积核分别对应的卷积嵌入特征。

具体的，对嵌入特征向量进行卷积处理的具体过程与对数值特征向量进行卷积处理的具体过程相同，在此不作赘述。

S133、对所述卷积嵌入特征进行组合得到嵌入组合特征。

进行卷积处理后可得到每一卷积核分别对应的一组或多组卷积嵌入向量，则可对卷积嵌入特征向量进行组合得到对应的嵌入组合特征。如将m组1×n维的卷积嵌入向量进行组合，得到m×n维的嵌入组合特征。

S134、根据所述池化规则对所述嵌入组合特征进行池化处理，从所述嵌入组合特征中获取与每一维度对应的一个维度特征作为与所述嵌入整合特征向量。

可通过池化规则对嵌入组合特征进行池化处理，进行池化处理后所得到的嵌入整合特征即可作为该嵌入组合特征中重点关注的特征信息。具体的，嵌入组合特征中每一列即对应一个维度，则可根据池化规则获取嵌入组合特征的每一列中数值最大的特征值作为每一列的维度特征，每一列可得到一个维度特征，多列所对应的多个维度值即可作为对应的嵌入整合特征向量。

S140、根据所述嵌入整合特征向量及预置的注意力神经网络对所述数值整合特征向量进行特征加权融合，得到与所述数值整合特征向量对应的加权特征向量。

根据所述嵌入整合特征向量及预置的注意力神经网络对所述数值整合特征向量进行特征加权融合，得到与所述数值整合特征向量对应的加权特征向量。由于数值化信息中包含的部分数值重要性较高，因此需要重点关注；部分数值的重要性较低，可降低关注度。数值化信息的特征采用数值整合特征向量进行表征，则可通过对数值整合特征向量进行特征加权融合，以实现对数值化信息中包含的数值进行区别关注。注意力神经网络(SelfAttention Network)可以是基于自注意力机制所构建的神经网络，可根据所得到的嵌入整合特征向量及自注意力神经网络对数值整合特征向量进行自注意力分析得到对应的融合加权系数，基于融合加权系数对数值整合特征向量进行加权计算，得到对应的加权特征向量。

在一实施例中，如图5所示，步骤S140包括子步骤S141和S142。

S141、将所述嵌入整合特征向量及所述数值整合特征向量同时输入所述注意力神经网络进行计算，得到对应的融合加权系数。

具体的，可将嵌入整合特征向量及数值整合特征向量同时输入注意力神经网络进行自注意力分析，具体的，嵌入整合特征向量可作为注意力神经网络的Query值(Q值)，数值整合特征向量可作为注意力神经网络的Key值(K值)，通过注意力神经网络进行自注意力分析的计算过程可采用公式(2)进行表示：

其中，K即表示为数值整合特征向量、Q即表示为嵌入整合特征向量，T为矩阵转制运算符号，d为K和Q的向量维度(K和Q的向量维度相等)，softmax是对数值进行逻辑回归运算，weight即为计算得到的融合加权系数。

S142、根据所述融合加权系数对所述数值整合特征向量进行加权计算，得到与所述数值整合特征向量对应的加权特征向量。

根据所得到的融合加权系数对数值整合特征向量进行加权计算，计算过程中需要对数值整合特征向量中每一特征值分别进行加权计算，每一特征值进行加权计算后可得到对应的加权特征值，所有加权特征值即组合为数值整合特征向量的加权特征向量，具体的，加权计算的计算过程可采用公式(3)进行表示：

output＝weight×K (3)。

S150、将所述加权特征向量及所述嵌入整合特征向量输入预置的特征分类模型进行分类，得到对应的类型评估结果。

将所述加权特征向量及所述嵌入整合特征向量输入预置的特征分类模型进行分类，得到对应的类型评估结果。可将加权特征向量及嵌入整合特征向量同时输入特征分类模型进行分类，由于加权特征向量及嵌入整合特征向量包含与初始文档对应的重要特征信息，因此进行分类后所得到的也即是初始文档的类型评估结果。

在一实施例中，如图6所示，步骤S150包括子步骤S151和S152。

S151、将所述加权特征向量与所述嵌入整合特征向量进行拼接得到模型输入信息。

可将加权特征向量与嵌入整合特征向量进行拼接得到对应的模型输入信息，具体的，若加签特征向量包含r个特征值，嵌入整合特征向量包含n个特征值，则拼接后所得到的模型输入信息中对应包含r+n个特征值。

S152、将所述模型输入信息输入所述特征分类模型进行分类，得到的分类结果作为所述类型评估结果。

将拼接后所得到的模型输入信息输入特征分类模型进行分类，其中，特征分类模型即为基于人工智能所构建的智能神经网络，特征分类模型由一个输入层、多个中间层及一个输出层组成，输入层与中间层之间、中间层与其他相邻的中间层之间、中间层与输出节点之间均通过关联公式进行关联，每一关联公式均可表示为一个一次函数，一次函数中包含相应参数值，输入层中每一输入节点即与模型输入信息中的一个特征值相对应，每一输出节点对应一个类型，则输出节点所对应的输出节点值即为模型输入信息与每一类型分别对应的匹配度，将模型输入信息输入特征分类模型进行计算，即可得到每一输出节点的输出节点值，将所有输出节点值作为与模型输入信息相对应的类型评估结果。

S160、根据所述类型评估结果对所述初始文档的类型标签是否与所述类型评估结果相匹配进行验证，得到所述初始文档质量是否合格的验证结果。

根据所述类型评估结果对所述初始文档的类型标签是否与所述类型评估结果相匹配进行验证，得到所述初始文档质量是否合格的验证结果。初始文档中还包括类型标签，类型标签即是用于对初始文档进行分类的标签信息，例如，若初始文档为电子病例，则与之对应的类型标签可以是电子病例的诊断信息，可基于类型评估结果及初始文档的类型标签判断初始文档的质量是否合格。

在一实施例中，如图7所示，步骤S160包括子步骤S161和S162。

S161、根据预置的筛选规则从所述类型评估结果中筛选出满足所述筛选规则的类型得到目标类型信息。

具体的，可根据筛选规则从类型评估结果中筛选出满足筛选规则的类型作为目标类型信息，筛选规则可以是根据类型评估结果中每一类型的匹配度，获取匹配度排名前N个类型作为目标类型信息，筛选规则还可以是根据每一类型的匹配度获取匹配度大于匹配度阈值的类型作为目标类型信息，则目标类型信息中包含的类型数量小于类型评估结果中包含的类型数量。

S162、判断所述类型标签是否包含于所述目标类型信息中，以判定所述类型标签是否与所述类型评估结果相匹配。

判断类型标签是否包含于目标类型信息中，如目标类型信息包含三个类型，判断类型标签是否与其中任意一个类型相同，若相同则判定类型标签包含于目标类型信息中，并进一步判断类型标签与类型评估结果相匹配，否则判定类型标签不与类型评估结果相匹配。若类型标签与类型评估结果相匹配，则得到初始文档质量合格的验证结果；若类型标签不与类型评估结果相匹配，则得到初始文档质量不合格的验证结果。

本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含基于注意力机制对文档质量进行智能验证的应用场景中，从而推动智慧城市的建设。

在本发明实施例所提供的基于注意力机制的文档质量验证方法中，分别获取初始文档中与文本信息对应的嵌入特征向量及与数值化信息对应的数值特征向量，根据特征向量整合规则进行整合得到与嵌入特征向量对应的嵌入整合特征向量及与数值特征向量对应的数值整合特征向量，根据嵌入整合特征向量及注意力神经网络对数值整合特征向量进行特征加权融合得到对应的加权特征向量，通过特征分类模型获取加权特征向量及嵌入整合特征向量对应的类型评估结果，并根据类型评估结果及初始文档的类型标签验证初始文档质量是否合格。通过上述方法，分别获取与文本信息对应的嵌入整合特征向量及与数值化信息对应的数值整合特征向量，并进行加权特征融合得到加权特征向量，可对文档中稀疏且具有较强关联性的内容进行准确提取及综合分析，从而大幅提高了对文档质量进行验证的准确性。

本发明实施例还提供一种基于注意力机制的文档质量验证装置，该基于注意力机制的文档质量验证装置可配置于用户终端或管理服务器中，该基于注意力机制的文档质量验证装置用于执行前述的基于注意力机制的文档质量验证方法的任一实施例。具体地，请参阅图8，图8为本发明实施例提供的基于注意力机制的文档质量验证装置的示意性框图。

如图8所示，基于注意力机制的文档质量验证装置100包括嵌入特征向量获取单元110、数值特征向量获取单元120、信息整合单元130、加权特征向量获取单元140、类型评估结果获取单元150和验证结果获取单元160。

嵌入特征向量获取单元110，用于若接收到用户输入的初始文档，根据预置的文本特征提取模型从所述初始文档的文本信息中提取对应的嵌入特征向量。

在一具体实施例中，所述嵌入特征向量获取单元110包括子单元：目标关键词获取单元，用于获取所述初始文档的文本信息中与所述关键词集合相对应的目标关键词；关键词特征向量获取单元，用于根据所述关键词集合对所述目标关键词进行二值化处理得到对应的关键词特征向量；特征提取单元，用于将所述关键词特征向量输入所述特征提取神经网络进行特征提取，得到与所述关键词特征向量对应的嵌入特征向量。

数值特征向量获取单元120，用于将所述初始文档的数值化信息输入预置的数值特征提取模型得到对应的数值特征向量。

在一具体实施例中，所述数值特征向量获取单元120包括子单元：量化值获取单元，用于根据所述数值转换规则对数值化信息中每一数值进行对应转换，得到每一所述数值对应的量化值；数值特征提取单元，用于将每一所述量化值同时输入所述数值特征提取网络，得到与所述数值化信息对应的数值特征向量。

信息整合单元130，用于根据预置的特征向量整合规则对所述嵌入特征向量及所述数值特征向量分别进行信息整合得到对应的嵌入整合特征向量及数值整合特征向量。

在一具体实施例中，所述信息整合单元130包括子单元：第一卷积处理单元，用于根据所述卷积层所包含的每一卷积核分别对所述数值特征向量进行卷积处理，将得到的与每一所述卷积核分别对应的卷积数值特征作为所述数值特征向量的数值整合特征向量；第二卷积处理单元，用于根据所述卷积层包含的每一卷积核分别对所述嵌入特征向量进行卷积处理，得到与每一所述卷积核分别对应的卷积嵌入特征；特征组合单元，用于对所述卷积嵌入特征进行组合得到嵌入组合特征；特征池化处理单元，用于根据所述池化规则对所述嵌入组合特征进行池化处理，从所述嵌入组合特征中获取与每一维度对应的一个维度特征作为与所述嵌入整合特征向量。

加权特征向量获取单元140，用于根据所述嵌入整合特征向量及预置的注意力神经网络对所述数值整合特征向量进行特征加权融合，得到与所述数值整合特征向量对应的加权特征向量。

在一具体实施例中，所述加权特征向量获取单元140包括子单元：融合加权系数获取单元，用于将所述嵌入整合特征向量及所述数值整合特征向量同时输入所述注意力神经网络进行计算，得到对应的融合加权系数；加权计算单元，用于根据所述融合加权系数对所述数值整合特征向量进行加权计算，得到与所述数值整合特征向量对应的加权特征向量。

类型评估结果获取单元150，用于将所述加权特征向量及所述嵌入整合特征向量输入预置的特征分类模型进行分类，得到对应的类型评估结果。

在一具体实施例中，所述类型评估结果获取单元150包括子单元：模型输入信息获取单元，用于将所述加权特征向量与所述嵌入整合特征向量进行拼接得到模型输入信息；分类处理单元，用于将所述模型输入信息输入所述特征分类模型进行分类，得到的分类结果作为所述类型评估结果。

验证结果获取单元160，用于根据所述类型评估结果对所述初始文档的类型标签是否与所述类型评估结果相匹配进行验证，得到所述初始文档质量是否合格的验证结果。

在一具体实施例中，所述验证结果获取单元160包括子单元：目标类型信息获取单元，用于根据预置的筛选规则从所述类型评估结果中筛选出满足所述筛选规则的类型得到目标类型信息；类型标签判断单元，用于判断所述类型标签是否包含于所述目标类型信息中，以判定所述类型标签是否与所述类型评估结果相匹配。

在本发明实施例所提供的基于注意力机制的文档质量验证装置应用上述基于注意力机制的文档质量验证方法，分别获取初始文档中与文本信息对应的嵌入特征向量及与数值化信息对应的数值特征向量，根据特征向量整合规则进行整合得到与嵌入特征向量对应的嵌入整合特征向量及与数值特征向量对应的数值整合特征向量，根据嵌入整合特征向量及注意力神经网络对数值整合特征向量进行特征加权融合得到对应的加权特征向量，通过特征分类模型获取加权特征向量及嵌入整合特征向量对应的类型评估结果，并根据类型评估结果及初始文档的类型标签验证初始文档质量是否合格。通过上述方法，分别获取与文本信息对应的嵌入整合特征向量及与数值化信息对应的数值整合特征向量，并进行加权特征融合得到加权特征向量，可对文档中稀疏且具有较强关联性的内容进行准确提取及综合分析，从而大幅提高了对文档质量进行验证的准确性。

上述基于注意力机制的文档质量验证装置可以实现为计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于注意力机制的文档质量验证方法以基于注意力机制对文档质量进行智能验证的用户终端或管理服务器。

参阅图9，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于注意力机制的文档质量验证方法，其中，存储介质503可以为易失性的存储介质或非易失性的存储介质。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于注意力机制的文档质量验证方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的基于注意力机制的文档质量验证方法中对应的功能。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的基于注意力机制的文档质量验证方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于注意力机制的文档质量验证方法，其特征在于，包括：

2.根据权利要求1所述的基于注意力机制的文档质量验证方法，其特征在于，所述文本特征提取模型包括关键词集合及特征提取神经网络，所述根据预置的文本特征提取模型从所述初始文档的文本信息中提取对应的嵌入特征向量，包括：

获取所述初始文档的文本信息中与所述关键词集合相对应的目标关键词；

根据所述关键词集合对所述目标关键词进行二值化处理得到对应的关键词特征向量；

将所述关键词特征向量输入所述特征提取神经网络进行特征提取，得到与所述关键词特征向量对应的嵌入特征向量。

3.根据权利要求1所述的基于注意力机制的文档质量验证方法，其特征在于，所述数值特征提取模型包括数值转换规则及数值特征提取网络，所述将所述初始文档的数值化信息输入预置的数值特征提取模型得到对应的数值特征向量，包括：

根据所述数值转换规则对数值化信息中每一数值进行对应转换，得到每一所述数值对应的量化值；

将每一所述量化值同时输入所述数值特征提取网络，得到与所述数值化信息对应的数值特征向量。

4.根据权利要求1所述的基于注意力机制的文档质量验证方法，其特征在于，所述特征向量整合规则包括卷积层及池化规则，所述根据预置的特征向量整合规则对所述嵌入特征向量及所述数值特征向量分别进行信息整合得到对应的嵌入整合特征向量及数值整合特征向量，包括：

根据所述卷积层所包含的每一卷积核分别对所述数值特征向量进行卷积处理，将得到的与每一所述卷积核分别对应的卷积数值特征作为所述数值特征向量的数值整合特征向量；

根据所述卷积层包含的每一卷积核分别对所述嵌入特征向量进行卷积处理，得到与每一所述卷积核分别对应的卷积嵌入特征；

对所述卷积嵌入特征进行组合得到嵌入组合特征；

根据所述池化规则对所述嵌入组合特征进行池化处理，从所述嵌入组合特征中获取与每一维度对应的一个维度特征作为与所述嵌入整合特征向量。

5.根据权利要求1所述的基于注意力机制的文档质量验证方法，其特征在于，所述根据所述嵌入整合特征向量及预置的注意力神经网络对所述数值整合特征向量进行特征加权融合，得到与所述数值整合特征向量对应的加权特征向量，包括：

将所述嵌入整合特征向量及所述数值整合特征向量同时输入所述注意力神经网络进行计算，得到对应的融合加权系数；

根据所述融合加权系数对所述数值整合特征向量进行加权计算，得到与所述数值整合特征向量对应的加权特征向量。

6.根据权利要求1所述的基于注意力机制的文档质量验证方法，其特征在于，所述将所述加权特征向量及所述嵌入整合特征向量输入预置的特征分类模型进行分类，得到对应的类型评估结果，包括：

将所述加权特征向量与所述嵌入整合特征向量进行拼接得到模型输入信息；

将所述模型输入信息输入所述特征分类模型进行分类，得到的分类结果作为所述类型评估结果。

7.根据权利要求1所述的基于注意力机制的文档质量验证方法，其特征在于，所述根据所述类型评估结果对所述初始文档的类型标签是否与所述类型评估结果相匹配进行验证，得到所述初始文档质量是否合格的验证结果，包括：

根据预置的筛选规则从所述类型评估结果中筛选出满足所述筛选规则的类型得到目标类型信息；

判断所述类型标签是否包含于所述目标类型信息中，以判定所述类型标签是否与所述类型评估结果相匹配。

8.一种基于注意力机制的文档质量验证装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于注意力机制的文档质量验证方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于注意力机制的文档质量验证方法。