CN117172232B

CN117172232B - 审计报告生成方法、装置、设备和存储介质

Info

Publication number: CN117172232B
Application number: CN202311446978.6A
Authority: CN
Inventors: 胡为民; 黄婵娟; 张芷鸣; 谢丽慧; 何永定
Original assignee: Shenzhen Dib Enterprise Risk Management Technology Co ltd
Current assignee: Shenzhen Dib Enterprise Risk Management Technology Co ltd
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-01-26
Anticipated expiration: 2043-11-02
Also published as: CN117172232A

Abstract

本申请涉及人工智能技术领域，公开一种审计报告生成方法、装置、设备和存储介质。该方法包括：获取若干个维度的审计数据；对审计数据进行多尺度特征融合，得到融合信息；将融合信息输入到训练好的自注意力模型，以基于稀疏注意力机制提取融合信息中与审计需求相关的关键特征，得到预测信息；将预测信息输入到训练好的高斯混合模型，以基于混合高斯分布确定预测信息所属的分类类别，得到分类结果；基于分类结果确定对应预测信息在预设的报告模板中的关联位置，将预测信息插入至对应的关联位置，从而生成审计报告。本申请实施例可以降低人工成本和出错概率，提高审计报告的生成效率和质量。

Description

审计报告生成方法、装置、设备和存储介质

技术领域

本申请涉及人工智能技术领域，尤其是一种审计报告生成方法、装置、设备和存储介质。

背景技术

传统的审计方式是业务侧人员向审计侧人员提审计需求，把审计可能用到的信息用自然语言描述出来，这种方式在审计侧人员接收到需求之后，需要由审计侧人员跟业务侧人员进行审计需求反复沟通，明确业务侧中各个业务数据的数据表内容和字段含义，然后由审计侧人员根据经验来编写审计报告，一方面，人工成本高且出错概率高，另一方面，这种审计对象的准确性取决于审计侧人员的经验，存在错审漏审的潜在风险，审计效率低且不够可靠。

发明内容

本申请的目的是提供一种审计报告生成方法、装置、设备和存储介质，旨在降低人工成本和出错概率，提高审计报告的生成效率和质量。

本申请实施例提供一种审计报告生成方法，包括：

获取若干个维度的审计数据；

对审计数据进行多尺度特征融合，得到融合信息；

将融合信息输入到训练好的自注意力模型，以基于稀疏注意力机制提取融合信息中与审计需求相关的关键特征，得到预测信息；

将预测信息输入到训练好的高斯混合模型，以基于混合高斯分布确定预测信息所属的分类类别，得到分类结果；

基于分类结果确定对应预测信息在预设的报告模板中的关联位置，将预测信息插入至对应的关联位置，从而生成审计报告。

在一些实施例中，所述对审计数据进行多尺度特征融合，得到融合信息，包括：

对审计数据进行预处理，得到预处理数据；

使用预处理数据构建协方差矩阵，得到融合矩阵；在所述融合矩阵中，同一维度的审计数据所对应的矩阵元素排列为一行，每个矩阵元素分别表示一个审计数据的特征值；

对融合矩阵进行特征值分解，得到审计数据的特征值和特征值所对应的特征向量，选取具有较大特征值的若干个特征向量作为主成分；

通过将数据映射到主成分所构成的新空间中，得到融合信息。

在一些实施例中，所述自注意力模型包括稀疏编码层、自注意力层和池化层；

所述将融合信息输入到训练好的自注意力模型，以基于稀疏注意力机制提取融合信息中与审计需求相关的关键特征，得到预测信息，包括：

在稀疏编码层中，使用预设的稀疏编码目标函数对融合信息进行稀疏特征抽取，以获取融合信息的特征进行稀疏表示，得到稀疏编码；

在自注意力层中，使用预设的权重矩阵对稀疏编码进行加权拟合处理，得到稀疏编码的特征向量，对特征向量进行归一化处理，得到归一化向量；

在池化层中，对归一化向量进行最大池化操作，以对归一化向量中元素的特征进行提取，得到预测信息。

在一些实施例中，所述自注意力模型的训练方法，包括：

获取若干个维度的样本数据；

对样本数据进行多尺度特征融合，得到样本信息；

获取待训练的自注意力模型；

将样本信息输入到待训练的自注意力模型，以基于稀疏注意力机制提取样本信息中与审计需求相关的关键特征，得到粗预测信息；

确定样本信息真实的审计关键特征，得到真实信息；

基于粗预测信息与真实信息，确定模型损失信息；所述模型损失信息用于表征粗预测信息与真实信息之间的审计属性匹配程度；

基于模型损失信息调整待训练的自注意力模型的权重参数，在模型损失信息符合结束条件时，得到训练好的自注意力模型。

在一些实施例中，所述高斯混合模型至少由两个高斯子模型组成，各所述高斯子模型分别配置有相应的高斯权重、均值向量和协方差矩阵；

所述将预测信息输入到训练好的高斯混合模型，以基于混合高斯分布确定预测信息所属的分类类别，得到分类结果，包括：

设定训练好的高斯子模型表示相应的分类类别；

计算预测信息的各个预测值属于每个高斯子模型的后验概率，得到预测值属于分类类别的后验概率；

根据最大后验概率，确定预测值所对应的高斯子模型和分类类别，使用该分类类别作为预测信息中对应预测值的分类结果。

在一些实施例中，所述高斯混合模型的训练方法，包括：

初始化各个待训练的高斯子模型的高斯权重、均值向量和协方差矩阵；

使用待训练的高斯子模型表示相应的分类类别，计算预测信息的预测值来自每个高斯子模型的后验概率，得到预测值属于分类类别的训练后验概率；

使用最大训练后验概率更新待训练的高斯子模型的高斯权重、均值向量和协方差矩阵，迭代使用更新后的高斯子模型计算预测值属于分类类别的训练后验概率，在达到迭代结束条件时，得到训练好的高斯混合模型；所述迭代结束条件为达到预设的迭代次数或相邻两次迭代得到的高斯权重、均值向量和协方差矩阵的变化率均小于预设的阈值。

在一些实施例中，所述基于分类结果确定对应预测信息在预设的报告模板中的关联位置，将预测信息插入至对应的关联位置，从而生成审计报告，包括：

从报告模板中获取与关联位置相关联的文本标签；

对分类结果和文本标签进行语义关联识别，得到识别结果；

根据识别结果确定预测信息所对应的关联位置，将预测信息插入至对应的关联位置，从而生成审计报告。

本申请实施例还提供一种审计报告生成装置，包括：

第一模块，用于获取若干个维度的审计数据；

第二模块，用于对审计数据进行多尺度特征融合，得到融合信息；

第三模块，用于将融合信息输入到训练好的自注意力模型，以基于稀疏注意力机制提取融合信息中与审计需求相关的关键特征，得到预测信息；

第四模块，用于将预测信息输入到训练好的高斯混合模型，以基于混合高斯分布确定预测信息所属的分类类别，得到分类结果；

第五模块，用于基于分类结果确定对应预测信息在预设的报告模板中的关联位置，将预测信息插入至对应的关联位置，从而生成审计报告。

本申请实施例还提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的审计报告生成方法。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的审计报告生成方法。

本申请的有益效果：首先获取多个维度的审计数据，对多个维度的审计数据进行多尺度特征融合，可以在以最少的信息丢失为前提快速地对审计数据进行降维并提取出审计数据的关键特征，然后利用训练好的自注意力模型提取特征融合得到的融合信息中与审计需求相关的关键特征，再利用训练好的高斯混合模型对提取得到的预测信息进行分类，确定预测信息的分类类别，最后根据预测信息的分类类别将预测信息的内容插入到预设报告模板中对应的关联位置，从而生成审计报告，通过自注意力模型和混合高斯模型相结合的主动学习的手段，从大量审计数据中有策略地进行关键特征提取和分类，可以通过尽量少的人工处理获得较优的分类效果，能够降低人工成本和出错概率，提高审计报告的生成效率和质量。

附图说明

图1是本申请实施例提供的审计报告生成方法的一个可选的流程图。

图2是本申请实施例提供的步骤S102的具体方法的流程图。

图3是本申请实施例提供的步骤S103的具体方法的流程图。

图4是本申请实施例提供的自注意力模型的训练方法的一个可选的流程图。

图5是本申请实施例提供的步骤S104的具体方法的流程图。

图6是本申请实施例提供的高斯混合模型的训练方法的一个可选的流程图。

图7是本申请实施例提供的步骤S105的具体方法的流程图。

图8是本申请实施例提供的审计报告生成装置的一个可选的结构示意图。

图9是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(Artificial Intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自注意力模型(Self-Attention Model)，基于自注意力机制，可以“动态”地生成不同连接的权重，目的是为了建立输入信息之间的长距离依赖关系。自注意力机制实际上是注意力机制的一种，它也是一种网络的构型，它想要解决的问题是网络接收的输入是很多向量，并且向量的大小也是不确定的情况，比如机器翻译（序列到序列的问题，机器自己决定多少个标签），词性标注（Pos tagging 一个向量对应一个标签），语义分析（多个向量对应一个标签）等文字处理以及图像处理中。

高斯混合模型（Gaussian Mixture Model，GMM），是利用高斯概率密度函数（正态分布曲线）精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。高斯混合模型可以看作是由K个高斯子模型组合而成的模型，这K个高斯子模型是高斯混合模型的隐变量。

基于此，本申请实施例提供一种审计报告生成方法、装置、设备和存储介质，能够降低人工成本和出错概率，提高审计报告的生成效率和质量。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的审计报告生成方法，涉及人工智能技术领域。本申请实施例提供的审计报告生成方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现文本分类方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络个人计算机(Personal Computer，PC)、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

请参阅图1，图1是本申请实施例提供的审计报告生成方法的一个可选的流程图。在本申请的一些实施例中，图1中的方法具体可以包括但不限于步骤S101至步骤S105，下面结合图1对这五个步骤进行详细介绍。

步骤S101，获取若干个维度的审计数据。

步骤S102，对审计数据进行多尺度特征融合，得到融合信息。

步骤S103，将融合信息输入到训练好的自注意力模型，以基于稀疏注意力机制提取融合信息中与审计需求相关的关键特征，得到预测信息。

步骤S104，将预测信息输入到训练好的高斯混合模型，以基于混合高斯分布确定预测信息所属的分类类别，得到分类结果。

步骤S105，基于分类结果确定对应预测信息在预设的报告模板中的关联位置，将预测信息插入至对应的关联位置，从而生成审计报告。

在一些实施例的步骤S101中，收集和处理涉及企业审计的相关数据，得到审计数据，进而构建企业的审计数据表示。审计数据的维度可以是包括基本信息维度、风险信息维度、财务维度、资产维度以及生产效率维度。

其中，基本信息维度的审计数据用于描述企业的基本信息，例如，员工人数、企业年龄和企业类型等；风险信息维度的审计数据用于描述企业的财务状况和内部控制质量存在的风险，例如，财务异常指数和内控指数等，均为[0,1]范围内的实数，0表示无警告，1表示存在严重问题；财务维度的审计数据用于描述企业的财务表现，例如，资产总额、负债总额和净利润等，以正实数形式表示；资产维度的审计数据用于描述资产保值和增值情况，例如，企业的投资回报率、资产保值率和增值率等指标，其中，投资回报率表示企业通过投资活动获取的收益与总投资的比例；生产效率维度的审计数据用于描述企业的运营效率，例如，生产效率和废品率等，均为[0, 1]范围内的实数，其中0表示效率最低，1表示效率最高。

在一些实施例的步骤S102中，采用主成分分析法对审计数据进行降维，在以最少的信息丢失为前提，通过线性组合的方式将多组审计数据变换为一组与维度线性无关的表示，然后再提取变换后审计数据的主要特征分量，得到融合信息，融合信息包含各个审计数据的关键特征。

在一些实施例的步骤S103中，在得到融合信息之后，获取训练好的自注意力模型，将融合信息输入到自注意力模型中，通过自注意力模型对融合信息进行特征抽取，也即对审计数据的关键特征进行下采样以及进行数据增强、卷积池化以及线性变换，以获取融合信息的稀疏特征表示，得到下采样特征，通过多头注意力机制对下采样特征进行注意力处理，得到注意力特征，然后依次对注意力特征进行卷积、归一化和池化处理，即可得到预测信息。

在一些实施例的步骤S104中，在得到预测信息之后，获取训练好的高斯混合模型，将预测信息输入到高斯混合模型中，高斯混合模型中预先训练好若干个对应不同分类类型的高斯子模型，将预测信息输入至各个高斯子模型，判断预测信息相对于高斯子模型的服从程度，从而以服从程度最高的高斯子模型所对应的分类类别作为预测信息的分类类别，得到分类结果。

在本实施例中，高斯混合模型有若干个高斯子模型组成，预先训练好的高斯混合模型时，需要分别训练若干个高斯子模型，例如用于识别资产总额的第一高斯子模型、用于识别负债总额的第二高斯子模型、用于识别企业投资回报率的第三高斯子模型、用于识别生产效率的第四高斯子模型和用于识别企业类型的第五高斯子模型等等。

在一些实施例的步骤S105中，在得到分类结果之后，获取预设的报告模板，根据分类结果所对应的分类类型确定分类结果所对应的预测信息在报告模板中的关联位置，识别分类结果所对应的分类类型和报告模板中各个关联位置的关联特征，将分类结果所对应的分类类型和关联位置的关联特征进行匹配，确定对应的预测信息在预设的报告模板中的关联位置，将预测信息的文本内容插入至对应的关联位置，全部预测信息插入完成时，即可生成审计报告。

在上述步骤S101至步骤S105中，首先获取多个维度的审计数据，对多个维度的审计数据进行多尺度特征融合，可以在以最少的信息丢失为前提快速地对审计数据进行降维并提取出审计数据的关键特征，然后利用训练好的自注意力模型提取特征融合得到的融合信息中与审计需求相关的关键特征，再利用训练好的高斯混合模型对提取得到的预测信息进行分类，确定预测信息的分类类别，最后根据预测信息的分类类别将预测信息的内容插入到预设报告模板中对应的关联位置，从而生成审计报告，通过自注意力模型和混合高斯模型相结合的主动学习的手段，从大量审计数据中有策略地进行关键特征提取和分类，可以通过尽量少的人工处理获得较优的分类效果，能够降低人工成本和出错概率，提高审计报告的生成效率和质量。

请参阅图2，图2是本申请实施例提供的步骤S102的具体方法的流程图。在本申请的一些实施例中，步骤S102具体可以包括但不限于步骤S201至步骤S204，下面结合图2对这四个步骤进行详细介绍。

步骤S201，对审计数据进行预处理，得到预处理数据。

步骤S202，使用预处理数据构建协方差矩阵，得到融合矩阵。

在融合矩阵中，同一维度的审计数据所对应的矩阵元素排列为一行，每个矩阵元素分别表示一个审计数据的特征值。

步骤S203，对融合矩阵进行特征值分解，得到审计数据的特征值和特征值所对应的特征向量，选取具有较大特征值的若干个特征向量作为主成分。

步骤S204，通过将数据映射到主成分所构成的新空间中，得到融合信息。

在一些实施例的步骤S201中，在获得审计数据之后，对审计数据进行预处理，确保预处理后数据的均值为零，得到预处理数据，可以通过减去每个特征的均值来实现，预处理后的数据有助于准确计算协方差矩阵。

在一些实施例的步骤S202中，采用主成分分析方法构建多尺度数据表示，使用每个审计数据的特征值构造矩阵，从而形成融合矩阵。协方差矩阵描述数据特征之间的相关性，对于一个具有m个特征的n个审计数据的数据集，协方差矩阵的维度为m×m，协方差矩阵的元素表示了不同特征值之间的协方差。

在一些实施例的步骤S203中，对融合矩阵进行特征值分解，可以得到审计数据的特征值和特征值所对应的特征向量，将分解得到的特征值进行大小进行排序，特征值表示审计数据在特征向量方向上的方差，特征值所对应的特征向量则表示审计数据在新坐标系中的主要方向，特征值最大的对应特征向量表示数据中包含的最大方差，选择具有较大特征值的前k个特征向量作为主成分。

在一些实施例的步骤S204中，通过将数据映射到主成分所构成的新空间，以实现降维，数据投影是通过将原始的预处理数据与所选的主成分进行点乘实现的，投影后的数据具有较低的维度，但仍尽可能保留原始数据的信息。

请参阅图3，图3是本申请实施例提供的步骤S103的具体方法的流程图。在本申请的一些实施例中，步骤S103具体可以包括但不限于步骤S301至步骤S303，下面结合图3对这三个步骤进行详细介绍。

本实施例中，自注意力模型包括稀疏编码层、自注意力层和池化层。

步骤S301，在稀疏编码层中，使用预设的稀疏编码目标函数对融合信息进行稀疏特征抽取，以获取融合信息的特征进行稀疏表示，得到稀疏编码。

步骤S302，在自注意力层中，使用预设的权重矩阵对稀疏编码进行加权拟合处理，得到稀疏编码的特征向量，对特征向量进行归一化处理，得到归一化向量。

步骤S303，在池化层中，对归一化向量进行最大池化操作，以对归一化向量中元素的特征进行提取，得到预测信息。

在一些实施例的步骤S301中，稀疏编码目标函数为：

，

其中，D是一个词典矩阵，H是A的稀疏表示，λ是一个正则化参数，用于控制稀疏性的程度。

在一些实施例的步骤S302中，在获得稀疏编码后，将稀疏编码输入至自注意力层，在自注意力层中会计算序列中每个稀疏编码与其他所有稀疏编码的关联度（或称为权重），这些权重反映了各个稀疏编码之间的相互关系。

具体而言，首先，使用预设的权重矩阵对输入的稀疏编码进行加权拟合处理，以通过线性变换得到稀疏编码的特征向量，稀疏编码的特征向量包括一个查询向量、一个键向量以及一个值向量，然后将稀疏编码的特征向量输入至softmax函数进行归一化处理，将特征向量的每个元素转换成概率的表示，得到归一化向量，归一化向量的每个元素的和等于1。自注意力机制的表达式为：

，

其中，O为归一化向量，H为稀疏编码，W_Q为查询的权重矩阵，W_K为键的权重矩阵，W_V为值的权重矩阵。

在一些实施例的步骤S303中，在获得归一化向量后，将归一化向量输入至池化层，对归一化向量进行最大池化操作，对归一化向量中元素的特征进行挑选，以提取归一化向量中各个区域的最大值，强化关键特征的表示。最大池化操作的表达式为：

，

其中，I为预测信息，MaxPooling(·)为最大池化操作。

请参阅图4，图4是本申请实施例提供的自注意力模型的训练方法的流程图。在本申请的一些实施例中，自注意力模型的训练方法具体可以包括但不限于步骤S401至步骤S407，下面结合图4对这七个步骤进行详细介绍。

步骤S401，获取若干个维度的样本数据。

步骤S402，对样本数据进行多尺度特征融合，得到样本信息。

步骤S403，获取待训练的自注意力模型。

步骤S404，将样本信息输入到待训练的自注意力模型，以基于稀疏注意力机制提取样本信息中与审计需求相关的关键特征，得到粗预测信息。

步骤S405，确定样本信息真实的审计关键特征，得到真实信息。

步骤S406，基于粗预测信息与真实信息，确定模型损失信息。

模型损失信息用于表征粗预测信息与真实信息之间的审计属性匹配程度。

步骤S407，基于模型损失信息调整待训练的自注意力模型的权重参数，在模型损失信息符合结束条件时，得到训练好的自注意力模型。

可以理解的是，样本数据本质上是审计数据，样本数据作为训练自注意力模型的素材，步骤S401、步骤S402和步骤S404的具体过程与上述步骤S101、步骤S102和步骤S103的具体过程实质相同，在此不再赘述。

在一些实施例的步骤S405中，确定样本信息真实的审计关键特征，可以是人工标注或使用已经训练好的分类模型实现。

在一些实施例的步骤S406中，根据粗预测信息与真实信息，通过交叉熵损失函数计算模型损失信息，表示粗预测信息与真实信息之间的差异，交叉熵损失函数的表达式为：

，

其中，L为模型损失信息，Y_j为真实信息，I_j为粗预测信息。

在一些实施例的步骤S407中，为了最小化模型损失信息，采用梯度下降法对自注意力模型的权重参数的权重参数进行更新。具体而言，计算模型损失信息关于待训练的自注意力模型的权重参数的梯度，根据预设的学习率和计算得到的梯度，迭代更新待训练的自注意力模型的权重参数，直至模型损失信息符合损失条件（损失值不再显著降低）或迭代次数达到阈值次数时，结束训练，得到训练好的自注意力模型。更新自注意力模型的权重参数的计算公式为：

，

其中，W_new为当前迭代更新后的权重参数，W_old为当前迭代更新前的权重参数，α为学习率，为模型损失信息关于待训练的自注意力模型的权重参数的梯度。

请参阅图5，图5是本申请实施例提供的步骤S104的具体方法的流程图。在本申请的一些实施例中，步骤S104具体可以包括但不限于步骤S501至步骤S503，下面结合图5对这三个步骤进行详细介绍。

本实施例中，高斯混合模型至少由两个高斯子模型组成，各高斯子模型分别配置有相应的高斯权重、均值向量和协方差矩阵。

步骤S501，设定训练好的高斯子模型表示相应的分类类别。

步骤S502，计算预测信息的预测值属于每个高斯子模型的后验概率，得到预测值属于分类类别的后验概率。

步骤S503，根据最大后验概率，确定预测值所对应的高斯子模型和分类类别，使用该分类类别作为预测信息中对应预测值的分类结果。

在一些实施例的步骤S501中，根据获取得到审计数据的维度以及预测信息中包含的全部分类类别，确定训练好的高斯子模型所分别对应的分类类别，高斯子模型的数量与分类类别的数量相同，一个训练好的高斯子模型分别对应一个分类类别，各个训练好的高斯子模型的高斯权重、均值向量和协方差矩阵在训练过程中已经被设定好，具有良好的预测精度。

在一些实施例的步骤S502中，根据高斯子模型生成的后验概率为：

，

其中，γ(z_ik)为预测信息的第i个预测值属于第k个高斯子模型的后验概率，K为高斯子模型的数量，k=1,2,...,K，j=1,2,...,K，π_k为第k个高斯子模型的高斯权重，π_j为第j个高斯子模型的高斯权重，N(I_i|μ_k,Σ_k)为预测信息的第i个预测值选中第k个高斯子模型的概率，N(I_i|μ_j,Σ_j)为预测信息的第i个预测值选中第j个高斯子模型的概率。

在一些实施例的步骤S503中，根据最大后验概率，确定预测值所属的高斯子模型，该预设于该高斯子模型的分类类别即为该预测至的分类类别，也就是说，对于每个预测值，其分类类别可以确定为其所属高斯子模型的索引：

，

其中，为预测信息的第i个预测值的最大后验概率。

在预测信息中各个预测值的分类类别后，得到分类结果，分类结果是一个长度为N的向量，该向量由N个分类标签构成，N是分类标签的个数，每个分类标签分别对应预测信息中各个预测值的分类类别。

请参阅图6，图6是本申请实施例提供的高斯混合模型的训练方法的流程图。在本申请的一些实施例中，高斯混合模型的训练方法具体可以包括但不限于步骤S601至步骤S603，下面结合图6对这三个步骤进行详细介绍。

步骤S601，初始化各个待训练的高斯子模型的高斯权重、均值向量和协方差矩阵。

步骤S602，使用待训练的高斯子模型表示相应的分类类别，计算预测信息的预测值来自每个高斯子模型的后验概率，得到预测值属于分类类别的训练后验概率。

步骤S603，使用最大训练后验概率更新待训练的高斯子模型的高斯权重、均值向量和协方差矩阵，迭代使用更新后的高斯子模型计算预测值属于分类类别的训练后验概率，在达到迭代结束条件时，得到训练好的高斯混合模型。

迭代结束条件为达到预设的迭代次数或相邻两次迭代得到的高斯权重、均值向量和协方差矩阵的变化率均小于预设的阈值。

在一些实施例的步骤S601中，首先确定高斯子模型的数量，然后初始化混合高斯子模型的参数，对于K个高斯子模型，高斯权重π_k将被均匀地初始化为1/K，确保开始时每个高斯子模型都有相等的重要性，均值μ_k从预测信息中随机选择K个预测值作为初始的均值，每一个协方差矩阵Σ_k初始化为预测信息的样本协方差矩阵，确保开始时每个高斯子模型都有相似的形状。这样的初始化策略提供了一个合理的起点，允许高斯子模型在后续的迭代中逐步调整并适应数据的真实分布。

在一些实施例的步骤S603中，使用最大训练后验概率更新待训练的高斯子模型的高斯权重、均值向量和协方差矩阵，具体为：

，

其中，μ_k ^new为第k个高斯子模型更新后的均值，γ(z_ik)为预测信息的第i个预测值属于第k个高斯子模型的后验概率，I_i为样本信息的第i个样本值，N为样本值的数量，Σ_k ^new为第k个高斯子模型更新后的协方差矩阵，(I_i-μ_k ^new)^T为(I_i-μ_k ^new)的转置矩阵，π_k ^new为第k个高斯子模型更新后的高斯权重。

通过上述计算公式迭代地更新待训练的高斯子模型的高斯权重、均值向量和协方差矩阵，直至达到预设的迭代次数或高斯子模型相邻两次迭代得到的高斯权重、均值向量和协方差矩阵的变化率均小于预设的阈值时，得到训练好的高斯混合模型。

请参阅图7，图7是本申请实施例提供的步骤S105的具体方法的流程图。在本申请的一些实施例中，步骤S105具体可以包括但不限于步骤S701至步骤S703，下面结合图7对这三个步骤进行详细介绍。

步骤S701，从报告模板中获取与关联位置相关联的文本标签。

步骤S702，对分类结果和文本标签进行语义关联识别，得到识别结果。

步骤S703，根据识别结果确定预测信息所对应的关联位置，将预测信息插入至对应的关联位置，从而生成审计报告。

可以理解的是，文本标签是指与分类结果存在上下文关联的文本，也即存在语义关联的文本，通常情况下，文本标签和分类结果用于描述同一分类类别的预测信息。

在上述步骤S701至步骤S703中，预先分配文本标签给报告模板的各个关联位置，生成审计报告时，获取各个未插入预测信息的关联位置所对应的文本标签，通过语义识别算法对分类结果和文本标签进行语义关联识别，将分类结果与对应的文本标签进行两两匹配，从而得到识别结果，根据识别结果所包含的匹配关系，将对应预测信息的预测值插入至对应的关联位置，预测值包含审计数据的关键特征，从而生成审计报告。例如，若 = "资产总额"，则/>的内容将插入到模板对应的位置。例如，在分类结果中，预测信息的第i个预测值所对应的分类类别为资产总额，则通过语义关联识别将第i个预测值与具有“资产总额”语义的文本标签进行匹配，将第i个预测值填写至该文本标签所对应的关联位置。

在一些实施例中，为了提高审计报告的易读性，某些关键指标，例如，投资回报率或资产保值率，可以通过图表或图形展示其历史趋势或与其他企业的比较，这些可视化元素可以通过自动化的数据可视化工具生成。

在一些实施例中，在将预测信息的全部预测值插入审计模板后，接下来进行报告内容的格式化，利用标记语言工具，例如LaTeX或Markdown，确保文本、图表和图形的排列均遵循统一的风格和标准，最后，填充和格式化后的模板将被保存并输出为企业的结构化审计报告，选择常见的文档格式如PDF或Word以方便后续的分发和查阅。

请参阅图8，本申请实施例还提供一种审计报告生成装置，可以实现上述审计报告生成方法，该装置包括：

第一模块801，用于获取若干个维度的审计数据；

第二模块802，用于对审计数据进行多尺度特征融合，得到融合信息；

第三模块803，用于将融合信息输入到训练好的自注意力模型，以基于稀疏注意力机制提取融合信息中与审计需求相关的关键特征，得到预测信息；

第四模块804，用于将预测信息输入到训练好的高斯混合模型，以基于混合高斯分布确定预测信息所属的分类类别，得到分类结果；

第五模块805，用于基于分类结果确定对应预测信息在预设的报告模板中的关联位置，将预测信息插入至对应的关联位置，从而生成审计报告。

该审计报告生成装置的具体实施方式与上述审计报告生成方法的具体实施例基本相同，在此不再赘述。

图9是根据一示例性实施例示出的一种电子设备的框图。

下面参照图9来描述根据本公开的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于：至少一个处理单元910、至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930、显示单元940等。

其中，存储单元存储有程序代码，程序代码可以被处理单元910执行，使得处理单元910执行本说明书上述审计报告生成方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元910可以执行如图1、图2、图3和图4中所示的步骤。

存储单元920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)9201和/或高速缓存存储单元9202，还可以进一步包括只读存储单元(ROM)9203。

存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204，这样的程序模块9205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线930可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备900也可以与一个或多个外部设备900’(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且，电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器960可以通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述审计报告生成方法。

本申请实施例提供的审计报告生成方法、装置、设备及存储介质，首先获取多个维度的审计数据，对多个维度的审计数据进行多尺度特征融合，可以在以最少的信息丢失为前提快速地对审计数据进行降维并提取出审计数据的关键特征，然后利用训练好的自注意力模型提取特征融合得到的融合信息中与审计需求相关的关键特征，再利用训练好的高斯混合模型对提取得到的预测信息进行分类，确定预测信息的分类类别，最后根据预测信息的分类类别将预测信息的内容插入到预设报告模板中对应的关联位置，从而生成审计报告，通过自注意力模型和混合高斯模型相结合的主动学习的手段，从大量审计数据中有策略地进行关键特征提取和分类，可以通过尽量少的人工处理获得较优的分类效果，能够降低人工成本和出错概率，提高审计报告的生成效率和质量。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种审计报告生成方法，其特征在于，包括：

获取若干个维度的审计数据；

对审计数据进行多尺度特征融合，得到融合信息；

基于分类结果确定对应预测信息在预设的报告模板中的关联位置，将预测信息插入至对应的关联位置，从而生成审计报告；

所述自注意力模型包括稀疏编码层、自注意力层和池化层；

在池化层中，对归一化向量进行最大池化操作，以对归一化向量中元素的特征进行提取，得到预测信息；

所述稀疏编码目标函数为：

，

其中，D是一个词典矩阵，H是A的稀疏表示，λ是一个正则化参数，用于控制稀疏性的程度；

自注意力机制的表达式为：

，

其中，O为归一化向量，W_Q为查询的权重矩阵，W_K为键的权重矩阵，W_V为值的权重矩阵；

所述最大池化操作的表达式为：

，

其中，I为预测信息，MaxPooling(·)为最大池化操作。

2.根据权利要求1所述的审计报告生成方法，其特征在于，所述对审计数据进行多尺度特征融合，得到融合信息，包括：

对审计数据进行预处理，得到预处理数据；

3.根据权利要求1所述的审计报告生成方法，其特征在于，所述自注意力模型的训练方法，包括：

获取若干个维度的样本数据；

对样本数据进行多尺度特征融合，得到样本信息；

获取待训练的自注意力模型；

确定样本信息真实的审计关键特征，得到真实信息；

4.根据权利要求1所述的审计报告生成方法，其特征在于，所述高斯混合模型至少由两个高斯子模型组成，各所述高斯子模型分别配置有相应的高斯权重、均值向量和协方差矩阵；

设定训练好的高斯子模型表示相应的分类类别；

5.根据权利要求4所述的审计报告生成方法，其特征在于，所述高斯混合模型的训练方法，包括：

6.根据权利要求1所述的审计报告生成方法，其特征在于，所述基于分类结果确定对应预测信息在预设的报告模板中的关联位置，将预测信息插入至对应的关联位置，从而生成审计报告，包括：

从报告模板中获取与关联位置相关联的文本标签；

对分类结果和文本标签进行语义关联识别，得到识别结果；

7.一种审计报告生成装置，其特征在于，包括：

第一模块，用于获取若干个维度的审计数据；

第五模块，用于基于分类结果确定对应预测信息在预设的报告模板中的关联位置，将预测信息插入至对应的关联位置，从而生成审计报告；

所述自注意力模型包括稀疏编码层、自注意力层和池化层；

所述稀疏编码目标函数为：

，

自注意力机制的表达式为：

，

所述最大池化操作的表达式为：

，

其中，I为预测信息，MaxPooling(·)为最大池化操作。

8.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的审计报告生成方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的审计报告生成方法。