CN113434639A - 审计数据处理方法及装置 - Google Patents

审计数据处理方法及装置 Download PDF

Info

Publication number
CN113434639A
CN113434639A CN202110774446.XA CN202110774446A CN113434639A CN 113434639 A CN113434639 A CN 113434639A CN 202110774446 A CN202110774446 A CN 202110774446A CN 113434639 A CN113434639 A CN 113434639A
Authority
CN
China
Prior art keywords
data
vector
analysis
word
unstructured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110774446.XA
Other languages
English (en)
Inventor
白盛楠
闫宏宇
陈文博
刘朋强
代琼琼
姚元伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202110774446.XA priority Critical patent/CN113434639A/zh
Publication of CN113434639A publication Critical patent/CN113434639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种审计数据处理方法及装置,涉及大数据技术领域,该方法包括:获取审计数据中的非结构化文本数据;根据非结构化文本数据生成特征向量;利用特征向量进行数据分析,得到第一维度数据;根据非结构化文本数据确定第二维度数据;将非结构化文本数据、第一维度数据和第二维度数据存储至审计平台,以利用审计平台进行审计数据处理。本发明可以更好地刻画数据内容,动态增加不同维度上的指标,增强非结构化数据的可读性,对非结构数据进行分析,提升审计平台的自动化程度,加快审计人员的对非结构化数据的处理速度。

Description

审计数据处理方法及装置
技术领域
本发明涉及大数据技术领域,尤其是涉及一种审计数据处理方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着大数据时代的来临,非结构化数据爆发式增长,非结构化数据具有大量的价值信息,可用于发现审计线索,佐证审计发现等等。然而,当前的审计方法主要处理结构化数据,无法高效地处理非结构化数据。审计工作迫切需要更加智能化、自动化的数据分析技术来提高审计效率,提取有效的审计信息,加强审计内容的全面性和完整性。
发明内容
本发明提供了一种审计数据处理方法及装置,可以有针对性地筛选出非结构化数据,减少审计人员压力,协助审计人员发现审计目标与非结构化数据之间的关系。
第一方面,本发明实施例提供了一种审计数据处理方法,该方法包括:
获取审计数据中的非结构化文本数据;
根据所述非结构化文本数据生成特征向量;
利用所述特征向量进行数据分析,得到第一维度数据;
根据所述非结构化文本数据确定第二维度数据;
将所述非结构化文本数据、所述第一维度数据和所述第二维度数据存储至审计平台,以利用所述审计平台进行审计数据处理。
第二方面,本发明实施例还提供一种审计数据处理装置,该装置包括:
获取模块,用于获取审计数据中的非结构化文本数据;
特征模块,用于根据所述非结构化文本数据生成特征向量;
分析模块,用于利用所述特征向量进行数据分析,得到第一维度数据;
提取模块,用于根据所述非结构化文本数据确定第二维度数据;
存储模块,用于将所述非结构化文本数据、所述第一维度数据和所述第二维度数据存储至审计平台,以利用所述审计平台进行审计数据处理。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述审计数据处理方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述审计数据处理方法的计算机程序。
本发明实施例带来了以下有益效果:本发明实施例提供了一种审计数据处理方案,该方案包括:获取审计数据中的非结构化文本数据;根据非结构化文本数据生成特征向量;利用特征向量进行数据分析,得到第一维度数据;根据非结构化文本数据确定第二维度数据;将非结构化文本数据、第一维度数据和第二维度数据存储至审计平台,以利用审计平台进行审计数据处理。本发明实施例基于审计数据中的非结构化文本数据提取特征向量,再利用特征向量进行数据分析,得到第一维度数据,基于非结构化文本数据确定第二维度数据,得到非结构化文本数据、第一维度数据和第二维度数据构成的三维描述模型,可以更好地刻画数据内容,动态增加不同维度上的指标,增强非结构化数据的可读性,对非结构数据进行分析,提升审计平台的自动化程度,加快审计人员的对非结构化数据的处理速度。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的审计数据处理方法流程图;
图2为本发明实施例提供的整体处理流程图;
图3为本发明实施例提供的提取关键词的流程图;
图4为本发明实施例提供的GRU神经单元内部结构图;
图5为本发明实施例提供的文档分类的流程图;
图6为本发明实施例提供的相似度计算流程图;
图7为本发明实施例提供的计算机设备结构框图;
图8为本发明实施例提供的审计数据处理装置结构框图;
图9为本发明实施例提供的特征模块结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,相较于结构化数据,当前审计系统处理非结构数据时面临着如下问题:
1.传统的数据处理工具基于关系型数据库,擅长解决结构化数据,而不适用于处理海量的非结构化数据,且缺乏成熟简便的非结构化数据处理工具或方法;
2.非结构化的审计资料表达方式多样,规则不统一,缺少统一的刻画语言进行非结构化数据的多维度刻画。
基于此,本发明实施例提供的一种审计数据处理方法及装置,结合审计处理非结构数据的难点,利用大数据平台,对非结构化进行深度解析,通过三维描述模型对非结构化数据进行统一刻画。相较于传统的审计数据处理方法,本发明主要解决了以下问题:
1.统一非结构化数据处理流程,建立非结构化数据统一描述模型——三维描述模型,可动态增加不同维度上的指标,增强非结构化数据的可读性。
2.通过大数据平台,建立文本归类、关键词关联分析以及相似度深度分析模型用于分析非结构数据,提高审计平台的自动化,加快审计人员的对非结构化数据的处理速度。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种审计数据处理方法进行详细介绍。
本发明实施例提供了一种审计数据处理方法,参见图1所示的一种审计数据处理方法流程图,该方法包括以下步骤:
步骤S102,获取审计数据中的非结构化文本数据。
在本发明实施例中,非结构化数据可以分为电子文档类、图像视频类以及音频类三类,电子文档类数据可以包括收发文、规章制度、年度报告以及会议纪要等等,图像视频类和音频类的数据一般需要先转化为可识别的文字描述,进而得到文本类型数据。
因此,从多个系统或者渠道获取审计数据后,利用审计数据中的非结构化数据进行转换,可以得到非结构化文本数据。
步骤S104,根据非结构化文本数据生成特征向量。
在本发明实施例中,对非结构化文本数据进行特征信息提取,得到特征向量。
步骤S106,利用特征向量进行数据分析,得到第一维度数据。
在本发明实施例中,在得到特征向量后,基于特征向量进行数据分析,例如,可以进行分类、关联等数据挖掘等分析处理,将数据分析结果作为第一维度数据,进而利用第一维度数据深度反映非结构化文本数据的属性,例如,业务类别、相似文档、关键词等。
步骤S108,根据非结构化文本数据确定第二维度数据。
在本发明实施例中,将非结构化文本数据中的基本信息进行提取,得到第二维度数据。第二维度数据用于描述非结构化数据的一般属性,可直接反映出的属性,包括文件名称、文号、标题等。可以通过统计算法获取非结构化文本数据的基本信息。
步骤S110,将非结构化文本数据、第一维度数据和第二维度数据存储至审计平台,以利用审计平台进行审计数据处理。
在本发明实施例中,实际上是将原始的非结构化文本数据作为第三维度数据,与第一维度数据和第二维度数据存储在审计平台中,进而实现对非结构化文本数据的三维描述,可以更好地刻画数据内容。审计平台可以基于三维描述,进行多面查询、筛选数据等。
需要说明的是,第二维度数据可以不断更新,当第二维度数据进行更新时,特征向量以及第一维度数据的内容随即进行更新,以确保第二维度数据的内容都可以通过系统自动生成。
参见表1所示的三维描述模型,第二维度数据中可以包括多种基本信息。第一维度数据中可以包括关键词、关联分析、业务类别以及相似文件等多种深度分析数据。
Figure BDA0003154068870000051
表1
本发明实施例提供了一种审计数据处理方案,该方案包括:获取审计数据中的非结构化文本数据;根据非结构化文本数据生成特征向量;利用特征向量进行数据分析,得到第一维度数据;根据非结构化文本数据确定第二维度数据;将非结构化文本数据、第一维度数据和第二维度数据存储至审计平台,以利用审计平台进行审计数据处理。本发明实施例基于审计数据中的非结构化文本数据提取特征向量,再利用特征向量进行数据分析,得到第一维度数据,基于非结构化文本数据确定第二维度数据,得到非结构化文本数据、第一维度数据和第二维度数据构成的三维描述模型,可以更好地刻画数据内容,动态增加不同维度上的指标,增强非结构化数据的可读性,对非结构数据进行分析,提升审计平台的自动化程度,加快审计人员的对非结构化数据的处理速度。
在一个实施例中,根据非结构化文本数据生成特征向量,可以按照如下步骤执行:
根据非结构化文本数据建立专用词词库和无意义词词库;利用专用词词库和无意义词词库对非结构化文本数据进行预处理,得到预处理结果;根据预处理结果生成特征向量。
在本发明实施例中,建立专用词词库,将本次审计行业内的专有词汇添加其中;将长文本转化为短文本。建立无意义词词库,包括公司名称、时间、停用词以及其他噪声等无意义词。参见图2所示的整体处理流程图,专用词词库可以用于分词,无意义词词库可以用于数据清洗。在得到专用词词库和无意义词词库之后,根据词库分词,把句子精确分为一个个词或者词语;还可进行打标签处理,即每个文档对应一个使用one-hot编码的标签;根据词库去掉无意义词。在进行特征表示前,通过进行数据转化、数据清洗、分词以及打标签等数据预处理操作,得到预处理结果。之后,再基于预处理结果生成特征向量。
参见图2,在一个实施例中,本发明可以通过数据预处理、特征表示、深度分析方法三个步骤,将电子文档类数据解析到非结构化数据三维存储平台。为了更好地刻画数据内容,提出三维描述模型,包括基本信息维度、深度分析维度以及原始数据维度,基本信息维度、深度分析维度包含的内容如表1所示,非结构化数据三维存储平台按照三个维度进行存储。其中:
基本信息维度:指非结构化数据都具有的一般属性,可直接反映出的属性,包括文件名称、文号、标题等。
深度分析维度:指非结构数据通过分类、关联等数据挖掘方法呈现出的属性,深度反映数据的特性,包括业务类别、相似文档、关键词等。
原始数据:非结构化数据的原始文件,即非结构化文本数据。
在一个实施例中,根据预处理结果生成特征向量,可以按照如下步骤执行:
利用词频逆文本频率指数方法计算第一向量;利用skip-gram模型计算第二向量;根据第一向量和第二向量生成特征向量。
在本发明实施例中,可以利用词频逆文本频率指数(Term Frequency-InverseDocument Frequency,TF-IDF)方法从预处理结果提取向量,得到第一向量。TF-IDF是通过词频来评估一个词对于文档集的重要程度。利用Skip-gram模型,将词或者词语用50维的向量进行表示,得到第二向量,最后,对第一向量和第二向量进行加权平均,得到特征向量,即文档向量表示。
在本发明实施例中,基于神经网络的Skip-gram模型已知当前,需要对其上下文进行预测,从而使整个语料的优化目标最大化:
Figure BDA0003154068870000071
上式中:w为字典中的任意词;c为w的上下文词;D为从调度日志语料中抽取出的字典。
Skip-gram模型以词或词语为单位训练得到高维的词向量,每次从目标词的上下文中选择n个词,将其词向量作为模型的输入,也就是上下文的表示。
考虑到TF-IDF未考虑词的类间分布情况以及未避免关键词在正文中出现次数比较少从而将关键词去掉了的现象,因此需要对TF-IDF进行改进,因此,在一个实施例中,利用词频逆文本频率指数方法计算第一向量,即利用改进TF-IDF方法得到第一向量,可以按照如下步骤执行:
根据预处理结果计算词频数据和逆文档频率数据;根据逆文档频率数据计算类间分布数据;根据词频数据、所述类间分布数据和位置因子数据计算第一向量。
在本发明实施例中,通过加入词的位置因素以及类间分布情况,改进TF-IDF方法,具体可以按照如下步骤实施。
(1)词频为某个词在文档中出现的次数,正规化计算公式为:
Figure BDA0003154068870000072
其中,TFt表示词频,Ct为词语t在某一文档中出现的次数,|M|为语料的总词数。
(2)逆文档频率为一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,计算公式为:
Figure BDA0003154068870000073
其中,|D|为语料库的文档数,DF为包含词语t的文档数,IDF为逆文档频率。
(3)标题是规章制度、收发文等文本数据的核心,是对内容加以概括或评价的简短文字,因此考虑将出现在标题位置的词权重增加,将标题、新闻内容分别赋予不同的位置因子,在使用TF-IDF计算权重时,计算结果需要再乘以位置因子,形成最终的关键词权重。计算公式为:TF-IDF'=TF×IDF×St,其中,St为词语t的位置因子。
(4)考虑类间分布情况,修改IDF的计算公式,分别计算每个类下的IDF值,再将所有类的IDF值进行方差运算,D(t)的计算公式如下:
Figure BDA0003154068870000081
Figure BDA0003154068870000082
其中,m为类别个数,t为某词语;D(t)表示类间分布数据。
改进后的TF-IDF'计算公式如下:
TF-IDF'=TFt×D(t)×St
其中,TF-IDF'表示第一向量,TFt表示词频,D(t)表示类间分布数据,St为词语t的位置因子。
需要说明的是,位置因子数据St可以根据实际需求进行设置,本发明实施例对此不作具体限定。m类别个数指的是训练数据中的类的个数,具体包括哪些类别由具体的训练数据决定。类间分布情况是词语在不同类别间的分布离散程度。
改进TF-IDF方法,考虑类间分布情况以及词的位置因素,将文档用向量表示,通过词向量表示出文档向量。
最后,将skip-gram模型训练出的词向量与改进后的TF-IDF方法进行加权平均,计算公式为
Figure BDA0003154068870000083
其中Vi为skip-gram模型训练出的词向量,TF-IDFi'为特征表示阶段改进的TF-IDF。
在本发明实施例中,通过改进后的TF-IDF方法TF-IDF’、Skip-gram模型将非结构化的数据表示为更易分析的向量。
在一个实施例中,利用特征向量进行数据分析,可以按照如下步骤执行:
利用特征向量进行关键词提取、关联分析、文本归类分析和相似性分析中的一种或几种数据分析。
在本发明实施例中,基于大数据平台建立包含文本业务归类、关键词提取、关联词分析以及相似文档推荐的深度分析模型。借助于大数据平台,通过多种数据分析方法,自动化地分析出三维描述模型中的深度分析维度,对数据进行深度解析,填写三维描述模型中的深度分析维度。
关键词提取的过程可以包括:利用经过改进后的TF-IDF方法表示,设置阈值M,将超过阈值M的词/词语提取为关键词。
关键词提取具体在实施时,可以参见图3所示的提取关键的流程图,将文档Di中出现的词进行TF-IDF’计算,将TF-IDF’值从大到小以此排列,设置关键词的阈值,超过该阈值的词语,列入关键词的集合W。
在本发明实施例中,关联分析的过程,可以包括,基于语料D的关键词集合W,计算频繁项集和根据频繁项集生成关键词间的关联规则。
在具体实施时,可以基于大数据平台进行关键词关联分析。
设W={w1,w2,...,wm}为m个关键词的集合,D={d1,d2,...,dn}为电子文档库,经过关键词筛选,各个文档只留下关键词,因此文档di成为关键词集合W的子集。关联规则挖掘,主要包括两个阶段,发现频繁项集和根据频繁项集生成关键词间的关联规则。简单地说,关联规则挖掘就是查找频繁项集,将语料库中出现频率超过支持度的频繁项挖掘出。
关联规则中,支持数、支持度、频繁项集的定义与计算如下所示:
支持数:电子文档库中包含Wi的文档数量,
Figure BDA0003154068870000091
支持度:Wi支持数与电子文档库总数的比值,
Figure BDA0003154068870000092
频繁项集:支持度大于最小支持度阈值的项集
K-项集:集合中包含K个关键词的集合
关联规则支持度:Wi、Wj同时出现在文本中的支持数与电子文档库的比值,即
Figure BDA0003154068870000093
置信度:Wi、Wj的共同支持数与Wi的支持数之比,即
Figure BDA0003154068870000094
关联规则的算法是:首先生成最大项目集,然后逐层迭代搜索频繁项集,直至没有更大项目集生成。主要步骤为:
(1)查找所有大于最小支持度的频繁集
扫描数据库中所有的文本数据,并对关键词集合W中的每一个关键词的出现进行计数。设置最小支持度阈值为20%,计算出最小支持数,由此确定单个的频繁项集L1。接下来根据频繁项集L1查找频繁项集L2,将L1连接生成2-项集合,遍历一遍电子文档库数据D,计算2-项集合中每个候选项集的出现过的支持数,与最小支持数进行比较,得到频繁项集L2。依次类推,可以得到L3、L4……。
(2)关联规则的产生
根据频繁项集L得出电子文档库D的所有频繁关联规则,将每个规则进行置信度计算,设置的最小值信度度为70%,满足最小置信度的规则,即为合理的强关联规则。
但由于关联规则算法每次搜索需要遍历数据库,且产生大量的候选集,系统I/O开销大,挖掘效率较低,因此数据量大时,需要借助大数据平台,利用MapReduce并行处理原理,将关联规则算法并行化,具体步骤如下。
(1)首先获取存储在Hive上的电子文档,得到总的数据集D,对数据集D进行Map分块处理;
(2)主进程将数据块分布到每个节点上,每个节点上的Map进程计算出分块数据的候选集;
(3)由于本次关联规则基于关键词,且在数据处理阶段已经获取到筛选出的关键词,因此1-项集即为关键词的集合W;
(4)由1-项集与数据集D计算出每项事物的支持度,将大于20%支持度的事物组为1-项频繁项集;
(5)由1-项频繁项集产生2-项集,逐次迭代,直到产生K-项集;
(6)Reduce进程把每个节点Map进程获取的分块K-项集支持数合并为全局K-项集支持数,由全局项集的支持数计算出全局的K-项频繁集。
文本归类分析,可以包括对文本业务归类处理,例如,可以将经过skip-gram50维向量表示后的文档,通过双向循环神经网络模型对文档进行自动分类。
文本归类分析在具体实施时,可以按照如下步骤执行。
(1)经过skip-gram模型训练词向量后,每个词对应一个50维的向量vi,句子向量由词向量组成,为V={v1,v2,……,vm}
(2)BR-GRU网络的原理及构建
GRU网络模型是循环神经网络的一种改进形式,其内部结构图如图4所示。GRU单元中有独立的记忆单元,每一时刻都在不断的更新其记忆状态,因此具有保存、重置、读取和更新的能力。历史信息通过两个门:重置门(reset gate)、更新门(update gate)的控制进行更新,具体更新方式如下:
更新门Zt决定当前输入数据有多少需要输入到记忆单元中以及从记忆单元状态中遗忘多少信息,由当前时刻的输入值xt和上一时刻隐层输出ht-1共同决定。
zt=σ(Wz·[ht-1,xt])
重置门rt主要是用来控制记忆单元状态值有多少需要输出,由当前时刻的输入值xt和上一时刻隐层输出ht-1共同决定。
rt=σ(Wr·[ht-1,xt])
本单元输出值ht计算,由更新门值Zt和以及上一时刻隐层输出ht-1共同决定。
Figure BDA0003154068870000111
记忆单元的值
Figure BDA0003154068870000112
计算,由当前时刻的输入值xt、上一时刻隐层输出ht-1以及重置门rt值共同决定。
Figure BDA0003154068870000113
其中,σ为Sigmoid函数,取值范围(0,1),φ为tanh函数。
双向循环神经网络BR-GRU分别用前向和后向传播的GRU单元来抓取过去和将来所包含的信息,这两部分的信息组成最终的输出。双向循环神经网络分为三层结构,输入层、隐含层以及输出层:输入层是将步骤1生成的句子向量输入到神经网络的中;隐含层进行更抽象的特征学习,为了区分不同类型的数据,隐含层的最后输出为经过前向和反向两个GRU的学习结果进行拼接,再传给输出层;输出层,通过概率分布函数Softmax进行分类,
Figure BDA0003154068870000114
其中,K是常量,表示分类数,xi是K中分类中一种,softmax(xi)表示该分类xi的概率值。该函数取值范围在(0,1),并且所有分类的值和为1,通过对每个分类的概率值进行比较得到最大的作为该句的文档类别。将得到的神经网络分类结果与真实结果进行比较,若相同则进行下一次的训练;若不同则反向传播,修改参数。通过训练,神经网路模型达到最好的准确率,从而实现神经网络对文本分类的目的。具体流程如图5。
相似性分析的过程,可以包括利用改进TF-IDF方法得到文档向量,基于该文档向量计算文档间的距离,从而找到相似文档。
相似性分析在具体实施时,可以按照如下步骤执行。
(1)通过上一步骤的文档业务分类指标进行筛选,筛选出同业务分类下的文档;
(2)生成句向量。预处理步骤将长文本转化为短文本之后,可以将文档看成一个句子,根据上一阶段生成的TF-IDF以及skip-gram模型生成的词向量加权平均后生成句向量。句向量的计算公式如下:
Figure BDA0003154068870000121
其中Vi为skip-gram模型训练出的词向量,TF-IDFi'为特征表示阶段2改进后的TF-IDF。
(3)计算句向量的相似程度。通过向量间的夹角大小,来判断向量的相似程度。夹角越小,就代表越相似。计算公式入下:
Figure BDA0003154068870000122
可知余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。因此判断出文档间的相似性,具体流程如图6。
上述处理过程中,特征表示是决定模型好坏的关键,而模型的结构设计和参数设置决定了模型的普适度,适用于多种类型的非结构化数据。
本发明提供了一种审计数据处理方法及装置,该方法借助于大数据平台,通过文本主题提取、文档归类、关键词关联分析方法将存储在审计平台中的电子文档类(即:非结构化文本数据)数据进行深度解析,使其更易处理。通过对非结构化数据中的文本型数据进行处理,将非结构化数据信息解析到三维描述模型,可以实现自动化的处理非结构化数据,并加以分析,解析出关键词、关联词、相似文章、业务归类信息,减少人力操作,基本信息和深度分析维度为审计人员筛选信息提供了便利,深度分析维度中的业务归类、关联词、相似文章推荐具有协助审计人员发现审计目标与非结构化数据之间的关系的能力。
本发明实施例中还提供了一种审计数据处理装置,如下面的实施例所述。由于该装置解决问题的原理与审计数据处理方法相似,因此该装置的实施可以参见审计数据处理方法的实施,重复之处不再赘述。参见图8所示的审计数据处理装置结构框图,该装置包括:
获取模块81,用于获取审计数据中的非结构化文本数据;特征模块82,用于根据非结构化文本数据生成特征向量;分析模块83,用于利用特征向量进行数据分析,得到第一维度数据;提取模块84,用于根据非结构化文本数据确定第二维度数据;存储模块85,用于将非结构化文本数据、第一维度数据和第二维度数据存储至审计平台,以利用审计平台进行审计数据处理。
在一个实施例中,参见图9所示的特征模块结构框图,特征模块,包括:
词库单元821,用于根据非结构化文本数据建立专用词词库和无意义词词库;预处理单元822,用于利用专用词词库和无意义词词库对非结构化文本数据进行预处理,得到预处理结果;生成单元823,用于根据预处理结果生成特征向量。
在一个实施例中,生成单元,具体用于:利用词频逆文本频率指数方法计算第一向量;利用skip-gram模型计算第二向量;根据第一向量和所述第二向量生成特征向量。
在一个实施例中,生成单元,具体用于:根据预处理结果计算词频数据和逆文档频率数据;根据逆文档频率数据计算类间分布数据;根据词频数据、类间分布数据和位置因子数据计算第一向量。
在一个实施例中,分析模块,具体用于:利用特征向量进行关键词提取、关联分析、文本归类分析和相似性分析中的一种或几种数据分析。
基于同一发明构思,本发明实施例中还提供了一种用于实现上述审计数据处理方法中的全部或部分内容的电子设备实施例。该电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现上述审计数据处理方法的实施例及用于实现上述审计数据处理装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图7为本发明实施例中提供的一种电子设备的系统组成结构示意图。如图7所示,该电子设备70可以包括处理器701和存储器702;存储器702耦合到处理器701。值得注意的是,该图7是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在一个实施例中,审计数据处理方法实现的功能可以被集成到处理器701中。其中,处理器701可以被配置为进行如下控制:
获取审计数据中的非结构化文本数据;根据非结构化文本数据生成特征向量;利用特征向量进行数据分析,得到第一维度数据;根据非结构化文本数据确定第二维度数据;将非结构化文本数据、第一维度数据和第二维度数据存储至审计平台,以利用审计平台进行审计数据处理。
由上可知,本发明的实施例中提供的电子设备,可以更好地刻画数据内容,动态增加不同维度上的指标,增强非结构化数据的可读性,对非结构数据进行分析,提升审计平台的自动化程度,加快审计人员的对非结构化数据的处理速度。
在另一个实施例中,审计数据处理装置可以与处理器701分开配置,例如可以将审计数据处理装置配置为与处理器701连接的芯片,通过处理器的控制来实现审计数据处理方法的功能。
如图7所示,该电子设备70还可以包括:通信模块703、输入单元704、音频处理单元705、显示器706、电源707。值得注意的是,电子设备70也并不是必须要包括图7中所示的所有部件;此外,电子设备70还可以包括图7中没有示出的部件,可以参考现有技术。
如图7所示,处理器701有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器701接收输入并控制电子设备70的各个部件的操作。
其中,存储器702,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且处理器701可执行该存储器702存储的该程序,以实现信息存储或处理等。
输入单元704向处理器701提供输入。该输入单元704例如为按键或触摸输入装置。电源707用于向电子设备70提供电力。显示器706用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器702可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器702还可以是某种其它类型的装置。存储器702包括缓冲存储器7021(有时被称为缓冲器)。存储器702可以包括应用/功能存储部7022,该应用/功能存储部7022用于存储应用程序和功能程序或用于通过处理器701执行电子设备70的操作的流程。
存储器702还可以包括数据存储部7023,该数据存储部7023用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器702的驱动程序存储部7024可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块703即为经由天线708发送和接收信号的发送机/接收机。通信模块(发送机/接收机)703耦合到处理器701,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块703,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)703还经由音频处理单元705耦合到扬声器709和麦克风710,以经由扬声器709提供音频输出,并接收来自麦克风710的音频输入,从而实现通常的电信功能。音频处理单元705可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理单元705还耦合到处理器701,从而使得可以通过麦克风710能够在本机上录音,且使得可以通过扬声器709来播放本机上存储的声音。
本发明的实施例中还提供了一种用于实现上述实施例中审计数据处理方法中全部步骤的一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的审计数据处理方法的全部步骤,例如,该处理器执行该计算机程序时实现下述步骤:
获取审计数据中的非结构化文本数据;根据非结构化文本数据生成特征向量;利用特征向量进行数据分析,得到第一维度数据;根据非结构化文本数据确定第二维度数据;将非结构化文本数据、第一维度数据和第二维度数据存储至审计平台,以利用审计平台进行审计数据处理。
由上可知,本发明的实施例中提供的计算机可读存储介质,可以更好地刻画数据内容,动态增加不同维度上的指标,增强非结构化数据的可读性,对非结构数据进行分析,提升审计平台的自动化程度,加快审计人员的对非结构化数据的处理速度。
虽然本发明提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。可单独使用本发明的每个方面和/或实施例,或者与一个或更多其他方面和/或其他实施例结合使用。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种审计数据处理方法,其特征在于,包括:
获取审计数据中的非结构化文本数据;
根据所述非结构化文本数据生成特征向量;
利用所述特征向量进行数据分析,得到第一维度数据;
根据所述非结构化文本数据确定第二维度数据;
将所述非结构化文本数据、所述第一维度数据和所述第二维度数据存储至审计平台,以利用所述审计平台进行审计数据处理。
2.根据权利要求1所述的方法,其特征在于,根据所述非结构化文本数据生成特征向量,包括:
根据所述非结构化文本数据建立专用词词库和无意义词词库;
利用所述专用词词库和所述无意义词词库对所述非结构化文本数据进行预处理,得到预处理结果;
根据所述预处理结果生成特征向量。
3.根据权利要求2所述的方法,其特征在于,根据所述预处理结果生成特征向量,包括:
利用词频逆文本频率指数方法计算第一向量;
利用skip-gram模型计算第二向量;
根据所述第一向量和所述第二向量生成特征向量。
4.根据权利要求3所述的方法,其特征在于,利用词频逆文本频率指数方法计算第一向量,包括:
根据所述预处理结果计算词频数据和逆文档频率数据;
根据所述逆文档频率数据计算类间分布数据;
根据所述词频数据、所述类间分布数据和位置因子数据计算第一向量。
5.根据权利要求1所述的方法,其特征在于,利用所述特征向量进行数据分析,包括:
利用所述特征向量进行关键词提取、关联分析、文本归类分析和相似性分析中的一种或几种数据分析。
6.一种审计数据处理装置,其特征在于,包括:
获取模块,用于获取审计数据中的非结构化文本数据;
特征模块,用于根据所述非结构化文本数据生成特征向量;
分析模块,用于利用所述特征向量进行数据分析,得到第一维度数据;
提取模块,用于根据所述非结构化文本数据确定第二维度数据;
存储模块,用于将所述非结构化文本数据、所述第一维度数据和所述第二维度数据存储至审计平台,以利用所述审计平台进行审计数据处理。
7.根据权利要求6所述的装置,其特征在于,所述特征模块,包括:
词库单元,用于根据所述非结构化文本数据建立专用词词库和无意义词词库;
预处理单元,用于利用所述专用词词库和所述无意义词词库对所述非结构化文本数据进行预处理,得到预处理结果;
生成单元,用于根据所述预处理结果生成特征向量。
8.根据权利要求7所述的装置,其特征在于,所述生成单元,具体用于:
利用词频逆文本频率指数方法计算第一向量;
利用skip-gram模型计算第二向量;
根据所述第一向量和所述第二向量生成特征向量。
9.根据权利要求8所述的装置,其特征在于,所述生成单元,具体用于:
根据所述预处理结果计算词频数据和逆文档频率数据;
根据所述逆文档频率数据计算类间分布数据;
根据所述词频数据、所述类间分布数据和位置因子数据计算第一向量。
10.根据权利要求6所述的装置,其特征在于,所述分析模块,具体用于:
利用所述特征向量进行关键词提取、关联分析、文本归类分析和相似性分析中的一种或几种数据分析。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一所述审计数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至5任一所述审计数据处理方法的计算机程序。
CN202110774446.XA 2021-07-08 2021-07-08 审计数据处理方法及装置 Pending CN113434639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110774446.XA CN113434639A (zh) 2021-07-08 2021-07-08 审计数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110774446.XA CN113434639A (zh) 2021-07-08 2021-07-08 审计数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN113434639A true CN113434639A (zh) 2021-09-24

Family

ID=77759701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110774446.XA Pending CN113434639A (zh) 2021-07-08 2021-07-08 审计数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN113434639A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114444105A (zh) * 2022-01-28 2022-05-06 北京中友金审科技有限公司 一种智能审计数据报送安全方法
CN117993868A (zh) * 2024-04-02 2024-05-07 国网山东省电力公司济宁供电公司 基于双模态注意力的电网工程项目审计预警方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114444105A (zh) * 2022-01-28 2022-05-06 北京中友金审科技有限公司 一种智能审计数据报送安全方法
CN117993868A (zh) * 2024-04-02 2024-05-07 国网山东省电力公司济宁供电公司 基于双模态注意力的电网工程项目审计预警方法及系统

Similar Documents

Publication Publication Date Title
CN107832286B (zh) 智能交互方法、设备及存储介质
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
CN110019732B (zh) 一种智能问答方法以及相关装置
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN108027814B (zh) 停用词识别方法与装置
CN116911312B (zh) 一种任务型对话系统及其实现方法
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
CN113434639A (zh) 审计数据处理方法及装置
CN112307770A (zh) 敏感信息的检测方法、装置、电子设备及存储介质
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN114003682A (zh) 一种文本分类方法、装置、设备及存储介质
CN116501875A (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
Wei et al. Online education recommendation model based on user behavior data analysis
CN111414471A (zh) 用于输出信息的方法和装置
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN115757786A (zh) 文本分类方法、装置、设备及存储介质
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
CN110874408A (zh) 模型训练方法、文本识别方法、装置及计算设备
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
CN114117057A (zh) 产品反馈信息的关键词提取方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination