CN115994217A - 一种财务报告舞弊检测方法及系统 - Google Patents
一种财务报告舞弊检测方法及系统 Download PDFInfo
- Publication number
- CN115994217A CN115994217A CN202211507923.7A CN202211507923A CN115994217A CN 115994217 A CN115994217 A CN 115994217A CN 202211507923 A CN202211507923 A CN 202211507923A CN 115994217 A CN115994217 A CN 115994217A
- Authority
- CN
- China
- Prior art keywords
- word
- readability
- text data
- chinese
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 180
- 230000011218 segmentation Effects 0.000 claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000013145 classification model Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 47
- 238000012360 testing method Methods 0.000 claims description 9
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 241000590419 Polygonia interrogationis Species 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 210000001072 colon Anatomy 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 18
- 230000006872 improvement Effects 0.000 description 9
- 101150060512 SPATA6 gene Proteins 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000022372 Reading disease Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 206010013932 dyslexia Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种财务报告舞弊检测方法及系统,属于数据处理技术领域,解决了现有因无法有效区分MD&A语义及语义丢失导致舞弊检测不精确的问题。包括获取历史财务报告构建文本数据集;对文本数据集中每条文本数据进行分词得到分词结果,根据重要性阈值筛选分词结果并转换为词向量,得到词向量矩阵;从字、词、句和段四个维度构建中文可读性指标向量,根据中文可读性指标向量,获取每条文本数据的可读性向量,得到可读性向量矩阵;基于词向量矩阵和可读性向量矩阵,得到样本集;根据样本集训练分类模型,得到舞弊检测模型;预处理待预测的财务报告,将得到的词向量和可读性向量拼接后传入舞弊检测模型,得到检测结果。实现了财务报告舞弊的精确检测。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种财务报告舞弊检测方法及系统。
背景技术
在上市公司的财务舞弊检测中,反舞弊最关键、最困难的环节即对舞弊迹象的识别。
早期的研究主要偏向使用财务报表等结构化数据对公司舞弊进行识别。随着自然语言处理技术的快速发展,学者们开始聚焦于利用非结构化数据,通过分析上市公司年报中的管理层讨论与分析章节(Management Discussion and Analysis,MD&A)来区分舞弊公司和非舞弊公司。
但是,由于年报MD&A中存在专业词汇、单个词语数量较多且多次重复出现等特性,常规的自然语言处理方法无法将其有效的分开。同时现有的研究也存在对非结构化数据信息利用不足的问题,主要体现在利用自然语言处理方法对整个文本进行向量化时,无法捕捉文本结构的语义特征,使得文本向量化后损失了语义信息,进而导致对公司舞弊识别无法达到最佳效果。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种财务报告舞弊检测方法及系统,用以解决现有因无法有效区分MD&A语义导致舞弊检测不精确的问题,同时也引入了一种全新的方法实现更为全面的衡量MD&A文本可读性,进而补充自然语言处理方法造成的文本语义丢失问题。
一方面,本发明实施例提供了一种财务报告舞弊检测方法包括如下步骤:
获取历史财务报告,构建文本数据集;
对文本数据集中每条文本数据进行分词,得到分词结果,根据重要性阈值,筛选分词结果并转换为词向量,得到文本数据集的词向量矩阵;
从字、词、句和段四个维度构建中文可读性指标向量,根据中文可读性指标向量,获取文本数据集中每条文本数据的可读性向量,得到文本数据集的可读性向量矩阵;
基于词向量矩阵和可读性向量矩阵,对每条文本数据对应的词向量和可读性向量进行拼接,作为一条样本,得到样本集;根据样本集训练分类模型,得到舞弊检测模型;
预处理待预测的财务报告,将得到的词向量和可读性向量拼接后传入舞弊检测模型,得到检测结果。
基于上述方法的进一步改进,获取历史财务报告,构建文本数据集,包括:
获取历史各年度和各季度财务报告中的MD&A文本,以及历史舞弊记录;根据每条历史舞弊记录中的公司和年度,将该公司当年和上一年的年度财务报告,及对应年度的各季度财务报告的MD&A文本都设置为舞弊的分类标签;其它的MD&A文本设置为非舞弊的分类标签;
将每条MD&A文本作为一条文本数据与对应的分类标签,放入文本数据集中。
基于上述方法的进一步改进,对文本数据集中每条文本数据进行分词,得到分词结果,包括:
使用正则表达式去除文本数据中的英文字符、空字符和无用标点符号,无用标点符号是除句号、中文问号、中文感叹号、中文分号、中文逗号和中文冒号之外的标点符号;
使用jieba库的精确模式进行分词,并根据停用词表去除停用词,得到分词结果。
基于上述方法的进一步改进,根据重要性阈值,筛选分词结果并转换为词向量,包括:
将每条文本数据的分词结果作为特征,分类标签作为响应变量,采用随机森林模型构建多棵决策树;按分词结果中各词汇的重要性从高到低排序分词结果;根据重要性阈值,从每条文本数据的排序后的分词结果中按顺序选取相同数量的词汇;
采用Hash Trick方法,将每条文本数据选取的词汇转换为词向量。
基于上述方法的进一步改进,从字、词、句和段四个维度构建中文可读性指标向量,包括:基于中文文本语言结构特征,根据常用字比率构建字的中文可读性指标;根据常用词比率、成语比率、专业词汇比率、逆接关系连接词比率和否定词比率构建词的中文可读性指标;根据平均句长和陈述句比率构建句的中文可读性指标;根据段落平均数字数量构建段的中文可读性指标;将字的中文可读性指标、词的中文可读性指标、句的中文可读性指标和段的中文可读性指标组合为中文可读性指标向量。
基于上述方法的进一步改进,根据中文可读性指标向量,获取文本数据集中每条文本数据的可读性向量,包括:
对文本数据集中每条文本数据,按中文可读性指标向量,分别计算出字、词、句和段的中文可读性指标值,得到四维向量;对四维向量进行L2范数的正则化处理后,得到当前文本数据对应的可读性向量。
基于上述方法的进一步改进,字、词、句和段的中文可读性指标值,根据各指标项及其各自的权重,分别通过下列各式计算得到:
其中,表示字的中文可读性指标值,表示常用字比率;表示词的中文可读性指标值,表示常用词比率,表示成语比率,表示专业词汇比率,表示逆接关系连接词比率,表示否定词比率;表示句的中文可读性指标值,表示平均句长,表示陈述句比率;表示段的中文可读性指标值,表示段落平均数字数量;分别表示对应指标项的权重。
基于上述方法的进一步改进,样本集划分为训练集和测试集,并采用过采样方法对训练集进行平衡处理,使训练集中各分类标签的训练样本数量一致。
基于上述方法的进一步改进,分类模型是支持向量机分类模型。
另一方面,本发明实施例提供了一种财务报告舞弊检测系统,包括:
数据预处理模块,用于获取历史财务报告,构建文本数据集;
词向量生成模块,用于对文本数据集中每条文本数据进行分词,得到分词结果,根据重要性阈值,筛选分词结果并转换为词向量,得到文本数据集的词向量矩阵;
可读性向量生成模块,从字、词、句和段四个维度构建中文可读性指标向量,根据中文可读性指标向量,获取文本数据集中每条文本数据的可读性向量,得到文本数据集的可读性向量矩阵;
模型训练模块,基于词向量矩阵和可读性向量矩阵,对每条文本数据对应的词向量和可读性向量进行拼接,作为一条样本,得到样本集;根据样本集训练分类模型,得到舞弊检测模型;
舞弊检测模块,用于预处理待预测的财务报告,将得到的词向量和可读性向量拼接后传入舞弊检测模型,得到检测结果。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、基于中文文本语言结构特征,把中文财务报告结构分解为四个维度:字、词、句、段,分别构建字的中文可读性指标、词的中文可读性指标、句的中文可读性指标和段的中文可读性指标。并在此基础上,将四种指标值组成可读性向量对财务报告的MD&A文本可读性信息进行衡量,然后将其作为哈希转化的词向量缺失的语义补充,与词向量共同构建模型,同时也反映出不同财务报告的文本可读性之间无法比较的问题。实现了对财务报告文本可读性的综合考量,提高了舞弊检测的精确率。
2、通过分别建立可读性向量和Hash过后的MD&A文本向量,综合考量了金融类上市公司MD&A文本特征的,进一步提高了模型的性能,解决了金融类上市公司MD&A文本数据在向量化时文本语义无法分开、以及语义丢失的问题。将中文文本分析技术引入财务审计领域,为数字化、智能化审计提供一个新视角新思路,帮助了审计人员进一步提高审计效率。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为本发明实施例1中一种财务报告舞弊检测方法流程图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
实施例1
本发明的一个具体实施例,公开了一种财务报告舞弊检测方法,如图1所示,包括如下步骤:
S11:获取历史财务报告,构建文本数据集。
需要说明的是,金融类上市公司财务报告的MD&A部分由企业的管理团队使用通用且正式的商业语言编辑而成,涵盖了对企业的财务状况、经营成果和前瞻性声明等内容的讨论,作为本实施例中检测财务报告舞弊的文本来源。
具体来说,获取历史财务报告,构建文本数据集,包括:
获取历史各年度和各季度财务报告中的MD&A文本,以及历史舞弊记录;根据每条历史舞弊记录中的公司和年度,将该公司当年和上一年的年度财务报告,及对应年度的各季度财务报告的MD&A文本都设置为舞弊的分类标签;其它的MD&A文本设置为非舞弊的分类标签;
将每条MD&A文本作为一条文本数据与对应的分类标签,放入文本数据集T中,表示为:{[X 1,Y 1],[X 2,Y 2],...,[X n ,Y n ],...[X N ,Y N ]},其中N表示文本数据集中文本总数量,[X n ,Y n ]表示第n条文本数据X n 及其分类标签Y n ,n=1,2,...,N。
考虑到获取的历史舞弊记录一般具有滞后性,比如证券交易所和证监会的行政处罚公告,本实施例在获取到舞弊记录后,除了将当年及当年所有季度的MD&A文本设置为舞弊的分类标签外,还将上一年及上一年所有季度的MD&A文本设置为舞弊的分类标签。
示例性地,从WIND数据库中下载金融类上市公司2005-2019年年度定期报告的MD&A部分,从RESSET审计会计数据库下载季度定期报告的MD&A部分,从CSMAR数据库下载舞弊记录。对获取的历史舞弊记录“XXX〔2009〕63号的公告是对A公司及相关当事人的处分决定,公告日期是2009年”,则将A公司2008年、2009年的年度和所有季度的MD&A文本设置为舞弊的分类标签1,其它不存在历史舞弊记录的MD&A文本设置为非舞弊的分类标签0。本实施例得到的文本数据集中共有3317条文本数据,其中有370条文本数据带有舞弊的分类标签,有2947条文本数据带有非舞弊的分类标签。
S12:对文本数据集中每条文本数据进行分词,得到分词结果,根据重要性阈值,筛选分词结果并转换为词向量,得到文本数据集的词向量矩阵。
需要说明的是,对文本数据集中每条文本数据进行分词,得到分词结果,包括:
基于python使用正则表达式去除文本数据中的英文字符、空字符和无用标点符号,无用标点符号是除句号、中文问号、中文感叹号、中文分号、中文逗号和中文冒号之外的标点符号;
使用jieba库的精确模式进行分词,并根据停用词表去除停用词,得到分词结果。
示例性地,采用哈工大停用词表,去除一些无实际含义的停用词,比如:的、在。本实施例中一条文本数据在去除英文字符、空字符、无用标点符号和停用词后,词汇总数量由10534550减少到2606675,不重复的词汇数量由3117增加到34846。
具体来说,根据重要性阈值,筛选分词结果并转换为词向量,包括:
将每条文本数据的分词结果作为特征,分类标签作为响应变量,采用随机森林模型构建多棵决策树,按分词结果中各词汇的重要性从高到低排序分词结果;根据重要性阈值,从每条文本数据的排序后的分词结果中按顺序选取相同数量的词汇;
需要说明的是,分词得到的词汇存在很多冗余词汇,会在接下来词向量的转化过程中造成一定的Hash碰撞,影响舞弊检测的准确率。因此,本实施例采用随机森林模型筛选出重要性高的词语。
对每条文本数据的分词结果随机选择80%用于随机森林模型的训练,20%用于随机森林模型的测试。将每条文本数据的分词结果作为数据特征,分类标签作为响应变量,根据信息增益率确定分类节点的词汇,构建多棵独立的决策树。当随机森林模型被构建后,根据分词结果中各词汇的重要性,从高到低对各词汇进行排序;从排序后的分词结果中按顺序选取词汇,使筛选出的词汇的累计重要性大于等于重要性阈值。
需要说明的是,对每条文本数据选取相同数量的词汇,使所有文本数据的平均累加重要性大于等于重要性阈值即可。
示例性地,本实施例对每条文本数据的分词结果创建2000棵单独的决策树,对各词汇排序后从中选取出高贡献度的2700个词汇,累加重要性达85%。
③采用Hash Trick方法,将每条文本数据选取的词汇转换为词向量。
需要说明的是,选取的高贡献度的词汇中金融类的专业词汇占比在10%以上时,通过余弦相似度、向量长度相似度等指标,计算使用常规自然语言处理方法,比如Word2vec,向量化后的文本数据中,舞弊文本和非舞弊文本的相似度较为相近,会造成无法进行有效的分类,导致构建的舞弊检测模型效果较差。同时如果采用如词袋法、TF-IDF等会造成会产生较高的特征维度。因此,本实施例采用Hash Trick方法对文本数据进行向量化,提高词向量转化质量,降低特征向量矩阵维度。
优选地,采用sklearn中的HashingVectorizer函数,设置词向量维度为50维,L2范数,对每条文本数据选取的2700个高重要性词构建词向量,最终,文本数据集中3317条文本数据得到3317×50的词向量矩阵。
S13:从字、词、句和段四个维度构建中文可读性指标向量,根据中文可读性指标向量,获取文本数据集中每条文本数据的可读性向量,得到文本数据集的可读性向量矩阵。
考虑到可读性作为财务报告中语义信息的一种重要体现,能够传达出公司预期财务及经营状况,而中文文本语言结构特征复杂度高,语义复杂度会体现在各个层面,现有的可读性指标只能衡量财务报告可读性信息的某一方面。因此,本实施例基于中文文本语言结构特征,将财务报告的MD&A文本分解成字、词、句和段四个维度,根据每个维度的特征,分别构建中文可读性指标,在此基础上,组成中文可读性指标向量衡量财务报告的MD&A文本可读性信息,其可以将财务报告不同层面的语义复杂度映射到向量空间中,实现对财务报告整体的语义复杂度的综合衡量。
从字、词、句和段四个维度构建中文可读性指标向量,包括:基于中文文本语言结构特征,根据常用字比率构建字的中文可读性指标;根据常用词比率、成语比率、专业词汇比率、逆接关系连接词比率和否定词比率构建词的中文可读性指标;根据平均句长和陈述句比率构建句的中文可读性指标;根据段落平均数字数量构建段的中文可读性指标;将字的中文可读性指标、词的中文可读性指标、句的中文可读性指标和段的中文可读性指标组合为中文可读性指标向量。
需要说明的是,考虑到不同语义特征之间的语义复杂度不同,本实施例按照中文阅读难度的大小对各指标项设置了不同等级的权重,将同一层面的反映语义特征的指标项按照其权重计算得分,并进行合并作为相应层面的中文可读性指标值。
下面具体说明各个维度的中文可读性指标的指标项及其权重。
1)字的中文可读性指标
字作为文本数据基础的组成单位,在字层面上,可以使用汉字的熟悉程度(即常用性)来衡量文本可读性。本实施例以国家语言文字工作委员会制订的《现代汉语常用字表(3500 字)》作为常用字的评定标准,以常用字比率作为衡量字语义复杂度的变量,常用字比率公式如下所示:
其中,r 1表示常用字比率的权重。
2)词的中文可读性指标
考虑到在构成文本的各种单位中,词处于核心地位,在阅读财务报告的过程中,词的可读性也受多种因素的影响。因此,本实施例从词汇常用性、词汇专业性和词义转折性等三个角度评估词汇可读性。
①词汇常用性
当财务报告中包含常用词越多时,读者的阅读障碍越小,可理解性越强。同时考虑到成语在书面表达中的特殊性,也将成语纳入到常用词的度量内,以常用词比率和成语比率作为衡量词语义复杂度的变量。其中,常用词和成语分别以中国汉语水平考试(HSK)1-4级词汇为标准和清华成语词库来界定。常用词比率和成语比率公式如下所示:
②词汇专业性
需要说明的是,大部分财务报告的阅读难度与专业化的科技、学术论文相差无几,主要原因是其中包含大量的金融专业术语。如“留存收益”、“盈余公积”等。因此,本实施例采用清华金融词库来筛选专业词汇,以专业词汇比率作为衡量词语义复杂度的变量。专业词汇比率公式如下所示:
③词义转折性
由于一句话中包含虚词、连词、否定词越多,文本的逻辑关系越复杂,文本理解难度越大,因此,本实施例参考廖秋忠的现代汉语篇章中的连接成分,将逆接关系连接词比率和否定词比率作为衡量词语义复杂度的变量,逆接关系连接词比率和否定词比率公式如下所示:
其中,r 2表示常用词比率的权重,r 3表示成语比率的权重,r 4表示专业词汇比率的权重,r 5表示逆接关系连接词比率的权重,r 6表示否定词比率的权重。
3)句的中文可读性指标
由于句特征主要考察句长度和句复杂性,而标点符号在句中表示停顿,其数量直接影响着年报语义的复杂度。因此,本实施例将句号、问号、感叹号和分号的数量作为句子数。
①句长度
平均句长是一种有效将文本进行分类的方法。从阅读者的角度来看,理解长句需要花费更多时间和精力,尤其多个分句所构成的复杂句式。 本实施例将句长度作为衡量句语义复杂度的变量。句长度公式如下所示:
②句复杂性
在日常语言的使用中,简单的陈述复杂句要比词语和修饰成分较多、结构较复杂的句子更容易理解。因此,本实施例将陈述句比率作为衡量句语义复杂度的变量。陈述句比率公式如下所示:
其中,r 7表示平均句长的权重,r 8表示陈述句比率的权重。
4)段的中文可读性指标
考虑到财务报告的MD&A中除了包含大量的文字信息,还包含许多明确的数字信息,比如1、2等,能够对文本起到辅助解释作用,使得读者更加容易理解。所以本文将段落平均数字作为辅助指标来衡量段落语义复杂度。段落平均数字数量的公式如下所示:
其中,r 9表示段落平均数字数量的权重。
需要说明的是,根据上述公式可知,字、词、句和段四个维度的中文可读性指标共涉及9个指标项,其中,常用字比率、常用词比率、陈述句比率和段落平均数字数量与文本可读性正相关,分别对应权重r 1、r 2、r 8和r 9,设置为大于1的数值,平均句长与文本可读性负相关,但是公式(11)中取的是倒数,因此对应的权重r 7也设置为大于1的数值;而成语比率、专业词汇比率、逆接关系连接词比率和否定词比率与文本可读性负相关,分别对应权重r 3、r 4、r 5和r 6,设置为小于0的数值。
优选地,本实施例对这9个指标项设置了7个级别的权重,分别是:r 7=15,r 1,r 2,r 8=1.5,r 9=1,r 4=-1,r 6=-10,r 5=-50,r 3=-100。
基于上述公式,将字、词、句和段四个维度的中文可读性指标组合为中文可读性指标向量,根据中文可读性指标向量,获取文本数据集中每条文本数据的可读性向量,包括:
需要说明的是,四维向量的正则化处理方式与词向量转换中的正则化处理方式一致,使得所有向量化后的数据在一个量纲内。
与现有技术相比,本实施例将不同维度不同层面的指标组成向量,从整体上对财务报告进行综合衡量,反映财务报告的可读性,解决了指标之间不可比的问题,减少了财务报告语义信息的丢失。
S14:基于词向量矩阵和可读性向量矩阵,对每条文本数据对应的词向量和可读性向量进行拼接,作为一条样本,得到样本集;根据样本集训练分类模型,得到舞弊检测模型。
需要说明的是,在步骤S12中从文本层面得到了词向量矩阵,在步骤S13中从可读性层面得到了可读性向量矩阵,将同一条文本数据对应的词向量和可读性向量顺序拼接,作为一条样本,得到样本集。在步骤S11中构建文本数据集时,每一条文本数据的分类标签,即为对应样本的分类标签。
示例性的,针对文本数据集中3317条文本数据,得到3317行54列的向量作为样本集。
将样本集划分为训练集和测试集时,为了确保测试集中同时包含有舞弊样本和非舞弊样本,根据样本的分类标签,先划分为舞弊样本集和非舞弊样本集后,再分别从中选择样本放入训练集和测试集中。
由于本领域中从历史财务报告获取的样本存在明显的数据不平衡现象,比如本实施例中舞弊样本数量370个和非舞弊样本数量2947个的比例接近1:9,因此,对划分得到训练集采用过采样SMOTE方法进行平衡处理,使训练集中各分类标签的训练样本数量一致。
基于训练集训练分类模型,基于测试集验证分类模型,以防止分类模型对训练集的过拟合或欠训练。本实施例采用支持向量机分类模型。
示例性地,在支持向量机分类模型中使用高斯核函数,利用网格搜索方法,将惩罚系数C设置为9,核函数的系数gamma设置为0.8。
测试结束后,根据测试结果评估分类模型的精确率(Precision)、召回率(Recall)和F1值。本实施例中舞弊样本作为正样本,非舞弊样本作为负样本,基于混淆矩阵对以上指标进行定义。其中,精确率是指在分类模型预测为舞弊的样本中,预测正确即实际为舞弊样本的比例,表示的是结果中的预测准确程度。召回率是真实为舞弊的样本中预测正确的数据个数,用来刻画舞弊样本有多少被筛选出来了。F1值可以理解为是精确率与召回率的调和平均数,综合了精确率和召回率的结果,且二者的权重相同的,F1值越接近1表示模型的性能越好。
需要说明的是,本实施例对输入SVM的不同向量矩阵进行了测试,评估指标的对比结果详见表1。
在表1中,在加入了词向量之后,效果较为明显,说明词的层面是影响文本可读性的主要方面。本实施例在Hash Trick向量化后的词向量特征矩阵上分别加入字、词、句和段的向量后,模型的精确率、召回率和F1值方面都有不同程度的性能提升。实证表明,一方面,说明在判断MD&A的可读性方面,本实施例构建的不同层面的中文可读性指标对舞弊识别模型的提升都是有帮助的,缺一不可。另一方面,中文可读性向也诠释了文本语言的复杂度和不可比性,在获取财务报告MD&A文本可读性信息时,我们需要综合地考虑文本的各个方面。
与现有技术相比,本实施例通过将金融类上市公司MD&A部分使用Hash Trick向量化和中文可读性向量综合指标(字、词、句和段)融合之后,机器学习模型性能明显提升,能够识别出更多的舞弊样本。不但解决了金融类文本数据无法有效分开的情况,而且也进一步表明本实施例建立的MD&A中文可读性向量是有效的。
S15:预处理待预测的财务报告,将得到的词向量和可读性向量拼接后传入舞弊检测模型,得到检测结果。
获取到待预测的财务报告后,提取出其中的MD&A文本,采用步骤S12的方法,从待预测的文本数据中筛选出高贡献的词并转换为词向量;采用步骤S13的方法,根据中文可读性指标向量计算出待预测的文本数据的四维向量并转换为可读性向量;将词向量和可读性向量顺序拼接传入舞弊检测模型,得到舞弊和非舞弊的分类标签的概率,取概率最大的分类标签对应的结果作为检测结果。
与现有技术相比,本实施例提供的财务报告舞弊检测方法,基于中文文本语言结构特征,把中文财务报告结构分解为四个维度:字、词、句、段,分别构建字的中文可读性指标、词的中文可读性指标、句的中文可读性指标、段的中文可读性指标。并在此基础上,将四种指标值组成可读性向量对财务报告的MD&A文本可读性信息进行衡量,然后将其作为哈希转化的词向量的缺失的语义补充,与词向量一起共同构建模型,同时也反映出不同财务报告的文本可读性之间无法比较的问题。实现了对财务报告文本可读性的综合考量,提高了舞弊检测的精确率。通过分别建立可读性向量和Hash过后的MD&A文本向量,综合考量了金融类上市公司MD&A文本特征的,进一步提高了模型的性能,解决了金融类上市公司MD&A文本数据在向量化时文本语义无法分开、以及语义丢失的问题。将中文文本分析技术引入财务审计领域,为数字化、智能化审计提供一个新视角新思路,帮助了审计人员进一步提高审计效率。
实施例2
本发明的另一个实施例,公开了一种财务报告舞弊检测系统,从而实现实施例1中的财务报告舞弊检测方法。各模块的具体实现方式参照实施例1中的相应描述。该系统包括:
数据预处理模块,用于获取历史财务报告,构建文本数据集;
词向量生成模块,用于根据重要性阈值,对文本数据集中每条文本数据进行筛选并转换为词向量,得到词向量矩阵;
可读性向量生成模块,用于从字、词、句和段四个维度构建中文可读性指标向量,根据中文可读性指标向量,获取文本数据集中每条文本数据的可读性向量,得到文本数据集的可读性向量矩阵;
模型训练模块,用于基于词向量矩阵和可读性向量矩阵,对每条文本数据对应的词向量和可读性向量进行拼接,作为一条样本,得到样本集;根据样本集训练分类模型,得到舞弊检测模型;
舞弊检测模块,用于预处理待预测的财务报告,将得到的词向量和可读性向量拼接后传入舞弊检测模型,得到检测结果。
由于本实施例一种财务报告舞弊检测系统与前述一种财务报告舞弊检测方法相关之处可相互借鉴,此处为重复描述,故这里不再赘述。由于本系统实施例与上述方法实施例原理相同,所以本系统实施例也具有上述方法实施例相应的技术效果。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种财务报告舞弊检测方法,其特征在于,包括如下步骤:
获取历史财务报告,构建文本数据集;
对文本数据集中每条文本数据进行分词,得到分词结果,根据重要性阈值,筛选分词结果并转换为词向量,得到文本数据集的词向量矩阵;
从字、词、句和段四个维度构建中文可读性指标向量,根据中文可读性指标向量,获取文本数据集中每条文本数据的可读性向量,得到文本数据集的可读性向量矩阵;
基于词向量矩阵和可读性向量矩阵,对每条文本数据对应的词向量和可读性向量进行拼接,作为一条样本,得到样本集;根据样本集训练分类模型,得到舞弊检测模型;
预处理待预测的财务报告,将得到的词向量和可读性向量拼接后传入舞弊检测模型,得到检测结果。
2.根据权利要求1所述的财务报告舞弊检测方法,其特征在于,所述获取历史财务报告,构建文本数据集,包括:
获取历史各年度和各季度财务报告中的MD&A文本,以及历史舞弊记录;根据每条历史舞弊记录中的公司和年度,将该公司当年和上一年的年度财务报告,及对应年度的各季度财务报告的MD&A文本都设置为舞弊的分类标签;其它的MD&A文本设置为非舞弊的分类标签;
将每条MD&A文本作为一条文本数据与对应的分类标签,放入文本数据集中。
3.根据权利要求2所述的财务报告舞弊检测方法,其特征在于,所述对文本数据集中每条文本数据进行分词,得到分词结果,包括:
使用正则表达式去除文本数据中的英文字符、空字符和无用标点符号,所述无用标点符号是除句号、中文问号、中文感叹号、中文分号、中文逗号和中文冒号之外的标点符号;
使用jieba库的精确模式进行分词,并根据停用词表去除停用词,得到分词结果。
4.根据权利要求3所述的财务报告舞弊检测方法,其特征在于,所述根据重要性阈值,筛选分词结果并转换为词向量,包括:
将每条文本数据的分词结果作为特征,分类标签作为响应变量,采用随机森林模型构建多棵决策树;按分词结果中各词汇的重要性从高到低排序分词结果;根据重要性阈值,从每条文本数据的排序后的分词结果中按顺序选取相同数量的词汇;
采用Hash Trick方法,将每条文本数据选取的词汇转换为词向量。
5.根据权利要求1所述的财务报告舞弊检测方法,其特征在于,所述从字、词、句和段四个维度构建中文可读性指标向量,包括:基于中文文本语言结构特征,根据常用字比率构建字的中文可读性指标;根据常用词比率、成语比率、专业词汇比率、逆接关系连接词比率和否定词比率构建词的中文可读性指标;根据平均句长和陈述句比率构建句的中文可读性指标;根据段落平均数字数量构建段的中文可读性指标;将字的中文可读性指标、词的中文可读性指标、句的中文可读性指标和段的中文可读性指标组合为中文可读性指标向量。
6.根据权利要求5所述的财务报告舞弊检测方法,其特征在于,所述根据中文可读性指标向量,获取文本数据集中每条文本数据的可读性向量,包括:
对文本数据集中每条文本数据,按中文可读性指标向量,分别计算出字、词、句和段的中文可读性指标值,得到四维向量;对四维向量进行L2范数的正则化处理后,得到当前文本数据对应的可读性向量。
8.根据权利要求1所述的财务报告舞弊检测方法,其特征在于,所述样本集划分为训练集和测试集,并采用过采样方法对训练集进行平衡处理,使训练集中各分类标签的训练样本数量一致。
9.根据权利要求1所述的财务报告舞弊检测方法,其特征在于,所述分类模型是支持向量机分类模型。
10.一种财务报告舞弊检测系统,其特征在于,包括:
数据预处理模块,用于获取历史财务报告,构建文本数据集;
词向量生成模块,用于对文本数据集中每条文本数据进行分词,得到分词结果,根据重要性阈值,筛选分词结果并转换为词向量,得到文本数据集的词向量矩阵;
可读性向量生成模块,用于从字、词、句和段四个维度构建中文可读性指标向量,根据中文可读性指标向量,获取文本数据集中每条文本数据的可读性向量,得到文本数据集的可读性向量矩阵;
模型训练模块,基于词向量矩阵和可读性向量矩阵,对每条文本数据对应的词向量和可读性向量进行拼接,作为一条样本,得到样本集;根据样本集训练分类模型,得到舞弊检测模型;
舞弊检测模块,用于预处理待预测的财务报告,将得到的词向量和可读性向量拼接后传入舞弊检测模型,得到检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211507923.7A CN115994217B (zh) | 2022-11-29 | 2022-11-29 | 一种财务报告舞弊检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211507923.7A CN115994217B (zh) | 2022-11-29 | 2022-11-29 | 一种财务报告舞弊检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115994217A true CN115994217A (zh) | 2023-04-21 |
CN115994217B CN115994217B (zh) | 2024-01-23 |
Family
ID=85991378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211507923.7A Active CN115994217B (zh) | 2022-11-29 | 2022-11-29 | 一种财务报告舞弊检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115994217B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536784A (zh) * | 2018-03-29 | 2018-09-14 | 广州优视网络科技有限公司 | 评论信息情感分析方法、装置、计算机存储介质和服务器 |
CN109670182A (zh) * | 2018-12-21 | 2019-04-23 | 合肥工业大学 | 一种基于文本哈希向量化表示的海量极短文本分类方法 |
CN110162620A (zh) * | 2019-01-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 黑产广告的检测方法、装置、服务器及存储介质 |
WO2019210820A1 (zh) * | 2018-05-03 | 2019-11-07 | 华为技术有限公司 | 一种信息输出方法及装置 |
CN112307760A (zh) * | 2020-11-13 | 2021-02-02 | 成都知原点科技有限公司 | 基于深度学习的财务报告情感分析方法、装置及终端 |
CN112417863A (zh) * | 2020-11-27 | 2021-02-26 | 中国科学院电子学研究所苏州研究院 | 基于预训练词向量模型与随机森林算法的中文文本分类方法 |
CN112419030A (zh) * | 2020-11-30 | 2021-02-26 | 北京安九信息技术有限公司 | 财务舞弊风险评估的方法、系统及设备 |
WO2022141861A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 情感分类方法、装置、电子设备及存储介质 |
CN114722141A (zh) * | 2021-01-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 文本检测方法及装置 |
CN114881029A (zh) * | 2022-06-09 | 2022-08-09 | 合肥工业大学 | 基于混合神经网络的中文文本可读性评价方法 |
CN114936565A (zh) * | 2022-07-06 | 2022-08-23 | 北京金山数字娱乐科技有限公司 | 主旨信息提取方法及装置 |
-
2022
- 2022-11-29 CN CN202211507923.7A patent/CN115994217B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536784A (zh) * | 2018-03-29 | 2018-09-14 | 广州优视网络科技有限公司 | 评论信息情感分析方法、装置、计算机存储介质和服务器 |
WO2019210820A1 (zh) * | 2018-05-03 | 2019-11-07 | 华为技术有限公司 | 一种信息输出方法及装置 |
CN109670182A (zh) * | 2018-12-21 | 2019-04-23 | 合肥工业大学 | 一种基于文本哈希向量化表示的海量极短文本分类方法 |
CN110162620A (zh) * | 2019-01-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 黑产广告的检测方法、装置、服务器及存储介质 |
CN112307760A (zh) * | 2020-11-13 | 2021-02-02 | 成都知原点科技有限公司 | 基于深度学习的财务报告情感分析方法、装置及终端 |
CN112417863A (zh) * | 2020-11-27 | 2021-02-26 | 中国科学院电子学研究所苏州研究院 | 基于预训练词向量模型与随机森林算法的中文文本分类方法 |
CN112419030A (zh) * | 2020-11-30 | 2021-02-26 | 北京安九信息技术有限公司 | 财务舞弊风险评估的方法、系统及设备 |
WO2022141861A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 情感分类方法、装置、电子设备及存储介质 |
CN114722141A (zh) * | 2021-01-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 文本检测方法及装置 |
CN114881029A (zh) * | 2022-06-09 | 2022-08-09 | 合肥工业大学 | 基于混合神经网络的中文文本可读性评价方法 |
CN114936565A (zh) * | 2022-07-06 | 2022-08-23 | 北京金山数字娱乐科技有限公司 | 主旨信息提取方法及装置 |
Non-Patent Citations (3)
Title |
---|
张群;王红军;王伦文;: "词向量与LDA相融合的短文本分类方法", 现代图书情报技术, no. 12 * |
秦琴等: "中文在线健康教育信息可读性计算及应用实证", 现代情报, vol. 40, no. 5, pages 112 - 115 * |
纪纲;王海东;陈小飞;: "基于数据挖掘中文书目自动分类算法", 计算机测量与控制, no. 05 * |
Also Published As
Publication number | Publication date |
---|---|
CN115994217B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Day et al. | Deep learning for financial sentiment analysis on finance news providers | |
CN110276054B (zh) | 一种保险文本结构化实现方法 | |
CN111831824B (zh) | 一种舆情正负面分类方法 | |
Gupta et al. | Financial statement fraud detection using text mining | |
CN110309400A (zh) | 一种智能理解用户查询意图的方法及系统 | |
CN111966944A (zh) | 一种多层级用户评论安全审核的模型构建方法 | |
CN113220768A (zh) | 基于深度学习的简历信息结构化方法及系统 | |
CN110750978A (zh) | 情感倾向分析方法、装置、电子设备及存储介质 | |
Jiang et al. | Impact of OCR quality on BERT embeddings in the domain classification of book excerpts | |
Wu et al. | Tedm-pu: A tax evasion detection method based on positive and unlabeled learning | |
CN114708000A (zh) | 企业信用分类系统构建方法、装置、电子设备及存储介质 | |
Sharma et al. | Ideology detection in the Indian mass media | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN112632964B (zh) | 基于nlp的行业政策信息处理方法、装置、设备及介质 | |
Park et al. | Automatic construction of context-aware sentiment lexicon in the financial domain using direction-dependent words | |
CN112434862A (zh) | 上市企业财务困境预测方法及装置 | |
CN115994217B (zh) | 一种财务报告舞弊检测方法及系统 | |
CN110543910A (zh) | 信用状态监测系统和监测方法 | |
CN113723085B (zh) | 一种隐私政策文档中伪模糊检测方法 | |
Kacar et al. | Price Rank Prediction of a Company by Utilizing Data Mining Methods on Financial Disclosures | |
CN113722421A (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
Craja et al. | Deep Learning application for fraud detection in financial statements | |
Amzallag | 54,000 PRIIPs KIDs-how to read them (all) | |
Kotepuchai et al. | Multilabel Classification of Account Code in Double-Entry Bookkeeping | |
Carvallo et al. | Automatic Evaluation of French Research Projects in the Acquisition Process of Research Tax Credit (CIR) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |