CN110543475A - 一种基于机器学习的财务报表数据自动识别和分析方法 - Google Patents

一种基于机器学习的财务报表数据自动识别和分析方法 Download PDF

Info

Publication number
CN110543475A
CN110543475A CN201910820809.1A CN201910820809A CN110543475A CN 110543475 A CN110543475 A CN 110543475A CN 201910820809 A CN201910820809 A CN 201910820809A CN 110543475 A CN110543475 A CN 110543475A
Authority
CN
China
Prior art keywords
data
information
financial
text
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910820809.1A
Other languages
English (en)
Inventor
李梓成
刘广洲
杨超凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Origin Parameter Information Technology Co ltd
Original Assignee
Shenzhen Origin Parameter Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Origin Parameter Technology Co Ltd filed Critical Shenzhen Origin Parameter Technology Co Ltd
Priority to CN201910820809.1A priority Critical patent/CN110543475A/zh
Publication of CN110543475A publication Critical patent/CN110543475A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting

Abstract

本发明提供一种基于机器学习的财务报表数据自动识别和分析方法,经由数据抽取模块进行数据抽取,通过数据清洗及文本聚合模块对文本内容进行筛选和组合,使之抽取的单个信息能形成完整的数据块或者文本块,然后对于所形成的数据块进行文档结构的分析和信息点的标注,由财务信息格式化模块提取其中的财务数据,然后通过检查之后输出财务数据。无法通过信息完整度检查的数据,由人工辅助子系统进行人工标记和纠正,并将标记和纠正的数据反馈给知识库进行大数据学习,从而训练文档结构及信息标注模块、财务信息格式化模块和信息完整度检查模块进行信息系统的训练升级,使之信息处理更加完善并形成数据解析闭环。

Description

一种基于机器学习的财务报表数据自动识别和分析方法
技术领域
本发明涉及财务工具领域,特别是涉及一种基于机器学习的财务报表数据自动识别和分析方法。
背景技术
在金融行业,银行、证券公司、基金公司、投资公司每天需要对海量的企业财务报表进行分析。目前的方法是依靠人工逐字、逐句的阅读整个财务报表,判断其中的关键信息,并一一记录下来,制作报告。
这种方法存在如下弊端:
1.效率低,因为依靠人的肉眼观察和判断,逐条对信息点的理解与分析,并手工进行统计与记录,整体效率非常低。
2.成本高,耗费大量的人力和资源,成本极高。
3.出错率高,依靠人的主观判断对报表信息的内容、含义进行理解和记录,产生错误的概率非常高。
发明内容
本发明的目的在于提供一种基于机器学习的财务报表数据自动识别和分析方法,其能够从最原始的数据开始,利用机器学习算法对信息进行分析和抽取,并且借助人工辅助子系统对极端情况进行处理,并积累相关标签数据使整个数据解析过程形成闭环。
本发明的实施例是这样实现的:
一种基于机器学习的财务报表数据自动识别和分析方法,所述方法应用于财务报表数据识别和分析系统,从解析最原始的数据开始,利用机器学习算法对信息进行分析和抽取,并且借助人工辅助子系统对极端情况进行处理,并积累标签数据使整个数据解析过程形成闭环。
在本发明的一些实施例中,所述财务报表数据识别和分析系统具体包括数据抽取模块、数据清洗及文本聚合模块、文档结构及信息点标注模块、财务信息格式化模块、信息完整性检查模块以及人工辅助子系统。
在本发明的一些实施例中,所述的信息的抽取过程由数据抽取模块从源文件中抽取原始信息,所获取的信息包括每个字符及其位置、字体、字号及文字方向的相关信息。
在本发明的一些实施例中,所述的源文件数据包括PDF、HTML及XBRL格式的各类数据原始信息。
在本发明的一些实施例中,所述的信息分析过程包括数据的清洗和聚合过程,所述的数据清洗通过数据清洗模块对抽取出来的数据进行汇总,过滤无用的文字信息,并对字符在编码上进行标准化;文本聚合针对提取并编码出来的分开的字符,根据未知信息及逻辑回归模型对字符进行汇聚,形成从词语到语句再到完整的文本块的过程。
在本发明的一些实施例中,所述的信息分析过程还包括文档结构调整及信息点的标注,由文档结构及信息点标注模块利用文本相似度分析技术,目标文件的目录进行内容该分析,通过知识库提供的标签数据所训练的机器模型对目标目录内容进行识别,按目录内容对目标文件内容进行模块划分,同时对相应模块进行内容标注。
在本发明的一些实施例中,所述的信息分析过程还包括财务数据的提取,由财务信息格式化模块完成,具体包括:
A、财务数据的区域定位,根据文档结构和信息点的标注之后,快速对相关财务数据进行区域定位;
B、文本块属性分析,构建一个神经网络对文本块属性进行识别,使用位置信息进行训练,其文本属性包括:普通文本块、键值对文本块、表格、小标题文本块;
模型的输出为文本块类别的概率。
C、对表格进行格式化,根据知识库中积累的表格样式数据,对数据进行处理,标记出哪块文本是“键”,哪块文本是“值”,最终将表格转化成键值对的形式,完成表格的键值关系数据提取,并以键值对的方式,提取出财务数据。
在本发明的一些实施例中,所述数据识别和分析方法需要完成信息完整性检查,根据财务规则,利用既有程序对整个财务报告进行扫描检查,防止财务数据被错误提取或漏提取,如果检查通过的话整个数据提取过程结束。
在本发明的一些实施例中,对于未能通过检查的信息,采用人工辅助方式进行人工标记和纠错。
在本发明的一些实施例中,所述人工标记和纠错的具体内容包括:
对于解析系统中未能正确解析的数据进行人工标记,并积累到知识库中进行学习训练;
对于原始数据存在错误的部分进行人工纠正。
本发明实施例至少具有如下优点或有益效果:
1.新技术的运用
运用云计算、大数据、和机器学习(算法)等技术,全面提升业务能力。
2.准确度高
新技术的运用保证了更全面、更充分、更实时的掌握和分析数据。
3.降低成本
整个处理过程由计算机程序自动完成,大大降低业务成本。
4.效率高、简单易用
通过网络访问,选择需要查看的报告,软件系统将自动分析原始财务报告,并输出分析数据。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例基于机器学习的财务报表数据自动识别和分析方法的结构示意图。
图2-a是本发明实施例对文本范围划分格子的示意图。
图2-b是本发明实施例对文本内容划分取值示意图。
图3是本发明实施例神经网络结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
实施例1
一种基于机器学习的财务报表数据自动识别和分析方法,所述方法应用于财务报表数据识别和分析系统,从解析最原始的数据开始,利用机器学习算法对信息进行分析和抽取,并且借助人工辅助子系统对极端情况进行处理,并积累标签数据使整个数据解析过程形成闭环。
在本发明的一些实施例中,如图1所示,所述财务报表数据识别和分析系统具体包括数据抽取模块、数据清洗及文本聚合模块、文档结构及信息点标注模块、财务信息格式化模块、信息完整性检查模块以及人工辅助子系统。
以本方案而言,本方法经由数据抽取模块进行数据抽取,通过数据清洗及文本聚合模块对文本内容进行筛选和组合,使之抽取的单个信息能形成完整的数据块或者文本块,然后对于所形成的数据块进行文档结构的分析和信息点的标注,由财务信息格式化模块提取其中的财务数据,根据数据类型的属性分类形成不同的键值对,然后通过检查之后输出财务数据。对于无法通过信息完整度检查的数据,则经由人工辅助子系统进行人工标记和纠正,并将标记和纠正的数据反馈给知识库进行大数据学习,从而训练文档结构及信息标注模块、财务信息格式化模块和信息完整度检查模块进行信息系统的训练升级,使之信息处理更加完善并形成数据解析闭环。
在本发明的一些实施例中,所述的信息的抽取过程由数据抽取模块从源文件中抽取原始信息,所获取的信息包括每个字符及其位置、字体、字号及文字方向的相关信息。
在本发明的一些实施例中,所述的源文件数据包括PDF、HTML及XBRL格式的各类数据原始信息。
在本发明的一些实施例中,所述的信息分析过程包括数据的清洗和聚合过程,所述的数据清洗通过数据清洗模块对抽取出来的数据进行汇总,过滤无用的文字信息,并对字符在编码上进行标准化;文本聚合针对提取并编码出来的分开的字符,根据未知信息及逻辑回归模型对字符进行汇聚,形成从词语到语句再到完整的文本块的过程。
本方案利用逻辑回归模型对单个字符进行汇聚,具体如下:
数据从原始报表中提取出来之后是一个个离散的字符,每个字符包含一些字符信息,如:字符位置、字符大小、字符方向、字符字体等等。利用该模型判断每个字符是否与前面的字符组合在一起形成一个词语或形成更长的句子,这个步骤目的就是让离散的字符汇聚成一个词语或句子。
当前字符和前面的字符能组合在一起的概率模型可以表示为:
其中x为特征向量:
xT=[x1,x2,x3,x4,x5,x6,x7,x8,x9];
此特征向量共有9个特征变量:
x1:该字符位置与在X轴上的取值。字符位置为该字符在所在页面的坐标值。页面左下角为坐标原点
x2:该字符位置Y轴上的取值。
x3:该字符的字体大小
x4:前置字符个数。若该字符的前一个字符为词语或句子的结尾,则该字符无前置字符。
x5:前置字符串最后一个字符的位置在X轴取值。
x6:前置字符串最后一个字符的位置在Y轴取值。
x7:前置字符字体大小。
x8:该字符是否为无意义字符。如标点符号或无具体含义的字符。
x9:该字符是否可以与前置的字符串组成词汇。此处用到语料库来判断此特征的取值。
在本发明的一些实施例中,所述的信息分析过程还包括文档结构调整及信息点的标注,由文档结构及信息点标注模块利用文本相似度分析技术,目标文件的目录进行内容该分析,通过知识库提供的标签数据所训练的机器模型对目标目录内容进行识别,按目录内容对目标文件内容进行模块划分,同时对相应模块进行内容标注。
在本发明的一些实施例中,所述的信息分析过程还包括财务数据的提取,由财务信息格式化模块完成,具体包括:
A、财务数据的区域定位,根据文档结构和信息点的标注之后,快速对相关财务数据进行区域定位;
B、文本块属性分析,构建一个神经网络对文本块属性进行识别,使用位置信息进行训练,其文本属性包括:普通文本块、键值对文本块、表格、小标题文本块;
此处利用神经网络对文本块类型进行分类,借用了手写识别的思想。如下图所示,我们会对文本块范围内划分成n×n个格子,如图2-a所示。
然后判断每个格子是否有字符落在其中,是将取值为1,不是将取值为0,转换后如图2-b所示。
由于每个文本块的范围大小不同,在这个过程中还需要做归一化的处理。
然后将上述0、1排布的表格转换成如下所示的n×1维的矩阵:
X=[0 1 1 … 1]
我们采用的神经网络结构如图3所示:
其中x1、x2…xn的取值为上述n×1维矩阵,具体计算过程如下:
模型的输出为文本块类别的概率。
C、对表格进行格式化,根据知识库中积累的表格样式数据,对数据进行处理,标记出哪块文本是“键”,哪块文本是“值”,最终将表格转化成键值对的形式,完成表格的键值关系数据提取,并以键值对的方式,提取出财务数据。
在本发明的一些实施例中,所述数据识别和分析方法需要完成信息完整性检查,根据财务规则,利用既有程序对整个财务报告进行扫描检查,防止财务数据被错误提取或漏提取,如果检查通过的话整个数据提取过程结束。
在本发明的一些实施例中,对于未能通过检查的信息,采用人工辅助方式进行人工标记和纠错。
在本发明的一些实施例中,所述人工标记和纠错的具体内容包括:
对于解析系统中未能正确解析的数据进行人工标记,并积累到知识库中进行学习训练;
对于原始数据存在错误的部分进行人工纠正。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于机器学习的财务报表数据自动识别和分析方法,其特征在于:所述方法应用于财务报表数据识别和分析系统,从解析最原始的数据开始,利用机器学习算法对信息进行分析和抽取,并且借助人工辅助子系统对极端情况进行处理,并积累标签数据使整个数据解析过程形成闭环。
2.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述财务报表数据识别和分析系统具体包括数据抽取模块、数据清洗及文本聚合模块、文档结构及信息点标注模块、财务信息格式化模块、信息完整性检查模块以及人工辅助子系统。
3.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的信息的抽取过程由数据抽取模块从源文件中抽取原始信息,所获取的信息包括每个字符及其位置、字体、字号及文字方向的相关信息。
4.根据权利要求3所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的源文件数据包括PDF、HTML及XBRL格式的各类数据原始信息。
5.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的信息分析过程包括数据的清洗和聚合过程,所述的数据清洗通过数据清洗模块对抽取出来的数据进行汇总,过滤无用的文字信息,并对字符在编码上进行标准化;文本聚合针对提取并编码出来的分开的字符,根据未知信息及逻辑回归模型对字符进行汇聚,形成从词语到语句再到完整的文本块的过程。
6.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的信息分析过程还包括文档结构调整及信息点的标注,由文档结构及信息点标注模块利用文本相似度分析技术,目标文件的目录进行内容该分析,通过知识库提供的标签数据所训练的机器模型对目标目录内容进行识别,按目录内容对目标文件内容进行模块划分,同时对相应模块进行内容标注。
7.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的信息分析过程还包括财务数据的提取,由财务信息格式化模块完成,包括:
A、财务数据的区域定位,根据文档结构和信息点的标注之后,快速对相关财务数据进行区域定位;
B、文本块属性分析,构建一个神经网络对文本块属性进行识别,使用位置信息进行训练,其文本属性包括:普通文本块、键值对文本块、表格、小标题文本块;
C、对表格进行格式化,根据知识库中积累的表格样式数据,对数据进行处理,标记出哪块文本是“键”,哪块文本是“值”,最终将表格转化成键值对的形式,完成表格的键值关系数据提取,并以键值对的方式,提取出财务数据。
8.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述数据识别和分析方法需要完成信息完整性检查,根据财务规则,利用既有程序对整个财务报告进行扫描检查,防止财务数据被错误提取或漏提取,如果检查通过的话整个数据提取过程结束。
9.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,对于未能通过检查的信息,采用人工辅助方式进行人工标记和纠错。
10.根据权利要求9所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述人工标记和纠错的具体内容包括:
对于解析系统中未能正确解析的数据进行人工标记,并积累到知识库中进行学习训练;
对于原始数据存在错误的部分进行人工纠正。
CN201910820809.1A 2019-08-29 2019-08-29 一种基于机器学习的财务报表数据自动识别和分析方法 Pending CN110543475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910820809.1A CN110543475A (zh) 2019-08-29 2019-08-29 一种基于机器学习的财务报表数据自动识别和分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910820809.1A CN110543475A (zh) 2019-08-29 2019-08-29 一种基于机器学习的财务报表数据自动识别和分析方法

Publications (1)

Publication Number Publication Date
CN110543475A true CN110543475A (zh) 2019-12-06

Family

ID=68711330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910820809.1A Pending CN110543475A (zh) 2019-08-29 2019-08-29 一种基于机器学习的财务报表数据自动识别和分析方法

Country Status (1)

Country Link
CN (1) CN110543475A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111190973A (zh) * 2019-12-31 2020-05-22 税友软件集团股份有限公司 一种申报表的分类方法、装置、设备及存储介质
CN111814000A (zh) * 2020-07-10 2020-10-23 东软集团(上海)有限公司 一种基于模板过滤的异构数据分析方法及系统
CN112733505A (zh) * 2020-12-30 2021-04-30 科大讯飞股份有限公司 文档生成方法和装置、电子设备及存储介质
CN112785399A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于财税数据的清洗方法及系统
WO2022037573A1 (zh) * 2020-08-17 2022-02-24 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508860A (zh) * 2011-09-29 2012-06-20 广州中浩控制技术有限公司 一种基于xbrl实例文档的数据挖掘方法
US20160300075A1 (en) * 2013-11-14 2016-10-13 3M Innovative Properties Company Systems and method for obfuscating data using dictionary
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN107943785A (zh) * 2017-11-06 2018-04-20 广东广业开元科技有限公司 一种基于大数据的pdf文档处理方法及装置
CN108334501A (zh) * 2018-03-21 2018-07-27 王欣 基于机器学习的电子文档分析系统及方法
CN108563783A (zh) * 2018-04-25 2018-09-21 张艳 一种基于大数据的财务分析管理系统及方法
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN109376202A (zh) * 2018-10-30 2019-02-22 青岛理工大学 一种基于nlp的企业供应关系自动抽取分析方法
KR20190064749A (ko) * 2017-12-01 2019-06-11 신한금융투자 주식회사 지능형 증권 투자 의사결정 지원 방법 및 그 장치

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508860A (zh) * 2011-09-29 2012-06-20 广州中浩控制技术有限公司 一种基于xbrl实例文档的数据挖掘方法
US20160300075A1 (en) * 2013-11-14 2016-10-13 3M Innovative Properties Company Systems and method for obfuscating data using dictionary
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN107943785A (zh) * 2017-11-06 2018-04-20 广东广业开元科技有限公司 一种基于大数据的pdf文档处理方法及装置
KR20190064749A (ko) * 2017-12-01 2019-06-11 신한금융투자 주식회사 지능형 증권 투자 의사결정 지원 방법 및 그 장치
CN108334501A (zh) * 2018-03-21 2018-07-27 王欣 基于机器学习的电子文档分析系统及方法
CN108563783A (zh) * 2018-04-25 2018-09-21 张艳 一种基于大数据的财务分析管理系统及方法
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN109376202A (zh) * 2018-10-30 2019-02-22 青岛理工大学 一种基于nlp的企业供应关系自动抽取分析方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111190973A (zh) * 2019-12-31 2020-05-22 税友软件集团股份有限公司 一种申报表的分类方法、装置、设备及存储介质
CN111814000A (zh) * 2020-07-10 2020-10-23 东软集团(上海)有限公司 一种基于模板过滤的异构数据分析方法及系统
WO2022037573A1 (zh) * 2020-08-17 2022-02-24 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN112733505A (zh) * 2020-12-30 2021-04-30 科大讯飞股份有限公司 文档生成方法和装置、电子设备及存储介质
CN112733505B (zh) * 2020-12-30 2024-04-26 中国科学技术大学 文档生成方法和装置、电子设备及存储介质
CN112785399A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于财税数据的清洗方法及系统

Similar Documents

Publication Publication Date Title
CN110543475A (zh) 一种基于机器学习的财务报表数据自动识别和分析方法
Kleber et al. Cvl-database: An off-line database for writer retrieval, writer identification and word spotting
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN104123550A (zh) 基于云计算的文本扫描识别方法
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
US11010543B1 (en) Systems and methods for table extraction in documents
CN111488458B (zh) 国际贸易商品代码的自动识别处理方法及系统
CN111783710B (zh) 医药影印件的信息提取方法和系统
CN110909123A (zh) 一种数据提取方法、装置、终端设备及存储介质
CN112307741A (zh) 保险行业文档智能化解析方法和装置
Rahman et al. Bn-htrd: A benchmark dataset for document level offline bangla handwritten text recognition (HTR) and line segmentation
CN113111869B (zh) 提取文字图片及其描述的方法和系统
Kumar et al. Line based robust script identification for indianlanguages
Shetty et al. Recognition of handwritten digits and English texts using MNIST and EMNIST datasets
Chazalon et al. A Simple and Uniform Way to Introduce Complimentary Asynchronous Interaction Models in an Existing Document Analysis System
CN110096574B (zh) 电商评论分类任务中数据集的建立和后续优化及扩充方案
Saxena et al. Text extraction systems for printed images: a review
Clausner et al. Unearthing the recent past: digitising and understanding statistical information from census tables
Kodada et al. Unconstrained Handwritten Kannada NumeralRecognition
Labarga et al. An Extensible System for Optical Character Recognition of Maintenance Documents
CN111507236B (zh) 文件处理方法、系统、装置及介质
Wu et al. Accr: Auto-labeling for ancient chinese handwritten characters recognition on cnn
EP3955130A1 (en) Template-based document extraction
Balasooriya Improving and Measuring OCR Accuracy for Sinhala with Tesseract OCR Engine
Poonja et al. Hindi Text to Speech Conversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20200628

Address after: Room 2103, International Chamber of Commerce Center, Fuhua 3rd road, Futian street, Futian District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen origin parameter information technology Co.,Ltd.

Address before: 518033 room 2103, International Chamber of Commerce Center, Fuhua Third Road, Futian street, Futian District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen origin Parameter Technology Co.,Ltd.

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191206

RJ01 Rejection of invention patent application after publication