CN113627351B - 财报科目的匹配方法、装置、计算机设备及存储介质 - Google Patents
财报科目的匹配方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113627351B CN113627351B CN202110923847.7A CN202110923847A CN113627351B CN 113627351 B CN113627351 B CN 113627351B CN 202110923847 A CN202110923847 A CN 202110923847A CN 113627351 B CN113627351 B CN 113627351B
- Authority
- CN
- China
- Prior art keywords
- original
- matrix
- standard
- financial
- description information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 208
- 238000012015 optical character recognition Methods 0.000 claims abstract description 15
- 238000010276 construction Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 5
- 239000000123 paper Substances 0.000 description 32
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000011087 paperboard Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明实施例公开了财报科目的匹配方法、装置、计算机设备及存储介质。财报科目的匹配方法包括:获取目标扫描图像,并对目标扫描图像进行光学字符识别,重建得到与纸质财报表格匹配的原始表格;获取标准表格,并根据原始表格中各原始财报科目和标准表格中各标准财报科目的排布顺序,构建位置关系矩阵;根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充,并根据填充结果,获取与各未完全匹配的原始财报科目对应的局部矩阵;根据局部矩阵中原始财报科目和标准财报科目之间的相似度,对位置关系矩阵进行再填充,根据填充结果建立各原始财报科目和各标准财报科目之间的匹配关系。本发明具有提高映射匹配效率和准确度的效果。
Description
技术领域
本发明实施例涉及与金融领域相关的计算机技术,尤其涉及一种财报科目的匹配方法、装置、计算机设备及存储介质。
背景技术
当前金融行业的日常业务中,涉及大量的财务报表处理工作,业务人员需要将样式各异的纸质版财务报表录入到内部的标准模板中。在现有技术中,业务人员通常将纸质版财务报表扫描转为电子版,再手工录入到银行、券商内部的标准模板中。
然而,现有技术存在如下技术缺陷:原始纸质版财务报表和标准模板的科目并非完全一致,业务人员需要对财报科目做人工映射匹配才能完成录入,不仅费时费力而且需要一定的专业财务知识,否则很容易产生录入错误。
发明内容
本发明实施例提供一种财报科目的匹配方法、装置、计算机设备及存储介质,以实现对财报科目高效准确地进行映射匹配。
第一方面,本发明实施例提供了一种财报科目的匹配方法,包括:
获取与纸质财报表格匹配的目标扫描图像,并对目标扫描图像进行光学字符识别,重建得到与纸质财报表格匹配的原始表格;
获取与纸质财报表格匹配的标准表格,并根据原始表格中各原始财报科目和标准表格中各标准财报科目的排布顺序,构建位置关系矩阵;
根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充,并根据填充结果,获取与各未完全匹配的原始财报科目对应的局部矩阵;
根据局部矩阵中原始财报科目和标准财报科目之间的相似度,对位置关系矩阵进行再填充,并根据填充结果,建立各原始财报科目和各标准财报科目之间的匹配关系。
第二方面,本发明实施例还提供了一种财报科目的匹配装置,包括:
原始表格重建模块,用于获取与纸质财报表格匹配的目标扫描图像,并对目标扫描图像进行光学字符识别,重建得到与纸质财报表格匹配的原始表格;
位置关系矩阵构建模块,用于获取与纸质财报表格匹配的标准表格,并根据原始表格中各原始财报科目和标准表格中各标准财报科目的排布顺序,构建位置关系矩阵;
局部矩阵获取模块,用于根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充,并根据填充结果,获取与各未完全匹配的原始财报科目对应的局部矩阵;
匹配关系建立模块,用于根据局部矩阵中原始财报科目和标准财报科目之间的相似度,对位置关系矩阵进行再填充,并根据填充结果,建立各原始财报科目和各标准财报科目之间的匹配关系。
第三方面,本发明实施例还提供了一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如实施例中任一所述的财报科目的匹配方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如实施例中任一所述的财报科目的匹配方法。
本实施例的技术方案,通过根据原始表格中各原始财报科目和标准表格中各标准财报科目的排布顺序,构建位置关系矩阵以揭示了财报科目之间的位置关系,之后,通过根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充,并根据填充结果,获取与各未完全匹配的原始财报科目对应的局部矩阵,并根据局部矩阵中原始财报科目和标准财报科目之间的相似度,对位置关系矩阵进行再填充的方式,缩小了匹配范围,避免了其他不相关财报科目的干扰,减少了判定次数并提高了判定速度,解决了业务人员对财报科目进行人工映射匹配费时费力而且需要一定的专业财务知识的问题,达到了提高映射匹配效率和准确度的效果。
附图说明
图1为本发明实施例一提供的一种财报科目的匹配方法的流程图;
图2为本发明实施例所适用的一种纸质财报表格的扫描图像;
图3是本发明实施例所适用的一种与纸质财报表格匹配的标准表格;
图4为根据本发明实施例的方法得到位置关系矩阵的填充结果的流程图;
图5为根据本发明实施例的方法获取局部矩阵的流程图;
图6是本发明实施例二中的一种财报科目的匹配装置的结构示意图;
图7为本发明实施例三提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种财报科目的匹配方法的流程图,本实施例可适用于将原始财报表格中的原始财报科目填充到标准电子模板中对应标准财报科目位置处的情况,该方法可以由一种财报科目的匹配装置来执行,该装置可以通过软件和/或硬件的方式实现,并一般可以集成在具有数据处理功能的计算机设备中,所述计算机设备可以为终端或者服务器,所述方法具体包括如下步骤:
S110、获取与纸质财报表格匹配的目标扫描图像,并对目标扫描图像进行光学字符识别,重建得到与纸质财报表格匹配的原始表格。
作为示例而非限定,在图2中示出了本发明实施例所适用的一种纸质财报表格的扫描图像,图3是本发明实施例所适用的一种与纸质财报表格匹配的标准表格。需要注意的是,由于图2是纸质版的扫描结果,因此文字内容可能会有不清楚的情况,且不清楚的内容不会影响本案的保护范围。
在本实施例中,可以预先使用扫描仪对纸质财报表格进行扫描,得到如图2所示的纸质财报表格的扫描图像,并对扫描图像进行光学字符识别(Optical CharacterRecognition,OCR),并使用识别得到的各原始财报科目,以及与各原始财报科目分别对应的科目值,重建得到与纸质财报表格匹配的原始表格,其中,该原始表格可以建立在EXCEL文件中。
S120、获取与纸质财报表格匹配的标准表格,并根据原始表格中各原始财报科目和标准表格中各标准财报科目的排布顺序,构建位置关系矩阵。
其中,在图3中示出了一种与纸质财报表格匹配的标准表格,如图3所示,该标准表格中包括多个标准财报科目,以及与每个标准财报科目分别对应的待填充空白项。
在本实施例中,通过建立原始表格中的各原始财报科目与标准表格中各标准财报科目之间的一一映射关系,可以将各原始财报科目的科目值,对应填充至标准表格中各标准财报科目的填充空白项中,以实现对该原始表格的标准化存储。
具体的,预先存储多个标准表格,各个标准表格可以针对不同的财报类型,例如,可以存储有建筑工程财报标准表格、个人收支财报标准表格等。相应的,可以为不同纸质财报表格配置不同的标准表格,进而可以相应建立原始表格与标准表格之间的对应关系。
为了便于描述,假设原始表格表1中的原始财报科目及顺序为:流动资产(A)、应*账款(B)、非流动资产(C)、应*账款(D)和非流动负债(E)。所获取的与原始表格相匹配的标准表格表2中的标准财报科目及顺序为:流动资产(a)、应收账款(b)、非流动资产(c)、应付账款(d)和非流动负债(e)。
表1
流动资产(A) |
应*账款(B) |
非流动资产(C) |
应*账款(D) |
非流动负债(E) |
表2
流动资产(a) |
应收账款(b) |
非流动资产(c) |
应付账款(d) |
非流动负债(e) |
由于依靠OCR得到的识别结果的准确度无法达到100%,如“流动资产”可能被识别成“流动资厂”、“营业收入”可能被识别成“宫业收入”等等错误,因此,可以使用“*”表示原始财报科目中识别错误的字符。
具体的,可以通过将每个原始财报科目与预先建立的专家规则库进行匹配,获取未能完全匹配的原始财报科目,并在该原始财报科目中,通过“*”标识错误字符所在位置。
在本实施例中,根据原始财报科目和标准财报科目的排布顺序,构建位置关系矩阵的方式可以为:
按照各标准财报科目在所述标准表格中从上到下,或者从左到右的排布顺序,顺序形成多个行元素描述信息;按照各原始财报科目在所述原始表格中从上到下,或者从左到右的排布顺序,顺序形成多个列元素描述信息;根据各行元素描述信息和各列元素描述信息,构建位置关系矩阵。
以表1所示的原始表格和表2所示的标准表格为例,按照各标准财报科目在标准表格中从上到下,并且各原始财报科目在原始表格中从上到下的顺序来构建的位置关系如表3所示。
其中,使用各标准财报科目形成行元素描述信息,并使用各原始财报科目形成列元素描述信息。
表3
S130、根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充,并根据填充结果,获取与各未完全匹配的原始财报科目对应的局部矩阵。
其中,在图4中示出了一种根据本发明实施例的方法得到位置关系矩阵的填充结果的流程图,是对图1中S130的进一步细化。
如图4所示,根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充,可以具体包括:
S410、获取所述位置关系矩阵中的第一目标列元素描述信息。如表3所示,目标列元素信息为流动资产(A)、应*账款(B)、非流动资产(C)、应*账款(D)和非流动负债(E)。
第一目标列元素信息是指当前关注的列元素信息,依次获取各个列元素信息,例如,假设当前获取的第一目标列元素信息为流动资产(A)。
S420、将第一目标列元素描述信息分别与所述位置关系矩阵中的各行元素描述信息进行匹配。
在第一目标列元素信息为流动资产(A)的情况下,将流动资产(A)与流动资产(a)、应收账款(b)、非流动资产(c)、应付账款(d)和非流动负债(e)进行匹配。
S430、判断第一目标列元素描述信息与当前获取的目标行元素描述信息是否完全匹配。若是,则执行S440;若否,则执行S470。
这里的完全匹配可以是一模一样的匹配,例如“流动资产(A)”与“流动资产(a)”是一模一样的完全匹配,也可以是满足同义词条件的匹配,例如,可以在财报科目的匹配装置中预先设置同义词库,同义词库中的同义词之间也认为是完全匹配的。
S440、获取所述位置关系矩阵中,由第一目标列元素描述信息与所述目标行元素描述信息共同确定的目标矩阵位置,执行S450。
如表3所示,完全匹配的流动资产(A)与流动资产(a)共同确定的目标矩阵位置是第二行第二列。
S450、将所述目标矩阵位置填充为第一数值,并将所述目标矩阵位置所在行和所在列的其他矩阵位置填充为第二数值。
其中,第一数值用于标识完全匹配关系,第二数值用于标识完全不匹配关系。
在一个具体的示例中,可以将第一数值设置为1,标识完全匹配关系,并将第二数值设置为-1,标识完全不匹配关系。
如表3所示,在表3第二行第二列处填充数值1,在第二行的其他列和第二列的其他行处填充数值-1。
S460、确定当前的第一列元素信息是否是最后一个列元素信息,若否,则返回执行S410;若是,则结束流程。
S470、判断当前的行元素是否是第一目标列元素信息所对应的最后一个行元素,若是,则执行S460;若否,则执行S420。
图5为根据本发明实施例的方法获取局部矩阵的流程图,是对图1中S130的进一步细化,表4为根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充后的结果。
可以理解的是,通过使用S410-S470的步骤,可以在表4所示的位置关系矩阵中对应填充第一数值以及第二数值。为了便于区分,可以将表4中除了填充第一数值和第二数值的位置处,填充一个统一的第三数值,典型的,可以将第三数值设置为“0”。
如图5所示,根据填充结果,获取与各未完全匹配的原始财报科目对应的局部矩阵,包括:
S510、获取所述位置关系矩阵中的第二目标列元素描述信息。
这里第二目标列元素描述信息的命名是为了与第一目标列元素描述信息进行区分,即第二目标列元素信息可以是流动资产(A)、应*账款(B)、非流动资产(C)等。
在实施例中,通过依次获取所述位置关系矩阵中的第二目标列元素描述信息,从而找到没有完全匹配的原始财报科目。
S520、检测所述位置关系矩阵中,与所述第二目标列元素描述信息匹配的矩阵行中是否包括第一数值,若否,执行S530;若是,则执行S550。
若第二目标列元素信息为流动资金(A),则此时流动资金(A)所对应的矩阵行中有第一数值1,即表4中第二行第二列;若第二目标列元素信息为应*账款(B),则此时应*账款(B)所对应的矩阵行中没有第一数值1。
S530、以第二目标列元素为起点,沿前后两个方向识别与第二目标列元素描述信息对应的至少一个最邻近完全匹配列元素描述信息。
假设第二目标列元素信息为应*账款(B),则此时应*账款(B)所对应的矩阵行中没有第一数值1,以应*账款(B)为起点,沿朝向流动资产(A)和朝向非流动资产(C)这两个方向识别最邻近的完全匹配的列元素信息。
其中,所述最邻近完全匹配列元素描述信息,是指在全部列元素描述信息中,与当前获取的所述第二目标列元素描述信息最接近的、且矩阵行中包括有第一数值的列元素描述信息。如表4所示,与应*账款(B)最邻近的完全匹配的列元素信息是流动资产(A)和非流动资产(C)。
表4
S540、根据位置关系矩阵中,与各最邻近完全匹配列元素描述信息匹配的矩阵行中的第一数值所在的列位置,形成与第二目标列元素描述信息对应的局部矩阵。
以第二目标列元素信息是应*账款(B),最邻近的完全匹配的列元素信息是流动资产(A)和非流动资产(C)为例,此时第一数值1所在的位置分别是表4中第二行第二列和第四行第四列,形成的局部矩阵如局部矩阵A所示。
局部矩阵A
若以第四目标列元素信息是应*账款(D),最邻近的完全匹配的列元素信息是非流动资产(C)和非流动资产(E)为例,此时第一数值1所在的位置分别是表4中第四行第四列和第六行第六列,形成的局部矩阵如局部矩阵B所示。
局部矩阵B
S550、判断当前的第二目标列元素描述信息是否是最后一个目标列元素描述信息,若是,则结束流程;若否,则返回执行S510。
需要再次强调的时,在当前的第二目标列元素描述信息不包括前向的最邻近完全匹配列元素描述信息时,则可以根据全部列元素描述信息中的首个列元素描述信息匹配的矩阵行中的首个列元素,以及后向的邻近完全匹配列元素描述信息匹配的矩阵行中的第一数值所在的列位置,形成与该的第二目标列元素描述信息匹配的局部矩阵;
或者,在当前的第二目标列元素描述信息不包括后向的最邻近完全匹配列元素描述信息时,则可以根据全部列元素描述信息中的末位列元素描述信息匹配的矩阵行中的末位列元素,以及前向的邻近完全匹配列元素描述信息匹配的矩阵行中的第一数值所在的列位置,形成与该的第二目标列元素描述信息匹配的局部矩阵。
S140、根据局部矩阵中原始财报科目和标准财报科目之间的相似度,对位置关系矩阵进行再填充,并根据填充结果,建立各原始财报科目和各标准财报科目之间的匹配关系。
其中,财报科目的匹配装置根据局部矩阵中原始财报科目和标准财报科目之间的相似度,对位置关系矩阵进行再填充可以包括:
根据与各局部矩阵中未填充为第一数值或者第二数值的未填充矩阵位置匹配的行元素描述信息和列元素描述信息之间的相似度,对位置关系矩阵中匹配的矩阵位置进行再填充,其中,所述相似度小于所述第一数值。
续前例,如表5所示,位置关系矩阵中为第三数值(0)的矩阵位置为未进行完全匹配的矩阵位置,通过计算该局部矩阵中,与当前填充为第三数值的矩阵位置匹配的行元素描述信息和列元素描述信息之间的相似度,可以得到上述矩阵位置的匹配关系数值,进而可以将上述匹配关系数值回填至位置关系中,以实现对位置关系矩阵中匹配的矩阵位置进行再填充。
具体的,需要对局部矩阵中的匹配关系数值为0的矩阵位置进行再填充。在局部矩阵A中获取当前填充为第三数据(0)的矩阵位置,并获取与该矩阵位置分别匹配的行元素描述信息和列元素描述信息分别是应*账款(B)和应收账款(b),其中4个字中有3个字相同,因此两者之间的相似度为75%。因此,可以在位置关系矩阵中,将与应*账款(B)和应收账款(b)对应的矩阵位置处对应填充0.75。
同理,在局部矩阵B中获取当前填充为第三数据(0)的矩阵位置,并获取与该矩阵位置分别匹配的行元素描述信息和列元素描述信息分别是应*账款(D)和应付账款(d),其中4个字中有3个字相同,因此两者之间的相似度为75%。因此,可以在位置关系矩阵中,将与应*账款(D)和应付账款(d)对应的矩阵位置处对应填充0.75。
相应的,完成步骤S140的再填充处理后的位置关系矩阵如表5所示。
表5
在本实施例中,在完成对位置关系矩阵进行再填充后,位置关系矩阵中各原始财报科目和各标准财报科目之间的匹配关系数值(第一数值、第二数值、以及相似度等),计算各原始财报科目和各标准财报科目之间的匹配关系,也即,哪一个原始财报科目与哪一个标准财报科目之间具有一一对应的映射关系。
需要再次强调的是,因为发明人在本发明实施例中引入了局部矩阵的概念,因此,虽然“应*账款(B)”与“应收账款(b)”和“应付账款(d)”的相似度一致,但是,由于“应*账款(B)”与“流动资产(A)”和“非流动资产(C)”的位置接近,且在该“流动资产(A)”和“非流动资产(C)”能够准确识别时,与该“应*账款(B)”对应的局部矩阵中就不会包括该“应付账款(d)”,进而,有效的防止了该“应*账款(B)”与“应付账款(d)”之间的误匹配,大大提高了匹配的精准度。
在本实施例的一个可选的实施方式中,根据填充结果,建立各原始财报科目和各标准财报科目之间的匹配关系,可以包括:
根据所述位置关系矩阵中,每个矩阵行中最大数据所在的矩阵列位置,建立各原始财报科目和各标准财报科目之间的匹配关系。
续前例,如表5所示,原始财报科目中的“流动资产(A)”所在的矩阵行中的最大数据为1,位于一行一列,与标准财报科目中的“流动资产(a)”对应匹配;原始财报科目中的“应*账款(B)”所在的矩阵行中最大数据为0.75,位于三行三列,与标准财报科目中的“应收账款(b)”对应匹配;原始财报科目中的“非流动资产(C)”所在的矩阵行中最大数据为1,位于四行四列,与标准财报科目中的“非流动资产(c)”对应匹配;原始财报科目中的“应*账款(D)”所在的矩阵行中最大数据为0.75,位于五行五列,与标准财报科目中的“应付账款(d)”对应匹配;原始财报科目中的“非流动负债(E)”所在的矩阵行中最大数据为1,位于六行六列,与标准财报科目中的“非流动负债(e)”对应匹配。
本领域技术人员可以理解的是,通过建立各原始财报科目和各标准财报科目之间的匹配关系,可以将原始表格中各原始财报科目的科目值,对应映射至标准表格中与各标准财报科目对应的空白填充位置处,以实现对与该原始表格对应的纸质财报表格的标准化存储。
本实施例的技术方案,通过根据原始表格中各原始财报科目和标准表格中各标准财报科目的排布顺序,构建位置关系矩阵以揭示了财报科目之间的位置关系,之后,通过根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充,并根据填充结果,获取与各未完全匹配的原始财报科目对应的局部矩阵,并根据局部矩阵中原始财报科目和标准财报科目之间的相似度,对位置关系矩阵进行再填充的方式,缩小了匹配范围,避免了其他不相关财报科目的干扰,减少了判定次数并提高了判定速度,解决了业务人员对财报科目进行人工映射匹配费时费力而且需要一定的专业财务知识的问题,达到了提高映射匹配效率和准确度的效果。
在上述各实施例的基础上,在对目标扫描图像进行光学字符识别,重建得到与纸质财报表格匹配的原始表格之后,还可以包括:
将原始表格中各原始财报科目与预设的专家规则库进行匹配,获取未能成功匹配的至少一个待核检财报科目;
相应的,在在建立各原始财报科目和各标准财报科目之间的匹配关系之后,还可以包括:将各所述待核检财报科目进行区别显示,以进行核检提示。
其中,这里的专家规则库中可以存储有全部标准表格中包括的各标准财报科目。这样设置的好处在于:提示用户哪些匹配关系不是完全匹配的,即哪些匹配关系存在匹配错误的风险,从而后续可以进行重点检查。
实施例二
图6是本发明实施例二中的一种财报科目的匹配装置的结构示意图,该装置可以执行上述各实施例中涉及到的一种财报科目的匹配方法。参照图6,该装置包括:
原始表格重建模块610,用于获取与纸质财报表格匹配的目标扫描图像,并对目标扫描图像进行光学字符识别,重建得到与纸质财报表格匹配的原始表格;
位置关系矩阵构建模块620,用于获取与纸质财报表格匹配的标准表格,并根据原始表格中各原始财报科目和标准表格中各标准财报科目的排布顺序,构建位置关系矩阵;
局部矩阵获取模块630,用于根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充,并根据填充结果,获取与各未完全匹配的原始财报科目对应的局部矩阵;
匹配关系建立模块640,用于根据局部矩阵中原始财报科目和标准财报科目之间的相似度,对位置关系矩阵进行再填充,并根据填充结果,建立各原始财报科目和各标准财报科目之间的匹配关系。
可选的,位置关系矩阵构建模块可以包括:
行元素信息形成单元,用于按照各标准财报科目在所述标准表格中从上到下,或者从左到右的排布顺序,顺序形成多个行元素描述信息;
列元素信息形成单元,用于按照各原始财报科目在所述原始表格中从上到下,或者从左到右的排布顺序,顺序形成多个列元素描述信息;
位置关系矩阵构建单元,用于根据各行元素描述信息和各列元素描述信息,构建位置关系矩阵。
可选的,局部矩阵获取模块可以包括:
第一列元素描述信息获取单元,用于依次获取所述位置关系矩阵中的第一目标列元素描述信息;
第一描述信息匹配单元,用于将第一目标列元素描述信息分别与所述位置关系矩阵中的各行元素描述信息进行匹配;
矩阵位置确定单元,用于如果确定第一目标列元素描述信息与目标行元素描述信息完全匹配,则获取所述位置关系矩阵中,由第一目标列元素描述信息与所述目标行元素描述信息共同确定的目标矩阵位置;
矩阵位置填充单元,用于将所述目标矩阵位置填充为第一数值,并将所述目标矩阵位置所在行和所在列的其他矩阵位置填充为第二数值后,返回执行依次获取所述位置关系矩阵中的第一列元素描述信息,直至完成对全部列元素描述信息的处理。
其中,第一数值用于标识完全匹配关系,第二数值用于标识完全不匹配关系。
可选的,局部矩阵获取模块还可以包括:
第二列元素描述信息获取单元,用于依次获取所述位置关系矩阵中的第二目标列元素描述信息;
第一数值检测单元,用于检测所述位置关系矩阵中,与所述第二目标列元素描述信息匹配的矩阵行中是否包括第一数值;
完全匹配识别单元,用于若否,则在多个列元素描述信息中,以第二目标列元素为起点,沿前后两个方向识别与第二目标列元素描述信息对应的至少一个最邻近完全匹配列元素描述信息;
局部矩阵形成单元,用于根据位置关系矩阵中,与各最邻近完全匹配列元素描述信息匹配的矩阵行中的第一数值所在的列位置,形成与第二目标列元素描述信息对应的局部矩阵;
返回执行单元,用于返回执行依次获取所述位置关系矩阵中的第二目标列元素描述信息的操作,直至完成对全部列元素描述信息的处理。
可选的,匹配关系建立模块可以包括:
矩阵位置再填充单元,用于根据与各局部矩阵中未填充为第一数值或者第二数值的未填充矩阵位置匹配的行元素描述信息和列元素描述信息之间的相似度,对位置关系矩阵中匹配的矩阵位置进行再填充,其中,所述相似度小于所述第一数值。
可选的,匹配关系建立模块还可以包括:
匹配关系建立单元,用于根据所述位置关系矩阵中,每个矩阵行中最大数据所在的矩阵列位置,建立各原始财报科目和各标准财报科目之间的匹配关系。
可选的,财报科目的匹配装置还可以包括:
待核检财报科目获取模块,用于将原始表格中各原始财报科目与预设的专家规则库进行匹配,获取未能成功匹配的至少一个待核检财报科目;
待核检财报科目显示模块,用于在所建立的匹配关系中,将各所述待核检财报科目进行区别显示,以进行核检提示。
本实施例的技术方案,通过在一种财报科目的匹配装置中设置原始表格重建模块、位置关系矩阵构建模块、局部矩阵获取模块和匹配关系建立模块,解决了业务人员对财报科目进行人工映射匹配费时费力而且需要一定的专业财务知识的问题,达到了提高映射匹配效率和准确度的效果。
实施例三
图7为本发明实施例三提供的一种设备的结构示意图,如图7所示,该设备包括处理器720、存储装置710、输入装置730和输出装置740;设备中处理器720的数量可以是一个或多个,图7中以一个处理器720为例;设备中的处理器720、存储装置710、输入装置730和输出装置740可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储装置710作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种财报科目的匹配方法对应的程序模块(例如,一种财报科目的匹配装置中的原始表格重建模块610、位置关系矩阵构建模块620、局部矩阵获取模块630和匹配关系建立模块640)。处理器720通过运行存储在存储装置710中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的一种财报科目的匹配方法。
存储装置710可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置710可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置710可进一步包括相对于处理器720远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
本实施例的技术方案,通过获取与纸质财报表格匹配的目标扫描图像,并对目标扫描图像进行光学字符识别,重建得到与纸质财报表格匹配的原始表格;获取与纸质财报表格匹配的标准表格,并根据原始表格中各原始财报科目和标准表格中各标准财报科目的排布顺序,构建位置关系矩阵;根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充,并根据填充结果,获取与各未完全匹配的原始财报科目对应的局部矩阵;根据局部矩阵中原始财报科目和标准财报科目之间的相似度,对位置关系矩阵进行再填充,并根据填充结果,建立各原始财报科目和各标准财报科目之间的匹配关系,解决了业务人员对财报科目进行人工映射匹配费时费力而且需要一定的专业财务知识的问题,达到了提高映射匹配效率和准确度的效果。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种财报科目的匹配方法,该方法包括:
获取与纸质财报表格匹配的目标扫描图像,并对目标扫描图像进行光学字符识别,重建得到与纸质财报表格匹配的原始表格;
获取与纸质财报表格匹配的标准表格,并根据原始表格中各原始财报科目和标准表格中各标准财报科目的排布顺序,构建位置关系矩阵;
根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充,并根据填充结果,获取与各未完全匹配的原始财报科目对应的局部矩阵;
根据局部矩阵中原始财报科目和标准财报科目之间的相似度,对位置关系矩阵进行再填充,并根据填充结果,建立各原始财报科目和各标准财报科目之间的匹配关系。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的一种财报科目的匹配方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述一种财报科目的匹配装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.一种财报科目的匹配方法,其特征在于,包括:
获取与纸质财报表格匹配的目标扫描图像,并对目标扫描图像进行光学字符识别,重建得到与纸质财报表格匹配的原始表格;
获取与纸质财报表格匹配的标准表格,并根据原始表格中各原始财报科目和标准表格中各标准财报科目的排布顺序,构建位置关系矩阵;
根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充,并根据填充结果,获取与各未完全匹配的原始财报科目对应的局部矩阵;所述局部矩阵包括未完全匹配的原始财报科目以及完全匹配的原始财报科目;
根据局部矩阵中原始财报科目和标准财报科目之间的相似度,对位置关系矩阵进行再填充,并根据填充结果,建立各原始财报科目和各标准财报科目之间的匹配关系;
根据原始表格中各原始财报科目和标准表格中各标准财报科目的排布顺序,构建位置关系矩阵,包括:
按照各标准财报科目在所述标准表格中从上到下,或者从左到右的排布顺序,顺序形成多个行元素描述信息;
按照各原始财报科目在所述原始表格中从上到下,或者从左到右的排布顺序,顺序形成多个列元素描述信息;
根据各行元素描述信息和各列元素描述信息,构建位置关系矩阵。
2.根据权利要求1所述的方法,其特征在于,根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充,包括:
依次获取所述位置关系矩阵中的第一目标列元素描述信息;
将第一目标列元素描述信息分别与所述位置关系矩阵中的各行元素描述信息进行匹配;
如果确定第一目标列元素描述信息与目标行元素描述信息完全匹配,则获取所述位置关系矩阵中,由第一目标列元素描述信息与所述目标行元素描述信息共同确定的目标矩阵位置;
将所述目标矩阵位置填充为第一数值,并将所述目标矩阵位置所在行和所在列的其他矩阵位置填充为第二数值后,返回执行依次获取所述位置关系矩阵中的第一列元素描述信息,直至完成对全部列元素描述信息的处理;
其中,第一数值用于标识完全匹配关系,第二数值用于标识完全不匹配关系。
3.根据权利要求2所述的方法,其特征在于,根据填充结果,获取与各未完全匹配的原始财报科目对应的局部矩阵,包括:
依次获取所述位置关系矩阵中的第二目标列元素描述信息;
检测所述位置关系矩阵中,与所述第二目标列元素描述信息匹配的矩阵行中是否包括第一数值;
若否,则在多个列元素描述信息中,以第二目标列元素为起点,沿前后两个方向识别与第二目标列元素描述信息对应的至少一个最邻近完全匹配列元素描述信息;
根据位置关系矩阵中,与各最邻近完全匹配列元素描述信息匹配的矩阵行中的第一数值所在的列位置,形成与第二目标列元素描述信息对应的局部矩阵;
返回执行依次获取所述位置关系矩阵中的第二目标列元素描述信息的操作,直至完成对全部列元素描述信息的处理。
4.根据权利要求2所述的方法,其特征在于,根据局部矩阵中原始财报科目和标准财报科目之间的相似度,对位置关系矩阵进行再填充,包括:
根据与各局部矩阵中未填充为第一数值或者第二数值的未填充矩阵位置匹配的行元素描述信息和列元素描述信息之间的相似度,对位置关系矩阵中匹配的矩阵位置进行再填充,其中,所述相似度小于所述第一数值。
5.根据权利要求1所述的方法,其特征在于,根据填充结果,建立各原始财报科目和各标准财报科目之间的匹配关系,包括:
根据所述位置关系矩阵中,每个矩阵行中最大数据所在的矩阵列位置,建立各原始财报科目和各标准财报科目之间的匹配关系。
6.根据权利要求1-5任一项所述的方法,其特征在于,在对目标扫描图像进行光学字符识别,重建得到与纸质财报表格匹配的原始表格之后,还包括:
将原始表格中各原始财报科目与预设的专家规则库进行匹配,获取未能成功匹配的至少一个待核检财报科目;
在建立各原始财报科目和各标准财报科目之间的匹配关系之后,还包括:
在所建立的匹配关系中,将各所述待核检财报科目进行区别显示,以进行核检提示。
7.一种财报科目的匹配装置,其特征在于,包括:
原始表格重建模块,用于获取与纸质财报表格匹配的目标扫描图像,并对目标扫描图像进行光学字符识别,重建得到与纸质财报表格匹配的原始表格;
位置关系矩阵构建模块,用于获取与纸质财报表格匹配的标准表格,并根据原始表格中各原始财报科目和标准表格中各标准财报科目的排布顺序,构建位置关系矩阵;
局部矩阵获取模块,用于根据与标准财报科目完全匹配的原始财报科目,对位置关系矩阵进行填充,并根据填充结果,获取与各未完全匹配的原始财报科目对应的局部矩阵;所述局部矩阵包括未完全匹配的原始财报科目以及完全匹配的原始财报科目;
匹配关系建立模块,用于根据局部矩阵中原始财报科目和标准财报科目之间的相似度,对位置关系矩阵进行再填充,并根据填充结果,建立各原始财报科目和各标准财报科目之间的匹配关系;
位置关系矩阵构建模块包括:
行元素信息形成单元,用于按照各标准财报科目在所述标准表格中从上到下,或者从左到右的排布顺序,顺序形成多个行元素描述信息;
列元素信息形成单元,用于按照各原始财报科目在所述原始表格中从上到下,或者从左到右的排布顺序,顺序形成多个列元素描述信息;
位置关系矩阵构建单元,用于根据各行元素描述信息和各列元素描述信息,构建位置关系矩阵。
8.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的财报科目的匹配方法。
9.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一所述的财报科目的匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110923847.7A CN113627351B (zh) | 2021-08-12 | 2021-08-12 | 财报科目的匹配方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110923847.7A CN113627351B (zh) | 2021-08-12 | 2021-08-12 | 财报科目的匹配方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113627351A CN113627351A (zh) | 2021-11-09 |
CN113627351B true CN113627351B (zh) | 2024-01-30 |
Family
ID=78384975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110923847.7A Active CN113627351B (zh) | 2021-08-12 | 2021-08-12 | 财报科目的匹配方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627351B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1049041A2 (en) * | 1999-04-30 | 2000-11-02 | Seiko Epson Corporation | Image processing apparatus and methods for pattern recognition |
US6292811B1 (en) * | 1997-09-19 | 2001-09-18 | Modernsoft, Inc. | Populating cells of an electronic financial statement |
JP2012252696A (ja) * | 2012-05-25 | 2012-12-20 | Yukumoto Kaikei Jimusho Co Ltd | 会計仕訳ファイルデータ標準化システムとそのプログラム |
CN107133571A (zh) * | 2017-04-11 | 2017-09-05 | 上海众开信息科技有限公司 | 一种将纸质发票自动生成财务报表的系统及方法 |
CN108537219A (zh) * | 2018-03-20 | 2018-09-14 | 上海眼控科技股份有限公司 | 一种用于财务报表外框的智能检测方法及装置 |
CN109783611A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件系统有限公司 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
CN111062597A (zh) * | 2019-12-06 | 2020-04-24 | 柯力 | 一种上市公司财务报表粉饰嫌疑检测方法及装置 |
WO2020186779A1 (zh) * | 2019-03-19 | 2020-09-24 | 平安科技(深圳)有限公司 | 图片信息识别方法、装置、计算机设备和存储介质 |
CN112036145A (zh) * | 2020-09-01 | 2020-12-04 | 平安国际融资租赁有限公司 | 财务报表的识别方法、装置、计算机设备与可读存储介质 |
CN112597350A (zh) * | 2020-12-25 | 2021-04-02 | 云汉芯城(上海)互联网科技股份有限公司 | 参数核验方法、系统及计算机存储介质 |
CN113158988A (zh) * | 2021-05-19 | 2021-07-23 | 上海云从企业发展有限公司 | 财务报表处理方法、装置以及计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7653871B2 (en) * | 2003-03-27 | 2010-01-26 | General Electric Company | Mathematical decomposition of table-structured electronic documents |
WO2008134588A1 (en) * | 2007-04-25 | 2008-11-06 | Counsyl, Inc. | Methods and systems of automatic ontology population |
CN105260733A (zh) * | 2015-09-11 | 2016-01-20 | 北京百度网讯科技有限公司 | 用于处理图像信息的方法和装置 |
CN107862522B (zh) * | 2017-11-17 | 2023-06-20 | 创新先进技术有限公司 | 账户信息管理方法及装置 |
-
2021
- 2021-08-12 CN CN202110923847.7A patent/CN113627351B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6292811B1 (en) * | 1997-09-19 | 2001-09-18 | Modernsoft, Inc. | Populating cells of an electronic financial statement |
EP1049041A2 (en) * | 1999-04-30 | 2000-11-02 | Seiko Epson Corporation | Image processing apparatus and methods for pattern recognition |
JP2012252696A (ja) * | 2012-05-25 | 2012-12-20 | Yukumoto Kaikei Jimusho Co Ltd | 会計仕訳ファイルデータ標準化システムとそのプログラム |
CN107133571A (zh) * | 2017-04-11 | 2017-09-05 | 上海众开信息科技有限公司 | 一种将纸质发票自动生成财务报表的系统及方法 |
CN108537219A (zh) * | 2018-03-20 | 2018-09-14 | 上海眼控科技股份有限公司 | 一种用于财务报表外框的智能检测方法及装置 |
CN109783611A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件系统有限公司 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
WO2020186779A1 (zh) * | 2019-03-19 | 2020-09-24 | 平安科技(深圳)有限公司 | 图片信息识别方法、装置、计算机设备和存储介质 |
CN111062597A (zh) * | 2019-12-06 | 2020-04-24 | 柯力 | 一种上市公司财务报表粉饰嫌疑检测方法及装置 |
CN112036145A (zh) * | 2020-09-01 | 2020-12-04 | 平安国际融资租赁有限公司 | 财务报表的识别方法、装置、计算机设备与可读存储介质 |
CN112597350A (zh) * | 2020-12-25 | 2021-04-02 | 云汉芯城(上海)互联网科技股份有限公司 | 参数核验方法、系统及计算机存储介质 |
CN113158988A (zh) * | 2021-05-19 | 2021-07-23 | 上海云从企业发展有限公司 | 财务报表处理方法、装置以及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
一种新的编码方法及其在财务管理信息系统中的应用;吕锋;武汉工业大学学报(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113627351A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9697193B2 (en) | Associating captured image data with a spreadsheet | |
RU2679209C2 (ru) | Обработка электронных документов для распознавания инвойсов | |
CN108830554B (zh) | 基于任务模型的数据成果信息质量智能检测方法和系统 | |
CN109710237A (zh) | 一种基于自定义二维报表的在线修改校验方法及设备 | |
DE112013001225T5 (de) | Dokumentenprozessierung | |
US8655075B2 (en) | Optical character recognition verification and correction system | |
CN111985459B (zh) | 表格图像校正方法、装置、电子设备和存储介质 | |
CN111552665B (zh) | 标注信息格式转换方法、装置、设备和介质 | |
CN110647611A (zh) | 基于ArcGIS平台的要素属性标注方法、装置、电子设备和计算机可读存储介质 | |
CN113049935A (zh) | 半导体智能检测系统、智能检测方法及存储介质 | |
US11823086B2 (en) | Membership analyzing method, apparatus, computer device and storage medium | |
CN113627351B (zh) | 财报科目的匹配方法、装置、计算机设备及存储介质 | |
US20200026749A1 (en) | Pdf extraction with text-based key | |
CN109214362A (zh) | 单据处理方法及相关设备 | |
CN109324963A (zh) | 自动测试收益结果的方法及终端设备 | |
CN115063784A (zh) | 票据图像的信息提取方法和装置、存储介质及电子设备 | |
CN114387429A (zh) | 基于rpa及ai的车辆产权证处理方法、装置、设备及介质 | |
CN113761858A (zh) | 表单数据处理方法、装置、计算机设备及存储介质 | |
CN113468076A (zh) | 应用程序的异常测试方法、装置、设备及存储介质 | |
CN113378277B (zh) | 基于bim技术的建筑装饰装修系统的用户验证方法 | |
CN117195846B (zh) | 一种专家表管理方法、系统、存储介质及设备 | |
CN114707958B (zh) | 一种基于云端网络的计价清单审核方法及装置 | |
CN113111713B (zh) | 一种图像检测方法、装置、电子设备及存储介质 | |
CN114330265A (zh) | 一种用于资产评估的典型案例生成方法及典型案例模板配置方法 | |
CN115841101A (zh) | 表格数据生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 301, 303 and 304, block B, 112 liangxiu Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203 Applicant after: Daguan Data Co.,Ltd. Address before: Room 301, 303 and 304, block B, 112 liangxiu Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203 Applicant before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |