CN110728142B - 一种流水文件识别方法、装置及计算机存储介质、电子设备 - Google Patents
一种流水文件识别方法、装置及计算机存储介质、电子设备 Download PDFInfo
- Publication number
- CN110728142B CN110728142B CN201910846422.3A CN201910846422A CN110728142B CN 110728142 B CN110728142 B CN 110728142B CN 201910846422 A CN201910846422 A CN 201910846422A CN 110728142 B CN110728142 B CN 110728142B
- Authority
- CN
- China
- Prior art keywords
- file
- field
- fields
- vector
- running water
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 93
- 239000013598 vector Substances 0.000 claims abstract description 76
- 230000011218 segmentation Effects 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 35
- 238000010586 diagram Methods 0.000 description 15
- 238000012546 transfer Methods 0.000 description 11
- 238000011835 investigation Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003809 water extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Machine Translation (AREA)
Abstract
一种流水文件识别方法、装置及计算机存储介质、电子设备,包括:确定待识别的文件;提取所述文件的字段;将每个字段进行分词得到多个词语;根据预先构建的语义空间将所述文件的每个词语向量化,生成字段向量;将所述字段向量与所述预先构建的语义空间中的每个向量进行匹配,得到每个字段的相关系数;在相关系数超过预设系数阈值的字段数量满足第一预设范围时,确定所述待识别的文件为流水文件。采用本申请中的方案,可以通过对待识别的文件进行字段提取、分词以及向量化处理,再结合预先构建的语义空间进行向量匹配,从而实现自动识别出各种流水文件、非流水文件,进而可以帮助信审和业务人员减少手动处理流水的时间,提高信审效率。
Description
技术领域
本申请涉及数据处理技术,具体地,涉及一种流水文件识别方法、装置及计算机存储介质、电子设备。
背景技术
传统的信审业务数据管理通常是各种文件混杂在一起,由信审和业务人员对企业或个人的银行流水信息进行筛选,得到银行流水文件。对于同一银行的流水文件而言,由于具有统一的格式因此可以很容易的将流水文件中的字段提取出来,但是,对于不同银行的流水文件而言,由于流水文件的格式不一致,导致提取字段时需要信审和业务人员手动调整成统一的流水格式。
现有技术中存在的问题:
人工识别银行流水且不能批量提取导致数据处理效率低下。
发明内容
本申请实施例中提供了一种流水文件识别方法、装置及计算机存储介质、电子设备,以解决上述技术问题。
根据本申请实施例的第一个方面,提供了一种流水文件识别方法,包括:
确定待识别的文件;
提取所述文件的字段;
将每个字段进行分词得到多个词语;
根据预先构建的语义空间将所述文件的每个词语向量化,生成字段向量;
将所述字段向量与所述预先构建的语义空间中的每个向量进行匹配,得到每个字段的相关系数;
在相关系数超过预设系数阈值的字段数量满足第一预设范围时,确定所述待识别的文件为流水文件。
根据本申请实施例的第二个方面,提供了一种流水文件识别装置,包括:
文件确定模块,用于确定待识别的文件;
字段提取模块,用于提取所述文件的字段;
分词模块,用于将每个字段进行分词得到多个词语;
向量化模块,用于根据预先构建的语义空间将所述文件的每个词语向量化,生成字段向量;
匹配模块,用于将所述字段向量与所述预先构建的语义空间中的每个向量进行匹配,得到每个字段的相关系数;
识别模块,用于在相关系数超过预设系数阈值的字段数量满足第一预设范围时,确定所述待识别的文件为流水文件。
根据本申请实施例的第三个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
根据本申请实施例的第四个方面,提供了一种电子设备,包括存储器、以及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如上所述的方法。
本申请实施例中提供的流水文件识别方法、装置及计算机存储介质、电子设备,可以通过对待识别的文件进行字段提取、分词以及向量化处理,再结合预先构建的语义空间进行向量匹配,从而实现自动识别出各种流水文件、非流水文件,进而可以帮助信审和业务人员减少手动处理流水的时间,提高信审效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例一中流水文件识别方法实施的流程示意图;
图2示出了本申请实施例二中流水文件识别装置的结构示意图;
图3示出了本申请实施例四中电子设备的结构示意图;
图4示出了本申请实施例五中一银行流水文件的示意图;
图5示出了本申请实施例五中流水模板的示意图;
图6示出了本申请实施例五中银行流水文件的处理过程示意图。
具体实施方式
在实现本申请的过程中,发明人发现:
基于现有流水表文件数据,因为流水文件前面有各种文字说明或者某银行图标,导致直接提取流水字段比较困难。但是经过分析发现,各银行流水存在一些共性,流水字段行均为中文且列数规范,而具体数据行有数值。
针对现有技术的问题,本申请实施例中提供了一种流水文件处理方法、装置及计算机存储介质、电子设备,通过语义识别帮助信审和业务人员减少手动处理流水的时间,把更多精力用来识别客户的其他风险,提高信审效率。
如果采用现有的人工方式处理流水,即便是熟练的信审人员仍需要5分钟,新的信审人员则需要更久时间(大约9分钟),如果采用本申请实施例所提供的方案则只需要几秒就可以完成。而且,本申请实施例能够不断优化,随着加入语义资料的不断增多,流水处理效果越好,从而可以做到自动化上传提取流水数据。
本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
图1示出了本申请实施例一中流水文件识别方法实施的流程示意图。
如图所示,所述流水文件识别方法包括:
步骤101、确定待识别的文件;
步骤102、提取所述文件的字段;
步骤103、将每个字段进行分词得到多个词语;
步骤104、根据预先构建的语义空间将所述文件的每个词语向量化,生成字段向量;所述语义空间根据流水字段池中的流水字段得到;
步骤105、将所述字段向量与所述预先构建的语义空间中的每个向量进行匹配,得到每个字段的相关系数;
步骤106、在相关系数超过预设系数阈值的字段数量满足第一预设范围时,确定所述待识别的文件为流水文件。
具体实施时,本申请实施例可以先提取所述待识别的文件中的字段,然后再将提取得到的多个字段分别进行分词,得到多个词语。
在一种实施方式中,所述提取所述文件中的字段,包括:
确定整行数据均为中文且该行为表头的有效行;
提取所述有效行的字段。
本申请实施例考虑到对于流水文件而言,通常会有一个表格,该表格的表头所在行通常为中文(属性名称),其他行则为阿拉伯数字或者阿拉伯数字与文字的混合(具体的属性值),因此,本申请实施例首先确定整行数据均为中文且该行为表头的有效行,然后再提取该行的字段。
所述将每个字段进行分词得到多个词语,具体的分词过程可以采用现有的分词技术实现,本申请对分词的具体步骤在此不做赘述。
在一种实施方式中,所述预先构建得到的语义空间可以为矩阵,所述语义空间根据流水字段池中的流水字段得到;所述流水字段池在初始时可以根据实际需要设置一个或多个流水字段。
本申请实施例中通过将待识别的文件的多个词语向量化之后得到文件的每个字段的字段向量,然后将每个字段的字段向量与所述语义空间中的每个向量进行相关计算,得到每个字段与语义空间的相关系数,若某个字段的相关系数较高(超过预设系数阈值)则说明该字段很可能是流水文件中的字段,若很多字段的相关系数均较高,则确定该文件为流水文件。
本申请实施例中提供的流水文件识别方法,可以通过对待识别的文件进行字段提取、分词以及向量化处理,再结合预先构建的语义空间进行向量匹配,从而实现自动识别出各种流水文件、非流水文件,进而可以帮助信审和业务人员减少手动处理流水的时间,提高信审效率。
在一种实施方式中,所述语义空间的构建过程如下:
将预先确定的流水字段池中的流水字段进行分词,得到m个词语;
确定每个词语的含义解释;
对每个词语的含义解释进行分词,得到k个词语的语义空间,并将所述字段池中的流水字段确定为k*a的矩阵;其中,所述a为流水字段池中的流水字段数量。
具体实施时,假设初始时流水字段池中设置有a个流水字段,本申请实施例通过将这a个流水字段进行分词,得到m个词语,然后再对这m个词语分别进行扩充,确定每个词语的含义解释,并对每个词语的含义解释进行分词,最终得到k个词语的语义空间。
其中,a、m、k均为正整数,且a≤m≤k。
例如:假设初始化流水字段池设置有对方账号、转出金额两个流水字段,对这两个流水字段进行分词,得到对方/账号/转出/金额四个词语,再分别确定这四个词语的含义解释,例如:对方指的是处于与行为主体相对地位的一方,账号指的是簿籍或簿册,转出指的是改变方向从某地或某方向出来,金额指的是金钱的数额等,进一步对这些含义解释进行分词,分词后得到的词语以及原本的四个词语构成语义空间。
具体实施时,所述确定每个词语的含义解释,可以根据现有的词典、辞海等工具文件确定,将每个词语在这些工具文件中进行检索,匹配得到每个词语的含义解释。具体的检索匹配过程在现有技术中已经有比较成熟的技术实现,本申请在此不做赘述。
考虑到上述方式构建的语义空间可能存在矩阵过于稀疏的问题,因此,本申请还可以采用如下方式实施。
在一种实施方式中,所述方法进一步包括:
对所述k*a的矩阵进行降维处理,得到k*h的矩阵;
其中,h<a。
本申请实施例通过对矩阵进行降维处理,可以获得词与词之间更深层次的潜在关系,消除冗余特征。
具体实施时,对矩阵进行降维处理可以有多种实现方式,本申请对降维处理的具体过程不作限制。
为了进一步减少向量匹配的计算量,本申请实施例还可以采用如下方式实施。
在一种实施方式中,在所述提取所述文件的字段之后、根据预先构建的语义空间将所述文件的每个词语向量化之前,所述方法进一步包括:
根据预先确定的流水字段池将所述文件的字段中的无效字段剔除,并将同一含义的字段进行整合。
本申请实施例可以在提取出所述文件的字段后,先根据流水字段池将所述文件的多个字段中的无效字段剔除。再将同一含义的字段进行整合,从而使得后续向量化以及向量匹配等步骤的向量数量减少,计算量变小。
在一种实施方式中,所述根据预先确定的流水字段池将所述文件的字段中的无效字段剔除,包括:将所述文件的字段与流水字段池中的流水字段进行匹配,若所述流水字段池中不包括所述文件的字段,则确定所述文件的字段为无效字段,将所述字段剔除。
在一种实施方式中,所述将同一含义的字段进行整合,包括:
确定具有同一含义的多个字段;
将所述多个字段整合为一个字段。
在一种实施方式中,所述确定同一含义的多个字段,可以为:根据多个字段中包括的词语是否存在交集确定所述多个字段是否为同一含义;或者,根据多个字段中每个字段的具体值确定所述多个字段是否为同一含义等。
例如:转入金额和转入发生额两个字段均包括“转入”这一词语,则认为转入金额和转入发生额为同一含义;又如:对方账户和对方账号均包括“对方”这一词语,则认为对方账户和对方账号为同一含义,或者对方账户和对方账号的具体值(文件表格该列对应的其他行)均为16位数字,那么可以认为对方账户和对方账号为同一含义。
在一种实施方式中,所述方法进一步包括:
在匹配结果为相关系数超过预设系数阈值的字段数量满足第二预设范围时,确定所述待识别的文件为疑似流水文件;
二次判断确定所述疑似流水文件是否为流水文件。
本申请实施例中在匹配结果为相关系数超过预设系数阈值的字段数量满足第二预设范围时,需要对该待识别的文件进行二次判断,具体的,二次判断可以采用其他现有技术也可以采用人工方式实现,本申请对此不作限制。
例如:假设文件0002包括12个字段,其中6个字段(小于9个)与语义空间的相关系数大于0.8,则需要再次判断该文件是否为流水文件。
在一种实施方式中,所述方法进一步包括:
在所述文件为流水文件时,将所述文件中的字段存储流水数据库,并根据所述文件中的字段更新流水字段池。
具体实施时,若所述待识别的文件确定为流水文件,将所述文件中提取的字段存储至流水数据库,并更新流水字段池。所述文件中提取的字段包括相关系数超过预设系数阈值的字段、和相关系数低于预设系数阈值的字段。
在一种实施方式中,所述将所述字段向量与所述预先构建的语义空间中的每个向量进行匹配,具体根据下式计算:
其中,Ak*h为预先构建的语义空间中的向量矩阵,为所述文本的字段向量,Vi为语义空间中的第i个词的向量,Vj为所述文本的第j个向量,norm(Vi)、norm(Vj)分别为Vi、Vj的欧几里得范数。
具体实施时,假设文件003包括10个字段,每个字段进行分词后得到100个词语,若某个字段包括i个词语,第j个词语的向量设为Vj,那么该字段的向量则为i个词语的向量的平均值
其中,norm(Vi)可以为norm(Vj)为/>
实施例二
基于同一发明构思,本申请实施例提供了一种流水文件识别装置,该装置解决技术问题的原理与一种流水文件识别方法相似,重复之处不再赘述。
图2示出了本申请实施例二中流水文件识别装置的结构示意图。
如图所示,所述流水文件识别装置包括:
文件确定模块201,用于确定待识别的文件;
字段提取模块202,用于提取所述文件的字段;
分词模块203,用于将每个字段进行分词得到多个词语;
向量化模块204,用于根据预先构建的语义空间将所述文件的每个词语向量化,生成字段向量;所述语义空间根据流水字段池中的流水字段得到;
匹配模块205,用于将所述字段向量与所述预先构建的语义空间中的每个向量进行匹配,得到每个字段的相关系数;
第一识别模块206,用于在相关系数超过预设系数阈值的字段数量满足第一预设范围时,确定所述待识别的文件为流水文件。
本申请实施例中提供的流水文件识别装置,可以通过对待识别的文件进行字段提取、分词以及向量化处理,再结合预先构建的语义空间进行向量匹配,从而实现自动识别出各种流水文件、非流水文件,进而可以帮助信审和业务人员减少手动处理流水的时间,提高信审效率。
在一种实施方式中,所述装置进一步包括:语义空间构建模块;
所述语义空间构建模块,包括:
第一分词单元,用于将预先确定的字段池中的流水字段进行分词,得到m个词语;
解释单元,用于确定每个词语的含义解释;
第二分词单元,用于对每个词语的含义解释进行分词,得到k个词语的语义空间,并将所述字段池中的流水字段确定为k*a的矩阵;其中,所述a为流水字段池中的流水字段数量。
在一种实施方式中,所述语义空间构建模块进一步包括:
降维处理单元,用于对所述k*a的矩阵进行降维处理,得到k*h的矩阵;其中,h<a。
在一种实施方式中,所述装置进一步包括:
预处理模块,用于在所述提取所述文件的字段之后、根据预先构建的语义空间将所述文件的每个词语向量化之前,根据预先确定的流水字段池将所述文件的字段中的无效字段剔除,并将同一含义的字段进行整合。
在一种实施方式中,所述装置进一步包括:
第二识别模块207,用于在匹配结果为相关系数超过预设系数阈值的字段数量满足第二预设范围时,确定所述待识别的文件为疑似流水文件;
二次处理模块208,用于二次判断确定所述疑似流水文件是否为流水文件。
在一种实施方式中,所述装置进一步包括:
更新模块209,用于在所述文件为流水文件时,将所述文件中的字段存储流水数据库,并根据所述文件中的字段更新字段池。
在一种实施方式中,所述匹配模块,具体按照下式匹配所述字段向量与所述预先构建的语义空间中的每个向量:
其中,Ak*h为预先构建的语义空间中的向量矩阵,为所述文本的字段向量,Vi为语义空间中的第i个词的向量,Vj为所述文本的第j个向量,norm(Vi)、norm(Vj)分别为Vi、Vj的欧几里得范数。
实施例三
基于同一发明构思,本申请实施例还提供一种计算机存储介质,下面进行说明。
所述计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述流水文件识别方法的步骤。
本申请实施例中提供的计算机存储介质,可以通过对待识别的文件进行字段提取、分词以及向量化处理,再结合预先构建的语义空间进行向量匹配,从而实现自动识别出各种流水文件、非流水文件,进而可以帮助信审和业务人员减少手动处理流水的时间,提高信审效率。
实施例四
基于同一发明构思,本申请实施例还提供一种电子设备,下面进行说明。
图3示出了本申请实施例四中电子设备的结构示意图。
如图所示,所述电子设备包括存储器301、以及一个或多个处理器302,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如实施例一所述的流水文件识别方法。
本申请实施例中提供的电子设备,可以通过对待识别的文件进行字段提取、分词以及向量化处理,再结合预先构建的语义空间进行向量匹配,从而实现自动识别出各种流水文件、非流水文件,进而可以帮助信审和业务人员减少手动处理流水的时间,提高信审效率。
实施例五
为了便于本申请的实施,本申请实施例以一具体实例进行说明。
1)基于现有流水表文件数据,因为流水文件前面有各种文字说明或者某银行图标,导致直接提取流水字段比较困难。但是经过分析发现,各银行流水存在一些共性,流水字段行均为中文且列数规范,而具体数据行有数值,所以本申请实施例可以利用Python技术,匹配银行流水表中每行数据,如果某行数据均为中文且行数为表头的有效行数,则将该行的数据均提取出来,制作成流水字段池。
图4示出了本申请实施例五中一银行流水文件的示意图。
如图所示,在粗线表示的表格内为交易记录的流水信息,在所述表格上方有一些标识,不同银行的这些标识可能不同,本申请实施例可以首先识别出全部为中文而且是表头的那一行(即包括“交易时间、交易金额、余额、交易摘要”等字段的表格首行,图中黑体加粗显示),然后将该行的数据提取出来作为流水字段(即“交易时间、交易金额、余额、交易摘要”等字段),放入流水字段池。
2)基于流水字段池,将无效的字段剔除,保留有效字段,将同一含义的字段整合在一起,做成流水模板。
其中,将无效的字段剔除,保留有效字段,具体可以为:预先设置无效字段和有效字段,例如:设置无效字段包括收款人开户行账号、客户业务编号、记录标志号等,设置有效字段为交易金额、收款人账户名称、摘要等,将多个字段分别与预设的无效字段和/或有效字段进行匹配。
具体的,例如:有些银行的流水文件字段为“交易时间”,而有些银行的流水文件字段为“记账日期”,本申请实施例可以根据“交易时间”该列的数值(例如:2019/xx/xx)以及“记账日期”该列的数值(例如:2018/xx/xx)可以确定这两个字段为同一含义;
又如:有些银行的流水文件字段为“转入发生额”,而有些银行的流水文件字段则为“转入金额”,本申请实施例可以根据两个字段中均包括的“转入”一词将这两个字段确认为同一含义。
在确定同一含义的字段后,将这些同一含义的字段整合在一起,形成流水模板,具体的流水模板可以为如图5所示,包括交易主体、交易时间、对方账号、余额、转入金额、转出金额、摘要、备注等字段,具体的流水数据最终将会按照该流水模板存储至数据库中。
本申请实施例中流水以提取以下信息为例:对方账号、转入金额、转出金额、余额、交易时间、摘要、备注这7个流水字段。
此外,还可以进一步识别该流水文件的流水主体。
具体实施时,可以根据企业提供的文件夹信息,提取出该流水对应的流水主体名。
3)构建语义空间
假设现有的流水字段池中流水字段有11个,分别为:对方账户、转入发生额、转入金额、转出发生额、转出金额、余额、交易时间、记账日期、摘要、交易摘要、备注。
将上述11个流水字段分别进行分词处理,拆分成19个词,分别为:对方、账户、转入、发生额、转入、金额、转出、发生额、转出、金额、余额、交易、时间、记账、日期、摘要、交易、摘要、备注。
本申请实施例考虑到《现代汉语词典》词条完备,且在词语解释方面比较权威,因此将这19个词在《现代汉语词典》查找其解释,得到每个词语的含义解释。
例如:对方,处于与行为主体相对地位的一方;账号,簿籍、簿册;转入,转变原来方向而进入某地或某方面;金额,金钱的数额、金质的额饰、金饰的匾额。
利用现有分词技术将上述每个词语的解释语句进行分词,例如:
对方,处于/与/行为/主体/相对/地位/的/一方;
账号,簿籍/簿册;
转入,转变/原来/方向/而/进入/某地/或/某方面;
金额,金钱/的/数额、金质/的/额饰、金饰/的/匾额。
再进行去停用词等处理,例如:去掉“的”、“而”等词语,假设共得到100个词。
本申请实施例可以得到100个词的语义空间,则现有流水字段可以表示成100*11的矩阵A100*11,具体可以如下所示:
其中,矩阵中的1表示表示该向量位置代表的词在语义空间中存在,0表示该向量位置代表的词在语义空间中不存在。
考虑到上述矩阵可能存在过于稀疏的问题,因此,本申请实施例还可以进一步对该100*11的矩阵进行处理,获得词与词之间的最主要的潜在关系。具体的,可以通过消除冗余的特征,经过LSA(隐含语义空间,Latent Semantic Analysis)降维处理。
具体的,为了便于提高算法的计算效率,可以降维找出主要的词,本申请实施例还可以采用下述方式实施。
对目前的矩阵A100*11根据奇异值分解可以表示为以下形式:
其中,Σ100*11是除了对角线上是奇异值外其他位置均是0。
假设得到100*8的语义空间(降维后的字段数8小于原来的字段数11),具体如下:
4)计算相似度
假设待识别的文件中提取出的字段为“结存余额”,那么本申请实施例首先将其分词得到结存和余额两个词语,然后在《现代汉语词典》中分别查找这两个词的含义解释:
结存:结算后余下(款项、货物):将进货栏数字加上前一天的,减去当天销货更多:记入当天栏。
余额:1.名额中余下的空额;2.账目上剩余的款额。
将上述含义解释进一步分词,并将停用词去掉等处理后,得到:
结存:结算/余下/款项/货物/进货/栏/数字/加上/前一天/减去/当天/销货/更多/记入/当天/栏;
余额:名额/余下/空额/账目/剩余/款项。
即,将所述字段“结存余额”切分成(V1,V2,…,V22),具体的,
(V1,V2,…,V22)=(结算,余下,款项,货物,进货,栏,数字,加上,前一天,减去,当天,销货,更多,记入,当天,栏,名额,余下,空额,账目,剩余,款项)。
根据语义空间(上述示例为100*8的语义空间),每个字段可以表示成长度为100的向量,所述流水字段可以表示成矩阵为A100*22。例如:结存余额这个流水字段,将该字段拆分得到22个词,这22个词组成一个集合,可以表示为:
其中,Vj为每个词的变量,矩阵中1代表该词在语义空间中出现过,0表示没有出现过。
本申请实施例考虑到一个流水字段可以拆分n个词(例如:结存余额这一流水字段可以拆分为22个词),将这n个词作为一个集合,得到这个流水字段(例如:结存余额)的向量:
所述为目标流水字段的向量,以结存余额这一字段为例/>为100行*1列的向量,然后得到的向量进行归一化,得到向量数值为0或1的向量,具体的,本申请实施例假设归一化后的目标流水字段的向量为:
使用该字段的向量与语义空间中的Ak*a每个向量计算余弦相似性,具体的,可以将与语义空间中A100*8的8个列向量分别进行余弦相似度计算。
具体的余弦相似度计算公式为:
其中,
具体为:
计算得到排名前5的余弦相似性,即,相关系数按大小排序得到top5的5个列向量,然后再根据投票法确定所述流水字段属于流水字段池中哪个字段,例如:假设top5的列向量分别为列向量1、列向量3、列向量4、列向量5、列向量6,假设列向量4、5、6均表示转出金额,而列向量1、3表示转入金额,则根据投票法以多取胜的原则确定目标字段属于流水字段池中的转出金额。
4)识别确定
图6示出了本申请实施例五中银行流水文件的处理过程示意图。
如图所示,本申请实施例首先可以初始化流水文件集和字段池,然后构成流水模板;再接收到新文件时,通过与流水模板进行匹配得到该新文件中每个字段与语义空间的相关系数。
4.1识别文件时,首先提取出该文件字段,跟语义空间匹配,如果相关系数超过0.8的字段数超过5,则将其判断其为流水文件,则自动提取出其流水数据,存入流水数据库中。
例如:假设该文件001包括结存余额在内的9个字段,其中有6个字段与语义空间的相关系数超过0.8,那么则确认该文件001是流水文件。
进一步的,本申请实施例还可以将该文件中另外3个字段增加至流水字段池中,更新所述流水字段池,以便后续识别其他文件时可以得到更好的识别结果。
4.2如果相关系数超过0.8的字段数介于4-5之间,则将其判断为疑似流水数据,将其标记为疑似流水数据,则进一步人工判断该文件是否为流水文件,如果不是流水数据,则将其舍去,如果是流水文件,则将该文件中的字段加入字段池中,优化字段池。
4.3如果相关系数超过0.8的字段数小于4,则将其判断为非流水文件,不抽取该文件数据。
本申请实施例采用语义识别方法来处理各种流水文件以及其他非银行流水文件,帮助信审和业务人员减少手动处理流水的时间,把更多精力节省出来去识别客户的其他风险,提高信审效率。如果人工处理流水文件,即便是熟练的信审人员仍需要5分钟,对于新的信审人员则需要大约9分钟,如果采用本申请实施例所提供的技术方案只需要几秒就完成了流水文件的处理。而且,本申请实施例可以不断优化,随着加入语义资料越多,识别效果越好,目前识别率超过90%以上,后续可以超过99%,最终做到自动化上传提取流水数据。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (9)
1.一种流水文件识别方法,其特征在于,包括:
确定待识别的文件;
提取所述文件的字段;
将所述文件的字段与流水字段池中的流水字段进行匹配,若所述流水字段池中不包括所述文件的字段,则确定所述文件的字段为无效字段,将所述字段剔除,确定具有同一含义的多个字段,将所述多个字段整合为一个字段;
将每个字段进行分词得到多个词语;
根据预先构建的语义空间将所述文件的每个词语向量化,生成字段向量;所述语义空间根据流水字段池中的流水字段得到;
将所述字段向量与所述预先构建的语义空间中的每个向量进行匹配,得到每个字段的相关系数;
在相关系数超过预设系数阈值的字段数量满足第一预设范围时,确定所述待识别的文件为流水文件;
所述提取所述文件中的字段,包括:
确定整行数据均为中文且该行为表头的有效行;
提取所述有效行的字段。
2.根据权利要求1所述的方法,其特征在于,所述语义空间的构建过程如下:
将预先确定的流水字段池中的流水字段进行分词,得到m个词语;
确定每个词语的含义解释;
对每个词语的含义解释进行分词,得到k个词语的语义空间,并将所述字段池中的流水字段确定为k*a的矩阵;其中,所述a为流水字段池中的流水字段数量。
3.根据权利要求2所述的方法,其特征在于,进一步包括:
对所述k*a的矩阵进行降维处理,得到k*h的矩阵;其中,h<a。
4.根据权利要求1所述的方法,其特征在于,进一步包括:
在匹配结果为相关系数超过预设系数阈值的字段数量满足第二预设范围时,确定所述待识别的文件为疑似流水文件;
二次判断确定所述疑似流水文件是否为流水文件。
5.根据权利要求1或4所述的方法,其特征在于,进一步包括:
在所述文件为流水文件时,将所述文件中的字段存储流水数据库,并根据所述文件中的字段更新流水字段池。
6.根据权利要求1所述的方法,其特征在于,所述将所述字段向量与所述预先构建的语义空间中的每个向量进行匹配,具体根据下式计算:
其中,Ak*h为预先构建的语义空间中的向量矩阵,为所述文本的字段向量,Vi为语义空间中的第i个词的向量,Vj为所述文本的第j个向量,norm(Vi)、norm(Vj)分别为Vi、Vj的欧几里得范数。
7.一种流水文件识别装置,其特征在于,包括:
文件确定模块,用于确定待识别的文件;
字段提取模块,用于提取所述文件的字段;
预处理模块,用于将所述文件的字段与流水字段池中的流水字段进行匹配,若所述流水字段池中不包括所述文件的字段,则确定所述文件的字段为无效字段,将所述字段剔除,确定具有同一含义的多个字段,将所述多个字段整合为一个字段;
分词模块,用于将每个字段进行分词得到多个词语;
向量化模块,用于根据预先构建的语义空间将所述文件的每个词语向量化,生成字段向量;
匹配模块,用于将所述字段向量与所述预先构建的语义空间中的每个向量进行匹配,得到每个字段的相关系数;
识别模块,用于在相关系数超过预设系数阈值的字段数量满足第一预设范围时,确定所述待识别的文件为流水文件;
所述字段提取模块还用于:
确定整行数据均为中文且该行为表头的有效行;
提取所述有效行的字段。
8.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一所述方法的步骤。
9.一种电子设备,其特征在于,包括存储器、以及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如权利要求1至6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910846422.3A CN110728142B (zh) | 2019-09-09 | 2019-09-09 | 一种流水文件识别方法、装置及计算机存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910846422.3A CN110728142B (zh) | 2019-09-09 | 2019-09-09 | 一种流水文件识别方法、装置及计算机存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110728142A CN110728142A (zh) | 2020-01-24 |
CN110728142B true CN110728142B (zh) | 2023-12-22 |
Family
ID=69217962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910846422.3A Active CN110728142B (zh) | 2019-09-09 | 2019-09-09 | 一种流水文件识别方法、装置及计算机存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110728142B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287005B (zh) * | 2020-10-22 | 2024-03-22 | 北京锐安科技有限公司 | 一种数据处理方法、装置、服务器及介质 |
CN112765324B (zh) * | 2021-01-25 | 2022-12-23 | 四川虹微技术有限公司 | 一种概念漂移检测方法及装置 |
CN114896352B (zh) * | 2022-04-06 | 2022-11-11 | 北京月新时代科技股份有限公司 | 无字段名的井文件字段名自动匹配方法、系统、介质和计算机设备 |
CN116702024B (zh) * | 2023-05-16 | 2024-05-28 | 见知数据科技(上海)有限公司 | 流水数据类型识别方法、装置、计算机设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN204817233U (zh) * | 2015-08-21 | 2015-12-02 | 厦门拓博电气有限公司 | 一种带识别码产品的自动识别分选装置 |
CN107704625A (zh) * | 2017-10-30 | 2018-02-16 | 锐捷网络股份有限公司 | 字段匹配方法和装置 |
CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
WO2018166236A1 (zh) * | 2017-03-13 | 2018-09-20 | 平安科技(深圳)有限公司 | 理赔账单识别方法、装置、设备及计算机可读存储介质 |
CN109766436A (zh) * | 2018-12-04 | 2019-05-17 | 北京明略软件系统有限公司 | 一种数据表的字段与知识库的数据元匹配的方法和装置 |
CN110119379A (zh) * | 2019-05-09 | 2019-08-13 | 海闻科技有限公司 | 一种对银行流水数据自动解析方法及装置、存储介质 |
-
2019
- 2019-09-09 CN CN201910846422.3A patent/CN110728142B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN204817233U (zh) * | 2015-08-21 | 2015-12-02 | 厦门拓博电气有限公司 | 一种带识别码产品的自动识别分选装置 |
WO2018166236A1 (zh) * | 2017-03-13 | 2018-09-20 | 平安科技(深圳)有限公司 | 理赔账单识别方法、装置、设备及计算机可读存储介质 |
CN107704625A (zh) * | 2017-10-30 | 2018-02-16 | 锐捷网络股份有限公司 | 字段匹配方法和装置 |
CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
CN109766436A (zh) * | 2018-12-04 | 2019-05-17 | 北京明略软件系统有限公司 | 一种数据表的字段与知识库的数据元匹配的方法和装置 |
CN110119379A (zh) * | 2019-05-09 | 2019-08-13 | 海闻科技有限公司 | 一种对银行流水数据自动解析方法及装置、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110728142A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728142B (zh) | 一种流水文件识别方法、装置及计算机存储介质、电子设备 | |
EP3602384B1 (en) | Layered masking of content | |
CN109087163B (zh) | 信用评估的方法及装置 | |
CN106557971A (zh) | 基于语音识别技术的财务数据处理方法、系统及终端 | |
US10509958B2 (en) | Systems and methods for capturing critical fields from a mobile image of a credit card bill | |
US11610271B1 (en) | Transaction data processing systems and methods | |
CN110598066A (zh) | 基于词向量表达和余弦相似度的银行全称快速匹配方法 | |
CN110956166A (zh) | 票据标注方法及装置 | |
WO2023071120A1 (zh) | 数字资产中的绿色资产的占比的识别方法及相关产品 | |
CN111709844A (zh) | 一种保险洗钱人员检测方法、装置和计算机可读存储介质 | |
CN111047092A (zh) | 纠纷案件胜率预测方法、装置、计算机设备及存储介质 | |
CN112365352B (zh) | 一种基于图神经网络的反套现方法及装置 | |
CN109635289A (zh) | 词条分类方法及审计信息抽取方法 | |
CN114971854A (zh) | 一种交易信息处理方法及装置 | |
Jácome et al. | Contextual Analysis of Comments in B2C Facebook Fan Pages Based on the Levenshtein Algorithm | |
CN113052692A (zh) | 数据处理的方法、装置、电子设备及计算机可读存储介质 | |
CN111428497A (zh) | 一种自动抽取出资信息的方法、装置及设备 | |
Baydar et al. | FOCA: A System for Classification, Digitalization and Information Retrieval of Trial Balance Documents. | |
JP2004102685A (ja) | 入金明細照合システムおよび振り込み人解明方法 | |
CN115034891A (zh) | 基于自然语言处理的借贷记账方法、装置、设备及介质 | |
KR20230169538A (ko) | 금융 마이데이터 기반 기계학습을 위한 말뭉치를 이용한 거래 적요 데이터 분석 장치 및 방법과 이를 위한 컴퓨터 프로그램 | |
CN117076438A (zh) | 跨行支付联行号补录方法及其系统 | |
CN116521878A (zh) | 工单分类方法及装置 | |
Quang Vang | Determinants of the Extent of Individual Credit Rationing: A Case Study of Can Tho Military Commercial Joint Stock Bank, Vietnam | |
CN116468433A (zh) | 账单数据排重方法、系统和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210322 Address after: 200333 room 3110, No. 100, Lane 130, Taopu Road, Putuo District, Shanghai Applicant after: Shanghai zebra Laila Logistics Technology Co.,Ltd. Address before: Room 308-1, area C, 1718 Daduhe Road, Putuo District, Shanghai 200333 Applicant before: Shanghai kjing XinDa science and Technology Group Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |