CN116702024A - 流水数据类型识别方法、装置、计算机设备和存储介质 - Google Patents
流水数据类型识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116702024A CN116702024A CN202310551985.6A CN202310551985A CN116702024A CN 116702024 A CN116702024 A CN 116702024A CN 202310551985 A CN202310551985 A CN 202310551985A CN 116702024 A CN116702024 A CN 116702024A
- Authority
- CN
- China
- Prior art keywords
- field
- target
- data
- type
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004590 computer program Methods 0.000 claims abstract description 41
- 238000001514 detection method Methods 0.000 claims description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- 238000000605 extraction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Finance (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Character Input (AREA)
Abstract
本申请涉及一种流水数据类型识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段;将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。采用本方法能够提高流水数据的类别识别准确率和效率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种流水数据类型识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着信息技术的发展,国内的电子银行得到迅速发展,流水对账单逐渐从纸质的形式大量转化成电子流水的形式。各银行的电子银行都是由其自己管理,不存在统一格式的流水对账单,甚至同一家银行的电子流水也会存在多种不同的格式。
传统技术中,针对每一种格式的流水对账单配置有特定的识别模板,针对多个流水对账单进行识别时,往往根据模板判断所属银行需要遍历所有已配置的识别模板。
然而,随着电子银行的普及,电子流水数据呈现大数据趋势,识别模板的数量日益增多,需要遍历的数据也日益增多,判断单个流水对账单的效率会明显降低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高流水对账单类型识别效率的流水数据类型识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种流水数据类型识别方法。所述方法包括:
获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段;
将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。
在其中一个实施例中,获取待识别流水数据中目标字段的字段信息,包括:
获取待识别数据中的目标字段;
对目标字段进行字段检测,确定待识别流水数据中各目标字段的字段名称、字段区域,以及各字段区域内的文本信息;
获取待识别数据对应的版式坐标系,基于各字段区域,得到各字段在版式坐标系中对应的坐标位置,作为目标字段的位置信息;
将位置信息,以及各字段区域内的文本信息,作为目标字段的区域信息,将区域信息与字段名称作为目标字段的字段信息。
在其中一个实施例中,对区域信息识别得到待识别流水数据对应的多个第一数据类型,包括:
基于目标字段的位置信息,作为目标位置信息,基于目标位置信息对多个类型模板进行查询,得到对应目标位置信息的多个第一类型模板;
提取目标字段的文本信息所对应的文本特征,作为目标文本特征,基于目标文本特征对多个第一类型模板进行查询,得到对应目标文本特征的多个第二类型模板;
将第二类型模板对应的数据类型,作为待识别流水数据对应的第一数据类型。
在其中一个实施例中,基于目标位置信息对多个类型模板进行查询,得到对应目标位置信息的多个第一类型模板,包括:
获取多个类型模板中每个类型模板中目标字段的位置信息,作为第一位置信息;
基于目标位置信息,对多个第一位置信息进行查询,将与目标位置信息相匹配的第一位置信息作为第二位置信息;
将第二位置信息对应的类型模板,作为对应目标位置信息的第一类型模板。
在其中一个实施例中,提取目标字段的文本信息所对应的文本特征,作为目标文本特征,基于目标文本特征对多个第一类型模板进行查询,得到对应目标文本特征的多个第二类型模板,包括:
获取多个第一类型模板中每个第一类型模板中目标字段的文本特征,作为第一文本特征;
提取待识别流水数据中目标字段的文本信息所对应的文本特征,作为目标文本特征;
基于目标文本特征,对多个第一文本特征进行查询,将与目标文本特征相匹配的第一文本特征作为第二文本特征;
将第二文本特征对应的多个第一类型模板,作为对应目标文本特征的第二类型模板。
在其中一个实施例中,对字段名称识别得到待识别流水数据对应的多个第二数据类型,包括:
针对多个类型模板中每个类型模板,获取类型模板中的第一拆分词;其中,类型模板中目标字段的字段名称至少包括一个拆分词;
提取待识别流水数据中字段名称的名称特征;其中,名称特征为字段名称中数量最多的拆分词;
基于名称特征,对多个第一拆分词进行查询,将与名称特征相匹配的第一拆分词作为第二拆分词;
将第二拆分词对应的多个类型模板作为第三类型模板,将第三类型模板对应的数据类型,作为待识别流水数据对应的第二数据类型。
第二方面,本申请还提供了一种流水数据类型识别装置。所述装置包括:
字段信息获取模块,用于获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段;
数据识别模块,用于将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。
第四方面,本申请还提供了一种计算机设备可读存储介质。所述计算机设备可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述方法的步骤。
上述流水数据类型识别方法、装置、计算机设备、存储介质和计算机程序产品,首先,获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段。然后,将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。通过区域信息、字段名称分别识别得到待识别流水数据对应的多个第一数据类型和多个第二数据类型,实现双重查询,基于上述双重查询确定并输出待识别流水数据对应的目标数据类型,可以提高流水数据的类别识别准确率和效率。
附图说明
图1为一个实施例中流水数据类型识别方法的应用环境图;
图2为一个实施例中流水数据类型识别方法的流程示意图;
图3为一个实施例中流水数据类型识别装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的流水数据类型识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104给终端102提供一个实现流水数据类型识别的环境,终端102与服务器104进行通信,从而进入流水数据类型识别的环境。服务器104可以从终端102处获取待识别的流水数据,服务器104可以获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段。然后,服务器104可以将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。最后,服务器104可以将待识别流水数据的识别结果发送至终端102。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本申请实施例提供的流水数据类型识别方法,可以应用于服务器或终端单侧实现,也可以应用于包括终端和服务器的系统,通过终端和服务器的交互实现。
在一个实施例中,如图2所示,提供了一种流水数据类型识别方法,以该方法应用于包括终端和服务器的系统实现为例进行说明,包括以下步骤202至步骤204。
步骤202,获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段。
在本实施例中,服务器可以基于预设的格式对待识别数据进行识别,得到多个字段。例如,数据中出现“:”,可以将“:”之前的数据作为字段名称,“:”之后的数据作为区域信息。
在另一个实施例中,服务器还可以通过对待识别流水数据进行特征提取,得到待识别流水数据中目标字段的字段信息。
在本实施例中,服务器可以基于目标字段名称,对待识别流水数据中的多个字段进行筛选,得到多个目标字段。其中,基于目标字段名称对待识别流水数据中的多个字段进行筛选,可以包括:基于目标字段名称与待识别流水数据中多个字段的字段名称的相似度,对待识别流水数据中的多个字段进行筛选,当相似度大于或等于预设阈值时,将上述字段名称对应的字段作为目标字段。可以理解的是,相似度的取值范围为(0,1]。
步骤204,将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。
在本实施例中,流水数据类型识别模型对区域信息识别得到待识别流水数据对应的多个第一数据类型,可以包括:流水数据类型识别模型对待识别流水数据的目标字段的区域信息进行识别,得到目标字段的区域信息与上述待识别流水数据的目标字段的区域信息相匹配的多个第一数据类型。
在本实施例中,流水数据类型识别模型对字段名称识别得到待识别流水数据对应的多个第二数据类型,可以包括:流水数据类型识别模型对待识别流水数据中每个区域信息对应的字段名称进行识别,得到区域信息对应的字段名称与上述待识别流水数据中区域信息对应的字段名称相匹配的多个第二数据类型。
在本实施例中,流水数据类型识别模型基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型,可以包括:获取第一数据类型集合与第二数据类型集合的交集,将上述交集中的数据类型(元素)作为目标数据类型。其中,第一数据类型集合由多个第一数据类型组成,第二数据类型集合由多个第二数据类型组成。
上述流水数据类型识别方法中,首先,获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段。然后,将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。通过区域信息、字段名称分别识别得到待识别流水数据对应的多个第一数据类型和多个第二数据类型,实现双重查询,基于上述双重查询确定并输出待识别流水数据对应的目标数据类型,可以提高流水数据的类别识别准确率与效率。
在一些实施例中,获取待识别流水数据中目标字段的字段信息,可以包括:获取待识别数据中的目标字段;对目标字段进行字段检测,确定待识别流水数据中各目标字段的字段名称、字段区域,以及各字段区域内的文本信息;获取待识别数据对应的版式坐标系,基于各字段区域,得到各字段在版式坐标系中对应的坐标位置,作为目标字段的位置信息;将位置信息,以及各字段区域内的文本信息,作为目标字段的区域信息,将区域信息与字段名称作为目标字段的字段信息。
在本实施例中,文本信息可以包括但不限于:文字、符号、数字等。
在本实施例中,一个字段对应一个区域信息。
在本实施例中,服务器可以基于各字段在版式坐标系中的分布情况确定每个字段名称对应的字段区域,再基于每个字段名称对应的字段区域,确定每个字段名称在版式坐标系上的坐标位置,作为目标字段的位置信息。
在另一个实施例中,服务器也可以将一个字段的字段信息所覆盖的整个区域作为该字段的字段区域,确定每个字段区域的边界在版式坐标系上的坐标位置,作为目标字段的位置信息。
在一些实施例中,对区域信息识别得到待识别流水数据对应的多个第一数据类型,可以包括:基于目标字段的位置信息,作为目标位置信息,基于目标位置信息对多个类型模板进行查询,得到对应目标位置信息的多个第一类型模板;提取目标字段的文本信息所对应的文本特征,作为目标文本特征,基于目标文本特征对多个第一类型模板进行查询,得到对应目标文本特征的多个第二类型模板;将第二类型模板对应的数据类型,作为待识别流水数据对应的第一数据类型。
在本实施例中,服务器可以获取多个类型模板中每个类型模板中目标字段的位置信息,作为第一位置信息。
在本实施例中,服务器可以基于目标位置信息对多个类型模板进行查询,将第一位置信息与目标位置信息相匹配的多个类型模板作为第一类型模板。
在本实施例中,服务器可以对目标字段的文本信息进行特征提取,包括但不限于:清洗、去重、拆分等操作,得到特征提取后的目标文本特征。
在本实施例中,针对每个第一类型模板,服务器也可以对类型模板中多个字段的文本信息进行特征提取,包括但不限于:清洗、去重、拆分等操作,得到多个第一类型模板中每个第一类型模板中目标字段的文本特征,作为第一文本特征。
在本实施例中,服务器可以基于目标文本特征对多个第一类型模板进行查询,将目标文本特征与第一文本特征相匹配的多个第一类型模板作为第二类型模板。
在一些实施例中,基于目标位置信息对多个类型模板进行查询,得到对应目标位置信息的多个第一类型模板,可以包括:获取多个类型模板中每个类型模板中目标字段的位置信息,作为第一位置信息;基于目标位置信息,对多个第一位置信息进行查询,将与目标位置信息相匹配的第一位置信息作为第二位置信息;将第二位置信息对应的类型模板,作为对应目标位置信息的第一类型模板。
在本实施例中,针对每个类型模板,服务器可以获取每个字段名称在版式坐标系上的坐标位置,为该字段的第一位置信息。
在另一个实施例中,针对每个类型模板中,服务器可以获取每个字段的字段信息所覆盖的整个区域作为该字段的字段区域,每个字段区域的边界在版式坐标系上的坐标位置,作为该字段的第一位置信息。
在本实施例中,当第一位置信息与目标位置信息相一致时,可以认为模板字段位置信息与目标位置信息相匹配。
在另一个实施例中,服务器还可以计算模板字段位置信息与目标位置信息的位置相似度,当位置相似度大于或等于预设位置相似度阈值时,可以认为模板字段位置信息与目标位置信息相匹配。
在一些实施例中,提取目标字段的文本信息所对应的文本特征,作为目标文本特征,基于目标文本特征对多个第一类型模板进行查询,得到对应目标文本特征的多个第二类型模板,可以包括:获取多个第一类型模板中每个第一类型模板中目标字段的文本特征,作为第一文本特征;提取待识别流水数据中目标字段的文本信息所对应的文本特征,作为目标文本特征;基于目标文本特征,对多个第一文本特征进行查询,将与目标文本特征相匹配的第一文本特征作为第二文本特征;将第二文本特征对应的多个第一类型模板,作为对应目标文本特征的第二类型模板。
在本实施例中,目标文本特征、第一文本特征可以包括但不限于:文本长度、文本内容的类型(文字、符号、数字等)、字符和/或数字的组合关系等。具体的,在其中一个实施例中,第一文本特征可以包括:对手方名称在交易金额后、对手方名称是否在对方手账号后、收入和支出金额是否是同一列、摘要是否有多列、交易日期是否精确到时分秒、交易日期中年月日的格式(如:yyyy-mm-dd,yyyy/mm/dd等)、日期列是否是第一列、字段名是否含有英文、是否有对手方银行列、是否有币种列等。
在本实施例中,当目标文本特征与模板文本特征相一致时,可以认为目标文本特征与模板文本特征相匹配。
在另一个实施例中,服务器还可以计算目标文本特征与模板文本特征的文本特征相似度,当文本特征相似度大于或等于预设的文本特征相似度阈值时,可以认为目标文本特征与模板文本特征相匹配。
在一些实施例中,对字段名称识别得到待识别流水数据对应的多个第二数据类型,可以包括:针对多个类型模板中每个类型模板,获取类型模板中的第一拆分词;其中,类型模板中目标字段的字段名称至少包括一个拆分词;提取待识别流水数据中字段名称的名称特征;其中,名称特征为字段名称中数量最多的拆分词;基于名称特征,对多个第一拆分词进行查询,将与名称特征相匹配的第一拆分词作为第二拆分词;将第二拆分词对应的多个类型模板作为第三类型模板,将第三类型模板对应的数据类型,作为待识别流水数据对应的第二数据类型。
在本实施例中,服务器可以提取多个类型模板的目标字段的字段名称,对字段名称进行数据处理,可以包括但不限于:清洗、去重、拆分等操作,得到初始拆分词。
在本实施例中,类型模板的目标字段的字段名称所对应的拆分词可以包括但不限于:初始拆分词、原始词(类型模板的目标字段的字段名称)。
在本实施例中,针对每个类型模板,服务器可以计算该第一类型模板的拆分词的TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)值。
在本实施例中,一个拆分词的TF-IDF值是用来衡量这个拆分词词对该分类的重要程度的,TF-IDF值越高,说明这个词对该分类在整个数据集中的区分能力更好,更适合用来分类。
在本实施例中,词I在分类j(类型模板j)中的TF-IDF值(TFIDFij)计算公式如公式(1)所示:
TFIDFij=TFij×IDFi (1)
其中,TFij为词i在分类j中出现的频率,等于分类j中词i出现的次数除以分类j的总词数;IDFi为词i的逆向文本频率,计算方式如公式(2)所示:
其中,|D|表示总数据集中分类数(类型模板的数量),分母表示包含词i的分类数量,dj表示|D|中的第j个元素,ti表示词i。
在本实施例中,针对每个类型模板,服务器可以将该类型模板对应的多个拆分词的TF-IDF值,按照由大到小的顺序选取预设数量个TF-IDF值对应的拆分词,作为第一拆分词。例如,服务器可以将该类型模板对应的多个拆分词的TF-IDF值,按照由大到小的顺序选取前50个拆分词,作为第一拆分词。
在本实施例中,当名称特征与第一拆分词相一致时,可以认为名称特征与第一拆分词相匹配。
在另一个实施例中,服务器还可以计算名称特征与第一拆分词的特征相似度,当特征相似度大于或等于预设的特征相似度阈值时,可以认为名称特征与第一拆分词相匹配。
在另一个实施例中,服务器可以采用LightGBM(Light Gradient BoostingMachine,梯度提升)算法训练初始流水数据类型识别模型,将原数据集(类型模板的集合)中每个类型模板对应的多个模板数据下,随机抽样20%的数据作为测试集,80%的数据作为训练集进行训练,最终训练得到预训练的流水数据类型识别模型。通过自动化完成特征工程与模型训练,可以降低流水数据识别过程中对硬件配置的需求,降低识别成本。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的流水数据类型识别方法的流水数据类型识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个流水数据类型识别装置实施例中的具体限定可以参见上文中对于流水数据类型识别方法的限定,在此不再赘述。
在一个实施例中,如图3所示,提供了一种流水数据类型识别装置,包括:字段信息获取模块302和数据识别模块304,其中:
字段信息获取模块302,用于获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段。
数据识别模块304,用于将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。
在其中一个实施例中,字段信息获取模块302可以包括:
目标字段获取子模块,用于获取待识别数据中的目标字段。
字段检测子模块,用于对目标字段进行字段检测,确定待识别流水数据中各目标字段的字段名称、字段区域,以及各字段区域内的文本信息。
位置信息获取子模块,用于获取待识别数据对应的版式坐标系,基于各字段区域,得到各字段在版式坐标系中对应的坐标位置,作为目标字段的位置信息。
字段信息确定子模块,用于将位置信息,以及各字段区域内的文本信息,作为目标字段的区域信息,将区域信息与字段名称作为目标字段的字段信息。
在其中一个实施例中,数据识别模块304可以包括:
第一类型模板查询子模块,用于基于目标字段的位置信息,作为目标位置信息,基于目标位置信息对多个类型模板进行查询,得到对应目标位置信息的多个第一类型模板。
第二类型模板查询子模块,用于提取目标字段的文本信息所对应的文本特征,作为目标文本特征,基于目标文本特征对多个第一类型模板进行查询,得到对应目标文本特征的多个第二类型模板。
第一数据类型确定子模块,用于将第二类型模板对应的数据类型,作为待识别流水数据对应的第一数据类型。
在其中一个实施例中,第一类型模板查询子模块可以包括:
第一位置信息获取单元,用于获取多个类型模板中每个类型模板中目标字段的位置信息,作为第一位置信息。
第二位置信息确定单元,用于基于目标位置信息,对多个第一位置信息进行查询,将与目标位置信息相匹配的第一位置信息作为第二位置信息。
第一类型模板确定单元,用于将第二位置信息对应的类型模板,作为对应目标位置信息的第一类型模板。
在其中一个实施例中,第二类型模板查询子模块可以包括:
第一文本特征提取单元,用于获取多个第一类型模板中每个第一类型模板中目标字段的文本特征,作为第一文本特征。
目标文本特征提取单元,用于提取待识别流水数据中目标字段的文本信息所对应的文本特征,作为目标文本特征。
第二文本特征确定单元,用于基于目标文本特征,对多个第一文本特征进行查询,将与目标文本特征相匹配的第一文本特征作为第二文本特征。
第二类型模板确定单元,用于将第二文本特征对应的多个第一类型模板,作为对应目标文本特征的第二类型模板。
在其中一个实施例中,数据识别模块304可以包括:
第一拆分词获取子模块,用于针对多个类型模板中每个类型模板,获取类型模板中的第一拆分词;其中,类型模板中目标字段的字段名称至少包括一个拆分词。
名称特征提取子模块,用于提取待识别流水数据中字段名称的名称特征;其中,名称特征为字段名称中数量最多的拆分词。
第二拆分词确定子模块,用于基于名称特征,对多个第一拆分词进行查询,将与名称特征相匹配的第一拆分词作为第二拆分词。
第二数据类型确定子模块,用于将第二拆分词对应的多个类型模板作为第三类型模板,将第三类型模板对应的数据类型,作为待识别流水数据对应的第二数据类型。
上述流水数据类型识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标字段的字段信息、类别模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种流水数据类型识别方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段;将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。
在一个实施例中,处理器执行计算机程序时还实现获取待识别流水数据中目标字段的字段信息,可以包括:获取待识别数据中的目标字段;对目标字段进行字段检测,确定待识别流水数据中各目标字段的字段名称、字段区域,以及各字段区域内的文本信息;获取待识别数据对应的版式坐标系,基于各字段区域,得到各字段在版式坐标系中对应的坐标位置,作为目标字段的位置信息;将位置信息,以及各字段区域内的文本信息,作为目标字段的区域信息,将区域信息与字段名称作为目标字段的字段信息。
在一个实施例中,处理器执行计算机程序时还实现对区域信息识别得到待识别流水数据对应的多个第一数据类型,可以包括:基于目标字段的位置信息,作为目标位置信息,基于目标位置信息对多个类型模板进行查询,得到对应目标位置信息的多个第一类型模板;提取目标字段的文本信息所对应的文本特征,作为目标文本特征,基于目标文本特征对多个第一类型模板进行查询,得到对应目标文本特征的多个第二类型模板;将第二类型模板对应的数据类型,作为待识别流水数据对应的第一数据类型。
在一个实施例中,处理器执行计算机程序时还实现基于目标位置信息对多个类型模板进行查询,得到对应目标位置信息的多个第一类型模板,可以包括:获取多个类型模板中每个类型模板中目标字段的位置信息,作为第一位置信息;基于目标位置信息,对多个第一位置信息进行查询,将与目标位置信息相匹配的第一位置信息作为第二位置信息;将第二位置信息对应的类型模板,作为对应目标位置信息的第一类型模板。
在一个实施例中,处理器执行计算机程序时还实现提取目标字段的文本信息所对应的文本特征,作为目标文本特征,基于目标文本特征对多个第一类型模板进行查询,得到对应目标文本特征的多个第二类型模板,可以包括:获取多个第一类型模板中每个第一类型模板中目标字段的文本特征,作为第一文本特征;提取待识别流水数据中目标字段的文本信息所对应的文本特征,作为目标文本特征;基于目标文本特征,对多个第一文本特征进行查询,将与目标文本特征相匹配的第一文本特征作为第二文本特征;将第二文本特征对应的多个第一类型模板,作为对应目标文本特征的第二类型模板。
在一个实施例中,处理器执行计算机程序时还实现对字段名称识别得到待识别流水数据对应的多个第二数据类型,可以包括:针对多个类型模板中每个类型模板,获取类型模板中的第一拆分词;其中,类型模板中目标字段的字段名称至少包括一个拆分词;提取待识别流水数据中字段名称的名称特征;其中,名称特征为字段名称中数量最多的拆分词;基于名称特征,对多个第一拆分词进行查询,将与名称特征相匹配的第一拆分词作为第二拆分词;将第二拆分词对应的多个类型模板作为第三类型模板,将第三类型模板对应的数据类型,作为待识别流水数据对应的第二数据类型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段;将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。
在一个实施例中,计算机程序被处理器执行时还实现获取待识别流水数据中目标字段的字段信息,可以包括:获取待识别数据中的目标字段;对目标字段进行字段检测,确定待识别流水数据中各目标字段的字段名称、字段区域,以及各字段区域内的文本信息;获取待识别数据对应的版式坐标系,基于各字段区域,得到各字段在版式坐标系中对应的坐标位置,作为目标字段的位置信息;将位置信息,以及各字段区域内的文本信息,作为目标字段的区域信息,将区域信息与字段名称作为目标字段的字段信息。
在一个实施例中,计算机程序被处理器执行时还实现对区域信息识别得到待识别流水数据对应的多个第一数据类型,可以包括:基于目标字段的位置信息,作为目标位置信息,基于目标位置信息对多个类型模板进行查询,得到对应目标位置信息的多个第一类型模板;提取目标字段的文本信息所对应的文本特征,作为目标文本特征,基于目标文本特征对多个第一类型模板进行查询,得到对应目标文本特征的多个第二类型模板;将第二类型模板对应的数据类型,作为待识别流水数据对应的第一数据类型。
在一个实施例中,计算机程序被处理器执行时还实现基于目标位置信息对多个类型模板进行查询,得到对应目标位置信息的多个第一类型模板,可以包括:获取多个类型模板中每个类型模板中目标字段的位置信息,作为第一位置信息;基于目标位置信息,对多个第一位置信息进行查询,将与目标位置信息相匹配的第一位置信息作为第二位置信息;将第二位置信息对应的类型模板,作为对应目标位置信息的第一类型模板。
在一个实施例中,计算机程序被处理器执行时还实现提取目标字段的文本信息所对应的文本特征,作为目标文本特征,基于目标文本特征对多个第一类型模板进行查询,得到对应目标文本特征的多个第二类型模板,可以包括:获取多个第一类型模板中每个第一类型模板中目标字段的文本特征,作为第一文本特征;提取待识别流水数据中目标字段的文本信息所对应的文本特征,作为目标文本特征;基于目标文本特征,对多个第一文本特征进行查询,将与目标文本特征相匹配的第一文本特征作为第二文本特征;将第二文本特征对应的多个第一类型模板,作为对应目标文本特征的第二类型模板。
在一个实施例中,计算机程序被处理器执行时还实现对字段名称识别得到待识别流水数据对应的多个第二数据类型,可以包括:针对多个类型模板中每个类型模板,获取类型模板中的第一拆分词;其中,类型模板中目标字段的字段名称至少包括一个拆分词;提取待识别流水数据中字段名称的名称特征;其中,名称特征为字段名称中数量最多的拆分词;基于名称特征,对多个第一拆分词进行查询,将与名称特征相匹配的第一拆分词作为第二拆分词;将第二拆分词对应的多个类型模板作为第三类型模板,将第三类型模板对应的数据类型,作为待识别流水数据对应的第二数据类型。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段;将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。
在一个实施例中,计算机程序被处理器执行时还实现获取待识别流水数据中目标字段的字段信息,可以包括:获取待识别数据中的目标字段;对目标字段进行字段检测,确定待识别流水数据中各目标字段的字段名称、字段区域,以及各字段区域内的文本信息;获取待识别数据对应的版式坐标系,基于各字段区域,得到各字段在版式坐标系中对应的坐标位置,作为目标字段的位置信息;将位置信息,以及各字段区域内的文本信息,作为目标字段的区域信息,将区域信息与字段名称作为目标字段的字段信息。
在一个实施例中,计算机程序被处理器执行时还实现对区域信息识别得到待识别流水数据对应的多个第一数据类型,可以包括:基于目标字段的位置信息,作为目标位置信息,基于目标位置信息对多个类型模板进行查询,得到对应目标位置信息的多个第一类型模板;提取目标字段的文本信息所对应的文本特征,作为目标文本特征,基于目标文本特征对多个第一类型模板进行查询,得到对应目标文本特征的多个第二类型模板;将第二类型模板对应的数据类型,作为待识别流水数据对应的第一数据类型。
在一个实施例中,计算机程序被处理器执行时还实现基于目标位置信息对多个类型模板进行查询,得到对应目标位置信息的多个第一类型模板,可以包括:获取多个类型模板中每个类型模板中目标字段的位置信息,作为第一位置信息;基于目标位置信息,对多个第一位置信息进行查询,将与目标位置信息相匹配的第一位置信息作为第二位置信息;将第二位置信息对应的类型模板,作为对应目标位置信息的第一类型模板。
在一个实施例中,计算机程序被处理器执行时还实现提取目标字段的文本信息所对应的文本特征,作为目标文本特征,基于目标文本特征对多个第一类型模板进行查询,得到对应目标文本特征的多个第二类型模板,可以包括:获取多个第一类型模板中每个第一类型模板中目标字段的文本特征,作为第一文本特征;提取待识别流水数据中目标字段的文本信息所对应的文本特征,作为目标文本特征;基于目标文本特征,对多个第一文本特征进行查询,将与目标文本特征相匹配的第一文本特征作为第二文本特征;将第二文本特征对应的多个第一类型模板,作为对应目标文本特征的第二类型模板。
在一个实施例中,计算机程序被处理器执行时还实现对字段名称识别得到待识别流水数据对应的多个第二数据类型,可以包括:针对多个类型模板中每个类型模板,获取类型模板中的第一拆分词;其中,类型模板中目标字段的字段名称至少包括一个拆分词;提取待识别流水数据中字段名称的名称特征;其中,名称特征为字段名称中数量最多的拆分词;基于名称特征,对多个第一拆分词进行查询,将与名称特征相匹配的第一拆分词作为第二拆分词;将第二拆分词对应的多个类型模板作为第三类型模板,将第三类型模板对应的数据类型,作为待识别流水数据对应的第二数据类型。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种流水数据类型识别方法,其特征在于,所述方法包括:
获取待识别流水数据中目标字段的字段信息;所述字段信息包括:所述目标字段的区域信息和字段名称;所述目标字段属于所述待识别流水数据中至少一个字段;
将所述字段信息输入预训练的流水数据类型识别模型进行识别,得到所述待识别流水数据的识别结果;所述流水数据类型识别模型用于,对所述区域信息识别得到所述待识别流水数据对应的多个第一数据类型,对所述字段名称识别得到所述待识别流水数据对应的多个第二数据类型,并基于所述第一数据类型与所述第二数据类型输出所述待识别流水数据对应的目标数据类型。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别流水数据中目标字段的字段信息,包括:
获取所述待识别数据中的目标字段;
对所述目标字段进行字段检测,确定所述待识别流水数据中各所述目标字段的字段名称、字段区域,以及各所述字段区域内的文本信息;
获取所述待识别数据对应的版式坐标系,基于各所述字段区域,得到各所述字段在所述版式坐标系中对应的坐标位置,作为所述目标字段的位置信息;
将所述位置信息,以及各所述字段区域内的文本信息,作为所述目标字段的区域信息,将所述区域信息与所述字段名称作为所述目标字段的字段信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述区域信息识别得到所述待识别流水数据对应的多个第一数据类型,包括:
基于所述目标字段的所述位置信息,作为目标位置信息,基于所述目标位置信息对多个类型模板进行查询,得到对应所述目标位置信息的多个第一类型模板;
提取所述目标字段的所述文本信息所对应的文本特征,作为目标文本特征,基于所述目标文本特征对多个所述第一类型模板进行查询,得到对应所述目标文本特征的多个第二类型模板;
将所述第二类型模板对应的数据类型,作为所述待识别流水数据对应的第一数据类型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述目标位置信息对多个类型模板进行查询,得到对应所述目标位置信息的多个第一类型模板,包括:
获取多个类型模板中每个所述类型模板中目标字段的位置信息,作为第一位置信息;
基于所述目标位置信息,对多个所述第一位置信息进行查询,将与所述目标位置信息相匹配的所述第一位置信息作为第二位置信息;
将所述第二位置信息对应的类型模板,作为对应所述目标位置信息的第一类型模板。
5.根据权利要求3所述的方法,其特征在于,所述提取所述目标字段的所述文本信息所对应的文本特征,作为目标文本特征,基于所述目标文本特征对多个所述第一类型模板进行查询,得到对应所述目标文本特征的多个第二类型模板,包括:
获取多个所述第一类型模板中每个所述第一类型模板中目标字段的文本特征,作为第一文本特征;
提取所述待识别流水数据中目标字段的所述文本信息所对应的文本特征,作为目标文本特征;
基于所述目标文本特征,对多个所述第一文本特征进行查询,将与所述目标文本特征相匹配的所述第一文本特征作为第二文本特征;
将所述第二文本特征对应的多个所述第一类型模板,作为对应所述目标文本特征的第二类型模板。
6.根据权利要求1所述的方法,其特征在于,所述对所述字段名称识别得到所述待识别流水数据对应的多个第二数据类型,包括:
针对多个类型模板中每个所述类型模板,获取所述类型模板中的第一拆分词;其中,所述类型模板中目标字段的字段名称至少包括一个所述拆分词;
提取所述待识别流水数据中所述字段名称的名称特征;其中,所述名称特征为所述字段名称中数量最多的拆分词;
基于所述名称特征,对多个所述第一拆分词进行查询,将与所述名称特征相匹配的所述第一拆分词作为第二拆分词;
将所述第二拆分词对应的多个所述类型模板作为第三类型模板,将所述第三类型模板对应的数据类型,作为所述待识别流水数据对应的第二数据类型。
7.一种流水数据类型识别装置,其特征在于,所述装置包括:
字段信息获取模块,用于获取待识别流水数据中目标字段的字段信息;所述字段信息包括:所述目标字段的区域信息和字段名称;所述目标字段属于所述待识别流水数据中至少一个字段;
数据识别模块,用于将所述字段信息输入预训练的流水数据类型识别模型进行识别,得到所述待识别流水数据的识别结果;所述流水数据类型识别模型用于,对所述区域信息识别得到所述待识别流水数据对应的多个第一数据类型,对所述字段名称识别得到所述待识别流水数据对应的多个第二数据类型,并基于所述第一数据类型与所述第二数据类型输出所述待识别流水数据对应的目标数据类型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310551985.6A CN116702024B (zh) | 2023-05-16 | 2023-05-16 | 流水数据类型识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310551985.6A CN116702024B (zh) | 2023-05-16 | 2023-05-16 | 流水数据类型识别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116702024A true CN116702024A (zh) | 2023-09-05 |
CN116702024B CN116702024B (zh) | 2024-05-28 |
Family
ID=87842405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310551985.6A Active CN116702024B (zh) | 2023-05-16 | 2023-05-16 | 流水数据类型识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116702024B (zh) |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2309561A1 (en) * | 1999-05-27 | 2000-11-27 | Servi Technologies Inc. | Restaurant automated order taking method |
CN107798299A (zh) * | 2017-10-09 | 2018-03-13 | 平安科技(深圳)有限公司 | 票据信息识别方法、电子装置及可读存储介质 |
CN110728142A (zh) * | 2019-09-09 | 2020-01-24 | 上海凯京信达科技集团有限公司 | 一种流水文件识别方法、装置及计算机存储介质、电子设备 |
CN110866495A (zh) * | 2019-11-14 | 2020-03-06 | 杭州睿琪软件有限公司 | 票据图像识别方法及装置和设备、训练方法和存储介质 |
CN111352907A (zh) * | 2020-03-30 | 2020-06-30 | 见知数据科技(上海)有限公司 | 流水文件解析方法、装置、计算机设备和存储介质 |
CN111666868A (zh) * | 2020-06-03 | 2020-09-15 | 阳光保险集团股份有限公司 | 保险单识别方法、装置以及计算机设备 |
CN111932766A (zh) * | 2020-08-11 | 2020-11-13 | 上海眼控科技股份有限公司 | 发票核验方法、装置、计算机设备和可读存储介质 |
CN112035406A (zh) * | 2020-08-31 | 2020-12-04 | 江苏税软软件科技有限公司 | 纸质资金数据文件的转换处理方法 |
US10956673B1 (en) * | 2020-09-10 | 2021-03-23 | Moore & Gasperecz Global Inc. | Method and system for identifying citations within regulatory content |
CN112669008A (zh) * | 2020-12-29 | 2021-04-16 | 平安普惠企业管理有限公司 | 账单数据的验证方法、装置、计算机设备以及存储介质 |
CN112699871A (zh) * | 2020-12-23 | 2021-04-23 | 平安银行股份有限公司 | 字段内容识别方法、系统、设备及计算机可读存储介质 |
US20210319007A1 (en) * | 2020-04-14 | 2021-10-14 | Accenture Global Solutions Limited | Intelligent record generation |
CN113705286A (zh) * | 2020-05-22 | 2021-11-26 | 上海深杳智能科技有限公司 | 一种表格检测与识别方法和介质 |
US20220035823A1 (en) * | 2020-07-30 | 2022-02-03 | Boomi, Inc. | System and method of intelligent detection of data model fieldname lineage and context of private individual data in business integration processes |
CN114387085A (zh) * | 2022-01-12 | 2022-04-22 | 见知数据科技(上海)有限公司 | 流水数据处理方法、装置、计算机设备和存储介质 |
CN114463767A (zh) * | 2021-12-28 | 2022-05-10 | 上海浦东发展银行股份有限公司 | 信用证识别方法、装置、计算机设备和存储介质 |
CN115545858A (zh) * | 2022-08-25 | 2022-12-30 | 武汉市新巨星网络技术有限公司 | 一种基于rpa自动对账方法、装置、设备及存储介质 |
WO2023273235A1 (zh) * | 2021-06-29 | 2023-01-05 | 深圳前海微众银行股份有限公司 | 一种文件的数据比对方法、装置、设备及存储介质 |
CN115905885A (zh) * | 2023-01-06 | 2023-04-04 | 中国联合网络通信集团有限公司 | 数据识别方法、设备、存储介质及程序产品 |
CN116051092A (zh) * | 2022-12-16 | 2023-05-02 | 舟谱数据技术南京有限公司 | 一种跨系统自动对账方法及装置 |
US20230139783A1 (en) * | 2021-11-03 | 2023-05-04 | Capital One Services, Llc | Schema-adaptable data enrichment and retrieval |
-
2023
- 2023-05-16 CN CN202310551985.6A patent/CN116702024B/zh active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2309561A1 (en) * | 1999-05-27 | 2000-11-27 | Servi Technologies Inc. | Restaurant automated order taking method |
CN107798299A (zh) * | 2017-10-09 | 2018-03-13 | 平安科技(深圳)有限公司 | 票据信息识别方法、电子装置及可读存储介质 |
CN110728142A (zh) * | 2019-09-09 | 2020-01-24 | 上海凯京信达科技集团有限公司 | 一种流水文件识别方法、装置及计算机存储介质、电子设备 |
CN110866495A (zh) * | 2019-11-14 | 2020-03-06 | 杭州睿琪软件有限公司 | 票据图像识别方法及装置和设备、训练方法和存储介质 |
CN111352907A (zh) * | 2020-03-30 | 2020-06-30 | 见知数据科技(上海)有限公司 | 流水文件解析方法、装置、计算机设备和存储介质 |
US20210319007A1 (en) * | 2020-04-14 | 2021-10-14 | Accenture Global Solutions Limited | Intelligent record generation |
CN113705286A (zh) * | 2020-05-22 | 2021-11-26 | 上海深杳智能科技有限公司 | 一种表格检测与识别方法和介质 |
CN111666868A (zh) * | 2020-06-03 | 2020-09-15 | 阳光保险集团股份有限公司 | 保险单识别方法、装置以及计算机设备 |
US20220035823A1 (en) * | 2020-07-30 | 2022-02-03 | Boomi, Inc. | System and method of intelligent detection of data model fieldname lineage and context of private individual data in business integration processes |
CN111932766A (zh) * | 2020-08-11 | 2020-11-13 | 上海眼控科技股份有限公司 | 发票核验方法、装置、计算机设备和可读存储介质 |
CN112035406A (zh) * | 2020-08-31 | 2020-12-04 | 江苏税软软件科技有限公司 | 纸质资金数据文件的转换处理方法 |
US10956673B1 (en) * | 2020-09-10 | 2021-03-23 | Moore & Gasperecz Global Inc. | Method and system for identifying citations within regulatory content |
CN112699871A (zh) * | 2020-12-23 | 2021-04-23 | 平安银行股份有限公司 | 字段内容识别方法、系统、设备及计算机可读存储介质 |
CN112669008A (zh) * | 2020-12-29 | 2021-04-16 | 平安普惠企业管理有限公司 | 账单数据的验证方法、装置、计算机设备以及存储介质 |
WO2022142040A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安普惠企业管理有限公司 | 账单数据的验证方法、装置、计算机设备以及存储介质 |
WO2023273235A1 (zh) * | 2021-06-29 | 2023-01-05 | 深圳前海微众银行股份有限公司 | 一种文件的数据比对方法、装置、设备及存储介质 |
US20230139783A1 (en) * | 2021-11-03 | 2023-05-04 | Capital One Services, Llc | Schema-adaptable data enrichment and retrieval |
CN114463767A (zh) * | 2021-12-28 | 2022-05-10 | 上海浦东发展银行股份有限公司 | 信用证识别方法、装置、计算机设备和存储介质 |
CN114387085A (zh) * | 2022-01-12 | 2022-04-22 | 见知数据科技(上海)有限公司 | 流水数据处理方法、装置、计算机设备和存储介质 |
CN115545858A (zh) * | 2022-08-25 | 2022-12-30 | 武汉市新巨星网络技术有限公司 | 一种基于rpa自动对账方法、装置、设备及存储介质 |
CN116051092A (zh) * | 2022-12-16 | 2023-05-02 | 舟谱数据技术南京有限公司 | 一种跨系统自动对账方法及装置 |
CN115905885A (zh) * | 2023-01-06 | 2023-04-04 | 中国联合网络通信集团有限公司 | 数据识别方法、设备、存储介质及程序产品 |
Non-Patent Citations (4)
Title |
---|
吴记江;: "客户转账销账数据管理器建设", 机电信息, no. 33, 25 November 2016 (2016-11-25), pages 150 - 151 * |
尹祥龙等: "面向大规模金融对账文件的近似比对模型及系统", 计算机系统应用, no. 04, 15 April 2016 (2016-04-15), pages 86 - 90 * |
李宝林;: "基于ETL的数据仓库ODS数据查询", 江西科学, no. 06, 15 December 2010 (2010-12-15), pages 844 - 848 * |
李岭等: "基于WINDOWS平台下银行卡系统流水文件的自动识别与分析", 软件产业与工程, no. 06, 10 November 2016 (2016-11-10), pages 6 - 7 * |
Also Published As
Publication number | Publication date |
---|---|
CN116702024B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Heterogeneous hypergraph embedding for document recommendation | |
WO2022116537A1 (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
Liu et al. | Heterogeneous features and model selection for event-based media classification | |
US10699112B1 (en) | Identification of key segments in document images | |
WO2021047373A1 (zh) | 基于大数据的列数据处理方法、设备及介质 | |
US11507901B1 (en) | Apparatus and methods for matching video records with postings using audiovisual data processing | |
CN111814481B (zh) | 购物意图识别方法、装置、终端设备及存储介质 | |
CN112132238A (zh) | 一种识别隐私数据的方法、装置、设备和可读介质 | |
Sitaula et al. | Content and context features for scene image representation | |
Taipalus | Vector database management systems: Fundamental concepts, use-cases, and current challenges | |
CN115660686A (zh) | 交易风险评估方法、装置、设备、存储介质和程序产品 | |
Pengcheng et al. | Fast Chinese calligraphic character recognition with large-scale data | |
CN110083731B (zh) | 图像检索方法、装置、计算机设备及存储介质 | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN116702024B (zh) | 流水数据类型识别方法、装置、计算机设备和存储介质 | |
CN115544214A (zh) | 一种事件处理方法、设备及计算机可读存储介质 | |
CN114328844A (zh) | 一种文本数据集管理方法、装置、设备及存储介质 | |
CN113779248A (zh) | 数据分类模型训练方法、数据处理方法及存储介质 | |
CN113761213A (zh) | 一种基于知识图谱的数据查询系统、方法及终端设备 | |
CN117688140B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
US20220350814A1 (en) | Intelligent data extraction | |
CN117370817A (zh) | 数据处理方法、装置、设备、介质和程序产品 | |
Tavoli et al. | A Novel Word-Spotting Method for Handwritten Documents Using an Optimization-Based Classifier | |
CN117763152A (zh) | 垂直领域内的文本分类方法、装置、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |