CN116702024A

CN116702024A - 流水数据类型识别方法、装置、计算机设备和存储介质

Info

Publication number: CN116702024A
Application number: CN202310551985.6A
Authority: CN
Inventors: 何川
Original assignee: Seezhi Data Technology Shanghai Co ltd
Current assignee: Seezhi Data Technology Shanghai Co ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-09-05
Anticipated expiration: 2043-05-16
Also published as: CN116702024B

Abstract

本申请涉及一种流水数据类型识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取待识别流水数据中目标字段的字段信息；字段信息包括：目标字段的区域信息和字段名称；目标字段属于待识别流水数据中至少一个字段；将字段信息输入预训练的流水数据类型识别模型进行识别，得到待识别流水数据的识别结果；流水数据类型识别模型用于，对区域信息识别得到待识别流水数据对应的多个第一数据类型，对字段名称识别得到待识别流水数据对应的多个第二数据类型，并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。采用本方法能够提高流水数据的类别识别准确率和效率。

Description

流水数据类型识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种流水数据类型识别方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着信息技术的发展，国内的电子银行得到迅速发展，流水对账单逐渐从纸质的形式大量转化成电子流水的形式。各银行的电子银行都是由其自己管理，不存在统一格式的流水对账单，甚至同一家银行的电子流水也会存在多种不同的格式。

传统技术中，针对每一种格式的流水对账单配置有特定的识别模板，针对多个流水对账单进行识别时，往往根据模板判断所属银行需要遍历所有已配置的识别模板。

然而，随着电子银行的普及，电子流水数据呈现大数据趋势，识别模板的数量日益增多，需要遍历的数据也日益增多，判断单个流水对账单的效率会明显降低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高流水对账单类型识别效率的流水数据类型识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种流水数据类型识别方法。所述方法包括：

获取待识别流水数据中目标字段的字段信息；字段信息包括：目标字段的区域信息和字段名称；目标字段属于待识别流水数据中至少一个字段；

将字段信息输入预训练的流水数据类型识别模型进行识别，得到待识别流水数据的识别结果；流水数据类型识别模型用于，对区域信息识别得到待识别流水数据对应的多个第一数据类型，对字段名称识别得到待识别流水数据对应的多个第二数据类型，并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。

在其中一个实施例中，获取待识别流水数据中目标字段的字段信息，包括：

获取待识别数据中的目标字段；

对目标字段进行字段检测，确定待识别流水数据中各目标字段的字段名称、字段区域，以及各字段区域内的文本信息；

获取待识别数据对应的版式坐标系，基于各字段区域，得到各字段在版式坐标系中对应的坐标位置，作为目标字段的位置信息；

将位置信息，以及各字段区域内的文本信息，作为目标字段的区域信息，将区域信息与字段名称作为目标字段的字段信息。

在其中一个实施例中，对区域信息识别得到待识别流水数据对应的多个第一数据类型，包括：

基于目标字段的位置信息，作为目标位置信息，基于目标位置信息对多个类型模板进行查询，得到对应目标位置信息的多个第一类型模板；

提取目标字段的文本信息所对应的文本特征，作为目标文本特征，基于目标文本特征对多个第一类型模板进行查询，得到对应目标文本特征的多个第二类型模板；

将第二类型模板对应的数据类型，作为待识别流水数据对应的第一数据类型。

在其中一个实施例中，基于目标位置信息对多个类型模板进行查询，得到对应目标位置信息的多个第一类型模板，包括：

获取多个类型模板中每个类型模板中目标字段的位置信息，作为第一位置信息；

基于目标位置信息，对多个第一位置信息进行查询，将与目标位置信息相匹配的第一位置信息作为第二位置信息；

将第二位置信息对应的类型模板，作为对应目标位置信息的第一类型模板。

在其中一个实施例中，提取目标字段的文本信息所对应的文本特征，作为目标文本特征，基于目标文本特征对多个第一类型模板进行查询，得到对应目标文本特征的多个第二类型模板，包括：

获取多个第一类型模板中每个第一类型模板中目标字段的文本特征，作为第一文本特征；

提取待识别流水数据中目标字段的文本信息所对应的文本特征，作为目标文本特征；

基于目标文本特征，对多个第一文本特征进行查询，将与目标文本特征相匹配的第一文本特征作为第二文本特征；

将第二文本特征对应的多个第一类型模板，作为对应目标文本特征的第二类型模板。

在其中一个实施例中，对字段名称识别得到待识别流水数据对应的多个第二数据类型，包括：

针对多个类型模板中每个类型模板，获取类型模板中的第一拆分词；其中，类型模板中目标字段的字段名称至少包括一个拆分词；

提取待识别流水数据中字段名称的名称特征；其中，名称特征为字段名称中数量最多的拆分词；

基于名称特征，对多个第一拆分词进行查询，将与名称特征相匹配的第一拆分词作为第二拆分词；

将第二拆分词对应的多个类型模板作为第三类型模板，将第三类型模板对应的数据类型，作为待识别流水数据对应的第二数据类型。

第二方面，本申请还提供了一种流水数据类型识别装置。所述装置包括：

字段信息获取模块，用于获取待识别流水数据中目标字段的字段信息；字段信息包括：目标字段的区域信息和字段名称；目标字段属于待识别流水数据中至少一个字段；

数据识别模块，用于将字段信息输入预训练的流水数据类型识别模型进行识别，得到待识别流水数据的识别结果；流水数据类型识别模型用于，对区域信息识别得到待识别流水数据对应的多个第一数据类型，对字段名称识别得到待识别流水数据对应的多个第二数据类型，并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。

第四方面，本申请还提供了一种计算机设备可读存储介质。所述计算机设备可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一实施例所述方法的步骤。

上述流水数据类型识别方法、装置、计算机设备、存储介质和计算机程序产品，首先，获取待识别流水数据中目标字段的字段信息；字段信息包括：目标字段的区域信息和字段名称；目标字段属于待识别流水数据中至少一个字段。然后，将字段信息输入预训练的流水数据类型识别模型进行识别，得到待识别流水数据的识别结果；流水数据类型识别模型用于，对区域信息识别得到待识别流水数据对应的多个第一数据类型，对字段名称识别得到待识别流水数据对应的多个第二数据类型，并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。通过区域信息、字段名称分别识别得到待识别流水数据对应的多个第一数据类型和多个第二数据类型，实现双重查询，基于上述双重查询确定并输出待识别流水数据对应的目标数据类型，可以提高流水数据的类别识别准确率和效率。

附图说明

图1为一个实施例中流水数据类型识别方法的应用环境图；

图2为一个实施例中流水数据类型识别方法的流程示意图；

图3为一个实施例中流水数据类型识别装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的流水数据类型识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104给终端102提供一个实现流水数据类型识别的环境，终端102与服务器104进行通信，从而进入流水数据类型识别的环境。服务器104可以从终端102处获取待识别的流水数据，服务器104可以获取待识别流水数据中目标字段的字段信息；字段信息包括：目标字段的区域信息和字段名称；目标字段属于待识别流水数据中至少一个字段。然后，服务器104可以将字段信息输入预训练的流水数据类型识别模型进行识别，得到待识别流水数据的识别结果；流水数据类型识别模型用于，对区域信息识别得到待识别流水数据对应的多个第一数据类型，对字段名称识别得到待识别流水数据对应的多个第二数据类型，并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。最后，服务器104可以将待识别流水数据的识别结果发送至终端102。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例提供的流水数据类型识别方法，可以应用于服务器或终端单侧实现，也可以应用于包括终端和服务器的系统，通过终端和服务器的交互实现。

在一个实施例中，如图2所示，提供了一种流水数据类型识别方法，以该方法应用于包括终端和服务器的系统实现为例进行说明，包括以下步骤202至步骤204。

步骤202，获取待识别流水数据中目标字段的字段信息；字段信息包括：目标字段的区域信息和字段名称；目标字段属于待识别流水数据中至少一个字段。

在本实施例中，服务器可以基于预设的格式对待识别数据进行识别，得到多个字段。例如，数据中出现“：”，可以将“：”之前的数据作为字段名称，“：”之后的数据作为区域信息。

在另一个实施例中，服务器还可以通过对待识别流水数据进行特征提取，得到待识别流水数据中目标字段的字段信息。

在本实施例中，服务器可以基于目标字段名称，对待识别流水数据中的多个字段进行筛选，得到多个目标字段。其中，基于目标字段名称对待识别流水数据中的多个字段进行筛选，可以包括：基于目标字段名称与待识别流水数据中多个字段的字段名称的相似度，对待识别流水数据中的多个字段进行筛选，当相似度大于或等于预设阈值时，将上述字段名称对应的字段作为目标字段。可以理解的是，相似度的取值范围为(0,1]。

步骤204，将字段信息输入预训练的流水数据类型识别模型进行识别，得到待识别流水数据的识别结果；流水数据类型识别模型用于，对区域信息识别得到待识别流水数据对应的多个第一数据类型，对字段名称识别得到待识别流水数据对应的多个第二数据类型，并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。

在本实施例中，流水数据类型识别模型对区域信息识别得到待识别流水数据对应的多个第一数据类型，可以包括：流水数据类型识别模型对待识别流水数据的目标字段的区域信息进行识别，得到目标字段的区域信息与上述待识别流水数据的目标字段的区域信息相匹配的多个第一数据类型。

在本实施例中，流水数据类型识别模型对字段名称识别得到待识别流水数据对应的多个第二数据类型，可以包括：流水数据类型识别模型对待识别流水数据中每个区域信息对应的字段名称进行识别，得到区域信息对应的字段名称与上述待识别流水数据中区域信息对应的字段名称相匹配的多个第二数据类型。

在本实施例中，流水数据类型识别模型基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型，可以包括：获取第一数据类型集合与第二数据类型集合的交集，将上述交集中的数据类型(元素)作为目标数据类型。其中，第一数据类型集合由多个第一数据类型组成，第二数据类型集合由多个第二数据类型组成。

上述流水数据类型识别方法中，首先，获取待识别流水数据中目标字段的字段信息；字段信息包括：目标字段的区域信息和字段名称；目标字段属于待识别流水数据中至少一个字段。然后，将字段信息输入预训练的流水数据类型识别模型进行识别，得到待识别流水数据的识别结果；流水数据类型识别模型用于，对区域信息识别得到待识别流水数据对应的多个第一数据类型，对字段名称识别得到待识别流水数据对应的多个第二数据类型，并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。通过区域信息、字段名称分别识别得到待识别流水数据对应的多个第一数据类型和多个第二数据类型，实现双重查询，基于上述双重查询确定并输出待识别流水数据对应的目标数据类型，可以提高流水数据的类别识别准确率与效率。

在一些实施例中，获取待识别流水数据中目标字段的字段信息，可以包括：获取待识别数据中的目标字段；对目标字段进行字段检测，确定待识别流水数据中各目标字段的字段名称、字段区域，以及各字段区域内的文本信息；获取待识别数据对应的版式坐标系，基于各字段区域，得到各字段在版式坐标系中对应的坐标位置，作为目标字段的位置信息；将位置信息，以及各字段区域内的文本信息，作为目标字段的区域信息，将区域信息与字段名称作为目标字段的字段信息。

在本实施例中，文本信息可以包括但不限于：文字、符号、数字等。

在本实施例中，一个字段对应一个区域信息。

在本实施例中，服务器可以基于各字段在版式坐标系中的分布情况确定每个字段名称对应的字段区域，再基于每个字段名称对应的字段区域，确定每个字段名称在版式坐标系上的坐标位置，作为目标字段的位置信息。

在另一个实施例中，服务器也可以将一个字段的字段信息所覆盖的整个区域作为该字段的字段区域，确定每个字段区域的边界在版式坐标系上的坐标位置，作为目标字段的位置信息。

在一些实施例中，对区域信息识别得到待识别流水数据对应的多个第一数据类型，可以包括：基于目标字段的位置信息，作为目标位置信息，基于目标位置信息对多个类型模板进行查询，得到对应目标位置信息的多个第一类型模板；提取目标字段的文本信息所对应的文本特征，作为目标文本特征，基于目标文本特征对多个第一类型模板进行查询，得到对应目标文本特征的多个第二类型模板；将第二类型模板对应的数据类型，作为待识别流水数据对应的第一数据类型。

在本实施例中，服务器可以获取多个类型模板中每个类型模板中目标字段的位置信息，作为第一位置信息。

在本实施例中，服务器可以基于目标位置信息对多个类型模板进行查询，将第一位置信息与目标位置信息相匹配的多个类型模板作为第一类型模板。

在本实施例中，服务器可以对目标字段的文本信息进行特征提取，包括但不限于：清洗、去重、拆分等操作，得到特征提取后的目标文本特征。

在本实施例中，针对每个第一类型模板，服务器也可以对类型模板中多个字段的文本信息进行特征提取，包括但不限于：清洗、去重、拆分等操作，得到多个第一类型模板中每个第一类型模板中目标字段的文本特征，作为第一文本特征。

在本实施例中，服务器可以基于目标文本特征对多个第一类型模板进行查询，将目标文本特征与第一文本特征相匹配的多个第一类型模板作为第二类型模板。

在一些实施例中，基于目标位置信息对多个类型模板进行查询，得到对应目标位置信息的多个第一类型模板，可以包括：获取多个类型模板中每个类型模板中目标字段的位置信息，作为第一位置信息；基于目标位置信息，对多个第一位置信息进行查询，将与目标位置信息相匹配的第一位置信息作为第二位置信息；将第二位置信息对应的类型模板，作为对应目标位置信息的第一类型模板。

在本实施例中，针对每个类型模板，服务器可以获取每个字段名称在版式坐标系上的坐标位置，为该字段的第一位置信息。

在另一个实施例中，针对每个类型模板中，服务器可以获取每个字段的字段信息所覆盖的整个区域作为该字段的字段区域，每个字段区域的边界在版式坐标系上的坐标位置，作为该字段的第一位置信息。

在本实施例中，当第一位置信息与目标位置信息相一致时，可以认为模板字段位置信息与目标位置信息相匹配。

在另一个实施例中，服务器还可以计算模板字段位置信息与目标位置信息的位置相似度，当位置相似度大于或等于预设位置相似度阈值时，可以认为模板字段位置信息与目标位置信息相匹配。

在一些实施例中，提取目标字段的文本信息所对应的文本特征，作为目标文本特征，基于目标文本特征对多个第一类型模板进行查询，得到对应目标文本特征的多个第二类型模板，可以包括：获取多个第一类型模板中每个第一类型模板中目标字段的文本特征，作为第一文本特征；提取待识别流水数据中目标字段的文本信息所对应的文本特征，作为目标文本特征；基于目标文本特征，对多个第一文本特征进行查询，将与目标文本特征相匹配的第一文本特征作为第二文本特征；将第二文本特征对应的多个第一类型模板，作为对应目标文本特征的第二类型模板。

在本实施例中，目标文本特征、第一文本特征可以包括但不限于：文本长度、文本内容的类型(文字、符号、数字等)、字符和/或数字的组合关系等。具体的，在其中一个实施例中，第一文本特征可以包括：对手方名称在交易金额后、对手方名称是否在对方手账号后、收入和支出金额是否是同一列、摘要是否有多列、交易日期是否精确到时分秒、交易日期中年月日的格式(如：yyyy-mm-dd，yyyy/mm/dd等)、日期列是否是第一列、字段名是否含有英文、是否有对手方银行列、是否有币种列等。

在本实施例中，当目标文本特征与模板文本特征相一致时，可以认为目标文本特征与模板文本特征相匹配。

在另一个实施例中，服务器还可以计算目标文本特征与模板文本特征的文本特征相似度，当文本特征相似度大于或等于预设的文本特征相似度阈值时，可以认为目标文本特征与模板文本特征相匹配。

在一些实施例中，对字段名称识别得到待识别流水数据对应的多个第二数据类型，可以包括：针对多个类型模板中每个类型模板，获取类型模板中的第一拆分词；其中，类型模板中目标字段的字段名称至少包括一个拆分词；提取待识别流水数据中字段名称的名称特征；其中，名称特征为字段名称中数量最多的拆分词；基于名称特征，对多个第一拆分词进行查询，将与名称特征相匹配的第一拆分词作为第二拆分词；将第二拆分词对应的多个类型模板作为第三类型模板，将第三类型模板对应的数据类型，作为待识别流水数据对应的第二数据类型。

在本实施例中，服务器可以提取多个类型模板的目标字段的字段名称，对字段名称进行数据处理，可以包括但不限于：清洗、去重、拆分等操作，得到初始拆分词。

在本实施例中，类型模板的目标字段的字段名称所对应的拆分词可以包括但不限于：初始拆分词、原始词(类型模板的目标字段的字段名称)。

在本实施例中，针对每个类型模板，服务器可以计算该第一类型模板的拆分词的TF-IDF(term frequency–inverse document frequency，词频-逆文本频率指数)值。

在本实施例中，一个拆分词的TF-IDF值是用来衡量这个拆分词词对该分类的重要程度的，TF-IDF值越高，说明这个词对该分类在整个数据集中的区分能力更好，更适合用来分类。

在本实施例中，词I在分类j(类型模板j)中的TF-IDF值(TFIDF_ij)计算公式如公式(1)所示：

TFIDF_ij＝TF_ij×IDF_i (1)

其中，TF_ij为词i在分类j中出现的频率，等于分类j中词i出现的次数除以分类j的总词数；IDF_i为词i的逆向文本频率，计算方式如公式(2)所示：

其中，|D|表示总数据集中分类数(类型模板的数量)，分母表示包含词i的分类数量，d_j表示|D|中的第j个元素，t_i表示词i。

在本实施例中，针对每个类型模板，服务器可以将该类型模板对应的多个拆分词的TF-IDF值，按照由大到小的顺序选取预设数量个TF-IDF值对应的拆分词，作为第一拆分词。例如，服务器可以将该类型模板对应的多个拆分词的TF-IDF值，按照由大到小的顺序选取前50个拆分词，作为第一拆分词。

在本实施例中，当名称特征与第一拆分词相一致时，可以认为名称特征与第一拆分词相匹配。

在另一个实施例中，服务器还可以计算名称特征与第一拆分词的特征相似度，当特征相似度大于或等于预设的特征相似度阈值时，可以认为名称特征与第一拆分词相匹配。

在另一个实施例中，服务器可以采用LightGBM(Light Gradient BoostingMachine，梯度提升)算法训练初始流水数据类型识别模型，将原数据集(类型模板的集合)中每个类型模板对应的多个模板数据下，随机抽样20％的数据作为测试集，80％的数据作为训练集进行训练，最终训练得到预训练的流水数据类型识别模型。通过自动化完成特征工程与模型训练，可以降低流水数据识别过程中对硬件配置的需求，降低识别成本。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的流水数据类型识别方法的流水数据类型识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个流水数据类型识别装置实施例中的具体限定可以参见上文中对于流水数据类型识别方法的限定，在此不再赘述。

在一个实施例中，如图3所示，提供了一种流水数据类型识别装置，包括：字段信息获取模块302和数据识别模块304，其中：

字段信息获取模块302，用于获取待识别流水数据中目标字段的字段信息；字段信息包括：目标字段的区域信息和字段名称；目标字段属于待识别流水数据中至少一个字段。

数据识别模块304，用于将字段信息输入预训练的流水数据类型识别模型进行识别，得到待识别流水数据的识别结果；流水数据类型识别模型用于，对区域信息识别得到待识别流水数据对应的多个第一数据类型，对字段名称识别得到待识别流水数据对应的多个第二数据类型，并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。

在其中一个实施例中，字段信息获取模块302可以包括：

目标字段获取子模块，用于获取待识别数据中的目标字段。

字段检测子模块，用于对目标字段进行字段检测，确定待识别流水数据中各目标字段的字段名称、字段区域，以及各字段区域内的文本信息。

位置信息获取子模块，用于获取待识别数据对应的版式坐标系，基于各字段区域，得到各字段在版式坐标系中对应的坐标位置，作为目标字段的位置信息。

字段信息确定子模块，用于将位置信息，以及各字段区域内的文本信息，作为目标字段的区域信息，将区域信息与字段名称作为目标字段的字段信息。

在其中一个实施例中，数据识别模块304可以包括：

第一类型模板查询子模块，用于基于目标字段的位置信息，作为目标位置信息，基于目标位置信息对多个类型模板进行查询，得到对应目标位置信息的多个第一类型模板。

第二类型模板查询子模块，用于提取目标字段的文本信息所对应的文本特征，作为目标文本特征，基于目标文本特征对多个第一类型模板进行查询，得到对应目标文本特征的多个第二类型模板。

第一数据类型确定子模块，用于将第二类型模板对应的数据类型，作为待识别流水数据对应的第一数据类型。

在其中一个实施例中，第一类型模板查询子模块可以包括：

第一位置信息获取单元，用于获取多个类型模板中每个类型模板中目标字段的位置信息，作为第一位置信息。

第二位置信息确定单元，用于基于目标位置信息，对多个第一位置信息进行查询，将与目标位置信息相匹配的第一位置信息作为第二位置信息。

第一类型模板确定单元，用于将第二位置信息对应的类型模板，作为对应目标位置信息的第一类型模板。

在其中一个实施例中，第二类型模板查询子模块可以包括：

第一文本特征提取单元，用于获取多个第一类型模板中每个第一类型模板中目标字段的文本特征，作为第一文本特征。

目标文本特征提取单元，用于提取待识别流水数据中目标字段的文本信息所对应的文本特征，作为目标文本特征。

第二文本特征确定单元，用于基于目标文本特征，对多个第一文本特征进行查询，将与目标文本特征相匹配的第一文本特征作为第二文本特征。

第二类型模板确定单元，用于将第二文本特征对应的多个第一类型模板，作为对应目标文本特征的第二类型模板。

在其中一个实施例中，数据识别模块304可以包括：

第一拆分词获取子模块，用于针对多个类型模板中每个类型模板，获取类型模板中的第一拆分词；其中，类型模板中目标字段的字段名称至少包括一个拆分词。

名称特征提取子模块，用于提取待识别流水数据中字段名称的名称特征；其中，名称特征为字段名称中数量最多的拆分词。

第二拆分词确定子模块，用于基于名称特征，对多个第一拆分词进行查询，将与名称特征相匹配的第一拆分词作为第二拆分词。

第二数据类型确定子模块，用于将第二拆分词对应的多个类型模板作为第三类型模板，将第三类型模板对应的数据类型，作为待识别流水数据对应的第二数据类型。

上述流水数据类型识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标字段的字段信息、类别模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种流水数据类型识别方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取待识别流水数据中目标字段的字段信息；字段信息包括：目标字段的区域信息和字段名称；目标字段属于待识别流水数据中至少一个字段；将字段信息输入预训练的流水数据类型识别模型进行识别，得到待识别流水数据的识别结果；流水数据类型识别模型用于，对区域信息识别得到待识别流水数据对应的多个第一数据类型，对字段名称识别得到待识别流水数据对应的多个第二数据类型，并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。

在一个实施例中，处理器执行计算机程序时还实现获取待识别流水数据中目标字段的字段信息，可以包括：获取待识别数据中的目标字段；对目标字段进行字段检测，确定待识别流水数据中各目标字段的字段名称、字段区域，以及各字段区域内的文本信息；获取待识别数据对应的版式坐标系，基于各字段区域，得到各字段在版式坐标系中对应的坐标位置，作为目标字段的位置信息；将位置信息，以及各字段区域内的文本信息，作为目标字段的区域信息，将区域信息与字段名称作为目标字段的字段信息。

在一个实施例中，处理器执行计算机程序时还实现对区域信息识别得到待识别流水数据对应的多个第一数据类型，可以包括：基于目标字段的位置信息，作为目标位置信息，基于目标位置信息对多个类型模板进行查询，得到对应目标位置信息的多个第一类型模板；提取目标字段的文本信息所对应的文本特征，作为目标文本特征，基于目标文本特征对多个第一类型模板进行查询，得到对应目标文本特征的多个第二类型模板；将第二类型模板对应的数据类型，作为待识别流水数据对应的第一数据类型。

在一个实施例中，处理器执行计算机程序时还实现基于目标位置信息对多个类型模板进行查询，得到对应目标位置信息的多个第一类型模板，可以包括：获取多个类型模板中每个类型模板中目标字段的位置信息，作为第一位置信息；基于目标位置信息，对多个第一位置信息进行查询，将与目标位置信息相匹配的第一位置信息作为第二位置信息；将第二位置信息对应的类型模板，作为对应目标位置信息的第一类型模板。

在一个实施例中，处理器执行计算机程序时还实现提取目标字段的文本信息所对应的文本特征，作为目标文本特征，基于目标文本特征对多个第一类型模板进行查询，得到对应目标文本特征的多个第二类型模板，可以包括：获取多个第一类型模板中每个第一类型模板中目标字段的文本特征，作为第一文本特征；提取待识别流水数据中目标字段的文本信息所对应的文本特征，作为目标文本特征；基于目标文本特征，对多个第一文本特征进行查询，将与目标文本特征相匹配的第一文本特征作为第二文本特征；将第二文本特征对应的多个第一类型模板，作为对应目标文本特征的第二类型模板。

在一个实施例中，处理器执行计算机程序时还实现对字段名称识别得到待识别流水数据对应的多个第二数据类型，可以包括：针对多个类型模板中每个类型模板，获取类型模板中的第一拆分词；其中，类型模板中目标字段的字段名称至少包括一个拆分词；提取待识别流水数据中字段名称的名称特征；其中，名称特征为字段名称中数量最多的拆分词；基于名称特征，对多个第一拆分词进行查询，将与名称特征相匹配的第一拆分词作为第二拆分词；将第二拆分词对应的多个类型模板作为第三类型模板，将第三类型模板对应的数据类型，作为待识别流水数据对应的第二数据类型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待识别流水数据中目标字段的字段信息；字段信息包括：目标字段的区域信息和字段名称；目标字段属于待识别流水数据中至少一个字段；将字段信息输入预训练的流水数据类型识别模型进行识别，得到待识别流水数据的识别结果；流水数据类型识别模型用于，对区域信息识别得到待识别流水数据对应的多个第一数据类型，对字段名称识别得到待识别流水数据对应的多个第二数据类型，并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。

在一个实施例中，计算机程序被处理器执行时还实现获取待识别流水数据中目标字段的字段信息，可以包括：获取待识别数据中的目标字段；对目标字段进行字段检测，确定待识别流水数据中各目标字段的字段名称、字段区域，以及各字段区域内的文本信息；获取待识别数据对应的版式坐标系，基于各字段区域，得到各字段在版式坐标系中对应的坐标位置，作为目标字段的位置信息；将位置信息，以及各字段区域内的文本信息，作为目标字段的区域信息，将区域信息与字段名称作为目标字段的字段信息。

在一个实施例中，计算机程序被处理器执行时还实现对区域信息识别得到待识别流水数据对应的多个第一数据类型，可以包括：基于目标字段的位置信息，作为目标位置信息，基于目标位置信息对多个类型模板进行查询，得到对应目标位置信息的多个第一类型模板；提取目标字段的文本信息所对应的文本特征，作为目标文本特征，基于目标文本特征对多个第一类型模板进行查询，得到对应目标文本特征的多个第二类型模板；将第二类型模板对应的数据类型，作为待识别流水数据对应的第一数据类型。

在一个实施例中，计算机程序被处理器执行时还实现基于目标位置信息对多个类型模板进行查询，得到对应目标位置信息的多个第一类型模板，可以包括：获取多个类型模板中每个类型模板中目标字段的位置信息，作为第一位置信息；基于目标位置信息，对多个第一位置信息进行查询，将与目标位置信息相匹配的第一位置信息作为第二位置信息；将第二位置信息对应的类型模板，作为对应目标位置信息的第一类型模板。

在一个实施例中，计算机程序被处理器执行时还实现提取目标字段的文本信息所对应的文本特征，作为目标文本特征，基于目标文本特征对多个第一类型模板进行查询，得到对应目标文本特征的多个第二类型模板，可以包括：获取多个第一类型模板中每个第一类型模板中目标字段的文本特征，作为第一文本特征；提取待识别流水数据中目标字段的文本信息所对应的文本特征，作为目标文本特征；基于目标文本特征，对多个第一文本特征进行查询，将与目标文本特征相匹配的第一文本特征作为第二文本特征；将第二文本特征对应的多个第一类型模板，作为对应目标文本特征的第二类型模板。

在一个实施例中，计算机程序被处理器执行时还实现对字段名称识别得到待识别流水数据对应的多个第二数据类型，可以包括：针对多个类型模板中每个类型模板，获取类型模板中的第一拆分词；其中，类型模板中目标字段的字段名称至少包括一个拆分词；提取待识别流水数据中字段名称的名称特征；其中，名称特征为字段名称中数量最多的拆分词；基于名称特征，对多个第一拆分词进行查询，将与名称特征相匹配的第一拆分词作为第二拆分词；将第二拆分词对应的多个类型模板作为第三类型模板，将第三类型模板对应的数据类型，作为待识别流水数据对应的第二数据类型。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：获取待识别流水数据中目标字段的字段信息；字段信息包括：目标字段的区域信息和字段名称；目标字段属于待识别流水数据中至少一个字段；将字段信息输入预训练的流水数据类型识别模型进行识别，得到待识别流水数据的识别结果；流水数据类型识别模型用于，对区域信息识别得到待识别流水数据对应的多个第一数据类型，对字段名称识别得到待识别流水数据对应的多个第二数据类型，并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种流水数据类型识别方法，其特征在于，所述方法包括：

获取待识别流水数据中目标字段的字段信息；所述字段信息包括：所述目标字段的区域信息和字段名称；所述目标字段属于所述待识别流水数据中至少一个字段；

将所述字段信息输入预训练的流水数据类型识别模型进行识别，得到所述待识别流水数据的识别结果；所述流水数据类型识别模型用于，对所述区域信息识别得到所述待识别流水数据对应的多个第一数据类型，对所述字段名称识别得到所述待识别流水数据对应的多个第二数据类型，并基于所述第一数据类型与所述第二数据类型输出所述待识别流水数据对应的目标数据类型。

2.根据权利要求1所述的方法，其特征在于，所述获取待识别流水数据中目标字段的字段信息，包括：

获取所述待识别数据中的目标字段；

对所述目标字段进行字段检测，确定所述待识别流水数据中各所述目标字段的字段名称、字段区域，以及各所述字段区域内的文本信息；

获取所述待识别数据对应的版式坐标系，基于各所述字段区域，得到各所述字段在所述版式坐标系中对应的坐标位置，作为所述目标字段的位置信息；

将所述位置信息，以及各所述字段区域内的文本信息，作为所述目标字段的区域信息，将所述区域信息与所述字段名称作为所述目标字段的字段信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述区域信息识别得到所述待识别流水数据对应的多个第一数据类型，包括：

基于所述目标字段的所述位置信息，作为目标位置信息，基于所述目标位置信息对多个类型模板进行查询，得到对应所述目标位置信息的多个第一类型模板；

提取所述目标字段的所述文本信息所对应的文本特征，作为目标文本特征，基于所述目标文本特征对多个所述第一类型模板进行查询，得到对应所述目标文本特征的多个第二类型模板；

将所述第二类型模板对应的数据类型，作为所述待识别流水数据对应的第一数据类型。

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标位置信息对多个类型模板进行查询，得到对应所述目标位置信息的多个第一类型模板，包括：

获取多个类型模板中每个所述类型模板中目标字段的位置信息，作为第一位置信息；

基于所述目标位置信息，对多个所述第一位置信息进行查询，将与所述目标位置信息相匹配的所述第一位置信息作为第二位置信息；

将所述第二位置信息对应的类型模板，作为对应所述目标位置信息的第一类型模板。

5.根据权利要求3所述的方法，其特征在于，所述提取所述目标字段的所述文本信息所对应的文本特征，作为目标文本特征，基于所述目标文本特征对多个所述第一类型模板进行查询，得到对应所述目标文本特征的多个第二类型模板，包括：

获取多个所述第一类型模板中每个所述第一类型模板中目标字段的文本特征，作为第一文本特征；

提取所述待识别流水数据中目标字段的所述文本信息所对应的文本特征，作为目标文本特征；

基于所述目标文本特征，对多个所述第一文本特征进行查询，将与所述目标文本特征相匹配的所述第一文本特征作为第二文本特征；

将所述第二文本特征对应的多个所述第一类型模板，作为对应所述目标文本特征的第二类型模板。

6.根据权利要求1所述的方法，其特征在于，所述对所述字段名称识别得到所述待识别流水数据对应的多个第二数据类型，包括：

针对多个类型模板中每个所述类型模板，获取所述类型模板中的第一拆分词；其中，所述类型模板中目标字段的字段名称至少包括一个所述拆分词；

提取所述待识别流水数据中所述字段名称的名称特征；其中，所述名称特征为所述字段名称中数量最多的拆分词；

基于所述名称特征，对多个所述第一拆分词进行查询，将与所述名称特征相匹配的所述第一拆分词作为第二拆分词；

将所述第二拆分词对应的多个所述类型模板作为第三类型模板，将所述第三类型模板对应的数据类型，作为所述待识别流水数据对应的第二数据类型。

7.一种流水数据类型识别装置，其特征在于，所述装置包括：

字段信息获取模块，用于获取待识别流水数据中目标字段的字段信息；所述字段信息包括：所述目标字段的区域信息和字段名称；所述目标字段属于所述待识别流水数据中至少一个字段；

数据识别模块，用于将所述字段信息输入预训练的流水数据类型识别模型进行识别，得到所述待识别流水数据的识别结果；所述流水数据类型识别模型用于，对所述区域信息识别得到所述待识别流水数据对应的多个第一数据类型，对所述字段名称识别得到所述待识别流水数据对应的多个第二数据类型，并基于所述第一数据类型与所述第二数据类型输出所述待识别流水数据对应的目标数据类型。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。