CN112926296A - 数据校验方法、装置、电子设备及存储介质 - Google Patents

数据校验方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112926296A
CN112926296A CN202110343063.7A CN202110343063A CN112926296A CN 112926296 A CN112926296 A CN 112926296A CN 202110343063 A CN202110343063 A CN 202110343063A CN 112926296 A CN112926296 A CN 112926296A
Authority
CN
China
Prior art keywords
cell
verified
data
rule
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110343063.7A
Other languages
English (en)
Inventor
林卫鍊
李敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110343063.7A priority Critical patent/CN112926296A/zh
Publication of CN112926296A publication Critical patent/CN112926296A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种数据校验方法、装置、电子设备及存储介质,所述方法包括:加载校验请求中的多个目标待校验数据至EXCEL模板中;读取EXCEL模板的规则栏对应的每个单元格的关键字段;将每个单元格的关键字段输入至预先训练好的BERT模型中,并获取BERT模型输出的每个单元格的规则属性;对所有单元格的规则属性进行合并得到EXCEL模板的校验规则表;根据校验规则表对EXCEL模板中的每个单元格中的目标待校验数据进行校验。本发明通过BERT模型输出的每个单元格的规则属性,不需要编码维护每个单元格的规则属性,确保了每个单元格的规则属性的准确性,进而提高了数据校验的效率和准确率。

Description

数据校验方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种数据校验方法、装置、电子设备及存储介质。
背景技术
EXCEL文件能够方便的制作出各种表格,被广泛使用,现有技术将EXCEL文件导入数据库的时候,需要花费大量的时间以及编写代码对EXCEL文件中的单元格的规则属性进行校验。
然而,由于EXCEL文件的单元格规则属性复杂度高,编写代码过程中容易出现错误,无法确保单元格的规则属性的准确性,导致数据校验的效率和准确率低。
因此,有必要提供一种快速准确的数据校验方法。
发明内容
鉴于以上内容,有必要提出一种数据校验方法、装置、电子设备及存储介质,通过BERT模型输出的每个单元格的规则属性,不需要编码维护每个单元格的规则属性,确保了每个单元格的规则属性的准确性,进而提高了数据校验的效率和准确率。
本发明的第一方面提供一种数据校验方法,所述方法包括:
加载校验请求中的多个目标待校验数据至EXCEL模板中;
读取所述EXCEL模板的规则栏对应的每个单元格的关键字段;
将所述每个单元格的关键字段输入至预先训练好的BERT模型中,并获取所述BERT模型输出的每个单元格的规则属性;
对所有单元格的规则属性进行合并得到所述EXCEL模板的校验规则表;
根据所述校验规则表对所述EXCEL模板中的每个单元格中的目标待校验数据进行校验。
可选地,所述将所述每个单元格的关键字段输入至预先训练好的BERT模型中,并获取所述BERT模型输出的每个单元格的规则属性包括:
对每个单元格的关键字段进行分词处理得到词块嵌入;
根据所述每个单元格的关键字段的上下文关系获取每个词块的段号嵌入及每个词块的位置嵌入;
将所述词块嵌入、所述段号嵌入及所述位置嵌入叠加形成词嵌入向量;
将所述词嵌入向量输入至预先训练好的BERT模型中进行语义识别得到目标词向量;
将所述目标词向量输入预设的命名实体属性识别模型中进行命名实体属性识别,得到每个单元格的规则属性。
可选地,所述对所有单元格的规则属性进行合并得到所述EXCEL模板的校验规则表包括:
对所述所有单元格的规则属性按照每个所述单元格的位置坐标进行合并得到所述EXCEL模板的校验规则表。
可选地,所述根据所述校验规则表对所述EXCEL模板中的每个单元格中的目标待校验数据进行校验包括:
获取所述EXCEL模板中的每个单元格中的目标待校验数据对应的目标位置坐标;
根据所述目标位置坐标从所述校验规则表中获取每个单元格对应的规则属性;
按照每个单元格的规则属性对对应单元格中的目标待校验数据进行校验。
可选地,所述方法还包括:
当每个单元格中的目标待校验数据满足对应的单元格的规则属性要求时,确定校验结果为所述每个单元格中的目标待校验数据校验成功;或者
当每个单元格中的目标待校验数据不满足对应的单元格的规则属性要求时,确定校验结果为所述每个单元格中的目标待校验数据校验失败。
可选地,所述加载校验请求中的多个目标待校验数据至EXCEL模板中包括:
接收请求人发送的校验请求;
解析所述校验请求获取EXCEL模板名称、多个初始待校验数据及每个所述初始待校验数据对应的第一位置坐标;
从预设数据库中确定出与所述EXCEL模板名称对应的EXCEL模板;
对每个所述初始待校验数据按照预设的转换规则进行转换得到每个目标待校验数据;
从所述EXCEl模板中确定出与所述第一位置坐标匹配的第二位置坐标;
将所述每个目标待校验数据写入所述EXCEL模板对应的第二位置坐标中。
可选地,所述方法还包括:
根据所述EXCEL模板名称确定对应的业务工作表;
从校验结果中选取校验成功的目标待校验数据,并获取所述校验成功的目标待校验数据对应的第一目标单元格;
从所述业务工作表中确定出与所述第一目标单元格匹配的第二目标单元格;
根据所述第二目标单元格对应的读逻辑,从所述EXCEL模板中读取所述第一目标单元格对应的校验成功的目标待校验数据;
根据所述第二目标单元格的预设的数据格式将读取到的所述校验成功的目标待校验数据转换为目标业务数据,并将所述目标业务数据写入所述业务工作表对应的第二目标单元格中。
本发明的第二方面提供一种数据校验装置,所述装置包括:
加载模块,用于加载校验请求中的多个目标待校验数据至EXCEL模板中;
读取模块,用于读取所述EXCEL模板的规则栏对应的每个单元格的关键字段;
输入模块,用于将所述每个单元格的关键字段输入至预先训练好的BERT模型中,并获取所述BERT模型输出的每个单元格的规则属性;
合并模块,用于对所有单元格的规则属性进行合并得到所述EXCEL模板的校验规则表;
校验模块,用于根据所述校验规则表对所述EXCEL模板中的每个单元格中的目标待校验数据进行校验。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的数据校验方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的数据校验方法。
综上所述,本发明所述的数据校验方法、装置、电子设备及存储介质,一方面,通过将所述每个单元格的关键字段输入至预先训练好的BERT模型中,并获取所述BERT模型输出的每个单元格的规则属性,不需要花费人力去维护每个单元格的规则属性,直接使用完善的模型算法进行每个单元格的规则属性的维护,进一步提高了每个单元格的规则属性的维护效率,提高了数据校验的效率和准确率;另一方面,通过对所有单元格的规则属性进行合并得到所述EXCEL模板的校验规则表,便于后期进行维护时,根据每个单元格的位置坐标快速的定位出对应的单元格的规则属性,提高了规则属性的维护效率;最后,根据所述校验规则表对所述EXCEL模板中的每个单元格中的目标待校验数据进行校验,不同的单元格对应不同的校验规则,对每个单元格中的目标待校验数据通过对应的规则属性进行校验,提高了数据校验的准确率。
附图说明
图1是本发明实施例一提供的数据校验方法的流程图。
图2是本发明实施例二提供的数据校验装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一
图1是本发明实施例一提供的数据校验方法的流程图。
在本实施例中,所述数据校验方法可以应用于电子设备中,对于需要进行数据校验的电子设备,可以直接在电子设备上集成本发明的方法所提供的数据校验的功能,或者以软件开发工具包(Software Development Kit,SDK)的形式运行在电子设备中。
如图1所示,所述数据校验方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,加载校验请求中的多个目标待校验数据至EXCEL模板中。
本实施例中,在进行数据校验时,请求人发送校验请求至服务器,服务器解析所述校验请求确定多个目标待校验数据,并将所述多个目标待校验数据加载至对应的EXCEL模板中。
在一个可选的实施例中,所述加载校验请求中的多个目标待校验数据至EXCEL模板中包括:
接收请求人发送的校验请求;
解析所述校验请求获取EXCEL模板名称、多个初始待校验数据及每个所述初始待校验数据对应的第一位置坐标;
从预设数据库中确定出与所述EXCEL模板名称对应的EXCEL模板;
对每个所述初始待校验数据按照预设的转换规则进行转换得到每个目标待校验数据;
从所述EXCEl模板中确定出与所述第一位置坐标匹配的第二位置坐标;
将所述每个目标待校验数据写入所述EXCEL模板对应的第二位置坐标中。
本实施例中,所述目标待校验数据是通过解析所述校验请求获得多个初始待校验数据,并对每个初始待校验数据按照预设的转换规则进行转换得到的。
本实施例中,所述第一位置坐标是指校验请求中包含的每个所述初始待校验数据对应的第一位置坐标,所述第二位置坐标用以表征EXCEL模板中每个所述初始待校验数据的位置坐标。
本实施例中,可以预先根据不同的业务属性设置不同的EXCEL模板,并为每个EXCEL模板设置模板名称,具体地,所述EXCEL模板针对业务的基础属性和业务的非基础属性进行设置,其中,所述业务的基础属性包括,但不限于,保险、贷款金融、投资理财、信用卡和生活,例如,针对业务的基础属性保险设置保险对应的EXCEL模板;所述业务的非基础属性包括,但不限于,客户经营、公司经营、渠道特质、渠道区域、产品经营和产品关联,例如,针对业务的非基础属性客户经营设置客户经营对应的EXCEL模板。
本实施中,可以预先为每个初始待校验数据设置转换规则,对每个初始待校验数据按照预设的转换规则进行转换得到每个目标待校验数据。
在其他可选的实施例中,所述初始待校验数据也可以为一个。
本实施例中,通过将对每个所述初始待校验数据按照预设的转换规则进行转换得到每个目标待校验数据,统一了每个目标待校验数据的格式,提高了目标待校验数据的可读性。
S12,读取所述EXCEL模板的规则栏对应的每个单元格的关键字段。
本实施例中,服务器通过POI读取和解析EXCEL模板中的对应的内容,具体地,从所述具体内容中识别到规则栏,读取规则栏对应的每个单元格的关键字段,一般情况下,规则栏位于所述EXCEL模板的第二行,可以直接读取第二行规则栏的内容,将读取到的规则栏中的每个单元格的关键字段及每个单元格的关键字段对应的中文名称、对应的工作表名称进行关联后进行存储。
S13,将所述每个单元格的关键字段输入至预先训练好的BERT模型中,并获取所述BERT模型输出的每个单元格的规则属性。
本实施例中,BERT(Bidirectional Encoder Representations fromTransformers,来自Transformer的双向编码器表征)是一个预训练模型,在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义,在读取到EXCEL模板的规则栏对应的每个单元格的关键字段,将每个单元格的关键字段输入至预先训练好的BERT模型中,得到每个单元格的规则属性。
本实施例中,每个单元格的规则属性包括,但不限于,标准值下拉选项、可填入多标准值、只能填入数字,数字保留位数、是否为百分数、excel单元格类型。
在一个可选的实施例中,所述将所述每个单元格的关键字段输入至预先训练好的BERT模型中,并获取所述BERT模型输出的每个单元格的规则属性包括:
对每个单元格的关键字段进行分词处理得到词块嵌入;
根据所述每个单元格的关键字段的上下文关系获取每个词块的段号嵌入及每个词块的位置嵌入;
将所述词块嵌入、所述段号嵌入及所述位置嵌入叠加形成词嵌入向量;
将所述词嵌入向量输入至预先训练好的BERT模型中进行语义识别得到目标词向量;
将所述目标词向量输入预设的命名实体属性识别模型中进行命名实体属性识别,得到每个单元格的规则属性。
本实施例中,由于BERT模型期望输入的数据具有特定的格式,因此可以用特殊标记来标记每个单元格的关键字段的开头([CLS])和每个单元格的关键字段的分隔/结尾([SEP]),符合BERT中使用的固定词汇的令牌,BERT的令牌生成器提供的令牌ID,掩码ID,以指示序列中的哪些元素是令牌,哪些是填充元素,用于区分不同关键字段的字段ID,用于显示序列中标记位置的位置嵌入,具体地,BERT输入表征是词块嵌入、段号嵌入和位置嵌入的总和。
本实施例中,将词嵌入向量输入至预先训练好的BERT模型中进行语义识别得到目标词向量,对目标词向量进行命名实体属性识别,并且在后续的训练过程中,BERT模型和命名实体属性识别模型不断的通过提交新的EXCEL模板去训练完善模型算法,提高了每个单元格的规则属性的识别准确性,同时,不需要花费人力去维护每个单元格的规则属性,直接使用完善的模型算法进行每个单元格的规则属性的维护,进一步提高了每个单元格的规则属性的维护效率,提高了数据校验的效率和准确率。
S14,对所有单元格的规则属性进行合并得到所述EXCEL模板的校验规则表。
本实施例中,校验规则表中包含有所述EXCEL模板对应的每个单元格的规则属性,根据每个单元格的规则属性可以对对应单元格中的待校验数据进行校验,提高了数据校验的正确率。
在一个可选的实施例中,所述对所有单元格的规则属性进行合并得到所述EXCEL模板的校验规则表包括:
对所述所有单元格的规则属性按照每个所述单元格的位置坐标进行合并得到所述EXCEL模板的校验规则表。
本实施例中,所述EXCEl模板中包含有至少一个单元格,根据每个单元格的位置坐标将对应单元格的规则属性进行合并,得到校验规则表,便于后期进行维护时,根据每个单元格的位置坐标快速的定位出对应的单元格的规则属性,提高了规则属性的维护效率。
S15,根据所述校验规则表对所述EXCEL模板中的每个单元格中的目标待校验数据进行校验。
本实施例中,由于所述EXCEL模板中已加载了多个目标待校验数据,根据每个单元格对应的规则属性对对应的单元格中的目标待校验数据进行校验。
在一个可选的实施例中,所述根据所述校验规则表对所述EXCEL模板中的每个单元格中的目标待校验数据进行校验包括:
获取所述EXCEL模板中的每个单元格中的目标待校验数据对应的目标位置坐标;
根据所述目标位置坐标从所述校验规则表中获取每个单元格对应的规则属性;
按照每个单元格的规则属性对对应单元格中的目标待校验数据进行校验。
进一步地,所述方法还包括:
当每个单元格中的目标待校验数据满足对应的单元格的规则属性要求时,确定校验结果为所述每个单元格中的目标待校验数据校验成功;或者
当每个单元格中的目标待校验数据不满足对应的单元格的规则属性要求时,确定校验结果为所述每个单元格中的目标待校验数据校验失败。
本实施例中,不同的单元格对应不同的校验规则,每个单元格的校验规则唯一确定,对每个单元格中的目标待校验数据通过对应的规则属性进行校验,提高了数据校验的准确率。
进一步地,所述方法还包括:
根据所述EXCEL模板名称确定对应的业务工作表;
从校验结果中选取校验成功的目标待校验数据,并获取所述校验成功的目标待校验数据对应的第一目标单元格;
从所述业务工作表中确定出与所述第一目标单元格匹配的第二目标单元格;
根据所述第二目标单元格对应的读逻辑,从所述EXCEL模板中读取所述第一目标单元格对应的校验成功的目标待校验数据;
根据所述第二目标单元格的预设的数据格式将读取到的所述校验成功的目标待校验数据转换为目标业务数据,并将所述目标业务数据写入所述业务工作表对应的第二目标单元格中。
本实施例中,在对目标待校验数据进行校验后,需要将所述EXCEL模板中的目标待校验数据转换到对应的业务工作表中,故根据所述EXCEL模板名称确定转换对应的业务工作表。
本实施例中,由于不同的业务工作表中的每个单元格的预设的数据格式不同,提高了所述业务工作表中的单元格格式的多样性,获取所述校验成功的目标待校验数据对应的第一目标单元格,根据所述第一目标单元格在业务工作表中匹配出第二目标单元格,根据所述第二目标单元格的读逻辑从EXCEL模板中读取所述需要转换的校验成功的目标待校验数据,并根据第二目标单元格的预设的数据格式将读取到的校验成功的目标待校验数据转换为目标业务数据,并将目标业务数据写入所述业务工作表对应的第二目标单元格中,提高了业务读取数据的效率和准确率。
进一步地,所述方法还包括:
从所述校验结果中选取校验失败的目标待校验数据;
获取所述校验失败的目标待校验数据对应的规则属性;
发送所述校验失败的目标待校验数据及对应的规则属性至请求人;
接收请求人上报的根据所述规则属性更新后的目标待校验数据。
本实施例中,通过将校验失败的目标待校验数据及对应的规则属性至请求人,辅助请求人快速的更新提供的目标待校验数据,提高了请求人的体验度,进而提高了数据校验的效率和准确率。
综上所述,本实施例所述的数据校验方法,一方面,通过将所述每个单元格的关键字段输入至预先训练好的BERT模型中,并获取所述BERT模型输出的每个单元格的规则属性,不需要花费人力去维护每个单元格的规则属性,直接使用完善的模型算法进行每个单元格的规则属性的维护,进一步提高了每个单元格的规则属性的维护效率,提高了数据校验的效率和准确率;另一方面,通过对所有单元格的规则属性进行合并得到所述EXCEL模板的校验规则表,便于后期进行维护时,根据每个单元格的位置坐标快速的定位出对应的单元格的规则属性,提高了规则属性的维护效率;最后,根据所述校验规则表对所述EXCEL模板中的每个单元格中的目标待校验数据进行校验,不同的单元格对应不同的校验规则,对每个单元格中的目标待校验数据通过对应的规则属性进行校验,提高了数据校验的准确率。
实施例二
图2是本发明实施例二提供的数据校验装置的结构图。
在一些实施例中,所述数据校验装置20可以包括多个由程序代码段所组成的功能模块。所述数据校验装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)数据校验的功能。
本实施例中,所述数据校验装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:加载模块201、读取模块202、输入模块203、合并模块204、校验模块205、确定模块206及转换模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
加载模块201,用于加载校验请求中的多个目标待校验数据至EXCEL模板中。
本实施例中,在进行数据校验时,请求人发送校验请求至服务器,服务器解析所述校验请求确定多个目标待校验数据,并将所述多个目标待校验数据加载至对应的EXCEL模板中。
在一个可选的实施例中,所述加载模块201加载校验请求中的多个目标待校验数据至EXCEL模板中包括:
接收请求人发送的校验请求;
解析所述校验请求获取EXCEL模板名称、多个初始待校验数据及每个所述初始待校验数据对应的第一位置坐标;
从预设数据库中确定出与所述EXCEL模板名称对应的EXCEL模板;
对每个所述初始待校验数据按照预设的转换规则进行转换得到每个目标待校验数据;
从所述EXCEl模板中确定出与所述第一位置坐标匹配的第二位置坐标;
将所述每个目标待校验数据写入所述EXCEL模板对应的第二位置坐标中。
本实施例中,所述目标待校验数据是通过解析所述校验请求获得多个初始待校验数据,并对每个初始待校验数据按照预设的转换规则进行转换得到的。
本实施例中,所述第一位置坐标是指校验请求中包含的每个所述初始待校验数据对应的第一位置坐标,所述第二位置坐标用以表征EXCEL模板中每个所述初始待校验数据的位置坐标。
本实施例中,可以预先根据不同的业务属性设置不同的EXCEL模板,并为每个EXCEL模板设置模板名称,具体地,所述EXCEL模板针对业务的基础属性和业务的非基础属性进行设置,其中,所述业务的基础属性包括,但不限于,保险、贷款金融、投资理财、信用卡和生活,例如,针对业务的基础属性保险设置保险对应的EXCEL模板;所述业务的非基础属性包括,但不限于,客户经营、公司经营、渠道特质、渠道区域、产品经营和产品关联,例如,针对业务的非基础属性客户经营设置客户经营对应的EXCEL模板。
本实施中,可以预先为每个初始待校验数据设置转换规则,对每个初始待校验数据按照预设的转换规则进行转换得到每个目标待校验数据。
在其他可选的实施例中,所述初始待校验数据也可以为一个。
本实施例中,通过将对每个所述初始待校验数据按照预设的转换规则进行转换得到每个目标待校验数据,统一了每个目标待校验数据的格式,提高了目标待校验数据的可读性。
读取模块202,用于读取所述EXCEL模板的规则栏对应的每个单元格的关键字段。
本实施例中,服务器通过POI读取和解析EXCEL模板中的对应的内容,具体地,从所述具体内容中识别到规则栏,读取规则栏对应的每个单元格的关键字段,一般情况下,规则栏位于所述EXCEL模板的第二行,可以直接读取第二行规则栏的内容,将读取到的规则栏中的每个单元格的关键字段及每个单元格的关键字段对应的中文名称、对应的工作表名称进行关联后进行存储。
输入模块203,用于将所述每个单元格的关键字段输入至预先训练好的BERT模型中,并获取所述BERT模型输出的每个单元格的规则属性。
本实施例中,BERT(Bidirectional Encoder Representations fromTransformers,来自Transformer的双向编码器表征)是一个预训练模型,在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义,在读取到EXCEL模板的规则栏对应的每个单元格的关键字段,将每个单元格的关键字段输入至预先训练好的BERT模型中,得到每个单元格的规则属性。
本实施例中,每个单元格的规则属性包括,但不限于,标准值下拉选项、可填入多标准值、只能填入数字,数字保留位数、是否为百分数、excel单元格类型。
在一个可选的实施例中,所述输入模块203将所述每个单元格的关键字段输入至预先训练好的BERT模型中,并获取所述BERT模型输出的每个单元格的规则属性包括:
对每个单元格的关键字段进行分词处理得到词块嵌入;
根据所述每个单元格的关键字段的上下文关系获取每个词块的段号嵌入及每个词块的位置嵌入;
将所述词块嵌入、所述段号嵌入及所述位置嵌入叠加形成词嵌入向量;
将所述词嵌入向量输入至预先训练好的BERT模型中进行语义识别得到目标词向量;
将所述目标词向量输入预设的命名实体属性识别模型中进行命名实体属性识别,得到每个单元格的规则属性。
本实施例中,由于BERT模型期望输入的数据具有特定的格式,因此可以用特殊标记来标记每个单元格的关键字段的开头([CLS])和每个单元格的关键字段的分隔/结尾([SEP]),符合BERT中使用的固定词汇的令牌,BERT的令牌生成器提供的令牌ID,掩码ID,以指示序列中的哪些元素是令牌,哪些是填充元素,用于区分不同关键字段的字段ID,用于显示序列中标记位置的位置嵌入,具体地,BERT输入表征是词块嵌入、段号嵌入和位置嵌入的总和。
本实施例中,将词嵌入向量输入至预先训练好的BERT模型中进行语义识别得到目标词向量,对目标词向量进行命名实体属性识别,并且在后续的训练过程中,BERT模型和命名实体属性识别模型不断的通过提交新的EXCEL模板去训练完善模型算法,提高了每个单元格的规则属性的识别准确性,同时,不需要花费人力去维护每个单元格的规则属性,直接使用完善的模型算法进行每个单元格的规则属性的维护,进一步提高了每个单元格的规则属性的维护效率,提高了数据校验的效率和准确率。
合并模块204,用于对所有单元格的规则属性进行合并得到所述EXCEL模板的校验规则表。
本实施例中,校验规则表中包含有所述EXCEL模板对应的每个单元格的规则属性,根据每个单元格的规则属性可以对对应单元格中的待校验数据进行校验,提高了数据校验的正确率。
在一个可选的实施例中,所述合并模块204对所有单元格的规则属性进行合并得到所述EXCEL模板的校验规则表包括:
对所述所有单元格的规则属性按照每个所述单元格的位置坐标进行合并得到所述EXCEL模板的校验规则表。
本实施例中,所述EXCEl模板中包含有至少一个单元格,根据每个单元格的位置坐标将对应单元格的规则属性进行合并,得到校验规则表,便于后期进行维护时,根据每个单元格的位置坐标快速的定位出对应的单元格的规则属性,提高了规则属性的维护效率。
校验模块205,用于根据所述校验规则表对所述EXCEL模板中的每个单元格中的目标待校验数据进行校验。
本实施例中,由于所述EXCEL模板中已加载了多个目标待校验数据,根据每个单元格对应的规则属性对对应的单元格中的目标待校验数据进行校验。
在一个可选的实施例中,所述校验模块205根据所述校验规则表对所述EXCEL模板中的每个单元格中的目标待校验数据进行校验包括:
获取所述EXCEL模板中的每个单元格中的目标待校验数据对应的目标位置坐标;
根据所述目标位置坐标从所述校验规则表中获取每个单元格对应的规则属性;
按照每个单元格的规则属性对对应单元格中的目标待校验数据进行校验。
进一步地,当每个单元格中的目标待校验数据满足对应的单元格的规则属性要求时,确定校验结果为所述每个单元格中的目标待校验数据校验成功;当每个单元格中的目标待校验数据不满足对应的单元格的规则属性要求时,确定校验结果为所述每个单元格中的目标待校验数据校验失败。
本实施例中,不同的单元格对应不同的校验规则,每个单元格的校验规则唯一确定,对每个单元格中的目标待校验数据通过对应的规则属性进行校验,提高了数据校验的准确率。
确定模块206,用于根据所述EXCEL模板名称确定对应的业务工作表;从校验结果中选取校验成功的目标待校验数据,并获取所述校验成功的目标待校验数据对应的第一目标单元格,从所述业务工作表中确定出与所述第一目标单元格匹配的第二目标单元格。
所述读取模块202,还用于根据所述第二目标单元格对应的读逻辑,从所述EXCEL模板中读取所述第一目标单元格对应的校验成功的目标待校验数据。
转换模块207,用于根据所述第二目标单元格的预设的数据格式将读取到的所述校验成功的目标待校验数据转换为目标业务数据,并将所述目标业务数据写入所述业务工作表对应的第二目标单元格中。
本实施例中,在对目标待校验数据进行校验后,需要将所述EXCEL模板中的目标待校验数据转换到对应的业务工作表中,故根据所述EXCEL模板名称确定转换对应的业务工作表。
本实施例中,由于不同的业务工作表中的每个单元格的预设的数据格式不同,提高了所述业务工作表中的单元格格式的多样性,获取所述校验成功的目标待校验数据对应的第一目标单元格,根据所述第一目标单元格在业务工作表中匹配出第二目标单元格,根据所述第二目标单元格的读逻辑从EXCEL模板中读取所述需要转换的校验成功的目标待校验数据,并根据第二目标单元格的预设的数据格式将读取到的校验成功的目标待校验数据转换为目标业务数据,并将目标业务数据写入所述业务工作表对应的第二目标单元格中,提高了业务读取数据的效率和准确率。
进一步地,从所述校验结果中选取校验失败的目标待校验数据;获取所述校验失败的目标待校验数据对应的规则属性;发送所述校验失败的目标待校验数据及对应的规则属性至请求人;接收请求人上报的根据所述规则属性更新后的目标待校验数据。
本实施例中,通过将校验失败的目标待校验数据及对应的规则属性至请求人,辅助请求人快速的更新提供的目标待校验数据,提高了请求人的体验度,进而提高了数据校验的效率和准确率。
综上所述,本实施例所述的数据校验装置,一方面,通过将所述每个单元格的关键字段输入至预先训练好的BERT模型中,并获取所述BERT模型输出的每个单元格的规则属性,不需要花费人力去维护每个单元格的规则属性,直接使用完善的模型算法进行每个单元格的规则属性的维护,进一步提高了每个单元格的规则属性的维护效率,提高了数据校验的效率和准确率;另一方面,通过对所有单元格的规则属性进行合并得到所述EXCEL模板的校验规则表,便于后期进行维护时,根据每个单元格的位置坐标快速的定位出对应的单元格的规则属性,提高了规则属性的维护效率;最后,根据所述校验规则表对所述EXCEL模板中的每个单元格中的目标待校验数据进行校验,不同的单元格对应不同的校验规则,对每个单元格中的目标待校验数据通过对应的规则属性进行校验,提高了数据校验的准确率。
实施例三
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的数据校验装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的数据校验装置20)、程序代码等,例如,上述的各个模块。
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到数据校验的目的。
在本发明的一个实施例中,所述存储器31存储多个指令,所述多个指令被所述至少一个处理器32所执行以实现数据校验的功能。
具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种数据校验方法,其特征在于,所述方法包括:
加载校验请求中的多个目标待校验数据至EXCEL模板中;
读取所述EXCEL模板的规则栏对应的每个单元格的关键字段;
将所述每个单元格的关键字段输入至预先训练好的BERT模型中,并获取所述BERT模型输出的每个单元格的规则属性;
对所有单元格的规则属性进行合并得到所述EXCEL模板的校验规则表;
根据所述校验规则表对所述EXCEL模板中的每个单元格中的目标待校验数据进行校验。
2.如权利要求1所述的数据校验方法,其特征在于,所述将所述每个单元格的关键字段输入至预先训练好的BERT模型中,并获取所述BERT模型输出的每个单元格的规则属性包括:
对每个单元格的关键字段进行分词处理得到词块嵌入;
根据所述每个单元格的关键字段的上下文关系获取每个词块的段号嵌入及每个词块的位置嵌入;
将所述词块嵌入、所述段号嵌入及所述位置嵌入叠加形成词嵌入向量;
将所述词嵌入向量输入至预先训练好的BERT模型中进行语义识别得到目标词向量;
将所述目标词向量输入预设的命名实体属性识别模型中进行命名实体属性识别,得到每个单元格的规则属性。
3.如权利要求1所述的数据校验方法,其特征在于,所述对所有单元格的规则属性进行合并得到所述EXCEL模板的校验规则表包括:
对所述所有单元格的规则属性按照每个所述单元格的位置坐标进行合并得到所述EXCEL模板的校验规则表。
4.如权利要求1所述的数据校验方法,其特征在于,所述根据所述校验规则表对所述EXCEL模板中的每个单元格中的目标待校验数据进行校验包括:
获取所述EXCEL模板中的每个单元格中的目标待校验数据对应的目标位置坐标;
根据所述目标位置坐标从所述校验规则表中获取每个单元格对应的规则属性;
按照每个单元格的规则属性对对应单元格中的目标待校验数据进行校验。
5.如权利要求4所述的数据校验方法,其特征在于,所述方法还包括:
当每个单元格中的目标待校验数据满足对应单元格的规则属性要求时,确定校验结果为所述每个单元格中的目标待校验数据校验成功;或者
当每个单元格中的目标待校验数据不满足对应单元格的规则属性要求时,确定校验结果为所述每个单元格中的目标待校验数据校验失败。
6.如权利要求1所述的数据校验方法,其特征在于,所述加载校验请求中的多个目标待校验数据至EXCEL模板中包括:
接收请求人发送的校验请求;
解析所述校验请求获取EXCEL模板名称、多个初始待校验数据及每个所述初始待校验数据对应的第一位置坐标;
从预设数据库中确定出与所述EXCEL模板名称对应的EXCEL模板;
对每个所述初始待校验数据按照预设的转换规则进行转换得到每个目标待校验数据;
从所述EXCEl模板中确定出与所述第一位置坐标匹配的第二位置坐标;
将所述每个目标待校验数据写入所述EXCEL模板对应的第二位置坐标中。
7.如权利要求6中所述的数据校验方法,其特征在于,所述方法还包括:
根据所述EXCEL模板名称确定对应的业务工作表;
从校验结果中选取校验成功的目标待校验数据,并获取所述校验成功的目标待校验数据对应的第一目标单元格;
从所述业务工作表中确定出与所述第一目标单元格匹配的第二目标单元格;
根据所述第二目标单元格对应的读逻辑,从所述EXCEL模板中读取所述第一目标单元格对应的校验成功的目标待校验数据;
根据所述第二目标单元格的预设的数据格式将读取到的所述校验成功的目标待校验数据转换为目标业务数据,并将所述目标业务数据写入所述业务工作表对应的第二目标单元格中。
8.一种数据校验装置,其特征在于,所述装置包括:
加载模块,用于加载校验请求中的多个目标待校验数据至EXCEL模板中;
读取模块,用于读取所述EXCEL模板的规则栏对应的每个单元格的关键字段;
输入模块,用于将所述每个单元格的关键字段输入至预先训练好的BERT模型中,并获取所述BERT模型输出的每个单元格的规则属性;
合并模块,用于对所有单元格的规则属性进行合并得到所述EXCEL模板的校验规则表;
校验模块,用于根据所述校验规则表对所述EXCEL模板中的每个单元格中的目标待校验数据进行校验。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的数据校验方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的数据校验方法。
CN202110343063.7A 2021-03-30 2021-03-30 数据校验方法、装置、电子设备及存储介质 Pending CN112926296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110343063.7A CN112926296A (zh) 2021-03-30 2021-03-30 数据校验方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110343063.7A CN112926296A (zh) 2021-03-30 2021-03-30 数据校验方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112926296A true CN112926296A (zh) 2021-06-08

Family

ID=76176681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110343063.7A Pending CN112926296A (zh) 2021-03-30 2021-03-30 数据校验方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112926296A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268478A (zh) * 2021-06-24 2021-08-17 中国平安人寿保险股份有限公司 大数据分析方法、装置、电子设备及存储介质
CN114780497A (zh) * 2022-04-22 2022-07-22 湖南长银五八消费金融股份有限公司 批量文件处理方法、装置、计算机设备、介质和程序产品
CN115455922A (zh) * 2022-09-16 2022-12-09 中国电信股份有限公司 表单校验方法、装置、电子设备和存储介质
CN117520483A (zh) * 2024-01-04 2024-02-06 北京奇虎科技有限公司 基于大模型的信息校验方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268478A (zh) * 2021-06-24 2021-08-17 中国平安人寿保险股份有限公司 大数据分析方法、装置、电子设备及存储介质
CN114780497A (zh) * 2022-04-22 2022-07-22 湖南长银五八消费金融股份有限公司 批量文件处理方法、装置、计算机设备、介质和程序产品
CN114780497B (zh) * 2022-04-22 2023-02-24 湖南长银五八消费金融股份有限公司 批量文件处理方法、装置、计算机设备、介质和程序产品
CN115455922A (zh) * 2022-09-16 2022-12-09 中国电信股份有限公司 表单校验方法、装置、电子设备和存储介质
CN115455922B (zh) * 2022-09-16 2024-02-02 中国电信股份有限公司 表单校验方法、装置、电子设备和存储介质
CN117520483A (zh) * 2024-01-04 2024-02-06 北京奇虎科技有限公司 基于大模型的信息校验方法及装置

Similar Documents

Publication Publication Date Title
CN112926296A (zh) 数据校验方法、装置、电子设备及存储介质
CN113704429A (zh) 基于半监督学习的意图识别方法、装置、设备及介质
CN114881616A (zh) 业务流程执行方法、装置、电子设备及存储介质
CN112559687A (zh) 问题识别及查询方法、装置、电子设备及存储介质
CN114979120A (zh) 数据上传方法、装置、设备及存储介质
CN113435582A (zh) 基于句向量预训练模型的文本处理方法及相关设备
CN112667878A (zh) 网页的文本内容提取方法、装置、电子设备及存储介质
CN114880449A (zh) 智能问答的答复生成方法、装置、电子设备及存储介质
CN113658002B (zh) 基于决策树的交易结果生成方法、装置、电子设备及介质
CN117875320A (zh) 基于人工智能的数据处理方法、装置、设备及存储介质
CN113342940A (zh) 文本匹配分析方法、装置、电子设备及存储介质
CN113434542A (zh) 数据关系识别方法、装置、电子设备及存储介质
CN112801222A (zh) 基于二分类模型的多分类方法、装置、电子设备及介质
CN112269875A (zh) 文本分类方法、装置、电子设备及存储介质
CN111861757A (zh) 一种融资匹配方法、系统、设备和存储介质
CN111401691A (zh) 业务进度监控方法、装置及计算机可读存储介质
CN113256407B (zh) 风险预测方法、装置、电子设备及存储介质
CN114896164A (zh) 接口优化方法、装置、电子设备及存储介质
CN113935328A (zh) 文本摘要生成方法、装置、电子设备及存储介质
CN113486646A (zh) 产品报告发布方法、装置、电子设备及可读存储介质
CN116991364B (zh) 基于大数据的软件开发系统管理方法
CN110659501A (zh) 漏洞处理跟踪方法、装置、计算机系统及可读存储介质
CN117391865A (zh) 标签生成方法、装置、计算机设备及存储介质
CN113312409A (zh) 任务监控方法、装置、电子设备及计算机可读存储介质
CN113435843A (zh) 批复文件生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination