CN115455922A - 表单校验方法、装置、电子设备和存储介质 - Google Patents
表单校验方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115455922A CN115455922A CN202211130328.6A CN202211130328A CN115455922A CN 115455922 A CN115455922 A CN 115455922A CN 202211130328 A CN202211130328 A CN 202211130328A CN 115455922 A CN115455922 A CN 115455922A
- Authority
- CN
- China
- Prior art keywords
- verification
- unit
- data
- semantic
- unit data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012795 verification Methods 0.000 title claims abstract description 167
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013136 deep learning model Methods 0.000 claims abstract description 33
- 238000002372 labelling Methods 0.000 claims abstract description 6
- 230000014509 gene expression Effects 0.000 claims description 43
- 239000013598 vector Substances 0.000 claims description 33
- 238000013507 mapping Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000013524 data verification Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010380 label transfer Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及数据校验技术领域,提供一种表单校验方法、装置、电子设备和存储介质。表单校验方法包括:获取待校验表单的各单元数据,每单元数据包括表单项标签和填写内容;根据每单元数据的表单项标签确定每单元数据的校验类型,校验类型包括语义校验类型;对属于语义校验类型的单元数据,基于与对应单元数据的表单项标签相匹配的深度学习模型对每单元数据进行语义校验;以及,获得待校验表单的校验结果。本发明的表单校验方案,能够实现从语义层面校验填写内容的准确性,实现基于文本语义理解的智能校验。
Description
技术领域
本发明涉及数据校验技术领域,具体地说,涉及一种表单校验方法、装置、电子设备和存储介质。
背景技术
在数据校验领域中,经常需要进行表单校验。表单校验对应的场景是:用户在自助填表的过程中,由于不同表单项对填写的内容有相应的要求,因此可能存在内容填写不准确、答非所问等问题,需要后台系统对填写的内容进行校验处理,返回填写错误的部分,辅助用户改正。
目前的表单校验方式,基本停留于普通的规则校验,仅能实现对数据的长度、格式、字符类型等进行校验,无法校验更深层的语义信息,深层语义校验仍需人工完成,费时费力。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种表单校验方法、装置、电子设备和存储介质,使用基于深度学习技术的文本语义理解进行表单校验,能够从语义层面校验填写内容的准确性,实现基于文本语义理解的智能校验。
根据本发明的一个方面,提供一种表单校验方法,包括:获取待校验表单的各单元数据,每单元数据包括表单项标签和填写内容;根据每单元数据的表单项标签确定每单元数据的校验类型,所述校验类型包括语义校验类型;对属于所述语义校验类型的单元数据,基于与对应单元数据的表单项标签相匹配的深度学习模型对每单元数据进行语义校验;以及,获得所述待校验表单的校验结果。
在一些实施例中,所述深度学习模型包括命名实体识别模型;基于所述命名实体识别模型对对应的单元数据进行语义校验,包括:根据一单元数据的表单项标签,对所述单元数据的填写内容进行语义扩展,获得所述单元数据的扩展语义表达;对所述扩展语义表达进行命名实体识别,获得所述单元数据的命名实体识别结果;当所述命名实体识别结果所指示的实体类别与所述单元数据的表单项标签相匹配,获得所述单元数据的校验通过的语义校验结果。
在一些实施例中,所述对所述单元数据的填写内容进行语义扩展,包括:获得所述单元数据的表单项标签所绑定的语义扩展句型;在所述语义扩展句型的预设位置填入所述单元数据的填写内容。
在一些实施例中,所述命名实体识别模型包括依次相连的嵌入模块、编码器模块和条件随机场模块;所述对所述扩展语义表达进行命名实体识别,包括:所述嵌入模块对所述扩展语义表达进行嵌入处理,输出向量矩阵;所述编码器模块对所述向量矩阵进行特征提取,输出特征向量;所述条件随机场模块对所述特征向量进行序列预测,输出所述扩展语义表达属于各实体类别的概率分布。
在一些实施例中,所述深度学习模型包括双塔模型;基于所述双塔模型对对应的单元数据进行语义校验,包括:将一单元数据的表单项标签和填写内容分别输入所述双塔模型的两个分支,以通过所述双塔模型预测所述单元数据的填写内容与表单项标签的语义一致性。
在一些实施例中,所述双塔模型的每个分支包括相连的嵌入层和编码器层,所述双塔模型还包括连接两个所述分支的全连接层;所述通过所述双塔模型预测所述单元数据的填写内容与表单项标签的语义一致性,包括:分别通过两个所述分支的嵌入层和编码器层,对所述单元数据的表单项标签和填写内容进行嵌入处理和特征提取,获得表征所述表单项标签的第一向量表达和表征所述填写内容的第二向量表达;通过所述全连接层对所述第一向量表达和所述第二向量表达进行一致性预测。
在一些实施例中,所述基于与对应单元数据的表单项标签相匹配的深度学习模型对每单元数据进行语义校验,包括:根据表单项标签与深度学习模型之间的第一映射关系,确定每单元数据的表单项标签所对应的深度学习模型;其中,所述第一映射关系中,每个表单项标签对应一种深度学习模型,所述深度学习模型包括命名实体识别模型和双塔模型。
在一些实施例中,所述根据每单元数据的表单项标签确定每单元数据的校验类型,包括:根据表单项标签与校验类型之间的第二映射关系,确定每单元数据的表单项标签所对应的校验类型;其中,所述第二映射关系中,每个表单项标签对应一种校验类型。
在一些实施例中,所述校验类型还包括规则校验类型;所述表单校验方法还包括:对属于所述规则校验类型的单元数据,基于预设的校验规则对每单元数据进行规则校验。
在一些实施例中,所述基于预设的校验规则对每单元数据进行规则校验,包括:根据表单项标签与校验规则之间的第三映射关系,确定每单元数据的表单项标签所对应的校验规则;其中,所述第三映射关系中,每个表单项标签对应一种校验规则,所述校验规则包括书写格式校验规则和业务格式校验规则。
在一些实施例中,所述获得所述待校验表单的校验结果,包括:保存校验通过的单元数据;退回校验未通过的单元数据。
根据本发明的又一个方面,提供一种表单校验装置,包括:单元数据获取模块,用于获取待校验表单的各单元数据,每单元数据包括表单项标签和填写内容;校验类型确定模块,用于根据每单元数据的表单项标签确定每单元数据的校验类型,所述校验类型包括语义校验类型;语义校验模块,用于对属于所述语义校验类型的单元数据,基于与对应单元数据的表单项标签相匹配的深度学习模型对每单元数据进行语义校验;以及,校验结果获取模块,用于获得所述待校验表单的校验结果。
根据本发明的又一个方面,提供一种电子设备,包括:处理器;存储器,所述存储器中存储有可执行指令;其中,所述可执行指令被所述处理器执行时,实现如上述任意实施例所述的表单校验方法。
根据本发明的又一个方面,提供一种计算机可读的存储介质,用于存储程序,所述程序被处理器执行时实现如上述任意实施例所述的表单校验方法。
本发明与现有技术相比的有益效果至少包括:
本发明的表单校验方案,能够根据每单元数据的表单项标签确定对应的校验类型,以便对每单元数据进行合适校验;对属于语义校验类型的单元数据,基于匹配的深度学习模型校验深层语义问题;从而,采用本发明的表单校验方案,能够基于文本语义理解进行表单校验,实现从语义层面校验填写内容的准确性,减轻相关人员的工作量,实现基于文本语义理解的智能校验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明实施例中表单校验方法的步骤示意图;
图2示出本发明实施例中命名实体识别模型的结构示意图;
图3示出本发明实施例中双塔模型的结构示意图;
图4示出本发明实施例中表单校验方法的流程示意图;
图5示出本发明实施例中表单校验装置的模块示意图;
图6示出本发明实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使本发明全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
此外,附图中所示的流程仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤可以分解,有的步骤可以合并或部分合并,且实际执行的顺序有可能根据实际情况改变。具体描述时使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。需要说明的是,在不冲突的情况下,本发明的实施例及不同实施例中的特征可以相互组合。
图1示出实施例中表单校验方法的主要步骤;参照图1所示,本实施例提供的表单校验方法,包括:
步骤S110,获取待校验表单的各单元数据,每单元数据包括表单项标签和填写内容。
以表单项为单位对待校验表单的数据内容进行划分,能够便于后续对每个表单项对应的数据内容进行校验,确定每个表单项是否填写准确。
步骤S120,根据每单元数据的表单项标签确定每单元数据的校验类型,校验类型包括语义校验类型。
表单项标签与校验类型之间具有预设的映射关系,该映射关系中每个表单项标签对应一种校验类型;从而,根据该映射关系,能够确定每单元数据的表单项标签所对应的校验类型。
在表单项标签与校验类型的映射关系中,举例来说,姓名、地址、事件过程描述等表单项标签,对应的校验类型为语义校验类型,需通过基于深度学习技术的文本语义理解来校验是否填写准确。
步骤S130,对属于语义校验类型的单元数据,基于与对应单元数据的表单项标签相匹配的深度学习模型对每单元数据进行语义校验。
语义校验能够实现语义一致性检测,即判别对应的表单项标签与填写内容是否语义一致。通过对表单项标签与填写内容的联合判断,避免“所答非所问”的情况发生。例如:当前表单项标签为“姓名”,而填写内容为“棋牌室”,系统可以自动检测出被询问人回答的内容不符合提问内容,提示进行修正。
步骤S140,获得待校验表单的校验结果。
各单元数据经规则校验/语义校验后,保存校验通过的单元数据,退回校验未通过的单元数据。
上述的表单校验方法,能够根据每单元数据的表单项标签确定对应的校验类型,以便对每单元数据进行合适校验;对属于语义校验类型的单元数据,基于匹配的深度学习模型校验深层语义问题;从而,采用上述的表单校验方法,能够基于文本语义理解进行表单校验,实现从语义层面校验填写内容的准确性,减轻相关人员的工作量,实现基于文本语义理解的智能校验,实现在表单正式提交之前找到错误,保证表单内容的规范性,避免不合格表单的出现。
在一个实施例中,校验类型还包括规则校验类型;表单校验方法还包括:对属于规则校验类型的单元数据,基于预设的校验规则对每单元数据进行规则校验。
在表单项标签与校验类型的映射关系中,举例来说,年龄、身份证号、联系电话、日期等表单项标签,对应的校验类型为规则校验类型,通过普通的规则匹配即可校验其是否填写准确。
表单项标签与校验规则之间具有预设的映射关系,该映射关系中每个表单项标签对应一种校验规则;从而,根据该映射关系,能够确定每单元数据的表单项标签所对应的校验规则,进而基于对应的校验规则对每单元数据进行规则校验,以检测每单元数据的填写内容的数据格式是否规范。
在一个实施例中,校验规则具体包括书写格式校验规则和业务格式校验规则。书写格式检测是指:在填写表单时,涉及如身份证号、联系电话等表单项标签时,填写的内容具有一定的书写规则(例如身份证号具有18位数、联系电话具有11位数);书写格式校验规则即基于文本规则匹配的方式设定。业务格式检测是指:不同的业务对应的表单项标签,对填写的内容存在一定的要求,例如宾馆的入住日期不能晚于退住日期等。针对业务上有特殊需求的表单项标签,通过业务格式校验规则进行相应的处理判别,能够保证输入的规范性。
此外,还可采用一些已有的规则校验方式,对数据的长度、格式、字符类型等表单项进行校验。
从而,通过对属于规则校验类型的单元数据,基于预设的校验规则校验数据规范问题,能够解决表单校验的数据规范问题,确保相关表单内容的规范性。
在一个实施例中,深度学习模型包括命名实体识别模型;基于命名实体识别模型对对应的单元数据进行语义校验,包括:根据一单元数据的表单项标签,对单元数据的填写内容进行语义扩展,获得单元数据的扩展语义表达;对扩展语义表达进行命名实体识别,获得单元数据的命名实体识别结果;当命名实体识别结果所指示的实体类别与单元数据的表单项标签相匹配,获得单元数据的校验通过的语义校验结果。
其中,对单元数据的填写内容进行语义扩展,具体包括:获得单元数据的表单项标签所绑定的语义扩展句型;在语义扩展句型的预设位置填入单元数据的填写内容。
使用命名实体识别(Named Entity Recognition,简称NER)模型,能够进行姓名、地址等的填写规范性检测。但是由于标准化的业务表单中填写的内容是直接答案,没有任何的上下文附加信息,模型识别存在一定的困难;因此本实施例中命名实体识别模型会基于表单项标签对填写内容进行自动扩充,将其扩充为语义表达完整的句子。每个表单项标签可以预设语义扩展句型,将该表单项标签对应的填写内容填入其语义扩展句型中即可。
例如:一个表单项标签为“姓名”,其对应的填写内容输入框的默认文本是“[填写姓名内容]”,该表单项标签的语义扩展句型为“我叫[填写姓名内容]”;则,当用户在填写内容输入框中输入的填写内容为“张三”,在进行表单校验时,该单元数据的扩展语义表达即为“我叫张三”。再如:一个表单项标签为“住址”,其对应的填写内容输入框的默认文本是“[填写地址内容]”,该表单项标签的语义扩展句型为“我家住在[填写地址内容]”;则,当用户在填写内容输入框中输入的填写内容为“xx街道xxx弄”,在进行表单校验时,该单元数据的扩展语义表达即为“我家住在xx街道xxx弄”。
将填写内容先进行扩展再识别,能够准确检测出对应的实体类别。
此外,命名实体识别模型包括依次相连的嵌入模块、编码器模块和条件随机场模块;对扩展语义表达进行命名实体识别,具体包括:嵌入模块对扩展语义表达进行嵌入处理,输出向量矩阵;编码器模块对向量矩阵进行特征提取,输出特征向量;条件随机场模块对特征向量进行序列预测,输出扩展语义表达属于各实体类别的概率分布。
图2示出实施例中命名实体识别模型的结构;参照图2所示,采用命名实体识别模型进行命名实体识别的过程包括:
通过嵌入模块210对扩展语义表达200进行嵌入(Embedding)处理,具体是词嵌入(word embedding)处理,将扩展语义表达200以字为单位转换成词嵌入表达,实现将计算机难以理解的文字转换为一维连续向量;再将整句扩展语义表达200的词嵌入表达组合成多维向量矩阵,输入到编码器模块220中。
编码器模块220具体选用基于注意力机制的神经网络(Attention Based NeuralNetwork);相比于传统的CNN(卷积神经网络)、RNN(循环神经网络)模型,注意力机制的核心要点在于直观地解释各个字词对当前任务的重要性、贡献度,同时不受窗口数量的局限,不存在序列长度过限梯度消失的风险。通过编码器模块220对向量矩阵进行特征提取,获得特征向量输入条件随机场模块230。
由于命名实体识别在基于模型训练的方法中,被当做序列标注问题进行处理,而序列标注任务里非常特别的一点是当前输出不仅与输入层的特征相关,还会受到之前的输出结果影响。因此本实施例中,在神经网络后、结果输出前加入一层条件随机场(Conditional Random Field,简称CRF),其目标函数不仅会考虑输入的状态特征函数,还会考虑标签转移特征函数,能够准确获得扩展语义表达200a属于各实体类别的概率分布。
在实际处理过程中,使用训练后的命名实体识别模型对输入文本作序列预测。
在一个实施例中,深度学习模型还包括双塔模型;基于双塔模型对对应的单元数据进行语义校验,包括:将一单元数据的表单项标签和填写内容分别输入双塔模型的两个分支,以通过双塔模型预测单元数据的填写内容与表单项标签的语义一致性。
其中,双塔模型的每个分支包括相连的嵌入层和编码器层,双塔模型还包括连接两个分支的全连接层;通过双塔模型预测单元数据的填写内容与表单项标签的语义一致性,具体包括:分别通过两个分支的嵌入层和编码器层,对单元数据的表单项标签和填写内容进行嵌入处理和特征提取,获得表征表单项标签的第一向量表达和表征填写内容的第二向量表达;通过全连接层对第一向量表达和第二向量表达进行一致性预测。
图3示出实施例中双塔模型的结构;参照图3所示,对于表单项标签和填写内容比较复杂的情况,可以采用双塔模型进行检测,过程包括:
采用双输入的方式,将一组表单项标签和填写内容分别输入双塔模型的第一分支310和第二分支320。
第一分支310的嵌入层(Embedding Layer)310a和编码器层(Encoder)310b分别对表单项标签进行词嵌入表达和特征提取,获得表征表单项标签的第一向量表达;同步地,第二分支320的嵌入层(Embedding Layer)320a和编码器层(Encoder)320b分别对填写内容进行词嵌入表达和特征提取,获得表征填写内容的第二向量表达。
全连接层(Dense layer)将表征表单项标签和填写内容的两个向量表达,即第一向量表达和第二向量表达连接合并,进行结果预测,预测结果为1表示二者语义一致,0表示不一致。
进一步地,在上述各实施例中,基于与对应单元数据的表单项标签相匹配的深度学习模型对每单元数据进行语义校验,包括:根据表单项标签与深度学习模型之间的第一映射关系,确定每单元数据的表单项标签所对应的深度学习模型,进而根据对应的深度学习模型对对应单元数据进行语义校验;其中,第一映射关系中,每个表单项标签对应一种深度学习模型,深度学习模型包括命名实体识别模型和双塔模型。
第一映射关系中也可以只存储对应命名实体识别模型的表单项标签;从而,在判定一单元数据采用何种深度学习模型进行语义校验时,若该单元数据的表单项标签命中第一映射关系中的一表单项标签,则该单元数据采用命名实体识别模型进行语义校验;否则,该单元数据采用双塔模型进行语义校验。
通过上述的表单校验方法,能够基于文本语义理解,使校验不再停留于字符格式、长度等表层信息,可以更加深入地校验语义层面的信息;语义校验时,引入命名实体识别模型和双塔模型,针对姓名、地址等命名实体可识别的信息,将填写内容先进行扩展再识别,而针对填写内容较复杂的情况,使用双塔模型进行训练推理,二者结合使用,以更好地实现深层语义校验功能。
本发明的表单校验方法,能够应用于运营商营业厅、公安笔录、银行等存在自助填表需求的场景,能够对表单信息进行更充分校验,防止用户胡乱填写,有效降低相关工作人员的指导或检查工作量。
图4示出实施例中表单校验方法的实施流程;参照图4所示,在一个具体场景(例如公安笔录表单的校验场景)中,表单校验过程包括:
S410,获取待校验表单的各单元数据,即公安笔录表单的各单元数据。
S420,确定每单元数据的表单项标签。表单项标签可以自待校验表单的各表单项标题中提取,本实施例中,例如提取出“姓名”、“身份证号”、“年龄”、“住址”、“工作单位”、“事发经过”等表单项标签。
S430,根据表单项标签确定各单元数据是否属于规则校验类型。本实施例中,“身份证号”、“年龄”等固定格式的表单项标签属于规则校验类型;剩余的“姓名”、“住址”、“工作单位”、“事发经过”等表单项标签即属于语义校验类型,需要进行深层语义校验。
S440,对属于规则校验类型的单元数据,查找单元数据对应的校验规则表达式,进行规则校验。规则校验具体检验字符格式、长度等问题。
S450,对属于语义校验类型的单元数据,调用单元数据对应的深度学习模型,使用命名实体识别模型450a或双塔模型450b进行校验。本实施例中,“姓名”、“住址”、“工作单位”等表单项标签所在的单元数据使用命名实体识别模型450a进行校验,填写内容较为复杂的“事发经过”表单项标签所在的单元数据,则使用双塔模型450b进行校验。
S460,判断对应单元数据是否符合校验规则/语义模型。
S470,若符合,将通过校验的单元数据保存下来。
S480,返回未通过校验的单元数据,以提示相关人员协助用户继续修改填写。
从而,上述的表单校验方法,能够根据每单元数据的表单项标签确定对应的校验类型;对属于规则校验类型的单元数据,基于预设的校验规则校验数据规范问题;对属于语义校验类型的单元数据,基于命名实体识别模型/双塔模型校验深层语义问题;实现使表单校验不仅解决数据规范问题,还从语义层面校验填写内容的准确性,实现基于文本语义理解的智能校验。
本发明实施例还提供一种表单校验装置,可用于实现上述任意实施例描述的表单校验方法。上述任意实施例描述的表单校验方法的特征和原理均可应用至下面的表单校验装置实施例。在下面的表单校验装置实施例中,对已经阐明的关于表单校验的特征和原理不再重复说明。
图5示出实施例中表单校验装置的主要模块;参照图5所示,本实施例提供的表单校验装置500,包括:单元数据获取模块510,用于获取待校验表单的各单元数据,每单元数据包括表单项标签和填写内容;校验类型确定模块520,用于根据每单元数据的表单项标签确定每单元数据的校验类型,校验类型包括语义校验类型;语义校验模块530,用于对属于语义校验类型的单元数据,基于与对应单元数据的表单项标签相匹配的深度学习模型对每单元数据进行语义校验;以及,校验结果获取模块540,用于获得待校验表单的校验结果。
进一步地,表单校验装置500还可包括实现上述各表单校验方法实施例的其他流程步骤的模块,各个模块的具体原理可参照上述各表单校验方法实施例的描述,此处不再重复说明。
本发明的表单校验装置,能够根据每单元数据的表单项标签确定对应的校验类型;对属于语义校验类型的单元数据,基于命名实体识别模型/双塔模型校验深层语义问题,实现从语义层面校验填写内容的准确性,实现基于文本语义理解的智能校验。此外,本发明的表单校验装置,还能对属于规则校验类型的单元数据,基于预设的校验规则校验数据规范问题,确保相关表单内容的数据规范性。
本发明实施例还提供一种电子设备,包括处理器和存储器,存储器中存储有可执行指令,可执行指令被处理器执行时,实现上述任意实施例描述的表单校验方法。
本发明的电子设备,能够根据每单元数据的表单项标签确定对应的校验类型;对属于语义校验类型的单元数据,基于命名实体识别模型/双塔模型校验深层语义问题,实现从语义层面校验填写内容的准确性,实现基于文本语义理解的智能校验。此外,本发明的电子设备,还能对属于规则校验类型的单元数据,基于预设的校验规则校验数据规范问题,确保相关表单内容的数据规范性。
图6是本发明实施例中电子设备的结构示意图,应当理解的是,图6仅仅是示意性地示出各个模块,这些模块可以是虚拟的软件模块或实际的硬件模块,这些模块的合并、拆分及其余模块的增加都在本发明的保护范围之内。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
存储单元620存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行上述任意实施例描述的表单校验方法的步骤。例如,处理单元610可以执行如图1和图4所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一个或多个程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备通信,外部设备可以是键盘、指向设备、蓝牙设备等设备中的一种或多种。这些外部设备使得用户能与该电子设备600进行交互通信。电子设备600也能与一个或多个其它计算设备进行通信,所示计算机设备包括路由器、调制解调器。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读的存储介质,用于存储程序,程序被执行时实现上述任意实施例描述的表单校验方法。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行上述任意实施例描述的表单校验方法。
本发明的存储介质被处理器执行时,能够根据每单元数据的表单项标签确定对应的校验类型;对属于语义校验类型的单元数据,基于命名实体识别模型/双塔模型校验深层语义问题,实现从语义层面校验填写内容的准确性,实现基于文本语义理解的智能校验。此外,本发明的存储介质被处理器执行时,还能对属于规则校验类型的单元数据,基于预设的校验规则校验数据规范问题,确保相关表单内容的数据规范性。
存储介质可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的存储介质不限于此,其可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子包括但不限于:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读信号介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备,例如利用因特网服务提供商来通过因特网连接。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (14)
1.一种表单校验方法,其特征在于,包括:
获取待校验表单的各单元数据,每单元数据包括表单项标签和填写内容;
根据每单元数据的表单项标签确定每单元数据的校验类型,所述校验类型包括语义校验类型;
对属于所述语义校验类型的单元数据,基于与对应单元数据的表单项标签相匹配的深度学习模型对每单元数据进行语义校验;以及
获得所述待校验表单的校验结果。
2.如权利要求1所述的表单校验方法,其特征在于,所述深度学习模型包括命名实体识别模型;
基于所述命名实体识别模型对对应的单元数据进行语义校验,包括:
根据一单元数据的表单项标签,对所述单元数据的填写内容进行语义扩展,获得所述单元数据的扩展语义表达;
对所述扩展语义表达进行命名实体识别,获得所述单元数据的命名实体识别结果;
当所述命名实体识别结果所指示的实体类别与所述单元数据的表单项标签相匹配,获得所述单元数据的校验通过的语义校验结果。
3.如权利要求2所述的表单校验方法,其特征在于,所述对所述单元数据的填写内容进行语义扩展,包括:
获得所述单元数据的表单项标签所绑定的语义扩展句型;
在所述语义扩展句型的预设位置填入所述单元数据的填写内容。
4.如权利要求2所述的表单校验方法,其特征在于,所述命名实体识别模型包括依次相连的嵌入模块、编码器模块和条件随机场模块;
所述对所述扩展语义表达进行命名实体识别,包括:
所述嵌入模块对所述扩展语义表达进行嵌入处理,输出向量矩阵;
所述编码器模块对所述向量矩阵进行特征提取,输出特征向量;
所述条件随机场模块对所述特征向量进行序列预测,输出所述扩展语义表达属于各实体类别的概率分布。
5.如权利要求1所述的表单校验方法,其特征在于,所述深度学习模型包括双塔模型;
基于所述双塔模型对对应的单元数据进行语义校验,包括:
将一单元数据的表单项标签和填写内容分别输入所述双塔模型的两个分支,以通过所述双塔模型预测所述单元数据的填写内容与表单项标签的语义一致性。
6.如权利要求5所述的表单校验方法,其特征在于,所述双塔模型的每个分支包括相连的嵌入层和编码器层,所述双塔模型还包括连接两个所述分支的全连接层;
所述通过所述双塔模型预测所述单元数据的填写内容与表单项标签的语义一致性,包括:
分别通过两个所述分支的嵌入层和编码器层,对所述单元数据的表单项标签和填写内容进行嵌入处理和特征提取,获得表征所述表单项标签的第一向量表达和表征所述填写内容的第二向量表达;
通过所述全连接层对所述第一向量表达和所述第二向量表达进行一致性预测。
7.如权利要求1-6任一项所述的表单校验方法,其特征在于,所述基于与对应单元数据的表单项标签相匹配的深度学习模型对每单元数据进行语义校验,包括:
根据表单项标签与深度学习模型之间的第一映射关系,确定每单元数据的表单项标签所对应的深度学习模型;
其中,所述第一映射关系中,每个表单项标签对应一种深度学习模型,所述深度学习模型包括命名实体识别模型和双塔模型。
8.如权利要求1所述的表单校验方法,其特征在于,所述根据每单元数据的表单项标签确定每单元数据的校验类型,包括:
根据表单项标签与校验类型之间的第二映射关系,确定每单元数据的表单项标签所对应的校验类型;
其中,所述第二映射关系中,每个表单项标签对应一种校验类型。
9.如权利要求1所述的表单校验方法,其特征在于,所述校验类型还包括规则校验类型;
所述表单校验方法还包括:
对属于所述规则校验类型的单元数据,基于预设的校验规则对每单元数据进行规则校验。
10.如权利要求9所述的表单校验方法,其特征在于,所述基于预设的校验规则对每单元数据进行规则校验,包括:
根据表单项标签与校验规则之间的第三映射关系,确定每单元数据的表单项标签所对应的校验规则;
其中,所述第三映射关系中,每个表单项标签对应一种校验规则,所述校验规则包括书写格式校验规则和业务格式校验规则。
11.如权利要求1所述的表单校验方法,其特征在于,所述获得所述待校验表单的校验结果,包括:
保存校验通过的单元数据;
退回校验未通过的单元数据。
12.一种表单校验装置,其特征在于,包括:
单元数据获取模块,用于获取待校验表单的各单元数据,每单元数据包括表单项标签和填写内容;
校验类型确定模块,用于根据每单元数据的表单项标签确定每单元数据的校验类型,所述校验类型包括语义校验类型;
语义校验模块,用于对属于所述语义校验类型的单元数据,基于与对应单元数据的表单项标签相匹配的深度学习模型对每单元数据进行语义校验;以及
校验结果获取模块,用于获得所述待校验表单的校验结果。
13.一种电子设备,其特征在于,包括:
处理器;
存储器,所述存储器中存储有可执行指令;
其中,所述可执行指令被所述处理器执行时,实现如权利要求1-11任一项所述的表单校验方法。
14.一种计算机可读的存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如权利要求1-11任一项所述的表单校验方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211130328.6A CN115455922B (zh) | 2022-09-16 | 2022-09-16 | 表单校验方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211130328.6A CN115455922B (zh) | 2022-09-16 | 2022-09-16 | 表单校验方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115455922A true CN115455922A (zh) | 2022-12-09 |
CN115455922B CN115455922B (zh) | 2024-02-02 |
Family
ID=84305128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211130328.6A Active CN115455922B (zh) | 2022-09-16 | 2022-09-16 | 表单校验方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455922B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117057325A (zh) * | 2023-10-13 | 2023-11-14 | 湖北华中电力科技开发有限责任公司 | 一种应用于电网领域表单填写方法、系统和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9424520B1 (en) * | 2015-11-17 | 2016-08-23 | International Business Machines Corporation | Semantic database driven form validation |
CN110348975A (zh) * | 2019-05-24 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 报关单信息校验方法及装置、电子设备和存储介质 |
CN110427949A (zh) * | 2019-07-31 | 2019-11-08 | 中国工商银行股份有限公司 | 表单校验的方法、装置、计算设备和介质 |
US20200151252A1 (en) * | 2018-11-09 | 2020-05-14 | International Business Machines Corporation | Error correction for tables in document conversion |
CN112926296A (zh) * | 2021-03-30 | 2021-06-08 | 平安科技(深圳)有限公司 | 数据校验方法、装置、电子设备及存储介质 |
CN114120347A (zh) * | 2021-11-25 | 2022-03-01 | 深圳市北科瑞声科技股份有限公司 | 表单校验方法、装置、电子设备及存储介质 |
CN114266259A (zh) * | 2021-12-30 | 2022-04-01 | 中国民航信息网络股份有限公司 | 一种报文处理方法、系统、电子设备及存储介质 |
-
2022
- 2022-09-16 CN CN202211130328.6A patent/CN115455922B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9424520B1 (en) * | 2015-11-17 | 2016-08-23 | International Business Machines Corporation | Semantic database driven form validation |
US20200151252A1 (en) * | 2018-11-09 | 2020-05-14 | International Business Machines Corporation | Error correction for tables in document conversion |
CN110348975A (zh) * | 2019-05-24 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 报关单信息校验方法及装置、电子设备和存储介质 |
CN110427949A (zh) * | 2019-07-31 | 2019-11-08 | 中国工商银行股份有限公司 | 表单校验的方法、装置、计算设备和介质 |
CN112926296A (zh) * | 2021-03-30 | 2021-06-08 | 平安科技(深圳)有限公司 | 数据校验方法、装置、电子设备及存储介质 |
CN114120347A (zh) * | 2021-11-25 | 2022-03-01 | 深圳市北科瑞声科技股份有限公司 | 表单校验方法、装置、电子设备及存储介质 |
CN114266259A (zh) * | 2021-12-30 | 2022-04-01 | 中国民航信息网络股份有限公司 | 一种报文处理方法、系统、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117057325A (zh) * | 2023-10-13 | 2023-11-14 | 湖北华中电力科技开发有限责任公司 | 一种应用于电网领域表单填写方法、系统和电子设备 |
CN117057325B (zh) * | 2023-10-13 | 2024-01-05 | 湖北华中电力科技开发有限责任公司 | 一种应用于电网领域表单填写方法、系统和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115455922B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN114461777B (zh) | 智能问答方法、装置、设备及存储介质 | |
CN112287680B (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN113094625B (zh) | 页面元素定位方法、装置、电子设备及存储介质 | |
CN112906361A (zh) | 文本数据的标注方法和装置、电子设备和存储介质 | |
CN112949758A (zh) | 应答模型的训练方法、应答方法、装置、设备及存储介质 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN115455922B (zh) | 表单校验方法、装置、电子设备和存储介质 | |
CN115525750A (zh) | 机器人话术检测可视化方法、装置、电子设备及存储介质 | |
CN115544560A (zh) | 一种敏感信息的脱敏方法、装置、计算机设备及存储介质 | |
CN113779202B (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
CN115510188A (zh) | 文本关键词关联方法、装置、设备及存储介质 | |
CN117787226A (zh) | 标签生成模型训练方法、装置、电子设备及存储介质 | |
CN115574867A (zh) | 互感器故障检测方法、装置、电子设备及存储介质 | |
CN114676705B (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
CN112597748B (zh) | 语料生成方法、装置、设备及计算机可读存储介质 | |
CN113268588A (zh) | 文本摘要提取方法、装置、设备、存储介质及程序产品 | |
CN109660621A (zh) | 一种内容推送方法及服务设备 | |
CN112395880A (zh) | 结构化三元组的纠错方法、装置、计算机设备及存储介质 | |
CN114757186B (zh) | 用户意图分析方法和装置、计算机存储介质、电子设备 | |
CN116701604A (zh) | 问答语料库的构建方法和装置、问答方法、设备及介质 | |
CN111611779A (zh) | 辅助文本标注方法、装置、设备及其存储介质 | |
CN111339760A (zh) | 词法分析模型的训练方法、装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |