CN110895533B - 一种表单映射方法、装置、计算机设备和存储介质 - Google Patents
一种表单映射方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110895533B CN110895533B CN201911205656.6A CN201911205656A CN110895533B CN 110895533 B CN110895533 B CN 110895533B CN 201911205656 A CN201911205656 A CN 201911205656A CN 110895533 B CN110895533 B CN 110895533B
- Authority
- CN
- China
- Prior art keywords
- original
- standard
- template
- field
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种表单映射方法、装置、计算机设备和存储介质,该方法包括:获取原始表单并提取原始表单中包括的全部原始字段名称;分别对各原始字段名称进行分词处理得到原始字段分词集和原始字段词向量集;将原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,并获取满足匹配条件的标准表单模板作为与原始表单对应的表单映射模板。本发明实施例解决了人为筛选表单模板导致的效率低下和判断结果不稳定的问题,实现了在多个标准表单模板中自动映射得到与原始表单对应的表单映射模板,保证了表单映射的准确性和有效性,节省了人为查询表单模板的工作时间,提高了业务的处理能力。
Description
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种表单映射方法、装置、计算机设备和存储介质。
背景技术
近年来,在“大数据时代”的背景下,随着数据在不同场景、不同应用下的累积,其“多源异构”特征愈发明显,这为数据的整合带来了困难,倘若这些源头众多、结构各异的数据直接存储于结构化数据库中的不同结构的表单中,在需要对相似结构的表单进行查询时,难度很大,且耗时长。
现有技术中,可以预先制定多个标准格式的表单模板,当需要对某一待存储表单进行存储时,从表单模板中人为选取出该待存储表单的表单结构最接近的一个表单模板,并按照该待存储表单中的数据存储于对应的表单模板中之后,得到标准格式的表单进行存储。
发明人在实现本发明的过程中,发现现有技术存在如下缺陷:通过人为主观判断的方式,获取出与待存储表单的表单结构最接近的表单模板,效率低下,很难快速得出结果,在大数据背景下无法兼顾全部表内容;其次,人为判断缺乏标准,判断过程过于主观导致判断结果不稳定。
发明内容
本发明实施例提供了一种表单映射方法、装置、计算机设备和存储介质,实现了原始表单自动映射,保证了表单映射的准确性和有效性,节省了人为查询表单模板的工作时间,提高了业务的处理能力。
第一方面,本发明实施例提供了一种表单映射方法,所述方法包括:
获取原始表单,并提取所述原始表单中包括的全部原始字段名称;
分别对各所述原始字段名称进行分词处理,得到原始字段分词集,并计算所述原始字段分词集合中各原始字段分词的词向量,构成原始字段词向量集;
将所述原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,并获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板。
可选的,将所述原始字段词向量集与标准表单模板的标准字段词向量集进行匹配,包括:
获取与当前处理的标准表单模板对应的目标标准字段词向量集;
获取所述原始字段词向量集的原始字段词向量,并将所述原始字段词向量与所述目标标准字段词向量集中包括的各标准字段词向量分别进行向量计算,得到多个向量值;
获取所述多个向量值中的最大值,作为所述当前处理的标准表单模板与所述原始字段词向量之间的向量相似度;
将计算得到的各所述向量相似度的累加和,作为所述原始字段词向量集与所述当前处理的标准表单模板对应的表单相似度。
可选的,获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板,包括:
在所述原始字段词向量集与各所述标准表单模板之间的表单相似度中,获取表单相似度最大的标准表单模板,作为与所述原始表单对应的表单映射模板。
可选的,在获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板之后,还包括:
将所述原始表单中包括的各项数据分别填充于所述表单映射模板中,得到与所述原始表单对应的标准化表单,并将所述标准化表单存储于设定数据库中。
可选的,在获取原始表单,并提取所述原始表单中包括的全部字段名称之前,还包括:
获取一个标准表单模板作为当前处理模板,并提取所述当前处理模板中包括的全部标准字段名称;
分别对各所述标准字段名称进行分词处理,得到标准字段分词集;
计算所述标准字段分词集合中各标准字段分词的词向量,构成与所述当前处理的标准表单模板对应的标准字段词向量集;
返回执行获取一个标准表单模板作为当前处理模板的操作,直至完成对全部标准表单模板的处理。
可选的,计算所述原始字段分词集合中各原始分词的词向量,包括:
获取所述原始字段分词集合中的一个原始分词;
在预设的语义向量库中,获取与所述原始分词对应的原始分词的词向量;
返回执行获取所述原始字段分词集合中的一个原始分词的操作,直至完成对所述原始字段分词集合中全部原始分词的处理;
其中,所述语义向量库中存储有分词,以及与分词对应的词向量。
第二方面,本发明实施例还提供了一种表单映射装置,该装置包括:
原始字段名称提取模块,用于获取原始表单,并提取所述原始表单中包括的全部原始字段名称;
原始字段词向量集确定模块,用于分别对各所述原始字段名称进行分词处理,得到原始字段分词集,并计算所述原始字段分词集合中各原始分词的词向量,构成原始字段词向量集;
表单映射模板确定模块,用于将所述原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,并获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板。
第三方面,本发明实施例还提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例提供的一种表单映射方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的一种表单映射方法。
本发明实施例通过将原始表单的原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,获取了满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板。本发明实施例解决了人为筛选表单模板导致的效率低下和判断结果不稳定的问题,实现了在多个标准表单模板中自动映射得到与原始表单对应的表单映射模板,保证了表单映射的准确性和有效性,节省了人为查询表单模板的工作时间,提高了业务的处理能力。
附图说明
图1是本发明实施例一中的一种表单映射方法的流程图;
图2是本发明实施例一中的一种表单映射方法的流程图;
图3是本发明实施例二中的一种表单映射方法的流程图;
图4是本发明实施例三中的一种表单映射装置的结构图;
图5是本发明实施例四中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种表单映射方法的流程图,本实施例可适用于海量数据的整合过程中,在获取到新的数据表单后,为该数据表单筛选与之匹配的标准表单作为表单映射模板的情形,该方法可以由表单映射装置来执行,该装置可以由软件和/或硬件来实现,并一般可以集成在具有数据识别与处理功能的终端或者服务器中,具体包括如下步骤:
步骤110、获取原始表单,并提取所述原始表单中包括的全部原始字段名称。
在本实施例中,原始表单可以为excle格式的原始文档,原始字段名称为原始文档中各数据项的数据项名称,比如excel文档中各行,或者各列的首个单元格中的字段名称,例如,事项名、登记时间以以及经办人等数据项名称,上述字段名称用于标识该行,或者该列数据的数据含义。
步骤120、分别对各所述原始字段名称进行分词处理,得到原始字段分词集,并计算所述原始字段分词集合中各原始字段分词的词向量,构成原始字段词向量集。
在此步骤中,本实施例利用分词技术对各所述原始字段名称进行分词处理,具体的,如图2所示,利用分词技术对原始文档中各数据项的数据项名称分成原始字段分词A、原始字段分词B以及原始字段分词C等,并且原始字段分词A、原始字段分词B和原始字段分词C等一起构成了原始字段分词集。其中,计算所述原始字段分词集合中各原始分词的词向量,包括:
S101、获取所述原始字段分词集合中的一个原始分词,如分词A;
S102、在预设的语义向量库中,获取与所述原始分词对应的原始分词的词向量;
在此步骤中,语义向量库为预先建立的用于存储预设词汇字段以及与预设词汇字段匹配的向量的向量查询库。本实施例以海量文本为训练依据,将使用频率较高的汉语词汇作为预设词汇字段,并且利用词向量技术确定与预设词汇字段对应的词向量,其中,所述预设词汇字段、词向量以及预设词汇字段与词向量之间的映射关系均存储于所述语义向量库中。其中,所述语义向量库中存储有原始分词,以及与原始分词对应的词向量。
在一个具体的实施例中,将获取的原始分词A在所述语义向量库中进行查询,确定与原始分词对应的预设词汇字段,然后通过预设词汇字段与词向量之间的映射关系确定与所述原始分词对应的原始分词的词向量a。
S103、返回执行获取所述原始字段分词集合中的一个原始分词的操作,直至完成对所述原始字段分词集合中全部原始分词的处理;
具体的,假设原始字段分词集包括原始字段分词A、原始字段分词B和原始字段分词C,在步骤S102中已经确定出分词A对应的词向量,在此步骤中以同样的方式确定剩余原始字段分词B和C的对应的词向量b和c。
步骤130、将所述原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,并获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板。
在此步骤中,标准表单模板为预先建立的用于对结构相似的原始表单进行数据整合的目标表单,所述标准表单模板的个数至少为二。本实施例以海量数据表为训练依据,将业务处理中出现频率较高的数据表作为标准表单模板,并且利用分词技术将所述标准表单模板的各数据项的数据项名称分为一个或多个标准字段,将获取的标准字段在所述语义向量库中进行查询,确定与标准字段对应的预设词汇字段,然后通过预设词汇字段与词向量之间的映射关系确定与标准字段对应的标准字段词向量。
其中,将所述原始字段词向量集与标准表单模板的标准字段词向量集进行匹配,并获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板的步骤如下:
S201、获取与当前处理的标准表单模板对应的目标标准字段词向量集;
具体的,如图2所示,本实施例以标准表单模板1和标准表单模板2为例,利用分词技术将标准表单模板1的各数据项的数据项名称分为标准字段11、标准字段12和标准字段13,对应的标准字段词向量为11、12和13;将标准表单模板2的各数据项的数据项名称分为标准字段21、标准字段22和标准字段23,对应的标准字段词向量为21、22和23;标准字段词向量为11、12和13一起构成了标准表单模板1的目标标准字段词向量集,标准字段词向量为21、22和23一起构成了标准表单模板2的目标标准字段词向量集。
S202、获取所述原始字段词向量集的原始字段词向量,并将所述原始字段词向量与所述目标标准字段词向量集中包括的各标准字段词向量分别进行向量计算,得到多个向量值;
在一个具体的实施例中,如图2所示,通过步骤120获取原始字段词向量集的原始字段分词A、B和C对应的原始字段词向量a、b和c,通过步骤S201确定出标准表单模板1的目标标准字段词向量集包括的标准字段词向量为11、12和13,标准表单模板2的目标标准字段词向量集包括的标准字段词向量为21、22和23。将所述原始字段词向量与所述目标标准字段词向量集中包括的各标准字段词向量分别进行相乘,得到标准表单模板1对应的向量值a11、b11、c11、a12、b12、c12、a13、b13和c13;类似的,标准表单模板2对应的向量值为a21、b21、c21、a22、b22、c22、a23、b23和c23。
S203、获取所述多个向量值中的最大值,作为所述当前处理的标准表单模板与所述原始字段词向量之间的向量相似度;
在一个具体的实施例中,如图2所示,在a11、b11、c11、a12、b12、c12、a13、b13和c13中获取每行向量值中的最大值,例如a11、c12和b13作为标准表单模板1与原始字段词向量之间的向量相似度;在a21、b21、c21、a22、b22、c22、a23、b23和c23中获取每行向量值中的最大值,例如b21、a22和c23作为标准表单模板2与原始字段词向量之间的向量相似度。
S204、将计算得到的各所述向量相似度的累加和,作为所述原始字段词向量集与所述当前处理的标准表单模板对应的表单相似度;
在一个具体的实施例中,如图2所示,计算a11、c12和b13的累加和X,计算b21、a22和c23的累加和Y,将X和Y分别作为原始字段词向量集与标准表单模板1、标准表单模板2对应的表单相似度。
S205、在所述原始字段词向量集与各所述标准表单模板之间的表单相似度中,获取表单相似度最大的标准表单模板,作为与所述原始表单对应的表单映射模板。
在此步骤中,通过比较原始字段词向量集与各所述标准表单模板之间的表单相似度的大小,获取表单相似度最大的标准表单模板,作为与所述原始表单对应的表单映射模板。例如。在步骤S204中计算得出标准表单模板1、标准表单模板2对应的表单相似度为X和Y,假设X>Y,则将标准表单模板1作为与所述原始表单对应的表单映射模板。
本发明实施例通过将原始表单的原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,获取了满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板。本发明实施例解决了人为筛选表单模板导致的效率低下和判断结果不稳定的问题,实现了在多个标准表单模板中自动映射得到与原始表单对应的表单映射模板,保证了表单映射的准确性和有效性,节省了人为查询表单模板的工作时间,提高了业务的处理能力。
实施例二
本实施例是对上述实施例一的进一步细化,与上述实施例相同或相应的术语解释,本实施例不再赘述。
图3是本发明实施例二提供的一种表单映射方法的流程图,如图3所示,该方法包括如下步骤:
步骤310、获取一个标准表单模板作为当前处理模板,并提取所述当前处理模板中包括的全部标准字段名称。
在此步骤中,标准表单模板为预先建立的用于对结构相似的原始表单进行数据整合的目标表单,所述标准表单模板的个数大于等于二。本实施例以业务处理中的大量数据表为训练依据,将使用频率较高的数据表作为标准表单模板,所述标准表单模板中预先设置了各数据项的数据项名称,也即标准字段名称,如表名和各行列名称等。
步骤320、分别对各所述标准字段名称进行分词处理,得到标准字段分词集。
在此步骤中,本实施例利用分词技术将所述标准表单模板的各数据项的数据项名称分为一个或多个标准字段分词,所述一个或多个标准字段分词一起构成了标准字段分词集。
步骤330、计算所述标准字段分词集合中各标准字段分词的词向量,构成与所述当前处理的标准表单模板对应的标准字段词向量集。
在此步骤中,本实施例预先建立了用于存储预设词汇字段以及与预设词汇字段匹配的向量的语义向量库,将步骤320获取标准字段分词在所述语义向量库中进行查询,确定与标准字段分词对应的预设词汇字段,然后通过预设词汇字段与词向量之间的映射关系确定与一个或多个标准字段分词对应的一个或多个标准字段分词的词向量,所述一个或多个标准字段分词的词向量一起构成了与当前标准表单模板对应的标准字段词向量集。
步骤340、判断是否完成对全部标准表单模板的处理:若是,执行步骤350;否则返回执行步骤310。
在此步骤中,以步骤330中的处理方式确定出剩余的预设标准表单模板对应的标准字段词向量集,并且判断是否完成对全部标准表单模板的处理。
步骤350、获取原始表单,并提取所述原始表单中包括的全部原始字段名称。
步骤360、分别对各所述原始字段名称进行分词处理,得到原始字段分词集,并计算所述原始字段分词集合中各原始字段分词的词向量,构成原始字段词向量集。
步骤370、将所述原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,并获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板。
步骤380、将所述原始表单中包括的各项数据分别填充于所述表单映射模板中,得到与所述原始表单对应的标准化表单,并将所述标准化表单存储于设定数据库中。
在本实施例中,通过步骤370确定出与原始表单对应的表单映射模板,将原始表单各数据项名称下的数据填充于表单映射模板中,以完成原始表单的数据整合,并将填充后的表单映射模板存储于数据库中,具体的,所述数据库可以为Mysql以及Druid等。
本发明实施例通过预先建立标准模板表单,将原始表单的原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,获取了满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板,并将原始表单中包括的各项数据分别填充于所述表单映射模板中,得到与所述原始表单对应的标准化表单。本发明实施例解决了人为筛选表单模板导致的效率低下和判断结果不稳定的问题,保证了表单映射的准确性和有效性,实现了在多个标准表单模板中自动映射得到与原始表单对应的表单映射模板,并将原始表单中的数据填充于表单映射模板,节省了人为查询表单模板的工作时间,提高了业务处理中数据整合的效率。
实施例三
图4为本发明实施例三提供的一种表单映射装置的结构图,该装置包括:原始字段名称提取模块410、原始字段词向量集确定模块420和表单映射模板确定模块430。
其中,原始字段名称提取模块410,用于获取原始表单,并提取所述原始表单中包括的全部原始字段名称;原始字段词向量集确定模块420,用于分别对各所述原始字段名称进行分词处理,得到原始字段分词集,并计算所述原始字段分词集合中各原始分词的词向量,构成原始字段词向量集;表单映射模板确定模块430,用于将所述原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,并获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板。
本实施例的技术方案首先通过将原始表单的原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,获取了满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板。本发明实施例解决了人为筛选表单模板导致的效率低下和判断结果不稳定的问题,实现了在多个标准表单模板中自动映射得到与原始表单对应的表单映射模板,保证了表单映射的准确性和有效性,节省了人为查询表单模板的工作时间,提高了业务的处理能力。
在上述各实施例的基础上,表单映射模板确定模块430可以包括:
目标标准字段词向量集获取单元,用于获取与当前处理的标准表单模板对应的目标标准字段词向量集;
向量值计算单元,用于获取所述原始字段词向量集的原始字段词向量,并将所述原始字段词向量与所述目标标准字段词向量集中包括的各标准字段词向量分别进行向量计算,得到多个向量值;
向量相似度确定单元,用于获取所述多个向量值中的最大值,作为所述当前处理的标准表单模板与所述原始字段词向量之间的向量相似度;
表单相似度确定单元,将计算得到的各所述向量相似度的累加和,作为所述原始字段词向量集与所述当前处理的标准表单模板对应的表单相似度;
表单映射模板确定单元,用于在所述原始字段词向量集与各所述标准表单模板之间的表单相似度中,获取表单相似度最大的标准表单模板,作为与所述原始表单对应的表单映射模板。
表单映射装置,还可以包括:
标准化表单确定模块,用于将所述原始表单中包括的各项数据分别填充于所述表单映射模板中,得到与所述原始表单对应的标准化表单,并将所述标准化表单存储于设定数据库中;
标准表单模板获取模块,用于获取一个标准表单模板作为当前处理模板,并提取所述当前处理模板中包括的全部标准字段名称;
标准字段分词集获取模块,用于分别对各所述标准字段名称进行分词处理,得到标准字段分词集;
标准字段词向量集构成模块,用于计算所述标准字段分词集合中各标准字段分词的词向量,构成与所述当前处理的标准表单模板对应的标准字段词向量集;
全部标准表单模板处理模块,用于返回执行获取一个标准表单模板作为当前处理模板的操作,直至完成对全部标准表单模板的处理。
原始字段词向量集确定模块420,可以包括:
原始分词获取单元,用于获取所述原始字段分词集合中的一个原始分词;
词向量获取单元,用于在预设的语义向量库中,获取与所述原始分词对应的原始分词的词向量;
全部原始分词处理单元,用于返回执行获取所述原始字段分词集合中的一个原始分词的操作,直至完成对所述原始字段分词集合中全部原始分词的处理;
其中,所述语义向量库中存储有分词,以及与分词对应的词向量。
本发明实施例所提供的表单映射装置可执行本发明任意实施例所提供的表单映射方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5为本发明实施例四提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器510、存储器520、输入装置530和输出装置540;计算机设备中处理器510的数量可以是一个或多个,图5中以一个处理器510为例;计算机设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种表单映射方法对应的程序指令/模块(例如,一种表单映射装置中的原始字段名称提取模块410、原始字段词向量集确定模块420和表单映射模板确定模块430)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的一种表单映射方法。也即,该程序被处理器执行时实现:
获取原始表单,并提取所述原始表单中包括的全部原始字段名称;
分别对各所述原始字段名称进行分词处理,得到原始字段分词集,并计算所述原始字段分词集合中各原始字段分词的词向量,构成原始字段词向量集;
将所述原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,并获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入,可以包括键盘和鼠标等。输出装置540可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的一种表单映射方法。当然,本发明实施例所提供的一种计算机可读存储介质,其可以执行本发明任意实施例所提供的表单映射方法中的相关操作。也即,该程序被处理器执行时实现:
获取原始表单,并提取所述原始表单中包括的全部原始字段名称;
分别对各所述原始字段名称进行分词处理,得到原始字段分词集,并计算所述原始字段分词集合中各原始字段分词的词向量,构成原始字段词向量集;
将所述原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,并获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述一种表单映射装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (7)
1.一种表单映射方法,其特征在于,包括:
获取原始表单,并提取所述原始表单中包括的全部原始字段名称;
分别对各所述原始字段名称进行分词处理,得到原始字段分词集,并计算所述原始字段分词集合中各原始字段分词的词向量,构成原始字段词向量集;
将所述原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,并获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板;
其中,将所述原始字段词向量集与标准表单模板的标准字段词向量集进行匹配,包括:获取与当前处理的标准表单模板对应的目标标准字段词向量集;获取所述原始字段词向量集的原始字段词向量,并将所述原始字段词向量与所述目标标准字段词向量集中包括的各标准字段词向量分别进行向量计算,得到多个向量值;获取所述多个向量值中的最大值,作为所述当前处理的标准表单模板与所述原始字段词向量之间的向量相似度;将计算得到的各所述向量相似度的累加和,作为所述原始字段词向量集与所述当前处理的标准表单模板对应的表单相似度;
所述计算所述原始字段分词集合中各原始分词的词向量,包括:获取所述原始字段分词集合中的一个原始分词;在预设的语义向量库中,获取与所述原始分词对应的原始分词的词向量;返回执行获取所述原始字段分词集合中的一个原始分词的操作,直至完成对所述原始字段分词集合中全部原始分词的处理;
其中,所述语义向量库中存储有分词,以及与分词对应的词向量。
2.根据权利要求1所述的方法,其特征在于,获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板,包括:
在所述原始字段词向量集与各所述标准表单模板之间的表单相似度中,获取表单相似度最大的标准表单模板,作为与所述原始表单对应的表单映射模板。
3.根据权利要求1-2任一项所述的方法,其特征在于,在获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板之后,还包括:
将所述原始表单中包括的各项数据分别填充于所述表单映射模板中,得到与所述原始表单对应的标准化表单,并将所述标准化表单存储于设定数据库中。
4.根据权利要求1-2任一项所述的方法,其特征在于,在获取原始表单,并提取所述原始表单中包括的全部字段名称之前,还包括:
获取一个标准表单模板作为当前处理模板,并提取所述当前处理模板中包括的全部标准字段名称;
分别对各所述标准字段名称进行分词处理,得到标准字段分词集;
计算所述标准字段分词集合中各标准字段分词的词向量,构成与所述当前处理的标准表单模板对应的标准字段词向量集;
返回执行获取一个标准表单模板作为当前处理模板的操作,直至完成对全部标准表单模板的处理。
5.一种表单映射装置,其特征在于,包括:
原始字段名称提取模块,用于获取原始表单,并提取所述原始表单中包括的全部原始字段名称;
原始字段词向量集确定模块,用于分别对各所述原始字段名称进行分词处理,得到原始字段分词集,并计算所述原始字段分词集合中各原始分词的词向量,构成原始字段词向量集;
表单映射模板确定模块,用于将所述原始字段词向量集与至少两个标准表单模板的标准字段词向量集分别进行匹配,并获取满足匹配条件的标准表单模板作为与所述原始表单对应的表单映射模板;
其中,所述表单映射模板确定模块包括:
标准字段词向量集获取单元,用于获取与当前处理的标准表单模板对应的目标标准字段词向量集;
向量计算单元,用于获取所述原始字段词向量集的一个原始字段词向量,并将所述原始字段词向量与所述目标标准字段词向量集中包括的各标准字段词向量分别进行向量计算,得到多个向量值;
向量相似度确定单元,用于获取所述多个向量值中的最大值,作为所述当前处理的标准表单模板与所述原始字段词向量之间的向量相似度;
全部原始字段词向量处理单元,用于返回执行获取所述原始字段词向量集的一个原始字段词向量的操作,直至完成对所述原始字段词向量集中全部原始字段词向量的处理;
表单相似度确定单元,用于将计算得到的各所述向量相似度的累加和,作为所述原始字段词向量集与所述当前处理的标准表单模板对应的表单相似度;
所述原始字段词向量集确定模块,还用于获取所述原始字段分词集合中的一个原始分词;在预设的语义向量库中,获取与所述原始分词对应的原始分词的词向量;返回执行获取所述原始字段分词集合中的一个原始分词的操作,直至完成对所述原始字段分词集合中全部原始分词的处理;其中,所述语义向量库中存储有分词,以及与分词对应的词向量。
6.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的一种表单映射方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的一种表单映射方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911205656.6A CN110895533B (zh) | 2019-11-29 | 2019-11-29 | 一种表单映射方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911205656.6A CN110895533B (zh) | 2019-11-29 | 2019-11-29 | 一种表单映射方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110895533A CN110895533A (zh) | 2020-03-20 |
CN110895533B true CN110895533B (zh) | 2023-01-17 |
Family
ID=69788344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911205656.6A Active CN110895533B (zh) | 2019-11-29 | 2019-11-29 | 一种表单映射方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110895533B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287005B (zh) * | 2020-10-22 | 2024-03-22 | 北京锐安科技有限公司 | 一种数据处理方法、装置、服务器及介质 |
CN112817569B (zh) * | 2021-02-06 | 2023-10-17 | 成都飞机工业(集团)有限责任公司 | 一种面向分析的数据快速映射方法、设备及存储介质 |
CN114385623A (zh) * | 2021-11-30 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 数据表获取方法、设备、装置、存储介质及程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844560A (zh) * | 2017-10-30 | 2018-03-27 | 北京锐安科技有限公司 | 一种数据接入的方法、装置、计算机设备和可读存储介质 |
CN109388637A (zh) * | 2018-09-21 | 2019-02-26 | 北京京东金融科技控股有限公司 | 数据仓库信息处理方法、装置、系统、介质 |
CN109408627A (zh) * | 2018-11-15 | 2019-03-01 | 众安信息技术服务有限公司 | 一种融合卷积神经网络和循环神经网络的问答方法及系统 |
CN109766436A (zh) * | 2018-12-04 | 2019-05-17 | 北京明略软件系统有限公司 | 一种数据表的字段与知识库的数据元匹配的方法和装置 |
CN109918641A (zh) * | 2019-01-17 | 2019-06-21 | 平安城市建设科技(深圳)有限公司 | 文章主题成分分解方法、装置、设备和存储介质 |
CN110377751A (zh) * | 2019-06-17 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 课件智能生成方法、装置、计算机设备及存储介质 |
CN110457704A (zh) * | 2019-08-12 | 2019-11-15 | 北京明略软件系统有限公司 | 目标字段的确定方法、装置、存储介质及电子装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484682B (zh) * | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
CN109800215B (zh) * | 2018-12-26 | 2020-11-24 | 北京明略软件系统有限公司 | 一种对标处理的方法、装置、计算机存储介质及终端 |
CN109710677B (zh) * | 2018-12-27 | 2021-03-05 | 长沙通诺信息科技有限责任公司 | 实验数据处理方法、装置、计算机设备和存储介质 |
CN109783611A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件系统有限公司 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
CN109783483A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件系统有限公司 | 一种数据整理的方法、装置、计算机存储介质及终端 |
-
2019
- 2019-11-29 CN CN201911205656.6A patent/CN110895533B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844560A (zh) * | 2017-10-30 | 2018-03-27 | 北京锐安科技有限公司 | 一种数据接入的方法、装置、计算机设备和可读存储介质 |
CN109388637A (zh) * | 2018-09-21 | 2019-02-26 | 北京京东金融科技控股有限公司 | 数据仓库信息处理方法、装置、系统、介质 |
CN109408627A (zh) * | 2018-11-15 | 2019-03-01 | 众安信息技术服务有限公司 | 一种融合卷积神经网络和循环神经网络的问答方法及系统 |
CN109766436A (zh) * | 2018-12-04 | 2019-05-17 | 北京明略软件系统有限公司 | 一种数据表的字段与知识库的数据元匹配的方法和装置 |
CN109918641A (zh) * | 2019-01-17 | 2019-06-21 | 平安城市建设科技(深圳)有限公司 | 文章主题成分分解方法、装置、设备和存储介质 |
CN110377751A (zh) * | 2019-06-17 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 课件智能生成方法、装置、计算机设备及存储介质 |
CN110457704A (zh) * | 2019-08-12 | 2019-11-15 | 北京明略软件系统有限公司 | 目标字段的确定方法、装置、存储介质及电子装置 |
Non-Patent Citations (1)
Title |
---|
表单实例驱动的数据类服务平台的研究;周珺;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20190915(第9期);I138-616 * |
Also Published As
Publication number | Publication date |
---|---|
CN110895533A (zh) | 2020-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200349175A1 (en) | Address Search Method and Device | |
CN110895533B (zh) | 一种表单映射方法、装置、计算机设备和存储介质 | |
WO2021174717A1 (zh) | 文本意图识别方法、装置、计算机设备和存储介质 | |
CN111797210A (zh) | 基于用户画像的信息推荐方法、装置、设备及存储介质 | |
CN112465020B (zh) | 训练数据集的生成方法及装置、电子设备、存储介质 | |
CN113360711B (zh) | 视频理解任务的模型训练和执行方法、装置、设备及介质 | |
CN112699232A (zh) | 文本标签提取方法、装置、设备和存储介质 | |
CN110532449B (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
CN116226350A (zh) | 一种文档查询方法、装置、设备和存储介质 | |
CN110147223B (zh) | 组件库的生成方法、装置及设备 | |
CN107871055B (zh) | 一种数据分析方法和装置 | |
CN105302827A (zh) | 一种事件的搜索方法和设备 | |
CN112836124A (zh) | 一种画像数据获取方法、装置、电子设备及存储介质 | |
CN110874366A (zh) | 数据处理、查询方法和装置 | |
CN106407332B (zh) | 基于人工智能的搜索方法和装置 | |
CN110807286A (zh) | 一种结构网格识别方法 | |
CN109697234B (zh) | 实体的多属性信息查询方法、装置、服务器和介质 | |
CN108776705B (zh) | 一种文本全文精确查询的方法、装置、设备及可读介质 | |
CN110598194A (zh) | 一种非满格表格内容提取方法、装置及终端设备 | |
CN116226681A (zh) | 一种文本相似性判定方法、装置、计算机设备和存储介质 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN114611501A (zh) | 生僻字检测方法、装置、设备及存储介质 | |
CN112598185A (zh) | 农业舆情分析方法、装置、设备及存储介质 | |
CN114461363A (zh) | 任务执行方法及装置、计算机可读存储介质 | |
CN112765963A (zh) | 语句分词方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |