CN109783483A - 一种数据整理的方法、装置、计算机存储介质及终端 - Google Patents

一种数据整理的方法、装置、计算机存储介质及终端 Download PDF

Info

Publication number
CN109783483A
CN109783483A CN201811634064.1A CN201811634064A CN109783483A CN 109783483 A CN109783483 A CN 109783483A CN 201811634064 A CN201811634064 A CN 201811634064A CN 109783483 A CN109783483 A CN 109783483A
Authority
CN
China
Prior art keywords
standard scale
original table
need
chinese
target original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811634064.1A
Other languages
English (en)
Inventor
张毅然
于阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201811634064.1A priority Critical patent/CN109783483A/zh
Publication of CN109783483A publication Critical patent/CN109783483A/zh
Pending legal-status Critical Current

Links

Abstract

一种数据整理的方法、装置、计算机存储介质及终端,包括:确定预设的映射库中是否包含与需对标的原始表对应的标准表;预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。本发明实施例通过查询映射库,降低了确定与原始表对标的标准表的运算量,提升了对标效率。

Description

一种数据整理的方法、装置、计算机存储介质及终端
技术领域
本文涉及但不限于信息处理技术,尤指一种数据整理的方法、装置、计算机存储介质及终端。
背景技术
在数据整理任务中,标准化是提高原始表数据整理效率和质量的一种重要手段。通常在进行正式的数据整理之前,需要根据不同领域中制定的标准构建标准表库。比如,在公安领域,有国标、部标、省标等标准。
从原始表到标准表的整理过程通常有以下方法;第一种方法是直接人工定义目标表的字段,包括从原始表抽取相关的字段信息;第二种方法是提前构建一个标准字段库,对原始表进行数据整理的时候从标准字段库查找对应的字段,如果存在,则直接对标;如果不存在,则需要手工新建字段;第三种方法是提前构建标准表库和标准字段库,通过相似度算法寻找与原始表最相似的标准表,进而进行表的对标。
上述方法中,第一种方法精度高但效率低下;第二种方法只考虑标准字段并未考虑标准表,而特定领域的数据整理任务都是具有相应的标准的,如公安领域;第三种方法中,如何快速精准地找到标准库中与之对应的标准表,成为影响标准化过程的效率和质量的关键;一般的,基于获得的原始表的原始表名(包括中文名、英文名,由于表英文名不具备统一的命名规范,只用表中文名进行对标),计算原始表名与目标表库中每个标准表的标准表名的相似度。对所有标准表,按照标准表名与原始表名的相似度值,进行从高到低排序,取标准表名与原始表名相似度值最大的标准表作为原始表的标准表。基于这种方法,每个原始表都需要重复计算其原始表名与所有标准表的标准表名相似度,使得整个数据整理过程的效率受制于原始表、标准表库的规模,以及相似度算法的复杂度,影响了数据整理的效率。例如,来源于A的“人口信息表”已经计算出对标于标准表库中的标准表“人口登记信息表”,而来源于B的“人口信息表”可能与A的“人口信息表”具有相同或者极为相似的字段列表,但是仍然需要重新计算该原始表与所有标准表的相似度,造成大量计算资源的浪费,影响数据整理的效率。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种数据整理的方法、装置、计算机存储介质及终端,能够降低确定对标于原始表的标准表的计算量,提升数据整理效率。
本发明实施例提供了一种数据整理的方法,包括:
确定预设的映射库中是否包含与需对标的原始表对应的标准表;
预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;
其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。
可选的,所述确定预设的映射库中是否包含与需对标的原始表对应的标准表包括:
查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表;
所述映射库中包含第一中文表名与需对标的原始表相同的已存储的原始表时,将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表,作为需对标的原始表所对应的标准表。
可选的,所述根据中文表名确定对应于需对标的原始表的标准表包括:
获取需对标的原始表的第一中文表名的第一特征向量;
获取各种类标准表的第二中文表名的第二特征向量;
计算获取的第一特征向量与各第二特征向量的相似度分值;
根据计算得到的相似度分值确定与需对标的原始表对应的标准表。
可选的,所述获取各种类标准表的第二中文表名的第二特征向量包括:将标准表按照预设的分类策略进行分类后,对各分类中的标准表分别通过以下处理获得对应的第二特征向量:
对当前分类的标准表的第二中文表名进行分词处理,获得当前分类标准表的第二中文表名的关键词;
对分词获得的第二中文表名的关键词分别进行预处理后,构建当前分类标准表的关键词词库;
对当前分类标准表中的各标准表,分别通过词频统计方式确定相应的第二特征向量;
其中,所述预处理包括:去除重复词和/或停用词的处理。
可选的,所述根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括:
按照预设策略从相似度分值大于预设的相似度阈值的标准表中确定其中一个标准表,作为与需对标的原始表对应的标准表。
可选的,所述根据中文表名确定与需对标的原始表对应的标准表后,所述方法还包括:
在所述映射库中添加确定的与所述需对标的原始表对应的标准表的映射信息。
另一方面,本发明实施例还提供一种数据整理的装置,包括:判断单元和确定单元;其中,
判断单元用于:确定预设的映射库中是否包含与需对标的原始表对应的标准表;
确定单元用于:预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;
其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。
可选的,所述判断单元用于:
查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表;
所述映射库中包含第一中文表名与需对标的原始表相同的已存储的原始表时,将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表,作为需对标的原始表所对应的标准表。
可选的,所述确定单元具体用于:
获取需对标的原始表的第一中文表名的第一特征向量;
获取各种类标准表的第二中文表名的第二特征向量;
计算获取的第一特征向量与各第二特征向量的相似度分值;
根据计算得到的相似度分值确定与需对标的原始表对应的标准表。
可选的,所述确定单元用于获取各种类标准表的第二中文表名的第二特征向量包括:将标准表按照预设的分类策略进行分类后,对各分类中的标准表分别通过以下处理获得对应的第二特征向量:
对当前分类的标准表的第二中文表名进行分词处理,获得当前分类标准表的第二中文表名的关键词;
对分词获得的第二中文表名的关键词分别进行预处理后,构建当前分类标准表的关键词词库;
对当前分类标准表中的各标准表,分别通过词频统计方式确定相应的第二特征向量;
其中,所述预处理包括:去除重复词和/或停用词的处理。
可选的,所述确定单元用于根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括:
按照预设策略从相似度分值大于预设的相似度阈值的标准表中确定其中一个标准表,作为与需对标的原始表对应的标准表。
可选的,所述装置还包括更新单元:
在所述映射库中添加确定的与所述需对标的原始表对应的标准表的映射信息。
再一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述数据整理的方法。
还一方面,本发明实施例还提供一种终端,包括:存储器和处理器;其中,
处理器被配置为执行存储器中的程序指令;
程序指令在处理器读取执行以下操作:
确定预设的映射库中是否包含与需对标的原始表对应的标准表;
预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;
其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。
与相关技术相比,本申请技术方案包括:确定预设的映射库中是否包含与需对标的原始表对应的标准表;预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。本发明实施例通过查询映射库,降低了确定与原始表对标的标准表的运算量,提升了对标效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例数据整理的方法的流程图;
图2为本发明实施例数据整理的装置的结构框图;
图3为本发明应用实施例识别原始表对应的标准表的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例数据整理的方法的流程图,如图1所示,包括:
步骤101、确定预设的映射库中是否包含与需对标的原始表对应的标准表;
其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。
可选的,本发明实施例确定预设的映射库中是否包含与需对标的原始表对应的标准表包括:
查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表;
所述映射库中包含第一中文表名与需对标的原始表相同的已存储的原始表时,将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表,作为需对标的原始表所对应的标准表。
步骤102、预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;
可选的,本发明实施例根据中文表名确定对应于需对标的原始表的标准表包括:
获取需对标的原始表的第一中文表名的第一特征向量;
获取各种类标准表的第二中文表名的第二特征向量;
计算获取的第一特征向量与各第二特征向量的相似度分值;
根据计算得到的相似度分值确定与需对标的原始表对应的标准表。
需要说明的是,本发明实施例获取需对标的原始表的第一中文表名的第一特征向量的方法与相关技术中已有的获取方法可以相同。
可选的,本发明实施例获取各种类标准表的第二中文表名的第二特征向量包括:将标准表按照预设的分类策略进行分类后,对各分类中的标准表分别通过以下处理获得对应的第二特征向量:
对当前分类的标准表的第二中文表名进行分词处理,获得当前分类标准表的第二中文表名的关键词;
对分词获得的第二中文表名的关键词分别进行预处理后,构建当前分类标准表的关键词词库;
对当前分类标准表中的各标准表,分别通过词频统计方式确定相应的第二特征向量;
其中,所述预处理包括:去除重复词和/或停用词的处理。
需要说明的是,本发明实施例标准表的分类可以参照相关技术中已有的分类标准进行分类;通过分类后的标准表构建各分类标准表的关键词词库,与相关技术中以所有标准表的中文名称构建关键词词库方式相比,可以提升后续相似度计算的准确度。
可选的,本发明实施例根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括:
按照预设策略从相似度分值大于预设的相似度阈值的标准表中确定其中一个标准表,作为与需对标的原始表对应的标准表。
可选的,根据中文表名确定与需对标的原始表对应的标准表后,本发明实施例方法还包括:
在所述映射库中添加确定的与所述需对标的原始表对应的标准表的映射信息。
与相关技术相比,本申请技术方案包括:确定预设的映射库中是否包含与需对标的原始表对应的标准表;预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。本发明实施例通过查询映射库,降低了确定与原始表对标的标准表的运算量,提升了对标效率。
图2为本发明实施例数据整理的装置的结构框图,如图2所示,包括:判断单元和确定单元;其中,
判断单元用于:确定预设的映射库中是否包含与需对标的原始表对应的标准表;
确定单元用于:预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;
其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。
可选的,本发明实施例判断单元用于:
查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表;
所述映射库中包含第一中文表名与需对标的原始表相同的已存储的原始表时,将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表,作为需对标的原始表所对应的标准表。
可选的,本发明实施例确定单元具体用于:
获取需对标的原始表的第一中文表名的第一特征向量;
获取各种类标准表的第二中文表名的第二特征向量;
计算获取的第一特征向量与各第二特征向量的相似度分值;
根据计算得到的相似度分值确定与需对标的原始表对应的标准表。
可选的,本发明实施例确定单元用于获取各种类标准表的第二中文表名的第二特征向量包括:将标准表按照预设的分类策略进行分类后,对各分类中的标准表分别通过以下处理获得对应的第二特征向量:
对当前分类的标准表的第二中文表名进行分词处理,获得当前分类标准表的第二中文表名的关键词;
对分词获得的第二中文表名的关键词分别进行预处理后,构建当前分类标准表的关键词词库;
对当前分类标准表中的各标准表,分别通过词频统计方式确定相应的第二特征向量;
其中,所述预处理包括:去除重复词和/或停用词的处理。
可选的,本发明实施例确定单元用于根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括:
按照预设策略从相似度分值大于预设的相似度阈值的标准表中确定其中一个标准表,作为与需对标的原始表对应的标准表。
可选的,本发明实施例装置还包括更新单元:
在所述映射库中添加确定的与所述需对标的原始表对应的标准表的映射信息。
与相关技术相比,本申请技术方案包括:确定预设的映射库中是否包含与需对标的原始表对应的标准表;预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。本发明实施例通过查询映射库,降低了确定与原始表对标的标准表的运算量,提升了对标效率。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述数据整理的方法。
本发明实施例还提供一种终端,包括:存储器和处理器;其中,
处理器被配置为执行存储器中的程序指令;
程序指令在处理器读取执行以下操作:
确定预设的映射库中是否包含与需对标的原始表对应的标准表;
预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;
其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。
以下通过应用示例对本发明实施例方法进行清楚详细的说明,应用示例仅用于陈述本发明,并不用于限定本发明的保护范围。
应用示例
本发明应用示例在不断的数据整理任务中,通过已经完成了对标的原始数据表及其对标成功的标准表的映射,实现已有原始表或者相似原始表的快速对标。
本发明应用示例假设有N张标准表,一共有M种类别;例如、依据《公安数据资源目录技术规范》行业类别代码表分类要求,将标准表分为法院、检察院、公安、供水、供电等类。本发明应用示例用c1,c2,c3,...,cm(m∈[1,M])分别表示M种类别中的每一种类别;用t1,t2,t3,...,tn(n∈[1,N])分别表示N张标准表中的每一张表,ti表示第i张标准表;用o表示一个新的原始表;用K=(k1,k2,...,ki,...)表示原始表到标准表的映射库,其中,op表示原始表p,ki=(op,tq)表示原始表p与标准表q的映射;
对已构建的标准库的所有标准表的中文表名进行分词,对于每个类别cm,由于中文表名的关键词差异较大,因此对每个类别的标准表的中文名称的关键词单独构建词库,去除重复词和停用词,并采用词频统计的方法提取特征向量最终将M个类别向量组合成标准表的特征向量,V={v1v2,...,vM}。
对于原始表o,根据中文表名查询映射库中是否存在对应于原始表的标准表,即是否存在对应于原始表的映射ki=(o,ti)。如果存在原始表o的映射,则找到原始表o对应的标准表ti,对标成功;
如果根据中文表名找不到原始表o对应的标准表,则构建原始表o的特征向量,其中,表示原始表o的中文表名的特征向量中的第i维:
通过余弦定理计算原始表(需对标的原始表)中文表名的特征向量与各标准表名的特征向量的相似度分值:
本发明应用示例设定一系列相似度阈值θ=(θ1,θ2,...,θH);其中,H表示相似度阈值等级层数,从1到H相似度阈值等级提高,即要求原始表与标准表具有更高的相似度。例如,用户根据需求选不同的相似度阈值,当选择较大的相似度阈值如90%时,则系统推荐与原始表对标的标准表数量较少,但较准确;当选择较小的阈值如选60%,则系统推荐的与原始表对标的标准表数量较多,用户根据实际情况选择相应的标准表。可选的,用户可以根据原始表对标标准表的数量,为每个原始表选择一个相似度阈值,当score>θi时,对所有符合条件的标准表进行相似度从高到底排序,将相似度最大的Δ个标准表推荐给用户,其中,Δ的取值不宜过大,否则推荐的标准表与原始表差别较大;例如,Δ可以等于5;
本发明应用示例确定原始表与标准表的映射关系时,将原始表的原始表名及对应的标准表的标准表名添加到映射库中,实现映射库数据的不断积累,当映射库规模足够大时,对标过程命中概率会逐步增加,数据表的对标效率会逐步提高。
图3为本发明应用实施例识别原始表对应的标准表的流程图,如图3所示,包括:
步骤301、获取标准表的中文名称;
步骤302、对标准表的中文名称进行分词;
步骤303、对各种类的标准表的中文名称进行分词统计,构建各种类标准表的中文名称的关键词库;
步骤304、根据构建的各种类标准表的中文名称的关键词库,生成各标准表的特征向量
步骤305、根据所有标准表的中文名称的特征向量组合生成特征向量集合V={v1v2,...,vM};
步骤306、获取到需要对标的原始表,提取原始表的中文名称的特征向量;
步骤307、根据原始表的中文表名访问映射库,确定映射库中是否存在对应于原始表的标准表;
步骤308、映射库中存在与需对标的原始表对应的标准表时,确定该标准表与原始表对标;
步骤309、映射库中不存在与原始表对应的标准表时,计算需对标的原始表的中文表名的特征向量与各标准表的标准表名的特征向量的相似度分值;
步骤310、获得的相似度分值大于预设的相似度阈值时,从相似度分值大于相似度阈值的标准表中确定一个与原始表对应的标准表,并将确定的与原始表对应的标准表添加到映射库中;本发明实施例相似度阈值当选择较大的相似度阈值如90%时,则与原始表对标的标准表数量较少,但较准确;当选择较小的相似度阈值如选60%,则与原始表对标的标准表数量较多,用户根据实际情况选择相应的标准表。
可选的,本发明实施例可以对计算获得的相似度分值进行排序并对相似度进行排序,选择最大相似度分值的标准表用于对标原始表;
可选的,获得的最大相似度分值小于或等于预设的相似度阈值时,本发明可以采用相关技术确定与需对标的原始表对应的标准表;例如、采用人工方式确定与需对标的原始表对应的标准表。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的每个模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (14)

1.一种数据整理的方法,其特征在于,包括:
确定预设的映射库中是否包含与需对标的原始表对应的标准表;
预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;
其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。
2.根据权利要求1所述的方法,其特征在于,所述确定预设的映射库中是否包含与需对标的原始表对应的标准表包括:
查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表;
所述映射库中包含第一中文表名均与需对标的原始表相同的已存储的原始表时,将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表,作为需对标的原始表所对应的标准表。
3.根据权利要求1所述的方法,其特征在于,所述根据中文表名确定对应于需对标的原始表的标准表包括:
获取需对标的原始表的第一中文表名的第一特征向量;
获取各种类标准表的第二中文表名的第二特征向量;
计算获取的第一特征向量与各第二特征向量的相似度分值;
根据计算得到的相似度分值确定与需对标的原始表对应的标准表。
4.根据权利要求3所述的方法,其特征在于,所述获取各种类标准表的第二中文表名的第二特征向量包括:将标准表按照预设的分类策略进行分类后,对各分类中的标准表分别通过以下处理获得对应的第二特征向量:
对当前分类的标准表的第二中文表名进行分词处理,获得当前分类标准表的第二中文表名的关键词;
对分词获得的第二中文表名的关键词分别进行预处理后,构建当前分类标准表的关键词词库;
对当前分类标准表中的各标准表,分别通过词频统计方式确定相应的第二特征向量;
其中,所述预处理包括:去除重复词和/或停用词的处理。
5.根据权利要求4所述的方法,其特征在于,所述根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括:
按照预设策略从相似度分值大于预设的相似度阈值的标准表中确定其中一个标准表,作为与需对标的原始表对应的标准表。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述根据中文表名确定与需对标的原始表对应的标准表后,所述方法还包括:
在所述映射库中添加确定的与所述需对标的原始表对应的标准表的映射信息。
7.一种数据整理的装置,其特征在于,包括:判断单元和确定单元;其中,
判断单元用于:确定预设的映射库中是否包含与需对标的原始表对应的标准表;
确定单元用于:预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;
其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。
8.根据权利要求7所述的装置,其特征在于,所述判断单元用于:
查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表;
所述映射库中包含第一中文表名与需对标的原始表相同的已存储的原始表时,将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表,作为需对标的原始表所对应的标准表。
9.根据权利要求7所述的装置,其特征在于,所述确定单元具体用于:
获取需对标的原始表的第一中文表名的第一特征向量;
获取各种类标准表的第二中文表名的第二特征向量;
计算获取的第一特征向量与各第二特征向量的相似度分值;
根据计算得到的相似度分值确定与需对标的原始表对应的标准表。
10.根据权利要求9所述的装置,其特征在于,所述确定单元用于获取各种类标准表的第二中文表名的第二特征向量包括:将标准表按照预设的分类策略进行分类后,对各分类中的标准表分别通过以下处理获得对应的第二特征向量:
对当前分类的标准表的第二中文表名进行分词处理,获得当前分类标准表的第二中文表名的关键词;
对分词获得的第二中文表名的关键词分别进行预处理后,构建当前分类标准表的关键词词库;
对当前分类标准表中的各标准表,分别通过词频统计方式确定相应的第二特征向量;
其中,所述预处理包括:去除重复词和/或停用词的处理。
11.根据权利要求10所述的方法,其特征在于,所述确定单元用于根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括:
按照预设策略从相似度分值大于预设的相似度阈值的标准表中确定其中一个标准表,作为与需对标的原始表对应的标准表。
12.根据权利要求7~11任一项所述的装置,其特征在于,所述装置还包括更新单元:
在所述映射库中添加确定的与所述需对标的原始表对应的标准表的映射信息。
13.一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~6中任一项所述的数据整理的方法。
14.一种终端,包括:存储器和处理器;其中,
处理器被配置为执行存储器中的程序指令;
程序指令在处理器读取执行以下操作:
确定预设的映射库中是否包含与需对标的原始表对应的标准表;
预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;
其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。
CN201811634064.1A 2018-12-29 2018-12-29 一种数据整理的方法、装置、计算机存储介质及终端 Pending CN109783483A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811634064.1A CN109783483A (zh) 2018-12-29 2018-12-29 一种数据整理的方法、装置、计算机存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811634064.1A CN109783483A (zh) 2018-12-29 2018-12-29 一种数据整理的方法、装置、计算机存储介质及终端

Publications (1)

Publication Number Publication Date
CN109783483A true CN109783483A (zh) 2019-05-21

Family

ID=66497915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811634064.1A Pending CN109783483A (zh) 2018-12-29 2018-12-29 一种数据整理的方法、装置、计算机存储介质及终端

Country Status (1)

Country Link
CN (1) CN109783483A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765118A (zh) * 2019-10-21 2020-02-07 北京明略软件系统有限公司 一种数据的修订方法、修订装置及可读存储介质
CN110895533A (zh) * 2019-11-29 2020-03-20 北京锐安科技有限公司 一种表单映射方法、装置、计算机设备和存储介质
CN110955781A (zh) * 2019-11-14 2020-04-03 北京明略软件系统有限公司 一种模型训练方法、装置、实现对标处理的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550220A (zh) * 2015-12-03 2016-05-04 浪潮通用软件有限公司 一种异构系统的取数的方法及装置
CN108090073A (zh) * 2016-11-22 2018-05-29 上海汽车集团股份有限公司 一种可配置物料清单的转换方法及装置
CN108090068A (zh) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
WO2018205471A1 (zh) * 2017-05-10 2018-11-15 深圳大普微电子科技有限公司 基于特征分析的数据存取方法、存储设备及存储系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550220A (zh) * 2015-12-03 2016-05-04 浪潮通用软件有限公司 一种异构系统的取数的方法及装置
CN108090068A (zh) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
CN108090073A (zh) * 2016-11-22 2018-05-29 上海汽车集团股份有限公司 一种可配置物料清单的转换方法及装置
WO2018205471A1 (zh) * 2017-05-10 2018-11-15 深圳大普微电子科技有限公司 基于特征分析的数据存取方法、存储设备及存储系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765118A (zh) * 2019-10-21 2020-02-07 北京明略软件系统有限公司 一种数据的修订方法、修订装置及可读存储介质
CN110765118B (zh) * 2019-10-21 2022-05-17 北京明略软件系统有限公司 一种数据的修订方法、修订装置及可读存储介质
CN110955781A (zh) * 2019-11-14 2020-04-03 北京明略软件系统有限公司 一种模型训练方法、装置、实现对标处理的方法及装置
CN110895533A (zh) * 2019-11-29 2020-03-20 北京锐安科技有限公司 一种表单映射方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
US8819024B1 (en) Learning category classifiers for a video corpus
CN104199965B (zh) 一种语义信息检索方法
CN103678418B (zh) 信息处理方法和信息处理设备
US20090319449A1 (en) Providing context for web articles
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
US11861925B2 (en) Methods and systems of field detection in a document
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN109902090B (zh) 字段名称获取方法和装置
TWI682287B (zh) 知識圖譜產生裝置、方法及其電腦程式產品
US20200342031A1 (en) Search systems and methods utilizing search based user clustering
CN109783483A (zh) 一种数据整理的方法、装置、计算机存储介质及终端
CN110543637B (zh) 一种中文分词方法及装置
CN103034627A (zh) 计算句子相似度的方法和装置以及机器翻译的方法和装置
CN113032573B (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN114461783A (zh) 关键词生成方法、装置、计算机设备、存储介质和产品
CN108388556B (zh) 同类实体的挖掘方法及系统
US20100063966A1 (en) Method for fast de-duplication of a set of documents or a set of data contained in a file
CN111339396A (zh) 提取网页内容的方法、装置和计算机存储介质
WO2022134580A1 (zh) 证件信息的获取方法及装置、存储介质、计算机设备
CN109509517A (zh) 一种医学检验检查指标自动修正的方法
US20140181124A1 (en) Method, apparatus, system and storage medium having computer executable instrutions for determination of a measure of similarity and processing of documents
CN115239214B (zh) 企业的评估处理方法、装置及电子设备
CN109800215A (zh) 一种对标处理的方法、装置、计算机存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190521