CN107844560B - 一种数据接入的方法、装置、计算机设备和可读存储介质 - Google Patents

一种数据接入的方法、装置、计算机设备和可读存储介质 Download PDF

Info

Publication number
CN107844560B
CN107844560B CN201711052158.3A CN201711052158A CN107844560B CN 107844560 B CN107844560 B CN 107844560B CN 201711052158 A CN201711052158 A CN 201711052158A CN 107844560 B CN107844560 B CN 107844560B
Authority
CN
China
Prior art keywords
field
data set
mapped
standard
identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711052158.3A
Other languages
English (en)
Other versions
CN107844560A (zh
Inventor
谢永恒
李贺
火一莽
万月亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201711052158.3A priority Critical patent/CN107844560B/zh
Publication of CN107844560A publication Critical patent/CN107844560A/zh
Application granted granted Critical
Publication of CN107844560B publication Critical patent/CN107844560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据接入的方法、装置、计算机设备和可读存储介质,通过获取与待接入的第一外部数据集对应的至少一个第一待映射字段;根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量;根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集;根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系;根据所述第一字段映射关系,将所述第一外部数据集接入至所述第一标准数据集中。本发明可以实现数据接入的自动推荐和字段级别的自动映射。

Description

一种数据接入的方法、装置、计算机设备和可读存储介质
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种数据接入的方法、装置、计算机设备和可读存储介质。
背景技术
在企业生产过程中,每天都有大量的数据接入工作,如中国移动需要接入每个用户的电话信息的数据、短信的数据、QQ聊天的数据、微信数据等,并且接入的数据格式往往并不相同,企业需要投入大量的时间和人力来配置不同格式的数据的入库格转策略。
目前,主要使用人工的方式实现上述数据接入工作,这种人工配置格转策略的技术缺陷在于:数据接入成本高、效率低下以及扩展性差。
发明内容
本发明提供一种数据接入的方法、装置、计算机设备和可读存储介质,以实现数据接入的自动推荐和字段级别的自动映射。
第一方面,本发明实施例提供了一种数据接入的方法,包括:
获取与待接入的第一外部数据集对应的至少一个第一待映射字段;
根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量;
根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集;
根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系;
根据所述第一字段映射关系,将所述第一外部数据集接入至所述第一标准数据集中。
第二方面,本发明实施例还提供了一种数据接入的装置,包括:
第一待映射字段获取模块,用于获取与待接入的第一外部数据集对应的至少一个第一待映射字段;
待匹配数据集向量得到模块,用于根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量;
第一标准数据集确定模块,用于根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集;
第一字段映射关系建立模块,用于根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系;
第一外部数据集接入模块,用于根据所述第一字段映射关系,将所述第一外部数据集接入至所述第一标准数据集中。
第三方面,本发明实施例还提供了一种一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如本发明任意实施例所述的数据接入的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本发明任意实施例所述的数据接入的方法。
本发明通过获取与待接入的第一外部数据集对应的至少一个第一待映射字段;根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量;根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集;根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系;根据所述第一字段映射关系,将所述第一外部数据集接入至所述第一标准数据集中。本发明可以实现数据接入的自动推荐和字段级别的自动映射。
附图说明
图1本发明实施例一提供的一种数据接入的方法的流程图;
图2a是本发明实施例二提供的一种数据接入的方法的流程图;
图2b是本发明实施例二提供的一种构造待匹配数据集向量的流程图;
图2c是本发明实施例二提供的一种计算第一字段身份标识的流程图;
图3a是本发明实施例三提供的一种数据接入的方法的流程图;
图3b是本发明实施例三提供的一种数据接入的技术路线图;
图4是本发明实施例三提供的一种数据接入的装置的结构示意图;
图5是本发明实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种数据接入的方法的流程图,本实施例可适用于数据接入的情况,该方法可以由数据接入的装置来执行,该装置可以由软件和/或硬件的方式实现,并一般可集成于计算机设备中。本实施例的方法具体包括如下步骤:
步骤110、获取与待接入的第一外部数据集对应的至少一个第一待映射字段。
在数据接入方法中,接入的对象是外部数据集。例如:中国移动需要接入每个用户的电话信息的数据、短信的数据、QQ聊天的数据、微信数据等,每个用户的电话信息的数据、短信的数据、QQ聊天的数据、微信数据等就作为外部数据集接入到中国移动的数据集中。具体的,将QQ聊天的数据作为第一外部数据集接入,则QQ聊天外部数据集包含了聊天时间、聊天内容、聊天人A、聊天人B以及QQ空间等字段,以这些字段作为第一待映射字段。
步骤120、根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量。
其中,分词是将一个中文序列切分成一个一个单独的词,从而将连续的字序列按照一定的规范重新组合成词序列的过程,可以借助分词模型实现分词,例如将“我下班了”分词为“我”、“下班”以及“了”。在此基础上,还可以对分词结果进行停用词过滤,排除一些常见却没有太多信息的词,如“了”以及“的”等。而要将自然语言交给机器学习中的算法处理通常需要将语言数学化,词向量就是用来将语言中的词进行数学化的一种方式,根据词向量模型,将各分词对应的词向量化。数据集向量可以根据每个分词的词向量加权平均的方式获得,也可以采用其他的每个分词的词向量组合得到。
步骤130、根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集。
将外部数据集接入到标准数据集中,而标准数据集中存在不同类别的数据集,以上述例子为例,将每个用户的电话信息的数据、短信的数据、QQ聊天的数据、微信数据等就作为外部数据集接入到中国移动的数据集中,中国移动的数据集就是标准数据集,具体的,如果将QQ聊天这个外部数据集接入到标准数据集中,而标准数据集包含了很多类别,如QQ、微信、电话、短信等,就需要判断QQ聊天这个外部数据集要接入标准数据集的QQ这一类别中,而不能将其接入到微信这一类别。可以理解的是,确定与第一外部数据集匹配的第一标准数据集是一个分类问题,因此,可以采用数据集分类模型来进行分类,如多层感知机模型(Multiple Layer Perceptron,MLP)以及支持向量机模型(Support Vector Model,SVM)等。
可以理解的是,将待匹配数据集向量输入到数据集分类模型之前,需要根据数据集分类模型确定是否对待匹配数据集向量进行标准化处理,如采用SVM模型作为数据集分类模型,则需要对待匹配数据集进行归一化处理。
步骤140、根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系。
可以理解的是,确定外部数据集要接入的标准数据集的类别后,还需要匹配外部数据集的每个字段。具体的,以上述例子为例说明,在确定QQ聊天外部数据集需要接入到中国移动对应的QQ标准数据集后,假设中国移动对应QQ聊天的数据集中包含了时间、内容、通话人,则还需要将QQ聊天外部数据集中包含的聊天时间、聊天内容、聊天人A、聊天人B、QQ空间等字段与QQ标准数据集包含的时间、内容、通话人一一对应,建立的一一对应的关系即为字段映射关系。
可以根据字段之间的相似度确定映射关系,如根据余弦相似度计算,相似度结果较高的则可以确定第一外部数据集的第一待映射字段与第一标准数据集中的标准字段一一对应,可以建立映射关系;而当相似度结果较低时,则不能建立映射关系。如上述例子中,可以建立的映射关系是:聊天时间——时间、聊天内容——内容、聊天人A——通话人、聊天人B——通话人。而QQ空间与标准数据集中的时间、内容、通话人相似度较低,不能建立映射关系。
步骤150、根据所述第一字段映射关系,将所述第一外部数据集接入至所述第一标准数据集中。
根据第一字段映射关系,当获取第一外部数据集后,就会自动匹配第一字段映射关系,如果匹配成功,则将第一外部数据集的自动接入。而如果匹配不成功,则需要人工干预。此时,可以根据内存大小和实际需求,将QQ空间备用字段存储或者将其删除。
本实施例的技术方案,通过获取与待接入的第一外部数据集对应的至少一个第一待映射字段;根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量;根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集;根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系;根据所述第一字段映射关系,将所述第一外部数据集接入至所述第一标准数据集中。本发明可以实现数据接入的自动推荐和字段级别的自动映射。
实施例二
图2a本发明实施例二提供的一种数据接入的方法的流程图,本实施例以上述实施例为基础进行了优化。本实施例中,在根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系之后,还包括:计算与所述第一待映射字段对应的第一字段身份标识;将所述第一字段身份标识、所述第一标准数据集身份标识以及所述第一字段映射关系存储于映射缓存表中。
如图2a所示,本发明实施例具体包括:
步骤210、获取与待接入的第一外部数据集对应的至少一个第一待映射字段。
步骤220、根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量。
在图2b中,示出了本发明实施例二提供的一种构造待匹配数据集向量的流程图,如图2b所示,待匹配数据集向量的构造过程包括:
步骤221、根据预先训练的分词器,确定所述第一待映射字段的各分词。
分词器可以采用条件随机场CRF分词模型,通过序列标注,实现自动分词。CRF模型在每个字构造一个特定的词语时都占据一个确定的构词位置,假设每个字只有4个词位:词首(B)、词中(M)、词尾(E)、单独成词(S)。分词的结果表示成字序列标注的形式。CRF分词标注模型属于判别模型,针对条件概率模型进行建模,学习时,利用训练数据集通过极大似然估计或正则化的极大似然估计来迭代求解模型参数,通过给定的输入序列,预测条件概率最大的输出序列。
例如,将语句“上海计划到本世纪末实现人均国内生产总值五千美元。”分词,经过CRF分词模型后,结果为:
上/B海/E计/B划/E到/S本/S世/B纪/E末/S实/B现/E人/B均/E国/B内/E生/B产/E总/B值/E五/B千/M美/M元/E。/S。
步骤222、根据词向量模型,得到所述各分词对应的词向量。
词向量模型采用基于分层软性最大值Hierarchical Softmax的跨词序列Skip-Gram模型,该模型时神经网络词表示模型的一种,通过神经网络技术对上下文,以及上下文与目标之间的关系进行建模,由于神经网络比较灵活,该模型最大的优势在于可以标识复杂的上下文环境。基于Hierarchical Softmax的Skip-Gram模型包括输入层、投影层和输出层。以样本(w,context(w))为例,
输入层:只包含当前样本的中心词w的词向量v(w)∈Rm
投影层:与输入层一样,只有当前样本的中心词w的词向量v(w)∈Rm
输出层:对语料进行统计分析构建的哈夫曼Huffman树。
模型中Huffman树的每个叶子节点代表一个词,每一个分支看作一次而分类,对概率P(w,context(w))进行建模,以对树似然函数为代价函数没通过梯度上升法来求解模型参数和词向量。
步骤223、将所述各分词对应的词向量组合,得到与所述第一外部数据集对应的待匹配数据集向量。
通过词向量组合得到待匹配数据集向量,其中,数据集向量可以采用每个词向量的加权平均值表示,具体的,可以采用频次-逆文档频率模型(Term Frequency-InverseDocument Frequency,TF-IDF)来计算数据集向量,首先统计每个待匹配数据集每个字段中每个分词对应的词向量在要接入的第一标准数据集中出现的TF,根据该分词对应的词向量在历史接入的第一标准数据集中的逆文档频率IDF,同时由于IDF试图抑制噪声,因此对IDF的计算过程要进行平滑处理,最后计算每个分词对应的词向量的权重系数,即TF*IDF。确定每个分词对应的词向量的权重系数后,将其加权平均作为待匹配的数据集向量。并且,还可以采取词袋连续模型(Continuous Bag-of-words Model,CBOW)来获取数据集向量。
步骤230、根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集。
预先训练的数据集分类模型为多层感知机MLP模型,采用历史数据进行训练,模型以负对数似然函数为代价函数,通过梯度下降法求解模型参数,并且,由于该模型的性能与权值的初始化相关,求解的模型参数可能是次优解,因此,针对小样本数据,考虑S折交叉验证的方式,选择S次评测中平均测试误差最小的模型。其中,求解的模型参数即与第一外部数据集匹配的第一标准数据集类别编码,并将此类别编码作为第一标准数据集的身份标识。
步骤240、根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系。
步骤250、计算与所述第一待映射字段对应的第一字段身份标识。
由于存储内存的限制,将待映射字段存储在映射缓存池中会影响运行速度,因此需要获得表征第一字段身份标识,该身份标识可以是与待映射字段对应的特征值,例如,第一待映射字段中包含至少一个分词,以每个分词对应的词向量的加权作为第一待映射字段的特征值。
在图2c中示出了本发明实施例二提供的一种计算第一字段身份标识的流程图,如图2c所示,第一字段身份标识的具体计算步骤包括:
步骤251、如果确定所述第一待映射字段的数量为至少两个,则根据预设排序规则,将各所述第一待映射字段进行排序。
如果第一待映射字段为一个,则不需要对其进行排序;如果第一待映射字段为至少两个,则需要将第一待接入的外部数据集的至少两个第一待映射字段进行排序,以保证第一待映射字段的顺序不同影响输出结果。而预设排序规则包括根据外部数据集字段的先后来确定,例如,以QQ聊天作为第一待接入的外部数据集为例,其包含的聊天时间、聊天内容、聊天人A、聊天人B、QQ空间等字段,可以按照“聊天时间聊天内容聊天人A聊天人B”进行排序。
步骤252、将所述排序后的各第一待映射字段合并为长字符串。
按照上述例子对排序后的“聊天时间聊天内容聊天人A聊天人B”转换为二进制字符串。
步骤253、根据哈希算法计算所述长字符串的哈希值作为所述第一字段身份标识。
第一字段身份标识可以通过哈希算法来计算获得,哈希算法可以将任意长度的二进制值映射为较短的固定长度的二进制,这个二进制值即为第一字段的身份标识,哈希值是第一字段极其紧凑的数值表示形式,表征第一字段的特征信息。
步骤260、将所述第一字段身份标识、所述第一标准数据集身份标识以及所述第一字段映射关系存储于映射缓存表中。
第一字段身份标识可以是哈希值,第一标准数据集身份标识可以是第一外部数据集匹配的第一标准数据集类别编码,第一字段映射关系是第一待映射字段与第一标准数据集中的标准字段的一一对应关系。
将三者存储与映射缓存表中,建立预先缓存,如果有其他外部数据集接入,可以根据映射缓存表判断是否存在该外部数据集对应的记录,若有,则可以直接根据字段映射关系,将外部数据集接入。
步骤270、根据所述第一字段映射关系,将所述第一外部数据集接入至所述第一标准数据集中。
本发明实施例通过CRF模型、基于Hierarchical Softmax的Skip-Gram模型和MLP模型的组合对待接入的第一外部数据集的待映射字段进行分词并词向量化,确定了第一标准数据集身份标识,并通过哈希算法确定了确定第一字段身份标识,同时将第一总段身份标识、第一标准数据集身份标识和第一字段映射关系存储在映射缓存表中,方便之后其他外部数据集接入时,能够实现快速与映射缓存表匹配,实现匹配成功的外部数据集的快速接入。
实施例三
图3a是本发明实施例三提供的一种数据接入的流程图,如图3a所示,该数据接入的具体步骤如下:
步骤310、获取与待接入的第二外部数据集对应的至少一个第二待映射字段。
步骤320、计算与所述第二待映射字段对应的第二字段身份标识。
其中,第二字段身份标识的计算过程与本发明实施例二中第一字段身份标识的计算过程相同。而本发明任意实施例中对“第一”和“第二”仅仅是区别而非限定。
步骤330、判断所述映射缓存表中是否存储有所述第二字段身份标识。
步骤340、若是,则获取所述映射缓存表中与所述第二字段身份标识对应的第二标准数据集身份标识以及第二字段映射关系。并执行步骤370。
其中,确定映射缓存池中是否存储有第二字段身份标识,可以考虑适用布隆Bloom过滤器来加速遍历缓存池中的字段身份标识,如字段的哈希值,从而可以在较短的时间内得到判断结果。
可以理解的是,如果确定所述映射缓存表中没有存储有所述第二字段身份标识,则执行如本发明实施例一的具体内容,即:
步骤350、若否,则根据与所述第二待映射字段中的各分词对应的词向量,得到与所述第二外部数据集对应的待匹配数据集向量。
步骤360、根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第二外部数据集匹配的第二标准数据集。
步骤370、根据所述第二标准数据集中的标准字段与所述第二待映射字段之间的相似度,建立所述第二待映射字段与所述标准字段之间的第二字段映射关系。
步骤380、根据所述第二字段映射关系,将所述第二外部数据集接入至所述第二标准数据集中。
本发明实施例通过判断映射缓存池中是否存在与第二字段身份标识,若有,则根据第二字段映射关系,将第二外部数据集接入至第二标准数据集中;若无,则将第二外部数据集对应的第二待映射字段分词,并词向量化,得到与第二外部数据集对应的待匹配数据集向量,并根据数据集分类模型,确定与第二外部数据集对应的第二标准数据集类别,同时,根据第二字段映射关系,将第二外部数据集接入至第二标准数据集中。本发明当映射缓存池中存在待接入数据集的字段身份标识时,无需再进行分词处理,而是根据缓存池中的字段映射关系将外部数据集接入,从而使得数据接入更加快速便捷。
进一步的,在上述任意实施例的基础上,图3b则示出了本发明实施例提供的一种数据接入的技术路线图,如图3b所示,本领域技术人员可以按照该数据接入的技术路线实现外部数据的自动接入。
实施例三
图4是本发明实施例四提供的一种数据接入的装置的结构示意图,如图4所示,所述装置包括:第一待映射字段获取模块410、待匹配数据集向量得到模块420、第一标准数据集确定模块430、第一字段映射关系建立模块440和第一外部数据集接入模块450,其中:
第一待映射字段获取模块410,用于获取与待接入的第一外部数据集对应的至少一个第一待映射字段;
待匹配数据集向量得到模块420,用于根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量;
第一标准数据集确定模块430,用于根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集;
第一字段映射关系建立模块440,用于根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系;
第一外部数据集接入模块450,用于根据所述第一字段映射关系,将所述第一外部数据集接入至所述第一标准数据集中。
本发明公开了一种数据接入的方法、装置、计算机设备和可读存储介质,通过获取与待接入的第一外部数据集对应的至少一个第一待映射字段;根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量;根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集;根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系;根据所述第一字段映射关系,将所述第一外部数据集接入至所述第一标准数据集中。本发明可以实现数据接入的自动推荐和字段级别的自动映射。
在上述各实施例的基础上,还可以包括:
在所述第一字段映射关系建立模块之后,还包括:
第一字段身份标识计算模块,用于计算与所述第一待映射字段对应的第一字段身份标识;
映射缓存表存储模块,用于将所述第一字段身份标识、所述第一标准数据集身份标识以及所述第一字段映射关系存储于映射缓存表中;
第二映射字段获取模块,用于获取与待接入的第二外部数据集对应的至少一个第二待映射字段;
第二字段身份标识计算模块,用于计算与所述第二待映射字段对应的第二字段身份标识;
第二字段身份标识判断模块,用于如果确定所述映射缓存表中存储有所述第二字段身份标识,则获取所述映射缓存表中与所述第二字段身份标识对应的第二标准数据集身份标识以及第二字段映射关系;
第二外部数据集接入模块,用于根据所述第二字段映射关系,将所述第二外部数据集接入至所述第二标准数据集中;
所述待匹配数据集向量得到模块,包括:
分词子模块,用于根据预先训练的分词器,确定所述第一待映射字段的各分词;
词向量子模块,用于根据词向量模型,得到所述各分词对应的词向量;
组合子模块,用于将所述各分词对应的词向量组合,得到与所述第一外部数据集对应的待匹配数据集向量;
所述第一字段身份标识计算模块,包括:
排序子模块,用于根据预设排序规则,将所述第一待映射字段进行排序;
转换子模块,用于将所述排序后的第一待映射字段转换为长字符串;
计算子模块,用于根据哈希算法,将所述长字符串的哈希值作为所述第一字段身份标识;
所述第一标准数据集确定模块中,所述数据集分类模型为多层感知机MLP模型;
所述分词子模块中,所述分词器为条件随机场CRF模型;
所述词向量子模块中,所述词向量模型为词频-逆向文件频率TF-IDF模型。
实施例五
图5是本发明实施例五提供的一种计算机设备的结构示意图,如图5所示,该设备包括处理器50、存储器51、输入装置52和输出装置53;设备中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;设备的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据接入的方法对应的程序指令/模块(例如,数据接入的装置中的第一待映射字段获取模块401、待匹配数据集向量得到模块402、第一标准数据集确定模块403、第一字段映射关系建立模块404和第一外部数据集接入模块405)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的数据接入的方法。
存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置52可用于接收输入的数字或字符信息,以及产生与设备服务器的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据接入的方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述数据接入的装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种数据接入的方法,其特征在于,包括:
获取与待接入的第一外部数据集对应的至少一个第一待映射字段;
根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量;
根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集;
根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系;
根据所述第一字段映射关系,将所述第一外部数据集接入至所述第一标准数据集中。
2.根据权利要求1所述的方法,其特征在于,在根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系之后,还包括:
计算与所述第一待映射字段对应的第一字段身份标识;
将所述第一字段身份标识、所述第一标准数据集身份标识以及所述第一字段映射关系存储于映射缓存表中。
3.根据权利要求2所述的方法,其特征在于,还包括:
获取与待接入的第二外部数据集对应的至少一个第二待映射字段;
计算与所述第二待映射字段对应的第二字段身份标识;
如果确定所述映射缓存表中存储有所述第二字段身份标识,则获取所述映射缓存表中与所述第二字段身份标识对应的第二标准数据集身份标识以及第二字段映射关系;
根据所述第二字段映射关系,将所述第二外部数据集接入至所述第二标准数据集中。
4.根据权利要求1所述的方法,其特征在于,根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量,包括:
根据预先训练的分词器,确定所述第一待映射字段的各分词;
根据词向量模型,得到所述各分词对应的词向量;
将所述各分词对应的词向量组合,得到与所述第一外部数据集对应的待匹配数据集向量。
5.根据权利要求2所述的方法,其特征在于,计算与所述第一待映射字段对应的第一字段身份标识,包括:
如果确定所述第一待映射字段的数量为至少两个,则根据预设排序规则,将各所述第一待映射字段进行排序;
将所述排序后的各第一待映射字段合并为长字符串;
根据哈希算法计算所述长字符串的哈希值作为所述第一字段身份标识。
6.根据权利要求4所述的方法,其特征在于:
所述数据集分类模型为多层感知机MLP模型;
所述分词器为条件随机场CRF模型;
所述词向量模型为基于分层软性最大值Hierarchical Softmax的跨词序列Skip-Gram模型。
7.一种数据接入的装置,其特征在于,包括:
第一待映射字段获取模块,用于获取与待接入的第一外部数据集对应的至少一个第一待映射字段;
待匹配数据集向量得到模块,用于根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量;
第一标准数据集确定模块,用于根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集;
第一字段映射关系建立模块,用于根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系;
第一外部数据集接入模块,用于根据所述第一字段映射关系,将所述第一外部数据集接入至所述第一标准数据集中。
8.根据权利要求7所述的装置,其特征在于,
在所述第一字段映射关系建立模块之后,还包括:
第一字段身份标识计算模块,用于计算与所述第一待映射字段对应的第一字段身份标识;
映射缓存表存储模块,用于将所述第一字段身份标识、所述第一标准数据集身份标识以及所述第一字段映射关系存储于映射缓存表中;
第二映射字段获取模块,用于获取与待接入的第二外部数据集对应的至少一个第二待映射字段;
第二字段身份标识计算模块,用于计算与所述第二待映射字段对应的第二字段身份标识;
第二字段身份标识判断模块,用于如果确定所述映射缓存表中存储有所述第二字段身份标识,则获取所述映射缓存表中与所述第二字段身份标识对应的第二标准数据集身份标识以及第二字段映射关系;
第二外部数据集接入模块,用于根据所述第二字段映射关系,将所述第二外部数据集接入至所述第二标准数据集中;
所述待匹配数据集向量得到模块,包括:
分词子模块,用于根据预先训练的分词器,确定所述第一待映射字段的各分词;
词向量子模块,用于根据词向量模型,得到所述各分词对应的词向量;
组合子模块,用于将所述各分词对应的词向量组合,得到与所述第一外部数据集对应的待匹配数据集向量;
所述第一字段身份标识计算模块,包括:
排序子模块,用于根据预设排序规则,将所述第一待映射字段进行排序;
转换子模块,用于将所述排序后的第一待映射字段转换为长字符串;
计算子模块,用于根据哈希算法,将所述长字符串的哈希值作为所述第一字段身份标识;
所述第一标准数据集确定模块中,所述数据集分类模型为多层感知机MLP模型;
所述分词子模块中,所述分词器为条件随机场CRF模型;
所述词向量模型为基于分层软性最大值Hierarchical Softmax的跨词序列Skip-Gram模型。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的数据接入的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的数据接入的方法。
CN201711052158.3A 2017-10-30 2017-10-30 一种数据接入的方法、装置、计算机设备和可读存储介质 Active CN107844560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711052158.3A CN107844560B (zh) 2017-10-30 2017-10-30 一种数据接入的方法、装置、计算机设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711052158.3A CN107844560B (zh) 2017-10-30 2017-10-30 一种数据接入的方法、装置、计算机设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN107844560A CN107844560A (zh) 2018-03-27
CN107844560B true CN107844560B (zh) 2020-09-08

Family

ID=61681153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711052158.3A Active CN107844560B (zh) 2017-10-30 2017-10-30 一种数据接入的方法、装置、计算机设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN107844560B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472198B (zh) * 2018-05-10 2023-01-24 腾讯科技(深圳)有限公司 一种关键词的确定方法、文本处理的方法及服务器
CN109410069A (zh) * 2018-09-03 2019-03-01 平安医疗健康管理股份有限公司 结算数据处理方法、装置、计算机设备和存储介质
CN109474678B (zh) * 2018-10-31 2021-04-02 新华三信息安全技术有限公司 一种信息传送方法及装置
CN109543772B (zh) * 2018-12-03 2020-08-25 北京锐安科技有限公司 数据集自动匹配方法、装置、设备和计算机可读存储介质
CN109871382A (zh) * 2019-02-13 2019-06-11 北京明略软件系统有限公司 一种数据表接入标准库的实现方法和装置
CN109902083A (zh) * 2019-02-26 2019-06-18 北京明略软件系统有限公司 一种对标处理的方法、装置、计算机存储介质及终端
CN110414229B (zh) * 2019-03-29 2023-12-12 腾讯科技(深圳)有限公司 操作命令检测方法、装置、计算机设备及存储介质
CN110008193B (zh) * 2019-04-16 2021-06-18 成都四方伟业软件股份有限公司 数据标准化方法及装置
CN110287191B (zh) * 2019-06-25 2021-07-27 北京明略软件系统有限公司 数据对齐方法及装置、存储介质、电子装置
CN110471926B (zh) * 2019-08-15 2022-07-19 北京明智和术科技有限公司 一种档案建立方法及装置
CN110727710B (zh) * 2019-10-12 2023-02-07 平安医疗健康管理股份有限公司 数据分析方法、装置、计算机设备和存储介质
CN110941717B (zh) * 2019-11-22 2023-08-11 深圳马可孛罗科技有限公司 客票规则解析方法、装置、电子设备及计算机可读介质
CN110895533B (zh) * 2019-11-29 2023-01-17 北京锐安科技有限公司 一种表单映射方法、装置、计算机设备和存储介质
CN111061833B (zh) * 2019-12-10 2023-03-21 北京明略软件系统有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111310448B (zh) * 2020-02-10 2023-10-31 江苏满运软件科技有限公司 数据增补方法、系统、设备和存储介质
CN111667923B (zh) * 2020-06-05 2022-11-18 医渡云(北京)技术有限公司 数据匹配方法、装置、计算机可读介质及电子设备
CN111949716B (zh) * 2020-08-11 2024-07-09 北京锐安科技有限公司 格式化数据输出字段处理方法、计算机设备及存储介质
CN112597124A (zh) * 2020-11-30 2021-04-02 新华三大数据技术有限公司 一种数据字段映射方法、装置及存储介质
CN115186650B (zh) * 2022-09-07 2022-12-09 中国中金财富证券有限公司 数据检测方法及相关装置
CN117235240B (zh) * 2023-11-14 2024-02-20 神州医疗科技股份有限公司 一种基于异步消费队列的多模型结果融合问答方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055623A (zh) * 2016-05-26 2016-10-26 《中国学术期刊(光盘版)》电子杂志社有限公司 一种跨语言推荐方法和系统
CN107291673A (zh) * 2017-05-19 2017-10-24 广州视源电子科技股份有限公司 一种文档的处理方法、系统、可读存储介质及计算机设备
CN108536664A (zh) * 2017-03-01 2018-09-14 华东师范大学 商品领域的知识融合方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504654B (zh) * 2009-03-17 2011-02-09 东南大学 一种实现数据库模式自动匹配的方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN102271090B (zh) * 2011-09-06 2013-09-25 电子科技大学 基于传输层特征的流量分类方法及装置
US9164667B2 (en) * 2013-03-15 2015-10-20 Luminoso Technologies, Inc. Word cloud rotatable through N dimensions via user interface
CN106844390A (zh) * 2015-12-07 2017-06-13 北京航天长峰科技工业集团有限公司 一种部门间数据资源接入方法
CN106055652A (zh) * 2016-06-01 2016-10-26 兰雨晴 一种基于模式和实例的数据库匹配方法及系统
CN106682099A (zh) * 2016-12-01 2017-05-17 北京奇虎科技有限公司 一种数据的存储方法和装置
CN106897776A (zh) * 2017-01-17 2017-06-27 华南理工大学 一种基于名义属性的连续型特征构造方法
CN110427991A (zh) * 2019-07-22 2019-11-08 联动优势科技有限公司 一种字符串匹配方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055623A (zh) * 2016-05-26 2016-10-26 《中国学术期刊(光盘版)》电子杂志社有限公司 一种跨语言推荐方法和系统
CN108536664A (zh) * 2017-03-01 2018-09-14 华东师范大学 商品领域的知识融合方法
CN107291673A (zh) * 2017-05-19 2017-10-24 广州视源电子科技股份有限公司 一种文档的处理方法、系统、可读存储介质及计算机设备

Also Published As

Publication number Publication date
CN107844560A (zh) 2018-03-27

Similar Documents

Publication Publication Date Title
CN107844560B (zh) 一种数据接入的方法、装置、计算机设备和可读存储介质
CN108038183B (zh) 结构化实体收录方法、装置、服务器和存储介质
CN112148877B (zh) 语料文本的处理方法、装置及电子设备
CN107609185B (zh) 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质
CN109978060B (zh) 一种自然语言要素抽取模型的训练方法及装置
CN111444677A (zh) 基于大数据的阅读模型优化方法、装置、设备及介质
CN114676689A (zh) 语句文本的识别方法和装置、存储介质及电子装置
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN114492601A (zh) 资源分类模型的训练方法、装置、电子设备及存储介质
CN113449821A (zh) 融合语义和图像特征的智能训练方法、装置、设备及介质
CN112035449A (zh) 数据处理方法及装置、计算机设备、存储介质
CN115169342A (zh) 文本相似度计算方法、装置、电子设备及存储介质
CN110852103A (zh) 一种命名实体识别方法及装置
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
CN113220828A (zh) 意图识别模型处理方法、装置、计算机设备及存储介质
CN112256932A (zh) 一种地址字符串的分词方法及装置
CN112801784A (zh) 一种数字货币交易所的比特币地址挖掘方法及装置
CN110717577A (zh) 一种注意区域信息相似性的时间序列预测模型构建方法
US9378466B2 (en) Data reduction in nearest neighbor classification
CN116150357A (zh) 意图识别方法、装置、电子设备及可读存储介质
CN114818651A (zh) 文本相似度的确定方法、装置、存储介质及电子装置
CN114925158A (zh) 语句文本的意图识别方法和装置、存储介质及电子装置
CN114638308A (zh) 一种获取对象关系的方法、装置、电子设备和存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: The invention relates to a data access method, a device, a computer device and a readable storage medium

Effective date of registration: 20220105

Granted publication date: 20200908

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2022990000005

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220712

Granted publication date: 20200908

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2022990000005

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method, apparatus, computer device and readable storage medium for data access

Effective date of registration: 20220907

Granted publication date: 20200908

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2022110000206

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20200908

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2022110000206