CN111737529B - 一种多源异构数据采集方法 - Google Patents

一种多源异构数据采集方法 Download PDF

Info

Publication number
CN111737529B
CN111737529B CN202010713819.8A CN202010713819A CN111737529B CN 111737529 B CN111737529 B CN 111737529B CN 202010713819 A CN202010713819 A CN 202010713819A CN 111737529 B CN111737529 B CN 111737529B
Authority
CN
China
Prior art keywords
keyword
data
acquisition
keywords
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010713819.8A
Other languages
English (en)
Other versions
CN111737529A (zh
Inventor
张春林
李利军
李春青
常江波
尚雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dongfang tongwangxin Technology Co.,Ltd.
Beijing dongfangtong Software Co.,Ltd.
BEIJING TESTOR TECHNOLOGY Co.,Ltd.
Beijing Tongtech Co Ltd
Original Assignee
Beijing Dongfangtong Software Co ltd
Beijing Microvision Technology Co ltd
Beijing Testor Technology Co ltd
Beijing Tongtech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dongfangtong Software Co ltd, Beijing Microvision Technology Co ltd, Beijing Testor Technology Co ltd, Beijing Tongtech Co Ltd filed Critical Beijing Dongfangtong Software Co ltd
Priority to CN202010713819.8A priority Critical patent/CN111737529B/zh
Publication of CN111737529A publication Critical patent/CN111737529A/zh
Application granted granted Critical
Publication of CN111737529B publication Critical patent/CN111737529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种多源异构数据采集方法。包括:建立关键词表;获取各数据源采集内容,并创建对应的采集语法;根据所述采集语法,建立数据采集规则;将所述数据采集规则关联到所述关键词表对应关键词上。本发明有益效果为:通过构建数据源的关键词表,提高了数据采集的全面性。通过构建采集语法,本发明基于抽象语法树,并通过自定义反射规则进行确定采集语法,因此,采集语法灵活多变,因为是自定义的反射规则,因此符合数据采集的要求。本发明根据采集语法构建数据的采集规则,使得数据采集能够动态采集。本发明通过将数据采集规则关联到关键词表的关键词上,使得数据采集更加全面、动态更新的方式使得规则漏洞更好,采集的数据更加准确。

Description

一种多源异构数据采集方法
技术领域
本发明涉及数据采集技术领域,特别涉及一种多源异构数据采集方法。
背景技术
目前,随着互联网技术的快速发展,企业、政府、各种组织和团体从自身数据采集的需求出发,需要采集各种不同数据源的数据。例如:在制造领域,采集生产、采购、销售订单、服务、财务数据,在政府领域,采集工商、税务、人力资源、民政数据;在电信领域,采集网络服务、话费系统、客户服务系统数据,通过采集各个生产环节的数据形成数据资产供分析使用。
但是,现有技术中通过综合数据处理和分析的系统进行数据调取、采集时,因为对接的数据源比较多,数据源的区分辨别技术比较低,因为采集数据多需要人工辅助,导致数据采集费时费力,而且数据采集的智能化低,数据采集的准确性和全面性较低。
发明内容
本发明提供种多源异构数据采集方法,用以解决数据采集费时费力的情况。
一种多源异构数据采集方法,其特征在于,包括:
建立关键词表;
获取各数据源采集内容,并创建对应的采集语法;
根据所述采集语法,建立数据采集规则;
将所述数据采集规则关联到所述关键词表对应的关键词上进行多源异构的数据采集。
作为本发明的一种实施例:所述建立关键词表,包括:
获取所述多源异构数据的数据源,确定数据源关键词;
获取所述多源异构数据的数据内容的类型特征,确定类型特征关键词;
根据所述数据源关键词和类型特征关键词,确定所述数据源关键词和类型特征关键词的邻近词,将所述邻近词作为补充词;
根据所述数据源关键词、类型特征关键词和补充词,建立三维异构的关键词表。
作为本发明的一种实施例:所述建立关键词表,还包括:
所述建立关键词表,还包括:
对所述关键词表中的关键词进行预处理;
根据所述预处理,确定所述关键词的词性;
基于所述词性对所述关键词进行划分,确定划分字符;
基于关键词预设长度筛选算法对划分字符后的关键词进行计算,确定划分字符后的关键词的长度;
将所述划分字符后的关键词的长度与预设的理想长度进行比较,确定所述划分字符后的关键词的长度和理想长度的差异度;
基于所述差异度,通过预设的差异度阀值删除差异较大的关键词,并在删除差异较大的关键词后,确定关键词表。
作为本发明的一种实施例:所述基于关键词预设长度筛选算法对所述划分字符进行计算,确定所述关键词的长度,包括:
所述基于关键词预设长度筛选算法对划分字符后的关键词进行计算,确定所述划分字符后的关键词的长度,包括:
步骤1:确定划分字符后的关键词的字符串长度
Figure 699492DEST_PATH_IMAGE001
和关键词中每个字在所述划分 字符后的关键词中出现的频率
Figure 632813DEST_PATH_IMAGE002
,以及关键词的总字符串长度
Figure 567271DEST_PATH_IMAGE003
,计算所述划分字符后的 关键词的预设长度
Figure 731274DEST_PATH_IMAGE004
Figure 16762DEST_PATH_IMAGE005
步骤2:构建所述划分字符后的关键词在检索时的损失函数
Figure 160298DEST_PATH_IMAGE006
Figure 480421DEST_PATH_IMAGE007
其中,所述
Figure 644686DEST_PATH_IMAGE008
Figure 27257DEST_PATH_IMAGE009
为所述划分字符后的关键词的特征向量,所述
Figure 364697DEST_PATH_IMAGE010
表示划分 字符后的关键词的实际长度特征,所述
Figure 414693DEST_PATH_IMAGE011
表示划分字符后的关键词的预设长度特征;
Figure 281018DEST_PATH_IMAGE012
表示
Figure 744360DEST_PATH_IMAGE013
Figure 728235DEST_PATH_IMAGE014
的欧氏距离;所述
Figure 22950DEST_PATH_IMAGE015
为所述划分字符后的关键词的字符串长 度的上限值;当
Figure 263438DEST_PATH_IMAGE016
时,
Figure 886180DEST_PATH_IMAGE017
表示所述划分字符后的关键词为预设长度的损失 值,当
Figure 565423DEST_PATH_IMAGE018
时,
Figure 324432DEST_PATH_IMAGE017
表示表示所述划分字符后的关键词的字符串长度存在上限值 时的损失值;
步骤3:根据所述损失函数和所述预设长度,确定所划分字符后的关键词述关键词 的长度
Figure 1401DEST_PATH_IMAGE019
Figure 970494DEST_PATH_IMAGE020
其中,将所述划分字符后的关键词先代入式(2),判断所述划分字符的长度是否超过关键词的上限,当超过上限时,删除所述划分字符后的关键词,当没有超过上限时,将所述字符后的关键词导入所述式(1),确定关键词的长度。
作为本发明的一种实施例:所述获取各数据源采集内容,并创建对应的采集语法,包括:
基于所述各数据源采集内容,确定抽象语法树;
通过所述抽象语法树获取所述各数据源采集内容,基于自定义的反射规则,构建采集语法的逻辑执行规则;
基于所述各数据源采集内容的内容序列和内容形式,构建采集语法的语法结构;
根据所述逻辑执行规则和语法结构,确定所述采集语法。
作为本发明的一种实施例:所述根据所述采集语法,建立数据采集规则,包括:
根据所述采集语法的逻辑执行规则,确定所述多源异构数据的采集逻辑规则;
根据所述采集语法的语法结构,确定所述多源异构数据的语序配置规则;
根据所述关键词表的数据源关键词,确定多源异构数据的数据源判定规则;
根据所述关键词表的类型特征关键词,确定多源异构数据的内容采集规则;
根据所述关键词表的补充词,确定多源异构数据的动态更新规则。
作为本发明的一种实施例:所述根据所述采集语法,建立数据采集规则,还包括:
获取多源异构数据的采集请求,基于所述采集请求,调用所述采集语法;
基于所述采集语法确定多源异构采集数据的统一数据导入接口;
通过基于规则融合技术,融合数据采集规则,并将融合数据采集规则配置到所述统一数据导入接口,构建统一数据导入接口的数据采集规则。
作为本发明的一种实施例,所述将所述数据采集规则关联到所述关键词表对应关键词上,包括:
确定所述数据采集规则的规则特征;
根据所述规则特征,在所述关键词表中确定与所述规则特征相对应的关键词特征;
根据所述关键词特征确定所述关键词的,并对所述关键词进行地址标记;
根据所述地址标记,确定所述关键词的地址信息;
根据所述地址信息将所述数据采集规则配置到所述关键词表的关键词上。
作为本发明的一种实施例,所述方法还包括:
根据所述关键词表,在数据采集时,分别确定每个关键词对应索引采集路径;
基于所述索引采集路径的采集时间、链接时间和路径节点数,制定所述索引采集路径的约束规则;其中,
当所述约束规则为一条时,直接将所述约束规则带入索引采集路径;
当所述约束规则大于一条时,判断所述约束规则之间是否存在冲突的约束规则;
确定所述冲突的约束规则的使用频率,删除频率低的冲突的约束规则。
作为本发明的一种实施例,所述方法还包括:
根据所述关键词表,在数据采集时,判断同一索引采集路径是否对应有多个关键 词,生成路径和关键词的对应模型
Figure 63215DEST_PATH_IMAGE021
Figure 66943DEST_PATH_IMAGE022
其中,所述
Figure 649234DEST_PATH_IMAGE023
表示第
Figure 745104DEST_PATH_IMAGE024
个索引路径对应的第
Figure 703833DEST_PATH_IMAGE025
个关键词;
Figure 562067DEST_PATH_IMAGE026
Figure 518522DEST_PATH_IMAGE027
根据所述路径和关键词的对应模型,确定不同关键词直接检索到同一索引采集路 径的概率
Figure 665469DEST_PATH_IMAGE028
将所述概率
Figure 224627DEST_PATH_IMAGE028
代入所述路径和关键词的对应模型,得到路径和关键词的概率比模 型
Figure 140630DEST_PATH_IMAGE029
Figure 267986DEST_PATH_IMAGE030
其中,所述
Figure 902230DEST_PATH_IMAGE031
表示第
Figure 265078DEST_PATH_IMAGE024
个索引路径对应的第
Figure 35588DEST_PATH_IMAGE025
个关键词接检索到第
Figure 333845DEST_PATH_IMAGE024
个索引路径 的概率;
分别将每个索引路径代入所述路径和关键词的概率比模型,确定同一索引路径相对于不同关键词的概率比,并选择概率比最小的关键词为唯一关键词,并删除其它关键词。
本发明的有益效果在于:本发明通过构建数据源的关键词表,提高了数据采集的全面性。通过构建采集语法,本发明基于抽象语法树,并通过自定义反射规则进行确定采集语法,因此,采集语法灵活多变,因为是自定义的反射规则,因此符合数据采集的要求。本发明根据采集语法构建数据的采集规则,使得数据采集能够动态采集。本发明通过将数据采集规则关联到关键词表的关键词上,使得数据采集更加全面、动态更新的方式使得规则漏洞更好,采集的数据更加准确。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种多源异构数据采集方法的方法流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,导致企业在发展过程中积累了大量采用不同存储方式的业务数据,包括采用的数据管理系统也大不相同,从简单的文件数据库到复杂的网络数据库,它们构成了企业的异构数据源。
实施例1:
如附图1所述的一种多源异构数据采集方法的方法流程图,包括:
步骤100:建立关键词表;
步骤101:获取各数据源采集内容,并创建对应的采集语法;
步骤102:根据所述采集语法,建立数据采集规则;
步骤103:将所述数据采集规则关联到所述关键词表对应的关键词上进行多源异构的数据采集。
上述技术方案的原理在于:本发明在多源数据采购方面,首先确定多源异构数据的关键词表,多源异构数据的关键词表是由数据源确定的,而数据源的关键词包括数据源输出的数据的关键词、数据源的载体设备的关键词。而根据数据源的采集内容,创建对应的采集语法,本发明通过抽象语法树,并通过预设的自定义的反射规则,即:关键词和语法对应的反射规则,基于逻辑执行规则,得到采集语法。而构建采集规则,实现数据的动态更新和采集;根据采集语法的数据采集规则,通过规则融合技术,构建数据的采集规则。最后通过关键词表,将关键词和数据相对应。
上述技术方案的有益效果在于:本发明通过构建数据源的关键词表,提高了数据采集的全面性。通过构建采集语法,本发明基于抽象语法树,并通过自定义反射规则进行确定采集语法,因此,采集语法灵活多变,因为是自定义的反射规则,因此符合数据采集的要求。本发明根据采集语法构建数据的采集规则,使得数据采集能够动态采集。本发明通过将数据采集规则关联到关键词表的关键词上,使得数据采集更加全面、动态更新的方式使得规则漏洞更好,采集的数据更加准确。
实施例2:
作为本发明的一种实施例:所述建立关键词表,包括:
所述建立关键词表,包括:
获取所述多源异构数据的数据源,确定数据源关键词;
获取所述多源异构数据中数据内容的类型特征,确定类型特征关键词;
根据所述数据源关键词和类型特征关键词,确定所述数据源关键词和类型特征关键词的邻近词,并将所述邻近词作为补充词;
根据所述数据源关键词、类型特征关键词和补充词,建立三维异构的关键词表。
上述技术方案的原理在于:本发明在构建关键词表时,首先确定多源异构数据的数据源,进而通过数据源的数据内容确定数据的类型特征,基于类型特征确定关键词;在本发明中,除了数据源关键词、类型特征关键词还包括补充词,通过三方数据的关键词,构建了数据关键词的三维异构的关键词表。
上述技术方案的有益效果在于:本发明通过构建三维异构的关键词表,扩展了关键词的范围,使得异构数据获取的更加全面,而且本发明是基于三维特性构建三维异构的关键词表,因此,关键词表的立体性特征使得获取的多源异构数据更加容易区分。
实施例3:
所述建立关键词表,还包括:
对所述关键词表中的关键词进行预处理;
根据所述预处理,确定所述关键词的词性;
基于所述词性对所述关键词进行划分,确定划分字符;
基于关键词预设长度筛选算法对划分字符后的关键词进行计算,确定划分字符后的关键词的长度;
将所述划分字符后的关键词的长度与预设的理想长度进行比较,确定所述划分字符后的关键词的长度和理想长度的差异度;
基于所述差异度,通过预设的差异度阀值删除差异较大的关键词,并在删除差异较大的关键词后,确定关键词表。
上述技术方案的原理在于:本发明中的关键词还需要进行预处理,本发明的预处理基于词性,通过词性对预处理的关键词进行划分,而划分字符之后,可以得到多源异构数据的关键词的长度,但是数据获取时,关键词的长度太短可能会导致获取大量理解偏差的数据,而关键词太长,关键词意义唯一又可能会使得数据获取的太单一,导致数据缺失。因此通过和设定的理想长度的差异度进行判断,差异度和阀值不同,阀值只能设定关键词字符上限和下限,而差异度不局限于设定阀值,可以在需求获取的数据的主要意义上进行数据采集。
上述技术方案的有益效果在于:本发明中通过对关键词的预处理,可以极大的防止因为语意单一,导致获取的数据具有数据缺失。也能防止因为语意太宽泛,导致获取的数据具有偏差。
实施例4:
作为本发明的一种实施例:所述基于关键词预设长度筛选算法对划分字符后的关键词进行计算,确定所述划分字符后的关键词的长度,包括:
步骤1:确定划分字符后的关键词的字符串长度
Figure 455385DEST_PATH_IMAGE032
和关键词中每个字在所述划分 字符后的关键词中出现的频率
Figure 356345DEST_PATH_IMAGE033
,以及关键词的总字符串长度
Figure 246941DEST_PATH_IMAGE034
,计算所述划分字符后的 关键词的预设长度
Figure 966633DEST_PATH_IMAGE035
Figure 372207DEST_PATH_IMAGE005
步骤2:构建所述划分字符后的关键词在检索时的损失函数
Figure 280120DEST_PATH_IMAGE017
Figure 962905DEST_PATH_IMAGE007
其中,所述
Figure 665282DEST_PATH_IMAGE013
Figure 558152DEST_PATH_IMAGE036
为所述划分字符后的关键词的特征向量,所述
Figure 738597DEST_PATH_IMAGE010
表示划 分字符后的关键词的实际长度特征,所述
Figure 541468DEST_PATH_IMAGE011
表示划分字符后的关键词的预设长度特征;
Figure 414746DEST_PATH_IMAGE012
表示
Figure 794912DEST_PATH_IMAGE013
Figure 779048DEST_PATH_IMAGE014
的欧氏距离;所述
Figure 436426DEST_PATH_IMAGE015
为所述划分字符后的关键词的字符串 长度的上限值;当
Figure 480605DEST_PATH_IMAGE016
时,
Figure 348067DEST_PATH_IMAGE017
表示所述划分字符后的关键词为预设长度的损 失值,当
Figure 135895DEST_PATH_IMAGE018
时,
Figure 146314DEST_PATH_IMAGE017
表示表示所述划分字符后的关键词的字符串长度存在上 限值时的损失值;
步骤3:根据所述损失函数和所述预设长度,确定所划分字符后的关键词述关键词 的长度
Figure 361394DEST_PATH_IMAGE019
Figure 450573DEST_PATH_IMAGE020
其中,将所述划分字符后的关键词先代入式(2),判断所述划分字符的长度是否超过关键词的上限,当超过上限时,删除所述划分字符后的关键词,当没有超过上限时,将所述字符后的关键词导入所述式(1),确定关键词的长度。
上述技术方案的原理和有益效果在于:本发明在步骤1中计算的是关键词的预设长度,即,本发明设置的关键词的长度。在步骤2中本发明通过计算损失函数,即,关键词的实际长度与预设长度之间的损失函数,使得关键词的实际长度和预设长度之间的偏差度得以得到;进而本发明在步骤3中基于损失函数和预设长度得到关键词的实际函数。本发明通过计算关键词的上限,是为了防止关键词的长度超过本发明预设的上限,导致关键词无法使用,浪费资源数据获取的通道。
实施例5:
作为本发明的一种实施例:所述获取各数据源采集内容,并创建对应的采集语法,包括:
基于所述各数据源采集内容,确定抽象语法树;
通过所述抽象语法树获取所述各数据源采集内容,基于自定义的反射规则,构建采集语法的逻辑执行规则;
基于所述各数据源采集内容的内容序列和内容形式,构建采集语法的语法结构;
根据所述逻辑执行规则和语法结构,确定所述采集语法。
上述技术方案的原理在于:本发明在确定采集语法的时候,基于抽象语法树,进而使得本发明的采集语法主次分明,可扩展性高。通过自定义的反射规则构建逻辑执行规则,因为采集语法的反射规则是自定义设置,可以完全根据用户的需求设定,进一步提高数据获取的精确度。通过内容序列和内容形式确定语法结构,因此,本发明的语法符合内容获取的次序和形式,提高了数据采集的速度。
上述技术方案的有益效果在于:本发明因为采集语法主次分明,可扩展性高,使得采集的数据层次明显、数据获取的全面。反射规则的自定义设置,使得数据获取的更加精确,并且基于语法结构提高数据采集的速度。
实施例6:
作为本发明的一种实施例:所述根据所述采集语法,建立数据采集规则,包括:
根据所述采集语法的逻辑执行规则,确定所述多源异构数据的采集逻辑规则;
根据所述采集语法的语法结构,确定所述多源异构数据的语序配置规则;
根据所述关键词表的数据源关键词,确定多源异构数据的数据源判定规则;
根据所述关键词表的类型特征关键词,确定多源异构数据的内容采集规则;
根据所述关键词表的补充词,确定多源异构数据的动态更新规则。
上述技术方案的原理和有益效果在于:本明的数据采集规则包括采集逻辑规则、语序配置规则、内容采集规则和动态更新规则,采集逻辑规则是通过语法的逻辑执行规则,符合语法要求。数据源判定规则通过数据源关键词确定,因而,数据源判定精确,进而和数据源连接,实现数据连通传输的速度也加快。内容采集规则基于类型特征,因此提高了数据采集的精确性。而动态更新规则,使得数据获取的更加全面。
实施例7:
作为本发明的一种实施例:所述根据所述采集语法,建立数据采集规则,还包括:
获取多源异构数据的采集请求,基于所述采集请求,调用所述采集语法;
基于所述采集语法确定多源异构采集数据的统一数据导入接口;
通过基于规则融合技术,融合数据采集规则,并将融合数据采集规则配置到所述统一数据导入接口,构建统一数据导入接口的数据采集规则。
上述技术方案的原理在于:本发明中因为数据采集规则是多种数据采集规则,但是数据导入的数据传输接口和数据传输的通道是都要符合所有的数据采集规则,因此本发明通过规则融合技术,将所有的数据采集规则统一配置到一个数据导入的接口上,进而实现数据的统一传输。
上述技术方案的有益效果在于:本发明通过数据采集规则的融合技术,将所有的数据采集规则融合配置到一个数据接口或者数据传输通道中,实现数据的统一传输,当数据传输的通道多时,可以选择任意的数据传输通道进行传输,防止因为规则设置,数据无法传输。
实施例8:
作为本发明的一种实施例:所述将所述数据采集规则关联到所述关键词表对应关键词上,包括:
确定所述数据采集规则的规则特征;
根据所述规则特征,在所述关键词表中确定与所述规则特征相对应的关键词特征;
根据所述关键词特征确定所述关键词的,并对所述关键词进行地址标记;
根据所述地址标记,确定所述关键词的地址信息;
根据所述地址信息将所述数据采集规则配置到所述关键词表的关键词上。
上述技术方案的原理在于:本发明在数据传输时,将数据传输的规则特征和关键词的特征相对应,相当于将数据传输的规则和关键词绑定,最后通过关键词的地址标记,将数据采集特征匹配到关键词表的关键词上。
上述技术方案的有益效果在于:本发明通过将数据采集特征匹配到关键词表的关键词上,使得数据采集时,关键词时符合数据采集规则的,因此,在通过关键词进行检索的,检索的大部分数据都符合数据采集规则。
实施例9:
作为本发明的一种实施例,所述方法还包括:
根据所述关键词表,在数据采集时,分别确定每个关键词对应索引采集路径;每个关键词在检索到数据源的位置,和数据源连接时,关键词可能通过不同的索引采集路达到数据源位置,例如关键词通过不同的检索网站检索到同一个数据源。
基于所述索引采集路径的采集时间、链接时间和路径节点数,制定所述索引采集路径的约束规则;其中,索引采集路径需要确定唯一的一条最优的路径,因此,制定约束规则。
当所述约束规则为一条时,直接将所述约束规则带入索引采集路径;根据约束规则的数目,一条规则,就直接引用。
当所述约束规则大于一条时,判断所述约束规则之间是否存在冲突的约束规则;多条规则,在一个实施例中:索引采集时,即规定了链接时间的规则,防止链接超时,又规定了索引采集要经过所有的路径节点,防止索引采集时数据缺失;此时,可能存在如果符合链接时间的防止超时的规则,又要遵守经过所有路径节点的规则,此时就需要判断,经过所有节点进行数据传输,是否会发生链接超时。
确定所述冲突的约束规则的使用频率,删除频率低的冲突的约束规则。这个使用频率在此情况下为违规频率,违规较多,表示大部分数据根据上述实施例,可以产出链接时间的规则,用以保证数据不缺失。
上述技术方案的有益效果在于:通过制定关键词表的索引采集路径,可以根据实际情况,在规则不冲突的情况下,保证数据的链接时间足够迅速,保证链接的数据足够全面。保证数据采集的时间足够充足。
作为本发明的一种实施例,所述方法还包括:
根据所述关键词表,在数据采集时,判断同一索引采集路径是否对应有多个关键 词,生成路径和关键词的对应模型
Figure 42091DEST_PATH_IMAGE021
Figure 408482DEST_PATH_IMAGE022
其中,所述
Figure 591201DEST_PATH_IMAGE023
表示第
Figure 370939DEST_PATH_IMAGE024
个索引路径对应的第
Figure 438252DEST_PATH_IMAGE025
个关键词;
Figure 721466DEST_PATH_IMAGE026
,表 示索引路径的数目;
Figure 606245DEST_PATH_IMAGE027
,表示关键词的数量;
根据所述路径和关键词的对应模型,确定不同关键词直接检索到同一索引采集路 径的概率
Figure 607699DEST_PATH_IMAGE028
将所述概率
Figure 213124DEST_PATH_IMAGE028
代入所述路径和关键词的对应模型,得到路径和关键词的概率比模 型
Figure 616423DEST_PATH_IMAGE029
Figure 672104DEST_PATH_IMAGE030
其中,所述
Figure 895275DEST_PATH_IMAGE031
表示第
Figure 68505DEST_PATH_IMAGE037
个索引路径对应的第
Figure 326311DEST_PATH_IMAGE038
个关键词接检索到第
Figure 287314DEST_PATH_IMAGE024
个索引路径 的概率;
分别将每个索引路径代入所述路径和关键词的概率比模型,确定同一索引路径相对于不同关键词的概率比,并选择概率比最小的关键词为唯一关键词,并删除其它关键词。
上述技术方案的有益效果在于:放多个关键词能够链接的唯一索引采集路径是同一条,进而对应的采集地址是同一个。多余的的关键词并不会对采集的结果产生影响,但是占用了关键词表的空间,因此删除同一条索引采集路径中多个关键词,只留下唯一一个关键词。但是本删除其它关键词是一个关键词表动态更新的过程,而且是多个关键词都具有唯一一条索引采集路径,对应的也只有一个数据源。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种多源异构数据采集方法,其特征在于,包括:
建立关键词表;
获取各数据源的采集内容,并创建对应的采集语法;
根据所述采集语法,建立数据采集规则;
将所述数据采集规则关联到所述关键词表对应的关键词上进行多源异构的数据采集;
根据所述关键词表,在数据采集时,判断同一索引采集路径是否对应有多个关键词,生成路径和关键词的对应模型
Figure 514928DEST_PATH_IMAGE001
Figure 601833DEST_PATH_IMAGE002
其中,所述
Figure 341119DEST_PATH_IMAGE003
表示第
Figure 513474DEST_PATH_IMAGE004
个索引路径对应的第
Figure 340616DEST_PATH_IMAGE005
个关键词;
Figure 609923DEST_PATH_IMAGE006
Figure 457794DEST_PATH_IMAGE007
根据所述路径和关键词的对应模型,确定不同关键词直接检索到同一索引采集路径的概率
Figure 304396DEST_PATH_IMAGE008
将所述概率
Figure 263124DEST_PATH_IMAGE008
代入所述路径和关键词的对应模型,得到路径和关键词的概率比模型
Figure 121359DEST_PATH_IMAGE009
Figure 140131DEST_PATH_IMAGE010
其中,所述
Figure 959182DEST_PATH_IMAGE011
表示第
Figure 783919DEST_PATH_IMAGE004
个索引路径对应的第
Figure 699922DEST_PATH_IMAGE012
个关键词接检索到第
Figure 810966DEST_PATH_IMAGE004
个索引路径的概率;
分别将每个索引路径代入所述路径和关键词的概率比模型,确定同一索引路径相对于不同关键词的概率比,并选择概率比最小的关键词为唯一关键词,并删除其它关键词。
2.根据权利要求1所述的一种多源异构数据采集方法,其特征在于,所述建立关键词表,包括:
获取所述多源异构数据的数据源,确定数据源关键词;
获取所述多源异构数据中数据内容的类型特征,确定类型特征关键词;
根据所述数据源关键词和类型特征关键词,确定所述数据源关键词和类型特征关键词的邻近词,并将所述邻近词作为补充词;
根据所述数据源关键词、类型特征关键词和补充词,建立三维异构的关键词表。
3.根据权利要求1所述的一种多源异构数据采集方法,其特征在于,所述建立关键词表,还包括:
对所述关键词表中的关键词进行预处理;
根据所述预处理,确定所述关键词的词性;
基于所述词性对所述关键词进行划分,确定划分字符;
基于关键词预设长度筛选算法对划分字符后的关键词进行计算,确定划分字符后的关键词的长度;
将所述划分字符后的关键词的长度与预设的理想长度进行比较,确定所述划分字符后的关键词的长度和理想长度的差异度;
基于所述差异度,通过预设的差异度阀值删除差异较大的关键词,并在删除差异较大的关键词后,确定关键词表。
4.根据权利要求3所述的一种多源异构数据采集方法,其特征在于,所述基于关键词预设长度筛选算法对划分字符后的关键词进行计算,确定所述划分字符后的关键词的长度,包括:
步骤1:确定划分字符后的关键词的字符串长度
Figure 445210DEST_PATH_IMAGE013
和关键词中每个字在所述划分字符后的关键词中出现的频率
Figure 808058DEST_PATH_IMAGE014
,以及关键词的总字符串长度
Figure 844147DEST_PATH_IMAGE015
,计算所述划分字符后的关键词的预设长度
Figure 876825DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
步骤2:构建所述划分字符后的关键词在检索时的损失函数
Figure 795103DEST_PATH_IMAGE018
Figure 899325DEST_PATH_IMAGE019
) ;
其中,所述
Figure DEST_PATH_IMAGE020
Figure 445713DEST_PATH_IMAGE021
为所述划分字符后的关键词的特征向量,所述
Figure 39505DEST_PATH_IMAGE022
表示划分字符后的关键词的实际长度特征,所述
Figure 382762DEST_PATH_IMAGE023
表示划分字符后的关键词的预设长度特征;
Figure 228358DEST_PATH_IMAGE024
表示
Figure 973460DEST_PATH_IMAGE020
Figure 738154DEST_PATH_IMAGE025
的欧氏距离;所述
Figure 568707DEST_PATH_IMAGE026
为所述划分字符后的关键词的字符串长度的上限值;当
Figure 953681DEST_PATH_IMAGE027
时,
Figure 615607DEST_PATH_IMAGE018
表示所述划分字符后的关键词为预设长度的损失值,当
Figure 488885DEST_PATH_IMAGE028
时,
Figure 744417DEST_PATH_IMAGE018
表示表示所述划分字符后的关键词的字符串长度存在上限值时的损失值;
步骤3:根据所述损失函数和所述预设长度,确定所划分字符后的关键词述关键词的长度
Figure 728553DEST_PATH_IMAGE029
Figure 510565DEST_PATH_IMAGE030
其中,将所述划分字符后的关键词先代入式(2),判断所述划分字符的长度是否超过关键词的上限,当超过上限时,删除所述划分字符后的关键词,当没有超过上限时,将所述字符后的关键词导入所述式(1),确定关键词的长度。
5.根据权利要求1所述的一种多源异构数据采集方法,其特征在于,所述获取各数据源采集内容,并创建对应的采集语法,包括:
基于所述各数据源的采集需求,确定抽象语法树;
通过所述抽象语法树获取所述各数据源采集内容,基于自定义的反射规则,构建采集语法的逻辑执行规则;
基于所述各数据源采集内容的内容序列和内容形式,构建采集语法的语法结构;
根据所述逻辑执行规则和语法结构,确定所述采集语法。
6.根据权利要求1所述的一种多源异构数据采集方法,其特征在于,所述根据所述采集语法,建立数据采集规则,包括:
根据所述采集语法的逻辑执行规则,确定所述多源异构数据的采集逻辑规则;
根据所述采集语法的语法结构,确定所述多源异构数据的语序配置规则;
根据所述关键词表的数据源关键词,确定多源异构数据的数据源判定规则;
根据所述关键词表的类型特征关键词,确定多源异构数据的内容采集规则;
根据所述关键词表的补充词,确定多源异构数据的动态更新规则。
7.根据权利要求1所述的一种多源异构数据采集方法,其特征在于,所述根据所述采集语法,建立数据采集规则,还包括:
获取多源异构数据的采集请求,基于所述采集请求,调用所述采集语法;
基于所述采集语法确定多源异构采集数据的统一数据导入接口;
通过基于规则融合技术,融合数据采集规则,并将融合数据采集规则配置到所述统一数据导入接口,构建统一数据导入接口的数据采集规则。
8.根据权利要求1所述的一种多源异构数据采集方法,其特征在于,所述将所述数据采集规则关联到所述关键词表对应关键词上,包括:
确定所述数据采集规则的规则特征;
根据所述规则特征,在所述关键词表中确定与所述规则特征相对应的关键词特征;
根据所述关键词特征确定所述关键词的,并对所述关键词进行地址标记;
根据所述地址标记,确定所述关键词的地址信息;
根据所述地址信息将所述数据采集规则配置到所述关键词表的关键词上。
9.根据权利要求1所述的一种多源异构数据采集方法,其特征在于,所述方法还包括:
根据所述关键词表,在数据采集时,分别确定每个关键词对应索引采集路径;
基于所述索引采集路径的采集时间、链接时间和路径节点数,制定所述索引采集路径的约束规则;其中,
当所述约束规则为一条时,直接将所述约束规则带入索引采集路径;
当所述约束规则大于一条时,判断所述约束规则之间是否存在冲突的约束规则;
确定所述冲突的约束规则的使用频率,删除频率低的冲突的约束规则。
CN202010713819.8A 2020-07-23 2020-07-23 一种多源异构数据采集方法 Active CN111737529B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010713819.8A CN111737529B (zh) 2020-07-23 2020-07-23 一种多源异构数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010713819.8A CN111737529B (zh) 2020-07-23 2020-07-23 一种多源异构数据采集方法

Publications (2)

Publication Number Publication Date
CN111737529A CN111737529A (zh) 2020-10-02
CN111737529B true CN111737529B (zh) 2020-12-18

Family

ID=72657330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010713819.8A Active CN111737529B (zh) 2020-07-23 2020-07-23 一种多源异构数据采集方法

Country Status (1)

Country Link
CN (1) CN111737529B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449326A (zh) * 2021-08-30 2021-09-28 北京博睿天扬科技有限公司 一种基于多源异构数据处理的工业大数据分析系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229695A (zh) * 2017-05-23 2017-10-03 深圳大学 多平台航空电子大数据系统及方法
CN108229175B (zh) * 2017-12-28 2020-04-10 中国科学院信息工程研究所 一种多维异构取证信息的关联分析系统及方法
CN111026796B (zh) * 2019-11-29 2023-05-16 华南农业大学 多源异构数据采集方法、装置、系统、介质和设备

Also Published As

Publication number Publication date
CN111737529A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
US11681944B2 (en) System and method to generate a labeled dataset for training an entity detection system
US20190236460A1 (en) Machine learnt match rules
US8972336B2 (en) System and method for mapping source columns to target columns
CN101192237B (zh) 查询多方面信息的方法和系统
CN107329888A (zh) 智能合约操作码覆盖率计算方法和系统
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN106662854A (zh) 用于控制系统的装置的配置的方法和系统
CN112559704A (zh) 一种用户自定义配置的知识图谱生成工具
CN110866029B (zh) sql语句构建方法、装置、服务器及可读存储介质
CN105138601A (zh) 一种支持模糊约束关系的图模式匹配方法
CN110708116A (zh) 一种快速定位分析光路同路由的光路管理系统和方法
CN111899821A (zh) 处理医疗机构数据的方法、构建数据库的方法和装置
CN112672370A (zh) 网元指标数据的自动检测方法及系统、设备和存储介质
CN112883022A (zh) 一种基于xml模板的对象数据清洗转换方法
CN111737529B (zh) 一种多源异构数据采集方法
CN117235285B (zh) 融合知识图谱数据的方法及装置
CN109726292A (zh) 面向大规模多语种数据的文本分析方法和装置
CN106933844B (zh) 面向大规模rdf数据的可达性查询索引的构建方法
US10003492B2 (en) Systems and methods for managing data related to network elements from multiple sources
CN111078773A (zh) 一种数据处理方法及装置
CN115952770A (zh) 一种数据标准化的处理方法、装置、电子设备及存储介质
CN116127154A (zh) 知识标签推荐方法、装置、电子设备及存储介质
CN114756532A (zh) 基于文化天猫的多源异构数据采集方法、装置和电子设备
CN107220249A (zh) 基于分类的全文搜索
Labreche et al. A general approach for of schema matching problem: case of databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 311, main building, 139 Fengtai Road crossing, Fengtai District, Beijing

Patentee after: BEIJING TONGTECH Co.,Ltd.

Patentee after: Beijing dongfangtong Software Co.,Ltd.

Patentee after: Beijing Dongfang tongwangxin Technology Co.,Ltd.

Patentee after: BEIJING TESTOR TECHNOLOGY Co.,Ltd.

Address before: Room 311, main building, 139 Fengtai Road crossing, Fengtai District, Beijing

Patentee before: BEIJING TONGTECH Co.,Ltd.

Patentee before: Beijing dongfangtong Software Co.,Ltd.

Patentee before: BEIJING MICROVISION TECHNOLOGY Co.,Ltd.

Patentee before: BEIJING TESTOR TECHNOLOGY Co.,Ltd.