CN106777261A - 基于多源异构数据集的数据查询方法及装置 - Google Patents

基于多源异构数据集的数据查询方法及装置 Download PDF

Info

Publication number
CN106777261A
CN106777261A CN201611235535.2A CN201611235535A CN106777261A CN 106777261 A CN106777261 A CN 106777261A CN 201611235535 A CN201611235535 A CN 201611235535A CN 106777261 A CN106777261 A CN 106777261A
Authority
CN
China
Prior art keywords
query result
noun
data set
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611235535.2A
Other languages
English (en)
Inventor
张军
贾西贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaao Data Technology Co Ltd
Original Assignee
Shenzhen Huaao Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaao Data Technology Co Ltd filed Critical Shenzhen Huaao Data Technology Co Ltd
Priority to CN201611235535.2A priority Critical patent/CN106777261A/zh
Publication of CN106777261A publication Critical patent/CN106777261A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于数据查询技术领域,提供了一种基于多源异构数据集的数据查询方法及装置。该方法包括获取指定的关键词,根据关键词和预获取语料库的语种间关联关系,获取关键词翻译为不同语种时的名词,根据每个名词和该名词在语料库中所属语种的语种内关联关系,获取该名词的同义词、近义词、音似词和形似词四种关联词汇中的至少一种,将每个数据集名称分别与关键词和关联词汇进行比较,获取与关键词或关联词汇匹配的目标数据集,形成目标数据集数组,对目标数据集数组进行去重处理和排序,形成关键词的查询结果。本发明基于多源异构数据集的数据查询方法及装置,能够在多源异构海量数据集的场景下,快速、准确地进行数据集查询,提高数据集查询效率。

Description

基于多源异构数据集的数据查询方法及装置
技术领域
本发明涉及数据查询技术领域,具体涉及一种基于多源异构数据集的数据查询方法及装置。
背景技术
目前,在信息化及大数据应用越来越深入的情况下,产生了越来越多的数据集。在海量超多数据集的场景下,中文名、英文名、同义词的中文关键词、近义词的中文关键词常常混杂在一起,使得用户很难精确的指定目标数据集,进行业务处理,致使业务查询效率降低,无法满足用户快速查询信息的业务需求。
在多源异构海量数据集的场景下,提高数据集查询能力,成为未来发展的趋势。
发明内容
针对现有技术中的缺陷,本发明提供基于多源异构数据集的数据查询方法及装置,能够在多源异构海量数据集的场景下,快速、准确地进行数据集查询,提高数据集查询效率。
第一方面,本发明提供一种基于多源异构数据集的数据查询方法,该方法包括:
关键词获取步骤:获取指定的关键词;
关键词翻译步骤:根据关键词和预获取语料库的语种间关联关系,获取关键词翻译为不同语种时的名词;
关联词汇获取步骤:根据每个名词和该名词在语料库中所属语种的语种内关联关系,获取该名词的同义词、近义词、音似词和形似词四种关联词汇中的至少一种;
数据集名称匹配步骤:将每个数据集名称分别与关键词和关联词汇进行比较,获取与关键词或关联词汇匹配的目标数据集,形成目标数据集数组,数据集名称为预获取数据集的名称;
查询结果形成步骤:对目标数据集数组进行去重处理和排序,形成关键词的查询结果。
进一步地,根据每个名词和该名词在语料库中所属语种的语种内关联关系,获取该名词的同义词、近义词、音似词和形似词四种关联词汇中的至少一种,具体包括:
根据每个名词和该名词在语料库中所属语种的同义关联关系,获取该名词的同义词;
根据每个名词和该名词在语料库中所属语种的近义关联关系,获取该名词的近义词;
根据每个名词和该名词在语料库中所属语种的发音相似度阈值,获取该名词的音似词;
根据每个名词和该名词在语料库中所属语种的结构相似度阈值,获取该名词的形似词,语种内关联关系包括同义关联关系、近义关联关系、发音相似度阈值和结构相似度阈值。
基于上述任意基于多源异构数据集的数据查询方法实施例,进一步地,在查询结果形成步骤之后,该方法还包括查询结果再处理步骤:
获取第一查询结果和第二查询结果,第一查询结果为第一关键词的查询结果,第二查询结果为第二关键词的查询结果;
根据指定的运算关系,对第一查询结果和第二查询结果进行运算处理,形成再处理查询结果。
进一步地,根据指定的运算关系,对第一查询结果和第二查询结果进行运算处理,形成再处理查询结果,具体包括:
根据指定的交集运算关系,遍历第一查询结果和第二查询结果中的每项目标数据集,筛选出同时存在于第一查询结果和第二查询结果中的目标数据集,并将筛选出的目标数据集更新至交集查询结果;
根据指定的并集运算关系,将第一查询结果与第二查询结果合并,并进行去重处理和排序,形成并集查询结果;
根据指定的差集运算关系,遍历第一查询结果和第二查询结果中的每项目标数据集,筛选出存在于第一查询结果且不存在第二查询结果中的目标数据集,并将筛选出的目标数据集更新至差集查询结果;运算关系包括交集运算关系、并集运算关系和差集运算关系,再处理查询结果包括交集查询结果、并集查询结果和差集查询结果。
基于上述任意基于多源异构数据集的数据查询方法实施例,进一步地,在关联词汇获取步骤之后,数据集名称匹配步骤之前,该方法还包括关联词汇筛选步骤:
根据预设置的关联词汇筛选原则,检验关联词汇,获取符合关联词汇筛选原则的目标关联词汇;
将每个数据集名称分别与关键词和关联词汇进行比较,获取与关键词或关联词汇匹配的目标数据集,具体包括:
将每个数据集名称分别与关键词和目标关联词汇进行比较,获取与关键词或目标关联词汇匹配的目标数据集。
进一步地,根据预设置的关联词汇筛选原则,检验关联词汇,获取符合关联词汇筛选原则的目标关联词汇,具体包括:
根据预设置的语种筛选原则,检验关联词汇,保留关键词在目标语种中的目标关联词汇;
根据预设置的关联词汇种类筛选原则,检验关联词汇,保留该关键词指定种类的目标关联词汇。
进一步地,将每个数据集名称分别与关键词和目标关联词汇进行比较,获取与关键词或目标关联词汇匹配的目标数据集,具体包括:
将每个数据集名称分别与关键词和目标关联词汇进行比较:
若该数据集名称与关键词中均包含预指定顺序的字符,则判断该数据集为目标数据集;或
若该数据集名称与目标关联词汇中均包含预指定顺序的字符,则判断该数据集为目标数据集。
第二方面,本发明提供一种基于多源异构数据集的数据查询装置,该装置包括关键词获取模块、关键词翻译模块、关联词汇获取模块、数据集名称匹配模块和查询结果形成模块,关键词获取模块用于获取指定的关键词;关键词翻译模块用于根据关键词和预获取语料库的语种间关联关系,获取关键词翻译为不同语种时的名词;关联词汇获取模块用于根据每个名词和该名词在语料库中所属语种的语种内关联关系,获取该名词的同义词、近义词、音似词和形似词四种关联词汇中的至少一种;数据集名称匹配模块用于将每个数据集名称分别与关键词和关联词汇进行比较,获取与关键词或关联词汇匹配的目标数据集,形成目标数据集数组,数据集名称为预获取数据集的名称;查询结果形成模块用于对目标数据集数组进行去重处理和排序,形成关键词的查询结果。
进一步地,关联词汇获取模块具体包括同义词获取子模块、近义词获取子模块、音似词获取子模块和形似词获取子模块,同义词获取子模块用于根据每个名词和该名词在语料库中所属语种的同义关联关系,获取该名词的同义词;近义词获取子模块用于根据每个名词和该名词在语料库中所属语种的近义关联关系,获取该名词的近义词;音似词获取子模块用于根据每个名词和该名词在语料库中所属语种的发音相似度阈值,获取该名词的音似词;形似词获取子模块用于根据每个名词和该名词在语料库中所属语种的结构相似度阈值,获取该名词的形似词,语种内关联关系包括同义关联关系、近义关联关系、发音相似度阈值和结构相似度阈值。
基于上述任意基于多源异构数据集的数据查询装置实施例,进一步地,该装置还包括查询结果再处理模块,查询结果再处理模块包括查询结果获取子模块和查询结果运算子模块,查询结果获取子模块用于获取第一查询结果和第二查询结果,第一查询结果为第一关键词的查询结果,第二查询结果为第二关键词的查询结果;查询结果运算子模块用于根据指定的运算关系,对第一查询结果和第二查询结果进行运算处理,形成再处理查询结果。
由上述技术方案可知,本实施例提供的基于多源异构数据集的数据查询方法及装置,通过语料库快速获取指定关键词在各种语种的关联词汇,并且,在多源异构海量数据集中,该方法根据关键词和延伸出的关联词汇进行查找,能够更全面、准确地查找到目标数据集,满足用户多样化的业务查询需求,经过去重处理和排序后的数据集查询结果,方便用户快速查看,有助于提高业务查询效率。
因此,本实施例基于多源异构数据集的数据查询方法及装置,能够在多源异构海量数据集的场景下,快速、准确地进行数据集查询,提高数据集查询效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了本发明实施例所提供的一种基于多源异构数据集的数据查询方法的流程图;
图2示出了本发明实施例所提供的一种基于多源异构数据集的数据查询装置的结构框图;
图3示出了本发明实施例所提供的另一种基于多源异构数据集的数据查询装置的结构框图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
第一方面,本发明实施例所提供的一种基于多源异构数据集的数据查询方法,结合图1,该方法包括:
关键词获取步骤S1:获取指定的关键词,如获取某个指定的关键词“公司”。
关键词翻译步骤S2:根据关键词和预获取语料库的语种间关联关系,获取关键词翻译为不同语种时的名词,在此,语料库包括众多词汇,且每个词汇在所有语种中均有相应的名词,以此形成语种间关联关系,并且,在每种语种内,该语料库能够建立各个词汇之间的语种内关联关系,如同义词关联关系、同义词关联关系等,且该语料库还设有发音相似度阈值和结构相似度阈值,以查询音似词和形似词。例如,从语料库中获取该“公司”的所有语种的翻译,如英文“company”。
关联词汇获取步骤S3:根据每个名词和该名词在语料库中所属语种的语种内关联关系,获取该名词的同义词、近义词、音似词和形似词四种关联词汇中的至少一种,在此,从语料库中获取该“公司”的关联词汇“企业”、“firm”。
数据集名称匹配步骤S4:将每个数据集名称分别与关键词和关联词汇进行比较,获取与关键词或关联词汇匹配的目标数据集,形成目标数据集数组,数据集名称为预获取数据集的名称。
查询结果形成步骤S5:对目标数据集数组进行去重处理和排序,形成关键词的查询结果,在此,查询结果为目标数据集的名称,而不是目标数据集中的具体数据。
由上述技术方案可知,本实施例提供的基于多源异构数据集的数据查询方法,通过语料库快速获取指定关键词在各种语种的关联词汇,并且,在多源异构海量数据集中,该方法根据关键词和延伸出的关联词汇进行查找,能够更全面、准确地查找到目标数据集,满足用户多样化的业务查询需求,经过去重处理和排序后的数据集查询结果,方便用户快速查看,有助于提高业务查询效率。
因此,本实施例基于多源异构数据集的数据查询方法,能够在多源异构海量数据集的场景下,快速、准确地进行数据集查询,提高数据集查询效率。
为了进一步提高本实施例基于多源异构数据集的数据查询方法的准确性,具体地,在关联词汇获取方面,该方法的实现过程如下:
根据每个名词和该名词在语料库中所属语种的同义关联关系,获取该名词的同义词。
根据每个名词和该名词在语料库中所属语种的近义关联关系,获取该名词的近义词。
根据每个名词和该名词在语料库中所属语种的发音相似度阈值,获取该名词的音似词。
根据每个名词和该名词在语料库中所属语种的结构相似度阈值,获取该名词的形似词,语种内关联关系包括同义关联关系、近义关联关系、发音相似度阈值和结构相似度阈值。在此,该方法能够根据不同的语种内关联关系,如同义关联关系、近义关联关系、发音相似度阈值和结构相似度阈值,获取同义词、近义词、音似词和形似词,预设置的发音相似度阈值和结构相似度阈值,能够限制音似词和形似词的纳入范围,有助于提高关联词汇的准确性,为获取可靠的数据集查询结果提供有效的信息支持。
为了进一步方便用户应用本实施例基于多源异构数据集的数据查询方法,具体地,在查询结果形成步骤S5之后,该方法还包括查询结果再处理步骤:
获取第一查询结果和第二查询结果,第一查询结果为第一关键词的查询结果,第二查询结果为第二关键词的查询结果。如第一关键词为“企业”,第一查询结果为DList1,第二关键词为“中国”,第二查询结果为DList2。
根据指定的运算关系,对第一查询结果和第二查询结果进行运算处理,形成再处理查询结果。指定的运算关系可以是交集运算关系、并集运算关系、差集运算关系和补集运算关系,以及其他对查询结果进行二次处理的运算处理规则等,相应的,再处理查询结果包括交集查询结果、并集查询结果、差集查询结果和补集查询结果,以及其他类型查询结果,以满足用户多样化的业务需求,拓宽应用场景,方便用户使用,有助于提高用户体验。
例如,根据指定的交集运算关系,遍历第一查询结果和第二查询结果中的每项目标数据集,筛选出同时存在于第一查询结果和第二查询结果中的目标数据集,并将筛选出的目标数据集更新至交集查询结果。在此,即遍历DList1和DList2的每一项目标数据集,如果某项目标数据集同时存在于DList1和DList2中,则将该项目标数据集记录到交集查询结果DList3,并进行输出。
根据指定的并集运算关系,将第一查询结果与第二查询结果合并,并进行去重处理和排序,形成并集查询结果。即合并DList1、DList2,再进行去重和排序,输出并集查询结果DList4。
根据指定的差集运算关系,遍历第一查询结果和第二查询结果中的每项目标数据集,筛选出存在于第一查询结果且不存在第二查询结果中的目标数据集,并将筛选出的目标数据集更新至差集查询结果。如果某项目标数据集存在于DList1,但不存在于DList2中,或某项目标数据集不存在于DList1,但存在于DList2中,则将该项目标数据集记录到差集查询结果DList5,并进行输出。
相应的,对于补集运算关系,若第一查询结果包括且不仅限于第二查询结果中的目标数据集,根据指定的补集运算关系,遍历第一查询结果和第二查询结果中的每项目标数据集,筛选出存在于第一查询结果且不存在第二查询结果中的目标数据集,并将筛选出的目标数据集更新至补集查询结果。如果某项目标数据集存在于DList1,但不存在于DList2中,则将该项目标数据集记录到补集查询结果DList6,并进行输出。
为了进一步提高本实施例基于多源异构数据集的数据查询方法的处理效率,该方法还能够根据用户需求,对目标数据集进行过滤与筛选。在关联词汇获取步骤S3之后,数据集名称匹配步骤S4之前,该方法还包括关联词汇筛选步骤:
根据预设置的关联词汇筛选原则,检验关联词汇,获取符合关联词汇筛选原则的目标关联词汇,再将每个数据集名称分别与关键词和目标关联词汇进行比较,获取与关键词或目标关联词汇匹配的目标数据集。其中,关联词筛选原则可以根据用户需求设置,如语种限制,则设置语种筛选原则,根据预设置的语种筛选原则,检验关联词汇,保留关键词在目标语种中的目标关联词汇。若用户需要关联词汇种类的限制,则设置关联词汇种类筛选原则,根据预设置的关联词汇种类筛选原则,检验关联词汇,保留该关键词指定种类的目标关联词汇,如指定的筛选出同义词、近义词等,关联词汇筛选原则包括语种筛选原则和关联词汇种类筛选原则。此时,目标数据集的数量会大大降低,有助于提高后续数据处理效率。在此,用户可以根据实际需求,进行筛选,既增强了用户体验,又有助于提高数据处理效率。
同时,在获取目标数据集时,针对数据集名称、关键词和目标关联词汇均含有字符的情形,该方法的匹配规则为包含预指定顺序的字符,即将每个数据集名称分别与关键词和目标关联词汇进行比较:若该数据集名称与关键词中均包含预指定顺序的字符,则判断该数据集为目标数据集;或若该数据集名称与目标关联词汇中均包含预指定顺序的字符,则判断该数据集为目标数据集。在此,若含有预指定顺序的字符,即可达到匹配的要求,该方法并不要求大小写一致,能够保证获取目标数据集的准确性,同时,也有助于提供数据处理效率。
第二方面,本发明实施例提供一种基于多源异构数据集的数据查询装置,结合图2,该装置包括关键词获取模块1、关键词翻译模块2、关联词汇获取模块3、数据集名称匹配模块4和查询结果形成模块5,关键词获取模块1用于获取指定的关键词;关键词翻译模块2用于根据关键词和预获取语料库的语种间关联关系,获取关键词翻译为不同语种时的名词;关联词汇获取模块3用于根据每个名词和该名词在语料库中所属语种的语种内关联关系,获取该名词的同义词、近义词、音似词和形似词四种关联词汇中的至少一种;数据集名称匹配模块4用于将每个数据集名称分别与关键词和关联词汇进行比较,获取与关键词或关联词汇匹配的目标数据集,形成目标数据集数组,数据集名称为预获取数据集的名称;查询结果形成模块5用于对目标数据集数组进行去重处理和排序,形成关键词的查询结果。
由上述技术方案可知,本实施例提供的基于多源异构数据集的数据查询装置,通过语料库快速获取指定关键词在各种语种的关联词汇,并且,在多源异构海量数据集中,该装置根据关键词和延伸出的关联词汇进行查找,能够更全面、准确地查找到目标数据集,满足用户多样化的业务查询需求,经过去重处理和排序后的数据集查询结果,方便用户快速查看,有助于提高业务查询效率。
因此,本实施例基于多源异构数据集的数据查询装置,能够在多源异构海量数据集的场景下,快速、准确地进行数据集查询,提高数据集查询效率。
具体地,结合图3,关联词汇获取模块3具体包括同义词获取子模块、近义词获取子模块、音似词获取子模块和形似词获取子模块,同义词获取子模块用于根据每个名词和该名词在语料库中所属语种的同义关联关系,获取该名词的同义词;近义词获取子模块用于根据每个名词和该名词在语料库中所属语种的近义关联关系,获取该名词的近义词;音似词获取子模块用于根据每个名词和该名词在语料库中所属语种的发音相似度阈值,获取该名词的音似词;形似词获取子模块用于根据每个名词和该名词在语料库中所属语种的结构相似度阈值,获取该名词的形似词,语种内关联关系包括同义关联关系、近义关联关系、发音相似度阈值和结构相似度阈值。在此,该关联词汇获取模块3能够根据不同的语种内关联关系,如同义关联关系、近义关联关系、发音相似度阈值和结构相似度阈值,获取同义词、近义词、音似词和形似词,预设置的发音相似度阈值和结构相似度阈值,能够限制音似词和形似词的纳入范围,有助于提高关联词汇的准确性,为获取可靠的数据集查询结果提供有效的信息支持。
具体地,结合图3,本实施例基于多源异构数据集的数据查询装置还包括查询结果再处理模块,查询结果再处理模块包括查询结果获取子模块和查询结果运算子模块,查询结果获取子模块用于获取第一查询结果和第二查询结果,所述第一查询结果为第一关键词的查询结果,所述第二查询结果为第二关键词的查询结果;查询结果运算子模块用于根据指定的运算关系,对所述第一查询结果和所述第二查询结果进行运算处理,形成再处理查询结果。指定的运算关系可以是交集运算关系、并集运算关系、差集运算关系和补集运算关系,以及其他对查询结果进行二次处理的运算处理规则等,相应的,再处理查询结果包括交集查询结果、并集查询结果、差集查询结果和补集查询结果,以及其他类型查询结果,以满足用户多样化的业务需求,拓宽应用场景,方便用户使用,有助于提高用户体验。
例如,查询结果运算子模块能够根据指定的交集运算关系,遍历第一查询结果和第二查询结果中的每项目标数据集,筛选出同时存在于第一查询结果和第二查询结果中的目标数据集,并将筛选出的目标数据集更新至交集查询结果。查询结果运算子模块根据指定的并集运算关系,将第一查询结果与第二查询结果合并,并进行去重处理和排序,形成并集查询结果。查询结果运算子模块根据指定的差集运算关系,遍历第一查询结果和第二查询结果中的每项目标数据集,筛选出存在于第一查询结果且不存在第二查询结果中的目标数据集,并将筛选出的目标数据集更新至差集查询结果。相应的,对于补集运算关系,若第一查询结果包括且不仅限于第二查询结果中的目标数据集,查询结果运算子模块根据指定的补集运算关系,遍历第一查询结果和第二查询结果中的每项目标数据集,筛选出存在于第一查询结果且不存在第二查询结果中的目标数据集,并将筛选出的目标数据集更新至补集查询结果。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种基于多源异构数据集的数据查询方法,其特征在于,包括:
关键词获取步骤:获取指定的关键词;
关键词翻译步骤:根据所述关键词和预获取语料库的语种间关联关系,获取所述关键词翻译为不同语种时的名词;
关联词汇获取步骤:根据每个名词和该名词在所述语料库中所属语种的语种内关联关系,获取该名词的同义词、近义词、音似词和形似词四种关联词汇中的至少一种;
数据集名称匹配步骤:将每个数据集名称分别与所述关键词和所述关联词汇进行比较,获取与所述关键词或所述关联词汇匹配的目标数据集,形成目标数据集数组,所述数据集名称为预获取数据集的名称;
查询结果形成步骤:对所述目标数据集数组进行去重处理和排序,形成所述关键词的查询结果。
2.根据权利要求1所述基于多源异构数据集的数据查询方法,其特征在于,根据每个名词和该名词在所述语料库中所属语种的语种内关联关系,获取该名词的同义词、近义词、音似词和形似词四种关联词汇中的至少一种,具体包括:
根据每个名词和该名词在所述语料库中所属语种的同义关联关系,获取该名词的同义词;
根据每个名词和该名词在所述语料库中所属语种的近义关联关系,获取该名词的近义词;
根据每个名词和该名词在所述语料库中所属语种的发音相似度阈值,获取该名词的音似词;
根据每个名词和该名词在所述语料库中所属语种的结构相似度阈值,获取该名词的形似词,所述语种内关联关系包括所述同义关联关系、所述近义关联关系、所述发音相似度阈值和所述结构相似度阈值。
3.根据权利要求1所述基于多源异构数据集的数据查询方法,其特征在于,在查询结果形成步骤之后,该方法还包括查询结果再处理步骤:
获取第一查询结果和第二查询结果,所述第一查询结果为第一关键词的查询结果,所述第二查询结果为第二关键词的查询结果;
根据指定的运算关系,对所述第一查询结果和所述第二查询结果进行运算处理,形成再处理查询结果。
4.根据权利要求3所述基于多源异构数据集的数据查询方法,其特征在于,根据指定的运算关系,对所述第一查询结果和所述第二查询结果进行运算处理,形成再处理查询结果,具体包括:
根据指定的交集运算关系,遍历所述第一查询结果和所述第二查询结果中的每项目标数据集,筛选出同时存在于所述第一查询结果和所述第二查询结果中的目标数据集,并将筛选出的目标数据集更新至交集查询结果;
根据指定的并集运算关系,将所述第一查询结果与所述第二查询结果合并,并进行去重处理和排序,形成并集查询结果;
根据指定的差集运算关系,遍历所述第一查询结果和所述第二查询结果中的每项目标数据集,筛选出存在于所述第一查询结果且不存在所述第二查询结果中的目标数据集,并将筛选出的目标数据集更新至差集查询结果;所述运算关系包括所述交集运算关系、所述并集运算关系和所述差集运算关系,所述再处理查询结果包括所述交集查询结果、所述并集查询结果和所述差集查询结果。
5.根据权利要求1所述基于多源异构数据集的数据查询方法,其特征在于,在所述关联词汇获取步骤之后,数据集名称匹配步骤之前,该方法还包括关联词汇筛选步骤:
根据预设置的关联词汇筛选原则,检验所述关联词汇,获取符合所述关联词汇筛选原则的目标关联词汇;
将每个数据集名称分别与所述关键词和所述关联词汇进行比较,获取与所述关键词或所述关联词汇匹配的目标数据集,具体包括:
将每个数据集名称分别与所述关键词和所述目标关联词汇进行比较,获取与所述关键词或所述目标关联词汇匹配的目标数据集。
6.根据权利要求5所述基于多源异构数据集的数据查询方法,其特征在于,根据预设置的关联词汇筛选原则,检验所述关联词汇,获取符合所述关联词汇筛选原则的目标关联词汇,具体包括:
根据预设置的语种筛选原则,检验所述关联词汇,保留所述关键词在目标语种中的目标关联词汇;
根据预设置的关联词汇种类筛选原则,检验所述关联词汇,保留该关键词指定种类的目标关联词汇。
7.根据权利要求5所述基于多源异构数据集的数据查询方法,其特征在于,将每个数据集名称分别与所述关键词和所述目标关联词汇进行比较,获取与所述关键词或所述目标关联词汇匹配的目标数据集,具体包括:
将每个数据集名称分别与所述关键词和所述目标关联词汇进行比较:
若该数据集名称与所述关键词中均包含预指定顺序的字符,则判断该数据集为目标数据集;或
若该数据集名称与所述目标关联词汇中均包含所述预指定顺序的字符,则判断该数据集为目标数据集。
8.一种基于多源异构数据集的数据查询装置,其特征在于,包括:
关键词获取模块:用于获取指定的关键词;
关键词翻译模块:用于根据所述关键词和预获取语料库的语种间关联关系,获取所述关键词翻译为不同语种时的名词;
关联词汇获取模块:用于根据每个名词和该名词在所述语料库中所属语种的语种内关联关系,获取该名词的同义词、近义词、音似词和形似词四种关联词汇中的至少一种;
数据集名称匹配模块:用于将每个数据集名称分别与所述关键词和所述关联词汇进行比较,获取与所述关键词或所述关联词汇匹配的目标数据集,形成目标数据集数组,所述数据集名称为预获取数据集的名称;
查询结果形成模块:用于对所述目标数据集数组进行去重处理和排序,形成所述关键词的查询结果。
9.根据权利要求8所述基于多源异构数据集的数据查询装置,其特征在于,所述关联词汇获取模块具体包括:
同义词获取子模块,用于根据每个名词和该名词在所述语料库中所属语种的同义关联关系,获取该名词的同义词;
近义词获取子模块,用于根据每个名词和该名词在所述语料库中所属语种的近义关联关系,获取该名词的近义词;
音似词获取子模块,用于根据每个名词和该名词在所述语料库中所属语种的发音相似度阈值,获取该名词的音似词;
形似词获取子模块,用于根据每个名词和该名词在所述语料库中所属语种的结构相似度阈值,获取该名词的形似词,所述语种内关联关系包括所述同义关联关系、所述近义关联关系、所述发音相似度阈值和所述结构相似度阈值。
10.根据权利要求8所述基于多源异构数据集的数据查询装置,其特征在于,该装置还包括查询结果再处理模块,包括:
查询结果获取子模块,用于获取第一查询结果和第二查询结果,所述第一查询结果为第一关键词的查询结果,所述第二查询结果为第二关键词的查询结果;
查询结果运算子模块,用于根据指定的运算关系,对所述第一查询结果和所述第二查询结果进行运算处理,形成再处理查询结果。
CN201611235535.2A 2016-12-28 2016-12-28 基于多源异构数据集的数据查询方法及装置 Pending CN106777261A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611235535.2A CN106777261A (zh) 2016-12-28 2016-12-28 基于多源异构数据集的数据查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611235535.2A CN106777261A (zh) 2016-12-28 2016-12-28 基于多源异构数据集的数据查询方法及装置

Publications (1)

Publication Number Publication Date
CN106777261A true CN106777261A (zh) 2017-05-31

Family

ID=58923929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611235535.2A Pending CN106777261A (zh) 2016-12-28 2016-12-28 基于多源异构数据集的数据查询方法及装置

Country Status (1)

Country Link
CN (1) CN106777261A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463655A (zh) * 2017-07-27 2017-12-12 无锡雅座在线科技股份有限公司 查询数据的方法、装置和系统
CN107918667A (zh) * 2017-11-28 2018-04-17 杭州有赞科技有限公司 文本标签词的生成方法、系统及装置
CN108460127A (zh) * 2018-02-28 2018-08-28 泰康保险集团股份有限公司 一种有序数据的获取方法、装置及设备
CN108536676A (zh) * 2018-03-28 2018-09-14 广州华多网络科技有限公司 数据处理方法、装置、电子设备及存储介质
CN108573010A (zh) * 2017-08-25 2018-09-25 北京金山云网络技术有限公司 关联异构系统同义数据的方法、装置、电子设备及介质
CN109376280A (zh) * 2018-09-28 2019-02-22 苏州朗动网络科技有限公司 企业关系的查询方法、装置、计算机设备及存储介质
CN109710648A (zh) * 2018-12-30 2019-05-03 深圳爱拼信息科技有限公司 一种基于迁移学习的信息整理方法
CN109861904A (zh) * 2019-02-19 2019-06-07 天津字节跳动科技有限公司 姓名标签显示方法和装置
CN112818212A (zh) * 2020-04-23 2021-05-18 腾讯科技(深圳)有限公司 语料数据采集方法、装置、计算机设备和存储介质
CN112925958A (zh) * 2021-02-05 2021-06-08 深圳力维智联技术有限公司 多源异构数据适配方法、装置、设备及可读存储介质
CN113535788A (zh) * 2021-07-12 2021-10-22 中国海洋大学 一种面向海洋环境数据的检索方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244521B2 (en) * 2007-01-11 2012-08-14 Microsoft Corporation Paraphrasing the web by search-based data collection
CN102651003A (zh) * 2011-02-28 2012-08-29 北京百度网讯科技有限公司 一种跨语言搜索的方法和装置
US20150199339A1 (en) * 2014-01-14 2015-07-16 Xerox Corporation Semantic refining of cross-lingual information retrieval results
CN105404688A (zh) * 2015-12-11 2016-03-16 北京奇虎科技有限公司 搜索方法和搜索设备
CN106055623A (zh) * 2016-05-26 2016-10-26 《中国学术期刊(光盘版)》电子杂志社有限公司 一种跨语言推荐方法和系统
CN106095912A (zh) * 2016-06-08 2016-11-09 北京百度网讯科技有限公司 用于生成扩展查询词的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244521B2 (en) * 2007-01-11 2012-08-14 Microsoft Corporation Paraphrasing the web by search-based data collection
CN102651003A (zh) * 2011-02-28 2012-08-29 北京百度网讯科技有限公司 一种跨语言搜索的方法和装置
US20150199339A1 (en) * 2014-01-14 2015-07-16 Xerox Corporation Semantic refining of cross-lingual information retrieval results
CN105404688A (zh) * 2015-12-11 2016-03-16 北京奇虎科技有限公司 搜索方法和搜索设备
CN106055623A (zh) * 2016-05-26 2016-10-26 《中国学术期刊(光盘版)》电子杂志社有限公司 一种跨语言推荐方法和系统
CN106095912A (zh) * 2016-06-08 2016-11-09 北京百度网讯科技有限公司 用于生成扩展查询词的方法和装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463655A (zh) * 2017-07-27 2017-12-12 无锡雅座在线科技股份有限公司 查询数据的方法、装置和系统
CN108573010B (zh) * 2017-08-25 2020-06-19 北京金山云网络技术有限公司 关联异构系统同义数据的方法、装置、电子设备及介质
CN108573010A (zh) * 2017-08-25 2018-09-25 北京金山云网络技术有限公司 关联异构系统同义数据的方法、装置、电子设备及介质
CN107918667B (zh) * 2017-11-28 2020-09-04 杭州有赞科技有限公司 文本标签词的生成方法、系统及装置
CN107918667A (zh) * 2017-11-28 2018-04-17 杭州有赞科技有限公司 文本标签词的生成方法、系统及装置
CN108460127A (zh) * 2018-02-28 2018-08-28 泰康保险集团股份有限公司 一种有序数据的获取方法、装置及设备
CN108460127B (zh) * 2018-02-28 2022-01-28 泰康保险集团股份有限公司 一种有序数据的获取方法、装置及设备
CN108536676B (zh) * 2018-03-28 2020-10-13 广州华多网络科技有限公司 数据处理方法、装置、电子设备及存储介质
CN108536676A (zh) * 2018-03-28 2018-09-14 广州华多网络科技有限公司 数据处理方法、装置、电子设备及存储介质
CN109376280B (zh) * 2018-09-28 2021-04-06 企查查科技有限公司 企业关系的查询方法、装置、计算机设备及存储介质
CN109376280A (zh) * 2018-09-28 2019-02-22 苏州朗动网络科技有限公司 企业关系的查询方法、装置、计算机设备及存储介质
CN109710648A (zh) * 2018-12-30 2019-05-03 深圳爱拼信息科技有限公司 一种基于迁移学习的信息整理方法
US11283740B2 (en) 2019-02-19 2022-03-22 Tianjin Bytedance Technology Co., Ltd. Name label display method and apparatus
CN109861904A (zh) * 2019-02-19 2019-06-07 天津字节跳动科技有限公司 姓名标签显示方法和装置
CN112818212A (zh) * 2020-04-23 2021-05-18 腾讯科技(深圳)有限公司 语料数据采集方法、装置、计算机设备和存储介质
CN112818212B (zh) * 2020-04-23 2023-10-13 腾讯科技(深圳)有限公司 语料数据采集方法、装置、计算机设备和存储介质
CN112925958A (zh) * 2021-02-05 2021-06-08 深圳力维智联技术有限公司 多源异构数据适配方法、装置、设备及可读存储介质
CN113535788A (zh) * 2021-07-12 2021-10-22 中国海洋大学 一种面向海洋环境数据的检索方法、系统、设备及介质
CN113535788B (zh) * 2021-07-12 2024-03-05 中国海洋大学 一种面向海洋环境数据的检索方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN106777261A (zh) 基于多源异构数据集的数据查询方法及装置
US20240095867A1 (en) Patent mapping
CN102915299B (zh) 一种分词方法及装置
CN103488648B (zh) 一种多语种混合检索方法和系统
Segev et al. Bootstrapping ontologies for web services
US10445359B2 (en) Method and system for classifying media content
CN104462085B (zh) 检索关键词纠错方法及装置
TWI645303B (zh) 字串驗證方法、字串擴充方法與驗證模型訓練方法
JP2014041615A (ja) コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム
CN109635082A (zh) 政策影响分析方法、装置、计算机设备和存储介质
CN108959314A (zh) 一种语义检索方法和装置
Hazman et al. Ontology learning from domain specific web documents
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
JP2008084203A (ja) ラベル付与システム、ラベル付与方法およびラベル付与プログラム
CN103440315A (zh) 一种基于主题的Web页面清洗方法
Celikyilmaz et al. Leveraging web query logs to learn user intent via bayesian latent variable model
KR20130093889A (ko) 한국어 키워드 검색문 해석 장치 및 방법
CN106815253A (zh) 一种基于混合数据类型数据的挖掘方法
Jeon et al. Making a graph database from unstructured text
CN104462552A (zh) 问答页面核心词提取方法和装置
US9218336B2 (en) Efficient implementation of morphology for agglutinative languages
Piskorski et al. Frontex real-time news event extraction framework
CN106168947A (zh) 一种相关实体挖掘方法和系统
CN107577667B (zh) 一种实体词处理方法和装置
CN102982029B (zh) 一种搜索需求识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531