CN111026710A - 一种数据集的检索方法及系统 - Google Patents

一种数据集的检索方法及系统 Download PDF

Info

Publication number
CN111026710A
CN111026710A CN201911264609.9A CN201911264609A CN111026710A CN 111026710 A CN111026710 A CN 111026710A CN 201911264609 A CN201911264609 A CN 201911264609A CN 111026710 A CN111026710 A CN 111026710A
Authority
CN
China
Prior art keywords
data set
retrieval
metadata
content
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911264609.9A
Other languages
English (en)
Inventor
范冰冰
张脱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201911264609.9A priority Critical patent/CN111026710A/zh
Publication of CN111026710A publication Critical patent/CN111026710A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据集的检索方法及系统,包括以下步骤:S1:对数据集进行存储;S2:对数据集建立索引,分别构建元数据索引文件和内容索引文件,并将两个索引与数据集建立映射关系;S3:接受用户输入,分析得到一个或多个检索条件;S4:通过检索条件对索引文件中元数据字段进行过滤和查询,得到初步结果,包含元数据相关度匹配得分;S5:在初步结果中通过检索条件对内容索引文件进行过滤和查询,得到内容相关度匹配得分;S6:综合元数据相关度匹配得分和内容相关度匹配得分得到数据集的最终得分,将结果按得分进行降序排序返回给用户。通过本发明的多级检索的方式以及将部分检索条件转化为过滤条件的方法,能进一步提高检索精确度。

Description

一种数据集的检索方法及系统
技术领域
本发明涉及一种信息检索领域,具体涉及一种数据集的检索方法和系统。
背景技术
大数据时代,政府机构、公共组织和企业累积了海量社会管理、公共生活和生产流通等数据,这些数据成为亟待开发利用的资源。为了满足广泛的社会需求,世界上众多国家实施了政府开放数据战略,将这些数据向大众开放,以释放数据的潜能,推动社会各领域的业务创新。为了更好地推动开放数据的获取利用,许多国家、组织和地区都建立了自己的开放数据平台,随之而来的数据集的检索就成为了一项重大的挑战。
与传统的信息检索类似,数据集的检索是根据用户的查询,在开放数据平台中来确定最相关的数据集,以满足用户的需要。具体来讲,是通过对数据集建立索引文件,然后提取查询中的关键词,将关键词与数据集的索引进行相关性的度量,按相关性的大小对数据集进行排序,最后将排序靠前的数据集返回给用户。
在现有的技术当中,数据集的检索技术可以大致分为两类:一类是基于单词或者词组的匹配;另一类是语义化匹配,通过将关键词拓展为概念或者实体,利用概念本体和图匹配的技术。但这些技术基本上都是基于数据集的元数据来进行的,或者仅仅考虑了数据内容的全文检索而忽略了元数据。另一方面,现有的查询技术在检索多个检索条件时,是将每个检索条件作为一个分支分别检索得到一组检索结果,最后对各个分支的结果进行合并,这个过程系统耗费的资源随着检索条件的增加而不断增大,从而加剧了存在的性能问题,检索速度变慢。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,本发明提供一种数据集的检索方法,该方法能够针对数据集建立一种混合检索模型,能更全面地检索到相关的数据集,满足用户对数据查询地需要。
本发明的另一目的在于,提供一种数据集的检索系统。
为了达到上述第一目的,本发明采用以下技术方案:
一种数据集的检索方法,包括下述步骤:
S1、对数据集进行存储,包括数据集的元数据和内容;
S2、对数据集建立索引,分别构建元数据索引文件和内容索引文件,并将两个索引与数据集建立一一映射关系,并针对元数据字段对于搜索的不同重要等级,对检索无关字段不建立索引,对于一般字段与重要字段设置不同的检索权重,对数据集内容字段建立全文索引;
S3、接受用户输入,分析得到一个或多个检索条件,若存在数值类型或者时间类型数据,则从检索条件中分离出过滤条件和查询条件;即根据检索条件对应的数据项的属性信息来区分,数据项的字段类型为日期或者数字类型时,将检索条件定为过滤条件,其余的条件为查询条件。
S4、通过检索条件对元数据索引文件进行过滤和查询,得到初步结果,包含元数据相关度匹配得分Score(meta);
S5、在初步结果中通过检索条件对内容索引文件进行过滤和查询,得到内容相关度匹配得分Score(content);
S6、综合元数据相关度匹配得分Score(meta)和内容相关度匹配得分Score(content)得到数据集的最终得分,将结果按得分进行降序排序返回给用户,所述算数据集的最终得分如下:
Figure BDA0002312480300000031
其中Score(meta)是检索元数据字段相关度得分,Score(content)是检索内容字段相关度得分。
作为优选的技术方案,步骤S1中,所述对数据集进行存储,是将数据集以JSON格式存储在非关系型数据库中。
作为优选的技术方案,步骤S2中,元数据索引构建过程为:
数据集的元数据首先经过分析器处理,包括:分词过程;将检索需要的信息加入Document的各个Field中,对与检索无关的字段不建立索引,对于重要字段提升字段对于检索的权重;
所述内容索引构建过程:
数据集的内容经过分析器处理,包括:分词过程;所建立的Document只有一个Field,将分词结果加入其中。
作为优选的技术方案,步骤S2中,构建元数据索引文件时,在索引的元数据字段中字段类型为日期、时间或者数字类型时,索引规则设定为不进行分词。
作为优选的技术方案,所述过滤条件用来确定索引文档是否满足所述条件,要求精确匹配或者索引文档的值在检索条件指定的范围内,结果是“是”或者“否”,不计算相关度得分;所述查询条件是用来确定索引文档中是否包含检索子句,匹配程度用相关度来表示,其相关度为[0,1]之间的浮点数。
作为优选的技术方案,所述过滤条件不存在时,所有条件都是查询条件,进行查询处理;当过滤条件存在且不唯一时,依次通过每一个过滤条件对元数据索引库或者内容索引库进行过滤;
所述查询条件不唯一时,分别使用每个查询条件对过滤后的元数据索引库或者内容索引库进行查询,并将各查询所得结果进行合并,得到查询的结果。
作为优选的技术方案,所述步骤S4中,用户输入的检索关键词可能有多个,因此转化的检索条件也可能有多个,区分出来的过滤条件和查询条件也可能有多个,对于过滤过程,当存在多个过滤条件时,依次通过每一个过滤条件进行过滤;对于查询过程,使用每一个查询条件分别进行查询后,将得到的结果合并,得到初步的检索结果。
作为优选的技术方案,所述步骤S5具体为:
经过元数据索引查询后得到初步的结果,由元数据索引文件与数据集标识的一一对应关系以及内容索引文件与数据集标识的一一对应关系可以得到初步结果对应的内容索引文件,在对应的内容索引文件上再通过检索条件对其进行过滤和查询,得到内容索引文件的相关度得分。
作为优选的技术方案,所述步骤S6具体为:
综合数据集元数据和内容的相关度得分,得到数据集相对于检索条件的整体相关度分数,即数据集满足检索条件的程度,相关度得分越大,就越满足用户的检索需要,反之,相关度得分越小,与检索条件就越不相关。
为了达到上述第二目的,本发明采用以下技术方案:
一种数据集的检索系统,包括存储模块、索引模块、分离模块、过滤模块和检索模块;
所述存储模块用来存储数据集,包括数据集元数据和内容;
所述索引模块用于创建数据集的索引文件,包括元数据索引文件和内容索引文件;
所述分离模块用于获取用户检索条件,并根据检索条件对应的属性信息,确定用于过滤的过滤条件和用于查询的查询条件;
所述过滤模块用于根据过滤条件对数据集元数据和内容进行过滤;
所述检索模块用于对数据集元数据和内容进行检索,并分别得到相关度匹配得分,最终得到数据集按相关度排序列表。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明构建了基于数据集元数据和内容的混合检索模型,通过元数据和内容的混合检索,扩展了检索的范围,进一步提高了检索的精度。
(2)本发明构建元数据索引时,将元数据字段分为检索无关字段、一般字段和重要字段,对于检索无关字段不进行索引,对于一般字段与重要字段,对重要字段设置更高的检索权重,以提升字段对检索的重要程度。
(3)本发明将用户输入的检索条件分离为用于过滤的检索条件和用于查询的检索条件,减少了多个查询条件结果合并的过程,加快查询速度。
(4)本发明提出了基于数据集元数据和内容的相关度评分函数,综合了两者的相关度得分得到数据集整体的相关度分数,使得结果更加准确。
附图说明
图1是本发明的方法流程图。
图2是本发明数据集索引的流程图。
图3是本发明的系统结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,在本实施例中提供了一种数据集的检索方法,基于元数据的数据集的检索进行了扩展,将数据集的内容也融入索引项。对元数据构建索引时,将元数据字段分为查询无关字段、一般字段和重要字段,对于查询无关字段不建立索引,对于一般字段与重要字段分配不同的查询权重。在查询的过程中,通过查询词属性是否为时间或者数字类型将用户输入的检索条件分离为用于过滤的过滤条件和用于查询的查询条件,然后先通过这两种条件对元数据进行处理得到初步结果,再在此基础上检索内容数据,综合两者的相关度得分得到最终的排序结果。这种多级检索的方式以及将部分检索条件转化为过滤条件的方法,能进一步提高精确度。
本实施例的一种数据集的检索方法,包括以下步骤:
S1:存储目标数据集,以key-value的形式存储在非关系型数据库中,其中key是文档的唯一标识,value包括数据集元数据字段和内容字段,元数据字段中有多个不同的属性,如标识符、名称、摘要和关键字等。
S2:对数据集建立索引文件库,包括元数据索引库和内容数据索引库,可以通过开源全文检索框架Elasticsearch来构建,Elasticsearch中的对象模型为索引(Index)/文档类型(Type)/文档(Document),分别对应于关系型数据库中的数据库/关系表/数据行。索引的单位是Document对象,每个Document对象包含多个字段Field对象。索引的结构如图2所示,数据集索引包含元数据索引文件和内容数据索引文件,元数据索引文件包含多个字段,并且两个索引文件都与数据集的标识建立一对一的映射关系。构建元数据索引文件时,读取元数据的各个字段,根据对检索的重要程度分成三类:检索无关字段、一般字段和重要字段。如标识符、语种等与检索无关的字段不进行索引,对于名称、关键字、主题分类等重要字段通过Elasticsearch建立索引时提升权重系数,提高其对检索的重要性。对于数据集内容,当作一个字段,建立全文索引文件。
元数据索引构建过程为:数据集的元数据首先经过分析器处理,包括:分词过程;将检索需要的信息加入Document的各个Field中,对与检索无关的字段如开放方式、更新频率等不建立索引,对于重要字段如名称、摘要、关键字、主题分类等提升字段对于检索的权重,可以通过Elsaticsearch的boost参数来实现。如:
Figure BDA0002312480300000071
需要说明的是,当权重值高的字段包含查询查询词时,对应的数据集比权重值低的字段包含查询词时对应的数据集更相关,也就是更满足用户的查询需求。
内容索引构建过程:数据集的内容经过分析器处理,包括:分词过程;所建立的Document只有一个Field,将分词结果加入其中。
具体的,所述索引过程的原理流程包括:1)有一系列目标数据集文件;2)目标文件经过分词器和分析器处理,生成一系列词组,构成倒排索引表和词典;3)将索引写入索引文件。
S3:将用户输入的检索条件分离成用于过滤的过滤条件和用于查询的查询条件,过滤条件和查询条件是根据检索条件对应的数据项的属性信息来区分,若存在数据项的字段类型为日期、时间或者数字类型,将检索条件定为过滤条件,若检索条件为范围数据,如2019-2020年,则按范围进行过滤,若为某一具体数据,如2019年,则按2019过滤,过滤条件之外的检索条件为查询条件。
进一步的,所述过滤条件不存在时,所有条件都是查询条件,进行查询处理;当过滤条件存在且不唯一时,依次通过每一个过滤条件对元数据索引库或者内容索引库进行过滤。
进一步的,所述查询条件不唯一时,分别使用每个查询条件对过滤后的元数据索引库或者内容索引库进行查询,并将各查询所得结果进行合并,得到查询的结果。
具体的,过滤条件用来确定索引文档是否满足所述条件,要求精确匹配或者索引文档的值在检索条件指定的范围内,结果是“是”或者“否”,不计算相关度得分;查询条件是用来确定索引文档中是否包含检索子句,匹配程度用相关度来表示,其相关度为[0,1]之间的浮点数。
S4:根据检索条件对元数据索引文件进行过滤和查询,先通过过滤条件对元数据索引进行过滤,然后通过查询条件对过滤结果进行查询,选择默认的TF-IDF来计算相关度得分。
具体的,用户输入的检索关键词可能有多个,因此转化的检索条件也可能有多个,区分出来的过滤条件和查询条件也可能有多个。对于过滤过程,当存在多个过滤条件时,依次通过每一个过滤条件进行过滤;对于查询过程,使用每一个查询条件分别进行查询后,将得到的结果合并,得到初步的检索结果。
具体的,所述检索过程的原理流程包括:a)用户输入查询语句,经过分词器得到一系列词;b)建立倒排索引和词典,可以通过词典快速找到词,然后依据倒排表找到相关文档ID;c)通过相关度模型计算文档的相关度分数;d)将搜索到的结果文档对查询的相关性进行排序并返回结果给用户。
S5:经过元数据索引查询后得到初步的结果,由元数据索引文件与数据集标识的一一对应关系以及内容索引文件与数据集标识的一一对应关系可以得到初步结果对应的内容索引文件,在对应的内容索引文件上再通过检索条件对其进行过滤和查询,得到内容索引文件的相关度得分。考虑到内容字段的长度较长,选择了BM25的相似度算法进行相关度评分。
S6:综合数据集元数据和内容的相关度得分,可以得到数据集相对于检索条件的整体相关度分数,即数据集满足检索条件的程度,相关度得分越大,就越满足用户的检索需要,反之,相关度得分越小,与检索条件就越不相关。在查询中,一般认为字段越短,字段的权重越高。同样的,元数据是对数据集的描述,即是对数据集内容的抽象,而且元数据的字段往往要比内容字段短的多,因此可以认为元数据索引文件的相关度得分要比内容索引文件的相关度得分重要。
最终的得分是
Figure BDA0002312480300000091
其中Score(meta)是检索元数据字段相关度得分,Score(content)是检索内容字段相关度得分。
如图3所示,本实施例还提供一种数据集的检索系统,包括:
存储模块、索引模块、分离模块、过滤模块、检索模块;
存储模块用来存储数据集,包括数据集元数据和内容,存放在非关系型数据库中;
索引模块用于创建数据集的索引文件,包括元数据索引文件和内容索引文件;
分离模块用于获取用户检索条件,并根据检索条件对应的属性信息,确定用于过滤的过滤条件和用于查询的查询条件;
过滤模块用于根据过滤条件对数据集元数据和内容进行过滤;
检索模块用于对数据集元数据和内容进行检索,并分别得到相关度匹配得分,最终得到数据集按相关度排序列表。
本发明实施例提供的检索方法和系统,为了能够既能检索到元数据又能检索到数据集内容,对元数据和内容数据分别建立了索引文件;又考虑到元数据不同字段对于检索的重要程度不同,因此建立元数据索引文件时将字段分为检索无关字段、一般字段与重要字段,为重要字段设置更高的检索权重;同时将用户输入的检索条件根据是否为时间、日期或者数字类型划分为过滤条件和查询条件,减少了相关度计算的过程,加快了检索速度;最后是综合元数据和内容的相关度得分,得到数据集的总体相关度分数,按降序排列返回给用户。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种数据集的检索方法,其特征在于,包括下述步骤:
S1、对数据集进行存储,包括数据集的元数据和内容;
S2、对数据集建立索引,分别构建元数据索引文件和内容索引文件,并将两个索引与数据集建立一一映射关系,并针对元数据字段对于搜索的不同重要等级,对检索无关字段不建立索引,对于一般字段与重要字段设置不同的检索权重,对数据集内容字段建立全文索引;
S3、接受用户输入,分析得到一个或多个检索条件,若存在数值类型或者时间类型数据,则从检索条件中分离出过滤条件和查询条件;即根据检索条件对应的数据项的属性信息来区分,数据项的字段类型为日期或者数字类型时,将检索条件定为过滤条件,其余的条件为查询条件。
S4、通过检索条件对元数据索引文件进行过滤和查询,得到初步结果,包含元数据相关度匹配得分Score(meta);
S5、在初步结果中通过检索条件对内容索引文件进行过滤和查询,得到内容相关度匹配得分Score(content);
S6、综合元数据相关度匹配得分Score(meta)和内容相关度匹配得分Score(content)得到数据集的最终得分,将结果按得分进行降序排序返回给用户,
所述算数据集的最终得分如下:
Figure FDA0002312480290000011
其中Score(meta)是检索元数据字段相关度得分,Score(content)是检索内容字段相关度得分。
2.根据权利要求1所述数据集的检索方法,其特征在于,步骤S1中,所述对数据集进行存储,是将数据集以JSON格式存储在非关系型数据库中。
3.根据权利要求1所述数据集的检索方法,其特征在于,步骤S2中,元数据索引构建过程为:
数据集的元数据首先经过分析器处理,包括:分词过程;将检索需要的信息加入Document的各个Field中,对与检索无关的字段不建立索引,对于重要字段提升字段对于检索的权重;
所述内容索引构建过程:
数据集的内容经过分析器处理,包括:分词过程;所建立的Document只有一个Field,将分词结果加入其中。
4.根据权利要求1或3所述数据集的检索方法,其特征在于,步骤S2中,构建元数据索引文件时,在索引的元数据字段中字段类型为日期、时间或者数字类型时,索引规则设定为不进行分词。
5.根据权利要求1所述数据集的检索方法,其特征在于,所述过滤条件用来确定索引文档是否满足所述条件,要求精确匹配或者索引文档的值在检索条件指定的范围内,结果是“是”或者“否”,不计算相关度得分;所述查询条件是用来确定索引文档中是否包含检索子句,匹配程度用相关度来表示,其相关度为[0,1]之间的浮点数。
6.根据权利要求1所述数据集的检索方法,其特征在于,所述过滤条件不存在时,所有条件都是查询条件,进行查询处理;当过滤条件存在且不唯一时,依次通过每一个过滤条件对元数据索引库或者内容索引库进行过滤;
所述查询条件不唯一时,分别使用每个查询条件对过滤后的元数据索引库或者内容索引库进行查询,并将各查询所得结果进行合并,得到查询的结果。
7.根据权利要求1所述数据集的检索方法,其特征在于,所述步骤S4中,用户输入的检索关键词可能有多个,因此转化的检索条件也可能有多个,区分出来的过滤条件和查询条件也可能有多个,对于过滤过程,当存在多个过滤条件时,依次通过每一个过滤条件进行过滤;对于查询过程,使用每一个查询条件分别进行查询后,将得到的结果合并,得到初步的检索结果。
8.根据权利要求1所述数据集的检索方法,其特征在于,所述步骤S5具体为:
经过元数据索引查询后得到初步的结果,由元数据索引文件与数据集标识的一一对应关系以及内容索引文件与数据集标识的一一对应关系可以得到初步结果对应的内容索引文件,在对应的内容索引文件上再通过检索条件对其进行过滤和查询,得到内容索引文件的相关度得分。
9.根据权利要求1所述数据集的检索方法,其特征在于,所述步骤S6具体为:
综合数据集元数据和内容的相关度得分,得到数据集相对于检索条件的整体相关度分数,即数据集满足检索条件的程度,相关度得分越大,就越满足用户的检索需要,反之,相关度得分越小,与检索条件就越不相关。
10.一种数据集的检索系统,其特征在于,包括存储模块、索引模块、分离模块、过滤模块和检索模块;
所述存储模块用来存储数据集,包括数据集元数据和内容;
所述索引模块用于创建数据集的索引文件,包括元数据索引文件和内容索引文件;
所述分离模块用于获取用户检索条件,并根据检索条件对应的属性信息,确定用于过滤的过滤条件和用于查询的查询条件;
所述过滤模块用于根据过滤条件对数据集元数据和内容进行过滤;
所述检索模块用于对数据集元数据和内容进行检索,并分别得到相关度匹配得分,最终得到数据集按相关度排序列表。
CN201911264609.9A 2019-12-11 2019-12-11 一种数据集的检索方法及系统 Pending CN111026710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911264609.9A CN111026710A (zh) 2019-12-11 2019-12-11 一种数据集的检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911264609.9A CN111026710A (zh) 2019-12-11 2019-12-11 一种数据集的检索方法及系统

Publications (1)

Publication Number Publication Date
CN111026710A true CN111026710A (zh) 2020-04-17

Family

ID=70205800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911264609.9A Pending CN111026710A (zh) 2019-12-11 2019-12-11 一种数据集的检索方法及系统

Country Status (1)

Country Link
CN (1) CN111026710A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709327A (zh) * 2020-05-29 2020-09-25 中国人民财产保险股份有限公司 基于ocr识别的模糊匹配方法和装置
CN111914171A (zh) * 2020-07-23 2020-11-10 北京祥龙博瑞保险代理有限公司 一种产品检索方法、装置、系统及存储介质
CN111930823A (zh) * 2020-09-27 2020-11-13 武汉中科通达高新技术股份有限公司 一种数据查询方法、装置、数据中台和存储介质
CN112559671A (zh) * 2021-02-20 2021-03-26 深圳平安智汇企业信息管理有限公司 基于es的文本搜索引擎的构建方法、装置、设备及介质
CN113051460A (zh) * 2021-03-29 2021-06-29 北京智慧星光信息技术有限公司 基于Elasticsearch的数据检索方法、系统、电子设备及存储介质
CN113626493A (zh) * 2021-07-22 2021-11-09 北京东方通科技股份有限公司 一种时空数据多维查询方法及系统
US20220067074A1 (en) * 2020-09-03 2022-03-03 Canon Medical Systems Corporation Text processing apparatus and method
CN116719839A (zh) * 2023-08-10 2023-09-08 北京合思信息技术有限公司 会计档案的数据查询方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1987853A (zh) * 2005-12-23 2007-06-27 北大方正集团有限公司 关系型数据库与全文检索相结合的检索方法
CN102483765A (zh) * 2009-09-18 2012-05-30 株式会社日立解决方案 文件搜索系统和程序
US20120239690A1 (en) * 2011-03-16 2012-09-20 Rovi Technologies Corporation Utilizing time-localized metadata
US20130151534A1 (en) * 2011-12-08 2013-06-13 Digitalsmiths, Inc. Multimedia metadata analysis using inverted index with temporal and segment identifying payloads

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1987853A (zh) * 2005-12-23 2007-06-27 北大方正集团有限公司 关系型数据库与全文检索相结合的检索方法
CN102483765A (zh) * 2009-09-18 2012-05-30 株式会社日立解决方案 文件搜索系统和程序
US20120239690A1 (en) * 2011-03-16 2012-09-20 Rovi Technologies Corporation Utilizing time-localized metadata
US20130151534A1 (en) * 2011-12-08 2013-06-13 Digitalsmiths, Inc. Multimedia metadata analysis using inverted index with temporal and segment identifying payloads

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
饶伟 等: "《一种基于全文检索系统的文档关联研究与实现》", 《计算机科学》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709327A (zh) * 2020-05-29 2020-09-25 中国人民财产保险股份有限公司 基于ocr识别的模糊匹配方法和装置
CN111709327B (zh) * 2020-05-29 2023-06-27 中国人民财产保险股份有限公司 基于ocr识别的模糊匹配方法和装置
CN111914171A (zh) * 2020-07-23 2020-11-10 北京祥龙博瑞保险代理有限公司 一种产品检索方法、装置、系统及存储介质
US20220067074A1 (en) * 2020-09-03 2022-03-03 Canon Medical Systems Corporation Text processing apparatus and method
US11853333B2 (en) * 2020-09-03 2023-12-26 Canon Medical Systems Corporation Text processing apparatus and method
CN111930823A (zh) * 2020-09-27 2020-11-13 武汉中科通达高新技术股份有限公司 一种数据查询方法、装置、数据中台和存储介质
CN112559671A (zh) * 2021-02-20 2021-03-26 深圳平安智汇企业信息管理有限公司 基于es的文本搜索引擎的构建方法、装置、设备及介质
CN112559671B (zh) * 2021-02-20 2021-06-08 深圳平安智汇企业信息管理有限公司 基于es的文本搜索引擎的构建方法、装置、设备及介质
CN113051460A (zh) * 2021-03-29 2021-06-29 北京智慧星光信息技术有限公司 基于Elasticsearch的数据检索方法、系统、电子设备及存储介质
CN113626493A (zh) * 2021-07-22 2021-11-09 北京东方通科技股份有限公司 一种时空数据多维查询方法及系统
CN116719839A (zh) * 2023-08-10 2023-09-08 北京合思信息技术有限公司 会计档案的数据查询方法、装置和电子设备
CN116719839B (zh) * 2023-08-10 2024-01-26 北京合思信息技术有限公司 会计档案的数据查询方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN111026710A (zh) 一种数据集的检索方法及系统
CN107993724B (zh) 一种医学智能问答数据处理的方法及装置
US7409404B2 (en) Creating taxonomies and training data for document categorization
CN102087669B (zh) 基于语义关联的智能搜索引擎系统
US9619571B2 (en) Method for searching related entities through entity co-occurrence
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
KR20070089449A (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
US20110022600A1 (en) Method of data retrieval, and search engine using such a method
CN115270738B (zh) 一种研报生成方法、系统及计算机存储介质
US20070271228A1 (en) Documentary search procedure in a distributed system
CN108416008A (zh) 一种基于自然语言处理的bim产品数据库语义检索方法
Remi et al. Domain ontology driven fuzzy semantic information retrieval
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN107229714B (zh) 一种基于分布式数据库的全文搜索引擎
CN102314464B (zh) 歌词搜索方法及搜索引擎
CN113761162B (zh) 一种基于上下文感知的代码搜索方法
Kalyani et al. Paper on searching and indexing using elasticsearch
JP4426041B2 (ja) カテゴリ因子による情報検索方法
Wu et al. Searching online book documents and analyzing book citations
Zhang Start small, build complete: Effective and efficient semantic table interpretation using tableminer
Cremaschi et al. s-elBat: A Semantic Interpretation Approach for Messy taBle-s.
Dalton et al. Semantic entity retrieval using web queries over structured RDF data
CN102508920B (zh) 一种基于Boosting分类算法的信息检索方法
CN107220354A (zh) 一种大数据检索方法
Hormozi Disambiguation and result expansion in keyword search over relational databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200417