CN103020322A - 查询方法 - Google Patents

查询方法 Download PDF

Info

Publication number
CN103020322A
CN103020322A CN2013100122606A CN201310012260A CN103020322A CN 103020322 A CN103020322 A CN 103020322A CN 2013100122606 A CN2013100122606 A CN 2013100122606A CN 201310012260 A CN201310012260 A CN 201310012260A CN 103020322 A CN103020322 A CN 103020322A
Authority
CN
China
Prior art keywords
query
query result
retrieval
database
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100122606A
Other languages
English (en)
Inventor
狄静舒
宋怀明
王颖
苗艳超
刘新春
邵宗有
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN2013100122606A priority Critical patent/CN103020322A/zh
Publication of CN103020322A publication Critical patent/CN103020322A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种查询方法,包括:从用户接收查询请求;根据查询请求,在第一数据源中进行第一查询,获取第一查询结果和与第一查询结果相对应的关联信息参数;根据关联参数信息,在第二数据源中进行第二查询并获得第二查询结果;以及将第一查询结果与第二查询结果汇总成最终查询结果反馈给用户。根据通过第一次查询所获得的关联信息参数进行第二次查询,即,根据关联信息直接在第二数据源中获取查询结果,不仅大幅减少了检索结果,提高了检索的精确性而且大幅减少了检索时间,提高了检索速度和效率。而对于检索用户来说,由于最终检索结果少,精确度高,因此减少了浏览检索结果所需要的时间。

Description

查询方法
技术领域
本发明一般地涉及计算机技术领域,更具体地来说,涉及查询方法。
背景技术
信息通常可以划分为两大类,一类是能够用数据或统一的结构加以表示的结构化数据,诸如,数字、符号;而另一类是无法用数字或统一的结构表示的非结构化数据,诸如,文本、图像、声音、网页等。结构化数据是可以用二维逻辑表来实现的数据,因此可以方便地存储在数据库中。非结构化数据是不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。目前,结构化数据的查询通常通过结构化查询语言(Structured QueryLanguage,简称SQL)实现,结构化查询语言能够存取数据以及查询、管理关系数据库系统。非结构化的文本检索通常通过Lucene实现,Lucene是一套用于全文检索和搜寻的开源程式库,提供了一个简单却强大的应用程式接口。
一种结构化数据和非结构化数据综合检索的方法,其中,包括以下步骤:对存放结构化数据的数据库进行扩展,并对不同类型的非结构数据文档采用过滤filter的方式进行处理,根据文档后缀实现相应的接口处理类,完成相应的配置,对该类文档进行解析,并建立索引,从而实现对该类型文档的查询;根据关键词对所述数据库和文档进行检索,并显示检索结果。该技术方案能够在一定程度上满足用户需求。
然而,该技术方案仅实现了进行数据库和文档检索并将直接提供的查询结果。该系统进行文档检索和数据库检索时耗时较长,检索速度较低,并且提供的查询结果为数据检索结果和文档检索结果的简单叠加,对于查询信息的用户来说,检索结果不精确,需要在大量的检索结果中选择需要的信息,所以增加了用户浏览检索结果的时间。
发明内容
针对现有技术中的检索方法检索速度低和检索结果不精确的缺陷,本发明提出了能够解决上述缺陷的一种查询方法。
本发明提供了一种查询方法,包括:从用户接收查询请求;根据查询请求,在第一数据源中进行第一查询,获取第一查询结果和与第一查询结果相对应的关联信息参数;根据关联参数信息,在第二数据源中进行第二查询并获得第二查询结果;以及将第一查询结果与第二查询结果汇总成最终查询结果反馈给用户。
优选地,关联信息为URL地址。
优选地,第一数据源为文件系统,第二数据源为数据库;或者第一数据源为数据库,第二数据源为文件系统。
优选地,数据库存储有记录信息,文件系统存储有文本信息,记录信息与文本信息通过URL地址相关联。
优选地,当查询请求所包含的查询信息与数据库中的记录信息相对应时,第一查询为数据库查询,第二查询为文本检索,第一查询结果为记录信息,第二查询结果为文本信息。
优选地,当查询请求所包含的查询信息不与数据库中的记录信息相对应时,第一查询为文本检索,第二查询为数据库查询,第一查询结果为文本信息,第二查询结果为记录信息。
优选地,为数据库创建外部表,并将查询到文本信息和URL地址存储在外部表中。
优选地,文本信息包括:文本内容、主题和摘要等。
优选地,记录信息包括:人名、生平、简历和作品等。
优选地,查询服务器将文本内容和数据库记录汇总成最终查询结果。
利用本发明的技术方案能够克服现有技术的缺陷,根据通过第一次查询所获得的关联信息参数进行第二次查询,即,根据关联信息直接在第二数据源中获取查询结果,不仅大幅减少了检索结果,提高了检索的精确性而且大幅减少了检索时间,提高了检索速度和效率。而对于检索用户来说,由于最终检索结果少,精确度高,因此减少了浏览检索结果所需要的时间。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。在附图中:
图1为根据本发明的实施例的查询方法的流程图;
图2为根据本发明的实施例的查询装置的结构图;以及
图3为根据本发明的实施例的具体查询方法。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为根据本发明的实施例的查询方法的流程图。通过以下步骤来描述查询方法100。在S102步骤中,从用户接收查询请求。在S104步骤中,根据查询请求,在第一数据源中进行第一查询,获取第一查询结果和与第一查询结果相对应的关联信息参数。具体地,关联信息为URL地址。在S106步骤中,根据关联参数信息,在第二数据源中进行第二查询并获得第二查询结果。具体地,第一数据源为文件系统,第二数据源为数据库;或者第一数据源为数据库,第二数据源为文件系统。其中,数据库存储有记录信息,文件系统存储有文本信息,记录信息与文本信息通过URL地址相关联。具体地,在建立文件系统和数据库时,通过URL地址将存储在数据库中的记录信息与存储在文本系统中的文本信息相关联。从而便于在查询时,第二查询根据与第一查询结果相关联的URL地址,在第二数据源中进行查询。在S108步骤中,将第一查询结果与第二查询结果汇总成最终查询结果反馈给用户。
利用本发明的实施例的查询方法,根据与第一查询结果相关联的地址,在第二数据库中进行查询,减少了第二查询需要花费的时间,大大提高了第二查询的速度。此外,第二查询结果为与第一查询结果相关联地址URL处所存储的文本信息或记录信息,所以反馈给用户的结果根据关联程度从高至低的顺序进行排序,减少了用户查阅查询结果所需要的时间,从而提高了用户的查询效率。
图2为根据本发明的实施例的查询装置的结构图。该查询系统包括多个数据库DB和多个文件系统。数据库存储有记录信息,文件系统存储有文本信息,存储在数据库中的记录信息与存储在文件系统中的文本信息通过URL地址相关联。图2所示虚线箭头表示首先进行数据库查询,然后进行文本检索的查询方法,而图2所示实线箭头表示首先进行文本检索,然后进行数据库查询的查询方法。当数据库DB和文件系统分别存储在多个服务器上时,即,当数据库DB存储在多个数据库服务器上,而文本系统存储在多个文本系统服务器上时,该查询方法还包括并行查询,即,对多个数据库服务器和/或多个文本系统服务器进行并行查询,从而大幅减少了查询时间,提高了查询效率。
然后,查询服务器用于将文本内容和数据库记录汇总成最终查询结果。例如,当今社会,非结构化数据占数据总量的80%,所以从非结构化数据中挖掘出有用的信息就显得尤为重要,而很多我们所关心的已知的信息均记录在数据库系统中,较为迫切的需求是将从非结构化数据中提取的有用信息和存储在数据库系统的记录关联起来得到我们所关心的较为确切的查询结果,本发明是将社区网络中海量的结构化数据和非结构化数据(主要是文本)进行关联查询,并得到相应用户信息记录或是发布内容的一种实现装置。
图3为根据本发明的实施例的具体查询方法。参照图3,将详细描述本发明的实施例的具体查询方法。在步骤302中,从用户接收查询请求。具体地,用户可以通过诸如键盘的输入装置输入查询请求或者通过鼠标的输入装置在列表中选择查询请求。
在步骤304中,当查询请求所包含的查询信息与数据库中的记录信息相对应时,第一查询为数据库查询,第二查询为文本检索,第一查询结果为记录信息,第二查询结果为文本信息。具体地,文本信息可以包括:文本内容、主题和摘要等。记录信息可以包括:人名、生平、简历和作品等。当查询请求所包含的查询信息与数据库中的查询记录信息相对应时,即,当查询请求所包括的查询信息为数据库中的查询记录信息的一部分和/或为数据库中的查询记录信息时,优选地,进行数据库查询,由于数据库中存储的是结构数据并且数据库查询为记录信息查询,所以数据库查询的速度非常快。获取为记录信息的第一查询结果和与第一查询结果相对应的关联信息参数。然后,根据为URL地址的关联信息参数在文本系统中进行文本检索,即,根据URL地址在文本系统中读取文本信息。第二查询结果为与URL地址相对应的文本信息。因此,这种先进行数据库查询后进行文本检索的查询方法大幅提高了查询速度,并且提高了查询效率。大幅减少了查询结果,从而使进行查询的用户大幅减少了浏览查询结果的时间。
例如,当查询信息为作家A,而A是数据库中的记录信息或记录信息的一部分,则首先在数据库中查询与作家A相对应的所有记录信息和与所有记录信息相对应的URL地址。然后,根据URL地址从文本系统中读取与地址为URL的文本信息。
然后,该查询方法进行至步骤308,在步骤308中,查询服务器将文本内容和数据库记录汇总成最终查询结果。具体地,查询服务器将数据库查询所获得的记录信息和文本检索所获得的文本信息进行汇总,并将汇总的查询结果反馈给用户。
在步骤306中,当查询请求所包含的查询信息不与数据库中的记录信息相对应时,第一查询为文本检索,第二查询为数据库查询,第一查询结果为文本信息,第二查询结果为记录信息。具体地,当查询请求所包含的查询信息不与数据库中的查询记录信息相对应时,即,当查询请求所包括的查询信息既不是数据库中的查询记录信息的一部分也不是数据库中的查询记录信息时,即,当不能进行数据库查询时,首先进行文本检索,由于文本系统中存储的是非结构数据并且可以进行全文检索,所以当查询信息为文本信息中的一部分时,也可以进行全文检索。获取为文本信息的第一查询结果和与第一查询结果相对应的关联信息参数。然后,为数据库创建外部表,并将查询到文本信息和URL地址存储在外部表中。具体地,存储数据库系统的服务器根据获取的文本信息和与该文本信息相对应的URL地址建立数据库的外部表并将获取的文本信息和URL地址作为中间结果存储在该外部表中。然后,根据存储在数据库的外部表中的URL地址在数据库系统中进行数据库查询,即,根据URL地址在数据库中读取记录信息。第二查询结果为与URL地址相对应的记录信息。因此,这种先进行文本检索后进行数据库查询的查询方法解决了数据库不支持的查询问题,此外,大幅减少了查询结果,从而使进行查询的用户大幅减少了浏览查询结果的时间。
例如,当查询信息为文章中的一句话或一段话时,而不是数据库中的记录信息或记录信息的一部分,则首先在文本系统中通过全文检索查找到这一句话或者一段话所在的文章、该文章的作者的其他文章或者与该文章相关的其他文章以及与这些文章相对应的URL地址。然后,根据URL地址从数据库系统中读取地址为URL的记录信息。
在步骤308中,查询服务器将文本内容和数据库记录汇总成最终查询结果。具体地,查询服务器将文本检索所获得的文本信息和数据库查询所获得的记录信息进行汇总,并将汇总的查询结果反馈给用户。也就是说,无论是先进行文本检索还是先进行数据库查询,最终查询服务器都将查询到的文本内容和数据库记录进行汇总,并将汇总后的最终查询结果反馈给用户。
海量结构化数据和非结构化数据的关联查询技术将结构化数据的用户信息记录和非结构化数据的文本检索结果关联起来进行查询,有效的提高了查询结果的精确性,去除了查询结果中大量的垃圾信息,为用户减少了很多不必要的浏览时间,更好的满足了用户的关联查询需求;并行查询的执行使得查询的整体速度得到了巨大提高;为一定条件下的应用场景将数据存储成结构化和非结构化共存提供了可能,简化了数据存储过程,降低了存储难度。
利用本发明的实施例的方法,首先,对数据库和文本系统通过URL地址进行关联存储,从而建立了一个能够进行高效查询的数据源。其次,根据通过第一次查询所获得的关联信息参数进行第二次查询,即,根据关联信息参数直接在第二数据源中获取查询结果,不仅大幅减少了检索结果,提高了检索的精确性,而且大幅减少了检索时间,提高了检索速度和效率。另外,当数据库和文本系统分别存储在多个服务器上时,可以通过多个服务器上的数据库和文本系统进行并行查询,从而大幅提高了信息查询的效率。最后,对于检索用户来说,由于最终检索结果少,精确度高,因此减少了浏览检索结果所需要的时间。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种查询方法,其特征在于,包括:
从用户接收查询请求;
根据所述查询请求,在第一数据源中进行第一查询,获取第一查询结果和与所述第一查询结果相对应的关联信息参数;
根据所述关联参数信息,在第二数据源中进行第二查询并获得第二查询结果;以及
将第一查询结果与第二查询结果汇总成最终查询结果反馈给所述用户。
2.根据权利要求1所述的查询方法,其特征在于,所述关联信息为URL地址。
3.根据权利要求2所述的查询方法,其特征在于,所述第一数据源为文件系统,所述第二数据源为数据库;或者
所述第一数据源为数据库,所述第二数据源为文件系统。
4.根据权利要求3所述的查询方法,其特征在于,所述数据库存储有记录信息,所述文件系统存储有文本信息,所述记录信息与所述文本信息通过所述URL地址相关联。
5.根据权利要求4所述的查询方法,其特征在于,当所述查询请求所包含的查询信息与所述数据库中的所述记录信息相对应时,所述第一查询为数据库查询,所述第二查询为文本检索,所述第一查询结果为所述记录信息,所述第二查询结果为所述文本信息。
6.根据权利要求4所述的查询方法,其特征在于,当所述查询请求所包含的查询信息不与所述数据库中的所述记录信息相对应时,所述第一查询为文本检索,所述第二查询为数据库查询,所述第一查询结果为所述文本信息,所述第二查询结果为所述记录信息。
7.根据权利要求6所述的查询方法,其特征在于,为所述数据库创建外部表,并将查询到所述文本信息和所述URL地址存储在所述外部表中。
8.根据权利要求4至7中的任一项所述的查询方法,其特征在于,所述文本信息包括:文本内容、主题和摘要。
9.根据权利要求4至7中的任一项所述的查询方法,其特征在于,所述记录信息包括:人名、生平、简历和作品。
10.根据权利要求5或6所述的查询方法,其特征在于,查询服务器将所述文本内容和所述数据库记录汇总成所述最终查询结果。
CN2013100122606A 2013-01-11 2013-01-11 查询方法 Pending CN103020322A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100122606A CN103020322A (zh) 2013-01-11 2013-01-11 查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100122606A CN103020322A (zh) 2013-01-11 2013-01-11 查询方法

Publications (1)

Publication Number Publication Date
CN103020322A true CN103020322A (zh) 2013-04-03

Family

ID=47968925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100122606A Pending CN103020322A (zh) 2013-01-11 2013-01-11 查询方法

Country Status (1)

Country Link
CN (1) CN103020322A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050295A (zh) * 2014-07-01 2014-09-17 彩带网络科技(北京)有限公司 一种交互方法及系统
CN105760380A (zh) * 2014-12-16 2016-07-13 华为技术有限公司 数据库查询方法、装置及系统
CN106095948A (zh) * 2016-06-13 2016-11-09 网易(杭州)网络有限公司 表格的查询方法、装置和设备
CN106649863A (zh) * 2016-12-30 2017-05-10 天津市测绘院 一种非结构化数据管理方法及装置
CN106649864A (zh) * 2016-12-31 2017-05-10 珠海市魅族科技有限公司 一种信息的展示方法及装置
CN107766544A (zh) * 2017-10-31 2018-03-06 努比亚技术有限公司 一种信息管理方法及终端、计算机可读存储介质
CN110096615A (zh) * 2019-05-07 2019-08-06 北京字节跳动网络技术有限公司 搜索数据的方法、装置、电子设备及存储介质
CN110489653A (zh) * 2019-08-23 2019-11-22 北京金堤科技有限公司 舆情信息查询方法和装置、系统、电子设备、存储介质
CN111966816A (zh) * 2020-07-09 2020-11-20 福建亿榕信息技术有限公司 一种公文的智能关联方法和系统
CN113222735A (zh) * 2021-05-21 2021-08-06 中国农业银行股份有限公司 交易关联信息的查询方法及相关装置
CN113918628A (zh) * 2021-09-10 2022-01-11 微梦创科网络科技(中国)有限公司 内容管理系统cms的数据管理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101416186A (zh) * 2006-01-31 2009-04-22 谷歌公司 增强的搜索结果
CN101523338A (zh) * 2005-03-18 2009-09-02 搜索引擎科技有限责任公司 应用来自用户的反馈来改进搜索结果的搜索引擎
CN102456075A (zh) * 2003-12-31 2012-05-16 汤姆森路透社全球资源公司 响应来自用户的查询的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456075A (zh) * 2003-12-31 2012-05-16 汤姆森路透社全球资源公司 响应来自用户的查询的方法和系统
CN101523338A (zh) * 2005-03-18 2009-09-02 搜索引擎科技有限责任公司 应用来自用户的反馈来改进搜索结果的搜索引擎
CN101416186A (zh) * 2006-01-31 2009-04-22 谷歌公司 增强的搜索结果

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050295A (zh) * 2014-07-01 2014-09-17 彩带网络科技(北京)有限公司 一种交互方法及系统
CN104050295B (zh) * 2014-07-01 2018-01-02 彩带网络科技(北京)有限公司 一种交互方法及系统
CN105760380A (zh) * 2014-12-16 2016-07-13 华为技术有限公司 数据库查询方法、装置及系统
CN106095948A (zh) * 2016-06-13 2016-11-09 网易(杭州)网络有限公司 表格的查询方法、装置和设备
CN106649863A (zh) * 2016-12-30 2017-05-10 天津市测绘院 一种非结构化数据管理方法及装置
CN106649864A (zh) * 2016-12-31 2017-05-10 珠海市魅族科技有限公司 一种信息的展示方法及装置
CN107766544A (zh) * 2017-10-31 2018-03-06 努比亚技术有限公司 一种信息管理方法及终端、计算机可读存储介质
CN110096615A (zh) * 2019-05-07 2019-08-06 北京字节跳动网络技术有限公司 搜索数据的方法、装置、电子设备及存储介质
CN110489653A (zh) * 2019-08-23 2019-11-22 北京金堤科技有限公司 舆情信息查询方法和装置、系统、电子设备、存储介质
CN111966816A (zh) * 2020-07-09 2020-11-20 福建亿榕信息技术有限公司 一种公文的智能关联方法和系统
CN111966816B (zh) * 2020-07-09 2022-07-12 福建亿榕信息技术有限公司 一种公文的智能关联方法和系统
CN113222735A (zh) * 2021-05-21 2021-08-06 中国农业银行股份有限公司 交易关联信息的查询方法及相关装置
CN113222735B (zh) * 2021-05-21 2024-03-29 中国农业银行股份有限公司 交易关联信息的查询方法及相关装置
CN113918628A (zh) * 2021-09-10 2022-01-11 微梦创科网络科技(中国)有限公司 内容管理系统cms的数据管理方法及装置

Similar Documents

Publication Publication Date Title
CN103020322A (zh) 查询方法
Kaur et al. Modeling and querying data in NoSQL databases
US7899829B1 (en) Intelligent bookmarks and information management system based on same
CN103034633B (zh) 生成扩展的搜索结果页面摘要的方法及装置
US8533199B2 (en) Intelligent bookmarks and information management system based on the same
US8086592B2 (en) Apparatus and method for associating unstructured text with structured data
CN101917553B (zh) 一种多媒体数据集中处理系统
CN102521321B (zh) 基于检索词歧义性和用户偏好的视频搜索方法
CN106294695A (zh) 一种面向实时大数据搜索引擎的实现方法
CN102999574A (zh) 跨多个不同的内容源来定位相关内容项
US20140201203A1 (en) System, method and device for providing an automated electronic researcher
CN101676907A (zh) 一种互联网资源定向获取方法及系统
CN102968464B (zh) 一种基于索引的本地资源快速检索系统的检索方法
CN103310025A (zh) 非结构化数据的描述方法及装置
WO2013106595A2 (en) Processing store visiting data
KR20160053933A (ko) 스마트 검색 정제 기법
Niu et al. Beyond text querying and ranking list: How people are searching through faceted catalogs in two library environments
CN108319608A (zh) 访问日志存储查询的方法、装置及系统
CN101655848A (zh) 一种实现内容管理的方法、系统及装置
CN102486775A (zh) 业务数据的查询方法及装置
Singh et al. Big data-a review
CN111680072A (zh) 基于社交信息数据的划分系统及方法
Xu et al. Social tagging in the scholarly world
CN114519045A (zh) 一种非关系型数据库的父子文档关联方法及系统
CN104298685A (zh) 实现异构系统统一检索的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20130403

RJ01 Rejection of invention patent application after publication