CN102411584B - 一种数据搜索方法及系统 - Google Patents

一种数据搜索方法及系统 Download PDF

Info

Publication number
CN102411584B
CN102411584B CN201010291290.1A CN201010291290A CN102411584B CN 102411584 B CN102411584 B CN 102411584B CN 201010291290 A CN201010291290 A CN 201010291290A CN 102411584 B CN102411584 B CN 102411584B
Authority
CN
China
Prior art keywords
data
record
expert
processing
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010291290.1A
Other languages
English (en)
Other versions
CN102411584A (zh
Inventor
胡珉
邓超
孙宏伟
韩金宇
钱岭
罗治国
孙少陵
黄晓庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201010291290.1A priority Critical patent/CN102411584B/zh
Publication of CN102411584A publication Critical patent/CN102411584A/zh
Application granted granted Critical
Publication of CN102411584B publication Critical patent/CN102411584B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据搜索方法及系统,包括:采集网页数据和专业数据;并根据采集的网页数据和专业数据分别建立网页数据记录库和专业数据记录库,其中,网页数据记录库中包括若干个网页数据记录,专业数据记录库中包括若干个专业数据记录;并分别建立关键字与网页数据记录的第一索引和关键字与专业数据记录的第二索引;并在接收到用户的第一搜索请求后,按照第一搜索请求中携带的检索关键字查询建立的第一索引和第二索引,获得与检索关键字对应的各网页数据记录和各专业数据记录以及将获得的各网页数据记录和各专业数据记录作为第一搜索结果返回给用户。采用本发明实施例提供的方案,能够为用户提供更准确的信息搜索。

Description

一种数据搜索方法及系统
技术领域
本发明涉及通信技术领域中的数据搜索技术领域,尤其涉及一种数据搜索方法及系统。
背景技术
随着计算机硬件和互联网的飞速发展,用户迫切的希望从海量互联网网页中获取有用信息,进而出现了传统的互联网搜索引擎技术,它负责采集海量的互联网网页,通过分析和处理,为网页建立关键字到网页的索引,并采用分布式的检索架构,为用户提供实时的搜索服务。
但是,随着信息量的日益增长,搜索引擎所采集到的互联网网页剧增,且网页所表示的信息多种多样,进而导致采集的大量网页的信息杂乱无章,而用户从这些杂乱无章的网页中进行搜索,所获得的搜索结果往往并非用户实际想要获知的信息。
所以,目前的互联网搜索引擎技术无法高效的为用户提供准确的信息搜索。
发明内容
本发明实施例提供一种数据搜索方法及系统,用以解决现有技术中存在的无法为用户提供准确信息搜索的问题。
本发明实施例提供一种数据搜索方法,包括:
采集网页数据和专业数据;
根据采集的网页数据和专业数据分别建立网页数据记录库和专业数据记录库,所述网页数据记录库中包括若干个网页数据记录,所述专业数据记录库中包括若干个专业数据记录;
分别建立关键字与网页数据记录的第一索引和关键字与专业数据记录的第二索引;
在接收到用户的第一搜索请求后,按照所述第一搜索请求中携带的检索关键字查询建立的第一索引和第二索引,获得与所述检索关键字对应的各网页数据记录和各专业数据记录;
将获得的所述各网页数据记录和所述各专业数据记录作为第一搜索结果返回给用户。
本发明实施例还提供一种数据搜索系统,包括:
第一采集建立服务器,用于采集网页数据;并根据采集的网页数据建立网页数据记录库,所述网页数据记录库中包括若干个网页数据记录;
第二采集建立服务器,用于采集专业数据;并根据采集的专业数据建立专业数据记录库,所述专业数据记录库中包括若干个专业数据记录;
索引建立服务器,用于分别建立关键字与网页数据记录的第一索引和关键字与专业数据记录的第二索引;
检索服务器,用于在接收到用户的第一搜索请求后,按照所述第一搜索请求中携带的检索关键字查询建立的第一索引和第二索引,获得与所述检索关键字对应的各网页数据记录和各专业数据记录;
搜索前台服务器,用于将获得的所述各网页数据记录和所述各专业数据记录作为第一搜索结果返回给用户。
本发明实施例提供的方法中,除采集网页数据,并根据采集的网页数据建立网页数据记录库,并建立关键字与网页数据记录的第一索引外,还采集专业数据,并根据采集的专业数据建立关键字与专业数据记录的第二索引,当接收到用户的第一搜索请求后,按照第一搜索请求中携带的检索关键字查询建立的第一索引和第二索引,获得与检索关键字对应的各网页数据记录和各专业数据记录,并将获得的各网页数据记录和各专业数据记录作为第一搜索结果返回给用户。由于专业数据是对某一领域的原始数据经过分析、总结和编撰等处理后得到的有指导意义的数据,相比网页数据,其表达的信息更全面、更准确,也更贴近检索关键字的含义,所以,采用本发明实施例提供的方法,不仅能够搜索到互联网的网页数据记录,还可以搜索到专业数据记录,相比现有技术,能够为用户提供更准确的信息搜索。
附图说明
图1为本发明实施例提供的数据搜索方法流程图;
图2为本发明实施例提供的数据搜索系统的结构示意图;
图3为本发明实施例提供的数据搜索方法的详细流程图。
具体实施方式
为了给出为用户提供更准确信息搜索的实现方案,本发明实施例提供了一种数据搜索方法及系统,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例提供一种数据搜索方法,如图1所示,包括:
步骤S101、采集网页数据和专业数据。
步骤S102、根据采集的网页数据和专业数据分别建立网页数据记录库和专业数据记录库,其中,网页数据记录库中包括若干个网页数据记录,专业数据记录库中包括若干个专业数据记录。
步骤S103、分别建立关键字与网页数据记录的第一索引和关键字与专业数据记录的第二索引。
步骤S104、在接收到用户的第一搜索请求后,按照第一搜索请求中携带的检索关键字查询建立的第一索引和第二索引,获得与检索关键字对应的各网页数据记录和各专业数据记录。
步骤S105、将获得的各网页数据记录和各专业数据记录作为第一搜索结果返回给用户。
较佳的,上述数据检索方法中,建立的专业数据记录库可以有多个,并且是对应每个专业数据记录库,分别建立关键字与该专业数据记录库中的专业数据记录的第二索引,以及在确定检索关键字对应的各专业数据记录时,是查询与第一搜索请求所指示的专业数据库对应的第二索引。
较佳的,上述数据检索方法中,在将搜索结果返回给用户之前,还可以包括:确定出通过查询获得的各网页数据记录和各专业数据记录的排序分值,并按照各自的排序分值从高到低的顺序返回给用户。
较佳的,上述数据检索方法中,还可以包括:选择专业数据记录作为数据加工算法的先验数据,对若干个网页数据记录和/或若干个专业数据记录进行加工,得到加工后的数据记录,并建立关键字与加工后的数据记录的索引,为用户提供加工后的数据记录的搜索。
基于同一发明构思,根据本发明上述实施例提供的数据搜索方法,相应地,本发明实施例还提供了一种数据搜索系统,其结构示意图如图2所示,包括:第一采集建立服务器201、第二采集建立服务器202、索引建立服务器203、检索服务器204、搜索前台服务器205和加工服务器206。
下面结合附图,基于本发明实施例提供的图2所示的数据搜索系统所包括的各服务器,对本发明提供的数据检索方法进行详细描述。
图3所示为本发明实施例提供的数据搜索方法的详细流程图,包括:
步骤S301、第一采集建立服务器201采集网页数据,并根据采集的网页数据建立网页数据记录库,网页数据记录库中包括若干个网页数据记录。
本步骤的实现,具体如下:
第一采集建立服务器201根据注入到系统的种子URL,首先采集种子URL对应的网页,分析其网页内容和其中包含的网页链接,并根据新发现的网页链接,以蔓延的方式采集整个互联网的网页数据;
根据采集的网页数据建立网页数据记录库,其中包括若干个网页数据记录,每个网页数据记录与每个网页相对应,每个网页数据记录可以包括:记录标识、对应网页的URL、记录标题、记录正文等字段。
第二采集建立服务器202采集专业数据;并根据采集的专业数据建立专业数据记录库,专业数据记录库中包括若干个专业数据记录。
本步骤的实现,具体如下:
第二采集建立服务器202从专业数据源采集专业数据,专业数据一般是对某一领域的原始数据经过人工分析、总结和编撰等处理后得到的有指导意义的数据,例如,高校的科技信息数据(论文、研究报告等)、某领域专业机构的行业报告、互联网发展趋势报告等。专业数据源中以各种方式存放这些专业数据,比如FTP方式、数据库方式等,针对不同存放方式的专业数据源使用不同的采集方式,比如,对于数据库,可以利用JDBC等方式来采集,对于FTP,可以重新编写爬虫采集。
将采集的各种形式的专业数据转换成统一的数据格式,建立专业数据记录库,以便后续统一建立索引并检索,其中包括若干个专业数据记录,每个专业数据记录可以包括:记录标识、记录标题和记录内容等字段;进一步的根据需要还可以包括:记录创建时间、记录修改时间和记录创建人等。
较佳的,本步骤可以对应不同的专业数据源采集专业数据,并建立对应的专业数据记录库,即可以建立多个专业数据记录库。由于不同的专业数据源中的专业数据所表示的信息所属领域或所属含义不同,所以不同的专业数据记录库中的专业数据记录也对应表示了不同的含义。
步骤S302、较佳的,本发明实施例中,还可以选择专业数据记录库中的多个专业数据记录作为数据加工算法的先验数据,对网页数据库中的若干个网页数据记录进行数据加工,或者对专业数据库中的若干个专业数据记录进行数据加工,或者对两者均进行数据加工,并对应得到加工后的数据记录,保存在加工数据记录库中,以便后续为用户提供更准确的搜索结果,数据加工的具体方式可以为对若干个数据记录进行分类操作或聚类操作。
是否进行数据加工,具体可以根据系统开发者的需要灵活设置,在此不再进行详细描述。
由于进行数据加工时是以多个专业数据记录作为数据加工算法的先验数据,而专业数据记录相比网页数据记录其表示的信息更全面、也更准确,所以将其作为数据加工算法的先验数据对若干个网页数据记录进行数据加工,能够获得更好的数据加工结果,例如,使得对若干个网页数据记录的分类或聚类时,得到的分类结果或聚类结果更合理、也更准确。
具体的数据加工算法可以采用现有技术中的各种算法,例如,对于分类操作,可以采用C45或朴素贝叶斯算法,首先将专业数据记录按照其来源可靠性和优质度,赋予不同的较高权值,将网页数据记录则赋予相对较低权值,然后将若干个专业数据记录与若干个网页数据记录整合到一起,形成分类算法的完整训练集;然后按照boosting元策略进行分类模型的迭代训练,每轮迭代中由于专业数据记录具有较高权重,所以训练所得分类模型将偏重于保证专业数据记录不被错误分类,所以,与不结合专业数据记录,仅用从互联网采集到的低可靠性网页数据记录进行训练所得分类模型相比,本方法所得分类模型将具有更好的分类准确度,达到更好的分类效果。
再例如,对于聚类操作,可以采用K-均值算法,K-均值算法为从数据集中选择k个数据记录作为聚类中心,按距离测度分配每个数据记录到其最接近的聚类中心,并使数据集聚类中心迭代地更新,直至不再变化,即完成整个数据集中所有数据记录的聚类操作,具体步骤如下:
步骤A-初始化聚类中心:从包括S个数据记录的数据集中随机选择k个数据记录作为中心点。
步骤B-分配全部数据记录:对数据集中的每个数据记录,计算出其与每个中心点的距离,并将其分配到距离最近的中心点所代表的聚类簇中。
步骤C-重新计算聚类中心:对每个聚类簇,分别计算该聚类簇内所有数据记录的平均值,作为该聚类簇更新后的中心点。
步骤D:若k个更新后的聚类中心中至少有1个发生变化,则跳转至步骤B,开始新一轮分配,否则,聚类操作结束,以当前每个聚类簇所包括的数据记录作为该数据集中的数据记录的聚类操作结果。
本发明实施例中,在对专业数据记录库中的若干个专业数据记录进行聚类操作时,可以直接采用上述K-均值算法。
在对网页数据记录库中的若干个网页数据记录进行聚类操作时,则选择从专业数据记录库中选择K个专业数据记录作为聚类中心,采用上述K-均值算法进行聚类操作。具体所选择的K个专业数据记录可以是从专业数据记录库中随机选择的;也可以在对若干个专业数据记录进行聚类操作后,选择聚类操作后得到的K个聚类簇中的中心点所表征的K个专业数据记录,作为聚类中心。
由于聚类算法中初始选择的K个聚类中心选择会直接影响最终聚类结果的优劣,而专业数据记录相比网页数据记录其表示的信息更全面、也更准确,所以选择K个专业数据记录作为聚类中心,相比随机选择K个网页数据记录作为聚类中心对若干个网页数据记录进行聚类操作,能够获得更高凝聚度的聚类结果。
当上述步骤S301中建立了多个专业数据记录库时,本步骤中的数据加工处理,可以针对每个专业数据记录库,选择其中的多个专业数据记录作为数据加工算法的先验数据,进行数据加工处理,即同样是对网页数据记录中的若干个网页数据记录进行数据加工,可以对应每个专业数据记录库,得到各自对应的加工结果。
步骤S303、索引建立服务器203分别建立关键字与网页数据记录的第一索引和关键字与专业数据记录的第二索引。
本步骤的实现,具体如下:
索引建立服务器203从网页数据记录库中获取每个网页数据记录,并根据记录内容进行分关键字,计算关键字频等信息,建立网页数据记录与关键字的正排索引,然后反转正排索引,建立关键字与网页数据记录的倒排索引,即建立了关键字与网页数据记录的第一索引。
索引建立服务器203从专业数据记录库中获取每个专业数据记录,并根据记录内容进行分关键字,计算关键字频等信息,建立专业数据记录与关键字的正排索引,然后反转正排索引,建立关键字与专业数据记录的倒排索引,即建立了关键字与专业数据记录的第二索引。
当专业数据记录库为多个时,分别对应每个专业数据记录库建立对应的第二索引。
对于已建立的索引,可以将其存储到索引库中,后续供检索服务器204查询。
如果在上述步骤S302中的进行了数据加工处理,则得到对应的加工后的数据记录,包括:加工后的若干个网页数据记录和加工后的若干个专业数据记录。当数据加工具体为分类或聚类时,则加工后的数据记录即为完成了对若干个网页数据记录和若干个专业数据记录的分类操作和聚类操作。
相应的,针对加工后的数据记录,索引建立服务器203还可以对其建立关键字与加工后的数据记录的索引,具体包括:建立关键字与加工后的网页数据记录的第三索引,或者建立关键字与加工后的专业数据记录的第四索引,或者两者均建立。
相比第一索引和第二索引,第三索引和第四索引中的各索引记录也是进行了分类或聚类的,以便后续为用户提供分类搜索。
通过上述步骤S301-步骤S303,即完成了关键字与数据记录的索引的建立,为后续响应用户的搜索请求,向用户返回搜索结果做好了准确。
步骤S304、搜索前台服务器205接收用户发送的搜索请求,并将该搜索请求转发给检索服务器204,检索服务器204在接收到搜索请求后,从中获取检索关键字,并按照获取的检索关键字查询索引,获得与检索关键字对应的数据记录,并将获得的数据记录返回给搜索前台服务器205。
本发明实施例中,由于建立的索引可能有多个,比如包括:关键字与网页数据记录的第一索引,关键字与专业数据记录的第二索引,关键字与加工后的网页数据记录的第三索引,以及关键字与加工后的专业数据记录的第四索引,所以,用户的搜索请求中可以包含索引指示信息,用于指示在哪些索引中进行查询,例如,用户发送第一搜索请求,指示在未进行数据加工所对应建立的索引中查询,具体可以指示在第一索引中查询,或者在第二索引中查询,或者在第一索引和第二索引中均查询;用户发送第二搜索请求,指示在进行数据加工后所对应建立的索引中查询,具体可以指示在第三索引中查询,或者在第四索引中查询,或者在第三索引和第四索引中均查询。
当上述步骤S301中建立了多个专业数据记录库时,则可能对应每个专业数据记录库建立了各自的第二索引,还可能对应每个专业数据记录库进行数据加工后建立了各自的第四索引,所以,用户发送的搜索请求中还可以携带记录库指示信息,用于指示专业数据记录库,即相当于指示从对应的第二索引或第四索引中查询。
步骤S305、搜索前台服务器205在接收到检索服务器返回的与搜索请求对应的各数据记录(根据搜索请求的指示包括各网页数据记录,或者各专业数据记录,或者两者均有;且包括了加工后的各数据记录)后,则将各数据记录作为搜索结果返回给用户,具体如下:
对应获得的每个数据记录,采用设定排序分值算法确定出该数据记录的排序分值,并在返回搜索结果时,将获得的各数据记录,按照各自的排序分值从高到底的顺序返回给用户。
当获得的各数据记录中同时包括各网页数据记录和各专业数据记录时,可以将各网页数据记录和各专业数据记录整合在一起,进行排序并返回给用户,也可以对各网页数据记录和各专业数据记录分别进行排序,并采用分栏显示的方式返回给用户,一栏显示各网页数据记录,一栏显示各专业数据记录。
当将各网页数据记录和各专业数据记录整合在一起,进行排序并返回给用户时,考虑到专业数据记录相比网页数据记录所表示的信息可能更全面,也更准确,更能够为用户提供其想获取的信息,所以优先将专业数据记录靠前排序,具体可以通过设置设定排序分值算法中的记录权值实现,具体为:对于获得的各网页数据记录和各专业数据记录中的每个数据记录,分别对应设置记录权值,并且使得每个专业数据记录的记录权值均大于每个网页数据记录的记录权值,例如,采用如下公式计算排序分值:
Sd=(1+w)×Score(d);
其中,d表示数据记录d;Score(d)表示基于数据记录d的一些特征信息所确定的分值,如基于检索关键字在数据记录d中的关键字频等信息,具体可以参照现有技术,在此不再进行描述;w为记录权值。
本发明实施例中,即设定各专业数据记录的w值大于各网页数据记录的w值,例如,设置各专业数据记录的w值的取值范围为(a,b],设置各网页数据记录的w值的取值范围为(0,a],且a<b,其中,a和b的确定可以根据仿真和经验灵活设置,在此不再进行详细描述。
步骤S306、较佳的,本发明实施例中,上述数据检索系统还可以包括:查询服务器207,直接与网页数据记录库、专业数据记录库和加工数据记录库相连,为指定用户提供直接从网页数据记录库、专业数据记录库和加工数据记录库中查询数据记录的服务。
基于对本发明上述实施例提供的数据搜索方法的详细描述,相应地,通过对本发明实施例提供的数据搜索系统中的各服务器的描述,对本发明实施例提供的方案做进一步说明,如下:
本发明实施例提供的数据搜索系统中:
第一采集建立服务器201,用于采集网页数据;并根据采集的网页数据建立网页数据记录库,网页数据记录库中包括若干个网页数据记录;
第二采集建立服务器202,用于采集专业数据;并根据采集的专业数据建立专业数据记录库,专业数据记录库中包括若干个专业数据记录;
索引建立服务器203,用于分别建立关键字与网页数据记录的第一索引和关键字与专业数据记录的第二索引;
检索服务器204,用于在接收到用户的第一搜索请求后,按照第一搜索请求中携带的检索关键字查询建立的第一索引和第二索引,获得与检索关键字对应的各网页数据记录和各专业数据记录;
搜索前台服务器205,用于将获得的各网页数据记录和各专业数据记录作为第一搜索结果返回给用户。
较佳的,第二采集建立服务器202,具体用于建立多个专业数据记录库;
索引建立服务器203,具体用于对应每个专业数据记录库,分别建立关键字与该专业数据记录库中的专业数据记录的第二索引;
检索服务器204,具体用于根据第一搜索请求中的记录库指示信息,确定出记录库指示信息所指示的专业数据记录库;按照第一搜索请求中携带的检索关键字,查询与指示的专业数据库对应的第二索引,获得与检索关键字对应的各专业数据记录。
较佳的,搜索前台服务器205,还用于基于各网页数据记录和各专业数据记录分别对应的记录权值,采用设定排序分值算法分别确定出各网页数据记录和各专业数据记录的排序分值;其中,每个专业数据记录的记录权值均大于每个网页数据记录的记录权值并将获得的所述各网页数据记录和各专业数据记录,按照各自的排序分值从高到底的顺序返回给用户。
较佳的,上述系统,还包括:
加工服务器206,用于选择专业数据记录库中的多个专业数据记录作为数据加工算法的先验数据,利用先验数据对若干个网页数据记录和/或对若干个专业数据记录进行数据加工,得到加工后的若干个网页数据记录和/或加工后的若干个专业数据记录;
索引建立服务器203,还用于建立关键字与加工后的网页数据记录的第三索引和/或关键字与加工后专业数据记录的第四索引;
检索服务器204,还用于在接收到用户的第二搜索请求后,按照第二搜索请求中携带的检索关键字查询建立的第三索引和/或第四索引,获得与检索关键字对应的各加工后的网页数据记录和/或各加工后的专业数据记录;
搜索前台服务器205,还用于将获得的各加工后的网页数据记录和/或各加工后的专业数据记录作为第二搜索结果返回给用户。
较佳的,搜索前台服务器205,还用于基于各加工后的网页数据记录和各加工后的专业数据记录分别对应的记录权值,采用设定排序分值算法分别确定出各加工后的网页数据记录和各加工后的专业数据记录的排序分值;其中,每个加工后的专业数据记录的记录权值均大于每个加工后的网页数据记录的记录权值;并将获得的各加工后的网页数据记录和/或各加工后的专业数据记录,按照各自的排序分值从高到底的顺序返回给用户。
较佳的,加工服务器206,具体用于对若干个网页数据记录进行分类或聚类操作;和/或对若干个专业数据记录进行分类或聚类操作。
本发明上述实施例提供的数据搜索方案,可以由搜索引擎系统的开发者自身实现,也可以通过在现有互联网搜索引擎系统基础上,开放其中各服务器的应用程序编程接口API(Application Programming Interface),将其改进为支持开放架构的系统,然后可以向指定的第三方开发者开放各服务器的API,由第三方开发者根据需要选择专业数据源,将专业数据的搜索引入系统中,实现本发明上述实施例提供的数据搜索方案。
综上所述,本发明实施例提供的方案,包括:采集网页数据和专业数据;并根据采集的网页数据和专业数据分别建立网页数据记录库和专业数据记录库,其中,网页数据记录库中包括若干个网页数据记录,专业数据记录库中包括若干个专业数据记录;并分别建立关键字与网页数据记录的第一索引和关键字与专业数据记录的第二索引;并在接收到用户的第一搜索请求后,按照第一搜索请求中携带的检索关键字查询建立的第一索引和第二索引,获得与检索关键字对应的各网页数据记录和各专业数据记录以及将获得的各网页数据记录和各专业数据记录作为第一搜索结果返回给用户。采用本发明实施例提供的方案,能够为用户提供更准确的信息搜索。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种数据搜索方法,其特征在于,包括:
采集网页数据和专业数据;
根据采集的网页数据和专业数据分别建立网页数据记录库和多个专业数据记录库,所述网页数据记录库中包括若干个网页数据记录,所述专业数据记录库中包括若干个专业数据记录;
建立关键字与网页数据记录的第一索引;以及对应每个专业数据记录库,分别建立关键字与该专业数据记录库中的专业数据记录的第二索引;
在接收到用户的第一搜索请求后,按照所述第一搜索请求中携带的检索关键字查询建立的第一索引,获得与所述检索关键字对应的各网页数据记录;以及根据所述第一搜索请求中的记录库指示信息,确定出所述记录库指示信息所指示的专业数据记录库;按照所述第一搜索请求中携带的检索关键字,查询与所述指示的专业数据库对应的第二索引,获得与所述检索关键字对应的各专业数据记录;
基于所述各网页数据记录和所述各专业数据记录分别对应的记录权值,采用公式Sd=(1+w)×Score(d)分别确定出所述各网页数据记录和所述各专业数据记录的排序分值;其中,d表示数据记录,S(d)表示数据记录d的排序分值,Score(d)表示基于数据记录d的特征信息所确定的分值,w为记录权值,每个专业数据记录的记录权值均大于每个网页数据记录的记录权值;
将获得的所述各网页数据记录和所述各专业数据记录,按照各自的排序分值从高到底的顺序返回给用户。
2.如权利要求1所述的方法,其特征在于,在建立网页数据记录库和专业数据记录库后,还包括:
选择所述专业数据记录库中的多个专业数据记录作为数据加工算法的先验数据,利用所述先验数据对若干个网页数据记录和/或对若干个专业数据记录进行数据加工,得到加工后的若干个网页数据记录和/或加工后的若干个专业数据记录;
建立关键字与加工后的网页数据记录的第三索引和/或关键字与加工后专业数据记录的第四索引;
在接收到用户的第二搜索请求后,按照所述第二搜索请求中携带的检索关键字查询建立的第三索引和/或第四索引,获得与所述检索关键字对应的各加工后的网页数据记录和/或各加工后的专业数据记录;
将获得的所述各加工后的网页数据记录和/或所述各加工后的专业数据记录作为第二搜索结果返回给用户。
3.如权利要求2所述的方法,其特征在于,在将获得的所述各加工后的网页数据记录和/或所述各加工后的专业数据记录作为第二搜索结果返回给用户之前,还包括:
基于所述各加工后的网页数据记录和所述各加工后的专业数据记录分别对应的记录权值,采用设定排序分值算法分别确定出所述各加工后的网页数据记录和所述各加工后的专业数据记录的排序分值;其中,每个加工后的专业数据记录的记录权值均大于每个加工后的网页数据记录的记录权值;
将获得的所述各加工后的网页数据记录和/或所述各加工后的专业数据记录作为搜索结果返回给用户,具体为:
将获得的所述各加工后的网页数据记录和/或所述各加工后的专业数据记录,按照各自的排序分值从高到底的顺序返回给用户。
4.如权利要求2所述的方法,其特征在于,对若干个网页数据记录进行数据加工和/或对若干个专业数据记录进行加工,具体为:
对若干个网页数据记录进行分类或聚类操作;和/或
对若干个专业数据记录进行分类或聚类操作。
5.一种数据搜索系统,其特征在于,包括:
第一采集建立服务器,用于采集网页数据;并根据采集的网页数据建立网页数据记录库,所述网页数据记录库中包括若干个网页数据记录;
第二采集建立服务器,用于采集专业数据;并根据采集的专业数据建立多个专业数据记录库,所述专业数据记录库中包括若干个专业数据记录;
索引建立服务器,用于分别建立关键字与网页数据记录的第一索引;以及对应每个专业数据记录库,分别建立关键字与该专业数据记录库中的专业数据记录的第二索引;
检索服务器,用于在接收到用户的第一搜索请求后,按照所述第一搜索请求中携带的检索关键字查询建立的第一索引,获得与所述检索关键字对应的各网页数据记录;以及根据所述第一搜索请求中的记录库指示信息,确定出所述记录库指示信息所指示的专业数据记录库;按照所述第一搜索请求中携带的检索关键字,查询与所述指示的专业数据库对应的第二索引,获得与所述检索关键字对应的各专业数据记录;
搜索前台服务器,用于基于所述各网页数据记录和所述各专业数据记录分别对应的记录权值,采用公式Sd=(1+w)×Score(d)分别确定出所述各网页数据记录和所述各专业数据记录的排序分值;其中,d表示数据记录,S(d)表示数据记录d的排序分值,Score(d)表示基于数据记录d的特征信息所确定的分值,w为记录权值,每个专业数据记录的记录权值均大于每个网页数据记录的记录权值;将获得的所述各网页数据记录和所述各专业数据记录,按照各自的排序分值从高到底的顺序返回给用户。
6.如权利要求5所述的系统,其特征在于,还包括:
加工服务器,用于选择所述专业数据记录库中的多个专业数据记录作为数据加工算法的先验数据,利用所述先验数据对若干个网页数据记录和/或对若干个专业数据记录进行数据加工,得到加工后的若干个网页数据记录和/或加工后的若干个专业数据记录;
所述索引建立服务器,还用于建立关键字与加工后的网页数据记录的第三索引和/或关键字与加工后专业数据记录的第四索引;
所述检索服务器,还用于在接收到用户的第二搜索请求后,按照所述第二搜索请求中携带的检索关键字查询建立的第三索引和/或第四索引,获得与所述检索关键字对应的各加工后的网页数据记录和/或各加工后的专业数据记录;
所述搜索前台服务器,还用于将获得的所述各加工后的网页数据记录和/或所述各加工后的专业数据记录作为第二搜索结果返回给用户。
7.如权利要求6所述的系统,其特征在于,所述搜索前台服务器,还用于基于所述各加工后的网页数据记录和所述各加工后的专业数据记录分别对应的记录权值,采用设定排序分值算法分别确定出所述各加工后的网页数据记录和所述各加工后的专业数据记录的排序分值;其中,每个加工后的专业数据记录的记录权值均大于每个加工后的网页数据记录的记录权值;并将获得的所述各加工后的网页数据记录和/或所述各加工后的专业数据记录,按照各自的排序分值从高到底的顺序返回给用户。
8.如权利要求6所述的系统,其特征在于,所述加工服务器,具体用于对若干个网页数据记录进行分类或聚类操作;和/或对若干个专业数据记录进行分类或聚类操作。
CN201010291290.1A 2010-09-25 2010-09-25 一种数据搜索方法及系统 Expired - Fee Related CN102411584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010291290.1A CN102411584B (zh) 2010-09-25 2010-09-25 一种数据搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010291290.1A CN102411584B (zh) 2010-09-25 2010-09-25 一种数据搜索方法及系统

Publications (2)

Publication Number Publication Date
CN102411584A CN102411584A (zh) 2012-04-11
CN102411584B true CN102411584B (zh) 2014-09-17

Family

ID=45913660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010291290.1A Expired - Fee Related CN102411584B (zh) 2010-09-25 2010-09-25 一种数据搜索方法及系统

Country Status (1)

Country Link
CN (1) CN102411584B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530415A (zh) * 2013-10-29 2014-01-22 谭永 一种兼容关键词搜索的自然语言搜索方法及系统
CN105488166A (zh) * 2015-11-30 2016-04-13 北京金山安全软件有限公司 一种索引建立方法及装置
CN105447719A (zh) * 2015-12-01 2016-03-30 苏州铭冠软件科技有限公司 一种适用于大数据分析的数据处理方法
CN106776772B (zh) * 2016-11-10 2020-07-28 北京锐安科技有限公司 一种数据检索的方法及装置
CN109714228B (zh) * 2018-12-24 2020-10-16 工联数据技术(杭州)有限公司 一种用于设备和工人的全局监控系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731393A (zh) * 2005-07-08 2006-02-08 左嘉 基于关键词的企业信息搜索方法
CN101601032A (zh) * 2005-01-18 2009-12-09 雅虎公司 结合万维网搜索技术和万维网内容的被赞助搜索条目的匹配和排名

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101601032A (zh) * 2005-01-18 2009-12-09 雅虎公司 结合万维网搜索技术和万维网内容的被赞助搜索条目的匹配和排名
CN1731393A (zh) * 2005-07-08 2006-02-08 左嘉 基于关键词的企业信息搜索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘兴亮.垂直搜索与通用搜索哥俩好.《http://blog.sina.com.cn/s/blog_56c35a55010093ts.html》.2008,第1-2页.
垂直搜索与通用搜索哥俩好;刘兴亮;《http://blog.sina.com.cn/s/blog_56c35a55010093ts.html》;20080409;第1-2页 *

Also Published As

Publication number Publication date
CN102411584A (zh) 2012-04-11

Similar Documents

Publication Publication Date Title
CN107577688B (zh) 基于媒体信息采集的原创文章影响力分析系统
CN100399334C (zh) 搜索结构化文档的设备和方法
CN102226899B (zh) 信息检索系统中基于短语的搜索
CN1728143B (zh) 基于短语产生文献说明
CN100590617C (zh) 信息检索系统中基于短语的索引编制方法和系统
CN100410936C (zh) 可用于数据搜索的数据分类系统和方法
CN111177544B (zh) 一种基于用户行为数据和用户画像数据的运营系统及方法
Boley et al. One click mining: Interactive local pattern discovery through implicit preference and performance learning
CN102411584B (zh) 一种数据搜索方法及系统
US20080046411A1 (en) Method and System for Managing the Impressing of the Search Listing Based on Advertisement Group
CN105765573A (zh) 网站通信量优化方面的改进
CN104834711A (zh) 基于位置的数据服务装置和方法
CN102103603A (zh) 用户行为数据分析方法和装置
CN107844525A (zh) 一种基于用户行为的资讯个性化推荐方法、系统及装置
CN101606152A (zh) 通过分类而自动匹配主体到客户的内容的机制
CN103942268B (zh) 搜索与应用相结合的方法、设备以及应用接口
CN100470547C (zh) 实现数据挖掘模型转换和应用的方法、系统及装置
KR20210082112A (ko) 가상 데이터 기반 저변동성 시계열 데이터의 이중 학습 장치 및 그 동작 방법
CN106227510A (zh) 应用推荐方法及装置
CN101901277A (zh) 一种基于用户情景的动态本体建模方法及系统
CN101980209B (zh) 自适应多领域搜索引擎调用方法及系统
CN103440084B (zh) 用户选项优化方法及装置
KR100375926B1 (ko) 인터넷 기반의 가중치 속성을 사용한 정보 검색 방법
CN117131109B (zh) 一种基于aigc的模糊行程规划系统
CN103177053A (zh) 教案编辑的动态资源推荐方法以及其教案编辑系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140917