CN108304433A - 一种数据搜索方法及其设备、存储介质、服务器 - Google Patents

一种数据搜索方法及其设备、存储介质、服务器 Download PDF

Info

Publication number
CN108304433A
CN108304433A CN201710774245.3A CN201710774245A CN108304433A CN 108304433 A CN108304433 A CN 108304433A CN 201710774245 A CN201710774245 A CN 201710774245A CN 108304433 A CN108304433 A CN 108304433A
Authority
CN
China
Prior art keywords
data
search
database
information
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710774245.3A
Other languages
English (en)
Other versions
CN108304433B (zh
Inventor
甘骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710774245.3A priority Critical patent/CN108304433B/zh
Publication of CN108304433A publication Critical patent/CN108304433A/zh
Application granted granted Critical
Publication of CN108304433B publication Critical patent/CN108304433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开一种数据搜索方法及其设备、存储介质、服务器,其中方法包括如下步骤:获取预设时间段内的历史搜索信息;在该信息的第一搜索数据中获取与第一数据库的数据匹配的第一数据;再在该信息中获取第一数据对应的第二搜索数据,将其存入第二数据库中。在第二搜索数据中获取与第二数据库中的数据相匹配的第二数据;在历史搜索信息中获取第二数据对应的第一搜索数据,将其存入第一数据库中,转入执行获取第一数据的步骤;当存入第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配时,结束对第一搜索数据和第二搜索数据的搜索过程。采用本发明,可以提高数据利用率,进而可以增加查询数据库中数据的精确度。

Description

一种数据搜索方法及其设备、存储介质、服务器
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据搜索方法及其设备、存储介质、服务器。
背景技术
随着互联网技术的快速发展,在智能手机、掌上电脑以及其他终端设备中进行的网络搜索会保留大量的搜索记录数据(用户进行相关搜索时留下的搜索痕迹),其中,搜索记录数据包括用户输入的查询词以及该查询词对应的统一资源定位符(Uniform ResourceLocation,URL)俗称网址等关键信息。通过对某一领域(例如,音乐领域)内搜索记录数据进行挖掘处理,并将挖掘所得的关键信息存储在该领域对应的查询数据库中,可以使后续针对该领域的相关搜索所得的信息更加准确。现有技术中,通过对历史搜索记录数据中的某一关键信息(查询词或者URL)的筛选,增加相关信息领域内的关键词或者URL,然而,对于包含较多关键信息的搜索记录数据只通过一种数据挖掘方法,降低了对搜索记录数据的利用率,影响了对数据挖掘处理后查询数据库中数据的精确度。
发明内容
本发明实施例提供一种数据搜索方法及其设备、存储介质、服务器,通过分析两种数据挖掘方法的迭代过程,可以提高数据利用率,增加查询数据库中数据的精确度。
本发明实施例第一方面提供了一种数据搜索方法,可包括:
获取预设时间段内的历史搜索信息;
在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据;
在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中;
在所述第二搜索数据中获取与第二数据库中的数据相匹配的第二数据;
在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,转入执行在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据的步骤;
当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配时,结束对所述第一搜索数据和所述第二搜索数据的搜索过程。
本发明实施例第二方面提供了一种数据搜索设备,可包括:
信息获取模块,用于获取预设时间段内的历史搜索信息;
第一数据处理模块,用于在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据;
第二数据存储模块,用于在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中;
第二数据处理模块,用于在所述第二搜索数据中获取与第二数据库中的数据相匹配的第二数据;
第一数据存储模块,用于在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,转入执行在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据的步骤;
循环结束模块,用于当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配时,结束对所述第一搜索数据和所述第二搜索数据的搜索过程。
本发明实施例第三方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时执行本发明实施例中第一方面中的方法。
本发明实施例第四方面提供了一种服务器,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:
获取预设时间段内的历史搜索信息;
在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据;
在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中;
在所述第二搜索数据中获取与第二数据库中的数据相匹配的第二数据;
在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,转入执行在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据的步骤;
当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配时,结束对所述第一搜索数据和所述第二搜索数据的搜索过程。
在本发明实施例中,通过分析历史搜索信息中的两种搜索数据的数据搜索过程,将一种数据搜索过程的结果作为另一种数据的搜索过程的输入,通过循环迭代的方式对历史搜索信息中的数据进行反复挖掘,直至不再有新的数据产生并存入数据库,提高了对历史搜索信息的利用率,增加了对数据挖掘处理后查询数据库中数据的精确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据搜索方法的流程示意图;
图2a-图2d是本发明实施例提供的数据搜索过程的结构示意图;
图3是本发明实施例提供的另一种数据搜索方法的流程示意图;
图4是本发明实施例提供的另一种数据搜索方法的流程示意图;
图5是本发明实施例提供的另一种数据搜索方法的流程示意图;
图6是本发明实施例提供的一种数据搜索设备的结构示意图;
图7是本发明实施例提供的第一数据处理模块的结构示意图;
图8是本发明实施例提供的第二数据存储模块的结构示意图;
图9是本发明实施例提供的第一数据存储模块的结构示意图;
图10是本发明实施例提供的第二数据存储单元的结构示意图;
图11是本发明实施例提供的第一数据存储单元的结构示意图;
图12是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的数据搜索方法可以应用于通过关键词和域名对历史搜索记录中的数据进行挖掘的场景中,例如:数据搜索设备获取预设时间段内的历史搜索信息,在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据,在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中。所述数据搜索设备在所述第二搜索数据中获取与第二数据库中的数据相匹配的第二数据,在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,转入执行在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据的步骤,当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配时,结束对所述第一搜索数据和所述第二搜索数据的搜索过程。通过分析历史搜索信息中的两种搜索数据的数据搜索过程,将一种数据搜索过程的结果作为另一种数据的搜索过程的输入,通过循环迭代的方式对历史搜索信息中的数据进行反复挖掘,直至不再有新的数据产生并存入数据库,提高了对历史搜索信息的利用率,增加了对数据挖掘处理后查询数据库中数据的精确度。
本发明实施例涉及的数据搜索设备可以是具备管理资源并为用户提供服务的计算机设备,例如,可以是具有较强的数据承载能力和处理能力的服务器。
下面将结合附图1-附图5,对本发明实施例提供的数据搜索方法进行详细介绍。
请参见图1,为本发明实施例提供了一种数据搜索方法的流程示意图。如图1所示,本发明实施例的所述方法可以包括以下步骤S101-步骤S106。
S101,获取预设时间段内的历史搜索信息;
具体的,数据搜索设备可以获取预设时间段内的历史搜索信息,可以理解的是,所述预设时间段可以是当前时刻之前的一天、两天或者一周等的时间段,所述历史搜索信息可以是在电脑或者手机等终端设备中对相关信息进行搜索时留下的搜索记录,可以包含搜索用的关键字段和该字段对应的URL,例如,历史搜索信息可以包含“我爱音乐”以及终端针对“我爱音乐”搜索出的一系列URL。
可以理解的是,搜索历史搜索信息可以是所述预设时间段内的所有搜索记录,可以包含很多信息领域,例如,包含音乐领域、体育领域以及美术领域等其他领域的信息。
S102,在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据;
具体的,所述数据搜索设备可以在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据,可以理解的是,所述第一搜索数据可以是所述历史搜索信息中关键字段中的关键词数据或者URL中的域名数据,例如,当所述历史搜索信息中关键字段为“我想听轻音乐”URL为http://music.baidu.com/和http://yinyuetai.com/时,第一搜索数据可以是关键词数据“轻音乐”或者“音乐”也可以是域名数据“yinyuetai.com”或者“music.baidu.com”等。在本发明的具体实施方式中,所述第一搜索数据为关键词数据。
所述第一数据库中的数据可以是所述数据搜索设备中由开发人员自己搜索或者URL通过众包预先存储的关键词集合或者域名集合,例如,可以包含音乐领域中的关键词“演唱会”、“唱片”以及“金曲奖”等或者音乐领域中的域名“xiami.com”、“music.baidu.com”以及“y.qq.com”等,后续可以通过对历史搜索数据的挖掘,不断扩充所述第一数据库中的数据。
可以理解的是,所述第一数据库中的数据也是包含多种信息领域的数据,所述数据搜索设备在所述第一搜索数据中获取所述第一数据时可以先在所述第一数据库中选定目标信息领域,例如,当在所述第一数据库中所选择的目标信息领域为音乐领域时,从所述第一搜索数据中获取的与所述第一数据库中的数据相匹配的第一数据也是音乐领域的数据。
S103,在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中;
具体的,所述数据搜索设备可以在所述历史搜索信息中获取所述第一数据对应的第二搜索数据。可以理解的是,所述第二搜索数据可以是所述历史搜索信息中与所述第一数据类型相对应的数据,例如,当所述第一数据为关键词数据时,与之对应的第二搜索数据为域名数据;而当所述第一数据为域名数据时,与之对应的第二搜索数据为关键词数据。在本发明的具体实施方式中,所述第一数据可以对应至少一个第二搜索数据,例如,第一数据为“轻音乐”,与其对应的第二搜索数据可以包括“xiami.com”、“music.baidu.com”以及“y.qq.com”等。本实施例中,所述第二搜索数据可以为域名数据。
可选的,所述数据搜索设备可以在所述历史搜索信息中获取与所述第一数据对应的第一候选信息,所述第一候选信息可以是所述历史搜索信息中与所述第一数据对应的一部分历史搜索信息,例如,当第一数据为“轻音乐”时,第一候选信息可以为“我想听轻音乐”以及该关键字段对应的URL即http://music.baidu.com/。进一步的,所述数据搜索设备可以将所述第一候选信息所指示的第一候选数据确定为第二搜索数据,可以理解的是,所述第一候选数据可以是与所述第一数据类型相对应的数据,例如,当所述第一数据为关键词数据时第一候选数据为域名数据,当所述第一数据为域名数据时第一候选数据为关键词数据。
进一步的,所述数据搜索设备可以将所述第二搜索数据存入第二数据库中,可以理解的是,所述第二数据库与所述第一数据库类似,所述第二数据库中的数据可以是所述数据搜索设备中由开发人员自己搜索或者URL通过众包预先存储的关键词集合或者域名集合。
在本发明实施例中,在对第一搜索数据和第二搜索数据的循环迭代的数据挖掘的过程中,所述第一数据库与所述第二数据库中的数据是相对应的,例如,当第一数据库中的数据为关键词数据时,第二数据库中的数据为域名数据,当第一数据库中的数据为域名数据时,第二数据库中的数据为关键词数据。
在本发明实施例的一种具体实现方式中,所述第一搜索数据为关键词数据,所述第二搜索数据为域名数据时,对所述第一搜索数据的数据挖掘过程可以是如图2a所示的过程:判断第一搜索数据即关键词数据中是否包含与第一数据库即关键词库中的数据相匹配的关键词,当判断结果为否时,抛弃所述关键词数据;当判断结果为是时,在所述第一搜索数据中提取所述相匹配的关键词对应的域名数据。
S104,在所述第二搜索数据中获取与第二数据库中的数据相匹配的第二数据;
S105,在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,转入执行在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据的步骤;
在本发明实施例中,第一搜索数据可以为关键词数据,在对所述第一搜索数据进行首次关键词挖掘后,首次关键词挖掘所输出的第一数据对应的第二搜索数据可以作为首次域名挖掘的输入,首次域名挖掘所输出的第二数据对应的第一搜索数据可以再作为二次迭代时关键词挖掘的输入。
具体的,所述搜索数据设备可以在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,可以理解的是,存入第一数据库中的所述第一搜索数据可以作为二次迭代时关键词挖掘的输入,可以与搜索关键词挖掘时的所述第一搜索数据不同。可以理解的是,所述第二数据可以对应至少一个第一搜索数据,例如,域名“music.baidu.com”可以对应的关键词为“轻音乐”和“音乐”,在搜索关键词挖掘时所述第一数据为“音乐”,存入第二数据库的域名为“music.baidu.com”,在对域名挖掘时可以将所述第二数据“music.baidu.com”对应的关键词“轻音乐”存入所述第一数据库中,从而可以扩充所述第一数据库。
进一步的,在完成对所述历史搜索信息的首次数据挖掘(包括关键词挖掘和域名挖掘)后,所述数据搜索设备可以转入执行步骤S102对应的操作,进入数据挖掘的迭代过程。
在本发明实施例的一种具体实现方式中,所述第一搜索数据为关键词数据,所述第二搜索数据为域名数据时,对所述第二搜索数据的数据挖掘过程可以是如图2b所示的过程:判断第二搜索数据即域名数据中是否包含与第二数据库即域名库中的数据相匹配的域名,当判断结果为否时,抛弃所述域名数据;当判断结果为是时,在所述第二搜索数据中提取所述相匹配的域名对应的关键词数据。首次数据挖掘为关键词挖掘时一次完整的数据挖掘的迭代过程可以是如图2c所示的过程:首先对历史搜索信息进行关键词挖掘处理,将挖掘出的候选关键词对应的域名数据存入域名库中进行域名挖掘处理;域名挖掘处理后所得的候选域名对应的关键词可以存入关键词库中,上述过程即一次完整的数据挖掘迭代过程。
S106,当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配时,结束对所述第一搜索数据和所述第二搜索数据的搜索过程。
可以理解的是,在完成一次数据挖掘的迭代过程后,所述数据搜索设备可以检测存入所述第一数据库中的第一搜索数据是否都与所述第一数据库中的数据相匹配,即判断是否有新的第一搜索数据存入所述第一数据库中。
具体的,当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配,即存入所述第一数据库中的第一搜索数据都是所述第一数据库中已经存储的数据时,所述数据搜索设备可以结束对所述第一搜索数据和所述第二搜索数据的搜索过程,数据挖掘的循环迭代过程结束。
在本发明实施例中,通过分析历史搜索信息中的两种搜索数据的数据搜索过程,将一种数据搜索过程的结果作为另一种数据的搜索过程的输入,通过循环迭代的方式对历史搜索信息中的数据进行反复挖掘,直至不再有新的数据产生并存入数据库,提高了对历史搜索信息的利用率,增加了对数据挖掘处理后查询数据库中数据的精确度。
请参见图3,为本发明实施例提供了另一种数据搜索方法的流程示意图。如图3所示,本发明实施例的所述方法可以包括以下步骤S201-步骤S208。
S201,获取预设时间段内的历史搜索信息;
具体的,数据搜索设备可以获取预设时间段内的历史搜索信息,可以理解的是,所述预设时间段可以是当前时刻之前的一天、两天或者一周等的时间段,所述历史搜索信息可以是在电脑或者手机等终端设备中对相关信息进行搜索时留下的搜索记录,可以包含搜索用的关键字段和该字段对应的URL,例如,历史搜索信息可以包含“我爱音乐”以及终端针对“我爱音乐”搜索出的一系列URL。
可以理解的是,搜索历史搜索信息可以是所述预设时间段内的所有搜索记录,可以包含很多信息领域,例如,包含音乐领域、体育领域以及美术领域等其他领域的信息。
S202,获取在第一数据库中所选择的目标信息领域指示的目标领域数据;
具体的,所述数据搜索设备可以获取在第一数据库中所选择的目标信息领域指示的目标领域数据,可以理解的是,所述第一数据库中的数据也是包含多种信息领域的数据,可以是所述数据搜索设备中由开发人员自己搜索或者URL通过众包预先存储的关键词集合或者域名集合,例如,可以包含音乐领域中的关键词“演唱会”、“唱片”以及“金曲奖”等或者音乐领域中的域名“xiami.com”、“music.baidu.com”以及“y.qq.com”等,后续可以通过对历史搜索数据的挖掘,不断扩充所述第一数据库中的数据。具体的,所述数据搜索设备可以在所述第一数据库中选择目标信息领域,例如,可以是音乐领域,所述目标信息领域所指示的目标领域数据可以是所述第一数据库中数据目标信息领域的数据,例如,可以是音乐领域的数据。
S203,在所述历史搜索信息的第一搜索数据中获取与所述目标领域数据相匹配的第一数据;
具体的,所述数据搜索设备可以在所述历史搜索信息的第一搜索数据中获取与所述目标领域数据相匹配的第一数据,可以理解的是,所述第一数据所述的信息领域与所述目标领域数据一致。所述第一搜索数据可以是所述历史搜索信息中关键字段中的关键词数据或者URL中的域名数据,例如,当所述历史搜索信息中关键字段为“我想听轻音乐”,URL为http://music.baidu.com/和http://yinyuetai.com/时,第一搜索数据可以是关键词数据“轻音乐”或者“音乐”也可以是域名数据“yinyuetai.com”或者“music.baidu.com”等。在本发明的具体实施方式中,所述第一搜索数据可以为关键词数据。
在本发明实施例中,通过在第一数据库中确定目标信息领域,使后续的数据挖掘过程只针对所述目标信息领域的数据进行,提高了具体信息领域内数据挖掘效率。
S204,在所述历史搜索信息中获取所述第一数据对应的第一候选信息;
具体的,所述数据搜索设备可以在所述历史搜索信息中获取所述第一数据对应的第一候选信息,可以理解的是,所述第一候选信息可以是所述历史搜索信息中与所述第一数据对应的一部分历史搜索信息,例如,当第一数据为“轻音乐”时,第一候选信息可以为“我想听轻音乐”以及该关键字段对应的URL即http://music.baidu.com/。
S205,将所述第一候选信息所指示的第一候选数据确定为第二搜索数据,并将所述第二搜索数据存入第二数据库中;
具体的,所述数据搜索设备可以将所述第一候选信息所指示的第一候选数据确定为第二搜索数据,可以理解的是,所述第一候选数据可以是与所述第一数据类型相对应的数据,例如,当所述第一数据为关键词数据时第一候选数据为域名数据,当所述第一数据为域名数据时第一候选数据为关键词数据。
进一步的,所述数据搜索设备可以将所述第二搜索数据存入第二数据库中,可以理解的是,所述第二数据库与所述第一数据库类似,所述第二数据库中的数据可以是所述数据搜索设备中由开发人员自己搜索或者URL通过众包预先存储的关键词集合或者域名集合。
在本发明实施例中,在对第一搜索数据和第二搜索数据的循环迭代的数据挖掘的过程中,所述第一数据库与所述第二数据库中的数据是相对应的,例如,当第一数据库中的数据为关键词数据时,第二数据库中的数据为域名数据,当第一数据库中的数据为域名数据时,第二数据库中的数据为关键词数据。
在本发明实施例的一种具体实现方式中,所述第一搜索数据为关键词数据,所述第二搜索数据为域名数据时,对所述第一搜索数据的数据挖掘过程可以是如图2a所示的过程:判断第一搜索数据即关键词数据中是否包含与第一数据库即关键词库中的数据相匹配的关键词,当判断结果为否时,抛弃所述关键词数据;当判断结果为是时,在所述第一搜索数据中提取所述相匹配的关键词对应的域名数据。
S206,在所述第二搜索数据中获取与第二数据库中的数据相匹配的第二数据;
S207,在所述历史搜索信息中获取所述第二数据对应的第二候选信息;
具体的,所述数据搜索设备可以在所述历史搜索信息中获取所述第二数据对应的第二候选信息,获取所述第二候选信息的过程与步骤S204中获取第一候选信息的过程一致,可以参见步骤S204中的描述此处不再赘述。
S207,将所述第二候选信息所指示的第二候选数据确定为第一搜索数据,并将所述第一搜索数据存入第一数据库中,转入执行在所述历史搜索信息的第一搜索数据中获取与所述目标领域数据相匹配的第一数据的步骤;
在本发明实施例中,第一搜索数据可以为关键词数据,在对所述第一搜索数据进行首次关键词挖掘后,首次关键词挖掘所输出的第一数据对应的第二搜索数据可以作为首次域名挖掘的输入,首次域名挖掘的所输出的第二数据对应的第一搜索数据再作为二次迭代时关键词挖掘的输入。
具体的,所述数据搜索设备可以将所述第二候选信息所指示的第二候选数据确定为第一搜索数据,可以理解的是,所述第二候选数据可以是与所述第二数据类型相对应的数据,例如,当所述第二数据为关域名数据时第二候选数据为关键词数据,当所述第二数据为关键词数据时第二候选数据为域名数据。
进一步的,所述数据搜索设备可以将所述第一搜索数据存入第一数据库中,可以理解的是,存入第一数据库中的所述第一搜索数据可以作为二次迭代时关键词挖掘的输入,可以与搜索关键词挖掘时的所述第一搜索数据不同。可以理解的是,所述第二数据可以对应至少一个第一搜索数据,例如,域名“music.baidu.com”可以对应的关键词为“轻音乐”和“音乐”,在搜索关键词挖掘时所述第一数据为“音乐”,存入第二数据库的域名为“music.baidu.com”,在对域名挖掘时可以将所述第二数据“music.baidu.com”对应的关键词“轻音乐”存入所述第一数据库中,从而可以扩充所述第一数据库。
进一步的,在完成对所述历史搜索信息的首次数据挖掘(包括关键词挖掘和域名挖掘)后,所述数据搜索设备可以转入执行步骤S203对应的操作,进入数据挖掘的迭代过程。
在本发明实施例中,通过获取第一数据对应的第一候选信息以及第二数据对应的第二候选信息,再将候选信息中的候选数据确定为搜索数据,增加了数据挖掘过程中对细节处理的可实施性。
在本发明实施例的一种具体实现方式中,所述第一搜索数据为关键词数据,所述第二搜索数据为域名数据时,对所述第二搜索数据的数据挖掘过程可以是如图2b所示的过程:判断第二搜索数据即域名数据中是否包含与第二数据库即域名库中的数据相匹配的域名,当判断结果为否时,抛弃所述域名数据;当判断结果为是时,在所述第二搜索数据中提取所述相匹配的域名对应的关键词数据。首次数据挖掘为关键词挖掘时一次完整的数据挖掘的迭代过程可以是如图2c所示的过程:首先对历史搜索信息进行关键词挖掘处理,将挖掘出的候选关键词对应的域名数据存入域名库中进行域名挖掘处理,域名挖掘处理后所得的候选域名对应的关键词可以存入关键词库中,上述过程即一次完整的数据挖掘的迭代过程。
S208,当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配时,结束对所述第一搜索数据和所述第二搜索数据的搜索过程
可以理解的是,在完成一次数据挖掘的迭代过程后,所述数据搜索设备可以检测存入所述第一数据库中的第一搜索数据是否都与所述第一数据库中的数据相匹配时,即判断是否有新的第一搜索数据存入所述第一数据库中。
具体的,当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配,即存入所述第一数据库中的第一搜索数据都是所述第一数据库中已经存储的数据时,所述数据搜索设备可以结束对所述第一搜索数据和所述第二搜索数据的搜索过程,数据挖掘的循环迭代过程结束。
在本发明实施例一种具体实现方式中,所述将所述第一候选信息所指示的第一候选数据确定为第二搜索数据,并将所述第二搜索数据存入第二数据库中可以包括以下几个步骤,如图4所示:
S301,提取所述第一候选信息所指示的第一候选数据;
具体的,所述数据搜索设备可以提取所述第一候选信息所指示的第一候选数据,可以理解的是,所述第一候选数据可以是所述第一候选信息中的关键词数据或者域名数据。
S302,对所述第一候选数据进行数据筛选处理,得到所述第一候选数据中满足所述目标信息领域所指示的数据类型的第二搜索数据,并将所述第二搜索数据存入第二数据库中;
具体的,所述数据搜索设备可以对所述第一候选数据进行数据筛选处理,可选的,所述数据筛选处理可以是通过人工半监督的方式滤除所述第一候选数据中所属信息领域不明确是否为目标信息领域的第一候选数据,也可以是通过引入机器学习分类器滤除所述第一候选数据中与不能确定是否为目标信息领域内数据的第一候选数据。例如,目标信息领域为音乐领域,第一候选数据包括“爱你一万年”、“爱妈妈”、“演唱会”等,其中“爱妈妈”不能确定是否属于音乐领域的关键词,可以通过数据筛选处理将其滤除掉。
进一步的,经过所述筛选处理后,所述数据搜索设备可以得到所述第一候选数据中满足所述目标信息领域所指示的数据类型的第二搜索数据,例如所述第二搜索数据可以确定为音乐领域所指示的数据类型,例如,可以是“爱你一万年”、和“演唱会”等。进一步的,所述数据搜索设备可以将经所述第二搜索数据存入第二数据库中。
在本发明实施例一种具体实现方式中,所述将所述第二候选信息所指示的第二候选数据确定为第一搜索数据,并将所述第一搜索数据存入第一数据库中可以包括以下几个步骤,如图5所示:
S401,提取所述第二候选信息所指示的第二候选数据;
S402,对所述第二候选数据进行所述数据筛选处理,得到所述第二候选数据中满足所述目标信息领域所指示的数据类型的第一搜索数据,并将所述第一搜索数据存入第一数据库中;
在本发明实施例的一种具体实现方式中,所述第一搜索数据为关键词数据,所述第二搜索数据为域名数据时,首次数据挖掘为关键词挖掘时一次完整的数据挖掘的迭代过程也可以是如图2d所示的过程:首先对历史搜索信息进行关键词挖掘处理,然后采用人工半监督的方式对挖掘出的候选关键词进行一次人工筛选(滤除一些信息领域指代不清的候选关键词),再将半监督后的候选关键词对应的域名数据存入域名库中进行域名挖掘处理;域名挖掘处理后所得的候选域名也通过人工半监督的方式对挖掘出的候选域名进行一次人工筛选(滤除一些信息领域指代不清的候选域名),再将半监督后的候选域名对应的关键词数据存入域名库中,上述过程即一次完整的包含半监督的数据挖掘迭代过程。
在本发明实施例中,通过对候选数据进行数据筛选处理,滤除所属信息领域不明确的候选数据,增加了数据挖掘后数据库中数据的准确性。
在本发明实施例中,通过分析历史搜索信息中的两种搜索数据的数据搜索过程,将一种数据搜索过程的结果作为另一种数据的搜索过程的输入,通过循环迭代的方式对历史搜索信息中的数据进行反复挖掘,直至不再有新的数据产生并存入数据库,提高了对历史搜索信息的利用率,增加了对数据挖掘处理后查询数据库中数据的精确度;通过在第一数据库中确定目标信息领域,使后续的数据挖掘过程只针对目标信息领域的数据进行,提高了具体信息领域内数据挖掘效率;通过获取第一数据对应的第一候选信息以及第二数据对应的第二候选信息,再将候选信息中的候选数据确定为搜索数据,增加了数据挖掘过程中对细节处理的可实施性;通过对候选数据进行数据筛选处理,滤除所属信息领域不明确的候选数据,增加了数据挖掘后数据库中数据的准确性。
下面将结合附图6-附图11,对本发明实施例提供的数据搜索设备进行详细介绍。需要说明的是,附图6-附图11所示的设备,用于执行本发明图1-图5所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明图1-图5所示的实施例。
请参见图6,为本发明实施例提供了一种数据搜索设备的结构示意图。如图6所示,本发明实施例的所述数据搜索设备1可以包括:信息获取模块11、第一数据处理模块12、第二数据存储模块13、第二数据处理模块14、第一数据存储模块15和循环结束模块16。
信息获取模块11,用于获取预设时间段内的历史搜索信息;
具体实现中,信息获取模块11可以获取预设时间段内的历史搜索信息,可以理解的是,所述预设时间段可以是当前时刻之前的一天、两天或者一周等的时间段,所述历史搜索信息可以是在电脑或者手机等终端设备中对相关信息进行搜索时留下的搜索记录,可以包含搜索用的关键字段和该字段对应的URL,例如,历史搜索信息可以包含“我爱音乐”以及终端针对“我爱音乐”搜索出的一系列URL。
可以理解的是,搜索历史搜索信息可以是所述预设时间段内的所有搜索记录,可以包含很多信息领域,例如,包含音乐领域、体育领域以及美术领域等其他领域的信息。
第一数据处理模块12,用于在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据;
具体实现中,第一数据处理模块12可以在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据,可以理解的是,所述第一搜索数据可以是所述历史搜索信息中关键字段中的关键词数据或者URL中的域名数据,例如,当所述历史搜索信息中关键字段为“我想听轻音乐”URL为http://music.baidu.com/和http://yinyuetai.com/时,第一搜索数据可以是关键词数据“轻音乐”或者“音乐”也可以是域名数据“yinyuetai.com”或者“music.baidu.com”等。在本发明的具体实施方式中,所述第一搜索数据为关键词数据。
所述第一数据库中的数据可以是所述数据搜索设备1中由开发人员自己搜索或者URL通过众包预先存储的关键词集合或者域名集合,例如,可以包含音乐领域中的关键词“演唱会”、“唱片”以及“金曲奖”等或者音乐领域中的域名“xiami.com”、“music.baidu.com”以及“y.qq.com”等,后续可以通过对历史搜索数据的挖掘,不断扩充所述第一数据库中的数据。
可以理解的是,所述第一数据库中的数据也是包含多种信息领域的数据,所述第一数据处理模块12在所述第一搜索数据中获取所述第一数据时可以先在所述第一数据库中选定目标信息领域,例如,当在所述第一数据库中所选择的目标信息领域为音乐领域时,从所述第一搜索数据中获取的与所述第一数据库的数据相匹配的第一数据也是音乐领域的数据。
第二数据存储模块13,用于在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中;
具体实现中,第二数据存储模块13可以在所述历史搜索信息中获取所述第一数据对应的第二搜索数据。可以理解的是,所述第二搜索数据可以是所述历史搜索信息中与所述第一数据类型相对应的数据,例如,当所述第一数据为关键词数据时,与之对应的第二搜索数据为域名数据;而当所述第一数据为域名数据时,与之对应的第二搜索数据为关键词数据。在本发明的具体实施方式中,所述第一数据可以对应至少一个第二搜索数据,例如,第一数据为“轻音乐”,与其对应的第二搜索数据可以包括“xiami.com”、“music.baidu.com”以及“y.qq.com”等。本实施例中,所述第二搜索数据可以为域名数据。
可选的,所述第二数据存储模块13可以在所述历史搜索信息中获取所述第一数据对应的第一候选信息,所述第一候选信息可以是所述历史搜索信息中与所述第一数据对应的一部分历史搜索信息,例如,当第一数据为“轻音乐”时,第一候选信息可以为“我想听轻音乐”以及该关键字段对应的URL即http://music.baidu.com/。进一步的,所述第二数据存储模块13可以将所述第一候选信息所指示的第一候选数据确定为第二搜索数据,可以理解的是,所述第一候选数据可以是与所述第一数据类型相对应的数据,例如,当所述第一数据为关键词数据时第一候选数据为域名数据,当所述第一数据为域名数据时第一候选数据为关键词数据。
进一步的,所述第二数据存储模块13可以将所述第二搜索数据存入第二数据库中,可以理解的是,所述第二数据库与所述第一数据库类似,所述第二数据库中的数据可以是所述数据搜索设备1中由开发人员自己搜索或者URL通过众包预先存储的关键词集合或者域名集合。
在本发明实施例中,在对第一搜索数据和第二搜索数据的循环迭代的数据挖掘的过程中,所述第一数据库与所述第二数据库中的数据是相对应的,例如,当第一数据库中的数据为关键词数据时,第二数据库中的数据为域名数据,当第一数据库中的数据为域名数据时,第二数据库中的数据为关键词数据。
在本发明实施例的一种具体实现方式中,所述第一搜索数据为关键词数据,所述第二搜索数据为域名数据时,对所述第一搜索数据的数据挖掘过程可以是如图2a所示的过程:判断第一搜索数据即关键词数据中是否包含与第一数据库即关键词库中的数据相匹配的关键词,当判断结果为否时,抛弃所述关键词数据;当判断结果为是时,在所述第一搜索数据中提取所述相匹配的关键词对应的域名数据。
第二数据处理模块14,用于在所述第二搜索数据中获取与第二数据库中的数据相匹配的第二数据;
第一数据存储模块15,用于在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,转入执行在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据的步骤;
在本发明实施例中,第一搜索数据可以为关键词数据,在对所述第一搜索数据进行首次关键词挖掘后,首次关键词挖掘所输出的第一数据对应的第二搜索数据可以作为首次域名挖掘的输入,首次域名挖掘的所输出的第二数据对应的第一搜索数据可以再作为二次迭代时关键词挖掘的输入。
具体实现中,第一数据存储模块15可以在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,可以理解的是,存入第一数据库中的所述第一搜索数据可以作为二次迭代时关键词挖掘的输入,可以与搜索关键词挖掘时的所述第一搜索数据不同。可以理解的是,所述第二数据可以对应至少一个第一搜索数据,例如,域名“music.baidu.com”可以对应的关键词为“轻音乐”和“音乐”,在搜索关键词挖掘时所述第一数据为“音乐”,存入第二数据库的域名为“music.baidu.com”,在对域名挖掘时可以将所述第二数据“music.baidu.com”对应的关键词“轻音乐”存入所述第一数据库中,从而可以扩充所述第一数据库。
进一步的,在完成对所述历史搜索信息的首次数据挖掘(包括关键词挖掘和域名挖掘)后,所述第一数据存储模块15可以转入第一数据处理模块12对应的操作,进入数据挖掘的迭代过程。
在本发明实施例的一种具体实现方式中,所述第一搜索数据为关键词数据,所述第二搜索数据为域名数据时,对所述第二搜索数据的数据挖掘过程可以是如图2b所示的过程:判断第二搜索数据即域名数据中是否包含与第二数据库即域名库中的数据相匹配的域名,当判断结果为否时,抛弃所述域名数据;当判断结果为是时,在所述第二搜索数据中提取所述相匹配的域名对应的关键词数据。首次数据挖掘为关键词挖掘时一次完整的数据挖掘的迭代过程可以是如图2c所示的过程:首先对历史搜索信息进行关键词挖掘处理,将挖掘出的候选关键词对应的域名数据存入域名库中进行域名挖掘处理;域名挖掘处理后所得的候选域名对应的关键词可以存入关键词库中,上述过程即一次完整的数据挖掘迭代过程。
循环结束模块16,用于当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配时,结束对所述第一搜索数据和所述第二搜索数据的搜索过程。
可以理解的是,在完成一次数据挖掘的迭代过程后,循环结束模块16可以检测存入所述第一数据库中的第一搜索数据是否都与所述第一数据库中的数据相匹配,即判断是否有新的第一搜索数据存入所述第一数据库中。
具体实现中,当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配,即存入所述第一数据库中的第一搜索数据都是所述第一数据库中已经存储的数据时,所述循环结束模块16可以结束对所述第一搜索数据和所述第二搜索数据的搜索过程,数据挖掘的循环迭代过程结束。
在本发明实施例中,通过分析历史搜索信息中的两种搜索数据的数据搜索过程,将一种数据搜索过程的结果作为另一种数据的搜索过程的输入,通过循环迭代的方式对历史搜索信息中的数据进行反复挖掘,直至不再有新的数据产生并存入数据库,提高了对历史搜索信息的利用率,增加了对数据挖掘处理后查询数据库中数据的精确度。
在本发明实施例提供的另一种实现方式中,如图6所示的所述数据搜索设备1可以包括:信息获取模块11、第一数据处理模块12、第二数据存储模块13、第二数据处理模块14、第一数据存储模块15和循环结束模块16。
信息获取模块11,用于获取预设时间段内的历史搜索信息;
具体实现中,信息获取模块11可以获取预设时间段内的历史搜索信息,可以理解的是,所述预设时间段可以是当前时刻之前的一天、两天或者一周等的时间段,所述历史搜索信息可以是在电脑或者手机等终端设备中对相关信息进行搜索时留下的搜索记录,可以包含搜索用的关键字段和该字段对应的URL,例如,历史搜索信息可以包含“我爱音乐”以及终端针对“我爱音乐”搜索出的一系列URL。
可以理解的是,搜索历史搜索信息可以是所述预设时间段内的所有搜索记录,可以包含很多信息领域,例如,包含音乐领域、体育领域以及美术领域等其他领域的信息。
第一数据处理模块12,用于在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据;
具体实现中,第一数据处理模块12可以在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据。
请一并参考图7,为本发明实施例提供了第一数据处理模块的结构示意图。如图7所示,所述第一数据处理模块12可以包括:
目标数据获取单元121,用于获取在第一数据库中所选择的目标信息领域指示的目标领域数据;
具体实现中,目标数据获取单元121可以获取在第一数据库中所选择的目标信息领域指示的目标领域数据,可以理解的是,所述第一数据库中的数据也是包含多种信息领域的数据,可以是所述数据搜索设备1中由开发人员自己搜索或者URL通过众包预先存储的关键词集合或者域名集合,例如,可以包含音乐领域中的关键词“演唱会”、“唱片”以及“金曲奖”等或者音乐领域中的域名“xiami.com”、“music.baidu.com”以及“y.qq.com”等,后续可以通过对历史搜索数据的挖掘,不断扩充所述第一数据库中的数据。具体的,所述数据搜索设备可以在所述第一数据库中选择目标信息领域,例如,可以是音乐领域,所述目标信息领域所指示的目标领域数据可以是所述第一数据库中数据目标信息领域的数据,例如,可以是音乐领域的数据。
第一数据获取单元122,用于在所述历史搜索信息的第一搜索数据中获取与所述目标领域数据相匹配的第一数据;
具体实现中,第一数据获取单元122可以在所述历史搜索信息的第一搜索数据中获取与所述目标领域数据相匹配的第一数据,可以理解的是,所述第一数据所述的信息领域与所述目标领域数据一致。所述第一搜索数据可以是所述历史搜索信息中关键字段中的关键词数据或者URL中的域名数据,例如,当所述历史搜索信息中关键字段为“我想听轻音乐”URL为http://music.baidu.com/和http://yinyuetai.com/时,第一搜索数据可以是关键词数据“轻音乐”或者“音乐”也可以是域名数据“yinyuetai.com”或者“music.baidu.com”等。在本发明的具体实施方式中,所述第一搜索数据可以为关键词数据。
在本发明实施例中,通过在第一数据库中确定目标信息领域,使后续的数据挖掘过程只针对所述目标信息领域的数据进行,提高了具体信息领域内数据挖掘效率。
第二数据存储模块13,用于在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中;
具体实现中,第二数据存储模块13可以在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中。
请一并参考图8,为本发明实施例提供了第二数据存储模块的结构示意图。如图8所示,所述第二数据存储模块13可以包括:
第一信息获取单元131,用于在所述历史搜索信息中获取所述第一数据对应的第一候选信息;
具体实现中,第一信息获取单元131可以在所述历史搜索信息中获取所述第一数据对应的第一候选信息,可以理解的是,所述第一候选信息可以是所述历史搜索信息中与所述第一数据对应的一部分历史搜索信息,例如,当第一数据为“轻音乐”时,第一候选信息可以为“我想听轻音乐”以及该关键字段对应的URL即http://music.baidu.com/。
第二数据存储单元132,用于将所述第一候选信息所指示的第一候选数据确定为第二搜索数据,并将所述第二搜索数据存入第二数据库中;
具体实现中,第二数据存储单元132可以将所述第一候选信息所指示的第一候选数据确定为第二搜索数据,可以理解的是,所述第一候选数据可以是与所述第一数据类型相对应的数据,例如,当所述第一数据为关键词数据时第一候选数据为域名数据,当所述第一数据为域名数据时第一候选数据为关键词数据。
进一步的,所述第二数据存储单元132可以将所述第二搜索数据存入第二数据库中,可以理解的是,所述第二数据库与所述第一数据库类似,所述第二数据库中的数据可以是所述数据搜索设备1中由开发人员自己搜索或者URL通过众包预先存储的关键词集合或者域名集合。
在本发明实施例中,在对第一搜索数据和第二搜索数据的循环迭代的数据挖掘的过程中,所述第一数据库与所述第二数据库中的数据是相对应的,例如,当第一数据库中的数据为关键词数据时,第二数据库中的数据为域名数据,当第一数据库中的数据为域名数据时,第二数据库中的数据为关键词数据。
在本发明实施例的一种具体实现方式中,所述第一搜索数据为关键词数据,所述第二搜索数据为域名数据时,对所述第一搜索数据的数据挖掘过程可以是如图2a所示的过程:判断第一搜索数据即关键词数据中是否包含与第一数据库即关键词库中的数据相匹配的关键词,当判断结果为否时,抛弃所述关键词数据;当判断结果为是时,在所述第一搜索数据中提取所述相匹配的关键词对应的域名数据。
第二数据处理模块14,用于在所述第二搜索数据中获取与第二数据库中的数据相匹配的第二数据;
第一数据存储模块15,用于在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,转入执行在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据的步骤;
具体实现中,所述第一数据存储模块15可以在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,转入执行第一数据处理模块12对应的步骤。
请一并参考图9,为本发明实施例提供了第一数据存储模块的结构示意图。如图9所示,所述第一数据存储模块15可以包括:
第二信息获取单元151,用于在所述历史搜索信息中获取所述第二数据对应的第二候选信息;
具体实现中,第二信息获取单元151可以在所述历史搜索信息中获取所述第二数据对应的第二候选信息,获取所述第二候选信息的过程与所述第一信息获取单元131中获取第一候选信息的过程一致,可以参见所述第一信息获取单元131中的描述此处不再赘述。
第一数据存储单元152,用于将所述第二候选信息所指示的第二候选数据确定为第一搜索数据,并将所述第一搜索数据存入第一数据库中,转入执行在所述历史搜索信息的第一搜索数据中获取与所述目标领域数据相匹配的第一数据的步骤;
在本发明实施例中,第一搜索数据可以为关键词数据,在对所述第一搜索数据进行首次关键词挖掘后,首次关键词挖掘所输出的第一数据对应的第二搜索数据可以作为首次域名挖掘的输入,首次域名挖掘所输出的第二数据对应的第一搜索数据再作为二次迭代时关键词挖掘的输入。
具体实现中,第一数据存储单元152可以将所述第二候选信息所指示的第二候选数据确定为第一搜索数据,可以理解的是,所述第二候选数据可以是与所述第二数据类型相对应的数据,例如,当所述第二数据为关域名数据时第二候选数据为关键词数据,当所述第二数据为关键词数据时第二候选数据为域名数据。
进一步的,所述第一数据存储单元152可以将所述第一搜索数据存入第一数据库中,可以理解的是,存入第一数据库中的所述第一搜索数据可以作为二次迭代时关键词挖掘的输入,可以与搜索关键词挖掘时的所述第一搜索数据不同。可以理解的是,所述第二数据可以对应至少一个第一搜索数据,例如,域名“music.baidu.com”可以对应的关键词为“轻音乐”和“音乐”,在搜索关键词挖掘时所述第一数据为“音乐”,存入第二数据库的域名为“music.baidu.com”,在对域名挖掘时可以将所述第二数据“music.baidu.com”对应的关键词“轻音乐”存入所述第一数据库中,从而可以扩充所述第一数据库。
进一步的,在完成对所述历史搜索信息的首次数据挖掘(包括关键词挖掘和域名挖掘)后,所述第一数据存储单元152可以转入执行所述第一数据获取单元122对应的操作,进入数据挖掘的迭代过程。
在本发明实施例中,通过获取第一数据对应的第一候选信息以及第二数据对应的第二候选信息,再将候选信息中的候选数据确定为搜索数据,增加了数据挖掘过程中对细节处理的可实施性。
在本发明实施例的一种具体实现方式中,所述第一搜索数据为关键词数据,所述第二搜索数据为域名数据时,对所述第二搜索数据的数据挖掘过程可以是如图2b所示的过程:判断第二搜索数据即域名数据中是否包含与第二数据库即域名库中的数据相匹配的域名,当判断结果为否时,抛弃所述域名数据;当判断结果为是时,在所述第二搜索数据中提取所述相匹配的域名对应的关键词数据。首次数据挖掘为关键词挖掘时一次完整的数据挖掘的迭代过程可以是如图2c所示的过程:首先对历史搜索信息进行关键词挖掘处理,将挖掘出的候选关键词对应的域名数据存入域名库中进行域名挖掘处理,域名挖掘处理后所得的候选域名对应的关键词可以存入关键词库中,上述过程即一次完整的数据挖掘的迭代过程。
循环结束模块16,用于当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配时,结束对所述第一搜索数据和所述第二搜索数据的搜索过程;
可以理解的是,在完成一次数据挖掘的迭代过程后,循环结束模块16可以检测存入所述第一数据库中的第一搜索数据是否都与所述第一数据库中的数据相匹配时,即判断是否有新的第一搜索数据存入所述第一数据库中。
具体实现中,当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配,即存入所述第一数据库中的第一搜索数据都是所述第一数据库中已经存储的数据时,所述循环结束模块16可以结束对所述第一搜索数据和所述第二搜索数据的搜索过程,数据挖掘的循环迭代过程结束。
在本发明实施例一种具体实现方式中,所述第二数据存储单元132可以包括以下几个子单元,如图10所示:
第一数据提取子单元1321,用于提取所述第一候选信息所指示的第一候选数据;
具体实现中,第一数据提取子单元1321可以提取所述第一候选信息所指示的第一候选数据,可以理解的是,所述第一候选数据可以是所述第一候选信息中的关键词数据或者域名数据。
第二数据存储子单元1322,用于对所述第一候选数据进行数据筛选处理,得到所述第一候选数据中满足所述目标信息领域所指示的数据类型的第二搜索数据,并将所述第二搜索数据存入第二数据库中;
具体实现中,第二数据存储子单元1322可以对所述第一候选数据进行数据筛选处理,可选的,所述数据筛选处理可以是通过人工半监督的方式滤除所述第一候选数据中所属信息领域不明确是否为目标信息领域的第一候选数据,也可以是通过引入机器学习分类器滤除所述第一候选数据中与不能确定是否为目标信息领域内数据的第一候选数据。例如,目标信息领域为音乐领域,第一候选数据包括“爱你一万年”、“爱妈妈”、“演唱会”等,其中“爱妈妈”不能确定是否属于音乐领域的关键词,可以通过数据筛选处理将其滤除掉。
进一步的,经过所述筛选处理后,所述第二数据存储子单元1322可以得到所述第一候选数据中满足所述目标信息领域所指示的数据类型的第二搜索数据,例如所述第二搜索数据可以确定为音乐领域所指示的数据类型,例如,可以是“爱你一万年”、和“演唱会”等。进一步的,所述数据搜索设备可以将经所述第二搜索数据存入第二数据库中。
在本发明实施例一种具体实现方式中,所述第一数据存储单元152可以包括以下几个子单元,如图11所示:
第二数据提取子单元1521,用于提取所述第二候选信息所指示的第二候选数据;
第一数据存储子单元1522,用于对所述第二候选数据进行所述数据筛选处理,得到所述第二候选数据中满足所述目标信息领域所指示的数据类型的第一搜索数据,并将所述第一搜索数据存入第一数据库中;
在本发明实施例的一种具体实现方式中,所述第一搜索数据为关键词数据,所述第二搜索数据为域名数据时,首次数据挖掘为关键词挖掘时一次完整的数据挖掘的迭代过程也可以是如图2d所示的过程:首先对历史搜索信息进行关键词挖掘处理,然后采用人工半监督的方式对挖掘出的候选关键词进行一次人工筛选(滤除一些信息领域指代不清的候选关键词),再将半监督后的候选关键词对应的域名数据存入域名库中进行域名挖掘处理;域名挖掘处理后所得的候选域名也通过人工半监督的方式对挖掘出的候选域名进行一次人工筛选(滤除一些信息领域指代不清的候选域名),再将半监督后的候选域名对应的关键词数据存入域名库中,上述过程即一次完整的包含半监督的数据挖掘迭代过程。
在本发明实施例中,通过对候选数据进行数据筛选处理,滤除所属信息领域不明确的候选数据,增加了数据挖掘后数据库中数据的准确性。
在本发明实施例中,通过分析历史搜索信息中的两种搜索数据的数据搜索过程,将一种数据搜索过程的结果作为另一种数据的搜索过程的输入,通过循环迭代的方式对历史搜索信息中的数据进行反复挖掘,直至不再有新的数据产生并存入数据库,提高了对历史搜索信息的利用率,增加了对数据挖掘处理后查询数据库中数据的精确度;通过在第一数据库中确定目标信息领域,使后续的数据挖掘过程只针对目标信息领域的数据进行,提高了具体信息领域内数据挖掘效率;通过获取第一数据对应的第一候选信息以及第二数据对应的第二候选信息,再将候选信息中的候选数据确定为搜索数据,增加了数据挖掘过程中对细节处理的可实施性;通过对候选数据进行数据筛选处理,滤除所属信息领域不明确的候选数据,增加了数据挖掘后数据库中数据的准确性。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图5所示实施例的方法步骤,具体执行过程可以参见图1-图5所示实施例的具体说明,在此不进行赘述。
请参见图12,为本发明实施例提供了一种服务器的结构示意图。如图12所示,所述服务器1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据搜索应用程序。
在图12所示的服务器1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;网络接口1004用于与用户终端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据搜索应用程序,并具体执行以下操作:
获取预设时间段内的历史搜索信息;
在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据;
在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中;
在所述第二搜索数据中获取与第二数据库中的数据相匹配的第二数据;
在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,转入执行在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据的步骤;
当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配时,结束对所述第一搜索数据和所述第二搜索数据的搜索过程。
在一个实施例中,所述处理器1001在执行在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据时,具体执行以下操作:
获取在第一数据库中所选择的目标信息领域指示的目标领域数据;
在所述历史搜索信息的第一搜索数据中获取与所述目标领域数据相匹配的第一数据。
在一个实施例中,所述处理器1001在执行在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中时,具体执行以下操作:
在所述历史搜索信息中获取所述第一数据对应的第一候选信息;
将所述第一候选信息所指示的第一候选数据确定为第二搜索数据,并将所述第二搜索数据存入第二数据库中。
在一个实施例中,所述处理器1001在执行将所述第一候选信息所指示的第一候选数据确定为第二搜索数据,并将所述第二搜索数据存入第二数据库中时,具体执行以下操作:
提取所述第一候选信息所指示的第一候选数据;
对所述第一候选数据进行数据筛选处理,得到所述第一候选数据中满足所述目标信息领域所指示的数据类型的第二搜索数据,并将所述第二搜索数据存入第二数据库中。
在一个实施例中,所述处理器1001在执行在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中时,具体执行以下操作:
在所述历史搜索信息中获取所述第二数据对应的第二候选信息;
将所述第二候选信息所指示的第二候选数据确定为第一搜索数据,并将所述第一搜索数据存入第一数据库中。
在一个实施例中,所述处理器1001在执行将所述第二候选信息所指示的第二候选数据确定为第一搜索数据,并将所述第一搜索数据存入第一数据库中时,具体执行以下操作:
提取所述第二候选信息所指示的第二候选数据;
对所述第二候选数据进行所述数据筛选处理,得到所述第二候选数据中满足所述目标信息领域所指示的数据类型的第一搜索数据,并将所述第一搜索数据存入第一数据库中。
在一个实施例中,所述第一搜索数据为关键字数据,所述第二搜索数据为域名数据。
在本发明实施例中,通过分析历史搜索信息中的两种搜索数据的数据搜索过程,将一种数据搜索过程的结果作为另一种数据的搜索过程的输入,通过循环迭代的方式对历史搜索信息中的数据进行反复挖掘,直至不再有新的数据产生并存入数据库,提高了对历史搜索信息的利用率,增加了对数据挖掘处理后查询数据库中数据的精确度;通过在第一数据库中确定目标信息领域,使后续的数据挖掘过程只针对目标信息领域的数据进行,提高了具体信息领域内数据挖掘效率;通过获取第一数据对应的第一候选信息以及第二数据对应的第二候选信息,再将候选信息中的候选数据确定为搜索数据,增加了数据挖掘过程中对细节处理的可实施性;通过对候选数据进行数据筛选处理,滤除所属信息领域不明确的候选数据,增加了数据挖掘后数据库中数据的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (15)

1.一种数据搜索方法,其特征在于,包括:
获取预设时间段内的历史搜索信息;
在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据;
在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中;
在所述第二搜索数据中获取与第二数据库中的数据相匹配的第二数据;
在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,转入执行在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据的步骤;
当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配时,结束对所述第一搜索数据和所述第二搜索数据的搜索过程。
2.如权利要求1所述的方法,其特征在于,所述在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据,包括:
获取在第一数据库中所选择的目标信息领域指示的目标领域数据;
在所述历史搜索信息的第一搜索数据中获取与所述目标领域数据相匹配的第一数据。
3.如权利要求1所述的方法,其特征在于,所述在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中,包括:
在所述历史搜索信息中获取所述第一数据对应的第一候选信息;
将所述第一候选信息所指示的第一候选数据确定为第二搜索数据,并将所述第二搜索数据存入第二数据库中。
4.如权利要求3所述的方法,其特征在于,所述将所述第一候选信息所指示的第一候选数据确定为第二搜索数据,并将所述第二搜索数据存入第二数据库中,包括:
提取所述第一候选信息所指示的第一候选数据;
对所述第一候选数据进行数据筛选处理,得到所述第一候选数据中满足所述目标信息领域所指示的数据类型的第二搜索数据,并将所述第二搜索数据存入第二数据库中。
5.如权利要求1所述的方法,其特征在于,所述在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,包括:
在所述历史搜索信息中获取所述第二数据对应的第二候选信息;
将所述第二候选信息所指示的第二候选数据确定为第一搜索数据,并将所述第一搜索数据存入第一数据库中。
6.如权利要求5所述的方法,其特征在于,所述将所述第二候选信息所指示的第二候选数据确定为第一搜索数据,并将所述第一搜索数据存入第一数据库中,包括:
提取所述第二候选信息所指示的第二候选数据;
对所述第二候选数据进行所述数据筛选处理,得到所述第二候选数据中满足所述目标信息领域所指示的数据类型的第一搜索数据,并将所述第一搜索数据存入第一数据库中。
7.如权利要求1所述的方法,其特征在于,所述第一搜索数据为关键字数据,所述第二搜索数据为域名数据。
8.一种数据搜索设备,其特征在于,包括:
信息获取模块,用于获取预设时间段内的历史搜索信息;
第一数据处理模块,用于在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据;
第二数据存储模块,用于在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中;
第二数据处理模块,用于在所述第二搜索数据中获取与第二数据库中的数据相匹配的第二数据;
第一数据存储模块,用于在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,转入执行在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据的步骤;
循环结束模块,用于当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配时,结束对所述第一搜索数据和所述第二搜索数据的搜索过程。
9.如权利要求8所述的设备,其特征在于,所述第一数据处理模块包括:
目标数据获取单元,用于获取在第一数据库中所选择的目标信息领域指示的目标领域数据;
第一数据获取单元,用于在所述历史搜索信息的第一搜索数据中获取与所述目标领域数据相匹配的第一数据。
10.如权利要求8所述的设备,其特征在于,所述第二数据存储模块包括:
第一信息获取单元,用于在所述历史搜索信息中获取所述第一数据对应的第一候选信息;
第二数据存储单元,用于将所述第一候选信息所指示的第一候选数据确定为第二搜索数据,并将所述第二搜索数据存入第二数据库中。
11.如权利要求10所述的设备,其特征在于,所述第二数据存储单元包括:
第一数据提取子单元,用于提取所述第一候选信息所指示的第一候选数据;
第二数据存储子单元,用于对所述第一候选数据进行数据筛选处理,得到所述第一候选数据中满足所述目标信息领域所指示的数据类型的第二搜索数据,并将所述第二搜索数据存入第二数据库中。
12.如权利要求8所述的设备,其特征在于,所述第一数据存储模块包括:
第二信息获取单元,用于在所述历史搜索信息中获取所述第二数据对应的第二候选信息;
第一数据存储单元,用于将所述第二候选信息所指示的第二候选数据确定为第一搜索数据,并将所述第一搜索数据存入第一数据库中。
13.如权利要求12所述的设备,所述第一数据存储单元包括:
第二数据提取子单元,用于提取所述第二候选信息所指示的第二候选数据;
第一数据存储子单元,用于对所述第二候选数据进行所述数据筛选处理,得到所述第二候选数据中满足所述目标信息领域所指示的数据类型的第一搜索数据,并将所述第一搜索数据存入第一数据库中。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,当所述处理器执行所述程序指令时执行如权利要求1-7任一项所述的方法。
15.一种服务器,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:
获取预设时间段内的历史搜索信息;
在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据;
在所述历史搜索信息中获取所述第一数据对应的第二搜索数据,将所述第二搜索数据存入第二数据库中;
在所述第二搜索数据中获取与第二数据库中的数据相匹配的第二数据;
在所述历史搜索信息中获取所述第二数据对应的第一搜索数据,将所述第一搜索数据存入第一数据库中,转入执行在所述历史搜索信息的第一搜索数据中获取与第一数据库的数据相匹配的第一数据的步骤;
当存入所述第一数据库中的第一搜索数据均与所述第一数据库中的数据相匹配时,结束对所述第一搜索数据和所述第二搜索数据的搜索过程。
CN201710774245.3A 2017-08-31 2017-08-31 一种数据搜索方法及其设备、存储介质、服务器 Active CN108304433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710774245.3A CN108304433B (zh) 2017-08-31 2017-08-31 一种数据搜索方法及其设备、存储介质、服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710774245.3A CN108304433B (zh) 2017-08-31 2017-08-31 一种数据搜索方法及其设备、存储介质、服务器

Publications (2)

Publication Number Publication Date
CN108304433A true CN108304433A (zh) 2018-07-20
CN108304433B CN108304433B (zh) 2021-09-28

Family

ID=62869631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710774245.3A Active CN108304433B (zh) 2017-08-31 2017-08-31 一种数据搜索方法及其设备、存储介质、服务器

Country Status (1)

Country Link
CN (1) CN108304433B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116651306A (zh) * 2023-08-01 2023-08-29 山西中科冶金建设有限公司 一种智能焦煤配比系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070219964A1 (en) * 2006-03-20 2007-09-20 Cannon John S Query system using iterative grouping and narrowing of query results
CN102201001A (zh) * 2011-04-29 2011-09-28 西安交通大学 基于倒排技术的快速检索方法
US20140181160A1 (en) * 2012-12-20 2014-06-26 General Instrument Corporation Sequential semantic representations for media curation
CN106844788A (zh) * 2017-03-17 2017-06-13 重庆文理学院 一种图书馆智能搜索排序方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070219964A1 (en) * 2006-03-20 2007-09-20 Cannon John S Query system using iterative grouping and narrowing of query results
CN102201001A (zh) * 2011-04-29 2011-09-28 西安交通大学 基于倒排技术的快速检索方法
US20140181160A1 (en) * 2012-12-20 2014-06-26 General Instrument Corporation Sequential semantic representations for media curation
CN106844788A (zh) * 2017-03-17 2017-06-13 重庆文理学院 一种图书馆智能搜索排序方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116651306A (zh) * 2023-08-01 2023-08-29 山西中科冶金建设有限公司 一种智能焦煤配比系统
CN116651306B (zh) * 2023-08-01 2023-10-03 山西中科冶金建设有限公司 一种智能焦煤配比系统

Also Published As

Publication number Publication date
CN108304433B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN107102941B (zh) 一种测试用例的生成方法及装置
CN109190653B (zh) 基于半监督密度聚类的恶意代码家族同源性分析方法
CN107657048A (zh) 用户识别方法及装置
US10459939B1 (en) Parallel coordinates chart visualization for machine data search and analysis system
US20200019548A1 (en) Interactive punchcard visualizations
CN106897361B (zh) 基于树状结构的标签页分组管理系统及方法
CN110245165A (zh) 风险传导关联图谱优化方法、装置和计算机设备
CN107562620A (zh) 一种埋点自动设置方法和装置
US10853380B1 (en) Framework for displaying interactive visualizations of event data
CN103984626B (zh) 一种生成测试用例脚本的方法及装置
US20050021522A1 (en) Apparatus, method and computer readable medium for evaluating a network of entities and assets
CN107800591A (zh) 一种统一日志数据的分析方法
CN108574669B (zh) 用户行为树构建方法及装置
CN104915351A (zh) 图片排序方法及终端
CN114511353A (zh) 数据分析方法和装置
CN106407429A (zh) 文件追踪方法、装置及系统
CN109903122A (zh) 房产交易信息处理方法、装置、设备及存储介质
CN109146625A (zh) 一种基于内容的多版本App更新评价方法及系统
CN115514558A (zh) 一种入侵检测方法、装置、设备及介质
CN111259212A (zh) 一种遥测数据判读方法、装置、设备及存储介质
CN109101412A (zh) 测试文件生成、测试方法、装置、存储介质和计算机设备
CN108304433A (zh) 一种数据搜索方法及其设备、存储介质、服务器
CN101937395B (zh) 一种用于漏洞检测的检测对象程序特征提取方法
CN103941979A (zh) 一种在移动设备中输入文字的方法和装置
CN105763530A (zh) 一种基于web的威胁情报采集系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant