CN108694198A - 信息收集设备和信息收集方法 - Google Patents

信息收集设备和信息收集方法 Download PDF

Info

Publication number
CN108694198A
CN108694198A CN201710229239.XA CN201710229239A CN108694198A CN 108694198 A CN108694198 A CN 108694198A CN 201710229239 A CN201710229239 A CN 201710229239A CN 108694198 A CN108694198 A CN 108694198A
Authority
CN
China
Prior art keywords
word
information
keywords database
retrieval
retrieved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710229239.XA
Other languages
English (en)
Inventor
张波
孟遥
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201710229239.XA priority Critical patent/CN108694198A/zh
Publication of CN108694198A publication Critical patent/CN108694198A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种信息收集设备和信息收集方法。该信息收集设备包括:检索单元,被配置成以预定概率选择关键词库,在选择了关键词库的情况下,从关键词库中选择关键词作为当前扩展词以与指定核心词组合进行检索,而在未选择关键词库的情况下,从扩展词库选择扩展词作为当前扩展词以与指定核心词组合进行检索或者仅使用指定核心词进行检索;以及判定单元,被配置成以预定的判定模型判定所检索到的信息是否有用,并将判定有用的信息加入到信息库中。根据本公开的实施例,可以实现信息的自动快速收集。

Description

信息收集设备和信息收集方法
技术领域
本公开涉及信息处理领域,更具体地,涉及一种能够实现信息的自动快速收集的信息收集设备和信息收集方法。
背景技术
传统的信息收集方法需要用户在例如搜索引擎中输入查询词进行检索,并且在搜索引擎返回的搜索结果中提取用户所需要的信息。然而,这种信息收集方法往往需要用户的干预(例如,需要用户对查询词进行各种组合反复进行检索,在所返回的检索结果中筛选用户所需要的信息等)并且由于搜索引擎返回的巨大数量的信息和信息类型,导致信息收集效率低下,无法实现信息的自动快速收集。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于此,本公开的目的是提供一种能够实现信息的自动快速收集的信息收集设备和信息收集方法,其以预定概率不断尝试使用新的查询词进行信息检索,并利用基于增强学习得到的判定模型对检索结果进行判定,以将判定为有用的信息加入到信息库中。
根据本公开的一方面,提供了一种信息收集设备,其包括:检索单元,被配置成以预定概率选择关键词库,在选择了关键词库的情况下,从关键词库中选择关键词作为当前扩展词以与指定核心词组合进行检索,而在未选择关键词库的情况下,从扩展词库选择扩展词作为当前扩展词以与指定核心词组合进行检索或者仅使用指定核心词进行检索;以及判定单元,被配置成以预定的判定模型判定所检索到的信息是否有用,并将判定有用的信息加入到信息库中。
根据本公开的另一方面,还提供了一种信息收集方法,其包括:以预定概率选择关键词库,在选择了关键词库的情况下,从关键词库中选择关键词作为当前扩展词以与指定核心词组合进行检索,而在未选择关键词库的情况下,从扩展词库选择扩展词作为当前扩展词以与指定核心词组合进行检索或者仅使用指定核心词进行检索;以及以预定的判定模型判定所检索到的信息是否有用,并将判定有用的信息加入到信息库中。
根据本公开的再一方面,还提供了一种电子设备,该电子设备包括电路,该电路被配置成:以预定概率选择关键词库,在选择了关键词库的情况下,从关键词库中选择关键词作为当前扩展词以与指定核心词组合进行检索,而在未选择关键词库的情况下,从扩展词库选择扩展词作为当前扩展词以与指定核心词组合进行检索或者仅使用指定核心词进行检索;以及以预定的判定模型判定所检索到的信息是否有用,并将判定有用的信息加入到信息库中。
根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。
根据本公开的实施例,通过以预定概率使用新的扩展词与指定核心词组合进行检索,并且利用通过增强学习训练得到的判定模型将判定为有用的检索结果加入到信息库中,能够实现信息的自动快速收集。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出根据本公开的第一实施例的信息收集设备的功能配置示例的框图;
图2是示出根据本公开的第二实施例的信息收集设备的功能配置示例的框图;
图3是示出根据本公开的第三实施例的信息收集设备的功能配置示例的框图;
图4是示出根据本公开的实施例的示例应用场景的示意图;
图5是示出根据本公开的实施例的信息收集方法的过程示例的流程图;以及
图6是示出可用于实现上述本公开的实施例的通用个人计算机的结构示例的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
下面将参照图1至图6详细描述本公开的实施例。将按以下顺序进行描述。
1.根据本公开的信息收集设备
1-1.第一实施例
1-2.第二实施例
1-3.第三实施例
2.根据本公开的实施例的示例应用场景
3.根据本公开的信息收集方法
4.用于实施本公开的信息收集设备和方法的计算设备
[1.根据本公开的信息收集设备]
(1-1.第一实施例)
图1是示出根据本公开的第一实施例的信息收集设备的功能配置示例的框图。
如图1所示,根据该实施例的信息收集设备100可包括检索单元102和判定单元104。下面将详细描述各个单元的功能配置示例。
检索单元102可被配置成以预定概率选择关键词库,在选择了关键词库的情况下,从关键词库中选择关键词作为当前扩展词以与指定核心词组合进行检索,而在未选择关键词库的情况下,从扩展词库选择扩展词作为当前扩展词与指定核心词组合进行检索或者仅使用指定核心词进行检索。
这里的核心词指的是目标实体词,诸如公司名、人名等等,扩展词指的是与核心词相关的信息。在实际进行信息检索时,用户可以仅使用核心词进行检索,或者使用核心词与选自扩展词库或关键词库的当前扩展词的组合进行检索。下面将对扩展词库和关键词库分别进行详细描述。
扩展词库可以是预先设置的,或者也可以由在下述训练过程中所使用的扩展词构成。一般来说,扩展词库中的扩展词是先前已用于信息检索的。
关键词库可以是预先设置的,或者也可以是根据当前检索所使用的核心词实时地构建的,其中所包括的任意关键词与扩展词库中包括的任意扩展词均不同。一般来说,关键词库是由未用于信息检索的、从已有信息中与核心词相关联地提取的关键词构成的。也就是说,关键词库与扩展词库的区别主要在于,扩展词库中的扩展词是已用于信息检索的,而关键词库中的关键词是尚未用于信息检索的。
这样,通过以预定概率选择关键词库并且在关键词库选择关键词作为当前扩展词用于信息检索,由于该关键词与核心词构成的查询项是尚未使用过的,因此可以收集到更多的信息,从而实现自动信息收集。
作为一种示例方式,关键词库可以是由从信息库中的已有信息与获得已有信息所使用的核心词相关联地提取的关键词组成的。以这种方式,通过预先构建关键词库,在用户输入了指定核心词之后,每次进行检索时,在以预定概率选择了关键词库的情况下,检索单元102可以基于指定核心词从关键词库选择与该指定核心词相关的关键词作为当前扩展词。这样,省去了在用户输入指定核心词之后提取关键词的操作,从而能够在一定程度上提高检索效率,这种提高在指定核心词存在于获得已有信息所使用的核心词(或称为已有核心词)中的情况下尤其明显。
但是,由于以这种方式构建的关键词库中的关键词并不一定都是与指定核心词相关的,因此检索单元102在进行选择时需要计算各个关键词与指定核心词的相关度,并且基于所计算的相关度来选择当前扩展词。该相关度可以由例如通过互信息公式计算的互信息度来表示,具体的计算方式与现有技术中相同,在此不再赘述。作为一种示例实现方式,在第一次进行检索时,检索单元102可以计算关键词库中的所有关键词与指定核心词的互信息度,并提取与指定核心词的互信息度大于预定阈值的关键词作为关键词子集。接下来,在每次进行检索时,在选择了关键词库的情况下,可以在该关键词子集中随机地进行选择,而无需在每次检索时均计算与指定核心词的互信息度。替选地,也可以按照所计算的互信息度的降序而依次选择关键词子集中的各个关键词作为当前扩展词。
替选地,作为另一种示例方式,关键词库可以是由从信息库中的已有信息与指定核心词相关联地提取的关键词组成的。以这种方式,在用户输入了指定核心词之后,需要先从信息库中的已有信息提取与该指定核心词相关联的关键词以构成关键词库,例如,可以提取与指定核心词的互信息度大于预定阈值的关键词来构建关键词库。然后,在每次进行检索时,在以预定概率选择了关键词库的情况下,检索单元102可以从该关键词库中随机地选择一个关键词作为当前扩展词与指定核心词组合进行检索。可以看出,以此方式构建的关键词库都是与指定核心词相关的关键词,因此在每次选择关键词时无需再基于指定核心词进行选择,而是在关键词库中随机进行选择。当然,如上所述,也可按照在构建关键词库时所计算的互信息度的降序依次选择关键词库中的各个关键词,本公开对此不做限制。
应理解,以上给出的关键词库构建方式和从所构建的关键词库选择关键词作为当前扩展词的方式仅为示例而非限制,本领域计算人员能够根据本公开的原理而想到其他示例实现方式,只要保证在每次检索时能够以预定概率选择与指定核心词相关的新扩展词和指定核心词组合进行检索即可。
下面将具体描述检索单元102的信息检索操作。
检索单元102可以以预定概率(例如,ε)来尝试使用新的扩展词与指定核心词组合进行检索。即,在每次检索时,检索单元102可以以ε的概率选择关键词库,然后在关键词库中选择关键词作为当前扩展词以与指定核心词组合进行检索,而以1-ε的概率不选择关键词库,此时可在扩展词库中选择扩展词作为当前扩展词以与指定核心词组合进行检索或者仅使用指定核心词进行检索。ε的值可以是经验值,其例如可以根据扩展词库中的扩展词数量来确定。例如,如果扩展词库中的扩展词数量较大,则可以将ε的值设置得小一些,以便以较高的概率选择扩展词库中的扩展词作为当前扩展词进行检索。反之,则将ε的值设置得大一些,以便以较高的概率从关键词库中选择未使用的新词作为当前扩展词进行检索,以便收集更多的信息。
另一方面,在每次检索时,在未选择关键词库的情况下,检索单元102可以基于核心词检索成功率和扩展词库中的各个扩展词的检索成功率,仅使用指定核心词进行检索或者从扩展词库中选择当前扩展词与指定核心词组合进行检索。
检索成功率可以表示对于任一查询项(该查询项可以是单独的核心词或者可以是核心词与扩展词的组合),在利用该查询项检索得到的预定数量的信息中有用信息所占的比例,其可以根据关于该查询项的历史检索结果统计得到。
这里,优选地,需要区分核心词和扩展词的检索成功率的统计方式。作为一种示例统计方式,核心词检索成功率是指所有核心词单独检索得到的有用信息比例,而扩展词的检索成功率是指包括该扩展词的所有组合检索到的有用信息比例。作为示例,假设共有三个核心词A、B和C,单独使用核心词A、B、C进行检索得到的有用信息比例分别为10%、10%和4%,则核心词检索成功率为(10%+10%+4%)/3=8%。对于任意扩展词D,假设包括该扩展词D的所有组合为A+D,B+D和C+D,并且每种组合检索得到的有用信息比例分别为20%、10%和15%,则扩展词D的检索成功率为(20%+10%+15%)/3=15%。
应理解,这里所给出的检索成功率的统计方式仅为示例而非限制,本领域技术人员可以根据本公开的原理而想到其他统计方式,只要统计得到的检索成功率能够表示单独利用核心词进行检索得到的有用信息比例以及利用某一扩展词与核心词组合进行检索得到的有用信息比例即可,以便在后续进行自动信息收集时能够根据该统计结果而选择适当的检索方式。
此外,应指出,优选地,这里的检索成功率并不是固定不变的。在后续实际进行信息收集时,在将有用的信息加入到信息库中之后,可以动态地更新核心词以及相关扩展词的检索成功率,以便后续能够收集到更符合用户期望的信息。稍后将对此进行详细描述。
具体地,如果统计结果表明核心词检索成功率最高,则检索单元102可以仅使用该指定核心词进行检索。另一方面,如果统计结果表明扩展词库中的某一扩展词的检索成功率最高,则检索单元102可以选择该扩展词作为当前扩展词与指定核心词组合进行检索。
判定单元104可被配置成以预定的判定模型判定检索单元102所检索到的信息是否有用,并将判定有用的信息加入到信息库中。
具体地,判定单元104可以利用判定模型对预定数量的检索结果进行判定,并将判定为有用的信息加入到信息库中。这里应指出,以因特网的搜索引擎为例,返回的检索结果可能包括几百页,而排在后面的信息通常有用的可能性很低。如果对所有的检索结果进行判定,可能会造成较大的处理开销。因此,优选地,可以仅对检索结果中排序靠前的预定数量的信息进行判定。
该判定模型可以是基于增强学习训练得到的,该增强学习训练过程通过模拟人脑的思维来判定信息的有用性,能够实现对于信息的有用性的快速且准确的判定。
具体地,可以通过下述方式进行训练:以一个或多个预定核心词以及/或者一个或多个预定核心词与扩展词库中的一个或多个扩展词的组合进行检索,将检索得到的预定数量的信息标记后加入训练集合,并且将标记为有用的信息加入到信息库中;以及利用训练集合对深度增强学习模型进行训练以得到该判定模型。深度增强学习模型可以包括但不限于深度神经网络(DNN)模型、卷积神经网络(CNN)模型等,本公开对此不做限制。这里以DNN模型为例进行描述。
下面将详细描述该训练过程。首先,用户可以在一个或多个搜索引擎(例如,百度、谷歌等)中输入不同的查询项,这些查询项可以是一个或多个单独的核心词(包括但不限于目标实体词,诸如谷歌、苹果、IBM等)以及/或者一个或多个核心词与一个或多个扩展词(例如,收购、股价、裁员等用户关心的目标实体信息)的组合。然后,对于各个搜索引擎针对每个查询项所返回的检索结果(例如,网页),用户可以对预定数量的检索结果(例如,排序靠前的前200个检索结果)进行标记,例如,将有用的网页标记为“1”,无用的网页标记为“0”。然后,将查询项和标记后的网页加入到训练集合中,并且将标记为有用的网页加入到信息库中。
接下来,利用该训练集合对DNN模型进行训练以得到该模型的相关参数。假设该模型的输入为query和page,分别表示查询项和网页,输出为status,表示网页是否有用。其中,status=0表示该网页无用,无需加入到信息库中,而status=1表示该网页有用,需要加入到信息库中。
优选地,在训练过程中,还可以如上所述对所使用的查询项中包括的核心词和扩展词的检索成功率进行统计,以便在后续进行自动信息收集时,可以根据所统计的检索成功率而选择合适的扩展词与指定核心词组合进行检索或者仅使用核心词进行检索。
应理解,以上给出的判定模型的训练方式仅为示例,本领域技术人员也可根据本公开的原理利用其他方式训练得到,只要训练得到的判定模型能够实现以下功能即可:在给定了查询词和查询结果(例如,网页)的情况下,能够判定该查询结果是否为有用信息。
在训练完成之后,在实际进行信息收集时,用户先输入一个指定核心词。然后,根据本公开的实施例的信息收集设备100可以自动收集关于该指定核心词的信息。具体地,由检索单元102自动在搜索引擎中输入查询项(该查询项可以是单独的指定核心词或者可以是指定核心词+扩展词,该扩展词可以来自关键词库或扩展词库)进行检索,并且由判定单元104利用训练得到的判定模型对检索结果进行判定,并将判定有用的信息加入到信息库中,由此完成信息的自动快速收集。
与现有技术中的信息收集方案相比,根据上述本公开的信息收集设备100,通过以预定概率选择未使用过的新扩展词(即,上述关键词库中的关键词)与指定核心词组合进行检索,并利用通过增强学习训练得到的判定模型判定所检索到的信息是否有用,可以实现信息的自动快速收集。
(1-2.第二实施例)
图2是示出根据本公开的第二实施例的信息收集设备的功能配置示例的框图。
如图2所示,根据该实施例的信息收集设备200可以包括检索单元202、判定单元204、关键词库更新单元206和控制单元208。其中,检索单元202和判定单元204的功能配置示例与以上参照图1描述的检索单元102和判定单元104的功能配置示例基本上相同,在此不再重复。下面将仅详细描述关键词库更新单元206和控制单元208的功能配置示例。
关键词库更新单元206可以被配置成从信息库中的未提取过关键词的信息提取与指定核心词相关的关键词加入到关键词库中,以更新关键词库。即,在每次判定单元204将判定有用的信息加入到信息库中之后,针对这些新加入的信息,关键词库更新单元206可以从其中提取与指定核心词相关的关键词加入到关键词库中,从而在接下来的检索中,有可能选择这些新提取的关键词与指定核心词组合进行检索,以便收集更多的信息。
控制单元208可以被配置成控制检索单元202、判定单元204和关键词库更新单元206重复执行各自的操作,直到满足预定要求为止,例如,达到预定检索次数,信息库中的信息达到预定数量等等。
在用户输入了指定核心词之后,根据本公开的信息收集设备200可以重复地执行以预定概率选择新的扩展词,将判定有用的信息加入到信息库中,以及从新加入的信息提取相关联的关键词加入到关键词库中,直到信息库中的信息达到预定数量或者达到预定检索次数为止,从而实现信息的自动快速收集。
(1-3.第三实施例)
如上所述,为了能够更准确地收集用户所需要的信息,可以动态地更新扩展词库以及核心词和各个扩展词的检索成功率。下面将参照图3详细描述该实施例。
图3是示出根据本公开的第三实施例的信息收集设备的功能配置示例的框图。
根据该实施例的信息收集设备300可包括检索单元302、判定单元304、检索成功率更新单元306和扩展词库更新单元308。其中,检索单元302和判定单元304的功能配置示例与以上参照图1描述的检索单元102和判定单元104的功能配置示例基本上相同,在此不再重复。下面将仅详细描述检索成功率更新单元306和扩展词库更新单元308的功能配置示例。
检索成功率更新单元306可以被配置成在将判定模型判定为有用的信息加入到信息中之后,对核心词成功率和/或当前扩展词的检索成功率进行更新。这样,通过对检索成功率进行动态更新,可以避免在每次从扩展词库选择时总是选择同一个扩展词以致无法收集更多的信息,并且也可以收集到更符合用户期望的信息。
优选地,在当前扩展词是从关键词库中选择的情况下,由于该当前扩展词是第一次使用,先前从未统计过该当前扩展词的检索成功率,因此可以基于此次的检索和判定结果、利用例如上述统计方式来计算关于该当前扩展词的检索成功率。另一方面,在当前扩展词是从扩展词库选择的情况下,可以基于此次的检索和判定结果对先前统计的该当前扩展词的检索成功率进行更新。
扩展词库更新单元308可以被配置成将被选作当前扩展词的关键词从关键词库移至扩展词库中,从而对扩展词库进行更新。也就是说,关键词库中的关键词都是尚未使用过的词。一旦关键词被选作当前扩展词,就将其移至扩展词库中并且统计其检索成功率,从而在下次检索时,在没有选择关键词库的情况下,该关键词就与扩展词库中的其他已有扩展词一样,由检索单元302根据检索成功率进行选择。
根据该实施例的信息收集设备300,通过动态地更新扩展词库以及核心词和扩展词的检索成功率,可以更准确地收集到用户所需要的信息。
在此,应指出,以上参照图1至图3描述的各个单元和/或模块仅是根据其所实现的具体功能而划分的功能模块,并不是用于限制具体的实现方式。在实际实现时,上述各个功能单元可被实现为独立的物理实体,或者也可由单个实体(例如,处理器(CPU或DSP等)、集成电路、可编程逻辑器件等)来实现。
此外,还应指出,尽管以上在三个分开的实施例中分别描述了根据本公开的信息收集设备的不同功能配置示例,但是这仅是示例而非限制。本领域技术人员可以根据本公开的原理对上述功能配置示例进行修改,例如,对各个实施例中的功能单元进行添加、删除、组合、子组合和/或变更,并且所有这样的变型都应认为落入本公开的范围内。
[2.根据本公开的实施例的示例应用场景]
为了有利于进一步理解本公开,下面将参照图4描述根据本公开的实施例的示例应用场景。图4是示出根据本公开的实施例的示例应用场景的示意图。
如图4所示,网页库对应于本公开的信息库,其中可以存储有例如在训练过程中标记为有用的网页。实体词库例如对应于本公开的核心词库,其中存储有例如在训练过程中所使用的实体词。用户扩展词库对应于本公开的扩展词库,其中存储有例如在训练过程中所使用的扩展词。应指出,实体词库和用户扩展词库中的各个实体词和用户扩展词可以标记有其检索成功率。关键词库中的关键词来源于已有信息,其可以是从网页库中的已有信息与指定核心词相关联地提取的或者与实体词库中的所有实体词相关联地提取的。
然后,在每次检索时,在用户输入了指定核心词之后,可以利用例如赌博机(bandit)算法(诸如ε-贪心算法)确定查询项。即,基于预定概率,该查询项可以是指定核心词+关键词库中的关键词、单独的指定核心词或者指定核心词+用户扩展词库中的扩展词。具体的查询项确定过程可参见上述实施例中相应位置的描述,在此不再重复。
接下来,将所确定的查询项输入到各大搜索引擎中进行检索。然后,将所检索到的信息(例如网页)以及得到相关信息所使用的查询项一起输入到基于增强学习训练得到的判定模型(例如,DNN判定模型),并且将判定模型判定为有用的信息加入到网页库中。同时,优选地,可以对用户扩展词库、关键词库以及实体词和用户扩展词的检索成功率进行更新。
根据上述本公开的实施例,通过结合增强学习与bandit算法进行信息收集,可以实现信息的自动快速收集。
应理解,尽管参照图4描述了本公开的示例应用场景,但是这仅是示例而非限制。本领域技术人员可以根据本公开的原理而根据本公开的信息收集方案应用于任何需要自动快速收集信息的场景,并结合具体的应用场景而对本公开的实施例进行适当地修改,这样的变型显然应认为落入本公开的范围内。
[3.根据本公开的实施例的信息收集方法]
与上述设备实施例相对应的,本公开还提供了以下方法实施例。
图5是示出根据本公开的实施例的信息收集方法的过程示例的流程图。
如图5所示,该方法开始于步骤S510。在步骤S510中,以预定概率选择关键词库,在选择了关键词库的情况下,从关键词库中选择关键词作为当前扩展词以与指定核心词组合进行检索,而在未选择关键词库的情况下,从扩展词库选择扩展词作为当前扩展词以与指定核心词组合进行检索或者仅使用指定核心词进行检索。
然后,该方法进行到步骤S520,在步骤S520中,以预定的判定模型判定所检索到的信息是否有用,并将判定有用的信息加入到信息库中。
优选地,关键词库是由从信息库中的已有信息与指定核心词相关联地提取的关键词组成的,并且选择当前扩展词进一步包括从关键词库随机选择关键词作为当前扩展词。
优选地,在未选择关键词库的情况下,基于核心词检索成功率和扩展词库中的各个扩展词的检索成功率,从扩展词库中选择扩展词作为当前扩展词或者仅使用指定核心词进行检索。
优选地,如果核心词检索成功率较高,则仅使用指定核心词进行检索,并且将检索得到的预定数量的信息当中的、判定模型判定为有用的信息加入到信息库中。
优选地,如果扩展词库中的某一扩展词的检索成功率较高,则选择该扩展词作为当前扩展词与指定核心词组合进行检索,并且将检索得到的预定数量的信息当中的、判定模型判定为有用的信息加入到信息库中。
优选地,根据本公开的实施例的信息收集方法还包括:在将判定模型判定为有用的信息加入到信息库中之后,更新核心词检索成功率或当前扩展词的检索成功率。
优选地,根据本公开的实施例的信息收集方法还包括:将关键词库中已被选择作为当前扩展词的关键词从关键词库移至扩展词库,以更新扩展词库。
应指出,这里的方法实施例是与以上参照图1至图3描述的设备实施例相对应的,因此,在此未详细描述的内容可参见以上设备实施例中相应位置的描述,此处不再重复详细描述。
此外,还应指出,尽管参照图5所示的流程图描述了本公开的信息收集方法的过程示例,但是这仅是示例而非限制。本领域技术人员可以根据本公开的原理而对上述过程示例进行修改,例如,对各个步骤进行添加、删除、组合、子组合和/或变更,并且这样的变型显然应认为落入本公开的范围内。
应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行与上述装置实施例相对应的方法,因此在此未详细描述的内容可参考先前相应位置的描述,在此不再重复进行描述。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
[4.用于实施本公开的信息收集设备和方法的计算设备]
另外,还应该指出的是,上述系列处理和设备也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图6所示的通用个人计算机600安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。图6是示出可实现上述本公开的实施例的通用个人计算机的结构示例的框图。
在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,也根据需要存储当CPU 601执行各种处理等时所需的数据。
CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。
下述部件连接到输入/输出接口605:输入部分606,包括键盘、鼠标等;输出部分607,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等;存储部分608,包括硬盘等;和通信部分609,包括网络接口卡比如LAN卡、调制解调器等。通信部分609经由网络比如因特网执行通信处理。
根据需要,驱动器610也连接到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上,使得从中读出的计算机程序根据需要被安装到存储部分608中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。
例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可由单个装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。
在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。
虽然已经详细说明了本公开及其优点,但是应当理解在不脱离由所附的权利要求所限定的本公开的精神和范围的情况下可以进行各种改变、替代和变换。而且,本公开实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
根据本公开的实施例,还提供了以下技术方案,包括但不限于:
方案1.一种信息收集设备,包括:
检索单元,被配置成以预定概率选择关键词库,在选择了所述关键词库的情况下,从所述关键词库中选择关键词作为当前扩展词以与指定核心词组合进行检索,而在未选择所述关键词库的情况下,从扩展词库选择扩展词作为所述当前扩展词以与所述指定核心词组合进行检索或者仅使用所述指定核心词进行检索;以及
判定单元,被配置成以预定的判定模型判定所检索到的信息是否有用,并将判定有用的信息加入到信息库中。
方案2.根据方案1所述的信息收集设备,其中,所述关键词库是由从所述信息库中的已有信息与获得所述已有信息所使用的核心词相关联地提取的关键词组成的,并且所述检索单元进一步被配置成基于所述指定核心词从所述关键词库选择关键词作为所述当前扩展词。
方案3.根据方案1所述的信息收集设备,其中,所述关键词库是由从所述信息库中的已有信息与所述指定核心词相关联地提取的关键词组成的,并且所述检索单元进一步被配置成从所述关键词库随机选择关键词作为所述当前扩展词。
方案4.根据方案1至3中任一项所述的信息收集设备,还包括:关键词库更新单元,被配置成从所述信息库中的未提取过关键词的信息提取与所述指定核心词相关的关键词加入到所述关键词库中,以更新所述关键词库。
方案5.根据方案4所述的信息收集设备,还包括:控制单元,被配置成控制所述检索单元、所述判定单元和所述关键词库更新单元重复执行各自的操作,直至满足预定要求为止。
方案6.根据方案1所述的信息收集设备,其中,所述判定模型是以下述方式训练得到的:
以一个或多个预定核心词以及/或者一个或多个预定核心词与所述扩展词库中的一个或多个扩展词的组合进行检索,将检索得到的预定数量的信息标记后加入训练集合,并且将标记为有用的信息加入到所述信息库中;以及
利用所述训练集合对深度增强学习模型进行训练以得到所述判定模型。
方案7.根据方案1所述的信息收集设备,其中,所述预定概率与所述扩展词库中的扩展词数量有关。
方案8.根据方案1所述的信息收集设备,其中,所述检索单元进一步被配置成:在未选择所述关键词库的情况下,基于核心词检索成功率和所述扩展词库中的各个扩展词的检索成功率,从所述扩展词库中选择扩展词作为所述当前扩展词或者仅使用所述指定核心词进行检索。
方案9.根据方案8所述的信息收集设备,其中,所述核心词检索成功率是指所有核心词单独检索得到的有用信息比例,并且所述各个扩展词的检索成功率是指包括该扩展词的所有组合检索到的有用信息比例。
方案10.根据方案8所述的信息收集设备,其中,所述检索单元进一步被配置成如果所述核心词检索成功率较高,则仅使用所述指定核心词进行检索,并且所述判定单元将检索得到的预定数量的信息当中的、所述判定模型判定为有用的信息加入到所述信息库中。
方案11.根据方案8所述的信息收集设备,其中,所述检索单元进一步被配置成如果所述扩展词库中的某一扩展词的检索成功率较高,则选择该扩展词作为所述当前扩展词与所述指定核心词组合进行检索,并且所述判定单元将检索得到的预定数量的信息当中的、所述判定模型判定为有用的信息加入到所述信息库中。
方案12.根据方案10或11所述的信息收集设备,还包括:检索成功率更新单元,被配置成在将所述判定模型判定为有用的信息加入到所述信息库中之后,更新所述核心词检索成功率或所述当前扩展词的检索成功率。
方案13.根据方案1所述的信息收集设备,还包括:扩展词库更新单元,被配置成将所述关键词库中已被选择作为所述当前扩展词的关键词从所述关键词库移至所述扩展词库,以更新所述扩展词库。
方案14.一种信息收集方法,包括:
以预定概率选择关键词库,在选择了所述关键词库的情况下,从所述关键词库中选择关键词作为当前扩展词以与指定核心词组合进行检索,而在未选择所述关键词库的情况下,从扩展词库选择扩展词作为所述当前扩展词以与所述指定核心词组合进行检索或者仅使用所述指定核心词进行检索;以及
以预定的判定模型判定所检索到的信息是否有用,并将判定有用的信息加入到信息库中。
方案15.根据方案14所述的信息收集方法,其中,所述关键词库是由从所述信息库中的已有信息与所述指定核心词相关联地提取的关键词组成的,并且选择所述当前扩展词进一步包括从所述关键词库随机关键词作为选择所述当前扩展词。
方案16.根据方案14所述的信息收集方法,其中,在未选择所述关键词库的情况下,基于核心词检索成功率和所述扩展词库中的各个扩展词的检索成功率,从所述扩展词库中选择扩展词作为所述当前扩展词或者仅使用所述指定核心词进行检索。
方案17.根据方案16所述的信息收集方法,其中,如果所述核心词检索成功率较高,则仅使用所述指定核心词进行检索,并且将检索得到的预定数量的信息当中的、所述判定模型判定为有用的信息加入到所述信息库中。
方案18.根据方案16所述的信息收集方法,其中,如果所述扩展词库中的某一扩展词的检索成功率较高,则选择该扩展词作为所述当前扩展词与所述指定核心词组合进行检索,并且将检索得到的预定数量的信息当中的、所述判定模型判定为有用的信息加入到所述信息库中。
方案19.根据方案17或18所述的信息收集方法,还包括:在将所述判定模型判定为有用的信息加入到所述信息库中之后,更新所述核心词检索成功率或所述当前扩展词的检索成功率。
方案20.根据方案14所述的信息收集方法,还包括:将所述关键词库中已被选择作为所述当前扩展词的关键词从所述关键词库移至所述扩展词库,以更新所述扩展词库。

Claims (10)

1.一种信息收集设备,包括:
检索单元,被配置成以预定概率选择关键词库,在选择了所述关键词库的情况下,从所述关键词库中选择关键词作为当前扩展词以与指定核心词组合进行检索,而在未选择所述关键词库的情况下,从扩展词库选择扩展词作为所述当前扩展词以与所述指定核心词组合进行检索或者仅使用所述指定核心词进行检索;以及
判定单元,被配置成以预定的判定模型判定所检索到的信息是否有用,并将判定有用的信息加入到信息库中。
2.根据权利要求1所述的信息收集设备,其中,所述关键词库是由从所述信息库中的已有信息与所述指定核心词相关联地提取的关键词组成的,并且所述检索单元进一步被配置成从所述关键词库随机选择关键词作为所述当前扩展词。
3.根据权利要求1或2所述的信息收集设备,还包括:关键词库更新单元,被配置成从所述信息库中的未提取过关键词的信息提取与所述指定核心词相关的关键词加入到所述关键词库中,以更新所述关键词库。
4.根据权利要求3所述的信息收集设备,还包括:控制单元,被配置成控制所述检索单元、所述判定单元和所述关键词提取单元重复执行各自的操作,直至满足预定要求为止。
5.根据权利要求1所述的信息收集设备,其中,所述判定模型是以下述方式训练得到的:
以一个或多个预定核心词以及/或者一个或多个预定核心词与所述扩展词库中的一个或多个扩展词的组合进行检索,将检索得到的预定数量的信息标记后加入训练集合,并且将标记为有用的信息加入到所述信息库中;以及
利用所述训练集合对深度增强学习模型进行训练以得到所述判定模型。
6.根据权利要求1所述的信息收集设备,其中,所述检索单元进一步被配置成:在未选择所述关键词库的情况下,基于核心词检索成功率和所述扩展词库中的各个扩展词的检索成功率,从所述扩展词库中选择扩展词作为所述当前扩展词或者仅使用所述指定核心词进行检索。
7.根据权利要求6所述的信息收集设备,其中,所述检索单元进一步被配置成如果所述核心词检索成功率较高,则仅使用所述指定核心词进行检索,并且所述判定单元将检索得到的预定数量的信息当中的、所述判定模型判定为有用的信息加入到所述信息库中。
8.根据权利要求6所述的信息收集设备,其中,所述检索单元进一步被配置成如果所述扩展词库中的某一扩展词的检索成功率较高,则选择该扩展词作为所述当前扩展词与所述指定核心词组合进行检索,并且所述判定单元将检索得到的预定数量的信息当中的、所述判定模型判定为有用的信息加入到所述信息库中。
9.根据权利要求7或8所述的信息收集设备,其中,所述判定单元进一步被配置成在将所述判定模型判定为有用的信息加入到所述信息库中之后,更新所述核心词检索成功率或所述当前扩展词的检索成功率。
10.一种信息收集方法,包括:
以预定概率选择关键词库,在选择了所述关键词库的情况下,从所述关键词库中选择关键词作为当前扩展词以与指定核心词组合进行检索,而在未选择所述关键词库的情况下,从扩展词库选择扩展词作为所述当前扩展词以与所述指定核心词组合进行检索或者仅使用所述指定核心词进行检索;以及
以预定的判定模型判定所检索到的信息是否有用,并将判定有用的信息加入到信息库中。
CN201710229239.XA 2017-04-10 2017-04-10 信息收集设备和信息收集方法 Pending CN108694198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710229239.XA CN108694198A (zh) 2017-04-10 2017-04-10 信息收集设备和信息收集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710229239.XA CN108694198A (zh) 2017-04-10 2017-04-10 信息收集设备和信息收集方法

Publications (1)

Publication Number Publication Date
CN108694198A true CN108694198A (zh) 2018-10-23

Family

ID=63843269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710229239.XA Pending CN108694198A (zh) 2017-04-10 2017-04-10 信息收集设备和信息收集方法

Country Status (1)

Country Link
CN (1) CN108694198A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631938A (zh) * 2013-12-10 2014-03-12 江苏金智教育信息技术有限公司 一种分词词典自动扩展的方法和装置
CN103744956A (zh) * 2014-01-06 2014-04-23 同济大学 一种关键词的多样化拓展方法
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法
CN105117487A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于内容结构的图书语义检索方法
CN105975596A (zh) * 2016-05-10 2016-09-28 上海珍岛信息技术有限公司 一种搜索引擎查询扩展的方法及系统
CN106156114A (zh) * 2015-04-03 2016-11-23 北京中献电子技术开发中心 专利检索方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法
CN103631938A (zh) * 2013-12-10 2014-03-12 江苏金智教育信息技术有限公司 一种分词词典自动扩展的方法和装置
CN103744956A (zh) * 2014-01-06 2014-04-23 同济大学 一种关键词的多样化拓展方法
CN106156114A (zh) * 2015-04-03 2016-11-23 北京中献电子技术开发中心 专利检索方法和装置
CN105117487A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于内容结构的图书语义检索方法
CN105975596A (zh) * 2016-05-10 2016-09-28 上海珍岛信息技术有限公司 一种搜索引擎查询扩展的方法及系统

Similar Documents

Publication Publication Date Title
JP5157314B2 (ja) 類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム
CN105302810B (zh) 一种信息搜索方法和装置
CN101470732B (zh) 一种辅助词库的生成方法和装置
KR100816934B1 (ko) 문서검색 결과를 이용한 군집화 시스템 및 그 방법
CN109948121A (zh) 文章相似度挖掘方法、系统、设备及存储介质
CN108664599B (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN113761218B (zh) 一种实体链接的方法、装置、设备及存储介质
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN109002492B (zh) 一种基于LightGBM的绩点预测方法
CN107844533A (zh) 一种智能问答系统及分析方法
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN110489578A (zh) 图片处理方法、装置及计算机设备
CN107918657A (zh) 一种数据源的匹配方法和装置
CN110781204A (zh) 目标对象的标识信息确定方法、装置、设备及存储介质
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
JP2020091857A (ja) 電子文書の分類
CN110706015A (zh) 一种面向广告点击率预测的特征选取方法
CN110046943A (zh) 一种网络消费者细分的优化方法及优化系统
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN110334343A (zh) 一种合同中个人隐私信息抽取的方法和系统
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN110069686A (zh) 用户行为分析方法、装置、计算机装置及存储介质
Prasanth et al. Effective big data retrieval using deep learning modified neural networks
CN105095385B (zh) 一种检索结果的输出方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181023

WD01 Invention patent application deemed withdrawn after publication