CN104765830B

CN104765830B - 一种信息搜索方法及装置

Info

Publication number: CN104765830B
Application number: CN201510173306.1A
Authority: CN
Inventors: 杨乾磊
Original assignee: TVMining Beijing Media Technology Co Ltd
Current assignee: TVMining Beijing Media Technology Co Ltd
Priority date: 2015-04-13
Filing date: 2015-04-13
Publication date: 2018-11-20
Anticipated expiration: 2035-04-13
Also published as: CN104765830A

Abstract

本发明公开了一种信息搜索方法及装置，用以实现灵活、快速的搜索信息的目的。所述方法包括：从词典数据表中获取一条或多条数据资源信息，并从所述数据资源信息中提取至少一个资源关键词各自的标识；根据所述至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识；在所述词典表中查找所述关联词汇的标识对应的各关联词汇；搜索与所述各关联词汇相关的数据资源。

Description

一种信息搜索方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种信息搜索方法及装置。

背景技术

随着信息技术的飞速发展，当今社会进入了信息爆炸时代，人们越来越多地借助网络来寻找自己需要的信息，因此，检索成为人们工作、生活不可或缺的一部分。

人们通常使用搜索引擎来进行检索，搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将与用户检索相关的信息展示给用户的系统。

现有技术中，搜索引擎在对信息进行组织和处理时，会直接存储信息内容本身，例如，北京植物园包括很多展区，如树木园、月季园、牡丹园等，则会保存文字北京植物园包括很多展区，如树木园、月季园、牡丹园等，这样需要大量的存储空间。并且，在后续提供检索服务时，检索速度较慢。

发明内容

本发明提供一种信息搜索方法及装置，用以实现灵活、快速的搜索信息的目的。

本发明提供一种信息搜索方法，包括：

从词典数据表中获取一条或多条数据资源信息，并从所述数据资源信息中提取至少一个资源关键词各自的标识；

根据所述至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识；

在所述词典表中查找所述关联词汇的标识对应的各关联词汇；

搜索与所述各关联词汇相关的数据资源。

在本发明一实施例中，所述词典数据表中的各条数据资源信息包括数据资源的标识，数据资源发布者，数据资源发布时间，数据资源的属性，数据资源中的人物、地点、机构，数据资源的关键词中的一项或多项，所述各条数据资源信息中各项信息的词汇以其各自在词典表中的标识的形式存储在所述词典数据表中。

在本发明一实施例中，所述从词典数据表中获取一条或多条数据资源信息，包括：

根据给定的一个或多个数据资源的标识，从词典数据表中查找相应的数据资源信息。

在本发明一实施例中，所述词语关联表的数据项架构包括关联的两个词的标识和对应的关联深度值。

在本发明一实施例中，所述根据所述至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识，包括：

根据所述至少一个资源关键词各自的标识，从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识，作为各个资源关键词对应的关联词汇的标识。

在本发明一实施例中，所述根据所述至少一个资源关键词各自的标识，从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识，包括：

从词语关联表中选择所述至少一个资源关键词各自的标识对应的至少一个数据项；

对所述至少一个数据项的关联深度值进行降序排列；

选取前n个关联深度值对应的数据项；

将所述选取的数据项的词的标识作为满足预设数值条件的词的标识。

本发明还提供一种信息搜索装置，包括：

提取模块，用于从词典数据表中获取一条或多条数据资源信息，并从所述数据资源信息中提取至少一个资源关键词各自的标识；

第一查找模块，用于根据所述至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识；

第二查找模块，用于在所述词典表中查找所述关联词汇的标识对应的各关联词汇；

搜索模块，用于搜索与所述各关联词汇相关的数据资源。

在本发明一实施例中，所述提取模块还用于：

在本发明一实施例中，所述第一查找模块还用于：

本发明实施例的一些有益效果可以包括：

本发明实施例中，由于词典数据表中存储了数据资源信息各项信息的词汇的标识，因而可以直接从数据资源信息中提取至少一个资源关键词各自的标识，进而利用至少一个资源关键词各自的标识在词语关联表中查找各个资源关键词对应的关联词汇的标识，实现灵活、快速的信息搜索的目的。进一步，在查找各个资源关键词对应的关联词汇的标识后，在词典表中查找关联词汇的标识对应的各关联词汇，从而搜索与各关联词汇相关的数据资源，实现了搜索与给定的数据资源相关的信息。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中信息搜索方法的流程图；

图2为本发明一实施例提供的词典数据表的结构字段示意图；

图3为本发明一实施例提供的词典表的结构字段示意图；

图4为本发明一实施例提供的词语关联表的结构字段示意图；

图5为本发明一实施例中步骤S12的流程图；以及

图6为本发明一实施例中信息搜索装置的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1所示为本发明一实施例中信息搜索方法的流程图，该方法包括以下步骤S11-S14：

步骤S11，从词典数据表中获取一条或多条数据资源信息，并从数据资源信息中提取至少一个资源关键词各自的标识。

这里提及的词典数据表中存储有多条数据资源信息，各条数据资源信息包括数据资源的标识，数据资源发布者，数据资源发布时间，数据资源的属性，数据资源中的人物、地点、机构，数据资源的关键词中的一项或多项，所述各条数据资源信息中各项信息的词汇以其各自在词典表中的标识的形式存储在词典数据表中。

在该步骤中，可以根据给定的一个或多个数据资源的标识，从词典数据表中查找相应的数据资源信息。如图2所示为本发明一实施例提供的词典数据表的结构字段示意图，图2中，id表示该条数据资源的标识，published表示数据资源发布时间，f2t_props表示数据资源的属性，t2f_t_uid表示数据资源发布者，t2n_nr表示人物，t2n_ns表示地点，t2n_nt表示机构，t2t_t_terms表示数据资源的关键词。

步骤S12，根据至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识。

这里提及的词语关联表可以包括：人物关联表，地点关联表，机构关联表，属性关联表等，本发明不限于此。下文提及的词语关联表中nr(表示人物)、nt(表示机构)或ns(表示地点)均视为不同的词语关联表，但每个关联表数据结构保持一致。

词语关联性表可以表示为Tzn_terms，其包括两个字段分别为rel和weight，其中，rel记录了关联的两个词的ID(标识)，ID来源于词典表，形如ID.ID，两个标识ID可以以“.”分隔，weight记录了两个词的关联深度值。词语关联表中的数据项可以记录指定天数内的词语间关联性，如Tzn_terms_d0为所有词汇信息集合，Tzn_terms_d1为一天内的词语关联表，还可以有d3(三天内)表或d7(七天内)表等等。进一步，词语关联表的数据项可以记录不同属性信息的词语关联性，如Tzn_nr_d1为最近一天人物的词语关联表，Tzn_ns_d3为最近三天地点的词语关联表，Tzn_nt_d7为最近七天机构的词语关联表，Tzn_terms_d3为最近三天所有属性的词语关联表，等等。

步骤S13，在词典表中查找关联词汇的标识对应的各关联词汇。

这里提及的词典表，其数据项架构可以包括词的标识、词的hash值以及词本身。此外，还可以包括词对应的文档属性、更新时间等，如在电视节目数据中，词对应的文档属性包括词对应的频道、栏目等。这里，词典表可以表示为tixmain_term_data，当然，此处仅是示意性的，并不限制本发明。如图3所示为本发明一实施例提供的词典表的结构字段示意图，图3中，termid表示词的标识，termkey表示词的hash值，termvalue表示词本身，termprop表示词对应的文档属性，updated表示词的更新时间。

进一步，词典表中词的hash值，可以是词的MD5(Message Digest Algorithm，消息摘要算法第五版)值，如可以截取MD5值的前16位；还可以是词的SHA1(Secure HashAlgorithm，安全哈希算法)值；还可以通过其它算法计算词的hash值，本发明不限于此。

步骤S14，搜索与各关联词汇相关的数据资源。

在本发明一优选实施例中，上文提及的rel，其生成规则为：第一个词的ID(标识)来自词典数据表中数据资源的关键词，第二个词的ID(标识)来自词典数据表中的数据资源中的人物、地点、机构或属性。例如，编辑人员推送新文档或数据资源后，会根据资源中关键词，以及提取的相关人物、地点、机构等词汇，到词典表中拿到标识，按rel关系映射值，如果rel值存在，则将其weight加1。如图4所示为本发明一实施例提供的词语关联表的结构字段示意图，图4中，该tixmain_t2n_nr_d1表为最近一天人物的词语关联表，d1表示一天内的词语关联性，还可以有d3(3天内)表、d7(7天内)表或d30(30天内)表等等。rel中第一个词的ID来自词典数据表中数据资源的关键词，第二个词的ID来自词典数据表中的数据资源中的人物(或地点、机构、属性等)的ID值。weight字段中，编辑人员推送新文档或数据资源进来后，按rel关系映射值，如果rel值存在100816.100799，则将其weight加1。

在本发明另一优选实施例中，若新的数据资源信息存储到词典数据表中，会从词典数据表中依次根据(关键词、人物、地点、机构、属性)ID，组合生成rel，生成规则如上文所述，即从新的数据资源信息选取多个词的标识，对于多个词中的每两个词，在词语关联表中查找该两个词的标识rel是否存在，若是，则将该两个词的关联深度值加上1。

在本发明另一实施例中，步骤S12可以实施为：根据至少一个资源关键词各自的标识，从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识，作为各个资源关键词对应的关联词汇的标识。进一步，如图5所示，步骤S12可以包括以下步骤S51-S54：

步骤S51，从词语关联表中选择至少一个资源关键词各自的标识对应的至少一个数据项。

步骤S52，对至少一个数据项的关联深度值进行降序排列。

步骤S53，选取前n个关联深度值对应的数据项。

步骤S54，将选取的数据项的词的标识作为满足预设数值条件的词的标识。

本实施例实现了对至少一个数据项的关联深度值进行降序排列，选取前n个关联深度值对应的数据项，作为各个资源关键词对应的关联词汇。也就是说，关联深度值越高，其对应的词汇越关联。

下面通过一具体实施例详细介绍本发明信息搜索方法的实现过程。在一实施例中，在词典数据表中，根据给定的数据资源的标识，得到对应数据资源信息，从而得到资源关键词的标识(ID)。随后根据资源关键词的ID及关联深度(默认为3)，依次到对应词语关联表(如Tzn-terms-d0，d0为所有词汇信息集合)里查询rel为ID.*的词汇的ID，每查询一次，关联深度减1，减为0时退出。最后，根据查到的rel得到ID集合，根据ID集合到词典表内查找到词汇名称等信息，最终生成给定数据资源的关联词汇，之后在搜索引擎中搜索与各关联词汇相关的数据资源。

对应于上述实施例中的信息搜索方法，本发明还提供了一种信息搜索装置。如图6所示为本发明一实施例中信息搜索装置的结构示意图，包括：

提取模块61，用于从词典数据表中获取一条或多条数据资源信息，并从数据资源信息中提取至少一个资源关键词各自的标识；

第一查找模块62，用于根据至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识；

第二查找模块63，用于在词典表中查找关联词汇的标识对应的各关联词汇；

搜索模块64，用于搜索与各关联词汇相关的数据资源。

在本发明一实施例中，词典数据表中的各条数据资源信息包括数据资源的标识，数据资源发布者，数据资源发布时间，数据资源的属性，数据资源中的人物、地点、机构，数据资源的关键词中的一项或多项，各条数据资源信息中各项信息的词汇以其各自在词典表中的标识的形式存储在词典数据表中。

在本发明一实施例中，上述提取模块61还用于：

在本发明一实施例中，上述第一查找模块62还用于：

根据至少一个资源关键词各自的标识，从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识，作为各个资源关键词对应的关联词汇的标识。

本发明实施例的上述装置：由于词典数据表中存储了数据资源信息各项信息的词汇的标识，因而可以直接从数据资源信息中提取至少一个资源关键词各自的标识，进而利用至少一个资源关键词各自的标识在词语关联表中查找各个资源关键词对应的关联词汇的标识，实现灵活、快速的信息搜索的目的。进一步，在查找各个资源关键词对应的关联词汇的标识后，在词典表中查找关联词汇的标识对应的各关联词汇，从而搜索与各关联词汇相关的数据资源，实现了搜索与给定的数据资源相关的信息。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种信息搜索方法，其特征在于，包括：

在所述词典数据表中查找所述关联词汇的标识对应的各关联词汇；

搜索与所述各关联词汇相关的数据资源；

所述词语关联表的数据项架构包括关联的两个词的标识和对应的关联深度值；

所述根据所述至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识，包括：

2.根据权利要求1所述的方法，其特征在于，所述词典数据表中的各条数据资源信息包括数据资源的标识，数据资源发布者，数据资源发布时间，数据资源的属性，数据资源中的人物、地点、机构，数据资源的关键词中的一项或多项，所述各条数据资源信息中各项信息的词汇以其各自在词典表中的标识的形式存储在所述词典数据表中。

3.根据权利要求2所述的方法，其特征在于，所述从词典数据表中获取一条或多条数据资源信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个资源关键词各自的标识，从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识，包括：

对所述至少一个数据项的关联深度值进行降序排列；

选取前n个关联深度值对应的数据项；

5.一种信息搜索装置，其特征在于，包括：

第二查找模块，用于在所述词典数据表中查找所述关联词汇的标识对应的各关联词汇；

搜索模块，用于搜索与所述各关联词汇相关的数据资源；

所述第一查找模块还用于：

根据所述至少一个资源关键词各自的标识，从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识，作为各个资源关键词对应的关联词汇的标识，所述第一查找模块还用于：

6.根据权利要求5所述的装置，其特征在于，所述词典数据表中的各条数据资源信息包括数据资源的标识，数据资源发布者，数据资源发布时间，数据资源的属性，数据资源中的人物、地点、机构，数据资源的关键词中的一项或多项，所述各条数据资源信息中各项信息的词汇以其各自在词典表中的标识的形式存储在所述词典数据表中。

7.根据权利要求5所述的装置，其特征在于，所述提取模块还用于：