CN104778247A

CN104778247A - 一种基于给定数据资源的信息检索方法及装置

Info

Publication number: CN104778247A
Application number: CN201510173337.7A
Authority: CN
Inventors: 杨乾磊
Original assignee: TVMining Beijing Media Technology Co Ltd
Current assignee: TVMining Beijing Media Technology Co Ltd
Priority date: 2015-04-13
Filing date: 2015-04-13
Publication date: 2015-07-15
Anticipated expiration: 2035-04-13
Also published as: CN104778247B

Abstract

本发明公开了一种基于给定数据资源的信息检索方法及装置，用以实现提高信息检索的速度和准确性的目的。所述方法包括：从给定数据资源中提取至少一个资源关键词；在词典表中查找所述至少一个资源关键词各自的标识，其中，所述词典表的数据项架构包括词的标识、词的哈希hash值以及词本身；根据所述至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识；在所述词典表中查找所述关联词汇的标识对应的各个词，作为所述给定数据资源的关联词汇。

Description

一种基于给定数据资源的信息检索方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于给定数据资源的信息检索方法及装置。

背景技术

随着信息技术的飞速发展，当今社会进入了信息爆炸时代，人们越来越多地借助网络来寻找自己需要的信息，因此，检索成为人们工作、生活不可或缺的一部分。

人们通常使用搜索引擎来进行检索，搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将与用户检索相关的信息展示给用户的系统。

现有技术中，搜索引擎在对信息进行组织和处理时，会直接存储信息内容本身，例如，“北京植物园包括很多展区，如树木园、月季园、牡丹园等”，则会保存文字“北京植物园包括很多展区，如树木园、月季园、牡丹园等”，这样需要大量的存储空间。并且，在后续提供检索服务时，检索速度较慢。

发明内容

本发明提供一种基于给定数据资源的信息检索方法及装置，用以实现提高信息检索的速度和准确性的目的。

本发明提供一种基于给定数据资源的信息检索方法，包括：

从给定数据资源中提取至少一个资源关键词；

在词典表中查找所述至少一个资源关键词各自的标识，其中，所述词典表的数据项架构包括词的标识、词的哈希hash值以及词本身；

根据所述至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识；

在所述词典表中查找所述关联词汇的标识对应的各个词，作为所述给定数据资源的关联词汇。

在本发明一实施例中，所述在词典表中查找所述至少一个资源关键词各自的标识，包括：

计算所述至少一个资源关键词各自的hash值；

根据所述至少一个资源关键词各自的hash值，在词典表中查找所述至少一个资源关键词各自的标识。

在本发明一实施例中，所述词语关联表的数据项架构包括关联的两个词的标识和对应的关联深度值。

在本发明一实施例中，所述根据所述至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识，包括：

根据所述至少一个资源关键词各自的标识，从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识，作为各个资源关键词对应的关联词汇的标识。

在本发明一实施例中，所述根据所述至少一个资源关键词各自的标识，从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识，包括：

从词语关联表中选择所述至少一个资源关键词各自的标识对应的至少一个数据项；

对所述至少一个数据项的关联深度值进行降序排列；

选取前n个关联深度值对应的数据项；

将所述选取的数据项的词的标识作为满足预设数值条件的词的标识。

本发明还提供一种基于给定数据资源的信息检索装置，包括：

提取模块，用于从给定数据资源中提取至少一个资源关键词；

第一查找模块，用于在词典表中查找所述至少一个资源关键词各自的标识，其中，所述词典表的数据项架构包括词的标识、词的哈希hash值以及词本身；

第二查找模块，用于根据所述至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识；

第三查找模块，用于在所述词典表中查找所述关联词汇的标识对应的各个词，作为所述给定数据资源的关联词汇。

在本发明一实施例中，所述第一查找模块还包括：

计算单元，用于计算所述至少一个资源关键词各自的hash值；

查找单元，用于根据所述至少一个资源关键词各自的hash值，在词典表中查找所述至少一个资源关键词各自的标识。

在本发明一实施例中，所述第二查找模块还用于：

对所述至少一个数据项的关联深度值进行降序排列；

选取前n个关联深度值对应的数据项；

本发明实施例的一些有益效果可以包括：

本发明实施例中，从给定数据资源中提取至少一个资源关键词，进而在词典表中查找至少一个资源关键词各自的标识，随后根据至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识，最后在词典表中查找关联词汇的标识对应的各个词，作为给定数据资源的关联词汇。由此可见，本发明利用资源关键词各自的标识去查找对应的关联词汇，相比于现有技术中直接匹配文字本身，能够提高查找速度。并且，本发明的词语关联表中记录了关联的词语，在词语关联表中查找各个资源关键词对应的关联词汇提高了查找结果的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中基于给定数据资源的信息检索方法的流程图；

图2为本发明一实施例提供的词典表的结构字段示意图；

图3为本发明一实施例中步骤S13的流程图；

图4为本发明一实施例提供的词语关联表的结构字段示意图；

图5为本发明一实施例提供的词典数据表的结构字段示意图；

图6为本发明一实施例中基于给定数据资源的信息检索装置的结构示意图；以及

图7为本发明一实施例中第一查找模块62的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1所示为本发明一实施例中基于给定数据资源的信息检索方法的流程图，该方法包括以下步骤S11-S14：

步骤S11，从给定数据资源中提取至少一个资源关键词。

该步骤中，可以根据给定数据资源的ID，得到对应资源的原始数据，从而得到资源关键词。或者，对给定数据资源进行分词处理，提取至少一个资源关键词。

步骤S12，在词典表中查找至少一个资源关键词各自的标识，其中，词典表的数据项架构包括词的标识、词的hash值以及词本身。

在该步骤中，可以计算至少一个资源关键词各自的hash值，从而根据至少一个资源关键词各自的hash值，在词典表中查找至少一个资源关键词各自的标识，相比于直接匹配文字本身，可以提高查找效率。

此外，词典表的数据项中除了可以包括词本身、词的标识以及词的hash值这些字段外，还可以包括词对应的文档属性、更新时间等，如在电视节目数据中，词对应的文档属性包括词对应的频道、栏目等。这里，词典表可以表示为tixmain_term_data，当然，此处仅是示意性的，并不限制本发明。如图2所示为本发明一实施例提供的词典表的结构字段示意图，图2中，termid表示词的标识，termkey表示词的hash值，termvalue表示词本身，termprop表示词对应的文档属性，updated表示词的更新时间。

进一步，词典表中词的hash值，可以是词的MD5(Message DigestAlgorithm，消息摘要算法第五版)值，如可以截取MD5值的前16位；还可以是词的SHA1(Secure Hash Algorithm，安全哈希算法)值；还可以通过其它算法计算词的hash值，本发明不限于此。

步骤S13，根据至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识。

该步骤中，词语关联表可以包括：人物关联表，地点关联表，机构关联表，属性关联表等，本发明不限于此。下文提及的词语关联表中nr(表示人物)、nt(表示机构)或ns(表示地点)均视为不同的词语关联表，但每个关联表数据结构保持一致。

词语关联性表可以表示为Tzn_terms，其包括两个字段分别为rel和weight，其中，rel记录了关联的两个词的ID(标识)，ID来源于词典表，形如ID.ID，两个标识ID可以以“.”分隔，weight记录了两个词的关联深度值。词语关联表中的数据项可以记录指定天数内的词语间关联性，如Tzn_terms_d0为所有词汇信息集合，Tzn_terms_d1为一天内的词语关联表，还可以有d3(三天内)表或d7(七天内)表等等。进一步，词语关联表的数据项可以记录不同属性信息的词语关联性，如Tzn_nr_d1为最近一天人物的词语关联表，Tzn_ns_d3为最近三天地点的词语关联表，Tzn_nt_d7为最近七天机构的词语关联表，Tzn_terms_d3为最近三天所有属性的词语关联表，等等。

步骤S14，在词典表中查找关联词汇的标识对应的各个词，作为给定数据资源的关联词汇。

在本发明另一实施例中，步骤S13可以实施为：根据至少一个资源关键词各自的标识，从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识，作为各个资源关键词对应的关联词汇的标识。进一步，如图3所示，步骤S13可以包括以下步骤S31-S34：

步骤S31，从词语关联表中选择至少一个资源关键词各自的标识对应的至少一个数据项。

步骤S32，对至少一个数据项的关联深度值进行降序排列。

步骤S33，选取前n个关联深度值对应的数据项。

步骤S34，将选取的数据项的词的标识作为满足预设数值条件的词的标识。

本实施例实现了对至少一个数据项的关联深度值进行降序排列，选取前n个关联深度值对应的数据项，作为各个资源关键词对应的关联词汇。也就是说，关联深度值越高，其对应的词汇越关联。

在本发明另一优选实施例中，上文提及的rel，其生成规则为：第一个词的ID(标识)来自词典数据表中数据资源的关键词，第二个词的ID(标识)来自词典数据表中的数据资源中的人物、地点或机构。例如，编辑人员推送新文档或数据资源后，会根据资源中关键词，以及提取的相关人物、地点、机构等词汇，到词典表中拿到标识，将这些数据信息按一条数据记录保存到词典数据表中，然后，在词语关联表中根据这些标识生成rel，按rel关系映射值，如果rel值存在，则将其weight加1。如图4所示为本发明一实施例提供的词语关联表的结构字段示意图，图4中，该tixmain_t2n_nr_d1表为最近一天人物的词语关联表，d1表示一天内的词语关联性，还可以有d3(3天内)表、d7(7天内)表或d30(30天内)表等等。rel中第一个词的ID来自词典数据表中数据资源的关键词，第二个词的ID来自词典数据表中的数据资源中的人物(或地点、机构、属性等)的ID值。weight字段中，编辑人员推送新文档或数据资源进来后，按rel关系映射值，如果rel值存在100816.100799，则将其weight加1。

上文提及的词典数据表中存储有多条数据资源信息，各条数据资源信息包括数据资源发布者，数据资源发布时间，数据资源的属性，数据资源中的人物、地点、机构，数据资源的关键词中的一项或多项标识，所述各条数据资源信息中各项信息以其各自在词典表中的标识的形式存储在词典数据表中。如图5所示为本发明一实施例提供的词典数据表的结构字段示意图，图5中，id表示该条数据资源信息的标识，published表示数据资源发布时间，f2t_props表示数据资源的属性，t2f_t_uid表示数据资源发布者，t2n_nr表示人物，t2n_ns表示地点，t2n_nt表示机构，t2t_t_terms表示数据资源的关键词。

在本发明另一优选实施例中，若新的数据资源信息存储到词典数据表中，会从词典数据表中依次根据(关键词、人物、地点、机构、属性)ID，组合生成rel，生成规则如上文所述，即从新的数据资源信息选取多个词的标识，对于多个词中的每两个词，在词语关联表中查找该两个词的标识rel是否存在，若是，则将该两个词的关联深度值加上1。

下面通过一具体实施例详细介绍本发明基于给定数据资源的信息检索方法的实现过程。在一实施例中，根据给定数据资源ID，得到对应资源的原始数据，从而得到资源关键词。根据资源关键词，到词典表tixmain_term_data中查到词的ID(首先计算资源关键词的hash值，从而根据资源关键词的hash值在词典表中查找词的ID)，根据词的ID及关联深度(默认为3)，依次到对应词语关联表(如Tzn-terms-d0，d0为所有词汇信息集合)里查询rel为ID.*的词汇的ID，每查询一次，关联深度减1，减为0时退出。最后，根据查到的rel得到ID集合，根据ID集合到词典表内查找到词汇名称等信息，最终生成给定数据资源的关联词汇。

对应于上述实施例中的基于给定数据资源的信息检索方法，本发明还提供了一种基于给定数据资源的信息检索装置。如图6所示为本发明一实施例中基于给定数据资源的信息检索装置的结构示意图，包括：

提取模块61，用于从给定数据资源中提取至少一个资源关键词；

第一查找模块62，用于在词典表中查找至少一个资源关键词各自的标识，其中，词典表的数据项架构包括词的标识、词的哈希hash值以及词本身；

第二查找模块63，用于根据至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识；

第三查找模块64，用于在词典表中查找关联词汇的标识对应的各个词，作为给定数据资源的关联词汇。

在本发明一实施例中，如图7所示，上述第一查找模块62还可以包括：

计算单元71，用于计算至少一个资源关键词各自的hash值；

查找单元72，用于根据至少一个资源关键词各自的hash值，在词典表中查找至少一个资源关键词各自的标识。

在本发明一实施例中，词语关联表的数据项架构包括关联的两个词的标识和对应的关联深度值。

在本发明一实施例中，上述第二查找模块63还用于：

根据至少一个资源关键词各自的标识，从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识，作为各个资源关键词对应的关联词汇的标识。

在本发明一实施例中，上述第二查找模块63还用于：

从词语关联表中选择至少一个资源关键词各自的标识对应的至少一个数据项；

对至少一个数据项的关联深度值进行降序排列；

选取前n个关联深度值对应的数据项；

将选取的数据项的词的标识作为满足预设数值条件的词的标识。

本发明实施例的上述装置：从给定数据资源中提取至少一个资源关键词，进而在词典表中查找至少一个资源关键词各自的标识，随后根据至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识，最后在词典表中查找关联词汇的标识对应的各个词，作为给定数据资源的关联词汇。由此可见，本发明利用资源关键词各自的标识去查找对应的关联词汇，相比于现有技术中直接匹配文字本身，能够提高查找速度。并且，本发明的词语关联表中记录了关联的词语，在词语关联表中查找各个资源关键词对应的关联词汇提高了查找结果的准确性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于给定数据资源的信息检索方法，其特征在于，包括：

从给定数据资源中提取至少一个资源关键词；

2.根据权利要求1所述的方法，其特征在于，所述在词典表中查找所述至少一个资源关键词各自的标识，包括：

计算所述至少一个资源关键词各自的hash值；

3.根据权利要求1或2所述的方法，其特征在于，所述词语关联表的数据项架构包括关联的两个词的标识和对应的关联深度值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述至少一个资源关键词各自的标识，在词语关联表中查找各个资源关键词对应的关联词汇的标识，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述至少一个资源关键词各自的标识，从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识，包括：

对所述至少一个数据项的关联深度值进行降序排列；

选取前n个关联深度值对应的数据项；

6.一种基于给定数据资源的信息检索装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第一查找模块还包括：

计算单元，用于计算所述至少一个资源关键词各自的hash值；

8.根据权利要求6或7所述的装置，其特征在于，所述词语关联表的数据项架构包括关联的两个词的标识和对应的关联深度值。

9.根据权利要求8所述的装置，其特征在于，所述第二查找模块还用于：

10.根据权利要求9所述的装置，其特征在于，所述第二查找模块还用于：

对所述至少一个数据项的关联深度值进行降序排列；

选取前n个关联深度值对应的数据项；