CN104765828B

CN104765828B - 一种词典数据表的生成及应用方法和装置

Info

Publication number: CN104765828B
Application number: CN201510173086.2A
Authority: CN
Inventors: 杨乾磊
Original assignee: TVMining Beijing Media Technology Co Ltd
Current assignee: TVMining Beijing Media Technology Co Ltd
Priority date: 2015-04-13
Filing date: 2015-04-13
Publication date: 2018-06-19
Anticipated expiration: 2035-04-13
Also published as: CN104765828A

Abstract

本发明公开了一种词典数据表的生成方法和装置，以及一种词典数据表的应用方法和装置，用以实现节约资源存储空间的目的。所述词典数据表的生成方法，包括：从元数据表中提取至少一条数据资源信息；对于所述各条数据资源信息，计算该条数据资源信息中各项信息的词汇的hash值；根据该条数据资源信息中各项信息的词汇的hash值，查找该条数据资源信息中各项信息的词汇在词典表中的标识，其中，所述词典表的数据项架构包括词的标识、词的hash值以及词本身；在词典数据表中存储所述各条数据资源信息中各项信息的词汇在词典表中的标识，以实现在所述词典数据表中存储所述各条数据资源信息。

Description

一种词典数据表的生成及应用方法和装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种词典数据表的生成方法和装置，以及一种词典数据表的应用方法和装置。

背景技术

随着信息技术的飞速发展，当今社会进入了信息爆炸时代，人们越来越多地借助网络来寻找自己需要的信息，因此，检索成为人们工作、生活不可或缺的一部分。

人们通常使用搜索引擎来进行检索，搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将与用户检索相关的信息展示给用户的系统。

现有技术中，搜索引擎在对信息进行组织和处理时，会直接存储信息内容本身，以地点为例，如果地点是北京，则在地点字段中保存文字北京，这样需要大量的存储空间，并且在后续提供检索服务时，检索速度较慢。

发明内容

本发明提供一种词典数据表的生成方法和装置，以及一种词典数据表的应用方法和装置，用以实现节约资源存储空间的目的。

本发明提供一种词典数据表的生成方法，包括：

从元数据表中提取至少一条数据资源信息，其中，各条数据资源信息包括数据资源发布者，数据资源发布时间，数据资源的属性，数据资源中的人物、地点、机构，数据资源的关键词中的一项或多项；

对于所述各条数据资源信息，计算该条数据资源信息中各项信息的词汇的hash值；

根据该条数据资源信息中各项信息的词汇的hash值，查找该条数据资源信息中各项信息的词汇在词典表中的标识，其中，所述词典表的数据项架构包括词的标识、词的hash值以及词本身；

在词典数据表中存储所述各条数据资源信息中各项信息的词汇在词典表中的标识，以实现在所述词典数据表中存储所述各条数据资源信息。

在本发明一实施例中，当所述各条数据资源信息包括数据资源中的人物、地点、机构中的一项或多项时，所述从元数据表中提取至少一条数据资源信息，包括：

从元数据表中提取各条数据资源的标题和/或摘要；

对所述各条数据资源的标题和/或摘要进行分词处理，得到分词结果；

从所述分词结果中提取所述各条数据资源中的人物、地点、机构中的一项或多项。

从元数据表中提取各条数据资源的关键词；

利用预设的人物、地点、机构的词源库，从所述各条数据资源的关键词中提取所述各条数据资源中的人物、地点、机构中的一项或多项。

本发明还提供一种词典数据表的应用方法，包括：

从词典数据表中取出至少一条数据资源信息；

从所述数据资源信息中选取多个词的标识；

对于所述多个词中的每两个词，在词语关联表中查找该两个词的标识是否存在；

若不存在，则初始该两个词的关联深度值至初始值，并将该两个词的标识以及关联深度值作为词语关联表的数据项进行存储。

在本发明一实施例中，所述对于所述多个词中的每两个词，在词语关联表中查找该两个词的标识是否存在之后，还包括：

若存在，则将该两个词的关联深度值加上第一预设数值。

本发明还提供一种词典数据表的生成装置，包括：

提取模块，用于从元数据表中提取至少一条数据资源信息，其中，各条数据资源信息包括数据资源发布者，数据资源发布时间，数据资源的属性，数据资源中的人物、地点、机构，数据资源的关键词中的一项或多项；

计算模块，用于对于所述各条数据资源信息，计算该条数据资源信息中各项信息的词汇的hash值；

第一查找模块，用于根据该条数据资源信息中各项信息的词汇的hash值，查找该条数据资源信息中各项信息的词汇在词典表中的标识，其中，所述词典表的数据项架构包括词的标识、词的hash值以及词本身；

第一存储模块，用于在词典数据表中存储所述各条数据资源信息中各项信息的词汇在词典表中的标识，以实现在所述词典数据表中存储所述各条数据资源信息。

在本发明一实施例中，当所述各条数据资源信息包括数据资源中的人物、地点、机构中的一项或多项时，所述提取模块还用于：

从元数据表中提取各条数据资源的标题和/或摘要；

从元数据表中提取各条数据资源的关键词；

本发明还提供一种词典数据表的应用装置，包括：

选取模块，用于从词典数据表中取出至少一条数据资源信息；以及从所述数据资源信息中选取多个词的标识；

第二查找模块，用于对于所述多个词中的每两个词，在词语关联表中查找该两个词的标识是否存在；

处理模块，用于若所述第二查找模块在词语关联表中未查找到该两个词的标识，则初始该两个词的关联深度值至初始值，并将该两个词的标识以及关联深度值作为词语关联表的数据项进行存储。

在本发明一实施例中，所述处理模块还用于：

若所述第二查找模块在词语关联表中查找到该两个词的标识，则将该两个词的关联深度值加上第一预设数值。

本发明实施例的一些有益效果可以包括：

本发明实施例中，从元数据表中提取至少一条数据资源信息，对于各条数据资源信息，计算该条数据资源信息中各项信息的词汇的hash(哈希)值。随后根据该条数据资源信息中各项信息的词汇的hash值，查找该条数据资源信息中各项信息的词汇在词典表中的标识。进而在词典数据表中存储各条数据资源信息中各项信息的词汇在词典表中的标识，以实现在词典数据表中存储所述各条数据资源信息。由此，本发明通过存储数据资源信息的词汇的标识代替数据资源信息本身，可以节约资源存储空间。进一步，由于词典数据表中存储了数据资源信息的词汇的标识，因而可以利用该标识进行后续的查找工作，相比于现有技术中查找数据资源信息本身，可以提高查找速度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中词典数据表的生成方法的流程图；

图2为本发明一实施例提供的元数据表中的一条原始数据资源；

图3为本发明一实施例提供的词典表的结构字段示意图；

图4为本发明一实施例提供的词典数据表的结构字段示意图；

图5为本发明一实施例中词典数据表的应用方法的流程图；

图6为本发明一实施例中词典数据表的生成装置的结构示意图；以及

图7为本发明一实施例中词典数据表的应用装置的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1所示为本发明一实施例中词典数据表的生成方法的流程图，该方法包括以下步骤S11-S14：

步骤S11，从元数据表中提取至少一条数据资源信息，其中，各条数据资源信息包括数据资源发布者，数据资源发布时间，数据资源的属性，数据资源中的人物、地点、机构，数据资源的关键词中的一项或多项。

步骤S12，对于各条数据资源信息，计算该条数据资源信息中各项信息的词汇的hash值。

步骤S13，根据该条数据资源信息中各项信息的词汇的hash值，查找该条数据资源信息中各项信息的词汇在词典表中的标识，其中，词典表的数据项架构包括词的标识、词的hash值以及词本身。

步骤S14，在词典数据表中存储各条数据资源信息中各项信息的词汇在词典表中的标识，以实现在词典数据表中存储各条数据资源信息。

本发明实施例中，从元数据表中提取至少一条最新数据资源信息，对于各条数据资源信息，计算该条数据资源信息中各项信息的词汇的hash值。随后根据该条数据资源信息中各项信息的词汇的hash值，查找该条数据资源信息中各项信息的词汇在词典表中的标识。进而在词典数据表中存储各条数据资源信息中各项信息的词汇在词典表中的标识，以实现在词典数据表中存储所述各条数据资源信息。由此，本发明通过存储数据资源信息的词汇的标识代替数据资源信息本身，可以节约资源存储空间。进一步，由于词典数据表中存储了数据资源信息的词汇的标识，因而可以利用该标识进行后续的查找工作，相比于现有技术中查找数据资源信息本身，可以提高查找速度。

上文步骤S11中提及的元数据表是存储原始数据资源的数据表，图2所示为本发明一实施例提供的元数据表中的一条原始数据资源，该条原始数据资源中包括了数据资源的标题、发布时间、更新时间、摘要、发布者，数据资源的关键词，数据资源的属性等等。因而，可以从该条原始数据资源中提取一条数据资源信息，该数据资源信息中包括数据资源发布者，数据资源发布时间，数据资源的属性，对标题、摘要、内容分词后得到数据资源中的人物、地点、机构，数据资源的关键词中的一项或多项。这里，元数据表可以表示为dxmain，数据资源中的人物、地点、机构可以分别表示为nr、ns和nt，当然，此处仅是示意性的，并不限制本发明。

进一步，当各条数据资源信息包括数据资源中的人物、地点、机构中的一项或多项时，步骤S11从元数据表中提取至少一条数据资源信息，本发明实施例提供了一种优选的方案，在该方案中，可以从元数据表中提取各条数据资源的标题和/或摘要，从对各条数据资源的标题和/或摘要进行分词处理，得到分词结果，进而从分词结果中提取各条数据资源中的人物、地点、机构中的一项或多项。

在本发明另一实施例中，当各条数据资源信息包括数据资源中的人物、地点、机构中的一项或多项时，步骤S11从元数据表中提取至少一条数据资源信息可以实施为：从元数据表中提取各条数据资源的关键词，进而利用预设的人物、地点、机构的词源库，从各条数据资源的关键词中提取各条数据资源中的人物、地点、机构中的一项或多项。

上文步骤S12提及的各项信息的hash值，可以是各项信息的MD5(Message DigestAlgorithm，消息摘要算法第五版)值，如可以截取MD5值的前16位；还可以是各项信息的SHA1(Secure Hash Algorithm，安全哈希算法)值；还可以通过其它算法计算各项信息的hash值，本发明不限于此。这里，各项信息的hash值实质上是用来表示各项信息的各个词的hash值。

进一步，步骤S13中提及的词典表，其数据项中除了可以包括词本身、词的标识以及词的hash值这些字段外，还可以包括词对应的文档属性、更新时间等，如在电视节目数据中，词对应的文档属性包括词对应的频道、栏目等。这里，词典表可以表示为tixmain_data_term，当然，此处仅是示意性的，并不限制本发明。如图3所示为本发明一实施例提供的词典表的结构字段示意图，图3中，termid表示词的标识，termkey表示词的hash值，termvalue表示词本身，termprop表示词对应的文档属性，updated表示词的更新时间。

步骤S14中词典数据表中存储各条数据资源信息中各项信息在词典表中的标识，以实现在词典数据表中存储各条数据资源信息。如图4所示为本发明一实施例提供的词典数据表的结构字段示意图，图4中，id表示该条数据资源信息的标识，published表示数据资源发布时间，f2t_props表示数据资源的属性，t2f_t_uid表示数据资源发布者，t2n_nr表示人物，t2n_ns表示地点，t2n_nt表示机构，t2t_t_terms表示数据资源的关键词。

此外，为了防止一个表过大，导致查询或存储不便捷，本发明实施例中的词典表或词典数据表可以由多个表组成，这些表满足哈希均匀分布。

在得到上文所述的词典数据表之后，该词典数据表可以应用在后续的查找或存储数据资源的工作中。图5所示为本发明一实施例中词典数据表的应用方法的流程图，该方法包括以下步骤S51-S53：

步骤S51，从词典数据表中取出至少一条数据资源信息。这里，至少一条数据资源信息可以是最新的一条或多条数据资源信息。

步骤S52，从数据资源信息中选取多个词的标识。

步骤S53，对于多个词中的每两个词，在词语关联表中查找该两个词的标识是否存在，若存在，则执行步骤S54；反之，若不存在，则执行步骤S55。

在该步骤中，根据数据资源信息的关键词标识与属性、人物、地点、机构的标识依次两两组合生成rel，形如：10211.13323，中间可以以“.”分隔。

步骤S54，将该两个词的关联深度值加上第一预设数值。

步骤S55，初始该两个词的关联深度值至初始值，并将该两个词的标识以及关联深度值作为词语关联表的数据项进行存储。

本实施例中，由于词典数据表中存储了数据资源信息的标识，因而可以利用该标识进行后续的查找工作，相比于现有技术中查找数据资源信息本身，可以提高查找速度。

在本发明的另一实施例中，可以将该两个词的标识以及关联深度值作为词语关联表的数据项进行存储，利用该词语关联表可以进行后续搜索工作。例如，可以根据该词语关联表检索给定词汇的关联词汇，或者检索热门词汇(即对应的关联深度值大于预设值的词汇)等等。

对应于上述实施例中的词典数据表的生成方法，本发明还提供了一种词典数据表的生成装置。如图6所示为本发明一实施例中词典数据表的生成装置的结构示意图，包括：

提取模块61，用于从元数据表中提取至少一条数据资源信息，其中，各条数据资源信息包括数据资源发布者，数据资源发布时间，数据资源的属性，数据资源中的人物、地点、机构，数据资源的关键词中的一项或多项；

优选的，可以是从元数据表中提取最新的至少一条数据资源信息。

计算模块62，用于对于所述各条数据资源信息，计算该条数据资源信息中各项信息的词汇的hash值；

第一查找模块63，用于根据该条数据资源信息中各项信息的词汇的hash值，查找该条数据资源信息中各项信息的词汇在词典表中的标识，其中，所述词典表的数据项架构包括词的标识、词的hash值以及词本身；

存储模块64，用于在词典数据表中存储所述各条数据资源信息中各项信息在词典表中的标识，以实现在所述词典数据表中存储所述各条数据资源信息。

在本发明一实施例中，当所述各条数据资源信息包括数据资源中的人物、地点、机构中的一项或多项时，上述提取模块61还用于：

从元数据表中提取各条数据资源的标题、内容、摘要中的至少之一；

对所述各条数据资源的标题、内容、摘要中的至少之一进行分词处理，得到分词结果；

从元数据表中提取各条数据资源的关键词；

本发明实施例的上述装置：从元数据表中提取至少一条数据资源信息，对于各条数据资源信息，计算该条数据资源信息中各项信息的词汇的hash值。随后根据该条数据资源信息中各项信息的词汇的hash值，查找该条数据资源信息中各项信息的词汇在词典表中的标识。进而在词典数据表中存储各条数据资源信息中各项信息的词汇在词典表中的标识，以实现在词典数据表中存储所述各条数据资源信息的词汇的标识(如属性、人物、地点、机构、关键词的标识等等)。由此，本发明通过存储数据资源信息的标识代替数据资源信息本身，可以节约资源存储空间。进一步，由于词典数据表中存储了数据资源信息的词汇的标识，因而可以利用该标识进行后续的查找工作，相比于现有技术中查找数据资源信息本身，可以提高查找速度。

对应于上述实施例中的词典数据表的应用方法，本发明还提供了一种词典数据表的应用装置。如图7所示为本发明一实施例中词典数据表的应用装置的结构示意图，包括：

选取模块71，从词典数据表中取出至少一条数据资源信息；以及从数据资源信息中选取多个词的标识；

第二查找模块72，对于多个词中的每两个词，在词语关联表中查找该两个词的标识是否存在；

处理模块73，若第二查找模块72在词语关联表中未查找到该两个词的标识，则初始该两个词的关联深度值至初始值，并将该两个词的标识以及关联深度值作为词语关联表的数据项进行存储。

在本发明一实施例中，上述处理模块73还用于：

若第二查找模块72在词语关联表中查找到该两个词的标识，则将该两个词的关联深度值加上第一预设数值。

本发明实施例的上述装置：由于词典数据表中存储了数据资源信息的词汇的标识，因而可以利用该标识进行后续的查找工作，相比于现有技术中查找数据资源信息本身，可以提高查找速度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种词典数据表的生成方法，其特征在于，包括：

对于所述各条数据资源信息，计算该条数据资源信息中各项信息的词汇的哈希hash值；

在词典数据表中存储所述各条数据资源信息中各项信息的词汇在词典表中的标识，以实现在所述词典数据表中存储所述各条数据资源信息；

当所述各条数据资源信息包括数据资源中的人物、地点、机构中的一项或多项时，所述从元数据表中提取至少一条数据资源信息，包括：

从元数据表中提取各条数据资源的标题和/或摘要；

从所述分词结果中提取所述各条数据资源中的人物、地点、机构中的一项或多项；或者

从元数据表中提取各条数据资源的关键词；

2.根据权利要求1所述的方法，其特征在于，包括：

从词典数据表中取出至少一条数据资源信息；

从所述数据资源信息中选取多个词的标识；

若不存在，则初始该两个词的关联深度值至初始值，并将该两个词的标识以及关联深度值作为词语关联表的数据项进行存储；

所述对于所述多个词中的每两个词，在词语关联表中查找该两个词的标识是否存在之后，还包括：

若存在，则将该两个词的关联深度值加上第一预设数值。

3.一种词典数据表的生成装置，其特征在于，包括：

计算模块，用于对于所述各条数据资源信息，计算该条数据资源信息中各项信息的词汇的哈希hash值；

存储模块，用于在词典数据表中存储所述各条数据资源信息中各项信息的词汇在词典表中的标识，以实现在所述词典数据表中存储所述各条数据资源信息；

当所述各条数据资源信息包括数据资源中的人物、地点、机构中的一项或多项时，所述提取模块还用于：

从元数据表中提取各条数据资源的标题和/或摘要；

从元数据表中提取各条数据资源的关键词；

4.根据权利要求3所述的装置，其特征在于，包括：

处理模块，用于若所述第二查找模块在词语关联表中未查找到该两个词的标识，则初始该两个词的关联深度值至初始值，并将该两个词的标识以及关联深度值作为词语关联表的数据项进行存储；

所述处理模块还用于：