CN104239321B

CN104239321B - 一种面向搜索引擎的数据处理方法及装置

Info

Publication number: CN104239321B
Application number: CN201310236603.7A
Authority: CN
Inventors: 刘广权
Original assignee: Autonavi Software Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2013-06-14
Filing date: 2013-06-14
Publication date: 2018-11-09
Anticipated expiration: 2033-06-14
Also published as: CN104239321A

Abstract

本发明公开了一种面向搜索引擎的数据处理方法及装置，所述方法包括：获取搜索词；对所述搜索词进行分词，得到所述搜索词的词素集合；对所述词素集合中的词素进行组合，得到候选新词；在预置的标准语料库中对所述候选新词进行全包含搜索，若搜索到所述候选新词，则判定所述候选新词为未登录词。同时，本发明还公开了一种实现上述方法的装置。本发明公开的方法及装置通过对用户行为的分析，完成未登陆词发现，降低了现有的未登录词的发现方法对于既有词法的依赖以及特定应用场合的束缚，提高了未登录词发现结果的准确性。

Description

一种面向搜索引擎的数据处理方法及装置

技术领域

本发明涉及搜索引擎数据技术领域，更具体地说，涉及一种面向搜索引擎的数据处理方法及装置。

背景技术中

搜索引擎是指通过对信息进行搜集、组织和处理得到的分词词库，为用户提供搜索服务并将搜索到的信息展示给用户的系统。因此，全面完善的分词词库是搜索引擎准确性的保证。

为了扩大分词词库的数量，往往需要对未收录到分词词库中的词，即未登录词，进行搜集。现有技术的未登录词的发现及处理方法是从母库语料出发，通过分析词素（组成词的最小语义单位）组合的结构、词性和碎片共现频率发现未登录词。

然而，现有的未登录词发现及处理方法对于既有词法过分依赖，而对特殊用法习惯的未登录词容易忽略；并且，母库语料的选取需结合目标应用场合的特点，对目标应用场合可能不适用。因此，现有的未登录词发现及处理方法具有未登陆词发现结果的准确性较低的技术缺陷。

发明内容

有鉴于此，本发明提供一种面向搜索引擎的数据处理方法及装置，以实现提高未登录词发现结果准确性的技术目的。

一方面，本发明实施例公开了：

一种面向搜索引擎的数据处理方法，包括：

获取搜索词；

对所述搜索词进行分词，得到所述搜索词的词素集合；

对所述词素集合的词素进行组合，得到候选新词；

在预置的标准语料库中对所述候选新词进行全包含搜索，若搜索到所述候选新词，则判定所述候选新词为未登录词。

另一方面，本发明实施例还公开了：

一种面向搜索引擎的数据处理装置，所述装置包括：

搜索词获取单元，用于获取搜索词；

分词单元，用于对所述搜索词进行分词，得到所述搜索词的词素集合；

候选新词获取单元，用于对所述词素集合的词素进行组合，得到候选新词；

未登陆词获取单元，用于在预置的标准语料库中对所述候选新词进行全包含搜索，若搜索到所述候选新词，则判定所述候选新词为未登录词。

从上述的技术方案可以看出，本发明实施例首先对获取的搜索词进行分词，得到所述搜索词的词素集合；其次，对所述词素集合的词素进行组合，得到候选新词；最后，在预置的标准语料库中对所述候选新词进行全包含搜索，若搜索到所述候选新词，则判定所述候选新词为未登录词。本发明实施例提供的技术方案减少了对既有词法的依赖以及特定应用场合的束缚，并通过在标准语料库中对候选新词进行验证，提高了未登录词发现的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种面向搜索引擎的数据处理方法流程图；

图2为本发明实施例公开的一种对词素集合中的词素进行组合，得到候选新词的方法流程图；

图3为本发明实施例公开的一种面向搜索引擎的数据处理装置组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，是本发明实施例提供的一种面向搜索引擎的数据处理方法，尤其是指一种搜索词处理方法，该方法包括如下步骤：

步骤10：获取搜索词；

步骤20：对所述搜索词进行分词，得到所述搜索词的词素集合；

在实际应用中，可根据预置的分词词库对获取的搜索词进行分词，得到组成所述搜索词的词素的集合，词素也就是组成所述搜索词的词，词素可以是单字，称为单字词素，比如，“北”，也可以非单字，称为非单字词素，比如，“北京”。

步骤30：对所述词素集合中的词素进行组合，得到候选新词；

步骤40：在预置的标准语料库中对所述候选新词进行全包含搜索，若搜索到所述候选新词，则判定所述候选新词为未登录词，否则，结束该流程。

其中，所述全包含搜索是指，搜索完全包含所述候选新词的标准语料。针对不同的行业应用，所述标准语料库存储的信息有所不同。比如在地理信息行业，所述标准语料库存储的是兴趣点信息，所述全包含搜索是指，在存储兴趣点信息的标准语料库中，搜索完全包含所述候选新词的兴趣点信息。由于标准语料库中，存储的是相关行业的标准信息，因此，在通过标准语料库对候选新词进行全包含搜索验证，提高了未登陆词发现的准确性。比如，候选新词为“方恒国际中心”，则需要搜索包含“方恒国际中心”的标准语料。

以上是本发明实施例提供的一种面向搜索引擎的数据处理方法，该方法减少了对既有词法的依赖以及特定应用场合的束缚，通过在标准语料库中对候选新词进行验证，提高了未登录词发现的准确性。

在实际应用中，用户输入的搜索词数量极其庞大，为进一步提高未登录词的发现效率，本发明提供的优选实施例中，所述获取搜索词具体可以是：

从预置的搜索词搜索频率记录中，获取搜索频率不低于预置的搜索频率阈值的搜索词，即，获取搜索频率大于等于预置的搜索频率阈值的搜索词。其中，技术人员可以根据实际情况预先设定搜索频率阈值，大于等于该搜索频率阈值的搜索词表示该搜索词已成为比较流行的词，因此，需要对这些搜索词进行处理，获取其中的未登录词存入分词词库中，对分词词库进行丰富。

进一步，在实际应用中，对词素集合中的词素进行组合，得到候选新词可以采用如下方法实现：

判断所述词素集合中是否包括单字词素，如果包括，则根据词素集合中单字词素的分布情况，获取候选新词。

由于搜索词的词素集合是根据预置的分词词库中得到的，通常情况下分词词库中很少会出现单字，如果该词素集合中包括单字词素，说明该搜索词中极有可能存在未登陆词，因为如果一个词在分词词库中没有出现，则在分词过程中，会将这个词切分为单字，也就是本发明实施例所称的单字词素。

在实际应用中，词素集合中单字词素的分布情况通常包括三种：

第一种，词素集合中全部都是单字词素，比如，“步”“行”“街”，此时，可以将所述词素集合对应的搜索词作为候选新词；

第二种，词素集合中有连续的单字词素和非单字词素，比如，“格林”“豪”“泰”，此时，需要将所述连续的单字词素进行组合，得到第一组合词素，并将所述连续的单字词素及其相邻的非单字词素进行组合，得到第二组合词素；在预置的搜索词搜索频率记录中，获取所述第一组合词素及第二组合词素的搜索频率，选择搜索频率高的一个组合词素作为候选新词；其中，词素集合中有两个以上的单字词素相邻，即为本发明实施例所称连续的单字词素；

第三种，词素集合中有单个的单字词素与非单字词素相邻，比如，“赤尾”“屿”，此时，需要将所述单字词素与其相邻的非单字词素进行组合，得到第三组合词素；在预置的搜索词搜索频率记录中，获取所述非单字词素与所述第三组合词素的搜索频率，并选择搜索频率高的一个组合词素作为候选新词。

需要说明的是，上述三种情况，第一种情况不会和第二或者第三种情况同时出现，但第二种情况和第三种情况可能会共同出现。

进一步，为提高上述第三种情况得到的组合词素的正确率，本发明提供了一种优选实施例，该实施例中，在将所述单字词素与其相邻的非单字词素进行组合，得到第三组合词素之前，所述方法进一步包括：

判断组成所述非单字词素的单字个数是否小于等于3，如果是，则将所述单字词素与其相邻的非单字词素进行组合，得到第三组合词素，否则，结束该流程。

以下结合附图2对本发明实施例提供的对词素集合中的词素进行组合，得到候选新词的方法流程进行详细介绍，该方法包括如下步骤：

步骤301：判断所述词素集合中是否包括单字词素，如果包括，则进入步骤302，否则，结束该流程；

步骤302：判断所述词素集合是否都是单字词素，如果是，则进入步骤303，否则进入步骤304；

步骤303：将所述词素集合对应的搜索词作为候选新词；

步骤304：判断所述词素集合中是否有连续的单字词素，如果是，则进入步骤305，否则，进入步骤307；

步骤305：将所述连续的单字词素进行组合，得到第一组合词素，并将所述连续的单字词素及其相邻的非单字词素进行组合，得到第二组合词素；

步骤306：在预置的搜索词搜索频率记录中，获取所述第一组合词素及第二组合词素的搜索频率，选择搜索频率高的一个组合词素作为候选新词；

步骤307：判断所述词素集合中是否有单个的单字词素与非单字词素相邻，如果是，则进入步骤308，如果否，结束该流程；

步骤308：判断组成所述非单字词素的单字个数是否小于等于3，如果是，则进入步骤309，如果否，结束该流程；

步骤309：将所述单字词素与其相邻的非单字词素进行组合，得到第三组合词素；

步骤310：在预置的搜索词搜索频率记录中，获取所述非单字词素与所述第三组合词素的搜索频率，并选择搜索频率高的一个组合词素作为候选新词。

以上是本发明实施例提供的一种面向搜索引擎的数据处理方法，在上述实施例中，需要采用预置的搜索词频率记录，在实际应用中，该记录可以采用如下方法实现：统计用户查询日志中出现的搜索词及搜索词的搜索频率；以搜索词为键，以搜索频率为值，建立记录键值关系（搜索词语其搜索频率对应关系）的搜索词搜索频率记录。

为提高从预置的搜索词搜索频率记录中，获取搜索频率不低于预置的搜索频率阈值的搜索词的效率，上述建立搜索词搜索频率记录可以具体为：

以搜索词为键，以搜索频率为值，按照搜索频率由低到高或者由高到低的顺序，建立记录键值关系的搜索词搜索频率记录。

考虑到，用户输入的搜索词中时常会出现一些无效输入（如各种标点符号），为此上述建立搜索词频率记录的方法中还可以进一步包括：删除搜索词中的无效输入，得到不含无效输入的搜索词的步骤。

以上对本发明实施例提供的一种面向搜索引擎的数据处理方法进行了详细介绍，以下结合附图对本发明实施例提供的实现上述方法的装置进行进一步介绍。

请参见图3，本发明实施例提供的一种面向搜索引擎的数据处理装置，该装置包括：

搜索词获取单元50，用于获取搜索词；

分词单元51，用于对所述搜索词进行分词，得到所述搜索词的词素集合；

候选新词获取单元52，用于对所述词素集合中的词素进行组合，得到候选新词；

未登陆词获取单元53，用于在预置的标准语料库中对所述候选新词进行全包含搜索，若搜索到所述候选新词，则判定所述候选新词为未登录词。

以上是本发明实施例提供的一种面向搜索引擎的数据处理装置，该装置减少了对既有词法的依赖以及特定应用场合的束缚，并通过在标准语料库中对候选新词进行验证，提高了未登录词发现的准确性。

为进一步提高获取未登陆词的效率，本发明另一实施例中，上述搜索词获取单元50，可以具体用于：从预置的搜索词搜索频率记录中，获取搜索频率不低于预置的搜索频率阈值的搜索词。

在实际应用中，所述候选新词获取单元52具体包括：

单字词素判断子单元，用于判断所述词素集合中是否包括单字词素，如果包括，则触发候选新词获取子单元；

候选新词获取子单元，用于根据词素集合中单字词素的分布情况，获取候选新词。

在实际应用中，词素集合中单字词素的分布情况通常包括三种，分别为：词素集合中全部都是单字词素、词素集合中有连续的单字词素和非单字词素及词素集合中有单个的单字词素和非单字词素相邻，针对这三种情况，所述候选新词获取子单元具体包括：

第一候选新词获取子单元，用于当所述词素集合中的分词均为单字词素时，将所述词素集合对应的搜索词作为候选新词；

第一词素组合子单元，用于当所述词素集合中有连续的单字词素和非单字词素时，将所述连续的单字词素进行组合，得到第一组合词素，并将所述连续的单字词素及其相邻的非单字词素进行组合，得到第二组合词素；

第二候选新词获取子单元，用于在预置的搜索词搜索频率记录中，获取所述第一组合词素及第二组合词素的搜索频率，选择搜索频率高的一个组合词素作为候选新词；

第二词素组合子单元，用于当所述词素集合中有单个的单字词素与非单字词素相邻时，将所述单字词素与其相邻的非单字词素进行组合，得到第三组合词素；

第三候选新词获取子单元，用于在预置的搜索词搜索频率记录中，获取所述非单字词素与所述第三组合词素的搜索频率，并选择搜索频率高的一个组合词素作为候选新词。

为提高上述第三种情况得到的组合词素的正确率，在本发明提供的优选实施例中，所述第二词素组合子单元可以具体用于：

当所述词素集合中有单个的单字词素与非单字词素相邻时，判断组成所述非单字词素的单字个数是否小于等于3，如果小于，则将所述单字词素与其相邻的非单字词素进行组合，得到第三组合词素。

进一步，本发明实施例提供的上述装置还可以进一步包括用于建立预置的搜索词搜索频率记录的单元，具体包括：

搜索词及其频率统计单元，用于统计用户查询日志中出现的搜索词及其搜索频率；

记录建立单元，用于以搜索词为键，以搜索频率为值，建立记录键值关系的搜索词搜索频率记录。

为提高获取搜索词的效率，上述记录建立单元可以具体用于：

以搜索词为键，以搜索频率为值，按照搜索频率由低到高或者由高到低的顺序，建立记录键值关系的搜索词搜索频率记录

考虑到，用户输入的搜索词中时常会出现一些无效输入（如各种标点符号），为此上述装置还可以进一步包括：

无效输入删除单元，用于删除搜索词中的无效输入，得到不含无效输入的搜索词的步骤。

以上是本发明实施例提供的一种面向搜索引擎的数据处理装置。上述装置的实施方式，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对于系统实施例而言，由于其基本相应于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明实施例的精神或范围的情况下，在其它实施例中实现。因此，本发明实施例将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种面向搜索引擎的数据处理方法，其特征在于，包括：

获取搜索词；

对所述搜索词进行分词，得到所述搜索词的词素集合；

对所述词素集合中的词素进行组合，得到候选新词；

在预置的标准语料库中对所述候选新词进行全包含搜索，若搜索到所述候选新词，则判定所述候选新词为未登录词，其中所述预置的标准语料库存储的是相关行业的标准信息；

所述对所述词素集合的词素进行组合，得到候选新词具体包括：

判断所述词素集合中是否包括单字词素，如果包括，则当所述词素集合中的分词均为单字词素时，将所述词素集合对应的搜索词作为候选新词；

当所述词素集合中有连续的单字词素和非单字词素时，将所述连续的单字词素进行组合，得到第一组合词素，并将所述连续的单字词素及其相邻的非单字词素进行组合，得到第二组合词素；在预置的搜索词搜索频率记录中，获取所述第一组合词素及第二组合词素的搜索频率，选择搜索频率高的一个组合词素作为候选新词；

当所述词素集合中有单个的单字词素与非单字词素相邻时，将所述单字词素与其相邻的非单字词素进行组合，得到第三组合词素；在预置的搜索词搜索频率记录中，获取所述非单字词素与所述第三组合词素的搜索频率，并选择搜索频率高的一个组合词素作为候选新词。

2.如权利要求1所述的方法，其特征在于，所述将所述单字词素与其相邻的非单字词素进行组合，得到第三组合词素之前，所述方法进一步包括：

3.如权利要求1或2所述的方法，其特征在于，所述获取搜索词具体为：

从预置的搜索词搜索频率记录中，获取搜索频率不低于预置的搜索频率阈值的搜索词。

4.如权利要求3所述的方法，其特征在于，所述方法进一步包括：

统计用户查询日志中出现的搜索词及其搜索频率；

以搜索词为键，以搜索频率为值，建立记录键值关系的搜索词搜索频率记录。

5.一种面向搜索引擎的数据处理装置，其特征在于，所述装置包括：

搜索词获取单元，用于获取搜索词；

候选新词获取单元，用于对所述词素集合中的词素进行组合，得到候选新词；

未登陆词获取单元，用于在预置的标准语料库中对所述候选新词进行全包含搜索，若搜索到所述候选新词，则判定所述候选新词为未登录词，其中所述预置的标准语料库存储的是相关行业的标准信息；

候选新词获取子单元，用于根据词素集合中单字词素的分布情况，获取候选新词；

所述候选新词获取子单元具体包括：

6.如权利要求5所述的装置，其特征在于，所述第二词素组合子单元具体用于：

当所述词素集合中有单个的单字词素与非单字词素相邻时，判断组成所述非单字词素的单字个数是否小于等于3，如果是，则将所述单字词素与其相邻的非单字词素进行组合，得到第三组合词素。