CN105824976A

CN105824976A - 一种优化分词库的方法和装置

Info

Publication number: CN105824976A
Application number: CN201610251202.2A
Authority: CN
Inventors: 邹炜
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2016-04-20
Filing date: 2016-04-20
Publication date: 2016-08-03

Abstract

本文公布一种优化分词库的方法和装置，该方法包括：获取预设个数个热词；将获得的热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库；根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。本发明实施例避免了无法识别网络热词的弊端，从而提升了应用商店的搜索、使用性能，增强了用户体验。

Description

一种优化分词库的方法和装置

技术领域

本发明实施例涉及但不限于大数据技术，尤指一种优化分词库的方法和装置。

背景技术

对于应用商店这类型的产品而言，具有搜索功能的搜索引擎是必不可少的重要组成部分之一。搜索功能的好坏，是评估一个应用商店易用性高低的核心指标，例如，用户在应用商店搜索框内连续输入若干个关键词均无法定位到目标应用，这样会导致用户体验极差。

目前，大部分的应用商店的搜索功能是基于全文搜索引擎(Lucene)或Lucene的衍生产品开发而成的。其中，Lucene中的原生分词库存储在分布式文档存储数据库(MongoDB)中的MongoDB文件中，Lucene中有原生分词库，其中，Lucene中的原生分词库与应用商店的应用资源之间对应于一个索引，且应用商店的服务器会对Lucene中的原生分词库会进行更新，当Lucene中的原生分词库更新后，应用商店的服务器需要对更新后的Lucene中的原生分词库对应的索引进行索引重构。

由于Lucene是Apache(Web服务器软件)上的一款开源搜索引擎，所以对中文的分词处理不好，尽管相关技术已对分词库进行了补充优化的补救措施，如IKAnalyze(一个开源的，基于java语言开发的轻量级的中文分词工具包)，但是其更新缓慢，且由于不同语言之间的差异导致了对当前的很多网络热词无法识别，所以对于搜索、使用性能的提升并不明显，用户体验也有待提升。

发明内容

本申请提供了一种优化分词库的方法和装置，能够避免无法识别网络热词的弊端，从而提升应用商店的搜索、使用性能，增强用户体验。

为了达到本申请目的，本申请提供了一种优化分词库的方法，包括：

获取预设个数个热词；

将获得的热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库；

根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。

可选地，所述热词包括：网页热词，和/或用户搜索热词，和/或手动录入热词。

可选地，当所述热词包括网页热词时，所述获取预设个数个热词包括：

采用网络爬虫程序获取预设网页的资源；

获取所述预设网页的资源中所包含的各个网页热词及其自身的排序；

在获得的各个网页热词中获取由大到小的所述预设个数个网页热词作为所述热词。

可选地，当所述热词包括用户搜索热词时，所述获取预设个数个热词包括：

获取各个用户在应用商店的操作轨迹；

根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序；

在确定出的各个用户搜索热词中获取由大到小的所述预设个数个用户搜索热词作为所述热词。

可选地，该方法还包括：将获得的所述热词存储至分布式文档存储数据库。

可选地，所述将获得的所述热词存储至分布式文档存储数据库具体包括：在所述分布式文档存储数据库中创建一个分布式文档存储数据库类型的文件；

将获得的所述分词写入创建的分布式文档存储数据库类型的文件中。

可选地，所述根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构包括：

获取所述搜索引擎中的第一分词库对应的第一索引；

根据所述搜索引擎中的第二分词库采用覆盖增量模式对获得的所述搜索引擎中的第一分词库对应的第一索引进行更新。

本申请还提供了一种优化分词库的装置，包括：获取模块、处理模块和重构模块；其中，

获取模块，用于获取预设个数个热词；

处理模块，用于将获得的热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库；

重构模块，用于根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。

可选地，当所述热词包括网页热词时，所述获取模块具体用于：

采用网络爬虫程序获取预设网页的资源；

可选地，当所述热词包括用户搜索热词时，所述获取模块具体用于：

获取各个用户在应用商店的操作轨迹；

可选地，该装置还包括更新模块，用于将获得的所述热词存储至分布式文档存储数据库。

可选地，所述更新模块，具体用于在所述分布式文档存储数据库中创建一个分布式文档存储数据库类型的文件；

可选地，所述重构模块，具体用于：

获取所述搜索引擎中的第一分词库对应的第一索引；

本发明实施例包括：获取预设个数个热词；将获得的热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库；根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。本发明实施例避免了无法识别网络热词的弊端，从而提升了应用商店的搜索、使用性能，增强了用户体验。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明优化分词库的方法的流程图；

图2为本发明分词库来源的示意图；

图3为本发明整合搜索引擎中的第二分词库的示意图；

图4为本发明优化分词库的方法的实施例的流程图；

图5为本发明优化分词库的装置的结构示意图。

具体实施方式

下面将结合附图及实施例对本发明的技术方案进行更详细的说明。

图1为本发明优化分词库的方法的流程图，如图1所示，周期性的执行以下步骤：

步骤101：获取预设个数个热词。

其中，热词包括：网页热词，和/或用户搜索热词，和/或手动录入热词。

其中，预设个数可以是一个由系统设定的默认值，如500,1000；也可以由应用商店的服务器的管理员(或运营人员)进行设定。

其中，当热词包括网页热词时，获取预设个数个热词包括：

采用网络爬虫程序获取预设网页的资源；

获取预设网页的资源中所包含的各个网页热词及其自身的排序；

在获得的各个网页热词中获取由大到小的预设个数个网页热词作为热词。其中，预设网页包括如新浪微博热词页面、百度搜索热词页面等等。

可选地，该方法还包括：将获得的预设网页的资源存储在分布式文件系统(HDFS)中。

其中，通过分布式系统基础架构(Hadoop)获取预设网页的资源中所包含的各个网页热词及其自身的排序；包括：

Hadoop采用大数据统计功能确定HDFS中存储的一个或一个以上的预设网页的资源中所包含的多个网页热词以及每个网络热词的使用次数；

Hadoop根据确定出的每个网络热词的使用次数确定各个网页热词的排序。需要说明的是，关于如何通过Hadoop确定多个网页热词以及每个网络热词的使用次数，属于本领域技术人员所熟知的惯用技术手段，此处不再赘述，并不用来限制本发明。例如，Hadoop对HDFS上的网页资源进行增量大数据统计分析，根据网页中已有的网络热词排行和词语出现的频率，结合一定的计算权重(此处的权重可以由管理人员进行设定，属于本领域的惯用技术手段，此处不再赘述)，重新整合成一份得分从高到低的网络热词的排行榜(排序)。

其中，当热词包括用户搜索热词时，获取预设个数个热词包括：

获取各个用户在应用商店的操作轨迹；

在确定出的各个用户搜索热词中获取由大到小的预设个数个用户搜索热词作为热词。

其中，当热词包括网页热词和用户搜索热词时，获取预设个数个热词包括：

采用网络爬虫程序获取预设网页的资源；

获取预设网页的资源中所包含的各个网页热词及其自身的排序；以及，

获取各个用户在应用商店的操作轨迹；

在获得的各个网页热词中获取由大到小的预设个数个网页热词以及在确定出的各个用户搜索热词中获取由大到小的预设个数个用户搜索热词作为热词。

可选地，该方法还包括：将获得的各个用户在应用商店的操作轨迹存储至关系型数据库(Mysql)中。

其中，Hadoop根据存储在Mysql中的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序；包括：

Hadoop采用大数据统计功能对各个用户在应用商店的操作轨迹进行检索并统计用户搜索的各个关键词及其搜索次数；

Hadoop在统计出的各个关键词中获取由大到小的预设个数个关键词作为预设个数个用户搜索热词。

其中，手动录入热词是应用商店的服务器的管理员根据自身的经验输入的热词，且其手动录入热词的个数也由其自身决定。

需要说明的是，手动录入热词更好的保证了应用商店的搜索性能。

其中，当热词包括网页热词和手动录入热词时，获取预设个数个热词包括：

采用网络爬虫程序获取预设网页的资源；

在获得的各个网页热词中获取由大到小的预设个数个网页热词以及将应用商店的服务器的管理员根据自身的经验输入的手动录入热词作为热词。

其中，当热词包括用户搜索热词和手动录入热词时，获取预设个数个热词包括：

获取各个用户在应用商店的操作轨迹；

在确定出的各个用户搜索热词中获取由大到小的预设个数个用户搜索热词以及将应用商店的服务器的管理员根据自身的经验输入的手动录入热词作为热词。

其中，当热词包括网页热词、用户搜索热词和手动录入热词时，获取预设个数个热词包括：

采用网络爬虫程序获取预设网页的资源；

获取各个用户在应用商店的操作轨迹；

在获得的各个网页热词中获取由大到小的预设个数个网页热词、在确定出的各个用户搜索热词中获取由大到小的预设个数个用户搜索热词以及将应用商店的服务器的管理员根据自身的经验输入的手动录入热词作为热词。

可选地，热词还包括除通过以上获取方式之外的其它方式获取的热词，此处不再赘述，并不用来限制本申请。

如图2所示，为本发明分词库来源的示意图。

步骤102：将获得的热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库。

其中，搜索引擎是全文搜索引擎(Lucene)；搜索引擎中的第一分词库是Lucene中的原生分词库。

可选地，在步骤101之后，在步骤102之前，该方法还包括：将获得的上述热词存储至分布式文档存储数据库(MongoDB)中。

需要说明的是，因为上述步骤是周期性的业务，所以在下一周期执行到步骤102时，本周期生成的第二分词库则被当做下一周期搜索引擎的原生分词库。

其中，将获得的上述热词存储至MongoDB中包括：在MongoDB中创建一个MongoDB类型的文件；

将获得的上述热词写入创建的MongoDB类型的文件中。

步骤103：根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。

其中，步骤103具体包括：

获取搜索引擎中的第一分词库对应的第一索引；

根据搜索引擎中的第二分词库采用覆盖增量模式对获得的搜索引擎中的第一分词库对应的第一索引进行更新。

需要说明的是，此处的覆盖增量模式是指建立与第二分词库中新增加的分词对应的索引并将新建立的索引添加至第一索引中。增量覆盖模式可保障在更新的过程中，确保应用商店的搜索功能的可用性。

本发明实施方式中，通过将获得的预设个数个热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库以及根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构，避免了无法识别网络热词的弊端，从而提升了应用商店的搜索、使用性能，增强了用户体验。

图3为本发明实施例整合搜索引擎中的第二分词库的示意图，如图3所示，包括：

步骤301：开始。

步骤302：存储在Mysql中的各个用户在应用商店的操作轨迹。

本步骤具体包括：通过应用商店的服务器获取各个用户在应用商店的操作轨迹；

将获得的各个用户在应用商店的操作轨迹存储在Mysql中。

步骤303：Hadoop根据操作轨迹确定出排序前500的用户搜索热词。

本步骤具体包括：Hadoop采用大数据统计功能对各个用户在应用商店的操作轨迹进行检索并统计用户搜索的各个关键词及其搜索次数；

Hadoop在统计出的各个关键词中获取搜索次数由大到小的500个关键词作为排序前500的用户搜索热词。

步骤304：应用商店的服务器的管理员根据自身的经验手动录入热词。

步骤305：采用网络爬虫程序获取预设网页的资源。

步骤306：将获得的预设网页的资源存储在HDFS中。

步骤307：Hadoop确定出排序前500的网络热词。

本步骤具体包括：获取预设网页的资源中所包含的各个网页热词及其自身的排序；

在获得的各个网页热词中获取由大到小的500个网页热词作为排序前500的网络热词。

步骤308：将分词存储至分布式文档存储数据库(MongoDB)中。

本步骤具体包括：

在MongoDB中创建一MongoDB类型的文件；

将手动录入热词、排序前500的网络热词、排序前500的网络热词存储至创建的MongoDB类型的文件中。

步骤309：对MongoDB中的分词和Lucene中的原生分词库进行排重。

需要说明的是，本申请中的排重即去重。

步骤310：根据排重后的分词库对应用资源进行索引重构。

需要说明的是，如何根据排重后的分词库对应用资源进行索引重构属于本领域技术人员所熟知的惯用技术手段，此处不再赘述。

步骤311：结束。

图4为本发明优化分词库的方法的实施例的流程图，如图4所示，周期性执行以下步骤，包括：

步骤401：采用网络爬虫程序获取预设网页的资源。

步骤402：将获得的预设网页的资源存储在分布式文件系统(HDFS)中。

步骤403：根据获得的预设网页的资源获取预设个数个网页热词。

步骤403具体包括：

步骤404：获取各个用户在应用商店的操作轨迹。

步骤405：将获得的各个用户在应用商店的操作轨迹存储至关系型数据库(Mysql)中。

步骤406：根据获得的各个用户在应用商店的操作轨迹获取预设个数个用户搜索热词。

步骤406具体包括：根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序；

步骤407：获取手动录入热词。

步骤408：将获得的预设个数个网页热词、预设个数个用户搜索热词和手动录入热词存储至分布式文档存储数据库(MongoDB)中。

本步骤具体包括：

在MongoDB中创建一MongoDB类型的文件；

将获得的预设个数个网页热词、预设个数个用户搜索热词和手动录入热词存储至创建的MongoDB类型的文件中。

步骤409：将预设个数个网页热词、预设个数个用户搜索热词和手动录入热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库。

需要说明的是，因为上述步骤是周期性的业务，所以在下一周期执行到步骤409时，本周期生成的第二分词库则被当做下一周期搜索引擎的原生分词库。

步骤410：根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。

其中，步骤410具体包括：

获取搜索引擎中的第一分词库对应的第一索引；

图5为本发明优化分词库的装置的结构示意图，如图5所示，包括：获取模块50、处理模块51和重构模块52。其中，

获取模块50，用于获取预设个数个热词。

其中，当热词包括网页热词时，获取模块50具体用于：

采用网络爬虫程序获取预设网页的资源；

在获得的各个网页热词中获取由大到小的预设个数个网页热词作为热词。

可选地，获取模块50，还用于将获得的预设网页的资源存储在分布式文件系统(HDFS)中。

其中，获取模块50通过分布式系统基础架构(Hadoop)对获得的预设网页的资源进行大数据分析以获取各个网页热词的排序；包括：

Hadoop确定HDFS中存储的一个或一个以上的预设网页的资源中所包含的多个网页热词以及每个网络热词的使用次数；

Hadoop根据确定出的每个网络热词的使用次数确定各个网页热词的排序。

其中，当热词包括用户搜索热词时，获取模块50具体用于：

获取各个用户在应用商店的操作轨迹；

可选地，获取模块50，还用于将获得的各个用户在应用商店的操作轨迹存储至关系型数据库(Mysql)中。

其中，当热词包括网页热词和用户搜索热词时，获取模块50具体用于：

采用网络爬虫程序获取预设网页的资源；

获取各个用户在应用商店的操作轨迹；

其中，当热词包括网页热词、用户搜索热词和手动录入热词时，获取模块50具体用于：

采用网络爬虫程序获取预设网页的资源；

获取各个用户在应用商店的操作轨迹；

处理模块51，用于将获得的上述热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库。

其中，搜索引擎中的第一分词库是搜索引擎中的原生分词库。

重构模块52，用于根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。

其中，重构模块52，具体用于：

获取搜索引擎中的第一分词库对应的第一索引；

可选地，该装置还包括更新模块53，用于将获得的上述热词存储至分布式文档存储数据库(MongoDB)中。

其中，更新模块53，具体用于

用于在MongoDB中创建一个MongoDB文件；

将搜索引擎中的第二分词库写入创建的MongoDB文件中。

可选地，上述装置可以设置在应用商店的服务器中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种优化分词库的方法，其特征在于，包括：

获取预设个数个热词；

2.根据权利要求1所述的方法，其特征在于，所述热词包括：网页热词，和/或用户搜索热词，和/或手动录入热词。

3.根据权利要求2所述的方法，其特征在于，当所述热词包括网页热词时，所述获取预设个数个热词包括：

采用网络爬虫程序获取预设网页的资源；

4.根据权利要求2所述的方法，其特征在于，当所述热词包括用户搜索热词时，所述获取预设个数个热词包括：

获取各个用户在应用商店的操作轨迹；

5.根据权利要求1所述的方法，其特征在于，所述根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构包括：

获取所述搜索引擎中的第一分词库对应的第一索引；

6.一种优化分词库的装置，其特征在于，包括：获取模块、处理模块和重构模块；其中，

获取模块，用于获取预设个数个热词；

7.根据权利要求6所述的装置，其特征在于，所述热词包括：网页热词，和/或用户搜索热词，和/或手动录入热词。

8.根据权利要求7所述的装置，其特征在于，当所述热词包括网页热词时，所述获取模块具体用于：

采用网络爬虫程序获取预设网页的资源；

9.根据权利要求7所述的装置，其特征在于，当所述热词包括用户搜索热词时，所述获取模块具体用于：

获取各个用户在应用商店的操作轨迹；

10.根据权利要求6所述的装置，其特征在于，所述重构模块，具体用于：

获取所述搜索引擎中的第一分词库对应的第一索引；