CN105824976A - 一种优化分词库的方法和装置 - Google Patents

一种优化分词库的方法和装置 Download PDF

Info

Publication number
CN105824976A
CN105824976A CN201610251202.2A CN201610251202A CN105824976A CN 105824976 A CN105824976 A CN 105824976A CN 201610251202 A CN201610251202 A CN 201610251202A CN 105824976 A CN105824976 A CN 105824976A
Authority
CN
China
Prior art keywords
hot word
search engine
user
webpage
participle storehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610251202.2A
Other languages
English (en)
Inventor
邹炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nubia Technology Co Ltd
Original Assignee
Nubia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nubia Technology Co Ltd filed Critical Nubia Technology Co Ltd
Priority to CN201610251202.2A priority Critical patent/CN105824976A/zh
Publication of CN105824976A publication Critical patent/CN105824976A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本文公布一种优化分词库的方法和装置,该方法包括:获取预设个数个热词;将获得的热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库;根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。本发明实施例避免了无法识别网络热词的弊端,从而提升了应用商店的搜索、使用性能,增强了用户体验。

Description

一种优化分词库的方法和装置
技术领域
本发明实施例涉及但不限于大数据技术,尤指一种优化分词库的方法和装置。
背景技术
对于应用商店这类型的产品而言,具有搜索功能的搜索引擎是必不可少的重要组成部分之一。搜索功能的好坏,是评估一个应用商店易用性高低的核心指标,例如,用户在应用商店搜索框内连续输入若干个关键词均无法定位到目标应用,这样会导致用户体验极差。
目前,大部分的应用商店的搜索功能是基于全文搜索引擎(Lucene)或Lucene的衍生产品开发而成的。其中,Lucene中的原生分词库存储在分布式文档存储数据库(MongoDB)中的MongoDB文件中,Lucene中有原生分词库,其中,Lucene中的原生分词库与应用商店的应用资源之间对应于一个索引,且应用商店的服务器会对Lucene中的原生分词库会进行更新,当Lucene中的原生分词库更新后,应用商店的服务器需要对更新后的Lucene中的原生分词库对应的索引进行索引重构。
由于Lucene是Apache(Web服务器软件)上的一款开源搜索引擎,所以对中文的分词处理不好,尽管相关技术已对分词库进行了补充优化的补救措施,如IKAnalyze(一个开源的,基于java语言开发的轻量级的中文分词工具包),但是其更新缓慢,且由于不同语言之间的差异导致了对当前的很多网络热词无法识别,所以对于搜索、使用性能的提升并不明显,用户体验也有待提升。
发明内容
本申请提供了一种优化分词库的方法和装置,能够避免无法识别网络热词的弊端,从而提升应用商店的搜索、使用性能,增强用户体验。
为了达到本申请目的,本申请提供了一种优化分词库的方法,包括:
获取预设个数个热词;
将获得的热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库;
根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。
可选地,所述热词包括:网页热词,和/或用户搜索热词,和/或手动录入热词。
可选地,当所述热词包括网页热词时,所述获取预设个数个热词包括:
采用网络爬虫程序获取预设网页的资源;
获取所述预设网页的资源中所包含的各个网页热词及其自身的排序;
在获得的各个网页热词中获取由大到小的所述预设个数个网页热词作为所述热词。
可选地,当所述热词包括用户搜索热词时,所述获取预设个数个热词包括:
获取各个用户在应用商店的操作轨迹;
根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;
在确定出的各个用户搜索热词中获取由大到小的所述预设个数个用户搜索热词作为所述热词。
可选地,该方法还包括:将获得的所述热词存储至分布式文档存储数据库。
可选地,所述将获得的所述热词存储至分布式文档存储数据库具体包括:在所述分布式文档存储数据库中创建一个分布式文档存储数据库类型的文件;
将获得的所述分词写入创建的分布式文档存储数据库类型的文件中。
可选地,所述根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构包括:
获取所述搜索引擎中的第一分词库对应的第一索引;
根据所述搜索引擎中的第二分词库采用覆盖增量模式对获得的所述搜索引擎中的第一分词库对应的第一索引进行更新。
本申请还提供了一种优化分词库的装置,包括:获取模块、处理模块和重构模块;其中,
获取模块,用于获取预设个数个热词;
处理模块,用于将获得的热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库;
重构模块,用于根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。
可选地,所述热词包括:网页热词,和/或用户搜索热词,和/或手动录入热词。
可选地,当所述热词包括网页热词时,所述获取模块具体用于:
采用网络爬虫程序获取预设网页的资源;
获取所述预设网页的资源中所包含的各个网页热词及其自身的排序;
在获得的各个网页热词中获取由大到小的所述预设个数个网页热词作为所述热词。
可选地,当所述热词包括用户搜索热词时,所述获取模块具体用于:
获取各个用户在应用商店的操作轨迹;
根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;
在确定出的各个用户搜索热词中获取由大到小的所述预设个数个用户搜索热词作为所述热词。
可选地,该装置还包括更新模块,用于将获得的所述热词存储至分布式文档存储数据库。
可选地,所述更新模块,具体用于在所述分布式文档存储数据库中创建一个分布式文档存储数据库类型的文件;
将获得的所述分词写入创建的分布式文档存储数据库类型的文件中。
可选地,所述重构模块,具体用于:
获取所述搜索引擎中的第一分词库对应的第一索引;
根据所述搜索引擎中的第二分词库采用覆盖增量模式对获得的所述搜索引擎中的第一分词库对应的第一索引进行更新。
本发明实施例包括:获取预设个数个热词;将获得的热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库;根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。本发明实施例避免了无法识别网络热词的弊端,从而提升了应用商店的搜索、使用性能,增强了用户体验。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明优化分词库的方法的流程图;
图2为本发明分词库来源的示意图;
图3为本发明整合搜索引擎中的第二分词库的示意图;
图4为本发明优化分词库的方法的实施例的流程图;
图5为本发明优化分词库的装置的结构示意图。
具体实施方式
下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
图1为本发明优化分词库的方法的流程图,如图1所示,周期性的执行以下步骤:
步骤101:获取预设个数个热词。
其中,热词包括:网页热词,和/或用户搜索热词,和/或手动录入热词。
其中,预设个数可以是一个由系统设定的默认值,如500,1000;也可以由应用商店的服务器的管理员(或运营人员)进行设定。
其中,当热词包括网页热词时,获取预设个数个热词包括:
采用网络爬虫程序获取预设网页的资源;
获取预设网页的资源中所包含的各个网页热词及其自身的排序;
在获得的各个网页热词中获取由大到小的预设个数个网页热词作为热词。其中,预设网页包括如新浪微博热词页面、百度搜索热词页面等等。
可选地,该方法还包括:将获得的预设网页的资源存储在分布式文件系统(HDFS)中。
其中,通过分布式系统基础架构(Hadoop)获取预设网页的资源中所包含的各个网页热词及其自身的排序;包括:
Hadoop采用大数据统计功能确定HDFS中存储的一个或一个以上的预设网页的资源中所包含的多个网页热词以及每个网络热词的使用次数;
Hadoop根据确定出的每个网络热词的使用次数确定各个网页热词的排序。需要说明的是,关于如何通过Hadoop确定多个网页热词以及每个网络热词的使用次数,属于本领域技术人员所熟知的惯用技术手段,此处不再赘述,并不用来限制本发明。例如,Hadoop对HDFS上的网页资源进行增量大数据统计分析,根据网页中已有的网络热词排行和词语出现的频率,结合一定的计算权重(此处的权重可以由管理人员进行设定,属于本领域的惯用技术手段,此处不再赘述),重新整合成一份得分从高到低的网络热词的排行榜(排序)。
其中,当热词包括用户搜索热词时,获取预设个数个热词包括:
获取各个用户在应用商店的操作轨迹;
根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;
在确定出的各个用户搜索热词中获取由大到小的预设个数个用户搜索热词作为热词。
其中,当热词包括网页热词和用户搜索热词时,获取预设个数个热词包括:
采用网络爬虫程序获取预设网页的资源;
获取预设网页的资源中所包含的各个网页热词及其自身的排序;以及,
获取各个用户在应用商店的操作轨迹;
根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;
在获得的各个网页热词中获取由大到小的预设个数个网页热词以及在确定出的各个用户搜索热词中获取由大到小的预设个数个用户搜索热词作为热词。
可选地,该方法还包括:将获得的各个用户在应用商店的操作轨迹存储至关系型数据库(Mysql)中。
其中,Hadoop根据存储在Mysql中的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;包括:
Hadoop采用大数据统计功能对各个用户在应用商店的操作轨迹进行检索并统计用户搜索的各个关键词及其搜索次数;
Hadoop在统计出的各个关键词中获取由大到小的预设个数个关键词作为预设个数个用户搜索热词。
其中,手动录入热词是应用商店的服务器的管理员根据自身的经验输入的热词,且其手动录入热词的个数也由其自身决定。
需要说明的是,手动录入热词更好的保证了应用商店的搜索性能。
其中,当热词包括网页热词和手动录入热词时,获取预设个数个热词包括:
采用网络爬虫程序获取预设网页的资源;
获取预设网页的资源中所包含的各个网页热词及其自身的排序;
在获得的各个网页热词中获取由大到小的预设个数个网页热词以及将应用商店的服务器的管理员根据自身的经验输入的手动录入热词作为热词。
其中,当热词包括用户搜索热词和手动录入热词时,获取预设个数个热词包括:
获取各个用户在应用商店的操作轨迹;
根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;
在确定出的各个用户搜索热词中获取由大到小的预设个数个用户搜索热词以及将应用商店的服务器的管理员根据自身的经验输入的手动录入热词作为热词。
其中,当热词包括网页热词、用户搜索热词和手动录入热词时,获取预设个数个热词包括:
采用网络爬虫程序获取预设网页的资源;
获取预设网页的资源中所包含的各个网页热词及其自身的排序;以及,
获取各个用户在应用商店的操作轨迹;
根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;
在获得的各个网页热词中获取由大到小的预设个数个网页热词、在确定出的各个用户搜索热词中获取由大到小的预设个数个用户搜索热词以及将应用商店的服务器的管理员根据自身的经验输入的手动录入热词作为热词。
可选地,热词还包括除通过以上获取方式之外的其它方式获取的热词,此处不再赘述,并不用来限制本申请。
如图2所示,为本发明分词库来源的示意图。
步骤102:将获得的热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库。
其中,搜索引擎是全文搜索引擎(Lucene);搜索引擎中的第一分词库是Lucene中的原生分词库。
可选地,在步骤101之后,在步骤102之前,该方法还包括:将获得的上述热词存储至分布式文档存储数据库(MongoDB)中。
需要说明的是,因为上述步骤是周期性的业务,所以在下一周期执行到步骤102时,本周期生成的第二分词库则被当做下一周期搜索引擎的原生分词库。
其中,将获得的上述热词存储至MongoDB中包括:在MongoDB中创建一个MongoDB类型的文件;
将获得的上述热词写入创建的MongoDB类型的文件中。
步骤103:根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。
其中,步骤103具体包括:
获取搜索引擎中的第一分词库对应的第一索引;
根据搜索引擎中的第二分词库采用覆盖增量模式对获得的搜索引擎中的第一分词库对应的第一索引进行更新。
需要说明的是,此处的覆盖增量模式是指建立与第二分词库中新增加的分词对应的索引并将新建立的索引添加至第一索引中。增量覆盖模式可保障在更新的过程中,确保应用商店的搜索功能的可用性。
本发明实施方式中,通过将获得的预设个数个热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库以及根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构,避免了无法识别网络热词的弊端,从而提升了应用商店的搜索、使用性能,增强了用户体验。
图3为本发明实施例整合搜索引擎中的第二分词库的示意图,如图3所示,包括:
步骤301:开始。
步骤302:存储在Mysql中的各个用户在应用商店的操作轨迹。
本步骤具体包括:通过应用商店的服务器获取各个用户在应用商店的操作轨迹;
将获得的各个用户在应用商店的操作轨迹存储在Mysql中。
步骤303:Hadoop根据操作轨迹确定出排序前500的用户搜索热词。
本步骤具体包括:Hadoop采用大数据统计功能对各个用户在应用商店的操作轨迹进行检索并统计用户搜索的各个关键词及其搜索次数;
Hadoop在统计出的各个关键词中获取搜索次数由大到小的500个关键词作为排序前500的用户搜索热词。
步骤304:应用商店的服务器的管理员根据自身的经验手动录入热词。
步骤305:采用网络爬虫程序获取预设网页的资源。
步骤306:将获得的预设网页的资源存储在HDFS中。
步骤307:Hadoop确定出排序前500的网络热词。
本步骤具体包括:获取预设网页的资源中所包含的各个网页热词及其自身的排序;
在获得的各个网页热词中获取由大到小的500个网页热词作为排序前500的网络热词。
步骤308:将分词存储至分布式文档存储数据库(MongoDB)中。
本步骤具体包括:
在MongoDB中创建一MongoDB类型的文件;
将手动录入热词、排序前500的网络热词、排序前500的网络热词存储至创建的MongoDB类型的文件中。
步骤309:对MongoDB中的分词和Lucene中的原生分词库进行排重。
需要说明的是,本申请中的排重即去重。
步骤310:根据排重后的分词库对应用资源进行索引重构。
需要说明的是,如何根据排重后的分词库对应用资源进行索引重构属于本领域技术人员所熟知的惯用技术手段,此处不再赘述。
步骤311:结束。
图4为本发明优化分词库的方法的实施例的流程图,如图4所示,周期性执行以下步骤,包括:
步骤401:采用网络爬虫程序获取预设网页的资源。
步骤402:将获得的预设网页的资源存储在分布式文件系统(HDFS)中。
步骤403:根据获得的预设网页的资源获取预设个数个网页热词。
其中,预设个数可以是一个由系统设定的默认值,如500,1000;也可以由应用商店的服务器的管理员(或运营人员)进行设定。
步骤403具体包括:
获取预设网页的资源中所包含的各个网页热词及其自身的排序;
在获得的各个网页热词中获取由大到小的预设个数个网页热词作为热词。其中,预设网页包括如新浪微博热词页面、百度搜索热词页面等等。
其中,通过分布式系统基础架构(Hadoop)获取预设网页的资源中所包含的各个网页热词及其自身的排序;包括:
Hadoop采用大数据统计功能确定HDFS中存储的一个或一个以上的预设网页的资源中所包含的多个网页热词以及每个网络热词的使用次数;
Hadoop根据确定出的每个网络热词的使用次数确定各个网页热词的排序。需要说明的是,关于如何通过Hadoop确定多个网页热词以及每个网络热词的使用次数,属于本领域技术人员所熟知的惯用技术手段,此处不再赘述,并不用来限制本发明。例如,Hadoop对HDFS上的网页资源进行增量大数据统计分析,根据网页中已有的网络热词排行和词语出现的频率,结合一定的计算权重(此处的权重可以由管理人员进行设定,属于本领域的惯用技术手段,此处不再赘述),重新整合成一份得分从高到低的网络热词的排行榜(排序)。
步骤404:获取各个用户在应用商店的操作轨迹。
步骤405:将获得的各个用户在应用商店的操作轨迹存储至关系型数据库(Mysql)中。
步骤406:根据获得的各个用户在应用商店的操作轨迹获取预设个数个用户搜索热词。
步骤406具体包括:根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;
在获得的各个网页热词中获取由大到小的预设个数个网页热词以及在确定出的各个用户搜索热词中获取由大到小的预设个数个用户搜索热词作为热词。
其中,Hadoop根据存储在Mysql中的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;包括:
Hadoop采用大数据统计功能对各个用户在应用商店的操作轨迹进行检索并统计用户搜索的各个关键词及其搜索次数;
Hadoop在统计出的各个关键词中获取由大到小的预设个数个关键词作为预设个数个用户搜索热词。
步骤407:获取手动录入热词。
其中,手动录入热词是应用商店的服务器的管理员根据自身的经验输入的热词,且其手动录入热词的个数也由其自身决定。
需要说明的是,手动录入热词更好的保证了应用商店的搜索性能。
步骤408:将获得的预设个数个网页热词、预设个数个用户搜索热词和手动录入热词存储至分布式文档存储数据库(MongoDB)中。
本步骤具体包括:
在MongoDB中创建一MongoDB类型的文件;
将获得的预设个数个网页热词、预设个数个用户搜索热词和手动录入热词存储至创建的MongoDB类型的文件中。
步骤409:将预设个数个网页热词、预设个数个用户搜索热词和手动录入热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库。
其中,搜索引擎是全文搜索引擎(Lucene);搜索引擎中的第一分词库是Lucene中的原生分词库。
需要说明的是,因为上述步骤是周期性的业务,所以在下一周期执行到步骤409时,本周期生成的第二分词库则被当做下一周期搜索引擎的原生分词库。
步骤410:根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。
其中,步骤410具体包括:
获取搜索引擎中的第一分词库对应的第一索引;
根据搜索引擎中的第二分词库采用覆盖增量模式对获得的搜索引擎中的第一分词库对应的第一索引进行更新。
需要说明的是,此处的覆盖增量模式是指建立与第二分词库中新增加的分词对应的索引并将新建立的索引添加至第一索引中。增量覆盖模式可保障在更新的过程中,确保应用商店的搜索功能的可用性。
图5为本发明优化分词库的装置的结构示意图,如图5所示,包括:获取模块50、处理模块51和重构模块52。其中,
获取模块50,用于获取预设个数个热词。
其中,热词包括:网页热词,和/或用户搜索热词,和/或手动录入热词。
其中,当热词包括网页热词时,获取模块50具体用于:
采用网络爬虫程序获取预设网页的资源;
获取预设网页的资源中所包含的各个网页热词及其自身的排序;
在获得的各个网页热词中获取由大到小的预设个数个网页热词作为热词。
可选地,获取模块50,还用于将获得的预设网页的资源存储在分布式文件系统(HDFS)中。
其中,获取模块50通过分布式系统基础架构(Hadoop)对获得的预设网页的资源进行大数据分析以获取各个网页热词的排序;包括:
Hadoop确定HDFS中存储的一个或一个以上的预设网页的资源中所包含的多个网页热词以及每个网络热词的使用次数;
Hadoop根据确定出的每个网络热词的使用次数确定各个网页热词的排序。
其中,当热词包括用户搜索热词时,获取模块50具体用于:
获取各个用户在应用商店的操作轨迹;
根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;
在确定出的各个用户搜索热词中获取由大到小的预设个数个用户搜索热词作为热词。
可选地,获取模块50,还用于将获得的各个用户在应用商店的操作轨迹存储至关系型数据库(Mysql)中。
其中,当热词包括网页热词和用户搜索热词时,获取模块50具体用于:
采用网络爬虫程序获取预设网页的资源;
获取预设网页的资源中所包含的各个网页热词及其自身的排序;以及,
获取各个用户在应用商店的操作轨迹;
根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;
在获得的各个网页热词中获取由大到小的预设个数个网页热词以及在确定出的各个用户搜索热词中获取由大到小的预设个数个用户搜索热词作为热词。
其中,当热词包括网页热词、用户搜索热词和手动录入热词时,获取模块50具体用于:
采用网络爬虫程序获取预设网页的资源;
获取预设网页的资源中所包含的各个网页热词及其自身的排序;以及,
获取各个用户在应用商店的操作轨迹;
根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;
在获得的各个网页热词中获取由大到小的预设个数个网页热词、在确定出的各个用户搜索热词中获取由大到小的预设个数个用户搜索热词以及将应用商店的服务器的管理员根据自身的经验输入的手动录入热词作为热词。
处理模块51,用于将获得的上述热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库。
其中,搜索引擎中的第一分词库是搜索引擎中的原生分词库。
重构模块52,用于根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。
其中,重构模块52,具体用于:
获取搜索引擎中的第一分词库对应的第一索引;
根据搜索引擎中的第二分词库采用覆盖增量模式对获得的搜索引擎中的第一分词库对应的第一索引进行更新。
可选地,该装置还包括更新模块53,用于将获得的上述热词存储至分布式文档存储数据库(MongoDB)中。
其中,更新模块53,具体用于
用于在MongoDB中创建一个MongoDB文件;
将搜索引擎中的第二分词库写入创建的MongoDB文件中。
可选地,上述装置可以设置在应用商店的服务器中。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种优化分词库的方法,其特征在于,包括:
获取预设个数个热词;
将获得的热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库;
根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。
2.根据权利要求1所述的方法,其特征在于,所述热词包括:网页热词,和/或用户搜索热词,和/或手动录入热词。
3.根据权利要求2所述的方法,其特征在于,当所述热词包括网页热词时,所述获取预设个数个热词包括:
采用网络爬虫程序获取预设网页的资源;
获取所述预设网页的资源中所包含的各个网页热词及其自身的排序;
在获得的各个网页热词中获取由大到小的所述预设个数个网页热词作为所述热词。
4.根据权利要求2所述的方法,其特征在于,当所述热词包括用户搜索热词时,所述获取预设个数个热词包括:
获取各个用户在应用商店的操作轨迹;
根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;
在确定出的各个用户搜索热词中获取由大到小的所述预设个数个用户搜索热词作为所述热词。
5.根据权利要求1所述的方法,其特征在于,所述根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构包括:
获取所述搜索引擎中的第一分词库对应的第一索引;
根据所述搜索引擎中的第二分词库采用覆盖增量模式对获得的所述搜索引擎中的第一分词库对应的第一索引进行更新。
6.一种优化分词库的装置,其特征在于,包括:获取模块、处理模块和重构模块;其中,
获取模块,用于获取预设个数个热词;
处理模块,用于将获得的热词与搜索引擎中的第一分词库进行排重处理以生成该搜索引擎中的第二分词库;
重构模块,用于根据生成的该搜索引擎中的第二分词库对应用资源进行索引重构。
7.根据权利要求6所述的装置,其特征在于,所述热词包括:网页热词,和/或用户搜索热词,和/或手动录入热词。
8.根据权利要求7所述的装置,其特征在于,当所述热词包括网页热词时,所述获取模块具体用于:
采用网络爬虫程序获取预设网页的资源;
获取所述预设网页的资源中所包含的各个网页热词及其自身的排序;
在获得的各个网页热词中获取由大到小的所述预设个数个网页热词作为所述热词。
9.根据权利要求7所述的装置,其特征在于,当所述热词包括用户搜索热词时,所述获取模块具体用于:
获取各个用户在应用商店的操作轨迹;
根据获得的各个用户在应用商店的操作轨迹确定各个用户搜索热词以及其自身的排序;
在确定出的各个用户搜索热词中获取由大到小的所述预设个数个用户搜索热词作为所述热词。
10.根据权利要求6所述的装置,其特征在于,所述重构模块,具体用于:
获取所述搜索引擎中的第一分词库对应的第一索引;
根据所述搜索引擎中的第二分词库采用覆盖增量模式对获得的所述搜索引擎中的第一分词库对应的第一索引进行更新。
CN201610251202.2A 2016-04-20 2016-04-20 一种优化分词库的方法和装置 Pending CN105824976A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610251202.2A CN105824976A (zh) 2016-04-20 2016-04-20 一种优化分词库的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610251202.2A CN105824976A (zh) 2016-04-20 2016-04-20 一种优化分词库的方法和装置

Publications (1)

Publication Number Publication Date
CN105824976A true CN105824976A (zh) 2016-08-03

Family

ID=56527241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610251202.2A Pending CN105824976A (zh) 2016-04-20 2016-04-20 一种优化分词库的方法和装置

Country Status (1)

Country Link
CN (1) CN105824976A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180084A (zh) * 2017-05-05 2017-09-19 上海木爷机器人技术有限公司 词库更新方法及装置
CN110309504A (zh) * 2019-05-23 2019-10-08 平安科技(深圳)有限公司 基于分词的文本处理方法、装置、设备及存储介质
CN111488736A (zh) * 2020-03-31 2020-08-04 上海七印信息科技有限公司 自学习分词方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853746A (zh) * 2012-12-01 2014-06-11 上海斐讯数据通信技术有限公司 词库生成方法及其系统、输入法及输入系统
US8825669B2 (en) * 2011-01-06 2014-09-02 Korea Advanced Institute Of Science And Technology Mobile application search method and system using human activity knowledge database
CN104239321A (zh) * 2013-06-14 2014-12-24 高德软件有限公司 一种面向搜索引擎的数据处理方法及装置
CN104504045A (zh) * 2014-12-18 2015-04-08 国家电网公司 一种基于电力客户地址分词检索的gis定位分析系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8825669B2 (en) * 2011-01-06 2014-09-02 Korea Advanced Institute Of Science And Technology Mobile application search method and system using human activity knowledge database
CN103853746A (zh) * 2012-12-01 2014-06-11 上海斐讯数据通信技术有限公司 词库生成方法及其系统、输入法及输入系统
CN104239321A (zh) * 2013-06-14 2014-12-24 高德软件有限公司 一种面向搜索引擎的数据处理方法及装置
CN104504045A (zh) * 2014-12-18 2015-04-08 国家电网公司 一种基于电力客户地址分词检索的gis定位分析系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180084A (zh) * 2017-05-05 2017-09-19 上海木爷机器人技术有限公司 词库更新方法及装置
CN107180084B (zh) * 2017-05-05 2020-04-21 上海木木聚枞机器人科技有限公司 词库更新方法及装置
CN110309504A (zh) * 2019-05-23 2019-10-08 平安科技(深圳)有限公司 基于分词的文本处理方法、装置、设备及存储介质
CN110309504B (zh) * 2019-05-23 2023-10-31 平安科技(深圳)有限公司 基于分词的文本处理方法、装置、设备及存储介质
CN111488736A (zh) * 2020-03-31 2020-08-04 上海七印信息科技有限公司 自学习分词方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US11907244B2 (en) Modifying field definitions to include post-processing instructions
US11119834B2 (en) Artificial creation of dominant sequences that are representative of logged events
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
EP2973041B1 (en) Apparatus, systems, and methods for batch and realtime data processing
US11023500B2 (en) Systems and methods for code parsing and lineage detection
AU2018253478B2 (en) Testing insecure computing environments using random data sets generated from characterizations of real data sets
CN110362727B (zh) 用于搜索系统的第三方搜索应用
Baldominos et al. A scalable machine learning online service for big data real-time analysis
US10089294B2 (en) Systems and methods for tracking and modifying actions in an action history
Kagdi et al. Who can help me with this change request?
CN102945240A (zh) 一种支持分布式计算的关联规则挖掘算法实现方法及装置
JP6966158B2 (ja) 検索データを処理するための方法、装置及びプログラム
JP6363682B2 (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
US8489643B1 (en) System and method for automated content aggregation using knowledge base construction
CN110706015A (zh) 一种面向广告点击率预测的特征选取方法
CN105824976A (zh) 一种优化分词库的方法和装置
US10223086B2 (en) Systems and methods for code parsing and lineage detection
US10339148B2 (en) Cross-platform computer application query categories
JP6748474B2 (ja) 意思決定支援システムおよび意思決定支援方法
Das et al. Adaptive web personalization system using splay tree
US20230016697A1 (en) Dynamic recommendations for resolving static code issues
US20190294534A1 (en) Program usability performance classification
Chen Reducing web page complexity to facilitate effective user navigation
JP2019159362A (ja) 探索プログラムおよび探索方法
Chernishev et al. Desbordante: from benchmarking suite to high-performance science-intensive data profiler (preprint)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160803