CN104462051B

CN104462051B - 分词方法及装置

Info

Publication number: CN104462051B
Application number: CN201310415761.9A
Authority: CN
Inventors: 程刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2013-09-12
Filing date: 2013-09-12
Publication date: 2018-10-02
Anticipated expiration: 2033-09-12
Also published as: CN104462051A

Abstract

本发明实施例公开了一种分词方法及装置，属于数据处理领域。其中所述方法包括：获取一段时间内词在不同搜索领域中被搜索的次数，根据被搜索的次数计算出词的统计分数；根据词的长度计算出词的长度分数；根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典；获取待分词的句子，将待分词的句子与分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为待分词的句子的分词结果。本发明通过采用对海量用户的搜索行为进行统计并建立精准的分词词典进行分词的方式，从而能够快速、准确地对句子进行分词。

Description

分词方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种分词方法及装置。

背景技术

随着互联网的普遍应用，面向互联网进行搜索逐渐成为了人们获取信息的主要方式。分词技术作为搜索引擎中的一项重要的基础技术，近年来受到了人们的广泛关注，分词技术的好坏将直接影响搜索质量的好坏。所谓分词，就是将句子切分成一个一个单独的词。是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例，分词技术的目标就是将一句话切分为一个一个单独的中文词语。而将句子切分为单独的词，是实现机器识别人类语言的第一步，因此分词技术至关重要。

现有的分词方法主要包括以下三种：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

基于字符串匹配的分词方法又称为机械分词方法。这种方法是按照一定的策略将待分析的汉字串与机器词典中的词条进行匹配，若在词典中找到某个词，则匹配成功(识别出一个词)。按照扫描方向的不同，字符串匹配方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的标准，又可以分为最大(最长)匹配和最小(最短)匹配。但是采用此方法进行分词，其分词过程较为粗糙，只能识别词典中已经收录的词条，词条名称众多，无法完全收录，导致得到的分词结果不够准确，降低了分词准确度。

基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。基于这种分词方法开发的分词系统通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段，即采用此种方法还不能有效地进行分词。

基于统计的分词方法的原理为：从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大，计算复杂性太高，导致切分效率降低，再加上受制于有限的训练语料库，分词辨识精度也较低。

发明内容

本发明提供一种分词方法及装置，以解决现有的方法分词精度低等问题。

具体地，本发明实施例提供了一种分词方法，所述分词方法，包括：获取一段时间内词在不同搜索领域中被搜索的次数，根据被搜索的次数计算出词的统计分数；根据词的长度计算出词的长度分数；根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典；获取待分词的句子，将所述待分词的句子与所述分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为所述待分词的句子的分词结果。

另外，本发明实施例提供了一种分词装置，所述分词装置，包括：统计分数获取模块、长度分数获取模块、词典生成模块以及分词模块，统计分数获取模块，用于获取一段时间内词在不同搜索领域中被搜索的次数，根据被搜索的次数计算出词的统计分数；长度分数获取模块，用于根据词的长度计算出词的长度分数；词典生成模块，用于根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典；分词模块，用于获取待分词的句子，将待分词的句子与分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为待分词的句子的分词结果。

本发明实施例提供的技术方案带来的有益效果是：

通过根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典，还将待分词的句子与分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为待分词的句子的分词结果。解决了现有的方法分词精度低等问题，采用本发明对海量用户的搜索行为进行统计并建立精准的分词词典进行分词的方式，能够分出较完整表达用户意思的短词。分出的词和传统的分到的单元词不同。而是分到能够比单元词更完整的表达用户的单元词的组合或者可以独立表达用户意图意思的单元词。从而能够快速、准确地对句子进行分词。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明一个实施例提供的分词方法的流程图；

图2是本发明另一个实施例提供的分词方法的流程图；

图3是本发明又一个实施例提供的分词方法的流程图；

图4是本发明又一个实施例提供的分词方法的流程图；

图5是本发明一个实施例提供的分词装置的主要架构框图；

图6是本发明另一个实施例提供的分词装置的主要架构框图；

图7是本发明又一个实施例提供的分词装置的主要架构框图；

图8是本发明又一个实施例提供的分词装置的主要架构框图；

图9是一种终端的结构框图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的分词方法及装置其具体实施方式、结构、特征及功效，详细说明如后。

有关本发明的前述及其他技术内容、特点及功效，在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明，当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。

第一实施例

请参考图1，其示出了本发明一个实施例提供的分词方法的流程图。该方法可以由分词装置所执行的分词过程；分词装置可以运行在终端、服务器等设备上，所述分词方法，可包括以下步骤101-107：

步骤101，获取一段时间内词在不同搜索领域中被搜索的次数，根据被搜索的次数计算出词的统计分数。

搜索领域可以包括网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、电子商务搜索领域等。垂直搜索是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合。垂直搜索领域包括音乐搜索领域、图片搜索领域、视频搜索领域等。网页搜索领域可以为搜索的网站页面，例如百度、谷歌，雅虎等网站页面。社区搜索领域可以为交流信息的场所，例如天涯论坛、新浪论坛等社区网站。微博，即微型博客(MicroBlog)的简称，是一个基于用户关系信息分享、传播以及获取平台，例如新浪微博，腾讯微博等。音乐搜索领域可以为提供音乐的网站，例如百度音乐等。视频搜索领域可以为提供视频的网站，例如优酷、土豆等视频网站。图片搜索领域可以为提供图片的网站，例如百度图片等。电子商务搜索领域可以提供商贸活动的网站，例如淘宝、阿里巴巴等网站。

词的统计分数的一种计算方法可以为在不同搜索领域中被搜索的次数之和，当然，在本发明实施例中，词的统计分数也可以根据实际需要而采用其它的计算方法。

步骤103，根据词的长度计算出词的长度分数。

词的长度分数的一种计算方法可以等于词的长度，当然，在本发明实施例中，词的长度分数也可以根据实际需要而为词的长度的函数。

步骤105，根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典。

词的分值可以等于词的统计分数和长度分数之和。当然，在本发明实施例中，词的分值也可以根据实际需要而采用其它的计算方法。分词词典中包括每个词和词的对应分值。

步骤107，获取待分词的句子，将待分词的句子与分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为待分词的句子的分词结果。

综上所述，本实施例提供的分词方法，通过根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典，还将待分词的句子与分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为待分词的句子的分词结果。解决了现有的方法分词精度低等问题，采用本发明对海量用户的搜索行为进行统计并建立精准的分词词典进行分词的方式，能够分出较完整表达用户意思的短词。分出的词和传统的分到的单元词不同。而是分到能够比单元词更完整的表达用户意思的单元词的组合或者可以独立表达用户意图的单元词。从而能够快速、准确地对句子进行分词。

第二实施例

请参考图2，其示出了本发明另一个实施例提供的分词方法的流程图。图2是在图1的基础上改进而来的。该方法可以由分词装置所执行的分词过程；分词装置可以运行在终端、服务器等设备上，所述分词方法，可包括以下步骤201-209：

步骤201，获取一段时间内词在不同搜索领域中被搜索的次数。

优选地，步骤201中，获取一段时间内词在不同搜索领域中被搜索的次数，包括：

根据一段时间内词x在网页搜索领域中被搜索的次数web(x)的计算公式得到一段时间内词x在网页搜索领域中被搜索的次数，一段时间内词x在网页搜索领域中被搜索的次数web(x)的一种计算方法可以为一段时间内(例如过去n天内)词x在网页搜索领域中被搜索的次数的累加，具体计算公式如下：

其中，Qi(x)为第i个单位时间段内(例如第i天)在网页搜索领域中词x被搜索的次数，i、n1为大于等于1的整数。

如果考虑词x的热度，则web(x)的计算公式可以为：

其中，Qi(x)为第i个单位时间段内词x在网页搜索领域中被搜索的次数，Q为当前时间的前一个单位时间段内词x在网页搜索领域中被搜索的次数，m1为热度参数，例如m1取值为7可以表示统计范围为一周内词x的热度，m1、n1为大于0的整数，m1小于n1，a1、b1为权值，a1+b1＝1。Q和Qi(x)可以是词x在网页搜索领域中被搜索的原始次数，也可以是将原始次数进行处理后得到的数值，例如将原始次数进行转正态分布后得到的数值。

根据一段时间内词x在社区搜索领域中被搜索的次数social(x)的计算公式得到一段时间内词x在社区搜索领域中被搜索的次数，一段时间内词x在社区搜索领域中被搜索的次数social(x)的一种计算方法可以为一段时间内(例如过去n天内)词x在社区搜索领域中被搜索的次数的累加，具体计算公式如下：

其中，Si(x)为第i个单位时间段内(例如第i天)在社区搜索领域中词x被搜索的次数，i、n2为大于等于1的整数。

如果考虑词x的热度，则social(x)的计算公式可以为：其中，Si(x)为第i个单位时间段内词x在社区搜索领域中被搜索的次数，S为当前时间的前一个单位时间段内词x在社区搜索领域中被搜索的次数，m2为热度参数，例如m1取值为7可以表示统计范围为一周内词x的热度，m2、n2为大于0的整数，m2小于n2，a2、b2为权值，a2+b2＝1。S和Si(x)可以是词x在社区搜索领域中被搜索的原始次数，也可以是将原始次数进行处理后得到的数值，例如将原始次数进行转正态分布后得到的数值。

根据一段时间内词x在微博搜索领域中被搜索的次数weibo(x)的计算公式得到一段时间内词x在微博搜索领域中被搜索的次数，一段时间内词x在微博搜索领域中被搜索的次数weibo(x)的一种计算方法可以为一段时间内(例如过去n天内)词x在微博搜索领域中被搜索的次数的累加，具体计算公式如下：

其中，Ri(x)为第i个单位时间段内(例如第i天)在微博搜索领域中词x被搜索的次数，i、n3为大于等于1的整数。

如果考虑词x的热度，则weibo(x)的计算公式可以为：其中，Ri(x)为第i个单位时间段内词x在微博搜索领域中被搜索的次数，R为当前时间的前一个单位时间段内词x在微博搜索领域中被搜索的次数，m3为热度参数，例如m1取值为7可以表示统计范围为一周内词x的热度，m3、n3为大于0的整数，m3小于n3，a3、b3为权值，a3+b3＝1。Q和Qi(x)可以是词x在微博搜索领域中被搜索的原始次数，也可以是将原始次数进行处理后得到的数值，例如将原始次数进行转正态分布后得到的数值。

根据一段时间内词x在垂直搜索领域中被搜索的次数vert(x)的计算公式得到一段时间内词x在垂直搜索领域中被搜索的次数，一段时间内词x在音乐、视频、图片等垂直搜索领域中被搜索的次数vert(x)的一种计算方法可以为一段时间内(例如过去n天内)词x被搜索的次数的累加，具体计算公式如下：

其中，Vi(x)为第i个单位时间内(例如第i天)词x被搜索的次数，i、n4为大于等于1的整数。

如果考虑词x的热度，则vert(x)的计算公式可以为：其中，Vi(x)表示第i个单位时间段内词x在垂直搜索领域中被搜索的次数，V为当前时间的前一个单位时间段内词x在垂直搜索领域中被搜索的次数，m4为热度参数，例如m1取值为7可以表示统计范围为一周内词x的热度，m4、n4为大于0的整数，m4小于n4，a4、b4为权值，a4+b4＝1。V和Vi(x)可以是词x在垂直搜索领域中被搜索的原始次数，也可以是将原始次数进行处理后得到的数值，例如将原始次数进行转正态分布后得到的数值。

根据一段时间内词x在电子商务搜索领域中被搜索的次数trade(x)的计算公式得到一段时间内词x在电子商务搜索领域中被搜索的次数，一段时间内词x在电子商务搜索领域中被搜索的次数trade(x)的一种计算方法可以为一段时间内(例如过去n天内)词x被搜索的次数的累加，具体计算公式如下：

其中，Ti(x)为第i个单位时间内(例如第i天)在电子商务搜索领域中词x被搜索的次数，i、n5为大于等于1的整数。

如果考虑词x的热度，则trade(x)的计算公式可以为：Ti(x)为第i个单位时间段内词x在电子商务搜索领域中被搜索的次数，T为当前时间的前一个单位时间段内词x在电子商务搜索领域中被搜索的次数，m5为热度参数，例如m1取值为7可以表示统计范围为一周内词x的热度，m5、n5为大于0的整数，m5小于n5，a5、b5为权值，a5+b5＝1。T和Ti(x)可以是词x在电子商务搜索领域中被搜索的原始次数，也可以是将原始次数进行处理后得到的数值，例如将原始次数进行转正态分布后得到的数值。

步骤203，根据被搜索的次数得到词的统计分数的计算公式，根据词的统计分数的计算公式计算出词的统计分数。

词的统计分数的计算公式可以为：

f(x)＝w1*web(x)+w2*social(x)+w3*weibo(x)+w4*vert(x)+w5*trade(x)，

其中，x为词，f(x)为词x的统计分数，web(x)为一段时间内词x在网页搜索领域中被搜索的次数，social(x)为一段时间内词x在社区搜索领域中被搜索的次数，weibo(x)为一段时间内词x在微博搜索领域中被搜索的次数，vert(x)为一段时间内词x在音乐、视频、图片等垂直搜索领域中被搜索的次数，trade(x)为一段时间内词x在电子商务搜索领域中被搜索的次数。w1、w2、w3、w4、w5为权值，w1+w2+w3+w4+w5＝1。

在具体实现时，可以为web(x)、weibo(x)、social(x)vert(x)、trade(x)设置不相等的权值，或者，为便于计算，可以为web(x)、weibo(x)、social(x)vert(x)、trade(x)设置相等的权值，均不影响本发明实施例的实现。web(x)、weibo(x)、social(x)、vert(x)、trade(x)的详细计算方法在步骤201中已做了描述，此处不再赘述。

步骤205，根据词的长度计算出词的长度分数。

步骤207，根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典。

词的分值可以等于词的统计分数和长度分数之和。当然，在本发明实施例中，词的分值也可以根据实际需要而采用其它的计算方法。

分词词典中包括每个词和词的对应分值。

步骤209，获取待分词的句子，将待分词的句子与分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为待分词的句子的分词结果。

将分值高的分词结果作为待分词的句子的分词结果，即若待分词的句子与分词词典中的多个词相匹配时，则优先将待分词的句子拆分为分值高的词。下面对句子“X之子#宝马撞人一案，昨日在京开庭审理”进行分词为例进行说明，将上述句子与分词词典中的词进行匹配时，上述句子与分词词典中的词相匹配后得到的分词结果可以是{X，之，子，#，宝马，撞，人，一，案，昨日，在，京，开庭，审理}、{X之子，#，宝马，撞，人，一，案，昨日，在，京，开庭，审理}等多种分词结果中的任意一种，从上述分词结果可以看出，句子中的“X之子”存在两种可能的分词结果，即{X，之，子}或{X之子}。由于“X之子#宝马撞人”在互联网上是关注度很高的热门事件，因此，步骤203中在计算词的统计分数时，词“X之子”的统计分数f(x)会比较高，但其出现的次数一定会小于“X”(后者包含前者)，如果考虑热度，则统计分数f(X之子)会有一个相对高的取值，同时考虑了长度分数，词“X之子”相对于词“X”会比较长，因此，采用本方案会将“X之子”作为一个长词不进行拆分。

具体地，假设词“X”在过去n天被搜索的次数经过统计分数计算公式(未考虑词的热度)计算之后取值是0.8，考虑词的热度后计算得到的统计分数为2.4，词“X之子”在过去n天被搜索的次数经过统计分数计算公式(未考虑词的热度)计算之后取值是0.5，考虑词的热度后计算得到的统计分数为2.0。假设权值A、B取值分别为A＝0.7，B＝0.3，c取值为1，假设符号“X”和“#”均代表3个汉字的人名，而一个汉字等于2个字节，则根据步骤207中的词的分值的计算公式可以得到词“X”的分值为fin_score(X)＝0.7*2.4+0.3*6＝3.48，词“X之子”的分值为fin_score(X之子)＝0.7*2.0+0.3*10＝4.40。4.40>3.48，因此，在对“X之子”进行分词时，得到的词仍是“X之子”。

从上述的方法可以看出，本发明采用了按照根据统计分数和长度分数得到的高分值优先的策略进行分词。

综上所述，本实施例提供的分词方法，还通过考虑词的热度，对统计分数进行计算。由于本发明在分词时考虑了词的热度，从而能够根据一定时期内用户的需求进行动态的分词，更能满足用户的分词需求，给用户带来使用上的方便。

第三实施例

请参考图3，其示出了本发明又一个实施例提供的分词方法的流程图。该方法可以由分词装置所执行的分词过程；分词装置可以运行在终端、服务器等设备上，其与图2所示的分词方法相似，其不同之处在于，图2的步骤205具体可以包括：步骤301-303。

步骤301，得到词的长度分数的计算公式可以为：

其中，g(x)为词x的长度分数，length(x)为词x的长度，c为参数，c可以根据权重取值方法，即按照对词的长度的相关度，而取任意数值，可以大于0，也可以小于0。例如若需要词的长度的相关性较高，c可以取值为1，若需要词的长度的相关性相对低一些，c可以取大于1的其它数值。

步骤303，根据词的长度分数的计算公式计算出词的长度分数。

综上所述，本实施例提供的分词方法，还通过根据实际需要确定的词的长度分数计算公式而得到词的长度，从而可以根据实际需要而动态选择长度分数的计算公式，方便使用。

第四实施例

请参考图4，其示出了本发明又一个实施例提供的分词方法的流程图。该方法可以由分词装置所执行的分词过程；分词装置可以运行在终端、服务器等设备上，其与图3所示的分词方法相似，其不同之处在于，还包括：图3的步骤207具体可以包括：步骤401-405。

步骤401，确定词的分值的计算公式，词x的分值的计算公式可以为：

Fin_score(x)＝A*f(x)+B*g(x)，其中，Fin_score(x)为词x的分值，f(x)为词x的统计分数，是在不同领域中被搜索次数的函数(其具体计算方法已在步骤203中作了详细描述)，g(x)为词的长度分数(其具体计算方法已在步骤205中作了详细说明)，是词x的长度的函数。A和B为权值，A、B>0且A+B＝1。

步骤403，根据词的分值的计算公式得到词的分值。

步骤405，由词和词的分值生成分词词典。

分词词典中包括每个词和词的对应分值。

综上所述，本实施例提供的分词方法，还通过根据实际需要确定的词的分值的计算公式而得到词的分值，从而可以根据实际需要而动态选择词的分值的计算公式，方便使用。

以下为本发明的装置实施例，在装置实施例中未详尽描述的细节，可以参考上述对应的方法实施例。

第五实施例

请参考图5，其示出了本发明一个实施例提供的分词装置的主要架构框图。所述分词装置，包括：统计分数获取模块501、长度分数获取模块503、词典生成模块505以及分词模块507。

具体地，统计分数获取模块501，用于获取一段时间内词在不同搜索领域中被搜索的次数，根据被搜索的次数计算出词的统计分数。

搜索领域可以包括网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、或电子商务搜索领域中的至少一个，垂直搜索领域可以包括音乐搜索领域、图片搜索领域、视频搜索领域等。

长度分数获取模块503，用于根据词的长度计算出词的长度分数。

词典生成模块505，用于根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典。

分词模块507，用于获取待分词的句子，将待分词的句子与分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为待分词的句子的分词结果。

综上所述，本实施例提供的分词装置，通过根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典，还将待分词的句子与分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为待分词的句子的分词结果。解决了现有的方法分词精度低等问题，采用本发明对海量用户的搜索行为进行统计并建立精准的分词词典进行分词的方式，能够分出较完整表达用户意思的短词。分出的词和传统的分到的单元词不同。而是分到能够比单元词更完整的表达用户意思的单元词的组合或者可以独立表达用户意图的单元词。从而能够快速、准确地对句子进行分词。

第六实施例

请参考图6，其示出了本发明另一个实施例提供的分词装置的主要架构框图。其与图5所示的分词装置相似，其不同之处在于，所述统计分数获取模块501，可以包括：次数获取模块601、统计分数计算公式确定模块603及统计分数计算模块605，所述次数获取模块601，可以包括：网页搜索次数获取模块607、社区搜索次数获取模块609、微博搜索次数获取模块611、垂直搜索次数获取模块613、以及电子商务搜索次数获取模块615。

次数获取模块601，用于获取一段时间内词在网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、电子商务搜索领域中被搜索的次数。

统计分数计算公式确定模块603，用于根据被搜索的次数得到词的统计分数的计算公式为f(x)＝w1*web(x)+w2*social(x)+w3*weibo(x)+w4*vert(x)+w5*trade(x)；其中，f(x)为词x的统计分数，web(x)为一段时间内词x在网页搜索领域中被搜索的次数，social(x)为一段时间内词x在社区搜索领域中被搜索的次数，weibo(x)为一段时间内词x在微博搜索领域中被搜索的次数，vert(x)为一段时间内词x在垂直搜索领域中被搜索的次数，trade(x)为一段时间内词x在电子商务搜索领域中被搜索的次数，w1、w2、w3、w4、w5为权值，w1+w2+w3+w4+w5＝1。

统计分数计算模块605，用于通过词的统计分数的计算公式计算出词的统计分数。

网页搜索次数获取模块607，用于根据一段时间内词x在网页搜索领域中被搜索的次数web(x)的计算公式得到一段时间内词x在网页搜索领域中被搜索的次数，如果考虑词的热度，则web(x)的计算公式为：

其中，Qi(x)为第i个单位时间段内词x在网页搜索领域中被搜索的次数，Q为当前时间的前一个单位时间段内词x在网页搜索领域中被搜索的次数，m1为热度参数，m1、n1为大于0的整数，m1小于n1，a1、b1为权值，a1+b1＝1。

社区搜索次数获取模块609，用于根据一段时间内词x在社区搜索领域中被搜索的次数social(x)的计算公式得到一段时间内词x在社区搜索领域中被搜索的次数，如果考虑词的热度，则social(x)的计算公式为：其中，Si(x)为第i个单位时间段内词x在社区搜索领域中被搜索的次数，S为当前时间的前一个单位时间段内词x在社区搜索领域中被搜索的次数，m2为热度参数，m2、n2为大于0的整数，m2小于n2，a2、b2为权值，a2+b2＝1。

微博搜索次数获取模块611，用于根据一段时间内词x在微博搜索领域中被搜索的次数weibo(x)的计算公式得到一段时间内词x在微博搜索领域中被搜索的次数，如果考虑词的热度，则weibo(x)的计算公式为：其中，Ri(x)为第i个单位时间段内词x在微博搜索领域中被搜索的次数，R为当前时间的前一个单位时间段内词x在微博搜索领域中被搜索的次数，m3为热度参数，m3、n3为大于0的整数，m3小于n3，a3、b3为权值，a3+b3＝1。

垂直搜索次数获取模块611，用于根据一段时间内词x在垂直搜索领域中被搜索的次数vert(x)的计算公式得到一段时间内词x在垂直搜索领域中被搜索的次数，如果考虑词的热度，则vert(x)的计算公式为：其中，Vi(x)表示第i个单位时间段内词x在垂直搜索领域中被搜索的次数，V为当前时间的前一个单位时间段内词x在垂直搜索领域中被搜索的次数，m4为热度参数，m4、n4为大于0的整数，m4小于n4，a4、b4为权值，a4+b4＝1。

电子商务搜索次数获取模块613，用于根据一段时间内词x在电子商务搜索领域中被搜索的次数trade(x)的计算公式得到一段时间内词x在电子商务搜索领域中被搜索的次数，如果考虑词的热度，则trade(x)的计算公式为：Ti(x)为第i个单位时间段内词x在电子商务搜索领域中被搜索的次数，T为当前时间的前一个单位时间段内词x在电子商务搜索领域中被搜索的次数，m5为热度参数，m5、n5为大于0的整数，m5小于n5，a5、b5为权值，a5+b5＝1。

综上所述，本实施例提供的分词装置，还通过考虑词的热度，对统计分数进行计算。由于本发明在分词时考虑了词的热度，从而能够根据一定时期内用户的需求进行动态的分词，更能满足用户的分词需求，给用户带来使用上的方便。

第七实施例

请参考图7，其示出了本发明又一个实施例提供的分词装置的主要架构框图。其与图6所示的分词装置相似，其不同之处在于，所述长度分数获取模块503，可以包括：长度分数公式确定模块701、以及长度分数计算模块703。

长度分数公式确定模块701，用于得到词的长度分数的计算公式为：其中，g(x)为词x的长度分数，length(x)为词x的长度，c为参数；

长度分数计算模块703，用于根据词的长度分数的计算公式计算出词的长度分数。

综上所述，本实施例提供的分词装置，还通过根据实际需要确定的词的长度分数计算公式而得到词的长度，从而可以根据实际需要而动态选择长度分数的计算公式，方便使用。

第八实施例

请参考图8，其示出了本发明又一个实施例提供的分词装置的主要架构框图。其与图7所示的分词装置相似，其不同之处在于，所述词典生成模块505，可以包括：分值计算公式确定模块801以及分值计算模块803。

分值计算公式确定模块801，用于确定词的分值的计算公式为Fin_score(x)＝A*f(x)+B*g(x)，其中，Fin_score(x)为词x的分值，f(x)为词x的统计分数，g(x)为词的长度分数，A、B为权值，A、B>0且A+B＝1。

分值计算模块803，用于根据词的分值的计算公式得到词的分值。

综上所述，本实施例提供的分词装置，还通过根据实际需要确定的词的分值的计算公式而得到词的分值，从而可以根据实际需要而动态选择词的分值的计算公式，方便使用。

第九实施例

请参考图9，其示出了一种终端的结构框图。如图9所示，以分词装置运行在终端上作为示例，终端包括存储器902、存储控制器904，一个或多个(图中仅示出一个)处理器906、外设接口908、射频模块910、摄像模块914、音频模块916、触控屏幕918以及按键模块920。这些组件通过一条或多条通讯总线/信号线相互通讯。

可以理解，图9所示的结构仅为示意，终端还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。图9中所示的各组件可以采用硬件、软件或其组合实现。

存储器902可用于存储软件程序以及模块，如本发明实施例中的在终端内进行分词方法对应的程序指令/模块(例如，分词装置中的统计分数获取模块501、长度分数获取模块503、词典生成模块505以及分词模块507等)，处理器902通过运行存储在存储器904内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的在终端内进行分词方法。

存储器902可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器902可进一步包括相对于处理器906远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器906以及其他可能的组件对存储器902的访问可在存储控制器904的控制下进行。

外设接口908将各种输入/输入装置耦合至CPU以及存储器902。处理器906运行存储器902内的各种软件、指令以执行终端的各种功能以及进行数据处理。

在一些实施例中，外设接口908，处理器906以及存储控制器904可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

射频模块910用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。射频模块910可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。射频模块910可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术，包括但并不限于全球移动通信系统(Global System for Mobile Communication,GSM)、增强型移动通信技术(Enhanced Data GSM Environment,EDGE),宽带码分多址技术(wideband code divisionmultiple access,W-CDMA)，码分多址技术(Code division access,CDMA)、时分多址技术(time division multiple access,TDMA)，蓝牙，无线保真技术(Wireless,Fidelity，WiFi)(如美国电气和电子工程师协会标准IEEE 802.11a，IEEE 802.11b,IEEE802.11g和/或IEEE 802.11n)、网络电话(Voice over internet protocal,VoIP)、全球微波互联接入(Worldwide Interoperability for Microwave Access，Wi-Max)、其他用于邮件、即时通讯及短消息的协议，以及任何其他合适的通讯协议，甚至可包括那些当前仍未被开发出来的协议。

摄像模块914用于拍摄照片或者视频。拍摄的照片或者视频可以存储至存储器902内，并可通过射频模块910发送。

音频模块916向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。音频电路从外设接口908处接收声音数据，将声音数据转换为电信息，将电信息传输至扬声器。扬声器将电信息转换为人耳能听到的声波。音频电路还从麦克风处接收电信息，将电信号转换为声音数据，并将声音数据传输至外设接口908中以进行进一步的处理。音频数据可以从存储器902处或者通过射频模块910获取。此外，音频数据也可以存储至存储器902中或者通过射频模块910进行发送。在一些实例中，音频模块916还可包括一个耳机播孔，用于向耳机或者其他设备提供音频接口。

触控屏幕918在终端与用户之间同时提供一个输出及输入界面。具体地，触控屏幕918向用户显示视频输出，这些视频输出的内容可包括文字、图形、视频、及其任意组合。一些输出结果是对应于一些用户界面对象。触控屏幕918还接收用户的输入，例如用户的点击、滑动等手势操作，以便用户界面对象对这些用户的输入做出响应。检测用户输入的技术可以是基于电阻式、电容式或者其他任意可能的触控检测技术。触控屏幕918显示单元的具体实例包括但并不限于液晶显示器或发光聚合物显示器。

按键模块920同样提供用户向终端进行输入的接口，用户可以通过按下不同的按键以使终端执行不同的功能。

此外，本发明实施例还提供一种计算机可读存储介质，其内存储有计算机可执行指令，上述的计算机可读存储介质例如为非易失性存储器例如光盘、硬盘、或者闪存。上述的计算机可执行指令用于让计算机或者类似的运算装置完成上述的分词方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种分词方法，其特征在于，所述分词方法包括：

获取一段时间内词在不同搜索领域中被搜索的次数，根据所述被搜索的次数计算出词的统计分数；

根据词的长度计算出词的长度分数；

根据所述词的统计分数和所述长度分数得到词的分值，由词和词的分值生成分词词典；

获取待分词的句子，将所述待分词的句子与所述分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为所述待分词的句子的分词结果。

2.根据权利要求1所述的分词方法，其特征在于，所述搜索领域包括网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、或电子商务搜索领域中的至少一个，所述垂直搜索领域包括音乐搜索领域、图片搜索领域或视频搜索领域。

3.根据权利要求1所述的分词方法，其特征在于，获取一段时间内词在不同搜索领域中被搜索的次数，根据所述被搜索的次数计算出词的统计分数，包括：

获取一段时间内词在网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、电子商务搜索领域中被搜索的次数；

根据被搜索的次数得到词的统计分数的计算公式，根据词的统计分数的计算公式计算出词的统计分数，词的统计分数的计算公式为f(x)＝w1*web(x)+w2*social(x)+w3*weibo(x)+w4*vert(x)+w5*trade(x)；

其中，f(x)为词x的统计分数，web(x)为一段时间内词x在网页搜索领域中被搜索的次数，social(x)为一段时间内词x在社区搜索领域中被搜索的次数，weibo(x)为一段时间内词x在微博搜索领域中被搜索的次数，vert(x)为一段时间内词x在垂直搜索领域中被搜索的次数，trade(x)为一段时间内词x在电子商务搜索领域中被搜索的次数，w1、w2、w3、w4、w5为权值，w1+w2+w3+w4+w5＝1。

4.根据权利要求3所述的分词方法，其特征在于，获取一段时间内词在网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、电子商务搜索领域中被搜索的次数，包括：

根据一段时间内词x在网页搜索领域中被搜索的次数web(x)的计算公式得到一段时间内词x在网页搜索领域中被搜索的次数，如果考虑词的热度，则web(x)的计算公式为：

其中，Qi(x)为第i个单位时间段内词x在网页搜索领域中被搜索的次数，Q为当前时间的前一个单位时间段内词x在网页搜索领域中被搜索的次数，m1为热度参数，n1为天数，m1、n1为大于0的整数，m1小于n1，a1、b1为权值，a1+b1＝1；

根据一段时间内词x在社区搜索领域中被搜索的次数social(x)的计算公式得到一段时间内词x在社区搜索领域中被搜索的次数，如果考虑词的热度，则social(x)的计算公式为：

其中，Si(x)为第i个单位时间段内词x在社区搜索领域中被搜索的次数，S为当前时间的前一个单位时间段内词x在社区搜索领域中被搜索的次数，m2为热度参数，n2为天数，m2、n2为大于0的整数，m2小于n2，a2、b2为权值，a2+b2＝1；

根据一段时间内词x在微博搜索领域中被搜索的次数weibo(x)的计算公式得到一段时间内词x在微博搜索领域中被搜索的次数，如果考虑词的热度，则weibo(x)的计算公式为：

其中，Ri(x)为第i个单位时间段内词x在微博搜索领域中被搜索的次数，R为当前时间的前一个单位时间段内词x在微博搜索领域中被搜索的次数，m3为热度参数，n3为天数，m3、n3为大于0的整数，m3小于n3，a3、b3为权值，a3+b3＝1；

根据一段时间内词x在垂直搜索领域中被搜索的次数vert(x)的计算公式得到一段时间内词x在垂直搜索领域中被搜索的次数，如果考虑词的热度，则vert(x)的计算公式为：

其中，Vi(x)表示第i个单位时间段内词x在垂直搜索领域中被搜索的次数，V为当前时间的前一个单位时间段内词x在垂直搜索领域中被搜索的次数，m4为热度参数，n4为天数，m4、n4为大于0的整数，m4小于n4，a4、b4为权值，a4+b4＝1；

根据一段时间内词x在电子商务搜索领域中被搜索的次数trade(x)的计算公式得到一段时间内词x在电子商务搜索领域中被搜索的次数，如果考虑词的热度，则trade(x)的计算公式为：

Ti(x)为第i个单位时间段内词x在电子商务搜索领域中被搜索的次数，T为当前时间的前一个单位时间段内词x在电子商务搜索领域中被搜索的次数，m5为热度参数，n5为天数，m5、n5为大于0的整数，m5小于n5，a5、b5为权值，a5+b5＝1。

5.根据权利要求1所述的分词方法，其特征在于，根据词的长度计算出词的长度分数中，包括：

得到词的长度分数的计算公式为：其中，g(x)为词x的长度分数，length(x)为词x的长度，c为参数；

根据词的长度分数的计算公式计算出词的长度分数。

6.根据权利要求5所述的分词方法，其特征在于，根据所述词的统计分数和所述长度分数得到词的分值，包括：

确定词的分值的计算公式为Fin_score(x)＝A*f(x)+B*g(x)，其中，Fin_score(x)为词x的分值，f(x)为词x的统计分数，g(x)为词的长度分数，A、B为权值，A、B>0且A+B＝1；

根据词的分值的计算公式得到词的分值。

7.一种分词装置，其特征在于，所述分词装置，包括：

统计分数获取模块，用于获取一段时间内词在不同搜索领域中被搜索的次数，根据所述被搜索的次数计算出词的统计分数；

长度分数获取模块，用于根据词的长度计算出词的长度分数；

词典生成模块，用于根据所述词的统计分数和所述长度分数得到词的分值，由词和词的分值生成分词词典；

分词模块，用于获取待分词的句子，将所述待分词的句子与所述分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为所述待分词的句子的分词结果。

8.根据权利要求7所述的分词装置，其特征在于，所述搜索领域包括网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、或电子商务搜索领域中的至少一个，所述垂直搜索领域包括音乐搜索领域、图片搜索领域或视频搜索领域。

9.根据权利要求7所述的分词装置，其特征在于，所述统计分数获取模块，包括：

次数获取模块，用于获取一段时间内词在网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、电子商务搜索领域中被搜索的次数；

统计分数计算公式确定模块，用于根据被搜索的次数得到词的统计分数的计算公式为

f(x)＝w1*web(x)+w2*social(x)+w3*weibo(x)+w4*vert(x)+w5*trade(x)；其中，f(x)为词x的统计分数，web(x)为一段时间内词x在网页搜索领域中被搜索的次数，social(x)为一段时间内词x在社区搜索领域中被搜索的次数，weibo(x)为一段时间内词x在微博搜索领域中被搜索的次数，vert(x)为一段时间内词x在垂直搜索领域中被搜索的次数，trade(x)为一段时间内词x在电子商务搜索领域中被搜索的次数，w1、w2、w3、w4、w5为权值，w1+w2+w3+w4+w5＝1；

统计分数计算模块，用于通过词的统计分数的计算公式计算出词的统计分数。

10.根据权利要求9所述的分词装置，其特征在于，所述次数获取模块，包括：

网页搜索次数获取模块，用于根据一段时间内词x在网页搜索领域中被搜索的次数web(x)的计算公式得到一段时间内词x在网页搜索领域中被搜索的次数，如果考虑词的热度，则web(x)的计算公式为：

社区搜索次数获取模块，用于根据一段时间内词x在社区搜索领域中被搜索的次数social(x)的计算公式得到一段时间内词x在社区搜索领域中被搜索的次数，如果考虑词的热度，则social(x)的计算公式为：

微博搜索次数获取模块，用于根据一段时间内词x在微博搜索领域中被搜索的次数weibo(x)的计算公式得到一段时间内词x在微博搜索领域中被搜索的次数，如果考虑词的热度，则weibo(x)的计算公式为：

垂直搜索次数获取模块，用于根据一段时间内词x在垂直搜索领域中被搜索的次数vert(x)的计算公式得到一段时间内词x在垂直搜索领域中被搜索的次数，如果考虑词的热度，则vert(x)的计算公式为：

电子商务搜索次数获取模块，用于根据一段时间内词x在电子商务搜索领域中被搜索的次数trade(x)的计算公式得到一段时间内词x在电子商务搜索领域中被搜索的次数，如果考虑词的热度，则trade(x)的计算公式为：

11.根据权利要求7所述的分词装置，其特征在于，所述长度分数获取模块，还包括：

长度分数公式确定模块，用于得到词的长度分数的计算公式为：其中，g(x)为词x的长度分数，length(x)为词x的长度，c为参数；

长度分数计算模块，用于根据词的长度分数的计算公式计算出词的长度分数。

12.根据权利要求7所述的分词装置，其特征在于，所述词典生成模块，包括：

分值计算公式确定模块，用于确定词的分值的计算公式为Fin_score(x)＝A*f(x)+B*g(x)，其中，Fin_score(x)为词x的分值，f(x)为词x的统计分数，g(x)为词的长度分数，A、B为权值，A、B>0且A+B＝1；

分值计算模块，用于根据词的分值的计算公式得到词的分值。