CN104462051A - 分词方法及装置 - Google Patents

分词方法及装置 Download PDF

Info

Publication number
CN104462051A
CN104462051A CN201310415761.9A CN201310415761A CN104462051A CN 104462051 A CN104462051 A CN 104462051A CN 201310415761 A CN201310415761 A CN 201310415761A CN 104462051 A CN104462051 A CN 104462051A
Authority
CN
China
Prior art keywords
word
search
searched
period
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310415761.9A
Other languages
English (en)
Other versions
CN104462051B (zh
Inventor
程刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310415761.9A priority Critical patent/CN104462051B/zh
Publication of CN104462051A publication Critical patent/CN104462051A/zh
Application granted granted Critical
Publication of CN104462051B publication Critical patent/CN104462051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明实施例公开了一种分词方法及装置,属于数据处理领域。其中所述方法包括:获取一段时间内词在不同搜索领域中被搜索的次数,根据被搜索的次数计算出词的统计分数;根据词的长度计算出词的长度分数;根据词的统计分数和长度分数得到词的分值,由词和词的分值生成分词词典;获取待分词的句子,将待分词的句子与分词词典中的词进行匹配以得到多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为待分词的句子的分词结果。本发明通过采用对海量用户的搜索行为进行统计并建立精准的分词词典进行分词的方式,从而能够快速、准确地对句子进行分词。

Description

分词方法及装置
技术领域
[0001] 本发明涉及数据处理技术领域,特别涉及一种分词方法及装置。
背景技术
[0002] 随着互联网的普遍应用,面向互联网进行搜索逐渐成为了人们获取信息的主要方 式。分词技术作为搜索引擎中的一项重要的基础技术,近年来受到了人们的广泛关注,分词 技术的好坏将直接影响搜索质量的好坏。所谓分词,就是将句子切分成一个一个单独的词。 是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例,分词技 术的目标就是将一句话切分为一个一个单独的中文词语。而将句子切分为单独的词,是实 现机器识别人类语言的第一步,因此分词技术至关重要。
[0003] 现有的分词方法主要包括以下三种:基于字符串匹配的分词方法、基于理解的分 词方法和基于统计的分词方法。
[0004] 基于字符串匹配的分词方法又称为机械分词方法。这种方法是按照一定的策略将 待分析的汉字串与机器词典中的词条进行匹配,若在词典中找到某个词,则匹配成功(识别 出一个词)。按照扫描方向的不同,字符串匹配方法可以分为正向匹配和逆向匹配;按照不 同长度优先匹配的标准,又可以分为最大(最长)匹配和最小(最短)匹配。但是采用此方法 进行分词,其分词过程较为粗糙,只能识别词典中已经收录的词条,词条名称众多,无法完 全收录,导致得到的分词结果不够准确,降低了分词准确度。
[0005] 基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。 其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义 现象。基于这种分词方法开发的分词系统通常包括三个部分:分词子系统、句法语义子系 统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信 息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量 的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可 直接读取的形式,因此目前基于理解的分词系统还处在试验阶段,即采用此种方法还不能 有效地进行分词。
[0006] 基于统计的分词方法的原理为:从形式上看,词是稳定的字的组合,因此在上下文 中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或 概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统 计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字的相邻共现概率。互现信 息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组 可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又 叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现 频度高、但并不是词的常用字组,例如"这一"、"之一"、"有的"、"我的"、"许多的"等,并且对 常用词的识别精度差,时空开销大,计算复杂性太高,导致切分效率降低,再加上受制于有 限的训练语料库,分词辨识精度也较低。
发明内容
[0007] 本发明提供一种分词方法及装置,以解决现有的方法分词精度低等问题。
[0008] 具体地,本发明实施例提供了一种分词方法,所述分词方法,包括:获取一段时间 内词在不同搜索领域中被搜索的次数,根据被搜索的次数计算出词的统计分数;根据词的 长度计算出词的长度分数;根据词的统计分数和长度分数得到词的分值,由词和词的分值 生成分词词典;获取待分词的句子,将所述待分词的句子与所述分词词典中的词进行匹配 以得到多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为所述待分词的 句子的分词结果。
[0009] 另外,本发明实施例提供了一种分词装置,所述分词装置,包括:统计分数获取模 块、长度分数获取模块、词典生成模块以及分词模块,统计分数获取模块,用于获取一段时 间内词在不同搜索领域中被搜索的次数,根据被搜索的次数计算出词的统计分数;长度分 数获取模块,用于根据词的长度计算出词的长度分数;词典生成模块,用于根据词的统计分 数和长度分数得到词的分值,由词和词的分值生成分词词典;分词模块,用于获取待分词的 句子,将待分词的句子与分词词典中的词进行匹配以得到多个分词结果,计算各个分词结 果的分值,将分值高的分词结果作为待分词的句子的分词结果。
[0010] 本发明实施例提供的技术方案带来的有益效果是:
[0011] 通过根据词的统计分数和长度分数得到词的分值,由词和词的分值生成分词词 典,还将待分词的句子与分词词典中的词进行匹配以得到多个分词结果,计算各个分词结 果的分值,将分值高的分词结果作为待分词的句子的分词结果。解决了现有的方法分词精 度低等问题,采用本发明对海量用户的搜索行为进行统计并建立精准的分词词典进行分词 的方式,能够分出较完整表达用户意思的短词。分出的词和传统的分到的单元词不同。而 是分到能够比单元词更完整的表达用户的单元词的组合或者可以独立表达用户意图意思 的单元词。从而能够快速、准确地对句子进行分词。
[0012] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够 更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
[0013] 图1是本发明一个实施例提供的分词方法的流程图;
[0014] 图2是本发明另一个实施例提供的分词方法的流程图;
[0015] 图3是本发明又一个实施例提供的分词方法的流程图;
[0016] 图4是本发明又一个实施例提供的分词方法的流程图;
[0017] 图5是本发明一个实施例提供的分词装置的主要架构框图;
[0018] 图6是本发明另一个实施例提供的分词装置的主要架构框图;
[0019] 图7是本发明又一个实施例提供的分词装置的主要架构框图;
[0020] 图8是本发明又一个实施例提供的分词装置的主要架构框图;
[0021] 图9是一种终端的结构框图。
具体实施方式
[0022] 为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合 附图及较佳实施例,对依据本发明提出的分词方法及装置其具体实施方式、结构、特征及功 效,详细说明如后。
[0023] 有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实 施例详细说明中将可清楚的呈现。通过具体实施方式的说明,当可对本发明为达成预定目 的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说 明之用,并非用来对本发明加以限制。
[0024] 第一实施例
[0025] 请参考图1,其示出了本发明一个实施例提供的分词方法的流程图。该方法可以由 分词装置所执行的分词过程;分词装置可以运行在终端、服务器等设备上,所述分词方法, 可包括以下步骤101-107 :
[0026] 步骤101,获取一段时间内词在不同搜索领域中被搜索的次数,根据被搜索的次数 计算出词的统计分数。
[0027] 搜索领域可以包括网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、 电子商务搜索领域等。垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和 延伸,是对网页库中的某类专门的信息进行一次整合。垂直搜索领域包括音乐搜索领域、图 片搜索领域、视频搜索领域等。网页搜索领域可以为搜索的网站页面,例如百度、谷歌,雅虎 等网站页面。社区搜索领域可以为交流信息的场所,例如天涯论坛、新浪论坛等社区网站。 微博,即微型博客(MicroBlog)的简称,是一个基于用户关系信息分享、传播以及获取平台, 例如新浪微博,腾讯微博等。音乐搜索领域可以为提供音乐的网站,例如百度音乐等。视频 搜索领域可以为提供视频的网站,例如优酷、土豆等视频网站。图片搜索领域可以为提供 图片的网站,例如百度图片等。电子商务搜索领域可以提供商贸活动的网站,例如淘宝、阿 里巴巴等网站。
[0028] 词的统计分数的一种计算方法可以为在不同搜索领域中被搜索的次数之和,当 然,在本发明实施例中,词的统计分数也可以根据实际需要而采用其它的计算方法。
[0029] 步骤103,根据词的长度计算出词的长度分数。
[0030] 词的长度分数的一种计算方法可以等于词的长度,当然,在本发明实施例中,词的 长度分数也可以根据实际需要而为词的长度的函数。
[0031] 步骤105,根据词的统计分数和长度分数得到词的分值,由词和词的分值生成分词 词典。
[0032] 词的分值可以等于词的统计分数和长度分数之和。当然,在本发明实施例中,词的 分值也可以根据实际需要而采用其它的计算方法。分词词典中包括每个词和词的对应分 值。
[0033] 步骤107,获取待分词的句子,将待分词的句子与分词词典中的词进行匹配以得到 多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为待分词的句子的分词 结果。
[0034] 综上所述,本实施例提供的分词方法,通过根据词的统计分数和长度分数得到词 的分值,由词和词的分值生成分词词典,还将待分词的句子与分词词典中的词进行匹配以 得到多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为待分词的句子的 分词结果。解决了现有的方法分词精度低等问题,采用本发明对海量用户的搜索行为进行 统计并建立精准的分词词典进行分词的方式,能够分出较完整表达用户意思的短词。分出 的词和传统的分到的单元词不同。而是分到能够比单元词更完整的表达用户意思的单元词 的组合或者可以独立表达用户意图的单元词。从而能够快速、准确地对句子进行分词。
[0035] 第二实施例
[0036] 请参考图2,其示出了本发明另一个实施例提供的分词方法的流程图。图2是在 图1的基础上改进而来的。该方法可以由分词装置所执行的分词过程;分词装置可以运行 在终端、服务器等设备上,所述分词方法,可包括以下步骤201-209 :
[0037] 步骤201,获取一段时间内词在不同搜索领域中被搜索的次数。
[0038] 搜索领域可以包括网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、 电子商务搜索领域等。垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和 延伸,是对网页库中的某类专门的信息进行一次整合。垂直搜索领域包括音乐搜索领域、图 片搜索领域、视频搜索领域等。网页搜索领域可以为搜索的网站页面,例如百度、谷歌,雅虎 等网站页面。社区搜索领域可以为交流信息的场所,例如天涯论坛、新浪论坛等社区网站。 微博,即微型博客(MicroBlog)的简称,是一个基于用户关系信息分享、传播以及获取平台, 例如新浪微博,腾讯微博等。音乐搜索领域可以为提供音乐的网站,例如百度音乐等。视频 搜索领域可以为提供视频的网站,例如优酷、土豆等视频网站。图片搜索领域可以为提供图 片的网站,例如百度图片等。电子商务搜索领域可以提供商贸活动的网站,例如淘宝、阿里 巴巴等网站。
[0039] 优选地,步骤201中,获取一段时间内词在不同搜索领域中被搜索的次数,包括:
[0040] 根据一段时间内词X在网页搜索领域中被搜索的次数web(x)的计算公式得到一 段时间内词X在网页搜索领域中被搜索的次数,一段时间内词X在网页搜索领域中被搜索 的次数web (X)的一种计算方法可以为一段时间内(例如过去η天内)词X在网页搜索领域 中被搜索的次数的累加,具体计算公式如下:
[0041]
Figure CN104462051AD00091
实中,Qi(x)为第i个单位时间段内(例如第i天)在网页搜索 领域中词X被搜索的次数,i、nl为大于等于1的整数。
[0042] 如果考虑词X的热度,则web(x)的计算公式可以为:
Figure CN104462051AD00092
^其中,Qi (X)为第i个单位时间段内词X在网页搜索领域 中被搜索的次数,Q为当前时间的前一个单位时间段内词X在网页搜索领域中被搜索的次 数,ml为热度参数,例如ml取值为7可以表示统计范围为一周内词X的热度,ml、nl为大 于0的整数,ml小于nl,al、bl为权值,al+bl=l。Q和Qi (X)可以是词X在网页搜索领域 中被搜索的原始次数,也可以是将原始次数进行处理后得到的数值,例如将原始次数进行 转正态分布后得到的数值。
[0043] 根据一段时间内词X在社区搜索领域中被搜索的次数SOCial(X)的计算公式得到 一段时间内词X在社区搜索领域中被搜索的次数,一段时间内词X在社区搜索领域中被搜 索的次数social (X)的一种计算方法可以为一段时间内(例如过去η天内)词X在社区搜索 领域中被搜索的次数的累加,具体计算公式如下:
[0044]
Figure CN104462051AD00101
,其中,Si(X)为第i个单位时间段内(例如第i天)在社区搜 索领域中词X被搜索的次数,i、n2为大于等于1的整数。
[0045] 如果考虑词X的热度,则social (X)的计算公式可以为:SOCial(X)
Figure CN104462051AD00102
其中,Si (X)为第i个单位时间段内词X在社区搜索领域中被搜 索的次数,S为当前时间的前一个单位时间段内词X在社区搜索领域中被搜索的次数,m2为 热度参数,例如ml取值为7可以表示统计范围为一周内词X的热度,m2、n2为大于0的整 数,m2小于n2, a2、b2为权值,a2+b2=l。S和Si (X)可以是词X在社区搜索领域中被搜索 的原始次数,也可以是将原始次数进行处理后得到的数值,例如将原始次数进行转正态分 布后得到的数值。
[0046] 根据一段时间内词X在微博搜索领域中被搜索的次数weibo (X)的计算公式得到 一段时间内词X在微博搜索领域中被搜索的次数,一段时间内词X在微博搜索领域中被搜 索的次数weibo (X)的一种计算方法可以为一段时间内(例如过去η天内)词X在微博搜索 领域中被搜索的次数的累加,具体计算公式如下:
[0047]
Figure CN104462051AD00103
其中,Ri (X)为第i个单位时间段内(例如第i天)在微博搜 索领域中词X被搜索的次数,i、n3为大于等于1的整数。
[0048] 如果考虑词X的热度,则weibo (X)的计算公式可以为:
Figure CN104462051AD00104
其中,Ri (X)为第i个单位时间段内词X在微博搜索领 域中被搜索的次数,R为当前时间的前一个单位时间段内词X在微博搜索领域中被搜索的 次数,m3为热度参数,例如ml取值为7可以表示统计范围为一周内词X的热度,m3、n3为 大于0的整数,m3小于n3, a3、b3为权值,a3+b3=l。Q和Qi (X)可以是词X在微博搜索领 域中被搜索的原始次数,也可以是将原始次数进行处理后得到的数值,例如将原始次数进 行转正态分布后得到的数值。
[0049] 根据一段时间内词X在垂直搜索领域中被搜索的次数vert (X)的计算公式得到一 段时间内词X在垂直搜索领域中被搜索的次数,一段时间内词X在音乐、视频、图片等垂直 搜索领域中被搜索的次数vert (X)的一种计算方法可以为一段时间内(例如过去η天内)词 X被搜索的次数的累加,具体计算公式如下:
[0050]
Figure CN104462051AD00105
,其中,Vi(X)为第i个单位时间内(例如第i天)词X被搜索的 次数,i、n4为大于等于1的整数。
[0051] 如果考虑词X的热度,则vert (X)的计算公式可以为:vert
Figure CN104462051AD00111
其中,Vi (X)表示第i个单位时间段内词X在垂直搜索领域 中被搜索的次数,V为当前时间的前一个单位时间段内词X在垂直搜索领域中被搜索的次 数,m4为热度参数,例如ml取值为7可以表示统计范围为一周内词X的热度,m4、n4为大 于O的整数,m4小于n4, a4、b4为权值,a4+b4=l。V和Vi (X)可以是词X在垂直搜索领域 中被搜索的原始次数,也可以是将原始次数进行处理后得到的数值,例如将原始次数进行 转正态分布后得到的数值。
[0052] 根据一段时间内词X在电子商务搜索领域中被搜索的次数trade (X)的计算公式 得到一段时间内词X在电子商务搜索领域中被搜索的次数,一段时间内词X在电子商务搜 索领域中被搜索的次数trade (X)的一种计算方法可以为一段时间内(例如过去η天内)词 X被搜索的次数的累加,具体计算公式如下:
[0053]
Figure CN104462051AD00112
,其中,Ti(X)为第i个单位时间内(例如第i天)在电子商务 搜索领域中词X被搜索的次数,i、n5为大于等于1的整数。
[0054] 如果考虑词X的热度,则trade (X)的计算公式可以为:trade
Figure CN104462051AD00113
^ Ti (X)为第i个单位时间段内词X在电子商务搜索领域中被 搜索的次数,T为当前时间的前一个单位时间段内词X在电子商务搜索领域中被搜索的次 数,m5为热度参数,例如ml取值为7可以表示统计范围为一周内词X的热度,m5、n5为大 于0的整数,m5小于n5,a5、b5为权值,a5+b5=l。T和Ti(x)可以是词x在电子商务搜索 领域中被搜索的原始次数,也可以是将原始次数进行处理后得到的数值,例如将原始次数 进行转正态分布后得到的数值。
[0055] 步骤203,根据被搜索的次数得到词的统计分数的计算公式,根据词的统计分数 的计算公式计算出词的统计分数。
[0056] 词的统计分数的计算公式可以为:
[0057] f (X)=wl*web (X)+w2*social (X)+w3*weibo (X)+w4*vert (X)+w5*trade (X),
[0058] 其中,x为词,f(x)为词x的统计分数,web(x)为一段时间内词x在网页搜索领域 中被搜索的次数,social (X)为一段时间内词X在社区搜索领域中被搜索的次数,weibo (X) 为一段时间内词X在微博搜索领域中被搜索的次数,vert (X)为一段时间内词X在音乐、视 频、图片等垂直搜索领域中被搜索的次数,trade (X)为一段时间内词X在电子商务搜索领 域中被搜索的次数。wl、w2、w3、w4、w5为权值,wl+w2+w3+w4+w5=l。
[0059] 在具体实现时,可以为 web (X)、weibo (X)、social (X) vert (X)、trade (X)设置不相 等的权值,或者,为便于计算,可以为web (X)、weibo (X)、social (X) vert (X)、trade (X)设 置相等的权值,均不影响本发明实施例的实现。web (X)、weibo (X)、social (X)、vert (X)、 trade (X)的详细计算方法在步骤201中已做了描述,此处不再赘述。
[0060] 步骤205,根据词的长度计算出词的长度分数。
[0061] 词的长度分数的一种计算方法可以等于词的长度,当然,在本发明实施例中,词的 长度分数也可以根据实际需要而为词的长度的函数。
[0062] 步骤207,根据词的统计分数和长度分数得到词的分值,由词和词的分值生成分词 词典。
[0063] 词的分值可以等于词的统计分数和长度分数之和。当然,在本发明实施例中,词的 分值也可以根据实际需要而采用其它的计算方法。
[0064] 分词词典中包括每个词和词的对应分值。
[0065] 步骤209,获取待分词的句子,将待分词的句子与分词词典中的词进行匹配以得到 多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为待分词的句子的分词 结果。
[0066] 将分值高的分词结果作为待分词的句子的分词结果,即若待分词的句子与分词词 典中的多个词相匹配时,则优先将待分词的句子拆分为分值高的词。下面对句子"X之子# 宝马撞人一案,昨日在京开庭审理"进行分词为例进行说明,将上述句子与分词词典中的词 进行匹配时,上述句子与分词词典中的词相匹配后得到的分词结果可以是{X,之,子,#,宝 马,撞,人,一,案,昨日,在,京,开庭,审理}、{X之子,#,宝马,撞,人,一,案,昨日,在,京,开 庭,审理}等多种分词结果中的任意一种,从上述分词结果可以看出,句子中的"X之子"存 在两种可能的分词结果,即{X,之,子}或{X之子}。由于"X之子#宝马撞人"在互联网上 是关注度很高的热门事件,因此,步骤203中在计算词的统计分数时,词"X之子"的统计分 数f (X)会比较高,但其出现的次数一定会小于"X"(后者包含前者),如果考虑热度,则统计 分数f(X之子)会有一个相对高的取值,同时考虑了长度分数,词"X之子"相对于词"X"会 比较长,因此,采用本方案会将"X之子"作为一个长词不进行拆分。
[0067] 具体地,假设词"X"在过去η天被搜索的次数经过统计分数计算公式(未考虑词的 热度)计算之后取值是0. 8,考虑词的热度后计算得到的统计分数为2. 4,词"X之子"在过 去η天被搜索的次数经过统计分数计算公式(未考虑词的热度)计算之后取值是0. 5,考虑 词的热度后计算得到的统计分数为2. 0。假设权值Α、Β取值分别为A=O. 7, B=O. 3, c取值为 1,假设符号"X"和"#"均代表3个汉字的人名,而一个汉字等于2个字节,则根据步骤207 中的词的分值的计算公式可以得到词"X"的分值为fin_score (X)=O. 7*2. 4+0. 3*6=3. 48, 词 "X 之子"的分值为 f in_score (X 之子)=0· 7*2. 0+0· 3*10=4. 40。4· 40>3· 48,因此,在对 "X之子"进行分词时,得到的词仍是"X之子"。
[0068] 从上述的方法可以看出,本发明采用了按照根据统计分数和长度分数得到的高分 值优先的策略进行分词。
[0069] 综上所述,本实施例提供的分词方法,还通过考虑词的热度,对统计分数进行计 算。由于本发明在分词时考虑了词的热度,从而能够根据一定时期内用户的需求进行动态 的分词,更能满足用户的分词需求,给用户带来使用上的方便。
[0070] 第三实施例
[0071] 请参考图3,其示出了本发明又一个实施例提供的分词方法的流程图。该方法可以 由分词装置所执行的分词过程;分词装置可以运行在终端、服务器等设备上,其与图2所示 的分词方法相似,其不同之处在于,图2的步骤205具体可以包括:步骤301-303。
[0072] 步骤301,得到词的长度分数的计算公式可以为:
[0073] g(x):::::::t^ength(X),其中,g (X)为词 χ 的长度分数,length (X)为词 x 的长度,c 为 参数,c可以根据权重取值方法,即按照对词的长度的相关度,而取任意数值,可以大于〇, 也可以小于0。例如若需要词的长度的相关性较高,C可以取值为1,若需要词的长度的相 关性相对低一些,C可以取大于1的其它数值。
[0074] 步骤303,根据词的长度分数的计算公式计算出词的长度分数。
[0075] 综上所述,本实施例提供的分词方法,还通过根据实际需要确定的词的长度分数 计算公式而得到词的长度,从而可以根据实际需要而动态选择长度分数的计算公式,方便 使用。
[0076] 第四实施例
[0077] 请参考图4,其示出了本发明又一个实施例提供的分词方法的流程图。该方法可以 由分词装置所执行的分词过程;分词装置可以运行在终端、服务器等设备上,其与图3所示 的分词方法相似,其不同之处在于,还包括:图3的步骤207具体可以包括:步骤401-405。
[0078] 步骤401,确定词的分值的计算公式,词χ的分值的计算公式可以为:
[0079] Fin_score (χ) =A*f (χ)+B*g (X),其中,Fin_score (χ)为词 χ 的分值,f (χ)为词 X的统计分数,是在不同领域中被搜索次数的函数(其具体计算方法已在步骤203中作了详 细描述),g (χ)为词的长度分数(其具体计算方法已在步骤205中作了详细说明),是词χ的 长度的函数。A和B为权值,A、B>0且A+B=l。
[0080] 步骤403,根据词的分值的计算公式得到词的分值。
[0081] 步骤405,由词和词的分值生成分词词典。
[0082] 分词词典中包括每个词和词的对应分值。
[0083] 综上所述,本实施例提供的分词方法,还通过根据实际需要确定的词的分值的计 算公式而得到词的分值,从而可以根据实际需要而动态选择词的分值的计算公式,方便使 用。
[0084] 以下为本发明的装置实施例,在装置实施例中未详尽描述的细节,可以参考上述 对应的方法实施例。
[0085] 第五实施例
[0086] 请参考图5,其示出了本发明一个实施例提供的分词装置的主要架构框图。所述分 词装置,包括:统计分数获取模块501、长度分数获取模块503、词典生成模块505以及分词 模块507。
[0087] 具体地,统计分数获取模块501,用于获取一段时间内词在不同搜索领域中被搜索 的次数,根据被搜索的次数计算出词的统计分数。
[0088] 搜索领域可以包括网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、 或电子商务搜索领域中的至少一个,垂直搜索领域可以包括音乐搜索领域、图片搜索领域、 视频搜索领域等。
[0089] 长度分数获取模块503,用于根据词的长度计算出词的长度分数。
[0090] 词典生成模块505,用于根据词的统计分数和长度分数得到词的分值,由词和词的 分值生成分词词典。
[0091] 分词模块507,用于获取待分词的句子,将待分词的句子与分词词典中的词进行匹 配以得到多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为待分词的句 子的分词结果。
[0092] 综上所述,本实施例提供的分词装置,通过根据词的统计分数和长度分数得到词 的分值,由词和词的分值生成分词词典,还将待分词的句子与分词词典中的词进行匹配以 得到多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为待分词的句子的 分词结果。解决了现有的方法分词精度低等问题,采用本发明对海量用户的搜索行为进行 统计并建立精准的分词词典进行分词的方式,能够分出较完整表达用户意思的短词。分出 的词和传统的分到的单元词不同。而是分到能够比单元词更完整的表达用户意思的单元词 的组合或者可以独立表达用户意图的单元词。从而能够快速、准确地对句子进行分词。
[0093] 第六实施例
[0094] 请参考图6,其示出了本发明另一个实施例提供的分词装置的主要架构框图。其 与图5所示的分词装置相似,其不同之处在于,所述统计分数获取模块501,可以包括:次数 获取模块601、统计分数计算公式确定模块603及统计分数计算模块605,所述次数获取模 块601,可以包括:网页搜索次数获取模块607、社区搜索次数获取模块609、微博搜索次数 获取模块611、垂直搜索次数获取模块613、以及电子商务搜索次数获取模块615。
[0095] 次数获取模块601,用于获取一段时间内词在网页搜索领域、社区搜索领域、微博 搜索领域、垂直搜索领域、电子商务搜索领域中被搜索的次数。
[0096] 统计分数计算公式确定模块603,用于根据被搜索的次数得到词的统计分数的 计算公式为 f (X) =wl*web (X) +w2*social (X) +w3*weibo (X) +w4*vert (X) +w5*trade (X);其 中,f(x)为词X的统计分数,web(x)为一段时间内词X在网页搜索领域中被搜索的次数, social(x)为一段时间内词X在社区搜索领域中被搜索的次数,weibo (X)为一段时间内词 X在微博搜索领域中被搜索的次数,vert (X)为一段时间内词X在垂直搜索领域中被搜索的 次数,trade (X)为一段时间内词X在电子商务搜索领域中被搜索的次数,wl、w2、w3、w4、w5 为权值,wl+w2+w3+w4+w5=l。
[0097] 统计分数计算模块605,用于通过词的统计分数的计算公式计算出词的统计分数。
[0098] 网页搜索次数获取模块607,用于根据一段时间内词X在网页搜索领域中被搜索 的次数web (X)的计算公式得到一段时间内词X在网页搜索领域中被搜索的次数,如果考虑 词的热度,则web (X)的计算公式为:
Figure CN104462051AD00141
[0099] 其中,Qi (X)为第i个单位时间段内词X在网页搜索领域中被搜索的次数,Q为当 前时间的前一个单位时间段内词X在网页搜索领域中被搜索的次数,ml为热度参数,ml、nl 为大于〇的整数,ml小于nl,al、bl为权值,al+bl=l。
[0100] 社区搜索次数获取模块609,用于根据一段时间内词X在社区搜索领 域中被搜索的次数social (X)的计算公式得到一段时间内词X在社区搜索领域 中被搜索的次数,如果考虑词的热度,则social (X)的计算公式为:SOCial(X)
Figure CN104462051AD00142
' iU ' Si〇〇为第i个单位时间段内词X在社区搜索领域中被 搜索的次数,S为当前时间的前一个单位时间段内词X在社区搜索领域中被搜索的次数,m2 为热度参数,m2、n2为大于O的整数,m2小于n2, a2、b2为权值,a2+b2=l。
[0101] 微博搜索次数获取模块611,用于根据一段时间内词X在微博搜索领域中被搜索 的次数Weibo(X)的计算公式得到一段时间内词X在微博搜索领域中被搜索的次数,如果 考虑词的热度,则weibo (X)的计算公式为:
Figure CN104462051AD00151
其中, Ri(X)为第i个单位时间段内词X在微博搜索领域中被搜索的次数,R为当前时间的前一个 单位时间段内词X在微博搜索领域中被搜索的次数,m3为热度参数,m3、n3为大于0的整 数,m3 小于 n3, a3、b3 为权值,a3+b3=l。
[0102] 垂直搜索次数获取模块611,用于根据一段时间内词X在垂直搜索领域中被搜索 的次数vert (X)的计算公式得到一段时间内词X在垂直搜索领域中被搜索的次数,如果考 虑词的热度,贝1J vert (X)的计算公式为:
Figure CN104462051AD00152
^其中,Vi(X)表 示第i个单位时间段内词X在垂直搜索领域中被搜索的次数,V为当前时间的前一个单位 时间段内词X在垂直搜索领域中被搜索的次数,m4为热度参数,m4、n4为大于0的整数,m4 小于 n4, a4、b4 为权值,a4+b4=l。
[0103] 电子商务搜索次数获取模块613,用于根据一段时间内词X在电子商务 搜索领域中被搜索的次数trade (X)的计算公式得到一段时间内词X在电子商务 搜索领域中被搜索的次数,如果考虑词的热度,则trade(X)的计算公式为:trade
Figure CN104462051AD00153
「i (X)为第i个单位时间段内词X在电子商务搜索领域中被 搜索的次数,T为当前时间的前一个单位时间段内词X在电子商务搜索领域中被搜索的次 数,m5为热度参数,m5、n5为大于0的整数,m5小于n5, a5、b5为权值,a5+b5=l。
[0104] 综上所述,本实施例提供的分词装置,还通过考虑词的热度,对统计分数进行计 算。由于本发明在分词时考虑了词的热度,从而能够根据一定时期内用户的需求进行动态 的分词,更能满足用户的分词需求,给用户带来使用上的方便。
[0105] 第七实施例
[0106] 请参考图7,其示出了本发明又一个实施例提供的分词装置的主要架构框图。其与 图6所示的分词装置相似,其不同之处在于,所述长度分数获取模块503,可以包括:长度分 数公式确定模块701、以及长度分数计算模块703。
[0107] 长度分数公式确定模块701,用于得到词的长度分数的计算公式为:g(x)= ,其中,g (X)为词X的长度分数,length(x)为词X的长度,c为参数;
[0108] 长度分数计算模块703,用于根据词的长度分数的计算公式计算出词的长度分数。
[0109] 综上所述,本实施例提供的分词装置,还通过根据实际需要确定的词的长度分数 计算公式而得到词的长度,从而可以根据实际需要而动态选择长度分数的计算公式,方便 使用。
[oho] 第八实施例
[0111] 请参考图8,其示出了本发明又一个实施例提供的分词装置的主要架构框图。其与 图7所示的分词装置相似,其不同之处在于,所述词典生成模块505,可以包括:分值计算公 式确定模块801以及分值计算模块803。
[0112] 分值计算公式确定模块801,用于确定词的分值的计算公式为Fin_score (X) =A*f (x)+B*g (X),其中,Fin_score (X)为词X的分值,f (X)为词X的统计分数,g (X)为 词的长度分数,A、B为权值,A、B>0且A+B=l。
[0113] 分值计算模块803,用于根据词的分值的计算公式得到词的分值。
[0114] 综上所述,本实施例提供的分词装置,还通过根据实际需要确定的词的分值的计 算公式而得到词的分值,从而可以根据实际需要而动态选择词的分值的计算公式,方便使 用。
[0115] 第九实施例
[0116] 请参考图9,其示出了一种终端的结构框图。如图9所示,以分词装置运行在终端 上作为示例,终端包括存储器902、存储控制器904, 一个或多个(图中仅示出一个)处理器 906、外设接口 908、射频模块910、摄像模块914、音频模块916、触控屏幕918以及按键模块 920。这些组件通过一条或多条通讯总线/信号线相互通讯。
[0117] 可以理解,图9所示的结构仅为示意,终端还可包括比图9中所示更多或者更少的 组件,或者具有与图9所示不同的配置。图9中所示的各组件可以采用硬件、软件或其组合 实现。
[0118] 存储器902可用于存储软件程序以及模块,如本发明实施例中的在终端内进行分 词方法对应的程序指令/模块(例如,分词装置中的统计分数获取模块501、长度分数获取 模块503、词典生成模块505以及分词模块507等),处理器902通过运行存储在存储器904 内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的在终端内进 行分词方法。
[0119] 存储器902可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个 磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器902可进一步 包括相对于处理器906远程设置的存储器,这些远程存储器可以通过网络连接至终端。上 述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器906 以及其他可能的组件对存储器902的访问可在存储控制器904的控制下进行。
[0120] 外设接口 908将各种输入/输入装置耦合至CPU以及存储器902。处理器906运 行存储器902内的各种软件、指令以执行终端的各种功能以及进行数据处理。
[0121] 在一些实施例中,外设接口 908,处理器906以及存储控制器904可以在单个芯片 中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
[0122] 射频模块910用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而 与通讯网络或者其他设备进行通讯。射频模块910可包括各种现有的用于执行这些功能的 电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM) 卡、存储器等等。射频模块910可与各种网络如互联网、企业内部网、无线网络进行通讯或 者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网 或者城域网。上述的无线网络可以使用各种通信标准、协议及技术,包括但并不限于全球 移动通信系统(Global System for Mobile Communication, GSM)、增强型移动通信技术 (Enhanced Data GSM Environment, EDGE),宽带码分多址技术(wideband code division multiple access, W-CDMA),码分多址技术(Code division access, CDMA)、时分多址技 术(time division multiple access, TDMA),蓝牙,无线保真技术(Wireless, Fidelity, WiFi)(如美国电气和电子工程师协会标准IEEE802.11a,IEEE802.11b,IEEE802.11g和/ 或 ΙΕΕΕ802·11η)、网络电话(Voice over internet protocal, VoIP)、全球微波互联接入 (Worldwide Interoperability for Microwave Access,Wi_Max)、其他用于邮件、即时通讯 及短消息的协议,以及任何其他合适的通讯协议,甚至可包括那些当前仍未被开发出来的 协议。
[0123] 摄像模块914用于拍摄照片或者视频。拍摄的照片或者视频可以存储至存储器 902内,并可通过射频模块910发送。
[0124] 音频模块916向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个 扬声器以及音频电路。音频电路从外设接口 908处接收声音数据,将声音数据转换为电信 息,将电信息传输至扬声器。扬声器将电信息转换为人耳能听到的声波。音频电路还从麦 克风处接收电信息,将电信号转换为声音数据,并将声音数据传输至外设接口 908中以进 行进一步的处理。音频数据可以从存储器902处或者通过射频模块910获取。此外,音频 数据也可以存储至存储器902中或者通过射频模块910进行发送。在一些实例中,音频模 块916还可包括一个耳机播孔,用于向耳机或者其他设备提供音频接口。
[0125] 触控屏幕918在终端与用户之间同时提供一个输出及输入界面。具体地,触控屏 幕918向用户显示视频输出,这些视频输出的内容可包括文字、图形、视频、及其任意组合。 一些输出结果是对应于一些用户界面对象。触控屏幕918还接收用户的输入,例如用户的 点击、滑动等手势操作,以便用户界面对象对这些用户的输入做出响应。检测用户输入的技 术可以是基于电阻式、电容式或者其他任意可能的触控检测技术。触控屏幕918显示单元 的具体实例包括但并不限于液晶显示器或发光聚合物显示器。
[0126] 按键模块920同样提供用户向终端进行输入的接口,用户可以通过按下不同的按 键以使终端执行不同的功能。
[0127] 此外,本发明实施例还提供一种计算机可读存储介质,其内存储有计算机可执行 指令,上述的计算机可读存储介质例如为非易失性存储器例如光盘、硬盘、或者闪存。上述 的计算机可执行指令用于让计算机或者类似的运算装置完成上述的分词方法。
[0128] 以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽 然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人 员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰 为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对 以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (12)

1. 一种分词方法,其特征在于,所述分词方法包括: 获取一段时间内词在不同搜索领域中被搜索的次数,根据所述被搜索的次数计算出词 的统计分数; 根据词的长度计算出词的长度分数; 根据所述词的统计分数和所述长度分数得到词的分值,由词和词的分值生成分词词 血. 获取待分词的句子,将所述待分词的句子与所述分词词典中的词进行匹配以得到多个 分词结果,计算各个分词结果的分值,将分值高的分词结果作为所述待分词的句子的分词 结果。
2. 根据权利要求1所述的分词方法,其特征在于,所述搜索领域包括网页搜索领域、社 区搜索领域、微博搜索领域、垂直搜索领域、或电子商务搜索领域中的至少一个,所述垂直 搜索领域包括音乐搜索领域、图片搜索领域或视频搜索领域。
3. 根据权利要求1所述的分词方法,其特征在于,获取一段时间内词在不同搜索领域 中被搜索的次数,根据所述被搜索的次数计算出词的统计分数,包括: 获取一段时间内词在网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、电 子商务搜索领域中被搜索的次数; 根据被搜索的次数得到词的统计分数的计算公式,根据词的统计分数的计算公式计算 出词的统计分数,词的统计分数的计算公式为f (X)=wl*web(X)+w2*social(X)+w3*weibo(X )+w4氺vert(X)+w5氺trade(X); 其中,f(X)为词X的统计分数,web(x)为一段时间内词x在网页搜索领域中被搜索的 次数,Social(X)为一段时间内词X在社区搜索领域中被搜索的次数,Weibo(X)为一段时 间内词X在微博搜索领域中被搜索的次数,vert(X)为一段时间内词X在垂直搜索领域中 被搜索的次数,trade(X)为一段时间内词X在电子商务搜索领域中被搜索的次数,wl、w2、 w3、w4、w5 为权值,wl+w2+w3+w4+w5=l。
4. 根据权利要求3所述的分词方法,其特征在于,获取一段时间内词在网页搜索领域、 社区搜索领域、微博搜索领域、垂直搜索领域、电子商务搜索领域中被搜索的次数,包括: 根据一段时间内词X在网页搜索领域中被搜索的次数web(X)的计算公式得到一段时 间内词X在网页搜索领域中被搜索的次数,如果考虑词的热度,则web(X)的计算公式为:
Figure CN104462051AC00021
其中,Qi(X)为第i个单位时间段内词X在网页搜索领域中被搜索的次数,Q为当前时 间的前一个单位时间段内词X在网页搜索领域中被搜索的次数,ml为热度参数,ml、nl为 大于0的整数,ml小于nl,al、bl为权值,al+bl=l; 根据一段时间内词x在社区搜索领域中被搜索的次数social(X)的计算公式得到一段 时间内词X在社区搜索领域中被搜索的次数,如果考虑词的热度,则social(X)的计算公式 为:
Figure CN104462051AC00031
其中,Si(X)为第i个单位时间段内词X在社区搜索领域中被搜索的次数,S为当前时 间的前一个单位时间段内词X在社区搜索领域中被搜索的次数,m2为热度参数,m2、n2为 大于O的整数,m2小于n2,a2、b2为权值,a2+b2=l; 根据一段时间内词x在微博搜索领域中被搜索的次数weibo(X)的计算公式得到一段 时间内词X在微博搜索领域中被搜索的次数,如果考虑词的热度,则weibo(X)的计算公式 为:
Figure CN104462051AC00032
其中,Ri(X)为第i个单位时间段内词X在微博搜索领域中被搜索的次数,R为当前时 间的前一个单位时间段内词X在微博搜索领域中被搜索的次数,m3为热度参数,m3、n3为 大于0的整数,m3小于n3,a3、b3为权值,a3+b3=l; 根据一段时间内词x在垂直搜索领域中被搜索的次数vert(X)的计算公式得到一段时 间内词X在垂直搜索领域中被搜索的次数,如果考虑词的热度,则vert(X)的计算公式为:
Figure CN104462051AC00033
其中,Vi(X)表示第i个单位时间段内词X在垂直搜索领域中被搜索的次数,V为当前 时间的前一个单位时间段内词X在垂直搜索领域中被搜索的次数,m4为热度参数,m4、n4为 大于0的整数,m4小于n4,a4、b4为权值,a4+b4=l; 根据一段时间内词x在电子商务搜索领域中被搜索的次数trade(X)的计算公式得到 一段时间内词X在电子商务搜索领域中被搜索的次数,如果考虑词的热度,则trade(X)的 计算公式为
Figure CN104462051AC00034
Ti(X)为第i个单位时间段内词X在电子商务搜索领域中被搜索的次数,T为当前时间 的前一个单位时间段内词X在电子商务搜索领域中被搜索的次数,m5为热度参数,m5、n5为 大于0的整数,m5小于n5,a5、b5为权值,a5+b5=l。
5. 根据权利要求1所述的分词方法,其特征在于,根据词的长度计算出词的长度分数 中,包括: 翻词账度分_计式为:gW= 其巾,g(x) 账度分数, length(x)为词X的长度,c为参数; 根据词的长度分数的计算公式计算出词的长度分数。
6. 根据权利要求5所述的分词方法,其特征在于,根据所述词的统计分数和所述长度 分数得到词的分值,包括: 确定词的分值的计算公式为Fin_score(x)=A*f(x)+B*g(X),其中,Fin_score(X)为 词X的分值,f(x)为词X的统计分数,g(X)为词的长度分数,A、B为权值,Α、Β>0且A+B=l; 根据词的分值的计算公式得到词的分值。
7. -种分词装置,其特征在于,所述分词装置,包括: 统计分数获取模块,用于获取一段时间内词在不同搜索领域中被搜索的次数,根据所 述被搜索的次数计算出词的统计分数; 长度分数获取模块,用于根据词的长度计算出词的长度分数; 词典生成模块,用于根据所述词的统计分数和所述长度分数得到词的分值,由词和词 的分值生成分词词典; 分词模块,用于获取待分词的句子,将所述待分词的句子与所述分词词典中的词进行 匹配以得到多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为所述待分 词的句子的分词结果。
8. 根据权利要求7所述的分词装置,其特征在于,所述搜索领域包括网页搜索领域、社 区搜索领域、微博搜索领域、垂直搜索领域、或电子商务搜索领域中的至少一个,所述垂直 搜索领域包括音乐搜索领域、图片搜索领域或视频搜索领域。
9. 根据权利要求7所述的分词装置,其特征在于,所述统计分数获取模块,包括: 次数获取模块,用于获取一段时间内词在网页搜索领域、社区搜索领域、微博搜索领 域、垂直搜索领域、电子商务搜索领域中被搜索的次数; 统计分数计算公式确定模块,用于根据被搜索的次数得到词的统计分数的计算公式 为f (X)=wl*web(X)+w2*social(X)+w3*weibo(X)+w4*vert(X)+w5*trade(X);其中,f(x)为 词x的统计分数,web(x)为一段时间内词x在网页搜索领域中被搜索的次数,social(X) 为一段时间内词X在社区搜索领域中被搜索的次数,weibo(x)为一段时间内词X在微博 搜索领域中被搜索的次数,vert(X)为一段时间内词X在垂直搜索领域中被搜索的次数, trade(X)为一段时间内词X在电子商务搜索领域中被搜索的次数,wl、w2、w3、w4、w5为权 值,wl+w2+w3+w4+w5=l; 统计分数计算模块,用于通过词的统计分数的计算公式计算出词的统计分数。
10. 根据权利要求9所述的分词装置,其特征在于,所述次数获取模块,包括: 网页搜索次数获取模块,用于根据一段时间内词X在网页搜索领域中被搜索的次数web(X)的计算公式得到一段时间内词X在网页搜索领域中被搜索的次数,如果考虑词的热 度,则web(X)的计算公式为:
Figure CN104462051AC00041
其中,Qi(X)为第i个单位 时间段内词X在网页搜索领域中被搜索的次数,Q为当前时间的前一个单位时间段内词X在 网页搜索领域中被搜索的次数,ml为热度参数,ml、nl为大于0的整数,ml小于nl,al、bl 为权值,al+bl=l; 社区搜索次数获取模块,用于根据一段时间内词X在社区搜索领域中被搜索的次数Social(X)的计算公式得到一段时间内词X在社区搜索领域中被搜索的次数,如果考虑词 的热度,贝1Jsocial (X)的计算公式为:其中,Si(X)为 I --J
Figure CN104462051AC00042
第i个单位时间段内词X在社区搜索领域中被搜索的次数,S为当前时间的前一个单位时 间段内词X在社区搜索领域中被搜索的次数,m2为热度参数,m2、n2为大于O的整数,m2小 于n2,a2、b2 为权值,a2+b2=l; 微博搜索次数获取模块,用于根据一段时间内词x在微博搜索领域中被搜索的次数weibo(X)的计算公式得到一段时间内词X在微博搜索领域中被搜索的次数,如果考虑词的 热度,贝1Jweibo(x)的计算公式为:
Figure CN104462051AC00051
其中,Ri(X)为第i 个单位时间段内词X在微博搜索领域中被搜索的次数,R为当前时间的前一个单位时间段 内词X在微博搜索领域中被搜索的次数,m3为热度参数,m3、n3为大于0的整数,m3小于 n3,a3、b3 为权值,a3+b3=l; 垂直搜索次数获取模块,用于根据一段时间内词X在垂直搜索领域中被搜索的次数vert(X)的计算公式得到一段时间内词X在垂直搜索领域中被搜索的次数,如果考虑词的 热度,则vert(X)的计算公式为:
Figure CN104462051AC00052
其中,Vi(X)表示第i 个单位时间段内词X在垂直搜索领域中被搜索的次数,V为当前时间的前一个单位时间段 内词X在垂直搜索领域中被搜索的次数,m4为热度参数,m4、n4为大于0的整数,m4小于 n4,a4、b4 为权值,a4+b4=l; 电子商务搜索次数获取模块,用于根据一段时间内词X在电子商务搜索领域中被搜索 的次数trade(X)的计算公式得到一段时间内词X在电子商务搜索领域中被搜索的次数,如 果考虑词的热度,则trade(X)的计算公式为:
Figure CN104462051AC00053
Ti(x)为 第i个单位时间段内词X在电子商务搜索领域中被搜索的次数,T为当前时间的前一个单 位时间段内词X在电子商务搜索领域中被搜索的次数,m5为热度参数,m5、n5为大于0的 整数,m5小于n5,a5、b5为权值,a5+b5=l。
11. 根据权利要求7所述的分词装置,其特征在于,所述长度分数获取模块,还包括: 长度分数公式确定模块,用于得到词的长度分数的计算公式为:
Figure CN104462051AC00054
,其 中,g(x)为词X的长度分数,Iength(X)为词X的长度,c为参数; 长度分数计算模块,用于根据词的长度分数的计算公式计算出词的长度分数。
12. 根据权利要求7所述的分词装置,其特征在于,所述词典生成模块,包括: 分值计算公式确定模块,用于确定词的分值的计算公式为Fin_score (x)=A*f(x)+B*g(x),其中,Fin_score(X)为词x的分值,f(X)为词x的统计分数,g(X)为词的长度分数, A、B为权值,Α、Β>0且A+B=l ; 分值计算模块,用于根据词的分值的计算公式得到词的分值。
CN201310415761.9A 2013-09-12 2013-09-12 分词方法及装置 Active CN104462051B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310415761.9A CN104462051B (zh) 2013-09-12 2013-09-12 分词方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310415761.9A CN104462051B (zh) 2013-09-12 2013-09-12 分词方法及装置

Publications (2)

Publication Number Publication Date
CN104462051A true CN104462051A (zh) 2015-03-25
CN104462051B CN104462051B (zh) 2018-10-02

Family

ID=52908123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310415761.9A Active CN104462051B (zh) 2013-09-12 2013-09-12 分词方法及装置

Country Status (1)

Country Link
CN (1) CN104462051B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881403A (zh) * 2015-06-04 2015-09-02 百度在线网络技术(北京)有限公司 分词方法和装置
CN105786782A (zh) * 2016-03-25 2016-07-20 北京搜狗科技发展有限公司 一种词向量的训练方法和装置
CN106649251A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 一种中文分词的方法及装置
CN106777250A (zh) * 2016-12-27 2017-05-31 努比亚技术有限公司 一种分词结果选择方法和装置
CN106940788A (zh) * 2017-03-07 2017-07-11 百度在线网络技术(北京)有限公司 智能评分方法及装置、计算机设备及计算机可读介质
CN107291684A (zh) * 2016-04-12 2017-10-24 华为技术有限公司 语言文本的分词方法和系统
CN107301170A (zh) * 2017-06-19 2017-10-27 北京百度网讯科技有限公司 基于人工智能的切分语句的方法和装置
CN107729322A (zh) * 2017-11-06 2018-02-23 广州杰赛科技股份有限公司 分词方法及装置、建立句子向量生成模型方法及装置
CN108304367A (zh) * 2017-04-07 2018-07-20 腾讯科技(深圳)有限公司 分词方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050119873A1 (en) * 1998-09-28 2005-06-02 Intesoft Systems Llc Method and apparatus for generating a language independent document abstract
US20080221863A1 (en) * 2007-03-07 2008-09-11 International Business Machines Corporation Search-based word segmentation method and device for language without word boundary tag
CN102043791A (zh) * 2009-10-10 2011-05-04 腾讯科技(深圳)有限公司 分词评价方法及装置
CN102654873A (zh) * 2011-03-03 2012-09-05 苏州同程旅游网络科技有限公司 基于中文分词的旅游信息抽取与聚合方法
CN102999534A (zh) * 2011-09-19 2013-03-27 北京金和软件股份有限公司 一种基于逆向最大匹配的中文分词算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050119873A1 (en) * 1998-09-28 2005-06-02 Intesoft Systems Llc Method and apparatus for generating a language independent document abstract
US20080221863A1 (en) * 2007-03-07 2008-09-11 International Business Machines Corporation Search-based word segmentation method and device for language without word boundary tag
CN102043791A (zh) * 2009-10-10 2011-05-04 腾讯科技(深圳)有限公司 分词评价方法及装置
CN102654873A (zh) * 2011-03-03 2012-09-05 苏州同程旅游网络科技有限公司 基于中文分词的旅游信息抽取与聚合方法
CN102999534A (zh) * 2011-09-19 2013-03-27 北京金和软件股份有限公司 一种基于逆向最大匹配的中文分词算法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881403A (zh) * 2015-06-04 2015-09-02 百度在线网络技术(北京)有限公司 分词方法和装置
CN106649251A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 一种中文分词的方法及装置
CN105786782B (zh) * 2016-03-25 2018-10-19 北京搜狗信息服务有限公司 一种词向量的训练方法和装置
CN105786782A (zh) * 2016-03-25 2016-07-20 北京搜狗科技发展有限公司 一种词向量的训练方法和装置
CN107291684A (zh) * 2016-04-12 2017-10-24 华为技术有限公司 语言文本的分词方法和系统
CN106777250A (zh) * 2016-12-27 2017-05-31 努比亚技术有限公司 一种分词结果选择方法和装置
CN106777250B (zh) * 2016-12-27 2020-06-02 广州市交互式信息网络有限公司 一种分词结果选择方法和装置
CN106940788A (zh) * 2017-03-07 2017-07-11 百度在线网络技术(北京)有限公司 智能评分方法及装置、计算机设备及计算机可读介质
CN106940788B (zh) * 2017-03-07 2020-05-29 百度在线网络技术(北京)有限公司 智能评分方法及装置、计算机设备及计算机可读介质
WO2018161917A1 (zh) * 2017-03-07 2018-09-13 百度在线网络技术(北京)有限公司 智能评分方法及装置、计算机设备及计算机可读介质
CN108304367B (zh) * 2017-04-07 2021-11-26 腾讯科技(深圳)有限公司 分词方法及装置
CN108304367A (zh) * 2017-04-07 2018-07-20 腾讯科技(深圳)有限公司 分词方法及装置
CN107301170A (zh) * 2017-06-19 2017-10-27 北京百度网讯科技有限公司 基于人工智能的切分语句的方法和装置
US10755048B2 (en) 2017-06-19 2020-08-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for segmenting sentence
CN107729322A (zh) * 2017-11-06 2018-02-23 广州杰赛科技股份有限公司 分词方法及装置、建立句子向量生成模型方法及装置

Also Published As

Publication number Publication date
CN104462051B (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
CN104462051A (zh) 分词方法及装置
RU2509352C2 (ru) Способ и устройство для классификации контента
US10332506B2 (en) Computerized system and method for formatted transcription of multimedia content
US20130275536A1 (en) Locating a user based on aggregated tweet content associated with a location
CN103797479B (zh) 用于混合社交搜索模型的方法和装置
JP6224731B2 (ja) 個人的ユーザ経験を改善するためにソーシャル・メディアを豊富にする方法および装置
US9767183B2 (en) Method and system for enhanced query term suggestion
CN103226393A (zh) 一种输入方法和设备
WO2020007138A1 (zh) 一种事件识别的方法、模型训练的方法、设备及存储介质
CN105701122A (zh) 一种日志收集方法、装置及系统
WO2015169056A1 (zh) 信息呈现方法和设备
CN102939774A (zh) 用于上下文索引的网络资源分段的方法和装置
CN107491534A (zh) 信息处理方法和装置
CN105531701A (zh) 个性化趋势图像搜索建议
US20180102947A1 (en) Network based data traffic latency reduction
CN107958078A (zh) 信息生成方法和装置
CN104978045B (zh) 一种汉字输入方法及装置
CN105095253A (zh) 网页显示方法及装置
CN104077320B (zh) 一种用于生成待发布信息的方法和装置
CN108572990B (zh) 信息推送方法和装置
CN111626044A (zh) 文本生成方法、装置、电子设备及计算机可读存储介质
CN113412608A (zh) 内容推送方法、装置、服务端及存储介质
WO2015021908A1 (en) Method, apparatus and system for security verification
JP2019053386A (ja) 情報処理装置、情報処理方法、およびプログラム
CN109992766A (zh) 提取目标词的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant