CN104778159A

CN104778159A - 一种基于词权重进行分词的方法和装置

Info

Publication number: CN104778159A
Application number: CN201510149892.6A
Authority: CN
Inventors: 陈进平
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2015-07-15
Anticipated expiration: 2035-03-31
Also published as: CN104778159B

Abstract

本发明实施例提供了一种基于词权重进行分词的方法和装置，该方法包括：按照一个或多个切分方式对语料进行切分处理，以获得一个或多个分词；针对每个分词，统计所述分词在所述语料中的第一词频，以及，组成所述分词的字在所述语料中连续出现的第二词频；根据所述第一词频与所述第二词频计算所述分词在所述语料中的权重；基于所述权重从所述一个或多个分词中选取分词结果。本发明实施例通过分词的词频特性，减缓或消除高频次词在分词中的歧义，提高了分词的成功率。

Description

一种基于词权重进行分词的方法和装置

技术领域

本发明涉及分词的技术领域，特别是涉及一种基于词权重进行分词的方法和一种基于词权重进行分词的装置。

背景技术

随着互联网的高速发展，网络应用趋向多元化，网上的信息量急剧增加。

在各种场合下，用户经常需要输入关键信息进行关联信息的获取。例如，在搜索引擎中输入关键词搜索网页信息、在论坛中输入关键词搜索帖子等等。

分词是进行信息处理、信息检索的基础，信息处理、信息检索工作一般都是在分词之后进行的。

在分词出现歧义时，分词消歧一般采用词图，即将所有切分方式构建为一个图。这个图以词为顶点，以词的权重为边，一般用词频来表示权重，即T(W)＝#W，T(W)为权重，#W为词频。

消歧的过程就是选择最短路径的过程，上述用词频来表示权重的方式，导致了消歧对低频词分词错误较多，分词效果较差。

例如，对“翠华为祖国服务”进行分词处理，可以切分为“翠华|为”、“翠|华为”，而由于“华为”的出现次数远远大于“翠华”的出现次数。因此，在用词频来表示权重的方式中，会切分为“翠|华为”，造成分词错误。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于词权重进行分词的方法和相应的一种基于词权重进行分词的装置。

依据本发明的一个方面，提供了一种基于词权重进行分词的方法，包括：

按照一个或多个切分方式对语料进行切分处理，以获得一个或多个分词；

针对每个分词，统计所述分词在所述语料中的第一词频，以及，组成所述分词的字在所述语料中连续出现的第二词频；

根据所述第一词频与所述第二词频计算所述分词在所述语料中的权重；

基于所述权重从所述一个或多个分词中选取分词结果。

可选地，所述按照一个或多个切分方式对语料进行切分处理，以获得一个或多个分词的步骤包括：

按照一个或多个切分方式对语料进行切分处理；

对切分处理之后的语料进行有效性筛选，以保留有效的分词及去除无效的分词。

可选地，所述根据所述第一词频与所述第二词频计算所述分词在所述语料中的权重的步骤包括：

计算所述第一词频与所述第二词频之间的比值；

至少按照所述比值计算所述分词在所述语料中的权重。

可选地，所述权重与比值正相关。

可选地，所述至少按照所述比值计算所述分词在所述语料中的权重的步骤包括：

基于所述第一词频计算词频权重；

对所述比值配置所述词频权重，作为所述分词在所述语料中的权重。

可选地，所述基于所述第一词频计算词频权重的步骤包括：

降低所述第一词频的词频数量，以获得词频权重。

可选地，所述对所述比值配置所述词频权重，作为所述分词在所述语料中的权重的步骤包括：

计算所述比值与所述词频权重的乘积，作为所述分词在所述语料中的权重。

可选地，所述基于所述权重从所述一个或多个分词中选取分词结果的步骤包括：

将所述一个或多个分词中权重最高的分词设置为分词结果。

根据本发明的另一方面，提供了一种基于词权重进行分词的装置，包括：

切分处理模块，适于按照一个或多个切分方式对语料进行切分处理，以获得一个或多个分词；

词频统计模块，适于针对每个分词，统计所述分词在所述语料中的第一词频，以及，组成所述分词的字在所述语料中连续出现的第二词频；

权重计算模块，适于根据所述第一词频与所述第二词频计算所述分词在所述语料中的权重；

分词结果选取模块，适于基于所述权重从所述一个或多个分词中选取分词结果。

可选地，所述切分处理模块还适于：

按照一个或多个切分方式对语料进行切分处理；

可选地，所述权重计算模块还适于：

计算所述第一词频与所述第二词频之间的比值；

至少按照所述比值计算所述分词在所述语料中的权重。

可选地，所述权重与比值正相关。

可选地，所述权重计算模块还适于：

基于所述第一词频计算词频权重；

可选地，所述权重计算模块还适于：

降低所述第一词频的词频数量，以获得词频权重。

可选地，所述权重计算模块还适于：

可选地，所述分词结果选取模块还适于：

将所述一个或多个分词中权重最高的分词设置为分词结果。

本发明实施例根据分词在语料中的第一词频、组成该分词的字在语料中连续出现的第二词频，计算该分词在语料中的权重，以选取分词结果，通过分词的词频特性，减缓或消除高频次词在分词中的歧义，提高了分词的成功率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种基于词权重进行分词的装置实施例的结构框图；以及

图2示出了根据本发明一个实施例的一种基于词权重进行分词的装置实施例的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，示出了根据本发明一个实施例的一种基于词权重进行分词的方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，按照一个或多个切分方式对语料进行切分处理，以获得一个或多个分词；

在具体实现中，每一个切分方式对语料进行切分处理，都可以获得一个或多个分词。

例如，对以下语料进行切分处理：

A、翠华为了家人

B、翠华为了工作

C、翠华为了实现自己的目标

若按照“翠华|为”的切分方式，可以分别获得如下分词：

A1、翠华|为了|家人

B1、翠华|为了|工作

C1、翠华|为了|实现|自己|的|目标

若按照“翠|华为”的切分方式，可以分别获得如下分词：

A2、翠|华为|了|家人

B2、翠|华为|了|工作

C2、翠|华为|了|实现|自己|的|目标

在本发明的一种可选实施例中，步骤101可以包括如下子步骤：

子步骤S11，按照一个或多个切分方式对语料进行切分处理；

子步骤S12，对切分处理之后的语料进行有效性筛选，以保留有效的分词及去除无效的分词。

在本发明实施例中，可以将切分处理之后的语料放入计分器中计算其整体切分的分数，若该分数大于或等于一定的分数阈值，则可以认为该切分无效，若该分数小于一定的分数阈值，则可以认为该切分有效。

一般而言，在计分器中，单字的得分一般较高。

在切分错误的切分方式中，由于语意分析错误，一般会有较多的单字。引起，其分数较为容易高于分数阈值而被视为无效去除。

例如，A2比A1、B2比B1、C2比C1均多出了“翠”和“了”这两个单字，A2、B2、C2的分数较高，可能高于分数阈值而被视为无效去除，反之，A1、B1、C1的分数较低，可能低于分数阈值而被视为有效保留。

步骤102，针对每个分词，统计所述分词在所述语料中的第一词频，以及，组成所述分词的字在所述语料中连续出现的第二词频；

在本发明实施例中，可以基于分词的出现次数统计第一词频；

可以基于N-Gram模型统计分词的第二词频，该N-Gram模型可以基于这样一种假设，第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关。

其中，如果一个词的出现仅依赖于它前面出现的一个词，则称之为Bi-Gram。

如果一个词的出现仅依赖于它前面出现的两个词，则称之为Tri-Gram。

设分词为W，#W为第一词频，#ngram(W)为第二词频，则对于上述语料A、B、C的分词处理示例中：

对于“翠华”，由于A1、B1、C1的分词得以保留，则#(翠华)＝3(A1、B1、C1中各有一个“翠华”)，#ngram(翠华)的意义为“华”出现在“翠”之后的频次，即#ngram(翠华)＝3(A、B、C各有一次“华”出现在“翠”之后)。

对于“华为”，由于A2、B2、C2的分词被去除，则#(华为)＝0，#ngram(华为)的意义为“为”出现在“华”之后的频次，即#ngram(华为)＝3(A、B、C各有一次“为”出现在“华”之后)。

步骤103，根据所述第一词频与所述第二词频计算所述分词在所述语料中的权重；

由于错误切分容易形成单字，因此，在正确切分中，第一词频与第二词频是接近的(如第一词频与第二词频之间词频差小于一定的词频差阈值)，在错误切分中，第一词频与第二词频是有比较大的差异的(如第一词频与第二词频之间词频差大于或等于一定的词频差阈值)。

在本发明实施例中，可以根据第一词频与第二词频的上述特性进行分词，以解决分词错误的问题。

例如，对于上述语料A、B、C的分词处理示例中，#(翠华)与#ngram(翠华)是接近的，而#(华为)与#ngram(华为)会有比较大的差距。

在本发明的一种可选实施例中，步骤103可以包括如下子步骤：

子步骤S21，计算所述第一词频与所述第二词频之间的比值；

子步骤S22，至少按照所述比值计算所述分词在所述语料中的权重。

在具体实现中，所述权重与比值正相关，即比值越大，权重越高，比值越小，权重越低。

设分词的权重为T(W)，则T(W)与#W/#ngram(W)是正相关的，即如果构成某个分词的字在语料中连续出现时，总是被切为一个词，那么这个分词的权重就应该越大。

在本发明的一种可选实施例中，子步骤S22可以包括如下子步骤：

子步骤S221，基于所述第一词频计算词频权重；

在本发明实施例中，可以第一词频计算计算分词的权重。

在本发明实施例的一种可选示例中，子步骤S221可以包括如下子步骤：

子步骤S2211，降低所述第一词频的词频数量，以获得词频权重。

子步骤S222，对所述比值配置所述词频权重，作为所述分词在所述语料中的权重。

在本发明实施例中，可以降低第一词频的词频数量，如对第一词频乘以n次幂，0＜n＜1，以降低第一词频的影响，均衡出现次数较少的分词与出现次数较多的分词之间的权重，对权重进行修正。

在本发明实施例的一种可选示例中，子步骤S222可以包括如下子步骤：

子步骤S2221，计算所述比值与所述词频权重的乘积，作为所述分词在所述语料中的权重。

在本示例中，可以采用比值与词频权重的乘积作为分词的权重。

例如，可以采用以下公式计算分词的权重：

T(W)＝#W/#ngram(W)*pow(#W,0.4)

其中，pow(#W,0.4)可以表示第一词频的0.4次幂。

当然，上述权重的计算方式只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他权重的计算方式，本发明实施例对此不加以限制。另外，除了上述权重的计算方式外，本领域技术人员还可以根据实际需要采用其它权重的计算方式，本发明实施例对此也不加以限制。

步骤104，基于所述权重从所述一个或多个分词中选取分词结果。

在具体实现中，可以根据权重确认某种分词方式的分词作为最终的分词结果，以消除分词歧义。

在本发明的一种可选实施例中，步骤104可以包括如下子步骤：

子步骤S31，将所述一个或多个分词中权重最高的分词设置为分词结果。

在本发明实施例中，若权重与比值正相关，则可以以权重最高的分词作为最终的分词结果。

当然，上述分词结果的选取方式只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他分词结果的选取方式，本发明实施例对此不加以限制。另外，除了上述分词结果的选取方式外，本领域技术人员还可以根据实际需要采用其它分词结果的选取方式，本发明实施例对此也不加以限制。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，示出了根据本发明一个实施例的一种基于词权重进行分词的装置实施例的结构框图，具体可以包括如下模块：

切分处理模块201，适于按照一个或多个切分方式对语料进行切分处理，以获得一个或多个分词；

词频统计模块202，适于针对每个分词，统计所述分词在所述语料中的第一词频，以及，组成所述分词的字在所述语料中连续出现的第二词频；

权重计算模块203，适于根据所述第一词频与所述第二词频计算所述分词在所述语料中的权重；

分词结果选取模块204，适于基于所述权重从所述一个或多个分词中选取分词结果。

在本发明的一种可选实施例中，所述切分处理模块201还可以适于：

按照一个或多个切分方式对语料进行切分处理；

在本发明的一种可选实施例中，所述权重计算模块203还可以适于：

计算所述第一词频与所述第二词频之间的比值；

至少按照所述比值计算所述分词在所述语料中的权重。

在具体实现中，所述权重可以与比值正相关。

基于所述第一词频计算词频权重；

降低所述第一词频的词频数量，以获得词频权重。

在本发明的一种可选实施例中，所述分词结果选取模块204还可以适于：

将所述一个或多个分词中权重最高的分词设置为分词结果。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于词权重进行分词的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种基于词权重进行分词的方法，包括：

基于所述权重从所述一个或多个分词中选取分词结果。

2.如权利要求1所述的方法，其特征在于，所述按照一个或多个切分方式对语料进行切分处理，以获得一个或多个分词的步骤包括：

按照一个或多个切分方式对语料进行切分处理；

3.如权利要求1或2所述的方法，其特征在于，所述根据所述第一词频与所述第二词频计算所述分词在所述语料中的权重的步骤包括：

计算所述第一词频与所述第二词频之间的比值；

至少按照所述比值计算所述分词在所述语料中的权重。

4.如权利要求3所述的方法，其特征在于，所述权重与比值正相关。

5.如权利要求3所述的方法，其特征在于，所述至少按照所述比值计算所述分词在所述语料中的权重的步骤包括：

基于所述第一词频计算词频权重；

6.如权利要求5所述的方法，其特征在于，所述基于所述第一词频计算词频权重的步骤包括：

降低所述第一词频的词频数量，以获得词频权重。

7.如权利要求6所述的方法，其特征在于，所述对所述比值配置所述词频权重，作为所述分词在所述语料中的权重的步骤包括：

8.如权利要求1或2或4或5或6或7所述的方法，其特征在于，所述基于所述权重从所述一个或多个分词中选取分词结果的步骤包括：

将所述一个或多个分词中权重最高的分词设置为分词结果。

9.一种基于词权重进行分词的装置，包括：

10.如权利要求9所述的装置，其特征在于，所述切分处理模块还适于：

按照一个或多个切分方式对语料进行切分处理；