CN104077275A

CN104077275A - 一种基于语境进行分词的方法和装置

Info

Publication number: CN104077275A
Application number: CN201410302925.1A
Authority: CN
Inventors: 项碧波
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2014-06-27
Filing date: 2014-06-27
Publication date: 2014-10-01
Also published as: WO2015196909A1

Abstract

发明实施例提供了一种基于语境进行分词的方法和装置，所述的方法包括：提取搜索资源中网页的文本信息；采用分词词典中的特征词条对所述文本信息进行分词处理，获得一个或多个候选分词；当所述分词处理出现歧义时，统计所述候选分词在所述网页中表征语境的词频数；依据所述词频数调整所述分词词典中特征词条的权重；依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理，确定目标候选分词。本发明实施例基于语境辅助分词处理，充分考虑了自然语言的特性，有效降低歧义对分词处理的影响，提升了分词的准确率。

Description

一种基于语境进行分词的方法和装置

技术领域

本发明涉及分词技术领域，特别是涉及一种基于语境进行分词的方法和一种基于语境进行分词的装置。

背景技术

随着互联网的高速发展，网络应用趋向多元化，网上的信息量急剧增加。

在各种场合下，用户经常需要输入关键信息进行关联信息的获取。例如，在搜索引擎中输入关键词搜索网页信息、在论坛中输入关键词搜索帖子等等。

分词是进行信息处理、信息检索的基础，所有的信息处理、信息检索工作都是在分词之后进行的。所以分词的错误会被叠加到后续的处理过程中，而且很难被消除。正因为这样所以对分词的准确率的追求是个持续的过程，同时由于中文语言的固有的特性：没有明确的词的定义、词和词之间没有分隔符、新词、专有名词不断涌现等这些因素导致分词很难做到100％的准确。

当前分词系统使用的主要方法是基于统计的分词。从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。

分词的结果错误致使后期获取的关联信息与当初的预期有很大差别，用户体验十分差，浪费了设备系统资源。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于语境进行分词的方法和相应的一种基于语境进行分词的装置。

依据本发明的一个方面，提供了一种基于语境进行分词的方法，包括：

提取搜索资源中网页的文本信息；

采用分词词典中的特征词条对所述文本信息进行分词处理，获得一个或多个候选分词；

当所述分词处理出现歧义时，统计所述候选分词在所述网页中表征语境的词频数；

依据所述词频数调整所述分词词典中特征词条的权重；

依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理，确定目标候选分词。

可选地，所述候选分词包括第一候选分词和第二候选分词中的至少一个；

所述采用分词词典中的特征词条对所述文本信息进行分词处理，获得一个或多个候选分词的步骤包括：

按照第一分词规则对所述文本信息进行与所述特征词条进行匹配；

当所述文本信息进行与所述特征词条进行匹配时，提取所述特征词条作为第一候选分词；

按照第二分词规则对所述文本信息进行与所述特征词条进行匹配；

当所述文本信息进行与所述特征词条进行匹配时，提取所述特征词条作为第二候选分词；

其中，所述第一分词规则为与所述第二分词规则不同的分词规则。

可选地，所述表征语境的词频数包括所述第一候选分词在所述网页的文本语言环境中的第一词频数，所述第二候选分词在所述网页的文本语言环境中的第二词频数；

所述当所述分词处理出现歧义时，统计所述候选分词在所述网页中表征语境的词频数的步骤包括：

当对同一个文本信息进行分词处理所获得的所述第一候选分词和所述第二候选分词不同时，判断所述分词处理出现歧义；

分别统计所述第一候选分词在所述网页中的文本语言环境中的第一词频数，以及，所述第二候选分词在所述网页中的文本语言环境中的第二词频数。

可选地，所述依据所述词频数调整所述分词词典中特征词条的权重的步骤包括：

当所述第一词频数大于所述第二词频数时，提高所述第一候选分词对应的特征词条在所述分词词典中的权重；

当所述第二词频数大于所述第一词频数时，提高所述第二候选分词对应的特征词条在所述分词词典中的权重。

可选地，所述依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理，确定目标候选分词的步骤包括：

按照指定的分词规则对所述文本信息与提高权重后的所述特征词条进行匹配；

当所述文本信息进行与所述特征词条进行匹配时，提取所述特征词条作为目标候选分词。

根据本发明的另一方面，提供了一种基于语境进行分词的装置，包括：

文本信息提取模块，适于提取搜索资源中网页的文本信息；

第一分词处理模块，适于采用分词词典中的特征词条对所述文本信息进行分词处理，获得一个或多个候选分词；

词频数统计模块，适于在所述分词处理出现歧义时，统计所述候选分词在所述网页中表征语境的词频数；

权重调整模块，适于依据所述词频数调整所述分词词典中特征词条的权重；

第二分词处理模块，适于依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理，确定目标候选分词。

所述第一分词处理模块还适于：

所述词频数统计模块还适于：

可选地，所述权重调整模块还适于：

可选地，所述第二分词处理模块还适于：

本发明实施例在采用分词词典中的特征词条对文本信息进行分词处理出现歧义时，基于候选分词在网页中表征语境的词频数调整分词词典中特征词条的权重，以及依据调整权重后特征词条对文本信息进行分词处理，确定目标候选分词，基于语境辅助分词处理，充分考虑了自然语言的特性，有效降低歧义对分词处理的影响，提升了分词的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种基于语境进行分词的方法实施例的步骤流程图；以及

图2示出了根据本发明一个实施例的一种基于语境进行分词的装置实施例的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，示出了根据本发明一个实施例的一种基于语境进行分词的方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，提取提取搜索资源中网页的文本信息；

在具体实现中，可以通过爬虫(Spider)等方式抓取网页并保存在网页数据库中形成大量的搜索资源，而网页内容中可以包括大量的文本信息。则在本发明实施例中，可以从网页数据库中提取搜索资源中网页内容的文本信息。

步骤102，采用分词词典中的特征词条对所述文本信息进行分词处理，获得一个或多个候选分词；

分词处理是自然语言处理中最基本的一个步骤，在实际中产生了很多不同的分词方法，这些方法大体上可以分为两类：基于词典匹配的方法和基于统计的方法。

基于词典的方法可以是利用分词词典作为主要的资源，采用机械匹配法的基本思想，即事先建立一个分词词典(又称词库)，其中可以包含可能出现的词条，对给定的待分词的文本信息，按照某种确定的分词规则切取文本信息中的字符串，若该字符串与分词词典中的某词条相匹配，则可以认为该字符串是候选分词，插入切分标志，继续分割剩余的部分，直到剩余部分为空；否则，可以认为该字符串不是候选分词，重新切取文本信息的字符串进行下一次匹配。

在本发明的一种可选实施例中，所述候选分词可以包括第一候选分词和第二候选分词中的至少一个；则在本发明实施例中，步骤102可以包括如下子步骤：

子步骤S11，按照第一分词规则对所述文本信息进行与所述特征词条进行匹配；

子步骤S12，当所述文本信息进行与所述特征词条进行匹配时，提取所述特征词条作为第一候选分词；

子步骤S13，按照第二分词规则对所述文本信息进行与所述特征词条进行匹配；

子步骤S14，当所述文本信息进行与所述特征词条进行匹配时，提取所述特征词条作为第二候选分词；

基于分词词典的分词方法的通常可以包括三个要素，分别为分词词典、文本信息扫描顺序和匹配规则。

其中，分词词典通常可以包括通用的分词词典和专业的分词词典等等。

通用的分词词典可以是适用于通用领域的分词词典，即没有特定的领域中的技术术语划分，其主要包含通用的、出现频率高于第一预设阈值的词条。具体地，通用的分词词典中可以包括通用词和确定意义词。通用词可以包括形容词、连词和一些通用意义的动词，例如“高兴”、“但是”、“参加”等。

专业的分词词典可以为适用于某个特定领域的分词词典，其主要包含某个特定领域中出现频率高于第二预设阈值的词条，比如中草药领域的当归、草乌等。

文本信息扫描顺序可以包括正向扫描、逆向扫描和双向扫描等等。

正向扫描可以是指从待切分的文本信息的第一个字符往后扫描，而逆向扫描可以是指从待切分的文本信息的最后一个字符串往前扫描。双向扫描则可以是正向扫描和逆向扫描的组合。

匹配规则可以包括最大匹配、最小匹配、逐词匹配和最佳匹配等。

常见的基于词典的分词规则可以包括正向最大匹配法(MM)、反向最大匹配法(RMM)、双向扫描法、逐词遍历法、最佳匹配法等等、切分标志法、有穷多层列举法等等。

以下以第一分词规则为正向最大匹配法、第二分词规则为反向最大匹配法为例进行说明。

正向最大匹配法的目的是将最长的复合词从文本信息中分离出来。

具体而言，假定分词词典中的最长词条长度是k，则用待分词的文本信息中前k个字符串作为匹配字段查找分词词典，若词典中存在这样一个长度为k的词条，则匹配成功。匹配成功的字符串被作为第一候选分词被切分出来。

如果分词词典中找不到这样的一个长度为k的词条，则匹配失败。将待匹配的字符串中的最后一个字符去掉，对剩下的字符串重新进行匹配处理，如此进行下去，直到匹配成功，切分出一个第一候选分词或剩余字符串的长度为零为止。这样就完成了一轮匹配，然后取下一个长度为k的字符串进行匹配处理，直到文本信息被扫描完为止。

反向最大匹配法和正向最大匹配法的思想相似，不同之处在于它是从句子的最后的k个字符串开始切分，每次匹配不成功时，去掉字符串前面的一个字符。

当然，上述分词规则只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他分词规则，本发明实施例对此不加以限制。另外，除了上述分词规则外，本领域技术人员还可以根据实际需要采用其它分词规则，本发明实施例对此也不加以限制。

步骤103，当所述分词处理出现歧义时，统计所述候选分词在所述网页中表征语境的词频数；

自然语言可以指人类历史发展过程中自然产生、约定俗成的用于人类社会交际的语言，如汉语、英语、俄语等。

一个句子在给定的语言环境中，一般认为只有一种分析结果是正确的，但是在其他语言环境中，则可能如果出现不同的分析结果。

例如，对于文本信息“我等你开车”，可以存在两种理解，一种理解是等你来了我再开车(即我开车)，另一种理解是我在等着你开车(即你开车)。

若给定一部合理的语法和一个句子，通过自然语言处理按照这部语法可能给出一种以上的分析结果，那么这些分析结果中则存在分析歧义。

例如，据统计，正向最大匹配法的差错率大概为1/169，而逆向最大匹配法的差错率大概为1/245，即逆向最大匹配法和正向最大匹配法都存在不同程度的误差。

例如，对于文本信息“小面的”，单从这三个字是无从判断到底是“小面/的”，还是“小/面的”，或者其他的词语组成。因此，在分词处理时，可能获得“小面/的”、“小/面的”或者其他的分词结果。

在本发明的一种可选实施例中，所述表征语境的词频数可以包括所述第一候选分词在所述网页的文本语言环境中的第一词频数，所述第二候选分词在所述网页的文本语言环境中的第二词频数；则在本发明实施例中，步骤103可以包括如下子步骤：

子步骤S21，当对同一个文本信息进行分词处理所获得的所述第一候选分词和所述第二候选分词不同时，判断所述分词处理出现歧义；

子步骤S22，分别统计所述第一候选分词在所述网页中的文本语言环境中的第一词频数，以及，所述第二候选分词在所述网页中的文本语言环境中的第二词频数。

本发明实施例中，可以在分词处理的过程中充分利用文本信息所在网页中的文本语言环境辅助进行消歧(消除歧义)，该文本语言环境可以表现为短语、句子、段落、文章等形式。

例如，对于文本信息“小面的”，基于第一分词规则(如正向最大匹配法)所获得的第一候选分词为“小面”和“的”，基于第二分词规则(如反向最大匹配法)所获得的第二候选分词为“小”和“面的”，即第一候选分词与第二候选分词不同，出现歧义。

如果把文本信息“小面的”放入更完整的句子(文本语言环境)中可以有助于消歧。结合上下文可知，“小面的”是从“重庆小面的做法”中提取的。显然，“重庆小面的做法”比“小面的”的语义更为清楚，使得分词处理更加准确。

“重庆小面的做法”这个短语对于人来理解一般比较充分了，但是对于基于统计的分词处理来说，一般是不够的。原因主要有两个，第一个原因是，“小面”可能是个很不常见的词；第二个原因是，“面的”的使用频率要比“小面”高不少。

因此，本示例中可以采用更大范围的文本语言环境，如文章，以统计“小面”和“面的”的词频数。

以下截取“小面的”所在文章(一篇讲解如何烹饪重庆小面的文章)的其中一段为例进行说明：

“重庆人喜食麻辣，小面可谓集川菜麻辣之大成，一碗好吃的小面必是有一碗好吃的作料方能吸引食客，必备的作料有九种：酱油、味精、油辣子海椒、花椒面、姜蒜水、猪油、葱花、榨菜粒、芝麻酱。”

其中，第一候选分词“小面”的第一词频数为2，第二候选分词“面的”的第二词频数为0。

步骤104，依据所述词频数调整所述分词词典中特征词条的权重；

一个作者在撰写一篇文章的时候，通常会有一个确定的主题，即一个确定的文本语言环境，使得语义明确。

一篇文章中描述的内容是有连贯性的，所以文章中相关的词语会在短语、句子、段落、文章等频繁出现。

在本发明的一种可选实施例中，步骤104可以包括如下子步骤：

子步骤S31，当所述第一词频数大于所述第二词频数时，提高所述第一候选分词对应的特征词条在所述分词词典中的权重；

子步骤S32，当所述第二词频数大于所述第一词频数时，提高所述第二候选分词对应的特征词条在所述分词词典中的权重。

例如，对于文本信息“小面的”，在其所属文章中，“小面”的词频数会有大幅的提升，远高于“面的”的词频数，则可以相对应提高“小面”的权重。

需要说明的是，若第一候选分词或第二候选分词适配于文本信息所在的文本语言环境时，第一候选分词或第二候选分词对应的特征词条的权重会提高，但并不是提高在分词词典中的特征词条的权重，而是相当于提高分词词典中应用于该文本信息的特征词条适配的权重。

步骤105，依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理，确定目标候选分词。

在调整权重后，可以继续进行分词处理。

在本发明的一种可选实施例中，步骤105可以包括如下子步骤：

子步骤S41，按照指定的分词规则对所述文本信息与提高权重后的所述特征词条进行匹配；

子步骤S42，当所述文本信息进行与所述特征词条进行匹配时，提取所述特征词条作为目标候选分词。

指定的分词规则可以为第一分词规则、第二分词规则，也可以为其他的分词规则，本发明实施例对此不加以限制。

例如，对于文本信息“小面的”，“面的”的使用频率要比“小面”高，使得“面的”的权重初始要比“小面”高，但是在基于文本语言环境提高了“小面”的权重后，可以获得“小面的”的分词结果“小面”和“的”，以实现歧义消除。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，示出了根据本发明一个实施例的一种基于语境进行分词的装置实施例的结构框图，具体可以包括如下模块：

文本信息提取模块201，适于提取搜索资源中网页的文本信息；

第一分词处理模块202，适于采用分词词典中的特征词条对所述文本信息进行分词处理，获得一个或多个候选分词；

词频数统计模块203，适于在所述分词处理出现歧义时，统计所述候选分词在所述网页中表征语境的词频数；

权重调整模块204，适于依据所述词频数调整所述分词词典中特征词条的权重；

第二分词处理模块205，适于依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理，确定目标候选分词。

在本发明的一种可选实施例中，所述候选分词可以包括第一候选分词和第二候选分词中的至少一个；

所述第一分词处理模块202还可以适于：

在本发明的一种可选实施例中，所述表征语境的词频数可以包括所述第一候选分词在所述网页的文本语言环境中的第一词频数，所述第二候选分词在所述网页的文本语言环境中的第二词频数；

所述词频数统计模块203还可以适于：

在本发明的一种可选实施例中，所述权重调整模块204还可以适于：

在本发明的一种可选实施例中，所述第二分词处理模块205还可以适于：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于语境进行分词的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种基于语境进行分词的方法，包括：

提取搜索资源中网页的文本信息；

依据所述词频数调整所述分词词典中特征词条的权重；

2.如权利要求1所述的方法，其特征在于，所述候选分词包括第一候选分词和第二候选分词中的至少一个；

3.如权利要求1或2所述的方法，其特征在于，所述表征语境的词频数包括所述第一候选分词在所述网页的文本语言环境中的第一词频数，所述第二候选分词在所述网页的文本语言环境中的第二词频数；

4.如权利要求1或2或3所述的方法，其特征在于，所述依据所述词频数调整所述分词词典中特征词条的权重的步骤包括：

5.如权利要求1或2或3或4所述的方法，其特征在于，所述依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理，确定目标候选分词的步骤包括：

6.一种基于语境进行分词的装置，包括：

文本信息提取模块，适于提取搜索资源中网页的文本信息；

7.如权利要求6所述的装置，其特征在于，所述候选分词包括第一候选分词和第二候选分词中的至少一个；

所述第一分词处理模块还适于：

8.如权利要求6或7所述的装置，其特征在于，所述表征语境的词频数包括所述第一候选分词在所述网页的文本语言环境中的第一词频数，所述第二候选分词在所述网页的文本语言环境中的第二词频数；

所述词频数统计模块还适于：

9.如权利要求6或7或8所述的装置，其特征在于，所述权重调整模块还适于：

10.如权利要求6或7或8或9所述的装置，其特征在于，所述第二分词处理模块还适于：