CN105550170A

CN105550170A - 一种中文分词方法及装置

Info

Publication number: CN105550170A
Application number: CN201510924974.3A
Authority: CN
Inventors: 韦强申; 刘鹏
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2016-05-04
Anticipated expiration: 2035-12-14
Also published as: CN105550170B

Abstract

本发明实施例公开了一种中文分词方法及装置。该方法包括：将文本集切分为多个短句，并为多个短句编号；对于文本集中的每个中文字符，获取当前中文字符对应的第一短句编号列表，获取与当前中文字符右相邻的邻接中文字符对应的第二短句编号列表，根据第一短句编号列表和第二短句编号列表计算共现度；获取当前中文字符对应的邻接字符集，根据邻接字符集计算邻接相关度；根据共现度和邻接相关度确定是否将当前中文字符和邻接中文字符组成的词语加入候选词集；根据候选词集对所述文本集进行分词。该方法在确定候选词集时计算量小，准确度高，可有效提升分词结果的准确度以及提高分词效率，且该方法不依赖语料词典，可实现无监督的候选词汇提取。

Description

一种中文分词方法及装置

技术领域

本发明实施例涉及自然语言技术领域，尤其涉及一种中文分词方法及装置。

背景技术

中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。中文以字为基本的书写单位，词与词之间没有类似英文空格之类用于标识词边界的符号，因此，对中文文本中的每个句子进行分词，是中文文本分析处理中的难题。

中文分词技术主要有基于机械匹配的中文分词算法，基于统计语言模型(StatisticalLanguageModel，SLM)的中文分词方法，基于人工智能技术的中文分词方法。其中，基于统计语言模型的分词方法，通过统计文本上下文汉字与汉字相邻共现的组合频率，依据汉字组合的统计信息实现文本分词。基于统计语言模型与机械匹配相结合的方法，分词的效率和准确率相对较高，实现比较简单，是现在普遍采用的中文分词方法之一。

目前，基于统计语言模型的分词方法主要有串频统计和汉字相关度两种方法。基于串频统计的方法，依据字串的频率提取候选词，会将文本中一些随机出现的高频组合识别为候选词，而且该方法需要给出停止词表，不能很好的识别包含停止词的候选词，因而影响分词准确度；基于汉字相关度的方法，对相关度较高的词汇识别准确率较高，对相关度低的词汇识别准确度较低，并且该方法在计算相关度时算法复杂，计算量较大，影响分词效率。

发明内容

本发明实施例的目的是提供一种中文分词方法及装置，以解决现有的中文分词方案存在的准确度不足以及效率低的问题。

一方面，本发明实施例提供了一种中文分词方法，包括：

将文本集切分为多个短句，并为所述多个短句编号，其中，所述文本集包含至少一个文本；

对于所述文本集中的每个中文字符，获取当前中文字符对应的第一短句编号列表，获取与所述当前中文字符右相邻的邻接中文字符对应的第二短句编号列表，根据所述第一短句编号列表和所述第二短句编号列表计算所述当前中文字符和所述邻接中文字符的共现度；获取所述当前中文字符对应的邻接字符集，根据所述邻接字符集计算所述当前中文字符和所述邻接中文字符的邻接相关度；根据所述共现度和所述邻接相关度确定是否将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集；

根据所述候选词集对所述文本集进行分词。

另一方面，本发明实施例提供了一种中文分词装置，包括：

文本集切分模块，用于将文本集切分为多个短句，并为所述多个短句编号，其中，所述文本集包含至少一个文本；

第一短句编号列表获取模块，用于对于所述文本集中的每个中文字符，获取当前中文字符对应的第一短句编号列表；

第二短句编号列表获取模块，用于获取与所述当前中文字符右相邻的邻接中文字符对应的第二短句编号列表；

共现度计算模块，用于根据所述第一短句编号列表和所述第二短句编号列表计算所述当前中文字符和所述邻接中文字符的共现度；

邻接字符集获取模块，用于获取所述当前中文字符对应的邻接字符集；

邻接相关度计算模块，用于根据所述邻接字符集计算所述当前中文字符和所述邻接中文字符的邻接相关度；

候选词集加入模块，用于根据所述共现度和所述邻接相关度确定是否将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集；

分词模块，用于根据所述候选词集对所述文本集进行分词。

本发明实施例中提供的中文分词方案，将文本集切分为多个短句，计算中文字符以及与中文字符右相邻的邻接中文字符的共现度和邻接相关度，以共现度来衡量中文字符和邻接中文字符同时出现在同一个短句中的情况，以邻接相关度来衡量中文字符和邻接中文字符左右相邻出现的情况，并根据共现度和相关度综合衡量中文字符和邻接中文字符组成词语的概率，进而确定是否将组成的词语加入候选词集，最后根据候选词集对文本集进行分词。该方案在确定候选词集时计算量小，准确度高，可以排除高频单字对词汇提取的影响，所以可有效提升分词结果的准确度以及提高分词效率。此外，该方案不依赖语料词典，可实现无监督的候选词汇提取。

附图说明

图1为本发明实施例提供的现有的基于串频统计的中文分词方法的流程示意图；

图2为本发明实施例提供的现有的基于汉字相关度的中文分词方法的流程示意图；

图3为本发明实施例一提供的一种中文分词方法的流程示意图；

图4为本发明实施例二提供的一种中文分词方法的流程示意图；

图5为本发明实施例三提供的一种中文分词装置的结构框图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

首先，对现有的串频统计和汉字相关度两种中文分词方法做简单介绍。

图1为本发明实施例提供的现有的基于串频统计的中文分词方法的流程示意图。如图1所示，该方法包括以下步骤：

步骤101、输入单文本。

步骤102、通过中文标点符号和常用高频单字对文本分别进行显式和隐式切分，形成多个字串列表。

例如，常用高频单字可以是“的”和“是”等，由这些常用高频单字构成了停止词表。依据标点符号进行切分的方式为显示切分，依据停止词表进行切分的方式为隐式切分。

步骤103、通过滑动窗口统计窗口内子串出现的频次及字串长度，设定阈值，提取出滑动窗口内子串为候选词。

步骤104、遍历文本，产出候选词集。

步骤105、依据候选词集，对文本进行分词。

由上述步骤可知，该方法依据字串的频率提取候选词，会将文本中一些随机出现的高频组合识别为候选词，而且该方法需要给出停止词表，不能很好的识别含停止词的候选词，因而影响分词准确度。

图2为本发明实施例提供的现有的基于汉字相关度的中文分词方法的流程示意图，如图2所示，该方法包括以下步骤：

步骤101、输入单文本。

步骤102、遍历文本，统计字符出现的频次，计算相邻字符的卡方统计量来表示相邻字符的相关度，字串的长度为权重。

步骤103、获取相关度和权重乘积最大的多个连续字符加入候选词集。

步骤104、依据候选词集，对文本进行分词。

由上述步骤可知，该方法对相关度较高的词汇识别准确率较高，对相关度低的词汇识别准确度较低，并且该方法在计算相关度时需要计算卡方统计量，算法复杂，计算量较大，影响分词效率。

实施例一

图3为本发明实施例一提供的一种中文分词方法的流程示意图，该方法可以由中文分词装置执行。如图3所示，该方法包括：

步骤301、将文本集切分为多个短句，并为多个短句编号。

其中，所述文本集包含至少一个文本。

示例性的，用于执行本实施例方法的装置可由软件和/或硬件实现，可集成于用于提供分词或检索等服务的服务端。

本实施例中，文本集可被切分为n个短句，可将短句依次编号为1,2，…n。

优选的，可依据中文标点符号将文本集切分为多个短句，并为多个短句编号。

优选的，当文本集包含多个文本时，可进一步提高候选词的筛选准确度，进而提高分词结果准确度。

步骤302、对于文本集中的每个中文字符，获取当前中文字符对应的第一短句编号列表，获取与当前中文字符右相邻的邻接中文字符对应的第二短句编号列表，根据第一短句编号列表和第二短句编号列表计算当前中文字符和邻接中文字符的共现度；获取当前中文字符对应的邻接字符集，根据邻接字符集计算当前中文字符和邻接中文字符的邻接相关度；根据共现度和邻接相关度确定是否将当前中文字符和邻接中文字符组成的词语加入候选词集。

示例性的，“对于文本集中的每个中文字符”中的每个中文字符既包括不同的中文字符，又包括相同的字符。例如，“计算机是一种用于高速计算的电子计算机器”这句话中，“算”字出现了三次，与第一个“算”字右相邻的为“机”，与第二个“算”字右相邻的为“的”，与第三个“算”字右相邻的为“机”；而对于每个“机”，与其右相邻的分别为“是”和“器”。所以，三个“算”字所处位置不同，与其相邻的字符也不同，需要对这句话中的三个“算”字分别执行本步骤来确定候选词。

示例性的，第一短句编号列表是包含当前中文字符的短句对应的短句编号的列表；第二短句编号列表是包含邻接中文字符的短句对应的短句编号的列表。例如，文本集被切分为8个短句，短句编号依次为1、2、3、4、5、6、7和8。当前中文字符在编号为1、3、5和6的短句中出现，那么第一短句编号列表可记为{1,3,5,6}，与当前中文字符右相邻的邻接中文字符在编号为1、2、4和6的短句中出现，那么第二短句编号列表可记为{1,2,4,6}。

由上述例子可知，当前中文字符和邻接中文字符同时在短句编号为1和6的短句中出现，本实施例以共现度来衡量当前中文字符和邻接中文字符同时出现在同一个短句中的情况，可根据第一短句编号列表和第二短句编号列表计算得出，具体计算方式本实施例不作具体限定。例如，可统计两个短句编号列表中出现相同短句编号的次数，以及该次数占短句总数的比例。

示例性的，邻接字符集是在多个短句中与当前中文字符右相邻出现的所有中文字符的集合。例如上述举例，“计算机是一种用于高速计算的电子计算机器”，假设当前中文字符为“算”，那么与“算”右相邻出现的中文字符分别为“机”、“的”和“机”，本实施例中的“所有中文字符的集合”包括两个“机”和一个“的”，也就是说包括重复出现的中文字符；假设当前中文字符为“器”，没有与其右相邻的中文字符，可记为空或不做记录。

由上述例子可知，“机”与当前中文字符“算”右相邻出现了2次，与“的”相比，更容易被确定为候选词。本实施例以邻接相关度来衡量中文字符和邻接中文字符左右相邻的情况，可根据邻接字符集计算得出，具体计算方式本实施例不作具体限定。

示例性的，共现度越高，组成的词语越有可能成为候选词，邻接相关度越高，组成的词语越有可能成为候选词，可将共现度和邻接相关度都超过一定阈值的当前中文字符和邻接中文字符组成的词语加入候选词集。

步骤303、根据候选词集对文本集进行分词。

根据候选词集对文本集进行分词的具体过程可参照现有的分词技术，本实施例不作具体限定。示例性的，根据候选词集切分文本集，并输出分词序列。

本发明实施例一提供的中文分词方法，将文本集切分为多个短句，计算中文字符以及与中文字符右相邻的邻接中文字符的共现度和邻接相关度，以共现度来衡量中文字符和邻接中文字符同时出现在同一个短句中的情况，以邻接相关度来衡量中文字符和邻接中文字符左右相邻出现的情况，并根据共现度和相关度综合衡量中文字符和邻接中文字符组成词语的概率，进而确定是否将组成的词语加入候选词集，最后根据候选词集对文本集进行分词。该方法在确定候选词集时计算量小，准确度高，可以排除高频单字对词汇提取的影响，所以可有效提升分词结果的准确度以及提高分词效率。此外，该方法不依赖语料词典，可实现无监督的候选词汇提取。

实施例二

图4为本发明实施例二提供的一种中文分词方法的流程示意图，本实施例以上述实施例为基础进行优化，在本实施例中，在对于文本集中的每个中文字符，获取当前中文字符对应的第一短句编号列表之前，增加步骤：确定文本集中所有不同中文字符对应的短句编号列表和邻接字符集。这样做的好处在于，在对每个中文字符进行处理时，可直接从确定好的所有的短句编号列表和邻接字符集中获取当前中文字符对应的短句编号列表和邻接字符集、以及直接获取邻接中文字符对应的短句编号列表，提高处理速度。

进一步的，本实施例还对共现度和邻接相关度的计算过程进行了优化。

进一步的，本实施例还对确定是否将当前中文字符和邻接中文字符组成的词语加入候选词集的步骤进行了优化。

相应的，本实施例的方法包括如下步骤：

步骤401、将文本集切分为多个短句，并为多个短句编号。

其中，文本集包含至少一个文本。

示例性的，输入文本集，依据中文标点符号将文本集切分为n个短句，并将n个短句依次编号为1,2，…n。

步骤402、确定文本集中所有不同中文字符对应的短句编号列表和邻接字符集。

示例性的，遍历文本集，提取文本集中所有不同中文字符，构造出字符集(构造字符集的操作也可在短句切分之前完成)。遍历字符集，判断字符集中的当前中文字符是否在短句i(1≤i≤n)中，若存在，记录短句编号i，若不存在，则不作记录，从而确定当前中文字符对应的短句编号列表；获取当前中文字符右邻接的中文字符，加入邻接字符集中，若当前字符右邻接的字符为非中文字符，可将右邻接字符标记为空，从而确定当前中文字符对应的邻接字符集。最后，可输出字符集中的每个中文字符与对应短句编号列表的映射关系表，以及输出字符集中的每个中文字符与邻接字符集的映射关系表，以便后续使用。

步骤403、获取当前中文字符对应的第一短句编号列表。

步骤404、获取与当前中文字符右相邻的邻接中文字符对应的第二短句编号列表。

步骤405、根据第一短句编号列表和第二短句编号列表计算当前中文字符和邻接中文字符的共现度。

示例性的，本步骤可具体包括：根据第一短句编号列表确定当前中文字符所在短句的第一位置向量，根据第二短句编号列表确定邻接中文字符所在短句的第二位置向量，计算第一位置向量和第二位置向量的夹角的余弦值，得到当前中文字符和邻接中文字符的共现度。

其中，对于多个短句的每个短句，当第一短句编号列表中包含当前短句的短句编号时，第一位置向量中对应所述当前短句的数值为1，否则，第一位置向量中对应当前短句的数值为0；当第二短句编号列表中包含当前短句的短句编号时，第二位置向量中对应当前短句的数值为1，否则，第二位置向量中对应当前短句的数值为0。

例如，如实施例一中的例子，第一短句编号列表为{1,3,5,6}，第二短句编号列表为{1,2,4,6}，那么可确定第一位置向量为(1,0,1,0,1,1,0,0)，第二位置向量为(1,1,0,1,0,1,0,0)，可计算第一位置向量和第二位置向量的夹角的余弦值，得到当前中文字符和邻接中文字符的共现度。

优选的，在步骤402中确定文本集中所有不同中文字符对应的短句编号列表之后，还可继续根据短句编号列表确定相应的向量，以便在步骤403和步骤404中直接获取当前中文字符对应的第一位置向量，以及直接获取与当前中文字符右相邻的邻接中文字符对应的第二位置向量。

进一步的，可根据以下公式计算当前中文字符和邻接中文字符的共现度，

c o - o c c u r D e g r e e (x, y) = \frac{x_{1} y_{1} + x_{2} y_{2} + L + x_{n} y_{n}}{\sqrt{{x_{1}}^{2} + {x_{2}}^{2} + {Lx}_{n}^{2}} \cdot \sqrt{{y_{1}}^{2} + {y_{2}}^{2} + {Ly}_{n}^{2}}}

其中，1,2，…n为短句编号，x为当前中文字符，y为与当前中文字符右相邻的邻接中文字符，co-occurDegree(x,y)为x和y的共现度，第一位置向量表示为(x₁,x₂,…x_n)，第二位置向量表示为(y₁,y₂,…y_n)，x₁，x₂，…x_n分别表示第一位置向量中对应短句编号为1,2，…n的短句的数值，y₁，y₂，…y_n表示第二位置向量中对应短句编号为1,2，…n的短句的数值。

步骤406、获取当前中文字符对应的邻接字符集，根据邻接字符集计算当前中文字符和邻接中文字符的邻接相关度。

示例性的，本步骤可具体包括：计算邻接中文字符在邻接字符集中出现的总次数与邻接字符集中包含的所有中文字符的总数的比值，得到当前中文字符和邻接中文字符的邻接相关度。

进一步的，可根据以下公式计算当前中文字符和邻接中文字符的邻接相关度，

r e l a t i o n D e g r e e (x, y) = \frac{c o u n t (y)}{s u m}

其中，1,2，…n为短句编号，x为当前中文字符，y为与当前中文字符右相邻的邻接中文字符，relationDegree(x,y)为x和y的邻接相关度，count⁽y⁾为y在x对应的邻接字符集中出现的总次数，sum为x对应的邻接字符集中包含的所有中文字符的总数。

步骤407、判断是否满足共现度大于共现度阈值并且邻接相关度大于邻接相关度阈值，若是，则执行步骤408；否则，执行步骤409。

示例性的，本实施例中得到的共现度和邻接相关度一般为0到1中间的浮点数。共现度阈值和邻接相关度阈值可根据实际情况进行调整，典型的，可将共现度阈值设定为0.6，可将邻接相关度阈值设定为0.6。

步骤408、将当前中文字符和邻接中文字符组成的词语加入候选词集，执行步骤409。

步骤409、判断当前中文字符是否为文本集中的最后一个中文字符，若是，则执行步骤411；否则，执行步骤410。

步骤410、将当前中文字符的下一个中文字符作为新的当前中文字符，并返回执行步骤403。

步骤411、根据候选词集对文本集进行分词。

本发明实施例二提供的中文分词方法，通过计算第一位置向量和第二位置向量的夹角的余弦值，得到当前中文字符和邻接中文字符的共现度，并计算邻接中文字符在邻接字符集中出现的总次数与邻接字符集中包含的所有中文字符的总数的比值，得到当前中文字符和邻接中文字符的邻接相关度。当共现度大于共现度阈值并且邻接相关度大于邻接相关度阈值时，将当前中文字符和邻接中文字符组成的词语加入候选词集。该方法在确定候选词时，计算量小，准确度高，可进一步提升分词结果的准确度以及提高分词效率。

在上述实施例的基础上，为了便于确定文本集中较长的词语为候选词，还可做如下优化：对于当前中文字符，当共现度大于共现度阈值，并且邻接相关度大于邻接相关度阈值时，将当前中文字符和邻接中文字符拼接成临时词；计算邻接中文字符和与邻接中文字符右相邻的第三中文字符的第二共现度和第二邻接相关度，当第二共现度小于共现度阈值或者第二邻接相关度小于所述邻接相关度阈值时，将临时词加入候选词集。例如，上文中的例子，“计算机是一种用于高速计算的电子计算机器”，在当前中文字符为第一个“计”时，“计”和“算”的共现度大于共现度阈值，并且邻接相关度大于邻接相关度阈值，可将“计”和“算”拼接成临时词“计算”，然后再计算“算”和“机”的第二共现度和第二邻接相关度。如果第二共现度小于共现度阈值或者第二邻接相关度小于邻接相关度阈值，则将“计算”加入候选词集；如果第二共现度大于共现度阈值并且第二邻接相关度大于邻接相关度阈值，则将“计算”和“机”拼接成临时词，再计算“机”和“是”的第三共现度和第三邻接相关度，依次类推，可便于字符扩散，提取出文本中较长的词汇，并加入候选词集。

实施例三

图5为本发明实施例三提供的一种中文分词装置的结构框图，该装置可由软件和/或硬件实现，可通过执行本发明实施例的中文分词方法来对中文文本进行分词处理。典型的，该装置可集成于用于提供分词或检索等服务的服务端。如图5所示，该装置包括文本集切分模块501、第一短句编号列表获取模块502、第二短句编号列表获取模块503、共现度计算模块504、邻接字符集获取模块505、邻接相关度计算模块506、候选词集加入模块507和分词模块508。

其中，文本集切分模块501，用于将文本集切分为多个短句，并为所述多个短句编号，其中，所述文本集包含至少一个文本；第一短句编号列表获取模块502，用于对于所述文本集中的每个中文字符，获取当前中文字符对应的第一短句编号列表；第二短句编号列表获取模块503，用于获取与所述当前中文字符右相邻的邻接中文字符对应的第二短句编号列表；共现度计算模块504，用于根据所述第一短句编号列表和所述第二短句编号列表计算所述当前中文字符和所述邻接中文字符的共现度；邻接字符集获取模块505，用于获取所述当前中文字符对应的邻接字符集；邻接相关度计算模块506，用于根据所述邻接字符集计算所述当前中文字符和所述邻接中文字符的邻接相关度；候选词集加入模块507，用于根据所述共现度和所述邻接相关度确定是否将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集；分词模块508，用于根据所述候选词集对所述文本集进行分词。

本发明实施例三提供的中文分词装置，将文本集切分为多个短句，计算中文字符以及与中文字符右相邻的邻接中文字符的共现度和邻接相关度，以共现度来衡量中文字符和邻接中文字符同时出现在同一个短句中的情况，以邻接相关度来衡量中文字符和邻接中文字符左右相邻的情况，并根据共现度和相关度综合衡量中文字符和邻接中文字符组成词语的概率，进而确定是否将组成的词语加入候选词集，根据候选词集对文本集进行分词。该装置在确定候选词集时计算量小，且准确度高，可以排除高频单字对词汇提取的影响，所以可有效提升分词结果的准确度以及提高分词效率。此外，该方案不依赖语料词典，可实现无监督的候选词汇提取。

在上述实施例的基础上，所述候选词集加入模块具体可用于：当所述共现度大于共现度阈值并且所述邻接相关度大于邻接相关度阈值时，将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集。

在上述实施例的基础上，所述候选词集加入模块具体可用于：

当所述共现度大于共现度阈值，并且所述邻接相关度大于邻接相关度阈值时，将所述当前中文字符和所述邻接中文字符拼接成临时词；

计算所述邻接中文字符和与所述邻接中文字符右相邻的第三中文字符的第二共现度和第二邻接相关度，当所述第二共现度小于所述共现度阈值或者所述第二邻接相关度小于所述邻接相关度阈值时，将所述临时词加入候选词集。

在上述实施例的基础上，所述第一短句编号列表是包含所述当前中文字符的短句对应的短句编号的列表；所述第二短句编号列表是包含所述邻接中文字符的短句对应的短句编号的列表；所述邻接字符集是在所述多个短句中与所述当前中文字符右相邻出现的所有中文字符的集合。

在上述实施例的基础上，该装置还可包括：确定模块，用于在对于所述文本集中的每个中文字符，获取当前中文字符对应的第一短句编号列表之前，确定所述文本集中所有不同中文字符对应的短句编号列表和邻接字符集。

在上述实施例的基础上，所述共现度计算模块具体可用于：

根据所述第一短句编号列表确定所述当前中文字符所在短句的第一位置向量，根据所述第二短句编号列表确定所述邻接中文字符所在短句的第二位置向量，计算所述第一位置向量和所述第二位置向量的夹角的余弦值，得到所述当前中文字符和所述邻接中文字符的共现度；

其中，对于所述多个短句的每个短句，当所述第一短句编号列表中包含当前短句的短句编号时，所述第一位置向量中对应所述当前短句的数值为1，否则，所述第一位置向量中对应所述当前短句的数值为0；当所述第二短句编号列表中包含当前短句的短句编号时，所述第二位置向量中对应所述当前短句的数值为1，否则，所述第二位置向量中对应所述当前短句的数值为0；

所述邻接相关度计算模块具体用于：

计算所述邻接中文字符在所述邻接字符集中出现的总次数与所述邻接字符集中包含的所有中文字符的总数的比值，得到所述当前中文字符和所述邻接中文字符的邻接相关度。

在上述实施例的基础上，所述共现度计算模块具体用于：

根据以下公式计算所述当前中文字符和所述邻接中文字符的共现度，

c o - o c c u r D e g r e e (x, y) = \frac{x_{1} y_{1} + x_{2} y_{2} + L + x_{n} y_{n}}{\sqrt{{x_{1}}^{2} + {x_{2}}^{2} + {Lx}_{n}^{2}} \cdot \sqrt{{y_{1}}^{2} + {y_{2}}^{2} + {Ly}_{n}^{2}}}

所述邻接相关度计算模块具体用于：

根据以下公式计算所述当前中文字符和所述邻接中文字符的邻接相关度，

r e l a t i o n D e g r e e (x, y) = \frac{c o u n t (y)}{s u m}

在上述两个公式中，1,2，…n为短句编号，x为所述当前中文字符，y为与所述当前中文字符右相邻的邻接中文字符，co-occurDegree(x,y)为x和y的共现度，relationDegree(x,y)为x和y的邻接相关度，所述第一位置向量表示为(x₁,x₂,…x_n)，所述第二位置向量表示为(y₁,y₂,…y_n)，x₁，x₂，…x_n分别表示所述第一位置向量中对应短句编号为1,2，…n的短句的数值，y₁，y₂，…y_n表示所述第二位置向量中对应短句编号为1,2，…n的短句的数值，count⁽y⁾为y在x对应的邻接字符集中出现的总次数，sum为x对应的邻接字符集中包含的所有中文字符的总数。

在上述实施例的基础上，文本集切分模块具体可用于：

依据中文标点符号将文本集切分为多个短句，并为所述多个短句编号。

上述实施例中提供的中文分词装置可执行本发明任意实施例所提供的中文分词方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的中文分词方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种中文分词方法，其特征在于，包括：

根据所述候选词集对所述文本集进行分词。

2.根据权利要求1所述的方法，其特征在于，所述第一短句编号列表是包含所述当前中文字符的短句对应的短句编号的列表；所述第二短句编号列表是包含所述邻接中文字符的短句对应的短句编号的列表；所述邻接字符集是在所述多个短句中与所述当前中文字符右相邻出现的所有中文字符的集合。

3.根据权利要求2所述的方法，其特征在于，在对于所述文本集中的每个中文字符，获取当前中文字符对应的第一短句编号列表之前，还包括：

确定所述文本集中所有不同中文字符对应的短句编号列表和邻接字符集。

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一短句编号列表和所述第二短句编号列表计算所述当前中文字符和所述邻接中文字符的共现度，包括：

所述根据所述邻接字符集计算所述当前中文字符和所述邻接中文字符的邻接相关度，包括：

5.根据权利要求4所述的方法，其特征在于，所述计算所述第一位置向量和所述第二位置向量的夹角的余弦值，得到所述当前中文字符和所述邻接中文字符的共现度，包括：

c o - o c c u r D e g r e e (x, y) = \frac{x_{1} y_{1} + x_{2} y_{2} + L + x_{n} y_{n}}{\sqrt{{x_{1}}^{2} + {x_{2}}^{2} + {Lx}_{n}^{2}} \cdot \sqrt{{y_{1}}^{2} + {y_{2}}^{2} + {Ly}_{n}^{2}}}

所述计算所述邻接中文字符在所述邻接字符集中出现的次数与所述邻接字符集中包含的所有中文字符的总数的比值，得到所述当前中文字符和所述邻接中文字符的邻接相关度，包括：

r e l a t i o n D e g r e e (x, y) = \frac{c o u n t (y)}{s u n}

在上述两个公式中，1,2，…n为短句编号，x为所述当前中文字符，y为与所述当前中文字符右相邻的邻接中文字符，co-occurDegree(x,y)为x和y的共现度，relationDegree(x,y)为x和y的邻接相关度，所述第一位置向量表示为(x₁,x₂,…x_n)，所述第二位置向量表示为(y₁,y₂,…y_n)，x₁，x₂，…x_n分别表示所述第一位置向量中对应短句编号为1,2，…n的短句的数值，y₁，y₂，…y_n表示所述第二位置向量中对应短句编号为1,2，…n的短句的数值，count(y)为y在x对应的邻接字符集中出现的总次数，sum为x对应的邻接字符集中包含的所有中文字符的总数。

6.根据权利要求1所述的方法，其特征在于，根据所述共现度和所述邻接相关度确定是否将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集，包括：

当所述共现度大于共现度阈值并且所述邻接相关度大于邻接相关度阈值时，将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集。

7.根据权利要求6所述的方法，其特征在于，当所述共现度大于共现度阈值并且所述邻接相关度大于邻接相关度阈值时，将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集，包括：

8.根据权利要求1所述的方法，其特征在于，将文本集切分为多个短句，并为所述多个短句编号，包括：

9.一种中文分词装置，其特征在于，包括：

分词模块，用于根据所述候选词集对所述文本集进行分词。

10.根据权利要求9所述的装置，所述候选词集加入模块具体用于：