CN106970919A

CN106970919A - 新词组发现的方法及装置

Info

Publication number: CN106970919A
Application number: CN201610023524.1A
Authority: CN
Inventors: 史立华
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2017-07-21
Anticipated expiration: 2036-01-14
Also published as: CN106970919B

Abstract

本发明公开了一种新词组发现的方法及装置，涉及计算机技术领域，为解决现有发现新词组的方法中容易造成低频新词组遗漏的问题而发明。本发明的方法包括：获取候选新词组以及候选新词组的子字符串，候选新词组中包含多个词；根据候选新词组和子字符串的左右词缀的统计信息的关系计算词组内统计信息值；根据候选新词组的左右词缀的统计信息和候选新词组在语料中出现的频次计算词组间统计信息值；根据多个词和候选新词组的左右词缀的统计信息的关系计算合并收益值；根据词组内统计信息值、词组间统计信息值以及合并收益值计算得到候选新词组的成词组得分；根据成词组得分确定候选新词组是否为新词组。本发明适合应用在文本分析或者信息挖掘的过程中。

Description

新词组发现的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种新词组发现的方法及装置。

背景技术

随着信息传播方式的便捷化，网络上新信息产生的速度越来越快，信息量在不断的膨胀，由不同的词组成的新词组层出不穷，因而同一个词在不同的上下文背景中表达的含义往往是不同的，所以在文本处理或者信息挖掘中，单独的将词识别出来不能准确的判断该词的真实的含义，容易产生歧义。比如一个词为“苹果价格”，单独分析该词，它可以表示水果中的苹果的价格，也可以表示手机中苹果手机的价格，而词组“手机苹果价格”就可以清楚地表达词组的含义。因此新词组的发现对于文本的处理或者信息挖掘中等都非常重要。

通常的新词组的发现使用的是传统的统计学方法。具体的发现新词组的过程是：首先从用于发现新词组的语料中选出可能作为新词组的候选新词组；然后利用候选新词组中词与词的共现特征，即根据候选新词组中每个词单独出现的概率与候选新词组中的词同时出现的概率来获得词与词之间的统计信息，然后依据词与词之间的统计信息找出语料中的新词组。

上述传统的统计学方法发现新词组的过程中仅考虑词与词之间的统计信息，该种方法仅分析候选新词组中每个词单独出现的概率与候选新词组中的词同时出现的概率，因此对语料的依赖性较大。对于在不同领域的混合语料中，其中出现频率较低的新词组容易被过滤掉，造成新词组的遗漏。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种新词组发现的方法及装置。

为解决上述技术问题，一方面，本发明提供了一种新词组发现的方法，该方法包括：

获取候选新词组以及所述候选新词组的子字符串，所述候选新词组是在用于发现新词组的语料中出现的满足预设频次阈值的字符串，所述候选新词组中包含多个词；

根据所述候选新词组的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系，计算所述候选新词组的词组内统计信息值，所述左词缀为字符串左侧相邻的字符，所述右词缀为字符串右侧相邻的字符，所述词组内统计信息值用于表征所述候选新词组内部字符之间的聚合程度；

根据所述候选新词组的左右词缀的统计信息和所述候选新词组在所述语料中的出现的频次，计算所述候选新词组的词组间统计信息值，所述词组间统计信息值用于表征所述候选新词组与所述候选新词组相邻的字符搭配的固定程度；

根据所述多个词的左右词缀的统计信息和所述候选新词组的左右词缀的统计信息的关系，计算所述候选新词组的合并收益值，所述合并收益值用于表征所述多个词组合对确定候选新词组为新词组的贡献值；

根据所述词组内统计信息值、所述词组间统计信息值以及所述合并收益值计算得到所述候选新词组的成词组得分；

根据所述成词组得分确定所述候选新词组是否为新词组。

另一方面，本发明还提供了一种新词组发现的装置，该装置包括：

获取单元，用于获取候选新词组以及所述候选新词组的子字符串，所述候选新词组是在用于发现新词组的语料中出现的满足预设频次阈值的字符串，所述候选新词组中包含多个词；

第一计算单元，用于根据所述候选新词组的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系，计算所述候选新词组的词组内统计信息值，所述左词缀为字符串左侧相邻的字符，所述右词缀为字符串右侧相邻的字符，所述词组内统计信息值用于表征所述候选新词组内部字符之间的聚合程度；

第二计算单元，用于根据所述候选新词组的左右词缀的统计信息和所述候选新词组在所述语料中的出现的频次，计算所述候选新词组的词组间统计信息值，所述词组间统计信息值用于表征所述候选新词组与所述候选新词组相邻的字符搭配的固定程度；

第三计算单元，用于根据所述多个词的左右词缀的统计信息和所述候选新词组的左右词缀的统计信息的关系，计算所述候选新词组的合并收益值，所述合并收益值用于表征所述多个词组合对确定候选新词组为新词组的贡献值；

第四计算单元，用于根据所述词组内统计信息值、所述词组间统计信息值以及所述合并收益值计算得到所述候选新词组的成词组得分；

确定单元，用于根据所述成词组得分确定所述候选新词组是否为新词组。

本发明提供的新词组发现的方法及装置，能够首先在用于发现新词组的语料中获取满足预设频次阈值的字符串作为候选新词组，并获取候选新词组的子字符串，然后根据候选新词组的左右词缀的统计信息和对应的子字符串的左右词缀的统计信息的关系，计算候选新词组的词组内统计信息值，并根据候选新词组的左右词缀的统计信息和候选新词组在语料中出现的频次，计算候选新词组的词组间统计信息值，以及根据候选新词组中包含的多个词的左右词缀的统计信息和候选新词组的左右词缀的统计信息的关系，计算候选新词组的合并收益值，最后根据得到的词组内统计信息值、词组间统计信息值以及合并收益值计算候选新词组的成词组得分，并且根据成词组得分确定候选新词组是否为新词组。与现有技术相比，本发明能够通过在语料中选出候选新词组后，计算候选新词组的词组内统计信息值、词组间统计信息值以及合并收益值，然后根据这三个值计算成词组得分，进而来判断候选新词组是否可以成为新词组。另外在词组内统计信息值、词组间统计信息值以及合并收益值计算时使用的是候选新词组、候选新词组的子字符串以及候选新词组中包含的多个词的左右词组缀的统计信息，这些都是候选新词组附近的统计信息，因此，降低了对语料的依赖性，不会造成在不同领域的混合语料中低频新词组的遗漏。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种新词组发现的方法流程图；

图2示出了本发明实施例提供的另一种新词组发现的方法流程图；

图3示出了本发明实施例提供的一种新词组发现的装置的组成框图；

图4示出了本发明实施例提供的另一种新词组发现的装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决现有发现新词组的方法中容易造成低频新词组遗漏的问题，本发明实施例提供了一种新词组发现的方法，如图1所示，该方法包括：

101、获取候选新词组以及候选新词组的子字符串。

在用于发现新词组的语料中获取出现频次满足预设频次阈值的字符串，并将获取到的字符串确定为候选新词组。需要说明的是，获取的符合预设频次阈值的字符串不包括现有词组库中存在的词组，在获取时会结合现有的词组库将已经存在在词组库中的词组过滤掉。确定候选新词组后，提取出每个候选新词组的子字符串。

其中，用于发现新词组的语料是通过数据收集工具收集得到的。通常的收集方式包括：使用网络爬虫爬取语料、通过第三方购买语料或者直接使用由科研机构提供的语料等多种收集方式。

另外需要说明的是本实施例中的新词组是指未登录词组，即没有在词组库中出现的词组。通常的新词组包括：新造词组、新组合词组等。新造词组如人艰不拆、不明觉厉等，新组合词组如苹果手机、长发及腰等。

102、根据候选新词组的左右词缀的统计信息和子字符串的左右词缀的统计信息的关系，计算候选新词组的词组内统计信息值。

候选新词组的左右词缀分别指：候选新词组左侧相邻的字符以及候选新词组右侧相邻的字符；同样子字符串的左右词缀分别指：子字符串左侧相邻的字符以及子字符串右侧相邻的字符。而其中的左右词缀的统计信息是指在步骤101中的用于发现新词组的语料中统计候选新词组以及子字符串的左右侧相邻的字符的统计特征值，并根据候选新词组和子字符串分别对应的统计特征值的关系，计算候选新词组的词组内统计信息值。需要说明的是，词组内统计信息值用于表征候选新词组内部字符之间的聚合程度，词组内统计信息值越大表示候选新词组内部字符之间的聚合程度越高。

103、根据候选新词组的左右词缀的统计信息和候选新词组在语料中出现的频次，计算候选新词组的词组间统计信息值。

本步骤中候选新词组的左右词缀的统计信息与步骤102中的候选新词组左右词缀的统计信息是相同的，此处不再赘述。词组间统计信息值是根据候选新词组的左右词缀统计信息值和候选新词组在用于发现新词组的语料中出现的频次计算得到的，需要说明的是词组间统计信息值用于表征候选新词组与候选新词组相邻的字符搭配的固定程度，词组间统计信息值越大表示候选新词组能够出现在不同的字符之间，即能够出现在不同的上下文环境中，可以更灵活地应用于不同的应用场景。

104、根据多个词的左右词缀的统计信息和候选新词组的左右词缀的统计信息的关系，计算候选新词组的合并收益值。

根据候选新词组以及候选新词组中包含的多个词的左右词缀的统计信息的关系来计算合并收益值，其中合并收益值用于表征多个词组合对确定候选新词组为新词组的贡献值，合并收益值作为判断候选词组是否可以成为新词组的一个辅助值，合并收益值越大，越能增加候选新词组成为新词组的概率。

105、根据词组内统计信息值、词组间统计信息值以及合并收益值计算得到候选新词组的成词组得分。

将由步骤102得到的词组内统计信息值、步骤103得到的词组间统计信息值以及由步骤104得到的合并收益值三者进行融合，最后得到候选新词组的成词组得分。

106、根据成词组得分确定候选新词组是否为新词组。

根据得到的候选新词组的成词组得分判断候选新词组是否可以成为新词组，在判断时会给出一个得分的阈值，当候选新词组的成词组得分大于得分的阈值时就可以确定该候选新词组为新词组，其中阈值的选定可以根据语料的选择和实际的需求确定，也可以通过多次的试验训练出一个合理的经验值作为得分的阈值。另外需要说明的是，本实施例中的成词组得分与成为新词组的概率大小是成正比的，得分越高，成为新词组的可能性越大。

本实施例提供的新词组发现的方法，能够首先在用于发现新词组的语料中获取满足预设频次阈值的字符串作为候选新词组，并获取候选新词组的子字符串，然后根据候选新词组的左右词缀的统计信息和对应的子字符串的左右词缀的统计信息的关系，计算候选新词组的词组内统计信息值，并根据候选新词组的左右词缀的统计信息和候选新词组在语料中出现的频次，计算候选新词组的词组间统计信息值，以及根据候选新词组中包含的多个词的左右词缀的统计信息和候选新词组的左右词缀的统计信息的关系，计算候选新词组的合并收益值，最后根据得到的词组内统计信息值、词组间统计信息值以及合并收益值计算候选新词组的成词组得分，并且根据成词组得分确定候选新词组是否为新词组。与现有技术相比，本实施例能够通过在语料中选出候选新词组后，计算候选新词组的词组内统计信息值、词组间统计信息值以及合并收益值，然后根据这三个值计算成词组得分，进而来判断候选新词组是否可以成为新词组。另外在词组内统计信息值、词组间统计信息值以及合并收益值计算时使用的是候选新词组、候选新词组的子字符串以及候选新词组中包含的多个词的左右词组缀的统计信息，这些都是候选新词组附近的统计信息，因此，降低了对语料的依赖性，不会造成在不同领域的混合语料中低频新词组的遗漏。

进一步的，作为对图1所示实施例的细化及扩展，本发明还提供了另一实施例。如图2所示，该实施例中新词组发现的方法包括：

201、对用于发现新词组的语料进行过滤得到有效语料。

首先使用图1步骤101中的获取语料的方式获取用于发现新词组的语料。为了加快发现新词组的速度和排除一些干扰的因素，通常需要对语料进行过滤得到有效语料。

对语料进行过滤包括两个方面：第一方面去除非法的字符、空格、垃圾信息等；第二方面去除停用词，本实施例中的停用词是主要针对一些无意义的词，包括语气词、感叹词、助词等，比如“呢”，“吧”，“哦”等。具体的在进行去除非法的字符、空格、垃圾信息、以及停用词等时是根据预设的词表进行去除的，预设的词表中包括了常用的非法的字符、空格、垃圾信息、停用词等。

202、对有效语料进行分词处理。

对经过过滤得到的有效进行分词处理，在进行分词处理时的方法有多种：可以是通过字符匹配的方法，即机械分词法，它是按照一定的策略将有效语料与一个“充分大的”机器字典中的词条进行匹配的方式来识别出语料中的词；也可以是通过统计的方法，具体的是根据字与字之间的共现特征来识别出有效语料中的词。除了上述方式之外，对于分词的处理还可以使用理解法分词等其他的分词方法。本实施例对分词的方法不作具体的限制。

203、从有效语料中挖掘符合预设词组长度和预设频次阈值的字符串作为候选新词组。

获取到有效语料后就可以在有效语料中提取候选新词组。

在提取候选新词组时，只需要按照语料中的字符的顺序依次提取预设词组长度的字符串，预设词组长度的单位为候选新词组中词的个数，预设词组长度是根据语言学特征设定的，即通常成词组时包含的词的个数，可以将预设词组长度设为两个词、三个词、四个词，或者其他更多的合理的词组长度，设置预设词组长度也是为了提前排除词组长度不合理的字符串，进而提高获取候选新词组的速率。

在得到预设词组长度的字符串后，再根据预设频次阈值筛选出大于预设频次阈值的字符串作为候选新词组。另外为了提高筛选的效率，在筛选的过程中运用了两个假设：一个是如果一个n个字符构成的字符串不是一个频繁的项集，则该项集的超项集一定是不频繁的；另外一个是如果一个文档中不包含一个长度为n的频繁项集，则该文档中一定不包含长度大于n的频繁项集，n为正整数。其中的频繁项集在本实施例中指在有效语料中出现的次数大于预设频次阈值的符合预设词组长度的字符串。

为了更清楚的表达上述获取候选新词组的过程，给出一个具体的示例进行说明，如下所示：

假设有效语料中的一个句子为“代言人亮相时代广场向世界传递着正能量”，将该句子进行分词处理后得到：“代言人”“亮相”“时代”“广场”“向”“世界”“传递”“着”“正”“能量”。假设预设词组长度为两个词、三个词、四个词，那么得到的预设词组长度的字符串为：

两个词的字符串包括：“代言人亮相”“亮相时代”“时代广场”…“传递着”“着正”“正能量”；

三个词的字符串包括：“代言人亮相时代”“亮相时代广场”…“传递着正”“着正能量”；

四个词的字符串包括：“代言人亮相时代广场”“亮相时代广场向”…“世界传递着正”“传递着正能量”。

在上述示例中对于两个假设的具体的含义是，假设已确定字符串“代言人亮相”在有效语料中出现的次数不大于预设频次阈值，则“代言人亮相时代”“代言人亮相时代广场”在有效语料中出现的次数也不大于预设频次阈值，即在判断了“代言人亮相”不能成为候选新词组后，不用再计算“代言人亮相时代”“代言人亮相时代广场”的出现的次数，直接确定其也不能成为候选新词组。

204、判断候选新词组的字符长度，并确定候选新词组的子字符串。

确定候选新词组后，就可以为每个候选新词组确定对应的子字符串，确定子字符串是为后面计算词组间统计信息值的必要准备。具体的确定子字符串是将除候选新词组本身以外的字符长度大于等于2的字符串确定为其对应的子字符串。另外，对于候选新词组获取到的子字符串的个数可以由公式L(S)*(L(S)-1)/2-1得到，其中L(S)为候选新词组的字符长度，且L(S)为大于2的正整数，即本实施例中只适用于候选新词组的字符长度大于2的情况。

205、统计候选新词组的左词缀个数以及右词缀个数。

统计候选新词组在有效语料中左词缀个数，左词缀的个数为候选新词组左侧出现的不同的字符的个数；并且统计候选新词组在有效语料中右词缀个数，右词缀个数为候选新词组右侧出现的不同的字符的个数。具体说明左右词缀个数的统计方法，给出具体的示例：假设某个候选新词组“苹果手机”在有效语料中出现了三次，每次出现的地方其对应的左右侧的字符分别为：左侧字符—“买”“卖”“拿”，右侧字符—“使”“花”“使”，那么“苹果手机”对应的左右词缀的个数分别为3和2。

206、分别统计候选新词组的各子字符串的左词缀个数和右词缀个数。

按照步骤205中统计候选新词组左右词缀的方法，分别统计得到候选新词组的各子字符串的左词缀个数和右词缀个数。

207、分别统计候选新词组中包含的多个词的左词缀个数和右词缀个数。

按照步骤205中统计候选新词组左右词缀的方法，分别统计得到候选新词组中包含的多个词的左词缀个数和右词缀个数。

208、根据候选新词组的左词缀个数和右词缀个数以及各子字符串的左词缀个数和右词缀个数计算词组内统计信息值。

根据步骤205和步骤206得到的候选新词组和子字符串的左右词缀的个数，然后通过下述公式计算词组内统计信息值：

其中，F1为词组内统计信息值、F(S_i)为与各子字符串对应的子字符串统计信息值、L(S)为候选新词组的字符长度，且L(S)为大于2的正整数；

当候选新词组的左词缀个数和右词缀个数中的较小值大于子字符串的左词缀个数和右词缀个数中的较小值时，F(S_i)为1；

当候选新词组的左词缀个数和右词缀个数中的较小值不大于子字符串的左词缀个数和右词缀个数中的较小值时，F(S_i)为0。

另外需要说明的是i的取值范围：i的范围为[1,L(S)*(L(S)-1)/2-1]。

F1的值越大，表示候选新词组的子字符串的左右词缀的个数相对比较少，可以认为其左右词缀仅出现在候选新词组的内部，表明候选新词组内部的聚合程度较高，是成为一个真正的词组应该具有的特征。

209、根据候选新词组的左右词缀的统计信息和候选新词组在语料中的出现的频次，计算候选新词组的词组间统计信息值。

根据步骤205得到的候选新词组的左右词缀个数以及候选新词组在语料中或者有效语料中出现的频次，通过下述公式计算词组间统计信息值：

F2＝(PL(S)+PR(S))/(2*P(S))；

其中，F2为候选新词组的词组间统计信息值、PL(S)和PR(S)分别为候选新词组的左词缀个数和右词缀个数、P(S)为候选新词组在语料中或者有效语料中出现的频次。

F2的值越大表示候选新词组附近的左右词缀个数较多，即表示候选新词组与其相邻的字符的搭配的固定程度不高，进一步表明候选新词组能够在不同的上下文中出现，可以灵活地应用于不同的应用场景中，这也是一个真正的词组通常应该具有的特征。

210、根据候选新词组的左词缀个数和右词缀个数以及多个词的左词缀个数和右词缀个数计算合并收益值。

根据步骤205和步骤207得到的候选新词组和候选新词组中包含的多个词的左右词缀的个数计算合并收益值，合并收益值用于表征多个词组合对确定候选新词组为新词组的贡献值，具体的计算方法为：

当候选新词组中包含的多个词的左词缀个数和右词缀个数中的较小值都大于候选新词组的左词缀个数和右词缀个数中的较小值时，通过下述公式计算合并收益值：

其中，G为合并收益值、n为候选新词组中包含的多个词的个数、L(S)为候选新词组的字符长度，且L(S)为大于2的正整数；

当候选新词组中包含的多个词的左词缀个数和右词缀个数中的较小值不都大于候选新词组的左词缀个数和右词缀个数中的较小值时，合并收益值为0。

计算合并收益值时，是基于一个通常的语言常识，即当多个词组成一个词组时，该词组中各词的应用范围通常可能比该词组的应用范围广，即词组的上下文环境应该比词组中各个词的上下文环境更加固定。因此当出现候选新词组的左右词缀的个数都小于候选新词中多个词的左右词缀个数时，可以认为多个词应该组合为一个词组，所以合并收益应该作为判断候选新词组是否为新词组的一个辅助值，可以增加候选新词组成为新词组的概率。

211、根据词组内统计信息值、词组间统计信息值以及合并收益值计算得到候选新词组的成词组得分。

将由步骤206得到的词组内统计信息值、步骤207得到的词组间统计信息值以及步骤210得到的合并收益值按照预设的权重进行融合，将三者进行融合是因为词组内统计信息值和词组间统计信息值都是成为一个真正词组汇需要考虑的因素，而合并收益是作为一个辅助值也应该考虑。本实施例中将词组内统计信息值的权重设为1，词组间统计信息值的权重设为α，合并收益值的权重设为β，α、β为正数。然后按照下述公式计算候选新词组的成词组得分：

F＝F1+αF2+βG

对于α的选择有三种情况，具体的：通常情况下，α的值取1；当在实际应用中，若希望增加词组间统计信息在成词组得分中的贡献，则可以将α设为大于1的适当的值；若希望增加词组内统计信息值在成词组得分中的贡献则可以将α设为小于1的适当的值。

类似的对于β的选择也有三种情况，通常情况下取1；若希望增加合并收益值在成词组得分中的贡献，则可以将β设为大于1的适当的值；若希望降低合并收益值在成词组得分中的贡献，则可以将β设为小于1的适当的值。

212、根据成词组得分确定候选新词组是否为新词组。

由步骤211中的公式可以得到每个候选新词组的成词组得分，成词组得分越高，表示候选新词组成为新词组的机会越大。在根据成词组得分确定候选新词组是否为新词组的实现方式与图1步骤106的实现方式相同，此处不再赘述。

进一步的，对于步骤201中的过滤可以只进行去除非法的字符、空格、垃圾信息等，而将去停用词放在将有效语料进行分词处理之后进行，去除停用词的方式与步骤201中的方式是相同的。

进一步的，对于步骤203中的获取候选新词组的方法还可以包括：在得到预设字符长度的字符串后，利用候选新词中多个词之间的共现分布，选择出字符串的联合分布概率远高于各词独立出现的概率的字符串作为候选新词组。其中对于远高于的判断可以设定一个具体的阈值；或者在得到预设字符长度的字符串后，通过计算字符串的信息熵的方法来获取候选新词组。对于获取候选新词组的方式没有严格的限制，除了前面提到的三种方式外，别的常用的候选新词组提取的方法都可以，但是在对于不同的方法中选择不同的阈值时要遵循尽量选择出更多的候选新词组的原则。

进一步的，对于步骤211中的将词组内统计信息值、词组间统计信息值以及合并收益值按照预设的权重进行融合时还可以通过别的公式进行融合，比如计算三个值的算术平均值、期望值或者方差值等来得到成词组得分，或者计算其中某两个值的算术平均值、期望值或者方差值后再与另一个值相加得到成词组得分，然后进一步根据成词组得分来确定候选新词组是否可以成为新词组。

进一步的，作为对上述图1和图2所示方法的实现，本发明实施例另一实施例还提供了一种新词组发现的装置，用于对上述图1和图2所示的方法进行实现。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示，该装置包括：获取单元31、第一计算单元32、第二计算单元33、第三计算单元34、第四计算单元35及确定单元36。

获取单元31，用于获取候选新词组以及候选新词组的子字符串，候选新词组是在用于发现新词组的语料中出现的满足预设频次阈值的字符串，候选新词组中包含多个词；

第一计算单元32，用于根据候选新词组的左右词缀的统计信息和子字符串的左右词缀的统计信息的关系，计算候选新词组的词组内统计信息值，左词缀为字符串左侧相邻的字符，右词缀为字符串右侧相邻的字符，词组内统计信息值用于表征候选新词组内部字符之间的聚合程度；

第二计算单元33，用于根据候选新词组的左右词缀的统计信息和候选新词组在语料中的出现的频次，计算候选新词组的词组间统计信息值，词组间统计信息值用于表征候选新词组与候选新词组相邻的字符搭配的固定程度；

第三计算单元34，用于根据多个词的左右词缀的统计信息和候选新词组的左右词缀的统计信息的关系，计算候选新词组的合并收益值，合并收益值用于表征多个词组合对确定候选新词组为新词组的贡献值；

第四计算单元35，用于根据词组内统计信息值、词组间统计信息值以及合并收益值计算得到候选新词组的成词组得分；

确定单元36，用于根据成词组得分确定候选新词组是否为新词组。

进一步的，如图4所示，获取单元31，包括：

过滤模块311，用于对语料进行过滤得到有效语料；

分词模块312，用于对有效语料进行分词处理；

挖掘模块313，用于从分词后的有效语料中挖掘符合预设词组长度和预设频次阈值的字符串作为候选新词组，预设词组长度的单位为候选新词组中词的个数；

确定模块314，用于将除候选新词组本身以外的字符长度大于等于2的字符串确定为子字符串。

进一步的，如图4所示，装置进一步包括：

第一统计单元37，用于在获取候选新词组以及候选新词组的子字符串之后，统计候选新词组的左词缀个数，左词缀个数为候选新词组在有效语料中出现的左侧不同的字符的个数；

第一统计单元37，还用于统计候选新词组的右词缀个数，右词缀个数为候选新词组在有效语料中出现的右侧不同的字符的个数；

第二统计单元38，用于分别统计候选新词组的各子字符串的左词缀个数和右词缀个数；并且，

第三统计单元39，用于分别统计候选新词组中包含的多个词的左词缀个数和右词缀个数。

进一步的，第一计算单元32用于：

根据候选新词组的左词缀个数和右词缀个数以及各子字符串的左词缀个数和右词缀个数计算词组内统计信息值。

进一步的，通过下述公式计算第一计算单元32中的词组内统计信息值：

进一步的，通过下述公式计算第二计算单元33中的词组间统计信息值：

F2＝(PL(S)+PR(S))/(2*P(S))；

其中，F2为候选新词组的词组间统计信息值、PL(S)和PR(S)分别为候选新词组的左词缀个数和右词缀个数、P(S)为候选新词组在有效语料中出现的频次。

进一步的，第三计算单元34用于：

根据候选新词组的左词缀个数和右词缀个数以及多个词的左词缀个数和右词缀个数计算合并收益值。

进一步的，第三计算单元34用于：

当多个词的左词缀个数和右词缀个数中的较小值都大于候选新词组的左词缀个数和右词缀个数中的较小值时，通过下述公式计算合并收益值：

当多个词的左词缀个数和右词缀个数中的较小值不都大于候选新词组的左词缀个数和右词缀个数中的较小值时，合并收益值为0。

本实施例提供的新词组发现的装置，能够首先在用于发现新词组的语料中获取满足预设频次阈值的字符串作为候选新词组，并获取候选新词组的子字符串，然后根据候选新词组的左右词缀的统计信息和对应的子字符串的左右词缀的统计信息的关系，计算候选新词组的词组内统计信息值，并根据候选新词组的左右词缀的统计信息和候选新词组在语料中出现的频次，计算候选新词组的词组间统计信息值，以及根据候选新词组中包含的多个词的左右词缀的统计信息和候选新词组的左右词缀的统计信息的关系，计算候选新词组的合并收益值，最后根据得到的词组内统计信息值、词组间统计信息值以及合并收益值计算候选新词组的成词组得分，并且根据成词组得分确定候选新词组是否为新词组。与现有技术相比，本实施例能够通过在语料中选出候选新词组后，计算候选新词组的词组内统计信息值、词组间统计信息值以及合并收益值，然后根据这三个值计算成词组得分，进而来判断候选新词组是否可以成为新词组。另外在词组内统计信息值、词组间统计信息值以及合并收益值计算时使用的是候选新词组、候选新词组的子字符串以及候选新词组中包含的多个词的左右词组缀的统计信息，这些都是候选新词组附近的统计信息，因此，降低了对语料的依赖性，不会造成在不同领域的混合语料中低频新词组的遗漏。

所述新词组发现装置包括处理器和存储器，上述获取单元31、第一计算单元32、第二计算单元33、第三计算单元34、第四计算单元35及确定单元36等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取候选新词组以及所述候选新词组的子字符串，所述候选新词组是在用于发现新词组的语料中出现的满足预设频次阈值的字符串，所述候选新词组中包含多个词；根据所述候选新词组的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系，计算所述候选新词组的词组内统计信息值，所述左词缀为字符串左侧相邻的字符，所述右词缀为字符串右侧相邻的字符，所述词组内统计信息值用于表征所述候选新词组内部字符之间的聚合程度；根据所述候选新词组的左右词缀的统计信息和所述候选新词组在所述语料中的出现的频次，计算所述候选新词组的词组间统计信息值，所述词组间统计信息值用于表征所述候选新词组与所述候选新词组相邻的字符搭配的固定程度；根据所述多个词的左右词缀的统计信息和所述候选新词组的左右词缀的统计信息的关系，计算所述候选新词组的合并收益值，所述合并收益值用于表征所述多个词组合对确定候选新词组为新词组的贡献值；根据所述词组内统计信息值、所述词组间统计信息值以及所述合并收益值计算得到所述候选新词组的成词组得分；根据所述成词组得分确定所述候选新词组是否为新词组。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种新词组发现的方法，其特征在于，所述方法包括：

根据所述成词组得分确定所述候选新词组是否为新词组。

2.根据权利要求1所述的方法，其特征在于，所述获取候选新词组以及所述候选新词组的子字符串，包括：

对所述语料进行过滤得到有效语料；

对所述有效语料进行分词处理；

从分词后的有效语料中挖掘符合预设词组长度和所述预设频次阈值的字符串作为所述候选新词组，所述预设词组长度的单位为所述候选新词组中词的个数；

将除所述候选新词组本身以外的字符长度大于等于2的字符串确定为所述子字符串。

3.根据权利要求2所述的方法，其特征在于，在所述获取候选新词组以及所述候选新词组的子字符串之后，所述方法进一步包括：

统计所述候选新词组的左词缀个数，所述左词缀个数为所述候选新词组在所述有效语料中出现的左侧不同的字符的个数；

统计所述候选新词组的右词缀个数，所述右词缀个数为所述候选新词组在所述有效语料中出现的右侧不同的字符的个数；

分别统计所述候选新词组的各子字符串的左词缀个数和右词缀个数；并且，

分别统计所述候选新词组中包含的多个词的左词缀个数和右词缀个数。

4.根据权利要求3所述的方法，其特征在于，所述根据所述候选新词组的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系，计算所述候选新词组的词组内统计信息值，包括：

根据所述候选新词组的左词缀个数和右词缀个数以及所述各子字符串的左词缀个数和右词缀个数计算所述词组内统计信息值。

5.根据权利要求4所述的方法，其特征在于，通过下述公式计算所述词组内统计信息值：

F 1 = \frac{Σ F (S_{i})}{L (S) * (L (S) - 1) / 2 - 1};

其中，所述F1为词组内统计信息值、所述F(S_i)为与所述各子字符串对应的子字符串统计信息值、所述L(S)为所述候选新词组的字符长度，且所述L(S)为大于2的正整数；

当所述候选新词组的左词缀个数和右词缀个数中的较小值大于所述子字符串的左词缀个数和右词缀个数中的较小值时，所述F(S_i)为1；

当所述候选新词组的左词缀个数和右词缀个数中的较小值不大于所述子字符串的左词缀个数和右词缀个数中的较小值时，所述F(S_i)为0。

6.根据权利要求3所述的方法，其特征在于，通过下述公式计算所述词组间统计信息值：

F2＝(PL(S)+PR(S))/(2*P(S))；

其中，所述F2为所述候选新词组的词组间统计信息值、所述PL(S)和所述PR(S)分别为所述候选新词组的左词缀个数和右词缀个数、所述P(S)为所述候选新词组在所述有效语料中出现的频次。

7.根据权利要求3所述的方法，其特征在于，所述根据所述多个词的左右词缀的统计信息和所述候选新词组的左右词缀的统计信息的关系，计算所述候选新词组的合并收益值，包括：

根据所述候选新词组的左词缀个数和右词缀个数以及所述多个词的左词缀个数和右词缀个数计算所述合并收益值。

8.根据权利要求7所述的方法，其特征在于，计算所述合并收益值，包括：

当所述多个词的左词缀个数和右词缀个数中的较小值都大于所述候选新词组的左词缀个数和右词缀个数中的较小值时，通过下述公式计算所述合并收益值：

G = \frac{n}{L (S) * (L (S) - 1) / 2 - 1};

其中，所述G为合并收益值、所述n为所述候选新词组中包含的多个词的个数、所述L(S)为候选新词组的字符长度，且所述L(S)为大于2的正整数；

当所述多个词的左词缀个数和右词缀个数中的较小值不都大于所述候选新词组的左词缀个数和右词缀个数中的较小值时，所述合并收益值为0。

9.一种新词组发现的装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述获取单元，包括：

过滤模块，用于对所述语料进行过滤得到有效语料；

分词模块，用于对所述有效语料进行分词处理；

挖掘模块，用于从分词后的有效语料中挖掘符合预设词组长度和所述预设频次阈值的字符串作为所述候选新词组，所述预设词组长度的单位为所述候选新词组中词的个数；

确定模块，用于将除所述候选新词组本身以外的字符长度大于等于2的字符串确定为所述子字符串。