CN107463548B

CN107463548B - 短语挖掘方法及装置

Info

Publication number: CN107463548B
Application number: CN201610388226.2A
Authority: CN
Inventors: 史黎鑫; 张海波; 赵宇; 骆卫华; 林锋; 卞华明; 管陶然; 刘禹
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba China Network Technology Co Ltd
Priority date: 2016-06-02
Filing date: 2016-06-02
Publication date: 2021-04-27
Anticipated expiration: 2036-06-02
Also published as: CN107463548A

Abstract

本申请提供一种短语挖掘方法及装置，该方法可以包括：通过预配置的组合策略从原始语料中抽取候选短语集合，所述候选短语集合中包含若干候选短语，且所述候选短语对应于所述组合策略中的至少一个子策略；从所述候选短语集合中，筛选出满足预设质量条件的短语。通过本申请的技术方案，可以扩展候选短语集合的覆盖度，避免漏失潜在的高质量短语，以实现对高质量短语的准确挖掘。

Description

短语挖掘方法及装置

技术领域

本申请涉及机器翻译技术领域，尤其涉及一种短语挖掘方法及装置。

背景技术

机器翻译(又称，自动翻译)是利用计算机把一种自然源语言转变为另一种自然目标语言的过程。在相关技术中，提出了一种统计机器翻译方式，即利用统计学的方法对大量的平行语料进行分析，并通过由此构建的机器翻译模型完成翻译操作。

然而，经过实践验证表明，即便通过对大规模数据的自动学习，统计机器翻译的翻译结果仍然存在难以控制的质量问题，尤其是对于已有准确翻译结果的数据，统计机器翻译方式输出的翻译结果可能并不准确，从而无法满足用户的实际应用需求。

发明内容

有鉴于此，本申请提供一种短语挖掘方法及装置，可以扩展候选短语集合的覆盖度，避免漏失潜在的高质量短语，以实现对高质量短语的准确挖掘。

为实现上述目的，本申请提供技术方案如下：

根据本申请的第一方面，提出了一种短语挖掘方法，包括：

通过预配置的组合策略从原始语料中抽取候选短语集合，所述候选短语集合中包含若干候选短语，且所述候选短语对应于所述组合策略中的至少一个子策略；

从所述候选短语集合中，筛选出满足预设质量条件的短语。

根据本申请的第二方面，提出了一种短语挖掘装置，包括：

抽取单元，通过预配置的组合策略从原始语料中抽取候选短语集合，所述候选短语集合中包含若干候选短语，且所述候选短语对应于所述组合策略中的至少一个子策略；

筛选单元，从所述候选短语集合中，筛选出满足预设质量条件的短语。

由以上技术方案可见，本申请通过采用预配置的组合策略，可以从原始语料中提取尽可能多的候选短语，从而提升对高质量短语的覆盖率，尽可能地避免漏失潜在的高质量短语，有助于准确筛选出高质量短语、筛除低质量短语，从而构建出高质量的术语库，以便于建立可实现高翻译质量的翻译记忆系统。

附图说明

图1是相关技术中的基于统计信息的短语挖掘方法的流程图。

图2是本申请一示例性实施例提供的一种短语挖掘方法的流程图。

图3是本申请一示例性实施例提供的另一种短语挖掘方法的流程图。

图4是相关技术中的通过挖掘高频片段获取短语的示意图。

图5是本申请一示例性实施例提供的一种电子设备的结构示意图。

图6是本申请一示例性实施例提供的一种短语挖掘装置的框图。

具体实施方式

由于统计机器翻译存在的问题，相关技术中进一步提出了基于翻译记忆的机器翻译方式。翻译记忆(translation memory)是一种用于存储原文本及其译文的语言数据库，通过事先存储术语的准确译文，使得用户可以直接搜索而获得已有的准确翻译结果。

通过建立翻译记忆系统，可以实现上述的翻译记忆功能。翻译记忆系统可以包括翻译模板库、术语库以及重复出现的句子等；其中，术语库中存储有大量用于描述产品、服务或行业术语的词语、短语等术语通过对术语库进行单独的管理及完善，可确保译文更加准确，翻译一致性更高。

因此，如何获得有价值、高质量的短语，是创建出优秀术语库的重要因素。在相关技术中，最初通过基于规则的自动挖掘方式，从翻译实例中提取短语，这些规则由语言学家根据自身理解而制定，不仅耗时费力，而且严重依赖于各个语言学家自身对于语言文字的理解，往往无法制定出可以穷尽所有情况的规则集合，并且不同语言学家制定出的规则还可能存在相互矛盾、无法兼容的情况，因而实际效果并不理想。

为了提升短语挖掘效率，相关技术中进一步提出了其他短语挖掘方法；下面针对其中两种较为典型的短语挖掘方案进行介绍：

1、基于统计信息的短语挖掘方法

基于统计信息的方法，通常是通过统计计算字符串的内部结合强度来决定是不是有意义的独立短语。比如图1是相关技术中的基于统计信息的短语挖掘方法的流程图，如图1所示，该方法包括：

步骤102，获取语料。

其中，语料可以为预先提供的任意文档集合，比如该文档集合可以表现为上述“翻译实例”的形式。那么，基于统计信息的短语挖掘方法，就是从文档集合中找到恰当的短语集合。

步骤104，文本粗切分。

其中，利用相关技术中的任意现有的预处理方式，对获取的语料进行初步切分(即粗切分；其中，“粗”表示相应获得的短语的质量较低，相对于最终获得的短语的较高质量而言，可以认为最终的短语相当于对语料进行“细”切分得到)，以获得候选短语集合，该候选短语集合中包含切分得到的所有候选短语。

步骤106，结合候选短语集合与最初获得的语料，基于TF-IDF算法进行短语挖掘，并将挖掘出的短语输出至术语库。

其中，基于统计信息的短语挖掘方法，实际上是通过为候选短语集合中的每个候选短语计算一个评价函数值，并设置一个阈值，通过该阈值进行过滤从而得到合格的短语集合。

在相关技术中，评价函数可以包括：词频、TF-IDF(term frequency–inversedocument frequency，词频-逆向文件频率)、互信息、信息熵等，此处以TF-IDF方法为例进行说明。

TF-IDF是文档表示的常用方法，该方法通常用于挖掘领域术语，需要有规模足够大的专业领域语料。TF-IDF的基本思想认为在领域文本中多次出现，而在其他领域中几乎不出现。在使用TF-IDF方法进行短语挖掘的过程中，假定语料对应于数据集合D＝{d₁,d₂,…,d_l}，则任一候选短语p的TF-IDF计算公式如下所示：

其中，f(p)表示短语p在整个数据集上出现的次数，Σf(p)为该数据集的总短语数，|D|为数据集中总的句子数，df(p)表示包含短语p的句子总数。

然而，基于统计信息的短语挖掘方法存在下述缺陷：

1)该方法对低频术语的识别力不够好，会有很多低频术语排在输出列表的后半部，导致其无法被收录于术语库中；特别是，在语料规模不够大的情况下，低频术语排序滞后表现得尤为明显。

2)对分布较广的基础术语识别能力较弱。如在IT领域语料库中，“网络”一词为基础术语，可能会出现在该领域绝大部分文档中，并且随着概念的泛化，其他非IT领域也会出现“网络”一词，在这种情况下，基础术语的领域特征不明显，容易被误认为普通词汇排除在领域术语之外。

3)由于仅仅采用术语在语料库(包含所有语料)中的全局特征作为度量，无法挖掘术语本身的结构特征，低频术语和基础术语的特殊性容易被普通词汇掩盖。

2、通过挖掘高频片段获取短语的方法

挖掘高频片段即数据挖掘中所说的频繁项集挖掘，是关联规则挖掘中的首要子任务。关联规则挖掘是要找出一个数据集中满足一定条件的项集，因此频繁项集挖掘的实质即为：对于给定的一个项列表list＝{A,B,C,…}，并且存在一个数据集D的每条记录都是list的子集(即短语挖掘过程中，句子中的每个词均为项列表中的一项)，频繁项集挖掘则是要找出数据集中共现次数超过指定阈值的所有组合，以作为最终的短语挖掘结果。

然而，通过挖掘高频片段获取短语的方法存在下述缺陷：当通过挖掘频繁项集来获取短语，质量高的短语和质量低的短语可能具有相同的高频率，从而导致低质量短语被误筛选为高质量短语。

片段	频率	短语
			support vector machine	100	是
support vector	160	是
			vector machine	150	否
support	500	不适用
			vector	1000	不适用
machine	1000	不适用

表1

在一实施例中，假定语料为“support vector machine”，那么可以得到包括“support vector machine”、“support vector”、“vector machine”等片段；其中，由于仅考虑到片段的频率维度，因而即便“vector machine”实际上并不属于合格的短语，但仍然由于频率到达150而被选取为短语。

因此，本申请通过提出一种新的短语挖掘方案，可以解决相关技术中的上述技术问题。为对本申请进行进一步说明，提供下列实施例：

图2是本申请一示例性实施例提供的一种短语挖掘方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤202，通过预配置的组合策略从原始语料中抽取候选短语集合，所述候选短语集合中包含若干候选短语，且所述候选短语对应于所述组合策略中的至少一个子策略。

在本实施例中，原始语料可以为预先提供的任意文档集合，比如该文档集合可以表现为上述“翻译实例”的形式。

在本实施例中，组合策略可以包括预配置的多种子策略，通过利用每种子策略分别对原始语料进行处理，并将分别得到的候选短语进行合并后，得到本申请的候选短语集合。其中，可以根据实际需求配置所选用的子策略，从而兼顾各种子策略的优势，而避免采用单一策略时的劣势，比如单纯采用统计方式可能对低频术语、基础术语的覆盖不足等。

举例而言，组合策略可以包括频繁项挖掘子策略和句法分析子策略。那么，一方面可以获取原始语料中包含的频繁项集；另一方面可以通过对原始语料的句法分析，获取原始语料中的名词性信息；然后，将频繁项集与名词性信息进行合并，得到候选短语集合。在该实施例中，通过获取频繁项集，可以扩展对基础术语的识别广度；同时，通过句法分析可以弥补频繁项集对于低频高质量短语覆盖不足的缺点；因此，通过结合频繁项集挖掘和句法分析，既可以覆盖各种频率类型的高质量短语，又能够保障对于基础术语的覆盖，从而尽可能地从原始语料中获取所有高质量短语。

步骤204，从所述候选短语集合中，筛选出满足预设质量条件的短语。

在本实施例中，可以提取候选短语的预设特征信息，并根据所述预设特征信息建立分类器，然后通过所述分类器对所述候选短语集合中的候选短语进行分类，以筛选出满足预设质量条件的短语。

在本实施例中，高质量短语和低质量短语在同一特征维度下，可能具有不同的特征表现，因而可以通过提取相应维度下的预设特征信息，并据此进行建立分类器，比如SVM(support vector machine，支持向量机)分类器等，从而准确地将候选短语分为高质量与低质量的不同类别。

图3是本申请一示例性实施例提供的另一种短语挖掘方法的流程图，如图3所示，该方法可以包括以下步骤：

步骤302，获取语料。

在本实施例中，语料相当于图2所示实施例中的原始语料，该语料可以为预先提供的任意文档集合，比如该文档集合可以表现为上述“翻译实例”的形式。

步骤304，对语料进行预处理。

在本实施例中，可以对翻译实例进行分词泛化等操作；比如当翻译实例为英文时，可以进行单词的泛化和清洗等操作，对明显的噪声数据进行过滤，有助于减轻后续的处理压力、提升短语挖掘效率。

需要说明的是：本申请的技术方案可以应用于任意语言文字；为了便于理解，本申请的实施例中以“英文”进行举例说明，而并不对此进行限制。

步骤306，从语料中抽取候选短语集合。

在本实施例中，可以一方面获取语料中包含的频繁项集，另一方面通过对语料的句法分析而获取语料中的名词性信息，然后将频繁项集与名词性信息进行合并，得到候选短语集合，该集合中包含若干候选短语。那么，通过结合频繁项集挖掘和句法分析策略，共同实现对语料的短语挖掘操作，可以互补劣势、结合优势，从而在提升候选短语的质量的同时，保持可观的短语覆盖面。

1)频繁项集挖掘

上文已经提及了频繁项集挖掘的原理，此处不再赘述。基于频繁项集挖掘，可能形成非常大的搜索空间，比如当待搜索的记录包括“A”、“B”、“C”、“D”和“E”时，相应形成的搜索结果如图4所示，可以分别形成包含两个词的片段“AB”、“AC”、“AD”等、包含三个词的片段“ABC”、“ABD”等、包含四个词的片段“ABCD”、“ABCE”等、包含五个词的片段“ABCDE”等；实际上，频繁项集挖掘往往面对更大数量的搜索对象，因而需要对搜索空间进行合理缩小，即“剪枝”。

在相关技术中，提出了诸如Apriori、fp-growth等方法来实现“剪枝”及频繁项集挖掘。其中，Apriori方法采用广度优先的搜索方式，先产生一批候选项集，再通过原始数据集过滤非频繁项集；fp-growth则是采用深度优先的搜索方式，先从数据集中找到频繁项，再从包含该频繁项的子数据集中找其他频繁项，连接起来获得新的频繁项。下面以Apriori方法为例，对频繁项集挖掘的过程进行详细介绍。

Apriori算法的核心思想是：频繁项集的所有非空子集必然也是频繁的；换言之，如果一个项集是非频繁的，那么其超集必然也是非频繁的。Apriori算法的过程如下：

(1)先根据1项集(即包含1个对象的项集)的频率，筛选出频繁1项集。

(2)排列组合出2项集(即包含2个对象的项集)，计算2项集的频率，筛选出频繁2项集。

(3)通过连接和剪枝计算出3项集(即包含3个对象的项集)，并计算3项集的频率，筛选出频繁3项集。

(4)以此类推处理k项集(即包含k个对象的项集)，直到没有频繁集出现。

比如获取的语料如表2所示，包括“A,C,D”、“B,C,E”、“A,B,C,E”和“B,E”；通过上述步骤(1)，可以得到1项集及其频率如表3所示，即“{A}”的频率为2(分别出现于“A,C,D”、“A,B,C,E”)、“{B}”的频率为3(分别出现于“B,C,E”、“A,B,C,E”、“B,E”)等。假定“频繁”的设定为大于1，那么应当筛除频率为1的“{D}”，从而得到频繁1项集如表4所示。

项
	A,C,D
B,C,E
	A,B,C,E
B,E

表2

1项集	频率
		{A}	2
{B}	3
		{C}	3
{D}	1
		{E}	3

表3

1项集	频率
		{A}	2
{B}	3
		{C}	3
{E}	3

表4

针对表4得到的频繁1项集，通过排列组合得到下表5所示的所有2项集，包括{A,B}、{A,C}等，并计算得到表6所示的每个2项集的频率，比如{A,B}的频率为1(出现于“A,B,C,E”)、{A,C}的频率为2(出现于“A,C,D”、“A,B,C,E”)等；然后，基于表6筛选出表7所示的频繁2项集，而筛除频率不大于1的{A,B}、{A,E}等2项集。

表5

2项集	频率
		{A,B}	1
{A,C}	2
		{A,E}	1
{B,C}	2
		{B,E}	3
{C,E}	2

表6

2项集	频率
		{A,C}	2
{B,C}	2
		{B,E}	3
{C,E}	2

表7

针对表7所示的频繁2项集，需要通过连接和剪枝，以得到3项集。其中，“连接”是指对k-1项集中每个项集中的项排序，只有在前k-1项相同时才将这两项合并，形成候选k项集，“剪枝”是指对于候选k项集，要验证所有项集的所有k-1子集是否频繁(即是否在k-1项集中)，去掉不满足的项集，则形成k项集。

那么，表7所示为2项集，即k＝2、k-1＝1，而表7所示的2项集中前k-1项相同的只有{B,C}与{B,E}，因而将两者合并得到候选k项集为{B,C,E}，且{B,C,E}的所有k-1子集{B,C}、{B,E}和{C,E}均为频繁项集，因而最终得到3项集为{B,C,E}，且对应的频率为2(出现于“B,C,E”、“A,B,C,E”)。

可见，对于同样的待搜索记录“A,B,C,D,E”，基于上述Apriori算法，可以在每一步骤中对非频繁项集进行筛除，从而极大地缩小了搜索空间，有助于提升搜索效率。

2)句法分析策略

句法分析是指对句子中的词语语法功能进行分析。在一示例性实施例中，本申请可以采用较为浅层的句法分析方式，比如组块分析，可以识别出句子中某些结构相对简单、功能和意义相对重要的成分。为了便于理解，下面均以组块分析为例进行说明，但本申请并不对此进行限制。

组块分析针对预处理后的词序列，即句子，分析后主要产生两部分信息：词界块和块成分标记；其中，“词界块”是指包含被分析的句子中的所有相同成分的词语序列的块，而“块成分标记”则是为每个词界块赋予的一个表示其成分的标记。举例而言，可以用“np”标记名词块、“vp”标记动词块等。

在一实施例中，可以通过SVM算法实现组块分析。在相关技术中，SVM算法解决的是数据的二分类问题；而在本申请的技术方案中，实际上是将SVM算法拓展到多分类问题中，因而可以采用下述方式进行处理：在任意类别i和类别j之间构造一个SVM二值分类器，从而对于n类别的分类情况，可以生成n(n-1)/2个二值分类器，则对于一个未知样本每个分类器都有一个分类结果作为选票，且最终分类结果可以根据获得选票的情况而确定，比如以“具有选票最多”作为分配条件。

SVM分类器的构建需要选取合适的特征，比如可以采用上下文信息作为特征，即当前位置和前两个位置及后两个位置的词(w)、词性(t)以及组块类别标记(c)作为组合特征进行模型训练，则每一个样本x可以用12个特征表示如下：

x＝(w_i-2,t_i-2,c_i-2,w_i-1,t_i-1,c_i-1,w_i,t_i,w_i+1,t_i+1,w_i+2,t_i+2)

其中，i表示当前位置，i-1为前一个位置，i+1为后一个位置。

那么，采用上述的SVM方法进行组块分析后，可以获得实例中的名词性成分，并作为候选短语而加入到候选短语集合中。举例而言，假定原始文本(即语料)为“空间利用率比较高”，那么由于“空间”和“利用率”在句子中组合成为名词性信息，因此可以形成名词块“[np空间利用率]”，类似地还可以组成形容词块“[ap比较高]”。

由于组块分析是较为浅层的句法分析，因而可能会在分析过程中引入部分噪声数据；但是，本申请的技术方案可以通过后续的质量评价、迭代更新等手段，将噪声数据有效剔除，因而并不会对最终的结果造成影响，反而可以利用组块分析的方式，有效覆盖到频繁项集挖掘无法挖掘出的低频高质量短语。

步骤308，提取候选短语集合中候选短语的预设特征信息，构成特征集合。

步骤310，根据特征集合中的预设特征信息，建立分类器。

步骤312，通过分类器对候选短语集合中的候选短语进行质量评价。

在本实施例中，由于在同一特征维度下，高质量短语和低质量短语会表现出不同的特征信息，因而可以通过提取候选短语的预设特征信息，以据此实现对候选短语的分类和筛选，以确定出候选短语的质量状况。

在本实施例中，预设特征信息可以包括以下至少之一：与候选短语的内容相关的第一特征信息、与候选短语的内容无关的第二特征信息。

1)与候选短语的内容相关的第一特征信息

作为一示例性实施例，第一特征信息包括以下至少之一：候选短语与预设停用词之间的TF-IDF值、候选短语的构成元素之间的互信息值、候选短语的边界信息熵等。

(1)TF-IDF值

在相关技术中，TF-IDF算法的主要思想是：如果某个词或短语在一篇文档中出现的频率高，并且在其他文档中很少出现，则认为该词或短语有较好的文档代表能力，适合用来作为该文档的重要内容。

而在本申请的技术方案中，将TF-IDF算法由“词/短语”与“文档”之间的比较，扩展至“词”与“短语”之间的比较，采用的原理为：基于语言应用规则和习惯，通常不会将停用词(Stop Words)作为短语的开头或结尾，因而可以通过将“停用词”与“候选短语”进行比较计算出相应的TF-IDF值，并据此确定出停用词对于候选短语的重要程度，从而以此作为第一特征信息，以供后续的候选短语分类以及质量评价。比如，当TF-IDF值不大于第一预设数值时，表明停用词对于相应候选短语的重要程度较低，该候选短语可以被判定为满足预设质量条件的短语，即高质量短语。

举例而言，可以基于下述公式，分别计算出候选短语与停用词之间的TF-IDF值：

其中，n_i,j表示单词i在短语j中出现的次数，而分母表示短语j中所有单词的出现次数之和，|D|表示短语集合中的短语总数，分母表示包含单词i的短语数目(为了防止分母为零，计算时可以对分母进行加1操作，当然上述公式中尚未执行该操作)。

基于上述公式，候选短语集合中的每个候选短语会分别获取相应的TF-IDF值，并作为第一特征信息用于建立分类器。举例而言，按照如上思想，对于停用词“is”，可以对诸如“machine learning is”和“machine learning”这样的短语进行较好的区分，并得到相应的短语质量评价：判定“machine learning is”不满足预设质量条件、“machinelearning”满足预设质量条件。

(2)互信息值

互信息体现两个变量之间的相互依赖程度；两个变量的相关性越高，则互信息值越高，否则互信息值越低。那么，在本申请的技术方案中，可以将短语分割为两个部分，比如将短语v＝“support vector machine”分割为u_l＝“support vector”和u_r＝“machine”，并通过下述公式计算这两个部分之间的互信息值：

其中，P(v)表示短语v在语料中的原始频率，P(u_l)、P(u_r)分别表示第一部分u_l和第二部分u_r在语料中的原始频率。

那么，当短语v的内部结合较为紧密时，即第一部分u_l和第二部分u_r之间的相互依赖程度较高时，P(v)与P(u_l)、P(u_r)之间应当相差较小，因而得到的互信息值MI(u_l,u_r)会比较大，比如当互信息值不小于第二预设数值时，说明相应的候选短语v质量较高；反之，当短语v的内部结合并不紧密时，即第一部分u_l和第二部分u_r之间的相互依赖程度较低时，P(v)与P(u_l)、P(u_r)之间应当相差较大，因而得到的互信息值MI(u_l,u_r)会比较小，比如当互信息值小于第二预设数值时，说明可能并不应当将第一部分u_l和第二部分u_r组成短语v，即相应的候选短语v质量较低。

当候选短语中包含两个以上单词时，可能存在多种不同的分割方式，比如短语“support vector machine”除了可以分割为“support vector”和“machine”，还可以分割为“support”和“vector machine”，同样可以基于上述方式计算其互信息值，此处不再赘述。对于短语内部不同位置进行的分隔，会获取不同的互信息值，本申请中可以将所获取的最大互信息值和最小互信息值作为第一特征信息，以加入到分类过程。

(3)信息熵

熵是用来表示随机变量不确定性的度量值。一般来讲，设X是取有限个值的随机变量，X取值为x的概率为P(x)，则X的熵定义如下：

可见，信息熵越大，则变量所包含的信息量越大，变量的不确定性也越大。因此，本申请中可以采用左熵和右熵的形式，来对短语片段的质量进行评估。其中，左熵、右熵分别指候选短语的左边界的熵和右边界的熵，当左熵或右熵越大时，表明该候选短语的左侧或右侧的搭配越丰富(即可以位于短语左侧的不同单词的数量越多)。

实际上，对于一个质量较高的短语而言，比如“support vector machine”，其往往作为一个整体来使用，那么该短语被使用于不同场景时，就会造成该短语左侧或右侧的单词存在很多变化，即搭配丰富。而对于一个质量较低的短语而言，比如“support vector”，由于实际上“support vector”几乎只作为“support vector machine”的组成部分，因而“support vector”的右侧往往只存在“machine”，即搭配并不丰富。

所以，当通过诸如上述公式计算出后续短语的左熵和右熵后，可以在边界信息熵(即左熵和右熵中至少之一)不大于第三预设数值时，判定相应的候选短语为高质量短语，否则判定为低质量短语。

2)与候选短语的内容无关的第二特征信息

作为一示例性实施例，第二特征信息可以包括以下至少之一：候选短语是否位于成对出现的标点符号之间、候选短语内是否包含连字符。

(1)成对出现的标点符号可以包括：双引号、单引号、小括号、中括号、大括号、书名号等；根据语言规则和习惯，位于成对出现的标点符号中的候选短语，往往作为一个整体而表达某项含义，因而具有更大几率为高质量短语，可以将其作为评价短语质量的第二特征信息。

(2)连字符用于将多个单词连接为一个整体，以表达某项含义，比如作为一个组合后的单词进行使用，因而具有更大几率为高质量短语，可以将其作为评价短语质量的第二特征信息。

当然，上述的第一特征信息、第二特征信息，均仅列举了几个实施例进行说明，可以根据实际需求从中选取或使用其他更多的特征信息，本申请并不对此进行限制。

然后，基于上述过程获得的预设特征信息，可以创建诸如SVM分类器，可以对候选短语集合中的候选短语进行质量评价；换言之，对候选短语进行分类，以分别得到“高质量”和“低质量”类型的候选短语，或称为“满足预设质量条件的短语”和“未满足预设质量条件的短语”，具体的分类过程可以参考相关技术中的SVM分类器的处理过程，此处不再赘述。

步骤314，根据对候选短语的质量评价，对语料进行重新切分，得到高质量短语。

在本实施例中，一种情况下，可以将步骤312得到的质量评价较高的短语直接作为高质量短语，以输出至语料库；然而，由于在步骤306中尚未得知候选短语的质量评价，使得在对语料进行切分的过程中，很可能存在一些错误切分的情况，导致一些高质量短语并未被有效抽取，因而为了避免相应的高质量短语被忽略，在另一种情况下，可以基于步骤312中对于候选短语的质量评价，对语料进行重新切分，从而使原本由于错误切分而并未被抽取的高质量短语能够被成功抽取。

进一步地，如图3所示，存在一条由步骤314指向步骤306的虚线，表示：在一示例性实施例中，根据步骤312得到的短语质量评价(比如筛选出的满足预设质量条件的短语)，步骤314对原料进行了重新切割，那么基于上述的“另一种情况”，可以将切割得到的高质量短语组成更新候选短语集合，然后将该更新候选短语集合作为候选短语集合，以执行对该更新候选短语集合的迭代操作，即重新执行步骤308-314。

通过上述迭代操作，使得重新获得的对更新候选短语集合的质量评价更加贴合短语的实际情况；当然，本申请中可以执行多次迭代操作，直至最终得到的更新候选短语集合中的“高质量短语”满足预定义的迭代停止条件。举例而言，该预定义的迭代停止条件可以包括以下至少之一：更新候选短语集合中包含的短语数量达到预设数量、更新候选短语集合中的每个短语相对于原始语料的频率达到第一预设频率、更新候选短语集合中的所有短语相对于原始语料的频率之和达到第二预设频率。

其中，在步骤314中对原始语料进行重新切割时，可以采取下述方式：获取满足预设质量条件的短语的质量得分，该质量得分来自分类器对相应的候选短语的分类过程；分别确定原始语料在每种切割方式下对应得到的短语集合，并分别累计每个短语集合中包含的满足预设质量条件的短语对应的质量得分总和；通过质量得分总和最大的切割方式，对原始语料进行重新切割，以得到更新候选短语集合。

举例而言，假定原始语料如下所示：

A standard[feature vector][machine learning]setup is used to…

如果通过上述方案得到短语质量评价为：候选短语“feature vector”的质量得分为85分、候选短语“machine learning”的质量得分为80分、候选短语“vector machine”的质量得分为6分等。当预设质量条件为分数达到30分时，可以判定候选短语“vectormachine”不满足预设质量条件，而候选短语“feature vector”、“machine learning”等均满足预设质量条件。

假定采取下述处理方式：在基于上述短语质量评价对语料进行重新切割时，若切割得到的短语为上述满足预设质量条件的候选短语，则累计该候选短语相应的质量得分，若切割得到的短语为其他短语(如不满足预设质量条件的候选短语，或者先前并未出现的短语/单词)，则不累计得分；那么，如果需要使得最终切割后的累计得分最高，就可以确保按照上述满足预设质量条件的候选短语不会被切分，比如确保切割得到“featurevector”、“machine learning”等，而不会得到“vector machine”，尽管基于表1该短语的频率很高。

此外，在图3所示的实施例中，在步骤312之后，还可以将满足预设质量条件的短语转换为预设向量空间中的第一短语向量，将候选短语集合中的其他候选短语转换为该预设向量空间中的第二短语向量；然后，通过将第一短语向量与第二短语向量之间的比较，选取与第一短语向量之间的距离不大于预设距离的第二短语向量，并判定相应的候选短语为满足预设质量条件的短语。

在该实施例中，可以通过phrase2vec算法将候选短语转换至预设向量空间中的短语向量，那么根据短语向量之间的距离，即可明确相应候选短语之间的语义相似程度；其中，短语向量之间的距离越小时，表明相应候选短语之间的语义相似程度越高。通过上述方式，在分类器可能将部分高质量的候选短语误判为低质量短语的情况下，可以重新挑选出与高质量短语同义但频率相对较低的候选短语，从而增加了候选短语集合的召回率。

图5示出了根据本申请的一示例性实施例的电子设备的示意结构图。请参考图5，在硬件层面，该电子设备包括处理器502、内部总线504、网络接口506、内存508以及非易失性存储器510，当然还可能包括其他业务所需要的硬件。处理器502从非易失性存储器510中读取对应的计算机程序到内存508中然后运行，在逻辑层面上形成短语挖掘装置。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图6，在软件实施方式中，该短语挖掘装置可以包括抽取单元、建立单元和筛选单元。其中：

抽取单元602，通过预配置的组合策略从原始语料中抽取候选短语集合，所述候选短语集合中包含若干候选短语，且所述候选短语对应于所述组合策略中的至少一个子策略；

筛选单元604，从所述候选短语集合中，筛选出满足预设质量条件的短语。

可选的，所述抽取单元602具体用于：

根据所述组合策略中包含的频繁项挖掘子策略，获取所述原始语料中包含的频繁项集；

根据所述组合策略中包含的句法分析子策略，对所述原始语料进行句法分析，以获取所述原始语料中的名词性信息；

将所述频繁项集与所述名词性信息进行合并，得到所述候选短语集合。

可选的，所述筛选单元604具体用于：

提取候选短语的预设特征信息；

根据所述预设特征信息建立分类器；

通过所述分类器对所述候选短语集合中的候选短语进行分类，以筛选出满足预设质量条件的短语。

可选的，所述预设特征信息包括以下至少之一：与候选短语的内容相关的第一特征信息、与候选短语的内容无关的第二特征信息。

可选的，所述第一特征信息包括以下至少之一：

候选短语与预设停用词之间的TF-IDF值；其中，所述预设质量条件包括：所述TF-IDF值不大于第一预设数值；

候选短语的构成元素之间的互信息值；其中，所述预设质量条件包括：所述互信息值不小于第二预设数值；

候选短语的边界信息熵；其中，所述预设质量条件包括：所述边界信息熵不大于第三预设数值。

可选的，所述第二特征信息包括以下至少之一：

候选短语是否位于成对出现的标点符号之间；其中，所述预设质量条件包括：候选短语位于成对出现的标点符号之间；

候选短语内是否包含连字符；其中，所述预设质量条件包括：候选短语内包含连字符。

可选的，还包括：

转换单元606，将所述满足预设质量条件的短语转换为预设向量空间中的第一短语向量；将所述候选短语集合中的其他候选短语转换为所述预设向量空间中的第二短语向量；

判定单元608，选取与所述第一短语向量之间的距离不大于预设距离的第二短语向量，并判定相应的候选短语为满足预设质量条件的短语。

可选的，还包括：

切割单元610，根据所述满足预设质量条件的短语，对所述原始语料进行重新切割，得到更新候选短语集合；

迭代单元612，将所述更新候选短语集合作为所述候选短语集合，以执行对所述更新候选短语集合的迭代操作，直至所述更新候选短语集合满足预定义的迭代停止条件。

可选的，所述切割单元610具体用于：

获取所述满足预设质量条件的短语的质量得分，所述质量得分来自所述分类器对相应的候选短语的分类过程；

分别确定所述原始语料在每种切割方式下对应得到的短语集合，并分别累计每个短语集合中包含的所述满足预设质量条件的短语对应的质量得分总和；

通过质量得分总和最大的切割方式，对所述原始语料进行重新切割，以得到所述更新候选短语集合。

可选的，所述预定义的迭代停止条件包括以下至少之一：

所述更新候选短语集合中包含的短语数量达到预设数量、所述更新候选短语集合中的每个短语相对于所述原始语料的频率达到第一预设频率、所述更新候选短语集合中的所有短语相对于所述原始语料的频率之和达到第二预设频率。

可选的，还包括：

输出单元614，将满足预定义的迭代停止条件的更新候选短语集合输出至翻译记忆系统的术语库。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种短语挖掘方法，其特征在于，包括：

通过预配置的组合策略从原始语料中抽取候选短语集合，包括：根据所述组合策略中包含的多个子策略分别从所述原始语料中抽取候选短语，以得到候选短语集合；

从所述候选短语集合中，筛选出满足预设质量条件的短语；

根据所述满足预设质量条件的短语，对所述原始语料进行重新切割，得到更新候选短语集合；

将所述更新候选短语集合作为所述候选短语集合，以执行对所述更新候选短语集合的迭代操作，直至所述更新候选短语集合满足预定义的迭代停止条件。

2.根据权利要求1所述的方法，其特征在于，所述通过预配置的组合策略从原始语料中抽取候选短语集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述候选短语集合中，筛选出满足预设质量条件的短语，包括：

提取候选短语的预设特征信息；

根据所述预设特征信息建立分类器；

4.根据权利要求3所述的方法，其特征在于，所述预设特征信息包括以下至少之一：与候选短语的内容相关的第一特征信息、与候选短语的内容无关的第二特征信息。

5.根据权利要求4所述的方法，其特征在于，所述第一特征信息包括以下至少之一：

候选短语与预设停用词之间的词频-逆向文件频率值；其中，所述预设质量条件包括：所述词频-逆向文件频率值不大于第一预设数值；

6.根据权利要求4所述的方法，其特征在于，所述第二特征信息包括以下至少之一：

7.根据权利要求1所述的方法，其特征在于，还包括：

将所述满足预设质量条件的短语转换为预设向量空间中的第一短语向量；

将所述候选短语集合中的其他候选短语转换为所述预设向量空间中的第二短语向量；

选取与所述第一短语向量之间的距离不大于预设距离的第二短语向量，并判定相应的候选短语为满足预设质量条件的短语。

8.根据权利要求3所述的方法，其特征在于，所述根据所述满足预设质量条件的短语，对所述原始语料进行重新切割，得到更新候选短语集合，包括：

9.根据权利要求1所述的方法，其特征在于，所述预定义的迭代停止条件包括以下至少之一：

10.根据权利要求1所述的方法，其特征在于，还包括：

将满足预定义的迭代停止条件的更新候选短语集合输出至翻译记忆系统的术语库。

11.一种短语挖掘装置，其特征在于，包括：

抽取单元，通过预配置的组合策略从原始语料中抽取候选短语集合，包括：根据所述组合策略中包含的多个子策略分别从所述原始语料中抽取候选短语，以得到候选短语集合；

筛选单元，从所述候选短语集合中，筛选出满足预设质量条件的短语；

切割单元，根据所述满足预设质量条件的短语，对所述原始语料进行重新切割，得到更新候选短语集合；

迭代单元，将所述更新候选短语集合作为所述候选短语集合，以执行对所述更新候选短语集合的迭代操作，直至所述更新候选短语集合满足预定义的迭代停止条件。

12.根据权利要求11所述的装置，其特征在于，所述抽取单元具体用于：

13.根据权利要求11所述的装置，其特征在于，所述筛选单元具体用于：

提取候选短语的预设特征信息；

根据所述预设特征信息建立分类器；

14.根据权利要求13所述的装置，其特征在于，所述预设特征信息包括以下至少之一：与候选短语的内容相关的第一特征信息、与候选短语的内容无关的第二特征信息。

15.根据权利要求14所述的装置，其特征在于，所述第一特征信息包括以下至少之一：

16.根据权利要求14所述的装置，其特征在于，所述第二特征信息包括以下至少之一：

17.根据权利要求11所述的装置，其特征在于，还包括：

转换单元，将所述满足预设质量条件的短语转换为预设向量空间中的第一短语向量；将所述候选短语集合中的其他候选短语转换为所述预设向量空间中的第二短语向量；

判定单元，选取与所述第一短语向量之间的距离不大于预设距离的第二短语向量，并判定相应的候选短语为满足预设质量条件的短语。

18.根据权利要求13所述的装置，其特征在于，所述切割单元具体用于：

19.根据权利要求11所述的装置，其特征在于，所述预定义的迭代停止条件包括以下至少之一：

20.根据权利要求11所述的装置，其特征在于，还包括：

输出单元，将满足预定义的迭代停止条件的更新候选短语集合输出至翻译记忆系统的术语库。

21.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1-10中任一项所述的方法。

22.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-10中任一项所述方法的步骤。