CN107463549B

CN107463549B - 一种提取实例模板的方法和设备

Info

Publication number: CN107463549B
Application number: CN201610390418.7A
Authority: CN
Inventors: 史黎鑫; 张海波; 卞华明; 管陶然; 刘禹; 赵宇; 骆卫华; 林锋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba China Network Technology Co Ltd
Priority date: 2016-06-02
Filing date: 2016-06-02
Publication date: 2021-02-02
Anticipated expiration: 2036-06-02
Also published as: CN107463549A

Abstract

本申请涉及计算机技术领域，特别涉及一种提取实例模板的方法和设备，用以解决现有技术在提取过程中产生大量价值较低的模板，造成实例模板库中模板存储的信息冗余的问题。本申请实施例将所有原始语料实例划分为多组；针对多组原始语料实例中的一组原始语料实例中的一个原始语料实例，确定原始语料实例中的变量集合，并根据变量集合确定原始语料实例对应的备选模板；针对多组原始语料实例中的一组原始语料实例，从原始语料实例对应的备选模板中提取实例模板。由于本申请实施例确定原始语料实例中所有变量集合，增大对备选模板的召回数量；并且从原始语料实例对应的备选模板中提取出实例模板，从而保证提取出的实例模板的质量更高。

Description

一种提取实例模板的方法和设备

技术领域

本申请涉及计算机技术领域，特别涉及一种提取实例模板的方法和设备。

背景技术

随着计算机技术的不断发展，互联网成为当今最为便捷的获取信息平台。互联网中存在大量的语言信息，不仅语言种类繁多，而且语言又处于时时刻刻的变化之中。

为了便于互联网识别用户输入的各种语言信息，需要在互联网上存储大量的实例模板，在用户输入语言信息后，将用户输入的语言信息与实例模板进行匹配，从而识别出用户输入的语言信息。因此，实例模板的质量与互联网对用户输入的语言信息的识别能力密切相关。

现有技术在抽取实例模板时，采用的方法大多是多级实例模板抽取方法。如图1所示，多级实例模板抽取方法分为三个步骤：步骤101、对原始语料实例进行预处理，包括对原始语料实例进行浅层句法分析，其中包括组块识别，介词短语识别和谓语中心词识别；步骤102、对预处理后的原始语料实例进行语义替换，根据单词的语义信息进行模板变量常量的确定；步骤103、对原始语料实例进行模板抽取，按照组块模板、介词短语模板、句子模板的顺序进行抽取，最终得到原始语料实例所对应的多级翻译模板。多级实例模板抽取方法需要对原始语料实例进行组块划分及介词短语以及谓语中心词的识别，对句法分析工具具有很强的依赖性；同时，在构建实例模板库时，需按照组块、介词短语、实例主架模板的顺序进行模板抽取，抽取过程中会产生大量价值较低的模板。

目前提取实例模板的方法，在提取过程中会产生大量价值较低的模板，造成实例模板库中模板存储的信息冗余。

发明内容

本申请提供一种取实例模板的方法和设备，用以解决现有技术在提取过程中会产生大量价值较低的模板，造成实例模板库中模板存储的信息冗余的问题。

基于上述问题，本申请实施例提供一种提取实例模板的方法，包括：

根据原始语料实例之间的相似度，将所述原始语料实例划分为多组；

针对所述多组中的一组原始语料实例中的任意一个原始语料实例：

确定所述任意一个原始语料实例中的变量集合；

根据所述变量集合，确定所述任意一个原始语料实例对应的备选模板；

针对所述多组中的一组原始语料实例，从所述原始语料实例对应的备选模板中提取实例模板。

由于本申请实施例在提取实例模板时，首先将多个原始语料实例根据相似度分为多组，针对多组原始语料实例中的一组原始语料实例进行模板提取。并且在提取过程中确定原始语料实例中的所有变量集合，根据变量集合确定所有的备选模板；并且本申请实施例还需要从大量的备选模板中提取出实例模板，从而保证提取出的实例模板的质量更高。

可选的，从所述原始语料实例对应的备选模板中提取实例模板之后，还包括：

利用提取出的实例模板构建用于进行语义识别的模板库。

由于本申请实施例利用从原始语料实例中提取的实例模板构建成模板库，该模板库中包括大量的实例模板，可以利用该模板库进行语义识别。

可选的，所述变量集合包括下列类型中的部分或全部：

单一变量、组合变量；

其中，所述单一变量未嵌套其他变量，所述组合变量嵌套单一变量。

由于本申请实施例的变量集合的类型包括单一变量、组合变量，有效的对原始语料实例进行挖掘，增大对备选模板的召回数量。

可选的，所述变量为所述原始语料实例中能够进行抽象泛化的语料。

可选的，所述根据所述变量集合，确定所述任意一个原始语料实例对应的备选模板，包括：

针对所述多组中的一组原始语料实例中的任意一个原始语料实例，根据所述原始语料实例中的所有变量，确定多个变量集合；

对每个变量集合进行泛化处理，确定所述原始语料实例对应的备选模板；

可选的，所述变量集合满足下列条件中的部分或全部：

变量集合中变量的个数不大于第一阈值；

变量集合中变量的长度不大于设定的片段数量；

变量集合中任意两个变量在原始语料实例中的位置之间至少包括一个非变量的片段。

由于本申请实施例针对任意一个原始语料实例，对原始语料实例中的变量进行分层次确定，确定出原始语料实例中的所有变量，并根据设定的条件确定出多个包括一个或多个变量的变量集合，根据确定的变量集合对原始语料实例进行泛化处理，确定该原始语料实例对应的备选模板，从而最大限度的确定出该原始语料实例对应的备选模板，增大对备选模板的召回数量。

可选的，所述从所述原始语料实例对应的所有备选模板中提取实例模板，包括：

针对多组中的一组原始语料实例，从所述原始语料实例对应的备选模板中提取满足筛选条件的备选模板作为实例模板；

其中，所述筛选条件为下列条件中的部分或全部：

备选模板的模板覆盖度不小于第二阈值；

备选模板的模板抽象度不小于第三阈值；

备选模板中非变量的片段数量不小于第四阈值。

由于本申请实施例在确定备选模板的过程中得到大量的备选模板，其中包括部分价值较低的备选模板，本申请实施例需要在确定出的大量备选模板中筛选出满足设定条件的实例模板，从而提高获得的实例模板的质量。

可选的，根据下列方式确定所述备选模板的模板覆盖度：

针对任意一个备选模板，将所述备选模板对应原始语料实例的数量作为所述备选模板的模板覆盖度。

由于本申请实施例提供了计算备选模板的模板覆盖度的方法，为从所述原始语料实例对应的筛选实例模板提供了参考标准。

可选的，根据下列方式确定所述备选模板的模板抽象度：

将所述备选模板的模板覆盖度和所述备选模板的长度的乘积，与所述备选模板对应的原始语料实例的长度之和的比值作为所述备选模板的模板抽象度。

由于本申请实施例提供了计算备选模板的模板抽象度的方法，为从备选模板中筛选实例模板提供了参考标准。

可选的，所述根据每两个原始语料实例之间的相似度，将所有所述原始语料实例划分为多组，包括：

将每个原始语料实例作为一个组；

根据每两个原始语料实例之间的相似度，确定每两个组之间的相似度；

将相似度最大的两个组合为一组；

判断当前划分的组是否满足停止划分条件，如果满足，则停止划分，否则返回根据每两个原始语料实例之间的相似度，确定每两个组之间的相似度的步骤。

可选的，所述停止划分条件为下列条件中的部分或全部：

当前划分的组的数量不大于第五阈值；

当前划分的组中每两个组之间最大的相似度满足设定的范围。

由于本申请实施例在从原始语料实例确定备选模板之前，根据原始模板之间的相似度，将结构相近的原始语料实例划分为一组，可以大大减少在确定备选模板过程中原始语料实例之间的比较次数，便于有效确定备选模板。

另一方面，本申请实施例的提取实例模板的设备，包括：

分组模块，用于根据原始语料实例之间的相似度，将所述原始语料实例划分为多组；

确定模块，用于针对所述多组中的一组原始语料实例中的任意一个原始语料实例：确定所述任意一个原始语料实例中的变量集合；根据所述变量集合，确定所述任意一个原始语料实例对应的备选模板；

选择模块，用于针对所述多组中的一组原始语料实例，从所述原始语料实例对应的备选模板中提取实例模板。

可选的，所述选择模块，还用于：

利用提取出的实例模板构建用于进行语义识别的模板库。

可选的，所述变量集合包括下列类型中的部分或全部：

单一变量、组合变量；

其中，所述单一变量未嵌套其他变量，组合变量嵌套单一变量。

可选的，所述确定模块，具体用于：

针对所述多组中的一组原始语料实例中的任意一个原始语料实例，根据所述原始语料实例中的所有变量，确定多个变量集合；对每个变量集合进行泛化处理，确定所述原始语料实例对应的备选模板。

可选的，所述变量集合满足下列条件中的部分或全部：

变量集合中变量的个数不大于第一阈值；

变量集合中变量的长度不大于设定的片段数量；

可选的，所述选择模块，具体用于：

其中，所述筛选条件为下列条件中的部分或全部：

备选模板的模板覆盖度不小于第二阈值；

备选模板的模板抽象度不小于第三阈值；

备选模板中非变量的片段数量不小于第四阈值。

可选的，所述选择模块，具体用于：

根据下列方式确定所述备选模板的模板覆盖度：

可选的，所述选择模块，具体用于：

根据下列方式确定所述备选模板的模板抽象度：

可选的，所述分组模块，具体用于：

将每个原始语料实例作为一个组；根据每两个原始语料实例之间的相似度，确定每两个组之间的相似度；将相似度最大的两个组合为一组；判断当前划分的组是否满足停止划分条件，如果满足，则停止划分，否则返回根据每两个原始语料实例之间的相似度，确定每两个组之间的相似度的步骤。

可选的，所述停止划分条件为下列条件中的部分或全部：

当前划分的组的数量不大于第五阈值；

本申请实施例提供的一种机器翻译的方法，该方法包括：

确定需要进行翻译的信息；

通过实例模板库中的实例模板，对确定的所述信息进行翻译；

其中，所述模板数据库中的实例模板是根据下列方式提取的：

确定所述任意一个原始语料实例中的变量集合；

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为背景技术提取实例模板的方法流程图；

图2为本申请实施例提取实例模板的总流程图；

图3为本申请实施例提取实例模板的方法流程图；

图4为本申请实施例将原始语料实例分组的方法流程图一；

图5为本申请实施例将原始语料实例分组的方法流程图二；

图6A为本申请实施例原始语料实例之间的编辑距离的示意图；

图6B为本申请实施例将原始语料实例分组的示意图；

图7为本申请实施例提取实例模板的方法的整体流程图；

图8为本申请实施例提取实例模板的设备的结构示意图。

具体实施方式

本申请实施例根据每两个原始语料实例之间的相似度，将所有所述原始语料实例划分为多组；针对所述多组中的一组原始语料实例中的任意一个原始语料实例，确定所述原始语料实例中的所有变量集合，并根据所述所有变量集合，确定所述原始语料实例对应的所有备选模板；针对多组中的一组原始语料实例，从所述原始语料实例对应的所有备选模板中提取实例模板。

由于本申请实施例在提取实例模板时，首先将多个原始语料实例根据相似度分为多组，针对多组原始语料实例中的一组原始语料实例进行模板提取。并且在提取过程中确定原始语料实例中的所有变量集合，根据变量集合确定所有的备选模板；并且本申请实施例还需要从大量的备选模板中筛选出实例模板，从而保证提取出的实例模板的质量更高。

本申请实施例可以应用在机器翻译的场景。在机器翻译时，为了保证机器能够准确地识别待翻译的实例，往往需要预先建立实例模板库。

其中，本申请实施例的实例可以是句子。并且本申请实施例的实例可以是多种语言的语料实例(比如，中文实例、英文实例、日文实例、韩文实例等)。

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部份实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

如图2所示，本申请实施例确定实例模板库的流程图，包括：

步骤201、对所有原始语料实例进行预处理；

步骤202、将所述预处理后的原始语料实例划分为多组；

步骤203、针对所述多组中的一组原始语料实例中的任意一个原始语料实例，进行模板抽取，确定该组对应的备选模板集合；

步骤204、针对一组原始语料实例对应的备选模板集合，进行模板筛选，提取该组对应的实例模板；

步骤205、将得到的各组原始语料实例对应的实例模板汇总，确定实例模板库。

本申请实施例确定的实例模板库可以应用于机器翻译(例如本地翻译、在线翻译等)、确定语义等。执行的设备可以是移动终端、固定终端、车载电脑等。

在确定实例模板库时，本申请实施例包括三个阶段，第一阶段为预处理阶段，包括上述步骤201；第二阶段为提取实例模板阶段，包括上述步骤202、203、204；第三阶段为构建模板库阶段，包括上述步骤205。

其中，第一阶段中的预处理步骤主要是对原始语料实例进行分词操作，并且对原始语料实例中的词语进行泛化和清洗操作。

其中，分词操作主要是识别原始语料实例中的片段。

例如，在对中文原始语料实例进行分词时，将一个词语划分为一个片段。比如，中文原始语料实例为“我想喝橙汁”，进行分词操作后，从原始语料实例中识别出的片段为“我/想/喝/橙汁”。

在对英文原始语料实例进行分词时，由于英文天然地通过空格将不同片段标识出来，因此，在对英文原始语料实例进行分词操作时，只需要识别原始语料实例中的空格，将每个单词作为一个片段。

泛化是指将具体的词语扩大为一般的、概括性较强的词语。

清洗是将原始语料实例中的乱码信息删除。

需要说明的是，本申请实施例对原始语料实例进行预处理的步骤采用的是现有技术的方法，具体预处理的过程在此不在赘述。

第三阶段中的构建模板库，是利用提取出的实例模板构建用于进行语义识别的模板库。

具体的，是将第二阶段提取出的每一组对应的实例模板进行汇总，确定实例模板库。在需要识别输入的实例时，根据构建的模板库，能够精确识别该输入实例的语义。

下面详细说明第二阶段中提取实例模板的方法。

如图3所示，本申请实施例提取实例模板的方法包括：

步骤301、根据原始语料实例之间的相似度，将所述原始语料实例划分为多组；

步骤302、针对所述多组中的一组原始语料实例中的任意一个原始语料实例：

确定所述任意一个原始语料实例中的变量集合；

步骤303、针对所述多组中的一组原始语料实例，从所述原始语料实例对应的备选模板中提取实例模板。

其中，本申请实施例的变量集合包括下列类型中的部分或全部：

单一变量、组合变量；

本申请实施例的变量为原始语料实例中能够进行抽象泛化的语料。

具体的，本申请实施例的语料是指原始语料实例中能够进行抽象泛化的词汇或短语。其中每一个变量包括一个或多个片段。

本申请实施例在原始语料实例的语言种类不同时，片段的定义也不相同。例如，在原始语料实例为中文原始语料实例时，一个片段是指一个词语；在原始语料实例为英文原始语料实例时，一个片段是指一个单词。

需要说明的是，本申请实施例在确定原始语料实例中的变量时，是从经过分词处理后的原始语料实例中确定变量的。

例如，对于中文，“咖啡”为一个片段，“一杯/咖啡”为两个片段；对于英文，coffee为一个片段，a cup of coffee为四个片段。

本申请实施例的变量包括组块、形容词成分、副词成分、数量成分和名词成分。

本申请实施例的变量包括单一变量和组合变量。

其中，单一变量未嵌套其他变量。每个单一变量包括一个或多个片段。

例如，supermarket为包含一个片段的单一变量；orange juice为包含两个片段的单一变量。

具体的，本申请实施例的单一变量中不能抽象泛化出其他变量。

下面分别以中文和英文为例，举例说明单一变量的形式。

例如，中文单一变量可以是咖啡、橙汁、公园、超市、漂亮的等；英文单一变量可以是coffee、orange juice、park、supermarket、beautiful等。

本申请实施例的组合变量嵌套单一变量。

具体的，本申请实施例的组合变量中能够抽象泛化出其他变量，其中，其他变量可以是单一变量或者组合变量。

例如，“have diplomatic relations with North Korea”为一个组合变量，该组合变量中包括diplomatic relations和North Korea两个单一变量。

下面举一个例子说明从原始语料实例中确定变量的过程。

例如，原始语料实例一为“我和他都买了一杯咖啡”，经分词处理后的原始语料实例为“我/和/他/都/买了/一杯/咖啡”。从分词处理后的原始语料实例中确定变量包括：“我”、“他”、“一杯”、“咖啡”、“我和他”、“一杯咖啡”。其中，“我”、“他”、“一杯”、“咖啡”为单一变量；“我/和/他”、“一杯/咖啡”为组合变量。

针对步骤301，本申请实施例在确定两个原始语料实例之间的相似度时，将预处理后的两个原始语料实例视为由多个字符组成的以空格分隔的字符串。例如，在原始语料实例为中文句子时，将句子中的每一个汉字作为一个字符；在原始语料实例为英文句子时，将句子中的每一个字母作为一个字符。

本申请实施例将确定两个原始语料实例之间的相似度转化为计算两个原始语料实例对应的字符串之间的编辑距离。

其中，编辑距离是指两个字符串之间，从一个字符串转化为另一个字符串所需要的最少编辑操作次数。

编辑操作包括但不限于：

将一个字符替换为另一个字符、插入一个字符、删除一个字符。

并且，编辑距离越小，两个字符串的相似程度越高。

可选的，本申请实施例两个原始语料实例之间的编辑距离的计算方式可以采用动态规划的方法。

需要说明的是，上述计算编辑距离的实现算法只是对本申请实施例的举例说明，本申请实施例想要保护的编辑距离的计算方法并不限于上述举例说明，任何能够实现计算编辑距离的方法均适用于本申请。

实施中，本申请实施例需要将所有的经预处理后的原始语料实例划分为多组，在划分过程中需要依据原始语料实例之间的相似度。其中，可以根据至少每两个原始语料实例之间的相似度将所有的经预处理后的原始语料实例划分为多组。

比如有10个原始语料实例，可以确定每两个原始语料实例之间的相似度，根据确定的相似度将所有的经预处理后的原始语料实例划分为多组；

还比如有10个原始语料实例，可以部分原始语料实例确定每两个之间的相似度，部分原始语料实例确定每三个之间的相似度，根据确定的相似度将所有的经预处理后的原始语料实例划分为多组。

可选的，划分的组还需要满足下列条件中的至少一种。

条件一、当前划分的组的数量不大于第五阈值；

条件二、当前划分的组中每两个组之间最大的相似度满足设定的范围。

本申请实施例的相似度采用编辑距离来表示，并且编辑距离越大，相似度越小。

其中，最大的相似度满足设定的范围，是指最小的编辑距离大于第六阈值。

本申请实施例在设置第六阈值时，通过所有原始语料实例中每两个原始语料实例之间的编辑距离，将计算得到的所有编辑距离取平均值，将得到的平均值作为第六阈值。

下面分别以两个停止划分条件为例，分别说明停止划分组的方法。

方法一、停止划分组的条件为当前划分的组的数量不大于第五阈值。

其中，具体的划分步骤如图4所示。

步骤401、将每个原始语料实例作为一个组；

步骤402、根据每两个原始语料实例之间的相似度，确定每两个组之间的相似度；

步骤403、将相似度最大的两个组合为一组；

步骤404、判断当前划分的组的数量是否不大于第五阈值，若是，执行步骤405，若否，执行步骤402；

步骤405、停止划分组。

本申请实施例首先计算所有原始语料实例中每两个原始语料实例之间的编辑距离，从计算得到的所有编辑距离中选取编辑距离最小的两个原始语料实例，将该两个原始语料实例合为一组。因此，在第一次计算所有原始语料实例中每两个原始语料实例之间的编辑距离后，原始语料实例组的数目减少一个。

例如，假设原始语料实例共有N个，则计算N个原始语料实例中每两个原始语料实例之间的编辑距离，在该步骤得到N*(N-1)/2个编辑距离，从N*(N-1)/2个编辑距离中选择编辑距离最小的两个原始语料实例，假设为原始语料实例A和原始语料实例B，此时将原始语料实例A和原始语料实例B作为一组，则此时的原始语料实例的组数为N-1。

在将相似度最大的两个组合为一组后，若不满足组的停止划分条件，则还需要继续计算每两个组之间的编辑距离。在计算组与组之间的编辑距离时，需要根据不同组中每两个原始语料实例之间的编辑距离计算。下面针对组中包含多个原始语料实例的情况下计算编辑距离的方法进行说明。

一、两个组中只有一个组包含多个原始语料实例。

本申请实施例在计算两个组的编辑距离时，若确定两个组中只有一个组包含多个原始语料实例，则在计算该两个组之间的编辑距离时，将只有一个原始语料实例的组中的原始语料实例分别与包含多个原始语料实例的组中的多个原始语料实例进行编辑距离的计算，将得到的多个编辑距离取平均值，将该平均值作为该两个组之间的编辑距离。

例如，两个组分别为组一和组二，并且，组一中包含一个原始语料实例A，组二中包含三个原始语料实例，分别为原始语料实例B、原始语料实例C和原始语料实例D。在计算组一和组二之间的编辑距离时，计算原始语料实例A和原始语料实例B之间的编辑距离X，计算原始语料实例A和原始语料实例C之间的编辑距离Y，计算原始语料实例A和原始语料实例D之间的编辑距离Z，将得到的X、Y、Z求平均值，即：(X+Y+Z)/3，将(X+Y+Z)/3作为组一和组二之间的编辑距离。

二、两个组中两个组均包含多个原始语料实例。

本申请实施例在计算两个组的编辑距离时，若确定两个组中均包含多个原始语料实例，则在计算该两个组之间的编辑距离时，针对一个组中的每一个原始语料实例，分别与另外一个组中的多个原始语料实例计算编辑距离，将得到的所有的编辑距离取平均值，将该平均值作为两个组之间的编辑距离。

例如，两个组分别为组一和组二，并且，组一中包含两个原始语料实例，分别为原始语料实例A和原始语料实例B，组二中包含三个原始语料实例，分别为原始语料实例C、原始语料实例D和原始语料实例E。在计算组一和组二之间的编辑距离时，针对组一中的原始语料实例A，计算原始语料实例A和原始语料实例C之间的编辑距离H，原始语料实例A和原始语料实例D之间的编辑距离I，原始语料实例A和原始语料实例E之间的编辑距离J，原始语料实例B和原始语料实例C之间的编辑距离K，原始语料实例B和原始语料实例D之间的编辑距离L，原始语料实例B和原始语料实例E之间的编辑距离M，将得到的H、I、J、K、L、M求平均值，即：(H+I+J+K+L+M)/6，将(H+I+J+K+L+M)/6作为组一和组二之间的编辑距离。

由于本申请实施例在确定当前划分的组的数量不大于第五阈值时，停止划分组。

例如，本申请实施例的第五阈值为5，则在确定划分的组数大于5时，继续进行划分，在确定划分的组数小于或等于5时，停止划分组。

方法二、停止划分组的条件为当前划分的组中每两个组之间最大的相似度满足设定的范围。

其中，具体的划分步骤如图5所示。

步骤501、将每个原始语料实例作为一个组；

步骤502、根据每两个原始语料实例之间的相似度，确定每两个组之间的相似度；

步骤503、将相似度最大的两个组合为一组；

步骤504、判断当前划分的组中每两个组之间最大的相似度是否满足设定的范围，若是，执行步骤505，若否，执行步骤502；

步骤505、停止划分组。

本申请实施例在停止划分条件为当前划分的组中每两个组之间最大的相似度满足设定的范围时，停止划分组。并且，根据相似度(编辑距离)进行划分的过程与方法一中相同，具体的划分过程在此不再赘述。

下面以一例子说明根据编辑距离划分组的过程。

假设共包括六个原始语料实例，分别为原始语料实例BA，原始语料实例FI，原始语料实例MI，原始语料实例NA，原始语料实例RM，原始语料实例TO。则每两个原始语料实例之间的编辑距离如图6A所示，其中，原始语料实例BA与原始语料实例FI之间的编辑距离为662，原始语料实例BA与原始语料实例MI之间的编辑距离为877，原始语料实例BA与原始语料实例NA之间的编辑距离为255，原始语料实例BA与原始语料实例RM之间的编辑距离为412，原始语料实例BA与原始语料实例TO之间的编辑距离为996，原始语料实例FI与原始语料实例MI之间的编辑距离为295，原始语料实例FI与原始语料实例NA之间的编辑距离为468，原始语料实例FI与原始语料实例RM之间的编辑距离为268，原始语料实例FI与原始语料实例TO之间的编辑距离为400，原始语料实例MI与原始语料实例NA之间的编辑距离为754，原始语料实例MI与原始语料实例RM之间的编辑距离为564，原始语料实例MI与原始语料实例TO之间的编辑距离为138，原始语料实例NA与原始语料实例RM之间的编辑距离为219，原始语料实例NA与原始语料实例TO之间的编辑距离为869，原始语料实例RM与原始语料实例TO之间的编辑距离为669。

根据上述每两个原始语料实例之间的编辑距离，将所有的原始语料实例进行分组。分组过程如图6B所示，从上述的编辑距离中得到：原始语料实例MI与原始语料实例TO之间的编辑距离138最小，因此，首先将原始语料实例MI与原始语料实例TO划分为一组；然后分别计算BA、NA、RM、FI、MI/TO五个组之间的编辑距离，确定原始语料实例NA和原始语料实例RM之间的编辑距离最小，因此将原始语料实例NA和原始语料实例RM划分为一组；再分别计算BA、NA/RM、FI、MI/TO四个组之间的编辑距离，确定原始语料实例BA和原始语料实例组NA/RM之间的编辑距离最小，因此，将原始语料实例BA和原始语料实例组NA/RM划分为一组；再分别计算BA/NA/RM、FI、MI/TO三个组之间的编辑距离，确定原始语料实例组BA/NA/RM与原始语料实例FI之间的编辑距离最小，将原始语料实例组BA/NA/RM和原始语料实例FI划分为一组。若停止划分的条件为当前划分的组的数量不大于2，则在将原始语料实例组BA/NA/RM和原始语料实例FI划分为一组之后，确定当前划分的组的数量为2，则停止划分组。

本申请实施例在模板确定阶段，即步骤302，是针对多组原始语料实例中的一组原始语料实例确定的。

具体的确定备选模板的过程为：

其中，在确定备选模板时，备选模板的变量集合需要满足下列条件中的部分或全部：

条件一、每个变量集合中变量的个数不大于第一阈值；

条件二、每个变量集合中变量的长度不大于设定的片段数量；

条件三、每个变量集合中任意两个变量在原始语料实例中的位置之间至少包括一个非变量的片段。

针对条件一，可选的，每个变量集合中变量的个数不大于2；此时，变量集合中变量的个数可以为1或2；在变量集合中的变量个数大于2时，确定该变量集合不满足条件一。

本申请实施例中变量的长度为变量中片段的个数。例如，在变量为“havediplomatic relations with North Korea”时，该变量的长度为6；在变量为“咖啡/和/橙汁”时，该变量的长度为3。

针对条件二，可选的，每个变量集合中变量的长度不大于5；此时，要求变量集合中的所有变量的变量长度均不大于5；在变量集合中存在变量的长度大于5时，确定该变量集合不满足条件二。

针对条件三，要求变量集合中任意两个变量在原始语料实例中的位置不相邻。例如原始语料实例为：Australia is one of the few countries that have diplomaticrelations with North Korea，在确定变量集合时，变量集合一：<few，countries>；由于“few”和“countries”在原始语料实例中的位置相邻，则确定变量集合一：<few，countries>不满足条件三。

在确定备选模板的过程中，首先需要确定原始语料实例对应的所有变量集合。并且采用下列方法确定原始语料实例对应的变量集合：

针对一个原始语料实例，确定该原始语料实例中的所有变量，其中，所有变量包括单一变量和组合变量。根据变量集合的选择条件，从确定出的所有变量中选择变量组合成变量集合，从而确定出多个变量集合。

根据确定的多个变量集合，每次将一个变量集合对应的变量进行泛化处理，得到原始语料实例对应的备选模板；将多个变量集合分别进行泛化处理，从而得到多个备选模板。

需要说明的是，若根据原始语料实例中的所有变量，确定出N个满足条件的变量集合，则将每个变量集合泛化处理后，得到N个原始语料实例对应的备选模板。

下面以一个例子说明确定备选模板的过程。

例如，原始语料实例为：Australia is one of the few countries that havediplomatic relations with North Korea，确定该原始语料实例中所有的变量包括：Australia、countries、the few countries、one of the few countries、diplomaticrelations、North Korea、have diplomatic relations with North Korea。

并且，假设变量集合满足的条件为：每个变量集合中变量的个数不大于2；且每个变量集合中变量的长度不大于2；且每个变量集合中任意两个变量在原始语料实例中的位置之间至少包括一个非变量的片段。

则根据上述得到的所有变量，以及变量集合的满足条件，确定满足条件的变量集合有：

变量集合一：<Australia>；变量集合二：<countries>；变量集合三：<diplomaticrelations>；变量集合四：<North Korea>；变量集合五：<Australia、countries>；变量集合六：<Australia、diplomatic relations>；变量集合七：<Australia、North Korea>；变量集合八：<countries、diplomatic relations>；变量集合九：<countries、North Korea>；变量集合十：<diplomatic relations、North Korea>；

根据上述十个变量集合，对原始语料实例进行泛化处理，得到备选模板为(采用X表示泛化后的变量，其中原始语料实例中的第一个泛化后变量标记为X1，第二个标记为X2，以此类推)：

备选模板一：X1is one of the few countries that have diplomaticrelations with North Korea；

备选模板二：Australia is one of the few X1that have diplomaticrelations with North Korea；

备选模板三：Australia is one of the few countries that have X1withNorth Korea；

备选模板四：Australia is one of the few countries that have diplomaticrelations with X1；

备选模板五：X1is one of the few X2that have diplomatic relations withNorth Korea；

备选模板六：X1is one of the few countries that have X2with NorthKorea；

备选模板七：X1is one of the few countries that have diplomaticrelations with X2；

备选模板八：Australia is one of the few X1that have X2with NorthKorea；

备选模板九：Australia is one of the few X1that have diplomaticrelations with X2；

备选模板十：Australia is one of the few countries that have X1with X2；

即上述得到的十个备选模板为该原始语料实例对应的备选模板。

本申请实施例在针对一组中任意一个原始语料实例，确定该原始语料实例对应的所有备选模板时，可以通过代码实现备选模板的确定过程。

具体的，假设备选模板需要满足的下列条件：

条件一、同一个备选模板中变量的个数不大于2；

条件二、变量的长度不大于2；

条件三、同一个备选模板中每两个变量之间至少包括一个非变量的片段。

实施中，可以通过下面的代码实现满足上述条件的确定备选模板的过程。

需要说明是，上述确定备选模板的方法只是对本申请实施例确定备选模板方法的举例说明，本申请实施例想要保护的确定备选模板的方法并不限于上述举例，任何能够确定到满足条件的备选模板的方法均适用于本申请。

本申请实施例在针对一组中的每一个原始语料实例，确定到每一个原始语料实例对应的备选模板之后，将一组的原始语料实例对应的所有的备选模板汇总。

由于通过上述的基于变量层次性的备选模板确定方法，针对所述多组中的一组原始语料实例中的任意一个原始语料实例，会确定大量的备选模板。并且，在确定的大量备选模板中，仍然存在大量质量较低、价值不大的备选模板。例如，假设针对11万的原始语料实例进行备选模板的确定，按照上述的备选模板确定方法能够确定出的备选模板大约为2.5亿条。

本申请实施例在确定针对多组原始语料实例中的一组原始语料实例对应的备选模板后，还需要进行备选模板的筛选。

具体的，针对多组原始语料实例中的一组原始语料实例，从所述原始语料实例对应的选择满足筛选条件的备选模板作为实例模板；

其中，所述筛选条件为下列条件中的部分或全部：

备选模板的模板覆盖度不小于第二阈值；

备选模板的模板抽象度不小于第三阈值；

备选模板中非变量的片段数量不小于第四阈值。

本申请实施例备选模板的模板覆盖度是指该备选模板覆盖的原始语料实例的个数。其中，针对一个备选模板，在从某一原始语料实例中确定出的所有备选模板中包含该备选模板时，则认为该备选模板覆盖该原始语料实例。

具体的，根据下列方式确定所述备选模板的模板覆盖度：

需要说明的是，备选模板对应原始语料实例的数量即为备选模板覆盖的原始语料实例的数量。

例如，假设一个原始语料实例组中包括四个原始语料实例，分别为原始语料实例一、原始语料实例二、原始语料实例三、原始语料实例四。其中，原始语料实例一对应的备选模板包括：备选模板A、备选模板B、备选模板C、备选模板D；原始语料实例二对应的备选模板包括：备选模板A、备选模板B、备选模板E；原始语料实例三对应的备选模板包括：备选模板C、备选模板E、备选模板F；原始语料实例四对应的备选模板包括：备选模板B、备选模板C、备选模板E、备选模板F、备选模板G。

则在确定备选模板A的模板覆盖度时，确定备选模板A对应的原始语料实例个数为2，则确定备选模板A的模板覆盖度为2；在确定备选模板B的模板覆盖度时，确定备选模板B对应的原始语料实例个数为4，则确定备选模板B的模板覆盖度为4；在确定备选模板C的模板覆盖度时，确定备选模板C对应的原始语料实例个数为3，则确定备选模板C的模板覆盖度为3；在确定备选模板D的模板覆盖度时，确定备选模板D对应的原始语料实例个数为1，则确定备选模板D的模板覆盖度为1；在确定备选模板E的模板覆盖度时，确定备选模板E对应的原始语料实例个数为3，则确定备选模板E的模板覆盖度为3；在确定备选模板F的模板覆盖度时，确定备选模板F对应的原始语料实例个数为2，则确定备选模板E的模板覆盖度为2；在确定备选模板G的模板覆盖度时，确定备选模板G对应的原始语料实例个数为1，则确定备选模板D的模板覆盖度为1。

可选的，根据下列方式确定所述备选模板的模板抽象度：

具体的，根据下列公式确定所述备选模板的模板抽象度：

其中，abs为所述备选模板的抽象度；len_template为所述备选模板的长度；len_i为所述备选模板对应的第i个原始语料实例的长度，i为正整数，且1≤i≤n；n为所述备选模板的覆盖度。

本申请实施例备选模板的长度为备选模板中片段的个数与泛化后的变量个数之和。

例如，在备选模板为X1have an X2时，其中，X1、X2均为泛化后的变量。该备选模板的长度为4。

需要说明的是，由于备选模板中的变量为泛化后的变量，因此，在计算备选模板长度时，将一个泛化后的变量作为一个单位长度计算。

本申请实施例在计算备选模板的抽象度时，需要预先确定该备选模板覆盖度，根据备选模板的覆盖度确定备选模板的抽象度。

下面以一个具体例子说明备选模板的模板抽象度的计算方法。

例如，备选模板A的覆盖度为3，并且备选模板A对应的原始语料实例依次为原始语料实例一、原始语料实例二和原始语料实例三。并且备选模板A的长度为5；原始语料实例一的长度为8，原始语料实例二的长度为9，原始语料实例三的长度为7。则在计算备选模板A的抽象度时，备选模板A的抽象度abs为：

针对多组原始语料实例中的一组原始语料实例对应的所有备选模板，计算所有备选模板的覆盖度和抽象度。在确定每一个备选模板的覆盖度和抽象度之后，根据下面的筛选条件进行筛选，并且，本申请实施例在确定筛选条件时，可以从下列筛选条件中选择一个或多个条件作为备选模板的筛选条件。

其中，条件一：备选模板的模板覆盖度不小于第二阈值；

条件二：备选模板的模板抽象度不小于第三阈值；

条件三：备选模板中非变量的片段数量不小于第四阈值。

可选的，将上述三个条件都作为本申请实施例对备选模板进行筛选的条件，在备选模板同时满足上述三个条件时，将该备选模板作为实例模板。

可选的，设置模板覆盖度不小于10；模板抽象度不小于0.5；非变量的片段数量不小于3。

如图7所示，本申请实施例提取实例模板的方法的整体流程图。

步骤701、将每个原始语料实例作为一个组；

步骤702、根据每两个原始语料实例之间的相似度，确定每两个组之间的相似度；

步骤703、将相似度最大的两个组合作为一个组；

步骤704、判断当前是否满足停止划分条件，若是，执行步骤705，若否，执行步骤702；

其中，所述停止划分条件包括下列中的部分或全部：

当前划分的组的数量不大于第五阈值；

步骤705、停止划分；

步骤706、针对所述多组中的一组原始语料实例中的任意一个原始语料实例，根据所述原始语料实例中的所有变量，确定多个变量集合；其中，每个变量集合中变量的个数不大于第一阈值；每个变量集合中变量的长度不大于设定的片段数量；每个变量集合中任意两个变量在原始语料实例中的位置之间至少包括一个非变量的片段；

步骤707、对每个变量集合进行泛化处理，确定所述原始语料实例对应的备选模板；

步骤708、针对多组中的一组原始语料实例，从所述原始语料实例对应的备选模板中提取满足筛选条件的备选模板作为实例模板。

本申请实施例还提供一种机器翻译的方法，该方法包括：

确定需要进行翻译的信息；

其中，所述模板数据库中的实例模板是根据本申请实施例提取实体模板的方法提取的。

基于同一发明构思，本申请实施例中还提供了一种提取实例模板的设备，由于该系统解决问题的原理与本申请实施例提取实例模板的方法相似，因此该设备的实施可以参见方法的实施，重复之处不再赘述。

如图8所示，本申请实施例的提取实例模板的设备，包括：

分组模块801，用于根据原始语料实例之间的相似度，将所述原始语料实例划分为多组；

确定模块802，用于针对所述多组中的一组原始语料实例中的任意一个原始语料实例：确定所述任意一个原始语料实例中的变量集合；根据所述变量集合，确定所述任意一个原始语料实例对应的备选模板；

选择模块803，用于针对所述多组中的一组原始语料实例，从所述原始语料实例对应的备选模板中提取实例模板。

可选的，所述选择模块803，还用于：

利用提取出的实例模板构建用于进行语义识别的模板库。

可选的，所述变量集合包括下列类型中的部分或全部：

单一变量、组合变量；

可选的，所述确定模块802，具体用于：

可选的，所述变量集合满足下列条件中的部分或全部：

变量集合中变量的个数不大于第一阈值；

变量集合中变量的长度不大于设定的片段数量；

可选的，所述选择模块803，具体用于：

针对多组原始语料实例中的一组原始语料实例，从所述原始语料实例对应的备选模板中提取满足筛选条件的备选模板作为实例模板；

其中，所述筛选条件为下列条件中的部分或全部：

备选模板的模板覆盖度不小于第二阈值；

备选模板的模板抽象度不小于第三阈值；

备选模板中非变量的片段数量不小于第四阈值。

可选的，所述选择模块803，具体用于：

根据下列方式确定所述备选模板的模板覆盖度：

可选的，所述选择模块803，具体用于：

根据下列方式确定所述备选模板的模板抽象度：

可选的，所述分组模块801，具体用于：

可选的，所述停止划分条件为下列条件中的部分或全部：

当前划分的组的数量不大于第五阈值；

其中，本申请实施例还提供的一种机器翻译的方法，该方法包括：

确定需要进行翻译的信息；

确定所述任意一个原始语料实例中的变量集合；

也就是说，本申请实施例提供的机器翻译的方法中使用的实例模板库中的实例模板是根据本申请实施例提取实例模板的方法提取的。

以上参照示出根据本申请实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本申请。应理解，可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置，以产生机器，使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。

相应地，还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本申请。更进一步地，本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式，其具有在介质中实现的计算机可使用或计算机可读程序代码，以由指令执行系统来使用或结合指令执行系统而使用。在本申请上下文中，计算机可使用或计算机可读介质可以是任意介质，其可以包含、存储、通信、传输、或传送程序，以由指令执行系统、装置或设备使用，或结合指令执行系统、装置或设备使用。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种提取实例模板的方法，其特征在于，该方法包括：

确定所述任意一个原始语料实例中的变量集合；

针对所述多组中的一组原始语料实例，从所述原始语料实例对应的备选模板中提取实例模板；

所述根据原始语料实例之间的相似度，将所述原始语料实例划分为多组，包括：

将每个原始语料实例作为一个组；

将相似度最大的两个组合为一组；

判断当前划分的组是否满足停止划分条件，如果满足，则停止划分，否则返回根据每两个原始语料实例之间的相似度，确定每两个组之间的相似度的步骤；

所述变量集合满足下列条件中的部分或全部：

变量集合中变量的个数不大于第一阈值；

变量集合中变量的长度不大于设定的片段数量；

2.如权利要求1所述的方法，其特征在于，从所述原始语料实例对应的备选模板中提取实例模板之后，还包括：

利用提取出的实例模板构建用于进行语义识别的模板库。

3.如权利要求1所述的方法，其特征在于，所述变量集合包括下列类型中的部分或全部：

单一变量、组合变量；

4.如权利要求3所述的方法，其特征在于，所述单一变量为所述原始语料实例中能够进行抽象泛化的语料，和/或所述组合变量为所述原始语料实例中能够进行抽象泛化的语料。

5.如权利要求1所述的方法，其特征在于，所述根据所述变量集合，确定所述任意一个原始语料实例对应的备选模板，包括：

针对所述多组中的一组原始语料实例中的任意一个原始语料实例，根据所述原始语料实例中的变量，确定多个变量集合；

对每个变量集合进行泛化处理，确定所述原始语料实例对应的备选模板。

6.如权利要求1所述的方法，其特征在于，所述从所述原始语料实例对应的备选模板中提取实例模板，包括：

针对所述多组中的一组原始语料实例，从所述原始语料实例对应的备选模板中提取满足筛选条件的备选模板作为实例模板；

其中，所述筛选条件为下列条件中的部分或全部：

备选模板的模板覆盖度不小于第二阈值；

备选模板的模板抽象度不小于第三阈值；

备选模板中非变量的片段数量不小于第四阈值。

7.如权利要求6所述的方法，其特征在于，根据下列方式确定所述备选模板的模板覆盖度：

8.如权利要求6所述的方法，其特征在于，根据下列方式确定所述备选模板的模板抽象度：

9.如权利要求1所述的方法，其特征在于，所述停止划分条件为下列条件中的部分或全部：

当前划分的组的数量不大于第五阈值；

10.一种提取实例模板的设备，其特征在于，包括：

选择模块，用于针对所述多组中的一组原始语料实例，从所述原始语料实例对应的备选模板中提取实例模板；

所述分组模块，具体用于：

将每个原始语料实例作为一个组；根据每两个原始语料实例之间的相似度，确定每两个组之间的相似度；将相似度最大的两个组合为一组；判断当前划分的组是否满足停止划分条件，如果满足，则停止划分，否则返回根据每两个原始语料实例之间的相似度，确定每两个组之间的相似度的步骤；

所述变量集合满足下列条件中的部分或全部：

变量集合中变量的个数不大于第一阈值；

变量集合中变量的长度不大于设定的片段数量；

11.如权利要求10所述的设备，其特征在于，所述选择模块，还用于：

利用提取出的实例模板构建用于进行语义识别的模板库。

12.如权利要求10所述的设备，其特征在于，所述变量集合包括下列类型中的部分或全部：

单一变量、组合变量；

13.如权利要求12所述的设备，其特征在于，所述单一变量为所述原始语料实例中能够进行抽象泛化的语料，和/或所述组合变量为所述原始语料实例中能够进行抽象泛化的语料。

14.如权利要求10所述的设备，其特征在于，所述确定模块，具体用于：

15.如权利要求10所述的设备，其特征在于，所述选择模块，具体用于：

其中，所述筛选条件为下列条件中的部分或全部：

备选模板的模板覆盖度不小于第二阈值；

备选模板的模板抽象度不小于第三阈值；

备选模板中非变量的片段数量不小于第四阈值。

16.如权利要求15所述的设备，其特征在于，所述选择模块，具体用于：

根据下列方式确定所述备选模板的模板覆盖度：

17.如权利要求15所述的设备，其特征在于，所述选择模块，具体用于：

根据下列方式确定所述备选模板的模板抽象度：

18.如权利要求10所述的设备，其特征在于，所述停止划分条件为下列条件中的部分或全部：

当前划分的组的数量不大于第五阈值；

19.一种机器翻译的方法，其特征在于，该方法包括：

确定需要进行翻译的信息；

其中，所述实例模板库中的实例模板是根据下列方式提取的：

确定所述任意一个原始语料实例中的变量集合；

将每个原始语料实例作为一个组；

将相似度最大的两个组合为一组；

所述变量集合满足下列条件中的部分或全部：

变量集合中变量的个数不大于第一阈值；

变量集合中变量的长度不大于设定的片段数量；