CN103577498B

CN103577498B - 一种跨语言自动构建分类规则的方法和装置

Info

Publication number: CN103577498B
Application number: CN201210283172.5A
Authority: CN
Inventors: 刘峰; 牛正雨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-08-09
Filing date: 2012-08-09
Publication date: 2018-09-07
Anticipated expiration: 2032-08-09
Also published as: CN103577498A

Abstract

本发明提供了一种跨语言自动构建分类规则的方法和装置，将源语言的分类规则进行变换得到一个以上的与关系规则后，针对每一个与关系规则分别执行以下步骤：确定当前与关系规则中判断条件的关键词；确定各关键词对应的目标语言候选词集合，该集合包括：关键词的目标语言翻译词、目标语言翻译为源语言的字符串中包含该关键词的目标语言词以及该关键词；分别从各目标语言候选词集合中挑选文档覆盖状况满足预设要求的候选词作为各关键词对应的目标语言关键词；将目标语言关键词采用或的关系分别替换当前与关系规则中对应的关键词，得到目标语言的与关系规则。通过本发明仅需要针对一个语种人工构建分类规则，从而大大降低了人工成本和工作量。

Description

一种跨语言自动构建分类规则的方法和装置

【技术领域】

本发明涉及计算机应用技术领域，特别涉及一种跨语言自动构建分类规则的方法和装置。

【背景技术】

随着因特网上网页数量的爆炸式增长，能否从海量网页中迅速准确地搜索出用户感兴趣的信息使文本分类技术在信息检索领域得到应用。在网页分类主要是通过机器学习模型进行分类，在基于机器学习模型进行分类之前，首先需要使用初过滤规则来剔除掉明显不是目标类型的网页，以降低分类难度、提高分类效果。在线上对网页进行分类时，任何一个网页都首先进行初过滤，对初过滤后的网页进入分类器。实际上初过滤已经帮助分类器过滤掉了大部分干扰信息才使得分类器达到较好的线上效果。

之所以将初过滤和分类器分离，是因为初过滤所使用的分类模型都是经过人观察而得到的强规则，分类器通过训练很难完全学到这些信息。虽然这些强规则是人工设置的，但由于也是使用语言相关的词语作为特征或者作为初过滤规则的信息来源，因此当存在多个语种的页面时，需要针对每个语种分别人工构建初过滤规则。然而人工构建初过滤规则的代价较高，如果目标语种较多，那么构建成本会很高，工作量也很难承受，对于诸如初过滤规则之外的其他文档分类规则也可能存在类似问题。

【发明内容】

有鉴于此，本发明提供了一种跨语言自动构建分类规则的方法和装置，以便于降低多目标语种构建分类规则的成本和工作量。

具体技术方案如下：

一种跨语言自动构建分类规则的方法，将源语言的分类规则进行变换得到一个以上的与关系规则后，针对每一个与关系规则分别执行以下步骤：

S1、确定当前与关系规则中判断条件的关键词；

S2、确定各关键词对应的目标语言候选词集合，该集合包括：关键词的目标语言翻译词、目标语言翻译为源语言的字符串中包含该关键词的目标语言词以及该关键词；

S3、分别从各目标语言候选词集合中挑选文档覆盖状况满足预设要求的候选词作为各关键词对应的目标语言关键词；

S4、将目标语言关键词采用或的关系分别替换当前与关系规则中对应的关键词，得到目标语言的与关系规则。

根据本发明一优选实施例，所述关键词的目标语言翻译词、目标语言翻译为源语言的字符串中包含该关键词的目标语言词从机器翻译所使用的词表中获得。

根据本发明一优选实施例，所述文档覆盖状况满足预设要求为：挑选的候选词所覆盖的文档与目标文档覆盖状况之间的逼近程度满足预设要求，所述目标文档覆盖状况为：将目标语言文档翻译为源语言文档时满足当前与关系规则的目标语言文档。

根据本发明一优选实施例，所述步骤S3具体包括：

S31、将目标语言候选词集合中的各候选词按照文档覆盖率从高到低进行排序；

S32、按顺序逐一对候选词进行选择：如果当前候选词所覆盖的文档未包含在已选择候选词所覆盖的文档中，则选择当前候选词；待已选择候选词所覆盖的文档达到目标文档覆盖状况，或者，当前候选词所覆盖的文档数小于预设状况，则停止对候选词的选择；

S33、将选择出的候选词作为关键词对应的目标语言关键词。

根据本发明一优选实施例，在所述步骤S31中按照如下公式计算候选词w^e2c的文档覆盖率S(w^e2c)：

S(w^e2c)=|Cover(w^e2c)|/|r^e(D^c2e)|

其中，为候选词w^e2c所覆盖的文档，r^e(D^c2e)为将目标语言文档翻译为源语言文档后满足当前与关系规则的文档集合，为将当前与关系规则中的关键词替换成对应候选词w^e2c后目标语言文档中命中替换后与关系规则的文档集合，∩为取交集，/为集合数量的比例。

根据本发明一优选实施例，该方法还包括：

S5、将目标语言的与关系规则按照源语言的分类规则中各与关系规则之间的逻辑关系进行组合后，得到目标语言的分类规则。

一种跨语言自动构建分类规则的装置，该装置包括：

规则变换单元，用于将源语言的分类规则进行变换得到一个以上的与关系规则，将各与关系规则分别作为当前与关系规则提供给关键词确定单元；

关键词确定单元，用于确定当前与关系规则中判断条件的关键词；

候选词确定单元，用于确定各关键词对应的目标语言候选词集合，该集合包括：关键词的目标语言翻译词、目标语言翻译为源语言的字符串中包含该关键词的目标语言词以及该关键词；

候选词挑选单元，用于分别从各目标语言候选词集合中挑选文档覆盖状况满足预设要求的候选词作为各关键词对应的目标语言关键词；

规则替换单元，用于将目标语言关键词采用或的关系分别替换当前与关系规则中对应的关键词，得到目标语言的与关系规则。

根据本发明一优选实施例，所述候选词确定单元从机器翻译所使用的词表中获得所述关键词的目标语言翻译词、目标语言翻译为源语言的字符串中包含该关键词的目标语言词。

根据本发明一优选实施例，所述候选词挑选单元具体包括：

排序子单元，用于将目标语言候选词集合中的各候选词按照文档覆盖率从高到低进行排序；

选择子单元，用于按顺序逐一对候选词进行选择：如果当前候选词所覆盖的文档未包含在已选择候选词所覆盖的文档中，则选择当前候选词；待已选择候选词所覆盖的文档达到目标文档覆盖状况，或者，当前候选词所覆盖的文档数小于预设状况，则停止对候选词的选择；

确定子单元，用于将所述选择子单元选择出的候选词作为关键词对应的目标语言关键词。

根据本发明一优选实施例，所述排序子单元按照如下公式计算候选词w^e2c的文档覆盖率S(w^e2c)：

S(w^e2c)=|Cover(w^e2c)|/|r^e(D^c2e)|

根据本发明一优选实施例，该装置还包括：

规则组合单元，用于将目标语言的与关系规则按照源语言的分类规则中各与关系规则之间的逻辑关系进行组合后，得到目标语言的分类规则。

由以上技术方案可以看出，本发明通过将源语言的分类规则中一个以上的与关系规则迁移为目标语言的与关系规则的方式，实现跨语言分类规则的自动构建，使得仅需要针对一个语种人工构建分类规则，其他语种的分类规则采用本发明提供的方法或装置实现自动构建，从而大大降低了人工成本和工作量。

【附图说明】

图1为本发明实施例一提供的跨语言自动构建初过滤规则的方法流程图；

图2为图1中步骤104的具体实现流程图；

图3为本发明实施例二提供的跨语言自动构建分类规则的装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

经过观察，给定一个页面类型，不同语言上的分类规则存在较多相似性，因此希望利用低成本的方法来做分类规则的跨语言迁移，也就是说，对于一个页面类型的分类任务，人工构建源语言的分类规则后能够实现目标语言的分类规则自动构建。下面以初过滤规则为例通过实施例一对该实现方法进行详细描述。

实施例一、

现有的初过滤规则主要包括两种：一种是D规则，用于过滤页面，即当页面的特征命中该规则时，该页面被过滤掉，不进入后续的分类器阶段。另一种是C规则，用于保留页面，即当页面的特征命中该规则时，该页面被保留进入后续的分类器阶段，如果一个页面没有命中任何一个规则，则被过滤掉。通常无论哪种初过滤规则都可以看做是一个特征判断表达式，特征判断表达式中每一个判断条件都属于下面两者之一：某个特征是否包含，或者，某个特征的值是否大于（或小于）某个值。各判断条件之间是“与”的关系，也可以是“或”的关系。在表达式中可以有括号改变逻辑运算的优先级，无论怎样，一个特征判断表达式都可以看做是由“或”连接的多个“与”关系规则或者一个“与”关系规则构成，这样就简化为对“与”关系规则的跨语言迁移。如果形式化初过滤规则，则可以认为是如下形式r：

r：IfΛcond_i Then DELETE/PRESERVE

其中Λ表示逻辑“且”关系，cond_i表示第i个判断条件，DELETE表示将命中的页面过滤掉，PRESERVE表示将命中的页面保留。对于每一个判断条件，可以将其定义为作用在页面特征集合上的函数：

cond：（F×D）→{0，1}

f＝(s，p，w）∈F

其中F表示页面中的特征集合，它的每一个元素f由结构s、属性p和关键词w的三元组构成。D表示页面集合，每个判断条件对每个页面进行判断，0表示未命中，1表示命中。

图1为本发明实施例一提供的跨语言自动构建初过滤规则的方法流程图，如图1所示，该方法可以包括以下步骤：

步骤101：将源语言的初过滤规则进行变换得到一个以上的与关系规则后，针对每一个与关系规则分别执行后续步骤。

本步骤的主要目标是把带有“与”、“或”和括号的源语言的初过滤规则等价变换为只有“与”关系的规则，可以通过对规则表达式的解析和逻辑运算的分配率，首先将规则变为析取范式，然后将析取范式拆分成若干与关系规则。

步骤102：确定与关系规则中判断条件的关键词。

其中判断条件由结构、属性和关键词构成。举个例子，假设源语言为英文，在对英文的初过滤规则进行变换后，存在如下与关系规则：

IF页面中包含文字“news”AND

页面中包含文字“sports”

THEN召回该页面。

在该与关系规则中，结构是“页面”、属性是“文字”、关键词是“news”和“sports”。

步骤103：确定关键词对应的目标语言候选词集合，该集合包括：关键词的目标语言翻译词、目标语言翻译为源语言的字符串中包含该关键词的目标语言词以及该关键词。

在源语言的与关系规则中，对于每个特征f三元组(s，p，w^e）中的关键词w^e，需要找到对应的目标语言关键词w^e2c，在本步骤中首先找到关键词对应的目标语言候选词集合，然后再通过步骤104从目标语言候选词集合中挑选出目标语言关键词。

在确定关键词对应的目标语言候选词集合时，可以采用人工翻译的方式，但优选地采用机器翻译的方式。机器翻译的方式一方面不需要人力成本，另一方面符合机器翻译的词语分布，容易找到对应的特征。

为了充分考虑到所有可能的翻译，在确定目标语言候选词集合时考虑三方面的内容：

其一、关键词的目标语言翻译词。也就是说，采用机器翻译的方式将源语言的关键词翻译为目标语言后得到的词，可以从机器翻译所使用的词表中获得。接续上例，英文关键词“news”的中文翻译词为“新闻”，“sports”的中文翻译词为“运动”、“体育”。

其二、目标语言翻译为源语言的字符串中包含该关键词的目标语言词，该部分内容可以从机器翻译所使用的词表中获得。例如，存在以下词表：

新闻->news

国际要闻->international news

中国电子报->China Electronics News

军事新闻->military news

体育新闻->sports news

以及：

运动->sports

水上运动->water sports

网球运动->tennis sports

体育->sports

国家体育总局->General Administration of Sports

那么中文翻译为英文的字符串中包含“news”的中文语言词为：“新闻”、 “国际要闻”、“中国电子报”、“军事新闻”、“体育新闻”；中文翻译为英文的字符串中包含“sports”的中文语言词为：“运动”、“水上运动”、“网球运动”、“体育”、“国家体育总局”。

其三、源语言关键词本身。之所以考虑将源语言关键词本身也作为目标语言候选词是因为有些情况下，在目标语言的文档中会直接采用源语言的词语。

经过该步骤后，英文关键词“news”对应的中文候选词集合为{“新闻”、“国际要闻”、“中国电子报”、“军事新闻”、“体育新闻”、“news”}；英文关键词“sports”对应的中文候选词集合为{“运动”、“水上运动”、“网球运动”、“体育”、“国家体育总局”、“sports”}。

步骤104：分别从各目标语言候选词集合中挑选文档覆盖状况满足预设要求的候选词作为各关键词对应的目标语言关键词。

在从目标语言候选词集合中挑选候选词时，可以统计各候选词在目标文档覆盖状况中的出现频率，选择出现频率满足预设频率阈值的候选词。优选地，也可以选择候选词使得选择的候选词所覆盖的文档与目标文档覆盖状况之间的逼近程度满足预设要求。其中目标文档覆盖状况为：将目标语言文档翻译为源语言文档时满足当前与关系规则的目标语言文档。

本步骤的一种优选实现方式可以如图2所示，这种实现方式是选择候选词使得选择的候选词所覆盖的文档与目标文档覆盖状况之间的逼近程度满足预设要求，具体包括以下步骤：

步骤201：将目标语言候选词集合中的各候选词按照文档覆盖率从高到低进行排序。

其中，候选词w^e2c的文档覆盖率S(w^e2c)为：

S(w^e2c)=|Cover(w^e2c)|/|r^e(D^c2e)|，

其中，为候选词w^e2c所覆盖的文档，r^e(D^c2e)为将目标语言文档翻译为源语言文档后满足源语言与关系规则的文档集合，为将源语言与关系规则中的关键词替换成对应候选词w^e2c后，目标语言文档中命中替换后与关系规则的文档集合，∩为取交集，/为集合数量的比率。

举个例子：假设存在7篇中文文档，其包含的词语状况如下：

国际要闻、运动、水上运动

新闻、军事新闻、国际社会

新闻、体育、体育新闻、法网、运动、网球运动

体育、国家体育总局、会议

中国电子报、出版日期

新闻、学校、体育、教育

news、运动、健身

如果将上述7篇中文文档翻译成英文后，其包含的词语状况如下：

international、news、water、sports

military、news、international、society

sports、news、french、open、tennis

general、administration、sports、conference

china、electronics、news、publish、date

news、school、sports、education

news、sports、fitness

利用翻译后的文档采用与关系规则进行匹配后，确定命中的文档集合r^e(D^c2e)为：

对于与关系规则“页面中包含文字属性关键词news”而言，将其中的“news”替换为各候选词后，目标文档命中替换后的与规则的文档集合如表1所示。

表1

将各目标语言候选词的分别与r^e(D^c2e)取交集后，再计算覆盖率S(w^e2c)的状况如表2所示。

表2

按照覆盖率进行排序后得到的序列为：新闻、国际要闻、体育新闻、news、中国电子报、军事新闻。

步骤202：按顺序逐一对候选词进行选择：如果当前候选词所覆盖的文档未包含在已选择候选词所覆盖的文档中，则选择当前候选词；待已选择候选词所覆盖的文档已经达到目标文档覆盖状况，或者，当前候选词所覆盖的文档数小于预设状况，则停止对候选词的选择。

本步骤的目的在于使目标语言关键词覆盖的文档与目标文档覆盖状况之间的逼近程度满足预设要求，可以尽可能的逼近目标文档覆盖状况。

仍接续上例，对于排序后的候选词：新闻、国际要闻、体育新闻、news、中国电子报、军事新闻。按照顺序首先判断“新闻”，由于当前已选择候选词为空，当前已选择候选词所覆盖的文档为空，未包含“新闻”所覆盖的文档因此“新闻”被选择。

然后判断“国际要闻”，其所覆盖的文档为未包含在已选择候选词所覆盖的文档中，因此“国际要闻”被选择。

再判断“体育新闻”，其所覆盖的文档为已包含在已选择候选词所覆盖的文档中，因此“体育新闻”不被选择。

继续判断“news”，其所覆盖的文档为未包含在已选择候选词所覆盖的文档中，因此“news”被选择。

至此，已选择候选词所覆盖的文档为已达到目标文档覆盖状况因此停止对候选词的选择，此时选择的候选词为：“新闻”、“国际要闻”和“news”。或者可以预先设置如果当前候选词所覆盖的文档小于1个时停止对候选词的选择，则由于“中国电子报”所覆盖的文档为空，停止对候选词的选择，此时选择的候选词也为“新闻”、“国际要闻”和“news”。

步骤203：将选择出的候选词作为关键词对应的目标语言关键词。

“sports”对应的候选词选择与“news”类似，不再赘述，最终确定出“news”对应的目标语言关键词为：“新闻”、“国际要闻”和“news”，“sports”对应的目标语言关键词为：“运动”、“体育”。

继续参见图1，步骤105：将目标语言关键词采用或的关系分别替换与关系规则中的源语言关键词，得到目标语言的与关系规则。

接续上例，源语言与关系规则：

IF页面中包含文字“news”AND

页面中包含文字“sports”

THEN召回该页面。

将“news”对应的目标语言关键词“新闻”、“国际要闻”和“news”采用或的方式替换“news”，“sports”对应的目标语言关键词“运动”、“体育”采用或的方式替换“sports”，得到目标语言与关系规则为：

IF页面中包含文字（“新闻”OR“国际要闻”OR“news”）AND

页面中包含文字（“运动”OR“体育”）

THEN召回该页面。

至此就完成了英文与关系规则到中文与关系规则的迁移，当完成初过滤规则中所有与关系规则的迁移后，将目标语言的与关系规则按照源语言的初过滤规则中各与关系规则之间的逻辑关系进行组合后，得到目标语言的初过滤规则即可实现目标语言初过滤规则的自动构建。

其他类型的分类规则的跨语言自动构建方法与实施例一相同，不再赘述。区别之处会在与不同分类规则中判断条件对应的操作不同，将形式r中的DELETE替换为不属于某类型，PRESERVE替换为属于某类型。

实施例二、

图3为本发明实施例二提供的跨语言自动构建分类规则的装置结构图，如图3所示该装置可以包括：规则变换单元300、关键词确定单元310、候选词确定单元320、候选词挑选单元330和规则替换单元340。

规则变换单元300，用于将源语言的分类规则进行变换得到一个以上的与关系规则，将各与关系规则分别作为当前与关系规则提供给关键词确定单元310。

具体可以通过对规则表达式的解析和逻辑运算的分配率，首先将规则变为析取范式，然后将析取范式拆分成若干与关系规则。

关键词确定单元310，用于确定当前与关系规则中判断条件的关键词。判断条件通常由结构、属性和关键词构成，关键词确定单元310确定出其中的关键词。

候选词确定单元320，用于确定各关键词对应的目标语言候选词集合，该集合包括：关键词的目标语言翻译词、目标语言翻译为源语言的字符串中包含该关键词的目标语言词以及该关键词。其中可以从机器翻译所使用的词表中获得关键词的目标语言翻译词、目标语言翻译为源语言的字符串中包含该关键词的目标语言词。

候选词挑选单元330，用于分别从各目标语言候选词集合中挑选文档覆盖状况满足预设要求的候选词作为各关键词对应的目标语言关键词。

当采用上述优选方式时，候选词挑选单元330可以具体包括：排序子单元331、选择子单元332和确定子单元333。

排序子单元331，用于将目标语言候选词集合中的各候选词按照文档覆盖率从高到低进行排序。

具体可以按照如下公式计算候选词w^e2c的文档覆盖率S(w^e2c)：

S(w^e2c)=|Cover(w^e2c)|/|r^e(D^c2e)|

选择子单元332，用于按顺序逐一对候选词进行选择：如果当前候选词所覆盖的文档未包含在已选择候选词所覆盖的文档中，则选择当前候选词；待已选择候选词所覆盖的文档达到目标文档覆盖状况，或者，当前候选词所覆盖的文档数小于预设状况，则停止对候选词的选择。

确定子单元333，用于将选择子单元332选择出的候选词作为关键词对应的目标语言关键词。

规则替换单元340，用于将目标语言关键词采用或的关系分别替换当前与关系规则中对应的关键词，得到目标语言的与关系规则。

支持就完成了源语言到目标语言的与关系规则迁移，如果源语言的分类规则被转换包含多个与关系规则，为了适应于这种情况，该装置还可以包括：规则组合单元350，用于将目标语言的与关系规则按照源语言的分类规则中各与关系规则之间的逻辑关系进行组合后，得到目标语言的分类规则。

上述方法和装置不仅可以用于页面类型的文本分类中分类规则的自动构建，也可以用于其他文本类型的分类规则的自动构建。

下面采用一个实验来对本发明提供的方法和装置的效果进行验证，源语言为英文、目标语言为中文，针对识别某类页面类型的分类任务，将中文页面通过中英自动翻译系统翻译成英文页面，再用英文的初过滤规则进行过滤，过滤效果如表3所示。

表3

同样条件下，采用本发明所示方法和装置进行从英文到中文的初过滤规则迁移后，利用中文的初始过滤规则在中文页面上进行过滤的效果如表4所示。

表4

对比表3和表4可以发现，使用本发明的方法和装置，该类型页面的召回率并没有下降，甚至有小幅上升，过滤后剩余的网页比例基本保持不变。整体上看来，召回效果较好，过滤后剩余比例较低，可以较好地实现初过滤。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种跨语言自动构建分类规则的方法，其特征在于，将源语言的分类规则进行变换得到一个以上的与关系规则后，针对每一个与关系规则分别执行以下步骤：

S1、确定当前与关系规则中判断条件的关键词；

S3、分别从各目标语言候选词集合中挑选对文档的覆盖状况满足预设要求的候选词作为各关键词对应的目标语言关键词；

S4、将目标语言关键词采用或的关系构成的组合词项分别替换当前与关系规则中对应的关键词，得到目标语言的与关系规则；

2.根据权利要求1所述的方法，其特征在于，所述关键词的目标语言翻译词、目标语言翻译为源语言的字符串中包含该关键词的目标语言词从机器翻译所使用的词表中获得。

3.根据权利要求1所述的方法，其特征在于，所述对文档的覆盖状况满足预设要求为：挑选的候选词所覆盖的文档与目标文档覆盖状况之间的逼近程度满足预设要求，所述目标文档覆盖状况为：将目标语言文档翻译为源语言文档时满足当前与关系规则的目标语言文档。

4.根据权利要求3所述的方法，其特征在于，所述步骤S3具体包括：

S33、将选择出的候选词作为关键词对应的目标语言关键词。

5.根据权利要求4所述的方法，其特征在于，在所述步骤S31中按照如下公式计算候选词w^e2c的文档覆盖率S(w^e2c)：

S(w^e2c)＝|Cover(w^e2c)|/|r^e(D^c2e)|

6.一种跨语言自动构建分类规则的装置，其特征在于，该装置包括：

候选词挑选单元，用于分别从各目标语言候选词集合中挑选对文档的覆盖状况满足预设要求的候选词作为各关键词对应的目标语言关键词；

规则替换单元，用于将目标语言关键词采用或的关系构成的组合词项分别替换当前与关系规则中对应的关键词，得到目标语言的与关系规则；

7.根据权利要求6所述的装置，其特征在于，所述候选词确定单元从机器翻译所使用的词表中获得所述关键词的目标语言翻译词、目标语言翻译为源语言的字符串中包含该关键词的目标语言词。

8.根据权利要求6所述的装置，其特征在于，所述对文档的覆盖状况满足预设要求为：挑选的候选词所覆盖的文档与目标文档覆盖状况之间的逼近程度满足预设要求，所述目标文档覆盖状况为：将目标语言文档翻译为源语言文档时满足当前与关系规则的目标语言文档。

9.根据权利要求8所述的装置，其特征在于，所述候选词挑选单元具体包括：

10.根据权利要求9所述的装置，其特征在于，所述排序子单元按照如下公式计算候选词w^e2c的文档覆盖率S(w^e2c)：

S(w^e2c)＝|Cover(w^e2c)|/|r^e(D^c2e)|