CN105808529B

CN105808529B - 一种语料划分领域的方法和装置

Info

Publication number: CN105808529B
Application number: CN201610134423.1A
Authority: CN
Inventors: 陶晶
Original assignee: Language Network (wuhan) Information Technology Co Ltd
Current assignee: Language Network (wuhan) Information Technology Co Ltd
Priority date: 2016-03-10
Filing date: 2016-03-10
Publication date: 2018-06-08
Anticipated expiration: 2036-03-10
Also published as: CN105808529A

Abstract

一种语料划分领域‑方法，包括：输入待划分领域的双语语料，所述双语语料包括：双语句对和/或双语段落；根据双语句子语料库，判定所述双语语料所属领域；若判定成功，则反馈其领域；反之，则：提取所述双语语料中的名词性的双语词，并筛选出用于计算词频‑反文档频率TF‑IDF权重的词汇范围，记录筛选出的各双语词所属领域；计算所述词汇范围中，属于同一领域的各所述双语词的TF‑IDF权重并累加获得权重和；若所述权重和大于预设的阈值，则判定所述双语语料属于该领域并反馈划分结果。此外，本文还提供一种语料划分领域的装置。本文所述的方法和装置，能够通过从大数据中提取专业领域的双语语料，提升专业领域的机器翻译效果。

Description

一种语料划分领域的方法和装置

技术领域

本发明属于自然语言处理领域，尤其涉及一种语料划分领域的方法和装置。

背景技术

随着人工智能、机器学习领域的迅速发展，使机器翻译技术迅速成长，以googlo为代表的机器翻译引擎在通用领域表现了很好的翻译效果，但一进入专业领域，比如法律、电力、能源等等专业领域翻译效果不佳，其中一个重要原因是专业领域双语语料的缺失，并且难以对现有的双语语料的领域进行识别和划分。因此如何识别专业领域的双语语料，从而使专业领域的双语语料得到大幅增涨，是当前需要解决的问题。

发明内容

有鉴于此，为了解决现有技术中存在现有技术中缺少专业领域双语语料，难以识别和划分双语语料所属领域的问题，本发明的目的是提出一种语料划分领域的方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

在一些可选的实施例中，所述语料划分领域的方法，包括：

输入待划分领域的双语语料，所述双语语料包括：双语句对和/或双语段落；

根据双语句子语料库，判定所述双语语料所属领域；若判定成功，则反馈其领域；反之，则：

提取所述双语语料中的名词性的双语词，并筛选出用于计算词频-反文档频率TF-IDF权重的词汇范围，记录筛选出的各双语词所属领域；

计算所述词汇范围中，属于同一领域的各所述双语词的TF-IDF权重并累加获得权重和；

若所述权重和大于预设的阈值，则判定所述双语语料属于该领域并反馈划分结果。

本发明另一个目的是提供一种语料划分领域的装置；

在一些可选的实施例中，所述语料划分领域的装置，包括：

输入单元，用于输入待划分领域的双语语料，所述双语语料包括：双语句对和/或双语段落；

第一判定单元，用于根据双语句子语料库，判定所述双语语料所属领域；若判定成功，则反馈其领域；反之，则：

筛选单元，用于提取所述双语语料中的名词性的双语词，并筛选出用于计算词频-反文档频率TF-IDF权重的词汇范围，记录筛选出的各双语词所属领域；

计算单元，用于计算所述词汇范围中，属于同一领域的各所述双语词的TF-IDF权重并累加获得权重和；

第二判定单元，用于若所述权重和大于预设的阈值，则判定所述双语语料属于该领域并反馈划分结果。

采用上述实施例，可达到以下效果：

能够通过从大数据中提取专业领域的双语语料；

专业领域的机器翻译效果提升，提高用户体验。

为了上述以及相关的目的，一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面，并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显，所公开的实施例是要包括所有这些方面以及它们的等同。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例的一种语料划分领域的方法的流程示意图；

图2示出了本发明实施例的一种语料划分领域的方法的具体流程示意图；

图3示出了本发明实施例的一种语料划分领域的装置的功能结构框图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，本发明的这些实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。

图1示出了一种语料划分领域的方法的流程示意图，如图1所示，包括以下步骤：

步骤S101，输入待划分领域的双语语料，所述双语语料包括：双语句对和/或双语段落；

步骤S102，根据双语句子语料库，判定所述双语语料所属领域；

若判定成功，则反馈其领域；反之，则进入步骤S103；

步骤S103，提取所述双语语料中的名词性的双语词，并筛选出用于计算词频-反文档频率TF-IDF权重的词汇范围，记录筛选出的各双语词所属领域；

步骤S104，计算所述词汇范围中，属于同一领域的各所述双语词的TF-IDF权重并累加获得权重和；若所述权重和大于预设的阈值，则判定所述双语语料属于该领域并反馈划分结果；

在上述实施例中，首先将双语语料通过双语句子语料库判定其所属领域，若无法判定，则通过TF-IDF算法计算双语语料中属于同一领域的双语词的TF-IDF权重和，并根据该值判定双语语料所属领域；其中，所述双语句子语料库是一类包括双语语种及其相应的句子，以及双语句对所属领域的数据库；所述双语句子语料库可以是预置的或从云端下载的，在此不进行限定；待划分领域的双语语料包括双语句对和/或双语段落，通过所述双语句子语料库可以判定双语句对和/或双语段落所属领域；由于双语词汇可以通过例如领域双语词典等数据库直接进行判定，因此在本方案中待划分领域的双语语料对象不含有双语词汇；而在实践中，往往也是双语句对和双语段落难以划分适宜的领域；本实施例实现了对难以划分领域的一类双语语料的领域划分，能快速从大数据中提取专业领域的双语语料，进而推进专业领域的机器翻译效果；

在一些可选的实施例中，在判定所述双语语料所属领域前，还包括：

调取含有领域信息的原始语料数据；

提取所述原始语料数据中的双语数据，生成相应的双语语料库；

其中，所述原始语料数据的双语数据包括：语料所属领域、语种和与其相对应的原始语料；所述原始语料的类型包括：词汇、句子和/或段落；所述相应的双语语料库包括：双语词汇语料库、双语句子语料库和/或双语段落语料库；

本实施例描述了从含有领域信息的原始语料数据(如领域双语词典、领域双语句子语料或领域双语段落语料库，这类含有双语语料所属领域的一类数据)中提取数据并生成具有统一格式的双语语料库的过程，此过程将原先纷杂的各种数据进行搜集和再整理，生成的双语语料库为后续判定双语语料的领域提供基础；

在一些可选的实施例中，判定所述双语语料所属领域的操作，包括：

判断所述双语语料的类型；

若所述双语语料是双语句对，则：

提取所述双语语料中的双语数据，并根据所述双语数据在所述双语句子语料库中匹配，所述双语语料的双语数据包括：语种和与其相对应的句子；若匹配成功，则反馈该双语句子所属领域；若匹配失败，则执行所述提取所述双语语料中的名词性的双语词的操作；

若所述双语语料是双语段落，则：

先将所述双语段落拆分成双语句对，然后执行上述提取双语数据并根据所述双语数据在所述双语句子语料库中匹配的操作；

由于是根据双语句子语料库进行判定，因此若双语语料是双语段落，则先拆成双语句对，再将各双语句对与双语句子语料库进行匹配；值得注意的是，在上述匹配过程中，语种和句子必须全部匹配才算匹配成功；

在一些可选的实施例中，所述筛选用于计算TF-IDF权重的词汇范围，记录筛选出的各双语词所属领域的操作，包括：

将提取出的所述双语语料中的名词性的双语词逐一在所述双语词汇语料库中匹配，成功匹配的双语词纳入所述词汇范围中，并记录与各成功匹配的双语词的所属领域；

在本实施例中，通过双语词汇库，避除了一类通用词汇，并且将专业领域的双语词汇筛选出来，一个双语句对或双语段落中，可能会筛选出多个领域的至少一个双语词汇，通过这些词汇的TF-IDF权重可以判断双语句对或双语段落所属领域；

在一些可选的实施例中，所述计算属于同一领域的各所述双语词的TF-IDF权重的操作，包括：

若所述双语语料为双语句对，则：

计算同一领域的各所述双语词的tf/idf值；

其中，tf＝所述双语词在该双语句对中出现的次数，idf＝所述双语句子语料库中该领域的文档总数/所述双语词在所述双语句子语料库中该领域的出现的次数；

若所述双语语料为双语段落，则：

计算同一领域的各所述双语词的tf/idf值；

其中，tf＝所述双语词在该双语段落中出现的次数，idf＝所述双语段落语料库中所述领域的文档总数/所述双语词在所述双语段落语料库中该领域的出现的次数；

在本实施例中，详细介绍了TF-IDF算法中各值的含义和计算方式，其中双语句对的tf一般为1，双语段落的tf可能为多个，idf中所需的值可以通过双语句子语料库或双语段落语料库直接查询得到。

图2示出了一种语料划分领域的方法的具体流程示意图；下面结合图2，对图2中所述的流程进行具体阐述：

步骤S201，根据原始语料数据，生成相应的双语语料库；

例如：

取得“领域双语詞典”(例《德英汉机械与制造工程词典》化学工业出版社)，生成数据结构如下：

“领域(例制造工程)语种1语种2词汇1词汇2”

取得传神“领域双语术语库”，例reclamation/吹填，专门就是为港口工程的术语，这个在上述词典中没有，是随着传神译员逐渐积累进来的，生成数据结构如下：

“港口工程英语汉语reclamation吹填”；

以上操作描述了所述双语词汇语料库的建立过程；

对应建立双语句子语料库和双语段落语料库的过程与上述操作相似，可以如下：

取得传神“领域双语句子语料库”，传神目前拥有几十个语料，几百万句对语料，生成数据结构如下：

“领域(例制造工程)语种1语种2句子1句子2”

取得传神“领域双语段落语料库”，传神目前拥有几十个领域，总计上亿字的段落语料库，生成数据结构如下：

“领域(例制造工程)语种1语种2段落1段落2”；

该步骤完成了对现有的已划分领域的双语数据进行提取和整理，生成具有一定数据格式的双语语料库；生成的双语语料库主要用于快速识别未划分领域的双语语料所属领域；

步骤S202，输入双语句对，匹配双语句子语料库；

若匹配成功，则此双语属于匹配成功的那个领域，并反馈匹配结果；

其中，匹配的过程是指双语句对中的语种和相应的句子与双语句子语料库中存储的数据完全匹配；值得注意的是，在本方案中使用的是双语句子语料库进行匹配，使用生成双语句子语料库的“领域双语段落语料库”的效果和原理也是一样的，只是在双语句子语料库中有一定的数据格式，易于快速匹配；

若匹配失败，则进入步骤S203；

步骤S203，提取双语句对中名词性的双语词；

对输入双语句对使用分词(类似中文)/詞干化技术(类似西语)，使用语法/语意分析技术，提取句子中名词性的双语词；

步骤S204，确定用于TF-IDF算法的双语词范围；

由于上述步骤中提取出的双语词的范围较大，含有许多通用的名词，因此需要通过现有的含有领域信息的双语词汇数据对双语词的范围进行缩小；

在此步骤中可以根据“领域双语詞典”和/或“领域双语术语库”，将匹配成功的双语词纳入用于TF-IDF算法的双语词范围；或者使用步骤S201中根据“领域双语詞典”和/或“领域双语术语库”整理的双语词汇语料库确定所述双语词范围；在本方案中采用后者，因为后者是在“领域双语詞典”和/或“领域双语术语库”等词汇数据库的基础上生成的数据库，匹配过程更加迅捷；

步骤S205，对匹配的双语词进行TF-IDF运算；

计算同一领域的各双语词的tf/idf权重:

其中，tf＝双语词在双语句中出现的次数，idf＝“领域双语句子语料库”那一个领域的文档总数/双语词在“领域双语句子语料库”那一个领域的出现的次数；tf和idf中所使用的数据可以从数据库中查询获得；

步骤S206，计算权重和，确定双语句对所属领域；

累加多个双语词匹配出来的tf/idf权重；

将所述权重和与预设的阈值进行比较，若大于该阈值，则匹配相应的领域；其中，不同的领域的阈值不同；

在步骤S204-206中，双语句对中的双语词汇可能匹配出多个领域，分别计算同一领域下的各双语词的tf/idf权重和权重和，然后判断双语句对是否匹配该领域；

步骤S207，输入双语段落，匹配双语句子语料库；

与步骤S202类似，不同的是把双语段落先拆分成多个句子，再将句子与双语句子语料库或“领域双语句子语料库”进行匹配，哪个领域双语都匹配到了，即可认为此双语属于哪个领域；反之，进入步骤S208；

步骤S208，提取双语段落中名词性的双语词；

对输入双语段落使用分词(类似中文)/詞干化技术(类似西语)，使用语法/语意分析技术，提取句子中名词性的双语词；

步骤S209，确定用于TF-IDF算法的双语词范围；

本步骤的操作与步骤S204相似，不再赘述；

步骤S210，对匹配的双语词进行TF-IDF运算；

计算同一领域的各双语词的tf/idf权重:

其中，tf＝双语词在双语段落中出现的次数，idf＝“领域双语段落语料库”那一个领域的文档总数/双语词在“领域双语段落语料库”那一个领域的出现的次数；

步骤S211，计算权重和，确定双语段落所属领域；

与步骤S206相似，不再赘述。

图3示出了本发明实施例的一种语料划分领域的装置的功能结构框图；如图3所示，所述装置300，包括：

输入单元301，用于输入待划分领域的双语语料，所述双语语料包括：双语句对和/或双语段落；

第一判定单元302，用于根据双语句子语料库，判定所述双语语料所属领域；若判定成功，则反馈其领域；反之，则：

筛选单元303，用于提取所述双语语料中的名词性的双语词，并筛选出用于计算词频-反文档频率TF-IDF权重的词汇范围，记录筛选出的各双语词所属领域；

计算单元304，用于计算所述词汇范围中，属于同一领域的各所述双语词的TF-IDF权重并累加获得权重和；

第二判定单元305，用于若所述权重和大于预设的阈值，则判定所述双语语料属于该领域并反馈划分结果；

在一些可选的实施例中，所述装置300，还包括：

调取单元306，用于所述第一判定单元302判定所述双语语料所属领域前，调取含有领域信息的原始语料数据；

提取单元307提取所述原始语料数据中的双语数据，生成相应的双语语料库；

在一些可选的实施例中，所述第一判定单元302，包括：

判断单元3021，用于判断所述双语语料的类型；

匹配单元3022，用于若所述双语语料是双语句对，则：

若所述双语语料是双语段落，则：

在一些可选的实施例中，所述筛选单元303，包括：

筛选子单元3031，用于将提取出的所述双语语料中的名词性的双语词逐一在所述双语词汇语料库中匹配，成功匹配的双语词纳入所述词汇范围中，并记录与各成功匹配的双语词的所属领域；

在一些可选的实施例中，所述计算单元304，包括：

第一计算子单元3041，用于若所述双语语料为双语句对，则：

计算同一领域的各所述双语词的tf/idf值；

第二计算子单元3042，用于若所述双语语料为双语段落，则：

计算同一领域的各所述双语词的tf/idf值；

其中，tf＝所述双语词在该双语段落中出现的次数，idf＝所述双语段落语料库中所述领域的文档总数/所述双语词在所述双语段落语料库中该领域的出现的次数。

综上所述，采用本发明所述的方法和装置，可使得：

能够通过从大数据中提取专业领域的双语语料；

专业领域的机器翻译效果提升，提高用户体验。

本领域技术人员还应当理解，以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语料划分领域的方法，其特征在于，包括：

调取含有领域信息的原始语料数据；

提取所述原始语料数据中的双语数据，生成相应的双语语料库；其中，所述原始语料数据的双语数据包括：语料所属领域、语种和与其相对应的原始语料；所述原始语料的类型包括：词汇、句子和/或段落；所述相应的双语语料库包括：双语词汇语料库、双语句子语料库和/或双语段落语料库；

根据所述双语句子语料库，判定所述双语语料所属领域；若判定成功，则反馈其领域；反之，则：

若所述权重和大于预设的阈值，则判定所述双语语料属于该领域并反馈划分结果；

其中，所述判定所述双语语料所属领域的操作，包括：

判断所述双语语料的类型；

若所述双语语料是双语句对，则：

提取所述双语语料中的双语数据，并根据所述双语数据在所述双语句子语料库中匹配，所述双语语料的双语数据包括：语种和与其相对应的句子；

若所述双语语料是双语段落，则：

先将所述双语段落拆分成双语句对，然后执行所述提取所述双语语料中的双语数据，并根据所述双语数据在所述双语句子语料库中匹配的操作；

所述筛选出用于计算TF-IDF权重的词汇范围，记录筛选出的各双语词所属领域的操作，包括：

将提取出的所述双语语料中的名词性的双语词逐一在所述双语词汇语料库中匹配，成功匹配的双语词纳入所述词汇范围中，并记录与各成功匹配的双语词的所属领域。

2.如权利要求1所述的方法，其特征在于，所述计算所述词汇范围中，属于同一领域的各所述双语词的TF-IDF权重的操作，包括：

若所述双语语料为双语句对，则：

计算同一领域的各所述双语词的tf/idf值；

若所述双语语料为双语段落，则：

计算同一领域的各所述双语词的tf/idf值；

3.一种语料划分领域的装置，其特征在于，包括：

调取单元，用于调取含有领域信息的原始语料数据；

提取单元，用于提取所述原始语料数据中的双语数据，生成相应的双语语料库；其中，所述原始语料数据的双语数据包括：语料所属领域、语种和与其相对应的原始语料；所述原始语料的类型包括：词汇、句子和/或段落；所述相应的双语语料库包括：双语词汇语料库、双语句子语料库和/或双语段落语料库；

第一判定单元，用于根据所述双语句子语料库，判定所述双语语料所属领域；若判定成功，则反馈其领域；反之，则：

第二判定单元，用于若所述权重和大于预设的阈值，则判定所述双语语料属于该领域并反馈划分结果；

其中，所述第一判定单元，包括：

判断单元，用于判断所述双语语料的类型；

匹配单元，用于若所述双语语料是双语句对，则：

若所述双语语料是双语段落，则：

所述筛选单元，包括：

筛选子单元，用于将提取出的所述双语语料中的名词性的双语词逐一在所述双语词汇语料库中匹配，成功匹配的双语词纳入所述词汇范围中，并记录与各成功匹配的双语词的所属领域。

4.如权利要求3所述的装置，其特征在于，所述计算单元，包括：

第一计算子单元，用于若所述双语语料为双语句对，则：

计算同一领域的各所述双语词的tf/idf值；

第二计算子单元，用于若所述双语语料为双语段落，则：

计算同一领域的各所述双语词的tf/idf值；