CN106066870B

CN106066870B - 一种语境标注的双语平行语料库构建系统

Info

Publication number: CN106066870B
Application number: CN201610368937.3A
Authority: CN
Inventors: 尹娜; 高湘; 韩进; 李潼潼; 林弋岚; 李亚州
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Jiaguyi Beijing Language Technology Co ltd
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2019-03-15
Anticipated expiration: 2036-05-27
Also published as: CN106066870A

Abstract

本发明公开了一种语境标注的双语平行语料库构建系统，该系统由上位机与并行的语境标注数据生成单元组成。通过上位机进行双语语料的前置处理，再将语料分词发送至并行标注数据生成单元。在生成单元的主控模块控制下由单元内各节点模块生成语境标注数据并将数据存储在模块外接的FLASH芯片中。当双语平行语料库达到一定规模后，由上位机读取存储在各节点模块中词共句关系的统计数据实现对语料库中双语语料的语境标识。本构建系统充分利用了并行处理的架构优势，能快速处理较大规模的语料库语境标注数据的生成。并基于标注数据标注出语料库中语料的语境，实现语境标注的双语平行语料库。

Description

一种语境标注的双语平行语料库构建系统

技术领域

本发明涉及一种基于并行处理架构的语料库构建系统，实现了基于语境标注的双语平行语料库构建系统，属于大领域是信息技术技术领域。

背景技术

语料库是具有一定规模的规格化的语料集合，以电子文本形式集中存储信息系统中。语料库在语言学研究领域中有广泛的应用，是语言学研究的基础资源，也是现代机器语言翻译，语义理解等研究基础。照语料的语种，语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。本发明涉及的就是双语语料库的构建。按双语语料的组织形式，语料库还可以分为平行(对齐)语料库和比较语料库，前者的语料是互为译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。本发明侧重于平行语料库的构建。

语料库构建中语料的标注是一项重要的内容。标注是通过对语料库中的原始语料进行加工,把表示语料特征的各种特征标记附加到相应的语料成分上，目的是为了便于机器识读与处理。

现有语料库的标注，主要有词性标注、汉语拼音标注、语料词频率统计等，对于中文，日文这些语言类型的语料还有分词标注等。标注可以分为人工方式和计算机自动标注处理方式。与其它语料标注不同，本发明涉及的构建系统是使用算法实现对语料语境的自动标注。

但是目前语境研究还主要集中在语言学领域定性的研究，对于机器可计算的语境模型还没有太多的研究。

本发明提出一种基于词的共句关系频率统计来构建以句为单位的语境模型，但是由于一般中等规模的语料库大多有十万条左右的语料，这些语料后大约会形成上百万的分词，每个分词都要统计由其它词的共句关系，因此统计关系的计算次数会达到亿级，计算量非常大。由于本发明提出并行语境标注数据的生成架构来处理这统计过程，有效提高了语境标注数据的生成效率，为构建基于标注语境的双语平行语料库提供了有力的支持。

发明内容

本发明提出了一种语境标注的双语平行语料库构建系统。该构建系统主要的内容是：提出了一种生成语境标注数据的并行处理架构，该架构利用上位机预处理语料，利用并行的语境标注数据生成单元来生成语境标注所需的统计数据。用以解决语境标注生成过程中所需的海量计算，提高构建双语平行语料库的效率

为了解决上述技术问题，本发明专利采用的技术方案如下：

一种语境标注的双语平行语料库构建系统，包括：

上位机：上位机主要是用于语料的前置处理，以及与语境标注数据生成单元的交互，传递该单元需要处理的分词数据，接收该单元上传的数据处理状态信号，其中：

语料前置处理模块：主要是存储语料电子文本，去掉包含语料的电子文本中与语料无关的部分，转换语料电子文本为统一的格式等，并建立双语语句的对应关联关系；

语境计算与标注模块：该模块基于语境标注数据生成单元生成的词共句关系统计数据实现语料库中所有语料的语境计算，并将各语料的语境存储到系统数据库中，以备进一步的分析与研究。

语境标注数据生成单元：包括主控模块与多节点可扩展处理模块，其中主控模块主要用于接收上位机发来的分词数据，控制各处理节点生成语境标注数据；

多节点可扩展处理模块：主要包括分词数据缓存的数据结构和所属本节点的词共句关联关系数据存储，其中：

词共句关联关系指的是不同两个词位于同一语料的频度，该频度来自语料库词反向语料索引统计，各节点按分词映射到节点号算法并行分配等处理的分词，并保存处理结果到本节点的FLASH存储器中；

多节点可扩展处理模块：主要包括分词数据缓存的数据结构和所属本节点的词共句关联关系数据存储，多节点可扩展处理模块的电路构成是由中央处理器ARM芯片，外接的RAM芯片以及FLASH芯片，还有外围的数据总线接口、控制总线路接口，以FLASH外围读写接口组成。其中ARM芯片只要用于计算，在本专利中选用低成本的32位ARM 芯片，但是通用32位ARM芯片内存容量较小，所以在本专利中对ARM 芯片外接扩展内存实现内存扩展，提高节点的数据缓存能力，相应提高了本专利的语境数据生成速度。多节点可扩展处理模块通过数据总线接口与控制总线接口挂接在主控单元的总线上，接入到并行标注数据生成单元中。节点同时使用FLASH作为语境数据的存储器，存储词索引数据以及词共句关联关系数据，其中：

所述词索引结构，包括词，词的MD5码以及二进制的反向语料有序索引数组，每个索引数组元素为corpusID，index二元组,其中： corpusID为语料唯一ID，以及词在语料中的位置，数组以corpusID 为序从小到大排列，提供二分法插入与查找，词与词句共现关系的分析接口；

所述词共句关系统计，每个统计项为wordID,wordID,count，其中前二个wordID分别代表在同一个句子中出现的二个词的ID， count代表到目前为止这二个词共句出现的频率。

有益效果

本发明的上述技术方案相比现有技术具有以下优点：

本发明通过软硬件结合的方式，给出了一种并行的语境标注数据生成架构，由于语境标注生成过程中随着语料库的扩展，所需的计算量会以指数方式增长。因此本发明通过上位机与外部处理单元并行处理的方式，有效提高了语境标注数据生成的效率；

本发明提出了一种新型的词共句关系统计方法，该结构实现了通过词的节点号映射算法，将词分配到各并行处理模块节点中。在该节点中生成词与语料的双向索引，同时保存词在语料中的位置，并通过节点中分词缓存的数据结构实现词共句关系的统计计算，实现了语境标注基础数据的获取；

本发明中设计了一种新的语料标注，即语境标注，语境在语言研究以及计算机文本处理方面有很深远的意义，所以本发明实现的语境标注语料库必然对这些方面的研究起到重要的促进作用。

附图说明

图1为本发明基于语境标注的双语平行语料库构建系统架构设计图。

图2为本发明基于语境标注的双语平行语料库构建系统的语境标注数据生成单元组成图。

具体实施方式

本发明所提出的双语平行语料库构建系统如图1所示，其中包括最主要的部分为六个组成部分：

上位机，上位机主要负责双语平行语料库存储、语料的前置处理、语料库中语料的语境标注以及与并行处理单元的数据交互。其中双语平行语料库中语料组织形式为结构化的语料数据记录，每条语料分别包括对应互译的双语语句，唯一的标识符，以及语料的来源。该语料库的语料来自于系统外采集的生语料，经过清洗，格式转换和双语语句匹配后赋予唯一标识符以及标注其来源后存储进入语料库；

主控单元，主控单元主要负责上位机之间的通讯以及控制各可扩展处理节点，接收来自于上位机的分词数据，分发至各可扩展处理节点，收集各可扩展处理节点的处理状态，再上报到上位机，实现语境标注数据处理流程的控制。

可扩展处理节点，主要负责分词的双向索引建立以及统计词共句关系，它通过接收主控单元发来的分词数据，判断分词数据处理节点是否为本节点，再更新本地分词索引库与词共句关系统计库，实现语境标注数据的生成与存储。

词索引库，该库是针对双语语料中的语句采用分词形成的词索引，本发明中词索引是双向索引的，索引库中每条纪录代表一个词，分别赋予唯一的标识符，该标识符使用MD5算法生成，除此之外，每个词附带一个二进制字节流的索引，该索引采用二进制数组方式实现对所有出现过该词的语料索引，其元素结构所前所述，如此实现词对语料的索引，此外，该索引数组是依据语料的唯一标识符从小到大有序排列的。语料对词的索引同样是先分词后，对各词生成MD5码，依据该码即可实现对应词的索引。

词共句关系统计库，是由词索引库直接生成的，主要通过两两遍历词索引纪录，对比两个词关于语料索引的元素是否相同，如果相同则这两个词出现在同一语料中，则记录到库中，最终生成完成的词共句关系统计库。

基于语境的双语平行语料库，是通过遍历语料库中语料，语料分词后，以语料包含的各分词词共句关系统计模型构成的无向有权图作为语料的语境模型。将该模型作为语料库的一部分存储到语料库数据库中，形成基于语境的双语平行语料库。

如此以上各组成部分构建完成后，即实现了本发明所提出的语境标注双语平行语料库系统。

Claims

1.一种语境标注的双语平行语料库构建系统，其特征在于，包括：

1)并行的语境标注数据生成架构：由上机位与外接的并行语境标注数据生成单元组成，通过上位机将语料分词结果发送到生成单元，由生成单元完成词的双向索引和词共句关系统计，作为语境标注所需的基础数据；

2)并行语境标注数据生成单元：由一个主控模块和多个可扩展的处理节点模块构成，由主控模块实现与上位机的交互，可扩展并行节点实现对词的索引与词共句关系统计，作为语境标注的数据来源；

3)面向语境的词索引结构：该结构实现了一种面向语境的词索引结构，能实现词与语料的双向索引，保存词在语料中位置，实现词与词之间的共现关联关系统计；

4)基于语境的双语平行语料库的构建：基于语境模型实现对语料库中语料语境的构建，实现包含语境标注的双语平行语料库；

其中，所述可扩展的节点模块由ARM、扩展内存、外接FLASH芯片以及相关的控制与数据线组成，其接收从主控模块发送来的分词以及语料ID，缓存于模块语料分词缓存数据结构中，再遍历各分词，将分词生成MD5再映射成节点号，判断该分词是否由本节点处理，若由本节点处理，则生成该词的面向语境的词索引结构和词共现关系统计数据；

所述词索引结构，包括词，词的MD5码以及二进制的反向语料有序索引数组，每个索引数组元素为corpusID，index二元组,其中：corpusID为语料唯一ID，以及词在语料中的位置，数组以corpusID为序从小到大排列，提供二分法插入与查找，词与词句共现关系的分析接口；

所述词共句关系统计，每个统计项为wordID,wordID,count三元组，其中前二个wordID分别代表在同一个句子中出现的二个词的ID，count代表到目前为止这二个词共句出现的频率。