CN106066870B - 一种语境标注的双语平行语料库构建系统 - Google Patents

一种语境标注的双语平行语料库构建系统 Download PDF

Info

Publication number
CN106066870B
CN106066870B CN201610368937.3A CN201610368937A CN106066870B CN 106066870 B CN106066870 B CN 106066870B CN 201610368937 A CN201610368937 A CN 201610368937A CN 106066870 B CN106066870 B CN 106066870B
Authority
CN
China
Prior art keywords
corpus
context
word
data
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610368937.3A
Other languages
English (en)
Other versions
CN106066870A (zh
Inventor
尹娜
高湘
韩进
李潼潼
林弋岚
李亚州
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiaguyi Beijing Language Technology Co ltd
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201610368937.3A priority Critical patent/CN106066870B/zh
Publication of CN106066870A publication Critical patent/CN106066870A/zh
Application granted granted Critical
Publication of CN106066870B publication Critical patent/CN106066870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语境标注的双语平行语料库构建系统,该系统由上位机与并行的语境标注数据生成单元组成。通过上位机进行双语语料的前置处理,再将语料分词发送至并行标注数据生成单元。在生成单元的主控模块控制下由单元内各节点模块生成语境标注数据并将数据存储在模块外接的FLASH芯片中。当双语平行语料库达到一定规模后,由上位机读取存储在各节点模块中词共句关系的统计数据实现对语料库中双语语料的语境标识。本构建系统充分利用了并行处理的架构优势,能快速处理较大规模的语料库语境标注数据的生成。并基于标注数据标注出语料库中语料的语境,实现语境标注的双语平行语料库。

Description

一种语境标注的双语平行语料库构建系统
技术领域
本发明涉及一种基于并行处理架构的语料库构建系统,实现了基于语境标注的双语平行语料库构建系统,属于大领域是信息技术技术领域。
背景技术
语料库是具有一定规模的规格化的语料集合,以电子文本形式集中存储信息系统中。语料库在语言学研究领域中有广泛的应用,是语言学研究的基础资源,也是现代机器语言翻译,语义理解等研究基础。照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。本发明 涉及的就是双语语料库的构建。按双语语料的组织形式,语料库还可以分为平行(对齐)语料库和比较语料库,前者的语料是互为译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。本发明 侧重于平行语料库的构建。
语料库构建中语料的标注是一项重要的内容。标注是通过对语料库中的原始语料进行加工,把表示语料特征的各种特征标记附加到相应的语料成分上,目的是为了便于机器识读与处理。
现有语料库的标注,主要有词性标注、汉语拼音标注、语料词频率统计等,对于中文,日文这些语言类型的语料还有分词标注等。标注可以分为人工方式和计算机自动标注处理方式。与其它语料标注不同,本发明 涉及的构建系统是使用算法实现对语料语境的自动标注。
但是目前语境研究还主要集中在语言学领域定性的研究,对于机器可计算的语境模型还没有太多的研究。
本发明提出一种基于词的共句关系频率统计来构建以句为单位的语境模型,但是由于一般中等规模的语料库大多有十万条左右的语料,这些语料后大约会形成上百万的分词,每个分词都要统计由其它词的共句关系,因此统计关系的计算次数会达到亿级,计算量非常大。由于本发明提出并行语境标注数据的生成架构来处理这统计过程,有效提高了语境标注数据的生成效率,为构建基于标注语境的双语平行语料库提供了有力的支持。
发明内容
本发明提出了一种语境标注的双语平行语料库构建系统。该构建系统主要的内容是:提出了一种生成语境标注数据的并行处理架构,该架构利用上位机预处理语料,利用并行的语境标注数据生成单元来生成语境标注所需的统计数据。用以解决语境标注生成过程中所需的海量计算,提高构建双语平行语料库的效率
为了解决上述技术问题,本发明专利采用的技术方案如下:
一种语境标注的双语平行语料库构建系统,包括:
上位机:上位机主要是用于语料的前置处理,以及与语境标注数据生成单元的交互,传递该单元需要处理的分词数据,接收该单元上传的数据处理状态信号,其中:
语料前置处理模块:主要是存储语料电子文本,去掉包含语料的电子文本中与语料无关的部分,转换语料电子文本为统一的格式等,并建立双语语句的对应关联关系;
语境计算与标注模块:该模块基于语境标注数据生成单元生成的词共句关系统计数据实现语料库中所有语料的语境计算,并将各语料的语境存储到系统数据库中,以备进一步的分析与研究。
语境标注数据生成单元:包括主控模块与多节点可扩展处理模块,其中主控模块主要用于接收上位机发来的分词数据,控制各处理节点生成语境标注数据;
多节点可扩展处理模块:主要包括分词数据缓存的数据结构和所属本节点的词共句关联关系数据存储,其中:
词共句关联关系指的是不同两个词位于同一语料的频度,该频度来自语料库词反向语料索引统计,各节点按分词映射到节点号算法并行分配等处理的分词,并保存处理结果到本节点的FLASH存储器中;
多节点可扩展处理模块:主要包括分词数据缓存的数据结构和所属本节点的词共句关联关系数据存储,多节点可扩展处理模块的电路构成是由中央处理器ARM芯片,外接的RAM芯片以及FLASH芯片,还有外围的数据总线接口、控制总线路接口,以FLASH外围读写接口组成。其中ARM芯片只要用于计算,在本专利中选用低成本的32位ARM 芯片,但是通用32位ARM芯片内存容量较小,所以在本专利中对ARM 芯片外接扩展内存实现内存扩展,提高节点的数据缓存能力,相应提高了本专利的语境数据生成速度。多节点可扩展处理模块通过数据总线接口与控制总线接口挂接在主控单元的总线上,接入到并行标注数据生成单元中。节点同时使用FLASH作为语境数据的存储器,存储词索引数据以及词共句关联关系数据,其中:
词共句关联关系指的是不同两个词位于同一语料的频度,该频度来自语料库词反向语料索引统计,各节点按分词映射到节点号算法并行分配等处理的分词,并保存处理结果到本节点的FLASH存储器中;
所述词索引结构,包括词,词的MD5码以及二进制的反向语料有序索引数组,每个索引数组元素为corpusID,index二元组,其中: corpusID为语料唯一ID,以及词在语料中的位置,数组以corpusID 为序从小到大排列,提供二分法插入与查找,词与词句共现关系的分析接口;
所述词共句关系统计,每个统计项为wordID,wordID,count,其中前二个wordID分别代表在同一个句子中出现的二个词的ID, count代表到目前为止这二个词共句出现的频率。
有益效果
本发明的上述技术方案相比现有技术具有以下优点:
本发明通过软硬件结合的方式,给出了一种并行的语境标注数据生成架构,由于语境标注生成过程中随着语料库的扩展,所需的计算量会以指数方式增长。因此本发明通过上位机与外部处理单元并行处理的方式,有效提高了语境标注数据生成的效率;
本发明提出了一种新型的词共句关系统计方法,该结构实现了通过词的节点号映射算法,将词分配到各并行处理模块节点中。在该节点中生成词与语料的双向索引,同时保存词在语料中的位置,并通过节点中分词缓存的数据结构实现词共句关系的统计计算,实现了语境标注基础数据的获取;
本发明中设计了一种新的语料标注,即语境标注,语境在语言研究以及计算机文本处理方面有很深远的意义,所以本发明实现的语境标注语料库必然对这些方面的研究起到重要的促进作用。
附图说明
图1为本发明基于语境标注的双语平行语料库构建系统架构设计图。
图2为本发明基于语境标注的双语平行语料库构建系统的语境标注数据生成单元组成图。
具体实施方式
本发明所提出的双语平行语料库构建系统如图1所示,其中包括最主要的部分为六个组成部分:
上位机,上位机主要负责双语平行语料库存储、语料的前置处理、语料库中语料的语境标注以及与并行处理单元的数据交互。其中双语平行语料库中语料组织形式为结构化的语料数据记录,每条语料分别包括对应互译的双语语句,唯一的标识符,以及语料的来源。该语料库的语料来自于系统外采集的生语料,经过清洗,格式转换和双语语句匹配后赋予唯一标识符以及标注其来源后存储进入语料库;
主控单元,主控单元主要负责上位机之间的通讯以及控制各可扩展处理节点,接收来自于上位机的分词数据,分发至各可扩展处理节点,收集各可扩展处理节点的处理状态,再上报到上位机,实现语境标注数据处理流程的控制。
可扩展处理节点,主要负责分词的双向索引建立以及统计词共句关系,它通过接收主控单元发来的分词数据,判断分词数据处理节点是否为本节点,再更新本地分词索引库与词共句关系统计库,实现语境标注数据的生成与存储。
词索引库,该库是针对双语语料中的语句采用分词形成的词索引,本发明 中词索引是双向索引的,索引库中每条纪录代表一个词,分别赋予唯一的标识符,该标识符使用MD5算法生成,除此之外,每个词附带一个二进制字节流的索引,该索引采用二进制数组方式实现对所有出现过该词的语料索引,其元素结构所前所述,如此实现词对语料的索引,此外,该索引数组是依据语料的唯一标识符从小到大有序排列的。语料对词的索引同样是先分词后,对各词生成MD5码,依据该码即可实现对应词的索引。
词共句关系统计库,是由词索引库直接生成的,主要通过两两遍历词索引纪录,对比两个词关于语料索引的元素是否相同,如果相同则这两个词出现在同一语料中,则记录到库中,最终生成完成的词共句关系统计库。
基于语境的双语平行语料库,是通过遍历语料库中语料,语料分词后,以语料包含的各分词词共句关系统计模型构成的无向有权图作为语料的语境模型。将该模型作为语料库的一部分存储到语料库数据库中,形成基于语境的双语平行语料库。
如此以上各组成部分构建完成后,即实现了本发明所提出的语境标注双语平行语料库系统。

Claims (1)

1.一种语境标注的双语平行语料库构建系统,其特征在于,包括:
1)并行的语境标注数据生成架构:由上机位与外接的并行语境标注数据生成单元组成,通过上位机将语料分词结果发送到生成单元,由生成单元完成词的双向索引和词共句关系统计,作为语境标注所需的基础数据;
2)并行语境标注数据生成单元:由一个主控模块和多个可扩展的处理节点模块构成,由主控模块实现与上位机的交互,可扩展并行节点实现对词的索引与词共句关系统计,作为语境标注的数据来源;
3)面向语境的词索引结构:该结构实现了一种面向语境的词索引结构,能实现词与语料的双向索引,保存词在语料中位置,实现词与词之间的共现关联关系统计;
4)基于语境的双语平行语料库的构建:基于语境模型实现对语料库中语料语境的构建,实现包含语境标注的双语平行语料库;
其中,所述可扩展的节点模块由ARM、扩展内存、外接FLASH芯片以及相关的控制与数据线组成,其接收从主控模块发送来的分词以及语料ID,缓存于模块语料分词缓存数据结构中,再遍历各分词,将分词生成MD5再映射成节点号,判断该分词是否由本节点处理,若由本节点处理,则生成该词的面向语境的词索引结构和词共现关系统计数据;
所述词索引结构,包括词,词的MD5码以及二进制的反向语料有序索引数组,每个索引数组元素为corpusID,index二元组,其中:corpusID为语料唯一ID,以及词在语料中的位置,数组以corpusID为序从小到大排列,提供二分法插入与查找,词与词句共现关系的分析接口;
所述词共句关系统计,每个统计项为wordID,wordID,count三元组,其中前二个wordID分别代表在同一个句子中出现的二个词的ID,count代表到目前为止这二个词共句出现的频率。
CN201610368937.3A 2016-05-27 2016-05-27 一种语境标注的双语平行语料库构建系统 Active CN106066870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610368937.3A CN106066870B (zh) 2016-05-27 2016-05-27 一种语境标注的双语平行语料库构建系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610368937.3A CN106066870B (zh) 2016-05-27 2016-05-27 一种语境标注的双语平行语料库构建系统

Publications (2)

Publication Number Publication Date
CN106066870A CN106066870A (zh) 2016-11-02
CN106066870B true CN106066870B (zh) 2019-03-15

Family

ID=57421012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610368937.3A Active CN106066870B (zh) 2016-05-27 2016-05-27 一种语境标注的双语平行语料库构建系统

Country Status (1)

Country Link
CN (1) CN106066870B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109683773B (zh) * 2017-10-19 2021-01-22 北京国双科技有限公司 语料标注方法和装置
CN110046261B (zh) * 2019-04-22 2022-01-21 山东建筑大学 一种建筑工程多模态双语平行语料库的构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908042A (zh) * 2010-08-09 2010-12-08 中国科学院自动化研究所 一种双语联合语义角色的标注方法
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
CN104699766A (zh) * 2015-02-15 2015-06-10 浙江理工大学 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198057B (zh) * 2012-01-05 2017-11-07 深圳市世纪光速信息技术有限公司 一种自动给文档添加标签的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908042A (zh) * 2010-08-09 2010-12-08 中国科学院自动化研究所 一种双语联合语义角色的标注方法
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
CN104699766A (zh) * 2015-02-15 2015-06-10 浙江理工大学 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于语料库的英语词汇搭配的共现形式及计算方法;袁新华;《科技信息》;20131231;第188页
词类共现概率的MapReduce并行生成方法;程兴国等;《重庆理工大学学报(自然科学)》;20131130;第53-58页

Also Published As

Publication number Publication date
CN106066870A (zh) 2016-11-02

Similar Documents

Publication Publication Date Title
US10657325B2 (en) Method for parsing query based on artificial intelligence and computer device
KR100961717B1 (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
CN100511215C (zh) 多语种翻译存储器和翻译方法
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN111460787A (zh) 一种话题提取方法、装置、终端设备及存储介质
CN102214166A (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN108804592A (zh) 知识库检索实现方法
CN103116578A (zh) 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN111061882A (zh) 一种知识图谱构建方法
CN109670190A (zh) 翻译模型构建方法和装置
CN101464856A (zh) 平行口语语料的对齐方法和装置
CN110188359B (zh) 一种文本实体抽取方法
CN106528731A (zh) 一种敏感词过滤方法及系统
CN104035918A (zh) 一种采用上下文特征匹配的中文机构名简称识别系统
CN106066870B (zh) 一种语境标注的双语平行语料库构建系统
CN113343717A (zh) 一种基于翻译记忆库的神经机器翻译方法
Volk et al. Bi-particle adverbs, PoS-tagging and the recognition of German separable prefix verbs
CN103164398A (zh) 汉维电子辞典及其自动转译汉维语的方法
CN110210033B (zh) 基于主述位理论的汉语基本篇章单元识别方法
CN106776590A (zh) 一种获取词条译文的方法及系统
CN103164396A (zh) 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
CN102209279A (zh) 基于xml的多语言支持方法
CN108197118A (zh) 一种利用计算机系统进行自动标引及检索的方法
Miao et al. Open domain news text relationship extraction based on dependency syntax
Suriyachay et al. Enhancement of character-level representation in bi-LSTM model for Thai NER

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: No.219, ningliu Road, Jiangbei new district, Nanjing, Jiangsu Province, 210000

Patentee after: Nanjing University of Information Science and Technology

Address before: 210000 69 Olympic Sports street, Jianye District, Nanjing, Jiangsu.

Patentee before: Nanjing University of Information Science and Technology

TR01 Transfer of patent right

Effective date of registration: 20211124

Address after: Room 502, building 1, No. a, Beibinhe Road, Guang'anmenwai, Xicheng District, Beijing 100032

Patentee after: Jiaguyi (Beijing) Language Technology Co.,Ltd.

Address before: No.219, ningliu Road, Jiangbei new district, Nanjing, Jiangsu Province, 210000

Patentee before: Nanjing University of Information Science and Technology

TR01 Transfer of patent right
CP02 Change in the address of a patent holder

Address after: 101399 12-113, No. 2, CAIDA Second Street, Nancai Town, Shunyi District, Beijing

Patentee after: Jiaguyi (Beijing) Language Technology Co.,Ltd.

Address before: Room 502, building 1, No. a, Beibinhe Road, Guang'anmenwai, Xicheng District, Beijing 100032

Patentee before: Jiaguyi (Beijing) Language Technology Co.,Ltd.

CP02 Change in the address of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Bilingual Parallel Corpus Construction System Based on Context Annotation

Effective date of registration: 20230921

Granted publication date: 20190315

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: Jiaguyi (Beijing) Language Technology Co.,Ltd.

Registration number: Y2023990000471

PE01 Entry into force of the registration of the contract for pledge of patent right