CN105159892A

CN105159892A - 一种语料提取器及提取语料的方法

Info

Publication number: CN105159892A
Application number: CN201510541953.3A
Authority: CN
Inventors: 白晓文; 陈春纬
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2015-08-28
Filing date: 2015-08-28
Publication date: 2015-12-16
Anticipated expiration: 2035-08-28
Also published as: CN105159892B

Abstract

本发明公开了一种语料提取器及提取语料的方法，目的在于：提取所有语种的语料，语料提取准确率高，实现对混杂外语词汇、数字、符号、字母等的语料提取，以及非连续语块的提取，所采用的技术方案为：一种语料提取器包括：设置模块，包括语料库定义单元，对语种名称、编号、以及语种对应的库文件名进行定义；符号定义单元，对各语种对应的句尾标点进行定义，语料匹配的最大范围是句子；语料标识的颜色定义单元，语料提取时轮换用定义的颜色标识；数据库模块，实现语料提取过程语料的存储；语料匹配模块，实现全文搜索语料库中存在的语料标识出来；语料提取模块；语料修正模块；以及语料导出模块，实现语料的导出和入库。

Description

一种语料提取器及提取语料的方法

技术领域

本发明属于计算语言学和翻译技术领域，涉及一种语料提取器及提取语料的方法。

背景技术

发表于《中文信息学报》，2007年1月第21卷第1期的《面向机器辅助翻译的汉语语块自动抽取研究》，提出了一种统计和规则向结合的语块抽取方法。使用Nagao串频统计算法进行基于词语的串频统计，进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤，得到候选语块，取得了令人满意的结果。通过试验发现，在统计方法中互信息和信息熵向结合的而方法教单一的互信息方法好；在语块边界规则过滤方法中语块左右边界规则和停用词对语块抽取的结果有较大影响。试验结果表明统计和过滤规则相结合的方法要优于纯粹的统计方法。应用本文方法，再辅以人工校对，可以方便地获取重复出现的多词语块。在机器辅助翻译系统中，使用现有的语块抽取方法抽取重复的语言单位，就可以方便地建设翻译记忆库，提高翻译得工作效率。

詹宏伟(杭州师范大学外国语学院)发表的《语料库中语块提取的工具与方法》，在自然语言处理领域，语言检索的工具和技术进展很快，语块识别的技术也从人工识别进入了机器识别。语块检索技术的起点是从语料库中提取连续的、固定的词串，进过几年的发展，已逐步达到了其高级阶段：提取非连续的可变的语块。本文从语料库研究的角度，分别从连续的语块和非连续的语块两个方面，对应于的语块识别与检索技术和工具进行归纳和评述。

以上现有方法的优点是速度快、效率高，缺点有：1)只适用于单一语种；2)受规则(尤其是边界词语规则)的限制，准确率较低，辅助翻译实践中可用性不高；3)文中出现外语词汇、数字、符号、字母等，尤其位于语块边界时候准确率严重下降，甚至不能识别；4)非连续语块识别率较低。

发明内容

为了解决现有技术中的问题，本发明提出一种能够提取所有语种的语料，语料提取准确率高，解决了混杂外语词汇、数字、符号、字母等的语料提取，以及非连续语块提取问题的语料提取器及提取语料的方法。

为了实现以上目的，本发明所采用的技术方案为：一种语料提取器包括：

设置模块，包括语料库定义单元，对语种名称、编号、以及语种对应的库文件名进行定义；符号定义单元，对各语种对应的句尾标点进行定义，语料匹配的最大范围是句子；语料标识的颜色定义单元，语料提取时轮换用定义的颜色标识；

数据库模块，实现语料提取过程语料的存储；

语料匹配模块，实现全文搜索语料库中存在的语料标识出来，作为人工提取的参考；

语料提取模块，实现人工提取语料；

语料修正模块，实现人工修改语料；

以及语料导出模块，实现语料的导出和入库。

一种提取语料的方法，包括以下步骤：

1)打开文本，根据需要选择语种，根据定义好的语种找到对应的语料库，并定义句尾符号以及语料提取时轮换用定义的颜色标识；

2)根据语料库中已有的语料自动匹配语料，匹配上的语料标注颜色，同时已经匹配上的语料自动罗列于语料表中，同时显示该语料出现频率；

3)对已经匹配的语料进行修正，修正后的语料在语料表中同步修正；

4)对没有匹配的预料进行人工提取，检索并选定需要提取的语料，将该语料提取至语料表，同时将打开的文本中所有同样的语料标识出来，并且显示该语料出现频率；

5)提取完所有语料后，以文本格式导出语料的同时，所有语料同时入语料库，相同语料覆盖。

进一步，所述步骤1)中通过Word内嵌的Com技术，将Word嵌入提取界面，通过Com接口操控Word，打开文本。

更进一步，所述步骤1)中的文本为word文件、excel文件或txt文件，打开txt和word文件时调用Word打开文本，打开excel文件时调用excel的Com接口将excel表格文件保存成txt文件，然后再调用Word打开。

进一步，所述步骤2)中语料自动匹配采用二分搜索算法查找，从句子的第一个字符开始搜索语料库得到最大匹配的语料，如果没有匹配，则从下个字符开始，依次搜索完整个句子，完成句子范围的语料匹配，循环对全文每个句子处理，完成全文的语料的匹配。

进一步，所述步骤3)中修正模块调出已经确定的语料和对应的全文，选择要修正的语料时，程序自动搜索全文，选中该条语料，提供对应的语言环境参考，人工重新选择语料的范围，修正语料，并替换语料列表中的语料，同时搜索全文相同的新语料，加上颜色标识，并统计新语料的显示频率，更改语料列表中新语料的频率。

进一步，所述步骤4)中对于非连续语料，选定后提取至语料表，逐次提取直至提取完所有语料，同时显示该语料出现频率。

更进一步，所述步骤4)中语料提取时，通过定义的系统热键，触发提取过程，调用WordCom接口取到选择的语料，调用WordCom接口循环搜索相同语料，调用WordCom接口实现语料以定义的颜色标识，并统计语料出现的频率，将语料和频率插入语料表中，更新术语列表的语料和频率。

进一步，所述步骤5)中首先根据提取语料导出选择按语料的文本顺序、提取的时间或频率排序，然后导出纯文本格式的语料文件。

更进一步，所述步骤5)中语料全文确定完成后，对语料入库作为以后提取的参考，循环对每条语料搜索，如果查到语料库中已有，则不入库，如果查不到，则查到语料入库的位置，在该位置插入一条语料。

与现有技术相比，本发明的提取器适用于所有语种，将全语种进行内嵌，具有语料提取模块，便于人工提取语料，准确性由使用者人为控制，不用制定规则；具有符号定义单元，可提取混杂外语词汇、数字、符号、字母等的语料；带有统计功能，可实时提供任一语料重复次数；具有记忆功能，在文本导入的时候，利用语料匹配模块根据语料库已有内容自动匹配，没有匹配的语料由语料提取模块人工提取，全文提取并修正后导出语料的时候，可将库中没有的语料导入到语料库中，方便以后提取。

本发明的方法中首先定义语种、句尾符号以及语料提取时轮换用定义的颜色标识，可提取混杂外语词汇、数字、符号、字母等的语料；根据语料库中已有的语料进行自动匹配并修正，同时带有统计功能，可实时提供任一语料重复次数；对于没有自动匹配的语料进行人工提取，使用者人为控制准确性，准确率高，不用制定规则；对于非连续语料，选定后逐次提取至语料表，直至提取完所有语料，解决了非连续语块提取的问题，本发明方法适用于所有语种，提取准确性由使用者人为控制，不用制定规则，可提取混杂外语词汇、数字、符号、字母等的语料，带有统计功能，可实时提供任一语料重复次数，具有记忆功能，在文本导入的时候，可根据记忆库已有内容自动匹配，人工提取完毕后，导出语料的时候，可将库中没有的语料导入到库中，方便以后提取。

具体实施方式

下面结合具体的实施例对本发明作进一步的解释说明。

一种语料提取器，包括：

数据库模块，实现语料提取过程语料的存储；

语料提取模块，实现人工提取语料；

语料修正模块，实现人工修改语料；

以及语料导出模块，实现语料的导出和入库。

一种提取语料的方法，包括以下步骤：

1)打开文本，根据需要选择语种，根据定义好的语种找到对应的语料库，并定义句尾符号以及语料提取时轮换用定义的颜色标识；通过Word内嵌的Com技术，将Word嵌入提取界面，通过Com接口操控Word，打开文本，文本为word文件、excel文件或txt文件，打开txt和word文件时调用Word打开文本，打开excel文件时调用excel的Com接口将excel表格文件保存成txt文件，然后再调用Word打开；

2)根据语料库中已有的语料自动匹配语料，匹配上的语料标注颜色，同时已经匹配上的语料自动罗列于语料表中，同时显示该语料出现频率；语料自动匹配采用二分搜索算法查找，从句子的第一个字符开始搜索语料库得到最大匹配的语料，如果没有匹配，则从下个字符开始，依次搜索完整个句子，完成句子范围的语料匹配，循环对全文每个句子处理，完成全文的语料的匹配；

3)对已经匹配的语料进行修正，修正后的语料在语料表中同步修正；修正时修正模块调出已经确定的语料和对应的全文，选择要修正的语料时，程序自动搜索全文，选中该条语料，提供对应的语言环境参考，人工重新选择语料的范围，修正语料，并替换语料列表中的语料，同时搜索全文相同的新语料，加上颜色标识，并统计新语料的显示频率，更改语料列表中新语料的频率；

4)对没有匹配的预料进行人工提取，检索并选定需要提取的语料，将该语料提取至语料表，同时将打开的文本中所有同样的语料标识出来，并且显示该语料出现频率；对于非连续语料，选定后提取至语料表，逐次提取直至提取完所有语料，同时显示该语料出现频率；语料提取时，通过定义的系统热键，触发提取过程，调用WordCom接口取到选择的语料，调用WordCom接口循环搜索相同语料，调用WordCom接口实现语料以定义的颜色标识，并统计语料出现的频率，将语料和频率插入语料表中，更新术语列表的语料和频率；

5)提取完所有语料后，以文本格式导出语料的同时，所有语料同时入语料库，相同语料覆盖，首先根据提取语料导出选择按语料的文本顺序、提取的时间或频率排序，然后导出纯文本格式的语料文件，语料全文确定完成后，对语料入库作为以后提取的参考，循环对每条语料搜索，如果查到语料库中已有，则不入库，如果查不到，则查到语料入库的位置，在该位置插入一条语料。

本发明方法完整的步骤：

步骤一：打开文本：打开工具，选择语言，打开需要提取语料的文本(可为word文件、excel文件和txt文件等)；

程序调用微软的MicrosoftWord处理语料的提取，通过Word内嵌的Com技术，Word作为软件的一部分嵌入软件的界面，通过Com接口操控Word，打开文件时，txt和word文件调用Word打开文件的方法，excel调用excel的Com接口将excel表格文件保存成txt文件，然后再调用Word打开，打开文件时，需要选择语种，软件根据定义好的语种找到对应的语料库；

步骤二：自动匹配：打开文本后，根据语料库中已有的语料自动匹配语料，匹配上的语料标注颜色(颜色可自行设定)，同时已经匹配上的语料自动罗列于语料表中，同时显示该语料出现频率；

语料库以文件保存，不同语种程序配置不同的文件，新增语料添加入语料库按顺序插入，匹配的时候采用二分搜索算法查找，从句子的第一个字符开始搜索语料库得到最大匹配的语料，如果没有匹配，则从下个字符开始，依次搜索完整个句子，完成句子范围的语料匹配，循环对全文每个句子处理，完成全文的语料的匹配；

语料标注颜色可定义多种，对识别的语料按定义的多种颜色轮流标识，多个语料连续从颜色得到区分，人工选择语料提取时，搜索全文相同的语料，加上颜色标识，并统计语料的显示频率，以列表的形式分两栏显示提取的语料及在全文中出现的次数；

步骤三：匹配语料修正：对已经匹配的语料进行修正，修正后的语料在语料表中同步修正；语料提取是直接从语料中由程序复制过来，提取问题不存在拼写错误，只存在语料选择范围过大或过小的问题，修正模块对已经提取的语料进行修改替换，修正模块调出已经确定的语料和对应的全文，选择要修正的语料时，程序自动搜索全文，选中该条语料，提供对应的语言环境参考，人工重新选择语料的范围，按clr+2即可实现语料的修正,替换语料列表中的语料，同时搜索全文相同的新语料，加上颜色标识，并统计新语料的显示频率，更改语料列表中新语料的频率；

步骤四：人工提取语料：从头到尾人工检索，需要提取的语料选定后，点击快捷键“Ctrl+1”提取至语料表，同时将打开的文件中所有同样的语料标识出来，并且显示该语料出现频率；非连续语料，可按下shift键选定，点击快捷键“Ctrl+1”提取至语料表，直至提取完所有语料，同时显示该语料出现频率；

语料提取时，通过定义的系统热键，触发提取过程，程序调用WordCom接口取到选择的语料，调用WordCom接口循环搜索相同语料，调用WordCom接口实现语料以定义的颜色标识，并统计语料出现的频率，将语料和频率插入语料表中，更新术语列表的语料和频率，语料显示可以按照语料的文字顺序、添加先后顺序，频率等显示；

步骤五：导出语料：提取完所有语料后，即可导出语料，导出格式可选(word、excel、txt等)，可选择是否显示语料出现频率，也可选择和修改语料出现频率显示方式；导出语料的同时，所有语料同时入库(相同语料覆盖)，首先根据提取语料导出选择排序，可以按语料的文本顺序，提取的时间，频率多少排序，然后导出纯文本格式的语料文件，如果是word、excel，调用对应Com接口导出，语料全文确定完成后，对语料入库作为以后提取的参考，循环对每条语料搜索，如果查到语料库中已有，则不入库；如果查不到，则查到语料入库的位置，在该位置插入一条语料，入库插入过程，自动消除。

本发明的预料提取器包括：软件设置模块：1、语料库定义单元，定义语种名称和编号，语种对应的库文件名；2、符号定义单元，定义各语种对应的句尾标点，语料匹配的最大范围是句子；3、语料标识的颜色定义单元，语料提取时轮换用定义的颜色标识；数据库模块：实现语料提取过程语料的存储；语料匹配模块：全文搜索语料库中存在的语料，标识出来，作为人工提取的参考；语料提取模块：人工提取语料的实现；语料修正模块：人工修改语料的实现；以及语料导出模块：实现语料的导出和入库。

本发明解决了已有提取器只适应于一个语种的问题，本发明可提取所有语种的语料，应用性强；解决了语料提取准确率的问题，采用人工判断，无需更多的规则，准确性由使用者人为控制，不用制定规则，所以基本不存在准确率问题；解决了混杂外语词汇、数字、符号、字母等的语料提取的问题，可提取混杂外语词汇、数字、符号、字母等的语料；解决了非连续语块提取问题，带有统计功能，可实时提供任一语料重复次数；本发明带有记忆功能，在文本导入的时候，可根据记忆库已有内容自动匹配，人工提取完毕后，导出语料的时候，可将库中没有的语料导入到库中，方便以后提取。

Claims

1.一种语料提取器，其特征在于，包括：

数据库模块，实现语料提取过程语料的存储；

语料提取模块，实现人工提取语料；

语料修正模块，实现人工修改语料；

以及语料导出模块，实现语料的导出和入库。

2.一种提取语料的方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种提取语料的方法，其特征在于，所述步骤1)中通过Word内嵌的Com技术，将Word嵌入提取界面，通过Com接口操控Word，打开文本。

4.根据权利要求3所述的一种提取语料的方法，其特征在于，所述步骤1)中的文本为word文件、excel文件或txt文件，打开txt和word文件时调用Word打开文本，打开excel文件时调用excel的Com接口将excel表格文件保存成txt文件，然后再调用Word打开。

5.根据权利要求2所述的一种提取语料的方法，其特征在于，所述步骤2)中语料自动匹配采用二分搜索算法查找，从句子的第一个字符开始搜索语料库得到最大匹配的语料，如果没有匹配，则从下个字符开始，依次搜索完整个句子，完成句子范围的语料匹配，循环对全文每个句子处理，完成全文的语料的匹配。

6.根据权利要求2所述的一种提取语料的方法，其特征在于，所述步骤3)中修正模块调出已经确定的语料和对应的全文，选择要修正的语料时，程序自动搜索全文，选中该条语料，提供对应的语言环境参考，人工重新选择语料的范围，修正语料，并替换语料列表中的语料，同时搜索全文相同的新语料，加上颜色标识，并统计新语料的显示频率，更改语料列表中新语料的频率。

7.根据权利要求2所述的一种提取语料的方法，其特征在于，所述步骤4)中对于非连续语料，选定后提取至语料表，逐次提取直至提取完所有语料，同时显示该语料出现频率。

8.根据权利要求7所述的一种提取语料的方法，其特征在于，所述步骤4)中语料提取时，通过定义的系统热键，触发提取过程，调用WordCom接口取到选择的语料，调用WordCom接口循环搜索相同语料，调用WordCom接口实现语料以定义的颜色标识，并统计语料出现的频率，将语料和频率插入语料表中，更新术语列表的语料和频率。

9.根据权利要求2所述的一种提取语料的方法，其特征在于，所述步骤5)中首先根据提取语料导出选择按语料的文本顺序、提取的时间或频率排序，然后导出纯文本格式的语料文件。

10.根据权利要求9所述的一种提取语料的方法，其特征在于，所述步骤5)中语料全文确定完成后，对语料入库作为以后提取的参考，循环对每条语料搜索，如果查到语料库中已有，则不入库，如果查不到，则查到语料入库的位置，在该位置插入一条语料。