CN102270242A

CN102270242A - 计算机辅助语料提取方法

Info

Publication number: CN102270242A
Application number: CN 201110234409
Authority: CN
Inventors: 宫辰; 管新潮; 杨杰
Original assignee: SHANGHAI JIAO TONG UNIVERSITY PRESS Co Ltd
Current assignee: SHANGHAI JIAO TONG UNIVERSITY PRESS Co Ltd
Priority date: 2011-08-16
Filing date: 2011-08-16
Publication date: 2011-12-07
Anticipated expiration: 2031-08-16
Also published as: CN102270242B

Abstract

本发明公开一种计算机辅助语料提取方法，方法为：提取需入库的中英文语料，并实时显示选中内容；其中术语的提取是连续的，通过捕捉鼠标左键按下和抬起的动作，记录下用户端涂抹选中的术语；句式前半部分的提取与提取术语相同，系统会将记录的前半部分存入字符串变量A，进而用户端按住Ctrl键，此时系统会自动生成省略号字符串“…”，记为B，然后用户端再次按下鼠标左键涂抹选中句式的后半部分，这时选中的内容记为变量C，最后生成的完整的句式就是A+B+C；利用数据库来保存用户端录入的术语和句式；更新术语库或者句式库。本发明利用计算机作辅助，能有效地提高语料提取的效率，将人从繁重的提取工作中解放出来。

Description

计算机辅助语料提取方法

技术领域

本发明涉及一种计算机辅助语料提取方法，具体是利用计算机作为辅助，使得语言学研究者能够更加方便、快捷地实现语料（本文指术语和句式）的提取和入库，属于计算机科学和语料库语言学的交叉领域。

背景技术

翻译（中译英、英译中）一直以来都是语言学研究中一个十分重要的方面。为了让语言学研究人员能够更加方便、准确、高效地进行翻译，近些年来语料库的构建逐渐成为一种新的技术手段，并得到越来越多的关注和研究。语料库的目的就是将大量典型的外文术语、句式及其翻译预先存入一个数据库中，再以此为依据对新的语篇进行翻译。这些典型的术语、句式一般来自于大家公认的经典翻译著作。因此，这里涉及到一项很重要的工作，就是需要从这些原始的经典翻译著作中提取出大量的语料，并录入数据库。由于这个数据库规模庞大，因此语料提取工作费时费力，工作量浩大。目前，构建语料库的工作基本上还是依靠人工从原文中进行简单的“复制”“粘贴”来完成，这样做不但效率低而且很容易出错。

为了克服这个问题，国际上一些著名的语料处理软件，如Trados，尝试完全依靠计算机来实现语料的全自动提取。这样做固然把人从繁重的劳动中解放出来，但是却有一个很大的弊端：目前计算机的长处在于运算能力强大，但是智能性却有很大不足，因此最终导致提取出的语料错误较多，且有大量的有价值语料无法被完整地提取出来。

基于以上考虑，计算机只能够担当辅助的功能，从一定程度上帮助研究人员实现原始语料的提取，而不能够完全取代人承担语料提取的工作。

发明内容

本发明的目的在于解决现有技术中的上述不足，提供一种计算机辅助语料提取方法，利用计算机作辅助，能够有效地提高语料提取的效率，将人从繁重的提取工作中解放出来。

为实现上述的目的，本发明所述的计算机辅助语料提取方法，包括如下步骤：

第一步，提取需要入库的中英文语料，并实时显示选中内容；

第二步，利用数据库来保存用户端录入的术语和句式，所述数据库包括术语库和句式库；

第三步，根据数据库的历史语料信息，对术语库或者句式库进行更新。

在第一步中，用户端事先导入需要提取语料的句对文档，该文档中所有句对使用SGML格式表示，典型表示如下：

<TrU>

<Quality>71

<CrU>ALIGN!

<CrD>18072010, 16:09

<Seg L=EN-US>Proteins constitute that class of biochemical compounds most characteristic of protoplasm and life.

<Seg L=ZH-CN>蛋白质构成的一类生物化学化合物最具有原生质和生命的特征。

</TrU>

为了将各组句对中的中英文句子分别放入显示的文本框中，可以以<Seg L=EN-US>和<Seg L=ZH-CN>为标志，它们后面的部分即为相应的英文和中文句子。然后在系统显示的句对中采用按下鼠标左键进行涂抹的方法选中想要入库的中英文语料，进而捕捉鼠标左键抬起的动作，在鼠标左键抬起之前选中的文本就是希望提取的语料。

其中，术语和句式的提取方法是有不同的。由于术语的提取都是连续的，所以只要通过捕捉鼠标左键按下和抬起的动作，记录下用户端涂抹选中的术语即可。但是句式往往是不连续的，比如需要从英文句子“These amino acid side chains are found both in the interior and on the solvent protein interface in significant proportions.”中提取“both…and…”句式，此时就不能像提取术语那样单纯地捕捉一次鼠标左键按下和抬起的动作了。对于这种情况，本发明的处理方法是：句式前半部分的提取与提取术语相同，系统会将记录的前半部分存入字符串变量A，进而用户端需按住Ctrl键以告知系统该句式是非连续的，目前只提取了其中的一部分，此时系统会自动生成省略号字符串“…”，记为B。然后用户端可以再次按下鼠标左键涂抹选中句式的后半部分，这时选中的内容记为变量C。最后生成的完整的句式就是A+B+C。

至于实时显示功能，就是将用户端当前选择的术语或句式存入某个临时变量，并在文本框中显示出这些变量的具体内容。

在第二步中，需要将用户端之前选择的语料存入数据库，如果Visual Basic 6.0环境，可以使用VB6.0中自带的Adodc控件，它能够搭建起连接各种数据库的桥梁。本发明中，Source Name为预先建立好的语料数据库的名字PhrasExt，而RecordSource为数据库中所含表的名字，根据需要可以是dbo.term（术语表）或dbo.pattern（句式表）。最后再使用Windows操作系统自带的管理工具配置一下ODBC数据源即可。对于具体选择的需要入库的语料，可以使用ADO的AddNew方法实现。

第三步是对数据库进行更新。因为第二步实际上是对数据库中的内容进行了扩充，所以需要保存此时最新的数据库记录，即对数据库内容进行及时的更新，否则之前刚入库的语料记录就会丢失。实现过程中，可以借助于ADO的Update方法来实现。

利用本发明上述的语料提取方法，制作语料提取平台，使得语料库语言学研究者能够更加方便、准确地提取原始语料；具有清晰的人机交互界面，后台与大型数据库相连，针对术语和句式施以不同的字符串操作方法，提供了不同的提取策略。由于引入了计算机作辅助，因而较之于当前，本发明能够有效地提高语料提取的效率，将人从繁重的提取工作中解放出来。

附图说明

图1是本发明实施例的语料提取系统的主界面图。

图2是本发明实施例方法流程图。

具体实施方式

以下结合附图和实施例对本发明的技术方案作进一步的解释，但是以下的内容不用于限定本发明的保护范围。

如图2所示，本实施例的语料提取方法流程图，该流程包括：选中需要入库的中英文语料，并实时显示选中内容；将第一步选中的语料录入数据库，即术语库或者句式库；术语库或者句式库进行更新。

本实施例具体实施包含以下的几个方面：

1、本实施例使用的环境为Visual Basic 6.0（以下简称VB6.0）。Visual Basic是一种由微软公司开发的事件驱动编程语言。它源自于BASIC编程语言，拥有图形用户界面（GUI）和快速应用程序开发（RAD）系统，可以轻易的使用DAO、RDO、ADO连接数据库，或者轻松的创建ActiveX控件。程序员可以轻松的使用Visual Basic提供的组件快速建立一个应用程序。

2、数据库部分使用Microsoft公司开发的大型数据库软件SQL Server 2005。该软件构建了一个功能强大的数据库平台。借助于这个软件，用户端可以使用、存储和管理诸多类型的数据，并可以对其中的数据进行搜索、查询、分析、报表、整合等各项操作，从而大大提高了数据操作和处理的效率。

3、本实施例利用数据库来保存用户端录入的术语和句式。相应地，数据库里便包含两张表：术语表（dbo.term）和句式表（dbo.pattern）。

术语表的设计如表1所示：

表1 术语表结构

Figure 2011102344096100002DEST_PATH_IMAGE001

其中第1列term_NO是表中每条记录的编号，第2列term_en是术语的英文表达，第3列term_cn是相应术语的中文表达。实际操作中，用户端选取的英文会被存入term_en列，而中文则会被存入term_cn列。

另外，为了防止重复，表中的主键设置为term_en列和term_cn列。即当前录入的英文术语和中文术语同时和表中的已有记录发生重复时不会被记录入库。

句式表的设计如表2所示：

表2 句式表结构

同样，用户端选取的英文句式会被存入pattern_en列，而相应的中文则会被存入pattern_cn列。主键设置为pattern_en列和pattern_cn列。

4、本实施例使用VB6.0自带的控件Adodc作为其和数据库连接的桥梁。Adodc控件实际上属于ADO的连接方式。ADO (ActiveX Data Objects)是微软公司的一个用于存取数据源的COM组件。它提供了编程语言和统一数据访问方式OLE DB的一个中间层，允许设计人员编写访问数据的代码而不用关心数据库是如何实现的，而只用关心到数据库的连接。

5、术语的提取

用户端可以使用鼠标涂抹的办法选中想要入库的中英文术语，即当鼠标左键抬起之前选中的文本即是用户端希望提取的语料。所以，应当在外文文本框RichTextBox1和中文文本框RichTextBox2中捕捉MouseUp事件，并且该事件函数中的核心代码为

sel_waiwen = Trim(RichTextBox1.SelText) %选择的英文

以及

sel_zhongwen = Trim(RichTextBox2.SelText) %选择的中文

其中RichTextBox的SelText方法可以获得鼠标涂抹选中的文字内容。

为了使用户端能够及时检查提取的语料是否正确，还需要实时将其选择的内容可视化。为此要在RichTextBox1的MouseUp响应函数中加入代码：

If (RichTextBox1.SelLength <> 0) Then

Text3.Text = Trim(sel_waiwen) % Text3是“本次选中内容”的文本框

End If

在RichTextBox2的MouseUp响应函数中加入：

If (RichTextBox1.SelLength <> 0) And (RichTextBox2.SelLength <> 0) Then

Text3.Text = Trim(sel_waiwen & vbCrLf & sel_zhongwen)

End If

如果用户端确认提取无误后，单击鼠标右键弹出浮动菜单，菜单项包括“录入术语库”和“录入句式库”。用户端点击“录入术语库”后，刚才选择的语料就会保存进术语库存。

入库部分的主要代码为：

Adodc1.Refresh

Adodc1.Recordset.AddNew

Adodc1.Recordset.Fields("term_en") = Trim(sel_waiwen)

Adodc1.Recordset.Fields("term_cn") = Trim(sel_zhongwen)

Adodc1.Recordset.Update

6、句式的提取

较之于术语的提取，句式提取的难点在于中、英文中有些句式是不连贯的，如“not only…but…as well”，“不但……而且……”等。这就需要一定的字符串操作来保证句式的正确提取。实现过程中，当用户端按下ctrl键时，认为当前正在提取不连续的句式。

在RichTextBox1的MouseUp响应函数中加入代码：

If Shift = 2 Then %表示按下了ctrl键

sel_waiwen = Trim(sel_waiwen + "..." + RichTextBox1.SelText)

end if

在RichTextBox2的MouseUp响应函数中加入代码：

If Shift = 2 Then

sel_zhongwen = Trim(sel_zhongwen + "……" + RichTextBox2.SelText)

End If

以中文句式为例，这样做的原因在于：用户端前一次涂抹选中的内容会被保存在变量sel_zhongwen中，这样不连续句式的前一部分就会被记录下来。接着，用户端按下ctrl键后，最新选择的内容便被自动放入字符串RichTextBox2.SelText，再将“sel_zhongwen”、“……”及“RichTextBox2.SelText”三个字符串做拼接一并放入sel_zhongwen中，便可以完成不连续句式的提取了。

其余环节，如实时显示提取内容、入库等与3.4.2节“术语的提取”相似，这里就不再赘述了。

如图1所示，在本实施例的所示界面中，调入的txt句对文本中的句对会依次显示在“外文”及“中文”后的文本框内（文本框内的内容不允许用户端修改）。

提取术语或连续句式时，只需分别在“外文”和“中文”文本框内用鼠标涂抹选中即可，而若要提取非连续句式，则需按住Ctrl键不放，并用鼠标进行涂抹选中。

选择好术语或句式后，下方的“本次选中内容”会实时显示出当前选中的内容，确认无误后单击鼠标右键，会出现一个浮动菜单栏，其中包含“存入术语库” 、“存入句式库”两个操作选项，单击相应按钮后，当前选择会被放入对应数据库。屏幕下方的“本句对已进术语库的内容”和“本句对已进句式库的内容”会记录下当前句对中已被提取过的内容。同时，“已录入语块数”或“已录入句式数”后面的文本框里会统计已录入的语块或句式个数。

本句对提取完毕后，用户端需单击“显示下一句对”按钮，“外文”和“中文”后的文本框会继续显示下一个句对，以供用户端继续提取。“已处理句对数”后的文本框内也会统计出已处理的句对数。

将经过平行处理以后的句对文档载入系统后，界面上方的两个文本框会逐一显示出原始的句对供使用者提取语料。中间的文本框用于显示用户端当前选取的内容。进入术语库和句式库的历史语料信息则会分别显示在左下方和右下方的文本框内。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种计算机辅助语料提取方法，其特征在于包括如下步骤：

第一步，提取需要入库的中英文语料，包括术语和句式，并实时显示选中内容；其中术语的提取是连续的，通过捕捉鼠标左键按下和抬起的动作，记录下用户端涂抹选中的术语；句式前半部分的提取与提取术语相同，系统会将记录的前半部分存入字符串变量A，进而用户端按住Ctrl键，此时系统会自动生成省略号字符串“…”，记为B，然后用户端再次按下鼠标左键涂抹选中句式的后半部分，这时选中的内容记为变量C，最后生成的完整的句式就是A+B+C；

第三步，根据数据库的历史语料信息，更新数据库。

2.根据权利要求1所述的计算机辅助语料提取方法，其特征在于：在第一步中，用户端事先导入需提取语料的句对文档，该文档中所有句对使用SGML格式表示，以<Seg L=EN-US>和<Seg L=ZH-CN>为标志，它们后面的部分为相应的英文和中文句子，然后在系统显示的句对中选中想要入库的中英文语料。

3.根据权利要求1所述的计算机辅助语料提取方法，其特征在于：在第一步中，所述的实时显示，是指将用户端当前选择的术语或句式存入某个临时变量，并在文本框中显示出这些变量的具体内容。

4.根据权利要求1所述的计算机辅助语料提取方法，其特征在于：在第二步中，将用户端之前选择的语料存入数据库，如果为Visual Basic 6.0环境，使用VB6.0中自带的Adodc控件，它能够搭建起连接各种数据库的桥梁；Source Name为预先建立好的语料数据库的名字PhrasExt，而RecordSource为数据库中所含表的名字，即dbo.term术语表或dbo.pattern句式表，最后再使用Windows操作系统自带的管理工具配置一下ODBC数据源。

5.根据权利要求1或4所述的计算机辅助语料提取方法，其特征在于：在第二步中，对于用户端具体选择的需要入库的语料，使用ADO的AddNew方法实现。

6.根据权利要求1所述的计算机辅助语料提取方法，其特征在于：第三步中，对数据库内容进行及时的更新，否则之前刚入库的语料记录就会丢失，实现过程中，借助于ADO的Update方法来实现。