CN104933192A - 汉菲双语平行语料自动采集的系统及实现方法 - Google Patents

汉菲双语平行语料自动采集的系统及实现方法 Download PDF

Info

Publication number
CN104933192A
CN104933192A CN201510407496.9A CN201510407496A CN104933192A CN 104933192 A CN104933192 A CN 104933192A CN 201510407496 A CN201510407496 A CN 201510407496A CN 104933192 A CN104933192 A CN 104933192A
Authority
CN
China
Prior art keywords
chinese
rich
luxuriant
fragrance
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510407496.9A
Other languages
English (en)
Inventor
温家凯
农强
刘连芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pingsoft New Technology Co Ltd
Guangxi Daring E-Commerce Services Co Ltd
Original Assignee
Pingsoft New Technology Co Ltd
Guangxi Daring E-Commerce Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pingsoft New Technology Co Ltd, Guangxi Daring E-Commerce Services Co Ltd filed Critical Pingsoft New Technology Co Ltd
Priority to CN201510407496.9A priority Critical patent/CN104933192A/zh
Publication of CN104933192A publication Critical patent/CN104933192A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种汉菲双语平行语料自动采集的系统及实现方法,包括汉菲双语平行信息的自动发现、自动提取、自动整理,首先,制定需要采集语料的关键词组,通过搜索引擎搜索网站,采集网页得到搜索结果,对搜索结果的信息进行过滤和筛选后,将经过滤得搜索结果存储于搜索结果数据库;其次,通过访问搜索结果数据库里的网页,自动提取汉菲双语平行信息;最后,针对自动提取的汉菲双语平行信息,进行数据过滤,并将经过过滤处理后的汉菲双语平行数据存放到汉菲双语平行语料库。本发明为汉菲语言研究和机器翻译应用提供重要基础数据,解决了语料采集人员和研究人员所面临的数据来源的问题,为双语语料自动采集的发展和汉菲自然语言处理做出了杰出的贡献。

Description

汉菲双语平行语料自动采集的系统及实现方法
技术领域
本发明涉及计算机应用技术领域,尤其是涉及一种汉菲双语平行语料自动采集的系统及实现方法。
背景技术
“平行语料”(Parallel Texts)是指使用不同语言撰写、相互间具有“翻译关系”的文本。在计算语言学界,它有别于“对比语料”(Comparable Texts),后者也使用不同的语言撰写、并且针对同一主题,但相互之间却不存在直接的“翻译关系”。
人类历史上曾有过各式各样的平行语料。埃及出土的罗塞塔石碑,其碑文用两种语言、三种文字刻成,是颇具盛名的古代的平行语料。通过比较石碑上的文字,法国古代语学者商博良解读了古埃及的象形文字。此外,用不同语言对照书写的契约协议、宗教经典、文学作品也在不同的时期和不同的领域影响着人们的生活。20世纪50年代末,平行语料开始出现在机器翻译研究中。由于当时计算机的存储空间和计算能力有限,而大量文本数据的输入又相当困难,平行语料库的作用并没有得到太多的关注。70年代末期,翻译资源的收集工作在 Xerox PARC 、Brigham Young 等研究中心广泛地开展起来。1987年,Martin Kay 和 Martin Roscheisen 提出了最早的平行语料自动对齐算法。之后各种对齐方法层出不穷,对齐后的平行语料也被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。
语料库的建设是统计学习方法的重要基础,近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是双语语料库(Bilingual Corpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。一方面,双语语料库的出现直接推动了机器翻译新技术的发展,像平行语料库为统计机器翻译的模型构建提供了必不可少的训练数据(e.g.,Brown et al.1990; Melamed 2000; Och and Ney 2002),基于统计(Statistic-Based)和基于实例(Example-Based)等基于语料库的翻译方法为机器翻译研究提供了新的思路,有效改善了翻译质量,在机器翻译研究领域掀起了新的高潮。另一方面,双语语料库又是获取翻译知识的重要来源,从中可以挖掘学习各种细粒度的翻译知识,如翻译词典(e.g., Gale and Church 1991; Melamed 1997)和翻译模板,从而改进传统的机器翻译技术。此外,双语语料库也是跨语言信息检索(e.g., Davis and Dunning 1995; Jian-Yun Nie, TREC8;),翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。  双语平行语料库建设与获取存在着很大的困难,各国都投入了大量的人力、物力和财力,但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域,不适合真实文本应用。同时,互联网上的大规模双语文本并且具有很好的时效性和覆盖性,这为双语平行语料库的获取提供了潜在的解决途径。  
加拿大蒙特利尔大学的研究者聂建云开发的系统PT Miner(Parallel Text Miner,1999):通过搜索引擎查找含有特定锚文本的网站构成双语候选网站,再依赖预先定义的语言的前后缀表,抽取出具有URL命名相似性的候选网页即如果某一URL含有一种语言的前后缀,则将这些前后缀替换为另一种语言的,构建出一个URL,如果这样构建出来的URL存在。则找到了一对候选网页对,最后再根据文本长度,网页的HTML标记结构,网页的语言等特征过滤掉候选网页中不平行的网页对。PT Miner系统在中英平行网页文本挑出几百对的中英平行网页对,经过人工的评价,有将近90%的准确率。获取到的英文文本有137M,中文文本有117M。
美国马里兰大学的研究者Resnik开发的系统STRAND(Structural Translation Recognition, Acquiring Natural Data,2003)也是利用搜索引擎和定义的挑选候选网站的规则来得到双语候选网站。同PT Miner相比,STRAND再利用URL命名相似性来查找一个网站内的候选网页对时,采取在中、英URL中删去预先定义与语言相关的字符串的方式,如果去除语言相关的字串后,中、英URL相等,则说明当前的中英URL是一对候选双语平行网页。此外,STRAND更加细致深入的研究了平行网页在结构上具有的相似性,采用了更多的基于网页结构的特征来过滤掉候选平行网页中不是互为翻译的网页对。人工评估了大约400对的中英平行网页对,取得了98%的准确率和61%的召回率。STRAND系统获取到大约3,500对中英平行网页对。  BITS(Bilingual Internet Text Search, Ma and Liberman 1999),下载指定域名下的所有网站作为候选网站,定义了一种计算中英网页内容之间相似度的计算方式即互翻译词占文本总词数的比例,来进行中英平行网页对的确定。  澳大利亚莫纳什大学陈纪淞等人开发的PTI(The Parallel Text Identification System,2004)通过网页采集器下载了大量的双语网页之后,首先通过了文件名比较模型即根据URL命名的相似性来得到双语平行网页对,原理同PT Miner,在这一过程没有相应对齐链接的网页再通过一个文件内容分析模型,定义了计算网页文本内容之间的相似度计算方式,从而得到双语平行的网页对。PTI系统总共获取到193对的中英平行文本,其中180对是正确的,正确率为93%,召回率为96%。
亚洲微软研究院的吴克等人开发的WPDE(Web Parallel Data Extraction,2006)在利用搜索引擎获取候选网站时,不仅利用了锚文本还采用了图片的ALT信息。在根据URL命名相似性获取候选双语平行网页对时,采用将URL分成pathname和basename,pathname的配对查找上也利用预先定义的启发式字符串,在具体的查找时定义了一些匹配规则;basename的查找配对不用于前面系统采用的基于预先定义的字符串形式,而是基于改进的最小编辑距离算法,这样的方式经过试验证明取得了更好的效果。候选双语平行网页对的过滤时除采用了文本长度,网页html结构等特征,还引入了一个基于网页内容的特征即候选双语平行网页文本句子对齐的好坏。在同PTI同样的测试集合上,WPDE系统取得了97%的正确率与94%的召回率。
随着网络信息时代的高速发展,网络资源正以爆炸式的方式不断增长。互联网是现代信息的重要来源,人们可以通过互联网得到大量的信息资源,但互联网中混杂着大量各式各样的数据,如何从互联网中的海量信息中提取有价值的双语数据,是目前数据采集人员和相关企业所面临的重要问题。研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。目前,针对汉菲双语平行语料的语料采集工具和方法还非常欠缺,能进行自动采集的就更寥寥无几。所以现急需一种能自动采集汉菲双语平行语料的方法来解放语料采集人员繁琐的采集工作和为企业提供有价值的语料资源。
发明内容
针对现有技术的不足,本发明提供一种汉菲双语平行语料自动采集的系统及实现方法,建立了一个基于Web的双语语料自动获取系统,从互联网中自动采集网络汉菲双语平行语料,能够自动获取文本级汉菲双语平行语料库和句子级的汉菲双语平行语料库,实现了汉菲双语平行信息自动发现、自动提取、自动整理的双语平行语料采集系统。
本发明是采用以下技术方案实现的:
一种汉菲双语平行语料自动采集的系统,包括汉菲双语平行信息的自动发现模块、自动提取模块、自动整理模块,其特征在于:
(1)自动发现模块:实现汉菲双语平行语料自动发现的功能,制定需要采集语料的关键词组,通过搜索引擎搜索网站,采集网页得到搜索结果,对搜索结果的信息进行过滤和筛选后,将经过滤得搜索结果存储于搜索结果数据库;
(2)自动提取模块:实现汉菲双语平行语料自动提取的功能,通过访问搜索结果数据库里的网页,自动提取汉菲双语平行信息;
(3)自动整理模块:针对自动提取的汉菲双语平行信息,进行数据过滤,并将经过过滤处理后的汉菲双语平行数据存放到汉菲双语平行语料库。
所述自动发现模块的汉菲双语平行语料自动发现工作流程为:制定一组或多组汉菲互译关键词组,通过搜索引擎获取搜索结果,分析搜索结果并以之为目标进行数据获取。
所述自动发现模块的汉菲双语平行语料自动发现设计原则为:
a. 所选关键词组应为特定领域范围内的汉菲互译词组对;
b. 使用的第三方搜索引擎工具为开放式提供搜索服务方;
c. 通过关键词组搜索得到结果后,只保存前n页信息,n与所选关键词的热门程度关联,保存内容包括搜素结果URL地址、搜索结果标题和搜索结果摘要。
所述自动提取模块的汉菲双语平行语料自动提取工作流程为:使用网页机器人对目标网页进行访问,使用对应的汉菲互译关键词组对目标页面内容进行内容定位,从定位点开始,前后遍历并获取页面数据。
所述自动提取模块的汉菲双语平行语料提取原则:
a. 规定访问的页面文件类型只能为“html”、“htm”、“shtml”以及常见的页面文件类型,对非规定类型的页面将不进行访问;
b. 访问目标网页前,网络检查目标网站的robots.txt文件,若目标页面存在于robots.txt文件上,将不对该目标网页进行访问;
c. 要多抽取完整双语数据,在抽取过程中,包含在目标语言数据里的html标签页将视为抽取对象。
所述自动提取模块的工作流程主要包含以下几个步骤:
 (1) 非目标语言信息过滤:分别对采集到的汉菲数据进行字符过滤,主要过滤html标签、网页代码和一些非语言符号,去除采集信息中的噪音数据,得到干净的汉菲双语平行数据;
 (2) 汉菲分词过程:使用汉语和菲律宾语分词工具,对汉语和菲律宾语数据进行分词操作,为后面的数据处理过程提供基础。
所述自动整理模块的工作流程主要包含以下几个步骤:
(1) 长度比和互译匹配率计算:针对自动抽取的数据进行有效过滤,分别对抽取回来的汉菲双语平行数据中的每一组双语数据进行长度比和互译匹配率的计算,将长度差距较大的数据进行过滤,并进行汉菲双语平行数据的互译匹配判断,筛选出正确的平行数据;
(2)将经过处理后的汉菲双语平行数据将存放入汉菲双语平行语料库。
所述汉菲双语平行语料自动采集系统的实现方法为:数据采集服务器、数据处理服务器、数据存储服务器和外网交换机、内网交换机,将自动发现模块嵌入数据采集服务器,自动提取模块、自动整理模块嵌入数据处理服务器,为保证数据安全,使用内外网物理隔离。当数据采集服务器需要访问互联网时,数据采集服务器将与外网交换机连接,并断开与内网交换机的连接。当数据采集服务器需要访问内网时,数据采集服务器将与内网交换机连接,并断开与外网交换机的连接。外网交换机实现外网间的通讯。内网交换机实现内网间的通讯。
数据采集人员将数据采集服务器与外网交换机连接,使数据采集服务器能访问到互联网服务。数据采集人员使用外网台式计算机编排需要采集数据的相关关键词组。确定采集任务后,向数据采集服务器发送启动自动采集请求;数据采集服务器接收台式电脑传输的关键词组数据和任务启动命令后,开始运行数据自动发现程序。通过互联网获取所有关键词组的搜索结果后,将搜索结果保存到本地;数据采集人员将数据采集服务器与外网交换机断开连接,并与内网交换机连接。数据采集人员启动数据处理服务器中的数据自动提取和自动整理程序,数据处理服务器读取存储在数据采集服务器中的搜索结果,进行数据自动提取和自动整理。程序完成工作后,将获取到的所有的双语数据保存于数据存储服务器。
本文的汉菲双语是指汉语和菲律宾语。
汉语(Hànyǔ)又称“华语”,是汉族的母语,亦是中华人民共和国和新加坡的官方语言、联合国官方语言,也是世界上使用人数最多的语言,主要流通于中国、新加坡、马来西亚,以及缅甸、泰国、美国、加拿大、澳大利亚、新西兰、日本等国家的海外华人社区。也是马来西亚、缅甸、美国、加拿大、澳洲、新西兰等国家的通用少数民族语言。
菲律宾语(菲律宾语译Tagalog;英译Filipino),又称塔加洛语、他加洛语或他加禄语,在语言分类上属于南海群岛语系,主要被使用于菲律宾,也广泛运用于马来西亚沙巴州、印度尼西亚北部地区和新加坡。菲律宾宪法于1987年定其为国语。在菲律宾将近170种的本土语言中,菲律宾语是唯一具有官方语言地位的一个语言。
 本发明的突出的实质性特点和显著的进步是:
1、本发明提供的方案,充分利用网页汉菲双语平行语料自动发现技术、网页汉菲双语平行语料自动提取技术和网页汉菲双语平行语料过滤技术,形成汉菲双语平行语料的自动采集的系统;
2、本发明使用的方案能从海量的互联网信息中收集有价值的汉菲双语平行语料并进行分析研究,为汉菲语言研究和机器翻译应用提供重要基础数据,解决了语料采集人员和研究人员所面临的数据来源的问题,为双语语料自动采集的发展和汉菲自然语言处理做出了杰出的贡献;
3、平行语料库是语料库的一种重要类型,汉菲平行语料库的建设目前还是空白,本发明的一种汉菲双语平行语料自动采集的系统及实现方法,其中包括汉菲双语平行信息自动发现、自动提取和自动整理,可以在语言对比、翻译研究、语言教学和词典编纂方面发挥独特作用;
4、应用本发明所提供的方案,能够获取两种语言之间的平行语料,从而解决语言之间语料资源稀缺的问题,并且有利于获得较高质量的翻译规则以构建统计机器翻译系统;
5、在翻译课教学中,利用本发明的平行语料库,可以提供丰富的译例,确定多种译文的可能性,并择优选择,根据平行语料库信息还可以用来验证双语词典、教学词典、语法书中的例证、定义、使用规则和使用环境,从而确定教学重点;
6、汉菲双语平行语料库建设与获取存在着很大的困难,虽然投入了大量的人力、物力和财力,但是汉菲双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域,不适合真实文本应用,鉴于互联网上的大规模双语文本并且具有很好的时效性和覆盖性,本发明使用的系统和方法能从海量的互联网信息中收集有价值的汉菲双语平行语料并进行分析研究,并建成汉菲双语平行语料库,推动相关技术发展和实用化具有重要的意义;
7、利用本发明的系统收集到相关的双语数据与旅游景点、博物馆、科技展览馆等的电子导览设备连接,能够把景区和陈列展示的物品图文并茂的用双语对照的形式表现出来,使游客在边看边听中,汲取知识,了解内涵,享受文化,游客们可以充分了解观赏对象深厚的文化底蕴,同时,景点、展品的丰富内涵在对照浏览后得到升华。
附图说明
图1是本发明汉菲双语平行语料自动采集的系统及实现方法的系统结构图;
图2是本发明汉菲双语平行语料自动采集的方法的流程图;
图3是本发明汉菲双语平行语料过滤的方法的流程图;
图4是作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图;
图5是本发明系统的网络拓扑结构图。
具体实施方式  
在下面的说明书部分中给出本发明实施例的具体实现方式,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。
如图1所示,一种汉菲双语平行语料自动采集的系统,包括汉菲双语平行信息的自动发现、自动提取、自动整理,首先是汉菲双语平行数据自动发现过程,制定需要采集语料的关键词组,通过搜索引擎搜索网站,采集网页得到搜索结果,对搜索结果的信息进行过滤和筛选后,将经过滤得搜索结果存储于搜索结果数据库;其次是汉菲双语平行语料自动提取过程,通过访问搜索结果数据库里的网页,自动提取汉菲双语平行信息;最后是汉菲双语平行语料自动整理过程,针对自动提取的汉菲双语平行信息,进行数据过滤,并将经过过滤处理后的汉菲双语平行数据存放到汉菲双语平行语料库。
如图2所示,本发明汉菲双语平行语料自动采集的方法,包括以下步骤:
网页汉菲双语平行语料自动发现技术:
首先制定需要采集语料的相关关键词组。这里的关键词组为汉菲互译词组对,例如:以“花bulaklák” 为关键词组起点,通过搜索引擎得到相关搜索结果。
然后进对搜索结果进行过滤。主要是为了通过对搜索结果的信息进行过滤和筛选,提高采集效率和质量,降低采集成本。具体做法如下:
通过URL地址、标题和摘要的对比,判断是否为重复的搜索结果信息。如判断为重复信息,将进行过滤。
通过URL地址分析网页的文件形式,将不属于常见网页文件类型的URL地址去除。只保存常见网页文件类型的URL地址,如“html”、“htm”、“shtml”、“jsp”、“php”等常见网页文件类型。
通过关键词组和摘要的分析进行过滤。主要通过关键词定位摘要信息,通过泰文信息和中文信息的长度比进行过滤,去除单个互译词组对的情况。
最后,将经过滤得搜索结果(包括关键词组、URL地址、标题和摘要)存储于搜索结果数据库。
网页汉菲双语平行语料自动提取技术:
通过访问搜索结果数据库里的网页,自动提取双语信息。具体实现如下:
首先,从搜索结果数据库中获得新加入的待访问的URL地址队列。从URL地址队列中取出一个待访问的URL地址。系统检测目标网站上是否存在robot.txt文件,且该目标URL地址是否存在于robot.txt文件中。若该URL地址不允许访问,系统跳过该URL地址,取出下一个待访问的URL地址。若该URL地址允许访问,系统开始访问并解析该URL地址的网页。
通过解析网页,系统开始自动提取页面的汉菲双语平行数据。具体步骤如下:
1.汉菲双语数据粗提取:
 (1)将整个页面内容读取成一个字符串S。
 (2)将S分解成两个字符串s1,s2。s1保存S中所有的菲律宾语数据。s2保存S中所有的中文数据。
 (3)所有被保存的中文和泰文数据要求保留原本在页面上的排列顺序。并保留所有泰文数据间和中文数据间的HTML标签和语言信息字符,包括标点、数字、特殊符号等(暂不考虑掺杂的英文信息)。
2.HTML标签替换:
将s1,s2里的所有HTML标签统一替换为一个间隔标记<T>。
3.汉菲双语平行数据抽取:
 (1)对s1进行菲律宾语分句,得到字符串数组st1[m]。对s2进行中文分句,得到字符串数组st2[n]。这里的m和n分别表示菲律宾语句子总数和中文句子总数。
 (2)清除st1[m]和st2[n]里的所有间隔标记<T>。
 (3)对st1[m]里的所有字符串进行菲律宾语分词。对st2[n]里的所有字符串进行中文分词。
 (4)过滤掉st1[m]和st2[n]里面只有单个词组成的句子。
 (5)双语平行句对自动匹配方法:
a.从st1[m]中取出一个已分词的菲律宾语句子s_th。
b.利用汉菲互译词典将s_th里每个菲律宾语词组翻译成中文。得到句子s_th_ch。
c.从s_th_ch中取出一个中文词组,在st2[n]里寻找存在该中文词组的所有句子,得到st2[n']。若st2[n]中不存在含有该中文词组的句子,则从s_th_ch中取出下一个中文词组。继续在st2[n]里寻找存在该中文词组的所有句子。若n'> 1;则从s_th_ch中取出下一个词,继续在st2[n']里寻找存在该中文词组的所有句子。循环这一步,直到n' = 1或者s_th_ch中的词已经遍历完。若n' = 1,也就是st2[n']里只存在一个句子。那么,我们将st2[n']里的这一个句子视为该s_th对应的最佳汉语平行句子s_ch。若s_th_ch中的词已经遍历完毕,且n' > 1;则取st2[n']里字符串长度最小的句子作为该s_th对应的最佳汉语平行句子s_ch。
d.将s_th和s_ch作为一个汉菲双语平行句对保存,并将s_th和s_ch分别在st1[m]和st2[n]中去除。
e.若取出的s_th没找到对应的s_ch,则st1[m]取下一个已分词的菲律宾语句子。重复上述步骤。直至将遍历完st1[m]。
f.遍历完st1[m]后,若m > 1,且n > 1,说明可能还存在未匹配的汉菲双语平行句对,则根据上述步骤,反过来从st2[n]去st1[m]中寻找最佳菲律宾语平行句子。
从URL地址队列中取出下一个待访问URL地址,重复上述步骤,直至提取完成所有待访问URL地址的汉菲双语平行语料数据。所有自动提取的汉菲双语平行句对组成待过滤汉菲双语平行数据队列。
汉菲双语平行数据过滤技术:针对自动提取的汉菲双语平行信息,进行数据过滤。其在很大程度上提高采集信息的质量。
如图3所示,网页汉菲双语平行语料过滤的方法,包括以下内容:
信息去噪:为保证数据纯净,再次对采集到数据中的非语言信息进行过滤。包括HTML标签和非语言字符。
采集信息对比过滤:针对已去噪的汉菲双语平行信息进行过滤。对每一组汉菲双语平行信息进行以下操作:
首先进行长度比过滤。分别对菲律宾语信息和中文信息进行分词操作。统计得出菲律宾语信息词组数为a,中文信息词组数位b,设定最小长度比μ和最大长度比λ,设定当a / b > λ或b / a > λ或a / b < μ或b / a < μ时,视为无价值汉菲双语平行数据信息,并将该组信息过滤。
然后,对于符合长度比要求的汉菲双语平行信息进行匹配率过滤。已分词的中文信息中存在M个词组,从中抽取出m个词组,通过汉菲词典将这m个词组翻译成对应的m个菲律宾语词组。这m个菲律宾语词组在已分词的菲律宾语信息中存在n个能与之完全匹配的词组。那么p(cn|th) = m2/(n*M),我们视p(cn|th)为中文信息对应泰文信息的匹配率。同理,p(th|cn)为泰文信息对应中文信息的匹配率。那么,我们规定采集的一组双语平行信息的匹配率为p = (p(th|cn)+ p(cn|th)) / 2。根据对每一组双语平行信息进行匹配率计算,设置最小匹配率ρ,当p < ρ时,对该组双语平行信息进行过滤处理。
最后,根据汉菲双语平行语料库对采集到的汉菲双语平行信息进行查重过滤。经过处理后的汉菲双语平行数据将存放入汉菲双语平行语料库。
应用实施例1:
如图4所示,CPU、ROM和RAM经由总线彼此连接。输入/ 输出接口也连接到总线;输入系统、输出系统、存储系统、通信系统和驱动系统连接到输入/ 输出接口;输入系统,包括键盘、鼠标等;输出系统,包括显示器、扬声器等;存储系统,包括硬盘等;通信系统,包括网络接口卡比如LAN卡、调制解调器等,通信系统经由网络比如因特网执行通信处理;根据需要,驱动系统也连接到输入/ 输出接口;移动储存介质比如磁盘、光盘、磁光盘、USB闪存盘等根据需要连接到驱动系统上,使得从中读出的计算机程序根据需要存储到移动储存介质上。
中央处理单元(CPU)根据只读存储器(ROM)中存储的程序或从存储部分加载到随机存取存储器(RAM)的程序执行各种处理。在RAM中,也根据需要存储当CPU执行各种处理等等时所需的数据。
本发明的指令代码可由以上载体读取并执行时。
应用实施例2:
如图5所示,对网络拓扑结构图进行简要说明:
节点说明
交换机X:外网交换机
交换机Y:内网交换机
服务器A:数据采集服务器(嵌入自动发现模块)
服务器B:数据处理服务器(嵌入自动提取模块、自动整理模块)
服务器C:数据存储服务器
网络通信
为保证数据安全,使用内外网物理隔离,服务器经过防火墙和路由器与Internet连接。当需要服务器A需要访问互联网时,服务器A将与交换机X连接,并断开与交换机Y的连接。当服务器A需要访问内网时,服务器A将与交换机Y连接,并断开与交换机X的连接。
交换机X实现外网间的通讯。
交换机Y实现内网间的通讯。
其工作过程如下:
(1)数据采集人员将服务器A与交换机X连接,使服务器A能访问到互联网服务。数据采集人员使用外网台式计算机编排需要采集数据的相关关键词组。确定采集任务后,向服务器A发送启动自动采集请求。
(2)服务器A接收台式电脑传输的关键词组数据和任务启动命令后,开始运行数据自动发现程序。通过互联网获取所有关键词组的搜索结果后,将搜索结果保存到本地。
(3)数据采集人员将服务器A与交换机X断开连接,并与交换机Y连接。数据采集人员启动服务器B中的数据自动提取和自动整理程序,服务器B读取存储在服务器A中的搜索结果,进行数据自动提取和自动整理。程序完成工作后,将获取到的所有的双语数据保存于服务器C。
应用实施例3:
马尼拉是菲律宾的首都城市和最大的港口,也是著名的观光旅游地,中国每年都有许多人去观光游览,由于当地讲解人员有限,特别是汉语讲解,很难为每位游客提供规范如一的讲解服务,于是在一些比较著名的景点设置电子导游机系统,使用本发明的系统收集到相关的双语数据,可以把景区和陈列展示的物品图文并茂的用汉菲双语对照的形式表现出来,使观众在边看边听中,汲取知识,了解内涵,享受文化。游客们可以充分了解观赏对象深厚的文化底蕴。睹物思情、浮想联翩,景点、展品的丰富内涵在对照浏览后得到升华。
应用实施例4:
马尼拉是菲律宾的首都城市和最大的港口,该城市的博物馆、科技馆、会展中心等室内展馆内,用电子导览系统取代了人工导游以及因噪音大而影响它人游览的高音喇叭,该系统与本发明的系统联网,通过汉菲双语对照的形式对陈列展品的内容以图文并茂的方式展现给游客,使游客在观赏展品的过程中使其内涵得以延伸,更加生动。游客在充分欣赏了展品的外观表象后,又获得了丰富的知识。除此以外,游客还可以通过触摸屏上的按钮,查询展区的位置及路径,自由地享受自助游览的乐趣。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种汉菲双语平行语料自动采集的系统,包括汉菲双语平行信息的自动发现模块、自动提取模块、自动整理模块,其特征在于:
(1)自动发现模块:实现汉菲双语平行语料自动发现的功能,制定需要采集语料的关键词组,通过搜索引擎搜索网站,采集网页得到搜索结果,对搜索结果的信息进行过滤和筛选后,将经过滤得搜索结果存储于搜索结果数据库;
(2)自动提取模块:实现汉菲双语平行语料自动提取的功能,通过访问搜索结果数据库里的网页,自动提取汉菲双语平行信息;
(3)自动整理模块:针对自动提取的汉菲双语平行信息,进行数据过滤,并将经过过滤处理后的汉菲双语平行数据存放到汉菲双语平行语料库。
2.根据权利要求1所述的汉菲双语平行语料自动采集的系统,其特征在于,所述自动发现模块的汉菲双语平行语料自动发现工作流程为:制定一组或多组汉菲互译关键词组,通过搜索引擎获取搜索结果,分析搜索结果并以之为目标进行数据获取。
3.根据权利要求1所述的汉菲双语平行语料自动采集的系统,其特征在于,所述自动发现模块的汉菲双语平行语料自动发现设计原则为:
a. 所选关键词组应为特定领域范围内的汉菲互译词组对;
b. 使用的第三方搜索引擎工具为开放式提供搜索服务方;
c. 通过关键词组搜索得到结果后,只保存前n页信息,n与所选关键词的热门程度关联,保存内容包括搜素结果URL地址、搜索结果标题和搜索结果摘要。
4.根据权利要求1所述的汉菲双语平行语料自动采集的系统,其特征在于,所述自动提取模块的汉菲双语平行语料自动提取工作流程为:使用网页机器人对目标网页进行访问,使用对应的汉菲互译关键词组对目标页面内容进行内容定位,从定位点开始,前后遍历并获取页面数据。
5.根据权利要求1所述的汉菲双语平行语料自动采集的系统,其特征在于,所述自动提取模块的汉菲双语平行语料提取原则:
a. 规定访问的页面文件类型只能为“html”、“htm”、“shtml”以及常见的页面文件类型,对非规定类型的页面将不进行访问;
b. 访问目标网页前,网络检查目标网站的robots.txt文件,若目标页面存在于robots.txt文件上,将不对该目标网页进行访问;
c. 要多抽取完整双语数据,在抽取过程中,包含在目标语言数据里的html标签页将视为抽取对象。
6.根据权利要求1所述的汉菲双语平行语料自动采集的系统,其特征在于,所述自动提取模块的工作流程主要包含以下几个步骤:
 (1) 非目标语言信息过滤:分别对采集到的汉菲数据进行字符过滤,主要过滤html标签、网页代码和一些非语言符号,去除采集信息中的噪音数据,得到干净的汉菲双语平行数据;
 (2) 汉菲分词过程:使用汉语和菲律宾语分词工具,对汉语和菲律宾语数据进行分词操作,为后面的数据处理过程提供基础。
7.根据权利要求1所述的汉菲双语平行语料自动采集的系统,其特征在于,所述自动整理模块的工作流程主要包含以下几个步骤:
(1) 长度比和互译匹配率计算:针对自动抽取的数据进行有效过滤,分别对抽取回来的汉菲双语平行数据中的每一组双语数据进行长度比和互译匹配率的计算,将长度差距较大的数据进行过滤,并进行汉菲双语平行数据的互译匹配判断,筛选出正确的平行数据;
(2)将经过处理后的汉菲双语平行数据将存放入汉菲双语平行语料库。
8.根据权利要求1所述的汉菲双语平行语料自动采集的系统,其特征在于,所述汉菲双语平行语料自动采集系统的实现方法为:设置数据采集服务器、数据处理服务器、数据存储服务器和外网交换机、内网交换机,将自动发现模块嵌入数据采集服务器,自动提取模块、自动整理模块嵌入数据处理服务器;
数据采集人员将数据采集服务器与外网交换机连接,使数据采集服务器能访问到互联网服务,数据采集人员使用外网台式计算机编排需要采集数据的相关关键词组,确定采集任务后,向数据采集服务器发送启动自动采集请求,数据采集服务器接收台式电脑传输的关键词组数据和任务启动命令后,开始运行数据自动发现程序,通过互联网获取所有关键词组的搜索结果后,将搜索结果保存到本地;数据采集人员将数据采集服务器与外网交换机断开连接,并与内网交换机连接;
数据采集人员启动数据处理服务器中的数据自动提取和自动整理程序,数据处理服务器读取存储在数据采集服务器中的搜索结果,进行数据自动提取和自动整理,程序完成工作后,将获取到的所有的双语数据保存于数据存储服务器。
CN201510407496.9A 2015-07-13 2015-07-13 汉菲双语平行语料自动采集的系统及实现方法 Pending CN104933192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510407496.9A CN104933192A (zh) 2015-07-13 2015-07-13 汉菲双语平行语料自动采集的系统及实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510407496.9A CN104933192A (zh) 2015-07-13 2015-07-13 汉菲双语平行语料自动采集的系统及实现方法

Publications (1)

Publication Number Publication Date
CN104933192A true CN104933192A (zh) 2015-09-23

Family

ID=54120359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510407496.9A Pending CN104933192A (zh) 2015-07-13 2015-07-13 汉菲双语平行语料自动采集的系统及实现方法

Country Status (1)

Country Link
CN (1) CN104933192A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677621A (zh) * 2015-12-30 2016-06-15 武汉传神信息技术有限公司 翻译错误的定位方法和装置
CN109902199A (zh) * 2019-03-01 2019-06-18 深圳市伟文无线通讯技术有限公司 一种近场语料采集方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1707476A (zh) * 2005-05-06 2005-12-14 贺方升 辅助翻译搜索引擎系统及其方法
CN102043808A (zh) * 2009-10-14 2011-05-04 腾讯科技(深圳)有限公司 利用网页结构抽取双语词条的方法及设备
CN102930031A (zh) * 2012-11-08 2013-02-13 哈尔滨工业大学 由网页中提取双语平行正文的方法和系统
CN103020043A (zh) * 2012-11-16 2013-04-03 哈尔滨工业大学 一种面向web双语平行语料资源的分布式采集系统
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆系统的构造方法
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1707476A (zh) * 2005-05-06 2005-12-14 贺方升 辅助翻译搜索引擎系统及其方法
CN102043808A (zh) * 2009-10-14 2011-05-04 腾讯科技(深圳)有限公司 利用网页结构抽取双语词条的方法及设备
CN102930031A (zh) * 2012-11-08 2013-02-13 哈尔滨工业大学 由网页中提取双语平行正文的方法和系统
CN103020043A (zh) * 2012-11-16 2013-04-03 哈尔滨工业大学 一种面向web双语平行语料资源的分布式采集系统
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆系统的构造方法
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冯艳卉: "基于Web的大规模平行语料库构建方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
林政: "Web双语平行语料自动获取及其在统计机器翻译中的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677621A (zh) * 2015-12-30 2016-06-15 武汉传神信息技术有限公司 翻译错误的定位方法和装置
CN105677621B (zh) * 2015-12-30 2018-08-17 语联网(武汉)信息技术有限公司 翻译错误的定位方法和装置
CN109902199A (zh) * 2019-03-01 2019-06-18 深圳市伟文无线通讯技术有限公司 一种近场语料采集方法及装置

Similar Documents

Publication Publication Date Title
Malmasi et al. MultiCoNER: A large-scale multilingual dataset for complex named entity recognition
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及系统
Marine-Roig et al. Tourism analytics with massive user-generated content: A case study of Barcelona
Resnik et al. The web as a parallel corpus
CN105045862A (zh) 汉外双语平行语料自动采集的系统及实现方法
WO2006133538A1 (en) System and method for ranking web content
CN104268283A (zh) 一种自动解析互联网网页的方法
Evert A Lightweight and Efficient Tool for Cleaning Web Pages.
CN105022728A (zh) 汉老双语平行语料自动采集的系统及实现方法
CN106485525A (zh) 信息处理方法及装置
Yzaguirre et al. Newspaper archives+ text mining= rich sources of historical geo-spatial data
CN104933192A (zh) 汉菲双语平行语料自动采集的系统及实现方法
CN105138548A (zh) 汉泰双语平行语料自动采集的系统及实现方法
KR20050078655A (ko) 동적 키워드 추출과 처리 시스템
Chang et al. Enhancing POI search on maps via online address extraction and associated information segmentation
CN104933195A (zh) 汉缅双语平行语料自动采集的系统及实现方法
CN104933194A (zh) 汉越双语平行语料自动采集的系统及实现方法
CN104965925A (zh) 汉高双语平行语料自动采集的系统及实现方法
CN104933193A (zh) 汉马双语平行语料自动采集的系统及实现方法
Schindling et al. Deepening historical GIS: an integrated database solution for linking people, place and events through unstructured text
CN105045861A (zh) 汉印双语平行语料自动采集的系统及实现方法
CN113268607A (zh) 知识图谱的构建方法和装置
JP5977199B2 (ja) 地域連想語抽出装置、地域連想語抽出方法及び地域連想語抽出プログラム
Dlugolinsky et al. Distributed web-scale infrastructure for crawling, indexing and search with semantic support
Thanadechteemapat et al. Thai word segmentation for visualization of thai web sites

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150923