CN101308512A - 一种基于网页的互译翻译对抽取方法及装置 - Google Patents

一种基于网页的互译翻译对抽取方法及装置 Download PDF

Info

Publication number
CN101308512A
CN101308512A CN 200810126468 CN200810126468A CN101308512A CN 101308512 A CN101308512 A CN 101308512A CN 200810126468 CN200810126468 CN 200810126468 CN 200810126468 A CN200810126468 A CN 200810126468A CN 101308512 A CN101308512 A CN 101308512A
Authority
CN
China
Prior art keywords
text
bilingual
tuples
unit
extract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200810126468
Other languages
English (en)
Other versions
CN101308512B (zh
Inventor
高立琦
王海洲
曹浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Original Assignee
Beijing Kingsoft Software Co Ltd
Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Software Co Ltd, Beijing Jinshan Digital Entertainment Technology Co Ltd filed Critical Beijing Kingsoft Software Co Ltd
Priority to CN200810126468XA priority Critical patent/CN101308512B/zh
Publication of CN101308512A publication Critical patent/CN101308512A/zh
Application granted granted Critical
Publication of CN101308512B publication Critical patent/CN101308512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于网页的互译翻译对抽取方法及装置。在本发明提供的方法中,包括:针对查询的词或者词组,从网页上搜索包含所述词或者词组的文本;从所述文本中提取至少一个具有特殊标识的、包含两种语言的文本对;计算所述文本对的用于排序的数值,根据所述数值,抽取出互译翻译对。本发明提供的装置包括:搜索单元、提取单元以及抽取单元。通过本发明,使得用户通过网页查询词或者词组的译文较为容易。

Description

一种基于网页的互译翻译对抽取方法及装置
技术领域
本发明涉及词典软件技术领域,尤其涉及一种基于网页的互译翻译对抽取方法及装置。
背景技术
在计算机广泛使用的今天,为了满足人们学习外语的迫切需要,一种用于计算机的词典软件应运而生。词典软件收录了传统纸质双语词典的一般内容,为使用计算机的用户学习外语提供了便捷的条件。
在互联网飞速发展的今天,大量的外语新词以及新词组层出不穷,这些新词与新词组往往出现的时间较短,变化较快,生存周期不确定。而人们常常需要了解或者查询这些新词或者新词组,所以,词典软件还需要能够查询到用户希望得知的新词或者新词组的译文,并且及时收录这些新词或者新词组的互译翻译对。
通过现有词典软件技术,查询新词或者新词组包括以下步骤:当用户输入需要查询的新词或者新词组时,词典软件根据输入的新词或者新词组所使用的语言,获取包含输入的新词或者新词组的此种语言的文本(简便起见,称为第一种文本),以及与第一种文本互为译文的、用户想要得知的文本(称为第二种文本)。再从第一种文本中,获取包含需要查询的新词或者新词组的句子,从第二种文本中,获取包含与需要查询的新词或者新词组构成互译的词或者词组的句子。在获取的两种语言的句子中,对于新词或者新词组,计算可能构成互译的翻译对的概率。由于在计算概率的过程中,可能会出现如下情况:将互译翻译对判断错误,将不是需要查询的新词或者新词组的译文当作正确的,计算这样错误的一对互译翻译对出现的概率。但是,这种错误的情况概率较低,而判断正确的互译翻译对计算出的概率较高,将出现概率比较高的情况称为对齐,根据输入的新词或者新词组的对齐结果,抽取出两种不同语言的词或者词组作为互译翻译对。
现有技术的缺点是,在网页上,同时具有第一种文本与第二种文本的情况较为少见,因此,获取较为困难。除此之外,在计算概率的过程中,由于存在上述错误情况,导致得到的互译翻译对不准确,为了保证准确率,需要多次计算概率,造成计算数据量大,耗时的结果。
发明内容
有鉴于此,本发明实施例提供了一种基于网页的互译翻译对抽取方法及装置,以解决现有技术不便于查询与收录用户所需的新词或者新词组的互译翻译对。
一种基于网页的互译翻译对抽取方法,所述方法包括:
针对查询的词或者词组,从网页上搜索包含所述词或者词组的文本;
从所述文本中提取至少一个具有特殊标识的、包含两种语言的文本对;
计算所述文本对的用于排序的数值,根据所述数值,抽取出互译翻译对。
优选地,所述文本对具体为:括号型文本对。
优选地,所述括号型文本对具体为:中英文括号型文本对。
优选地,从所述文本中提取至少一个具有特殊标识的、包含两种语言的文本对的具体实现为:
A1、判断与连续中文字符相邻的后面的字符是否为左括号,且所述左括号后的字符为连续英文字符,如果是,则执行步骤A2,否则,返回步骤A1;
A2、判断与所述连续英文字符相邻的后面的字符是否是右括号,如果是,执行步骤A3,否则,返回步骤A1;
A3、提取所述连续中文字符以及所述连续英文字符构成的文本对。
优选地,所述计算所述文本对的用于排序的数值,根据所述数值,抽取出互译翻译对的具体实现为:
所述文本对生成至少一个双语二元组,所述双语二元组为两种语言组成的二元组;
根据所述双语二元组的特征函数计算所述双语二元组的分值;
从根据分值进行排列的双语二元组中,抽取出所述互译翻译对。
优选地,所述特征函数具体为:频度。
优选地,所述从根据分值进行排列的双语二元组中,抽取出所述互译翻译对的具体实现为:
将所述双语二元组按照分值的降序进行排列;
从按照分值降序排列的双语二元组中,抽取分值大于预设门限值的双语二元组作为互译翻译对。
可选地,在所述文本对生成至少一个双语二元组之前,还包括:
将所述具有特殊标识的、包含两种语言的文本对进行规范。
可选地,在所述从根据分值进行排列的双语二元组中,抽取出所述互译翻译对之后,还包括:
将抽取出的所述互译翻译对还原至原网页格式。
可选地,在所述将抽取出的所述互译翻译对还原至原网页格式之后,还包括:
建立查询所述互译翻译对的索引。
可选地,在从所述文本中提取至少一个具有特殊标识的、包含两种语言的文本对之前,还包括:
将网页上不同编码的文本转换为同一种编码的文本;
所述从所述文本中提取至少一个具有特殊标识的、包含两种语言的文本对的具体实现为:
从所述同一种编码的文本中提取具有特殊标识的、包含两种语言的文本对。
一种基于网页的互译翻译对抽取的装置,所述装置包括:
搜索单元,用于针对查询的词或者词组,从网页上搜索包含所述词或者词组的文本;
提取单元,用于从所述搜索单元搜索的文本中提取至少一个具有特殊标识的、包含两种语言的文本对;
抽取单元,用于根据计算所述提取单元提取的文本对的用于排序的数值,根据所述数值,抽取出互译翻译对。
优选地,所述提取单元用于提取中英文括号型文本对,所述提取单元包括:
第一判断单元,用于判断与连续中文字符相邻的后面的字符是否为左括号,且所述左括号后的字符为连续英文字符;
第二判断单元,用于当第一判断单元判断出左括号且所述左括号后的字符为连续英文字符时,判断与所述连续英文字符相邻的后面的字符是否是右括号;
中英文提取单元,用于当所述第二判断单元判断为右括号时,提取所述连续中文字符以及所述连续英文字符构成的文本对。
优选地,所述抽取单元包括:
双语二元组生成单元,用于根据所述提取单元提取的文本对,生成至少一个双语二元组,所述双语二元组为两种语言组成的二元组;
计算单元,用于根据所述双语二元组生成单元生成的双语二元组的特征函数,计算所述双语二元组的分值;
互译翻译对单元,用于根据计算单元计算出的分值,从根据分值进行排列的双语二元组中,抽取出所述互译翻译对。
优选地,所述互译翻译对单元包括:
排序单元,用于根据计算单元计算出的分值的降序,将所述双语二元组进行排列;
互译翻译对抽取单元,用于从根据排序单元降序排列的双语二元组中,抽取出分值大于预设门限值的双语二元组作为所述互译翻译对。
可选地,所述装置还包括:
规范单元,用于将提取单元提取出的具有特殊标识的、包含两种语言的文本对进行规范。
可选地,所述装置还包括:
还原单元,用于将抽取单元抽取的所述互译翻译对还原至原网页格式。
可选地,所述装置还包括:
索引单元,用于根据所述还原单元还原出的互译翻译对,建立查询所述互译翻译对的索引。
可选地,所述装置还包括:
转换单元,用于将网页上不同编码的文本转换为同一种编码的文本;
所述提取单元用于从所述转换单元转换的同一种编码的文本中提取具有特殊标识的文本对。
可见,本发明具有如下有益效果:本发明提供的方法将具有特殊标识的文本对作为查询的新词或者新词组的背景资料,由于具有特殊标识的文本对在网页中大量存在,并且具有特殊标识的文本对具有明显的标识,例如:括号,所以,获取较为容易,而且大大减少了工作量。除此之外,由于具有特殊标识的文本对往往是两种语言的互译翻译对,通过获取具有特殊标识的文本对,大大提高了互译翻译对的正确率,从而,可以将具有特殊标识的文本对组成双语二元组,通过双语二元组的特征函数计算分值,仅根据分值的排序就可以抽取出互译的翻译对,这样,抽取所要进行的计算量大大降低,而且节约了大量的时间。
附图说明
图1为本发明方法流程图;
图2为提取括号型文本对的方法流程图;
图3为本发明演示效果图;
图4为本发明装置结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
请参考图1,示出了本发明的一种基于网页的互译翻译对抽取方法实施例流程图,可以包括:
步骤101:针对查询的词或者词组,从网页上搜索包含所述词或者词组的文本。
步骤102:从所述文本中提取至少一个具有特殊标识的、包含两种语言的文本对。
步骤103:计算所述文本对的用于排序的数值,根据所述数值,抽取出互译翻译对。
下面结合实施例对图1所示各步骤进行详细说明。
本发明实施例从网页获取文本,从获取的文本中将具有特殊标识的文本提取出来,并组成双语二元组,计算双语二元组出现的频度以及分值,根据分值的计算结果,将双语二元组进行排序,根据实际需要抽取出相应的双语二元组,组成互译翻译对。
本发明实施例提供的方法可用于多种语言的互译,为了便于说明,本文中仅以中英文互译为例进行说明。下面分为各步骤详细说明。本发明实施例可以包括:
A1、输入要查询的词或者词组,从网页上搜索包含所述词或者词组的文本。
A2、下载搜索到的文本,将下载的网页文本进行编码识别,并将不同编码的文本转换为同一种编码的文本。
以中文网页为例,不同网页有不同的编码技术,例如,可以有GBK/GB18030,UFT8以及BIG5,并且,BIG5是港台地区使用的繁体汉字编码技术。为了便于本发明处理,需要将不同网页上不同编码的文本转换为同一种编码的文本,例如,可以转换为GBK文本。当出现有些网页是繁体汉字时,还需要将繁体汉字转换为简体汉字。
A3、提取编码转换后的文本。
A4、从提取的编码转换后的文本中,提取具有特殊标识的文本对。
此处,具有特殊标识的文本对可以是括号型文本对,所谓括号型文本,是指在提取编码转换后的文本中,出现有括号注释形式的文本。
例如,“...木马的全称叫特洛伊木马(Trojan horse),源自于希腊故事...”就属于括号型文本,其中,“木马的全称叫特洛伊木马”是被注释文本,“Trojanhorse”是注释文本。将注释文本和被注释文本的组合称为括号型文本对,比如“木马的全称叫特洛伊木马”与“Trojan horse”组成括号型文本对:<“木马的全称叫特洛伊木马”,“Trojan horse”>。
A5、将提取出的具有特殊标识的文本对进行预处理。
预处理的目的是将括号型文本对进行规范,便于后续处理。预处理可以包括去除冗余信息,对于中文文本,将全角转换为半角以及自动分词。自动分词的作用是将中文的语句转换为词序列,例如,步骤A3中的括号型文本对<“木马的全称叫特洛伊木马”,“Trojan horse”>,其中的中文文本“木马的全称叫特洛伊木马”自动分词后,为“木马的全称叫特洛伊木马”。
对于英文文本,可以将大写改为小写,并去除多于的空格符号。比如,步骤A4中的括号型文本对<“木马的全称叫特洛伊木马”,“Trojan horse”>,其中的英文文本“Trojan horse”修改后,为“trojan horse”。
A6、将具有特殊标识的文本对组成双语二元组,双语二元组为两种语言组成的二元组。
令中文文本C自动分词后的词序列中的词为Cn,Cn-1,...,C1,英文文本为E,则产生的双语二元组可以为:(C1,E),(C2C1,E),...,(Cn-1Cn -2...C1,E)。
A7、将步骤A6中产生的所有相同的双语二元组合并,求合并时各双语二元组的频度,即合并时各双语二元组出现的次数,记为C(Ci...C1,E),其中,1≤i≤n。
A8、根据合并后各双语二元组的频度,计算双语二元组的分值,记为S。
分值的计算公式为括号型文本对的函数,具体为S=f(C,E)=C(C,E)log(|C|+1),C(C,E)表示某个双语二元组的频度,其中的C表示步骤A6中的Ci...C1,|C|表示该双语二元组文本C的文本字数。
需要说明的是,在步骤A8中,还可根据双语二元组的其它特征函数计算分值,分值仍然是C和E的函数,但是,计算分值的公式不限于此。在本实施例和下文中,仅以根据频度计算分值为例进行说明。
A9、根据分值的大小将具有特殊标识的文本对进行排列,根据需要取k个相应的双语二元组作为互译翻译对。
A10、将作为互译结果的互译翻译对进行后续处理。
后续处理可以包括去除标点符号,如果括号型文本对的中文文本中有标点符号,如引号、书名号、横线等,去除这些标点符号。后续处理还可以包括将括号型文本对中的英文文本恢复至原来大小写的格式。
A11、将重复的互译翻译对合并为一个,作为结果的互译翻译对生成双语词典。
A12、建立索引,以便在生成的双语词典中查询。下面结合一个具体实例,对本发明实施例进行详细说明。
在本具体实例中,具有特殊标识的文本对为括号型文本对。具体步骤如下:
B1、输入要查询的词或者词组,从网页上搜索包含所述词或者词组的文本。
B2、下载搜索到的文本,将下载的网页文本进行编码识别,并将不同编码的文本转换为同一种编码的文本。
B3、从提取的编码转换后的文本中,提取含有“(Trojan horse)”或者“(trojan horse)”的文本,在具体实例中,可以包括:
...木马的全称叫做特洛伊木马(Trojan horse)...
...木马,全称特洛伊木马(trojan horse)...
...谁能介绍个比较好点的特洛伊木马(Trojan Horse)专杀工具啊...
...特洛伊木马(trojan horse)简称“木马”...
B4、从B3提取的文本中,提取括号型文本对,请参考图2,示出了提取括号型文本对的方法流程图:
步骤201、输入字符流,即编码转换后的文本。
步骤202、从字符流中取出不含标点的连续中文字符,记为C。
步骤203、在字符流中,在取出的不含标点的连续中文字符的后面取一个字符。
步骤204、判断取出的一个字符是否是左括号“(”,若是,则进入步骤205,否则,返回步骤202。
步骤205、在“(”之后,取不含标点的连续英文字符,记为E。
步骤206、在取得的不含标点的连续英文字符之后,取一个字符。
步骤207、判断步骤206中取得的一个字符是否是右括号“)”,若是,则进入步骤208,否则,进入步骤202。
步骤208、C与E组成括号型文本对。
图2所示提取括号型文本对的过程直到将输入的字符流全部处理完为止。
图2所示提取括号型文本对仅为其中一个方法,适用于括号在中文文本后面,且括号中是英文文本的情况。对于括号在中文文本前面,且括号中是英文文本的情况,或者,括号在英文文本后面,且括号中是中文文本的情况,以及括号在英文文本前面,且括号中是中文文本的情况,图2所示的方法同样适用,不同之处仅在于,对于括号中是中文的情形,提取中英文的先后顺序不同,对于括号在文本前面或者后面的情形,判断左括号右括号的顺序不同。
利用图2所示的步骤,从步骤B3提供的文本中,可以提取如下括号型文本对:
<“木马的全称叫做特洛伊木马”,“Trojan horse”>
<“全称特洛伊木马”,“trojan horse”>
<“谁能介绍个比较好点的特洛伊木马”,“Trojan Horse”>
<“特洛伊木马”,“trojan horse”>
B5、将B4得到的括号型文本对预处理。
对括号型文本对中的中文文本进行自动分词,对括号型文本对中的英文文本进行小写化处理,具体为:
<“木马的全称叫做特洛伊木马”,“trojan horse”>
<“全称特洛伊木马”,“trojan horse”>
<“谁能介绍个比较好点的特洛伊木马”,“trojanhorse”>
<“特洛伊木马”,“trojan horse”>
B6、将B5中各括号型文本对组成双语二元组,具体为:
<“木马的全称叫做特洛伊木马”,“trojan horse”>可以组成如下双语二元组:
(“木马”,“trojan horse”),其中的“木马”即为步骤A5中的C1,“trojanhorse”即为步骤A5中的E,以下双语二元组依次类推;
(“特洛伊木马”,“trojan horse”);
(“叫做特洛伊木马”,“trojan horse”);
(“全称叫做特洛伊木马”,“trojan horse”);
(“的全称叫做特洛伊木马”,“trojan horse”);
(“木马的全称叫做特洛伊木马”,“trojan horse”)。
<“全称特洛伊木马”,“trojan horse”>可以组成如下双语二元组:
(“木马”,“trojan horse”);
(“特洛伊木马”,“trojan horse”);
(“全称特洛伊木马”,“trojan horse”)。
<“谁能介绍个比较好点的特洛伊木马”,“trojanhorse”>可以组成如下双语二元组:
(“木马”,“trojan horse”);
(“特洛伊木马”,“trojan horse”);
(“的特洛伊木马”,“trojan horse”);
(“点的特洛伊木马”,“trojan horse”);
(“好点的特洛伊木马”,“trojan horse”);
(“比较好点的特洛伊木马”,“trojan horse”);
(“个比较好点的特洛伊木马”,“trojan horse”);
(“介绍个比较好点的特洛伊木马”,“trojan horse”);
(“能介绍个比较好点的特洛伊木马”,“trojan horse”);
(“谁能介绍个比较好点的特洛伊木马”,“trojanhorse”)。
<“特洛伊木马”,“trojan horse”>可以组成如下双语二元组:
(“木马”,“trojan horse”);
(“特洛伊木马”,“trojan horse”)。
B7、将B6得到的所有双语二元组中,相同的双语二元组合并,合并后的双语二元组以及合并时各双语二元组出现的次数(即频度)请参见表1所示:
表1
  合并后的双语二元组   频度
  (“木马”,“trojan horse”)   4
  (“特洛伊木马”,“trojan horse”)   4
  (“叫做特洛伊木马”,“trojan horse”)   1
  (“全称叫做特洛伊木马”,“trojan horse”)   1
  (“的全称叫做特洛伊木马”,“trojan horse”)   1
  (“木马的全称叫做特洛伊木马”,“trojanhorse”)   1
  (“全称特洛伊木马”,“trojan horse”)   1
  (“的特洛伊木马”,“trojan horse”)   1
  (“点的特洛伊木马”,“trojan horse”)   1
  (“好点的特洛伊木马”,“trojan horse”)   1
  (“比较好点的特洛伊木马”,“trojan horse”)   1
  (“个比较好点的特洛伊木马”,“trojanhorse”)   1
  (“介绍个比较好点的特洛伊木马”,“trojan horse”)   1
  (“能介绍个比较好点的特洛伊木马”,“trojan horse”)   1
  (“谁能介绍个比较好点的特洛伊木马”,“trojan horse”)   1
B8、根据B7中合并后的各双语二元组的频度,计算频度为4的双语二元组的分值,请参见表2,
表2
  双语二元组   分值
  (“木马”,“trojan horse”)   4.39
  (“特洛伊木马”,“trojan horse”)   7.17
B9、取k为1,则根据分值大小,选取的结果是,选择双语二元组(“特洛伊木马”,“trojan horse”)作为互译翻译对。
B10、对互译翻译对(“特洛伊木马”,“trojan horse”)进行一些后续处理,将(“特洛伊木马”,“trojan horse”)转换为(“特洛伊木马”,“Trojanhorse”)。
B11、建立索引,以便查询。
请参考图3,示出了利用本具体实例的演示结果。输入需要查询的“特洛伊木马”,通过本发明提供的方法,查询出4种英文翻译,而且,还给出了4种翻译的出处。具体为:
1.Trojan horse
......木马的全称叫做特洛伊木马(Trojan horse),来源于希腊故事:据说希腊人藏身在木马内进入了特洛伊城,后来为希腊军队打开了城门,进而获得了战争的胜利......
2.Trojan horse
......不会盗我的游戏帐号的?卡巴斯基清除不了,怎么样清除?·谁能介绍个比较好点的Trojan horse(特洛伊木马)专杀工具啊,我下了好多都没用,怎么杀掉它啊......
3.trojan horse
......木马,全称特洛伊木马(Trojan horse),这个词来源于古希腊神话,在计算机领域是一种客户/服务器程序,是黑客最常用的基于远程控制的工具......
4.trojan horse
......特洛伊木马(Trojan horse)简称“木马”,据说这个名称来源于希腊神话《木马屠城记》......
从上述本发明方法实施例以及具体实例可以看出,本发明提供的方法将括号型文本对作为查询的新词或者新词组的背景资料,由于括号型文本对具有比较特殊的标识--括号,所以,获取较为容易。而且,将括号型文本对组成双语二元组,通过双语二元组的频度及其分值,抽取出互译的翻译对,这样,抽取所要进行的计算量大大降低,而且节约了大量的时间。
请参考图4,示出了本发明的一种基于网页的互译翻译对抽取的装置结构图,可以包括:
搜索单元401,用于针对查询的词或者词组,从网页上搜索包含所述词或者词组的文本。
提取单元402,用于从所述搜索单元搜索的文本中提取至少一个具有特殊标识的、包含两种语言的文本对。
抽取单元403,用于根据计算所述提取单元提取的文本对的用于排序的数值,根据所述数值,抽取出互译翻译对。
下面结合实施例对图4所示装置进行详细说明。
在本实施例中,还可以包括以下单元:
转换单元,用于将网页上不同编码的文本转换为同一种编码的文本。
规范单元,用于将提取单元提取出的具有特殊标识的、包含两种语言的文本对进行规范。
还原单元,用于将抽取单元抽取的所述互译翻译对还原至原网页格式。
索引单元,用于根据所述还原单元还原出的互译翻译对,建立查询所述互译翻译对的索引。
此外,图4中的提取单元可以用于提取中英文括号型文本对,所述提取单元可以包括:
第一判断单元,用于判断与连续中文字符相邻的后面的字符是否为左括号,且所述左括号后的字符为连续英文字符;
第二判断单元,用于当第一判断单元判断出左括号且所述左括号后的字符为连续英文字符时,判断与所述连续英文字符相邻的后面的字符是否是右括号;
中英文提取单元,用于当所述第二判断单元判断为右括号时,提取所述连续中文字符以及所述连续英文字符构成的文本对。
图4中的抽取单元可以包括:
双语二元组生成单元,用于根据所述提取单元提取的文本对,生成至少一个双语二元组,所述双语二元组为两种语言组成的二元组;
计算单元,用于根据所述双语二元组生成单元生成的双语二元组的特征函数,计算所述双语二元组的分值;
互译翻译对单元,用于根据计算单元计算出的分值,从根据分值进行排列的双语二元组中,抽取出所述互译翻译对。
其中,互译翻译对单元可以包括:
排序单元,用于根据计算单元计算出的分值的降序,将所述双语二元组进行排列;
互译翻译对抽取单元,用于从根据排序单元降序排列的双语二元组中,抽取出分值大于预设门限值的双语二元组作为所述互译翻译对。
下面对本实施例各功能单元之间,实现基于网页的互译翻译对抽取所进行的步骤进行详细说明。
搜索单元针对查询的词或者词组,从网页上搜索包含所述词或者词组的文本,下载搜索到的文本后,转换单元将下载的不同编码的文本转换为同一种编码的文本,在转换单元转换后的文本中,取出连续中文字符,第一判断单元判断与所述连续中文字符相邻的后面的字符是否是左括号,若是,取出左括号后面的连续英文字符,第二判断单元判断与所述连续英文字符相连的后面的字符是否是右括号,如果是,中英文提取单元提取所述连续中文字符与所述连续英文字符构成的文本对。
规范单元将中英文提取单元提取的文本对进行规范,即进行预处理,具体请参见方法实施例的步骤A5。
规范单元对文本对进行规范后,双语二元组生成单元将文本对生成至少一个双语二元组,计算单元根据所述双语二元组生成单元生成的双语二元组的频度,计算所述双语二元组的分值,所运用的公式请参见方法实施例的步骤A8,排序单元根据计算单元计算出的分值的降序,对双语二元组进行排序,互译翻译对抽取单元根据所述排序单元的排序结果,抽取出分值大于预设门限值的双语二元组作为互译翻译对。
还原单元将互译翻译对抽取单元抽取的互译翻译对还原至原网页格式,索引单元建立索引,以查询还原单元还原至原网页格式的互译翻译对。
可见,本发明实施例提供的装置通过获取具有特殊标识的文本对,生成双语二元组,根据双语二元组的频度计算其分值,根据分值大小抽取双语二元组,作为互译翻译对。这样,不仅获取较为容易,并且有效减少了计算量,节约了大量的时间。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种基于网页的互译翻译对抽取方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (19)

1、一种基于网页的互译翻译对抽取方法,其特征在于,所述方法包括:
针对查询的词或者词组,从网页上搜索包含所述词或者词组的文本;
从所述文本中提取至少一个具有特殊标识的、包含两种语言的文本对;
计算所述文本对的用于排序的数值,根据所述数值,抽取出互译翻译对。
2、根据权利要求1所述的方法,其特征在于,所述文本对具体为:括号型文本对。
3、根据权利要求2所述的方法,其特征在于,所述括号型文本对具体为:中英文括号型文本对。
4、根据权利要求3所述的方法,其特征在于,从所述文本中提取至少一个具有特殊标识的、包含两种语言的文本对的具体实现为:
A1、判断与连续中文字符相邻的后面的字符是否为左括号,且所述左括号后的字符为连续英文字符,如果是,则执行步骤A2,否则,返回步骤A1;
A2、判断与所述连续英文字符相邻的后面的字符是否是右括号,如果是,执行步骤A3,否则,返回步骤A1;
A3、提取所述连续中文字符以及所述连续英文字符构成的文本对。
5、根据权利要求1所述的方法,其特征在于,所述计算所述文本对的用于排序的数值,根据所述数值,抽取出互译翻译对的具体实现为:
所述文本对生成至少一个双语二元组,所述双语二元组为两种语言组成的二元组;
根据所述双语二元组的特征函数计算所述双语二元组的分值;
从根据分值进行排列的双语二元组中,抽取出所述互译翻译对。
6、根据权利要求5所述的方法,其特征在于,所述特征函数具体为:频度。
7、根据权利要求5所述的方法,其特征在于,所述从根据分值进行排列的双语二元组中,抽取出所述互译翻译对的具体实现为:
将所述双语二元组按照分值的降序进行排列;
从按照分值降序排列的双语二元组中,抽取分值大于预设门限值的双语二元组作为互译翻译对。
8、根据权利要求5所述的方法,其特征在于,在所述文本对生成至少一个双语二元组之前,还包括:
将所述具有特殊标识的、包含两种语言的文本对进行规范。
9、根据权利要求8所述的方法,其特征在于,在所述从根据分值进行排列的双语二元组中,抽取出所述互译翻译对之后,还包括:
将抽取出的所述互译翻译对还原至原网页格式。
10、根据权利要求9所述的方法,其特征在于,在所述将抽取出的所述互译翻译对还原至原网页格式之后,还包括:
建立查询所述互译翻译对的索引。
11、根据权利要求1所述的方法,其特征在于,在从所述文本中提取至少一个具有特殊标识的、包含两种语言的文本对之前,还包括:
将网页上不同编码的文本转换为同一种编码的文本;
所述从所述文本中提取至少一个具有特殊标识的、包含两种语言的文本对的具体实现为:
从所述同一种编码的文本中提取具有特殊标识的、包含两种语言的文本对。
12、一种基于网页的互译翻译对抽取的装置,其特征在于,所述装置包括:
搜索单元,用于针对查询的词或者词组,从网页上搜索包含所述词或者词组的文本;
提取单元,用于从所述搜索单元搜索的文本中提取至少一个具有特殊标识的、包含两种语言的文本对;
抽取单元,用于根据计算所述提取单元提取的文本对的用于排序的数值,根据所述数值,抽取出互译翻译对。
13、根据权利要求12所述的装置,其特征在于,所述提取单元用于提取中英文括号型文本对,所述提取单元包括:
第一判断单元,用于判断与连续中文字符相邻的后面的字符是否为左括号,且所述左括号后的字符为连续英文字符;
第二判断单元,用于当第一判断单元判断出左括号且所述左括号后的字符为连续英文字符时,判断与所述连续英文字符相邻的后面的字符是否是右括号;
中英文提取单元,用于当所述第二判断单元判断为右括号时,提取所述连续中文字符以及所述连续英文字符构成的文本对。
14、根据权利要求12所述的装置,其特征在于,所述抽取单元包括:
双语二元组生成单元,用于根据所述提取单元提取的文本对,生成至少一个双语二元组,所述双语二元组为两种语言组成的二元组;
计算单元,用于根据所述双语二元组生成单元生成的双语二元组的特征函数,计算所述双语二元组的分值;
互译翻译对单元,用于根据计算单元计算出的分值,从根据分值进行排列的双语二元组中,抽取出所述互译翻译对。
15、根据权利要求14所述的装置,其特征在于,所述互译翻译对单元包括:
排序单元,用于根据计算单元计算出的分值的降序,将所述双语二元组进行排列;
互译翻译对抽取单元,用于从根据排序单元降序排列的双语二元组中,抽取出分值大于预设门限值的双语二元组作为所述互译翻译对。
16、根据权利要求12所述的装置,其特征在于,所述装置还包括:
规范单元,用于将提取单元提取出的具有特殊标识的、包含两种语言的文本对进行规范。
17、根据权利要求16所述的装置,其特征在于,所述装置还包括:
还原单元,用于将抽取单元抽取的所述互译翻译对还原至原网页格式。
18、根据权利要求17所述的装置,其特征在于,所述装置还包括:
索引单元,用于根据所述还原单元还原出的互译翻译对,建立查询所述互译翻译对的索引。
19、根据权利要求12所述的装置,其特征在于,所述装置还包括:
转换单元,用于将网页上不同编码的文本转换为同一种编码的文本;
所述提取单元用于从所述转换单元转换的同一种编码的文本中提取具有特殊标识的文本对。
CN200810126468XA 2008-06-25 2008-07-03 一种基于网页的互译翻译对抽取方法及装置 Active CN101308512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810126468XA CN101308512B (zh) 2008-06-25 2008-07-03 一种基于网页的互译翻译对抽取方法及装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200810125774 2008-06-25
CN200810125774.1 2008-06-25
CN200810126468XA CN101308512B (zh) 2008-06-25 2008-07-03 一种基于网页的互译翻译对抽取方法及装置

Publications (2)

Publication Number Publication Date
CN101308512A true CN101308512A (zh) 2008-11-19
CN101308512B CN101308512B (zh) 2011-09-14

Family

ID=40124967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810126468XA Active CN101308512B (zh) 2008-06-25 2008-07-03 一种基于网页的互译翻译对抽取方法及装置

Country Status (1)

Country Link
CN (1) CN101308512B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043808A (zh) * 2009-10-14 2011-05-04 腾讯科技(深圳)有限公司 利用网页结构抽取双语词条的方法及设备
CN102550049A (zh) * 2009-09-25 2012-07-04 雅虎公司 通过动态学习提取规则来获取词表外的翻译
CN102902667A (zh) * 2012-10-12 2013-01-30 曾立人 一种翻译记忆匹配结果显示方法
CN103186645A (zh) * 2011-12-31 2013-07-03 北京金山软件有限公司 一种基于网络的特定资源获取方法和装置
CN103970732A (zh) * 2014-05-22 2014-08-06 北京百度网讯科技有限公司 新词译文的挖掘方法和装置
CN105653516A (zh) * 2015-12-30 2016-06-08 武汉传神信息技术有限公司 平行语料对齐的方法和装置
CN106055543A (zh) * 2016-05-23 2016-10-26 南京大学 基于Spark的大规模短语翻译模型的训练方法
CN109977424A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种机器翻译模型的训练方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102550049A (zh) * 2009-09-25 2012-07-04 雅虎公司 通过动态学习提取规则来获取词表外的翻译
CN102550049B (zh) * 2009-09-25 2016-05-25 雅虎公司 通过动态学习提取规则来获取词表外的翻译
CN102043808B (zh) * 2009-10-14 2014-06-18 腾讯科技(深圳)有限公司 利用网页结构抽取双语词条的方法及设备
CN102043808A (zh) * 2009-10-14 2011-05-04 腾讯科技(深圳)有限公司 利用网页结构抽取双语词条的方法及设备
CN103186645A (zh) * 2011-12-31 2013-07-03 北京金山软件有限公司 一种基于网络的特定资源获取方法和装置
CN102902667A (zh) * 2012-10-12 2013-01-30 曾立人 一种翻译记忆匹配结果显示方法
CN103970732A (zh) * 2014-05-22 2014-08-06 北京百度网讯科技有限公司 新词译文的挖掘方法和装置
CN103970732B (zh) * 2014-05-22 2017-05-10 北京百度网讯科技有限公司 新词译文的挖掘方法和装置
CN105653516A (zh) * 2015-12-30 2016-06-08 武汉传神信息技术有限公司 平行语料对齐的方法和装置
CN105653516B (zh) * 2015-12-30 2018-08-10 语联网(武汉)信息技术有限公司 平行语料对齐的方法和装置
CN106055543A (zh) * 2016-05-23 2016-10-26 南京大学 基于Spark的大规模短语翻译模型的训练方法
CN106055543B (zh) * 2016-05-23 2019-04-09 南京大学 基于Spark的大规模短语翻译模型的训练方法
CN109977424A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种机器翻译模型的训练方法及装置
CN109977424B (zh) * 2017-12-27 2023-08-08 北京搜狗科技发展有限公司 一种机器翻译模型的训练方法及装置

Also Published As

Publication number Publication date
CN101308512B (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
TWI636452B (zh) 語音識別方法及系統
CN107797991B (zh) 一种基于依存句法树的知识图谱扩充方法及系统
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
Tran et al. JAIST: Combining multiple features for answer selection in community question answering
US8612206B2 (en) Transliterating semitic languages including diacritics
Kothari et al. SMS based interface for FAQ retrieval
JP5379138B2 (ja) 領域辞書の作成
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
Jayan et al. A hybrid statistical approach for named entity recognition for malayalam language
CN103927330A (zh) 一种在搜索引擎中确定形近字的方法和装置
CN107797995A (zh) 一种中英文片段语料生成方法
Gadri et al. Information retrieval: A new multilingual stemmer based on a statistical approach
Sahu et al. Twitter sentiment analysis--a more enhanced way of classification and scoring
Kilgarriff et al. Longest–commonest Match
CN112597768B (zh) 文本审核方法、装置、电子设备、存储介质及程序产品
CN104699662B (zh) 识别整体符号串的方法和装置
Naemi et al. Informal-to-formal word conversion for persian language using natural language processing techniques
Kaur et al. Toward normalizing romanized gurumukhi text from social media
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
Plu et al. Revealing entities from textual documents using a hybrid approach
Chaonithi et al. A hybrid approach for Thai word segmentation with crowdsourcing feedback system
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
Lu et al. Language model for Mongolian polyphone proofreading

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BEIJING KINGSOFT OFFICE SOFTWARE CO., LTD.

Free format text: FORMER OWNER: BEIJING JINSHAN SOFTWARE CO., LTD.

Effective date: 20140312

Free format text: FORMER OWNER: BEIJING JINSHAN DIGITAL ENTERTAINMENT SCIENCE AND TECHNOLOGY CO., LTD.

Effective date: 20140312

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100083 HAIDIAN, BEIJING TO: 100085 HAIDIAN, BEIJING

TR01 Transfer of patent right

Effective date of registration: 20140312

Address after: Kingsoft No. 33 building, 100085 Beijing city Haidian District Xiaoying Road

Patentee after: Beijing Kingsoft WPS Office Co., Ltd.

Address before: 100083, Beijing, Haidian District No. 238 North Fourth Ring Road, No. 20, Bai Yan building

Patentee before: Beijing Jinshan Software Co., Ltd.

Patentee before: Beijing Jinshan Digital Entertainment Science and Technology Co., Ltd.

C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Kingsoft No. 33 building, 100085 Beijing city Haidian District Xiaoying Road

Patentee after: Beijing Kingsoft office software Limited by Share Ltd

Address before: Kingsoft No. 33 building, 100085 Beijing city Haidian District Xiaoying Road

Patentee before: Beijing Kingsoft WPS Office Co., Ltd.