CN101246474A - 语句构件装置、构件制作和基于该构件的母语读外文方法 - Google Patents
语句构件装置、构件制作和基于该构件的母语读外文方法 Download PDFInfo
- Publication number
- CN101246474A CN101246474A CNA2008100862296A CN200810086229A CN101246474A CN 101246474 A CN101246474 A CN 101246474A CN A2008100862296 A CNA2008100862296 A CN A2008100862296A CN 200810086229 A CN200810086229 A CN 200810086229A CN 101246474 A CN101246474 A CN 101246474A
- Authority
- CN
- China
- Prior art keywords
- sentence
- cabin
- language
- mould
- storehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种自然语言的处理或转换的装置和方法。针对现有技术计算机的语言文字表达,不同语言文字的字、词、句表意不对等也不统一;机器翻译、文本转换,其结果可读性差,不能表达原文本意的缺点。提供①一种语句构件装置及②语句构件制作方法。用人机交互的技术手段,解决字、词、句表意不对等也不统一的技术问题。产生表意得以对等和统一的语句构件的技术效果。进一步提供③基于语句构件的母语读外文及文本转换方法。解决现有机器翻译、文本转换,其结果可读性差,不能表达原文本意的技术问题。提高译文或转换文本的可读性,其表意能与原文一致;用母语读外文,人人可读;读后生成世界文,可供多语种人们用各自母语读出。
Description
【技术领域】
本发明涉及一种自然语言的处理或转换的装置和方法;特别涉及一种文本转换的装置和方法;即语句构件装置、语句构件制作方法以及基于语句构件的母语读外文的文本转换方法。
【背景技术】
计算机语言文字的信息处理代表是机器翻译、是技术难度的至高点。它的操作对象是文本文件,由计算机的文字处理技术所产生。现有的文字处理技术是把各种语言文字的字符进行编码,然后利用字符代码(内码)生成文本文件。缺点是如此产生的计算机文本文件和纸上的文件一样,只能供各自语种的人们读写、交流。因而不同语种的人们必须借助翻译。机器翻译如《自然语言的计算机处理》冯志伟著,上海外语教育出版社1996年10月出版,其中第八章第一节机器翻译。全文详细阐述了19世纪30年代初法国科学家阿尔楚尼提出用机器来进行语言翻译的想法开始;到1946年世界第一台计算机问世,同年就开始了机器翻译的研究,并一时兴旺起来;1966年11月美国科学院的语言自动处理咨询委员会公布了题为“语言与机器(ALPAC)”的报告,否定了机器翻译并指出机器翻译遇到了难以克服的“语义障碍”;继后机器翻译出现的空前萧条;1970-1976年复苏;以至1976年后的繁荣等等,洋洋两万言,最后指出“1964年,美国ALPAC报告指出的机器翻译遇到的‘语义障碍’至今仍然存在,机器翻译技术至今似乎仍然没有突破性的进展”。“机器翻译系统的实用化和商品化问题面临着严峻的考验”。
大众软件,2004年第二期,作者王槊,采访业界多位专家后报道,《机器翻译,路在何方》一文中写道:“目前的机器翻译主要有两种形式,MT和TM。MT(machine translation)就是我们常见的基于规则的机器翻译软件,其主要用途是为了帮助英文不好的用户提供翻译参考,但准确性不高。MT的关键技术有4个方面:单词分析、语法分析、意义分析和文理分析。它的工作过程是,先把语句分成几个单词,通过存放于机器数据库内的电子字典查清词义,根据语法规则分析语句的意思,并把它变换成概念构造,然后借助语言模型生成目标语言。尽管从原理上来看,要实现这一系列步骤并不困难,但由于语言的特殊性和多样化,以及人工智能技术发展水平的限制,目前要做到不同语种间正确互译是不可能的,这也是为什么现在的机器翻译软件无法满足人们的要求,翻译出来的结果往往令人啼笑皆非的原因。…TM(Translation Memory,翻译记忆),主要面向专业翻译人员和机构设计,以翻译记忆和人机交互为核心,要求使用者具备独立的翻译能力。TM的原理是基于数据库,将翻译过的所有材料以句子为单位存入数据库。翻译时系统自动对电子文档进行分析,100%匹配的句子可以自动替换,部分匹配的句子可根据匹配度提出翻译建议,新句子则通过系统提供的翻译建议进行人工翻译。科学研究表明,翻译中的重复工作量约为30%,TM翻译软件使″相同的句子永远不需要翻译第二遍″,从而提高了工作效率。”但70%还得靠人工…。最后作者指出:“机器翻译技术本身存在的问题是阻碍其发展的硬伤。目前不仅在中国,整个世界范围内机器翻译技术都没有很大的突破。试图用机器通过有限的规则和语料提高翻译准确性,在短期内无法实现。在语言智能化研究理论不成熟的情况下,MT软件研究在技术上碰到瓶颈,无法解决一个单词在不同语言环境下的词义选择问题,同样也无法在复杂多变的语境中正确选择语法规则,因此,翻译水平无法实现明显提高。”
现有技术既然如此,希望在于另辟蹊径!
本发明人认为,对于计算机语言文字信息处理来说,语法、语音、词汇不同不是难题,关键是不同自然语言的字、词、句表意不对等,也不统一;只好让计算机要象人一样理解分析它,致使“‘语义障碍’至今仍然存在,翻译出来的结果往往令人啼笑皆非”。
句型构件理论(本发明人的发现,末公开):
我们明白,电脑还不能象人脑一样理解语义;电脑之长在于存贮和搜索。人脑正好与电脑相反,能理解语义,但存贮和搜索能力都远远不及电脑。人脑与电脑有着很好的互补,但能否实现很好的互补,有懒于语言文字在计算机内的表达。非常庆幸,自然语言的本质就是表意,并且所表之意人类互通。各种语言文字都由字符组成词汇,词汇组成句子,句子组成文章;其本质属性是:句子是表达完整语意的基本单元;不同语言文字的句子可以表达相同的语意。自然语言是整个人类社会发展的产物。人类产生语言文字的时候,由于时空的隔离,人们被分散在许多独立的社会里生活;语言文字也在这许多独立社会里,在各自独立体系内缓慢演变和发展。正因为各种语言文字都在各自的独立体系内缓慢地演变发展而来。不同语言文字之间,语音不同,语法不一样,词汇字符更是形形色色。这也就造成了不同语言文字之间字、词、句表意不对等也不统一。假如不同语言文字之间,字、词、句表意能够对等和统一;不同语言文字之间的翻译和转换就不是什么难事了。如何才能使不同语言文字之间的字、词、句表意能够对等和统一呢?
本发明人从句型着手研究,不是语法书上的句型,是便于计算机操作的句型。经过多年的探讨,得出语句构件理论。这里把语句构件论所涉及的主要论断、与本发明有关的、具有特定意义的概念定义和解释如下:
句子——在自然语言里,表达完整语意的基本单元称为句子;不同语言文字的句子可以表达相同的语意。句子可分为句型、句舱两部分,一个句型至少包含一个句舱。
句型——出自一类句子的抽象,在句子中相对稳定,体现句子基本语意及类属;构成该类句子基本结构框架部分称句型。句型体现句子基本语意及类属是面向全人类的、跨语种的;而其基本结构框架是面向具体自然语言的,并包揽着自然语言复杂、个性化的语法现象。
句舱——镶嵌在句型这个基本结构框架上的那些灵活的可替换部分称为句舱。句舱接受句型的选择和制约;句舱可用意群串填充或替换,形成丰富多彩的、具体的句子。句舱个数、其语意内容是面向全人类的、跨语种的;但其在句型基本结构框架中的位置、次序和用以填充的意群串是面向具体自然语言的;句舱即使有语法现象也极为简单。
句型句舱举例解释(#示行号):
1# 只要会句型(01074)2个舱
2# 只要你{1},你就会{2}。 1{坚持不懈} 2{成功}
3# {1} and you will{2}. 1{Persevere}2{succeed}
4# Если{1},то{2}. 1{вьIнастаиваете}2{будетесуспехом}
5# 略(其它语种)
6# 象一句型(00892)4个舱
7# {1}象{4}一样{3}{2}吗? 1{约翰}4{亨利}3{努力}2{工作}
8# Does{1}{2} as{3}as{4}? 1{John}2{work}3{hard}4{Henry}
9# {1}{2}так{3}как{4}? 1{Работает}2{джон}3{усерно}4{Γенли}
10# 略(其它语种)
11# 的高句型(00922)3个舱
12# {2}的{1}高于{3}。 2{智慧}1{价值}3{红宝石}
13# The{1}of{2}is above{3}. 1{price}2{wisdom}3{rubies}
14# {1}{2}вьпце{3}. 1{Стоимость}2{мудрости}3{рубина}
15# 略(其它语种)
上例①1#6#11#三行各表示三个句型的表示基本语意和类属,面向世界、跨语种部分;其中如“只要会句型”表示类属和基本语意,(01074)表示句型号,是意通代码低位字十进制数。
②2~5#、7~10#、12~15#表示三个句型的结构框架,是面向具体自然语言的。每行的左前部分是句型的框架结构,花括号内是句舱;右后部分是相应句舱及内容例。其中2#7#12#面向中文;3#8#13#面向英文;4#9#14#面向俄语;5#10#15#面向其它语种等。
③上述举例花括号内或其前面的数字为句舱号。句舱的个数(如1#有2个舱、6#有4个舱),和各旬舱表示的语意是面向世界、跨语种的;而其在句型框架结构中的位置、次序、用以填充的意群串是面向语种的(如7~9#中的{2}在中英俄文句型内的位次不同;填充的意群串分别是:工作、work、Джон)。
对于语法而言,复杂的语法现象都揽在句型上;句舱即使含有语法也极其简单。上述就是句型、句舱的定义和解释的简洁举例。
句舱由意群统领的意群串填充或组成(也可初步近似地理解为由词串填充或组成)。但句舱的大小有较大差别。最小的句舱只包含一个意群串;最大的句舱可以包含一个从句或分句。我们把句舱分为简单句舱和复杂句舱两种:
意群——意群是自然语言的字、词、词组或短语之“意”的对等和统一;是人类思维活动的基本单元。意群无语种之限,属于全人类;也随人类社会发展而代谢着。
意群串——意群在语言文字里相应的表示称意群文字串,简称意群串。意群串分单串、复串两种;只含有一个原有词串的为单串(如图5a中的英文串);由两个或两个以上原有词串组成,并用“_”相连为复串(如图5b中的英文串)。
简单句舱——除不表意虚词外不超过三个意群串的句舱称简单句舱(如图2所标203~204)。英文如“a an the in on to and”等不表意时忽略不计;中文的量词同样不计。其它语种如此类推。不同语种之间,这三个串只要求有相应的、语意相同的串就可以,不要求它们前后次序的一致。
复杂句舱——大于简单句舱,含有舱模的句舱称复杂句舱。
上文所列举例句的句舱都属于简单旬舱。下面这个例句含有复杂句舱:
1{the fisherman}consents to 2{return the_feather_suit},on condition that3{fairy dance and play heavenly music for him}.
在3{仙女为他跳舞并演奏天上的乐曲}的条件下,1{渔夫}答应2{归还羽衣}。
本例句舱1、句舱2都是简单句舱,句舱2英文含复串;旬舱3大于简单句舱,含有舱模,属于复杂句舱。
舱模和舱眼——进一步剖析复杂旬舱的内容;得出如同句型的框架结构部分称舱模;镶嵌在舱模框架结构上的可替换部分称舱眼。句舱和舱眼是上、下位概念;但简单句舱和舱眼的大小相等,同样是除不表意虚词外不大于三个意群串。
如上例句舱3{fairy dance and play heavenly music for him} 3{仙女为他跳舞并演奏天上的乐曲}利用句型理论剖析,可得出舱模:
(00205){1}+{2}+and+{3}+for him
{1}+为他+{2}+并+{3}
其中(00205)是舱模号;这个舱模包含3个舱眼,三个舱眼的内容都不大于三个意群串:
3{1{fairy}2{dance}and 3{play heavenly music}for him}3{1{仙女}为他2{跳舞}
并3{演奏天上的乐曲}}
小习语——过于简短不足以分出句型、句舱的句子为小习语。如:“How do you do?您好!Get away!滚开!”等等。
语句构件——语句构件是不同语言文字之间,字、词、句表意的对等和统一。根据自然语言之表意人类互通,剖析比对多语句对;得出表意对等和统一的句型、舱模、意群串和小习语等语句构件。经建库编码后的语句构件可以是组装句子的另部件或对句子进行编码的标准件。语句构件包括句型构件、舱模构件、意群串构件和小习语构件。
意通代码——面向多语种,语意相等、互通的语句构件的统一编码称意通代码。
世界文——由意通代码生成,体现多文种语意互通,并可进行多文种读出或文本转换特殊的文本文件,这种特殊的文件有望通用于世界而称世界文。
句型构件理论简化了自然语言的复杂性、又适应它的灵活性;并化解它们之间语法不一致难题。然而,我们把①语法分析、语义理解分配给人脑。组织专家根据句型原理,对句子进行句型、意群串两个层面的语意剖析、比对整理。这些需要理解的艰难的也是一劳永逸的事由人脑完成。同时②把经常性的、单调、繁琐的记忆、搜索、匹配等工作交给电脑。让计算机提供一个便捷的操作的平台,利用人机交互的形式,让人脑、电脑能够很好地互补。把剖析、比对过程中产生的句型、舱模、意群串和小习语等语句构件建库保存,并统一编制意通代码,如此产生语句构件库。
语句构件库存贮的是语句构件。这些语句构件,是多种语言文字之间表意得以对等的、可以组装、拼接成句子的(图2)。我们可以利用这些构件组装句子;也可以把句子利用这些构件来编码,利用与它们相匹配的意通代码生成世界文等。在这过程中计算机只要做简单的查表、判断;编码或者译码等操作就可了。基于语句构件进行自然语言的翻译、转换;或者文本转换等;得到的译文或所转换出来的文本不但可读性好,而且表意能与原文一致。
【发明目的】
本发明要解决的技术问题是:
1、现有计算机的语言文字表达,对不同语言文字的字、词、句表意不对等也不统一;
2、现有机器翻译、文本转换;其结果可读性差,不能表达原文本意。
本发明的目的在于克服现有技术的不足,提供①一种语句构件装置及②语句构件制作方法;用人机交互的技术手段,解决现有计算机的语言文字表达,即解决不同语言文字的字、词、旬表意不对等也不统一的技术问题。从而产生贮存于语句构件库的、不同语言字、词、句表意得以对等和统一的语句构件的技术效果。
本发明的进一步目的是提供③一种基于语句构件的母语读外文的文本转换方法;解决现有机器翻译、文本转换,其结果可读性差,不能表达原文本意的技术问题;从而提高译文或转换文本的可读性,表意能与原文一致的技术效果。转换的同时还生成世界文,产生可多语种读出的技术效果。大大改观了现有字处理文本只供本语种人们读写交流的现状。
【技术方案】
本发明解决其技术问题所采用的技术方案是:
<一>、提供一种语句构件装置,包括CPU和用于存放响应查询的相关索引表的原有部102,其特征在于还包括:
语句构件存储部101,含有包括用电子数据形式构成的、存储了多语种语意对等的语句构件的语句构件库:
句型库300,用于存储句型构件,有句型码、英文句型、中文句型、俄文句型字段,其包含至少一个记录,相同语意的句型同处一个记录,相应文种的句型存储在相应文种句型字段内,句型码代表了同一记录内各文种句型字段内的各文种句型的语意;
舱模库400,用于存储舱模构件,有舱模码、英文舱模、中文舱模、俄文舱模字段,其包含至少一个记录,相同语意的舱模同处一个记录,相应文种的舱模存储在相应文种舱模字段内,舱模码代表了同一记录内各文种舱模字段内的各文种舱模的语意;
意群串库500、502,用于存储意群串构件,有意群码、英文串、中文串、俄文串字段,其包含至少一个记录,相同语意的意群串同处一个记录,相应文种的意群串存储在相应文种串字段内,意群码代表了同一记录内各文种串字段内的各文种意群串的语意;
习语库600,用于存储小习语构件,有习语码、英文习语、中文习语、俄文习语字段,其包含至少一个记录,相同语意的小习语同处一个记录,相应文种的小习语存储在相应文种习语字段内,习语码代表了同一记录内各文种习语字段内的各文种习语的语意;
意通代码编制部103,与语句构件存储部101相连,用于接收构件添加部106的通知,仅当上述四个库任何之一出现新记录时,把当前库代表数作高位字加上当前库记录号生成意通代码,并填入当前库的某某码字段,作为语句构件统一的双字节定长的多语种语意互通的意通代码,意通代码对于当前库当前记录内各语种构件的同一语意表示是唯一的;
构件读出部104,与语句构件存储部101相连,用于接收读出命令,以意通代码所含数段确定某库某记录,并到相应库相应记录读出所需要的语种构件;
构件匹配给出部105,与语句构件存储部101相连,用于接收匹配命令,根据所给语种的句子或句舱内容以及当前操作点的指引,在相应构件库相应语种索引字段查询匹配,给出匹配的所需要的语种构件或返回无匹配信号;
构件添加部106,分别与语句构件存储部101、意通代码编制部103相连,用于接收添加新构件命令,在查询证实相应构件库没有相同构件后,将新构件添加到相应构件库的相应语种构件字段内,当给一个新记录添加新构件时,同时发信息通知意通代码编制部103;
构件库操作控制、接口部107,通过构件读出部104、构件匹配给出部105、构件添加部106与语句构件存储部101相连,接收基于本语句构件的各种应用的调用或接收相关命令进行操作,返回调用者所需语句构件,或通过本接口与基于语句构件的其它应用装置相连接。
所述的语句构件装置中的语句构件:
语句构件通过专家操作、人机交互的方式,来自剖析比对双语对训练样本语料得到;
语句构件的另一个来源是用户的反馈信息经专家审核后再加入;
语句构件是用于组装语言句子的另部件、或对句子进行编码的标准件,包括如下四种:
①句型构件201,301,用于构成句子的基本结构框架,代表了该类句子基本语意类属,
也决定了该类句子所含句舱的位次和个数,并包揽了该类句子的较复杂的语法现象;
②舱模构件202,401,用于构成复杂旬舱的基本结构框架,代表了该类旬舱基本语意类属,也决定了该类句舱所含舱眼的位次和个数,并包揽了该类旬舱的较复杂的语法现象;
③意群串构件501、503,是由意群串充当的构件,用于填充简单句舱203~204或舱眼205~207的构件,简单句舱与舱眼是上、下位概念而大小一样,都是除不表意虚词外不超过三个意群串;
④小习语构件601,由过于简短不足以分出句型、句舱的句子充当小习语构件,用于直接构成简短的句子。
所述的语句构件装置中的语句构件库:
库内所包括文种,除英文、中文、俄文外,每增加一个文种,首先应将句型库、舱模库、意群串库、习语库分别依次各增加一个某文句型、某文舱模、某文串、某文习语字段,新加文种构件只有与已有文种构件语意相同的才能填加在同一个记录上;
提取其中句型库、舱模库、意群串库、习语库中的某文句型、某文舱模、某文串或某文习语和某某码两个字段构成某某语言库、第一语言库或第二语言库,用于语言翻译或文本转换。
<二>、提供一种语句构件的制作方法,利用相同内容的双语或多语种文字版本的语料作为训练样本,利用人机交互的方式进行句型、句舱两个层面的剖析比对,得出字、词、句表意得以对等和统一的语句构件,包括如下步骤:
S1.利用相同内容的双语或多语种文字版本的语料作为训练样本,每轮选A、B双语作为一个样本对,其中A语分配给拼音文字或已经比对过的文种,B语可以分配给拼音文字也可分配给表意文字以及新加入的文种;
第一轮双语对训练样本的剖析比对,其中双语对样本的A语为英文,B语为中文,从第二轮开始新语对中必须其一是已经进行过剖析比对的,如当加入俄文时,只能取中俄或英俄语料作为双语对训练样本,第二轮剖析比对的双语对样本中A语应是已比对过的中文或英文,B语应是新加的俄文;
每一轮的训练语料样本应大到新增句型/句例比<1%后方可考虑增加新语种、进行次一轮的剖析比对,另一方面,可以根据训练样本语料的行业来源或应用范围来源来标记、划分句型库、舱模库、意群串库、习语库来构成相应分库,用于行业或专用版本;
S2.句型层面剖析比对,读取双语样本句对,划分出句型、句舱,把句型作为句型构件存入句型库,把不足以分出句型、句舱的小习语作为小习语构件存入习语库;
S3.句舱层面剖析比对,把已经划分出句型、句舱的样本句例对,依次取出句舱内容,进一步划分出舱模、舱眼,把舱模作为舱模构件存入舱模库,把经过意群对齐的舱眼或简单句舱的内容以意群串为单元作为意群串构件存入意群串库;处理完所有句舱,接着下一个的双语样本句对处理、接续执行步骤S2。
所述语句构件的制作方法中的句型层面剖析比对的步骤S2进一步包括如下步骤:
S21.读入一个双语样本句对;
S22.调用配句型子程序查找句型库返回A、B语匹配句型,若否、没有匹配句型,执行步骤S23,若是、有匹配句型执行步骤S26;
S23.以当前双语样本句对为例制作新句型,弹开一窗口,上横行显示A语句、下横行显示B语句,横行下再显示挖旬舱、存句型两个命令按钮,并提示专家点击A、B语例句的待挖句舱的首尾点,挖句舱计数器N=0;
S24.当接收到挖句舱命令按钮被点击后,N=N+1,检查A、B语是否都被点击两个点以及这两个点是否有效,若否,提示重作,如果点击正确并且有效,将A、B语句两点之间的内容挖去并填入“[N]”,该轮挖句舱结束,下一轮重复步骤S24再挖下一个句舱;
S25.当接收到存句型命令按钮被点击并且N≥1,表示挖句舱制作新句型操作完毕,清除步骤S23、S24的显示,把两个新句型作为句型构件分别写入句型库A文句型、B文句型字段,如果接收到存句型命令按钮被点击、但N=0,表示当前双语样本句对不足以分出句型、句舱而被判定为小习语,清除步骤S23、S24的显示,把两个小习语作为小习语构件分别写入习语库A文习语、B文习语字段;
S26.把当前双语样本例句对号入座地填入当前匹配句型、或填入当前新作句型,作为已经划分出句型、句舱的样本句例对存盘备S3步骤读取,再执行步骤S21。
所述语句构件的制作方法中的句舱层面剖析比对的步骤S3进一步包括如下步骤:
S31.读入一个由S26步骤存盘的已经划分出句型、句舱的样本句例对;
S32.取句舱,依次取出已经划分出句型、句舱的样本句例对当中的一个句舱作为当前句舱,开窗口一上部显示A、B语样本句例,下部显示A、B语当前句舱内容;
同时,把A语当前句舱以词串为单元切分并依次填入参考表A语字段,再依次取出一个词串查找意群串库的A文串字段,找到后取出同记录的B文串字段内容,如果该B文串内容在B语当前句舱中含有,把B文串内容填入参考表B语字段,不含有让它为空;
如果意群串库的A文串字段有相同的记录,相应参考表也多一条A语字段有重的记录备选,作完整个参考表,开窗口二显示参考表、组复词命令按钮以及可组复词操作提示;
接受专家点击参考表并在被点记录标志字段作标志;
当组复词命令按钮被点击并且参考表有连续记录被点击,将参考表中有标志记录的A语字段内容以“_”相连组成复词,并把有标志记录合并成一条记录,A语字段填入该复词,B语字段以相等语意的词串填写;
S33.判断当前句舱是否简单句舱,若是执行步骤S37,若否、进一步查询舱模库判断当前句舱是否含有舱模,若否、不含舱模执行步骤S34,若是、该所含舱模作为当前舱模并对号入座地纳入当前句舱内容,执行步骤S36;
S34.开窗口三作为可编辑窗口,将当前双语句舱内容再显示,接受专家以此为基础编写舱模,还显示存舱模命令按钮;
S35.当存舱模命令按钮被点击,并且可编辑窗口已经被编辑过,新编舱模也符合格式要求,将新编A、B语舱模作为舱模构件存入舱模库A文舱模、B文舱模字段,同时,将当前句舱内容对号入座地填入当前舱模,或填入新编舱模作为已经划分出舱模、舱眼的复杂旬舱显示;
S36.依次取出一个舱眼的内容,接续执行步骤S37;
S37.意群对齐,在第二个窗口参考表下显示对齐确定命令按钮,参考表接受专家按实例延伸或增补词义、不改变原有字、单词的前提下加减串长度、粘带附随字、词形变化增补词义项等意群对齐的修改,或优选记录;
S38.当对齐确定命令按钮被点击,表示参考表内A、B语的词串已经意群对齐、即已成意群串,然后逐记录地把A、B语字段内容作为意群串构件存入意群串库的A文串或B文串字段;
S39.如果当前操作的是舱眼,并且当前句舱还有舱眼没有操作,执行步骤S36直到作完当前句舱的所有舱眼,再判断当前已经划分出句型、句舱的样本句例对中是否还有未处理的句舱,是,执行步骤S32继续处理句舱,否,全部句舱处理完毕,执行步骤S31,进行下一轮句对操作。
<三>、提供一种基于语句构件的母语读外文方法,包括如下步骤:
S4.界面,由用户指定母语和源语各是构件库所含的哪一个文种,把屏幕分成上、中、下或前、中、后三个窗口,中部窗口用于显示当前操作旬以及操作中的相关信息,下或后部窗口用于显示源语待读文本,上或前部窗口用于显示已读的母语文本,此外,在提示行显示悔操作、存盘退出等命令按钮以及→、←移词序按钮,或把它们作成浮条紧随中部下或用户可移;
S5.源语句读入,读入源语一个句子作为当前句显示在中部窗口,母语文本显示尾加已处理的前一句内容,源语文本显示减当前旬内容;
S6.利用四个语句构件库对当前句通过查表得出意通代码的编码操作、同时又给出同记录的母语字段内容;
S7.判断处理,如果当前句的全部句舱处理完毕,查询反馈缓存区和命令按钮:
当反馈缓存区不为空,将反馈缓存区的信息加上源语、母语、当前源语句子等信息作成电子邮件反馈到支持网站,清空反馈缓存区,在世界文缓存区存入“反馈句”标志;
当悔操作命令按钮被点击,根据用户点击的欲悔词串,取出悔选择缓存中的相应内容让用户重选词串并作相关修改;
当接收到存盘退出命令时,将世界文缓存区的内容存盘为世界文,文件名=源语文件名.SJW,如果源文未完,文件头中记下源文偏移;
当悔操作、存盘退出命令按钮都没有被点击时,执行步骤S5。
所述一种基于语句构件的母语读外文方法,其中利用四个语句构件库对当前句通过查表得出意通代码的编码操作、同时又给出同记录的母语字段内容的步骤S6进一步包括如下步骤:
S601.判小习语,以当前句查询习语库的源语习语字段,若无,没有找到,执行步骤S602,若有,取出同记录的母语习语字段中的母语小习语,显示在中部窗口,并将同记录的习语码读入世界文缓存区,然后执行步骤S5;
S602.调用配句型子程序,以当前旬查询句型库的源语句型字段,若查到一个匹配的句型,执行步骤S603,如果查到多个匹配句型,在中部窗口下部显示相应的母语句型,接受用户选定后再执行步骤S603,如果一个匹配的句型也没有,存句型库代表数于反馈缓存区;
S603.给出同记录的句型码、母语句型以及源语句型,将母语句型着重显示在中部窗口的上部,把源语句子对号入座地套入源语句型,附注式显示在该窗口母语下方,并把句型码读入世界文缓存区;
S604.取旬舱,从左到右在中部窗口标示母语句型中的当前旬舱,存入当前句舱标号于世界文缓存区,同时标示和取出源语相应句舱内容作为当前句舱内容,判断当前句舱内容是否属于简单句舱,若否,执行步骤S605,若是执行步骤S608;
S605.查配舱模,以当前句舱内容查询舱模库的源语舱模字段,若查到一个匹配的舱模,执行步骤S606,如果查到多个匹配舱模,向下扩展中部窗口,在扩展部显示相应的母语舱模,接受用户选定后再执行步骤S606,如果一个匹配的舱模也没有,存舱模库代表数于反馈缓存区;
S606.给出同记录的舱模码、母语舱模以及源语舱模,将母语舱模着重显示在中部窗口的扩展部,把源语句舱内容对号入座地套入源语舱模,附注式显示在该窗口母语舱模的下方,并把舱模码读入世界文缓存区;
S607.取舱眼,以母语舱模为准从左到右,在母语舱模上逐个标示当前舱眼,存当前舱眼标号于世界文缓存区,同时标示和取出源语相应舱眼内容,执行步骤S608;
S608.词义确定,从左到右读出源语的简单句舱或舱眼中的一个词串,查询意群串库的源语文串字段,若只查到一条相同词串,执行步骤S609,若查到多条相同词串,分别取出它们的同记录母语串字段内容,备份于悔选择缓存,并显示在已扩展的中部窗口下部,接收用户选定后再执行步骤S609,如果一条相同的词串也没有,存当前源语词串于反馈缓存区;
S609.取出当前记录的母语串字段内容填入到当前母语句舱或当前母语舱眼,取出意群码存入世界文缓存区;继续执行步骤S608,直到当前简单句舱或当前舱眼操作完毕;
根据个性丢失表的信息进行当前句舱或舱眼的个性丢失补偿操作;
再根据母语词序表的信息纠正当前句舱或舱眼的母语词序;
最后查询→、←移词序按钮,当→按钮被点击将当前句舱或舱眼用户所点击词串后移于后一词串之后,当←按钮被点击将当前句舱或舱眼用户所点击词串前移于前一词串之前,同时将移后的词序加入母语词序表备用,后续执行步骤S610;
S610.判断,如果当前旬舱还有舱眼未处理,执行步骤S607,若否而当前句子还有句舱未处理,执行步骤S604,若当前句子所有句舱全部处理完毕,后续步骤S7。
所述的一种基于语句构件的母语读外文的方法:
其中作成电子邮件反馈到支持网站,当支持网站接收到来自用户的反馈邮件时,由专家实时处理后,新构件加入相应构件库,并将新构件及相关信息实时反馈给用户,并在用户的参与下替换原“反馈句”标志;
其中将世界文缓存区的内容存盘为世界文,是在用户利用母语读外文的过程中,世界文缓存区被同时实时地存入了句型码、习语码、舱模码、意群码等构件代码,以及旬舱标号、舱眼标号等,将它们存盘生成世界文,利用母语直接阅读外文,读后还生成了世界文,一篇外文只要一人读过,,后面的千千万万人就可以读世界文了,读世界文比母语读外文更快捷、不用干预,语意准确,读出文种用户自选,世界文的多语读出过程只是译码过程,具体步骤是:
①依次逐个取出代码;
②用开关语句将代码分类分别处理;
③其中如果是旬舱标号、舱眼标号,用以指示当前句舱或当前舱眼;
④把句型码、习语码、舱模码、意群码分解为某库某记录号,给出某库、某记录的某读出文种字段内容,如果是意群码则按指示给出到当前句舱或当前舱眼;
⑤接续执行①直到文本结束。
所述的一种基于语句构件的母语读外文的方法,其实是基于语句构件的应用之一,参照其中利用四个语句构件库对当前句的编码步骤、世界文读出的译码步骤,可以产生多种基于语句构件的应用系统:
基于语句构件的世界文生成的方法系统,用于将传统文本转换成世界文,继后可以进行多语种读出;
基于语句构件的文本转换方法,用于将某源语文本转换成某目语文本给出,或转换成多文种给出;
基于语句构件的机器翻译方法,用于将某源语翻译成目语给出,或翻译成多语种。
【有益的效果】
与现有技术相比,本发明的有益效果是:
1、语句构件装置的语句构件存贮部设有四个库,分别存贮句型、舱模、意群串和小习语四类语句构件,只有相同语意的同类构件同处一个记录,同一记录又设计了某某码字段,用以编制意通代码。意通代码不但唯一地代表了同记录同类构件的共同语意,而且可以分解为某库某记录。这样的设计得到构件与构件之间可以直接转换或通过意通代码转换而语意不变的有益效果。
2、句型、舱模构件为句子提供了一个框架,包揽了复杂的语法,决定了所含句舱及舱眼的位次,这就避免了现有技术利用人工智能作句法分析、语法分析之苦。有效益于结果表意能与原文一致。
3、根据训练样本语料的行业来源或应用范围来源来标记,分出相应分库,适宜于行业或专用版本,并且设有支持网站;有益于用户细分,有更适应用户的有益效果。
4、所述语句构件的制作方法的步骤特征,必然产生不同语言文字的字、词、句的表意得以对等和统一而成为语句构件的有益效果。
5、所述语句构件库的特征,比现有技术机器翻译的电子词典、规则库对翻译质量、文本转换质量的贡献更大更可靠;必然使基于语句构件的各种应用,产生译文或转换文本质量提高的有益效果。
6、母语读外文方法是基于语句构件的应用之一。能用母语直接阅读外文,人人可读。而且读后还生成世界文;这样,一篇外文只要一人读过,后面的千千万万人就可以读世界文——不必干预地多语种母语读出;这一直是人们所梦昧以求的。
7、设有网站支持能保证基于语句构件的产品的应用,并建立了用户联系,对服务质量以及版本升级具有益的效果。
【附图说明】
图1是语句构件装置结构示意图;
图2是语句构件示意图;
图3是句型库示意图;
图4是舱模库示意图;
图5a是意群串库(英单串)示意图;
图5b是意群串库(英复串)示意图;
图6是习语库示意图;
图7是句型层面比对流程图;
图8是旬舱层面比对流程图;
图9是基于语句构件的母语读外文方法流程图;
【具体实施方式】
下文参照附图、利用实施例将本发明的内容进一步说明如下:
一、一种语句构件装置
图1是语句构件装置结构示意图。如图1所示,语句构件装置包括:语句构件存储部101、原有部102、意通代码编制部103、构件读出部104、构件匹配给出部105、构件添加部106和构件库操作控制、接口部107等七个部件:
(一)语句构件存储部101,是本装置的中心部件。含有用电子数据形式构成的、存储了多语种语意对等的语句构件的二维数据库表。它们是句型库、舱模库、意群串库和习语库(参附图3~6)四个语句构件库:
1、句型库300,用于存储句型构件,有句型码、英文句型、中文句型、俄文句型字段,如图3所示。其包含至少一个记录,相同语意的句型同处一个记录,相应文种的句型存储在相应文种句型字段内301。这句所述文种句型实际是指句型的框架部分,是面向各自然语言的。其中的花括号表示句舱,中间的数字是该句舱的编号,句舱由意群串填充,句舱在句型中的位置、次序以及填充的意群串都是面向各自然语言的;从图3的库中内容301可以看出,同一个句舱,其标号一样但它在各语种句型中的位置、次序并不一致。句型码字段存放句型码,句型码代表了同一记录内各文种句型字段内的各文种句型的语意。句型体现该类句子基本语意及类属是面向全人类的、跨语种的;它所包含的句舱个数、句舱语意都是面向全人类,跨语种的;面向人类,跨语种的表示就是句型码。也就是说,句型码代表句型语意,影射了各文种句型;各文种句型又可以通过句型码影射另一个文种句型。至于语法是属于各自然语言的,句型的框架部分包揽着自然语言复杂、个性化的语法现象,然而句舱即使有语法现象也极为简单了。
2、舱模库400,用于存储舱模构件,有舱模码、英文舱模、中文舱模、俄文舱模字段,如图4所示。其包含至少一个记录,相同语意的舱模同处一个记录,相应文种的舱模存储在相应文种舱模字段内401。舱模是复杂句舱的框架结构部分,是面向各自然语言的。其中的方括号表示舱眼,中间的数字是该舱眼的编号,舱眼也由意群串填充。舱眼在舱模中的位置、次序以及填充的意群串都是面向各自然语言的;从图4的库中内容401可以看出,同一个舱眼,其标号一样但它在各语种舱模中的位置、次序并不一致。舱模码字段存放舱模码,舱模码代表了同一记录内各文种舱模字段内的各文种舱模的语意。舱模的基本语意,是面向全人类的、跨语种的;它所包含的舱眼个数、舱眼语意都是面向全人类,跨语种的;其表示就是舱模码。也就是说,舱模码代表舱模语意,影射了各文种舱模;各文种舱模又可以通过舱模码影射另一个文种舱模。至于句舱内的语法也是属于各自然语言的,舱模包揽着自然语言的语法现象,然而舱眼即使有语法现象也极为简单。
3、意群串库500、502,用于存储意群串构件,有意群码、英文串、中文串、俄文串字段,如图5a-b所示。其包含至少一个记录,相同语意的意群串同处一个记录,相应文种的意群串存储在相应文种串字段内501、503。意群串是句舱或舱眼的内容,句舱与舱眼是上下位概念,句舱分简单句舱和复杂句舱两种,复杂句舱抽出如同句型的框架结构后就是舱眼。句舱和舱眼是上、下位概念;但简单句舱和舱眼的大小相等,同样是除不表意虚词外不大于三个意群串。拼音文字的意群串有单串复串两种,单串即一个原有词串501,复串是由多于一个原有词串,并以“_”相连而成503。意群码字段存放意群码,意群码代表了同一记录内各文种意群串字段内的各文种意群串的语意,是面向人类,跨语种的;各文种意群串是面向各自然语言的。也就是说,意群码代表意群串的语意,影射了各文种意群串;各文种意群串又可以通过意群码影射另一个文种意群串。
4、习语库600,用于存储小习语构件,有习语码、英文习语、中文习语、俄文习语字段,如图6所示。其包含至少一个记录,相同语意的小习语同处一个记录,相应文种的小习语存储在相应文种习语字段内601。习语码代表了同一记录内各文种习语字段内的各文种小习语的语意。也就是说,习语码代表小习语的语意,影射了各文种小习语;各文种小习语又可以通过习语码影射另一个文种小习语。
上述四个库的结构强调只有相同语意的同类构件才同处一个记录,同一记录又设计了某某码字段,用以编制意通代码。意通代码与同记录的同类构件的相互影射。这样的结构保证了构件与构件之间可以直接转换或通过意通代码转换而语意不变;也就是说,不同语种之间可以借此进行相互转换。上述四个库之间的关系是平列的,它们互不干预又共处语句构件存贮部之中。都要接受其它部件的操作或控制。
(二)原有部102,存贮有关上述四个库的索引文件;也包括原有CPU等。
(三)意通代码编制部103,分别与语句构件存储部101,意通代码编制部103相连。仅当上述四个库任何之一出现新记录时,把当前库代表数:例如习语库=FF00H、句型库=F000H、舱摸库=EF001H、意群串库=0001H(也是这四个库的库标、数值段段标;数段的起点,止点即下一个库标数-1)作高位字加上当前库记录号合成意通代码;并填入当前库的某某码字段,作为语句构件统一的双字节定长的多语种语意互通的意通代码。意通代码对于当前库、当前记录内各语种构件的同一语意的代表是唯一的;
(四)构件读出部104,与语句构件存储部101直接相连,用于接收读出命令,以意通代码所含数段标确定某库某记录,即意通代码数一最小库标数=最小库标数所指库的记录号。然后到相应库相应记录读出所需要的语种构件。
(五)构件匹配给出部105,与语句构件存储部101直接相连,用于接收匹配命令。根据所给语种的句子或句舱内容以及当前操作点的指引,在相应构件库相应语种索引字段查询与其相匹配的记录,给出匹配的所需要的语种构件。如没有匹配记录则返回无匹配信号。
(六)构件添加部106,与语句构件存储部101直接相连。用于接收添加新构件命令,在查询证实相应构件库没有相同构件后,将新构件添加到相应构件库的相应语种构件字段内。当给一个新记录添加新构件时,同时发信息通知意通代码编制部103。
(七)构件库操作控制、接口部107,通过构件读出部104、构件匹配操作部105、构件添加部106与语句构件存储部101相连。用于接收基于本语句构件的各种应用的调用或接收相关命令进行操作,返回调用者所需语句构件,或通过本接口与基于语句构件的其它应用装置相连接。
上文所述语句构件(参附图2及3~6)是用于组装语言句子的另部件,也是对句子进行另部件拆分、编码的标准件。有如下四种:
1、句型构件201,301,用于构成句子的基本结构框架。代表了该类句子基本语意类属,也决定了该类句子所含句舱的位次和个数,并包揽了该类句子的较复杂的语法现象。
2、舱模构件202,401,用于构成复杂句舱的基本结构框架。代表了该类句舱基本语意类属,也决定了该类句舱所含舱眼的位次和个数,并包揽了该类句舱的较复杂的语法现象。
句型和舱模构件都为句子提供了框架结构,包揽了复杂的语法,决定了所含句舱及舱眼的位次,这就避免了现有技术利用人工智能作句法分析、语法分析之苦。有贡献于结果表意能与原文一致。
3、意群串构件501~503,是由意群串充当的构件。用于填充简单句舱203~204或舱眼205~207的构件,简单句舱与舱眼是上、下位概念而大小一样,都是除不表意虚词外不超过三个意群串;
4、小习语构件601,由过于简短不足以分出句型、句舱的句子充当小习语构件。用于直接构成简短的句子。
上文所述的语句构件装置,除已有的相应文种(英文、中文、俄文)外,每增加一个语种,首先应将句型库、舱模库、意群串库、习语库分别依次各增加一个某文句型、某文舱模、某文串、某文习语字段。并且新加文种的构件只有与已有语种构件的语意相同的才能填加在同一个记录上。也即再次强调只有相同语意的语句构件才能共处一个记录。
对于上述四个库,可以只提取二个字段构成相应分库;即提取句型库、舱模库、意群串库、习语库中的某文句型、某文舱模、某文串或某文习语和某某码两个字段,构成某某语言库或第一语言库、第二语言库而应用于语言翻译或文本转换等场合。
上文所述语句构件的来源,其一、是通过专家操作、人机交互的方式,剖析比对双语对
训练样本语料得到。其二、即另一个来源是用户的反馈信息经专家审核后再加入;通过支持网站实现。
二、一种语句构件的制作方法:
语句构件的制作方法:①准备样本语料,取相同内容的双语或多语种文字版本的语料作为训练样本。利用人机交互的方式先②进行句型层面的剖析比对;然后③进行句舱层面的剖析比对。从而得出字、词、句表意得以对等和统一的语句构件,包括如下步骤:
(一)准备样本语料,利用相同内容的双语或多语种文字版本的语料作为训练样本。每轮比对选A、B双语作为一个样本对。其中A语分配给拼音文字或已经比对过的文种;B语可以分配给拼音文字也可分配给表意文字以及新加入的文种。
第一轮双语对训练样本的剖析比对。其中双语对样本的A语为英文,B语为中文。从第二轮开始新语对中必须其一是已经进行过剖析比对的。如当加入俄文时,只能取中俄或英俄语料作为双语对训练样本,第二轮剖析比对的双语对样本中A语应是已比对过的中文或英文,B语应是新加的俄文。这个特征就是上文所强调的,保证相同语意的构件才共处一个记录,是一个强有力的措施。
每一轮的训练语料样本应大到新增句型/句例比<1%后方可考虑增加新语种:例如在操作过程中,一个工作日下来统计,新增的句型数除以新增的样本句对的比例<1%。<1%后再考虑进行次一轮的剖析比对。另一方面,根据训练样本语料的行业来源或应用范围来源来标记。借此划分句型库、舱模库、意群串库、习语库为若干个相应分库。这些分库用于相应行业或专用版本。加上设有支持网站;有益于用户细分;也有益于版本升级。
上述语料的收集过程中、必要时的录入是自然的事。
(二)句型层面剖析比对
图7是句型层面比对流程图。句型层面剖析比对。读取双语样本句对,划分出句型、句舱,把句型作为语句构件存入句型库,把不足以分出句型、句舱的小习语作为小习语构件存入习语库;同时保存已经划分出句型、句舱的双语样本句例对,以备旬舱层面的进一步比对。
具体步骤如图7所示:开始,先读入一个双语样本句对701。然后调用配句型字程序702,查找句型库返回A、B语匹配句型。判有匹配句型703,若是、有匹配句型,下续型例配707;若否、没有匹配句型,续挖句舱作句型操作704。即以当前双语样本句对为例制作新句型,弹开一窗口,上横行显示A语句、下横行显示B语句,横行下再显示挖句舱、存句型两个命令按钮,并提示专家点击A、B语例句的待挖句舱的首尾点,挖句舱计数器N=0。当挖句舱命令按钮被点击后,置N=N+1,检查A、B语是否都被点击两个点以及这两个点是否有效。拼音文字两点间≥一个词串、表意文字≥一个字为有效。若否,提示重作;如果点击正确并且有效,将A、B语句两点之间的内容挖去并填入“{N}”,该轮挖句舱结束,下一轮重复挖句舱作句型操作704再挖下一个句舱。当判断到存句型705命令按钮被点击并且N≥1,表示挖句舱制作新句型操作完毕。清除上述相应显示,进行存句型或存小习语706。把两个新句型作为句型构件分别加入句型库A文句型、B文句型字段。如果这时N=0,表示当前双语样本句对不足以分出句型、句舱而被判定为小习语。那么,清除相应显示,则把两个小习语作为小习语构件分别加入习语库A文习语、B文习语字段。再接续型例配707,把当前双语样本例句对号入座地填入当前匹配句型、或填入当前新作句型,作为已经划分出句型、句舱的样本句例对存盘备句舱层面的剖析比对读取接续。本步骤结束。下一个双语样本句对开始,再执行读入双语样本句对701。
配句型字程序,其优选例是:事先把句型变为句型词串(如把“Does{1}{2}as{3}as{4}?”变为“does as as”),再把例句从左到右,英(拼音文字)逐个单词、中(非拼音文字)逐个字取下,以它们查句型首字或首单词;把符合的句型集于临时库。然后以循环语句再逐个句型考测。循环中又设开关语句,以句型词串空之数作开关语句(如句型词串“doesas as”=2空3段),进入后句型词串每段依次与例句比对,比对后两者都弃去(相同者无影响)。当各段都分别能在例句段中找到为之中选,即是匹配例句的句型,列表给出。如果有数个句型符合,选取所含句型词串最长的那个句型。如果出现串长度相同的情况,接受人工干预。
以下以具体的句例对进一步来说明上述步骤流程:开始,读入一个双语样本句对701,如果读入的句对是“Does John work as hard as Henry?约翰象亨利一样努力工作吗?”:调用配句型字程序702,查找句型库返回A、B语匹配句型。判有匹配句型703,若否、没有匹配句型,续挖句舱作句型操作704步骤。即以当前双语样本句对为例制作新句型。弹开一窗口,上横行显示A语句,“Does John work as hard as Henry?”、下横行显示B语句“约翰象亨利一样努力工作吗?”,横行下再显示挖句舱、存句型两个命令按钮,并提示专家点击A、B语例句的待挖句舱的首尾点,挖句舱计数器N=0。当挖句舱命令按钮被点击后,置N=N+1,检查A、B语是否都被点击两个点以及这两个点是否有效。如“Does|John|work as hard asHenry?”“|约翰|象亨利一样努力工作吗?”(‘|’为被点击处)。它们的点击正确并且有效,将A、B语句两点之间的内容挖去,这时N=1填入“{1}”,为“Does{1}work as hard as Henry?”“{1}象亨利一样努力工作吗?”。存句型命令按钮没有被点击;下一轮重复挖句舱作句型操作704再挖下一个句舱;如“Does{1}|work|as hard as Henry?”“{1}象亨利一样努力|工作|吗?”N=2,填入“{2}”,为“Does{1}{2}as hard as Henry?”“{1}象亨利一样努力{2}吗?”。如果存句型命令按钮没有被点击;继续,N=3、N=4。当为“Does{1}{2}as{3}as{4}?”,“{1}象{4}一样{3}{2}吗?”时,判断到存句型705命令按钮被点击并且N≥1,表示挖句舱制作新句型操作完毕。清除上述相应显示,进行存句型706步骤;把两个新句型作为句型构件“Does{1}{2}as{3}as{4}?”加入句型库A文句型字段;“{1}象{4}一样{3}{2}吗?”加入句型库B文句型字段。再接续型例配707步骤,把当前双语样本例句对号入座地填入当前新作句型,作为已经划分出句型、句舱的样本句例对,如“Does 1{John}2{work}as 3{hard}as 4{Henry}?1{约翰}象4{亨利}一样2{努力}3{工作}吗?”,并存盘保留,备句舱层面的剖析比对读取,本步骤结束。下一个双语样本句对开始,再执行读入双语样本句对701。
假如上面读入的句对是“How do you do?”、“您好!”,当判断到存句型705命令按钮被点击,这时N=0,表示当前双语样本句对不足以分出句型、句舱而被判定为小习语。那么,清除相应显示。存小习语706,把两个小习语作为小习语构件,“How do you do?”加入习语库A文习语、“您好!”加入B文习语字段。再接续型例配707,本步骤结束。下一个双语样本句对开始,再执行读入双语样本句对701。
句型层面比对整理的要点是挖句舱作句型,其中该如何挖、该如何制作句型。要求就是保证可操作性的前提下追求代表性。可操作性即让电脑无需理解、分析做诸如上述的查表、判断、存储等操作。代表性即句型涵盖的旬例多少,可涵盖句例越多代表性越好。句型层面比对过程中要求专家掌握的原则措施如下:
①多语对语义考虑原则
从多语对、至少是双语对的语义上考虑。如果条件许可,自然是取尽可能多的语对同时进行句型提取;正是因为不可能才要求至少是双语对进行。如:
We used to go to the movies about once a week.
通常我们每周大约去看一次电影。
这个句对,英文可以把“go to the movies”,作为一个句舱,但是中文相应的“看电影”中间插有“一次”。“once a week”作为一个句舱,中文的“每周一次”又被其它词隔开。这两种情况都不行,必须在双语对语义上考虑均可才行。这个句对可:
1{We}used to 2{go to the movies about once} a week.
通常1{我们}每周2{大约去看一次电影}。
②代表性考虑原则
句舱的多少、大小直接影响句型的代表性。我们的原则是保证可操作性的前提下追求代表性。关于句舱大小以何为宜,下文解说。这里先解释一下代表性的问题:
How many are there in your family?你家有几口人?
这个句对如果只把“your family”作为句舱;可用“his family;John’s family;your class”等等填充。但是由于“How many”与“family”语义有关联。中文对于“家”问“几口人”;但对于“班级”应问“多少学生”,或“多少人”。这样只把“your family”作为句舱代表性就差。如果把“How many”与“family”作成两个句舱,不但语意上可以相互照应;而且代表性也增加了。
③朴质准确的考虑原则
鉴于意通文本的定位是“朴质准确地传递语义”,当挖旬舱顾此失彼而无耐时,可以修改华丽的译句为朴质直译,再挖句型。如:
There can never be too much deception in war.
兵不厌诈。
该例译句“兵不厌诈”既华丽又简练,但句型采集难以操作。把中文改为朴质直译“战争中再多的诡计也不为过。”再作挖旬舱处理:
There can never be too much 1{deception}in 2{war}.
2{战争}中再多的1{诡计}也不为过。
For all their great size,the elephants moved absolutely noiselessly.
尽管象的身躯庞大,它走动起来却一点声音也没有。
这“一点声音也没有”;很难落实到句型或某个句舱;将它改为朴质直译“走动起来却静静地”问题便迎刃而解了:
For all their 1{great size},2{the elephants}3{moved}absolutely4{noi selessly}.
尽管2{象}的1{身躯庞大},2{它}3{走动}起来却4{静静地}。
④语法简繁的原则
从语法方面考虑,复杂的、个性化的语法现象都揽到句型上;使句舱内语法极为简单。上面所举的例子不难明白这一点。在具体操作上还可以适当增加句舱个数来降低句舱复杂程度,尽量少作大句舱(详下文)。
1{She}never 2{comes}but 1{she}3{brings something for the children}.
1{她}没有一次2{未}不是就3{为孩子们带来一些东西}。
如增加句舱,把句舱{3}改成{3}{4}复杂性就降低了。如:1{She}never 2{comes} but 1{she} brings 3{something} for the 4{children}.1{她}没有一次2{耒}不是就为4{孩子们}带来3{一些东西}。
⑤词性和可替换性的原则
句舱是可以被其它词汇替换的部分,可替换的词汇越多,可替代性越强;间接地使句型的代表性加强。句舱内词汇的词性尽可能局限于数词、名词、形容词、复串,少数情况才考虑其它词类(如动词、副词等)。如果说要给做句舱的词类排优先次序,那首先就是数串、专用串,次则名串、形容词串……,最后考虑动词串。最不考虑的是介词和连词。也就是介词、连词几乎都纳归句型部分。
⑥句型词不宜太少的原则
要求句型采集达到句舱内语法极为简单,复杂语法现象尽揽于句型;挖去句舱后留下的句型,所含句型词不宜太少,因为太少了不便句型的检出。
最理想的情况是每个句舱之前后都有句型词,也就是没有连续句舱的情况。原则是任何一个句型,在任何文种里的框架结构必须有一个或一个以上的文字串作为句型词。不允许在多语对当中,某文种甚至没有句型词,中文因为最简洁,这种情况时有发生,一但发生就得返工,必须避免。
有时连续出现几个句舱,即连续句舱问题。还有是句舱的大小,尽量少作大句舱问题,这些都与句型词不宜太少相关,这些情况在相关标题下阐述。
⑦多连续句舱尽量避免的原则
1{I}2{get to work}at 3{nine o’clock}every morning.
每天早上3{九点钟}1{我}2{开始工作}。
上例英连续出现{1}{2}两个旬舱;相应的中文则变为{3}{1}{2}三个连续旬舱。二个或二个以上句舱相连称连续旬舱;三个或三个以上句舱相连称多连续句舱。连续句舱不但具有句型词太少之弊,套句型还得人工干预。特别是连续三个或更多的情况应尽量避免。如上例减少到两个句舱就无此之虑了:
I 1{get to work}at 2{nine o’clock}every morning.
每天早上2{九点钟}我1{开始工作}。
⑧尽量少作大句舱的原则
句舱有大有小,最小的旬舱只含一个意群串;最大的句舱可以包含一个分句或从句。我们在作句型时,宜尽量少作大句舱。那么,如何掌握这个尽量少,以何为尺度呢?以“只能这样”为准。例如下面句对:
Can,you guess 1{what I was doing}2{this morning}?
你能猜到2 {今天上午}1{我在做什么}吗?
I have forgotten 1{what time}he said he 2{had dinner}3{last night}.
我忘记他说他3{昨天晚上}是1{什么时候}2{吃的晚饭}。
What were you doing when 1{I called you on the telephone}?
1{我打电话给你}的时候,你在做什么?
I have forgotten 1{what he said his address was}.
我忘记1{他说他的住址在哪里了}。
上面四个句对,分别由what、when引出一个从句。第一对可以把主谓、时间状语分开作成两个句舱。第二对可以作成三个句舱。第三对不能将状语分开,只能作成一个句舱;第四对What针对表语提问,也不能分开,只能作成一个句舱。第三、四两对都“只能这样”,这就是少作大句舱要把握的尺度。
⑨挖句舱后的审定原则
挖句舱之后还得认真审定:将句型、以至每个句舱分别审定。先看句型义,一定要都来自句型词,与句舱内容无粘连。然后审定每个句舱,它们必须是可替换的,与句型分开的,不与句型义有粘连。如果某句舱与某句型词有所粘连,必须修改之。例如;
When do you think 1{the meeting will be held}?
你认为1{会议在什么时候召开}?
这样划句型、句舱不对,句舱内容“什么时候”与句型词“When”有粘连。应修改为:
When do you think 1{the meeting}will be 2 {held}?
你认为1{会议}会在什么时候2{召开}?
(三)舱层面剖析比对
图8是句舱层面比对流程图。如图8所示,开始运行,读入已经划分出句型、句舱的双语样本对801。执行取句舱、显示、组复词802步骤,依次取出已经划分出句型、句舱的样本句例对当中的一个句舱,开窗口一上部显示A、B语样本句例,下部显示A、B语当前句舱内容。同时,把A语当前句舱以词串为单元切分并依次填入参考表A语字段,再依次取出一个词串查找意群串库的A文串字段,找到后取出同记录的B文串字段内容。如果该B文串内容在B语当前句舱中含有,把B文串内容填入参考表B语字段,不含有让它为空。作完整个参考表,开窗口二显示参考表、组复词命令按钮以及可组复词操作提示。接受专家点击参考表并在被点记录标志字段作标志。当组复词命令按钮被点击并且参考表有连续记录被点击,将参考表中有标志记录的A语字段内容以“_”相连组成复词,并把有标志记录合并成一条记录,A语字段填入该复词,B语字段以相等语意的词串填写。接续判断是否简单句舱803,若是接续意群对齐808;若否、查询舱模库判断当前句舱是否含有舱模804。若不含舱模执行编写舱模805,开窗口三作为可编辑窗口,将当前双语句舱内容再显示,接受专家以此为基础编写舱模,还显示存舱模命令按钮。若含有舱模,把所含舱模作为当前舱模执行步骤:划分出舱模、舱眼806。当存舱模命令按钮被点击,并且可编辑窗口已经被编辑过,新编舱模也符合格式要求,将新编A、B语舱模作为舱模构件存入舱模库A文舱模、B文舱模字段,同时,将当前句舱内容对号入座地填入当前舱模,或填入新编舱模作为已经划分出舱模、舱眼的复杂句舱显示。
续取舱眼807,依次取出一个舱眼的内容,接续执行意群对齐808步骤。在第二个窗口参考表下显示对齐确定命令按钮,参考表接受专家按实例延伸或增补词义、不改变原有字单词的前提下加减串长度、粘带附随字、词形变化增补词义项等意群对齐的修改,或优选记录。当对齐确定命令按钮被点击,表示参考表内A、B语的词串已经意群对齐、即已成意群串,进行保存意群串808操作,逐记录地把A、B语字段内容作为意群串构件存入意群串库的A文串或B文串字段。如果当前操作的是舱眼,判舱眼完809,否,如果当前句舱还有舱眼没有操作,再执行取舱眼807步骤;直到作完当前句舱的所有舱眼。再判句舱完810,判当前已经划分出句型、句舱的样本句例对中是否还有未处理的句舱,否,还有未处理句舱,执行取句舱802步骤;继续处理句舱。如果全部句舱处理完毕,执行再读入句对801步骤,读入下一个已经划分出句型、句舱的双语样本句对。进行下一轮操作。
下面以具体的句例对进一步来说明上述步骤流程:
开始运行,读入(经句型层面比对过)已经划分出句型、句舱的双语样本对801,例如是“1{the fisherman}consents to 2{return the_feather_suit},on condition that3{fairy dance and play heavenly music for him}.”,“在3{仙女为他跳舞并演奏天上的乐曲}的条件下,1{渔夫}答应2 {归还羽衣}。”这个例句对各有1、2、3,三个句舱。执行取句舱、显示、组复词802步骤,依次取出已经划分出句型、句舱的样本句例对当中的一个句舱,开窗口一上部显示A、B语样本句例,下部显示A、B语当前句舱内容。同时,把A语当前句舱以词串为单元切分并依次填入参考表A语字段,再依次取出一个词串查找意群串库的A文串字段,找到后取出同记录的B文串字段内容。如果该B文串内容在B语当前句舱中含有,把B文串内容填入参考表B语字段,不含有让它为空。作完整个参考表,开窗口二显示参考表、组复词命令按钮以及可组复词操作提示。假如句舱2为当前句舱,当前句舱A语是“return the feather suit”;B语是“归还羽衣”;这时的参考表为:
A语字段:return the feather suit
B语字段:归还 √ √ √
参考表B语有三个记录为空,但对应于“feather”有“羽毛”;对应于“suit”有“衣服”;并且这三个记录都有专家点击的“√”标志。并且复词命令按钮已被点击,将参考表中有标志记录的A语字段内容以“_”相连组成复词,并把有标志记录合并成一条记录,A语字段填入该复词,B语字段以相等语意的词串填写。这时参考表变为:
A语字段:return the_feather_suit
B语字段:归还 羽衣
现在,当前句舱A语是“return the_feather_suit”;B语是“归还羽衣”;接续判断是否简单句舱803,是,接续意群对齐保存意群串808步骤;这时已经是意群对齐,然而保存意群串,把“return”、“归还”,加入意群串库A、B文串字段,如图5a;把“the_feather_suit”、“羽衣”加入意群串库A、B文串字段,如图5b。否,假如当前句舱是句舱3,不是简单句舱,判有无舱模804,查询舱模库判断当前句舱是否含有舱模。否,不含舱模,执行编写舱模805步骤,开窗口三作为可编辑窗口,将当前双语句舱内容“fairy danceand play heavenly music for him”、“仙女为他跳舞并演奏天上的乐曲”再显示,接受专家以此为基础编写舱模,还显示存舱模命令按钮。若含有舱模,把所含舱模作为当前舱模执行步骤:划分出舱模、舱眼806。当存舱模命令按钮被点击,并且可编辑窗口,如这时为“{1}{2}and{3}for him”、“{1}为他{2}并{3}”,已经被编辑过;是新编舱模也符合格式要求,将新编A、B语舱模作为舱模构件存入舱模库A文舱模、B文舱模字段,如图4所示。同时,将当前句舱内容对号入座地填入当前舱模,或填入新编舱模,如:“1{fairy}2{dance}and3{play heavenly music}for him”、“1{仙女}为他2{跳舞}并3{演奏天上的乐曲}”作为已经划分出舱模、舱眼的复杂句舱显示。这个复杂句舱含有3个舱眼。续取舱眼807,依次取出一个舱眼的内容,接续执行意群对齐808步骤。在第二个窗口参考表下显示对齐确定命令按钮,参考表接受专家按实例延伸或增补词义、不改变原有字单词的前提下加减串长度、粘带附随字、词形变化增补词义项等意群对齐的修改,或优选记录。这三个舱眼A、B文都有相对应的原有词串,不用多说明。其中“play”中文原有词典只有“游戏,比赛,运动,赌博,剧本;玩,扮演,播放,进行比赛、播放”等而没有“演奏”接受专家“按实例延伸或增补词义”加上“play”、“演奏”,当前舱眼是舱眼3,参考表为:
A语字段:play heavenly music
B语字段:演奏 天上的 乐曲
当对齐确定命令按钮被点击,表示参考表内A、B语的词串已成意群串,进行保存意群串808操作,逐记录地把A、B语字段内容作为意群串构件存入意群串库的A文串或B文串字段。如果当前操作的是舱眼,判舱眼完809,否,如果当前句舱还有舱眼没有操作,再执行取舱眼807步骤;直到作完当前句舱的所有舱眼。再判句舱完810,判当前已经划分出句型、旬舱的样本句例对中是否还有未处理的旬舱,是,还有未处理句舱,执行取句舱802步骤;继续处理句舱。如果全部句舱处理完毕,执行再读入句对801步骤,读入下一个已经划分出句型、句舱的双语样本句对。进行下一轮操作。
句舱层面比对操作如上述“组复词”,将原有词串以“-”相连成复词(复串);它们的目的是便于更好地体现词义;以便不同文种之间词汇表意的对齐。主要有如下几种情况,要求专家掌握:
①直接词译不能表达时,按意群组成复串
you were gone直译应是“你(是)走”;“了”来源于过去式,故组成复串
“you_were_gone你走了”
call_on_me 来访我 knew_nothing_about_it一无所知
compelled_to_go非去不可
show_himself_in_his_true_colours现出原形、现出本色
②以简洁看齐,复杂表示者组成复串
英“per-mu grain yield,每亩谷物产量”;中为“亩产”。将英组成复串
“per-mu_grain_yield”,向中看齐。又如:
Late_at_night深夜
down_to_the_countryside下乡
fight_it_out_to_the_end斗争到底
③有转义表示一事物,或经常性搭配的组成复串
fell_asleep入睡 knows_nothing一无所知
come_back_from_the_front 下火线
the_sweat_was_pouring_down 汗如雨下;
pictures_it_have_just_taken 近照
put_my_finger_on 指出
④词义有重合或重复的组成复串
very_weil不错; doubts_of_questions疑问:
bear_fruit结果;the_far_distance远处;
经过上述组复词的操作,往往在一个句舱里,部分词串组成了复串,使部分看似复杂的句舱变为简单句舱。组复词也是意群对齐的措施之一,应灵活应用。
句舱层面比对操作如上述“意群对齐”的操作要求专家掌握的原则、措施如下:
①依照实例、延伸或增补词义
Nothing can be 1{wholly beautiful}that is not 2{useful}.凡是未经2{应用的}就不可能1{完美}。
其中″useful″词义有“有用的、有帮手的、有益的”,选它们都不适合;增补“应用的”词义项。
1{She}was 2{strong},for all 1{she}was so 3{small}.1{她}虽然3{瘦小},但很2{结实}。如:其中small小的,增补“瘦小”词义项。
I am very ill.我患重病。把动词“am”增补“患”的词义。
Learn the truth明白真相,Learn增补“明白”词义项。
②不改变原有字、单词的前提下加减串长度,便于拼接
I ask you to teach me every other day.我请你每隔一天来教我。其中″teach″v有“讲授、教授”词义;减词串长为“教”便于拼接,增加“教”词义项。
Sttend school入学;sttend加“入”词义项,简释“加入”;school加“学”词义项,简释“学校”。
③粘带附随词串
如“good好”粘带成“好处、好事、好心、好用”等(中文别附随量词,后者另行处理)。
如“word词”粘带成“词儿”等。
④词形变化增补词义(分词,比较级等表达的语意,增加相应词义),这样可以省略词形分析、处理。
been增补“还是、怎么样”词义; punished增补“受处分”词义;
best增补“最好的”词义; had增补“以前”词义;
done增补“做好了、完成了”词义;villages增补“多个农村”词义;
三、一种基于语句构件的母语读外文方法
图9是基于语句构件的母语读外文方法流程图。如图9所示,开始作一些界面等准备。由用户指定母语和源语各是构件库所含的哪一个文种。把屏幕分成上、中、下或前、中、后三个窗口;中部窗口用于显示当前操作句以及操作中的相关信息,下或后部窗口用于显示源语待读文本,上或前部窗口用于显示已读的母语文本。此外,在提示行显示悔操作、存盘退出等命令按钮以及→、←移词序按钮;或把它们作成浮条紧随中部下或用户可移。然后,运行,源语句读入901,读入源语一个句子作为当前句显示在中部窗口,母语文本显示尾加已处理的前一句内容,源语文本显示减当前句内容。判断小习语902,以当前句查询习语库的源语习语字段。若有,给出小习语903,取出同记录的母语习语字段中的母语小习语,显示在中部窗口,并将同记录的习语码读入世界文缓存区,然后再执行步骤源语句读入901。若无,没有找到,续调用配句型子程序904。以当前句查询句型库的源语句型字段,如果一个匹配的句型也没有,存句型库代表数于反馈缓存区。如果查到多个匹配句型,在中部窗口下部显示相应的母语句型,接受用户选定一个句型。或者只查到一个匹配的句型,给出同记录的句型码、母语句型以及源语句型,将母语句型着重显示在中部窗口的上部,把源语句子对号入座地套入源语句型,附注式显示在该窗口母语下方,并把句型码读入世界文缓存区。接着执行取句舱905步骤,从左到右在中部窗口标示母语句型中的当前句舱,存入当前旬舱标号,即(句型内原句舱标号+FFEOH)于世界文缓存区。同时标示和取出源语相应句舱内容作为当前句舱内容,判断当前句舱内容是否属于简单句舱906。若是简单句舱,执行步骤词义确定909。若否,执行步骤查配舱模907。以当前旬舱内容查询舱模库的源语舱模字段。如果一个匹配的舱模也没有,存舱模库代表数于反馈缓存区。如果查到多个匹配舱模,向下扩展中部窗口,在扩展部显示相应的母语舱模,接受用户选定其一;或只查到一个匹配的舱模;给出同记录的舱模码、母语舱模以及源语舱模。将母语舱模着重显示在中部窗口的扩展部,把源语句舱内容对号入座地套入源语舱模,附注式显示在该窗口母语舱模的下方,并把舱模码读入世界文缓存区。然而后续取舱眼908步骤。以母语舱模为准从左到右,在母语舱模上逐个标示当前舱眼;存当前舱眼标号(舱模上原舱眼标号+FFDOH)于世界文缓存区;同时标示和取出源语相应舱眼内容,执行步骤词义确定909。从左到右读出源语的简单句舱或舱眼中的一个词串,查询意群串库的源语文串字段。如果一条相同的词串也没有,存当前源语词串于反馈缓存区。若查到多条相同词串,分别取出它们的同记录母语串字段内容,备份于悔选择缓存,并显示在已扩展的中部窗口下部,接收用户选定其一;或只查到一条相同词串,执行步骤给出母语串909。取出当前记录的母语串字段内容填入到当前母语句舱或当前母语舱眼,取出意群码存入世界文缓存区;继续执行词义确定909,直到当前简单句舱或当前舱眼操作完毕。
根据个性丢失表的信息进行当前句舱或舱眼的个性丢失补偿911。再根据母语词序表的信息纠正当前句舱或舱眼的母语词序911。并查询→、←移词序按钮。当→按钮被点击将当前句舱或舱眼用户所点击词串后移于后一词串之后;当←按钮被点击将当前句舱或舱眼用户所点击词串前移于前一词串之前;同时将移动后的词序加入母语词序表备用。后续判断912,如果当前句舱还有舱眼未处理,执行步骤取舱眼908。后续判断句结束913,若否,而当前句子还有句舱未处理,执行步骤取句舱905。若当前句子所有句舱全部处理完毕,查询反馈缓存区和命令按钮:当反馈缓存区不为空,将反馈缓存区的信息加上源语种、母语种、当前源语句子等信息作成电子邮件反馈到支持网站;清空反馈缓存区,在世界文缓存区存入“反馈句”标志。当悔操作命令按钮被点击,根据用户点击的欲悔词串,取出悔选择缓存中的相应内容让用户重选词串并作相关修改。当接收到存盘退出命令时,将世界文缓存区的内容存盘为世界文,文件名=源语文件名.SJW;如果源文未完,文件头中记下源文偏移。如果悔操作、存盘退出命令按钮都没有被点击时,接续执行步骤源语句读入901。
下面以实例进一步来说明上述步骤流程:
开始作一些界面等准备。源语句读入901,读入源语一个句子如“Children not Allowed!”作为当前句显示在中部窗口,母语文本显示尾加已处理的前一句内容,源语文本显示减当前句内容。判断小习语902,以当前旬查询习语库的源语习语字段。有,给出小习语903,取出同记录的母语习语字段中的“儿童不许入内!”这个母语小习语,显示在中部窗口,并将同记录的习语码(便于阅读给编码名称及低字位十进制数,下同;如:“习语码0064”)读入世界文缓存区,然后再执行步骤源语句读入901。假如读入的源语句子是“The doctor told hispatient that he would prescribe him some patent medicine on condition that he strictlyfollow his instructions.”,作为当前句显示在中部窗口,母语文本显示尾加已处理的前一句内容“儿童不许入内!”,源语文本显示减当前句内容。判小习语902,以当前句查询习语库的源语习语字段。无,没有找到,续调用配句型子程序904。以当前句查询句型库的源语句型字段,这时只查到一个匹配的句型,给出同记录的句型码、母语句型以及源语句型,将母语句型“{1}告诉他的{2},如果能{4},就可以{3}。”着重显示在中部窗口的上部,把源语句子对号入座地套入源语句型“the {1}told his{2}that{3}on condition that{4}.”,附注式显示在该窗口母语下方“the 1{doctor}told his 2{patient}that 3{he wouldprescribe him some patent medicine}on condition that 4{he strictly follow hisinstructions}.”,并把句型码“句型码001061”读入世界文缓存区。接着执行取句舱905步骤,从左到右在中部窗口标示母语句型中的当前句舱,存入当前句舱标号于世界文缓存区。同时标示和取出源语相应句舱内容作为当前句舱内容,判断当前句舱内容是否属于简单句舱906。若是简单句舱,执行步骤词义确定909。例如:这里母语依次标示句舱1、句舱2;存句舱标号“句舱标号01”、“句舱标号02”;取出源语相应句舱内容“doctor”、“patient”判断都是简单旬舱(一个词串不展开;下有三个串者再展开),词义确定分别为“医生”、“病人”。执行步骤给出母语串909。取出当前记录的母语串字段内容填入到当前母语句舱1、句舱2,成为“1{医生}告诉他的2{病人},如果能{4},就可以{3}。”取句舱,从左到右在中部窗口标示母语句型中的当前句舱,现在应处理句舱4。续取句舱905;取出源语相应句舱内容“he strictly follow his instructions”。判简单句舱906,否,执行步骤查配舱模907。给出同记录的舱模码“舱模码000207”、母语舱模“[1]+他的+[2]”以及源语舱模“he+[1]+his+[2]”。源语句舱内容对号入座地套入源语舱模为“he 1[strictly follow]his2[instructions]”。似句舱1-2处理后的母语是“医生告诉他的病人,如果能4{1[确实地执行]+他的+2[医嘱]},就可以{3}。”接续(这里略丢失补偿911后述)取句舱905,取出句舱3的内容“he would prescribe him some patent medicine”,判简单句舱906,否,执
行步骤查配舱模907。以当前句舱内容查询舱模库的源语舱模字段。只查到一个匹配的舱模“he would prescribe him[1]”;给出同记录的舱模码“舱模码000206”、母语舱模“开[1]给他”以及源语舱模“he would prescribe him[1]”。将母语舱模着重显示在中部窗口的扩展部,把源语句舱内容对号入座地套入源语舱模“he would prescribe him 1[some patentmedicine]”,附注式显示在该窗口母语舱模的下方,并把舱模码“舱模码000206”读入世界文缓存区。然而后续取舱眼908步骤。以母语舱模为准从左到右,在母语舱模上逐个标示当前舱眼;存当前舱眼标号“舱眼标号01”于世界文缓存区;同时标示和取出源语相应舱眼内容,“some patent medicine”。执行步骤词义确定909。从左到右读出源语的舱眼中的一个词串,查询意群串库的源语文串字段。若查到多条相同词串,分别取出它们的同记录母语串字段内容,备份于悔选择缓存,并显示在已扩展的中部窗口下部,接收用户选定其一。这三个串分别如:
some 若干 一些 相当的 几个 ……
patent 专利的 执照 特效 明白的……
medicine 内科的 内服 药 ……
用户选定为“一些特效药”。执行步骤给出母语串909。取出当前记录的母语串字段内容填入到当前母语舱眼为“开1[一些特效药]给他”,取出意群码“意群码008264”、“意群码017655”、“意群码005484”存入世界文缓存区;当前舱眼操作完毕。(这里有“丢失补偿、母语词序911”因未涉及,待下文补述)。母语句为“医生告诉他的病人,如果能确实地执行他的医嘱,就可以3{开1[一些特效药]给他}。”判还有舱眼912,无。再续判断旬结束913,是。
至此,当前句子所有句舱全部处理完毕,查询反馈缓存区和命令按钮:当反馈缓存区不为空,将反馈缓存区的信息加上源语、母语、当前源语句子等信息作成电子邮件反馈到支持网站;清空反馈缓存区,在世界文缓存区存入“反馈句”标志。当悔操作命令按钮被点击,根据用户点击的欲悔词串,取出悔选择缓存中的相应内容让用户重选词串并作相关修改。这已足够清楚完整,所属技术领域的技术人员能够实现。其中悔操作即在词义确定中,从多个词义当中选一时,将当时所属之舱、眼,多个词条全部纳入一个“悔操作表”内,悔操作时在用户所点击的母语句中,根据其所处句舱、舱眼及词串给出同批表中内容,让用户重选并作相应修改。悔操作表有悔批次、句舱号、舱眼号、词串、意群码等字段。舱号、眼号相同,源语串不同悔批号也就不同。
这时,假如接收到存盘退出命令时,将世界文缓存区的内容,如上例2句内容“习语码00064;句型码001061;句舱1号;意群码002131;句舱2号;意群码006386;句舱4号;舱模码00207;舱眼1号;意群码016841;意群码017951;舱眼2号;意群码019882;句舱3号;舱模码00206;舱眼1号;意群码008260;意群码017655;意群码005484;”存盘为世界文,文件名=源语文件名.SJW;如果源文未完,文件头中记下源文偏移。然而,整个流程步骤终止。
假如悔操作、存盘退出命令按钮都没有被点击时,接续执行步骤源语句读入901。
补述(上文有“丢失补偿、母语词序911”等,这里补述):根据个性丢失表的信息进行当前句舱或舱眼的个性丢失补偿911。个性丢失补偿因由是上文述及简单句舱和舱眼虽然是上、下位概念,但大小一样,都是除不表意虚词外少于或等于三个意群串。不表意虚词例如中文的量词,英文的冠词等。这些丢失了的词串在以母语读出时给以补偿。其信息来源于个性丢失表,个性丢失表含有关联词串、补偿串等字段。
母语词序有时需要调整,其因由也是来自于句舱、舱眼,它们大小一样,都是除不表意虚词外少于或等于三个意群串。在机内这三个意群串的前后次序没有要求,所以基于本语句构件的各种应用。有可能存在母语词序有时需要调整的情况。其调整简单方便,先可利用一个母语词序表,母语词序表含有首词串、读出串、调整串字段。读出串即当用母语读出时的串序;首词串即读出串的首串;调整串即应调整的词序。当当前句舱或当前舱眼全部词串词义确定之后,查该表,查到符合者自动调整之。然后,让系统判读“→按钮”和“←按钮”按钮。如果被用户点击,根据用户意图再调整之。当“→按钮”被点击将当前句舱或舱眼用户所点击词串后移于后一词串之后;当“←按钮”被点击将当前句舱或舱眼用户所点击词串前移于前一词串之前;同时将移动后的词序加入母语词序表备用。
有一个不必干预的情况是当用户读者要求读出速度、不介意时也可不必干预。因而丢失补偿、母语词序等功能是作成让用户可选的。
有关支持网站:上文述及作成电子邮件反馈到支持网站。当支持网站接收到来自用户的反馈邮件时,由专家实时处理后,新构件加入相应构件库,并将新构件及相关信息实时反馈给用户,并在用户的参与下替换原“反馈句”标志。这是①用户支持之一;用户有什么意见、建议等等都可以通过这个方式进行沟通和支持。此外对于②版本升级,可以得到社会性检验和社会性的积累。③引导多语种共同发展,本发明的应用,为世界性跨语种交流提供了一个平台。同时也结束了自然语言在各自独立体系内缓慢地演变和发展的历史;开始了多语种共同快速发展的历程。例如要修正、淘汰或新增意群文字串;推广新术语等等可以通过本发明的应用直接向写作者建议、推荐;向阅读者宣传解释。
上文述及在用户利用母语读外文的过程中,把世界文缓存区的内容存盘生成世界文。这样一篇外语文章只要一人读过,后面的千千万万人就可以读世界文了,读世界文比母语读外文更快捷、不用干预,语意准确,读出文种用户自选,世界文的多语读出过程只是译码过程,例如上例世界文“习语码00064;句型码001061;句舱1号;意群码002131;句舱2号;意群码006386;句舱4号;舱模码00207;舱眼1号;意群码016841;意群码017951;舱眼2号;意群码019882;句舱3号;舱模码00206;舱眼1号;意群码008260;意群码017655;意群码005484;”:假如以中文读出,执行步骤:①依次逐个取出代码;②用开关语句将代码分类分别处理;③其中如果是句舱标号、舱眼标号,用以指示当前旬舱或当前舱眼;④把句型码、习语码、舱模码、意群码分解为某库某记录号,给出某库、某记录的某读出文种字段内容,如果是意群码则按指示给出到当前句舱或当前舱眼;⑤接续执行①直到文本结束。例如:
习语码00064-取-习语库64记录的中文习语字段内容“儿童不许入内!”。
句型码001061-取-句型库1061记录的中文句型:
“{1}告诉他的{2},如果能{4},就可以{3}。”
句舱1号-指示
意群码002131-取-意群串库2131记录的中文串“医生”据所指填入句舱1成为:
“1{医生}告诉他的{2},如果能{4},就可以{3}。”
句舱2号-指示
意群码006386-取-意群串库6386记录的中文串“病人”据所指填入句舱2成为:
“医生告诉他的2{病人},如果能{4},就可以{3}。”
句舱4号-指示
舱模码00207-取-舱模库207记录的中文舱模“[1]+他的+[2]”据所指填入句舱4成为:
“医生告诉他的病人,如果能4{[1]他的[2]},就可以{3}。”
舱眼1号-指示
意群码016841-取-意群串库16841记录的中文串“确实地”
意群码017951-取-意群串库17951记录的中文串“执行”据所指填入舱眼1成为:
“医生告诉他的病人,如果能4{1[确实地执行]他的[2]},就可以{3}。”
舱眼2号-指示
意群码019882-取-意群串库19882记录的中文串“医嘱”据所指填入舱眼2成为:
“医生告诉他的病人,如果能4{确实地执行他的2[医嘱]},就可以{3}。”
句舱3号-指示
舱模码00206-取-舱模库206记录的中文舱模“开[1]给他”据所指填入句舱3成为:
“医生告诉他的病人,如果能确实地执行他的医嘱,就可以3{开[1]给他}。”
舱眼1号-指示
意群码008260-取-意群串库8260记录的中文串“一些”;
意群码017655-取-意群串库17655记录的中文串“特效”;
意群码005484-取-意群串库5484记录的中文串“药”;据所指填入舱眼1成为:
“医生告诉他的病人,如果能确实地执行他的医嘱,就可以3{开1[一些特效药]给他}。”
母语读外文方法是基于语句构件的应用之一。参照其中利用四个语句构件库对当前句的编码步骤、世界文读出的译码步骤,可以产生多种基于语句构件的应用系统:
基于语句构件的世界文生成的方法系统。用于将传统文本转换成世界文,然后可以进行多语种读出。
基于语句构件的文本转换方法。用于将某源语文本转换成目语文本给出,或转换成多文种给出。
基于语句构件的机器翻译方法。用于将某源语翻译成目语给出,或翻译成多语种。
实施本发明所产生的软件系统可以在现有的中型、小型、微、巨型计算机,笔记本电脑、掌上电脑等单独的或者相连成网的计算机上运行实施。可以在各种计算机网络,特别是在因特网上运行实施。还可以在诸如“个人数字助理”,PDA(Personal Digital Assistant)的装置上运行实施。本发明实施后的产品,可以应用于需要和其它语种的人们进行交流的工作、学习、休闲、旅游等等场合;可以用于家庭、机关、学校以及各行各业涉及外文的场合。
Claims (10)
1.一种语句构件装置,包括CPU和用于存放响应查询的相关索引表的原有部,其特征在于还包括:
语句构件存储部101,含有包括用电子数据形式构成的、存储了多语种语意对等的语句构件的语句构件库:
句型库300,用于存储句型构件,有句型码、英文句型、中文句型、俄文句型字段,其包含至少一个记录,相同语意的句型同处一个记录,相应文种的句型存储在相应文种句型字段内,句型码代表了同一记录内各文种句型字段内的各文种句型的语意;
舱模库400,用于存储舱模构件,有舱模码、英文舱模、中文舱模、俄文舱模字段,其包含至少一个记录,相同语意的舱模同处一个记录,相应文种的舱模存储在相应文种舱模字段内,舱模码代表了同一记录内各文种舱模字段内的各文种舱模的语意;
意群串库500、502,用于存储意群串构件,有意群码、英文串、中文串、俄文串字段,其包含至少一个记录,相同语意的意群串同处一个记录,相应文种的意群串存储在相应文种串字段内,意群码代表了同一记录内各文种串字段内的各文种意群串的语意;
习语库600,用于存储小习语构件,有习语码、英文习语、中文习语、俄文习语字段,其包含至少一个记录,相同语意的小习语同处一个记录,相应文种的小习语存储在相应文种习语字段内,习语码代表了同一记录内各文种习语字段内的各文种习语的语意;
意通代码编制部103,与语句构件存储部101相连,用于接收构件添加部106的通知,仅当上述四个库任何之一出现新记录时,把当前库代表数作高位字加上当前库记录号生成意通代码,并填入当前库的某某码字段,作为语句构件统一的双字节定长的多语种语意互通的意通代码,意通代码对于当前库当前记录内各语种构件的同一语意表示是唯一的;
构件读出部104,与语句构件存储部101相连,用于接收读出命令,以意通代码所含数段确定某库某记录,并到相应库相应记录读出所需要的语种构件;
构件匹配给出部105,与语句构件存储部101相连,用于接收匹配命令,根据所给语种的句子或旬舱内容以及当前操作点的指引,在相应构件库相应语种索引字段查询匹配,给出匹配的所需要的语种构件或返回无匹配信号;
构件添加部106,分别与语句构件存储部101、意通代码编制部103相连,用于接收添加新构件命令,在查询证实相应构件库没有相同构件后,将新构件添加到相应构件库的相应语种构件字段内,当给一个新记录添加新构件时,同时发信息通知意通代码编制部103;
构件库操作控制、接口部107,通过构件读出部104、构件匹配给出部105、构件添加部106与语句构件存储部101相连,接收基于本语句构件库的各种应用的调用或接收相关命令进行操作,返回调用者所需语句构件,或通过本接口与基于语句构件库的其它应用装置相连接。
2.根据权利要求1所述的语句构件装置,其特征是所述语句构件:
语句构件通过专家操作、人机交互的方式,来自剖析比对双语对训练样本语料得到;
语句构件的另一个来源是用户的反馈信息经专家审核后再加入;
语句构件是用于组装语言句子的另部件、或对句子进行编码的标准件,包括如下四种:
①句型构件201,301,用于构成句子的基本结构框架,代表了该类句子基本语意类属,也决定了该类句子所含句舱的位次和个数,并包揽了该类句子的较复杂的语法现象;
②舱模构件202,401,用于构成复杂句舱的基本结构框架,代表了该类句舱基本语意类属,也决定了该类句舱所含舱眼的位次和个数,并包揽了该类旬舱的较复杂的语法现象;
③意群串构件501、503,是由意群串充当的构件,用于填充简单句舱203~204或舱眼205~207的构件,简单句舱与舱眼是上、下位概念而大小一样,都是除不表意虚词外不超过三个意群串;
④小习语构件601,由过于简短不足以分出句型、句舱的句子充当小习语构件,用于直接构成简短的句子。
3.根据权利要求1所述的语句构件装置,其特征是所述语句构件库:
库内所包括文种,除英文、中文、俄文外,每增加一个文种,首先应将句型库、舱模库、意群串库、习语库分别依次各增加一个某文句型、某文舱模、某文串、某文习语字段,新加文种构件只有与已有文种构件语意相同的才能填加在同一个记录上;
提取其中句型库、舱模库、意群串库、习语库中的某文句型、某文舱模、某文串或某文习语和某某码两个字段构成某某语言库、第一语言库或第二语言库,用于语言翻译或文本转换。
4.一种语句构件制作方法,其特征在于利用相同内容的双语或多语种文字版本的语料作为训练样本,利用人机交互的方式进行句型、句舱两个层面的剖析比对,得出字、词、句表意得以对等和统一的语句构件,包括如下步骤:
S1.利用相同内容的双语或多语种文字版本的语料作为训练样本,每轮选A、B双语作为一个样本对,其中A语分配给拼音文字或已经比对过的文种,B语可以分配给拼音文字也可分配给表意文字以及新加入的文种;
第一轮双语对训练样本的剖析比对,其中双语对样本的A语为英文,B语为中文,从第二轮开始新语对中必须其一是已经进行过剖析比对的,如当加入俄文时,只能取中俄或英俄语料作为双语对训练样本,第二轮剖析比对的双语对样本中A语应是已比对过的中文或英文,B语应是新加的俄文;
每一轮的训练语料样本应大到新增句型/句例比<1%后方可考虑增加新语种、进行次一轮的剖析比对,另一方面,可以根据训练样本语料的行业来源或应用范围来源来标记、划分句型库、舱模库、意群串库、习语库来构成相应分库,用于行业或专用版本;
S2.句型层面剖析比对,读取双语样本句对,划分出句型、句舱,把句型作为句型构件存入句型库,把不足以分出句型、句舱的小习语作为小习语构件存入习语库;
S3.句舱层面剖析比对,把已经划分出句型、句舱的样本句例对,依次取出句舱内容,进一步划分出舱模、舱眼,把舱模作为舱模构件存入舱模库,把经过意群对齐的舱眼或简单句舱的内容以意群串为单元作为意群串构件存入意群串库;处理完所有句舱,接着下一个的双语样本句对处理、接续执行步骤S2。
5.根据权利要求4所述语句构件的制作方法,其特征是所述句型层面剖析比对的步骤S2进一步包括如下步骤:
S21.读入一个双语样本句对;
S22.调用配句型子程序查找句型库返回A、B语匹配句型,若否、没有匹配句型,执行步骤S23,若是、有匹配句型执行步骤S26;
S23.以当前双语样本句对为例制作新句型,弹开一窗口,上横行显示A语句、下横行显示B语句,横行下再显示挖旬舱、存句型两个命令按钮,并提示专家点击A、B语例句的待挖句舱的首尾点,挖句舱计数器N=0;
S24.当接收到挖句舱命令按钮被点击后,N=N+1,检查A、B语是否都被点击两个点以及这两个点是否有效,如果无效,提示重作,如果点击正确并且有效,将A、B语句两点之间的内容挖去并填入“[N]”,该轮挖句舱结束,下一轮重复步骤S24再挖下一个句舱;
S25.当接收到存句型命令按钮被点击并且N≥1,表示挖句舱制作新句型操作完毕,清除步骤S23、S24的显示,把两个新句型作为句型构件分别写入句型库A文句型、B文句型字段,如果接收到存句型命令按钮被点击、但N=0,表示当前双语样本句对不足以分出句型、句舱而被判定为小习语,清除步骤S23、S24的显示,把两个小习语作为小习语构件分别写入习语库A文习语、B文习语字段;
S26.把当前双语样本例句对号入座地填入当前匹配句型、或填入当前新作句型,作为已经划分出句型、句舱的样本句例对存盘备S3步骤读取,再执行步骤S21。
6.根据权利要求4所述语句构件的制作方法,其特征是所述句舱层面剖析比对的步骤S3进一步包括如下步骤:
S31.读入一个由S26步骤存盘的已经划分出句型、句舱的样本句例对;
S32.取句舱,依次取出已经划分出句型、句舱的样本句例对当中的一个句舱,开窗口一上部显示A、B语样本句例,下部显示A、B语当前句舱内容;
同时,把A语当前句舱以词串为单元切分并依次填入参考表A语字段,再依次取出一个词串查找意群串库的A文串字段,找到后取出同记录的B文串字段内容,如果该B文串内容在B语当前句舱中含有,把B文串内容填入参考表B语字段,不含有让它为空;
如果意群串库的A文串字段有相同的记录,相应参考表也多一条A语字段有重的记录备选,作完整个参考表,开窗口二显示参考表、组复词命令按钮以及可组复词操作提示;
接受专家点击参考表并在被点记录标志字段作标志;
当组复词命令按钮被点击并且参考表有连续记录被点击,将参考表中有标志记录的A语字段内容以“_”相连组成复词,并把有标志记录合并成一条记录,A语字段填入该复词,B语字段以相等语意的词串填写;
S33.判断当前句舱是否简单句舱,若是执行步骤S37,若否、进一步查询舱模库判断当前句舱是否含有舱模,若否、不含舱模执行步骤S34,若是、该所含舱模作为当前舱模并对号入座地纳入当前句舱内容,执行步骤S36;
S34.开窗口三作为可编辑窗口,将当前双语句舱内容再显示,接受专家以此为基础编写舱模,还显示存舱模命令按钮;
S35.当存舱模命令按钮被点击,并且可编辑窗口已经被编辑过,新编舱模也符合格式要求,将新编A、B语舱模作为舱模构件存入舱模库A文舱模、B文舱模字段,同时,将当前句舱内容对号入座地填入当前舱模,或填入新编舱模作为已经划分出舱模、舱眼的复杂句舱显示;
S36.依次取出一个舱眼的内容,接续执行步骤S37;
S37.意群对齐,在第二个窗口参考表下显示对齐确定命令按钮,参考表接受专家按实例延伸或增补词义、不改变原有字单词的前提下加减串长度、粘带附随字、词形变化增补词义项等意群对齐的修改,或优选记录;
S38.当对齐确定命令按钮被点击,表示参考表内A、B语的词串已经意群对齐、即已成意群串,然后逐记录地把A、B语字段内容作为意群串构件存入意群串库的A文串或B文串字段;
S39.如果当前操作的是舱眼,并且当前句舱还有舱眼没有操作,执行步骤S36直到作完当前句舱的所有舱眼,再判断当前已经划分出句型、句舱的样本句例对中是否还有未处理的句舱,是,执行步骤S32继续处理句舱,否,全部句舱处理完毕,执行步骤S31,进行下一轮操作。
7.一种基于语句构件的母语读外文方法,其特征在于包括如下步骤:
S4.界面,由用户指定母语和源语各是构件库所含的哪一个文种,把屏幕分成上、中、下或前、中、后三个窗口,中部窗口用于显示当前操作句以及操作中的相关信息,下或后部窗口用于显示源语待读文本,上或前部窗口用于显示已读的母语文本,此外,在提示行显示悔操作、存盘退出等命令按钮以及→、←移词序按钮,或把它们作成浮条紧随中部下或用户可移;
S5.源语句读入,读入源语一个句子作为当前句显示在中部窗口,母语文本显示尾加已处理的前一句内容,源语文本显示减当前句内容;
S6.利用四个语句构件库对当前句通过查表得出意通代码的编码操作、同时又给出同记录的母语字段内容;
S7.判断处理,如果当前句的全部句舱处理完毕,查询反馈缓存区和命令按钮:
当反馈缓存区不为空,将反馈缓存区的信息加上源语、母语、当前源语句子等信息作成电子邮件反馈到支持网站,清空反馈缓存区,在世界文缓存区存入“反馈句”标志;
当悔操作命令按钮被点击,根据用户点击的欲悔词串,取出悔选择缓存中的相应内容让用户重选词串并作相关修改;
当接收到存盘退出命令时,将世界文缓存区的内容存盘为世界文,文件名=源语文件名.SJW,如果源文未完,文件头中记下源文偏移;
当悔操作、存盘退出命令按钮都没有被点击时,执行步骤S5。
8.根据权利要求7所述一种基于语句构件的母语读外文方法,其特征是所述利用四个语句构件库对当前句通过查表得出意通代码的编码操作、同时又给出同记录的母语字段内容的步骤S6进一步包括如下步骤:
S601.判小习语,以当前旬查询习语库的源语习语字段,若无,没有找到,执行步骤S602,若有,取出同记录的母语习语字段中的母语小习语,显示在中部窗口,并将同记录的习语码读入世界文缓存区,然后执行步骤S5;
S602.调用配句型子程序,以当前句查询句型库的源语句型字段,若查到一个匹配的句型,执行步骤S603,如果查到多个匹配句型,在中部窗口下部显示相应的母语句型,接受用户选定后再执行步骤S603,如果一个匹配的句型也没有,存句型库代表数于反馈缓存区;
S603.给出同记录的句型码、母语句型以及源语句型,将母语句型着重显示在中部窗口的上部,把源语句子对号入座地套入源语句型,附注式显示在该窗口母语下方,并把句型码读入世界文缓存区;
S604.取句舱,从左到右在中部窗口标示母语句型中的当前句舱,存入当前句舱标号于世界文缓存区,同时标示和取出源语相应句舱内容作为当前旬舱内容,判断当前句舱内容是否属于简单句舱,若否,执行步骤S605,若是执行步骤S608;
S605.查配舱模,以当前句舱内容查询舱模库的源语舱模字段,若查到一个匹配的舱模,执行步骤S606,如果查到多个匹配舱模,向下扩展中部窗口,在扩展部显示相应的母语舱模,接受用户选定后再执行步骤S606,如果一个匹配的舱模也没有,存舱模库代表数于反馈缓存区;
S606.给出同记录的舱模码、母语舱模以及源语舱模,将母语舱模着重显示在中部窗口的扩展部,把源语句舱内容对号入座地套入源语舱模,附注式显示在该窗口母语舱模的下方,并把舱模码读入世界文缓存区;
S607.取舱眼,以母语舱模为准从左到右,在母语舱模上逐个标示当前舱眼,存当前舱眼标号于世界文缓存区,同时标示和取出源语相应舱眼内容,执行步骤S608;
S608.词义确定,从左到右读出源语的简单句舱或舱眼中的一个词串,查询意群串库的源语文串字段,若只查到一条相同词串,执行步骤S609,若查到多条相同词串,分别取出它们的同记录母语串字段内容,备份于悔选择缓存,并显示在已扩展的中部窗口下部,接收用户选定后再执行步骤S609,如果一条相同的词串也没有,存当前源语词串于反馈缓存区;
S609.取出当前记录的母语串字段内容填入到当前母语句舱或当前母语舱眼,取出意群码存入世界文缓存区;继续执行步骤S608,直到当前简单句舱或当前舱眼操作完毕;
根据个性丢失表的信息进行当前句舱或舱眼的个性丢失补偿操作;
再根据母语词序表的信息纠正当前句舱或舱眼的母语词序;
最后查询→、←移词序按钮,当→按钮被点击将当前句舱或舱眼用户所点击词串后移于后一词串之后,当←按钮被点击将当前句舱或舱眼用户所点击词串前移于前一词串之前,同时将移后的词序加入母语词序表备用,后续执行步骤S610;
S610.判断,如果当前句舱还有舱眼未处理,执行步骤S607,若否而当前句子还有旬舱未处理,执行步骤S604,若当前句子所有句舱全部处理完毕,后续步骤S7。
9.根据权利要求7所述的一种基于语句构件的母语读外文的方法,其特征是:所述作成电子邮件反馈到支持网站,当支持网站接收到来自用户的反馈邮件时,由专家实时处理后,新构件加入相应构件库,并将新构件及相关信息实时反馈给用户,并在用户的参与下替换原“反馈句”标志;
所述将世界文缓存区的内容存盘为世界文,是在用户利用母语读外文的过程中,世界文缓存区被同时实时地存入了句型码、习语码、舱模码、意群码等构件代码,以及句舱标号、舱眼标号等,将它们存盘生成世界文,利用母语直接阅读外文,读后还生成了世界文,一篇外文只要一人读过,,后面的千千万万人就可以读世界文了,读世界文比母语读外文更快捷、不用干预,语意准确,读出文种用户自选,世界文的多语读出过程只是译码过程,具体步骤是:
①依次逐个取出代码;
②用开关语句将代码分类分别处理;
③其中如果是旬舱标号、舱眼标号,用以指示当前句舱或当前舱眼;
④把句型码、习语码、舱模码、意群码分解为某库某记录号,给出某库、某记录的某读出文种字段内容,如果是意群码则按指示给出到当前句舱或当前舱眼;
⑤接续执行①直到文本结束。
10.根据权利要求7~9任一所述的一种基于语句构件的母语读外文的方法,其特征是母语读外文方法是基于语句构件的应用之一,参照其中利用四个语句构件库对当前句的编码步骤、世界文读出的译码步骤,可以产生多种基于语句构件的应用系统:
基于语句构件的世界文生成的方法系统,用于将传统文本转换成世界文,继后可以进行多语种读出;
基于语句构件的文本转换方法,用于将某源语文本转换成某目语文本给出,或转换成多文种给出;
基于语句构件的机器翻译方法,用于将某源语翻译成目语或多语种给出。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100862296A CN101246474B (zh) | 2008-02-18 | 2008-03-13 | 一种基于语句构件的母语读外文方法 |
PCT/CN2008/072593 WO2009103208A1 (zh) | 2008-02-18 | 2008-09-28 | 语句构件装置和母语读外文并生成世界文及文本转换方法 |
CN200880128636.7A CN102007490B (zh) | 2008-02-18 | 2008-09-28 | 语句构件制作方法和母语读外文并生成世界文方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810081482.2 | 2008-02-18 | ||
CN200810081482 | 2008-02-18 | ||
CN2008100862296A CN101246474B (zh) | 2008-02-18 | 2008-03-13 | 一种基于语句构件的母语读外文方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101246474A true CN101246474A (zh) | 2008-08-20 |
CN101246474B CN101246474B (zh) | 2012-01-11 |
Family
ID=39946934
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100862296A Expired - Fee Related CN101246474B (zh) | 2008-02-18 | 2008-03-13 | 一种基于语句构件的母语读外文方法 |
CN200880128636.7A Active CN102007490B (zh) | 2008-02-18 | 2008-09-28 | 语句构件制作方法和母语读外文并生成世界文方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200880128636.7A Active CN102007490B (zh) | 2008-02-18 | 2008-09-28 | 语句构件制作方法和母语读外文并生成世界文方法 |
Country Status (2)
Country | Link |
---|---|
CN (2) | CN101246474B (zh) |
WO (1) | WO2009103208A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510194A (zh) * | 2009-03-15 | 2009-08-19 | 刘树根 | 语句构件装置和基于语句构件的多语种专业翻译方法 |
CN102043849A (zh) * | 2010-12-20 | 2011-05-04 | 惠州市贝圣科特软件有限公司 | 表意构件电子词典系统及其实现方法 |
CN102236645A (zh) * | 2010-05-06 | 2011-11-09 | 上海五和际软件信息有限公司 | 基于语义逻辑的类自然语言人机对话装置 |
CN103106195A (zh) * | 2013-01-21 | 2013-05-15 | 刘树根 | 表意构件识别提取和基于表意构件的机译人校互动翻译方法 |
CN103218353A (zh) * | 2013-03-05 | 2013-07-24 | 刘树根 | 母语人士学用其它语言文字之软件代脑方法和系统 |
CN106383819A (zh) * | 2016-01-11 | 2017-02-08 | 陈勇 | 语音转换器 |
TWI688969B (zh) * | 2018-10-24 | 2020-03-21 | 大仁科技大學 | 藥品選擇對話系統 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989060A (zh) * | 2015-02-09 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 数据管理方法、装置 |
CN112783923A (zh) * | 2020-11-25 | 2021-05-11 | 辽宁振兴银行股份有限公司 | 一种基于Spark和Impala高效采集数据库的实现方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1050629A (zh) * | 1990-08-05 | 1991-04-10 | 王麟祥 | 世界通用语码及其编码法则 |
CN1617133A (zh) * | 2003-11-14 | 2005-05-18 | 高庆狮 | 句义表达式的生成方法、机器翻译及电子词典 |
JP2007518164A (ja) * | 2004-01-06 | 2007-07-05 | イン−ソプ リ | 自動翻訳装置及びその自動翻訳装置を利用した自動翻訳方法並びにその自動翻訳装置が記録された記録媒体 |
CN100555270C (zh) * | 2004-01-13 | 2009-10-28 | 中国科学院计算技术研究所 | 一种机器翻译自动评测方法及其系统 |
JP4047885B2 (ja) * | 2005-10-27 | 2008-02-13 | 株式会社東芝 | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
-
2008
- 2008-03-13 CN CN2008100862296A patent/CN101246474B/zh not_active Expired - Fee Related
- 2008-09-28 WO PCT/CN2008/072593 patent/WO2009103208A1/zh active Application Filing
- 2008-09-28 CN CN200880128636.7A patent/CN102007490B/zh active Active
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510194A (zh) * | 2009-03-15 | 2009-08-19 | 刘树根 | 语句构件装置和基于语句构件的多语种专业翻译方法 |
CN101510194B (zh) * | 2009-03-15 | 2015-09-09 | 刘树根 | 一种基于语句构件的多语种专业翻译方法 |
CN102236645A (zh) * | 2010-05-06 | 2011-11-09 | 上海五和际软件信息有限公司 | 基于语义逻辑的类自然语言人机对话装置 |
CN102043849A (zh) * | 2010-12-20 | 2011-05-04 | 惠州市贝圣科特软件有限公司 | 表意构件电子词典系统及其实现方法 |
CN102043849B (zh) * | 2010-12-20 | 2015-03-25 | 惠州市表意软件有限公司 | 表意构件电子词典系统的实现方法 |
CN103106195A (zh) * | 2013-01-21 | 2013-05-15 | 刘树根 | 表意构件识别提取和基于表意构件的机译人校互动翻译方法 |
CN103106195B (zh) * | 2013-01-21 | 2018-12-11 | 刘树根 | 表意构件识别提取和基于表意构件的机译人校互动翻译方法 |
CN103218353A (zh) * | 2013-03-05 | 2013-07-24 | 刘树根 | 母语人士学用其它语言文字之软件代脑方法和系统 |
WO2014134971A1 (zh) * | 2013-03-05 | 2014-09-12 | Liu Shugen | 母语人士学用其它语言文字之软件代脑方法和系统 |
CN103218353B (zh) * | 2013-03-05 | 2018-12-11 | 刘树根 | 母语人士学用其它语言文字之人工智能实现方法 |
CN106383819A (zh) * | 2016-01-11 | 2017-02-08 | 陈勇 | 语音转换器 |
TWI688969B (zh) * | 2018-10-24 | 2020-03-21 | 大仁科技大學 | 藥品選擇對話系統 |
Also Published As
Publication number | Publication date |
---|---|
WO2009103208A1 (zh) | 2009-08-27 |
CN102007490B (zh) | 2016-09-21 |
CN101246474B (zh) | 2012-01-11 |
CN102007490A (zh) | 2011-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101246474B (zh) | 一种基于语句构件的母语读外文方法 | |
Tan et al. | Phrase-based image caption generator with hierarchical LSTM network | |
US8478581B2 (en) | Interlingua, interlingua engine, and interlingua machine translation system | |
CN103106195B (zh) | 表意构件识别提取和基于表意构件的机译人校互动翻译方法 | |
Papegaaij | Word expert semantics: an interlingual knowledge-based approach | |
CN102622342A (zh) | 中间语系统、中间语引擎、中间语翻译系统和相应方法 | |
CN101510194B (zh) | 一种基于语句构件的多语种专业翻译方法 | |
Hachem | Multifunctionality: The internal and external syntax of D-and W-items in German and Dutch | |
Kang | Spoken language to sign language translation system based on HamNoSys | |
Scavetta et al. | Python and R for the Modern Data Scientist | |
Kobayashi et al. | Sino-Japanese words | |
CN103218353B (zh) | 母语人士学用其它语言文字之人工智能实现方法 | |
Goddard et al. | Lexicographic research on Australian Aboriginal languages 1968-1993 | |
Polley | Metaphors for happiness in English and Mandarin Chinese | |
CN101436179A (zh) | 文本转换方法及装置 | |
Stifter | Old Irish etymology through the ages | |
Ahmad | People centered HMI’s for deaf and functionally illiterate users | |
Wang | An investigation of challenges in machine translation of literary texts: the case of the English–Chinese language pair | |
Rudnick | Cross-Lingual Word Sense Disambiguation for Low-Resource Hybrid Machine Translation | |
Calder et al. | Multilingual personalized information objects | |
Huang | Revisiting the nature and function of transliteration through a semiotic lens, exemplified by the English translations of Shan Hai Jing | |
CN108536687A (zh) | 基于似谓词演算形式的机器思维语言翻译的方法及系统 | |
Wei | Terminology and ontology for cultural heritage: application to chinese ceramic vessels | |
Witkam | Distributed Language Translation | |
Shi | The functions of proclitic ab and ghab in Hmub |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120111 Termination date: 20180313 |