CN101196883A - 一种互联网信息自然语言翻译通用方法和系统 - Google Patents

一种互联网信息自然语言翻译通用方法和系统 Download PDF

Info

Publication number
CN101196883A
CN101196883A CNA2008100003273A CN200810000327A CN101196883A CN 101196883 A CN101196883 A CN 101196883A CN A2008100003273 A CNA2008100003273 A CN A2008100003273A CN 200810000327 A CN200810000327 A CN 200810000327A CN 101196883 A CN101196883 A CN 101196883A
Authority
CN
China
Prior art keywords
semantic
original text
translation
coding
unified coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100003273A
Other languages
English (en)
Inventor
刘莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNA2008100003273A priority Critical patent/CN101196883A/zh
Publication of CN101196883A publication Critical patent/CN101196883A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明是一种以句子为单元的互联网信息语义统一编码人工辅助通用翻译方法和系统。其优势在于:用户只需采用母语对原文进行一次人机交互,即可自动翻译为任意其它语言;可保障译文语义信息传递质量;即使用户自造新词、新缩略语、新固定搭配,也能实现语义信息传递质量可靠的多语翻译结果;通过本系统翻译服务中心支持,用的人越多翻译自动化水平越高。特别适用于即时通讯、电子邮件、网页信息等互联网通讯信息的自然语言翻译。

Description

一种互联网信息自然语言翻译通用方法和系统
                        技术领域
本发明涉及一种互联网信息自然语言翻译通用方法和系统,更确切地说,是涉及一种以句子为单元的互联网信息语义统一编码人工辅助通用翻译方法和系统。
                        技术背景
自从互联网通讯在全球普及,网络信息多语翻译服务已经成为亿万用户的共同普遍需求。但是,产生于非网络时代的机器翻译技术始终无法占领这个显而易见的巨大市场:1)全自动翻译——其难以解决的根本问题是翻译质量无法保证。2)人工辅助翻译——用户必须懂得原文和译文,市场需求十分有限。
造成上述问题的根本原因是,自然语言符号语义不仅具有多义性,并且具有用户可自由约定符号语义、流行既标准的特点(在互联网通讯中更是如此)。因此,仅靠计算技术(无论是基于规则还是基于统计)不仅难以准确求解原文符号语义。并且,即使准确求解出原文语义,其自动生成译文也会在句子以外的上下文条件下出现新增理解歧义。因此,机器翻译技术要想保证机器翻译的语义信息传递质量,必须通过人机交互以句子为单元准确约定原文语义,并在译文端提供以句子为单元的语义标注结果。
本发明的基本原理来自于各种自然语言语义约定通用规律:
词汇语义递归约定:各种自然语言词汇(包括各种固定搭配)的语义,均可用本语言常用基本词汇进行语义递归约定(比如,朗曼英语词典用1000多常用词汇对任意词汇、固定搭配短语进行语义约定)。并且,一种自然语言的常用基本词汇,可以对其他语言的任意词汇进行语义递归约定。
词汇语义循环约定:各种自然语言常用基本词汇的语义约定方式为循环约定(如“好”表示使人满意,坏的反义词)。并且,基本词汇与非基本词汇之间也可进行语义循环约定(如“中看:美、漂亮、好看”)。
语法、句法成分通用约定:虽然各种自然语言的基本语法(如时态)、句法信息(如主、谓、宾、修、补)表达方式不同(例如汉语用词汇符号表达时态,俄语在词汇符号中直接标识主格、宾格表达句子成分),但各种自然语言中的必要语法、句法成分信息具有通用性。
符号冗余:如果自然语言句子(与句子之外上下文无关时)中缺损某个符号(如汉语中的大量量词、英语中的不定冠词)不影响语义理解,并且读者知道缺损的是什么符号,说明该符号属于习惯性表达冗余成分。对于不同自然语言语义信息传递而言,冗余成分不需要进行语义约定。
本发明基于以上客观规律,提供一种互联网信息自然语言翻译通用方法和系统,以使用户只需采用母语进行人机交互,即可自动翻译为多种自然语言译文,并且保证机器翻译结果的语义信息传递质量。
                        发明内容
实现本发明的技术方案是这样的:一种互联网信息自然语言翻译通用方法和系统。其方法特征包括:
A、用户终端向本系统业务处理主机发出至少一种自然语言的语义统一编码词库和句法库、原文语义统一编码人机交互模板、原文语义自动编码程序、译文及译文语义标注结果转换程序等终端应用程序的下载请求,并接收和安装上述终端应用程序;
B、用户终端调用原文语义统一编码人机交互模板,根据用户输入需翻译原文信息后的操作指令,或通过原文语义自动编码程序调用语义统一编码对像显示于原文语义统一编码人机交互模板,或发送需翻译原文至系统业务处理主机,通过系统业务处理主机内置搜索引擎检索原文语义编码语料库中已有统一编码结果相应原文并反馈至用户终端,由用户终端原文语义自动编码程序根据所接收原文语义统一编码结果调用语义统一编码对像显示于原文端人机交互模板;
C、当用户对人机交互模板上所显示的原文语义统一编码对像进行调整、添加并进行确认,则用户终端获得原文语义统一编码最终结果;
D、用户终端根据用户发出的操作指令,或通过互联网或其它数据通讯方式发送原文语义统一编码结果至另一用户终端及系统业务处理主机,或通过本终端译文转换程序将原文语义统一编码结果转换为译文及译文语义标注结果;
E、另一用户终端接收原文语义统一编码结果,并通过该用户终端译文转换程序将原文统一编码结果自动转换生成为译文及译文语义标注结果;
F、系统业务处理主机接收原文语义统一编码结果,将原文及语义统一编码结果存储至原文统一编码语料库,将用户自主扩展词汇语义统一编码发送至编码结果分析器;
G、编码结果分析器接收系统业务处理主机发送的用户自主扩展词汇语义统一编码,进行用户自主扩展词汇语义统一编码统计、分析,并将统计分析结果发送至系统业务处理主机;
H、系统业务处理主机相关应用程序根据统计分析结果处理方法,发出在语义统一编码词库添加新增用户自主扩展词汇语义统一编码指令。
步骤A所述的自然语言语义统一编码词库的数据内容结构由词汇语义统一编码对像及对应的词汇语义统一编码组成;所述的词汇语义统一编码对像包括各种自然语言(如:汉、英、法、俄……)词汇、短语表层符号及所有不同的语义项;所述的词汇语义统一编码是指对各种自然语言词汇、短语表层符号及各个不同语义项分别设置的可多语共享语义统一编码;并且,一个语义统一编码在同一种语言中可对应于多个语义相同的编码对像。该语义统一编码用于用户终端相关应用程序调用在不同自然语言语义统一编码词库中具有相同语义统一编码的编码对像。
例如:汉语语义统一编码词库中有表层符号“好”-义项1:形容词;与“坏”相对,优、精、良、妙、出色、到家……0001-1;义项2:名词;友爱、友善、友好、和睦、投机……0001-2。0001-1、0001-2为词汇语义统一编码,0001-1、0001-2前的内容为编码对像。
如果用户在原文语义统一编码人机交互模板上对表层符号汉语词汇“好”选择确认义项1:形容词;与“坏”相对,优、精、良、妙、出色、到家……,其词汇语义统一编码0001-1可调用英文词汇语义统一编码词库中词汇语义统一编码0001-1的编码对像:good(表层符号),adj.excellent,essential,fine,wonderful,standout,perfect……(语义项)。如果用户在原文语义统一编码人机交互模板上对表层符号汉语词汇“好”选择确认义项2,其词汇语义统一编码0001-2可调用英文词汇语义统一编码词库中词汇语义统一编码0001-2的对像:good(表层符号),n.friendship,frendliness,amity,harmony,interested……(语义项)。
步骤A所述的自然语言语义统一编码句法库数据内容结构由各种自然语言通用的句法信息编码对像及对应的句法信息统一编码组成;所述的句法信息编码对像至少包括主、谓、宾、修、补等句法成分信息项,过去时、现在时、将来时等时态信息项;该句法信息统一编码可由用户终端相关应用程序调用在不同自然语言语义统一编码句法库中具有相同语义统一编码的编码对像。并且,一个句法信息统一编码在同一种语言中仅可对应于一个编码对像。
步骤A所述的原文语义统一编码人机交互模板是指可实现原文语义统一编码对像(原文词汇、短语文字符号的不同语义描述项、各种句法成分信息项)调整、添加和确认等人机交互操作的各种类型可视化界面;其人机交互方法包括,当用户在原文输入栏或句子成分信息交互模板直接输入的需翻译原文信息时显示用户用户输入信息;当用户选择所输入句子及句子成分并要求进行原文语义编码操作,包括拖动所选字符串在句子成分信息可视化交互模板中的所处位置时,显示原文语义自动编码程序调用的语义编码对像及其它相关信息。
步骤A所述的原文语义自动编码程序是指可通过原文语义自动编码方法自动判别需翻译原文句子的词汇、短语表层符号的语义项、各种句法成分信息项的程序;所述的原文语义自动编码方法至少包括,当用户选择对所输入原文进行语义统一编码时,原文语义自动编码程序自动切分原文句子中的词汇和短语,根据切分结果从原文统一编码词库、句法库中调用原文句子词汇和短语的所有语义项,根据有效句型搭配规则判别原文句子的句法成分信息项、所缺少的句法成分信息项(如句子核心成分、核心动词……)、原文句子词汇和短语的可优选语义项,并将上述判别结果显示于原文语义统一编码人机交互模板;当用户在原文语义统一编码人机交互模板中进行原文语义编码对像调整、添加、确认,则获得以句子为单元的原文词汇、短语、句法信息语义统一编码结果。
步骤A所述的译文自动转换程序中的译文自动转换方法至少包括,用原文句子语义统一编码结果调用译文统一编码词库、句法库中的统一编码对像;如果原文句子语义统一编码结果在译文统一编码词库中调用出多个编码对像,则根据编码对像使用频率等条件对相同语义编码的多个对像进行优选;根据译文自动转换规则,用译文编码对像中的译文词汇表层符号自动生成译文,用译文编码对像中的语义项自动生成译文语义标注结果;并根据译文浏览用户选择,将译文或译文语义标注结果显示于译文浏览用户终端。
步骤C所述的当用户对人机交互模板上所显示的原文语义统一编码对像进行添加的方法和步骤A所述的译文自动转换程序中的译文自动转换方法还包括,当用户在原文语义统一编码人机交互模板的原文词汇、短语语义项描述栏中直接输入词汇、短语符号的自定义语义描述项时,相关应用程序循环调用原文语义统一编码人机交互模板;当用户进行该词汇、短语符号的自定义语义描述的语义统一编码人机交互操作后,将自定义语义描述的语义统一编码结果打包为该词汇、短语符号的用户自主扩展语义统一编码;当由译文自动转换程序自动生成译文时,将自定义语义描述的语义统一编码结果直接转换生成为语义描述译文。
该方法用于原文自动编码应用程序没有调用到用户满意的原文词汇、短语符号语义统一编码对像、或对像为空时,由用户自主扩展词汇语义统一编码。
例如:当汉语用户在原文语义统一编码人机交互模板中输入原文“你别这么风吹草动的”并要求原文语义自动编码时,原文语义自动编码应用程序没有调用到用户满意的“风吹草动”原文词汇、短语符号语义统一编码对像、或编码对像为空时,用户在原文词汇、短语语义项描述栏中直接输入对该词汇、短语符号的语义描述项“表示反应过度”,则相关应用程序循环调用原文语义统一编码人机交互模板供用户进行“表示反应过度”的语义统一编码人机交互操作,并将“表示反应过度”的词汇、短语文字符号的语义描述项、各种句法成分信息项的语义统一编码结果打包为该词汇、短语符号的用户自主扩展词汇语义统一编码。英语译文自动转换程序则在生成译文时直接生成加有专用括弧的(表示反应过度)英语译文。
本发明方法还包括,译文自动转换程序可对应于每一译文句子自动生成并添加的译文语义标注结果调用代码及标识符,终端应用程序可将译文自动转换程序所生成译文及译文语义标注结果调用代码标识符插入到即时通讯、电子邮件、网页的文档信息显示页面进行显示;当用户在即时通讯、电子邮件、网页文档等信息浏览页面点击所显示的每一译文句子后跟随的语义标注结果调用代码标识符时,则直接调用该句子语义标注结果进行显示(如直接链接该句子语义标注结果显示页面),以实现用户无需下载终端应用软件即可浏览译文及查询译文语义标注结果。
步骤G所述的编码结果分析器进行原文语义编码结果分析处理的方法包括,对用户自主扩展词汇语义统一编码进行相似性分析和使用频率统计,并将分析、统计结果发送至业务处理主机。
本发明的系统特征包括:
系统业务处理主机,用于接收和处理来自应用服务器的信息处理指令,调用、发送终端应用程序至用户终端,接收、处理来自编码结果分析器的信息;
内置搜索引擎,用于检索原文语义统一编码语料库各类数据;
编码结果分析器,用于进行原文语义编码结果分析处理,以及发送分析、统计结果至业务处理主机;
应用服务器,用于解析来自用户终端的信息处理指令,发送解析后的处理指令至业务处理主机,并将业务处理主机处理结果转换为终端可接受数据反馈至用户终端;
用户终端,用于接收、安装终端应用程序,执行原文语义自动编码、原文语义编码人机交互及译文转换程序,向应用服务器发送信息及相关处理指令,接收应用服务器发送的信息。
系统数据库,用于存储系统应用相关数据和终端应用程序,包括各种自然语言语义统一编码词库、句法库、原文语义统一编码语料库,以及存储用户终端原文语义统一编码人机交互模板、原文语义自动编码程序、译文及译文语义标注结果转换程序的数据库。
下面结合附图和实施例进一步说明本发明:
附图1是本发明系统框图
附图2是本发明方法主流程图
附图3是本发明原文语义统一编码人机交互模板示意图
附图4是本发明译文及语义标注结果示意图
附图5是原文词汇及短语语义项选择模板
附图6是即时通讯信息翻译浏览页面示意图
附图7是原文语义自动编码流程图
附图8是自动生成译文及译文浏览页面调用基本流程
附图说明:
图1各方框中的数字编号是系统硬件设置编号
图2、7、8各框中的数字编号是流程执行步骤编号
图3-1是原文语义编码人机交互模板的原文输入栏,图3-2是原文语义编码对像相关信息线性排列显示栏,图3-3是原文语义编码对像句子成分信息显示模板,显示模板上方和左侧的文字是句法信息输入框的句子成分信息属性说明。例如:左上方框为主语修饰成分、左中框为主语核心成分……。图3-4是原文子句句子成分信息显示模板(该图为宾语子句显示)
图4-1是自动生成译文显示栏,图4-2是译文语义编码对像相关信息线性排列显示栏,图4-3是译文句子成分信息显示模板,图4-4是译文子句句子成分信息显示模板,显示模板上方和左侧的文字是句法信息输入框的句子成分信息属性说明。
图5-1是原文语义编码人机交互用户点击原文词汇调用的原文词汇及短语语义项选择模板;5-1各方框左侧是原文词汇语义项属性文字说明,各方框中是原文语义自动编码程序调用的优选语义统一编码对像和备选对像,图5-2下拉显示栏是自动编码程序调用的词汇语义描述、用户自主输入自定义语义描述字符显示栏。当用户自主输入自定义语义描述字符后点击图5-1中的“OK”,则可循环调用图3。
图6-1是由译文自动生成程序自动生成的以句子为单元的语义标注结果调用代码标识符,图6-2是原文语义统一编码人机交互模板调用符号,图6-3是被选中的需翻译原文
实施例1:本发明应用主流程,参见图1、2、3、4、5、6
执行图2步骤201:根据用户操作指令,用户终端(101-1至101-N)通过应用服务器(102)向系统业务处理主机(103)发送终端应用程序下载请求,接收并安装从数据库(106)下载的终端应用程序
执行步骤202:根据101-1用户操作指令,101-1调用原文语义统一编码人机交互模板,用户在如图3-1、或3-3输入需翻译原文
执行步骤203:是否自动检索已有统一编码原文?
执行步骤204:是,则101-1发送原文至103,103内置搜索引擎用所接收原文(包括原文标题、篇章、在句法信息输入框内所输入的含有句法成分信息的原文句子等)检索原文语义编码语料库(107),并将检索结果反馈至101-1,通过101-1原文自动编码程序调用已编码对像(原文词汇、短语文字符号的不同语义描述项、各种句法成分信息项),如图3-2、3-3、3-4所示进行显示
执行步骤205:否,则101-1自动编码程序调用该词汇符号可供选择语义项及优选原文语义项(原文词汇、短语文字符号的不同语义项、各种句法成分信息项),如图3-2、3-3、3-4所示进行显示
执行步骤206:当用户在如图3所示人机交互模板上对原文语义编码对像进行调整(包括通过拖动原文词汇、短语文字符号在句子成分信息可视化模板中所处位置对句子成分信息进行调整)、添加并确认,则101-1相关应用程序获得原文语义统一编码结果;
执行步骤207:是否将编码结果传输至另一指定终端?
执行步骤208:否,则101-1调用本终端译文转换程序将统一编码结果转换为指定自然语言译文显示于本终端;并根据用户对译文句子的选择,调用如图4-2、4-3、4-4所示语义项标注结果进行显示
执行步骤209:是,则101-1将编码结果通过互联网或其他数据传输方式发送至该用户指定另一用户终端(如101-N)和103,并或通过103、或直接发送用户自主扩展词汇语义编码至编码结果分析器(104)
执行步骤210:另一用户终端101-2至-N中的译文自动转换程序将原文语义统一编码结果转换为另一用户终端用户指定自然语言译文及语义标注结果,并根据用户选择指令显示自然语言译文或语义标注结果
执行步骤211:103接收原文统一编码结果并发送至107,并将用户自主扩展词汇语义编码发送至104
执行步骤212:104接收原文统一编码结果,统计分析用户自主扩展词汇语义编码,并将统计分析结果发送至103
执行步骤213:103相应程序根据规则判别是否发出在105该种自然语言语义统一编码词库添加、调整或删除编码对像及编码的指令
实施例2:原文语义自动标注基本流程,参见图7
执行步骤701,原文语义自动编码程序自动切分原文句子中的词汇和短语
执行步骤702,根据切分结果从原文统一编码词库、句法库中调用原文句子词汇和短语的所有语义项,
执行步骤703,根据有效句型搭配规则判别原文句子的句法成分信息项、所缺少的句法成分信息项(如句子核心成分、核心动词……)、原文句子词汇和短语的可优选语义项,将判别结果显示于原文语义统一编码人机交互模板;
执行步骤704,调整还是确认自动优选统一编码?确认,执行步骤709,调整,执行步骤705
执行步骤705,是否添加自定义语义描述?否,执行步骤706,是,执行步骤707,
执行步骤706,根据用户选择调用可供调整语义项
执行步骤707,循环调用图3所示原文语义统一编码人机交互模板供用户进行自定义语义描述文字的语义统一编码人机交互操作,
执行步骤708,是否确认原文语义统一编码?
执行步骤709,获得以句子为单元的原文词汇、短语、句法信息语义统一编码结果,并将用户自定义语义描述文字的语义统一编码(用户最终确定的词汇、短语文字符号的语义描述项、各种句法成分信息项的语义统一编码)结果打包为该词汇、短语符号的用户自主扩展词汇语义统一编码,对应每一译文句子生成以句子为单元的语义标注结果调用代码
实施例3:自动生成译文及译文浏览页面调用基本流程,参见图8、图6
执行步骤801,译文自动转换程序用原文句子语义统一编码结果调用译文统一编码词库、句法库中的统一编码对像;
执行步骤802,调用结果是多个编码对像?是,执行803;否,执行804
执行步骤803,根据编码对像使用频率等条件对相同语义编码的多个对像进行优选;
执行步骤804,根据译文自动转换规则,用译文编码对像中的译文词汇表层符号自动生成译文、用译文编码对像中的语义项自动生成译文语义标注结果及调用符号
执行步骤805,通过终端应用程序插入如图6-1所示,在即时通讯、电子邮件、网页文档等信息浏览页面显示自动生成译文及译文语义标注结果调用符
执行步骤806,是否调用译文语义标注结果?否,返回805,是,执行807
执行步骤807,调用并显示译文语义标注结果(如以网页链接显示如图4-2、4-3、4-4所示以句子为单元的译文语义标注结果)。
实施例4:参见图6
当用户选中6-3所示需翻译原文,点击6-2,则调用原文语义标注人机交互模板,执行实施例1
当用户点击6-1语义标注结果调用代码标识符,则调用或链接显示如图4-2、4-3、4-4所示以句子为单元的译文语义标注结果
本发明虽然不能像人工翻译一样得到自然、流畅的自然语言翻译结果,但是,与现有的自动翻译和人工辅助翻译方法相比,具有显而易见的应用优势。其应用优势是:1)用户只需采用母语对原文进行一次人机交互,即可自动翻译为任意其它自然语言。2)可保障译文语义信息传递质量。3)即使用户自造新词、新缩略语、新固定搭配,也能实现语义信息传递质量可靠的多语翻译。4)通过本系统翻译服务中心支持,用的人越多翻译自动化水平越高。因此,特别适用于进行网络信息元数据、即时通讯、电子邮件、网页信息等互联网通讯信息的自然语言信息翻译。

Claims (10)

1.一种互联网信息自然语言翻译通用方法和系统。其方法特征包括:
A、用户终端向本系统业务处理主机发出至少一种自然语言的语义统一编码词库和句法库、原文语义统一编码人机交互模板、原文语义自动编码程序、译文及译文语义标注结果转换程序等终端应用程序的下载请求,并接收和安装上述终端应用程序;
B、用户终端调用原文语义统一编码人机交互模板,根据用户输入需翻译原文信息后的操作指令,或通过原文语义自动编码程序调用语义统一编码对像显示于原文语义统一编码人机交互模板,或发送需翻译原文至系统业务处理主机,通过系统业务处理主机内置搜索引擎检索原文语义编码语料库中已有统一编码结果相应原文并反馈至用户终端,由用户终端原文语义自动编码程序根据所接收原文语义统一编码结果调用语义统一编码对像显示于原文端人机交互模板;
C、当用户对人机交互模板上所显示的原文语义统一编码对像进行调整、添加并进行确认,则用户终端获得原文语义统一编码最终结果;
D、用户终端根据用户发出的操作指令,或通过互联网或其它数据通讯方式发送原文语义统一编码结果至另一用户终端及系统业务处理主机,或通过本终端译文转换程序将原文语义统一编码结果转换为译文及译文语义标注结果;
E、另一用户终端接收原文语义统一编码结果,并通过该用户终端译文转换程序将原文统一编码结果自动转换生成为译文及译文语义标注结果;
F、系统业务处理主机接收原文语义统一编码结果,将原文及语义统一编码结果存储至原文统一编码语料库,将用户自主扩展词汇语义统一编码发送至编码结果分析器;
G、编码结果分析器接收系统业务处理主机发送的用户自主扩展词汇语义统一编码,进行用户自主扩展词汇语义统一编码统计、分析,并将统计分析结果发送至系统业务处理主机;
H、系统业务处理主机相关应用程序根据统计分析结果处理方法,发出在语义统一编码词库添加新增用户自主扩展词汇语义统一编码指令。
2.根据权利要求1步骤A所述的自然语言语义统一编码词库的数据内容结构由词汇语义统一编码对像及词汇语义统一编码组成;其中的语义统一编码用于用户终端相关应用程序调用在不同自然语言语义统一编码词库中具有相同语义统一编码的编码对像;所述的词汇语义统一编码对像包括各种自然语言(如:汉、英、法、俄……)词汇、短语表层符号及所有不同的语义项;所述的词汇语义统一编码是指对各种自然语言词汇、短语表层符号及各个不同语义项分别设置的可多语共享的语义统一编码;并且,一个语义统一编码在同一种语言中可对应于多个语义相同的编码对像。
3.根据权利要求1步骤A所述的自然语言语义统一编码句法库数据内容结构由各种自然语言通用的句法信息编码对像及对应的句法信息统一编码组成;其中的句法信息统一编码可由用户终端相关应用程序调用在不同自然语言语义统一编码句法库中具有相同语义统一编码的编码对像;所述的句法信息编码对像至少包括主、谓、宾、修、补等句法成分信息项,过去时、现在时、将来时等时态信息项;并且,一个句法信息统一编码在同一种语言中仅可对应于一个编码对像。
4.根据权利要求1步骤A所述的原文语义自动编码程序是指可通过原文语义自动编码方法自动判别需翻译原文句子的词汇、短语表层符号的语义项、各种句法成分信息项的程序;所述的原文语义自动编码方法至少包括,当用户选择对所输入原文进行语义统一编码时,原文语义自动编码程序自动切分原文句子中的词汇和短语,根据切分结果从原文统一编码词库、句法库中调用原文句子词汇和短语的所有语义项,根据有效句型搭配规则判别原文句子的句法成分信息项、所缺少的句法成分信息项(如句子核心成分、核心动词……)、原文句子词汇和短语的可优选语义项,并将上述判别结果显示于原文语义统一编码人机交互模板;当用户在原文语义统一编码人机交互模板中进行原文语义编码对像调整、添加、确认,则获得以句子为单元的原文词汇、短语、句法信息语义统一编码结果。
5.根据权利要求1步骤A、D、E所述的译文自动转换程序中的译文自动转换方法至少包括,用原文句子语义统一编码结果调用译文统一编码词库、句法库中的统一编码对像;如果原文句子语义统一编码结果在译文统一编码词库中调用出多个编码对像,则根据编码对像使用频率等条件对相同语义编码的多个对像进行优选;根据译文自动转换规则,用译文编码对像中的译文词汇表层符号自动生成译文,用译文编码对像中的语义项自动生成译文语义标注结果;并根据译文浏览用户选择,将译文或译文语义标注结果显示于译文浏览用户终端。
6.根据权利要求1步骤C所述的当用户对人机交互模板上所显示的原文语义统一编码对像进行添加的方法和步骤A、D、E所述的译文自动转换程序中的译文自动转换方法还包括,当用户在原文语义统一编码人机交互模板的原文词汇、短语语义项描述栏中直接输入词汇、短语符号的自定义语义描述项时,相关应用程序循环调用原文语义统一编码人机交互模板;当用户进行该词汇、短语符号的自定义语义描述的语义统一编码人机交互操作后,将自定义语义描述的语义统一编码结果打包为该词汇、短语符号的用户自主扩展语义统一编码;当由译文自动转换程序自动生成译文时,将自定义语义描述的语义统一编码结果直接转换生成为语义描述译文。
7.根据权利要求1步骤G所述的编码结果分析器进行原文语义编码结果分析处理的方法包括,对用户自主扩展词汇语义统一编码进行相似性分析和使用频率统计,并将分析、统计结果发送至业务处理主机。
8.根据权利要求1步骤A所述的原文语义统一编码人机交互模板是指可实现原文语义统一编码对像调整、添加和确认等人机交互操作的各种类型可视化界面;其人机交互方法包括,当用户在原文输入栏或句子成分信息交互模板直接输入的需翻译原文信息时显示用户用户输入信息;当用户选择所输入句子及句子成分并要求进行原文语义编码操作,包括拖动所选字符串在句子成分信息可视化交互模板中的所处位置时,显示原文语义自动编码程序调用的语义编码对像及其它相关信息。
9.根据权利要求1所述的方法还包括,译文自动转换程序可对应于每一译文句子自动生成并添加的译文语义标注结果调用代码及标识符,终端应用程序可将译文自动转换程序所生成译文及译文语义标注结果调用代码标识符插入到即时通讯、电子邮件、网页的文档信息显示页面进行显示;当用户在即时通讯、电子邮件、网页文档等信息浏览页面点击语义标注结果调用代码标识符时,则直接调用该句子语义标注结果进行显示(如直接链接该句子语义标注结果显示页面)。
10.本发明的系统特征包括:
系统业务处理主机,用于接收和处理来自应用服务器的信息处理指令,调用、发送终端应用程序至用户终端,接收、处理来自编码结果分析器的信息;
内置搜索引擎,用于检索原文语义统一编码语料库各类数据;
编码结果分析器,用于进行原文语义编码结果分析处理,以及发送分析、统计结果至业务处理主机;
应用服务器,用于解析来自用户终端的信息处理指令,发送解析后的处理指令至业务处理主机,并将业务处理主机处理结果转换为终端可接受数据反馈至用户终端;
用户终端,用于接收、安装终端应用程序,执行原文语义自动编码、原文语义编码人机交互及译文转换程序,向应用服务器发送信息及相关处理指令,接收应用服务器发送的信息;
系统数据库,用于存储系统应用相关数据和终端应用程序,包括各种自然语言语义统一编码词库、句法库、原文语义统一编码语料库,以及存储用户终端原文语义统一编码人机交互模板、原文语义自动编码程序、译文及译文语义标注结果转换程序的数据库。
CNA2008100003273A 2008-01-07 2008-01-07 一种互联网信息自然语言翻译通用方法和系统 Pending CN101196883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008100003273A CN101196883A (zh) 2008-01-07 2008-01-07 一种互联网信息自然语言翻译通用方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008100003273A CN101196883A (zh) 2008-01-07 2008-01-07 一种互联网信息自然语言翻译通用方法和系统

Publications (1)

Publication Number Publication Date
CN101196883A true CN101196883A (zh) 2008-06-11

Family

ID=39547310

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100003273A Pending CN101196883A (zh) 2008-01-07 2008-01-07 一种互联网信息自然语言翻译通用方法和系统

Country Status (1)

Country Link
CN (1) CN101196883A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011130887A1 (zh) * 2010-04-20 2011-10-27 Zhao Feng 不同语种网络同步通讯技术
CN105339889A (zh) * 2013-03-15 2016-02-17 谷歌公司 用于计算机应用的语言翻译本地化的技术
CN105354026A (zh) * 2015-10-29 2016-02-24 杭州佳谷数控技术有限公司 一种内衣机控制系统的多语言实现方法
CN105677643A (zh) * 2016-03-14 2016-06-15 张广睿 一种人工结合机器的笔译方法
RU2741622C2 (ru) * 2016-04-28 2021-01-29 Масуд АМРИ Система голосового управления

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011130887A1 (zh) * 2010-04-20 2011-10-27 Zhao Feng 不同语种网络同步通讯技术
CN105339889A (zh) * 2013-03-15 2016-02-17 谷歌公司 用于计算机应用的语言翻译本地化的技术
CN105339889B (zh) * 2013-03-15 2018-11-02 谷歌有限责任公司 用于计算机应用的语言翻译本地化的技术
CN105354026A (zh) * 2015-10-29 2016-02-24 杭州佳谷数控技术有限公司 一种内衣机控制系统的多语言实现方法
CN105677643A (zh) * 2016-03-14 2016-06-15 张广睿 一种人工结合机器的笔译方法
RU2741622C2 (ru) * 2016-04-28 2021-01-29 Масуд АМРИ Система голосового управления
US10915709B2 (en) 2016-04-28 2021-02-09 Masoud Amri Voice-controlled system

Similar Documents

Publication Publication Date Title
CN101520786B (zh) 一种输入法词典的实现方法和输入法系统
US8346536B2 (en) System and method for multi-lingual information retrieval
McEnery et al. The Lancaster Corpus of Mandarin Chinese: A corpus for monolingual and contrastive language study
CN1815477B (zh) 用于提供基于标记语言的限定词的方法和系统
Hussain Resources for Urdu language processing
US20070011160A1 (en) Literacy automation software
CN101137983A (zh) 嵌入式翻译增强的搜索
Ehrmann et al. JRC-names: Multilingual entity name variants and titles as linked data
CN112765999A (zh) 机器翻译双语对照方法及系统
CN101196883A (zh) 一种互联网信息自然语言翻译通用方法和系统
Leidner An evaluation dataset for the toponym resolution task
KR20040024619A (ko) 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트생성 알고리즘, 장치 및 프로그램
CN1492354A (zh) 多国文字信息搜索方法和多国文字信息搜索引擎系统
US8041556B2 (en) Chinese to english translation tool
CN101777043A (zh) 一种文字转换方法及装置
Xiao et al. Developing Asian language corpora: standards and practice
CN101576885B (zh) 提取动态生成网页内容的技术方案
Hampson et al. CULTURA: A metadata-rich environment to support the enhanced interrogation of cultural collections
L'Homme A methodology for describing collocations in a specialised dictionary
CN104778232A (zh) 一种基于长查询的搜索结果的优化方法和装置
JP2011181109A (ja) 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体
CN111966940A (zh) 一种基于用户请求序列的目标数据定位方法和装置
CN113448563B (zh) 一种LaTeX在线协作平台
US20230044287A1 (en) Semantics based data and metadata mapping
KR101498456B1 (ko) 백과사전을 이용한 번역 서비스 장치 및 그 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080611