CN101923858A - 一种实时同步互译语音终端 - Google Patents

一种实时同步互译语音终端 Download PDF

Info

Publication number
CN101923858A
CN101923858A CN2009100402969A CN200910040296A CN101923858A CN 101923858 A CN101923858 A CN 101923858A CN 2009100402969 A CN2009100402969 A CN 2009100402969A CN 200910040296 A CN200910040296 A CN 200910040296A CN 101923858 A CN101923858 A CN 101923858A
Authority
CN
China
Prior art keywords
voice
natural language
semantic
terminal
word message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009100402969A
Other languages
English (en)
Other versions
CN101923858B (zh
Inventor
劳英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2009100402969A priority Critical patent/CN101923858B/zh
Publication of CN101923858A publication Critical patent/CN101923858A/zh
Application granted granted Critical
Publication of CN101923858B publication Critical patent/CN101923858B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种以语音终端为任何自然语音信号及或文字信息实现的相互翻译系统,语音终端能接收语音信号及或文字信息转换为3位元集编码语义数据,语义数据以有线及或无线方式传送至任何语音终端,具备任何语言翻译程式模细,包括自然语言语音库、文字辞库及其语法控制模细,可对应翻译为任何自然语言及/或文字信息;语音终端通过局域无线数据网络(Private Wireless Data Network)进行实时的语音及/或文字信息翻译;及或于全球语音及/或数据网络(Public Wireless Data Network)交换3位元集编码语义数据,实现远端真人翻译员视像在线同步语音及/或文字信息翻译服务。

Description

一种实时同步互译语音终端
技术领域
本发明涉及一种任意自然语言间的语音及文字信息的实时互译系统及电子装置,特别涉及一种用于无线移动语音终端的工具及在线真人翻译服务。
背景技术
在世界的不同地域内,不同的社群及民族应用着不同的语言及文字。各地域的人群基于不同的活动目的:包括旅行、贸易及文化学习等而流动,需要相互学习彼此间不同的语言及文字。目前世界上被普遍应用的语言约有4至5千种之多。掌握着不同的语言或文字的人群在需要相互沟通的时候,客观上要求其中一方必须要认识对方的语言或文字,并以对方能认知的语言或文字进行意思表达。
计算机具备一定的计算能力,以计算机发展机器翻译是世界各地专家一直在开发及钻研的课题,因为计算机可以存储及转换大量的词汇数据,使不同语言或文字间的互译以自动方式实现。其运作形式是输入源文字词汇,转换为语义与之匹配的另一种文字的词汇。无论哪一种语言或文字都有其自身语法固有的特性,任何两种语言或文字之间都不存在句子的语法结构完全相同、词义一一对应的直接转换情况。而且无论哪一种语言或文字系统内都存在同音词及一词多义等情况,其区分更为微妙。过往翻译质量的低劣,究其原因关键在于不能正确地认知源语言文字的语义。
世界上的文字,大概有两种大类型,一种是象形文字,如汉字,另一种是源自印欧语系的各种拼音文字。拼音文字语种比较接近,所以在互译时容易得到较好的翻译质量;象形文字的汉语,文字结构的分歧比较大,拼音文字与汉语互译时在语法上出现的分歧更大,难以按顺序进行词汇的一一对应,因此很难得到较好的翻译质量。
过往的机器翻译,大多都使用诺姆乔姆斯基(Noam Chomsky)的深层结构方式,任何语言及/或文字需先与深层结构语言建立映射对应关系,此结构语言是以非固定长度的英语文字为基础,各种语言通过该映射对应关系实现互译功能。目前以计算机实现翻译系统的技术,主要是语音通过语音接收器进行认知,转换为文字信息并以现时的文字编码方式储存及传输。现时的文字编码方式是指以8位元组成1字节的ASCII、Big-5、GB18030或Unicode等。本发明的3位元集编码形式语义数字数据,其本质仍然是文字编码。
最早期的机器翻译主要是文字翻译文字,目前通过电子翻译系统得到的质量并不理想,准确率大概只能达到约65-75%。以机器实现两种自然语言的语音对译就更难,因为语音需要通过将语音转换为文字(Speech-to-Text)、文字信息再转译为另一种语言的文字信息、然后再将后一种语言的文字信息转换为语音(Text-to-Speech),该文字信息转换成语音的过程要求必须具备所属语言的语法逻辑,才能成功转换合成为自然语言语音;完成上述过程才能达到两种语言的沟通对译过程。
目前语音转换文字技术准确率不高,最大原因是由于对同音及近音词汇的错误判断。机器无法对同音及近音词汇进行正确判断。现时市场上应用的IBM ViaVoice语音转换文字产品,准确率亦只能达到约65-75%,以此准确率将得到的文字信息再翻译为另一种文字,出错率更高,所得到的语义往往无法理解,没法达到沟通的目的。过往自然语言的语音认知技术,都需要多种层次的语音档进行匹配,包括以词组、片语、短句等混合层次的配合才能得到认知结果,但大量多层次的语音档极耗硬件及运算资源;多语言互译所占用的资源更是以倍数增加。
随身的翻译通信电子终端有翻译手帐及翻译笔等,翻译手帐是以键盘输入源文字信息进行翻译,但常遭遇到输入者不懂得如何输入个别的字或词,导致无法通过翻译手帐来得到译文。翻译笔是以笔尖的扫描器输入文字图象,图象被识别後转换为文字信息,文字再进行互译,但只局限于词组间的互译;而且输入、识别及转换的过程耗时,只适合小量短句的翻译。可以推想,最方便快捷的互译方式是以任一种自然语言的语音输入,然後转译为另一种自然语言的语音及/或文字输出。
不同语种间的互译需求是巨大的。在生活上不同语种的人会面对面相遇,或以电话进行语音沟通;若双方互不懂对方的语言,那就不可能以任何语言进行沟通。移动电话的应用在现代生活中占着重要的一席之位,移动电话目前的应用数量已达到30多亿,是世界人口的一半数量。以30多亿的移动电话渗透率考量,移动电话能够充当最理想的随身语音翻译系统。人类长时间沟通的目的是信息交换,信息交换的本质其实是语义交换,任何自然语言或文字信息间的互译的本质是通过语义的匹配建立起对应映射过程,这样才能得到准确的翻译质量。最理想是每种自然语言以最小容量及活动性的模组化方式安装于电子系统内,多个语言翻译程式模组亦不致产生太大负担。
语音通信系统从早期的连线模拟到现在的无线数字方式,从模拟信号到数字数据,从无线的低速到高速数据传输,语音及信息通信确实达到一个飞跃的发展。最早期的电话是以模拟方式通信,语音的输入通过话筒获取电子信号;信号传输至另一方的听筒,电子信号响应听筒产生语音输出。现时的数字语音传输方式是语音通过话筒输入信号,信号以频率取样方式进行数字编码,相互通信传输的是数字数据,数字转换为电子信号响应听筒产生语音输出。电子信号转换数字数据,是模拟转数字(A/D)输入,数字数据亦需要还原为电子信号;即是数字转模拟(D/A)输出,数字数据能通过连线及或无线方式大量同步交换传输。
无线移动通信从第一代发展到第二代的2G、2.5G到目前的3G,不同的数字转变,是代表移动终端能以多少频宽传输数据,2G的频宽能满足语音信号由模拟转为数字的通信;2.5G频宽是语音终端已经支持无线通信网络进行连线游戏、查找及传输信息;3G频宽及语音终端配备视像摄录镜头,频宽能支持实时同步连续视像数据相互传输,并可以实现语音及连续视像实时同步相互通信。3G语音终端亦已具备足够的运算能力、记忆体及网页浏览功能,能够浏览网站,发出访问请求及下载网页浏览,上传信息及下载数据等。
本发明还解决了语音转换为文字(Speech-to-Text)获取正确语义的方法,人类发出语音表达语义,不同语音组成不同的特定语义,任何的一种自然语言一般都是以百多个至数千个不同语音组成整个语言系统,语言及文字是人类重要的沟通方式,任一种语言及文字都会因应社会的发展变化而不断出现新的语义及词汇,因此语言文字的互译系统内的语义属性对应定义,必需要经常更新才能适应各方语言及/或文字在社会沟通的发展需要。目前互联网在世界范围内是一个最宽广的信息传播平台,接上全球语音及/或数据网络的语音终端,是最理想的自然语言及文字信息实时同步翻译系统装置。
过往人类对任何电子系统都是通过肢体的触控来输入指令达到操控的目的,例如简单的电视遥控器,人类以手指按键输入简单指令,电子信号通过无线的红外线装置发送到电视机的接收器,信号对应电视机内芯片组的指令,并能够响应机内电子元件,完成一些简单的开/关、频道选择或调控画面及音量等功能。现代计算机的发展最早期是通过输入不同限定的指令完成简单操控,但需以键盘输入与中央处理器(CPU)完全匹配的指令才能完成简单操作,指令并非人类惯常用的语言文字信息,对用户造成极大的记忆负担。
及后发展至视觉用户介面(GUI,Graphical User Interface),是种坐标式的输入装置与显示屏内所见的图像符号(Icon)进行对应,鼠标点选指定图像符号并与中央处理器(CPU)不同的指令集映射对应并完成操作功能,但每增加计算机的系统功能或应用程序工具,都会大量扩大图像符号在显示屏占据的位置,对人类的视觉造成颇大负担。人类与机器互动的最直接方法是通过语音表示语义,语义数据与电子系统内的芯片或中央处理器(CPU)映射对应,语音替代点市图像符号或按键输入应用程序;以语音信号执行指令集或程序。
发明内容
因此,本发明的目的在于:提供一种可进行实时互译的语音终端。
为了实现上述发明目的,本发明采用以下技术方案:一语言选择模组,根据用户的选择设定接收方或发送方语音和/或文字信息所使用的自然语言类别,所述的接收方或发送方使用的自然语言可以是为同一类别,也可以为不同类别;
一处理模组,接收及处理用户所选择的自然语言的语音及/或文字信息,并完成所选定的自然语言的语音及/或文字信息与3位元集编码形式的语义数字数据的相互转换,其内包括有语义认知模组,能够对识别过程中自然语言的语音及/或文字信息中出现的同音及近音词组,进行排歧处理,判断正确语义,从而转换得到正确的3位元集编码形式的语义数字数据;及语法控制模组,在语义数字数据翻译合成为自然语言的语音及/或文字信息过程中对自然语言的语法进行修正过程;
发送器,发送所述3位元集编码形式的语义数字数据,通过无线网络以无线电信号方式发出;
接收器,接收发送自于其它语音终端的无线电信号并将3位元集编码形式的语义数字数据的数字信号传送至所述处理模组;
所述语音终端包含有3位元集编码语义数据库,包括
一自然语言语音库,是以语义为匹配基础,将各种自然语言的语音与汉语词组一一映射对应而建立的映射数据库;
一文字辞库,是以语义为匹配基础,将其它自然语言文字词组与汉语词组一一映射对应而建立的映射数据库。
本发明是以语音终端实现自然语言的语音及/或文字信息的翻译过程。所述语音终端是指以语音及/或文字信息沟通的电话、移动电话、具备通信信息交换功能的电子终端及任何电子系统等。最简单的语音终端已具有语音发送及接收功能,语音信号以话筒接收及传送,以听筒播放;进一步发展起来的数字语音终端更具备了对文字信息的发送及接收进行简单处理的功能。
本发明还解决了语音转换为文字(Speech-to-Text)获取正确语义的方法,接收到的语音信号通过语音编码器,编码器是采用与自然语言语音库内相同的语音编码方式编码,匹配语音库内的语音档,能转换为3位元集编码形式的语义数字数据,经过语义认知模组,获取正确语义数据,与语音终端或任何电子系统的芯片或中央处理器(CPU)内的指令集或程序一一映射对应,语音执行指令集响应电子元件操作。
任何文字信息对应为汉语语义数据,通过不同的语法控制模组,映射至自然语言语音库内的语音档,经过语音合成器,可转换为连续语音信号输出。
语义数据的传送是在语音终端接上有线及/或无线通信网络,除了具备语音相互传送功能,更具备文字信息相互交换功能,通过电信运营商的短信交换客服中心,相互发送及接收文字信息及或多媒体信息。现有的通信系统已能提供一种局域无线数据网络,例如已普遍应用的蓝牙(Bluetooth)通信技术,是一种短距离的无线连接技术,在Piconet网络的10米直径范围内,在最多可以承载8台带有监牙设备的通信终端Piconet网内进行无线语音及数据相互交换,因此通信终端能通过发送及接收3位元集编码形式的语义数据,实现任意自然语言及/或文字信息同步互译的目的。
本发明在任意不同自然语言之间实行语音及/或文字信息的相互翻译装置能应用于任何语音终端及/或任何电子系统,能相互传送及接收以3位元集编码形式的数字数据所表达的唯一确切语义,进行在线的同步互译。本发明更能利用大量在线的计算机及自然语言语义数据库,通过在线伺服器获取任何自然语言翻译程序模组,并下载至语音终端或其它电子系统。所述翻译程序模组包括任一种自然语言语音库、文字辞库及其语法控制模组等,对应3位元集编码语义数据,当通过具视像镜头的语音终端时,交换正确的语义数据,可实现任一语种的真人视像式自然语言语音及/或文字信息的实时互译;并可提供真人翻译员的在线翻译服务。
本发明还实现了任何语音信号操控任何电子元件及/或机器的方法,语音终端及/或任何电子系统接收已选择的任何自然语言语音信号后,转换为3位元集编码形式的语义数字数据,通过语义认知模组得到确切操控语义,映射至任何电子系统内的指令集或程序,执行其操控的过程。同时,亦可以实现任何文字信息转换为任何自然语言语音信号的方法,接入网络的语音终端,能够在无限的文字信息内获取有用的知识,转换为3位元集编码形式的语义数字数据,通过不同语法控制模组,合成或翻译为任何自然语言语音信号。
本发明所述的3位元集编码形式的语义数据与一般文字信息的本质是一样,可以被理解为文字信息(Text Information),是以数字数据形式表达语义,当解释语音转换文字(Speech-to-Text)及文字转换语音(Text-to-Speech)内容,亦能被理解为是相同含义。对于文字信息转换为语音(Text-to-Speech)的技术,本发明能以最小位元量的语义数据,以网络上无限的各种语言文字信息转换为任何自然语言语音信号输出。
附图说明
图1、本发明总体流程示意图;
图2、语音终端完成翻译过程的流程示意图;
图3、语音信号转换、传送及翻译流程图;
图4、文字信息转换、传送及翻译流程图;
图5、语音信号及/或文字信息转换、传送及翻译流程图;
图6a、语音或文字与3位元集编码的语义数据的直接映射示意图;
图6b、自然语言的语音及/或文字信息翻译系统结构图;
图7、英语语音内容翻译为日语语音示例;
图8、局域无线数据网络传送及接收语义数据示意图;
图9、全球语音及数据网络的在线翻译服务及翻译程式模组下载示意图;
图10、语音操控任何电子系统元件及/或机器运作流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明。应当理解,此处所描述的优选实施例仅用于说明利解释本发明,并不是对本发明的限定。
参阅图1,图1是以任一种自然语言作为源语言的语音及/或文字信息通过3位元集编码的语义数据翻译为另一种同为自然语言的目标语言的语音及/或文字信息的说明图。语音终端100A是指第一个语音终端,语音终端100B是指第二个语音终端。当第一个用户使用语音终端100A时,其选用第一种自然语言进行语音通话及/或发送文字信息,该自然语言语音或文字信息102A在第一个语音终端内通过处理模组103A被转换成以3位元集编码形式编码的语义数据104,然后在无线网络中以无线电信号方式传输并由第二个语音终端100B所接收。第二个语音终端100B接收语义数据104后通过处理模组103B翻译成被第二个用户所选择的自然语言语音及/或文字信息102B。
对于与自然语言语音及/或文字信息一一对应的3位元集编码数字数据104的编码方法,本发明采用一种用于电子、信息及通信系统的交换内码及其应用的发明专利,申请号为200810218455.5,该交换内码应用于电子、信息及通信系统内,是种对文字的字元、字母或符号的统一编码。进一步解释,是以3位元作为一个位元集、每个位元集只有8个编码组合,以最少2个或2个以上的位元集对汉字编码,例如,以2个位元集为例的编码组合是23x23共64种方式,以3个位元集的编码组合是23x23x23共512种方式,以4个位元集为例的编码组合是23x23x23x23共4096种方式等,依此类推。该发明的特征是利用汉字部首系统具有分类及归纳特性,以语义匹配为原则建立起任一种自然语言与汉语的映射对应关系,间接地使其他的自然语言具备了语义属性的自动分类。文字辞库是根据相同语义,将英语等其他文字辞库与汉语词汇建立语义的映射对应关系,从而实现以最少位元量映射/表达其他文字,传送一种单一的语义编码数据进行互译,同时以固定长度的位元数据形式实现更高速的排序算法。同理,自然语言语音库是根据相同语义,将其他自然语言语音系统与汉语词汇建立语义的映射对应关系,从而实现以最少位元量映射/表达其他自然语言语音,传送一种单一的语义编码数据进行互译。
参阅图2,图2是移动语音终端通过视像、语音及文字等,以无线方式传送及接收以3位元集编码方式表达的语义数据,组成实时翻译系统结构图。语音终端100内的摄像器201具备摄录功能,能够在翻译过程中同步拍摄用户的表情及动作。
用户首先选择所使用的语言,通过麦克风202获取用户源语音信号,经语音编码器1025编为语音档格式,与自然语言语音库1022进行匹配,转换为以3位元集编码形式的语义数字数据104,该语义数字数据是与自然语言语音所表达的语义匹配对应的,能正确的、唯一的表达语义,其匹配关系可通过自然语言语音库1022得以限定。语义数据更可与电子系统内的芯片或中央处理器(CPU)的指令集或程序一一映射对应,语音信号匹配语义数据,替代点击图像或应用程序按键;以语音信号执行对应的指令集或程序,响应电子元件操作。
然后,发送组件105通过无线网络以无线信号方式传输出去。另一方面,该用户的接收组件106亦从无线网络以无线信号方式接收到信号,并将3位元集编码的语义数据由处理器103,根据所选定的语言,及其语法控制模组1021的处理,对翻译过程的语法进行纠正,语法控制后的语义数据经过语音合成器1026,3位元集编码形式的语义数字数据以其本已对应的自然语言语音库1022内的语音档,翻译合成并转换为具有正确语法的自然语言语音档,通过扬声器203以完整自然语音信号方式输出。
与自然语言语音库1022的翻译及合成为具有正确语法的自然语言语音档,通过扬声器203以自然语音信号方式输出。完整语音信号输出。
语音终端100设有文字信息输入介面205,任何文字词汇均可以语义为基础,一一对应及转换3位元集编码的语义数据104,通过发送器105以无线方式传输至另一语音终端100。在此过程中,语义数据104可经选择后转换翻译为任何自然语言的语音及/或文字信息,通过语法控制模组1021纠正语法後,可通过扬声器203及显示器204显示用户表情、动作、及具有正确语法的自然语言语音及/或文字信息。
参阅图3,图3是语音信号输入选择、转换为3位元集编码的语义数据、传送、翻译及合成为语音信号输出流程图。首先在第一语音终端根据该用户需求选择其使用的自然语音的类别,此为步骤301;然后输入语音信号,此为步骤302;接着把语音信号与自然语言语音库1022的语音档进行匹配并转换为3位元集编码语义数据,此为步骤119,在此过程中通过语义认知模组1024,能够对语音信号出现的同音或近音词组,进行排歧处理判断正确语义;经排歧处理的正确语义数据,通过任何数据网络可传送至其他语音终端进行翻译,此为步骤120。
语音终端首先要选择输出语言类别311,在接收到正确的3位元集编码语义数据104转换为自然语音,此为过程121,在此转换过程中,进行所选语言的语法控制处理过程。通过语法控制模组1021能够对不同自然语音进行语法纠正,通过自然语言语音库1022对应的语音档合成并翻译为所选定的自然语言的语音信号输出,此为步骤312。第二用户终端选择的语言与第一用户终端选择的语言可以相同,也可以不同。甚至,用户可同时选择一种或多种的语言作为输入语言或输出语言。
对于所述的语义认知处理过程119,本发明亦会使用一种全范围语义信息综合认知系统,见申请号为200710030770.0的中国发明专利申请,配合上述提及的一种用于电子、信息及通信系统的交换内码及其应用的发明专利,该发明公开了对输入的自然语言及文字信息进行正确语义判断的技术方案,本发明的语义认知模组1024就是基于该发明所公开的技术方案所设置,认知模组能够对任何自然语言的语音及文字信息存在的同音及近音词组,以及一词多音、一词多义等情况进行综合认知、排歧处理,根据自然语言语音库及文字辞库,与上下文匹配选出最正确语义。
参阅图4,图4是文字信息输入选择、转换为3位元集编码的语义数据、传送、翻译及转换为文字信息输出流程图。首先在第一语音终端根据该用户的需求选择输入文字类别,此为步骤401;然后输入所选定的文字信息,此为步骤402,并根据文字词汇1023对应到汉语语义数据库,并一一对应及转换为3位元集编码的语义数据104。同理,转换过程中通过语义认知模细1024,对源文字信息出现的一词多义词组,进行排歧处理判断正确语义,此为语义认知处理过程119。经排歧处理的正确语义数据,通过数据网络传送至选定的第二语音终端100。接收到正确语义数据储存后,第二语音终端按用户的文字输出选择,步骤411,在第二语音终端以3位元集编码的语义数据104翻译为已选的自然语言文字信息。在此过程中,完成翻译及语法控制处理过程121,通过语法控制模组1021能够对不同文字信息进行语法纠正,对应用户所选的语言类别文字词汇1023翻译并输出表达的文字信息,此为步骤412。
参阅图5,图5是语音信号及或文字信息输入选择、转换为3位元集编码语义数据、传送、翻译及转换为文字信息输出流程图。首先选择输入自然语言语音及/或文字类别,如步骤301或401;输入自然语音信号及/或文字信息,如步骤302或402。语音信号匹配自然语言语音库1022,或文字信息匹配文字词汇1023,从而转换为3位元集编码的语义数据104。同理,在此过程,经过语义认知模组1024对在转换、认知过程出现的一词多义、一音多义等歧义情况根据上下文语境进行自动排歧处理,并将得到的正确的3位元集编码语义数据传输到任一个第二语音终端。第二语音终端接收到的是表达着正确语义的3位元集编码语义数据,根据第二语音终端的用户所选择的语言及语法控制模组1021进行处理,并根据第二语音终端用户的需求以自然语音信号及/或以文字信息输出,步骤312或412。
实施例
下面根据附图,对本发明的实施方式和系统结构特征进行进一步详细的说明。
现代普遍应用的自然语言都有标准的语音系统及文字词汇表示特定语义,例如汉语的语音系统,是由不同的声母、韵母及四种声调组成四百多个音节;日语的语音系统,是由五十音、浊音、半浊音及拗音等组成百多个音节。每种自然语言都可建立以音节为单位的语音库,对输入/输出的语音信号进行匹配及合成;每种现代文字系统都具备文字词汇进行匹配,从而以任何自然语言的语音库及文字辞库分别与汉语词汇按照相同语义方式建立一一映射关系语义数据库。
参阅图6a,图6a是语音或文字与3位元集编码的语义数据的直接映射示意图。以″苹果″为例,在英语中的发音为
Figure B2009100402969D0000091
汉语中的发音为″pínguǒ″,日语中的发音为″ringo″……,语音以拼音形式表示,分别处于自然语言语音库1022内不同的语音档,但却表达着唯一相同的语义,因此这些不同的语音档对应着同一个数字编码一一以3位元集形式编码的数字数据104。所述编码104,是指以n(n≥3)组二进制位元集进行编码,每个位元集有23=8种编码组合,因此,一共可提供(23)n种编码空间进行编码。同理地,对于文字而言,在英语中为″apple″,在汉语中为″苹果″,在日语中为″りんご″……在文字辞库1023内均可找到其各自的编码,但这些不同的编码却代表着相同的唯一的语义,因此也对应着唯一的以3位元集形式编码的语义数字数据104。
参阅图6b,图6是任何自然语言语音及/或文字信息于语音终端100内的相互翻译系统结构图。首先,输入任一种自然语言的语音信号及/或文字信息,见步骤601或602,该自然语言可以是汉语、英语、德语、法语、意大利语或西班牙语等任一种自然语言的一种。系统内部设置有自然语言语音库1022及文字辞库1023,输入的自然语言语音及/或文字信息分别已在上述数据库中匹配并转换为3位元集编码的语义数据104。在认知过程中,通过语义认知模组1024,对输入的自然语音信号,及/或文字信息出现的一词多义词组等,进行排歧处理、判断正确语义,从而获得正确的3位元集编码语义数据而传输出去。
另一方面,语音终端100在接收到3位元集编码的数据后可以翻译为任何自然语言语音信号601及或文字信息602。由于每种自然语言都有特定的语法规则,因此通过输出语言类别的选择,经过语法控制模组1021的处理能输出合符语法规则的自然语音信号601及/或文字信息602。语言翻译程式模组1027是指与3位元集编码语义数据库建立其映射关系,包括任何自然语言映射的自然语言语音库1022及文字信息系统映射的文字辞库1023及其各种语法控制模组1021,根据该自然语言特定的语法规则,就能翻译为用户所需用的任一自然语言语音及/或文字信息。
参阅图7,图7是英语语音内容翻译为日语语音内容的示例。英语自然语言语音的整句输入信号内容730为″I have pencil and paper″翻译日语语音整句内容731输出为″私は鉛筆と紙がぁります″该英语语音档732分别为″ī″、″hav″、
Figure B2009100402969D0000101
″and″、
Figure B2009100402969D0000102
以标音符号表示,该英语语音档对应的汉语语义映射词组733分别为″我″、″有″、″铅笔″、″及″、″纸″;汉语语义词汇以3位元集方式编码104,是指以n(n≥3)组二进制位元集进行编码,每个位元集有23=8种编码组合,因此,一共可提供(23)n种编码空间进行编码;语义数据直接翻译至日语语义映射词汇734,所述词汇730、733及734是相同语义词组,分别为″私″、″ぁります″、″鉛簟″、″と″、″紙″,通过日语语法控制模组1021处理後,日语自然语言内容731为″私は″、″鉛筆″、″と″、″紙ガ″、″ぁります″;与日语的自然语言语音库对应,合成为完整整句语音,并输出整句日语语音信号735,以罗马拼音表示分别为″watashiwa″、″enpitsu″、″to″、″kamiga″、″arimasu″。
参阅图8,图8是局域无线数据网络内相互传送及接收3位元集编码语义数据104进行翻译示意图。局部无线数据网络801是指一种短距离相互发送及接收数字数据的无线网络,目前应用的标准是蓝牙,使用蓝牙进行通信的终端,分为主叫方和它的通信对手受取方,主叫方可同时与7台受取方通信,因此可以把主叫方连同7台受取方共8台终端连接成为Piconet的子网。语音终端100于局部无线数据网络801可以无线方式实时相互传送及接收正确语义的3位元集编码语义数据。语音终端100输入英语语音信号,只交换单一的3位元集编码语义数据,网内的多个语音终端都能选择不同的语言类别,以接收到的3位元集编码语义数据,通过语法控制模组,翻译为已选的自然语言及/或文字信息,例如汉语、德语、法语、意大利语、西班牙语、日语、葡萄牙语;多方用户能以实时同步方式实现多种不同的自然语言及/或文字信息无线互译系统。
参阅图9,图9是全球语音及/或数据网络的在线同步自然语音及/或文字信息翻译服务,及下载任何自然语言翻译程式模组示意图。语音终端100通过全球语音及/或数据网络901相互传送及接收具正确语义的3位元集编码语义数据,可以有线及/或无线与任何电子终端905交换相同的3位元集编码语义数据,进行自然语音信号及/或文字信息翻译过程,本发明进一步利用大量在线计算机伺服器的自然语言语音库及文字辞库904,提供最大范围、最多语种及更准确的翻译服务902,通过在线伺服器获取任何自然语言翻译程式模组1027,所述翻译程式模组是指任一种自然语言语音库及/或文字辞库,及其语法控制模组,翻译程式模组下载至用户任何电子终端905实现翻译过程;及以真人翻译员903通过在线交换相同的3位元集编码语义数据,以实时同步方式提供任何自然语言语音及/或文字信息翻译传意服务902,传递至用户任何语音终端100及/或任何电子终端905。
另一方面,本发明还可以实现任何语音信号操控任何电子元件及/或机器,语音终端及/或任何电子系统要具备任一种电子系统控制模组,当接收已选择的任何自然语言语音信号后,转换为3位元集编码形式的语义数字数据,简单语音信号可直接映射至任何电子系统内的指令集或程序,复杂语音信号可通过语义认知模组进行排歧,得到确切操控语义;执行其操控的过程。
电子系统控制模组是指,电子系统内可以操控电子元件或机器的指令集,映射对应于3位元集编码形式的语义数字数据104。任何电子系统内的指令都是为特定功能而设,都会有其特定语义;例如关于音量的“调高”、“调低”,关于速度的“快点”、“慢点”等。输入语音信号匹配自然语言语音库1022转换为相关语义数据,对应及执行其指令集或程序,实现操控其相应电子元件或机器过程,任何电子系统的指令集都可以组成完整的简单或复杂的电子系统控制模组。
参阅图10,图10是语音操控任何电子系统元件及/或机器运作流程图。语音终端100通过全球语音及/或数据网络901下载或已安装任一种电子系统控制模组,输入语音信号1002通过无线话筒1001传送语音至语音终端100,语音终端把信号转换为3位元集编码形式的语义数字数据,对应其映射的指令集或程序,语音终端通过不同的无线传输协定,例如红外线或蓝牙,以电子信号或数据方式传送相应的指令集至不同的电子系统,例如通过红外线传送简单指令至家居电器1003,或通过蓝牙传送复杂指令至计算机系统1004。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种实时互译语音终端或电子系统,包括麦克风、扬声器、及文字信息输入输出模块,其特征在于包括:
一语言选择模组,根据用户的选择设定接收方或发送方语音和/或文字信息所使用的自然语言类别,所述的接收方或发送方使用的自然语言可以是为同一类别,也可以为不同类别;
一处理模组,接收及处理用户所选择的自然语言的语音及/或文字信息,并完成所选定的自然语言的语音及/或文字信息与3位元集编码形式的语义数字数据的相互转换,其内包括有语义认知模组,能够对识别过程中自然语言的语音及/或文字信息中出现的同音及近音词组,进行排歧处理,判断正确语义,从而转换得到正确的3位元集编码形式的语义数字数据;及语法控制模组,在语义数字数据翻译合成为自然语言的语音及/或文字信息过程中对自然语言的语法进行修正过程;
发送器,发送所述3位元集编码形式的语义数字数据,通过无线网络以无线电信号方式发出;
接收器,接收发送自于其它语音终端的无线电信号并将3位元集编码形式的语义数字数据的数字信号传送至所述处理模组;
所述语音终端包含有3位元集编码语义数据库,包括
一自然语言语音库,是以语义为匹配基础,将各种自然语言的语音与汉语词组一一映射对应而建立的映射数据库;
一文字辞库,是以语义为匹配基础,将汉语词组与其它自然语言文字词组一一映射对应而建立的映射数据库。
2.根据权利要求1所述的实时互译语音终端,其特征在于:所述自然语言语音库及文字辞库存储于语音终端或电子系统的CPU、ROM及/或永久记忆体中。
3.根据权利要求1所述的实时互译语音终端,其特征在于:所述的语义认知模组及语法控制模组存储于语音终端或电子系统的CPU、ROM及/或永久记忆体中。
4.一种应用权利要求1所述的语音终端进行语音指令操作的方法,其特征在于包括以下步骤:
(1)选择要输入的自然语言类别;
(2)输入以步骤(1)所选定的自然语言表达的语音;
(3)通过处理模组将所述语音转换为3位元集编码形式的语义数字数据,并由语义认知模组对所述语音进行认知、排歧,获取及存储正确语义数据;
(4)语义数据一一映射对应语音操作终端或电子系统内的指令集;
(5)语音信号执行指令集或程序响应电子元件操作。
5.一种应用权利要求1所述的语音终端进行实时同步相互翻译的方法,其特征在于包括以下步骤:
(1)选择要输入的自然语言类别;
(2)输入以步骤(1)所选定的自然语言表达的语音及/或文字信息;
(3)通过处理模组将所述语音及/或文字信息转换为一种3位元集编码形式的语义数字数据,并由语义认知模组对所述语音及/或文字信息进行认知、排歧,获取正确语义;
(4)通过无线网络以无线信号发送所述3位元集编码形式的语义数字数据;
(5)接收发送自另一语音终端或电子终端的3位元集编码的语义数据;
(6)选择要输出显示的自然语言类别;
(7)通过处理模块将3位元集编码的语义数据翻译合成为要显示的自然语言的语音及/或文
字信息,并通过语法控制模组实现翻译过程中自然语言的语法修正处理;
(8)输出所述选定显示的自然语言的语音及/或文字信息。
6.一种应用权利要求1所述的语音终端进行任何自然语言的语音及/或文字信息互译的方法,其特征在于包括以下步骤:
(1)所述语音终端加入任一种及/或多种语言翻译程式模组,包括自然语言语音库及/或文字辞库,以及其语法控制模组;
(2)加入方法包括已予设所述任一种及/或多种语言翻译程式模组于语音终端内;
(3)通过有线或无线方式下载所述任一种及/或多种语言翻译程式模组至语音终端内;
(4)接收发送自另一语音终端的3位元集编码形式的语义数据;
(5)翻译为所述任一种及/或多种自然语言的语音及/或文字信息。
7.一种应用权利要求1所述的语音终端进行实时同步真人视像在线翻译服务的方法及系统,其特征在于包括通过有线或无线方式交换3位元集编码的语义数据,以提供真人翻译员的在线翻译服务。
CN2009100402969A 2009-06-17 2009-06-17 一种实时同步互译语音终端 Expired - Fee Related CN101923858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100402969A CN101923858B (zh) 2009-06-17 2009-06-17 一种实时同步互译语音终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100402969A CN101923858B (zh) 2009-06-17 2009-06-17 一种实时同步互译语音终端

Publications (2)

Publication Number Publication Date
CN101923858A true CN101923858A (zh) 2010-12-22
CN101923858B CN101923858B (zh) 2012-11-21

Family

ID=43338743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100402969A Expired - Fee Related CN101923858B (zh) 2009-06-17 2009-06-17 一种实时同步互译语音终端

Country Status (1)

Country Link
CN (1) CN101923858B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831195A (zh) * 2012-08-03 2012-12-19 河南省佰腾电子科技有限公司 个性化语音采集与语义确定系统及其方法
CN103647566A (zh) * 2013-12-13 2014-03-19 南京丰泰通信技术股份有限公司 一种带有收音转译电文功能的收音机
CN103647880A (zh) * 2013-12-13 2014-03-19 南京丰泰通信技术股份有限公司 一种带有电话转译电文功能的电话机
CN104122979A (zh) * 2013-04-25 2014-10-29 深圳市快播科技有限公司 一种语音控制大屏幕的方法及装置
CN104462070A (zh) * 2013-09-19 2015-03-25 株式会社东芝 语音翻译系统和语音翻译方法
CN105573988A (zh) * 2015-04-28 2016-05-11 宇龙计算机通信科技(深圳)有限公司 一种语音转换的方法及终端
CN106022357A (zh) * 2016-05-11 2016-10-12 珠海市魅族科技有限公司 一种数据输入校准的方法及终端
CN106384593A (zh) * 2016-09-05 2017-02-08 北京金山软件有限公司 一种语音信息转换、信息生成方法及装置
WO2017143765A1 (zh) * 2016-02-24 2017-08-31 苏州龙诺法智能科技有限公司 智能会议翻译系统
CN107451119A (zh) * 2017-07-26 2017-12-08 上海智臻智能网络科技股份有限公司 基于语音交互的语义识别方法及装置、存储介质、计算机设备
CN108733656A (zh) * 2017-04-14 2018-11-02 深圳市领芯者科技有限公司 语音翻译装置、系统和方法
CN108983993A (zh) * 2017-05-31 2018-12-11 高文贤 标准讯号转换方法及装置
CN109616113A (zh) * 2018-12-29 2019-04-12 中商物联行(广州)商务有限公司 语音控制方法、语音控制装置及语音控制系统
CN110888642A (zh) * 2019-11-28 2020-03-17 苏州思必驰信息科技有限公司 语音消息编译方法及装置
CN110991148A (zh) * 2019-12-03 2020-04-10 孔繁泽 信息处理方法及装置、信息交互方法及装置
CN111274828A (zh) * 2020-01-21 2020-06-12 陈刚 基于留言的语言翻译方法、系统、计算机程序和手持终端
CN112543456A (zh) * 2020-11-25 2021-03-23 深圳市中龙通电子科技有限公司 一种基于物联网的智能通讯方法
CN113360721A (zh) * 2021-06-25 2021-09-07 福建星网视易信息系统有限公司 一种曲谱实时互译方法及终端
CN114419740A (zh) * 2022-01-11 2022-04-29 平安普惠企业管理有限公司 基于人工智能的活体检测方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101008942A (zh) * 2006-01-25 2007-08-01 北京金远见电脑技术有限公司 机器翻译装置和机器翻译方法
CN101131689B (zh) * 2006-08-22 2010-08-18 苗玉水 汉语外语句型转换双向机器翻译方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831195A (zh) * 2012-08-03 2012-12-19 河南省佰腾电子科技有限公司 个性化语音采集与语义确定系统及其方法
CN102831195B (zh) * 2012-08-03 2015-08-12 河南省佰腾电子科技有限公司 个性化语音采集与语义确定系统及其方法
CN104122979A (zh) * 2013-04-25 2014-10-29 深圳市快播科技有限公司 一种语音控制大屏幕的方法及装置
CN104462070A (zh) * 2013-09-19 2015-03-25 株式会社东芝 语音翻译系统和语音翻译方法
CN103647566A (zh) * 2013-12-13 2014-03-19 南京丰泰通信技术股份有限公司 一种带有收音转译电文功能的收音机
CN103647880A (zh) * 2013-12-13 2014-03-19 南京丰泰通信技术股份有限公司 一种带有电话转译电文功能的电话机
CN103647880B (zh) * 2013-12-13 2015-11-18 南京丰泰通信技术股份有限公司 一种带有电话转译电文功能的电话机
CN105573988A (zh) * 2015-04-28 2016-05-11 宇龙计算机通信科技(深圳)有限公司 一种语音转换的方法及终端
WO2017143765A1 (zh) * 2016-02-24 2017-08-31 苏州龙诺法智能科技有限公司 智能会议翻译系统
CN106022357A (zh) * 2016-05-11 2016-10-12 珠海市魅族科技有限公司 一种数据输入校准的方法及终端
CN106384593A (zh) * 2016-09-05 2017-02-08 北京金山软件有限公司 一种语音信息转换、信息生成方法及装置
CN106384593B (zh) * 2016-09-05 2019-11-01 北京金山软件有限公司 一种语音信息转换、信息生成方法及装置
CN108733656A (zh) * 2017-04-14 2018-11-02 深圳市领芯者科技有限公司 语音翻译装置、系统和方法
CN108983993A (zh) * 2017-05-31 2018-12-11 高文贤 标准讯号转换方法及装置
CN107451119A (zh) * 2017-07-26 2017-12-08 上海智臻智能网络科技股份有限公司 基于语音交互的语义识别方法及装置、存储介质、计算机设备
CN109616113A (zh) * 2018-12-29 2019-04-12 中商物联行(广州)商务有限公司 语音控制方法、语音控制装置及语音控制系统
CN110888642A (zh) * 2019-11-28 2020-03-17 苏州思必驰信息科技有限公司 语音消息编译方法及装置
CN110888642B (zh) * 2019-11-28 2022-07-08 思必驰科技股份有限公司 语音消息编译方法及装置
CN110991148A (zh) * 2019-12-03 2020-04-10 孔繁泽 信息处理方法及装置、信息交互方法及装置
CN110991148B (zh) * 2019-12-03 2024-02-09 孔繁泽 信息处理方法及装置、信息交互方法及装置
CN111274828A (zh) * 2020-01-21 2020-06-12 陈刚 基于留言的语言翻译方法、系统、计算机程序和手持终端
CN112543456A (zh) * 2020-11-25 2021-03-23 深圳市中龙通电子科技有限公司 一种基于物联网的智能通讯方法
CN113360721A (zh) * 2021-06-25 2021-09-07 福建星网视易信息系统有限公司 一种曲谱实时互译方法及终端
CN114419740A (zh) * 2022-01-11 2022-04-29 平安普惠企业管理有限公司 基于人工智能的活体检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN101923858B (zh) 2012-11-21

Similar Documents

Publication Publication Date Title
CN101923858B (zh) 一种实时同步互译语音终端
CN109859736B (zh) 语音合成方法及系统
CN110110041A (zh) 错词纠正方法、装置、计算机装置及存储介质
CN110462730A (zh) 促进以多种语言与自动化助理的端到端沟通
CN107291690A (zh) 标点添加方法和装置、用于标点添加的装置
CN102831195B (zh) 个性化语音采集与语义确定系统及其方法
CN106097835B (zh) 一种聋哑人交流智能辅助系统及交流的方法
CN105404621A (zh) 一种用于盲人读取汉字的方法及系统
KR20090090613A (ko) 멀티모달 대화형 이미지 관리 시스템 및 방법
CN104765455A (zh) 基于敲击振动的人机交互系统
CN101211335A (zh) 具有翻译功能的移动通信终端、翻译系统和翻译方法
CN1901041B (zh) 语音字典形成方法、语音识别系统及其方法
CN109409255A (zh) 一种手语场景生成方法及装置
CN102262450B (zh) 一种基于混输字符串进行字符转换的方法和装置
Sonawane et al. Speech to Indian sign language (ISL) translation system
EP3404555A1 (en) Speech converter
WO2021179703A1 (zh) 一种手语翻译方法、装置、计算机设备及存储介质
Al-Barahamtoshy et al. Arabic text-to-sign (ArTTS) model from automatic SR system
Prinetto et al. The italian sign language sign bank: Using wordnet for sign language corpus creation
CN109272983A (zh) 用于亲子教育的双语切换装置
CN103455530A (zh) 随身携带式创建个性化语音对应文本文字数据库的装置
CN116415597A (zh) 语音翻译、同声传译方法
CN107251137A (zh) 利用语音改善至少一种语义单元的集合的方法、装置及计算机可读记录介质
CN115167674A (zh) 基于数字人多模态交互信息标准的智能交互方法
CN114328857A (zh) 语句扩展方法、装置以及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121121

Termination date: 20130617