CN103164398A - 汉维电子辞典及其自动转译汉维语的方法 - Google Patents

汉维电子辞典及其自动转译汉维语的方法 Download PDF

Info

Publication number
CN103164398A
CN103164398A CN2011104267501A CN201110426750A CN103164398A CN 103164398 A CN103164398 A CN 103164398A CN 2011104267501 A CN2011104267501 A CN 2011104267501A CN 201110426750 A CN201110426750 A CN 201110426750A CN 103164398 A CN103164398 A CN 103164398A
Authority
CN
China
Prior art keywords
chinese
language
word
dimension
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104267501A
Other languages
English (en)
Other versions
CN103164398B (zh
Inventor
尼加提·纳吉米
买合木提·买买提
帕肉克·司地克
马斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Xinjiang Electric Power Co Ltd
Original Assignee
XINJIANG XINNENG INFORMATION COMMUNICATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XINJIANG XINNENG INFORMATION COMMUNICATION CO Ltd filed Critical XINJIANG XINNENG INFORMATION COMMUNICATION CO Ltd
Priority to CN201110426750.1A priority Critical patent/CN103164398B/zh
Publication of CN103164398A publication Critical patent/CN103164398A/zh
Application granted granted Critical
Publication of CN103164398B publication Critical patent/CN103164398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种汉维电子辞典及其自动转译汉维语的方法,具有语种识别模块、检索模块、检索组合输出模块、显示模块、语音识别模块和语音输出模块;所输入的文字被识别出语言种类后,由检索模块对所输入文字与基础语料库中的单词进行匹配,然后根据检索模块从基础语料库中所检索出的待翻译的单词,语音识别模块再对由检索组合输出模块获取的与所述待翻译的单词意思相对应的汉语解释语句和维语解释语句(经音节切分环节)进行有效识别,再调用真人语音库或合成维语语音库,语音识别模块读取上述所输入的文字,并通过语音识别模块的扬声器依次发出所输入文字的语音。本发明的电子词典结构合理,改进原先汉维语互译的辞典技术,提高汉维语相互转译的效率,改进对汉维语文字进行语音放送的性能。

Description

汉维电子辞典及其自动转译汉维语的方法
技术领域
本发明属于机器翻译语言技术领域,涉及利用计算机软硬件使汉语和维吾尔语相互转译的语言转换技术,特别是汉维电子辞典及其自动转译汉维语的方法。
背景技术
在社会信息化的当代,人们对各类语种信息获取、查询、翻译提出了更快、更高的要求,随之而研制开发了各类电子辞典产品,大到含几十万词条、上万个媒体素材的电子多媒体百科全书,小到含几千词条的掌上快译通,受到广大用户欢迎,电子辞典被作为学习语言、翻译和快速查询的辅助工具。在国外机器翻译系统和自然语言处理系统的实用化进程中,机器辞典已俨然成为开发的焦点,越来越多的语言翻译技术专家把机器辞典的规模和质量看作是决定机器翻译系统和自然语言处理系统成败的关键,早在1986年日本通产省就出资1亿美元支持电子辞典(EDR)的一个9年的开发计划,欧共体也资助多项机器辞典的研究课题,其中包括ACQUILEX(The Acquisition of Lexical Knowledge)课题,其目标是通过多部机器可读辞典MRD(Machine Reading Dictionary)来自动获取词汇知识,以便建立支持自然语言处理的多语种词汇知识库LKB(Lexical Knowledge Base),在此基础上所开发的各语种的多部大型机器辞典,其种类包括基本辞典、术语辞典、搭配辞典、概念分类辞典、概念描写辞典、语法辞典等。目前,产品化的电子辞典种类繁多,如不列颠百科全书、柯普顿百科全书、ENCARTA等。 
在我国,涉及机器翻译辞典方面的研究则始于二十世纪50、60年代,在改革开放之后得到了充分重视,二十世纪80年代后期,中文信息处理领域的专家开始了对机器辞典的研究,二十世纪90年代初,面向信息处理的机器辞典的研究正式列入国家七五、八五、九五计划,开展了诸如《信息处理用现代汉语词汇研究》、《基于配价的汉语语义辞典》、《现代汉语语法信息辞典》等基础性研究课题,在此基础上开发了《中国大百科全书》、《金山词霸》、《东方大典》等较成熟的信息产品,受到了广大用户的欢迎。
近年来,随着少数民族文字信息化领域的持续快速发展,在我国新疆,有关少数民族语言的电子辞典也有了比较大的发展,但大多数以现有普通的汉维电子辞典为主,并没有满足更广大用户的实际需求,更多支持少数民族语言翻译技术的水平存在着较大的缺陷。
发明内容
本发明的目的在于提供一种汉维电子辞典,其结构合理,通用性强。
本发明的目的是这样实现的:一种汉维电子辞典,由语种识别模块、检索模块、检索组合输出模块、显示模块、语音识别模块和语音输出模块组成,语种识别模块通过其相应接口连接显示模块的接口和检索模块的接口,检索模块通过其输出端接口对应连接检索组合输出模块的输入端接口,检索组合输出模块的输出端接口对应连接语音识别模块的输入端接口,语音识别模块通过其输出端接口连接语音输出模块的输入端接口。
本发明的目的还在于提供一种汉维电子辞典自动转译汉维语的方法,改变原先传统、普通汉语与维吾尔语互译的辞典技术,提高汉语和维吾尔语相互转译的效率,改进对汉语文字、维吾尔语文字进行语音放送的性能(维吾尔语简称为维语或维文)。
本发明的目的是这样实现的:一种汉维电子辞典自动转译汉维语的方法,其按序处理的步骤如下:
(Ⅰ)由显示模块显示所输入的文字,构建取词窗口,语种识别模块利用取词窗口通过屏幕取词的方法,获取与显示模块显示的所输入文字相对应的输入字符编码区域,将所输入的文字与被存储的UNICODE标准编码字符集(通用字符集:Universal Multiple-Octet Coded Character Set)中的编码字符相比对,判断所输入文字的语种是汉语或维语,再把已被识别出语种的所输入文字传至检索模块;
(Ⅱ)检索模块获取检索方式将被识别出语种的所输入文字与在寄存于存储器的基础语料库中并列存储的汉-维语料库和维-汉语料库中所存储的字符进行比对,以从基础语料库中检索出与被识别出语种的所输入文字的字符相同或相对应的字符组合,确认被识别出语种的所输入文字是已被存储在基础语料库中的已知单字或单词,或进一步主动完整汉语单字组合或单词字母组合,若不能从汉-维语料库和维-汉语料库中检索出与所输入文字相同或相对应的字符组合-汉语单字或维语单词,则检索模块判断被识别出语种的所输入文字是未知的,不能被语种识别模块确认、接收;
(Ⅲ)语种识别模块接收检索模块所检索出的字符组合,并从基础语料库所存储的汉-维语料库和维-汉语料库中调出与由检索模块所检索出的字符组合意思对应的且不同于所输入文字语种的另一语种字符组合-转译成汉语单字、汉语单词或维语单词,再把所输入文字和/或由语种识别模块从基础语料库中所调出的与所输入文字意思相对应的另一语种字符组合通过检索模块或直接传至检索组合输出模块;
(Ⅳ)检索组合输出模块根据所输入文字和/或由语种识别模块从基础语料库中所调出的与所输入文字意思相对应的另一语种字符组合,从基础语料库中并列存储的汉-汉语料库和维-维语料库中获取用于解释被检索模块检索出的字符组合的意思的汉语解释语句和维语解释语句,相应对由语种识别模块从基础语料库中所调出的字符组合的意思进行解释,检索组合输出模块再将其所检索出的解释语句输出至语音识别模块; 
(Ⅴ)当语音识别模块判断其所接收的解释语句为汉语解释语句时,语音识别模块用寄存于存储器内的语音数据库所存储的真人汉语语音库,相应逐一对其所接收的汉语解释语句中的每一汉语单字按照汉语发音语序进行语音匹配,再将暂存有与其所接收汉语解释语句中的汉语单字按序相匹配的汉语发音信号依次传至语音输出模块,对应于汉语解释语句中每一汉语单字的汉语发音信号被语音输出模块逐一按序检测、读取后,由语音输出模块中的扬声器依次发出与其所接收汉语解释语句中的每一汉语单字对应的汉语语音;
当语音识别模块判断其所接收的解释语句为维语解释语句且其所接收的维语解释语句是维语单词时,语音识别模块用语音数据库中所存储的真人维语语音库,相应逐一对其所接收的维语解释语句的每一维语单词按照维语发音语序进行语音匹配,再将暂存有与其所接收维语解释语句中的维语单词按序相匹配的维语发音信号依次传至语音输出模块,对应于其所接收维语解释语句中每一维语单词的维语发音信号被语音输出模块逐一按序检测、读取后,由语音输出模块中的扬声器依次发出与维语解释语句中每一维语单词相匹配的维语语音;若语音识别模块判断其所接收的解释语句为维语解释语句,但不能对该维语解释语句进行语音匹配时,则推定该维语解释语句是维语文本,并调用语音数据库中所存储的合成维语语音库对维语文本进行基于音节的语音合成,通过维语语句单词与音节切分法相应将维语文本切分成已知存储于合成语音库中的维语单词,再用真人维语语音库和/或合成维语语音库,相应逐一对该维语文本的每一维语单词按照维语发音语序进行语音匹配,将暂存有与维语文本被按序所切分成的维语单词相匹配的维语发音信号依次传至语音输出模块,维语发音信号被语音输出模块逐一按序检测、读取后,由语音输出模块中的扬声器依次发出与维语文本中每一维语单词相匹配的维语语音。
本发明是基于计算语言学、人类文化学、社会学、语用学、翻译学及计算机信息处理科学技术的汉维语双向多媒体电子辞典,基于UNICODE国际标准的汉维双语编码格式,以实现汉维、维汉双向单词输入功能、汉维单词与文本朗读功能,具有在不同操作系统下利用屏幕取词法获取汉维字符的功能和对国内外维吾尔文字编码进行转换的功能,也具有汉维语言的多语种界面,对汉维单词快速检索、模糊检索,可直接输入维吾尔文,对辞典词库进行管理,附带辞典设置、辞典工具、辞典附录、在线升级等功能。
本发明提供维吾尔语文字输入法,但不依赖其它维吾尔(语)文输入法,提高了可用性,提供屏幕取词汉维双向实时翻译,为使用汉语、维吾尔语的用户带来了方便,提供汉维单词和短语的标准朗诵,是学习汉语、维吾尔语的有力工具,具有海量维吾尔文语料库和单词、短语解释功能,方便其它讲非维吾尔语的人员学习维吾尔族语言、维吾尔民族历史、风俗习惯,为其它讲非维吾尔语的人员了解新疆地理信息和区域、风貌提供了大量实例。
本发明解决了所有以维吾尔语言为母语的国内外维吾尔人民难于获取现代知识和日常生活中的语言障碍问题,使国内外维吾尔语学习者能快速翻译进而获取各种信息,不仅方便维吾尔人民学习汉语,而且方便汉族同志和外国人学习维吾尔语,是维吾尔语、汉语使用者学习汉语、维语翻译工具,对提高维吾尔人民的汉语说写水平有着深远的意义;另一方面对将来汉维(语)机器翻译辞典库建设,对乌(乌孜别克文)汉、土(土耳其文)汉双向电子辞典及辅助机器翻译系统的开发打下了坚实的基础。
本发明的技术特点是:①提供汉语、维吾尔语之间的双向单词翻译服务,在本发明的汉维电子辞典中输入上述任意一种语言单词可以获得其在另外一种语言中的释义;②提供支持国际UNICODE标准的维吾尔文组件式输入法,即用户没有安装任何维语输入法时,本辞典仍然可以正确输入标准的维语单词;③在当前主流的Windows系列操作系统(Windows XP\Windows Server\Windows Vista\Windows 7)中,可实现对维语进行屏幕取词的功能;④使用统计学和语音学以实现对维语单词和文本的朗读功能,语音朗读标准、清晰,具有较先进的技术特色;⑤提供辞典在线升级、辞典设置、辞典工具、辞典附录等附加功能,可根据用户的需要进行设置;⑥提供友好的多语种辞典界面,通过人性化的设置获得不同语言的辞典界面和方向;⑦实现对输入文字语言自动识别的功能,分析所输入文字,自动对所输入文字进行语种判断,并对其进行单词翻译;⑧汉维词库内收集有近280万条词汇,同时建立了真人语音库和基于音节切分技术的语音朗读合成库。本发明的电子词典其结构合理,通用性强,其方法改变原先传统、普通汉语与维吾尔语互译的辞典技术,提高汉语和维吾尔语相互转译的效率,改进对汉语文字、维吾尔语文字进行语音放送的性能。
附图说明
附图是本发明的模块连接示意图及其自动转译汉维语的方法的总流程示意图。
具体实施方式
一种汉维电子辞典,如附图所示,由语种识别模块2、检索模块3、检索组合输出模块4、显示模块1、语音识别模块5和语音输出模块6组成,语种识别模块2通过其相应接口连接显示模块1的接口和检索模块3的接口,检索模块3通过其输出端接口对应连接检索组合输出模块4的输入端接口,检索组合输出模块4的输出端接口对应连接语音识别模块5的输入端接口,语音识别模块5通过其输出端接口连接语音输出模块6的输入端接口。
一种汉维电子辞典自动转译汉维语的方法,如附图所示,其按序处理的步骤如下:
(Ⅰ)由显示模块1显示(由键盘)所输入的文字,依次使所输入文字混合编排和图文混合排版,构建取词窗口,语种识别模块2利用取词窗口通过屏幕取词的方法,获取与显示模块1显示的所输入文字相对应的输入字符编码区域,将所输入的文字与被存储的UNICODE标准编码字符集(通用字符集:Universal Multiple-Octet Coded Character Set)中的编码字符相比对,判断所输入文字的语种是汉语或维语,再把已被识别出语种的所输入文字传至检索模块3;注:若语种识别模块2判断出其接收到的所输入文字是汉语拼音文字,则先将所输入汉语拼音文字的字母组合与寄存于存储器内的基础语料库(取词数据库)中的拼音语料库的所有字母组合逐一比对(若所输入汉语拼音文字的字母组合与拼音语料库所存储的所有字母组合不相同或不对应,则不能从拼音语料库中获取与所输入汉语拼音文字发音相同的汉语单字,若所输入汉语拼音文字的字母组合与拼音语料库所存储的某一字母组合相同或相对应,则能从拼音语料库中获取与所输入汉语拼音发音文字对应的汉语单字),以获取与所输入汉语拼音文字发音相同的汉语单字,即从拼音语料库中调出罗列有与上述汉语拼音文字发音相同的候选汉语单字的列表,用户从该列表中选择某一候选汉语单字,将与汉语拼音文字发音相同的某一候选汉语单字传输至显示模块1,由显示模块1显示该某一候选汉语单字,再将与汉语拼音文字发音相同的汉语单字传送至检索模块3,所述的拼音语料库存储有与各个汉语拼音组合字符发音相同的汉语单字(索引)、汉语单词(索引),若语种识别模块2判断出其直接接收到的所输入文字是汉语文字,则直接将该汉语文字传输至检索模块3;
(Ⅱ)检索模块3获取检索方式将被识别出语种的所输入文字与在寄存于存储器的基础语料库中并列存储的汉-维语料库和维-汉语料库中所存储的字符进行比对(所述的字符为汉语单字或维语单词),以从基础语料库中检索出与被识别出语种的所输入文字的字符相同或相对应的字符组合,确认被识别出语种的所输入文字是已被存储在基础语料库中的已知单字或单词,或进一步主动完整汉语单字组合或单词字母组合,若不能从汉-维语料库和维-汉语料库中检索出与所输入文字相同或相对应的字符组合-汉语单字或维语单词,则检索模块3判断被识别出语种的所输入文字是未知的,不能被语种识别模块2确认、接收,所述的汉-维语料库存储有与各个汉语单字或汉语单词汇所对应的维语单词,所述的维-汉语料库存储有与各个维语单词所对应的汉语单字或汉语单词;
(Ⅲ)语种识别模块2接收检索模块3所检索出的字符组合,并从基础语料库所存储的汉-维语料库和维-汉语料库中调出与由检索模块3所检索出的字符组合意思对应的且不同于所输入文字语种的另一语种字符组合-转译成汉语单字、汉语单词或维语单词,即将维语单词转译成汉语单字或汉语单词,或将汉语单字或汉语单词转译成维语单词,再把所输入文字和/或由语种识别模块2从基础语料库中所调出的与所输入文字意思相对应的另一语种字符组合通过检索模块3或直接传至检索组合输出模块4;
(Ⅳ)检索组合输出模块4根据所输入文字和/或由语种识别模块2从基础语料库中所调出的与所输入文字意思相对应的另一语种字符组合,从基础语料库中并列存储的汉-汉语料库和维-维语料库中获取用于解释被检索模块3检索出的字符组合的意思的汉语解释语句和维语解释语句,用上述某一语种文字所作出的解释语句必是用所输入文字所属语种的文字作出的解释语句,相应对由语种识别模块2从基础语料库中所调出的字符组合的意思进行解释(如对某一维语单词用与其意思对应的汉语解释语句进行解释,或者对某一汉语单字或单词用与其意思对应的维语解释语句进行解释,或者对某一维语单词用与其意思对应的维语解释语句进行解释,或者对某一汉语单字或单词用与其意思对应的汉语解释语句进行解释),检索组合输出模块4再将其所检索出的解释语句(汉语解释语句和维语解释语句)输出至语音识别模块5;例如,所述的汉-汉语料库存储有对每个汉语单字或单词作出解释的汉语词句,所述的维-维语料库存储有对每个维语单词作出解释的维语词句; 
(Ⅴ)当语音识别模块5判断其所接收的解释语句为汉语解释语句时,语音识别模块5用寄存于存储器内的语音数据库所存储的真人汉语语音库,相应逐一对其所接收的汉语解释语句中的每一汉语单字按照汉语发音语序进行语音匹配,再将暂存有与其所接收汉语解释语句中的汉语单字按序相匹配的汉语发音信号依次传至语音输出模块6,对应于汉语解释语句中每一汉语单字的汉语发音信号被语音输出模块6逐一按序检测、读取后,由语音输出模块6中的扬声器依次发出与其所接收汉语解释语句中的每一汉语单字对应的汉语语音;
当语音识别模块5判断其所接收的解释语句为维语解释语句且其所接收的维语解释语句是维语单词时,语音识别模块5用语音数据库中所存储的真人维语语音库,相应逐一对其所接收的维语解释语句的每一维语单词按照维语发音语序进行语音匹配,再将暂存有与其所接收维语解释语句中的维语单词按序相匹配的维语发音信号依次传至语音输出模块6,对应于其所接收维语解释语句中每一维语单词的维语发音信号被语音输出模块6逐一按序检测、读取后,由语音输出模块6中的扬声器依次发出与维语解释语句中每一维语单词相匹配的维语语音;若语音识别模块5判断其所接收的解释语句为维语解释语句,但不能对该维语解释语句进行语音匹配时,则推定该维语解释语句是维语文本,并调用语音数据库中所存储的合成维语语音库对维语文本进行基于音节的语音合成,通过维语语句单词与音节切分法相应将维语文本切分成已知存储于合成语音库中的维语单词,再用真人维语语音库和/或合成维语语音库,相应逐一对该维语文本的每一维语单词按照维语发音语序进行语音匹配,将暂存有与维语文本被按序所切分成的维语单词相匹配的维语发音信号依次传至语音输出模块6,维语发音信号被语音输出模块6逐一按序检测、读取后,由语音输出模块6中的扬声器依次发出与维语文本中每一维语单词相匹配的维语语音。
所述的检索方式为首部检索方式、尾部检索方式或包含检索方式;首部检索方式为:A、检索模块3从左向右按序逐一录入所输入文字中的每个字符,B、将基础语料库(汉-维语料库和维-汉语语料库)中所存储的字符组合数据与被录入的所输入文字字符组合相比对,若能从基础语料库中搜索出与被录入的文字字符组合相同的字符,则停止检索,即完成精确匹配出所输入文字的工作;若不能通过首部检索方式从基础语料库中搜索出与所输入文字相同的字符组合,则采用如下的尾部检索方式继续检索所输入的文字;
尾部检索方式为:①检索模块3从右向左(按照人面对的左边、右边)按序逐一录入所输入文字中的每个字符,②同上述首部检索方式的步骤B;若不能通过首部检索方式从基础语料库中搜索出与所输入文字相同的字符,则采用如下的包含检索方式继续检索所输入的文字;
包含检索方式为从任意方向匹配所输入文字的字符组合的检索方式,包括上述首部检索方式与尾部检索方式,检索模块3通过该包含检索方式从基础语料库中搜索出与所输入文字相同的字符,最终完成精确匹配所输入文字的工作。
本发明的检索流程涉及语种识别模块2、检索模块3、检索组合输出模块4和基础语料库,其主要流程为:1)首先,用户通过汉语或维语输入法输入汉语文字或维语文字,输入所需要查询的文字,通过输入数据的UNICODE编码,判断所输入文字(源语言单词或文本)的语种(汉语或维吾尔语);2)根据用户设置的检索方式判断所输入文字的语种,检索模块3检索出与所输入文字(源语言单词或文本)匹配的汉语和/或维语单词、文本;3)根据检索模块3对所输入文字检索的结果,从基础语料库中匹配出与所输入文字相同或相应的汉语单词和/或维语单词意思相同的汉语解释例句和维语解释例句,并组合生成需要输出的数据。
本发明屏幕取词、翻译流程涉及语种识别模块2、显示模块1、检索模块3和取词数据库(基础语料库),其主要流程为:1)用户输入文字(需要翻译的单词、文本);2) 语种识别模块2通过输入数据的UNICODE编码判断上述所输入文字(源语言单词或文本)的语种(汉语或维吾尔语);3)根据语种识别模块2对所输入文字判断出的不同语种,检索模块3从取词汉语库或取词维语词库(汉-维语料库和/或维-汉语料库)中获取与所输入文字相匹配的单词、文本;4)依据检索模块3对所输入文字最终匹配的结果,显示模块1通过文本混合排版技术和图文混合排版技术,构建屏幕取词翻译界面,显示最终翻译结果(汉语词句或维语词句)。
本发明语音朗诵的流程涉及语种识别模块2、语音输出模块6、检索组合输出模块4和语音数据库,其主要流程为:1)语种识别模块2对其接收到检索组合输出模块4所发出的汉语、维语解释语句(在屏幕取词环节中所输入的文字)进行语种判断,如果所输入的解释语句是汉语词句,则从真人汉语语音库匹配所输入的汉语单字,如果所输入的解释语句是维语词句,则继续判断语种识别模块2所接收的维语解释语句是否为维语单词,若是所输入的文字为维语单词,则直接从真人维语语音库匹配出相同或相应的维语单词,若语音输出模块6找不到匹配的维语单词,则将其转入文本处理过程,即如果所输入的解释语句是维语文本,则利用维语语句音节切分技术,将维语文本按照维语语言特点切分为维语单词,并将维语文本中的维语单词按照维语的特点切分为音节,从合成维语语音库匹配出维语文本每一维语单词的所有音节,最终组成完整的维语语音文本;2)通过计算机语音设备检测,对上述维语文本进行读取并输出、播放。
使用者通过键盘输入方式在屏幕显示的输入框中输入待查询的文字(源语言单词或文本),所输入的文字经过语种识别环节被识别出语言种类(汉语或维语)后,由检索模块3利用拼音检索法、首部检索法、尾部检索法、包含检索法和精确匹配检索法中的任意一种方法,对所输入的文字与拼音语料库、汉维语料库、维汉语料库的单词进行匹配,从基础语料库中检索出与上述所输入文字相对应或相同的待翻译的单词,然后根据检索模块3从基础语料库中所检索出的待翻译的单词,检索组合输出模块4获取与所述待翻译的单词意思相对应的汉语解释语句和维语解释语句,再通过文本混合排版技术、图文混合排版技术进行编辑,将翻译的汉语解释语句或维语解释语句组合成为输出的文字数据,显示在(屏幕)结果显示区域内。
使用者通过光标定位方式所输入的待翻译解释的文字(单词或文本),所输入的文字在经过语种识别环节后,语种识别模块2再从常用取词汉语库和常用取词维语库(汉-维语料库和/或维-汉语料库)中检索出与所输入的文字(目标语言或源语言单词或文本)意思相同或相对应的另一语种单词(翻译数据),再通过文本混合排版技术、图文混合排版技术将翻译数据(结果)组合成为输出数据,并以动态方式构建符合输出数据大小的显示界面,显示最终翻译结果。
使用者输入文字(源语言单词或文本)后,所输入文字经过语种识别环节、单词检索确认环节、汉语和维语转译环节、维语音节单词切分环节等后,再调用真人汉语语音库、真人维语语音库和合成维语语音库,将所输入文字生成相应的汉语或维语语音文件,语音识别模块5(语音检测设备)读取上述所输入的文字,并通过其扬声器依次按音节发出所输入文字的语音。

Claims (3)

1.一种汉维电子辞典,其特征是:由语种识别模块(2)、检索模块(3)、检索组合输出模块(4)、显示模块(1)、语音识别模块(5)和语音输出模块(6)组成,语种识别模块(2)通过其相应接口连接显示模块(1)的接口和检索模块(3)的接口,检索模块(3)通过其输出端接口对应连接检索组合输出模块(4)的输入端接口,检索组合输出模块(4)的输出端接口对应连接语音识别模块(5)的输入端接口,语音识别模块(5)通过其输出端接口连接语音输出模块(6)的输入端接口。
2.一种汉维电子辞典自动转译汉维语的方法,其按序处理的步骤如下:
(Ⅰ)由显示模块(1)显示所输入的文字,构建取词窗口,语种识别模块(2)利用取词窗口通过屏幕取词的方法,获取与显示模块(1)显示的所输入文字相对应的输入字符编码区域,将所输入的文字与被存储的UNICODE标准编码字符集中的编码字符相比对,判断所输入文字的语种是汉语或维语,再把已被识别出语种的所输入文字传至检索模块(3);
 (Ⅱ)检索模块(3)获取检索方式将被识别出语种的所输入文字与在寄存于存储器的基础语料库中并列存储的汉-维语料库和维-汉语料库中所存储的字符进行比对,以从基础语料库中检索出与被识别出语种的所输入文字的字符相同或相对应的字符组合,确认被识别出语种的所输入文字是已被存储在基础语料库中的已知单字或单词,或进一步主动完整汉语单字组合或单词字母组合,若不能从汉-维语料库和维-汉语料库中检索出与所输入文字相同或相对应的字符组合-汉语单字或维语单词,则检索模块(3)判断被识别出语种的所输入文字是未知的,不能被语种识别模块(2)确认、接收;
(Ⅲ)语种识别模块(2)接收检索模块(3)所检索出的字符组合,并从基础语料库所存储的汉-维语料库和维-汉语料库中调出与由检索模块(3)所检索出的字符组合意思对应的且不同于所输入文字语种的另一语种字符组合-转译成汉语单字、汉语单词或维语单词,再把所输入文字和/或由语种识别模块(2)从基础语料库中所调出的与所输入文字意思相对应的另一语种字符组合通过检索模块(3)或直接传至检索组合输出模块(4);
(Ⅳ)检索组合输出模块(4)根据所输入文字和/或由语种识别模块(2)从基础语料库中所调出的与所输入文字意思相对应的另一语种字符组合,从基础语料库中并列存储的汉-汉语料库和维-维语料库中获取用于解释被检索模块(3)检索出的字符组合的意思的汉语解释语句,根据斯拉夫文维语文字与阿拉伯文维语文字映射表,获取与上述另一语种字符组合意思对应的以斯拉夫字母或阿拉伯字母表达的维语解释语句,相应对由语种识别模块(2)从基础语料库中所调出的字符组合的意思进行解释,检索组合输出模块(4)再将其所检索出的解释语句输出至语音识别模块(5); 
(Ⅴ)当语音识别模块(5)判断其所接收的解释语句为汉语解释语句时,语音识别模块(5)用寄存于存储器内的语音数据库所存储的真人汉语语音库,相应逐一对其所接收的汉语解释语句中的每一汉语单字按照汉语发音语序进行语音匹配,再将暂存有与其所接收汉语解释语句中的汉语单字按序相匹配的汉语发音信号依次传至语音输出模块(6),对应于汉语解释语句中每一汉语单字的汉语发音信号被语音输出模块(6)逐一按序检测、读取后,由语音输出模块(6)中的扬声器依次发出与其所接收汉语解释语句中的每一汉语单字对应的汉语语音;
当语音识别模块(5)判断其所接收的解释语句为维语解释语句且其所接收的维语解释语句是以阿拉伯字母或斯拉夫字母表达的维语单词时,语音识别模块(5)用语音数据库中所存储的真人维语语音库,相应逐一对其所接收的维语解释语句的每一维语单词按照维语发音语序进行语音匹配,再将暂存有与其所接收维语解释语句中的维语单词按序相匹配的维语发音信号依次传至语音输出模块(6),对应于其所接收维语解释语句中每一维语单词的维语发音信号被语音输出模块(6)逐一按序检测、读取后,由语音输出模块(6)中的扬声器依次发出与维语解释语句中每一维语单词相匹配的维语语音;若语音识别模块(5)判断其所接收的解释语句为维语解释语句,但不能对该维语解释语句进行语音匹配时,则推定该维语解释语句是以阿拉伯字母或斯拉夫字母表达的维语文本,并调用语音数据库中所存储的合成维语语音库对维语文本进行基于音节的语音合成,通过维语语句单词与音节切分法相应将维语文本切分成已知存储于合成语音库中的维语单词,再用真人维语语音库和/或合成维语语音库,相应逐一对该维语文本的每一维语单词按照维语发音语序进行语音匹配,将暂存有与维语文本被按序所切分成的维语单词相匹配的维语发音信号依次传至语音输出模块(6),维语发音信号被语音输出模块(6)逐一按序检测、读取后,由语音输出模块(6)中的扬声器依次发出与维语文本中每一维语单词相匹配的维语语音。
3.根据权利要求2所述的汉维电子辞典自动转译汉维语的方法,其特征是:所述的检索方式为首部检索方式、尾部检索方式或包含检索方式;
首部检索方式为:A、检索模块(3)从左向右按序逐一录入所输入文字中的每个字符,B、将基础语料库中所存储的字符组合数据与被录入的所输入文字字符组合相比对,若能从基础语料库中搜索出与被录入的文字字符组合相同的字符,则停止检索,即完成精确匹配出所输入文字的工作;若不能通过首部检索方式从基础语料库中搜索出与所输入文字相同的字符组合,则采用如下的尾部检索方式继续检索所输入的文字;
尾部检索方式为:①检索模块(3)从右向左(按照人面对的左边、右边)按序逐一录入所输入文字中的每个字符,②同上述首部检索方式的步骤B;若不能通过首部检索方式从基础语料库中搜索出与所输入文字相同的字符,则采用如下的包含检索方式继续检索所输入的文字;
包含检索方式为从任意方向匹配所输入文字的字符组合的检索方式,包括上述首部检索方式与尾部检索方式。
CN201110426750.1A 2011-12-19 2011-12-19 利用汉维电子辞典自动转译汉维语的方法 Active CN103164398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110426750.1A CN103164398B (zh) 2011-12-19 2011-12-19 利用汉维电子辞典自动转译汉维语的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110426750.1A CN103164398B (zh) 2011-12-19 2011-12-19 利用汉维电子辞典自动转译汉维语的方法

Publications (2)

Publication Number Publication Date
CN103164398A true CN103164398A (zh) 2013-06-19
CN103164398B CN103164398B (zh) 2016-09-21

Family

ID=48587494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110426750.1A Active CN103164398B (zh) 2011-12-19 2011-12-19 利用汉维电子辞典自动转译汉维语的方法

Country Status (1)

Country Link
CN (1) CN103164398B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239295A (zh) * 2014-09-10 2014-12-24 华建宇通科技(北京)有限责任公司 维汉翻译系统的多层次维语词法分析方法
CN104298420A (zh) * 2013-12-29 2015-01-21 新疆信息产业有限责任公司 应用电费自助缴费终端维吾尔文翻译引擎的方法
CN105336323A (zh) * 2015-10-14 2016-02-17 清华大学 维语语音识别方法和装置
CN106507321A (zh) * 2016-11-22 2017-03-15 新疆农业大学 一种维、汉双语gsm短信息语音转换播发系统
CN111324713A (zh) * 2020-02-18 2020-06-23 腾讯科技(深圳)有限公司 对话自动回复方法、装置、存储介质和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1180205A (zh) * 1997-09-05 1998-04-29 王永民 阅读声译器
CN1226713A (zh) * 1998-02-19 1999-08-25 黄金富 旅游语言机
CN1741008A (zh) * 2005-09-13 2006-03-01 徐菲菲 一种使用便携式翻译机的翻译方法
CN101329667A (zh) * 2008-08-04 2008-12-24 深圳市大正汉语软件有限公司 多语言语音互译的智能翻译设备及其控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1180205A (zh) * 1997-09-05 1998-04-29 王永民 阅读声译器
CN1226713A (zh) * 1998-02-19 1999-08-25 黄金富 旅游语言机
CN1741008A (zh) * 2005-09-13 2006-03-01 徐菲菲 一种使用便携式翻译机的翻译方法
CN101329667A (zh) * 2008-08-04 2008-12-24 深圳市大正汉语软件有限公司 多语言语音互译的智能翻译设备及其控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
卡米利.毛依丁: "维汉英机器翻译系统中电子词典的研究", 《新疆大学学报(自然科学版)》, vol. 20, no. 2, 30 May 2003 (2003-05-30), pages 148 - 150 *
黄金柱 等: "基于大规模语料库的多引擎语言翻译模型的构建", 《洛阳师范学院学报》, vol. 29, no. 2, 30 April 2010 (2010-04-30), pages 64 - 69 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298420A (zh) * 2013-12-29 2015-01-21 新疆信息产业有限责任公司 应用电费自助缴费终端维吾尔文翻译引擎的方法
CN104239295A (zh) * 2014-09-10 2014-12-24 华建宇通科技(北京)有限责任公司 维汉翻译系统的多层次维语词法分析方法
CN104239295B (zh) * 2014-09-10 2017-01-18 华建宇通科技(北京)有限责任公司 维汉翻译系统的多层次维语词法分析方法
CN105336323A (zh) * 2015-10-14 2016-02-17 清华大学 维语语音识别方法和装置
CN105336323B (zh) * 2015-10-14 2018-12-28 清华大学 维语语音识别方法和装置
CN106507321A (zh) * 2016-11-22 2017-03-15 新疆农业大学 一种维、汉双语gsm短信息语音转换播发系统
CN111324713A (zh) * 2020-02-18 2020-06-23 腾讯科技(深圳)有限公司 对话自动回复方法、装置、存储介质和计算机设备
CN111324713B (zh) * 2020-02-18 2022-03-04 腾讯科技(深圳)有限公司 对话自动回复方法、装置、存储介质和计算机设备

Also Published As

Publication number Publication date
CN103164398B (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN111259631B (zh) 一种裁判文书结构化方法及装置
KR101266361B1 (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
CN102479208A (zh) 汉语语音码多样网页信息搜索转换翻译方法
CN103314369B (zh) 机器翻译装置和方法
CN108804592A (zh) 知识库检索实现方法
CN103164398A (zh) 汉维电子辞典及其自动转译汉维语的方法
CN113159969A (zh) 一种金融长文本复核系统
CN111814485A (zh) 一种基于海量标准文献数据的语义解析方法及装置
Tursun et al. Noisy Uyghur text normalization
CN103164397A (zh) 汉哈电子辞典及其自动转译汉哈语的方法
Wehrmeyer A corpus for signed language<? br?> interpreting research
Kang Spoken language to sign language translation system based on HamNoSys
Kirmizialtin et al. Automated transcription of non-Latin script periodicals: a case study in the ottoman Turkish print archive
CN103164395A (zh) 汉柯电子辞典及其自动转译汉柯语的方法
CN103680503A (zh) 语义辨识方法
CN103164396A (zh) 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
Lo et al. Cool English: A grammatical error correction system based on large learner corpora
Raupova Principles of creating an electronic dictionary of grammatical terms
Gamal et al. Survey of arabic machine translation, methodologies, progress, and challenges
Yadava et al. Construction and annotation of a corpus of contemporary Nepali
KR20110044345A (ko) 표현 및 설명 추출을 위한 문서 처리 장치 및 방법
Rosmorduc Computational linguistics in egyptology
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
Zhang Russian speech conversion algorithm based on a parallel corpus and machine translation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: XINJIANG ELECTRIC POWER INFORMATION COMMUNICATION

Effective date: 20130604

Owner name: STATE ELECTRIC NET CROP.

Free format text: FORMER OWNER: XINJIANG NEW ENERGY INFORMATION COMMUNICATION CO., LTD.

Effective date: 20130604

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 830026 URUMQI, XINJIANG UYGUR AUTONOMOUS REGION TO: 100031 XICHENG, BEIJING

TA01 Transfer of patent application right

Effective date of registration: 20130604

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: Xinjiang Electric Power Information Communication Co., Ltd.

Address before: 830026 new energy building, 5 Guangzhou Road, Urumqi economic and Technological Development Zone, the Xinjiang Uygur Autonomous Region, China

Applicant before: Xinjiang Xinneng Information Communication Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160718

Address after: No. 1118 Changchun South Road, Urumqi hi tech Zone, the Xinjiang Uygur Autonomous Region, building 1, 12 floor

Applicant after: INFORMATION & TELECOMMUNICATION COMPANY OF STATE GRID XINJIANG ELECTRIC POWER COMPANY

Applicant after: State Grid Corporation of China

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: Xinjiang Electric Power Information Communication Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant