CN103164396A - 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法 - Google Patents

汉维哈柯电子辞典及其自动转译汉维哈柯语的方法 Download PDF

Info

Publication number
CN103164396A
CN103164396A CN2011104267484A CN201110426748A CN103164396A CN 103164396 A CN103164396 A CN 103164396A CN 2011104267484 A CN2011104267484 A CN 2011104267484A CN 201110426748 A CN201110426748 A CN 201110426748A CN 103164396 A CN103164396 A CN 103164396A
Authority
CN
China
Prior art keywords
language
word
chinese
module
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104267484A
Other languages
English (en)
Other versions
CN103164396B (zh
Inventor
尼加提·纳吉米
买合木提·买买提
帕肉克·司地克
马斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Xinjiang Electric Power Co Ltd
Original Assignee
XINJIANG XINNENG INFORMATION COMMUNICATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XINJIANG XINNENG INFORMATION COMMUNICATION CO Ltd filed Critical XINJIANG XINNENG INFORMATION COMMUNICATION CO Ltd
Priority to CN201110426748.4A priority Critical patent/CN103164396B/zh
Publication of CN103164396A publication Critical patent/CN103164396A/zh
Application granted granted Critical
Publication of CN103164396B publication Critical patent/CN103164396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种汉维哈柯电子辞典及其自动转译汉维哈柯语的方法,具有语种识别模块、检索模块、检索组合输出模块、显示模块、语音识别模块和语音输出模块;所输入的文字被识别出语言种类后,由检索模块对所输入文字与基础语料库中的单词进行匹配,然后根据检索模块从基础语料库中所检索出的待翻译的单词,语音识别模块再对由检索组合输出模块获取的与所述待翻译的单词意思相对应的汉语解释语句和维哈柯语解释语句(经音节切分环节)进行有效识别,再调用真人语音库或合成维哈柯语语音库,语音识别模块读取上述所输入的文字,并通过语音识别模块的扬声器依次发出所输入文字的语音。本发明的电子词典结构合理,其方法改变原先汉维哈柯语互译的辞典技术,提高汉维哈柯语相互转译效率,改进对汉维哈柯语文字进行语音放送的性能。

Description

汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
技术领域
本发明属于机器翻译语言技术领域,涉及利用计算机软硬件使汉语与维吾尔语、哈萨克语和柯尔克孜语相互转译的语言转换技术,特别是汉维哈柯电子辞典及其自动转译汉维哈柯语的方法。
背景技术
在社会信息化的当代,人们对各类语种信息获取、查询、翻译提出了更快、更高的要求,随之而研制开发了各类电子辞典产品,大到含几十万词条、上万个媒体素材的电子多媒体百科全书,小到含几千词条的掌上快译通,受到广大用户欢迎,电子辞典被作为学习语言、翻译和快速查询的辅助工具。在国外机器翻译系统和自然语言处理系统的实用化进程中,机器辞典已俨然成为开发的焦点,越来越多的语言翻译技术专家把机器辞典的规模和质量看作是决定机器翻译系统和自然语言处理系统成败的关键,早在1986年日本通产省就出资1亿美元支持电子辞典(EDR)的一个9年的开发计划,欧共体也资助多项机器辞典的研究课题,其中包括ACQUILEX(The Acquisition of Lexical Knowledge)课题,其目标是通过多部机器可读辞典MRD(Machine Reading Dictionary)来自动获取词汇知识,以便建立支持自然语言处理的多语种词汇知识库LKB(Lexical Knowledge Base),在此基础上所开发的各语种的多部大型机器辞典,其种类包括基本辞典、术语辞典、搭配辞典、概念分类辞典、概念描写辞典、语法辞典等。目前,产品化的电子辞典种类繁多,如不列颠百科全书、柯普顿百科全书、ENCARTA等。 
在我国,涉及机器翻译辞典方面的研究则始于二十世纪50、60年代,在改革开放之后得到了充分重视,二十世纪80年代后期,中文信息处理领域的专家开始了对机器辞典的研究,二十世纪90年代初,面向信息处理的机器辞典的研究正式列入国家七五、八五、九五计划,开展了诸如《信息处理用现代汉语词汇研究》、《基于配价的汉语语义辞典》、《现代汉语语法信息辞典》等基础性研究课题,在此基础上开发了《中国大百科全书》、《金山词霸》、《东方大典》等较成熟的信息产品,受到了广大用户的欢迎。
近年来,随着少数民族文字信息化领域的持续快速发展,在我国新疆,有关少数民族语言的电子辞典也有了比较大的发展,但大多数以现有普通的汉维电子辞典为主,并没有满足更广大用户的实际需求,更多支持少数民族语言翻译技术的水平存在着较大的缺陷。
发明内容
本发明的目的在于提供一种汉维哈柯电子辞典,其结构合理,通用性强。
本发明的目的是这样实现的:一种汉维哈柯电子辞典,由语种识别模块、检索模块、检索输出组合模块、显示模块、语音识别模块和语音输出模块组成,语种识别模块通过其相应接口连接显示模块的接口和检索模块的接口,检索模块通过其输出端接口对应连接检索输出组合模块的输入端接口,检索输出组合模块输出端接口对应连接语音识别模块的输入端接口,语音识别模块通过其输出端接口连接语音输出模块的输入端接口。
本发明的目的还在于提供一种汉维哈柯电子辞典自动转译汉维哈柯语的方法,改变原先传统、普通汉语与维吾尔语、哈萨克语和柯尔克孜语互译的辞典技术,提高汉语和维吾尔语、哈萨克语和柯尔克孜语相互转译的效率,改进对维吾尔语、哈萨克语和柯尔克孜语文字进行语音放送的性能(维哈柯语为维吾尔语文、哈萨克语文和/或柯尔克孜语文的简称)。
本发明的目的是这样实现的:一种汉维哈柯电子辞典自动转译汉维哈柯语的方法,其按序处理的步骤如下:
(Ⅰ)由显示模块显示所输入的文字,构建取词窗口;语种识别模块利用取词窗口通过屏幕取词的方法,获取与显示模块显示的所输入文字相对应的输入字符编码区域,将所输入文字与事先被存储的UNICODE标准编码字符集(通用字符集:Universal Multiple-Octet Coded Character Set)中的编码字符相比对,语种识别模块首先判断所输入的文字的语种是汉语文字或非汉语语种的文字;若语种识别模块判断出所输入文字是非汉语语种的文字,则先从所输入非汉语语种文字获取输入的文本,将所输入的非汉语语种的文本的字母与其中所存储的维哈柯文字字母表的字母比对,以识别出上述非汉语文字的语种为维语、哈语或柯语,即最终识别出所输入文字的语种,并将最终由语种识别模块识别出语种的所输入非汉语文字经文字转换环节转换成维哈柯文斯拉夫文子、维哈柯文阿拉伯文字或维哈柯文拉丁文字,将已被识别出语种的所输入文字传送至检索模块;
(Ⅱ)检索模块获取检索方式将被识别出语种的所输入文字与基础语料库中并列存储的汉-维语料库、维-汉语料库、哈-汉语料库和柯-汉语料库中所存储的字符进行比对,以从基础语料库中检索出与上述被识别出语种的所输入文字的字符相同或相对应的字符组合,确认上述被识别出语种的所输入文字是已被存储在基础语料库中的已知单字或单词,或进一步主动完整汉语单字组合或单词字母组合,若不能从汉-维语料库、维-汉语料库、哈-汉语料库或柯-汉语料库中检索出与所输入文字相同或相对应的字符组合-汉语单字或维语、哈语或柯语单词,则检索模块判断上述被识别出语种的所输入文字是未知的,不能被语种识别模块确认、接收;
(Ⅲ)语种识别模块接收检索模块所检索出的字符组合,并从基础语料库所存储的汉-维语料库、维-汉语料库、哈-汉语料库和柯-汉语料库中调出与由检索模块所检索出的字符组合意思对应的且不同于所输入文字语种的另一语种字符组合-转译成汉语单字、汉语单词或维语单词、哈语单词、柯语单词,再把所输入文字和/或由语种识别模块从基础语料库中所调出的与所输入文字意思相对应的另一语种字符组合通过检索模块或直接传至检索输出组合模块;
(Ⅳ)检索输出组合模块根据所输入文字和/或由语种识别模块从基础语料库中所调出的与所输入文字意思相对应的字另一语种符组合,从基础语料库中并列存储的汉-汉语料库、维-维语料库、哈-哈语料库和柯-柯语料库中获取用于解释被检索模块检索出的字符组合意思的汉语解释语句,再根据维哈柯文斯拉夫文字与维哈柯文阿拉伯文字映射表或维哈柯文阿拉伯文字与维哈柯文拉丁文字映射表,获取与上述另一种字符组合意思对应的由斯拉夫字母或阿拉伯字母或拉丁字母表达的维语解释语句、哈语解释语句和/或柯语解释语句,相应对由语种识别模块从基础语料库中所调出的字符组合的意思进行解释,检索输出组合模块再将其所检索出的解释语句输出至语音识别模块; 
(Ⅴ)当语音识别模块判断其所接收的上述解释语句为汉语解释语句时,语音识别模块用寄存于存储器内的语音数据库所存储的真人汉语语音库,相应逐一对其所接收的汉语解释语句中的每一汉语单字按照汉语发音语序进行语音匹配,再将暂存有与其所接收汉语解释语句中的汉语单字按序相匹配的汉语发音信号依次传至语音输出模块,对应于汉语解释语句中每一汉语单字的汉语发音信号被语音输出模块逐一按序检测、读取后,由语音输出模块中的扬声器依次发出与其所接收汉语解释语句中的每一汉语单字对应的汉语语音;
当语音识别模块判断其所接收的解释语句为维语解释语句、哈语解释语句和/或柯语解释语句且其所接收的维语解释语句、哈语解释语句和/或柯语解释语句是以阿拉伯字母或斯拉夫字母表达的单词时,语音识别模块用语音数据库中所存储的真人维语语音库、真人哈语语音库或真人柯语语音库,相应逐一对其所接收的维语、哈语和/或柯语解释语句的每一单词按照维语、哈语或柯语发音语序进行语音匹配,再将暂存有与上述其所接收的维语、哈语和/或柯语解释语句中的单词按序相匹配的维语、哈语或柯语发音信号传依次传至语音输出模块,对应于上述其所接收的维语、哈语和/或柯语解释语句中每一单词的发音信号被语音输出模块逐一按序检测、读取后,由语音输出模块中的扬声器依次发出与上述其所接收的维语、哈语和/或柯语解释语句中每一单词相匹配的语音;若语音识别模块判断其所接收的解释语句为维语解释语句、哈语解释语句和/或柯语解释语句,但不能对上述其所接收的维语、哈语和/或柯语解释语句进行语音匹配时,则推定上述其所接收的维语、哈语和/或柯语解释语句相应是以阿拉伯字母或斯拉夫字母或拉丁字母表达的维语、哈语和/或柯语文本,并调用语音数据库中所存储的合成维语语音库、合成哈语语音库和合成柯语语音库对维语、哈语和/或柯语文本进行基于音节的语音合成,通过维语、哈语或柯语语句单词与音节切分法相应将维语、哈语和/或柯语文本切分成已知存储于合成语音库中的维语、哈语或柯语单词,再用真人维语语音库、真人哈语语音库、真人柯语语音库和/或合成维语语音库、合成哈语语音库、合成柯语语音库,相应逐一对上述维语、哈语和/或柯语文本中每一单词按照维语、哈语或柯语发音语序进行语音匹配,再将暂存有与维语、哈语和/或柯语文本被按序所切分出的单词相相匹配的维语、哈语或柯语发音信号依次传至语音输出模块,维语、哈语或柯语发音信号被语音输出模块逐一按序检测、读取后,由语音输出模块中的扬声器依次发出与维语、哈语和/或柯语文本中每一单词相匹配的语音。
本发明是基于计算语言学、人类文化学、社会学、语用学、翻译学及计算机信息处理科学技术的汉语、维吾尔语、哈萨克语、柯尔克孜语(简称维哈柯)多语种多媒体电子辞典,支持国际UNICODE标准,以实现汉维哈柯语单词、短语输入功能、汉维哈柯语单词与文本朗读功能,具有在不同操作系统下利用屏幕取词法获取汉维哈柯语字符的功能,也具有汉语、维哈柯语的多语种界面,对汉语、维哈柯语单词快速检索、模糊检索,可直接输入汉语、维哈柯语,维哈柯语斯拉夫文字与维哈柯语阿拉伯文字进行编码转换或维哈柯语拉丁文字与汉维哈柯语阿拉伯文字编码转换,对电子辞典词库进行管理,附带辞典设置、辞典工具、辞典附录、在线升级等功能。
本发明提供维哈柯语阿拉伯文字输入法,但不依赖其它汉维哈柯(语)文输入法,提高了可用性,提供屏幕取词汉语、维哈柯语多向实时翻译,为使用汉语、维哈柯语的用户带来了方便,提供汉语、维哈柯语单词和短语的标准朗诵,是学习汉语、维哈柯语的有力工具,具有海量汉语、维哈柯文语料库和单词、短语解释功能以及维哈柯语斯拉夫文字和维哈柯语阿拉伯文字之间的转换显示功能和维哈柯语拉丁文字和维哈柯语阿拉伯文字之间的转换显示功能,方便其它讲汉语或维哈柯语的人员学习讲汉语、维吾尔语、哈萨克语、柯尔克孜语的人民的民族历史、风俗习惯,为其它讲汉语或维哈柯语的人员了解新疆和中亚地理信息和区域、风貌提供了大量实例。
本发明解决了所有以维哈柯语为母语的国内外伊斯兰人民难于获取现代知识和日常生活中的语言障碍问题,使国内外维哈柯语学习者能快速翻译进而获取各种信息,不仅方便讲维哈柯语的人民学习汉语,而且方便汉族同志和外国人学习维哈柯语,是维哈柯语、汉语使用者学习汉语、维哈柯语翻译工具,对提高将维哈柯语的人民的汉语听说读写水平有着深远的意义;另一方面对将来汉、维哈柯语(语)机器翻译辞典库建设,对乌(乌孜别克文)汉、土(土耳其文)汉双向电子辞典及辅助机器翻译系统的开发打下了坚实的基础。
本发明的技术特点是:①提供汉语、维哈柯语之间的单词翻译服务,在本发明的汉维哈柯语电子辞典中输入上述任意一种语言单词可以获得其在另外一种语言中的释义;②提供支持国际UNICODE标准的维哈柯(语)文组件式输入法,即用户没有安装任何维哈柯语输入法时,本发明的电子辞典仍然可以正确输入标准的维哈柯语单词;③在当前主流的Windows系列操作系统(Windows XP\Windows Server\Windows Vista\Windows 7)中,可实现对维哈柯文进行屏幕取词的功能;④使用统计学和语音学以实现对维哈柯语单词和文本的朗读功能,语音朗读标准、清晰,具有较先进的技术特色;⑤提供辞典在线升级、辞典设置、辞典工具、辞典附录等附加功能,可根据用户的需要进行设置;⑥提供友好的多语种辞典界面,通过人性化的设置获得不同语言的辞典界面和方向;⑦实现对输入文字语言自动识别的功能,分析所输入文字,自动对所输入文字进行语种判断,并对其进行单词翻译;⑧汉维哈柯语词库内收集有将近300万条词汇,同时建立了真人语音库和基于音节切分技术的语音朗读合成库;⑨实现维哈柯语斯拉夫文字(哈萨克斯坦、吉尔吉斯斯坦)和维哈柯语阿拉伯文字(中国新疆)之间的转换显示功能,从而有效地拓宽本发明的使用范围;⑩实现维哈柯语拉丁文字(网络或国际学术界使用的文字)和维哈柯语阿拉伯文字之间的转换显示功能。本发明的电子词典其结构合理,通用性强,其方法改变原先传统、普通汉语与维吾尔语、哈萨克语和柯尔克孜语互译的辞典技术,提高汉语和维吾尔语、哈萨克语和柯尔克孜语相互转译的效率,改进对维吾尔语、哈萨克语和柯尔克孜语文字进行语音放送的性能。
附图说明
附图是本发明的模块连接示意图及其自动转译汉维哈柯语的方法的总流程示意图。
具体实施方式
一种汉维哈柯电子辞典,如附图所示,由语种识别模块2、检索模块3、检索输出组合模块4、显示模块1、语音识别模块5和语音输出模块6组成,语种识别模块2通过其相应接口连接显示模块1的接口和检索模块3的接口,检索模块3通过其输出端接口对应连接检索输出组合模块4的输入端接口,检索输出组合模块4输出端接口对应连接语音识别模块5的输入端接口,语音识别模块5通过其输出端接口连接语音输出模块6的输入端接口。
一种汉维哈柯电子辞典自动转译汉维哈柯语的方法,如附图所示,其按序处理的步骤如下:
(Ⅰ)由显示模块1显示(由键盘)所输入的文字,依次使所输入文字混合编排和图文混合排版,构建取词窗口;语种识别模块2利用取词窗口通过屏幕取词的方法,获取与显示模块1显示的所输入文字相对应的输入字符编码区域,将所输入文字与事先被存储的UNICODE标准编码字符集(通用字符集:Universal Multiple-Octet Coded Character Set)中的编码字符相比对,语种识别模块2首先判断所输入的文字的语种是汉语文字或非汉语语种的文字;若语种识别模块2判断出所输入文字是非汉语语种的文字,则先从所输入非汉语语种文字获取输入的文本,将所输入的非汉语语种的文本的字母与其中所存储的维哈柯文字字母表的字母比对,以识别出上述非汉语文字的语种为维语、哈语或柯语,即最终识别出所输入文字的语种,并将最终由语种识别模块2识别出语种的所输入非汉语文字经文字转换环节转换成维哈柯文斯拉夫文子、维哈柯文阿拉伯文字或维哈柯文拉丁文字,将已被识别出语种的所输入文字(汉语文字、经文字转换环节转换而成的由斯拉夫字母、阿拉伯字母或拉丁字母表达的维语文字、哈语文字或柯语文字)传送至检索模块3,所述的维哈柯文字字母表为存有维语字母、哈语字母和柯语字母的字母表;注:若语种识别模块2判断出其接收到的所输入文字是汉语拼音文字,则先将所输入汉语拼音文字的字母组合与寄存于存储器内的基础语料库(取词数据库)中的拼音语料库的所有字母组合逐一比对(若所输入汉语拼音文字的字母组合与拼音语料库所存储的所有字母组合不相同或不对应,则不能从拼音语料库中获取与所输入汉语拼音文字发音相同的汉语单字,若所输入汉语拼音文字的字母组合与拼音语料库所存储的某一字母组合相同或相对应,则能从拼音语料库中获取与所输入汉语拼音发音文字对应的汉语单字),以获取与所输入汉语拼音文字发音相同的汉语单字,即从拼音语料库中调出罗列有与上述汉语拼音文字发音相同的候选汉语单字的列表,用户从该列表中选择某一候选汉语单字,将与汉语拼音文字发音相同的某一候选汉语单字传输至显示模块1,由显示模块1显示该某一候选汉语单字,再将与汉语拼音文字发音相同的汉语单字传送至检索模块3,所述的拼音语料库存储有与各个汉语拼音组合字符发音相同的汉语单字(索引)、汉语单词(索引),若语种识别模块2判断出其直接接收到的所输入文字是汉语文字,则直接将该汉语文字传输至检索模块3;
(Ⅱ)检索模块3获取检索方式将被识别出语种的所输入文字与基础语料库中并列存储的汉-维语料库、维-汉语料库、哈-汉语料库和柯-汉语料库中所存储的字符进行比对(所述的字符为汉语单字或维语单词或哈语单词或柯语单词),以从基础语料库中检索出与上述被识别出语种的所输入文字的字符相同或相对应的字符组合,确认上述被识别出语种的所输入文字是已被存储在基础语料库中的已知单字或单词,或进一步主动完整汉语单字组合或单词字母组合,若不能从汉-维语料库、维-汉语料库、哈-汉语料库或柯-汉语料库中检索出与所输入文字相同或相对应的字符组合-汉语单字或维语、哈语或柯语单词,则检索模块3判断上述被识别出语种的所输入文字是未知的,不能被语种识别模块2确认、接收,所述的汉-维语料库存储有与各个汉语单字或汉语单词汇所对应的维语单词,所述的维-汉语料库存储有与各个维语单词所对应的汉语单字或汉语单词,所述的哈-汉语料库存储有与各个哈语单词所对应的汉语单字或汉语单词,所述的柯-汉语料库存储有与各个柯语单词所对应的汉语单字或汉语单词;
(Ⅲ)语种识别模块2接收检索模块3所检索出的字符组合,并从基础语料库所存储的汉-维语料库、维-汉语料库、哈-汉语料库和柯-汉语料库中调出与由检索模块3所检索出的字符组合意思对应的且不同于所输入文字语种的另一语种字符组合-转译成汉语单字、汉语单词或维语单词、哈语单词、柯语单词,即将维语单词、哈语单词或柯语单词转译成汉语单字或汉语单词,或将汉语单字或汉语单词转译成维语单词、哈语单词或柯语单词,或使维语单词、哈语单词和柯语单词相互转译,再把所输入文字和/或由语种识别模块2从基础语料库中所调出的与所输入文字意思相对应的另一语种字符组合通过检索模块3或直接传至检索输出组合模块4;
(Ⅳ)检索输出组合模块4根据所输入文字和/或由语种识别模块2从基础语料库中所调出的与所输入文字意思相对应的字另一语种符组合,从基础语料库中并列存储的汉-汉语料库、维-维语料库、哈-哈语料库和柯-柯语料库中获取用于解释被检索模块3检索出的字符组合意思的汉语解释语句,再根据维哈柯文斯拉夫文字与维哈柯文阿拉伯文字映射表或维哈柯文阿拉伯文字与维哈柯文拉丁文字映射表,获取与上述另一种字符组合意思对应的由斯拉夫字母或阿拉伯字母或拉丁字母表达的维语解释语句、哈语解释语句和/或柯语解释语句(进行文本转换处理),用上述某一语种文字所作出的解释语句必是用所输入文字所属语种的文字作出的解释语句,相应对由语种识别模块2从基础语料库中所调出的字符组合的意思进行解释(如对某一维语单词、哈语单词和/或柯语单词用与其意思对应的汉语解释语句进行解释,或者对某一汉语单字或单词用与其意思对应的以阿拉伯字母或斯拉夫字母或拉丁字母表达的维语、哈语和/或柯语解释语句进行解释,或者对某一维语单词用与其意思对应的以阿拉伯字母或斯拉夫字母或拉丁字母表达的维语解释语句、哈语解释语句和/或柯语解释语句进行解释,或者对某一哈语单词用与其意思对应的以阿拉伯字母或斯拉夫字母或拉丁字母表达的哈语解释语句、维语解释语句和/或柯语解释语句进行解释,或者对某一柯语单词用与其意思对应的以阿拉伯字母或斯拉夫字母或拉丁字母表达的柯语解释语句、维语解释语句和/或哈语解释语句进行解释,或者对某一汉语单字或单词用与其意思对应的汉语解释语句进行解释),检索输出组合模块4再将其所检索出的解释语句(汉语解释语句、维语解释语句、哈语解释语句和/或柯语解释语句)输出至语音识别模块5;例如,所述的汉-汉语料库存储有对每个汉语单字或单词作出解释的汉语词句,所述的维-维语料库存储有对每个维吾尔语单词作出解释的维吾尔语词句,所述的哈-哈语料库存储有对每个哈萨克语单词作出解释的哈萨克语词句,所述的柯-柯语料库可以存储有对每个柯尔克孜语单词作出解释的柯尔克孜语词句;  
(Ⅴ)当语音识别模块5判断其所接收的上述解释语句为汉语解释语句时,语音识别模块5用寄存于存储器内的语音数据库所存储的真人汉语语音库,相应逐一对其所接收的汉语解释语句中的每一汉语单字按照汉语发音语序进行语音匹配,再将暂存有与其所接收汉语解释语句中的汉语单字按序相匹配的汉语发音信号依次传至语音输出模块6,对应于汉语解释语句中每一汉语单字的汉语发音信号被语音输出模块6逐一按序检测、读取后,由语音输出模块6中的扬声器依次发出与其所接收汉语解释语句中的每一汉语单字对应的汉语语音;
当语音识别模块5判断其所接收的解释语句为维语解释语句、哈语解释语句和/或柯语解释语句且其所接收的维语解释语句、哈语解释语句和/或柯语解释语句是以阿拉伯字母或斯拉夫字母表达的单词时,语音识别模块5用语音数据库中所存储的真人维语语音库、真人哈语语音库或真人柯语语音库,相应逐一对其所接收的维语、哈语和/或柯语解释语句的每一单词按照维语、哈语或柯语发音语序进行语音匹配,再将暂存有与上述其所接收的维语、哈语和/或柯语解释语句中的单词按序相匹配的维语、哈语或柯语发音信号传依次传至语音输出模块6,对应于上述其所接收的维语、哈语和/或柯语解释语句中每一单词的发音信号被语音输出模块6逐一按序检测、读取后,由语音输出模块6中的扬声器依次发出与上述其所接收的维语、哈语和/或柯语解释语句中每一单词相匹配的语音;若语音识别模块5判断其所接收的解释语句为维语解释语句、哈语解释语句和/或柯语解释语句,但不能对上述其所接收的维语、哈语和/或柯语解释语句进行语音匹配时,则推定上述其所接收的维语、哈语和/或柯语解释语句相应是以阿拉伯字母或斯拉夫字母或拉丁字母表达的维语、哈语和/或柯语文本(即转入文本处理),并调用语音数据库中所存储的合成维语语音库、合成哈语语音库和合成柯语语音库对维语、哈语和/或柯语文本进行基于音节的语音合成,通过维语、哈语或柯语语句单词与音节切分法相应将维语、哈语和/或柯语文本切分成已知存储于合成语音库中的维语、哈语或柯语单词,再用真人维语语音库、真人哈语语音库、真人柯语语音库和/或合成维语语音库、合成哈语语音库、合成柯语语音库,相应逐一对上述维语、哈语和/或柯语文本中每一单词按照维语、哈语或柯语发音语序进行语音匹配,再将暂存有与维语、哈语和/或柯语文本被按序所切分出的单词相相匹配的维语、哈语或柯语发音信号依次传至语音输出模块6,维语、哈语或柯语发音信号被语音输出模块6逐一按序检测、读取后,由语音输出模块6中的扬声器依次发出与维语、哈语和/或柯语文本中每一单词相匹配的语音。
所述的检索方式为首部检索方式、尾部检索方式或包含检索方式;
首部检索方式为:A、检索模块3从左向右(按照人面对的左边、右边)按序逐一录入所输入文字中的每个字符,B、将基础语料库(汉-维语料库、维-汉语料库、哈-汉语语料库和/或柯-汉语料库)所存储的字符组合与被录入的所输入文字字符组合相比对,若能从基础语料库中搜索出与被录入的文字字符组合相同的字符,则停止检索,即完成精确匹配出所输入文字的工作;若不能通过首部检索方式从基础语料库中搜索出与所输入文字相同的字符组合,则采用如下的尾部检索方式继续检索所输入的文字;
尾部检索方式为:①检索模块3从右向左(按照人面对的左边、右边)按序逐一录入所输入的文字中的每个字符,②同上述首部检索方式的步骤B;若不能通过首部检索方式从基础语料库中搜索出与所输入文字相同的字符,则采用如下的包含检索方式继续检索所输入的文字;
包含检索方式为从任意方向匹配所输入文字的字符组合的检索方式,包括上述首部检索方式与尾部检索方式,检索模块3通过该包含检索方式从基础语料库中搜索出与所输入文字相同的字符,最终完成精确匹配所输入文字的工作。
本发明的检索流程涉及语种识别模块2、检索模块3、检索组合输出模块4和基础语料库,其主要流程为:1)首先,用户通过汉语、维哈柯语输入法输入汉语文字或维哈柯语文字,输入所需要查询的文字,通过输入数据的UNICODE编码,判断所输入文字(源语言单词或文本)的语种(汉语或维哈柯语);2)根据用户设置的检索方式判断所输入文字的语种,检索模块3检索出与所输入文字(源语言单词或文本)匹配的汉语和/或维哈柯语单词、文本;3)根据检索模块3对所输入文字检索的结果,从基础语料库中匹配出与所输入文字相同或相应的汉语单词和/或维哈柯语单词意思对应相同的汉语解释例句和维哈柯语解释例句,并组合生成需要输出的数据。
本发明屏幕取词、翻译流程涉及语种识别模块2、显示模块1、检索模块3和取词数据库(基础语料库),其主要流程为:1)用户输入文字(需要翻译的单词、文本);2) 语种识别模块2通过输入数据的UNICODE编码判断上述所输入文字(源语言单词或文本)的语种(汉语或维哈柯语);3)根据语种识别模块2对所输入文字判断出的不同语种,检索模块3从取词汉语库或取词维哈柯语词库(汉-维语料库、维-汉语料库、哈-汉语料库和/或柯-汉语料库)中对应获取与所输入文字相匹配的单词、文本;4)依据检索模块3对所输入文字最终匹配的结果,显示模块1通过文本混合排版技术和图文混合排版技术,构建屏幕取词翻译界面,显示最终翻译结果(汉语词句或维哈柯语词句)。
本发明语音朗诵的流程涉及语种识别模块2、语音输出模块6、检索组合输出模块4和语音数据库,其主要流程为:1)语种识别模块2对其接收到检索组合输出模块4所发出的汉语、维哈柯语解释语句(在屏幕取词环节中所输入的文字)进行语种判断,如果所输入的解释语句是汉语词句,则从真人汉语语音库匹配所输入的汉语单字,如果所输入的解释语句是维哈柯语词句,则继续判断语种识别模块2所接收的维哈柯语解释语句是否为单词,若是所输入的文字为维哈柯语单词,则直接从真人维哈柯语语音库匹配出相同或相应的维哈柯语单词,若语音输出模块6找不到匹配的维哈柯语单词,则将其转入文本处理过程,即如果所输入的解释语句是维哈柯语文本,则利用维哈柯语语句音节切分技术,将维哈柯语文本按照维哈柯语语言特点切分为维哈柯语单词,并将维哈柯语文本中的单词按照维哈柯语的特点切分为音节,从合成维哈柯语语音库对应匹配出维哈柯语文本每一单词的所有音节,最终组成完整的维哈柯语语音文本;2)通过计算机语音设备检测,对上述维哈柯语文本进行读取并输出、播放。
使用者通过键盘输入方式在屏幕显示的输入框中输入待查询的文字(源语言单词或文本),所输入的文字经过语种识别环节被识别出语言种类(汉语或维哈柯语)后,由检索模块3利用拼音检索法、首部检索法、尾部检索法、包含检索法和精确匹配检索法中的任意一种方法,对所输入的文字与拼音语料库、汉-维语料库、维-汉语料库、哈-汉语料库和/或柯-汉语料库的单词进行匹配,从基础语料库中检索出与上述所输入文字相对应或相同的待翻译的单词,然后根据检索模块3从基础语料库中所检索出的待翻译的单词,检索组合输出模块4获取与所述待翻译的单词意思相对应的汉语解释语句和维哈柯语解释语句,再通过文本混合排版技术、图文混合排版技术进行编辑,将翻译的汉语解释语句或维哈柯语解释语句组合成为输出的文字数据,显示在(屏幕)结果显示区域内。
使用者通过光标定位方式所输入的待翻译解释的文字(单词或文本),所输入的文字在经过语种识别环节后,语种识别模块2再从常用取词汉语库和常用取词维哈柯语库(汉-维语料库、维-汉语料库、哈-汉语料库和/或柯-汉语料库)中检索出与所输入的文字(目标语言或源语言单词或文本)意思相同或相对应的另一语种单词(翻译数据),再通过文本混合排版技术、图文混合排版技术将翻译数据(结果)组合成为输出数据,并以动态方式构建符合输出数据大小的显示界面,显示最终翻译结果。
使用者输入文字(源语言单词或文本)后,所输入文字经过语种识别环节、单词检索确认环节、汉语和维哈柯语转译环节、维哈柯语音节单词切分环节等后,再调用真人汉语语音库、真人维哈柯语语音库和合成维哈柯语语音库,将所输入文字生成相应的汉语或维哈柯语语音文件,语音识别模块5(语音检测设备)读取上述所输入的文字,并通过其扬声器依次按音节发出所输入文字的语音。

Claims (3)

1.一种汉维哈柯电子词典,其特征是:由语种识别模块(2)、检索模块(3)、检索输出组合模块(4)、显示模块(1)、语音识别模块(5)和语音输出模块(6)组成,语种识别模块(2)通过其相应接口连接显示模块(1)的接口和检索模块(3)的接口,检索模块(3)通过其输出端接口对应连接检索输出组合模块(4)的输入端接口,检索输出组合模块(4)输出端接口对应连接语音识别模块(5)的输入端接口,语音识别模块(5)通过其输出端接口连接语音输出模块(6)的输入端接口。
2.一种汉维哈柯电子词典自动转译汉维哈柯语的方法,其按序处理的步骤如下:
(Ⅰ)由显示模块(1)显示所输入的文字,构建取词窗口;语种识别模块(2)利用取词窗口通过屏幕取词的方法,获取与显示模块(1)显示的所输入文字相对应的输入字符编码区域,将所输入文字与事先被存储的UNICODE标准编码字符集中的编码字符相比对,语种识别模块(2)首先判断所输入的文字的语种是汉语文字或非汉语语种的文字;若语种识别模块(2)判断出所输入文字是非汉语语种的文字,则先从所输入非汉语语种文字获取输入的文本,将所输入的非汉语语种的文本的字母与其中所存储的维哈柯文字字母表的字母比对,以识别出上述非汉语文字的语种为维语、哈语或柯语,即最终识别出所输入文字的语种,并将最终由语种识别模块(2)识别出语种的所输入非汉语文字经文字转换环节转换成维哈柯文斯拉夫文子、维哈柯文阿拉伯文字或维哈柯文拉丁文字,将已被识别出语种的所输入文字传送至检索模块(3);   
(Ⅱ)检索模块(3)获取检索方式将被识别出语种的所输入文字与基础语料库中并列存储的汉-维语料库、维-汉语料库、哈-汉语料库和柯-汉语料库中所存储的字符进行比对,以从基础语料库中检索出与上述被识别出语种的所输入文字的字符相同或相对应的字符组合,确认上述被识别出语种的所输入文字是已被存储在基础语料库中的已知单字或单词,或进一步主动完整汉语单字组合或单词字母组合,若不能从汉-维语料库、维-汉语料库、哈-汉语料库或柯-汉语料库中检索出与所输入文字相同或相对应的字符组合-汉语单字或维语、哈语或柯语单词,则检索模块(3)判断上述被识别出语种的所输入文字是未知的,不能被语种识别模块(2)确认、接收;
(Ⅲ)语种识别模块(2)接收检索模块(3)所检索出的字符组合,并从基础语料库所存储的汉-维语料库、维-汉语料库、哈-汉语料库和柯-汉语料库中调出与由检索模块(3)所检索出的字符组合意思对应的且不同于所输入文字语种的另一语种字符组合-转译成汉语单字、汉语单词或维语单词、哈语单词、柯语单词,再把所输入文字和/或由语种识别模块(2)从基础语料库中所调出的与所输入文字意思相对应的另一语种字符组合通过检索模块(3)或直接传至检索输出组合模块(4); 
(Ⅳ)检索输出组合模块(4)根据所输入文字和/或由语种识别模块(2)从基础语料库中所调出的与所输入文字意思相对应的字另一语种符组合,从基础语料库中并列存储的汉-汉语料库、维-维语料库、哈-哈语料库和柯-柯语料库中获取用于解释被检索模块(3)检索出的字符组合意思的汉语解释语句,再根据维哈柯文斯拉夫文字与维哈柯文阿拉伯文字映射表或维哈柯文阿拉伯文字与维哈柯文拉丁文字映射表,获取与上述另一种字符组合意思对应的由斯拉夫字母或阿拉伯字母或拉丁字母表达的维语解释语句、哈语解释语句和/或柯语解释语句,相应对由语种识别模块(2)从基础语料库中所调出的字符组合的意思进行解释,检索输出组合模块(4)再将其所检索出的解释语句输出至语音识别模块(5); 
(Ⅴ)当语音识别模块(5)判断其所接收的上述解释语句为汉语解释语句时,语音识别模块(5)用寄存于存储器内的语音数据库所存储的真人汉语语音库,相应逐一对其所接收的汉语解释语句中的每一汉语单字按照汉语发音语序进行语音匹配,再将暂存有与其所接收汉语解释语句中的汉语单字按序相匹配的汉语发音信号依次传至语音输出模块(6),对应于汉语解释语句中每一汉语单字的汉语发音信号被语音输出模块(6)逐一按序检测、读取后,由语音输出模块(6)中的扬声器依次发出与其所接收汉语解释语句中的每一汉语单字对应的汉语语音;
当语音识别模块(5)判断其所接收的解释语句为维语解释语句、哈语解释语句和/或柯语解释语句且其所接收的维语解释语句、哈语解释语句和/或柯语解释语句是以阿拉伯字母或斯拉夫字母表达的单词时,语音识别模块(5)用语音数据库中所存储的真人维语语音库、真人哈语语音库或真人柯语语音库,相应逐一对其所接收的维语、哈语和/或柯语解释语句的每一单词按照维语、哈语或柯语发音语序进行语音匹配,再将暂存有与上述其所接收的维语、哈语和/或柯语解释语句中的单词按序相匹配的维语、哈语或柯语发音信号传依次传至语音输出模块(6),对应于上述其所接收的维语、哈语和/或柯语解释语句中每一单词的发音信号被语音输出模块(6)逐一按序检测、读取后,由语音输出模块(6)中的扬声器依次发出与上述其所接收的维语、哈语和/或柯语解释语句中每一单词相匹配的语音;若语音识别模块(5)判断其所接收的解释语句为维语解释语句、哈语解释语句和/或柯语解释语句,但不能对上述其所接收的维语、哈语和/或柯语解释语句进行语音匹配时,则推定上述其所接收的维语、哈语和/或柯语解释语句相应是以阿拉伯字母或斯拉夫字母或拉丁字母表达的维语、哈语和/或柯语文本,并调用语音数据库中所存储的合成维语语音库、合成哈语语音库和合成柯语语音库对维语、哈语和/或柯语文本进行基于音节的语音合成,通过维语、哈语或柯语语句单词与音节切分法相应将维语、哈语和/或柯语文本切分成已知存储于合成语音库中的维语、哈语或柯语单词,再用真人维语语音库、真人哈语语音库、真人柯语语音库和/或合成维语语音库、合成哈语语音库、合成柯语语音库,相应逐一对上述维语、哈语和/或柯语文本中每一单词按照维语、哈语或柯语发音语序进行语音匹配,再将暂存有与维语、哈语和/或柯语文本被按序所切分出的单词相相匹配的维语、哈语或柯语发音信号依次传至语音输出模块(6),维语、哈语或柯语发音信号被语音输出模块(6)逐一按序检测、读取后,由语音输出模块(6)中的扬声器依次发出与维语、哈语和/或柯语文本中每一单词相匹配的语音。
3.根据权利要求2所述的汉维哈柯电子词典自动转译汉维哈柯语的方法,其特征是:所述的检索方式为首部检索方式、尾部检索方式或包含检索方式;
首部检索方式为:A、检索模块(3)从左向右按序逐一录入所输入文字中的每个字符,B、将基础语料库所存储的字符组合与被录入的所输入文字字符组合相比对,若能从基础语料库中搜索出与被录入的文字字符组合相同的字符,则停止检索,即完成精确匹配出所输入文字的工作;若不能通过首部检索方式从基础语料库中搜索出与所输入文字相同的字符组合,则采用如下的尾部检索方式继续检索所输入的文字;
尾部检索方式为:①检索模块(3)从右向左(按照人面对的左边、右边)按序逐一录入所输入的文字中的每个字符,②同上述首部检索方式的步骤B;若不能通过首部检索方式从基础语料库中搜索出与所输入文字相同的字符,则采用如下的包含检索方式继续检索所输入的文字;
包含检索方式为从任意方向匹配所输入文字的字符组合的检索方式,包括上述首部检索方式与尾部检索方式。
CN201110426748.4A 2011-12-19 2011-12-19 使用汉维哈柯电子辞典自动转译汉维哈柯语的方法 Active CN103164396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110426748.4A CN103164396B (zh) 2011-12-19 2011-12-19 使用汉维哈柯电子辞典自动转译汉维哈柯语的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110426748.4A CN103164396B (zh) 2011-12-19 2011-12-19 使用汉维哈柯电子辞典自动转译汉维哈柯语的方法

Publications (2)

Publication Number Publication Date
CN103164396A true CN103164396A (zh) 2013-06-19
CN103164396B CN103164396B (zh) 2016-09-14

Family

ID=48587492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110426748.4A Active CN103164396B (zh) 2011-12-19 2011-12-19 使用汉维哈柯电子辞典自动转译汉维哈柯语的方法

Country Status (1)

Country Link
CN (1) CN103164396B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106507321A (zh) * 2016-11-22 2017-03-15 新疆农业大学 一种维、汉双语gsm短信息语音转换播发系统
CN107169067A (zh) * 2017-05-05 2017-09-15 上海明数数字出版科技有限公司 一种利用语音查询汉字的字典检索方法及系统
CN108777751A (zh) * 2018-06-07 2018-11-09 上海航动科技有限公司 一种呼叫中心系统及其语音交互方法、装置和设备
CN111814433A (zh) * 2020-08-20 2020-10-23 北京智源人工智能研究院 一种维吾尔语实体识别的方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329667A (zh) * 2008-08-04 2008-12-24 深圳市大正汉语软件有限公司 多语言语音互译的智能翻译设备及其控制方法
CN101415259A (zh) * 2007-10-18 2009-04-22 三星电子株式会社 嵌入式设备上基于双语语音查询的信息检索系统及方法
CN102103625A (zh) * 2009-12-17 2011-06-22 艾利和电子科技(中国)有限公司 根据输入语言自动搜索电子词典的系统及其方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101415259A (zh) * 2007-10-18 2009-04-22 三星电子株式会社 嵌入式设备上基于双语语音查询的信息检索系统及方法
CN101329667A (zh) * 2008-08-04 2008-12-24 深圳市大正汉语软件有限公司 多语言语音互译的智能翻译设备及其控制方法
CN102103625A (zh) * 2009-12-17 2011-06-22 艾利和电子科技(中国)有限公司 根据输入语言自动搜索电子词典的系统及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
买日旦·吾守尔 等: "电子词典软件系统中对维、哈、柯文进行自动判别技术的研究", 《新疆大学学报(自然科学版)》 *
缪成 等: "维、哈、柯、汉、英多文种处理平台的设计与实现", 《计算机工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106507321A (zh) * 2016-11-22 2017-03-15 新疆农业大学 一种维、汉双语gsm短信息语音转换播发系统
CN107169067A (zh) * 2017-05-05 2017-09-15 上海明数数字出版科技有限公司 一种利用语音查询汉字的字典检索方法及系统
CN108777751A (zh) * 2018-06-07 2018-11-09 上海航动科技有限公司 一种呼叫中心系统及其语音交互方法、装置和设备
CN111814433A (zh) * 2020-08-20 2020-10-23 北京智源人工智能研究院 一种维吾尔语实体识别的方法、装置和电子设备
CN111814433B (zh) * 2020-08-20 2022-02-18 北京智源人工智能研究院 一种维吾尔语实体识别的方法、装置和电子设备

Also Published As

Publication number Publication date
CN103164396B (zh) 2016-09-14

Similar Documents

Publication Publication Date Title
Pettersson et al. A multilingual evaluation of three spelling normalisation methods for historical text
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
CN102479208A (zh) 汉语语音码多样网页信息搜索转换翻译方法
CN103314369B (zh) 机器翻译装置和方法
CN102902660A (zh) 汉语语音码全拼和简拼汉语全息信息处理方法
CN103164398B (zh) 利用汉维电子辞典自动转译汉维语的方法
CN102929865B (zh) 一种用于中文和东盟各国语言互译的pda翻译系统
Wehrmeyer A corpus for signed language<? br?> interpreting research
CN103164397A (zh) 汉哈电子辞典及其自动转译汉哈语的方法
Tursun et al. Noisy Uyghur text normalization
Kang Spoken language to sign language translation system based on HamNoSys
CN103164396A (zh) 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
CN101441626A (zh) 一种多媒体检索系统及其检索方法
CN103164395A (zh) 汉柯电子辞典及其自动转译汉柯语的方法
CN103680503A (zh) 语义辨识方法
CN102609410B (zh) 规范文档辅助写作系统及规范文档生成方法
Yadava et al. Construction and annotation of a corpus of contemporary Nepali
CN102135957A (zh) 一种翻译短句的方法及装置
Rosmorduc Computational linguistics in egyptology
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
KR100463376B1 (ko) 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법
Talpur et al. Researching on Analysis and creating Corpus from Primary level Sindhi language Book for Sindhi
WO2008017188A1 (fr) Système et procédé pour réaliser un support d&#39;enseignement de cours de langue
Yao et al. Study of sign segmentation in the text of Chinese sign language
Shih et al. Improved Rapid Automatic Keyword Extraction for Voice-based Mechanical Arm Control.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: STATE ELECTRIC NET CROP.

Free format text: FORMER OWNER: XINJIANG NEW ENERGY INFORMATION COMMUNICATION CO., LTD.

Effective date: 20130604

Owner name: XINJIANG ELECTRIC POWER INFORMATION COMMUNICATION

Effective date: 20130604

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 830026 URUMQI, XINJIANG UYGUR AUTONOMOUS REGION TO: 100031 XICHENG, BEIJING

TA01 Transfer of patent application right

Effective date of registration: 20130604

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: Xinjiang Electric Power Information Communication Co., Ltd.

Address before: 830026 new energy building, 5 Guangzhou Road, Urumqi economic and Technological Development Zone, the Xinjiang Uygur Autonomous Region, China

Applicant before: Xinjiang Xinneng Information Communication Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160714

Address after: 830011, the Xinjiang Uygur Autonomous Region, Urumqi hi tech Zone, Changchun South Road, No. 1, 1118, 12 floor

Applicant after: INFORMATION & TELECOMMUNICATION COMPANY OF STATE GRID XINJIANG ELECTRIC POWER COMPANY

Applicant after: State Grid Corporation of China

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: Xinjiang Electric Power Information Communication Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant