CN1268238A - 用于对视力受损用户音频输出多字节字符的方法和系统 - Google Patents

用于对视力受损用户音频输出多字节字符的方法和系统 Download PDF

Info

Publication number
CN1268238A
CN1268238A CN97182297A CN97182297A CN1268238A CN 1268238 A CN1268238 A CN 1268238A CN 97182297 A CN97182297 A CN 97182297A CN 97182297 A CN97182297 A CN 97182297A CN 1268238 A CN1268238 A CN 1268238A
Authority
CN
China
Prior art keywords
sound
voice
multibyte character
syntactic element
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN97182297A
Other languages
English (en)
Inventor
彼得·K-H·翁
杰弗里·M·韦特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1268238A publication Critical patent/CN1268238A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

一种音频输出系统,其消除多字节字符的语音声音中的多义性,从而视力受损的用户可以唯一地确定与输出关联的字。通过采用辅助音频通道该改进型的音频输出系统提供这种多义性消除,该辅助音频通道同时输出一个或多个声音以区分正在主音频通道上输出的字。即,在主通道上音频输出字的语音,并且同时在辅助通道上输出区分声音。二个通道上二种声音的组合无岐义地辨别对听者输出的字。

Description

用于对视力受损用户音频 输出多字节字符的方法和系统
本发明一般涉及数据处理系统,尤其涉及向视力受损用户输出多字节字符。
部分上由于难以使用计算机进行工作或进行文字处理,盲人或视力受损者难以成为劳动力。为了把视力受损者纳入到劳动力中,已经开发了对用户用声音输出数据的系统。在这些系统中,计算机把数据存储到文件中,用户可命令计算机在扬声器上用声音输出数据,从而用户可以听见数据。在听多字节语言的数据时,用户使用这样的声音输出系统是困难的。“多字节语言”是这样的语言,其中为了唯一地确定语言中的每个字需要多于一个的字节。换言之,语言中存在多于28(256)个字。多字节语言的字被称为多字节字符。例如中文、日文、朝鲜文等基于汉字的多字节语言大约具有40000个字。
在基于汉字的语言中,语法元素被称为“汉字”。术语“语法元素”指的是某给定自然语言中能构成部分讲话的单元。例如,英语语言中的语法元素是单词。就这点而论,每个汉字是类似于英语语言中的单词的高级语言符号。即,自然语言趋于具有三个等级的语言元素。最低的一个等级取决于专用字母表并和口语的语音相关。例如,英语语言中的第一级和最低级语言元素由字母组成。第三级语言元素是最高等级,并包含着那些传递完整创意表达的语言元素。在英语语言中,第三级由句子构成。第二等级的语言元素指的是术语“语法元素”。第二等级是中间等级的语言元素,在英文中,第二级由单词构成。在中文中,第二级由汉字构成。
汉字通常由一个或多个偏旁构成。“偏旁”是汉字的一个部分,非常类似于字母是单词的一部分。经常,偏旁本身就是一个汉字。例如,图1描绘意思是“骑”的汉字102,它由二个偏旁104和106构成。类似地,意思是“钱”的汉字108由二个偏旁110、112构成,而意思是“树”的汉字114由三个偏旁116、118、120构成。对于组成某汉字的各偏旁,通常把其中一个偏旁确定为是部首。部首通常是汉字中最左边的偏旁。然而,当一个偏旁在另一个偏旁的上面时,通常上面的偏旁是部首。此外,当某个汉字由二个偏旁组成并且一个偏旁包围另一个偏旁时,外围的偏旁是部首。例如,汉字102的部首是意思为“马”的偏旁104。汉字108的部首是意思是“金子”或“金属”的偏旁110,而汉字114的部首是意思是“木”的偏旁116。从图1中还可以看出,汉字的部首和该汉字的意思具有紧密的关系。
在基于汉字的语言中,大约有210个用来表示该多字节语言中的所有语法元素或所有汉字的偏旁。图2给出中文中最常使用的从1到210编号的偏旁表。
为了方便说英语的人使用中文,使用一种周知的被称为“Wade-Giles系统”的中文拼音系统,以把汉字和偏旁变换成它们的语音的英文式表示。例如,参见图1,汉字114的发音是“shu4”。这表示辅音“sh”和“you”中的“u”元音组合。数字“4”表示其发音应采用的特定声调,例如当说话者提问时常常使用升调。不理解中文的人利用Wade-Geles系统可以在语音上发出中文。
由于基于汉字的语言中大约有40000个汉字,许多汉字组发音类似,但意思完全不同。这些汉字发音相同是由于它们在语音上相同。例如,下述汉字都发音成“wong”,但每个字具有不同的意思:
黄王皇蝗徨由于多字节语言中许多字发音雷同,当音频输出系统向视力受损用户输出多字节字符时,固有地存在着多义性的问题,这是由于发音或声音不能唯一地标识某个字,而是对应用于若干字。从而,用户常常不能完全理解音频输出标志哪些字,因此,用户有时难以理解音频输出的含义。当数据是一个相当短的短语的一部分并且用户不能从该短语的语境确定字的意思时,更加以难以推出音频输出的含义。在计算机命令中常会发现这样的短语,用户和计算机交互时常常会遇到它们。从而,多字节语言中固有的多义性阻碍视力受限的用户使用计算机以融入到劳动大军中。由于每个字具有不同的象形表示,有视力的人不具有这样的问题,因为从其象形表示用户可以确定具体的字,并进而确定该具体字的含义。由于有视力的人天天都看到字,这帮助他们加深字的差异和含义,从而记住成千上万个字。但是视力受损的人得不到这样的视觉强化。需要改进用于视力受损的人的多字节字符输出系统,以便把视力受损的人更好地纳入到劳动大军中。
提供一种改进型的消除多字节字符的语音的多义性的音频输出系统,从而视力受损的人可以唯一地辨识与输出相关的各个字。通过采用一种辅助音频通道该改进的音频输出系统消除多义性,该辅助音频通道同时输出一个或多个声音,从而辨别从主音频通道输出的字。即,在主通道上输出字的发音,并且同时在辅助通道上输出辨别声音。二个通道上二种声音的组合无岐义地确定向听者输出的字。事实上,本系统对视力受损的听者带来形态的唯一性或清晰性,并使听者加深理解相似发音字之间的含义差异。
依据本发明的第一方面,提供一种通过多个音频通道向设备的用户无岐义地输出声音的方法。该方法在第一音频通道上输出主声音,当主声音和多种含义有关时主声音试图向用户传递单个含义。几乎在输出主声音的同时,该方法在第二音频通道上输出辅助声音,以消除主声音的多义性,使用户确定单个含义。
依据本发明的第二方面,在计算机系统中提供一种音频播放文件中包含的某语言的语法元素。该方法读文件以得到语法元素,其中每个语法元素具有一个含义。该方法还音频播放描述语法元素的含义的声音,其中声音既不传递语法元素的视觉特征也不传递语法元素的音频特征。
依据本发明的第三方面,提供一种输出多字节字符的计算机。该计算机包括声音子系统、辅助存储器和主存储器。声音子系统在主通道和辅助通道上音频播放声音。辅助存储部件包含多字节字符到其语音的交换。和每个多字节字符对应的语音表示说出该多字节字符时的声音。多个多字节是多义性字在于这些多义性字的发音是相同的。主存储器包含一个阅读程序,后者读文件以检索从多个多义性字中选出的一个。该阅读程序还访问上述的变换以得到该选定的多义性字的发音,在声音子系统的主通道上音频播放该选定多义性字的发音,并且在辅助通道上音频播放无岐义的声音以便从多个多义性字中辨别出选定的多义性字。
图1描述三个中文字以及它们的组成偏旁。
图2描述中文中使用的偏旁。
图3概述本发明的一种优选实施例所使用的三种多义性消除模式。
图4描述本发明的一种优选实施例的三种多义性消除模式的例子。
图5描述一种适用于实现本发明的一种优选实施例的计算机系统。
图6A更详细地描述图5的数据库。
图6B更详细地描述图5的声音变换表。
图6C更详细地描述图5的带含义声音表。
图7描述图5中所示的阅读程序所执行的各步骤的流程图。
图8A和8B描述在获得要在辅助音频通道上播放的辅助声音时要执行的步骤的流程图。
提供一种改进型的音频输出系统,其消除多字节的发音中的多义性,从而视力受损的用户能够唯一性地辨别和输出相关的字。本发明的一种优选实施例通过采用辅助音频通道消除多义性,该辅助音频通道同时输出一个或多个辨别从主音频通道输出的某个字的声音。即,在主通道上音频输出某字的发音,并且同时在辅助通道上输出辨别声音。二个通道上的二种声音的组合无岐义地使听者辨别正在输出的字。事实上,本系统对视力受损的听者带来形态的唯一性和清晰性,并使听者加深理解相似发音字之间的含义差异。
本改进型的音频输出系统采用二个音频通道,即主通道和辅助通道,以向视觉受损的用户无岐义地输出汉字声音。主通道音频输出字的发音,而辅助通道输出一个和多个声音,从而消除掉主通道上播放的字的多义性。一种优选实施例具有三种模式(多义性消除模式),用于利用辅助音频通道实现为听者消除掉多字节字符的发音输出中的多义性的目标。熟练的技术人员当然会理解,可以把许多其它模式用作本发明的一部分。
图3描述一种优选实施例采用的三种多义性消除模式的概要。如表300表示,第一多义性消除模式在主通道上以主话音语音地播出某个字并在辅助通道上以辅助话音语音地播出采用该字的短语。术语“语音地播出”指的是系统输出偏旁、字、短语或其它语言元素的语音声音,仿佛由人说出该语言元素。该音频输出系统利用三种不同的输出话音消除语音输出的多义性:主话音、辅助话音和异常话音。例如,和主通道相关的主话音可能是女性话音,辅助话音可能是男性话音,而且,如后面所述,在需要异常话音的某些情况下,可能采用男性低调话音。通过采用多种话音,听者可以从音频输出中得到更多的含义。例如,听者会知道总是由女性话音说出字,并用男性话音提供附加信息以便消除字的多义性。用户可配置输出话音的类型,从而用户可以改变任何输出话音的男女声和高低调。熟练的技术人员可理解作为本发明的一部分可以采用男声、女声、高调低调的许多不同的组合。此外,熟练的技术人员可理解本发明可以控制输出话音的其它品质。例如,某种输出话音在扬声器上播出时,可以表现成是移动或者表现成是靠近的或离开的。这种品质上的控制也用于向用户提供更多的含义。
如上面所述,在辅助音频通道上第一多义性消除模式语音地播出短语,以便消除正在主音频通道上语音地播出的字的多义性。在这种意义下,“短语”是在某双字短语中应用该字,以使用户通过利用该字在该短语中的语境辨别主通道上播出的字。由于在主音频通道播出单个字的同时在辅助音频通道上播出多字短语会放慢主通道,因此第一多义性消除模式的一种替代办法是只在辅助音频通道上播出短语中不同于主通道上播出的字的另一个字。以这种方式,该第一多义性消除模式的替代办法可加快输出处理。
如表302中所示,第二多义性消除模式在主通道上以主话音语音地播出字,并且在常规情况下,在辅助通道上以辅助话音语音地播出该字的部首。辅助通道也具有某些例外使用,这将在后面说明。利用部首消除字的多义性是一种自然的辨别字的方法,因为部首和字的含义是紧密相关的,这可从图1中的示例字和它们的部首看出。利用部首消除字的多义性的另一个好外是听者可以确定具有类似偏旁(或相同字根)的字,其中盲人听者是不能只从语音辨别出具有类似偏旁的字的。这种辨别各字之中的相同字根的能力使盲人听者对语言具有更好的鉴别和理解。在第二多义性消除模式的替代办法中,在正常情况下,辅助通道可以播出和部首的含义相关的有含义的声音。“有含义的声音”是和部首相关的声音,该声音传递偏旁的含义,但是该声音并不和偏旁的其它视觉和听觉特性(如它的象形表示或发音)相关联。作为一个例子,对于图1的木偏旁116,可以播出击树的声音以对听者传递有含义的声音。
如前面所述,除了正常使用辅助通道之外,在异常情况下可不同的使用辅助通道。由于第二多义性消除模式提供和部首相关的多义性消除声音,存在着某些异常情况,在这些情况下单用多义性消除声音不足以消除主通道上播出的字的多义性。当多个字发音相似并且同时具有相同的部首时会出现这些情况,后面会对此更详细说明。在这些情况下,语音地播出这些字并且语音地播出部首对这些字的每一个产生完全相同的声音,从而不能使用户辨别这些字。通过在辅助通道上播出区分这些字的声音,第二多义性消除模式处理这些异常情况。对于具有相同部首的多个发音相似的字之中的最常用字,以辅助话音语音地播出部首。字的常用性是通过它们在该语言(例如汉语)中通常如何频繁使用确定的。备择地,对于最常用的字,可播出其部首的有含义的声音。相反,对于不那么最常用的字,第二多义性消除模式在辅助通道上以异常的话音语音地播出一个短语,从而用户可根据该短语的语境辨别主通道所输出的字。如前面所述,异常话音既和辅助话音不同也和主话音不同,从而听者能区别出异常情况。
表404中描述的第三多义性消除模式非常类似于第二多义性消除模式,即,主通道以主话音语音地播出字,并且,辅助通道在正常情况下或者以辅助话音语音地播出部首或播出部首的有含义的声音。而且,对于具有相同部首的多个相似发音的字之中的最常用字,第三多义性消除模式语音地以辅助话音输出部首(或部首的有含义的声音)。但是,第二和第三多义性消除模式的不同在于用于处理不太常用的字的异常情况的方式。对于不太常用的字,辅助通道将播出和该字有关的或和其中带有该字的周知短语有关的有含义的声音。例如,对于图1中的字114,有含义的声音可能是把树砍倒的声音或者风穿过树叶的声音。作为另一个例子,对图1的字108,第三多义性消除模式可能播出钱币落下击中地板的声音。第三多义性消除模式的一种替代方式是在各种情况(即正常情况和异常情况)播出字或短语的有含义的声音。
图4描述“shih 4”Wade-Giles语音下所采用的三种多义性消除模式的例子。这些特定的语音映射成39个不同的字。对于这三种多义性消除模式,主音频通道语音地播出字(即,shih 4)。下面说明的例子集中在辅助音频通道的输出上。为了消除从39个可能的字之中输出的字的多义性(在列404中示出这些字中的一部分),第一多义性消除模式输出和各个字相关的不同的双字短语410。这些短语提供该字用法的示例,从而听者可以根据该短语的语境辨别主音频通道上播出的字。利用短语消除字的多义性是很重要的,这是由于对于不带短语语境的口语者,通常单个字的本身不具有可辨认的含义。例如,字416本身是一个完全不能辨认的字,对于许多人而言未使用在短语中的该字不具有独立的含义。从而,消除该字的多义性对听者只传递极少的含义。但是,当在周知的短语,例如含义为“兴趣”的短语418,中使用时,用户根据该短语的语境可以无岐义地以有含义的方式确定该字。当在主通道上以主话音语音地播出其中的一个字(例如,416),第一多义性消除模式同时在辅助通道上语音地播出一个相应的短语(例如,418)以便消除该字的多义性。
如前面所述,当在主通道语音地播出某字时,第二多义性消除模式在辅助通道上语音地播出部首以消除该字的多义性。然而,有时多个相似发音的字具有相同的部首,从而在这些情况下,在辅助通道上语音地播出部首对于从其它相似发音的字中辨别出主通道上播出的字起不了多少作用。在这样的情况下,第二多义性消除模式语音地在辅助通道上播出一个短语以消除掉主通道上播出的字的多义性。图4包括一些具有相同部首发音相似的字的例子。例如,字416和424具有相同的部首k’ou3,其含义是“口”。字420、426和428具有意思是“人”的相同部首jen2。字430、432、434、436和438具有相同的部首yen2(“言”),而字440和442都有意思是“移动”的相同部首ch’o4。如从列412中所看到的那样,对于都具有相同偏旁的最常用字416、420、430、440,第二多义性消除模式在辅助通道上语音地播出部首(例如,444)。然而,对于具有相同偏旁的不太常用的字424、426、428、432、434、436、438、442,第二多义性消除模式在辅助通道上以异常话音播出列410中的相关短语(例如,446)。
如上面所述,第三多义性消除模式在主通道上语音地播出字并且在辅助通道上语音地播出该字的部首。然而,在异常情况下,第三多义性消除模式播出带有该字的某短语的有含义的声音。列414描述当采用第三多义性消除模式时辅助通道上的示例输出。如第二多义性消除模式那样,当多个发音相似的字具有相同的部首时,第三多义性消除模式对最常用的字(例如,470、472、474和476)以辅助话音播出部首。然而,对于不太常用的字,第三多义性消除模式在辅助通道上播出有含义的声音,以指示包含该字的某周知短语410的含义。替代地,若该字本身具有公认的含义,有含义的声音可以以该字的含义为基础。例如,对于字524,相关的短语的意思是“咬”,从而由第三多义性消除模式播出的有含义的声音是某个人咬一口苹果。作为另一个例子,用于字528的短语的意思是“侍者”,从而辅助通道上输出的有含义的声音是银器掉下时发出的声音。作为该技术的通则,当短语表示物体时,第三多义性消除模式播出该物体造成的声音。例如,用于火车的字或短语会发出汽笛声,用于小汽车的字或短语会发出揿喇叭声,等等。
作为第三多义性消除模式的替代办法,可在各种情况下输出短语的有含义的声音,甚至在主通道没有任何声音的情况下。这种只输出有含义的声音而不语音地播出字的系统,在试图向不了解该语言的听者传递词的意思的情况下是有优点的。
图5描述一种适用于实现本发明的优选实施例的计算机。计算机500包括存储器502、辅助存储部件504、中央处理机(CPU)506、声音子系统508、视频显示器510和输入部件512。存储器502包含优选实施例的阅读程序514,该程序负责读出辅助存储部件504中的文件516,并且负责在声音子系统508上向用户语音地播放该文件中的数据。辅助存储部件504包含:由阅读程序514读取的文件516;数据库518,其包含多字节字符的字代码对该字的语音变换;声音变换表520,其把语音变换成声音数据,以使声音子系统508发出适当的声音;带含义声音表521,其把字代码变换成用于字和部首的有含义的声音;以及诸如可从华盛顿州Redmod市的微软公司购到的MICROSOFT WINDOWS 95的操作系统523,其管理声音子系统508。声音子系统508包括一个声卡522和二个扬声器524、525。声卡522通过操作系统523从阅读程序514接收数据,并在二个扬声器524、525上播出适当的声音。操作系统523、声卡522和扬声器524、525可以同时播放二个音频通道。尽管一种优选实施例使用二个扬声器,一个用于主音频通道524,另一个用于辅助音频通道525,熟练的技术人员可理解可在同一扬声器上播放二个音频通道。本发明的优选实施例可应用下述系统中的对多字节字符的校对,该系统在共同未决的美国专利申请序号__中说明,该申请的题目是“从布莱叶盲文输入部件无岐义地把多字节字符输入到计算机中的方法和系统”,其和本文同日递交并转让给同一受让人,该申请从而是本文的参考资料。
图6A更详细地描述数据库516。数据库516包含一些条目601和603,其中每条条目包含用于某特定汉字的信息。每条条目中的汉字是由字代码602,例如Big 5字代码,表示的。每条条目601、603包括:相关字602的语音604,附加字606的字代码,部首608的语音,以及是否存在声音类似于该相关字并且部首相同的其它字的指示609。若存在这样的其它字,则还存在该相关字是否是具有相同部首发音相似的各字之中的最常用字的指示(例如,611)。例如,用于条目601的指示611指出存在其它部首相同发音相似的字并且该相关字是最常用的。字的语音604是Wade-Giles语音,其用来确定发送到声卡的恰当数据,以在扬声器上播出适当的声音。列606包含在含有字602的双字短语中使用的另一个字的字代码。即,阅读程序所使用的短语(例如,第一多义性消除模式下)是双字短语,其中主通道上输出的字是该双字中的一个,而另一个字和该字组合形成一个短语。在列606中指出该另一个字。列608包含第二、第三多义性消除模式中使用的部首的语音。
图6B更详细地描述声音变换表520。声音变换表520包含一些条目,每条条目包括语音610和指针612,指针612指向声卡引用的声音数据,声卡使该语音的声音在扬声器上播出。声音数据脱机地存储在“WAV”文件中。WAV文件具有用于存储声音的周知文件格式,从而可把它发送到声卡并在扬声器上播出。当系统脱机时,数据存储在WAV文件;然而在运行时,数据被装入到存储器中并在列612中存储指向该数据的指针。请注意,未把指示语音声调的数字存储在声音变换表520中。替代地,在把用于语音的声音数据送到声音子系统时,阅读程序利用周知的技术修改声音数据以得到适当的声调。一旦接收到声音数据,声音子系统会以适当的声调播出适当的语音。
图6C更详细地描述带含义声音表521。带含义声音表521包含从字代码620到要为第三多义性消除模式中的字622播出的带含义声音的变换,以及为第二、第三多义性消除模式中使用的部首624播出的带含义的声音的变换。
图7描述阅读程序执行的步骤的流程图。阅读程序执行的第一步骤是从辅助存储部件上的文件读出某个字(步骤702)。该文件是按字代码存储各字的,从而,在该步骤中,实际读出一个字代码。在读出某个字代码后,阅读程序得到该字的语音(步骤704)。通过利用步骤702中接收到的字代码作为数据库516的索引访问其中存储着语音的该字的条目,阅读程序得到该字的语音。接着,阅读程序得到该语音的声音数据(步骤706)。通过把数据库条目中的语音变换成声音变换表520中的语音,阅读程序得到声音数据。接着,阅读程序得到该字的辅助声音数据(步骤708)。在该步骤中,处理取决于所采用的具体多义性消除模式,并在下面参照图8说明。
获取辅助声音数据中执行的第一步骤是判定是否采用第一多义性消除模式(步骤802)。若采用第一多义性消除模式,该字的辅助声音数据是短语的声音,从而阅读程序访问数据库条目以得到短语中另一个字的字代码,并且再访问数据库以得到另一个字的语音(步骤804)。在得到另一个字的语音后,阅读程序既具有图7步骤704得到的字的语音又具有另一个字的语音。然后阅读程序访问声音变换表以得到另一个字的语音数据。
若采用第二多义性消除模式(步骤806),阅读程序访问数据库以判定该字是否具有其它部首相同发音相似的字(步骤808)。若不存在其它这样的字,通过从数据库访问部首语音并访问声音变换表得到该部首语音的声音数据,阅读程序得到该部首的辅助语音数据(步骤812)。替代地,辅助声音数据可能是用于该部首的有含义的声音。在这种情况下,访问带含义声音表以获得辅助声音数据。然而,若存在部首相同声音相似的多个字,阅读程序判定该字是否是这些字中的最常用的字(步骤810)。若该字是最常用的,阅读程序获得该部首的声音数据(步骤812)。若该字不是最常用的,阅读程序如步骤804中所说明那样得到短语的声音数据。
若判定未使用第二多义性消除模式(步骤806),阅读程序明白正在使用第三多义性消除模式,并执行由图8B的步骤816-822反映的适当处理。若采用第三多义性消除模式,阅读程序判定是否存在部首相同声音相似的多个字(步骤816)。若不存在这样的字,阅读程序按步骤812中所述获得部首的声音数据(步骤820)。替代地,可在辅助通道上播出该部首的有含义的声音。若采用这种替代办法,可通过访问带含义声音表得到辅助声音数据。然而,若存在多个部首相同声音相似的字,阅读程序判定该字是否是最常用的(步骤818)。若该字是最常用的,阅读程序得到该部首的声音数据(步骤820)。若该字不是最常用的,阅读程序利用字代码访问带含义声音表以得到该字的声音数据(步骤822)。在执行步骤812、814、820和822后,可得到辅助声音数据,并且因此处理返回。
再参照图7,在获得辅助声音数据后,阅读程序在声音子系统的主音频通道上输出该字的声音数据,并且在声音子系统的辅助音频通道上输出辅助声音数据(这是通过操作系统提供的周知功能达到的)(步骤710)。在输出声音数据时,若声音数据代表语音,阅读程序会适当地调整声调。接着,阅读程序判定是否存在待读的字(步骤712),若存在,处理继续转到步骤702。若不再存在待读的字,处理结束。
如上面所述的对辅助音频通道的应用还可用于消除音频输出之外的其它输出的多义性。在第一备择的实施例中,系统通过布莱叶盲文I/O部件输出多字节字符,以代替在主音频通道上音频输出多字节字符。在共同未决的美国专利申请序号__中更详细地说明这种相配的布莱叶盲文I/O部件,该申请的题目是“从布莱叶盲文输出部件无岐义地把多字节字符输入到计算机中的方法和系统”,其和本文同日递交并转让给同一受让人,前面已把该申请列为参考资料。在该第一备择的实施例中,布莱叶盲文I/O部件输出多字节字符并且一个扬声器输出用于辅助音频通道的音频输出,前面说明过的辅助音频通道采用三种多义性消除模式中的任一模式。因为用户不必同时倾听主音频通道和辅助音频通道,该系统对于视力受损的用户是有优点的。替代地,用户能够利用二种感觉理解数据,即触觉和听觉。用户在布莱叶盲文I/O部件上触觉多字节字符,并且用户监听音频输出,从而消除多字节字符的多义性。通过以这种方式利用二种感觉,用户能够更好地理解多字节字符。
第二备择的实施例在视频显示器510上向有视力的用户显示文件516。阅读程序514逐次突出显示文件516中的每个语法元素,从而用户视觉上可看到该语法元素。在突出显示每个多字节字符的同时,阅读程序514在扬声器上向用户输出声音,以便对用户传递该多字节字符的附加含义。在扬声器上的声音输出将是上面说明的根据三种多义性消除模式中的任一模式的辅助音频通道的输出。当有学习障碍的人在理解书面语言遇到困难时,这种系统特别有用。通过扬声器向用户传递声音,用户能够利用二种感觉,即视觉和听觉,获得对多字节字符的理解。利用二种感觉会帮助用户更好地理解语法元素。此外,当根据上述第二、第三多义性消除模式扬声器上输出的声音是语法元素的有含义的声音时,用户接收附加的信息,利用该附加信息用户可以更好地理解语法元素。
尽管参照一种优选实施例说明了本发明,熟练的技术人员理解在不违背附属权利要求书所定义的本要求权利的发明的精神和范围下,可对其形式和细节作出各种修改。

Claims (41)

1.一种在计算机系统中输出多字节字符的方法,该计算机系统具有一个扬声器、一个包含各多字节字符的文件和每个多字节字符对主声音及辅助声音的一种变换,该方法包括以下步骤:
访问该文件以检索某个多字节字符;
访问该变换以得到该多字节字符的主声音,其中多字节字符的主声音是该多字节字符的语音,该语音是说出该多字节字符时产生的声音,其中其它多字节字符具有相同语音,从而不能单靠主声音唯一地辨别出该多字节字符;
访问该变换以得到该多字节字符的辅助声音,其中辅助声音传递该多字节字符的含义,从而当用户听主声音和辅助声音时,用户可以把该多字节字符和其它的多字节字符区分开来;以及
几乎同时在扬声器上输出主声音和辅助声音,以使用户能够确定该多字节字符。
2.根据权利要求1的方法,其中多字节字符包括一种偏旁,其中辅助声音是说出该偏旁时所产生的声音。
3.根据权利要求2的方法,其中其它多字节字符包括一种偏旁,并且其中访问该变换以得到辅助声音的步骤包括确定至少一个的其它多字节字符的偏旁是否和该多字节字符的偏旁相同,并且当判定至少一个的其它多字节字符的偏旁和该多字节字符的偏旁相同时,定义辅助声音,从而该辅助声音区别该多字节字符和至少一个的其它多字节字符。
4.根据权利要求3的方法,其中定义步骤包括把辅助声音定义成某个其中包含着该多字节字符的多个多字节字符短语的语音,以使用户能根据该短语的语境区别该多字节字符和至少一个的其它多字节字符。
5.根据权利要求4的方法,其中各多字节字符是某种语言的一部分,并且其中定义步骤包括判定在该语言中使用的该多字节字符是否要比至少一个的其它多字节字符更为常用,并且当判定该多字节字符要比至少一个的其它多字节字符更为常用时,把辅助声音定义成该多字节字符的部首的语音。
6.根据权利要求3的方法,其中该多字节字符具有含义,并且其中定义步骤包括把辅助声音定义成该多字节字符的有含义的声音,从而该有含义的声音描述该多字节字符的含义。
7.根据权利要求6的方法,其中该多字节字符的含义是产生某种声音的一个物体,并且其中定义步骤包括把辅助声音定义成该物体产生的声音。
8.根据权利要求1的方法,其中辅助声音表示一个其中带有该多字节字符的短语,从而使用户根据该短语的语境确定该多字节字符。
9.一种通过多个声频通道对某种设备的用户无多义性地输出声音的方法,该方法包括以下步骤:
在第一音频通道上输出试图向用户传递单个含义的主声音,该主声音和多种含义相关;以及
几乎在输出主声音的同时在第二音频通道上输出辅助声音,以消除主声音的多义性,从而用户能够确定单个含义。
10.根据权利要求9的方法,其中主声音表示某语言的某语法元素的语音,并且其中辅助声音是该语法元素的用法,从而使用户根据该用法的语境确定该语法元素。
11.根据权利要求10的方法,其中该用法是一个包含该语法元素以及至少一个其它语法元素的短语。
12.根据权利要求9的方法,其中语法元素是一个带有含义的字根,并且其中辅助声音是描述该字根的含义的声音。
13.根据权利要求9的方法,其中主声音表示某语言的某语法元素的语音,并且其中辅助声音是该语法元素的字根的语音。
14.根据权利要求13的方法,其中语法元素是包含偏旁的汉字,并且其中辅助声音代表偏旁的语音。
15.根据权利要求14的方法,其中汉字包含多个偏旁,其中一个偏旁是部首,并且其中辅助声音表示部首的语音。
16.根据权利要求15的方法,其中该语言是中文。
17.根据权利要求9的方法,其中主声音反映语音,该语音表示某种语言的带有含义的语法元素,并且其中辅助声音是描述语法元素的含义的声音。
18.根据权利要求17的方法,其中语法元素是产生某种声音的物体,并且其中辅助声音是物体产生的声音。
19.一种在计算机系统中音频输出一个文件中所含有的某种语言的语法元素的方法,该方法包括以下步骤:
读该文件以得到各语法元素,每个语法元素具有一个含义;以及
音频播出描述语法元素的含义的声音,其中该声音既不传递语法元素的视觉特征也不传递语法元素的听觉特征。
20.一种输出多字节字符的计算机,包括:
一个声音子系统,用于在主通道上和辅助通道上播出声音;
一个辅助存储部件,其包含多个多字节字符对多组语音的变换,和一个多字节字符对应的一组语音表示说出该多字节字符时产生的声音,多个多字节字符是多义性的字在于这些多义性字的语音组都相同;以及
一个含有一个阅读程序的存储器,该阅读程序:读该文件以检索各多义性字中选定的一个字;访问该变换以得到该选定的多义性字的语音组;在声音子系统的主通道上音频播出该选定多义性字的语音组;并且在辅助通道上音频播出多义性消除的声音,以确定这些多义性字之中的哪一个是该选定的多性性字。
21.根据权利要求20的计算机,其中多义性消除声音是该选定的多义性字的用法。
22.根据权利要求20的计算机,其中多字节字符包含至少一种具有语音的偏旁,并且其中多义性消除声音是偏旁的语音。
23.根据权利要求20的计算机,其中多义性多字节字符各具有不同的含义,并且其中多义性消除声音是对选定的多义性字的含义的描述。
24.根据权利要求20的计算机,其中多字节字符包含至少一种带含义的偏旁,并且其中多义性消除声音传递偏旁的含义。
25.根据权利要求20的计算机,其中多字节字符是汉字。
26.根据权利要求20的计算机,其中多字节字符是中文字。
27.一种包含着用于控制计算机系统以输出多字节字符的指令的计算机可读媒体,该计算机系统具有一个扬声器、一个包含各多字节字符的文件和每个多字节字符对主声音及辅助声音的一种变换,其通过执行下述步骤进行控制:
访问该文件以检索某个多字节字符;
访问该变换以得到该多字节字符的主声音,其中多字节字符的主声音是该多字节字符的语音,该语音是说出该多字节字符时产生的声音,其中其它多字节字符具有相同语音,从而不能单靠主声音唯一地辨别出该多字节字符;
访问该变换以得到该多字节字符的辅助声音,其中辅助声音传递该多字节字符的含义,从而当用户听主声音和辅助声音时,用户可以把该多字节字符和其它的多字节字符区分开来;以及
几乎同时在扬声器上输出主声音和辅助声音,以使用户能够确定该多字节字符。
28.根据权利要求27的计算机可读媒体,其中多字节字符包括一种偏旁,并且其中辅助声音是说出该偏旁时所产生的声音。
29.根据权利要求28的计算机可读媒体,其中其它多字节字符包括一种偏旁,并其其中访问该变换以得到辅助声音的步骤包括确定至少一个的其它多字节字符的偏旁是否和该多字节字符的偏旁相同,并且当判定至少一个的其它多字节字符的偏旁和该多字节字符的偏旁相同时,定义辅助声音,从而该辅助声音区别该多字节字符和至少一个的其它多字节字符。
30.一种包含着用于控制某设备以通过多个音频通道向用户无多义性地输出声音的指令的计算机可读媒体,其通过执行下述步骤进行控制:
在第一音频通道上输出试图向用户传递单个含义的主声音,该主声音和多种含义相关;以及
几乎在输出主声音的同时在第二音频通道上输出辅助声音,以消除主声音的多义性,从而用户能够确定单个含义。
31.根据权利要求30的计算机可读媒体,其中主声音表示某语言的语法元素的语音,并且其中辅助声音是该语法元素的用法,从而使用户根据该用法的语境确定该语法元素。
32.根据权利要求30的计算机可读媒体,其中该用法是一个包含该语法元素以及至少一个其它语法元素的短语。
33.根据权利要求30的计算机可读媒体,其中语法元素是一个带有含义的字根,并且其中辅助声音是描述该字根的含义的声音。
34.根据权利要求30的计算机可读媒体,其中主声音表示某语言的某语法元素的语音,并且其中辅助声音是该语法元素的字根的语音。
35.一种包含着用于控制计算机系统以音频播出某文件中所包含的某语言的语法元素的指令的计算机可读媒体,其通过执行下述步骤进行控制:
读该文件以得到各语法元素,每个语法元素具有一个含义;以及
音频播出描述语法元素的含义的声音,其中该声音既不传递语法元素的视觉特征也不传递语法元素的听觉特征。
36.一种用于在具有语法元素的计算机系统中输出语法元素的方法,其包括以下步骤;
对每个语法元素,
    向用户输出该语法元素;以及
    音频向用户输出传递该语法元素的附加含义的声音,以使用户更好地理解该语法元素。
37.根据权利要求36的方法,其中该计算机系统具有布莱叶盲文I/O部件,并且其中输出语法元素的步骤包括在布莱叶盲文I/0部件上输出语法元素。
38.根据权利要求36的方法,其中该计算机系统具有视频显示器,并且其中输出语法元素的步骤包括在该视频显示器上输出语法元素。
39.根据权利要求36的方法,其中该计算机系统具有扬声器,并且其中输出语法元素的步骤包括在该扬声器上输出语法元素。
40.根据权利要求36的方法,其中输出语法元素的步骤多义性地向用户标记语法元素,并且其中音频输出声音的步骤包括音频输出声音,以使用户能够多义性消除地确定语法元素。
41.一种包含着用于控制计算机系统以输出语法元素的指令的计算机可读媒体,其通过执行下述步骤进行控制:
对每个语法元素,
    向用户输出该语法元素;以及
    音频向用户输出传递该语法元素的附加含义的声音,以使用户更好地理解该语法元素。
CN97182297A 1996-12-02 1997-11-21 用于对视力受损用户音频输出多字节字符的方法和系统 Pending CN1268238A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/758,663 1996-12-02
US08/758,663 US5918206A (en) 1996-12-02 1996-12-02 Audibly outputting multi-byte characters to a visually-impaired user

Publications (1)

Publication Number Publication Date
CN1268238A true CN1268238A (zh) 2000-09-27

Family

ID=25052613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97182297A Pending CN1268238A (zh) 1996-12-02 1997-11-21 用于对视力受损用户音频输出多字节字符的方法和系统

Country Status (7)

Country Link
US (1) US5918206A (zh)
EP (1) EP1027664A2 (zh)
JP (1) JP2002501632A (zh)
KR (1) KR20000071227A (zh)
CN (1) CN1268238A (zh)
IL (1) IL130219A0 (zh)
WO (1) WO1999035594A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258446A (zh) * 2012-02-15 2013-08-21 苹果公司 用于帮助视障用户的同音字的示例性描述
CN106021241A (zh) * 2016-05-09 2016-10-12 河海大学 盲文点位汉字编码及其与盲文之间的机器翻译方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6351726B1 (en) * 1996-12-02 2002-02-26 Microsoft Corporation Method and system for unambiguously inputting multi-byte characters into a computer from a braille input device
KR20010029111A (ko) * 1999-09-29 2001-04-06 최원용 외국어 청취 보조 장치
US7376648B2 (en) * 2004-10-20 2008-05-20 Oracle International Corporation Computer-implemented methods and systems for entering and searching for non-Roman-alphabet characters and related search systems
US9122655B2 (en) * 2004-11-15 2015-09-01 International Business Machines Corporation Pre-translation testing of bi-directional language display
US7260780B2 (en) * 2005-01-03 2007-08-21 Microsoft Corporation Method and apparatus for providing foreign language text display when encoding is not available
US7777717B2 (en) * 2006-04-05 2010-08-17 Research In Motion Limited Handheld electronic device and method for performing spell checking during text entry and for integrating the output from such spell checking into the output from disambiguation
US8381119B2 (en) * 2010-01-11 2013-02-19 Ideographix, Inc. Input device for pictographic languages
US8977535B2 (en) * 2011-04-06 2015-03-10 Pierre-Henry DE BRUYN Transliterating methods between character-based and phonetic symbol-based writing systems
TW201530357A (zh) * 2014-01-29 2015-08-01 Chiu-Huei Teng 用於電子裝置之中文輸入法
KR102490536B1 (ko) * 2019-12-26 2023-01-20 한국전자통신연구원 감각 치환 장치 및 그 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60251466A (ja) * 1984-05-28 1985-12-12 Y D K:Kk 漢点字音声ワ−ドプロセツサ
JPH05181491A (ja) * 1991-12-30 1993-07-23 Sony Corp 音声合成装置
JP2973726B2 (ja) * 1992-08-31 1999-11-08 株式会社日立製作所 情報処理装置
JPH086591A (ja) * 1994-06-15 1996-01-12 Sony Corp 音声出力装置
KR100190463B1 (ko) * 1994-09-22 1999-06-01 가나이 쓰도무 전화기와팩시밀리장치사이에서통신하는방법및전화기와팩시밀리장치사이에서통신가능한팩시밀리장치
JPH08221246A (ja) * 1995-02-10 1996-08-30 Fujitsu Ltd 点字出力方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258446A (zh) * 2012-02-15 2013-08-21 苹果公司 用于帮助视障用户的同音字的示例性描述
CN106021241A (zh) * 2016-05-09 2016-10-12 河海大学 盲文点位汉字编码及其与盲文之间的机器翻译方法
CN106021241B (zh) * 2016-05-09 2018-08-14 河海大学 盲文点位汉字编码及其与盲文之间的机器翻译方法

Also Published As

Publication number Publication date
IL130219A0 (en) 1997-11-21
EP1027664A2 (en) 2000-08-16
JP2002501632A (ja) 2002-01-15
WO1999035594A3 (en) 1999-09-23
WO1999035594A2 (en) 1999-07-15
US5918206A (en) 1999-06-29
KR20000071227A (ko) 2000-11-25
WO1999035594B1 (en) 1999-10-28
WO1999035594A9 (en) 1999-11-25

Similar Documents

Publication Publication Date Title
Vitale An algorithm for high accuracy name pronunciation by parametric speech synthesizer
Grabe et al. The intonation of native accent varieties in the British Isles: Potential for miscommunication
US8909528B2 (en) Method and system for prompt construction for selection from a list of acoustically confusable items in spoken dialog systems
WO2004063902B1 (en) Speech training method with color instruction
JP2009037633A (ja) 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定
Schuppler et al. GRASS: the Graz corpus of Read And Spontaneous Speech.
CN1268238A (zh) 用于对视力受损用户音频输出多字节字符的方法和系统
Kirchhoff et al. Novel speech recognition models for Arabic
Nakamura The psychological reality of speech units in Japanese
Terken Synthesizing natural-sounding intonation for Dutch: rules and perceptual evaluation
Amrouche et al. Design and Implementation of a Diacritic Arabic Text-To-Speech System.
Erben Johansson Prominence effects in vocal iconicity: Implications for lexical access and language change
CN111429886B (zh) 一种语音识别方法及系统
Kösling et al. Does branching direction determine prominence assignment? An empirical investigation of triconstituent compounds in English
Meng et al. CU VOCAL: corpus-based syllable concatenation for Chinese speech synthesis across domains and dialects.
Marasek et al. Multi-level annotation in SpeeCon Polish speech database
Prinsloo et al. Corpus applications for the African languages, with special reference to research, teaching, learning and software
Xydas et al. Text normalization for the pronunciation of non-standard words in an inflected language
Van Donzel et al. Prominence judgements and textual structure in discourse
KR100451919B1 (ko) 영어 발음 기호의 분해 및 합성 방법
Cho et al. English vowel adaptation in Korean: Cases of loanwords with English/ɛ/and/æ
Torres et al. Automatic determination of phrase breaks for Argentine Spanish
Al-Wabil et al. Arabic text-to-speech synthesis: A preliminary evaluation
Diller et al. Deictic derivation in Thai
Fersøe et al. Creation & Validation of Large Lexica for Speech-to-Speech Translation Purposes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication