CN1912994B - 语音的声调校正 - Google Patents
语音的声调校正 Download PDFInfo
- Publication number
- CN1912994B CN1912994B CN2006101019960A CN200610101996A CN1912994B CN 1912994 B CN1912994 B CN 1912994B CN 2006101019960 A CN2006101019960 A CN 2006101019960A CN 200610101996 A CN200610101996 A CN 200610101996A CN 1912994 B CN1912994 B CN 1912994B
- Authority
- CN
- China
- Prior art keywords
- phrase
- voice
- speech
- user
- receives
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title abstract description 34
- 238000004891 communication Methods 0.000 claims description 41
- 238000003860 storage Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 11
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 2
- 238000013500 data storage Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 239000004615 ingredient Substances 0.000 description 5
- 241000207961 Sesamum Species 0.000 description 4
- 235000003434 Sesamum indicum Nutrition 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008676 import Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
Abstract
提供了语音的声调校正。对接收语音进行分析,并将其与经常发错音的短语的表进行比较。将这些短语映射为讲话者可能要表达的短语。可以把被确定为用户可能要表达的短语的短语建议给用户。如果用户同意该建议,则可以在将该语音传递给接收方之前,对给语音进行声调校正。
Description
技术领域
本发明涉及带声调(tonal)的语言中的语音记录的校正。
背景技术
诸如汉语、泰语和越南语的许多语言的独特之处在于它们是带声调的语言。在带声调的语言中,每个说出的音节都需要特定的语调,以使得可正确理解。例如,标准汉语具有四个声调,以及一个“中性”音调(pitch)。广东话甚至具有更多声调。这些声调分别被描述为“高平”、“高升”、“低降升”和“全降”,并且可以与罗马形式的汉语拼音区分开。
发错了声调就是完全念错了汉语(或者泰语或越南语)的词(word)。因此,与只能有限程度地使用音调来表示句子意思的英语相比,例如为了表示问题,汉语使用声调作为每个词的整体特征。由此,非本国讲话者所讲的带音调语言通常对于本国讲话者是难于理解的,因为这些声调通常被发错音或者用错。
发明内容
根据本发明的实施例,使用语音识别引擎来分析构成短语的一系列词。具体地,构成短语的这些词创建了上下文,在该上下文中可以分析组成词。根据上下文,可以识别出发错音的词或字(character)。
此外,本发明的实施例用于校正发错音的字。具体地,使用音调校正来修正包含或包括发错音的字的所录语音。在将所录语音发送到接收方邮箱或者另外被存储以期随后进行重放之前,进行声调校正。根据本发明的其它实施例,可以在对所录语音进行校正之前,提示用户同意校正。
根据本发明的实施例,可以与验证所录语音内的字的发音相关地,参照经常发错音的短语或字的数据库。也就是说,包含经常发错音的字的短语(由于发错音而无意义或者其意义不太可能是讲话者所要表达的意义)可以被映射为很可能是想要表达的短语的短语。因此,包含以不正确应用常用声调的形式的错误发音在内的短语可以被检测到和校正。
附图说明
根据本发明的一个方面,提过了一种用于校正所录语音的方法, 包括:在通信设备接收来自用户的语音,其中,所述接收的语音包括至少两个词;识别所述语音中的至少第一接收短语,其中所述识别包括识别所述第一接收短语的所述至少两个词;将所述第一接收短语与多个存储短语进行比较,其中,所述比较包括扫描所述多个存储短语以获取经常发错音的短语,并且其中所述经常发错音的短语中的每一个被映射到至少一个包括至少两个词的建议的短语;将所述第一接收短语与包括经常发错音的短语的所述多个存储短语中的至少第一短语匹配;根据所述匹配确定所述多个存储短语中的第二短语是想要表达的短语,其中,所述多个存储短语中的所述第一短语是被映射到所述多个存储短语中的所述第二短语的经常发错音的短语;以及由所述通信设备将所述多个存储短语中的所述第二短语建议给所述用户,作为建议的第一替代短语。
图1是根据本发明实施例的通信系统的框图;
图2是根据本发明实施例的通信或计算设备或者服务器的组成部分的框图;
图3是示出根据本发明实施例的用于语音的声调校正的处理的各方面的流程图;
图4示出了声调互不相同的多个汉字,以及由这些字表示的相应罗马拼音。
具体实施方式
根据本发明的实施例,可以在将包含一个或更多个错误发音的所录语音传递给接收方邮箱或者进行存储以供随后使用之前,对该语音进行声调校正。
下面参照图1,示出了本发明实施例所应用的通信系统100的组成部分。具体地,在通信系统中,多个通信或计算设备104可以经由通信网络108彼此互连。此外,通信系统100可以包括一个或多个通信服务器112和/或交换机116,或者与这些设备关联。
例如,通信或者计算设备104可以包括常规的有线或者无线电话、互联网协议(IP)电话、联网计算机、个人数字助理(PDA)或者任何其它能够发送或接收语音的设备。根据本发明的实施例,通信或者计算设备104还可以具有分析和记录用户所提供的语音的能力,从而能够进行声调校正。另选地或者另外地,可以通过服务器112或者其它实体,使用通信或者计算设备104来进行诸如分析和/或存储所收集的语音的功能。
根据本发明实施例的服务器112可以包括用于对客户设备提供服务的通信服务器或者其它计算机。服务器112包括例如PBX、语音邮件或者在网络上部署的服务器,以实现提供此处所述的语音的声调校正的特定目的。因此,服务器112可以用于执行通信服务和/或连接功能。此外,服务器112可以进行与本发明的语音的声调校正有关的一些或者所有处理和/或存储功能。
通信网络108可以包括用于在相关设备104和/或服务器112之间传送语音和数据的汇聚网络。此外,应当理解,通信网络108不必被限制于任何特定类型的网络。因此,通信网络108可以包括有线或无线以太网络、因特网、专用企业内部网、专用分组交换机(PBX)、公共交换电话网(PSTN)、蜂窝或者其它无线电话网、或者任何其它能够传输包括语音数据的数据的网络。此外,可以理解,通信网络108不必被限制于任何一种网络类型,而是可以包括多种不同的网络和/或网络类型。
下面参考图2,以框图形式示出了用于实现根据本发明实施例的上述某些或全部声调连接特征的通信或者计算设备104的组成部件或者服务器112的组成部件。这些组成部件可以包括能够执行程序指令的处理器204。因此,处理器204可以包括任何通用可编程处理器、数字信号处理器(DSP)或者用于执行应用程序的控制器。另选地,处理器204可以包括被专门构造的专用集成电路(ASIC)。处理器204通常用于运行如下程序代码,该程序代码实现由通信设备104或者服务器112所执行的各种功能,包括这里所述的声调校正操作。
通信设备104或者服务器112另外可以包括存储器208,用于与处理器204执行程序相关地使用,并用于临时或长期存储数据或者程序指令。存储器208可以包括基本上可拆卸的或远程的、驻留的固态存储,如DRAM和SDRAM。其中处理器204包括控制器,存储器208可以被集成到处理器204。
此外,通信设备104或者服务器112可以包括一个或更多个用户输入或者用于接收用户输入的装置212,以及一个或更多用户输出或者用于输出的装置216。用户输入212包括例如键盘、小键盘、触摸屏、触摸盘和麦克风。用户输出216包括例如扬声器、显示屏(包括触摸屏显示器)和指示灯。此外,本领域技术人员应当明白,用户输入212可以与用户输出216组合,或者与其结合来操作。这种集成的用户输入212和用户输出216包括例如触摸屏显示器,其可以既将视觉信息呈现给用户,又可以从用户接收输入选择。
通信设备104或服务器112还可以包括用于存储应用程序和/或数据的数据存储设备220。此外,操作系统软件224可以被存储在数据存储设备220中。数据存储设备220可以包括例如磁存储设备、固态存储设备、光存储设备、逻辑电路,或者这些设备的任意组合。应当理解,数据存储设备220中所保持的程序和数据可以包括软件、固件或硬件逻辑,这取决于数据存储设备220的具体实现。
可以存储在数据存储设备220中的应用的示例包括声调校正应用228。声调校正应用228可以包含语音识别应用和/或文本转换成语音的应用,或者可以与这些应用协作。此外,数据存储设备220可以包含经常发错音的短语和/或字的表或数据库232。该表或数据库232另外可以包括经常发错音的短语和/或字与通常想要表达的短语和/或字之间的关联。因此,数据库232可以包括用于存储如下短语之间的关联,这些短语具有类似发音但是包括与不同声调相关的字。如此处所述的,声调校正应用228以及短语或字的表232可以相互集成,和/或相互协作。此外,声调校正应用可以包括用于将所接收的短语与数据库232中的短语进行比较的装置,以及用于改变所接收的短语中所包含的词的声调的装置。数据存储设备220还可以包含与通信设备104或者服务器112的其它功能的性能相关所使用的应用程序和数据。例如,与诸如电话或IP电话的通信设备104相关地,数据存储设备可以包括通信应用软件。作为另一示例,诸如个人数字助理(PDA)的通信设备104或者通用计算机可以包括数据存储设备220中的词处理 应用。此外,根据本发明的实施例,语音邮件或者其它应用也可以包括在数据存储设备220中。
通信设备104或服务器112还可以包括一个或更多个通信网络接口236。通信网络接口236包括例如网络接口卡、调制解调器、有线电话端口、串行或并行数据端口、或者其它有线或者无线通信网络接口。
现在参考图3,图中例示了提供根据本发明实施例的词或字的声调校正的通信设备104或服务器112的操作的各方面。开始时,在步骤300,从用户接收包括具有至少两个词的短语的语音,并至少对其进行临时存储。例如,所接收的语音可以包括存储在存储器208或者数据存储设备220(作为通信设备104或服务器112的一部分而提供)中的短语,该短语包括与多个汉字对应的多个词。然后,例如与作为声调校正应用228的一部分而提供的语音识别应用的操作相关地识别语音(步骤304)。即,识别包括用户所讲出的短语在内的字。然后扫描数据库或表232以获取经常发错音的短语308。然后确定所接收的语音是否与经常发错音的短语对应(步骤312)。如果发现所接收的语音与数据库232中包含的经常发错音的短语相匹配或者相对应,则可以警告用户可能发错的音,并且对用户提供所建议的替代(步骤316)。根据本发明的实施例,经常发错音的短语可以在数据库232中被映射到可以作为所建议的替代而提供的一个或更多个短语。警告和所建议的替代可以被传输给用户输出216或者多个用户输出216的组合。例如,警告信号和所建议的替代可以被作为语音输出通过用户位置处的扬声器提供给用户。作为另一示例,警告信号和/或所建议的替代可以通过包含可视显示器的用户输入216提供给用户。此外,包括所建议的替代在内的输出中的一些或全部可以采用与所提供的包含发错音的短语在内的语音的语言不同的语言。例如,所建议的替代可以以用户的母语以书面或口头的形式传输给用户。在阅读了本说明书之后的本领域技术人员可以理解,口头输出可以通过文本转换成语音的程序、运行在通信或者计算设备104或服务器112(接收了来自 声调校正应用228和/或数据库232的文本)上的引擎或者功能来生成。
在步骤320,可以确定用户是否已经同意所建议的替代。例如,用户可以通过用户输入212设备提供确认信号来发出对于所建议替代的赞成。这种输入可以是按压指定的键、念出与所建议的替代相关的参考标号或者其它标识符、和/或在与所建议的替代对应的显示区域中进行点击。此外,对于所建议替代的赞成可以包括用户从声调校正应用228所识别的多个可能替代中选择一个。
如果接收到所建议替代的许可或确认,则对于用户初始语音进行声调校正(步骤324)。根据本发明的实施例,可以通过数字操纵所录语音来进行声调校正。例如,如本领域技术人员所知的,可以使用诸如线性预测编码的声道模型来对语音进行编码。对于声道模型操作的总体讨论,参见Michaelis,P.R.,Speech digitization andcompression,该文献可在International Encyclopedia of Ergonomicsand Human Factors,pp.683-685,W.Warkowski(Ed),London:Taylor and Francis,2001中获得,其全部公开内容在此引入作为参考。通常,这些技术使用人类语音生成机构的数学模型。因此,这些模型中的许多变量实际上对应于随着人讲话而变化的人类声道内的不同物理结构。在典型的实现中,编码机构将声音流划分成多个单独的短时间帧。分析这些帧的音频内容,以提取对声道模型的组成部分进行“控制”的参数。该处理所确定的多个单独的变量包括帧的总体振幅以及其基本音调。总体振幅和基本音调是该模型的对语音的声调轮廓影响最大的组成部分,并且是从控制谱过滤的参数中单独提取的,该谱过滤使得语音可理解并使得可以识别出讲话者。因此,根据本发明实施例的声调校正可以通过对语音中所检测出的错误振幅和音调参数采用适当的增量(delta)来进行。因为对振幅和音调参数进行改变,而不是谱过滤参数,所以通常仍能识别出经校正的声音流是原讲话者的声音。然后可以将经校正的语音发送到接收方地址(步骤328)。例如,在给接收方留下语音邮件消息时接收到语音的情况下,发送该语音可能包括将经校正的语音发布给接收方地址。
如果在步骤312确定所接收的语音没有对应于经常发错音的短语,则用户所提供的语音包括正确发音的词和短语,或者其包括错误的发音,其导致没有反映在数据库232中的无意义或不可能的意思。因此,如果没有发现所接收的语音与数据库232中包含的经常发错音的短语中的一个匹配,则在步骤328中将该语音发送给接收方地址,而不首先进行声调校正。类似的,如果用户不同意所建议的声调校正,则在步骤328中可以在不进行声调校正的情况下将所录语音发送给接收方地址。在将消息发布给接收方地址之后,该处理结束。
根据本发明的实施例,能够进行语音的声调校正的系统的各种组成部分可以是分布式的。例如,包括电话终端的通信设备104可以用于接收来自用户的语音和命令输入,并将输出传递给该用户,但是不能进行任何处理。根据该实施例,由服务器112对所接收的语音进行处理以确定是否可以找到与经常发错音的短语的匹配。根据本发明的其它实施例,声调校正功能可以完全在单个设备内进行。例如,具有适当处理能力的通信设备104可以分析语音、建议修改,并进行所同意的校正。根据所述其它实施例,当通信设备104将语音发布给接收方时,该语音可以被传递给例如接收方应答机或者传递给与服务器112相关的语音邮箱。
为了进一步例示本发明实施例的操作,下面参照图4,例示了四个不同的汉字以及相应的罗马形式的汉语拼音。这些字是与词“妈妈(mother)”、“芝麻(sesame)”、“马(horse)”和“骂人(to scold)”等同意思的普通话中文。此外,与“妈”对应的字念为高平调;与字“芝麻”对应的字念为高升调;与字“马”对应的字念为低降升调;与“骂人”对应的字念为全降调。因为这四个字的发音之间的这些细微差别(至少对于非本国的汉语讲话者而言),这些字之间的发错音是常见的。然而,即使用户的语音输入有不正确的声调,或者无法识别出特定声调,也仍旧可以从其所应用的上下文来推出所要表达的意思。因此,数据库332可以包含以下短语:骑骂(ride scold);骑麻(ride sesame)和骑妈(ride monther)。这些短语中的每个都被数据库332映射到 正确的短语“骑马”。然后短语“ride horse”可以被提示给用户。如果被接受,则用户所提供的语音可以被校正,从而词“马”(大致发音为“ma”)具有正确的低降升调。通过识别所提供的包含短语的语音并且扫描数据库以获取所识别的短语,可以识别出用户可能想要表达的意思(以及由此其发音)。
根据本发明的实施例,此处所描述的声调校正可以采用实时、接近实时或者离线应用的方式来进行,这取决于与声调校正功能的应用结合使用的通信设备104和/或服务器112的处理能力和其它性能。此外,虽然此处所描述的特定示例与语音邮件应用相关,但是本发明的实施例不限于此。例如,这里所描述的声调校正可以应用于任何所录语音,甚至是以接近实时地方式传递给接收方的语音。此外,虽然此处所提供的特定示例讨论了与汉语相结合来使用声调校正,但是其也可以应用于其它带声调的语言,例如泰语和越南语。
本发明的以上讨论用于示例和说明性的目的。此外,该说明并不旨在将本发明限制于此处所公开的形式。因此,在具有相关领域的技术或熟悉相关领域的情况下与上述教导等同的变型和修改都在本发明的范围内。上述实施例还旨在解释实现本发明的当前已知的最佳模式,并且使得本领域的其他技术人员能够以这些或其它实施例的形式以及通过由他们对于本发明的特定应用或使用所需的各种变型,来利用本发明。所附权利要求应被理解为包括现有技术所允许的其它实施例。
Claims (12)
1.一种用于校正所录语音的方法,包括:
在通信设备接收来自用户的语音,其中,所述接收的语音包括至少两个词;
识别所述语音中的至少第一接收短语,其中所述识别包括识别所述第一接收短语的所述至少两个词;
将所述第一接收短语与多个存储短语进行比较,其中,所述比较包括扫描所述多个存储短语以获取经常发错音的短语,并且其中所述经常发错音的短语中的每一个被映射到至少一个包括至少两个词的建议的短语;
将所述第一接收短语与包括经常发错音的短语的所述多个存储短语中的至少第一短语匹配;
根据所述匹配确定所述多个存储短语中的第二短语是想要表达的短语,其中,所述多个存储短语中的所述第一短语是被映射到所述多个存储短语中的所述第二短语的经常发错音的短语;以及
由所述通信设备将所述多个存储短语中的所述第二短语建议给所述用户,作为建议的第一替代短语。
2.根据权利要求1所述的方法,进一步包括:
接收来自所述用户的确认信号,该确认信号指示所述多个存储短语中的所述第二短语是所述想要表达的短语;
响应于接收所述确认信号,将所述第一接收短语变为与所述多个存储短语中的所述第二短语对应。
3.根据权利要求2所述的方法,其中使用包括线性预测编码的声道模型对所述第一接收短语进行编码。
4.根据权利要求2所述的方法,其中所述改变所述第一接收短语的步骤包括改变所述第一接收短语的至少一部分的振幅和音调参数中的至少一个。
5.根据权利要求4所述的方法,其中所述第一接收短语的所述至少一部分的谱过滤参数没有被所述改变步骤所改变。
6.根据权利要求2所述的方法,进一步包括:
在所述改变所述第一接收短语的步骤之后,发布所述第一接收短语以传递给接收方邮箱。
7.根据权利要求2所述的方法,其中所述改变所述第一接收短语的步骤包括改变与所述第一接收短语的至少一个词关联的声调。
8.根据权利要求1所述的方法,其中所述第一接收短语和所述多个存储短语中的所述第二短语的不同之处在于,所述第一接收短语的词和所述多个存储短语中的所述第二短语的词与不同的声调相关联。
9.根据权利要求1所述的方法,其中从所述用户的第一接收短语接收的所述语音是第一语言,其中所述多个存储短语中的所述建议的第二短语以第二语言呈现给用户。
10.一种用于校正带声调的语音的系统,包括:
用于接收语音作为输入的装置;
用于存储具有相似发音并包括与不同声调关联的词的短语之间的关联的装置,其中,每个短语包括至少两个词;
用于将输入语音中包括的第一接收短语与在所述用于存储的装置中包括的短语进行比较的装置,其中,所述第一接收短语与第一经常发错音的短语相匹配,以及其中,所述第一经常发错音的短语被映射到建议的第一替代短语;
用于改变所述第一接收短语中包括的至少第一词的声调的装置,其中所述第一接收短语的意思被变为与相关短语的意思对应,所述相关短语包括所述建议的第一替代短语。
11.根据权利要求10所述的系统,进一步包括:
用于将至少第一相关短语输出给用户的装置。
12.根据权利要求11所述的系统,进一步包括:
用于响应于用于许可所述改变后的第一接收短语的、来自用户的输入而将所述改变后的第一接收短语传递给接收方地址的装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/203,463 US8249873B2 (en) | 2005-08-12 | 2005-08-12 | Tonal correction of speech |
US11/203,463 | 2005-08-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1912994A CN1912994A (zh) | 2007-02-14 |
CN1912994B true CN1912994B (zh) | 2011-12-21 |
Family
ID=37721905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006101019960A Active CN1912994B (zh) | 2005-08-12 | 2006-07-18 | 语音的声调校正 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8249873B2 (zh) |
CN (1) | CN1912994B (zh) |
SG (1) | SG130139A1 (zh) |
TW (1) | TWI315513B (zh) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060293890A1 (en) * | 2005-06-28 | 2006-12-28 | Avaya Technology Corp. | Speech recognition assisted autocompletion of composite characters |
US8413069B2 (en) * | 2005-06-28 | 2013-04-02 | Avaya Inc. | Method and apparatus for the automatic completion of composite characters |
US20090210229A1 (en) * | 2008-02-18 | 2009-08-20 | At&T Knowledge Ventures, L.P. | Processing Received Voice Messages |
US9280971B2 (en) | 2009-02-27 | 2016-03-08 | Blackberry Limited | Mobile wireless communications device with speech to text conversion and related methods |
GB0920480D0 (en) | 2009-11-24 | 2010-01-06 | Yu Kai | Speech processing and learning |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8401856B2 (en) * | 2010-05-17 | 2013-03-19 | Avaya Inc. | Automatic normalization of spoken syllable duration |
JP5296029B2 (ja) * | 2010-09-15 | 2013-09-25 | 株式会社東芝 | 文章提示装置、文章提示方法及びプログラム |
CA2841883A1 (en) * | 2011-07-25 | 2013-01-31 | Frank RUDZICZ | System and method for acoustic transformation |
US8725497B2 (en) * | 2011-10-05 | 2014-05-13 | Daniel M. Wang | System and method for detecting and correcting mismatched Chinese character |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10229676B2 (en) | 2012-10-05 | 2019-03-12 | Avaya Inc. | Phrase spotting systems and methods |
CN105190607B (zh) * | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
CN104238991B (zh) * | 2013-06-21 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 语音输入匹配方法及装置 |
CN103578467B (zh) * | 2013-10-18 | 2017-01-18 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20170337923A1 (en) * | 2016-05-19 | 2017-11-23 | Julia Komissarchik | System and methods for creating robust voice-based user interface |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN110709922B (zh) * | 2017-06-28 | 2023-05-26 | 雅马哈株式会社 | 歌唱音生成装置及方法、记录介质 |
JP2019153133A (ja) * | 2018-03-05 | 2019-09-12 | オムロン株式会社 | 文字入力装置、文字入力方法、及び、文字入力プログラム |
US10896689B2 (en) | 2018-07-27 | 2021-01-19 | International Business Machines Corporation | Voice tonal control system to change perceived cognitive state |
CN110717021B (zh) * | 2019-09-17 | 2023-08-29 | 平安科技(深圳)有限公司 | 人工智能面试中获取输入文本和相关装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6260015B1 (en) * | 1998-09-03 | 2001-07-10 | International Business Machines Corp. | Method and interface for correcting speech recognition errors for character languages |
CN1335571A (zh) * | 2000-06-23 | 2002-02-13 | 微软公司 | 一种从一个由随机输入方法产生的候选列表中进行过滤和选择的方法和系统 |
US20020049590A1 (en) * | 2000-10-20 | 2002-04-25 | Hiroaki Yoshino | Speech data recording apparatus and method for speech recognition learning |
US20020110248A1 (en) * | 2001-02-13 | 2002-08-15 | International Business Machines Corporation | Audio renderings for expressing non-audio nuances |
US6553342B1 (en) * | 2000-02-02 | 2003-04-22 | Motorola, Inc. | Tone based speech recognition |
US20050144010A1 (en) * | 2003-12-31 | 2005-06-30 | Peng Wen F. | Interactive language learning method capable of speech recognition |
Family Cites Families (124)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5919358B2 (ja) | 1978-12-11 | 1984-05-04 | 株式会社日立製作所 | 音声内容伝送方式 |
US5258909A (en) * | 1989-08-31 | 1993-11-02 | International Business Machines Corporation | Method and apparatus for "wrong word" spelling error detection and correction |
US5224040A (en) | 1991-03-12 | 1993-06-29 | Tou Julius T | Method for translating chinese sentences |
TW226011B (zh) | 1991-12-26 | 1994-07-01 | Sumitomo Chemical Co | |
US5393236A (en) * | 1992-09-25 | 1995-02-28 | Northeastern University | Interactive speech pronunciation apparatus and method |
US5636325A (en) | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
US5632002A (en) * | 1992-12-28 | 1997-05-20 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
US5561736A (en) | 1993-06-04 | 1996-10-01 | International Business Machines Corporation | Three dimensional speech synthesis |
US5586198A (en) | 1993-08-24 | 1996-12-17 | Lakritz; David | Method and apparatus for identifying characters in ideographic alphabet |
US5734923A (en) | 1993-09-22 | 1998-03-31 | Hitachi, Ltd. | Apparatus for interactively editing and outputting sign language information using graphical user interface |
JPH0793328A (ja) | 1993-09-24 | 1995-04-07 | Matsushita Electric Ind Co Ltd | 綴り不適切訂正装置 |
US6014615A (en) | 1994-08-16 | 2000-01-11 | International Business Machines Corporaiton | System and method for processing morphological and syntactical analyses of inputted Chinese language phrases |
JPH0883092A (ja) | 1994-09-14 | 1996-03-26 | Nippon Telegr & Teleph Corp <Ntt> | 情報入力装置及び情報入力方法 |
US5602960A (en) * | 1994-09-30 | 1997-02-11 | Apple Computer, Inc. | Continuous mandarin chinese speech recognition system having an integrated tone classifier |
US5761687A (en) * | 1995-10-04 | 1998-06-02 | Apple Computer, Inc. | Character-based correction arrangement with correction propagation |
JP3102335B2 (ja) | 1996-01-18 | 2000-10-23 | ヤマハ株式会社 | フォルマント変換装置およびカラオケ装置 |
CA2249646C (en) | 1996-03-27 | 2010-07-27 | Michael Hersh | Application of multi-media technology to psychological and educational assessment tools |
US5845300A (en) | 1996-06-05 | 1998-12-01 | Microsoft Corporation | Method and apparatus for suggesting completions for a partially entered data item based on previously-entered, associated data items |
BE1010336A3 (fr) | 1996-06-10 | 1998-06-02 | Faculte Polytechnique De Mons | Procede de synthese de son. |
JP3266819B2 (ja) | 1996-07-30 | 2002-03-18 | 株式会社エイ・ティ・アール人間情報通信研究所 | 周期信号変換方法、音変換方法および信号分析方法 |
JPH1083195A (ja) | 1996-09-09 | 1998-03-31 | Oki Electric Ind Co Ltd | 入力言語認識装置及び入力言語認識方法 |
US5911129A (en) | 1996-12-13 | 1999-06-08 | Intel Corporation | Audio font used for capture and rendering |
US6148024A (en) | 1997-03-04 | 2000-11-14 | At&T Corporation | FFT-based multitone DPSK modem |
CN1137449C (zh) * | 1997-09-19 | 2004-02-04 | 国际商业机器公司 | 在中文语音识别系统中识别字母/数字串的方法 |
US6005498A (en) | 1997-10-29 | 1999-12-21 | Motorola, Inc. | Reduced keypad entry apparatus and method |
JP4267101B2 (ja) * | 1997-11-17 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声識別装置、発音矯正装置およびこれらの方法 |
US6125341A (en) | 1997-12-19 | 2000-09-26 | Nortel Networks Corporation | Speech recognition system and method |
US5995932A (en) * | 1997-12-31 | 1999-11-30 | Scientific Learning Corporation | Feedback modification for accent reduction |
JP3884851B2 (ja) | 1998-01-28 | 2007-02-21 | ユニデン株式会社 | 通信システムおよびこれに用いられる無線通信端末装置 |
US7257528B1 (en) | 1998-02-13 | 2007-08-14 | Zi Corporation Of Canada, Inc. | Method and apparatus for Chinese character text input |
US6081780A (en) * | 1998-04-28 | 2000-06-27 | International Business Machines Corporation | TTS and prosody based authoring system |
US6035269A (en) * | 1998-06-23 | 2000-03-07 | Microsoft Corporation | Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text |
US6188983B1 (en) * | 1998-09-02 | 2001-02-13 | International Business Machines Corp. | Method for dynamically altering text-to-speech (TTS) attributes of a TTS engine not inherently capable of dynamic attribute alteration |
US7003463B1 (en) * | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US6185525B1 (en) * | 1998-10-13 | 2001-02-06 | Motorola | Method and apparatus for digital signal compression without decoding |
US6185535B1 (en) | 1998-10-16 | 2001-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
US6192344B1 (en) * | 1998-12-16 | 2001-02-20 | Altigen Communications, Inc. | Messaging server language configuration method and apparatus |
US6801659B1 (en) | 1999-01-04 | 2004-10-05 | Zi Technology Corporation Ltd. | Text input system for ideographic and nonideographic languages |
US6374224B1 (en) | 1999-03-10 | 2002-04-16 | Sony Corporation | Method and apparatus for style control in natural language generation |
JP2000305582A (ja) | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
US7292980B1 (en) | 1999-04-30 | 2007-11-06 | Lucent Technologies Inc. | Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems |
US20020069058A1 (en) | 1999-07-06 | 2002-06-06 | Guo Jin | Multimodal data input device |
CN1207664C (zh) * | 1999-07-27 | 2005-06-22 | 国际商业机器公司 | 对语音识别结果中的错误进行校正的方法和语音识别系统 |
CN1176432C (zh) | 1999-07-28 | 2004-11-17 | 国际商业机器公司 | 提供本国语言查询服务的方法和系统 |
JP2001043221A (ja) * | 1999-07-29 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 中国語単語分割装置 |
KR20010019786A (ko) | 1999-08-30 | 2001-03-15 | 윤종용 | 이동통신 시스템에서 음성인식 및 문자표시 장치 및 방법 |
US6697457B2 (en) | 1999-08-31 | 2004-02-24 | Accenture Llp | Voice messaging system that organizes voice messages based on detected emotion |
US7165019B1 (en) * | 1999-11-05 | 2007-01-16 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
CN1209743C (zh) | 1999-11-23 | 2005-07-06 | 言丰科技有限公司 | 使用音调建模的话音识别系统和方法 |
US6272464B1 (en) * | 2000-03-27 | 2001-08-07 | Lucent Technologies Inc. | Method and apparatus for assembling a prediction list of name pronunciation variations for use during speech recognition |
US6564213B1 (en) | 2000-04-18 | 2003-05-13 | Amazon.Com, Inc. | Search query autocompletion |
US7280964B2 (en) * | 2000-04-21 | 2007-10-09 | Lessac Technologies, Inc. | Method of recognizing spoken language with recognition of language color |
US6963841B2 (en) * | 2000-04-21 | 2005-11-08 | Lessac Technology, Inc. | Speech training method with alternative proper pronunciation database |
US6775651B1 (en) * | 2000-05-26 | 2004-08-10 | International Business Machines Corporation | Method of transcribing text from computer voice mail |
GB0013241D0 (en) | 2000-05-30 | 2000-07-19 | 20 20 Speech Limited | Voice synthesis |
TW521266B (en) | 2000-07-13 | 2003-02-21 | Verbaltek Inc | Perceptual phonetic feature speech recognition system and method |
US6598021B1 (en) | 2000-07-13 | 2003-07-22 | Craig R. Shambaugh | Method of modifying speech to provide a user selectable dialect |
US6424935B1 (en) | 2000-07-31 | 2002-07-23 | Micron Technology, Inc. | Two-way speech recognition and dialect system |
CN1187693C (zh) * | 2000-09-30 | 2005-02-02 | 英特尔公司 | 以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统 |
JP4089148B2 (ja) * | 2000-10-17 | 2008-05-28 | 株式会社日立製作所 | 通訳サービス方法および通訳サービス装置 |
JP2004512613A (ja) * | 2000-10-23 | 2004-04-22 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ソフトウェア・ライセンス料金の自動支払方法 |
US7085716B1 (en) * | 2000-10-26 | 2006-08-01 | Nuance Communications, Inc. | Speech recognition using word-in-phrase command |
AU2002232928A1 (en) | 2000-11-03 | 2002-05-15 | Zoesis, Inc. | Interactive character system |
JP2002189490A (ja) | 2000-12-01 | 2002-07-05 | Leadtek Research Inc | ピンイン音声入力の方法 |
CN1121004C (zh) | 2000-12-21 | 2003-09-10 | 国际商业机器公司 | 用于小键盘的汉字输入方法 |
JP4067762B2 (ja) | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
US7010490B2 (en) | 2001-01-26 | 2006-03-07 | International Business Machines Corporation | Method, system, and apparatus for limiting available selections in a speech recognition system |
EP1233406A1 (en) * | 2001-02-14 | 2002-08-21 | Sony International (Europe) GmbH | Speech recognition adapted for non-native speakers |
JP2002244688A (ja) | 2001-02-15 | 2002-08-30 | Sony Computer Entertainment Inc | 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム |
CN1198198C (zh) | 2001-02-27 | 2005-04-20 | 索尼公司 | 字符输入方法及字符输入装置 |
EP1239459A1 (en) * | 2001-03-07 | 2002-09-11 | Sony International (Europe) GmbH | Adaptation of a speech recognizer to a non native speaker pronunciation |
US20020133523A1 (en) | 2001-03-16 | 2002-09-19 | Anthony Ambler | Multilingual graphic user interface system and method |
US6850934B2 (en) | 2001-03-26 | 2005-02-01 | International Business Machines Corporation | Adaptive search engine query |
US20020152075A1 (en) | 2001-04-16 | 2002-10-17 | Shao-Tsu Kung | Composite input method |
US20020184009A1 (en) | 2001-05-31 | 2002-12-05 | Heikkinen Ari P. | Method and apparatus for improved voicing determination in speech signals containing high levels of jitter |
US20030023426A1 (en) | 2001-06-22 | 2003-01-30 | Zi Technology Corporation Ltd. | Japanese language entry mechanism for small keypads |
US7668718B2 (en) | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
US6810378B2 (en) | 2001-08-22 | 2004-10-26 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
US20030054830A1 (en) | 2001-09-04 | 2003-03-20 | Zi Corporation | Navigation system for mobile communication devices |
US7075520B2 (en) | 2001-12-12 | 2006-07-11 | Zi Technology Corporation Ltd | Key press disambiguation using a keypad of multidirectional keys |
US7949513B2 (en) | 2002-01-22 | 2011-05-24 | Zi Corporation Of Canada, Inc. | Language module and method for use with text processing devices |
DE10207875A1 (de) | 2002-02-19 | 2003-08-28 | Deutsche Telekom Ag | Parametergesteuerte Sprachsynthese |
US6950799B2 (en) | 2002-02-19 | 2005-09-27 | Qualcomm Inc. | Speech converter utilizing preprogrammed voice profiles |
DE60215296T2 (de) | 2002-03-15 | 2007-04-05 | Sony France S.A. | Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung |
JP3762327B2 (ja) * | 2002-04-24 | 2006-04-05 | 株式会社東芝 | 音声認識方法および音声認識装置および音声認識プログラム |
US7010488B2 (en) | 2002-05-09 | 2006-03-07 | Oregon Health & Science University | System and method for compressing concatenative acoustic inventories for speech synthesis |
US7380203B2 (en) * | 2002-05-14 | 2008-05-27 | Microsoft Corporation | Natural input recognition tool |
US7299188B2 (en) * | 2002-07-03 | 2007-11-20 | Lucent Technologies Inc. | Method and apparatus for providing an interactive language tutor |
US7353173B2 (en) * | 2002-07-11 | 2008-04-01 | Sony Corporation | System and method for Mandarin Chinese speech recognition using an optimized phone set |
US7058578B2 (en) | 2002-09-24 | 2006-06-06 | Rockwell Electronic Commerce Technologies, L.L.C. | Media translator for transaction processing system |
US7124082B2 (en) | 2002-10-11 | 2006-10-17 | Twisted Innovations | Phonetic speech-to-text-to-speech system and method |
TW575867B (en) | 2002-10-25 | 2004-02-11 | Inventec Besta Co Ltd | Conversion method for voice tone |
DE10302754A1 (de) | 2003-01-24 | 2004-07-29 | Axel Schweppe | Instrument zur Übertragung von Längen-, Flächen- und Raummassen in Tonhöhen |
US7593849B2 (en) * | 2003-01-28 | 2009-09-22 | Avaya, Inc. | Normalization of speech accent |
US8285537B2 (en) * | 2003-01-31 | 2012-10-09 | Comverse, Inc. | Recognition of proper nouns using native-language pronunciation |
US6915256B2 (en) | 2003-02-07 | 2005-07-05 | Motorola, Inc. | Pitch quantization for distributed speech recognition |
US7533023B2 (en) | 2003-02-12 | 2009-05-12 | Panasonic Corporation | Intermediary speech processor in network environments transforming customized speech parameters |
US7181396B2 (en) * | 2003-03-24 | 2007-02-20 | Sony Corporation | System and method for speech recognition utilizing a merged dictionary |
US7496498B2 (en) * | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
US6988064B2 (en) | 2003-03-31 | 2006-01-17 | Motorola, Inc. | System and method for combined frequency-domain and time-domain pitch extraction for speech signals |
JP2006524856A (ja) | 2003-04-14 | 2006-11-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 自動ダビングをオーディオ・ビジュアル・ストリームに対して行うシステム及び方法 |
TWI229844B (en) | 2003-05-08 | 2005-03-21 | Acer Inc | Recognition method to integrate speech input and handwritten input, and system thereof |
TWI244636B (en) | 2003-06-17 | 2005-12-01 | Inventec Besta Co Ltd | Classification method of phonetic tone parameters |
US8826137B2 (en) | 2003-08-14 | 2014-09-02 | Freedom Scientific, Inc. | Screen reader having concurrent communication of non-textual information |
US6983244B2 (en) | 2003-08-29 | 2006-01-03 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for improved speech recognition with supplementary information |
US7088861B2 (en) | 2003-09-16 | 2006-08-08 | America Online, Inc. | System and method for chinese input using a joystick |
TWI226011B (en) | 2003-10-23 | 2005-01-01 | Cybertan Technology Inc | Character input device and its input method |
WO2005050399A2 (en) * | 2003-11-14 | 2005-06-02 | Speechgear, Inc. | Phrase constructor for translator |
US20050114194A1 (en) | 2003-11-20 | 2005-05-26 | Fort James Corporation | System and method for creating tour schematics |
US7398215B2 (en) | 2003-12-24 | 2008-07-08 | Inter-Tel, Inc. | Prompt language translation for a telecommunications system |
US7363224B2 (en) | 2003-12-30 | 2008-04-22 | Microsoft Corporation | Method for entering text |
US7684987B2 (en) * | 2004-01-21 | 2010-03-23 | Microsoft Corporation | Segmental tonal modeling for tonal languages |
US7415411B2 (en) * | 2004-03-04 | 2008-08-19 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
US20060015340A1 (en) * | 2004-07-14 | 2006-01-19 | Culture.Com Technology (Macau) Ltd. | Operating system and method |
US7376648B2 (en) | 2004-10-20 | 2008-05-20 | Oracle International Corporation | Computer-implemented methods and systems for entering and searching for non-Roman-alphabet characters and related search systems |
US7549119B2 (en) | 2004-11-18 | 2009-06-16 | Neopets, Inc. | Method and system for filtering website content |
US20060122840A1 (en) | 2004-12-07 | 2006-06-08 | David Anderson | Tailoring communication from interactive speech enabled and multimodal services |
US7466859B2 (en) | 2004-12-30 | 2008-12-16 | Motorola, Inc. | Candidate list enhancement for predictive text input in electronic devices |
TWI244638B (en) * | 2005-01-28 | 2005-12-01 | Delta Electronics Inc | Method and apparatus for constructing Chinese new words by the input voice |
US20060256139A1 (en) | 2005-05-11 | 2006-11-16 | Gikandi David C | Predictive text computer simplified keyboard with word and phrase auto-completion (plus text-to-speech and a foreign language translation option) |
US8413069B2 (en) | 2005-06-28 | 2013-04-02 | Avaya Inc. | Method and apparatus for the automatic completion of composite characters |
US20060293890A1 (en) | 2005-06-28 | 2006-12-28 | Avaya Technology Corp. | Speech recognition assisted autocompletion of composite characters |
US20070005363A1 (en) | 2005-06-29 | 2007-01-04 | Microsoft Corporation | Location aware multi-modal multi-lingual device |
US20070050188A1 (en) * | 2005-08-26 | 2007-03-01 | Avaya Technology Corp. | Tone contour transformation of speech |
-
2005
- 2005-08-12 US US11/203,463 patent/US8249873B2/en active Active
-
2006
- 2006-06-21 TW TW095122293A patent/TWI315513B/zh not_active IP Right Cessation
- 2006-07-18 CN CN2006101019960A patent/CN1912994B/zh active Active
- 2006-08-10 SG SG200605446-4A patent/SG130139A1/en unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6260015B1 (en) * | 1998-09-03 | 2001-07-10 | International Business Machines Corp. | Method and interface for correcting speech recognition errors for character languages |
US6553342B1 (en) * | 2000-02-02 | 2003-04-22 | Motorola, Inc. | Tone based speech recognition |
CN1335571A (zh) * | 2000-06-23 | 2002-02-13 | 微软公司 | 一种从一个由随机输入方法产生的候选列表中进行过滤和选择的方法和系统 |
US20020049590A1 (en) * | 2000-10-20 | 2002-04-25 | Hiroaki Yoshino | Speech data recording apparatus and method for speech recognition learning |
US20020110248A1 (en) * | 2001-02-13 | 2002-08-15 | International Business Machines Corporation | Audio renderings for expressing non-audio nuances |
US20050144010A1 (en) * | 2003-12-31 | 2005-06-30 | Peng Wen F. | Interactive language learning method capable of speech recognition |
Also Published As
Publication number | Publication date |
---|---|
US20070038452A1 (en) | 2007-02-15 |
US8249873B2 (en) | 2012-08-21 |
TW200717446A (en) | 2007-05-01 |
SG130139A1 (en) | 2007-03-20 |
CN1912994A (zh) | 2007-02-14 |
TWI315513B (en) | 2009-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1912994B (zh) | 语音的声调校正 | |
US6895257B2 (en) | Personalized agent for portable devices and cellular phone | |
Rabiner | Applications of voice processing to telecommunications | |
US7593842B2 (en) | Device and method for translating language | |
US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
JP4089148B2 (ja) | 通訳サービス方法および通訳サービス装置 | |
US8849666B2 (en) | Conference call service with speech processing for heavily accented speakers | |
US20070050188A1 (en) | Tone contour transformation of speech | |
CN110751943A (zh) | 一种语音情绪识别方法、装置以及相关设备 | |
US20060069567A1 (en) | Methods, systems, and products for translating text to speech | |
US20100332224A1 (en) | Method and apparatus for converting text to audio and tactile output | |
JP2001273283A (ja) | 言語を識別しかつ音声再生装置を制御する方法及び通信デバイス | |
CN1692403A (zh) | 具有个人化语音段的语音合成设备 | |
JP2002540731A (ja) | 携帯電話機による使用のための数字列を生成するシステムおよび方法 | |
TW200304638A (en) | Network-accessible speaker-dependent voice models of multiple persons | |
JP2020071676A (ja) | 対話要約生成装置、対話要約生成方法およびプログラム | |
GB2376554A (en) | Artificial language generation and evaluation | |
CN101175272B (zh) | 一种用声音读出文本短消息的方法 | |
Westall et al. | Speech technology for telecommunications | |
Burke | Speech processing for ip networks: Media resource control protocol (MRCP) | |
EP1187441B1 (en) | Audio recognition method and device for sequence of numbers | |
WO2001033549A1 (fr) | Dispositif et procede de lecture de messages electroniques, et support enregistre de conversion de texte | |
JP2002101203A (ja) | 音声処理システム、音声処理方法およびその方法を記憶した記憶媒体 | |
Westall | Review of speech technologies for telecommunications | |
JP2001014331A (ja) | 情報処理方法、装置及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1098243 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1098243 Country of ref document: HK |