CN1912994B - 语音的声调校正 - Google Patents

语音的声调校正 Download PDF

Info

Publication number
CN1912994B
CN1912994B CN2006101019960A CN200610101996A CN1912994B CN 1912994 B CN1912994 B CN 1912994B CN 2006101019960 A CN2006101019960 A CN 2006101019960A CN 200610101996 A CN200610101996 A CN 200610101996A CN 1912994 B CN1912994 B CN 1912994B
Authority
CN
China
Prior art keywords
phrase
voice
speech
user
receives
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2006101019960A
Other languages
English (en)
Other versions
CN1912994A (zh
Inventor
科林·布莱尔
凯文·镡
克里斯托弗·R.·金特尔
尼尔·赫普沃斯
安德鲁·W.·兰格
保罗·R.·麦克里斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avaya Technology LLC
Original Assignee
Avaya Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avaya Technology LLC filed Critical Avaya Technology LLC
Publication of CN1912994A publication Critical patent/CN1912994A/zh
Application granted granted Critical
Publication of CN1912994B publication Critical patent/CN1912994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

提供了语音的声调校正。对接收语音进行分析,并将其与经常发错音的短语的表进行比较。将这些短语映射为讲话者可能要表达的短语。可以把被确定为用户可能要表达的短语的短语建议给用户。如果用户同意该建议,则可以在将该语音传递给接收方之前,对给语音进行声调校正。

Description

语音的声调校正
技术领域
本发明涉及带声调(tonal)的语言中的语音记录的校正。 
背景技术
诸如汉语、泰语和越南语的许多语言的独特之处在于它们是带声调的语言。在带声调的语言中,每个说出的音节都需要特定的语调,以使得可正确理解。例如,标准汉语具有四个声调,以及一个“中性”音调(pitch)。广东话甚至具有更多声调。这些声调分别被描述为“高平”、“高升”、“低降升”和“全降”,并且可以与罗马形式的汉语拼音区分开。 
发错了声调就是完全念错了汉语(或者泰语或越南语)的词(word)。因此,与只能有限程度地使用音调来表示句子意思的英语相比,例如为了表示问题,汉语使用声调作为每个词的整体特征。由此,非本国讲话者所讲的带音调语言通常对于本国讲话者是难于理解的,因为这些声调通常被发错音或者用错。 
发明内容
根据本发明的实施例,使用语音识别引擎来分析构成短语的一系列词。具体地,构成短语的这些词创建了上下文,在该上下文中可以分析组成词。根据上下文,可以识别出发错音的词或字(character)。 
此外,本发明的实施例用于校正发错音的字。具体地,使用音调校正来修正包含或包括发错音的字的所录语音。在将所录语音发送到接收方邮箱或者另外被存储以期随后进行重放之前,进行声调校正。根据本发明的其它实施例,可以在对所录语音进行校正之前,提示用户同意校正。 
根据本发明的实施例,可以与验证所录语音内的字的发音相关地,参照经常发错音的短语或字的数据库。也就是说,包含经常发错音的字的短语(由于发错音而无意义或者其意义不太可能是讲话者所要表达的意义)可以被映射为很可能是想要表达的短语的短语。因此,包含以不正确应用常用声调的形式的错误发音在内的短语可以被检测到和校正。 
附图说明
根据本发明的一个方面,提过了一种用于校正所录语音的方法, 包括:在通信设备接收来自用户的语音,其中,所述接收的语音包括至少两个词;识别所述语音中的至少第一接收短语,其中所述识别包括识别所述第一接收短语的所述至少两个词;将所述第一接收短语与多个存储短语进行比较,其中,所述比较包括扫描所述多个存储短语以获取经常发错音的短语,并且其中所述经常发错音的短语中的每一个被映射到至少一个包括至少两个词的建议的短语;将所述第一接收短语与包括经常发错音的短语的所述多个存储短语中的至少第一短语匹配;根据所述匹配确定所述多个存储短语中的第二短语是想要表达的短语,其中,所述多个存储短语中的所述第一短语是被映射到所述多个存储短语中的所述第二短语的经常发错音的短语;以及由所述通信设备将所述多个存储短语中的所述第二短语建议给所述用户,作为建议的第一替代短语。 
图1是根据本发明实施例的通信系统的框图; 
图2是根据本发明实施例的通信或计算设备或者服务器的组成部分的框图; 
图3是示出根据本发明实施例的用于语音的声调校正的处理的各方面的流程图; 
图4示出了声调互不相同的多个汉字,以及由这些字表示的相应罗马拼音。 
具体实施方式
根据本发明的实施例,可以在将包含一个或更多个错误发音的所录语音传递给接收方邮箱或者进行存储以供随后使用之前,对该语音进行声调校正。 
下面参照图1,示出了本发明实施例所应用的通信系统100的组成部分。具体地,在通信系统中,多个通信或计算设备104可以经由通信网络108彼此互连。此外,通信系统100可以包括一个或多个通信服务器112和/或交换机116,或者与这些设备关联。 
例如,通信或者计算设备104可以包括常规的有线或者无线电话、互联网协议(IP)电话、联网计算机、个人数字助理(PDA)或者任何其它能够发送或接收语音的设备。根据本发明的实施例,通信或者计算设备104还可以具有分析和记录用户所提供的语音的能力,从而能够进行声调校正。另选地或者另外地,可以通过服务器112或者其它实体,使用通信或者计算设备104来进行诸如分析和/或存储所收集的语音的功能。 
根据本发明实施例的服务器112可以包括用于对客户设备提供服务的通信服务器或者其它计算机。服务器112包括例如PBX、语音邮件或者在网络上部署的服务器,以实现提供此处所述的语音的声调校正的特定目的。因此,服务器112可以用于执行通信服务和/或连接功能。此外,服务器112可以进行与本发明的语音的声调校正有关的一些或者所有处理和/或存储功能。 
通信网络108可以包括用于在相关设备104和/或服务器112之间传送语音和数据的汇聚网络。此外,应当理解,通信网络108不必被限制于任何特定类型的网络。因此,通信网络108可以包括有线或无线以太网络、因特网、专用企业内部网、专用分组交换机(PBX)、公共交换电话网(PSTN)、蜂窝或者其它无线电话网、或者任何其它能够传输包括语音数据的数据的网络。此外,可以理解,通信网络108不必被限制于任何一种网络类型,而是可以包括多种不同的网络和/或网络类型。 
下面参考图2,以框图形式示出了用于实现根据本发明实施例的上述某些或全部声调连接特征的通信或者计算设备104的组成部件或者服务器112的组成部件。这些组成部件可以包括能够执行程序指令的处理器204。因此,处理器204可以包括任何通用可编程处理器、数字信号处理器(DSP)或者用于执行应用程序的控制器。另选地,处理器204可以包括被专门构造的专用集成电路(ASIC)。处理器204通常用于运行如下程序代码,该程序代码实现由通信设备104或者服务器112所执行的各种功能,包括这里所述的声调校正操作。 
通信设备104或者服务器112另外可以包括存储器208,用于与处理器204执行程序相关地使用,并用于临时或长期存储数据或者程序指令。存储器208可以包括基本上可拆卸的或远程的、驻留的固态存储,如DRAM和SDRAM。其中处理器204包括控制器,存储器208可以被集成到处理器204。 
此外,通信设备104或者服务器112可以包括一个或更多个用户输入或者用于接收用户输入的装置212,以及一个或更多用户输出或者用于输出的装置216。用户输入212包括例如键盘、小键盘、触摸屏、触摸盘和麦克风。用户输出216包括例如扬声器、显示屏(包括触摸屏显示器)和指示灯。此外,本领域技术人员应当明白,用户输入212可以与用户输出216组合,或者与其结合来操作。这种集成的用户输入212和用户输出216包括例如触摸屏显示器,其可以既将视觉信息呈现给用户,又可以从用户接收输入选择。 
通信设备104或服务器112还可以包括用于存储应用程序和/或数据的数据存储设备220。此外,操作系统软件224可以被存储在数据存储设备220中。数据存储设备220可以包括例如磁存储设备、固态存储设备、光存储设备、逻辑电路,或者这些设备的任意组合。应当理解,数据存储设备220中所保持的程序和数据可以包括软件、固件或硬件逻辑,这取决于数据存储设备220的具体实现。 
可以存储在数据存储设备220中的应用的示例包括声调校正应用228。声调校正应用228可以包含语音识别应用和/或文本转换成语音的应用,或者可以与这些应用协作。此外,数据存储设备220可以包含经常发错音的短语和/或字的表或数据库232。该表或数据库232另外可以包括经常发错音的短语和/或字与通常想要表达的短语和/或字之间的关联。因此,数据库232可以包括用于存储如下短语之间的关联,这些短语具有类似发音但是包括与不同声调相关的字。如此处所述的,声调校正应用228以及短语或字的表232可以相互集成,和/或相互协作。此外,声调校正应用可以包括用于将所接收的短语与数据库232中的短语进行比较的装置,以及用于改变所接收的短语中所包含的词的声调的装置。数据存储设备220还可以包含与通信设备104或者服务器112的其它功能的性能相关所使用的应用程序和数据。例如,与诸如电话或IP电话的通信设备104相关地,数据存储设备可以包括通信应用软件。作为另一示例,诸如个人数字助理(PDA)的通信设备104或者通用计算机可以包括数据存储设备220中的词处理 应用。此外,根据本发明的实施例,语音邮件或者其它应用也可以包括在数据存储设备220中。 
通信设备104或服务器112还可以包括一个或更多个通信网络接口236。通信网络接口236包括例如网络接口卡、调制解调器、有线电话端口、串行或并行数据端口、或者其它有线或者无线通信网络接口。 
现在参考图3,图中例示了提供根据本发明实施例的词或字的声调校正的通信设备104或服务器112的操作的各方面。开始时,在步骤300,从用户接收包括具有至少两个词的短语的语音,并至少对其进行临时存储。例如,所接收的语音可以包括存储在存储器208或者数据存储设备220(作为通信设备104或服务器112的一部分而提供)中的短语,该短语包括与多个汉字对应的多个词。然后,例如与作为声调校正应用228的一部分而提供的语音识别应用的操作相关地识别语音(步骤304)。即,识别包括用户所讲出的短语在内的字。然后扫描数据库或表232以获取经常发错音的短语308。然后确定所接收的语音是否与经常发错音的短语对应(步骤312)。如果发现所接收的语音与数据库232中包含的经常发错音的短语相匹配或者相对应,则可以警告用户可能发错的音,并且对用户提供所建议的替代(步骤316)。根据本发明的实施例,经常发错音的短语可以在数据库232中被映射到可以作为所建议的替代而提供的一个或更多个短语。警告和所建议的替代可以被传输给用户输出216或者多个用户输出216的组合。例如,警告信号和所建议的替代可以被作为语音输出通过用户位置处的扬声器提供给用户。作为另一示例,警告信号和/或所建议的替代可以通过包含可视显示器的用户输入216提供给用户。此外,包括所建议的替代在内的输出中的一些或全部可以采用与所提供的包含发错音的短语在内的语音的语言不同的语言。例如,所建议的替代可以以用户的母语以书面或口头的形式传输给用户。在阅读了本说明书之后的本领域技术人员可以理解,口头输出可以通过文本转换成语音的程序、运行在通信或者计算设备104或服务器112(接收了来自 声调校正应用228和/或数据库232的文本)上的引擎或者功能来生成。 
在步骤320,可以确定用户是否已经同意所建议的替代。例如,用户可以通过用户输入212设备提供确认信号来发出对于所建议替代的赞成。这种输入可以是按压指定的键、念出与所建议的替代相关的参考标号或者其它标识符、和/或在与所建议的替代对应的显示区域中进行点击。此外,对于所建议替代的赞成可以包括用户从声调校正应用228所识别的多个可能替代中选择一个。 
如果接收到所建议替代的许可或确认,则对于用户初始语音进行声调校正(步骤324)。根据本发明的实施例,可以通过数字操纵所录语音来进行声调校正。例如,如本领域技术人员所知的,可以使用诸如线性预测编码的声道模型来对语音进行编码。对于声道模型操作的总体讨论,参见Michaelis,P.R.,Speech digitization andcompression,该文献可在International Encyclopedia of Ergonomicsand Human Factors,pp.683-685,W.Warkowski(Ed),London:Taylor and Francis,2001中获得,其全部公开内容在此引入作为参考。通常,这些技术使用人类语音生成机构的数学模型。因此,这些模型中的许多变量实际上对应于随着人讲话而变化的人类声道内的不同物理结构。在典型的实现中,编码机构将声音流划分成多个单独的短时间帧。分析这些帧的音频内容,以提取对声道模型的组成部分进行“控制”的参数。该处理所确定的多个单独的变量包括帧的总体振幅以及其基本音调。总体振幅和基本音调是该模型的对语音的声调轮廓影响最大的组成部分,并且是从控制谱过滤的参数中单独提取的,该谱过滤使得语音可理解并使得可以识别出讲话者。因此,根据本发明实施例的声调校正可以通过对语音中所检测出的错误振幅和音调参数采用适当的增量(delta)来进行。因为对振幅和音调参数进行改变,而不是谱过滤参数,所以通常仍能识别出经校正的声音流是原讲话者的声音。然后可以将经校正的语音发送到接收方地址(步骤328)。例如,在给接收方留下语音邮件消息时接收到语音的情况下,发送该语音可能包括将经校正的语音发布给接收方地址。 
如果在步骤312确定所接收的语音没有对应于经常发错音的短语,则用户所提供的语音包括正确发音的词和短语,或者其包括错误的发音,其导致没有反映在数据库232中的无意义或不可能的意思。因此,如果没有发现所接收的语音与数据库232中包含的经常发错音的短语中的一个匹配,则在步骤328中将该语音发送给接收方地址,而不首先进行声调校正。类似的,如果用户不同意所建议的声调校正,则在步骤328中可以在不进行声调校正的情况下将所录语音发送给接收方地址。在将消息发布给接收方地址之后,该处理结束。 
根据本发明的实施例,能够进行语音的声调校正的系统的各种组成部分可以是分布式的。例如,包括电话终端的通信设备104可以用于接收来自用户的语音和命令输入,并将输出传递给该用户,但是不能进行任何处理。根据该实施例,由服务器112对所接收的语音进行处理以确定是否可以找到与经常发错音的短语的匹配。根据本发明的其它实施例,声调校正功能可以完全在单个设备内进行。例如,具有适当处理能力的通信设备104可以分析语音、建议修改,并进行所同意的校正。根据所述其它实施例,当通信设备104将语音发布给接收方时,该语音可以被传递给例如接收方应答机或者传递给与服务器112相关的语音邮箱。 
为了进一步例示本发明实施例的操作,下面参照图4,例示了四个不同的汉字以及相应的罗马形式的汉语拼音。这些字是与词“妈妈(mother)”、“芝麻(sesame)”、“马(horse)”和“骂人(to scold)”等同意思的普通话中文。此外,与“妈”对应的字念为高平调;与字“芝麻”对应的字念为高升调;与字“马”对应的字念为低降升调;与“骂人”对应的字念为全降调。因为这四个字的发音之间的这些细微差别(至少对于非本国的汉语讲话者而言),这些字之间的发错音是常见的。然而,即使用户的语音输入有不正确的声调,或者无法识别出特定声调,也仍旧可以从其所应用的上下文来推出所要表达的意思。因此,数据库332可以包含以下短语:骑骂(ride scold);骑麻(ride sesame)和骑妈(ride monther)。这些短语中的每个都被数据库332映射到 正确的短语“骑马”。然后短语“ride horse”可以被提示给用户。如果被接受,则用户所提供的语音可以被校正,从而词“马”(大致发音为“ma”)具有正确的低降升调。通过识别所提供的包含短语的语音并且扫描数据库以获取所识别的短语,可以识别出用户可能想要表达的意思(以及由此其发音)。 
根据本发明的实施例,此处所描述的声调校正可以采用实时、接近实时或者离线应用的方式来进行,这取决于与声调校正功能的应用结合使用的通信设备104和/或服务器112的处理能力和其它性能。此外,虽然此处所描述的特定示例与语音邮件应用相关,但是本发明的实施例不限于此。例如,这里所描述的声调校正可以应用于任何所录语音,甚至是以接近实时地方式传递给接收方的语音。此外,虽然此处所提供的特定示例讨论了与汉语相结合来使用声调校正,但是其也可以应用于其它带声调的语言,例如泰语和越南语。 
本发明的以上讨论用于示例和说明性的目的。此外,该说明并不旨在将本发明限制于此处所公开的形式。因此,在具有相关领域的技术或熟悉相关领域的情况下与上述教导等同的变型和修改都在本发明的范围内。上述实施例还旨在解释实现本发明的当前已知的最佳模式,并且使得本领域的其他技术人员能够以这些或其它实施例的形式以及通过由他们对于本发明的特定应用或使用所需的各种变型,来利用本发明。所附权利要求应被理解为包括现有技术所允许的其它实施例。 

Claims (12)

1.一种用于校正所录语音的方法,包括:
在通信设备接收来自用户的语音,其中,所述接收的语音包括至少两个词;
识别所述语音中的至少第一接收短语,其中所述识别包括识别所述第一接收短语的所述至少两个词;
将所述第一接收短语与多个存储短语进行比较,其中,所述比较包括扫描所述多个存储短语以获取经常发错音的短语,并且其中所述经常发错音的短语中的每一个被映射到至少一个包括至少两个词的建议的短语;
将所述第一接收短语与包括经常发错音的短语的所述多个存储短语中的至少第一短语匹配;
根据所述匹配确定所述多个存储短语中的第二短语是想要表达的短语,其中,所述多个存储短语中的所述第一短语是被映射到所述多个存储短语中的所述第二短语的经常发错音的短语;以及
由所述通信设备将所述多个存储短语中的所述第二短语建议给所述用户,作为建议的第一替代短语。
2.根据权利要求1所述的方法,进一步包括:
接收来自所述用户的确认信号,该确认信号指示所述多个存储短语中的所述第二短语是所述想要表达的短语;
响应于接收所述确认信号,将所述第一接收短语变为与所述多个存储短语中的所述第二短语对应。
3.根据权利要求2所述的方法,其中使用包括线性预测编码的声道模型对所述第一接收短语进行编码。
4.根据权利要求2所述的方法,其中所述改变所述第一接收短语的步骤包括改变所述第一接收短语的至少一部分的振幅和音调参数中的至少一个。
5.根据权利要求4所述的方法,其中所述第一接收短语的所述至少一部分的谱过滤参数没有被所述改变步骤所改变。
6.根据权利要求2所述的方法,进一步包括:
在所述改变所述第一接收短语的步骤之后,发布所述第一接收短语以传递给接收方邮箱。
7.根据权利要求2所述的方法,其中所述改变所述第一接收短语的步骤包括改变与所述第一接收短语的至少一个词关联的声调。
8.根据权利要求1所述的方法,其中所述第一接收短语和所述多个存储短语中的所述第二短语的不同之处在于,所述第一接收短语的词和所述多个存储短语中的所述第二短语的词与不同的声调相关联。
9.根据权利要求1所述的方法,其中从所述用户的第一接收短语接收的所述语音是第一语言,其中所述多个存储短语中的所述建议的第二短语以第二语言呈现给用户。
10.一种用于校正带声调的语音的系统,包括:
用于接收语音作为输入的装置;
用于存储具有相似发音并包括与不同声调关联的词的短语之间的关联的装置,其中,每个短语包括至少两个词;
用于将输入语音中包括的第一接收短语与在所述用于存储的装置中包括的短语进行比较的装置,其中,所述第一接收短语与第一经常发错音的短语相匹配,以及其中,所述第一经常发错音的短语被映射到建议的第一替代短语;
用于改变所述第一接收短语中包括的至少第一词的声调的装置,其中所述第一接收短语的意思被变为与相关短语的意思对应,所述相关短语包括所述建议的第一替代短语。
11.根据权利要求10所述的系统,进一步包括:
用于将至少第一相关短语输出给用户的装置。
12.根据权利要求11所述的系统,进一步包括:
用于响应于用于许可所述改变后的第一接收短语的、来自用户的输入而将所述改变后的第一接收短语传递给接收方地址的装置。
CN2006101019960A 2005-08-12 2006-07-18 语音的声调校正 Active CN1912994B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/203,463 US8249873B2 (en) 2005-08-12 2005-08-12 Tonal correction of speech
US11/203,463 2005-08-12

Publications (2)

Publication Number Publication Date
CN1912994A CN1912994A (zh) 2007-02-14
CN1912994B true CN1912994B (zh) 2011-12-21

Family

ID=37721905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101019960A Active CN1912994B (zh) 2005-08-12 2006-07-18 语音的声调校正

Country Status (4)

Country Link
US (1) US8249873B2 (zh)
CN (1) CN1912994B (zh)
SG (1) SG130139A1 (zh)
TW (1) TWI315513B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US8413069B2 (en) * 2005-06-28 2013-04-02 Avaya Inc. Method and apparatus for the automatic completion of composite characters
US20090210229A1 (en) * 2008-02-18 2009-08-20 At&T Knowledge Ventures, L.P. Processing Received Voice Messages
US9280971B2 (en) 2009-02-27 2016-03-08 Blackberry Limited Mobile wireless communications device with speech to text conversion and related methods
GB0920480D0 (en) 2009-11-24 2010-01-06 Yu Kai Speech processing and learning
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8401856B2 (en) * 2010-05-17 2013-03-19 Avaya Inc. Automatic normalization of spoken syllable duration
JP5296029B2 (ja) * 2010-09-15 2013-09-25 株式会社東芝 文章提示装置、文章提示方法及びプログラム
CN104081453A (zh) * 2011-07-25 2014-10-01 索拉公司 用于声学变换的系统和方法
US8725497B2 (en) * 2011-10-05 2014-05-13 Daniel M. Wang System and method for detecting and correcting mismatched Chinese character
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10229676B2 (en) 2012-10-05 2019-03-12 Avaya Inc. Phrase spotting systems and methods
WO2014144395A2 (en) 2013-03-15 2014-09-18 Apple Inc. User training by intelligent digital assistant
CN104238991B (zh) * 2013-06-21 2018-05-25 腾讯科技(深圳)有限公司 语音输入匹配方法及装置
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20170337923A1 (en) * 2016-05-19 2017-11-23 Julia Komissarchik System and methods for creating robust voice-based user interface
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN110709922B (zh) * 2017-06-28 2023-05-26 雅马哈株式会社 歌唱音生成装置及方法、记录介质
JP2019153133A (ja) * 2018-03-05 2019-09-12 オムロン株式会社 文字入力装置、文字入力方法、及び、文字入力プログラム
US10896689B2 (en) 2018-07-27 2021-01-19 International Business Machines Corporation Voice tonal control system to change perceived cognitive state
CN110717021B (zh) * 2019-09-17 2023-08-29 平安科技(深圳)有限公司 人工智能面试中获取输入文本和相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6260015B1 (en) * 1998-09-03 2001-07-10 International Business Machines Corp. Method and interface for correcting speech recognition errors for character languages
CN1335571A (zh) * 2000-06-23 2002-02-13 微软公司 一种从一个由随机输入方法产生的候选列表中进行过滤和选择的方法和系统
US20020049590A1 (en) * 2000-10-20 2002-04-25 Hiroaki Yoshino Speech data recording apparatus and method for speech recognition learning
US20020110248A1 (en) * 2001-02-13 2002-08-15 International Business Machines Corporation Audio renderings for expressing non-audio nuances
US6553342B1 (en) * 2000-02-02 2003-04-22 Motorola, Inc. Tone based speech recognition
US20050144010A1 (en) * 2003-12-31 2005-06-30 Peng Wen F. Interactive language learning method capable of speech recognition

Family Cites Families (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5919358B2 (ja) 1978-12-11 1984-05-04 株式会社日立製作所 音声内容伝送方式
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
US5224040A (en) 1991-03-12 1993-06-29 Tou Julius T Method for translating chinese sentences
TW226011B (zh) 1991-12-26 1994-07-01 Sumitomo Chemical Co
US5393236A (en) * 1992-09-25 1995-02-28 Northeastern University Interactive speech pronunciation apparatus and method
US5636325A (en) 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
DE69326431T2 (de) * 1992-12-28 2000-02-03 Toshiba Kawasaki Kk Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
US5561736A (en) 1993-06-04 1996-10-01 International Business Machines Corporation Three dimensional speech synthesis
US5586198A (en) 1993-08-24 1996-12-17 Lakritz; David Method and apparatus for identifying characters in ideographic alphabet
US5734923A (en) 1993-09-22 1998-03-31 Hitachi, Ltd. Apparatus for interactively editing and outputting sign language information using graphical user interface
JPH0793328A (ja) 1993-09-24 1995-04-07 Matsushita Electric Ind Co Ltd 綴り不適切訂正装置
US6014615A (en) 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
JPH0883092A (ja) 1994-09-14 1996-03-26 Nippon Telegr & Teleph Corp <Ntt> 情報入力装置及び情報入力方法
US5602960A (en) * 1994-09-30 1997-02-11 Apple Computer, Inc. Continuous mandarin chinese speech recognition system having an integrated tone classifier
US5761687A (en) * 1995-10-04 1998-06-02 Apple Computer, Inc. Character-based correction arrangement with correction propagation
JP3102335B2 (ja) 1996-01-18 2000-10-23 ヤマハ株式会社 フォルマント変換装置およびカラオケ装置
EP0969761A2 (en) 1996-03-27 2000-01-12 Michael Hersh Application of multi-media technology to psychological and educational assessment tools
US5845300A (en) 1996-06-05 1998-12-01 Microsoft Corporation Method and apparatus for suggesting completions for a partially entered data item based on previously-entered, associated data items
BE1010336A3 (fr) 1996-06-10 1998-06-02 Faculte Polytechnique De Mons Procede de synthese de son.
JP3266819B2 (ja) 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
JPH1083195A (ja) 1996-09-09 1998-03-31 Oki Electric Ind Co Ltd 入力言語認識装置及び入力言語認識方法
US5911129A (en) 1996-12-13 1999-06-08 Intel Corporation Audio font used for capture and rendering
US6148024A (en) 1997-03-04 2000-11-14 At&T Corporation FFT-based multitone DPSK modem
CN1137449C (zh) * 1997-09-19 2004-02-04 国际商业机器公司 在中文语音识别系统中识别字母/数字串的方法
US6005498A (en) 1997-10-29 1999-12-21 Motorola, Inc. Reduced keypad entry apparatus and method
JP4267101B2 (ja) * 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US6125341A (en) 1997-12-19 2000-09-26 Nortel Networks Corporation Speech recognition system and method
US5995932A (en) * 1997-12-31 1999-11-30 Scientific Learning Corporation Feedback modification for accent reduction
JP3884851B2 (ja) 1998-01-28 2007-02-21 ユニデン株式会社 通信システムおよびこれに用いられる無線通信端末装置
US7257528B1 (en) 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
US6035269A (en) * 1998-06-23 2000-03-07 Microsoft Corporation Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
US6188983B1 (en) * 1998-09-02 2001-02-13 International Business Machines Corp. Method for dynamically altering text-to-speech (TTS) attributes of a TTS engine not inherently capable of dynamic attribute alteration
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US6185525B1 (en) * 1998-10-13 2001-02-06 Motorola Method and apparatus for digital signal compression without decoding
US6185535B1 (en) 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6192344B1 (en) * 1998-12-16 2001-02-20 Altigen Communications, Inc. Messaging server language configuration method and apparatus
US6801659B1 (en) 1999-01-04 2004-10-05 Zi Technology Corporation Ltd. Text input system for ideographic and nonideographic languages
US6374224B1 (en) 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
JP2000305582A (ja) 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
US7292980B1 (en) 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US20020069058A1 (en) 1999-07-06 2002-06-06 Guo Jin Multimodal data input device
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
CN1176432C (zh) 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和系统
JP2001043221A (ja) * 1999-07-29 2001-02-16 Matsushita Electric Ind Co Ltd 中国語単語分割装置
KR20010019786A (ko) 1999-08-30 2001-03-15 윤종용 이동통신 시스템에서 음성인식 및 문자표시 장치 및 방법
US6697457B2 (en) 1999-08-31 2004-02-24 Accenture Llp Voice messaging system that organizes voice messages based on detected emotion
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
AU1928001A (en) 1999-11-23 2001-06-04 Grace Chung System and method for speech recognition using tonal modeling
US6272464B1 (en) * 2000-03-27 2001-08-07 Lucent Technologies Inc. Method and apparatus for assembling a prediction list of name pronunciation variations for use during speech recognition
US6564213B1 (en) 2000-04-18 2003-05-13 Amazon.Com, Inc. Search query autocompletion
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
US6775651B1 (en) * 2000-05-26 2004-08-10 International Business Machines Corporation Method of transcribing text from computer voice mail
GB0013241D0 (en) 2000-05-30 2000-07-19 20 20 Speech Limited Voice synthesis
TW521266B (en) 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
US6598021B1 (en) 2000-07-13 2003-07-22 Craig R. Shambaugh Method of modifying speech to provide a user selectable dialect
US6424935B1 (en) 2000-07-31 2002-07-23 Micron Technology, Inc. Two-way speech recognition and dialect system
CN1187693C (zh) * 2000-09-30 2005-02-02 英特尔公司 以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统
JP4089148B2 (ja) * 2000-10-17 2008-05-28 株式会社日立製作所 通訳サービス方法および通訳サービス装置
JP2004512613A (ja) * 2000-10-23 2004-04-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ソフトウェア・ライセンス料金の自動支払方法
US7085716B1 (en) * 2000-10-26 2006-08-01 Nuance Communications, Inc. Speech recognition using word-in-phrase command
AU2002232928A1 (en) 2000-11-03 2002-05-15 Zoesis, Inc. Interactive character system
JP2002189490A (ja) 2000-12-01 2002-07-05 Leadtek Research Inc ピンイン音声入力の方法
CN1121004C (zh) 2000-12-21 2003-09-10 国际商业机器公司 用于小键盘的汉字输入方法
JP4067762B2 (ja) 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
US7010490B2 (en) 2001-01-26 2006-03-07 International Business Machines Corporation Method, system, and apparatus for limiting available selections in a speech recognition system
EP1233406A1 (en) * 2001-02-14 2002-08-21 Sony International (Europe) GmbH Speech recognition adapted for non-native speakers
JP2002244688A (ja) 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
CN1198198C (zh) 2001-02-27 2005-04-20 索尼公司 字符输入方法及字符输入装置
EP1239459A1 (en) * 2001-03-07 2002-09-11 Sony International (Europe) GmbH Adaptation of a speech recognizer to a non native speaker pronunciation
US20020133523A1 (en) 2001-03-16 2002-09-19 Anthony Ambler Multilingual graphic user interface system and method
US6850934B2 (en) 2001-03-26 2005-02-01 International Business Machines Corporation Adaptive search engine query
US20020152075A1 (en) 2001-04-16 2002-10-17 Shao-Tsu Kung Composite input method
US20020184009A1 (en) 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US20030023426A1 (en) 2001-06-22 2003-01-30 Zi Technology Corporation Ltd. Japanese language entry mechanism for small keypads
US7668718B2 (en) 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US6810378B2 (en) 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US20030054830A1 (en) 2001-09-04 2003-03-20 Zi Corporation Navigation system for mobile communication devices
US7075520B2 (en) 2001-12-12 2006-07-11 Zi Technology Corporation Ltd Key press disambiguation using a keypad of multidirectional keys
US7949513B2 (en) 2002-01-22 2011-05-24 Zi Corporation Of Canada, Inc. Language module and method for use with text processing devices
DE10207875A1 (de) 2002-02-19 2003-08-28 Deutsche Telekom Ag Parametergesteuerte Sprachsynthese
US6950799B2 (en) 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
EP1345207B1 (en) 2002-03-15 2006-10-11 Sony Corporation Method and apparatus for speech synthesis program, recording medium, method and apparatus for generating constraint information and robot apparatus
JP3762327B2 (ja) * 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
US7010488B2 (en) 2002-05-09 2006-03-07 Oregon Health & Science University System and method for compressing concatenative acoustic inventories for speech synthesis
US7380203B2 (en) * 2002-05-14 2008-05-27 Microsoft Corporation Natural input recognition tool
US7299188B2 (en) * 2002-07-03 2007-11-20 Lucent Technologies Inc. Method and apparatus for providing an interactive language tutor
US7353173B2 (en) * 2002-07-11 2008-04-01 Sony Corporation System and method for Mandarin Chinese speech recognition using an optimized phone set
US7058578B2 (en) 2002-09-24 2006-06-06 Rockwell Electronic Commerce Technologies, L.L.C. Media translator for transaction processing system
US7124082B2 (en) 2002-10-11 2006-10-17 Twisted Innovations Phonetic speech-to-text-to-speech system and method
TW575867B (en) 2002-10-25 2004-02-11 Inventec Besta Co Ltd Conversion method for voice tone
DE10302754A1 (de) 2003-01-24 2004-07-29 Axel Schweppe Instrument zur Übertragung von Längen-, Flächen- und Raummassen in Tonhöhen
US7593849B2 (en) * 2003-01-28 2009-09-22 Avaya, Inc. Normalization of speech accent
US8285537B2 (en) * 2003-01-31 2012-10-09 Comverse, Inc. Recognition of proper nouns using native-language pronunciation
US6915256B2 (en) 2003-02-07 2005-07-05 Motorola, Inc. Pitch quantization for distributed speech recognition
US7533023B2 (en) 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
US7181396B2 (en) * 2003-03-24 2007-02-20 Sony Corporation System and method for speech recognition utilizing a merged dictionary
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
US6988064B2 (en) 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
JP2006524856A (ja) 2003-04-14 2006-11-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 自動ダビングをオーディオ・ビジュアル・ストリームに対して行うシステム及び方法
TWI229844B (en) 2003-05-08 2005-03-21 Acer Inc Recognition method to integrate speech input and handwritten input, and system thereof
TWI244636B (en) 2003-06-17 2005-12-01 Inventec Besta Co Ltd Classification method of phonetic tone parameters
US8826137B2 (en) 2003-08-14 2014-09-02 Freedom Scientific, Inc. Screen reader having concurrent communication of non-textual information
US6983244B2 (en) 2003-08-29 2006-01-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for improved speech recognition with supplementary information
US7088861B2 (en) 2003-09-16 2006-08-08 America Online, Inc. System and method for chinese input using a joystick
TWI226011B (en) 2003-10-23 2005-01-01 Cybertan Technology Inc Character input device and its input method
JP2007517278A (ja) * 2003-11-14 2007-06-28 スピーチギア,インコーポレイティド トランスレータ用フレーズコンストラクタ
US20050114194A1 (en) 2003-11-20 2005-05-26 Fort James Corporation System and method for creating tour schematics
US7398215B2 (en) 2003-12-24 2008-07-08 Inter-Tel, Inc. Prompt language translation for a telecommunications system
US7363224B2 (en) 2003-12-30 2008-04-22 Microsoft Corporation Method for entering text
US7684987B2 (en) * 2004-01-21 2010-03-23 Microsoft Corporation Segmental tonal modeling for tonal languages
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US20060015340A1 (en) * 2004-07-14 2006-01-19 Culture.Com Technology (Macau) Ltd. Operating system and method
US7376648B2 (en) 2004-10-20 2008-05-20 Oracle International Corporation Computer-implemented methods and systems for entering and searching for non-Roman-alphabet characters and related search systems
US7549119B2 (en) 2004-11-18 2009-06-16 Neopets, Inc. Method and system for filtering website content
US20060122840A1 (en) 2004-12-07 2006-06-08 David Anderson Tailoring communication from interactive speech enabled and multimodal services
US7466859B2 (en) 2004-12-30 2008-12-16 Motorola, Inc. Candidate list enhancement for predictive text input in electronic devices
TWI244638B (en) * 2005-01-28 2005-12-01 Delta Electronics Inc Method and apparatus for constructing Chinese new words by the input voice
US20060256139A1 (en) 2005-05-11 2006-11-16 Gikandi David C Predictive text computer simplified keyboard with word and phrase auto-completion (plus text-to-speech and a foreign language translation option)
US20060293890A1 (en) 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US8413069B2 (en) 2005-06-28 2013-04-02 Avaya Inc. Method and apparatus for the automatic completion of composite characters
US20070005363A1 (en) 2005-06-29 2007-01-04 Microsoft Corporation Location aware multi-modal multi-lingual device
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6260015B1 (en) * 1998-09-03 2001-07-10 International Business Machines Corp. Method and interface for correcting speech recognition errors for character languages
US6553342B1 (en) * 2000-02-02 2003-04-22 Motorola, Inc. Tone based speech recognition
CN1335571A (zh) * 2000-06-23 2002-02-13 微软公司 一种从一个由随机输入方法产生的候选列表中进行过滤和选择的方法和系统
US20020049590A1 (en) * 2000-10-20 2002-04-25 Hiroaki Yoshino Speech data recording apparatus and method for speech recognition learning
US20020110248A1 (en) * 2001-02-13 2002-08-15 International Business Machines Corporation Audio renderings for expressing non-audio nuances
US20050144010A1 (en) * 2003-12-31 2005-06-30 Peng Wen F. Interactive language learning method capable of speech recognition

Also Published As

Publication number Publication date
US20070038452A1 (en) 2007-02-15
CN1912994A (zh) 2007-02-14
US8249873B2 (en) 2012-08-21
SG130139A1 (en) 2007-03-20
TWI315513B (en) 2009-10-01
TW200717446A (en) 2007-05-01

Similar Documents

Publication Publication Date Title
CN1912994B (zh) 语音的声调校正
US6895257B2 (en) Personalized agent for portable devices and cellular phone
Rabiner Applications of voice processing to telecommunications
US7593842B2 (en) Device and method for translating language
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
CN1920945B (zh) 语音的声调轮廓的转换
JP4089148B2 (ja) 通訳サービス方法および通訳サービス装置
US8849666B2 (en) Conference call service with speech processing for heavily accented speakers
CN110751943A (zh) 一种语音情绪识别方法、装置以及相关设备
US20060069567A1 (en) Methods, systems, and products for translating text to speech
US20100332224A1 (en) Method and apparatus for converting text to audio and tactile output
JP2001273283A (ja) 言語を識別しかつ音声再生装置を制御する方法及び通信デバイス
CN1692403A (zh) 具有个人化语音段的语音合成设备
WO2008030608A2 (en) System and method for automatic caller transcription (act)
JP2002540731A (ja) 携帯電話機による使用のための数字列を生成するシステムおよび方法
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
JP2020071676A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
GB2376554A (en) Artificial language generation and evaluation
CN101175272B (zh) 一种用声音读出文本短消息的方法
Burke Speech processing for ip networks: Media resource control protocol (MRCP)
EP1187441B1 (en) Audio recognition method and device for sequence of numbers
Westall et al. Speech technology for telecommunications
WO2001033549A1 (fr) Dispositif et procede de lecture de messages electroniques, et support enregistre de conversion de texte
JP2002101203A (ja) 音声処理システム、音声処理方法およびその方法を記憶した記憶媒体
JP2001014331A (ja) 情報処理方法、装置及び記憶媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1098243

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1098243

Country of ref document: HK