CN1748249A - 网络环境中语音处理的中间体 - Google Patents

网络环境中语音处理的中间体 Download PDF

Info

Publication number
CN1748249A
CN1748249A CNA2004800039824A CN200480003982A CN1748249A CN 1748249 A CN1748249 A CN 1748249A CN A2004800039824 A CNA2004800039824 A CN A2004800039824A CN 200480003982 A CN200480003982 A CN 200480003982A CN 1748249 A CN1748249 A CN 1748249A
Authority
CN
China
Prior art keywords
speech
computing equipment
processing system
customized
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800039824A
Other languages
English (en)
Other versions
CN100351899C (zh
Inventor
彼得·维普瑞克
特德·H·艾伯鲍姆
史蒂夫·皮尔森
罗兰·库恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1748249A publication Critical patent/CN1748249A/zh
Application granted granted Critical
Publication of CN100351899C publication Critical patent/CN100351899C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

提供了一种语音处理系统,用于在网络环境中跨越语音应用定制语音参数。该语音处理系统包括:驻留于第一计算设备上的语音处理应用,其中该语音处理应用可操作来为给定用户捕获定制语音参数并且跨网络传送所述定制语音参数;驻留于该网络环境中第二计算设备上的中间语音处理器,其中该中间语音处理器适用于接收所述定制语音参数,并且可操作来转换所述定制语音参数以用于第三计算设备。

Description

网络环境中语音处理的中间体
技术领域
本发明主要涉及语音处理系统,更准确地说,涉及一种在网络环境中跨越不同的语音应用定制语音参数的中间语音处理器(intermediary speechprocessor)。
背景技术
语音处理被越来越多地结合在多种消费设备中,这些消费设备包括个人计算机、蜂窝电话、个人数据助理等。一般来说,由以下两个方法中的一种实现语音处理:在消费设备上执行语音处理;或者语音处理分布在消费设备和服务器之间。这两种方法的问题在于它们仅涉及语音处理的计算层面。目前,缺少能够共享用户模式以及其它用户特定偏好的中间物。结果,用户需要在他们的不同设备上重复执行训练时间(session)和其它初始步骤。换句话说,当前的语音处理体系不支持在驻留于不同消费设备的语音应用之间共享用户的定制数据。
发明内容
根据本发明,提供了一种在网络环境中跨越语音应用定制语音参数的语音处理系统。该语音处理系统包括:驻留于第一计算设备上的语音处理应用,其中该语音处理应用可操作来为给定用户捕获定制语音参数并且跨网络传送所述定制语音参数;驻留于该网络环境中第二计算设备上的中间语音处理器,其中该中间语音处理器适用于接收所述定制语音参数,并且可操作来转换所述定制语音参数以用于第三计算设备。
为了更全面理解本发明、及其目的和优点,参考下文的说明书以及附图进行说明。
附图说明
图1是根据本发明用于跨语音应用定制语音参数的示范性语音处理系统的示意图;
图2是解释本发明的定制技术如何应用在自动语音识别上的示意图;
图3是解释本发明的定制技术如何应用在讲话者识别上的示意图;
图4是解释本发明的定制技术如何应用在语音合成上的示意图;
图5是解释在本发明的语音处理系统中提供加强语音处理服务的方法流程图。
具体实施方式
图1示出了用于跨网络环境中的语音应用定制语音参数的示范性语音处理系统10。语音处理系统10通常包括两个或更多的通过网络14相互连接的消费设备12。为了解释的目的,消费设备12显示为个人计算机和移动电话。然而,可以容易理解,其它类型的消费设备也在本发明的范围之内,比如传真机或个人数据助理。
优选地,语音处理应用22驻留在每个消费设备12上。语音处理服务可以包括(但不局限于)自动语音识别、语音合成、讲话者识别、语音对话管理、语音检测、频谱均衡和频谱标准化。在工作时,语音处理应用22可从终端用户捕获各种定制语音参数。例如,示范性的定制语音参数可以是口述(dictation)应用中的自动语音识别器所采用的用户适应的声音模式。然而容易理解,其它类型的定制语音参数也包括在本发明的较广的范围之内。此外,应进一步理解,根据语音处理服务类型,合适的语音参数可以改变。
一旦捕获了定制语音参数,通常无法在驻留在不同类型计算设备上的语音应用之间共享参数。因此,语音处理应用22进一步可操作来将跨网络环境的定制语音参数传输至服务器16的中间语音处理器20。然后定制语音参数被存储在与该网络环境有关的数据存储22中。可以想象,数据存储可驻留于中间语音处理器所在的计算设备上,或存储在跨网络环境分布的多个数据存储中。同样,可进一步想象,中间语音处理器20的处理能力也可以分布于网络环境中的多个计算设备。无论哪种情况,数据存储24均可被中间语音处理器20访问。
根据本发明,中间语音处理器20适用于接收定制语音参数,并且可操作来转换定制语音参数以在不同计算设备上应用。由于不同计算设备可以具有不同操作特性,中间语音处理器20可以访问为不同类型的计算设备存储操作参数的设备指定的数据存储26。下面将进一步说明,语音参数的转换处理部分取决于目标计算设备的操作参数。
转换的语音参数存储在与网络环境有关的数据存储中。另外,还可以设想,数据存储可能驻留在中间语音存储器所在的计算设备上,或驻留在跨网络环境分布的多个数据存储中。无论哪种情况,转换后的语音参数均可被目标计算设备访问。最后,目标计算设备能够利用转换后的定制语音参数执行语音处理服务。
通常,与用于口述系统的自动语音识别器有关的语言模型和声模型(acoustic model)适用于(或定制用于)系统用户。为了解释目的,根据本发明的定制技术可应用于自动语音识别器的语言模型和/或声模型36,在图2中对此图示并深入说明。
语言模型通常指系统对于可能组成什么单词、什么单词有可能同时出现以及以什么顺序同时出现的认知。在一个示范性实施例中,语音识别器30所采用的语言模型34可由元语法语言模型汇编而成。例如,单语法模型由单词及其可被讲话者讲出的可能性确定;双模型是给定单词、紧跟该给定单词的另一单词以及两个单词被顺序讲出的可能性确定。众所周知,在口述系统中,包含语言模型的元语法语言模型适用于特定系统用户。
对于大词汇量的语音识别器,语言模型通常包括单模型、双模型和三模型。通常,这种语音识别器在个人计算机或其它类似的具有支持识别器所需的计算能力和/或存储空间的计算设备上实现。然而可以想象,系统用户倾向于将其定制的语言模型转到其它计算设备上,诸如移动电话,这些计算设备的计算能力和/或存储空间逊于个人计算机。因此,大词汇量的语言模型34可由中间语音处理器32根据目标设备的操作特性进行转换,该目标设备存在于中间语音处理器32可访问的数据存储38中。
例如,中间语音处理器32可根据移动电话现有的存储空间压缩大词汇量语言模型的规模。根据现有空间,中间语音处理器可删除所有三模型或删除相关可能性低于某预定阈值的三模型,由此形成具有压缩规模的便携语言模型。为了进一步压缩语言模型的规模,可以想象,所有双模型和三模型可从语言模型中删除。容易理解,转换算法可基于目标设备的一些其它操作特性,诸如计算能力、现有计算能力、特定语音处理应用和/或上述几项的组合。可以深入理解到,其它类型的转换算法在本发明的较广的范围之内。在任何情况下,转换的语音参数由中间语音处理器32存储在数据存储39中,用于顺序处理。
类似地,口述系统中的自动语音识别器所采用的声模型可经过改造以用于其它计算设备。在一示范性实施例中,可采用隐式马尔可夫模型(HiddenMarkov Models)作为语音识别器的声模型。隐式马尔可夫模型通常用于模拟亚单词单位(sub-word unit),诸如音素(phoneme)。在这种情况下,语音识别器可为每个音素使用一种声模型。然而,为了改善识别准确率,大词汇量的语音识别器通常采用上下文相关的声模型。例如,这种语音识别器可包括双音素模型、三音素模型、四音素模型和其它考虑邻近音素的声模型。如上所述,中间语音处理器可根据移动电话的可用存储空间减少声模型的数量。可以预见,限定在单词级别上的声模型或其它语音子部分也在本发明的范围之内。此外,可以进一步预见,可采用其它已知的自适应技术修改语音识别器所使用的声模型,例如,这些自适应技术可以为最大似然线性回归和最大后验自适应。
经常应用自适应技术以使声模型更好地对当前用户的语音识别。例如,当用户开始使用大词汇量的语音识别系统进行口述时,系统可能经常出现单词识别错误,这是因为系统预先装载的声模型不能体现用户的声音特点。一旦用户对系统讲话持续了一段时间,这些自适应技术可利用用户存储的语音所包含的信息改变原始的声模型,使其更准确地反映当前用户的声音特点,从而错误率降低。目前,当用户开始使用新的语音设备时,必须重新训练声模型以更准确地模拟他或她的声音;这个过程比较耗时。因此,本发明使得已经经过训练的声模型在转换到一个新设备时,能够准确地模拟指定用户的声音。当用户开始对该新设备谈话时,新设备已经包含了定制用于对该用户的声音进行单词识别的模型。
类似地,自适应技术可学习给定声音环境的特点,因此使语音识别系统在该环境下更好地工作。例如,每种汽车,甚至每个房间都有其独特的声音特点,在该环境下经过训练的语音识别系统比未在该环境下经过训练的系统性能更佳。本发明也能够将给定环境的特点知识从一个设备传送给另一设备。因此举个例子,如果一个用户已经在跑车中对其PDA进行过训练,该用户可以将该知识传给一个新购置的在该跑车中使用的声音驱动的移动电话。
与语音识别系统类似,讲话者识别(即讲话者确认和讲话者鉴定)系统包含语音的声模型。参见图3,一示范性讲话者识别系统包括讲话者识别器40和存储声模型的数据存储44。此系统的每个注册用户与保存的该用户声音的模型相关联,该模型可以是高斯混合模型(GMM)、隐式马尔可夫模型(HMM)或其它类型的声模型。当系统收到新的语音数据时,它将新的语音数据与存储的模型比较,以确定新语音是否由注册用户发出的,如果是,则确定是哪个注册用户发出的。
注册时,每个用户必须允许他或她的声音被录制;录制的数据用于训练该讲话者的模型。通常,特定用户被录制的语音量越大,该用户的模型将越准确。目前,用户必须为每台设备分别训练他或她的模型。本发明使得在一台设备上训练的讲话者识别所需的讲话者模型可用在另一台设备上。
特别是,中间语音处理器42可操作来转换讲话者模型,以使其能够应用在其它设备上。为了达到此目的,中间语音处理器42访问存储在数据存储46中的设备数据。然后转换的讲话者模型由中间语音处理器42存储在另一数据存储48中,以供后续处理。因此,如果用户在一台设备上有经过良好训练的讲话者模型,就可以在另一台设备上通过声音鉴定和确认该用户,而无需在该第二台设备上训练声模型,这是因为声音媒介(voiceintermediary)已经存储了该用户声音的模型。需要注意,声音媒介可利用两台设备中每台设备的典型失真知识计算变换,以对在第一设备上训练的模型进行转换,并以这种方式将该模型转移到第二设备,从而最小化失真。
本发明的定制技术也可应用于语音合成处理。例如,系统用户可选择优选的合成的声音,用于个人计算机上具有大量内置声音的基于连接的(concatenative-based)合成器。此外,用户可通过调节音高升降曲线、朗读停顿等进一步定制该合成的声音。或者,用户可根据自己的声音事先产生优选的合成声音。无论那种情况,基于连接的合成器依赖于大规模的语音段数据库,该数据库包含(但不局限于)双音素、三音素和其它类型的声音单元。而且,数据库可包括驻留于不同上下丈环境中的众多相同的语音段,这些相同的语音段的音高和/或持续时间不同。
为了使数据库用于资源有限的目标设备,需要中间语音处理器减少数据库中的大量语音段。如上所述,中间语音处理器可根据目标设备的可用存储空间缩减数据库的规模。为了达到此目的,中间语音处理器可采用转换算法删除在类似语音上下文中多次出现的语音段。或者,中间语音处理器可去除三音素和/或四音素,但保留数据库中的双音素。在另一方法中,中间语音处理器压缩类似的语音单元。例如,更为复杂的数据库可包括不同声音版本的语音段。这种情况下,在声音上类似但不同的语音段可归为一个代表语音段。本领域普通技术人员显而易见,可对转换算法进行裁剪以石英目标设备的空间需求。一旦达到目标大小,转换后的数据库可被目标设备访问或被传送给目标数据库。
语音合成器还可依赖于现有技术公知的节律(prosodic)数据库。节律数据库包括各种语音合成器使用的节律属性,以改善合成。示范性节律属性包括(但不局限于)振幅、持续时间和语调。可为出现在不同上下文的不同语音段分别存储节律属性,以在语音合成时用到根据上下文或属性的定制结果。类似地,节律属性可最初以标准形式存储,然后根据合成时可用的数据转换为适当的最终形式。容易理解,节律数据库可采用多种组织形式,诸如节律模板列表、分层次决策、积和模型或神经网络。因此,可进一步预见,第一设备上的节律属性可由中间语音处理器以类似方式转换,以适用于另一设备。
或者,目标设备可采用基于共振峰参数的合成器。在这种情况下,中间语音处理器必须推导出用于理想定制语音的代表性的共振峰参数。在示范性方法中,驻留于PC上的语音合成器50向中间语音处理器54提供定制化语音的样本话语,如图3所示。中间语音处理器54反过来对样本话语进行语音合成。特别是,中间语音处理器54对波形进行共振峰分析,由此确定定制语音的共振峰频率和带宽。然后中间语音处理器54将识别出的共振峰参数传送至目标设备,以供其基于共振峰的合成器所使用。类似地,中间语音处理器54可确定其它定制语音所采用的参数,诸如平均语音速率、平均音高、音高范围等。这些额外的语音参数还可提供给目标设备,以供其基于共振峰的合成器使用。
中间语音处理器还可配置用于根据来自多个不同用户的语音处理数据表达语音参数。驻留于第一计算设备上的第一语音处理应用,捕获定制用于第一系统用户的语音参数;驻留于第二计算设备上的第二语音处理应用,捕获定制用于第二系统用户的语音参数。
被捕获的语音参数可由网络中的第三计算设备上的中间语音处理器访问。然后中间语音处理器可用于确定语音处理系统所采用的增强的语音参数。增强的语音参数存储在与网络环境相关的数据存储中,并因此可由目标计算设备访问。最后,目标计算设备能够使用增强的语音参数进行语音处理服务。
下面进一步说明与语音合成有关的例子。语音合成器一般包括字母发音模块(即语音符号表示器),将拼写单词转换为合成过程中所采用的音标。然而,很多单词是多音单词,所以字母发音模块将为给定单词产生多个音标。例如,单词“Houston”的音标是/H Y UW S T EN/或/H AW S T EN/。因为第一种音标形式更加常用,可将其指定为合成器的缺省发音。应该理解,语音合成器可接收包含缩写、打字错误或具有其它错误的输入文本,人类读者可轻易对这些输入文本的错误进行修改,但是语音合成器需要更复杂的处理来修改这些错误。在这种情况下,语音识别器可进一步具有文字标准化的功能来修改这些错误,例如将“James St.”改为“James Street”,或者将“St.James”改为“Saint James”。可以预见,这种标准化的功能可由中间语音处理器执行。
与合成器相关的对话管理器可监控用户与合成器的交互。用户的某些动作,比如重复合成某些单词和/或使用拼音模式,可被当作错误发音。在这种情况下,对话管理器可触发使用替代音标。如果新的音标被证明问题较少,那么新音标将被标志作为合成器所采用的优选音标。
在工作时,中间语音处理器从网络中的不同设备收集数据,比如优选的音标数据。然后收集的数据被规划在优选音标的基准数据库中,该基准数据库可被已经存在的或新的系统用户下载。或者,可以预见,中间语音处理器还可知晓各个系统用户的物理位置。因此,中间语音处理器可配置用于推断在某地理区域内的用户对于特定发音有重复问题。结果,中间语音处理器通知设备对于该确认的区域使用替代发音。如果目标设备上没有替代发音,中间语音处理器可将替代发音下载到目标设备上。
可从网络中不同设备收集的另一类型的数据是用户对不同合成声音的反应。通过对众多不同用户的反馈进行整理和分析,可以确定某种声音非常普及,某种声音非常不普及,或者某种声音的普及程度取决于人口因素(例如某种声音在德克萨斯州普及,但在其它州并非如此)。这种信息有一定作用,例如当新用户从语音合成应用中选择声音时,确定其首先被允许听到哪种合成的声音。
不同系统用户的数据集合也有利于语音识别。例如,结合在语音识别系统中的声模型一般受益于对收集自各种各样用户的大量语音进行的训练。从跨网络的众多不同用户和设备收集语音数据,将为被训练用于新用户的声模型提供数据。可选地,所收集的数据的人口出身,可以被用于训练用于新子群的特定的声模型,例如,语音识别器所采用的来自佐治亚州一男性新客户的初始声模型主要在收集自佐治亚州生活的男性的语音上进行训练。
在另一例子中,当市场上出现新的语音数据设备时,比如麦克风或移动电话话筒,中间语音处理器从最先使用这些语音输入设备的终端用户收集数据。收集的数据用于估计补偿与该语音输入设备有关的声音失真所需的数学转换。中间语音处理器随后与其它使用该语音输入设备的终端用户共享该收集的数据。容易理解,数据集合也可应用于其它类型的语音处理服务。
讲话者识别提供另一个中间语音处理器如何根据不同用户的数据集合提供增强的语音处理服务的例子。在讲话者识别中,每个用户的声音都有确认模型(即声波纹)。此外,讲话者识别系统还采用表示人口剩余部分的冒名模型。在此例中,中间语音处理器收集不同终端用户和/或网络中不同设备的语音数据。从未加入讲话者识别系统的用户收集的数据用于更新冒名者模型。可以预见,可根据终端用户的地理位置确定不同的冒名者模型,以补偿地区方言或口音。
在本发明的另一方面,中间语音处理器使不同的商业模型得以在语音处理系统中提供增强的语音处理服务。图4解释了提供终端用户付费的增强的语音处理服务的示范方法。首先如42所示,终端用户通过请求服务提供商提供的特定服务启动处理。在一个实施例中,终端用户在一个其自身的计算设备上通过网络发送请求至中间语音处理器。例如,终端用户请求将其个人计算机上的定制的语音参数传送至其移动电话上。容易理解,可采用多种不同方式确认并传输请求至服务提供商。
下一步,如44所示,服务提供商向终端用户提供增强的语音处理服务。在示范性实施例中,中间语音处理器对定制的语音参数进行转换,以在移动电话上使用。在另一实施例中,增强的语音处理服务是对终端用户的讲话者识别。也就是说,在终端用户说出一些单词之后,语音媒介根据说出的单词的特点和所存储的终端用户的声模型识别用户,并通知用户身份鉴别的第三方。例如,声明是我的某人打电话给银行并要求得到有关我的财务情况的秘密信息。在这种情况下,语音媒介被调用,以比较打电话者的声音特点和我存储的声模型,并通知银行打电话者是否与我是同一个人。在优选实施例中,除讲话者识别步骤以外,这种鉴定步骤将包括其它确认信息(例如PIN号码)。
最后,在46向终端用户估定费用。可以预见,每种服务有固定费用,或者根据中间语音处理器所提供服务的类型和量确定服务费用。
或者,向第三方估定提供给终端用户的语音处理服务费用。例如,银行提供使用语音合成通知终端用户帐户余额的服务。为了改善合成语音的质量,银行希望将语调模式和消息文字一起发送至用户设备的合成器。然后合成器使用该语调模式改善合成语音的质量。在此例中,中间语音处理器定制终端用户设备所用的语调模式。此外,向银行估定提供该增强语音处理服务的服务费,而非向终端用户估定服务费。在另一例子中,中间语音处理器可代表银行向一或多个终端用户发布语言模型。
类似地,中间语音处理器可对提供给特定用户的声音根据用户喜好的知识进行定制。因此,银行提供的相同的文字可由圆润的女性声音通知客户,由商业化且有几分生硬的男性声音通知另一客户。中间语音处理器还向银行提供为一给定用户定制的声模型,因此确保当用户访问银行提供的语音驱动的服务时,对该用户的单词识别错误的数量被最小化。类似地,语音媒介使用为一特定用户存储的声模型通知银行当前正在与银行交谈(例如通过电话)的人最有可能是或最有可能不是他或她所声称的客户。可见语音媒介具有众多与特定设备和特定用户有关的有用的语音相关信息,第三方(诸如此例中的银行)无法轻易获得,所以第三方通常愿意付费购买。容易理解,由中间语音处理器启用的其它类型的商业模型也在本发明的范围之内。
虽然在上文以当前的优选形式对本发明作了说明,应该理解,可对本发明进行修改,而不偏离附加权利要求所要求的本发明的精神。

Claims (63)

1、一种用于跨网络环境定制语音参数的语音处理系统,包括:
驻留于第一计算设备上的语音处理应用,该语音处理应用可操作来为给定用户捕获定制语音参数并且跨网络传送所述定制语音参数;和
驻留于该网络环境中第二计算设备上的中间语音处理器,该第二计算设备通过该网络与该第一计算设备相互连接;
所述中间语音处理器适用于接收所述定制语音参数,并且可操作来转换所述定制语音参数以用于第三计算设备,该第三计算设备具有与该第一计算设备不同的工作特性。
2、根据权利要求1所述的语音处理系统,进一步包括驻留于该第三计算设备上的语音处理应用,该语音处理应用适用于访问所述转换后的定制语音参数,并且可操作来使用所述转换后的定制语音参数执行语音处理。
3、根据权利要求1所述的语音处理系统,进一步包括驻留于该第三计算设备上的语音处理应用,该中间语音处理器可操作来将所述转换后的定制语音参数传输至该驻留于该第三计算设备上的语音处理应用。
4、根据权利要求1所述的语音处理系统,其中该中间语音处理器进一步可操作来在与该网络环境相关的数据结构中存储所述转换后的定制语音参数。
5、根据权利要求4所述的语音处理系统,其中该数据结构驻留于该第一计算设备上的数据存储中。
6、根据权利要求4所述的语音处理系统,其中该数据结构驻留于该第二计算设备上的数据存储中。
7、根据权利要求4所述的语音处理系统,其中该数据结构驻留于该第三计算设备上的数据存储中。
8、根据权利要求4所述的语音处理系统,其中该数据结构驻留于跨该网络环境分布的两个或两个以上数据存储中。
9、一种用于跨网络环境定制语音参数的语音处理系统,包括:
驻留于第一计算设备上的第一语音识别器和第一讲话者识别器中的至少一个,该第一语音识别器和第一讲话者识别器中的至少一个可操作来为给定讲话者捕获定制语音参数,并且跨网络传送所述定制语音参数;和
驻留于第二计算设备上的中间语音处理器,该第二计算设备通过该网络与该第一计算设备相互连接;
所述中间语音处理器适用于接收定制语音参数,并且可操作来转换所述定制语音参数以用于第三计算设备,该第三计算设备具有与该第一计算设备不同的工作特性。
10、根据权利要求9所述的语音处理系统,进一步包括驻留于该第三计算设备的第二语音识别器和第二讲话者识别器中的至少一个,该第二语音识别器和第二讲话者识别器中的至少一个适用于访问所述转换后的定制语音参数,并且可操作来使用该转换后的定制语音处理参数执行语音处理。
11、根据权利要求9所述的语音处理系统,进一步包括驻留于该第三计算设备上的第二语音识别器和第二讲话者识别器中的至少一个,该中间语音处理器可操作来将所述转换后的定制语音参数传输至该驻留于第三计算设备上的第二语音识别器和第二讲话者识别器中的至少一个。
12、根据权利要求9所述的语音处理系统,其中该中间语音处理器进一步可操作来在与该网络环境相关的数据结构中存储所述转换后的定制语音参数。
13、根据权利要求12所述的语音处理系统,其中该数据结构驻留于该第一计算设备上的数据存储中。
14、根据权利要求12所述的语音处理系统,其中该数据结构驻留于该第二计算设备上的数据存储中。
15、根据权利要求12所述的语音处理系统,其中该数据结构驻留于该第三计算设备上的数据存储中。
16、根据权利要求12所述的语音处理系统,其中该数据结构驻留于跨该网络环境分布的两个或两个以上数据存储中。
17、根据权利要求9所述的语音处理系统,其中该中间语音处理器可操作来从设备参数数据存储中为该第三计算设备提取一或多个设备参数,并根据该第三计算设备的一或多个设备参数转换所述定制语音参数,以用于该第三计算设备。
18、根据权利要求17所述的语音处理系统,其中该中间语音处理器根据驻留于该第三计算设备上的可用存储空间转换所述定制语音参数。
19、根据权利要求17所述的语音处理系统,其中该中间语音处理器根据该第三计算设备的可用处理器资源转换所述定制语音参数。
20、根据权利要求17所述的语音处理系统,其中该中间语音处理器根据驻留于该第三计算设备上的语音应用的类型转换所述定制语音参数。
21、根据权利要求9所述的语音处理系统,其中所述定制语音参数被进一步限定为语音识别模型。
22、根据权利要求9所述的语音处理系统,其中所述定制语音参数被进一步限定为具有多个参数的语言模型,以使该中间语音处理器根据该第三计算设备的工作特性更改驻留于该语言模型中的参数。
23、根据权利要求9所述的语音处理系统,其中所述定制语音参数被进一步限定为由该第一语音识别器使用的多个声模型,以使该中间语音处理器根据该第三计算设备的工作特性更改所述多个声模型。
24、根据权利要求24所述的语音处理系统,其中该第一语音识别器可操作来为该给定讲话者调整所述多个声模型,并且该中间语音处理器更改所述调整后的声模型,以用于该第三计算设备。
25、根据权利要求9所述的语音处理系统,其中所述定制语音参数被进一步限定为与捕获该第一计算设备的语音相关的声音通道特性。
26、根据权利要求9所述的语音处理系统,其中所述定制语音参数被进一步限定为与捕获该第一计算设备的语音相关的环境特性。
27、根据权利要求9所述的语音处理系统,其中所述定制语音参数被进一步限定为讲话者识别模型。
28、一种用于跨网络环境定制语音参数的语音处理系统,包括:
驻留于第一计算设备上的第一语音合成器,该第一语音合成器可操作来捕获定制语音参数并跨网络传送所述定制语音参数;和
驻留于第二计算设备上的中间语音处理器,该第二计算设备通过该网络与该第一计算设备相互连接;
所述中间语音处理器适用于接收定制语音参数,并且可操作来转换所述定制语音参数以用于第三计算设备,该第三计算设备具有与该第一计算设备不同的工作特性。
29、根据权利要求28所述的语音处理系统,进一步包括驻留于该第三计算设备上的第二语音合成器,该语音合成器适用于访问所述转换后的定制语音参数,并可操作来使用所述转换后的定制语音参数执行语音合成。
30、根据权利要求28所述的语音处理系统,进一步包括驻留于该第三计算设备上的第二语音合成器,该中间语音处理器可操作来将所述转换后的定制语音参数传输至驻留于该第三计算设备上的语音合成器。
31、根据权利要求28所述的语音处理系统,其中该中间语音处理器进一步可操作来在与该网络环境相关的数据结构中存储所述转换后的定制语音参数。
32、根据权利要求31所述的语音处理系统,其中该数据结构驻留于该第一计算设备上的数据存储中。
33、根据权利要求31所述的语音处理系统,其中该数据结构驻留于该第二计算设备上的数据存储中。
34、根据权利要求31所述的语音处理系统,其中该数据结构驻留于该第三计算设备上的数据存储中。
35、根据权利要求31所述的语音处理系统,其中该数据结构驻留于跨该网络环境分布的两个或两个以上数据存储中。
36、根据权利要求28所述的语音处理系统,其中该中间语音处理器可操作来从设备参数数据存储中为该第三计算设备提取一或多个设备参数,并根据该第三计算设备的一或多个设备参数对所述定制语音参数进行转换,以用于该第三计算设备。
37、根据权利要求36所述的语音处理系统,其中该中间语音处理器根据驻留于该第三计算设备上的可用存储空间转换所述定制语音参数。
38、根据权利要求36所述的语音处理系统,其中该中间语音处理器根据该第三计算设备的可用处理器资源转换所述定制语音参数。
39、根据权利要求36所述的语音处理系统,其中该中间语音处理器根据驻留于该第三计算设备上的语音应用的类型转换所述定制语音参数。
40、根据权利要求28所述的语音处理系统,其中所述定制语音参数被进一步限定为连接的语音段。
41、根据权利要求28所述的语音处理系统,其中所述定制语音参数被进一步限定为驻留于可由该第一语音合成器访问的节律数据库中的节律属性。
42、根据权利要求41所述的语音处理系统,其中所述节律属性包括持续时间模型和语调模式中的至少一个。
43、根据权利要求28所述的语音处理系统,其中所述定制语音参数被进一步限定为用户指定的声音参数。
44、根据权利要求28所述的语音处理系统,其中所述定制语音参数被进一步限定为优选的音标数据。
45、根据权利要求28所述的语音处理系统,其中所述定制语音参数被进一步限定为用于拼写单词的输入文本,以使该中间语音处理器可操作来将该输入文本转换为标准形式。
46、一种用于跨网络环境增强语音参数的语音处理系统,包括:
驻留于第一计算设备上的第一语音处理应用,可操作来捕获为第一系统用户定制的语音参数;和
驻留于第二计算设备上的第二语音处理应用,可操作来捕获为第二系统用户定制的语音参数;和
驻留于该网络环境中第三计算设备上的中间语音处理器,所述中间语音处理器具有对驻留于该第一和第二计算设备上的被捕获语音参数的访问,并且可操作来根据从该第一和第二系统用户捕获的语音参数表述增强的语音参数。
47、根据权利要求46所述的语音处理系统,其中该中间语音处理器可操作来将所述增强的语音参数传输至该第一语音处理应用和第二语音处理应用中的至少一个。
48、根据权利要求46所述的语音处理系统,进一步包括驻留于第四计算设备上的第三语音处理应用,该第三语音处理应用适用于访问所述增强的语音参数,并且可操作来使用所述增强的语音参数执行语音处理。
49、根据权利要求46所述的语音处理系统,其中该中间语音处理器进一步可操作来在与该网络环境相关的数据结构中存储所述增强的语音参数。
50、根据权利要求49所述的语音处理系统,其中该数据结构驻留于该第一计算设备和第二计算设备中至少一个的数据存储中。
51、根据权利要求49所述的语音处理系统,其中该数据结构驻留于该第三计算设备上的数据存储中。
52、根据权利要求49所述的语音处理系统,其中该数据结构驻留于跨该网络环境分布的两个或两个以上数据存储中。
53、根据权利要求46所述的语音处理系统,其中所述被捕获语音参数被进一步限定为语音识别参数、讲话者识别参数和语音合成参数中的至少一个。
54、根据权利要求46所述的语音处理系统,其中所述从该第一系统用户和第二系统用户中被捕获的语音参数被进一步限定为音标,以使该中间语音处理器识别用于该语音处理系统的优选音标。
55、根据权利要求46所述的语音处理系统,其中所述从该第一系统用户和第二系统用户中被捕获的语音参数被进一步限定为声波纹数据,以使该中间语音处理器可操作来根据该捕获的声波纹数据更新冒名者模型。
56、根据权利要求46所述的语音处理系统,其中所述该第一系统用户和第二系统用户中被捕获的语音参数被进一步限定为与捕获语音相关的声音通道特性或环境特性。
57、一种在分布式语音处理系统中提供增强语音处理服务的方法,包括:
从系统用户的第一计算设备接收对定制语音参数的请求;
由中间语音处理器转换所述定制语音参数以用于第二计算设备,该第二计算设备具有与该第一计算设备不同的工作特性;和
估定转换所述定制语音参数的服务费用。
58、根据权利要求57所述的方法,其中转换所述定制语音参数的步骤进一步包括捕获由该系统用户在该第一计算设备上定制的语音参数,并将所述定制语音参数传输至该中间语音处理器。
59、根据权利要求57所述的方法,进一步包括使用所述转换的定制语音参数在该第二计算设备上执行语音处理。
60、根据权利要求57所述的方法,进一步包括将所述定制语音参数传输至该第一计算设备,以用于后续语音处理。
61、根据权利要求57所述的方法,进一步包括向该系统用户估定该服务费用。
62、根据权利要求57所述的方法,进一步包括向第三方估定该服务费用。
63、根据权利要求57所述的方法,其中所述定制语音参数被进一步限定为语音识别参数、语音合成参数和讲话者识别参数中的至少一个。
CNB2004800039824A 2003-02-12 2004-02-06 网络环境中语音处理的中间体 Expired - Lifetime CN100351899C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/365,235 US7533023B2 (en) 2003-02-12 2003-02-12 Intermediary speech processor in network environments transforming customized speech parameters
US10/365,235 2003-02-12

Publications (2)

Publication Number Publication Date
CN1748249A true CN1748249A (zh) 2006-03-15
CN100351899C CN100351899C (zh) 2007-11-28

Family

ID=32824591

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004800039824A Expired - Lifetime CN100351899C (zh) 2003-02-12 2004-02-06 网络环境中语音处理的中间体

Country Status (5)

Country Link
US (1) US7533023B2 (zh)
EP (1) EP1593117A4 (zh)
KR (1) KR20050098839A (zh)
CN (1) CN100351899C (zh)
WO (1) WO2004072950A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103811013A (zh) * 2012-11-07 2014-05-21 中国移动通信集团公司 噪声抑制方法、装置、电子设备和通信处理方法
CN106067302A (zh) * 2016-05-27 2016-11-02 努比亚技术有限公司 降噪装置及方法
CN110110292A (zh) * 2018-01-29 2019-08-09 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110751940A (zh) * 2019-09-16 2020-02-04 百度在线网络技术(北京)有限公司 一种生成语音包的方法、装置、设备和计算机存储介质

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711358B2 (en) * 2004-12-16 2010-05-04 General Motors Llc Method and system for modifying nametag files for transfer between vehicles
US7596370B2 (en) * 2004-12-16 2009-09-29 General Motors Corporation Management of nametags in a vehicle communications system
WO2006128480A1 (en) * 2005-05-31 2006-12-07 Telecom Italia S.P.A. Method and system for providing speech synthsis on user terminals over a communications network
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
JP2007286356A (ja) * 2006-04-17 2007-11-01 Funai Electric Co Ltd 電子機器
US20080228493A1 (en) * 2007-03-12 2008-09-18 Chih-Lin Hu Determining voice commands with cooperative voice recognition
WO2009003875A1 (en) * 2007-06-29 2009-01-08 Basf Se Basket assembly for a washing machine
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US8010345B2 (en) * 2007-12-18 2011-08-30 International Business Machines Corporation Providing speech recognition data to a speech enabled device when providing a new entry that is selectable via a speech recognition interface of the device
US8990087B1 (en) * 2008-09-30 2015-03-24 Amazon Technologies, Inc. Providing text to speech from digital content on an electronic device
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US9305565B2 (en) * 2012-05-31 2016-04-05 Elwha Llc Methods and systems for speech adaptation data
US10431235B2 (en) * 2012-05-31 2019-10-01 Elwha Llc Methods and systems for speech adaptation data
US9899026B2 (en) 2012-05-31 2018-02-20 Elwha Llc Speech recognition adaptation systems based on adaptation data
US20130325474A1 (en) * 2012-05-31 2013-12-05 Royce A. Levien Speech recognition adaptation systems based on adaptation data
US9899040B2 (en) * 2012-05-31 2018-02-20 Elwha, Llc Methods and systems for managing adaptation data
US9495966B2 (en) * 2012-05-31 2016-11-15 Elwha Llc Speech recognition adaptation systems based on adaptation data
US8843371B2 (en) * 2012-05-31 2014-09-23 Elwha Llc Speech recognition adaptation systems based on adaptation data
US20130325459A1 (en) * 2012-05-31 2013-12-05 Royce A. Levien Speech recognition adaptation systems based on adaptation data
US20130325451A1 (en) * 2012-05-31 2013-12-05 Elwha LLC, a limited liability company of the State of Delaware Methods and systems for speech adaptation data
US9824695B2 (en) * 2012-06-18 2017-11-21 International Business Machines Corporation Enhancing comprehension in voice communications
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US9507852B2 (en) * 2013-12-10 2016-11-29 Google Inc. Techniques for discriminative dependency parsing
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US9947313B2 (en) * 2015-01-26 2018-04-17 William Drewes Method for substantial ongoing cumulative voice recognition error reduction
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
WO2018195185A1 (en) 2017-04-20 2018-10-25 Google Llc Multi-user authentication on a device
DE102018200088B3 (de) * 2018-01-04 2019-06-13 Volkswagen Aktiengesellschaft Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Verarbeiten einer Spracheingabe, Kraftfahrzeug und Nutzerendgerät mit einer Sprachverarbeitung
CN110164421B (zh) * 2018-12-14 2022-03-11 腾讯科技(深圳)有限公司 语音解码方法、装置及存储介质
KR20220008401A (ko) * 2019-06-07 2022-01-21 엘지전자 주식회사 엣지 컴퓨팅 디바이스에서 음성 인식 방법

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5673362A (en) 1991-11-12 1997-09-30 Fujitsu Limited Speech synthesis system in which a plurality of clients and at least one voice synthesizing server are connected to a local area network
JP3126985B2 (ja) * 1995-11-04 2001-01-22 インターナシヨナル・ビジネス・マシーンズ・コーポレーション 音声認識システムの言語モデルのサイズを適応させるための方法および装置
CA2217838C (en) 1996-11-07 2003-07-29 At&T Corp. Wan-based voice gateway
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US6404872B1 (en) 1997-09-25 2002-06-11 At&T Corp. Method and apparatus for altering a speech signal during a telephone call
US6119087A (en) 1998-03-13 2000-09-12 Nuance Communications System architecture for and method of voice processing
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6389114B1 (en) 1998-08-06 2002-05-14 At&T Corp. Method and apparatus for relaying communication
US6327346B1 (en) 1998-09-01 2001-12-04 At&T Corp. Method and apparatus for setting user communication parameters based on voice identification of users
US6412011B1 (en) 1998-09-14 2002-06-25 At&T Corp. Method and apparatus to enhance a multicast information stream in a communication network
US6385586B1 (en) 1999-01-28 2002-05-07 International Business Machines Corporation Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices
US6411685B1 (en) 1999-01-29 2002-06-25 Microsoft Corporation System and method for providing unified messaging to a user with a thin web browser
US6477240B1 (en) 1999-03-31 2002-11-05 Microsoft Corporation Computer-implemented voice-based command structure for establishing outbound communication through a unified messaging system
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6463413B1 (en) 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
US6456975B1 (en) 2000-01-13 2002-09-24 Microsoft Corporation Automated centralized updating of speech recognition systems
JP5105682B2 (ja) 2000-02-25 2012-12-26 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 基準変換手段を伴なう音声認識装置
US6510413B1 (en) * 2000-06-29 2003-01-21 Intel Corporation Distributed synthetic speech generation
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6823306B2 (en) * 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
US7024359B2 (en) * 2001-01-31 2006-04-04 Qualcomm Incorporated Distributed voice recognition system using acoustic feature vector modification
US20020138274A1 (en) * 2001-03-26 2002-09-26 Sharma Sangita R. Server based adaption of acoustic models for client-based speech systems
WO2002103675A1 (en) * 2001-06-19 2002-12-27 Intel Corporation Client-server based distributed speech recognition system architecture
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
EP1293964A3 (en) * 2001-09-13 2004-05-12 Matsushita Electric Industrial Co., Ltd. Adaptation of a speech recognition method to individual users and environments with transfer of data between a terminal and a server
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US7072834B2 (en) * 2002-04-05 2006-07-04 Intel Corporation Adapting to adverse acoustic environment in speech processing using playback training data

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103811013A (zh) * 2012-11-07 2014-05-21 中国移动通信集团公司 噪声抑制方法、装置、电子设备和通信处理方法
CN103811013B (zh) * 2012-11-07 2017-05-03 中国移动通信集团公司 噪声抑制方法、装置、电子设备和通信处理方法
CN106067302A (zh) * 2016-05-27 2016-11-02 努比亚技术有限公司 降噪装置及方法
CN106067302B (zh) * 2016-05-27 2019-06-25 努比亚技术有限公司 降噪装置及方法
CN110110292A (zh) * 2018-01-29 2019-08-09 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110110292B (zh) * 2018-01-29 2023-11-14 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110751940A (zh) * 2019-09-16 2020-02-04 百度在线网络技术(北京)有限公司 一种生成语音包的方法、装置、设备和计算机存储介质

Also Published As

Publication number Publication date
US7533023B2 (en) 2009-05-12
KR20050098839A (ko) 2005-10-12
CN100351899C (zh) 2007-11-28
EP1593117A4 (en) 2006-06-14
EP1593117A2 (en) 2005-11-09
US20040158457A1 (en) 2004-08-12
WO2004072950A3 (en) 2004-10-28
WO2004072950A2 (en) 2004-08-26

Similar Documents

Publication Publication Date Title
CN100351899C (zh) 网络环境中语音处理的中间体
AU2016216737B2 (en) Voice Authentication and Speech Recognition System
US10102847B2 (en) Automated learning for speech-based applications
EP1171871B1 (en) Recognition engines with complementary language models
US9251142B2 (en) Mobile speech-to-speech interpretation system
CN105489221B (zh) 一种语音识别方法及装置
KR100826875B1 (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
US20160372116A1 (en) Voice authentication and speech recognition system and method
US8595005B2 (en) System and method for recognizing emotional state from a speech signal
WO2016092807A1 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
US20100088088A1 (en) Customizable method and system for emotional recognition
US20030050783A1 (en) Terminal device, server device and speech recognition method
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
AU2013203139A1 (en) Voice authentication and speech recognition system and method
CN101467204A (zh) 用于生物计量声纹认证的方法和系统
CN107819929A (zh) 优选表情符号的识别和生成
WO2008084476A2 (en) Vowel recognition system and method in speech to text applications
CN107910005A (zh) 交互文本的目标业务定位方法及装置
KR20210117827A (ko) 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법
EP2541544A1 (en) Voice sample tagging
CN112863476A (zh) 个性化语音合成模型构建、语音合成和测试方法及装置
Larcher et al. Constrained temporal structure for text-dependent speaker verification
Basu et al. Real time challenges to handle the telephonic speech recognition system
JP2004053821A (ja) 話者識別方法およびそのシステム、並びにプログラム
US20230186900A1 (en) Method and system for end-to-end automatic speech recognition on a digital platform

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140724

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140724

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CX01 Expiry of patent term

Granted publication date: 20071128

CX01 Expiry of patent term