CN110199348A - 口音转化 - Google Patents

口音转化 Download PDF

Info

Publication number
CN110199348A
CN110199348A CN201780079074.0A CN201780079074A CN110199348A CN 110199348 A CN110199348 A CN 110199348A CN 201780079074 A CN201780079074 A CN 201780079074A CN 110199348 A CN110199348 A CN 110199348A
Authority
CN
China
Prior art keywords
accent
audio
party
input audio
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780079074.0A
Other languages
English (en)
Other versions
CN110199348B (zh
Inventor
L·P·迪拉克
F·默兴
E·利伯蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of CN110199348A publication Critical patent/CN110199348A/zh
Application granted granted Critical
Publication of CN110199348B publication Critical patent/CN110199348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Evolutionary Computation (AREA)

Abstract

本文描述了用于口音转化的技术。可以接收多个音频样本,并且可以将所述多个音频样本中的每一个与多种口音中的至少一种关联。可以将与所述多种口音中的至少第一口音关联的音频样本和与所述多种口音中的至少一种其他口音关联的音频样本相比较。可以生成第一口音与第二口音之间的转化模型。可以接收第一口语的输入音频部分。可以确定输入音频部分是否实质上与第一口音关联,并且如果是,可以至少部分地基于转化模型输出与第一口语的第二口音实质上关联的输出音频部分。

Description

口音转化
相关申请的交叉引用
本申请要求2016年12月21日提交的美国专利申请No.15/387,038的优先权,其全部内容在此通过引用并入本文。
背景技术
技术、交通、教育和经济等领域的许多进步促进了来自世界不同城市、地区、国家和其他部分的人们之间的口头交流的增加。在许多情况下,即使当人们说着同一种语言时,他们例如由于不同说话者可能采用各种不同的口音而可能难以相互理解。在一些情况下,居住、工作或者以其他方式与共同的地理区域(region)或地区关联的人们可能带有共同的口音。此外,在一些示例中,学习第二(例如非主要)语言的人们可能经常学会使用与主要语言关联的口音说第二语言。例如,居住在德国并且主要说德语的人们可能往往学会说带德国口音的英语。
附图说明
当结合附图阅读时,可以更好地理解下面的具体实施方式。出于说明的目的,附图中示出了本公开的各个不同方面的示例实施例;然而,本发明并不限于所公开的具体方法和手段。
图1为图示出可以依照本公开使用的示例口音样本集合的示图。
图2为图示出可以依照本公开使用的示例口音音频特性分析的示图。
图3为图示出可以依照本公开使用的示例口音样本集合比较的示图。
图4为图示出可以依照本公开使用的组合口音的示例音频特性的示图。
图5为图示出可以依照本公开使用的示例组合口音比较的示图。
图6为图示出可以依照本公开使用的示例口音转化架构的流程图。
图7为图示出可以依照本公开使用的第一示例口音转化的示图。
图8为图示出可以依照本公开使用的第二示例口音转化的示图。
图9为图示出可以依照本公开使用的示例口音转化过程的示图。
图10为图示出可以依照本公开使用的用于传输和提供数据的示例系统的示图。
图11为图示出可以依照本公开使用的示例计算系统的示图。
具体实施方式
本文描述了用于口音转化的技术。在一个实施例中,可以通过口音转化系统收集若干音频样本。在一个实施例中,可以从各种不同的来源收集音频样本,例如来自电话呼叫和其他话音(voice)通信会话的音频、到话音激活的计算设备的音频输入、来自记录的媒体(例如电影、电视节目、web和其他广播等等)以及其他来源的音频。收集的音频样本可以包括以各种各样的不同口音说出的语音。在一个实施例中,可以将收集的每一个音频样本分类为与多个口音样本集合中的至少一个相关联。例如,包括用德国口音说出的语音的第一音频样本可以与德国口音样本集合关联,包括用英国口音说出的语音的第二音频样本可以与英国口音样本集合关联,包括用美国(U.S.)南部口音说出的语音的第三音频样本可以与美国南部口音样本集合关联,以此类推。
在一个实施例中,口音转化系统可以使用收集的音频样本生成用于将语音从一种口音转化为另一种口音的一个或多个口音转化模型。具体地,在一个实施例中,可以生成第一口音转化模型以用于将语音从第一口语中的第一口音转化为第一口语中的第二口音。例如,第一口音转化模型可以用来将用德国口音说出的英语转化为用英国口音说出的英语。在一个实施例中,可以通过将与第一口音相应的音频样本集合中的音频样本和与第二口音相应的音频样本集合中的音频样本相比较而生成第一口音转化模型。例如,可以通过将德国口音音频样本集合中的音频样本与英国口音音频样本集合中的音频样本相比较而生成第一口音转化模型。在一个实施例中,这些不同音频样本集合相互的比较可以用来确定这些样本集合之间的各种不同的音频特性的差异,例如音高、音调、旋律、重音和其他音频特性的差异。此外,在一个实施例中,第一口音转化模型可以包括用于转化音频以使得与第一口音样本集合关联的音频特性被调节为更接近于第二口音音频样本集合的音频特性的指令。在一个实施例中,口音转化系统可以不断地和/或反复地接收新音频样本,并且使用这些新音频样本例如通过采用机器学习或者其他算法精细化技术更新和精细化口音转化模型。此外,在一个实施例中,口音转化模型的生成、更新和/或精细化可以至少部分地通过可以高效地解析和分析大量输入数据的一个或多个人工神经网络或者其他系统执行。
此外,在一个实施例中,口音转化系统可以使用收集的音频样本确定一个或多个中性和/或组合口音。具体地,在一个实施例中,可以通过以下方式确定中性口音:比较若干不同口音的音频样本集合并且例如通过跨不同样本集合计算音频特性值的平均值或加权平均值、平滑和/或归一化音频特性值或者以其他方式组合音频特性而组合它们的音频特性。在一个可替换的实施例中,各个不同的音频样本可以在被提供给口音转化系统时标识为中性音频样本,例如由人确定为具有中性口音的音频样本。因此,在一个实施例中,也可以开发口音转化模型以用于将语音从第一口音转化为一种或多种中性和/或组合口音。
在一个实施例中,口音转化模型可以用来将输入音频从第一口音转化为第二口音。例如,在一个实施例中,第一方和第二方可以彼此参与音频通信会话,例如电话呼叫。第一方和第二方可以说同一种语言,但是第一方可能用第一口音说话,而第二方用第二口音说话。在一个实施例中,口音转化系统可以确定第一方用第一口音说话并且可以例如通过应用用于将语音从第一口音转化为中性口音的对应的口音转化模型将第一方的语音从第一口音转化为中性口音。在一个实施例中,第一方可以自愿向口音转化系统表明他用第一口音说话。再者,在一个实施例中,口音转化系统可以使用与第一方关联的数据确定第一方用第一口音说话,所述数据例如电话号码、第一方使用的电话或者其他音频捕获设备的地理位置信息、与第一方关联的因特网协议(IP)地址以及其他信息。在一个可替换的实施例中,除了确定第一方用第一口音说话之外,口音转化系统也可以例如使用可以用来确定第一方的口音的任何相同或不同的技术确定第二方用第二口音说话。然后,口音转化系统可以例如通过应用用于将语音从第一口音转化为第二口音的对应的口音转化模型将第一方的语音从第一口音转化为第二口音。
图1为图示出可以依照本公开使用的示例口音样本集合的示图。如图1所示,口音转化系统130从各种不同的音频源110接收音频样本90A-90L(统称为音频样本90)。在一个实施例中,音频源110包括话音通信设备(例如电话、计算机等等)110A、话音激活的设备110B、记录的媒体110C(例如电影、电视节目、web和其他广播等等)以及其他音频源110D。在一个实施例中,音频样本90可以包括音频数据的样本,包括不同个人说出的话语(words)的音频。在一个实施例中,口音转化系统130维持若干口音样本集合131-134,每个集合与对应的口音关联。在一个具体的示例中,第一口音样本集合131可以与德国口音关联,第二口音样本集合131可以与英国口音关联,第三口音样本集合133可以与美国南部口音关联,并且第四口音样本集合134可以与美国东北部口音关联。应当指出,可以采用任意数量的不同口音集合以用于任意数量的不同口音,包括但不限于与不同社区、城市、州、地理或政治区域、国家、民族和其他人群关联的口音。
在一个实施例中,口音转化系统130包括样本分拣器140,其可以将进入的音频样本90中的每一个分拣到一个或多个样本集合131-134中。在图1的示例中,音频样本90A、90E和90I被分拣到第一口音样本集合131中,音频样本90B、90F和90J被分拣到第二口音样本集合132中,音频样本90C、90G和90K被分拣到第三口音样本集合133中,并且音频样本90D、90H和90L被分拣到第四口音样本集合134中。在一个实施例中,进入的音频样本90A-90L中的每一个可以具有各自关联的样本元数据95A-95L(统称为样本元数据95)。在一个实施例中,样本元数据95可以包括可以由样本分拣器140用来将每个进入的音频样本90分配给一个或多个适当的样本集合131-134的信息。在一个实施例中,对于从电话呼叫捕获的音频样本90,样本元数据95可以包括诸如与该呼叫关联的一个或多个电话号码、用来进行该呼叫的一个或多个电话或其他设备的地理位置信息(例如全球定位系统(GPS)坐标等等)以及与该呼叫关联的其他元数据之类的信息。例如,在一些情况下,如果在拥有具有美国南部的区域代码的电话号码的两部电话之间进行呼叫,那么可以将来自该呼叫的音频样本分配给与美国南部关联的样本集合。作为另一个示例,如果在具有美国南部的GPS坐标的两部电话之间进行呼叫,那么可以将来自该呼叫的音频样本分配给与美国南部关联的样本集合。
此外,在一个实施例中,例如当人指示话音激活的设备110B执行动作(例如播放音乐、提供天气报告、回答问题等等)时,可以从该设备捕获音频样本90,并且用于这样的音频样本90的样本元数据95可以包括例如该话音激活的设备110B的地理位置信息、设备110B注册的地址、设备110B可以被设置为用来说话的特定口音以及其他元数据。
在一个实施例中,可以采用话音识别分析以标识一个或多个音频样本90内说出的话语,并且可以至少部分地基于识别的音频样本内说出的话语将音频样本90分配给样本集合131-134。在一个实施例中,如果音频样本90包括引用或者涉及与特定口音关联的地理、社会、政治、运动、娱乐或者其他特征的话语,那么在一些情况下,可以将该音频样本90分配给与引用的口音关联的样本集合。例如,有时可以将其中提及各个不同的德国城市(例如柏林、汉堡、慕尼黑等)的音频记录分配给德国口音集合。作为另一个示例,有时可以将其中提及若干纽约职业运动队(例如洋基队、大都会队、巨人队、喷气机队等)的音频记录分配给纽约口音集合。
此外,在一个实施例中,人可以自愿地提供表明用其说出对应音频样本90的特定口音的样本元数据95。例如,当两个人参与从其获得音频样本90的电话呼叫时,这些人类参与者可以自愿地提供标识其各自口音的信息。此外,向话音激活的设备110B提供命令的人也可以自愿地提供标识其各自口音的信息。在一些示例中,可以给人提供补偿或其他报酬或激励以向口音转化系统130提供音频样本和/或自愿地标识其各自的口音。
在一个实施例中,样本分拣器140也可以使用样本元数据95将置信度值分配给每个音频样本90。该置信度值可以表示音频样本90包括带有说话口音的音频的置信度,该说话口音与音频样本90所分配的样本集合对应的口音实质上相关。在一个实施例中,可以给由人标识为包括带有特定口音的语音的音频样本90分配最高置信度值。此外,在一个实施例中,可以为诸如电话号码的区域代码、电话和设备的GPS坐标、话音识别分析和其他元数据之类的其他类型的样本元数据95分配置信度值。
参照图2,现在将详细地描述一种示例口音音频特性分析。具体地,在一个实施例中,可以分析口音样本集合131-134中的每一个中的音频样本90以标识与各自口音关联的各种不同的音频特性。具体地,如图2所示,第一口音音频特性200A与第一口音样本集合131有关,第二口音音频特性200B与第二口音样本集合132有关,第三口音音频特性200C与第三口音样本集合133有关,并且第四口音音频特性200D与第四口音样本集合134有关。音频特性200A-200D中的每一个包括各自的音高特性201A-D、音调特性202A-D、重音特性203A-D、旋律特性204A-D和其他音频特性205A-D。应当指出,上面的音频特性为非限制性示例,并且可以分析样本集合131-134中的任意或全部集合以获得任意数量的上述或其他音频特性。
在一个实施例中,音频样本90的音频特性可以通过对音频样本90执行快速傅立叶变换(FFT)和/或其他变换并且然后分析FFT或者其他变换的输出而确定。此外,在一个实施例中,FFT或者其他变换的输出的分析可以包括确定音频样本90的与时间有关的频率和幅度,例如可以使用频谱图、声纹或者其他表示进行表示。此外,在一个实施例中,FFT输出可以用来生成梅尔频率倒谱系数(MFCC)或者声功率谱的其他表示,其也可以用来确定音频样本90的音频特性。
在一个实施例中,口音的音频特性可以通过组合分配给对应样本集合的音频样本的音频特性而确定。具体地,在一个实施例中,可以对对应样本集合中的音频样本的音频特性的属性进行平均以便产生该口音的总体音频特性。在一个可替换的实施例中,可以例如基于音频样本90的置信度值计算音频特性的属性的加权平均值。具体地,在一个实施例中,来自具有较高置信度值(例如,样本包括带有分配的口音的语音的较高置信度)的音频样本90的音频特性的属性权重可以比来自具有较低置信度值(例如,样本包括带有分配的口音的语音的较低置信度)的音频样本90的音频特性的属性权重更大。此外,在一个实施例中,可以采用各种不同的数据平滑和/或归一化技术,例如,忽视(discount)错误的或者位于确定的阈值或与其他数据样本的关系之外的音频特性属性,或者给这些属性分配较低的权重。
参照图3,现在将详细地描述一种示例口音样本集合比较。具体地,在一个实施例中,可以将与不同口音相应的不同音频样本集合相互比较,以便生成用于在这些不同口音之间转化语音的转化模型。在一个实施例中,不同音频样本集合的比较可以包括每种口音的不同音频特性相互比较。具体地,如图3所示,将第一口音样本集合131与第二口音样本集合相比较以便生成口音转化模型321和322。具体地,口音转化模型321为用于将语音从第一口音转化为第二口音的模型,而口音转化模型322为用于将语音从第二口音转化为第一口音的模型。例如,在其中第一口音为德国口音并且第二口音为英国口音的情况下,口音转化模型321可以实现从德国口音到英国口音的转化,而口音转化模型322可以实现从英国口音到德国口音的转化。
在一个实施例中,样本集合131和132的比较可以包括其各自的音频特性200A和200B的比较。例如,在一个实施例中,可以比较音频特性200A和200B以确定第一口音音高201A如何不同于第二口音音高201B,第一口音音调202A如何不同于第二口音音调202B,第一口音重音203A如何不同于第二口音重音203B,第一口音旋律204A如何不同于第二口音旋律204B,等等。
在一个实施例中,口音转化模型321于是可以包含用于调节音频特性200A以使得它们更接近于音频特性200B的指令。例如,在一个实施例中,口音转化模型321可以包括用于调节第一口音音高201A以更接近于第二口音音高201B、调节第一口音音调202A以更接近于第二口音音调202B、调节第一口音重音203A以更接近于第二口音重音203B、调节第一口音旋律204A以更接近于第二口音旋律204B等等的指令。在一个实施例中,这些指令可以包括用于在不同时间相对于语音的特定部分调节不同频率的幅度的指令。例如,考虑其中第一口音倾向于在话音结尾采用较高音高,而第二口音倾向于在话语开头采用较高音高的情景。在该情景中,口音转化模型321可以包括在接近启动或恢复语音的时间将声音移到较高频率并且在接近停止或暂停语音的时间将声音移到较低频率的指令。作为另一个示例,考虑其中第一口音倾向于强调话语的开头,而第二口音倾向于强调话语的结尾的情景。在该情景中,口音转化模型321可以包括在接近启动或恢复语音的时间移动减小幅度并且在接近停止或暂停语音的时间增大幅度的指令。
在一个实施例中,可以对样本集合131和132中的音频样本执行话音识别分析,以便分别为第一和第二口音确定各种不同的字母、音素、单词和其他语音单元的音频特性。例如,可以确定具有第一口音的说话者倾向于用较高音高说特定音素,而具有第二口音的说话者倾向于用较低音高说该相同的音素。在一些示例中,口音转化模型321可以包括无论何时检测到该特定音素都降低音高的指令。作为又一个示例,可以确定具有第二口音的说话者倾向于重读特定的字母组合,而具有第一口音的说话者不重读该字母组合。在一些示例中,口音转化模型321可以包括增大幅度或者以其他方式造成对该特定字母组合的重读的指令。
在一个实施例中,口音转化系统130可以确定中性口音的各种不同的音频特性。在一个实施例中,中性口音可以是两种或者更多其他口音的组合,并且在一些情况下,可以是口音转化系统130针对其维持口音样本集合的每个不同口音的组合。参照图4,现在将详细地描述一种组合口音的示例音频特性。具体地,如图4所示,针对组合(例如中性)口音确定音频特性200N。在图4的示例中,组合口音音频特性200N包括音高特性201N、音调特性202N、重音特性203N、旋律特性204N和其他特性205N。在一个实施例中,组合口音音频特性200N可以通过组合音频特性200A-D而确定,例如通过计算音频特性200A-D的属性的平均值而确定。在一个实施例中,可以使用音频特性200A-D的加权平均值,例如以便有意地创建与其他来源口音相比更接近于某些来源口音的组合口音。例如,如果用户希望生成与德国口音相比更接近于英国口音的组合口音,那么这可以通过给英国口音音频特性分配比德国口音音频特性更重的权值而实现。
在一个可替换的实施例中,可以使用不同的技术确定中性口音的音频特性。例如,在一些情况下,人可以将各种不同的音频样本指定为具有中性口音,并且这些音频样本可以被分配给中性口音音频样本集合且被分析以确定中性口音音频特性。
现在,参照图5,图示出一个实施例,其中将第一口音音频特性200A与组合口音音频特性200N相比较以便生成口音转化模型521和522。具体地,口音转化模型521为用于将语音从第一口音转化为组合口音的模型,而口音转化模型522为用于将语音从组合口音转化为第一口音的模型。在一个实施例中,可以使用上文例如关于图3的转化模型321和322详细地描述的各种不同的转化模型生成技术中的任何或者全部技术生成口音模型521和522。
在一个实施例中,口音转化系统130包括一种或多种人工神经网络,例如可以高效地解析和分析大量输入数据的长短期记忆(LSTM)架构或其他系统。在一个实施例中,口音转化系统130可以不断地和/或反复地接收新音频样本,并且使用这些新音频样本例如通过采用机器学习或者其他关联的技术更新和精细化口音转化模型。
参照图6,现在将详细地描述一种示例口音转化架构。具体地,在一个实施例中,第一方和第二方可以参与例如第一设备611和第二方设备612之间的音频通信会话601。在一个实施例中,音频通信会话601可以是电话呼叫,并且设备611和612可以是电话和/或支持电话的计算设备。音频通信会话601不限于电话呼叫,并且可以包括其他类型的音频通信,例如互联网语音协议(VoIP)以及其他话音和/或音频传输协议,例如用于通过电话或蜂窝网络、局域网(LAN)和/或诸如因特网之类的广域网(WAN)传输数据。在不同的可替换实施例中,本文描述的口音转化技术可以用在其他情景中,例如向听众转化现场演讲者或主持人的口音,在播放现场直播或者录制的媒体内容(例如音乐、电影、电视节目等等)期间转化口音,转化计算机生成的语音的口音,并且用在许多其他情景中。
在图6所示的实施例中,第一方设备611内的口音转化部件622被采用来将第一方说出的语音从第一口音转化为第二口音。具体地,第一方说出的语音可以由诸如麦克风之类的音频捕获部件621捕获。接着,可以将该捕获的语音作为输入音频631提供给口音转化部件622。接着,口音转化部件622可以将输入音频631从第一口音转化为第二口音的输出音频632。输入音频631和输出音频632可以彼此保持相同的语言。应当指出,不要求口音转化部件622必须包括在第一方设备611上。例如,在一个可替换的实施例中,口音转化部件可以位于第二方设备612上或者位于相对于设备611和/或612可以在本地和/或远处的一个或多个其他设备上。
在一个实施例中,口音转化部件622可以接收并且使用口音确定信息651,例如以便确定第一方说的第一口音。在一个实施例中,第一方和/或第二方可以例如通过从可用口音列表中手动选择第一口音或者经由其他用户输入来提供指示第一方的口音的用户输入。再者,在一个实施例中,第一方设备611的电话号码和/或区域代码(和/或第一方设备611的互联网协议(IP)或其他地址)可以用来确定第一方的口音。例如,如果第一方设备611具有对应于德国的电话号码或区域代码,那么这可以指示第一方用德国口音说话。此外,在一个实施例中,第一方设备611的地理位置(例如全球定位系统(GPS))信息可以用来确定第一方的口音。例如,如果第一方设备611具有与德国某个位置对应的GPS坐标,那么这可以指示第一方用德国口音说话。
此外,在一个实施例中,第一方的音频通信的音频特性分析可以用来确定第一方的口音,例如来自音频通信会话601的音频通信(包括输入音频631)和/或第一方的现有音频通信。例如,在一些情况下,可以例如使用上面描述的任何音频特性分析技术(例如快速傅立叶变换(FFT)、梅尔频率倒谱系数(MFCC)等等)分析来自第一方的音频通信以获得第一方的口音的音频特性(例如音高、音调、重音、旋律等等)。然后,可以将第一方的口音的音频特性与各种不同的口音样本集合的音频特性(例如图2的口音样本集合131-134的音频特性200A-D)相比较以确定一口音集合以及第一方的口音与其实质上相关的口音。
此外,在一个实施例中,第一方的音频通信的话音识别分析可以用来确定第一方的口音,例如来自音频通信会话601的音频通信和/或第一方的现有音频通信。例如,如果第一方的通信包括引用或者涉及与特定口音关联的地理、社会、政治、运动、娱乐或者其他特征的话语,那么这可以指示第一方用该口音说话。例如,其中提及各个不同德国城市的通信可以指示第一方用德国口音说话。
在一个实施例中,除了确定第一方说的第一口音之外或者作为其替代,口音确定信息651也可以用来确定要将输出音频632转化成的第二口音。在一个实施例中,第一方和/或第二方可以例如通过从可用口音列表中手动选择第二口音或者经由其他用户输入提供指示第二口音的用户输入。此外,在一个实施例中,口音确定信息651可以用来确定第二方很可能说的口音,并且该口音然后可以用作将第一方的语音转化成的第二口音。相应地,在一个实施例中,第二口音可以基于可以指示第二方的口音的、与第二方设备612关联的上面描述的或者其他设备信息(例如电话号码、区域代码、IP地址、GPS信息等等)而确定。此外,在一个实施例中,第二口音可以例如使用诸如关于从第一方的音频通信确定第一口音所描述的那些技术之类的技术基于来自第二方的音频通信的音频特性分析和/或话音识别分析而确定。
在一个实施例中,一确定输入音频631中说的第一口音以及要将输出音频632转化成的第二口音,口音转化部件622就可以选择用于将输入音频631的第一口音转化为输出音频632的第二口音的适当的口音转化模型641。在一个实施例中,口音转化模型641可以用来将输入音频631的诸如音高、音调、重音、旋律等等之类的音频特性从与第一口音相应的音频特性调节为更接近于第二口音音频特性的音频特性。在一个实施例中,输入音频631的音频特性的调节可以通过以下方式执行:计算输入音频631的快速傅立叶变换(FFT)、梅尔频率倒谱系数(MFCC)和/或其他变换并且至少部分地基于所示口音转化模型与计算的变换的输出的比较调节输入音频部分的音频特性。例如,在一个实施例中,计算的变换的输出可以用来确定是否以及在何种程度上调节输入音频部分的各个不同的部分。在一个实施例中,输入音频部分的可能更接近于第二口音的某些部分与输入音频部分的可能不那么接近于第二口音并且可能需要更多实质性调节的其他部分相比可能需要更少的(如果有的话)调节。
在一个实施例中,口音转化部件622可以对输入音频631执行话音识别分析以标识输入音频631内的各种不同的字母、音素、单词和其他语音单元。在一个实施例中,口音转化模型641可以包括用于为其中标识了各种不同的特定字母、音素、单词和其他语音单元的输入音频部分调节音频特性的具体指令。例如,可以确定具有第一口音的说话者倾向于用较高音高说特定音素,而具有第二口音的说话者倾向于用较低音高说该相同的音素。在一些示例中,口音转化模型641可以包括无论何时检测到该特定音素都降低音高的指令。
在一个实施例中,用于该转化的口音转化模型641可以选自通过图1的口音转化系统130确定的一组口音转化模型。具体地,图7描绘了用德国口音说出的输入音频631被转化为输出音频632中的英国口音的一个示例。此外,在图7所示的实施例中,口音转化部件622选择了德国口音到英国口音转化模型741C以用于将输入音频631转化为输出音频632。此外,在图7所示的实施例中,口音转化部件622从包括口音转化模型741A-N的一系列可用口音转化模型741中选择了德国口音到英国口音转化模型741C。
如上文所阐述的,在一个实施例中,用第一口音说出的输入音频可以转化为中性口音,例如两种或更多其他口音的组合。图8描绘了其中用德国口音说出的输入音频631被转化为输出音频632中的中性口音的一个示例。此外,在图8所示的实施例中,口音转化部件622选择了德国口音到中性口音转化模型841C以用于将输入音频631转化为输出音频632。此外,在图8所示的实施例中,口音转化部件622从包括口音转化模型841A-N的一系列可用口音转化模型841中选择了德国口音到中性口音转化模型841C。
应当指出,尽管图6-8描绘了对第一方说出的语音中的口音的转化,但是本文描述的口音转化技术也可以以类似的方式用来转化第二方说出的语音中的口音。而且,应当进一步指出,这些口音转化技术也可以用在电话呼叫或者其他涉及超过两方的音频通信会话中。例如,第一方说出的语音可以例如并行地或者部分并行地转化为与连接到音频通信会话的多个不同其他方关联的多种不同口音。
图9为图示出可以依照本公开使用的示例口音转化过程的示图。在操作910处,例如通过图1的口音转化系统130接收诸如图1的音频样本90之类的音频样本。在一个实施例中,可以从各种各样的音频来源收集这些音频样本,例如从话音通信设备(例如电话、计算机等等)、话音激活的设备、记录的媒体(例如电影、电视节目、web和其他广播等等)以及其他音频来源收集这些音频样本。在一个实施例中,这些音频样本可以包括音频数据的样本,包括不同个人说出的话语的音频。
在操作912处,将所述音频样本中的每一个与多种口音中的至少一种关联。在一个实施例中,口音转化系统可以维持若干口音样本集合,每个集合与对应的口音关联。此外,在一个实施例中,口音转化系统可以将进入的音频样本中的每一个分拣到一个或多个样本集合中。此外,在一个实施例中,这些音频样本中的每一个可以具有各自关联的样本元数据,所述样本元数据可以包括用于将每个音频样本分配给一个或多个适当的样本集合的信息。例如,样本元数据可以包括诸如与对应音频样本关联的一个或多个电话号码、与对应音频样本关联的地理位置信息(例如GPS坐标等等)、对应音频样本内说出的话语的话音识别分析和/或指示、指示说出对应音频样本的特定口音的用户输入之类的信息以及其他信息。
在操作914处,将与所述多种口音中的至少第一口音关联的音频样本和与所述多种口音中的至少一种其他口音关联的音频样本相比较。在一个实施例中,操作912处音频样本的比较可以包括确定与所述多种口音中的每一种口音关联的各种不同的音频特性,例如音高、音调、重音、旋律和其他音频特性。操作912处音频样本的比较也可以包括将至少第一口音的音频特性与所述至少一种其他口音的音频特性相比较。在一个实施例中,可以至少部分地基于分配给对应样本集合或者以其他方式与口音关联的音频样本的音频特性确定该口音的音频特性。在一个实施例中,音频样本的音频特性可以通过执行快速傅立叶变换(FFT)、生成梅尔频率倒谱系数(MFCC)和/或执行其他变换并且然后分析那些变换的输出而确定。
在操作916处,生成第一口音与第二口音之间的转化模型。在一个实施例中,第一口音和/或第二口音可以包括中性口音、一种或多种其他口音的修改和/或两种或更多其他口音的组合。在一个实施例中,可以至少部分地通过一种或多种人工神经网络确定口音转化模型。此外,在一个实施例中,可以至少部分地基于与至少第一口音关联的音频样本和/或音频特性和与诸如第二口音和/或可以从其导出第二口音的口音之类的至少一种其他口音关联的音频样本和/或音频特性的比较生成转化模型。在一个实施例中,口音转化模型可以包含用于调节第一口音的音频特性以使得它们更接近于第二口音的音频特性的指令。例如,在一个实施例中,口音转化模型可以包括用于调节第一口音音高、音调、重音、旋律和/或其他音频特性以更接近于第二口音音高、音调、重音、旋律和/或其他音频特性的指令。
在操作918处,接收第一口语的输入音频部分。在一个实施例中,音频输入可以包括在第一方与第二方之间的音频通信会话(例如电话呼叫、VoIP会话等等)期间由第一方说出的音频。在一个实施例中,输入音频部分可以由音频捕获设备(例如麦克风)捕获,并且然后由诸如图6的口音转化部件之类的口音转化部件接收。
在操作920处,确定音频输入部分实质上与第一口音关联。在一个实施例中,口音转化部件622可以首先尝试确定音频输入部分是否实质上与第一口音关联。如果是,那么该过程可以继续到操作922。如果否,那么口音转化部件622可以评估其他口音,直到确定了输入音频部分实质上与其关联的口音或者以其他方式选择了音频输入部分的口音。在一个实施例中,可以至少部分地基于图1的口音确定信息651确定输入音频部分实质上与其关联的口音,所述信息例如与捕获输入音频部分的电话或其他设备关联的电话号码、地理位置信息(例如GPS坐标等)或者其他信息,来自第一方的音频通信的音频特性和/或话音识别分析,指示输入音频部分实质上与其关联的口音的用户输入,以及其他信息。例如,在一个实施例中,可以通过至少部分地将输入音频部分(和/或其他第一方通信)的一种或多种音频特性和与第一口音关联的音频样本的一种或多种音频特性匹配而将输入音频部分确定为实质上与第一口音关联。此外,在一个实施例中,可以计算与音频输入部分和/或其他第一方通信关联的快速傅立叶变换(FFT)、梅尔频率倒谱系数(MFCC)和/或其他变换,以标识音频输入部分和/或其他第一方通信的一种或多种音频特性。
此外,在一个实施例中,也可以至少部分地基于图1的口音确定信息651确定要将输入音频部分转化成的口音(例如第二口音),所述信息例如和与第二方关联的电话或其他设备相关的电话号码、地理位置信息(例如GPS坐标等)或者其他信息,来自第二方的音频通信的音频特性和/或话音识别分析,指示第二方说出的口音的用户输入,以及其他信息。例如,在一个实施例中,确定将输入音频部分转化为第二口音可以基于至少部分地将第二方通信的一种或多种音频特性和与第二口音关联的音频样本的一种或多种音频特性匹配。
在操作922处,至少部分地基于口音转化模型输出第一口语(即与输入音频部分相同的口语)的实质上与第二口音关联的输出音频部分。在一个实施例中,可以在第一方与第二方之间的音频通信会话期间向第二方播放该输出音频部分。在一个实施例中,操作922处执行的输出可以包括调节所述输入音频部分的至少一部分的音高、音调、重音、旋律或者其他音频特性中的至少一个。具体地,口音转化模型可以用来将输入音频的音频特性从与第一口音相应的音频特性调节为更接近于第二口音音频特性的音频特性。在一个实施例中,调节输入音频部分的音频特性可以通过以下方式执行:计算输入音频部分的快速傅立叶变换(FFT)、梅尔频率倒谱系数(MFCC)和/或其他变换并且至少部分地基于口音转化模型和计算的变换的输出的比较调节输入音频部分的音频特性。例如,在一个实施例中,计算的变换的输出可以用来确定是否以及在何种程度上调节输入音频部分的各个不同的部分。此外,输出音频部分的输出可以包括对输入音频部分执行话音识别分析以标识输入音频部分内的各种不同的字母、音素、单词和其他语音单元。在一个实施例中,口音转化模型可以包括用于为其中标识了各种不同的特定字母、音素、单词和其他语音单元的输入音频的部分调节音频特性的具体指令。
现在,将详细地描述一种用于传输和提供数据的示例系统。具体地,图10图示出其中可以实现本文描述的实施例的一个示例计算环境。图10为示意性地图示出可以经由用户计算机72a和72b(其在这里可以以单数称为单计算机72或者以复数称为多计算机72)经由通信网络73向用户70a和70b(其在这里可以以单数称为单用户70或者以复数称为多用户70)提供计算资源的数据中心85的一个示例的示图。数据中心85可以被配置为在永久或者按需的基础上提供用于执行应用程序的计算资源。数据中心85提供的计算资源可以包括各种不同类型的资源,例如网关资源、负载平衡资源、路由资源、联网资源、计算资源、易失性和非易失性内存资源、内容交付资源、数据处理资源、数据存储资源、数据通信资源等等。每种类型的计算资源可以在若干具体配置中可用。例如,数据处理资源可以作为可以被配置为提供各种不同的web服务的虚拟机实例而可用。此外,可以经由网络使得资源的组合可用,并且其可以被配置为一种或多种web服务。所述实例可以被配置为执行应用程序,包括web服务,例如应用服务、媒体服务、数据库服务、处理服务、网关服务、存储服务、路由服务、安全服务、加密服务、负载平衡服务、应用服务等等。这些服务可以利用设定的或者自定义应用程序进行配置,并且可以在大小、执行、成本、延迟、类型、持续时间、可访问性以及在任何其他维度上进行配置。这些web服务可以被配置为用于一个或多个客户端的可用基础结构,并且可以包括被配置为用于一个或多个客户端的平台或软件的一个或多个应用程序。可以经由一种或多种通信协议使得这些web服务可用。这些通信协议可以包括例如超文本传输协议(HTTP)或者非HTTP协议。这些通信协议也可以包括例如诸如传输控制协议(TCP)之类的更可靠的传输层协议以及诸如用户数据报协议(UDP)之类的不那么可靠的传输层协议。数据存储资源可以包括文件存储设备、块存储设备等等。
每种类型或配置的计算资源可以以不同的大小提供,例如大资源——由许多处理器、大量内存和/或大存储容量组成,以及小资源——由较少处理器、较小的内存和/或较小的存储容量组成。顾客可以选择例如将若干小处理资源分配为web服务器,和/或一个大处理资源分配为数据库服务器。
数据中心85可以包括提供计算资源的服务器76a和76b(其在这里可以以单数称为单服务器76或者以复数称为多服务器76)。这些资源可以作为裸机金属资源或者作为虚拟机实例78a-d(其在这里可以以单数称为单虚拟机实例78或者以复数称为多虚拟机实例78)而可用。
用于计算硬件的虚拟化技术的可用性带来了为顾客提供大规模计算资源以及允许在多个顾客之间高效且安全地共享计算资源的益处。例如,虚拟化技术可以通过向每个用户提供由物理计算设备托管的一个或多个虚拟机实例而允许在多个用户之间共享该物理计算设备。虚拟机实例可以是充当独特逻辑计算系统的特定物理计算系统的软件仿真。这样的虚拟机实例在共享给定物理计算资源的多个操作系统之间提供了隔离。此外,一些虚拟化技术可以提供跨越一个或多个物理资源的虚拟资源,例如具有跨越多个不同物理计算系统的多个虚拟处理器的单个虚拟机实例。
参照图10,通信网络73可以例如为链接网络的可公开访问的网络,并且可能地由不同的多方操作,例如因特网。在其他实施例中,通信网络73可以为私有网络或专用网络,例如全部或者部分对非特权用户不可访问的企业或大学网络。在另外的其他实施例中,通信网络73可以包括一种或多种可访问因特网和/或从因特网访问的私有网络或专用网络。
通信网络73可以提供对计算机72的访问。用户计算机72可以是由用户70或者数据中心85的其他顾客利用的计算机。例如,用户计算机72a或72b可以是服务器、台式或者膝上型个人计算机、平板计算机、无线电话、个人数字助理(PDA)、电子书阅读器、游戏控制台、机顶盒或者能够访问数据中心85的任何其他计算设备。用户计算机72a或72b可以直接连接到因特网(例如经由线缆调制解调器或者数字用户线(DSL))。尽管仅仅描述了两个用户计算机72a和72b,但是应当领会,可以存在多个用户计算机。
用户计算机72也可以被利用来配置数据中心85提供的计算资源的方面。在这个方面,数据中心85可以提供网关或web接口,它的操作的方面可以通过使用用户计算机72上执行的web浏览器应用程序通过所述网关或web接口进行配置。可替换地,用户计算机72上执行的独立应用程序可以访问数据中心85公开的应用程序编程接口(API)以执行配置操作。也可以利用用于配置数据中心85处可用的各种不同web服务的操作的其他机制。
图10所示的服务器76可以为被适当地配置用于提供上面描述的计算资源的服务器,并且可以提供用于执行一种或多种web服务和/或应用程序的计算资源。在一个实施例中,计算资源可以是虚拟机实例78。在虚拟机实例的示例中,服务器76中的每一个可以被配置为执行能够执行虚拟机实例78的实例管理器80a或80b(其在这里可以以单数称为单实例管理器80或者以复数称为多实例管理器80)。实例管理器80可以为虚拟机监视器(VMM)或者被配置为例如允许在服务器76上实现虚拟机实例78的执行的另一种类型的程序。如上文所讨论的,虚拟机实例78中的每一个都可以被配置为执行应用程序的全部或部分。
应当领会,尽管上文公开的实施例讨论了虚拟机实例的情境,但是其他类型的实现方式可以与本文公开的概念和技术一起利用。例如,本文公开的实施例也可以与不利用虚拟机实例的计算系统一起利用。
在图10所示的示例数据中心85中,可以利用路由器71互连服务器76a和76b。路由器71也可以连接到网关74,该网关连接到通信网络73。路由器71可以连接到一个或多个负载平衡器,并且可以例如通过以下方式单独地或者组合地管理数据中心85的网络内的通信:基于分组或其他数据通信的特性(例如包括源和/或目的地地址、协议标识符、大小、处理要求等等的头信息)和/或私有网络的特性(例如基于网络拓扑的路由等等)适当地转发这样的分组或其他数据通信。应当领会,为了简单起见,在没有示出某些常规细节的情况下图示出该示例的计算系统和其他设备的各个不同的方面。附加的计算系统和其他设备在其他实施例中可以互连并且可以以不同的方式互连。
在图10所示的示例数据中心85中,服务器管理器75也被采用来至少部分地向服务器76a和76b引导不同的通信、从服务器76a和76b引导不同的通信和/或在服务器76a和76b之间引导不同的通信。尽管图10描绘了位于网关74与服务器管理器75之间的路由器71,但是这仅仅是一种示例性配置。在一些情况下,例如,服务器管理器75可以置于网关74与路由器71之间。在一些情况下,服务器管理器75可以检查从用户计算机72进入的通信的部分,以便确定接收和/或处理进入的通信的一个或多个适当的服务器76。服务器管理器75可以基于诸如与用户计算机72关联的身份、位置或者其他属性,所述通信与之关联的任务的性质,所述通信与之关联的任务的优先级,所述通信与之关联的任务的持续时间,所述通信与之关联的任务的大小和/或估计的资源使用情况之类的因素以及许多其他因素确定接收和/或处理进入的通信的适当的服务器。服务器管理器75可以例如收集或者以其他方式访问与各种不同的任务关联的状态信息和其他信息以便例如帮助管理与这样的任务关联的通信和其他操作。
应当领会,图10所示的网络拓扑大大简化了,并且可以利用多得多的网络和联网设备以互连本文公开的各种不同的计算系统。这些网络拓扑和设备对于本领域技术人员来说应当是显而易见的。
也应当领会,图10中描述的数据中心85仅仅是说明性的,并且可以利用其他实现方式。也应当领会,服务器、网关或者其他计算设备可以包括可以交互并且执行所描述类型的功能的硬件或软件的任意组合,包括但不限于:台式或其他计算机、数据库服务器、网络存储设备和其他网络设备、PDA、平板计算机、蜂窝电话、无线电话、寻呼机、电子组织器、因特网器具、基于电视的系统(例如使用机顶盒和/或个人/数字视频记录器)以及包括适当通信能力的各种不同的其他消费产品。
在至少一些实施例中,实现本文描述的一种或多种技术的部分或全部的服务器可以包括计算机系统,其包括或者被配置为访问一个或多个计算机可访问介质。图11描绘了一种包括或者被配置为访问一个或多个计算机可访问介质的计算机系统。在所示的实施例中,计算设备15包括经由输入/输出(I/O)接口30耦合到系统存储器20的一个或多个处理器10a、10b和/或10n(其在这里可以以单数称为“单处理器10”或者以复数称为“多处理器10”)。计算设备15进一步包括耦合到I/O接口30的网络接口40。
在各个不同的实施例中,计算设备15可以为包括一个处理器10的单处理器系统或者包括几个处理器10(例如两个、四个、八个或者另一适当的数量)的多处理器系统。处理器10可以为能够执行指令的任何适当的处理器。例如,在各个不同的实施例中,处理器10可以为实现各种各样的指令集架构(ISA)中的任何架构的嵌入式处理器,所述架构例如x86、PowerPC、SPARC或MIPS ISA或者任何其他适当的ISA。在多处理器系统中,处理器10中的每一个可以通常但是不一定实现相同的ISA。
系统存储器20可以被配置为存储可由处理器(一个或多个)10访问的指令和数据。在各个不同的实施例中,系统存储器20可以使用任何适当的存储技术来实现,例如静态随机存取存储器(SRAM)、同步动态RAM(SDRAM)、非易失性/型存储器或者任何其他类型的存储器。在所示的实施例中,实现一种或多种希望的功能的程序指令和数据,例如上文描述的那些方法、技术和数据,被示为作为代码25和数据26存储在系统存储器20内。
在一个实施例中,I/O接口30可以被配置为协调设备中的处理器10、系统存储器20和任何外设之间的I/O流量,外设包括网络接口40或其他外围接口。在一些实施例中,I/O接口30可以执行任何必要的协议、定时或其他数据变换以便将来自一个部件(例如系统存储器20)的数据信号转换为适合另一个部件(例如处理器10)使用的格式。在一些实施例中,I/O接口30可以包括通过各种不同类型的外围总线附接的设备的支撑,所述外围总线诸如例如外围组件互连(PCI)总线标准或者通用串行总线(USB)标准的变体。在一些实施例中,I/O接口30的功能可以分裂成两个或更多单独的部件,诸如例如北桥和南桥。再者,在一些实施例中,I/O接口30功能的一些或全部,例如到系统存储器20的接口,可以直接合并到处理器10中。
网络接口40可以被配置为允许在计算设备15与诸如例如其他计算机系统或设备之类的、附接到一个或多个网络50的一个或多个其他设备60之间交换数据。在各个不同的实施例中,网络接口40可以支持经由诸如例如各类型的以太网网络之类的任何适当的有线或无线通用数据网络进行通信。此外,网络接口40可以支持经由诸如模拟话音网络或者数字光纤通信网络之类的电信/电话网络,经由诸如光纤信道SAN(存储区域网络)之类的存储区域网络,或者经由任何其他适当类型的网络和/或协议进行通信。
在一些实施例中,系统存储器20可以是被配置为存储上面描述的用于实现相应方法和装置的实施例的程序指令和数据的计算机可访问介质的一个实施例。然而,在其他实施例中,可以在不同类型的计算机可访问介质上接收、发送或存储程序指令和/或数据。一般来说,计算机可访问介质可以包括经由I/O接口30耦合到计算设备15的非暂时性存储介质或存储器介质,例如磁性或光学介质——例如盘或DVD/CD。非暂时性计算机可访问存储介质也可以包括可以作为系统存储器20或者另一种类型的存储器包括在计算设备15的一些实施例中的任何易失性或非易失性介质,例如RAM(例如SDRAM、DDR SDRAM、RDRAM、SRAM等等)、ROM(只读存储器)等等。此外,计算机可访问介质可以包括经由诸如网络之类的通信介质和/或诸如可以经由网络接口40实现的那些链接之类的无线链接传递的传输介质或信号,例如电的、电磁的或者数字的信号。
由诸如公司或公共部门组织之类的实体建立的、将可经由因特网和/或其他网络访问的一种或多种web服务(例如各种不同类型的基于云的计算或存储)提供给分布式客户端集合的网络可以称为提供商网络。这样的提供商网络可以包括许多数据中心,其托管实现和分布提供商网络提供的基础结构和web服务所需的各种不同的资源池,例如物理和/或虚拟化计算机服务器、存储设备、联网装备等等的集合。在一些实施例中,可以在与web服务有关的各种单元中向客户端提供这些资源,例如用于存储的存储容量、用于处理的处理能力,作为实例,作为有关服务的集合,等等。虚拟计算实例可以例如包括具有指定的计算能力(其可以通过指示CPU的类型和数量、主存大小等等而指定)和指定的软件堆栈(例如操作系统的特定版本,其进而可以在管理程序的顶部运行)的一个或多个服务器。
也可以称为计算用节点的计算节点可以在诸如商品硬件计算机、虚拟机、web服务、计算集群和计算器具之类的各种各样的计算环境上实现。为了方便起见,任何这些计算设备或环境可以描述为计算节点。
在不同的实施例中,可以单独地或者组合地使用若干不同类型的计算设备以便实现提供商网络的资源,例如计算机服务器、存储设备、网络设备等等。在一些实施例中,可以例如通过给予用户管理员登录名和密码而向客户端或用户提供对资源实例的直接访问。在其他实施例中,提供商网络运营商可以允许客户端指定对于指定的客户端应用程序的执行要求,并且在例如不要求客户端直接访问实例或执行平台的情况下在适合于该应用程序的执行平台(例如应用服务器实例,JavaTM虚拟机(JVM),通用或专用操作系统,支持诸如Ruby、Perl、Python、C、C++等等之类的各种不同的解释的或编译的编程语言的平台,或者高性能计算平台)上代表客户端安排这些应用程序的执行。在一些实现方式中,给定执行平台可以利用一个或多个资源实例;在其他实现方式中,可以将多个执行平台映射到单个资源实例。
在许多环境中,实现不同类型的虚拟化计算、存储和/或其他网络可访问功能的提供商网络的运营商可以允许顾客在各种资源获取模式下保留或者购买对资源的访问权。计算资源提供商可以提供供顾客选择和启动希望的计算资源、将应用程序组件部署到计算资源并且维护在环境中执行的应用程序的设施。此外,计算资源提供商可以在对于应用程序的需求或者能力要求变化时,提供供顾客手动地或者通过自动缩放快速且容易地扩大或者缩小分配给该应用程序的资源的数量和类型的另外的设施。可以在可以称为实例的分立的单元中使得计算资源提供商提供的计算资源可用。实例可以表示物理服务器硬件平台、在服务器上执行的虚拟机实例或者这二者的某种组合。可以使得各种不同类型和配置的实例可用,包括执行不同操作系统(OS)和/或管理程序以及具有各种不同的安装的软件应用程序、运行时等等的不同大小的资源。实例可以进一步在表示例如逻辑区域、容错区域、数据中心或者底层计算硬件的其他地理位置的特定可用性区带(zone)中可用。实例可以在可用性区带内或者跨可用性区带拷贝以便改善实例的冗余,并且实例可以在特定可用性区带内或者跨可用性区带迁移。作为一个示例,可用性区带中客户端与特定服务器的通信的延迟可以小于客户端与不同服务器的通信的延迟。这样,实例可以从较高延迟服务器迁移到较低延迟服务器以便改善总体客户端体验。
在一些实施例中,可以将提供商网络组织到多个地理区域中,并且每个区域可以包括一个或多个可用性区带。可用性区带(其也可以称为可用性容器)反过来可以包括一个或多个不同的位置或数据中心,其以这样的方式配置,使得给定可用性区带内的资源可以与其他可用性区带中的故障隔离或绝缘。也就是说,不期望一个可用性区带中的故障可以导致任何其他可用性区带中的故障。因此,资源实例的可用性简档预期独立于不同可用性区带中的资源实例的可用性简档。客户端可能能够通过在各可用性区带中启动多个应用程序实例而保护其应用程序不受单个位置处的故障的影响。同时,在一些实现方式中,可以在驻留于相同地理区域内的资源实例之间提供廉价且低延迟的网络连接(并且相同可用性区带的资源之间的网络传输可以甚至更快)。
如上面所阐述的,内容可以由内容提供商提供给一个或多个客户端。当在本文使用时,术语内容指的是任何可呈现的信息,并且当在本文使用时,术语内容项指的是任何这样的可呈现信息的任何集合。内容提供商可以例如提供用于向客户端提供内容的一个或多个内容提供服务。内容提供服务可以驻留在一个或多个服务器上。内容提供服务可以是可扩展的以满足一个或多个顾客的需求,并且可以基于进入的客户端请求的数量和类型提高或降低能力或容量。也可以迁移部分内容提供服务以置于具有请求客户端的延迟降低的位置。例如,内容提供商可以确定物理上和/或逻辑上最靠近特定客户端的、与内容提供服务关联的系统或网络的“边缘”。然后,内容提供商可以例如“自旋向上”,迁移资源或者以其他方式采用与确定的边缘关联的部件以便与特定客户端交互。这样的边缘确定过程在一些情况下可以提供一种用于标识和采用非常适合于与特定客户端交互的部件的高效技术,并且在一些实施例中可以降低内容提供商与一个或多个客户端之间的通信的延迟。
此外,在一些实现方式中,可以省略某些方法或过程块。本文描述的方法和过程也不限于任何特定顺序,并且与其有关的功能块或状态可以以适当的其他顺序执行。例如,所描述的功能块或状态可以以与特别公开的顺序不同的顺序执行,或者多个功能块或状态可以组合到单个功能块或状态中。示例功能块或状态可以串行地、并行地或者以某种其他方式执行。功能块或状态可以添加到所公开的示例实施例或者从这些实施例中移除。
也应当领会,各个不同的项目被图示为在被使用的同时存储在存储器中或者存储装置上,并且为了存储管理和数据完整性的目的,这些项目或者其部分可以在存储器与其他存储设备之间传输。可替换地,在其他实施例中,所述软件模块和/或系统中的一些或全部可以在另一个设备上的存储器中执行,并且经由计算机间通信与图示的计算系统通信。此外,在一些实施例中,所述系统和/或模块中的一些或全部可以以其他方式,例如至少部分地以固件和/或硬件实现或提供,所述固件和/或硬件包括但不限于一个或多个专用集成电路(ASIC)、标准集成电路、控制器(例如通过执行适当的指令,并且包括微控制器和/或嵌入式控制器)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)等等。所述模块、系统和数据结构中的一些或全部也可以存储(例如作为软件指令或结构化数据)在计算机可读介质上,例如要通过适当的驱动器或者经由适当的连接读取的硬盘、存储器、网络或者便携式媒体制品。所述系统、模块和数据结构也可以作为生成的数据信号(例如作为载波或者其他模拟或数字传播信号的部分)在包括基于无线和基于有线/电缆的介质在内的各种各样的计算机可读传输介质上传输,并且可以采取各种各样的形式(例如作为单个或者复用的模拟信号的部分,或者作为多个离散的数字分组或帧)。在其他实施例中,这样的计算机程序产品也可以采取其他形式。因此,本发明可以利用其他计算机系统配置实施。
除非另有特别说明或者在使用的上下文中以其他方式理解,诸如除别的以外的“能够”、“可能”、“或许”、“可以”、“例如”等等之类的本文使用的条件语言通常预期传达某些实施例包括,而其他实施例不包括,某些特征、元素和/或步骤。因此,这样的条件语言通常不预期暗示特征、元素和/或步骤无论如何是一个或多个实施例所需要的,或者一个或多个实施例一定包括用于在有或者没有作者输入或提示的情况下决定是否在任何特定实施例中包括或者要执行这些特征、元素和/或步骤的逻辑。术语“包括”、“包含”、“具有”等等是同义的,并且以开放的方式包容性地使用,并且不排除附加的元素、特征、行为、操作等等。再者,术语“或”在其包容性意义上(而不在其排他性意义上)使用,使得当用来例如连接一系列元素时,术语“或”表示该系列的元素中的一个、一些或全部。
尽管描述了某些示例实施例,但是这些实施例仅仅通过示例的方式给出,并且并非意在限制本文公开的发明的范围。因此,前面的描述中没有任何内容意在暗示任何特定的特征、特性、步骤、模块或功能块是必需的或者必不可少的。事实上,本文描述的新颖方法和系统可以以各种各样的其他形式实施;此外,在不脱离本文公开的发明的精神的情况下,可以做出本文描述的方法和系统的形式的各种不同的省略、替代和改变。所附权利要求及其等效物旨在覆盖这样的落入本文公开的某些发明的范围和精神内的形式或修改。

Claims (20)

1.一种系统,包括:
一个或多个处理器;
存储指令集合的一个或多个存储器,所述指令在由所述一个或多个处理器执行时,使得所述一个或多个处理器执行操作,这些操作包括:
接收多个音频样本;
将所述多个音频样本中的每一个与多种口音中的至少一种关联;
将与所述多种口音中的至少第一口音关联的音频样本和与所述多种口音中的至少一种其他口音关联的音频样本相比较;
生成第一口音与第二口音之间的转化模型;
接收第一口语的输入音频部分;以及
确定输入音频部分是否实质上与第一口音关联,如果是,至少部分地基于转化模型输出实质上与第一口语的第二口音关联的输出音频部分。
2.权利要求1的系统,其中第二口音包括中性口音、一种或多种其他口音的修改或者两种或更多其他口音的组合中的至少一个。
3.权利要求1的系统,其中所述输出包括调节输入音频部分的至少一部分的音高、音调、重音或者旋律中的至少一个。
4.权利要求1的系统,其中输入音频部分包括在第一方与第二方之间的音频通信会话期间由第一方说出的音频,并且其中在音频通信会话期间向第二方播放输出音频部分。
5.一种方法,包括:
接收与第一口语的第一口音实质上关联的输入音频部分;以及
至少部分地基于第一口音与第二口音之间的转化模型输出与第一口语的第二口音实质上关联的输出音频部分,其中该转化模型至少部分地基于与至少第一口音关联的音频样本和与一种或多种其他口音关联的音频样本的比较而生成。
6.权利要求5的方法,进一步包括确定输入音频部分实质上与第一口音关联。
7.权利要求6的方法,其中至少部分地基于捕获输入音频部分的设备的地理位置将输入音频部分确定为实质上与第一口音关联。
8.权利要求6的方法,其中通过至少部分地将输入音频部分的一种或多种音频特性和与第一口音关联的音频样本的一种或多种音频特性匹配而将输入音频部分确定为实质上与第一口音关联。
9.权利要求5的方法,进一步包括计算与输入音频部分关联的快速傅立叶变换或者梅尔频率倒谱系数中的至少一个,以标识音频输入部分的一种或多种音频特性。
10.权利要求5的方法,其中第二口音包括中性口音、一种或多种其他口音的修改或者两种或更多其他口音的组合中的至少一个。
11.权利要求5的方法,其中所述输出包括调节输入音频部分的至少一部分的音高、音调、重音或者旋律中的至少一个。
12.权利要求5的方法,其中至少部分地通过一种或多种人工神经网络确定所述转化模型。
13.权利要求5的方法,其中输入音频部分包括在第一方与第二方之间的音频通信会话期间由第一方说出的音频,并且其中在音频通信会话期间向第二方播放输出音频部分。
14.一种非暂时性计算机可读介质,其上存储了指令集合,所述指令在机器执行的情况下,使得该机器执行操作,所述操作包括:
接收与第一口语的第一口音实质上关联的输入音频部分;以及
至少部分地基于第一口音与第二口音之间的转化模型输出与第一口语的第二口音实质上关联的输出音频部分,其中该转化模型至少部分地基于与至少第一口音关联的音频样本和与一种或多种其他口音关联的音频样本的比较而生成。
15.权利要求14的非暂时性计算机可读介质,其中所述操作进一步包括确定输入音频部分实质上与第一口音关联。
16.权利要求15的非暂时性计算机可读介质,其中至少部分地基于捕获输入音频部分的设备的地理位置将输入音频部分确定为实质上与第一口音关联。
17.权利要求15的非暂时性计算机可读介质,其中通过至少部分地将输入音频部分的一种或多种音频特性和与第一口音关联的音频样本的一种或多种音频特性匹配而将输入音频部分确定为实质上与第一口音关联。
18.权利要求14的非暂时性计算机可读介质,其中所述操作进一步包括计算与输入音频部分关联的快速傅立叶变换或者梅尔频率倒谱系数中的至少一个,以标识音频输入部分的一种或多种音频特性。
19.权利要求14的非暂时性计算机可读介质,其中所述输出包括调节输入音频部分的至少一部分的音高、音调、重音或者旋律中的至少一个。
20.权利要求14的非暂时性计算机可读介质,其中输入音频部分包括在第一方与第二方之间的音频通信会话期间由第一方说出的音频,并且其中在音频通信会话期间向第二方播放输出音频部分。
CN201780079074.0A 2016-12-21 2017-12-20 用于口音转化的系统和方法 Active CN110199348B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/387,038 2016-12-21
US15/387,038 US10163451B2 (en) 2016-12-21 2016-12-21 Accent translation
PCT/US2017/067727 WO2018119145A1 (en) 2016-12-21 2017-12-20 Accent translation

Publications (2)

Publication Number Publication Date
CN110199348A true CN110199348A (zh) 2019-09-03
CN110199348B CN110199348B (zh) 2023-05-12

Family

ID=60991610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780079074.0A Active CN110199348B (zh) 2016-12-21 2017-12-20 用于口音转化的系统和方法

Country Status (5)

Country Link
US (1) US10163451B2 (zh)
EP (1) EP3559942A1 (zh)
KR (1) KR102303917B1 (zh)
CN (1) CN110199348B (zh)
WO (1) WO2018119145A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101970008B1 (ko) * 2017-06-23 2019-04-18 (주)디노비즈 딥러닝 신경망회로에 의한 번역알고리즘을 구비한 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램 및 사용자 장치
US11361168B2 (en) * 2018-10-16 2022-06-14 Rovi Guides, Inc. Systems and methods for replaying content dialogue in an alternate language
US11450311B2 (en) * 2018-12-13 2022-09-20 i2x GmbH System and methods for accent and dialect modification
US10839788B2 (en) * 2018-12-13 2020-11-17 i2x GmbH Systems and methods for selecting accent and dialect based on context
US11289094B2 (en) 2020-04-01 2022-03-29 Honeywell International Inc. System and method for assisting pilot through clearance playback
US12008919B2 (en) * 2020-12-09 2024-06-11 International Business Machines Corporation Computer assisted linguistic training including machine learning
CN112698807B (zh) * 2020-12-29 2023-03-31 上海掌门科技有限公司 语音播报方法、设备及计算机可读介质
US11948550B2 (en) * 2021-05-06 2024-04-02 Sanas.ai Inc. Real-time accent conversion model

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040148161A1 (en) * 2003-01-28 2004-07-29 Das Sharmistha S. Normalization of speech accent
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN101650943A (zh) * 2008-12-19 2010-02-17 中国科学院声学研究所 一种非母语语音识别系统及方法
US20100082326A1 (en) * 2008-09-30 2010-04-01 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information
CN101826263A (zh) * 2009-03-04 2010-09-08 中国科学院自动化研究所 基于客观标准的自动化口语评估系统
CN103038817A (zh) * 2010-05-26 2013-04-10 谷歌公司 使用地理信息的声学模型适配
US20140187210A1 (en) * 2012-12-28 2014-07-03 Cellco Partnership D/B/A Verizon Wireless Filtering and enhancement of voice calls in a telecommunications network
US20150046158A1 (en) * 2013-08-07 2015-02-12 Vonage Network Llc Method and apparatus for voice modification during a call
CN105190745A (zh) * 2013-02-20 2015-12-23 谷歌公司 用于共享调适语音简档的方法和系统
CN105632501A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
FR2920583A1 (fr) * 2007-08-31 2009-03-06 Alcatel Lucent Sas Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion
JP2009237747A (ja) * 2008-03-26 2009-10-15 Denso Corp データポリモーフィング方法及びデータポリモーフィング装置
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
US9984700B2 (en) * 2011-11-09 2018-05-29 Speech Morphing Systems, Inc. Method for exemplary voice morphing
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
US9129591B2 (en) 2012-03-08 2015-09-08 Google Inc. Recognizing speech in multiple languages
GB2501067B (en) * 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
US9728202B2 (en) * 2013-08-07 2017-08-08 Vonage America Inc. Method and apparatus for voice modification during a call
US9613620B2 (en) * 2014-07-03 2017-04-04 Google Inc. Methods and systems for voice conversion
US9330681B2 (en) * 2014-07-16 2016-05-03 International Business Machines Corporation Voice signal modulation service for geographic areas
US9558734B2 (en) * 2015-06-29 2017-01-31 Vocalid, Inc. Aging a text-to-speech voice

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040148161A1 (en) * 2003-01-28 2004-07-29 Das Sharmistha S. Normalization of speech accent
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
US20100082326A1 (en) * 2008-09-30 2010-04-01 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information
CN101650943A (zh) * 2008-12-19 2010-02-17 中国科学院声学研究所 一种非母语语音识别系统及方法
CN101826263A (zh) * 2009-03-04 2010-09-08 中国科学院自动化研究所 基于客观标准的自动化口语评估系统
CN103038817A (zh) * 2010-05-26 2013-04-10 谷歌公司 使用地理信息的声学模型适配
US20140187210A1 (en) * 2012-12-28 2014-07-03 Cellco Partnership D/B/A Verizon Wireless Filtering and enhancement of voice calls in a telecommunications network
CN105190745A (zh) * 2013-02-20 2015-12-23 谷歌公司 用于共享调适语音简档的方法和系统
US20150046158A1 (en) * 2013-08-07 2015-02-12 Vonage Network Llc Method and apparatus for voice modification during a call
CN105632501A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置

Also Published As

Publication number Publication date
US20180174595A1 (en) 2018-06-21
KR102303917B1 (ko) 2021-09-23
EP3559942A1 (en) 2019-10-30
CN110199348B (zh) 2023-05-12
WO2018119145A1 (en) 2018-06-28
US10163451B2 (en) 2018-12-25
KR20190120176A (ko) 2019-10-23

Similar Documents

Publication Publication Date Title
CN110199348A (zh) 口音转化
JP7493515B2 (ja) 敵対的生成ネットワークを用いた音声映像源分離および位置特定
JP6505117B2 (ja) 模写によるデジタル携帯情報端末の対話、および応答時のリッチなマルチメディア
CN107623614A (zh) 用于推送信息的方法和装置
US20200126560A1 (en) Smart speaker and operation method thereof
Dimitriadis et al. A Federated Approach in Training Acoustic Models.
CN104462226B (zh) 一种基于云技术的网络演唱平台的构建方法
CN114746857B (zh) 基于加权知识图的视频分段
JP2014507030A (ja) オーディオ・ベースのアプリケーション・アーキテクチャ
WO2021135701A1 (zh) 一种信息推荐的方法及装置、电子设备、存储介质
CN108933730A (zh) 信息推送方法和装置
CN107943914A (zh) 语音信息处理方法和装置
US11688412B2 (en) Multi-modal framework for multi-channel target speech separation
CN109509472A (zh) 基于语音平台识别背景音乐的方法、装置及系统
CN113314119A (zh) 语音识别智能家居控制方法及装置
US10375454B1 (en) Audio data and image data integration
KR20220128417A (ko) 가창 음성 변환
CN109710535A (zh) 用于语音对话平台的服务校验方法及系统
US11244166B2 (en) Intelligent performance rating
CN106372231A (zh) 一种搜索方法及装置
WO2022156655A1 (zh) 语音通话的控制方法、装置、计算机可读介质及电子设备
JP2023517004A (ja) ピッチ敵対的ネットワークを用いた教師なし歌唱音声変換
US10681402B2 (en) Providing relevant and authentic channel content to users based on user persona and interest
US20230260527A1 (en) Audio data processing method and apparatus, device, and medium
US11318373B2 (en) Natural speech data generation systems and methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant