CN112581935A - 环境感知语音辅助设备以及相关系统和方法 - Google Patents
环境感知语音辅助设备以及相关系统和方法 Download PDFInfo
- Publication number
- CN112581935A CN112581935A CN202010971798.XA CN202010971798A CN112581935A CN 112581935 A CN112581935 A CN 112581935A CN 202010971798 A CN202010971798 A CN 202010971798A CN 112581935 A CN112581935 A CN 112581935A
- Authority
- CN
- China
- Prior art keywords
- speech
- appliance
- mode
- audio
- synthesized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 66
- 230000005236 sound signal Effects 0.000 claims abstract description 49
- 230000015572 biosynthetic process Effects 0.000 claims description 93
- 238000003786 synthesis reaction Methods 0.000 claims description 93
- 238000012986 modification Methods 0.000 claims description 51
- 230000004048 modification Effects 0.000 claims description 51
- 230000004044 response Effects 0.000 claims description 23
- 230000003595 spectral effect Effects 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 12
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 23
- 239000011295 pitch Substances 0.000 description 22
- 238000004891 communication Methods 0.000 description 14
- 230000036541 health Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 7
- 230000002194 synthesizing effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 208000001992 Autosomal Dominant Optic Atrophy Diseases 0.000 description 4
- 206010011906 Death Diseases 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013503 de-identification Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000009528 vital sign measurement Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种器具,所述器具可包括麦克风换能器、处理器和存储指令的存储器。所述器具被配置为在所述麦克风换能器处接收音频信号并且检测所述音频信号中的话语。所述器具被进一步配置为基于所述话语来对语音模式进行分类。所述器具被进一步配置为确定所述器具的环境的条件。所述器具被进一步配置为基于所述分类和所述器具的所述环境的所述条件来选择回放音量或多个语音输出模式中的语音输出模式中的至少一者。所述器具被进一步配置为根据所述语音输出模式调整回放语音的回放音量和/或模式。所述器具可被配置为根据所述语音输出模式合成语音,或者根据所述语音输出模式修改合成语音。
Description
技术领域
本专利申请和本文所公开的主题(统称为本“公开”)整体涉及语音助理设备,包括能够进行合成语音回放的语音助理设备,以及相关系统和方法。更具体地但非排他性地,本公开涉及将合成语音或合成语音的回放适应在收听环境中观察到的线索以便改善合成语音的可理解性和用户体验的系统、方法和部件。
背景技术
音频器具日益能够响应于用户说出的命令而执行多个任务,并且通常已经比例如使用触觉或键控输入更自然地与机器诸如例如智能音箱、计算机、移动设备、导航系统、汽车和其他计算环境进行交互。原则上,此类器具从声学场景采集声音,从所采集的声音提取信息(例如,命令),并且对所提取的信息作出响应。
当此类音频器具执行任务时,任务的结果可包括文本,该文本可由音频器具合成为语音。可例如通过扬声器为用户输出合成语音,从而提供用户可感知的输出。与用户的收听环境相关联的各种条件和合成语音的各方面可能不利地影响合成语音的被用户感知的质量或可理解性。
如本文所用,术语“可理解性”是指包含语音的声音的感知质量的量度,例如语音是否能够被收听者听到或者语音能够被收听者理解到什么程度的量度。给定的声音输出的可理解性可跨不同的收听环境而变化。
发明内容
本文所公开的概念、系统、方法和装置涉及根据反映用户收听环境的特征的声学线索和非声学线索来合成语音或修改已经合成的语音。此类线索可包括用于调用语音助理的用户语音的特征等。例如,当音频器具处于嘈杂环境中时,用于调用语音助理的用户话语可表现出所谓的“朗巴德”(Lombard)效应。作为响应,音频器具可合成语音(或修改合成语音)以表现出朗巴德效应的特征,从而改善合成语音在该环境中的可理解性。
在一些方面,所公开的概念涉及根据所观察到的收听环境的特征来改善先前合成的语音的可理解性。此类特征可包括例如用户的语调和讲话节奏,以及用户的讲话模式的其他可观察到的特征。收听环境的这些特征和其他特征可包括混响的直接或间接观察、背景噪声、语音质量、与讲话人的距离等。暗示用户收听环境的其他特征(包括非声学线索)可包括例如一天中的时间、音频器具上的音量设置以及音频器具的位置。
一些所公开的概念涉及用于合成在播放语音的收听环境中能够被理解的语音的系统、方法和部件。例如,一些所公开的音频器具可使用暗示环境的所选择的线索来选择用于合成针对给定收听环境定制的语音的模型或参数。
根据一个方面,音频器具具有音频采集模块,该音频采集模块具有麦克风换能器并且被配置为接收音频信号。该器具还包括一个或多个其他功能部件。例如,该器具可包括语音分类器,该语音分类器被配置为对所接收的话语的语音模式进行分类。同样,该器具具有决策部件,该决策部件被配置为识别与收听环境相关联的条件,并且从多个语音输出模式中选择语音输出模式。该音频器具还具有输出部件,该输出部件被配置为根据语音输出模式输出合成语音。
决策部件可选择对应于语音输出模式的一个或多个语音合成参数。决策部件还可以或另选地选择回放音量。当结合在语音合成模型中时,该一个或多个语音合成参数可使得合成语音的语音模式匹配话语的语音模式。在其他情况下,当结合在语音合成模型中时,该一个或多个语音合成参数可使得合成语音的语音模式不同于话语的语音模式。在一些情况下,决策部件可从对应于语音输出模式的多个语音合成模型中选择语音合成模型。
该音频器具还具有被配置为合成语音的语音合成器。此类合成可包括从多个语音合成模型中选择语音合成模型,根据所选择的语音输出模式、所选择的回放音量或两者来选择可应用于给定语音合成模型的一个或多个语音合成参数,或两者。
语音合成器可被配置为接收一个或多个语音合成参数和要合成为语音的文本。合成器还可被配置为将一个或多个语音合成器参数和文本作为输入提供给语音合成模型。合成器可被配置为例如根据一个或多个语音合成参数利用语音合成模型从文本生成合成语音。该器具可具有被配置为输出合成语音的输出部件。
在一些情况下,决策部件可选择对应于语音输出模式的一个或多个语音修改参数。该音频器具还可具有语音修改部件,该语音修改部件被配置为:在输出经修改的合成语音之前,根据所选择的一个或多个语音修改参数、根据所选择的回放音量或两者来修改合成语音。
语音分类器可被配置为将话语的语音模式分类为低声模式、正常模式或朗巴德效应模式。例如,语音分类器可被配置为根据以下各项中的至少一者将话语的语音模式分类为低声模式、正常模式或朗巴德效应模式:音高、能量内容、共振峰数量、频谱倾斜、语速或它们的组合。
与决策部件被配置为识别的收听环境相关联的条件可包括以下中的至少一者:从音频信号推断出的声学线索、非声学线索或它们的组合。声学线索可包括以下中的至少一者:由麦克风换能器接收的背景噪声、直达混响声能比、信噪比、回波耦合残差、与讲话人的距离、语音质量度量、房间特征或它们的组合。非声学线索可包括以下中的至少一者:一天中的时间、位置类型、器具模式、用户配置文件、位置布局和位置的声学配置文件。
输出部件可包括扬声器和数字信号处理部件,该数字信号处理部件被配置为处理用于由扬声器输出的合成语音。
该器具可包括输入处理器,该输入处理器被配置为从麦克风换能器接收音频信号,处理音频信号,并且调用关于经处理的音频信号的语音识别任务。所接收的文本可对应于根据语音识别任务而生成的响应。
该器具可包括定位在音频器具上的一个或多个位置处的一个或多个附加麦克风换能器。该一个或多个附加麦克风换能器可被配置为接收声音并向输入处理器提供对应的音频信号。
在其他方面,本文所公开的概念可涉及具有麦克风换能器、处理器和存储指令的存储器的器具。在由处理器执行时,该指令可使得该器具在麦克风换能器处接收音频信号。该指令还可使得该器具检测音频信号中的话语,并且分析话语以基于话语来对语音模式进行分类。该指令还可使得器具确定与收听环境相关联的条件。例如,该条件可包括来自音频信号的一个或多个声学线索以及一个或多个非声学线索,其中每个非声学线索对应于该器具的环境的条件。该指令还可使得该器具基于分类、一个或多个声学线索和一个或多个非声学线索来从多个语音输出模式中选择语音输出模式。除此之外或另选地,该指令可使得该器具选择例如合成语音的回放音量。该指令还可使得该器具根据语音输出模式、所选择的回放音量或两者来输出合成语音。
一些指令可使得该器具根据话语的一个或多个特征对话语进行分类,以对语音模式进行分类。该特征可包括例如但不限于音高、共振峰数量、频谱倾斜、语速、能量内容或它们的组合。该指令可使得该器具根据一个或多个特征将话语的语音模式分类为低声模式、正常模式或朗巴德效应模式。
一些指令可使得该器具从麦克风换能器接收音频信号并处理音频信号。该指令还可使得该器具请求对经处理的音频信号的语音识别。响应于请求语音识别,该器具可接收文本,该文本可对应于基于所识别的语音而生成的响应。
该指令还可使得该器具将文本合成为语音。在一些情况下,该指令可使得该器具根据语音输出模式来将文本合成为语音。例如,该指令可使得该器具选择一个或多个语音合成参数,并且根据语音合成模型和所选择的一个或多个语音合成参数来生成合成语音。又如,该指令可使该得器具从多个语音合成模型中选择语音合成模型,并且根据所选择的语音合成模型来生成合成语音。
在其他情况下,该指令可使得该器具根据语音输出模式修改合成语音。例如,该指令可使得该器具基于语音输出模式来选择一个或多个语音修改参数,并且根据一个或多个语音修改参数来修改合成语音和输出所修改的合成语音。根据另一方面,该指令可使得该器具根据环境的声学线索(例如,独立于语音合成器)修改语音回放的音量。
还公开了相关联的方法,以及包括计算机可执行指令的有形非暂态计算机可读介质,所述计算机可执行指令在被执行时使计算环境实施本文所公开的一种或多种方法。还公开了体现在软件、固件或硬件中并且适合于实施这种指令的数字信号处理器。
通过以下参照附图进行的详细描述,前述和其他特征和优点将变得更加明显。
附图说明
参见附图,其中在所有视图和本说明书中,类似的数字指代类似部件,通过示例的方式而不是限制的方式说明了本发明所公开的原理的各方面。
图1示出了用于使语音助理设备的回放适应环境的第一系统的示意性框图。
图2示出了用于使语音助理设备的回放适应环境的第二系统的示意性框图。
图3示出了用于使语音助理设备的回放适应环境的第三系统的示意性框图。
图4示出了环境参数和语音分类之间的关系的示例。
图5示出了可由用于使语音助理设备的回放适应环境的系统使用的控制逻辑的示例。
图6示出了可由用于使语音助理设备的回放适应环境的系统使用的控制逻辑的示例。
图7示出了具有暴露于来自两个方向的声音的麦克风的圆形阵列的语音助理设备,还示意性地示出了麦克风对来自每个方向的声音的响应的曲线图。
图8示出了框图,示出了音频器具的各方面。
图9示出了适合于实施所公开的方法或控制逻辑的计算环境的框图。
具体实施方式
以下描述了与使合成语音或合成语音的回放适应在用户的收听环境中观察到的线索相关的各种原理。在一个方面,所公开的原理选择合成语音修改以改善在收听环境中的可理解性。仅作为一个例示性示例,音频器具可检测话语,基于话语的特征对语音模式进行分类,并且识别存在于收听环境中并与收听环境相关联的条件。基于所观察到的特征,该音频器具可调整语音的合成、修改合成语音和/或改变回放音量。此类修改可使合成语音的输出在具有挑战性的环境中是可理解的,在其他环境中的收听是舒适的,或者在安静和特定环境中生成低声语音,其中每一项都可改善用户在不同收听环境中的体验。
在一个方面,所公开原理的某些方面涉及对用户的话语进行分类。例如,该分类可根据多个语音模式以及与用户的收听环境相关联的所检测或所识别的条件来进行。可根据语音模式和环境条件来生成合成语音,或者可修改先前生成的合成语音,以实现期望水平的可理解性。例如,可线性地修改合成语音,如通过增大或减小其声级/音量,或者用高级信号处理技术(例如,在时域和频谱域中)修改合成语音以模拟低声或朗巴德效应语音,如下所述。也就是说,本文对具体装置配置和方法动作的组合的描述仅是被选择作为所公开原理的方便例示性示例的预期系统的特定示例。所公开的一个或多个原理可以结合在各种其他系统中,以实现各种相应系统特征中的任何一种。
因此,具有不同于本文所述那些具体示例的属性的系统可以体现一个或多个本发明公开的原理,并且可以用于本文未详细描述的应用中。因此,此类替代方面也落入本公开的范围内。
I.概述
改善合成语音的被感知的可理解性和舒适度的方法可考虑用户语音的特征,以及指示用户的收听环境的声学线索和非声学线索。例如,那些特征和线索可指示给定收听环境是嘈杂的还是安静的。此类指示可用于推断音频器具周围的条件,诸如特定位置或房间布局、房间类别或一天中的时间。
所公开的原理可被实现为例如在合成期间或在合成之后影响合成语音的属性,以使合成语音的输出对于给定的所观察的收听环境内的用户是可理解的。类似地,所公开的原理可被实现为影响合成语音的属性,以使输出适合于用户的收听环境,同时使输出可理解。例如,在安静环境中,输出合成语音可由音频器具低声发出。在喧闹环境中,输出合成语音可足够大声以盖住背景噪声而被听到,同时以使得语音更易理解的方式与正常语音不同,如下所述。
在一些情况下,调节输出语音的音量或声级可足以保持语音的舒适度和可理解性。也就是说,还描述了用于使语音适应所观察的收听环境的附加或另选的方法,以改善用户体验,例如,如通过改善语音可理解性。
调整合成语音和/或语音回放的方法可包括检测与给定收听环境相关联的条件(或特征),诸如但不限于背景噪声声级、房间的声学地图和/或一天中的时间。这些方法还可以或另选地检测用户的语音模式的特征,例如低声、低声旁白、“正常”语音、大声、突出的语音,或叫喊。可将所检测的条件和用户的语音模式输入到决策部件,该决策部件就回放音量、用于输出合成语音的语音输出模式或两者作出决策。在向用户输出之前,所选择的语音输出模式可确定如何合成语音或如何修改合成语音,使得输出的合成语音对于用户的收听环境在感觉上更容易理解、舒适和足够。因此,输出的合成语音的可理解性以不仅仅改变语音的音量或作为改变语音的音量的补充的方式而得以保留或改善。在一些情况下,用户的语音模式可与合成语音匹配,而在其他情况下,输出的合成语音的语音模式可不同于用户的语音模式。
公开原理的进一步细节如下文所述。第II部分讨论了人类语音的各种方面和模式。第III部分描述了与一种方法有关的原理,其中决策部件可选择一个或多个语音合成参数,这些语音合成参数在由语音合成器应用时,可改变语音合成模型生成合成语音的方式(与“正常”输出进行比较时)。第IV部分描述了与一种不同方法有关的原理,其中决策部件可从多个语音合成模型中选择特定语音合成模型以供语音合成器使用。第V部分描述了与又一种方法有关的原理,其中决策部件可选择一个或多个语音修改参数、音量映射,或语音修改参数和音量映射,语音修改部件可将它们用于修改已经合成的语音以改善收听环境中的合成语音的可理解性和/或通过增大或减小音量来使回放适应环境。第VI部分公开了可在所公开的方法中使用的控制逻辑的各种示例。并且,第VII部分公开了与适用于实现对合成语音可理解性技术的所公开的改进的音频器具和计算环境相关的原理。
还公开了其他相关原理。例如,以下描述了包含指令的机器可读介质,所述指令在被执行时使得例如计算环境的处理器执行一个或多个所公开的方法。这些指令可嵌入软件、固件或硬件中。另外,所公开的方法和技术可以各种形式的处理器或控制器(如在软件、固件或硬件中)来执行。
II.语音模式
人类语音可通过一个或多个量度来表征。这些量度的示例包括但不限于音高、声级或能量内容、频谱倾斜、语速和共振峰。音高是指耳朵感知到的音调的相对高或低。对于人类讲话者,音高取决于由讲话者的声带产生的每秒振动次数。音高可通过频率来测量(或量化)。给定的讲话者可产生一系列音高。
声场(例如语音)中的能量内容与声音传播通过的介质的声压、质点速度和密度相关。能量内容可用能量单位例如焦耳来量化。声音级或“声级”是能量内容与参考能量内容的对数比,并且通常以无量纲单位例如以分贝(dB)来表示。
频谱倾斜是指语音的频率与每个频率的声级或能量内容之间的关系。当例如按分贝/赫兹(dB/Hz)绘制时,频谱倾斜为该曲线的斜率。在正常人类语音中,语音中的较高频率通常具有比较低频率更低的能量内容,因此频谱倾斜在人类发声频带上通常是负的。
语速可指人说话是快还是慢,例如,如通过每分钟字数(wpm)所测量的。正常语速可在约120wpm至约200wpm的范围内,例如130wpm、140wpm、150wpm和160wpm。语速可根据例如讲话者的文化、性别和/或地理位置而不同。同样,给定个体的语速也可例如根据主题、情绪状态、流利程度、专业知识或听众而变化。
共振峰是指在携带话语的声音中围绕特定频率的声能的浓度,并且对应于声道中的共振。人类语音包括若干共振峰。每个共振峰在不同的频率处出现,每1,000Hz频带约一个。也就是说,在人类语音中,共振峰以约1,000Hz的间隔出现。
与正常或中性语音相比,低声语音缺少音高并且没有谐波结构的周期性激发。低声语音还具有高于正常语音的共振峰频率,但缺少层共振峰。低声语音还具有比正常语音更平坦的频谱倾斜并且具有更低的能量内容。
另一方面,朗巴德效应语音是指对在嘈杂环境中讲话的总体上非本意的人类响应,其中语音被修改以改善可理解性。与正常语音相比,朗巴德效应语音的特征在于音高增大、语速较慢,以及声级或能量内容增大。朗巴德效应语音还表现出由能量内容朝向高频偏移而引起的减小的频谱倾斜。能量内容也可在共振峰频率方面相对于正常语音更集中。
如本文所用,“收听环境”或“环境”是指音频器具的位置,音频器具上的扬声器将朝向该位置来向用户播放合成语音。一般来讲,收听环境将与用户说话以与音频器具上的语音助理应用程序进行交互的记录环境相同。
III.实施例1
图1示出了用于使语音助理设备的回放适应环境以保留或改善合成语音或其他回放语音的可理解性的第一系统10的示例。系统10可包括音频器具100。音频器具100可体现为例如计算设备。在一些方面,音频器具体现为移动通信设备,例如智能电话或平板电脑,或者个人或家庭助理设备,例如智能音箱。音频器具100可包括语音助理应用程序(未示出),该语音助理应用程序被配置为监听、理解用户的话语请求或命令并对其作出响应。另选地,语音助理应用程序可驻留在不同的设备上,例如网络连接的设备上,或者语音助理应用程序可分布在多个网络连接的设备之间。
器具100可被配置为例如利用激活部件(未示出)来监听和响应话语激活命令。激活部件(其可为输入单元120中的部件)可监听传入音频信号中的激活命令。例如,激活部件可识别音频信号中的话语,并且可分析话语以检测一个或多个特定关键字或按键短语,诸如可用于触发语音助理应用程序的那些。
响应于检测到激活命令,语音助理应用程序可使得设备监听用户话语。在接收到用户的话语时,语音助理应用程序可将包含该话语的音频信号发送到语音识别部件。语音助理应用程序然后可响应于在所识别的语音中检测到的命令或请求来执行任务或对请求作出响应。
输入单元120可包括输入数字信号处理器(DSP)132。输入单元120可包括具有麦克风换能器(例如,麦克风104-1)的音频采集模块(AAM)(未示出),该音频采集模块被配置为捕获环境声音。环境声音可包括用户的话语102。输入DSP 132可处理、滤波或以其他方式调节或准备环境声音的所采集的表示以用于语音识别任务,并且还可将所得的音频信号提供给语音分类器126。例如,输入DSP 132可移除噪声,执行回声消除,并且从音频信号中移除混响。
语音分类器126可分析、提取、测量或以其他方式确定话语的一个或多个特征,以便对话语的语音模式进行分类。例如,语音分类器可将语音模式分类为低声模式、正常模式或朗巴德效应模式。也可识别其他模式,诸如介于低声语音和正常语音之间的软模式,和/或介于正常语音和朗巴德效应语音之间的大声模式。在一个示例中,语音分类器126可将例如话语的音高与音高阈值或范围进行比较,将话语的频谱倾斜与频谱倾斜阈值或范围进行比较,并且/或者将话语的能量内容与能量内容阈值或范围进行比较。例如,如果话语缺少音高和/或具有比阈值更少的能量,则语音分类器126可将话语分类为低声。如果话语的频谱倾斜相对于阈值频谱倾斜更平坦,并且话语的音高高于音高阈值,则语音分类器126可将话语分类为朗巴德效应模式。本领域的技术人员将会制定,“话语”可包括一个或多个字、短语或句子,并且可包括能够触发系统10的语音助理的关键字。可采用其他分类方法。例如,语音分类器126可包括神经网络部件,该神经网络部件可接收关于话语的一个或多个方面、环境中的条件或它们的组合的信息,然后根据所接收的信息来输出语音模式分类。
虽然在图1中被描绘为在器具100上,但是在一些方面,语音分类器126可远离器具100。例如,语音分类器126可以是基于云的语音分类系统的部件或远程语音识别系统(例如,远程自动语音识别(ASR)系统110)的部件。虽然ASR系统110被描绘为远离设备10,但一些或所有自动语音识别操作可在设备10上执行。因此,ASR系统110可结合在设备10上。
由输入DSP 132进行的处理还可包括从当前收听环境提取声学线索136。例如,声学线索136可从来自一个或多个麦克风的音频信号中存在的环境声音中提取。声学线索的示例可包括背景噪声声级、直达混响声能比、信噪比、回波耦合残差、语音的质量量度、已经由器具回放的音频(例如,音乐)的输出声级以及与人类讲话者的距离。
输入单元120还可包括决策部件134。决策部件134可被配置为从语音分类器126接收所识别的语音模式,并且可接收或检索声学线索136。同样,决策部件可接收或检索指示收听环境或用户偏好或与收听环境或用户偏好相关联的其他线索,例如非声学线索138。决策部件134可基于所接收的和/或所检索的信息来识别与音频器具的收听环境相关联的条件。
非声学线索138可包括关于环境和与收听环境中的声音无关的用户偏好的信息。非声学线索的示例可包括一天中的时间、音频器具的位置(例如,在房间或车辆中)、音频器具所在的房间类型(例如,厨房、卧室或客厅)、房间的已知布局或与环境相关的元数据。一些音频器具(例如,家庭助理设备)可具有该音频器具在其中操作的房间的声学配置文件,并且可具有关于器具可访问的各种麦克风和人类讲话者之间的距离的信息。
决策部件134可确定例如收听环境是期望低声语音的非常安静的环境。这可基于例如从语音分类器接收低声语音模式的指示、低声级背景噪声的声学线索;非声学线索,包括一天中的午夜时间、卧室的位置、音频器具和用户之间的相对小的距离(例如,小于手臂的长度);或这些的任何组合来确定。
又如,决策部件134可确定收听环境是非常嘈杂的环境,在该环境中,朗巴德效应语音和增大的音量将改善合成语音的可理解性。这可基于例如从语音分类器接收朗巴德效应语音模式的指示,指示高声级背景噪声的声学线索;非声学线索,包括与高声级背景噪声相关联的一天中的时间(例如晚上7点),音频器具和用户之间的相对较大的距离(例如,比手臂的长度更远),客厅的位置;或这些的任何组合来确定。在一些方面,当启用位置跟踪时,决策部件134可接收音频器具在例如餐厅或演出场所中的信息。
决策部件134可选择用于回放语音的音量。例如,决策部件134可包括神经网络部件,该神经网络部件基于用户的话语的特征、声学线索、非声学线索或它们的组合来输出音量级。例如,决策部件134可确定收听环境是适度嘈杂的,音频器具相对靠近用户,并且一天中的时间是早上10点,并且可选择对回放音量的修改而不对回放语音进行其他修改。当决策部件134确定需要改变音量时,可将所指示的改变提供给语音合成器140或输出DSP 150。
决策部件134可根据所确定的收听环境来确定要由语音合成器140使用的语音输出模式。决策部件134可选择对应于由语音分类器分类的语音模式的语音输出模式130。例如,选择语音输出模式可包括选择对应于语音输出模式的一个或多个语音合成参数142。在一些方面,决策部件134可将所选择的语音合成参数142提供给语音合成器140,如下文将进一步讨论的。在其他方面,决策部件134可替代地将对所选择的语音输出模式130的指示提供给语音合成器140。响应于该指示,语音合成器140可根据该指示从多个语音合成参数中进行选择。在一些方面,当所确定的语音输出模式对应于正常语音时,决策部件134可不向语音合成器140提供任何语音合成参数142或语音输出模式。
在一些情况下,决策部件134可使用一个或多个函数、映射曲线、查找表或其输入与要被选择用于语音合成和/或将回放音量和模式适应环境的参数之间的其他关系,如将参考图4进一步讨论的。在一些情况下,决策部件134可包括神经网络或其他机器学习部件,并且可被训练以根据各种训练场景来选择特定参数。决策部件134能够响应于接收到指示输出语音不可理解、听起来不舒服或对于该环境不够的用户反馈,例如通过修改上述函数、映射曲线、查找表等来调节其训练。例如,用户可在听到合成语音或其他回放语音之后说出“大声点”或“我不明白”。此类话语可提示决策部件134选择不同参数或调节所选择参数的值以调整语音的回放和/或模式,从而改善输出的可理解性。在一些情况下,来自不同器具的用户的反馈可例如在远程服务器上聚合,并且可用于改善决策部件的操作。
器具100还可被配置为对经由一个或多个机载和/或通信耦接的麦克风(例如,麦克风104-1、104-2、104-3)接收的话语(例如,话语102)执行语音识别任务。与决策部件的操作同时或并行地,输入DSP 132可被配置为将准备好的信号发射到自动语音识别(ASR)系统,例如,设备上的ASR系统或远程自动语音识别(ASR)系统110,如通过使用到互联网的连接,例如到基于云的系统那样。器具100可在本地执行一些语音识别(SR)任务,同时从远程ASR系统请求其他SR任务。在一些示例中,器具100可在本地执行所有SR任务,而不向远程ASR系统请求任何任务。
在一些情况下,器具100或SR系统110可响应于接收到包含口头命令或请求的所识别的语音来执行任务。例如,自动语音识别(ASR)部件112可从所接收的音频信号中提取字词和短语。ASR部件112可将所提取的字词和短语解释和/或映射到任务或命令。响应生成部件116可执行该任务或命令,并且可由于执行该任务或命令而生成或检索文本。例如,用户的话语可以是“今天达拉斯的天气怎么样?”。响应生成部件116可查找针对德克萨斯州达拉斯在当前日期的天气预报,并且可检索或生成文本陈述,诸如“达拉斯今天天气晴,最高温度为华氏96度。”
可将来自响应生成部件116的文本提供给语音合成器140。语音合成器140可具有用于从文本生成正常模式语音的语音合成模型144。语音合成器140可生成具有对应于该文本的声音的音频信号。语音合成模型144可为该音频信号中的合成语音的一个或多个方面指定值、值的范围或要应用的滤波器。例如,一个参数可指定音高或音高范围。另一个参数可指定该音频信号的声级或能量内容。另一个参数可指定语速。在一些情况下,语音合成器140可具有多于一个模型,例如用于男性语音和女性语音的单独模型,或用于不同口音(例如英国英语、澳大利亚英语和美国英语)的单独模型,或用于不同语言(例如荷兰语、德语、日语)的单独模型。然而,这些不同的模型通常都可被设计成产生正常模式语音。
当语音合成器140从决策部件134接收语音合成参数142时,语音合成器140可使用所接收的参数142而不是语音合成模型144中的对应参数来合成语音。在一些情况下,除了语音合成模型144之外,例如,如果语音合成模型144未指定合成语音的特定方面的值或值的范围,则可使用所接收的参数142中的一个或多个参数。语音合成参数可包括语音的某个方面的值,诸如例如音量、音高、速率以及字词之间的停顿。
在语音合成器140接收对语音输出模式的指示的方面,语音合成器140可从对应于对语音输出模式的指示的多个语音合成参数之中选择语音合成参数。
该语音合成参数可指定特定滤波器的使用。例如,可指定频率整形滤波器来将所选择的频率的声级升高到高于噪声声级。在一些情况下,可指定修改相位的滤波器、修改音高的滤波器、压缩音素的滤波器、扩展音素的滤波器、归一化功率的滤波器或它们的组合,以改善合成语音的可理解性。
可将合成语音提供给输出部件,该输出部件包括被配置为处理合成语音以用于输出的输出数字信号处理器(DSP)150,以及扬声器106。在一些方面,输出部件可包括语音合成器140。
在许多情况下,输出合成语音的语音模式可匹配由语音分类器126确定的话语的语音模式分类,例如,当用户的话语为低声时,输出将是低声语音,或者当用户的话语表现出朗巴德效应时,输出将是朗巴德效应语音。然而,在一些情况下,输出合成语音的语音模式可能不匹配话语的语音模式分类。例如,如果用户在嘈杂环境中以正常模式讲话,则所选择的语音输出模式130可以是用于朗巴德效应语音而不是用于正常语音。
IV.实施例2
图2示出了用于使语音助理设备的回放适应环境以保留或改善合成语音或其他回放语音的可理解性的第二系统20的示例。系统20可包括音频器具200,并且在一些方面可类似于图1的系统10。例如,系统20还可使用输出DSP 150。然而,实施例1是从不同语音合成参数中进行选择,实施例2是从不同语音合成模型中进行选择。在系统20中,语音合成器240可包括多个语音合成模型,例如模型244-1,…244-n。该多个语音合成模型可包括特定于低声语音的语音合成模型、特定于朗巴德效应语音的第二语音合成模型和特定于正常语音的第三语音合成模型。可包括更多、更少或不同的语音合成模型。例如,可存在合成所有类型的语音的单个语音合成模型。
在系统20中,器具200可包括输入单元220,该输入单元可包括如上所述的激活部件(未示出)和输入DSP 232。输入DSP 232的功能可类似于输入DSP132,例如,通过处理、滤波或以其他方式调节或准备环境声音的所采集的表示以用于语音识别任务。经处理的信号可被提供给远程ASR 210,该远程ASR 210可包括语音分类器226。语音分类器226可如关于语音分类器126(图1)所述那样对语音进行分类。语音分类器226可在ASR 112进行语音识别之前或与ASR 112的操作同时地对语音进行分类。
决策部件234可直接从语音分类器226或从ASR系统210的另一个部件接收语音分类的结果。决策部件234可使用语音分类、声学线索136和非声学线索138来根据语音分类、声学线索和非声学线索选择语音输出模式230。例如,选择语音输出模式230可包括选择对应于语音输出模式的语音合成模型248,而不是一组语音合成参数。例如,当决策部件234确定输出合成语音应为低声时,决策部件234可选择特定于低声语音的语音合成模型。决策部件234可将对所选择的语音模型的指示提供给语音合成器240。因此,语音合成器可在合成语音时使用所选择的语音模型。
决策部件234还可或另选地选择用于回放语音(例如,输出语音)的回放音量。例如,决策部件234可包括神经网络部件,该神经网络部件基于用户的话语的特征、声学线索、非声学线索或它们的组合来输出音量级。又如,决策部件234可使用映射或查找表来根据用户话语的特征、声学线索和非声学线索中的一者或多者选择回放音量级。所选择的回放音量级可被提供给语音分类器226或输出DSP 150。
虽然在图2中被描绘为在ASR系统210上,但是在一些方面,语音分类器226可以替代地在器具200上,例如,如图1所示。
V.实施例3
图3示出了用于使语音助理设备的回放适应环境以保留或改善合成语音或其他回放语音的可理解性的第三系统30的示例。系统30可包括音频器具300,并且可类似于图1和图2中分别示出的系统10和20。实施例1和2影响如何相对于所选择的语音输出模式来合成语音,而在实施例3中,在合成之后根据语音输出模式来修改合成语音。例如,系统30还可如在系统10中那样使用输入DSP 132、语音分类器126、ASR系统110和输出DSP 150,或者可如在系统20中那样使用输入DSP 232、语音分类器226、ASR系统210和输出DSP 150。
语音合成器340可在没有来自决策部件334的输入的情况下合成语音。在一些情况下,语音合成器340可远离音频器具300操作。
相反,决策部件334可选择语音输出模式130。在一个方面,选择语音输出模式可包括根据语音模式分类、声学线索和非声学线索来选择一个或多个语音修改参数。决策部件234还可或另选地选择用于回放语音的回放音量。所选择的回放音量、语音修改参数或两者可被提供给语音修改部件342。语音修改部件342可被配置为从语音合成器340接收合成语音,并且根据回放音量和/或所选择的一个或多个语音修改参数来修改合成语音。例如,语音修改参数可使得语音修改部件342改变合成语音的频谱倾斜以对应于朗巴德效应语音,可从合成语音中去除音高以对应于低声语音,可仅改变正常语音输出模式的回放音量,或者除了语音特征之外可改变回放音量。
在另一方面,选择语音输出模式可包括向语音修改部件342指示要输出的语音的类型(或分类)。语音修改部件342然后可根据对要输出的语音类型的指示来选择语音修改参数。
在一个方面,语音修改部件342可将合成语音划分为多个帧。每个帧可被归类为有声音或无声音的。然后可例如通过使用离散傅里叶变换来提取每个有声帧的频谱。然后可使用线性预测编码(LPC)系数和所接收的语音修改参数来修改每个有声帧中的频谱。然后可将每个经修改的帧重新缩放到与输入合成语音相同的均方根(RMS)声级。可重建该信号并将其输入到动态范围压缩器以补偿语音帧的低声级并且补偿用户的听力级。
决策部件(例如,决策部件134、234和/或334)可使用一个或多个函数、映射曲线、查找表或其输入与回放音量之间的其他关系、用于选择语音合成参数的参数、修改参数或语音模型。各种输入变量的值可以是用于一个或多个函数的输入,或者可以映射到例如查找表中的其他值。图4示出了具有相应v1、v2和v3值的三个输入变量(变量1、变量2和变量3)的表示。这三个变量对应于三维空间中的点Penv。这些变量可表示例如混响比、背景噪声和信噪比。可在更高维、更低维或相同维度的空间中使用更多的、更少的或其他的变量。
可将变量值输入到函数F(v1,v2,…vn)中,该函数可对变量进行操作以获得结果。该结果可以某种方式对应于语音分类、回放音量或两者。可对应于语音分类来选择要对已经合成的语音进行的修改。该结果可对应于映射到特定语音合成模型的值,或者对应于在合成语音时要应用的一个或多个参数。在一个示例中,可由系统产生的不同语音模式可以由一组区间表示,其中每个相应语音模式具有单独的区间,例如低声区间、正常区间和朗巴德效应区间。每个相应的区间可与不同范围的数值相关联,例如范围1、范围2和范围3。函数F()可产生值,并且该值可位于区间范围中的一个区间范围内。决策部件根据对应于所产生的值的区间来选择特定的一组语音合成参数、特定的语音合成模型或特定的一组修改参数。
函数F()中的变量可相对于彼此进行加权。仅在一个示例中,反映用户话语的所检测到的语音模式的变量可具有50%的权重,而与声学线索和非声学线索相关的剩余变量可具有50%的组合权重。当将输出合成语音的语音模式与话语的语音模式分类匹配具有比使输出语音在收听环境中更易理解更高的优先级时,可使用该权重,例如,当用户的话语为低声时使输出为低声语音,或者当用户的话语表现出朗巴德效应时使输出语音为朗巴德效应语音。
在其他情况下,与声学线索和非声学线索相关的变量可共同具有超过语音模式变量的权重。例如,当使输出语音在收听环境中可理解的优先级高于匹配用户话语的语音模式时,可使用该权重。例如,如果用户在喧闹环境中以正常模式讲话,则输出语音可以是朗巴德效应语音而不是正常语音。
在其他情况下,与声学线索相关的变量可共同具有超过与非声学线索相关的变量的权重,反之亦然。
VI.控制逻辑部件
现在参见图5,描述了控制逻辑的示例。例示的控制逻辑500可例如由音频器具100执行,例如由输入DSP 132、语音分类器126、决策部件134和语音合成器140执行,或者由音频器具200执行,例如由输入DSP 232、语音分类器226、决策部件234和语音合成器240执行。对于系统10或系统20,例示的控制逻辑500使得相应系统的决策部件134、234影响在合成语音时如何针对音频器具的当前环境来回放语音。影响如何回放语音可包括选择回放音量、选择如何合成语音或两者。
在框502中,控制逻辑500可接收音频信号。所接收的音频信号可包括话语,例如话语102,该话语继而可包括一个或多个字词,包括话语命令或请求。在一些方面,所接收的音频信号可包括一个或多个话语。音频信号可由输入DSP(例如,图1的输入DSP 132)从音频采集模块和/或从附加麦克风104-2、104-3接收。
在框504中,控制逻辑部件500可对所接收的音频信号执行数字信号处理。例如,输入DSP(例如,图2的输入DSP 232)可处理、滤波或以其他方式准备音频信号以用于语音识别任务。例如,输入DSP可移除噪声,执行回声消除,并且从音频信号中移除混响。
在框506中,控制逻辑部件500可根据语音模式对话语进行分类。例如,语音分类器(例如,图1的语音分类器126)可分析、提取、测量或以其他方式确定话语的一个或多个特征,以便对话语的语音模式进行分类。例如,语音分类器可将语音模式分类为低声模式、正常模式或朗巴德效应模式。在一个示例中,语音分类器可将例如话语的音高与音高阈值或范围进行比较,将话语的频谱倾斜与频谱倾斜阈值或范围进行比较,并且/或者将话语的能量内容与能量内容阈值或范围进行比较,或者使用机器学习系统。
在框508中,控制逻辑500可向决策部件提供语音模式分类。例如,语音分类器(例如,图2的语音分类器226)可传送语音模式的指示符(例如,在框512处,将由控制逻辑部件500用于选择语音合成模式)。该指示符可以是对应于语音模式的数字,或者可以是对应于语音模式的文本串。
在框510中,控制逻辑部件500可识别与环境相关联的条件。例如,输入DSP(例如,图1的输入DSP 132)可从音频信号中提取、测量和/或分析音频信号以确定声学线索136,诸如背景噪声声级、直达混响声能比、信噪比和回波耦合残差,并且可将声学线索136提供给决策部件(例如,图1的决策部件134)。此外,决策部件可请求或检索非声学线索138,该非声学线索识别与环境相关联的非声学条件。
在框512中,控制逻辑部件500可选择回放音量、从多个语音输出模式中选择语音输出模式或两者。例如,决策部件(例如,图1的决策部件134)可根据与环境相关联的条件和语音模式(例如,由框508提供)来选择语音合成参数142。另选地,决策部件234可提供对回放音量或所选择的语音输出模式的指示。决策部件(例如,图2的决策部件234)可从语音分类器(例如,图2的语音分类器226)接收语音模式,并且可根据与环境相关联的条件和语音模式来选择回放音量、语音合成模型248(图2)或两者。
与框506和510同时或并行地,在框514中,控制逻辑500还可请求对话语命令或请求的自动语音识别。例如,在对音频信号的一些处理之后,输入DSP可请求对来自ASR系统110的经处理的音频信号的语音识别。
在框516中,控制逻辑500可接收由ASR产生的文本。例如,该文本可对应于对问题的回答、对任务已被执行的确认、来自语音助理的对更多信息的请求或由于ASR操作而要传送给用户的其他文本。
在框518中,控制逻辑500可输出根据该文本的合成语音。例如,在系统10中,语音合成器140可根据语音合成参数142(或对所接收的语音输出模式的指示)暂时改变语音合成模型144的一个或多个参数,并且根据语音合成模型将所接收的文本合成为语音。在系统20中,语音合成器240可使用由决策部件234指示的语音合成模型244来从所接收的文本合成语音。数字信号处理器150可处理合成语音以用于通过扬声器106输出。
在一些方面,如果决策部件134或234确定输出语音不需要修改,例如,如果话语的语音分类为正常并且环境不嘈杂,则在框512处,决策部件可不输出任何语音合成参数或所选择的模型。然而,决策部件可修改回放音量以使语音舒适而不会对于用户的环境而言太大声或太安静。
现在参见图6,描述了控制逻辑的另一个示例。例示的控制逻辑600可由音频器具300(图3)执行,例如由输入单元320、语音合成器340和语音修改部件342执行。例示的控制逻辑600可使系统30的决策部件影响已经合成的语音如何针对音频器具的当前环境进行声级缩放和/或修改。
控制逻辑600可类似于图5所示的控制逻辑600那样开始。即,框602、604、606、608、610、614和616可分别类似于框502、504、506、508、510、514和516。在框612中,控制逻辑600可根据语音输出模式来选择一个或多个语音修改参数。例如,决策部件334可根据语音模式分类以及在框610中识别的条件来选择一个或多个语音修改参数。另选地,决策部件334可根据语音模式分类、声学线索、非声学线索或它们的组合来选择回放音量、从多个语音输出模式中选择语音输出模式或两者。
在框614中,控制逻辑600可同时请求对音频信号中的话语命令的语音识别,这可类似于框514。例如,在框604中对音频信号进行一些处理之后,输入DSP 132可请求对来自ASR系统110的经处理的音频信号进行语音识别。
在框616中,控制逻辑600可从ASR系统110接收要合成的文本。例如,该文本可对应于对问题的回答、对任务已被执行的确认、来自语音助理的对更多信息的请求或由于ASR操作而要传送给用户的其他文本。
在框618中,控制逻辑600可从所接收的文本合成语音。例如,语音合成器340可根据语音合成模型来合成语音。语音合成模型可以是通用模型,其根据选择例如用于合成语音的性别、口音和语言的用户设置以正常语音模式产生语音。
在框620中,控制逻辑600可根据语音修改参数、回放音量或两者来改变合成语音。例如,为了从正常模式合成语音产生朗巴德效应,语音修改参数可使得语音修改部件342增大较高频率下的声级或能量内容,并且减小较低频率下的声级或能量内容以减小频谱倾斜。语音修改参数还可使得语音修改部件342减慢合成语音的语速、增大音高以及增加声级或能量内容。又如,为了从正常模式合成语音产生低声语音,语音修改参数可使得语音修改部件342移除音高并降低声级或能量内容。在一些方面,语音修改部件342可接收对所选择的语音输出模式的指示,并且可选择回放音量、语音修改参数或两者本身。
然后,在框622中,控制逻辑部件600可输出经修改的合成语音。例如,数字信号处理器150可处理经修改的合成语音以用于通过扬声器106输出。
在一些方面,如果决策部件334确定输出语音不需要修改,例如,如果话语的语音分类为正常并且环境不嘈杂,则在框612处,决策部件334可输出回放音量修改但可以其他方式不输出任何语音修改,并且可跳过框620。
VII.位置或方向对可理解性的影响
噪声源相对于用户的位置的位置可通知语音助理设备的有关是否修改输出语音或修改输出语音的程度的决定以改善用户感知的输出语音的可理解性。例如,语音助理设备(或其他音频器具)可被配置为分辨设备从其接收声音(例如,噪声)的方向以及设备从其接收可听用户输入(例如,用户的话语)的方向。该设备还可被配置为比较噪声和用户输入的相对来波方向,并且该比较可通知语音输出模式是否可从正常语音输出模式修改或应修改的程度,以便改善用户感知的输出语音的可理解性。
例如,在背景噪声(例如,来自咖啡机的背景噪声)从一个方向(在本领域中有时称为“来波方向”或“DOA')到达语音助理设备并且用户相对于语音助理设备从不同DOA讲话的场景中,可以对于用户是舒适和可理解的而且不是太大声的方式来调整回放声级。另一方面,如果用户从与背景噪声相同或接近相同的DOA说话,则可以调节输出语音模式的回放声级或其他方面,例如,可增大声级,以补偿背景噪声声级并使输出语音相对更易理解。尽管上一句提到声级来作为合成输出语音的可被调节或修改的一个特征的示例,但可根据本文所述的方法来调节或修改合成输出语音的其他特征,以试图改善用户感知的输出语音的可理解性。
换句话说,当背景噪声从与用户语音到达的方向不同的方向到达时,语音助理设备可根据所选择的第一方法调整输出语音模式(例如,输出语音的任何一个或多个特征,包括输出声级)。并且,当背景噪声从与用户语音到达的相同或大致相同的方向到达时,语音助理设备可根据所选择的不同的第二方法来调整输出语音模式。为了说明,语音助理设备可在背景噪声的来波方向(DOA)与用户语音的DOA相差小于约30度(例如,小于约25度)时,例如当DOA的差值小于约20度时,根据第二方法来调整输出语音模式。例如,可通过增大输出声级、结合朗巴德语音的一个或多个其他特征以及组合输出语音特征的那些调节或其他调节来调整输出语音模式。
又如,当DOA的差值在第一范围内(例如,在约0度和10度之间)时,语音助理设备可选择第一语音输出模式。另选地,当DOA的差值在第二范围内(例如,在约10度和约20度之间)时,语音助理设备可选择第二语音输出模式。以另一个示例的方式,当DOA的差值在第三范围内(例如,在约20度和约30度之间)时,语音助理设备可选择第三语音输出模式。并且,当DOA的差值超过上限阈值差值(例如,大于约30度)时,语音助理设备可选择第四语音输出模式,例如“正常”语音输出模式。
如上所述,语音助理设备或其他音频器具可分辨声音(或声音分量,例如背景噪声、用户语音或它们的组合)是从哪个方向到达设备。例如,语音助理设备可结合麦克风或麦克风阵列,该麦克风或麦克风阵列被配置为与声音从其到达设备的方向对应地进行响应。现在参见图7,示出了具有麦克风M1,M2,…,M6的圆形阵列的语音助理设备40。虽然示出了六个麦克风的圆形阵列,但任何合适数量的麦克风都可用于麦克风阵列中并且可以任何合适的布置定位,例如,以卵形布置、平面布置、线性布置或三维布置,例如,以立方体或椭球体布置。
该麦克风阵列中的每个麦克风所观察到的声学响应可用于确定该麦克风阵列相对于传入声音和传入声音的分量的取向。因此,只要该麦克风阵列相对于音频设备40的位置是已知的,也就可确定音频设备及其组成特征部(例如扬声器阵列)的取向。
为了便于说明,箭头42a和42b分别表示从不同方向到达的第一声音分量和第二声音分量。在图5所示的阵列40的取向中,麦克风M1从第一声音分量42a接收最少的声能,并且麦克风M4从第一声音分量42a接收最多的声能(假设声音分量42a作为平面波到达设备40)。在该示例中,第二声音分量42b从与第一声音分量42a大致正交的方向到达设备40。假设声音分量42b作为平面波到达设备40,则来自第二声音分量42b的最小入射声能的点被定位在麦克风M2和M3之间,并且来自第二声音分量42b的最大入射声能的点被定位在麦克风M5和M6之间。
更一般地,可从麦克风阵列所观察到的声音中识别、表征或提取传入声音的一个或多个分量。例如,可在声场中检测有声话语和无声话语并将其与噪声或其他声音分量隔离。可针对“注视房间”的麦克风阵列中的每个麦克风M1,M2,…,M6来确定或估计对应于每个声音分量的入射声能的量度。例如,语音助理设备10可计算由该麦克风阵列中的每个相应麦克风M1,M2,…,M6观察到的频率响应的差值。同样,可跨所选择的频带,例如,在人类语音典型的中间范围频带(例如,有声音话语和无声话语)中计算频率响应的每个差值的量值,每个差值对应于围绕延伸到图7中的页面中的纵向轴线的麦克风位置中的相应一个麦克风位置。
由于每个外部麦克风相对于其他麦克风在空间上独立,因此与每个麦克风相关联的计算的频率响应差值(或入射能量的其他量度)可不同于与其他麦克风相关联的计算的频率响应差值(或入射能量的其他量度)。
图7所示的曲线图43a、43b以图形方式描绘了分别针对第一声音分量42a和第二声音分量42b在麦克风阵列40中的每个麦克风M1,M2,…,M6处计算的入射声能的代表性量值。如曲线图42a所示,辐射阻抗的量值在麦克风M1处最小并且在麦克风M4处最大。类似地,曲线图42b描绘了麦克风M5和M6之间的最大辐射阻抗以及麦克风M2和M3之间的最小辐射阻抗。
因此,可使用前述信息来估计声音的每个传入分量的来波方向。例如,该麦克风阵列中的每个麦克风M1,M2,…,M6相对于纵向轴线的位置可表示由圆形麦克风阵列40限定的r-Θ平面中的角坐标。
并且,认识到与人类语音相关联或表示人类语音的声音分量的入射声能的量值在该声音分量起源的方向(例如,讲话者的位置)上达到最大值,可通过确定最大入射声能的角位置(例如,根据图7所示的曲线图)来确定麦克风阵列40相对于讲话者的取向(以及因此对应的语音助理设备的取向)。利用该方向估计,语音助理设备可影响设备操作的模式。
例如,设备可以所选择的方式提供输出语音,例如,选择如本文所述的合适的语音输出模式,以尝试改善用户感知的输出语音的可理解性,在朝向讲话者的方向上提供输出语音,或两者。
因此,可在不中断用户的情况下自动确定期望的语音输出模式或其他操作模式,同时仍然允许用户重新定位音频设备和/或在整个收听环境中移动。此类音频设备可避免对用户的不便并改善用户的总体收听体验。
VIII.计算环境
图7示出了用于音频器具的合适架构的示例,该音频器具可响应于用户说出的命令或环境声场内的其他信息来执行一个或多个任务。音频器具700可以是音频器具10、20和/或30的一般化表示。音频器具700包括音频采集模块710,该音频采集模块可以是AAM122的示例。音频器具700还包括可使得该器具以限定的方式对声学场景作出响应的计算环境的各个方面(例如,下文结合图8更详细地描述)。例如,例示的器具700包括处理单元740和存储器750,该存储器包含指令,该处理单元可执行该指令以使音频器具例如执行采集环境声音、从所采集的声音提取信息以及提供输入单元120和/或语音合成器140的功能的一个或多个方面。
例如,此类指令可使音频器具700借助音频采集模块710捕获环境声音,并且将所采集的音频信号的一些或全部通过通信连接760传送到远程语音识别系统(未示出)。所捕获的环境声音可包括用户的话语命令,诸如例如“嘿,Siri,播放歌曲[标题]。”以另一个示例的方式,语音识别系统可从音频信号提取此类话语命令并通过通信连接760将机器可读命令传送到音频器具700。该命令可调用音频编解码器(未示出)和/或其他指令以使得音频器具通过扬声器770播放该歌曲,如用户所请求的。
仍然参考图7,音频器具通常包括麦克风换能器以将入射声学信号转换为对应的电输出。如本文所用,术语“麦克风”和“麦克风换能器”可互换使用,并且是指将入射声学信号或声音转换为表示入射声学信号的对应电信号的声-电换能器或传感器。通常,麦克风输出的电信号是模拟信号。
虽然在图7中描绘了单个麦克风,但是本公开设想使用多个麦克风,例如麦克风104-1、104-2和104-3。例如,可使用多个麦克风来获得从给定声学场景发出的多个不同的声学信号,并且多个版本可独立地处理和/或与一个或多个其他版本组合,然后由音频器具700进行进一步处理。
如图7所示,音频采集模块710可包括麦克风换能器720和信号调节器730来滤波或以其他方式调节环境声音的所采集的表示。一些音频器具具有模拟麦克风换能器和前置放大器以调节来自麦克风的信号。
来自前置放大器或其他调节器的输出可在由模数转换器(ADC)采样之前进行低通滤波,但输出不是必须在采样之前进行低通滤波。在一些情况下,ADC可采用Sigma-Delta调制,然后采用抽取滤波器对数字信号进行降采样。
例如,可对来自麦克风换能器720的模拟输出进行低通滤波,并且随后相对于所选择的通频带以奈奎斯特频率(即,要采样的底层信号中的最高频率分量的两倍)或更高频率(例如,具有对应于人类听觉的上限频率阈值)对其进行采样,以生成对应于由麦克风720采集的模拟音频信号的声学数据流。假设感兴趣的环境声音具有约20kHz的上限阈值频率,则高于约40kHz的采样频率可准确地捕获感兴趣的声学场景。
图8示出了合适的计算环境800的一般化示例,其中可实施涉及例如将逻辑部件和/或电力单元的温度保持在阈值温度以下的所述方法、方面、技巧和技术。计算环境800不旨在对本文所公开的技术的使用范围或功能提出任何限制,因为每种技术可在不同的通用或专用计算环境中实施。例如,每种所公开的技术可用其他计算机系统配置来实施,所述其他计算机系统配置包括可穿戴设备和/或手持设备(例如,移动通信设备,并且更具体地但非排他性地,可得自Apple Inc.(Cupertino,CA.)的/HomePodTM设备)、多处理器系统、基于微处理器的或可编程的消费电子产品、嵌入式平台、网络计算机、小型计算机、大型计算机、智能电话、平板电脑、数据中心、音频器具等。每种公开的技术还可在分布式计算环境中实践,其中任务由通过通信连接部或网络链接的远程处理设备执行。在分布式计算环境中,程序模块可位于本地存储器存储设备和远程存储器存储设备两者中。
计算环境800包括存储器820和至少一个中央处理单元810。在图8中,该最基本配置830包括在虚线内。中央处理单元810执行计算机可执行指令,并且可以是真实或虚拟处理器。在多处理系统中或在多核中央处理单元中,多个处理单元执行计算机可执行指令(例如,线程)以提高处理速度,并且因此,多个处理器可以同时运行,尽管处理单元810由单个功能块表示。处理单元可包括专用集成电路(ASIC)、通用微处理器、现场可编程门阵列(FPGA)、数字信号控制器或布置成处理指令的一组硬件逻辑结构。
存储器820可以是易失性存储器(例如,寄存器、高速缓存、RAM)、非易失性存储器(例如,ROM、EEPROM、闪存存储器等)或两者的一些组合。存储器820存储软件880a,在由处理器执行时,该软件可以例如实施本文描述的一种或多种技术。
计算环境可具有附加特征结构。例如,计算环境800包括存储装置840、一个或多个输入设备850、一个或多个输出设备860,以及一个或多个通信连接870。互连机构(未示出)诸如总线、控制器或网络使计算环境800的部件互连。通常,操作系统软件(未示出)为在计算环境800中执行的其他软件提供操作环境,并协调计算环境800的部件的活动。
存储装置840可以是可移动的或不可移动的,并且可包括选定形式的机器可读介质。一般来讲,机器可读介质包括磁盘、磁带或盒式磁带、非易失性固态存储器、CD-ROM、CD-RW、DVD、磁带、光学数据存储设备和载波,或可用于存储信息并且可在计算环境800内访问的任何其他机器可读介质。存储装置840可存储软件880b的指令,该指令可实施本文所述的技术。
存储装置840还可通过网络分布,以便以分布式方式存储和执行软件指令。在其他方面,可通过包含硬连线逻辑的特定硬件部件来执行这些操作中的一些操作。另选地,可通过所编程的数据处理部件和固定硬连线电路部件的任何组合来执行那些操作。
输入设备850可以是以下各项中的任何一者或多者:触摸输入设备,诸如键盘、小键盘、鼠标、笔、触摸屏、触摸板或轨迹球;语音输入设备,诸如麦克风换能器、语音识别软件和处理器;扫描设备;或向计算环境800提供输入的另一种设备。对于音频,输入设备850可包括麦克风或其他换能器(例如,接受模拟或数字形式的音频输入的声卡或类似设备),或向计算环境800提供音频样本的计算机可读介质读取器。
输出设备860可以是显示器、打印机、扬声器换能器、DVD写入器或提供来自计算环境800的输出的另一个设备中的任何一者或多者。
通信连接870使得能够通过通信介质(例如,连接网络)与另一个计算实体进行通信。通信连接部可包括适合于通过局域网(LAN)、广域网(WAN)连接或两者进行通信的发射器和接收器。可通过有线连接或无线连接来促进LAN和WAN连接。如果LAN或WAN连接是无线的,则通信连接部可包括一个或多个天线或天线阵列。通信介质以调制数据信号传送信息,诸如计算机可执行指令、压缩图形信息、处理信号信息(包括经处理的音频信号)或其他数据。用于所谓的有线连接的通信介质的示例包括光纤电缆和铜线。用于无线通信的通信介质可包括一个或多个选择频带内的电磁辐射。
机器可读介质是可在计算环境800内访问的任何可用介质。以举例而非限制的方式,在计算环境800内,机器可读介质包括存储器820、存储装置840、通信介质(未示出),以及上述各项的任何组合。有形机器可读(或计算机可读)介质不包括暂态信号。
如上所述,一些公开的原理可以体现在其上存储有指令的有形非暂态机器可读介质(诸如微电子存储器)中。指令可对一个或多个数据处理部件(此处统称为“处理器”)进行编程以执行上述处理操作,包括估计、运算、计算、测量、调节、感测、测量、过滤、添加、减少、反演、比较和决策(诸如由决策部件进行)。在其他方面中,可通过包含硬连线逻辑部件(例如,专用数字滤波器块)的特定电子硬件部件来执行(机器过程的)这些操作中的一些。另选地,可通过所编程的数据处理部件和固定硬连线电路部件的任何组合来执行那些操作。
VIII.其他方面
上述实施例整体涉及用于调整语音助理设备的回放、改善用户的体验的装置、方法和相关系统,如通过针对每个特定环境使语音更易理解和足够。更具体地但非排他性地,所公开的原理涉及调整语音助理设备中的语音回放以便根据收听环境的条件和用户的语音模式在合成期间或合成之后改善合成语音的可理解性的系统、方法和部件。
尽管如此,提供先前描述以使得本领域的技术人员能够制备或使用所公开的原理。除了上文详细描述的方面之外的方面是在不脱离本公开的实质或范围的情况下,基于本文公开的原理,以及相应装置的构型中的任何伴随的变化或者本文描述的方法动作的顺序的变化来设想的。对本文所述示例的各种修改对于本领域的技术人员将是显而易见的。
例如,在一些情况下,音频器具的各方面可从用户接收有声话语,该有声话语指示输出合成语音未被听到或未被理解,例如,用户可能说“再说一次”或“我不明白”。当用户的话语由ASR系统和语音助理应用程序处理时,ASR系统或语音助理应用程序可在重复回放语音(包括合成语音)的输出之前向决策部件指示需要对回放语音进行调节以改善可理解性。决策部件可响应于该指示来调节回放音量、语音合成参数,选择不同的语音合成模型和/或调节语音修改参数。先前合成的文本可重新合成,或者可利用经调节的参数进行修改,然后输出。
如上所述,本技术的一个方面在于采集和使用得自具体和合法来源的数据,以改善向用户递送其可能感兴趣的启发内容或任何其他内容。本公开设想,在一些实例中,该所采集的数据可包括唯一地识别或可用于识别具体人员的个人信息数据。此类个人信息数据可包括人口统计数据、基于位置的数据、在线标识符、电话号码、电子邮件地址、家庭地址、与用户的健康或健身级别相关的数据或记录(例如,生命特征测量、药物信息、锻炼信息)、出生日期或任何其他个人信息。
本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,个人信息数据可用于递送用户根据其偏好可能较感兴趣的目标内容。因此,使用此类个人信息数据使得用户能够对所递送的内容具有更大的控制。此外,本公开还预期个人信息数据有益于用户的其他用途。
本公开设想负责收集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地,将期望此类实体实现和一贯地应用一般公认为满足或超过维护用户隐私的行业或政府所要求的隐私实践。关于使用个人数据的此类信息应当被突出并能够被用户方便地访问,并应当随数据的收集和/或使用改变而被更新。用户的个人信息应被收集仅用于合法使用。另外,此类收集/共享应仅发生在接收到用户同意或在适用法律中所规定的其他合法根据之后。此外,此类实体应考虑采取任何必要步骤,保卫和保障对此类个人信息数据的访问,并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。此外,应针对被收集和/或访问的特定类型的个人信息数据调整政策和实践,并使其适用于适用法律和标准,包括可用于施加较高标准的辖区专有的考虑因素。例如,在美国,对某些健康数据的收集或获取可能受联邦和/或州法律的管辖,诸如健康保险流通和责任法案(HIPAA);而其他国家的健康数据可能受到其他法规和政策的约束并应相应处理。
不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的各方面。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,诸如就广告递送服务而言,本发明技术可被配置为在注册服务期间或之后任何时候允许用户选择“选择加入”或“选择退出”参与对个人信息数据的收集。在另一示例中,用户可以选择不为目标内容递送服务提供情绪相关数据。又如,用户可选择限制情绪相关数据被保持的时间长度,或完全阻止基础情绪状况的开发。除了提供“选择加入”和“选择退出”选项外,本公开设想提供与访问或使用个人信息相关的通知。例如,可在下载应用时向用户通知其个人信息数据将被访问,然后就在个人信息数据被应用访问之前再次提醒用户。
如上所述,本发明技术的一个方面在于收集和使用可从各种来源获得的数据来以可理解的合成语音响应用户的请求和命令。本公开预期,在一些实例中,这些所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。这样的个人信息数据可以包括人口统计数据、基于位置的数据、电话号码、电子邮件地址、推特ID、家庭地址、与用户的健康或健康水平相关的数据或记录(例如,生命体征测量值、用药信息、锻炼信息)、出生日期或任何其他识别信息或个人信息。
本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,个人信息数据可用于为用户提供所请求的信息或执行任务,以及用可理解的合成语音传达所请求的信息或与任务的执行相关的信息。此外,本公开还预期个人信息数据有益于用户的其他用途。例如,健康和健身数据可用于向用户的总体健康状况提供见解,或者可用作使用技术来追求健康目标的个人的积极反馈。
本公开设想负责采集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。此类政策应该能被用户方便地访问,并应随着数据的采集和/或使用变化而被更新。来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。此外,应在收到用户知情同意后进行此类采集/共享。此外,此类实体应考虑采取任何必要步骤,保卫和保障对此类个人信息数据的访问,并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。此外,应当调整政策和实践,以便采集和/或访问的特定类型的个人信息数据,并适用于包括管辖范围的具体考虑的适用法律和标准。例如,在美国,对某些健康数据的收集或获取可能受联邦和/或州法律的管辖,诸如健康保险流通和责任法案(HIPAA);而其他国家的健康数据可能受到其他法规和政策的约束并应相应处理。因此,在每个国家应为不同的个人数据类型保持不同的隐私实践。
不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的各方面。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就语音助理应用服务而言,本发明技术可被配置为在注册服务期间或之后任何时候允许用户选择“选择加入”或“选择退出”参与对个人信息数据的收集。又如,用户可选择不为语音可理解性改善服务提供与位置相关的数据或声学线索。再如,用户可选择限制保留与位置相关的数据或声学线索的时间长度,或者完全禁止开发某个位置的声学配置文件。除了提供“选择加入”和“选择退出”选项外,本公开设想提供与访问或使用个人信息相关的通知。例如,可在下载应用时向用户通知其个人信息数据将被访问,然后就在个人信息数据被应用访问之前再次提醒用户。
此外,本公开的目的是应管理和处理个人信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据,通过限制数据收集和删除数据可最小化风险。此外,并且当适用时,包括在某些健康相关应用程序中,数据去标识可用于保护用户的隐私。可在适当时通过移除特定标识符(例如,出生日期等)、控制所存储数据的量或特异性(例如,在城市级别而不是在地址级别收集定位数据)、控制数据如何被存储(例如,在用户之间聚合数据)、和/或其他方法来促进去标识。
因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的方面,但本公开还预期各种方面也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种方面不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如,可通过基于非个人信息数据或绝对最低限度量的个人信息(诸如,与用户相关联的设备所请求的内容、对语音助理应用服务可用的其他非个人信息或可公开获得的信息)推断偏好来对请求作出响应以及执行任务。
方向和其他相关参考(例如,向上、向下、顶部、底部、左、右、向后、向前等)可用于帮助讨论本文的附图和原理,但并非旨在进行限制。例如,可使用诸如“向上”、“向下”、“上部”、“下部”、“水平”、“垂直”、“左”、“右”等某些术语。这些术语在适用的情况下被用于在处理相对关系时提供一些明确描述,特别是相对于所示方面。然而,这样的术语并非旨在暗示绝对的关系、位置和/或取向。例如,相对于物体,“上”表面可以简单地通过翻转物体而变成“下”表面。尽管如此,但它仍是相同表面,而且物体保持不变。如本文所用,“和/或”意指“和”或“或”,以及“和”和“或”。此外,出于所有目的,本文引用的所有专利和非专利文献都据此全文以引用方式并入。
并且,本领域的普通技术人员应当理解,在不脱离所公开的原理的情况下,本文所公开的示例性方面可适于各种配置和/或用途。应用本文所公开的原理,可以提供与根据与收听环境相关联的条件改善合成语音的可理解性相关的各种各样的原理,以及用于根据收听环境中的条件和用户语音模式改善合成语音的可理解性的相关方法和系统。例如,上文结合任何特定示例描述的原理可以与结合本文所述的另一示例描述的原理相结合。因此,本领域的普通技术人员已知或稍后悉知的贯穿本公开描述的各个方面的特征和方法动作的所有结构和功能等同物旨在被本文所述的原理以及受权利要求书保护的特征和动作所涵盖。相应地,权利要求和本具体实施方式都不应被理解为限制性意义,并且在阅读本公开之后,本领域的普通技术人员将认识到与根据与收听环境相关联的条件来改善合成语音的可理解性有关的各种各样的原理,以及可使用本文所述的各种概念来设计的相关方法和系统。
此外,本文所公开的任何内容并非旨在提供给公众,而与该公开是否明确地被陈述在权利要求中无关。除非使用短语“用于……的装置”或“用于……的步骤”明确叙述特征,否则权利要求特征不应根据35USC112(f)进行理解。
所附权利要求并非旨在受限于本文所示的方面,而是旨在使得全部范围与权利要求书的语言一致,其中对单数形式的特征的引用(诸如通过使用冠词“a”或“an”)并非旨在意味着“一个和仅一个”,而是指“一个或多个”,除非被具体指出。此外,鉴于可以应用所公开的原理的许多可能的方面,我们保留要求保护如本领域普通计算人员所理解的本文所述特征和技术的任何和所有组合的权利,包括有权主张例如前述说明书的范围和实质内的所有内容,以及在本申请或任何要求本申请的权益或优先权的申请的申请过程中任何时候提出的任何权利要求书中、更具体地但非排他性地在所附权利要求中在字面上和等同地记载的组合。
Claims (26)
1.一种器具,所述器具包括麦克风换能器、处理器和存储指令的存储器,所述指令在由所述处理器执行时,使得所述器具:
在所述麦克风换能器处接收音频信号;
检测所述音频信号中的话语;
基于所述话语对语音模式进行分类;
确定一个或多个线索,其中每个线索对应于所述器具的环境的条件;
基于所述分类和所述一个或多个线索来确定语音输出模式;以及
根据所确定的语音输出模式输出合成语音。
2.根据权利要求1所述的器具,其中使得所述器具对语音模式进行分类的指令包括使得所述器具根据以下中的至少一者对所述话语进行分类的指令:音高、共振峰数量、频谱倾斜、语速、来波方向和能量内容。
3.根据权利要求2所述的器具,其中所述指令使得所述器具根据所述话语的一个或多个特征将所述话语的所述语音模式分类为低声模式、正常模式或朗巴德效应模式。
4.根据权利要求3所述的器具,其中所述话语的所述一个或多个特征包括以下中的至少一者:音高、能量内容、共振峰数量、频谱倾斜、语速或它们的组合。
5.根据权利要求1-4中任一项所述的音频器具,还包括指令,所述指令在由所述处理器执行时,使得所述器具根据所分类的语音模式、所述一个或多个线索或它们的组合来选择回放音量,并且以所选择的回放音量输出所述合成语音。
6.根据权利要求1-4中任一项所述的音频器具,其中用于选择语音输出模式的所述指令还包括用于选择一个或多个语音合成参数的指令,所述存储器还包括指令,所述指令在由所述处理器执行时,使得所述器具:根据语音合成模型和所选择的一个或多个语音合成参数来生成合成语音。
7.根据权利要求1-4中任一项所述的音频器具,其中用于选择语音输出模式的所述指令还包括用于从多个语音合成模型中选择语音合成模型的指令,所述存储器还包括指令,所述指令在由所述处理器执行时,使得所述器具根据所选择的语音合成模型来生成合成语音。
8.根据权利要求1-4中任一项所述的音频器具,其中用于选择语音输出模式的所述指令还包括用于基于所分类的语音模式和所述一个或多个线索来选择一个或多个语音修改参数的指令;并且所述存储器还包括指令,所述指令在由所述处理器执行时,使得所述器具根据所述一个或多个语音修改参数来修改合成语音并输出所修改的合成语音。
9.根据权利要求1-4中任一项所述的音频器具,其中所选择的语音输出模式对应于所述话语的所述语音模式。
10.根据权利要求1-4中任一项所述的音频器具,其中所选择的语音输出模式对应于与所述话语的所述语音模式不同的语音模式。
11.根据权利要求1-4中任一项所述的音频器具,其中用于确定一个或多个线索的所述指令包括用于从所述音频信号确定一个或多个声学线索的指令,所述一个或多个声学线索包括以下中的至少一者:由所述麦克风换能器接收的背景噪声、直达混响声能比、信噪比、回波耦合残差、与所述话语的讲话者的距离、所述话语的质量量度或它们的组合。
12.根据权利要求1-4中任一项所述的音频器具,其中用于确定一个或多个线索的所述指令包括用于确定一个或多个非声学线索的指令,所述一个或多个非声学线索包括以下中的至少一者:一天中的时间、位置类型、器具模式、用户配置文件、位置布局、位置的声学配置文件或它们的组合。
13.根据权利要求1-4中任一项所述的音频器具,其中使得所述器具输出所述合成语音的所述指令包括用于处理合成语音以用于由扬声器输出的指令。
14.根据权利要求1-4中任一项所述的音频器具,还包括指令,所述指令在由所述处理器执行时,使得所述器具从所述麦克风换能器接收所述音频信号,处理所述音频信号,请求对经处理的音频信号的语音识别,并且接收文本,其中所接收的文本对应于基于所识别的语音生成的响应。
15.一种音频器具,包括:
音频采集模块,所述音频采集模块包括麦克风换能器,所述音频采集模块被配置为接收声音;
语音分类器,所述语音分类器被配置为检测所述声音中的话语并且基于所述话语对语音模式进行分类;
决策部件,所述决策部件被配置为确定一个或多个线索并且基于所述一个或多个线索从多个语音输出模式中选择语音输出模式,每个线索对应于所述器具的环境的观察到的条件;和
输出部件,所述输出部件被配置为根据所述语音输出模式输出合成语音。
16.根据权利要求15所述的音频器具,还包括:
语音合成器,所述语音合成器包括语音合成模型,并且被配置为接收文本并根据所述语音输出模式利用所述语音合成模型从所述文本生成合成语音。
17.根据权利要求16所述的音频器具,其中所述决策部件被配置为选择对应于所述语音输出模式的一个或多个语音合成参数,并且其中所述语音合成器被配置为根据所述语音合成模型和所选择的一个或多个语音合成参数来生成所述合成语音。
18.根据权利要求16所述的音频器具,其中所述决策部件被配置为从对应于所述语音输出模式的多个语音合成模型中选择语音合成模型,并且其中所述语音合成器被配置为根据所选择的语音合成模型生成所述合成语音。
19.根据权利要求15-18中任一项所述的音频器具,其中所述决策部件被配置为选择对应于所述语音输出模式的回放音量、一个或多个语音修改参数或两者,所述音频器具还包括语音修改部件,所述语音修改部件被配置为在输出所修改的合成语音之前根据所述回放音量、所选择的一个或多个语音修改参数或两者来修改合成语音。
20.根据权利要求15-18中任一项所述的音频器具,其中所述语音分类器被配置为根据音高、共振峰数量、频谱倾斜、语速、能量内容中的至少一者来将所述话语分类为低声模式、正常模式或朗巴德效应模式。
21.一种用于改善合成语音的可理解性的方法,包括:
检测音频信号中的话语;
对所述话语的语音模式进行分类;
识别与收听环境相关联的条件;
根据所分类的语音模式和与所述收听环境相关联的所识别的条件来从多个语音输出模式中选择语音输出模式;以及
根据所述语音输出模式输出合成语音。
22.根据权利要求21所述的方法,其中选择语音输出模式的所述动作还包括根据所分类的语音模式、与所述收听环境相关联的所述条件或它们的组合来选择回放音量,以及以所选择的回放音量输出所述合成语音。
23.根据权利要求21所述的方法,其中对所述话语的语音模式进行分类的所述动作还包括根据音高、共振峰数量、频谱倾斜、语速、能量内容中的至少一者来将所述话语分类为低声模式、正常模式或朗巴德效应模式。
24.根据权利要求21所述的方法,其中选择语音输出模式的所述动作包括选择一个或多个语音合成参数,所述方法还包括根据语音合成模型和所选择的一个或多个语音合成参数来生成合成语音。
25.根据权利要求21所述的方法,其中选择语音输出模式的所述动作包括从多个语音合成模型中选择语音合成模型,所述方法还包括根据所选择的语音合成模型生成合成语音。
26.根据权利要求21-25中任一项所述的方法,其中选择语音输出模式的所述动作包括基于所分类的语音模式和所述一个或多个线索来选择一个或多个语音修改参数,所述方法还包括根据所述一个或多个语音修改参数来修改合成语音并输出所修改的合成语音。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962907246P | 2019-09-27 | 2019-09-27 | |
US62/907,246 | 2019-09-27 | ||
US16/988,052 US11501758B2 (en) | 2019-09-27 | 2020-08-07 | Environment aware voice-assistant devices, and related systems and methods |
US16/988,052 | 2020-08-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112581935A true CN112581935A (zh) | 2021-03-30 |
CN112581935B CN112581935B (zh) | 2024-09-06 |
Family
ID=75119442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010971798.XA Active CN112581935B (zh) | 2019-09-27 | 2020-09-16 | 环境感知语音辅助设备以及相关系统和方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US12087284B1 (zh) |
CN (1) | CN112581935B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113884178A (zh) * | 2021-09-30 | 2022-01-04 | 江南造船(集团)有限责任公司 | 噪声声品质评价模型的建模装置及方法 |
CN114023303A (zh) * | 2021-11-25 | 2022-02-08 | 百度在线网络技术(北京)有限公司 | 语音处理方法、系统、装置、电子设备以及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005024869A (ja) * | 2003-07-02 | 2005-01-27 | Toshiba Tec Corp | 音声応答装置 |
JP2006126548A (ja) * | 2004-10-29 | 2006-05-18 | Matsushita Electric Works Ltd | 音声合成出力装置 |
JP2006227589A (ja) * | 2005-01-20 | 2006-08-31 | Matsushita Electric Ind Co Ltd | 音声合成装置および音声合成方法 |
JP2011028131A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
CN107193841A (zh) * | 2016-03-15 | 2017-09-22 | 北京三星通信技术研究有限公司 | 媒体文件加速播放、传输及存储的方法和装置 |
US20170358301A1 (en) * | 2016-06-10 | 2017-12-14 | Apple Inc. | Digital assistant providing whispered speech |
US20180122361A1 (en) * | 2016-11-01 | 2018-05-03 | Google Inc. | Dynamic text-to-speech provisioning |
US20180261203A1 (en) * | 2017-03-09 | 2018-09-13 | Capital One Services, Llc | Systems and methods for providing automated natural language dialogue with customers |
US20190279642A1 (en) * | 2018-02-15 | 2019-09-12 | DMAI, Inc. | System and method for speech understanding via integrated audio and visual based speech recognition |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2231107A1 (en) | 1995-09-14 | 1997-03-20 | Ericsson, Inc. | System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions |
US6876968B2 (en) | 2001-03-08 | 2005-04-05 | Matsushita Electric Industrial Co., Ltd. | Run time synthesizer adaptation to improve intelligibility of synthesized speech |
US20030061049A1 (en) | 2001-08-30 | 2003-03-27 | Clarity, Llc | Synthesized speech intelligibility enhancement through environment awareness |
US20060126859A1 (en) | 2003-01-31 | 2006-06-15 | Claus Elberling | Sound system improving speech intelligibility |
US7577564B2 (en) | 2003-03-03 | 2009-08-18 | The United States Of America As Represented By The Secretary Of The Air Force | Method and apparatus for detecting illicit activity by classifying whispered speech and normally phonated speech according to the relative energy content of formants and fricatives |
US20100057465A1 (en) | 2008-09-03 | 2010-03-04 | David Michael Kirsch | Variable text-to-speech for automotive application |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9867012B2 (en) | 2015-06-03 | 2018-01-09 | Dsp Group Ltd. | Whispered speech detection |
US10297251B2 (en) | 2016-01-21 | 2019-05-21 | Ford Global Technologies, Llc | Vehicle having dynamic acoustic model switching to improve noisy speech recognition |
US10147439B1 (en) * | 2017-03-30 | 2018-12-04 | Amazon Technologies, Inc. | Volume adjustment for listening environment |
US10521512B2 (en) * | 2017-05-26 | 2019-12-31 | Bose Corporation | Dynamic text-to-speech response from a smart speaker |
US11114089B2 (en) | 2018-11-19 | 2021-09-07 | International Business Machines Corporation | Customizing a voice-based interface using surrounding factors |
KR20200111853A (ko) * | 2019-03-19 | 2020-10-05 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 인식 제어 방법 |
-
2020
- 2020-09-16 CN CN202010971798.XA patent/CN112581935B/zh active Active
-
2022
- 2022-09-28 US US17/955,509 patent/US12087284B1/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005024869A (ja) * | 2003-07-02 | 2005-01-27 | Toshiba Tec Corp | 音声応答装置 |
JP2006126548A (ja) * | 2004-10-29 | 2006-05-18 | Matsushita Electric Works Ltd | 音声合成出力装置 |
JP2006227589A (ja) * | 2005-01-20 | 2006-08-31 | Matsushita Electric Ind Co Ltd | 音声合成装置および音声合成方法 |
JP2011028131A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
CN107193841A (zh) * | 2016-03-15 | 2017-09-22 | 北京三星通信技术研究有限公司 | 媒体文件加速播放、传输及存储的方法和装置 |
US20170358301A1 (en) * | 2016-06-10 | 2017-12-14 | Apple Inc. | Digital assistant providing whispered speech |
US20180122361A1 (en) * | 2016-11-01 | 2018-05-03 | Google Inc. | Dynamic text-to-speech provisioning |
US20180261203A1 (en) * | 2017-03-09 | 2018-09-13 | Capital One Services, Llc | Systems and methods for providing automated natural language dialogue with customers |
US20190279642A1 (en) * | 2018-02-15 | 2019-09-12 | DMAI, Inc. | System and method for speech understanding via integrated audio and visual based speech recognition |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113884178A (zh) * | 2021-09-30 | 2022-01-04 | 江南造船(集团)有限责任公司 | 噪声声品质评价模型的建模装置及方法 |
CN113884178B (zh) * | 2021-09-30 | 2023-10-17 | 江南造船(集团)有限责任公司 | 噪声声品质评价模型的建模装置及方法 |
CN114023303A (zh) * | 2021-11-25 | 2022-02-08 | 百度在线网络技术(北京)有限公司 | 语音处理方法、系统、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112581935B (zh) | 2024-09-06 |
US12087284B1 (en) | 2024-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10665250B2 (en) | Real-time feedback during audio recording, and related devices and systems | |
EP3711306B1 (en) | Interactive system for hearing devices | |
Vary et al. | Digital speech transmission: Enhancement, coding and error concealment | |
Kondo | Subjective quality measurement of speech: its evaluation, estimation and applications | |
Wölfel et al. | Distant speech recognition | |
US12087284B1 (en) | Environment aware voice-assistant devices, and related systems and methods | |
US11501758B2 (en) | Environment aware voice-assistant devices, and related systems and methods | |
KR102118411B1 (ko) | 원신호 분리 시스템 및 방법 | |
US8781836B2 (en) | Hearing assistance system for providing consistent human speech | |
JP6279181B2 (ja) | 音響信号強調装置 | |
Maruri et al. | V-Speech: noise-robust speech capturing glasses using vibration sensors | |
EP3005344A1 (en) | An audio scene apparatus | |
JP2017506767A (ja) | 話者辞書に基づく発話モデル化のためのシステムおよび方法 | |
US11126398B2 (en) | Smart speaker | |
JP2016535305A (ja) | 自閉症における言語処理向上のための装置 | |
Pohjalainen et al. | Detection of shouted speech in noise: Human and machine | |
Lee et al. | Signal-adaptive and perceptually optimized sound zones with variable span trade-off filters | |
CN113949956B (zh) | 降噪处理方法、装置、电子设备、耳机及存储介质 | |
US11727949B2 (en) | Methods and apparatus for reducing stuttering | |
CN112767908B (zh) | 基于关键声音识别的主动降噪方法、电子设备及存储介质 | |
CN108986839A (zh) | 减少音频信号中的噪声 | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
Dekens et al. | Body conducted speech enhancement by equalization and signal fusion | |
Fukumori et al. | Optical laser microphone for human-robot interaction: speech recognition in extremely noisy service environments | |
JPWO2011122522A1 (ja) | 感性表現語選択システム、感性表現語選択方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |