CN110114829B - 基于特征的话语码本选择 - Google Patents

基于特征的话语码本选择 Download PDF

Info

Publication number
CN110114829B
CN110114829B CN201780079428.1A CN201780079428A CN110114829B CN 110114829 B CN110114829 B CN 110114829B CN 201780079428 A CN201780079428 A CN 201780079428A CN 110114829 B CN110114829 B CN 110114829B
Authority
CN
China
Prior art keywords
speech
feature
codebook
utterance
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780079428.1A
Other languages
English (en)
Other versions
CN110114829A (zh
Inventor
郭寅一
E·维瑟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110114829A publication Critical patent/CN110114829A/zh
Application granted granted Critical
Publication of CN110114829B publication Critical patent/CN110114829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种设备包含话语处理引擎,所述话语处理引擎经配置以接收对应于话语的数据并且以确定与所述话语相关联的第一特征是与参考特征相差至少阈值量。所述设备进一步包含响应于所述话语处理引擎的选择电路。所述选择电路经配置以基于所述第一特征与所述参考特征相差至少阈值量从多个话语码本之中选择特定话语码本。所述特定话语码本与所述第一特征相关联。此第一特征是基于所述用户的情绪、所述用户的环境和所述用户的估计的年龄或距离麦克风的所述用户的估计的距离的。

Description

基于特征的话语码本选择
优先权的主张
本申请主张2017年1月12日递交的标题为“基于特征的话语码本选择(CHARACTERISTIC-BASED SPEECH CODEBOOK SELECTION)”的第15/405,159号共同拥有的美国非临时专利申请的优先权,前述申请的内容明确地以全文引用的方式并入本文中。
技术领域
本发明大体上涉及电子装置,且更确切地说,涉及通过电子装置的音频信号的处理。
背景技术
电子装置(例如,移动装置或服务器)可基于用户的话语接收数据。举例来说,数据可包含话语的样本。
电子装置可使用数据结合一或多个基于话语的操作。为了说明,电子装置可基于数据识别话语内的命令,例如,“导航回家”。作为另一实例,电子装置可识别用户的身份,例如,通过匹配数据的频谱和与用户相关联的信息。
在一些情况下,基于话语的操作可能引发时延和过量的功率消耗。举例来说,背景噪声可能抑制电子装置识别命令,当电子装置重新尝试识别命令时引起时延和过量的功率消耗。在一些情况下,用户可能被提示再次说出命令或使用图形用户接口输入命令。
发明内容
在说明性实例中,设备包含经配置以接收对应于话语的数据的话语处理引擎。话语处理引擎进一步经配置以确定与话语相关联的第一特征是否与参考特征相差至少阈值量。设备进一步包含响应于话语处理引擎的选择电路。选择电路经配置以基于第一特征与参考特征相差至少阈值量从多个话语码本之中选择特定话语码本。特定话语码本与第一特征相关联。
在另一说明性实例中,选择话语码本的方法包含接收对应于话语的数据。方法进一步包含基于与话语相关联的第一特征与参考特征相差至少阈值量从多个话语码本之中选择特定话语码本。特定话语码本与第一特征相关联。
在另一说明性实例中,设备包含用于接收对应于话语的数据并且用于确定与话语相关联的第一特征是否与参考特征相差至少阈值量的装置。设备进一步包含用于基于第一特征与参考特征相差至少阈值量从多个话语码本之中选择特定话语码本的装置。特定话语码本与第一特征相关联。
在另一说明性实例中,一种计算机可读存储媒体存储指令,所述指令在由处理器执行时使得处理器执行操作。操作包含接收对应于话语的数据。操作进一步包含基于与话语相关联的第一特征与参考特征相差至少阈值量的从多个话语码本之中选择特定话语码本。特定话语码本与第一特征相关联。
附图说明
图1是包含话语处理引擎和选择电路的装置的说明性实例的图式。
图2是说明例如包含图1的装置的系统的系统的操作的实例的图式。
图3是说明可使用图1的装置执行的过程的操作的图式。
图4是说明训练方案的操作的图式。
图5是图1的装置的说明性操作方法的图式。
图6是包含图1的装置的电子装置的说明性实例的框图。
图7是包含图1的装置的基站的说明性实例的框图。
具体实施方式
本发明的方面涉及基于话语的一或多个检测到的特征执行的基于话语的操作(例如,说话者识别或语音识别)。为了说明,一或多个处理操作可以是基于特征“定制的”,例如,作为说明性实例,通过话语指示的情绪、说话者的估计的年龄、说话者的说话风格,或从说话者到麦克风的估计的距离。在特定实例中,特定话语码本是基于话语的一或多个特征选择的,并且话语是使用特定话语码本编码或解码的(例如,以根据话语的特定特征“定制”编码或解码)。
与话语相关联的特征可以是通过确定话语与参考特征之间的差异检测到的,所述参考特征例如,“平均值”或“普通”话语特征。在说明性实施方案中,深度神经网络(DNN)模型包含输入节点的集合和输出节点的集合。每个输出节点可对应于话语特征。对于每个输出节点,DNN模型可将分类概率分配到话语,其中分类概率指示话语具有特定特征的可能性。话语特征可以是基于分类概率而确定的。下文参考图式描述其它说明性方面。
参考图1,描绘了装置并且一般将其表示为100。在一些实施方案中,装置100的方面可以在移动装置内实施,如进一步参考图6所描述。替代地或另外,装置100的方面可以在基站内实施,如进一步参考图7所描述。替代地或另外,装置100的方面可以在另一装置内实施,例如,作为说明性实例,服务器。
装置100包含话语处理引擎104。在说明性实例中,话语处理引擎104耦合到一或多个麦克风或经配置以接收表示一或多个声学信号的数据102,例如,一或多个话语信号。举例来说,数据102可对应于用户的话语。
装置100进一步包含选择电路106。选择电路106可以耦合到话语处理引擎104。作为说明性实例,选择电路106可包含多路复用器(MUX)电路。
装置100可进一步包含存储器118。取决于特定实施方案,存储器118可包含易失性存储器、非易失性存储器,或其组合。存储器118可经配置以存储多个话语码本108。举例来说,多个话语码本108可包含远场话语码本110、近场话语码本112、基于情绪的话语码本114(例如,“愤怒的”话语码本)或普通话语码本116(例如,“默认”话语码本)中的至少一个。如本文中所使用,“话语码本”可以指针对数据输入的集合的每个数据输入指示一或多个数据输出结合例如编码操作、解码操作或两者的译码操作的信息(例如,数据结构)。
装置100可进一步包含话语译码器/解码器(编解码器)124。话语编解码器124可以耦合到存储器118。举例来说,话语编解码器124可经配置以从存储器118接收一或多个话语码本。话语编解码器124可经配置以接收数据102(例如,表示到装置100的话语输入的数据)。
装置100可进一步包含调谐引擎120、语音识别引擎122或说话者识别引擎126中的一或多个。调谐引擎120可以响应于话语处理引擎104并且可以耦合到语音识别引擎122和说话者识别引擎126。
装置100可进一步包含定制引擎128或用户状态依赖性活动起始器130中的一或多个。定制引擎128可以耦合到话语处理引擎104并且耦合到用户状态依赖性活动起始器130。在图1的说明性实例中,用户状态依赖性活动起始器130包含家庭助理132和客户服务拨号器134。
在操作期间,话语处理引擎104接收数据102。话语处理引擎104可经配置以识别对应于数据102的话语的至少第一特征140。在特定实例中,话语处理引擎104经配置以使用深度神经网络(DNN)模型144识别第一特征140。举例来说,DNN模型144可包含输入节点的集合、输出节点的集合,以及隐藏节点的集合。每个输出节点可对应于话语特征。对于每个输出节点,DNN模型144可将分类概率分配到话语,其中分类概率指示话语具有特定特征的可能性。第一特征140可以是基于分类概率而确定的。DNN模型144可基于噪声特征或与数据102相关联的频谱中的一或多个对话语进行分类。
取决于特定实例,数据102可包含经编码数据或经解码数据,并且可以使用经编码数据或经解码数据检测到第一特征140。举例来说,在一些实施方案中,参考特征142可对应于特征的经编码表示,并且话语处理引擎104可比较数据102的经编码数据与特征的经编码表示。作为另一实例,在一些实施方案中,参考特征142可对应于特征的经解码(或非经编码)表示,并且话语处理引擎104可比较数据102的经解码(或非经编码)数据与特征的经解码表示。
第一特征140可对应于与基于数据102的话语相关联的质量特征或可基于与基于数据102的话语相关联的质量特征。举例来说,作为说明性实例,第一特征140可基于用户的情绪、用户的环境(例如,建筑物的类型、建筑物的特定房间,或车辆)、用户的估计的年龄、用户的性别,或麦克风距离用户的估计的距离。为了说明,第一特征140可对应于指示在话语中是否检测到特定情绪或在话语中检测到的特定情绪的量的值(或值的集合)。在一些实例中,第一特征140可对应于多个值的集合,其中集合的每个值与话语的对应的特性相关联。在一些实例中,值的集合可对应于向量或位图(例如,其中每个位对应于特定特征的概率的位图)。作为说明性实例,第一位可指示在话语中是否检测到特定情绪,并且第二位可指示在数据102中是否检测到近场话语。话语处理引擎104可经配置以使用数据102的频谱识别第一特征140,作为说明性实例(例如,通过使用语音混响或周围声音以确定用户在建筑物内部,以确定建筑物是否包含特定类型的材料,例如,砖或木材,以确定建筑物的尺寸,或者以确定建筑物是否对应于家庭或办公室)。在一些情况下,位置信息(例如,全球定位系统(GPS)信息)可以输入到话语处理引擎104以实现第一特征140的确定(例如,作为说明性实例,以识别建筑物的房间)。替代地或另外,话语处理引擎104可经配置以通过确定话语中的失真的量识别第一特征140(其可指示情绪,例如,愤怒)。
话语处理引擎104经配置以确定第一特征140是否与参考特征142相差至少阈值量。举例来说,话语处理引擎104可经配置以比较第一特征140和参考特征142以确定第一参数并且比较第一参数与对应于阈值量的第二参数。在特定实例中,参考特征142对应于与“普通”话语相关联的参数的“普通”(或“默认”)集合。作为进一步说明,在一些情况下,由于存在于对应于数据102的话语中的失真,第一特征140可与参考特征142相差至少阈值量。在一些实施方案中,参考特征142可对应于位的掩模(例如,与“普通”话语相关联的期望值的集合),并且如果第一特征140的一或多个值并不包含在掩模中,那么第一特征140可能不同于参考特征142。
在一些实施方案中,话语处理引擎104经配置以使用DNN模型144比较第一特征140与参考特征142。举例来说,参考特征142可对应于DNN模型144的第一输出节点。话语处理引擎104可经配置以确定分离第一输出节点和与第一特征140相关联的第二输出节点的多个输出节点(例如,第一特征140与参考特征142之间的“距离”)以确定第一特征140是否与参考特征142相差至少阈值量。
话语处理引擎104可经配置以产生数据102的一或多个特征(例如,第一特征140)的指示。举例来说,话语处理引擎104可产生语音活动检测器(VAD)指示150。VAD指示150可指示第一特征140。举例来说,作为说明性实例,VAD指示150可指示用户的情绪、用户的环境(例如,建筑物的类型、建筑物的特定房间,或车辆)、用户的估计的年龄、用户的性别或麦克风距离用户的估计的距离中的一或多个。
选择电路106响应于话语处理引擎104。举例来说,选择电路106可经配置以接收VAD指示150。选择电路106可经配置以基于通过VAD指示150所指示的第一特征140选择多个话语码本108的特定话语码本。举例来说,选择电路106可将第一特征140“匹配”到与特定话语码本相关联的一或多个特征。多个话语码本108的每个话语码本与一或多个话语特征的特定集合相关联。作为进一步说明,多个话语码本108的每个话语码本可以与值(例如,向量或位图)的对应的集合相关联,并且VAD指示150可包含对应于第一特征140的值(例如,向量或位图)的集合。在此实例中,选择电路106可将VAD指示150的值“匹配”到与特定话语码本相关联的值。
选择电路106经配置以基于第一特征140与参考特征142相差至少阈值量选择特定话语码本。在此情况下,选择电路106可将第一特征140“匹配”到特定话语码本,例如,远场话语码本110、近场话语码本112,或基于情绪的话语码本114。作为进一步说明,选择电路106可经配置以响应于通过第一特征140指示的至少一个值对应于特定话语码本选择特定话语码本。作为说明性实例,与第一特征140相关联的特定值(或值的集合)可指示在数据102中是否检测到远场话语或近场话语,并且选择电路106可经配置以基于特定值(或值的集合)选择远场话语码本110或近场话语码本112。替代地,选择电路106可选择普通话语码本116,例如,如果第一特征140并不与参考特征142相差至少阈值量。
作为进一步说明,在特定实例中,选择电路106经配置以基于第一特征140和参考特征142的比较选择特定话语码本。举例来说,参考特征142可对应于近场特征。在此情况下,如果第一特征140不同于参考特征142,那么选择电路106可以经配置以选择多个话语码本108的远场码本。
在一些实施方案中,选择电路106经配置以基于第一特征140与参考特征142之间的差异的量选择特定话语码本。作为说明性实例,参考特征142可对应于“默认”说话距离,并且第一特征140可以与指示与通过数据102指示的话语相关联的估计的说话距离的幅值的值相关联。值也可具有符号(例如,正或负),其指示估计的说话距离是否小于默认说话距离(例如,正符号)或大于默认说话距离(例如,负符号)。多个话语码本108可包含与不同说话距离相关联的多个近场话语码本和与不同说话距离相关联的多个远场话语码本。选择电路106可经配置以基于第一特征140与参考特征142之间的差异的量选择多个近场话语码本中的一个或多个远场话语码本中的一个。
话语编解码器124经配置以接收数据102和特定话语码本并且使用特定话语码本基于数据102执行至少一个基于话语的操作。举例来说,话语编解码器124可经配置以使用特定话语码本编码数据102。作为另一实例,话语编解码器124可经配置以使用特定话语码本解码数据102。
替代地或除了在话语编解码器124处执行基于话语的操作之外,装置100可基于第一特征140执行一或多个基于其它话语的操作。举例来说,调谐引擎120可基于数据102和VAD指示150产生调谐参数152和语音活动指示154。调谐引擎120可执行信噪比(SNR)调谐操作、调谐阈值减少操作或另一操作中的一或多个以产生调谐参数152和语音活动指示154。语音识别引擎122可基于调谐参数152执行语音识别操作,并且说话者识别引擎126可基于语音活动指示154执行说话者识别操作以检测对应于数据102的话语的来源。在一些实例中,可基于与通过数据102指示的话语相关联的识别的说话者或识别的来源中的一或多个执行操作。举例来说,音乐推荐、服务推荐、产品推荐或广告中的一或多个可以是基于识别的说话者或识别的来源提供的,如进一步参考图2所描述。
在一些实施方案中,定制引擎128可基于VAD指示150并且进一步基于指示用户的一或多个属性的用户输入136产生个性化用户信息156。作为说明性实例,个性化用户信息156可包含识别用户的信息,例如,姓名、身份、位置或与用户相关联的其它信息。用户输入136可以是经由用户接口接收的,例如,作为说明性实例图形用户接口(GUI)。用户输入136可指示姓名、身份、位置,或与用户(例如,对应于数据102的说话者)相关联的其它信息。
用户状态依赖性活动起始器130可经配置以基于个性化用户信息156和数据102执行一或多个操作。举例来说,家庭助理132可基于个性化用户信息156执行家庭自动化操作。作为另一实例,客户服务拨号器134可基于个性化用户信息156拨打电话号码(例如,客户服务号码)。作为说明性实例,如果第一特征140指示愤怒并且用户输入136指示播放音乐,那么家庭助理132可选择抚慰的音乐来播放。
图1的实例说明基于第一特征140执行某些基于话语的操作可改进装置100的操作。举例来说,通过话语编解码器124执行的话语编码操作或话语解码操作可使用对应于第一特征140的多个话语码本108的特定话语码本。基于第一特征140的特定话语码本的使用可通过话语编解码器124改进编码或解码操作。
参考图2,描绘了系统的说明性方面且一般将其表示为200。图2说明可以使用一或多个处理器202、神经处理引擎204以及音频智能和认知引擎206起始、控制或执行的某些操作。
音频智能和认知引擎206经配置以接收音频输入数据208。在一些实施方案中,音频智能和认知引擎206对应于图1的话语处理引擎104,并且音频输入数据208对应于图1的数据102。音频智能和认知引擎206可经配置以基于音频输入数据208执行一或多个操作。举例来说,音频智能和认知引擎206可经配置以执行语音活动检测、近场话语检测、远场话语检测、性别和年龄检测、情绪分类、可疑话语检测,或其它操作中的一或多个。音频智能和认知引擎206可从神经处理引擎204中的一或多个或一或多个处理器202接收输入(例如,控制信号)。举例来说,音频智能和认知引擎206可从神经处理引擎204中的一或多个或一或多个处理器202接收图1的DNN模型144。
音频智能和认知引擎206可经配置以产生一或多个VAD指示,例如,图1的VAD指示150。作为进一步说明,音频智能和认知引擎206可经配置以产生距离VAD指示210、年龄和性别VAD指示214和情绪VAD指示216或性别、年龄和情绪VAD指示218中的一或多个。
音频智能和认知引擎206可经配置以基于通过音频智能和认知引擎206产生的一或多个VAD指示执行一或多个操作。为了说明,在图2的实例中,系统200可执行话语编码操作232、话语增强操作234、声学环境检测操作236、说话者验证操作238、语音识别操作240、智能相机操作242、智能家庭装置操作244(例如,家庭助理操作或家庭机器人操作)、智能在线/电话呼叫助理操作246中的一或多个,或一或多个其它操作。图2另外说明系统200可执行预处理操作220、自动调谐操作222、功率节省操作224、推荐操作226(例如,音乐或服务推荐)、服务/产品推荐228,或广告操作230。
在一些实施方案中,执行操作234、236和240可包含基于VAD指示210、214、216和218中的一或多个从调谐集合的集合中选择特定“调谐集合”。举例来说,执行操作234、236和240可包含选择语音分段调谐集合、噪声分段调谐集合、1米(m)调谐集合、近场调谐集合、5m调谐集合或另一调谐集合中的一或多个。在此情况下,自动调谐可以使用VAD指示210、214、216和218中的一或多个并且通过基于特定场景选择一或多个调谐集合实现。调谐集合可对应于图1的多个话语码本108。
在一些实例中,预处理操作220是结合声学环境检测操作236执行的。举例来说,执行预处理操作220可包含在完成声学环境检测操作236之前减少来自音频输入数据208的近场语音片段(例如,出于隐私,以增大声学环境检测操作236的稳固性,或两者)。
在一些实施方案中,功率节省操作224可包含基于VAD指示210、214、216和218中的一或多个选择性地激活或解除激活一或多个特性。举例来说,在使用语音识别操作240识别语音之后,特定特征可以被激活或解除激活。在特定实例中,汽车、移动装置或物联网(IoT)装置可以在解除激活状态中直至使用语音识别操作240识别语音。装置可以响应于使用语音识别操作240识别语音被激活。
执行智能相机操作242可包含基于VAD指示210、214、216和218中的一或多个选择性地激活或解除激活(例如,移动装置的)相机应用程序。举例来说,因特网协议(IP)相机可以是响应于检测情绪,例如,尖叫、喊叫或哭泣被激活的。
在特定实例中,执行智能家庭装置操作244可包含基于性别、年龄和情绪VAD指示218产生推荐226。举例来说,如果检测到情绪话语,那么对应的服务(例如,抚慰的音乐)可以经由推荐226提供。替代地或另外,智能在线/电话呼叫助理操作246可基于性别、年龄和情绪VAD指示218执行,例如,通过产生广告230。作为说明性实例,广告可以是在电话呼叫期间针对等候接听的特定客户定制的,例如,基于客户的年龄。
参考图3,描绘过程的说明性方面并且一般将其表示为300。图3的过程300可包含一或多个训练操作302(例如,离线训练操作)。图3还说明过程300可包含一或多个装置上执行操作308。
训练操作302可包含操作的第一集合304。操作的第一集合304可包含音频训练、标记、收集、扩增、标准化、一或多个其它操作,或其组合。图3还描绘了可基于操作的第一集合304的一或多个结果训练音频认知和DNN模型的操作的第二集合306。操作的第二集合306可包含通用话语和非话语分类、近场话语分类、远场话语分类、情绪分类、一或多个其它操作,或其组合。
装置上执行操作308可包含在310处接收音频输入数据。举例来说,可以接收图1的数据102或图2的音频输入数据208。装置上执行操作308可进一步包含在312处的特性提取和标准化。举例来说,特性提取可包含产生表示音频输入数据的数据,例如,作为说明性实例,输入音频数据的样本的频率表示的直方图。
图3还描绘了在314处的DNN执行。举例来说,在DNN执行期间,图1的话语处理引擎104可使用图1的DNN模型144以基于从输入音频数据中提取的特性识别一或多个特征。DNN执行可包含确定图1的第一特征140,例如,使用参考特征142。另外,DNN执行可根据训练操作302的一或多个方面执行,例如,使用在训练操作302期间确定的一或多个DNN模型。DNN执行可引起一或多个音频认知标记,例如,年龄、性别、距离或情绪标记,其可对应于图1的第一特征140。装置上执行操作308可进一步包含一或多个音频特征操作316,例如,语音激活操作、声纹操作(例如,以将话语转换成文本),或语音识别操作。装置上执行操作308可进一步包含使用DSP的一或多个基于数字信号处理器(DSP)的音频特征操作318,例如,通过执行噪声抵消或话语或音频编码或解码。
参考图4,描绘了DNN训练方案的说明性方面并且一般将其表示为400。DNN训练方案400可以结合一或多个DNN模型应用,例如,图1的DNN模型144。
在402处,DNN训练方案400包含数据扩增。举例来说,数据扩增可包含滤波、确定说话距离、确定噪声类型、确定SNR状况或确定情绪中的一或多个。为了说明,指示参考话语模式的参考数据可以与特定情绪和特定说话距离相关联,并且可以分析参考数据以确定图1的参考特征142。
在404处,DNN训练方案400可进一步包含特性设计。举例来说,特性设计可包含产生滤波器组、执行情境级联,或执行标准化。特性设计可使用与话语数据414或非话语数据416中的一或多个相关联的梅尔频率倒谱系数(MFCC)和对数梅尔频带频谱执行。数据414、416的多个帧的特性可以组合(例如,级联)并且在特性设计期间使用。另外,数据414、416的输入特性可以是使用多个帧的特性经标准化的,例如,使用全球平均值、全球方差,或两者。
在406处,DNN训练方案400可进一步包含设计DNN模型,例如,通过产生图1的DNN模型144。设计DNN模型可包含设计神经网络、执行压降操作,或执行去噪操作。在特定实例中,设计DNN模型包含执行压降和去噪操作用于DNN模型的一般化。DNN模型可具有前馈的完全地连接的配置。
在408处,DNN训练方案400可进一步包含后处理。后处理可包含取阈值操作、掩蔽操作或池化操作中的一或多个。取阈值操作可包含确定DNN模型的输出概率。举例来说,如果对应于话语(或特定话语特征)的输出(例如,话语标记418)的概率满足阈值,那么作出检测到话语(或特定话语特征)的确定。
在410处,DNN训练方案400可进一步包含通用语音活动检测。举例来说,话语数据414可以输入到DNN模型144以产生话语标记418,并且非话语数据416可以输入到DNN模型144以产生非话语标记422。话语标记418和非话语标记422可对应于DNN模型144的节点。举例来说,话语标记418可对应于DNN模型144的输出节点,DNN模型144的输出节点对应于“默认”(或“普通”)话语,并且非话语标记422可对应于DNN模型144的非话语(例如,噪声)输出节点。
在412处,DNN训练方案400可进一步包含情绪话语分类。举例来说,分类的情绪话语数据424可以输入到DNN模型144以产生分类的情绪标记426(例如,愤怒、无聊、厌恶、害怕、愉快、悲伤、一或多个其它分类的情绪标记,或其组合)。分类的情绪标记426可对应于DNN模型144的节点。举例来说,分类的情绪标记426可对应于DNN模型144的输出节点,例如,作为说明性实例,愤怒、无聊、厌恶、害怕、愉快和悲伤输出节点。与分类的情绪标记426相关联的一或多个输出节点可对应于图1的第一特征140。
替代地或除了产生分类的情绪标记426之外,DNN训练方案400可包含产生对应于一或多个其它特征的DNN模型144的输出节点。举例来说,标记可以是对应于年龄、性别、一或多个其它分类或其组合产生的。标记可对应于DNN模型144的输出节点。
DNN训练方案400可进一步包含确定与用于一或多个标记的多个对应的“置信度水平”(或“权重”)相关联的多个输出节点。为了说明,对于特定情绪,DNN模型144的第一输出节点可指示第一置信度水平(例如,90%概率)、第二置信度水平(例如,50%概率)和第三置信度水平(例如,10%概率)。
参考图5,描绘了在装置处选择话语码本的方法的说明性实例并且一般将其表示为500。在说明性实例中,在图1的装置100处执行方法500。
在502处,方法500包含在装置处接收数据,所述数据对应于话语。举例来说,话语处理引擎104可接收数据102,并且数据102可对应于话语。
在504处,方法500进一步包含通过装置从多个话语码本之中选择特定话语码本。特定话语码本是基于与话语相关联的第一特征与参考特征相差至少阈值量选择的,并且特定话语码本与第一特征相关联。为了说明,图1的选择电路106可响应于第一特征140与参考特征142相差至少阈值量从多个话语码本108中选择特定话语码本。
图5的方法500可改进装置的操作,例如,图1的装置100。举例来说,基于特定话语特征的特定话语码本的使用可实现基于特定话语的操作的“定制”以补偿话语的特征(例如,作为说明性实例,通过补偿由于情绪的减少的可懂度)。
参考图6,描绘了电子装置的特定说明性实例的框图并且一般将其表示为600。在说明性实例中,电子装置600对应于移动装置(例如,蜂窝电话)。替代地或另外,电子装置600的一或多个方面可以在以下项内实施:计算机(例如,服务器、膝上型计算机、平板计算机或桌上型计算机)、存取点、基站、可穿戴电子装置(例如,个人相机、头戴式显示器,或手表)、车辆控制系统或控制台、自主车辆(例如,机器人汽车或无人机)、家用电器、机顶盒、娱乐装置、导航装置、个人数字助理(PDA)、电视、监视器、调谐器、收音机(例如,卫星收音机)、音乐播放器(例如,数字音乐播放器或便携式音乐播放器)、视频播放器(例如,数字视频播放器,例如,数字视频光盘(DVD)播放器或便携式数字视频播放器)、机器人、医疗保健装置、另一电子装置或其组合。
电子装置600包含一或多个处理器,例如,处理器610和图形处理单元(GPU)696。处理器610可包含中央处理单元(CPU)、DSP、另一处理装置,或其组合。
电子装置600可进一步包含一或多个存储器,例如,存储器632。存储器632可以耦合到处理器610,耦合到GPU 696,或耦合到这两者。存储器632可包含随机存取存储器(RAM)、磁阻随机存取存储器(MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、一或多个寄存器、硬盘、可移动的磁盘、压缩光盘只读存储器(CD-ROM)、另一存储器装置,或其组合。
存储器632可存储指令660。指令660可以是可通过处理器610、通过GPU 696或通过这两者执行的。指令660可以是可执行以执行、起始或控制参考图5的方法500所描述的一或多个操作。
编解码器634也可以耦合到处理器610。编解码器634可以耦合到一或多个麦克风,例如,麦克风638。编解码器634可包含存储器118。存储器118可存储可通过编解码器634执行的指令695。存储器118可存储多个话语码本108。在图6的实例中,编解码器634包含话语处理引擎104和选择电路106。在其它实施方案中,话语处理引擎104和选择电路106可以在编解码器634外部。
图6还示出了耦合到处理器610并耦合到显示器628的显示器控制器626。扬声器636可以耦合到编解码器634。
电子装置600可进一步包含耦合到天线642的收发器640。收发器640可经配置以接收基于图1的数据102的经编码音频信号602。替代地或另外,收发器640可经配置以发射经编码音频信号602(例如,使用选自多个话语码本108的话语码本产生的数据102的话语经编码版本)。
在特定实例中,处理器610、GPU 696、存储器632、显示器控制器626、编解码器634和收发器640包含在芯片上系统(SoC)装置622中。另外,输入装置630和电源644可耦合到SoC装置622。此外,在特定实例中,如图6中所说明,显示器628、输入装置630、扬声器636、麦克风638、天线642和电源644在SoC装置622外部。然而,显示器628、输入装置630、扬声器636、麦克风638、天线642和电源644中的每一个可耦合到SoC装置622的组件,例如,耦合到接口或耦合到控制器。
参考图7,描绘了基站700的特定说明性实例的框图。在各种实施方案中,基站700可具有比图7中说明的更多的组件或更少的组件。在说明性实例中,基站700可包含图1的装置100。在说明性实例中,基站700可根据图1的方法500操作。
基站700可以是无线通信系统的部分。无线通信系统可包含多个基站和多个无线装置。无线通信系统可以是长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统或一些其它无线系统。CDMA系统可实施宽带CDMA(WCDMA)、CDMA 1X、演进数据优化(EVDO)、时分同步CDMA(TD-SCDMA),或一些其它版本的CDMA。
无线装置还可被称作用户设备(UE)、移动站、终端、存取终端、订户单元、站等。无线装置可包含蜂窝电话、智能电话、平板计算机、无线调制解调器、个人数字助理(PDA)、手持式装置、膝上型计算机、智能本、上网本、平板计算机、无绳电话、无线本地环路(WLL)站、蓝牙装置等。无线装置可包含或对应于图6的电子装置600。
各种功能可通过基站700的一或多个组件执行(和/或在其它未示出的组件中),例如,发送和接收消息和数据(例如,音频数据)。在特定实例中,基站700包含处理器706(例如,CPU)。基站700可包含转码器710。转码器710可包含音频编解码器708。举例来说,转码器710可包含经配置以执行音频编解码器708的操作的一或多个组件(例如,电路)。作为另一实例,转码器710可经配置以执行一或多个计算机可读指令,以执行音频编解码器708的操作。虽然将音频编解码器708说明为转码器710的组件,但是在其它实例中,音频编解码器708的一或多个组件可包含在处理器706、另一处理组件或其组合中。举例来说,解码器738(例如,声码器解码器)可以包含在接收器数据处理器764中。作为另一实例,编码器736(例如,声码器编码器)可以包含在发射数据处理器782中。图7也说明音频编解码器708可包含话语处理引擎104和选择电路106。
转码器710可经配置以在两个或大于两个网络之间转码消息和数据。转码器710可经配置以将消息和音频数据从第一格式(例如,数字格式)转换为第二格式。为了说明,解码器738可对具有第一格式的经编码信号进行解码并且编码器736可将经解码信号编码成具有第二格式的经编码信号。另外或替代地,转码器710可经配置以执行数据速率适应。举例来说,转码器710可下变频转换数据速率或上变频转换数据速率,而不改变音频数据的格式。为了说明,转码器710可下变频转换64千位每秒(kbps)信号为16kbps信号。
音频编解码器708可包含编码器736和解码器738。编码器736可包含编码器选择器、话语编码器和非话语编码器。解码器738可包含解码器选择器、话语解码器和非话语解码器。
基站700可包含存储器732。例如计算机可读存储装置的存储器732可包含指令。指令可包含可由处理器706、转码器710或其组合执行以执行图5的方法500的一或多个操作的一或多个指令。基站700可包含耦合到天线的阵列的多个发射器和接收器(例如,收发器),例如,第一收发器752和第二收发器754。天线的阵列可包含第一天线742和第二天线744。天线的阵列可经配置以与一或多个无线装置无线地通信,例如,图6的电子装置600。举例来说,第二天线744可从无线装置接收数据流714(例如,位流)。数据流714可包含消息、数据(例如,经编码话语数据),或其组合。
基站700可包含网络连接760,例如,回程连接。网络连接760可经配置以与核心网络或无线通信网络的一或多个基站通信。举例来说,基站700可经由网络连接760从核心网络接收第二数据流(例如,消息或音频数据)。基站700可处理第二数据流以产生消息或音频数据,并且经由天线的阵列的一或多个天线将消息或音频数据提供到一或多个无线装置或经由网络连接760提供到另一基站。在特定实施方案中,作为说明性非限制性实例,网络连接760可以是广域网(WAN)连接。在一些实施方案中,核心网络可包含或对应于公共交换电话网络(PSTN)、包骨干网络或这两者。
基站700可包含耦合到网络连接760和处理器706的媒体网关770。媒体网关770可经配置以在不同电信技术的媒体流之间进行转换。举例来说,媒体网关770可在不同发射协议、不同译码方案或这两者之间进行转换。为了说明,作为说明性非限制性实例,媒体网关770可从PCM信号转换成实时传输协议(RTP)信号。媒体网关770可在包交换网络(例如,基于互联网协议的语音业务(VoIP)网络、IP多媒体子系统(IMS)、第四代(4G)无线网络,例如,LTE、WiMax和UMB等)、电路交换网络(例如,PSTN),以及混合网络(例如,第二代(2G)无线网络,例如,GSM、GPRS和EDGE,第三代(3G)无线网络,例如,WCDMA、EV-DO和HSPA等)之间转换数据。
另外,媒体网关770可包含转码器,例如,转码器710,并且可经配置以在编解码器不兼容时对数据进行转码。举例来说,作为说明性非限制性实例,媒体网关770可在适应性多速率(AMR)编解码器与G.711编解码器之间进行转码。媒体网关770可包含路由器和多个物理接口。在一些实施方案中,媒体网关770也可包含控制器(未示出)。在特定实施方案中,媒体网关控制器可以在媒体网关770外部或在基站700外部。媒体网关控制器可控制并协调多个媒体网关的操作。媒体网关770可从媒体网关控制器接收控制信号,并且可用于在不同发射技术之间进行桥接并可向终端用户能力和连接添加服务。
基站700可包含耦合到收发器752、754、接收器数据处理器764和处理器706的解调器762。接收器数据处理器764可以耦合到处理器706。解调器762可经配置以解调从收发器752、754接收到的经调制信号,并将经解调的数据提供到接收器数据处理器764。接收器数据处理器764可经配置以从经解调的数据提取消息或音频数据,并且将消息或音频数据发送到处理器706。
基站700可包含发射数据处理器782和发射多输入多输出(MIMO)处理器784。发射数据处理器782可耦合到处理器706和发射MIMO处理器784。发射MIMO处理器784可耦合到收发器752、754和处理器706。在一些实施方案中,发射MIMO处理器784可耦合到媒体网关770。作为说明性非限制性实例,发射数据处理器782可经配置以从处理器706接收消息或音频数据,且基于译码方案(例如,CDMA或正交频分多路复用(OFDM))来译码消息或音频数据。发射数据处理器782可将经译码数据提供到发射MIMO处理器784。
可使用CDMA或OFDM技术来使经译码的数据与其它数据(例如,导频数据)多路复用以产生经多路复用的数据。随后可通过发射数据处理器782基于特定调制方案(例如,二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M进制相移键控(“M-PSK”)、M进制正交振幅调制(“M-QAM”)等)来调制(即,符号映射)经多路复用的数据以产生调制符号。在特定实施方案中,可使用不同调制方案来调制经译码的数据和其它数据。每个数据流的数据速率、译码和调制可由处理器706所执行的指令确定。
发射MIMO处理器784可经配置以从发射数据处理器782接收调制符号,并且可进一步处理调制符号并可对数据执行波束成形。举例来说,发射MIMO处理器784可将波束成形权重应用到调制符号。波束成形权重可对应于从其发射调制符号的天线的阵列的一或多个天线。
在操作期间,基站700的第二天线744可接收数据流714。第二收发器754可从第二天线744接收数据流714,并且可将数据流714提供到解调器762。解调器762可解调数据流714的经调制信号,并且将经解调的数据提供到接收器数据处理器764。接收器数据处理器764可从经解调的数据提取音频数据,并且将所提取的音频数据提供到处理器706。
处理器706可将音频数据提供到转码器710以用于进行转码。转码器710的解码器738可将音频数据从第一格式解码成经解码的音频数据,并且编码器736可将经解码的音频数据编码成第二格式。在一些实施方案中,编码器736可使用与从无线装置接收的相比较高数据速率(例如,上变频转换)或较低数据速率(例如,下变频转换)对音频数据进行编码。在其它实施方案中,可不转码音频数据。尽管将转码(例如,解码和编码)说明为由转码器710执行,但转码操作(例如,解码和编码)可由基站700的多个组件执行。举例来说,解码可通过接收器数据处理器764执行,并且编码可通过发射数据处理器782执行。在其它实施方案中,处理器706可将音频数据提供到媒体网关770以用于转换成另一发射协议、译码方案或这两者。媒体网关770可经由网络连接760将经转换数据提供给另一基站或核心网络。
解码器738和编码器736可选择对应的解码器(例如,话语解码器或非话语解码器)以及对应的编码器以转码(例如,解码和编码)帧。解码器738和编码器736可在逐帧基础上确定数据流714的每个接收到的帧是对应于窄带帧还是宽带帧,并且可选择对应的解码输出模式(例如,窄带输出模式或宽带输出模式)和对应的编码输出模式以转码(例如,解码和编码)帧。在编码器736处产生的经编码音频数据,例如,经转码数据,可经由处理器706提供到发射数据处理器782或网络连接760。
来自转码器710的经转码音频数据可提供到发射数据处理器782以用于根据调制方案(例如,OFDM)来译码以产生调制符号。发射数据处理器782可将调制符号提供到发射MIMO处理器784以用于进一步处理和波束成形。发射MIMO处理器784可应用波束成形权重,且可经由第一收发器752将调制符号提供到天线的阵列的一或多个天线,例如,第一天线742。因此,基站700可将对应于从无线装置接收到的数据流714的经转码数据流716提供到另一无线装置。经转码数据流716可具有与数据流714不同的编码格式、数据速率或这两者。在其它实施方案中,可将经转码数据流716提供到网络连接760以用于发射到另一基站或核心网络。
结合所描述的实施例,设备包含用于接收对应于话语的数据(例如,数据102)并且用于确定与话语相关联的第一特征(例如,第一特征140)是否与参考特征(例如,参考特征142)相差至少阈值量的装置(例如,话语处理引擎104)。设备进一步包含用于基于第一特征与参考特征相差至少阈值量从多个话语码本(例如,多个话语码本108)之中选择特定话语码本的装置(例如,选择电路106)。特定话语码本与第一特征相关联。设备可进一步包含用于使用特定话语码本对数据进行编码的装置(例如,话语编解码器124),用于使用特定话语码本对数据进行解码的装置,或这两者。
结合所描述的实施例,计算机可读媒体(例如,存储器118、存储器632或存储器732)存储可由处理器(例如,处理器610、GPU 696、编解码器634的处理器、处理器706,或转码器710)执行的指令(例如,指令660或指令695)以使得处理器执行包括接收对应于话语的数据(例如,数据102)的操作。操作进一步包含基于与话语相关联的第一特征(例如,第一特征140)与参考特征(例如,参考特征142)相差至少阈值量从多个话语码本(例如,多个话语码本108)之中选择特定话语码本。特定话语码本与第一特征相关联。
如本文中所使用,“耦合”可包含通信耦合、电耦合、磁耦合、物理耦合、光学耦合及其组合。两个装置(或组件)可以经由一或多个其它装置、组件、导线、总线、网络(例如,有线网络、无线网络,或其组合)等直接或间接耦合(例如,通信耦合、电耦合或物理耦合)。电耦合的两个装置(或组件)可包含在同一装置或不同装置中且可经由作为说明性非限制性实例的电子装置、一或多个连接器或电感耦合而连接。在一些实施方案中,通信耦合,例如电通信的两个装置(或组件)可例如经由一或多个导线、总线、网络等直接或间接地发送和接收电信号(数字信号或模拟信号)。
如本文中所使用,“引擎”(例如,图1的话语处理引擎104)可包含硬件(例如,电路、处理器或这两者)、存储在计算机可读媒体中的处理器可执行指令,或其组合。为了说明,话语处理引擎104可包含具有经配置以接收指示第一特征140的第一信号的第一输入和经配置以接收指示参考特征142的第二信号的第二输入的比较器电路。比较器电路可经配置以比较第一特征140和参考特征142。比较器电路可包含经配置以产生具有指示第一特征140与参考特征142相差至少阈值量的第一值或指示第一特征140并不与参考特征142相差至少阈值量的第二值中的一个的第三信号的输出。替代地或另外,话语处理引擎104可包含经配置以执行指令以执行本文中所描述的一或多个操作的处理器,例如,作为说明性实例,通过执行比较指令以比较第一特征140和参考特征142。
如本文中所使用,“产生”、“计算”、“使用”、“选择”、“存取”和“确定”可互换使用。举例来说,“产生”、“计算”或“确定”值、特征、参数或信号可以指主动地产生、计算或确定值、特征、参数或信号,或者可以指使用、选择或存取已经产生的值、特征、参数或信号,例如,通过组件或装置。
上文所公开的装置和功能性可使用计算机文件(例如,RTL、GDSII、GERBER等)来设计和表示。计算机文件可存储在计算机可读媒体上。一些或所有此类文件可提供给基于此类文件制造装置的制造操作者。所得产品包含晶片,晶片随后被切割成裸片并封装到集成电路(或“芯片”)中。集成电路随后用于电子装置中,例如,图6的电子装置600。
虽然为方便起见已经单独地描述了某些实例,但是应注意此类实例的方面可以适当地组合而不脱离本发明的范围。举例来说,图1的装置100可经配置以基于参考图2、3、4和5所描述的一或多个方面操作。所属领域的技术人员将认识到其它此类修改在本发明的范围内。
结合本文中所公开的实例描述的各种说明性逻辑块、配置、模块、电路和算法步骤可实施为电子硬件、由处理器执行的计算机软件或两者的组合。上文已大体就其功能性而言描述了各种说明性组件、块、配置、模块、电路和步骤。此类功能性被实施为硬件还是处理器可执行指令取决于特定应用和施加于整个系统上的设计约束。所属领域的技术人员可以针对每一特定应用以不同方式实施所描述的功能性,但是此类实施决策不应被解释为引起对本发明的范围的脱离。
本文中所描述的方法或算法的一或多个操作可直接在硬件中,在由处理器执行的软件模块中,或在两者的组合中实施。举例来说,图5的方法500的一或多个操作可通过以下项起始、控制或执行:现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、例如中央处理单元(CPU)的处理单元、数字信号处理器(DSP)、控制器、其它硬件装置、固件装置或其组合。软件模块可驻留在以下项中:随机存取存储器(RAM)、磁阻随机存取存储器(MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动的磁盘、压缩光盘只读存储器(CD-ROM),或所属领域中已知的任何其它形式的非暂时性存储媒体。示例性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息和将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成整体。处理器和存储媒体可驻留在专用集成电路(ASIC)中。ASIC可驻留在计算装置或用户终端中。在替代方案中,处理器和存储媒体可以作为离散组件驻留在计算装置或用户终端中。
提供对所公开的实例的先前描述是为了使所属领域的技术人员能够制作或使用所公开的实例。所属领域的技术人员将容易明白对这些实例的各种修改,且在不脱离本发明的范围的情况下,本文中所定义的原理可应用于其它实例。因此,本发明并不意图限于本文中所示的实例,而应被赋予与如通过所附权利要求书定义的原理及新颖特征一致的可能的最广范围。

Claims (30)

1.一种设备,其包括:
话语处理引擎,其经配置以:
接收对应于话语的数据;
将与所述话语相关联的第一特征跟与普通话语相关联的参考特征进行比较以确定第一参数,所述第一特征指示用户的情绪,或所述用户与麦克风的经估计的距离;以及
将所述第一参数与对应于阈值量的第二参数进行比较,以确定所述第一特征跟与普通话语相关联的所述参考特征相差至少所述阈值量;
选择电路,其响应于所述话语处理引擎并且经配置以基于所述第一特征与所述参考特征相差至少所述阈值量从多个话语码本之中选择特定话语码本,所述特定话语码本与所述第一特征相关联,以及所述多个话语码本包括远场话语码本、近场话语码本和基于情绪的码本中的至少一个;以及
话语译码器/解码器(CODEC),其经配置以使用所述特定话语码本对所述数据进行编码或解码。
2.根据权利要求1所述的设备,其进一步包括耦合到所述选择电路的存储器,所述存储器经配置以存储所述多个话语码本,并且其中,所述选择电路进一步经配置以响应于关于所述第一特征不与所述参考特征相差至少所述阈值量的确定,选择普通话语码本而不是所述特定话语码本。
3.根据权利要求1所述的设备,其中,所述话语处理引擎进一步经配置以确定与所述话语相关联的第二特征与所述参考特征相差至少第二阈值量,并且其中,所述第二特征指示所述用户的环境。
4.根据权利要求1所述的设备,其中所述话语处理引擎进一步经配置以使用深度神经网络DNN模型识别所述第一特征。
5.根据权利要求4所述的设备,其中所述DNN模型经配置以生成指示所述话语的值,并且其中,所述值对应于所述第一特征。
6.根据权利要求3所述的设备,其中所述环境对应于建筑物的类型、建筑物的特定房间或车辆中的一或多个,并且其中,所述话语处理引擎、所述选择电路、以及所述话语CODEC被集成到移动电子装置中。
7.根据权利要求1所述的设备,其中所述多个话语码本包含普通话语码本。
8.根据权利要求1所述的设备,其进一步包括:
天线;以及
收发器,其耦合到所述天线并且经配置以接收基于所述数据的经编码音频信号,以发射所述经编码音频信号,或这两者。
9.根据权利要求8所述的设备,其中所述话语处理引擎、所述选择电路、所述收发器和所述天线被集成到基站中。
10.一种在装置处选择话语码本的方法,所述方法包括:
在装置处接收数据,所述数据对应于话语;
在所述装置处基于所述数据,将与所述话语相关联的第一特征跟与普通话语相关联的参考特征进行比较以确定第一参数,第一特征指示用户的情绪或所述用户与麦克风的经估计的距离;
在所述装置处将所述第一参数与对应于阈值量的第二参数进行比较,以确定所述第一特征跟与普通话语相关联的所述参考特征相差至少所述阈值量;
通过所述装置从多个话语码本之中选择特定话语码本,所述特定话语码本与所述第一特征相关联,以及所述多个话语码本包括远场话语码本、近场话语码本和基于情绪的码本中的至少一个;以及
使用所述特定话语码本对所述数据进行编码或解码。
11.根据权利要求10所述的方法,进一步包括生成指示所述话语的值,其中,所述值对应于所述第一特征。
12.根据权利要求10所述的方法,进一步包括:基于与所述话语相关联的第二特征与所述参考特征相差至少第二阈值量,通过所述装置从所述多个话语码本中选择第二话语码本,所述第二话语码本与所述用户的环境相关联,其中所述环境对应于建筑物的类型、建筑物的特定房间或车辆中的一或多个。
13.根据权利要求10所述的方法,其中所述第一特征是基于所述话语中的失真的量来识别的。
14.根据权利要求10所述的方法,其中所述特定话语码本是与值的集合相关联的。
15.根据权利要求10所述的方法,其进一步包括使用深度神经网络DNN模型识别所述第一特征。
16.根据权利要求10所述的方法,进一步包括:基于与所述话语相关联的第二特征与所述参考特征相差至少第二阈值量,通过所述装置从所述多个话语码本中选择第二话语码本。
17.根据权利要求10所述的方法,进一步包括执行以下中的一个或多个:
说话者识别操作以检测所述话语的来源;或
语音识别操作。
18.根据权利要求10所述的方法,其中所述选择包含识别远场话语码本、近场话语码本、或基于情绪的话语码本中的至少一个。
19.根据权利要求10所述的方法,其中所述特定话语码本是响应于通过对应于所述特定话语码本的所述第一特征指示的至少一个值选择的。
20.根据权利要求10所述的方法,其中所述接收、所述选择以及所述编码或解码是在包括移动电子装置的装置内执行的。
21.一种设备,其包括:
用于接收对应于话语的数据的装置;
用于将与所述话语相关联的第一特征跟与普通话语相关联的参考特征进行比较以确定第一参数的装置,所述第一特征指示用户的情绪或所述用户与麦克风的经估计的距离;以及
用于将所述第一参数与对应于阈值量的第二参数进行比较,以确定所述第一特征跟与普通话语相关联的所述参考特征相差至少所述阈值量的装置;
用于基于与所述参考特征相差至少所述阈值量的所述第一特征从多个话语码本之中选择特定话语码本的装置,所述特定话语码本与所述第一特征相关联,以及所述多个话语码本包括远场话语码本、近场话语码本、和基于情绪的码本中的至少一个;以及
用于使用所述特定话语码本来对所述数据进行编码或解码的装置。
22.根据权利要求21所述的设备,其进一步包括用于存储所述多个话语码本的装置。
23.根据权利要求21所述的设备,所述用于接收的装置经配置以确定与所述话语相关联的第二特征与所述参考特征相差至少第二阈值量,所述第二特征指示所述用户的环境。
24.根据权利要求21所述的设备,进一步包括经配置以生成指示所述话语的值的深度神经网络DNN模型,其中,所述值对应于所述第一特征。
25.根据权利要求21所述的设备,其中所述用于接收的装置、所述用于选择的装置、以及所述用于编码或解码的装置被集成到移动电子装置中。
26.一种存储指令的计算机可读介质,所述指令在由处理器执行时使得所述处理器发起或执行包括以下各项的操作:
接收对应于话语的数据;
基于所述数据,将与所述话语相关联的第一特征跟与普通话语相关联的参考特征进行比较以确定第一参数,所述第一特征指示用户的情绪或所述用户与麦克风的经估计的距离;
将所述第一参数与对应于阈值量的第二参数进行比较,以确定所述第一特征跟与普通话语相关联的所述参考特征相差至少所述阈值量;
基于与所述话语相关联的所述第一特征与所述参考特征相差至少所述阈值量,从多个话语码本之中选择特定话语码本,所述特定话语码本与所述第一特征相关联,以及所述多个话语码本包括远场话语码本、近场话语码本和基于情绪的码本中的至少一个;以及
基于所述特定话语码本来对所述数据进行编码或解码。
27.根据权利要求26所述的计算机可读介质,其中所述操作包括生成指示所述话语的值,并且其中,所述值对应于所述第一特征。
28.根据权利要求26所述的计算机可读介质,其中所述多个话语码本包含远场话语码本、近场话语码本、基于情绪的话语码本或普通话语码本中的至少一个。
29.根据权利要求26所述的计算机可读介质,其中所述操作进一步包括使用深度神经网络DNN模型识别所述第一特征。
30.根据权利要求26所述的计算机可读介质,其中所述操作包括:基于与所述话语相关联的第二特征与所述参考特征相差至少第二阈值量,从所述多个话语码本中选择第二话语码本,所述特定话语码本与所述第二特征相关联,以及所述第二特征指示所述用户的环境。
CN201780079428.1A 2017-01-12 2017-11-28 基于特征的话语码本选择 Active CN110114829B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/405,159 US10878831B2 (en) 2017-01-12 2017-01-12 Characteristic-based speech codebook selection
US15/405,159 2017-01-12
PCT/US2017/063438 WO2018132187A1 (en) 2017-01-12 2017-11-28 Characteristic-based speech codebook selection

Publications (2)

Publication Number Publication Date
CN110114829A CN110114829A (zh) 2019-08-09
CN110114829B true CN110114829B (zh) 2023-11-28

Family

ID=60661928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780079428.1A Active CN110114829B (zh) 2017-01-12 2017-11-28 基于特征的话语码本选择

Country Status (3)

Country Link
US (1) US10878831B2 (zh)
CN (1) CN110114829B (zh)
WO (1) WO2018132187A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11782879B2 (en) 2017-10-30 2023-10-10 AtomBeam Technologies Inc. System and method for secure, fast communications between processors on complex chips
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
CN109473122A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 基于检测模型的情绪分析方法、装置及终端设备
CN109545228A (zh) * 2018-12-14 2019-03-29 厦门快商通信息技术有限公司 一种端到端说话人分割方法及系统
US11636235B2 (en) * 2019-04-15 2023-04-25 Awi Licensing Llc Systems and methods of predicting architectural materials within a space
WO2020218634A1 (ko) * 2019-04-23 2020-10-29 엘지전자 주식회사 응답 기기 결정 방법 및 장치
CN112462622A (zh) * 2020-04-02 2021-03-09 张瑞华 一种生物特征识别的智能家居控制方法及智能控制设备
US20230230581A1 (en) * 2022-01-20 2023-07-20 Nuance Communications, Inc. Data augmentation system and method for multi-microphone systems

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5008941A (en) * 1989-03-31 1991-04-16 Kurzweil Applied Intelligence, Inc. Method and apparatus for automatically updating estimates of undesirable components of the speech signal in a speech recognition system
US5950155A (en) * 1994-12-21 1999-09-07 Sony Corporation Apparatus and method for speech encoding based on short-term prediction valves
WO2000025302A1 (fr) * 1998-10-27 2000-05-04 Matsushita Electric Industrial Co., Ltd. Codeur vocal plec
EP2189976A1 (en) * 2008-11-21 2010-05-26 Harman Becker Automotive Systems GmbH Method for adapting a codebook for speech recognition
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
CN105960628A (zh) * 2014-06-24 2016-09-21 谷歌公司 用于说话者验证的动态阈值

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494055A (zh) 1997-12-24 2004-05-05 ������������ʽ���� 声音编码方法和声音译码方法以及声音编码装置和声音译码装置
US6850884B2 (en) * 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
JP3932789B2 (ja) * 2000-09-20 2007-06-20 セイコーエプソン株式会社 Hmmの出力確率計算方法および音声認識装置
US20040243404A1 (en) * 2003-05-30 2004-12-02 Juergen Cezanne Method and apparatus for improving voice quality of encoded speech signals in a network
KR100651712B1 (ko) 2003-07-10 2006-11-30 학교법인연세대학교 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
EP2013997A1 (en) * 2006-04-28 2009-01-14 National ICT Australia Limited Packet based communications
WO2008092473A1 (en) * 2007-01-31 2008-08-07 Telecom Italia S.P.A. Customizable method and system for emotional recognition
US7797158B2 (en) 2007-06-20 2010-09-14 At&T Intellectual Property Ii, L.P. System and method for improving robustness of speech recognition using vocal tract length normalization codebooks
CN100578619C (zh) 2007-11-05 2010-01-06 华为技术有限公司 编码方法和编码器
US8392189B2 (en) * 2009-09-28 2013-03-05 Broadcom Corporation Speech recognition using speech characteristic probabilities
US8837706B2 (en) * 2011-07-14 2014-09-16 Intellisist, Inc. Computer-implemented system and method for providing coaching to agents in an automated call center environment based on user traits
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
US9721561B2 (en) 2013-12-05 2017-08-01 Nuance Communications, Inc. Method and apparatus for speech recognition using neural networks with speaker adaptation
US9648430B2 (en) * 2013-12-13 2017-05-09 Gn Hearing A/S Learning hearing aid
US10062374B2 (en) * 2014-07-18 2018-08-28 Nuance Communications, Inc. Methods and apparatus for training a transformation component
US9872296B2 (en) * 2015-01-06 2018-01-16 Qualcomm Incorporated Techniques for beam shaping at a millimeter wave base station and a wireless device and fast antenna subarray selection at a wireless device
US9812154B2 (en) * 2016-01-19 2017-11-07 Conduent Business Services, Llc Method and system for detecting sentiment by analyzing human speech
CN105761720B (zh) 2016-04-19 2020-01-07 北京地平线机器人技术研发有限公司 一种基于语音属性分类的交互系统及其方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5008941A (en) * 1989-03-31 1991-04-16 Kurzweil Applied Intelligence, Inc. Method and apparatus for automatically updating estimates of undesirable components of the speech signal in a speech recognition system
US5950155A (en) * 1994-12-21 1999-09-07 Sony Corporation Apparatus and method for speech encoding based on short-term prediction valves
WO2000025302A1 (fr) * 1998-10-27 2000-05-04 Matsushita Electric Industrial Co., Ltd. Codeur vocal plec
EP2189976A1 (en) * 2008-11-21 2010-05-26 Harman Becker Automotive Systems GmbH Method for adapting a codebook for speech recognition
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
CN105960628A (zh) * 2014-06-24 2016-09-21 谷歌公司 用于说话者验证的动态阈值

Also Published As

Publication number Publication date
CN110114829A (zh) 2019-08-09
US10878831B2 (en) 2020-12-29
US20180197557A1 (en) 2018-07-12
WO2018132187A1 (en) 2018-07-19

Similar Documents

Publication Publication Date Title
CN110114829B (zh) 基于特征的话语码本选择
US10565992B2 (en) Method and apparatus for recognizing speech by lip reading
TWI640979B (zh) 用於編碼一音訊信號之裝置及設備、選擇用於編碼一音訊信號之一編碼器之方法、電腦可讀儲存裝置及選擇一調整參數之一值以使一選擇偏向用於編碼一音訊信號之一特定編碼器的方法
EP3416166B1 (en) Processing speech signal using substitute speech data
CN104040626B (zh) 多译码模式信号分类
US10062390B2 (en) Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
CN1797542B (zh) 移动通信终端上用于语音识别的基带调制解调器及其方法
US9972334B2 (en) Decoder audio classification
CN112585674A (zh) 信息处理装置、信息处理方法和程序
US10720165B2 (en) Keyword voice authentication
CN114283791A (zh) 一种基于高维声学特征的语音识别方法及模型训练方法
US20240127838A1 (en) Media segment prediction for media generation
US20240127803A1 (en) Automatic Speech Recognition with Voice Personalization and Generalization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant