CN116583899A - 用户语音简档管理 - Google Patents
用户语音简档管理 Download PDFInfo
- Publication number
- CN116583899A CN116583899A CN202180080295.6A CN202180080295A CN116583899A CN 116583899 A CN116583899 A CN 116583899A CN 202180080295 A CN202180080295 A CN 202180080295A CN 116583899 A CN116583899 A CN 116583899A
- Authority
- CN
- China
- Prior art keywords
- audio
- feature data
- speaker
- audio feature
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 claims abstract description 162
- 239000000872 buffer Substances 0.000 claims description 143
- 230000004044 response Effects 0.000 claims description 101
- 238000000034 method Methods 0.000 claims description 56
- 238000004458 analytical method Methods 0.000 claims description 38
- 230000003993 interaction Effects 0.000 claims description 18
- 230000003190 augmentative effect Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000001413 cellular effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000010295 mobile communication Methods 0.000 claims description 3
- 239000000523 sample Substances 0.000 description 47
- 238000007726 management method Methods 0.000 description 37
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 235000021178 picnic Nutrition 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3231—Monitoring the presence, absence or movement of users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
一种设备包括处理器,其被配置为在第一功率模式下确定音频流是否对应于至少两个说话者的语音。处理器被配置为基于确定音频流对应于至少两个说话者的语音,在第二功率模式下分析音频流的音频特征数据以生成分段结果。处理器被配置为执行对多个用户语音简档与说话者同质音频段的多个音频特征数据集合中的音频特征数据集合的比较,以确定音频特征数据集合是否与用户语音简档中的任何一者相匹配。处理器被配置为基于确定音频特征数据集合与多个用户语音简档中的任何一者都不匹配,基于多个音频特征数据集合来生成用户语音简档。
Description
相关申请的交叉引用
本申请要求享受于2020年12月8日提交的、共同拥有的美国非临时专利申请No.17/115,158的优先权权益,其内容整体通过引用明确地并入本文中。
技术领域
概括而言,本公开内容与用户语音简档的管理相关。
背景技术
技术的进步已经导致了更小且更强大的计算设备。例如,目前存在各种便携式个人计算设备,包括无线电话(例如,移动电话和智能电话)、小型、轻量且容易被用户携带的平板计算机和膝上型计算机。这些设备可以通过无线网络传送语音和数据分组。此外,许多此类设备并入了额外的功能,例如,数字相机、数字摄像机、数字记录器和音频文件播放器。此外,此类设备可以处理可执行指令,包括软件应用,例如网络浏览器应用,其可以用于访问互联网。因此,这些设备可以包括重要的计算能力。
此类计算设备通常并入用于从一个或多个麦克风接收音频信号的功能。例如,音频信号可以表示由麦克风捕获的用户语音、由麦克风捕获的外部声音或其组合。此类设备可以包括依赖用户语音简档的应用,例如以用于用户识别。可以通过让用户说出预定词语或句子的脚本来训练用户语音简档。此类主动的用户注册以生成用户语音简档是耗时且不方便的。
发明内容
根据本公开内容的一种实现方式,用于音频分析的设备包括存储器和一个或多个处理器。该存储器被配置为存储多个用户的多个用户语音简档。一个或多个处理器被配置为在第一功率模式下确定音频流是否对应于至少两个不同说话者的语音。一个或多个处理器还被配置为:基于确定音频流对应于至少两个不同说话者的语音,在第二功率模式下分析音频流的音频特征数据以生成分段结果。分段结果指示音频流的说话者同质(talker-homogenous)音频段。一个或多个处理器进一步被配置为执行对多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定第一音频特征数据集合是否与多个用户语音简档中的任何一者相匹配。一个或多个处理器还被配置为,基于确定第一音频特征数据集合与多个用户语音简档中的任何一者都不匹配:基于第一多个音频特征数据集合来生成第一用户语音简档,并且将第一用户语音简档添加到多个用户语音简档中。
根据本公开内容的另一种实现方式,一种音频分析的方法包括:在设备处在第一功率模式下确定音频流是否对应于至少两个不同说话者的语音。该方法还包括:基于确定该音频流对应于至少两个不同说话者的语音,在第二功率模式下分析该音频流的音频特征数据以生成分段结果。分段结果指示音频流的说话者同质音频段。该方法进一步包括:在该设备处执行对多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定第一音频特征数据集合是否与多个用户语音简档中的任何一者相匹配。该方法还包括:基于确定第一音频特征数据集合与多个用户语音简档中的任何一者都不匹配:在该设备处,基于第一多个音频特征数据集合来生成第一用户语音简档,并且在该设备处将第一用户语音简档添加到多个用户语音简档中。
根据本公开内容的另一种实现方式,一种非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使得一个或多个处理器在第一功率模式下确定音频流是否对应于至少两个不同说话者的语音。所述指令在由一个或多个处理器执行时还使得处理器基于确定该音频流对应于至少两个不同说话者的语音,在第二功率模式下分析该音频流的音频特征数据以生成分段结果。分段结果指示音频流的说话者同质音频段。所述指令在由一个或多个处理器执行时还使得一个或多个处理器执行对多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定第一音频特征数据集合是否与多个用户语音简档中的任何一者相匹配。所述指令在由一个或多个处理器执行时还使得一个或多个处理器基于确定第一音频特征数据集合与多个用户语音简档中的任何一者都不匹配:基于第一多个音频特征数据集合来生成第一用户语音简档,并且将第一用户语音简档添加到多个用户语音简档中。
根据本公开内容的另一种实现方式,一种装置包括用于存储多个用户的多个用户语音简档的单元。该装置还包括用于在第一功率模式下确定音频流是否对应于至少两个不同说话者的语音的单元。该装置还包括用于在第二功率模式下分析音频流的音频特征数据以生成分段结果的单元。音频特征数据是基于确定音频流对应于至少两个不同说话者的语音而在第二功率模式下分析的。分段结果指示音频流的说话者同质音频段。该装置还包括用于执行对多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定第一音频特征数据集合是否与多个用户语音简档中的任何一者相匹配的单元。该装置还包括用于基于第一多个音频特征数据集合来生成第一用户语音简档的单元。第一用户语音简档是基于确定第一音频特征数据集合与多个用户语音简档中的任何一者都不匹配而生成的。该装置还包括用于将第一用户语音简档添加到多个用户语音简档中的单元。
本公开内容的其它方面、优点和特征将在审阅包括以下部分的整个申请后变得显而易见:附图说明、具体实施方式和权利要求书。
附图说明
图1是根据本公开内容的一些示例的用户语音简档管理的特定说明性示例的框图。
图2A是根据本公开内容的一些示例的可操作以执行用户语音简档管理的系统的特定说明性方面的示意图。
图2B是根据本公开内容的一些示例的图2A的系统的说明性组件的示意图。
图3是根据本公开内容的一些示例的与用户语音简档管理相关联的操作的说明性方面的示意图。
图4是根据本公开内容的一些示例的与用户语音简档管理相关联的操作的说明性方面的示意图。
图5是根据本公开内容的一些示例的与用户语音简档管理相关联的操作的说明性方面的示意图。
图6是根据本公开内容的一些示例的与用户语音简档管理相关联的操作的说明性方面的示意图。
图7是根据本公开内容的一些示例的与用户语音简档管理相关联的操作的说明性方面的示意图。
图8是根据本公开内容的一些示例的与用户语音简档管理相关联的操作的说明性方面的示意图。
图9是根据本公开内容的一些示例的与用户语音简档管理相关联的操作的说明性方面的示意图。
图10是根据本公开内容的一些示例的可以由图2A的系统执行的用户语音简档管理的方法的特定实现方式的示意图。
图11示出了根据本公开内容的一些示例的可操作以执行用户语音简档管理的集成电路的示例。
图12是根据本公开内容的一些示例的可操作以执行用户语音简档管理的移动设备的示意图。
图13是根据本公开内容的一些示例的可操作以执行用户语音简档管理的耳机的示意图。
图14是根据本公开内容的一些示例的可操作以执行用户语音简档管理的可穿戴电子设备的示意图。
图15是根据本公开内容的一些示例的可操作以执行用户语音简档管理的声控扬声器系统的示意图。
图16是根据本公开内容的一些示例的可操作以执行用户语音简档管理的虚拟现实或增强现实耳机的示意图。
图17是根据本公开内容的一些示例的可操作以执行用户语音简档管理的运载工具的第一示例的示意图。
图18是根据本公开内容的一些示例的可操作以执行用户语音简档管理的运载工具的第二示例的示意图。
图19是根据本公开内容的一些示例的可操作以执行用户语音简档管理的设备的特定说明性示例的框图。
具体实施方式
使用主动用户注册来训练用户语音简档(其中用户说出预定的词语或句子集合)可能是耗时且不方便的。例如,用户必须提前计划并花时间来训练用户语音简档。本文所公开的用户语音简档管理的系统和方法使得能够在不使用主动用户注册的情况下在多个发言者之间加以区分。例如,由分段器接收对应于一个或多个用户的语音的音频流。分段器生成分段结果,其指示音频流的说话者同质音频段。如本文所使用的,“说话者同质音频段”包括表示同一说话者的语音的音频部分(例如,音频帧)。例如,分段结果标识表示同一说话者的语音的音频帧集合。简档管理器比较音频帧集合中的音频帧的音频特征,以确定音频特征是否与多个存储的用户语音简档中的任何一者相匹配。响应于确定音频特征与存储的用户语音简档中的任何一者都不匹配,简档管理器至少部分地基于音频特征来生成用户语音简档。替代地,响应于确定音频特征与存储的用户语音简档相匹配,简档管理器至少部分地基于音频特征来更新该存储的用户语音简档。因此,可以使用被动注册来生成或更新用户语音简档,例如,在电话呼叫或会议期间。简档管理器还可以在多个说话者之间的对话期间生成或更新多个用户语音简档。在特定的示例中,简档管理器将所生成或更新的语音简档的简档标识符提供给一个或多个额外的音频应用。例如,音频应用可以执行针对音频流的语音到文本转换,以生成具有指示针对相应文本的说话者的标签的转录本。
下面参考附图描述本公开内容的特定方面。在描述中,共同的特征在整个附图中通过共同的附图标记来指定。在一些图中,使用了特定类型的特征的多个实例。尽管这些特征在物理上和/或在逻辑上是不同的,但是针对每个特征都使用相同的附图标记,并且不同的实例通过在附图标记上添加字母来加以区分。当本文提及作为一组或一种类型的特征时(例如,当没有引用特征中的特定一者时),使用了附图标记,而没有区分字母。然而,当本文提及同一类型的多个特征中的一个特定特征时,将附图标记与区分字母一起使用。例如,参考图1,多个帧被示出并且与附图标记l02A、102B和102C相关联。当提及这些帧中的特定一者(诸如帧102A)时,使用了区分字母“A”。然而,当提及这些帧中的任何的任意一者或将这些帧作为组提及时,使用了附图标记102,而没有区分字母。
如本文所使用的,各种术语仅用于描述特定实现方式的目的,而并不旨在对实现方式进行限制。例如,单数形式“一(a)”、“一(an)”和“该(the)”旨在也包括复数形式,除非上下文另外明确指示。此外,本文描述的一些特征在一些实现方式中是单数,而在其它实现方式中是复数。举例说明,图2A描绘了包括一个或多个处理器(图2A中的“处理器”220)的设备202,这表明在一些实现方式中,设备202包括单个处理器220,而在其它实现方式中,设备202包括多个处理器220。本文为了便于引用,此类特征通常被介绍为“一个或多个”特征,并且后续以单数形式来提及,除非正在描述与多个特征相关的方面。
如本文所使用的,术语“包括(comprise)”、“包括(comprises)”和“包括(comprising)”可以与“包含(include)”、“包含(includes)”或“包含(including)”互换使用。此外,术语“其中(wherein)”可以与“其中(where)”互换使用。如本文所使用的,“示例性的”指示示例、实现方式和/或方面,而不应被解释为限制性或指示偏好或优选的实现方式。如本文所使用的,用于修饰元素(例如,结构、组件、操作等)的序数术语(例如,“第一”、“第二”、“第三”等)本身并不指示该元素相对于另一元素的任何优先级或顺序,而只是将该元素与具有相同名称(但使用序数术语)的另一元素相区分。如本文所使用的,术语“集合”是指一个或多个特定元素,而术语“多个”是指多个(例如,两个或更多个)特定元素。
如本文所使用的,“耦合”可以包括“通信地耦合”、“电耦合”或“物理地耦合”,并且还可以(或替代地)包括其任何组合。两个设备(或组件)可以经由一个或多个其它设备、组件、导线、总线、网络(例如,有线网络、无线网络或其组合)等直接地或间接地耦合(例如,通信地耦合、电耦合或物理地耦合)。作为说明性的非限制性示例,两个电耦合的设备(或组件)可以被包括在同一设备中或不同的设备中,并且可以经由电子器件、一个或多个连接器或电感耦合来连接。在一些实现方式中,两个通信地耦合(例如,电通信)的设备(或组件)可以经由一条或多条导线、总线、网络等直接地或间接地发送和接收信号(例如,数字信号或模拟信号)。如本文所使用的,“直接地耦合”可以包括在没有介于中间的组件的情况下耦合(例如,通信地耦合、电耦合或物理地耦合)的两个设备。
在本公开内容中,诸如“确定”、“计算”、“估计”、“移位”、“调整”等术语可以用于描述如何执行一个或多个操作。应当注意的是,这些术语不应被解释为限制性的,并且可以利用其它技术来执行类似的操作。此外,如本文所提及的,“生成”、“计算”、“估计”、“使用”、“选择”、“访问”和“确定”可以互换使用。例如,“生成”、“计算”、“估计”或“确定”参数(或信号)可以是指主动生成、估计、计算或确定该参数(或信号),或者可以是指使用、选择或访问(例如,由另一组件或设备)已经生成的参数(或信号)。
图1示出了用户语音简档管理的示例100。在示例100中,分段器124和简档管理器126进行合作以处理音频流141,以在不使用说话者的主动用户注册的情况下区分来自多个说话者的语音。
音频流141包括多个离散部分,其在图1中被表示为帧102A、102B、102C。在该示例中,每个帧102表示或编码音频流141的音频的一部分。举例说明,每个帧102可以表示音频流的半秒钟的音频。在其它示例中,可以使用不同大小或持续时间的帧。
音频流141是作为输入被提供给分段器124的。分段器124被配置为将音频流141分成段,并且将每一段标识为包含来自单个说话者的语音、来自多个说话者的语音或静默。例如,在图1中,分段器124已经标识出音频部分151A的第一集合,其共同形成说话者同质音频段111A。类似地,分段器124已经标识出音频部分151C的第二集合,其共同形成第二说话者同质音频段111B。分段器124还标识出音频部分151B的集合,其共同形成静默或混合的说话者音频段113。静默或混合的说话者音频段113表示包括来自多个说话者的语音或包括无语音(例如,静默或非语音噪声)的声音。
在特定的示例中,如下面更详细地描述的,分段器124通过使用一个或多个机器学习分段模型(例如,神经网络)将音频流141分成段,这些模型被训练以执行发言者分段。在这个示例中,不需要说话者的预先注册。相反,分段器124被训练以通过比较音频流141的不同音频帧之间的说话者特性来在两个或更多个先前未知的说话者之间加以区分。分段器124可以区分的说话者的具体数量取决于机器学习分段模型的配置和训练。举例说明,在特定方面中,分段器124可以被配置为在三个说话者之间加以区分,在这种情况下,机器学习分段模型可以包括五个输出层节点,其对应于说话者1输出节点、说话者2输出节点、说话者3输出节点、静默输出节点和混合输出节点。在这方面中,每个输出节点被训练以生成分段分数作为输出,该分段分数指示被分析的音频部分151的集合与相应的输出节点相关联的可能性。举例说明,说话者1输出节点生成指示音频部分151的集合表示第一说话者的语音的分段分数,说话者2输出节点生成指示音频部分151的集合表示第二说话者的语音的分段分数,以此类推。
在特定的实现方式中,当分段器124被配置为在三个说话者之间加以区分时,机器学习分段模型可以包括四个输出层节点。例如,四个输出层节点包括说话者1输出节点、说话者2输出节点、说话者3输出节点和静默输出节点,而不包括混合输出节点。在该实现方式中,混合语音由多个说话者输出节点的指示音频部分151的集合表示对应说话者的语音的分段分数来指示。
在特定的实现方式中,当分段器124被配置为在三个说话者之间加以区分时,机器学习分段模型可以包括三个输出层节点。例如,三个输出层节点包括说话者1输出节点、说话者2输出节点和说话者3输出节点,而不包括静默输出节点。在该实现方式中,静默由说话者输出节点中的每一者的指示音频部分151的集合不表示对应说话者的语音的分段分数来指示。举例说明,在以下情况时,指示静默:说话者1输出节点生成指示音频部分151的集合不表示第一说话者的语音的分段分数,说话者2输出节点生成指示音频部分151的集合不表示第二说话者的语音的分段分数,而说话者3输出节点生成指示音频部分151的集合不表示第三说话者的语音的分段分数。在一些方面中,如本文使用的,“静默”可以是指“缺乏语音”,例如“非语音噪声”。
说话者同质音频段111的音频部分151中的每一者包括音频流141的多个帧102。举例说明,音频部分151A中的每一者可以包括表示五(5)秒声音的十(10)个音频帧102。在其它示例中,在每个音频部分中包括不同数量的帧,或者帧具有不同的大小,使得每个音频部分151A表示多于或少于十秒的声音。此外,每个说话者同质音频段111包括多个音频部分151。每个说话者同质音频段111的音频部分151的数量是可变的。例如,说话者同质音频段111可以继续,直到说话者的语音被打断,例如被一段时间的静默(例如,门限持续时间的静默)或被另一个说话者的语音打断。
分段器124向简档管理器126提供标识说话者同质音频段111的分段结果。简档管理器在存储器中维护用户语音简档(USP)150。每个用户语音简档150与简档标识符(ID)155相关联。在特定方面中,简档ID 155和用户语音简档150由简档管理器126生成(例如,简档ID 155和用户语音简档150不是基于用户预先注册的)。
响应于分段结果,简档管理器126将来自说话者同质音频段111的音频部分151与用户语音简档150进行比较。如果音频部分151与用户语音简档150之一相匹配(例如,与之充分相似),则简档管理器126基于音频部分151来更新用户语音简档150。例如,如果说话者同质音频段111A的音频部分151A与用户语音简档150A充分相似,则简档管理器126使用音频部分151A来更新用户语音简档150A。
如果音频部分151与用户语音简档150中的任何一者都不匹配,则简档管理器126基于音频部分151来添加用户语音简档150。例如,在图1中,简档管理器126基于说话者同质音频段111C的音频部分151C来生成用户语音简档150C,并且将简档ID 155C分配给用户语音简档150C。
简档管理器126还生成指示音频流141中的说话者或说话者变化的输出。例如,该输出可以包括与说话者同质音频段111相匹配的用户语音简档150的简档ID 155。一个或多个音频分析应用180基于说话者或说话者变化来生成结果。例如,音频分析应用180可以转录检测到的语音以生成文本,并且可以在文本中指示何时发生说话者变化。
参考图2A,公开了被配置为执行用户语音简档管理的系统的特定说明性方面,并且将其总体上指定为200。系统200包括与麦克风246耦合的设备202。设备202被配置为使用图1的分段器124和简档管理器126来执行用户语音简档管理。在特定方面中,设备202包括一个或多个处理器220,其包括特征提取器222、分段器124、简档管理器126、说话者检测器278、一个或多个音频分析应用180、或其组合。
特征提取器222被配置为生成表示音频流的音频部分(例如,音频帧)的特征的音频特征数据集合。分段器124被配置为指示表示同一说话者的语音的音频部分(或音频特征数据集合)。简档管理器126被配置为基于表示同一说话者的语音的音频部分(或音频特征数据集合)来生成(或更新)用户语音简档。说话者检测器278被配置为确定在音频流中检测到的说话者的计数。在特定的实现方式中,说话者检测器278被配置为响应于在音频流中检测到多个说话者而激活分段器124。在该实现方式中,当说话者检测器278在音频流中检测到单个说话者时,绕过分段器124,并且简档管理器126生成(或更新)对应于该单个说话者的用户语音简档。在特定的实现方式中,一个或多个音频分析应用180被配置为基于用户语音简档来执行音频分析。
在特定方面中,设备202包括耦合到一个或多个处理器220的存储器232。在特定方面中,存储器232包括一个或多个缓冲器,例如缓冲器268。存储器232被配置为存储一个或多个门限,例如分段门限257(图2A中的“Seg.Threshold”)。在特定方面中,该一个或多个门限是基于用户输入、配置设置、默认数据或其组合的。
在特定方面中,存储器232被配置为存储由特征提取器222、说话者检测器278、分段器124、简档管理器126、一个或多个音频分析应用180、或其组合生成的数据。例如,存储器232被配置为存储多个用户242的多个用户语音简档150、分段结果236(图2A中的“分段结果”)、音频特征数据集合252、音频部分151、分段分数254(图2A中的“分段分数”)、数据集合分段结果256(图2A中的“数据集合分段结果”)、简档ID 155或其组合。存储器232被配置为存储简档更新数据272、用户交互数据274(图2A中的“用户交互数据”)、或其组合。
设备202被配置为经由调制解调器、网络接口、输入接口或从麦克风246接收音频流141。在特定方面中,音频流141包括一个或多个音频部分151。例如,音频流141可以被分成对应于音频部分151的音频帧集合,其中每个音频帧表示音频流141的时间窗口部分。在其它示例中,音频流141可以以另一种方式被划分以生成音频部分151。音频流141的每个音频部分151包括或表示静默、来自用户242中的一者或多者的语音、或其它声音。表示来自单个用户的语音的音频部分151的集合被称为说话者同质音频段111。每个说话者同质音频段111包括多个音频部分151(例如,多个音频帧)。在特定方面中,说话者同质音频段111包括至少门限计数的音频帧(例如,5个音频帧)。在特定方面中,说话者同质音频段111包括对应于同一用户的语音的音频部分151的连续集合。在特定方面中,音频部分151的连续集合可以包括音频部分151的一个或多个子集,其中每个子集对应于指示语音中的自然短暂停顿的小于门限静默。
音频流141可以包括以下各项的各种组合:说话者同质音频段、对应于静默的音频段、对应于多个说话者的音频段、或其组合。作为一个示例,在图2A中,音频流141包括对应于用户242A的语音的说话者同质音频段111A的音频部分151A、对应于静默(或非语音噪声)的音频段113的音频部分151B、以及对应于用户242B的语音的说话者同质音频段111B的音频部分151C。在其它示例中,音频流114包括音频段的不同集合或排列。尽管音频部分被描述为是指音频帧,但在其它实现方式中,音频部分是指音频帧的一部分、多个音频帧、对应于特定语音或回放持续时间的音频数据、或其组合。
特征提取器222被配置为提取(例如,确定)音频流141的音频特征以生成音频特征数据集合252。例如,特征提取器222被配置为提取音频流141的音频部分151的音频特征以生成音频特征数据集合(AFDS)252。在特定方面中,音频特征数据集合252包括音频特征向量,例如嵌入向量。在特定方面中,音频特征数据集合252指示音频部分151的梅尔频率倒谱系数(MFCC)。在特定示例中,特征提取器222通过提取音频部分151A的音频特征来生成一个或多个音频特征数据集合252A。特征提取器222通过提取音频部分151B的音频特征来生成一个或多个音频特征数据集合252B。特征提取器222通过提取音频部分151C的音频特征来生成一个或多个音频特征数据集合252C。音频特征数据集合252包括一个或多个音频特征数据集合252A、一个或多个音频特征数据集合252B、一个或多个音频特征数据集合252C、或其组合。
在说明性的示例中,特征提取器222提取音频流141的每一帧的音频特征,并且将每一帧的音频特征提供给分段器124。在特定方面中,分段器124被配置为生成针对特定数量的音频帧(例如,10个音频帧)的音频特征的分段分数(例如,分段分数254)集合。例如,音频部分151包括特定数量的音频帧(例如,10个音频帧)。特定数量的音频帧的音频特征(例如,由分段器124用于生成特定的分段分数集合)对应于音频特征数据集合252。例如,特征提取器222提取第一音频帧的第一音频特征、第二音频帧的第二音频特征、以此类推(包括第十音频帧的第十音频特征)。分段器124基于第一音频特征、第二音频特征、以此类推(包括第十音频特征),生成第一分段分数254。例如,第一音频特征、第二音频特征、以及直至第十音频特征对应于第一音频特征数据集合252。类似地,特征提取器222提取第十一音频帧的第十一音频特征、第十二音频帧的第十二音频特征、以此类推(包括第二十音频帧的第二十音频特征)。分段器124基于第十一音频特征、第十二音频特征、以此类推(包括第二十音频特征),生成第二分段分数254。例如,第十一音频特征、第十二音频特征以及直至第二十音频特征对应于第二音频特征数据集合252。应当理解的是,基于十个音频帧来生成分段分数集合是作为说明性的示例来提供的。在其它示例中,分段器124基于少于十个音频帧或多于十个音频帧来生成分段分数集合。例如,音频部分151包括少于十个音频帧或多于十个音频帧。
分段器124被配置为生成针对每个音频特征数据集合的分段分数(例如,分段分数254)集合。例如,响应于向分段器124输入音频特征数据集合252,分段器124生成多个分段分数254。响应于音频特征数据集合252而生成的分段分数254的数量取决于分段器124被训练以区分的说话者的数量。作为一个示例,分段器124被配置为通过生成K个分段分数254的集合来区分K个不同说话者的语音。在这个示例中,每个分段分数254指示输入到分段器124的音频特征数据集合表示对应说话者的语音的概率。举例说明,当分段器124被配置为区分三(3)个不同说话者(例如,说话者292A、说话者292B和说话者292C)的语音时,K等于三(3)。在该说明性示例中,分段器124被配置为针对输入到分段器124的每个音频特征数据集合252来输出三(3)个分段分数254,例如分段分数254A、分段分数254B和分段分数254C。在这个说明性的示例中,分段分数254A指示音频特征数据集合252表示说话者292A的语音的概率,分段分数254B指示音频特征数据集合252表示说话者292B的语音的概率,而分段分数254C指示音频特征数据集合252表示说话者292C的语音的概率。在其它示例中,分段器124被配置为区分(上述示例中的K)的说话者的计数大于三或小于三。
说话者292对应于最近(例如,在分段窗口期间)已经由分段器124检测到的说话者集合。在特定方面中,说话者292不必为了被分段器124区分而预先注册。通过在未预先注册的多个用户的语音之间加以区分,分段器124实现了多个用户的被动注册。分段窗口包括多达特定计数的音频部分(例如,20个音频帧)、由分段器124在特定时间窗口(例如,20毫秒)期间处理的音频部分、或对应于特定语音持续时间或回放持续时间的音频部分。
在图2A中示出的示例中,表示音频流141的音频部分151的特征的音频特征数据集合252可以作为输入被提供给分段器124。在这个示例中,音频特征数据集合252表示用户242中的两者或更多者的语音,例如,音频特征数据集合252A表示用户242A的语音,音频特征数据集合252B表示静默,以及音频特征数据集合252C表示用户242B的语音。在特定的实现方式中,分段器124没有关于用户242的先验信息。例如,用户242没有向设备202预先注册。响应于音频特征数据集合252的输入,分段器124输出分段分数254A、分段分数254B和分段分数254C。每个分段分数254指示音频特征数据集合252表示相应说话者292的语音的概率,并且将分段分数254中的每一者与分段门限257进行比较。如果针对音频特征数据集合252的分段分数254之一满足分段门限257,则指示在音频特征数据集合252中检测到相应说话者292的语音。举例说明,如果针对音频特征数据集合252的分段分数254A满足分段门限257,则指示在音频特征数据集合252(以及由音频特征数据集合252表示的音频部分151)中检测到说话者292A的语音。对于音频特征数据集合252A、音频特征数据集合252B和音频特征数据集合252C中的每一者执行类似操作。
分段器124使用说话者292作为针对在分段窗口期间的未知用户的占位符(例如,对于分段器124未知的、与由音频特征数据集合252表示的语音相关联的用户242)。例如,音频特征数据集合252A对应于用户242A的语音。分段器124生成针对音频特征数据集合252A中的每一者的满足分段门限257的分段分数254A,以指示音频特征数据集合252A对应于说话者292A(例如,针对用户242A的占位符)的语音。作为另一个示例,音频特征数据集合252C对应于用户242B的语音。分段器124生成针对音频特征数据集合252C中的每一者的满足分段门限257的分段分数254B,以指示音频特征数据集合252C对应于说话者292B(例如,针对用户242B的占位符)的语音。
在特定的实现方式中,当说话者292A(例如,用户242A)的语音在分段窗口的持续时间内尚未被检测到时(例如,门限持续时间自检测到与说话者292A相关联的先前语音以来已期满),分段器124可以重用说话者292A(例如,分段分数254A)作为针对另一用户(例如,用户242C)的占位符。分段器124可以通过在与说话者占位符相关联的先前用户在分段窗口期间尚未说话时针对另一用户重用说话者占位符来区分与音频流141中的多于预定计数的说话者(例如,多于K个说话者)相关联的语音。在特定的实现方式中,响应于确定在分段窗口内检测到说话者292A(例如,用户242A)、说话者292B(例如,用户242B)和说话者292C(例如,用户242C)中的每一者的语音,并且确定检测到与另一用户(例如,用户242D)相关联的语音,分段器124基于确定最近最少检测到说话者292A(例如,用户242A)的语音而重用说话者占位符(例如,说话者292A)。
在特定方面中,分段器124包括或对应于经训练的机器学习系统,例如神经网络。例如,分析音频特征数据集合252包括对音频特征数据集合252应用发言者分段神经网络(或另一基于机器学习的系统)。
在特定方面中,分段器124基于分段分数254来生成数据集合分段结果256。数据集合分段结果256指示在音频部分151中检测到的说话者292(如果有的话)。例如,由分段器124输出的数据集合分段结果256指示:响应于确定针对说话者292的分段分数254满足(例如,大于)分段门限257而检测到说话者292的语音。举例说明,当音频特征数据集合252的分段分数254A满足分段门限257时,分段器124生成针对音频特征数据集合252的数据集合分段结果256(例如,“1”),其指示在音频部分151中检测到说话者292A的语音。在另一个示例中,当音频特征数据集合252的分段分数254A和分段分数254B中的每一者满足分段门限257时,分段器124生成针对音频特征数据集合252的数据集合分段结果256(例如,“1,2”),以指示在音频部分151中检测到说话者292A和说话者292B(例如,多个说话者)的语音。在特定示例中,当针对音频特征数据集合252的分段分数254A、分段分数254B和分段分数254C中的每一者未能满足分段门限257时,分段器124生成针对音频特征数据集合252的数据集合分段结果256(例如,“0”),以指示在音频部分151中检测到静默(或非语音音频)。针对音频部分151(或音频特征数据集合252)的分段结果236包括针对音频部分151(或音频特征数据集合252)的分段分数254、数据集合分段结果256或二者。
分段器124被配置为将针对音频部分151(例如,音频特征数据集合252)的分段结果236提供给简档管理器126。简档管理器126被配置为:响应于确定音频特征数据集合252与多个用户语音简档150中的任何一者都不匹配,至少部分地基于音频特征数据集合252来生成用户语音简档150。在特定方面中,简档管理器126被配置为基于说话者同质音频段111来生成用户语音简档150。例如,简档管理器126被配置为基于说话者同质音频段111A的音频特征数据段152A来生成针对说话者292A(例如,针对用户242A的占位符)的用户语音简档150A。用户语音简档150A表示用户242A的语音(例如,对其建模)。替代地,简档管理器126被配置为:响应于确定音频特征数据集合252与用户语音简档150相匹配,基于音频特征数据集合252来更新用户语音简档150。例如,简档管理器126被配置为基于与用户语音简档150A相匹配的后续音频部分来更新表示用户242A的语音的用户语音简档150A,而与针对后续音频部分使用哪个说话者292作为针对用户242A的占位符无关。在特定方面中,简档管理器126响应于生成或更新用户语音简档150来输出用户语音简档150的简档ID 155。
在特定的实现方式中,说话者检测器278被配置为基于从音频流141中提取的音频特征来确定在音频流141中检测到的说话者的计数。在特定方面中,说话者检测器278基于由特征提取器222提取的音频特征数据集合252来确定说话者的计数。例如,由说话者检测器278用于确定说话者的计数的音频特征可以与由分段器124用于生成分段结果236并且由简档管理器126用于生成或更新用户语音简档150的音频特征相同。在替代方面中,说话者检测器278基于由不同于特征提取器222的第二特征提取器提取的音频特征来确定说话者的计数。在该方面中,由说话者检测器278用于确定说话者的计数的音频特征可以不同于由分段器124用于生成分段结果236并且由简档管理器126用于生成或更新用户语音简档150的音频特征。在特定方面中,说话者检测器278响应于在音频流141中检测到至少两个不同的说话者来激活分段器124。例如,当在音频流141中检测到多个说话者时,分段器124处理音频特征数据集合252。替代地,当说话者检测器278在音频流141中检测到单个说话者的语音时,分段器124被绕过,并且简档管理器126处理音频特征数据集合252以生成或更新用户语音简档150。
在一些实现方式中,设备202对应于或被包括在一种或多种类型的设备中。在说明性的示例中,一个或多个处理器220被集成在包括麦克风246的耳机设备中,例如参考图13进一步描述的。在其它示例中,一个或多个处理器220被集成在以下各者中的至少一者中:移动电话或平板计算机设备(如参考图12所描述的)、可穿戴电子设备(如参考图14所描述的)、声控扬声器系统(如参考图15所描述的)、或者虚拟现实耳机或增强现实耳机(如参考图16所描述的)。在另一说明性的示例中,一个或多个处理器220被集成到也包括麦克风246的运载工具中,例如参考图17和图18进一步描述的。
在操作期间,一个或多个处理器220接收对应于一个或多个用户242(例如,用户242A、用户242B、用户242C、用户242D、或其组合)的语音的音频流141。在特定示例中,一个或多个处理器220从捕获一个或多个用户的语音的麦克风246接收音频流141。在另一示例中,音频流141对应于存储在存储器232中的音频回放文件,并且一个或多个处理器220从存储器232接收音频流141。在特定方面中,一个或多个处理器220经由输入接口或网络接口(例如,调制解调器的网络接口)从另一设备接收音频流141。
在特征提取阶段期间,特征提取器222生成音频流141的音频特征数据集合252。例如,特征提取器222通过确定音频流141的音频部分151的特征来生成音频特征数据集合252。在特定示例中,音频流141包括音频部分151A、音频部分151B、音频部分151C、或其组合。特征提取器222生成表示音频部分151A的特征的音频特征数据集合252A、表示音频部分151B的特征的音频特征数据集合252B、以及表示音频部分151C的特征的音频特征数据集合252C、或其组合。例如,特征提取器222通过提取音频部分151的音频特征,来生成针对音频部分151(例如,音频帧)的音频特征数据集合252(例如,特征向量)。
在分段阶段期间,分段器124分析音频特征数据集合252以生成分段结果236。例如,分段器124分析音频部分151(例如,音频帧)的音频特征数据集合252(例如,特征向量)以生成针对音频部分151的分段分数254。举例说明,分段分数254包括分段分数254A(例如,0.6),其指示音频部分151对应于说话者292A的语音的可能性。分段分数254还包括分段分数254B(例如,0)和分段分数254C(例如,0),其指示音频部分151分别对应于说话者292B和说话者292C的语音的可能性。在特定方面中,响应于确定分段分数254A满足分段门限257并且分段分数254B和分段分数254C中的每一者未能满足分段门限257,分段器124生成数据集合分段结果256,其指示音频部分151对应于说话者292A的语音,并且不对应于说话者292B或说话者292C的语音。分段器124生成分段结果236,其指示针对音频部分151的分段分数254、数据集合分段结果256、或二者。
在特定示例中,在分段阶段期间,响应于确定多个分段分数(例如,分段分数254A和分段分数254B)中的每一者满足分段门限257,分段器124生成分段结果236,其指示音频部分151对应于多个说话者(例如,说话者292A和说话者292B)的语音。
简档管理器126基于分段结果236来处理音频部分151(例如,音频特征数据集合252),如参考图2B进一步描述的。在图2B中,存储器232包括注册缓冲器234、探测缓冲器240或其组合。例如,存储器232包括为说话者292中的每一者指定的注册缓冲器234和探测缓冲器240。举例说明,存储器232包括为说话者292A指定的注册缓冲器234A和探测缓冲器240A、为说话者292B指定的注册缓冲器234B和探测缓冲器240B以及为说话者292C指定的注册缓冲器234C和探测缓冲器240C。存储器232被配置为存储注册门限264、简档门限258、静默门限294,或其组合。存储器232被配置为存储指示以下各项的数据:停止条件270、语音简档结果238、静默计数262(图2B中的“Sil Count”)或其组合。
简档管理器126被配置为在简档检查阶段期间,确定音频特征数据集合252是否与现有用户语音简档150相匹配。在特定方面中,简档管理器126使用与由分段器124用于生成分段结果236的音频特征相同的音频特征来进行与用户语音简档150的比较或对其的更新。在另一方面中,简档管理器126使用与由分段器124用于生成分段结果236的第一音频特征不同的第二音频特征来进行与用户语音简档150的比较或对其的更新。
在特定的实现方式中,简档管理器126被配置为在与用户语音简档150进行比较之前在探测缓冲器240中收集对应于同一说话者的音频特征数据集合252,以改善比较的准确性。如果音频特征数据集合252与现有用户语音简档相匹配,则简档管理器126被配置为在更新阶段期间,基于音频特征数据集合252来更新现有用户语音简档。如果音频特征数据集合252与现有用户语音简档不匹配,则简档管理器126被配置为在注册阶段期间,将音频特征数据集合252添加到注册缓冲器234,并且响应于确定存储在注册缓冲器234中的音频特征数据集合252满足注册门限264,基于存储在注册缓冲器234中的音频特征数据集合252来生成用户语音简档150。
在简档检查阶段期间,响应于确定没有用户语音简档可用并且分段结果236指示音频部分151对应于说话者(例如,说话者292A)的语音,简档管理器126将音频特征数据集合252添加到针对说话者292指定的注册缓冲器234(例如,注册缓冲器234A),并且进行到注册阶段。
在特定方面中,响应于确定至少一个用户语音简档150可用,简档管理器126执行对音频特征数据集合252与至少一个用户语音简档150的比较,以确定音频特征数据集合252是否与至少一个用户语音简档l50中的任何一者相匹配。响应于确定至少一个用户语音简档150可用并且分段结果236指示音频部分151对应于说话者292(例如,说话者292A)的语音,简档管理器126将音频特征数据集合252添加到针对说话者292指定的探测缓冲器240(例如,探测缓冲器240A)。
简档管理器126确定存储在探测缓冲器240中的音频特征数据集合(例如,包括音频特征数据集合252)是否与至少一个用户语音简档150中的任何一者相匹配。例如,简档管理器126基于对探测缓冲器240(例如,探测缓冲器240A)的音频特征数据集合(例如,包括音频特征数据集合252)和至少一个用户语音简档150中的每一者的比较,来生成语音简档结果238。举例说明,简档管理器126基于探测缓冲器240(例如,探测缓冲器240A)的音频特征数据集合(例如,包括音频特征数据集合252)和用户语音简档150A的比较而生成语音简档结果238A。
在特定方面中,响应于确定在探测缓冲器240(例如,探测缓冲器240A)中有单个音频特征数据集合(例如,音频特征数据集合252)可用,简档管理器126基于对单个音频特征数据集合和用户语音简档150A的比较来生成语音简档结果238A。替代地,响应于确定在探测缓冲器240(例如,探测缓冲器240A)中有多个音频特征数据集合(例如,包括音频特征数据集合252)可用,简档管理器126基于对多个音频特征数据集合和用户语音简档150A的比较来生成语音简档结果238A。例如,简档管理器126基于对音频特征数据集合252和用户语音简档150A的比较来生成第一数据集合结果,基于对探测缓冲器240的第二音频特征数据集合和用户语音简档150A的比较来生成第二数据集合结果,基于对探测缓冲器240的额外音频特征数据集合和用户语音简档150A的比较来生成额外数据集合结果,或其组合。简档管理器126基于第一数据集合结果、第二数据集合结果、额外数据集合结果(例如,其加权平均)或其组合来生成语音简档结果238A。在特定方面中,将较高的权重分配给最近添加到探测缓冲器240的音频特征数据集合的数据集合结果。
语音简档结果238A指示音频特征数据集合与用户语音简档150A相匹配的可能性。类似地,简档管理器126基于对探测缓冲器240(例如,探测缓冲器240A)的音频特征数据集合(例如,包括音频特征数据集合252)和用户语音简档150B的比较来生成语音简档结果238B。
在特定方面中,简档管理器126选择指示音频特征数据集合252与对应的用户语音简档150相匹配的最高可能性的语音简档结果238。例如,响应于确定语音简档结果238A指示与语音简档结果238B相比(例如,大于或等于)较高的匹配可能性,简档管理器126选择语音简档结果238A。响应于确定语音简档结果238A(例如,指示匹配的最高可能性的语音简档结果238A)满足(例如,大于或等于)简档门限258,简档管理器126确定存储在探测缓冲器240(例如,探测缓冲器240A)中的音频特征数据集合与用户语音简档150A相匹配,并且进行到更新阶段。替代地,响应于确定语音简档结果238A(例如,指示匹配的最高可能性的语音简档结果238A)未能满足(例如,小于)简档门限258,简档管理器126确定存储在探测缓冲器240(例如,探测缓冲器240A)中的音频特征数据集合与用户语音简档150中的任何一者都不匹配,并且进行到注册阶段。
在更新阶段期间,响应于确定音频特征数据集合252与用户语音简档150(例如,用户语音简档150A)相匹配,简档管理器126更新用户语音简档150并且输出用户语音简档150的简档ID 155。简档管理器126基于存储在探测缓冲器240中的音频特征数据集合来更新用户语音简档150(与存储在探测缓冲器240中的音频特征数据集合相匹配)。因此,用户语音简档150A随时间演变以匹配用户语音的变化。
在注册阶段期间,响应于确定分段结果236指示音频特征数据集合252表示说话者292(例如,说话者292A)的语音,简档管理器126将音频特征数据集合252添加到对应于说话者292的注册缓冲器234(例如,注册缓冲器234A)。简档管理器126确定存储在注册缓冲器234中的音频特征数据集合是否满足注册门限264。在特定方面中,响应于确定音频特征数据集合的计数大于或等于注册门限264(例如,48个音频特征数据集合),简档管理器126确定存储在注册缓冲器234中的音频特征数据集合满足注册门限264。在另一方面中,响应于确定音频特征数据集合的语音持续时间(例如,回放持续时间)大于或等于注册门限264(例如,2秒),简档管理器126确定存储在注册缓冲器234中的音频特征数据集合满足注册门限264。
响应于确定存储在注册缓冲器234中的音频特征数据集合未能满足注册门限264,简档管理器126避免基于存储在注册缓冲器234中的音频特征数据集合来生成用户语音简档150,并且继续处理音频流141的后续音频部分。在特定方面中,简档管理器126继续将表示说话者292(例如,说话者292A)的语音的后续音频特征数据集合添加到注册缓冲器234(例如,注册缓冲器234A),直到满足停止条件270为止。例如,响应于确定存储在注册缓冲器234中的音频特征数据集合(例如,包括音频特征数据集合252)的计数满足注册门限264、在音频流141中检测到长于门限静默或两者,简档管理器126确定满足停止条件270,如本文所描述的。举例说明,当注册缓冲器234中有足够的音频特征数据集合来生成用户语音简档时,或者当说话者292似乎已经停止说话时,满足停止条件270。
在特定方面中,响应于确定存储在注册缓冲器234中的音频特征数据集合(例如,包括音频特征数据集合252)满足注册门限264,简档管理器126基于存储在注册缓冲器234中的音频特征数据集合来生成用户语音简档150C,重置注册缓冲器234,将用户语音简档150C添加到多个用户语音简档150中,输出用户语音简档150C的简档ID 155,并且继续处理音频流141的后续音频部分。简档管理器126因此基于对应于同一说话者292(例如,说话者292A)的音频部分的音频特征数据集合来生成用户语音简档150C,这些音频特征数据集合被存储在针对说话者292(例如,说话者292A)指定的注册缓冲器234(例如,注册缓冲器234A)中。使用多个音频特征数据集合来生成用户语音简档150C改善了用户语音简档150A在表示说话者292A(例如,用户242A)的语音方面的准确性。因此,通过为用户生成用户语音简档(这些用户不必预先注册并且不必为了用户语音简档生成而说出预定的词语或句子),分段器124和简档管理器126实现了多个用户的被动注册。
在特定方面中,跳过或忽略将对应于多个说话者的音频部分用于生成或更新用户语音简档150。例如,响应于确定分段结果236指示音频部分151对应于多个说话者的语音,简档管理器126忽略音频部分151的音频特征数据集合252,并且继续处理音频流141的后续音频部分。例如,忽略音频特征数据集合252包括避免将音频特征数据集合252与多个用户语音简档150进行比较,避免基于音频特征数据集合252更新用户语音简档150,避免基于音频特征数据集合252生成用户语音简档150,或其组合。
在特定方面中,对应于短于门限静默的音频部分(例如,指示同一用户的语音中的自然短暂停顿)不被用于生成或更新用户语音简档150,但是被跟踪以检测长于门限静默。例如,在分段阶段期间,分段器124生成针对音频特征数据集合252的分段结果236,其指示音频部分151对应于静默。响应于确定音频部分151对应于静默,简档管理器126将静默计数262递增(例如,递增1)。在特定方面中,响应于确定静默计数262大于或等于静默门限294(例如,指示在用户已经完成说话之后的较长停顿),简档管理器126重置注册缓冲器234(例如,注册缓冲器234A、注册缓冲器234B和注册缓冲器234C)(例如,将其标记为空),重置探测缓冲器240(例如,探测缓冲器240A、探测缓冲器240B和探测缓冲器240C)(例如,将其标记为空),重置静默计数262(例如,将其重置为0),或其组合,并且继续处理音频流141的后续音频部分。在特定方面中,响应于确定静默计数262大于或等于静默门限294,简档管理器126确定满足停止条件270。响应于确定满足停止条件270,简档管理器126重置注册缓冲器234(例如,注册缓冲器234A、注册缓冲器234B和注册缓冲器234C)。
在特定方面中,简档管理器126向耦合到设备202的显示设备提供通知。该通知指示用户语音分析正在进行中。在特定方面中,简档管理器126基于指示是否要执行用户语音分析的用户输入来选择性地处理音频流141。
返回到图2A,在特定方面中,简档管理器126维护简档更新数据272以跟踪在处理音频流141期间生成或更新多少用户语音简档150。例如,响应于更新(或生成)用户语音简档150,简档管理器126更新简档更新数据272。在特定示例中,响应于更新用户语音简档150A,简档管理器126更新简档更新数据272以指示用户语音简档150A被更新。作为另一示例,响应于生成用户语音简档150C,简档管理器126更新简档更新数据272以指示用户语音简档150C被更新。响应于确定简档更新数据272指示多个用户语音简档150的第一计数在处理音频流141期间已被更新,简档管理器126输出该第一计数作为在音频流141中检测到的说话者的计数。
在特定方面中,简档管理器126维护用户交互数据274以跟踪检测到的与多个用户语音简档150中的每一者相匹配的语音的持续时间。简档管理器126基于更新(或生成)用户语音简档150来更新用户交互数据274。例如,响应于基于音频部分151来更新用户语音简档150A,简档管理器126更新用户交互数据274以指示与用户语音简档150A相关联的用户在音频部分151的语音持续时间内交互。作为另一示例,响应于基于音频部分151生成用户语音简档150C,简档管理器126更新用户交互数据274以指示与用户语音简档150C相关联的用户在音频部分151的语音持续时间内交互。举例说明,在基于说话者同质音频段111的音频部分而生成或更新用户语音简档150之后,用户交互数据274指示与用户语音简档150相关联的用户在说话者同质音频段111的语音持续时间内交互。在特定方面中,简档管理器126输出用户交互数据274。
在特定方面中,简档管理器126将简档ID 155、简档更新数据272、用户交互数据274、额外信息或其组合提供给一个或多个音频分析应用180。例如,音频分析应用180对音频特征数据集合252执行语音到文本转换,以生成音频流141的转录本。音频分析应用180基于从简档管理器126接收的针对音频特征数据集合252的简档ID 155来在转录本中标记对应于音频特征数据集合252的文本。
在特定方面中,一个或多个处理器220被配置为在多种功率模式中的一种功率模式下操作。例如,一个或多个处理器220被配置为在功率模式282(例如,始终开启的功率模式)或功率模式284(例如,按需功率模式)下操作。在特定方面中,与功率模式284相比,功率模式282是较低的功率模式。例如,一个或多个处理器220通过在功率模式282下操作(与功率模式284相比)来节约能量,并且在需要时转换到功率模式284以激活在功率模式282下没有操作的组件。
在特定示例中,设备202的功能中的一些功能在功率模式284下是活动的,但是在功率模式282下是不活动的。例如,说话者检测器278可以在功率模式282下和在功率模式284下被激活。在该示例中,特征提取器222、分段器124、简档管理器126、一个或多个音频分析应用180或其组合可以在功率模式284下被激活,而在功率模式282下不被激活。当音频流141对应于单个说话者的语音时,不必使用分段器124来在对应于不同说话者的音频部分之间加以区分。当不必使用分段器124时,保持在(或转换到)功率模式282减少了总体资源消耗。说话者检测器278被配置为在功率模式282下确定音频流141是否对应于至少两个不同说话者的语音。响应于确定说话者检测器278的输出指示音频流141对应于至少两个不同说话者的语音,一个或多个处理器220被配置为从功率模式282转换到功率模式284,并且激活分段器124。例如,分段器124在功率模式284下分析音频特征数据集合252以生成分段结果236。
在特定示例中,说话者检测器278和简档管理器126可以在功率模式282下和在功率模式284下被激活。在该示例中,特征提取器222、分段器124、一个或多个音频分析应用180或其组合可以在功率模式284下被激活而在功率模式282下不被激活。例如,响应于说话者检测器278的输出指示检测到单个说话者,一个或多个处理器220保持或转换到功率模式282。在功率模式282下,简档管理器126基于音频特征数据集合252来生成或更新单个说话者的用户语音简档150。替代地,响应于说话者检测器278的输出指示音频流141对应于至少两个不同的说话者的语音,一个或多个处理器220从功率模式282转换到功率模式284并且激活分段器124。例如,分段器124在功率模式284下分析音频特征数据集合252以生成分段结果236。
在特定示例中,特征提取器222、说话者检测器278、分段器124或其组合可以在功率模式282下和在功率模式284下被激活。在该示例中,简档管理器126、一个或多个音频分析应用180或其组合可以在功率模式284下被激活而在功率模式282下不被激活。在特定方面中,一个或多个处理器220被配置为:响应于确定分段结果236指示音频流141对应于至少两个不同说话者的语音,从功率模式282转换到功率模式284并且激活简档管理器126、一个或多个音频分析应用180或其组合。例如,简档管理器126在功率模式284下执行对音频特征数据集合252与多个用户语音简档150的比较。
在特定方面中,响应于确定分段结果236指示音频流141对应于至少两个不同说话者的语音,一个或多个处理器220在功率模式284下处理音频流141的后续音频部分。例如,特征提取器222、分段器124或二者在功率模式284下操作以处理后续音频部分。在特定方面中,特征提取器222、说话者检测器278、分段器124或其组合在功率模式282下确定音频流141的音频信息,并且在功率模式284下向一个或多个音频分析应用180提供音频信息。该音频信息包括在音频流141中指示的说话者的计数、话音活动检测(VAD)信息或二者。
在特定的实现方式中,音频流141的一个或多个部分、音频特征数据集合252或其组合被存储在缓冲器268中,并且一个或多个处理器220从缓冲器268访问音频流141的一个或多个部分、音频特征数据集合252,或其组合。例如,一个或多个处理器220在缓冲器268中存储音频部分151。特征提取器222从缓冲器268中检索音频部分151并且将音频特征数据集合252存储在缓冲器268中。分段器124从缓冲器268中检索音频特征数据集合252,并且在缓冲器268中存储音频特征数据集合252的分段分数254、数据集合分段结果256或其组合。简档管理器126从缓冲器268中检索音频特征数据集合252、分段分数254、数据集合分段结果256或其组合。在特定方面中,简档管理器126在缓冲器268中存储简档ID 155、简档更新数据272、用户交互数据274或其组合。在特定方面中,一个或多个音频分析应用180从缓冲器268中检索简档ID 155、简档更新数据272、用户交互数据274或其组合。
因此,系统200实现针对多个说话者的被动用户语音简档注册和更新。例如,多个用户语音简档150可以在设备202的常规操作期间在后台生成和更新,而无需使用户242必须说出脚本中的预定词语或句子。
虽然麦克风246被示为耦合到设备202,但是在其它实现方式中,麦克风246可以被集成在设备202中。尽管示出了单个麦克风246,但是在其它实现方式中,可以包括被配置为捕获用户语音的一个或多个额外的麦克风146。
尽管系统200被示为包括单个设备202,但是在其它实现方式中,被描述为在设备202处执行的实现方式操作可以分布在多个设备之间。例如,被描述为由特征提取器222、说话者检测器278、分段器124、简档管理器126或一个或多个音频分析应用180中的一者或多者执行的操作可以在设备202处执行,以及被描述为由特征提取器222、说话者检测器278、分段器124、简档管理器126或一个或多个音频分析应用180中的其它者执行的操作可以在第二设备处执行。
参考图3,示出了与用户语音简档管理相关联的操作300的说明性方面。在特定方面中,操作300中的一个或多个操作由图1的分段器124、简档管理器126、图2A的特征提取器222、一个或多个处理器220、设备202、系统200或其组合来执行。
在说话者分段302期间,图2A的特征提取器222基于音频流141来生成音频特征数据集合252,如参考图2A所描述的。分段器124分析音频特征数据集合252以生成分段结果236,如参考图2A所描述的。
在话音简档管理304期间,图1的简档管理器126在306处确定音频特征数据集合252是否对应于注册的说话者。例如,简档管理器126确定音频特征数据集合252是否与任何用户语音简档150相匹配,如参考图2B所描述的。响应于在306处确定音频特征数据集合252与具有简档ID 155的用户语音简档150A相匹配,简档管理器126在308处至少部分地基于音频特征数据集合252来更新用户语音简档150A。替代地,响应于在306处确定音频特征数据集合252与多个用户语音简档150中的任何一者都不匹配,并且分段结果236指示音频特征数据集合252表示说话者292A的语音,简档管理器126在310处将音频特征数据集合252添加到针对说话者292A指定的注册缓冲器234A。
响应于在312处确定注册缓冲器234A的音频特征数据集合的计数(或注册缓冲器234A的音频特征数据集合的语音持续时间)大于注册门限264,简档管理器126在314处注册说话者。例如,简档管理器126基于注册缓冲器234A的音频特征数据集合来生成用户语音简档150C,并且将用户语音简档150C添加到多个用户语音简档150中,如参考图2B所描述的。简档管理器126继续处理音频流141的后续音频部分。
在说话者分段302期间生成的分段结果236因此使得对应于同一说话者的语音的音频特征数据集合在话音简档管理304期间被收集在同一注册缓冲器中以便进行说话者注册。基于多个音频特征数据集合生成用户语音简档150C改善了用户语音简档150C在表示说话者的语音方面的准确性。
参考图4,示出了与用户语音简档管理相关联的操作400的说明性方面。在特定方面中,操作400中的一个或多个操作由图1的分段器124、简档管理器126、图2A的特征提取器222、一个或多个处理器220、设备202、系统200或其组合来执行。
音频流141包括音频部分151A-音频部分151I。在说话者分段302期间,图1的分段器124生成针对音频部分151A-I中的每一者的分段分数254A、分段分数254B和分段分数254C,如参考图2A所描述的。
分段分数254指示音频部分151A对应于同一单个说话者(例如,指定为说话者292A)的语音。例如,音频部分151A中的每一者的分段分数254A满足分段门限257。音频部分151A中的每一者的分段分数254B和分段分数254C不满足分段门限257。
在话音简档管理304期间,简档管理器126将音频部分151A(例如,对应的音频特征数据集合)添加到与说话者292A相关联的注册缓冲器234A中。简档管理器126基于音频部分151A(例如,对应的音频特征数据集合)来生成用户语音简档150A。
在特定方面中,分段分数254指示音频部分151B对应于多个说话者的语音,例如,说话者292A和另一个说话者(例如,指定为说话者292B)。在图4中,简档管理器126基于音频部分151B(例如,对应的音频特征数据集合)来更新用户语音简档150A。在特定方面中,简档管理器126还将音频部分151B添加到与说话者292B相关联的注册缓冲器234B中。在替代方面,简档管理器126忽略对应于多个说话者的音频部分151B。例如,简档管理器126避免使用音频部分151B来更新或生成用户语音简档150。
分段分数254指示音频部分151C对应于说话者292B(例如,单个说话者)的语音。简档管理器126将音频部分151C添加到注册缓冲器234B中。响应于确定存储在注册缓冲器234B中的音频部分(例如,对应的音频特征数据集合)未能满足注册门限264,简档管理器126避免基于存储在注册缓冲器234B中的音频部分(例如,对应的音频特征数据集合)来生成用户语音简档150。在特定方面中,存储在注册缓冲器234B中的音频部分(例如,对应的音频特征数据集合)包括音频部分151B(例如,对应的音频特征数据集合)和音频部分151C(例如,对应的音频特征数据集合)。在替代方面中,存储在注册缓冲器234B中的音频部分(例如,对应的音频特征数据集合)包括音频部分151C(例如,对应的音频特征数据集合)并且不包括音频部分151B(例如,对应的音频特征数据集合)。
分段分数254指示音频部分151D对应于另一单个说话者(例如,指定为说话者292C)的语音。简档管理器126将音频部分151D(例如,对应的音频特征数据集合)的第一子集添加到注册缓冲器234C中。响应于确定存储在注册缓冲器234C中的音频部分151D(例如,对应的音频特征数据集合)的第一子集满足注册门限264,简档管理器126基于存储在注册缓冲器234C中的音频部分151D(例如,对应的音频特征数据集合)的第一子集来生成用户语音简档150B。简档管理器126基于音频部分151D的第二子集来更新用户语音简档150B。
分段分数254指示音频部分151E对应于大于门限静默。例如,音频部分151E的计数大于或等于静默门限294。响应于确定音频部分151E对应于大于门限静默,简档管理器126重置注册缓冲器234。
分段分数254指示音频部分151F对应于单个说话者(例如,指定为说话者292A)的语音。响应于确定音频部分151F中的每一者与用户语音简档150B相匹配,简档管理器126基于音频部分151F来更新用户语音简档150B。由于说话者指定(例如,说话者292A)被重用,因此音频部分151D和音频部分151F分别与不同的指定说话者(例如,说话者292C和说话者292A)相关联,即使音频部分151D和音频部分151F对应于同一说话者(例如,图2A中的用户242C)的语音,并且与同一用户语音简档(例如,用户语音简档150B)相匹配。
分段分数254指示音频部分151G对应于单个说话者(例如,指定为说话者292B)的语音。响应于确定音频部分151G的第一子集与用户语音简档150中的任何一者都不匹配,简档管理器126将音频部分151G的第一子集添加到与说话者292B相关联的注册缓冲器234B中。简档管理器126基于音频部分151G的第一子集来生成用户语音简档150C,并且基于音频部分151G的第二子集来更新用户语音简档150C。因为说话者指定(例如,说话者292B)被重用,因此音频部分151C和音频部分151G与同一指定的说话者(例如,说话者292B)相关联,音频部分151C和音频部分151G可以对应于同一用户或不同用户的语音。
分段分数254指示音频部分151H对应于大于门限静默。响应于确定音频部分151H对应于大于门限静默,简档管理器126重置注册缓冲器234。
分段分数254指示音频部分151I对应于单个说话者(例如,指定为说话者292C)的语音。响应于确定音频部分151I中的每一者与用户语音简档150A相匹配,简档管理器126基于音频部分151I来更新用户语音简档150A。因为说话者指定(例如,说话者292C)被重用,因此音频部分151A和音频部分151I分别与不同的指定说话者(例如,说话者292A和说话者292C)相关联,即使音频部分151A和音频部分151I对应于同一用户(例如,图2A中的用户242A)的语音,并且与同一用户语音简档(例如,用户语音简档150A)相匹配。在替代方面中,响应于确定音频部分151I与多个用户语音简档150中的任何一者都不匹配,简档管理器126将音频部分151I的第一子集添加到与说话者292C相关联的注册缓冲器234C中,并且基于音频部分151I的第一子集来生成用户语音简档150D。通过重用说话者指定(例如,说话者292C),简档管理器126可以生成(或更新)比可以由分段器124区分的说话者292的预定计数(例如,K)更大计数的用户简档。
参考图5,示出了与用户语音简档管理相关联的操作500的说明性方面。在特定方面中,操作500中的一个或多个操作由图1的分段器124、简档管理器126、图2A的特征提取器222、一个或多个处理器220、设备202、系统200或其组合来执行。
音频流141包括音频部分151A、音频部分151B和音频部分151C。例如,音频部分151A包括音频部分151D(例如,音频帧)、一个或多个额外的音频部分以及音频部分151E。音频部分151B包括音频部分151F、一个或多个额外的音频部分以及音频部分151G。音频部分151C包括音频部分151H、一个或多个额外的音频部分以及音频部分151I。
在特定方面中,音频部分151A中的每一者的数据集合分段结果256A指示音频部分151A对应于说话者292A的语音。例如,音频部分151D的数据集合分段结果256D(例如,“1”)指示音频部分151D表示说话者292A的语音。作为另一个示例,音频部分151E的数据集合分段结果256E(例如,“1”)指示音频部分151E表示说话者292A的语音。
音频部分151B中的每一者的数据集合分段结果256B指示音频部分151B对应于静默(或非语音噪声)。例如,音频部分151F的数据集合分段结果256F(例如,“0”)指示音频部分151F表示静默(或非语音噪音)。作为另一个示例,音频部分151G的数据集合分段结果256G(例如,“0”)指示音频部分151G表示静默(或非语音噪音)。
音频部分151C中的每一者的数据集合分段结果256C指示音频部分151C对应于说话者292B的语音。例如,音频部分151H的数据集合分段结果256H(例如,“2”)指示音频部分151H表示说话者292B的语音。作为另一个示例,音频部分151I的数据集合分段结果256I(例如,“2”)指示音频部分151I表示说话者292B的语音。
图形590是分段结果236的示例的视觉描绘。例如,音频部分151A表示说话者292A(例如,单个说话者)的语音,因此音频部分151A对应于音频流141的说话者同质音频段111A。音频部分151B表示静默,因此音频部分151B对应于音频流141的音频段113A(例如,不是说话者同质音频段)。音频部分151C表示说话者292B(例如,单个说话者)的语音,因此音频部分151C对应于音频流141的说话者同质音频段111B。
图形592是语音简档结果238的示例的视觉描绘。简档管理器126基于音频部分151A的第一子集来生成用户语音简档150A。在生成用户语音简档150A之后,通过将后续音频部分(例如,后续音频特征数据集合)与用户语音简档150A进行比较,简档管理器126确定语音简档结果238A。音频部分151的语音简档结果238A指示音频部分151与用户语音简档150A相匹配的可能性。简档管理器126通过将音频部分151C的第一子集与用户语音简档150A进行比较来确定音频部分151C的第一子集的语音简档结果238A。响应于确定音频部分151C的第一子集的语音简档结果238A小于简档门限258,简档管理器126确定音频部分151C的第一子集与用户语音简档150A不匹配。
响应于确定音频部分151C的第一子集与用户语音简档150A不匹配,简档管理器126基于音频部分151C的第一子集来生成用户语音简档150B。在生成用户语音简档150B之后,简档管理器126通过将后续音频部分与用户语音简档150B进行比较来确定语音简档结果238B。语音简档结果238B指示音频部分与用户语音简档150B相匹配的可能性。例如,音频部分151C的第二子集的语音简档结果238B指示音频部分151C的第二子集与用户语音简档150B相匹配。在特定方面中,简档管理器126生成包括图形590、图形592或二者的图形用户界面(GUI),并且将GUI提供给显示设备。
参考图6,示出了与用户语音简档管理相关联的操作600的说明性方面。在特定方面中,操作600中的一个或多个操作由图1的分段器124、简档管理器126、图2A的特征提取器222、一个或多个处理器220、设备202、系统200或其组合来执行。
音频流141包括对应于多个说话者的语音的音频部分151J。例如,音频部分151J包括音频部分151K(例如,音频帧)、一个或多个额外的音频部分以及音频部分151L。在特定方面中,音频部分151J中的每一者的数据集合分段结果256D指示音频部分151J对应于说话者292A和说话者292B的语音。例如,音频部分151K的数据集合分段结果256K(例如,“1、2”)指示音频部分151K表示说话者292A和说话者292B的语音。作为另一个示例,音频部分151L的数据集合分段结果256L(例如,“1、2”)指示音频部分151L表示说话者292A和说话者292B的语音。音频部分151J表示多个说话者的语音,因此音频部分151J对应于音频段113B(例如,不是说话者同质音频段)。
在生成用户语音简档150A之后,简档管理器126通过将后续音频部分(例如,后续音频特征数据集合)与用户语音简档150A进行比较来确定语音简档结果238A。简档管理器126通过将音频部分151J与用户语音简档150A进行比较来确定音频部分151J的语音简档结果238A。在特定方面中,针对音频部分151J的语音简档结果238A低于针对音频部分151A的语音简档结果238A,因为音频部分151J除了说话者292A的语音之外还包括说话者292B的语音。
参考图7,示出了与用户语音简档管理相关联的操作700的说明性方面。在特定方面中,操作700中的一个或多个操作由特征提取器222、分段器124、简档管理器126、图2A的一个或多个处理器220、设备202、系统200或其组合来执行。
音频流141包括音频部分151J和音频部分151K。例如,音频部分151J包括音频部分151L(例如,音频帧)、一个或多个额外的音频部分以及音频部分151M。音频部分151K包括音频部分151N(例如,音频帧)、一个或多个额外的音频部分以及音频部分151O。
在特定方面中,音频部分151J中的每一者的数据集合分段结果256J指示音频部分151J表示说话者292C(例如,单个说话者)的语音,因此音频部分151J对应于说话者同质音频段111C。音频部分151K中的每一者的数据集合分段结果256K指示音频部分151K表示静默(或非语音噪声),因此音频部分151K对应于音频段113C。
在生成用户语音简档150A之后,简档管理器126通过将音频部分151J与用户语音简档150A进行比较来确定音频部分151J的语音简档结果238A。响应于确定语音简档结果238A小于简档门限258,简档管理器126确定音频部分151J与用户语音简档150A不匹配。
响应于确定音频部分151J与用户语音简档150A不匹配,简档管理器126将音频部分151J存储在与说话者292C相关联的注册缓冲器234C中。响应于确定存储在注册缓冲器234C中的音频部分151J未能满足注册门限264,简档管理器126避免基于存储在注册缓冲器234C中的音频部分151J生成用户语音简档150。响应于确定音频部分151K指示大于门限静默,简档管理器126重置注册缓冲器234(例如,将其标记为空)。因此,当说话者292C似乎已停止说话时,音频部分151J从注册缓冲器234C中被移除。
参考图8,示出了与用户语音简档管理相关联的操作800的说明性方面。在特定方面中,操作800中的一个或多个操作由图1的分段器124、简档管理器126、图2A的特征提取器222、一个或多个处理器220、设备202、系统200或其组合来执行。
图1的分段器124在804处执行说话者分段302。例如,分段器124在时间T处从特征提取器222接收音频特征数据集合252,并且生成针对音频部分151的音频特征数据集合252的分段分数254,如参考图2A所描述的。
图1的简档管理器126在806处确定分段分数254中的任何一者是否满足分段门限257。例如,响应于确定分段分数254都不满足分段门限257,简档管理器126确定音频特征数据集合252表示静默(或非语音噪声),并且将静默计数262递增(例如,递增1)。在将静默计数262递增之后,简档管理器126在808处确定静默计数262是否大于静默门限294。
响应于在808处确定静默计数262大于静默门限294,简档管理器126在810处执行重置。例如,简档管理器126通过重置注册缓冲器234(例如,将其标记为空)、探测缓冲器240(例如,将其标记为空)、静默计数262(例如,将其重置为0)或其组合来执行重置,并且返回到804以处理音频流141的后续音频特征数据集合。替代地,响应于在808处确定静默计数262小于或等于静默门限294,简档管理器126返回到804以处理音频流141的后续音频特征数据集合。
响应于在806处确定分段分数254中的至少一者满足分段门限257,简档管理器126在812处将音频特征数据集合252添加到探测缓冲器240中的至少一者。例如,响应于确定与说话者292A相关联的分段分数254A满足分段门限257,简档管理器126确定音频特征数据集合252表示说话者292A的语音,并且将音频特征数据集合252添加到与说话者292A相关联的探测缓冲器240A。在特定的实现方式中,表示多个说话者292的语音的音频特征数据集合252被添加到对应于多个说话者292的多个探测缓冲器240。例如,响应于确定分段分数254A和分段分数254B中的每一者满足分段门限257,简档管理器126将音频特征数据集合252添加到探测缓冲器140A和探测缓冲器140B中。在替代的实现方式中,表示多个说话者292的语音的音频特征数据集合252被忽略,并且不被添加到探测缓冲器240中。
简档管理器126在816处确定对应的说话者(例如,说话者292A)是否被注册。例如,简档管理器126通过将对应的探测缓冲器240(例如,探测缓冲器240A)的音频特征数据集合(例如,包括音频特征数据集合252)与多个用户语音简档150进行比较来确定说话者292(例如,说话者292A)是否被注册。
响应于在816处确定说话者292(例如,说话者292A)没有被注册,简档管理器126在818处确定音频特征数据集合252是否通过质量检查。例如,响应于确定音频特征数据集合252对应于多个说话者292,简档管理器126确定音频特征数据集合252未能通过质量检查。替代地,响应于确定音频特征数据集合252对应于单个说话者,简档管理器126确定音频特征数据集合252通过质量检查。
响应于在818处确定音频特征数据集合252未能通过质量检查,简档管理器126返回到804以处理音频流141的后续音频特征数据集合。替代地,响应于在818处确定音频特征数据集合252通过质量检查,简档管理器126在820处将表示说话者292(例如,说话者292A)的语音的音频特征数据集合252添加到与说话者292相关联的注册缓冲器234(例如,注册缓冲器234A)中。
简档管理器126在822处确定存储在注册缓冲器234(例如,注册缓冲器234A)中的音频特征数据集合的计数是否大于注册门限264。响应于在822处确定存储在注册缓冲器234(例如,注册缓冲器234)中的每一者中的音频特征数据集合的计数小于或等于注册门限264,简档管理器126返回到804以处理音频流141的后续音频特征数据集合。替代地,响应于确定注册缓冲器234(例如,注册缓冲器234A)的音频特征数据集合的计数大于注册门限264,简档管理器126在824处生成用户语音简档150A,将用户语音简档150A添加到多个用户语音简档150中,并且返回到804以处理音频流141的后续音频特征数据集合。
响应于在816处确定说话者292A被注册,简档管理器126在826处确定音频特征数据集合252(或与其语音由音频特征数据集合252表示的说话者292相关联的探测缓冲器240的音频特征数据集合)是否通过质量检查。响应于在826处确定音频特征数据集合252(或探测缓冲器240的音频特征数据集合)未能通过质量检查,简档管理器126返回到804以处理音频流141的后续音频特征数据集合。响应于在826处确定音频特征数据集合252(或探测缓冲器240的音频特征数据集合)通过质量检查,简档管理器126基于音频特征数据集合252(或探测缓冲器240的音频特征数据集合)来更新用户语音简档150A(与音频特征数据集合252匹配),并且返回到804以处理音频流141的后续音频特征数据集合。在替代方面中,在将音频特征数据集合252添加到探测缓冲器240中之前在826处执行质量检查。例如,响应于确定音频特征数据集合252未能通过质量检查,简档管理器126避免将音频特征数据集合252添加到探测缓冲器240中,并且返回到804以处理音频流141的后续音频特征数据集合。
参考图9,示出了与用户语音简档管理相关联的操作900的说明性方面。在特定方面中,操作900中的一个或多个操作由图1的分段器124、简档管理器126、图2A的特征提取器222、说话者检测器278、一个或多个处理器220、设备202、系统200或其组合来执行。
一个或多个处理器220在功率模式282下在时间T处将音频特征(例如,音频特征数据集合252)添加到缓冲器268。图2A的说话者检测器278在904处确定是否在音频流141中检测到多个说话者。例如,响应于确定音频特征(例如,音频特征数据集合252)表示多个说话者的语音,说话者检测器278确定检测到多个说话者。在另一示例中,响应于确定音频特征(例如,音频特征数据集合252)表示在先前的音频特征(例如,先前的音频特征数据集合)中已经检测到第一说话者的语音之后的第二说话者的语音,说话者检测器278确定检测到多个说话者。
响应于在904处确定在音频流141中尚未检测到多个说话者,说话者检测器278继续处理音频流141的后续音频特征。替代地,响应于在904处确定在音频流141中检测到多个说话者,说话者检测器278将一个或多个处理器220从功率模式282转换到功率模式284,并且在906处激活一个或多个应用920。在特定方面中,一个或多个应用920包括特征提取器222、分段器124、简档管理器126、一个或多个音频分析应用180、或其组合。在特定方面中,说话者检测器278生成唤醒信号或中断中的至少一项,以将一个或多个处理器220从功率模式282转换到功率模式284,以激活一个或多个应用920。
说话者检测器278在910处在功率模式284下确定是否检测到多个说话者。例如,说话者检测器278在自先前确定是否检测到多个说话者以来门限时间已经到期之后确定是否检测到多个说话者。响应于确定检测到多个说话者,说话者检测器278避免转换到功率模式282。替代地,响应于确定在音频特征数据集合的门限计数内未检测到多个说话者,说话者检测器278将一个或多个处理器220从功率模式284转换到功率模式282。
因此,一个或多个处理器220通过在功率模式282下操作(与功率模式284相比)来节约能量,并且在需要时转换到功率模式284以激活在功率模式282下不操作的组件。选择性地转换到功率模式284减少了设备202的整体功耗。
参考图10,示出了用户语音简档管理的方法1000的特定实现方式。在特定方面中,方法1000的一个或多个操作由图1的分段器124、简档管理器126、图2A的说话者检测器278、一个或多个处理器220、设备202、系统200或其组合中的至少一者来执行。
方法1000包括:在1002处,在第一功率模式下确定音频流是否对应于至少两个不同说话者的语音。例如,图2A中的说话者检测器278在功率模式282下确定音频流141是否对应于至少两个不同说话者的语音,如参考图2A所描述的。
方法1000包括:在1004处,基于确定音频流对应于至少两个不同说话者的语音,在第二功率模式下分析音频流的音频特征数据以生成分段结果。例如,图2A的一个或多个处理器220基于确定音频流141对应于至少两个不同说话者的语音,转换到功率模式284,并且激活分段器124,如参考图2A所描述的。分段器124在功率模式284下分析音频流141的音频特征数据集合252,以生成分段结果236,如参考图2A所描述的。分段结果236指示音频流141的说话者同质音频段(例如,说话者同质音频段111A和说话者同质音频段111B),如参考图2A所描述的。
方法1000还包括:在1006处,执行对多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定第一音频特征数据集合是否与多个用户语音简档中的任何一者相匹配。例如,图1的简档管理器126执行对多个用户语音简档150与说话者同质音频段111A的一个或多个音频特征数据集合252A中的音频特征数据集合252的比较,以确定音频特征数据集合252是否与多个用户语音简档150中的任何一者相匹配,如参考图2B所描述的。
方法1000进一步包括:在1008处,基于确定第一音频特征数据集合与多个用户语音简档中的任何一者都不匹配:基于第一多个音频特征数据集合来生成第一用户语音简档并且将第一用户语音简档添加到多个用户语音简档中。例如,图1的简档管理器126基于确定音频特征数据集合252与多个用户语音简档150中的任何一者都不匹配,基于一个或多个音频特征数据集合252A的至少一个子集来生成用户语音简档150C,并且将用户语音简档150C添加到多个用户语音简档150中,如参考图2B所描述的。
方法1000使得能够基于说话者同质音频段的音频特征数据集合来生成用户语音简档。与基于单个音频特征数据生成用户语音简档相比,使用与同一说话者的语音相对应的多个音频特征数据集合改善了用户语音简档在表示说话者的语音方面的准确性。被动注册可以用于在用户不必预先注册或不必说出预定的词语或句子的情况下生成用户语音简档。
图10的方法1000可以由现场可编程门阵列(FPGA)器件、专用集成电路(ASIC)、处理单元(例如,中央处理单元(CPU))、DSP、控制器、另一硬件设备、固件设备或其任何组合来实现。举例而言,图10的方法1000可以由执行指令的处理器来执行,例如参考图19所描述的。
图11描绘了设备202作为包括一个或多个处理器220的集成电路1102的实现方式1100。一个或多个处理器220包括多个应用1122。应用1122包括特征提取器222、说话者检测器278、分段器124、简档管理器126、简档管理器126、一个或多个音频分析应用180、或其组合。集成电路1102还包括音频输入1104(例如,一个或多个总线接口),以使得能够接收音频流141以进行处理。集成电路1102还包括信号输出1106(例如,总线接口),以使得能够发送输出信号1143,例如简档ID 155。集成电路1102使得能够将用户语音简档管理实现为包括麦克风的系统(例如,如在图12中描绘的移动电话或平板设备、如在图13中描绘的耳机、如在图14中描绘的可穿戴电子设备、如在图15中描绘的声控扬声器系统、如在图16中描绘的虚拟现实耳机或增强现实耳机、或如在图17或图18中描绘的运载工具)中的组件。
图12描绘了实现方式1200,其中设备202包括移动设备1202,例如手机或平板设备,作为说明性的非限制性示例。移动设备1202包括麦克风246和显示屏1204。一个或多个处理器220的组件(包括应用1122)被集成在移动设备1202中,并且使用虚线来示出,以指示对于移动设备1202的用户来说一般不可见的内部组件。在特定示例中,应用1122的特征提取器222、分段器124和简档管理器126进行操作以管理用户语音简档,用户语音简档然后被用于在移动设备1202处执行一个或多个操作,例如以启动图形用户界面或以其它方式在显示屏1204处显示与用户的语音相关联的其它信息(例如,对话转录本)(例如,经由集成的“智能助手”应用)。
图13描绘了实现方式1300,其中设备202包括耳机设备1302。耳机设备1302包括麦克风246。一个或多个处理器220的组件(包括应用1122)被集成在耳机设备1302中。在特定示例中,应用1122的特征提取器222、分段器124和简档管理器126进行操作以管理用户语音简档,这可以导致耳机设备1302在耳机设备1302处执行一个或多个操作,例如以向第二设备(未示出)发送对应于用户语音的信息(例如,图2B中的简档更新数据272、用户交互数据274或二者),以便进一步处理,或其组合。
图14描绘了实现方式1400,其中设备202包括可穿戴电子设备1402,其被示为“智能手表”。应用1122和麦克风246被集成到可穿戴电子设备1402中。在特定示例中,应用1122的特征提取器222、分段器124和简档管理器126进行操作以管理用户语音简档,用户语音简档然后被用于在可穿戴电子设备1402处执行一个或多个操作,例如以启动图形用户界面或以其它方式在可穿戴电子设备1402的显示屏1404处显示与用户的语音相关联的其它信息。举例说明,可穿戴电子设备1402可以包括显示屏1404,其被配置为基于由可穿戴电子设备1402检测到的用户语音来显示通知(例如,用于添加日历事件的选项)。在特定示例中,可穿戴电子设备1402包括触觉设备,其响应于对用户语音的检测而提供触觉通知(例如,振动)。例如,触觉通知可以使得用户查看可穿戴电子设备1402,以看见所显示的指示检测到用户所说的关键词的通知。因此,可穿戴电子设备1402可以向具有听力障碍的用户或佩戴耳机的用户提醒检测到用户的语音。在特定示例中,可穿戴电子设备1402可以响应于对语音的检测来显示对话的转录本。
图15是实现方式1500,其中设备202包括无线扬声器和话音激活设备1502。无线扬声器和话音激活设备1502可以具有无线网络连接,并且被配置为执行助手操作。包括应用1122的一个或多个处理器220、麦克风246或其组合被包括在无线扬声器和话音激活设备1502中。无线扬声器和话音激活设备1502还包括扬声器1504。在操作期间,响应于接收经由应用1122的特征提取器222、分段器124和简档管理器126的操作而被识别为与用户语音简档150A相关联的用户的用户语音的口头命令,无线扬声器和话音激活设备1502可以执行助手操作,例如经由话音激活系统(例如,集成助手应用)的执行。助手操作可以包括调整温度、播放音乐、打开灯光等。例如,助手操作是响应于接收在关键词或关键短语(例如,“你好,助手”)之后的命令来执行的。在特定方面中,助手操作包括为与用户语音简档150A相关联的用户执行用户特定命令(例如,“在我的日历中设置明天下午2点的约会”或“提高我房间中的供暖”)。
图16描绘了实现方式1600,其中设备202包括对应于虚拟现实、增强现实或混合现实耳机1602的便携式电子设备。应用1122、麦克风246或其组合被集成到耳机1602中。视觉界面设备1620被定位在用户的眼睛前面,以使得能够在佩戴耳机1602时向用户显示增强现实或虚拟现实图像或场景。在特定示例中,视觉界面设备被配置为显示通知,该通知指示在从麦克风246接收的音频信号中检测到的用户语音。在特定方面中,视觉界面设备被配置为显示由麦克风246拾取的对话的对话转录本。
图17描绘了实现方式1700,其中设备202对应于或集成在运载工具1702(被示为有人驾驶或无人驾驶空中设备(例如,包裹运送无人机))内。应用1122、麦克风246或其组合被集成到运载工具1702中。可以基于从运载工具1702的麦克风246接收的音频信号来执行语音分析,例如以用于生成由麦克风246捕获的对话的转录本。
图18描绘了另一种实现方式1800,其中设备202对应于或集成在运载工具1802(被示为汽车)内。运载工具1802包括包含应用1122的一个或多个处理器220。运载工具1802还包括麦克风246。麦克风246被定位成捕获运载工具1802的一个或多个乘客的话语。可以基于从运载工具1802的麦克风246接收的音频信号来执行用户语音分析。在一些实现方式中,可以基于从内部麦克风(例如,麦克风246)接收的音频信号(例如,运载工具1802的乘客之间的对话),来执行用户语音分析。例如,用户语音分析可以用于基于在运载工具1802中检测到的对话(例如,“我们星期六下午去野餐”和“当然,那会很棒”)针对与特定用户语音简档相关联的用户设置日历事件。在一些实现方式中,可以基于从外部麦克风(例如,麦克风246)接收的音频信号(例如,用户在运载工具1802外说话)来执行用户语音分析。在特定的实现方式中,响应于检测到与特定语音简档相关联的用户之间的特定对话,应用1122基于检测到的对话、检测到的用户或二者来发起运载工具1802的一个或多个操作,例如,通过经由显示器1820或一个或多个扬声器(例如,扬声器1830)提供反馈或信息(例如,“用户1在星期六有事先承诺直到下午3点,安排野餐在下午4点?”)。
参考图19,描绘了设备的特定说明性实现方式的框图,并且该设备被总体上指定为1900。在各种实现方式中,设备1900可以具有比在图19中示出的更多或更少的组件。在说明性的实现方式中,设备1900可以对应于设备202。在说明性的实现方式中,设备1900可以执行参考图1-18描述的一个或多个操作。
在特定的实现方式中,设备1900包括处理器1906(例如,中央处理单元(CPU))。设备1900可以包括一个或多个额外的处理器1910(例如,一个或多个DSP)。在特定方面中,图2A中的一个或多个处理器220对应于处理器1906、处理器1910或其组合。处理器1910可以包括特征提取器222、说话者检测器278、分段器124、简档管理器126、一个或多个音频分析应用180、或其组合。
设备1900可以包括存储器1986和CODEC 1934。在特定方面中,存储器1986对应于图2A的存储器232。存储器1986可以包括指令1956,指令1956可由一个或多个额外的处理器1910(或处理器1906)执行以实现参考特征提取器222、说话者检测器278、分段器124、简档管理器126、一个或多个音频分析应用180或其组合来描述的功能。设备1900可以包括经由收发器1950耦合到天线1952的无线控制器2841940。在特定方面中,设备1900包括耦合到收发器1950的调制解调器。
设备1900可以包括耦合到显示控制器1926的显示器1928。一个或多个扬声器1992、麦克风246或其组合可以耦合到CODEC 1934。CODEC 1934可以包括数模转换器(DAC)1902、模数转换器(ADC)1904或二者。在特定的实现方式中,CODEC 1934可以从麦克风246接收模拟信号,使用模数转换器1904将模拟信号转换为数字信号,并且将数字信号提供给一个或多个处理器1910。一个或多个处理器1910可以处理数字信号。在特定的实现方式中,一个或多个处理器1910可以向CODEC 1934提供数字信号。CODEC 1934可以使用数模转换器1902将数字信号转换成模拟信号,并且可以将模拟信号提供给扬声器1992。
在特定的实现方式中,设备1900可以被包括在系统级封装或片上系统设备1922中。在特定的实现方式中,存储器1986、处理器1906、处理器1910、显示控制器1926、CODEC1934、无线控制器2841940和收发器1950被包括在系统级封装或片上系统设备1922中。在特定的实现方式中,输入设备1930和电源1944耦合到片上系统设备1922。此外,在特定的实现方式中,如图19所示,显示器1928、输入设备1930、扬声器1992、麦克风246、天线1952和电源1944在片上系统设备1922的外部。在特定的实现方式中,显示器1928、输入设备1930、扬声器1992、麦克风246、天线1952和电源1944中的每一者可以耦合到片上系统设备1922的组件,例如接口或控制器。
设备1900可以包括智能扬声器、条形扬声器、移动通信设备、智能电话、蜂窝电话、膝上型计算机、计算机、平板设备、个人数字助理、显示设备、电视、游戏控制台、音乐播放器、无线电单元、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航设备、运载工具、耳机、增强现实耳机、虚拟现实耳机、飞行器、家庭自动化系统、话音激活设备、无线扬声器和话音激活设备、便携式电子设备、汽车、计算设备、通信设备、物联网(IoT)设备、虚拟现实(VR)设备、基站、移动设备、或其任何组合。
结合所描述的实现方式,一种装置包括用于存储多个用户的多个用户语音简档的单元。例如,用于存储的单元包括图2A的存储器232、设备202、系统200、存储器1986、设备1900、被配置为存储多个用户语音简档的一个或多个其它电路或组件、或其任何组合。
该装置还包括用于在第一功率模式下确定音频流是否对应于至少两个不同说话者的语音的单元。例如,用于确定的单元包括图2A的说话者检测器278、一个或多个处理器220、设备202、系统200、处理器1906、一个或多个处理器1910、设备1900、被配置为在第一功率模式下确定音频流是否对应于至少两个不同说话者的语音的一个或多个其它电路或组件、或其任何组合。
该装置还包括用于分析音频流的音频特征数据以生成分段结果的单元。例如,用于分析的单元包括图2A的分段器124、一个或多个处理器220、设备202、系统200、处理器1906、一个或多个处理器1910、设备1900、被配置为分析音频特征数据的一个或多个其它电路或组件、或其任何组合。分段结果236指示音频流141的说话者同质音频段。
该装置还包括用于执行对多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定第一音频特征数据集合是否与多个用户语音简档中的任何一者相匹配的单元。例如,用于执行比较的单元包括图2A的简档管理器126、一个或多个处理器220、设备202、系统200、处理器1906、一个或多个处理器1910、设备1900、被配置为执行比较的一个或多个其它电路或组件、或其任何组合。
该装置还包括用于基于第一多个音频特征数据集合来生成第一用户语音简档的单元。例如,用于生成第一用户语音简档的单元包括图2A的简档管理器126、一个或多个处理器220、设备202、系统200、处理器1906、一个或多个处理器1910、设备1900、被配置为生成第一用户语音简档的一个或多个其它电路或组件、或其任何组合。用户语音简档150A是基于确定音频特征数据集合252与多个用户语音简档150中的任何一者不匹配而生成的。
该装置还包括用于将第一用户语音简档添加到多个用户语音简档的单元。例如,用于添加第一用户语音简档的单元包括图2A的简档管理器126、一个或多个处理器220、设备202、系统200、处理器1906、一个或多个处理器1910、设备1900、被配置为添加第一用户语音简档的一个或多个其它电路或组件、或其任何组合。
在一些实现方式中,一种非暂时性计算机可读介质(例如,计算机可读存储设备,例如存储器1986)包括指令(例如,指令1956),所述指令在由一个或多个处理器(例如,一个或多个处理器1910或处理器1906)执行时使得一个或多个处理器在第一功率模式(例如,功率模式282)下确定音频流(例如,音频流141)是否对应于至少两个不同说话者的语音。所述指令在由一个或多个处理器执行时还使得处理器分析音频流的音频特征数据(例如,音频特征数据集合252)以生成分段结果(例如,分段结果236)。分段结果指示音频流的说话者同质音频段(例如,说话者同质音频段111A和说话者同质音频段111B)。所述指令在由一个或多个处理器执行时还使得处理器执行对多个用户语音简档(例如,多个用户语音简档150)与第一说话者同质音频段(例如,说话者同质音频段111A)的第一多个音频特征数据集合(例如,音频特征数据集合252A)中的第一音频特征数据集合(例如,音频特征数据集合252)的比较,以确定第一音频特征数据集合是否与多个用户语音简档中的任何一者相匹配。所述指令在由一个或多个处理器执行时进一步使得处理器基于确定第一音频特征数据集合与多个用户语音简档中的任何一者都不匹配来进行以下操作:基于第一多个音频特征数据集合来生成第一用户语音简档(例如,用户语音简档150A),并且将第一用户语音简档添加到多个用户语音简档中。
下面在第一组相互关联的条款中描述本公开内容的特定方面:
根据条款1,一种用于音频分析的设备包括:存储器,其被配置为存储多个用户的多个用户语音简档;以及一个或多个处理器,其被配置为:在第一功率模式下,确定音频流是否对应于至少两个不同说话者的语音;基于确定该音频流对应于至少两个不同说话者的语音,在第二功率模式下分析该音频流的音频特征数据以生成分段结果,该分段结果指示该音频流的说话者同质音频段;执行对多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定第一音频特征数据集合是否与多个用户语音简档中的任何一者相匹配;以及基于确定第一音频特征数据集合与多个用户语音简档中的任何一者都不匹配:基于第一多个音频特征数据集合来生成第一用户语音简档;以及将第一用户语音简档添加到多个用户语音简档中。
条款2包括根据条款1所述的设备,其中,第一音频特征数据集合包括第一音频特征向量。
条款3包括根据条款1或条款2所述的设备,其中,一个或多个处理器被配置为通过对音频特征数据应用说话者分段神经网络来分析音频特征数据。
条款4包括根据条款1至3中任一项所述的设备,其中,一个或多个处理器被配置为:基于确定分段结果指示第一音频特征数据集合对应于第一说话者的语音,并且第一音频特征数据集合与多个用户语音简档中的任何一者不匹配:将第一音频特征数据集合存储在与第一说话者相关联的第一注册缓冲器中;以及将与第一说话者的语音相对应的后续音频特征数据集合存储在第一注册缓冲器中,直到满足停止条件为止,其中,第一说话者同质音频段的第一多个音频特征数据集合包括第一音频特征数据集合和后续音频特征数据集合。
条款5包括根据条款4所述的设备,其中,一个或多个处理器被配置为响应于确定在音频流中检测到长于门限静默而确定满足停止条件。
条款6包括根据条款4至5中任一项所述的设备,其中,一个或多个处理器被配置为至少部分地基于确定特定音频特征数据集合对应于单个说话者的语音而将该特定音频特征数据集合添加到第一注册缓冲器,其中该单个说话者包括第一说话者。
条款7包括根据条款1至6中任一项所述的设备,其中,一个或多个处理器被配置为:基于确定第一说话者同质音频段的存储在第一注册缓冲器中的第一多个音频特征数据集合的计数大于注册门限,基于第一多个音频特征数据集合来生成第一用户语音简档。
条款8包括根据条款1至7中任一项所述的设备,其中,一个或多个处理器被配置为:基于确定第一音频特征数据集合与特定用户语音简档相匹配,基于第一音频特征数据集合来更新特定用户语音简档。
条款9包括根据条款8所述的设备,其中,一个或多个处理器被配置为:至少部分地基于确定第一音频特征数据集合对应于单个说话者的语音,基于第一音频特征数据集合来更新特定用户语音简档。
条款10包括根据条款1至9中任一项所述的设备,其中,一个或多个处理器被配置为:确定第二说话者同质音频段的第二多个音频特征数据集合中的第二音频特征数据集合是否与多个用户语音简档中的任何一者相匹配。
条款11包括根据条款10所述的设备,其中,一个或多个处理器被配置为:基于确定第二音频特征数据集合与多个用户语音简档中的任何一者不匹配:基于第二多个音频特征数据集合来生成第二用户语音简档;以及将第二用户语音简档添加到多个用户语音简档中。
条款12包括根据条款10所述的设备,其中,一个或多个处理器被配置为:基于确定第二音频特征数据集合与多个用户语音简档的特定用户语音简档相匹配,基于第二音频特征数据集合来更新特定用户语音简档。
条款13包括根据条款1至12中任一项所述的设备,其中,存储器被配置为存储简档更新数据,并且其中,一个或多个处理器被配置为:响应于生成第一用户语音简档,更新简档更新数据以指示第一用户语音简档被更新;以及基于确定简档更新数据指示多个用户语音简档的第一计数已被更新,输出第一计数作为在音频流中检测到的说话者的计数。
条款14包括根据条款1至13中任一项所述的设备,其中,存储器被配置为存储用户交互数据,并且其中,一个或多个处理器被配置为:响应于生成第一用户语音简档,基于第一说话者同质音频段的语音持续时间来更新用户交互数据,以指示与第一用户语音简档相关联的第一用户在该语音持续时间内进行交互;以及至少输出该用户交互数据。
条款15包括根据条款1至14中任一项所述的设备,其中,与第二功率模式相比,第一功率模式是较低功率模式。
条款16包括根据条款1所述的设备,其中,一个或多个处理器被配置为:在第一功率模式下确定音频流的音频信息,该音频信息包括在音频流中检测到的说话者的计数、话音活动检测(VAD)信息或二者;在第二功率模式下激活一个或多个音频分析应用;以及向一个或多个音频分析应用提供该音频信息。
条款17包括根据条款1至16中任一项所述的设备,其中,一个或多个处理器被配置为:响应于确定分段结果指示音频流的一个或多个第二音频段对应于多个说话者,避免基于一个或多个第二音频段更新多个用户语音简档。
下面在第二组相互关联的条款中描述本公开内容的特定方面:
根据条款18,一种音频分析的方法包括:在设备处在第一功率模式下,确定音频流是否对应于至少两个不同说话者的语音;基于确定音频流对应于至少两个不同说话者的语音,在第二功率模式下分析音频流的音频特征数据以生成分段结果,该分段结果指示音频流的说话者同质音频段;在所述设备处执行对多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定第一音频特征数据集合是否与多个用户语音简档中的任何一者相匹配;以及基于确定第一音频特征数据集合与多个用户语音简档中的任何一者都不匹配:在所述设备处,基于第一多个音频特征数据集合来生成第一用户语音简档;以及在所述设备处,将第一用户语音简档添加到多个用户语音简档中。
条款19包括根据条款18所述的方法,并且进一步包括:将说话者分段神经网络应用于音频特征数据。
条款20包括根据条款18或条款19所述的方法,并且进一步包括:基于确定分段结果指示第一音频特征数据集合对应于第一说话者的语音,并且第一音频特征数据集合与多个用户语音简档中的任何一者都不匹配:将第一音频特征数据集合存储在与第一说话者相关联的第一注册缓冲器中;以及将对应于第一说话者的语音的后续音频特征数据集合存储在第一注册缓冲器中,直到满足停止条件为止,其中,第一说话者同质音频段的第一多个音频特征数据集合包括第一音频特征数据集合和后续音频特征数据集合。
条款21包括根据条款20所述的方法,并且进一步包括:在所述设备处,响应于确定在音频流中检测到长于门限静默,确定满足停止条件。
条款22包括根据条款20或条款21所述的方法,并且进一步包括:在所述设备处,至少部分地基于确定特定音频特征数据集合对应于单个说话者的语音,将特定音频特征数据集合添加到第一注册缓冲器,其中,该单个说话者包括第一说话者。
条款23包括根据条款18至22中任一项所述的方法,并且进一步包括:基于确定第一说话者同质音频段的存储在第一注册缓冲器中的第一多个音频特征数据集合的计数大于注册门限,基于第一多个音频特征数据集合来生成第一用户语音简档。
条款24包括根据条款18至23中任一项所述的方法,并且进一步包括:基于确定第一音频特征数据集合与特定用户语音简档相匹配,基于第一音频特征数据集合来更新该特定用户语音简档。
条款25包括根据条款24所述的方法,并且进一步包括:至少部分地基于确定第一音频特征数据集合对应于单个说话者的语音,基于第一音频特征数据集合来更新特定用户语音简档。
条款26包括根据条款18至25中任一项所述的方法,并且进一步包括:基于确定第二说话者同质音频段的第二多个音频特征数据集合中的第二音频特征数据集合与多个用户语音简档中的特定用户语音简档相匹配,基于第二音频特征数据集合来更新该特定用户语音简档。
下面在第三组相互关联的条款中描述本公开内容的特定方面:
根据条款27,一种非暂时性计算机可读存储介质存储指令,所述指令在由一个或多个处理器执行时使得处理器进行以下操作:在第一功率模式下,确定音频流是否对应于至少两个不同说话者的语音;基于确定音频流对应于至少两个不同说话者的语音,在第二功率模式下分析音频流的音频特征数据以生成分段结果,该分段结果指示音频流的说话者同质音频段;执行对多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定第一音频特征数据集合是否与多个用户语音简档中的任何一者相匹配;以及基于确定第一音频特征数据集合与多个用户语音简档中的任何一者都不匹配:基于第一多个音频特征数据集合来生成第一用户语音简档;以及将第一用户语音简档添加到多个用户语音简档中。
条款28包括根据条款27所述的非暂时性计算机可读存储介质,其中,所述指令在由一个或多个处理器执行时使得处理器进行以下操作:基于确定第一说话者同质音频段的存储在第一注册缓冲器中的第一多个音频特征数据集合的计数大于注册门限,基于第一多个音频特征数据集合来生成第一用户语音简档。
下面在第四组相互关联的条款中描述本公开内容的特定方面:
根据条款29,一种装置包括:用于存储多个用户的多个用户语音简档的单元;用于在第一功率模式下确定音频流是否对应于至少两个不同说话者的语音的单元;用于在第二功率模式下分析音频流的音频特征数据以生成分段结果的单元,音频特征数据是基于确定音频流对应于至少两个不同说话者的语音而在第二功率模式下分析的,其中,分段结果指示音频流的说话者同质音频段;用于执行对多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定第一音频特征数据集合是否与多个用户语音简档中的任何一者相匹配的单元;用于基于第一多个音频特征数据集合来生成第一用户语音简档的单元,第一用户语音简档是基于确定第一音频特征数据集合与多个用户语音简档中的任何一者都不匹配而生成的;以及用于将第一用户语音简档添加到多个用户语音简档中的单元。
条款30包括根据条款29所述的装置,其中,用于存储的单元、用于确定的单元、用于分析的单元、用于执行的单元、用于生成的单元以及用于添加的单元被集成到以下各者中的至少一者中:移动通信设备、智能电话、蜂窝电话、智能扬声器、条形扬声器、膝上型计算机、计算机、平板设备、个人数字助理、显示设备、电视、游戏控制台、音乐播放器、无线电单元、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航设备、运载工具、耳机、增强现实耳机、虚拟现实耳机、飞行器、家庭自动化系统、话音激活设备、无线扬声器和话音激活设备、便携式电子设备、汽车、计算设备、通信设备、物联网(IoT)设备、虚拟现实(VR)设备、基站、移动设备、或其任何组合。
本领域技术人员将进一步理解,结合本文公开的实现方式描述的各种说明性的逻辑框、配置、模块、电路和算法步骤可以作为电子硬件、由处理器执行的计算机软件或两者的组合来实现。各种说明性的组件、框、配置、模块、电路和步骤已在上文围绕其功能进行了一般性描述。这种功能被实现为硬件还是处理器可执行指令取决于特定的应用和对整个系统施加的设计限制。本领域技术人员可以针对每个特定的应用以不同的方式实现所描述的功能,这种实现决策将不被解释为导致偏离本公开内容的范围。
结合本文公开的实现方式描述的方法或算法的步骤可以直接体现在硬件中,体现在由处理器执行的软件模块中,或体现在两者的组合中。软件模块可以驻留在随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、压缩光盘只读存储器(CD-ROM)、或本领域已知的任何其它形式的非瞬时存储介质中。示例性的存储介质耦合到处理器,以便处理器可以从存储介质读取信息,并且将信息写入存储介质。在替代方式中,存储介质可以是处理器的组成部分。处理器和存储介质可以驻留在专用集成电路(ASIC)中。ASIC可以驻留在计算设备或用户终端中。在替代方式中,处理器和存储介质可以作为分立组件驻留在计算设备或用户终端中。
提供对所公开的方面的先前描述是为了使本领域的技术人员能够制造或使用所公开的方面。对这些方面的各种修改对于本领域的技术人员来说将是显而易见的,而且本文定义的原理可以应用于其它方面而不偏离本公开内容的范围。因此,本公开内容并不旨在局限于本文所示的方面,而是要赋予与由跟随的权利要求书所限定的原理和新颖特征相一致的尽可能最广的范围。
Claims (30)
1.一种用于音频分析的设备,包括:
存储器,其被配置为存储多个用户的多个用户语音简档;以及
一个或多个处理器,其被配置为:
在第一功率模式下,确定音频流是否对应于至少两个不同说话者的语音;
基于确定所述音频流对应于至少两个不同说话者的语音,在第二功率模式下分析所述音频流的音频特征数据以生成分段结果,所述分段结果指示所述音频流的说话者同质音频段;
执行对所述多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定所述第一音频特征数据集合是否与所述多个用户语音简档中的任何用户语音简档相匹配;以及
基于确定所述第一音频特征数据集合与所述多个用户语音简档中的任何用户语音简档都不匹配:
基于所述第一多个音频特征数据集合来生成第一用户语音简档;以及
将所述第一用户语音简档添加到所述多个用户语音简档中。
2.根据权利要求1所述的设备,其中,所述第一音频特征数据集合包括第一音频特征向量。
3.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:通过对所述音频特征数据应用发言者分段神经网络来分析所述音频特征数据。
4.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:基于确定所述分段结果指示所述第一音频特征数据集合对应于第一说话者的语音,并且所述第一音频特征数据集合与所述多个用户语音简档中的任何用户语音简档都不匹配:
将所述第一音频特征数据集合存储在与所述第一说话者相关联的第一注册缓冲器中;以及
将对应于所述第一说话者的语音的后续音频特征数据集合存储在所述第一注册缓冲器中,直到满足停止条件为止,其中,所述第一说话者同质音频段的所述第一多个音频特征数据集合包括所述第一音频特征数据集合和所述后续音频特征数据集合。
5.根据权利要求4所述的设备,其中,所述一个或多个处理器被配置为:响应于确定在所述音频流中检测到长于门限静默,确定满足所述停止条件。
6.根据权利要求4所述的设备,其中,所述一个或多个处理器被配置为:至少部分地基于确定特定音频特征数据集合对应于单个说话者的语音,将所述特定音频特征数据集合添加到所述第一注册缓冲器中,其中,所述单个说话者包括所述第一说话者。
7.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:基于确定所述第一说话者同质音频段的存储在第一注册缓冲器中的所述第一多个音频特征数据集合的计数大于注册门限,基于所述第一多个音频特征数据集合来生成所述第一用户语音简档。
8.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:基于确定所述第一音频特征数据集合与特定用户语音简档相匹配,基于所述第一音频特征数据集合来更新所述特定用户语音简档。
9.根据权利要求8所述的设备,其中,所述一个或多个处理器被配置为:至少部分地基于确定所述第一音频特征数据集合对应于单个说话者的语音,基于所述第一音频特征数据集合来更新所述特定用户语音简档。
10.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:确定第二说话者同质音频段的第二多个音频特征数据集合中的第二音频特征数据集合是否与所述多个用户语音简档中的任何用户语音简档相匹配。
11.根据权利要求10所述的设备,其中,所述一个或多个处理器被配置为:基于确定所述第二音频特征数据集合与所述多个用户语音简档中的任何用户语音简档都不匹配:
基于所述第二多个音频特征数据集合来生成第二用户语音简档;以及
将所述第二用户语音简档添加到所述多个用户语音简档中。
12.根据权利要求10所述的设备,其中,所述一个或多个处理器被配置为:基于确定所述第二音频特征数据集合与所述多个用户语音简档中的特定用户语音简档相匹配,基于所述第二音频特征数据集合来更新所述特定用户语音简档。
13.根据权利要求1所述的设备,其中,所述存储器被配置为:存储简档更新数据,并且其中,所述一个或多个处理器被配置为:
响应于生成所述第一用户语音简档,更新所述简档更新数据以指示所述第一用户语音简档被更新;以及
基于确定所述简档更新数据指示所述多个用户语音简档的第一计数已被更新,将所述第一计数作为在所述音频流中检测到的说话者的计数来输出。
14.根据权利要求1所述的设备,其中,所述存储器被配置为:存储用户交互数据,并且其中,所述一个或多个处理器被配置为:
响应于生成所述第一用户语音简档,基于所述第一说话者同质音频段的语音持续时间来更新所述用户交互数据,以指示与所述第一用户语音简档相关联的第一用户在所述语音持续时间内交互;以及
至少输出所述用户交互数据。
15.根据权利要求1所述的设备,其中,与所述第二功率模式相比,所述第一功率模式是较低功率模式。
16.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:
在所述第一功率模式下确定所述音频流的音频信息,所述音频信息包括在所述音频流中检测到的说话者的计数、话音活动检测(VAD)信息、或二者;
在所述第二功率模式下激活一个或多个音频分析应用;以及
向一个或多个音频分析应用提供所述音频信息。
17.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:响应于确定所述分段结果指示所述音频流的一个或多个第二音频段对应于多个说话者,避免基于所述一个或多个第二音频段更新所述多个用户语音简档。
18.一种音频分析的方法,包括:
在设备处在第一功率模式下确定音频流是否对应于至少两个不同说话者的语音;
基于确定所述音频流对应于至少两个不同说话者的语音,在第二功率模式下分析所述音频流的音频特征数据以生成分段结果,所述分段结果指示所述音频流的说话者同质音频段;
在所述设备处执行对多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定所述第一音频特征数据集合是否与所述多个用户语音简档中的任何用户语音简档相匹配;以及
基于确定所述第一音频特征数据集合与所述多个用户语音简档中的任何用户语音简档都不匹配:
在所述设备处基于所述第一多个音频特征数据集合来生成第一用户语音简档;以及
在所述设备处将所述第一用户语音简档添加到所述多个用户语音简档中。
19.根据权利要求18所述的方法,进一步包括:对所述音频特征数据应用发言者分段神经网络。
20.根据权利要求18所述的方法,进一步包括:基于确定所述分段结果指示所述第一音频特征数据集合对应于第一说话者的语音,并且所述第一音频特征数据集合与所述多个用户语音简档中的任何用户语音简档都不匹配:
将所述第一音频特征数据集合存储在与所述第一说话者相关联的第一注册缓冲器中;以及
将与所述第一说话者的语音相对应的后续音频特征数据集合存储在所述第一注册缓冲器中,直到满足停止条件为止,其中,所述第一说话者同质音频段的所述第一多个音频特征数据集合包括所述第一音频特征数据集合和所述后续音频特征数据集合。
21.根据权利要求20所述的方法,进一步包括:在所述设备处,响应于确定在所述音频流中检测到长于门限静默,确定满足所述停止条件。
22.根据权利要求20所述的方法,进一步包括:在所述设备处,至少部分地基于确定特定音频特征数据集合对应于单个说话者的语音来将所述特定音频特征数据集合添加到所述第一注册缓冲器,其中,所述单个说话者包括所述第一说话者。
23.根据权利要求18所述的方法,进一步包括:基于确定所述第一说话者同质音频段的存储在第一注册缓冲器中的所述第一多个音频特征数据集合的计数大于注册门限,基于所述第一多个音频特征数据集合来生成所述第一用户语音简档。
24.根据权利要求18所述的方法,进一步包括:基于确定所述第一音频特征数据集合与特定用户语音简档相匹配,基于所述第一音频特征数据集合来更新所述特定用户语音简档。
25.根据权利要求24所述的方法,进一步包括:至少部分地基于确定所述第一音频特征数据集合对应于单个说话者的语音,基于所述第一音频特征数据集合来更新所述特定用户语音简档。
26.根据权利要求18所述的方法,进一步包括:基于确定第二说话者同质音频段的第二多个音频特征数据集合中的第二音频特征数据集合与所述多个用户语音简档中的特定用户语音简档相匹配,基于所述第二音频特征数据集合来更新所述特定用户语音简档。
27.一种存储指令的非暂时性计算机可读存储介质,所述指令在由一个或多个处理器执行时使得所述处理器进行以下操作:
在第一功率模式下确定音频流是否对应于至少两个不同说话者的语音;
基于确定所述音频流对应于至少两个不同说话者的语音,在第二功率模式下分析所述音频流的音频特征数据以生成分段结果,所述分段结果指示所述音频流的说话者同质音频段;
执行对多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定所述第一音频特征数据集合是否与所述多个用户语音简档中的任何用户语音简档相匹配;以及
基于确定所述第一音频特征数据集合与所述多个用户语音简档中的任何用户语音简档都不匹配:
基于所述第一多个音频特征数据集合来生成第一用户语音简档;以及
将所述第一用户语音简档添加到所述多个用户语音简档中。
28.根据权利要求27所述的非暂时性计算机可读存储介质,其中,所述指令在由所述一个或多个处理器执行时使得所述处理器进行以下操作:基于确定所述第一说话者同质音频段的存储在第一注册缓冲器中的所述第一多个音频特征数据集合的计数大于注册门限,基于所述第一多个音频特征数据集合来生成所述第一用户语音简档。
29.一种装置,包括:
用于存储多个用户的多个用户语音简档的单元;
用于在第一功率模式下确定音频流是否对应于至少两个不同说话者的语音的单元;
用于在第二功率模式下分析所述音频流的音频特征数据以生成分段结果的单元,所述音频特征数据是基于确定所述音频流对应于至少两个不同说话者的语音而在所述第二功率模式下分析的,其中,所述分段结果指示所述音频流的说话者同质音频段;
用于执行对所述多个用户语音简档与第一说话者同质音频段的第一多个音频特征数据集合中的第一音频特征数据集合的比较,以确定所述第一音频特征数据集合是否与所述多个用户语音简档中的任何用户语音简档相匹配的单元;
用于基于所述第一多个音频特征数据集合来生成第一用户语音简档的单元,所述第一用户语音简档是基于确定所述第一音频特征数据集合与所述多个用户语音简档中的任何用户语音简档都不匹配而生成的;以及
用于将所述第一用户语音简档添加到所述多个用户语音简档中的单元。
30.根据权利要求29所述的装置,其中,所述用于存储的单元、所述用于确定的单元、所述用于分析的单元、所述用于执行的单元、所述用于生成的单元以及所述用于添加的单元被集成到以下各者中的至少一者中:移动通信设备、智能电话、蜂窝电话、智能扬声器、条形扬声器、膝上型计算机、计算机、平板设备、个人数字助理、显示设备、电视机、游戏控制台、音乐播放器、无线电单元、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航设备、运载工具、耳机、增强现实耳机、虚拟现实耳机、飞行器、家庭自动化系统、话音激活设备、无线扬声器和话音激活设备、便携式电子设备、汽车、计算设备、通信设备、物联网(IoT)设备、虚拟现实(VR)设备、基站、移动设备、或其任何组合。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/115,158 US11626104B2 (en) | 2020-12-08 | 2020-12-08 | User speech profile management |
US17/115,158 | 2020-12-08 | ||
PCT/US2021/071617 WO2022126040A1 (en) | 2020-12-08 | 2021-09-28 | User speech profile management |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116583899A true CN116583899A (zh) | 2023-08-11 |
Family
ID=78303075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180080295.6A Pending CN116583899A (zh) | 2020-12-08 | 2021-09-28 | 用户语音简档管理 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11626104B2 (zh) |
EP (1) | EP4260314A1 (zh) |
JP (1) | JP2023553867A (zh) |
KR (1) | KR20230118089A (zh) |
CN (1) | CN116583899A (zh) |
TW (1) | TW202223877A (zh) |
WO (1) | WO2022126040A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11929077B2 (en) * | 2019-12-23 | 2024-03-12 | Dts Inc. | Multi-stage speaker enrollment in voice authentication and identification |
US11462218B1 (en) * | 2020-04-29 | 2022-10-04 | Amazon Technologies, Inc. | Conserving battery while detecting for human voice |
KR102516391B1 (ko) * | 2022-09-02 | 2023-04-03 | 주식회사 액션파워 | 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법 |
CN116364063B (zh) * | 2023-06-01 | 2023-09-05 | 蔚来汽车科技(安徽)有限公司 | 音素对齐方法、设备、驾驶设备和介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6424946B1 (en) | 1999-04-09 | 2002-07-23 | International Business Machines Corporation | Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering |
US8838452B2 (en) * | 2004-06-09 | 2014-09-16 | Canon Kabushiki Kaisha | Effective audio segmentation and classification |
US7536304B2 (en) * | 2005-05-27 | 2009-05-19 | Porticus, Inc. | Method and system for bio-metric voice print authentication |
US8630854B2 (en) * | 2010-08-31 | 2014-01-14 | Fujitsu Limited | System and method for generating videoconference transcriptions |
GB2489489B (en) | 2011-03-30 | 2013-08-21 | Toshiba Res Europ Ltd | A speech processing system and method |
SG11201504186UA (en) * | 2012-12-19 | 2015-07-30 | Visa Int Service Ass | System and method for voice authentication |
US9666204B2 (en) * | 2014-04-30 | 2017-05-30 | Qualcomm Incorporated | Voice profile management and speech signal generation |
US20170270930A1 (en) * | 2014-08-04 | 2017-09-21 | Flagler Llc | Voice tallying system |
WO2019048062A1 (en) | 2017-09-11 | 2019-03-14 | Telefonaktiebolaget Lm Ericsson (Publ) | MANAGING USER PROFILES WITH VOICE COMMAND |
US11398218B1 (en) * | 2018-04-26 | 2022-07-26 | United Services Automobile Association (Usaa) | Dynamic speech output configuration |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
US11024291B2 (en) * | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
US11545156B2 (en) * | 2020-05-27 | 2023-01-03 | Microsoft Technology Licensing, Llc | Automated meeting minutes generation service |
-
2020
- 2020-12-08 US US17/115,158 patent/US11626104B2/en active Active
-
2021
- 2021-09-28 KR KR1020237018503A patent/KR20230118089A/ko unknown
- 2021-09-28 EP EP21795235.7A patent/EP4260314A1/en active Pending
- 2021-09-28 WO PCT/US2021/071617 patent/WO2022126040A1/en active Application Filing
- 2021-09-28 JP JP2023533713A patent/JP2023553867A/ja active Pending
- 2021-09-28 CN CN202180080295.6A patent/CN116583899A/zh active Pending
- 2021-09-29 TW TW110136316A patent/TW202223877A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
US20220180859A1 (en) | 2022-06-09 |
WO2022126040A1 (en) | 2022-06-16 |
EP4260314A1 (en) | 2023-10-18 |
KR20230118089A (ko) | 2023-08-10 |
JP2023553867A (ja) | 2023-12-26 |
US11626104B2 (en) | 2023-04-11 |
TW202223877A (zh) | 2022-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11393472B2 (en) | Method and apparatus for executing voice command in electronic device | |
US10818296B2 (en) | Method and system of robust speaker recognition activation | |
CN116583899A (zh) | 用户语音简档管理 | |
US10485049B1 (en) | Wireless device connection handover | |
US9685161B2 (en) | Method for updating voiceprint feature model and terminal | |
EP3134896B1 (en) | Method and apparatus for activating application by speech input | |
US10721661B2 (en) | Wireless device connection handover | |
CN105793923A (zh) | 本地和远程语音处理 | |
WO2016064556A1 (en) | Sound sample verification for generating sound detection model | |
CN105580071B (zh) | 用于训练声音识别模型数据库的方法和装置 | |
US20210266655A1 (en) | Headset configuration management | |
CN108922523B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN116249952A (zh) | 使用动态分类器的用户语音活动检测 | |
WO2022233239A1 (zh) | 一种升级方法、装置及电子设备 | |
US20240079007A1 (en) | System and method for detecting a wakeup command for a voice assistant | |
WO2024053915A1 (en) | System and method for detecting a wakeup command for a voice assistant | |
CN112750440B (zh) | 一种信息处理方法及装置 | |
CN115691479A (zh) | 语音检测方法、装置、电子设备及存储介质 | |
US20210082427A1 (en) | Information processing apparatus and information processing method | |
CN116959436A (zh) | 一种语音交互方法及电子设备 | |
KR20220118109A (ko) | 스피커 및 마이크를 포함하는 전자 장치 및 그 동작 방법 | |
CN116189718A (zh) | 语音活性检测方法、装置、设备及存储介质 | |
CN115331672A (zh) | 设备控制方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |