CN117636844A - 用于处理虚拟个人助理的命令音频的方法和装置 - Google Patents

用于处理虚拟个人助理的命令音频的方法和装置 Download PDF

Info

Publication number
CN117636844A
CN117636844A CN202311035616.8A CN202311035616A CN117636844A CN 117636844 A CN117636844 A CN 117636844A CN 202311035616 A CN202311035616 A CN 202311035616A CN 117636844 A CN117636844 A CN 117636844A
Authority
CN
China
Prior art keywords
cluster
speech
spoken
clusters
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311035616.8A
Other languages
English (en)
Inventor
N·坦登
J·米斯特里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman International Industries Inc
Original Assignee
Harman International Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman International Industries Inc filed Critical Harman International Industries Inc
Publication of CN117636844A publication Critical patent/CN117636844A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Navigation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

所公开的实施方案包括用于处理虚拟个人助理的音频命令的技术。语音处理系统将在音频输入信号中检测到的语音分割成多个语音片段,其中给定语音片段中包括的语音是由单个说话者说出的。所述语音处理系统将多个语音片段中包括的语音片段聚类成多个聚类簇,其中多个聚类簇中包括的每个聚类簇是由不同的说话者说出的。所述语音处理系统确定多个聚类簇中包括的第一聚类簇是由第一授权说话者说出的。所述语音处理系统致使虚拟个人助理执行第一聚类簇中包括的第一音频命令。

Description

用于处理虚拟个人助理的命令音频的方法和装置
技术领域
本公开的实施方案总体上涉及语音处理系统,并且更具体地,涉及用于对从多个源指向虚拟私人助理装置的命令进行授权和优先级排序的技术。
背景技术
虚拟个人助理(VPA)部署在许多现代装置中以用于提供对用户讲出的可听命令的处理。虚拟个人助理也有不同的名称,诸如智能虚拟助理(IVA)、智能个人助理(IPA)等。VPA可以各种形式体现,包括作为独立的智能扬声器装置、作为在智能电话或其他计算机装置上执行的软件应用程序、作为具有车辆导航、驾驶员辅助和/或信息娱乐功能的汽车系统中的嵌入式部件,等等。具有VPA的用户通常讲出在VPA的传声器或其他音频输入装置的范围内的音频命令。VPA接收音频声波,将音频声波数字化,并从音频声波中提取音频命令。VPA基于VPA如何被编程来响应各种口语单词来执行音频命令。例如,VPA可被编程来响应各种音频命令来为用户执行日常任务,诸如跟踪任务列表、给用户联系人列表中包括的人员打电话或发短信、播放来自媒体商店的视频和/或音频内容、回答问题等等。
VPA的一个潜在缺点在于VPA不加区别地响应经由音频输入接收到的所有音频命令。在一些情况下,多个人可能正在讲话,或者在VPA附近,另一音频源可能正在播放。作为响应,VPA试图处理从所有扬声器和音频源接收到的音频输入。VPA解释从音频输入中提取的所有单词,并执行VPA从提取的单词中确定的任何音频命令。这可能导致不可靠、不明确、不期望、非预期和/或矛盾的结果。
如前所述,用于处理虚拟个人助理装置的语音输入的改进技术将是有用的。
发明内容
本公开的各种实施方案阐述了一种用于处理虚拟个人助理的音频命令的计算机实施的方法。所述方法包括将在音频输入信号中检测到的语音分割成多个语音片段,其中给定语音片段中包括的语音是由单个说话者说出的。所述方法还包括将多个语音片段中包括的语音片段聚类成多个聚类簇,其中多个聚类簇中包括的每个聚类簇是由不同的说话者说出的。所述方法还包括确定多个聚类簇中包括的第一聚类簇是由第一授权说话者说出的。所述方法还包括致使第一聚类簇中包括的第一音频命令执行。
其他实施方案包括但不限于:实施所公开技术的一个或多个方面的系统,以及包括用于执行所公开技术的一个或多个方面的指令的一个或多个计算机可读介质。
所公开的技术相对于现有技术的至少一个技术优点在于,利用所公开的技术,语音处理系统能够消除由非预期源说出的音频命令。因此,相对于常规系统,语音处理系统执行非预期的或不期望的音频命令的可能性被降低。此外,语音处理系统能够丢弃来自非授权用户的语音,这相对于常规系统为授权用户提供了改进的防护和安全性。这些技术优点表示相对于现有技术方法的一个或多个技术改进。
附图说明
为了能够详细地理解各种实施方案的上述特征,可通过参考各种实施方案来对以上简要概述的创造性概念进行更具体的描述,附图中示出了所述各种实施方案中的一些。然而,应当注意,附图仅示出了创造性概念的典型实施方案,并且因此不应被视为以任何方式限制其范围,并且存在其他等效实施方案。
图1是被配置成实施各种实施方案的一个或多个方面的计算装置的框图;
图2是根据各种实施方案的在图1的计算装置上实施的语音处理系统的框图;
图3示出了根据各种实施方案的指向图2的语音处理系统的音频输入信号;
图4示出了根据各种实施方案的由图2的语音处理系统生成的二值化音频;
图5示出了根据各种实施方案的由图2的语音处理系统生成的音频命令队列;
图6是根据各种实施方案的用于登记语音处理系统的授权用户的方法步骤的流程图;以及
图7是根据各种实施方案的用于处理指向虚拟个人助理装置的语音输入的方法步骤的流程图。
具体实施方式
在以下描述中,阐述了众多具体细节以提供对各种实施方案的更加透彻的理解。然而,对本领域技术人员将显而易见的是,在没有这些具体细节中的一个或多个的情况下也可实践所述创造性概念。
如本文所讨论的,常规的VPA试图处理从所有人类扬声器和音频源接收到的音频输入。这种行为可能会导致各种问题。第一个问题是,VPA会对检测到的单词做出响应,而不管单词的来源。在一些情况下,两个人可能正在讲话,其中第一个人打算对VPA讲出声音命令。第二个人也可能正在讲话,虽然没打算对VPA讲出声音命令,但VPA将由两个说话者讲出的单词解释为命令。第二个问题是,两个人可能同时讲话,其中VPA将由两个说话者讲出的单词解释为单个命令。因此,VPA执行了双方都没有打算的命令。第三个问题是,VPA可解释作为命令的一部分的单词,并且还可将不打算作为命令的一部分的单词解释为命令的一部分。这些情况以及其他场景可能会导致VPA的不可靠、不明确、不期望、非预期和/或矛盾的行为。
这些不期望的或不明确的结果可能会导致严重的防护问题。在一个特定示例中,潜在的抢劫者试图抢劫和/或攻击的用户可能是在交通信号灯处等待的行人或车辆驾驶员。用户向VPA讲出音频命令来向警方呼叫,但随后抢劫者又讲出第二个音频命令来取消或断开所述呼叫。VPA可能将抢劫者的命令解释为有效的用户命令。因此,VPA可能通过向警方发起呼叫并且然后取消或断开呼叫来做出响应。在此类情形下,用户讲出的音频命令将被抢劫者讲出的音频命令覆盖,并且不会向警察通知正在进行的犯罪。
要解决这些问题,所公开的实施方案包括具有处理音频输入信号的虚拟处理助理的语音处理系统,其中音频信号包括指向虚拟个人助理装置的语音输入。语音处理系统接收音频输入信号并将其数字化。语音处理系统检测数字化音频输入信号的语音分量,将语音分量分割成不同说话者(本文也称为用户)的不同语音片段,并且针对每个用户将语音片段聚类成不同的聚类簇。语音处理系统标识并丢弃对应于非授权人员的聚类簇。语音处理系统对剩余聚类簇进行优先级排序,并生成按优先级次序呈现聚类簇的音频命令队列。语音处理系统处理音频命令队列并执行其中包括的命令。
图1是被配置成实施各种实施方案的一个或多个方面的计算装置100的框图。如图所示,计算装置100包括但不限于处理器102、存储装置104、输入/输出(I/O)装置接口106、网络接口108、互连件110和系统存储器112。
处理器102检索并执行存储在系统存储器112中的编程指令。相似地,处理器102存储并检索驻留在系统存储器112中的应用数据。互连件110有助于处理器102、I/O装置接口106、存储装置104、网络接口108和系统存储器112之间的传输,诸如编程指令和应用数据的传输。I/O装置接口106被配置成从用户I/O装置122接收输入数据。用户I/O装置122的示例可包括一个或多个按钮、键盘、鼠标和/或其他定点装置等。I/O装置接口106还包括被配置成生成电音频输出信号的音频输出单元,并且用户I/O装置122还包括被配置成响应于电音频输出信号而生成声学输出的扬声器。I/O装置接口106还包括被配置成接收电音频输入信号的音频输入单元,并且用户I/O装置122还包括音频输入装置,所述音频输入装置被配置成响应于接收到电音频输入信号而生成声输出的模拟和/或数字信号表示。音频输入装置可以是传声器、耳机、输入换能器等。用户I/O装置122的另一示例是显示装置,所述显示装置通常表示用于生成图像以进行显示的任何技术上可行的手段。例如,显示装置可以是液晶显示(LCD)显示器、有机发光二极管(OLED)显示器或数字光处理(DLP)显示器。
包括处理器102以表示单个中央处理单元(CPU)、多个CPU、具有多个处理核心的单个CPU、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、张量处理单元等。并且,通常包括系统存储器112来表示随机存取存储器。存储装置104可以是磁盘驱动器存储装置。虽然被示出为单个单元,但是存储装置104可以是固定和/或可移除存储装置的组合,诸如固定磁盘驱动器、软盘驱动器、磁带驱动器、可移除存储卡或光存储装置、网络附接存储装置(NAS)或存储区域网络(SAN)。处理器102经由网络接口108与其他计算装置和系统通信,其中网络接口108被配置成经由通信网络传输和接收数据。
系统存储器112包括但不限于登记模块132、语音二值化模块134、授权和优先级排序模块136、虚拟个人助理模块138和数据存储库142。当由处理器102执行时,登记模块132、语音二值化模块134、授权和优先级排序模块136以及虚拟个人助理模块138执行与本文进一步描述的技术相关联的一个或多个操作。当执行与所公开的技术相关联的操作时,登记模块132、语音二值化模块134、授权和优先级排序模块136以及虚拟个人助理模块138将数据存储在数据存储库142中并从中检索数据。
图2是根据各种实施方案的在图1的计算装置100上实施的语音处理系统200的框图。如图所示,语音处理系统200包括但不限于图1的登记模块132、语音二值化模块134、授权和优先级排序模块136以及虚拟个人助理模块138。语音处理系统200以两个不同阶段执行:登记阶段和部署阶段。
在登记阶段期间,登记模块132提示用户讲出若干话语,诸如四个或五个话语,以根据用户的特定声音特征来训练语音二值化模块134。登记模块132基于用户的声音的这些独特的声音特征来生成这些声音足迹。登记模块132采用诸如梅尔频率倒谱系数(MFCC)等各种熵技术来生成声音足迹,并随后从授权用户中标识具体用户。登记模块132通过分析话语内的语音细节和平均声音特征来微调声音足迹,以便表征用户的声音。登记模块132采用两种登记类型中的一种或两种:文本相关登记和文本无关登记。在文本相关登记的情况下,登记模块132提示用户多次说出特定短语作为固定话语。在用户重复相同的话语若干次之后,登记模块132确立并存储用户的声音足迹。在文本无关登记的情况下,登记模块132提示用户在一段时间内讲话。用户可讲出任何话语,只要用户讲话达足够的时间量以供登记模块132表征用户的声音即可。在用户讲话达足够的时间量之后,登记模块132确立并存储用户的声音足迹。登记模块132将唯一的用户标识符分配给声音足迹,并将用户标识符与声音足迹一起存储。此后,当传入的语音片段与声音足迹匹配时,经由分配给对应声音足迹的用户标识符来标识讲出所述语音片段的用户。一旦用户完成登记阶段,用户就被认为是授权用户,在本文中也称为登记的用户。
在一些示例中,语音处理系统200可在第一次通电时自动进入登记阶段。第一用户继续完成登记阶段并成为授权用户。然后,授权用户可讲出登记命令,诸如“登记另一用户”、“发起登记”等,以开始第二用户的登记阶段。然后,第二用户继续完成登记阶段,并且也成为授权用户。随后,任何授权用户都可讲出进一步的登记命令来授权额外用户。在一些示例中,后续登记可利用声音登记命令或不利用声音登记命令来进行。在一个示例中,后续登记可响应于授权用户在图形用户接口(GUI)中选择登记选项而进行。出于防护原因,在一些示例中,仅授权用户才能登记额外用户。
在部署阶段期间,语音二值化模块134区分各种用户的声音。语音二值化模块134标识由语音二值化模块134检测到的各种命令和/或其他语音的说话者。语音二值化模块134将检测到的由不同用户讲出的语音分成不同的话语。例如,如果第一用户正在讲话,而第二用户在第一用户结束讲话后立即讲话,则这两个话语之间可能没有足够的静音间隙来使虚拟个人助理模块138将语音标识为来自两个不同用户的两个单独的话语。通过分析音频输入信号210的声音特征,语音二值化模块134将音频输入信号210分离成语音片段,并确定音频输入信号210的语音片段是由不同用户讲出的。基于该数据,语音二值化模块134将音频输入信号210分成不同的话语,即针对用户中的每个用户的单独话语。随后,虚拟个人助理模块138分别处理这两个话语。
语音二值化模块134包括但不限于语音检测模块202、分割模块204和聚类模块206。语音检测模块202从诸如传声器等音频输入装置接收音频输入信号210。语音检测模块202将音频输入信号210中包含人类语音的部分与音频输入信号210中包含其他音频(诸如,背景噪声、风声、车辆噪声等)的部分区分开。语音检测模块202将人类语音与音频输入信号210隔离,并丢弃音频输入信号210中不包含人类语音的部分。另外,语音检测模块202标识表示人类语音中的间隙的静音时段。这些静音时段有助于标识一个语音片段的结束位置和另一个语音片段的开始位置。语音检测模块202生成包括检测到的人类语音的输出,其中移除了非人类音频源和背景噪声,并且具有标识静音时段的数据。
分割模块204从语音检测模块202接收人类语音和标识静音时段的数据。分割模块204将人类语音分离成语音片段,其中每个语音片段表示来自单个用户的人类语音。分割模块204基于接收到的人类语音的特性和静音时段来将人类语音分离成语音片段。在分割模块204处理接收到的人类语音时,分割模块204确定接收到的人类语音的声音特征是否保持基本相同,从而指示同一用户正在讲话,或者确定接收到的人类语音的声音特征是否已充分改变,从而指示现在不同的用户正在讲话。如果分割模块204确定声音特征已经充分改变,则分割模块204在声音特征改变时标记当前语音片段的结束。分割模块204在检测到声音特征的改变时开始新的语音分割。分割模块204将每个语音片段与特定用户相关联。如果分割模块204确定语音片段与先前已登记且已被授权的用户相关联,则分割模块204将语音片段与该授权用户的用户标识符相关联。然而,如果分割模块204确定语音片段与先前已登记且已被授权的用户相关联,则分割模块204将语音片段与该非授权用户的通用但唯一的用户标识符相关联。另外,如果分割模块204确定语音输入已经停止达最短时间段,则分割模块204在不再检测到人类语音时标记当前语音片段的结束。当再次检测到人类语音时,分割模块204开始新的分割。
人类语音可来自授权用户和/或来自非授权用户。在授权用户的情况下,分割模块204基于将语音与在登记阶段期间确立的来自授权用户的声音足迹数据进行比较而标识用户。如果分割模块204确定从接收到的人类语音提取的声音特征与针对授权用户的声音足迹所存储的声音特征匹配,则分割模块204确定接收到的人类语音是由该授权用户讲出的。如果从接收到的人类语音提取的声音特征与存储的声音特征具有高度相似性,则从接收到的人类语音提取的声音特征与声音足迹的存储的声音特征匹配。如本文所述,当从接收到的人类语音提取的声音特征与存储的声音特征相差小于阈值水平(诸如10%、20%、25%等)时,确定高度相似性。另外或替代地,当从接收到的人类语音提取的声音特征与存储的声音特征之间的余弦相似性超过阈值水平(诸如0.75、0.8、0.9等)时,确定高度相似性。分割模块204向聚类簇分配授权用户的用户标识符,并将聚类簇与授权用户的用户标识符关联。如果分割模块204确定从接收到的人类语音提取的声音特征与任何授权用户的声音足迹的存储的声音特征不具有高相似性,则分割模块204确定接收到的人类语音是非授权用户讲出的。在非授权用户的情况下,分割模块204基于在接收到人类语音时标识的声音特征而将人类语音分离成语音片段。如果非授权用户讲出特定聚类簇,则分割模块204向该聚类簇分配该非授权用户的通用但唯一的用户标识符,并将该聚类簇与通用用户标识符相关联。分割模块204将语音片段传输到聚类模块206。
聚类模块206从分割模块204接收语音片段。聚类模块206将语音片段分组成聚类簇,其中聚类簇包括由特定用户讲出的所有语音片段。一般而言,正在讲话的用户数量少于由分割模块生成的语音片段的数量。例如,特定用户可能多次讲话,或者两个用户可能正在进行对话,其中两个用户的语音片段随时间散布。聚类模块206将第一用户讲出的语音片段分组成第一聚类簇。聚类模块206将第二用户讲出的语音片段分组成第二聚类簇。聚类模块206将额外用户讲出的语音片段分组成额外聚类簇,其中每个聚类簇对应于单个用户。当生成聚类簇时,聚类模块206包括标识静音时段的数据。在一些示例中,聚类簇中包括的数据标识两种不同类型的静音。第一种类型的静音标识没有用户讲话的时间段。这种类型的静音对应于由语音检测模块202标识的静音时段。静音时刻标识与聚类簇相关联的用户未讲话但一个或多个其他用户正在讲话的时间段。
聚类模块206基于从分割模块204接收到的数据而按用户标识每个聚类簇。聚类模块206将聚类簇作为二值化音频212传输到授权和优先级排序模块136。
授权和优先级排序模块136从聚类模块206接收二值化音频212。对于二值化音频212中包括的每个聚类簇,授权和优先级排序模块136确定聚类簇是被标识为由授权用户讲出的还是由非授权用户讲出的。授权和优先级排序模块136允许被标识为是由授权用户讲出的聚类簇作为音频命令队列214的一部分通过并传输到虚拟个人助理模块138。授权和优先级排序模块136基于语音处理系统200的模式而处理被标识为由非授权用户讲出的聚类簇。在一些示例中,语音处理系统200以两种模式中的一种操作:访客模式和授权用户模式。在访客模式下,授权和优先级排序模块136允许二值化音频212中的所有聚类簇(无论说话者是谁)作为音频命令队列214的一部分通过并传输到虚拟个人助理模块138。因此,授权和优先级排序模块136允许被标识为由授权用户讲出的聚类簇和被标识为由非授权用户讲出的聚类簇通过并传输到虚拟个人助理模块138。在授权用户模式下,授权和优先级排序模块136允许被标识为由授权用户讲出的聚类簇作为音频命令队列214的一部分通过并传输到虚拟个人助理模块138。然而,授权和优先级排序模块136阻止被标识为由非授权用户讲出的聚类簇并且不允许这些聚类簇通过。通过阻止由非授权用户讲出的聚类簇,语音处理系统200阻止执行聚类簇中包括的音频命令。授权用户可讲出命令以使语音处理系统200在访客模式与授权用户模式之间切换。
在一些示例中,语音处理系统200在某些条件下(诸如在通电时、在系统重置之后等)以默认模式发起。默认模式基于语音处理系统200的一个或多个特性,诸如语音处理系统200的类型、语音处理系统200的安装位置、由语音处理系统200执行的软件应用等。如果语音处理系统200是安装在住宅中用于一般用途的智能扬声器,则默认模式可能是访客模式,使得从所有附近用户接收到的所有声音命令被传递到虚拟个人助理模块138以进行进一步分析和执行。然而,如果语音处理系统200是安装在住宅中用于一般用途的家庭安全系统的音频输入装置,则默认模式可以是授权用户模式,使得语音处理系统200仅处理和执行由授权用户说出的声音命令。授权和优先级排序模块136阻止由非授权用户(诸如潜在窃贼)讲出的命令。如果语音处理系统200是安装在车辆中的导航和防护系统,则默认模式可以是授权用户模式,使得语音处理系统200仅处理和执行由授权用户讲出的声音命令。授权和优先级排序模块136阻止由非授权用户(诸如,潜在的偷车贼、劫车犯和抢劫者)讲出的命令。相似地,如果智能电话正在执行导航软件应用,则默认模式可以是授权用户模式,使得语音处理系统200仅处理和执行由授权用户讲出的声音命令。
在一些示例中,授权和优先级排序模块136设置聚类簇的优先级。一般而言,虚拟个人助理模块138按时间次序处理聚类簇。表示较早讲出的音频命令的聚类簇在表示较晚讲出的音频命令的聚类簇之前被处理。授权和优先级排序模块136可通过设置聚类簇的优先级来改变处理的次序。在基于家庭的系统中,授权和优先级排序模块136可将被标识为由父母讲出的聚类簇的优先级设置为较高优先级。授权和优先级排序模块136可将被标识为由儿童讲出的聚类簇的优先级设置为较低优先级。在基于车辆的系统中,授权和优先级排序模块136可将被标识为由驾驶员讲出的聚类簇的优先级设置为较高优先级。授权和优先级排序模块136可将被标识为由乘客讲出的聚类簇的优先级设置为较低优先级。可以任何技术上可行的方式来分配聚类簇的优先级。在一些示例中,第一授权用户分配语音处理系统200的每个授权用户的优先级。这样做时,第一授权用户基于诸如授权用户的成熟度、授权用户的角色、授权用户与授权用户的关系等各种因素来分配每个授权用户的优先级。在一些示例中,语音处理系统200在登记后向每个用户分配默认优先级。可为要登记的第一授权用户分配相对较高的优先级。可为要登记的第二授权用户分配稍低的优先级。可为要登记的第三授权用户分配更低的优先级等。可为非授权用户分配非常低的优先级。分配给每个用户的优先级可随时改变,诸如通过向语音处理系统200讲出优先级改变命令。基于这些预定优先级,授权和优先级排序模块136基于聚类簇的标识符来设置每个聚类簇的优先级,所述标识符标识讲出聚类簇中所包括的语音片段的授权或非授权用户。
在确定哪些聚类簇被允许通过以及哪些聚类簇被阻止之后,并且在设置每个聚类簇的优先级之后,授权和优先级排序模块136生成包括被允许的聚类簇的音频命令队列214。授权和优先级排序模块136将音频命令队列214传输到虚拟个人助理模块138。
虚拟个人助理模块138从授权和优先级排序模块136接收音频命令队列214。虚拟个人助理模块138从音频命令队列214提取聚类簇并单独处理每个聚类簇。因为每个聚类簇与其他聚类簇分开处理,并且因为每个聚类簇表示来自单个用户的语音片段,所以虚拟个人助理模块138不将由两个或更多个用户讲出的语音片段处理为单个命令。此外,当处于授权用户模式时,授权和优先级排序模块136阻止来自非授权用户的聚类簇。因此,在授权用户模式下,虚拟个人助理模块138仅处理由授权用户讲出的命令,从而为授权用户提供改进的防护和安全性。
虚拟个人助理模块138处理音频命令队列214中的聚类簇。在一些示例中,虚拟个人助理模块138基于从授权和优先级排序模块136接收聚类簇的次序来以先进先出次序处理聚类簇。虚拟个人助理模块138基于各种因素来确定聚类簇中存在的一个音频命令何时结束以及同一聚类簇中存在的另一音频命令何时开始,所述各种因素包括讲出的单词的语境、没有用户讲话的静音时段的持续时间、仅其他用户正在讲话的时间段的持续时间等。在一些示例中,虚拟个人助理模块138同时执行虚拟个人助理的多个实例。在此类示例中,虚拟个人助理模块138针对音频命令队列214中表示的每个聚类簇执行虚拟个人助理的不同实例。因此,虚拟个人助理模块138为语音处理系统200的每个用户提供单独的虚拟个人助理。
在一些示例中,虚拟个人助理模块138采用一个或多个云服务来执行音频命令队列214的聚类簇中存在的音频命令。在此类示例中,虚拟个人助理模块138通过有线或无线网络将聚类簇中的语音片段或聚类簇中的语音片段的子集转发到虚拟个人助理云服务。虚拟个人助理云服务处理语音片段以从语音片段中提取一个或多个音频命令。虚拟个人助理云服务生成响应一个或多个音频命令的输出数据流。虚拟个人助理云服务通过有线或无线网络将输出数据传输到虚拟个人助理模块138。
图3示出了根据各种实施方案的指向图2的语音处理系统200的音频输入信号210。如图所示,音频输入信号210以来自第一用户的语音片段310(0)开始。在语音片段310(0)结束之前,音频输入信号210包括来自第二用户的语音片段312(0)。因此,语音片段310(0)和语音片段312(0)在第一用户和第二用户同时讲话的地方重叠。在第一用户停止讲话之后,语音片段310(0)结束,并且在语音片段312(0)的剩余部分期间,仅第二用户在讲话。在第二用户停止讲话之后,音频输入信号210包括没有用户正在讲话的静音时段316(0)。然后,第三用户讲话,如语音片段314(0)所示。在第三用户停止讲话之后,音频输入信号210包括没有用户正在讲话的第二静音时段316(1)。然后,音频输入信号210包括由第一用户讲出的语音片段310(1)和由第三用户讲出的语音片段314(1),随后是第三静音时段316(2)。音频输入信号210然后包括由第二用户讲出的语音片段312(1)。
图4示出了根据各种实施方案的由图2的语音处理系统200生成的二值化音频212。如图所示,图3的音频输入信号210中包括的语音片段已被分割并聚类成三个聚类簇,三个用户中的每个用户一个聚类簇。如图所示,第一聚类簇包括由第一用户讲出、对应于音频输入信号210的语音片段310(0)和语音片段310(1)的语音片段410(0)和410(1)。虽然由第一用户讲出的语音片段310(0)的一部分与由第二用户讲出的语音片段312(0)的一部分重叠,但是语音片段410(0)仅包括由第一用户说出的语音。当没有用户在讲话时,静音时段416(0)、416(1)和416(2)分别对应于静音时段316(0)、316(1)和316(2)。时段412(0)和412(1)表示第二用户正在讲话但第一用户没有讲话的时间段。相似地,时段414(0)和414(1)表示第三用户正在讲话但第一用户没有讲话的时间段。因此,第一聚类簇仅包括由第一用户讲出的语音片段。第一聚类簇还包括标识没有用户讲话的静音时段以及第一用户没有讲话但一个或多个其他用户正在讲话的时间段的数据。
如进一步所示,第二聚类簇包括由第二用户讲出、对应于音频输入信号210的语音片段312(0)和语音片段312(1)的语音片段422(0)和422(1)。虽然由第二用户讲出的语音片段312(0)的一部分与由第一用户讲出的语音片段310(0)的一部分重叠,但是语音片段422(0)仅包括由第二用户说出的语音。当没有用户在讲话时,静音时段426(0)、426(1)和426(2)分别对应于静音时段316(0)、316(1)和316(2)。时段420(0)和420(1)表示第一用户正在讲话但第二用户没有讲话的时间段。相似地,时段424(0)和424(1)表示第三用户正在讲话但第二用户没有讲话的时间段。因此,第二聚类簇仅包括由第二用户讲出的语音片段。第二聚类簇还包括标识没有用户讲话的静音时段以及第二用户没有讲话但一个或多个其他用户正在讲话的时间段的数据。
如进一步所示,第三聚类簇包括由第三用户讲出、对应于音频输入信号210的语音片段314(0)和语音片段314(1)的语音片段434(0)和434(1)。当没有用户在讲话时,静音时段436(0)、436(1)和436(2)分别对应于静音时段316(0)、316(1)和316(2)。时段430(0)和430(1)表示第一用户正在讲话但第三用户没有讲话的时间段。相似地,时段432(0)和432(1)表示第二用户正在讲话但第三用户没有讲话的时间段。因此,第三聚类簇仅包括由第三用户讲出的语音片段。第三聚类簇还包括标识没有用户讲话的静音时段以及第三用户没有讲话但一个或多个其他用户正在讲话的时间段的数据。
图5示出了根据各种实施方案的由图2的语音处理系统200生成的音频命令队列214。如图所示,音频命令队列214包括对应于由第一用户讲出并包括在图4的第一聚类簇中的语音片段410(0)和410(1)的语音片段510(0)和语音片段510(1)。第一聚类簇由第一授权用户讲出。因此,第一聚类簇被分配有第一授权用户的用户标识符。相似地,音频命令队列214还包括对应于由第二用户讲出并包括在图4的第二聚类簇中的语音片段422(0)和语音片段422(1)的语音片段512(0)和语音片段512(1)。第二聚类簇由第二授权用户讲出。因此,第二聚类簇被分配有第二授权用户的用户标识符。图4的语音片段434(0)和语音片段434(1)由被标识为非授权用户的第三用户讲出。因此,第二聚类簇被分配有第三非授权用户的通用但唯一的用户标识符。因为语音处理系统200正在授权用户模式下操作,所以语音片段434(0)和语音片段434(1)被阻止并且不出现在音频命令队列214中。静音时段516(0)包括以下各者中的任一者或多者:无人讲话时的静音时段416(0)和416(1)、第二用户讲话时的时间段412(0),以及第三用户讲话时的时间段414(0)。静音时段516(1)表示由第一用户讲出的语音片段与由第二用户讲出的语音片段之间的分界。静音时段516(2)包括以下各者中的任一者或多者:无人讲话时的静音时段426(0)、426(1)和426(2)、第一用户讲话时的时间段420(0),以及第三用户讲话时的时间段424(0)和424(1)。如图所示,音频命令队列包括由第一用户和第二用户讲出的音频命令,同时排除由第三用户讲出的音频命令。此外,音频命令队列214包括静音时段516,使得由第一用户和第二用户讲出的音频命令可被正确处理。
在一些示例中,静音时段516(0)、516(1)和516(2)中的一者或多者可足够长,以便指示先前聚类簇组是完整的,并且语音处理系统200应完成一组当前聚类簇的处理并标识一组后续聚类簇的语音片段。在此类情况下,语音处理系统200确定来自先前聚类簇组的语音片段是完整的并且包括第一组命令。此外,语音处理系统200确定来自该组后续聚类簇的语音片段已经开始。因此,语音处理系统200确定没有音频命令包括来自先前聚类簇组和该组后续聚类簇两者的语音片段。
在一个示例中,静音时段516可包括没有用户讲话并且语音处理系统200没有检测到任何人类语音的时间段。如果静音时段516的持续时间小于第一阈值量,则语音处理系统200确定一个或多个用户可能在不久的将来讲话,并且可能发出声音命令的第二部分,其中用户在静音时段516之前讲出声音命令的第一部分。因此,如果静音时段516的持续时间小于第一阈值量,则语音处理系统200确定该组当前聚类簇尚未完成,并且额外的声音命令可能即将到来。
然而,如果静音时段516的持续时间超过第二阈值量,则语音处理系统200确定用户不太可能在不久的将来讲出声音命令的第二部分。通常,第二阈值量大于第一阈值量。如果静音时段516的持续时间超过第二阈值量,则用户可能已经停止讲话。因此,如果静音时段516的持续时间大于第二阈值量,则语音处理系统200确定该组当前聚类簇已经完成,并且没有额外的声音命令可能即将到来。然后,语音处理系统200处理该组当前聚类簇中存在的声音命令。如果语音处理系统200随后检测到人类语音,则语音处理系统200将该人类语音视为一组新聚类簇的一部分。以这种方式,语音处理系统200随着时间的推移连续形成并完成各组聚类簇,以便及时处理来自各种用户的声音命令。
图6是根据各种实施方案的用于登记语音处理系统的授权用户的方法步骤的流程图。虽然结合图1至图5的系统描述了方法步骤,但是本领域技术人员将理解,被配置成以任何次序执行方法步骤的任何系统在本公开的范围内。
如图所示,方法600开始于步骤602,其中登记模块132接收进入登记模式的输入。在一些示例中,登记模块132在某些条件下(诸如在通电时、在系统重置之后等)接收进入登记模式的输入。就此而言,登记模块132可在第一次通电时自动进入登记阶段。另外或替代地,当现有授权用户讲出诸如“登记另一用户”、“发起登记”等登记命令以开始额外用户的登记阶段时,登记模块132可进入登记阶段。
在步骤604处,登记模块132提示用户讲出一个或多个话语。登记模块132采用两种登记类型中的一种或两种:文本相关登记和文本无关登记。在文本相关登记的情况下,登记模块132提示用户多次说出特定短语作为固定话语。在文本无关登记的情况下,登记模块132提示用户在一段时间内讲话。用户可讲出任何话语,只要用户讲话达足够的时间量以供登记模块132表征用户的声音即可。
在步骤606处,当用户讲出所请求的话语时,登记模块132经由诸如传声器等音频输入装置接收音频输入信号。登记模块132处理接收到的音频输入信号。
在步骤608处,登记模块132确定在步骤606处接收到的音频输入信号的发声特征。登记模块132基于音频输入信号的这些唯一的声音特征来确定这些发声特征。
在步骤610处,登记模块132基于唯一的声音音频输入信号来生成声音足迹。登记模块132采用诸如梅尔频率倒谱系数(MFCC)等各种熵技术来生成声音足迹,并随后从授权用户中标识具体用户。登记模块132通过分析话语内的语音细节和平均声音特征来微调声音足迹,以便表征用户的声音。
在步骤612处,登记模块132将声音足迹与授权用户标识符关联。登记模块132将声音足迹与处于登记过程中的特定用户关联。这样做时,登记模块132将唯一的用户标识符分配给声音足迹,并将用户标识符与声音足迹一起存储。此后,当传入的语音片段与声音足迹匹配时,经由分配给对应声音足迹的用户标识符来标识讲出所述语音片段的用户。
在步骤614处,登记模块132存储新授权用户的发声足迹。在用户讲出必要的短语足够次数之后,或者如果用户已经讲了足够的持续时间,则登记模块132确立并存储用户的声音足迹。一旦用户完成登记阶段,所述用户就被认为是授权用户,在本文中也称为登记用户,在本文中也称为授权用户。
然后,方法600终止。替代地,方法600返回到步骤604以登记额外的授权用户。
图7是根据各种实施方案的用于处理指向虚拟个人助理装置的语音输入的方法步骤的流程图。虽然结合图1至图5的系统描述了方法步骤,但是本领域技术人员将理解,被配置成以任何次序执行方法步骤的任何系统在本公开的范围内。
如图所示,方法700开始于步骤702,其中在诸如图2的语音处理系统200等语音处理系统上执行的语音二值化模块134经由诸如传声器等音频输入装置接收音频输入信号。语音二值化模块134经由语音二值化模块134中包括的语音检测模块202、分割模块204和聚类模块206处理接收到的音频输入信号。
在步骤704处,语音检测模块202检测在步骤702处接收到的音频输入信号中包括的人类语音。语音检测模块202将音频输入信号中包含人类语音的部分与音频输入信号中包含其他音频(诸如,背景噪声、风、车辆噪声等)的部分区分开。语音检测模块202将人类语音与音频输入信号隔离,并丢弃音频输入信号210中不包含人类语音的部分。另外,语音检测模块202标识表示人类语音中的间隙的静音时段。这些静音时段有助于标识一个语音片段的结束位置和另一个语音片段的开始位置。语音检测模块202生成包括检测到的人类语音的输出,其中移除了非人类音频源和背景噪声,并且具有标识静音时段的数据。
在步骤706处,分割模块204将来自不同用户的语音分割成语音片段。分割模块204从语音检测模块202接收人类语音和标识静音时段的数据。分割模块204将人类语音分离成语音片段,其中每个语音片段表示来自单个用户的人类语音。分割模块204基于接收到的人类语音的特性和静音时段来将人类语音分离成语音片段。当分割模块204处理接收到的人类语音时,分割模块204确定人类语音的声音特征。如果分割模块204确定声音特征已充分改变,则分割模块204在检测到声音特征的改变时标记当前语音片段的结束。分割模块204在检测到声音特征的改变时开始新的分割。另外,如果分割模块204确定语音输入已经停止达最短时间段,则分割模块204在不再检测到人类语音时标记当前语音片段的结束。当再次检测到人类语音时,分割模块204开始新的分割。分割模块204确定从当前语音片段提取的声音特征是否与与授权用户中的一个相关联的声音足迹匹配。如果从接收到的人类语音提取的声音特征与存储的声音特征具有高度相似性,则从接收到的人类语音提取的声音特征与声音足迹的存储的声音特征匹配。如本文所述,当从接收到的人类语音提取的声音特征与存储的声音特征相差小于阈值水平(诸如10%、20%、25%等)时,确定高度相似性。另外或替代地,当从接收到的人类语音提取的声音特征与存储的声音特征之间的余弦相似性超过阈值水平(诸如0.75、0.8、0.9等)时,确定高度相似性。如果分割模块204确定从当前语音片段提取的声音特征将所述语音片段标识为与授权用户相关联,则分割模块204向所述语音片段分配授权用户的用户标识符。如果分割模块204确定从当前语音片段提取的声音特征与授权用户中的任何一个的声音足迹不匹配,则分割模块204确定接收到的人类语音是由非授权用户讲出的。在此类情况下,分割模块204向语音片段分配非授权用户的通用但唯一的用户标识符,并将语音片段与通用用户标识符关联。
在步骤708处,聚类模块206根据在步骤706处生成的语音片段为每个用户生成聚类簇。聚类模块206从分割模块204接收语音片段。聚类模块206将语音片段分组成聚类簇,其中聚类簇包括由特定用户讲出的所有语音片段。一般而言,正在讲话的用户数量少于由分割模块生成的语音片段的数量。例如,特定用户可能多次讲话,或者两个用户可能正在进行对话,其中两个用户的语音片段随时间散布。聚类模块206将由不同用户讲出的语音片段分组成不同聚类簇,其中每个聚类簇对应于单个用户。当生成聚类簇时,聚类模块206包括标识静音时段的数据。在一些示例中,聚类簇中包括的数据标识两种不同类型的静音。第一种类型的静音标识没有用户讲话的时间段。这种类型的静音对应于由语音检测模块202标识的静音时段。静音时刻标识与聚类簇相关联的用户未讲话但一个或多个其他用户正在讲话的时间段。
在步骤710处,在语音处理系统上执行的授权和优先级排序模块136阻止来自非授权用户的聚类簇。通过阻止由非授权用户讲出的聚类簇,语音处理系统200阻止执行聚类簇中包括的音频命令。由聚类模块206在步骤708处生成的聚类簇被标识为是由特定用户讲出的。对于每个聚类簇,授权和优先级排序模块136确定聚类簇是被标识为由授权用户讲出的还是由非授权用户讲出的。基于聚类簇中包括的语音片段的用户标识符来向聚类模块206分配用户标识符。如果分配给聚类簇的用户标识符与授权用户标识符匹配,则聚类簇被标识为是由授权用户讲出的。如果分配给聚类簇的用户标识符与任何授权用户标识符不匹配,而是为通用的用户标识符,则聚类簇被标识为是由非授权用户讲出的。授权和优先级排序模块136允许被标识为是由授权用户讲出的聚类簇通过并传输到虚拟个人助理模块138。授权和优先级排序模块136基于语音处理系统的模式来处理被标识为是由非授权用户讲出的聚类簇。在访客模式下,授权和优先级排序模块136允许所有聚类簇通过并传输到虚拟个人助理模块138。因此,授权和优先级排序模块136允许被标识为由授权用户讲出的聚类簇和被标识为由非授权用户讲出的聚类簇通过并传输到虚拟个人助理模块138。在授权用户模式下,授权和优先级排序模块136允许被标识为是由授权用户讲出的聚类簇通过到达虚拟个人助理模块138。然而,当处于授权用户模式时,授权和优先级排序模块136不允许由非授权用户讲出的聚类簇通过到达虚拟个人助理模块138。
在步骤712处,授权和优先级排序模块136从剩余的(未阻止的)聚类簇生成音频命令队列214。在确定哪些聚类簇被允许通过以及哪些聚类簇被阻止之后,授权和优先级排序模块136生成包括被允许的聚类簇的音频命令队列214。在一些示例中,授权和优先级排序模块136为音频命令队列中包括的聚类簇设置优先级。授权和优先级排序模块136可以任何技术上可行的方式对音频命令队列214中的聚类簇进行排序,所述方式包括但不限于接收聚类簇的次序(FIFO次序)、基于何时讲出聚类簇中包括的语音片段的时间次序、基于分配给每个聚类簇的优先级的次序等。
在步骤714处,在语音处理系统上执行的虚拟个人助理模块138执行音频命令队列214中的音频命令。虚拟个人助理模块138从音频命令队列中提取聚类簇并单独处理每个聚类簇。虚拟个人助理模块138基于各种因素来确定聚类簇中存在的一个音频命令何时结束以及同一聚类簇中存在的另一音频命令何时开始,所述各种因素包括讲出的单词的语境、没有用户讲话的静音时段的持续时间、仅其他用户正在讲话的时间段的持续时间等。因为每个聚类簇与其他聚类簇分开处理,并且因为每个聚类簇表示来自单个用户的语音片段,所以虚拟个人助理模块138不将由两个或更多个用户讲出的语音片段处理为单个命令。此外,当处于授权用户模式时,授权和优先级排序模块136阻止来自非授权用户的聚类簇。因此,在授权用户模式下,虚拟个人助理模块138仅处理由授权用户讲出的命令,从而为授权用户提供改进的防护和安全性。
然后,方法700终止。替代地,方法700返回到步骤702以接收额外音频输入信号,并执行所得音频命令队列中的额外音频命令。
总之,语音处理系统包括处理音频输入信号的虚拟处理助理,其中音频信号包括指向虚拟个人助理装置的语音输入。语音处理系统接收音频输入信号并将其数字化。语音处理系统检测数字化音频输入信号的语音分量,将语音分量分割成源自不同用户的不同语音片段,并且针对每个用户将语音片段聚类成不同的聚类簇。语音处理系统标识并丢弃对应于非授权用户的聚类簇。语音处理系统对剩余聚类簇进行优先级排序,并生成按优先级次序呈现聚类簇以供进一步处理的音频命令队列。语音处理系统处理音频命令队列并执行其中包括的命令。
所公开的技术相对于现有技术的至少一个技术优点在于,利用所公开的技术,语音处理系统能够消除由非预期源说出的音频命令。因此,相对于常规系统,语音处理系统执行非预期的或不期望的音频命令的可能性被降低。此外,语音处理系统能够丢弃来自非授权用户的语音,这相对于常规系统为授权用户提供了改进的防护和安全性。这些技术优点表示相对于现有技术方法的一个或多个技术改进。
1.在一些实施方案中,一种用于处理虚拟个人助理的音频命令的计算机实施的方法包括:将在音频输入信号中检测到的语音分割成多个语音片段,其中给定语音片段中包括的语音是由单个说话者说出的;将多个语音片段中包括的语音片段聚类成多个聚类簇,其中多个聚类簇中包括的每个聚类簇是由不同的说话者说出的;确定多个聚类簇中包括的第一聚类簇是由第一授权说话者说出的;以及致使第一聚类簇中包括的第一音频命令执行。
2.根据条款1所述的计算机实施的方法,其还包括:确定多个聚类簇中包括的第二聚类簇是由第二授权说话者说出的;以及致使第二聚类簇中存在的第二音频命令执行。
3.根据条款1或条款2所述的计算机实施的方法,其还包括:确定多个聚类簇中包括的并且由第二授权说话者说出的第二聚类簇具有比第一聚类簇更高的优先级;以及致使第二聚类簇中存在的第二音频命令在第一音频命令执行之前执行。
4.根据条款1至3中任一项所述的计算机实施的方法,其还包括:确定多个聚类簇中包括的第二聚类簇是由非授权说话者说出的;以及防止第二聚类簇中包括的第二音频命令执行。
5.根据条款1至4中任一项所述的计算机实施的方法,其还包括:确定多个聚类簇中包括的第二聚类簇是由非授权说话者说出的;确定启动了允许来自非授权说话者的音频命令执行的模式;以及致使第二聚类簇中包括的第二音频命令执行。
6.根据条款1至5中任一项所述的计算机实施的方法,其中确定第一聚类簇是由第一授权说话者说出的包括:将与第一聚类簇中包括的第一语音片段相关联的一个或多个声音特征与和多个授权说话者相关联的多个声音足迹进行比较;以及确定与第一语音片段相关联的一个或多个声音特征与多个声音足迹中包括的与第一授权说话者相关联的第一声音足迹匹配。
7.根据条款1至6中任一项所述的计算机实施的方法,其还包括:提示第一授权说话者讲出一个或多个话语;接收第一授权说话者讲出一个或多个话语的音频输入信号;基于音频输入信号来确定第一授权说话者的一个或多个声音特征;基于一个或多个声音特征来生成与第一授权说话者相关联的声音足迹;以及存储第一授权说话者的声音足迹。
8.根据条款1至7中任一项所述的计算机实施的方法,其还包括:生成第一授权说话者的用户标识符;以及将用户标识符与声音足迹关联。
9.根据条款1至8中任一项所述的计算机实施的方法,其中一个或多个话语包括由第一授权说话者讲了指定次数的固定话语。
10.根据条款1至9中任一项所述的计算机实施的方法,其中一个或多个话语包括由第一授权说话者讲了指定持续时间的话语。
11.在一些实施方案中,一种装置包括:传声器;存储指令的一个或多个存储器;以及一个或多个处理器,所述一个或多个处理器耦合到一个或多个存储器,并且当执行指令时:将在经由传声器接收到的音频输入信号中检测到的语音分割成多个语音片段,其中给定语音片段中包括的语音是由单个说话者说出的;将多个语音片段中包括的语音片段聚类成多个聚类簇,其中多个聚类簇中包括的每个聚类簇是由不同的说话者说出的;确定多个聚类簇中包括的第一聚类簇是由第一授权说话者说出的;以及致使第一聚类簇中包括的第一音频命令执行。
12.根据条款11所述的装置,其中一个或多个处理器还:确定多个聚类簇中包括的第二聚类簇是由第二授权说话者说出的;以及致使第二聚类簇中存在的第二音频命令执行。
13.根据条款11或条款12所述的装置,其中一个或多个处理器还:确定多个聚类簇中包括的并且由第二授权说话者说出的第二聚类簇具有比第一聚类簇更高的优先级;以及致使第二聚类簇中存在的第二音频命令在第一音频命令执行之前执行。
14.根据条款11至13中任一项所述的装置,其中一个或多个处理器还:确定多个聚类簇中包括的第二聚类簇是由非授权说话者说出的;以及防止第二聚类簇中包括的第二音频命令执行。
15.根据条款11至14中任一项所述的装置,其中一个或多个处理器还:确定多个聚类簇中包括的第二聚类簇是由非授权说话者说出的;确定启动了允许来自非授权说话者的音频命令执行的模式;以及致使第二聚类簇中包括的第二音频命令执行。
16.根据条款11至15中任一项所述的装置,其中为了确定第一聚类簇是由第一授权说话者说出的,一个或多个处理器还:将与第一聚类簇中包括的第一语音片段相关联的一个或多个声音特征与和多个授权说话者相关联的多个声音足迹进行比较;以及确定与第一语音片段相关联的一个或多个声音特征与多个声音足迹中包括的与第一授权说话者相关联的第一声音足迹匹配。
17.根据条款11至16中任一项所述的装置,其中一个或多个处理器还:提示第一授权说话者讲出一个或多个话语;接收第一授权说话者讲出一个或多个话语的音频输入信号;基于音频输入信号来确定第一授权说话者的一个或多个声音特征;基于一个或多个声音特征来生成与第一授权说话者相关联的声音足迹;以及存储第一授权说话者的声音足迹。
18.在一些实施方案中,一种或多种非暂时性计算机可读介质存储程序指令,所述程序指令在由一个或多个处理器执行时,致使一个或多个处理器执行以下步骤:将在音频输入信号中检测到的语音分割成多个语音片段,其中给定语音片段中包括的语音是由单个说话者说出的;将多个语音片段中包括的语音片段聚类成多个聚类簇,其中多个聚类簇中包括的每个聚类簇是由不同的说话者说出的;确定多个聚类簇中包括的第一聚类簇是由第一授权说话者说出的;以及致使第一聚类簇中包括的第一音频命令执行。
19.根据条款18所述的一种或多种非暂时性计算机可读介质,其中所述步骤还包括:确定多个聚类簇中包括的第二聚类簇是由第二授权说话者说出的;以及致使第二聚类簇中存在的第二音频命令执行。
20.根据条款18或条款19所述的一种或多种非暂时性计算机可读介质,其中所述步骤还包括:确定多个聚类簇中包括的并且由第二授权说话者说出的第二聚类簇具有比第一聚类簇更高的优先级;以及致使第二聚类簇中存在的第二音频命令在第一音频命令执行之前执行。
权利要求中任一项所述的权利要求要素和/或本申请中描述的任何要素中的任何一个的呈任何形式的任何和所有组合均落入本发明和保护的预期范围内。
对各种实施方案的描述已出于图解说明目的而呈现,而非意在详尽或限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下,许多修改和变型对于本领域普通技术人员来说将是显而易见的。
本发明实施方案的各方面可体现为系统、方法或计算机程序产品。因此,本公开的各方面可采用以下形式:完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或组合了软件方面与硬件方面的实施方案,所述各实施方案在本文中一般都可称为“模块”、“系统”或“计算机”。另外,本公开中描述的任何硬件和/或软件技术、过程、功能、部件、引擎、模块或系统可被实施为电路或电路的集合。此外,本公开的各方面可呈一个或多个计算机可读介质中体现的计算机程序产品形式,所述计算机可读介质上体现有计算机可读程序代码。
可利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外线或半导体系统、设备或装置或前述各项的任何适合的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下介质:具有一根或多根导线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或前述介质的任何合适的组合。在本文献的语境中,计算机可读存储介质可以是可含有或存储程序以供指令执行系统、设备或装置使用或与指令执行系统、设备或装置结合使用的任何有形介质。
上面参考根据本公开的实施方案的方法、设备(系统)和计算机程序产品的流程图图解和/或框图来描述本公开的各方面。应当理解,流程图图解和/或框图中的每个框以及流程图图解和/或框图的框组合可以通过计算机程序指令来实施。可将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以产生机器。指令在经由计算机或其他可编程数据处理设备的处理器执行时,支持实施在流程图和/或框图的一个或多个框中指定的功能/动作。此类处理器可以是但不限于通用处理器、特殊用途处理器、专用处理器或现场可编程门阵列。
附图中的流程图和框图示出了根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实施方式的架构、功能性和操作。就此而言,流程图或框图中的每个框可表示代码的模块、片段或部分,所述代码的模块、片段或部分包括用于实施指定的逻辑功能的一个或多个可执行指令。还应当指出,在一些替代实施方式中,框中提到的功能可不按附图中提到的次序出现。例如,取决于所涉及的功能性,实际上,可基本上同时执行连续示出的两个框,或者有时可以相反的次序执行所述框。还应注意,框图和/或流程图图解说明的每个框以及框图和/或流程图图解说明中的框的组合可由执行指定的功能或动作的基于专用硬件的系统或者由专用硬件与计算机指令的组合来实施。
虽然前述内容针对本公开的实施方案,但是可在不背离其基本范围的情况下设计出本公开的其他和更多实施方案,并且其范围由以下权利要求确定。

Claims (20)

1.一种用于处理虚拟个人助理的音频命令的计算机实施的方法,所述方法包括:
将在音频输入信号中检测到的语音分割成多个语音片段,其中给定语音片段中包括的所述语音是由单个说话者说出的;
将所述多个语音片段中包括的所述语音片段聚类成多个聚类簇,其中所述多个聚类簇中包括的每个聚类簇是由不同的说话者说出的;
确定所述多个聚类簇中包括的第一聚类簇是由第一授权说话者说出的;以及
致使所述第一聚类簇中包括的第一音频命令执行。
2.如权利要求1所述的计算机实施的方法,其还包括:
确定所述多个聚类簇中包括的第二聚类簇是由第二授权说话者说出的;以及
致使所述第二聚类簇中存在的第二音频命令执行。
3.如权利要求1所述的计算机实施的方法,其还包括:
确定所述多个聚类簇中包括的并且由第二授权说话者说出的第二聚类簇具有比所述第一聚类簇更高的优先级;以及
致使所述第二聚类簇中存在的第二音频命令在所述第一音频命令执行之前执行。
4.如权利要求1所述的计算机实施的方法,其还包括:
确定所述多个聚类簇中包括的第二聚类簇是由非授权说话者说出的;以及
防止所述第二聚类簇中包括的第二音频命令执行。
5.如权利要求1所述的计算机实施的方法,其还包括:
确定所述多个聚类簇中包括的第二聚类簇是由非授权说话者说出的;
确定启动了允许来自非授权说话者的音频命令执行的模式;以及
致使所述第二聚类簇中包括的第二音频命令执行。
6.如权利要求1所述的计算机实施的方法,其中确定所述第一聚类簇是由所述第一授权说话者说出的包括:
将与所述第一聚类簇中包括的第一语音片段相关联的一个或多个声音特征与和多个授权说话者相关联的多个声音足迹进行比较;以及
确定与所述第一语音片段相关联的所述一个或多个声音特征与所述多个声音足迹中包括的与所述第一授权说话者相关联的第一声音足迹匹配。
7.如权利要求1所述的计算机实施的方法,其还包括:
提示所述第一授权说话者讲出一个或多个话语;
接收所述第一授权说话者讲出所述一个或多个话语的音频输入信号;
基于所述音频输入信号来确定所述第一授权说话者的一个或多个声音特征;
基于所述一个或多个声音特征来生成与所述第一授权说话者相关联的声音足迹;以及
存储所述第一授权说话者的所述声音足迹。
8.如权利要求7所述的计算机实施的方法,其还包括:
生成所述第一授权说话者的用户标识符;以及
将所述用户标识符与所述声音足迹关联。
9.如权利要求7所述的计算机实施的方法,其中所述一个或多个话语包括由所述第一授权说话者讲了指定次数的固定话语。
10.如权利要求7所述的计算机实施的方法,其中所述一个或多个话语包括由所述第一授权说话者讲了指定持续时间的话语。
11.一种装置,其包括:
传声器;
一个或多个存储器,所述一个或多个存储器存储指令;以及
一个或多个处理器,所述一个或多个处理器耦合到所述一个或多个存储器,并且当执行所述指令时:
将在经由所述传声器接收到的音频输入信号中检测到的语音分割成多个语音片段,其中给定语音片段中包括的所述语音是由单个说话者说出的;
将所述多个语音片段中包括的所述语音片段聚类成多个聚类簇,其中所述多个聚类簇中包括的每个聚类簇是由不同的说话者说出的;
确定所述多个聚类簇中包括的第一聚类簇是由第一授权说话者说出的;并且
致使所述第一聚类簇中包括的第一音频命令执行。
12.如权利要求11所述的装置,其中所述一个或多个处理器还:
确定所述多个聚类簇中包括的第二聚类簇是由第二授权说话者说出的;并且
致使所述第二聚类簇中存在的第二音频命令执行。
13.如权利要求11所述的装置,其中所述一个或多个处理器还:
确定所述多个聚类簇中包括的并且由第二授权说话者说出的第二聚类簇具有比所述第一聚类簇更高的优先级;并且
致使所述第二聚类簇中存在的第二音频命令在所述第一音频命令执行之前执行。
14.如权利要求11所述的装置,其中所述一个或多个处理器还:
确定所述多个聚类簇中包括的第二聚类簇是由非授权说话者说出的;并且
防止所述第二聚类簇中包括的第二音频命令执行。
15.如权利要求11所述的装置,其中所述一个或多个处理器还:
确定所述多个聚类簇中包括的第二聚类簇是由非授权说话者说出的;
确定启动了允许来自非授权说话者的音频命令执行的模式;并且
致使所述第二聚类簇中包括的第二音频命令执行。
16.如权利要求11所述的装置,其中为了确定所述第一聚类簇是由所述第一授权说话者说出的,所述一个或多个处理器还:
将与所述第一聚类簇中包括的第一语音片段相关联的一个或多个声音特征与和多个授权说话者相关联的多个声音足迹进行比较;并且
确定与所述第一语音片段相关联的所述一个或多个声音特征与所述多个声音足迹中包括的与所述第一授权说话者相关联的第一声音足迹匹配。
17.如权利要求11所述的装置,其中所述一个或多个处理器还:
提示所述第一授权说话者讲出一个或多个话语;
接收所述第一授权说话者讲出所述一个或多个话语的音频输入信号;
基于所述音频输入信号来确定所述第一授权说话者的一个或多个声音特征;
基于所述一个或多个声音特征来生成与所述第一授权说话者相关联的声音足迹;并且
存储所述第一授权说话者的所述声音足迹。
18.一种或多种非暂时性计算机可读介质,其存储程序指令,所述程序指令在由一个或多个处理器执行时,致使所述一个或多个处理器执行以下步骤:
将在音频输入信号中检测到的语音分割成多个语音片段,其中给定语音片段中包括的所述语音是由单个说话者说出的;
将所述多个语音片段中包括的所述语音片段聚类成多个聚类簇,其中所述多个聚类簇中包括的每个聚类簇是由不同的说话者说出的;
确定所述多个聚类簇中包括的第一聚类簇是由第一授权说话者说出的;以及
致使所述第一聚类簇中包括的第一音频命令执行。
19.如权利要求18所述的一种或多种非暂时性计算机可读介质,其中所述步骤还包括:
确定所述多个聚类簇中包括的第二聚类簇是由第二授权说话者说出的;以及
致使所述第二聚类簇中存在的第二音频命令执行。
20.如权利要求18所述的一种或多种非暂时性计算机可读介质,其中所述步骤还包括:
确定所述多个聚类簇中包括的并且由第二授权说话者说出的第二聚类簇具有比所述第一聚类簇更高的优先级;以及
致使所述第二聚类簇中存在的第二音频命令在所述第一音频命令执行之前执行。
CN202311035616.8A 2022-08-24 2023-08-17 用于处理虚拟个人助理的命令音频的方法和装置 Pending CN117636844A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN202241048208 2022-08-24
IN202241048208 2022-08-24

Publications (1)

Publication Number Publication Date
CN117636844A true CN117636844A (zh) 2024-03-01

Family

ID=87557750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311035616.8A Pending CN117636844A (zh) 2022-08-24 2023-08-17 用于处理虚拟个人助理的命令音频的方法和装置

Country Status (4)

Country Link
US (1) US20240071384A1 (zh)
EP (1) EP4328904A1 (zh)
KR (1) KR20240028298A (zh)
CN (1) CN117636844A (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11334383B2 (en) * 2019-04-24 2022-05-17 International Business Machines Corporation Digital assistant response system to overlapping requests using prioritization and providing combined responses based on combinability
JP2023521768A (ja) * 2020-04-15 2023-05-25 ピンドロップ セキュリティー、インコーポレイテッド 受動的かつ継続的なマルチ話者音声生体認証
US20220262371A1 (en) * 2021-02-12 2022-08-18 Cerence Operating Company Voice request sequencing

Also Published As

Publication number Publication date
EP4328904A1 (en) 2024-02-28
US20240071384A1 (en) 2024-02-29
KR20240028298A (ko) 2024-03-05

Similar Documents

Publication Publication Date Title
US10986498B2 (en) Speaker verification using co-location information
US11373644B2 (en) Wakeword detection
TWI697793B (zh) 用於關鍵詞組識別的系統和方法
US10916249B2 (en) Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
EP4139816B1 (en) Voice shortcut detection with speaker verification
US11514900B1 (en) Wakeword detection
JP7554936B2 (ja) 話者依存フォローアップアクションおよびウォームワード
CN105976815A (zh) 车载语音识别方法及装置
US11626104B2 (en) User speech profile management
JP2019536078A (ja) 音声の分類化
US11776550B2 (en) Device operation based on dynamic classifier
US20180158462A1 (en) Speaker identification
US11942095B2 (en) Speaker verification using co-location information
JP2016061888A (ja) 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム
CN117636844A (zh) 用于处理虚拟个人助理的命令音频的方法和装置
JP2020148805A (ja) 音声認識システム、及び、音声認識方法
US11676608B2 (en) Speaker verification using co-location information
US20240169995A1 (en) Multi-User Warm Words
US20240184867A1 (en) Adaptive Guest Mode for Portable Speakers
CN112513845B (zh) 用于将暂时账户与语音使能设备相关联的方法
WO2022024188A1 (ja) 音声登録装置、制御方法、プログラム及び記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication