CN107210039B - 环境调节的讲话人标识 - Google Patents

环境调节的讲话人标识 Download PDF

Info

Publication number
CN107210039B
CN107210039B CN201680006794.XA CN201680006794A CN107210039B CN 107210039 B CN107210039 B CN 107210039B CN 201680006794 A CN201680006794 A CN 201680006794A CN 107210039 B CN107210039 B CN 107210039B
Authority
CN
China
Prior art keywords
user
audio model
act
received
computing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680006794.XA
Other languages
English (en)
Other versions
CN107210039A (zh
Inventor
A.W.罗维特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN202011592753.8A priority Critical patent/CN112735439A/zh
Publication of CN107210039A publication Critical patent/CN107210039A/zh
Application granted granted Critical
Publication of CN107210039B publication Critical patent/CN107210039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H7/00Measuring reverberation time ; room acoustic measurements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

对计算系统的用户身份进行计算机化估计。所述系统估计在计算系统处接收的接收到的用户声音的环境特定的变更。所述系统通过使用对应的依赖用户的音频模型,估计接收到的用户声音是否来自特定用户。所述依赖用户的音频模型可被存储在可访问的多系统储存装置,以使得所述方法可以对于给定的用户跨多个系统的以及在用户过去从没有训练成识别所述用户的系统上执行。这减小了或甚至消除了用户训练系统来识别用户话音的需要,并且允许多个系统利用由用户执行的之前的训练。

Description

环境调节的讲话人标识
背景技术
计算系统和相关联的网络已经彻底改革了人们工作、游戏、和通信的方式。计算系统现在变得非常丰富,并且采取各种不同的形式,诸如台式计算机、笔记本电脑、智能电话、可穿戴装置等等。计算系统也可以被分布到全球。
计算系统中一个有益的进展在于,这样的系统更能够接收来自用户的话音命令。而且,系统现在能够基于用户的话音认证他或她。为了进行讲话人标识,常规上用户将通过对系统讲某些词组而训练系统。系统将评估那些讲的词组来确定话音的用户特定的唯一特性。这些唯一的用户特定的特性然后可被使用来评估来自相同用户的将来的话音输入,以使得系统可以标识该用户。
训练可能会耗费时间,并且典型地,用户必须训练基于话音输入进行标识的每个系统。而且,训练过程可以是对于每个系统不同的。因此,训练每个系统识别给定的用户可能会花费大量用户时间投资。
这里所要求保护的主题不限于解决任何缺点或仅仅在诸如以上描述的那样的环境中操作的实施例。而是,本背景技术仅仅被提供来举例说明可以实践这里描述的实施例的一个示例性技术。
发明内容
这里描述的至少某些实施例涉及到计算系统的用户身份的计算机化估计。系统估计在计算系统处接收的接收到的用户声音的环境特定的更改。例如,系统可以预期由于放置计算系统的房间或环境造成的或由于用户与计算系统之间的预计的位置关系而造成的某种声音回声或滤波。
系统通过使用对应的依赖用户的音频模型而估计接收到的用户声音是否来自特定的用户。依赖用户的音频模型可被存储在可访问的多系统存储库中,以使得所述方法可以针对给定用户跨多系统的和在用户以前从没有训练识别该用户的系统上执行。这被完成而不论每个系统或许经历了在接收到的用户声音方面的不同的环境调节(例如,回声、滤波、吸收、反射、脉冲响应等等)。这减小或甚至于消除了用户训练系统来识别用户话音的需要,以及允许多系统利用以前的由用户执行的训练。
例如,在这里描述的一个方面,当对应的依赖用户的音频模型受到估计的环境特定的变更的影响时,系统促进制定用户声音的预期的音频模型。系统然后获得将接收到的用户声音与预期的音频模型的制定进行比较的比较结果。系统然后基于比较结果估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同。
按照这里描述的另一个方面,系统使得所接收到的用户声音通过估计的环境特定的变更而至少部分被补偿。系统然后活动将操纵的接收到的用户声音与用户的对应的依赖用户的音频模型进行比较的比较结果。系统然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同。
本概要既不打算标识所要求保护的主题的关键特征或本质特征,也不打算被使用来帮助确定所要求保护的主题的范围。
附图说明
为了描述可以获得以上阐述的和其他的优点和特征的方式,通过参考附图,将渲染各种实施例的更具体的描述。要理解,这些附图仅仅描绘了样本实施例,并且因此不被认为限制本发明的范围,实施例将通过使用附图以附加特异性和细节进行描述和解释,在图中:
图1抽象地图示了在其中可以利用这里描述的某些实施例的计算系统;
图2图示了用户向计算系统发出用户声音的环境,所述计算系统使用依赖用户的音频模型库来估计用户身份;
图3图示了按照这里描述的第一实施例的用于估计计算系统的用户身份的方法的流程图,其中,依赖用户的音频模型被调节,以便计及环境特定的变更;以及
图4图示了按照这里描述的第二实施例的用于估计计算系统的用户身份的方法的流程图,其中,接收到的用户声音被调节,以便计及环境特定的变更。
具体实施方式
这里描述的至少某些实施例涉及到计算系统的用户身份的计算机化的估计。系统估计在计算系统处接收的接收到的用户声音的环境特定的更改。例如,系统可以预期由于放置计算系统的房间或环境造成的或由于用户与计算系统之间的预计的位置关系而造成的某种声音回声或滤波。
所述系统通过使用对应的依赖用户的音频模型来估计接收到的用户声音是否来自特定用户。依赖用户的音频模型可被存储在可访问的多系统存储库中,以使得所述方法可以针对给定的用户跨多系统和在用户以前从没有训练成识别该用户的系统上执行。这被完成而不论每个系统或许经历了在接收到的用户声音方面的不同的环境调节(例如,回声、滤波、吸收、反射、脉冲响应等等)。这减小或甚至消除了用户训练系统来识别用户话音的需要,并且允许多系统利用以前的由用户执行的训练。
例如,在这里描述的一个方面,当对应的依赖用户的音频模型受到估计的环境特定的变更的影响时,系统促进制定用户声音的预期的音频模型。系统然后获得将接收到的用户声音与预期的音频模型的制定进行比较的比较结果。系统然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同。
按照这里描述的另一个方面,系统使得所接收到的用户声音通过估计的环境特定的变更而至少部分被补偿。系统然后获得将所操纵的接收到的用户声音与用户的对应的依赖用户的音频模型进行比较的比较结果。系统然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同。
计算系统现在越来越多地采取各种各样的形式。计算系统例如可以是手持式设备、器具、膝上型计算机、台式计算机、大型计算机、分布式计算系统、数据中心、或甚至常规上不被认为是计算系统的装置,诸如可穿戴装置(例如,眼镜、手表、衣服、戒指、项链等等)。在本说明和在权利要求中,术语“计算系统”被广义地定义为包括如下的任何设备或系统(或它们的组合):其包括至少一个物理的和有形的处理器,以及物理的和有形的能够在其上具有计算机可执行指令的存储器,所述计算机可执行指令可以由处理器执行。存储器可以采取任何形式,以及可以依赖于计算系统的本质和形式。计算系统可以被分布在网络环境内,以及可包括多个组成的计算系统。
如图1所示,计算系统100以其最基本配置典型地包括至少一个硬件处理单元102和存储器104。存储器104可以是物理系统存储器,其可以是易失性、非易失性、或这二者的组合。术语“存储器”在这里也可以用来指非易失性大型存储装置,诸如物理存储介质。如果计算系统是分布式的,则处理、存储器和/或存储能力也可以是分布式的。正如这里使用的,术语“可执行模块”或“可执行部件”可以是指可在计算系统上被执行的软件对象、例程、或方法。这里描述的不同的部件、模块、引擎、和服务可以作为在计算系统上执行的对象或进程(例如,作为分开的线程)被实施。
在下面的描述中,实施例是参照由一个或多个计算系统执行的动作被描述的。如果这样的动作是以软件被实施的,则(执行该动作的相关联的计算系统的)一个或者多个处理器响应于已执行了计算机可执行指令而引导计算系统的操作。例如,这样的计算机可执行指令可以在形成计算机程序产品的一个或多个计算机可读介质上被体现。这样的操作的示例包括对数据的操纵。计算机可执行指令(及操纵的数据)可被存储在计算系统100的存储器104中。计算系统100还可以包含通信信道108,它允许计算系统100通过例如网络110而与其他计算系统通信。
这里描述的实施例可包括或利用专用或通用计算系统,其包括计算机硬件,诸如例如一个或多个处理器和系统存储器,正如下面更详细地讨论的。另外,专用集成电路(ASIC)也可以用来执行这里描述的功能的某些或所有功能。这里描述的实施例还包括物理的和其他的计算机可读介质,以用于运送或存储计算机可执行指令和/或数据结构。这样的计算机可读介质可以是任何可提供的介质,其可以由通用或专用计算系统访问。存储计算机可执行指令的计算机可读介质是物理存储介质。运送计算机可执行指令的计算机可读介质是传输介质。因此,作为示例,而不是限制,本发明的实施例可包括至少两种不同的计算机可读介质:存储介质和传输介质。
计算机可读存储介质包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储或其他磁存储装置、或可被使用来存储以计算机可执行指令或数据结构的形式并且可以被通用或专用计算系统访问的所期望的程序代码器件的任何其他物理的和有形的存储介质。
“网络”被定义为能够在计算系统和/或模块和/或其他电子设备之间输送电子数据的一个或多个数据链路。当信息通过网络或另一通信连接(硬连线、无线、或硬连线或无线的组合)被传送或被提供到计算系统时,计算系统把所述连接适当地看作为传输介质。传输介质可包括网络和/或数据链路,其可用来以计算机可执行指令或数据结构的形式运送所期望的程序代码器件并且可以被通用或专用计算系统访问。以上的组合也应当被包括在计算机可读介质的范围内。
而且,在达到各种计算系统部件后,以计算机可执行指令或数据结构的形式的程序代码器件可以从传输介质自动传送到存储介质(或反之亦然)。例如,通过网络或数据链路被接收的计算机可执行指令或数据结构可被缓存在网络接口模块(“NIC”)内的RAM中,并且然后最终被传送到计算系统RAM和/或计算系统处较不易失性存储介质。因此,应当理解,存储介质可被包括在也(或甚至主要)利用传输介质的计算系统部件中。
计算机可执行指令包括例如指令和数据,其在处理器处被执行时使得通用计算系统、专用计算系统、或专用处理设备执行某种功能或功能组。计算机可执行指令可以是例如二进制文件或甚至是在由处理器直接执行之前经受某种转换(诸如汇编)的指令,诸如中间格式指令,诸如汇编语言,或甚至源代码。虽然本主题是以对于结构特征和/或方法动作特定的语言描述的,但应当理解,在所附权利要求中定义的主题不一定限于是上述的所描述的特征或动作。而是,所描述的特征或动作作为实施权利要求的示例形式被公开。
本领域技术人员将会领会,本发明可以在具有许多类型的计算系统配置的网络计算环境中实践,所述计算系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程的消费者电子装置、网络PC、微型计算机、大型计算机、移动电话、PDA、寻呼器、路由器、交换机、数据中心、可穿戴装置(诸如,眼镜)等等。本发明也可以在分布式系统环境中被实践,其中,通过网络(经由硬连线的数据链路、无线数据链路、或经由硬连线和无线数据链路的组合)被链接的本地和远端计算系统都执行任务。在分布式系统环境中,程序模块可以位于在本地或远端存储设备中。
图2图示了其中用户201把用户声音202发到计算系统210的环境200。计算系统210然后使用估计模块211来估计用户201是否为特定用户。作为示例,计算系统210可以如上对于图1的计算系统100所描述的那样被构建。在典型的示例中,用户声音可以是用户的话音。然而,用户声音可以替换地是拍手声音或口哨声音。声音或许可以借助于用户能够访问的唯一设备—诸如用户选择的口哨、乐器、或合成器—而被做出。用户可以具有使用设备来做出对于用户而言唯一的声音的唯一的能力。例如,用户可以拥有具有特定音调的萨克斯管,并且吹奏某个复杂的模进(sequence)来标识该用户。
估计模块211估计与计算系统被放置在其中的环境相关联的环境特定的变更221,并且其表示可以在源自用户的用户声音的时间与用户声音被计算系统接收的时间之间出现的变更。这可能依赖于在用户201与计算系统210之间的相对位置,以及或许依赖于由其中存在用户201和计算系统210的环境贡献的回声和滤波。
这些环境特定的变更221可能之前已基于关于不同的用户、或各种各样用户与计算系统的交互的历史数据而被估计过。替换地或另外,环境特定的变更221也可能是基于计算系统210关于其环境所学习的内容,以及在用户与得到用户声音的麦克风之间的估计的混响响应。例如,计算系统221可能能够测量计算系统被放置在其中的房间的尺寸,并且测量该房间中的各种表面的声学反射率。例如,计算系统210可以使用红外、3D视觉、或其他深度传感技术来学习其环境。替换地或另外,环境特定的变更也可能基于接收到用户声音的麦克风响应。替换地或另外,估计可以在使用计算系统时的估计的动态改变中作为因素考虑。例如,在环境特定的变更中可以存在某些预期的变化。 例如,设备可以是电话,在这种情形下,接收到的话音信号可以是通过用户使得他的嘴靠近送话口的,或离几英尺(可能是处在扬声电话设置时的情形)。
为了估计用户201是否为特定用户,计算系统210也可以至少间接地使用候选用户的依赖用户的音频模型。例如,环境200包括音频模型库230,在其中放置了许多依赖用户的音频模型。例如,库230被图示为包括三个依赖用户的音频模型231、232和233。然而,椭圆234表示在库230内可以存在任何数目的依赖用户的音频模型,这甚至是数千、数百万、或者甚至数十亿的。依赖用户的音频模型可包括当用户在声音清晰的环境中重复某个词汇时预期的声音,在该环境中,环境本身不贡献混响、回声、或其他声音降级。
库230被保持在多系统存储库240中,它可以由计算系统210以及如由椭圆220表示的至少一个其他的(以及潜在地许多其他的)计算系统210访问。作为示例,多系统存储库240可以是存储域网络、服务器系统、多服务器系统、或甚至是云计算环境(诸如私有云、公共云、或混合云)。
在任何情形下,计算系统210通过使用估计的环境特定的变更221,以及还至少间接地使用被存储在多系统存储库240中的相关联的一个或多个依赖用户的音频模型而估计计算系统的用户身份。本描述将描述对于这可以如何被完成的两个主要的实施例—一个相对于图3描述,而一个相对于图4描述。这两个实施例在补偿环境特定的变更后执行接收到的用户声音与用户特定的音频模型的比较。然而,在图3的情形下,用户特定的音频模型在做出比较之前由环境特定的变更进行补偿。在图4的情形下,接收到的用户声音在做出比较之前由环境特定的变更进行补偿。当模型被存储时,可以应用环境特定的变更。例如,用户特定的音频模型可被下载到特定的计算系统环境。环境特定的变更然后可以被应用到和被保存到计算系统。这节省了在该特定的环境下计算系统为将来的比较所花费的运行时间。
为了在做出用户201是否为特定用户201时帮助估计模块211,还提供了制定模块241和比较模块242。制定模块241和比较模块242的操作将在下面进一步描述。制定模块241可以是计算系统210的一部分。替换地,制定模块241可以远离计算系统210,或以其他方式是在计算系统外部(例如,在云计算环境中)操作的。制定模块241还可以被分布在计算系统210与一个或多个外部计算系统之间。比较模块242也可以是计算系统210的一部分。替换地,比较模块242可以远离计算系统210,或以其他方式是在计算系统外部(例如,在云计算环境中)操作的。比较模块242还可以被分布在计算系统210与一个或多个外部计算系统之间。
图3图示了按照这里描述的第一实施例的用于估计计算系统的用户身份的方法300的流程图。图3的方法可以在图2的环境200中由估计模块211执行。因此,现在频繁参照图2的环境200描述图3的方法300。
与环境相关联的环境特定的变更被估计(动作301)。如前所述,这些环境特定的变更221可以是之前基于关于计算系统与不同的用户或各种各样的用户的互动的历史数据被估计的,或可以是基于计算系统210通过各种传感器关于其环境所学习到的,和/或可以是基于接收到用户声音的麦克风响应的。例如,这些环境特定的变更可以被表示为频率响应。
按照这里描述的第一方面,当对应的依赖用户的音频模型受到估计的环境特定的变更时,估计模块211然后促进制定用户声音的预期的音频模型(动作302)。例如,计算系统210可以本身访问来自库230的对应于候选用户的依赖用户的音频模型。计算系统210然后可以把依赖用户的音频模型与估计的环境特定的变更进行卷积(或把任何数学和/或逻辑运算应用到模型和变更项),以获得对于环境和对于候选用户特定的预期的音频模型。而且,单个计算系统可以可选地访问在这种情形下其可能选择应用的多个可能的环境特定的变更。例如,计算系统可以基于用户的位置、与其他用户的房间的拥挤度、湿度、检测的障碍物、或可能影响环境特定的变更的其他因素而选择不同的变更。
替换地,计算系统210可以向制定模块241委任这个预期的音频模型的制定。在这种情形下,计算系统210可以向制定模块241提供或标识估计的环境特定的变更221,以使得制定模块241然后可以执行卷积,以便制定对于在环境中的候选用户的预期的音频模型。
计算系统210的估计模块211然后获得将接收到的用户声音与预期的音频模型的制定相比较的比较结果(动作303)。例如,计算系统210本身可以执行接收到的用户声音与预期的音频模型的制定的比较。为了做到这一点,计算系统210将能够访问预期的音频模型的制定。如果预期的音频模型的制定由计算系统210执行,则这将不涉及大量数据传送。如果预期的音频模型的制定由制定模块241执行,则计算系统210将从制定模块241检索所制定的预期的音频模型。
另一方面,比较可以由比较模块242执行。在这种情形下,计算系统210可以把接收到的用户声音提供到比较模块242作为比较的一点。作为比较的第二点,比较模块242还获得预期的音频模型的制定(如果制定是由计算系统210执行的则来自计算系统210,或者如果制定是由制定模块241执行的则来自制定模块241)。估计模块211然后获得来自比较模块242的比较结果。例如,在一个实施例中,估计模块211可以仅接收比较排名。
估计模块211然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同(动作304)。作为一个示例,这可以仅确定比较排名是否在预定的阈值以上。在某些实施例中,预定的阈值可以向上或向下调节,以由此将比较的容忍度调节为更严格或更宽松的。例如,如果环境是安全的以使得用户的适当标识是必要的,则预定的阈值可以向上调节,因为误报的确定该环境下比起漏报的确定有害得多。另一方面,如果适当的标识更多是为了方便性,则预定的阈值可以向下调节,以由此允许某些误报。
方法300可以对于多个潜在的候选用户重复进行,直至找到可接受的或最好的匹配为止。而且,方法300可以由计算系统210对于不同的用户执行。
图4图示了按照这里描述的第二实施例的用于估计计算系统的用户身份的方法的流程图。再次地,方法400从估计在计算系统处接收的接收到的用户声音的环境特定的变更开始(动作401)。例如,动作401可以基本上如以上对于动作301描述的那样被完成。
估计模块211然后使得接收到的用户声音至少部分被估计的环境特定的变更补偿(动作402)。例如,估计模块211可以把接收到的用户声音与估计的环境特定的变更进行卷积,以由此获得接收到的用户声音像当从用户第一次发出时发声那样的估计。
估计模块241然后获得将操纵的接收到的用户声音与用户的依赖用户的音频模型进行比较的比较结果(动作403)。例如,在图2中,比较模块242(或计算系统210本身)可以从库230获得对应于候选用户的依赖用户的音频模块,并且把它与操纵的接收到的用户声音进行比较。再次地,结果可以是比较排名。
估计模块然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户是相同的(动作404)。再次地,这可以通过把比较排名与预定的阈值进行比较而被执行。再一次地,方法400可以对于单个接收到的用户声音对多个候选用户重复进行,或可以重复进行以由此标识计算系统的不同用户。
因此,这里描述的原理允许在用户训练系统识别他们的话音以执行讲话人标识方面的显著可移植性。在一个系统上执行的训练可被转移到另一个系统,而用户不必学习训练新系统的不同方式,以及不用投资时间训练。在某些环境下,用户特定的音频模型可以基于现有历史被描述,所述现有历史诸如电话会议,在其中用户与麦克风之间的相对位置是已知的。随着时间消逝,依赖用户的音频模型可以被细化为用户的附加样本话音在各种位置被接收和估计。而且,每一次如果用户的话音改变,则机器更可能得到慢的话音改变,并且随之调节依赖用户的音频模型。
本发明可以以其他具体形式被体现,而不背离本发明的精神或基本特性。所描述的实施例在所有方面被看作为仅仅是说明性的而并不是限制性的。因此,本发明的范围仅仅由所附权利要求指示,而不是由上述的描述指示。在权利要求的等价性的意义和范围内作出的所有的改变被认为是在其范围内。

Claims (20)

1.一种用于估计计算系统的用户身份的方法,所述方法包括:
估计在计算系统处接收的接收到的用户声音的环境特定的变更的动作;
当对应的依赖用户的音频模型受到估计的环境特定的变更的影响时,促进制定用户声音的预期的音频模型的动作;
获得将接收到的用户声音与预期的音频模型的制定进行比较的比较结果的动作;以及
基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同的动作,
依赖用户的音频模型被存储在多系统存储库中。
2.按照权利要求1所述的方法,促进制定预期的音频模型的动作包括:制定预期的音频模型的动作。
3.按照权利要求1所述的方法,促进制定预期的音频模型的动作包括:把估计的环境特定的变更提供到被配置成执行所述制定的制定部件的动作。
4.按照权利要求3所述的方法,制定部件是在云计算环境中的。
5.按照权利要求1所述的方法,获得将接收到的用户声音与预期的音频模型的制定进行比较的比较结果的动作包括:
通过比较接收到的用户声音与预期的音频模型的制定而制定比较结果的动作。
6.按照权利要求1所述的方法,获得将接收到的用户声音与预期的音频模型的制定进行比较的比较结果的动作包括:
接收来自比较部件的比较结果的动作。
7.按照权利要求6所述的方法,所述比较部件在云计算环境中。
8.按照权利要求7所述的方法,还包括:向所述云计算环境提供所接收的用户声音的表示和所述预期的音频模型的制定的动作。
9.按照权利要求1所述的方法,其中所述方法针对用户跨多系统以及在用户以前从没有训练成识别所述用户的系统上执行。
10.按照权利要求1所述的方法,所述制定是第一制定,所述用户声音是第一用户声音,所述对应的依赖用户的音频模型是第一依赖用户的音频模型,所述比较结果是第一比较结果,所述方法进一步包括:
当对应的第二依赖用户的音频模型受到估计的环境特定的变更的影响时,促进第二用户声音的预期的音频模型的第二制定的动作;
获得将接收到的用户声音与第二用户声音的预期的音频模型的第二制定进行比较的比较结果的动作;以及
基于第二比较结果来估计对应于第二依赖用户的音频模型的用户是否与发出用户声音的用户相同的动作。
11.按照权利要求1所述的方法,所述接收到的用户声音是第一接收到的用户声音,所述用户声音是第一用户声音,所述依赖用户的音频模型是第一依赖用户的音频模型,所述预期的音频模型是第一预期的音频模型,所述制定是第一制定,所述比较结果是第一比较结果,所述方法进一步包括:
估计在计算系统处接收的接收到的第二用户声音的环境特定的变更的动作;
当对应的第二依赖用户的音频模型受到估计的环境特定的变更的影响时,促进用户声音的第二预期的音频模型的第二制定的动作;
获得将接收到的第二用户声音与第二预期的音频模型的第二制定进行比较的第二比较结果的动作;以及
基于第二比较结果来估计对应于第二依赖用户的音频模型的用户是否与发出第二用户声音的用户相同的动作。
12.按照权利要求1所述的方法,所述接收到的用户声音是接收到的用户话音。
13.按照权利要求1所述的方法,所述依赖用户的音频模型被存储在多用户存储库中,其中所述方法使用各种依赖用户的音频模型对于多个用户执行。
14.按照权利要求1所述的方法,进一步包括:
调节接收到的用户声音与预期的音频模型的制定的比较的容忍度的动作。
15.按照权利要求1所述的方法,所估计的环境特定的变更包括麦克风响应。
16.按照权利要求1所述的方法,所述环境特定的变更包括所述用户与接收所述用户声音的所述计算系统的麦克风之间的估计的混响响应。
17.按照权利要求16所述的方法,使用多个用户与计算系统交互的历史数据来执行估计环境特定的变更的动作。
18.按照权利要求16所述的方法,将估计环境特定的变更的动作在使用计算系统时的估计的动态改变中作为因素考虑。
19.一种用于估计计算系统的用户身份的方法,所述方法包括:
估计在所述计算系统处接收的接收到的用户声音的环境特定的变更的动作;
使所接收的用户声音至少部分地补偿所估计的环境特定的变更的动作;
获得将所操纵的接收到的用户声音与用户的依赖用户的音频模型进行比较的比较结果的动作;以及
基于所述比较结果来估计对应于所述依赖用户的音频模型的用户是否与发出所述用户声音的用户相同的动作,
所述依赖用户的音频模型被存储在多系统存储库中。
20.一种包括其上存储有计算机可执行指令的一个或多个硬件存储设备,所述计算机可执行指令被构建成使得当所述计算机可执行指令被计算系统的一个或多个处理器执行时,使得计算系统执行用于估计计算系统的用户身份的方法,所述方法包括:
估计在计算系统处接收的接收到的用户声音的环境特定的变更的动作;
当对应的依赖用户的音频模型受到估计的环境特定的变更的影响时,促进制定用户声音的预期的音频模型的动作;
获得将接收到的用户声音与预期的音频模型的制定进行比较的比较结果的动作;以及
基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同的动作,
依赖用户的音频模型被存储在多系统存储库中。
CN201680006794.XA 2015-01-21 2016-01-06 环境调节的讲话人标识 Active CN107210039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011592753.8A CN112735439A (zh) 2015-01-21 2016-01-06 环境调节的讲话人标识

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/602,166 US9437193B2 (en) 2015-01-21 2015-01-21 Environment adjusted speaker identification
US14/602,166 2015-01-21
PCT/US2016/012304 WO2016118323A1 (en) 2015-01-21 2016-01-06 Environment adjusted speaker identification

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202011592753.8A Division CN112735439A (zh) 2015-01-21 2016-01-06 环境调节的讲话人标识

Publications (2)

Publication Number Publication Date
CN107210039A CN107210039A (zh) 2017-09-26
CN107210039B true CN107210039B (zh) 2021-01-12

Family

ID=55310901

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202011592753.8A Pending CN112735439A (zh) 2015-01-21 2016-01-06 环境调节的讲话人标识
CN201680006794.XA Active CN107210039B (zh) 2015-01-21 2016-01-06 环境调节的讲话人标识

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202011592753.8A Pending CN112735439A (zh) 2015-01-21 2016-01-06 环境调节的讲话人标识

Country Status (4)

Country Link
US (2) US9437193B2 (zh)
EP (1) EP3248189B1 (zh)
CN (2) CN112735439A (zh)
WO (1) WO2016118323A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9437193B2 (en) * 2015-01-21 2016-09-06 Microsoft Technology Licensing, Llc Environment adjusted speaker identification
WO2019002831A1 (en) 2017-06-27 2019-01-03 Cirrus Logic International Semiconductor Limited REPRODUCTIVE ATTACK DETECTION
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801663D0 (en) * 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801661D0 (en) * 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102237086A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 用于语音识别设备的补偿装置和方法
US8370139B2 (en) * 2006-04-07 2013-02-05 Kabushiki Kaisha Toshiba Feature-vector compensating apparatus, feature-vector compensating method, and computer program product
CN102945670A (zh) * 2012-11-26 2013-02-27 河海大学 一种用于语音识别系统的多环境特征补偿方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5839099A (en) * 1996-06-11 1998-11-17 Guvolt, Inc. Signal conditioning apparatus
US6233556B1 (en) 1998-12-16 2001-05-15 Nuance Communications Voice processing and verification system
US6944586B1 (en) * 1999-11-09 2005-09-13 Interactive Drama, Inc. Interactive simulated dialogue system and method for a computer network
US7027425B1 (en) * 2000-02-11 2006-04-11 Alereon, Inc. Impulse radio virtual wireless local area network system and method
US20020087306A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented noise normalization method and system
US6804647B1 (en) 2001-03-13 2004-10-12 Nuance Communications Method and system for on-line unsupervised adaptation in speaker verification
US20030033143A1 (en) * 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions
KR101297170B1 (ko) 2006-04-04 2013-08-27 삼성에스디아이 주식회사 연료 전지용 막-전극 어셈블리, 이의 제조방법 및 이를포함하는 연료 전지 시스템
KR100791297B1 (ko) 2006-04-06 2008-01-04 삼성전자주식회사 이벤트 정보를 관리하는 장치, 방법 및 시스템
US20070239457A1 (en) * 2006-04-10 2007-10-11 Nokia Corporation Method, apparatus, mobile terminal and computer program product for utilizing speaker recognition in content management
KR100826875B1 (ko) * 2006-09-08 2008-05-06 한국전자통신연구원 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
US7974841B2 (en) * 2008-02-27 2011-07-05 Sony Ericsson Mobile Communications Ab Electronic devices and methods that adapt filtering of a microphone signal responsive to recognition of a targeted speaker's voice
US8521235B2 (en) * 2008-03-27 2013-08-27 General Motors Llc Address book sharing system and method for non-verbally adding address book contents using the same
US8913103B1 (en) * 2012-02-01 2014-12-16 Google Inc. Method and apparatus for focus-of-attention control
US9437193B2 (en) * 2015-01-21 2016-09-06 Microsoft Technology Licensing, Llc Environment adjusted speaker identification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370139B2 (en) * 2006-04-07 2013-02-05 Kabushiki Kaisha Toshiba Feature-vector compensating apparatus, feature-vector compensating method, and computer program product
CN102237086A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 用于语音识别设备的补偿装置和方法
CN102945670A (zh) * 2012-11-26 2013-02-27 河海大学 一种用于语音识别系统的多环境特征补偿方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Data-driven environmental compensation for speech;Pedro J. Moreno;《Elsevier》;19981231;第267-285页 *
一种基于鲁棒特征的模型补偿噪声语音识别方法;张军,韦岗;《数据采集与处理》;20030930;第18卷(第3期);第249-252页 *

Also Published As

Publication number Publication date
US20160210969A1 (en) 2016-07-21
US9437193B2 (en) 2016-09-06
EP3248189B1 (en) 2023-05-03
WO2016118323A1 (en) 2016-07-28
EP3248189A1 (en) 2017-11-29
US9659562B2 (en) 2017-05-23
CN112735439A (zh) 2021-04-30
CN107210039A (zh) 2017-09-26
US20160372120A1 (en) 2016-12-22

Similar Documents

Publication Publication Date Title
CN107210039B (zh) 环境调节的讲话人标识
JP6942841B2 (ja) ダイアログ・システムにおけるパラメータ収集および自動ダイアログ生成
CN109801644B (zh) 混合声音信号的分离方法、装置、电子设备和可读介质
WO2021077529A1 (zh) 神经网络模型压缩方法、语料翻译方法及其装置
US20210264916A1 (en) Electronic device for generating personalized asr model and method for operating same
JP2019503526A5 (zh)
WO2019018061A1 (en) AUTOMATIC INTEGRATION OF CAPTURE AND IMAGE RECOGNITION IN VOICE INTERROGATION TO UNDERSTAND INTENT
WO2019177816A1 (en) Sequence to sequence conversational query understanding
US10412228B1 (en) Conference call mute management
WO2019213443A1 (en) Audio analytics for natural language processing
CN109671435B (zh) 用于唤醒智能设备的方法和装置
CN108028044A (zh) 使用多个识别器减少延时的语音识别系统
JP7301154B2 (ja) 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム
US10923101B2 (en) Pausing synthesized speech output from a voice-controlled device
CN110114765B (zh) 通过共享话语的上下文执行翻译的电子设备及其操作方法
US20210110821A1 (en) Electronic apparatus and method for controlling electronic apparatus
KR20210036527A (ko) 사용자 발화를 처리하는 전자 장치 및 그 작동 방법
KR20210001082A (ko) 사용자 발화를 처리하는 전자 장치와 그 동작 방법
US10657951B2 (en) Controlling synthesized speech output from a voice-controlled device
WO2019050601A1 (en) GENERATION OF NAME-ENTITY PRONUNCIATION FOR SPEECH SYNTHESIS AND VOICE RECOGNITION
US10991361B2 (en) Methods and systems for managing chatbots based on topic sensitivity
JP2017161644A (ja) 音声処理システムおよび音声処理方法
US20220161131A1 (en) Systems and devices for controlling network applications
CN112002313A (zh) 交互方法及装置、音箱、电子设备和存储介质
US20240104420A1 (en) Accurate and efficient inference in multi-device environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant