CN112735439A - 环境调节的讲话人标识 - Google Patents
环境调节的讲话人标识 Download PDFInfo
- Publication number
- CN112735439A CN112735439A CN202011592753.8A CN202011592753A CN112735439A CN 112735439 A CN112735439 A CN 112735439A CN 202011592753 A CN202011592753 A CN 202011592753A CN 112735439 A CN112735439 A CN 112735439A
- Authority
- CN
- China
- Prior art keywords
- user
- sound
- computing system
- environment
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001105 regulatory effect Effects 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000001419 dependent effect Effects 0.000 claims abstract description 38
- 238000002310 reflectometry Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims 10
- 230000004048 modification Effects 0.000 claims 10
- 230000004075 alteration Effects 0.000 abstract description 18
- 238000012549 training Methods 0.000 abstract description 10
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000007613 environmental effect Effects 0.000 abstract description 4
- 238000009472 formulation Methods 0.000 description 21
- 239000000203 mixture Substances 0.000 description 21
- 230000004044 response Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H7/00—Measuring reverberation time ; room acoustic measurements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及环境调节的讲话人标识。对计算系统的用户身份进行计算机化估计。所述系统估计在计算系统处接收的接收到的用户声音的环境特定的变更。所述系统通过使用对应的依赖用户的音频模型,估计接收到的用户声音是否来自特定用户。所述依赖用户的音频模型可被存储在可访问的多系统储存装置,以使得所述方法可以对于给定的用户跨多个系统的以及在用户过去从没有训练成识别所述用户的系统上执行。这减小了或甚至消除了用户训练系统来识别用户话音的需要,并且允许多个系统利用由用户执行的之前的训练。
Description
本申请是国际申请日为2016年1月6日、于2017年7月21日进入中国国家阶段、中国国家申请号为201680006794.X、发明名称为“环境调节的讲话人标识”的发明专利申请的分案申请。
背景技术
计算系统和相关联的网络已经彻底改革了人们工作、游戏、和通信的方式。计算系统现在变得非常丰富,并且采取各种不同的形式,诸如台式计算机、笔记本电脑、智能电话、可穿戴装置等等。计算系统也可以被分布到全球。
计算系统中一个有益的进展在于,这样的系统更能够接收来自用户的话音命令。而且,系统现在能够基于用户的话音认证他或她。为了进行讲话人标识,常规上用户将通过对系统讲某些词组而训练系统。系统将评估那些讲的词组来确定话音的用户特定的唯一特性。这些唯一的用户特定的特性然后可被使用来评估来自相同用户的将来的话音输入,以使得系统可以标识该用户。
训练可能会耗费时间,并且典型地,用户必须训练基于话音输入进行标识的每个系统。而且,训练过程可以是对于每个系统不同的。因此,训练每个系统识别给定的用户可能会花费大量用户时间投资。
这里所要求保护的主题不限于解决任何缺点或仅仅在诸如以上描述的那样的环境中操作的实施例。而是,本背景技术仅仅被提供来举例说明可以实践这里描述的实施例的一个示例性技术。
发明内容
这里描述的至少某些实施例涉及到计算系统的用户身份的计算机化估计。系统估计在计算系统处接收的接收到的用户声音的环境特定的更改。例如,系统可以预期由于放置计算系统的房间或环境造成的或由于用户与计算系统之间的预计的位置关系而造成的某种声音回声或滤波。
系统通过使用对应的依赖用户的音频模型而估计接收到的用户声音是否来自特定的用户。依赖用户的音频模型可被存储在可访问的多系统存储库中,以使得所述方法可以针对给定用户跨多系统的和在用户以前从没有训练识别该用户的系统上执行。这被完成而不论每个系统或许经历了在接收到的用户声音方面的不同的环境调节(例如,回声、滤波、吸收、反射、脉冲响应等等)。这减小或甚至于消除了用户训练系统来识别用户话音的需要,以及允许多系统利用以前的由用户执行的训练。
例如,在这里描述的一个方面,当对应的依赖用户的音频模型受到估计的环境特定的变更的影响时,系统促进制定用户声音的预期的音频模型。系统然后获得将接收到的用户声音与预期的音频模型的制定进行比较的比较结果。系统然后基于比较结果估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同。
按照这里描述的另一个方面,系统使得所接收到的用户声音通过估计的环境特定的变更而至少部分被补偿。系统然后活动将操纵的接收到的用户声音与用户的对应的依赖用户的音频模型进行比较的比较结果。系统然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同。
本概要既不打算标识所要求保护的主题的关键特征或本质特征,也不打算被使用来帮助确定所要求保护的主题的范围。
附图说明
为了描述可以获得以上阐述的和其他的优点和特征的方式,通过参考附图,将渲染各种实施例的更具体的描述。要理解,这些附图仅仅描绘了样本实施例,并且因此不被认为限制本发明的范围,实施例将通过使用附图以附加特异性和细节进行描述和解释,在图中:
图1抽象地图示了在其中可以利用这里描述的某些实施例的计算系统;
图2图示了用户向计算系统发出用户声音的环境,所述计算系统使用依赖用户的音频模型库来估计用户身份;
图3图示了按照这里描述的第一实施例的用于估计计算系统的用户身份的方法的流程图,其中,依赖用户的音频模型被调节,以便计及环境特定的变更;以及
图4图示了按照这里描述的第二实施例的用于估计计算系统的用户身份的方法的流程图,其中,接收到的用户声音被调节,以便计及环境特定的变更。
具体实施方式
这里描述的至少某些实施例涉及到计算系统的用户身份的计算机化的估计。系统估计在计算系统处接收的接收到的用户声音的环境特定的更改。例如,系统可以预期由于放置计算系统的房间或环境造成的或由于用户与计算系统之间的预计的位置关系而造成的某种声音回声或滤波。
所述系统通过使用对应的依赖用户的音频模型来估计接收到的用户声音是否来自特定用户。依赖用户的音频模型可被存储在可访问的多系统存储库中,以使得所述方法可以针对给定的用户跨多系统和在用户以前从没有训练成识别该用户的系统上执行。这被完成而不论每个系统或许经历了在接收到的用户声音方面的不同的环境调节(例如,回声、滤波、吸收、反射、脉冲响应等等)。这减小或甚至消除了用户训练系统来识别用户话音的需要,并且允许多系统利用以前的由用户执行的训练。
例如,在这里描述的一个方面,当对应的依赖用户的音频模型受到估计的环境特定的变更的影响时,系统促进制定用户声音的预期的音频模型。系统然后获得将接收到的用户声音与预期的音频模型的制定进行比较的比较结果。系统然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同。
按照这里描述的另一个方面,系统使得所接收到的用户声音通过估计的环境特定的变更而至少部分被补偿。系统然后获得将所操纵的接收到的用户声音与用户的对应的依赖用户的音频模型进行比较的比较结果。系统然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同。
计算系统现在越来越多地采取各种各样的形式。计算系统例如可以是手持式设备、器具、膝上型计算机、台式计算机、大型计算机、分布式计算系统、数据中心、或甚至常规上不被认为是计算系统的装置,诸如可穿戴装置(例如,眼镜、手表、衣服、戒指、项链等等)。在本说明和在权利要求中,术语“计算系统”被广义地定义为包括如下的任何设备或系统(或它们的组合):其包括至少一个物理的和有形的处理器,以及物理的和有形的能够在其上具有计算机可执行指令的存储器,所述计算机可执行指令可以由处理器执行。存储器可以采取任何形式,以及可以依赖于计算系统的本质和形式。计算系统可以被分布在网络环境内,以及可包括多个组成的计算系统。
如图1所示,计算系统100以其最基本配置典型地包括至少一个硬件处理单元102和存储器104。存储器104可以是物理系统存储器,其可以是易失性、非易失性、或这二者的组合。术语“存储器”在这里也可以用来指非易失性大型存储装置,诸如物理存储介质。如果计算系统是分布式的,则处理、存储器和/或存储能力也可以是分布式的。正如这里使用的,术语“可执行模块”或“可执行部件”可以是指可在计算系统上被执行的软件对象、例程、或方法。这里描述的不同的部件、模块、引擎、和服务可以作为在计算系统上执行的对象或进程(例如,作为分开的线程)被实施。
在下面的描述中,实施例是参照由一个或多个计算系统执行的动作被描述的。如果这样的动作是以软件被实施的,则(执行该动作的相关联的计算系统的)一个或者多个处理器响应于已执行了计算机可执行指令而引导计算系统的操作。例如,这样的计算机可执行指令可以在形成计算机程序产品的一个或多个计算机可读介质上被体现。这样的操作的示例包括对数据的操纵。计算机可执行指令(及操纵的数据)可被存储在计算系统100的存储器104中。计算系统100还可以包含通信信道108,它允许计算系统100通过例如网络110而与其他计算系统通信。
这里描述的实施例可包括或利用专用或通用计算系统,其包括计算机硬件,诸如例如一个或多个处理器和系统存储器,正如下面更详细地讨论的。另外,专用集成电路(ASIC)也可以用来执行这里描述的功能的某些或所有功能。这里描述的实施例还包括物理的和其他的计算机可读介质,以用于运送或存储计算机可执行指令和/或数据结构。这样的计算机可读介质可以是任何可提供的介质,其可以由通用或专用计算系统访问。存储计算机可执行指令的计算机可读介质是物理存储介质。运送计算机可执行指令的计算机可读介质是传输介质。因此,作为示例,而不是限制,本发明的实施例可包括至少两种不同的计算机可读介质:存储介质和传输介质。
计算机可读存储介质包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储或其他磁存储装置、或可被使用来存储以计算机可执行指令或数据结构的形式并且可以被通用或专用计算系统访问的所期望的程序代码器件的任何其他物理的和有形的存储介质。
“网络”被定义为能够在计算系统和/或模块和/或其他电子设备之间输送电子数据的一个或多个数据链路。当信息通过网络或另一通信连接(硬连线、无线、或硬连线或无线的组合)被传送或被提供到计算系统时,计算系统把所述连接适当地看作为传输介质。传输介质可包括网络和/或数据链路,其可用来以计算机可执行指令或数据结构的形式运送所期望的程序代码器件并且可以被通用或专用计算系统访问。以上的组合也应当被包括在计算机可读介质的范围内。
而且,在达到各种计算系统部件后,以计算机可执行指令或数据结构的形式的程序代码器件可以从传输介质自动传送到存储介质(或反之亦然)。例如,通过网络或数据链路被接收的计算机可执行指令或数据结构可被缓存在网络接口模块(“NIC”)内的RAM中,并且然后最终被传送到计算系统RAM和/或计算系统处较不易失性存储介质。因此,应当理解,存储介质可被包括在也(或甚至主要)利用传输介质的计算系统部件中。
计算机可执行指令包括例如指令和数据,其在处理器处被执行时使得通用计算系统、专用计算系统、或专用处理设备执行某种功能或功能组。计算机可执行指令可以是例如二进制文件或甚至是在由处理器直接执行之前经受某种转换(诸如汇编)的指令,诸如中间格式指令,诸如汇编语言,或甚至源代码。虽然本主题是以对于结构特征和/或方法动作特定的语言描述的,但应当理解,在所附权利要求中定义的主题不一定限于是上述的所描述的特征或动作。而是,所描述的特征或动作作为实施权利要求的示例形式被公开。
本领域技术人员将会领会,本发明可以在具有许多类型的计算系统配置的网络计算环境中实践,所述计算系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程的消费者电子装置、网络PC、微型计算机、大型计算机、移动电话、PDA、寻呼器、路由器、交换机、数据中心、可穿戴装置(诸如,眼镜)等等。本发明也可以在分布式系统环境中被实践,其中,通过网络(经由硬连线的数据链路、无线数据链路、或经由硬连线和无线数据链路的组合)被链接的本地和远端计算系统都执行任务。在分布式系统环境中,程序模块可以位于在本地或远端存储设备中。
图2图示了其中用户201把用户声音202发到计算系统210的环境200。计算系统210然后使用估计模块211来估计用户201是否为特定用户。作为示例,计算系统210可以如上对于图1的计算系统100所描述的那样被构建。在典型的示例中,用户声音可以是用户的话音。然而,用户声音可以替换地是拍手声音或口哨声音。声音或许可以借助于用户能够访问的唯一设备—诸如用户选择的口哨、乐器、或合成器—而被做出。用户可以具有使用设备来做出对于用户而言唯一的声音的唯一的能力。例如,用户可以拥有具有特定音调的萨克斯管,并且吹奏某个复杂的模进(sequence)来标识该用户。
估计模块211估计与计算系统被放置在其中的环境相关联的环境特定的变更221,并且其表示可以在源自用户的用户声音的时间与用户声音被计算系统接收的时间之间出现的变更。这可能依赖于在用户201与计算系统210之间的相对位置,以及或许依赖于由其中存在用户201和计算系统210的环境贡献的回声和滤波。
这些环境特定的变更221可能之前已基于关于不同的用户、或各种各样用户与计算系统的交互的历史数据而被估计过。替换地或另外,环境特定的变更221也可能是基于计算系统210关于其环境所学习的内容,以及在用户与得到用户声音的麦克风之间的估计的混响响应。例如,计算系统221可能能够测量计算系统被放置在其中的房间的尺寸,并且测量该房间中的各种表面的声学反射率。例如,计算系统210可以使用红外、3D视觉、或其他深度传感技术来学习其环境。替换地或另外,环境特定的变更也可能基于接收到用户声音的麦克风响应。替换地或另外,估计可以在使用计算系统时的估计的动态改变中作为因素考虑。例如,在环境特定的变更中可以存在某些预期的变化。例如,设备可以是电话,在这种情形下,接收到的话音信号可以是通过用户使得他的嘴靠近送话口的,或离几英尺(可能是处在扬声电话设置时的情形)。
为了估计用户201是否为特定用户,计算系统210也可以至少间接地使用候选用户的依赖用户的音频模型。例如,环境200包括音频模型库230,在其中放置了许多依赖用户的音频模型。例如,库230被图示为包括三个依赖用户的音频模型231、232和233。然而,椭圆234表示在库230内可以存在任何数目的依赖用户的音频模型,这甚至是数千、数百万、或者甚至数十亿的。依赖用户的音频模型可包括当用户在声音清晰的环境中重复某个词汇时预期的声音,在该环境中,环境本身不贡献混响、回声、或其他声音降级。
库230被保持在多系统存储库240中,它可以由计算系统210以及如由椭圆220表示的至少一个其他的(以及潜在地许多其他的)计算系统210访问。作为示例,多系统存储库240可以是存储域网络、服务器系统、多服务器系统、或甚至是云计算环境(诸如私有云、公共云、或混合云)。
在任何情形下,计算系统210通过使用估计的环境特定的变更221,以及还至少间接地使用被存储在多系统存储库240中的相关联的一个或多个依赖用户的音频模型而估计计算系统的用户身份。本描述将描述对于这可以如何被完成的两个主要的实施例—一个相对于图3描述,而一个相对于图4描述。这两个实施例在补偿环境特定的变更后执行接收到的用户声音与用户特定的音频模型的比较。然而,在图3的情形下,用户特定的音频模型在做出比较之前由环境特定的变更进行补偿。在图4的情形下,接收到的用户声音在做出比较之前由环境特定的变更进行补偿。当模型被存储时,可以应用环境特定的变更。例如,用户特定的音频模型可被下载到特定的计算系统环境。环境特定的变更然后可以被应用到和被保存到计算系统。这节省了在该特定的环境下计算系统为将来的比较所花费的运行时间。
为了在做出用户201是否为特定用户201时帮助估计模块211,还提供了制定模块241和比较模块242。制定模块241和比较模块242的操作将在下面进一步描述。制定模块241可以是计算系统210的一部分。替换地,制定模块241可以远离计算系统210,或以其他方式是在计算系统外部(例如,在云计算环境中)操作的。制定模块241还可以被分布在计算系统210与一个或多个外部计算系统之间。比较模块242也可以是计算系统210的一部分。替换地,比较模块242可以远离计算系统210,或以其他方式是在计算系统外部(例如,在云计算环境中)操作的。比较模块242还可以被分布在计算系统210与一个或多个外部计算系统之间。
图3图示了按照这里描述的第一实施例的用于估计计算系统的用户身份的方法300的流程图。图3的方法可以在图2的环境200中由估计模块211执行。因此,现在频繁参照图2的环境200描述图3的方法300。
与环境相关联的环境特定的变更被估计(动作301)。如前所述,这些环境特定的变更221可以是之前基于关于计算系统与不同的用户或各种各样的用户的互动的历史数据被估计的,或可以是基于计算系统210通过各种传感器关于其环境所学习到的,和/或可以是基于接收到用户声音的麦克风响应的。例如,这些环境特定的变更可以被表示为频率响应。
按照这里描述的第一方面,当对应的依赖用户的音频模型受到估计的环境特定的变更时,估计模块211然后促进制定用户声音的预期的音频模型(动作302)。例如,计算系统210可以本身访问来自库230的对应于候选用户的依赖用户的音频模型。计算系统210然后可以把依赖用户的音频模型与估计的环境特定的变更进行卷积(或把任何数学和/或逻辑运算应用到模型和变更项),以获得对于环境和对于候选用户特定的预期的音频模型。而且,单个计算系统可以可选地访问在这种情形下其可能选择应用的多个可能的环境特定的变更。例如,计算系统可以基于用户的位置、与其他用户的房间的拥挤度、湿度、检测的障碍物、或可能影响环境特定的变更的其他因素而选择不同的变更。
替换地,计算系统210可以向制定模块241委任这个预期的音频模型的制定。在这种情形下,计算系统210可以向制定模块241提供或标识估计的环境特定的变更221,以使得制定模块241然后可以执行卷积,以便制定对于在环境中的候选用户的预期的音频模型。
计算系统210的估计模块211然后获得将接收到的用户声音与预期的音频模型的制定相比较的比较结果(动作303)。例如,计算系统210本身可以执行接收到的用户声音与预期的音频模型的制定的比较。为了做到这一点,计算系统210将能够访问预期的音频模型的制定。如果预期的音频模型的制定由计算系统210执行,则这将不涉及大量数据传送。如果预期的音频模型的制定由制定模块241执行,则计算系统210将从制定模块241检索所制定的预期的音频模型。
另一方面,比较可以由比较模块242执行。在这种情形下,计算系统210可以把接收到的用户声音提供到比较模块242作为比较的一点。作为比较的第二点,比较模块242还获得预期的音频模型的制定(如果制定是由计算系统210执行的则来自计算系统210,或者如果制定是由制定模块241执行的则来自制定模块241)。估计模块211然后获得来自比较模块242的比较结果。例如,在一个实施例中,估计模块211可以仅接收比较排名。
估计模块211然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同(动作304)。作为一个示例,这可以仅确定比较排名是否在预定的阈值以上。在某些实施例中,预定的阈值可以向上或向下调节,以由此将比较的容忍度调节为更严格或更宽松的。例如,如果环境是安全的以使得用户的适当标识是必要的,则预定的阈值可以向上调节,因为误报的确定该环境下比起漏报的确定有害得多。另一方面,如果适当的标识更多是为了方便性,则预定的阈值可以向下调节,以由此允许某些误报。
方法300可以对于多个潜在的候选用户重复进行,直至找到可接受的或最好的匹配为止。而且,方法300可以由计算系统210对于不同的用户执行。
图4图示了按照这里描述的第二实施例的用于估计计算系统的用户身份的方法的流程图。再次地,方法400从估计在计算系统处接收的接收到的用户声音的环境特定的变更开始(动作401)。例如,动作401可以基本上如以上对于动作301描述的那样被完成。
估计模块211然后使得接收到的用户声音至少部分被估计的环境特定的变更补偿(动作402)。例如,估计模块211可以把接收到的用户声音与估计的环境特定的变更进行卷积,以由此获得接收到的用户声音像当从用户第一次发出时发声那样的估计。
估计模块241然后获得将操纵的接收到的用户声音与用户的依赖用户的音频模型进行比较的比较结果(动作403)。例如,在图2中,比较模块242(或计算系统210本身)可以从库230获得对应于候选用户的依赖用户的音频模块,并且把它与操纵的接收到的用户声音进行比较。再次地,结果可以是比较排名。
估计模块然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户是相同的(动作404)。再次地,这可以通过把比较排名与预定的阈值进行比较而被执行。再一次地,方法400可以对于单个接收到的用户声音对多个候选用户重复进行,或可以重复进行以由此标识计算系统的不同用户。
因此,这里描述的原理允许在用户训练系统识别他们的话音以执行讲话人标识方面的显著可移植性。在一个系统上执行的训练可被转移到另一个系统,而用户不必学习训练新系统的不同方式,以及不用投资时间训练。在某些环境下,用户特定的音频模型可以基于现有历史被描述,所述现有历史诸如电话会议,在其中用户与麦克风之间的相对位置是已知的。随着时间消逝,依赖用户的音频模型可以被细化为用户的附加样本话音在各种位置被接收和估计。而且,每一次如果用户的话音改变,则机器更可能得到慢的话音改变,并且随之调节依赖用户的音频模型。
本发明可以以其他具体形式被体现,而不背离本发明的精神或基本特性。所描述的实施例在所有方面被看作为仅仅是说明性的而并不是限制性的。因此,本发明的范围仅仅由所附权利要求指示,而不是由上述的描述指示。在权利要求的等价性的意义和范围内作出的所有的改变被认为是在其范围内。
Claims (20)
1.一种由计算系统的一个或多个硬件处理器实施的、用于通过基于所述计算系统所位于的环境的状况来修改声音文件以改进话音标识的方法,所述方法包括:
使用所述计算系统的一个或多个传感器以标识环境的状况,所述环境的状况影响在所述计算设备所位于的环境中的声学特性;
标识与所述声学特性相关联的音频修改,所述声学特性影响在所述环境中所生成的声音,并且所述声学特性在所述计算系统处被接收,其中所述一个或多个硬件处理器通过生成关于以下的估计来标识所述音频修改中的至少一个音频修改:所述声音在所述声音被生成的时间和所述声音被所述一个或多个传感器接收的时间之间如何改变;
使用所述一个或多个传感器以接收用户声音,所述用户声音由特定用户引起,并且所述用户声音在在所述计算系统处被接收之前被所述环境的状况影响;以及
通过使用所述音频修改来修改所存储的依赖用户的音频模型,来制定用户的预期的音频模型。
2.根据权利要求1所述的方法,其中所述方法还包括:
比较接收到的所述用户声音与所述预期的音频模型以获得比较结果;以及
基于所述比较结果来估计对应于所述所存储的依赖用户的音频模型的所述用户是否与特定用户相同,所述特定用户引起所述用户声音。
3.根据权利要求1所述的方法,其中标识所述环境的状况包括:
标识所述计算系统所位于的房间的尺寸。
4.根据权利要求3所述的方法,其中所述标识包括由所述计算系统使用红外传感器测量所述尺寸。
5.根据权利要求3所述的方法,其中所述标识包括由所述计算系统使用深度传感器测量所述尺寸。
6.根据权利要求3所述的方法,其中所述标识包括由所述计算系统使用3D传感器测量所述尺寸。
7.根据权利要求3所述的方法,其中所述标识包括测量所述房间内的表面的声学反射率。
8.根据权利要求3所述的方法,其中所述标识包括表示与所述房间相关联的混响。
9.根据权利要求3所述的方法,其中所述标识基于从由所述房间内的多个用户所生成的声音所测量的历史数据。
10.根据权利要求3所述的方法,其中所述标识包括标识与所述房间相关联的回声特性。
11.根据权利要求3所述的方法,其中所述标识通过以下操作而被执行:基于正被所述用户使用的所述计算系统的计算部件来至少推断所述用户相对于所述计算系统的位置。
12.根据权利要求1所述的方法,其中所述用户声音是所述特定用户的口哨。
13.根据权利要求1所述的方法,其中所述用户声音是由所述特定用户演奏的乐器所生成的。
14.根据权利要求1所述的方法,其中所述用户声音是所述特定用户的话音。
15.一种由计算系统的一个或多个硬件处理器实施的、用于通过基于所述计算系统所位于的环境的状况来修改声音以改进话音标识的方法,所述方法包括:
使用所述计算系统的一个或多个传感器以标识环境的状况,所述环境的状况影响在所述计算设备所位于的环境中的声学特性;
标识与所述声学特性相关联的音频修改,所述声学特性影响在所述环境中所生成的声音,并且所述声学特性在所述计算系统处被接收,其中所述一个或多个硬件处理器通过生成关于以下的估计来标识所述音频修改中的至少一个音频修改:所述声音在所述声音被生成的时间和所述声音被所述一个或多个传感器接收的时间之间如何改变;
使用所述一个或多个传感器以接收用户声音,所述用户声音由特定用户引起,并且所述用户声音在在所述计算系统处被接收之前被所述环境的状况影响;以及
修改接收到的所述用户声音以通过至少补偿所述音频修改来制定经修改的用户声音。
16.根据权利要求15所述的方法,其中标识所述环境的状况包括:
使用所述计算系统的一个或多个传感器来标识所述计算系统所位于的房间的尺寸。
17.根据权利要求16所述的方法,其中所述标识包括:测量所述房间内的表面的声学反射率、回声和混响。
18.根据权利要求15所述的方法,其中所述标识基于从由所述房间内的多个用户所生成的声音所测量的历史数据。
19.根据权利要求15所述的方法,其中所述方法还包括:
比较所述经修改的用户声音与所存储的依赖用户的音频模型以获得比较结果;以及
基于所述比较结果来估计对应于所述所存储的依赖用户的音频模型的所述用户是否与特定用户相同,所述特定用户引起所述用户声音。
20.一个或多个硬件存储设备,具有在其上存储的计算机可执行指令,所述计算机可执行指令能够被计算系统的一个或多个处理器执行,以使所述计算系统执行用于基于环境的状况来修改声音以改进话音标识的方法,所述方法包括:
使用所述计算系统的一个或多个传感器以标识环境的状况,所述环境的状况影响在所述计算设备所位于的环境中的声学特性;
标识与所述声学特性相关联的音频修改,所述声学特性影响在所述环境中所生成的声音,并且所述声学特性由所述计算系统的所述一个或多个传感器接收,其中所述一个或多个处理器通过生成关于以下的估计来标识所述音频修改中的至少一个音频修改:所述声音在所述声音被生成的时间和所述声音被所述一个或多个传感器接收的时间之间如何改变;
使用所述一个或多个传感器以接收用户声音,所述用户声音由特定用户引起,并且所述用户声音在在所述计算系统处被接收之前被所述环境的状况影响;
以下至少一项:(1)修改接收到的所述用户声音以通过至少补偿所述音频修改来制定经修改的用户声音,或(2)通过使用所述音频修改来修改所述用户的所存储的依赖用户的音频模型,来制定用户的预期的音频模型;以及
基于至少以下的比较:(a)所述用户声音与所述预期的音频模型或(b)所述所存储的依赖用户的音频模型与所述经修改的用户声音,来估计与所述依赖用户的音频模型相关联的所述用户是否与生成所述用户声音的所述特定用户相同。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/602,166 US9437193B2 (en) | 2015-01-21 | 2015-01-21 | Environment adjusted speaker identification |
US14/602,166 | 2015-01-21 | ||
CN201680006794.XA CN107210039B (zh) | 2015-01-21 | 2016-01-06 | 环境调节的讲话人标识 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680006794.XA Division CN107210039B (zh) | 2015-01-21 | 2016-01-06 | 环境调节的讲话人标识 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112735439A true CN112735439A (zh) | 2021-04-30 |
Family
ID=55310901
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011592753.8A Pending CN112735439A (zh) | 2015-01-21 | 2016-01-06 | 环境调节的讲话人标识 |
CN201680006794.XA Active CN107210039B (zh) | 2015-01-21 | 2016-01-06 | 环境调节的讲话人标识 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680006794.XA Active CN107210039B (zh) | 2015-01-21 | 2016-01-06 | 环境调节的讲话人标识 |
Country Status (4)
Country | Link |
---|---|
US (2) | US9437193B2 (zh) |
EP (1) | EP3248189B1 (zh) |
CN (2) | CN112735439A (zh) |
WO (1) | WO2016118323A1 (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9437193B2 (en) * | 2015-01-21 | 2016-09-06 | Microsoft Technology Licensing, Llc | Environment adjusted speaker identification |
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801663D0 (en) * | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801661D0 (en) * | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5839099A (en) * | 1996-06-11 | 1998-11-17 | Guvolt, Inc. | Signal conditioning apparatus |
US20050018640A1 (en) * | 2000-02-11 | 2005-01-27 | Fullerton Larry W. | System and method for a virtual wireless local area network |
US6944586B1 (en) * | 1999-11-09 | 2005-09-13 | Interactive Drama, Inc. | Interactive simulated dialogue system and method for a computer network |
US20070239457A1 (en) * | 2006-04-10 | 2007-10-11 | Nokia Corporation | Method, apparatus, mobile terminal and computer program product for utilizing speaker recognition in content management |
US20090249323A1 (en) * | 2008-03-27 | 2009-10-01 | General Motors Corporation | Address book sharing system and method for non-verbally adding address book contents using the same |
US8913103B1 (en) * | 2012-02-01 | 2014-12-16 | Google Inc. | Method and apparatus for focus-of-attention control |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6233556B1 (en) | 1998-12-16 | 2001-05-15 | Nuance Communications | Voice processing and verification system |
US20020087306A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented noise normalization method and system |
US6804647B1 (en) | 2001-03-13 | 2004-10-12 | Nuance Communications | Method and system for on-line unsupervised adaptation in speaker verification |
US20030033143A1 (en) * | 2001-08-13 | 2003-02-13 | Hagai Aronowitz | Decreasing noise sensitivity in speech processing under adverse conditions |
KR101297170B1 (ko) | 2006-04-04 | 2013-08-27 | 삼성에스디아이 주식회사 | 연료 전지용 막-전극 어셈블리, 이의 제조방법 및 이를포함하는 연료 전지 시스템 |
KR100791297B1 (ko) | 2006-04-06 | 2008-01-04 | 삼성전자주식회사 | 이벤트 정보를 관리하는 장치, 방법 및 시스템 |
JP4316583B2 (ja) * | 2006-04-07 | 2009-08-19 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
KR100826875B1 (ko) * | 2006-09-08 | 2008-05-06 | 한국전자통신연구원 | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 |
US7974841B2 (en) * | 2008-02-27 | 2011-07-05 | Sony Ericsson Mobile Communications Ab | Electronic devices and methods that adapt filtering of a microphone signal responsive to recognition of a targeted speaker's voice |
CN102237086A (zh) * | 2010-04-28 | 2011-11-09 | 三星电子株式会社 | 用于语音识别设备的补偿装置和方法 |
CN102945670B (zh) * | 2012-11-26 | 2015-06-03 | 河海大学 | 一种用于语音识别系统的多环境特征补偿方法 |
US9437193B2 (en) * | 2015-01-21 | 2016-09-06 | Microsoft Technology Licensing, Llc | Environment adjusted speaker identification |
-
2015
- 2015-01-21 US US14/602,166 patent/US9437193B2/en active Active
-
2016
- 2016-01-06 CN CN202011592753.8A patent/CN112735439A/zh active Pending
- 2016-01-06 EP EP16703370.3A patent/EP3248189B1/en active Active
- 2016-01-06 CN CN201680006794.XA patent/CN107210039B/zh active Active
- 2016-01-06 WO PCT/US2016/012304 patent/WO2016118323A1/en active Application Filing
- 2016-08-30 US US15/251,917 patent/US9659562B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5839099A (en) * | 1996-06-11 | 1998-11-17 | Guvolt, Inc. | Signal conditioning apparatus |
US6944586B1 (en) * | 1999-11-09 | 2005-09-13 | Interactive Drama, Inc. | Interactive simulated dialogue system and method for a computer network |
US20050018640A1 (en) * | 2000-02-11 | 2005-01-27 | Fullerton Larry W. | System and method for a virtual wireless local area network |
US20070239457A1 (en) * | 2006-04-10 | 2007-10-11 | Nokia Corporation | Method, apparatus, mobile terminal and computer program product for utilizing speaker recognition in content management |
US20090249323A1 (en) * | 2008-03-27 | 2009-10-01 | General Motors Corporation | Address book sharing system and method for non-verbally adding address book contents using the same |
US8913103B1 (en) * | 2012-02-01 | 2014-12-16 | Google Inc. | Method and apparatus for focus-of-attention control |
Also Published As
Publication number | Publication date |
---|---|
US20160210969A1 (en) | 2016-07-21 |
US9437193B2 (en) | 2016-09-06 |
EP3248189B1 (en) | 2023-05-03 |
CN107210039B (zh) | 2021-01-12 |
WO2016118323A1 (en) | 2016-07-28 |
EP3248189A1 (en) | 2017-11-29 |
US9659562B2 (en) | 2017-05-23 |
CN107210039A (zh) | 2017-09-26 |
US20160372120A1 (en) | 2016-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107210039B (zh) | 环境调节的讲话人标识 | |
JP6942841B2 (ja) | ダイアログ・システムにおけるパラメータ収集および自動ダイアログ生成 | |
CN109801644B (zh) | 混合声音信号的分离方法、装置、电子设备和可读介质 | |
US11138977B1 (en) | Determining device groups | |
US20190027147A1 (en) | Automatic integration of image capture and recognition in a voice-based query to understand intent | |
JP2019503526A5 (zh) | ||
WO2019177816A1 (en) | Sequence to sequence conversational query understanding | |
CN109671435B (zh) | 用于唤醒智能设备的方法和装置 | |
KR20190046631A (ko) | 자연어 프로세싱을 위한 시스템 및 방법 | |
US20210110821A1 (en) | Electronic apparatus and method for controlling electronic apparatus | |
CN109858045A (zh) | 机器翻译方法和装置 | |
US20220020358A1 (en) | Electronic device for processing user utterance and operation method therefor | |
CN110379420A (zh) | 语言理解系统对声学环境的动态适应 | |
KR20210036527A (ko) | 사용자 발화를 처리하는 전자 장치 및 그 작동 방법 | |
US11756538B1 (en) | Lower latency speech processing | |
WO2019050601A1 (en) | GENERATION OF NAME-ENTITY PRONUNCIATION FOR SPEECH SYNTHESIS AND VOICE RECOGNITION | |
JP2017161644A (ja) | 音声処理システムおよび音声処理方法 | |
US20220161131A1 (en) | Systems and devices for controlling network applications | |
CN112133324A (zh) | 通话状态检测方法、装置、计算机系统和介质 | |
CN103928024B (zh) | 一种语音查询方法及电子设备 | |
US11600260B1 (en) | Utterance generation and evaluation | |
US12008988B2 (en) | Electronic apparatus and controlling method thereof | |
US20240005908A1 (en) | Acoustic environment profile estimation | |
Baimirov et al. | Overview of the latest research related to smart speakers | |
US20210110824A1 (en) | Electronic apparatus and controlling method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |