CN113168438A - 用户认证方法和设备 - Google Patents
用户认证方法和设备 Download PDFInfo
- Publication number
- CN113168438A CN113168438A CN201980079088.1A CN201980079088A CN113168438A CN 113168438 A CN113168438 A CN 113168438A CN 201980079088 A CN201980079088 A CN 201980079088A CN 113168438 A CN113168438 A CN 113168438A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- user
- input
- electronic device
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 230000005236 sound signal Effects 0.000 claims abstract description 881
- 230000007613 environmental effect Effects 0.000 claims abstract description 128
- 230000001755 vocal effect Effects 0.000 claims abstract description 48
- 239000013598 vector Substances 0.000 claims description 474
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 46
- 238000013473 artificial intelligence Methods 0.000 description 43
- 238000012549 training Methods 0.000 description 41
- 238000001514 detection method Methods 0.000 description 26
- 230000004044 response Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 22
- 238000012545 processing Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000002813 epsilometer test Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000002542 deteriorative effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种用于基于话语输入来认证用户的方法和设备包括:基于用户的所述话语输入获得输入音频信号;从所述输入音频信号获得话语部分的至少一个音频信号和非话语部分的至少一个音频信号;基于所述非话语部分的至少一个音频信号,产生指示接收到所述话语输入的环境的环境信息;获得产生的环境信息与注册环境信息之间的比较结果,其中,所述注册环境信息指示接收到与相应于所述用户的先前注册的注册音频信号相应的注册话语输入的环境;基于比较结果来调整用于认证所述用户的认证标准;以及基于调整的认证标准和输入音频信号来认证用户。
Description
技术领域
本公开涉及一种用户认证方法和设备。
背景技术
最近,随着用于实现以用户为中心的界面的人机交互(HCI),对具有用于识别用户的语音的语音识别功能的电子装置的使用日益增加。
电子装置可接收和分析来自先前注册的用户的语音,并且执行用户认证以允许用户访问和控制电子装置。因此,语音识别功能准确地识别出用户的语音并准确地确定识别出的用户的语音是否与先前注册的用户相应是重要的。
通常,电子装置通过从用户输入的语音执行用户注册,然后将在用户认证处理期间输入的用户的语音与注册的语音进行比较以执行用户认证。
然而,执行用户认证时的电子装置的周围环境可能与执行用户注册时的周围环境不同。因此,由于诸如电子装置与用户之间的距离、电子装置周围存在的噪声等外部环境的影响,即使由同一用户输入的语音也可能无法被识别出。作为结果,为了防止用户认证性能劣化,有必要考虑电子装置的外部环境的改变。
发明内容
技术方案
提供了一种用于将用户注册时的环境与用户认证时的环境进行比较并调整用于用户认证的认证标准从而防止用户认证性能劣化的用户认证方法和设备。
另外的方面将部分地在下面的描述中阐述,并且部分地将从描述中显而易见,或者可通过实践所呈现的实施例来学习。
附图说明
根据以下结合附图的描述,本公开的某些实施例的上述和其他方面、特征和优点将更加明显,其中:
图1是示出根据实施例的由电子设备所执行的基于用户的话语输入执行认证的方法的示图;
图2是示出根据实施例的用户认证方法的流程图;
图3是示出根据实施例的包括在输入音频信号中的话语部分的音频信号和非话语部分的音频信号的示图;
图4是示出根据实施例的从输入音频信号获得用户特征矢量的方法的示图;
图5A是示出根据实施例的用户注册环境和注册音频信号之间的关系的示图;
图5B是示出根据实施例的用户认证环境和输入音频信号之间的关系的示图;
图6A是示出根据实施例的用户注册环境和注册音频信号之间的关系的示图;
图6B是示出根据实施例的用户认证环境和输入音频信号之间的关系的示图;
图7是示出根据实施例的基于话语部分的音频信号和注册话语部分的音频信号执行用户认证的处理的示图;
图8是示出根据实施例的使用非话语部分的音频信号和注册非话语部分的音频信号来调整用于用户认证的阈值的方法的示图;
图9是示出根据实施例的预设阈值表的示图;
图10是示出根据实施例的更新用户数据库(DB)的方法的流程图;
图11是示出根据实施例的使用非话语部分的音频信号和注册非话语部分的音频信号调整阈值的方法的示图;
图12是示出根据实施例的使用话语部分的音频信号和注册话语部分的音频信号调整阈值的方法的示图;
图13A是示出根据实施例的使用电子设备的环境的示图;
图13B是示出根据实施例的使用多个电子设备的环境的示图;
图14是示出根据实施例的通过使用基于设备特性参数值的调整的阈值来认证用户的方法的流程图;
图15是示出根据实施例的在用户注册操作中所使用的用户界面的示图;
图16是示出根据实施例的在用户认证处理时所使用的用户界面的示图;
图17是示出根据实施例的针对多个用户的用户注册操作的示图;
图18是示出根据实施例的基于多个用户的会话的用户认证过程的示图;
图19是示出根据实施例的通过使用调整的认证标准来认证用户的方法的流程图;
图20是根据实施例的电子设备的配置的框图;
图21是示出根据实施例的服务器的配置的框图;
图22是示出根据实施例的由电子设备所执行的通过服务器执行用户认证的方法的流程图;
图23是示出根据实施例的由服务器所执行的通过电子设备执行用户认证的方法的流程图;
图24是示出根据实施例的由电子设备和服务器所执行的执行用户识别和用户认证的方法的流程图;
图25是示出根据实施例的训练关键词检测模型的方法的示图;
图26是示出根据实施例的时间延迟神经网络(TDNN)的音频特征矢量处理方法的示图;以及
图27是示出根据实施方式的对从关键词训练层的共享层输出的帧单元表示进行处理的处理的示图。
具体实施方式
最优实施方式
根据本公开的一方面,一种基于话语输入来认证用户的用户认证方法由电子设备来执行并包括:基于用户的所述话语输入来获得输入音频信号;从所述输入音频信号获得话语部分的至少一个音频信号和非话语部分的至少一个音频信号;基于所述非话语部分的至少一个音频信号,产生指示接收到所述话语输入的环境的环境信息;获得产生的环境信息与注册环境信息之间的比较结果,其中,所述注册环境信息指示接收到与所述用户的先前注册的注册音频信号相应的注册话语输入的环境;基于比较结果来调整用于认证所述用户的认证标准;并且基于调整的认证标准和所述输入音频信号来认证所述用户。
获得所述话语部分的至少一个音频信号和所述非话语部分的至少一个音频信号的步骤可包括:将所述输入音频信号划分为多个帧;提取所述多个帧的音频特征;以及基于提取出的音频特征,在所述多个帧之中将与所述话语部分相应的帧和与所述非话语部分相应的帧进行区分。
所述环境信息可以是基于与所述非话语部分相应的帧的音频特征被产生的。
所述环境信息可包括关于多个情况的信息、指示接收到所述音频信号的情况的信息、以及关于与所述多个情况相应的多个矢量的信息。
认证所述用户的步骤可包括:获得先前注册的所述注册音频信号;从所述注册音频信号获得注册话语部分的音频信号;以及通过将所述话语部分的至少一个音频信号与所述注册话语部分的音频信号进行比较来认证所述用户。
所述注册音频信号可包括注册话语部分的至少一个音频信号和注册非话语部分的至少一个音频信号,并且所述注册非话语部分的至少一个音频信号可被用于产生指示接收到与所述注册音频信号相应的话语输入的情况的注册环境信息。
调整所述认证标准的步骤可包括调整与所述话语部分的至少一个音频信号和所述注册话语部分的至少一个音频信号之间的相似性相应的阈值。
调整所述阈值的步骤可包括:基于所述话语部分的长度和所述注册话语部分的长度从预设阈值表中选择所述阈值;以及基于所述环境信息与所述注册环境信息之间的比较结果来调整所述阈值。
选择的所述阈值可以是基于与所述环境信息相应的矢量和与所述注册环境信息相应的矢量之间的相似性被调整的。
调整所述阈值的步骤还可包括:计算所述话语部分的至少一个音频信号的第一平均能量值;计算所述注册话语的至少一个音频信号的第二平均能量值;以及基于第一平均能量值与第二平均能量值之间的比较结果来调整所述阈值。
所述阈值可以是基于先前基于所述用户的语音的音色设置的参数值或先前基于所述电子设备的特性设置的参数值中的至少一个被调整的。
根据本公开的一个方面,一种电子设备包括:麦克风;存储器;以及至少一个处理器,其中,所述至少一个处理器被配置为:基于通过所述麦克风接收到的用户的话语输入来获得输入音频信号,从所述输入音频信号将话语部分的至少一个音频信号和非话语部分的至少一个音频信号进行区分,产生指示接收到所述话语输入的环境的环境信息,获得产生的环境信息与注册环境信息之间的比较结果,其中,所述注册环境信息指示接收到与所述用户的先前注册的注册音频信号相应的注册话语输入的环境,基于比较结果调整用于认证所述用户的认证标准,并且基于调整的认证标准和所述输入音频信号来认证所述用户。
所述至少一个处理器还可以被配置为:将所述输入音频信号划分为多个帧,提取所述多个帧的音频特征,以及基于提取出的音频特征,在所述多个帧中将与所述话语部分相应的帧和与所述非话语部分相应的帧进行区分。
至少一个处理器还可被配置为基于与非话语部分相应的帧的音频特征来产生所述环境信息。
至少一个处理器还可被配置为:获得先前注册的所述注册音频,从所述注册音频信号获得注册话语部分的音频信号,以及通过将话语部分的至少一个音频信号与所述注册话语部分的音频信号进行比较来认证所述用户。
所述注册音频信号可包括注册话语部分的至少一个音频信号和注册非话语部分的至少一个音频信号,并且所述注册非话语部分的至少一个音频信号可被用于产生指示接收到与所述注册音频信号相应的话语输入的情况的注册环境信息。
所述至少一个处理器还可被配置为调整与所述话语部分的至少一个音频信号和所述注册话语部分的至少一个音频信号之间的相似性相应的阈值。
至少一个处理器还可被配置为:基于所述话语部分的长度和所述注册话语部分的长度从预设阈值表中选择阈值,并且基于所述环境信息和所述注册环境信息之间的比较结果来调整所述阈值。
所述至少一个处理器还可被配置为基于与所述环境信息相应的矢量和与所述注册环境信息相应的矢量之间的相似性来调整所述阈值。
根据本公开的一方面,一种在其上记录有用于执行用户认证方法的程序的非暂时性计算机可读记录介质,其中,所述用户认证方法包括:基于用户的话语输入获得输入音频信号;从所述输入音频信号获得话语部分的至少一个音频信号和非话语部分的至少一个音频信号;基于所述非话语部分的至少一个音频信号,产生指示接收到所述话语输入的环境的环境信息;获得产生的环境信息与注册环境信息之间的比较结果,其中,所述注册环境信息指示接收到与所述用户的先前注册的注册音频信号相应的注册话语输入的环境;基于比较结果来调整用于认证所述用户的认证标准;以及基于调整的认证标准和输入音频信号来认证所述用户。
根据本公开的一方面,一种基于话语输入来认证用户的用户认证方法由电子设备来执行并包括:基于用户的话语输入来获得输入音频信号;从所述输入音频信号获得话语部分的音频信号;基于所述话语部分的音频信号与相应于用户账户的注册话语部分的音频信号之间的计算出的相似性,从多个用户账户之中识别所述用户账户;以及基于计算出的相似性高于阈值相似性来认证所述用户。
所述方法还可包括:从所述输入音频信号获得非话语部分的音频信号;基于所述非话语部分的音频信号,产生指示接收到所述话语输入的环境的环境信息;获得产生的环境信息和与所述用户账户相应的注册环境信息之间的比较结果;以及基于比较结果来调整所述阈值相似性。
本发明的实施方式
在下文中,将参照附图详细描述实施例,使得本领域普通技术人员可容易地实施本公开。然而,本公开可以以许多不同的形式实现,并且不限于在此所描述的实施例。为了清楚地描述本公开,省略了与本公开的描述无关的部分,并且附图中相同的附图标号表示相同的元件。
在整个公开内容中,表述“a、b或c中的至少一个”表示仅a、仅b、仅c、a和b两者、a和c两者、b和c两者、a、b和c全部或它们的变形形式。
应当理解,当区域被称为“连接到”另一区域时,所述区域可直接连接到所述另一区域或通过其间的中间区域电连接到所述另一区域。将进一步理解,在此所使用的术语“包括”和/或“包括有”指定所述特征或组件的存在,但不排除一个或更多个其他特征或组件的存在或添加。
在下文中,将参照附图详细描述本公开。
图1是构思性地示出根据实施例的由电子设备1000所执行的基于用户10的话语输入执行认证的方法的示图。
参照图1,根据实施例的电子设备1000可基于用户10的话语输入来获得输入音频信号101。话语输入基于当用户说话时通过电子设备1000的麦克风输入的声音,并且当用户说话时通过电子设备1000的麦克风输入的声音可包括例如用户的语音或电子设备1000周围的噪声中的至少一个。
例如,电子设备1000可在用户10说话的同时通过将通过电子设备1000的麦克风输入的声音转换为电波形信号来获得音频信号。在本公开中,音频信号可指在用户10说话的同时由电子设备1000基于用户10的发声和由电子设备1000的周围环境产生的声音而获得的电波形信号。
电子设备1000可以是用于从用户10接收音频信号的任何设备,例如,移动电话、智能电话、智能TV、智能音频、智能扬声器、人工智能扬声器、个人计算机(PC)、笔记本计算机、平板PC或导航终端,但不限于此。
电子设备1000可使用基于用户10的话语输入获得的输入音频信号101来执行用户认证。
在输入音频信号101被获得之前,电子设备1000可在用户注册操作中基于用户10的话语输入来获得注册音频信号103。
例如,当注册音频信号103被获得时,电子设备1000可产生与已经执行了相应于注册音频信号103的话语输入的用户10相应的用户数据库(DB)。电子设备1000可基于用户10的话语输入获得注册音频信号103,并且将获得的注册音频信号103存储在用户DB中。
电子设备1000可将注册音频信号103与输入音频信号101进行比较以执行用户认证。
输入音频信号101和注册音频信号103可以是例如由电子设备1000基于使用特定句子的用户10的话语输入而获得的音频信号,其中,所述特定句子可以是例如特定词语或词语的特定组合。
用于获得输入音频信号101的句子的内容可与用于获得注册音频信号103的句子的内容相同。例如,当用于获得用于用户注册的注册音频信号103的句子是“嗨,Bixby”时,用于获得用于用户认证的输入音频信号101的句子也是“嗨,Bixby”,即可以是与用于获得注册音频信号103的句子相同的句子。
另外,用于获得输入音频信号101的句子的内容可部分地与用于获得注册音频信号103的句子的内容不同。例如,当用于获得用于用户注册的注册音频信号103的句子是“嗨,Bixby”时,用于获得用于用户认证的输入音频信号101的句子也可以是“醒醒,Bixby”,即可以是部分地与用于获得注册音频信号103的句子不同的句子。
另外,另一个示例,用于获得输入音频信号101的句子的内容可与用于获得注册音频信号103的句子的内容完全不同。例如,当用于获得用于用户注册的注册音频信号103的句子是“嗨,Bixby”时,用于获得用于用户认证的输入音频信号101的句子也可以是“你好,伙伴”,即可以是与用于获得注册音频信号103的句子完全不同的句子。
另外,另一个示例,当用于获得用于用户注册的注册音频信号103的句子是“嗨,Bixby”时,用于获得用于用户认证的输入音频信号101的句子也可以是“你好,Bixby,让我知道今天的天气”,即可以是包括用于激活电子设备1000的语音识别功能的唤醒命令和用于执行电子设备1000的特定功能的命令的句子。
像这样,根据实施例的电子设备1000不仅可基于相应于与用于获得注册音频信号103的句子相同的句子的各种音频信号,而且还可基于相应于与用于获得注册音频信号103的句子的内容不同的句子(即,用于执行电子设备1000的特定功能的句子等)的各种音频信号,来执行用户认证。
为了执行用户认证,电子设备1000可仅在包括在音频信号中的所有信息之中提取和使用与语音识别目的相匹配的部分信息。可例如通过统计方法从音频信号中提取与语音识别目的相匹配的部分信息。
从音频信号提取出的用于语音识别的信息可被称为音频特征。音频特征可从音频信号中被提取,使得例如针对频率的频谱分布包括多个不同的分量。
电子设备1000可从输入音频信号101和注册音频信号103中的每一个提取音频特征,以将输入音频信号101与注册音频信号103彼此进行比较。
电子设备1000可从音频信号去除在提取音频特征的处理中的冗余的音频信息,并且获得音频特征矢量作为用于增加相同音频信号之间的一致性并同时增加与其他音频信号的区分度的信息。
可通过计算例如线性预测系数、倒谱、梅尔频率倒谱系数(MFCC)或频带能量(滤波器组能量)中的至少一个的方法从音频信号中提取这样的音频特征矢量,但不限于此。
由电子设备1000所获得的输入音频信号101可包括话语部分的音频信号和非话语部分的音频信号。电子设备1000可基于从输入音频信号101提取出的音频特征矢量,从输入音频信号101将话语部分的音频信号和非话语部分的音频信号中的任何一个进行区分。
话语部分的音频信号是指在由电子设备1000所获得的输入音频信号101的整个部分中被分类为基于用户10的语音所产生的部分的音频信号。话语部分的音频信号可包括从用户10的语音产生的音频信号。
非话语部分的音频信号是指在由电子设备1000所获得的输入音频信号101的整个部分中被分类为由除了用户10的语音之外的电子设备1000周围的噪声所产生的部分的音频信号。非话语部分的音频信号可以不包括从用户10的语音产生的音频信号。
另外,由电子设备1000所获得的注册音频信号103可包括注册话语部分的音频信号和注册非话语部分的音频信号。电子设备1000可基于从注册音频信号103提取出的音频特征矢量,从注册音频信号103将注册话语部分的音频信号和注册非话语部分的音频信号中的任何一个进行区分。
注册话语部分的音频信号是指在由电子设备1000所获得的注册音频信号103的整个部分中被分类为基于用户10的语音所产生的部分的音频信号。注册话语部分的音频信号可包括从用户10的语音产生的音频信号。
注册非话语部分的音频信号是指在由电子设备1000所获得的注册音频信号103的整个部分中被分类为由除了用户10的语音之外的电子设备1000周围的噪声所产生的部分的音频信号。注册非话语部分的音频信号可以不包括从用户10的语音产生的音频信号。
为了通过将注册音频信号103与输入音频信号101进行比较来执行用户认证,电子设备1000可从注册话语部分的音频信号和话语部分的音频信号中的每一个获得指示用户语音的特征的用户特征矢量。
电子设备1000可使用从音频信号获得的音频特征矢量来获得用户特征矢量。电子设备1000可例如使用用于获得用户特征矢量的深度神经网络(DNN)模型从音频特征矢量产生用户特征矢量。
用于产生用户特征矢量的DNN模型可以是用于从音频信号识别用户语音的特征的模型。可通过例如接收针对不同环境中的多个用户的音频特征矢量并输出针对每一个用户的用户特征矢量的处理来训练用于产生用户特征矢量的DNN模型。
在本公开中,由电子设备1000用于产生用户特征矢量的DNN可包括例如卷积神经网络(CNN)、递归神经网络(RNN)或生成对抗网络(GAN)中的至少一个,但不限于此,并且可用于产生用户特征矢量的所有类型的DNN可被使用。
例如,电子设备1000可从注册话语部分的音频信号获得针对已经执行了与注册音频信号103相应的话语输入的用户10的注册用户特征矢量。电子设备1000可将获得的注册用户特征矢量存储在用户DB中。
例如,电子设备1000可基于多个用户的话语输入获得多个注册音频信号103,并且产生针对所述多个用户的用户DB。电子设备1000可从基于所述多个用户的话语输入获得的所述多个注册音频信号103获得针对所述多个用户中的每一个用户的注册用户特征矢量。电子设备1000可将获得的针对所述多个用户中的每一个用户的注册用户特征矢量存储在每一个用户DB中。
当输入音频信号101被获得时,电子设备1000可从话语部分的音频信号获得例如针对已经执行了与输入音频信号101相应的话语输入的用户10的用户特征矢量。
当输入音频信号101被获得时,电子设备1000可例如从先前在用户注册操作中产生的用户DB获得注册音频信号103,并且从注册话语部分的音频信号获得注册用户特征矢量。另一个示例,当输入音频信号101被获得时,电子设备1000可直接从先前在用户注册操作中产生的用户DB获得注册用户特征矢量。
当输入音频信号101被获得时,电子设备1000可例如从多个用户DB获得每一个用户的注册用户特征矢量,并且从话语部分的音频信号获得用户特征矢量以执行用户识别。
用户识别是指确定所述多个用户之中具有与在相应于输入音频信号101的话语输入中使用的语音最相似的语音特征的用户。也就是说,即使输入音频信号是通过未注册用户的话语输入被获得的,用户识别也仅仅是将注册用户之中具有最高的语音特征的相似性的用户确定为执行话语输入的用户。
例如,电子设备1000可获得从所述多个用户DB获得的针对每一个用户的注册用户特征矢量与从话语部分的音频信号获得的用户特征矢量之间的相似性。
电子设备1000可在所述多个用户DB之中确定包括与从话语部分的音频信号获得的用户特征矢量具有最高相似性的注册用户特征矢量的任何一个用户DB,从而将所述多个用户中的任何一个用户确定为已经执行了与输入音频信号101相应的话语输入的用户10。
在本公开中,可使用矢量之间的点积方法、基于对数似然计算的相似性获得方法或使用训练的用于获得矢量之间的相似性的DNN模型的方法中的至少一种方法来执行获得矢量之间的相似性的操作,但不限于此,并且可使用可用于获得矢量之间的相似性的所有方法。
当在用户识别处理中所述多个用户中的任何一个被确定为已经执行了与输入音频信号101相应的话语输入的用户10时,电子设备1000可基于注册用户特征矢量和针对用户10获得的用户特征矢量来执行例如用户认证。
用户认证是指确定已经执行了话语输入的用户是否与特定用户相应。也就是说,用户认证确定已经执行了话语输入的用户是否与特定用户相应,并且当已经执行了话语输入的用户不是特定用户时,用户认证可被用于拒绝用户或命令的访问。
电子设备1000可使用用于认证用户的认证标准。由电子设备1000所使用的认证标准可以是用于确定已经执行了与输入音频信号101相应的话语输入的用户与特定用户相应的特定标准。
例如,电子设备1000可获得从注册话语部分的音频信号获得的注册用户特征矢量与从话语部分的音频信号获得的用户特征矢量之间的相似性。电子设备1000可通过将获得的相似性与用于执行用户认证的标准进行比较来对用户10执行认证。
用于用户认证的标准可以是例如从注册话语部分的音频信号获得的注册用户特征矢量与从话语部分的音频信号获得的用户特征矢量之间的相似性的阈值。
用户特征矢量可包括例如关于由用户10发声的各种音素的特征的信息。包括具有与用于获得注册音频信号103的句子的内容不同的内容的句子的用于获得输入音频信号101的句子可包括与用于获得注册音频信号103的句子中包括的音素相同的音素中的一些音素。基于相同的音素中的一些音素,电子设备1000可基于相应于与用于获得注册音频信号103的句子相同的句子以及与用于获得注册音频信号103的句子不同的句子的输入音频信号101来执行用户认证。
另外,用户10执行与注册音频信号103相应的话语输入的环境和用户10执行与输入音频信号101相应的话语输入的环境可以是不同的环境。电子设备1000可调整用于用户认证的标准,以防止由于这种环境差异而导致用户认证性能劣化。
为了调整用于用户认证的标准,在操作105,电子设备1000可将获得注册音频信号103的环境与获得输入音频信号101的环境进行比较。也就是说,当获得注册音频信号103的环境与获得输入音频信号101的环境彼此不同时,电子设备1000可基于这样的环境比较结果来调整用于用户认证的标准,从而防止由于环境差异而导致电子设备1000的用户认证性能劣化。
为了将获得注册音频信号103的环境与获得输入音频信号101的环境进行比较,电子设备1000可从注册非话语部分的音频信号和非话语部分的音频信号中的每一个获得指示接收话语输入的环境的环境信息。
环境信息可以是指示当用户的话语输入被输入到电子设备1000时的环境的信息。环境信息可包括例如与电子设备1000周围的噪声相关的信息、关于电子设备1000的位置和电子设备1000与用户之间的距离的信息,但不限于此。
可基于例如噪声是否持续特定时间段(例如,其他人的一次性的话语、其他人之间的对话的连续话语)、噪声是否重复(例如,海滩的周期性波浪声、地铁中的周期性驾驶声等)或噪声中包括的声音的音调(例如,具有周期性变化音调的警笛声)中的至少一个来对电子设备1000周围产生的噪声进行区分。
环境信息可包括例如指示获得音频信号的情况的矢量信息。电子设备1000可使用从音频信号获得的音频特征矢量来获得例如环境特征矢量作为指示接收话语输入的环境的环境信息。电子设备1000可使用用于获得环境特征矢量的DNN模型从音频特征矢量获得例如环境特征矢量。
用于获得环境特征矢量的DNN模型可以是例如与上述用于获得用户特征矢量的DNN模型相同的DNN模型。用于获得环境特征矢量的DNN模型可以是用于从非话语部分的音频信号识别执行用户10的话语输入的环境的特征的模型。可通过例如接收针对不同环境中的多个用户的音频特征矢量并输出针对每一个用户的用户特征矢量的处理来训练用于获得环境特征矢量的DNN模型。
例如,电子设备1000可从注册非话语部分的音频信号获得与注册音频信号103相应的环境信息。例如,电子设备1000可从注册非话语部分的音频信号获得注册环境特征矢量作为指示接收与注册音频信号103相应的话语输入的环境的环境信息。电子设备1000可将获得的注册环境特征矢量存储在与用户10相应的用户DB中。
在实施例中,用户DB可包括例如注册音频信号103、与已经输入了注册音频信号103的用户10相应的注册用户特征矢量、或指示接收与注册音频信号103相应的话语输入的环境的注册环境特征矢量中的至少一个。
例如,电子设备1000可基于多个用户的话语输入获得多个注册音频信号103,并且产生针对所述多个用户的用户DB。电子设备1000可从基于所述多个用户的话语输入获得的所述多个注册音频信号103获得针对所述多个用户中的每一个用户的注册环境特征矢量。电子设备1000可将获得的针对所述多个用户中的每一个用户的注册环境特征矢量存储在每一个用户DB中。
当输入音频信号101被获得时,电子设备1000可例如从非话语部分的音频信号获得与输入音频信号101相应的环境信息。例如,电子设备1000可从非话语部分的音频信号获得环境特征矢量作为指示接收与输入音频信号101相应的话语输入的环境的环境信息。
当输入音频信号101被获得时,电子设备1000可例如从先前在用户注册操作中产生的用户DB获得注册音频信号103,并且从注册非话语部分的音频信号获得注册环境特征矢量。另一个示例,当输入音频信号101被获得时,电子设备1000可直接从先前在用户注册操作中产生的用户DB获得注册环境特征矢量。
电子设备1000可基于从注册非话语部分的音频信号获得的注册环境特征矢量和从非话语部分的音频信号获得的环境特征矢量,将获得输入音频信号101的环境与获得注册音频信号103的环境进行比较。在操作107,电子设备1000可基于获得输入音频信号101的环境与获得注册音频信号103的环境的比较结果来调整用于认证用户10的标准。
例如,电子设备1000可获得从注册非话语部分的音频信号获得的注册环境特征矢量与从非话语部分的音频信号获得的环境特征矢量之间的相似性。电子设备1000可基于获得的相似性来调整用于认证用户10的标准。
在操作109,电子设备1000可基于调整的认证标准和输入音频信号101来认证用户10。
在实施例中,电子设备1000可获得例如从获得的注册话语部分的音频信号获得的注册用户特征矢量与从话语部分的音频信号获得的用户特征矢量之间的相似性。电子设备1000可通过将获得的相似性与调整的认证标准进行比较来对用户10执行认证。
另外,在其他实施例中,电子设备1000可通过网络将基于用户10的话语输入获得的输入音频信号101发送到服务器2000。服务器2000可使用从电子设备1000接收到的输入音频信号101来执行用户认证。
服务器2000可将例如通过电子设备1000接收到的注册音频信号103存储在服务器2000的存储器中。在另一示例中,服务器2000可基于通过电子设备1000接收到的注册音频信号103产生用户DB,并且将产生的用户DB存储在服务器2000的存储器中。
在执行用户认证之后,服务器2000可通过电子设备1000将认证结果发送给用户10。
由服务器2000所执行的使用输入音频信号101、注册音频信号103和用户DB执行用户认证的具体方法可与根据上述实施例的由电子设备1000所执行的方法相同,因此将省略其详细描述。
图2是示出根据实施例的用户认证方法的流程图。
参照图2,在操作S201,电子设备1000可基于用户10的话语输入来获得输入音频信号101。
在操作S202,电子设备1000可从获得的输入音频信号101将话语部分的至少一个音频信号和非话语部分的至少一个音频信号进行区分。
例如,电子设备1000可将获得的输入音频信号101划分为帧单元。电子设备1000可从划分为帧单元的输入音频信号101中区分并获得话语部分的音频信号和非话语部分的音频信号。
例如,电子设备1000可在预处理操作等中执行语音端点检测(VAD)或信噪比(SNR)的峰值分析,以从输入音频信号101获得话语部分的音频信号和非话语部分的音频信号。
在另一示例中,电子设备1000可通过使用针对输入音频信号101获得的音频特征矢量和声学模型(AM)来获得话语部分的音频信号和非话语部分的音频信号。稍后将参照图3和图4的实施例描述由电子设备1000所执行的使用AM获得话语部分的音频信号和非话语部分的音频信号的详细方法的示例。
在操作S203,电子设备1000可基于非话语部分的音频信号产生指示接收与输入音频信号101相应的话语输入的情况的环境信息。
在操作S204,电子设备1000可基于产生的环境信息与注册环境信息之间的比较结果来调整用于认证用户10的认证标准,其中,所述注册环境信息指示接收与先前注册的针对用户10的注册音频信号103相应的话语输入的环境。
在操作S205,电子设备1000可基于调整的认证标准和输入音频信号101来执行用户认证。例如,电子设备1000可获得从注册话语部分获得的注册用户特征矢量与从话语部分的音频信号获得的用户特征矢量之间的相似性,并且将获得的相似性与调整的阈值进行比较以执行用户认证。
另外,在其他实施例中,可由服务器2000执行获得输入音频信号101的操作S201或基于调整的认证标准和输入音频信号101执行用户认证的操作S205中的至少一个。
图3是示出根据实施例的包括在输入音频信号101中的话语部分的音频信号和非话语部分的音频信号的示图。
例如,电子设备1000可将输入音频信号101划分为预设的帧单元。电子设备1000可从每一个划分出的帧的音频信号中提取音频特征矢量。
通常,在语音识别领域中,用于提取音频特征矢量的音频信号的每一个帧在时域上可具有20毫秒(ms)的长度,并且每一个帧被划分为彼此重叠10ms长度,但本公开的音频特征矢量提取方法不限于这样的标准。
输入音频信号101可包括例如话语部分的至少一个音频信号和非话语部分的至少一个音频信号。当用户10在执行话语输入的同时暂停发声时,输入音频信号101可包括与每一个发声部分相应的话语部分的音频信号,并且同时可包括与发声开始之前的部分、发声中断的部分和发声结束之后的部分相应的非话语部分的音频信号。
电子设备1000可基于从每一个帧的音频信号中提取出的音频特征矢量,将每一个帧的音频信号分类为话语部分的音频信号和非话语部分的音频信号。
例如,电子设备1000可累积针对多个话语部分的音频信号的所有音频特征矢量,而不管音频特征矢量是否被包括在多个连续帧中,并且使用音频特征矢量来产生用户特征矢量。
另外,电子设备1000可累积针对多个非话语部分的音频信号的所有音频特征矢量,而不管音频特征矢量是否被包括在所述多个连续帧中,并且使用音频特征矢量来产生环境特征矢量。
参照图3,输入音频信号101可包括第一部分音频信号301、第二部分音频信号303、第三部分音频信号305、第四部分音频信号307和第五部分音频信号309。每一部分音频信号可包括例如至少一个帧。
例如,电子设备1000可获得针对包括在每一部分音频信号中的所述至少一个帧中的每一个帧的音频特征矢量。
基于针对第一部分音频信号301至第五部分音频信号309中的每一个获得的音频特征矢量,电子设备1000可例如将第一部分音频信号301、第二部分音频信号303和第四部分音频信号307区分为话语部分的音频信号,并且将第三部分音频信号305和第五部分音频信号309区分为非话语部分的音频信号。
电子设备1000可通过使用多个话语部分的音频信号(即,第一部分音频信号301、第二部分音频信号303和第四部分音频信号307)的音频特征矢量来获得例如用户特征矢量。
另外,电子设备1000可使用多个非话语部分的音频信号(即,第三部分音频信号305和第五部分音频信号309)的音频特征矢量来获得例如环境特征矢量。
作为参考,在下面将要描述的附图中,为了便于描述,构成音频信号的话语部分的至少一个音频信号和非话语部分的至少一个音频信号将分别被示出为一个话语部分的音频信号和一个非话语部分的音频信号。
图4是示出根据实施例的从输入音频信号101获得用户特征矢量的方法的示图。
参照图4,在操作401,电子设备1000可从输入音频信号101获得第一音频特征矢量以识别话语部分的音频信号。
在操作403,电子设备1000可基于第一音频特征矢量从输入音频信号101将话语部分的音频信号与非话语部分的音频信号进行区分。
例如,电子设备1000可使用AM 402获得输入音频信号101的每一个帧的声学分数(即,每一个帧相应于特定音素的概率),从而将输入音频信号101的每一个帧区分为与话语部分的音频信号相应的帧和与非话语部分的音频信号相应的帧之一。
通常,在语音识别领域中所使用的AM的单位可包括单音素、双音素、三音素、五音素、音节、词语等。当一个音素相同时,单音素可被认为是相同的单位。当之前或之后紧接的音素不同时,双音素可被认为是不同的单位。只有当左音素和右音素同时相同时,三音素才可被认为是相同的单位。
例如,电子设备1000可在多个音素候选之中选择具有最高声学分数的音素候选作为使用AM 402对每一个帧进行分析的结果,并且当所选择的音素候选与具有静默指数的音素候选相应时,将相应的帧分类为与非话语部分的音频信号相应的帧。
例如,电子设备1000可选择多个音素候选中具有最高声学分数的音素候选作为使用AM 402分析每一个帧的结果,并且当所选择的音素候选相应于除了具有静默指数的音素候选之外的音素候选时,将相应的帧分类为与话语部分的音频信号相应的帧。
在实施例中,电子设备1000可基于每一个帧的声学分数将输入音频信号101的所有帧分类为与非话语部分的音频信号相应的帧中的任何一个,从而从输入音频信号101将话语部分的音频信号和非话语部分的音频信号进行区分。
在操作404,电子设备1000可从话语部分的音频信号获得第二音频特征矢量。例如,电子设备1000可通过使用与用于获得第一音频特征矢量的音频特征矢量提取方法不同的方法从话语部分的音频信号获得第二音频特征矢量。
在操作405,电子设备1000可基于所获得的第二音频特征矢量来产生与用户10相应的用户特征矢量。
另外,在其他实施例中,可由服务器2000执行图4的从获得第一音频特征矢量的操作401至产生用户特征矢量的操作405中的至少一个操作。
图5A是示出根据实施例的用户注册环境和注册音频信号之间的关系的示图。
参照图5A,用户50可将用户50注册为第一电子设备53的用户。例如,用户50可说出特定第一句子以执行针对第一电子设备53的话语输入。第一电子设备53可基于用户50的话语输入来获得第一注册音频信号511。
第一电子设备53从用户50接收与第一注册音频信号511相应的话语输入的环境可以是用户50、第一电子设备53和位于第一电子设备53周围的TV 51所在的室内空间。
在第一电子设备53获得第一注册音频信号511时,TV 51的电源可处于关闭状态。
例如,第一电子设备53可将第一注册音频信号511区分为第一注册话语部分的音频信号501和第一注册非话语部分的音频信号503。
图5B是示出根据实施例的用户认证环境和输入音频信号之间的关系的示图。
参照图5B,用户50可例如说出第二句子以执行针对第一电子设备53的话语输入。第一电子设备53可基于用户50的话语输入来获得第一输入音频信号512。例如,第二句子可以是与用于用户50的注册的第一句子不同的句子。
第一电子设备53从用户50接收与第一输入音频信号512相应的话语输入的环境可以是用户50、第一电子设备53和位于第一电子设备53周围的TV 51所在的室内空间。
然而,在第一电子设备53从用户50接收与第一输入音频信号512相应的话语输入时,与接收与第一注册音频信号511相应的话语输入时不同,TV 51的电源可处于开启状态,并且可从TV 51的扬声器输出具有可被输入到第一电子设备53的麦克风的音量的声音。
例如,第一电子设备53可将第一输入音频信号512区分为第一话语部分的音频信号505和第一非话语部分的音频信号507。
在图5A和图5B所示出的实施例中,由于存在通过TV 51的扬声器输出的声音的环境,第一注册非话语部分的音频信号503和第一非话语部分的音频信号507可与彼此不同。
在实施例中,第一注册非话语部分的音频信号503的音频特征和第一非话语部分的音频信号507的音频特征可彼此不同,并且音频特征之间的差异可随着第一TV 51的扬声器的输出水平增加而进一步增加。
例如,第一电子设备53可基于彼此不同的第一注册非话语部分的音频信号503的音频特征与第一非话语部分的音频信号507的音频特征来调整用于用户认证的认证标准。
例如,第一电子设备53可使用第一非话语部分的音频信号507来获得指示接收与第一输入音频信号512相应的话语输入的环境的环境信息。例如,第一电子设备53可从第一非话语部分的音频信号507获得第一环境特征矢量。
另外,例如,第一电子设备53可使用从先前注册的第一注册音频信号511获得的第一注册非话语部分的音频信号503来获得指示接收与第一注册音频信号511相应的话语输入的环境的环境信息。例如,第一电子设备53可从第一注册非话语部分的音频信号503获得第一注册环境特征矢量。
第一电子设备53可通过对第一注册环境特征矢量与第一环境特征矢量进行比较来确定接收到每一个音频信号的环境之间的相似度,并且基于确定结果调整用于用户认证的认证标准。也就是说,第一注册环境特征矢量与第一环境特征矢量之间的相似度可随着第一TV 51的扬声器的输出水平增加而减小。
另外,在其他实施例中,可由服务器2000执行通过对图5A的第一注册环境特征矢量与图5B的第一环境特征矢量进行比较来调整认证标准。
像这样,使用根据实施例的用户认证方法的电子设备1000和/或服务器2000可考虑获得注册音频信号的环境与获得输入音频信号的环境之间的相似性来确定认证标准的调整程度,从而防止用户认证性能响应于音频信号的各种输入环境而劣化。
图6A是示出根据实施例的用户注册环境和注册音频信号之间的关系的示图。
参照图6A,用户50可将用户50注册为第一电子设备53的用户。例如,用户50可说出特定第一句子以执行针对第一电子设备53的话语输入。第一电子设备53可基于用户50的话语输入来获得第二注册音频信号611。
第一电子设备53从用户50接收与第二注册音频信号611相应的话语输入的环境可以是用户50、第一电子设备53和位于第一电子设备53周围的TV 51所在的室内空间。
在第一电子设备53获得第二注册音频信号611时,第一电子设备53与用户50可分隔开第一距离55。
例如,第一电子设备53可将第二注册音频信号611区分为第二注册话语部分的音频信号601和第二注册非话语部分的音频信号603。
图6B是示出根据实施例的用户认证环境和输入音频信号之间的关系的示图。
参照图6B,用户50可例如说出第二句子以执行针对第一电子设备53的话语输入。第一电子设备53可基于用户50的话语输入来获得第二输入音频信号612。例如,第二句子可以是与用于用户50的注册的第一句子不同的句子。
第一电子设备53从用户50接收与第二输入音频信号612相应的话语输入的环境可以是用户50、第一电子设备53和位于第一电子设备53周围的TV 51所在的室内空间。
然而,与接收与第二输入音频信号612相应的话语输入时不同,在第一电子设备53从用户50接收与第二输入音频信号612相应的话语输入时,第一电子设备53和用户50可分隔开第二距离57。
例如,第一电子设备53可将第二输入音频信号612区分为第二话语部分的音频信号605和第二非话语部分的音频信号607。
参照图6A和图6B,随着用户50与第一电子设备53之间的距离从第一距离55增加到第二距离57,第二注册话语部分的音频信号601和第二话语部分的音频信号605可彼此不同。
平均能量是音频信号的强度的度量,并且每一个话语部分的平均能量可随着用户50与第一电子设备53之间的距离增加而减小。也就是说,第二注册话语部分的音频信号601的平均能量与第二话语部分的音频信号605的平均能量可彼此不同,并且平均能量的差异可随着用户50与第一电子设备53之间的距离增加而进一步增加。
例如,第一电子设备53可基于第二注册话语部分的音频信号601的平均能量和第二话语部分的音频信号605的平均能量来调整用于用户认证的认证标准。
例如,当第二注册话语部分的音频信号601的平均能量大于第二话语部分的音频信号605的平均能量时,第一电子设备53可确定第二距离57大于第一距离55,并且基于第二注册话语部分的音频信号601的平均能量与第二话语部分的音频信号605的平均能量的能量比来调整用于用户认证的认证标准。
另外,在其他实施例中,可由服务器2000执行基于图6A和图6B的平均能量的能量比的认证标准的调整。
这样,使用根据实施例的用户认证方法的电子设备1000和/或服务器2000可考虑获得注册音频信号的环境与获得输入音频信号的环境之间的相似性来确定认证标准的调整程度,从而防止用户认证性能响应于音频信号的各种输入环境而劣化。
图7是示出根据实施例的基于话语部分的音频信号和注册话语部分的音频信号执行用户认证的处理的示图。
参照图7,当输入音频信号101被获得时,在操作701,电子设备1000可从获得的输入音频信号101获得话语部分的音频信号。在操作703,电子设备1000可从获得的话语部分的音频信号获得用户特征矢量。
在实施例中,在从话语部分的音频信号获得用户特征矢量的处理中,与由电子设备1000的周围环境所产生的音频信号相应的环境分量可以不被完全去除,而是被保留在用户特征矢量中。
为了产生已经去除了环境分量的用户特征矢量,电子设备1000可对用户特征矢量执行后处理。
例如,电子设备1000可使用用于从用户特征矢量中去除环境分量的后处理模型来去除从话语部分的音频信号获得的用户特征矢量中剩余的环境分量。
例如,可通过接收在多个第二环境(例如,周围噪声的幅值小于或等于特定阈值的多个环境)中获得的用户特征矢量并且输出与使用用于产生用户特征矢量的DNN模型针对第一环境(例如,周围噪声的幅值小于或等于所述特定阈值并且确定不具有噪声的环境)中的特定用户获得的用户特征矢量相同的矢量的处理,来训练用于从用户特征矢量中去除环境分量的DNN模型。
另外,例如,电子设备1000还可基于从用户特征矢量中去除的其余环境分量来调整用于用户认证的阈值。除了基于环境特征矢量的相似性调整阈值之外,还可按照与基于环境特征矢量的相似性调整阈值相同的方式执行阈值的进一步调整,将在下面参照图8描述其示例。
另外,当输入音频信号101被获得时,在操作702,电子设备1000可从用户DB获得例如注册音频信号103,并且从获得的注册音频信号103获得注册话语部分的音频信号。在操作704,电子设备1000可从获得的注册话语部分的音频信号获得注册用户特征矢量。
在实施例中,当输入音频信号101被获得时,另一个示例,电子设备1000可直接从用户DB获得注册用户特征矢量。
例如,在操作705,电子设备1000可计算从注册话语部分的音频信号获得的注册用户特征矢量与从话语部分的音频信号获得的用户特征矢量之间的相似性以执行用户认证。
在操作706,电子设备1000可将计算出的用户特征矢量之间的相似性与阈值进行比较。在操作707,电子设备1000可基于获得的用户特征矢量之间的相似性与阈值的比较结果来执行用户认证。
另外,在其他实施例中,可由服务器2000执行从获得话语部分的音频信号的操作710至根据用户特征矢量的相似性与阈值之间的比较来执行用户认证的操作707中的至少一个。
图8是示出根据一些实施例的使用非话语部分的音频信号和注册非话语部分的音频信号来调整用于用户认证的阈值的方法的示图。
参照图8,当输入音频信号101被获得时,在操作801,电子设备1000可从获得的输入音频信号101获得话语部分的音频信号。当话语部分的音频信号被获得时,在操作805,电子设备1000可识别话语部分的音频信号在时域上持续的时间长度(其可被称为话语部分的长度)。
另外,当输入音频信号101从用户被输入时,电子设备1000可例如从用户DB获得注册音频信号103,并且在操作803,从获得的注册音频信号103获得注册话语部分的音频信号。当注册话语部分的音频信号被获得时,在操作807,电子设备1000可识别注册话语部分的音频信号在时域上持续的时间长度(其可被称为注册话语部分的长度)。
在操作809,电子设备1000可基于获得的话语部分的长度和注册话语部分的长度,从包括在阈值表中的多个阈值之中选择用于用户认证的任何一个阈值。
另外,当输入音频信号101被获得时,在操作802,电子设备1000可从获得的输入音频信号101获得非话语部分的音频信号。在操作806,电子设备1000可从获得的非话语部分的音频信号获得指示接收与输入音频信号101相应的话语输入的环境的环境信息。
另外,当输入音频信号101被获得时,电子设备1000可例如从用户DB获得注册音频信号103,并且在操作804,从获得的注册音频信号103获得注册非话语部分的音频信号。在操作808,电子设备1000可从获得的注册非话语部分的音频信号获得指示接收与注册音频信号103相应的话语输入的环境的注册环境信息。
在操作810,电子设备1000可将环境信息与注册环境信息彼此进行比较。在操作811,电子设备1000可基于获得的环境信息和注册环境信息的比较结果来调整在操作809从阈值表中选择的任何一个阈值。
另外,在其他实施例中,可由服务器2000执行从图8的获得话语部分的音频信号的操作801至基于环境信息和注册环境信息的比较结果调整阈值的操作811中的至少一个。
图9是示出根据实施例的预设阈值表9的示图。
根据实施例的电子设备1000可将针对从注册话语部分的音频信号获得的注册用户特征矢量与从话语部分的音频信号获得的用户特征矢量之间的相似性的至少一个阈值用作用于用户认证的标准。例如,可在输入音频信号101被获得之前将所述至少一个阈值预先存储在电子设备1000的存储器中。例如,用作认证标准的多个阈值可作为阈值表被存储在电子设备1000的存储器中。
可基于例如与多个用户的话语输入相应的音频信号来产生阈值表。阈值表可例如通过针对获得的音频信号是否与特定用户相应的二进制因变量的逻辑回归分析来获得,其中,二进制因变量可以是指示获得的音频信号与特定用户相应或不与特定用户相应的二进制因变量。通过逻辑回归分析获得的所述多个阈值可具有例如0和1之间的归一化标量值。
阈值表可包括例如基于认证错误的百分比(即,将用户识别为其他人并拒绝用户认证的错误拒绝率(FRR)与将其他人识别为用户并接受用户认证的错误接受率(FAR)之间的比率)产生的所述多个阈值。
通常,电子设备的用户认证准确度可随着输入音频信号在时域上持续的时间长度和注册音频信号的长度增加而增加。当使用单个阈值时,当输入音频信号的长度和注册音频信号的长度增加时,FAR可增加,并且当输入音频信号的长度和注册音频信号的长度减小时,FRR可增加。
因为FRR和FAR可能处于权衡关系,所以阈值表可被设置为包括与输入音频信号和注册音频信号的各种长度相应的多个阈值,并且电子设备1000可使用阈值表,从而防止由于输入音频信号和注册音频信号的长度的减小或增加而导致的用户认证性能的变化。
电子设备1000可从包括所述多个阈值的阈值表中选择例如与输入音频信号101的话语部分的长度和注册音频信号103的注册话语部分的长度相应的任何一个阈值。
例如,电子设备1000可从用户接收与输入音频信号101相应的话语输入,并且同时实时地测量话语部分的长度。例如,电子设备1000可在用户注册操作中获得注册音频信号103,并且同时测量注册话语部分的长度并将测量的注册话语部分的长度存储在用户DB中。
参照图9,根据实施例的阈值表9可包括与以5秒(sec)长度为单位分类的注册话语部分的长度P1和以0.1sec长度为单位分类的话语部分的长度P2中的每一个相应的多个阈值。包括在阈值表9中的所述多个阈值可例如包括0和1之间的归一化标量值。
例如,当输入音频信号101的话语部分的长度是1.15sec并且注册音频信号103的注册话语部分的长度是16sec时,电子设备1000可以选择用于用户认证的阈值为0.673734。
另外,当输入音频信号101的话语部分的长度是1.5sec并且注册音频信号103的注册话语部分的长度是20sec时,电子设备1000可将用户认证的阈值选择为0.870094。
当电子设备1000获得具有不同长度的话语部分的输入音频信号101时,电子设备1000可通过使用阈值表9针对注册话语部分的相同长度使用不同的阈值,从而防止由于输入音频信号101的长度的减小或增加而导致的用户认证性能的变化。
图10是示出根据实施例的更新用户DB 1011的方法的流程图。
因为电子设备1000对用户重复执行认证,所以用户DB可被更新。例如,因为电子设备1000对用户重复执行认证,所以存储在用户DB中的注册音频信号103、注册用户特征矢量、注册环境特征矢量或注册话语部分的长度中的至少一个可被更新。
例如,电子设备1000可使用与用于用户认证的阈值表不同的单独阈值表来更新用户DB。
电子设备1000可获得例如从用户DB获得的注册用户特征矢量与从输入音频信号101获得的用户特征矢量之间的相似性,并且将获得的相似性与从作为用户认证的参考的阈值表中选择的任何一个阈值进行比较以执行用户认证。
当获得的相似性具有等于或大于选择的阈值的值时,电子设备1000可将例如获得的相似性与从用于更新用户DB的阈值表中选择的任何一个阈值进行比较。
可将用于更新用户DB的阈值表设置为包括例如具有比用于用户认证的阈值表的阈值相对更低的FAR的多个阈值。也就是说,针对相同注册话语部分的长度和话语部分的长度,可将用于更新用户DB的阈值表设置为包括比作为用户认证的参考的阈值表相对更高的阈值。
也就是说,电子设备1000可将阈值表用于更新用户DB,从而选择满足比作为用户认证的参考的阈值表相对更高的阈值的输入音频信号101。电子设备1000可基于选择的输入音频信号101更新用户DB,因此当重复用户认证时,可提高电子设备1000的用户认证性能。
参照图10,例如,在操作S1001,电子设备1000可从输入音频信号101获得话语部分的音频信号,并且在操作S1002,从获得的话语部分的音频信号获得用户特征矢量。
在操作S1003,电子设备1000可计算从用户DB 1011获得的注册用户特征矢量与从话语部分的音频信号获得的用户特征矢量之间的相似性,并且将计算出的相似性与从第一阈值表1012中选择的任何一个阈值进行比较。
第一阈值表1012可包括例如用于用户认证的多个阈值。作为比较的结果,当计算的相似性等于或大于从第一阈值表1012中选择的任何一个阈值时,在操作S1004,电子设备1000可将计算的相似性与从第二阈值表1013中选择的任何一个阈值进行比较。第二阈值表1013可包括例如用于更新用户DB的多个阈值。
作为比较的结果,当计算的相似性等于或大于从第二阈值表1013中选择的任何一个阈值时,在操作S1005,电子设备1000可计算从用户DB 1011获得的注册用户特征矢量和从话语部分的音频信号获得的用户特征矢量的加权和。
例如,电子设备1000可根据从用户DB 1011获得的注册用户特征矢量的长度与从输入音频信号101获得的话语部分的长度之间的比率,通过将不同的权重应用于从用户DB1011获得的注册用户特征矢量和从话语部分的音频信号获得的用户特征矢量来计算加权和。
例如,当从用户DB 1011获得的注册用户特征矢量的长度是12sec并且从输入音频信号101获得的话语部分的长度是3sec时,电子设备1000可通过将比率为4:1的权重应用于注册用户特征矢量和用户特征矢量的加权和来获得新的用户特征矢量。
基于操作S1005的计算结果,在操作S1006,电子设备1000可更新用户DB 1011。当新的用户特征矢量被获得时,电子设备1000可将包括在用户DB 1011中的注册用户特征矢量更新为获得的新的用户特征矢量。
另外,电子设备1000还可按照与用户特征矢量相同的方式更新注册环境特征矢量。
例如,作为操作S1004中的计算结果,当计算的相似性等于或大于从第二阈值表1013中选择的任何一个阈值时,电子设备1000可更新用户DB 1011的注册用户特征矢量并且同时更新注册环境特征矢量。
例如,当从用户DB 1011获得的注册非话语部分的长度是2sec并且从输入音频信号101获得的非话语部分的长度是1sec时,电子设备1000可通过将比率为2:1的权重应用于注册环境特征矢量和环境特征矢量的加权和来获得新的环境特征矢量。
当新的环境特征矢量被获得时,电子设备1000可通过利用获得的新的环境特征矢量替换注册环境特征矢量来更新包括在用户DB 1011中的注册环境特征矢量。
图11是示出根据实施例的使用非话语部分的音频信号和注册非话语部分的音频信号调整阈值的方法的示图。
参照图11,当输入音频信号101被获得时,电子设备1000可以在操作1101和操作1102从获得的输入音频信号101获得话语部分的音频信号和非话语部分的音频信号。
电子设备1000可从所获得的非话语部分的音频信号获得指示接收与输入音频信号101相应的话语输入的环境的环境信息。例如,在操作1105,电子设备1000可从非话语部分的音频信号获得环境特征矢量作为接收与输入音频信号101相应的话语输入的环境。
另外,当输入音频信号101被获得时,电子设备1000可在操作1103和操作1104从注册音频信号103获得注册话语部分的音频信号和注册非话语部分的音频信号。
电子设备1000可从获得的注册非话语部分的音频信号获得指示接收与注册音频信号103相应的话语输入的环境的环境信息。例如,在操作1106,电子设备1000可从获得的注册非话语部分的音频信号获得注册环境特征矢量作为指示接收与注册音频信号103相应的话语输入的环境的环境信息。
例如,在操作1108,电子设备1000可获得所获得的环境特征矢量与注册环境特征矢量之间的相似性。
在操作1109,电子设备1000可基于获得的环境特征矢量之间的相似性,调整在操作1107从包括在阈值表中的多个阈值之中选择的用于用户认证的任何一个阈值。调整的阈值可与从话语部分的音频信号获得的用户特征矢量与从注册话语部分的音频信号获得的注册用户特征矢量之间的相似性进行比较来进行用户认证。
例如,电子设备1000可根据下面的等式1来调整阈值。
[等式1]
THfinal=THbase(1.0-ws(1.0-Sr))
在上面的等式1中,Sr表示环境特征矢量之间的相似性,ws表示环境特征矢量之间的相似性的加权系数,THbase表示从阈值表中选择的一个阈值,THfinal表示调整的阈值。环境特征矢量之间的相似性Sr可例如针对相同的环境特征矢量具有值1。例如,可基于包括在不同距离和不同环境条件下获得的多个音频信号的实验数据来设置环境特征矢量之间的相似性的加权系数ws。
另外,在其他实施例中,可以由服务器2000执行从图11的获得话语部分的音频信号的操作1101到基于环境特征矢量和注册环境特征矢量之间的相似性调整阈值的操作1109中的至少一个。
图12是示出根据实施例的使用话语部分的音频信号和注册话语部分的音频信号来调整阈值的方法的示图。
参照图12,当输入音频信号101被获得时,电子设备1000可在操作1201和操作1202从获得的输入音频信号101获得话语部分的音频信号和非话语部分的音频信号。
在操作1205,电子设备1000可根据获得的话语部分的音频信号来计算话语部分的平均能量。特定部分的音频信号的平均能量可与例如相对于包括在特定部分中的音频信号的帧的幅值的绝对值的平均值相应。
另外,当输入音频信号101被获得时,电子设备1000可在操作1203和操作1204从注册音频信号103获得注册话语部分的音频信号和注册非话语部分的音频信号。
例如,在操作1206,电子设备1000可从获得的注册话语部分的音频信号获得注册话语部分的平均能量。对于另一示例,电子设备1000可以直接从先前在用户注册操作中产生的用户DB获得注册话语部分的平均能量。
在操作1207,电子设备1000可通过将计算的话语部分的平均能量和注册话语部分的平均能量彼此进行比较来获得能量比。
例如,电子设备1000可根据下面的等式2获得能量比。
[等式2]
Er=1.0-|Eenroll-Etest|/Eenroll(Eenroll≥Etest),
Er=1.0-|Eenroll-Etest|/Etest(Eenroll<Etest)
在上面的等式2中,Eenroll表示从注册话语部分的音频信号计算的平均能量值,Etest表示从话语部分的音频信号计算的平均能量值,Er表示能量比。
在操作1209,电子设备1000可基于获得的能量比,调整在操作1208从包括在阈值表中的多个阈值中选择的用于用户认证的任何一个阈值。调整的阈值可用于与从话语部分的音频信号获得的用户特征矢量与从注册话语部分的音频信号获得的注册用户特征矢量之间的相似性进行比较来进行用户认证。
例如,电子设备1000可根据下面的等式3来调整阈值。
[等式3]
THfinal=THbase(1.0-we(1.0-Er)2)
在上面的等式3中,Er表示能量比,we表示能量比的加权系数,THbase表示从阈值表中选择的一个阈值,THfinal表示调整的阈值。例如,可基于包括在不同距离和不同环境条件下获得的多个音频信号的实验数据来设置能量比的加权系数we。
例如,电子设备1000可使用图11和图12的阈值调整方法中的至少一种来调整阈值。当使用图11和图12的两种阈值调整方法时,电子设备1000可根据下面的等式4结合等式1和等式3来调整阈值。
[等式4]
THfinal=THbase(1.0-ws(1.0-Sr)-we(1.0-Er)2)
另外,电子设备1000可将用户特征参数值用于去除电子设备1000的用户之间的认证性能针对多个用户的偏差。用户特征参数值是指应用于阈值以用于根据用户之间的音色差异来去除电子设备1000的认证性能的偏差的参数值。
例如,当与通用背景技术模型(UBM)(其是用于基于从多个用户输入的音频信号获得的通用语音的统计模型)相比时,第一用户的用户特征矢量与从UBM获得的平均用户特征矢量之间的相似性可相对低于第二用户的用户特征矢量与从UBM获得的平均用户特征矢量之间的相似性。也就是说,由于用户之间的音色差异,电子设备1000针对第一用户和第二用户的认证性能可能彼此不同。
为了去除认证性能方面的这种偏差,电子设备1000可获得针对特定用户获得的用户特征矢量与在用户注册处理期间从UBM获得的平均用户特征矢量之间的相似性,并且基于获得的相似性来设置针对相应用户的用户特征参数值。电子设备1000可通过使用设置的用户特征参数值来调整用于认证相应用户的阈值。例如,电子设备1000可将设置的用户特征参数值存储在针对相应用户的用户DB中。
另外,在其他实施例中,可由服务器2000执行对用户特征参数值的设置和基于设置的用户特征参数值对阈值的调整。稍后将参照图22和图23的实施例描述由服务器2000执行对用户特征参数值的设置和基于设置的用户特征参数值对阈值的调整的具体示例。
另外,电子设备1000可对注册用户特征矢量与用户特征矢量之间的相似性进行归一化,以针对多个用户去除电子设备1000的用户之间的认证性能的偏差。
例如,在电子设备1000中注册的第一用户在从第一用户的用户DB获得的用户特征矢量和从与第一用户的话语输入相应的输入音频信号101获得的用户特征矢量之间的相似性的平均值方面可相对低于第二用户。电子设备1000可对用户特征矢量之间的相似性进行归一化,以去除针对第一用户获得的用户特征矢量之间的相似性平均值与针对第二用户获得的用户特征矢量之间的相似性平均值之间的偏差。
例如,在用户A的用户注册之后,在用户A执行三次话语输入的同时,电子设备1000可从用户A DB获得注册用户特征矢量,并且从与用户A的话语输入相应的三个输入音频信号中的每一个获得用户特征矢量。
电子设备1000可获得从用户A DB获得的注册用户特征矢量与从三个输入音频信号获得的用户特征矢量之间的相似性。例如,从用户A DB获得的注册用户特征矢量与从三个输入音频信号获得的用户特征矢量之间的相似性可具有标量值0.20、标量值0.30和标量值0.25。
例如,电子设备1000可将通过计算作为用户特征矢量之间的相似性的0.20、0.30和0.25的平均值而获得的标量值0.25设置为用于对从用户A DB获得的注册用户特征矢量与从用户A的新的输入音频信号获得的注册用户特征矢量之间的相似性进行归一化的平均相似性。
当新的输入音频信号基于用户A的话语被获得,并且从新的输入音频信号获得的用户特征矢量与从用户A DB获得的注册用户特征矢量之间的相似性为标量值0.32时,电子设备1000可通过将0.32除以用户A的平均相似性0.25来将0.32归一化为标量值0.0128。
另外,另一个示例,在用户B的用户注册之后,在用户B执行三次话语输入的同时,电子设备1000可从用户B DB获得注册用户特征矢量,并且从与用户B的话语输入相应的三个输入音频信号中的每一个获得用户特征矢量。
电子设备1000可获得从用户B DB获得的注册用户特征矢量与从三个输入音频信号获得的用户特征矢量之间的相似性。例如,从用户A DB获得的注册用户特征矢量与从三个输入音频信号获得的用户特征矢量之间的相似性可具有标量值0.10、标量值0.20和标量值0.15。
例如,电子设备1000可将通过计算作为用户特征矢量之间的相似性的0.10、0.20和0.15的平均值获得的标量值0.15设置为用于对从用户B DB获得的注册用户特征矢量与从用户B的新的输入音频信号获得的注册用户特征矢量之间的相似性进行归一化的平均相似性。
当新的输入音频信号基于用户B的话语被获得,并且从新的输入音频信号获得的用户特征矢量与从用户B DB获得的注册用户特征矢量之间的相似性为标量值0.22时,电子设备1000可通过将0.22除以用户B的平均相似性0.15来将0.22归一化为标量值0.0147。
另外,电子设备1000可将设备特性参数值用于根据设备之间的音频信号处理性能的差异去除用户认证性能的偏差。设备特性参数值是指应用于阈值以用于根据设备之间的硬件特性的差异来去除电子设备1000的认证性能的偏差的参数值。
例如,不同类型的电子设备1000之间的音频信号处理性能根据每一个电子设备1000的硬件特性可彼此不同。电子设备1000的音频信号处理性能可根据例如包括在电子设备1000中的麦克风的数量、灵敏度、分辨率等而变化。
考虑到音频信号处理性能可根据电子设备1000的类型而变化,电子设备1000可使用设备特征参数值来去除由于设备之间的音频信号处理性能的差异而导致的用户认证性能的偏差。
另外,在其他实施例中,可由服务器2000执行从图12的获得话语部分的音频信号的操作1201至基于话语部分的平均能量与注册话语部分的平均能量之间的能量比来调整阈值的操作1209中的至少一个。
图13A是示出根据实施例的使用电子设备1000的环境的示图。
参照图13A,根据实施例的电子设备1000可以是智能电话1000A。
例如,智能电话1000A可从基于用户10在用户注册操作中的话语输入而获得的注册音频信号103获得输入的注册话语部分的音频信号1301。智能电话1000A可从输入的注册话语部分的音频信号1301获得注册用户特征矢量1302,并且将获得的注册用户特征矢量1302存储在用户DB 1311中。
例如,智能电话1000A可在用户注册操作中产生用户DB 1311,并且同时将指示产生用户DB 1311的电子设备1000的类型是智能电话1000A的电子设备ID信息存储在用户DB1311中。智能电话1000A可将例如用户DB 1311存储在智能电话1000A的存储器中。
图13B是示出根据实施例的使用多个电子设备的环境的示图。
另外,参照图13B,根据实施例的电子设备1000可以是人工智能(AI)扬声器1000B。
AI扬声器1000B可从智能电话1000A接收例如用户DB 1311。AI扬声器1000B可将从智能电话1000A接收的用户DB 1311存储在AI扬声器1000B的存储器中。
当用户10执行对AI扬声器1000B的话语输入时,AI扬声器1000B可基于用户10的话语输入获得输入音频信号101。
当输入音频信号101被获得时,AI扬声器1000B可从输入音频信号101获得话语部分的音频信号1303,并且从话语部分的音频信号1303获得用户特征矢量1304。
当输入音频信号101被获得时,AI扬声器1000B可从用户DB 1311获得注册用户特征矢量1305。
AI扬声器1000B可在操作1306获得用户特征矢量1304与注册用户特征矢量1305之间的相似性,在操作1307将获得的相似性与阈值进行比较,并且在操作1308处执行用户认证。
如上所述,当用户10使用多个电子设备1000时,每一个电子设备1000可基于从另一电子设备1000接收的用户DB来执行用户认证,因此用户10可通过针对任何一个电子设备1000的初始用户注册来获得与所有电子设备1000上执行的注册相同的结果。
另外,在其他实施例中,可由服务器2000执行图13A和图13B的针对用户10的用户注册和用户认证。
例如,在用户注册操作中,服务器2000可从智能电话1000A接收注册音频信号103,并且从接收到的注册音频信号103获得输入的注册话语部分的音频信号1301。服务器2000可从输入的注册话语部分的音频信号1301获得注册用户特征矢量1302,并且将获得的注册用户特征矢量1302存储在用户DB 1311中。
例如,服务器2000可在用户注册操作中产生用户DB 1311,并且同时将指示产生用户DB 1311的电子设备1000的类型是智能电话1000A的电子设备ID信息存储在用户DB 1311中。服务器2000可将例如用户DB 1311存储在服务器2000的存储器中。
当用户10执行对AI扬声器1000B的话语输入时,服务器2000可例如从AI扬声器1000B接收输入音频信号101。当输入音频信号101被获得时,服务器2000可从输入音频信号101获得话语部分的音频信号1303,并且从话语部分的音频信号1303获得用户特征矢量1304。
当输入音频信号101被获得时,服务器2000可从用户DB 1311获得注册用户特征矢量1305。
服务器2000可在操作1306获得用户特征矢量1304与注册用户特征矢量1305之间的相似性,在操作1307将获得的相似性与阈值进行比较,并且在操作1308执行用户认证。
像这样,当用户10使用所述多个电子设备1000时,服务器2000可基于相同的用户DB执行用户认证,因此用户10可通过针对任何一个电子设备1000的初始用户注册获得与在所有电子设备1000上执行的注册相同的结果。
另外,智能电话1000A和AI扬声器100B可以是不同类型的电子设备1000,并且根据例如包括在每一个设备中的麦克风的数量、灵敏度、分辨率等而变化。也就是说,智能电话1000A和AI扬声器1000B的音频信号处理性能可彼此不同。
使用根据实施例的用户认证方法的电子设备1000和/或服务器2000可使用设备特性参数值来去除由于电子设备1000之间的音频信号处理性能的差异而导致的用户认证性能的偏差。
图14是示出根据实施例的使用基于设备特性参数值的调整的阈值来认证用户的方法的流程图。
例如,可在不同类型的多个电子设备1000之间设置设备特性参数值。
例如,可在用户10的注册操作之前通过测量智能电话1000A与AI扬声器1000B的音频信号处理性能的差异来预先设置可由AI扬声器1000B所使用的设备特性参数值。
例如,智能电话1000A可基于用户的第一话语输入来获得第一音频信号。智能电话1000A可从第一音频信号获得用户特征矢量。智能电话1000A可获得从第一音频信号获得的用户特征矢量与参考用户特征矢量之间的相似性。例如,由智能电话1000A所获得的用户特征矢量之间的相似性可具有标量值0.99。
另外,AI扬声器1000B可基于用户的第一话语输入获得例如第二音频信号。AI扬声器1000B可从第二音频信号获得用户特征矢量。AI扬声器1000B可获得从第二音频信号获得的用户特征矢量与参考用户特征矢量之间的相似性。例如,由AI扬声器1000B所获得的用户特征矢量之间的相似性可具有标量值0.5。
例如,针对用户的相同的第一话语输入,可基于作为由智能电话1000A所获得的用户特征矢量之间的相似性0.99与由AI扬声器1000B所获得的用户特征矢量之间的相似性0.5的偏差的标量值0.49来设置设备特性参数值。
另外,智能电话1000A可在用户不执行话语输入的环境中获得例如第三音频信号。智能电话1000A可从第三音频信号获得环境特征矢量。智能电话1000A可获得从第三音频信号获得的环境特征矢量与参考环境特征矢量之间的相似性。例如,由智能电话1000A所获得的环境特征矢量之间的相似性可具有标量值0.98。
另外,AI扬声器1000B可在用户不执行话语输入的环境中获得例如第四音频信号。AI扬声器1000B可从第四音频信号获得环境特征矢量。AI扬声器1000B可获得从第四音频信号获得的环境特征矢量与参考环境特征矢量之间的相似性。例如,由AI扬声器1000B所获得的环境特征矢量之间的相似性可具有标量值0.5。
例如,针对用户不执行话语输入的相同环境,可基于作为由智能电话1000A所获得的环境特征矢量之间的相似性0.98与由AI扬声器1000B所获得的环境特征矢量之间的相似性0.5的偏差的标量值0.48来设置设备特性参数值。
对于另一示例,针对用户不执行话语输入的相同环境,可基于由智能电话1000A所获得的环境特征矢量与由AI扬声器1000B获得的环境特征矢量之间的相似性,来设置设备特性参数值。
对于另一示例,可通过在用户10的注册操作之后测量智能电话1000A与AI扬声器1000B的音频信号处理性能的差异来设置或更新可由AI扬声器1000B所使用的设备特性参数值。在这种情况下,用于设置或更新设备特性参数值的参考用户特征矢量和参考环境特征矢量可以是在用户注册操作中由智能电话1000A所获得的注册用户特征矢量和注册环境特征矢量。
参照图14,在操作S1401,已经获得输入音频信号101的AI扬声器1000B可从智能电话1000A接收注册用户特征矢量。
AI扬声器1000B可从智能电话1000A接收例如用户DB 1311。AI扬声器1000B可从自智能电话1000A接收的用户DB 1311获得注册用户特征矢量。
当输入音频信号101被获得时,AI扬声器1000B可从输入音频信号101获得话语部分的音频信号,并且从话语部分的音频信号提取用户特征矢量。
在操作S1402,AI扬声器1000B可获得注册用户特征矢量与从输入音频信号101提取出的用户特征矢量之间的相似性。
在操作S1403,AI扬声器1000B可基于AI扬声器1000B的设备特性参数值来调整用于用户认证的阈值。例如,AI扬声器1000B可基于从智能电话1000A接收的用户DB 1311中包括的电子设备ID信息来确认产生用户DB 1311的电子设备1000的类型是智能电话1000A。
已经确认产生用户DB 1311的电子设备1000的类型是智能电话1000A的AI扬声器1000B可基于响应于智能电话1000A和AI扬声器1000B的用户认证性能的差异而预先设置的设备特性参数值来调整例如用于用户认证的阈值。
另外,还考虑到相同类型的电子设备1000对于每一个实体在音频信号处理性能方面可具有差异,电子设备1000也可使用设备特性参数值来去除相同类型的电子设备1000之间的用户认证性能的变化。
可使用与上述设置用于去除不同类型的电子设备1000之间的用户认证性能的偏差的设备特性参数值的方法相同的方法来设置用于去除相同类型的电子设备1000之间的用户认证性能的变化的设备特性参数值。
例如,电子设备1000可根据下面的等式5来调整阈值。
[等式5]
THfinal=(THbase+THbias+THspk_bias)(1.0-ws(1.0-Sr)-we(1.0-Er)2)
在上面的等式5中,Er表示能量比,we表示能量比的加权系数,Sr表示环境特征矢量之间的相似性,ws表示环境特征矢量之间的相似性的加权系数,THbase表示从阈值表中选择的一个阈值,THspk_bias表示用户特征参数值,THfinal表示调整的阈值。
另外,在其他实施例中,可由服务器2000执行设备特性参数值的设置和基于设置的设备特性参数值的阈值的调整。稍后将参照图22和图23的实施例描述由服务器2000执行设备特性参数值的设置和基于设置的设备特性参数值的阈值的调整的具体示例。
图15是示出根据实施例的在用户注册操作中所使用的用户界面的示图。
参照图15,根据实施例的电子设备1000可在用户注册操作中在第一环境下基于用户A1510的话语输入来获得注册音频信号1503。
电子设备1000可从注册音频信号1503获得注册话语部分的音频信号1521。电子设备1000可从获得的注册话语部分的音频信号1521获得注册用户A特征矢量1541。
另外,电子设备1000可从注册音频信号1503获得注册非话语部分的音频信号1522。电子设备1000可从获得的注册非话语部分的音频信号1522获得注册环境特征矢量1542。
电子设备1000可基于从注册话语部分的音频信号1521获得的注册用户A特征矢量1541和从注册非话语部分的音频信号1522获得的注册环境特征矢量1542来产生用户A DB1511。
例如,电子设备1000可在产生用户A DB 1511的处理时在电子设备1000的显示器上显示与用户注册操作相关的界面。
例如,电子设备1000可从第一环境的用户A 1510接收与注册音频信号1503相应的话语输入,从而通过界面显示产生用户A DB 1511所必需的注册话语部分的音频信号1521被正常获得。
对于另一示例,电子设备1000可从第一环境的用户A 1510接收与注册音频信号1503相应的话语输入,从而通过用户界面显示产生用户A DB 1511所必需的特征矢量1541被正常获得。
例如,当在第一环境下从用户A 1510多次接收与注册音频信号1503相应的话语输入时,电子设备1000可在操作1561和操作1581通过用户界面逐步显示指示注册用户A特征矢量1541的正常获得次数的消息或量表中的至少一个。
另外,例如,电子设备1000从第一环境的用户A 1510接收与注册音频信号1503相应的话语输入,从而显示产生用户A DB 1511所必需的注册非话语部分的音频信号1522被正常获得。
对于另一示例,电子设备1000可从第一环境的用户A 1510接收与注册音频信号1503相应的话语输入,从而通过用户界面显示产生用户A DB 1511所需的注册环境特征矢量1542被正常获得。
例如,当在第一环境下从用户A 1510多次接收与注册音频信号1503相应的话语输入时,电子设备1000可在操作1562和操作1582通过用户界面逐步显示指示注册环境特征矢量1542的正常获得次数的消息或量表中的至少一个。
图16是示出根据实施例的在用户认证处理时所使用的用户界面的示图。
参照图16,根据实施例的电子设备1000可在用户认证操作中在第二环境下基于用户A1510的话语输入来获得输入音频信号1501。
电子设备1000可从输入音频信号1501获得话语部分的音频信号1531。电子设备1000可从获得的话语部分的音频信号1531中提取用户A特征矢量1551。
当输入音频信号1501被获得时,电子设备1000可从先前在用户注册操作中产生的用户A DB 1511获得注册用户A特征矢量1541。
电子设备1000可获得从话语部分的音频信号1531提取出的用户A特征矢量1551与从用户A DB 1511获得的注册用户A特征矢量1541之间的相似性,并且对用户A 1510执行认证。
例如,电子设备1000可在对用户A 1510执行认证的处理时在电子设备1000的显示器上显示与用户认证处理相关的界面。例如,电子设备1000可在操作1661和操作1681通过界面显示针对用户A 1510的认证结果。
另外,电子设备1000可从输入音频信号1501获得非话语部分的音频信号1532。电子设备1000可从获得的非话语部分的音频信号1532中提取环境特征矢量1552。
当输入音频信号1501被获得时,电子设备1000可从先前在用户注册操作中产生的用户A DB 1511获得注册环境特征矢量1542。
电子设备1000可获得从非话语部分的音频信号1532提取出的环境特征矢量1552与从用户A DB 1511获得的注册环境特征矢量1542之间的相似性,并且确定第一环境和第二环境之间的相似程度。
例如,电子设备1000可通过界面显示针对第一环境和第二环境之间的相似程度的确定结果。
例如,电子设备1000可以在操作1662和操作1682以级别为单位显示环境特征矢量1552与注册环境特征矢量1542之间的相似程度。例如,电子设备1000可将环境特征矢量1552与注册环境特征矢量1542之间的相似程度显示为具有最低相似程度的级别1和具有最高相似程度的级别5之间的任何一个级别。
例如,电子设备1000可基于环境特征矢量1552与注册环境特征矢量1542之间的相似程度,在用户界面上显示请求用户A 1510再次对输入音频信号1501进行输入的消息。
例如,作为将环境特征矢量1552与注册环境特征矢量1542进行比较的结果,电子设备1000可确定环境特征矢量1552与注册环境特征矢量1542之间的相似程度低于特定参考水平。
基于确定的结果,在操作1682,电子设备1000可在用户界面上显示请求用户A1510在除第二环境之外的环境下再次执行话语输入的消息“请在另一处地方再说一遍”。
图17是示出根据实施例的针对多个用户的用户注册操作的示图。
参照图17,根据实施例的电子设备1000可在用户注册过程期间在第一环境中基于用户A 1510的话语输入来获得注册音频信号1503。
电子设备1000可从注册音频信号1503获得注册话语部分的获得的音频信号1521。电子设备1000可从获得的注册话语部分的音频信号1521中提取注册用户A特征矢量1541。
另外,电子设备1000可从注册音频信号1503获得注册非话语部分的音频信号1522。电子设备1000可从获得的注册非话语部分的音频信号1522获得注册环境特征矢量1542。
电子设备1000可基于从注册话语部分的音频信号1521获得的注册用户A特征矢量1541和从注册非话语部分的音频信号1522获得的注册环境特征矢量1542来产生用户A DB1511。
例如,电子设备1000可从第一环境的用户A 1510接收与注册音频信号1503相应的话语输入,从而通过界面显示注册用户A特征矢量1541和注册环境特征矢量1542被正常获得。
例如,在操作1761和操作1762,在第一环境中从用户A 1510接收五次与注册音频信号1503相应的话语输入的电子设备1000可通过用户界面显示指示注册用户A特征矢量1541和注册环境特征矢量1542的获得次数的量表或指示注册完成的消息中的至少一个。
再次参照图17,根据实施例的电子设备1000可在用户注册处理期间在第二环境中基于用户B 1710的话语输入来获得注册音频信号1703。
电子设备1000可从注册音频信号1703获得注册话语部分的音频信号1721。电子设备1000可从获得的注册话语部分的音频信号1721中提取注册用户B特征矢量1741。
另外,电子设备1000可从注册音频信号1703获得注册非话语部分的音频信号1722。电子设备1000可从获得的注册非话语部分的音频信号1722获得注册环境特征矢量1742。
电子设备1000可基于从注册话语部分的音频信号1721获得的注册用户B特征矢量1741和从注册非话语部分的音频信号1722获得的注册环境特征矢量1742来产生用户B DB1711。
例如,电子设备1000可从第二环境的用户B 1710接收与注册音频信号1703相应的话语输入,从而通过界面显示注册用户B特征矢量1741和注册环境特征矢量1742被正常获得。
例如,在操作1781和操作1782,在第二环境中从用户B 1710接收五次与注册音频信号1703相应的话语输入的电子设备1000可通过用户界面显示指示注册用户B特征矢量1741和注册环境特征矢量1742的获得次数的量表或指示注册完成的消息中的至少一个。
图15、图16和图17示出电子设备1000通过消息和量表在界面上显示关于获得用户特征矢量和环境特征矢量的信息的实施例,但是除了消息和量表之外,还可通过诸如符号、句子、颜色和语音的信息发送方式发送关于获得用户特征矢量和环境特征矢量的信息,并且实施例不限于此。
图18是示出根据实施例的基于多个用户的会话的用户认证过程的示图。
参照图17和图18,根据实施例的电子设备1000可在除了执行针对用户A 1510和用户B 1710中的每一个的用户注册的第一环境和第二环境之外的第三环境中,基于通过用户A 1510与用户B 1710之间的对话的话语输入来执行用户认证。
也就是说,在实施例中,电子设备1000从用户A 1510和用户B 1710接收话语输入的第一环境和第二环境可以是不同的环境,并且电子设备1000接收通过用户A 1510与用户B 1710之间的对话的话语输入的第三环境也可与第一环境和第二环境不同。
例如,电子设备1000可从基于通过用户A 1510与用户B 1710之间的对话的话语输入而获得的输入音频信号1801中区分并获得A与B对话话语部分的音频信号1831以及A与B对话非话语部分的音频信号1832。A与B对话话语部分的音频信号1831可包括例如由用户A1510说出的音频信号或由用户B 1710说出的音频信号中的至少一个。
电子设备1000可从A与B对话话语部分的音频信号1831中提取音频特征,并且从提取出的音频特征获得用户特征矢量1851。
在操作1810,电子设备1000可将针对A与B对话话语部分的音频信号1831获得的用户特征矢量1851与从用户A DB 1511获得的注册用户A特征矢量1541和从用户B DB1711获得的注册用户B特征矢量1741中的每一个进行比较,以计算相似性。
例如,电子设备1000可以以A与B对话话语部分的音频信号1831中包括的特定帧为单位从音频信号获得用户特征矢量1851。电子设备1000可将获得的用户特征矢量1851与注册用户A特征矢量1541和注册用户B特征矢量1741中的每一个进行比较,以获得与注册用户B特征矢量的相似性1871和与注册用户B特征矢量的相似性1872。
对于另一示例,电子设备1000可从A与B对话话语部分的音频信号1631中包括的话语单元的音频信号获得用户特征矢量1651。电子设备1000可将获得的用户特征矢量1851与注册用户A特征矢量1541和注册用户B特征矢量1741中的每一个进行比较,以获得与注册用户A特征矢量的相似性1871和与注册用户B特征矢量的相似性1872。
另外,电子设备1000可从A与B对话非话语部分的音频信号1832中提取音频特征,并且从提取出的音频特征获得环境特征矢量1852。
例如,电子设备1000可将针对A与B对话非话语部分的音频信号1832获得的环境特征矢量1852与从用户A DB 1511获得的用户A的注册环境特征矢量1542进行比较,以获得相似性。
电子设备1000可基于环境特征矢量1852与用户A的注册环境特征矢量1542之间的相似性来调整从阈值表1840中选择的任何一个阈值,以获得针对用户A 1510调整的阈值1881。
另外,例如,电子设备1000可将针对A与B对话非话语部分的音频信号1832获得的环境特征矢量1852与从用户B DB1711获得的用户B的注册环境特征矢量1742进行比较,以获得相似性。
电子设备1000可基于环境特征矢量1852与用户B的注册环境特征矢量1742之间的相似性来调整从阈值表1840中选择的任何一个阈值,并且获得针对用户B 1710调整的阈值1882。
在操作1890,电子设备1000可通过针对每一个用户将与注册用户B特征矢量的相似性1871与调整的阈值以及与注册用户B特征矢量的相似性1872与调整的阈值进行比较来执行用户认证。
例如,电子设备1000可通过将获得的与注册用户A特征矢量的相似性1871和与注册用户B特征矢量的相似性1872进行比较来执行用户识别。也就是说,电子设备1000可确定用户A 1510和用户B 1710之间的哪个用户的话语输入相应于与用户特征矢量1851相应的音频信号。
例如,电子设备1000可基于用户识别结果对用户A 1510和用户B 1710执行用户认证。
例如,当确定与用户特征矢量1851相应的音频信号与用户A 1510的话语输入相应时,电子设备1000可通过将针对用户特征矢量1851的与注册用户A特征矢量的相似性1871与针对用户A 1510的调整的阈值1881进行比较来对用户A 1510执行认证。
例如,当确定与用户特征矢量1851相应的音频信号与用户B 1710的话语输入相应时,电子设备1000可通过将针对用户特征矢量1651的与注册用户B特征矢量的相似性1872与针对用户B 1710的调整的阈值1882进行比较来对用户B 1710执行认证。
像这样,针对输入音频信号的多个用户,使用根据实施例的用户认证方法的电子设备1000和/或服务器2000可基于与每一个用户的注册环境相应的环境特征矢量来单独调整用于对每一个用户进行认证的阈值,从而防止由于每一个用户的用户注册环境的差异而导致的用户认证性能的劣化。
另一方面,在其他实施例中,可由服务器2000执行图18的基于在第三环境中通过用户A 1510与用户B 1710之间的对话的话语输入的用户认证操作中的至少一个。
图19是示出根据实施例的使用调整的阈值来认证用户的方法的流程图。
在操作S1901,电子设备1000可从阈值表中选择任何一个阈值。
在操作S1902,电子设备1000可基于根据图11至图14的实施例的阈值调整方法中的至少一种阈值调整方法来调整从阈值表中选择的任何一个阈值。
在操作S1903,电子设备1000可将从输入音频信号101的话语部分的音频信号获得的用户特征矢量与从注册音频信号103的注册话语部分的音频信号获得的注册用户特征矢量之间的相似性与在操作S1902中调整的阈值进行比较。
作为比较的结果,当计算出的相似性大于或等于预设阈值时,在操作S1904,电子设备1000可批准用户认证。
例如,当计算的相似性大于或等于预设阈值时,电子设备1000可确定执行与注册音频信号103相应的话语输入的用户和执行与输入音频信号101相应的话语输入的用户是相同用户并批准用户认证。
相反,作为比较的结果,当计算出的相似性小于预设阈值时,在操作S1905,电子设备1000可拒绝用户认证。
例如,当计算出的相似性小于预设阈值时,电子设备1000可确定执行与注册音频信号103相应的话语输入的用户和执行与输入音频信号101相应的话语输入的用户不是同一用户并拒绝用户认证。
另外,在其他实施例中,可由服务器2000执行图19的操作S1901的阈值选择、操作S1904的用户认证批准或操作S1905的用户认证拒绝中的至少一个。
图20是根据实施例的电子设备1000的配置的框图。
参照图20,根据实施例的电子设备1000可包括处理器2001、用户输入接口2002、通信器2003、存储器2004、麦克风2005、扬声器2006和显示器2007。
用户输入接口2002可接收用于控制电子设备1000的操作的用户输入。例如,用户输入接口2002可包括键盘、麦克风、圆顶开关、触摸板(例如接触电容型、压阻型、红外线检测型、表面超声波传导型、整体张力测量型、压电效应型等)、滚轮、滚轮开关等,但本公开不限于此。
通信器2003可包括用于与服务器进行通信的一个或更多个通信模块。例如,通信器2003可包括短距离无线通信器或移动通信器中的至少一个。
短距离无线通信器可包括蓝牙通信器、蓝牙低功耗(BLE)通信器、近场通信器、WLAN通信器、WLAN(WiFi)通信器、Zigbee通信器、红外数据协会(IrDA)通信器、Wi-Fi直连(WFD)通信器、超宽带(UWB)通信器、Ant+通信器等,但本公开不限于此。
移动通信器可在移动通信网络上将无线电信号发送到基站、外部终端或服务器中的至少一个以及从基站、外部终端或服务器中的至少一个接收无线电信号。这里,无线电信号可包括根据语音呼叫信号、视频呼叫信号或文本/多媒体消息发送/接收的各种类型的数据。
存储器2004可存储用于控制电子设备1000的操作的程序。存储器2004可包括用于控制电子设备1000的操作的至少一个指令。存储在存储器2004中的程序可根据其功能被分类为多个模块。
存储器2004可存储例如与注册用户相应的用户DB。用户DB可包括例如注册音频信号、与输入注册音频信号的用户相应的注册用户特征矢量或指示接收与注册音频信号相应的话语输入的环境的注册环境特征矢量中的至少一个。
存储器2004可存储例如用于将音频信号区分为话语部分的音频信号和非话语部分的音频信号的AM、用于从话语部分的音频信号获得用户特征矢量的DNN模型、用于从用户特征矢量中去除环境分量的DNN模型、用于获得环境特征矢量的DNN模型等。
存储器2004可存储例如包括用于用户认证的多个阈值的阈值表和用于更新用户DB的阈值表。
例如,存储器120可包括闪存型、硬盘型、多媒体卡微型、卡型存储器(例如,SD或XD存储器等)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘或光盘中的至少一种类型的存储介质,但不限于此。
麦克风2005可接收电子设备1000周围的声音。当用户执行话语输入时,通过麦克风2005输入的声音可包括例如用户的语音或电子设备1000周围的噪声中的至少一个。
扬声器2006可将从通信器2003接收的或存储在存储器2004中的音频信号输出为声音。扬声器2006可将与由电子设备1000所执行的功能相关的信号(例如,呼叫信号接收声音、消息接收声音和通知声音)输出为声音。
显示器2007可显示和输出由电子设备1000所处理的信息。例如,显示器2007可显示用于控制电子设备1000的界面、用于显示电子设备1000的状态的界面等。
显示器2007可显示例如执行用户认证的结果(即,针对用户认证批准和用户认证拒绝的结果消息)。
另外,如果显示器2007和触摸板被构造为例如层结构中的触摸屏,则显示器2007除了被用作输出设备之外,还可被用作输入设备。
处理器2001通常可控制电子设备1000的整体操作。例如,处理器2001通常可通过执行存储在存储器2004中的程序来控制用户输入接口2002、通信器2003、存储器2004、麦克风2005、扬声器2006和显示器2007。
处理器2001可基于用户10的话语输入来获得输入音频信号。处理器2001可从输入音频信号将话语部分的至少一个音频信号和非话语部分的至少一个音频信号进行区分。
处理器2001可基于非话语部分的音频信号产生指示接收话语输入的情况的环境信息。处理器2001可基于产生的环境信息与注册环境信息的比较结果来调整用于认证用户10的认证标准,其中,所述注册环境信息指示接收与先前注册的针对用户10的注册音频信号相应的话语输入的环境。处理器2001可基于调整的认证标准和输入音频信号来认证用户10。
处理器2001可将输入音频信号划分为预设的帧单元,提取划分出的帧的音频特征,并且基于提取出的音频特征区分或获得划分出的帧之中的与话语部分相应的帧和与非话语部分相应的帧。处理器2001可通过使用与非话语部分相应的帧的音频特征来产生环境信息。
处理器2001可获得先前注册的注册音频信号以认证用户,从注册音频信号获得注册话语部分的音频信号,并且将话语部分的音频信号与获得的注册话语部分的音频信号进行比较以认证用户。
例如,注册音频信号可包括注册话语部分的至少一个音频信号和注册非话语部分的至少一个音频信号,并且注册非话语部分的音频信号可被用于产生指示接收与注册音频信号相应的话语输入的情况的注册环境信息。
处理器2001可调整话语部分的音频信号与注册话语部分的音频信号之间的相似性的阈值。
处理器2001可从预设阈值表中选择与话语部分的长度和注册话语部分的长度相应的任何一个阈值,并且基于环境信息和注册环境信息的比较结果来调整选择的阈值。
处理器2001可基于与环境信息相应的矢量和与注册环境信息相应的矢量之间的相似性来调整选择的阈值。
根据实施例的处理器2001可例如执行AI操作。处理器2001可以是例如中央处理器(CPU)、图形处理器(GPU)、神经处理单元(NPU)、现场可编程门阵列(FPGA)和专用集成电路(ASIC)中的任何一个,但不限于此。
图21是示出根据实施例的服务器2000的配置的框图。
根据实施例的用户认证方法可由电子设备1000和/或通过有线或无线通信连接到电子设备1000的服务器2000来执行。
参照图21,根据实施例的服务器2000可包括通信器2101、处理器2102和存储器2103。
稍后将参照图22和图23描述由电子设备1000和通过有线或无线通信连接到电子设备1000的服务器2000执行根据实施例的用户认证方法的具体示例。
通信器2101可包括用于与电子设备1000进行通信的一个或更多个通信模块。例如,通信器2101可包括短距离无线通信器或移动通信器中的至少一个。
短距离无线通信器可包括蓝牙通信器、蓝牙低功耗(BLE)通信器、近场通信器、WLAN通信器、WLAN(WiFi)通信器、Zigbee通信器、红外数据协会(IrDA)通信器、Wi-Fi直连(WFD)通信器、超宽带(UWB)通信器、Ant+通信器等,但本公开不限于此。
移动通信器可在移动通信网络上将无线电信号发送到基站、外部终端或服务器中的至少一个以及从基站、外部终端或服务器中的至少一个接收无线电信号。这里,无线电信号可包括根据语音呼叫信号、视频呼叫信号或文本/多媒体消息发送/接收的各种类型的数据。
存储器2103可存储用于控制服务器2000的操作的程序。存储器2103可包括用于控制服务器2000的操作的至少一个指令。
存储器2103可存储例如与注册用户相应的用户DB。用户DB可包括例如注册音频信号、与输入注册音频信号的用户相应的注册用户特征矢量或指示接收与注册音频信号相应的话语输入的环境的注册环境特征矢量中的至少一个。
存储器2103可存储例如用于将音频信号区分为话语部分的音频信号和非话语部分的音频信号的AM、用于从话语部分的音频信号获得用户特征矢量的DNN模型、用于从用户特征矢量中去除环境分量的DNN模型、用于获得环境特征矢量的DNN模型等。
存储器2103可存储例如包括用于用户认证的多个阈值的阈值表和用于更新用户DB的阈值表。
处理器2102通常可控制服务器2000的整体操作。例如,处理器2102通常可通过执行存储在存储器2103中的程序来控制通信器2101和存储器2103。
处理器2102可基于用户10的话语输入来获得输入音频信号。处理器2102可从输入音频信号将话语部分的至少一个音频信号和非话语部分的至少一个音频信号进行区分。
处理器2102可基于非话语部分的音频信号产生指示接收话语输入的情况的环境信息。处理器2102可基于产生的环境信息与注册环境信息的比较结果来调整用于认证用户10的认证标准,其中,所述注册环境信息指示接收到与先前注册的针对用户10的注册音频信号相应的话语输入的环境。处理器2102可基于调整的认证标准和输入音频信号来认证用户10。
处理器2102可将输入音频信号划分为预设的帧单元,提取划分出的帧的音频特征,并且基于提取出的音频特征,区分或获得划分出的帧中与话语部分相应的帧和与非话语部分相应的帧。处理器2102可通过使用与非话语部分相应的帧的音频特征来产生环境信息。
处理器2102可获得先前注册的注册音频信号以认证用户10,从注册音频信号获得注册话语部分的音频信号,并且将话语部分的音频信号与获得的注册话语部分的音频信号进行比较以认证用户10。
例如,注册音频信号可包括注册话语部分的至少一个音频信号和注册非话语部分的至少一个音频信号,并且注册非话语部分的音频信号可被用于产生指示接收到与注册音频信号相应的话语输入的情况的注册环境信息。
处理器2102可调整话语部分的音频信号与注册话语部分的音频信号之间的相似性的阈值。
处理器2102可从预设阈值表中选择与话语部分的长度和注册话语部分的长度相应的任何一个阈值,并且基于环境信息与注册环境信息的比较结果来调整所选择的阈值。
处理器2102可基于与环境信息相应的矢量和与注册环境信息相应的矢量之间的相似性来调整选择的阈值。
根据实施例的处理器2102可例如执行AI操作。处理器2102可以是例如CPU、GPU、NPU、FPGA和ASIC中的任何一个,但不限于此。
图22是示出根据实施例的由电子设备1000所执行的通过服务器2000执行用户认证的方法的流程图。
参照图22,在操作S2201,电子设备1000可基于用户的话语输入来获得输入音频信号101。在操作S2202,电子设备1000可将获得的输入音频信号101发送到服务器2000。
在操作S2203,从电子设备1000接收输入音频信号101的服务器2000可从输入音频信号101获得话语部分的至少一个音频信号和非话语部分的至少一个音频信号。
例如,服务器2000可将输入音频信号101划分为预设的帧单元。服务器2000可从被划分为帧单元的输入音频信号101区分并获得话语部分的音频信号和非话语部分的音频信号。
在操作S2204,服务器2000可基于获得的非话语部分的音频信号,获得指示接收到与输入音频信号101相应的话语输入的情况的环境信息。
例如,服务器2000可从非话语部分的音频信号获得环境特征矢量作为指示接收到与输入音频信号101相应的话语输入的环境的环境信息。
例如,服务器2000可从先前在用户注册操作中存储的用户DB获得环境特征矢量作为指示接收到与注册音频信号103相应的话语输入的环境的环境信息。
在操作S2205,服务器2000可基于产生的环境信息来调整用于认证用户的认证标准。
例如,服务器2000可基于环境特征矢量与注册环境特征矢量之间的相似性来调整从阈值表中选择的任何一个阈值以认证用户。
另外,例如,服务器2000可基于用户特征参数矢量来调整从阈值表中选择的任何一个阈值以认证用户。
例如,服务器2000可获得针对特定用户获得的用户特征矢量与在用户注册操作期间从UBM获得的平均用户特征矢量之间的相似性,并且基于获得的相似性来设置针对相应用户的用户特征参数值。例如,服务器2000可针对相应用户将设置的用户特征参数值存储在用户DB中。
服务器2000可基于从先前存储的用户DB获得的用户特征参数矢量来调整从阈值表中选择的任何一个阈值。
另外,例如,服务器2000可基于设备特征参数矢量来调整从阈值表中选择的任何一个阈值以认证用户。
例如,服务器2000可在用户注册操作中产生用户DB,并且同时存储用于识别获得注册音频信号的电子设备的电子设备ID信息。
例如,当从获得输入音频信号的电子设备获得的电子设备ID信息与从获得注册音频信号的电子设备获得的电子设备ID信息不匹配时,服务器2000可基于与获得输入音频信号的电子设备相应的设备特性参数值和获得注册音频信号的电子设备相应的设备特性参数值来调整从阈值表中选择的任何一个阈值。
可例如在用户注册操作之前通过测量电子设备之间的音频信号处理性能的差异来预先设置可由服务器2000所使用的设备特性参数值。
在参照图14的本公开的实施例的配置进行描述时,例如,服务器2000可接收由智能电话1000A基于用户的第一话语输入获得的第一音频信号。服务器2000可从第一音频信号获得用户特征矢量。服务器2000可获得从第一音频信号获得的用户特征矢量与参考用户特征矢量之间的相似性。
例如,服务器2000可接收由AI扬声器1000B基于用户的话语输入获得的第二音频信号。服务器2000可从第二音频信号获得用户特征矢量。服务器2000可获得从第二音频信号获得的用户特征矢量与参考用户特征矢量之间的相似性。
例如,针对用户的相同的第一话语输入,服务器2000可基于从第一音频信号获得的用户特征矢量与参考用户特征矢量之间的相似性和从第二音频信号获得的用户特征矢量与参考用户特征矢量之间的相似性的偏差来设置设备特性参数值。
另外,服务器2000可在用户不执行话语输入的环境中获得例如由智能电话1000A所获得的第三音频信号。服务器2000可从第三音频信号获得环境特征矢量。服务器2000可获得从第三音频信号获得的环境特征矢量与参考环境特征矢量之间的相似性。
另外,服务器2000可接收例如在用户不执行话语输入的环境中由AI扬声器1000B所获得的第四音频信号。服务器2000可从第四音频信号获得环境特征矢量。服务器2000可获得从第四音频信号获得的环境特征矢量与参考环境特征矢量之间的相似性。
例如,针对用户不执行话语输入的相同环境,服务器2000可基于从第三音频信号获得的环境特征矢量与参考环境特征矢量之间的相似性和从第四音频信号获得的环境特征矢量与参考环境特征矢量之间的相似性的偏差来设置设备特性参数值。
对于另一示例,针对用户不执行话语输入的相同环境,服务器2000可基于从第三音频信号获得的环境特征矢量和从第四音频信号获得的环境特征矢量之间的相似性来设置设备特性参数值。
另一个示例,可通过在用户的注册操作之后测量智能电话1000A和AI扬声器1000B的音频信号处理性能的差异来设置或更新可由服务器2000所使用的设备特性参数值。在这种情况下,用于设置或更新设备特性参数值的参考用户特征矢量和参考环境特征矢量可以是由服务器2000在用户注册操作中获得的注册用户特征矢量和注册环境特征矢量。
在操作S2206,服务器2000可基于调整的认证标准和音频信号来认证用户。
例如,服务器2000可基于从用户DB获得的注册用户特征矢量与从话语部分的音频信号获得的用户特征矢量来执行用户认证。例如,服务器2000可获得注册用户特征矢量与用户特征矢量之间的相似性,并且将获得的相似性与调整的阈值进行比较以执行用户认证。
在操作S2207,服务器2000可将用户认证的结果发送到电子设备1000。
在操作S2208,电子设备1000可输出从服务器2000接收的用户认证的结果。
例如,电子设备1000可通过扬声器2006或显示器2007中的至少一个将用户认证的结果输出为声音或图像来将用户认证的结果发送给用户。
图23是示出根据实施例的由服务器2000所执行的通过电子设备1000执行用户认证的方法的流程图。
参照图23,在操作S2301,电子设备1000可基于用户的话语输入来获得输入音频信号101。在操作S2302,电子设备1000可从输入音频信号101获得话语部分的至少一个音频信号和非话语部分的至少一个音频信号。
例如,电子设备1000可将输入音频信号101划分为预设的帧单元。服务器2000可从被划分为帧单元的输入音频信号101中区分并获得话语部分的音频信号和非话语部分的音频信号。
在操作S2303,电子设备1000可基于获得的非话语部分的音频信号,获得指示接收到与输入音频信号101相应的话语输入的情况的环境信息。
例如,电子设备1000可从非话语部分的音频信号获得环境特征矢量作为指示接收到与输入音频信号101相应的话语输入的环境的环境信息。
在操作S2304,电子设备1000可将话语部分的音频信号、非话语部分的音频信号和环境信息发送到服务器2000。例如,电子设备1000可将从非话语部分的音频信号获得的环境特征矢量发送到服务器2000。
例如,服务器2000可从先前在用户注册操作中存储的用户DB获得环境特征矢量作为指示接收到与注册音频信号103相应的话语输入的环境的环境信息。
在操作S2305,服务器2000可基于从电子设备1000接收的环境信息来调整用于认证用户的认证标准。
例如,服务器2000可基于从非话语部分的音频信号获得的环境特征矢量与从用户DB获得的注册环境特征矢量之间的相似性来调整从阈值表中选择的任何一个阈值以认证用户。
另外,例如,服务器2000可基于用户特征参数矢量来调整从阈值表中选择的任何一个阈值以认证用户。
另外,例如,服务器2000可基于设备特征参数矢量来调整从阈值表中选择的任何一个阈值以认证用户。
由服务器2000所执行的基于用户特征参数值和设备特征参数值调整阈值的具体方法可与由上述图22的服务器2000执行的调整阈值的方法相同,因此省略其详细描述。
在操作S2306,服务器2000可基于调整的认证标准和音频信号来认证用户。
例如,服务器2000可基于从用户DB获得的注册用户特征矢量和从话语部分的音频信号获得的用户特征矢量来执行用户认证。例如,服务器2000可获得注册用户特征矢量与用户特征矢量之间的相似性,并且将获得的相似性与调整的阈值进行比较以执行用户认证。
在操作S2307,服务器2000可将用户认证的结果发送到电子设备1000。
在操作S2308,电子设备1000可输出从服务器2000接收的用户认证的结果。
例如,电子设备1000可通过扬声器2006或显示器2007中的至少一个将用户认证的结果输出为声音或图像来将用户认证的结果发送给用户。
图24是示出根据实施例的由电子设备1000和服务器2000所执行的执行用户识别和用户认证的方法的流程图。
参照图24,根据实施例的电子设备1000可基于用户24的话语输入来获得输入音频信号101,并且在操作2401对输入音频信号101执行预处理。对输入音频信号101的预处理可包括从输入音频信号101提取音频特征的处理。
电子设备1000可从执行了预处理的输入音频信号101检测唤醒句子,并且在操作2402基于检测到的唤醒句子开始对用户24的认证处理。例如,电子设备1000可确定特定关键词是否被包括并从输入音频信号101检测唤醒句子。
例如,电子设备1000可首先使用第一唤醒模块通过语音端点检测(VAD)方法来检测用户24的语音。例如,电子设备1000可将第一唤醒模块设置为使用低功率驱动方法的常开状态。
电子设备1000可使用第一唤醒模块连续地检测用户24的话语输入,从而确定用户24的语音是否被包括在与话语输入相应的输入音频信号101中。
当确定用户24的语音被包括在输入音频信号101中时,例如,电子设备1000可使用第一唤醒模块确定关键词是否被包括在输入音频信号101中。
作为使用第一唤醒模块的确定的结果,当确定关键词被包括在输入音频信号101中时,电子设备1000可激活第二唤醒模块。电子设备1000可使用第二唤醒模块再次确定关键词是否被包括在输入音频信号101中。
例如,电子设备1000可通过使用关键词检测模型的第二唤醒模块来确定音频信号是否包括关键词。稍后将参照图25描述由第二唤醒模块所使用的关键词检测模型的特定训练方法的示例。
当唤醒句子从输入音频信号101被检测到时,在操作2403,电子设备1000可基于多个用户DB 2404对输入音频信号的用户24执行用户识别。
电子设备1000可使用例如输入音频信号101的至少一部分和所述多个用户DB2404来执行用户识别。
例如,电子设备1000可获得与作为输入音频信号101的至少一部分的唤醒句子相应的用户特征矢量,并且将获得的用户特征矢量与从多个用户DB 2404中的每一个获得的用户特征矢量进行比较以计算相似性。
对于另一示例,电子设备1000可将从整个输入音频信号101获得的用户特征矢量与从多个用户DB 2404中的每一个获得的用户特征矢量进行比较,以计算相似性。
例如,电子设备1000可使用用于获得用户特征矢量的DNN模型从输入音频信号101的至少一部分或全部获得用户特征矢量。
例如,电子设备1000可确认包括具有最高相似性的用户特征矢量的用户DB是用户ADB,并且识别执行与输入音频信号101相应的话语输入的用户24是用户A。
另外,当完成电子设备1000的用户识别时,服务器2000可从电子设备1000接收输入音频信号101和用户识别结果。
例如,服务器2000可从电子设备1000接收在操作2401被执行预处理的输入音频信号101和用户识别结果。对于另一示例,服务器2000可从电子设备1000接收未被执行预处理的输入音频信号101和用户识别结果。
在操作2405,服务器2000可基于从电子设备1000接收到的用户识别结果来执行账户认证。例如,当电子设备1000将执行与输入音频信号101相应的话语输入的用户24确定为用户A时,服务器2000可对用户A执行账户认证。
存储在服务器2000中的多个用户DB 2406可包括由电子设备1000所使用的多个用户DB 2404。服务器2000可通过对用户A的账户认证从存储在服务器2000中的所述多个用户DB 2406获得用户A DB。
在操作2407,服务器2000可基于从电子设备1000接收到的输入音频信号101和从所述多个用户DB 2406获得的用户DB对输入音频信号101的所有句子执行自动语音识别(ASR)。
作为针对每一个注册用户使用个性化语言模型(PLM)的ASR的结果,服务器2000可区分和识别输入音频信号101中包括的唤醒语句和用于执行特定功能的语句。
在操作2408,服务器2000可基于从电子设备1000接收到的输入音频信号101和从所述多个用户DB 2406获得的用户A DB来执行用户认证。服务器2000可通过上面参照图1至图23所描述的本公开的用户认证方法对输入音频信号101执行用户认证。
例如,服务器2000可使用用于获得用户特征矢量的DNN模型从输入音频信号101的至少一部分或全部获得用户特征矢量。
例如,服务器2000可使用用于获得用户特征矢量的DNN模型从输入音频信号101的至少一部分或全部获得用户特征矢量。由服务器2000使用的用于获得用户特征矢量的DNN模型可例如与由电子设备1000使用的用于获得用户特征矢量的DNN模型相同或不同。
服务器2000可基于获得的用户特征矢量与从获得的用户A DB获得的注册用户特征矢量之间的相似性来执行用户认证。例如,服务器2000可将获得的用户特征矢量与从获得的用户A DB获得的所获得的注册用户特征矢量之间的相似性与阈值进行比较,并且确定执行与输入音频信号101相应的话语输入的用户24是否与用户A相应。
另外,在操作2408,服务器2000可根据用户认证的结果来确定用户识别结果与用户认证结果是否相匹配。例如,当电子设备1000将执行与输入音频信号101相应的话语输入的用户24确定为用户A时,在操作2409,服务器2000可通过用户认证结果来确定执行与输入音频信号101相应的话语输入的用户24在实际上是否与用户A相应。
作为操作2409的确定的结果,当执行与输入音频信号101相应的话语输入的用户24与用户A相应时,在操作2412,服务器2000可通过自然语言理解(NLU)模型2411产生与用户A的命令相应的响应。
例如,当执行与输入音频信号101相应的话语输入的用户24与用户A相应,并且输入音频信号101相应于与天气信息相关的句子(诸如“嗨,比Bixby,今天的天气”)时,服务器2000可通过响应于用户A的命令而执行提供天气信息的功能来产生用于发送天气信息的响应(诸如“今天的天气是晴天”)。
对于另一示例,当执行与输入音频信号101相应的话语输入的用户24与用户A相应,并且输入音频信号101相应于与个人日程信息相关的句子(诸如“嗨,Bixby,今天的日程”)时,服务器2000可通过响应于用户A的命令而执行提供日程信息的功能来产生用于发送用户A的日程信息的响应(诸如“今天,我们有三个计划的工作”)。
另外,作为操作2409的确定的结果,尽管确定执行与输入音频信号101相应的话语输入的用户24与用户A相应,但是当从输入音频信号101获得的环境特征矢量与从用户ADB获得的注册环境特征矢量之间的相似性小于用于请求用户24再次输入输入音频信号101的特定阈值时,服务器2000可产生用于请求用户24再次执行话语输入的响应。
例如,尽管输入音频信号101与支付批准句子(诸如“嗨,Bixby,接受支付”)相应,并且确定执行与输入音频信号101相应的话语输入的用户24与用户A相应,但是当从输入音频信号101获得的环境特征矢量与从用户ADB获得的注册环境特征矢量之间的相似性小于用于请求用户24再次输入输入音频信号101的特定阈值时,服务器2000可通过执行支付安全增强功能来产生用于通知必需再次输入音频信号的响应(诸如“抱歉,请在其他地方再次尝试”)。
对于另一示例,尽管输入音频信号101与支付批准句子(诸如“嗨,Bixby,接受支付”)相应,并且确定执行与输入音频信号101相应的话语输入的用户24与用户A相应,但是当从输入音频信号101获得的环境特征矢量与从用户ADB获得的注册环境特征矢量之间的相似性小于用于请求用户24再次输入输入音频信号101的特定阈值时,服务器2000可通过执行支付安全增强功能来产生用于请求去除环境噪声的响应(诸如“抱歉,请减少您周围的噪声”)。
另外,作为操作2409的确定的结果,当执行与输入音频信号101相应的话语输入的用户24不与用户A相应时,在操作2410,服务器2000可将根据账户认证的操作2405的认证确定的用户账户从用户A切换至普通用户。在操作2412,确定执行与输入音频信号101相应的话语输入的用户24与普通用户相应的服务器2000可通过自然语言理解模型2411产生与普通用户的命令相应的响应。
例如,当执行与输入音频信号101相应的话语输入的用户24不与用户A相应,并且输入音频信号101相应于与天气信息相关的句子(诸如“嗨,Bixby,今天的天气”)时,服务器2000可按照与执行与输入音频信号101相应的话语输入的用户24与用户A相应的情况相同的方式通过执行响应于普通用户的命令而提供天气信息的功能来产生用于发送天气信息的响应(诸如“今天的天气是晴天”)。
然而,对于另一示例,当执行与输入音频信号101相应的话语输入的用户24不与用户A相应,并且输入音频信号101相应于与个人日程信息有关的句子(诸如“嗨,Bixby,今天的日程”)时,与执行与输入音频信号101相应的话语输入的用户24与用户A相应的情况不同,服务器2000可通过执行个人信息保护功能来产生用于通知需要用户认证的响应(诸如“抱歉,需要用户认证”)。
另外,作为在操作2409的确定的结果,执行与输入音频信号101相应的话语输入的用户24不与用户A相应,服务器2000可产生用于请求用户24再次执行话语输入的响应。服务器2000可将产生的响应发送到电子设备1000。
例如,当执行与输入音频信号101相应的话语输入的用户24不与用户A相应,并且输入音频信号101相应于用于获得个人日程信息的句子(诸如“嗨,Bixby,今天的日程”)时,服务器2000可通过执行个人信息保护功能来产生用于通知需要再次输入音频信号的响应(诸如“抱歉,请再次尝试”)。
如上所述,根据实施例的用户认证方法,考虑到电子设备1000和服务器2000的操作性能的差异,电子设备1000可基于唤醒短语执行模块激活和用户识别,并且通过服务器2000执行用户认证,从而防止操作速度和用户认证性能的劣化。
另外,根据实施例的用户认证方法可基于用户识别结果、用户认证结果和用户命令的内容来产生响应,从而保护用户的个人信息并同时迅速提供成功认证的用户所必需的信息。
服务器2000可将产生的响应和用户认证的结果发送到电子设备1000。
在操作2413,电子设备1000可输出产生的响应和从服务器2000接收到的用户认证的结果。例如,电子设备1000可通过经由扬声器2006或显示器2007中的至少一个将产生的响应和用户认证的结果输出为声音或图像来将产生的响应和用户认证的结果发送给用户。
图25是示出根据实施例的训练关键词检测模型的方法的示图。
参照图25,可通过多任务训练方法训练根据实施例的由电子设备1000所使用的关键词检测模型。
可通过例如使用关键词检测作为主要任务并使用自动语音识别作为辅助任务的多任务训练方法来训练由电子设备1000所使用的关键词检测模型。多任务训练可使用一个或更多个辅助任务与主任务一起被训练的训练方法,并且可通过除了使用共享层之外还使用针对每一个任务的单独层来训练与每一个任务相应的模型。
多任务训练可以是用于提高具有类似属性的任务之间的泛化性能的训练,并且假设在所有任务之间存在关联。多任务训练可通过同时学习单独的任务并且部分地共享彼此的信息来构成高度可靠的训练模型。
参照图25,根据实施例的用于训练关键词检测模型的共享层2501可被共享用于训练可以是主要任务的关键词检测以及训练可以是辅助任务的自动语音识别。共享层2501可包括例如时间延迟神经网络(TDNN)。
TDNN可以是多维人工神经网络,其是对神经网络的每一层中的上下文进行建模的神经网络。例如,除了特定帧的音频特征矢量之外,TDNN还可使用先前帧的音频特征矢量和后续帧的音频特征矢量,以使用音频信号的连续帧的上下文。
图26是示出根据实施例的TDNN的音频特征矢量处理方法的示图。
参照图26,TDNN可通过输入层接收从音频信号的每一个帧获得的音频特征矢量2610。
例如,除了音频信号的第t帧的音频特征矢量2613之外,TDNN还可使用第t-13帧至第t-1帧的音频特征矢量2611和第t+1帧至第t+9帧的音频特征矢量2614中的全部,以获得稍后将针对第t帧的音频特征矢量2613描述的帧单元表示。
再次参照图26,以粗实线示出了输入到TDNN的输入层的第t帧的音频特征矢量2613与第t-2帧的音频特征矢量、第t-1帧的音频特征矢量、第t+1帧的音频特征矢量和第t+2帧的音频特征矢量一起被输入到第一隐藏层的节点的路径。针对五个帧的音频特征矢量示出的路径指示各个帧的音频特征矢量彼此级联并输入到上级层的节点。
从输入层到第一隐藏层的所有路径指示按照与第t-2帧的音频特征矢量到第t+2帧的音频特征矢量相同的方式将第t-13帧的音频特征矢量到第t+9帧的音频特征矢量以五个帧单元级联并输入到第一隐藏层的节点。可通过例如隐藏层的每一个节点的激活函数来转换通过隐藏层的级联的音频特征矢量。
第t-13帧的音频特征矢量到第t+9帧的音频特征矢量可在通过第一隐藏层至第三隐藏层的处理时被级联和转换,并且通过输出层以与第t帧相应的帧单元表示2633被输出。
可按照相同的方式对第t+1帧的音频特征矢量顺序地执行与TDNN的第t帧的音频特征矢量2613相应的帧单元表示2633的输出。也就是说,TDNN可顺序地输出与音频信号的每一个帧相应的帧单元表示2630。
这样,除了特定帧的音频特征矢量之外,TDNN还可使用先前帧的音频特征矢量和后续帧的音频特征矢量来输出与特定帧的音频特征矢量相应的帧单元表示,因此可以在训练处理时保持音频信号的上下文。
再次参照图25,用于主任务的关键词训练层2503和用于辅助任务的自动语音识别训练层2505可被堆叠在用于训练关键词检测模型的共享层2501上。
从共享层2501输出的帧单元表示可被输入到关键词训练层2503。
图27是示出根据实施例的对从关键词训练层2503的共享层2501输出的帧单元表示进行处理的处理的示图。
在一些实施例中,可将用于训练作为主要任务的关键词检测的数据输入到共享层2501。关键词训练层2503可包括例如用于关键词检测的自注意力层。
特定关键词可与从音频信号的多个连续帧获得的音频特征矢量相应。用于训练关键词检测的数据可包括例如关于特定关键词的信息和与特定关键词相应的多个音频特征矢量。
包括在关键词训练层2503中的自注意力层可使用从共享层2501输出的多个帧单元表示来确定从所述多个连续帧获得的音频特征矢量是否与特定关键词相应。
参照图27,接收关于音频信号的M个帧的音频特征矢量的共享层2501可输出M个帧单元表示2630。从共享层2501输出的M个帧单元表示2630可被输入到包括在关键词训练层2503中的自注意力层。
例如,自注意力层可使用多头自注意力机制2701,其中,多头自注意力机制2701组合并使用存在于不同帧单元表示中的信息来强调多个点,以获得与来自M个帧单元表示2630的头的数量一样多的h个片段单元表示2731。
例如,自注意力层可通过组合h个片段单元表示2731并应用用于调整音频特征矢量的大小的权重矩阵2703来获得一个片段单元表示2733。
再次参照图25,可将通过自注意力层输出的片段单元表示输入到SOFTMAX层,其中,所述SOFTMAX层输出针对与特定关键词相应的标签的概率。例如,可将SOFTMAX层中的片段单元表示转换为针对与关键词“嗨Bixby”和“Bixby”相应的关键词节点以及与非关键词相应的填充节点中的每一个的概率。
因此,可通过基于用于训练关键词检测的数据调整共享层2501和关键词训练层2503的权重来训练根据实施例的关键词检测模型。
另外,在实施例中,可将用于训练作为辅助任务的自动语音识别的数据输入到共享层2501。用于训练自动语音识别的数据可包括例如关于特定音素串和与特定音素串相应的音频特征矢量的信息。用于训练自动语音识别的音素串是音素阵列,例如,可以是包括三个音素的三音素。
可将从共享层2501输出的帧单元表示输入到自动语音识别训练层2505。
可将从共享层2501输出的帧单元表示输入到多个前馈层,在所述多个前馈层中,作为被包括在自动语音识别训练层2505中的激活函数的修正线性单元(ReLU)被激活。前馈层具有将下级隐藏层的输出仅输入到上级隐藏层中而不将隐藏层的输出再次输入到同一隐藏层中的功能。
自动语音识别训练层2505的前馈层中的帧单元表示可被转换为例如针对与特定三音素的标签相应的每一个输出节点的概率。
也就是说,与关键词不同,因为具有比关键词更短的话语长度的三音素可与从单个帧获得的音频特征矢量相应,所以自动语音识别训练层2505可训练获得一个帧单元表示与特定三音素相应的概率的自动语音识别。
像这样,可通过基于自动语音识别训练数据调整共享层2501和自动语音识别训练层2505的权重来训练根据实施例的关键词检测模型。
像这样,根据实施例的电子设备1000可通过使用使用多任务训练和自注意力机制训练的关键词检测模型来增加用于检测唤醒短语的关键词检测的可靠性。
另外,在实施例中,当完成关键词检测模型的训练时,电子设备1000可使用去除了自动语音识别训练层2505的关键词检测模型来执行用于关键词检测的操作。
在通过多任务训练方法训练电子设备1000之后,电子设备1000可使用去除了用于训练辅助任务的自动语音识别训练层2505的关键词检测模型,从而增加关键词检测的可靠性并同时减少操作量。
参照图20至图25的描述,根据实施例的用户认证方法可不仅由电子设备1000和服务器2000中的任何一个执行,并且本领域普通技术人员将容易理解的是,可由电子设备1000或服务器2000中的至少一个执行用户认证方法的每一个操作。
可以以记录介质的形式实施实施例,其中,所述记录介质包括可由计算机执行的指令,诸如由计算机所执行的程序模块。非暂时性计算机可读介质可以是可由计算机访问的任何记录介质,并且可包括易失性和非易失性介质、可移除和不可移除介质。非暂时性计算机可读介质还可包括计算机存储介质。计算机存储介质的示例包括通过任意方法或技术实现的所有易失性和非易失性介质以及可分离和不可分离介质,用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息。
此外,在本说明书中,术语“单元”可以是诸如处理器或电路的硬件组件,和/或由诸如处理器的硬件组件执行的软件组件。
本公开的实施例的描述是示例,并且本领域普通技术人员可理解的是,在不脱离由所附权利要求所限定的本公开的精神和范围的情况下,可在其中进行形式和细节上的各种改变。因此,本公开的实施例仅是每一个方面的示例,并且不应被解释为限于这里所阐述的实施例。例如,被描述为单件的组件可以是分开的,并且被描述为分开的组件可以是集成的。
根据本公开,通过将用户注册时的环境与用户认证时的环境彼此进行比较来调整用于用户认证的认证标准,从而提供能够防止用户认证性能劣化的用户认证方法和设备。
虽然已经参考本公开的实施例具体示出和描述了本公开,但是本领域普通技术人员将理解的是,在不脱离由所附权利要求所限定的本公开的精神和范围的情况下,可在其中进行形式和细节上的各种改变。
Claims (15)
1.一种由电子设备所执行的基于话语输入来认证用户的用户认证方法,所述用户认证方法包括:
基于所述用户的所述话语输入获得输入音频信号;
从所述输入音频信号获得话语部分的至少一个音频信号和非话语部分的至少一个音频信号;
基于所述非话语部分的至少一个音频信号,产生指示接收到所述话语输入的环境的环境信息;
获得产生的环境信息与注册环境信息之间的比较结果,其中,所述注册环境信息指示接收到与所述用户的先前注册的注册音频信号相应的注册话语输入的环境;
基于比较结果调整用于认证所述用户的认证标准;并且
基于调整的认证标准和所述输入音频信号来认证所述用户。
2.根据权利要求1所述的用户认证方法,其中,获得所述话语部分的至少一个音频信号和所述非话语部分的至少一个音频信号的步骤包括:
将所述输入音频信号划分为多个帧;
提取所述多个帧的音频特征;以及
基于提取出的音频特征,在所述多个帧之中将与所述话语部分相应的帧和与所述非话语部分相应的帧进行区分。
3.根据权利要求2所述的用户认证方法,其中,所述环境信息是基于与所述非话语部分相应的帧的音频特征被产生的。
4.根据权利要求1所述的用户认证方法,其中,所述环境信息包括关于多个情况的信息、指示接收到所述音频信号的情况的信息、以及关于与所述多个情况相应的多个矢量的信息。
5.根据权利要求1所述的用户认证方法,其中,认证所述用户的步骤包括:
获得先前注册的所述注册音频信号;
从所述注册音频信号获得注册话语部分的音频信号;以及
通过将所述话语部分的至少一个音频信号与所述注册话语部分的音频信号进行比较来认证所述用户。
6.根据权利要求5所述的用户认证方法,其中,所述注册音频信号包括注册话语部分的至少一个音频信号和注册非话语部分的至少一个音频信号,并且
其中,所述注册非话语部分的至少一个音频信号被用于产生指示接收到与所述注册音频信号相应的话语输入的情况的注册环境信息。
7.根据权利要求6所述的用户认证方法,其中,调整所述认证标准的步骤包括:调整与所述话语部分的至少一个音频信号和所述注册话语部分的至少一个音频信号之间的相似性相应的阈值。
8.根据权利要求7所述的用户认证方法,其中,调整所述阈值的步骤包括:
基于所述话语部分的长度和所述注册话语部分的长度从预设阈值表中选择所述阈值;以及
基于所述环境信息与所述注册环境信息之间的比较结果来调整所述阈值。
9.根据权利要求8所述的用户认证方法,其中,选择的所述阈值是基于与所述环境信息相应的矢量和与所述注册环境信息相应的矢量之间的相似性被调整的。
10.根据权利要求8所述的用户认证方法,其中,调整所述阈值的步骤还包括:
计算所述话语部分的至少一个音频信号的第一平均能量值;
计算所述注册话语的至少一个音频信号的第二平均能量值;以及
基于第一平均能量值与第二平均能量值之间的比较结果来调整所述阈值。
11.根据权利要求8所述的用户认证方法,其中,所述阈值是基于先前基于所述用户的语音的音色设置的参数值或先前基于所述电子设备的特性设置的参数值中的至少一个被调整的。
12.一种电子设备,包括:
麦克风;
存储器;以及
至少一个处理器,
其中,所述至少一个处理器被配置为:
基于通过所述麦克风接收到的用户的话语输入来获得输入音频信号,
从所述输入音频信号将话语部分的至少一个音频信号与非话语部分的至少一个音频信号进行分区,
产生指示接收到所述话语输入的环境的环境信息,
获得产生的环境信息与注册环境信息之间的比较结果,其中,所述注册环境信息指示接收到与所述用户的先前注册的注册音频信号相应的注册话语输入的环境,
基于比较结果,调整用于认证所述用户的认证标准,以及
基于调整的认证标准和所述输入音频信号来认证所述用户。
13.根据权利要求12所述的电子设备,其中,所述至少一个处理器还被配置为:
将所述输入音频信号划分为多个帧,
提取所述多个帧的音频特征,以及
基于提取出的音频特征,在所述多个帧之中将与所述话语部分相应的帧和与所述非话语部分相应的帧进行区分。
14.根据权利要求13所述的电子设备,其中,所述至少一个处理器还被配置为基于与所述非话语部分相应的帧的音频特征来产生所述环境信息。
15.一种在其上记录有用于执行用户认证方法的程序的非暂时性计算机可读记录介质,其中,所述用户认证方法包括:
基于用户的话语输入获得输入音频信号;
从所述输入音频信号获得话语部分的至少一个音频信号和非话语部分的至少一个音频信号;
基于所述非话语部分的至少一个音频信号,产生指示接收到所述话语输入的环境的环境信息;
获得产生的环境信息与注册环境信息之间的比较结果,其中,所述注册环境信息指示接收到与所述用户的先前注册的注册音频信号相应的注册话语输入的环境;
基于比较结果来调整用于认证所述用户的认证标准;以及
基于调整的认证标准和所述输入音频信号来认证所述用户。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20180153017 | 2018-11-30 | ||
KR10-2018-0153017 | 2018-11-30 | ||
KR20190036377 | 2019-03-28 | ||
KR10-2019-0036377 | 2019-03-28 | ||
KR10-2019-0094532 | 2019-08-02 | ||
KR1020190094532A KR20200066149A (ko) | 2018-11-30 | 2019-08-02 | 사용자 인증 방법 및 장치 |
PCT/KR2019/016762 WO2020111880A1 (en) | 2018-11-30 | 2019-11-29 | User authentication method and apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113168438A true CN113168438A (zh) | 2021-07-23 |
Family
ID=71082691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980079088.1A Pending CN113168438A (zh) | 2018-11-30 | 2019-11-29 | 用户认证方法和设备 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3850509A4 (zh) |
KR (1) | KR20200066149A (zh) |
CN (1) | CN113168438A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102248687B1 (ko) * | 2020-09-09 | 2021-05-06 | 주식회사 퍼즐에이아이 | 음성 기술을 이용한 원격 진료 시스템 및 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9384738B2 (en) * | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
KR102339657B1 (ko) * | 2014-07-29 | 2021-12-16 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US9972322B2 (en) * | 2016-03-29 | 2018-05-15 | Intel Corporation | Speaker recognition using adaptive thresholding |
-
2019
- 2019-08-02 KR KR1020190094532A patent/KR20200066149A/ko not_active Application Discontinuation
- 2019-11-29 CN CN201980079088.1A patent/CN113168438A/zh active Pending
- 2019-11-29 EP EP19890618.2A patent/EP3850509A4/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP3850509A1 (en) | 2021-07-21 |
EP3850509A4 (en) | 2021-11-24 |
KR20200066149A (ko) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12027173B2 (en) | User authentication method and apparatus | |
US11996097B2 (en) | Multilingual wakeword detection | |
US11295748B2 (en) | Speaker identification with ultra-short speech segments for far and near field voice assistance applications | |
US11138974B2 (en) | Privacy mode based on speaker identifier | |
US10027662B1 (en) | Dynamic user authentication | |
US11361763B1 (en) | Detecting system-directed speech | |
EP3433855B1 (en) | Speaker verification method and system | |
US11183171B2 (en) | Method and system for robust language identification | |
US20230290346A1 (en) | Content output management based on speech quality | |
US20090119103A1 (en) | Speaker recognition system | |
WO2020123200A2 (en) | Wakeword detection | |
US11205420B1 (en) | Speech processing using a recurrent neural network | |
KR20050098839A (ko) | 네트워크 환경에서 음성 처리를 위한 중간 처리기 | |
US11302329B1 (en) | Acoustic event detection | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
US20070136060A1 (en) | Recognizing entries in lexical lists | |
US20230162728A1 (en) | Wakeword detection using a neural network | |
US11715472B2 (en) | Speech-processing system | |
CN115176309A (zh) | 语音处理系统 | |
Pao et al. | A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition | |
US11308939B1 (en) | Wakeword detection using multi-word model | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
CN113168438A (zh) | 用户认证方法和设备 | |
KR101598950B1 (ko) | 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체 | |
Hamandouche | Speech Detection for noisy audio files |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |