CN106373575A - 一种用户声纹模型构建方法、装置及系统 - Google Patents

一种用户声纹模型构建方法、装置及系统 Download PDF

Info

Publication number
CN106373575A
CN106373575A CN201510438382.0A CN201510438382A CN106373575A CN 106373575 A CN106373575 A CN 106373575A CN 201510438382 A CN201510438382 A CN 201510438382A CN 106373575 A CN106373575 A CN 106373575A
Authority
CN
China
Prior art keywords
sound
user
voice messaging
predetermined keyword
groove model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510438382.0A
Other languages
English (en)
Other versions
CN106373575B (zh
Inventor
凌青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201510438382.0A priority Critical patent/CN106373575B/zh
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to ES16827187T priority patent/ES2880006T3/es
Priority to PCT/CN2016/089962 priority patent/WO2017012496A1/zh
Priority to JP2018503211A priority patent/JP6859522B2/ja
Priority to PL16827187T priority patent/PL3327720T3/pl
Priority to SG11201800297WA priority patent/SG11201800297WA/en
Priority to KR1020187005014A priority patent/KR102250460B1/ko
Priority to EP16827187.2A priority patent/EP3327720B1/en
Publication of CN106373575A publication Critical patent/CN106373575A/zh
Priority to US15/870,048 priority patent/US10714094B2/en
Priority to US16/906,829 priority patent/US11043223B2/en
Application granted granted Critical
Publication of CN106373575B publication Critical patent/CN106373575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

本申请公开了一种用户声纹模型构建方法、装置及系统。一种用户声纹模型构建方法包括:接收用户输入的语音信息;判断所述语音信息中是否携带满足建模要求的预设关键词;在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段;利用所述语音片段,为所述用户构建声纹模型。应用本申请所提供的技术方案,可以在任意能够接收到用户语音的应用场景下,自动完成用户声纹模型的构建,方便用户使用。

Description

一种用户声纹模型构建方法、装置及系统
技术领域
本申请涉及计算机应用技术领域,尤其涉及一种用户声纹模型构建方法、装置及系统。
背景技术
声纹(voiceprint)是生物特征的一种,声纹识别是根据说话人的发音生理和行为特征,自动识别说话人身份的一种生物识别方法。声纹识别所提供的安全性可与其他生物识别技术(如:指纹、虹膜等)相媲美,而且语音采集装置只需电话/手机或麦克风即可,无需特殊的设备;它与说话语言无关,与方言腔调无关,不涉及隐私问题,适应人群范围很广;声音信号便于远程传输和获取,在基于电信和网络的身份识别应用中,声纹识别更有着特殊的优势
声纹识别主要包括两个阶段:一是注册阶段:需要用户预先向系统录制一段语音内容,系统利用从注册语音中提取的声纹特征,为用户构建声纹模型;二是应用阶段:用户根据系统提示说出指定的语音片段,系统自动地录取用户的语音并提取声纹特征,将新提取到的声纹特征与预先构建的声纹模型进行匹配运算,然后根据二者的匹配程度对当前用户的身份进行识别。
随着计算机和互联网技术的发展,声纹识别已经逐渐渗透到人们的日常生活中,例如智能终端应用,自动电话服务系统等等。根据上面的介绍可知,注册是整个声纹识别过程中不可缺少的环节,然而,这个注册环节却会在一定程度上给用户的使用带来不便,特别是对于中老年人等对新技术不敏感的特殊群体,甚至存在能否顺利注册声纹的问题。另外在有些情况下,为了提高系统安全性或鲁棒性,可能要求用户在注册阶段录制多个语音片段,这样会进一步增加用户的使用难度。
发明内容
本申请提供一种用户声纹模型构建方法、装置及系统,以降低声纹认证系统的使用难度,技术方案如下:
本申请提供一种用户声纹模型构建方法,该方法包括:
接收用户输入的语音信息;
判断所述语音信息中是否携带满足建模要求的预设关键词;
在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段;
利用所述语音片段,为所述用户构建声纹模型。
本申请提供一种基于声纹的用户身份认证方法,该方法包括:
接收用户输入的语音信息;
判断所述语音信息中是否携带满足认证要求的预设关键词;
在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足认证要求的预设关键词的语音片段;
提取所述语音片段的声纹特征;
利用所述声纹特征与预先构建的所述用户的声纹模型,对所述用户的身份进行认证。
本申请提供一种用户声纹模型构建装置,该装置包括:
语音信息接收模块,用于接收用户输入的语音信息;
建模关键词判断模块,用于判断所述语音信息中是否携带满足建模要求的预设关键词;
语音片段截取模块,用于在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段;
声纹模型构建模块,用于利用所述语音片段,为所述用户构建声纹模型。
本申请提供一种基于声纹的用户身份认证装置,该装置包括:
语音信息接收模块,用于接收用户输入的语音信息;
认证关键词判断模块,用于判断所述语音信息中是否携带满足认证要求的预设关键词;
语音片段截取模块,用于在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足认证要求的预设关键词的语音片段;
声纹特征提取模块,用于提取所述语音片段的声纹特征;
认证模块,用于利用所述声纹特征与预先构建的所述用户的声纹模型,对所述用户的身份进行认证。
本申请提供一种基于声纹的用户身份认证系统,该系统包括如前所述的用户声纹模型构建装置以及用户身份认证装置。
应用本申请实施例所提供的用户声纹模型构建方法,理论上可以在任意能够接收到用户语音的应用场景下,自动完成用户声纹模型的构建。这里的语音信息接收,可以是用户为了实现其他功能所必须的操作,无需刻意执行声纹信息注册的操作,方便用户使用。
相应地,在存在身份认证需求的应用场景,如果能够获取到用户的语音信息,并且该语音信息中携带了之前已经进行过声纹建模的关键字,就可以自动利用声纹进行身份认证,从而省去其他认证方式的繁琐操作,而且认证过程并不要求用户刻意说出认证口令。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请的用户声纹模型构建方法的流程示意图;
图2是本申请的用户身份认证方法的流程示意图;
图3是本申请的用户声纹模型构建装置结构示意图;
图4是本申请的用户身份认证装置结构示意图;
图5是本申请的用户身份认证系统结构示意图。
具体实施方式
语音是人类之间进行交流的重要载体,而随着语音识别等技术的迅速发展,用户已经可以在很多场景通过语音来与计算机进行交流,例如语音输入、语音控制等等。也就是说,从计算机的角度,有很多能够采集到用户语音信息的机会,此外,从用户的电话留言、实时电话录音中,都能够采集到用户的语音信息。基于这样的现实情况,本申请提出一种方案,在任意能够采集到用户语音的场景,完成用户的声纹建模,从而不增加用户的额外注册操作,解决现有技术中声纹注册操作繁琐的问题。
声纹识别包括文本相关(Text-Dependent)和文本无关(Text-Independent)两种类型。文本相关的声纹识别系统在注册时要求用户按照规定的内容发音,每个用户的声纹模型被精确地建立,而识别时也必须按规定的内容发音,由于所有用户的声纹模型都是“规范”的,因此可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。文本无关的识别系统理论上可以不规定说话人的发音内容,但是模型建立相对困难,目前在实际应用时的识别效果也并不理想。
为了保证识别效果,本申请提供的方案是针对“文本相关”声纹识别技术提出,那么需要解决的一个问题就是:如何能够在不增加用户额外操作的前提下,又能让用户说出“规定的内容”。
发明人在实现本方案的过程中发现:在特定的应用场景,用户会有很高的概率说出与该场景相关的关键词。例如:用户利用语音(例如通过电话或语音留言等方式)进行产品咨询时,几乎必然会说出产品的名称、型号、功能、部件、常见故障等关键词中的一个或多个;用户在进行声控操作时,很多声控指令也都是预先定义好的,类似的情景还有很多,而基于这样的现实情况,完全可以针对声纹认证所应用的不同场景,预先统计出该场景下高频出现的一个或多个关键词,将这些高频词定义为“规定的内容”,这样,一旦用户在语音交互过程中说出了这些关键词,系统就可以为该用户进行声纹建模。
为了使本领域技术人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。
图1所示,为本申请提供的一种用户声纹模型构建方法的流程图,该方法可以包括以下步骤:
S101,接收用户输入的语音信息;
S102,判断所述语音信息中是否携带满足建模要求的预设关键词;
S103,在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段;
S104,利用所述语音片段,为所述用户构建声纹模型。
以下将对上述方案做进一步的详细说明:
理论上讲,本申请方案可以在任何能够采集到用户语音的场景实现,例如语音输入、语音控制、电话留言等。当然,在实际应用时还需要考虑:该场景是否有声纹识别需求、是否能够确定当前说话用户的身份、用户语音的长度(涉及到运算复杂度)、能否有效地采集到携带关键词的语音片段(涉及到采集效率)等因素。
典型的应用场景例如:互动式语音应答(Interactive Voice Response,IVR)系统中的“一句话描述问题”服务,系统可以根据来电号码,或者用户手动输入认证信息等方式确认用户身份,“一句话”的语音长度比较适合后续的处理,并且,在很多特定的业务场景,用户有很大可能说出一些关键词。例如,在网上交易场景,可能涉及的关键词包括:订单、收货、发货、金额等;在银行、支付等场景,可能涉及的关键词包括:转账、余额、账户、密码等。
另外,用户使用个人终端时,无论是在操作系统层面还是各种具体应用层面所用到各种声控指令,都可以用于声纹建模时的语音信息采集。首先,作为个人物品,用户在使用终端时会有很多认证操作,例如解锁手机、进入某些特定应用时要求输入手势或数字密码,首先满足了用户身份认证的要求。另外,无论是操作系统还是具体应用所使用的声控指令都不会很长,而且很多都是预先定义好的。例如,Android手机中的语音交互功能,都是通过“OK Google”或“OK Google now”语音指令触发的,这些关键词都可以用来进行用户声纹建模。
如果对运算复杂度要求不敏感,还可以对已经实际接入人工应答坐席的用户通话进行录音,然后根据音频特性区分出用户的语音和人工应答坐席的语音,以便后续步骤仅针对用户语音部分进行分析。这样做的好处在于可以从用户一段较长完整的通话中,更为有效地采集到携带关键词的语音片段。
当然,以上几种应用场景,仅用于示意性说明,不应理解为对本申请方案的限定。
根据S101,可以在任何应用场景接收用户的语音信息,当然,由于最终需求是进行声纹建模,因此首先通过其他方式(例如用户ID、认证密码、手势、指纹等方式)确认当前说话者的身份是必要的。
在S102,判断所述语音信息中是否携带满足建模要求的预设关键词;这里可以根据实际需求,预设一个或多个关键词。预设多个关键词优势在于:一方面可以提高建模成功的概率,即用户只要说出多个关键词中的至少一个,就可以进行声纹建模;另一方面,在某些对安全要求比较高的应用场景,可以要求使用多个声纹片段共同认证。
在本步骤中,需要利用语音识别的相关技术来确定语音信息中是否携带预设关键词。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。根据本申请方案的实际需求,可以考虑从以下两个角度实现对语音信息的识别:
a)利用声学特征:
人类的语言是都由一系列顺序的音节组成,连续的声音信息称为音节流,从声学的角度,可以将一个音节流划分为若干个独立的音节;另外,每种发音音节都具有其固定的音频特征。语音识别技术正是基于这两方面建立声学模型,实现对音节流的分词。而在本申请中,也可以直接利用该技术实现对用户语音信息的识别,具体方案步骤如下:
利用声学模型对所述语音信息切分,得到至少1个语音片段;
判断所得到的语音片段或其组合,是否与满足建模要求的预设关键词的音频特征相匹配,如果是,则确定所述语音信息中携带满足建模要求的预设关键词。
例如,预设关键词包括:转账、余额、账户、密码共4个,则系统中需要分别预先存储这4个关键词的音频数据或音频特征数据;如果接收到用户的语音为“查询余额”,则首先可以利用声学模型切分得到若干语音片段(根据切分算法的不同,可能具体切分结果也不同,这里不做讨论),通过对比可知道这些片段或片段的组合中包含与“余额”音频特征相匹配的部分,则可以确定语音信息中携带满足建模要求的关键词。
b)利用语言特征:
文本分词属于自然语言处理技术领域,相对于纯声学层面的分词而言,文本分词技术更为成熟,实际效果也更好。另外,可以理解的是,同一种发音可以对应多种文字,因此在匹配过程中,直接对比文字内容可以达到更好的效果,在本申请中,可以直接利用语音识别技术和文本分词技术的结合,实现对用户语音信息的识别,具体方案步骤如下:
对所述语音信息进行语音识别,得到对应的文本信息;
利用语言模型对所述文本信息切分,得到至少1个文本片段;
判断所得到的文本片段或其组合,是否与满足建模要求的预设关键词的文本内容相一致,如果是,则确定所述语音信息中携带满足建模要求的预设关键词。
上述两种方案,本领域技术人员可以根据实际需求灵活选择。例如,根据不同语言的特点,西方文字(如英语、法语等)的每个单词都具有相对完整的意义,而中文中的每个字则不具有该特点,因此仅利用利用声学特征的处理方式,目前更适合于对西方语言的处理。而对中文的处理则建议结合语言方面的特征进行处理。当然需要说明的是,本申请的重点并不在于语音识别算法或分词算法,只要能够实现相应需求的技术手段都可以应用于本申请。
如果在S102已确认用户语音信息中携带满足建模要求的预设关键词,那么在S103将进一步从语音信息中截取相应的语音片段。如果在S102是基于语音片段进行判断,则直接根据语音片段的匹配结果进行截取;如果在S102是基于文本片段进行判断,则根据文本片段的匹配结果反推得到相应的语音片段位置进行截取。例如,用户说了“我想查询账户余额”,其中“账户”、“余额”为满足建模要求的预设关键词,根据在S102的处理过程,能够确定这两个词在整个语音信息中的相对位置,进而将“账户”、“余额”两个词的音频片段截取出来。
在S104,利用S103所截取的音频片段进行声纹建模,具体的建模方法与本申请无关,这里不做详细描述。最后,将建模结果与S101中确定的说话者身份标识进行关联保存,形成该用户的声纹模型库。
应用上述方法,可以在用户使用其他语音功能时,以一种“顺带”的方式完成声纹建模,方便了用户使用。而且“关键词”的使用,既能满足“文本相关”的建模需求,又能够保证较高的建模成功率。
另外,上述方法除了应用于首次注册声纹信息之外,还可以应用于声纹模型的更新。具体的更新策略,可以从以下两个角度考虑:
1)模型的完善:
上述声纹建模过程支持多个默认关键词,而用户并不一定能够在一次语音交互过程中说出全部的关键词,但是用户的语音交互属于常规行为,因此在完成首次声纹建模后,完全可以在后续与用户交互的过程中,再次采集用户的语音信息,如果新采集到的语音信息中包含了之前的模型中所没有的关键词,则可以利用这个新的关键词,对已有的声纹模型进行补充。
具体而言,对于某个特定用户,假设当前已经存在该用户的声纹模型,则在S102中,可以将“满足建模要求的预设关键词”进一步限定为“用户当前声纹模型中未包含的预设关键词”。
例如,系统指定的关键词包括:“转账”、“余额”、“账户”、“密码”这4个,在用户X首次注册声纹信息时,已经为该用户分别建立针对了“账户”、“余额”两个关键词的声纹模型。在此后,又采集到了用户X的语音信息“我要修改账户密码”,根据S102,可以确定“账户”和“密码”均属于预设关键词,其中“密码”属于用户X当前声纹模型中未包含的预设关键词,因此后续将利用“密码”进行声纹建模,并且将该建模结果添加到用户X的声纹模型库中。
应用这种方法,可以不断完善用户的声纹模型,以适应各种特殊需求。此外,如果系统对安全性能要求比较高,可以规定用户声纹模型所包含的关键词必须大于一定数量才可以应用,在一次语音信息采集无法实现的情况下,可以采用本实施例的方法,通过多次采集用户的语音信息,完成用户的声纹建模。
2)模型的训练:
生物识别技术和机器学习技术关联紧密,在很多应用场景下,往往利用多次采集样本方式来训练模型,从而改善识别的准确性、容错性等多方面性能。针对本申请方案而言,同样也可以通过多次采集同一用户针对同一关键词的语音信息,来完成声纹模型的训练。
可见,这里的需求与1)是相反的,具体而言,为了实现同一关键词声纹样本的多次采集,在S102中,应将“满足建模要求的预设关键词”进一步限定为“用户当前声纹模型中已包含的预设关键词”。
例如,系统指定的关键词包括:“转账”、“余额”、“账户”、“密码”这4个,在用户X首次注册声纹信息时,已经为该用户分别建立针对了“账户”、“余额”两个关键词的声纹模型。在此后的语音信息采集过程中,可以只关注“账户”、“余额”这两个关键词,从而对这两个关键词的声纹模型进行持续训练。
在实际应用中,为避免无限制地采集用户语音信息,也可以设置一些限制条件,例如,如果针对某个关键词采集到的声纹样本数量已经达到某个阈值,则后续不再针对该关键词继续采集声纹样本。
此外,根据具体的应用需求以及所选择的训练算法,对于多次采集到的样本,可以采用求平均值、同时保留等方法进行处理,本申请对此不需要进行限定。
以上两种更新策略,可以分别独立实施,也可以结合实施。事实上,从宏观的角度,即便不对“满足建模要求的预设关键词”进行限定,也不影响两种功能的实现。也就是说,在每次执行S102时,都尽量去获取本次语音信息中所携带的所有关键词,如果是之前模型中未包含的关键词,就针对其建立新的声纹模型,如果是之前模型中已包含的关键词,就利用其对之前的模型进行训练。并且,上述两种功能也可以择一实现。重要的是,应用本申请方案可以在不给用户添加麻烦的前提下不断学习,逐渐完善用户的声纹模型。
以上介绍了本申请所提供的用户声纹模型构建方法,基于类似的思路,本申请还提供一种基于声纹的用户身份认证方法,参见图2所示,该方法可以包括以下步骤:
S201,接收用户输入的语音信息;
S202,判断所述语音信息中是否携带满足认证要求的预设关键词;
S203,在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足认证要求的预设关键词的语音片段;
S204,提取所述语音片段的声纹特征;
S205,利用所述声纹特征与预先构建的所述用户的声纹模型,对所述用户的身份进行认证。
其中S201-S203与S101-S103在技术实现方面基本一致,区别仅在于应用场景不同,S204-S205则是常规的声纹认证步骤,这里均不做详细介绍,以下重点说明本申请方案与传统声纹认证方案的区别:
根据本申请背景技术部分的介绍可知,声纹识别主要包括注册与应用两个环节,其中注册环节是为应用环节提供必要的数据准备,应用本申请方法实现的声纹建模,原则上可以适用于各类应用需求。除此之外,根据本申请方案的特点,还可以满足一些特殊的应用需求。
严格意义上讲,包括声纹识别在内生物特征识别技术的应用场景还可以再细分为两类:认证(verification)和识别(identification)。认证指的是验证用户是否为他所声明的身份,例如指纹锁、声纹锁等等;识别指的是确定用户的身份,例如公安机关通过调查案发现场的指纹或录音确定罪犯。不难看出,认证的要求比识别要低。
本申请所提供的技术方案,基于“认证”需求提出,与常规的声纹认证相比,至少具有以下特点:
首先,尽管是基于“文本相关”声纹技术,但是应用本申请所提供的方案,并不需要用户特地去说出“规定的内容”,系统也不需要特地去提示或引导用户,因为上述需求均可以在用户进行其他操作时顺带完成。
例如,在银行的自助语音服务系统中,用户拨打服务电话,根据自助语音提示,在“一句话描述问题”环节说出了“查询余额”,系统会该信息进行语音识别,语义识别,需求分析等处理,判断出该业务涉及个人隐私,因此需要进一步验证用户身份。传统的处理方式可能是:提示用户“请输入您的账户密码,按#键结束”,然后用户根据提示操作,完成认证。而利用本申请所提供的方案,如果之前已经针对该用户完成了关键词“余额”的建模,在用户说出“查询余额”之后,已经可以通过声纹的方式完成认证,从而无需用户输入密码。在无需特地说出“规定内容”的情况下,享受到声纹认证方式的便捷。
其次,尽管用户说话的具体内容存在不确定性,然而根据“关键词”的特点,实际上用户是有很高的概率说出这些关键词的,而且这个概率可以随关键词数量的增加而显著改善。而即便声纹认证失败,还可以进一步采用常规的认证方式,例如上面例子中的手动输入密码,对于用户而言,也并没有增加额外的麻烦。
再次,通过对S203中“满足认证要求的预设关键词”进行限定,还可以进一步改善系统性能或满足特定需求。例如可以将“满足认证要求的预设关键词”限定为:用户当前声纹模型中已包含的预设关键词,避免系统后续进行无效的声纹提取或匹配等处理;此外,对于支付交易等对安全性有较高要求的应用场景,也可以在“满足认证要求的预设关键词”中对用户语音中所携带的关键词数量进行限定,如果不满足该数量要求,则认为不够安全,此时可以放弃声纹认证方式,改用其他更安全的方式。
最后,可以理解的是,本申请所提供的声纹建模方法和声纹认证方法是基于相同的原理,因此两套方案之间可以以各种方式结合。例如,在认证流程之后,仍然可以利用用户本次认证时使用的语音信息进行声纹模型的完善。典型的应用是:先判断本次认证所用的语音信息是否携带了用户当前声纹模型中未包含的预设关键词,如果是,则从该语音信息中截取出于对应该关键词的语音片段,并利用该语音片段对用户的声纹模型进行更新。具体的更新方式可以参考前面的实施例,这里不再重复描述。另外,从技术流程的角度,身份认证是否成功,并不影响声纹模型的更新,当然,如果考虑提高安全性,也可以在用户身份认证成功的情况下,再触发更新声纹模型的操作,而且这里的“身份认证成功”也并不限于声纹身份认证。
总之,与现有技术相比,本申请的主要优势在于:能够在用户执行其他基于语音的操作时,顺带完成用户声纹信息的注册和认证,方便用户使用。而且通过针对特定的应用场景设置特定关键词,既能够保留“文本相关”的优势,又能够在原本不确定的应用场景保证较高的成功率。
相应于上述方法实施例,本申请还提供一种用户声纹模型构建装置,参见图3所示,该装置可以包括:
语音信息接收模块110,用于接收用户输入的语音信息;
建模关键词判断模块120,用于判断所述语音信息中是否携带满足建模要求的预设关键词;
语音片段截取模块130,用于在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段;
声纹模型构建模块140,用于利用所述语音片段,为所述用户构建声纹模型。
根据本申请的一种具体实施方式,建模关键词判断模块120具体可以用于:
在当前已存在所述用户的声纹模型的情况下,判断所述语音信息中是否携带该声纹模型中未包含的预设关键词;
在当前已存在所述用户的声纹模型的情况下,判断所述语音信息中是否携带该声纹模型中已包含的预设关键词。
根据本申请的一种具体实施方式,所述声纹模型构建模块140,具体可以用于:
在当前已存在所述用户的声纹模型的情况下,利用所述语音片段,对该声纹模型进行更新。
根据本申请的一种具体实施方式,建模关键词判断模块120,具体可以用于:
利用声学模型对所述语音信息切分,得到至少1个语音片段;
判断所得到的语音片段或其组合,是否与满足建模要求的预设关键词的音频特征相匹配,如果是,则确定所述语音信息中携带满足建模要求的预设关键词。
或者
建模关键词判断模块120,还具体可以用于:
对所述语音信息进行语音识别,得到对应的文本信息;
利用语言模型对所述文本信息切分,得到至少1个文本片段;
判断所得到的文本片段或其组合,是否与满足建模要求的预设关键词的文本内容相一致,如果是,则确定所述语音信息中携带满足建模要求的预设关键词。
相应于上述方法实施例,本申请还提供一种基于声纹的用户身份认证装置,参见图4所示,该装置可以包括:
语音信息接收模块210,用于接收用户输入的语音信息;
认证关键词判断模块220,用于判断所述语音信息中是否携带满足认证要求的预设关键词;
语音片段截取模块230,用于在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足认证要求的预设关键词的语音片段;
声纹特征提取模块250,用于提取所述语音片段的声纹特征;
认证模块260,用于利用所述声纹特征与预先构建的所述用户的声纹模型,对所述用户的身份进行认证。
本申请还提供一种基于声纹的用户身份认证系统,该系统可以包括上述的用户声纹模型构建装置以及用户身份认证装置。
事实上,以上两种装置的一些模块实现的功能是完全相同的,例如:
语音信息接收模块110和语音信息接收模块210;
语音片段截取模块130和语音片段截取模块230;
而认证关键词判断模块120和认证关键词判断模块220的区别也仅在于判断所依据的规则不同,因此,在实际应用时,完全可以将在系统中复用这些相同或相似的模块,如图5所示。
语音信息接收模块310综合了语音信息接收模块110和语音信息接收模块210的功能;
关键词判断模块320综合了认证关键词判断模块120和认证关键词判断模块220的功能;
语音片段截取模块330综合了语音片段截取模块130和语音片段截取模块230;
声纹模型构建模块340、声纹特征提取模块350、认证模块360则分别与前述的装置中的同名模块功能相同。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置或系统实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本申请方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (14)

1.一种用户声纹模型构建方法,其特征在于,该方法包括:
接收用户输入的语音信息;
判断所述语音信息中是否携带满足建模要求的预设关键词;
在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段;
利用所述语音片段,为所述用户构建声纹模型。
2.根据权利要求1所述的方法,其特征在于,所述判断所述语音信息中是否携带满足建模要求的预设关键词的步骤,包括:
在当前已存在所述用户的声纹模型的情况下,判断所述语音信息中是否携带该声纹模型中未包含的预设关键词;
在当前已存在所述用户的声纹模型的情况下,判断所述语音信息中是否携带该声纹模型中已包含的预设关键词。
3.根据权利要求1或2所述的方法,其特征在于,所述利用所述语音片段,为所述用户构建声纹模型的步骤,包括:
在当前已存在所述用户的声纹模型的情况下,利用所述语音片段,对该声纹模型进行更新。
4.根据权利要求1所述的方法,其特征在于,所述判断所述语音信息中是否携带满足建模要求的预设关键词的步骤,包括:
利用声学模型对所述语音信息切分,得到至少1个语音片段;
判断所得到的语音片段或其组合,是否与满足建模要求的预设关键词的音频特征相匹配,如果是,则确定所述语音信息中携带满足建模要求的预设关键词。
5.根据权利要求1所述的方法,其特征在于,所述判断所述语音信息中是否携带满足建模要求的预设关键词的步骤,包括:
对所述语音信息进行语音识别,得到对应的文本信息;
利用语言模型对所述文本信息切分,得到至少1个文本片段;
判断所得到的文本片段或其组合,是否与满足建模要求的预设关键词的文本内容相一致,如果是,则确定所述语音信息中携带满足建模要求的预设关键词。
6.一种基于声纹的用户身份认证方法,其特征在于,该方法包括:
接收用户输入的语音信息;
判断所述语音信息中是否携带满足认证要求的预设关键词;
在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足认证要求的预设关键词的语音片段;
提取所述语音片段的声纹特征;
利用所述声纹特征与预先构建的所述用户的声纹模型,对所述用户的身份进行认证。
7.根据权利要求6所述的方法,其特征在于,还包括:
判断所述语音信息中是否携带所述用户的声纹模型中未包含的预设关键词,
在判断结果为是的情况下,从所述语音信息中截取出于对应于所述未包含的预设关键词的语音片段;
利用所述对应于所述未包含的预设关键词的语音片段,对所述用户的声纹模型进行更新。
8.一种用户声纹模型构建装置,其特征在于,该装置包括:
语音信息接收模块,用于接收用户输入的语音信息;
建模关键词判断模块,用于判断所述语音信息中是否携带满足建模要求的预设关键词;
语音片段截取模块,用于在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段;
声纹模型构建模块,用于利用所述语音片段,为所述用户构建声纹模型。
9.根据权利要求8所述的装置,其特征在于,所述建模关键词判断模块,具体用于:
在当前已存在所述用户的声纹模型的情况下,判断所述语音信息中是否携带该声纹模型中未包含的预设关键词;
在当前已存在所述用户的声纹模型的情况下,判断所述语音信息中是否携带该声纹模型中已包含的预设关键词。
10.根据权利要求8或9所述的装置,其特征在于,所述声纹模型构建模块,具体用于:
在当前已存在所述用户的声纹模型的情况下,利用所述语音片段,对该声纹模型进行更新。
11.根据权利要求8所述的装置,其特征在于,所述建模关键词判断模块,具体用于:
利用声学模型对所述语音信息切分,得到至少1个语音片段;
判断所得到的语音片段或其组合,是否与满足建模要求的预设关键词的音频特征相匹配,如果是,则确定所述语音信息中携带满足建模要求的预设关键词。
12.根据权利要求8所述的装置,其特征在于,所述建模关键词判断模块,具体用于:
对所述语音信息进行语音识别,得到对应的文本信息;
利用语言模型对所述文本信息切分,得到至少1个文本片段;
判断所得到的文本片段或其组合,是否与满足建模要求的预设关键词的文本内容相一致,如果是,则确定所述语音信息中携带满足建模要求的预设关键词。
13.一种基于声纹的用户身份认证装置,其特征在于,该装置包括:
语音信息接收模块,用于接收用户输入的语音信息;
认证关键词判断模块,用于判断所述语音信息中是否携带满足认证要求的预设关键词;
语音片段截取模块,用于在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足认证要求的预设关键词的语音片段;
声纹特征提取模块,用于提取所述语音片段的声纹特征;
认证模块,用于利用所述声纹特征与预先构建的所述用户的声纹模型,对所述用户的身份进行认证。
14.一种基于声纹的用户身份认证系统,其特征在于,该系统包括:如权利要求7至12任一项所述的用户声纹模型构建装置,以及如权利要求13所述的用户身份认证装置。
CN201510438382.0A 2015-07-23 2015-07-23 一种用户声纹模型构建方法、装置及系统 Active CN106373575B (zh)

Priority Applications (10)

Application Number Priority Date Filing Date Title
CN201510438382.0A CN106373575B (zh) 2015-07-23 2015-07-23 一种用户声纹模型构建方法、装置及系统
EP16827187.2A EP3327720B1 (en) 2015-07-23 2016-07-14 User voiceprint model construction method and apparatus
JP2018503211A JP6859522B2 (ja) 2015-07-23 2016-07-14 ユーザ声紋モデルを構築するための方法、装置、及びシステム
PL16827187T PL3327720T3 (pl) 2015-07-23 2016-07-14 Sposób i urządzenie do konstruowania modelu wzorca głosu użytkownika
SG11201800297WA SG11201800297WA (en) 2015-07-23 2016-07-14 Method, apparatus and system for constructing user voiceprint model
KR1020187005014A KR102250460B1 (ko) 2015-07-23 2016-07-14 사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템
ES16827187T ES2880006T3 (es) 2015-07-23 2016-07-14 Método y aparato de construcción de modelo de la huella vocal de un usuario
PCT/CN2016/089962 WO2017012496A1 (zh) 2015-07-23 2016-07-14 一种用户声纹模型构建方法、装置及系统
US15/870,048 US10714094B2 (en) 2015-07-23 2018-01-12 Voiceprint recognition model construction
US16/906,829 US11043223B2 (en) 2015-07-23 2020-06-19 Voiceprint recognition model construction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510438382.0A CN106373575B (zh) 2015-07-23 2015-07-23 一种用户声纹模型构建方法、装置及系统

Publications (2)

Publication Number Publication Date
CN106373575A true CN106373575A (zh) 2017-02-01
CN106373575B CN106373575B (zh) 2020-07-21

Family

ID=57833756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510438382.0A Active CN106373575B (zh) 2015-07-23 2015-07-23 一种用户声纹模型构建方法、装置及系统

Country Status (9)

Country Link
US (2) US10714094B2 (zh)
EP (1) EP3327720B1 (zh)
JP (1) JP6859522B2 (zh)
KR (1) KR102250460B1 (zh)
CN (1) CN106373575B (zh)
ES (1) ES2880006T3 (zh)
PL (1) PL3327720T3 (zh)
SG (1) SG11201800297WA (zh)
WO (1) WO2017012496A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590374A (zh) * 2017-07-31 2018-01-16 捷开通讯(深圳)有限公司 语音助手权限的控制方法、智能终端及存储装置
CN108665901A (zh) * 2018-05-04 2018-10-16 广州国音科技有限公司 一种音素/音节提取方法及装置
CN109599116A (zh) * 2018-10-08 2019-04-09 中国平安财产保险股份有限公司 基于语音识别的监管保险理赔的方法、装置和计算机设备
CN110298150A (zh) * 2019-05-29 2019-10-01 上海拍拍贷金融信息服务有限公司 一种基于语音识别的身份验证方法及系统
CN110671792A (zh) * 2019-05-08 2020-01-10 青岛海尔空调器有限总公司 用于控制出风风量和出音音量的方法、装置和空调室内机
CN110753254A (zh) * 2019-10-30 2020-02-04 四川长虹电器股份有限公司 应用于智能语音电视声纹支付的声纹注册方法
CN111063360A (zh) * 2020-01-21 2020-04-24 北京爱数智慧科技有限公司 一种声纹库的生成方法和装置
CN111833882A (zh) * 2019-03-28 2020-10-27 阿里巴巴集团控股有限公司 声纹信息管理方法、装置、系统及计算设备、存储介质
CN112417532A (zh) * 2020-12-08 2021-02-26 浙江百应科技有限公司 一种支持语音和隐私输入的智能ai信息查询方法
CN113112997A (zh) * 2019-12-25 2021-07-13 华为技术有限公司 数据采集的方法及装置
CN113488042A (zh) * 2021-06-29 2021-10-08 荣耀终端有限公司 一种语音控制方法及电子设备

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN104616655B (zh) * 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
WO2018108263A1 (en) 2016-12-14 2018-06-21 Telefonaktiebolaget Lm Ericsson (Publ) Authenticating a user subvocalizing a displayed text
KR102640423B1 (ko) 2017-01-31 2024-02-26 삼성전자주식회사 음성 입력 처리 방법, 이를 지원하는 전자 장치, 및 시스템
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10592649B2 (en) * 2017-08-09 2020-03-17 Nice Ltd. Authentication via a dynamic passphrase
US10789959B2 (en) * 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
WO2020000427A1 (zh) * 2018-06-29 2020-01-02 华为技术有限公司 一种语音控制方法、可穿戴设备及终端
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109065058B (zh) * 2018-09-30 2024-03-15 合肥鑫晟光电科技有限公司 语音通信方法、装置及系统
US20200201970A1 (en) * 2018-12-20 2020-06-25 Cirrus Logic International Semiconductor Ltd. Biometric user recognition
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11398239B1 (en) 2019-03-31 2022-07-26 Medallia, Inc. ASR-enhanced speech compression
US11227606B1 (en) * 2019-03-31 2022-01-18 Medallia, Inc. Compact, verifiable record of an audio communication and method for making same
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110570869B (zh) * 2019-08-09 2022-01-14 科大讯飞股份有限公司 一种声纹识别方法、装置、设备及存储介质
US10839060B1 (en) * 2019-08-27 2020-11-17 Capital One Services, Llc Techniques for multi-voice speech recognition commands
CN110491393B (zh) * 2019-08-30 2022-04-22 科大讯飞股份有限公司 声纹表征模型的训练方法及相关装置
CN110738998A (zh) * 2019-09-11 2020-01-31 深圳壹账通智能科技有限公司 基于语音的个人信用评估方法、装置、终端及存储介质
CN110991498A (zh) * 2019-11-18 2020-04-10 有时数联科技(北京)有限公司 一种基于算法模型的识别方法、装置及系统
CN111048100B (zh) * 2019-11-21 2023-09-08 深圳市东进银通电子有限公司 一种大数据并行化声纹辨认系统和方法
CN111341326B (zh) * 2020-02-18 2023-04-18 RealMe重庆移动通信有限公司 语音处理方法及相关产品
CN111524521B (zh) * 2020-04-22 2023-08-08 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111653283B (zh) * 2020-06-28 2024-03-01 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11315575B1 (en) 2020-10-13 2022-04-26 Google Llc Automatic generation and/or use of text-dependent speaker verification features
CN112242137B (zh) * 2020-10-15 2024-05-17 上海依图网络科技有限公司 一种人声分离模型的训练以及人声分离方法和装置
US11522994B2 (en) 2020-11-23 2022-12-06 Bank Of America Corporation Voice analysis platform for voiceprint tracking and anomaly detection
CN116711006A (zh) 2021-02-23 2023-09-05 三星电子株式会社 电子装置及其控制方法
CN112908339B (zh) * 2021-03-18 2022-11-04 龙马智芯(珠海横琴)科技有限公司 一种会议环节定位方法、装置、定位设备及可读存储介质
TWI755328B (zh) * 2021-05-24 2022-02-11 中華電信股份有限公司 孩童聲音偵測系統、方法及電腦可讀媒介
WO2024106830A1 (ko) * 2022-11-17 2024-05-23 삼성전자 주식회사 폰북 기반의 성문 운용 방법 및 이를 지원하는 전자 장치
CN116229987B (zh) * 2022-12-13 2023-11-21 广东保伦电子股份有限公司 一种校园语音识别的方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040162726A1 (en) * 2003-02-13 2004-08-19 Chang Hisao M. Bio-phonetic multi-phrase speaker identity verification
US20100063817A1 (en) * 2007-03-14 2010-03-11 Pioneer Corporation Acoustic model registration apparatus, talker recognition apparatus, acoustic model registration method and acoustic model registration processing program
CN102238189A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
CN103971700A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 语音监控方法及装置
CN104202486A (zh) * 2014-09-26 2014-12-10 上海华勤通讯技术有限公司 移动终端及其屏幕解锁方法
US20150081295A1 (en) * 2013-09-16 2015-03-19 Qualcomm Incorporated Method and apparatus for controlling access to applications
CN104765996A (zh) * 2014-01-06 2015-07-08 讯飞智元信息科技有限公司 声纹密码认证方法及系统
CN104901926A (zh) * 2014-03-06 2015-09-09 武汉元宝创意科技有限公司 基于声纹特征的远程认证支付的系统与方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
JPH11291799A (ja) 1998-04-09 1999-10-26 Combi Corp チャイルドシート
US6691089B1 (en) * 1999-09-30 2004-02-10 Mindspeed Technologies Inc. User configurable levels of security for a speaker verification system
JP4440502B2 (ja) * 2001-08-31 2010-03-24 富士通株式会社 話者認証システム及び方法
JP2003302999A (ja) * 2002-04-11 2003-10-24 Advanced Media Inc 音声による個人認証システム
US20060229879A1 (en) * 2005-04-06 2006-10-12 Top Digital Co., Ltd. Voiceprint identification system for e-commerce
CN101051463B (zh) * 2006-04-06 2012-07-11 株式会社东芝 说话人认证的验证方法及装置
CN101465123B (zh) * 2007-12-20 2011-07-06 株式会社东芝 说话人认证的验证方法和装置以及说话人认证系统
JP5457706B2 (ja) * 2009-03-30 2014-04-02 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP5223843B2 (ja) * 2009-10-22 2013-06-26 富士通株式会社 情報処理装置およびプログラム
JP5611270B2 (ja) * 2012-05-08 2014-10-22 ヤフー株式会社 単語分割装置、及び単語分割方法
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
JP6239826B2 (ja) * 2013-01-29 2017-11-29 綜合警備保障株式会社 話者認識装置、話者認識方法及び話者認識プログラム
US9711148B1 (en) * 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
US10008208B2 (en) * 2014-09-18 2018-06-26 Nuance Communications, Inc. Method and apparatus for performing speaker recognition
US9721571B2 (en) * 2015-06-14 2017-08-01 Nice Ltd. System and method for voice print generation
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
CN105930892A (zh) 2016-04-22 2016-09-07 深圳活悦网络科技有限公司 一种可变logo二维码防伪方法及系统
CN107103480A (zh) 2017-05-18 2017-08-29 电子科技大学 基于主权区块链的供应链管理方法
CN107657463A (zh) 2017-09-29 2018-02-02 北京京东尚科信息技术有限公司 物品溯源平台和方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040162726A1 (en) * 2003-02-13 2004-08-19 Chang Hisao M. Bio-phonetic multi-phrase speaker identity verification
US20100063817A1 (en) * 2007-03-14 2010-03-11 Pioneer Corporation Acoustic model registration apparatus, talker recognition apparatus, acoustic model registration method and acoustic model registration processing program
CN102238189A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
CN103971700A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 语音监控方法及装置
US20150081295A1 (en) * 2013-09-16 2015-03-19 Qualcomm Incorporated Method and apparatus for controlling access to applications
CN104765996A (zh) * 2014-01-06 2015-07-08 讯飞智元信息科技有限公司 声纹密码认证方法及系统
CN104901926A (zh) * 2014-03-06 2015-09-09 武汉元宝创意科技有限公司 基于声纹特征的远程认证支付的系统与方法
CN104202486A (zh) * 2014-09-26 2014-12-10 上海华勤通讯技术有限公司 移动终端及其屏幕解锁方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590374A (zh) * 2017-07-31 2018-01-16 捷开通讯(深圳)有限公司 语音助手权限的控制方法、智能终端及存储装置
CN108665901A (zh) * 2018-05-04 2018-10-16 广州国音科技有限公司 一种音素/音节提取方法及装置
CN109599116A (zh) * 2018-10-08 2019-04-09 中国平安财产保险股份有限公司 基于语音识别的监管保险理赔的方法、装置和计算机设备
CN109599116B (zh) * 2018-10-08 2022-11-04 中国平安财产保险股份有限公司 基于语音识别的监管保险理赔的方法、装置和计算机设备
CN111833882A (zh) * 2019-03-28 2020-10-27 阿里巴巴集团控股有限公司 声纹信息管理方法、装置、系统及计算设备、存储介质
CN110671792A (zh) * 2019-05-08 2020-01-10 青岛海尔空调器有限总公司 用于控制出风风量和出音音量的方法、装置和空调室内机
CN110298150A (zh) * 2019-05-29 2019-10-01 上海拍拍贷金融信息服务有限公司 一种基于语音识别的身份验证方法及系统
CN110753254A (zh) * 2019-10-30 2020-02-04 四川长虹电器股份有限公司 应用于智能语音电视声纹支付的声纹注册方法
CN113112997A (zh) * 2019-12-25 2021-07-13 华为技术有限公司 数据采集的方法及装置
CN111063360B (zh) * 2020-01-21 2022-08-19 北京爱数智慧科技有限公司 一种声纹库的生成方法和装置
CN111063360A (zh) * 2020-01-21 2020-04-24 北京爱数智慧科技有限公司 一种声纹库的生成方法和装置
CN112417532A (zh) * 2020-12-08 2021-02-26 浙江百应科技有限公司 一种支持语音和隐私输入的智能ai信息查询方法
CN113488042A (zh) * 2021-06-29 2021-10-08 荣耀终端有限公司 一种语音控制方法及电子设备

Also Published As

Publication number Publication date
PL3327720T3 (pl) 2021-10-25
EP3327720B1 (en) 2021-05-05
US20200321010A1 (en) 2020-10-08
JP6859522B2 (ja) 2021-04-14
US11043223B2 (en) 2021-06-22
SG11201800297WA (en) 2018-02-27
ES2880006T3 (es) 2021-11-23
KR20180034507A (ko) 2018-04-04
EP3327720A4 (en) 2019-04-03
US10714094B2 (en) 2020-07-14
WO2017012496A1 (zh) 2017-01-26
CN106373575B (zh) 2020-07-21
EP3327720A1 (en) 2018-05-30
KR102250460B1 (ko) 2021-05-13
US20180137865A1 (en) 2018-05-17
JP2018527609A (ja) 2018-09-20

Similar Documents

Publication Publication Date Title
CN106373575A (zh) 一种用户声纹模型构建方法、装置及系统
US11916913B2 (en) Secure audio transcription
EP1902442B1 (en) Selective security masking within recorded speech utilizing speech recognition techniques
US8095372B2 (en) Digital process and arrangement for authenticating a user of a database
US20140350932A1 (en) Voice print identification portal
WO2019090834A1 (zh) 一种基于声纹的快递柜取件方法及装置
CN107395352A (zh) 基于声纹的身份识别方法及装置
JP7123871B2 (ja) 身元認証方法、身元認証装置、電子機器及びコンピュータ読み取り可能な記憶媒体
CN101308654A (zh) 一种语音分析识别方法、系统与装置
US20220029981A1 (en) Voice biometric authentication in a virtual assistant
CN108074577A (zh) 身份认证方法及身份认证系统
US20240012893A1 (en) Headphone biometric authentication
US20130339245A1 (en) Method for Performing Transaction Authorization to an Online System from an Untrusted Computer System
CN111711523B (zh) 事项办理权限授权方法、装置、计算机设备及存储介质
KR20040068548A (ko) 행동 모델을 사용한 비-개입적 화자 인증 방법 및 시스템
CN114726635B (zh) 权限验证方法、装置、电子设备及介质
CN203480601U (zh) 一种基于声音交互的自助设备
Tanwar et al. An approach to ensure security using voice authentication system
CN111916086B (zh) 语音交互控制方法、装置、计算机设备和存储介质
JP2020004192A (ja) 通信装置および通信装置を備える音声認識端末装置
CN114999488A (zh) 一种语音识别方法、装置及电子设备
US20070121813A1 (en) Method and apparatus for authenticating personal identification number (pin) users
CN112926936A (zh) 银行业务审核方法及装置
CN114582078B (zh) 自助存取款方法及自助存取款系统
CN108564374A (zh) 支付认证方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 190 Elgin Street, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Country or region after: Cayman Islands

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Innovative advanced technology Co.,Ltd.

Country or region before: Cayman Islands

OL01 Intention to license declared
OL01 Intention to license declared