CN111798844A - 根据声纹识别的人工智能扬声器定制型个人化服务系统 - Google Patents

根据声纹识别的人工智能扬声器定制型个人化服务系统 Download PDF

Info

Publication number
CN111798844A
CN111798844A CN202010108315.3A CN202010108315A CN111798844A CN 111798844 A CN111798844 A CN 111798844A CN 202010108315 A CN202010108315 A CN 202010108315A CN 111798844 A CN111798844 A CN 111798844A
Authority
CN
China
Prior art keywords
speaker
command
voiceprint recognition
voice
service system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010108315.3A
Other languages
English (en)
Inventor
闵盛泰
朴俊昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sorogate Co ltd
Original Assignee
Sorogate Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sorogate Co ltd filed Critical Sorogate Co ltd
Publication of CN111798844A publication Critical patent/CN111798844A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种根据声纹识别的人工智能扬声器定制型个人化服务系统,其包括声纹识别装置,其由构成小规模群组的用户来使用,并区分各个上述用户的语音,使得能够执行各个上述用户的命令;以及数据处理装置,其能与上述声纹识别装置联动。本发明一实施例的根据声纹识别的人工智能扬声器定制型个人化服务系统中所包括的声纹识别装置可以包括:存储部,其存储上述用户的语音;接收部,其在第一说话人发出第一说话语音时,接收上述第一说话语音;判断部,其通过比较存储在上述存储部的语音和上述第一说话语音来判断上述第一说话人是否是登记的用户;执行部,其生成对应于上述第一说话人的第一命令语音的命令信号。

Description

根据声纹识别的人工智能扬声器定制型个人化服务系统
技术领域
本发明涉及一种根据声纹识别的人工智能扬声器定制型个人化服务系统(Personalized service system)。更具体地,本发明涉及一种如下的根据声纹识别的人工智能扬声器定制型个人化服务系统,其在单个平台以进行说话人认证的方式使用多重人工智能辅助系统,并且,可以通过分析所登记的用户的利用服务及模式等来提供个人定制型服务。
背景技术
语音可以说是人类使用的最普遍又便捷的信息传输手段。由语音表达的话语不仅作为人和人之间的沟通手段而起到作用,还可作为利用人的语音来使机器及使用装置进行动作的手段而发挥作用。最近,随着计算机性能的发展、多种媒体的开发、信号及信息处理技术的发展,语音识别技术也正在发展。
语音识别技术作为计算机分析或理解人的语音的技术,是一种利用发音时通过嘴的形状和舌头的位置变化而具有特定的频率的人的语音,将发出的语音转换成电信号之后,提取语音信号的频率特性来识别发音的技术。
最近,随着多种AI扬声器的迅速推广,每个家庭购买一台以上的AI扬声器的情况也很多见。并且,在一个空间使用两台以上的AI扬声器的情况也正在增加。这是因为根据用户的不同而要使用的人工智能辅助不同。
为了解决这种问题,通过在单个AI扬声器设置多个用户和多个AI人工智能辅助模块,从而在单个平台(AI扬声器)实现多重人工智能辅助服务。
现有技术文献
专利文献(专利文献0001)公开专利公报第10-2009-0106630号
发明内容
发明所要解决的问题
本发明要解决的问题在于,通过在单个AI扬声器设置多个用户和多个AI人工智能辅助模块,在单个平台(AI扬声器)实现多重人工智能辅助服务。即提供一种如下的根据声纹识别的人工智能扬声器定制型个人化服务系统,其在单个平台以进行说话人认证的方式使用多重人工智能辅助系统,并且,可以通过分析所登记的用户的利用服务及模式等来提供个人定制型服务。
用于解决问题的方案
为解决上述技术问题而提出的本发明一实施例的根据声纹识别人工智能扬声器定制型个人化服务系统包括:声纹识别装置,构成小规模群组的用户使用上述声纹识别装置,上述声纹识别装置能区分各个上述用户的语音,使得能够执行各个用户的命令;数据处理装置,其与上述声纹识别装置联动。上述声纹识别装置可以包括:存储部,其存储上述用户的语音;接收部,其在第一说话人发出第一说话语音时,接收上述第一说话语音;判断部,其通过比较存储在上述存储部的语音和上述第一说话语音来判断上述第一说话人是否是登记的用户;执行部,其生成对应于上述第一说话人的第一命令语音的命令信号。
上述接收部包括呼叫语接收单元,当上述第一说话人通过上述第一说话语音发出第一呼叫语(wake up call)时,上述呼叫语接收单元接收上述第一呼叫语。
上述呼叫语接收单元将上述第一呼叫语转换为声波信号。
上述存储部包括呼叫语存储单元,上述呼叫语存储单元存储有上述用户的登记呼叫语。
上述判断部包括呼叫者识别单元,上述呼叫者识别单元通过比较上述第一呼叫语和上述登记呼叫语来判断上述第一说话人是否是登记的用户。
当判断为上述第一说话人是登记的用户时,上述声纹识别装置为上述第一说话人生成第一命令会话。
在上述第一命令会话中,第二说话人通过第二说话语音发出第二呼叫语时,上述呼叫语接收单元接收上述第二呼叫语,上述呼叫者识别单元通过比较上述第二呼叫语和上述登记呼叫语来判断上述第二说话人是否是登记的用户,当判断为上述第二说话人是登记的用户时,上述声纹识别装置为上述第二说话人生成第二命令会话。
上述接收部还包括命令语接收单元,当上述第一说话人通过上述第一命令语音发出第一命令语时,上述命令语接收单元接收上述第一命令语。
上述命令语接收单元将上述第一命令语转换为声波信号。
上述存储部还包括命令语存储单元,上述命令语存储单元存储有上述用户的登记命令语。
上述判断部还包括命令语识别单元,上述命令语识别单元通过比较上述第一命令语和上述登记命令语来判断上述第一命令语是普通命令语还是特殊命令语。
当上述第一命令语是普通命令语时,上述执行部生成执行普通命令的普通命令信号。
上述判断部还包括呼叫者-命令者识别单元,当上述第一命令语是特殊命令语时,上述呼叫者-命令者识别单元通过比较上述第一命令语的语音和上述登记命令语来判断上述第一说话人是否是登记的用户。
当判断为上述第一说话人是登记的用户时,上述执行部生成能够执行特殊命令的特殊命令信号。
当第三说话人通过第二命令语音发出第二命令语时,如果上述第二命令语是普通命令语,则上述执行部生成执行普通命令的普通命令信号。
当第三说话人通过第二命令语音发出第二命令语时,如果上述第二命令语是特殊命令语,则上述判断部判断上述第一说话人和上述第三说话人是否相同,当上述第一说话人和上述第三说话人识别为彼此不同的用户时,结束上述第一命令会话。
当判断为上述第一说话人是未登记的用户时,上述呼叫者识别单元比较上述第一说话人的上述呼叫语语音和上述用户的上述登记呼叫语语音。
如果分析上述第一说话人的上述呼叫语语音和上述用户的上述登记呼叫语语音之间的向量(i-vector)的结果相似度为0.8以上,则将上述第一说话人视为上述群组的用户,且向上述第一说话人请求用户登记。
发明效果
根据本发明,通过在单个AI扬声器设置多个用户和多个AI人工智能辅助模块,在单个平台(AI扬声器)实现多重人工智能辅助服务,即本发明提供一种如下的根据声纹识别的人工智能扬声器定制型个人化服务系统,其在单个平台已进行说话人认证的方式使用多重人工智能辅助系统,并且,可以通过分析所登记的用户的利用服务及模式等来提供个人定制型服务。
本发明的效果不限于前述的效果,并且还可以根据权利要求书的记载而明确地理解到除此之外的发明效果。
附图说明
图1是本发明一实施例的根据声纹识别的人工智能扬声器定制型个人化服务系统的概略图。
图2是本发明一实施例的根据声纹识别的人工智能扬声器制定型个人化服务系统的声纹识别装置的框图。
图3是本发明一实施例的根据声纹识别的人工智能扬声器制定型个人化服务系统的声纹识别装置处理声纹识别的流程图。
附图标记说明
10:声纹识别装置 20:数据处理装置
101:接收部 201:判断部
301:存储部 401:执行部。
具体实施方式
可以通过参照附图和后述的具体实施例,明确地理解本发明的优点、特征以及实现其的方法。然而,本发明不限于以下公开的实施例,而是能够以各不相同的多种形态来实现,本实施例只是用于完整地公开本发明,以及向本领域技术人员完整地告知本发明的范围而提供的,并且只能根据权利要求的范围定义本发明。以下,参照附图对本发明的具体实施方式进行详细的说明。与附图无关地,相同的附图标记是指相同的结构要素,“及/或者”包括提及的各个项及一个项以上的所有组合。
在说明书中使用的用语用于说明实施例,而不是用于限定本发明。在本说明书中,只要文中没有明确指出,单数形也包括多数形。在说明书中使用的“包括(comprises)”及/或者“包括的(comprising)”不会排除除了提及的结构要素之外的一个以上的其他结构要素的存在或追加。
如果没有其他定义,则在本说明书中使用的所有用语(包括技术及科学用语)能够以本领域技术人员可共同理解的意思来使用。并且,在没有特别明确定义的前提下,不会对通常使用的事先定义的用语进行理想或过度的解释。
以下,对本发明实施例的通过声纹识别的人工智能扬声器定制型个人化服务系统进行说明。
图1是本发明一实施例的根据声纹识别的人工智能扬声器定制型个人化服务系统的概略图,图2是本发明一实施例的根据声纹识别的人工智能扬声器定制型个人化服务系统的声纹识别装置的框图,图3是本发明一实施例的根据声纹识别的人工智能扬声器定制型个人化服务系统的声纹识别装置处理声纹识别的流程图。
参照图1至图3,本发明一实施例的根据声纹识别的人工智能扬声器定制型个人化服务系统1可以包括:声纹识别装置10,构成小规模群组的用户使用上述声纹识别装置10,且上述声纹识别装置10区分各个上述用户的语音,使得能够执行各个上述用户的命令;数据处理装置20,其与上述声纹识别装置10联动。其中,小规模群组可以是家庭成员的集合。
声纹识别装置10作为本发明的核心结构,用于区分用户的语音,使得能够执行上述用户发出的各个命令。
参照图2及图3,本发明一实施例的系统的声纹识别装置10可以包括:存储部301,其存储上述用户的语音;接收部101,其在第一说话人发出第一说话语音时,接收上述第一说话语音;判断部201,其通过比较存储在上述存储部301的语音和上述第一说话语音来判断上述第一说话人是否是登记的用户;执行部401,其生成对应于上述第一说话人的第一命令语音的命令信号。
第一说话人为了利用声纹识别装置10而发出第一说话语音S101。接收部101接收发出的第一说话语音。接收部101可以包括呼叫语接收单元110和命令语接收单元120。
当第一说话人通过第一说话语音发出第一呼叫语(wake up call)时,呼叫语接收单元110接收第一呼叫语。呼叫语接收单元110将接收的第一呼叫语语音转换为声波信号,对第一呼叫语语音进行语音数据化。以如上述所的方式转换的第一呼叫语被传送至判断部201。
另一方面,存储部301可以包括呼叫语存储单元310和命令语存储单元320。呼叫语存储单元310存储用户登记的呼叫语(以下,称‘登记呼叫语’)。登记呼叫语作为包括用户个性的语音,由能够识别各个用户的语音信号构成。呼叫语存储单元310和命令语存储单元320为了分别存储登记呼叫语和登记命令语,可以包括诸如非易失性或易失性存储器、或者硬盘(Hard Disk Device,HDD)装置的存储装置。
判断部201通过比较存储在存储部301的语音和上述第一说话语音来判断上述第一说话人是否是登记的用户。判断部201可以包括呼叫者识别单元210、命令语识别单元220、呼叫者-命令者识别单元230。
判断部201的呼叫者识别单元210从呼叫语接收单元110接收第一说话人发出的第一呼叫语,并且接收存储在呼叫语存储单元310的登记呼叫语。呼叫者识别单元210通过比较接收的第一呼叫语和登记呼叫语来判断第一说话人是否是登记的用户S102。例如,通过1:1匹配及比较第一呼叫语的声波信号和用户的登记呼叫语的声波信号,如果多个登记呼叫语中存在与第一呼叫语的相似率为90%以上的登记呼叫语,则发出第一呼叫语的第一说话人被识别为所登记的用户。其中,呼叫者识别单元210可以通过由适用于计算设备106的一个以上的处理器执行的软件来实现。
呼叫者识别单元210的判断结果,当判断为第一说话人是登记的用户时S103,声纹识别装置10为上述第一说话人而生成第一命令会话(session)S104。如果生成第一命令会话时,则声纹识别装置10等待第一说话人的第一命令语音。
另一方面,在上述第一命令会话中,与第一说话人不同的第二说话人通过第二说话语音发出第二呼叫语时,上述呼叫语接收单元110接收上述第二呼叫语,上述呼叫者识别单元210通过比较上述第二呼叫语和用户的登记呼叫语来判断上述第二说话人是否是登记的用户,当判断为上述第二说话人是登记的用户时,上述声纹识别装置10为上述第二说话人而生成第二命令会话。此时,自动结束之前激活的第一命令会话。
如果在规定时间内未接收说话人的额外命令语音,则会自动结束第一命令会话及第二命令会话。其中,规定时间可以通过用户设定而被建立。例如,规定时间可以设定为30秒或者1分钟左右。
另一方面,呼叫者识别单元210的判断结果,当判断为第一说话人是未登记的用户时,呼叫者识别单元210比较第一说话人的呼叫语语音和所登记的用户的登记呼叫语语音S105。
通过比较,如果分析第一说话人的上述呼叫语语音和上述用户的登记呼叫语语音之间的向量(i-vector)的结果,当结果为例如相似度为0.8以上,则可以将上述第一说话人视为上述群组的用户。当视为上述群组的用户时,声纹识别装置10向第一说话人请求用户登记S106。接收到用户登记请求的第一说话人可以通过用户登记步骤来获得能够使用本发明的系统的权力。
接着,如果生成第一命令会话,则第一说话人可以通过第一命令语音发出第一命令语S201。当第一说话人发出第一命令语时,接收部101的命令语接收单元120接收上述第一命令语。命令语接收单元120将接收的第一命令语语音转换为声波信号,对第一命令语语音进行语音数据化。以如上所述的方式转换的第一命令语传送至判断部201。
如上所述,存储部301可以包括命令语存储单元320。命令语存储单元320存储用户登记的命令语(以下,称‘登记命令语’)。登记命令语作为包括用户个性的语音,由能够识别各个用户的语音信号构成。
登记命令语包括普通命令语和特殊命令语。普通命令语可以包括重要程度较低的业务的执行或者提供信息的行为等。例如,普通命令语可以由能够进行有关时间、日期及天气的信息提供、TV频道选择、简单的搜索等的命令文构成。即普通命令语可以主要由与用户的个人信息的关联性较少的命令构成。
特殊命令语可以由相比于普通命令语重要程度高的命令构成。即特殊命令语可以由与用户的个人信息的关联性较高的命令构成。例如,特殊命令语可以包括诸如电话、文字、金融业务(转账)、结账等的命令。此时,特殊命令语可以根据用户的设定将给予等级。例如,电话可设定为最低的第一级别,文字传送命令可设定为中间等级的第二级别,金融业务(转账)、结账可设定为最高的第三级别。当群组内的用户中有未成年人时,对于金融业务(转账)及结账命令,可以限制未成年人的命令权力。
登记命令语可以区分为普通命令语和特殊命令语来实现存储及登记,从而可以区分包括在登记命令语的普通命令语和特殊命令语。另一方面,由于各个命令具有彼此不同的语音,因此各个命令语以具有各自个性的方式实现存储。并且,由于每个用户的语音不同,因此,可以按用户区分而存储登记命令语。
如上所述,判断部201包括命令语识别单元220。命令语识别单元220比较上述第一命令语和上述登记命令语S202。为此,登记命令语从命令语存储单元320传送至判断部201。通过比较传送的第一命令语的语音数据和登记命令语的数据来判断第一命令语是普通命令语还是特殊命令语S203。
判断结果,当第一命令语是普通命令语时,执行部401生成执行普通命令的普通命令信号。由此执行普通命令(例如,进行有关时间、日期及天气的信息提供、TV频道选择,简单的搜索)S204。
另一方面,判断结果,当第一命令语是特殊命令语时,通过比较上述第一命令语的语音和上述登记命令语来判断上述第一说话人是否是登记的用户S205、S206。对于是否是登记的用户的判断在判断部201的呼叫者-命令者识别单元230中执行。
此时,当判断为上述第一说话人是登记的用户时,执行部401生成能够执行特殊命令的特殊命令信号。基于生成的特殊命令信号数据处理装置20执行特殊命令S208。与此不同地,当判断为第一说话人是未登记的用户时,不执行对于特殊命令的命令,而结束第一命令会话S207。
另一方面,在第一说话人激活第一命令会话的状态下,不是第一说话人而是第三说话人通过第二命令语音发出第二命令语时,如果第二命令语是普通命令语,则执行部401生成执行普通命令的普通命令信号。即对于第三说话人(不是第一说话人)的普通命令语,声纹识别装置10做出反应。
与此不同地,在第一说话人激活第一命令会话的状态下,不是第一说话人而是第三说话人通过第二命令语音发出第二命令语时,如果第二命令语是特殊命令语,判断部201的呼叫者-命令者识别单元230判断上述第一说话人和上述第三说话人是否相同,当上述第一说话人和上述第三说话人识别为彼此不同的用户时,不执行基于第二命令语的特殊命令,而结束上述第一命令会话。
另一方面,可以通过如下的方法来进行说话人验证。
首先,为了验证对目标(Target)和评价对象进行分类。目标由Wtarget来表示,且评价对象由Wtest来表示,表示两者关系的数学式如下。当对说话人和所登记的家庭成员进行分析时,例如,最多可进行五次左右。
Score=logP(Wtarget,Wtest|H0)-logP(Wtarget,Wtest|H1)
其中,就H0和H1而言,当Wtarget、Wtest为相同的说话人(相同人物)时,可以对Sscore的对数计算适用如下数学式的概率线性判别分析(PLDA)算法。
Figure BDA0002389091350000091
其中,K=BT(GGT+ε)-1B,wj=B(GGT+ε)-1(wj-μ)。
B是说话人模型(model),G是频道模型(Channel model)。
通过上述方法来提取说话人与家庭成员之间的类似的语音,从而可以引导未登记的家庭成员进行用户登记。
并且,可以通过音调来掌握说话人的意图。可以根据音调分类为普通命令语和特殊命令语,由此对语音进行分类,从而能执行反映说话人的意图的适当的命令。
其次,数据处理装置20基于从声纹识别装置10接收的命令信号执行特定工作。
数据处理装置20包括处理数据的装置、设备及机器的所有种类,可包括示例性的基于可编程序的处理器、计算机、芯片上的系统或者多个结构、或这些的组合的结构。上述装置可以包括诸如现场可编程门阵列(field programmable gate way array,FPGA)或者专用集成电路(application-specific integrated circuit,ASIC)的特殊目的逻辑电路。上述装置还包括添加在硬件,造成对于问题计算机程序的执行环境的代码,诸如构成处理器固件、协议栈、数据库管理系统、运行系统、跨-平台运行时环境(cross-platformruntime environment)、虚拟机或者它们的一个以上的组合的代码。上述装置及执行环境可以实现诸如网络服务、基于分散计算及网格(grid)计算的设备的多种各不相同的基于计算模型的设备。
计算机程序(并且,称为程序、软件、应用软件,脚本或代码)包括编辑(compile)或解析的语言、叙述或者步骤上的语言,从而可撰写为编程语言的任意形态,上述计算机程序包括适合用于独立型程序或者模块、组件、子例程(subroutine)、对象(object)或者计算环境的其他单元,从而可展开为任意形态。虽然不是必须的,但是计算机程序可以对应于文件系统内的文件。程序可存储在保持其他程序或数据的文件的部分(例如,存储在标记语言文档内的一个以上的脚本)内、专用于问题程序的单个文件内或者多个组织化的文件(例如,存储一个以上的模块、子-程序或者代码的部分的文件)。计算机程序能够以可在一个计算机或者多个计算机中执行的方式进行展开,上述一个计算机或者多个计算机位于一个位置(site),或者分散在多个位置且通过通信网络相互接入。
上述进程及逻辑流程可以运行输入数据,且生成输出,从而可由一个以上的可编程序的计算机执行,上述可编程序的计算机为了执行功能而执行一个以上的计算机程序。上述进程、逻辑流程以及可实现的装置还可以由诸如FPGA(field programmable gate wayarray)或者ASIC(applicationspecific integrated circuit)的特殊目的逻辑电路执行。
适合于计算机程序的执行的处理器作为示例包括普通及特殊目的微处理器及数字计算机的任意种类的任意一种以上的处理器。通常,处理器将从只读存储器或者随机存取存储器或者两者中接收命令语及数据。计算机的必要要素为用于执行符合命令的工作的处理器以及用于存储命令及数据的一个以上的存储设备。通常,计算机包括一个以上的大容量存储设备(例如,磁带,磁光盘或者光盘),或者从其中接收数据,或者向其传送数据,或者可以能执行工作的方式连接在一个以上的大容量存储设备。然而,计算机没必要包括这种设备。而且,举几个例子,计算机可以包括在诸如移动电话、掌上电脑(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System,GPS)接收器或者便携式存储装置(例如,通用串行总线(universal serial bus,USB)闪存驱动器)的其他设备内。适合于存储计算机程序命令语及数据的设备包括基于诸如可擦可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)及闪存设备、磁盘(诸如内装硬盘或者可拆卸的磁盘、磁光盘以及光盘只读存储器(CD-ROM)及数字通用光盘只读存储器(DVD-ROM)磁盘)等半导体存储设备的示例性的方法的设备,包括非易失性存储器、媒体及存储设备的所有形态。上述处理器及存储器由特殊目的逻辑电路来补充,或者可以整合在特殊目的逻辑电路。
例如,本发明的实施例可以作为数据服务器而在计算系统内实现,上述计算系统包括后端(back-end)组件,或者包括诸如应用服务器的中间软件(middleware)组件,或者包括诸如具有根据图形用户接口或用户与本说明书中描述的主体实现的相互作用的网页浏览器的客户计算机的前端(front-end)组件,或者包括这种一个以上的后端、中间软件、或后端组件的任意组合。上述系统的组件可以通过诸如通信网络的任意形态或者数字数据通信的介质来彼此连接。通信网络的示例包括局域网(local area network,“LAN”)、广域网(wide area network,“WAN”)、互联-网络(例如,互联网)以及对等网(peer-to-peernetworks)(例如,点对点对等(ad hoc peerto-peer)网络)。
一个以上的计算机的系统可以具有能使发生的工作或系统执行动作的设置在系统的软件、固件、硬件或它们的结合,从而执行特定工作或动作。一个以上的计算机程序包括在通过数据处理装置执行时,使上述装置执行上述动作的命令,从而执行特定工作或动作。
以上,对本发明的实施例进行了说明,但是本发明并不限于上述实施例,而是能够以各不相同的多种形态来实现,本领域技术人员能够理解在不变更本发明的技术思想或必要特征的情况下,本发明可以由其他具体形态实施。因此,应当被理解为以上描述的实施例在所有方面都是示例性的,而不是限定性的。

Claims (14)

1.一种根据声纹识别的人工智能扬声器定制型个人化服务系统,其包括声纹识别装置以及数据处理装置,其中,所述声纹识别装置能区分各个群组用户的语音,从而能够执行各个所述群组用户的命令,所述数据处理装置与所述声纹识别装置联动,根据声纹识别的人工智能扬声器定制型个人化服务系统的特征在于,
所述声纹识别装置包括:
存储部,其存储所述群组用户的语音;
接收部,其在第一说话人发出第一说话语音时,接收所述第一说话语音;
判断部,其通过比较存储在所述存储部的语音和所述第一说话语音来判断所述第一说话人是否为登记的用户;以及
执行部,其生成对应于所述第一说话人的第一命令语音的命令信号,
所述接收部包括呼叫语接收单元,
所述判断部包括呼叫者识别单元,
所述存储部包括呼叫语存储单元,
当所述第一说话人通过所述第一说话语音发出第一呼叫语时,所述呼叫语接收单元接收所述第一呼叫语,
所述呼叫语存储单元存储有所述群组用户的登记呼叫语,
所述呼叫者识别单元通过比较所述第一呼叫语和所述登记呼叫语来判断所述第一说话人是否是登记的用户,
当判断为所述第一说话人是登记的用户时,所述声纹识别装置为所述第一说话人生成第一命令会话。
2.根据权利要求1所述的根据声纹识别的人工智能扬声器定制型个人化服务系统,其特征在于,
所述呼叫语接收单元将所述第一呼叫语转换为声波信号。
3.根据权利要求1所述的根据声纹识别的人工智能扬声器定制型个人化服务系统,其特征在于,
在所述第一命令会话中,第二说话人通过第二说话语音发出第二呼叫语时,
所述呼叫语接收单元接收所述第二呼叫语,所述呼叫者识别单元通过比较所述第二呼叫语和所述登记呼叫语来判断所述第二说话人是否是登记的用户,
当判断为所述第二说话人是登记的用户时,所述声纹识别装置为所述第二说话人生成第二命令会话。
4.根据权利要求1所述的根据声纹识别的人工智能扬声器定制型个人化服务系统,其特征在于,
所述接收部还包括命令语接收单元,
当所述第一说话人通过所述第一命令语音发出第一命令语时,所述命令语接收单元接收所述第一命令语。
5.根据权利要求4所述的根据声纹识别的人工智能扬声器定制型个人化服务系统,其特征在于,
所述命令语接收单元将所述第一命令语转换为声波信号。
6.根据权利要求4所述的根据声纹识别的人工智能扬声器定制型个人化服务系统,其特征在于,
所述存储部还包括命令语存储单元,
所述命令语存储单元存储有所述用户的登记命令语。
7.根据权利要求6所述的根据声纹识别的人工智能扬声器定制型个人化服务系统,其特征在于,
所述判断部还包括命令语识别单元,
所述命令语识别单元通过比较所述第一命令语和所述登记命令语来判断所述第一命令语是普通命令语还是特殊命令语。
8.根据权利要求7所述的根据声纹识别的人工智能扬声器定制型个人化服务系统,其特征在于,
当所述第一命令语是普通命令语时,所述执行部生成执行普通命令的普通命令信号。
9.根据权利要求7所述的根据声纹识别的人工智能扬声器定制型个人化服务系统,其特征在于,
所述判断部还包括呼叫者-命令者识别单元,
当所述第一命令语是特殊命令语时,所述呼叫者-命令者识别单元通过比较所述第一命令语的语音和所述登记命令语来判断所述第一说话人是否是登记的用户。
10.根据权利要求9所述的根据声纹识别的人工智能扬声器定制型个人化服务系统,其特征在于,
当判断为所述第一说话人是登记的用户,所述执行部生成能够执行特殊命令的特殊命令信号。
11.根据权利要求4所述的根据声纹识别的人工智能扬声器定制型个人化服务系统,其特征在于,
当第三说话人通过第二命令语音发出第二命令语时,如果所述第二命令语是普通命令语,则所述执行部生成执行普通命令的普通命令信号。
12.根据权利要求4所述的根据声纹识别的人工智能扬声器定制型个人化服务系统,其特征在于,
当第三说话人通过第二命令语音发出第二命令语时,
如果所述第二命令语是特殊命令语,则所述判断部判断所述第一说话人和所述第三说话人是否相同,
当所述第一说话人和所述第三说话人识别为彼此不同的用户时,结束所述第一命令会话。
13.根据权利要求1所述的根据声纹识别的人工智能扬声器定制型个人化服务系统,其特征在于,
当判断为所述第一说话人是未登记的用户时,所述呼叫者识别单元比较所述第一说话人的所述呼叫语语音和所述用户的所述登记呼叫语语音。
14.根据权利要求13所述的根据声纹识别的人工智能扬声器定制型个人化服务系统,其特征在于,
如果分析所述第一说话人的所述呼叫语语音和所述用户的所述登记呼叫语语音之间的向量的结果相似度为0.8以上,
则将所述第一说话人视为所述群组的用户,且向所述第一说话人请求用户登记。
CN202010108315.3A 2019-04-05 2020-02-21 根据声纹识别的人工智能扬声器定制型个人化服务系统 Pending CN111798844A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190039909A KR102135182B1 (ko) 2019-04-05 2019-04-05 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
KR10-2019-0039909 2019-04-05

Publications (1)

Publication Number Publication Date
CN111798844A true CN111798844A (zh) 2020-10-20

Family

ID=71832279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010108315.3A Pending CN111798844A (zh) 2019-04-05 2020-02-21 根据声纹识别的人工智能扬声器定制型个人化服务系统

Country Status (3)

Country Link
US (1) US11488595B2 (zh)
KR (1) KR102135182B1 (zh)
CN (1) CN111798844A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102219189B1 (ko) * 2018-09-28 2021-02-23 주식회사 솔루게이트 버추얼 상담 시스템 및 이를 이용한 상담방법
US12045639B1 (en) * 2023-08-23 2024-07-23 Bithuman Inc System providing visual assistants with artificial intelligence

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992009A (zh) * 2017-05-03 2017-07-28 深圳车盒子科技有限公司 车载语音交互方法、系统及计算机可读存储介质
CN107220532A (zh) * 2017-04-08 2017-09-29 网易(杭州)网络有限公司 用于通过声音识别用户身份的方法及设备
KR20180069660A (ko) * 2016-12-15 2018-06-25 삼성전자주식회사 음성 인식 방법 및 장치
CN109065038A (zh) * 2018-07-10 2018-12-21 广东九联科技股份有限公司 一种执法仪的语音控制方法及系统
KR20190012066A (ko) * 2017-07-26 2019-02-08 네이버 주식회사 화자 인증 방법 및 음성인식 시스템
KR20190030081A (ko) * 2017-09-13 2019-03-21 (주)파워보이스 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143540A1 (en) 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US8751429B2 (en) * 2012-07-09 2014-06-10 Wine Ring, Inc. Personal taste assessment method and system
KR102326272B1 (ko) * 2017-12-05 2021-11-15 삼성전자주식회사 외부 장치의 네트워크 셋업을 위한 전자 장치 및 그의 동작 방법
KR102513297B1 (ko) * 2018-02-09 2023-03-24 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
KR20200067673A (ko) * 2018-12-04 2020-06-12 (주)이더블유비엠 공유 ai 스피커
KR20190104263A (ko) * 2019-07-11 2019-09-09 엘지전자 주식회사 인공지능 기반의 음성 인식 서비스 제공 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180069660A (ko) * 2016-12-15 2018-06-25 삼성전자주식회사 음성 인식 방법 및 장치
CN107220532A (zh) * 2017-04-08 2017-09-29 网易(杭州)网络有限公司 用于通过声音识别用户身份的方法及设备
CN106992009A (zh) * 2017-05-03 2017-07-28 深圳车盒子科技有限公司 车载语音交互方法、系统及计算机可读存储介质
KR20190012066A (ko) * 2017-07-26 2019-02-08 네이버 주식회사 화자 인증 방법 및 음성인식 시스템
KR20190030081A (ko) * 2017-09-13 2019-03-21 (주)파워보이스 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비
CN109065038A (zh) * 2018-07-10 2018-12-21 广东九联科技股份有限公司 一种执法仪的语音控制方法及系统

Also Published As

Publication number Publication date
US11488595B2 (en) 2022-11-01
US20200320995A1 (en) 2020-10-08
KR102135182B1 (ko) 2020-07-17

Similar Documents

Publication Publication Date Title
US11564090B1 (en) Audio verification
EP3327720B1 (en) User voiceprint model construction method and apparatus
JP6772198B2 (ja) 言語モデルスピーチエンドポインティング
US9305553B2 (en) Speech recognition accuracy improvement through speaker categories
US7539616B2 (en) Speaker authentication using adapted background models
JP4571624B2 (ja) ローカルモデルを用いた話者認識
Tomashenko et al. The VoicePrivacy 2020 challenge evaluation plan
US12080282B2 (en) Natural language processing using context
CN113314119B (zh) 语音识别智能家居控制方法及装置
WO2020211006A1 (zh) 语音识别方法、装置、存储介质及电子设备
WO2020098523A1 (zh) 一种语音识别方法、装置及计算设备
KR20170007107A (ko) 음성인식 시스템 및 방법
US6341264B1 (en) Adaptation system and method for E-commerce and V-commerce applications
KR20210050884A (ko) 화자 인식을 위한 등록 방법 및 장치
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
EP4233047A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
KR20190093962A (ko) 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
Chakroun et al. Robust text-independent speaker recognition with short utterances using Gaussian mixture models
US20240013784A1 (en) Speaker recognition adaptation
CN111798844A (zh) 根据声纹识别的人工智能扬声器定制型个人化服务系统
US20240185846A1 (en) Multi-session context
JP4143541B2 (ja) 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム
WO2020003413A1 (ja) 情報処理装置、制御方法、及びプログラム
US20210193150A1 (en) Multi-stage speaker enrollment in voice authentication and identification
Das et al. Multilingual spoken-password based user authentication in emerging economies using cellular phone networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201020

WD01 Invention patent application deemed withdrawn after publication