CN112331193A - 语音交互方法及相关装置 - Google Patents
语音交互方法及相关装置 Download PDFInfo
- Publication number
- CN112331193A CN112331193A CN201910649383.8A CN201910649383A CN112331193A CN 112331193 A CN112331193 A CN 112331193A CN 201910649383 A CN201910649383 A CN 201910649383A CN 112331193 A CN112331193 A CN 112331193A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- electronic device
- user
- voiceprint
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 113
- 230000003993 interaction Effects 0.000 title claims abstract description 57
- 238000004590 computer program Methods 0.000 claims description 12
- 230000001960 triggered effect Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 description 44
- 238000004891 communication Methods 0.000 description 32
- 230000006854 communication Effects 0.000 description 32
- 238000001514 detection method Methods 0.000 description 29
- 230000036541 health Effects 0.000 description 28
- 230000004044 response Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 22
- 230000011218 segmentation Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 17
- 238000007726 management method Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 15
- 230000004927 fusion Effects 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000001419 dependent effect Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 8
- 238000012790 confirmation Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 206010020772 Hypertension Diseases 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- GRRMZXFOOGQMFA-UHFFFAOYSA-J YoYo-1 Chemical compound [I-].[I-].[I-].[I-].C12=CC=CC=C2C(C=C2N(C3=CC=CC=C3O2)C)=CC=[N+]1CCC[N+](C)(C)CCC[N+](C)(C)CCC[N+](C1=CC=CC=C11)=CC=C1C=C1N(C)C2=CC=CC=C2O1 GRRMZXFOOGQMFA-UHFFFAOYSA-J 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000002268 wool Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/66—Remote control of cameras or camera parts, e.g. by remote control devices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例提供一种语音交互方法,该交互方法包括:电子设备接收第一语音信号,所述第一语音信号包含唤醒词;所述电子设备根据所述唤醒词从待机状态切换到工作状态,所述电子设备采用第一音调输出第二语音信号,其中,所述第二语音信号的内容用于回应所述第一语音信号的内容,所述第一音调为根据所述第一语音信号的声纹特征关联的个人信息所得到,所述第一语音信号的声纹特征关联的个人信息包括第一注册语音信号所对应的个人信息,在多个注册语音信号中,所述第一注册语音信号的声纹特征与所述第一语音信号的声纹特征最相似。实施本申请实施例,采用符合用户需求的音调进行对话,提升用户体验。
Description
技术领域
本申请涉及终端及通信技术领域,尤其涉及语音交互方法及相关装置。
背景技术
随着人工智能的发展,出现了各种智能电子设备,比如智能音箱、智能机器人等等。用户可以与电子设备进行对话交流。通常用户在与电子设备交流之前,都需要通过固定的唤醒词唤醒该电子设备,待电子设备被唤醒后,用户即可与电子设备之间自由的交流,比如,可以向电子设备询问天气,让电子设备播放电视剧等等。但是电子设备与用户之间的对话没有针对性,即不同用户只要说出相似的话,电子设备的回应方式都是一样的。
发明内容
本申请实施例提供一种语音交互方法及相关装置,可以根据用户的语音信号的声纹特征关联的个人信息得到回应语音信号的音调,从而采用符合用户需求的音调进行对话,提升用户体验。
第一方面,本申请实施例提供一种语音交互方法,该语音交互方法应用于电子设备,该电子设备接收第一语音信号,第一语音信号包含唤醒词;比如第一语音信号为“小义小义,今天天气怎么样”,其中小义小义是唤醒词。
电子设备根据唤醒词从待机状态切换到工作状态,其中,电子设备处于待机状态是指,电子设备仅仅检测所接收的语音信号中是否包含唤醒词,而不对语音信号中的其他内容进行检测,并且也不作出回应。当电子设备检测到语音信号中包含唤醒词,则切换至工作状态,电子设备处于工作状态是指,电子设备会对所接收语音信号进行内容检测,并进行回应。
电子设备采用第一音调输出第二语音信号,其中,第二语音信号的内容用于回应第一语音信号的内容,比如,系统预设各种关键词对应的回答词语,检测第一语音信号中包含的关键词,然后查找该关键词对应的回答词语,并采用查找到的回答词语合成第二语音信号,该第二语音信号用于回应第一语音信号。
第二语音信号的第一音调为根据该第一语音信号的声纹特征关联的个人信息所得到,第一语音信号的声纹特征关联的个人信息包括第一注册语音信号所对应的个人信息,在多个注册语音信号中,第一注册语音信号的声纹特征与第一语音信号的声纹特征最相似。其中,注册语音信号是指用户在电子设备进行声纹注册时,电子设备采集的该用户的语音信号。不同注册语音信号可以是对应不同的用户。第一语音信号与第一注册语音信号的声纹特征最相似,则说明,对话的用户是第一注册语音信号对应的用户。
实施第一方面的方法,可以根据用户的语音信号的声纹特征关联的个人信息得到回应语音信号的音调,从而采用符合用户需求的音调进行对话,提升用户体验。
结合第一方面,在一些实施例中,个人信息包括方言信息,第一音调为采用方言信息所指示的方言输出第二语音信号的音调,比如重庆方言的音调;或者,
个人信息包括语种信息,第一音调为采用语种信息所指示的语种输出第二语音信号的音调,比如英语的音调;或者,
所述个人信息包括年龄信息和/或性别信息,第一音调为配置给所述年龄信息所指示的年龄段和/或性别信息所指示的性别对应的人群的音调。例如,系统预先设置各种年龄段和/或性别对应的音调,0-10岁年龄段的人群,可以采用卡通人物的音调。
结合第一方面,在一些实施例中,第一语音信号的音调为第二音调,电子设备在采用第一音调输出第二语音信号之前,该电子设备确定第一音调与第二音调是否相同,在第一音调与第二音调相同时,该电子设备才采用第一音调输出第二语音信号。比如,第一音调为重庆方言,用户也是采用重庆方言进行对话,则电子设备才采用重庆方言进行对话。
结合第一方面,在一些实施例中,电子设备确定第一音调与第二音调不同,比如,用户是采用普通话与电子设备进行对话,而电子设备根据第一语音信号的声纹特征关联的个人信息得到的第一音调为重庆方言,电子设备输出第三语音信号,该第三语音信号用于提示用户确定是否采用第一音调的语音信号进行对话。
电子设备接收第四语音信号,该第四语音信号指示采用第一音调的语音信号进行对话,则电子设备采用第一音调输出第二语音信号。
结合第一方面,在一些实施例中,电子设备接收第一语音信号之前,该电子设备接收第五语音信号,电子设备对第五语音信号进行语音识别,获得个人信息,并将个人信息与第一注册语音信号对应存储;比如,可以对第五语音信号进行识别获得的个人信息包括但不限于:年龄信息和/或性别信息,方言信息以及语种信息等等。或者,第五语音信号包含个人信息,将第五语音信号中的个人信息与第一注册语音信号对应存储。比如,用户可以主动触发电子设备存储个人信息的流程,第五语音信号包含的内容可以是:“将重庆方言存储为以后的对话语言”。
其中,在所述多个注册语音信号中,所述第五语音信号的声纹特征与第一注册语音信号的声纹特征最相似。
第二方面,本申请实施例提供一种语音交互方法,应用于电子设备,电子设备建立与终端设备之间的第一数据连接,该第一数据连接可以包括但不限于蓝牙连接、USB连接以及无线WiFi连接等等。
电子设备通过该第一数据连接接收终端设备发送的共享信息,该终端设备可以包括但不限于手机、个人数字助手等等。电子设备输出第一语音信号,该第一语音信号用于提示将终端设备的共享信息与第一注册用户标识对应存储,该第一注册用户标识用于标识电子设备中第一注册语音信号的声纹特征,且第一注册用户标识与上述终端设备关联。第一注册用户标识与终端设备关联是指该终端设备的所有共享信息与电子设备中多个注册用户标识中的第一注册用户标识对应存储。一个注册用户标识可以与多个终端设备关联。
电子设备接收第二语音信号,其中,在多个注册语音信号中,所述第二语音信号的声纹特征与所述第一注册语音信号的声纹特征最相似,该多个注册语音信号中各个注册语音信号的声纹特征可以是存储在电子设备上。
电子设备输出第三语音信号,该第三语音信号的内容用于回应第二语音信号的内容,且第三语音信号的内容为根据所述共享信息得到。比如,第二语音信号用于请求电子设备播放歌曲,共享信息包括终端设备上的歌曲信息,则第三语音信号可以是根据终端设备上的歌曲播放信息为用户推荐在终端设备上播放次数最多的歌曲。
实施第二方面的方法,通过与第一注册用户标识关联的终端设备收集共享信息,并基于终端设备的共享信息进行回应,能够提供更加贴合用户需求的回应内容。
结合第二方面,在一些实施例中,共享信息包括终端设备上的歌曲播放信息、终端设备上的视频播放信息、终端设备上设置的备忘录信息、终端设备上设置的闹钟信息以及终端设备的通讯录信息中的一种或者多种。
其中,歌曲播放信息包括但不限于歌曲播放记录,每首歌曲的播放次数、是否设置为最喜欢播放的歌曲以及歌曲的播放时间等等。视频播放信息包括但不限于视频播放记录、视频播放次数、是否设置为最喜欢播放视频等等。
结合第二方面,在一些实施例中,第一注册用户标识与终端设备的关联方式可以是,用户已经在电子设备进行过声纹注册,并且电子设备存储了相应的第一注册用户标识。在电子设备输出第一语音信号之前,该电子设备输出第四语音信号,该第四语音信号用于提示用户从多个注册用户标识中选择一个注册用户标识与终端设备关联,一个注册用户标识用于标识一个注册语音信号的声纹特征,电子设备接收包含所述第一注册用户标识的第五语音信号。该多个注册用户标识包含第一注册用户标识。
可选的,该多个注册用户标识可以是在该电子设备上进行过声纹注册的注册用户标识,该用户在该电子设备上进行过声纹注册,即可以在该多个注册用户标识中选择一个注册用户标识,比如选择的是第一注册用户标识,以便于第一注册用户标识与该终端设备关联,其中,第一注册用户标识与终端设备关联,可以是在电子设备中将第一注册用户标识与终端设备的设备码对应存储。
结合第二方面,在一些实施例中,第一注册用户标识与终端设备的关联方式还可以是,用户通过在终端设备上触发声纹注册实现第一注册用户标识与终端设备的关联。在电子设备建立与终端设备之间的第一数据连接之前,该电子设备建立与终端设备之间的第二数据连接,该第二数据连接包括但不限于蓝牙连接、USB有线连接等等。
用户可以在终端设备上触发声纹注册请求,比如用户可以在终端设备上应用程序上触发声纹注册请求,电子设备通过所建立的第二数据连接接收终端设备触发的声纹注册请求。响应于该声纹注册请求,电子设备输出第六语音信号,该第六语音信号用于提示用户输入注册用户标识。
电子设备接收包含第一注册用户标识的第七语音信号,电子设备进一步输出第八语音信号,该第八语音信号用于提示将第一注册用户标识与终端设备关联。第一注册用户标识与终端设备的关联可以是指,将第一注册用户标识与终端设备的设备码对应存储。下次终端设备与电子设备交互时,可以直接将终端设备的共享信息与该第一注册用户标识对应存储,以便于基于共享信息为第一注册用户标识对应的用户提供个性化服务。
电子设备可以进一步输出语言信号用于提示用户朗读预设的文本语句完成注册语音信号的声纹特征提取,并将该声纹特征与第一注册用户标识对应存储。
结合第二方面,在一些实施例中,第一注册用户标识与终端设备的关联方式还可以是,用户通过在终端设备上的应用程序登录第一账号,通过应用程序触发声纹注册实现第一注册用户标识与终端设备的关联。其中,该第一账号与电子设备的设备码绑定。
在电子设备建立与终端设备之间的第一数据连接之前,该电子设备建立与终端设备之间的第三数据连接,该第三数据连接可以是网络连接,比如WiFi连接,移动通信网络连接等等。电子设备通过第三数据连接接收终端设备触发的声纹注册请求,即用户可以在终端设备的应用程序上触发声纹注册流程。
电子设备通过第三数据连接接收终端设备触发的声纹注册请求,该声纹注册请求包含终端设备登录的第一账号。
电子设备输出第九语音信号,所述第九语音信号用于提示将所述第一账号作为所述第一注册用户标识。终端设备登录的第一账号与终端设备中的第一注册用户标识相同,即可实现第一账号与第一注册用户标识的关联,登录第一账号的终端设备可以将共享信息发送至电子设备,电子设备将该共享信息与第一账号相同的第一注册用户标识对应存储。
电子设备可以进一步输出语言信号用于提示用户朗读预设的文本语句完成注册语音信号的声纹特征提取,并将该声纹特征与第一注册用户标识对应存储。
结合第二方面,在一些实施例中,第一账号与电子设备的设备码绑定的方式可以是,在电子设备通过第三数据连接接收终端设备触发的声纹注册请求之前,电子设备接收第十语音信号,该第十语音信号用于指示电子设备输出电子设备的设备码。
可选的,电子设备输出包含所述电子设备的设备码的第十一语音信号,以触发所述终端设备绑定所述第一账号与所述电子设备的设备码,用户可以手动在终端设备输入电子设备的设备码,以实现第一账号和电子设备的设备码绑定;或者,所述电子设备输出包含所述电子设备的设备码的图形码,以触发所述终端设备扫描所述图形码实现所述第一账号和所述电子设备的设备码的绑定。
第三方面,本申请实施例提供一种语音交互方法,应用于电子设备,该电子设备接收第一语音信号,该第一语音信号用于指示所述电子设备通过采集图像获取个人信息。
电子设备采集被拍摄对象的第一图像;电子设备输出第二语音信号,所述第二语音信号用于提示将第一个人信息与第一注册用户标识对应存储,第一个人信息为通过对第一图像进行识别获得,比如第一图像为体检单对应的图像,第一个人信息可以是健康信息。或者,第一图像为人脸图像,第一个人信息可以是性别信息等等。所述第一注册用户标识用于标识电子设备中第一注册语音信号的声纹特征,在多个注册语音信号中,第一语音信号的声纹特征与第一注册语音信号的声纹特征最相似。
电子设备接收第三语音信号,在多个注册语音信号中,第三语音信号的声纹特征与第一注册语音信号的声纹特征最相似。
电子设备输出第四语音信号,第四语音信号的内容用于回应第三语音信号的内容,且所述第四语音信号的内容为根据所述第一个人信息得到,比如,用户第三语音信号用于请求电子设备推荐菜谱,则电子设备可以根据存储的该用户的健康信息,针对性提供符合用户健康条件的菜谱。
结合第三方面,在一些实施例中,被拍摄对象包括被拍摄人物,或者,被拍摄图片,或者被拍摄实物。
实施第二方面的方法,通过拍摄的方式获取个人信息,能够方便快速的收集大量的用户个人信息,以便于为用户提供个性化服务。
第四方面,还提供一种电子设备,该电子设备可包括拾音器,语音播放器,存储器,以及一个或多个处理器,上述一个或多个处理器用于执行存储在上述存储器中的一个或多个计算机程序实现第一方面或者第二方面或者第三方面的语音交互方法。
第四方面中电子设备包括的各个部件的具体实现方式可以参考第一方面或者第二方面或者第三方面的语音交互方法,这里不再赘述。
第五方面,还提供一种电子设备,该电子设备可包括一种装置,该装置可实现如第一方面任一可能的实现方式,或第二方面任一可能的实现方式,或第三方面任一可能的实现方式。
第六方面,还提供一种语音交互装置,该装置具有实现上述方法实际中电子设备行为的功能。上述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。上述硬件或软件包括一个或多个与上述功能相对应的模块。
第七方面,提供一种计算机设备,包括存储器,处理器以及存储在上述存储器上并可在上述处理器上运行的计算机程序,其特征在于,上述处理器执行上述计算机程序时使得上述计算机设备实现如第一方面中任一可能的实现方式,或如第二方面中任一可能的实现方式,或第三方面中任一可能的实现方式。
第八方面,一种包含指令的计算机程序产品,其特征在于,当上述计算机程序产品在电子设备上运行时,使得上述电子设备执行如第一方面中任一可能的实现方式,或如第二方面中任一可能的实现方式,或如第三方面中任一可能的实现方式。
第九方面,提供一种计算机可读存储介质,包括指令,其特征在于,当上述指令在电子设备上运行时,使得上述电子设备执行如第一方面中任一可能的实现方式,或如第二方面中任一可能的实现方式,或第三方面中任一可能的实现方式。
附图说明
图1是本申请实施例提供的电子设备的结构示意图;
图2A-图2G是本申请实施例提供的声纹注册人机交互图;
图3是本申请实施例提供的声纹注册流程图;
图4是本申请实施例提供的信息结构体的示意图;
图5A-图5B是本申请实施例提供的一种应用场景示意图;
图6A-图6B是本申请实施例提供的另一种应用场景示意图;
图7A-图7C是本申请实施例提供的又一种应用场景示意图;
图8A-图8B是本申请实施例提供的又一种应用场景示意图;
图9A-图9B是本申请实施例提供的系统架构图;
图10是本申请实施例提供的声纹辨识流程图;
图11是本申请实施例提供的详细声纹辨识流程图;
图12是本申请实施例提供的一种电子设备的模块图;
图13为本申请实施例提供的一种语音交互方法的流程图;
图14为本申请实施例提供的另一种语音交互方法的交互图;
图15为本申请实施例提供的又一种语音交互方法的流程图。
具体实施方式
本申请以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。
本申请实施例的电子设备可以适用于家庭、群组人群或者使用者众多的开放或者半开放设备,比如,家里的智能音箱、智能电视、办公室的智能语音产品、平板电脑等等,本申请实施例不作限定。可以理解的是,本申请实施例的电子设备也可以适用于智能手机。
本申请实施例的终端设备可以适用于私人使用的非开放设备,包括但不限于智能手机、个人数字助手等。
本申请实施例的唤醒是指电子设备与用户之间进行语音交互流程的第一步,电子设备与用户之间的语音交互流程可以被划分为五个环节:唤醒、响应、输入、理解、反馈。其中唤醒是每一次用户与语音产品之间交互的第一个接触点,唤醒环节的体验在整个语音交互流程中至关重要,唤醒电子设备即是将电子设备从待机状态切换到工作状态,只有将电子设备从待机状态切换到工作状态后,电子设备才能作出响应。
对于智能语音交互的电子设备,通常需要定义一个将电子设备从待机状态切换到工作状态的词语,即本申请实施例所提及的“唤醒词”。比如,用户需要向电子设备“问天气”,则需要通过叫出电子设备的“名字”,也就是“唤醒词”,来激活电子设备,将电子设备从待机状态切换到工作状态,电子设备切换到工作状态后,能对用户输入的除唤醒词外的命令语句作出反馈。比如,用户“问天气”,则电子设备即可以回答今天的天气。
针对一个电子设备,本申请实施例将用于唤醒电子设备的固定的词语称为“唤醒词”,比如“小义小义”、“你好YOYO”等等。本申请实施例中将用于指示电子设备需要执行的操作并且不固定的语句称为命令语句,比如“今天深圳天气怎么样”“给我推荐今天中午的菜谱”“我想去运动”“我想订机票”等等。
本申请实施例中,电子设备采集用户说的话语对应的语音信号,将该语音信号中包含唤醒词的语音信号称为文本相关语音信号,将该语音信号中包含命令语句的语音信号称为文本无关语音信号。对于一段语音信号,可能仅仅包含文本相关语音信号,或者可能同时包含文本相关语音信号和文本无关语音信号,或者,电子设备被唤醒后,该段语音信号可能仅仅包含文本无关语音信号。
其中,文本相关语音信号的声纹特征称为文本相关声纹特征,文本无关语音信号的声纹特征称为文本无关声纹特征。
本申请实施例的信息结构体为一种数据结构,一个注册用户的信息存储在一个信息结构体中,注册用户的信息包括注册用户ID、注册用户的声纹特征、注册用户的个人信息,注册用户的个人信息可以是注册用户在注册时所提供的信息,以及该注册用户后续使用电子设备过程中所提取的历史信息或者偏好信息,注册用户的个人信息是电子设备选择的一些可行的、符合隐私和安全规范的信息,便于在后续该注册用户使用电子设备过程中提供个性化服务。注册用户的声纹特征包括该注册用户的文本相关声纹特征以及文本无关声纹特征,该文本相关声纹特征以及文本无关声纹特征是该注册用户在声纹注册时,电子设备所提取的,具体技术细节请参照后续实施例的描述,在此不再赘述。
本申请实施例的声纹注册是指注册用户在电子设备上输入注册用户ID,并提取注册用户的注册语音信号的文本相关声纹特征和文本无关声纹特征存储在电子设备上的过程,电子设置将注册用户ID与文本相关声纹特征和文本无关声纹特征对应存储,以便于后续对使用用户的声纹辨识。多个不同注册用户可以在同一个电子设备上完成声纹注册。
本申请实施例的账号注册是指注册用户在电子设备对应的应用程序上进行注册的过程。注册用户在电子设备对应的应用程序上输入账号和登录密码完成注册。
在本申请实施例中,针对同一个注册用户,该注册用户在电子设备上存储的注册用户ID与终端设备上注册的账号相同。用户可以在终端设备上登录账号后,触发电子设备上的声纹注册流程,同时将该账号发送至电子设备作为声纹注册的注册用户ID。具体注册流程请参照后续实施例的阐述,暂不赘述。
下面首先介绍本申请以下实施例中提供的示例性电子设备100。
图1示出了电子设备100的结构示意图。
电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线,无线通信模块160,音频模块170,喇叭170A,麦克风170B,耳机接口170C,传感器模块180,马达191,指示器192,摄像头193,显示屏194等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),图形处理器(graphics processing unit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digitalsignal processor,DSP),和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在本申请实施例中,处理器110可用于对输入语音的声纹特征与电子设备所存储的声纹特征进行声纹匹配,其中处理器110进行声纹匹配的具体流程请参照后续实施例的相关描述,在此不再赘述。在一些实施例中,处理器110还可以用于根据声纹匹配结果向用户输出与该用户对应的语音信息。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现电子设备100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现电子设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
天线用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线转为电磁波辐射出去。
在一些实施例中,电子设备100的天线无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全WLAN,NFC,FM,和/或IR技术等。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
在本申请实施例中,显示屏194可用于显示控件,该控件可用于监听展开显示电子设备的设置功能所对应的控件的操作。比如声纹注册操作,响应于该声纹注册操作,电子设备即进入注册流程,具体注册流程可参照后续实施例的相关描述,在此不再赘述。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备100的各种功能应用以及数据处理。
电子设备100可以通过音频模块170,喇叭170A,麦克风170B,和耳机接口170C,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
喇叭170A,用于将音频电信号转换为声音信号。电子设备100可以通过喇叭170A收听音乐或者听电子设备反馈的语音信息。
麦克风170B,用于将声音信号转换为电信号。当用户发声时,麦克风170B采集声音信号。电子设备100可以设置至少一个麦克风170B。在另一些实施例中,电子设备100可以设置两个麦克风170B,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170B,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,电子设备100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当电子设备100是翻盖机时,电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备100附近有物体。当检测到不充分的反射光时,电子设备100可以确定电子设备100附近没有物体。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。
指纹传感器180H用于采集指纹。
温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,电子设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。
骨传导传感器180M可以获取振动信号。
马达191可以产生振动提示。马达191可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
下面介绍电子设备100提供的一些示例性用户界面(user interface,UI)以及电子设备100与用户之间的一些示例性语音交互过程。其中,本申请的说明书和权利要求书及附图中的术语“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(graphic user interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备100的显示屏中显示的一个图标、窗口、控件等界面元素。电子设备100与用户之间的语音交互是指,用户发声之后,电子设备100采集到用户的语音信号,并对语音信号进行内容解析以及声纹辨识之后,针对性的输出包含符合该用户需求的内容的语音信号。可以理解的是,电子设备100还可以不包括终端屏幕,则电子设备100所显示的内容信息可以通过电子设备100通过语音的方式播放。
本申请的电子设备100不仅可以为注册用户提供智能语音服务,还能为非注册用户提供语音服务。若电子设备100为注册用户提供智能语音服务,则采集使用用户的语音信号,对所采集的语音信号进行声纹辨识,确认该使用用户对应的注册用户ID(identification),获取电子设备100所存储的该注册用户ID对应的个人信息,个人信息包括但不限于该注册用户ID的偏好方言、喜欢歌曲以及所设置的健康信息等等。通过对语音信号的内容识别,确认需要电子设备100需要执行的操作,比如需要电子设备100播放一首歌曲。进一步,根据所获取的注册用户ID对应的个人信息和电子设备100需要执行的操作,针对性为该使用用户提供个性化服务。若为非注册用户,则电子设备100根据常规设置提供普通服务。
下面介绍本申请实施例提供的几种在电子设备100上进行声纹注册的方式。
图2A示例性示出了电子设备100上的一种声纹注册的语音交互图和用户界面图。如图所示,在电子设备处于待机状态时,即图2A中的用户界面10,使用用户为用户1,如果用户1需要进行注册,则可以说出话语1“小义小义,我要注册”,需要说明的是,话语1的内容信息可以不仅限于“小义小义,我要注册”,还可以是其他话语内容信息,比如“小义小义,我想注册”,“小义小义,我需要注册”,“小义小义,启动注册流程”等等,本申请实施例不作限定。其中,“小义小义”是唤醒词,用于唤醒电子设备,即电子设备检测到话语1对应的语音信号包含唤醒词时,即从待机状态启动,转变为工作状态。其中,“我要注册”是命令语句,命令语句用于指示电子设备需要执行的操作,即电子设备对话语1对应的语音信号中的文本无关语音信号进行内容识别,确定需要启动注册流程。
电子设备启动注册流程,并显示用户界面11,同时输出话语2“请问您需要注册的注册用户ID”,该注册用户ID为用户标识,用于唯一标识一个注册用户。话语2的目的在于提示用户输入注册用户ID,具体话语内容本申请不作限定,比如还可以是“您的ID呢”。
用户继续回答话语3“我的注册用户ID是13524678900”,电子设备对话语3对应的语音信号进行内容识别,获取并存储注册用户ID,同时显示用户界面12,并输出话语4“请诵读屏幕显示的文本语句进行声纹注册”。
当用户开始阅读屏幕显示的文本语句时,即用户回答话语5“小义小义,今天上海天气怎么样……”,电子设备采集话语5对应的注册语音信号,并提取该注册语音信号的声纹特征作为该注册用户ID对应的声纹特征,声纹特征包括文本相关声纹特征和文本无关声纹特征。电子设备提取该注册语音信号的声纹特征的提取方法请参照后续实施例的描述,在此不再赘述。本申请实施例将用于提取注册用户声纹特征的语音信号称为注册语音信号。
电子设备完成对该使用用户的声纹注册,即成功存储注册用户ID与声纹特征之间的对应关系后,即已经完成声纹注册,显示用户界面13,同时电子设备输出话语6“已经完成声纹注册,您可以进一步完善个人信息”。比如用户还可以完善自己的性别、年龄、爱好等,电子设备将使用用户的个人信息与注册用户ID、声纹特征对应存储,例如可以采用信息结构体的方式进行对应存储。信息结构体是一种数据结构,具体请参照后续实施例的描述,在此不再赘述。
图2B示例性示出了电子设备100上的另一种用户注册的语音交互图和用户界面图。如图所示,在电子设备100处于待机状态时,即电子设备100显示图2B中的用户界面20,用户可以在电子设备100显示屏的状态栏处做一个向下滑动的手势来打开窗口,并可以在窗口中点击“注册”的开关控件来方便地启动注册流程。“注册”的开关控件的表现形式可以为文本信息和/或图标。
当电子设备检测到在状态栏上的向下滑动手势时,响应于该手势,电子设备100显示用户界面21,即在用户界面20上叠加显示一个窗口。窗口中可以显示有“注册”的开关控件,还可以显示有其他功能(如Wi-Fi、蓝牙、屏幕录制等等)的开关控件。当检测到在窗口中的开关控件“注册”上的操作(如在开关控件“注册”上的触摸操作)时,响应于该操作,电子设备100可以启动注册流程。
电子设备显示用户界面22,并输出话语1“请问您需要注册的ID”,用户回答话语2“我的ID是13524678900”,电子设备对话语2的内容信息进行内容识别,获得并存储注册用户的ID,同时显示用户界面23,并输出话语4“请诵读屏幕显示的文本语句进行声纹注册”。后续注册流程请参照图2A实施例的描述在此不再赘述。
图2C-图2E示例性示出了电子设备100上的又一种声纹注册的语音交互图和用户界面图。在该实施例中,用户可以在终端设备200上触发启动声纹注册流程,进一步完成在电子设备100上的声纹注册。终端设备200可以包括但不限于智能手机、个人数字助手等等。在该实施例中,电子设备100与终端设备200之间可以是通过互联网进行连接。
在用户进行声纹注册之前,请参照图2C,先阐述本申请实施例在终端设备200上实现电子设备100和终端设备200之间的绑定,可以理解的是,图2C示例性示出一些用户界面实施例,并不对本申请实施例构成限定,电子设备100和终端设备200之间的绑定流程还可以包括其他用户界面。
用户界面30示例性示出了终端设备200上的用于展示终端设备200安装的应用程序,应用程序图标可包括但不限于:微信(Wechat)的图标、QQ的图标、推特(Twitter)的图标、脸书(Facebook)的图标、邮箱的图标、XXX的图标(即本申请实施例所提及的与电子设备100对应的应用程序图标)、备忘录的图标、支付宝的图标、图库的图标、设置的图标。其他应用程序图标可分布在多个页面。图2C示例性所示的用户界面30可以为主界面(Homescreen)。
XXX应用程序是电子设备的生产商所提供或研发的应用程序,用于安装在非电子设备的终端设备上,以实现终端设备与电子设备之间的信息交互。电子设备的生产商可以包括该电子设备的制造商、供应商、提供商或运营商等。制造商可以是指以自制或采购的零件及原料来加工制造电子设备的生产厂商。供应商可以是指提供该电子设备的整机、原料或零件的厂商。运营商可以是指负责该电子设备的经销的厂商。
当终端设备200检测到在XXX的图标上的操作时,响应该操作,终端设备200显示用户界面31,用户界面31显示XXX应用程序登录或者注册界面,若用户未在XXX应用程序上注册过账号,则点击“注册”控件,并按照账号注册流程进行账号注册,可选的,账号可以是电话号码。
若用户完成在XXX应用程序上的注册流程,用户可以在用户界面31上输入登录账号13691831678和密码,然后对“登录”控件进行操作,比如点击操作,终端设备200响应该操作,并显示用户界面32。用户界面32显示有“设置”控件、“电话”控件、“设备绑定”控件以及“视频通话”控件,还可以显示用户曾经设置的头像。
用户可以对用户界面32上的“设备绑定”控件进行操作,终端设备200响应该操作,并显示用户界面33。用户界面33显示“输入设备码”控件和“扫描二维码”控件,即用户可以通过输入设备码或者扫描电子设备的二维码的方式完成终端设备200与电子设备100之间的绑定。二维码中包括电子设备100的设备码。
上述设备码用于唯一标识一个电子设备,可选的,该设备码可以是电子设备100在首次联网时,向服务器申请,服务器为该电子设备100分配的唯一设备码。或者,可选的,该设备码可以是电子设备100在出厂时设置在该电子设备100内的唯一设备码。在电子设备100首次联网时,该电子设备100向服务器发送该电子设备100的设备码,自动完成电子设备100在服务器的设备注册。可选的,上述包含电子设备100的设备码的二维码可以是服务器根据电子设备100的设备码,按照预设规则生成的,并下发给电子设备100。
若用户选择用户界面33中的输入设备码的方式完成电子设备100与终端设备200的绑定,可选的,用户可以对电子设备说出话语“请告诉我设备码”,则电子设备100可通过语音输出该电子设备100的设备码,和/或,电子设备100显示该电子设备100的设备码。
或者,请参照图2F所示,用户获取电子设备100的设备码的获取方式还可以是,用户可以对图2F中的用户界面40显示屏幕的状态栏处做一个向下滑动的手势来打开窗口,如用户界面41所示,用户可以在窗口中点击“设置”的开关控件,电子设备100响应在“设置”的开关控件上的操作,并显示用户界面42,用户界面42中包括“设备码”控件,若用户对“设备码”控件进行操作,电子设备100响应在“设备码”控件上的操作,并输出设备码。
若用户选择用户界面33中的扫描二维码的方式完成电子设备100与终端设备200的绑定,则用户可以对电子设备说出话语“打开设备二维码”,则电子设备100响应该话语,并输出包含设备码的二维码,用户可以采用终端设备200扫描该二维码。其中,电子设备获取该二维码的方式请参照前述实施例的描述。
或者,请参照图2F所示,若用户对用户界面42上的“设备码”控件进行操作,电子设备100响应在“设备码”控件上的操作,并输出包括设备码的二维码。
通过图2C的绑定流程,完成终端设备200与电子设备100之间的绑定,请参照图2D,终端设备200显示用户界面34,用户界面34中包含“声纹注册”控件,并输出提示信息“若点击声纹注册,可以触发在电子设备100上的声纹注册流程”。
用户对“声纹注册”控件进行操作,终端设备200响应对“声纹注册”控件的操作,并向服务器发送第一声纹注册请求,该第一声纹注册请求包括在终端设备200上登录的账号13691831678和所绑定的电子设备100的设备码,服务器向设备码所标识的电子设备100发送第二声纹注册请求,该第二声纹注册请求包括终端设备200上登录的账号13691831678。
如图2E所示,电子设备100接收到第二声纹注册请求,响应该第二声纹注册请求,输出话语1“您的注册用户ID为13691831678,请诵读屏幕文本语句完成声纹注册”,电子设备100显示用户界面35。若该注册用户ID与电子设备100已经存储的注册用户ID重复,则电子设备100可以输出提示信息,该注册用户ID已经完成声纹注册,请不要重复进行声纹注册。
用户可以进一步诵读屏幕显示的文本语句完成声纹注册,具体流程请参照图2A或者图2B实施例的阐述,在此不再赘述。
可以理解的是,图2C-图2F仅仅示例性示出了电子设备100上的用户界面,不应构成对本申请实施例的限定。
图2G示例性示出了电子设备100上的又一种声纹注册的语音交互图和用户界面图。在该实施例中,用户可以在终端设备200上触发启动声纹注册流程,进一步完成在电子设备100上的声纹注册。终端设备200可以包括但不限于智能手机、个人数字助手等等。在该实施例中,电子设备100与终端设备200之间可以是通过短距离连接,比如蓝牙进行连接,也可以是通过有线连接,比如通用串行总线(Universal Serial BUS,USB)进行连接。图2G中以蓝牙连接作为举例说明。
如图2G所示,用户界面43可以是用户在对与电子设备100对应的应用程序图标进行操作所触发显示的用户界面。
当用户需要在电子设备100上进行声纹注册时,可以对终端设备200上的用户界面43中的“设置”控件进行操作,终端设备200响应该操作,显示用户界面45,用户可以对用户界面45中的“声纹注册”控件进行操作,从而触发在电子设备100上的声纹注册流程。终端设备响应用户在“声纹注册”控件上的操作,可以先对用户进行身份验证,比如指纹匹配,并明文提示用户声纹注册注意事项以及风险,以及进一步提示用户是否需要触发电子设备100上的声纹注册,在用户确定需要触发电子设备100的声纹注册时,终端设备200通过蓝牙连接向电子设备100发送声纹注册请求,电子设备100接收终端设备200的声纹注册请求,响应该声纹注册请求,输出话语1“请输入您的注册用户ID”,用户1可以说出话语2“注册用户ID为13691831678”,电子设备响应话语2,并显示用户界面47,用户可以诵读用户界面47中的文本语句完成声纹注册,具体声纹注册流程请参照前述实施例的描述,在此不再赘述。或者,用户也可以在终端设备200上输入注册用户ID,上述声纹注册请求中可以包括用户输入的注册用户ID,电子设备可直接显示用户界面47,用户可以诵读用户界面47中的文本语句完成声纹注册。
为了便于将该终端设备200绑定到该注册用户ID13691831678,电子设备100与终端设备200之间还可以进行设备信息的交互,终端设备200将该终端设备200的设备码发送至电子设备100中,电子设备100将该终端设备200的设备码存储在注册用户ID为13691831678的信息结构体中,以便于下次该终端设备200与电子设备100建立连接后,电子设备100能根据终端设备200的设备码查找到所绑定的注册用户ID。
示例性的,为了建立终端设备200与电子设备100之间的保密连接,提高信息交互安全,终端设备200与电子设备100之间还可以交换密匙,一个终端设备200对应一个密匙,即一机一密,电子设备100和终端设备200共同存储一份密匙。当电子设备100与终端设备200下次进行连接时,自动交换所存储的密匙,若相同,在用户知情的情况下(比如输出弹框的方式)可以进行信息共享。其中,电子设备100与终端设备200下次进行连接的具体描述请参照图7B的描述,暂不赘述。
请参照图3,为本申请实施例提供的一种电子设备提取注册用户的注册语音信号的声纹特征的提取方法的流程示意图,如图所示:
注册用户可以通过图2A或者图2B或者图2C-图2F或者图2G的方式启动声纹注册,电子设备获取注册语音信号,该注册语音信号包含唤醒词和命令语句,在本申请实施例中,将注册语音信号中包含唤醒词的语音信号称为文本相关语音信号,将注册语音信号中包含命令语句,而不包含唤醒词的语音信号称为文本无关语音信号。
本申请实施例中,电子设备将注册语音信号进行内容分割,内容分割方式可以是通过唤醒识别结果进行分割,比如,唤醒识别结果包括文本相关语音信号的结束时间标记,然后从注册语音信号中以结束时间标记为分割点,分割出文本相关语音信号和文本无关语音信号。或者,本申请实施例也可以通过内容识别模块进行分割,即内容识别模块识别出注册语音信号中的唤醒词和命令语句,将包含唤醒词的语音信号作为文本相关语音信号,将包含命令语句的语音信号作为文本无关语音信号。
电子设备在完成内容分割之后,对注册语音信号进行以信噪比为主的语音质量检测以及内容匹配度检测,保证注册语音信号满足语音质量和内容匹配的双重要求。若语音质量检测不通过,则提示用户环境嘈杂,请重新输入,或者,若内容匹配度检测不通过,则提示用户内容不匹配,请重新输入。
当注册语音信号通过上述语音质量和内容匹配度检测之后,就可以进行声纹特征的提取,基于文本相关声纹模型对文本相关语音信号进行声纹特征提取,得到文本相关声纹特征。基于文本无关声纹模型对文本无关语音信号进行声纹特征提取,得到文本无关声纹特征。将每个注册用户ID与对应的文本相关声纹特征、文本无关声纹特征进行存储。如图3所示,将注册用户ID、文本相关声纹特征、文本无关声纹特征存储在注册用户声纹模板库中。
可选的,针对每个注册用户,注册用户ID与文本相关声纹特征、文本无关声纹特征的存储方式可以是以信息结构体的方式存储在电子设备中。每当需要新存储一个注册用户ID时,即在电子设备中新建一组该注册用户的信息构成该注册用户的信息结构体。如图4所示,为本申请实施例提供的一种信息结构体的示意图,如图所示,一个注册用户对应一个信息结构体,该信息结构体中可以存储的信息包括但不限于注册用户ID、文本相关声纹特征、文本无关声纹特征、性别、年龄区间、城市以及喜欢的歌手歌曲等等。其中,信息结构体中的性别、年龄区间、城市、语种、健康信息以及喜欢的歌手歌曲视频节目等等信息可以是注册用户在注册时通过语音交互输入的,也可以是注册用户注册后,在使用过程中电子设备学习到的该注册用户的信息,具体可以参照后续实施例的描述,在此不再赘述。
需要说明的是,上述注册用户的信息结构体可以存储于电子设备中,进一步可选的,还可以通过系统的系统安全区进行信息保存,保存的信息也是经过系统加密的,满足用户对于信息保护的要求,并且容许用户自行删除。可选的,在用户允许的情况下,上述注册用户的信息结构体也可以加密存储在服务器中,在用户更换一个电子设备时,更换后的电子设备仍然能够方便的获取到注册用户的信息。
下面结合几个不同的使用场景,介绍使用用户在使用电子设备过程中,不断积累注册用户的个人信息,并在电子设备通过声纹辨识,识别出该使用用户是某个注册用户时,根据该注册用户ID对应的个人信息向该使用用户提供个性化服务,下面阐述电子设备100与使用用户之间语音交互的一些实施例和电子设备100上实现的图形用户界面及终端设备200上实现的图形用户界面的一些实施例。
(一)使用场景一:语种或者方言交流使用场景
以下图5A-图5B示例性示出的用户与电子设备之间语音交互实施例以及电子设备的用户界面实施例中,用户1为使用用户,用户1可以与电子设备之间通过语音对话的方式将自己偏好的语种或者方言存储在该用户1对应的信息结构体中。后续当用户1与电子设备进行语音交互时,该电子设备即采用用户1曾经设置的偏好的语种或者方言进行交互。本申请实施例的语种可以包括但不限于中文、英语、韩语等等。
下面说明图5A-图5B示例性示出用户1与电子设备之间通过曾经设置的用户1偏好的重庆方言进行语音交互的实施例。
用户1可以通过图2A或者图2B或者图2C-图2F或者图2G的方式进行声纹注册。不限于此,在一些实施例中,用户1还可以通过其他方式进行声纹注册。
用户1完成在电子设备100的声纹注册后,该电子设备100即存储了用户1的注册用户ID、用户1的声纹特征以及个人信息,用户1的注册用户ID、声纹特征以及个人信息可以是以信息结构体的方式进行存储,如图3所示,可以存储在注册用户声纹模板库中。用户1的声纹特征包括文本相关声纹特征和文本无关声纹特征。当用户1后续使用时,如图5A所示,电子设备100处于待机状态,即显示用户界面40,用户1说出话语1“小义小义,我想添加我喜欢的方言”,电子设备100首先对话语1对应的语音信号进行唤醒识别,识别出话语1的语音信号中包含唤醒词,即唤醒电子设备100。其中,话语1的内容形式不仅限于此,还可以是其他内容形式,比如“小义小义,我要设置常用方言”、“小义小义,帮我添加方言”等等。
进一步,电子设备100将话语1的语音信号进行内容分割,划分为文本相关语音信号和文本无关语音信号,并基于内容分割结果对该文本相关语音信号和文本无关语音信号进行声纹辨识,从图3中的注册用户声纹模板库中确定出该用户1的注册用户ID,具体声纹辨识流程请参照后续实施例的描述,暂不赘述。
此外,对文本无关语音信号进行内容识别和自然语言理解,确定电子设备100需要执行的操作为显示常用方言供用户选择,即显示用户界面41,并输出话语2“您喜欢哪种方言呢,以便于后续咱们的沟通”。其中,话语2的内容形式不仅限于此,还可以是其他内容形式,比如“请设置常用方言”、“请说出您喜欢的方言”等等。
当用户1听到电子设备100输出的话语2,立刻回应话语3“我希望以后跟我用重庆方言交流”,可以理解的是,话语3的内容形式不仅限于此,还可以是其他内容形式,比如“重庆方言”“我喜欢重庆方言”“沟通方言为重庆方言”等等,本申请实施例不作限定。
电子设备100获取话语3对应的语音信号,并进行内容识别和自然语言理解,确定电子设备100需要执行的操作为将重庆方言存储到用户1对应的信息结构体中,电子设备100显示用户界面42,并输出话语4“已经将重庆方言存储为您偏好的方言”。
不限于图5A所示的为注册用户存储语种和/或方言的形式,本申请实施例还可以在注册时,为该注册用户存储语种和/或方言。如图2A的用户界面13和图2B的用户界面24以及图2E的用户界面36所显示的,用户可以说出话语“我想进一步完善个人信息”,则电子设备100可以显示用户可以完善的个人信息类别,包括但不限于“性别、年龄、职业、口味以及语种和/或方言等等”,注册用户可以根据自己的需要选择性完善上述个人信息,比如,用户可以说出话语“我喜欢重庆方言”,电子设备100即将重庆方言存储为该注册用户偏好的方言。或者,用户还可以在注册时,采用自己所喜欢的方言或者语种诵读屏幕显示的文本语句进行声纹注册,如图2A中的用户界面12中所显示的文本语句,以及如图2B中用户界面23中所显示的文本语句,以及图2E的用户界面36中所显示的文本语句。电子设备100对注册语音信号进行识别,电子设备100不仅对该注册语音信号进行文本相关声纹特征提取和文本无关声纹特征提取,还会基于方言或者语种识别模型和参数对该注册用户所使用的方言或者语种进行估计,其中,方言或者语种识别模型和参数是通过线下收集大量不同说话人的语音信号,然后构建深度神经网络模型并利用机器学习算法训练得到,使用时加载相关模型参数即可得到相关结果。
如图5B所示,电子设备100显示用户界面50,即电子设备100处于待机状态。用户1说出话语1“小义小义,我比较空闲”。电子设备100获取话语1对应的语音信号,并对话语1对应的语音信号进行唤醒识别,确定该话语1对应的语音信号中是否包含唤醒词。若确定该话语1对应的语音信号中包含唤醒词,唤醒识别通过,唤醒电子设备100。
进一步电子设备100对话语1对应的语音信号进行内容分割,划分为文本相关语音信号和文本无关语音信号,并基于内容分割结果对该文本相关语音信号和文本无关语音信号进行声纹辨识,从图3中的注册用户声纹模板库中确定出该用户1对应的注册用户ID,具体声纹辨识流程请参照后续实施例的描述,暂不赘述。从注册用户1对应的信息结构体中获取到用户1的个人信息,比如,获取到该用户1的方言设置为重庆方言。
此外,对文本无关语音信号进行内容识别和自然语言理解,确定电子设备100需要执行的操作为显示用户界面51,即输出所获取的该用户1曾经设置的偏好方言为重庆方言,并且电子设备100采用重庆方言输出话语2“那我们来摆哈龙门阵嘛”。
用户1可以采用重庆方言继续回答话语3“重庆啥子好吃耶”,电子设备100获取话语3对应的语音信号,并对话语3对应的语音信号进行内容识别和自然语音理解,确定电子设备100需要执行的操作为回应话语4“重庆的火锅吃起来巴适得很哟,为您推荐了几个火锅店”,并显示用户界面52,用户界面52显示具体火锅店的位置。
不限于图5A-图5B所示,各个用户界面的页面布局还可以呈现其他形式,各个话语的内容信息还可以是其他内容形式,本申请实施例对此不做限制。
通过实施本申请图5A-图5B所示实施例,为某个注册用户预先设置比较偏好的交流语种和/或方言,后续该注册用户使用电子设备100时,电子设备100通过声纹辨识确定注册用户ID,即采用预先设置的比较偏好的交流语种或者方言与该注册用户进行交流,提高沟通效率,用户体验好。
(二)使用场景二:基于健康信息个性化推荐
以下图6A-图6B示例性示出的用户与电子设备100之间语音交互实施例以及电子设备100的用户界面实施例中,使用用户为用户2,电子设备100可以通过拍摄的方式获取用户2的健康信息,并将用户2的健康信息存储在该用户2对应的信息结构体中。后续当用户2与电子设备100进行语音交互时,该电子设备100即根据用户2的健康信息针对性的为用户2提供推荐服务。
下面说明图6A-图6B示例性示出用户2与电子设备100之间通过拍摄的方式将用户2的健康信息存储在电子设备100中,并利用用户2所存储的健康信息为用户2进行针对性的推荐。
用户2可以通过图2A或者图2B或者图2C-图2F或者图2G的方式进行声纹注册。不限于此,在一些实施例中,用户2还可以通过其他方式进行声纹注册。
用户2完成在电子设备100的声纹注册后,该电子设备100即存储了用户2的注册用户ID、声纹特征以及个人信息,用户2的注册用户ID、声纹特征以及个人信息可以是以信息结构体的方式进行存储。声纹特征包括用户2的文本相关声纹特征和文本无关声纹特征。当用户2后续使用时,如图6A所示,电子设备100处于待机状态,即显示用户界面60,用户1说出话语1“小义小义,帮我存储健康信息”,电子设备100首先对话语1对应的语音信号进行唤醒识别,识别出话语1的语音信号中包含唤醒词,即唤醒电子设备100。
进一步,电子设备100将话语1对应的语音信号进行内容分割,划分为文本相关语音信号和文本无关语音信号,并基于内容分割结果对该文本相关语音信号和文本无关语音信号进行声纹辨识,从图3中的注册用户声纹模板库中确定出该用户2的注册用户ID,具体声纹辨识流程请参照后续实施例的描述,暂不赘述。
此外,电子设备100还对话语1对应的语音信号中文本无关语音信号进行内容识别和自然语言理解,确定电子设备100需要执行的操作为显示可以选择的存储方式,即显示用户界面61,可以通过拍摄或者语音对话的方式进行存储,并输出话语2“您选择哪一种输入方式”,或者话语2还可以包含用户可以选择的两种方式。
当用户2听到电子设备100输出的话语2,立刻回应话语3“第一种”,可以理解的是,话语3的内容形式不仅限于此,还可以是其他内容形式,本申请实施例不作限定。
电子设备100获取话语3对应的语音信号,并进行内容识别和自然语言理解,确定电子设备100需要执行的操作为打开电子设备100的摄像头,并输出话语4“请将您的检查单置于屏幕上方进行拍摄”。可选的,电子设备100在拍摄过程中,还可以针对用户出现的拍摄问题进行指导,比如提示环境太暗,或者距离太近,等等。
可选的,若电子设备100检测到能识别出检查单的内容,即自动进行拍摄,或者,可选的,用户可以通过语音“拍摄”指令来控制电子设备100进行拍摄。电子设备100拍摄到检查单的图片之后,进行图像识别,并显示用户界面62。在电子设备100完成对图片的识别之后,可以输出话语5“识别出高血压,并存储您的健康信息”。
通过拍摄检查单的方式存储健康信息可以方便快速的存储健康信息,不需要用户去读取检查单,再通过复杂的语音交互来进行存储。
不限于图6A所示的为注册用户存储健康信息的形式,本申请实施例还可以在注册时,为该注册用户存储健康信息。如图2A的用户界面13和图2B的用户界面24以及图2E的用户界面36所显示的,用户可以说出话语“我想进一步完善个人信息”,则电子设备100可以显示用户可以完善的个人信息类别,包括但不限于“性别、年龄、职业、口味以及健康信息等等”,注册用户可以根据自己的需要选择性完善上述个人信息,比如用户可以通过语音的方式告诉电子设备100自己的健康信息。
如图6A的用户界面61,用户如果说出话语“第二种”,电子设备100即会回应“请问您需要存储的健康信息是什么”,用户2即可通过语音回应的方式向电子设备100存储自己的健康信息。
如图6B所示,电子设备100显示用户界面70,即电子设备100处于待机状态。用户2说出话语1“小义小义,我今天吃完午饭去运动”。电子设备100获取话语1对应的语音信号,并对话语1对应的语音信号进行唤醒识别,确定该话语1对应的语音信号中是否包含唤醒词。若确定该话语1对应的语音信号中包含唤醒词,唤醒识别通过,唤醒电子设备100。
进一步对话语1对应的语音信号进行内容分割,划分为文本相关语音信号和文本无关语音信号,并基于内容分割结果对该文本相关语音信号和文本无关语音信号进行声纹辨识,从图3中的注册用户声纹模板库中确定出该用户2的注册用户ID,具体声纹辨识流程请参照后续实施例的描述,暂不赘述。从用户2的注册用户ID对应的信息结构体中获取到用户2的个人信息,比如,获取到该用户2的健康信息为高血压。
此外,对文本无关语音信号进行内容识别和自然语言理解,确定需要向用户2推荐午餐的菜谱和下午的运动类型,结合用户2的健康信息,针对性的为用户2推荐适合该用户的菜谱和运动类型,如图6B所示,电子设备100显示用户界面71,即显示用户2曾经存储的健康信息、根据健康信息为用户2针对性推荐的菜谱和运动类型,并且电子设备100输出话语2“您不适合吃油腻食物,不适合剧烈运动,并为您推荐以下菜谱和运动”。进一步可选的,用户2可以通过语音方式选择某一个菜谱的具体步骤,比如菜谱1。
不限于图6A-图6B所示,各个用户界面的页面布局还可以呈现其他形式,各个话语的内容信息还可以是其他内容形式,本申请实施例对此不做限制。
通过实施本申请图6A-图6B所示实施例,注册用户可以通过多种方式存储自己的健康信息,后续该注册用户使用电子设备100时,电子设备100通过声纹辨识确定是哪一个注册用户,并根据该注册用户ID对应的健康信息针对性的为该注册用户进行推荐,不限于菜谱和运动的推荐,提高更匹配用户需求的个性化服务。
(三)使用场景三:基于性别和/或年龄的个性化服务
用户3可以通过图2A或者图2B或者图2C-图2F或者图2G的方式进行声纹注册。不限于此,在一些实施例中,用户3还可以通过其他方式进行声纹注册。
本申请实施例中,使用用户为用户3,用户3在进行声纹注册时,诵读屏幕显示的文本语句,如图2A的用户界面12、如图2B的用户界面23以及如图2E的用户界面35所示,电子设备100获取注册语音信号,电子设备100不仅对该注册语音信号进行文本相关声纹特征提取和文本无关声纹特征提取,还会基于性别识别模型和参数对该注册用户的性别进行估计,和/或,基于年龄区间识别模型和参数对该注册用户的年龄区间进行估计,从而丰富该注册用户的信息结构体。
其中,性别识别模型和参数以及年龄区间识别模型和参数是通过线下收集大量不同说话人的语音信号,然后构建深度神经网络模型并利用机器学习算法训练得到,使用时加载相关模型参数即可得到相关结果。
需要说明的是,如果电子设备100通过用户3在注册时的注册语音信号无法精确得到用户性别和年龄区间,则可以在完成注册后,在后续使用过程中电子设备100收集该注册用户的其他语音信号完成性别和年龄区间的识别。
或者,用户3还可以在进行声纹注册时,如图2A的用户界面13和图2B的用户界面24以及图2E的用户界面36所显示的,用户可以通过说出话语“我想进一步完善个人信息”的方式,来完善个人性别和/或年龄信息。或者,用户3还可以在声纹注册后,通过语音交互的方式来进行一步完善个人性别和/或年龄信息,此时电子设备100需要首先对用户3进行声纹辨识,确定对应的注册用户ID,从而将性别和/或年龄信息存储到该注册用户ID对应的信息机构体中。
用户3在电子设备100完成声纹注册后,该电子设备100即存储了用户3的注册用户ID声纹特征以及个人信息,用户3的注册用户ID、声纹特征以及个人信息可以是以信息结构体的方式进行存储。声纹特征包括用户3的文本相关声纹特征和文本无关声纹特征。进一步,电子设备100若完成对用户3的性别和/或年龄区间的识别,该信息结构体中还将存储用户3的性别和/或年龄区间,以便于电子设备100后续为用户3针对性提供个性化服务。电子设备可以单独根据性别或者年龄为用户3提供个性化服务,也可以结合性别和年龄为用户3提供个性化服务。
若用户3的年龄区间是小孩,则当用户3后续使用时,电子设备100通过声纹辨识确定用户3对应的注册用户ID,并从该注册用户ID对应的信息结构体中获取到该用户3的年龄区间为小孩,则电子设备100会采用更具童气和卡通人物的回答风格、并采用相应的音调进行语音合成,满足小孩的对话习惯和乐趣。比如,用户3说出话语“小义小义,我想看电视”,电子设备100首先对该话语的语音信号进行唤醒识别,识别出该话语的语音信号中包含唤醒词,即唤醒电子设备100。然后针对该话语中的文本无关语音信号进行内容识别,确定需要向用户3推荐电视节目,结合用户3的年龄区间为小孩,电子设备100可以采用孙悟空的音调回答话语“小朋友,今天作业完成了吗,完成了才可以看电视哦”。
若用户3的年龄区间为老人,则当用户3后续使用时,电子设备100通过声纹辨识确定用户3对应的注册用户ID,并从该注册用户ID对应的信息结构体中获取到该用户3的年龄区间为老人,则电子设备100会采用更成熟简练的对话内容并适当调大播放音量保证对话顺利。比如,用户3说出话语“小义小义,我想看电视剧”,电子设备100首先对该话语的语音信号进行唤醒识别,识别出该话语的语音信号中包含唤醒词,即唤醒电子设备100。然后针对该话语中的文本无关语音信号进行内容识别,确定需要向用户3推荐电视节目,结合用户3的年龄区间为老人,电子设备100会为用户3推荐描述五六十年代生活的电视剧,并且调大播放音量。
若用户3的性别为女性,则当用户3后续使用时,电子设备100通过声纹辨识确定用户3对应的注册用户ID,并从该注册用户ID对应的信息结构体中获取到该用户3的性别为女性,则电子设备会推荐女性喜欢的内容给用户3,比如用户3说出话语“我想买凉鞋”,则电子设备100会优先推荐女性凉鞋商品给用户3。
示例性的,本申请实施例还可以结合用户3的性别和年龄区间进行针对性推荐,比如,若用户3为中年男性,则电子设备100可以采用中年男性声音回应用户3的话语,若该用户3需要看新闻,可以为该用户推荐国际时事新闻;本申请实施例对此不作限定。电子设备100不仅可以根据注册用户的年龄和/或性别合成具有相应的音调的话语,还可以根据注册用户的年龄和/或性别推荐符合注册用户年龄和/或性别的推荐内容。
不限于上述各个话语的内容信息还可以是其他内容形式,本申请实施例对此不做限制。
(四)使用场景四:基于电子设备与终端设备之间的信息共享实现个性化服务
请参照图7A,为本申请实施例示例性示出的终端设备200上启动信息共享的UI实施例,用户可以通过对图2C中的用户界面30上的XXX应用图标进行操作进入图7A中的用户界面80,用户界面80显示用户登录界面,该登录界面显示文本输入框“账号”和“密码”,以及“登录”控件和“注册”控件。
使用用户为用户1,用户1输入账号和密码后,对“登录”控件进行操作,终端设备200响应对“登录”控件的操作,并显示用户界面81,由于该账号已经完成与电子设备100之间的绑定,因此用户界面81显示“设备00X10”控件。若用户1对“设置”控件进行操作,电子设备100响应该操作,并显示设置应用界面,用户1可以在设置应用界面进行账号退出登录、密码修改以及头像更换等等。
若用户1对用户界面81中的“设备00X10”控件进行操作,终端设备200响应对“设备00X10”控件的操作,向服务器发送网络连接请求,该网络连接请求中包含终端设备200的登录账号,以及电子设备100的设备码,服务器接收网络连接请求,向设备码所标识的电子设备100发送网络连接信息,该网络连接信息包括登录账号,以建立终端设备200与电子设备100之间的网络连接,同时终端设备200显示用户界面82,用户界面82中输出提示信息用于提示用户是否允许终端设备200与电子设备100之间进行信息共享。用户可以选择是或者否。
若用户选择是,终端设备显示用户界面83,该用户界面83显示有“设置”控件以及可以选择的共享信息类型,如下:
1、用户在终端设备200上的歌曲播放记录,可选的,还可以进一步显示用户播放每首歌曲的播放次数。
2、用户在终端设备200上的视频播放记录。
3、用户在终端设备200上设置的备忘录和/闹钟。
4、用户在终端设备200上设置的通讯录,该通讯录包括各个好友的电话号码。
可以理解的是,上述共享信息类型1-4仅为举例,还可以包括其他类型,本申请实施例不作限定。用户可以选择其中的至少一个类型。
若用户选择类型1,即用户可以对“歌曲播放记录”控件进行操作,终端设备200响应该操作,将终端设备200中缓存的用户最近播放的歌曲信息发送至电子设备100中,歌曲信息包括但不限于歌曲名称,播放次数等等。
若用户选择类型2,即用户可以对“视频播放记录”控件进行操作,终端设备200响应该操作,将终端设备200中缓存的用户最近播放的视频的视频播放信息发送至电子设备100中,视频播放信息包括但不限于视频名称,上次播放的结束时间点等等。
若用户选择类型3,即用户可以对“备忘录”控件进行操作,终端设备200响应该操作,将用户在终端设备200上设置的备忘录信息发送至电子设备100中。
若用户选择类型4,即用户可以对“通讯录”控件进行操作,终端设备200响应该操作,并将终端设备上所存储的通讯录发送至电子设备100中,进一步可选的,还可以将用户最近的通话记录发送至电子设备100中。
请参照图7B,为本申请实施例示例性示出的终端设备200上启动信息共享的UI实施例,在进行信息共享之前,用户可以图2G的声纹注册方式通过终端设备200完成在电子设备100上的声纹注册,并且电子设备100上存储了终端设备200的设备码与注册用户ID之间的对应关系,即电子设备的注册用户ID为13691831678的信息结构体中存储了终端设备200的设备码。此外,终端设备200与电子设备100之间还共同存储了一份密匙,该密匙唯一对应一个终端设备200。如图7B所示,电子设备100与终端设备200之间通过蓝牙或者USB等近距离连接方式建立连接。
用户可以通过对图2C中的用户界面30上的XXX应用图标进行操作进入图7B中的用户界面84,用户可以对用户界面84中的“信息共享”控件进行操作,终端设备200响应该操作,显示用户界面86,并向电子设备100发送信息共享请求,该信息共享请求中包含终端设备的设备码,电子设备100可以通过信息共享请求中的设备码查找到对应的注册用户ID为13691831678。可选的,电子设备100与终端设备200之间还可以通过交换密匙确保信息共享的安全性。在确保信息共享的安全性条件下,终端设备200与电子设备100之间可以进行信息共享。
用户可以对用户界面86所显示的至少一种需要共享的信息进行选择操作,终端设备200响应该选择操作,并向电子设备100发送用户选择的需要共享的信息,电子设备接收到需要共享的信息,并显示用户界面87。
请参照图7C,为本申请实施例示例性示出的终端设备200上启动信息共享的UI实施例,在该实施例中,用户可以通过包括但不限于图2A或者图2B的方式在电子设备100上进行过声纹注册,或者,用户没有进行过声纹注册。用户可以是首次在终端设备200上连接电子设备100。
用户可以通过对图2C中的用户界面30上的XXX应用图标进行操作进入图7C中的用户界面88,或者用户可以对用户界面84中的“信息共享”控件进行操作,终端设备200响应该操作,显示用户界面88,提示用户终端设备200已经与电子设备100建立连接,由用户确定是否曾经在电子设备100上进行过声纹注册,注册方式可以是前述图2A或者图2B的声纹注册方式。
若用户选择是,终端设备200显示用户界面89,进一步提示用户是否与电子设备100进行信息共享,若用户选择是,终端设备200向电子设备100发送信息共享请求,电子设备100可以向终端设备200返回已经在电子设备100上进行过声纹注册的注册用户ID,终端设备200接收电子设备100返回的注册用户ID,并显示用户界面90,以供用户进一步选择自己注册的注册用户ID,终端设备200响应用户对注册用户ID的选择操作,显示用户界面91,用户可以从用户界面91中进一步选择需要共享的信息类型,终端设备将用户所选择的注册用户ID和所选择的共享信息发送至电子设备100,电子设备100接收注册用户ID和所选择的共享信息,并显示用户界面92。电子设备100的具体响应方式请参照图8A实施例,暂不赘述。
可选的,用户在对用户界面89对控件“是”进行选择操作后,终端设备200向电子设备100发送信息共享请求,终端设备200即显示用户界面91,电子设备100接收信息共享请求,可以显示该电子设备100中存储的注册用户ID以供用户进行选择。即用户可以在终端设备200或者电子设备100上进行注册用户ID的选择。
为了建立终端设备200与注册用户ID之间的对应关系(以便于终端设备200与电子设备100再次建立连接时,电子设备100能够直接获取到该终端设备200所对应的注册用户ID),终端设备200还可以将该终端设备200的设备码发送至电子设备100,电子设备100将终端设备的设备码存储在用户所选择的注册用户ID对应的信息结构体中,以建立终端设备200与注册用户ID之间的对应关系。
示例性的,为了建立终端设备200与电子设备100之间的保密连接,提高信息交互安全,终端设备200与电子设备100之间还可以交换密匙,一个终端设备200对应一个密匙,即一机一密,电子设备100和终端设备200共同存储一份密匙。当电子设备100与终端设备200下次进行连接时,自动交换所存储的密匙,若相同,在用户知情的情况下(比如输出弹框的方式)可以进行信息共享。
示例性的,若用户未在电子设备100上进行过声纹注册,即用户界面88上,用户选择否,则终端设备200可以输出提示信息,引导用户进行声纹注册,比如,可以采用图2G的方式进行声纹注册。
请参照图8A,为本申请实施例示例性示出的电子设备上的UI实施例,当用户1通过图7A中的用户界面81中的“设备00X10”控件的操作,终端设备200响应该操作,向服务器发送网络连接请求,该网络连接请求中包含终端设备200的登录账号,以及电子设备100的设备码,服务器接收网络连接请求,向设备码所标识的电子设备100发送网络连接信息,该网络连接信息包括登录账号,电子设备100接收网络连接信息,电子设备100响应该网络连接信息,建立与终端设备200之间的网络连接。电子设备进一步根据网络连接信息中所携带的登录账号,从所存储的注册用户ID中查找与登录账号匹配的注册用户ID,并将匹配的注册用户ID确定为目标注册用户ID。
当用户通过图7A中的用户界面83中的信息类型选择的操作,终端设备200响应该操作,将用户所选择的需要共享的信息发送至电子设备100,包括但不限于图7A实施例所阐述的类型1-类型4的信息。电子设备100将终端设备200所发送的需要共享的信息存储在目标注册用户ID对应的信息结构体中,以便于后续为该用户1提供个性化服务。
若用户在图7A中的用户界面83中选择的是歌曲播放记录,终端设备200将歌曲播放记录信息发送至电子设备100中。如图8A所示,电子设备100接收到歌曲播放记录信息,并显示用户界面93,用户界面93所显示的歌曲播放记录可以是按照播放次数进行排列显示的,电子设备输出话语1“已经接收到您的歌曲播放记录并进行存储。”
可选的,用户也可以通过图7B或者图7C的方式将终端设备200的歌曲播放记录发送至电子设备100中,如果用户采用图7B中的方式发送歌曲播放记录,则终端设备200需要将自身的设备码发送给电子设备100,以便于电子设备100根据终端设备200的设备码查找到对应的注册用户ID,作为歌曲播放记录需要存储的对应注册用户ID。如果用户采用图7C的方式发送歌曲播放记录,则电子设备100将用户所选择的注册用户ID(可以是在终端设备200上选择,也可以在电子设备100上选择)作为歌曲播放记录存储的对应注册用户ID,如图8A所示,电子设备100接收到歌曲播放记录信息,并显示用户界面93,用户界面84所显示的歌曲播放记录可以是按照播放次数进行排列显示的,电子设备100输出话语1“已经接收到您的歌曲播放记录并进行存储。”
示例性的,为了保障电子设备100与终端设备200之间的信息安全,在进行信息传输之前,电子设备100与终端设备200之间还可以通过交换密匙确保信息传输的安全性。
可以理解的是,这里以用户选择“歌曲播放记录”作为举例说明,还可以是其他信息,比如可以选择一个类型信息或者多个类型信息存储到电子设备100中,不构成对本申请实施例的限定。
电子设备100通过图8A的方式存储终端设备200共享的信息后,当用户后续再次使用时,能基于电子设备100所存储的共享信息为用户提供个性化服务。如图8B所示,使用用户为用户1,电子设备100处于待机状态,电子设备显示用户界面94,即电子设备处于待机状态。用户1说出话语1“小义小义,我想听歌”。电子设备获取话语1对应的语音信号,并对话语1对应的语音信号进行唤醒识别,确定该话语1对应的语音信号中是否包含唤醒词。若确定该话语1对应的语音信号中包含唤醒词,唤醒识别通过,唤醒电子设备。
进一步对话语1对应的语音信号进行内容分割,划分为文本相关语音信号和文本无关语音信号,并基于内容分割结果对该文本相关语音信号和文本无关语音信号进行声纹辨识,从图3中的注册用户声纹模板库中确定出该用户1的注册用户ID,具体声纹标识流程请参照后续实施例的描述,暂不赘述。从用户1的注册用户ID对应的信息结构体中获取到用户1的个人信息,比如,获取到该用户1在终端设备200上的歌曲播放记录。
此外,对文本无关语音信号进行内容识别和自然语言理解,确定需要向用户1推荐歌曲,结合用户1在终端设备200上的歌曲播放记录,针对性的为用户1推荐适合该用户歌曲,如图8B所示,该注册用户ID所存储的歌曲播放记录中“宁夏”播放最多次数。如图8B所示,电子设备显示用户界面95,即显示需要播放歌曲宁夏,并且电子设备输出话语2“好的,为您播放宁夏”。
可选的,若用户1说出话语“我想看视频”,电子设备100根据从终端设备200所接收的视频播放记录获取到相应的视频播放信息,并向用户1推荐最近播放的视频,进一步可选的,视频播放信息包括最近播放的视频的上一次播放的结束时间点,电子设备100从结束时间点开始继续播放该视频。
可选的,若用户1说出话语“打开我的备忘录”,电子设备100根据从终端设备200所接收的备忘录信息,向用户展示该用户的备忘录。
可选的,若用户1说出话语“我要打电话”,电子设备100根据从终端设备200所接收的通讯录,获取用户最近通话频繁的联系人A的电话号码,并回应“您是需要给A拨打电话吗?”若用户回答是,则电子设备100可以向A拨打网络电话。
可以理解的是,不仅限于上述终端设备200将信息共享至电子设备100中,还可以将电子设备100的信息共享至终端设备中,比如,用户1可以对电子设备100说出话语:“我要将信息共享至终端设备”,电子设备100可以输出可以选择的共享信息类型,包括但不限于视频播放记录、歌曲播放记录等等。若用户选择视频播放记录,则电子设备将视频播放记录和该用户1的注册用户ID发送至服务器,服务器将视频播放记录推送给该注册用户ID匹配的登录账号,从而将电子设备100的信息共享至终端设备200中,其中,终端设备200登录该账号。
可以理解的是,“信息共享”只是本实施例中所使用的一个词语,其代表的含义在本实施例中已经记载,其名称并不能对本实施例构成任何限制。在本申请其他一些实施例中,“信息共享”也可以被称为例如“信息沟通和交流”“信息传输”“终端设备信息共享至电子设备”“电子设备信息共享至终端设备”等其他名词。
不限于上述各个使用场景,本申请实施例还可以用于其他场景,比如,某个注册用户经常询问某个城市的天气如何,电子设备多次分析和比对之后,将该城市信息存储在该注册用户ID对应的信息结构体中,后续当该注册用户再次询问天气而又忽略了提供地点信息时,电子设备即提供该注册用户ID对应的信息结构体中所存储的城市的天气。本使用场景尤其适用于未安装全球定位系统(Global Positioning System,GPS)的电子设备中。
又比如,某个注册用户经常请求电子设备播放某位歌手的歌曲或者某首歌曲,电子设备分析比对之后将这部分偏好信息存储在该注册用户ID对应的信息结构体中,后续当该注册用户请求电子设备播放歌曲时,电子设备即将存储在该注册用户ID对应的信息结构体中的偏好歌曲推荐给用户。本使用场景尤其适用于用户提供的信息比较简单时,电子设备需要针对性的推荐适合该用户的信息,比如,用户仅仅提供“播放歌曲”。
需要说明的是,上述电子设备对用户的识别以确定注册用户ID,均是采用后续实施例提供的声纹辨识流程进行识别的。
若前述实施例中,电子设备通过声纹辨识,从注册用户声纹模板库中未识别到是注册用户,则电子设备加载普通设置,提供普通服务。
可以理解的是,上述实施例中电子设备100可以包括屏幕,也可以不包括屏幕,若电子设备100包括屏幕可以采用上述UI实施例中电子设备100的用户界面进行显示,若电子设备100不包括屏幕,则电子设备100将用户界面所显示的内容可以通过语音的方式输出,比如,上述实施例中电子设备100显示文本语句用于用户诵读并进行声纹注册时,电子设备100可以让用户跟随电子设备100诵读文本语句,电子设备100诵读一句,用户跟随诵读一句,电子设备100采集用户诵读文本语句的注册语音信号。例如,电子设备可以输出话语:“请跟随我诵读如下文本语句”。
基于前述内容介绍的电子设备与用户之间的语音交互以及前述UI实施例,下面实施例介绍本申请实现前述语音交互以及前述UI实施例的系统架构。如图9A所示,为本申请实施例提供的一种系统结构图,该系统架构中包含唤醒识别、声纹辨识以及内容识别的流程。
本申请实施例实现唤醒识别和声纹辨识两个模块地解耦,在语音信号中包含唤醒词时,优先保证电子设备的唤醒,响应任何用户的唤醒需求;当语音信号包含命令语句时,电子设备融合文本相关声纹特征和文本无关声纹特征的声纹辨识保证更高准确性的声纹辨识性能。
如图9A所示,电子设备的麦克风采样语音信号,然后对语音信号进行麦克风活动检测(microphone activity detection,MAD),上述麦克风活动检测是指实现对于麦克风采集语音信号的能量检测,当输出语音信号的能量超过一定阈值之后才启动下一级人声检测模块进行人声检测判断。用于进行麦克风活动检测的麦克风活动检测模块可以通过硬化到器件芯片中,更好的实现节能和运行效率。
人声检测判断是指检测输入的语音信号是否符合人声语音的基本特点,确保的确是人声信号之后才将对语音信号进行下一级的唤醒识别模块进行唤醒识别。人声语音的基本特点包含基频和谐波、100hz~4000hz所占信号能量比例等。
唤醒识别模块内置唤醒词的识别模型和参数,对语音信号进行语音识别,确认是否包含特定的唤醒词譬如“小义小义”,若确认包含唤醒词则唤醒电子设备进行后续功能。如图5A、图5B、图6A以及图6B均需要通过对语音信号进行唤醒识别,确定语音信号是否包含唤醒词“小义小义”,在确定语音信号包含唤醒词,唤醒电子设备。
其中,唤醒识别一般采用深度学习的模型和参数进行唤醒识别,比如基于深度神经网络的声学模型配合解码进行识别的方法,或者采用深度神经网络模型进行端到端关键词识别的模型参数等等。
可选的,如果电子设备是接电设备的话,上述唤醒识别模块可以是一级唤醒识别;如果是需要考虑功耗的设备,则可以考虑使用二级唤醒机制,其中,第一级实现一个小规模的唤醒识别系统,在节约计算资源的情况下保证包含唤醒词语音信号通过情况下,拦住尽量多的人声而不包含唤醒词的语音信号,第二级利用一个更大规模的唤醒识别系统实现更精准的唤醒词识别,排除一级唤醒通过的而不包含唤醒词的语音信号。
上述麦克风活动检测模块、人声检测模块和唤醒识别模块在做出判断是否通过的结果之前需要运行时间,所以每个模块需要配置存储模块,再作出通过与否的判断结果之前,暂时缓存已经处理和送入的语音信号,保证后续处理数据的完整性。
可选的,电子设备所处的环境不仅多样而且很多情况下是嘈杂的,本申请实施例中,为了保证唤醒识别、声纹辨识和内容识别的准确性能,可以在唤醒识别模块前增加一个前端增强模块。前端增强模块用于辅助完成对单麦克风或者多麦克风语音信号的语音唤醒识别,保真语音信号的同时尽量多降低噪声提升识别性能。
针对单麦克风的电子设备,前端增强模块所采用的单麦克风增强算法主要实现在语音信号的时频谱图上减除噪声成分。针对多麦克风的电子设备,前端增强模块所采用的多麦克风增强算法较为多样,主要包括麦克风定向算法、波束形成算法以及时频谱降噪(包括神经网络类算法)和盲源分离算法等。
示例性的,前端增强模块还可以包括场景分析算法,该场景分析算法主要分析噪声场景、下行播放音源、上行人声能量以及环境噪声能量等,综合场景分析的结果和前端增强处理算法保证降噪性能提升语音唤醒、声纹辨识和语音识别等的准确性。其中,下行播放音源指电子设备当前播放的语音或者音乐,上行人声能量指用户的语音能量大小。
通过唤醒识别模块完成对电子设备的唤醒之后,电子设备继续将语音信号(该语音信号包括唤醒词和命令语句)上传至内容分割模块进行内容分割。内容分割模块可以对语音信号进行切分,切分为文本相关语音信号和文本无关语音信号,文本相关语音信号包含唤醒词譬如“小义小义”,文本无关语音信号包括命令语句。可选的,内容分割模块可以利用唤醒识别的结果对语音信号进行切分,唤醒识别的结果包括唤醒词的开始时间点和结束时间点。或者,内容分割模块可以通过对语音信号的内容进行识别,完成切分。其中,内容分割模块设置于服务器,也可以设置在电子设备内。
将上述文本相关语音信号和文本无关语音信号上传至声纹辨识确认模块进行声纹辨识,以确定是哪一个注册用户ID,以进一步从从信息结构体中获取该注册用户ID的其他个人信息。
内容识别模块用于对语音信号中的文本无关语音信息进行内容识别,确认需要执行的用户命令,比如,需要获取歌曲,或者需要返回菜谱等等。可选的,内容识别模块可以设置于服务器,也可以设置于电子设备中。
声纹辨识确认模块,根据已经存储在电子设备中的注册用户的声纹特征(包括文本相关声纹特征和文本无关声纹特征)与所采集的语音信号的声纹特征(包括文本相关声纹特征和文本无关声纹特征)进行声纹比对验证,确认该用户是否为注册用户,若是注册用户,将注册用户ID和需要执行的用户命令输入个性服务应用程序APP,进一步根据注册用户ID对应的个人信息和需要执行的用户命令提供个性化服务、以及个性化推荐。如图5B所示,根据注册用户ID对应的方言与用户进行对话,如图6B所示,根据注册用户ID对应的健康信息针对性推荐菜谱和运动类型,具体实施例请参照图5B和图6B实施例的描述,在此不再赘述。关于声纹辨识确认模块进行声纹辨识的具体流程请后续参照10和图11实施例的具体阐述,在此暂不赘述。
若不是注册用户,则根据需要执行的用户命令加载普通设置提供常规服务。
请参照图9B,为本申请实施例提供的另一种系统架构图,图9B的系统架构与图9A的区别在于,图9A在进行人声检测判断通过之后才进行唤醒识别,否则丢弃本批次数据。图9B中将人声检测模块和唤醒识别模块融合,语音信号在通过麦克风活动检测之后进入融合模块,由融合模块输出判断结果,融合模块包括人声检测模块和唤醒识别模块。如融合模块输出的判断结果为不通过,则可能是人声检测模块未通过,或者唤醒识别模块未通过,或者两者均未通过。
图9B中的其他模块执行的操作请参照图9A实施例的描述,在此不再赘述。
请参照图10,为图9A和图9B中的声纹辨识确认模块进行声纹辨识的处理流程,主要包含文本相关声纹识别模块、文本无关声纹识别模块、防录音攻击检测模块、得分融合模块以及比对判断模块。
文本相关声纹识别模块:针对内容分割所得到的文本相关语音信号,基于文本相关声纹模型得到该文本相关语音信号的文本相关声纹特征,并计算该文本相关声纹特征与各个注册用户的文本相关声纹特征之间的文本相关比对得分。
文本无关声纹识别模块:针对内容分割所得到的文本无关语音信号,基于文本无关声纹模型得到该文本无关语音信号的文本无关声纹特征,并计算该文本无关声纹特征与各个注册用户的文本无关声纹特征之间的文本无关比对得分。
得分融合模块:将上述文本相关声纹识别模块得到的各个文本相关比对得分与上述文本无关声纹识别模块得到的各个文本无关比对得分进行融合计算,得到与各个注册用户之间的多个声纹得分,其中,一个声纹得分对应一个注册用户。融合计算的策略比较多,最简单的是加权求和方式,选择最优的加权求和比值即可。
可选的,上述得分融合模块在进行融合计算之前,还可以各个文本相关比对得分和文本无关比对得分分别进行归一化,保证两者的得分均值和分布的基本一致性,保证融合计算的可行性和效果。
比对判断模块:得分融合模块获得了当前使用用户和每个注册用户的声纹得分之后,比对判断模块将各个声纹得分与对应注册用户的门限进行比较,确认当前使用用户为哪一个注册用户。具体比较方式请参照图11实施例的描述,在此暂不赘述。
防录音攻击检测模块可以部署在不同位置,如图10所示,可以将防录音攻击检测模块部署在同声纹识别模块并行处理的位置。可选的,防录音攻击检测模块也可以部署在声纹识别模块前,如果输出检测结果为正后,通过声纹识别模块进行声纹辨识。上述防录音攻击检测模块输出的结果有两类:一类为正,即肯定语音信号是真人发声;一类为负,即判断语音信号非真人发声。防录音攻击检测模块,保证排除录音合成回放攻击的可能,一旦识别出非真人发声,加载普通设置,提供基本服务。
请参照图11,更详细描述了声纹辨识确认模块中的比对得分计算过程和比对判断过程,首先利用已经训练好的文本相关声纹模型针对使用用户的语音信号中文本相关语音信号进行文本相关声纹特征的提取,然后将所提取的文本相关声纹特征与所有注册用户注册时存储的文本相关声纹特征进行比对,计算使用用户的文本相关声纹特征与各个注册用户的文本相关声纹特征之间的多个文本相关比对得分,一个文本相关比对得分对应一个注册用户,该文本相关比对得分是使用用户的文本相关声纹特征与该注册用户的文本相关声纹特征之间的比对得分。相应的,利用已经训练好的文本无关声纹模型针对使用用户的语音信号中文本无关语音信号进行文本无关声纹特征的提取,然后将所提取的文本无关声纹特征与所有注册用户注册时存储的文本无关声纹特征进行比对,计算使用用户的文本无关声纹特征与各个注册用户的文本无关声纹特征之间的多个文本无关比对得分,一个文本无关比对得分对应一个注册用户,该文本无关比对得分是使用用户的文本无关声纹特征与该注册用户的文本无关声纹特征之间的比对得分。
获取每个注册者对应的文本相关比对得分和文本无关比对得分,分别将各个注册者对应的文本相关比对得分和文本无关比对得分进行得分融合计算,得到每个注册者对应的声纹得分,该声纹得分表示使用用户与该注册用户之间的声纹匹配度。
比对判断模块将每个注册者对应的声纹得分与该注册者对应的门限进行比较,并根据比较结果确定使用用户是否为该注册用户。本申请实施例中,电子设备设置双门限,即每个注册用户设置两个门限:高门限和低门限。其中,可以是所有注册用户所设置的高门限和低门限均相同,或者,所有注册用户中属于同一个类别的注册用户设置相同的高门限和低门限,比如,同属于男性小孩的注册用户的高门限和低门限相同,同属于女性中青年的高门限和低门限相同。
其中,注册用户的高门限、低门限是通过线下大量数据测试得到,综合各种性能指标譬如错误拒绝率(是注册用户但被拒绝)和错误接收率(非注册用户但被识别为某注册用户)得到。高门限对应着更低的错误接收率和更高的错误拒绝率。
可选的,所有注册用户设置相同的高门限、低门限,若融合计算出某位注册用户对应的声纹得分最高,即使用用户与该注册用户之间的声纹匹配度最高,且该注册用户对应的声纹得分高于该注册用户的高门限,则确定使用用户即为该注册用户,并根据该注册用户ID对应的个人信息为使用用户提供个性化服务。
若融合计算出某位注册用户对应的声纹得分最高,但是该声纹得分低于该注册用户的高门限而高于该注册用户的低门限,此时电子设备响应使用用户的命令并加载普通设置,且声纹辨识模块继续等待使用用户输入语音信号,以便利用更多数据进行声纹辨识,确定后续动作。
若融合计算出某位注册用户对应的声纹得分最高,但是该声纹得分低于所有注册用户的低门限,则确定没有辨识到任何一位注册用户,系统直接加载普通设置,提供基本服务。
可选的,所有注册用户中属于同一个类别的注册用户设置相同的高门限和低门限,不同类别的注册用户的高门限、低门限不同,比如注册用户的高门限、低门限是依据性别和年龄区间分别进行设置的。
融合计算出各个注册用户对应的声纹得分,将各个注册用户对应的声纹得分与该注册用户的高门限进行比较,比如A注册用户对应的声纹得分与A注册用户的高门限进行比较。若只有一个注册用户的声纹得分超过该注册用户的高门限,则确定使用用户为该注册用户。若多个注册用户对应的声纹得分超过该各个注册用户的高门限,选择声纹得分超过高门限最大的注册用户,并确定使用用户为该注册用户。若没有注册用户的声纹得分超过各自的高门限,选择声纹得分超过低门限最大的注册用户作为候选用户,并继续等待使用用户输入语音信号,以便于与该候选用户进行比对计算。若所有注册用户对应的声纹得分均低于各自的低门限,则加载普通设置,提供基本服务。
需要说明的是,上述声纹模型(包括文本相关声纹模型、文本无关声纹模型)和比对得分计算的算法有很多组合,目前采用如下组合均可:GMM-UBM的模型和对数似然的比对得分计算;DNN-ivector的模型和LDA配合PLDA的比对得分计算;x-vector的模型和LDA配合PLDA的比对得分计算等。其中,GMM-UBM模型和参数、DNN-ivector模型和参数以及x-vector模型和参数适配专门的文本相关语料和文本无关语料通过机器学习算法进行训练得到。
当电子设备识别出目前使用用户为某注册用户且响应之后,在后续的声纹辨识过程中,只有在声纹辨识模块辨识出的结果跟上次不同时,即辨识出是另一个注册用户,才重新加载另外一个注册用户的设置。
本申请实施例中声纹辨识确认的过程可以在每一次交互任务时进行一次声纹辨识,给出相应结果;也可以是经过一定时间之后,并在一次新的交互任务开始时进行声纹辨识,输出响应结果。一次交互任务是使用用户和电子设备之间一次完整的唤醒、响应、命令和后续交互完成的事项称之为“一次交互任务”,即在电子设备再次进入待机状态之前所交互完成的任务为同一次交互任务,当电子设备再次进入待机状态,需要通过唤醒词唤醒该电子设备。如图5A所示,即是一次交互任务。
如图12所示,为本申请实施例提供的一种电子设备包括的功能模块的架构图。下面展开:
输入设备可以包括拾音设备、触摸屏以及摄像头,拾音设备可以包括麦克风。本申请实施例中,输入设备采集用户的语音信号。
输出设备可以包括播放设备,比如喇叭、听筒。可选的,本申请实施例的电子设备还可以包括屏幕,也可以不包括屏幕,屏幕用于显示电子设备的图形用户界面。
场景分析模块,用于用户在与电子设备交互过程中,通过对上行人声能量和下行播放音源的处理,分析出目前用户使用过程中的场景信息譬如是否有音源播放、噪声环境和用户声音能量大小、拾音信噪比等,上行人声能量可以麦克风获取到用户的声音能量大小,下行播放音源是指电子设备本身的音源播放,比如电子设备在播放音乐。
增强模块,用于综合利用场景分析模块所获取的信息,辅助进行语音增强,提升唤醒识别、声纹辨识和语音识别等的性能。
唤醒识别模块,可用于对增强模块处理的语音信号进行唤醒识别,即识别语音信号中是否包含唤醒词,若识别出语音信号中包含唤醒词,即唤醒电子设备,电子设备从待机状态切换到工作状态。
语音识别模块,可用于实现对增强模块处理的语音信号的文本转换,比如,用户输出话语“小义小义,我想听歌”,输入模块采集该话语的语音信号,并将该语音信号输入到语音识别模块进行文本转换,得到该语音信号对应的文本为“小义小义,我想听歌”。
自然语言理解模块,可用于实现对语音识别模块转换得到的文本或者由其他设备譬如触摸屏输入的文本进行语言结构、语义和含义的理解,此时需要通过其他数据库知识,如知识图谱来进行语义理解。
声纹辨识确认模块:可用于实现对增强模块处理的的语音信号进行声纹辨识和确认,以确定当前使用用户是哪一个注册用户。具体声纹辨识和确认请参照图9A、图9B、图10和图11实施例的描述,在此不再赘述。
对话管理模块:可用于实现自然语言理解模块、自然语言生成模块以及检索推荐模块和系统任务执行模块的衔接,根据自然语言理解模块的输出结果决定下一步对用户的回复方式和内容,其中回复内容还可以是根据自然语言理解模块的输出结果和声纹辨识确认模块所确定的注册用户ID对应的个人信息决定,从而实现个性化服务。而回复的方式可以是将回复内容通过自然语言生成模块生成对话文本,并由语音合成模块将对话文本进行语音合成的方式进行语音回复,也可以是根据用户需求由检索推荐模块进行检索和推荐,并通过屏幕输出的方式呈现,也可以通过生成执行命令由系统任务执行模块执行相应的操作,当然也可以是多种回复方式同步进行。如图5A、图5B、图6A和图6B所示,回复方式不仅通过语音回复,还通过屏幕显示。
自然语言生成模块:可用于将回复内容转化为对话文本信息。
语音合成模块:可用于将自然语言生成模块转化得到的对话文本信息通过语音合成系统转化为音频文件,并由输出模块中的播放设备进行播放。可选的,还可以根据注册用户的个人信息合成特定语调的音频文件,比如注册用户为使用方言交流,则需要合成对应方言的音频文件,具体请参照图5B实施例的描述,在此不再赘述。
可选的,若用户是通过文本输入的方式输入信息,则可以通过文本分析模块对输入的文本进行分析。并将分析结果交由自然语言理解模块进行语言结构、语义和含义的理解。可以理解的是,用户还可以采取其他输入方式与电子设备进行交互。
可选的,上述语音识别模块、自然语言理解模块和自然语言生成模块可设置在计算资源条件满足的电子设备上,也可以设置在服务器。若是设置在服务器,则将语音信号上传到服务器进行语音识别和自然语言理解,服务器将相关信息下发到电子设备中,相关信息可以是电子设备需要执行的操作信息,比如播放歌曲信息,电子设备根据相关信息执行相应的操作,譬如调用相关APP播放歌曲等。
请参照图13,为本申请实施例提供的一种语音交互方法的流程示意图,本申请实施例的示例性实现方式可以参考图5A和图5B的实现方式,在此不再赘述。如图所示,该语音交互方法可以包括:
S101,电子设备接收第一语音信号,所述第一语音信号包含唤醒词;
本申请实施例中,第一语音信号的示例性实现方式可以包括图5B中的话语1对应的语音信号。
S102,所述电子设备根据所述唤醒词从待机状态切换到工作状态,所述电子设备采用第一音调输出第二语音信号,其中,所述第二语音信号的内容用于回应所述第一语音信号的内容,所述第一音调为根据所述第一语音信号的声纹特征关联的个人信息所得到,所述第一语音信号的声纹特征关联的个人信息包括第一注册语音信号所对应的个人信息,在多个注册语音信号中,所述第一注册语音信号的声纹特征与所述第一语音信号的声纹特征最相似。
本申请实施例中的第一音调是根据第一语音信号的声纹特征关联的个人信息得到,比如,个人信息为重庆方言,则采用重庆方言的音调输出第二语音信号。第二语音信号的示例性实现方式可以包括图5B中的话语2对应的语音信号。
其中,电子设备在确定第一语音信号的第二音调与第二语音信号的第一音调相同时,采用第一音调输出第二语音信号。
电子设备中存储的个人信息可以是电子设备通过语音识别得到的,也可以是用户通过语音信号交互得到的,本申请实施例的第五语音信号的示例性实现方式可以包括图5A中的话语3对应的语音信号。
请参照图14,为本申请实施例提供的另一种语音交互方法的流程示意图,本申请实施例的示例性实现方式可以参考图2A至图2G的实现方式,以及图7A至图7C,以及图8A至图8B,在此不再赘述。如图所示,该语音交互方法可以包括:
S201,电子设备建立与终端设备之间的第一数据连接;
本申请实施例的第一数据连接的示例性实现方式可以包括图7A或者图7B或者图7C所示电子设备与终端设备之间的数据连接。
S202,所述电子设备通过所述第一数据连接接收所述终端设备发送的共享信息,并输出第一语音信号,所述第一语音信号用于提示将所述共享信息与第一注册用户标识对应存储,所述第一注册用户标识用于标识所述电子设备中第一注册语音信号的声纹特征,且所述第一注册用户标识与所述终端设备关联;
本申请实施例中,终端设备发送的共享信息的示例性实现方式可以包括图7A中的用户界面83所示的共享信息,或者图7B的用户界面86所示的共享信息,或者图7C的用户界面91所示的共享信息。
本申请实施例的第一语音信号的示例性实现方式可以包括图8A中的话语1对应的语音信号。
其中,第一注册用户标识与终端设备关联的关联方式可以通过图2C与图2D的方式进行第一账号与电子设备关联,即建立电子设备与终端设备之间的第三数据连接,或者也可以通过图2G的方式进行关联,即建立电子设备与终端设备之间的第二数据连接。或者,也可以通过图7C中用户界面88、用户界面89和用户界面90所述方式进行关联,电子设备输出第四语音信号,提示用户从多个注册用户标识中选择一个注册用户标识与终端设备关联,可以理解的是,也可以是电子设备将多个注册用户标识发送给终端设备,用户在终端设备上进行选择,本申请对此不作限定。
S203,所述电子设备接收第二语音信号,在多个注册语音信号中,所述第二语音信号的声纹特征与所述第一注册语音信号的声纹特征最相似;
本申请实施例的第二语音信号的示例性实现方式可以包括图8B中的话语1对应的语音信号。
S204,所述电子设备输出第三语音信号,所述第三语音信号的内容用于回应所述第二语音信号的内容,且所述第三语音信号的内容为根据所述共享信息得到。
本申请实施例的第三语音信号的示例性实现方式可以包括图8B中话语2对应的语音信号。该语音信号的内容为根据图8A中电子设备所接收的共享信息得到。
请参照图15,为本申请实施例提供的又一种语音交互方法的流程示意图,本申请实施例的示例性实现方式可以参考图6A和图6B的实现方式,在此不再赘述。如图所示,该语音交互方法可以包括:
S301,电子设备接收第一语音信号,所述第一语音信号用于指示所述电子设备通过采集图像获取个人信息;
本申请实施例的第一语音信号的示例性实现方式包括图6A中的话语4对应的语音信号。
S302,所述电子设备采集被拍摄对象的第一图像;
本申请实施例的被拍摄对象的示例性实现方式可以包括图6A中的XXX检查单。
S303,所述电子设备输出第二语音信号,所述第二语音信号用于提示将第一个人信息与第一注册用户标识对应存储,所述第一个人信息为通过对所述第一图像进行识别获得,所述第一注册用户标识用于标识所述电子设备中第一注册语音信号的声纹特征,在多个注册语音信号中,所述第一语音信号的声纹特征与所述第一注册语音信号的声纹特征最相似;
S304,所述电子设备接收第三语音信号,在所述多个注册语音信号中,所述第三语音信号的声纹特征与所述第一注册语音信号的声纹特征最相似;
本申请实施例的第三语音信号的示例性实现方式可以包括图6B中的话语1对应的语音信号。
S305,所述电子设备输出第四语音信号,所述第四语音信号的内容用于回应所述第三语音信号的内容,且所述第四语音信号的内容为根据所述第一个人信息得到。
本申请实施例的第四语音信号的示例性实现方式可以包括图6B中的话语2对应的语音信号。
上述实施例中所用,根据上下文,术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地,根据上下文,短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
Claims (17)
1.一种语音交互方法,其特征在于,包括:
电子设备接收第一语音信号,所述第一语音信号包含唤醒词;
所述电子设备根据所述唤醒词从待机状态切换到工作状态,所述电子设备采用第一音调输出第二语音信号,其中,所述第二语音信号的内容用于回应所述第一语音信号的内容,所述第一音调为根据所述第一语音信号的声纹特征关联的个人信息所得到,所述第一语音信号的声纹特征关联的个人信息包括第一注册语音信号所对应的个人信息,在多个注册语音信号中,所述第一注册语音信号的声纹特征与所述第一语音信号的声纹特征最相似。
2.如权利要求1所述的方法,其特征在于,所述个人信息包括方言信息,所述第一音调为采用所述方言信息所指示的方言输出所述第二语音信号的音调;或者,
所述个人信息包括语种信息,所述第一音调为采用所述语种信息所指示的语种输出所述第二语音信号的音调;或者,
所述个人信息包括年龄信息和/或性别信息,所述第一音调为配置给所述年龄信息所指示的年龄段和/或所述性别信息所指示的性别对应的人群的音调。
3.如权利要求1或2所述的方法,其特征在于,所述第一语音信号的音调为第二音调;
所述电子设备采用第一音调输出第二语音信号之前,还包括:所述电子设备确定所述第一音调与所述第二音调相同。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
所述电子设备确定所述第一音调与所述第二音调不同,输出第三语音信号,所述第三语音信号用于提示用户确定是否采用所述第一音调的语音信号进行对话;
所述电子设备接收第四语音信号,所述第四语音信号指示采用所述第一音调的语音信号进行对话。
5.如权利要求2所述的方法,其特征在于,所述电子设备接收第一语音信号之前,还包括:
所述电子设备接收第五语音信号;
所述电子设备对所述第五语音信号进行语音识别,获得所述个人信息,并将所述个人信息与所述第一注册语音信号对应存储;或者,所述第五语音信号包含所述个人信息,将所述第五语音信号中的所述个人信息与所述第一注册语音信号对应存储;
其中,在所述多个注册语音信号中,所述第五语音信号的声纹特征与所述第一注册语音信号的声纹特征最相似。
6.一种语音交互方法,其特征在于,包括:
电子设备建立与终端设备之间的第一数据连接;
所述电子设备通过所述第一数据连接接收所述终端设备发送的共享信息,并输出第一语音信号,所述第一语音信号用于提示将所述共享信息与第一注册用户标识对应存储,所述第一注册用户标识用于标识所述电子设备中第一注册语音信号的声纹特征,且所述第一注册用户标识与所述终端设备关联;
所述电子设备接收第二语音信号,在多个注册语音信号中,所述第二语音信号的声纹特征与所述第一注册语音信号的声纹特征最相似;
所述电子设备输出第三语音信号,所述第三语音信号的内容用于回应所述第二语音信号的内容,且所述第三语音信号的内容为根据所述共享信息得到。
7.如权利要求6所述的方法,其特征在于,所述共享信息包括所述终端设备上的歌曲播放信息、所述终端设备上的视频播放信息、所述终端设备上设置的备忘录信息、所述终端设备上设置的闹钟信息以及所述终端设备的通讯录信息中的一种或者多种。
8.如权利要求6或7所述的方法,其特征在于,所述输出第一语音信号之前,所述方法还包括:
所述电子设备输出第四语音信号,所述第四语音信号用于提示用户从多个注册用户标识中选择一个注册用户标识与所述终端设备关联,一个所述注册用户标识用于标识一个所述注册语音信号的声纹特征;
所述电子设备接收包含所述第一注册用户标识的第五语音信号。
9.如权利要求6或7所述的方法,其特征在于,所述电子设备建立与终端设备之间的第一数据连接之前,还包括:
所述电子设备建立与终端设备之间的第二数据连接;
所述电子设备通过所述第二数据连接接收所述终端设备触发的声纹注册请求;
响应于所述声纹注册请求,所述电子设备输出第六语音信号,所述第六语音信号用于提示输入注册用户标识;
所述电子设备接收包含所述第一注册用户标识的第七语音信号;
所述电子设备输出第八语音信号,所述第八语音信号用于提示将所述第一注册用户标识与所述终端设备关联。
10.如权利要求6或7所述的方法,其特征在于,所述终端设备安装与所述电子设备对应的应用程序,所述应用程序登录第一账号,所述第一账号与所述电子设备的设备码绑定,所述电子设备建立与终端设备之间的第一数据连接之前,还包括:
所述电子设备建立与终端设备之间的第三数据连接;
所述电子设备通过所述第三数据连接接收所述终端设备触发的声纹注册请求,所述声纹注册请求包含所述第一账号;
所述电子设备输出第九语音信号,所述第九语音信号用于提示将所述第一账号作为所述第一注册用户标识。
11.如权利要求10所述的方法,其特征在于,所述电子设备通过所述第三数据连接接收所述终端设备触发的声纹注册请求之前,还包括:
所述电子设备接收第十语音信号,所述第十语音信号用于指示所述电子设备输出所述电子设备的设备码;
所述电子设备输出包含所述电子设备的设备码的第十一语音信号,以触发所述终端设备绑定所述第一账号与所述电子设备的设备码;或者,所述电子设备输出包含所述电子设备的设备码的图形码,以触发所述终端设备扫描所述图形码实现所述第一账号和所述电子设备的设备码的绑定。
12.一种语音交互方法,其特征在于,包括:
电子设备接收第一语音信号,所述第一语音信号用于指示所述电子设备通过采集图像获取个人信息;
所述电子设备采集被拍摄对象的第一图像;
所述电子设备输出第二语音信号,所述第二语音信号用于提示将第一个人信息与第一注册用户标识对应存储,所述第一个人信息为通过对所述第一图像进行识别获得,所述第一注册用户标识用于标识所述电子设备中第一注册语音信号的声纹特征,在多个注册语音信号中,所述第一语音信号的声纹特征与所述第一注册语音信号的声纹特征最相似;
所述电子设备接收第三语音信号,在所述多个注册语音信号中,所述第三语音信号的声纹特征与所述第一注册语音信号的声纹特征最相似;
所述电子设备输出第四语音信号,所述第四语音信号的内容用于回应所述第三语音信号的内容,且所述第四语音信号的内容为根据所述第一个人信息得到。
13.如权利要求12所述的方法,其特征在于,所述被拍摄对象包括被拍摄人物,或者,被拍摄图片,或者被拍摄实物。
14.一种电子设备,包括拾音器,语音播放器,存储器,一个或多个处理器,多个应用程序,以及一个或多个程序;其中所述一个或多个程序被存储在所述存储器中;其特征在于,所述一个或多个处理器在执行所述一个或多个程序时,使得所述电子设备实现如权利要求1至5任一项所述的方法,或者如权利要求6至11任一项所述的方法,或者如权利要求12至13任一项所述的方法。
15.一种计算机设备,包括存储器,处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时使得所述计算机设备实现如权利要求1至5任一项所述的方法,或者如权利要求6至11任一项所述的方法,或者如权利要求12至13任一项所述的方法。
16.一种包含指令的计算机程序产品,其特征在于,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行如权利要求1至5任一项所述的方法,或者如权利要求6至11任一项所述的方法,或者如权利要求12至13任一项所述的方法。
17.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在电子设备上运行时,使得所述电子设备执行如权利要求1至5任一项所述的方法,或者如权利要求6至11任一项所述的方法,或者如权利要求12至13任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910649383.8A CN112331193B (zh) | 2019-07-17 | 2019-07-17 | 语音交互方法及相关装置 |
EP20840445.9A EP3992962A4 (en) | 2019-07-17 | 2020-07-15 | VOICE INTERACTION METHOD AND ELECTRONIC DEVICE |
US17/628,115 US20220277752A1 (en) | 2019-07-17 | 2020-07-15 | Voice interaction method and related apparatus |
PCT/CN2020/101993 WO2021008538A1 (zh) | 2019-07-17 | 2020-07-15 | 语音交互方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910649383.8A CN112331193B (zh) | 2019-07-17 | 2019-07-17 | 语音交互方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112331193A true CN112331193A (zh) | 2021-02-05 |
CN112331193B CN112331193B (zh) | 2024-08-09 |
Family
ID=74210186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910649383.8A Active CN112331193B (zh) | 2019-07-17 | 2019-07-17 | 语音交互方法及相关装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220277752A1 (zh) |
EP (1) | EP3992962A4 (zh) |
CN (1) | CN112331193B (zh) |
WO (1) | WO2021008538A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035203A (zh) * | 2021-03-26 | 2021-06-25 | 合肥美菱物联科技有限公司 | 一种动态变换语音应答风格的控制方法 |
CN113066501A (zh) * | 2021-03-15 | 2021-07-02 | Oppo广东移动通信有限公司 | 语音启动终端的方法及装置、介质和电子设备 |
CN113506573A (zh) * | 2021-08-06 | 2021-10-15 | 百融云创科技股份有限公司 | 生成回复语音的方法及装置 |
CN113825009A (zh) * | 2021-10-29 | 2021-12-21 | 平安国际智慧城市科技股份有限公司 | 音视频播放方法、装置、电子设备及存储介质 |
CN114038468A (zh) * | 2022-01-07 | 2022-02-11 | 深圳市声扬科技有限公司 | 语音数据比对处理方法、装置、电子设备和存储介质 |
WO2023016347A1 (zh) * | 2021-08-13 | 2023-02-16 | 华为技术有限公司 | 声纹认证应答方法、系统及电子设备 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI767532B (zh) * | 2021-01-22 | 2022-06-11 | 賽微科技股份有限公司 | 喚醒詞辨識訓練系統及其訓練方法 |
CN113946810B (zh) * | 2021-12-07 | 2022-09-20 | 荣耀终端有限公司 | 一种应用程序的运行方法及电子设备 |
US20230206924A1 (en) * | 2021-12-24 | 2023-06-29 | Mediatek Inc. | Voice wakeup method and voice wakeup device |
CN115484101B (zh) * | 2022-09-16 | 2024-09-10 | 深圳市齐奥通信技术有限公司 | 一种基于语音声纹识别的保险箱加密方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107507612A (zh) * | 2017-06-30 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
CN109189980A (zh) * | 2018-09-26 | 2019-01-11 | 三星电子(中国)研发中心 | 与用户进行语音交互的方法和电子设备 |
CN109346083A (zh) * | 2018-11-28 | 2019-02-15 | 北京猎户星空科技有限公司 | 一种智能语音交互方法及装置、相关设备及存储介质 |
CN109509470A (zh) * | 2018-12-11 | 2019-03-22 | 平安科技(深圳)有限公司 | 语音交互方法、装置、计算机可读存储介质及终端设备 |
CN109961330A (zh) * | 2017-12-14 | 2019-07-02 | 深圳卓和云投资控股有限公司 | 一种饮料推荐方法及智能饮料机 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984847A (zh) * | 2014-04-14 | 2014-08-13 | 小米科技有限责任公司 | 一种饮食推荐方法及相关装置 |
US10186266B1 (en) * | 2016-12-28 | 2019-01-22 | Amazon Technologies, Inc. | Message playback using a shared device |
US11250844B2 (en) * | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
US11282528B2 (en) * | 2017-08-14 | 2022-03-22 | Lenovo (Singapore) Pte. Ltd. | Digital assistant activation based on wake word association |
EP3473181B1 (de) * | 2017-10-20 | 2020-02-19 | Siemens Healthcare GmbH | Verfahren zum betrieb einer medizinischen bildaufnahmeeinrichtung, bildaufnahmeeinrichtung, computerprogramm und elektronisch lesbarer datenträger |
CN109150959A (zh) * | 2018-07-02 | 2019-01-04 | 英业达科技有限公司 | 档案分享系统及其方法 |
CN108962217B (zh) * | 2018-07-28 | 2021-07-16 | 华为技术有限公司 | 语音合成方法及相关设备 |
-
2019
- 2019-07-17 CN CN201910649383.8A patent/CN112331193B/zh active Active
-
2020
- 2020-07-15 US US17/628,115 patent/US20220277752A1/en active Pending
- 2020-07-15 WO PCT/CN2020/101993 patent/WO2021008538A1/zh unknown
- 2020-07-15 EP EP20840445.9A patent/EP3992962A4/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107507612A (zh) * | 2017-06-30 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
CN109961330A (zh) * | 2017-12-14 | 2019-07-02 | 深圳卓和云投资控股有限公司 | 一种饮料推荐方法及智能饮料机 |
CN109189980A (zh) * | 2018-09-26 | 2019-01-11 | 三星电子(中国)研发中心 | 与用户进行语音交互的方法和电子设备 |
CN109346083A (zh) * | 2018-11-28 | 2019-02-15 | 北京猎户星空科技有限公司 | 一种智能语音交互方法及装置、相关设备及存储介质 |
CN109509470A (zh) * | 2018-12-11 | 2019-03-22 | 平安科技(深圳)有限公司 | 语音交互方法、装置、计算机可读存储介质及终端设备 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113066501A (zh) * | 2021-03-15 | 2021-07-02 | Oppo广东移动通信有限公司 | 语音启动终端的方法及装置、介质和电子设备 |
CN113035203A (zh) * | 2021-03-26 | 2021-06-25 | 合肥美菱物联科技有限公司 | 一种动态变换语音应答风格的控制方法 |
CN113506573A (zh) * | 2021-08-06 | 2021-10-15 | 百融云创科技股份有限公司 | 生成回复语音的方法及装置 |
CN113506573B (zh) * | 2021-08-06 | 2022-03-18 | 百融云创科技股份有限公司 | 生成回复语音的方法及装置 |
WO2023016347A1 (zh) * | 2021-08-13 | 2023-02-16 | 华为技术有限公司 | 声纹认证应答方法、系统及电子设备 |
CN113825009A (zh) * | 2021-10-29 | 2021-12-21 | 平安国际智慧城市科技股份有限公司 | 音视频播放方法、装置、电子设备及存储介质 |
CN113825009B (zh) * | 2021-10-29 | 2024-06-04 | 平安国际智慧城市科技股份有限公司 | 音视频播放方法、装置、电子设备及存储介质 |
CN114038468A (zh) * | 2022-01-07 | 2022-02-11 | 深圳市声扬科技有限公司 | 语音数据比对处理方法、装置、电子设备和存储介质 |
CN114038468B (zh) * | 2022-01-07 | 2022-04-15 | 深圳市声扬科技有限公司 | 语音数据比对处理方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3992962A4 (en) | 2022-11-02 |
CN112331193B (zh) | 2024-08-09 |
EP3992962A1 (en) | 2022-05-04 |
WO2021008538A1 (zh) | 2021-01-21 |
US20220277752A1 (en) | 2022-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112331193B (zh) | 语音交互方法及相关装置 | |
US11670302B2 (en) | Voice processing method and electronic device supporting the same | |
EP3525205B1 (en) | Electronic device and method of performing function of electronic device | |
US11551682B2 (en) | Method of performing function of electronic device and electronic device using same | |
CN112154431B (zh) | 一种人机交互的方法及电子设备 | |
CN110998720A (zh) | 话音数据处理方法及支持该方法的电子设备 | |
EP3678132B1 (en) | Electronic device and server for processing user utterances | |
US20190019509A1 (en) | Voice data processing method and electronic device for supporting the same | |
US11537360B2 (en) | System for processing user utterance and control method of same | |
US11495223B2 (en) | Electronic device for executing application by using phoneme information included in audio data and operation method therefor | |
US11170764B2 (en) | Electronic device for processing user utterance | |
US20200075008A1 (en) | Voice data processing method and electronic device for supporting same | |
CN118784769A (zh) | 响应用户语音执行包括呼叫的任务的电子装置及操作方法 | |
US10976997B2 (en) | Electronic device outputting hints in an offline state for providing service according to user context | |
KR102511517B1 (ko) | 음성 입력 처리 방법 및 이를 지원하는 전자 장치 | |
CN112119372B (zh) | 电子设备及其控制方法 | |
CN116860913A (zh) | 语音交互方法、装置、设备及存储介质 | |
CN112219235A (zh) | 包括处理用户语音的电子设备和控制电子设备上语音识别的方法的系统 | |
US12067972B2 (en) | Electronic device and operation method thereof | |
US11978449B2 (en) | Electronic device for processing user utterance and operation method therefor | |
KR102717792B1 (ko) | 전자 장치의 기능 실행 방법 및 이를 사용하는 전자 장치 | |
KR20240035271A (ko) | 음성 어시스턴트 기능을 활성화하기 위한 데이터를 수집하는 전자 장치, 동작 방법 및 저장 매체 | |
KR20240026820A (ko) | 전자 장치 및 전자 장치의 인식 모델 관리 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |