CN107147618B - 一种用户注册方法、装置及电子设备 - Google Patents

一种用户注册方法、装置及电子设备 Download PDF

Info

Publication number
CN107147618B
CN107147618B CN201710229959.6A CN201710229959A CN107147618B CN 107147618 B CN107147618 B CN 107147618B CN 201710229959 A CN201710229959 A CN 201710229959A CN 107147618 B CN107147618 B CN 107147618B
Authority
CN
China
Prior art keywords
voice
user
information
voiceprint
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710229959.6A
Other languages
English (en)
Other versions
CN107147618A (zh
Inventor
李福祥
李骁
李国光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Easy Star Technology Wuxi Co., Ltd.
Original Assignee
Easy Star Technology Wuxi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Easy Star Technology Wuxi Co Ltd filed Critical Easy Star Technology Wuxi Co Ltd
Priority to CN201710229959.6A priority Critical patent/CN107147618B/zh
Publication of CN107147618A publication Critical patent/CN107147618A/zh
Priority to PCT/CN2018/082501 priority patent/WO2018188586A1/zh
Priority to EP18784748.8A priority patent/EP3611895B1/en
Priority to JP2019554957A priority patent/JP6956349B2/ja
Priority to US16/603,800 priority patent/US11568876B2/en
Application granted granted Critical
Publication of CN107147618B publication Critical patent/CN107147618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1073Registration or de-registration
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明实施例提供了一种用户注册方法、装置及电子设备,所述方法包括:每次获得到用户的唤醒语音后,提取并保存所述唤醒语音对应的第一声纹特征;对已保存的第一声纹特征进行聚类,将所述第一声纹特征划分为至少一个类别;每个类别中的第一声纹特征属于同一个用户;为每个类别分配一个类别标识;将每个类别标识与其对应的至少一个第一声纹特征对应存储,完成用户注册。本发明实施例能够简化用户的操作,提高用户体验。

Description

一种用户注册方法、装置及电子设备
技术领域
本发明涉及智能设备技术领域,特别是涉及一种用户注册方法、装置及电子设备。
背景技术
现实生活中,智能设备通常带有用户识别过程,用户识别过程可包括指纹识别、语音识别或人脸识别等。
在用户使用智能设备之前,需要预先在智能设备上进行相应指纹、语音或人脸的注册,当用户下次使用智能设备时,智能设备可识别出相应的用户。
现有的基于语音的用户注册过程:用户首先需要向智能设备连续发出多次唤醒语音,智能设备提取各唤醒语音的声纹特征并记录,同时用户需要在智能设备上输入该声纹特征对应的用户名称,以完成注册。
当用户下次发出唤醒语音后,智能设备提取唤醒语音的声纹特征,当该声纹特征与先前记录的某一个用户名称对应的声纹特征相近时,可识别出发出该唤醒语音的用户。
由于现有基于语音的注册过程中,用户需要向智能设备连续发出多次唤醒语音并且需要输入用户名称,完成注册后,智能设备才能识别出发出唤醒语音的用户,用户的操作较为繁琐,用户体验较差。
发明内容
本发明的目的在于提供一种用户注册方法、装置及电子设备,以简化用户的操作,提高用户体验。
为达到上述目的,本发明实施例提供了一种用户注册方法,应用于电子设备,所述方法包括:
每次获得到用户的唤醒语音后,提取并保存所述唤醒语音对应的第一声纹特征;
对已保存的第一声纹特征进行聚类,将所述第一声纹特征划分为至少一个类别;每个类别中的第一声纹特征属于同一个用户;
为每个类别分配一个类别标识;
将每个类别标识与其对应的至少一个第一声纹特征对应存储,完成用户注册。
可选地,所述对已保存的第一声纹特征进行聚类,将所述第一声纹特征划分为至少一个类别的步骤,包括:
利用聚类算法计算已保存的各第一声纹特征间的相似度;
根据相似度将所有第一声纹特征划分为至少一个类别。
可选地,所述方法还包括:
每次获得到用户的服务指令语音后,提取并保存所述服务指令语音对应的第二声纹特征;
确定所述服务指令语音对应的服务类型;
将所述第二声纹特征与所述每个类别中的每个第一声纹特征进行匹配;
将匹配成功的第一声纹特征的类别标识与所述服务类型对应存储。
可选地,所述确定所述服务指令语音对应的服务类型的步骤,包括:
对所述服务指令语音进行识别,获得服务指令语音识别信息;
对所述服务指令语音识别信息进行语义解析;
根据语义解析结果,确定所述服务指令语音对应的服务类型。
可选地,所述方法还包括:
在提取唤醒语音的声纹特征后,将所述声纹特征确定为待识别声纹特征;
将所述待识别声纹特征与每个类别中的第一声纹特征进行匹配;
将匹配成功的第一声纹特征对应的类别标识确定为目标类别标识;
判断所述目标类别标识是否对应存储了服务类型;
如果是,则输出所存储的服务类型对应的服务提示信息。
可选地,所述方法还包括:
根据识别出的目标类别标识,输出索要第一用户标识的请求;
接收用户反馈的第一语音信息,并对该第一语音信息进行语音识别得到第一语音识别信息;
将所述第一语音识别信息确定为所述第一用户标识;
记录所述第一用户标识与所述目标类别标识的对应关系。
可选地,所述方法还包括:
当获得用户注册指令后,连续N次获取唤醒语音样本,输出索要第二用户标识的请求;N为大于1的整数;
接收返回的语音信息,并对该语音信息进行语音识别得到该语音对应的语音识别信息;
将所述语音识别信息确定为所述第二用户标识,并将所述第二用户标识分别与N个唤醒语音样本的声纹特征对应存储。
可选地,所述电子设备为智能设备;所述方法还包括:
通过如下方式获得到用户的唤醒语音:
实时检测语音信息;
在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为目标待识别语音信息;
对所述目标待识别语音信息进行语音识别,得到目标语音识别信息;
当所述目标语音识别信息与预设的唤醒词相同时,确定所述待识别语音信息为唤醒语音。
可选地,所述电子设备为与智能设备通信连接的云端服务器;
所述方法还包括:
通过如下方式获得到用户的唤醒语音:
接收所述智能设备发送的唤醒语音;所述智能设备发送的唤醒语音为:所述智能设备在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为目标待识别语音信息,对所述目标待识别语音信息进行语音识别,得到目标语音识别信息;当所述目标语音识别信息与预设的唤醒词相同时,确定所述待识别语音信息为唤醒语音,将该唤醒语音发送至所述云端服务器的。
本发明实施例还提供了一种用户注册装置,应用于电子设备,所述装置包括:
第一提取模块,用于每次获得到用户的唤醒语音后,提取并保存所述唤醒语音对应的第一声纹特征;
聚类模块,用于对已保存的第一声纹特征进行聚类,将所述第一声纹特征划分为至少一个类别;每个类别中的第一声纹特征属于同一个用户;
分配模块,用于为每个类别分配一个类别标识;
第一存储模块,用于将每个类别标识与其对应的至少一个第一声纹特征对应存储,完成用户注册。
可选地,所述聚类模块,包括:
计算单元,用于利用聚类算法计算已保存的各第一声纹特征间的相似度;
分类单元,用于根据相似度将所有第一声纹特征划分为至少一个类别。
可选地,所述装置还包括:
第二提取模块,用于每次获得到用户的服务指令语音后,提取并保存所述服务指令语音对应的第二声纹特征;
第一确定模块,用于确定所述服务指令语音对应的服务类型;
第一匹配模块,用于将所述第二声纹特征与所述每个类别中的每个第一声纹特征进行匹配;
第二存储模块,用于将匹配成功的第一声纹特征的类别标识与所述服务类型对应存储。
可选地,所述第一确定模块,包括:
第一识别单元,用于对所述服务指令语音进行识别,获得服务指令语音识别信息;
解析单元,用于对所述服务指令语音识别信息进行语义解析;
第一确定单元,用于根据语义解析结果,确定所述服务指令语音对应的服务类型。
可选地,所述装置还包括:
第二确定模块,用于在提取唤醒语音的声纹特征后,将所述声纹特征确定为待识别声纹特征;
第二匹配模块,用于将所述待识别声纹特征与每个类别中的第一声纹特征进行匹配;
第三确定模块,用于将匹配成功的第一声纹特征对应的类别标识确定为目标类别标识;
判断模块,用于判断所述目标类别标识是否对应存储了服务类型;
第一输出模块,用于当所述判断模块的判断结果为是时,则输出所存储的服务类型对应的服务提示信息。
可选地,所述装置还包括:
第二输出模块,用于根据识别出的目标类别标识,输出索要第一用户标识的请求;
第一识别模块,用于接收用户反馈的第一语音信息,并对该第一语音信息进行语音识别得到第一语音识别信息;
第四确定模块,用于将所述第一语音识别信息确定为所述第一用户标识;
记录模块,用于记录所述第一用户标识与所述目标类别标识的对应关系。
可选地,所述装置还包括:
第二输出模块,用于当获得用户注册指令后,连续N次获取唤醒语音样本,输出索要第二用户标识的请求;N为大于1的整数;
第二识别模块,用于接收返回的语音信息,并对该语音信息进行语音识别得到该语音对应的语音识别信息;
第三存储模块,用于将所述语音识别信息确定为所述第二用户标识,并将所述第二用户标识分别与N个唤醒语音样本的声纹特征对应存储。
可选地,所述电子设备为智能设备;所述装置还包括:
第一获取模块,用于获得到用户的唤醒语音:
所述获取模块包括:
检测单元,用于实时检测语音信息;
第二确定单元,用于在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为目标待识别语音信息;
第二识别单元,用于对所述目标待识别语音信息进行语音识别,得到目标语音识别信息;
第三确定单元,用于当所述目标语音识别信息与预设的唤醒词相同时,确定所述待识别语音信息为唤醒语音。
可选地,所述电子设备为与智能设备通信连接的云端服务器;
所述装置还包括:
第一获取模块,用于获得到用户的唤醒语音:
所述第一获取模块,具体用于接收所述智能设备发送的唤醒语音;所述智能设备发送的唤醒语音为:所述智能设备在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为目标待识别语音信息,对所述目标待识别语音信息进行语音识别,得到目标语音识别信息;当所述目标语音识别信息与预设的唤醒词相同时,确定所述待识别语音信息为唤醒语音,将该唤醒语音发送至所述云端服务器的。
本发明实施例还提供了一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行所述的用户注册方法。
本发明实施例提供的一种用户注册方法、装置及电子设备,每次接收到唤醒语音后,提取并保存声纹特征;对已保存的声纹特征进行聚类,将声纹特征划分为至少一个类别;每个类别中的声纹特征属于同一个用户;为每个类别分配一个类别标识;将每个类别标识与其对应的至少一个声纹特征对应存储,完成用户注册。本发明实施例无需像现有技术中一样,用户需要向声纹特征识别设备连续发出多次唤醒语音并且需要输入用户名称,完成注册后,声纹特征识别设备才能识别出发出语音的用户,因此,本发明实施例能够简化用户的操作,提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的用户注册方法的流程图;
图2为本发明实施例提供的根据服务指令语音向用户发送服务提示信息的流程图;
图3为本发明实施例提供的用户注册装置的第一种结构示意图;
图4为本发明实施例提供的用户注册装置的第二种结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为达到上述目的本发明实施例提供了一种用户注册方法,该方法可应用于电子设备,该电子设备可以为智能设备,也可以为与智能设备通信连接的云端服务器。本发明实施例中,智能设备可以是智能手机、智能音箱、智能机器人或智能平板电脑等带有语音识别功能的设备。
图1为本发明实施例提供的用户注册方法的流程图,所述方法包括:
S110,每次获得到用户的唤醒语音后,提取并保存所述唤醒语音对应的第一声纹特征。
本实施例中,可设电子设备的应用场景为家庭场景,即家庭中存在至少一个用户,由于这些用户长期使用电子设备,任一用户每次唤醒电子设备,电子设备都会获取该唤醒语音,同时,电子设备提取并保存唤醒语音对应的第一声纹特征(声纹特征的提取方法为现有技术)。
在本发明实施例提供的一种具体实现方式中,所述电子设备为智能设备;
智能设备通过如下方式获得到用户的唤醒语音:
实时检测语音信息;在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为待识别语音信息;对所述待识别语音信息进行语音识别,得到目标语音识别信息;当所述目标语音识别信息与预设的唤醒词相同时,确定所述待识别语音信息为唤醒语音。
具体地,处于工作状态的智能设备,实时检测周围的语音信息。设初始时刻周围的声音的音量较小,此时处于静音状态,当突然检测到声音的音量大与某一个预设值的时候,则可确定当前有用户输入语音信息,此时进入语音阶段,智能设备采集语音阶段的语音信息。经过一段时间的语音后,声音的音量小于预设值,语音再次进入静音阶段,当进入静音阶段达到预设语音停顿时长时,将用户输入的语音信息(即智能设备采集到的语音信息)确定为目标待识别语音信息。本实施例中,预设语音停顿时长可自由设定,预设语音停顿时长优选为500毫秒。
之后,智能设备对所述目标待识别语音信息进行语音识别,得到目标语音识别信息,然后将目标语音识别信息与预设的唤醒词进行匹配,当所述目标语音识别信息与预设的唤醒词相同时,确定待识别语音信息为唤醒语音。
在本发明实施例的另一种具体实现方式中,当电子设备为与智能设备通信连接的云端服务器时,通过如下方式获得到用户的唤醒语音:
接收所述智能设备发送的唤醒语音;所述智能设备发送的唤醒语音为:所述智能设备在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为目标待识别语音信息,对所述目标待识别语音信息进行语音识别,得到目标语音识别信息;当所述目标语音识别信息与预设的唤醒词相同时,确定所述待识别语音信息为唤醒语音,将该唤醒语音发送至所述云端服务器的。
具体地,智能设备实时检测周围的语音信息。设初始时刻周围的声音的音量较小,此时处于静音状态,当突然检测到声音的音量大与某一个预设值的时候,则可确定当前有用户输入语音信息,此时进入语音阶段,智能设备采集语音阶段的语音信息。经过一段时间的语音后,声音的音量小于预设值,语音再次进入静音阶段,当进入静音阶段达到预设语音停顿时长时,将用户输入的语音信息(即智能设备采集到的语音信息)确定为目标待识别语音信息。之后,智能设备对所述目标待识别语音信息进行语音识别,得到目标语音识别信息,然后将目标语音识别信息与预设的唤醒词进行匹配,当所述目标语音识别信息与预设的唤醒词相同时,确定待识别语音信息为唤醒语音,并将唤醒语音发送给云端服务器,云端服务器获得到用户的唤醒语音。
S120,对已保存的第一声纹特征进行聚类,将所述第一声纹特征划分为至少一个类别;每个类别中的第一声纹特征属于同一个用户。
在本发明实施例的一种具体实现方式中,步骤S120包括:
A1、利用聚类算法计算已保存的各第一声纹特征间的相似度。
具体地,可利用聚类算法预设需要匹配的各属性信息(即声波频谱的振动频率、振动周期和振幅大小等)的相似权重,在任意两个已保存的第一声纹特征的匹配过程中,某一属性信息相似权值越高说明这两个第一声纹特征的该属性信息越相似,最后将所有属性信息的相似权重进行叠加得到相似度,该相似度表明这两个第一声纹特征各属性信息相似权重的综合效果,相似度越高说明这两个第一声纹特征的类别的可能性越大。
A2、根据相似度将所有第一声纹特征划分为至少一个类别。
具体地,可预设一个相似度阈值,在计算了各第一声纹特征间的相似度之后,相似度高于该相似度阈值的两个第一声纹特征可以为同一类别,相似度低于该相似度阈值的两个第一声纹特征为不同类别,通过此种方式,可将所有第一声纹特征分成至少一个类别。可选地,相似度阈值可根据实际情况自由设定。
本实施例中,由于不同用户发出的唤醒语音的第一声纹特征不同,通过采用聚类算法计算已保存的各第一声纹特征间的相似度,并对所有第一声纹特征进行分类,可将第一声纹特征分成至少一个类别,每个类别中的第一声纹特征属于同一个用户。
S130,为每个类别分配一个类别标识。
S140,将每个类别标识与其对应的至少一个第一声纹特征对应存储,完成用户注册。
具体地,电子设备在获得各类第一声纹特征后,为每个类别分配一个类别标识,即每个类别中的至少一个第一声纹特征与该类别的类别标识相关联,然后将每个类别标识与其对应的至少一个第一声纹特征对应存储,以实现一个用户的第一声纹特征对应一个类别标识。
本实施例中,可以实现一个用户的第一声纹特征对应一个类别标识,即一个用户对应一个类别标识,因此可以实现用户的隐形注册。
本发明实施例提供的一种用户注册方法,每次获得到用户的唤醒语音后,提取并保存唤醒语音对应的第一声纹特征;对已保存的第一声纹特征进行聚类,将所述第一声纹特征划分为至少一个类别;每个类别中的第一声纹特征属于同一个用户;为每个类别分配一个类别标识;将每个类别标识与其对应的至少一个声纹特征对应存储,完成用户注册。本发明实施例无需像现有技术中一样,用户需要向声纹特征识别设备连续发出多次唤醒语音并且需要输入用户名称,完成注册后,声纹特征识别设备才能识别出发出语音的用户,因此,本发明实施例能够简化用户的操作,提高用户体验。
可选地,电子设备还可以根据获取的服务指令语音,向用户发出服务提示信息。图2为本发明实施例提供的根据服务指令语音向用户发送服务提示信息的流程图,该步骤包括:
S210,每次获得到用户的服务指令语音后,提取并保存所述服务指令语音对应的第二声纹特征。
本实施例中,服务指令语音是指用户发出的带有服务要求的指令语音。例如,服务指令语音可以为“我想听周杰伦的东风破”等。
具体地,用户长期使用电子设备,任一用户每次向电子设备发出服务指令语音后,电子设备都会获取该服务指令语音,同时电子设备提取并保存服务指令语音对应的第二声纹特征。
S220,确定所述服务指令语音对应的服务类型。
在本发明实施例的一种具体实现方式中,步骤S220可包括如下步骤:
A1、对所述服务指令语音进行识别,获得服务指令语音识别信息。
具体地,电子设备对接收到的服务指令语音进行语音识别,获得服务指令语音识别信息。本实施例中,语音识别的具体过程为现有技术,此处不再赘述。
A2、对所述服务指令语音识别信息进行语义解析。
具体地,电子设备对获取到的服务指令语音识别信息进行语义解析,得到解析结果。本实施例中,该语义解析的过程可以为现有的分词、停用词过滤等处理过程。
A3、根据语义解析结果,确定所述服务指令语音对应的服务类型。
具体地,电子设备将语义解析结果分别与预先设定的多个服务指令语句模型进行匹配,可获知语义解析结果中所包含服务的服务类型。
举例而言,语义解析结果为“我想听+忘情水”,该语义解析结果语预设的服务指令语句模型“我想听+歌曲名称”相匹配,则可确定该服务指令语音中包含的服务“忘情水”对应的服务类型为歌曲。
S230,将所述第二声纹特征与所述每个类别中的每个第一声纹特征进行匹配。
具体地,电子设备在获取到第二声纹特征后,将该第二声纹特征分别与每个类别中的每个第一声纹特征进行匹配。本实施例中,具体的匹配过程可以通过计算第二声纹特征与各第一声纹特征间的相似度,当相似度达到相似度阈值后,判断二者匹配成功,具体过程可以参照步骤S120中所述的过程。
S240,将匹配成功的第一声纹特征的类别标识与所述服务类型对应存储。
具体地,当第二声纹特征与某一个第一声纹特征匹配成功后,说明发出该第二声纹特征对应的服务指令语音的用户即为发出第一声纹特征对应的唤醒语音的用户,此时电子设备对匹配成功的第一声纹特征的类别标识与服务类型对应存储。需要说明的是,由于同一用户可能会要求多种服务类型(如歌曲、视频或相声等),因此匹配成功的第一声纹特征的类别标识可以与多个服务类型对应存储。
本实施例中,通过采用服务指令语音的声纹特征匹配与唤醒语音的声纹特征进行匹配的方式,可以确定类别标识与服务类型对应关系,进而得到用户与服务类型对应关系。
需要说明的是,步骤S210-S220的过程可以为:每次获得到用户的服务指令语音后,都会运行一次;也可以为每次获得到用户的服务指令语音后,对其进行保存,当达到预设次数后,在对这些服务指令语音进行运行上述步骤。
S250,在提取唤醒语音的声纹特征后,将所述声纹特征确定为待识别声纹特征。
具体地,当用户再次发出唤醒语音使用电子设备时,电子设备提取该唤醒语音的声纹特征,并将其作为待识别声纹特征。
S260,将所述待识别声纹特征与每个类别中的第一声纹特征进行匹配。
具体地,电子设备在获取到待识别声纹特征后,将该待识别声纹特征分别与每个类别中的每个第一声纹特征进行匹配。本实施例中,具体的匹配过程可以通过计算待识别声纹特征与各第一声纹特征间的相似度,当相似度达到相似度阈值后,判断二者匹配成功,具体过程可以参照步骤S120中所述的过程。
S270,将匹配成功的第一声纹特征对应的类别标识确定为目标类别标识。
S280,判断所述目标类别标识是否对应存储了服务类型;如果是,则执行步骤S290;如果否,则输出服务提示信息过程失败。
具体地,电子设备确定匹配成功的第一声纹特征对应的类别标识,并将该类别标识确定为目标类别标识,判断该目标类别标识是否对应存储了服务类型。
S290,输出所存储的服务类型对应的服务提示信息。
具体地,如果目标类别标识对应存储了服务类型,电子设备确定该服务类型,并输出与该服务类型对应的服务提示信息;如果目标类别标识没有对应存储服务类型,则输出服务提示信息的过程失败。举例而言,服务提示信息可以为“您想听歌曲吗?”或者“您想听相声吗?”
本实施例中,通过获知用户发出的服务指令语音,向用户发出服务提示信息,提高了用户的体验,并且使电子设备更加智能。
可选地,电子设备还可以通过输出服务提示信息,为用户推荐其经常要求的服务类型的服务。
具体地,可以针对每个类别标识,记录其在预设一段时间内(比如一周或一个月等)每次使用过的服务类型,将使用次数最多的服务类型,确定为每次唤醒后的推荐服务,输出对应的服务提示信息。
例如,用户一天内使用了10次服务类型为歌曲的服务,而仅使用了1次服务类型为相声的服务,因此,可确定每次唤醒后的推荐服务的歌曲,输出对应的服务提示信息(如“您想听冰雨吗?”)
实际上,用户使用次数最多的服务类型,就是用户一种使用习惯,本实施例中能够根据用户的使用习惯来为用户推荐该服务类型对应服务。
可见,本实施例中,通过获知用户要求服务的习惯,为用户提供相应的服务,提高了用户的体验,并且使电子设备更加智能。
可选地,电子设备根据用户发出的唤醒语音可以确定该唤醒语音的声纹特征的类别标识,为了根据其类别标识进一步获知发出该第一唤醒语音的用户,使整个系统更加智能,所述方法还包括:
B1、根据识别出的目标类别标识,输出索要第一用户标识的请求。
本实施例中,第一用户标识可以为用户的名称(如小明)、用户的代码(如001)或用户的称呼(如爸爸、妈妈等)。
具体地,当电子设备识别出目标类别标识后,可以输出索要第一用户标识的请求,该请求可以通过语音信息的方式输出,例如,该请求可以为“请说出您的名字”。
可选地,电子设备可以获取到预设数量的同一类别标识的第一声纹特征后,输出索要第一用户标识的请求。举例而言,当电子设备接收了20次同一类别标识的第一声纹特征后,可以发出“我们都已经认识这么久了,还不知道您的名字呢?”的指令。
B2、接收用户反馈的第一语音信息,并对该第一语音信息进行语音识别得到第一语音识别信息。
具体地,当用户听到电子设备输出的索要第一用户标记的请求后,会说出包含第一用户标记(如第一用户的名称)的第一语音信息,电子设备接收到该第一语音信息并对其进行语音识别得到对应的第一语音识别信息。
B3、将所述第一语音识别信息确定为所述第一用户标识。
B4、记录所述第一用户标识与所述目标类别标识的对应关系。
具体地,电子设备将识别出第一语音识别信息确定为第一用户标识,并记录所述第一用户标识与所述目标类别标识的对应关系。
本实施例中,当电子设备再次接收到用户的唤醒语音后,可获取发出该语音对应的第一用户标识,并输出带有第一用户标识的语音信息(如小明您好啊),使整个电子设备更加智能,提高了用户的体验。
可选地,为了适应不同用户的使用习惯,本发明实施例还提供了另一种用户注册流程,具体包括:
C1、当获得用户注册指令后,连续N次获取唤醒语音样本,输出索要第二用户标识的请求;N为大于1的整数。
本实施例中,用户注册指令为预先设置在电子设备中用于开启用户注册的指令。当用户发起带有用户注册指令的语音后,电子设备进入用户注册的工作状态。举例而言,用户注册指令可以为“我要注册”。
第二用户标识可以为用户的名称(如小明)、用户的代码(如001)或用户的称呼(如爸爸、妈妈等)。其中,N可以为3、4或5等。
具体地,当获得用户注册指令后,用户连续N次向电子设备发出唤醒语音,电子设备将接收到的N次唤醒语音作为N个唤醒语音样本,并向用户发送索要第二用户标识的请求。
C2、接收返回的语音信息,并对该语音信息进行语音识别得到该语音对应的语音识别信息。
具体地,当用户听到电子设备输出的索要第二用户标识的请求后,会说出包含第二用户标识(如用户的名称)的语音信息,电子设备接收到该语音信息并对其进行语音识别,得到相应的语音识别信息。
C3、将所述语音识别信息确定为所述第二用户标识,并将所述第二用户标识分别与N个唤醒语音样本的声纹特征对应存储。
具体地,电子设备将语音识别信息确定为第二用户标识,并将第二用户标识分别与N个唤醒语音样本的声纹特征对应存储,以完成用户注册。当电子设备再次获取用户发出的唤醒语音后,提取该唤醒语音的声纹特征,并将该声纹特征与各唤醒语音样本的声纹特征进行匹配,根据匹配成功的声纹特征对应的第二用户标识即可获知发出该唤醒语音的用户。
也就是说在本实施例中,不仅可以采用图1所示的流程来进行用户的隐形注册,同时也可以采用上述C1~C3的步骤来进行传统的注册。因此,本实施例可以适应不同用户的使用习惯,进一步提高了用户体验,增加了电子设备的智能性。
与方法实施例对应的,本发明实施例还提供了一种用户注册装置,可应用于电子设备。图3为本发明实施例提供的用户注册装置的第一种结构示意图,所述装置包括:
第一提取模块310,用于每次获得到用户的唤醒语音后,提取并保存所述唤醒语音对应的第一声纹特征;
聚类模块320,用于对已保存的第一声纹特征进行聚类,将所述第一声纹特征划分为至少一个类别;每个类别中的第一声纹特征属于同一个用户;
分配模块330,用于为每个类别分配一个类别标识;
第一存储模块340,用于将每个类别标识与其对应的至少一个第一声纹特征对应存储,完成用户注册。
本发明实施例提供的一种用户注册装置,每次获得到用户的唤醒语音后,提取并保存唤醒语音对应的第一声纹特征;对已保存的第一声纹特征进行聚类,将所述第一声纹特征划分为至少一个类别;每个类别中的第一声纹特征属于同一个用户;为每个类别分配一个类别标识;将每个类别标识与其对应的至少一个声纹特征对应存储,完成用户注册。本发明实施例无需像现有技术中一样,用户需要向声纹特征识别设备连续发出多次唤醒语音并且需要输入用户名称,完成注册后,声纹特征识别设备才能识别出发出语音的用户,因此,本发明实施例能够简化用户的操作,提高用户体验。
进一步地,所述聚类模块320,包括:
计算单元,用于利用聚类算法计算已保存的各第一声纹特征间的相似度;
分类单元,用于根据相似度将所有第一声纹特征划分为至少一个类别。
图4为本发明实施例提供的用户注册装置的第二种结构示意图,与图3不同之处,所述装置还包括:
第二提取模块350,用于每次获得到用户的服务指令语音后,提取并保存所述服务指令语音对应的第二声纹特征;
第一确定模块360,用于确定所述服务指令语音对应的服务类型;
第一匹配模块370,用于将所述第二声纹特征与所述每个类别中的每个第一声纹特征进行匹配;
第二存储模块380,用于将匹配成功的第一声纹特征的类别标识与所述服务类型对应存储。
进一步地,所述第一确定模块360,包括:
第一识别单元,用于对所述服务指令语音进行识别,获得服务指令语音识别信息;
解析单元,用于对所述服务指令语音识别信息进行语义解析;
第一确定单元,用于根据语义解析结果,确定所述服务指令语音对应的服务类型。
进一步地,所述装置还包括:
第二确定模块390,用于在提取唤醒语音的声纹特征后,将所述声纹特征确定为待识别声纹特征;
第二匹配模块3100,用于将所述待识别声纹特征与每个类别中的第一声纹特征进行匹配;
第三确定模块3110,用于将匹配成功的第一声纹特征对应的类别标识确定为目标类别标识;
判断模块3120,用于判断所述目标类别标识是否对应存储了服务类型;
第一输出模块3130,用于当所述判断模块的判断结果为是时,则输出所存储的服务类型对应的服务提示信息。
进一步地,所述装置还包括:
第二输出模块,用于根据识别出的目标类别标识,输出索要第一用户标识的请求;
第一识别模块,用于接收用户反馈的第一语音信息,并对该第一语音信息进行语音识别得到第一语音识别信息;
第四确定模块,用于将所述第一语音识别信息确定为所述第一用户标识;
记录模块,用于记录所述第一用户标识与所述目标类别标识的对应关系。
进一步地,所述装置还包括:
第二输出模块,用于当获得用户注册指令后,连续N次获取唤醒语音样本,输出索要第二用户标识的请求;N为大于1的整数;
第二识别模块,用于接收返回的语音信息,并对该语音信息进行语音识别得到该语音对应的语音识别信息;
第三存储模块,用于将所述语音识别信息确定为所述第二用户标识,并将所述第二用户标识分别与N个唤醒语音样本的声纹特征对应存储。
进一步地,所述电子设备为智能设备;所述装置还包括:
第一获取模块,用于获得到用户的唤醒语音:
所述获取模块包括:
检测单元,用于实时检测语音信息;
第二确定单元,用于在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为目标待识别语音信息;
第二识别单元,用于对所述目标待识别语音信息进行语音识别,得到目标语音识别信息;
第三确定单元,用于当所述目标语音识别信息与预设的唤醒词相同时,确定所述待识别语音信息为唤醒语音。
进一步地,所述电子设备为与智能设备通信连接的云端服务器;
所述装置还包括:
第一获取模块,用于获得到用户的唤醒语音:
所述第一获取模块,具体用于接收所述智能设备发送的唤醒语音;所述智能设备发送的唤醒语音为:所述智能设备在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为目标待识别语音信息,对所述目标待识别语音信息进行语音识别,得到目标语音识别信息;当所述目标语音识别信息与预设的唤醒词相同时,确定所述待识别语音信息为唤醒语音,将该唤醒语音发送至所述云端服务器的。
与上述方法实施例相对应的,本发明实施例还提供了一种电子设备。图5为本发明实施例提供的电子设备的结构示意图,所述电子设备包括:
壳体510、处理器520、存储器530、电路板540和电源电路550,其中,电路板540安置在壳体510围成的空间内部,处理器520和存储器530设置在电路板540上;电源电路550,用于为电子设备的各个电路或器件供电;存储器530用于存储可执行程序代码;处理器520通过读取存储器530中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行上述方法实施例中所述的用户注册方法。
一种实现方式中,上述用户注册方法可以包括:
每次获得到用户的唤醒语音后,提取并保存所述唤醒语音对应的第一声纹特征;
对已保存的第一声纹特征进行聚类,将所述第一声纹特征划分为至少一个类别;每个类别中的第一声纹特征属于同一个用户;
为每个类别分配一个类别标识;
将每个类别标识与其对应的至少一个第一声纹特征对应存储,完成用户注册。
上述用户注册方法的其他实现方式参见前述方法实施例部分的说明,这里不再赘述。
处理器520对上述步骤及上述语音信号处理方法的其他实现方式的具体执行过程以及处理器520通过运行可执行程序代码来进一步执行的过程,可以参见本发明实施例中图1至图4所示实施例的描述,在此不再赘述。
需要说明的是,该电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
可见,本发明实施例所提供的方案中,电子设备的处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,每次获得到用户的唤醒语音后,提取并保存所述唤醒语音对应的第一声纹特征;对已保存的第一声纹特征进行聚类,将所述第一声纹特征划分为至少一个类别;每个类别中的第一声纹特征属于同一个用户;为每个类别分配一个类别标识;将每个类别标识与其对应的至少一个第一声纹特征对应存储,完成用户注册。
本发明实施例中,每次接收到唤醒语音后,提取并保存声纹特征;对已保存的声纹特征进行聚类,将声纹特征划分为至少一个类别;每个类别中的声纹特征属于同一个用户;为每个类别分配一个类别标识;将每个类别标识与其对应的至少一个声纹特征对应存储,完成用户注册。本发明实施例无需像现有技术中一样,用户需要向声纹特征识别设备连续发出多次唤醒语音并且需要输入用户名称,完成注册后,声纹特征识别设备才能识别出发出语音的用户,因此,本发明实施例能够简化用户的操作,提高用户体验。
对于电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (17)

1.一种用户注册方法,其特征在于,应用于电子设备,所述方法包括:
每次获得到用户的唤醒语音后,提取并保存所述唤醒语音对应的第一声纹特征;
对已保存的第一声纹特征进行聚类,将所述第一声纹特征划分为至少一个类别;每个类别中的第一声纹特征属于同一个用户;
为每个类别分配一个类别标识;
将每个类别标识与其对应的至少一个第一声纹特征对应存储,完成用户注册;
其中,所述对已保存的第一声纹特征进行聚类,将所述第一声纹特征划分为至少一个类别的步骤,包括:利用聚类算法计算已保存的各第一声纹特征间的相似度;根据相似度将所有第一声纹特征划分为至少一个类别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
每次获得到用户的服务指令语音后,提取并保存所述服务指令语音对应的第二声纹特征;
确定所述服务指令语音对应的服务类型;
将所述第二声纹特征与所述每个类别中的每个第一声纹特征进行匹配;
将匹配成功的第一声纹特征的类别标识与所述服务类型对应存储。
3.根据权利要求2所述的方法,其特征在于,所述确定所述服务指令语音对应的服务类型的步骤,包括:
对所述服务指令语音进行识别,获得服务指令语音识别信息;
对所述服务指令语音识别信息进行语义解析;
根据语义解析结果,确定所述服务指令语音对应的服务类型。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在提取唤醒语音的声纹特征后,将所述声纹特征确定为待识别声纹特征;
将所述待识别声纹特征与每个类别中的第一声纹特征进行匹配;
将匹配成功的第一声纹特征对应的类别标识确定为目标类别标识;
判断所述目标类别标识是否对应存储了服务类型;
如果是,则输出所存储的服务类型对应的服务提示信息。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据识别出的目标类别标识,输出索要第一用户标识的请求;
接收用户反馈的第一语音信息,并对该第一语音信息进行语音识别得到第一语音识别信息;
将所述第一语音识别信息确定为所述第一用户标识;
记录所述第一用户标识与所述目标类别标识的对应关系。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当获得用户注册指令后,连续N次获取唤醒语音样本,输出索要第二用户标识的请求;N为大于1的整数;
接收返回的语音信息,并对该语音信息进行语音识别得到该语音对应的语音识别信息;
将所述语音识别信息确定为所述第二用户标识,并将所述第二用户标识分别与N个唤醒语音样本的声纹特征对应存储。
7.根据权利要求1~6任一项所述方法,其特征在于,所述电子设备为智能设备;所述方法还包括:
通过如下方式获得到用户的唤醒语音:
实时检测语音信息;
在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为目标待识别语音信息;
对所述目标待识别语音信息进行语音识别,得到目标语音识别信息;
当所述目标语音识别信息与预设的唤醒词相同时,确定所述待识别语音信息为唤醒语音。
8.根据权利要求1~6任一项所述方法,其特征在于,所述电子设备为与智能设备通信连接的云端服务器;
所述方法还包括:
通过如下方式获得到用户的唤醒语音:
接收所述智能设备发送的唤醒语音;所述智能设备发送的唤醒语音为:所述智能设备在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为目标待识别语音信息,对所述目标待识别语音信息进行语音识别,得到目标语音识别信息;当所述目标语音识别信息与预设的唤醒词相同时,确定所述待识别语音信息为唤醒语音,将该唤醒语音发送至所述云端服务器的。
9.一种用户注册装置,其特征在于,应用于电子设备,所述装置包括:
第一提取模块,用于每次获得到用户的唤醒语音后,提取并保存所述唤醒语音对应的第一声纹特征;
聚类模块,用于对已保存的第一声纹特征进行聚类,将所述第一声纹特征划分为至少一个类别;每个类别中的第一声纹特征属于同一个用户;
分配模块,用于为每个类别分配一个类别标识;
第一存储模块,用于将每个类别标识与其对应的至少一个第一声纹特征对应存储,完成用户注册;
其中,所述聚类模块,包括:
计算单元,用于利用聚类算法计算已保存的各第一声纹特征间的相似度;
分类单元,用于根据相似度将所有第一声纹特征划分为至少一个类别。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二提取模块,用于每次获得到用户的服务指令语音后,提取并保存所述服务指令语音对应的第二声纹特征;
第一确定模块,用于确定所述服务指令语音对应的服务类型;
第一匹配模块,用于将所述第二声纹特征与所述每个类别中的每个第一声纹特征进行匹配;
第二存储模块,用于将匹配成功的第一声纹特征的类别标识与所述服务类型对应存储。
11.根据权利要求10所述的装置,其特征在于,所述第一确定模块,包括:
第一识别单元,用于对所述服务指令语音进行识别,获得服务指令语音识别信息;
解析单元,用于对所述服务指令语音识别信息进行语义解析;
第一确定单元,用于根据语义解析结果,确定所述服务指令语音对应的服务类型。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于在提取唤醒语音的声纹特征后,将所述声纹特征确定为待识别声纹特征;
第二匹配模块,用于将所述待识别声纹特征与每个类别中的第一声纹特征进行匹配;
第三确定模块,用于将匹配成功的第一声纹特征对应的类别标识确定为目标类别标识;
判断模块,用于判断所述目标类别标识是否对应存储了服务类型;
第一输出模块,用于当所述判断模块的判断结果为是时,则输出所存储的服务类型对应的服务提示信息。
13.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二输出模块,用于根据识别出的目标类别标识,输出索要第一用户标识的请求;
第一识别模块,用于接收用户反馈的第一语音信息,并对该第一语音信息进行语音识别得到第一语音识别信息;
第四确定模块,用于将所述第一语音识别信息确定为所述第一用户标识;
记录模块,用于记录所述第一用户标识与所述目标类别标识的对应关系。
14.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二输出模块,用于当获得用户注册指令后,连续N次获取唤醒语音样本,输出索要第二用户标识的请求;N为大于1的整数;
第二识别模块,用于接收返回的语音信息,并对该语音信息进行语音识别得到该语音对应的语音识别信息;
第三存储模块,用于将所述语音识别信息确定为所述第二用户标识,并将所述第二用户标识分别与N个唤醒语音样本的声纹特征对应存储。
15.根据权利要求9~14任一项所述装置,其特征在于,所述电子设备为智能设备;所述装置还包括:
第一获取模块,用于获得到用户的唤醒语音:
所述获取模块包括:
检测单元,用于实时检测语音信息;
第二确定单元,用于在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为目标待识别语音信息;
第二识别单元,用于对所述目标待识别语音信息进行语音识别,得到目标语音识别信息;
第三确定单元,用于当所述目标语音识别信息与预设的唤醒词相同时,确定所述待识别语音信息为唤醒语音。
16.根据权利要求9~14任一项所述装置,其特征在于,所述电子设备为与智能设备通信连接的云端服务器;
所述装置还包括:
第一获取模块,用于获得到用户的唤醒语音:
所述第一获取模块,具体用于接收所述智能设备发送的唤醒语音;所述智能设备发送的唤醒语音为:所述智能设备在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为目标待识别语音信息,对所述目标待识别语音信息进行语音识别,得到目标语音识别信息;当所述目标语音识别信息与预设的唤醒词相同时,确定所述待识别语音信息为唤醒语音,将该唤醒语音发送至所述云端服务器的。
17.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行权利要求1~8中任一项所述的用户注册方法。
CN201710229959.6A 2017-04-10 2017-04-10 一种用户注册方法、装置及电子设备 Active CN107147618B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201710229959.6A CN107147618B (zh) 2017-04-10 2017-04-10 一种用户注册方法、装置及电子设备
PCT/CN2018/082501 WO2018188586A1 (zh) 2017-04-10 2018-04-10 一种用户注册方法、装置及电子设备
EP18784748.8A EP3611895B1 (en) 2017-04-10 2018-04-10 Method and device for user registration, and electronic device
JP2019554957A JP6956349B2 (ja) 2017-04-10 2018-04-10 ユーザー登録方法、装置及び電子機器
US16/603,800 US11568876B2 (en) 2017-04-10 2018-04-10 Method and device for user registration, and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710229959.6A CN107147618B (zh) 2017-04-10 2017-04-10 一种用户注册方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN107147618A CN107147618A (zh) 2017-09-08
CN107147618B true CN107147618B (zh) 2020-05-15

Family

ID=59774616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710229959.6A Active CN107147618B (zh) 2017-04-10 2017-04-10 一种用户注册方法、装置及电子设备

Country Status (5)

Country Link
US (1) US11568876B2 (zh)
EP (1) EP3611895B1 (zh)
JP (1) JP6956349B2 (zh)
CN (1) CN107147618B (zh)
WO (1) WO2018188586A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107147618B (zh) * 2017-04-10 2020-05-15 易视星空科技无锡有限公司 一种用户注册方法、装置及电子设备
CN107978311B (zh) * 2017-11-24 2020-08-25 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置以及语音交互设备
CN108958810A (zh) * 2018-02-09 2018-12-07 北京猎户星空科技有限公司 一种基于声纹的用户识别方法、装置及设备
CN108509225B (zh) 2018-03-28 2021-07-16 联想(北京)有限公司 一种信息处理方法及电子设备
CN108830063A (zh) * 2018-05-31 2018-11-16 上海大学 基于亚马逊语音助手Alexa的以声纹识别进行用户权限管理的方法
CN108694947B (zh) * 2018-06-27 2020-06-19 Oppo广东移动通信有限公司 语音控制方法、装置、存储介质及电子设备
CN108962262B (zh) * 2018-08-14 2021-10-08 思必驰科技股份有限公司 语音数据处理方法和装置
CN109215646B (zh) * 2018-08-15 2021-08-17 北京百度网讯科技有限公司 语音交互处理方法、装置、计算机设备及存储介质
WO2020061787A1 (zh) * 2018-09-26 2020-04-02 深圳市博电电子技术有限公司 一种智能马桶控制方法与智能马桶
CN109410934A (zh) * 2018-10-19 2019-03-01 深圳魔听文化科技有限公司 一种基于声纹特征的多人声音分离方法、系统及智能终端
CN111179940A (zh) * 2018-11-12 2020-05-19 阿里巴巴集团控股有限公司 一种语音识别方法、装置及计算设备
CN111198733A (zh) * 2018-11-19 2020-05-26 阿里巴巴集团控股有限公司 开机画面显示方法、终端设备及存储介质
CN111292733A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 一种语音交互方法和装置
CN111462756B (zh) * 2019-01-18 2023-06-27 北京猎户星空科技有限公司 声纹识别方法、装置、电子设备及存储介质
CN109961787A (zh) * 2019-02-20 2019-07-02 北京小米移动软件有限公司 确定采集结束时间的方法及装置
CN110047492A (zh) * 2019-03-08 2019-07-23 佛山市云米电器科技有限公司 一种通过声纹识别进行组网的方法及系统
CN110060693A (zh) * 2019-04-16 2019-07-26 Oppo广东移动通信有限公司 模型训练方法、装置、电子设备及存储介质
CN110517673B (zh) * 2019-07-18 2023-08-18 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN110889009B (zh) * 2019-10-18 2023-07-21 平安科技(深圳)有限公司 一种声纹聚类方法、装置、处理设备以及计算机存储介质
CN110908629A (zh) * 2019-11-18 2020-03-24 北京小米移动软件有限公司 电子设备操作方法、装置、电子设备和存储介质
CN111210829A (zh) * 2020-02-19 2020-05-29 腾讯科技(深圳)有限公司 语音识别方法、装置、系统、设备和计算机可读存储介质
CN111429920B (zh) * 2020-03-30 2024-01-23 北京奇艺世纪科技有限公司 用户区分方法、用户行为库确定方法、装置及设备
CN112051746B (zh) * 2020-08-05 2023-02-07 华为技术有限公司 获取服务的方法以及装置
CN112837687A (zh) * 2021-03-03 2021-05-25 北京百家科技集团有限公司 一种答题方法、装置、计算机设备及存储介质
CN113241080A (zh) * 2021-06-10 2021-08-10 思必驰科技股份有限公司 自动注册声纹识别方法和装置
CN113593582A (zh) * 2021-06-24 2021-11-02 青岛海尔科技有限公司 智能设备的控制方法和装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575504A (zh) * 2014-12-24 2015-04-29 上海师范大学 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN106228988A (zh) * 2016-07-29 2016-12-14 珠海市魅族科技有限公司 一种基于声纹信息的习惯信息匹配方法及装置
CN106295299A (zh) * 2016-08-15 2017-01-04 歌尔股份有限公司 一种智能机器人的用户注册方法和装置
CN106506524A (zh) * 2016-11-30 2017-03-15 百度在线网络技术(北京)有限公司 用于验证用户的方法和装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3286339B2 (ja) 1992-03-25 2002-05-27 株式会社リコー ウインドウ画面制御装置
US6246987B1 (en) * 1998-02-04 2001-06-12 Alcatel Usa Sourcing, L.P. System for permitting access to a common resource in response to speaker identification and verification
KR20050023941A (ko) * 2003-09-03 2005-03-10 삼성전자주식회사 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법
US7406422B2 (en) * 2004-07-20 2008-07-29 Hewlett-Packard Development Company, L.P. Techniques for improving collaboration effectiveness
US8595007B2 (en) * 2006-06-15 2013-11-26 NITV Federal Services, LLC Voice print recognition software system for voice identification and matching
JP5250576B2 (ja) 2010-02-25 2013-07-31 日本電信電話株式会社 ユーザ判定装置、方法、プログラム及びコンテンツ配信システム
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
WO2014155652A1 (ja) * 2013-03-29 2014-10-02 株式会社日立製作所 話者検索システム、プログラム
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
CN104123115B (zh) * 2014-07-28 2017-05-24 联想(北京)有限公司 一种音频信息处理方法及电子设备
KR102246900B1 (ko) * 2014-07-29 2021-04-30 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
WO2016022588A1 (en) 2014-08-04 2016-02-11 Flagler Llc Voice tallying system
CN105575391B (zh) 2014-10-10 2020-04-03 阿里巴巴集团控股有限公司 声纹信息管理方法、装置以及身份认证方法、系统
KR102371697B1 (ko) 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
CN105096940B (zh) * 2015-06-30 2019-03-08 百度在线网络技术(北京)有限公司 用于进行语音识别的方法和装置
US9754593B2 (en) * 2015-11-04 2017-09-05 International Business Machines Corporation Sound envelope deconstruction to identify words and speakers in continuous speech
CN105511608B (zh) * 2015-11-30 2018-12-25 北京光年无限科技有限公司 基于智能机器人的交互方法及装置、智能机器人
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
CN106375336A (zh) * 2016-09-28 2017-02-01 北京金山安全软件有限公司 登录信息存储、提供方法及装置
US10181323B2 (en) * 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10546575B2 (en) * 2016-12-14 2020-01-28 International Business Machines Corporation Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier
CN107147618B (zh) * 2017-04-10 2020-05-15 易视星空科技无锡有限公司 一种用户注册方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575504A (zh) * 2014-12-24 2015-04-29 上海师范大学 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN106228988A (zh) * 2016-07-29 2016-12-14 珠海市魅族科技有限公司 一种基于声纹信息的习惯信息匹配方法及装置
CN106295299A (zh) * 2016-08-15 2017-01-04 歌尔股份有限公司 一种智能机器人的用户注册方法和装置
CN106506524A (zh) * 2016-11-30 2017-03-15 百度在线网络技术(北京)有限公司 用于验证用户的方法和装置

Also Published As

Publication number Publication date
US20210110832A1 (en) 2021-04-15
JP6956349B2 (ja) 2021-11-02
JP2020516935A (ja) 2020-06-11
EP3611895B1 (en) 2024-04-10
EP3611895A4 (en) 2020-04-08
US11568876B2 (en) 2023-01-31
WO2018188586A1 (zh) 2018-10-18
EP3611895A1 (en) 2020-02-19
CN107147618A (zh) 2017-09-08

Similar Documents

Publication Publication Date Title
CN107147618B (zh) 一种用户注册方法、装置及电子设备
CN107146602B (zh) 一种语音识别方法、装置及电子设备
CN108694940B (zh) 一种语音识别方法、装置及电子设备
CN110288987B (zh) 用于处理声音数据的系统和控制该系统的方法
CN109643549B (zh) 基于说话者识别的语音识别方法和装置
CN107220532B (zh) 用于通过声音识别用户身份的方法及设备
CN110069608A (zh) 一种语音交互的方法、装置、设备和计算机存储介质
CN108874895B (zh) 交互信息推送方法、装置、计算机设备及存储介质
CN106297801A (zh) 语音处理方法及装置
CN107146605B (zh) 一种语音识别方法、装置及电子设备
CN110972112B (zh) 地铁运行方向的确定方法、装置、终端及存储介质
CN110544468B (zh) 应用唤醒方法、装置、存储介质及电子设备
CN110097895B (zh) 一种纯音乐检测方法、装置及存储介质
CN111243604B (zh) 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统
CN111343028A (zh) 配网控制方法及装置
CN108922520B (zh) 语音识别方法、装置、存储介质及电子设备
CN109003607B (zh) 语音识别方法、装置、存储介质及电子设备
CN111611358A (zh) 信息交互方法、装置、电子设备及存储介质
CN108600559B (zh) 静音模式的控制方法、装置、存储介质及电子设备
CN111081260A (zh) 一种唤醒词声纹的识别方法及系统
CN114708869A (zh) 语音交互方法、装置及电器
CN108305629B (zh) 一种场景学习内容获取方法、装置、学习设备及存储介质
CN110706691B (zh) 语音验证方法及装置、电子设备和计算机可读存储介质
CN111081256A (zh) 数字串声纹密码验证方法及系统
CN111128127A (zh) 一种语音识别处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191112

Address after: Room 402, building C, Liye building, Southeast University Science Park, No. 20, Qingyuan Road, Xinwu District, Wuxi City, Jiangsu Province

Applicant after: Easy Star Technology Wuxi Co., Ltd.

Address before: 100041, room 2, building 3, building 30, Xing Xing street, Shijingshan District, Beijing,

Applicant before: Beijing Orion Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant