CN115482813A - 家电设备及其声纹控制方法、服务器、可读存储介质 - Google Patents
家电设备及其声纹控制方法、服务器、可读存储介质 Download PDFInfo
- Publication number
- CN115482813A CN115482813A CN202110664364.XA CN202110664364A CN115482813A CN 115482813 A CN115482813 A CN 115482813A CN 202110664364 A CN202110664364 A CN 202110664364A CN 115482813 A CN115482813 A CN 115482813A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- voice control
- control information
- information
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000007621 cluster analysis Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Selective Calling Equipment (AREA)
Abstract
本发明公开了一种家电设备的声纹控制方法,包括:接收对家电设备进行语音控制的语音控制信息;基于预设声纹库,确定所述语音控制信息对应的用户信息,所述预设声纹库包括至少一个声纹模型,所述声纹模型为对一段时间内接收到的语音控制信息进行声纹聚类后自训练而获得;确定所述用户信息对应的操作习惯信息;控制所述家电设备按所述操作习惯信息运行。本发明还公开了一种家电设备、服务器、可读存储介质,解决了现有技术中注册过程非常繁琐,尤其不利于老人和小孩进行声纹注册,无法满足更多用户的声纹控制需求。
Description
技术领域
本发明涉及家电设备领域,尤其涉及家电设备及其声纹控制方法、服务器、可读存储介质。
背景技术
随着语音识别技术的发展,声纹识别也逐渐应用于家电设备的控制。但是,为了实现家电设备的声纹控制,必须先在该家电设备上进行声纹注册,用户需要按照注册提示信息输入多段预定的注册语音信息,然后根据注册语音信息和预设的声学模型,确定用户的注册声纹特性,最后建立用户的注册信息(用户名等)与其注册声纹特性的对应关系,即完成用户注册。现有技术中的注册过程非常繁琐,尤其不利于老人和小孩进行声纹注册。
发明内容
本申请实施例通过提供家电设备及其声纹控制方法、服务器、可读存储介质,解决了注册过程非常繁琐,尤其不利于老人和小孩进行声纹注册,无法满足更多用户的声纹控制需求。
本申请实施例提供了一种家电设备的声纹控制方法,包括:
接收对家电设备进行语音控制的语音控制信息;
基于预设声纹库,确定所述语音控制信息对应的用户信息,所述预设声纹库包括至少一个声纹模型,所述声纹模型为对一段时间内接收到的语音控制信息进行声纹聚类后自训练而获得;
确定所述用户信息对应的操作习惯信息;
控制所述家电设备按所述操作习惯信息运行。
可选地,
所述对一段时间内接收到的语音控制信息进行声纹聚类后自训练的步骤包括:
提取该段时间的第一时间段接收到的语音控制信息的声纹特征;
计算所有语音控制信息的声纹特征中每两条语音控制信息之间的相似度,获得相似度矩阵;
根据所述相似度矩阵,对所有的语音控制信号进行聚类分析,获得每条语音控制信号的聚类类别;
对同一聚类类别对应的语音控制信息进行声纹注册,获得注册用户的声纹模板;
将该段时间的第二时间段接收到的语音控制信息对已注册的声纹模板进行自训练,获得所述声纹模型。
可选地,所述提取该段时间的第一时间段接收到的语音控制信息的声纹特征的步骤包括:
对该段时间的第一时间段接收到的语音控制信息进行音频特征提取;
将所提取的音频特征输入至预设分类器,进行神经网络前向计算,获得每条语音控制信息的声纹特征;所述预设分类器为基于多个音频样本的数据库进行训练而形成的深度神经网络。
可选地,所述对同一聚类类别对应的语音控制信息进行声纹注册,获得注册用户的声纹模板的步骤包括:
判断同一聚类类别对应的语音控制信息的条数是否大于或等于第一预设数量;
当同一聚类类别对应的语音控制信息的条数大于或等于第一预设数量,则对该聚类类别对应的语音控制信息的声纹特征求平均值,得到该聚类类别的类中心;
根据各语音控制信息的声纹特征与类中心之间的距离,筛选出距离类中心预设范围内的语音控制信息,并对筛选出的语音控制信息进行声纹注册,获得注册用户的声纹模板。
可选地,所述声纹控制方法还包括:
当预设时间到达或者新接收到的语音控制信息的数量达到第二预设数量时,结合历史的声纹聚类数据,对新接收到的语音控制信息进行声纹聚类后自训练,获得新的声纹模型。
可选地,所述用户信息对应的操作习惯信息为基于预设声纹库确定语音控制信息对应的用户信息后,对该用户信息对应的所有语音控制信息进行分析获得,并与所述用户信息对应存储。
本申请实施例还提供一种家电设备的声纹控制方法,包括:
接收对所述家电设备进行语音控制的语音控制信息;
将接收到的语音控制信息发送至服务器,并接收服务器返回的操作习惯信息,按所述操作习惯信息运行;所述服务器对预设时间段内的语音控制信号进行声纹聚类后自训练而获得声纹模型,并基于声纹模型确定语音控制信息对应的用户信息,并确定所述用户信息对应的操作习惯信息。
可选地,所述接收对所述家电设备进行语音控制的语音控制信息的步骤之后,包括:
判断本地是否存在声纹模型;
当存在声纹模型时,根据声纹模型确定所述语音控制信息对应的用户信息,并确定所述用户信息对应的操作习惯信息,按照所述操作习惯信息运行。
本申请实施例还提供一种服务器,所述家电设备包括处理器、存储器以及存储于所述存储器上的声纹控制程序,所述声纹控制程序被所述处理器调用执行时实现如上述任一实施方案所述的声纹控制方法的步骤。
本申请实施例还提供一种家电设备,所述家电设备包括处理器、存储器以及存储于所述存储器上的声纹控制程序,所述声纹控制程序被所述处理器调用执行时实现如上述任一实施例所述的声纹控制方法的步骤。
本申请实施例还提供一种计算机的存储介质,所述可读存储介质上存储有对家电设备进行声纹控制的计算机程序,所述计算机程序被处理器执行实现上述任一实施方案所述的声纹控制方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、本发明实施方式中,通过对用户对家电设备一段时间内发出的语音控制信息进行声纹聚类后自训练,从而获得用户的声纹模型,以用于声纹识别,从而免去了繁琐的声纹注册过程,在用户对家电设备进行日常的语音控制过程中,就获得了声纹模型,实现家电设备的声纹控制。
2、通过日常接收到的语音控制信息,还可以对已有的声纹模型进行多次迭代,从而可以更加匹配当前用户的声纹本征,实现越来越好的声纹识别效果,提升了用户的声纹控制体验。
3、在基于声纹模型识别到用户信息后,还可以根据用户信息对应的语音控制信息形成用户的操作习惯信息,从而在进行声纹识别到用户身份时,可以根据该用户当前的使用习惯,获得用户的个性化模式/喜好模式,进而为当前用户推荐对应的喜好模式,使得家电设备的控制更加智能便捷。
附图说明
图1是本发明一实施方案的家电设备的声纹控制系统的系统架构示例图;
图2是本发明家电设备的声纹控制方法一实施例的流程示意图;
图3是本发明家电设备的声纹控制方法中获得预设声纹库的声纹模型的流程示意图;
图4是图1中步骤S11的细化流程示意图;
图5是本发明家电设备的声纹控制方法另一实施例的流程示意图。
具体实施方式
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,图1是本发明实施方案中家电设备的声纹控制系统的系统架构示意图。该声纹控制系统包括家电设备100、声纹服务器200以及家电设备控制终端300。
其中,家电设备100如包括空调器、冰箱、电视机、饮水机、风扇、空气净化器、电饭煲、热水器、音箱设备等等。该家电设备除了包括实现对应功能的功能组件,还包括通信模块,以及语音模块等功能部件。通信模块用于实现家电设备与外部设备之间的通信,例如wifi模块、蓝牙模块、红外模块、ZigBee模块等等。语音模块用于实现周围环境中的声音采集,从而采集并识别到语音控制指令时,家电设备执行该语音控制指令。当然,语音模块也可以不设置,而通过通信模块接收外部设备(例如家电设备控制终端300)发送的语音控制指令。
家电设备控制终端300如包括手机、iPad等移动设备,或者智能手表等可穿戴设备。通过家电设备控制端300上的控制APP,可以与家电设备进行绑定,从而控制家电设备运行。例如,家电设备控制端300包括通信模块以及语音模块等功能部件,通信模块用于实现与家电设备或服务器进行通信,语音模块用于采集周围环境中的声音信息,并识别到语音控制指令,则将该语音控制指令发送至目标家电设备,以控制目标家电设备运行。
声纹服务器200用于实现用户通过家电设备100进行声纹注册,或者通过家电设备控制端300进行声纹注册。该声纹服务器200用于本发明技术方案中提出的声纹注册方案。当然,该声纹服务器200也可以用于传统的声纹注册。如,用户通过家电设备100启动声纹注册,或者通过家电设备控制终端300启动声纹注册,家电设备100或者家电设备控制终端300向声纹服务器200发送声纹注册请求,声纹服务器200根据声纹注册请求,返回注册提示信息;家电设备100或者家电设备控制终端400输出注册提示信息,并采集用户按照注册提示信息输入的多段语音信息,然后将采集到的语音信息发送至声纹服务器200。声纹服务器200对语音信息进行声纹提取并分析,获得该用户的注册声纹特征,从而形成该用户对应的声纹模板,该声纹模板用于声纹识别。
进一步地,上述声纹服务器200除了包括实现上述声纹注册功能的声纹注册模块之外,还可包括声纹识别模块、声纹注销模块。声纹识别模块用于对用户的声纹信息进行识别是否为注册用户,是则识别成功,家电设备执行语音控制指令;否则识别失败,家电设备不做响应。声纹注销模块在用户通过家电设备100发起声纹注销请求时,或者通过家电设备控制端300发起声纹注销请求时,删除该用户对应的声纹模板。
如图2所示,本发明提出了一种家电设备的声纹控制方法一实施例的流程步骤。该实施例的声纹控制方法包括以下步骤:
S11,接收对家电设备进行语音控制的语音控制信息;
S12,基于预设声纹库,确定所述语音控制信息对应的用户信息,所述预设声纹库包括至少一个声纹模型,所述声纹模型为对预设时间段内接收到的语音控制信息进行声纹聚类后自训练而获得;
S13,确定所述用户信息对应的操作习惯信息;
S14,控制所述家电设备按所述操作习惯信息运行。
具体地,步骤S12中,一段时间可以为设置的默认固定值,也可以根据语音控制信息的接收情况而灵活调整。如,一实施例中,通过设置默认固定值,当设置地时间到达时,对接收到的语音控制信息进行声纹聚类后再进行自训练,从而获得该用户的声纹模型。另一实施例中,在接收到的语音控制信息的数量达到声纹聚类所需要的信息量时,则对接收到的语音控制信息进行声纹聚类后再进行自训练,从而保证声纹模型的准确获取,实现家电设备准确的声纹控制。通过对一段时间内接收到的语音控制信息进行声纹聚类后再进行自训练,就可以形成声纹识别需要的声纹模型。当接收到的语音控制信息均为同一用户发出,则形成一个声纹模型;当接收到的语音控制信息为多个用户发出,则形成多个声纹模型。
基于预设声纹库,对接收到的语音控制信息进行声纹识别,确定该语音控制信息对应的用户信息,进而确定用户信息对应的操作习惯信息,家电设备则按所述操作习惯信息运行。该操作习惯信息例如包括家电设备的控制参数、用户喜好的模式,家电设备的运行时间等等。以家电设备为空调器举例,用户A晚上7点回到家,习惯打开客厅的空调,开机时的目标温度为22℃,风速为中风且上下扫风,运行半小时后目标温度调整为26℃。用户A晚上10点打开卧室的空调,开机时的目标温度为26℃,运行1个小时后,将运行模式调整为睡眠模式。该操作习惯信息通过对语音控制信息进行声纹识别确定对应的用户信息后,对同一用户的语音控制信息进行数据分析和标注而获得。
本发明实施例中,通过在用户日常对家电设备进行语音控制的过程中,对一段时间内的语音控制信息进行声纹聚类后再进行自训练,即可获得用户的声纹模型,从而实现用户的声纹识别,并推荐该用户的专属个性化模式。因此,本发明实施例免去了繁琐的声纹注册过程,在用户对家电设备进行日常的语音控制过程中,就获得了声纹模型,实现了家电设备的声纹控制,而且还实现了用户的专属个性化模式的智能推荐,从而满足了用户的个性化要求,大大提升了用户的使用体验。
进一步地,上述实施例地声纹控制方法中,预设声纹库中声纹模型的获得可在服务器上实现,例如图1中的声纹服务器200;当然也可以在家电设备100上实现。
当家电设备100或家电设备控制终端300采集到语音控制信息时,将采集到的语音控制信息发送至服务器,服务器基于生成的声纹模型,对该语音控制信息进行声纹识别,并确定该语音控制信息对应的用户身份(例如为注册用户),则返回识别结果,从而家电设备100按采集到的语音控制信息运行或家电设备控制终端300控制家电设备按照采集到的语音控制信息运行。当然,服务器在确定语音控制信息对应的用户信息后,也可以获取该用户信息对应的操作习惯信息,并向家电设备100或家电设备控制终端300进行智能推荐。
另一实施例中,当服务器获得声纹模型后,还可以将获得的声纹模型下发给家电设备100,以供家电设备100基于该声纹模型对周围采集到的语音控制指令进行声纹识别,并在声纹识别成功后,执行所述语音控制指令;或者下发给家电设备控制终端300,以供家电设备控制终端300基于声纹模型对采集到的语音控制指令进行声纹识别,并在声纹识别成功后,将语音控制指令发送至家电设备100,控制家电设备100执行语音控制指令。进一步地,家电设备100以及家电设备控制终端300在基于声纹模型确定语音控制指令对应的用户信息后,还可以对同一用户的语音控制指令进行统计分析获得用户的习惯操作信息,从而实现用户的专属个性化模式的智能推荐,从而满足了用户的个性化要求,大大提升了用户的使用体验。
进一步地,如图3所示,上述实施例的步骤S12中,对一段时间内接收到的语音控制信息进行声纹聚类后自训练的步骤包括:
S101,提取该段时间的第一时间段接收到的语音控制信息的声纹特征;
S102,计算所有语音控制信息的声纹特征中每两条语音控制信息之间的相似度,获得相似度矩阵;
S103,根据所述相似度矩阵,对所有的语音控制信号进行聚类分析,获得每条语音控制信号的聚类类别;
S104,对同一聚类类别对应的语音控制信号进行声纹注册,获得注册用户的声纹模板;
S105,将该段时间的第二时间段接收到的语音控制信息对已注册的声纹模板进行自训练,获得所述声纹模型。
上述时间段包括第一时间段和第二时间段,可根据语音控制信息接收到的时间进行划分,还可以根据接收到的语音控制信息的数量进行划分。其中,第一时间段内接收到的语音控制信息用于进行声纹聚类并获得用户的声纹模板,第二时间段内接收到的语音控制信息用于对获得的声纹模板进行自训练,获得声纹模型。
上述声纹模型的形成过程中,先提取第一时间段内接收到的每一条语音控制信息的声纹特征,然后对每两条语音控制信息进行交叉打分,即计算每两条语音控制信息的声纹相似度,从而获得相似度矩阵。例如第一时间段内接收到N条语音控制信息,则获得N*N的相似度矩阵。然后,基于该计算相似度矩阵,对每条语音控制信息进行聚类分析,例如将语音控制信息按照计算的相似度进行分类,同一类语音控制信息的相似度高于其他类语音控制信息的相似度。通过聚类分析,将获得一个或多个聚类类别以及每个聚类类别对应的语音控制信息,即聚类数据。有了聚类数据,就可以对同一类的语音控制信息进行声纹注册,从而获得该类(也就是该用户)的声纹模板。
有了声纹模板,则基于第二时间段内接收到的语音控制信息对注册的声纹模板进行自训练,从而获得声纹模型。具体地,基于已注册的声纹模板对第二时间段内的语音控制信息进行声音分类,即获得匹配该声纹模板的语音控制信息,然后将匹配的语音控制信息对该声纹模板进行自训练,获得声纹模型。
目前的声纹聚类主要是针对一段有多人说话场景的音频进行分割和聚类,用于解决在这段音频里谁在说话以及何时在说话的问题。本实施例中,采用先提取各语音控制信息的声纹特征,并基于交叉相似度矩阵进行的聚类方法,可以很好地表示各语音控制信息之间说话人的相似度,从而保证聚类的准确率。而且在聚类后,通过继续接收到的语音控制信息对聚类获得的声纹模板进行自训练,从而使得声纹模型更加匹配用户的声纹本征,提升了声纹识别效果。
进一步地,上述步骤S101包括:
对该段时间的第一时间段接收到的语音控制信息进行音频特征提取;将所提取的音频特征输入至预设分类器,进行神经网络前向计算,获得每条语音控制信息的声纹特征。
上述预设分类器为基于多个音频样本的数据库进行训练而形成的深度神经网络。例如该音频样本为一个万人级别的音频数据库,通过对该音频数据库进行训练形成深度神经网络。在对第一时间段内接收到的语音控制信息进行音频特征提取后,则输入该预设分类器中,经过神经完了过的前向计算后,输出该音频的声纹特征。
本发明实施例通过预设分类器的声纹提取模型,再结合语音控制信息之间的相似度计算,进一步提升了聚类的准确率。
进一步地,上述步骤S104包括:
判断同一聚类类别对应的语音控制信息的条数是否大于第一预设数量;
当同一聚类类别对应的语音控制信息的条数大于第一预设数量,则对该聚类类别对应的语音控制信息的声纹特征求平均值,得到该聚类类别的类中心;
根据各语音控制信息的声纹特征与类中心的余弦距离,筛选出距离类中心预设范围内的语音控制信息,并对筛选出的语音控制信息进行声纹注册,获得注册用户的声纹模板。
本实施例中,通过遍历每个聚类类别,对每个聚类类别下的语音控制信息进行判断,从而筛选出满足声纹模板注册条件的聚类类别。具体地,在对一聚类类别的语音控制信息进行声纹注册之前,先判断该类别下的语音控制信息的数量是否大于或等于第一预设数量,例如n;当该类别下的语音控制信息的数量大于或等于第一预设数量n时,则对该类别的语音控制信息进行注册,否则放弃对该类别的语音控制信息进行注册。通过语音控制信息的数量的过滤,可以降低数据量少造成的聚类错误对最终注册声纹模板效果的影响,从而保证了注册声纹模板的准确率。
当同一聚类类别下的语音控制信息的数量大于或等于第一预设数量时,则对该类别的语音控制信息进行注册。具体地,先对该聚类类别对应的语音控制信息地声纹特征求平均值,获得该聚类类别的类中心,并计算每条语音控制信息的声纹特征与类中心之间的距离,例如余弦距离。然后再根据计算的距离,筛选出距离类中心预设距离范围内的语音控制信息,例如与类中心之间的距离在L值内的语音控制信息。当然还可以根据计算的距离,筛选出最靠近类中心的m条语音控制信息。最后,再将筛选后的语音控制信息进行声纹注册,获得注册用户的声纹模板。
本发明实施例通过对聚类类别下的语音控制信息进行筛选,进一步保证了注册声纹模板的准确率。
进一步地,上述实施例的声纹控制方法还包括:
当预设时间到达或者新接收到的语音控制信息的数量达到第二预设数量时,结合历史的声纹聚类数据,对新接收到的语音控制信息进行声纹聚类后自训练,获得新的声纹模型。
本实施例中,可以对已存在的声纹库进行迭代升级,随着用户日常的语音控制数据的增加,多次迭代声纹库可以更加匹配当前用户的声纹本征,实现越来越好的声纹识别效果,即越用越准确,越用越好用。
具体地,通过设置周期或者设置语音控制信息的数量,在预设时间到达或者新接收到的语音控制信息的数量达到第二预设数量时,则进入迭代升级流程。首先,对新接收到的语音控制信息进行声纹聚类,获得当前的聚类数据。声纹聚类步骤参照前面实施例中步骤S101-103实施。然后再结合历史的声纹聚类数据和当前的聚类数据,对聚类类别的语音控制信息进行声纹注册,获得注册用户的声纹模板,并对已注册的声纹模板进行自训练,获得新的声纹模型。
本发明实施例通过多次迭代已有的声纹模型,实现了越来越好的声纹识别效果,提升了用户的声纹控制体验。
进一步地,本发明实施例基于预设声纹库在进行声纹识别时,不但可识别用户基础的声纹信息,还可识别用户的声纹附加信息,如包括性别(男/女)、大概年龄(儿童/成人/老人)、大概的情绪(正常、悲伤、愤怒、开心等)等等。对于儿童来说,声音会随着成长而发生变化,尤其是处于变声期的儿童来说,靠单一的声纹模板无法满足其声纹控制的要求。因此,通过本实施例的声纹聚类后自训练地方法对日常语音控制数据的迭代提取、迭代训练,可以持续记录迭代的模型年龄识别结果的变化,并且通过对历史模型识别年龄数据的回溯比对,可以更精确地判断出当前用户是否为儿童,从而输出一个置信度更高的年龄评判结果。
声纹模型的迭代持续性,能随着儿童的成长而更新,当孩子长大到20岁之后,其声纹模型也会更新,形成与实际情况匹配的声纹附加信息识别结果(性别、年龄等)。本发明实施例中对变声期儿童的年龄识别追溯记录如下表(假设实际儿童性别=男、年龄=15岁):
由上表可知,随着迭代次数的增加,当前声纹模型的历史年龄识别占比率和置信度都逐渐提高,即识别出当前儿童的身份的准确率也是逐渐提升,从而提升了声纹识别的准确率。
进一步地,如图4所示,提出了上述实施例中步骤S11的细化流程步骤。上述步骤S11包括:
S111,接收所述家电设备或家电设备控制终端发送的语音控制指令;
S112,对所述语音控制指令进行有效语音信息的提取,并进行存储。
具体地,家电设备或家电设备控制终端在采集到周围的语音信息时,先对其进行判断,是否为对家电设备的控制信息。若是,则将该语音控制信息上传至服务器。服务器接收到家电设备或家电设备控制终端发送的语音控制信息,对该语音控制信息提取有效语音信息,如对语音控制信息进行去噪处理。
进一步地,在用户对家电设备或家电设备控制终端进行控制时,家电设备或家电设备控制终端还可以利用其他特征采集组件,采集用户的特征数据,例如人脸识别、体态识别等等。并将采集的特征数据与语音控制信息一起上传至服务器。服务器对该语音控制信息提取有效语音信息后,将其根据特征数据进行对应存储。
进一步地,上述用户信息对应的操作习惯信息为基于预设声纹库确定语音控制信息对应的用户信息后,对该用户信息对应的所有语音控制信息进行分析获得,并与所述用户信息对应存储。即,在基于预设声纹库识别到语音控制信息对应地用户信息后,则可以将该语音控制信息与用户信息对应存储。随着用户日常语音控制数据的增加,可以对该用户信息对应的语音控制信息进行分析,形成该用户的画像信息,并根据该画像信息,获得该用户对应的操作习惯信息,实现用户专属模式的智能推荐。
具体地,用户在日常使用家电设备的过程中,服务器可以收集用户进行语音控制过程中的语音控制信息,并对收集到的语音控制信息进行统计分析,逐渐形成完整的用户画像信息。其中用户画像信息又称用户角色,是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像即给用户贴“标签”,而标签是服务器通过对用户行为数据分析而来的高度精炼的特征标识。通过对同一用户的语音控制数据进行数据分析和标注,可以得到某用户对家电设备的使用习惯,从而形成用户画像信息。由于声纹信息的唯一性,家庭单一用户或多用户在长期使用过程中的行为数据也会被家电设备或家电设备控制终端智能地记录到云端服务器中。“某一”用户的使用习惯与该用户的声纹信息形成一一对应的关系。
本实施例中,通过用户画像信息的形成,在进行声纹识别到用户信息时,则可以根据该用户当前的使用习惯,调用已记录的个性化模式/喜好模式,为当前用户推荐对应的喜好模式,从而使得家电设备的控制更加智能便捷。
进一步地,如图5所示,提出了本发明家电设备的声纹控制方法又一实施例的流程步骤。该实施例的家电设备的声纹控制方法可运行于家电设备或家电设备控制终端,包括以下步骤:
S21,接收对所述家电设备进行语音控制的语音控制信息;
S22,将所接收到的语音控制信息发送至服务器,并接收服务器返回的操作习惯信息,按所述操作习惯信息运行;所述服务器对预设时间段内的语音控制信号进行声纹聚类后自训练而获得声纹模型,并基于声纹模型确定语音控制信息对应的用户信息,并确定所述用户信息对应的操作习惯信息。
具体地,家电设备或家电设备控制终端采集周围用户发出的语音信息,并判断该语音信息是否为语音控制信息。一实施例中,用户可以先通过唤醒词,将家电设备或家电设备控制终端的语音功能唤醒,然后被唤醒语音功能的家电设备或者家电设备控制终端采集周围的语音信息,并判断该语音信息是否为语音控制信息。然后,家电设备或家电设备控制终端将语音控制信息发送至服务器,从而使得服务器基于预设声纹库确定语音控制信息对应的用户信息,并确定用户信息对应的操作习惯信息,从而使得家电设备按照该操作习惯信息运行。
一实施例中,服务器还可将获得的声纹模型下发至家电设备或者下发至家电设备控制终端,家电设备或家电设备控制终端接收到服务器发送的声纹模型之后,将声纹模型进行存储。因此,家电设备在接收到语音控制信息时,先判断本地是否存在声纹模型,当存在声纹模型时,就可以调取本地存储的声纹模型,对用户进行身份识别,并执行该语音控制信息。或者根据声纹模型确定语音控制信息对应的用户信息,并确定用户信息对应的操作习惯信息,按照操作习惯信息运行。家电设备控制终端在接收到语音控制信息时,就可以调用存储的声纹模型,对用户进行身份识别后,将收到的语音控制信息,发送至家电设备,控制家电设备按语音控制信息中的目标控制参数运行。或者根据声纹模型确定语音控制信息对应的用户信息,并确定用户信息对应的操作习惯信息,控制家电设备按照操作习惯信息运行。
上述服务器还可以将用户信息对应的操作习惯信息一起下发给家电设备或家电设备控制终端。当然,家电设备或家电设备控制终端也可以在用户的日常使用过程中,基于服务器下发的声纹模型,对接收到的语音控制信息进行分析,形成该用户信息对应的操作习惯信息。
进一步地,上述家电设备或家电设备控制终端在获得声纹模型后,还可以根据对家电设备进行语音控制的语音控制信息,进行声纹聚类,并结合历史的聚类数据,获得新的注册声纹模板。再通过新采集到的语音控制信息,对新注册的声纹模板进行自训练,获得新的声纹模型,实现声纹模型的迭代升级。通过迭代升级的新的声纹模型,提升了声纹识别的准确率,尤其对变声期的儿童,随着日常数据的增多,迭代次数的增多,识别准确率逐渐提升。
本发明实施例中,通过对家电设备新的语音控制信息进行声纹聚类后自训练,从而获得新的声纹模型,不但免去了繁琐复杂的声纹注册过程,而且还提升了声纹识别的准确率。
进一步地,本发明提出一种运行上述实施例的声纹控制方法的家电设备/家电设备控制终端和服务器。该家电设备/家电设备控制终端和服务器均设有进行声纹控制的控制电路板,且该控制电路板上设有处理器、存储器以及存储于存储器上的声纹控制程序,该声纹控制程序被处理器调用执行时,实现上述实施例的声纹控制方法。
上述存储器可包括集成于控制电路板上的存储模块,也可以为电性连接于控制电路板上的存储装置。
进一步地,作为一种计算机的可读存储介质,可以存储有操作系统以及声纹控制程序。当然,该存储器中还可以设有其他各种应用程序,例如家电设备的控制程序。在计算机存储介质与处理器连接后,处理器就可以用于调用该存储介质中存储的声纹控制程序,以实现本发明以上各实施方式中的声纹控制方法的步骤。
进一步地,本发明还提出一种计算机的程序产品,包括计算机程序,且该计算机程序被处理器执行时,实现本发明以上各实施方式中的声纹控制方法的步骤。需要说明的是,该计算机的程序产品可以为包含硬件结构的实体产品,也可以仅包含计算机程序的虚拟载体,如云服务器。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (11)
1.一种家电设备的声纹控制方法,其特征在于,所述家电设备的声纹控制方法包括:
接收对家电设备进行语音控制的语音控制信息;
基于预设声纹库,确定所述语音控制信息对应的用户信息,所述预设声纹库包括至少一个声纹模型,所述声纹模型为对一段时间内接收到的语音控制信息进行声纹聚类后自训练而获得;
确定所述用户信息对应的操作习惯信息;
控制所述家电设备按所述操作习惯信息运行。
2.如权利要求1所述的家电设备的声纹控制方法,其特征在于,所述对一段时间内接收到的语音控制信息进行声纹聚类后自训练的步骤包括:
提取该段时间的第一时间段接收到的语音控制信息的声纹特征;
计算所有语音控制信息的声纹特征中每两条语音控制信息之间的相似度,获得相似度矩阵;
根据所述相似度矩阵,对所有的语音控制信号进行聚类分析,获得每条语音控制信号的聚类类别;
对同一聚类类别对应的语音控制信息进行声纹注册,获得注册用户的声纹模板;
将该段时间的第二时间段接收到的语音控制信息对已注册的声纹模板进行自训练,获得所述声纹模型。
3.如权利要求2所述的家电设备的声纹控制方法,其特征在于,所述提取该段时间的第一时间段接收到的语音控制信息的声纹特征的步骤包括:
对该段时间的第一时间段接收到的语音控制信息进行音频特征提取;
将所提取的音频特征输入至预设分类器,进行神经网络前向计算,获得每条语音控制信息的声纹特征;所述预设分类器为基于多个音频样本的数据库进行训练而形成的深度神经网络。
4.如权利要求2所述的家电设备的声纹控制方法,其特征在于,所述对同一聚类类别对应的语音控制信息进行声纹注册,获得注册用户的声纹模板的步骤包括:
判断同一聚类类别对应的语音控制信息的条数是否大于或等于第一预设数量;
当同一聚类类别对应的语音控制信息的条数大于或等于第一预设数量,则对该聚类类别对应的语音控制信息的声纹特征求平均值,得到该聚类类别的类中心;
根据各语音控制信息的声纹特征与类中心之间的距离,筛选出距离类中心预设范围内的语音控制信息,并对筛选出的语音控制信息进行声纹注册,获得注册用户的声纹模板。
5.如权利要求1-4中任一项所述的家电设备的声纹控制方法,其特征在于,所述声纹控制方法还包括:
当预设时间到达或者新接收到的语音控制信息的数量达到第二预设数量时,结合历史的声纹聚类数据,对新接收到的语音控制信息进行声纹聚类后自训练,获得新的声纹模型。
6.如权利要求1所述的家电设备的声纹控制方法,其特征在于,所述用户信息对应的操作习惯信息为基于预设声纹库确定语音控制信息对应的用户信息后,对该用户信息对应的所有语音控制信息进行分析获得,并与所述用户信息对应存储。
7.一种家电设备的声纹控制方法,其特征在于,所述家电设备的声纹控制方法包括:
接收对所述家电设备进行语音控制的语音控制信息;
将接收到的语音控制信息发送至服务器,并接收服务器返回的操作习惯信息,按所述操作习惯信息运行;所述服务器对预设时间段内的语音控制信号进行声纹聚类后自训练而获得声纹模型,并基于声纹模型确定语音控制信息对应的用户信息,并确定所述用户信息对应的操作习惯信息。
8.如权利要求7所述的家电设备的声纹控制方法,其特征在于,所述接收对所述家电设备进行语音控制的语音控制信息的步骤之后,包括:
判断本地是否存在声纹模型;
当存在声纹模型时,根据声纹模型确定所述语音控制信息对应的用户信息,并确定所述用户信息对应的操作习惯信息,按照所述操作习惯信息运行。
9.一种服务器,其特征在于,包括处理器、存储器以及存储于所述存储器上的声纹控制程序,所述声纹控制程序被所述处理器调用执行时实现如权利要求1-6中任一项所述的声纹控制方法的步骤。
10.一种家电设备,其特征在于,所述家电设备包括处理器、存储器以及存储于所述存储器上的声纹控制程序,所述声纹控制程序被所述处理器调用执行时实现如权利要求7或8所述的声纹控制方法的步骤。
11.一种计算机的可读存储介质,其特征在于,所述可读存储介质上存储有对家电设备进行声纹控制的计算机程序,所述计算机程序被处理器执行实现如权利要求1-8中任一项所述的声纹控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110664364.XA CN115482813A (zh) | 2021-06-15 | 2021-06-15 | 家电设备及其声纹控制方法、服务器、可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110664364.XA CN115482813A (zh) | 2021-06-15 | 2021-06-15 | 家电设备及其声纹控制方法、服务器、可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115482813A true CN115482813A (zh) | 2022-12-16 |
Family
ID=84420086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110664364.XA Pending CN115482813A (zh) | 2021-06-15 | 2021-06-15 | 家电设备及其声纹控制方法、服务器、可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115482813A (zh) |
-
2021
- 2021-06-15 CN CN202110664364.XA patent/CN115482813A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109818839B (zh) | 应用于智能家居的个性化行为预测方法、装置和系统 | |
CN108121211B (zh) | 家电设备的控制方法、服务器及计算机可读存储介质 | |
CN105654949B (zh) | 一种语音唤醒方法及装置 | |
CN112051743A (zh) | 设备控制方法、冲突处理方法、相应的装置及电子设备 | |
CN108153158A (zh) | 家居场景的切换方法、装置、存储介质及服务器 | |
US10380208B1 (en) | Methods and systems for providing context-based recommendations | |
CN107272607A (zh) | 一种智能家居控制系统及方法 | |
CN112349283B (zh) | 一种基于用户意图的家电控制方法及智能家电 | |
CN111245688A (zh) | 一种基于室内智能控制电器设备的方法及系统 | |
CN112201233A (zh) | 一种智能家居设备的语音控制方法、系统、设备及计算机存储介质 | |
CN112230555A (zh) | 智能家居设备及其控制方法、装置和存储介质 | |
CN108932947B (zh) | 语音控制方法及家电设备 | |
CN111222044A (zh) | 基于情绪感知的信息推荐方法、设备及存储介质 | |
CN107421557B (zh) | 导航目的地的确定方法、智能终端和具有存储功能的装置 | |
CN117762032B (zh) | 基于场景适应和人工智能的智能设备控制系统及方法 | |
CN115905688A (zh) | 一种基于人工智能和智能家居的参考信息生成方法 | |
CN110567134A (zh) | 智能空调的自动运行控制方法、系统以及存储介质 | |
CN110866094B (zh) | 指令识别方法、装置、存储介质、电子装置 | |
CN114078472A (zh) | 一种低误唤醒率的关键词计算模型的训练方法及装置 | |
CN109902461A (zh) | 一种电器控制方法、装置、存储介质及电器 | |
CN112235602A (zh) | 智能电视的个性化屏保系统、方法和智能电视 | |
CN115482813A (zh) | 家电设备及其声纹控制方法、服务器、可读存储介质 | |
CN110805995A (zh) | 空气调节设备的控制方法、装置、控制器和存储介质 | |
CN110970019A (zh) | 智能家居系统的控制方法和装置 | |
CN110853642B (zh) | 语音控制方法、装置、家电设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |