CN113205802A - 语音识别模型的更新方法、家用电器及服务器 - Google Patents

语音识别模型的更新方法、家用电器及服务器 Download PDF

Info

Publication number
CN113205802A
CN113205802A CN202110514747.9A CN202110514747A CN113205802A CN 113205802 A CN113205802 A CN 113205802A CN 202110514747 A CN202110514747 A CN 202110514747A CN 113205802 A CN113205802 A CN 113205802A
Authority
CN
China
Prior art keywords
voice
recognition model
server
model
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110514747.9A
Other languages
English (en)
Other versions
CN113205802B (zh
Inventor
刘亚涛
魏中科
全永兵
吴启军
黄健
陈世穷
张晓雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Midea Group Co Ltd
Wuhu Midea Kitchen and Bath Appliances Manufacturing Co Ltd
Original Assignee
Midea Group Co Ltd
Wuhu Midea Kitchen and Bath Appliances Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Midea Group Co Ltd, Wuhu Midea Kitchen and Bath Appliances Manufacturing Co Ltd filed Critical Midea Group Co Ltd
Priority to CN202110514747.9A priority Critical patent/CN113205802B/zh
Publication of CN113205802A publication Critical patent/CN113205802A/zh
Application granted granted Critical
Publication of CN113205802B publication Critical patent/CN113205802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Abstract

本发明实施例提供了一种语音识别模型的更新方法、家用电器及服务器,该更新方法包括:家用电器采集用户发出的语音指令,使用本地语音识别模型对语音指令进行语音识别,将未识别成功的语音指令发送至服务器,服务器根据未识别成功的语音指令与可识别指令集生成训练样本集,并使用训练样本集训练服务器中的语音识别模型,家用电器接收服务器发送的训练好的语音识别模型的模型参数,使用模型参数更新本地语音识别模型,从而既可以提高家用电器的语音控制的有效性,也能够通过家用电器和服务器交互,完成家用电器中本地语音识别模型的升级更新,明显地提高了家用电器的语音识别能力,提升了用户的体验感。

Description

语音识别模型的更新方法、家用电器及服务器
技术领域
本发明涉及家用电器技术领域,尤其涉及一种语音识别模型的更新方法、家用电器及服务器。
背景技术
随着智能家居场景的发展,智能家电越来越多的集中采用语音控制。目前来说语音控制一般分为两种方案:一种为在线语音控制方案,另一种为本地语音控制方案。
在线语音控制方案是利用本地设备将用户的语音指令发送给云端服务器,以通过云端服务器对语音指令进行语音语义的识别处理,然后返回与语音指令对应的控制信息给本地设备。在该方案中,由于需要依靠云端服务器对语音指令进行语音识别,则本地设备和云端服务器之间的通讯状况的好坏直接影响语音控制的有效性。而本地语音控制方案是直接在每个智能家电设备中加入一个语音语义处理控制板,以通过本地的语音语义处理控制板来对语音指令进行语音语义的识别处理,在该方案中存在一个明显的劣势就是本地设备的语音识别和处理能力明显不如云端服务器强大,且难以完成自我更新,识别能力较差。因此,无论是在线语音控制方案还是本地语音控制方案均存在弊端。
发明内容
为至少部分地解决现有技术中存在的上述问题,本发明实施例的目的是提供一种语音识别模型的更新方法、家用电器及服务器。
为了实现上述目的,本发明第一方面提供一种语音识别模型的更新方法,应用于家用电器,其中,更新方法包括:
采集用户发出的语音指令;
使用本地语音识别模型对语音指令进行语音识别;
将未识别成功的语音指令发送至服务器,其中,服务器用于根据未识别成功的语音指令与可识别指令集生成训练样本集,并使用训练样本集训练服务器中的语音识别模型;
接收服务器发送的训练好的语音识别模型的模型参数;
使用模型参数更新本地语音识别模型。
在本发明实施例中,将未识别成功的语音指令发送至服务器包括:
存储未识别成功的语音指令;
将预设周期内存储的未识别成功的语音指令发送至服务器;或者在存储的未识别成功的语音指令的数量达到第一预设数量的情况下,将存储的未识别成功的语音指令发送至服务器。
本发明第二方面提供一种语音识别模型的更新方法,应用于服务器,其中,更新方法包括:
接收家用电器发送的未识别成功的语音指令;
获取可识别指令集;
根据未识别成功的语音指令与可识别指令集生成训练样本集;
使用训练样本集对服务器中的语音识别模型进行训练;以及
将训练好的语音识别模型的模型参数发送至家用电器,以更新家用电器的本地语音识别模型。
在本发明实施例中,根据未识别成功的语音指令与可识别指令集生成训练样本集包括:
对未识别成功的语音指令进行语音标注;
在可识别指令集中随机抽取第二预设数量的可识别语音指令;
将语音标注后的未识别成功的语音指令与第二预设数量的可识别语音指令组成训练样本集。
在本发明实施例中,使用训练样本集对服务器中的语音识别模型进行训练包括:
使用训练样本集对服务器中的语音识别模型进行第一预设次数的训练,以获得第一语音识别模型;
对第一语音识别模型进行模型评估;
若第一语音识别模型未达到模型评估条件,则继续使用训练样本集对第一语音识别模型进行第二预设次数的训练,以得到达到模型评估条件的第二语音识别模型。
在本发明实施例中,对第一语音识别模型进行模型评估之后,还包括:
若第一语音识别模型达到模型评估条件,则将第一语音识别模型的模型参数作为所述服务器训练好的语音识别模型的模型参数发送至家用电器。
在本发明实施例中,对第一语音识别模型进行模型评估包括:
获取未识别指令集;
根据可识别指令集和未识别指令集生成评估样本集;
使用评估样本集对第一语音识别模型进行模型评估。
在本发明实施例中,模型评估包括对语音识别的准确率的评估以及对预设损失函数的收敛值的评估。
本发明第三方面提供一种处理器,被配置成执行根据以上所述的应用于家用电器的语音识别模型的更新方法。
本发明第四方面提供一种处理器,被配置成执行根据以上所述的应用于服务器的语音识别模型的更新方法。
本发明第五方面提供一种家用电器,包括根据以上所述的处理器。
本发明第六方面提供一种服务器,包括根据以上所述的处理器。
本发明第七方面提供一种机器可读存储介质,其上存储有指令,其中,指令被处理器执行时实现根据以上所述的应用于家用电器的语音识别模型的更新方法,或者实现根据以上所述的应用于服务器的语音识别模型的更新方法。
上述技术方案中,家用电器能够直接使用本地语音识别模型对用户发出的语音指令进行本地语音识别,也能将未识别成功的语音指令发送至服务器,服务器可以根据未识别成功的语音指令与可识别指令集生成训练样本集,并使用训练样本集训练服务器中的语音识别模型,当服务器中的语音识别模型训练完成以后,服务器可以将训练好的语音识别模型的模型参数发送给家用电器,家用电器可以使用接收到的模型参数对本地语音识别模型进行更新。即在本发明中,家用电器直接通过本地语音识别模型对用户发出的语音指令进行语音识别,同时还可以将本地语音识别模型无法识别成功的语音指令发送至服务器进行语音识别和模型训练,以得到训练好的模型参数完成对家用电器的本地语音识别模型的升级更新,从而既可以避免出现受通讯状况的好坏直接影响语音控制的有效性的现象,以达到提高家用电器的语音控制的有效性的目的,也能够通过家用电器和服务器交互,完成家用电器中本地语音识别模型的升级更新,明显地提高了家用电器的语音识别能力,提升了用户的体验感。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1示意性示出了根据本发明实施例的应用于家用电器的语音识别模型的更新方法的流程示意图;
图2示意性示出了根据本发明实施例的应用于家用电器的语音识别模型的更新方法中步骤103的流程示意图;
图3示意性示出了根据本发明实施例的应用于服务器的语音识别模型的更新方法的流程示意图;
图4示意性示出了根据本发明实施例的应用于服务器的语音识别模型的更新方法中步骤203的流程示意图;
图5示意性示出了根据本发明实施例的应用于服务器的语音识别模型的更新方法中步骤204的流程示意图;
图6示意性示出了根据本发明实施例的语音识别模型的更新方法的算法示意图;
图7示意性示出了根据本发明实施例的应用语音识别模型的更新方法的设备架构图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
需要说明,若本申请实施方式中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本申请实施方式中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
随着智能家居场景的发展,智能家电越来越多的集中采用语音控制。目前来说语音控制一般分为两种方案:一种为在线语音控制方案,另一种为本地语音控制方案。
在线语音控制方案是利用本地设备将用户的语音指令发送给云端服务器,以通过云端服务器对语音指令进行语音语义的识别处理,然后返回与语音指令对应的控制信息给本地设备。在该方案中,由于需要依靠云端服务器对语音指令进行语音识别,则本地设备和云端服务器之间的通讯状况的好坏直接影响语音控制的有效性。而本地语音控制方案是直接在每个智能家电设备中加入一个语音语义处理控制板,以通过本地的语音语义处理控制板来对语音指令进行语音语义的识别处理,在该方案中存在一个明显的劣势就是本地设备的语音识别和处理能力明显不如云端服务器强大,且难以完成自我更新,识别能力较差。因此,无论是在线语音控制方案还是本地语音控制方案均存在弊端。
基于此,本申请实施例提供了一种语音识别模型的更新方法,通过家用电器存储的本地语音识别模型可以直接对用户发出的语音指令进行语音识别,同时家用电器还可以将本地语音识别模型无法识别成功的语音指令发送至服务器进行语音识别和模型训练,以将训练好的模型参数下发至家用电器完成对本地语音识别模型的更新,从而既可以避免出现受通讯状况的好坏直接影响语音控制的有效性的现象,以达到提高家用电器的语音控制的有效性的目的,也能够通过家用电器和服务器交互,完成家用电器中本地语音识别模型的升级更新,明显地提高了家用电器的语音识别能力。
图1示意性示出了根据本发明实施例的应用于家用电器的语音识别模型的更新方法的流程示意图。如图1所示,在本发明一实施例中,提供了一种语音识别模型的更新方法,应用于家用电器,其中,更新方法包括:
步骤101:采集用户发出的语音指令。
具体地,可以通过家用电器的语音采集单元采集用户发出的语音指令。其中,语音采集单元包括但不限于为麦克风。
步骤102:使用本地语音识别模型对语音指令进行语音识别。
进一步地,家用电器上设置有用于存储有本地语音识别模型的语音识别主板,语音采集单元可以与语音识别主板连接,并将采集到的语音指令发送给语音识别主板,语音识别主板保存的本地语音识别模型可以对语音指令进行语音识别,由于可以运用本地语音识别模型直接对用户发出的语音指令进行语音识别,不需要依赖于服务器对语音指令进行语音识别,相较于在线语音控制方案,从而可以避免出现受通讯状况的好坏直接影响语音控制的有效性的现象,以达到提高语音控制的有效性的目的。
步骤103:将未识别成功的语音指令发送至服务器,其中,服务器用于根据未识别成功的语音指令与可识别指令集生成训练样本集,并使用训练样本集训练服务器中的语音识别模型。
更具体地,若本地语音识别模型对语音指令识别成功,则家用电器可以直接控制执行与语音指令对应的相关操作,若识别未成功,则家用电器可以与服务器进行交互通信,并将未识别成功的语音指令发送至服务器,以能够通过利用服务器强大的语音识别能力对家用电器未识别成功的语音指令进行识别,同时服务器还可以获取可识别指令集,并将可识别指令集中的可识别语音指令与家用电器未识别成功的语音指令进行组合以生成供服务器中的语音识别模型进行模型训练的训练样本集,服务器可以从训练样本集中随机抽取语音指令对服务器的语音识别模型进行模型训练,以提高服务器的语音识别模型的模型精度。
需要特别说明的是,可识别指令集即是指可以通过家用电器的本地语音识别模型识别成功的语音指令的集合。同时,可识别指令集可以存储在家用电器端,也可以存储在服务器端。
步骤104:接收服务器发送的训练好的语音识别模型的模型参数。
更进一步地,当服务器的模型训练完成后,可以输出训练好的语音识别模型的模型参数,并将模型参数通过OTA(Over-the-Air Technology,空中下载技术)下发至家用电器,以对家用电器的本地语音识别模型进行升级更新。
步骤105:使用模型参数更新本地语音识别模型。
上述技术方案中,家用电器能够直接使用本地语音识别模型对用户发出的语音指令进行本地语音识别,也能将未识别成功的语音指令发送至服务器,服务器可以根据未识别成功的语音指令与可识别指令集生成训练样本集,并使用训练样本集训练服务器中的语音识别模型,当服务器中的语音识别模型训练完成以后,服务器可以将训练好的语音识别模型的模型参数发送给家用电器,家用电器可以使用接收到的模型参数对本地语音识别模型进行更新。即在本发明中,家用电器直接通过本地语音识别模型对用户发出的语音指令进行语音识别,同时还可以将本地语音识别模型无法识别成功的语音指令发送至服务器进行语音识别和模型训练,以得到训练好的模型参数完成对家用电器的本地语音识别模型的升级更新,从而既可以避免出现受通讯状况的好坏直接影响语音控制的有效性的现象,以达到提高家用电器的语音控制的有效性的目的,也能够通过家用电器和服务器交互,完成家用电器中本地语音识别模型的升级更新,明显地提高了家用电器的语音识别能力,提升了用户的体验感。
图2示意性示出了根据本发明实施例的应用于家用电器的语音识别模型的更新方法中步骤103的流程示意图。在本发明实施例中,步骤103:将未识别成功的语音指令发送至服务器包括:
步骤1031:存储未识别成功的语音指令。
具体地,当本地语音识别模型对语音指令识别失败时,可以先进行本地存储。
步骤1032:将预设周期内存储的未识别成功的语音指令发送至服务器;或者在存储的未识别成功的语音指令的数量达到第一预设数量的情况下,将存储的未识别成功的语音指令发送至服务器。
即在本发明实施例中,家用电器将未识别成功的语音指令上传至服务器的时间点可以根据预设周期或者未识别成功的语音指令的存储数量进行确定。具体地,预设周期可以是一周,当未识别成功的语音指令的存储周期距离上一次上传服务器的时间达到一周后,则可将家用电器存储的未识别成功的语音指令上传至服务器;第一预设数量可以为100个,当家用电器本地存储的未识别成功的语音指令达到100个后,可以将100个未识别成功的语音指令上传至服务器。
通过将未识别成功的语音指令先进行本地存储,然后在存储的未识别成功的语音指令达到一定的存储周期或存储数量以后再上传给服务器,从而可以减少家用电器与服务器之间的交互次数。
在本发明实施例中,步骤102:使用本地语音识别模型对语音指令进行语音识别之后,还包括:
步骤1021:根据识别成功的语音指令执行控制指令。
具体地,当使用本地语音识别模型对用户发出的语音指令识别成功以后,语音识别主板可以将语音指令识别成功的信息发送给家用电器的控制主板,以通过控制主板执行与语音指令对应的控制指令,从而实现家用电器的语音控制。
图3示意性示出了根据本发明实施例的应用于服务器的语音识别模型的更新方法的流程示意图。如图3所示,在本发明一实施例中,提供了一种语音识别模型的更新方法,应用于服务器,其中,更新方法包括:
步骤201:接收家用电器发送的未识别成功的语音指令。
具体地,可以通过家用电器的语音采集单元采集用户发出的语音指令。其中,语音采集单元包括但不限于为麦克风。
进一步地,家用电器上设置有用于存储有本地语音识别模型的语音识别主板,语音采集单元可以与语音识别主板连接,并将采集到的语音指令发送给语音识别主板,语音识别主板保存的本地语音识别模型可以对语音指令进行语音识别,由于可以运用本地语音识别模型直接对用户发出的语音指令进行语音识别,不需要依赖于服务器对语音指令进行语音识别,相较于在线语音控制方案,从而可以避免出现受通讯状况的好坏直接影响语音控制的有效性的现象,以提高家用电器的语音控制的有效性。
更具体地,若本地语音识别模型对语音指令识别成功,则家用电器可以直接控制执行与语音指令对应的相关操作,若识别未成功,则家用电器可以与服务器进行交互通信,并将未识别成功的语音指令发送至服务器,以能够通过利用服务器强大的语音识别能力对家用电器未识别成功的语音指令进行识别。
步骤202:获取可识别指令集。
需要特别说明的是,可识别指令集即是指可以通过家用电器的本地语音识别模型识别成功的语音指令的集合。同时,可识别指令集可以存储在家用电器端,也可以存储在服务器端,即服务器可以从服务器本地或者家用电器获取可识别指令集。
步骤203:根据未识别成功的语音指令与可识别指令集生成训练样本集。
具体地,服务器在获取可识别指令集和家用电器上传的未识别成功的语音指令之后,可以将两者进行组合,以生成供服务器中的语音识别模型进行模型训练的训练样本集。
步骤204:使用训练样本集对服务器中的语音识别模型进行训练。
进一步地,服务器可以从训练样本集中随机抽取语音指令,以对服务器的语音识别模型进行模型训练,以达到提高服务器的语音识别模型的模型精度的目的。
步骤205:将训练好的语音识别模型的模型参数发送至家用电器,以更新家用电器的本地语音识别模型。
更进一步地,当服务器的模型训练完成后,可以输出训练好的语音识别模型的模型参数,并将模型参数通过OTA(Over-the-Air Technology,空中下载技术)下发至家用电器,以对家用电器的本地语音识别模型进行升级更新。
上述技术方案中,家用电器能够使用本地语音识别模型对用户发出的语音指令进行语音识别,并能将未识别成功的语音指令发送至服务器,服务器可以根据未识别成功的语音指令与可识别指令集生成训练样本集,并使用训练样本集训练服务器中的语音识别模型,当服务器中的语音识别模型训练好以后,可以将训练好的语音识别模型的模型参数发送给家用电器,家用电器可以使用接收到的模型参数对本地语音识别模型进行更新。即在本发明中,家用电器可以通过本地语音识别模型直接对用户发出的语音指令进行语音识别,同时还可以将本地语音识别模型无法识别成功的语音指令发送至服务器进行模型训练,以得到训练好的模型参数完成家用电器的语音识别模型的更新,从而既可以避免出现受通讯状况的好坏直接影响语音控制的有效性的现象,以达到提高家用电器的语音控制的有效性的目的,也能够通过家用电器和服务器交互,完成家用电器中本地语音识别模型的更新,明显地提高了家用电器的语音识别能力。
图4示意性示出了根据本发明实施例的应用于服务器的语音识别模型的更新方法中步骤203的流程示意图。在本发明实施例中,步骤203:根据未识别成功的语音指令与可识别指令集生成训练样本集包括:
步骤2031:对未识别成功的语音指令进行语音标注。
具体地,本地语音识别模型对用户发出的语音指令识别未成功,则家用电器可以与服务器进行交互通信,并将未识别成功的语音指令发送至服务器。而服务器相比于家用电器的语音识别主板拥有更强大的语音识别能力,则服务器可以通过对未识别成功的语音指令进行语音标注,以完成对未识别成功的语音指令完成语音识别。
步骤2032:在可识别指令集中随机抽取第二预设数量的可识别语音指令。
进一步地,可识别指令集拥有一个庞大数量的语音指令,为了节省服务器的空间,可以从可识别指令集中选取一定数量的可识别语音指令。例如:若家用电器上传至服务器的未识别成功的语音指令的数量为100个,则第二预设数量可以为900个,即可以从可识别指令集中随机抽取900个可识别语音指令。
步骤2033:将语音标注后的未识别成功的语音指令与第二预设数量的可识别语音指令组成训练样本集。
即当100个未识别成功的语音指令在服务器进行语音标注以后,可以与从可识别指令集中随机抽取的900个可识别语音指令进行组合,以生成供服务器中的语音识别模型进行模型训练的训练样本集。
图5示意性示出了根据本发明实施例的应用于服务器的语音识别模型的更新方法中步骤204的流程示意图。如图5所示,在本发明实施例中,步骤204:使用训练样本集对服务器中的语音识别模型进行训练包括:
步骤301:使用训练样本集对服务器中的语音识别模型进行第一预设次数的训练,以获得第一语音识别模型。
具体地,第一预设次数可以根据Epoch(时期)的个数确定,而一个Epoch就是将训练样本集中所有的语音指令训练一次的过程。即若Epoch的个数为100个,则在每个Epoch训练的过程中,都需要将训练样本集中所有的语音指令输入至服务器的语音识别模型中先进行一次完整的训练,并持续100次这样完整的训练。
同时,不同Epoch的训练,用的是同一个训练样本集。第1个Epoch和第100个Epoch虽然用的都是同一个训练样本集,但是对模型的权重更新值却是完全不同的。因为不同Epoch的模型处于代价函数空间上的不同位置,模型的训练代越靠后,越接近谷底,其代价越小。即在本发明实施例中,可以通过使用训练样本集对服务器中的语音识别模型进行多个Epoch的训练,以得到模型精度更高的第一语音识别模型。
步骤302:对第一语音识别模型进行模型评估。
进一步地,当进行第一预设次数的训练后,可以输出第一语音识别模型,并且可以通过对第一语音识别模型进行模型评估,以判断第一语音识别模型是否满足模型评估条件。
步骤303:若第一语音识别模型未达到模型评估条件,则使用训练样本集对第一语音识别模型进行第二预设次数的训练,以得到达到模型评估条件的第二语音识别模型。
即当第一语音识别模型未满足模型评估条件,则继续使用原有的训练样本集对第一语音识别模型进行模型训练,同时,第二预设次数还是可以根据Epoch(时期)的个数确定,即继续增加训练的Epoch的个数,但是增加的Epoch的个数并不限定,训练到一定数量的Epoch后,可以对训练完成后的语音识别模型进行模型评估,若还未达到模型评估条件,则继续增加训练的Epoch的个数,直至得到满足模型评估条件的第二语音识别模型,从而可以保证服务器下发至家用电器的模型参数的精度。
在本发明实施例中,步骤302:对第一语音识别模型进行模型评估之后,还包括:
步骤304:若第一语音识别模型达到模型评估条件,则将第一语音识别模型的模型参数作为服务器训练好的语音识别模型的模型参数发送至家用电器。
具体地,当第一语音识别模型满足模型评估条件,则可以停止模型训练,直接将第一语音识别模型的模型参数通过OTA(Over-the-Air Technology,空中下载技术)下发至家用电器,以对家用电器的本地语音识别模型进行升级更新。
在本发明实施例中,步骤302:对第一语音识别模型进行模型评估包括:
步骤3021:获取未识别指令集。
需要特别说明的是,未识别指令集即是指通过家用电器的本地语音识别模型无法识别的语音指令的集合。同时,未识别指令集可以存储在家用电器端,也可以存储在服务器端,即服务器可以从服务器本地或者家用电器获取未识别指令集。
步骤3022:根据可识别指令集和未识别指令集生成评估样本集。
具体地,可以在可识别指令集中随机抽取并不包含在训练样本集中的可识别语音指令,以及可以在未识别指令集中随机抽取并不包含在训练样本集中的未识别成功的语音指令,并将抽取的可识别语音指令和未识别成功的语音指令进行组合,以生成评估样本集,从而可以利用评估样本集对第一语音识别模型进行模型评估。例如:可以从可识别指令集随机抽取并不包含在训练样本集中的100个语音指令,以及可以从未识别指令集中随机抽取并不包含在训练样本集中的50个语音指令,并将两者进行组合以生成150条的评估语音指令。
步骤3023:使用评估样本集对第一语音识别模型进行模型评估。
即在本发明实施例中,可以通过利用语音指令有别于训练样本集的评估样本集来对第一语音识别模型进行模型评估,从而可以进一步保证模型评估的有效性。
在本发明实施例中,模型评估包括对语音识别的准确率的评估以及对预设损失函数的收敛值的评估。
具体地,可以利用第一语音识别模型对评估样本集中的每个评估语音指令进行语音识别,以通过语音识别的准确率来实现模型评估,在本发明实施例中,当语音识别的准确率达到90%以上,则可以确定为第一语音识别模型满足模型评估条件。同时还可以利用预设损失函数来对第一语音识别模型的收敛值进行评估,预设损失函数可以选用SoftMax_with_Cross_Entropy。
此外,图6示意性示出了根据本发明实施例的语音识别模型的更新方法的算法示意图。在本发明实施例中,服务器中的语音识别模型和家用电器中的本地语音识别模型均采用语音识别深度学习算法,如图6所示,语音识别深度学习算法采用6层全卷积模型,输入参数可以为13*16,输出参数为64*64,并加上两层全链接层。
图7示意性示出了根据本发明实施例的应用语音识别模型的更新方法的设备架构图。如图7所示,其主要包括家用电器(如油烟机、空调和冰箱等)、网关设备(软硬路由)和服务器06等三部分组成,服务器06中存储有用于进行模型训练的语音识别模型。同时,家用电器上设置有MIC传感器01、语音识别主板02和控制主板03等,并且控制主板03还可以通过通讯单元04与其他设备进行通讯,语音识别主板02上存储有家用电器的本地语音识别模型。
以下将根据图7所示的设备架构图对本发明实施例中语音识别模型的更新方法的过程作详细地说明。详细步骤如下:
(1)MIC传感器01采集用户的语音指令,并将语音指令发送给语音识别主板02;
(2)语音识别主板02内的本地语音识别模型对语音指令进行识别;
(3)将语音识别的结果发送给控制主板03:若本地语音识别模型对语音指令成功识别,则控制主板03可以根据语音指令发出相应的控制指令;当本地语音识别模型对语音指令识别失败,则控制主板03将未识别成功的语音指令进行存储;
(4)当控制主板03存储的未识别成功的语音指令达到预设周期或第一预设数量后,可以通过网关设备05上传给服务器06;
(5)服务器06获取可识别指令集,并在可识别指令集中随机抽取第二预设数量的可识别语音指令;
(6)服务器06将第二预设数量的可识别语音指令与控制主板03上传的未识别成功的语音指令进行组合,以生成训练样本集;
(7)使用训练样本集对服务器06中的语音识别模型进行第一预设次数的Epoch训练,以得到第一语音识别模型;
(8)对第一语音识别模型进行模型评估:当第一语音识别模型满足模型评估条件,则直接将第一语音识别模型的模型参数作为服务器06训练好的模型参数;当第一语音识别模型未满足模型评估条件,则对第一语音识别模型继续增加第二预设次数的Epoch训练,直至得到的第二语音识别模型满足模型评估条件,可将第二语音识别模型的模型参数作为服务器06训练好的模型参数;
(9)服务器06将训练好的模型参数通过OTA(Over-the-Air Technology,空中下载技术)下发至家用电器,以对家用电器的本地语音识别模型进行升级更新。
即在本发明的实施例中,家用电器可以通过本地语音识别模型直接对用户发出的语音指令进行语音识别,同时还可以将本地语音识别模型无法识别成功的语音指令发送至服务器进行模型训练,以得到训练好的模型参数完成家用电器的语音识别模型的更新,从而既可以避免出现受通讯状况的好坏直接影响语音控制的有效性的现象,也能够通过家用电器和服务器交互,完成家用电器中本地语音识别模型的更新,明显地提高了家用电器的语音识别能力。
本发明的另一实施例中提供一种处理器,被配置成执行以上实施例中提供的应用于家用电器的语音识别模型的更新方法。
本发明的另一实施例中提供一种处理器,被配置成执行以上实施例中提供的应用于服务器的语音识别模型的更新方法。
本发明的另一实施例中提供一种家用电器,该家用电器包括上述实施例中提供的处理器。
具体地,家用电器包括:语音采集单元、语音识别单元、控制单元、第一发送单元和第一接收单元,其中:
语音采集单元,用于采集用户发出的语音指令;
语音识别单元,用于存储家用电器的本地语音识别模型,并通过本地语音识别模型对语音采集单元采集的语音指令进行语音识别;
控制单元,用于根据语音识别单元成功识别的语音指令对家用电器进行控制,并对语音识别单元未识别成功的语音指令进行存储;
第一发送单元,用于当控制单元存储的未识别成功的语音指令达到预设周期或第一预设数量时,将控制单元存储的未识别成功的语音指令上传至服务器;
第一接收单元,第一接收单元还用于接收服务器发送的训练好的模型参数,并将训练好的模型参数发送给语音识别单元,以对语音识别单元内存储的本地语音识别模型进行升级更新。
即在本发明的实施例中,家用电器包括:语音采集单元、语音识别单元、控制单元、第一发送单元和第一接收单元,语音识别单元内存储有用于进行本地语音识别的本地语音识别模型,从而可以直接通过语音识别单元对语音采集单元采集的语音指令进行识别,无需上传服务器,从而可以避免出现受通讯状况的好坏直接影响语音控制的有效性的现象,以达到提升家用电器的语音控制的有效性的目的,同时,控制单元还可以对未识别成功的语音指令进行存储,并在未识别成功的语音指令达到预设周期或第一预设数量后通过第一发送单元上传至服务器,而第一接收单元可以接收服务器利用未识别成功的语音指令进行模型训练好得到的模型参数,并将其发送给语音识别单元,以对语音识别单元内存储的本地语音识别模型进行升级更新,从而还能够通过家用电器和服务器交互,完成家用电器中本地语音识别模型的更新,明显地提高了家用电器的语音识别能力。
本发明的另一实施例中提供一种服务器,该服务器包括上述实施例中提供的处理器。
具体地,服务器包括获取单元、第二接收单元、训练单元、评估单元和第二发送单元,其中:
获取单元,用于获取可识别指令集和未识别指令集;
第二接收单元,用于接收家用电器上传的未识别成功的语音指令;
训练单元,用于存储服务器的语音识别模型,并根据可识别指令集和第二接收单元接收的未识别成功的语音指令生成训练样本集,以及使用训练样本集对服务器的语音识别模型进行训练;
评估单元,用于根据可识别指令集和未识别指令集生成评估样本集,以及使用评估样本集对训练单元训练好的语音识别模型进行模型评估;
第二发送单元,用于将满足评估单元的模型评估条件的模型参数下发至家用电器。
即在本发明的实施例中,服务器包括获取单元、第二接收单元、训练单元、评估单元和第二发送单元,训练单元可以根据获取单元获取的可识别指令集和第二接收单元接收的未识别成功的语音指令生成训练样本集,并使用训练样本集对训练单元存储的语音识别模型进行模型训练,同时评估单元可以根据可识别指令集和未识别指令集生成评估样本集,以及使用评估样本集对训练单元训练好的语音识别模型进行评估,而第二发送单元只会将满足评估单元的模型评估条件的模型参数下发至家用电器,从而可以通过家用电器和服务器交互,完成家用电器中本地语音识别模型的更新,明显地提高了家用电器的语音识别能力。
本发明的另一实施例中提供一种机器可读存储介质,其上存储有指令,其中,指令被处理器执行时实现以上实施例中描述的应用于家用电器的语音识别模型的更新方法,或者实现以上实施例中描述的应用于服务器的语音识别模型的更新方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种语音识别模型的更新方法,应用于家用电器,其特征在于,所述更新方法包括:
采集用户发出的语音指令;
使用本地语音识别模型对所述语音指令进行语音识别;
将未识别成功的语音指令发送至服务器,其中,所述服务器用于根据未识别成功的语音指令与可识别指令集生成训练样本集,并使用所述训练样本集训练所述服务器中的语音识别模型;
接收所述服务器发送的训练好的语音识别模型的模型参数;
使用所述模型参数更新所述本地语音识别模型。
2.根据权利要求1所述的更新方法,其特征在于,所述将未识别成功的语音指令发送至服务器包括:
存储未识别成功的语音指令;
将预设周期内存储的未识别成功的语音指令发送至所述服务器;或者在存储的未识别成功的语音指令的数量达到第一预设数量的情况下,将存储的未识别成功的语音指令发送至所述服务器。
3.一种语音识别模型的更新方法,应用于服务器,其特征在于,所述更新方法包括:
接收家用电器发送的未识别成功的语音指令;
获取可识别指令集;
根据未识别成功的语音指令与所述可识别指令集生成训练样本集;
使用所述训练样本集对所述服务器中的语音识别模型进行训练;以及
将训练好的语音识别模型的模型参数发送至所述家用电器,以更新所述家用电器的本地语音识别模型。
4.根据权利要求3所述的更新方法,其特征在于,所述根据未识别成功的语音指令与所述可识别指令集生成训练样本集包括:
对未识别成功的语音指令进行语音标注;
在所述可识别指令集中随机抽取第二预设数量的可识别语音指令;
将语音标注后的未识别成功的语音指令与所述第二预设数量的可识别语音指令组成所述训练样本集。
5.根据权利要求3所述的更新方法,其特征在于,所述使用所述训练样本集对所述服务器中的语音识别模型进行训练包括:
使用所述训练样本集对所述服务器中的语音识别模型进行第一预设次数的训练,以获得第一语音识别模型;
对所述第一语音识别模型进行模型评估;
若所述第一语音识别模型未达到模型评估条件,则继续使用所述训练样本集对所述第一语音识别模型进行第二预设次数的训练,以得到达到所述模型评估条件的第二语音识别模型。
6.根据权利要求5所述的更新方法,其特征在于,所述对所述第一语音识别模型进行模型评估之后,还包括:
若所述第一语音识别模型达到所述模型评估条件,则将所述第一语音识别模型的模型参数作为所述服务器训练好的语音识别模型的模型参数发送至所述家用电器。
7.根据权利要求5所述的更新方法,其特征在于,所述对所述第一语音识别模型进行模型评估包括:
获取未识别指令集;
根据所述可识别指令集和所述未识别指令集生成评估样本集;
使用所述评估样本集对所述第一语音识别模型进行模型评估。
8.根据权利要求5所述的更新方法,其特征在于,所述模型评估包括对语音识别的准确率的评估以及对预设损失函数的收敛值的评估。
9.一种家用电器,其特征在于,包括被配置成执行根据权利要求1或2所述的语音识别模型的更新方法的处理器。
10.一种服务器,其特征在于,包括被配置成执行根据权利要求3至8中任意一项所述的语音识别模型的更新方法的处理器。
CN202110514747.9A 2021-05-10 2021-05-10 语音识别模型的更新方法、家用电器及服务器 Active CN113205802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110514747.9A CN113205802B (zh) 2021-05-10 2021-05-10 语音识别模型的更新方法、家用电器及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110514747.9A CN113205802B (zh) 2021-05-10 2021-05-10 语音识别模型的更新方法、家用电器及服务器

Publications (2)

Publication Number Publication Date
CN113205802A true CN113205802A (zh) 2021-08-03
CN113205802B CN113205802B (zh) 2022-11-04

Family

ID=77031077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110514747.9A Active CN113205802B (zh) 2021-05-10 2021-05-10 语音识别模型的更新方法、家用电器及服务器

Country Status (1)

Country Link
CN (1) CN113205802B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763673A (zh) * 2021-09-13 2021-12-07 贵州明策大数据应用策划有限公司 关爱老人智能语音识别报警器
WO2023065854A1 (zh) * 2021-10-22 2023-04-27 华为技术有限公司 分布式语音控制方法及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233487A1 (en) * 2006-04-03 2007-10-04 Cohen Michael H Automatic language model update
CN107342076A (zh) * 2017-07-11 2017-11-10 华南理工大学 一种兼容非常态语音的智能家居控制系统及方法
CN108847222A (zh) * 2018-06-19 2018-11-20 Oppo广东移动通信有限公司 语音识别模型生成方法、装置、存储介质及电子设备
CN109119071A (zh) * 2018-09-26 2019-01-01 珠海格力电器股份有限公司 一种语音识别模型的训练方法及装置
CN110277089A (zh) * 2019-07-09 2019-09-24 广东美的制冷设备有限公司 离线语音识别模型的更新方法、家用电器和服务器
CN110491373A (zh) * 2019-08-19 2019-11-22 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备
US20200005774A1 (en) * 2019-07-30 2020-01-02 Lg Electronics Inc. Speech recognition method and speech recognition device
CN111933130A (zh) * 2019-04-24 2020-11-13 阿里巴巴集团控股有限公司 语音识别方法、装置及系统
CN112542169A (zh) * 2020-12-25 2021-03-23 腾讯科技(深圳)有限公司 一种语音识别处理方法与装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233487A1 (en) * 2006-04-03 2007-10-04 Cohen Michael H Automatic language model update
CN107342076A (zh) * 2017-07-11 2017-11-10 华南理工大学 一种兼容非常态语音的智能家居控制系统及方法
CN108847222A (zh) * 2018-06-19 2018-11-20 Oppo广东移动通信有限公司 语音识别模型生成方法、装置、存储介质及电子设备
CN109119071A (zh) * 2018-09-26 2019-01-01 珠海格力电器股份有限公司 一种语音识别模型的训练方法及装置
CN111933130A (zh) * 2019-04-24 2020-11-13 阿里巴巴集团控股有限公司 语音识别方法、装置及系统
CN110277089A (zh) * 2019-07-09 2019-09-24 广东美的制冷设备有限公司 离线语音识别模型的更新方法、家用电器和服务器
US20200005774A1 (en) * 2019-07-30 2020-01-02 Lg Electronics Inc. Speech recognition method and speech recognition device
CN110491373A (zh) * 2019-08-19 2019-11-22 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备
CN112542169A (zh) * 2020-12-25 2021-03-23 腾讯科技(深圳)有限公司 一种语音识别处理方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALDEBARO KLAUTOU ET AL.: "SERVER-ASSISTED SPEECH RECOGNITION OVER THE INTERNET", 《2000IEEE》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763673A (zh) * 2021-09-13 2021-12-07 贵州明策大数据应用策划有限公司 关爱老人智能语音识别报警器
WO2023065854A1 (zh) * 2021-10-22 2023-04-27 华为技术有限公司 分布式语音控制方法及电子设备

Also Published As

Publication number Publication date
CN113205802B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN113205802B (zh) 语音识别模型的更新方法、家用电器及服务器
CN107644638A (zh) 语音识别方法、装置、终端和计算机可读存储介质
CN112489648B (zh) 唤醒处理阈值调整方法、语音家电、存储介质
CN108121210A (zh) 家电设备的权限分配方法和装置、存储介质、处理器
CN105825848A (zh) 一种语音识别方法、装置及终端
CN107742520B (zh) 语音控制方法、装置及系统
CN112002316A (zh) 一种电器控制方法、装置、存储介质及终端
CN114676689A (zh) 语句文本的识别方法和装置、存储介质及电子装置
CN111650842A (zh) 一种家电设备控制方法及装置
CN113205807B (zh) 一种语音设备的控制方法、装置、存储介质及语音设备
CN108538290A (zh) 一种基于音频信号检测的智能家居控制方法
CN112634897B (zh) 设备唤醒方法、装置和存储介质及电子装置
CN110925936A (zh) 空调控制方法、装置、计算机设备和存储介质
CN112349282A (zh) 语音控制系统、语音处理方法及外部设备
CN110970019A (zh) 智能家居系统的控制方法和装置
CN114915514B (zh) 意图的处理方法和装置、存储介质及电子装置
CN110866609A (zh) 解释信息获取方法、装置、服务器和存储介质
CN114925158A (zh) 语句文本的意图识别方法和装置、存储介质及电子装置
CN111128135B (zh) 语音交流方法及装置
CN116105307A (zh) 空调控制方法、装置、电子设备和存储介质
CN110689894B (zh) 自动注册方法及装置、智能设备
CN110827811A (zh) 家电设备的语音控制方法及装置
CN110837229B (zh) 家用电器的控制方法和装置
CN110967976A (zh) 智能家居系统的控制方法和装置
CN110378754B (zh) 一种数据处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant