CN112233665A - 模型训练的方法和装置、电子设备和存储介质 - Google Patents

模型训练的方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112233665A
CN112233665A CN202011110813.8A CN202011110813A CN112233665A CN 112233665 A CN112233665 A CN 112233665A CN 202011110813 A CN202011110813 A CN 202011110813A CN 112233665 A CN112233665 A CN 112233665A
Authority
CN
China
Prior art keywords
target
voice data
instruction
voice
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011110813.8A
Other languages
English (en)
Inventor
宋剑
白莹
王桥
华洪香
孔进亮
廖禛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN202011110813.8A priority Critical patent/CN112233665A/zh
Publication of CN112233665A publication Critical patent/CN112233665A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供一种模型训练的方法和装置、电子设备和存储介质,其中,该方法包括:获取目标对象输入的目标语音数据,其中,目标语音数据是与目标指令匹配的语音数据,目标指令用于控制目标设备执行目标操作;生成目标语音样本,其中,目标语音样本包括目标语音数据,与目标语音数据对应的、用于表示目标指令的目标标注信息;使用目标语音样本对目标设备上运行的第一语音识别模型进行训练,得到第二语音识别模型。本申请可以适用不同用户在不同场景下的语音数据,进而提高语音识别的准确率,扩大应用用户群体。

Description

模型训练的方法和装置、电子设备和存储介质
技术领域
本申请涉及数据处理领域,尤其涉及一种模型训练的方法和装置、电子设备和存储介质。
背景技术
当下语音控制在家电产品中的应用越来越广泛,常见的语音控制包括语音唤醒和语音控制命令。其中,语音唤醒应用领域比较广泛,例如,应用到机器人、手机、可穿戴设备、智能家居、车载等。很多带有语音功能的设备,通常会将语音唤醒作为人机交互的开始或入口。
目前,语音识别系统的唤醒词和控制命令仅适用开发前期训练好的语音识别模型,该语音识别模型对于不同用户、不同场合所发出的语音的识别准确度较低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种模型训练的方法和装置、电子设备和存储介质。
根据本申请实施例的一个方面,提供了一种模型训练的方法,该方法包括:
获取目标对象输入的目标语音数据,其中,目标语音数据是与目标指令匹配的语音数据,目标指令用于控制目标设备执行目标操作;
生成目标语音样本,其中,目标语音样本包括目标语音数据,与目标语音数据对应的、用于表示目标指令的目标标注信息;
使用目标语音样本对目标设备上运行的第一语音识别模型进行训练,得到第二语音识别模型。
可选地,在获取目标对象输入的目标语音数据之前,该方法还包括:
获取目标对象执行的第一操作,其中,第一操作用于控制目标设备内进入到模型训练模式,模型训练模式为根据获取的语音数据对目标设备上运行的第一语音识别模型进行训练的模式。
可选地,在获取目标对象输入的目标语音数据之后,该方法还包括:
对目标语音数据进行语音识别,确定与目标语音数据匹配的目标指令。
可选地,对目标语音数据进行语音识别,确定与目标语音数据匹配的目标指令包括:
对目标语音数据进行语音识别,提取目标语音数据内的目标关键词;
获取目标关键词与预设关键词之间的相似度,其中,预设关键词为与预设指令对应的关键词;
根据相似度,从预设指令中确定出与目标语音数据匹配的目标指令,其中,与目标指令对应的预设关键词与目标关键词之间的相似度大于或者等于目标相似度阈值。
可选地,在获取目标对象执行的第一操作之后,该方法还包括:
获取目标对象执行的第二操作,其中,第二操作用于将目标语音数据与目标指令相匹配,并从目标语音数据中选取出目标指令的目标标注信息。
可选地,该方法还包括:
获取目标对象执行的第三操作,其中,第三操作用于控制进入指令展示模式,指令展示模式用于展示目标设备的控制指令;
响应第三操作,依次播放目标设备的多个控制指令中的各个控制指令、以及与各个控制指令对应的语音回复,其中,多个控制指令包括:用于唤醒目标设备的唤醒指令,用于控制目标设备执行预设操作的控制指令。
根据本申请实施例的再一个方面,提供了一种模型训练的装置,该装置包括:
第一获取模块,用于获取目标对象输入的目标语音数据,其中,目标语音数据是与目标指令匹配的语音数据,目标指令用于控制目标设备执行目标操作;
生成模块,用于生成目标语音样本,其中,目标语音样本包括目标语音数据,与目标语音数据对应的、用于表示目标指令的目标标注信息;
得到模块,用于使用目标语音样本对目标设备上运行的第一语音识别模型进行训练,得到第二语音识别模型。
可选地,该装置还包括:
第二获取模块,用于在获取目标对象输入的目标语音数据之前,获取目标对象执行的第一操作,其中,第一操作用于控制目标设备内进入到模型训练模式,模型训练模式为根据获取的语音数据对目标设备上运行的第一语音识别模型进行训练的模式。
可选地,该装置还包括:
确定模块,用于在获取目标对象输入的目标语音数据之后,对目标语音数据进行语音识别,确定与目标语音数据匹配的目标指令。
可选地,确定模块包括:
提取单元,用于对目标语音数据进行语音识别,提取目标语音数据内的目标关键词;
获取单元,用于获取目标关键词与预设关键词之间的相似度,其中,预设关键词为与预设指令对应的关键词;
确定单元,用于根据相似度,从预设指令中确定出与目标语音数据匹配的目标指令,其中,与目标指令对应的预设关键词与目标关键词之间的相似度大于或者等于目标相似度阈值。
可选地,该装置还包括:
第三获取模块,用于在获取目标对象执行的第一操作之后,获取目标对象执行的第二操作,其中,第二操作用于将目标语音数据与目标指令相匹配,并从目标语音数据中选取出目标指令的目标标注信息。
可选地,该装置还包括:
第四获取模块,用于获取目标对象执行的第三操作,其中,第三操作用于控制进入指令展示模式,指令展示模式用于展示目标设备的控制指令;
响应模块,用于响应第三操作,依次播放目标设备的多个控制指令中的各个控制指令、以及与各个控制指令对应的语音回复,其中,多个控制指令包括:用于唤醒目标设备的唤醒指令,用于控制目标设备执行预设操作的控制指令。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行存储器上所存储的所述计算机程序来执行上述任一实施例中模型训练的方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中模型训练的方法步骤。
在本申请实施例中,根据目标对象输入的与目标指令匹配的语音数据,生成训练目标设备上运行的第一语音识别模型的目标语音样本,利用目标语音样本训练第一语音识别模型,得到的第二语音识别模型可以适用不同用户在不同场景下的语音数据,进而提高语音识别的准确率,扩大应用用户群体。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种可选的模型训练的方法流程示意图;
图2为本申请实施例提供的一种可选的语音数据自主学习模式流程示意图;
图3为本申请实施例提供的一种可选的语音数据自定义训练模式流程示意图;
图4为本申请实施例提供的一种可选的语音数据展示模式示意图;
图5为本申请实施例提供的一种可选的模型训练的装置框图;
图6为本申请实施例提供的一种可选的电子设备框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个类似的实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
语音控制在家电产品应用越来越广泛,家电生产商所做的产品也越来越国际化,往全球100多个国家和地区进行产品销售,如此家电生产商需要对100多个国家的语音进行训练建立声学模型,每个国家的声学模型需要对各个年龄段、不同性别、不同地域、不同口音的上千个声音进行样品录制,再对其进行训练建模,需要动用的人力物力庞大、耗费巨大。
语音唤醒功能是需要在终端上实现的。语音唤醒是指设定一个唤醒词,如Siri的“Hi Siri”,只有用户说了唤醒词后终端上的语音识别功能才会处于工作状态,否则处于休眠状态。这一过程中用户不需要用手接触,直接可以用语音进行操作,同时利用语音唤醒的机制,设备不用实时地处于工作的状态,从而节省能耗。
在利用语音唤醒功能唤醒终端设备之后,就可以对当前终端设备输入控制命令进行语音控制。语音识别系统的唤醒词和控制命令仅适用开发前期训练好的语音识别模型,但由于不同的产品会有不同的唤醒词,当用户需要唤醒设备时需要说出特定的唤醒词,针对不同用户、不同场合所发出的语音的识别准确度较低。为了解决该问题,本申请提供一种模型训练的方法,如图1所示,该方法应用于终端设备或家电设备语音控制遥控器,该方法包括:
步骤S101,获取目标对象输入的目标语音数据,其中,目标语音数据是与目标指令匹配的语音数据,目标指令用于控制目标设备执行目标操作。
可选地,在本申请实施例中事先设置好表示唤醒命令或控制命令的目标指令,在接收到目标对象(可以是用户)输入的目标语音数据后,将该目标语音数据与目标指令相匹配,确定当前用户是要对目标设备(可以是终端设备或家电设备语音控制遥控器等)进行唤醒操作还是控制执行打开或关闭等操作。这里的目标语音数据指采集到的用户完整语音。
步骤S102,生成目标语音样本,其中,目标语音样本包括目标语音数据,与目标语音数据对应的、用于表示目标指令的目标标注信息。
可选地,将用户输入的目标语音数据,以及与目标语音数据对应的、能够标识目标指令的目标标注信息作为目标语音样本,即训练样本。这里的目标标注信息通常指能够表征出当前用户发出的指令属于目标指令中的唤醒指令还是控制指令。
步骤S103,使用目标语音样本对目标设备上运行的第一语音识别模型进行训练,得到第二语音识别模型。
可选地,本申请实施例将目标语音样本作为目标设备上运行的第一语音识别模型进行训练的训练样本,进而得到第二语音识别模型,将该第二语音识别模型作为最终识别用户语音数据的模型。
在本申请实施例中,根据目标对象输入的与目标指令匹配的语音数据,生成训练目标设备上运行的第一语音识别模型的目标语音样本,利用目标语音样本训练第一语音识别模型,得到的第二语音识别模型可以适用不同用户在不同场景下的语音数据,进而提高语音识别的准确率,扩大应用用户群体。
作为一种可选实施例:在获取目标对象输入的目标语音数据之前,该方法还包括:
获取目标对象执行的第一操作,其中,第一操作用于控制目标设备内进入到模型训练模式,模型训练模式为根据获取的语音数据对目标设备上运行的第一语音识别模型进行训练的模式。
可选地,在获取用户输入的目标语音数据之前,可以先获取用户选取目标设备内的模型训练模式,可以是自主学习训练模式,也可以是自定义训练模式,这些模式为根据获取的语音数据对目标设备上运行的第一语音识别模型进行训练的模式。
然后根据选择的模式对第一语音识别模型进行相应的训练操作。
作为一种可选实施例:在获取目标对象输入的目标语音数据之后,该方法还包括:
对目标语音数据进行语音识别,确定与目标语音数据匹配的目标指令。
可选地,在本申请实施例中,用户选择自主学习训练模式的话,直接对目标语音数据进行语音识别,可以利用KWS(keyword spotting,关键词识别)算法对目标语音数据进行关键词的提取,确定出与目标语音数据匹配的目标指令。
另外,本申请实施例可以将自主学习训练模式作为终端设备或家电设备语音控制遥控器的默认运行模式,在用户通过该终端设备或遥控器上的按键进入语音识别状态时,默认运行自主学习训练模式进行语音识别。
作为一种可选实施例:对目标语音数据进行语音识别,确定与目标语音数据匹配的目标指令包括:
对目标语音数据进行语音识别,提取目标语音数据内的目标关键词;
获取目标关键词与预设关键词之间的相似度,其中,预设关键词为与预设指令对应的关键词;
根据相似度,从预设指令中确定出与目标语音数据匹配的目标指令,其中,与目标指令对应的预设关键词与目标关键词之间的相似度大于或者等于目标相似度阈值。
可选地,如图2,利用KWS算法对目标语音数据进行关键词的提取,提取出目标语音数据内的目标关键词,然后将该目标关键词与终端设备内预先设置的预设关键词进行相似度比较,如果相似度大于或等于预设的目标相似度阈值,则将该目标语音数据列入采样训练样本,作为训练第一语音识别模型的语音数据样本,得到第二语音识别模型。
在这里,预设关键词为与预设指令对应的关键词,其中,预设关键词可以是唤醒指令或控制指令;然后根据相似度比较结果,确定出用户发出的目标语音数据中的目标指令是预设指令中的具体哪个。
本申请实施例利用目标语音数据内的目标关键词与预设的指令(唤醒词、控制指令)进行相似度计算,得到与预设的指令相同或者相近的语音数据,将该语音数据补充到第一语音识别模型的训练样本中,进而扩大应用用户群,提高语音识别的准确度。
作为一种可选实施例:在获取目标对象执行的第一操作之后,该方法还包括:
获取目标对象执行的第二操作,其中,第二操作用于将目标语音数据与目标指令相匹配,并从目标语音数据中选取出目标指令的目标标注信息。
可选地,在本申请实施例中,用户选择自定义训练模式的话,终端设备需要对唤醒词和命令词进行重新定义,这时将目标语音数据与目标指令相匹配,并将目标语音数据中能够表征目标指令的一些目标标注信息选取出来,例如,用户输入的目标语音数据(即自定义词)是“hello”,当前用户想要表达的目标指令是唤醒命令,那么就将“hello”的发音数据作为当前用户表达唤醒命令的目标标注信息;例如,用户输入的目标语音数据是“开”,当前用户想要表达的目标指令是控制命令,那么就将“开”的发音数据作为当前用户表达控制命令的目标标注信息。
将目标语音数据、目标语音数据对应的目标指令的目标标注信息作为目标设备上运行的第一语音识别模型的训练样本集,将语音数据输入第一语音识别模型,得到语音数据的发音信息;根据发音信息与目标标注信息调整第一语音识别模型的模型参数,得到第二语音识别模型。
本申请实施例支持用户自定义唤醒命令或控制命令,这样能够最大范围的满足用户在不同场景下对家电设备语音控制的需求,扩大应用用户群体。
作为一种可选实施例,如图3所示,该图3执行如下步骤:
步骤S301:用户进入自定义训练模式;
步骤S302,语音播放提示用户说出自定义词1;
步骤S303,判断采集用户发音数据是否完成;若完成,执行步骤S304,否则执行步骤S302;
步骤S304,对自定义词1进行数据标注和数据处理;
步骤S305,采用神经网络的关键词识别(KWS)算法进行模型训练;
步骤S306,语音播放提示用户说出自定义词1,系统等待用户说出命令词1,并对命令词进行测试;
步骤S307,判断测试是否成功;若测试合格后,执行步骤S308,否则执行步骤S302;
步骤S308,语音播报提示,自定义训练成功。
作为一种可选实施例,第三操作用于控制进入指令展示模式,指令展示模式用于展示目标设备的控制指令;
响应第三操作,依次播放目标设备的多个控制指令中的各个控制指令、以及与各个控制指令对应的语音回复,其中,多个控制指令包括:用于唤醒目标设备的唤醒指令,用于控制目标设备执行预设操作的控制指令。
可选地,目标设备将预设的唤醒、所有控制指令集以情景对话形式通过语音播报展示出来,实现现场语音情景教学演示,这里的播放展示为依次播放目标设备的多个控制指令中的各个控制指令,然后再播放这些各个控制指令对应的语音回复,可以是一个播报控制指令对应一个播报语音回复。
例如,如图4所示,语音播报场景如下:
播报唤醒词1:“格力空调”;播报语音回复1:“您好,我在”;
播报控制命令2:“开启空调”;播报语音回复2:“已为您开启空调”;
播报控制命令3:“制冷”;播报语音回复3:“已为您运行制冷模式”;
播报控制命令4:“16度”;播报语音回复4:“已为您运行16度”;
播报控制命令5:“关闭空调”;播报语音回复5:“已为您关闭空调”;
播报控制命令x:“……”;播报语音回复x:“……”。
根据本申请实施例的另一个方面,还提供了一种用于实施上述模型训练的方法的模型训练的装置。图5是根据本申请实施例的一种可选的模型训练的装置的示意图,如图5所示,该装置可以包括:
第一获取模块501,用于获取目标对象输入的目标语音数据,其中,目标语音数据是与目标指令匹配的语音数据,目标指令用于控制目标设备执行目标操作;
生成模块502,用于生成目标语音样本,其中,目标语音样本包括目标语音数据,与目标语音数据对应的、用于表示目标指令的目标标注信息;
得到模块503,用于使用目标语音样本对目标设备上运行的第一语音识别模型进行训练,得到第二语音识别模型。
需要说明的是,该实施例中的获取模块501可以用于执行上述步骤S101,该实施例中的存储模块502可以用于执行上述步骤S102,该实施例中的恢复模块503可以用于执行上述步骤S103。
通过上述模块,根据目标对象输入的与目标指令匹配的语音数据,生成训练目标设备上运行的第一语音识别模型的目标语音样本,利用目标语音样本训练第一语音识别模型,得到的第二语音识别模型可以适用不同用户在不同场景下的语音数据,进而提高语音识别的准确率,扩大应用用户群体。
作为一种可选的实施例,该装置还包括:
第二获取模块,用于在获取目标对象输入的目标语音数据之前,获取目标对象执行的第一操作,其中,第一操作用于控制目标设备内进入到模型训练模式,模型训练模式为根据获取的语音数据对目标设备上运行的第一语音识别模型进行训练的模式。
作为一种可选的实施例,该装置还包括:
确定模块,用于在获取目标对象输入的目标语音数据之后,对目标语音数据进行语音识别,确定与目标语音数据匹配的目标指令。
作为一种可选的实施例,确定模块包括:
提取单元,用于对目标语音数据进行语音识别,提取目标语音数据内的目标关键词;
获取单元,用于获取目标关键词与预设关键词之间的相似度,其中,预设关键词为与预设指令对应的关键词;
确定单元,用于根据相似度,从预设指令中确定出与目标语音数据匹配的目标指令,其中,与目标指令对应的预设关键词与目标关键词之间的相似度大于或者等于目标相似度阈值。
作为一种可选的实施例,该装置还包括:
第三获取模块,用于在获取目标对象执行的第一操作之后,获取目标对象执行的第二操作,其中,第二操作用于将目标语音数据与目标指令相匹配,并从目标语音数据中选取出目标指令的目标标注信息。
作为一种可选的实施例,该装置还包括:
第四获取模块,用于获取目标对象执行的第三操作,其中,第三操作用于控制进入指令展示模式,指令展示模式用于展示目标设备的控制指令;
响应模块,用于响应第三操作,依次播放目标设备的多个控制指令中的各个控制指令、以及与各个控制指令对应的语音回复,其中,多个控制指令包括:用于唤醒目标设备的唤醒指令,用于控制目标设备执行预设操作的控制指令。
根据本申请实施例的又一个方面,还提供了一种用于实施上述模型训练的方法的电子设备,该电子设备可以是服务器、终端、或者其组合。
图6是根据本申请实施例的一种可选的电子设备的结构框图,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601、通信接口602和存储器603通过通信总线604完成相互间的通信,其中,
存储器603,用于存储计算机程序;
处理器601,用于执行存储器603上所存放的计算机程序时,实现如下步骤:
S1,获取目标对象输入的目标语音数据,其中,目标语音数据是与目标指令匹配的语音数据,目标指令用于控制目标设备执行目标操作;
S2,生成目标语音样本,其中,目标语音样本包括目标语音数据,与目标语音数据对应的、用于表示目标指令的目标标注信息;
S3,使用目标语音样本对目标设备上运行的第一语音识别模型进行训练,得到第二语音识别模型。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图6所示,上述存储器602中可以但不限于包括上述模型训练的装置中的第一获取模块501、生成模块502、得到模块503。此外,还可以包括但不限于上述模型训练的装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
此外,上述电子设备还包括:显示器,用于显示语音数据识别结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图6所示的结构仅为示意,实施上述数据备份存储的方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图6其并不对上述电子设备的结构造成限定。例如,终端设备还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图6所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行模型训练的方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取目标对象输入的目标语音数据,其中,目标语音数据是与目标指令匹配的语音数据,目标指令用于控制目标设备执行目标操作;
S2,生成目标语音样本,其中,目标语音样本包括目标语音数据,与目标语音数据对应的、用于表示目标指令的目标标注信息;
S3,使用目标语音样本对目标设备上运行的第一语音识别模型进行训练,得到第二语音识别模型。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例数据备份存储的方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种模型训练的方法,其特征在于,所述方法包括:
获取目标对象输入的目标语音数据,其中,所述目标语音数据是与目标指令匹配的语音数据,所述目标指令用于控制目标设备执行目标操作;
生成目标语音样本,其中,所述目标语音样本包括所述目标语音数据,与所述目标语音数据对应的、用于表示所述目标指令的目标标注信息;
使用所述目标语音样本对所述目标设备上运行的第一语音识别模型进行训练,得到第二语音识别模型。
2.根据权利要求1所述的方法,其特征在于,在所述获取目标对象输入的目标语音数据之前,所述方法还包括:
获取所述目标对象执行的第一操作,其中,所述第一操作用于控制所述目标设备内进入到模型训练模式,所述模型训练模式为根据获取的语音数据对所述目标设备上运行的所述第一语音识别模型进行训练的模式。
3.根据权利要求2所述的方法,其特征在于,在所述获取目标对象输入的目标语音数据之后,所述方法还包括:
对所述目标语音数据进行语音识别,确定与所述目标语音数据匹配的所述目标指令。
4.根据权利要求3所述的方法,其特征在于,所述对所述目标语音数据进行语音识别,确定与所述目标语音数据匹配的所述目标指令包括:
对所述目标语音数据进行语音识别,提取所述目标语音数据内的目标关键词;
获取所述目标关键词与预设关键词之间的相似度,其中,所述预设关键词为与预设指令对应的关键词;
根据所述相似度,从所述预设指令中确定出与所述目标语音数据匹配的所述目标指令,其中,与所述目标指令对应的所述预设关键词与所述目标关键词之间的相似度大于或者等于目标相似度阈值。
5.根据权利要求2所述的方法,其特征在于,在所述获取所述目标对象执行的第一操作之后,所述方法还包括:
获取所述目标对象执行的第二操作,其中,所述第二操作用于将所述目标语音数据与所述目标指令相匹配,并从所述目标语音数据中选取出所述目标指令的所述目标标注信息。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
获取所述目标对象执行的第三操作,其中,所述第三操作用于控制进入指令展示模式,所述指令展示模式用于展示所述目标设备的控制指令;
响应所述第三操作,依次播放所述目标设备的多个控制指令中的各个控制指令、以及与所述各个控制指令对应的语音回复,其中,所述多个控制指令包括:用于唤醒所述目标设备的唤醒指令,用于控制所述目标设备执行预设操作的控制指令。
7.一种模型训练的装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标对象输入的目标语音数据,其中,所述目标语音数据是与目标指令匹配的语音数据,所述目标指令用于控制目标设备执行目标操作;
生成模块,用于生成目标语音样本,其中,所述目标语音样本包括所述目标语音数据,与所述目标语音数据对应的、用于表示所述目标指令的目标标注信息;
得到模块,用于使用所述目标语音样本对所述目标设备上运行的第一语音识别模型进行训练,得到第二语音识别模型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于在所述获取目标对象输入的目标语音数据之前,获取所述目标对象执行的第一操作,其中,所述第一操作用于控制所述目标设备内进入到模型训练模式,所述模型训练模式为根据获取的语音数据对所述目标设备上运行的所述第一语音识别模型进行训练的模式。
9.一种可读计算机存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至6中任一项所述的模型训练的方法步骤。
10.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:
存储器,用于存放计算机程序;
处理器,用于通过运行存储器上所存放的程序来执行权利要求1至6中任一项所述的模型训练的方法步骤。
CN202011110813.8A 2020-10-16 2020-10-16 模型训练的方法和装置、电子设备和存储介质 Pending CN112233665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011110813.8A CN112233665A (zh) 2020-10-16 2020-10-16 模型训练的方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011110813.8A CN112233665A (zh) 2020-10-16 2020-10-16 模型训练的方法和装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN112233665A true CN112233665A (zh) 2021-01-15

Family

ID=74118834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011110813.8A Pending CN112233665A (zh) 2020-10-16 2020-10-16 模型训练的方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112233665A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012681A (zh) * 2021-02-18 2021-06-22 深圳前海微众银行股份有限公司 基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法
CN113408282A (zh) * 2021-08-06 2021-09-17 腾讯科技(深圳)有限公司 主题模型训练和主题预测方法、装置、设备及存储介质
CN114360515A (zh) * 2021-12-09 2022-04-15 北京声智科技有限公司 信息处理方法、装置、电子设备、介质及计算机程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060677A (zh) * 2019-04-04 2019-07-26 平安科技(深圳)有限公司 语音遥控器控制方法、装置及计算机可读存储介质
WO2020001546A1 (zh) * 2018-06-30 2020-01-02 华为技术有限公司 语音识别的方法、装置及系统
CN111739519A (zh) * 2020-06-16 2020-10-02 平安科技(深圳)有限公司 基于语音识别的对话管理处理方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020001546A1 (zh) * 2018-06-30 2020-01-02 华为技术有限公司 语音识别的方法、装置及系统
CN110060677A (zh) * 2019-04-04 2019-07-26 平安科技(深圳)有限公司 语音遥控器控制方法、装置及计算机可读存储介质
CN111739519A (zh) * 2020-06-16 2020-10-02 平安科技(深圳)有限公司 基于语音识别的对话管理处理方法、装置、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012681A (zh) * 2021-02-18 2021-06-22 深圳前海微众银行股份有限公司 基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法
CN113012681B (zh) * 2021-02-18 2024-05-17 深圳前海微众银行股份有限公司 基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法
CN113408282A (zh) * 2021-08-06 2021-09-17 腾讯科技(深圳)有限公司 主题模型训练和主题预测方法、装置、设备及存储介质
CN113408282B (zh) * 2021-08-06 2021-11-09 腾讯科技(深圳)有限公司 主题模型训练和主题预测方法、装置、设备及存储介质
CN114360515A (zh) * 2021-12-09 2022-04-15 北京声智科技有限公司 信息处理方法、装置、电子设备、介质及计算机程序产品

Similar Documents

Publication Publication Date Title
CN107370649B (zh) 家电控制方法、系统、控制终端、及存储介质
US10515627B2 (en) Method and apparatus of building acoustic feature extracting model, and acoustic feature extracting method and apparatus
CN108520743B (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
CN107134279B (zh) 一种语音唤醒方法、装置、终端和存储介质
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN112233665A (zh) 模型训练的方法和装置、电子设备和存储介质
TWI420433B (zh) 語音互動系統與方法
US11790912B2 (en) Phoneme recognizer customizable keyword spotting system with keyword adaptation
CN110808034A (zh) 语音转换方法、装置、存储介质及电子设备
CN112735418B (zh) 一种语音交互的处理方法、装置、终端及存储介质
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
US10783884B2 (en) Electronic device-awakening method and apparatus, device and computer-readable storage medium
CN105551498A (zh) 一种语音识别的方法及装置
CN111710337B (zh) 语音数据的处理方法、装置、计算机可读介质及电子设备
CN111197841A (zh) 控制方法、装置、遥控终端、空调器、服务器及存储介质
CN111312233A (zh) 一种语音数据的识别方法、装置及系统
JP2021076818A (ja) 音声対話するための方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
CN108322770A (zh) 视频节目识别方法、相关装置、设备和系统
CN111128174A (zh) 一种语音信息的处理方法、装置、设备及介质
CN112151034B (zh) 设备的语音控制方法、装置、电子设备及存储介质
CN113012681B (zh) 基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法
CN113012683A (zh) 语音识别方法及装置、设备、计算机可读存储介质
CN112542173A (zh) 一种语音交互方法、装置、设备和介质
CN115331658B (zh) 一种语音识别方法
CN111161745A (zh) 一种智能设备的唤醒方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination