CN114242065A - 语音唤醒方法及装置、语音唤醒模块的训练方法及装置 - Google Patents
语音唤醒方法及装置、语音唤醒模块的训练方法及装置 Download PDFInfo
- Publication number
- CN114242065A CN114242065A CN202111674783.8A CN202111674783A CN114242065A CN 114242065 A CN114242065 A CN 114242065A CN 202111674783 A CN202111674783 A CN 202111674783A CN 114242065 A CN114242065 A CN 114242065A
- Authority
- CN
- China
- Prior art keywords
- word
- awakening
- voice
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 76
- 238000012545 processing Methods 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephone Function (AREA)
Abstract
本发明提供了一种语音唤醒方法及装置、语音唤醒模块的训练方法及装置。该语音唤醒方法包括:获取待识别语音信号,其中,待识别语音信号包括唤醒词;利用声学模型对待识别语音信号进行唤醒词识别,获得唤醒词识别结果,其中,声学模型包括整词节点,整词节点以唤醒词的词向量为权重;根据唤醒词识别结果进行语音唤醒,能够提高唤醒效果。
Description
技术领域
本发明涉及语音唤醒技术领域,具体涉及一种语音唤醒方法及装置、语音唤醒模块的训练方法及装置。
背景技术
语音唤醒技术是指智能设备在休眠状态下检测到用户的特定语音(通常为设定的唤醒词)时,使设备进入等待状态,进而进入语音智能交互流程语音唤醒技术的应用领域很广,比如机器人、手机、可穿戴设备、智能家居、车载等。
然而,现有语音唤醒模型的建模单元常常为音节或音素,但唤醒词通常是3~6个音节的整词,训练目标和测试目标存在较大的失配,唤醒效果较差。
发明内容
有鉴于此,本发明实施例提供了一种语音唤醒方法及装置、语音唤醒模块的训练方法及装置,能够提高唤醒效果。
根据本发明实施例的方面,提供一种语音唤醒方法,应用于语音唤醒模型,包括:获取待识别语音信号,其中,待识别语音信号包括唤醒词;利用声学模型对待识别语音信号进行唤醒词识别,获得唤醒词识别结果,其中,声学模型包括整词节点,整词节点以唤醒词的词向量为权重;根据唤醒词识别结果进行语音唤醒。
在本发明的一个实施例中,在获取待识别语音信号之前,上述语音唤醒方法还包括:接收用户输入的自定义唤醒词指令,其中,自定义唤醒词指令包括唤醒词;获取唤醒词的词向量;在声学模型中增加整词节点,并将唤醒词的词向量作为整词节点的权重。
在本发明的一个实施例中,语音唤醒模型是由如下训练方法得到的:获取唤醒词的词向量,并将唤醒词的词向量作为声学模型中的整词节点的权重;获取训练样本,其中,训练样本包括语音信号样本和标注数据,语音信号样本包括唤醒词,标注数据包括语音信号样本对应的文本信息;基于训练样本对声学模型进行训练,得到语音唤醒模型。
在本发明的一个实施例中,语音唤醒模型还包括词模型,其中,上述获取唤醒词的词向量,包括:利用词模型获取唤醒词的词向量;其中,上述基于训练样本对声学模型进行训练,得到语音唤醒模型,包括:基于训练样本对词模型和声学模型进行训练,获得语音唤醒模型。
在本发明的一个实施例中,声学模型还包括多个音节节点,其中,上述训练方法还包括:利用词模型获取多个音节的音节向量;将多个音节的音节向量分别作为声学模型中的多个音节节点的权重。
在本发明的一个实施例中,声学模型包括基于神经网络的时序类分类CTC模型。
根据本发明实施例的第二方面,提供一种语音唤醒模型的训练方法,包括:获取唤醒词的词向量,并将唤醒词的词向量作为声学模型中的整词节点的权重;获取训练样本,其中,训练样本包括语音信号样本和标注数据,语音信号样本包括唤醒词,标注数据包括语音信号样本对应的文本信息;基于训练样本对声学模型进行训练,得到语音唤醒模型。
根据本发明实施例的第三方面,提供一种语音唤醒装置,包括:获取模块,用于获取待识别语音信号,其中,待识别语音信号包括唤醒词;识别模块,用于利用声学模型对待识别语音信号进行唤醒词识别,获得唤醒词识别结果,其中,声学模型包括整词节点,整词节点以唤醒词的词向量为权重;唤醒模块,用于根据唤醒词识别结果进行语音唤醒。
根据本发明实施例的第四方面,提供一种语音唤醒模型的训练装置,包括:词向量模块,用于获取唤醒词的词向量,将唤醒词的词向量作为声学模型中的整词节点的权重;获取模块,用于获取训练样本,其中,训练样本包括语音信号样本和标注数据,语音信号样本包括唤醒词;训练模块,用于基于训练样本对声学模型进行训练,得到语音唤醒模型。
根据本发明实施例的第五方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如上述任一项所述的方法。
根据本发明实施例的第五方面,提供一种电子设备,其特征在于,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一项所述的方法。
根据本发明实施例提供的技术方案,获取待识别语音信号,其中,待识别语音信号包括唤醒词;利用声学模型对待识别语音信号进行唤醒词识别,获得唤醒词识别结果,其中,声学模型包括整词节点,整词节点以唤醒词的词向量为权重;根据唤醒词识别结果进行语音唤醒。通过在声学模型中增加整词节点,并将唤醒词的词向量作为整词节点的权重,可以使声学模型在唤醒词对应的整词节点上获得较大后验,提高唤醒效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本发明一实施例提供的语音唤醒方法的流程示意图。
图2所示为本发明另一实施例提供的语音唤醒方法的流程示意图。
图3所示为本发明一实施例提供的语音唤醒的方式示意图。
图4所示为本发明另一实施例提供的语音唤醒的方式示意图。
图5所示为本发明一实施例提供的语音唤醒模型的训练方法的流程示意图。
图6所示为本发明一实施例提供的语音唤醒装置的框图。
图7所示为本发明一实施例提供的语音唤醒模型的训练装置的框图。
图8所示为本发明一实施例提供的电子设备的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1所示为本发明一实施例提供的语音唤醒方法的流程示意图。该方法可以由机器人、手机、可穿戴设备、智能家居、车载等具有语音唤醒功能的智能设备执行。如图1所示,该方法包括如下内容。
S110:获取待识别语音信号,其中,待识别语音信号包括唤醒词。
待识别语音信号为包含设定的唤醒词的语音数据。该待识别语音信号可以通过麦克风采集,其中,麦克风可以设置在待唤醒设备上,也可以设置在待唤醒设备的控制器(例如,遥控器)上,应当理解,本发明对此不做具体限定。
S120:利用声学模型对待识别语音信号进行唤醒词识别,获得唤醒词识别结果,其中,声学模型包括整词节点,整词节点以唤醒词的词向量为权重。
具体地,可以将待识别语音信号输入声学模型;声学模型提取待识别语音信号的声学特征,并根据待识别语音信号的声学特征输出唤醒词整词的后验概率和其他音节的后验概率。以待识别语音信号为“小飞小飞今天的天气怎么样”为例,其中“小飞小飞”为唤醒词,本发明实施例中的声学模型(该声学模型具有以唤醒词“小飞小飞”的词向量为权重的整词节点)可以输出“小飞小飞”整词的后验概率和“今”、“天”、“的”、“天”、“气”、“怎”、“么”、“样”等多个音节的后验概率。
应当理解,声学特征可以是MFCC(Mel-Frequency CepstralCoefficients,梅尔频率倒谱系数)特征、PLP(Linear Predictive Coding,线性预测分析)特征或者Filterbank(滤波器组)特征等,本发明对声学特征的类型及提取方式均不做具体限定。
声学模型可以包括基于神经网络的时序类分类CTC模型,用于解决输入序列和输出序列难以一一对应的问题。例如,声学模型可以为长短时间记忆(Long Short TermMemory networks,LSTM)模型、卷积神经网络(Convolutional Neural Network,CNN)模型等,应当理解,本发明对声学模型的具体类型也不做限定。
S130:根据唤醒词识别结果进行语音唤醒。
例如,可以对声学模型输出的后验概率以一定的窗长进行平滑,当平滑后的后验得分超过预先设定的阈值时,认为识别出了唤醒词,然后对待唤醒设备进行唤醒。
根据本发明实施例提供的技术方案,通过在声学模型中增加整词节点,并将唤醒词的词向量作为整词节点的权重,可以使声学模型在唤醒词对应的整词节点上获得较大后验,提高唤醒效果。同时,本方案采用端到端唤醒,解码模块逻辑简单,可以规避传统解码因解码路径过多产生的资源占用上涨问题,更适用于低功耗芯片。
图2所示为本发明另一实施例提供的语音唤醒方法的流程示意图。该方法可以由计算机设备(例如,服务器)执行。如图2所示,该方法包括如下内容。
S210:接收用户输入的自定义唤醒词指令,其中,自定义唤醒词指令包括唤醒词。
也就是说,本发明实施例提供的语音唤醒方法可以支持自定义唤醒词功能。例如,声学模型以唤醒词“小飞小飞”进行训练,而用户想要自定义唤醒词为“大飞大飞”。此时,用户可以通过输入自定义唤醒词指令,输入自定义唤醒词“大飞大飞”。
需要说明的是,用户可以通过语音或文本输入自定义唤醒词,本发明对此不做具体限定。
S220:获取唤醒词的词向量。
具体地,如图3所示,可以通过词模型生成自定义唤醒词“大飞大飞”的词向量Wy。
应当理解,词模型可以为LSTM模型等,本发明对词模型的具体类型不做限定,只要能够获得自定义唤醒词的词向量即可。
例如,如图4所示,针对文本序列“大飞大飞今天的天气”,通过one-hot编码的形式将“大飞大飞”输入词模型,获得“大飞大飞”的词向量Wy。
S230:在声学模型中增加整词节点,并将唤醒词的词向量作为整词节点的权重。
例如,如图4所示,声学模型的全连接层中可以增加上述自定义唤醒词“大飞大飞”整词节点,并将“大飞大飞”唤醒词的词向量Wy作为“大飞大飞”整词节点的权重,从而使得声学模型在“大飞大飞”整词节点上获得较大后验,以便于快速检测出唤醒词。
S240:获取待识别语音信号,其中,待识别语音信号包括唤醒词。
例如,待识别语音信号X为“大飞大飞今天的天气”,其中,“大飞大飞”为唤醒词。
S250:利用声学模型对待识别语音信号进行唤醒词识别,获得唤醒词识别结果。
例如,将待识别语音信号X为“大飞大飞今天的天气”输入声学模型中,声学模型中的特征提取模块对待识别语音信号X进行特征提取,获得声学特征ft am(X),声学特征ft am(X)输入全连接层,得到输出的待识别语音信号对应的文字序列,通过softmax激活函数可以得到“大飞大飞”整词的后验概率和“今”“天”“的”“天”“气”等多个音节的后验概率,即Pt(πt|X,W)。
S260:根据唤醒词识别结果进行语音唤醒。
然后对声学模型输出的后验概率以一定的窗长进行平滑,当平滑后的后验得分超过预先设定的阈值时,认为识别出了唤醒词“大飞大飞”,即可对待唤醒设备进行唤醒。
需要说明的是,当用户想要继续增加自定义唤醒词(例如“小白小白”)时,声学模型可以继续增加整词节点(例如“小白小白”),并将该新增唤醒词(例如“小白小白”)的词向量作为新增(例如“小白小白”)整词节点的权重,从而用户可以使用新增唤醒词(例如“小白小白”)对待唤醒设备进行唤醒。
根据本发明实施提供的技术方案,通过接收用户输入的自定义唤醒词指令;获取唤醒词的词向量;在声学模型中增加整词节点,并将唤醒词的词向量作为整词节点的权重;获取待识别语音信号;利用声学模型对待识别语音信号进行唤醒词识别,获得唤醒词识别结果;以及根据唤醒词识别结果进行语音唤醒,能够支持自定义唤醒功能,方便与用户使用自定义唤醒词对待唤醒设备进行唤醒。另外,本发明实施例采用端到端语音唤醒,解码模块逻辑简单,能够规避传统解码因解码路径过多产生的资源占用上涨问题,即使自定义唤醒词数目增多,资源占有也不会明显提高。
图5所示为本发明一实施例提供的语音唤醒模型的训练方法的流程示意图。该方法可以由计算机设备(例如,服务器)执行。如图5所示,该方法包括如下内容。
S510:获取唤醒词的词向量,并将唤醒词的词向量作为声学模型中的整词节点的权重。
也就是说,相较于只具有音节节点的传统声学模型,本申请实施例中的声学模型增加了整词节点,并将唤醒词的词向量Wy作为该整词节点的权重。例如,唤醒词为“小飞小飞”,则该声学模型中增加“小飞小飞”整词节点,并将“小飞小飞”词向量作为“小飞小飞”整词节点的权重。
需要说明的是,当继续增加唤醒词“大飞大飞”时,还可以在声学模型中增加“大飞大飞”整词节点,并将“大飞大飞”词向量作为“大飞大飞”整词节点的权重。
S520:获取训练样本,其中,训练样本包括语音信号样本和标注数据,语音信号样本包括唤醒词,标注数据包括语音信号样本对应的文本信息。
具体地,可以输入音频和标注(X,Y)至声学模型,其中,X={x1,…,xs}是语音信号样本的声学特征,Y={y1,…yN}可以是以整词和音节为建模单元的标注,以语音信号样本为“小飞小飞今天的天气怎么样”为例,标注数据可以为:“小飞小飞”、“今”、“天”、“的”、“天”、“气”、“怎”、“么”、“样”对应的文本信息。需要注意的是,唤醒词整词可以作为一个整体进行标注。
S530:基于训练样本对声学模型进行训练,得到语音唤醒模型。
声学模型可以为CTC(Connectionist Temporal Classification)模型,将X映射到Y。
具体地,输入T帧声学特征X进入声学模型后得到输出序列 如果去除π中连续的输出后可以和标注序列Y相同,那么则认为π为一个有效的输出。模型训练阶段,以最大化所有有效的序列π∈B的似然为目标,即可完成声学模型训练。其中,B是所有有效的输出序列。
根据本发明实施例提供的技术方案,获取唤醒词的词向量,将唤醒词的词向量作为声学模型中的整词节点的权重;获取训练样本;以及基于训练样本对声学模型进行训练,得到语音唤醒模型。通过在声学模型中增加整词节点,将唤醒词的词向量作为声学模型中的整词节点的权重,能够强制将音节和整词映射到同一空间,可以使训练目标和测试目标更加匹配,提高唤醒效果。
音节节点y′在t时刻的似然概率可以如下式所示:
标注序列Y的似然概率可以如下式所示:
其中,Wy为整词节点的权重,Wy′为音节节点的权重,ft am(X)为语音信号样本的声学特征。
应当理解,上述仅为示例性描述,本发明对具体公式表示形式不做具体限定。
在本发明的一个实施例中,语音唤醒模型还包括词模型,其中,上述获取唤醒词的词向量,包括:利用词模型获取唤醒词的词向量;其中,上述基于训练样本对声学模型进行训练,得到语音唤醒模型,包括:基于训练样本对词模型和声学模型进行训练,获得语音唤醒模型。
具体地,可以将唤醒词的文本信息输入词模型,得到唤醒词的词向量Wy;将唤醒词的词向量Wy输入声学模型,并将声学模型中的整词节点以唤醒词的词向量Wy为权重。声学模型中的音节节点以Wy′为权重。通过将声学模型和词模型联合训练,强制将音节和整词映射到同一空间,可以使训练目标和测试目标更加匹配。
在本发明的一个实施例中,声学模型还包括多个音节节点,其中,上述训练方法还包括:利用词模型获取多个音节的音节向量;将多个音节的音节向量分别作为声学模型中的多个音节节点的权重。
也就是说,声学模型中的多个音节节点的权重Wy′也可以通过词模型来确定。具体地,将每个音节对应的文本信息输入词模型,词模型输出该音节对应的音节向量Wy′;将词模型输出的音节向量Wy′输入声学模型,并将该音节向量Wy′作为声学模型中音节节点的权重。
在本发明实施例中,声学模型的整词节点以Wy为权重,音节节点以Wy′为权重。通过将声学模型和词模型联合训练,强制将音节和整词映射同一空间,可以使得训练目标和测试目标更为匹配。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图6所示为本发明一实施例提供的语音唤醒装置的框图。如图6所示,该语音唤醒装置600包括:
获取模块610,用于获取待识别语音信号,其中,待识别语音信号包括唤醒词;
识别模块620,用于利用声学模型对待识别语音信号进行唤醒词识别,获得唤醒词识别结果,其中,声学模型包括整词节点,整词节点以唤醒词的词向量为权重;
唤醒模块630,用于根据唤醒词识别结果进行语音唤醒。
根据本发明实施例提供的技术方案,获取待识别语音信号,其中,待识别语音信号包括唤醒词;利用声学模型对待识别语音信号进行唤醒词识别,获得唤醒词识别结果,其中,声学模型包括整词节点,整词节点以唤醒词的词向量为权重;根据唤醒词识别结果进行语音唤醒,通过在声学模型中增加整词节点,并将唤醒词的词向量作为整词节点的权重,可以使声学模型在唤醒词对应的整词节点上获得较大后验,提高唤醒效果。
在本发明的另一个实施例中,上述语音唤醒装置还包括接收模块640,用于在获取待识别语音信号之前,接收用户输入的自定义唤醒词指令,其中,自定义唤醒词指令包括唤醒词;获取唤醒词的词向量;在声学模型中增加整词节点,并将唤醒词的词向量作为整词节点的权重。
图7所示为本发明一实施例提供的语音唤醒模型的训练装置的框图。如图7所示,该语音唤醒模型的训练装置700包括:
词向量模块710,用于获取唤醒词的词向量,将唤醒词的词向量作为声学模型中的整词节点的权重;
获取模块720,用于获取训练样本,其中,训练样本包括语音信号样本和标注数据,语音信号样本包括唤醒词,标注数据包括语音信号样本对应的文本信息;
训练模块730,用于基于训练样本对声学模型进行训练,得到语音唤醒模型。
根据本发明实施例提供的技术方案,获取唤醒词的词向量,将唤醒词的词向量作为声学模型中的整词节点的权重;获取训练样本;以及基于训练样本对声学模型进行训练,得到语音唤醒模型。通过在声学模型中增加整词节点,将唤醒词的词向量作为声学模型中的整词节点的权重,能够强制将音节和整词映射到同一空间,可以使训练目标和测试目标更加匹配,提高唤醒效果。
在本发明的另一个实施例中,语音唤醒模型还包括词模型,其中,上述词向量模块710用于利用词模型获取唤醒词的词向量;其中,上述训练模块730用于基于训练样本对词模型和声学模型进行训练,获得语音唤醒模型。
在本发明的另一个实施例中,声学模型还包括多个音节节点,其中,上述训练装置还包括音节向量模块740,用于利用词模型获取多个音节的音节向量;将多个音节的音节向量分别作为声学模型中的多个音节节点的权重。
在本发明的另一个实施例中,声学模型包括基于神经网络的时序类分类CTC模型。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
图8所示为本发明一实施例提供的电子设备800的框图。
参照图8,电子设备800包括处理组件810,其进一步包括一个或多个处理器,以及由存储器820所代表的存储器资源,用于存储可由处理组件810的执行的指令,例如应用程序。存储器820中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件810被配置为执行指令,以执行上述语音唤醒方法或语音唤醒模型的训练方法。
电子设备800还可以包括一个电源组件被配置为执行电子设备800的电源管理,一个有线或无线网络接口被配置为将电子设备800连接到网络,和一个输入输出(I/O)接口。电子设备800可以操作基于存储在存储器820的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
一种非临时性计算机可读存储介质,当存储介质中的指令由上述电子设备700的处理器执行时,使得上述电子设备800能够执行一种语音唤醒方法或语音唤醒模型的训练方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序校验码的介质。
另外,还需要说明的是,本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式,本案所记载的所有技术特征可以以任何方式进行自由组合或结合,除非相互之间产生矛盾。
需要注意的是,以上列举的仅为本发明的具体实施例,显然本发明不限于以上实施例,随之有着许多的类似变化。本领域的技术人员如果从本发明公开的内容直接导出或联想到的所有变形,均应属于本发明的保护范围。
应当理解,本发明实施例中提到的第一、第二等限定词,仅仅为了更清楚地描述本发明实施例的技术方案使用,并不能用以限制本发明的保护范围。
以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种语音唤醒方法,其特征在于,应用于语音唤醒模型,包括:
获取待识别语音信号,其中,所述待识别语音信号包括唤醒词;
利用声学模型对所述待识别语音信号进行唤醒词识别,获得唤醒词识别结果,其中,所述声学模型包括整词节点,所述整词节点以所述唤醒词的词向量为权重;
根据所述唤醒词识别结果进行语音唤醒。
2.根据权利要求1所述的语音唤醒方法,其特征在于,在所述获取待识别语音信号之前,还包括:
接收用户输入的自定义唤醒词指令,其中,所述自定义唤醒词指令包括所述唤醒词;
获取所述唤醒词的词向量;
在所述声学模型中增加所述整词节点,并将所述唤醒词的词向量作为所述整词节点的权重。
3.根据权利要求1所述的语音唤醒方法,其特征在于,所述语音唤醒模型是由如下训练方法得到的:
获取所述唤醒词的词向量,并将所述唤醒词的词向量作为声学模型中的整词节点的权重;
获取训练样本,其中,所述训练样本包括语音信号样本和标注数据,所述语音信号样本包括所述唤醒词,所述标注数据包括所述语音信号样本对应的文本信息;
基于所述训练样本对所述声学模型进行训练,得到所述语音唤醒模型。
4.根据权利要求3所述的语音唤醒方法,其特征在于,所述语音唤醒模型还包括词模型,其中,所述获取所述唤醒词的词向量,包括:
利用所述词模型获取所述唤醒词的词向量;
其中,所述基于所述训练样本对所述声学模型进行训练,得到所述语音唤醒模型,包括:
基于所述训练样本对所述词模型和所述声学模型进行训练,获得所述语音唤醒模型。
5.根据权利要求4所述的语音唤醒方法,其特征在于,所述声学模型还包括多个音节节点,其中,所述训练方法还包括:
利用所述词模型获取多个音节的音节向量;
将所述多个音节的音节向量分别作为所述声学模型中的所述多个音节节点的权重。
6.根据权利要求1至5中任一项所述的语音唤醒方法,其特征在于,所述声学模型包括基于神经网络的时序类分类CTC模型。
7.一种语音唤醒模型的训练方法,其特征在于,包括:
获取唤醒词的词向量,并将所述唤醒词的词向量作为声学模型中的整词节点的权重;
获取训练样本,其中,所述训练样本包括语音信号样本和标注数据,所述语音信号样本包括所述唤醒词,所述标注数据包括所述语音信号样本对应的文本信息;
基于所述训练样本对所述声学模型进行训练,得到语音唤醒模型。
8.一种语音唤醒装置,其特征在于,包括:
获取模块,用于获取待识别语音信号,其中,所述待识别语音信号包括唤醒词;
识别模块,用于利用声学模型对所述待识别语音信号进行唤醒词识别,获得唤醒词识别结果,其中,所述声学模型包括整词节点,所述整词节点以所述唤醒词的词向量为权重;
唤醒模块,用于根据所述唤醒词识别结果进行语音唤醒。
9.一种语音唤醒模型的训练装置,其特征在于,包括:
词向量模块,用于获取唤醒词的词向量,将所述唤醒词的词向量作为声学模型中的整词节点的权重;
获取模块,用于获取训练样本,其中,所述训练样本包括语音信号样本和标注数据,所述语音信号样本包括唤醒词,所述标注数据包括所述语音信号样本对应的文本信息;
训练模块,用于基于所述训练样本对所述声学模型进行训练,得到语音唤醒模型。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1至7中任一项所述的方法。
11.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111674783.8A CN114242065A (zh) | 2021-12-31 | 2021-12-31 | 语音唤醒方法及装置、语音唤醒模块的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111674783.8A CN114242065A (zh) | 2021-12-31 | 2021-12-31 | 语音唤醒方法及装置、语音唤醒模块的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114242065A true CN114242065A (zh) | 2022-03-25 |
Family
ID=80745461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111674783.8A Pending CN114242065A (zh) | 2021-12-31 | 2021-12-31 | 语音唤醒方法及装置、语音唤醒模块的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114242065A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115223573A (zh) * | 2022-07-15 | 2022-10-21 | 北京百度网讯科技有限公司 | 语音唤醒方法、装置、电子设备以及存储介质 |
WO2023193394A1 (zh) * | 2022-04-06 | 2023-10-12 | 北京百度网讯科技有限公司 | 语音唤醒模型的训练、唤醒方法、装置、设备及存储介质 |
-
2021
- 2021-12-31 CN CN202111674783.8A patent/CN114242065A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023193394A1 (zh) * | 2022-04-06 | 2023-10-12 | 北京百度网讯科技有限公司 | 语音唤醒模型的训练、唤醒方法、装置、设备及存储介质 |
CN115223573A (zh) * | 2022-07-15 | 2022-10-21 | 北京百度网讯科技有限公司 | 语音唤醒方法、装置、电子设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN107704275B (zh) | 智能设备唤醒方法、装置、服务器及智能设备 | |
CN107767863B (zh) | 语音唤醒方法、系统及智能终端 | |
CN107134279B (zh) | 一种语音唤醒方法、装置、终端和存储介质 | |
CN114242065A (zh) | 语音唤醒方法及装置、语音唤醒模块的训练方法及装置 | |
CN112259089B (zh) | 语音识别方法及装置 | |
CN108055617B (zh) | 一种麦克风的唤醒方法、装置、终端设备及存储介质 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN110706707B (zh) | 用于语音交互的方法、装置、设备和计算机可读存储介质 | |
CN110866090A (zh) | 用于语音交互的方法、装置、电子设备和计算机存储介质 | |
CN111653274B (zh) | 唤醒词识别的方法、装置及存储介质 | |
CN113674746B (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN111883121A (zh) | 唤醒方法、装置及电子设备 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN114842855A (zh) | 语音唤醒模型的训练、唤醒方法、装置、设备及存储介质 | |
CN113220828B (zh) | 意图识别模型处理方法、装置、计算机设备及存储介质 | |
CN111326146A (zh) | 语音唤醒模板的获取方法、装置、电子设备及计算机可读存储介质 | |
CN110827799A (zh) | 用于处理语音信号的方法、装置、设备和介质 | |
CN116978368B (zh) | 一种唤醒词检测方法和相关装置 | |
CN113838462A (zh) | 语音唤醒方法、装置、电子设备及计算机可读存储介质 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN111048068B (zh) | 语音唤醒方法、装置、系统及电子设备 | |
CN115862604B (zh) | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 | |
CN115064160B (zh) | 语音唤醒方法以及装置 | |
CN112306560B (zh) | 用于唤醒电子设备的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230425 Address after: 230026 No. 96, Jinzhai Road, Hefei, Anhui Applicant after: University of Science and Technology of China Applicant after: IFLYTEK Co.,Ltd. Address before: NO.666, Wangjiang West Road, hi tech Zone, Hefei City, Anhui Province Applicant before: IFLYTEK Co.,Ltd. |
|
TA01 | Transfer of patent application right |