CN107369439A - 一种语音唤醒方法和装置 - Google Patents

一种语音唤醒方法和装置 Download PDF

Info

Publication number
CN107369439A
CN107369439A CN201710642189.8A CN201710642189A CN107369439A CN 107369439 A CN107369439 A CN 107369439A CN 201710642189 A CN201710642189 A CN 201710642189A CN 107369439 A CN107369439 A CN 107369439A
Authority
CN
China
Prior art keywords
pronunciation
sequence
word
voice signal
wake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710642189.8A
Other languages
English (en)
Other versions
CN107369439B (zh
Inventor
代金良
曹骥
陈明
李健
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Beijing Sinovoice Technology Co Ltd
Original Assignee
BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP filed Critical BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority to CN201710642189.8A priority Critical patent/CN107369439B/zh
Publication of CN107369439A publication Critical patent/CN107369439A/zh
Application granted granted Critical
Publication of CN107369439B publication Critical patent/CN107369439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例提供了一种语音唤醒方法和一种语音唤醒装置,所述方法包括:首先通过预先训练好的声学模型对语音信号的声学特征进行处理,得到语音信号的读音序列;再判断语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配,如果匹配,执行唤醒操作;通过这种语音唤醒方法,在用户更换唤醒词时,不再需要厂家重新训练唤醒词模型,使唤醒词的定制更加灵活。

Description

一种语音唤醒方法和装置
技术领域
本发明涉及信号处理科学技术领域,特别是涉及一种语音唤醒方法和一种语音唤醒装置。
背景技术
近年来,在使用各类电子设备时,人们越来越不满足于传统的功能按键或者手写的输入方式,尤其是在很多场合如驾驶时,无法用手来进行按键或手写等操作。因此,具有语音交互功能的智能设备逐渐进入了人们的生活。在传统的语音交互中,用户通常需要先手动激活语音,比如按下录音键,才可以进行语音交互。为了使人机之间的语音交互体验更加通畅,语音唤醒技术应运而生。
语音唤醒技术是语音识别技术中的重要分支,目前在车载,导航,智能家居等方面有着重要的应用,用于通过声音启动程序或者服务。传统的语音唤醒是由厂家预先将训练好的唤醒模型植入设备,当用户自定义唤醒词时,需要由技术人员根据用户自定义的唤醒词重新开发或者修改唤醒模型,然后用户进行下载使用,这种方式灵活度非常有限,并且对于厂家而言,后期的维护成本也较高。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提供一种语音唤醒方法,使唤醒词的定制更加灵活。
发明内容
本发明实施例所要解决的技术问题是提供一种语音唤醒方法,使唤醒词的定制更加灵活。
相应的,本发明实施例还提供了一种语音唤醒装置,用以保证上述方法的实现及应用。
为了解决上述问题,本发明公开了一种语音唤醒方法,所述方法包括:
获取语音信号;
提取所述语音信号的声学特征;
采用预先训练得到的声学模型,对所述声学特征进行处理,得到所述语音信号的读音序列;
判断所述语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配;
如果匹配,执行唤醒操作。
优选地,在所述判断所述语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配之前,还包括:
根据用户输入的初始读音序列,查询读音数据库,得到所述初始读音序列的区分度;所述读音数据库中包括所述读音与所述读音的区分度;所述读音的区分度用来表征所述读音与所述读音数据库中其它读音的区分能力;
如果所述初始读音序列的区分度大于第一预设阈值,则确定所述初始读音序列为所述唤醒词的读音序列。
优选地,在所述根据用户输入的初始读音序列,查询读音数据库,得到所述初始读音序列的区分度之前,还包括:
获取读音样本;
对所述读音样本进行统计,得到所述读音数据库,所述读音数据库至少包括所述读音与所述读音的区分度及相似读音。
优选地,所述判断所述语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配的步骤,包括:
根据所述语音信号的读音序列,查询所述读音数据库,得到所述语音信号的读音序列对应的相似读音序列集合;
如果所述相似读音序列集合中包含所述唤醒词的读音序列,则判定所述语音信号的读音序列与所述唤醒词的读音序列匹配。
优选地,所述判断所述语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配的步骤,包括:
获取所述语音信号的读音序列与所述唤醒词的读音序列的编辑距离;
如果所述编辑距离小于第二预设阈值,则判定所述语音信号的读音序列与所述唤醒词的读音序列匹配。
优选地,在采用预先训练得到的声学模型,对所述声学特征进行处理,得到所述语音信号的读音序列之前,还包括:
获取语音样本;
对所述语音样本进行读音标注,得到所述读音样本的读音序列;
获取所述语音样本的声学特征;
根据所述读音序列以及所述声学特征,对神经网络算法进行训练,得到所述声学模型。
本发明实施例还提供了一种语音唤醒装置,所述装置包括:
信号获取模块,用于获取语音信号;
特征提取模块,用于提取所述语音信号的声学特征;
序列获得模块,用于采用预先训练得到的声学模型,对所述声学特征进行处理,得到所述语音信号的读音序列;
匹配判断模块,用于判断所述语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配;
唤醒执行模块,用于如果匹配,执行唤醒操作。
优选地,所述装置还包括:
区分度查询模块,用于根据用户输入的初始读音序列,查询读音数据库,得到所述初始读音序列的区分度;所述读音数据库中包括所述读音与所述读音的区分度;所述读音的区分度用来表征所述读音与所述读音数据库中其它读音的区分能力;
唤醒确定模块,用于如果所述初始读音序列的区分度大于第一预设阈值,则确定所述初始读音序列为所述唤醒词的读音序列。
优选地,所述装置还包括:
读音样本模块,用于获取读音样本;
数据库获得模块,用于对所述读音样本进行统计,得到所述读音数据库,所述读音数据库至少包括所述读音与所述读音的区分度及相似读音。
优选地,所述匹配判断模块包括:
相似音查询子模块,用于根据所述语音信号的读音序列,查询所述读音数据库,得到所述语音信号的读音序列对应的相似读音序列集合;
第一匹配子模块,用于如果所述相似读音序列集合中包含所述唤醒词的读音序列,则判定所述语音信号的读音序列与所述唤醒词的读音序列匹配。
优选地,所述匹配判断模块包括:
距离获取子模块,用于获取所述语音信号的读音序列与所述唤醒词的读音序列的编辑距离;
第二匹配子模块,用于如果所述编辑距离小于第二预设阈值,则判定所述语音信号的读音序列与所述唤醒词的读音序列匹配。
优选地,所述装置还包括:
语音样本模块,用于获取语音样本;
读音标注模块,用于对所述语音样本进行读音标注,得到所述读音样本的读音序列;
声学特征模块,用于获取所述语音样本的声学特征;
声学模型模块,用于根据所述读音序列以及所述声学特征,对神经网络算法进行训练,得到所述声学模型。
与现有技术相比,本发明实施例包括以下优点:
本发明实施例提供了一种语音唤醒方法,首先通过预先训练好的声学模型对语音信号的声学特征进行处理,得到语音信号的读音序列;再判断语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配,如果匹配,执行唤醒操作;通过这种语音唤醒方法,在用户更换唤醒词时,不再需要厂家重新训练唤醒词模型,使唤醒词的定制更加灵活。
附图说明
图1是本发明实施例一种语音唤醒方法的步骤流程图;
图2是本发明实施例一种语音唤醒方法中获取读音数据库的步骤流程图;
图3是本发明实施例一种语音唤醒方法中预先定制唤醒词的读音序列的步骤流程图;
图4是本发明实施例一种语音唤醒方法中第一种匹配判断方法的步骤流程图;
图5是本发明实施例一种语音唤醒方法中第二种匹配判断方法的步骤流程图;
图6是本发明实施例一种语音唤醒方法中获得声学模型的步骤流程图;
图7为本发明实施例一种语音唤醒方法中神经网络算法训练声学模型的流程示意图;
图8为本发明实施例一种语音唤醒方法中声学模型识别语音信号的流程示意图;
图9是本发明实施例一种语音唤醒装置的结构框图;
图10是本发明实施例一种语音唤醒装置中唤醒词定制模块的结构框图;
图11是本发明实施例一种语音唤醒装置中读音数据库建立模块的结构框图;
图12是本发明实施例一种语音唤醒装置中一种匹配判断模块的结构框图;
图13是本发明实施例一种语音唤醒装置中另一种匹配判断模块的结构框图;
图14是本发明实施例一种语音唤醒装置中声学模型训练模块的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明实施例一种语音唤醒方法的步骤流程图,具体可以包括如下步骤:
步骤101:获取语音信号。
具体的,可以通过VAD对采集到的声音信号进行有效信号判决,识别出其中的语音信号。如果当前信号段是语音信号,则进行后续提取声学特征等操作;如果当前信号段是非语音信号,则不进行后续处理,以进一步降低功耗,VAD继续等待下一帧声音信号。
步骤102:提取语音信号的声学特征。
具体的,提取步骤101获取的语音信号的声学特征,至少包括幅度谱、FBank参数、MFCC及其一阶、二阶差分、LPL等声学特征中的一个,例如可以提取语音信号的64点幅度谱,组成特征向量。具体的幅度谱特征提取算法可以如式(1)、(2)、(3)所示。
加窗:w[n]=0.54-(0.46*cos(n/N)),n=0,……N-1. (1)
幅度谱:P(k)=|X(k)| (3)
其中x(n)表示输入的语音数字信号,n表示时间采样序号(即时刻),N表示FFT变换的长度,w(n)表示时域加窗的窗函数,X(k)表示语音信号经FFT变换后第k频点的FFT系数,P(k)为对应语音信号的幅度谱。
在实际应用中,声学特征的类型有很多种,具体可以根据实际情况选择确定,本申请对此不作限定。
步骤103:采用预先训练得到的声学模型,对声学特征进行处理,得到语音信号的读音序列。
具体的,可以首先对语音样本进行标注获得语音样本的读音序列,同时提取语音样本的声学特征;然后根据读音序列和声学特征对神经网络模型训练得到声学模型。声学模型可以理解为解码网络的传递函数F(v),将上述步骤102提取得到的第k帧语音信号的声学特征向量记为Vk,输入传递函数F(v),可以得到第k帧语音信号的读音序列Ok=F(Vk)。
步骤104:判断语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配。
具体的,可以通过计算步骤103得到的语音信号的读音序列与定制的唤醒词的读音序列的编辑距离,如果编辑距离小于预设的阈值条件,则判定语音信号的读音序列与唤醒词的读音序列匹配。还可以根据语音信号的读音序列中每个读音的相似读音,扩展得到相似读音序列集合,如果相似读音序列集合中包含唤醒词的读音序列,则判定语音信号的读音序列与唤醒词的读音序列匹配。还可以通过计算相似读音序列集合中每个读音序列与唤醒词的读音序列的编辑距离,如果存在小于预设的阈值条件的编辑距离,则判定语音信号的读音序列与唤醒词的读音序列匹配。其中,唤醒词的读音序列可以通过用户预先定制得到。
步骤105:如果匹配,执行唤醒操作。
具体的,根据步骤104判断得到的匹配结果,执行相应的唤醒操作。当匹配结果为真时,若当前唤醒状态为未唤醒,则输出唤醒,若当前状态为已唤醒,则输出状态不变;当匹配结果为假时,则输出状态不变。
本发明实施例提供了一种语音唤醒方法,首先通过预先训练好的声学模型对语音信号的声学特征进行处理,得到语音信号的读音序列;再判断语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配,如果匹配,执行唤醒操作;通过这种语音唤醒方法,在用户更换唤醒词时,不再需要厂家重新训练唤醒词模型,使唤醒词的定制更加灵活。
在本发明的另一个优选实施例中,参照图2,在上述步骤104之前还可以包括获取读音数据库,该获取读音数据库的步骤可以进一步包括:
步骤201:获取读音样本。
具体的,读音样本可以通过对语音样本进行读音标注得到。
步骤202:对读音样本进行统计,得到读音数据库,读音数据库至少包括读音与读音的区分度及相似读音。
具体的,首先清洗掉上述读音样本中无意义的符号等,再对读音样本进行统计,可以得到包含样本读音质量评价参数的读音数据库。读音数据库可以包括读音与读音的相似读音,相似读音可以根据每个读音的发音情况人为统计得到;读音数据库还可以包括读音与读音的区分度,读音的区分度可以根据读音的相似读音数量来确定。
可选地,读音数据库中还可以包括读音与读音频次,其中读音频次可以根据样本中每个读音的重复次数确定;读音数据库中还可以包括读音与读音索引,读音索引可以根据某种准则如区分度进行排序来确定。
如下表1所示,LP=F(P)表示读音P的索引,则其反函数P=F-1(LP)则表示从索引获取读音。读音可以按照全音节也可以按照半音节进行划分;频次参数可以使用归一化技术,根据实际情况选择归一化字长,如表1中使用了8比特;区分度参数也可以采用类似的归一化技术;相似读音的存储则可以使用读音索引构成三元组进行存储。
表1
在本发明的另一个优选实施例中,参照图3,在上述步骤104之前以及获取读音数据库的步骤之后,还可以包括预先定制唤醒词的读音序列,该预先定制唤醒词的读音序列的步骤可以进一步包括:
步骤301:根据用户输入的初始读音序列,查询读音数据库,得到初始读音序列的区分度;读音数据库中包括读音与读音的区分度;读音的区分度用来表征读音与读音数据库中其它读音的区分能力。
具体的,上述步骤202得到的读音数据库可以预置在终端设备中。读音的区分度用来表征读音与读音数据库中其它读音的区分能力。设备厂家或者终端用户可以通过唤醒词配置接口输入唤醒词,如用户通过唤醒词配置接口输入“你好电视”,则初始读音序列为“nihao dian shi”,根据初始读音序列,查询读音数据库可以得到读音序列中每个读音的区分度。
步骤302:如果初始读音序列的区分度大于第一预设阈值,则确定初始读音序列为唤醒词的读音序列。
具体的,根据步骤201查询得到的初始读音序列如“ni hao dian shi”的区分度结果,当每个读音的区分度都大于第一预设阈值时,可以将此初始读音序列如“ni hao dianshi”确定为唤醒词的读音序列并加入唤醒词列表。如果用户通过唤醒词接口输入“你好希恩”,则初始读音序列为“ni hao xi en”,查询读音数据库发现“xi en”这个读音的区分度太低,可以提示用户“希恩”不适合用作唤醒词,在使用过程中容易被误唤醒,还可以同时给出“xi en”很容易和“xin”混淆的原因提示,以帮助用户选择更好的唤醒词。其中第一预设阈值可以根据实际识别的准确度以及经验等预先确定。
可选地,当读音数据库中还包括读音与读音索引信息时,为了使后续的匹配判断更加快速准确,还可以通过查询读音数据库将唤醒词的读音序列转换为读音索引序列,并将此读音索引序列加入唤醒词列表。
可选地,当读音数据库中还包括读音与相似读音信息时,还可以通过查询读音数据库得到初始读音序列的相似读音,根据相似读音的数量来判断该初始读音序列是否适合确定为唤醒词的读音序列。
实际应用中,判定初始读音序列是否适合作为唤醒词的读音序列的方式有多种,具体地可以根据实际情况来确定,本申请对此不做限定。
在本发明的另一个优选实施例中,参照图4,上述步骤104还可以包括第一种匹配判断方法,该第一种匹配判断方法可以进一步包括:
步骤401:根据语音信号的读音序列,查询读音数据库,得到语音信号的读音序列对应的相似读音序列集合。
具体的,根据步骤103中得到的第k帧时刻识别得到的读音序列Ok,查询上述步骤302获得的读音数据库,可以将Ok扩展为相似读音序列集合其中中包含读音序列Ok的所有相似读音组成的相似读音序列。
步骤402:如果相似读音序列集合中包含唤醒词的读音序列,则判定语音信号的读音序列与唤醒词的读音序列匹配。
具体的,如果步骤401中得到的相似读音序列集合中包含唤醒词的读音序列,则判定语音信号的读音序列与唤醒词的读音序列匹配。
可选地,当上述步骤202获得的读音数据库还包括读音与读音索引信息时,通过查询读音数据库,步骤103得到的Ok可以转换为读音索引序列Ok',进一步根据读音词典可以扩展Ok'得到相似读音索引序列集合其中包含读音索引序列Ok'的所有相似读音对应的相似读音索引序列。当相似读音索引序列集合中包含唤醒词的读音索引序列时,则可以判定语音信号的读音序列与唤醒词的读音序列匹配。
可选地,对于用户设置了多个唤醒词的情况,例如在唤醒词列表中的位置为Wi~Wk,可以将唤醒词列表中唤醒词的读音序列逐行与相似读音序列集合进行匹配,如果第i行~第k行任一行的唤醒词如则认为匹配,否则,则认为不匹配。
在本发明的另一个优选实施例中,参照图5,上述步骤104还可以包括第二种匹配判断方法,该第二种匹配判断方法可以进一步包括:
步骤501:获取语音信号的读音序列与唤醒词的读音序列的编辑距离。
具体的,可以计算语音信号的读音序列Ok与唤醒词的读音序列的编辑距离(EditDistance,ED)。可选地,还可以计算上述步骤401得到的相似读音序列集合中每个相似读音序列与唤醒词的读音序列的编辑距离。其中编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,编辑距离越小,两个字串的相似度越大。
步骤502:如果编辑距离小于第二预设阈值,则判定语音信号的读音序列与唤醒词的读音序列匹配。
具体的,根据步骤501计算结果,当语音信号的读音序列Ok与唤醒词的读音序列的编辑距离小于第二预设阈值时,可以判定语音信号的读音序列与唤醒词的读音序列匹配。可选地,当相似读音序列集合中第j个相似读音序列与唤醒词的读音序列的编辑距离小于第二预设阈值时,也可以判定语音信号的读音序列与唤醒词的读音序列匹配。其中,第二预设阈值可以根据识别的准确度以及经验等预先确定。
在本发明的另一个实施例中,参照图6,在上述步骤103之前还可以包括获得声学模型,该获得声学模型的步骤可以进一步包括:
步骤601:获取语音样本。
具体的,语音样本可以在没有噪音的环境下录制得到。
步骤602:对语音样本进行读音标注,得到读音样本的读音序列。
具体的,通过读音标注得到读音样本的读音序列,是一系列由声母和韵母组成的字符串。
步骤603:获取语音样本的声学特征。
具体的,提取语音样本的声学特征的过程可以参考前述实施例中步骤102的描述,本实施例中对此不再赘述。
步骤604:根据读音序列以及声学特征,对神经网络算法进行训练,得到声学模型。
具体的,根据上述步骤提取到的语音样本的声学特征和读音序列,对神经网络算法进行训练,例如算法可以采用CNN+RNN的网络结构,训练得到一个读音覆盖完备的声学模型。
为使本领域技术人员更好地理解本发明,以下用一个完整的实施例阐述本申请的实现过程:
通过以下三个步骤分别获得声学模型和读音数据库:
1)语料库的构建,收集大量的语音样本,并对语音样本进行读音标注,得到读音样本。
2)读音数据库的建立:清洗掉上述读音样本中无意义的符号等,再进行读音统计,得到读音数据库,如下表2所示。
其中LP=F(P)表示读音P的索引,则其反函数P=F-1(LP)则表示从索引获取读音;读音按照全音节进行划分;频次参数可以使用归一化技术,字长选取为8比特,频次最大值归一化为255,最小频次归一化为0,中间的频次区分度参数也可以采用类似的归一化技术;相似音的存储则可以使用读音索引构成三元组进行存储。
表2
3)声学模型训练:通过对语音样本进行标注得到读音序列,同时提取语音样本的声学特征,例如声学特征可以采用幅度谱,幅度谱的提取方法可以参考上述实施例中的公式(1)、(2)、(3),本实施例中对此不再赘述。
根据得到的读音序列和声学特征,采用CNN+RNN的网络算法训练得到声学模型,参照图7示出了神经网络算法训练声学模型的流程示意图。
通过以下两个步骤完成唤醒词定制过程:
1)输入唤醒词:厂家通过预先提供的唤醒词配置接口配置唤醒词“你好电视”,根据读音数据库检查输入的唤醒词的区分度满足预设条件,但“电”和“视”存在混淆音,即(di,an,dian),(shi,an,shan),(shi,en,shen),(shi,ang,shang),(shi,eng,sheng),提示用户“dian”与“di,an”可能混淆,是否依然使用“dian”,如果使用,则读音“di,an”也将视作“dian”,最终用户确认使用当前唤醒词,不作修改。
2)唤醒词列表更新:用户确认唤醒词后,根据读音数据库,将唤醒词的读音序列“ni hao dian shi”写入唤醒词列表。
通过以下四个步骤完成识别阶段:
1)预处理:包括通过VAD识别出语音,对于非语音信号则不进行后续处理,以进一步降低功耗,然后提取64点幅度谱,组成特征向量(v)。具体的幅度谱特征提取算法如上述实施例中式(1)、(2)、(3)所示。
2)读音识别:将提取出的声学特征向量(v)通过声学模型,输出读音序列,参照图8示出了声学模型识别语音信号的流程示意图。具体地,定义F(v)为解码网络的传递函数,即训练阶段得到的声学模型,由输入的第k帧语音信号提取得到的声学特征向量记为Vk,则第k帧语音信号观测到的读音序列输出为Ok=F(Vk)。
3)唤醒词匹配:将第k帧时刻识别得到的读音索引序列Ok,根据读音数据库,将Ok扩展为其中包含了Ok以及Ok的相似读音组成的读音索引序列。具体地,若用户识别得到的Ok是“ni hao di an shi”,则应扩展为{“ni hao di an shi”,“ni hao dian shi”,“nihao dian shang”,“ni hao dian shan”,“ni hao dian sheng”,“ni hao dian shen”}作为然后将唤醒词的读音序列与进行匹配,匹配策略是:如果第i行的唤醒词的读音序列则认为匹配,否则,认为不匹配。判定结果是匹配到了唤醒词的读音序列“ni haodian shi”。
4)唤醒判决:根据匹配检测的结果,确定需要唤醒;且当前状态为未唤醒,故输出唤醒结果,并将当前状态置为已唤醒。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图9,示出了本发明一种语音唤醒装置实施例一的结构框图,具体可以包括如下模块:
信号获取模块901,用于获取语音信号。
特征提取模块902,用于提取语音信号的声学特征。
序列获得模块903,用于采用预先训练得到的声学模型,对声学特征进行处理,得到语音信号的读音序列。
匹配判断模块904,用于判断语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配。
唤醒执行模块905,用于如果匹配,执行唤醒操作。
可选的,本实施例还可以包括与序列获得模块904连接的唤醒词定制模块1000。
可选的,本实施例还可以包括与序列获得模块903连接的声学模型训练模块1400。
在本申请的另一个优选实施例中,参照图10,与上述序列获得模块904连接的唤醒词定制模块1000可以进一步包括:
区分度查询模块1001,用于根据用户输入的初始读音序列,查询读音数据库,得到初始读音序列的区分度;读音数据库中包括读音与读音的区分度;读音的区分度用来表征读音与读音数据库中其它读音的区分能力。
唤醒确定模块1002,用于如果初始读音序列的区分度大于第一预设阈值,则确定初始读音序列为唤醒词的读音序列。
可选的,本实施例还可以包括与区分度查询模块1001连接的读音数据库建立模块1100。
在本申请的另一个优选实施例中,参照图11,与上述区分度查询模块1001连接的读音数据库建立模块1100可以进一步包括:
读音样本模块1101,用于获取读音样本。
数据库获得模块1102,用于对读音样本进行统计,得到读音数据库,读音数据库至少包括读音与读音的区分度及相似读音。
在本申请的另一个优选实施例中,参照图12,上述匹配判断模块904可以进一步包括:
相似音查询子模块1201,用于根据语音信号的读音序列,查询读音数据库,得到语音信号的读音序列对应的相似读音序列集合。
第一匹配子模块1202,用于如果相似读音序列集合中包含所述唤醒词的读音序列,则判定语音信号的读音序列与唤醒词的读音序列匹配。
在本申请的另一个优选实施例中,参照图13,上述匹配判断模块904可以进一步包括:
距离获取子模块1301,用于获取语音信号的读音序列与唤醒词的读音序列的编辑距离。
第二匹配子模块1302,用于如果编辑距离小于第二预设阈值,则判定语音信号的读音序列与唤醒词的读音序列匹配。
在本申请的另一个优选实施例中,参照图14,与上述序列获得模块903连接的声学模型训练模块1400可以进一步包括:
语音样本模块1401,用于获取语音样本。
读音标注模块1402,用于对语音样本进行读音标注,得到读音样本的读音序列。
声学特征模块1403,用于获取语音样本的声学特征。
声学模型模块1404,用于根据读音序列以及声学特征,对神经网络算法进行训练,得到声学模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
需要说明的是,上述实施例可以相互组合,以便更好地提高唤醒词定制的灵活性。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语音唤醒方法和一种语音唤醒装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语音唤醒方法,其特征在于,所述方法包括:
获取语音信号;
提取所述语音信号的声学特征;
采用预先训练得到的声学模型,对所述声学特征进行处理,得到所述语音信号的读音序列;
判断所述语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配;
如果匹配,执行唤醒操作。
2.根据权利要求1所述的方法,其特征在于,在所述判断所述语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配之前,还包括:
根据用户输入的初始读音序列,查询读音数据库,得到所述初始读音序列的区分度;所述读音数据库中包括所述读音与所述读音的区分度;所述读音的区分度用来表征所述读音与所述读音数据库中其它读音的区分能力;
如果所述初始读音序列的区分度大于第一预设阈值,则确定所述初始读音序列为所述唤醒词的读音序列。
3.根据权利要求2所述的方法,其特征在于,在所述根据用户输入的初始读音序列,查询读音数据库,得到所述初始读音序列的区分度之前,还包括:
获取读音样本;
对所述读音样本进行统计,得到所述读音数据库,所述读音数据库至少包括所述读音与所述读音的区分度及相似读音。
4.根据权利要求3所述的方法,其特征在于,所述判断所述语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配的步骤,包括:
根据所述语音信号的读音序列,查询所述读音数据库,得到所述语音信号的读音序列对应的相似读音序列集合;
如果所述相似读音序列集合中包含所述唤醒词的读音序列,则判定所述语音信号的读音序列与所述唤醒词的读音序列匹配。
5.根据权利要求1至4任一项所述的方法,其特征在于,在采用预先训练得到的声学模型,对所述声学特征进行处理,得到所述语音信号的读音序列之前,还包括:
获取语音样本;
对所述语音样本进行读音标注,得到所述读音样本的读音序列;
获取所述语音样本的声学特征;
根据所述读音序列以及所述声学特征,对神经网络算法进行训练,得到所述声学模型。
6.一种语音唤醒装置,其特征在于,所述装置包括:
信号获取模块,用于获取语音信号;
特征提取模块,用于提取所述语音信号的声学特征;
序列获得模块,用于采用预先训练得到的声学模型,对所述声学特征进行处理,得到所述语音信号的读音序列;
匹配判断模块,用于判断所述语音信号的读音序列与预先定制的唤醒词的读音序列是否匹配;
唤醒执行模块,用于如果匹配,执行唤醒操作。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
区分度查询模块,用于根据用户输入的初始读音序列,查询读音数据库,得到所述初始读音序列的区分度;所述读音数据库中包括所述读音与所述读音的区分度;所述读音的区分度用来表征所述读音与所述读音数据库中其它读音的区分能力;
唤醒确定模块,用于如果所述初始读音序列的区分度大于第一预设阈值,则确定所述初始读音序列为所述唤醒词的读音序列。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
读音样本模块,用于获取读音样本;
数据库获得模块,用于对所述读音样本进行统计,得到所述读音数据库,所述读音数据库至少包括所述读音与所述读音的区分度及相似读音。
9.根据权利要求8所述的装置,其特征在于,所述匹配判断模块包括:
相似音查询子模块,用于根据所述语音信号的读音序列,查询所述读音数据库,得到所述语音信号的读音序列对应的相似读音序列集合;
第一匹配子模块,用于如果所述相似读音序列集合中包含所述唤醒词的读音序列,则判定所述语音信号的读音序列与所述唤醒词的读音序列匹配。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述装置还包括:
语音样本模块,用于获取语音样本;
读音标注模块,用于对所述语音样本进行读音标注,得到所述读音样本的读音序列;
声学特征模块,用于获取所述语音样本的声学特征;
声学模型模块,用于根据所述读音序列以及所述声学特征,对神经网络算法进行训练,得到所述声学模型。
CN201710642189.8A 2017-07-31 2017-07-31 一种语音唤醒方法和装置 Active CN107369439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710642189.8A CN107369439B (zh) 2017-07-31 2017-07-31 一种语音唤醒方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710642189.8A CN107369439B (zh) 2017-07-31 2017-07-31 一种语音唤醒方法和装置

Publications (2)

Publication Number Publication Date
CN107369439A true CN107369439A (zh) 2017-11-21
CN107369439B CN107369439B (zh) 2021-04-27

Family

ID=60309078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710642189.8A Active CN107369439B (zh) 2017-07-31 2017-07-31 一种语音唤醒方法和装置

Country Status (1)

Country Link
CN (1) CN107369439B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182937A (zh) * 2018-01-17 2018-06-19 出门问问信息科技有限公司 关键词识别方法、装置、设备及存储介质
CN108648758A (zh) * 2018-03-12 2018-10-12 北京云知声信息技术有限公司 医疗场景中分离无效语音的方法及系统
CN108899028A (zh) * 2018-06-08 2018-11-27 广州视源电子科技股份有限公司 语音唤醒方法、搜索方法、装置和终端
CN109036393A (zh) * 2018-06-19 2018-12-18 广东美的厨房电器制造有限公司 家电设备的唤醒词训练方法、装置及家电设备
CN109065044A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 唤醒词识别方法、装置、电子设备及计算机可读存储介质
CN109243446A (zh) * 2018-10-01 2019-01-18 厦门快商通信息技术有限公司 一种基于rnn网络的语音唤醒方法
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
CN110600015A (zh) * 2019-09-18 2019-12-20 北京声智科技有限公司 一种语音的密集分类方法及相关装置
WO2019242312A1 (zh) * 2018-06-19 2019-12-26 广东美的厨房电器制造有限公司 家电设备的唤醒词训练方法、装置及家电设备
CN110634470A (zh) * 2018-06-06 2019-12-31 北京深鉴智能科技有限公司 智能语音处理方法和装置
CN111540349A (zh) * 2020-03-27 2020-08-14 北京捷通华声科技股份有限公司 一种语音的打断方法和装置
CN111599350A (zh) * 2020-04-07 2020-08-28 云知声智能科技股份有限公司 一种命令词定制识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
CN106098059A (zh) * 2016-06-23 2016-11-09 上海交通大学 可定制语音唤醒方法及系统
CN106611597A (zh) * 2016-12-02 2017-05-03 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106653031A (zh) * 2016-10-17 2017-05-10 海信集团有限公司 语音唤醒方法及语音交互装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
CN106098059A (zh) * 2016-06-23 2016-11-09 上海交通大学 可定制语音唤醒方法及系统
CN106653031A (zh) * 2016-10-17 2017-05-10 海信集团有限公司 语音唤醒方法及语音交互装置
CN106611597A (zh) * 2016-12-02 2017-05-03 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182937A (zh) * 2018-01-17 2018-06-19 出门问问信息科技有限公司 关键词识别方法、装置、设备及存储介质
CN108182937B (zh) * 2018-01-17 2021-04-13 出门问问创新科技有限公司 关键词识别方法、装置、设备及存储介质
CN108648758A (zh) * 2018-03-12 2018-10-12 北京云知声信息技术有限公司 医疗场景中分离无效语音的方法及系统
CN108648758B (zh) * 2018-03-12 2020-09-01 北京云知声信息技术有限公司 医疗场景中分离无效语音的方法及系统
CN110634470A (zh) * 2018-06-06 2019-12-31 北京深鉴智能科技有限公司 智能语音处理方法和装置
CN108899028A (zh) * 2018-06-08 2018-11-27 广州视源电子科技股份有限公司 语音唤醒方法、搜索方法、装置和终端
WO2019242312A1 (zh) * 2018-06-19 2019-12-26 广东美的厨房电器制造有限公司 家电设备的唤醒词训练方法、装置及家电设备
CN109036393A (zh) * 2018-06-19 2018-12-18 广东美的厨房电器制造有限公司 家电设备的唤醒词训练方法、装置及家电设备
CN109065044A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 唤醒词识别方法、装置、电子设备及计算机可读存储介质
CN109243446A (zh) * 2018-10-01 2019-01-18 厦门快商通信息技术有限公司 一种基于rnn网络的语音唤醒方法
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
CN109273007B (zh) * 2018-10-11 2022-05-17 西安讯飞超脑信息科技有限公司 语音唤醒方法及装置
CN110600015A (zh) * 2019-09-18 2019-12-20 北京声智科技有限公司 一种语音的密集分类方法及相关装置
CN111540349A (zh) * 2020-03-27 2020-08-14 北京捷通华声科技股份有限公司 一种语音的打断方法和装置
CN111540349B (zh) * 2020-03-27 2023-10-10 北京捷通华声科技股份有限公司 一种语音的打断方法和装置
CN111599350A (zh) * 2020-04-07 2020-08-28 云知声智能科技股份有限公司 一种命令词定制识别方法及系统
CN111599350B (zh) * 2020-04-07 2023-02-28 云知声智能科技股份有限公司 一种命令词定制识别方法及系统

Also Published As

Publication number Publication date
CN107369439B (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN107369439A (zh) 一种语音唤醒方法和装置
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
US10074363B2 (en) Method and apparatus for keyword speech recognition
CN105374356B (zh) 语音识别方法、语音评分方法、语音识别系统及语音评分系统
US20190266998A1 (en) Speech recognition method and device, computer device and storage medium
CN110211565A (zh) 方言识别方法、装置及计算机可读存储介质
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
CN104143329B (zh) 进行语音关键词检索的方法及装置
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
CN110364171A (zh) 一种语音识别方法、语音识别系统及存储介质
Demircan et al. Feature extraction from speech data for emotion recognition
CN106601259A (zh) 一种基于声纹搜索的信息推荐方法及装置
CN101923857A (zh) 一种人机交互的可扩展语音识别方法
CN105427870B (zh) 一种针对停顿的语音识别方法和装置
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN109508402A (zh) 违规用语检测方法及装置
Yu Research on speech recognition technology and its application
CN105845139A (zh) 一种离线语音控制方法和装置
CN110097870A (zh) 语音处理方法、装置、设备和存储介质
Shaikh Naziya et al. Speech recognition system—a review
CN108010516A (zh) 一种语义独立的语音情绪特征识别方法及装置
CN108831463A (zh) 唇语合成方法、装置、电子设备及存储介质
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
CN105869636A (zh) 一种语音识别装置及其方法、一种智能电视及其控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant