CN111833867A - 语音指令识别方法、装置、可读存储介质和电子设备 - Google Patents
语音指令识别方法、装置、可读存储介质和电子设备 Download PDFInfo
- Publication number
- CN111833867A CN111833867A CN202010515168.1A CN202010515168A CN111833867A CN 111833867 A CN111833867 A CN 111833867A CN 202010515168 A CN202010515168 A CN 202010515168A CN 111833867 A CN111833867 A CN 111833867A
- Authority
- CN
- China
- Prior art keywords
- frame
- voice
- probability
- matching
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 239000013598 vector Substances 0.000 claims description 157
- 239000012634 fragment Substances 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 49
- 230000001755 vocal effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 10
- 238000009432 framing Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000013145 classification model Methods 0.000 description 6
- 238000012804 iterative process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种语音指令识别方法、装置、可读存储介质和电子设备,通过确定待处理语音信息中的各帧对应的帧特征,确定各所述帧特征对应的特征字概率向量以得到概率向量序列,根据预定的滑动搜索窗搜索所述概率向量序列以确定所述滑动搜索窗内的概率向量子序列与预设指令词的第一匹配结果,再根据第一匹配结果再进行声纹匹配以确定语音指令识别结果。本发明实施例可以通过第一次匹配过程识别所述待处理语音信息中是否包括预设指令词以及包括预设指令词的位置,再根据第一匹配结果进行声纹匹配以识别所述预设指令词的发声对象,由此通过两次匹配过程排除语音指令识别过程中的干扰因素,提高语音指令识别的准确度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音指令识别方法、装置、可读存储介质和电子设备。
背景技术
目前,语音识别功能被广泛应用在各类软件平台,例如社交软件、电商软件、外卖平台、地图软件以及网约车平台等。其中大多数软件平台都可以安装在移动设备并通过移动设备接收用户的语音信息,以进行语音识别过程。由于移动设备的便携性,用户的语音信息可能会在各种各样的环境下生成,因此通常会带有环境噪音、人声噪音等不必要的信息,影响语音识别的准确率。
发明内容
有鉴于此,本发明实施例提供一种语音指令识别方法、装置、可读存储介质和电子设备,旨在排除语音指令识别过程中的干扰因素,提高语音指令识别的准确度。
第一方面,本发明实施例提供一种语音指令识别方法,所述方法包括:
确定待处理语音信息,所述待处理语音信息包括多个帧;
确定所述待处理语音信息的语音特征信息序列,所述语音特征信息序列包括所述待处理语音信息中各帧的语音特征信息;
根据所述语音特征信息序列确定所述待处理语音信息中各帧对应的帧特征;
将各所述帧特征输入预先训练的字识别模型,以确定各帧的特征字概率向量,所述特征字概率向量包括所述帧特征与各预设特征字的匹配概率;
根据各帧的特征字概率向量确定所述待处理语音信息的概率向量序列;
根据具有预设长度的滑动搜索窗搜索所述概率向量序列,以确定所述滑动搜索窗内的概率向量子序列与预设指令词的第一匹配结果,其中,所述预设指令词包括以预定顺序排列的至少两个预设特征字;
根据所述第一匹配结果进行声纹匹配以确定语音指令识别结果。
进一步地,所述确定待处理语音信息包括:
响应于接收到任务信息,获取预设时长的语音信息;
对所述预设时长的语音信息进行预处理,以确定所述待处理语音信息。
进一步地,所述确定所述待处理语音信息的语音特征信息序列具体为:
分别对所述待处理语音信息中的各帧提取Fbank特征作为语音特征信息,以确定语音特征信息序列。
进一步地,所述根据所述语音特征信息序列确定所述待处理语音信息中各帧对应的帧特征包括:
确定目标帧;
确定在时间轴上与所述目标帧存在预定位置关系的至少一个关联帧;
根据所述目标帧的语音特征信息和所述关联帧的语音特征信息确定所述目标帧的帧特征。
进一步地,所述根据所述语音特征信息序列确定所述待处理语音信息中各帧对应的帧特征还包括:
响应于在时间轴上与所述目标帧存在预定位置关系的关联帧数量比预定数量少P帧,增加P个空帧作为关联帧,P为不小于等于1的整数。
进一步地,所述根据具有预设长度的滑动搜索窗搜索所述概率向量序列,以确定所述滑动搜索窗内的概率向量子序列与预设指令词的第一匹配结果包括:
以迭代方式执行如下步骤:
确定当前滑动搜索窗;
根据所述当前滑动搜索窗在时间轴上的位置确定对应的概率向量子序列;
计算所述当前滑动搜索窗对应的概率向量子序列的置信度;
响应于所述置信度不小于预设阈值,确定所述当前滑动搜索窗内的概率向量子序列与预设指令词匹配;
响应于所述置信度小于预设阈值,进入下一次循环。
进一步地,所述计算所述当前滑动搜索窗对应的概率向量子序列的置信度包括:
根据所述当前滑动搜索窗的概率向量子序列中的各所述特征字概率向量确定各所述特征字在所述当前滑动搜索窗中的特征值;
将各所述特征值输入预设函数以确定置信度。
进一步地,所述根据所述当前滑动搜索窗的概率向量子序列中的各所述特征字概率向量确定各所述特征字在所述当前滑动搜索窗中的特征值包括:
根据预定顺序在所述预设指令词中确定目标特征字;
响应于所述目标特征字是所述预设指令词中的第一个预设特征字,对比所述当前滑动搜索窗内各帧的特征字概率向量中所述目标特征字的匹配概率,与前一帧的特征字概率向量中与所述目标特征字对应的匹配概率,将所述帧的匹配概率和前一帧对应的匹配概率中较大的匹配概率更新为所述帧对应的匹配概率,并确定所述更新后的匹配概率为目标匹配概率,以确定所述目标特征字对应的目标匹配概率序列;
确定所述目标匹配概率序列中的最后一个目标匹配概率为所述目标特征字对应的特征值。
进一步地,所述根据所述当前滑动搜索窗的概率向量子序列中的各所述特征字概率向量确定各所述特征字在所述当前滑动搜索窗中的特征值还包括:
响应于所述目标特征字不是所述预设指令词中的第一个预设特征字,计算所述当前滑动搜索窗内各帧的特征字概率向量中所述目标特征字的匹配概率与前一个预设特征字的目标匹配概率序列中前一帧对应的目标匹配概率的乘积;
对比所述乘积与前一帧的特征字概率向量中与所述目标特征字对应的匹配概率,将所述乘积和前一帧对应的匹配概率中较大的值更新为所述帧对应的匹配概率,并将更新后的匹配概率确定为目标匹配概率,以确定所述目标特征字对应的目标匹配概率序列。
进一步地,所述根据所述第一匹配结果进行声纹匹配以确定语音指令识别结果包括:
响应于所述第一匹配结果为匹配,根据所述搜索结果确定各所述特征字在所述待处理语音信息中的位置,以获取所述位置的待匹配语音信息片段;
根据各所述待匹配语音信息片段进行声纹匹配以确定语音指令识别结果。
进一步地,所述根据各所述待匹配语音信息片段进行声纹匹配以确定语音指令识别结果包括:
将各所述语音信息片段输入训练得到的声纹模型,以确定对应的第二匹配结果;
响应于各所述第二匹配结果对应的声纹信息均为目标声纹信息,确定所述语音指令识别结果为接收到预定的语音指令。
第二方面,本发明实施例提供了一种语音指令识别装置,所述装置包括:
信息获取模块,用于确定待处理语音信息,所述待处理语音信息包括多个帧;
第一特征提取模块,用于确定所述待处理语音信息的语音特征信息序列,所述语音特征信息序列包括所述待处理语音信息中各帧的语音特征信息;
第二特征提取模块,用于根据所述语音特征信息序列确定所述待处理语音信息中各帧对应的帧特征;
匹配模块,用于将各所述帧特征输入预先训练的字识别模型,以确定各帧的特征字概率向量,所述特征字概率向量包括所述帧特征与各预设特征字的匹配概率;
概率向量序列确定模块,用于根据各帧的特征字概率向量确定所述待处理语音信息的概率向量序列;
搜索模块,用于根据具有预设长度的滑动搜索窗搜索所述概率向量序列,以确定所述滑动搜索窗内的概率向量子序列与预设指令词的第一匹配结果,其中,所述预设指令词包括以预定顺序排列的至少两个预设特征字;
语音识别模块,用于根据所述第一匹配结果进行声纹匹配以确定语音指令识别结果。
第三方面,本发明实施例提供了一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面任一项所述的方法。
第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。
本发明实施例通过确定待处理语音信息中的各帧对应的帧特征,确定各所述帧特征对应的特征字概率向量以得到概率向量序列,根据预定的滑动搜索窗搜索所述概率向量序列以确定所述滑动搜索窗内的概率向量子序列与预设指令词的第一匹配结果,再根据第一匹配结果再进行声纹匹配以确定语音指令识别结果。本发明实施例可以通过第一次匹配过程识别所述待处理语音信息中是否包括预设指令词以及包括预设指令词的位置,再根据第一匹配结果进行声纹匹配以识别所述预设指令词的发声对象,由此通过两次匹配过程排除语音指令识别过程中的干扰因素,提高语音指令识别的准确度。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为应用本发明实施例的语音指令识别方法的语音指令识别系统的示意图;
图2为本发明实施例的语音指令识别方法的流程图;
图3为本发明实施例对语音信息进行分帧处理的示意图;
图4为本发明实施例确定各帧对应帧特征的示意图;
图5为本发明实施例确定概率向量序列的示意图;
图6为本发明实施例的搜索概率向量序列的迭代过程示意图;
图7为本发明实施例一个实现方式的概率向量子序列的示意图;
图8为本发明实施例的语音指令识别方法的数据流程图;
图9为本发明实施例的语音指令识别装置的示意图;
图10为本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明实施例可以应用于任何带有语音识别功能的系统和终端中,使得用户在可以随时通过语音识别功能进行语音指令识别。以下描述中,以网约车平台中的语音指令识别为例进行说明。
图1为应用本发明实施例的语音指令识别方法的语音指令识别系统的示意图,如图1所示,所述语音指令识别系统包括终端设备10,用于接收用户11发送的语音信息,并对所述语音信息进行预处理确定待处理语音信息,基于所述待处理语音信息进行语音指令识别。所述终端设备10例如可以是智能手机、平板电脑、笔记本电脑等能够运行计算机程序的、具有语音识别功能的通用数据处理终端。本发明实施例可以应用于任何可以应用语音识别功能的应用场景中。例如用户与智能设备的语音助手进行人机交互的应用场景、社交软件的语音信息转文字信息的应用场景以及在线任务处理平台的通过获取用户语音信息接收任务等应用场景。进一步地,所述终端设备10可以在满足预定条件时获取用户11发送的语音信息。所述预定条件可以是用户11发出预定的语音指令、触发预设的语音控件、接收到其他设备发送的获取语音信息的指令信息等。
在本发明实施例的一个可选的实现方式中,所述语音指令识别系统还包括通过网络与所述终端设备10连接的服务器12,用于向所述终端设备10发送用于触发终端设备10获取语音信息的指令信息。所述服务器12可以是单个服务器、也可以是以分布式方式配置的服务器集群。
以所述网约车平台的语音指令识别场景为例进行说明,所述终端设备10为司机终端,所述用户11为网约车平台签约的司机,所述服务器12为网约车平台服务器。在所述司机终端10接收到所述网约车平台服务器12发送的订单信息后,开启录音服务以获取所述司机11在预定时长内的语音信息。所述司机终端10可以对所述语音信息进行预处理确定待处理语音信息,基于所述待处理语音信息进行语音指令识别。进一步地,还可以将所述语音信息或经过预处理后的待处理语音信息发送至服务器12进行语音指令识别。
图2为本发明实施例的语音指令识别方法的流程图,所述语音指令识别方法可以应用于终端设备或服务器,以下描述中,以终端设备中的语音指令识别为例进行说明。如图2所示,所述语音指令识别方法包括:
步骤S100、确定待处理语音信息。
具体地,所述待处理语音信息包括多个帧,通过终端设备确定,并基于所述待处理语音信息进行语音指令识别。其中,所述待处理语音信息的获取过程可以为在触发预设的语音信息获取条件时,开启所述终端设备的录音功能,以获取预设时长的语音信息,再经过预处理得到待处理语音信息。在一些应用场景下,所述语音获取条件例如可以通过对终端设备说出预设的指令词触发,或通过触发所述终端设备的语音获取控件触发语音获取条件。
在本发明实施例的一种可选的实现方式中,所述语音获取条件还可以在所述终端设备接收到特定信息后触发。因此,所述确定待处理语音信息的过程可以包括:
步骤S110、响应于接收到任务信息,获取预设时长的语音信息。
具体地,触发所述终端设备获取语音信息的条件可以为接收到特定的任务信息。即所述终端设备在接收到任务信息后,触发语音信息获取服务,以获取预设时长的语音信息。以所述网约车平台的语音指令识别场景为例进行说明。所述终端设备为司机终端,在接收到网约车平台服务器发送的网约车订单信息后,开启录音服务,以获取预设时长的司机语音信息,用于判断所述司机是否处理所述网约车订单。
步骤S120、对所述预设时长的语音信息进行预处理,以确定所述待处理语音信息。
具体地,所述终端设备在获取预设时长的语音信息后,对所述语音信息进行预处理,以确定待处理的语音信息。其中,所述预处理过程可以根据实际需要预先设定,例如可以包括分帧、预增强、加窗、添加随机噪声等处理步骤。在本发明实施例的一个可选的实现方式中,所述语音信息的预处理过程可以为,先对所述语音信息进行分帧处理得到多个长度为一帧的语音信息片段,再对各所述语音信息片段进行预增强以加强高频,同时通过将所述预增强后的语音信息片段输入预设的窗函数以实现所述加窗处理过程,消除各所述语音信息片段两端可能产生的信号不连续性。在进行加窗处理后,还可以通过对语音信息片段添加随机噪声消除所述语音信息在进行数据增强时可能产生的数字错误。由此,所述语音信息在通过预处理后,得到了包括多个帧的待处理语音信息。
图3为本发明实施例对语音信息进行分帧处理的示意图,如图3所示,本发明实施例可以通过交叠分段的方法对所述语音信息30进行分帧处理。所述分帧处理的过程可以为预先确定长度为预设帧长的分帧窗,通过以迭代的方式确定所述分帧窗的位置,在时间轴上获取所述语音信息中与所述分帧窗位置对应的语音信息片段,并在所述分帧过程中保证每一帧与前一帧的一部分重叠。例如,图3中第K帧的末尾部分和第K+1帧的开始部分有重叠,第K+1帧的末尾和第K+2帧的开始部分有重叠。其中所述重叠的部分为帧移,用于避免分帧时设定的分帧窗边界对信号产生遗漏,以保证帧与帧之间平滑过渡以及所述语音信息的连续性。
步骤S200、确定所述待处理语音信息的语音特征信息序列。
具体地,所述语音特征信息序列包括所述待处理语音信息中各帧的语音特征信息,可以通过所述终端设备分别对所述待处理语音信息中各帧进行特征提取确定。其中,所述终端设备提取的语音特征信息可以为Fbank特征、MFCC特征等语音特征。在本发明实施例的一个可选的实现方式中,所述特征提取的过程为分别对所述待处理语音信息中的各帧提取Fbank特征作为语音特征信息,以确定语音特征信息序列。对所述待处理语音信息的各帧提取Fbank特征的过程为先通过傅里叶变换将各帧由时域信号转换为频域信号,再依次经过计算能量谱、滤波以及取对数的处理确定对应的Fbank特征。所述终端设备根据各帧对应的Fbank特征确定语音特征信息序列,所述语音特征信息序列中各Fbank特征的位置对根据对应帧在所述待处理语音信息序列中的位置确定。
步骤S300、根据所述语音特征信息序列确定所述待处理语音信息中各帧对应的帧特征。
具体地,所述终端设备可以根据所述待处理语音信息中各帧在所述语音特征序列中对应的语音特征信息确定对应的帧特征。所述确定帧特征的方式例如可以直接在所述语音特征序列中获取各帧对应的语音特征信息作为帧特征。进一步地,在实际应用过程中,通常会出现一帧无法包含一个完整语音信息的情况。为提高帧特征中包含信息的完整性,在确定帧特征的过程中还需要考虑各帧对应语音特征信息前后位置的至少一个语音特性信息。因此,在本发明实施例的一个可选的实现方式中,所述确定帧特征的过程包括:
步骤S310、确定目标帧。
具体地,所述终端设备在所述待处理语音信息中包括的多个帧中确定目标帧,以进一步确定所述目标帧对应的帧特征。在确定所述目标帧对应的帧特征后再重新确定一个目标帧,直到确定所述待处理语音信息中全部帧对应的帧特征。
步骤S320、确定在时间轴上与所述目标帧存在预定位置关系的至少一个关联帧。
具体地,所述终端设备在确定目标帧所在的位置后,在时间轴上确定与所述目标帧存在预定位置关系的至少一个关联帧,即在所述目标帧位置之前和/或所述目标帧位置之后获取至少一个关联帧。其中,关联帧的位置和数量可以预先设定。例如,设定所述目标帧所在位置之前十帧和之后十帧为关联帧,当所述目标帧为第11帧时,所述待处理语音信息中的第1-10帧以及12-22帧均为关联帧。
进一步地,由于所述目标帧可能位于所述时间轴上的任何位置,因此可能会遇到所述目标帧位置之前或之后的存在的关联帧数量小于需要获取的关联帧数量。在本发明实施例中,所述终端设备可以通过补帧的方式解决关联帧数量不足的问题,即当在时间轴上与所述目标帧存在预定位置关系的关联帧数量比预定数量少P帧,增加P个空帧作为关联帧,P为不小于等于1的整数。例如,当所述目标帧为第一帧,需要确定所述目标帧之前一帧和所述目标帧之后一帧作为关联帧时,确定0和第二帧为关联帧。
步骤S330、根据所述目标帧的语音特征信息和所述关联帧的语音特征信息确定所述目标帧的帧特征。
具体地,在所述语音特征信息序列中获取所述目标帧对应的语音特征信息和所述关联帧对应的语音特征信息,以得到用于表征所述目标帧特征的帧特征。例如,当所述目标帧为第二帧,所述关联帧为第一帧和第三帧,各帧对应的语音特征信息分别为f2、f1和f3时,所述目标帧对应的帧特征为(f1,f2,f3)。进一步地,当所述关联帧中包括0时,确定所述关联帧对应的语音特征信息为0。
图4为本发明实施例确定各帧对应帧特征的示意图,用于表征预先设定目标帧位置之前一帧和之后一帧为关联帧的帧特征确定过程。如图4所示,所述序列(f1,f2,f3,…,fn-2,fn-1,fn)为对应于包括n帧的待处理语音信息的语音特征信息序列,所述终端设备在确定目标帧对应的帧特征时,获取所述目标帧在时间轴上的前一帧和后一帧为关联帧,根据所述目标帧和关联帧确定各帧对应的帧特征。
具体地,当所述目标帧为第一帧时,确定0和第二帧为关联帧,即确定(0,f1,f2)为第一帧对应的帧特征F1;当所述目标帧为第二帧时,确定第一帧和第三帧为关联帧,即确定(f1,f2,f3)为第二帧对应的帧特征F2;当所述目标帧为第n-1帧时,确定第n-2帧和第n帧为关联帧,即确定(fn-2,fn-1,fn)为第n-1帧对应的帧特征Fn-1,;当所述目标帧为第n帧时,确定第fn-1帧和0为关联帧,即确定(fn-1,fn,0)为第一帧对应的帧特征Fn。
步骤S400、将各所述帧特征输入预先训练的字识别模型,以确定各帧的特征字概率向量。
具体地,所述字识别模型为分类模型,所述分类模型中的每一个分类任务对应一个预设特征字,用于确定各所述帧特征和所述预设特征字的匹配概率,即所述帧特征包含的语音信息是所述预设特征字的概率。其中,所述预设特征字可以为单个的中文文字、外语单词等单字、单词,或用于组成单字、单词的外语字母、拼音字母、日语平假名、片假名等。对于一个帧特征,各所述分类任务确定的匹配概率和为1。可选地,所述预设特征字中可以包括一个垃圾字,用于表征除了其他预设特征字之外的任意字。例如,当所述预设特征字包括“我”、“要”、“接”、“单”和用于表征垃圾字的“0”时,所述垃圾词为“我”、“要”、“接”、“单”以外的任意词,将各所述帧特征分别输入所述分类模型中,输出对应的“我”、“要”、“接”、“单”、“0”的匹配概率分别为ai1、ai2、ai3、ai4和ai5。i用于表征帧特征对应帧的位置,例如,将第一帧对应的帧特征输入分类模型后输出a11、a12、a13、a14和a15。
进一步地,所述终端设备在确定各帧特征与各预设特征字的匹配概率后,根据各所述预设特征字的匹配概率确定特征字概率向量。例如当所述第一帧对应的帧特征输入分类模型后输出对应于“我”、“要”、“接”、“单”、“0”的匹配概率分别为a11、a12、a13、a14和a15时,根据预设规则可以确定所述第一帧的特征字概率向量v1为(a11,a12,a13,a14)。可选地,所述终端设备还可以根据各所述预设特征字的匹配概率和垃圾词的匹配概率确定特征字概率向量,仍以所述第一帧对应的帧特征输入分类模型后输出对应于“我”、“要”、“接”、“单”、“0”的匹配概率分别为a11、a12、a13、a14和a15为例进行说明,所述第一帧的特征字概率向量v1为(a11,a12,a13,a14,a15)。
步骤S500、根据各帧的特征字概率向量确定所述待处理语音信息的概率向量序列。
具体地,当确定各帧对应的特征字概率向量vi(1≤i≤n)后,根据各所述特征字概率向量确定所述待处理语音信息的概率向量序列(v1,v2,v3,…,vn)。其中,各所述特征字概率向量在所述概率向量序列中的位置根据对应的帧在时间轴上的位置确定。
可选地,由于所述特征字概率向量可能会由于误差出现较大的波动点,所述终端设备在确定概率向量序列之后,还可以通过对所述概率向量序列进行平滑处理来消除所述概率向量序列中由于误差导致的波动。
图5为本发明实施例确定概率向量序列的示意图,如图5所示,所述Fi(1≤i≤n)为所述待处理语音信息中各帧对应的帧特征,其中i为帧在时间轴上的位置。将各所述帧特征Fi(1≤i≤n)输入字识别模型中以确定对应的特征字概率向量vi(1≤i≤n),再根据对应帧的位置确定各所述特征字概率向量在所述概率向量序列中的位置,以确定所述概率向量序列(v1,v2,v3,…,vn)。
步骤S600、根据具有预设长度的滑动搜索窗搜索所述概率向量序列,以确定所述滑动搜索窗内的概率向量子序列与预设指令词的第一匹配结果。
具体地,所述预设指令词包括以预定顺序排列的至少两个预设特征字,所述通过滑动搜索窗搜索概率向量序列的过程为一个迭代过程,所述搜索过程先确定当前滑动搜索窗,再根据所述当前滑动搜索窗在时间轴上的位置确定对应的概率向量子序列,计算所述当前滑动搜索窗对应的概率向量子序列的置信度,以根据所述置信度确定本次迭代过程的匹配结果,进一步确定所述搜索过程的第一匹配结果。在本发明实施例中,所述滑动搜索窗在每一次迭代过程开始之前在时间轴上根据预定方向滑动一帧,以在确定当前滑动搜索窗时重新确定所述当前滑动搜索窗在时间轴上的位置,获取新的概率向量子序列。当所述滑动搜索窗已经对所述概率向量序列进行了完成的搜索后,即使未出现置信度不小于预设阈值的概率向量子序列,仍然结束整个迭代过程,确定所述第一匹配结果为不匹配。
图6为本发明实施例的搜索概率向量序列的迭代过程示意图,如图6所示,在搜索概率向量序列确定第一匹配结果的迭代过程中,在迭代过程开始时先确定用于本次搜索的当前滑动搜索窗60,再根据所述当前滑动搜索窗在时间轴上的位置获取所述概率向量序列中对应位置内的多个概率向量,以确定用于本次搜索的概率向量子序列61。计算本次迭代过程的概率向量子序列对应的置信度62,并对比所述置信度与预设阈值的大小来确定是否进入下一次迭代过程63。在对比结果为所述置信度不小于预设阈值的情况下,确定所述当前滑动搜索窗内的概率向量子序列与预设指令词匹配,即直接确定所述迭代搜索过程的第一匹配结果为匹配64,结束所述迭代搜索过程。在对比结果为所述置信度小于预设阈值的情况下,将所述滑动搜索窗在时间轴上根据预定方向滑动一帧,再进入下一次循环60,即重新确定下一迭代过程的当前滑动搜索窗位置,以进行下一迭代过程的搜索。
以所述滑动搜索窗的长度为m帧,预定方向由左向右滑动,概率向量序列为(v1,v2,v3,…,vn)为例进行说明。在第一次迭代开始时,所述滑动搜索窗在时间轴上的位置为第一帧到第m帧,确定的概率向量子序列为(v1,v2,…,vm)。在之后每一次迭代开始之前将所述滑动搜索窗向右滑动一帧,即当所述第一次确定的概率向量子序列为(v1,v2,…,vm)对应的置信度小于预设阈值时,将所述滑动搜索窗向右滑动一帧,重新确定当前滑动搜索窗在时间轴上的位置为第二帧到第m+1帧,确定的概率向量子序列为(v2,v3,…,vm+1)。直到存在概率向量子序列对应的置信度不小于预设阈值或获取到的概率向量子序列为最后一个概率向量子序列(vn-m-1,vn-m,…,vn)时,结束所述迭代过程。
在本发明实施例中,所述确定各所述概率向量子序列对应的置信度的过程还可以包括:
步骤S610、根据所述当前滑动搜索窗的概率向量子序列中的各所述特征字概率向量确定各所述特征字在所述当前滑动搜索窗中的特征值。
具体地,在确定各所述特征字在当前滑动搜索窗中特征值时,可以在各所述特征字中根据预定顺序在所述预设指令词中确定目标特征字,以确定所述目标特征字在当前滑动搜索窗中的特征值,再确定下一顺序的特征字为新的目标特征字,以确定所述新的目标特征字在当前滑动搜索窗中的特征值,直到确定所述预设指令词中全部特征字的特征值位置。例如,当所述预设指令词为“我要接单”,其中包括根据预定顺序排序的预设特征字“我”、“要”、“接”和“单”,所述终端设备先确定“我”为目标特征字,以进一步确定“我”在当前滑动搜索窗中的再根据预定顺序依次确定“要”、“接”和“单”为目标特征字,以进一步确定对应的特征值。
在确定目标特征字后,所述终端设备先确定所述目标特征字与所述当前滑动搜索窗内各帧对应的目标匹配概率,以确定对应的目标匹配概率序列,在根据所述目标匹配概率序列确定对应的特征值。其中,当所述目标特征字是所述预设指令词中的第一个预设特征字,即所述目标特征字在时间轴上位于所述预设指令词的第一位时,对比所述当前滑动搜索窗内各帧的特征字概率向量中所述目标特征字的匹配概率,与前一帧的特征字概率向量中与所述目标特征字对应的匹配概率,将所述帧的匹配概率和前一帧对应的匹配概率中较大的匹配概率更新为所述帧对应的匹配概率,并确定所述更新后的匹配概率为目标匹配概率。最后根据所述目标特征字与各帧对应的目标匹配概率确定所述目标特征字对应的目标匹配概率序列。
以所述滑动搜索窗内的概率向量子序列为(v1,v2,…,vm),各所述特征字概率向量中包括对应于所述预设词中各预设特征字w1、w2、…、wj的匹配概率ai1、ai2、ai3、…、aij(1≤i≤m)为例进行说明。当所述目标特征字为w1时,当前滑动搜索窗内各帧的特征字概率向量中所述目标特征字的匹配概率分别为a11、a21、a31、…、am1,所述终端设备对比各帧对应的匹配概率与上一帧的匹配概率,选择其中较大的一个作为所述帧对应的目标匹配概率。例如,第一帧与所述目标特征字的匹配概率为a11,第一帧之前无目标匹配概率,则确定第一帧对应的目标匹配概率a’11为a11。第二帧与所述目标特征字的匹配概率为a21,对比所述a21和第一帧与目标特征字的匹配概率a11,选择其中较大的作为第二帧对应的目标匹配概率,即当a11>a21时,确定所述第二帧对应的目标匹配概率a’21为a11;当a11<a21时,确定所述第二帧对应的目标匹配概率a’21为a21。最后根据所述目标特征字与各帧对应的目标匹配概率确定所述目标特征字对应的目标匹配概率序列(a’11、a’21、a’31、…、a’m1)。
进一步地,当所述目标特征字不是所述预设指令词中的第一个预设特征字,即所述目标特征字在时间轴上位于所述预设指令词的第一位以外的任意位置时,计算所述当前滑动搜索窗内各帧的特征字概率向量中所述目标特征字的匹配概率与前一个预设特征字的目标匹配概率序列中前一帧对应的目标匹配概率的乘积,再对比所述乘积与前一帧的特征字概率向量中与所述目标特征字对应的匹配概率,将所述乘积和前一帧对应的匹配概率中较大的值更新为所述帧对应的匹配概率,并将更新后的匹配概率确定为目标匹配概率。最后根据所述目标特征字与各帧对应的目标匹配概率确定所述目标特征字对应的目标匹配概率序列。
以确定所述目标特征字对应的目标匹配概率序列。仍以所述滑动搜索窗内的概率向量子序列为(v1,v2,…,vm),各所述特征字概率向量中包括对应于所述预设词中各预设特征字w1、w2、…、wj的匹配概率ai1、ai2、ai3、…、aij(1≤i≤m)为例进行说明。当所述目标特征字为w2时,当前滑动搜索窗内各帧的特征字概率向量中所述目标特征字的匹配概率分别为a12、a22、a32、…、am2,所述目标特征字w2的前一个特征字w1对应的目标匹配概率序列为(a’11、a’21、a’31、…、a’m1)。所述终端设备计算所述当前滑动搜索窗内各帧的特征字概率向量中所述目标特征字的匹配概率ai2(1≤i≤m)与前一个预设特征字w1的目标匹配概率序列中前一帧对应的目标匹配概率a’(i-1)1的乘积ai2*a’(i-1)1,再对比所述乘积ai2*a’(i-1)1与前一帧的特征字概率向量中与所述目标特征字对应的匹配概率a(i-1)2,将所述乘积ai2*a’(i-1)1和前一帧对应的匹配概率a(i-1)2中较大的值作为所述帧对应的目标匹配概率。例如,第二帧与所述目标特征字的匹配概率为a22,前一个预设特征字w1的目标匹配概率序列中第一帧对应的目标匹配概率为a’11,计算第二帧与所述目标特征字的匹配概率a22以及前一个预设特征字w1的目标匹配概率序列中第一帧对应的目标匹配概率为a’11的乘积为a22*a’11,对比所述乘积a22*a’11与前一帧即第一帧与所述目标特征字的匹配概率a12,选择其中较大的一个作为所述帧对应的目标匹配概率。即当a22*a’11>a12时,确定所述第二帧与所述目标特征字对应的目标匹配概率a’22为a22*a’11;当a22*a’11<a12时,确定所述第二帧与所述目标特征字对应的目标匹配概率a’22为a12。最后根据所述目标特征字与各帧对应的目标匹配概率确定所述目标特征字对应的目标匹配概率序列(a’12、a’22、a’32、…、a’m2)。
所述终端设备在确定各所述目标特征字对应的目标匹配概率序列后,确定所述目标匹配概率序列中的最后一个目标匹配概率为所述目标特征字对应的特征值。
进一步地,在本发明实施例的实际应用过程中,为减少计算步骤提高计算效率。对于不是所述预设指令词中的第一个预设特征字的目标特征字,可以将前一个预设特征字对应的目标匹配概率序列中第一次出现最大值的位置之前的帧省略或标注为0,不进行计算。直接从所述前一个预设特征字对应的目标匹配概率序列中最大值对应帧位置开始计算当前目标特征字对应的目标匹配概率序列。例如,当所述预设指令词中第一个预设特征字对应的目标匹配概率序列(a’11、a’21、a’31、…、a’m1)中最大值为a’31,在计算第二个预设特征字对应的目标匹配概率序列时,由第三帧位置开始计算,以确定第二个预设特征字对应的目标匹配概率序列为(0、0、a’32、…、a’m2)。
图7为本发明实施例一个实现方式的概率向量子序列的示意图,如图7所示,所述概率向量子序列中包括分别与第一帧、第二帧、第三帧和第四帧对应的4个特征字概率向量v1、v2、v3和v4,各所述特征字概率向量分别为(0.6,0.1,0.1,0.2)、(0.7,0.05,0.1,0.15)、(0.01,0.73,0.06,0.2)和(0.1,0.25,0.6,0.05)。其中,各帧的特征字概率向量中包括的值分别用于表征所述帧与预设的4个预设特征字w1、w2、w3和w4的匹配概率。
具体地,在确定各特征字的特征值时,先依次确定预设特征字w1、w2、w3和w4为目标特征字,以进一步确定对应的目标匹配概率序列。当确定w1为目标特征字时,对于各帧,对比所述帧的特征字概率向量中所述目标特征字的匹配概率与前一帧的特征字概率向量中与所述目标特征字对应的匹配概率,以确定各帧对应的目标匹配概率分别为0.6、0.7、0.7和0.7,进一步确定w1对应的目标匹配概率序列为(0.6,0.7,0.7,0.7)。当确定w2为目标特征字时,由所述目标匹配概率序列中的第一次出现的最大值0.7所在的第二帧开始,计算所述当前滑动搜索窗内各帧的特征字概率向量中所述目标特征字的匹配概率与前一个预设特征字的目标匹配概率序列中前一帧对应的目标匹配概率的乘积,再对比所述乘积与前一帧的特征字概率向量中与所述目标特征字对应的匹配概率,以确定各帧对应的目标匹配概率依次为0.1、0.511和0.511进一步确定w2对应的目标匹配概率序列为(0,0.1,0.511,0.511)。同理,可以依次确定w3对应的目标匹配概率序列为(0,0,0.1,0.3066),w4对应的目标匹配概率序列为(0,0,0,0.2)。最后确定所述预设特征字w1、w2、w3和w4对应的特征值分别为0.7、0.511、0.366和0.2。
步骤S620、将各所述特征值输入预设函数以确定置信度。
具体地,在通过计算确定各所述预设特征字在当前滑动搜索窗内的特征值后,将各所述特征值输入预设函数以确定置信度,所述置信度用于表征所述滑动搜索窗内的概率向量子序列对应的语音信息包含所述预设指令词的可能性。其中,所述预设函数可以根据实际应用的需要预先设定。在本发明实施例的一个可选的实现方式中,所述预设函数可以为
其中,j为预设特征字的数量,a’m1至a’mj分别为j个预设特征字对应的特征值,即通过计算各所述预设特征字对应特征值的积,再计算所述积的j次方根。例如,当预设特征字包括w1、w2、w3和w4,且对应的特征值分别为0.7、0.511、0.366和0.2时,通过将各所述特征值输入预设函数以计算得到所述置信度为0.402。
在所述终端设备确定当前滑动搜索窗内的置信度不小于预设阈值时,确定所述当前滑动搜索窗内的概率向量子序列与预设指令词匹配。当所述置信度小于预设阈值时,进入下一次循环。例如,当所述预设阈值为0.5,当前滑动搜索窗的置信度为0.402时,所述置信度小于预设阈值时,进入下一次循环。当所述预设阈值为0.4,当前滑动搜索窗的置信度为0.402时,所述置信度不小于预设阈值,确定所述当前滑动搜索窗内的概率向量子序列与预设指令词匹配。
步骤S700、根据所述第一匹配结果进行声纹匹配以确定语音指令识别结果。
具体地,在通过滑动搜索确定了所述待处理语音的第一匹配结果后,根据所述第一匹配结果确定是否需要进行声纹匹配。其中,当所述第一匹配结果为未匹配时,结束所述语音指令识别过程;当所述第一匹配结果为匹配时,再通过声纹匹配确定语音指令识别结果。因此,在本发明实施例中,所述确定通过声纹匹配确定语音指令识别结果的过程还可以包括:
步骤S710、响应于所述第一匹配结果为匹配,根据所述搜索结果确定各所述特征字在所述待处理语音信息中的位置,以获取所述位置的待匹配语音信息片段。
具体地,当所述第一匹配结果为匹配时,确定所述第一匹配结果对应的概率向量子序列,以获取预设指令词中各所述预设特征字根据所述概率向量子序列确定的目标匹配概率序列。在各所述预设特征字对应的目标匹配概率序列中确定最大的目标匹配概率第一次出现的位置,以确定各所述预设特征字在所述待处理语音信息中的位置,获取所述位置的待匹配语音信息片段。
以所述第一匹配结果对应的概率向量子序列为(v1,v2,v3,v4,v5,v6),预设指令词中各所述预设特征字为w1、w2和w3,且对应的目标匹配概率序列分别为(0.6,0.7,0.7,0.7,0.7,0.7)、(0,0.1,0.1,0.511,0.511,0.511)和(0,0,0,0.1,0.3066,0.3066)为例进行说明。确定所述预设特征字w1在所述待处理语音信息中的位置为第二帧,所述预设特征字w2在所述待处理语音信息中的位置为第四帧,所述预设特征字w3在所述待处理语音信息中的位置为第五帧。获取所述待处理语音信息中的第二帧、第四帧和第五帧作为待匹配语音信息片段。
步骤S720、根据各所述待匹配语音信息片段进行声纹匹配以确定语音指令识别结果。
具体地,在本发明实施例中需要对各所述待匹配语音信息片段分别进行声纹匹配,以识别各所述待匹配语音信息片段是否对应于期望对象。例如在网约车平台进行语音识别过程中,判断各所述待匹配语音信息片段是否是由司机发出。因此,所述过程可以为分别将各所述待匹配语音信息片段输入训练得到的声纹模型,以确定对应的第二匹配结果。所述第二匹配结果可以为各所述待匹配语音信息片段与所述终端设备中预存的至少一个声纹信息的匹配度,再确定与各所述待匹配语音信息片段匹配度最高的声纹信息为所述第二匹配结果对应的声纹信息。在各所述第二匹配结果对应的声纹信息均为预设的用于表征期望对象声纹特征的目标声纹信息的情况下,即认为各所述待匹配语音信息片段均对应于期望对象,确定所述语音指令识别结果为接收到预定的语音指令。进一步地,在所述声纹匹配的结果为存在声纹信息不对应于目标声纹信息时,可以重新通过预设的滑动搜索窗搜索概率向量序列,或重新获取新的待处理语音信息进行语音指令识别过程。
图8为本发明实施例的语音指令识别方法的数据流程图,如图8所示,所述语音指令识别方法的过程包括先确定待处理语音信息80,对所述待处理语音信息80进行特征提取以确定语音特征信息序列81,再进一步通过帧特征提取在所述语音特征信息序列81中确定所述待处理语音信息80中各帧对应的帧特征82。在确定各帧的帧特征82后根据各帧特征82进行特征字识别,以获取各帧对应的特征字概率向量并确定概率向量序列83。根据预设的滑动搜索窗搜索所述概率向量序列83以确定第一匹配结果84,在所述第一匹配结果84符合预设条件时获取所述待处理语音信息80中的待匹配语音信息片段进行声纹匹配,得到最终的语音指令识别结果85。
本发明实施例所述的方法可以通过第一次匹配过程识别所述待处理语音信息中是否包括预设指令词以及包括预设指令词的位置,再根据第一匹配结果进行声纹匹配以识别所述预设指令词的发声对象,由此通过两次匹配过程排除语音指令识别过程中的干扰因素,提高语音指令识别的准确度。
图9为本发明实施例的语音指令识别装置的示意图,如图9所示,所述语音指令识别装置包括信息获取模块90、第一特征提取模块91、第二特征提取模块92、匹配模块93、概率向量序列确定模块94、搜索模块95和语音识别模块96。
具体地,所述信息获取模块90用于确定待处理语音信息,所述待处理语音信息包括多个帧。所述第一特征提取模块91用于确定所述待处理语音信息的语音特征信息序列,所述语音特征信息序列包括所述待处理语音信息中各帧的语音特征信息。所述第二特征提取模块92用于根据所述语音特征信息序列确定所述待处理语音信息中各帧对应的帧特征。所述匹配模块93用于将各所述帧特征输入预先训练的字识别模型,以确定各帧的特征字概率向量,所述特征字概率向量包括所述帧特征与各预设特征字的匹配概率。所述概率向量序列确定模块94用于根据各帧的特征字概率向量确定所述待处理语音信息的概率向量序列。所述搜索模块95用于根据具有预设长度的滑动搜索窗搜索所述概率向量序列,以确定所述滑动搜索窗内的概率向量子序列与预设指令词的第一匹配结果,其中,所述预设指令词包括以预定顺序排列的至少两个预设特征字。所述语音识别模块96用于根据所述第一匹配结果进行声纹匹配以确定语音指令识别结果。
进一步地,所述信息获取模块包括:
信息接收子模块,用于响应于接收到任务信息,获取预设时长的语音信息;
预处理子模块,用于对所述预设时长的语音信息进行预处理,以确定所述待处理语音信息。
进一步地,所述确定所述待处理语音信息的语音特征信息序列具体为:
分别对所述待处理语音信息中的各帧提取Fbank特征作为语音特征信息,以确定语音特征信息序列。
进一步地,所述第二特征提取模块包括:
目标帧确定子模块,用于确定目标帧;
关联帧确定子模块,用于确定在时间轴上与所述目标帧存在预定位置关系的至少一个关联帧;
特征提取子模块,用于根据所述目标帧的语音特征信息和所述关联帧的语音特征信息确定所述目标帧的帧特征。
进一步地,所述第二特征提取模块还包括:
补帧子模块,用于响应于在时间轴上与所述目标帧存在预定位置关系的关联帧数量比预定数量少P帧,增加P个空帧作为关联帧,P为不小于等于1的整数。
进一步地,所述搜索模块包括:
以迭代方式执行如下步骤的:
搜索窗确定子模块,用于确定当前滑动搜索窗;
子序列确定子模块,用于根据所述当前滑动搜索窗在时间轴上的位置确定对应的概率向量子序列;
置信度计算子模块,用于计算所述当前滑动搜索窗对应的概率向量子序列的置信度;
匹配子模块,用于响应于所述置信度不小于预设阈值,确定所述当前滑动搜索窗内的概率向量子序列与预设指令词匹配;
迭代子模块,用于响应于所述置信度小于预设阈值,进入下一次循环。
进一步地,所述置信度计算子模块包括:
特征值计算单元,用于根据所述当前滑动搜索窗的概率向量子序列中的各所述特征字概率向量确定各所述特征字在所述当前滑动搜索窗中的特征值;
置信度确定单元,用于将各所述特征值输入预设函数以确定置信度。
进一步地,所述特征值计算单元包括:
特征字确定子单元,用于根据预定顺序在所述预设指令词中确定目标特征字;
第一对比子单元,用于响应于所述目标特征字是所述预设指令词中的第一个预设特征字,对比所述当前滑动搜索窗内各帧的特征字概率向量中所述目标特征字的匹配概率,与前一帧的特征字概率向量中与所述目标特征字对应的匹配概率,将所述帧的匹配概率和前一帧对应的匹配概率中较大的匹配概率更新为所述帧对应的匹配概率,并确定所述更新后的匹配概率为目标匹配概率,以确定所述目标特征字对应的目标匹配概率序列;
第一特征值确定子单元,用于确定所述目标匹配概率序列中的最后一个目标匹配概率为所述目标特征字对应的特征值。
进一步地,所述特征值计算单元还包括:
乘积计算子单元,用于响应于所述目标特征字不是所述预设指令词中的第一个预设特征字,计算所述当前滑动搜索窗内各帧的特征字概率向量中所述目标特征字的匹配概率与前一个预设特征字的目标匹配概率序列中前一帧对应的目标匹配概率的乘积;
第二对比子单元,用于对比所述乘积与前一帧的特征字概率向量中与所述目标特征字对应的匹配概率,将所述乘积和前一帧对应的匹配概率中较大的值更新为所述帧对应的匹配概率,并将更新后的匹配概率确定为目标匹配概率,以确定所述目标特征字对应的目标匹配概率序列。
进一步地,所述特征提取子模块包括:
语音片段获取单元,用于响应于所述第一匹配结果为匹配,根据所述搜索结果确定各所述特征字在所述待处理语音信息中的位置,以获取所述位置的待匹配语音信息片段;
语音识别单元,用于根据各所述待匹配语音信息片段进行声纹匹配以确定语音指令识别结果。
进一步地,所述语音识别单元包括:
声纹匹配子单元,用于将各所述待匹配语音信息片段输入训练得到的声纹模型,以确定对应的第二匹配结果;
语音识别子单元,用于响应于各所述第二匹配结果对应的声纹信息均为目标声纹信息,确定所述语音指令识别结果为接收到预定的语音指令。
本发明实施例所述的装置通过确定待处理语音信息中的各帧对应的帧特征,确定各所述帧特征对应的特征字概率向量以得到概率向量序列,根据预定的滑动搜索窗搜索所述概率向量序列以确定所述滑动搜索窗内的概率向量子序列与预设指令词的第一匹配结果,再根据第一匹配结果再进行声纹匹配以确定语音指令识别结果。本发明实施例可以通过第一次匹配过程识别所述待处理语音信息中是否包括预设指令词以及包括预设指令词的位置,再根据第一匹配结果进行声纹匹配以识别所述预设指令词的发声对象,由此通过两次匹配过程排除语音指令识别过程中的干扰因素,提高语音指令识别的准确度。
图10是本发明实施例的电子设备的示意图。图10所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器100和存储器101。处理器100和存储器101通过总线102连接。存储器101适于存储处理器100可执行的指令或程序。处理器100可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器100通过执行存储器101所存储的命令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线102将上述多个组件连接在一起,同时将上述组件连接到显示控制器103和显示装置以及输入/输出(I/O)装置104。输入/输出(I/O)装置104可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出(I/O)装置104通过输入/输出(I/O)控制器105与系统相连。
其中,存储器101可以存储软件组件,例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。
上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解,流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
同时,如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本发明的方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
本发明还涉及一种计算机可读存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种语音指令识别方法,其特征在于,所述方法包括:
确定待处理语音信息,所述待处理语音信息包括多个帧;
确定所述待处理语音信息的语音特征信息序列,所述语音特征信息序列包括所述待处理语音信息中各帧的语音特征信息;
根据所述语音特征信息序列确定所述待处理语音信息中各帧对应的帧特征;
将各所述帧特征输入预先训练的字识别模型,以确定各帧的特征字概率向量,所述特征字概率向量包括所述帧特征与各预设特征字的匹配概率;
根据各帧的特征字概率向量确定所述待处理语音信息的概率向量序列;
根据具有预设长度的滑动搜索窗搜索所述概率向量序列,以确定所述滑动搜索窗内的概率向量子序列与预设指令词的第一匹配结果,其中,所述预设指令词包括以预定顺序排列的至少两个预设特征字;
根据所述第一匹配结果进行声纹匹配以确定语音指令识别结果。
2.根据权利要求1所述的方法,其特征在于,所述确定待处理语音信息包括:
响应于接收到任务信息,获取预设时长的语音信息;
对所述预设时长的语音信息进行预处理,以确定所述待处理语音信息。
3.根据权利要求1所述的方法,其特征在于,所述确定所述待处理语音信息的语音特征信息序列具体为:
分别对所述待处理语音信息中的各帧提取Fbank特征作为语音特征信息,以确定语音特征信息序列。
4.根据权利要求1所述的方法,其特征在于,所述根据所述语音特征信息序列确定所述待处理语音信息中各帧对应的帧特征包括:
确定目标帧;
确定在时间轴上与所述目标帧存在预定位置关系的至少一个关联帧;
根据所述目标帧的语音特征信息和所述关联帧的语音特征信息确定所述目标帧的帧特征。
5.根据权利要求4所述的方法,其特征在于,所述根据所述语音特征信息序列确定所述待处理语音信息中各帧对应的帧特征还包括:
响应于在时间轴上与所述目标帧存在预定位置关系的关联帧数量比预定数量少P帧,增加P个空帧作为关联帧,P为不小于等于1的整数。
6.根据权利要求1所述的方法,其特征在于,所述根据具有预设长度的滑动搜索窗搜索所述概率向量序列,以确定所述滑动搜索窗内的概率向量子序列与预设指令词的第一匹配结果包括:
以迭代方式执行如下步骤:
确定当前滑动搜索窗;
根据所述当前滑动搜索窗在时间轴上的位置确定对应的概率向量子序列;
计算所述当前滑动搜索窗对应的概率向量子序列的置信度;
响应于所述置信度不小于预设阈值,确定所述当前滑动搜索窗内的概率向量子序列与预设指令词匹配;
响应于所述置信度小于预设阈值,进入下一次循环。
7.根据权利要求6所述的方法,其特征在于,所述计算所述当前滑动搜索窗对应的概率向量子序列的置信度包括:
根据所述当前滑动搜索窗的概率向量子序列中的各所述特征字概率向量确定各所述特征字在所述当前滑动搜索窗中的特征值;
将各所述特征值输入预设函数以确定置信度。
8.根据权利要求7所述的方法,其特征在于,所述根据所述当前滑动搜索窗的概率向量子序列中的各所述特征字概率向量确定各所述特征字在所述当前滑动搜索窗中的特征值包括:
根据预定顺序在所述预设指令词中确定目标特征字;
响应于所述目标特征字是所述预设指令词中的第一个预设特征字,对比所述当前滑动搜索窗内各帧的特征字概率向量中所述目标特征字的匹配概率,与前一帧的特征字概率向量中与所述目标特征字对应的匹配概率,将所述帧的匹配概率和前一帧对应的匹配概率中较大的匹配概率更新为所述帧对应的匹配概率,并确定所述更新后的匹配概率为目标匹配概率,以确定所述目标特征字对应的目标匹配概率序列;
确定所述目标匹配概率序列中的最后一个目标匹配概率为所述目标特征字对应的特征值。
9.根据权利要求8所述的方法,其特征在于,所述根据所述当前滑动搜索窗的概率向量子序列中的各所述特征字概率向量确定各所述特征字在所述当前滑动搜索窗中的特征值还包括:
响应于所述目标特征字不是所述预设指令词中的第一个预设特征字,计算所述当前滑动搜索窗内各帧的特征字概率向量中所述目标特征字的匹配概率与前一个预设特征字的目标匹配概率序列中前一帧对应的目标匹配概率的乘积;
对比所述乘积与前一帧的特征字概率向量中与所述目标特征字对应的匹配概率,将所述乘积和前一帧对应的匹配概率中较大的值更新为所述帧对应的匹配概率,并将更新后的匹配概率确定为目标匹配概率,以确定所述目标特征字对应的目标匹配概率序列。
10.根据权利要求1所述的方法,其特征在于,所述根据所述第一匹配结果进行声纹匹配以确定语音指令识别结果包括:
响应于所述第一匹配结果为匹配,根据所述搜索结果确定各所述特征字在所述待处理语音信息中的位置,以获取所述位置的待匹配语音信息片段;
根据各所述待匹配语音信息片段进行声纹匹配以确定语音指令识别结果。
11.根据权利要求10所述的方法,其特征在于,所述根据各所述待匹配语音信息片段进行声纹匹配以确定语音指令识别结果包括:
将各所述语音信息片段输入训练得到的声纹模型,以确定对应的第二匹配结果;
响应于各所述第二匹配结果对应的声纹信息均为目标声纹信息,确定所述语音指令识别结果为接收到预定的语音指令。
12.一种语音指令识别装置,其特征在于,所述装置包括:
信息获取模块,用于确定待处理语音信息,所述待处理语音信息包括多个帧;
第一特征提取模块,用于确定所述待处理语音信息的语音特征信息序列,所述语音特征信息序列包括所述待处理语音信息中各帧的语音特征信息;
第二特征提取模块,用于根据所述语音特征信息序列确定所述待处理语音信息中各帧对应的帧特征;
匹配模块,用于将各所述帧特征输入预先训练的字识别模型,以确定各帧的特征字概率向量,所述特征字概率向量包括所述帧特征与各预设特征字的匹配概率;
概率向量序列确定模块,用于根据各帧的特征字概率向量确定所述待处理语音信息的概率向量序列;
搜索模块,用于根据具有预设长度的滑动搜索窗搜索所述概率向量序列,以确定所述滑动搜索窗内的概率向量子序列与预设指令词的第一匹配结果,其中,所述预设指令词包括以预定顺序排列的至少两个预设特征字;
语音识别模块,用于根据所述第一匹配结果进行声纹匹配以确定语音指令识别结果。
13.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-11中任一项所述的方法。
14.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010515168.1A CN111833867B (zh) | 2020-06-08 | 2020-06-08 | 语音指令识别方法、装置、可读存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010515168.1A CN111833867B (zh) | 2020-06-08 | 2020-06-08 | 语音指令识别方法、装置、可读存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833867A true CN111833867A (zh) | 2020-10-27 |
CN111833867B CN111833867B (zh) | 2023-12-05 |
Family
ID=72898528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010515168.1A Active CN111833867B (zh) | 2020-06-08 | 2020-06-08 | 语音指令识别方法、装置、可读存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833867B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763960A (zh) * | 2021-11-09 | 2021-12-07 | 深圳市友杰智新科技有限公司 | 模型输出的后处理方法、装置和计算机设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6697782B1 (en) * | 1999-01-18 | 2004-02-24 | Nokia Mobile Phones, Ltd. | Method in the recognition of speech and a wireless communication device to be controlled by speech |
US20050159951A1 (en) * | 2004-01-20 | 2005-07-21 | Microsoft Corporation | Method of speech recognition using multimodal variational inference with switching state space models |
US20090138296A1 (en) * | 2007-11-27 | 2009-05-28 | Ebay Inc. | Context-based realtime advertising |
JP2012032538A (ja) * | 2010-07-29 | 2012-02-16 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、音声認識装置及び音声認識プログラム |
CN107331400A (zh) * | 2017-08-25 | 2017-11-07 | 百度在线网络技术(北京)有限公司 | 一种声纹识别性能提升方法、装置、终端及存储介质 |
CN110364166A (zh) * | 2018-06-28 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 实现语音信号识别的电子设备 |
CN110534099A (zh) * | 2019-09-03 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
KR20190136369A (ko) * | 2018-05-30 | 2019-12-10 | 연세대학교 산학협력단 | 오토마타 기반 실시간 확률 패턴 매칭 장치 및 방법 |
CN110838289A (zh) * | 2019-11-14 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
-
2020
- 2020-06-08 CN CN202010515168.1A patent/CN111833867B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6697782B1 (en) * | 1999-01-18 | 2004-02-24 | Nokia Mobile Phones, Ltd. | Method in the recognition of speech and a wireless communication device to be controlled by speech |
US20050159951A1 (en) * | 2004-01-20 | 2005-07-21 | Microsoft Corporation | Method of speech recognition using multimodal variational inference with switching state space models |
US20090138296A1 (en) * | 2007-11-27 | 2009-05-28 | Ebay Inc. | Context-based realtime advertising |
JP2012032538A (ja) * | 2010-07-29 | 2012-02-16 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、音声認識装置及び音声認識プログラム |
CN107331400A (zh) * | 2017-08-25 | 2017-11-07 | 百度在线网络技术(北京)有限公司 | 一种声纹识别性能提升方法、装置、终端及存储介质 |
KR20190136369A (ko) * | 2018-05-30 | 2019-12-10 | 연세대학교 산학협력단 | 오토마타 기반 실시간 확률 패턴 매칭 장치 및 방법 |
CN110364166A (zh) * | 2018-06-28 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 实现语音信号识别的电子设备 |
CN110534099A (zh) * | 2019-09-03 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
CN110838289A (zh) * | 2019-11-14 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763960A (zh) * | 2021-11-09 | 2021-12-07 | 深圳市友杰智新科技有限公司 | 模型输出的后处理方法、装置和计算机设备 |
CN113763960B (zh) * | 2021-11-09 | 2022-04-26 | 深圳市友杰智新科技有限公司 | 模型输出的后处理方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111833867B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN110415679B (zh) | 语音纠错方法、装置、设备和存储介质 | |
CN110689881B (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN110163181B (zh) | 手语识别方法及装置 | |
CN110060674B (zh) | 表格管理方法、装置、终端和存储介质 | |
CN113094559B (zh) | 信息匹配方法、装置、电子设备和存储介质 | |
US9189708B2 (en) | Pruning and label selection in hidden markov model-based OCR | |
CN109785829B (zh) | 一种基于语音控制的客服辅助方法和系统 | |
CN112988753B (zh) | 一种数据搜索方法和装置 | |
CN111428011B (zh) | 词语的推荐方法、装置、设备及存储介质 | |
CN109062891B (zh) | 媒体处理方法、装置、终端和介质 | |
CN113128209A (zh) | 用于生成词库的方法及装置 | |
CN110874532A (zh) | 提取反馈信息的关键词的方法和装置 | |
CN109688271A (zh) | 联系人信息输入的方法、装置及终端设备 | |
CN114758330A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
US20220207286A1 (en) | Logo picture processing method, apparatus, device and medium | |
CN111833867B (zh) | 语音指令识别方法、装置、可读存储介质和电子设备 | |
CN106896936B (zh) | 词汇推送方法和装置 | |
CN112581297A (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
CN111858966A (zh) | 知识图谱的更新方法、装置、终端设备及可读存储介质 | |
CN116151194A (zh) | 中文通用语言的生成方法、装置、设备及存储介质 | |
CN111310442B (zh) | 形近字纠错语料挖掘方法、纠错方法、设备及存储介质 | |
CN110929749B (zh) | 文本识别方法、装置、介质及电子设备 | |
JP2021197165A (ja) | 情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 | |
CN114549695A (zh) | 图像生成方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |