CN110767214A

CN110767214A - 语音识别方法及其装置和语音识别系统

Info

Publication number: CN110767214A
Application number: CN201810848234.XA
Authority: CN
Inventors: 陈展; 齐昕
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2020-02-07

Abstract

本发明公开了一种语音识别装置及其装置和语音识别系统，该方法包括：对获取的音频信号进行特征提取，得到多个语音特征值；将所述多个语音特征值输入到声学模型中进行识别，得到多个发音音素的概率；根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率；判断组成所述预设关键词的概率是否大于概率阈值，若是，则确定所述音频信号中存在所述预设关键词。该方法可以降低语音识别的计算量，降低应用该识别方法的硬件要求。

Description

语音识别方法及其装置和语音识别系统

技术领域

本发明涉及语音识别技术领域，尤其涉及语音识别装置及其装置和语音识别系统。

背景技术

语音识别技术为一种能够对语音数据进行识别的技术，语音识别技术可应用于人机交互设备、安防监控系统等领域。

目前有一种语音识别方法中可以对采集的连续语音数据进行识别后转换为文本文字，然后从文本文字中提取关键词，根据提取的关键词进行对应的处理，这种语音识别方法计算量较大，对硬件的要求较高。

发明内容

本发明提供一种语音识别方法及其装置和语音识别系统，以解决相关技术中的不足。

根据本发明实施例的第一方面，提供一种语音识别方法，包括：

对获取的音频信号进行特征提取，得到多个语音特征值；

将所述多个语音特征值输入到声学模型中进行识别，得到多个发音音素的概率；

根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率；

判断组成所述预设关键词的概率是否大于概率阈值，若是，则确定所述音频信号中存在所述预设关键词。

可选的，在所述对获取的音频信号进行特征提取，得到多个语音特征值之前，还包括；

判断所述音频信号中是否存在语音信号；

若是，则执行对获取的音频信号进行特征提取，得到多个语音特征值的步骤。

可选的，在确定所述音频信号中存在所述预设关键词之后，还包括：

判断确定出的所述预设关键词是否属于预警关键词；

若是，通过监控设备拍摄图像和/或录制视频，根据所述图像或者所述视频进行人脸检测或行为检测。

可选的，在判断确定出的所述预设关键词属于预警关键词之后，还包括：

获取所述监控设备的标识信息；

根据所述标识信息获取所述监控设备所在地址。

根据本发明实施例的第二方面，提供一种语音识别装置，包括：

语音特征值提取单元，用于对获取的音频信号进行特征提取，得到多个语音特征值；

发音音素概率获取单元，用于将所述多个语音特征值输入到声学模型中进行识别，得到多个发音音素的概率；

关键词概率获取单元，用于根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率；

关键词确定单元，用于判断组成所述预设关键词的概率是否大于概率阈值，若是，则确定所述音频信号中存在所述预设关键词。

可选的，还包括：语音信号判断单元，用于判断所述音频信号中是否存在语音信号，若是，则执行对获取的音频信号进行特征提取的步骤。

可选的，还包括：

预警关键词判断单元，用于判断确定出的所述预设关键词是否属于预警关键词，若是，通过监控设备拍摄图像和/或录制视频，根据所述图像或者所述视频进行人脸检测和/或行为检测。

可选的，还包括：

地址获取单元，用于获取所述监控设备的标识信息；以及根据所述标识信息获取所述监控设备所在地址。

根据本发明实施例的第三方面，提供一种语音识别系统，该系统包括：麦克风、图像传感器和语音识别装置；

所述麦克风，用于采集音频信号，并将所述音频信号发送给所述语音识别装置；

所述语音识别装置用于对获取的音频信号进行特征提取，得到多个语音特征值；将所述多个语音特征值输入到声学模型中进行识别，得到多个发音音素的概率；根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率；判断组成所述预设关键词的概率是否大于概率阈值，若是，则确定所述音频信号中存在所述预设关键词，向所述图像传感器发送指示信息；

所述图像传感器，用于根据所述指示信息拍摄图像或者录制视频。

可选的，所述麦克风，用于将所述麦克风的标识信息和所述音频信号发送给所述语音识别装置；

所述语音识别装置，根据所述标识信息指示相应的图像传感器拍摄图像和/或录制视频。

可选的，所述系统还包括报警装置；

所述语音识别装置，根据所述标识信息指定相应的图像传感器拍摄图像和/或录制视频，根据所述图像或者所述视频进行人脸检测和/或行为检测，在检测结果达到预设条件时，根据所述标识信息确定所述麦克风和/或所述图像传感器所在的地址，将所述地址发送给报警装置；

所述报警装置，用于根据所述检测结果和所述地址，通过图案或语音进行报警。

根据上述技术方案可知，该语音识别方法，可通过声学模型得到音频信号中多个发音音素的概率，然后根据多个发音音素的概率得到其中若干个连续发音音素组成预设关键词的概率，该方法不需要对音频信号中的各个语音发音对应的词语全部识别出来，只需要确定连续发音音素是否可以组成预设关键词，因此，可以降低语音识别的计算量，可以降低应用该识别方法的硬件要求，不仅可以在服务器上应用，也可以应用在监控设备上，适用于安防监控领域中通过语音识别对某些敏感的关键词进行监控。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据本发明一实施例提供的语音识别方法的工作流程图；

图2是根据本发明另一实施例提供的语音识别方法的工作流程图；

图3是根据本发明又一实施例提供的语音识别装置的方框图；

图4是根据本发明一实施例提供的监控设备的硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

针对相关语音识别方法计算量较大，对硬件的要求较高的问题，本发明实施例提供一种语音识别方法，如图1所示，该方法包括：

步骤S10、对获取的音频信号进行特征提取，得到多个语音特征值；

步骤S20、将多个语音特征值输入到声学模型中进行识别，得到多个发音音素的概率；

步骤S30、根据多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率；

步骤S40、判断组成预设关键词的概率是否大于概率阈值，若是，则确定音频信号中存在预设关键词。

上述的方法可以应用在监控设备或者服务器上，监控设备例如为应用在安防监控技术中摄像装置，摄像装置例如为，摄像机、摄像头、云台相机等，监控设备作为一种前端设备，可以布置在所需的监控场景中，在监控场景中可以布置一台或者多台监控设备。监控设备通常为摄像装置，可通过摄像装置采集监控场景的视频图像，还可以将采集的视频图像发送给后端的服务器等，以通过服务器执行上述方法，服务器还可以供监控人员存储或者观看监控场景的画面。

摄像装置不仅可以采集视频图像，还可以采集音频信号，通过对音频信号进行识别可以作为一种重要的安防监控手段。

对于获取的音频信号可以采用已有的语音识别技术对其采集的音频信号进行语音识别处理，得到多个语音特征值，具体而言，对于音频信号可按照一定间隔时间(例如25ms的帧长)，帧移等提取音频信号中的语音特征值，语音特征值为反应人语音的音色、频率、波长等声音的特征，可以基于梅尔标度滤波器组(Mel-scale Filter Bank)获取梅尔频率语音特征值，并且由于音频信号为一个时变的信号，可以进一步的对提取的多个语音特征值按照一定窗长进行加窗处理，并采用交叠分段的方法进行堆叠处理等，将得到的多个语音特征值作为声学模型的输入。

并且由于音频信号为一个时变的信号，可以进一步的对提取的多个语音特征值按照一定窗长进行加窗处理，并采用交叠分段的方法进行堆叠处理等，将得到的多个语音特征值作为声学模型的输入。

声学模型为通过语音特征值进行检测得到语音中各发音音素的概率的模型，该模型可以为基于深度学习的神经网络模型，该声学模型可以为精简的深度学习模型，具有高检出率、低误检率和低功耗的特点，更加适合在监控设备上使用。

声学模型可利用通用的语音数据进行训练得到，可避免针对包括不同关键词的语音进行语音素材数据搜索的工作量，可支持用户根据不同监控场景的要求自定义不同数量的关键词，便于使用不同监控场景，同时，也可以利用包含特定关键词的语音数据对声学模型进行区分性训练，收敛后对模型进行在线更新，可提升声学模型对包含特定关键词的语音数据的识别率。

将多个语音特征值输入到声学模型中可以得到多个发音音素的概率，发音音素指构成语音的结构单元，指人发音时可以区分清楚的基本语音单元，可以音节为单位，例如汉语语音中一个汉字的发音通常有一个发音音素，英语语音中的一个单词可以有一个或者多个发音音素，例如，对于“好”字的语音其发音音素为音节“hao”，英文单词“hello”的语音其发音音素为

英文单词“internation”的语音其发音音素可以为两个：

和

声学模型可以根据语音特征值识别出语音中多个发音音素的概率，然后对多个发音音素的概率进行进一步的处理，计算将若干个连续发音音素组成预设关键词的概率，关键词指能够独立表达词义的词组，可以由一个汉字或者单词组成，也可以由多个汉字或单词组成。

具体而言，可预设一关键词列表，该关键词列表中包括用户关心的各个关键词，对于多个发音音素可以对其中若干个连续的发音音素进行组合，组合成一个或多个词组，将组成的词组与关键词列表中的关键词进行比较，如果能组合成关键词列表中的关键词，可根据组合该关键词的发音音素的概率进一步的计算组成该关键词的概率，即得到预设关键词的概率，并且，将预设关键词的概率与概率阈值进行比较，如果是，则确定音频信号中存在该预设关键词，如否，则确定音频信号中不存在该预设关键词。

本领域技术人员可以理解的是，概率阈值的选取可以通过多次实验得到的经验值进行确定，本申请在此不再详述。

举例来说，得到的四个发音音素的概率例如为，“you”音节的概率为0.8，“ren”音节的概率为0.7，“qiang”音节的概率为0.6，“jie”音节的概率为0.7，上述四个发音音素中对于连续两个发音音素(即两个音节)“you”和“ren”组成的词语可能为“有人”或者“友人”，对于连续两个发音音素“qiang”和“jie”组成的词组可能为“抢劫”或者“枪机”，由于上述四个发音音素是连续的，在时间上具有关联性，根据各发音音素的上下文语义等进一步的进行路径搜索，采用统计学算法等可以计算出其中两个发音音素“qiang”和“jie”组成关键词列表中的关键词“抢劫”的概率例如为0.75，若概率阈值为0.5，则可以判断出预设关键词的概率0.75大于概率阈值0.5，因此，可以确定音频信号中存在预设关键词“抢劫”。

上述只是举例说明获取预设关键词的概率及确定音频信号中是否存在预设关键词的方法，但并不限于上述方法。

由上述描述可知，该语音识别方法，可通过声学模型得到音频信号中多个发音音素的概率，然后根据多个发音音素的概率得到其中若干个连续发音音素组成预设关键词的概率，该方法不需要对音频信号中的各个语音发音对应的词语全部识别出来，只需要确定连续发音音素是否可以组成预设关键词，因此，可以降低语音识别的计算量，可以降低应用该识别方法的硬件要求，不仅可以在服务器上应用，也可以应用在监控设备上，特别适用于安防监控领域中通过语音识别对某些敏感的关键词进行监控。

在一个可选的实施方式中，如图2所示，上述步骤S10所述的在对获取的音频信号进行特征提取，得到多个语音特征值之前，还包括；

步骤S110、判断音频信号中是否存在语音信号，若是，则执行上述步骤S10。

在通过监控设备或者麦克风等音频采集装置采集音频信号时，可能采集到各种类型的音频信号，例如，当该采集装置设置在外部环境中时，可能采集到刮风引起的风声的音频信号，或者车辆行驶过程中产生的车轮声音的音频信号或者车辆的喇叭声的音频信号等，如果对这些音频信号均进行语音识别，即进行特征提取、发音音素的概率的确定、组成预设关键词概率的计算，判断是否存在预设关键词等步骤，会造成大量无意义的识别计算，会增加后续计算的负荷，因此，本实施例中，对于采集装置采集到的音频信号首先进行判断，判断该音频信号中是否存在语音信号，即由于人发声产生的语音信号，当存在语音信号时，才进行后续的语音识别步骤，这样可以有效降低监控设备的计算负荷和功耗。

对于判断音频信号中是否存在语音信号的方法，可以采用已有的音频算法，可能根据人发声的音色、频率、波长等特征与风声或者机械声音特征的区别进行判断，例如，可以为基于深度学习的深度神经网络算法，该算法只需要对音频信号中是否存在语音信号进行判断即可，不需要识别出音频信号的具体内容，该算法简单，在监控设备启动会后可一直处于工作状态。在一些例子中，如图2所示，上述步骤S40所述的在确定所述音频信号中存在所述预设关键词之后，还包括：

步骤S50、判断确定出的预设关键词是否属于预警关键词；

步骤S51、若是，通过监控设备拍摄图像和/或录制视频，根据图像或者视频进行人脸检测或行为检测。

确定出的上述预设关键词可以包括多种类型的关键词，对于确定出的预设关键词可以进行不同的处理，例如，预设关键词可能是对监控设备执行控制命令的关键词，例如，音频信号中包含“左转60°”的预设关键词，确定出该预设关键词后，监控设备可执行对应的“左转60°”的控制命令，监控设备自动“左转60°”。

对于安防监控而言，会存在一些与安防事件有关的预警关键词，这些预警关键词为需要引起注意或者可能存在危险情况的关键词，例如：“救命”、“着火”、“抢劫”、“小偷”、“来人”等词语，当预设关键词为预警关键词时，控制监控设备执行抓拍功能或者录像功能，监控设备拍摄图像和/或录制视频，拍摄的图像或者录制的视频可以反映所在场景的画面，可根据该图像或者视频进行人脸检测或者行为检测以获取所在场景的行为人信息。具体而言可通过人脸识别算法进行人脸检测或者通过行为识别算法进行行为检测，以获取所在场景的行为人的人脸信息、行为动作信息或者移动轨迹等行为人信息，对获得的行为人信息进行后续处理，例如，如果预警关键词为抢劫或者小偷等，可进一步的将拍摄的图像或者录制的视频、以及行为人信息等上传到公安系统的监控中心，以使相关部门进行对应的处理；如果预警关键词为着火或者救命等，进一步的根据拍摄的图像或者录制的视频、以及行为人信息等确定存在紧急事件，可以进一步生成报警信号，例如，控制报警灯闪烁或者扬声器发出声音，或者显示报警文字或者报警标识等，以提醒相关人员采取应对措施。

在拍摄到所在场景的图像和/或对所在场景录制视频后，可以由前端的监控设备进行人脸检测或者行为检测获取所在场景的行为人信息；或者是为了降低前端的监控设备的计算负荷，可将上述的图像和/或视频发送给服务器，由服务器根据图像或视频进行人脸检测或者行为检测获取所在场景的行为人信息。

在一些例子中，上述步骤S51所述的在确定音频信号中存在预设关键词之后，还包括：

步骤S52、获取监控设备的标识信息；

步骤S53、根据标识信息获取监控设备所在地址。

在确定出的预设关键词为预警关键词后，可以进一步的获取监控设备的标识信息，该标识信息可以为监控设备的编号或者MAC地址等，可根据该标识信息定位监控设备所在地址，而通过监控设备所在地址可以大致定位出监控设备所在场景的地址，也即确定可能发生预警事件的地址，以便快速定位到发生预警时间的地点，给安防监控提供有利信息。

本发明实施例还提供了一种语音识别装置，如图3所示，该语音识别装置03包括：

语音特征值提取单元301，用于对获取的音频信号进行特征提取，得到多个语音特征值；

发音音素概率获取单元302，用于将所述多个语音特征值输入到声学模型中进行识别，得到多个发音音素的概率；

关键词概率获取单元303，用于根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率；

关键词确定单元304，用于判断组成所述预设关键词的概率是否大于概率阈值，若是，则确定所述音频信号中存在所述预设关键词。

在一个可选的实施方式中，该语音识别单元还可以包括：

语音信号判断单元，用于判断采集的音频信号中是否存在语音信号，若是，则执行对获取的音频信号进行特征提取的步骤。

可选的，该语音识别单元还可以包括：

在一个可选的实施方式中，该语音识别单元还可以包括：

地址获取送单元，用于获取所述监控设备的标识信息；以及根据所述标识信息获取所述监控设备所在地址。

与前述语音识别方法的实施例相对应，本发明提供的语音识别装置，可以降低语音识别的计算量，可以降低应用该识别方法的硬件要求，不仅可以在服务器上应用，也可以应用在监控设备上，特别适用于安防监控领域中通过语音识别对某些敏感的关键词进行监控。

对于装置实施例而言，其中各个单元或子单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上；上述各单元可以合并为一个单元，也可以进一步拆分成多个子单元。

通过以上的实施方式的描述，本实施例的装置可借助软件的方式实现，或者软件加必需的通用硬件的方式来实现，当然也可以通过硬件实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，以软件实现为例，作为一个逻辑意义上的装置，是通过应用该装置的设备所在的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例所述方法的步骤。

参见图4，本发明还提供一种电子设备的硬件架构图，该电子设备包括：通信接口101、处理器102、机器可读存储介质103和总线104；其中，通信接口101、处理器102和机器可读存储介质103通过总线104完成相互间的通信。处理器102通过读取并执行机器可读存储介质102中与语音识别方法的控制逻辑对应的机器可执行指令，可执行上文描述的语音写入方法。

本文中提到的机器可读存储介质103可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

此外，电子设备可以为各种终端设备或者后端设备，例如摄像机、服务器、移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

本申请实施例还提供了一种语音识别系统，包括：麦克风、图像传感器和语音识别装置；

所述语音识别装置用于对获取的音频信号进行特征提取，得到多个语音特征值；将所述多个语音特征值输入到声学模型中进行识别，得到多个发音音素的概率；根据所述多个发音音素的概率获取其中若干个连续发音音素组成预设关键词的概率；判断组成所述预设关键词的概率是否大于概率阈值，若是，则确定所述音频信号中存在所述预设关键词，向所述图像采集装置发送指示信息；

本实施例中，由麦克风采集音频信号，并发送给语音识别装置，语音识别装置根据获取的音频信号进行语音识别。

具体的，该系统中的麦克风、图像传感器和语音识别装置可以为分别为独立的设置，此时，语音识别装置可以为独立设置的监控设备或者服务器等；或者麦克风、图像传感器和语音识别装置也可以同时集成在一个设备中，该设备可以为监控设备或者服务器等；本实施例中，不对此作出限定。

在另外一种实施方式中，该系统中，所述麦克风，用于将所述麦克风的标识信息和所述音频信号发送给所述语音识别装置；

本实施例中，麦克风的数量可以为两个以上的多个麦克风，各麦克风可以设置在不同的位置，图像传感器的数量也可以为多个，各图像传感器分别设置不同的位置，可在相同的位置均设置有麦克风和图像传感器。

各麦克风分别将其标识信号和采集音频信号发送给语音识别装置，当语音识别装置从其中一个或者多个音频信号中识别出其中存在预设关键词时，语音识别装置进一步的可获取采集该音频信号的麦克风的标识信息，语音识别装置根据该麦克风的标识信息可以获取与该麦克风位于相同位置或附近位置的相应图像传感器，进而，指示相应的图像传感器拍摄图像和/或录制视频。

在一些例子中，该系统还包括报警装置；

本实施例中，语音识别装置还可以根据获取的图像或视频进行人脸检测或者行为检测，当检测结果达到预设条件，即当检测出预设关键词属于预警关键词时，进一步根据上述获取的标识信息确定对应的麦克风和/或图像传感器所在的地址，将该地址发送给报警装置，报警装置据此可进行报警，报警装置可通过生成图案的方式或者通过发出语音的方式进行报警。报警装置可以为单独设置的报警设备，例如扬声器或者显示屏等，或者报警装置也可以集成在上述的语音识别装置中，语音识别装置例如为监控设备或者服务器等，利用监控设备或者服务器上的扬声器或者显示屏等进行报警。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

Claims

1.一种语音识别方法，其特征在于，包括：

对获取的音频信号进行特征提取，得到多个语音特征值；

2.根据权利要求1所述的方法，其特征在于，在所述对获取的音频信号进行特征提取，得到多个语音特征值之前，还包括；

判断所述音频信号中是否存在语音信号；

3.根据权利要求1或2或所述的方法，其特征在于，在确定所述音频信号中存在所述预设关键词之后，还包括：

判断确定出的所述预设关键词是否属于预警关键词；

若是，通过监控设备拍摄图像和/或录制视频，根据所述图像或者所述视频进行人脸检测和/或行为检测。

4.根据权利要求3所述的方法，其特征在于，在判断确定出的所述预设关键词属于预警关键词之后，还包括：

获取所述监控设备的标识信息；

根据所述标识信息获取所述监控设备所在地址。

5.一种语音识别装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，还包括：

语音信号判断单元，用于判断所述音频信号中是否存在语音信号，若是，则执行对获取的音频信号进行特征提取的步骤。

7.根据权利要求5或6所述的装置，其特征在于，还包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.一种语音识别系统，其特征在，该系统包括：麦克风、图像传感器和语音识别装置；

10.如权利要求9所述的系统，其特征在于，所述麦克风，用于将所述麦克风的标识信息和所述音频信号发送给所述语音识别装置；

11.如权利要求10所述的系统，其特征在于，所述系统还包括报警装置；