CN116013260A - 一种关键字识别方法及装置、电子设备、存储介质 - Google Patents

一种关键字识别方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN116013260A
CN116013260A CN202211699930.1A CN202211699930A CN116013260A CN 116013260 A CN116013260 A CN 116013260A CN 202211699930 A CN202211699930 A CN 202211699930A CN 116013260 A CN116013260 A CN 116013260A
Authority
CN
China
Prior art keywords
keyword
recognition result
voice
lip
keyword recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211699930.1A
Other languages
English (en)
Inventor
汪迎菊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zeku Technology Shanghai Corp Ltd
Original Assignee
Zeku Technology Shanghai Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zeku Technology Shanghai Corp Ltd filed Critical Zeku Technology Shanghai Corp Ltd
Priority to CN202211699930.1A priority Critical patent/CN116013260A/zh
Publication of CN116013260A publication Critical patent/CN116013260A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请公开了一种关键字识别方法及装置、电子设备、存储介质,该方法包括:获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。如此,在进行语音识别时将输入信号源扩展为二维信号源,第一信号源为音频数据,第二信号源为图像数据,唇语关键字识别结果与语音关键字识别结果结合来确定预定关键字,二者相辅相成,互为补充,提高关键字识别准确率,从而提高人机交互效率。

Description

一种关键字识别方法及装置、电子设备、存储介质
技术领域
本申请涉及语音控制技术,尤其涉及一种关键字识别方法及装置、电子设备、存储介质。
背景技术
语音控制技术越来越广泛地应用在智能设备,极大的提高了人机交互的便捷度和效率。其中语音关键词识别主要采用自然语言处理(Natural language processing,NLP)技术对音频数据进行关键词匹配,得到关键词识别的结果。
语音关键词识别存在如下两方面的问题:
1)声音非常容易受到周围环境以及障碍物的干扰,导致采集到的音频数据质量较差,影响关键词的识别准确率;2)声音本质上是一种波,受性别、年龄以及地域等因素的影响,不同人对相同词语的声波差异明显,同样会影响关键词的识别准确率。
因此,提高语音关键字识别准确率,是语音唤醒技术长期面临的一个难题。
发明内容
本申请实施例期望提供一种关键字识别方法及装置、电子设备、存储介质。
本申请的技术方案是这样实现的:
第一方面,提供了一种关键字识别方法,包括:
获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;
根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;
根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;
根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。
第二方面,提供了一种关键字识别装置,包括:
第一获取单元,用于获取音频输入装置采集的音频数据,并将所述音频数据发送给语音识别单元;
第二获取单元,用于获取摄像装置采集的图像数据,并将所述图像数据发送给图像识别单元;
所述图像识别单元,用于根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果,并将所述唇语关键字识别结果发送给语音识别单元;
所述语音识别单元,根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。
第三方面,提供了一种电子设备,包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器配置为运行所述计算机程序时,执行前述方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现前述方法的步骤。
本申请实施例中提供了一种关键字识别方法及装置、电子设备、存储介质,该方法包括:获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。如此,在进行语音识别时将输入信号源扩展为二维信号源,第一信号源为音频数据,第二信号源为图像数据,唇语关键字识别结果与语音关键字识别结果结合来确定预定关键字,二者相辅相成,互为补充,提高关键字识别准确率,从而提高人机交互效率。
附图说明
图1为本申请实施例中关键字识别方法的第一流程示意图;
图2为本申请实施例中关键字识别方法的第二流程示意图;
图3为本申请实施例提供的关键字识别系统的结构框架示意图;
图4为本申请实施例中轻量型ISP的处理流程示意图;
图5为本申请实施例中NPU的处理流程示意图;
图6为本申请实施例中关键字识别装置的组成结构示意图;
图7为本申请实施例中电子设备的组成结构示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
图1为本申请实施例中关键字识别方法的第一流程示意图,如图1所示,该方法具体可以包括:
步骤101:获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;
音频输入装置负责采集音频模拟信号,并将音频模拟信号转换为数字信号,对数字信号进行语音关键字识别。在一些实施例中,音频输入装置为麦克风。
摄像装置负责采集包含人脸的图像数据。在一些实施例中,摄像装置可以为一种低功耗的常开式摄像头(Always On camera,AON camera),AON camera功能的基本工作原理为:设备开机之后,自动启动AON camera功能,控制图像传感器实时采集图像,并进行图像检测和识别,根据图像检测结果进行对应的处理。在一些实施例中,摄像装置还可以通过预设控制指令控制开启或关闭。
为了降低功耗和减少传输带宽以及后续的图像处理时延,在一些实施例中,图像数据一种单色图像数据(例如mono格式的图像数据)。示例性的,摄像装置采用较低帧率和较低分辨率来采集图像数据,并输出mono格式的图像数据。
步骤102:根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;
唇语识别是使用机器视觉技术从一系列图像中识别出人脸,判断其中正在说话的人,提取此人连续的口型变化特征;随即将连续变化的特征输入到唇语识别模型中,识别出讲话人口型对应的发音,在唇语识别过程中,口型与发音,发音与关键字之间,并不是唯一对应的关系,常常有多个可能的备选结果,需要实时计算出关键字的置信度。
示例性的,利用唇语识别模型对图像数据进行唇语关键字识别,得到唇语关键字识别结果;其中,唇语识别模型可以为神经网络模型。实际应用中,获取关键字对应的样本图像数据;利用样本图像数据训练唇语识别模型;在使用阶段,加载识别预定关键字的唇语识别模型进行唇语关键字识别。这里,样本图像数据可以是从唇语图像数据库中获取到的。
示例性的,在一些实施例中,所述根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果,包括:对所述图像数据进行预处理,以减小所述图像数据的数据量;利用预设关键字的唇语识别模型对预处理后的图像数据进行唇语关键字识别,得到所述唇语关键字识别结果。
在不影响检测精度的基础上,为了加快检测速率减小功耗,对图像进行预处理,以减小图像数据量,提高图像质量,有利于后续唇语关键字识别。在一些实施例中,所述根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果,包括:对所述图像数据依次进行图像裁剪、数字增益、镜头阴影校正、降噪、Gamma校正和下采样处理,得到预处理后的图像数据;利用预设关键字的唇语识别模型对所述预处理后的图像数据进行唇语关键字识别,得到所述唇语关键字识别结果。
步骤103:根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;
示例性的,利用语音识别模型对音频数据进行关键字识别。实际应用中,获取关键字对应的样本音频数据;利用样本音频数据训练语音识别模型;在使用阶段,加载识别预定关键字的语音识别模型进行语音关键字识别。这里,样本图语音数据可以是从语音数据库中获取到的。
步骤104:根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。
进行语音识别时将输入信号源扩展为二维信号源,第一信号源为音频数据,第二信号源为图像数据,将图像数据的唇语关键字识别结果作为辅助信息,与语音关键字识别结果结合来确定预定关键字,提高语音关键字识别准确率。也可以将音频数据的语音关键字识别结果作为辅助信息,与唇语关键字识别结果结合来确定预定关键字,提高唇语关键字识别准确率。二者的识别结果相辅相成,互为补充,能准确识别预定关键字。
示例性的,在一些实施例中,所述语音关键字识别结果包括关键字及其置信度,所述唇语关键字识别结果包括关键字及其置信度;
所述根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字,包括:对所述语音关键字识别结果和所述唇语关键字识别结果中相同关键字的置信度进行加权运算,得到加权置信度;根据所述加权置信度,确定预定关键字。
也就是说,通过置信度加权运算,综合考虑二者的识别结果。在一些实施例中,二者的权重值可以根据语音识别和唇语识别的侧重点预先设定,也可以根据当前所处环境对语音识别准确率和唇语识别准确率的影响灵活设定。
示例性的,在一些实施例中,所述方法还包括:根据当前场景的坏境参数进行场景识别,得到场景识别结果;根据所述场景识别结果,确定所述语音关键字识别结果中关键字的第一权重值,以及所述唇语关键字识别结果中关键字的第二权重值。
示例性的,在一些实施例中,所述坏境参数包括:环境音参数和环境亮度参数;
环境音参数可以包括声音分贝(与声音振幅正相关)。示例性的,15分贝以下:绝对安静环境,15分贝-60分贝:安静场景,60-85:嘈杂场景;85分贝以上:无法进行语音识别场景。
环境亮度参数可以为环境亮度传感器采集的环境亮度值,或者根据图像数据确定环境亮度值。示例性的,1000Lux以上为过亮场景,[1000Lux~300Lux]为正常成像场景、[300Lux~50Lux]为暗光场景,50Lux以下为极暗场景,无法进行唇语识别,或者唇语关键字识别结果可信度较低。
环境音参数还可以包括声音频率,根据声音频率可以判断环境音为噪声还是乐声。乐声是由发音体有规则的振动产生的,而噪音是发声体做无规则振动时发出的声音。因此,由于乐音的振幅和频率具备一定规律性,在分贝较大的乐音环境下语音关键字识别模型也能准确识别语音关键字。
在一些实施例中,所述场景识别结果表征当前场景为嘈杂场景时,降低所述第一权重值;所述场景识别结果表征当前场景为安静场景时,提高所述第一权重值;所述场景识别结果表征当前场景为暗光场景时,降低所述第二权重值;所述场景识别结果表征当前场景为亮光场景时,提高所述第二权重值。
也就是说,唇语关键字识别结果和语音关键字识别结果相辅相成,互为补充。当系统背景环境越安静,噪音越小,语音关键字识别结果置信度越高,权重越大,反之越低。系统环境光照越差(过亮或过暗),图像质量越差时,唇语关键字识别结果置信度越低,对语音关键字识别结果的影响权重越小,反之越大。
在一些实施例中,所述场景识别结果表征当前场景为嘈杂场景和亮光场景时,降低所述第一权重值,提高所述第二权重值;所述场景识别结果表征当前场景为安静场景和暗光场景时,提高所述第一权重值,降低所述第二权重值。
在光线充足的嘈杂环境下,比如明亮的商场,语音识别的错误率升高,当用户说出关键字1的时候,语音识别单元可能错误的识别为关键字2,但是唇语识别结果识别为关键字1,此时应提高唇语关键字识别结果的权重值,以唇语识别结果为主,语音识别结果为辅。
在光线不充足的安静场景下,比如漆黑的卧室,当用户说出关键字1的时候,语音识别单元可以轻松识别为关键字1,但是通过摄像装置采集的图像质量较差,唇语识别结果识别为关键字2甚至无法识别,这个时候唇语识别结果的权重降低,以语音识别结果为主,影像识别结果为辅。
在一些实施例中,所述场景识别结果表征当前场景为安静场景和亮光场景时,二者识别结果均可靠,权重值可以为预设权重值,可以理解为权重值保持不变。所述场景识别结果表征当前场景为嘈杂场景和暗光场景时,二者识别结果均不可靠,权重值保持不变。
不同场景下通过动态调整唇语关键字识别结果对语音关键字识别结果的影响权重,能够综合考虑环境因素对关键字识别结果的影响,进一步提高检测结果的准确率。
示例性的,在一些实施例中,进行关键字识别之前,所述方法还包括:输出提示信息,用于提示用户面对所述摄像装置说出预设关键字;获取所述音频输入装置采集的包括预设关键字发音的音频数据,作为样本音频数据;获取所述图像装置采集的包括预设关键字口型的图像数据,作为样本图像数据;利用所述样本音频数据训练语音识别模型;其中,所述语音识别模型用于对音频数据进行语音关键字识别;利用所述样本图像数据训练唇语识别模型;其中,所述唇语识别模型用于对图像数据进行唇语关键字识别。
在一些实施例中,该方法还包括:对语音识别模型和唇语识别模型加密后保存。由于该阶段主要用来收集用户发音习惯所对应的唇部图像数据并进行模型训练,以及手机用户发音习惯所对应的音频数据并进行模型训练。训练得到的语音识别模型包含用户的声音特征,唇语识别模型包含用口型特征,因此对语音识别模型和唇语识别模型加密后保存,严格保护用户隐私。
在一些实施例中,语音识别模型和唇语识别模型保存在本地或者云端数据库。
需要说明的是,受性别、年龄、发音习惯以及地域等因素的影响,不同人对相同词语的声音和口型有一些差异,当用户激活电子设备或者用户首次使用语音和图像结合的关键字识别方法之前,让用户在设置阶段读一些预设的词语或语句来记录对应的一系列嘴唇形状变化的图像数据,和发音特征的音频数据,可以利用该用户的音频数据对语音识别模型进行重新训练并保存,利用包括图像数据对唇语识别模型进行重新训练并保存,针对不同机主提高语音关键字识别和唇语关键字识别的准确性,降低个体发音差异对识别结果的影响,提升用户体验。
在一些实施例中,所述样本图像数据为单色图像数据。
在一些实施例中,训练阶段该方法还包括:对所述样本图像数据依次进行图像裁剪、数字增益、镜头阴影校正、降噪、Gamma校正和下采样处理,得到预处理后的样本图像数据。
实际应用中,本申请实施例提供的关键字识别方法可以应用到语音唤醒、语音搜索、语音输入等与关键字识别相关领域。本申请实施例提供的关键字识别方法,在进行语音识别时将输入信号源扩展为二维信号源,第一信号源为音频数据,第二信号源为图像数据,唇语关键字识别结果与语音关键字识别结果结合来确定预定关键字,二者相辅相成,互为补充,提高关键字识别准确率,从而提高人机交互效率。
为了能更加体现本申请的目的,在本申请上述实施例的基础上,进行进一步的举例说明,如图2所示,该方法具体包括:
步骤201:获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;
步骤202:根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;
在一些实施例中,所述唇语关键字识别结果包括关键字及其置信度。
在一些实施例中,置信度太小或者未识别到关键字,则确定唇语关键字识别失败。
步骤203:根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;
在一些实施例中,所述语音关键字识别结果包括关键字及其置信度。
在一些实施例中,置信度太小或者未识别到关键字,则确定唇语关键字识别失败。
步骤204:获取所述语音关键字识别结果中的第一置信度,获取所述唇语关键字识别结果中的第二置信度;
这里,第一置信度用于表征语音识别结果的可靠程度,第二置信度用于表征唇语识别结果的可靠程度。
在一些实施例中,第一置信度为语音关键字识别结果中最大置信度,第二置信度为唇语关键字识别结果中最大置信度。
在一些实施例中,第一置信度为语音关键字识别结果中任一关键字的置信度,第二置信度为唇语关键字识别结果中相同关键字的置信度。
步骤205:所述第一置信度大于或者等于第一置信度阈值,将所述第一置信度对应的关键字作为预定关键字;
所述第一置信度大于或者等于第一置信度阈值,表征对应关键字足够可靠,则直接使用语音关键字识别结果。所述第一置信度小于所述第一置信度阈值,表征对应关键字不够可靠,需要参考唇语关键字识别结果。
步骤206:所述第一置信度小于所述第一置信度阈值,且所述第二置信度大于或者等于第二置信度阈值,将所述第二置信度对应的关键字作为预定关键字;
所述第二置信度大于或者等于第二置信度阈值,表征对应关键字足够可靠,则直接使用唇语关键字识别结果。所述第二置信度小于所述第二置信度阈值,表征对应关键字不够可靠,需要参考语音关键字识别结果。
步骤207:所述第一置信度小于所述第一置信度阈值,且所述第二置信度小于所述第二置信度阈值时,对所述语音关键字识别结果和所述唇语关键字识别结果中相同关键字的置信度进行加权运算,得到加权置信度;根据所述加权置信度,确定预定关键字。
示例性的,语音关键字识别结果对应第一权重值,唇语关键字识别结果对应第二权重值,第一权重值和第二权重值之和为1。在一些实施例中,二者的权重值可以根据语音识别和唇语识别的侧重点预先设定,也可以根据当前所处环境对语音识别准确率和唇语识别准确率的影响灵活设定。
示例性的,所述根据所述加权置信度,确定预定关键字,包括:确定最大加权置信度,将最大加权置信度对应的关键字作为预定关键字。
采用上述技术方案,在进行语音识别时将输入信号源扩展为二维信号源,第一信号源为音频数据,第二信号源为图像数据,唇语关键字识别结果与语音关键字识别结果结合来确定预定关键字,二者相辅相成,互为补充,提高关键字识别准确率,从而提高人机交互效率。
为了能更加体现本申请的目的,本申请实施例提供了一种实现关键字识别方法的关键字识别系统,图3为本申请实施例提供的关键字识别系统的结构框架示意图,如图3所示,关键字识别系统包括:相机系统和语音系统,其中,相机系统用于实现图像数据的采集和处理,语音系统用于实现音频数据的采集和处理。
在相机系统中,图像传感器负责采集图像数据;相机串行接口(Camera SerialInterface,CSI)定义了一个位于图像信号处理器(Image Signal Processor,ISP)和图像传感器之间的高速串行接口,即移动行业处理器接口接收端(Mobile Industry ProcessorInterface Receiver,MIPI RX),主要功能为接收图像传感器传送的图像数据,然后送给ISP进行图像处理,再由神经网络处理器(Neural network Processing Unit,NPU)进行唇语关键字检测,得到唇语关键字识别结果。
相机系统和语音系统中的各个组件通过总线耦合在一起,相机系统如果识别成功将唇语关键字识别结果通过总线传输给语音系统。
在语音系统中,麦克风(Microphone,MIC)负责采集音频数据,模数转换器(analogto digital converter,ADC)将模拟信号转换为数字信号,示例性的可以基于脉冲密度调制(Pulse Density Modulation,PDM)技术将模拟信号转换为数字信号,数字信号处理器(Digital Signal Processor,DSP)进行数字信号处理,语音识别模型(Key Words Spot,KWS)进行语音关键词识别,并根据唇语关键字识别结果确定预定关键字。
相机系统为一种低功耗系统,其中ISP可以选用一种轻量型ISP,图4为本申请实施例中轻量型ISP的处理流程示意图。如图4所示,图像数据作为轻量型ISP的输入数据,图像裁剪(Crop)主要是指对图像进行裁剪,得到满足NPU对处理的图像有特定的尺寸要求;数字增益(Digital Gain,DG)是指对图形进行数字增益处理;镜头阴影校正(Lens ShadingCorrection,LSC),解决图像中心区域较亮,边缘区域较暗(阴影)的问题;降噪处理(NoiseReduction,NR),提高图像质量;Gamma校正主要是对图像的部分过亮或过暗的地方进行调整;下采样(Down Sample,DS)是用于图像下采样。经过这些步骤处理后,可以得到符合NPU要求的图像。
本方案由于采用了摄像装置来捕获用户说出关键词时候的嘴唇变化信息,来辅助增强语音关键词识别,可以有效突破现有方案的局限性,主要在于:
1)摆脱周围环境以及障碍物对声波的影响,即使在商场,公共交通和演唱会环境等嘈杂环境下,依然可以清晰并且不受干扰的捕获影像;
2)对于不同用户,即便性别,年龄以及方言不同,在说出关键字1的时候,不同地域用户发音不同,嘴唇的变化不明显这一些问题。采集图像进行唇语关键字识别,可以在一定程度上降低发音差异的影响。
3)利用摄像装置来增强语音关键词识别率,提高人机交互效率,增强产品性能,很好的提升用户体验。
图5为本申请实施例中NPU的处理流程示意图。如图5所示,NPU在启动之后需要先加载(load)用于识别特定关键字的神经网络模型,然后使用神经网络模型针对ISP处理后的图像数据执行唇语关键字识别,得到唇语关键字识别结果。
为实现本申请实施例的方法,基于同一发明构思本申请实施例还提供了一种关键字识别装置,如图6所示,该关键字识别装置60包括:
第一获取单元601,用于获取音频输入装置采集的音频数据,并将所述音频数据发送给语音识别单元604;
第二获取单元602,用于获取摄像装置采集的图像数据,并将所述图像数据发送给图像识别单元603;
所述图像识别单元603,用于根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果,并将所述唇语关键字识别结果发送给语音识别单元604;
所述语音识别单元604,用于根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。
在一些实施例中,所述语音关键字识别结果包括关键字及其置信度,所述唇语关键字识别结果包括关键字及其置信度;
所述语音识别单元604,用于对所述语音关键字识别结果和所述唇语关键字识别结果中相同关键字的置信度进行加权运算,得到加权置信度;根据所述加权置信度,确定预定关键字。
在一些实施例中,所述语音识别单元604,用于根据当前场景的坏境参数进行场景识别,得到场景识别结果;根据所述场景识别结果,确定所述语音关键字识别结果中关键字的第一权重值,以及所述唇语关键字识别结果中关键字的第二权重值。
在一些实施例中,所述坏境参数包括:环境音参数和环境亮度参数;
所述语音识别单元604,用于所述场景识别结果表征当前场景为嘈杂场景和亮光场景时,降低所述第一权重值,提高所述第二权重值;所述场景识别结果表征当前场景为安静场景和暗光场景时,提高所述第一权重值,降低所述第二权重值。
在一些实施例中,所述语音识别单元604,用于获取所述语音关键字识别结果中的第一置信度;所述第一置信度大于或者等于第一置信度阈值,将所述第一置信度对应的关键字作为所述预定关键字;获取所述唇语关键字识别结果中的第二置信度;所述第一置信度小于所述第一置信度阈值,且所述第二置信度大于或者等于第二置信度阈值,将所述第二置信度对应的关键字作为所述预定关键字;所述第一置信度小于所述第一置信度阈值,且所述第二置信度小于所述第二置信度阈值时,对所述语音关键字识别结果和所述唇语关键字识别结果中相同关键字的置信度进行加权运算,得到加权置信度。
在一些实施例中,该装置还包括用户输出单元,用于输出提示信息,用于提示用户面对所述摄像装置说出预设关键字;
第一获取单元601,还用于获取所述音频输入装置采集的包括预设关键字发音的音频数据,作为样本音频数据;
第二获取单元602,用于获取所述图像装置采集的包括预设关键字口型的图像数据,作为样本图像数据;
图像识别单元603,还用于利用所述样本图像数据训练唇语识别模型;其中,所述唇语识别模型用于对图像数据进行唇语关键字识别;
语音识别单元604,还用于利用所述样本音频数据训练语音识别模型;其中,所述语音识别模型用于对音频数据进行语音关键字识别。
在一些实施例中,图像识别单元603,用于对所述图像数据依次进行图像裁剪、数字增益、镜头阴影校正、降噪、Gamma校正和下采样处理,得到预处理后的图像数据;利用预设关键字的唇语识别模型对所述预处理后的图像数据进行唇语关键字识别,得到所述唇语关键字识别结果。
实际应用中,上述装置可以是电子设备,也可以是应用于电子设备的芯片。在本申请中,该装置可以通过或软件、或硬件、或软件与硬件相结合的方式,实现多个单元的功能,使该装置可以执行如上述任一实施例所提供的关键字识别方法。且该装置的各技术方案的技术效果可以参考关键字识别方法中相应的技术方案的技术效果,本申请对此不再一一赘述。
基于上述关键字识别装置中各单元的硬件实现,本申请实施例还提供了一种电子设备,如图7所示,该电子设备70包括:处理器701和配置为存储能够在处理器上运行的计算机程序的存储器702;
其中,处理器701配置为运行计算机程序时,执行前述实施例中的方法步骤。
当然,实际应用时,如图7所示,该电子设备中的各个组件通过总线系统703耦合在一起。可理解,总线系统703用于实现这些组件之间的连接通信。总线系统703除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图中将各种总线都标为总线系统703。
在实际应用中,上述处理器可以为特定用途集成电路(ASIC,ApplicationSpecific Integrated Circuit)、数字信号处理装置(DSPD,Digital Signal ProcessingDevice)、可编程逻辑装置(PLD,Programmable Logic Device)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
上述存储器可以是易失性存储器(volatile memory),例如随机存取存储器(RAM,Random-Access Memory);或者非易失性存储器(non-volatile memory),例如只读存储器(ROM,Read-Only Memory),快闪存储器(flash memory),硬盘(HDD,Hard Disk Drive)或固态硬盘(SSD,Solid-State Drive);或者上述种类的存储器的组合,并向处理器提供指令和数据。
实际应用中,上述电子设备可以为一种芯片。
在示例性实施例中,本申请实施例还提供了一种计算机可读存储介质,例如包括计算机程序的存储器,计算机程序可由电子设备的处理器执行,以完成前述方法的步骤。
本申请实施例还提供了一种计算机程序产品,包括计算机程序指令。
可选的,该计算机程序产品可应用于本申请实施例中的电子设备,并且该计算机程序指令使得计算机执行本申请实施例的各个方法中由电子设备实现的相应流程,为了简洁,在此不再赘述。
本申请实施例还提供了一种计算机程序。
可选的,该计算机程序可应用于本申请实施例中的电子设备,当该计算机程序在计算机上运行时,使得计算机执行本申请实施例的各个方法中由电子设备实现的相应流程,为了简洁,在此不再赘述。
应当理解,在本申请实施例中,涉及到用户信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
应当理解,在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。本申请中表述“具有”、“可以具有”、“包括”和“包含”、或者“可以包括”和“可以包含”在本文中可以用于指示存在对应的特征(例如,诸如数值、功能、操作或组件等元素),但不排除附加特征的存在。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,不必用于描述特定的顺序或先后次序。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和设备,可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种关键字识别方法,其特征在于,所述方法包括:
获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;
根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;
根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;
根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。
2.根据权利要求1所述的方法,其特征在于,所述语音关键字识别结果包括关键字及其置信度,所述唇语关键字识别结果包括关键字及其置信度;
所述根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字,包括:
对所述语音关键字识别结果和所述唇语关键字识别结果中相同关键字的置信度进行加权运算,得到加权置信度;
根据所述加权置信度,确定预定关键字。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据当前场景的坏境参数进行场景识别,得到场景识别结果;
根据所述场景识别结果,确定所述语音关键字识别结果中关键字的第一权重值,以及所述唇语关键字识别结果中关键字的第二权重值。
4.根据权利要求3所述的方法,其特征在于,所述坏境参数包括:环境音参数和环境亮度参数;
所述根据所述场景识别结果,确定所述语音关键字识别结果中关键字的第一权重值,以及所述唇语关键字识别结果中关键字的第二权重值,包括:
所述场景识别结果表征当前场景为嘈杂场景和亮光场景时,降低所述第一权重值,提高所述第二权重值;
所述场景识别结果表征当前场景为安静场景和暗光场景时,提高所述第一权重值,降低所述第二权重值。
5.根据权利要求2所述的方法,其特征在于,
所述根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字,包括:
获取所述语音关键字识别结果中的第一置信度;
所述第一置信度大于或者等于第一置信度阈值,将所述第一置信度对应的关键字作为所述预定关键字;
获取所述唇语关键字识别结果中的第二置信度;
所述第一置信度小于所述第一置信度阈值,且所述第二置信度大于或者等于第二置信度阈值,将所述第二置信度对应的关键字作为所述预定关键字;
所述第一置信度小于所述第一置信度阈值,且所述第二置信度小于所述第二置信度阈值时,对所述语音关键字识别结果和所述唇语关键字识别结果中相同关键字的置信度进行加权运算,得到加权置信度。
6.根据权利要求1所述的方法,其特征在于,进行关键字识别之前,所述方法还包括:
输出提示信息,用于提示用户面对所述摄像装置说出预设关键字;
获取所述音频输入装置采集的包括预设关键字发音的音频数据,作为样本音频数据;
获取所述图像装置采集的包括预设关键字口型的图像数据,作为样本图像数据;
利用所述样本图像数据训练唇语识别模型;其中,所述唇语识别模型用于对图像数据进行唇语关键字识别;
利用所述样本音频数据训练语音识别模型;其中,所述语音识别模型用于对音频数据进行语音关键字识别。
7.根据权利要求1所述的方法,其特征在于,所述根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果,包括:
对所述图像数据依次进行图像裁剪、数字增益、镜头阴影校正、降噪、Gamma校正和下采样处理,得到预处理后的图像数据;
利用预设关键字的唇语识别模型对所述预处理后的图像数据进行唇语关键字识别,得到所述唇语关键字识别结果。
8.一种关键字识别装置,其特征在于,所述装置包括:
第一获取单元,用于获取音频输入装置采集的音频数据,并将所述音频数5据发送给语音识别单元;
第二获取单元,用于获取摄像装置采集的图像数据,并将所述图像数据发送给图像识别单元;
所述图像识别单元,用于根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果,并将所述唇语关键字识别结果发送给语音识别单元;
0所述语音识别单元,根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。
9.一种电子设备,其特征在于,所述电子设备包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,
5其中,所述处理器配置为运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202211699930.1A 2022-12-28 2022-12-28 一种关键字识别方法及装置、电子设备、存储介质 Pending CN116013260A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211699930.1A CN116013260A (zh) 2022-12-28 2022-12-28 一种关键字识别方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211699930.1A CN116013260A (zh) 2022-12-28 2022-12-28 一种关键字识别方法及装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN116013260A true CN116013260A (zh) 2023-04-25

Family

ID=86026248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211699930.1A Pending CN116013260A (zh) 2022-12-28 2022-12-28 一种关键字识别方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN116013260A (zh)

Similar Documents

Publication Publication Date Title
CN107393542B (zh) 一种基于双通道神经网络的鸟类物种识别方法
CN112400325B (zh) 数据驱动的音频增强
Adeel et al. Lip-reading driven deep learning approach for speech enhancement
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
CN104021798B (zh) 用于通过具有可变频谱增益和可动态调制的硬度的算法对音频信号隔音的方法
CN103124165A (zh) 自动增益控制
US8391509B2 (en) Audio-separating apparatus and operation method thereof
CN110992967A (zh) 一种语音信号处理方法、装置、助听器及存储介质
CN112242147A (zh) 一种语音增益控制方法及计算机存储介质
CN112786064A (zh) 一种端到端的骨气导语音联合增强方法
CN111883135A (zh) 语音转写方法、装置和电子设备
CN107274895B (zh) 一种语音识别设备及方法
CN114338623B (zh) 音频的处理方法、装置、设备及介质
CN116013260A (zh) 一种关键字识别方法及装置、电子设备、存储介质
US20230186943A1 (en) Voice activity detection method and apparatus, and storage medium
US11490211B2 (en) Directivity hearing-aid device and method thereof
CN114023352B (zh) 一种基于能量谱深度调制的语音增强方法及装置
CN115472174A (zh) 声音降噪方法和装置、电子设备和存储介质
CN113692618B (zh) 一种语音命令识别的方法及装置
CN112562712A (zh) 一种录音数据处理方法、系统、电子设备及存储介质
CN113257284B (zh) 语音活动检测模型训练、语音活动检测方法及相关装置
CN116866783B (zh) 一种智慧教室音频控制系统、方法及存储介质
WO2023228103A1 (fr) Procédé de test d'audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé
US11823703B2 (en) System and method for processing an audio input signal
Li et al. An improved fully convolutional network based on post-processing with global variance equalization and noise-aware training for speech enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination