CN110503957A - 一种基于图像去噪的语音识别方法及装置 - Google Patents

一种基于图像去噪的语音识别方法及装置 Download PDF

Info

Publication number
CN110503957A
CN110503957A CN201910818956.5A CN201910818956A CN110503957A CN 110503957 A CN110503957 A CN 110503957A CN 201910818956 A CN201910818956 A CN 201910818956A CN 110503957 A CN110503957 A CN 110503957A
Authority
CN
China
Prior art keywords
frame
speaking
lip
image
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910818956.5A
Other languages
English (en)
Inventor
李索恒
汪俊
郑达
张志齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yitu Information Technology Co Ltd
Original Assignee
Shanghai Yitu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yitu Information Technology Co Ltd filed Critical Shanghai Yitu Information Technology Co Ltd
Priority to CN201910818956.5A priority Critical patent/CN110503957A/zh
Publication of CN110503957A publication Critical patent/CN110503957A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及通信技术领域,特别涉及一种基于图像去噪的语音识别方法及装置。该方法为:获取第一时段采集的音频信号;将所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧;所述说话对象为根据所述视频信号中的图像帧中同一人脸的唇动特征确定的;将所述包含说话对象的图像帧与所述第一时段采集的音频信号进行帧对齐;将帧对齐后的所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果。

Description

一种基于图像去噪的语音识别方法及装置
技术领域
本发明涉及通信技术领域,特别涉及一种基于图像去噪的语音识别方法及装置。
背景技术
当今社会中,出于会议场景或监控场景的需要,尤其是远程会议场景的需要,会议中或监控中仅能显示视频,无法在显示界面显示说话人的语音识别结果,导致会议或监控的效率不高,另外,针对会议中信息的记录也需要额外增加人力进行会议记录,导致耗费了大量的人力成本,无法提高业务效率。同理,针对监控场景,由于现有的监控中都是没有说话人的语音,导致对监控的相关业务受限,难以满足现实的需要。
发明内容
本发明实施例提供一种基于图像去噪的语音识别方法及装置,用以提高监控场景或会议场景下的语音识别的准确率和实效性。
本发明实施例提供的具体技术方案如下:
本发明实施例提供一种基于图像去噪的语音识别方法,包括:获取第一时段采集的音频信号;将所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧;所述说话对象为根据所述视频信号中的图像帧中同一人脸的唇动特征确定的;将所述包含说话对象的图像帧与所述第一时段采集的音频信号进行帧对齐;将帧对齐后的所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果。
本发明实施例中,通过将第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧;进而通过帧对齐,将帧对齐后的所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,进而通过图像帧识别的说话对象,降低环境噪音或其他说话对象对语音识别的干扰,提高语音识别的准确率。
一种可能的实现方式,所述将所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧,包括:
针对所述第一时段采集的视频信号中的任一图像帧,对所述图像帧进行人脸识别,确定所述图像帧中包含的各对象;
根据所述图像帧中各对象的唇动概率,确定所述图像帧是否为包含说话对象的图像帧;其中,各对象的唇动概率是根据各对象的唇动特征确定的。
上述技术方案中,通过对图像中的唇部区域进行唇动检测,确定说话对象的图像帧,进而实现对音频信号中的音频帧的帧对齐,提高了语音识别的准确率。
一种可能的实现方式,所述各对象的唇动概率是根据各对象的唇动特征确定的,包括:对所述第一时段采集的视频信号中的N帧图像进行人脸识别,确定第一对象;
对包括所述第一对象的M帧图像中所述第一对象的唇部区域进行唇动检测,确定所述M帧图像中每帧图像的唇动特征;
根据所述M帧图像中每帧图像的唇动特征确定每帧图像的唇动概率;N大于或等于M。
上述技术方案中,通过对图像中的唇部区域进行唇动检测,并通过检测确定的唇动概率,作为参考信息输入至语音识别模型中,可以提高图像帧对语音识别的鲁棒性。
一种可能的实现方式,所述语音识别模型包括具有不同属性的子模型;
将帧对齐后的所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果,包括:
根据所述包含说话对象的图像帧确定所述说话对象的身份信息;
将所述说话对象的身份信息、所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至所述语音识别模型,确定所述说话对象的语音识别结果;其中,所述说话对象的身份信息用于确定对所述说话对象进行语音识别时使用的子模型。
上述技术方案中,通过将说话对象的身份信息、包含说话对象的图像帧与所述第一时段采集的音频信号输入至所述语音识别模型,提高了对多个说话对象中单一说话对象的语音识别的准确性,通过关联说话对象的身份信息,可以快速检测该说话对象的对应的图像帧,在确定说话对象的人脸图像后,无需再对当前待识别的图像帧与图像库中的所有人脸图像进行比对,只需与说话对象进行优先比对,提高说话对象的识别效率,并进一步帮助筛选音频帧的音频信号,提高了语音识别的效率和准确率。
本发明实施例提供一种基于图像去噪的语音识别装置,包括:
收发单元,用于获取第一时段采集的音频信号;
处理单元,用于所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧;所述说话对象为根据所述视频信号中的图像帧中同一人脸的唇动特征确定的;将所述包含说话对象的图像帧与所述第一时段采集的音频信号进行帧对齐;将帧对齐后的所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果。
一种可能的实现方式,所述处理单元,具体用于:
针对所述第一时段采集的视频信号中的任一图像帧,对所述图像帧进行人脸识别,确定所述图像帧中包含的各对象;根据所述图像帧中各对象的唇动概率,确定所述图像帧是否为包含说话对象的图像帧;其中,各对象的唇动概率是根据各对象的唇动特征确定的。
一种可能的实现方式,所述处理单元,具体用于:对所述第一时段采集的视频信号中的N帧图像进行人脸识别,确定第一对象;对包括所述第一对象的M帧图像中所述第一对象的唇部区域进行唇动检测,确定所述M帧图像中每帧图像的唇动特征;根据所述M帧图像中每帧图像的唇动特征确定每帧图像的唇动概率;N大于或等于M。
一种可能的实现方式,所述语音识别模型包括具有不同属性的子模型;所述处理单元,具体用于:
根据所述包含说话对象的图像帧确定所述说话对象的身份信息;将所述说话对象的身份信息、所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至所述语音识别模型,确定所述说话对象的语音识别结果;其中,所述说话对象的身份信息用于确定对所述说话对象进行语音识别时使用的子模型。
本发明实施例提供一种存储介质,存储有用于语音识别的方法的程序,所述程序被处理器运行时,执行如本发明实施例中任一项所述的方法。
本发明实施例提供一种计算机设备,包括一个或多个处理器;以及一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行如本发明实施例中任一项所述的方法。
附图说明
图1为本发明实施例中系统架构示意图;
图2为本发明实施例中一种基于图像去噪的语音识别方法的流程示意图;
图3为本发明实施例中一种基于图像去噪的语音识别装置的结构示意图;
图4为本发明实施例中一种基于图像去噪的语音识别装置的结构示意图。
具体实施方式
在实际使用环境中,语音处理装置从输入的语音信号中提取特征用于识别,但环境中存在各种干扰,如混响,噪声,信号畸变。这些干扰使得输入的语音信号的特征与语音识别模型的特征有很大的差异,从而降低了识别率。
图1示例性示出了本发明实施例适用的系统架构的示意图,在该系统架构中包括监控设备101、服务器102。监控设备101可以实时采集视频流,然后将采集的视频流发送至服务器102,服务器102中包括语音识别装置,服务器102从视频流中获取图像帧,然后确定图像帧中的待识别对象及对应的语音识别结果。监控设备101通过无线网络与服务器102连接,监控设备是具备采集图像功能及声音信号的电子设备,比如摄像头、摄像机、录像机、麦克风等。服务器102是一台服务器或若干台服务器组成的服务器集群或云计算中心。
基于图1所示的系统架构,图2示例性示出了本发明实施例提供的一种基于图像去噪的语音识别方法所对应的流程示意图,该方法的流程可以由语音识别装置执行,语音识别装置可以是图1所示的服务器102,如图2所示,具体包括以下步骤:
步骤201:获取第一时段采集的音频信号。
其中,第一时段可以为1秒,具体的长度可以根据音频信号的特征确定,也可以根据语音识别的需要确定,例如在线识别的精度等因素确定,在此不做限定。
具体的,音频信号可以为从至少一个麦克风获取的对应声音信号中至少一路语音信号;或者,也可以从至少一个麦克风获取的对应声音信号中选取任意至少两路语音信号,合并后的声音信号,以便获得更多的声音信息。在实际应用中,声音信号是采用信号帧方式传播的,而语音识别装置需要对声音信号帧进持续检测。
进一步的,可以通过麦克风阵列,还可以确定当前音频帧的声音的声源位置。在具体实施过程中,可以根据麦克风阵列接收的各个方向上的声音信号的强度等信息,确定声源在各个方向上存在声音的概率,进而可以综合确定出声源位置,及在该声音位置上发生的概率。
步骤202:将所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧。
其中,所述说话对象可以为根据所述视频信号中的图像帧中同一人脸的唇动特征确定的。
具体来说,第一时段采集的视频信号可以为监控设备在第一时段内拍摄得到的N帧图像帧。其中,监控设备实时采集视频流,视频流由多帧图像帧组成,可以根据时间顺序,根据时段对视频流中的图像帧进行标记。
对图像帧进行标记的方式有多种,一种可能的实施方式为,将视频信号中需要进行人脸对象检测的图像标记为检测帧图像。比如,设定一段视频信号中包括10帧图像帧,可以将第一帧图像和第五帧图像标记为人脸识别的图像帧,当然,也可以将所有帧图像作为进行人脸识别的图像帧。可以根据是否有人脸进行标记,也可以根据是否有语音信号等其他因素对图像帧进行标记,在此不做限定。
进一步地,在确定视频图像帧为人脸识别的图像帧时,可以进一步确定各人脸对象在图像帧中对应的预测图像信息。具体地,可以根据已识别图像中的各人脸对象对应的图像信息,预测各人脸对象在图像帧中对应的预测图像信息;其中,已识别图像可以是图像帧相邻的图像且已确定出或预测出人脸对象对应的图像信息。
可选地,在确定图像帧为人脸识别的图像帧时,可以对图像帧进行人脸检测,从而确定图像帧中各人脸对象对应的检测图像信息。
由于先将监控设备采集的待处理视频中的N帧图像分为检测帧图像和非检测帧图像,故在获取图像帧时,先判断图像帧是否为人脸识别的图像帧,如果是,则检测图像帧中的人脸对象,否则采用其他图像帧中的人脸对象预测该图像帧中的人脸对象,故不需要对每帧图像进行检测并识别,从而降低了确定视频信号中的图像帧的人脸对象的计算量,同时提高了效率。
进一步地,可以先对图像帧进行对象检测,确定图像帧中各识别对象对应的检测图像区域,进而可以确定各识别对象对应的检测图像区域中的图像信息,即各识别对象对应的图像信息。例如,可以确定该对象的身体信息、人脸信息、对象关联的物体等。其中,图像区域可以是具有规则形状的图像框,或者不具有规则形状的图像框。
一种可能的实现方式,所述将所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧,包括:
针对所述第一时段采集的视频信号中的任一图像帧,对所述图像帧进行人脸识别,确定所述图像帧中包含的各对象;
根据所述图像帧中各对象的唇动概率,确定所述图像帧是否为包含说话对象的图像帧;其中,各对象的唇动概率是根据各对象的唇动特征确定的。
上述技术方案中,通过对图像中的唇部区域进行唇动检测,确定说话对象的图像帧,进而实现对音频信号中的音频帧的帧对齐,提高了语音识别的准确率。
一种可能的实现方式,所述各对象的唇动概率是根据各对象的唇动特征确定的,包括:对所述第一时段采集的视频信号中的N帧图像进行人脸识别,确定第一对象;
对包括所述第一对象的M帧图像中所述第一对象的唇部区域进行唇动检测,确定所述M帧图像中每帧图像的唇动特征;
根据所述M帧图像中每帧图像的唇动特征确定每帧图像的唇动概率;N大于或等于M。
具体的,可以根据所述M帧图像中每帧图像的唇动特征确定存在唇动的置信度,若所述M帧图像中有K帧图像的存在唇动的置信度大于第一预设阈值,则确定所述第一对象为所述说话对象,并将所述K帧图像确定为所述说话对象对应的图像帧;N大于或等于M;M大于或等于K。其中,所述第一对象在所述图像帧中的唇动特征,可以根据唇动特征提取模型确定,进而确定所述每帧图像的唇动特征确定存在唇动的置信度。其中,所述置信度的取值可以为[0,1]的数值。
上述技术方案中,通过对图像中的唇部区域进行唇动检测,并通过检测确定的唇动概率,作为参考信息输入至语音识别模型中,可以提高图像帧对语音识别的鲁棒性。
另一种实现的方式,也可以根据所述每帧图像的唇动特征通过分类器确定是否存在唇动。例如,通过0表示不存在唇动,则将该图像帧排除,通过1表示存在唇动,则将该图像帧作为说话对象的图像帧。
在确定唇动特征后,可以根据所述第一说话对象确定的唇动特征,确定所述第一说话对象的人脸特征图像,进而确定所述图像帧中,所述第一说话对象对应的所有人脸特征图像及所有人脸特征图像对应的图像帧,以便后续进行图像帧的对应,并避免后续人脸识别的重复识别,提高识别效率。
上述技术方案中,通过对图像中的唇部区域进行唇动检测,确定说话对象的图像帧,进而实现在线关联音频信号中的语音识别结果,无需在离线过程中,查找说话对象对应的语音识别结果,提高了监控效果。
进一步的,为提高识别说话对象的准确度和可靠性所述说话对象还可以根据所述视频信号中同一人脸的唇动特征及所述音频信号中的声源位置信息确定的。
在具体实施过程中,可以通过确定第一时刻的音频帧中的声源位置信息、所述第一时刻的图像帧中的各对象的唇动概率和各对象在图像帧中的位置信息,其中,所述第一时刻为所述第一时段中的任一时刻;若所述第一时刻的图像帧包含第一对象,则确定所述第一时刻的图像帧为包含说话对象的图像帧;其中,所述第一对象在图像帧中的位置信息与所述声源位置信息相匹配且所述第一对象的唇动概率符合说话特征。
上述技术方案中,通过对图像中的唇部区域进行唇动检测,确定说话对象的图像帧,并通过声源位置信息,进行匹配,确定第一对象的唇动概率符合说话特征,进而提高了说话对象识别的准确度,进而有效提高了语音识别的准确率。
进一步的,可以根据各对象在图像帧中的位置信息,确定出第二对象,所述第二对象的位置信息与至少一个声源位置匹配;进而,针对每个第二对象,根据所述第二对象对应的声源位置的发声概率和所述第二对象的唇动概率,确定所述第二对象具有说话特征的说话概率;将说话概率符合设定条件的第二对象确定为所述第一对象。
上述技术方案中,通过对图像中的唇部区域进行唇动检测,确定说话对象的图像帧,并通过声源位置信息,进行匹配,确定第一对象的唇动概率符合说话特征,进而提高了说话对象识别的准确度,进而有效提高了语音识别的准确率。
步骤203:将所述包含说话对象的图像帧与所述第一时段采集的音频信号进行帧对齐;
举例来说,若确定第一时段中图像帧与音频帧的帧数相同,则可以将确定说话对象的图像帧的帧号与音频帧的帧号关联;例如,若确定为说话对象的图像帧的帧号的第5帧,则与语音识别结果中第5帧的音频帧关联为同一说话对象,进而将剩余的音频信号中对应的其他帧,与第一对象的图像帧进行关联。例如,剩余的音频信号中第一说话对象对应的其他帧为第6帧-第10帧,则将第一对象的图像帧的第6帧-第10帧进行关联。
另一种可能的实现方式,若确定第一时段中图像帧与音频帧的帧数不同,可以根据帧数的对应关系,进行关联。例如,若确定第一时段中图像帧包括20帧,音频帧包括30帧,则可以按照比例,进行图像帧与音频帧的关联。例如,若确定为说话对象的图像帧的帧号的第2帧,则与语音识别结果中第3帧的音频帧关联为同一说话对象。
当然,还可以根据时间点进行关联,将图像帧与音频帧每帧的时间点进行一一对应,若确定在某一时间点上可以将说话对象的图像帧与音频信号中的音频帧关联,则确定说话对象与音频信号中对应的音频帧在该时间点开始建立对应关系。
另一种可能的实现方式,可以将所述包含说话对象的图像帧、包含声源位置信息的音频帧及所述第一时段采集的音频信号进行帧对齐;进而,可以将帧对齐后的所述包含说话对象的图像帧、包含声源位置信息的音频帧与所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果。
上述技术方案中,通过对图像中的唇部区域进行唇动检测及声源位置信息联合确定,并通过检测确定的唇动概率对应的说话对象,提高确定的说话对象的可靠性,进而将说话对象对应的图像帧作为参考信息输入至语音识别模型中,可以提高说话对象的识别对语音识别的鲁棒性。
步骤204:将帧对齐后的所述第一说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,确定所述第一说话对象的语音识别结果。
通过将帧对齐的图像帧与音频信号同时输入至语音识别模型中,语音识别模型可以将没有图像帧的音频帧中的音频信号作为当前第一时段中的语音信号的环境噪音,进而可以对有图像帧的音频帧的音频信号进行去噪处理,进而可以降低环境中存在各种干扰,如混响,噪声,信号畸变的干扰对输入的语音信号的特征与语音识别模型的特征有很大的差异,导致的语音识别准确性低的问题。
在具体语音识别的过程,可以通过语音模型,对音频信号中的语音进行识别,以确定语音识别结果。以语音模型为例,在建立语音模型时,语音识别装置可以执行以下操作:
首先,语音识别装置分别提取出所述声音信号在设定的N个频带上的声学特征,作为所述声音信号的声学特征;
其中,声音信号在频带上的声学特征可以有多种表示方法,如,能量值、幅度值,等等。
然后,语音识别装置将所述N个频带上的声学特征作为特征向量,采用于高斯混合模型(Gaussian Mixed Model,GMM),建立相应的语音模型,再基于所述语音模型,分别计算出每一个声学特征的似然比。
似然比,表示的是在每个频带上的语音信号的初始存在概率,具体的,在计算似然比时,可以基于所述特征向量,采用GMM,获得各个频带上的语音类信号特性参数(如,语音类信号均值、语音类信号方差等等),以及采用GMM,获得各个频带上的干扰类信号特性参数(如,干扰类信号均值、干扰类信号方差等等),采用获得的各类参数,计算出每一个声学特征的似然比,任意一个声学特征的似然比达到设定阈值时,将期望声源的存在概率设置为表示存在期望声源的指定值,确定存在语音信号。
当然,所述GMM仅为举例,实际应用中,还可能采用其他方式建立相应的语音模型。例如:支持向量机(SVM)算法,深度神经网络(DNN)算法,卷积神经网络(CNN)算法、循环神经网络(RNN)算法等等。
进一步的,还可以通过将图像帧中识别的说话对象的身份信息,确定音频帧中存在可能的说话对象的身份信息,进而,可以对其他帧中与该说话对象相关联的音频帧进行快速识别,以减少对第一时段的语音识别的计算量,提高语音识别的实效性。
一种可能的实现方式,所述语音识别模型包括具有不同属性的子模型;该子模型可以是根据不同的说话对象的语音信号训练的。因此,可以先根据所述包含说话对象的图像帧确定所述说话对象的身份信息;进而,根据说话对象的身份信息,确定对应的说话对象的子模型,在选定说话对象的子模型后,将该图像帧和音频帧输入对应的说话对象的子模型中,以提高语音识别效果。
一种可能的实现方式,根据所述包含说话对象的图像帧确定所述说话对象的身份信息;将所述说话对象的身份信息、所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至所述语音识别模型,确定所述说话对象的语音识别结果;其中,所述说话对象的身份信息用于确定对所述说话对象进行语音识别时使用的子模型。
进而,通过语音识别模型,可以确定所述第一说话对象对应的音频帧与所述说话对象对应的图像帧的对应关系;所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的。
上述技术方案中,通过将说话对象的身份信息、包含说话对象的图像帧与所述第一时段采集的音频信号输入至所述语音识别模型,提高了对多个说话对象中单一说话对象的语音识别的准确性,通过关联说话对象的身份信息,可以快速检测该说话对象的对应的图像帧,在确定说话对象的人脸图像后,无需再对当前待识别的图像帧与图像库中的所有人脸图像进行比对,只需与说话对象进行优先比对,提高说话对象的识别效率,并进一步帮助筛选音频帧的音频信号,提高了语音识别的效率和准确率。
本发明实施例中,通过将第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧;进而通过帧对齐,将帧对齐后的所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,进而通过图像帧识别的说话对象,降低环境噪音或其他说话对象对语音识别的干扰,提高语音识别的准确率。
一种可能的实现方式,所述确定所述说话对象对应的语音识别结果之后,还包括:
将所述说话对象对应的音频帧的语音识别结果及说话对象的身份信息以对象指示的方式显示在与所述音频帧存在对应关系的图像帧上,所述对象指示的方式指将所述音频帧的语音识别结果与所述说话对象之间建立关联显示关系。
上述技术方案中,通过在确定所述说话对象对应的语音识别结果之后,直接将说话对象对应的音频帧的语音识别结果及说话对象的身份信息显示在图像上,达到实时显示的效果,提高了监控的可视化。
一种可能的实现方式,所述方法还包括:确定与所述音频帧存在对应关系的所述图像帧中的所述说话对象的人脸中的关键点,并将所述关键点显示在所述图像帧上。
上述技术方案中,通过确定与所述音频帧存在对应关系的所述图像帧中的所述说话对象的人脸中的关键点,可以实现可视化第一说话对象的唇动效果,提高了可视化的监控效果。
基于所述实施例,参阅图3所示,本发明实施例提供了一种基于图像去噪的语音识别装置,包括:
收发单元301,用于获取第一时段采集的音频信号;
处理单元302,用于所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧;所述说话对象为根据所述视频信号中的图像帧中同一人脸的唇动特征确定的;将所述包含说话对象的图像帧与所述第一时段采集的音频信号进行帧对齐;将帧对齐后的所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果。
一种可能的实现方式,处理单元302,具体用于:
针对所述第一时段采集的视频信号中的任一图像帧,对所述图像帧进行人脸识别,确定所述图像帧中包含的各对象;根据所述图像帧中各对象的唇动概率,确定所述图像帧是否为包含说话对象的图像帧;其中,各对象的唇动概率是根据各对象的唇动特征确定的。
一种可能的实现方式,处理单元302,具体用于:对所述第一时段采集的视频信号中的N帧图像进行人脸识别,确定第一对象;对包括所述第一对象的M帧图像中所述第一对象的唇部区域进行唇动检测,确定所述M帧图像中每帧图像的唇动特征;根据所述M帧图像中每帧图像的唇动特征确定每帧图像的唇动概率;N大于或等于M。
一种可能的实现方式,所述语音识别模型包括具有不同属性的子模型;处理单元302,具体用于:
根据所述包含说话对象的图像帧确定所述说话对象的身份信息;将所述说话对象的身份信息、所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至所述语音识别模型,确定所述说话对象的语音识别结果;其中,所述说话对象的身份信息用于确定对所述说话对象进行语音识别时使用的子模型。
本发明实施例提供了一种存储介质,存储有用于语音识别的方法的程序,所述程序被处理器运行时,执行上述实施例中任一项所述的方法。
本发明实施例提供了一种计算机设备,包括一个或多个处理器;以及一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行如上述实施例中任一项所述的方法。
基于上述实施例,参阅图4所示,本发明实施例中,一种计算机设备的结构示意图。
本发明实施例提供了一种计算机设备,该计算机设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的,用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图4中示出的结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别程序。其中,操作系统是管理和控制语音识别的参数获取系统硬件和软件资源的程序,支持所述识别模块,还用于其他程序以及其它软件或程序的运行。
用户接口1003主要用于连接服务器与各个服务器进行数据通信;网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;而处理器1001可以用于调用存储器1005中存储的语音识别程序,并执行以下操作:
所述处理器1001,用于所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧;所述说话对象为根据所述视频信号中的图像帧中同一人脸的唇动特征确定的;将所述包含说话对象的图像帧与所述第一时段采集的音频信号进行帧对齐;将帧对齐后的所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果。
一种可能的实现方式,所述处理器1001,具体用于:
针对所述第一时段采集的视频信号中的任一图像帧,对所述图像帧进行人脸识别,确定所述图像帧中包含的各对象;根据所述图像帧中各对象的唇动概率,确定所述图像帧是否为包含说话对象的图像帧;其中,各对象的唇动概率是根据各对象的唇动特征确定的。
一种可能的实现方式,所述处理器1001,还用于:对所述第一时段采集的视频信号中的N帧图像进行人脸识别,确定第一对象;对包括所述第一对象的M帧图像中所述第一对象的唇部区域进行唇动检测,确定所述M帧图像中每帧图像的唇动特征;根据所述M帧图像中每帧图像的唇动特征确定每帧图像的唇动概率;N大于或等于M。
一种可能的实现方式,所述处理器1001,还用于:根据所述包含说话对象的图像帧确定所述说话对象的身份信息;将所述说话对象的身份信息、所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至所述语音识别模型,确定所述说话对象的语音识别结果;其中,所述说话对象的身份信息用于确定对所述说话对象进行语音识别时使用的子模型。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于图像去噪的语音识别方法,其特征在于,包括:
获取第一时段采集的音频信号;
将所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧;所述说话对象为根据所述视频信号中的图像帧中同一人脸的唇动特征确定的;
将所述包含说话对象的图像帧与所述第一时段采集的音频信号进行帧对齐;
将帧对齐后的所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果。
2.如权利要求1所述的方法,其特征在于,所述将所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧,包括:
针对所述第一时段采集的视频信号中的任一图像帧,对所述图像帧进行人脸识别,确定所述图像帧中包含的各对象;
根据所述图像帧中各对象的唇动概率,确定所述图像帧是否为包含说话对象的图像帧;其中,各对象的唇动概率是根据各对象的唇动特征确定的。
3.如权利要求1所述的方法,其特征在于,所述各对象的唇动概率是根据各对象的唇动特征确定的,包括:对所述第一时段采集的视频信号中的N帧图像进行人脸识别,确定第一对象;
对包括所述第一对象的M帧图像中所述第一对象的唇部区域进行唇动检测,确定所述M帧图像中每帧图像的唇动特征;
根据所述M帧图像中每帧图像的唇动特征确定每帧图像的唇动概率;N大于或等于M。
4.如权利要求1至3任一项所述的方法,其特征在于,所述语音识别模型包括具有不同属性的子模型;
将帧对齐后的所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果,包括:
根据所述包含说话对象的图像帧确定所述说话对象的身份信息;
将所述说话对象的身份信息、所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至所述语音识别模型,确定所述说话对象的语音识别结果;其中,所述说话对象的身份信息用于确定对所述说话对象进行语音识别时使用的子模型。
5.一种基于图像去噪的语音识别装置,其特征在于,包括:
收发单元,用于获取第一时段采集的音频信号;
处理单元,用于所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧;所述说话对象为根据所述视频信号中的图像帧中同一人脸的唇动特征确定的;将所述包含说话对象的图像帧与所述第一时段采集的音频信号进行帧对齐;将帧对齐后的所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果。
6.如权利要求5所述的装置,其特征在于,所述处理单元,具体用于:
针对所述第一时段采集的视频信号中的任一图像帧,对所述图像帧进行人脸识别,确定所述图像帧中包含的各对象;根据所述图像帧中各对象的唇动概率,确定所述图像帧是否为包含说话对象的图像帧;其中,各对象的唇动概率是根据各对象的唇动特征确定的。
7.如权利要求5所述的装置,其特征在于,所述处理单元,具体用于:对所述第一时段采集的视频信号中的N帧图像进行人脸识别,确定第一对象;对包括所述第一对象的M帧图像中所述第一对象的唇部区域进行唇动检测,确定所述M帧图像中每帧图像的唇动特征;根据所述M帧图像中每帧图像的唇动特征确定每帧图像的唇动概率;N大于或等于M。
8.如权利要求5至7任一项所述的装置,其特征在于,所述语音识别模型包括具有不同属性的子模型;所述处理单元,具体用于:
根据所述包含说话对象的图像帧确定所述说话对象的身份信息;将所述说话对象的身份信息、所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至所述语音识别模型,确定所述说话对象的语音识别结果;其中,所述说话对象的身份信息用于确定对所述说话对象进行语音识别时使用的子模型。
9.一种存储介质,其特征在于,存储有用于语音识别的方法的程序,所述程序被处理器运行时,执行如权利要求1至4中任一项所述的方法。
10.一种计算机设备,其特征在于,包括一个或多个处理器;以及
一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行如权利要求1至4中任一项所述的方法。
CN201910818956.5A 2019-08-30 2019-08-30 一种基于图像去噪的语音识别方法及装置 Pending CN110503957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910818956.5A CN110503957A (zh) 2019-08-30 2019-08-30 一种基于图像去噪的语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910818956.5A CN110503957A (zh) 2019-08-30 2019-08-30 一种基于图像去噪的语音识别方法及装置

Publications (1)

Publication Number Publication Date
CN110503957A true CN110503957A (zh) 2019-11-26

Family

ID=68590896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910818956.5A Pending CN110503957A (zh) 2019-08-30 2019-08-30 一种基于图像去噪的语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN110503957A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354353A (zh) * 2020-03-09 2020-06-30 联想(北京)有限公司 一种语音数据处理方法及装置
WO2021169023A1 (zh) * 2020-02-28 2021-09-02 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质
CN113486760A (zh) * 2021-06-30 2021-10-08 上海商汤临港智能科技有限公司 对象说话检测方法及装置、电子设备和存储介质
CN115880737A (zh) * 2021-09-26 2023-03-31 天翼爱音乐文化科技有限公司 一种基于降噪自学习的字幕生成方法、系统、设备及介质
EP4207186A4 (en) * 2020-09-30 2024-01-24 Huawei Technologies Co., Ltd. SIGNAL PROCESSING METHOD AND ELECTRONIC DEVICE

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1930575A (zh) * 2004-03-30 2007-03-14 英特尔公司 分离和评估音频和视频源数据的技术
CN103902963A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 一种识别方位及身份的方法和电子设备
CN109410954A (zh) * 2018-11-09 2019-03-01 杨岳川 一种基于音视频的无监督的多说话人识别装置和方法
CN109410957A (zh) * 2018-11-30 2019-03-01 福建实达电脑设备有限公司 基于计算机视觉辅助的正面人机交互语音识别方法及系统
CN110082723A (zh) * 2019-05-16 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1930575A (zh) * 2004-03-30 2007-03-14 英特尔公司 分离和评估音频和视频源数据的技术
CN103902963A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 一种识别方位及身份的方法和电子设备
CN109410954A (zh) * 2018-11-09 2019-03-01 杨岳川 一种基于音视频的无监督的多说话人识别装置和方法
CN109410957A (zh) * 2018-11-30 2019-03-01 福建实达电脑设备有限公司 基于计算机视觉辅助的正面人机交互语音识别方法及系统
CN110082723A (zh) * 2019-05-16 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021169023A1 (zh) * 2020-02-28 2021-09-02 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质
CN111354353A (zh) * 2020-03-09 2020-06-30 联想(北京)有限公司 一种语音数据处理方法及装置
CN111354353B (zh) * 2020-03-09 2023-09-19 联想(北京)有限公司 一种语音数据处理方法及装置
EP4207186A4 (en) * 2020-09-30 2024-01-24 Huawei Technologies Co., Ltd. SIGNAL PROCESSING METHOD AND ELECTRONIC DEVICE
CN113486760A (zh) * 2021-06-30 2021-10-08 上海商汤临港智能科技有限公司 对象说话检测方法及装置、电子设备和存储介质
CN115880737A (zh) * 2021-09-26 2023-03-31 天翼爱音乐文化科技有限公司 一种基于降噪自学习的字幕生成方法、系统、设备及介质
CN115880737B (zh) * 2021-09-26 2024-04-19 天翼爱音乐文化科技有限公司 一种基于降噪自学习的字幕生成方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN110503957A (zh) 一种基于图像去噪的语音识别方法及装置
US10621991B2 (en) Joint neural network for speaker recognition
CN112889108B (zh) 使用视听数据进行说话分类
CN111476871B (zh) 用于生成视频的方法和装置
CN110298906B (zh) 用于生成信息的方法和装置
CN110600017A (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
US20170060828A1 (en) Gesture based annotations
CN110545396A (zh) 一种基于定位去噪的语音识别方法及装置
KR20150031896A (ko) 음성인식장치 및 그 동작방법
CN111883107B (zh) 语音合成、特征提取模型训练方法、装置、介质及设备
CN110544479A (zh) 一种去噪的语音识别方法及装置
WO2021196648A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
CN110059623B (zh) 用于生成信息的方法和装置
CN108877787A (zh) 语音识别方法、装置、服务器及存储介质
Tao et al. Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection.
US9165182B2 (en) Method and apparatus for using face detection information to improve speaker segmentation
CN110310642A (zh) 语音处理方法、系统、客户端、设备和存储介质
CN110544491A (zh) 一种实时关联说话人及其语音识别结果的方法及装置
CN116665695B (zh) 虚拟对象口型驱动方法、相关装置和介质
CN113343831A (zh) 视频中说话人分类方法、装置、电子设备和存储介质
CN111901627A (zh) 视频处理方法、装置、存储介质及电子设备
CN111341333B (zh) 噪声检测方法、噪声检测装置、介质及电子设备
RU2721180C1 (ru) Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его
Friedland et al. Dialocalization: Acoustic speaker diarization and visual localization as joint optimization problem
JP2023549411A (ja) 音声通話の制御方法、装置、コンピュータプログラム及び電子機器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191126