CN113129893B

CN113129893B - 一种语音识别方法、装置、设备及存储介质

Info

Publication number: CN113129893B
Application number: CN201911397070.4A
Authority: CN
Inventors: 郝杰
Original assignee: Oppo Chongqing Intelligent Technology Co Ltd
Current assignee: Oppo Chongqing Intelligent Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2022-09-02
Anticipated expiration: 2039-12-30
Also published as: CN113129893A

Abstract

本申请实施例公开了一种语音识别方法、装置、设备及存储介质，该方法包括：获取至少两个用户在同一场景中发言的语音信息，以及所述场景中包含所述用户的视频图像；基于所述语音信息的音频特征，从所述语音信息中获取只包含一个用户声音的至少一段子语音信息；基于所述至少一段子语音信息的起止时间段，确定所述视频图像中的至少一段子视频图像；基于所述至少一段子视频图像和所述至少一段子语音信息，确定目标用户发出的语音信息。如此，通过视频信息和语音信息来综合判断不同用户所发出的语音信息，能够在多人会话场景中准确识别不同用户所发出的语音信息，进而提高后续语音识别的准确性。

Description

一种语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音技术，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

随着语音识别技术的发展，通过语音信息控制终端已经被广泛应用在各种移动终端、智能家电上。但目前语音识别技术仍存在语音识别不准确的问题，比如，对于多人会话的场景，如何准确识别不同用户的语音信息仍然是语音识别技术中一项亟待解决的问题。

发明内容

为解决上述技术问题，本申请实施例期望提供一种语音识别方法、装置、设备及存储介质。

本申请的技术方案是这样实现的：

第一方面，提供了一种语音识别方法，该方法包括：

获取至少两个用户在同一场景中发言的语音信息，以及所述场景中包含所述用户的视频图像；

基于所述语音信息的音频特征，从所述语音信息中获取只包含一个用户声音的至少一段子语音信息；

基于所述至少一段子语音信息的起止时间段，确定所述视频图像中的至少一段子视频图像；

基于所述至少一段子视频图像和所述至少一段子语音信息，确定目标用户发出的语音信息。

上述方案中，所述基于所述至少一段子视频图像和所述至少一段子语音信息，确定目标用户发出的语音信息，包括：从所述至少一段子语音信息中获取第一子语音信息，以及获取所述第一子语音信息对应的第一起止时间段；其中，所述第一子语音信息为所述至少一段子语音信息中的任意一段子语音信息；从所述至少一段子视频图像中确定所述第一起止时间段对应的第一子视频图像；基于所述第一子视频图像中的用户唇部特征，确定所述第一子视频图像中执行讲话动作的目标用户；确定所述第一子语音信息为所述目标用户发出的语音信息。

上述方案中，所述基于所述第一子视频图像中的用户唇部特征，确定所述第一子视频图像中执行讲话动作的目标用户，包括：识别所述第一子视频图像中的至少一个用户唇部的变化特征；将所述至少一个用户唇部的变化特征与用户讲话时的唇部标准特征进行匹配，确定匹配成功的唇部；将匹配成功的唇部对应的用户作为所述目标用户。

上述方案中，所述确定目标用户发出的语音信息还包括：对所述第一子语音信息进行特征提取，获取所述第一子语音信息的音频特征；从所述语音信息中确定音频特征与所述第一子语音信息的音频特征匹配的第二子语音信息；将所述第二子语音信息作为所述目标用户发出的语音信息。

上述方案中，所述从所述语音信息中确定音频特征与所述第一子语音信息的音频特征匹配的第二子语音信息，包括：将所述语音信息中的其他子语音信息的音频特征与所述第一子语音信息的音频特征进行匹配，确定匹配成功的第二子语音信息；其中，所述其他子语音信息为所述语音信息中除所述至少一段子语音信息之外的语音信息。

上述方案中，所述基于所述至少一段子语音信息的起止时间段，确定所述视频图像中的至少一段子视频图像，包括：基于所述至少一段子语音信息的起止时间段，确定每一个起止时间段在所述视频图像中对应的子视频图像。

上述方案中，所述方法还包括：根据所述目标用户发出的语音信息识别对应的文本信息；保存所述目标用户对应的文本信息。

第二方面，提供了一种语音识别装置，该装置包括：

获取单元，用于获取至少两个用户在同一场景中发言的语音信息，以及所述场景中包含所述用户的视频图像；

处理单元，用于基于所述语音信息的音频特征，从所述语音信息中获取只包含一个用户声音的至少一段子语音信息；基于所述至少一段子语音信息的起止时间段，确定所述视频图像中的至少一段子视频图像；

所述处理单元，还用于基于所述至少一段子视频图像和所述至少一段子语音信息，确定目标用户发出的语音信息。

第三方面，提供了一种语音识别设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器配置为运行所述计算机程序时，执行前述方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现前述方法的步骤。

本申请实施例提供了一种语音识别方法、装置、设备及存储介质，该方法包括：获取至少两个用户在同一场景中发言的语音信息，以及所述场景中包含所述用户的视频图像；基于所述语音信息的音频特征，从所述语音信息中获取只包含一个用户声音的至少一段子语音信息；基于所述至少一段子语音信息的起止时间段，确定所述视频图像中的至少一段子视频图像；基于所述至少一段子视频图像和所述至少一段子语音信息，确定目标用户发出的语音信息。如此，通过视频信息和语音信息来综合判断不同用户所发出的语音信息，能够在多人会话场景中准确识别不同用户所发出的语音信息，进而提高后续语音识别的准确性。

附图说明

图1为本申请实施例中语音识别方法的第一流程示意图；

图2为本申请实施例中目标空间的组成结构示意图；

图3为本申请实施例中语音识别方法的第二流程示意图；

图4为本申请实施例中语音识别方法的第三流程示意图；

图5为本申请实施例中语音识别装置的组成结构示意图；

图6为本申请实施例中语音识别设备的组成结构示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

本申请实施例提供了一种语音识别方法，图1为本申请实施例中语音识别方法的第一流程示意图，如图1所示，该方法具体可以包括：

步骤101：获取至少两个用户在同一场景中发言的语音信息，以及所述场景中包含所述用户的视频图像；

步骤102：基于所述语音信息的音频特征，从所述语音信息中获取只包含一个用户声音的至少一段子语音信息；

步骤103：基于所述至少一段子语音信息的起止时间段，确定所述视频图像中的至少一段子视频图像；

步骤104：基于所述至少一段子视频图像和所述至少一段子语音信息，确定目标用户发出的语音信息。

这里，步骤101至步骤104的执行主体可以为语音识别装置的处理器。这里，语音识别装置可以为终端设备或者服务器。终端可以为移动终端或者固定终端。比如，智能手机、个人电脑(例如平板电脑、台式电脑、笔记本、上网本、掌上电脑)、移动电话、电子书阅读器、便携式多媒体播放器、音频/视频播放器、摄像机、虚拟现实设备和可穿戴设备等。

实际应用中，在两人以上的会话场景(比如，会议场景、报告场景、电话交谈场景等)中存在至少两个用户的语音信息，在一个时间段内一个用户的语音信息单独出现或者多个用户的语音信息交叠出现，语音信息中还可以包含背景噪音。这种会话场景由于背景噪音和用户语音之间的相互影响导致语音识别难度增大，识别准确率降低。

实际应用中，获取语音信息和视频图像的方法具体可以包括：检测到触发指令时，获取目标空间中语音采集单元采集的至少两个用户的语音信息，以及目标空间中图像采集单元采集包含用户的视频图像。

这里，触发指令可以是语音识别装置在检测到触发事件时生成触发指令。比如，触发事件可以为用户发出声音，或者用户操作启动开关等。

语音采集单元和图像采集单元可以独立于语音识别装置单独存在，或者存在于语音识别装置上。比如，当语音识别装置为终端时，终端上可以具备语音采集单元和图像采集单元，终端直接处理二者采集的语音信息和图像信息。当语音识别装置为服务器时，语音采集单元和图像采集单元独立与服务器单独存在，二者将采集到的语音信息和图像信息发送得到后端服务器进行处理。这里，语音采集单元可以由一个或多个麦克风组成，图像采集单元可以由一个或多个摄像头组成。

实际应用中，在目标空间中包含一个或多个语音采集单元，语音采集单元用于协同采集目标空间中多个用户发出的声音。具体的，获取语音采集单元采集的至少两个用户的语音信息可以包括：控制至少一个语音采集单元采集目标空间中的至少两个用户的发出的语音信息。

实际应用中，在目标空间中包含一个或多个图像采集单元，图像采集单元用于协同采集目标空间中多个用户的视频图像。具体的，视频图像是包含用户唇部的视频图像，获取图像采集单元采集包含用户的视频图像可以包括：控制至少一个图像采集单元采集目标空间中的至少两个用户唇部的视频图像。比如，当目标空间包含一个摄像头时，目标空间中的至少两个人需要面对摄像头使摄像头能够采集到包含每一个用户唇部的视频图像。当目标空间包含多个摄像头时，一个用户可以面对一个摄像头，或者两个以上用户面对一个摄像头，使多个摄像头能够采集到包含每一个用户唇部的视频图像。

具体的，当包含至少两个图像采集单元时，控制至少两个图像采集单元采集包含用户唇部的至少两个视频图像。相应的步骤103具体包括：基于第一子语音信息的第一起止时间段，确定所述至少两个视频图像分别对应的子视频图像；从至少两个视频图像分别对应的子视频图像中确定满足预设讲话条件的子视频图像。

也就是说，当获取到至少两个视频图像时，采用同样的方法确定每一个视频图像中相同时间段的子视频图像，再从确定的至少两个子视频图像中确定包含用户唇部运动的子视频图像。

图2为本申请实施例中目标空间的组成结构示意图，如图2所示，目标空间中包括：第一麦克风21、第二麦克风22、第三麦克风23和摄像头24。其中，第一麦克风21、第二麦克风22、第三麦克风23分别位于目标空间中的不同位置，摄像头24用于拍摄三个用户的脸部视频。

实际应用中，还可以在三个用户的前面分别配置有摄像头，用于拍摄不同用户的脸部视频。

在一些实施例中，所述基于所述语音信息的音频特征，从所述语音信息中获取只包含一个用户声音的至少一段子语音信息，包括：基于所述语音信息的音频特征，确定所述语音信息中包含用户声音的子语音信息；从包含用户声音的子语音信息中确定只包含一个用户声音的至少一段子语音信息。

实际应用中，麦克风获取语音信息，摄像头获取说话人的视频信息，由于音频信息中会存在某些时间段只包含一个用户声音的情况，可以从语音信息中直接确定只包含一个说话声的语音片段；或者，先从语音信息中确定包含说话声的语音片段，再进一步的从这些语音片段中确定只包含一个说话声的语音片段。如此，通过预处理去除只包含背景噪声的语音片段，保留包含说话声的有效语音片段，再从这些有效语音片段中获取只包含一个用户声音的语音片段，从而提高语音处理效率。

本申请实施例中，由于语音信息和视频信息的时间轴是以所在地的标准时间为准的，可以确定某一标准时间段内采集到的语音片段和视频片段。比如，对于只包含一个说话声的第一语音片段，第一语音片段对应的第一起止时间段在视频信息中对应的第一视频片段一定也只有一个用户的唇部有说话动作。因此，确定在第一起止时间段内有说话动作的唇部对应的用户即为目标用户，第一语音片段即为目标用户发出的语音信息。

这里，基于所述至少一段子视频图像和所述至少一段子语音信息，确定目标用户发出的语音信息，即基于至少一段子视频图像和至少一段子语音信息，确定子视频图像中的目标用户对应的子语音信息。不同子视频图像指示同一用户在进行讲话，则子视频图像对应的子语音信息皆为该用户的语音信息，不同子视频图像指示不同用户在进行讲话，则子视频图像对应的子语音信息为不同用户的语音信息。

步骤104具体可以包括：从所述至少一段子语音信息中获取第一子语音信息，以及获取所述第一子语音信息对应的第一起止时间段；其中，所述第一子语音信息为所述至少一段子语音信息中的任意一段子语音信息；从所述至少一段子视频图像中确定所述第一起止时间段对应的第一子视频图像；基于所述第一子视频图像中的用户唇部特征，确定所述第一子视频图像中执行讲话动作的目标用户；确定所述第一子语音信息为所述目标用户发出的语音信息。也就是说，确定子视频图像中目标用户发出的语音信息。

在一些实施例中，该方法还包括：保存目标用户发出的语音信息。实际应用中，对于多人会话的场景，采集到的语音信息包含多个用户的语音信息，识别不同用户发出的语音信息，并对语音信息进行分离操作，单独保存不同用户发出的语音信息。

在一些实施例中，该方法还包括：根据所述目标用户发出的语音信息识别对应的文本信息；保存所述目标用户对应的文本信息。

也就是说，当确定语音信息中不同用户对应的语音信息时，将不同用户的语音信息转化为文本信息，并记录不同用户对比文件信息。比如，在多人对话的会议场景中，记录不同用户的文本信息作为会议纪要。

在上述实施例的基础上还提供了一种更详细的语音识别方法，图3为本申请实施例中语音识别方法的第二流程示意图，如图3所示，该方法包括：

步骤301：获取至少两个用户在同一场景中发言的语音信息，以及所述场景中包含所述用户的视频图像；

实际应用中，在目标空间中包含一个或多个图像采集单元，图像采集单元用于协同采集目标空间中多个用户唇部的视频图像。具体的，获取图像采集单元采集的包含用户唇部的视频图像可以包括：控制至少一个图像采集单元采集目标空间中的至少两个用户唇部的视频图像。比如，当目标空间包含一个摄像头时，目标空间中的至少两个人需要面对摄像头使摄像头能够采集到包含每一个用户唇部的视频图像。当目标空间包含多个摄像头时，一个用户可以面对一个摄像头，或者两个以上用户面对一个摄像头，使多个摄像头能够采集到包含每一个用户唇部的视频图像。

步骤302：基于所述语音信息的音频特征，从所述语音信息中获取只包含一个用户声音的至少一段子语音信息；

具体的，基于所述语音信息的音频特征，确定所述语音信息中包含用户声音的子语音信息；从包含用户声音的子语音信息中确定只包含一个用户声音的至少一段子语音信息。

对语音信息进行语音识别处理，根据用户声音的音频特征从语音信息筛选出多个子语音信息(或者称语音片段)，这里，得到的子语音信息中包含多个用户的混合声音和单个用户声音；进一步筛选出只包含单个用户声音的子语音信息。

步骤303：基于所述至少一段子语音信息的起止时间段，确定所述视频图像中的至少一段子视频图像；

具体的，基于所述至少一段子语音信息的起止时间段，确定每一个起止时间段在所述视频图像中对应的子视频图像。

实际应用中，可以利用隐马尔科夫模型或者高斯混合模型进行建模，来识别语音信息中的静音片段和用户言语片段，还可以识别用户言语片段中的混合用户声音的片段和单独用户声音的片段。

步骤304：从所述至少一段子语音信息中获取第一子语音信息，以及获取所述第一子语音信息对应的第一起止时间段；其中，所述第一子语音信息为所述至少一段子语音信息中的任意一段子语音信息；

步骤305：从所述至少一段子视频图像中确定所述第一起止时间段对应的第一子视频图像；

实际应用中，一段起止时间分别对应一段子语音信息和一段子视频图像。从不同子视频图像中确定的正在讲话的用户是相同的或者不同的。比如，第一起止时间段对应第一子语音信息和第一子视频图像，第二起止时间段对应第二子语音信息和第二子视频图像；从第一子视频图像中识别正在讲话的用户为用户A，从第二子视频图像中识别正在讲话的用户为用户B；用户A和用户B可以相同也可以不同，当相同时则第一子语音信息和第二子语音信息均为该用户的语音信息；当不相同时则第一子语音信息为用户A的语音信息，第二子语音信息为用户B的语音信息。

步骤306：基于所述第一子视频图像中的用户唇部特征，确定所述第一子视频图像中执行讲话动作的目标用户；

这里，第一子视频图像中只有一个用户在进行讲话，也就是说，只有一个用户的唇部特征在第一子视频图像中与讲话时唇部标准特征匹配，因此，将匹配的唇部对应的用户作为第一子视频图像的目标用户，同一起止时间段内的第一子语音信息也就是该目标用户发出的语音信息。

在一些实施例中，所述基于所述第一子视频图像中的用户唇部特征，确定所述第一子视频图像中执行讲话动作的目标用户，包括：识别所述第一子视频图像中的至少一个用户唇部的变化特征；将所述至少一个用户唇部的变化特征与用户讲话时的唇部标准特征进行匹配，确定匹配成功的唇部；将匹配成功的唇部对应的用户作为所述目标用户。

上述视频图像中唇部特征提取步骤主要是为了得到人在说话过程中的唇部轮廓参数。实现过程可以为首先对唇色进行分析，增强唇色，对图像进行二值化处理，然后根据嘴唇的形状特征四条曲线来构造唇部的轮廓。

具体的，获取用户脸部图像序列；对所获取的用户脸部图像序列中的唇部区域进行识别，获得用户唇部特征序列；将所获得的用户唇部特征序列与终端预存的唇部标准特征序列进行匹配处理；确定匹配的成功的唇部；将匹配成功的唇部对应的用户作为所述目标用户。

用户讲话时的唇部标准特征是从视频样本库中提取得到的，视频样本库中包含了不同人讲话时唇部运动的视频图像。

同样可以利用隐马尔科夫模型或者高斯混合模型进行建模，来识别视频图像中的用户唇部特征和用户。

步骤307：确定所述第一子语音信息为所述目标用户发出的语音信息。

在一些实施例中，所述确定目标用户发出的语音信息还包括：对所述第一子语音信息进行特征提取，获取所述第一子语音信息的音频特征；从所述语音信息中确定音频特征与所述第一子语音信息的音频特征匹配的第二子语音信息；将所述第二子语音信息作为所述目标用户发出的语音信息。

也就是说，目标用户发出的语音信息除了包括步骤301中的至少一段子语音信息中的至少部分子语音信息，还包括多个用户声音交叠在一起的子语音信息中的部分语音信息。

具体的，从语音信息中确定音频特征与所述第一子语音信息的音频特征匹配的第二子语音信息，包括：将语音信息中的其他子语音信息的音频特征与所述第一子语音信息的音频特征进行匹配，确定匹配成功的第二子语音信息；其中，所述其他子语音信息为所述语音信息中除所述至少一段子语音信息之外的语音信息，或者其他子语音信息是除所述至少一段子语音信息和不包含用户声音的子语音信息之外的语音信息。

由于语音信号在时域上的变化快速而不稳定，所以通常都将它转换到频域上来观察，此时它的频谱会随着时间作缓慢的变化。比如，音频特征的提取方法包括：首先对输入的语音信号进行分帧、加窗，然后作离散傅立叶变换，获得频谱分布信息；再求频谱幅度的平方，得到频率谱；最后从频率谱中获取音频特征。

采用上述技术方案，通过视频信息和语音信息来综合判断不同用户所发出的语音信息，能够在多人会话场景中准确识别不同用户所发出的语音信息，进而提高后续语音识别的准确性。

在上述实施例的基础上还提供了一种更详细的语音识别方法，图4为本申请实施例中语音识别方法的第三流程示意图，如图4所示，该方法包括：

步骤401：获取至少两个用户在同一场景中发言的语音信息，以及所述场景中包含所述用户的视频图像；

步骤402：基于所述语音信息的音频特征，从所述语音信息中获取只包含一个用户声音的至少一段子语音信息；

具体的，通过对语音信息进行语音识别处理，获得用户音频特征序列；根据音频特征序列划分语音信息得到多个子语音信息(本申请实施例中也称语音片段)；进而确定只包含一个用户声音的至少一段子语音信息。这里，划分后的多个子语音信息中包括一个用户声音的语音片段、多个用户声音的语音片段或者不包含用户声音的语音片段，进一步的从划分后的多个子语音信息中确定只包含一个用户声音的语音片段。

步骤403：基于所述至少一段子视频图像和所述至少一段子语音信息，确定目标用户发出的语音信息；

步骤404：基于所述至少一段子视频图像和所述至少一段子语音信息，确定目标用户发出的语音信息；

步骤405：根据所述目标用户发出的语音信息识别对应的文本信息；

步骤406：保存所述目标用户对应的文本信息。

本申请实施例中还提供了一种语音识别装置，如图5所示，该装置包括：

获取单元501，用于获取至少两个用户在同一场景中发言的语音信息，以及所述场景中包含所述用户的视频图像；

处理单元502，用于基于所述语音信息的音频特征，从所述语音信息中获取只包含一个用户声音的至少一段子语音信息；基于所述至少一段子语音信息的起止时间段，确定所述视频图像中的至少一段子视频图像；

所述处理单元502，还用于基于所述至少一段子视频图像和所述至少一段子语音信息，确定目标用户发出的语音信息。

在一些实施例中，处理单元502，具体用于从所述至少一段子语音信息中获取第一子语音信息，以及获取所述第一子语音信息对应的第一起止时间段；其中，所述第一子语音信息为所述至少一段子语音信息中的任意一段子语音信息；从所述至少一段子视频图像中确定所述第一起止时间段对应的第一子视频图像；基于所述第一子视频图像中的用户唇部特征，确定所述第一子视频图像中执行讲话动作的目标用户；确定所述第一子语音信息为所述目标用户发出的语音信息。

在一些实施例中，处理单元502，具体用于识别所述第一子视频图像中的至少一个用户唇部的变化特征；将所述至少一个用户唇部的变化特征与用户讲话时的唇部标准特征进行匹配，确定匹配成功的唇部；将匹配成功的唇部对应的用户作为所述目标用户。

在一些实施例中，处理单元502，还用于对所述第一子语音信息进行特征提取，获取所述第一子语音信息的音频特征；从所述语音信息中确定音频特征与所述第一子语音信息的音频特征匹配的第二子语音信息；将所述第二子语音信息作为所述目标用户发出的语音信息。

在一些实施例中，处理单元502，具体用于将所述语音信息中的其他子语音信息的音频特征与所述第一子语音信息的音频特征进行匹配，确定匹配成功的第二子语音信息；其中，所述其他子语音信息为所述语音信息中除所述至少一段子语音信息之外的语音信息。

在一些实施例中，处理单元502，具体用于基于所述至少一段子语音信息的起止时间段，确定每一个起止时间段在所述视频图像中对应的子视频图像。

在一些实施例中，处理单元502，还用于根据所述目标用户发出的语音信息识别对应的文本信息；保存所述目标用户对应的文本信息。

本申请实施例还提供了另一种语音识别设备，如图6所示，该设备包括：处理器601和配置为存储能够在处理器上运行的计算机程序的存储器602；处理器601运行存储器602中计算机程序时实现前述方法的。

当然，实际应用时，如图6所示，该设备中的各个组件通过总线系统603耦合在一起。可理解，总线系统603用于实现这些组件之间的连接通信。总线系统603除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统603。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。

在实际应用中，上述处理器可以为特定用途集成电路(ASIC，ApplicationSpecific Integrated Circuit)、数字信号处理装置(DSPD，Digital Signal ProcessingDevice)、可编程逻辑装置(PLD，Programmable Logic Device)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述存储器可以是易失性存储器(volatile memory)，例如随机存取存储器(RAM，Random-Access Memory)；或者非易失性存储器(non-volatile memory)，例如只读存储器(ROM，Read-Only Memory)，快闪存储器(flash memory)，硬盘(HDD，Hard Disk Drive)或固态硬盘(SSD，Solid-State Drive)；或者上述种类的存储器的组合，并向处理器提供指令和数据。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

基于所述至少一段子视频图像和所述至少一段子语音信息，确定目标用户发出的语音信息；

其中，所述基于所述至少一段子视频图像和所述至少一段子语音信息，确定目标用户发出的语音信息，包括：

从所述至少一段子语音信息中获取第一子语音信息，以及获取所述第一子语音信息对应的第一起止时间段；其中，所述第一子语音信息为所述至少一段子语音信息中的任意一段子语音信息；

从所述至少一段子视频图像中确定所述第一起止时间段对应的第一子视频图像；

基于所述第一子视频图像中的用户唇部特征，确定所述第一子视频图像中执行讲话动作的目标用户；

确定所述第一子语音信息为所述目标用户发出的语音信息；

根据所述目标用户发出的语音信息识别对应的文本信息。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一子视频图像中的用户唇部特征，确定所述第一子视频图像中执行讲话动作的目标用户，包括：

识别所述第一子视频图像中的至少一个用户唇部的变化特征；

将所述至少一个用户唇部的变化特征与用户讲话时的唇部标准特征进行匹配，确定匹配成功的唇部；

将匹配成功的唇部对应的用户作为所述目标用户。

3.根据权利要求1所述的方法，其特征在于，所述确定目标用户发出的语音信息还包括：

对所述第一子语音信息进行特征提取，获取所述第一子语音信息的音频特征；

从所述语音信息中确定音频特征与所述第一子语音信息的音频特征匹配的第二子语音信息；

将所述第二子语音信息作为所述目标用户发出的语音信息。

4.根据权利要求3所述的方法，其特征在于，所述从所述语音信息中确定音频特征与所述第一子语音信息的音频特征匹配的第二子语音信息，包括：

将所述语音信息中的其他子语音信息的音频特征与所述第一子语音信息的音频特征进行匹配，确定匹配成功的第二子语音信息；

其中，所述其他子语音信息为所述语音信息中除所述至少一段子语音信息之外的语音信息。

5.根据权利要求1所述的方法，其特征在于，所述基于所述至少一段子语音信息的起止时间段，确定所述视频图像中的至少一段子视频图像，包括：

基于所述至少一段子语音信息的起止时间段，确定每一个起止时间段在所述视频图像中对应的子视频图像。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

保存所述目标用户对应的文本信息。

7.一种语音识别装置，其特征在于，所述装置包括：

所述处理单元，还用于基于所述至少一段子视频图像和所述至少一段子语音信息，确定目标用户发出的语音信息；

所述处理单元，还用于从所述至少一段子语音信息中获取第一子语音信息，以及获取所述第一子语音信息对应的第一起止时间段；其中，所述第一子语音信息为所述至少一段子语音信息中的任意一段子语音信息；从所述至少一段子视频图像中确定所述第一起止时间段对应的第一子视频图像；基于所述第一子视频图像中的用户唇部特征，确定所述第一子视频图像中执行讲话动作的目标用户；确定所述第一子语音信息为所述目标用户发出的语音信息；根据所述目标用户发出的语音信息识别对应的文本信息。

8.一种语音识别设备，其特征在于，所述设备包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行权利要求1至6任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6任一项所述的方法的步骤。