CN113596572A

CN113596572A - 一种语音识别方法、装置、存储介质及电子设备

Info

Publication number: CN113596572A
Application number: CN202110854975.0A
Authority: CN
Inventors: 杨柳
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-11-02

Abstract

本申请公开了一种语音识别方法、装置、存储介质及电子设备，其中，方法包括：获取多媒体数据流，所述多媒体数据流包括视频数据和音频数据，获取所述音频数据中的声纹信息，查找与所述声纹信息相关联的图片数据，采用所述图片数据对所述视频数据进行合成处理，输出所述音频数据和合成处理后的所述视频数据。采用本申请，通过拆分出多媒体数据流中的音频数据，比对音频数据中的声纹信息并匹配相关联的图片，丰富视频内容，提升视频的趣味性，采用声纹信息进行比对提高语音识别的准确性，提升视频应用的使用效果。

Description

一种语音识别方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音识别方法、装置、存储介质及电子设备。

背景技术

网络直播、在线视频逐渐走进人们的网络生活，但是人们在终端设备上利用视频应用观看网络直播或在线视频时，只能观看从网络中获取到的视频内容，尤其是网络直播，若观众只能观看到主播的摄影机所采集的视频内容，则会使得视频内容单一，视频内容的丰富性较差，降低了视频应用的使用效果。

发明内容

本申请实施例提供了一种语音识别方法、装置、存储介质及电子设备，可以通过比对音频数据中的声纹信息并匹配相关联的图片，丰富视频内容，提升视频的趣味性，采用声纹信息进行比对提高语音识别的准确性，提升视频应用的使用效果。所述技术方案如下：

第一方面，本申请实施例提供了一种语音识别方法，所述方法包括：

获取多媒体数据流，所述多媒体数据流包括视频数据和音频数据；

获取所述音频数据中的声纹信息，查找与所述声纹信息相关联的图片数据；

采用所述图片数据对所述视频数据进行合成处理，输出所述音频数据和合成处理后的所述视频数据。

第二方面，本申请实施例提供了一种语音识别装置，所述装置包括：

数据流获取模块，用于获取多媒体数据流，所述多媒体数据流包括视频数据和音频数据；

声纹识别模块，用于获取所述音频数据中的声纹信息，查找与所述声纹信息相关联的图片数据；

合成处理模块，用于采用所述图片数据对所述视频数据进行合成处理，输出所述音频数据和合成处理后的所述视频数据。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

在本申请一个或多个实施例中，获取多媒体数据流，所述多媒体数据流包括视频数据和音频数据，获取所述音频数据中的声纹信息，查找与所述声纹信息相关联的图片数据，采用所述图片数据对所述视频数据进行合成处理，输出所述音频数据和合成处理后的所述视频数据。通过拆分出多媒体数据流中的音频数据，比对音频数据中的声纹信息并匹配相关联的图片，丰富了视频内容，提升了视频的趣味性，采用声纹信息进行比对提高了语音识别的准确性，提升了视频应用的使用效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种终端设备的结构示意图；

图2是本申请实施例提供的一种语音识别方法的流程示意图；

图3是本申请实施例提供的一种语音识别方法的流程示意图；

图3a是本申请实施例提供的一种图片数据查找的举例示意图；

图3b是本申请实施例提供的一种视频数据片段获取的举例示意图；

图3c是本申请实施例提供的一种合成处理的举例示意图；

图4是本申请实施例提供的一种进行直播活动的举例示意图；

图4a是本申请实施例提供的一种语音识别方法的流程示意图；

图5是本申请实施例提供的一种语音识别装置的结构示意图；

图6是本申请实施例提供的一种语音识别装置的结构示意图；

图7是本申请实施例提供的一种电子设备的结构示意图；

图8是本申请实施例提供的操作系统和用户空间的结构示意图；

图9是图7中安卓操作系统的架构图；

图10是图7中IOS操作系统的架构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的语音识别方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的语音识别装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。本申请实施例中的语音识别装置可以为手机、个人电脑、平板电脑、手持设备、车载设备、可穿戴设备等具有显示功能的终端设备，也可以为终端设备中可以执行语音识别方法的模块，所述终端设备也可以为具有摄像功能，且能将通过摄像功能采集到的多媒体数据流上传至网络的直播设备。请参见图1，为本申请实施例提供了一种终端设备的结构示意图，所述终端设备包括解封装模组、音频解码器、视频解码器、声纹识别模组、图层合成模组、音频输出模组和视频输出模组。音频解码器一端与解封装模组相连接，另一端与声纹识别模组相连接；视频解码器一段与解封装模组相连接，另一端与图层合成模组相连接；声纹识别模组与图层合成模组相连接，声纹识别模组与音频输出模组相连接，图层合成模组与视频输出模组相连接。可以理解的是，终端设备可以从视频应用中获取多媒体数据流，所述多媒体数据流可以为视频应用从终端设备的本地存储中或从网络中获取的，也可以为视频应用调用终端设备上的摄像功能所采集到的，所述多媒体数据流将视频数据和音频数据封装在一起，因为视频数据就只有图像没有声音而音频数据就只有声音没有图像。解封装模组获取到多媒体数据流后，会对多媒体数据流中的原始视频数据和原始音频数据进行解封装，即将原始视频数据和原始音频数据拆分开来，所述原始视频数据包含有视频数据但并不能直接播放，同理原始音频数据包含有音频数据但不能直接播放。解封装模组将原始音频数据传输至音频解码器进行解码，生成音频数据，解封装模组将原始视频数据传输至视频解码器进行解码，生成视频数据。

终端设备的用户可以向终端设备输入样本声纹信息，例如向终端设备输入语音信息，终端设备可以获取语音信息中的样本声纹信息，用户还可以在终端设备中设置与样本声纹信息相关联的图片数据，将样本声纹信息和图片数据均存储在数据集合中。音频解码器将所述音频数据传输至声纹识别模组，声纹识别模组获取音频数据中的声纹信息，并在数据集合中查找与声纹信息相匹配的样本声纹信息，基于样本声纹信息查找与样本声纹信息相匹配的图片数据，声纹识别模组将图片数据传输至图层合成模组，将音频数据传输至音频输出模组，所述音频输出模组经由视频应用在终端设备上输出音频数据，也可以将音频数据通过视频应用上传至网络。可以理解的是，声纹识别模组可以为一种封装有开源声纹识别模块接口的音频管理器，可音频管理器可以通过开源声纹识别模块接口接入声纹识别模块，例如深度语音识别框架(wav2letter++)，当音频管理器接收到音频数据时，可以将音频数据进行复制处理，生成音频副本数据，将音频副本数据采用wav2letter++来采集声纹信息并在数据集合中查找相匹配的样本声纹信息。

视频解码器将视频数据传输至图层合成模组，图层合成模组将图片数据与视频数据进行合成处理，例如可以将图片数据对应的图片图层与视频数据对应的视频图层进行合成处理，将图片图层叠加在视频图层之上，然后视频解码器将合成处理后的视频数据传输至视频输出模组，视频输出模组可以经由视频应用在终端设备的显示屏上显示合成处理后的视频数据，也可以将合成处理后的视频数据通过视频应用上传至网络。

可以理解的是，若用户利用终端设备上的视频应用进行直播活动，则可以通过终端设备的摄像功能采集到多媒体数据流，并根据用户直播时所说的语音中的声纹信息查找相关联的图片数据，将图片数据和视频数据进行合成处理，然后在网络上直播输出音频数据和合成处理后的视频数据。

下面结合具体的实施例对本申请提供的语音识别方法进行详细说明。

请参见图2，为本申请实施例提供了一种语音识别方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤S101-S104。

S101，获取多媒体数据流，所述多媒体数据流包括视频数据和音频数据。

具体的，终端设备可以从视频应用中获取多媒体数据流，所述视频应用安装于终端设备中，可以用于观看视频、直播等，也可以用于上传视频、直播，所述多媒体数据流可以是来自终端应用的本地存储中保存的视频，也可以是从网络中获取的视频，也可以是由终端设备的摄像功能所采集的多媒体数据流。多媒体数据流是由视频数据和音频数据组成的，终端设备可以将多媒体数据流拆分为视频数据和音频数据，将音频数据拆分出来便于终端设备对音频数据中的声纹信息进行比对，避免音频数据与视频数据混杂导致语音识别不准确。

S102，获取所述音频数据中的声纹信息，查找与所述声纹信息相关联的图片数据。

具体的，终端设备可以获取音频数据中的声纹信息，所述声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱，声纹不仅具有特定性，而且有相对稳定性的特点。所以通过比对声纹信息来进行语音识别，可以提高语音识别的准确率，并且由于每个人的声纹有具有自己的特征，采用声纹信息进行语音识别，不仅能在音频中出现设定语句时查找与设定语句相关联的图片数据，还能达到设定用户说设定语句时查找与设定语句相关联的图片数据的效果。终端设备的用户可以向终端设备输入样本声纹信息，例如向终端设备输入语音信息，终端设备可以获取语音信息中的样本声纹信息，用户还可以在终端设备中设置与样本声纹信息相关联的图片数据，将样本声纹信息和图片数据均存储在数据集合中，终端设备可以在数据集合中查找与声纹信息相关联的图片数据。

S103，采用所述图片数据对所述视频数据进行合成处理，输出所述音频数据和合成处理后的所述视频数据。

具体的，终端设备采用图片数据对视频数据进行合成处理，例如终端设备可以将图片数据对应的图片图层和视频数据对应的视频图层进行合成处理，将图片图层叠加在视频图层之上，这样合成处理后的视频数据显示时，图片数据对应的图片会覆盖在视频数据对应的视频之上。终端设备可以采用视频应用同步输出音频数据和合成处理后的视频数据。例如，若用户利用视频应用观看视频，则可以将音频数据通过终端设备的扬声器设备输出，并在终端设备的屏幕上显示合成处理后的视频数据；若用户利用视频应用进行直播活动，则可以通过视频应用将音频数据和合成处理后的视频数据上传至网络，观看直播的观众就可以接收到音频数据和合成处理后的视频数据。

在本申请实施例中，获取多媒体数据流，所述多媒体数据流包括视频数据和音频数据，获取所述音频数据中的声纹信息，查找与所述声纹信息相关联的图片数据，采用所述图片数据对所述视频数据进行合成处理，输出所述音频数据和合成处理后的所述视频数据。通过拆分出多媒体数据流中的音频数据，比对音频数据中的声纹信息并匹配相关联的图片，丰富了视频内容，提升了视频的趣味性，采用声纹信息进行比对提高了语音识别的准确性，提升了视频应用的使用效果。

请参见图3，为本申请实施例提供了一种语音识别方法的流程示意图。如图3所示，本申请实施例的所述方法可以包括以下步骤S201-S207。

S201，获取所输入的样本声纹信息，获取所设置的与所述样本声纹信息相关联的图片数据，将所述样本声纹信息和所述图片数据存储至数据集合中。

具体的，用户可以向终端设备输入语音信息，终端设备可以获取语音信息中的样本声纹信息，然后用户可以设置与样本声纹信息相关联的图片数据，终端设备将样本声纹信息、图片数据存储以及样本声纹信息和图片数据的关联关系存储在数据集合中。

S202，获取多媒体数据流，所述多媒体数据流包括视频数据和音频数据。

具体的，终端设备可以从视频应用中获取多媒体数据流，所述视频应用安装于终端设备中，可以用于观看视频、直播等，也可以用于上传视频、直播，所述多媒体数据流可以是来自终端应用的本地存储中保存的视频，也可以是从网络中获取的视频，也可以是由终端设备的摄像功能所采集的多媒体数据流。多媒体数据流是由视频数据和音频数据组成的，终端设备可以将多媒体数据流拆分为视频数据和音频数据，将音频数据拆分出来便于终端设备对音频数据中的声纹信息进行比对，避免与视频数据混杂导致语音识别不准确。

S203，将所述音频数据按照第一预设时长拆分为至少一个音频片段，获取所述至少一个音频片段中目标音频片段所包含的目标声纹信息。

具体的，由于样本声纹信息的长度较小，终端设备可以将音频数据按照第一预设时长拆分为至少一个音频片段，例如将音频数据拆分为时长为50ms的至少一个音频片段。再获取至少一个音频片段中目标音频片段中所包含的目标声纹信息。

可选的，再对音频数据进行拆分前，可以先对音频数据进行复制处理，获得与音频数据相同的音频副本数据，然后将音频副本数据进行拆分，并获取音频副本数据中的目标声纹信息。若直接对音频数据进行拆分、检测等处理，容易对音频数据造成损坏，若采用音频副本数据进行拆分、检测等处理，而仍然基于视频应用输出完好的音频数据，则可以达到相同的语音识别效果，而避免音频数据的损坏，提升了音频数据的输出质量。

S204，若所述数据集合中存在与所述目标声纹信息相匹配的所述样本声纹信息，则在所述数据集合中查找与所述样本声纹信息相关联的所述图片数据。

具体的，若终端设备在数据集合中找到了与目标声纹信息相匹配的样本声纹信息，则在数据集合中查找与样本声纹信息相关联的图片数据，也就是与目标声纹信息相关联的图片数据。可以理解的，目标声纹信息与样本声纹信息相匹配，可以为目标声纹信息与样本声纹信息相同，也可以为目标声纹信息与样本声纹信息的相似率大于或等于预设相似率，所述预设相似率可以由用户或相关工作人员在终端设备上进行设置。

请一并参见图3a，为本申请实施例提供了一种图片数据查找的举例示意图，终端设备对获取到的音频数据进行复制处理，获得与音频数据相同的音频副本数据，然后按照第一预设时长将音频副本数据拆分为至少一个音频片段，并获取每个音频片段中的声纹信息。例如获取了目标音频片段中的目标声纹信息，终端设备将目标声纹信息与数据集合中的声纹信息进行比对，查找到与目标声纹信息相匹配的样本声纹信息，然后在数据集合中获取与样本声纹信息相关联的图片数据。

S205，获取所述目标声纹信息在目标音频片段中对应的结束时间点，在所述视频数据中获取以所述结束时间点为开始时间，且以第二预设时长为片段长度的视频数据片段。

具体的，获取目标声纹信息在目标音频片段中所对应的结束时间点，即目标声纹信息在目标音频片段中结束的时间，由于音频数据和视频数据的播放时长相同，可以在视频数据中获取以结束时间点为开始时间，并且以第二预设时长为片段长度的视频数据片段，即视频数据片段在视频数据中在结束时间点开始，且视频数据片段的片段长度为第二预设时长。所述第二预设时长就是图片数据中对应的图片在合成后的视频数据中显示的时长，第二预设时长可以为用户在终端设备中所设置的统一的值，即所有的图片数据所对应的视频数据片段的片段长度均为第二预设时长；也可以由用户针对图片数据所设置，即不同的图片数据所对应的视频数据片段的片段长度可以不相同，也可以相同。

请一并参见图3b，为本申请实施例提供了一种视频数据片段获取的举例示意图，终端设备可以获取目标声纹信息在目标音频片段上的结束时间点，并在视频数据中找到结束时间点所对应的时间点，以结束时间点为开始时间，以第二预设时长为片段长度，获取一段视频数据片段。

S206，获取所述图片数据对应的图片图层和所述视频数据片段对应的视频图层，对所述图片图层和所述视频图层进行合成处理。

具体的，终端设备可以获取图片数据所对应的图片图层和视频数据片段对应的视频图层，对图片图层和视频图层进行合成处理，将图片图层叠加在视频图层之上，在屏幕上显示合成处理后的图片数据时，图片数据对应的图片就会覆盖在视频数据片段所对应的视频上，即图片会在视频数据播放到结束时间点时在屏幕上进行显示，累积显示时长到达第二预设时长后结束显示。

可选的，终端设备可以获取视频数据片段中的人脸在视频图层中所对应的第一位置，由于图片图层与视频图层大小、规格相同，可以在图片图层上获取与第一位置对应的第二位置，将图片数据对应的图片在第二位置进行显示，可以达到在人脸上显示图片的效果。请参见图3c，为本申请实施例提供了一种合成处理的举例示意图，终端设备可以在视频图层中找到人脸所对应的第一位置，并根据第一位置找到图片图层中与第一位置相对应的第二位置，并将图片在第二位置上显示，在视频图层和图片图层合成处理后，就会显示在人脸位置显示图片的效果。

可选的，终端设备可以获取视频数据片段中人脸在视频图层中所对应的第三位置，同样的可以在图片图层上获取和第三位置对应的第四位置，然后将图片数据对应的图片在除第四位置外的其他位置进行显示，即将图片显示在除人脸外的其他位置，达到避免遮挡人脸的目的。

S207，输出所述音频数据和合成处理后的所述视频数据。

具体的，终端设备可以采用视频应用同步输出音频数据和合成处理后的视频数据。例如，若用户利用视频应用观看视频，则可以将音频数据通过终端设备的扬声器设备输出，并在终端设备的屏幕上显示合成处理后的视频数据；若用户利用视频应用进行直播活动，则可以通过视频应用将音频数据和合成处理后的视频数据上传至网络，观看直播的观众就可以接收到音频数据和合成处理后的视频数据。

可以理解的是，当在音频数据中获取到了与样本声纹信息相匹配的目标声纹信息时，除了可以显示对应的图片，还能输出对应的音效，例如可以输出模拟打雷的音效、飞机飞过的音效等。用户可以在终端设备中设置与样本声纹信息相关联的音效信息，终端设备可以将音效信息存储至数据集合中。若终端设备在音频数据中获取到了与样本声纹信息向匹配的目标声纹信息，则在所述数据集合中查找与样本声纹信息相关联的音效信息，采用音效信息对音频数据进行合成处理，例如可参见采用图片数据对视频数据进行合成处理的方法，获取目标声纹信息在目标音频片段对应的结束时间点，以结束时间点为开始时间，在音频数据中插入音效信息对应的音轨；然后终端设备可以基于视频应用，输出合成处理后的音频数据和合成处理后的视频数据。

在本申请实施例中，将所输入的样本声纹信息和所设置的与样本声纹信息相关联的图片数据存储至数据集合中，声纹信息和图片数据可以由用户设置，满足用户的个性化需求，获取多媒体数据流，所述多媒体数据流包括视频数据和音频数据，将音频数据进行复制处理后拆分为至少一个音频片段，可以达到相同的语音识别效果，而避免由于拆分、检测处理造成音频数据的损坏，提升了音频数据的输出质量。获取目标音频片段中所包含的目标声纹信息，若所述数据集合中存在与所述目标声纹信息相匹配的所述样本声纹信息，则在所述数据集合中查找与所述样本声纹信息相关联的所述图片数据，采用所述图片数据对所述视频数据进行合成处理，基于所述视频应用输出所述音频数据和合成处理后的所述视频数据。通过拆分出多媒体数据流中的音频数据，比对音频数据中的声纹信息并匹配相关联的图片，丰富了视频内容，提升了视频的趣味性，采用声纹信息进行比对提高了语音识别的准确性，提升了视频应用的使用效果。并且可以将图片显示在视频数据中人脸的位置，提升了视频数据输出的趣味性，同时还可以针对样本声纹信息设置音效信息，在检测到相匹配的目标声纹信息的同时输出音效信息，进一步提升了视频应用的使用效果。

可以理解的是，本申请实施例提供的终端设备可以用于进行直播活动，请参见图4，为本申请实施例提供了一种进行直播活动的举例示意图，用户可以将终端设备置于身前，用终端设备上的摄像功能采集当前场景的直播视频数据和直播音频数据生成直播数据流，然后终端设备可以对采集到的直播数据流进行语音识别并对直播视频数据进行合成处理，然后将直播音频数据和合成处理后的直播视频数据上传至网络，直播活动的观众就能从网络上接收到直播音频数据和合成处理后的直播视频数据，同样的也可以在终端设备上也输出直播音频数据和合成处理后的直播视频数据，便于用户实时查看自己的直播状态。

请参见图4a，为本申请实施例提供了一种语音识别方法的流程示意图。如图4a所示，本申请实施例的所述方法可以包括以下步骤S301-S307。

S301，获取所输入的样本声纹信息，获取所设置的与所述样本声纹信息相关联的图片数据，将所述样本声纹信息和所述图片数据存储至数据集合中。

S302，获取直播数据流，所述直播数据流包括直播视频数据和直播音频数据。

具体的，终端设备可以采用摄像功能采集所在场景的图像和声音，即采集到所在场景的直播数据流，直播数据流是由直播视频数据和直播音频数据组成的。终端设备可以将直播数据流拆分为直播视频数据和直播音频数据，将直播音频数据拆分出来便于终端设备对直播音频数据中的声纹信息进行比对，避免与直播视频数据混杂导致语音识别不准确。

S303，将所述直播音频数据按照第一预设时长拆分为至少一个音频片段，获取所述至少一个音频片段中目标音频片段所包含的目标声纹信息。

具体的，由于样本声纹信息的长度较小，终端设备可以将直播音频数据按照第一预设时长拆分为至少一个音频片段，例如将直播音频数据拆分为时长为50ms的至少一个音频片段。再获取至少一个音频片段中目标音频片段中所包含的目标声纹信息。

可选的，再对直播音频数据进行拆分前，可以先对直播音频数据进行复制处理，获得与直播音频数据相同的音频副本数据，然后将音频副本数据进行拆分，并获取音频副本数据中的目标声纹信息。若直接对直播音频数据进行拆分、检测等处理，容易对直播音频数据造成损坏，若采用音频副本数据进行拆分、检测等处理，而仍然基于视频应用输出完好的直播音频数据，则可以达到相同的语音识别效果，而避免直播音频数据的损坏，提升了直播音频数据的输出质量。

S304，若所述数据集合中存在与所述目标声纹信息相匹配的所述样本声纹信息，则在所述数据集合中查找与所述样本声纹信息相关联的所述图片数据。

具体的，若终端设备在数据集合中找到了与目标声纹信息相匹配的样本声纹信息，则在数据集合中查找与样本声纹信息相关联的图片数据，也就是与目标声纹信息相关联的图片数据。可以理解的是，目标声纹信息与样本声纹信息相匹配，可以为目标声纹信息与样本声纹信息相同，也可以为目标声纹信息与样本声纹信息的相似率大于或等于预设相似率，所述预设相似率可以由用户或相关工作人员在终端设备上进行设置。

S305，获取所述目标声纹信息在目标音频片段中对应的结束时间点，在所述直播视频数据中获取以所述结束时间点为开始时间，且以第二预设时长为片段长度的直播视频片段。

具体的，获取目标声纹信息在目标音频片段中所对应的结束时间点，即目标声纹信息在目标音频片段中结束的时间，由于直播音频数据和直播视频数据的播放时长相同，可以在直播视频数据中获取以结束时间点为开始时间，并且以第二预设时长为片段长度的直播视频片段，即直播视频片段在直播视频数据中在结束时间点开始，且直播视频片段的片段长度为第二预设时长。所述第二预设时长就是图片数据中对应的图片在合成后的直播视频数据中显示的时长，第二预设时长可以为用户在终端设备中所设置的统一的值，即所有的图片数据所对应的直播视频片段的片段长度均为第二预设时长；也可以由用户针对图片数据所设置，即不同的图片数据所对应的直播视频片段的片段长度可以不相同，也可以相同。

S306，获取所述图片数据对应的图片图层和所述直播视频片段对应的直播图层，对所述图片图层和所述直播图层进行合成处理。

具体的，终端设备可以获取图片数据所对应的图片图层和直播视频片段对应的直播图层，对图片图层和直播图层进行合成处理，将图片图层叠加在直播图层之上，在屏幕上显示合成处理后的图片数据时，图片数据对应的图片就会覆盖在直播视频片段所对应的视频上，即图片会在直播视频数据播放到结束时间点时在屏幕上进行显示，累积显示时长到达第二预设时长后结束显示。

S307，输出所述直播音频数据和合成处理后的所述直播视频数据。

具体的，可以在终端设备上输出直播音频数据和合成处理后的直播视频数据，便于用户可以直接在终端设备上查看自己的实时直播状态。也可以将直播音频数据和合成处理后的直播视频数据上传至网络，直播观众可以从网络上获取到直播音频数据和合成处理后的直播视频数据。

在本申请实施例中，将所输入的样本声纹信息和所设置的与样本声纹信息相关联的图片数据存储至数据集合中，声纹信息和图片数据可以由用户设置，满足用户的个性化需求，获取直播数据流，所述直播数据流包括直播视频数据和直播音频数据，将直播音频数据进行复制处理后拆分为至少一个音频片段，可以达到相同的语音识别效果，而避免由于拆分、检测处理造成直播音频数据的损坏，提升了直播音频数据的输出质量。获取目标音频片段中所包含的目标声纹信息，若所述数据集合中存在与所述目标声纹信息相匹配的所述样本声纹信息，则在所述数据集合中查找与所述样本声纹信息相关联的所述图片数据，采用所述图片数据对所述直播视频数据进行合成处理，将所述音频数据和合成处理后的所述视频数据输出并上传网络。通过拆分出直播数据流中的直播音频数据，比对直播音频数据中的声纹信息并匹配相关联的图片，丰富了直播内容，提升了直播的趣味性，采用声纹信息进行比对提高了语音识别的准确性，提升了直播效果。

下面将结合附图5-附图6，对本申请实施例提供的语音识别装置进行详细介绍。需要说明的是，附图5-附图6中的语音识别装置，用于执行本申请图2和图3所示实施例的方法，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请图2和图3所示的实施例。

请参见图5，其示出了本申请一个示例性实施例提供的语音识别装置的结构示意图。该语音识别装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置1包括数据流获取模块11、声纹识别模块12和合成处理模块13。

数据流获取模块11，用于获取多媒体数据流，所述多媒体数据流包括视频数据和音频数据；

声纹识别模块12，用于获取所述音频数据中的声纹信息，查找与所述声纹信息相关联的图片数据；

合成处理模块13，用于采用所述图片数据对所述视频数据进行合成处理，输出所述音频数据和合成处理后的所述视频数据。

在本实施例中，获取多媒体数据流，所述多媒体数据流包括视频数据和音频数据，获取所述音频数据中的声纹信息，查找与所述声纹信息相关联的图片数据，采用所述图片数据对所述视频数据进行合成处理，输出所述音频数据和合成处理后的所述视频数据。通过拆分出多媒体数据流中的音频数据，比对音频数据中的声纹信息并匹配相关联的图片，丰富了视频内容，提升了视频的趣味性，采用声纹信息进行比对提高了语音识别的准确性，提升了视频应用的使用效果。

请参见图6，其示出了本申请一个示例性实施例提供的语音识别装置的结构示意图。该语音识别装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置1包括数据流获取模块11、声纹识别模块12、合成处理模块13、声纹信息存储模块14和音效信息存储模块15。

声纹信息存储模块14，用于获取所输入的样本声纹信息，获取所设置的与所述样本声纹信息相关联的图片数据；

将所述样本声纹信息、所述图片数据以及所述样本声纹信息和所述图片数据的关联关系存储至数据集合中；

音效信息存储模块15，用于获取所设置的与所述样本声纹信息相关联的音效信息，将所述音效信息存储至所述数据集合中；

可选的，所述声纹识别模块12具体用于对所述音频数据进行复制处理，获得音频副本数据；

获取所述音频副本数据中的声纹信息，查找与所述声纹信息相关联的图片数据。

可选的，所述声纹识别模块12具体用于将所述音频数据按照第一预设时长拆分为至少一个音频片段，获取所述至少一个音频片段中目标音频片段所包含的目标声纹信息；

若所述数据集合中存在与所述目标声纹信息相匹配的所述样本声纹信息，则在所述数据集合中查找与所述样本声纹信息相关联的所述图片数据。

可选的，所述声纹识别模块12具体用于获取所述目标声纹信息在目标音频片段中对应的结束时间点；

在所述视频数据中获取以所述结束时间点为开始时间，且以第二预设时长为片段长度的视频数据片段；

采用所述图片数据对所述视频数据片段进行合成处理。

合成处理模块13，用于采用所述图片数据对所述视频数据进行合成处理，输出所述音频数据和合成处理后的所述视频数据；

可选的，所述合成处理模块13具体用于获取所述图片数据对应的图片图层和所述视频数据片段对应的视频图层；

对所述图片图层和所述视频图层进行合成处理；其中，所述图片图层叠加在所述视频图层之上；

输出所述音频数据和合成处理后的所述视频数据。

可选的，所述合成处理模块13具体用于获取所述视频数据片段中的人脸在所述视频图层中所对应的第一位置；

在所述图片图层上获取与所述第一位置对应的第二位置，将所述图片数据对应的图片在所述第二位置进行显示。

可选的，所述合成处理模块13具体用于获取所述视频数据片段中的人脸在所述视频图层中所对应的第三位置；

在所述图片图层上获取与所述第三位置对应的第四位置，将所述图片数据对应的图片在除所述第四位置外的其他位置进行显示。

可选的，所述合成处理模块13具体用于在所述数据集合中查找与所述样本声纹信息相关联的所述音效信息，采用所述音效信息对所述音频数据进行合成处理；

基于所述视频应用，输出合成处理后的所述音频数据和合成处理后的所述视频数据。

在本实施例中，将所输入的样本声纹信息和所设置的与样本声纹信息相关联的图片数据存储至数据集合中，声纹信息和图片数据可以由用户设置，满足用户的个性化需求，获取多媒体数据流，所述多媒体数据流包括视频数据和音频数据，将音频数据进行复制处理后拆分为至少一个音频片段，可以达到相同的语音识别效果，而避免由于拆分、检测处理造成音频数据的损坏，提升了音频数据的输出质量。获取目标音频片段中所包含的目标声纹信息，若所述数据集合中存在与所述目标声纹信息相匹配的所述样本声纹信息，则在所述数据集合中查找与所述样本声纹信息相关联的所述图片数据，采用所述图片数据对所述视频数据进行合成处理，基于所述视频应用输出所述音频数据和合成处理后的所述视频数据。通过拆分出多媒体数据流中的音频数据，比对音频数据中的声纹信息并匹配相关联的图片，丰富了视频内容，提升了视频的趣味性，采用声纹信息进行比对提高了语音识别的准确性，提升了视频应用的使用效果。并且可以将图片显示在视频数据中人脸的位置，提升了视频数据输出的趣味性，同时还可以针对样本声纹信息设置音效信息，在检测到相匹配的目标声纹信息的同时输出音效信息，进一步提升了视频应用的使用效果。

需要说明的是，上述实施例提供的语音识别装置在执行语音识别方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图2-图3c所示实施例的所述语音识别方法，具体执行过程可以参见图2-图3c所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如上述图2-图3c所示实施例的所述语音识别方法，具体执行过程可以参见图2-图3c所示实施例的具体说明，在此不进行赘述。

请参考图7，其示出了本申请一个示例性实施例提供的电子设备的结构方框图。本申请中的电子设备可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(random Access Memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统，包括基于Android系统深度开发的系统、苹果公司开发的IOS系统，包括基于IOS系统深度开发的系统或其它系统。存储数据区还可以存储电子设备在使用中所创建的数据比如电话本、音视频数据、聊天记录数据，等。

参见图8所示，存储器120可分为操作系统空间和用户空间，操作系统即运行于操作系统空间，原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果，操作系统针对不同第三方应用程序为其分配相应的系统资源。然而，同一第三方应用程序中不同应用场景对系统资源的需求也存在差异，比如，在本地资源加载场景下，第三方应用程序对磁盘读取速度的要求较高；在动画渲染场景下，第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立，操作系统往往不能及时感知第三方应用程序当前的应用场景，导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。

为了使操作系统能够区分第三方应用程序的具体应用场景，需要打通第三方应用程序与操作系统之的数据通信，使得操作系统能够随时获取第三方应用程序当前的场景信息，进而基于当前场景进行针对性的系统资源适配。

以操作系统为Android系统为例，存储器120中存储的程序和数据如图9所示，存储器120中可存储有Linux内核层320、系统运行时库层340、应用框架层360和应用层380，其中，Linux内核层320、系统运行库层340和应用框架层360属于操作系统空间，应用层380属于用户空间。Linux内核层320为电子设备的各种硬件提供了底层的驱动，如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。系统运行库层340通过一些C/C++库来为Android系统提供了主要的特性支持。如SQLite库提供了数据库的支持，OpenGL/ES库提供了3D绘图的支持，Webkit库提供了浏览器内核的支持等。在系统运行时库层340中还提供有安卓运行时库(Android runtime)，它主要提供了一些核心库，能够允许开发者使用Java语言来编写Android应用。应用框架层360提供了构建应用程序时可能用到的各种API，开发者也可以通过使用这些API来构建自己的应用程序，比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序，这些应用程序可以是操作系统自带的原生应用程序，比如联系人程序、短信程序、时钟程序、相机应用等；也可以是第三方开发者所开发的第三方应用程序，比如游戏类应用程序、即时通信程序、相片美化程序、远程诊断程序等。

以操作系统为IOS系统为例，存储器120中存储的程序和数据如图10所示，IOS系统包括：核心操作系统层420(Core OS layer)、核心服务层440(Core Services layer)、媒体层460(Media layer)、可触摸层480(Cocoa Touch Layer)。核心操作系统层420包括了操作系统内核、驱动程序以及底层程序框架，这些底层程序框架提供更接近硬件的功能，以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的系统服务和/或程序框架，比如基础(Foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口，如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(AirPlay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架，可触摸层480负责用户在电子设备上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(User Interface，UI)框架、用户界面UIKit框架、地图框架等等。

在图10所示出的框架中，与大部分应用程序有关的框架包括但不限于：核心服务层440中的基础框架和可触摸层480中的UIKit框架。基础框架提供许多基本的对象类和数据类型，为所有应用程序提供最基本的系统服务，和UI无关。而UIKit框架提供的类是基础的UI类库，用于创建基于触摸的用户界面，iOS应用程序可以基于UIKit框架来提供UI，所以它提供了应用程序的基础架构，用于构建用户界面，绘图、处理和用户交互事件，响应手势等等。

其中，在IOS系统中实现第三方应用程序与操作系统数据通信的方式以及原理可参考Android系统，本申请在此不再赘述。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在一个示例中，输入装置130和输出装置140可以合设，输入装置130和输出装置140为触摸显示屏，该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作，以及显示各个应用程序的用户界面。触摸显示屏通常设置在电子设备的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的电子设备的结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity，WiFi)模块、电源、蓝牙模块等部件，在此不再赘述。

在本申请实施例中，各步骤的执行主体可以是上文介绍的电子设备。可选地，各步骤的执行主体为电子设备的操作系统。操作系统可以是安卓系统，也可以是IOS系统，或者其它操作系统，本申请实施例对此不作限定。

本申请实施例的电子设备，其上还可以安装有显示设备，显示设备可以是各种能实现显示功能的设备，例如：阴极射线管显示器(cathode ray tubedisplay，简称CR)、发光二极管显示器(light-emitting diode display，简称LED)、电子墨水屏、液晶显示屏(liquid crystal display，简称LCD)、等离子显示面板(plasma display panel，简称PDP)等。用户可以利用电子设备101上的显示设备，来查看显示的文字、图像、视频等信息。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(Augmented Reality，增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。

在图7所示的电子设备中，处理器110可以用于调用存储器120中存储的语音识别程序，并具体执行以下操作：

采用所述图片数据对所述视频数据进行合成处理；

基于所述视频应用输出所述音频数据和合成处理后的所述视频数据。

在一个实施例中，所述处理器110在执行获取多媒体数据流，所述多媒体数据流包括视频数据和音频数据之前，还执行以下操作：

获取所输入的样本声纹信息，获取所设置的与所述样本声纹信息相关联的图片数据；

将所述样本声纹信息和所述图片数据存储至数据集合中。

在一个实施例中，所述处理器110在执行获取所述音频数据中的声纹信息，查找与所述声纹信息相关联的图片数据时，具体执行以下操作：

将所述音频数据按照第一预设时长拆分为至少一个音频片段，获取所述至少一个音频片段中目标音频片段所包含的目标声纹信息；

在一个实施例中，所述处理器110在执行采用所述图片数据对所述视频数据进行合成处理时，具体执行以下操作：

获取所述目标声纹信息在目标音频片段中对应的结束时间点；

采用所述图片数据对所述视频数据片段进行合成处理。

在一个实施例中，所述处理器110在执行采用所述图片数据对所述视频数据片段进行合成处理时，具体执行以下操作：

获取所述图片数据对应的图片图层和所述视频数据片段对应的视频图层；

对所述图片图层和所述视频图层进行合成处理；其中，所述图片图层叠加在所述视频图层之上。

在一个实施例中，所述处理器110在执行对所述图片图层和所述视频图层进行合成处理时，具体执行以下操作：

获取所述视频数据片段中的人脸在所述视频图层中所对应的第一位置；

获取所设置的与所述样本声纹信息相关联的音效信息，将所述音效信息存储至所述数据集合中。

在一个实施例中，所述处理器110在执行基于所述视频应用输出所述音频数据和合成处理后的所述视频数据时，具体执行以下操作：

在所述数据集合中查找与所述样本声纹信息相关联的所述音效信息，采用所述音效信息对所述音频数据进行合成处理；

对所述音频数据进行复制处理，获得音频副本数据；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述图片数据和样本声纹数据相关联，所述样本声纹信息、所述图片数据以及所述样本声纹信息和所述图片数据的关联关系存储在数据集合中。

3.根据权利要求2所述的方法，其特征在于，所述获取所述音频数据中的声纹信息，查找与所述声纹信息相关联的图片数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述采用所述图片数据对所述视频数据进行合成处理，输出所述音频数据和合成处理后的所述视频数据，包括：

采用所述图片数据对所述视频数据片段进行合成处理，输出所述音频数据和合成处理后的所述视频数据。

5.根据权利要求4所述的方法，其特征在于，所述采用所述图片数据对所述视频数据片段进行合成处理，输出所述音频数据和合成处理后的所述视频数据，包括：

输出所述音频数据和合成处理后的所述视频数据。

6.根据权利要求5所述的方法，其特征在于，所述对所述图片图层和所述视频图层进行合成处理，包括：

7.根据权利要求5所述的方法，其特征在于，所述对所述图片图层和所述视频图层进行合成处理，包括：

获取所述视频数据片段中的人脸在所述视频图层中所对应的第三位置；

8.根据权利要求3所述的方法，其特征在于，所述获取多媒体数据流，所述多媒体数据流包括视频数据和音频数据之前，还包括：

获取所设置的与所述样本声纹信息相关联的音效信息，将所述音效信息存储至所述数据集合中；

所述采用所述图片数据对所述视频数据进行合成处理，输出所述音频数据和合成处理后的所述视频数据，包括：

采用所述图片数据对所述视频数据进行合成处理，输出合成处理后的所述音频数据和合成处理后的所述视频数据。

9.根据权利要求1所述的方法，其特征在于，所述获取所述音频数据中的声纹信息，查找与所述声纹信息相关联的图片数据，包括：

对所述音频数据进行复制处理，获得音频副本数据；

10.一种语音识别装置，其特征在于，所述装置包括：

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～9任意一项的方法步骤。

12.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～9任意一项的方法步骤。