CN105872838A

CN105872838A - 即时视频的媒体特效发送方法和装置

Info

Publication number: CN105872838A
Application number: CN201610274581.7A
Authority: CN
Inventors: 徐文波
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2016-08-17

Abstract

本发明提供了一种即时视频中媒体特效的发送方法，包括：检测即时视频的输入操作，由所述输入操作获得输入语音；识别所述输入语音，获得音频特征参数；根据所述音频特征参数索引到与所述音频特征参数对应的媒体特效；发送所述媒体特效，通过进行所述媒体特效的发送将所述媒体特效加载至发布的即时视频。此外，还提供了一种与该方法匹配的即时视频中媒体特效的发送装置。上述即时视频中媒体特效的发送方法和装置能够提高媒体特效的发送效率。

Description

即时视频的媒体特效发送方法和装置

技术领域

本发明涉及视频应用技术领域，特别涉及一种即时视频中媒体特效的发送方法和装置。

背景技术

近年来，随着互联网技术的高速发展，包括在线娱乐与游戏直播在内的众多真人秀互联网应用得到了空前的发展。用户可以通过上述真人秀互联网应用发布实时视频，进行真人秀表演，展示自身在唱歌、跳舞、解说等方面的才能。

现有的即时视频发布中，为实现较佳的互动性能，进行即时视频发布的用户在发送即时视频的同时，还将进行特效的发送，以在发布的即时视频中加载发送的特效。

对于进行即时视频发布的用户而言，需要进行特效的选取，并对选取的特效触发发送之后，方可实现即时视频中特效的加载。

例如，用户打开特效窗口，点击一款特效并发送，便使得最终获得的即时视频能够加载所点击的特效。

然而，上述即时视频中特效发送的实现随着可供选取使用的特效越来越多，无论是在智能手机等移动设备中，还是在笔记本电脑等终端设备中，查找所需要的特效均存在着非常大的成本，由此使得即时视频中特效发送的最大成本在于查找特效。

较大的特效查找成本往往会使得即时视频发布中不能够快速实现特效的加载，进而使得特效的发送效率非常低。

发明内容

基于此，有必要提供一种即时视频的媒体特效发送方法，所述方法能够提高即时视频发布中媒体特效的发送效率。

另外，还有必要提供一种即时视频的媒体特效发送装置，所述装置能够提高即时视频发布中媒体特效的发送效率。

发明内容如下：

第一方面，提供了一种即时视频中媒体特效的发送方法，包括：

检测即时视频的输入操作，由所述输入操作获得输入语音；

识别所述输入语音，获得音频特征参数；

根据所述音频特征参数索引到与所述音频特征参数对应的媒体特效；

发送所述媒体特效，通过进行所述媒体特效的发送将所述媒体特效加载至发布的即时视频。

结合第一方面，在第一种可能的实现方式中，所述检测即时视频的输入操作，由所述输入操作获得输入语音的步骤包括：

所述即时视频的采集中触发进行的媒体特效加载；

响应于所述媒体特效的加载，检测即时视频的输入操作，通过检测得到的所述输入操作获得标示媒体特效发送命令的输入语音。

结合第一方面，在第二种可能的实现方式中，所述根据所述音频特征参数索引到所述音频特征参数对应的媒体特效的步骤包括：

在与样本音频特征参数关联存储的媒体特效中，进行所述音频特征参数和样本音频特征参数之间的比对，得到与所述音频特征参数匹配的样本音频特征参数；

根据匹配的所述样本音频特征参数得到所述音频特征参数索引的媒体特效。

结合第一方面，在第三种可能的实现方式中，所述音频特征参数对应的媒体特效为多个，所述发送所述媒体特效，通过进行所述媒体特效的发送将所述媒体特效加载至发布的即时视频的步骤之前，所述方法还包括：

获取所述输入语音对应的音量信息；

在所述音频特征参数对应的多个媒体特效中提取所述音量信息对应的媒体特效。

结合第一方面第三种可能的实现方式，在第四种可能的实现方式中，所述方法还包括：

在所述输入操作的检测中，根据所述音量信息进行输入音量的实时显示。

第二方面，提供了一种即时视频中媒体特效的发送装置，包括：

检测模块，用于检测即时视频的输入操作，由所述输入操作获得输入语音；

识别模块，用于识别所述输入语音，获得音频特征参数；

确定模块，根据所述音频特征参数，确定与所述音频特征参数对应的媒体特效；

发送模块，用于发送所述媒体特效，通过进行所述媒体特效的发送将所述媒体特效加载至发布的即时视频。

结合第二方面，在第一种可能的实现方式中，所述检测模块包括：

加载触发单元，用于触发媒体特效的加载；

输入检测单元，用于响应媒体特效的加载，检测即时视频的输入操作，获取输入语音。

结合第二方面，在第二种可能的实现方式中，所述确定模块包括：

对比单元，用于对比所述音频特征参数和样本音频特征参数，得到与所述音频特征参数匹配的样本音频特征参数；

定位单元，用于确定与所述样本音频特征参数对应的媒体特效。

结合第二方面，在第三种可能的实现方式中，还包括音量处理单元，所述音量处理单元包括：

音量识别单元，用于获取所述输入语音对应的音量信息；

音量定位单元，用于在所述音频特征参数对应的多个媒体特效中提取所述音量信息对应的媒体特效。

结合第二方面第三种可能的实现方式，在第四种可能的实现方式中，所述音量识别单元包括：

音量获取子单元，用于获取的所述输入语音的音量信息；

音量显示子单元，用于在所述输入操作的检测中，根据所述音量信息进行输入音量的实时显示。

为解决上述技术问题，将采用如下技术方案：

在对当前的即时视频进行媒体特效加载中，检测即时视频发布中触发的输入操作，由输入操作获得输入语音，输入语音将作为语音发送命令而用于触发进行媒体特效的选取和发送，具体的，识别输入语音获得音频特征参数，根据音频特征参数索引到对应的媒体特效，将对应的媒体特效发送出去，进而使得发送的媒体特效能够加载至发布的即时视频中，使用户不用查找所需要发送的媒体特效就能快速实现媒体特效的加载，大大提高了即时视频中媒体特效的发送效率，也节省了媒体特效的发送成本。

附图说明

图1是一个实施例中即时视频中媒体特效发送方法的流程图；

图2是图1中检测即时视频的输入操作，由输入操作获得输入语音的方法流程图；

图3是一个实施例中根据输入语音的音频特征参数索引到对应的媒体特效的方法流程图；

图4是另一个实施例的即时视频中媒体特效发送方法的流程图；

图5是一个实施例中即时视频的媒体特效发送装置的结构示意图；

图6是图5中检测模块的结构示意图；

图7是一个实施例中即时视频的媒体特效发送装置中确定模块的结构示意图；

图8是一个实施例中针对样本音频特征参数对应的媒体特效为多个时音量处理模块的结构示意图；

图9是图8中音量识别单元的结构示意图。

具体实施方式

体现本发明特征与优点的典型实施方式将在以下的说明中详细叙述。应理解的是本发明能够在不同的实施方式上具有各种的变化，其皆不脱离本发明的范围，且其中的说明及图示在本质上是当作说明之用，而非用以限制本发明。

基于此，为提高即时视频中媒体特效的发送效率，特提出一种即时视频中媒体特效的发送方法，该即时视频中媒体特效的发送方法由计算机程序实现，与之相对应的，所构建的即时视频中媒体特效的发送装置则被存储于带有屏幕的终端设备中，以在该终端设备中运行，进而实现即时视频中媒体特效的发送。

在一个实施例中，具体的，该即时视频的媒体特效发送方法如图1所示，包括：

步骤S110，检测即时视频的输入操作，由输入操作获得输入语音。

即时视频是基于互联网应用的实时视频，通过即时视频，可以和其他用户进行实时互动和交流。用户侧在进行即时视频发布的过程中，还将触发输入操作。其中，输入操作用于在即时视频发布的过程中触发进行相应媒体特效的获取和发送，其实质为发起媒体特效获取和发送的语音输入操作。

在用户层面，其可通过界面中预置的按钮触发输入操作，并输入相关的语音，进而使得终端设备在检测得到输入操作后获得输入语音。

例如，在即时视频中，用户输入“好郁闷”的语音，对于终端设备而言可以获得“好郁闷”的输入语音。

步骤S120，识别输入语音，获得音频特征参数。

输入语音作为语音发送命令，在获得输入语音后，对输入语音进行语音识别，获取音频特征参数。

音频特征参数是表示声波的各种参数，不同语音的音频特征参数是不一样的。例如，说话时，“郁闷”和“开心”这两个词语的音频特征参数是不一样的。

步骤S130，根据音频特征参数索引到与该音频特征参数对应的媒体特效。

媒体特效是用于为即时视频增添特殊效果，其效果将体现于视觉和听觉上，因此，媒体特效包括视频特效和/或音频特效。

媒体特效是以样本音频特征参数为索引进行存储的，也就是说，每一个媒体特效预先都有唯一的样本音频特征参数与其对应。如果输入语音所获得的音频特征参数与某一样本音频特征参数相匹配，就能够通过该样本音频特征参数索引到对应的媒体特效。

步骤S140，发送媒体特效，通过进行媒体特效的发送将该媒体特效加载至发布的即时视频。

根据输入语音的音频特征参数索引到媒体特效后，用户侧发送媒体特效，服务器将媒体特效随即时视频一起发送给其他用户，从而媒体特效被加载在发布的即时视频中。例如，根据输入语音的音频特征参数索引到媒体特效“乌鸦从屏幕左侧飞到屏幕右侧并在右侧消失”（后续简称“乌鸦飞”）后，客户端发送“乌鸦飞”这一特效，服务器将“乌鸦飞”特效随即时视频一起发送至与该客户端正进行互动的其他的客户端，从而将“乌鸦飞”特效加载到即时视频中。

由此用户无需在媒体特效库中一个一个地查找媒体特效，只需通过输入语音就能将想要发送的特效加载至即时视频中，提高了即时视频中媒体特效的发送效率。

进一步的，如图2所示，在一个实施例中，步骤S110包括如下步骤：

步骤S111，即时视频的采集中触发进行的媒体特效加载。

如前所述的，进行即时视频的采集，以实现即时视频发布的过程中，通过用户侧触发进行媒体特效的加载。具体的，用户将在即时视频的发布界面中触发即时视频的输入操作，以此即可在即时视频的采集中触发进行媒体特效加载。

其中，输入操作可以是施加于即时视频的发布界面的相关动作，例如，用户可以通过对相关标签的点击来触发媒体特效的加载。

步骤S112，响应于媒体特效的加载，检测即时视频的输入操作，通过检测得到的输入操作获得标示媒体特效发送命令的输入语音。

通过如上所述的过程，将在使得即时视频的发布中，通过一键操作便能够发起媒体特效的加载，由此自动获得所期望的媒体特效，并将其加载于发布的即时视频中，极大地提高了即时视频中实现媒体特效加载的简易性，并且对于智能手机等移动便携设备而言，极大地降低了输入和查找成本，能够实现即时视频中媒体特效的快速获得和发送。

在一个实施例中，如图3所示，步骤S130包括：

步骤S131，在与样本音频特征参数关联存储的媒体特效中，对输入语音的音频特征参数和样本音频特征参数进行对比，得到与输入语音音频特征参数匹配的样本音频特征参数。

样本音频特征参数时预先设置好的与某一个或几个媒体特效相对应的音频特征参数。因此媒体特效是以样本音频特征参数为索引而进行关联存储的，并且存储了多个样本音频特征参数。通过将获取的输入语音的音频特征参数与存储的多个样本音频特征参数逐一比对，得到与输入语音音频特征参数匹配的样本音频特征参数。

例如，存储的样本音频特征参数中有对应语音“开心”的样本音频特征参数“A”，对应语音“悲伤”的样本音频特征参数“B”，对应语音“郁闷”的样本音频特征参数“C”……，当输入语音为“郁闷”时后，就会将其对应的音频特征参数与“A”、“B” 、“C” ……逐一进行比对，最后得到与之匹配的样本音频特征参数“C”。

进一步的，在一个实施例中，判断输入声音的音频特征参数与样本语音的音频特征参数是否匹配时，采用的标准是利用傅里叶变换方法对音频特征参数进行处理，提取多种特征值，计算它们的相似度，判断计算出的相似度数据是否落入预设的范围。比如最小欧氏平均距离小于等于1.5则判断相似，当然也可以是其他判定标准。

步骤S132，根据匹配的样本音频特征参数得到对应的媒体特效。

由于每一个媒体特效是以样本音频特征参数为索引而进行关联存储的，因此根据匹配的样本音频特征参数可以查找到与其相对应的媒体特效。

例如，样本语音“好郁闷”的样本音频特征参数与媒体特效“乌鸦从屏幕左侧飞到屏幕右侧并在右侧消失”相对应，当输入语音的音频参数与样本音频特征参数“好郁闷”的音频特征参数匹配时，就能够确定准备发送的媒体特效为“乌鸦从屏幕左侧飞到屏幕右侧并在右侧消失”。

由此可以快速查找到想要发送的媒体特效，提高媒体特效的查找效率。

需要注意的是，在一个样本音频特征参数对应的媒体特效为多个时，所进行的选取可以通过音量信息或音色信息实现，也可以在此通过用户实现选取，进而在此情况下，由于一个样本音频特征参数对于的媒体特效仅为若干几个，因此，并不会造成查找成本的增加，也能够保证媒体特效的发送效率。

在一个实施例中，样本音频特征参数对应的媒体特效为多个，如图4所示，在S140步骤之前，如上所述的方法还包括：

步骤S210，获取所述输入语音对应的音量信息。

音量信息指的输入语音声音振幅的大小。

样本语音的音频特征参数中并不包含声音本身特征，如音色、音量等信息。根据样本语音本身特征的不同，对应不同的媒体特效。如果输入语音的音频特征参数与样本语音的音频特征参数匹配，就获取输入语音的本身特征信息，如音色、音量等。

例如，大笑1、大笑2、大笑3是三个不同的音频特效，用户录入“开心”作为这三个音频特效的语音发送命令，并将这三个音频特效的发送音量分贝范围分别设置为3-4（不包含最大值端点，后同），4-5，5-6，当用户输入“开心”的声音时，则获取输入声音“开心”的音量信息。

又例如，大笑A和大笑B是二个不同的音频特效，用户录入“开心”作为这二个音频特效的语音发送命令，并将这二个音频特效的发送音色分别设置为男声和女声，当用户输入“开心”的声音时，则获取输入声音“开心”的音量信息。

步骤S220，在输入语音音频特征参数对应的多个媒体特效中提取所述音量信息对应的媒体特效。

样本音频特征参数对应的媒体特效为多个，而这多个媒体特效分别对应的样本音频特征参数的音量不一样。提取输入语音的音量信息后，根据此音量信息索引到对应的某一个媒体特效。

例如，大笑1、大笑2、大笑3是三个不同的音频特效，用户录入“开心”作为这三个音频特效的语音发送命令，并将这三个音频特效的发送音量分贝范围分别设置为3-4（不包含最大值端点，后同），4-5，5-6，当用户以音量分贝值为4.6输入“开心”的声音时，则确定音频特效“大笑2”为准备发送的音频特效。

又例如，大笑A和大笑B是二个不同的音频特效，用户录入“开心”作为这二个音频特效的语音发送命令，并将这二个音频特效的发送音色分别设置为男声和女声，当用户以男声输入“开心”的声音时，则确定音频特效“大笑A”为准备发送的音频特效。

由此通过不同音量大小或音色的输入操作将不同的媒体特效加载至即时视频中，增加了媒体特效加载至即时视频中的多样性。

进一步的，在检测即时视频的输入操作获取输入语音的音量信息进行实时显示。

检测输入语音的音量信息后，即时视频界面实时显示用户当前输入语音的音量信息，方便用户实时了解输入语音的音量信息。

其中，音量信息可以转换成分贝值，也可以将音量大小通过振幅波形描述，振幅的高低体现音量的大小。例如，用户的当前输入语音音量为40分贝时，即时视频界面可以显示“40”的分贝数值，也可以显示代表40分贝的振幅波形。

通过音量信息在即时视频界面的实时显示，为用户将特定音量大小的特效加载至即时视频带来较好的便利性。

在一个实施例中，还相应地提供了一种即时视频的媒体特效发送装置，如图5所示，该装置包括检测模块110、识别模块120、确定模块130和发送模块140，其中：

检测模块110，用于检测即时视频的输入操作，由输入操作获得输入语音。

识别模块120，用于识别输入语音，获得音频特征参数。

确定模块130，根据音频特征参数，确定与该音频特征参数对应的媒体特效。

发送模块140，用于发送媒体特效，通过进行媒体特效的发送将该媒体特效加载至发布的即时视频。

进一步的，在本实施例中，如图6所示，检测模块110包括加载触发单元111和输入检测单元112，其中：

加载触发单元111，用于即时视频的采集中触发进行的媒体特效加载。

输入检测单元112，用于响应媒体特效的加载，检测即时视频的输入操作，通过检测得到的输入操作获得标示媒体特效发送命令的输入语音。

在一个实施例中，如图7所示，确定模块130包括：

对比单元131，用于在与样本音频特征参数关联存储的媒体特效中，进行输入语音的音频特征参数和样本音频特征参数之间的比对，得到与该输入语音音频特征参数匹配的样本音频特征参数。

定位单元132，用于根据匹配的样本音频特征参数得到与该样本音频特征参数对应的媒体特效。

在一个实施例中，如图8所示，在发送模块140之前还包括音量处理模块210，用于对输入语音的音量的信息进行处理，音量处理模块210包括音量识别单元 211和音量定位单元212，其中：

音量识别单元 211，用于获取输入语音对应的音量信息。

音量定位单元212，用于在与输入语音音频特征参数对应的多个媒体特效中提取与其音量信息对应的媒体特效。

进一步的，在本实施例中，如图9所示，音量识别单元211包括音量获取子单元2111和音量显示子单元2112，其中：

音量获取子单元2111，用于获取的所述输入语音的音量信息；

音量显示子单元2112，用于在对输入操作的检测中，对输入语音的音量信息进行实时显示。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

虽然已参照几个典型实施方式描述了本发明，但应当理解，所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质，所以应当理解，上述实施方式不限于任何前述的细节，而应在随附权利要求所限定的精神和范围内广泛地解释，因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims

1.一种即时视频中媒体特效的发送方法，其特征在于，所述方法包括：

检测即时视频的输入操作，由所述输入操作获得输入语音；

识别所述输入语音，获得音频特征参数；

2.根据权利要求1所述的方法，其特征在于，所述检测即时视频的输入操作，由所述输入操作获得输入语音的步骤包括：

所述即时视频的采集中触发媒体特效加载；

响应于所述媒体特效加载，检测即时视频的输入操作，通过检测得到的所述输入操作获得标示媒体特效发送命令的输入语音。

3.根据权利要求1所述的方法，其特征在于，所述根据所述音频特征参数索引到所述音频特征参数对应的媒体特效的步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述音频特征参数对应的媒体特效为多个，所述发送所述媒体特效，通过进行所述媒体特效的发送将所述媒体特效加载至发布的即时视频的步骤之前，所述方法还包括：

获取所述输入语音对应的音量信息；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.一种即时视频中媒体特效的发送装置，其特征在于，所述装置包括：

识别模块，用于识别所述输入语音，获得音频特征参数；

确定模块，用于根据所述音频特征参数索引到与所述音频特征参数对应的媒体特效；

7.根据权利要求6所述的装置，其特征在于，所述检测模块包括：

加载触发单元，用于所述即时视频的采集中触发媒体特效加载；

输入检测单元，用于响应于所述媒体特效加载，检测即时视频的输入操作，通过检测得到的所述输入操作获得标示媒体特效发送命令的输入语音。

8.根据权利要求6所述的装置，其特征在于，所述确定模块包括：

对比单元，用于在与样本音频特征参数关联存储的媒体特效中，进行所述音频特征参数和样本音频特征参数之间的比对，得到与所述音频特征参数匹配的样本音频特征参数；

定位单元，用于根据匹配的所述样本音频特征参数得到所述音频特征参数索引的媒体特效。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括音量处理单元，所述音量处理单元包括：

音量识别单元，用于获取所述输入语音对应的音量信息；

10.根据权利要求9所述的装置，其特征在于，所述音量识别单元包括：

音量获取子单元，用于获取的所述输入语音的音量信息；