CN106464939B

CN106464939B - 播放音效的方法及装置

Info

Publication number: CN106464939B
Application number: CN201680000631.0A
Authority: CN
Inventors: 汤晓; 史大龙
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2016-07-28
Filing date: 2016-07-28
Publication date: 2019-10-25
Anticipated expiration: 2036-07-28
Also published as: WO2018018482A1; CN106464939A

Abstract

本公开是关于一种播放音效的方法及装置。所述方法包括：获取直播房间中的当前互动信息；确定与所述当前互动信息相对应的互动音效；播放所述互动音效。本公开技术方案可以实现自动播放与视频直播场景相适应的音效，达到渲染直播气氛的效果，并且还可避免主播用户通过手动的方式播放与视频直播场景相一致的音效，简化主播用户的操作。

Description

播放音效的方法及装置

技术领域

本公开涉及视频直播技术领域，尤其涉及一种播放音效的方法及装置。

背景技术

在视频直播的过程中，视频直播的主播人员为了吸引观众，通过会结合直播内容来适当插播一些笑话或者动作表情等，从而使直播更富有趣味性。相关技术中，观众通过文字与主播人员进行互动，主播人员需要通过手动的方式播放音效，从而使直播人员和观众都能够通过背景音效感受到与直播内容相适应的气氛，然而，相关技术由于需要主播人员选择与直播内容相适应的音效并手动播放，导致主播人员的操作较为繁琐，并且还容易分散主播人员的注意力。

发明内容

为克服相关技术中存在的问题，本公开实施例提供一种播放音效的方法及装置，用以自动播放与直播内容相适应的背景音效，从而达到渲染直播气氛的效果。

根据本公开实施例的第一方面，提供一种播放音效的方法，包括：

获取直播房间中的当前互动信息；

确定与所述当前互动信息相对应的互动音效；

播放所述互动音效。

在一实施例中，所述播放所述互动音效之前，所述方法还包括：

根据所述当前互动信息确定对应的音效等级；

所述播放所述互动音效包括：

按照所述音效等级播放所述互动音效。

在一实施例中，所述根据所述当前互动信息确定对应的音效等级，包括：

根据所述当前互动信息中的人脸特征，确定所述当前互动信息对应的音效等级，所述人脸特征包括五官变化特征。

根据所述当前互动信息中的语音特征，确定所述当前互动信息对应的音效等级，所述语音特征包括主播用户的语音内容及语音强度。

在一实施例中，所述根据所述当前互动信息中的语音特征，确定所述当前互动信息对应的音效等级，包括：

获取所述语音内容包含的关键词重复次数，以及所述语音强度对应的分贝级别；

根据所述关键词重复次数和所述分贝级别确定所述语音特征对应的音效等级。

在一实施例中，所述根据所述当前互动信息确定对应的音效等级，所述当前互动信息为弹幕信息，所述内容相关信息包括所述弹幕信息中的文本内容，所述确定所述当前互动信息中包含的内容相关信息，包括：

根据所述当前互动信息中的弹幕信息，确定所述当前互动信息对应的音效等级，所述弹幕信息包括关键词重复次数或表情符号重复次数。

在一实施例中，所述音效等级包括：音效强度、音效内容、音效发声人数中的任意一种或者任意组合。

根据本公开实施例的第二方面，提供一种播放音效的装置，包括：

互动信息获取模块，被配置为获取直播房间中的当前互动信息；

互动音效确定模块，被配置为确定与所述互动信息获取模块获取到的所述当前互动信息相对应的互动音效；

互动音效播放模块，被配置为播放所述互动音效确定模块确定的所述互动音效。

在一实施例中，所述装置还包括：

音效等级确定模块，被配置为在所述互动音效播放模块播放所述互动音效之前，根据所述当前互动信息确定对应的音效等级；

所述互动音效播放模块被配置为：

按照所述音效等级播放所述互动音效。

在一实施例中，所述音效等级确定模块包括：

第一确定子模块，被配置为根据所述互动信息获取模块获取到的所述当前互动信息中的人脸特征，确定所述当前互动信息对应的音效等级，所述人脸特征包括五官变化特征。

在一实施例中，所述音效等级确定模块包括：

第二确定子模块，被配置为根据所述互动信息获取模块获取到的所述当前互动信息中的语音特征，确定所述当前互动信息对应的音效等级，所述语音特征包括主播用户的语音内容及语音强度。

在一实施例中，所述第二确定子模块还被配置为：获取所述语音内容包含的关键词重复次数，以及所述语音强度对应的分贝级别；并根据所述关键词重复次数和所述分贝级别确定所述语音特征对应的音效等级。

在一实施例中，所述音效等级确定模包括：

第四确定子模块，被配置为根据所述互动信息获取模块获取到的所述当前互动信息中的弹幕信息，确定所述当前互动信息对应的音效等级，所述弹幕信息包括关键词重复次数或表情符号重复次数。

根据本公开实施例的第三方面，提供一种播放音效的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取直播房间中的当前互动信息；

确定与所述当前互动信息相对应的互动音效；

播放所述互动音效。

本公开的实施例提供的技术方案可以包括以下有益效果：

通过播放与直播房间中的当前互动信息相对应的互动音效，确保播放的音效能够与直播房间的直播氛围相适应，使直播氛围轻松愉快，达到了渲染直播房间的效果，并且还避免了主播用户通过手动的方式播放与视频直播场景相一致的音效，简化了主播用户的操作。

此外，按照当前互动信息确定对应的音效等级播放互动音效，可以控制互动音效能够与当前互动信息所表达的氛围相一致，达到了渲染直播气氛的效果。

此外，通过将与人脸特征相匹配的参考表情特征确定为五官变化特征，根据五官变化特征确定对应的音效等级，可以使主播用户根据其表情即可控制需要播放的互动音效，由于互动音效与表情的夸张程度相一致，因此能够很好地渲染直播气氛。

通过检测主播用户的语音特征的级别确定当前互动信息对应的音效等级，实现了根据主播用户的语音特征所体现出的语音内容和语音强度的不同程度来播放不同音效等级的互动音效，从而可以控制互动音效与语音特征相匹配，达到渲染直播气氛的效果。

通过检测观众用户的弹幕信息的音效等级，并播放与该音效等级相一致的互动音效，实现了根据观众用户的弹幕信息所体现出的互动程度来播放互动音效，控制互动音效与观众用户的互动程度相匹配，达到渲染直播气氛的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1A是根据一示例性实施例示出的播放音效的方法的流程图。

图1B是根据一示例性实施例示出的播放音效的方法的场景图。

图2是根据一示例性实施例一示出的播放音效的方法的流程图。

图3是根据一示例性实施例二示出的播放音效的方法的流程图。

图4是根据一示例性实施例三示出的播放音效的方法的流程图。

图5是根据一示例性实施例四示出的播放音效的方法的流程图。

图6是根据一示例性实施例示出的一种播放音效的装置的框图。

图7是根据一示例性实施例示出的另一种播放音效的装置的框图。

图8是根据一示例性实施例示出的一种适用于播放音效的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1A是根据一示例性实施例示出的播放音效的方法的流程图，图1B是根据一示例性实施例示出的播放音效的方法的场景图之一；该播放音效的方法可以应用在电子设备(例如：智能手机、平板电脑等设备)上，如图1A所示，该播放音效的方法包括以下步骤101-103：

在步骤101中，获取直播房间中的当前互动信息。

在一实施例中，直播房间可以为主播用户在视屏直播过程中的视频平台或者视频应用程序，可通过电子设备上的摄像头或者摄像装置实时抓取主播用户的实时视频场景。在一实施例中，当前互动信息可以包括主播用户的人脸特征、主播用户的语音特征以及观众用户基于主播用户的直播内容反馈的弹幕信息，例如，人脸特征为主播用户的搞怪表情特征，语音特征例如为主播用户讲了一个事情后说出的“此处应该有掌声”中的“掌声”，观众用户基于主播用户的直播内容反馈的弹幕信息可以为主播用户在唱一首很好听的歌曲时，观众用户发出的弹幕信息“鼓掌”的文字内容或者“玫瑰花”的图案。

在步骤102中，确定与当前互动信息相对应的互动音效。

在一实施例中，互动音效可以包括：大笑、掌声、搞怪声等。在一实施例中，可根据主播用户自身对互动音效的需求来设置不同的互动音效。

在步骤103中，播放互动音效。

在一示例性场景中，如图1B所示，主播用户在电子设备11的直播应用程序进行注册后得到该主播用户的直播房间，主播用户通过其直播房间进行视频直播，通过摄像头111采集主播用户在视频直播过程中的视频直播场景，电子设备11将摄像头111实时采集的视频上传至服务器10，服务器10再将实时采集的视频以视频流的形式传输给观众用户A的电子设备12和观众用户B的电子设备13，电子设备12和电子设备13分别通过直播应用程序播放关于主播用户的视频直播场景。在直播过程中，可以实时监测主播用户的当前互动信息，例如，当主播用户扮了一个搞怪的表情时，可以通过人脸识别检测到该搞怪的表情，该搞怪的表情可以视为一条当前互动信息，通过确定与该搞怪的表情相对应的互动音效，进而可以播放该搞怪的互动音效；或者，主播用户讲了一个很有趣的事情后，并且说到“此处应该有掌声”，可以通过语音识别检测到该“此处应该有掌声”，该“此处应该有掌声”可以视为一条当前互动信息，通过确定与“此处应该有掌声”相对应的互动音效，可以播放鼓掌的互动音效；再或者，观众用户A通过电子设备12上的直播应用程序登录到主播用户的直播房间，当观众用户A认为主播用户讲了一个很励志的事情后，观众用户A通过电子设备发送了弹幕信息“鼓掌鼓掌”，在主播用户侧的电子设备11的用户界面上，会在界面上显示出弹幕信息“鼓掌鼓掌”，该“鼓掌鼓掌”可以视为一条当前互动信息，在通过文本识别到“鼓掌鼓掌”后，播放鼓掌的互动音效。

本实施例中，通过播放与直播房间中的当前互动信息相对应的互动音效，确保播放的音效能够与直播房间的直播氛围相适应，使直播氛围轻松愉快，达到了渲染直播房间的效果，并且还避免了主播用户通过手动的方式播放与视频直播场景相一致的音效，简化了主播用户的操作。

在一实施例中，根据当前互动信息确定对应的音效等级，包括：

根据当前互动信息中的人脸特征，确定当前互动信息对应的音效等级，人脸特征包括五官变化特征。

根据当前互动信息中的语音特征，确定当前互动信息对应的音效等级，语音特征包括主播用户的语音内容及语音强度。

在一实施例中，根据当前互动信息中的语音特征，确定当前互动信息对应的音效等级，包括：

获取语音内容包含的关键词重复次数，以及语音强度对应的分贝级别；

根据关键词重复次数和分贝级别确定语音特征对应的音效等级。

在一实施例中，根据当前互动信息确定对应的音效等级，当前互动信息为弹幕信息，内容相关信息包括弹幕信息中的文本内容，确定当前互动信息中包含的内容相关信息，包括：

根据当前互动信息中的弹幕信息，确定当前互动信息对应的音效等级，弹幕信息包括关键词重复次数或表情符号重复次数。

在一实施例中，音效等级包括：音效强度、音效内容、音效发声人数中的任意一种或者任意组合。

具体如何播放音效的，请参考后续实施例。

至此，本公开实施例提供的上述方法，可以确保播放的音效能够与直播房间的直播氛围相适应，使直播氛围轻松愉快，达到渲染直播房间的效果，并且还避免主播用户通过手动的方式播放与视频直播场景相一致的音效，简化主播用户的操作。

下面以具体实施例来说明本公开实施例提供的技术方案。

图2是根据一示例性实施例一示出的播放音效的方法的流程图；本实施例利用本公开实施例提供的上述方法，以如何实现播放不同音效等级的音效为例并结合图1B进行示例性说明，如图2所示，包括如下步骤：

步骤201中，获取直播房间中的当前互动信息。

步骤202中，确定与当前互动信息相对应的互动音效。

步骤201和步骤202的相关描述可以参见上述图1A所示实施例的相关描述，在此不再详述。

步骤203中，根据当前互动信息确定对应的音效等级。

步骤204中，按照音效等级播放互动音效。

在一实施例中，音效等级可以包括：音效强度、音效内容、音效发声人数中的任意一种或者任意组合，其中，音效内容可以为鼓掌声、搞怪声、笑声等，音效强度对应鼓掌声、搞怪声以及笑声的声音的高低，音效发声人数可以为1个或者多个。以当前互动信息所包括的人脸特征为例进行示例性说明，人脸特征对应不同的五官变化特征时，可对应不同的音效等级，例如，检测到人脸特征为鬼脸特征，则可以将该鬼脸特征视为五官变化特征，通过确定该五官变化特征对应的音效等级，例如，如果五官变化特征对应的音效等级包括：分贝级别为60，音效内容对应“嘻嘻”的笑声，音效发声人数为1人，则可以播放具有1人笑声并且强度为60分贝的“嘻嘻”的笑声，如果五官变化特征对应的音效等级包括：分贝级别为65，音效内容对应“哈哈”的笑声，音效发声人数为5人，则可以播放具有5人笑声并且强度为60分贝的“哈哈”的笑声。

本实施例在具有上述图1A所示实施例的基础上，按照当前互动信息确定对应的音效等级播放互动音效，可以控制互动音效能够与当前互动信息所表达的氛围相一致，达到了渲染直播气氛的效果。

图3是根据一示例性实施例二示出的播放音效的方法的流程图；本实施例利用本公开实施例提供的上述方法，以当前互动信息包括直播房间中的人脸特征的情形下如何根据人脸特征确定当前互动信息对应的音效等级为例并结合图1B进行示例性说明，如图3所示，包括如下步骤：

步骤301中，获取直播房间中的当前互动信息。

步骤301的相关描述可以参见上述图1A所示实施例的相关描述，在此不再详述。

步骤302中，从当前互动信息中获取人脸特征。

在一实施例中，可以通过相关技术中的人脸识别方法实时检测直播房间中的人脸特征，本公开不再详述。

步骤303中，将人脸特征与第一预设特征库中的参考表情特征进行匹配，第一预设特征库用于存储主播用户在不同人脸表情时的参考表情特征。

在一实施例中，可以通过摄像头采集主播用户在各种不同表情(例如，不同程度的挤眉对应的鬼脸、不同程度的嘴角向下并裂开时的哭脸、不同程度的嘴角上扬并裂开时的笑脸等)时的参考表情特征，并将该参考表情特征存储在第一预设特征库中，由此可以使第一预设特征库中只存储视频直播场景中涉及到的主播用户的人脸表情特征，确保摄像头采集到的主播用户本人在各种不同表情的情况下的人脸特征均能够与第一预设特征库中的参考表情特征匹配，提高表情特征识别的准确度。

步骤304中，将与人脸特征相匹配的参考表情特征确定为五官变化特征。

在一实施例中，例如，当前识别到的人脸特征为[α₁ α₂ α₃ α₄]，通过人脸特征[α₁α₂ α₃ α₄]与第一预设特征库中的参考表情特征[β₁ β₂ β₃ β₄]、参考表情特征[χ₁ χ₂ χ₃ χ₄]等进行相似度计算，当确定参考表情特征[β₁ β₂ β₃ β₄]与人脸特征[α₁ α₂ α₃ α₄]相似时，可认为二者相匹配，可将与人脸特征[α₁ α₂ α₃ α₄]相匹配的参考表情特征[β₁ β₂ β₃ β₄]确定为五官变化特征。

步骤305中，根据五官变化特征确定对应的音效等级。

在一实施例中，可以在第一预设特征库中预设设置不同的参考表情特征所对应的音效等级。

步骤306中，按照音效等级播放互动音效。

例如，参考表情特征[β₁ β₂ β₃ β₄]对应的音效等级包括：分贝级别为65，音效内容对应“哈哈”的笑声，发声人数为5人，则可以播放具有5人笑声并且强度为65分贝的“哈哈”的笑声。

本实施例在具有上述实施例的有益技术效果的基础上，通过将与人脸特征相匹配的参考表情特征确定为五官变化特征，根据五官变化特征确定对应的音效等级，可以使主播用户根据其表情即可控制需要播放的互动音效，由于互动音效与表情的夸张程度相一致，因此能够很好地渲染直播气氛。

图4是根据一示例性实施例三示出的播放音效的方法的流程图；本实施例利用本公开实施例提供的上述方法，以当前互动信息包括直播房间中的语音特征的情形下如何根据语音特征确定当前互动信息对应的音效等级为例并结合图1B进行示例性说明，如图4所示，包括如下步骤：

步骤401中，获取直播房间中的当前互动信息。

步骤401中的相关描述可以参见上述图1A实施例的相关描述，在此不再详述。

步骤402中，从当前互动信息中获取语音特征。

在一实施例中，语音特征可以包括主播用户的语音内容及语音强度。在一实施例中，可以通过相关技术中的语音识别方法识别出当前互动信息中主播用户的语音内容，本公开不再详述，例如，主播用户在视频直播过程中说了“此处应该有掌声”，语音内容为“此处”、“应该”、“有掌声”。在一实施例中，可以通过声音传感器检测到主播用户的语音强度，并通过分贝级别表示语音强度。

步骤403中，确定与语音特征相对应的互动音效。

例如，主播用户讲了一个事情后说出的“此处应该有掌声”，通过语音识别出语音内容“此处”、“应该”、“掌声”，将“此处”、“应该”、“掌声”与第二预设特征库中的语音参考关键词进行匹配，在确定第二预设特征库中存储的一个语音参考关键词为“掌声”后，可以确定出互动音效为“掌声”。在一实施例中，可以通过电子设备11收集主播用户在视频直播过程中需要触发互动音效的参考关键词，例如，将“掌声”、“音乐”作为语音参考关键词存储在第二预设特征库中，由此可以使第二预设特征库中只存储主播用户本人在视频直播过程中需要触发互动音效的语音参考关键词，由此可以确保不同的主播用户所使用的词语习惯不同的情形下，仍能够根据各自的表达习惯触发主播用户需要的互动音效，使互动音效的控制更具针对性。

步骤404中，根据语音特征，确定当前互动信息对应的音效等级。

在一实施例中，可以获取语音内容包含的关键词重复次数，以及语音强度对应的分贝级别，根据关键词重复次数和分贝级别确定语音特征对应的音效等级，例如，“此处应该有掌声”，通过语音识别出的语音内容包含一个掌声，“此处应该有掌声掌声掌声”，通过语音识别出的语音内容包含三个掌声，则三个掌声的语音内容对应的音效等级高于一个掌声的语音内容对应的音效等级，此外，还可以结合主播用户的语音强度，例如，语音内容包含一个掌声并且语音强度为50分贝时与语音内容包含三个掌声并且语音强度为40分贝时，对应不同的音效等级。

步骤405中，按照音效等级播放互动音效。

例如，语音内容包含一个掌声并且语音强度为50分贝对应的音效等级包括：分贝级别为65，音效内容对应掌声，发声人数为5人，则可以播放具有5人并且强度为65分贝的掌声；语音内容包含三个掌声并且语音强度为60分贝对应的音效等级包括：分贝级别为70，音效内容对应掌声，发声人数为10人，则可以播放具有10人并且强度为70分贝的掌声。

本实施例在具有上述实施例的有益技术效果的基础上，通过检测主播用户的语音特征的级别确定当前互动信息对应的音效等级，实现了根据主播用户的语音特征所体现出的语音内容和语音强度的不同程度来播放不同音效等级的互动音效，从而可以控制互动音效与语音特征相匹配，达到渲染直播气氛的效果。

图5是根据一示例性实施例四示出的播放音效的方法的流程图；本实施例利用本公开实施例提供的上述方法，以当前互动信息包括直播房间中的弹幕信息的情形下如何根据弹幕信息确定当前互动信息对应的音效等级为例并结合图1B进行示例性说明，如图5所示，包括如下步骤：

步骤501中，获取直播房间中的当前互动信息；

步骤501中的相关描述可以参见上述图1A实施例的相关描述，在此不再详述。

步骤502中，从当前互动信息中获取弹幕信息。

在一实施例中，弹幕信息可以包括观众用户发送的文本信息以及图案表情信息，文本信息例如为文字，图案表情信息例如为玫瑰花、各种不同开心级别的笑脸、拥抱等。

步骤503中，确定与弹幕信息相对应的互动音效。

在一实施例中，可以对与视频直播场景相关的弹幕信息进行识别，得到至少一个文本关键词，将至少一个文本关键词与第三预设特征库中的参考关键词进行匹配，第三预设特征库用于存储观众用户的参考关键词。在一实施例中，可以通过服务器10收集海量的观众用户在视频直播过程中发送的需要触发互动音效的关键词，例如，将“掌声”、“欢呼声”等，并将参考关键词存储在第三预设特征库中，服务器10将该第三预设特征库下发给电子设备11。在一实施例中，可以通过相关技术中的语义识别方法识别出视频直播场景中观众用户的文本关键词，本公开不再详述，例如，观众用户B通过电子设备12向主播用户的电子设备11发送了“太好听了，鼓掌鼓掌”，该文本关键词为“好听”、“鼓掌”。

步骤504中，根据弹幕信息，确定当前互动信息对应的音效等级。

当观众用户所使用的文本信息具有不同的紧凑程度时(例如，一条文本信息中包含两个“掌声”与包含一个“掌声”，或者，一条文本信息中包含一朵“玫瑰花”与三朵“玫瑰花”)，对应的音效等级度也不同，在一实施例中，可以通过关键词在文本信息中出现的次数来确定弹幕信息对应的音效等级，例如，观众用户A发送的弹幕信息为“太好听了，鼓掌鼓掌鼓掌”，对应的音效等级包括：分贝级别为65，音效内容对应掌声，发声人数为5人，再例如，观众用户B发送的弹幕信息为三个大笑脸的图案表情符号，对应的音效等级包括：分贝级别为55，音效内容对应音乐，发声人数为2人。

步骤505中，按照音效等级播放互动音效。

与上述步骤504相对应，对于观众用户A的弹幕信息的响应，可以播放具有5人并且强度为65分贝的掌声；对于观众用户B的弹幕信息的响应，可以播放具有3人并且强度为55分贝的音乐，该音乐可以由主播用户来设定。

本实施例在具有上述实施例的有益技术效果的基础上，通过检测观众用户的弹幕信息的音效等级，并播放与该音效等级相一致的互动音效，实现了根据观众用户的弹幕信息所体现出的互动程度来播放互动音效，控制互动音效与观众用户的互动程度相匹配，达到渲染直播气氛的效果。

本领域技术人员可以理解的是，上述图3-图5所示实施例中的各种结合可形成新的实施例，也即，可以通过人脸特征、语音特征以及弹幕信息中的任意一个或者任意组合的方式播放互动音效。

图6是根据一示例性实施例示出的一种播放音效的装置的框图，如图6所示，播放音效的装置包括：

互动信息获取模块61，被配置为获取直播房间中的当前互动信息；

互动音效确定模块62，被配置为确定与互动信息获取模块61获取到的当前互动信息相对应的互动音效；

互动音效播放模块63，被配置为播放互动音效确定模块62确定的互动音效。

图7是根据一示例性实施例示出的另一种播放音效的装置的框图，如图7所示，在上述图6所示实施例的基础上，在一实施例中，装置还包括：

音效等级确定模块64，被配置为在互动音效播放模块63播放互动音效之前，根据互动信息获取模块61获取到的当前互动信息确定对应的音效等级；

互动音效播放模块63被配置为：

按照音效等级确定模块64确定的音效等级播放互动音效。

在一实施例中，音效等级确定模块64包括：

第一确定子模块641，被配置为根据互动信息获取模块61获取到的当前互动信息中的人脸特征，确定当前互动信息对应的音效等级，人脸特征包括五官变化特征。

在一实施例中，音效等级确定模块64包括：

第二确定子模块642，被配置为根据互动信息获取模块61获取到的当前互动信息中的语音特征，确定当前互动信息对应的音效等级，语音特征包括主播用户的语音内容及语音强度。

在一实施例中，第二确定子模块642还被配置为：获取语音内容包含的关键词重复次数，以及语音强度对应的分贝级别；并根据关键词重复次数和分贝级别确定语音特征对应的音效等级。

在一实施例中，音效等级确定模64包括：

第三确定子模块643，被配置为根据互动信息获取模块61获取到的当前互动信息中的弹幕信息，确定当前互动信息对应的音效等级，弹幕信息包括关键词重复次数或表情符号重复次数。

图8是根据一示例性实施例示出的一种适用于播放音效的装置的框图。例如，装置800可以是具有摄像头的移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等电子设备。

参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。处理器820被配置为：

获取直播房间中的当前互动信息；

确定与当前互动信息相对应的互动音效；

播放互动音效。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种播放音效的方法，其特征在于，所述方法包括：

获取直播房间中的当前互动信息，所述直播房间为主播用户进行视频直播所使用的视频平台或视频应用程序；

确定与所述当前互动信息相对应的互动音效；

通过直播应用程序，面向所述主播用户和观众用户播放所述互动音效；

其中，所述当前互动信息包括以下至少一项：

主播用户的人脸特征、主播用户的语音特征、观众用户基于所述主播用户的直播内容反馈的弹幕信息。

2.根据权利要求1所述的方法，其特征在于，所述播放所述互动音效之前，所述方法还包括：

根据所述当前互动信息确定对应的音效等级；

所述播放所述互动音效包括：

按照所述音效等级播放所述互动音效。

3.根据权利要求2所述的方法，其特征在于，所述根据所述当前互动信息确定对应的音效等级，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述当前互动信息确定对应的音效等级，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述当前互动信息中的语音特征，确定所述当前互动信息对应的音效等级，包括：

6.根据权利要求2所述的方法，其特征在于，所述当前互动信息包括弹幕信息，所述根据所述当前互动信息确定对应的音效等级，包括：

7.根据权利要求2所述的方法，其特征在于，所述音效等级包括：音效强度、音效内容、音效发声人数中的任意一种或者任意组合。

8.一种播放音效的装置，其特征在于，所述装置包括：

互动信息获取模块，被配置为获取直播房间中的当前互动信息，所述直播房间为主播用户进行视频直播所使用的视频平台或视频应用程序；

互动音效播放模块，被配置为通过直播应用程序，面向所述主播用户和观众用户播放所述互动音效确定模块确定的所述互动音效；

其中，所述当前互动信息包括以下至少一项：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

所述互动音效播放模块被配置为：

按照所述音效等级确定模块确定的所述音效等级播放所述互动音效。

10.根据权利要求9所述的装置，其特征在于，所述音效等级确定模块包括：

11.根据权利要求9所述的装置，其特征在于，所述音效等级确定模块包括：

12.根据权利要求11所述的装置，其特征在于，所述第二确定子模块还被配置为：获取所述语音内容包含的关键词重复次数，以及所述语音强度对应的分贝级别；并根据所述关键词重复次数和所述分贝级别确定所述语音特征对应的音效等级。

13.根据权利要求9所述的装置，其特征在于，所述音效等级确定模包括：

第三确定子模块，被配置为根据所述互动信息获取模块获取到的所述当前互动信息中的弹幕信息，确定所述当前互动信息对应的音效等级，所述弹幕信息包括关键词重复次数或表情符号重复次数。

14.根据权利要求9所述的装置，其特征在于，所述音效等级包括：音效强度、音效内容、音效发声人数中的任意一种或者任意组合。

15.一种播放音效的装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

确定与所述当前互动信息相对应的互动音效；

其中，所述当前互动信息包括以下至少一项：