CN105828254B

CN105828254B - 一种音频调节方法及装置

Info

Publication number: CN105828254B
Application number: CN201610305254.3A
Authority: CN
Inventors: 李春明
Original assignee: Qingdao Hisense Electronics Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2016-05-09
Filing date: 2016-05-09
Publication date: 2019-04-12
Anticipated expiration: 2036-05-09
Also published as: CN105828254A

Abstract

本发明实施例公开了一种音频调节方法及装置。本发明实施例中，确定待调节音频帧的标识信息和待调节音频帧的第一频谱信息，以及确定待调节音频帧的标识信息对应的原唱音频帧的第二频谱信息，并根据多个频点分别对应的第一幅度值与多个频点分别对应的第二幅度值之间的差值，确定多个频点分别对应的增益值；采用多个频点分别对应的增益值，对待调节音频帧进行调节。本发明实施例中通过将麦克风输入的歌唱声音和原唱进行比较，并根据比较结果对麦克风输入的歌唱声音进行调节，进而使得调节后的歌唱声音既有用户声音的特色，也能更加接近原唱。

Description

一种音频调节方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种音频调节方法及装置。

背景技术

目前在很多终端上集成有家庭影院、卡拉OK等功能，方便用户K歌。为优化用户的歌唱声音，提高用户体验，现有的手机、电脑、电视等终端上通常设置有不同的音效模式，例如标准模式、音乐模式、影院模式、剧场模式等，不同的音效模式对应的音效均衡器的数值不同，使用不同的音效模式会得到不同的听觉效果。因此，在用户唱歌过程中，可根据相应的优化需求，采用不同的音效模式。

然而，由于不同的音效模式中各个频点的增益值都是预先设置好的，例如，音乐模式中各个频点的增益值为预先设置好的一组数值，当用户将音效调节至音乐模式时，不管用户在唱歌过程中，输入的歌唱声音发生什么样的变化，均会按设置好的增益值对歌唱声音进行调节并输出。例如，若用户a的歌唱声音所对应的频点相比于原唱，各个频点的幅度值普遍偏高，用户b的歌唱声音所对应的频点相比于原唱，各个频点的幅度值普遍偏低，由于各个音效模式中各个频点的增益值是预先设置好的，若采用同一音效模式对用户a和用户b的歌唱声音进行调节，明显无法实现同时优化用户a和用户b的歌唱声音的效果。因此，在不同用户输入的歌唱声音多样化和不确定性的情况下，按照预先设置好的增益值对歌唱声音进行调节，难以实现对不同的歌唱声音进行优化。

综上，目前亟需一种音频调节方法，用于实现对不同的歌唱声音进行有效调节和优化。

发明内容

本发明实施例提供一种音频调节方法及装置，用以解决现有技术中不管输入的歌唱声音发生什么样的变化，均会按设置好的增益值对歌唱声音进行调节并输出而导致难以实现对不同的歌唱声音进行优化的问题。

本发明实施例提供的一种音频调节方法，包括：

获取麦克风输入的设定时间长度的歌唱音频，得到待调节音频帧；

确定所述待调节音频帧的标识信息和所述待调节音频帧的第一频谱信息；所述第一频谱信息中包括多个频点分别对应的第一幅度值；

根据所述待调节音频帧的标识信息，获取与所述待调节音频帧的标识信息对应的原唱音频帧；

确定所述待调节音频帧的标识信息对应的原唱音频帧的第二频谱信息；所述第二频谱信息中包括所述多个频点分别对应的第二幅度值；

根据所述多个频点分别对应的第一幅度值与所述多个频点分别对应的第二幅度值之间的差值，确定所述多个频点分别对应的增益值；

采用所述多个频点分别对应的增益值，对所述待调节音频帧进行调节。

输入时间输入时间输入时间

本发明实施例提供一种音频调节装置，该装置包括：

获取模块，用于获取麦克风输入的设定时间长度的歌唱音频，得到待调节音频帧；

确定模块，用于确定所述待调节音频帧的标识信息和所述待调节音频帧的第一频谱信息；所述第一频谱信息中包括多个频点分别对应的第一幅度值；

所述获取模块还用于，根据所述待调节音频帧的标识信息，获取与所述待调节音频帧的标识信息对应的原唱音频帧；

所述确定模块还用于，确定所述待调节音频帧的标识信息对应的原唱音频帧的第二频谱信息；所述第二频谱信息中包括所述多个频点分别对应的第二幅度值；以及根据所述多个频点分别对应的第一幅度值与所述多个频点分别对应的第二幅度值之间的差值，确定所述多个频点分别对应的增益值；

调节模块，用于采用所述多个频点分别对应的增益值，对所述待调节音频帧进行调节。

输入时间输入时间输入时间

本发明实施例中，获取麦克风输入的设定时间长度的歌唱音频，得到待调节音频帧；确定待调节音频帧的标识信息和待调节音频帧的第一频谱信息；根据待调节音频帧的标识信息，获取与待调节音频帧的标识信息对应的原唱音频帧；确定待调节音频帧的标识信息对应的原唱音频帧的第二频谱信息，并根据多个频点分别对应的第一幅度值与多个频点分别对应的第二幅度值之间的差值，确定多个频点分别对应的增益值；采用多个频点分别对应的增益值，对待调节音频帧进行调节。本发明实施例中，通过将待调节音频帧的第一频谱信息和原唱音频帧的第二频谱信息进行比较，得到多个频点分别对应的增益值，进而采用多个频点分别对应的增益值对待调节音频帧进行调节，实现了根据待调节音频帧和原唱音频帧确定多个频点对应的增益值，从而能够很好地针对待调节音频帧的多样化和不确定性进行有效的调节，避免了现有技术中不管输入声音发生什么样的变化，均会按设置好的增益值对输入声音进行调节并输出而导致难以实现输入声音进行有效调节的问题；也就是说，本发明实施例中通过将麦克风输入的歌唱声音和原唱进行比较，并根据比较结果对麦克风输入的歌唱声音进行调节，进而使得调节后的歌唱声音既有用户声音的特色，也能更加接近原唱。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频调节方法所对应的流程示意图；

图2a为本发明实施例中第一频谱信息的部分内容示意图；

图2b为本发明实施例中第二频谱信息的部分内容示意图；

图2c为本发明实施例中音频调节后的部分频点信息示意图；

图3为本发明实施例提供的音频调节的整体流程示意图；

图4为本发明实施例提供的一种音频调节装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例中的音频调节方法可应用于KTV唱歌系统中，尤其适用于具有集成KTV唱歌系统的智能电视中对用户K歌的输入音频进行调节的场景。

图1为本发明实施例提供的一种音频调节方法所对应的流程示意图，如图1所示，该方法包括：

步骤101，获取麦克风输入的设定时间长度的歌唱音频，得到待调节音频帧；

步骤102，确定所述待调节音频帧的标识信息和所述待调节音频帧的第一频谱信息；所述第一频谱信息中包括多个频点分别对应的第一幅度值；

步骤103，根据所述待调节音频帧的标识信息，获取与所述待调节音频帧的标识信息对应的原唱音频帧；

步骤104，确定所述待调节音频帧的标识信息对应的原唱音频帧的第二频谱信息；所述第二频谱信息中包括所述多个频点分别对应的第二幅度值；

步骤105，根据所述多个频点分别对应的第一幅度值与所述多个频点分别对应的第二幅度值之间的差值，确定所述多个频点分别对应的增益值；

步骤106，采用所述多个频点分别对应的增益值，对所述待调节音频帧进行调节。

本发明实施例中，通过将待调节音频帧的第一频谱信息和原唱音频帧的第二频谱信息进行比较，得到多个频点分别对应的增益值，进而采用多个频点分别对应的增益值对待调节音频帧进行调节，实现了根据待调节音频帧和原唱音频帧确定多个频点对应的增益值，从而能够很好地针对待调节音频帧的多样化和不确定性进行有效的调节，避免了现有技术中不管输入声音发生什么样的变化，均会按设置好的增益值对输入声音进行调节并输出而导致难以实现输入声音进行有效调节的问题；也就是说，本发明实施例中通过将麦克风输入的歌唱声音和原唱进行比较，并根据比较结果对麦克风输入的歌唱声音进行调节，进而使得调节后的歌唱声音既有用户声音的特色，也能更加接近原唱。

本发明实施例中，待调节音频帧可以为设定时间长度的一个或一个以上的音频帧。以具有集成KTV唱歌系统的智能电视中对用户K歌的输入音频进行调节的场景为例，待调节音频帧可以为用户输入的任一设定时间长度的音频。其中，设定时间长度可由本领域技术人员根据经验设置，例如，可设置为5毫秒。

具体地，在步骤101中，通过接收用户通过麦克风输入的歌唱声音，得到设定时间长度的歌唱音频，并将设定时间长度的歌唱音频作为待调节音频帧；在步骤102中，可根据待调节音频帧的输入时间信息确定待调节音频帧的标识信息，并对待调节音频帧进行FFT(Fast Fourier Transformation，快速傅氏变换)处理，得到第一频谱信息。其中，第一频谱信息为通过对待调节音频帧处理得到的频谱图，第一频谱信息中包括多个频点分别对应的第一幅度值。本发明实施例中的多个频点是指按照采样原理，在20Hz—20KHz之间采集几十个或上百个频点。如图2a所示，为第一频谱信息的部分内容示意图。图2a中包括频点60、频点170、频点370、频点600、频点1k、频点3k、频点6k、频点12k分别对应的第一幅度值。

进一步地，在获取到待调节音频帧的第一频谱信息后，根据待调节音频帧的标识信息，获取与待调节音频帧的标识信息对应的原唱音频帧的第二频谱信息之前，还包括：获取第一频谱信息的多个频点中对应的第一幅度值大于等于第一阈值的有效频点；确定有效频点的个数是否大于等于第二阈值。其中，第一阈值和第二阈值均可由本领域技术人员根据经验设置。若有效频点的个数小于第二阈值，则说明此时用户没有输入音频或输入音频较弱，无需进行音频调节，即无需进行后续步骤；若有效频点的个数大于等于第二阈值，则可继续进行后续步骤，对用户的输入音频进行调节。通过这种判断过程，可有效避免在用户没有输入音频或输入音频较弱的情况下仍进行音频调节而导致处理资源浪费的问题，有效降低处理负担。

本发明实施例中，待调节音频帧的标识信息可以为待调节音频帧的输入时间信息。其中，输入时间信息包括输入开始时间和输入结束时间。针对于用户所唱的一首歌，待调节音频帧的标识信息为待调节音频帧的在该首歌中的输入开始时间和输入结束时间，即输入时间信息是以用户当前所唱的一首歌的时长为时间轴得到的。

本发明实施例通过后续过程对待调节音频帧进行调节后，即会播放调节后的待调节音频帧，因此，待调节音频帧的输入时间信息和调节后的待调节音频帧的播放时间信息会存在一定的偏差，即播放开始时间和播放结束时间均会有延迟，但由于延迟时间较短，一般为几毫秒，并不影响用户体验，因此，本发明实施例中可忽略该延迟时间。待调节音频帧的输入时间与视频播放时间同步，详细的讲，对输入时间的计时从歌曲视频开始播放时进行，即以歌曲播放的时长为时间轴，进而使得，计时的时间和歌曲的时间轴一致，例如，一首歌的时长为4分钟，若待调节音频帧的输入开始时间为该歌曲视频播放的第1分钟，输入结束时间为其第1分钟5毫秒，则待调节音频的输入开始时间为第1分钟，和输入结束时间为第1分钟5毫秒。优选的，所述设定时间、和本方法处理预设时间长度的待调节音频帧所用的时间(即第二预设时间)之和小于等于人的视听时间阈值的一半，在视频和音频的时间差值在上述视听时间阈值内的时候，用户会认为音视频是同步的。以视听时间阈值为30毫秒举例，用于在所述设定时间和本方法处理预设时间长度的待调节音频帧所用的时间(第二预设时间)之和小于等于15毫秒，以上述和值为15毫秒举例，若待处理音频帧的时长为13毫秒，处理时间(第二预设时间)为2毫秒，则装置在前一个15毫秒内获取13毫秒的歌唱视频并处理，在后一个15毫秒内完成声音的输出，由于用户的视听时间阈值为30毫秒，所以仍可保持视听同步的效果。添加标识信息另一种实现方式，可以以当前播放的一首歌的字幕的时间轴为基准，根据当前所唱歌曲的字幕时间轴为麦克风输入的歌唱音频增加时间标识信息，由于原声歌曲的时间轴和字幕的时间轴是一致的，同时用户会根据看到的字幕进行歌唱，所以能使得用户演唱的内容和原声演唱的内容相一致。

若通过上述判断过程，确定第一频谱信息中有效频点的个数大于等于第二阈值，则在步骤103中，根据所述待调节音频帧的输入时间信息，获取与所述待调节音频帧的输入时间信息相同的原唱音频帧，即是以用户当前所唱的一首歌的时长为时间轴，获取该时间轴上与待调节音频帧的输入时间信息相同的原唱音频帧。其中，原唱音频帧可以为用户所唱的一首歌的原唱的音频帧。例如，若待调节音频帧的输入时间信息中的输入开始时间为第1分钟，输入结束时间为第1分钟5毫秒，则原唱音频帧为具有相同输入时间信息的原唱的音频帧，即是指该首歌在播放过程中，第1分钟至第1分钟5毫秒的原唱音频帧。

在步骤104中，对原唱音频帧FFT处理，得到第二频谱信息。其中，第二频谱信息为通过对原唱音频帧处理得到的频谱图，第二频谱信息中包括多个频点分别对应的第二幅度值。如图2b所示，为第二频谱信息的部分内容示意图。图2b中包括频点60、频点170、频点370、频点600、频点1k、频点3k、频点6k、频点12k分别对应的第二幅度值。

在步骤105中，根据多个频点分别对应的第一幅度值与多个频点分别对应的第二幅度值之间的差值，采用设定的算法，得到多个频点分别对应的增益值。其中，设定的算法可以包括多种声音优化算法，具体可由本领域技术人员进行选择，本发明实施例对此不做限定。

在步骤106中，将多个频点分别对应的第一幅度值和所述多个频点分别对应的增益值进行相加，得到多个频点分别对应的第三幅度值。具体地，将频点60对应的第一幅度值和频点60对应的增益值相加，得到频点60对应的第三幅度值；将频点170对应的第一幅度值和频点170对应的增益值相加，得到频点170对应的第三幅度值；其它频点可同理得到对应的第三幅度值。如图2c所示，为音频调节后的部分频点信息示意图。图2c中包括频点60、频点170、频点370、频点600、频点1k、频点3k、频点6k、频点12k分别对应的第三幅度值。

随后，根据多个频点分别对应的第三幅度值，得到调节后的待调节音频帧，完成对待调节音频帧的调节，并播放调节后的待调节音频帧。

通过上述调整过程，能够使得用户输入的音频更接近原唱的音频，提高用户体验。

如图3所示，为本发明实施例提供的音频调节的整体流程示意图。下面结合图3对本发明实施例进行介绍。

步骤301，获取麦克风通过麦克风输入的设定时间长度的歌唱音频，得到待调节音频帧。

步骤302，确定待调节音频帧的标识信息和所述待调节音频帧的第一频谱信息；第一频谱信息中包括多个频点分别对应的第一幅度值。

步骤303，获取第一频谱信息的多个频点中对应的第一幅度值大于等于第一阈值的有效频点，确定有效频点的个数是否大于等于第二阈值，若是，则执行步骤304，否则，结束流程。

步骤304，根据所述待调节音频帧的标识信息，获取与所述待调节音频帧的标识信息对应的原唱音频帧的第二频谱信息；所述第二频谱信息中包括所述多个频点分别对应的第二幅度值。

步骤305，根据所述多个频点分别对应的第一幅度值与所述多个频点分别对应的第二幅度值之间的差值，确定所述多个频点分别对应的增益值。

步骤306，根据多个频点分别对应的第一幅度值和多个频点分别对应的增益值，得到多个频点分别对应的第三幅度值，进而得到调节后的待调节音频帧，并播放调节后的待调节音频帧。

需要说明的是，本发明实施例中可通过循环上述步骤301至步骤306，持续性对麦克风输入的音频进行调节，即完成待调节音频帧的调节后，继续对下一段设定时间长度的待调节音频帧通过上述过程进行调节。

进一步地，本发明实施例可通过设置相应的触发按钮来启动或关闭上述音频调节过程，例如，设置调节开关，若用户想要对音频进行调节，则打开开关，若用户不想要对音频进行调节，则可关闭开关。

针对上述方法流程，本发明实施例还提供一种音频调节装置，该装置的具体内容可以参照上述方法实施。

图4为本发明实施例提供的一种音频调节装置的结构示意图。如图4所示，该装置包括：

获取模块401，用于获取麦克风输入的设定时间长度的歌唱音频，得到待调节音频帧；

确定模块402，用于确定所述待调节音频帧的标识信息和所述待调节音频帧的第一频谱信息；所述第一频谱信息中包括多个频点分别对应的第一幅度值；

所述获取模块401还用于，根据所述待调节音频帧的标识信息，获取与所述待调节音频帧的标识信息对应的原唱音频帧；

所述确定模块402还用于，确定所述待调节音频帧的标识信息对应的原唱音频帧的第二频谱信息；所述第二频谱信息中包括所述多个频点分别对应的第二幅度值；以及根据所述多个频点分别对应的第一幅度值与所述多个频点分别对应的第二幅度值之间的差值，确定所述多个频点分别对应的增益值；

调节模块403，用于采用所述多个频点分别对应的增益值，对所述待调节音频帧进行调节。

较佳地，所述确定模块402具体用于：

对所述待调节音频帧进行快速傅氏变换FFT处理，得到所述第一频谱信息。

较佳地，所述待调节音频帧的标识信息为所述待调节音频帧的输入时间信息；

所述获取模块401具体用于：

根据所述待调节音频帧的输入时间信息，获取与所述待调节音频帧的输入时间信息相同步的原唱音频帧。

较佳地，所述获取模块401还用于，获取所述第一频谱信息的多个频点中对应的第一幅度值大于等于第一阈值的有效频点；

所述确定模块402还用于，确定所述有效频点的个数大于等于第二阈值。

较佳地，所述调节模块403具体用于：

根据所述多个频点分别对应的第一幅度值和所述多个频点分别对应的增益值，得到所述多个频点分别对应的第三幅度值；

根据所述多个频点分别对应的第三幅度值，得到调节后的待调节音频帧。

从上述内容可以看出：本发明实施例中，获取麦克风输入的设定时间长度的歌唱音频，得到待调节音频帧；确定待调节音频帧的标识信息和待调节音频帧的第一频谱信息；根据待调节音频帧的标识信息，获取与待调节音频帧的标识信息对应的原唱音频帧；确定待调节音频帧的标识信息对应的原唱音频帧的第二频谱信息，并根据多个频点分别对应的第一幅度值与多个频点分别对应的第二幅度值之间的差值，确定多个频点分别对应的增益值；采用多个频点分别对应的增益值，对待调节音频帧进行调节。本发明实施例中，通过将待调节音频帧的第一频谱信息和原唱音频帧的第二频谱信息进行比较，得到多个频点分别对应的增益值，进而采用多个频点分别对应的增益值对待调节音频帧进行调节，实现了根据待调节音频帧和原唱音频帧确定多个频点对应的增益值，从而能够很好地针对待调节音频帧的多样化和不确定性进行有效的调节，避免了现有技术中不管输入声音发生什么样的变化，均会按设置好的增益值对输入声音进行调节并输出而导致难以实现输入声音进行有效调节的问题；也就是说，本发明实施例中通过将麦克风输入的歌唱声音和原唱进行比较，并根据比较结果对麦克风输入的歌唱声音进行调节，进而使得调节后的歌唱声音既有用户声音的特色，也能更加接近原唱。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音频调节方法，其特征在于，应用于KTV唱歌系统中，该方法包括：

采用所述多个频点分别对应的增益值，对所述待调节音频帧进行调节；

其中，所述设定时间长度和对所述待调节音频帧进行调节所用的时间长度之和小于等于人的视听时间阈值的一半。

2.如权利要求1所述的方法，其特征在于，所述确定待调节音频帧的第一频谱信息，具体为：

3.如权利要求1所述的方法，其特征在于，所述待调节音频帧的标识信息为所述待调节音频帧的输入时间信息；

根据所述待调节音频帧的标识信息，获取与所述待调节音频帧的标识信息对应的原唱音频帧，具体为：

根据所述待调节音频帧的输入时间信息，获取与所述待调节音频帧的输入时间信息相同的原唱音频帧。

4.如权利要求1所述的方法，其特征在于，根据所述待调节音频帧的标识信息，获取与所述待调节音频帧的标识信息对应的原唱音频帧之前，还包括：

获取所述第一频谱信息的多个频点中对应的第一幅度值大于等于第一阈值的有效频点；

确定所述有效频点的个数大于等于第二阈值。

5.如权利要求1-4中任一项所述的方法，其特征在于，采用所述多个频点分别对应的增益值，对所述待调节音频帧进行调节，具体为：

6.一种音频调节装置，其特征在于，该装置包括：

调节模块，用于采用所述多个频点分别对应的增益值，对所述待调节音频帧进行调节；

7.如权利要求6所述的装置，其特征在于，所述确定模块具体用于：

8.如权利要求6所述的装置，其特征在于，所述待调节音频帧的标识信息为所述待调节音频帧的输入时间信息；

所述获取模块具体用于：

9.如权利要求6所述的装置，其特征在于，所述获取模块还用于，获取所述第一频谱信息的多个频点中对应的第一幅度值大于等于第一阈值的有效频点；

所述确定模块还用于，确定所述有效频点的个数大于等于第二阈值。

10.如权利要求6-9中任一项所述的装置，其特征在于，所述调节模块具体用于：