JP6999631B2

JP6999631B2 - オーディオ処理方法、装置、電子機器及び記憶媒体

Info

Publication number: JP6999631B2
Application number: JP2019218591A
Authority: JP
Inventors: アイフイアン、; ルイガオ、; ドンファンジー、
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド; シャンハイシャオドゥテクノロジーカンパニーリミテッド
Priority date: 2019-06-06
Filing date: 2019-12-03
Publication date: 2022-01-18
Anticipated expiration: 2039-12-03
Also published as: US11137974B2; JP2020202549A; US20200387343A1; CN110312146B; CN110312146A

Description

本願はインテリジェント端末分野に関し、特にオーディオ処理方法、装置、電子機器及び記憶媒体に関する。

インテリジェント端末の普及に伴って、ユーザーはしばしばインテリジェント端末を使用して音楽、放送、またはその他のオーディオを再生する。

オーディオソースが異なるため（例えば、プロバイダーが異なる）、オーディオが端末で再生される時の音量も異なってしまい、オーディオを再生する音量が大きすぎたり小さすぎたりする可能性があるため、ユーザーが頻繁に音量を調整する必要がある。例えば、端末が音楽Ａを再生する時の音量は３０ｄｂであるが、放送Ｂを再生する時の音量は１０ｄｂに変わって、音量が突然小さくなると、ユーザーは放送Ｂのコンテンツを聞くことができなくなり、ユーザーが音量を上げる必要がある。

本願はオーディオ処理方法、装置、電子機器及び記憶媒体を提供し、ユーザーがオーディオの音量を頻繁に調整する問題を避ける。

本願の第１態様はオーディオ処理方法を提供し、
処理対象オーディオに対して分割処理を実行して、Ｎ個のオーディオセグメントを取得し、前記Ｎは２以上の整数であるステップと、
各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、前記ターゲットシーケンスが最大音量値の大から小への順序にソートされたＭ個のオーディオセグメントの最大音量値を含み、前記Ｍは前記Ｎより小さい正の整数であるステップと、
前記ターゲットシーケンスに従って、前記処理対象オーディオの音量調整パラメーターを取得し、前記音量調整パラメーターが前記処理対象オーディオの再生音量を目標音量に調整することに用いられるステップと、を含むことを特徴とする。

本願の第２態様はオーディオ処理方法を提供し、
サーバーからのオーディオ情報を受信し、前記オーディオ情報に前記処理対象オーディオのリンクアドレスと前記音量調整パラメーターが含まれるステップと、
前記処理対象オーディオのリンクアドレスに従って前記処理対象オーディオを取得するステップと、
前記音量調整パラメーターに従って前記処理対象オーディオを再生するステップと、を含む。

本願の第３態様はオーディオ処理装置を提供し、処理モジュールを備え、
処理モジュールは、処理対象オーディオに対して分割処理を実行して、Ｎ個のオーディオセグメントを取得し、前記Ｎは２以上の整数であること、各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、前記ターゲットシーケンスが最大音量値の大から小への順序にソートされたＭ個のオーディオセグメントの最大音量値を含み、前記Ｍは前記Ｎより小さい正の整数であること、及び前記ターゲットシーケンスに従って、前記処理対象オーディオの音量調整パラメーターを取得することに用いられ、前記音量調整パラメーターが前記処理対象オーディオの再生音量を目標音量に調整することに用いられることに用いられる。

本願の第４態様はオーディオ処理装置を提供し、
サーバーからのオーディオ情報を受信することに用いられ、前記オーディオ情報に前記処理対象オーディオのリンクアドレスと前記音量調整パラメーターが含まれるトランシーバーモジュール、及び
前記処理対象オーディオのリンクアドレスに従って前記処理対象オーディオを取得し、且つ前記音量調整パラメーターに従って前記処理対象オーディオを再生するための処理モジュールを備える。

本願の第５態様は電子機器を提供し、少なくとも１つのプロセッサーとメモリを含み、
前記メモリはコンピューター実行命令を記憶し、
前記少なくとも１つのプロセッサーは前記メモリに記憶されたコンピューター実行命令を実行し、前記電子機器に第１態様又は第２態様に記載のオーディオ処理方法を実行させる。

本願の第６態様はコンピューター読み取り可能な記憶媒体を提供し、前記コンピューター読み取り可能な記憶媒体にコンピューター実行命令が記憶され、前記コンピューター実行命令がプロセッサーによって実行される際に、上記の第１態様又は第２態様に記載のオーディオ処理方法を実現する。

本願はオーディオ処理方法、装置、電子機器及び記憶媒体を提供し、該方法は、処理対象オーディオに対して分割処理を実行して、Ｎ個のオーディオセグメントを取得し、Ｎは２以上の整数であるステップと、各オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、ターゲットシーケンスが最大音量値の大から小への順序にソートされたＭ個のオーディオセグメントの最大音量値を含み、ＭはＮより小さい正の整数であるステップと、ターゲットシーケンスに従って、処理対象オーディオの音量調整パラメーターを取得し、音量調整パラメーターが処理対象オーディオの再生音量を目標音量に調整することに用いられるステップと、を含む。本願によるオーディオ処理方法は予め取得された音量調整パラメーターによって再生するオーディオの音量を調整して処理し、それによりオーディオの再生音量を目標音量に調整させることができ、ユーザーがオーディオの音量を頻繁に調整する問題を避ける。

本願によるオーディオ処理方法が適用されるシナリオ模式図である。本願によるオーディオ処理方法の概略的なフローチャート１である。本願によるオーディオ処理方法の概略的なフローチャート２である。本願による音量調整パラメーターを取得する概略的なフローチャートである。本願による端末が音量調整パラメーターに従って処理対象オーディオを再生する方法の概略的なフローチャートである。本願による１つのオーディオ処理装置の構造模式図である。本願による他のオーディオ処理装置の構造模式図である。本願による電子機器の構造模式図である。

本願の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本願の実施例を組み合わせ、本願の実施例における技術的解決手段を明確かつ完全に説明し、記載された実施例は本願の実施例の一部にすぎず、実施例の全てではないことは明らかである。本願の実施例に基づき、創造的な労力なしに、当業者が取得した他の全ての実施例はいずれも本願の保護範囲に属する。

従来の技術において、オーディオのソースが異なるため端末がオーディオを再生する音量は異なって、更にユーザーが音量を頻繁に調整しなければならない問題を解決するために、本願はオーディオ処理方法を提供し、予めオーディオを処理分析してオーディオの音量調整パラメーターを取得することによって、該音量調整パラメーターを用いて前記処理対象オーディオの再生音量を目標音量に調整する目的を達した。以下、具体的な適用シナリオと実施例を組み合わせて本願によるオーディオ処理方法を説明する。

図１は本願によるオーディオ処理方法が適用されるシナリオ模式図である。図１に示すように、このシナリオにはサーバーと端末が含まれることができる。サーバーはクラウドサーバーであってよく、該クラウドサーバーが端末のためにオーディオを提供することができる。端末は、オーディオ再生機能が集積されたモバイル端末又は固定端末を含んでもよいが、これらに制限されない。モバイル端末機器は携帯電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡと略称）、タブレット、携帯機器（例えば、ポータブルコンピューター、ポケットコンピューター又はハンドヘルドコンピューター）等を含んでもよいけど、これらに制限されない。固定端末は、デスクトップコンピューター、オーディオ及びビデオ機器、スマートテレビ、スマートスピーカー等を含んでもよいけど、これらに制限されない。

以下、図２を組み合わせてサーバーと端末が対話する観点から本願によるオーディオ処理方法を説明する。図２は本願によるオーディオ処理方法の概略的なフローチャート１である。図２に示すように、本実施例によるオーディオ処理方法は、以下のステップを含んでよく、
Ｓ２０１では、サーバーは処理対象オーディオに対して分割処理を実行して、Ｎ個のオーディオセグメントを取得し、Ｎは２以上の整数である。

本実施例において処理対象オーディオに対して分割処理を実行して、Ｎ個のオーディオセグメントを取得することができる。選択可能に、分割処理の方法はフレームごとのセグメンテーション、定期的なセグメンテーション、１秒あたりのセグメンテーション等であってよい。Ｎは２以上の整数である。

フレームごとのセグメンテーションは処理対象オーディオを形成するマルチフレームオーディオの時間順序に従ってセグメンテーションしてよく、即ちフレームごとのオーディオを１つのオーディオセグメントとする。例えば、処理対象オーディオ情報に２０００フレームのオーディオが含まれると、各フレームのオーディオは１つのオーディオセグメントであってよい。

定期的なセグメンテーションは同じ時間間隔ごとに処理対象オーディオを１回セグメンテーションしてよく、例えば、処理対象オーディオの開始時間から、２５０ｍｓごとに処理対象オーディオを１回セグメンテーションし、即ち取得されたＮ個のオーディオセグメントにおける各オーディオセグメントが全て２５０ｍｓである。

１秒あたりのセグメンテーションは１秒あたりに対応したオーディオをｍフレームにセグメンテーションし、次に、１秒あたりに任意のｐフレームを取得し、１秒あたりに取得したｐフレームは１つのオーディオセグメントであってよい。例えば、時間が２ｓである１つのオーディオである場合、２ｓのオーディオをまず２つの１ｓのオーディオにセグメンテーションし、更に各１ｓのオーディオをｍフレームにセグメンテーションし、各１ｓのオーディオに対応したｍフレームからｐフレームを取得し、該ｐフレームを１つのオーディオセグメントとする。理解すべきなのは、ｍは２より大きい整数であり、ｐはｍより小さい正の整数である。本実施例において処理対象オーディオに対して分割処理を行う処理方法に対して制限しない。

Ｓ２０２では、サーバーは各オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、ターゲットシーケンスが最大音量値の大から小への順序にソートされたＭ個のオーディオセグメントの最大音量値を含み、ＭはＮより小さい正の整数である。

本実施例において、サーバーに処理対象オーディオの各時点の音量値が記憶されることができ、各時点での音量値は処理対象オーディオのミリ秒ごとの音量値であってよい。本実施例において、上記Ｓ２０１のいずれかのセグメンテーション方法に従って取得したオーディオセグメントに、少なくとも１つの時点のオーディオが含まれることができる。例えば、フレームごとのセグメンテーション方法では１つのオーディオセグメントは１フレームのオーディオであり、この１フレームのオーディオに少なくとも１つの時点のオーディオが含まれることができる。定期的なセグメンテーション方法では１つのオーディオセグメントは２５０ｍｓのオーディオであり、即ちそれにも複数の時点のオーディオが含まれる。

各オーディオセグメントにおける各時点の音量値に従って、各オーディオセグメントの最大音量値を確定し、更に各オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得することができる。本実施例におけるターゲットシーケンスが最大音量値の大から小への順序にソートされたＭ個のオーディオセグメントの最大音量値を含み、ＭはＮより小さい正の整数である。

選択可能に、本実施例においてＮ個のオーディオセグメントにおける各オーディオセグメントの最大音量値を大から小までソートして、前のＭにソートされた最大音量値を取得し、ターゲットシーケンスを組成することができる。例えば、Ｎは８であり、且つ８個のオーディオセグメントに対応した最大音量値を大から小までソートし、それぞれ３０ｄｂ、２８ｄｂ、２７ｄｂ、２４ｄｂ、２２ｄｂ、２１ｄｂ、２０ｄｂ及び１９ｄｂである。Ｍは５であると、該８個のオーディオセグメントに対応したターゲットシーケンスは、｛３０ｄｂ、２８ｄｂ、２７ｄｂ、２４ｄｂ、２２ｄｂ｝である。

選択可能に、ターゲットシーケンスの中のＭはデフォルト値であってよく、異なる処理対象オーディオに対して、該Ｍが同様である。選択可能に、本実施例において、ターゲットシーケンスを迅速で正確に確定して、更に処理対象オーディオの音量調整パラメーターを迅速で正確に取得するために、ターゲットシーケンスの中のＭは処理対象オーディオの属性に従って確定されてもよい。例えば、処理対象オーディオの属性は処理対象オーディオの時間長さであってよい。対応的に、異なる時間長さの処理対象オーディオに対して、Ｍが異なり、処理対象オーディオの時間長さが小さいほど、Ｍが小さくなり、処理対象オーディオの時間長さが大きいほど、Ｍが大きくなる。処理対象オーディオの時間長さが小さく、その音量の突然変異可能性も小さく、小さいＭ、即ち少ない最大音量値を選択することができ、ターゲットシーケンスを迅速的に確定することができ、時間長さが大きい処理対象オーディオに対して、その音量の変化可能性が大きく、大きいＭ、即ち多い最大音量値を選択して、より正確なターゲットシーケンスを取得するようにする。

選択可能に、処理対象オーディオの属性は処理対象オーディオのタイプであってよい。対応的に、異なるタイプの処理対象オーディオに対して、Ｍが異なる。例えば、オーディオブックのようなオーディオはそのものの音量が穏やかであり、突然変異可能性が小さく、小さいＭを確定することができ、音楽のようなオーディオに対して、プリオーバーセクションとコーラスセクションによって、オーディオ音量の変化可能性が大きく、大きいＭを確定することができる。

選択可能に、本実施例におけるサーバーに処理対象オーディオの属性とターゲットシーケンスにおけるＭとの対応関係が予め設定されたため、ターゲットシーケンスを確定する際に処理対象オーディオの属性に従って、ソートされたＮ個のオーディオセグメントの最大音量値の中で前のＭ個の最大音量値をターゲットシーケンスとする。

Ｓ２０３では、サーバーはターゲットシーケンスに従って、処理対象オーディオの音量調整パラメーターを取得し、音量調整パラメーターが処理対象オーディオの再生音量を目標音量に調整することに用いられる。

本実施例における音量調整パラメーターが、処理対象オーディオの再生音量を目標音量に調整することに用いられる。ターゲットシーケンスにＭ個の最大音量値が含まれ、選択可能に、音量調整パラメーターは該Ｍ個の最大音量値の平均値であってよい。即ち該音量調整パラメーターは処理対象オーディオの音量インジケーターを示すことができ、更に端末が処理対象オーディオの音量インジケーターに従って処理対象オーディオの再生音量を目標音量に調整する。端末が如何に音量調整パラメーターに従って処理対象オーディオの再生音量を目標音量に調整するかに対して以下の実施例では詳細に説明する。

選択可能に、本実施例において図３を組み合わせてサーバーと端末の完全の対話する過程を説明する。図３は本願によるオーディオ処理方法の概略的なフローチャート２である。本実施例によるオーディオ処理方法はＳ２０１の前に以下のステップを更に含んでもよく、
Ｓ２０４では、端末はサーバーにオーディオ要求情報を送信し、オーディオ要求情報はサーバーが処理対象オーディオを取得することを指示することに用いられる。

対応的に、サーバーは端末が送信したオーディオ要求情報を受信する。

例示的に、端末がスマートスピーカーである場合、スマートスピーカーとユーザーとの間に音声対話することができる。ユーザーが音楽を聴きたい場合に、例えば「歌Ａを再生してください」と言うことができ、対応的に、スマートスピーカーはユーザーのオーディオを受信して分析することによって、ユーザーのオーディオ要求セマンティクスを取得する。スマートスピーカーはユーザーのオーディオ要求セマンティクスに従ってサーバーにオーディオ要求情報を送信することができ、対応的に、該オーディオ要求情報はサーバーが処理対象オーディオを取得することを指示することに用いられ、該処理対象オーディオは「歌Ａ」である。

例示的に、端末がスマートフォンである場合、ユーザーが端末インターフェースに「歌Ａ」の名称を入力することにより、端末がサーバーにオーディオ要求情報を送信するのをトリガーすることができ、対応的に、該オーディオ要求情報はサーバーが「歌Ａ」を取得することを指示することに用いられる。

理解すべきなのは、異なる適用シナリオに対して、端末がサーバーにオーディオ要求情報を送信する方法は異なる可能性がある。しかし、該オーディオ要求情報はサーバーが処理対象オーディオを取得することを指示することに用いられる。

Ｓ２０５では、サーバーはオーディオ要求情報に従って、処理対象オーディオを取得する。

サーバーはオーディオ要求情報を受信した後に、該オーディオ要求情報に従って、処理対象オーディオを取得することができる。選択可能に、サーバーはオーディオ要求情報が指示した処理対象オーディオに従って、サーバーローカルのデータベースから該処理対象オーディオが含まれるか否かを検索することができる。

対応的に、Ｓ２０３の後に以下のステップを更に含んでもよく、
Ｓ２０６では、サーバーは端末にオーディオ情報を送信し、オーディオ情報に処理対象オーディオのリンクアドレスと音量調整パラメーターが含まれ、オーディオ情報は端末が処理対象オーディオのリンクアドレスに従って処理対象オーディオを取得して、且つ音量調整パラメーターに従って処理対象オーディオを再生することを提示することに用いられる。

対応的に、端末はサーバーからのオーディオ情報を受信する。

本実施例におけるオーディオ情報に処理対象オーディオのリンクアドレスと音量調整パラメーターが含まれる。選択可能に、本実施例における処理対象オーディオのリンクアドレスはユニフォームリソースロケーション（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｉｏｎ、ＵＲＬ）であってよい。オーディオ情報は端末が処理対象オーディオのリンクアドレスに従って処理対象オーディオを取得して、且つ音量調整パラメーターに従って処理対象オーディオを再生することを提示することに用いられる。

選択可能に、サーバーは端末にオーディオ情報を送信する際にフィールドの形で音量調整パラメーターをオーディオ情報に記憶することができる。

Ｓ２０７では、端末は処理対象オーディオのリンクアドレスに従って処理対象オーディオを取得する。

本実施例において処理対象オーディオのリンクアドレスの形を制限しないが、サーバーと端末は約束された暗号化および復号化方法又は約束されたプロトコルを有することができ、端末がオーディオ情報を受信した際に、オーディオ情報を復号化し、それにより処理対象オーディオのリンクアドレスと音量調整パラメーターを取得することができるようにする。対応的に、上記サーバーは端末にオーディオ情報を送信する際に、対応した暗号化方法によってオーディオ情報をパッケージして暗号化することができる。

本実施例において、サーバーは端末に処理対象オーディオを直接に送信しないため、オーディオ情報の占有帯域幅を減少した。対応的に、端末は処理対象オーディオのリンクアドレスを取得した後に、処理対象オーディオのリンクアドレスに従って処理対象オーディオを取得することができる。処理対象オーディオの取得は該処理対象オーディオのリンクアドレスに従って、該処理対象オーディオをダウンロードすることであってよい。

Ｓ２０８では、端末は音量調整パラメーターに従って処理対象オーディオを再生する。

上記Ｓ２０３における関連説明のように、音量調整パラメーターは処理対象オーディオの音量インジケーターを示すことができ、更に端末は音量調整パラメーターに従って処理対象オーディオを再生する際に、処理対象オーディオの再生音量を目標音量に調整して再生することができる。理解すべきなのは、目標音量は予め設定された目標音量値であってよい。例えば、該目標音量値は－３ｄｂであってよい。

本願はオーディオ処理方法を提供し、該方法は、処理対象オーディオに対して分割処理を実行して、Ｎ個のオーディオセグメントを取得し、Ｎは２以上の整数であるステップと、各オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、ターゲットシーケンスが最大音量値の大から小への順序にソートされたＭ個のオーディオセグメントの最大音量値を含み、ＭはＮより小さい正の整数であるステップと、ターゲットシーケンスに従って、処理対象オーディオの音量調整パラメーターを取得し、音量調整パラメーターは処理対象オーディオの再生音量を目標音量に調整することに用いられるステップと、を含む。本願によるオーディオ処理方法は予め取得された音量調整パラメーターによって再生するオーディオの音量を調整して処理することができ、更に、オーディオの再生音量を目標音量に調整させ、ユーザーがオーディオの音量を頻繁に調整する問題を避ける。

以下、図４を組み合わせて上記実施例Ｓ２０３におけるサーバーがターゲットシーケンスに従って音量調整パラメーターを取得する過程を説明する。音量調整パラメーターを取得する過程をより良く説明するために、まず本実施例におけるターゲットシーケンス、及びターゲットシーケンスを取得する方法を説明する。図４は本願による音量調整パラメーターを取得する概略的なフローチャートである。図４に示すように、対応する上記実施例におけるＳ２０２は以下のステップを含んでよく、
Ｓ２０２１では、各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、各オーディオセグメントの最大オーディオ量子化値を確定する。

本実施例においてサーバーに処理対象オーディオのオーディオデータが記憶されてもよく、該オーディオデータは処理対象オーディオのサンプリングポイントとオーディオ量子化値との対応関係であってよい。サンプリングポイントとはサンプリング時点を指し、該サンプリング時点は上記Ｓ２０１における時点であってよい。オーディオ量子化値とは対応したサンプリングポイントのオーディオ信号を量子化処理した量子化値を指す。量子化処理とはサンプリングポイントのオーディオ信号のアナログ信号を振幅値化して、即ちオーディオ信号のアナログ信号の値の範囲に基づきオーディオ量子化値を確定することを指す。オーディオ量子化値のビット数が大きいほど、カラーを示すビット数（８ビットは２５６色を示し、１６ビットは６５５３６色を示す）と同様に、オーディオの解像度が高く、オーディオ信号の振幅変化をより細かく調整できる。

Ｎ個のオーディオセグメントを取得した後に、記憶された処理対象オーディオのサンプリングポイントとオーディオ量子化値との対応関係に従って、Ｎ個のオーディオセグメントにおける各サンプリングポイントのオーディオ量子化値を取得することができる。更に、各オーディオセグメントの中で最大オーディオ量子化値を確定することができる。

例示的に、Ｎは２であり、各オーディオセグメントの中に３つのサンプリングポイントを有し、一番目のオーディオセグメントにおける３つのサンプリングポイントに対応したオーディオ量子化値はそれぞれ１００００、１５０００及び２００００であり、二番目のオーディオセグメントにおける３つのサンプリングポイントに対応したオーディオ量子化値はそれぞれ１５０００、２００００及び２５０００である。対応的に、この２つのオーディオセグメントにおける最大オーディオ量子化値はそれぞれ２００００と２５０００である。

Ｓ２０２２では、各オーディオセグメントの最大オーディオ量子化値に従って、各オーディオセグメントの最大音量値を取得する。

本実施例における各オーディオセグメントの最大音量値は、各オーディオセグメントの最大オーディオ量子化値に対応した音量値である。オーディオ量子化値と音量値は対応した変換関係を有し、各サンプリングポイントのオーディオ量子化値に従って各サンプリングポイントに対応した音量値を取得することができる。対応的に、各オーディオセグメントの最大オーディオ量子化値に従って、各オーディオセグメントの最大音量値を取得することができる。

オーディオ量子化値と音量値との間の対応関係は下記の式１に示すようであり、

Ｙはオーディオ量子化値を示し、Ｘは音量値を示す。

例示的に、各オーディオセグメントの最大オーディオ量子化値を取得した後に、式１に基づき各オーディオセグメントの最大音量値を取得することができる。

Ｓ２０２３では、最大音量値が大から小までの順序に従って、Ｎ個のオーディオセグメントの最大音量値をソートして、初期シーケンスを取得する。

各オーディオセグメントの最大音量値を取得した後に、最大音量値の大から小までの順序に従って、Ｎ個のオーディオセグメントの最大音量値をソートして、初期シーケンスを取得することができる。

例示的に、Ｎは８であり、且つ８個のオーディオセグメントに対応した最大音量値が大から小まで、それぞれ３０ｄｂ、２８ｄｂ、２７ｄｂ、２４ｄｂ、２２ｄｂ、２１ｄｂ、２０ｄｂ及び１９ｄｂである。対応的に、該初期シーケンスは｛３０ｄｂ、２８ｄｂ、２７ｄｂ、２４ｄｂ、２２ｄｂ、２１ｄｂ、２０ｄｂ及び１９ｄｂ｝である。

Ｓ２０２４では、処理対象オーディオの時間長さ、及びオーディオの時間長さとターゲットシーケンスに含まれたオーディオセグメントの最大音量値の個数との対応関係に従って、Ｍを確定する。

本実施例において、異なる時間長さを有する処理対象オーディオは、対応したターゲットシーケンスにおける最大音量値の個数も異なる。選択可能に、処理対象オーディオの時間長さが小さいほど、Ｍが小さくなり、処理対象オーディオの時間長さが大きいほど、Ｍが大きくなる。処理対象オーディオの時間長さが小さく、その音量の突然変異可能性も小さいため、小さいＭを選択してもよく、即ち少ない最大音量値に従って、ターゲットシーケンスを迅速的に確定することができ、時間長さが大きい処理対象オーディオに対して、その音量の変化可能性が大きく、より正確なターゲットシーケンスを取得するように、大きいＭ、即ち多い最大音量値を選択する必要がある。

例示的に、表１はオーディオの時間長さとターゲットシーケンスに含まれたオーディオセグメントの最大音量値の個数Ｍとの対応関係を示し、理解すべきなのは、表１は該対応関係の１つの形だけである。

表１に示すように、処理対象オーディオの時間長さは１分間～５分間である場合に、該オーディオの時間長さとターゲットシーケンスに含まれたオーディオセグメントの最大音量値の個数との対応関係に従って、処理対象オーディオに対応したターゲットシーケンスに含まれた最大音量値の個数Ｍが５であるのを確定することができる。

Ｓ２０２５では、初期シーケンスから前のＭ個の最大音量値を抽出して、ターゲットシーケンスを取得する。

本実施例において、初期シーケンス、即ちＮ個の最大音量値から、前のＭ個の最大音量値を抽出して、ターゲットシーケンスを取得することができる。つまり、Ｎ個の最大音量値における前のＭ個の最大音量値はターゲットシーケンスを形成した。

例示的に、処理対象オーディオの時間長さは１分間～５分間である場合に、Ｍが５である。初期シーケンスは｛３０ｄｂ、２８ｄｂ、２７ｄｂ、２４ｄｂ、２２ｄｂ、２１ｄｂ、２０ｄｂ及び１９ｄｂ｝である場合に、ターゲットシーケンスが｛３０ｄｂ、２８ｄｂ、２７ｄｂ、２４ｄｂ、２２ｄｂ｝である。

上記のように、本願におけるターゲットシーケンスを取得する方法を詳しく説明し、上記Ｓ２０２１－Ｓ２０２５の上で、以下、図４を組み合わせ、本願による音量調整パラメーターを取得する過程を更に説明する。図４に示すように、本実施例において音量調整パラメーターを取得するＳ２０３は、以下のステップを含んでよく、
Ｓ２０３１では、ターゲットシーケンスにおける全ての隣接する２つの最大音量値の差は全て差閾値以下であると、ターゲットシーケンスの最大音量値の平均値、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値平均値を取得する。

ターゲットシーケンスに大から小までソートするＭ個の最大音量値が含まれる。理解すべきなのは、本実施例における音量調整パラメーターは処理対象オーディオの音量値平均値である。

本実施例において、ターゲットシーケンスにおける隣接する２つの最大音量値を減算して隣接する２つの最大音量値の差を取得する。ターゲットシーケンスにおける全ての隣接する２つの最大音量値の差が全て差閾値以下であると、ターゲットシーケンスの最大音量値の平均値、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値平均値を取得する。

例示的に、ターゲットシーケンスは｛３０ｄｂ、２８ｄｂ、２７ｄｂ、２５ｄｂ、２４ｄｂ｝であり、差閾値が３ｄｂである。ターゲットシーケンスにおける隣接する２つの最大音量値の差は全て差閾値より小さいと、該ターゲットシーケンスにおける最大音量値の平均値（例えば２６．８ｄｂ）と処理対象オーディオの時間長さを取得し、処理対象オーディオの音量値平均値を取得する。

Ｓ２０３２では、ターゲットシーケンスの中で、差が差閾値より大きい隣接する２つの最大音量値が存在すると、ターゲットシーケンスから大きい最大音量値の後に位置する全ての最大音量値を削除し、処理されたターゲットシーケンスを取得し、処理されたターゲットシーケンスにおける全ての隣接する２つの最大音量値の差は全て差閾値以下である。

本実施例において、ターゲットシーケンスにおける隣接する２つの最大音量値を減算して隣接する２つの最大音量値の差を取得する。ターゲットシーケンスの中で、差が差閾値より大きい隣接する２つの最大音量値が存在すると、ターゲットシーケンスから大きな最大音量値の後に位置する全ての最大音量値を削除し、処理されたターゲットシーケンスを取得する。

例示的に、ターゲットシーケンスは｛３０ｄｂ、２８ｄｂ、２７ｄｂ、２２ｄｂ、２１ｄｂ｝であり、差閾値が３ｄｂである。ターゲットシーケンスにおいて２７ｄｂと２２ｄｂとの間の差が該差閾値より大きいと、ターゲットシーケンスから大きい最大音量値２７ｄｂの後に位置する全ての最大音量値を削除して、処理されたターゲットシーケンス｛３０ｄｂ、２８ｄｂ、２７ｄｂ｝を取得する。

対応的に、処理されたターゲットシーケンスにおける全ての隣接する２つの最大音量値の差が全て差閾値以下である。以上に示すように、処理されたターゲットシーケンス｛３０ｄｂ、２８ｄｂ、２７ｄｂ｝におけるすべての隣接する２つの最大音量値の差は全て３ｄｂより小さい。

Ｓ２０３３では、処理されたターゲットシーケンスの最大音量値の平均値をターゲットシーケンスの最大音量値の平均値として、且つターゲットシーケンスの最大音量値の平均値、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値の平均値を取得する。

本実施例において、ターゲットシーケンスを処理した後に得られた処理されたターゲットシーケンスの最大音量値の平均値をターゲットシーケンスの最大音量値の平均値とすることができる。例示的に、処理されたターゲットシーケンス｛３０ｄｂ、２８ｄｂ、２７ｄｂ｝の平均値２８．３ｄｂをターゲットシーケンスの最大音量値の平均値とする。更に、ターゲットシーケンスの最大音量値の平均値２８．３ｄｂ、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値平均値を取得する。ターゲットシーケンスの最大音量値の平均値、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値平均値を取得する過程はＳ２０２３における関連説明を参照することができ、ここでは繰り返さない。

理解すべきなのは、上記Ｓ２０３１とＳ２０３２－Ｓ２０３３は代替実行のモードであり、前後順位に違いがない。

本実施例において、ターゲットシーケンスにおける最大音量値の平均値と処理対象オーディオの時間長さに従って、処理対象オーディオの音量値平均値を取得する具体的な方法は、以下のようであってよく、
１、処理対象オーディオの時間長さが時間長さ閾値以下であると、ターゲットシーケンスの最大音量値の平均値を候補平均値として、候補平均値に従って、処理対象オーディオの音量値平均値を取得する。

２、処理対象オーディオの時間長さが時間長さ閾値より大きいと、ターゲットシーケンスに従って平滑化係数を確定し、平滑化係数に従ってターゲットシーケンスの最大音量値の平均値を処理して、候補平均値を取得し、且つ候補平均値に従って、処理対象オーディオの音量値平均値を取得する。

本実施例において、サーバーに時間長さ閾値が記憶され、例えば該時間長さ閾値が５分間である。ターゲットシーケンス（上記処理されたターゲットシーケンスを含む）における全ての隣接する２つの最大音量値の差は全て差閾値以下であるため、該ターゲットシーケンスは処理対象オーディオの最大音量値の間の滑らかな変化を示し、突然変異がない。時間長さが短い処理対象オーディオ、例えば時間長さが５分間より小さいオーディオに対して、オーディオの前後に突然変異が発生する可能性が小さい。時間長さが長い処理対象オーディオ、例えば時間長さが５分間より大きいオーディオに対して、前の５分間で、オーディオの前後に突然変異が発生する可能性があるが、時間長さの正常に伴って、前後のオーディオの音量の変化に突然変異が発生する可能性が大きいため、更に時間長さが時間長さ閾値より大きい処理対象オーディオのターゲットシーケンスの最大音量値の平均値を平滑化する必要がある。

本実施例においてターゲットシーケンスに従って平滑化係数を確定することができる。選択可能に、ターゲットシーケンスにおける最大音量値に従って平滑化係数を確定する。例えば、本実施例においてターゲットシーケンスにおける最大音量値に従って平滑化係数を確定する規則を予め設定して取得することができる。例えば、上記表1に示すように、時間長さが５分間より大きいオーディオ、ターゲットシーケンスにおける最大音量値の個数は１０個である。できるだけ処理対象オーディオの音量変化を示すために、本実施例においてターゲットシーケンスにおける一番目の最大音量値と五番目の最大音量値の商を取得することができる。該商及び予め設定された商と平滑化係数との対応関係に従って、ターゲットシーケンスの平滑化係数を確定する。

以下の表２に示すようなものは商と平滑化係数との対応関係である。

表２に示すように、Ｍａｘ（１）、Ｍａｘ（５）はそれぞれターゲットシーケンスにおける一番目の最大音量値、五番目の最大音量値であり、Ｍａｘ（１）／Ｍａｘ（５）は一番目の最大音量値と五番目の最大音量値との商である。該商と平滑化係数は対応関係を有し、本実施例において処理対象オーディオにおける一番目の最大音量値と五番目の最大音量値との商、及び商と平滑化係数との対応関係に従って、処理対象オーディオのターゲットシーケンスの平滑化係数を確定することができる。

選択可能に、本実施例において平滑化係数に従ってターゲットシーケンスの最大音量値の平均値を処理し、即ちターゲットシーケンスの最大音量値の平均値を該平滑化係数で除算し、候補平均値を取得する。

以下、本実施例における候補平均値に従って、処理対象オーディオの音量値平均値を取得する方法を説明し、
本実施例において候補平均値を取得した後に、該候補平均値を仮定の最後の処理対象オーディオの音量値平均値として処理対象オーディオの音量値を処理することができ、該候補平均値処理に従って処理対象オーディオを処理した後に得られた音量値が予め設定された音量範囲の上限を超えたか否か、候補平均値を処理するか否かを検出する。予め設定された音量範囲は予め設定されたものである。

選択可能に、本実施例において候補平均値、予め設定された音量値及びターゲットシーケンスにおける一番目の最大音量値に従って、カットオフ音量値を取得する。

下記の式２に基づきカットオフ音量値ｇを取得することができ、

Ｍ_ａｖｇ’は候補平均値を示し、Ａは予め設定された音量値を示し、Ｍａｘ（１）はターゲットシーケンスにおける一番目の最大音量値である。

カットオフ音量値が０以下であると、該候補平均値に従って処理対象オーディオを処理した後に得られた音量値が予め設定された音量範囲の上限を超えなかったのを確定し、直接に候補平均値を処理対象オーディオの音量値平均値とすることができる。

カットオフ音量値が０より大きいと、該候補平均値に従って処理対象オーディオを処理した後に得られた音量値が予め設定された音量範囲の上限を超えたのを確定し、候補平均値を縮小処理して、縮小処理後の候補平均値に従って取得したカットオフ音量値を０以下にさせ、且つ縮小処理後の候補平均値を処理対象オーディオの音量値平均値とする。つまり、縮小処理後の候補平均値は上記式２に従って取得したカットオフ音量値ｇが０以下であると、縮小処理後の候補平均値を処理対象オーディオの音量値平均値とする。

候補平均値を縮小処理する方法は一定の縮小間隔に基づき縮小処理することができ、例えば、候補平均値が３０ｄｂであると、毎回に２ｄｂを縮小する方法によって候補平均値を縮小処理することができる。

本実施例においてターゲットシーケンスを取得する際に処理対象オーディオの時間長さに従って、ターゲットシーケンスに含まれた最大音量値の個数を柔軟に確定することができ、ターゲットシーケンスを迅速で正確に取得することができ、更に、本実施例において、ターゲットシーケンスを取得した後に、更にターゲットシーケンスにおける最大音量値をディザリング処理（即ちターゲットシーケンスから大きい最大音量値の後に位置する全ての最大音量値を削除する）し、及び処理対象オーディオの時間長さに従ってターゲットシーケンスの最大音量値の平均値を処理し、取得した処理対象オーディオの音量値平均値、即ち音量調整パラメーターがより正確であり、処理対象オーディオの音量特徴をより適合するように特徴付けることができ、それにより端末に該音量調整パラメーターに従って処理対象オーディオを正確に処理し、即ち処理対象オーディオの再生音量を目標音量に調整させる。

以下、図５を組み合わせて端末の観点から本願によるオーディオ処理方法を更に説明し、図５は本願による端末が音量調整パラメーターに従って処理対象オーディオを再生する方法の概略的なフローチャートである。図５に示すように、本実施例によるオーディオ処理方法は、以下のステップを含んでよく、
Ｓ２０８１では、音量調整パラメーターに従って、処理対象オーディオの音量を調整する。

選択可能に、本実施例において端末に予め設定された音量値が記憶され、該予め設定された音量値は例えば－３ｄｂである。本実施例において端末は音量調整パラメーターと予め設定された音量値に従って、処理対象オーディオの音量調整係数を取得することができる。音量調整パラメーターは上記図４で取得した処理対象オーディオの音量値平均値である。

下記の式３で処理対象オーディオの音量調整係数を取得することができ、

Ｇは処理対象オーディオの音量調整係数を示し、Ｍ_ａｖｇは音量調整パラメーターを示し、Ａは予め設定された音量値を示す。

処理対象オーディオの音量調整係数を取得した後に、音量調整係数に従って、処理対象オーディオのフレームごとのオーディオの音量を調整することができる。オーディオ情報に、処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値が更に含まれ、音量調整係数、及び処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、処理対象オーディオにおけるフレームごとのオーディオの音量を調整する。

選択可能に、端末は処理対象オーディオを取得した後に、処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、各オーディオセグメントにおける各サンプリングポイントの音量値を確定することができ、即ち処理対象オーディオにおける各サンプリングポイントの音量値を確定することができる。各サンプリングポイントのオーディオ量子化値に従って各サンプリングポイントの音量値を確定する方法は上記式１によって取得することができる。

本実施例において処理対象オーディオをフレーミング処理して、フレームごとのオーディオにおけるサンプリングポイントの音量値を取得することができる。端末は音量調整係数を取得した後に、処理対象オーディオのフレームごとのオーディオの音量を調整することができる。選択可能に、フレームごとのオーディオにおける各サンプリングポイントの音量値と該音量調整係数を乗算して、フレームごとのオーディオにおける各サンプリングポイントの目標音量を確定することができる。

選択可能に、調整された処理対象オーディオのフレームごとのオーディオの音量は全て音量の予め設定された範囲内にあると、直接にフレームごとのオーディオにおける各サンプリングポイントの目標音量に従って、音量が調整された処理対象オーディオを再生することができる。

選択可能に、上記の実施例のステップにおいて処理対象オーディオの音量の上限値に対してカットオフ保護処理を実行したが、処理対象オーディオの音量の下限値にカットオフ保護処理を実行しなかったため、対応的に、調整されたｘ番目フレームのオーディオの音量が音量の予め設定された範囲内に位置しない場合に、調整されたｘ番目フレームのオーディオの音量の下限が音量の予め設定された範囲の下限値を超えたと確定すると、音量調整パラメーターを縮小処理し、ｘ番目フレームのオーディオの音量を再調整して、再調整されたｘ番目フレームのオーディオの音量を音量の予め設定された範囲に位置するようにする。

例えば、音量の予め設定された範囲は［－４ｄｂ、－２ｄｂ］であり、調整されたｘ番目フレームのオーディオの音量が該音量の予め設定された範囲に位置しないと、音量調整パラメーターを縮小処理する必要があり、即ち処理対象オーディオの音量値平均値を縮小処理する。縮小処理の方法は一定の縮小間隔で音量調整パラメーターを縮小処理することができ、例えば、音量調整パラメーターは３０ｄｂであると、毎回に２ｄｂを縮小する方法によって音量調整パラメーターを縮小処理することができる。更に、縮小処理後の音量調整パラメーターに従ってｘ番目フレームのオーディオの音量を再調整し、再調整されたｘ番目フレームのオーディオの音量を音量の予め設定された範囲内に位置するようにする。つまり、本実施例において縮小処理後の音量調整パラメーターに従ってｘ番目フレームのオーディオの音量を再調整し、音量の予め設定された範囲内にある。

Ｓ２０８２では、音量調整された処理対象オーディオを再生する。

処理対象オーディオにおけるフレームごとのオーディオの時間順序に従って、フレームごとに調整された処理対象オーディオを再生する。フレームごとのオーディオを調整した処理対象オーディオの再生は、フレームごとのオーディオにおける各サンプリングポイントの目標音量に従って、フレームごとに音量調整された処理対象オーディオを再生することができる。

本実施例において、端末は音量調整パラメーターに従って処理対象オーディオにおけるフレームごとのオーディオの再生音量を目標音量に調整することができ、且つフレームごとのオーディオの調整された目標音量をすべて予め設定された音量範囲内に位置することができ、ソースが異なるオーディオを再生する際の音量が全て予め設定された音量範囲にあるのを確保し、ユーザーが音量を頻繁に調整する問題を避ける。

選択可能に、本願による他の実施例において、上記実施例におけるＳ２０１－Ｓ２０３、及びＳ２０８におけるステップは全て端末により実行することができ、このような場合で、Ｓ２０４－Ｓ２０７におけるステップを実行しなくてもよい。

図６は本願による１つのオーディオ処理装置の構造模式図である。該オーディオ処理装置はサーバー又は端末であってよい。図６に示すように、該オーディオ処理装置６００は、処理モジュール６０１とトランシーバーモジュール６０２を備える。

処理モジュール６０１は、処理対象オーディオに対して分割処理を実行して、Ｎ個のオーディオセグメントを取得し、Ｎは２以上の整数であること、各オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、ターゲットシーケンスが最大音量値の大から小への順序にソートされたＭ個のオーディオセグメントの最大音量値を含み、ＭはＮより小さい正の整数であること、及びターゲットシーケンスに従って、処理対象オーディオの音量調整パラメーターを取得し、音量調整パラメーターが処理対象オーディオの再生音量を目標音量に調整することに用いられることに用いられる。

選択可能に、音量調整パラメーターは処理対象オーディオの音量値平均値である。

処理モジュール６０１は、具体的には、ターゲットシーケンスにおける全ての隣接する２つの最大音量値の差が全て差閾値以下であると、ターゲットシーケンスの最大音量値の平均値、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値平均値を取得すること、或いは、
ターゲットシーケンスの中で、差が差閾値より大きい隣接する２つの最大音量値が存在すると、ターゲットシーケンスから大きな最大音量値の後に位置する全ての最大音量値を削除し、処理されたターゲットシーケンスを取得し、処理されたターゲットシーケンスにおける全ての隣接する２つの最大音量値の差が全て差閾値以下であり、処理されたターゲットシーケンスの最大音量値の平均値をターゲットシーケンスの最大音量値の平均値として、且つターゲットシーケンスの最大音量値の平均値、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値の平均値を取得することに用いられる。

選択可能に、処理モジュール６０１は、具体的には、処理対象オーディオの時間長さが時間長さ閾値以下であると、ターゲットシーケンスの最大音量値の平均値を候補平均値とし、処理対象オーディオの時間長さが時間長さ閾値より大きいと、ターゲットシーケンスに従って平滑化係数を確定し、平滑化係数に従ってターゲットシーケンスの最大音量値の平均値を処理して、候補平均値を取得し、候補平均値に従って、処理対象オーディオの音量値平均値を取得することに用いられる。

選択可能に、処理モジュール６０１は、具体的には、候補平均値、予め設定された音量値及びターゲットシーケンスにおける一番目の最大音量値に従って、カットオフ音量値を取得し、カットオフ音量値が０以下であると、候補平均値を処理対象オーディオの音量値平均値とし、カットオフ音量値が０より大きいと、候補平均値を縮小処理して、縮小処理後の候補平均値に従って取得したカットオフ音量値を０以下にさせ、且つ縮小処理後の候補平均値を処理対象オーディオの音量値平均値とする。

選択可能に、各オーディオセグメントの最大音量値は各オーディオセグメントの最大オーディオ量子化値に対応する音量値である。

処理モジュール６０１は、具体的には、各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、各オーディオセグメントの最大オーディオ量子化値を確定すること、各オーディオセグメントの最大オーディオ量子化値に従って、各オーディオセグメントの最大音量値を取得すること、最大音量値が大から小までの順序に従って、Ｎ個のオーディオセグメントの最大音量値をソートして、初期シーケンスを取得すること、処理対象オーディオの時間長さ、及びオーディオの時間長さとターゲットシーケンスに含まれたオーディオセグメントの最大音量値の個数との対応関係に従って、Ｍを確定すること、及び初期シーケンスから前のＭ個の最大音量値を抽出して、ターゲットシーケンスを取得することに用いられる。

選択可能に、処理モジュール６０１は、具体的に音量調整パラメーターに従って、処理対象オーディオを音量調整すること、及び音量調整された処理対象オーディオを再生することに用いられる。

選択可能に、処理モジュール６０１は、具体的に音量調整パラメーターと予め設定された音量値に従って、処理対象オーディオの音量調整係数を取得すること、及び音量調整係数に従って、処理対象オーディオのフレームごとのオーディオの音量を調整することに用いられる。

選択可能に、処理モジュール６０１は、具体的に音量調整係数、及び処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、処理対象オーディオにおけるフレームごとのオーディオの音量を調整することに用いられる。

選択可能に、処理モジュール６０１は、具体的に、調整されたｘ番目フレームのオーディオの音量が音量の予め設定された範囲に位置しないと、音量調整パラメーターを縮小処理すること、及び縮小処理後の音量調整パラメーターに従ってｘ番目フレームのオーディオの音量を再調整し、再調整されたｘ番目フレームのオーディオの音量を音量の予め設定された範囲に位置させるようにすることに用いられる。

理解すべきなのは、オーディオ処理装置が端末である場合に、その中のトランシーバーモジュール６０１と処理モジュール６０２は以下の動作を実行しなくてもよい。

トランシーバーモジュール６０２は、端末にオーディオ情報を送信することに用いられ、オーディオ情報に処理対象オーディオのリンクアドレスと音量調整パラメーターが含まれ、オーディオ情報は端末が処理対象オーディオのリンクアドレスに従って処理対象オーディオを取得して、且つ音量調整パラメーターに従って処理対象オーディオを再生することを提示することに用いられる。

選択可能に、オーディオ情報に処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値が更に含まれる。

選択可能に、トランシーバーモジュール６０２は更に、端末が送信したオーディオ要求情報を受信することに用いられ、オーディオ要求情報は処理対象オーディオを取得することを指示することに用いられる。

処理モジュール６０１は更に、オーディオ要求情報に従って、処理対象オーディオを取得することに用いられる。

本実施例によるオーディオ処理装置は上記のオーディオ処理方法の実現原理と技術効果と同様であり、ここで繰り返さない。

図７は本願による他のオーディオ処理装置の構造模式図である。該オーディオ処理装置は端末であってよい。図７に示すように、該オーディオ処理装置７００は処理モジュール７０１とトランシーバーモジュール７０２を備える。

トランシーバーモジュール７０２は、サーバーからのオーディオ情報を受信することに用いられ、オーディオ情報に処理対象オーディオのリンクアドレスと音量調整パラメーターが含まれ、
処理モジュール７０１は、処理対象オーディオのリンクアドレスに従って処理対象オーディオを取得すること、及び音量調整パラメーターに従って処理対象オーディオを再生することに用いられる。

選択可能に、トランシーバーモジュール７０２は、更にサーバーにオーディオ要求情報を送信することに用いられ、オーディオ要求情報はサーバーが処理対象オーディオを取得することを指示することに用いられる。

処理モジュール７０１は、具体的に音量調整パラメーターに従って、処理対象オーディオを音量調整すること、及び音量調整された処理対象オーディオを再生することに用いられる。

処理モジュール７０１は、具体的に、音量調整パラメーターと予め設定された音量値に従って、処理対象オーディオの音量調整係数を取得すること、及び音量調整係数に従って、処理対象オーディオのフレームごとのオーディオの音量を調整することに用いられる。

処理モジュール７０１は、具体的に、音量調整係数、及び処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、処理対象オーディオにおけるフレームごとのオーディオの音量を調整することに用いられる。

処理モジュール７０１は、具体的に、調整されたｘ番目フレームのオーディオの音量が音量の予め設定された範囲に位置しないと、音量調整パラメーターを縮小処理すること、及び縮小処理後の音量調整パラメーターに従ってｘ番目フレームのオーディオの音量を再調整し、再調整されたｘ番目フレームのオーディオの音量を音量の予め設定された範囲に位置させるようにすることに用いられる。

本実施例によるオーディオ処理装置は上記オーディオ処理方法の実現原理と技術効果と同様であり、ここでは繰り返さない。

図８は本願による電子機器の構造模式図である。該電子機器は例えば端末機器又はサーバー、即ち上記の図６又は図７におけるオーディオ処理装置であってよい。図８に示すように、該電子機器８００はメモリ８０１と少なくとも１つのプロセッサー８０２を含む。

メモリ８０１は、プログラム命令を記憶することに用いられる。

プロセッサー８０２は、プログラム命令が実行される際に本実施例におけるオーディオ処理方法を実現することに用いられ、具体的な実現原理は上記実施例を参照することができ、本実施例はここで繰り返さない。

該電子機器８００は入力／出力インターフェース８０３を更に含んでもよい。

入力／出力インターフェース８０３は独立した出力インターフェースと入力インターフェースであってもよいし、入力と出力を集積した集積インターフェースであってもよい。出力インターフェースはデータを出力することに用いられ、入力インターフェースは入力したデータを取得することに用いられる。

本願は読み取り可能な記憶媒体を更に提供し、読み取り可能な記憶媒体に実行命令が記憶され、電子機器の少なくとも１つのプロセッサーは該実行命令を実行する際に、コンピューター実行命令がプロセッサーによって実行される際に、上記実施例におけるオーディオ処理方法を実現する。

本願はプログラム製品を提供し、該プログラム製品が実行命令を含み、該実行命令が読み取り可能な記憶媒体に記憶される。電子機器の少なくとも１つのプロセッサーは読み取り可能な記憶媒体から該実行命令を読み取ることができ、少なくとも１つのプロセッサーは該実行命令を実行して電子機器に上記の様々な実施形態によるオーディオ処理方法を実施させる。

本願によるいくつかの実施例において、開示した装置と方法は、その他の方式によって実現されることができることを理解すべきである。例えば、以上のような装置実施例は単に例示的なものだけであり、例えば、前記モジュールの分割は、ロジック機能分割だけであり、実際な実現時に別の分割方式があり、例えば複数のモジュール又は組立体を結合してもよいし、又は別のシステムに集積してもよいし、又はいくつかの特徴を無視でき、又は実行しなくてもよい。また、表示又は検討した互いの間にカップリング、又は直接カップリング、又は通信接続はいくつかのインターフェース、装置又はモジュールによる間接カップリング又は通信接続であってよく、電気的、機械的又はその他の形式であってもよい。

前記の分離部材として説明したモジュールは物理的に分離してもよいし、又は分離しなくてもよく、モジュールとして表示する部材は物理ユニットであってもよいし、又は物理ユニットではなくてもよく、即ち１つの場所に位置してもよいし、複数のネットワークユニットに分布してもよい。実際の需要に応じてその中の一部又は全部のモジュールを選択して本実施例手段の目的を実現することができる。

また、本願の各実施例における各機能モジュールは１つの処理ユニットに集積されてもよいし、各モジュールが単独に物理的に存在してもよいし、２つ又は２つ以上のモジュールが１つのモジュールに集積されてもよい。上記集積されたモジュールはハードウェアの形で実現されてもよいし、ハードウェアとソフトウェア機能モジュールを加える形で実現されてもよい。

上記のソフトウェア機能モジュールの形で実現する集積されたモジュールは、１つのコンピューター読み取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能モジュールは１つの記憶媒体に記憶され、一台のコンピューター機器（パーソナルコンピュータ、サーバー、或いはネットワーク機器等である）又はプロセッサー（英語、ｐｒｏｃｅｓｓｏｒ）に本願の各実施例に記載の方法の一部のステップを実行させるための若干の指令を含む。前記の記憶媒体は、Ｕディスク、モバイルハードディスク、読み出し専用記憶装置（英語、Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、「ＲＯＭ」と略称）、ランダムアクセスメモリ（英語、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、「ＲＡＭ」と略称）、ディスク或いはＣＤ等の様々なプログラムコードを記憶できる媒体を含む。

上記サーバー或いは端末の実施例において、理解すべきなのは、処理モジュールは中央処理ユニット（英語、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵと略称）であってもよいし、その他の汎用プロセッサー、デジタル信号プロセッサー（英語、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰと略称）、特定用途向け集積回路（英語、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣと略称）等であってもよい。汎用プロセッサーはマイクロプロセッサーであってもよいし、又は該プロセッサーは任意の従来のプロセッサー等であってもよい。発明に開示された方法を組み合わせたステップは直接にハードウェアプロセッサーにより実行して完成されるように体現され、又はプロセッサーにおけるハードウェア及びソフトウェアモジュールの組み合わせによって実行して完成されるように体現されることができる。

最終的に説明すべきなのは、以上の各実施例は制限ではなく、本願の技術的解決手段を説明するためだけのものであり、前記の各実施例を参照して本願を詳しく説明したが、当業者は、依然として前記の各実施例に記載の技術的解決手段を修正し、又はその中の一部又は全部の技術的特徴を等価置換することができ、これらの修正又は置換は、対応した技術的解決手段の本質を本願の各実施例の技術的解決手段の範囲からから逸脱するようにさせるものではないのを理解すべきである。

Claims

オーディオ処理方法であって、
処理対象オーディオに対して分割処理を実行して、Ｎ個のオーディオセグメントを取得し、前記Ｎは２以上の整数であるステップと、
各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、前記ターゲットシーケンスが最大音量値の大から小への順序にソートされたＭ個のオーディオセグメントの最大音量値を含み、前記Ｍは前記Ｎより小さい正の整数であり、前記各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得するのは、Ｎ個のオーディオセグメントにおける各オーディオセグメントの最大音量値を大から小までソートして、前のＭにソートされた最大音量値を取得し、ターゲットシーケンスを組成するステップと、
前記ターゲットシーケンスに従って、前記処理対象オーディオの音量調整パラメーターを取得し、前記音量調整パラメーターが前記処理対象オーディオの再生音量を目標音量に調整することに用いられるステップと、
を含み、
各前記オーディオセグメントの最大音量値は、各前記オーディオセグメントの最大オーディオ量子化値に対応した音量値であり、各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得するのは、
各前記オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、各前記オーディオセグメントの最大オーディオ量子化値を確定すること、
各前記オーディオセグメントの最大オーディオ量子化値に従って、各前記オーディオセグメントの最大音量値を取得すること、
最大音量値が大から小までの順序に従って、Ｎ個の前記オーディオセグメントの最大音量値をソートして、初期シーケンスを取得すること、
前記処理対象オーディオの時間長さ、及びオーディオの時間長さとターゲットシーケンスに含まれたオーディオセグメントの最大音量値の個数との対応関係に従って、前記Ｍを確定すること、及び
前記初期シーケンスから前のＭ個の最大音量値を抽出して、前記ターゲットシーケンスを取得することを含む、
ことを特徴とするオーディオ処理方法。
前記音量調整パラメーターは前記処理対象オーディオの音量値平均値であり、前記ターゲットシーケンスに従って、前記処理対象オーディオの音量調整パラメーターを取得するのは、
前記ターゲットシーケンスにおける全ての隣接する２つの最大音量値の差が全て差閾値以下である場合は、前記ターゲットシーケンスの最大音量値の平均値、及び前記処理対象オーディオの時間長さに従って、前記処理対象オーディオの音量値平均値を取得すること、或いは、
前記ターゲットシーケンスの中で、差が前記差閾値より大きい隣接する２つの最大音量値が存在する場合は、前記ターゲットシーケンスから大きい最大音量値の後に位置する全ての最大音量値を削除し、処理後のターゲットシーケンスを取得し、前記処理後のターゲットシーケンスにおける全ての隣接する２つの最大音量値の差は全て前記差閾値以下であること、
前記処理後のターゲットシーケンスの最大音量値の平均値を前記ターゲットシーケンスの最大音量値の平均値として、且つ前記ターゲットシーケンスの最大音量値の平均値、及び前記処理対象オーディオの時間長さに従って、前記処理対象オーディオの音量値平均値を取得することを含むことを特徴とする請求項１に記載の方法。
前記ターゲットシーケンスの最大音量値の平均値、及び前記処理対象オーディオの時間長さに従って、前記処理対象オーディオの音量値平均値を取得するのは、
前記処理対象オーディオの時間長さが時間長さ閾値以下であると、前記ターゲットシーケンスの最大音量値の平均値を候補平均値とすること、
前記処理対象オーディオの時間長さが時間長さ閾値より大きいと、前記ターゲットシーケンスに従って平滑化係数を確定すること、
前記平滑化係数に従って前記ターゲットシーケンスの最大音量値の平均値を処理して、前記候補平均値を取得すること、及び
前記候補平均値に従って、前記処理対象オーディオの音量値平均値を取得することを含むことを特徴とする請求項２に記載の方法。
前記候補平均値に従って、前記処理対象オーディオの音量値平均値を取得するのは、
前記候補平均値、予め設定された音量値及び前記ターゲットシーケンスにおける一番目の最大音量値に従って、カットオフ音量値を取得すること、
前記カットオフ音量値が０以下であると、前記候補平均値を前記処理対象オーディオの音量値平均値とすること、及び
前記カットオフ音量値が０より大きいと、前記候補平均値を縮小処理して、縮小処理後の候補平均値に従って取得したカットオフ音量値を０以下にさせ、且つ前記縮小処理後の候補平均値を前記処理対象オーディオの音量値平均値とすることを含むことを特徴とする請求項３に記載の方法。
前記方法は、
端末にオーディオ情報を送信し、前記オーディオ情報に前記処理対象オーディオのリンクアドレスと前記音量調整パラメーターが含まれ、前記オーディオ情報は前記端末が処理対象オーディオのリンクアドレスに従って前記処理対象オーディオを取得し、且つ前記音量調整パラメーターに従って前記処理対象オーディオを再生することを指示することに用いられるステップを更に含むことを特徴とする請求項１に記載の方法。
前記オーディオ情報に前記処理対象オーディオの各前記オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値が更に含まれることを特徴とする請求項５に記載の方法。
前記の処理対象オーディオに対して分割処理を実行して、Ｎ個のオーディオセグメントを取得する前に、
前記端末が送信したオーディオ要求情報を受信し、前記オーディオ要求情報は前記処理対象オーディオを取得することを指示することに用いられること、及び
前記オーディオ要求情報に従って、前記処理対象オーディオを取得することを更に含むことを特徴とする請求項５に記載の方法。
前記方法は、
前記音量調整パラメーターに従って、前記処理対象オーディオを音量調整するステップと、
音量調整された処理対象オーディオを再生するステップと、を更に含むことを特徴とする請求項１に記載の方法。
前記音量調整パラメーターに従って、前記処理対象オーディオを音量調整するのは、
前記音量調整パラメーターと予め設定された音量値に従って、前記処理対象オーディオの音量調整係数を取得すること、及び
前記音量調整係数に従って、前記処理対象オーディオのフレームごとのオーディオの音量を調整することを含むことを特徴とする請求項８に記載の方法。
前記音量調整係数に従って、前記処理対象オーディオのフレームごとのオーディオの音量を調整するのは、
前記音量調整係数、及び前記処理対象オーディオの各前記オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、前記処理対象オーディオにおけるフレームごとのオーディオの音量を調整することを含むことを特徴とする請求項９に記載の方法。
前記方法は、
調整されたｘ番目フレームのオーディオの音量が音量の予め設定された範囲に位置しないと、前記音量調整パラメーターを縮小処理するステップと、
縮小処理後の音量調整パラメーターに従って前記ｘ番目フレームのオーディオの音量を再調整して、再調整された前記ｘ番目フレームのオーディオの音量を前記音量の予め設定された範囲に位置させるステップと、を更に含むことを特徴とする請求項１０に記載の方法。
オーディオ処理方法であって、
サーバーからのオーディオ情報を受信し、前記オーディオ情報に処理対象オーディオのリンクアドレスと音量調整パラメーターが含まれ、前記音量調整パラメーターは、サーバーによって請求項１に記載の方法に従って、取得されるステップと、
前記処理対象オーディオのリンクアドレスに従って前記処理対象オーディオを取得するステップと、
前記音量調整パラメーターに従って前記処理対象オーディオを再生するステップと、
を含み、
前記音量調整パラメーターに従って前記処理対象オーディオを再生するのは、
前記音量調整パラメーターに従って、前記処理対象オーディオを音量調整すること、及び
音量調整された処理対象オーディオを再生することを含み、
前記音量調整パラメーターに従って、前記処理対象オーディオを音量調整するのは、
前記音量調整パラメーターと予め設定された音量値に従って、前記処理対象オーディオの音量調整係数を取得すること、及び
前記音量調整係数に従って、前記処理対象オーディオのフレームごとのオーディオの音量を調整することを含み、
前記オーディオ情報に前記処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値が更に含まれ、前記音量調整係数に従って、前記処理対象オーディオのフレームごとのオーディオの音量を調整するのは、
前記音量調整係数、及び前記処理対象オーディオの各前記オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、前記処理対象オーディオにおけるフレームごとのオーディオの音量を調整することを含む、
ことを特徴とするオーディオ処理方法。
前記のサーバーからのオーディオ情報を受信する前に、
前記サーバーにオーディオ要求情報を送信し、前記オーディオ要求情報は前記サーバーが前記処理対象オーディオを取得することを指示することに用いられることを更に含むことを特徴とする請求項１２に記載の方法。
前記方法は、
調整されたｘ番目フレームのオーディオの音量が音量の予め設定された範囲に位置しないと、前記音量調整パラメーターを縮小処理するステップと、
縮小処理後の音量調整パラメーターに従って前記ｘ番目フレームのオーディオの音量を再調整し、再調整された前記ｘ番目フレームのオーディオの音量を前記音量の予め設定された範囲内に位置させるステップと、を更に含むことを特徴とする請求項１２に記載の方法。
オーディオ処理装置であって、処理モジュールを備え、
処理モジュールは、処理対象オーディオに対して分割処理を実行して、Ｎ個のオーディオセグメントを取得し、前記Ｎは２以上の整数であること、各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、前記ターゲットシーケンスが最大音量値の大から小への順序にソートされたＭ個のオーディオセグメントの最大音量値を含み、前記Ｍは前記Ｎより小さい正の整数であり、前記各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得するのは、Ｎ個のオーディオセグメントにおける各オーディオセグメントの最大音量値を大から小までソートして、前のＭにソートされた最大音量値を取得し、ターゲットシーケンスを組成すること、及び前記ターゲットシーケンスに従って、前記処理対象オーディオの音量調整パラメーターを取得し、前記音量調整パラメーターが前記処理対象オーディオの再生音量を目標音量に調整することに用いられること、
各前記オーディオセグメントの最大音量値は、各前記オーディオセグメントの最大オーディオ量子化値に対応した音量値であり、各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得するのは、
各前記オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、各前記オーディオセグメントの最大オーディオ量子化値を確定すること、
各前記オーディオセグメントの最大オーディオ量子化値に従って、各前記オーディオセグメントの最大音量値を取得すること、
最大音量値が大から小までの順序に従って、Ｎ個の前記オーディオセグメントの最大音量値をソートして、初期シーケンスを取得すること、
前記処理対象オーディオの時間長さ、及びオーディオの時間長さとターゲットシーケンスに含まれたオーディオセグメントの最大音量値の個数との対応関係に従って、前記Ｍを確定すること、及び
前記初期シーケンスから前のＭ個の最大音量値を抽出して、前記ターゲットシーケンスを取得することを含むこと、
に用いられることを特徴とするオーディオ処理装置。
オーディオ処理装置であって、トランシーバーモジュールと処理モジュールを備え、
トランシーバーモジュールは、サーバーからのオーディオ情報を受信し、前記オーディオ情報に処理対象オーディオのリンクアドレスと音量調整パラメーターが含まれ、前記音量調整パラメーターは、サーバーによって請求項１に記載の方法に従って、取得されることに用いられ、
処理モジュールは、前記処理対象オーディオのリンクアドレスに従って前記処理対象オーディオを取得して且つ前記音量調整パラメーターに従って前記処理対象オーディオを再生すること、
前記音量調整パラメーターに従って前記処理対象オーディオを再生するのは、
前記音量調整パラメーターに従って、前記処理対象オーディオを音量調整すること、及び
音量調整された処理対象オーディオを再生することを含むこと、
前記音量調整パラメーターに従って、前記処理対象オーディオを音量調整するのは、
前記音量調整パラメーターと予め設定された音量値に従って、前記処理対象オーディオの音量調整係数を取得すること、及び
前記音量調整係数に従って、前記処理対象オーディオのフレームごとのオーディオの音量を調整することを含むこと、
前記オーディオ情報に前記処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値が更に含まれ、前記音量調整係数に従って、前記処理対象オーディオのフレームごとのオーディオの音量を調整するのは、
前記音量調整係数、及び前記処理対象オーディオの各前記オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、前記処理対象オーディオにおけるフレームごとのオーディオの音量を調整することを含むこと、
に用いられることを特徴とするオーディオ処理装置。
電子機器であって、少なくとも１つのプロセッサーとメモリを含み、
前記メモリはコンピューター実行命令を記憶し、
前記少なくとも１つのプロセッサーは前記メモリに記憶されたコンピューター実行命令を実行し、前記電子機器に請求項１－１１のいずれかに記載の方法を実行させることを特徴とする電子機器。
電子機器であって、少なくとも１つのプロセッサーとメモリを含み、
前記メモリはコンピューター実行命令を記憶し、
前記少なくとも１つのプロセッサーは前記メモリに記憶されたコンピューター実行命令を実行して、前記電子機器に請求項１２－１４のいずれかに記載の方法を実行させることを特徴とする電子機器。
コンピューター読み取り可能な記憶媒体であって、前記コンピューター読み取り可能な記憶媒体にコンピューター実行命令が記憶され、前記コンピューター実行命令がプロセッサーによって実行される場合に、請求項１－１１のいずれかに記載の方法を実現することを特徴とするコンピューター読み取り可能な記憶媒体。
コンピューター読み取り可能な記憶媒体であって、前記コンピューター読み取り可能な記憶媒体にコンピューター実行命令が記憶され、前記コンピューター実行命令がプロセッサーによって実行される場合に、請求項１２－１４のいずれかに記載の方法を実現することを特徴とするコンピューター読み取り可能な記憶媒体。