JP2022552382A

JP2022552382A - 音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器

Info

Publication number: JP2022552382A
Application number: JP2022522692A
Authority: JP
Inventors: 俊斌梁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-20
Filing date: 2020-10-28
Publication date: 2022-12-15
Anticipated expiration: 2040-10-28
Also published as: US20220189491A1; EP4012705A1; CN112820306B; EP4012705A4; WO2021164303A1; JP7383138B2; CN112820306A

Abstract

音声伝送方法は、音声符号化ビットストリームにおける現在の符号化データを取得するステップと、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとに従って、現在の符号化データに対応するパケット損失回復能力を取得するステップと、パケット損失回復能力に従って、冗長符号化処理を実行する必要があるかどうかを判断するステップと、冗長符号化処理を実行する必要がある場合、現在の符号化データに従って冗長符号化を実行して、対応する冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送するステップと、冗長符号化処理を実行する必要がない場合、現在の符号化データを受信側に直接伝送するステップと、を含む。

Description

［関連出願への相互参照］
本願は、２０２０年０２月２０日に中国特許庁に提出された、出願番号が２０２０１０１０４７９３．７であり、発明の名称が「音声伝送方法及びそのシステム、装置、コンピュータ可読記憶媒体、並びにコンピュータ機器」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に援用される。

［技術分野］
本願は、コンピュータ技術分野、特に、音声伝送方法及びそのシステム、装置、コンピュータ可読記憶媒体、並びにコンピュータ機器に関するものである。

インターネットは、信頼性の低い伝送ネットワークであり、インターネットベースの音声伝送の主な問題は、パケット損失を防止することであり、伝送ネットワークが不安定なため、伝送中にパケット損失が発生する。ネットワークパケット損失を防止するために、通常、前方誤り訂正（ＦｏｒｗａｒｄＥｒｒｏｒＣｏｒｒｅｃｔｉｏｎ、ＦＥＣと略称）冗長符号化というチャネル符号化アルゴリズムを採用して、冗長パケットを生成し、データパケットとともに冗長パケットを受信側に送信し、受信側は、それらを受信した後、冗長パケット及び元のパケットを使用して、失われたデータパケットを回復し、それによって、パケット損失を防止するという効果をもたらす。

しかしながら、伝送ネットワークのパケット損失を防止するために冗長パケットの生成に依存するＦＥＣ冗長符号化は、必然的に、帯域幅の複数倍の増加及びネットワーク帯域幅リソースの過剰消費をもたらし、パケット損失防止能力が強いほどネットワーク帯域幅の消費が多くなり、特に、帯域幅に制限のあるシナリオでは、ネットワークの輻輳や他の問題が発生しやすくなるため、パケット損失が多くなる。

音声伝送方法であって、
音声符号化ビットストリームにおける現在の符号化データを取得するステップと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第１音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するステップと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断するステップと、
冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送するステップと、
冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するステップと、を含む。

音声伝送システムであって、送信側と受信側とを備え、
前記送信側は、音声符号化ビットストリームにおける現在の符号化データを取得し、機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第１音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成され、
前記送信側は更に、前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成され、
前記受信側は、前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、前記受信側は更に、前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、
前記受信側は更に、前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成される。

音声伝送装置であって、
音声符号化ビットストリームにおける現在の符号化データを取得するように構成される取得モジュールと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第１音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成される、予測モジュールと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成される、冗長符号化判断モジュールと、を備える。

コンピュータ可読命令が記憶された１つ又は複数の不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読命令が１つ又は複数のプロセッサによって実行されるときに、１つ又は複数のプロセッサに、上記の音声伝送方法を実行させる。

コンピュータ機器であって、メモリと、１つ又は複数のプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記１つ又は複数のプロセッサによって実行されるときに、前記１つ又は複数のプロセッサに、上記の音声伝送方法を実行させる。

本願実施例の技術的解決策をより明確に説明するために、以下は、実施例の説明で使用される図面について簡単に紹介する。明らかに、以下に説明される図面は、本願のいくつかの実施例に過ぎず、当業者は、創造的な努力なしに、これらの図面に従って他の図面を得ることができる。

１つの実施例における音声伝送方法の適用環境図である。別の実施例における音声伝送方法の適用環境図である。１つの実施例における音声伝送方法の例示的なフローチャートである。１つの実施例における、ＦＥＣ冗長符号化メカニズムを採用して音声伝送を実行することを示す例示的なブロック図である。１つの実施例における、パケット損失回復能力予測モデルの訓練ステップの例示的なフローチャートである。１つの実施例における、パケット損失回復能力予測モデルを訓練することを示すブロック図である。１つの実施例における音声伝送方法のプロセスを示すブロック図である。１つの特定の実施例における、音声伝送方法の例示的なフローチャートである。１つの実施例における音声伝送装置の構造ブロック図である。１つの実施例におけるコンピュータ機器の構造ブロック図である。

本願の目的、技術的解決策および利点をより明確かつ理解しやすくするために、以下、図面及び実施例を参照して、本願をさらに詳細に説明する。本明細書に記載の特定の実施例は、本願を説明するためのものに過ぎず、本願を限定するものではないことを理解されたい。

図１は、１つの実施例における音声伝送方法の適用環境図である。図１を参照すると、当該音声伝送方法は、音声伝送システムによって実行される。当該音声伝送システムは、送信側１１０と受信側１２０を含む。送信側１１０と受信側１２０は、ネットワークを介して接続されている。送信側１１０と受信側１２０は両方とも端末であり得、端末は、具体的には、デスクトップ端末又はモバイル端末であり得、モバイル端末は、具体的には、携帯電話、タブレットコンピュータ、ラップトップコンピュータのうちの少なくとも１つであり得る。別のいくつかの実施例において、送信側１１０と受信側１２０は、サーバ又はサーバクラスタであり得る。

図２に示されるように、１つの特定の適用シナリオにおいて、送信側１１０と受信側１２０の両方には、音声伝送機能をサポートするアプリケーションが実行されており、サーバ１３０は、当該アプリケーションに計算能力及び記憶能力を提供でき、送信側１１０と受信側１２０は両方とも、ネットワークを介してサーバ１３０に接続され、それによって、当該サーバ１３０に基づいて両側間の音声伝送を実現することができる。サーバ１３０は、独立したサーバ又は複数のサーバで構成されたサーバクラスタとして実現されてもよい。

１つの実施例において、送信側１１０は、音声符号化ビットストリームにおける現在の符号化データを取得し、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとに従って、現在の符号化データに対応するパケット損失回復能力を取得し、パケット損失回復能力に従って、冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、現在の符号化データに従って冗長符号化を実行して、対応する冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側１２０に伝送し、冗長符号化処理を実行する必要がない場合、現在の符号化データを受信側１２０に直接伝送することができる。これによって、ネットワーク帯域幅の全体的な利用率を効果的に向上させることができ、同時に、伝送ネットワークのパケット損失防止能力を確保することもできる。

図３に示されるように、１つの実施例では、音声伝送方法を提供する。この実施例は、主に、当該方法が上記の図１又は図２の送信側１１０に適用されることを例として説明する。図３を参照すると、当該音声伝送方法は、具体的には、ステップＳ３０２～ステップＳ３０８を含み得る。

ステップＳ３０２において、音声符号化ビットストリームにおける現在の符号化データを取得する。

音声符号化ビットストリームは、音声信号に対して音声符号化を実行することで得られた元のビットストリームであり、音声符号化ビットストリームは、１つのグループの伝送対象となる符号化データを含む。符号化データは、送信側の音声エンコーダが、特定のフレーム長に従って音声信号を符号化することで得られた符号化データフレームであってもよく、送信側は、ネットワークを介して、音声符号化ビットストリームにおける符号化データフレームを受信側に伝送することができる。あるいは、符号化データは、複数の符号化データフレームを合成することで得られた１つの符号化データパケットであってもよく、送信側は、ネットワークを介して、音声符号化ビットストリームにおける符号化データパケットを受信側に伝送することができる。例えば、送信側のエンコーダは６０ｍｓの音声信号を取得し、該音声信号を１５ｍｓのフレーム長の４つのフレームに分割し、それらを順次に符号化して、４つの符号化データフレームを取得し、送信側は、符号化データフレームを受信側に順次に伝送してもよいし、これらの４つの符号化データフレームを１つの符号化データパケットに合成してから、ネットワークを介して受信側に伝送してもよい。

通常、図４に示されるように、伝送ネットワークのパケット損失を防止するために、送信側は、音声符号化ビットストリームを受信側に伝送する前に、ＦＥＣ冗長符号化を採用して音声符号化ビットストリームにおける各符号化データを受信側に直接送信し、受信側は、ネットワークを介して、各符号化データ及び対応する冗長パケットを受信し、冗長パケットに従って冗長復号化を実行して、失われた符号化データを取得してから、復号化を実行して音声信号を取得する。例えば、伝送対象となる音声符号化ビットストリームは、Ｐ１、Ｐ２、Ｐ３、Ｐ４及びＰ５の５つの符号化データを含み、受信側は、これらの５つの符号化データに基づき冗長符号化を実行して冗長パケットを生成することができ、冗長パケットの数は、１つであってもよいし、複数であってもよく、ここで、２つの冗長パケットＲ１及びＲ２が生成されたと仮定すると、Ｐ１、Ｐ２、Ｐ３、Ｐ４、Ｐ５は、Ｒ１、Ｒ２とともにパッケージ化されてから、受信側に送信される。

これに対して、本願による実施例では、送信側が元の音声情報を符号化して音声符号化ビットストリームを取得した後、音声符号化ビットストリームにおける各符号化データを受信側に送信する前に、送信側は、音声符号化ビットストリームにおける各符号化データに対する受信側のパケット損失回復能力を順次に予測することができる、したがって、送信側は、音声符号化ビットストリームにおける符号化データを順次に取得することができ、現在の符号化データは、現在受信側に伝送される符号化データである。

理解できることとして、本願で使用される現在の符号化データは、送信側によって現在処理されている符号化データを記述するために使用され、前の符号化データは、音声符号化ビットストリーム内の、現在の符号化データの前に符号化されたデータを記述するために使用され、前の符号化データは、現在の符号化データの前の１つの符号化データであってもよいし、現在の符号化データの前の複数の符号化データであってもよく、例えば、現在の符号化データの前の２つの符号化データであってもよい。さらに、現在の符号化データは、相対的に変化する対象であり、例えば、送信側が現在の符号化データＦ（ｉ）を処理した後、音声符号化ビットストリーム内の当該現在の符号化データＦ（ｉ）の次の符号化データＦ（ｉ＋１）を新しい現在の符号化データとして使用でき、現在の符号化データＦ（ｉ）を、新しい現在の符号化データＦ（ｉ＋１）の前の符号化データとして使用することができる。

１つの実施例において、上記の音声伝送方法は、元の音声信号を取得するステップと、元の音声信号を分割して、元の音声シーケンスを取得するステップと、元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得するステップと、を更に含む。

例えば、送信側によって取得された元の音声信号は、２秒の音声セグメントであり、２０ミリ秒の単位でこの音声信号セグメントを分割して、１００個の音声セグメントを含む元の音声シーケンスを取得し、その後、当該元の音声シーケンス内の各音声セグメントに対して音声符号化を順次実行して、各音声セグメントに対応する符号化データを取得し、それによって、元の音声信号に対応する音声符号化ビットストリームを生成する。

１つの実施例において、上記の音声伝送方法は、元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得するステップと、音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得するステップと、音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするステップと、を更に含む。

具体的には、音声符号化プロセスにおいて、送信側は、元の音声シーケンス内の音声セグメントの音声符号化特徴パラメータを抽出し、抽出された音声符号化特徴パラメータを符号化して、各音声セグメントに対応する符号化データを生成する。例えば、送信側のエンコーダは、いくつかの音声信号処理モデル（例えば、フィルタ、特徴抽出器など）を介して、音声セグメントの音声符号化特徴パラメータを抽出し、これらの音声符号化特徴パラメータを符号化（例えば、エントロピー符号化など）してから、これらの符号化されたパラメータを特定のデータ形式でパッケージ化して、対応する符号化データを取得する。留意されたいこととして、送信側は、現在の音声セグメントの音声符号化特徴パラメータと、前の音声セグメントの音声符号化特徴パラメータとに従って、現在の音声セグメントに対応する現在の符号化データを共同で生成してもよいし、現在の音声セグメントの音声符号化特徴パラメータと、後続の音声セグメントの音声符号化特徴パラメータとに従って、現在の音声セグメントに対応する現在の符号化データを共同で生成してもよい。音声符号化特徴パラメータは、音声セグメントに従って信号処理を実行することによって抽出されたラインスペクトル周波数（ＬｉｎｅｓｐｅｃｔｒｕｍＦｒｅｑｕｅｎｃｙ、ＬＳＦと略称）、基音周期（ＰｉｔｃｈＤｅｔｅｃｔｉｏｎ）、適応コードブックゲイン（ａｄａｐｔｉｖｅｇａｉｎ）及び固定コードブックゲインなどのパラメータであってもよい。

さらに、送信側は、各音声セグメントに対応する符号化データを生成するとき、符号化プロセスにおける各音声セグメントの音声符号化特徴パラメータ（すなわち、各符号化データを生成するときに使用される音声符号化特徴パラメータ）をキャッシュし、該音声符号化特徴パラメータは、キャッシュされた音声符号化特徴パラメータに基づいて各符号化データに対応するパケット損失回復能力を予測するために使用される。

ステップＳ３０４において、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとに従って、現在の符号化データに対応するパケット損失回復能力を取得する。

パケット損失回復能力は、現在の符号化データが失われた後、受信側によって現在の符号化データに対してパケット損失回復処理を実行することで得られる回復パケットの音声品質状況を反映できる予測結果である。予測結果は、受信側が、失われた現在の符号化データをうまく回復できるかできないかを指示する。パケット損失回復処理は、パケット損失隠蔽（ＰａｃｋｅｔＬｏｓｓＣｏｎｃｅａｌｍｅｎｔ、ＰＬＣと略称）であり、パケット損失回復能力は、ＰＬＣのパケット損失回復能力である。

符号化データの音声符号化特徴パラメータの数値に突然の変化がある場合、受信側のパケット損失回復能力は制限され、例えば、隣接又は近接する符号化データにピッチホッピングやＬＳＦ突然変化などがある場合、受信側のパケット損失回復能力は制限される。この場合、送信側は、ＦＥＣ冗長符号化を有効にすると、パケット損失率が効果的に向上し、それによって、受信側での音声品質が保証される。隣接する符号化データの音声符号化特徴パラメータの数値が比較的滑らかに変動する場合、受信側は、通常、優れたパケット損失回復能力を備え、この場合、送信側は、ＦＥＣ冗長符号化を有効にしなくてもよい。ここから分かるように、現在の符号化データに対応するパケット損失回復能力は、それに対応する音声符号化特徴パラメータに関連している。機械学習モデルは、大量の訓練サンプルで訓練することにより、音声符号化特徴パラメータに従って、データパケットに対応するパケット損失回復能力を予測する方法を学習することができる。

具体的には、送信側は、現在の符号化データに対応するキャッシュされた第１音声符号化特徴パラメータ、及び前の符号化データに対応するキャッシュされた第２音声符号化特徴パラメータを取得し、事先に訓練されたパケット損失回復能力予測モデルを介して、第１音声符号化特徴パラメータ及び第２音声符号化特徴パラメータに基づき、現在の符号化データに対応するパケット損失回復能力を予測することができる。

別のいくつかの実施例において、送信側は、パケット損失回復能力予測モデルを介して、現在の符号化データに対応する第１音声符号化特徴パラメータ及び現在の符号化データの後の符号化データに対応する第３音声符号化特徴パラメータに従って、現在の符号化データに対応するパケット損失回復能力を取得することができる。あるいは、第２音声符号化特徴パラメータ及び／又は第３音声符号化特徴パラメータに従って、現在の符号化データに対応するパケット損失回復能力を取得することができる。後の符号化データは、音声符号化ビットストリームにおいて現在の符号化データの後に符号化されたデータを記述するために使用され、後の符号化データは、現在の符号化データの後の１つの符号化データであってもよいし、現在の符号化データの後の複数の符号化データであってもよく、例えば、現在の符号化データの後の２つの符号化データであってもよい。

理解できることとして、送信側がどの符号化データに対応する音声符号化特徴パラメータをパケット損失回復能力予測モデルの入力として使用されるかは、音声符号化中に送信側によって使用されるアルゴリズムルール又は音声復号化中に受信側によって使用されるアルゴリズムルールに依存し、符号化ルールと復号化ルールは互に対応する。例えば、送信側が、直前の符号化データに対応する音声符号化特徴パラメータに従って現在の符号化データを生成する必要がある場合、現在の符号化データに対応するパケット損失回復能力を予測するときに、直前の符号化データによって使用される音声符号化特徴パラメータをパケット損失回復能力予測モデルの入力として使用する必要がある。送信側が、直後の符号化データに対応する音声符号化特徴パラメータに従って現在の符号化データを生成する必要がある場合、現在の符号化データに対応するパケット損失回復能力を予測するときに、直後の符号化データによって使用される音声符号化特徴パラメータをパケット損失回復能力予測モデルの入力として使用する必要がある。

パケット損失回復能力予測モデルは、機械学習ベースのコンピュータモデルであり、ニューラルネットワークモデルを採用して実装することができる。機械学習モデルは、サンプルを通じて学習することにより、特定の能力を備えることができる。この実施例では、パケット損失回復能力予測モデルは、事先に訓練された、予測パケット損失回復能力を備えたモデルである。

１つの実施例において、送信側は、機械学習モデルのモデル構造を事前に設定して、初期機械学習モデルを取得し、次に、大量のサンプル音声及びパケット損失シミュレーションテストを使用して、当該初期機械学習モデルを訓練することにより、機械学習モデルのモデルパラメータを取得することができる。したがって、ネットワークを介して音声を伝送する必要がある場合、送信側は、事前に訓練されたモデルパラメータを取得し、当該モデルパラメータを初期機械学習モデルに導入して、パケット損失回復能力予測モデルを取得し、パケット損失回復能力予測モデルを介して、音声符号化ビットストリームの各符号化データに対応するパケット損失回復能力を予測し、予測されたパケット損失回復能力に従って現在の符号化データがＦＥＣ冗長符号化を有効にするかどうかを決定することができる。

図５は、１つの実施例における、パケット損失回復能力予測モデルの訓練ステップの例示的なフローチャートである。留意されたいこととして、任意のコンピュータ機器によって当該訓練ステップを実行して、訓練済みのパケット損失回復能力予測モデルを取得した後、訓練済みのパケット損失回復能力予測モデルを、音声伝送を実行する必要がある送信側に導入することができる。当該コンピュータ機器は、図１又は図２の送信側であってもよく、つまり、送信側によって当該訓練ステップを直接実行して、訓練済みのパケット損失回復能力予測モデルを取得することができる。以下では、コンピュータ機器が実行主体であることを例として、パケット損失回復能力予測モデルの訓練ステップを説明し、具体的には、次のステップを含む。

ステップＳ５０２において、訓練集合におけるサンプル音声シーケンスを取得する。

具体的には、コンピュータ機器は、大量の音声信号を取得し、音声信号を分割して、音声セグメントを含む大量の音声信号シーケンスを、機械学習モデルを訓練するためのサンプル音声シーケンスとして取得することができる。

ステップＳ５０４において、サンプル音声シーケンスに対して音声符号化を実行して、サンプル音声符号化ビットストリームを取得する。

具体的には、各サンプル音声シーケンスについて、コンピュータ機器は、各音声セグメントに対応する音声符号化特徴パラメータを抽出し、抽出された音声符号化特徴パラメータに従って、各音声セグメントに対応する符号化データを生成し、各サンプル音声シーケンスに対応するサンプル音声符号化ビットストリームを取得する。コンピュータ機器は、符号化中に各符号化データによって使用される音声符号化特徴パラメータをキャッシュすることができる。

ステップＳ５０６において、サンプル音声符号化ビットストリームにおける現在の符号化データによって使用される第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データによって使用される第２音声符号化特徴パラメータとを抽出する。

上記のように、符号化データに対応するパケット損失回復能力は、それに対応する音声符号化特徴パラメータに関連し、また、前の符号化データ及び／又は後の符号化データに対応する音声符号化特徴パラメータに関連する可能性があるため、訓練中、コンピュータ機器は、音声符号化特徴パラメータを機械学習モデルの入力として使用して訓練することができる。この実施例では、送信側は、現在処理されている現在の符号化データに対応する第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとを、機械学習モデルの入力として抽出することができる。上記のように、前の符号化データは、現在の符号化データの前の１つの符号化データであってもよいし、現在の符号化データの前の複数の符号化データであってもよい。

留意されたいこととして、毎回の訓練対象は、１つの符号化データであり、各サンプル音声符号化ビットストリームは複数の符号化データを含むため、各サンプル音声符号化ビットストリームは、複数回の訓練に使用できる。例えば、訓練中、送信側は、サンプル音声符号化ビットストリームＳにおけるｉ番目の符号化データに対応する音声符号化特徴パラメータと、ｉ－１番目の符号化データに対応する音声符号化特徴パラメータとを抽出してもよいし、サンプル音声符号化ビットストリームＳにおけるｉ＋１番目の符号化データに対応する音声符号化特徴パラメータと、ｉ番目の符号化データに対応する音声符号化特徴パラメータとを抽出してもよい。

ステップＳ５０８において、サンプル音声符号化ビットストリームを直接に復号化して第１音声信号を取得した後、第１音声信号に基づいて決定された第１音声品質スコアを取得する。

現在の訓練プロセスにおける機械学習モデルの目標出力を取得するためには、送信側は、ステップＳ５０８～ステップＳ５１２を実行する必要がある。コンピュータ機器は、符号化によって取得されたサンプル音声符号化ビットストリームを直接に復号化して第１音声信号を取得した後、音声品質テストツールを使用して、当該第１音声信号に対応する第１音声品質スコアをテストすることができる。第１音声信号は、サンプル音声符号化ビットストリームを直接復号化することで得られたものであるため、符号化データの損失がなく、したがって、取得された第１音声信号は、元のサンプル音声シーケンスに非常に近く、無損失音声信号と呼ばれてもよく、対応する第１音声品質スコアは、無損失音声品質スコアと呼ばれてもよい。

１つの実施例において、音声品質テストツールは、ＰＥＳＱ（Ｐｅｒｃｅｐｔｕａｌｅｖａｌｕａｔｉｏｎｏｆｓｐｅｅｃｈｑｕａｌｉｔｙ）であってもよく、ＰＥＳＱは、いくつかの測定基準に従って音声信号の品質を客観的に評価することができ、これにより、完全に量子化可能な音声品質測定方法を提供し、これらの測定基準と、音声品質に対する人間の知覚との一致度が高い。取得された第１音声品質スコアは、ＭＯＳ＿ＵＮＬＯＳＳとして示され得る。

ステップＳ５１０において、現在の符号化データに対して、シミュレートされたパケット損失回復処理を実行することにより回復パケットを取得し、回復パケットを復号化して第２音声信号を取得した後、第２音声信号に基づいて決定された第２音声品質スコアを取得する。

続いて、コンピュータ機器は、現在の符号化データを失われたデータパケットとして使用し、受信側のデコーダをシミュレートして、現在の符号化データに対してパケット損失回復処理を実行して、対応する回復パケットを取得し、回復パケットを復号化した後、対応する第２音声信号を取得し、元のサンプル音声シーケンスにおける他の音声セグメントを当該第２音声信号と繋ぎ合わせてから、音声品質評点を実行することにより、第２音声品質スコアを取得する。第２音声信号は、シミュレートされたパケット損失の場合に取得された回復パケットを復号化することで得られたものであるため、回復パケットと失われた現在の符号化データとの間には損失があり、したがって、取得された第２音声信号と現在の符号化データに対応する音声セグメントとの間にも損失がある。よって、第２音声信号は、有損失音声信号と呼ばれることができ、決定された第２音声品質スコアは、有損失音声品質スコアと呼ばれることができ、該第２音声品質スコアは、ＭＯＳ＿ＬＯＳＳとして示される。

ステップＳ５１２において、第１音声品質スコアと第２音声品質スコアとの間のスコア差に従って、現在の符号化データに対応する実際のパケット損失回復能力を決定する。

具体的には、現在の符号化データに対応する実際のパケット損失回復能力は、第１音声品質スコアと第２音声品質スコアとの間のスコア差を使用することによって測定され得、つまり、ＭＯＳ＿ＵＮＬＯＳＳ－ＭＯＳ＿ＬＯＳＳを、現在の符号化データに対応する実際のパケット損失回復能力（すなわち、機械学習モデルの目標出力）として使用することができる。現在の符号化データに対応する実際のパケット損失回復能力は、当該スコア差と逆相関し、つまり、差が小さいほど、現在の符号化データパケット損失をシミュレートした後にパケット損失回復を実行することで得られた回復パケットの音声品質が高くなり、現在の符号化データに対応する実際のパケット損失回復能力が強くなることを表し、逆に、差が大きいほど、現在の符号化データパケット損失をシミュレートした後にパケット損失回復を実行することで得られた回復パケットの音声品質が低くなることを表す。

ステップＳ５１４において、第１音声符号化特徴パラメータ及び第２音声符号化特徴パラメータを機械学習モデルに入力し、機械学習モデルを介して、現在の符号化データに対応する予測パケット損失回復能力を出力する。

今回の訓練プロセスの目標出力を取得した後、コンピュータ機器は、取得された第１音声符号化特徴パラメータ及び第２音声符号化特徴パラメータを機械学習モデルに入力し、内部ネットワークの処理により、現在の符号化データに対応する予測パケット損失回復能力を出力することができる。留意されたいこととして、ステップＳ５０８の前にステップＳ５１４を実行することができ、この実施例では、当該ステップの実行順序に対して特に限定しない。

ステップＳ５１６において、実際のパケット損失回復能力と予測パケット損失回復能力との差に従って機械学習モデルのモデルパラメータを調整した後、訓練集合におけるサンプル音声シーケンスを取得するステップに戻り、訓練終了条件を満たすまで訓練を続行する。

具体的には、コンピュータ機器は、取得された実際のパケット損失回復能力と、機械学習モデルによって取得された予測パケット損失回復能力とに従って、損失関数を構築することができ、当該損失関数が最小化されたときに取得されたモデルパラメータを、機械学習モデルの最新のモデルパラメータとして使用し、サンプル音声シーケンスに従って次回の訓練を実行し、機械学習モデルが収束されるか、訓練回数が事前設定された回数に達すると、訓練済みのパケット損失回復予測能力を備えたパケット損失回復能力予測モデルを取得する。

図６は、１つの実施例における、機械学習モデルを訓練してパケット損失回復能力予測モデルを取得することを示すフレームワークの概略図である。図６は、単一の訓練プロセスの例示的なフローチャートである。コンピュータ機器は、サンプル音声シーケンスを取得し、サンプル音声シーケンスに対して音声符号化を実行してサンプル音声符号化ビットストリームを取得する。まず、現在の符号化データにパケット損失がない場合にサンプル音声符号化ビットストリームを直接復号化した後、ＰＥＳＱによりＭＯＳ＿ＵＮＬＯＳＳを取得し、次に、現在の符号化データにパケット損失が発生した場合に、パケット損失回復処理をシミュレートして実行してから復号化した後、ＰＥＳＱによりＭＯＳ＿ＬＯＳＳを取得する。現在の符号化データの音声符号化特徴パラメータと、現在の符号化データの前の符号化データの音声符号化特徴パラメータを機械学習モデルの入力として使用して、予測パケット損失回復能力を取得し、ＭＯＳ＿ＵＮＬＯＳＳ－ＭＯＳ＿ＬＯＳＳを機械学習モデルの目標出力（すなわち、実際のパケット損失回復能力）として使用し、予測パケット損失回復能力及び実際のパケット損失回復能力に従って、機械学習モデルのモデルパラメータを調整することで、今回の訓練プロセスを完了する。

１つの実施例において、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとに従って、現在の符号化データに対応するパケット損失回復能力を取得する前記ステップ（ステップＳ３０４）は、現在の符号化データに対応する第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力するステップと、パケット損失回復能力予測モデルを介して、第１音声符号化特徴パラメータ及び第２音声符号化特徴パラメータに従って、現在の符号化データを直接復号化することで決定された第１音声品質スコアと、現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第２音声品質スコアとの間のスコア差を出力するステップと、スコア差に従って現在の符号化データに対応するパケット損失回復能力を決定するステップと、を含み、ここで、現在の符号化データに対応するパケット損失回復能力は、スコア差と逆相関する。

この実施例では、送信側が音声符号化ビットストリームにおける現在の符号化データを受信側に送信する前に、事先に訓練されたパケット損失回復能力予測モデルを介して、現在の符号化データに対応するパケット損失回復能力を予測することができる。具体的には、現在の符号化データに対応する第１音声符号化特徴パラメータと、前の符号化データに対応する第２音声符号化特徴パラメータとをパケット損失回復能力予測モデルの入力として使用し、パケット損失回復能力予測モデルの出力は、現在の符号化データを直接復号化することで決定された第１音声品質スコアと、現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第２音声品質スコアとの間のスコア差である。当該スコア差は、現在の符号化データのパケット損失後に受信側によって実行されたパケット損失回復処理の品質状況（すなわち、パケット損失回復能力の大きさ）を反映し、パケット損失回復能力は、スコア差と逆相関する。当該スコア差が比較的に大きい場合、つまり、パケット損失回復能力が予め設定された閾値より小さい場合、現在の符号化データが失われた後、受信側によってパケット損失回復処理を実行することで得られた音声信号品質が低いことを示し、逆に、当該スコア差が比較的に小さい場合、つまり、パケット損失回復能力が予め設定された閾値より大きい場合、現在の符号化データが失われた後、受信側によってパケット損失回復処理を実行することで得られた音声信号品質が許容範囲内にあることを示す。

ステップＳ３０６において、パケット損失回復能力に従って、冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、ステップＳ３０８を実行して、冗長符号化処理を実行する必要がない場合、ステップＳ３１０を実行し、ここで、ステップＳ３０８において、現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送し、ステップＳ３１０において、現在の符号化データを受信側に直接伝送する。

具体的には、送信側は、パケット損失回復能力予測モデルを介して現在の符号化データに対応するパケット損失回復能力を取得した後、予測されたパケット損失回復能力に従って、現在の符号化データをＦＥＣ冗長符号化に導入する必要があるかどうかを判断する。

１つの実施例において、パケット損失回復能力予測モデルを介して出力されたパケット損失回復能力は、数値範囲内にある数値であり、送信側は、パケット損失回復能力と予め設定された閾値を比較し、比較結果に従って、現在の符号化データに対して冗長符号化処理を実行する必要があるかどうかを判断することができる。

具体的には、パケット損失回復能力が予め設定された閾値より小さい場合、現在の符号化データに従って冗長符号化を実行して、対応する冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送する。パケット損失回復能力が予め設定された閾値より小さいことは、現在の符号化データが失われた後、受信側によってパケット損失回復処理を実行することで得られた音声信号品質が低いことを示し、したがって、ＦＥＣ冗長符号化を使用して伝送ネットワークのパケット損失の問題を解決する必要があり、つまり、現在の符号化データをＦＥＣ冗長符号化に導入して、冗長パケットを生成してから、受信側に伝送する必要がある。パケット損失回復能力が予め設定された閾値より大きい場合、現在の符号化データを受信側に直接伝送する。パケット損失回復能力が予め設定された閾値より大きいことは、現在の符号化データが失われた後、受信側によってパケット損失回復処理を実行することで得られた音声信号品質が許容範囲内にあることを示し、したがって、当該符号化データについて、送信側は、ＦＥＣ冗長符号化をパケット損失防止のポリシーとして使用する必要がなく、送信側は、現在の符号化データを受信側に直接伝送することができる。当該現在の符号化データが失われた場合、受信側のデコーダに組み込まれているパケット損失回復アルゴリズムを直接使用して、現在の符号化データに対してパケット損失回復処理を実行する。

１つの実施例において、パケット損失回復能力予測モデルを介して出力されたパケット損失回復能力は２つのタイプのパケット損失回復能力を有し、パケット損失回復能力が第１値である場合、現在の符号化データが失われた後、受信側によってパケット損失回復処理を実行することで得られた音声信号品質が比較的に低いことを示し、この場合、送信側は、現在の符号化データパケットに対してＦＥＣ冗長符号化処理を実行した後にそれを受信側に伝送する。パケット損失回復能力が第２値である場合、現在の符号化データが失われた後、受信側によってパケット損失回復処理を実行することで得られた音声信号品質が許容範囲内にあることを示し、この場合、送信側は、現在の符号化データを受信側に直接伝送し、当該現在の符号化データが失われた場合、受信側のデコーダに組み込まれているパケット損失回復アルゴリズムを直接使用して、現在の符号化データに対してパケット損失回復処理を実行する。例として、第１値は１であってもよく、第２値は０であってもよい。別の例として、第１値は０であってもよく、第２値は１であってもよい。

例えば、伝送対象となる音声符号化ビットストリームは、Ｐ１、Ｐ２、Ｐ３、Ｐ４…などの符号化データを含み、現在の符号化データはＰ７であり、送信側は、Ｐ７に対応するパケット損失回復能力が比較的弱いと予測した場合、冗長符号化を実行する必要があるキャッシュキュー（このとき、キャッシュキューは空であってもよいし、このキャッシュキューにＰ５などの前の符号化データがすでに保存されていてもよい）にＰ７を追加することができ、キャッシュキューがいっぱいでない場合、後続の符号化データに対応するパケット損失回復能力を予測し続け、同様に、パケット損失回復能力が比較的弱い後続の符号化データをキャッシュキューに追加し、キャッシュキューがいっぱいになると、送信側は、キャッシュキューにおける符号化データに対して冗長符号化を実行して冗長パケットを生成した後、キャッシュキューにおける符号化データ及び生成された冗長パケットを受信側に送信し、同時にキャッシュキューをクリアすることができる。

１つの実施例において、前記現在の符号化データに従って冗長符号化を実行して、対応する冗長パケットを生成した後、前記現在の符号化データ及び前記冗長パケットを受信側に伝送することは、受信側によってフィードバックされたパケット損失状態情報を取得することと、前記パケット損失状態情報に従って前記現在の符号化データに対応する冗長率を決定することと、前記冗長率に応じて、前記現在の符号化データに基づいて冗長パケットを生成した後、前記現在の符号化データ及び前記冗長パケットを前記受信側に伝送することと、を含む。

具体的には、受信側は、受信したデータパケットに従ってパケット損失状態情報を決定し、当該パケット損失状態情報を送信側にフィードバックすることができる。パケット損失状態情報は、現在のパケット損失率で表すことができ、受信側は、当該パケット損失率をパケットにカプセル化し、そのパケットを送信側に送信することができ、送信側は、受信した制御パケットを解析してパケット損失率を取得する。冗長率ｒは、冗長パケットの数ｍと、符号化データｎの数ｎとの合計に対する冗長パケットの数ｍの比率、すなわち、ｒ＝ｍ／（ｍ＋ｎ）であってもよい。送信側は、冗長率を調整することによって、さまざまな程度のパケット損失防止効果を実現することができる。つまり、冗長率を大きくすると、より多くの継続的なパケット損失の問題を解決することができ、冗長率を小さくすると、少量の継続的なパケット損失又は散発的なパケット損失の問題を解決することができ、つまり、パケット損失率が高いほど、ｒ値が大きくなり、パケット損失率が低いほど、ｒ値が小さくなる。

１つの実施例では、音声伝送方法は、受信側が、現在の符号化データを受信した場合、現在の符号化データに対して音声復号化を直接に実行して、現在の符号化データに対応する音声信号を取得するステップ、及び、受信側が現在の符号化データを受信せず、冗長パケットを受信した場合、冗長パケットに基づき受信側によって冗長復号化処理を実行して、現在の符号化データを取得してから、現在の符号化データに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するステップを更に含む。

例えば、上記の例に基づいて、パケット損失回復能力を予測した後、送信側は、符号化データＰ３、Ｐ４、Ｐ６、Ｐ７、Ｐ８、Ｐ９をキャッシュキュー（キャッシュキューの長さは、必要に応じて設定でき、例えば、６に設定してもよい）に追加した後、冗長符号化を行い、冗長パケットＲ１、Ｒ２を生成し、キャッシュキューにおける符号化データＰ３、Ｐ４、Ｐ６、Ｐ７、Ｐ８、Ｐ９、及び生成された冗長パケットＲ１、Ｒ２をデータセットにカプセル化して受信側に送信する。受信側がパケット損失の有無を判断できるようにするために、当該データセットにおける各データパケットのパケットシーケンス番号は連続してもよく、例えば、順次に、１、２、３、４、５、６である。受信側がＰ３、Ｐ４、Ｐ６を受信した場合、パケットシーケンス番号が連続しており、パケット損失がないため、受信側は、受信されたＰ３、Ｐ４、Ｐ６に従って音声復号化を直接実行して、対応する音声信号を取得することができ、同時に、受信側は、Ｐ３、Ｐ４、Ｐ６をキャッシュして、後続のＦＥＣ冗長復号化で使用することができ、後続に、このデータセットにパケット損失がない場合、キャッシュをクリアする。

受信側がＰ８、Ｐ９を受信した場合、受信側は、パケットシーケンス番号に従ってＰ７が失われたことを判断することができ、この場合、受信側は、Ｒ１が受信されるまでＰ８、Ｐ９をキャッシュし、受信側は、キャッシュされたＰ３、Ｐ４、Ｐ６、Ｐ８、Ｐ９及びＲ１に従って冗長復号化処理を実行して、失われたＰ７を取得することができる。Ｒ２がさらに受信されると、Ｒ２を直接破棄してもよい。
１つの実施例において、音声伝送方法は、
受信側が現在の符号化データ及び前記冗長パケットを受信しなかった場合、受信側によって、現在の符号化データに対してパケット損失回復処理を実行して、現在の符号化データに対応する回復パケットを取得し、回復パケットに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するステップを更に含む。

上記の例を参照すると、Ｐ７が失われた場合、受信側が特定の期間内にＲ１及びＲ２を受信しなかった場合、受信側は、キャッシュされたＰ３、Ｐ４、Ｐ６、Ｐ８、Ｐ９に従ってＰ７を回復できない。この場合、デコーダに組み込まれているＰＬＣアルゴリズムを使用して、現在の符号化データに対してパケット損失回復処理を実行する必要があり、通常、直前のデータパケットの復号化情報に従って、基音同期反復法を用いて、現在の符号化データを回復パケットとして近似置き換え、その後、回復パケットを復号化して、音声信号を取得する。留意されたいこととして、受信側が冗長復号化によって当該データセット内のパケット損失を回復できる条件は、受信側によって受信された符号化データの数と、受信側によって受信された冗長パケットの数との合計が、当該データセット内の符号化データの数以上であることである。当該条件が満たされない場合、受信側は、デコーダに組み込まれているＰＬＣアルゴリズムを使用して、現在の符号化データに対してパケット損失回復処理を実行する必要もある。

上記の音声伝送方法によれば、現在の符号化データを受信側に伝送する前に、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第１音声符号化特徴パラメータと、前の符号化データに対応する第２音声符号化特徴パラメータとに従って、現在の符号化データに対する受信側のパケット損失回復能力を予測し、これにより、当該パケット損失回復能力に従って現在の符号化データに対して冗長符号化を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、現在の符号化データに対して冗長符号化を実行して冗長パケットを生成した後、必要なネットワーク帯域幅リソースを消費することによって冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、現在の符号化データに対して冗長符号化を実行する必要なしに、現在の符号化データを受信側に直接伝送することにより、過剰なネットワーク帯域幅リソースの消費を回避し、これにより、ネットワーク帯域幅の全体的な利用率を効果的に向上させ、同時に、伝送ネットワークのパケット損失防止能力を確保することもできる。

図７は、１つの実施例における音声伝送方法のプロセスを示すブロック図である。図７を参照すると、送信側は、元の音声信号を取得し、元の音声信号に対して音声符号化を実行して、音声符号化ビットストリームを取得する。次に、送信側は、機械学習ベースのパケット損失回復能力モデルを介して、音声符号化ビットストリームの各符号化データに対する受信側のパケット損失回復能力を予測する。その後、予測されたパケット損失回復能力に従って、現在の符号化データに対してＦＥＣ冗長符号化を有効にするかどうかを判断する。現在の符号化データに対してＦＥＣ冗長符号化を有効にすると判断した場合、受信側によってフィードバックされたパケット損失状態情報に従って冗長率を設定した後、当該冗長率に応じて、現在の符号化データに基づき、冗長パケットを生成し、現在の符号化データ及び冗長パケットを受信側に伝送する。現在の符号化データに対して冗長符号化を有効しないと判断した場合、現在の符号化データを受信側に直接伝送する。

受信側は、現在の符号化データを受信した場合、通常の復号化プロセスに応じて音声信号を再構築する。受信側が現在の符号化データを受信ぜず、冗長パケットを受信した場合、冗長復号化によってパケット損失を回復する条件が満たされると、受信側は、ＦＥＣ冗長復号化を実行して現在の符号化データを取得することができる。受信側が特定の期間内に現在の符号化データ及び対応する冗長パケットを受信しなかった場合、現在の符号化データが失われたと判断した場合、受信側は、デコーダに組み込まれているＰＬＣアルゴリズムを使用して、現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行して、音声信号を取得することができる。

図８は、１つの特定の実施例における、音声伝送方法の例示的なフローチャートである。図８を参照すると、前記音声伝送方法は、次のステップを含む。

ステップＳ８０２において、元の音声信号を取得する。

ステップＳ８０４において、元の音声信号を分割して、元の音声シーケンスを取得する。

ステップＳ８０６において、元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得する。

ステップＳ８０８において、音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュする。

ステップＳ８１０において、音声符号化ビットストリームにおける現在の符号化データを取得する。

ステップＳ８１２において、現在の符号化データに対応する第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力する。

ステップＳ８１４において、パケット損失回復能力予測モデルを介して、第１音声符号化特徴パラメータ及び第２音声符号化特徴パラメータに従って、現在の符号化データを直接復号化することで決定された第１音声品質スコアと、現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第２音声品質スコアとの間のスコア差を出力する。

ステップＳ８１６において、スコア差に従って現在の符号化データに対応するパケット損失回復能力を決定する。

ステップＳ８１８において、パケット損失回復能力が予め設定された閾値より小さい場合、受信側によってフィードバックされたパケット損失状態情報を取得し、パケット損失状態情報に従って現在の符号化データに対応する冗長率を決定し、冗長率に応じて、現在の符号化データに基づいて冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送する。

ステップＳ８２０において、パケット損失回復能力が予め設定された閾値より大きい場合、現在の符号化データを受信側に直接伝送する。

ステップＳ８２２において、受信側が現在の符号化データを受信した場合、現在の符号化データに対して音声復号化を直接に実行して、現在の符号化データに対応する音声信号を取得する。

ステップＳ８２４において、受信側が現在の符号化データを受信せず、冗長パケットを受信した場合、冗長パケットに基づき受信側によって冗長復号化処理を実行して、現在の符号化データを取得してから、現在の符号化データに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得する。

ステップＳ８２６において、受信側が現在の符号化データ及び前記冗長パケットを受信しなかった場合、受信側によって、現在の符号化データに対してパケット損失回復処理を実行して、現在の符号化データに対応する回復パケットを取得し、回復パケットに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得する。

理解されたいこととして、図３、図５、及び図８のフローチャートにおける各ステップは、矢印の指示に従って順次に表示されているが、これらのステップは、必ずしも矢印で示された順序で順番に実行されるとは限らない。本明細書で明示的に指定されていない限り、これらのステップの実行順番は厳しく限定せず、これらのステップは、他の順番で実行されてもよい。さらに、図３、図５、図８の少なくとも一部のステップは、複数のサブステップ又は複数の段階を含み得、これらのサブステップ又は段階は、必ずしも同時に実行されるわけではなく、異なる時点に実行されてもよく、これらのサブステップ又は段階の実行順番は、必ずしも順次実行されるわけではなく、他のステップや他のステップのサブステップや段階の少なくとも一部と順番に又は交替で実行されてもよい。

１つの実施例において、音声伝送システムを提供し、当該音声伝送システムは、図１又は図２に示された音声伝送システムであってもよく、当該音声伝送システムは、送信側１１０と受信側１２０を含む。

送信側１１０は、音声符号化ビットストリームにおける現在の符号化データを取得し、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとに従って、現在の符号化データに対応するパケット損失回復能力を取得するように構成され、
送信側１１０は更に、パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、現在の符号化データを受信側に直接伝送するように構成され、
受信側１２０は、現在の符号化データを受信した場合、現在の符号化データに対して音声復号化を直接に実行して、現在の符号化データに対応する音声信号を取得するように構成され、受信側１２０は更に、現在の符号化データを受信せず、冗長パケットを受信した場合、冗長パケットに基づき冗長復号化処理を実行して、現在の符号化データを取得してから、現在の符号化データに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するように構成され、
受信側１２０は更に、現在の符号化データ及び冗長パケットを受信しなかった場合、現在の符号化データに対してパケット損失回復処理を実行して、現在の符号化データに対応する回復パケットを取得し、回復パケットに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するように構成される。

１つの実施例において、送信側１１０は更に、元の音声信号を取得し、元の音声信号を分割して、元の音声シーケンスを取得し、元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得するように構成される。

１つの実施例において、送信側１１０は更に、元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得し、音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得し、音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするように構成される。

１つの実施例において、送信側１１０は更に、現在の符号化データに対応する第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力し、パケット損失回復能力予測モデルを介して、第１音声符号化特徴パラメータ及び第２音声符号化特徴パラメータに従って、現在の符号化データを直接復号化することで決定された第１音声品質スコアと、現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第２音声品質スコアとの間のスコア差を出力し、スコア差に従って現在の符号化データに対応するパケット損失回復能力を決定するように構成され、ここで、現在の符号化データに対応するパケット損失回復能力は、スコア差と逆相関する。

１つの実施例において、送信側１１０は更に、受信側によってフィードバックされたパケット損失状態情報を取得し、パケット損失状態情報に従って現在の符号化データに対応する冗長率を決定し、冗長率に応じて、現在の符号化データに基づいて冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送するように構成される。

１つの実施例において、受信側１２０は更に、受信側が現在の符号化データを受信した場合、現在の符号化データに対して音声復号化を直接に実行して、現在の符号化データに対応する音声信号を取得するように構成される。

１つの実施例において、受信側１２０は更に、受信側が現在の符号化データを受信せず、冗長パケットを受信した場合、冗長パケットに基づき冗長復号化処理を実行して、現在の符号化データを取得してから、現在の符号化データに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するように構成される。

１つの実施例において、受信側１２０は更に、受信側が現在の符号化データ及び前記冗長パケットを受信しなかった場合、現在の符号化データに対してパケット損失回復処理を実行して、現在の符号化データに対応する回復パケットを取得し、回復パケットに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するように構成される。

１つの実施例において、送信側１１０は更に、訓練集合におけるサンプル音声シーケンスを取得し、サンプル音声シーケンスに対して音声符号化を実行して、サンプル音声符号化ビットストリームを取得し、サンプル音声符号化ビットストリームにおける現在の符号化データによって使用される第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データによって使用される第２音声符号化特徴パラメータとを抽出し、サンプル音声符号化ビットストリームを直接に復号化して第１音声信号を取得した後、第１音声信号に基づいて決定された第１音声品質スコアを取得し、現在の符号化データに対して、シミュレートされたパケット損失回復処理を実行することにより回復パケットを取得し、回復パケットを復号化して第２音声信号を取得した後、第２音声信号に基づいて決定された第２音声品質スコアを取得し、第１音声品質スコアと第２音声品質スコアとの間のスコア差に従って、現在の符号化データに対応する実際のパケット損失回復能力を決定し、第１音声符号化特徴パラメータ及び第２音声符号化特徴パラメータを機械学習モデルに入力し、機械学習モデルを介して、現在の符号化データに対応する予測パケット損失回復能力を出力し、実際のパケット損失回復能力と予測パケット損失回復能力との差に従って機械学習モデルのモデルパラメータを調整した後、訓練集合におけるサンプル音声シーケンスを取得するステップに戻り、訓練終了条件を満たすまで訓練を続行するように構成される。

上記の音声伝送システムによれば、送信側は、受信側に現在の符号化データを伝送する前に、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第１音声符号化特徴パラメータと、前の符号化データに対応する第２音声符号化特徴パラメータとに従って、現在の符号化データに対する受信側のパケット損失回復能力を予測し、これにより、当該パケット損失回復能力に従って現在の符号化データに対して冗長符号化を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、現在の符号化データに対して冗長符号化を実行して冗長パケットを生成した後、必要なネットワーク帯域幅リソースを消費することによって冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、現在の符号化データに対して冗長符号化を実行する必要なしに、現在の符号化データを受信側に直接伝送することにより、過剰なネットワーク帯域幅リソースの消費を回避し、これにより、ネットワーク帯域幅の全体的な利用率を効果的に向上させ、同時に、伝送ネットワークのパケット損失防止能力を確保することもできる。

１つの実施例において、図９に示されるように、音声伝送装置９００を提供し、当該装置は、ソフトウェア、ハードウェア、又は両者の組み合わせを介して、受信側のすべて又は一部として実装することができる。当該装置は、取得モジュール９０２と、予測モジュール９０４と、冗長符号化判断モジュール９０６と、を備える。

取得モジュール９０２は、音声符号化ビットストリームにおける現在の符号化データを取得するように構成される。

予測モジュール９０４は、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとに従って、現在の符号化データに対応するパケット損失回復能力を取得するように構成される。

冗長符号化判断モジュール９０６は、パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、現在の符号化データを受信側に直接伝送するように構成される。

１つの実施例において、音声伝送装置９００は更に、元の音声信号を取得し、元の音声信号を分割して、元の音声シーケンスを取得し、元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得するように構成される、音声符号化モジュールを備える。

１つの実施例において、音声伝送装置９００は更に、音声符号化モジュールとキャッシュモジュールとを備え、音声符号化モジュールは、元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得し、音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得するように構成され、キャッシュモジュールは、音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするように構成される。

１つの実施例において、予測モジュール９０４は更に、現在の符号化データに対応する第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力し、パケット損失回復能力予測モデルを介して、第１音声符号化特徴パラメータ及び第２音声符号化特徴パラメータに従って、現在の符号化データを直接復号化することで決定された第１音声品質スコアと、現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第２音声品質スコアとの間のスコア差を出力し、スコア差に従って現在の符号化データに対応するパケット損失回復能力を決定するように構成され、ここで、現在の符号化データに対応するパケット損失回復能力は、スコア差と逆相関する。

１つの実施例において、冗長符号化判断モジュール９０６は更に、パケット損失回復能力が予め設定された閾値より小さい場合、受信側によってフィードバックされたパケット損失状態情報を取得し、パケット損失状態情報に従って現在の符号化データに対応する冗長率を決定し、冗長率に応じて、現在の符号化データに基づいて冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送するように構成される。

１つの実施例において、音声伝送装置９００は更に、モデル訓練モジュールを備え、前記モデル訓練モジュールは、訓練集合におけるサンプル音声シーケンスを取得し、サンプル音声シーケンスに対して音声符号化を実行して、サンプル音声符号化ビットストリームを取得し、サンプル音声符号化ビットストリームにおける現在の符号化データによって使用される第１音声符号化特徴パラメータと、現在の符号化データの前の符号化データによって使用される第２音声符号化特徴パラメータとを抽出し、サンプル音声符号化ビットストリームを直接に復号化して第１音声信号を取得した後、第１音声信号に基づいて決定された第１音声品質スコアを取得し、現在の符号化データに対して、シミュレートされたパケット損失回復処理を実行することにより回復パケットを取得し、回復パケットを復号化して第２音声信号を取得した後、第２音声信号に基づいて決定された第２音声品質スコアを取得し、第１音声品質スコアと第２音声品質スコアとの間のスコア差に従って、現在の符号化データに対応する実際のパケット損失回復能力を決定し、第１音声符号化特徴パラメータ及び第２音声符号化特徴パラメータを機械学習モデルに入力し、機械学習モデルを介して、現在の符号化データに対応する予測パケット損失回復能力を出力し、実際のパケット損失回復能力と予測パケット損失回復能力との差に従って機械学習モデルのモデルパラメータを調整した後、訓練集合におけるサンプル音声シーケンスを取得するステップに戻り、訓練終了条件を満たすまで訓練を続行するように構成される。

上記の音声伝送装置９００によれば、受信側に現在の符号化データを伝送する前に、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第１音声符号化特徴パラメータと、前の符号化データに対応する第２音声符号化特徴パラメータとに従って、現在の符号化データに対する受信側のパケット損失回復能力を予測し、これにより、当該パケット損失回復能力に従って現在の符号化データに対して冗長符号化を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、現在の符号化データに対して冗長符号化を実行して冗長パケットを生成した後、必要なネットワーク帯域幅リソースを消費することによって冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、現在の符号化データに対して冗長符号化を実行する必要なしに、現在の符号化データを受信側に直接伝送することにより、過剰なネットワーク帯域幅リソースの消費を回避し、これにより、ネットワーク帯域幅の全体的な利用率を効果的に向上させ、同時に、伝送ネットワークのパケット損失防止能力を確保することもできる。

図１０は、１つの実施例におけるコンピュータ機器の内部構造図である。当該コンピュータ機器は、具体的には、図１の送信側１１０であり得る。図１０に示されるように、当該コンピュータ機器は、システムバスを介して接続されたプロセッサ、メモリ及びネットワークインターフェースを備える。ここで、メモリは、不揮発性記憶媒体及び内部メモリを含む。当該コンピュータ機器の不揮発性記憶媒体には、オペレーティングシステムが記憶され、また、コンピュータ可読命令が記憶されてもよく、当該コンピュータ可読命令がプロセッサによって実行されるときに、プロセッサに、音声伝送方法を実装させることができる。当該内部メモリには、コンピュータ可読命令が記憶されてもよく、当該コンピュータ可読命令がプロセッサによって実行されるときに、プロセッサに、音声伝送方法を実行させることができる。

当業者なら自明であるが、図１０に示される構造は、本願の技術的解決策に関連する構造の一部のブロック図に過ぎず、本願の技術的解決策が適用されるコンピュータ機器を限定するものではない。具体的には、コンピュータ機器は、図に示す構成要素より多い又は少ない構成要素を含むか、いくつかの構成要素の組み合わせを含むか、異なる構成要素レイアウトを含み得る。

１つの実施例において、本願で提供される音声伝送装置９００は、コンピュータ可読命令の形で実装され得、コンピュータ可読命令は、図１０に示されるコンピュータ機器で実行されることができる。コンピュータ機器のメモリには、当該音声伝送装置９００を構成する各プログラムモジュール（例えば、図９に示される取得モジュール９０２、予測モジュール９０４及び冗長符号化判断モジュール９０６など）が記憶されることができる。各モジュールで構成されたコンピュータ可読命令は、プロセッサに、本明細書に記載の本願の各実施例における音声伝送方法のステップを実行させる。

例えば、図１０に示されるコンピュータ機器は、図９に示される音声伝送装置９００における取得モジュール９０２を介して、ステップＳ３０２を実行することができる。コンピュータ機器は、予測モジュール９０４を介してステップＳ３０４を実行することができる。コンピュータ機器は、冗長符号化判断モジュール９０６を介してステップＳ３０６、ステップＳ３０８及びステップＳ３１０を実行することができる。

１つの実施例では、コンピュータ機器を提供し、当該コンピュータ機器は、メモリとプロセッサとを備え、メモリには、コンピュータ可読命令が記憶され、コンピュータ可読命令がプロセッサによって実行されるときに、プロセッサに、上記の音声伝送方法を実行させる。ここで、音声伝送方法のステップは、上記の各実施例における音声伝送方法のステップであり得る。

１つの実施例では、コンピュータ可読命令が記憶されているコンピュータ可読記憶媒体を提供し、コンピュータ可読命令がプロセッサによって実行されるときに、プロセッサに、上記の音声伝送方法を実行させる。ここで、音声伝送方法のステップは、上記の各実施例における音声伝送方法のステップであり得る。

１つの実施例では、コンピュータプログラム製品又はコンピュータ可読命令を提供し、当該コンピュータプログラム製品又はコンピュータ可読命令はコンピュータ可読命令を含み、当該コンピュータ可読命令はコンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から当該コンピュータ可読命令を読み取り、プロセッサは、当該コンピュータ可読命令を実行して、当該コンピュータ機器に、上記の各方法実施例のステップを実行させる。当業者なら自明であるが、上記の実施例の方法の全て又は一部のブロセスは、関連するハードウェアを指示するコンピュータ可読命令によって遂行され得、上記のコンピュータ可読命令は、不揮発性コンピュータ可読取記憶媒体に記憶されてもよく、当該コンピュータ可読命令が実行されると、上記の各方法の実施例のプロセスを実行できる。ここで、本願で提供される各実施例で使用される、メモリ、ストレージ、データベース又は他の媒体への任意の引用は、不揮発性及び揮発性メモリのうちの少なくとも１つを含み得る。不揮発性メモリは、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭと略称）、磁気テープ、フロッピーディスク、フラッシュメモリ又は光メモリなどを含み得る。揮発性メモリは、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭと略称）又は外部キャッシュメモリを含み得る。限定ではなく説明の目的で、ＲＡＭは、スタティックランダムアクセスメモリ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＳＲＡＭと略称）又はダイナミックランダムアクセスメモリ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＤＲＡＭ）などの複数の形式であり得る。

上記の実施例の各技術的特徴を任意に組み合わせることができ、説明を簡潔にするために、上述の実施例における各技術的特徴の全ての可能な組み合わせについて説明されていないが、これらの技術的特徴の組み合わせに矛盾がない限り、それらの全ては、本発明の範囲に含まれるものとする。

上記の実施例は、本願のいくつかの実施形態のみを説明しており、それらの説明は、比較的具体的且つ詳細であるが、本願の保護範囲を限定するものとして解釈されるべきではない。当業者にとって、本願の構想から逸脱することなく、いくつかの変形又は改善を加えることもでき、このような変形又は改善はすべて、本願の保護範囲に含まれることに留意されたい。したがって、本願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。

900 音声伝送装置
902 取得モジュール
904 予測モジュール
906 冗長符号化判断モジュール

Claims

コンピュータが実行する音声伝送方法であって、
音声符号化ビットストリームにおける現在の符号化データを取得するステップと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第１音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するステップと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断するステップと、
冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送するステップと、
冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するステップと、を含む、前記音声伝送方法。
前記音声伝送方法は、
元の音声信号を取得するステップと、
元の音声信号を分割して、元の音声シーケンスを取得するステップと、
前記元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得するステップと、を更に含む、
請求項１に記載の音声伝送方法。
前記音声伝送方法は、
元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得するステップと、
前記音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得するステップと、
音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするステップと、を更に含む、
請求項１に記載の音声伝送方法。
前記機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第１音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得する前記ステップは、
前記現在の符号化データに対応する第１音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力するステップと、
前記パケット損失回復能力予測モデルを介して、前記第１音声符号化特徴パラメータ及び前記第２音声符号化特徴パラメータに従って、前記現在の符号化データを直接復号化することで決定された第１音声品質スコアと、前記現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第２音声品質スコアとの間のスコア差を出力するステップと、
前記スコア差に従って前記現在の符号化データに対応するパケット損失回復能力を決定するステップと、を含み、
前記現在の符号化データに対応するパケット損失回復能力は、前記スコア差と逆相関する、
請求項１に記載の音声伝送方法。
前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送する前記ステップは、
受信側によってフィードバックされたパケット損失状態情報を取得するステップと、
前記パケット損失状態情報に従って、前記現在の符号化データに対応する冗長率を決定するステップと、
前記冗長率に応じて、前記現在の符号化データに基づいて冗長パケットを生成した後、前記現在の符号化データ及び前記冗長パケットを前記受信側に伝送するステップと、を含む、
請求項１に記載の音声伝送方法。
前記音声伝送方法は、
前記受信側が前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得するステップ、及び
前記受信側が前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき前記受信側を介して冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するステップ、を更に含む、
請求項１に記載の音声伝送方法。
前記音声伝送方法は、
前記受信側が前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記受信側によって、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するステップを更に含む、
請求項１に記載の音声伝送方法。
前記パケット損失回復能力予測モデルは、以下のステップによって決定され、前記ステップは、
訓練集合におけるサンプル音声シーケンスを取得するステップと、
前記サンプル音声シーケンスに対して音声符号化を実行して、サンプル音声符号化ビットストリームを取得するステップと、
前記サンプル音声符号化ビットストリームにおける現在の符号化データによって使用される第１音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データによって使用される第２音声符号化特徴パラメータとを抽出するステップと、
前記サンプル音声符号化ビットストリームを直接に復号化して第１音声信号を取得した後、前記第１音声信号に基づいて決定された第１音声品質スコアを取得するステップと、
前記現在の符号化データに対して、シミュレートされたパケット損失回復処理を実行することにより回復パケットを取得し、前記回復パケットを復号化して第２音声信号を取得した後、前記第２音声信号に基づいて決定された第２音声品質スコアを取得するステップと、
前記第１音声品質スコアと前記第２音声品質スコアとの間のスコア差に従って、前記現在の符号化データに対応する実際のパケット損失回復能力を決定するステップと、
前記第１音声符号化特徴パラメータ及び前記第２音声符号化特徴パラメータを機械学習モデルに入力し、前記機械学習モデルを介して、前記現在の符号化データに対応する予測パケット損失回復能力を出力するステップと、
前記実際のパケット損失回復能力と前記予測パケット損失回復能力との差に従って前記機械学習モデルのモデルパラメータを調整した後、前記訓練集合におけるサンプル音声シーケンスを取得するステップに戻り、訓練終了条件を満たすまで訓練を続行するステップと、を含む、
請求項１ないし７のいずれか一項に記載の音声伝送方法。
音声伝送システムであって、
送信側と受信側を含み、
前記送信側は、音声符号化ビットストリームにおける現在の符号化データを取得し、機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第１音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成され、
前記送信側は更に、前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成され、
前記受信側は、前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、前記受信側は更に、前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、
前記受信側は更に、前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成される、前記音声伝送システム。
前記送信側は更に、元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得し、前記音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得し、前記音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするように構成される。
請求項９に記載の音声伝送システム。
前記送信側は更に、前記現在の符号化データに対応する第１音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力し、前記パケット損失回復能力予測モデルを介して、前記第１音声符号化特徴パラメータ及び前記第２音声符号化特徴パラメータに従って、前記現在の符号化データを直接復号化することで決定された第１音声品質スコアと、前記現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第２音声品質スコアとの間のスコア差を出力し、前記スコア差に従って前記現在の符号化データに対応するパケット損失回復能力を決定するように構成され、ここで、前記現在の符号化データに対応するパケット損失回復能力は、前記スコア差と逆相関する、
請求項９に記載の音声伝送システム。
前記送信側は更に、受信側によってフィードバックされたパケット損失状態情報を取得し、前記パケット損失状態情報に従って前記現在の符号化データに対応する冗長率を決定し、前記冗長率に応じて、前記現在の符号化データに基づいて冗長パケットを生成した後、前記現在の符号化データ及び前記冗長パケットを前記受信側に伝送するように構成される、
請求項９に記載の音声伝送システム。
音声伝送装置であって、
音声符号化ビットストリームにおける現在の符号化データを取得するように構成される取得モジュールと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第１音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成される、予測モジュールと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成される、冗長符号化判断モジュールと、を備える、前記音声伝送装置。
前記音声伝送装置は更に、
元の音声信号を取得し、元の音声信号を分割して、元の音声シーケンスを取得し、前記元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得するように構成される、音声符号化モジュールを備える、
請求項１３に記載の音声伝送装置。
前記音声伝送装置は更に、音声符号化モジュール及びキャッシュモジュールを備え、
前記音声符号化モジュールは、元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得し、前記音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得するように構成され、
前記キャッシュモジュールは、音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするように構成される、
請求項１３に記載の音声伝送装置。
前記予測モジュールは更に、前記現在の符号化データに対応する第１音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第２音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力し、前記パケット損失回復能力予測モデルを介して、前記第１音声符号化特徴パラメータ及び前記第２音声符号化特徴パラメータに従って、前記現在の符号化データを直接復号化することで決定された第１音声品質スコアと、前記現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第２音声品質スコアとの間のスコア差を出力し、前記スコア差に従って前記現在の符号化データに対応するパケット損失回復能力を決定するように構成され、ここで、前記現在の符号化データに対応するパケット損失回復能力は、前記スコア差と逆相関する、
請求項１３に記載の音声伝送装置。
前記冗長符号化判断モジュールは更に、前記受信側が前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得し、前記受信側が前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき前記受信側を介して冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成される、
請求項１３に記載の音声伝送装置。
前記冗長符号化判断モジュールは更に、前記受信側が前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記受信側によって、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成される、
請求項１３ないし１７のいずれか一項に記載の音声伝送装置。
コンピュータ可読命令が記憶されている１つ又は複数の不揮発性コンピュータ可読記憶媒体であって、
前記コンピュータ可読命令が１つ又は複数のプロセッサによって実行されるときに、１つ又は複数のプロセッサに、請求項１ないし８のいずれか一項に記載の方法を実行させる、前記不揮発性コンピュータ可読記憶媒体。
コンピュータ機器であって、
メモリと、１つ又は複数のプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記１つ又は複数のプロセッサによって実行されるときに、前記１つ又は複数のプロセッサに、請求項１ないし８のいずれか一項に記載の方法を実行させる、前記コンピュータ機器。