JP2022546542A

JP2022546542A - 通話方法、通話装置、通話システム、サーバ及びコンピュータプログラム

Info

Publication number: JP2022546542A
Application number: JP2022514029A
Authority: JP
Inventors: 毅高
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-23
Filing date: 2020-06-11
Publication date: 2022-11-04
Anticipated expiration: 2040-06-11
Also published as: EP4016956A4; US11842751B2; JP7361890B2; US20220044699A1; EP4016956A1; CN111049848B; CN111049848A; WO2021128752A1

Abstract

通話方法であって、当該方法は、少なくとも３つの第１端末が送信した、指示情報を携帯する音声データを取得するステップと、取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択するステップと、少なくとも２つのチャンネルの標的音声データを第２端末に送信するステップと、を含み、第２端末は、少なくとも２つのチャンネルの標的音声データを復号化し、復号化された少なくとも２つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる。

Description

関連出願の相互参照
本願は、２０１９年１２月２３日に中国国家知識産権局に提出された、出願番号が第２０１９１１３３４１３７．Ｘ号で、出願名称が「通話方法、装置、システム、サーバ及び記憶媒体」である中国特許出願の優先権を主張し、当該出願の全ての内容は援用により本願に組み込まれる。

本願の実施例は、インターネット技術の分野に関し、特に、通話方法、装置、システム、サーバ及び記憶媒体に関する。

インターネット技術の発展に伴い、通話機能はますます広く適用され、複数のユーザ間の通話を可能にするため、複数のユーザ間のコミュニケーションが非常に容易になり、日常生活に多くの利便性をもたらした。

複数の第１端末と第２端末との通話を例とすると、複数の第１端末及び第２端末が、それぞれサーバに音声データを送信する。サーバは、複数の第１端末が送信した音声データを当該第２端末に送信し、第２端末はサーバが送信した多チャンネル音声データを受信し、当該多チャンネル音声データを復号化し、復号化された多チャンネル音声データをミキシングし、ミキシングされた音声データを再生する。

しかしながら、サーバは、多チャンネル音声データを第２端末に送信する必要があるため、多くのネットワーク帯域を占有し、多くのデータ通信量を消費することにより、音声データの伝送速度が遅くなり、通話の品質に影響を与える可能性がある。

本願にて提供される各実施例によれば、通話方法、装置、システム、サーバ及び記憶媒体を提供する。

通話方法であって、サーバによって実行され、前記方法は、
少なくとも３つの第１端末が送信した音声データを取得するステップであって、前記音声データは指示情報を携帯し、前記指示情報は、少なくとも音声区間検出（ＶＡＤ）情報を含み、前記ＶＡＤ情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる、ステップと、
取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、前記少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択するステップであって、前記少なくとも２つのチャンネルの標的音声データの数は、前記少なくとも３つのチャンネルの音声データの数よりも少ない、ステップと、
前記少なくとも２つのチャンネルの標的音声データを第２端末に送信するステップであって、前記第２端末は、前記少なくとも２つのチャンネルの標的音声データを復号化し、復号化された少なくとも２つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる、ステップと、を含み、
前記第２端末は、通話グループ内のいずれか１つの端末であり、前記少なくとも３つの第１端末は、前記通話グループ内の前記第２端末と異なる端末である。

通話装置であって、前記装置は、
少なくとも３つの第１端末が送信した、指示情報を携帯する音声データを取得するために用いられる取得モジュールであって、前記指示情報は、少なくとも音声区間検出（ＶＡＤ）情報を含み、前記ＶＡＤ情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる、取得モジュールと、
取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、前記少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択するために用いられる選択モジュールであって、前記少なくとも２つのチャンネルの標的音声データの数は、前記少なくとも３つのチャンネルの音声データの数よりも少ない、選択モジュールと、
前記少なくとも２つのチャンネルの標的音声データを第２端末に送信するために用いられる送信モジュールであって、前記第２端末は、前記少なくとも２つのチャンネルの標的音声データを復号化し、復号化された少なくとも２つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる、送信モジュールと、を含み、
前記第２端末は、通話グループ内のいずれか１つの端末であり、前記少なくとも３つの第１端末は、前記通話グループ内の前記第２端末と異なる端末である。

通話システムであって、前記システムは、通話グループ内の少なくとも４つの端末及びサーバを含み、
前記少なくとも４つの端末は、前記サーバに指示情報を携帯する音声データを送信するために用いられ、前記指示情報は、少なくとも音声区間検出（ＶＡＤ）情報を含み、前記ＶＡＤ情報は、対応する音声データが音声区間を含むか否かを指示するために用いられ、
前記サーバは、少なくとも３つの第１端末が送信した音声データを取得するために用いられ、
前記サーバは、さらに、取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、前記少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択するために用いられ、前記少なくとも２つのチャンネルの標的音声データの数は、前記少なくとも３つのチャンネルの音声データの数よりも少なく、
前記サーバは、さらに、前記少なくとも２つのチャンネルの標的音声データを第２端末に送信するために用いられ、
前記第２端末は、前記少なくとも２つのチャンネルの標的音声データを復号化し、復号化された少なくとも２つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられ、
前記第２端末は、前記通話グループ内のいずれか１つの端末であり、前記少なくとも３つの第１端末は、前記通話グループ内の前記第２端末と異なる端末である。

コンピュータ可読命令が記憶されている不揮発性記憶媒体であって、前記コンピュータ可読命令が１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のプロセッサが通話方法のステップを実行する。

メモリ及びプロセッサを含むサーバであって、前記メモリにはコンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記プロセッサによって実行されると、前記プロセッサが通話方法のステップを実行する。

本願の１つ又は複数の実施例の詳細は、以下の添付図面及び説明で提示される。本願の他の特徴、目的、及び利点は、説明、添付図面、及び特許請求の範囲から明らかになる。

本願の実施例における技術的解決手段をより明確に説明するために、以下では、実施例の説明に必要な図面を簡単に紹介するが、当然ながら、以下の説明における図面は、本願の一部の実施例にすぎず、当業者であれば、創造的な働きなしに、これらの図面から他の図面を取得することもできる。

本願の実施例にて提供される実施環境の模式図である。本願の実施例にて提供される別の実施環境の模式図である。本願の実施例にて提供される別の実施環境の模式図である。本願の実施例にて提供される通話方法のフローチャートである。本願の実施例にて提供される受信端末が音声データを処理する模式図である。本願の実施例にて提供される制御プログラムの模式図である。本願の実施例にて提供される選択ロジックモジュールの模式図である。本願の実施例にて提供される標的音声データの選択方法のフローチャートである。本願の実施例にて提供される別の通話方法のフローチャートである。本願の実施例にて提供される通話装置の構造の模式図である。本願の実施例にて提供される別の通話装置の構造の模式図である。本願の実施例にて提供される端末の構造の模式図である。本願の実施例にて提供されるサーバの構造の模式図である。

本願の目的、技術的解決手段及び利点をより明確にするために、添付図面及び実施例を参照しながら本願をより詳細に説明する。本明細書に記載の具体的な実施例は、本願を説明するために使用されるだけで、本願を限定するものではないことを理解されたい。

図１は、本願の実施例にて提供される実施環境の模式図であり、図１を参照すると、当該実施環境には、複数の端末１０１及びサーバ１０２が含まれる。各端末１０１は、サーバ１０２にネットワークを介して接続され、サーバ１０２は、受信した１つの端末１０１が送信した音声データを、別の端末１０１に送信する。通話時に、端末１０１は送信端末であってもよいし、受信端末であってもよい。

ここで、端末１０１は、携帯電話、タブレットなどの様々な種類の機器であり得る。サーバ１０２は、１台のサーバであってもよいし、複数台のサーバからなるサーバクラスタであってもよいし、クラウドコンピューティングサービスセンタであってもよい。

可能な実施形態において、図２に示すように、実施環境には、制御サーバ１０３がさらに含まれ、複数の端末１０１は制御サーバ１０３に接続し、サーバ１０２は制御サーバ１０３に接続する。

可能な実施形態において、複数の端末１０１は制御サーバ１０３に接続し、制御サーバ１０３と端末１０１とは、シグナリングにより情報を交換し、シグナリングは、各端末１０１間の通信関係を確立、維持、解除するための情報である。情報を交換する際に、端末１０１は、通話中の端末の識別子を制御サーバ１０３に送信し、制御サーバ１０３は、受信した複数の端末１０１の識別子に基づいて、同じ通話グループ内の複数の端末１０１を決定する。制御サーバ１０３は、サーバ１０２が同じ通話グループにある端末１０１がどれらかを決定できるように、同じ通話グループ内の複数の端末１０１の識別子をサーバ１０２に送信する。

制御サーバ１０３は、通話に加入する新しい端末１０１があるか否か、又は通話から退出した端末１０１があるか否かを監視することができ、通話が終了した後、データ接続及びシグナリング接続を切断して、リソースを解放する。

図３は、本願の実施例にて提供される別の実施環境の模式図であり、図３を参照すると、当該実施環境には、複数の端末３０１、第１サーバ３０２及び第２サーバ３０３が含まれている。端末３０１は第１サーバ３０２に接続するか、又は、端末３０１は第２サーバ３０３に接続し、第１サーバ３０２と第２サーバ３０３とが接続する。

ここで、端末３０１は、携帯電話、タブレットなどの様々な種類の機器であり得る。第１サーバ３０２及び第２サーバ３０３は、一台のサーバであってもよいし、複数台のサーバからなるサーバクラスタであってもよいし、クラウドコンピューティングサービスセンタであってもよい。

例えば、第１端末及び第２端末が同じ通話グループ内にあり、第１端末が送信端末で、第２端末が受信端末であり、第１端末が第１サーバに接続し、第２端末が第２サーバに接続する場合、第１サーバは、第１端末が送信した音声データを受信して、当該音声データを第２サーバに送信し、第２サーバは、第１サーバが送信した音声データを受信して、当該音声データを第２端末に送信する。

本願の実施例にて提供される方法は、音声通話、ビデオ通話又は他の通話シーンに適用できる。音声通話又はビデオ通話は、ＶＯＩＰ（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ、ＩＰ電話）多人数会議シーン又は他のシーンであり得る。

例えば、音声通話シーンに適用される場合、少なくとも４つの端末間で音声データのやり取りを行う。サーバは、本願の実施例にて提供される方法を使用して少なくとも３つの送信端末が送信した少なくとも３つのチャンネルの音声データから、標的音声データを選択して、受信端末に送信し、受信端末は、受信した標的音声データを復号化及びミキシングして、ミキシングされた音声データを再生する。

例えば、ビデオ通話シーンに適用される場合、少なくとも４つの端末間でビデオデータのやり取りを行い、ビデオデータは、音声データ及び画像データを含み、サーバは、ビデオ通話中の音声データ及び画像データをそれぞれ処理する。

音声データの処理について、サーバは、本願の実施例にて提供される方法を使用して、少なくとも３つの送信端末が送信した少なくとも３つのチャンネルの音声データから、標的音声データを選択して、受信端末に送信し、受信端末は、受信した標的音声データを復号化及びミキシングして、ミキシングされた音声データを再生する。

画像データの処理について、サーバは、少なくとも３つの送信端末が送信した画像データを受信端末に送信し、受信端末は、受信した少なくとも３つの画像データ及び当該端末で収集された画像データに基づいて、表示しようとする画像データを決定して、当該画像データを表示する。表示する画像データは、受信した少なくとも３つの画像データと、当該端末で収集した画像データとを合併して得たものであってもよいし、受信した少なくとも３つの画像データ及び当該端末で収集された画像データからユーザが選択したある画像データであってもよい。

音声データ及び画像データを別々に処理する場合、音声データと画像データとの同期を保証する必要がある。

図４は、本願の実施例にて提供される通話方法のフローチャートである。本願の実施例のやり取りの主体は、第１端末、サーバ及び第２端末であり、図４を参照すると、当該方法は、ステップ４０１～４０５を含む。

４０１．少なくとも３つの第１端末がサーバに音声データを送信する。

本願の実施例では、少なくとも４つの端末が同じ通話グループに加入しており、当該少なくとも４つの端末は、互いに通話することができる。ここで、送信端末とは、音声データを送信する端末であり、受信端末とは、他の端末が送信した音声データを受信する端末である。受信端末は、通話グループ内のいずれか１つの端末であり、少なくとも２つの送信端末は、通話グループ内の受信端末と異なる端末であり、通話グループ内の各端末は、送信端末であっても、受信端末であってもよい。本願の実施例は、第１端末が送信端末で、第２端末が受信端末であることを例として説明したが、他の端末を送信端末とするか又は受信端末とする場合の処理過程も、これに類似する。

当該通話グループは、音声通話グループであってもよいし、ビデオ通話グループであってもよく、当該少なくとも４つの端末は、音声通話することも、ビデオ通話することもできる。ここで、音声通話中では、当該少なくとも４つの端末は音声データをやり取りする必要があり、ビデオ通話中では、当該少なくとも４つの端末は音声データをやり取りする必要がある以外に、画像データをやり取りする必要もある。本願の実施例は、音声データのやり取り過程のみを説明した。

ここで、各第１端末にとって、第１端末は音声データを収集してから、サーバに当該音声データを送信し、第１端末によって収集された音声データは、１つの音声フレームを含んでも、複数の音声フレームを含んでもよい。

当該音声データは指示情報を携帯し、当該指示情報は、ＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、音声区間検出）情報を含み、ＶＡＤ情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる。

ここで、音声データのＶＡＤ情報は、音声データにおける音声フレームごとのＶＡＤ識別子を含み、ＶＡＤ識別子は、第１のＶＡＤ識別子及び第２のＶＡＤ識別子の２つのタイプを含み、第１のＶＡＤ識別子は、対応する音声フレームが音声区間であることを指示するために用いられ、第２のＶＡＤ識別子は、対応する音声フレームが音声区間でないことを指示するために用いられる。

音声データのＶＡＤ情報に第１のＶＡＤ識別子が含まれている場合、音声データが音声区間を含むと決定し、音声データのＶＡＤ情報に第１のＶＡＤ識別子が含まれていない場合、音声データが音声区間を含まないと決定する。ここで、第１のＶＡＤ識別子は、プリセット値又は他の識別子であってもよく、第２のＶＡＤ識別子は第１のＶＡＤ識別子と異なる他の識別子であってもよい。例えば、第１のＶＡＤ識別子は１で、第２のＶＡＤ識別子は０である。

各第１端末にとって、当該第１端末は、音声データを収集した後、音声データに対して音声区間検出を行うことができ、音声データにおける各音声フレームが音声区間であるか否かを、即ち各音声フレームに音声が含まれているか否かを検出し、それにより、各音声フレームに対応するＶＡＤ識別子を取得して、当該音声データに付加すると、音声データが音声フレームごとのＶＡＤ識別子を携帯するようになる。

可能な実施形態において、指示情報に音声エネルギーが含まれる。当該音声エネルギーは、音声データに音声があるか否かを指示するために用いられ、音声データが音声区間を含む場合、音声エネルギーが大きく、音声データが音声区間を含まない場合、音声エネルギーの小さい。そして、音声区間が異なると、音声エネルギーも異なる。

例えば、話している人がいないと、音声データに背景の雑音だけあるか又は無音であり、当該音声データが音声区間を含まず、音声データのエネルギーも小さい。話している人がいると、音声の音量が異なると、音声エネルギーも異なり、音声の音量が大きい場合、音声エネルギーも大きく、音声の音量が小さい場合、音声エネルギーも小さい。

各第１端末にとって、当該第１端末は、音声データを収集した後、当該音声データの音声エネルギーを算出して、当該音声データに付加することができ、音声データが当該音声エネルギーを携帯する。ここで、音声データが音声フレームを１つしか含まない場合、当該音声データの音声エネルギーは、当該音声フレームの音声エネルギーであり、音声データが複数の音声フレームを含む場合、当該音声データの音声エネルギーは、当該複数の音声フレームの音声エネルギーの合計である。

また、音声データは、ペイロードデータをさらに含んでもよく、ペイロードデータは、音声データを符号化した後に得たコードストリームデータを示すために用いられる。

４０２．サーバは、少なくとも３つの第１端末が送信した音声データを取得する。

サーバが少なくとも３つの第１端末が送信した音声データを受信したため、少なくとも３つのチャンネルの音声データを取得でき、サーバは、当該少なくとも３つのチャンネルの音声データを直ちに処理してもよいし、先に当該少なくとも３つのチャンネルの音声データをバッファした後、バッファした当該少なくとも３つのチャンネルの音声データを抽出してから、当該少なくとも３つのチャンネルの音声データを処理してもよい。

４０３．サーバは、取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択する。

サーバは、当該少なくとも３つのチャンネルの音声データを別々に解析して、各チャンネルの音声データに携帯されている指示情報を取得し、サーバは、取得した指示情報に応じて、少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択する。

ここで、少なくとも２つのチャンネルの標的音声データの数は、少なくとも３つのチャンネルの音声データの数以下である。サーバは、少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択できるため、音声データの数を減らして、第２端末に音声データを送信する際に、占有するネットワーク帯域を低減し、消費するデータ通信量を低減することができる。ここで、当該プリセット数は、通常の通話中に同時に話している最大人数をカウントすることによって決定されてもよいし、データ通信量のニーズに応じて決定されてもよい。

本願の実施例では、標的音声データの選択過程には、（１）～（３）の方法が含まれ得る。

（１）サーバは、少なくとも３つのチャンネルの音声データのＶＡＤ情報に応じて、少なくとも３つのチャンネルの音声データから、音声区間を含む少なくとも２つのチャンネルの標的音声データを選択する。

つまり、少なくとも３つのチャンネルの音声データから、ＶＡＤ情報に第１のＶＡＤ識別子が含まれている音声データを選択して、標的音声データとする。

サーバは、当該少なくとも３つのチャンネルの音声データをトラバースすることができ、現在トラバースしている音声データのＶＡＤ情報に第１のＶＡＤ識別子が含まれている否かを判断することができ、はいであれば、現在トラバースしている音声データを標的音声データとするとともに、当該少なくとも３つのチャンネルの音声データのトラバースが全部完了するまで、引き続き次のチャンネルの音声データをトラバースすると、少なくとも２つのチャンネルの標的音声データを選択できる。

例えば、１つの通話グループには、端末Ａ、端末Ｂ、端末Ｃ及び端末Ｄが含まれ、端末Ａ、端末Ｂ及び端末Ｃに対応するユーザが話しているが、端末Ｄに対応するユーザが話していない場合、端末Ａ、端末Ｂ及び端末Ｃが送信した音声データは音声区間を含むが、端末Ｄが送信した音声データは音声区間を備えなく、端末Ｃを受信端末とし、端末Ａ、端末Ｂ及び端末Ｄを送信端末とする場合、サーバは、端末Ａ、端末Ｂ及び端末Ｄが送信した３つのチャンネルの音声データから、端末Ａ、端末Ｂが送信した音声データを選択して、標的音声データとし、後続で、端末Ｄが送信した音声データを端末Ｃに送信するのではなく、端末Ａ、端末Ｂが送信した音声データを端末Ｃに送信する。

（２）サーバは、少なくとも３つのチャンネルの音声データのＶＡＤ情報及び音声エネルギーに応じて、少なくとも３つのチャンネルの音声データから、音声区間を含む音声データのうち音声エネルギーが最大のプリセット数の標的音声データを選択する。

ここで、プリセット数は、少なくとも３つのチャンネルの音声データの数よりも少ない。当該プリセット数は、１より大きく、かつ、少なくとも３つのチャンネルの音声データの数より小さい整数である。

サーバは、少なくとも３つのチャンネルの音声データのＶＡＤ情報に応じて、少なくとも３つのチャンネルの音声データから音声区間を含む音声データを選択してから、選択した音声データの音声エネルギーに応じて、選択した音声データから音声エネルギーが最大のプリセット数の標的音声データを選択することにより、選択した標的音声データが音声区間を含むとともに、選択した標的音声データの音声エネルギーが選択しなかった音声データの音声エネルギーよりも大きいことを保証する。

サーバが少なくとも３つのチャンネルの音声データから音声区間を含む音声データを選択する過程は、上記方法（１）に類似する。その後、サーバは、選択した多チャンネル音声データを、音声エネルギーにしたがって大きい順にソートし、ソートにしたって、前にある音声データをプリセット数分選択して、標的音声データとする。

例えば、プリセット数が２であり、第１端末Ａが送信した音声データの音声エネルギーが、第１端末Ｂが送信した音声データのエネルギーよりも大きく、第１端末Ｂが送信した音声データの音声エネルギーが、第１端末Ｃが送信した音声データのエネルギーよりも大きい場合、標的音声データとして、第１端末Ａが送信した音声データ及び第１端末Ｂが送信した音声データを選択することができる。

（３）サーバは、少なくとも３つのチャンネルの音声データのＶＡＤ情報及び音声エネルギーに応じて、少なくとも３つのチャンネルの音声データの排列順を取得し、かつ、音声区間を含む音声データが音声区間を含まない音声データの前に排列され、音声区間を含む音声データのうち、音声エネルギーの大きい音声データが音声エネルギーの小さい音声データの前に排列され、少なくとも３つのチャンネルの音声データの排列順にしたがって、ソート順が上位のプリセット数の標的音声データを選択する。

ここで、音声区間を含む音声データの数がプリセット数以上である場合、選択した標的音声データは、いずれも音声区間を含む音声データであり、音声区間を含む音声データの数がプリセット数よりも少ない場合、選択した標的音声データは、音声区間を含む音声データ及び音声区間を含まない音声データを含む。

なお、本願の実施例は、第２端末及び当該第２端末に対応する少なくとも３つの第１端末を例として説明したに過ぎず、同じ通話グループにおいて、各端末は、いずれも受信端末にすることも、送信端末にすることもできる。音声データのやり取りを容易にするために、計算量を減らし、通話グループについて、当該通話グループ内の少なくとも４つの端末がサーバに音声データを送信する場合、サーバは、少なくとも４つのチャンネルの音声データを受信し、少なくとも４つのチャンネルの音声データのＶＡＤ情報及び音声エネルギーに応じて、少なくとも４つのチャンネルの音声データの排列順を取得し、音声区間を含む音声データが音声区間を含まない音声データの前に排列され、音声区間を含む音声データのうち、音声エネルギーの大きい音声データが音声エネルギーの小さい音声データの前に排列される。

その後、そのうちの１つの端末を第２端末に決定するたびに、サーバは、取得した少なくとも４つのチャンネルの音声データの排列順から、当該第２端末が送信した音声データを削除し、それにより、残りの少なくとも３つのチャンネルの音声データの排列順を取得する。

こうすると、サーバは、１つの通話グループに対して、異なる第２端末を別々にソートすることを必要とせず、１回ソートするだけよいことを保証でき、計算量を減らし、処理速度が速くなった。

例えば、４つのチャンネルの音声データをソートした後、取得した排列順が順番に、端末Ａが送信した音声データ、端末Ｂが送信した音声データ、端末Ｃが送信した音声データ、端末Ｄが送信した音声データである場合、端末Ａを受信端末とすると、取得した他の３つのチャンネルの音声データの排列順は、順番に、端末Ｂが送信した音声データ、端末Ｃが送信した音声データ、端末Ｄが送信した音声データである。プリセット数が２である場合、標的音声データとして、ソート順が上位の２つの音声データ、即ち端末Ｂが送信した音声データ及び端末Ｃが送信した音声データを選択して、端末Ａに送信する。端末Ｂを受信端末とすると、取得した他の３つのチャンネルの音声データの排列順は、順番に、端末Ａが送信した音声データ、端末Ｃが送信した音声データ、端末Ｄが送信した音声データであり、標的音声データとして、ソート順が上位の２つの音声データ、即ち端末Ａが送信した音声データ及び端末Ｃが送信した音声データを選択して、端末Ｂに送信する。

別の可能な実施形態では、標的音声データの選択を容易にし、合理性を向上させるために、サーバに、標的音声データリスト及び候補音声データリストを設定してもよい。ここで、標的音声データリストは、選択した標的音声データを記憶するために用いられ、候補音声データリストは、選択されなかった音声データを記憶するために用いられる。

少なくとも３つのチャンネルの音声データのうちの第１音声データを例とすると、サーバは、第１音声データが音声区間を含むか否かに応じて、第１音声データを標的音声データリストに付加するか、又は候補音声データリストに付加するかを決定する。ここで、第１音声データは、少なくとも３つのチャンネルの音声データのうちのいずれか１つの音声データである。

第１音声データの処理過程は、以下の２つの場合を含む。

１つの場合：第１音声データが音声区間を含む。

標的音声データリストにプリセット数分の標的音声データしか記憶することができないため、第１音声データが音声区間を含む場合には、標的音声データリスト内の音声データの数がプリセット数に達したか否かを決定する必要もある。

（１）少なくとも３つのチャンネルの音声データにおける第１音声データが音声区間を含み、かつ、標的音声データリスト内の音声データの数がプリセット数に達していない場合、サーバが第１音声データを標的音声データリストに付加することは、現在、標的音声データとして第１音声データを選択したことを表す。

（２）第１音声データが音声区間を含むが、標的音声データリスト内の音声データの数がプリセット数に達した場合、サーバは、第１音声データの音声エネルギーと、標的音声データリスト内の音声エネルギーが最小の第２音声データの音声エネルギーとを比較する。

第１音声データの音声エネルギーが第２音声データの音声エネルギーよりも大きい場合、サーバは、第１音声データを標的音声データリストに付加し、第２音声データを標的音声データリストから除去することは、現在、標的音声データとして第１音声データが選択され、第２音声データはすでに標的音声データでないことを表す。ここで、第２音声データを捨てるか又は候補音声データリストに付加する。

第１音声データの音声エネルギーが第２音声データの音声エネルギーよりも小さい場合、サーバは、標的音声データリスト内の音声データをそのまま維持し、第１音声データを捨てるか、又は候補音声データリスト付加することは、現在、第１音声データを標的音声データとして選択せず、第２音声データを依然として標的音声データとすることを表す。

ここで、第２音声データは、少なくとも３つのチャンネルの音声データのうち、第１音声データと異なるいずれか１つの音声データである。

もう１つの場合：第１音声データが音声区間を含まない。

第１音声データが音声区間を含まない場合、第１音声データを候補音声データリストに付加することは、現在、第１音声データを標的音声データとしないことを表す。

ここで、候補音声データリストは、記憶する音声データの数について限定しない。

可能な実施形態において、候補音声データリストは、第１候補音声データリスト及び第２候補音声データリストを含み、第１候補音声データリストは、音声区間を含まず、かつ、対応する第１端末が指定端末である音声データを記憶するために用いられ、第２候補音声データリストは、音声区間を含まず、かつ、対応する第１端末が指定端末でない音声データを記憶するために用いられ、指定端末は、前に、送信した音声データが標的音声データとして選択されたことがある端末である。

任意選択で、第１音声データは、対応する第１端末の端末識別子を携帯する。サーバは、前に通話するときの標的音声データが携帯した端末識別子を取得し、第１音声データが携帯した端末識別子と、前の標的音声データが携帯した端末識別子とを比較し、前の標的音声データが携帯した端末識別子に、第１音声データが携帯した端末識別子が含まれていると、第１音声データに対応する第１端末は指定端末であると決定する。

第１音声データが音声区間を含まない場合、第１音声データを候補音声データリストに付加するステップは、
（１）第１音声データが音声区間を含まず、かつ、第１音声データに対応する第１端末が指定端末である場合、第１音声データを第１候補音声データリストに付加するステップと、
（２）第１音声データが音声区間を含まず、かつ、第１音声データに対応する第１端末が指定端末でない場合、第１音声データを第２候補音声データリストに付加するステップと、を含む。

４０４．サーバは、少なくとも２つのチャンネルの標的音声データを第２端末に送信する。

可能な実施形態において、サーバは、上記のステップ４０３で選択した少なくとも２つのチャンネルの標的音声データの選択可能な解決手段に基づいて、第２端末に当該少なくとも２つのチャンネルの標的音声データを送信する。

可能な実施形態において、サーバは、上記のステップ４０３で第１音声データを標的音声データリストに付加する選択可能な解決手段に基づいて、第２端末に標的音声データリスト内の標的音声データを送信する。

４０５．第２端末は、サーバが送信した少なくとも２つのチャンネルの標的音声データを受信し、少なくとも２つのチャンネルの標的音声データを復号化し、復号化された少なくとも２つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生する。

可能な実施形態において、図５を参照すると、第２端末は少なくとも２つのチャンネルの標的音声データを受信した後、対応する数の論理チャンネルを作成する。各論理チャンネルは、コードストリーム受信モジュール、ジッタバッファモジュール、デコーダ及び音声処理モジュールを含む。ここで、コードストリーム受信モジュールは、標的音声データを受信するために用いられ、ジッタバッファモジュールは、標的音声データに対してバッファ及び誤り訂正を行うために用いられ、デコーダは、標的音声データを復号化して、復号化された音声データを取得するために用いられ、音声処理モジュールは、復号化された音声データに対して利得調整又は音色調整を行うために用いられる。

論理チャンネルは、各標的音声データを処理した後、取得した少なくとも２つのチャンネルの標的音声データをミキシングモジュールでミキシングし、少なくとも２つのチャンネルの標的音声データを１つのチャンネルの音声データに併合し、再生モジュールが当該１つのチャンネルの音声データを再生する。

なお、本願の実施例は、１つのサーバを例としただけで、別の実施例では、端末は異なる地域に分布される可能性があるため、端末は、音声データを送信する際に、当該端末に最も近いサーバ又は速度が最も速いサーバを選択して接続する。したがって、異なる端末は、異なるサーバに接続できる。

例えば、第１サーバは、第２端末に接続し、第２サーバは第１端末に接続する。また、第１サーバも第１端末に接続することができる。

第２サーバは、少なくとも３つの第１端末が送信した少なくとも３つのチャンネルの音声データを受信し、第２サーバは、当該少なくとも３つのチャンネルの音声データを第１サーバに送信し、第１サーバは、第２サーバが送信した少なくとも３つのチャンネルの音声データを受信し、少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択して、当該少なくとも２つのチャンネルの標的音声データを第２端末に送信する。第２端末は、受信した少なくとも２つのチャンネルの標的音声データを復号化し、復号化された少なくとも２つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生する。

本願の実施例にて提供される方法は、少なくとも３つの第１端末がサーバに音声データを送信し、サーバ少なくとも３つの第１端末が送信した音声データを取得し、取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択して、第２端末に少なくとも２つのチャンネルの標的音声データを送信し、第２端末は、サーバが送信した少なくとも２つのチャンネルの標的音声データを受信し、少なくとも２つのチャンネルの標的音声データを復号化し、復号化された少なくとも２つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生する。当該方法は、受信した少なくとも３つのチャンネルの音声データから選択し、選択した標的音声データを端末に送信することにより、送信する音声データの数を減らし、それにより、送信中に占有するネットワーク帯域を低減し、消費するデータ通信量を節約し、音声データの伝送速度を向上させ、通話品質を向上させた。

さらに、本願の実施例では、第２端末で音声データをミキシングして、サーバが占有する計算リソースを低減し、サーバのリソース消費を低下させ、サーバの実行効率を向上させた。

さらに、本願の実施例は、分散処理を使用して、第１端末で音声データを処理してＶＡＤ情報及び音声エネルギーを取得し、サーバで音声データに対してチャンネル選択処理を行って標的音声データを取得し、第２端末で音声データを復号化及びミキシングし、第１端末、サーバ及び第２端末による音声データの分散処理により、占有する計算リソース及びネットワーク帯域を低減した。

また、関連技術において、サーバで音声データのミキシングを実現し、サーバは、受信した少なくとも３つのチャンネルの音声データを復号化及びミキシングし、その後、ミキシングされた音声データを１チャンネルの音声データとして第２端末に送信し、第２端末が、受信した音声データを再生すればよい。当該方法では、サーバが音声データを処理する必要があり、サーバが占有するリソースが増加した。

本願の実施例では、サーバは、音声データを復号化する操作を必要とせず、音声データを選択するだけでよく、サーバが占有する計算リソースを低減し、サーバによるリソース消費を低下させ、サーバが第２端末に送信する音声データの数を低減し、占有するネットワーク帯域を低減し、ネットワーク帯域に対する要求を低下させ、伝送速度を向上させ、通話品質を向上させた。そして、音声データを選択することにより、音声データにおける雑音をフィルタすることもできる。

上記の実施例に加え、可能な実施形態において、サーバは、第２端末のための対応する制御プログラムを作成し、サーバは、当該制御プログラムを実行することにより、少なくとも３つのチャンネルの音声データの指示情報に応じて、少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択する。ここで、制御プログラムは、第２端末に送信する標的音声データを選択するために用いられる。

サーバは、複数の端末に接続することができ、当該複数の端末は、同じ通話グループに位置してもよいし、異なる通話グループに位置してもよい。

例えば、図６を参照すると、端末１、端末２、端末３、端末４及び端末５は、同じ通話グループ内にあり、サーバは、端末１のための制御プログラムｘを作成し、制御プログラムｘが端末２、端末３、端末４及び端末５の音声データから標的音声データを選択して、端末１に送信する。端末ａ、端末ｂ、端末ｃ、端末ｄ及び端末ｅは、同じ通話グループ内にあり、サーバは、端末ａのための制御プログラムｙを作成し、制御プログラムｙが端末ｂ、端末ｃ、端末ｄ及び端末ｅの音声データから標的音声データを選択して、端末ａに送信する。

また、上記の実施例に加え、サーバには、チャンネル選択論理モジュールが設けられている。チャンネル選択論理モジュールは、解析ユニット、チャンネル選択アルゴリズムユニット及びチャンネル選択スイッチユニットを含み、解析ユニットは、音声データを解析してＶＡＤ情報及び音声エネルギーを得るために用いられ、チャンネル選択アルゴリズムユニットは、少なくとも３つのチャンネルの音声データからプリセット数の標的音声データを選択するために用いられ、チャンネル選択スイッチユニットは、選択した標的音声データを第２端末に送信するために用いられる。

例えば、図７を参照すると、プリセット数は３であり、端末１を第２端末とし、端末２、端末３、端末４、端末５及び端末６を第１端末とし、第１端末が音声データをサーバに送信した後、サーバは、チャンネル選択論理モジュールを使用して、５つの第１端末が送信した音声データから標的音声データを選択する。

ここで、送信された音声データは、データタイプ、ＶＡＤ情報、音声エネルギー、ペイロードデータ及び他の情報を携帯する。解析ユニットは、各音声データを解析して、各音声データのＶＡＤ情報及び音声エネルギーを取得し、チャンネル選択アルゴリズムユニットは、本願の実施例における標的音声データを選択するいずれか１つの実施形態に基づいて、端末２、端末３、端末４、端末５及び端末６の音声データから、端末２、端末４及び端末６の音声データを選択し、チャンネル選択スイッチユニットは、当該３つのチャンネルの音声データを端末１に送信する。

ここで、図８は、チャンネル選択アルゴリズムユニットのチャンネル選択アルゴリズムのフローチャートであり、図８を参照すると、それぞれチャンネル選択アルゴリズムを使用して、端末１～６の音声データから選択し、最終的に、音声データを標的音声データリスト、第１候補データリスト又は第２候補音声データリストに付加する。

音声データをトラバースし、下記のステップ（１）～ステップ（８）を使用して、音声データＮから選択する。

（１）音声データＮが音声区間を含むか否かを判断し、「はい」であれば、ステップ（２）を実行し、「いいえ」であれば、ステップ（５）を実行する。

（２）標的音声データリスト内の音声データの数が３つに達したか否かを判断し、「はい」であれば、ステップ（３）を実行し、「いいえ」であれば、ステップ（４）を実行する。

（３）音声データＮの音声エネルギーと、標的音声データリストのうち最小音声エネルギーとを比較し、音声データＮの音声エネルギーが標的音声データリストのうち最小音声エネルギーよりも大きい場合、最小音声エネルギーに対応する音声データＭを標的データリストから除去し、音声データＮを標的音声データリストに付加して、ステップ（８）を実行する。

（４）音声データＮを標的音声データリストに付加して、ステップ（８）を実行する。

（５）音声データＮが、前に標的音声データとして選択されたか否かを判断し、「はい」であれば、ステップ（６）を実行し、「いいえ」であれば、ステップ（７）を実行する。

（６）音声データＮを第１候補音声データリストに付加して、ステップ（８）を実行する。

（７）音声データＮを第２候補音声データリストに付加して、ステップ（８）を実行する。

（８）音声データＮが６つの音声データのうち最後の１つであるか否かを判断し、「はい」であれば、終了し、標的音声データリスト内の音声データが最終的に選択した標的音声データであり、「いいえ」であれば、ステップ（１）に戻って、音声データＮ＋１を選択する。

図９は、本願の実施例にて提供される別の通話方法のフローチャートである。本願の実施例のやり取りの主体は、第１端末、サーバ及び第２端末であり、図９を参照すると、当該方法は、ステップ９０１～９０６を含む。

９０１．少なくとも３つの第１端末がサーバに音声データを送信する。

９０２．サーバは、少なくとも３つの第１端末が送信した音声データを取得する。

上記の実施例のステップ４０１及びステップ４０２の実施形態に類似する。

９０３．サーバが少なくとも３つのチャンネルの音声データをトラバースし、少なくとも３つのチャンネルの音声データの指示情報に応じて、標的音声データリスト及び候補音声データリストを決定する。

サーバは、各チャンネルの音声データの指示情報に応じて、各チャンネルの音声データを標的音声データリスト又は候補音声データリストにそれぞれ付加して、標的音声データリスト及び候補音声データリストを決定する。ここで、標的音声データリストは、現在選択された音声データを記憶するために用いられ、候補音声データリストは、現在選択されなかった音声データを記憶するために用いられる。

サーバが各チャンネルの音声データを標的音声データリスト又は候補音声データリストに付加する実施形態は、上記の実施例において第１音声データを標的音声データリストに付加するか、又は候補音声データリストに付加する実施形態に類似する。

可能な実施形態において、候補音声データリストには、第１候補音声データリスト及び第２候補音声データリストが含まれ、第１候補音声データリストは、音声区間を含まず、かつ、対応する第１端末が指定端末である音声データを記憶するために用いられ、第２候補音声データリストは、音声区間を含まず、かつ、対応する第１端末が指定端末でない音声データを記憶するために用いられ、指定端末は、前に、送信した音声データが標的音声データとして選択された端末である。サーバが音声データを第１候補音声データリストに付加するか、又は第２候補音声データリストに付加する実施形態は、上記の実施例ステップ４０３における実施形態に類似する。

９０４．サーバが少なくとも３つのチャンネルの音声データのトラバースが完了した後、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、標的音声データリスト内の音声データの数がプリセット数と等しくなるように、候補音声データリストから少なくとも１つの音声データを選択して、標的音声データリストに付加する。

サーバは、当該少なくとも３つのチャンネルの音声データをトラバースすることができ、各チャンネルの音声データのいずれに対しても上記のステップ９０３を実行することができ、それにより、各チャンネルの音声データを標的音声データリスト又は候補音声データリストに付加する。当該少なくとも３つのチャンネルの音声データのトラバースが完了すると、標的音声データの予備選択が完了する。

本願の実施例では、標的音声データリスト及び候補音声データリストを設けて音声データを記憶し、選択された音声データを標的音声データリストに付加し、選択されていない音声データを候補音声データリストに付加し、より合理的になり、そして、サーバが第２端末に標的音声データを送信する際に、標的音声データリストから標的音声データを直接取得することができるため、標的音声データの送信がより容易になる。

さらに、予備選択が完了した後も、標的音声データリスト内の音声データの数がプリセット数に達していない可能性があることを考慮し、この場合、引き続き標的音声データを選択することができる。そのため、本願の実施例では、標的音声データリスト内の音声データの数がプリセット数に達していない場合、標的音声データリスト内の音声データの数がプリセット数と等しくなるように、候補音声データリストから音声データを選択して、標的音声データリストに付加することもできる。音声区間を含む音声データを優先的に選択することができ、数が足りないときに、音声区間を含まない音声データを補うこともでき、柔軟性が向上し、適用範囲が広がる。

上記の実施例における、音声データを第１候補音声データリストに付加するか又は第２候補音声データリストに付加する選択可能な方法に基づいて、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、サーバは、標的音声データリスト内の音声データの数がプリセット数と等しくなるように、第１候補音声データリスト又は第２候補音声データリストから、少なくとも１つの音声データを選択して、標的音声データリストに付加することができる。

可能な実施形態において、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、サーバは、標的音声データリスト内の音声データの数がプリセット数と等しくなるように、第１候補音声データリストから少なくとも１つの音声データを選択して、標的音声データリストに付加する。

ここで、第１候補音声データリストに候補音声データが十分多いため、サーバが第１候補音声データリストから少なくとも１つの音声データを選択して、標的音声データリストに付加するだけで、標的音声データリスト内の音声データの数がプリセット数と等しくなることができる。

標的音声データリスト内の音声データの数とプリセット数との差がＮ個であると仮定すると、第１候補音声データリストから音声データを選択する際に、Ｎ個の音声データを任意に選択することができ、当該Ｎ個の音声データを標的音声データリストに付加する。又は、第１候補音声データリスト内の音声データに対応する指定端末の前に選択された回数に基づいて、回数が最も多いＮ個の音声データを選択して、標的音声データリストに付加する。又は、他の方法を使用して、第１候補音声データリストからＮ個の音声データを選択して、標的音声データリストに付加してもよい。

別の可能な実施形態では、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、サーバは、第１候補音声データリスト内の音声データを、いずれも標的音声データリストに付加し、そして、音声データを付加した後、標的音声データリスト内の音声データの数がプリセット数以下であり、サーバは、第２標的音声データリスト内の音声データの数がプリセット数と等しくなるように、候補音声データリストから少なくとも１つの音声データを選択して、標的音声データリストに付加する。

第１候補音声データリスト内の音声データを全部標的音声データリストに付加した後、標的音声データリスト内の音声データの数とプリセット数との差がＭ個であると仮定すると、第２候補音声データリストから音声データを選択する際に、Ｍ個の音声データを任意に選択してもよいし、他の方法を使用してＭ個の音声データを選択してもよく、選択したＭ個の音声データを標的音声データリストに付加する。

また、標的音声データを選択する際に、現在送信する音声データのみに応じて標的音声データを選択する。１つの通話グループにおいて、通話の連続性から、現時点では、ある人物が直前の時点で話していたならば、その人物が現時点で話していなくても、次の時点で話す確率が高く、ある人物が直前まで話していなく、現時点でもその人物が話していなければ、その人物が次の時点で話す確率は低い。

本願の実施例では、第１候補音声データリスト内の音声データは、前に、送信した音声データが標的音声データとして選択された端末が送信したものであり、つまり、前に話していたユーザが出した音声データである。第２候補音声データリスト内の音声データは、前に、送信した音声データが標的音声データとして選択されなかった端末が送信したものであり、つまり、前に話していないユーザが出した音声データである。

前の通話状況に応じて、前に話したユーザが出した音声データと、前に話していないユーザが出した音声データとを、それぞれ異なる候補音声データリストに付加し、優先的に第１候補音声データリスト内の音声データを選択して標的音声データリストに付加し、数が足りない場合、第２候補音声データリスト内の音声データを選択して標的音声データリストに付加する。このような方法を使用すると、音声データの選択が、より合理的になり、そして、音声通話時の実際の状況を考慮して、選択した標的音声データがより正確であることを保証し、ユーザのニーズをより満たすことができる。

なお、サーバが少なくとも３つのチャンネルの音声データのトラバースが完了した後、標的音声データリスト内の音声データの数がプリセット数に等しくなると、すでに標的音声データリストを決定したため、ステップ９０４を実行する必要がない。

９０５．サーバは、少なくとも２つのチャンネルの標的音声データを第２端末に送信する。

９０６．第２端末は、少なくとも２つのチャンネルの標的音声データを受信し、少なくとも２つのチャンネルの標的音声データを復号化し、復号化された少なくとも２つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生する。

サーバが第２端末に、標的音声データリスト内のプリセット数の標的音声データを送信し、第２端末は、プリセット数の標的音声データを受信し、当該プリセット数の標的音声データを復号化し、復号化されたプリセット数の標的音声データをミキシングし、処理後の音声データを再生する。

標的音声データの処理方法は、上記の実施例のステップ４０５の実施形態に類似する。

本願の実施例にて提供される方法は、少なくとも３つの第１端末がサーバに音声データを送信し、サーバは、少なくとも３つの第１端末が送信した音声データを取得し、少なくとも３つのチャンネルの音声データをトラバースし、少なくとも３つのチャンネルの音声データの指示情報に応じて、標的音声データリスト及び候補音声データリストを決定し、少なくとも３つのチャンネルの音声データのトラバースが完了した後、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、標的音声データリスト内の音声データの数がプリセット数に等しくなるように、候補音声データリストから少なくとも１つの音声データを選択して、標的音声データリストに付加し、サーバは、第２端末に少なくとも２つのチャンネルの標的音声データを送信し、第２端末は、サーバが送信した少なくとも２つのチャンネルの標的音声データを受信し、少なくとも２つのチャンネルの標的音声データを復号化し、復号化された少なくとも２つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生する。当該方法では、サーバは、標的音声データリスト及び候補音声データリストを決定し、かつ、標的音声データリスト内の音声データがプリセット数に達するようにするため、プリセット数の標的音声データを第２端末に送信し、送信する音声データの数を減らし、送信中に占有するネットワーク帯域を低減し、必要なデータ通信量が少なく、音声データの伝送速度、及び音声データの品質が向上した。

図１０は、本願の実施例にて提供される通話装置の構造の模式図である。図１０を参照すると、当該装置は、取得モジュール１００１、選択モジュール１００２及び送信モジュール１００３を含む。通話装置に含まれる各モジュールは、全部又は一部がソフトウェア、ハードウェア又はそれらの組み合わせによって実装され得る。

取得モジュール１００１は、少なくとも３つの第１端末が送信した、指示情報を携帯する音声データを取得するために用いられ、指示情報は、少なくとも音声区間検出（ＶＡＤ）情報を含み、ＶＡＤ情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる。

選択モジュール１００２は、取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択するために用いられ、少なくとも２つのチャンネルの標的音声データの数は少なくとも３つのチャンネルの音声データの数よりも少ない。

送信モジュール１００３は、少なくとも２つのチャンネルの標的音声データを第２端末に送信するために用いられ、第２端末は、少なくとも２つのチャンネルの標的音声データを復号化し、復号化された少なくとも２つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる。

ここで、第２端末は、通話グループ内のいずれか１つの端末であり、少なくとも３つの第１端末は、通話グループ内の第２端末と異なる端末である。

一実施例では、図１１を参照すると、選択モジュール１００２は、
少なくとも３つのチャンネルの音声データのＶＡＤ情報に応じて、少なくとも３つのチャンネルの音声データから、音声区間を含む少なくとも２つのチャンネルの標的音声データを選択するための第１選択ユニット１００４を含む。

一実施例では、指示情報には音声エネルギーが含まれ、図１１を参照すると、選択モジュール１００２は、
少なくとも３つのチャンネルの音声データのＶＡＤ情報及び音声エネルギーに応じて、少なくとも３つのチャンネルの音声データから、音声区間を含む音声データのうち音声エネルギーが最大のプリセット数の標的音声データを選択するために用いられ、プリセット数は少なくとも３つのチャンネルの音声データの数よりも少ない、第２選択ユニット１００５を含む。

一実施例では、指示情報には音声エネルギーが含まれ、図１１を参照すると、選択モジュール１００２は、
少なくとも３つのチャンネルの音声データのＶＡＤ情報及び音声エネルギーに応じて、少なくとも３つのチャンネルの音声データの排列順を取得するために用いられ、音声区間を含む音声データが音声区間を含まない音声データの前に排列され、音声区間を含む音声データのうち、音声エネルギーの大きい音声データが音声エネルギーの小さい音声データの前に排列される、第３選択ユニット１００６を含み、
第３選択ユニット１００６は、さらに、少なくとも３つのチャンネルの音声データの排列順にしたがって、ソート順が上位のプリセット数の標的音声データを選択するために用いられ、プリセット数は少なくとも３つのチャンネルの音声データの数よりも少ない。

一実施例では、図１１を参照すると、選択モジュール１００２は、
少なくとも３つのチャンネルの音声データのうちの第１音声データが音声区間を含み、標的音声データリスト内の音声データの数がプリセット数に達していない場合、第１音声データを標的音声データリストに付加するために用いられ、標的音声データリストは、選択した標的音声データを記憶するために用いられ、プリセット数は少なくとも３つのチャンネルの音声データの数よりも少ない、第１付加ユニット１００７を含む。

一実施例では、図１１を参照すると、選択モジュール１００２は、さらに、
第１音声データが音声区間を含むが、標的音声データリスト内の音声データの数がすでにプリセット数に達した場合、第１音声データの音声エネルギーと、標的音声データリスト内の音声エネルギーが最小の第２音声データの音声エネルギーとを比較するための比較ユニット１００８と、
第１音声データの音声エネルギーが第２音声データの音声エネルギーよりも大きい場合、第１音声データを標的音声データリストに付加するための第２付加ユニット１００９と、
第２音声データを標的音声データリストから除去するための除去ユニット１０１０と、を含む。

一実施例では、図１１を参照すると、選択モジュール１００２は、さらに、
第１音声データが音声区間を含まない場合、第１音声データを候補音声データリストに付加するための第３付加ユニット１０１１を含む。

一実施例では、候補音声データリストが第１候補音声データリストを含み、第３付加ユニット１０１１は、さらに、第１音声データが音声区間を含まず、かつ、第１音声データに対応する第１端末が指定端末である場合、第１音声データを第１候補音声データリストに付加するために用いられ、指定端末は、前に、送信した音声データが標的音声データとして選択された端末である。

一実施例では、候補音声データリストが第２候補音声データリストを含み、第３付加ユニット１０１１は、さらに、第１音声データが音声区間を含まず、かつ、第１音声データに対応する第１端末が指定端末でない場合、第１音声データを第２候補音声データリストに付加するために用いられ、指定端末は、前に、送信した音声データが標的音声データとして選択された端末である。

一実施例では、図１１を参照すると、選択モジュール１００２は、
少なくとも３つのチャンネルの音声データをトラバースし、少なくとも３つのチャンネルの音声データの指示情報に応じて、標的音声データリスト及び候補音声データリストを決定するために用いられ、標的音声データリストは、現在選択された音声データを記憶するために用いられ、候補音声データリストは、現在選択されていない音声データを記憶するために用いられる、トラバースユニット１０１２と、
少なくとも３つのチャンネルの音声データのトラバースが完了した後、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、標的音声データリスト内の音声データの数がプリセット数と等しくなるように、候補音声データリストから少なくとも１つの音声データを選択して、標的音声データリストに付加するために用いられ、プリセット数は少なくとも３つのチャンネルの音声データの数よりも少ない、第４選択ユニット１０１３と、を含む。

一実施例では、候補音声データリストは、第１候補音声データリスト及び第２候補音声データリストを含み、第１候補音声データリストは、音声区間を含まず、かつ、対応する第１端末が指定端末である音声データを記憶するために用いられ、第２候補音声データリストは、音声区間を含まず、かつ、対応する第１端末が指定端末でない音声データを記憶するために用いられ、指定端末は、前に、送信した音声データが標的音声データとして選択された端末である。

一実施例では、第４選択ユニット１０１３は、さらに、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、第１標的音声データリスト内の音声データの数がプリセット数と等しくなるように、候補音声データリストから少なくとも１つの音声データを選択して、標的音声データリストに付加するために用いられる。

一実施例では、第４選択ユニット１０１３は、さらに、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、第１候補音声データリスト内の音声データを全部標的音声データリストに付加することであって、音声データを付加した後、標的音声データリストの音声データの数がプリセット数以下である、ことと、標的音声データリスト内の音声データの数がプリセット数と等しくなるように、第２候補音声データリストから少なくとも１つの音声データを選択して、標的音声データリストに付加することとのために用いられる。

一実施例では、音声データのＶＡＤ情報に音声データの各音声フレームのＶＡＤ識別子が含まれ、通話装置は、さらに、
音声データのＶＡＤ情報に第１のＶＡＤ識別子が含まれている場合、音声データが音声区間を含むと決定するための決定モジュール１０１４を含み、
決定モジュール１０１４は、さらに、音声データのＶＡＤ情報に第１のＶＡＤ識別子が含まれていない場合、音声データが音声区間を含まないと決定するために用いられ、
ここで、第１のＶＡＤ識別子は、対応する音声フレームが音声区間であることを指示するために用いられる。

一実施例では、通話装置は、第１サーバに適用され、第１サーバは、第２端末が接続されるサーバであり、図１１を参照すると、取得モジュール１００１は、
第２サーバが送信した音声データを受信するために用いられ、音声データは、第１端末によって第２サーバに送信され、第２サーバは、第１端末が接続されるサーバである、受信ユニット１０１５を含む。

一実施例では、図１１を参照すると、選択モジュール１００２は、
第２端末のための対応する制御プログラムを作成するための作成ユニット１０１６と、
制御プログラムを実行することにより、少なくとも３つのチャンネルの音声データの指示情報に応じて、少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択するための第５選択ユニット１０１７と、を含む。

なお、上記の実施例にて提供される通話装置で通話する場合、上記の各機能モジュールの分割を例として説明したに過ぎず、実際の適用では、必要に応じて、上記の機能を異なる機能モジュールで行うように割り当て、即ち、サーバの内部構造を、異なる機能モジュールに分割して、以上に説明した全部又は一部の機能を完了することができる。また、上記の実施例にて提供される通話装置は、通話方法の実施例と同じの構想に属し、具体的な実施プロセスの詳細は、方法の実施例を参照されたい。

図１２は、本願の例示的な一実施例にて提供される端末１２００の構造の模式図である。

一般に、端末１２００は、プロセッサ１２０１及びメモリ１２０２を含む。

プロセッサ１２０１は、例えば４コアプロセッサ、８コアプロセッサなどの１つ又は複数の処理コアを含んでもよい。プロセッサ１２０１は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、デジタル信号処理）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ））、ＰＬＡ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ、プログラマブルロジックアレイ）のうちの少なくとも１つのハードウェアの形で実装されてもよい。プロセッサ１２０１は、メインプロセッサ及びコプロセッサを含んでもよく、メインプロセッサは、ウェイク状態でのデータを処理するためのプロセッサであり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置）とも呼ばれ、コプロセッサは、待機状態でのデータを処理するための低消費電力プロセッサである。一部の実施例では、プロセッサ１２０１には、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、グラフィックス処理ユニット）が組み込まれてもよく、ＧＰＵは、ディスプレイに表示しようとするコンテンツのレンダリング及び描画を担当するために用いられる。一部の実施例では、プロセッサ１２０１は、さらに、機械学習に関する演算操作を処理するためのＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）プロセッサを含んでもよい。

メモリ１２０２は、１つ又は複数のコンピュータ可読記憶媒体を含んでもよく、当該コンピュータ可読記憶媒体は、非一時的なものであってもよい。メモリ１２０２は、さらに、高速ランダムアクセスメモリと、例えば１つ又は複数のディスク記憶媒機器、フラッシュメモリ記憶機器などの不揮発性メモリと、を含んでもよい。一部の実施例では、メモリ１２０２内の非一時的なコンピュータ可読記憶媒体は、少なくとも１つのプログラムコードを記憶するために用いられ、当該少なくとも１つのプログラムコードは、プロセッサ１２０１によって実行されることで、本願の方法の実施例にて提供される通話方法を実現する。

一部の実施例では、機器１２００は、任意選択で、周辺機器インターフェース１２０３及び少なくとも１つの周辺機器をさらに含む。プロセッサ１２０１、メモリ１２０２及び周辺機器インターフェース１２０３は、バス又は信号線を介して互いに接続されてもよい。各周辺機器は、バス、信号線又は回路基板を介して周辺機器インターフェース１２０３に接続されてもよい。具体的には、周辺機器は、無線周波数回路１２０４、タッチディスプレイ１２０５、カメラ１２０６、オーディオ回路１２０７、測位コンポーネント１２０８及び電源１２０９のうちの少なくとも１つを含む。

周辺機器インターフェース１２０３は、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、入力／出力）に関する少なくとも１つの周辺機器をプロセッサ１２０１及びメモリ１２０２に接続するために使用してもよい。一部の実施例では、プロセッサ１２０１、メモリ１２０２及び周辺機器インターフェース１２０３は、同一のチップ又は回路基板上に集積され、他の一部の実施例では、プロセッサ１２０１、メモリ１２０２及び周辺機器インターフェース１２０３のうちのいずれか１つ又は２つは、個別のチップ又は回路基板上に実装されてもよく、本実施例では、これに対して限定しない。

無線周波数回路１２０４は、電磁信号とも呼ばれるＲＦ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、周波数）信号を受送信するために用いられる。無線周波数回路１２０４は、電磁信号を介して通信ネットワーク及び他の通信機器と通信する。無線周波数回路１２０４は、電気信号を電磁信号に変換して送信したり、受信した電磁信号を電気信号に変換したりする。任意選択で、無線周波数回路１２０４は、アンテナシステム、ＲＦトランシーバ、１つ又は複数の増幅器、チューナ、発振器、デジタル信号プロセッサ、コーデックチップセット、及びユーザ識別モジュールカードなどを含む。無線周波数回路１２０４は、少なくとも１つの無線通信プロトコルを介して他の機器と通信することができる。当該無線通信プロトコルは、メトロポリタンエリアネットワーク、各世代移動通信ネットワーク（２Ｇ、３Ｇ、４Ｇ及び８Ｇ）、無線ローカルエリアネットワーク及び／又はＷｉ－Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ、ワイヤレス・フィディリティー）ネットワークを含むが、これらに限定されない。一部の実施例では、無線周波数回路１２０４は、さらに、ＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ、近距離無線通信）に関する回路を含んでもよく、本願は、これに対して限定しない。

ディスプレイ１２０５は、ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ、ユーザインタフェース）を表示するために用いられる。当該ＵＩは、図形、テキスト、アイコン、ビデオ、及びこれらの任意の組み合わせを含んでもよい。ディスプレイ１２０５がタッチディスプレイである場合、ディスプレイ１２０５は、ディスプレイ１２０５の表面又は表面の上方のタッチ信号を収集する能力も有する。当該タッチ信号は、制御信号としてプロセッサ１２０１に入力されて処理されてもよい。この場合、ディスプレイ１２０５ソフトボタン及び／又はソフトキーボードとも呼ばれる仮想ボタン及び／又は仮想キーボードを提供するために用いられてもよい。一部の実施例では、ディスプレイ１２０５は、１つであってもよく、端末１２００のフロントパネルに設けられてもよい。別の一部の実施例では、ディスプレイ１２０５は、少なくとも２つであってもよいし、それぞれ端末１２００の異なる表面に設けられたり、折り畳まれるように設計されたりしてもよい。他の一部の実施例では、ディスプレイ１２０５は、端末１２００の湾曲面又は折り畳み面に設けられるフレキシブルなディスプレイであってもよい。ひいては、ディスプレイ１２０５は、非矩形の不規則な図形、即ち異形ディスプレイに設けられてもよい。ディスプレイ１２０５は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、液晶ディスプレイ）、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ、有機発光ダイオード）などの材質を用いて製造されてもよい。

カメラコンポーネント１２０６は、画像又はビデオを収集する。任意選択で、カメラコンポーネント１２０６は、フロントカメラとリアカメラとを含む。一般的に、フロントカメラは、端末１２００末のフロントパネルに設けられ、リアカメラは、端末１２００の背面に設けられる。一部の実施例では、リアカメラは、少なくとも２つあり、それぞれメインカメラ、デプスカメラ、広角カメラ、望遠カメラのうちの任意の１種類であり、これにより、メインカメラ及びデプスカメラを組み合わせて実現される背景ボケの機能、メインカメラ及び広角カメラを組み合わせて実現されるパノラマ撮影及びＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ、仮想現実）撮影の機能、又はその他の組み合わせ撮影の機能を実現する。一部の実施例では、カメラコンポーネント１２０６は、フラッシュをさらに含んでもよい。フラッシュは、単一色温度フラッシュであってもよいし、二重色温度フラッシュであってもよい。二重色温度フラッシュは、暖色系のフラッシュと寒色系のフラッシュとの組み合わせを指し、異なる色温度での光の補償に用いることができる。

オーディオ回路１２０７は、マイクロホン及びスピーカーを含んでもよい。マイクロホンは、ユーザ及び環境の音波を収集し、音波を電気信号に変換し、電気信号を、処理のためにプロセッサ１２０１に入れて処理するか、又は、音声通信を実現するために無線周波数回路１２０４に入力する。マイクロホンは、ステレオ収集又はノイズ低減のために、複数であってもよく、端末１２００の異なる部位にそれぞれ設けられてもよい。マイクロホンは、アレイマイクロホン又は全指向性マイクロホンであってもよい。スピーカーは、プロセッサ１２０１又は無線周波数回路１２０４からの電気信号を音波に変換する。スピーカーは、従来のフィルムスピーカーであってもよいし、圧電セラミックスピーカーであってもよい。スピーカーが圧電セラミックスピーカーである場合に、電気信号を人間に聞こえる音波に変換できるだけでなく、距離測定などの用途のために、電気信号を人間に聞こえない音波に変換できる。一部の実施例では、オーディオ回路１２０７は、イヤホンジャックをさらに含んでもよい。

測位コンポーネント１２０８は、ナビゲーション又はＬＢＳ（ＬｏｃａｔｉｏｎＢａｓｅｄＳｅｒｖｉｃｅ、位置情報サービス）を実現するために、端末１２００の現在の地理的位置を測位するために用いられる。測位コンポーネント１２０８は、米国のＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ、全地球測位システム）、中国の北斗システム、ロシアのグロナスシステム、又は欧州連合のガリレオシステムに基づく測位コンポーネントであってもよい。

電源１２０９は、端末１２００内の各コンポーネントに電力を供給するために用いられる。電源１２０９は、交流電力、直流電力、一次電池、又は充電式電池であってもよい。電源１２０９に充電式電池が含まれる場合、当該充電式電池は、有線充電又は無線充電のいずれかをサポートすることができる。当該充電式電池は、急速充電技術をサポートするために用いられてもよい。

一部の実施例では、端末１２００は、１つ又は複数のセンサ１２１０をさらに含む。当該１つ又は複数のセンサ１２１０は、加速度センサ１２１１、ジャイロセンサ１２１２、圧力センサ１２１３、指紋センサ１２１４、光学センサ１２１５及び近接センサ１２１６を含むが、これらに限定されない。

加速度センサ１２１１は、端末１２００で確立された座標系の３つの座標軸上の加速度の大きさを検出することができる。例えば、加速度センサ１２１１は、重力加速度の３つの座標軸の成分を検出するために用いられてもよい。プロセッサ１２０１は、加速度センサ１２１１で収集された重力加速度信号に基づいて、タッチディスプレイ１２０５が横方向のビュー又は縦方向のビューでユーザインタフェースの表示を行うように制御してもよい。加速度センサ１２１１は、さらに、ゲーム又はユーザの運動データの収集に用いられてもよい。

ジャイロセンサ１２１２は、端末１２００の機体の方向及び回転角度を検出することができ、ジャイロセンサ１２１２は、加速度センサ１２１１と協働して、端末１２００対するユーザの３Ｄ動作を収集することができる。プロセッサ１２０１は、ジャイロセンサ１２１２で収集されたデータに基づいて、動作感知（例えば、ユーザの傾き操作に応じてＵＩを変更する）、撮影時の画像安定化、ゲーム制御、及び慣性航法の機能を実現することができる。

圧力センサ１２１３は、端末１２００のサイドフレーム及び／又はタッチディスプレイ１２０５の下層に設けられてもよい。圧力センサ１２１３は、端末１２００のサイドフレームに設けられる場合、端末１２００に対するユーザの把持信号を検出することができ、プロセッサ１２０１は、圧力センサ１２１３で収集された把持信号に基づいて、左右手の識別又はショートカット操作を行う。圧力センサ１２１３がタッチディスプレイ１２０５の下層に設けられる場合、プロセッサ１２０１は、タッチディスプレイ１２０５に対するユーザの圧力操作に基づいて、ＵＩ上の操作可能なコントロールユニットへの制御を実現する。操作可能なコントロールユニットは、ボタンコントロールユニット、スクロールバーコントロールユニット、アイコンコントロールユニット、メニューコントロールユニットのうちの少なくとも１種類を含む。

指紋センサ１２１４は、ユーザの指紋を収集し、プロセッサ１２０１が、指紋センサ１４１４で収集された指紋に基づいて、ユーザのアイデンティティを識別し、又は、指紋センサ１２１４が、収集された指紋に基づいて、ユーザのアイデンティティを識別する。ユーザのアイデンティティが、信頼できるアイデンティティであると識別された場合、プロセッサ１２０１は、当該ユーザが関連のセンシティブな操作を実行することを許可し、当該センシティブな操作は、画面のロック解除、暗号化情報の閲覧、ソフトウェアのダウンロード、支払い、及び設定変更などを含む。指紋センサ１２１４は、端末１２００正面、背面、又は側面に設けられてもよい。当端末１２００に物理キー又はメーカーロゴが設けられる場合、指紋センサ１２１４は、物理キー又はメーカーロゴと一体化されてもよい。

光学センサ１２１５は、環境光の強度を収集する。一実施例では、プロセッサ１２０１は、光学センサ１２１５で収集された環境光の強度に応じて、タッチディスプレイ１２０５の表示輝度を制御してもよい。具体的には、環境光の強度が高い場合に、タッチディスプレイ１２０５の表示輝度を高くし、環境光の強度が低い場合に、タッチディスプレイ１２０５の表示輝度を低くする。別の実施例では、プロセッサ１２０１は、光学センサ１２１５で収集された環境光の強度に応じて、カメラコンポーネント１２０６の撮影パラメータを動的に調整してもよい。

近接センサ１２１６は、距離センサとも呼ばれ、通常、端末１２００のフロントパネルに設けられる。近接センサ１２１６は、ユーザと端末１２００の正面との距離を収集する。一実施例では、近接センサ１２１６が、ユーザと端末１２００の正面との距離が徐々に小さくなることを検出すると、プロセッサ１２０１は、タッチディスプレイ１２０５を点灯状態から消灯状態に切り替えるように制御し、近接センサ１２１６が、ユーザと端末１２００の正面との距離が徐々に大きくなることを検出すると、プロセッサ１２０１は、タッチディスプレイ１２０５を消灯状態から点灯状態に切り替えるように制御する。

当業者であれば理解できるように、図１２に示す構造は、端末１２００を限定するもではなき、端末１２００は、図示より多く又は少ないコンポーネントを含んでもよく、あるいはいくらかのコンポーネントを組み合わせたものであってもよく、あるいはコンポーネントの異なる配置を採用してもよい。

図１３は、本願の実施例にて提供されるサーバの構造の模式図であり、当該サーバ１３００は、構成又は性能の違いにより比較的大きな差が発生することができ、１つ又は１つ以上のプロセッサ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ、ＣＰＵ）１３０１及び１つ又は１つ以上のメモリ１３０２を含んでもよく、ここで、前記メモリ１３０２には、少なくとも１つのプログラムコードが設けられ、前記少なくとも１つのプログラムコードは、上記の各方法の実施例にて提供される方法を実現するために、前記プロセッサ１３０１によってロードされて実行される。無論、当該サーバは、入出力を行うために、有線又は無線ネットワークインターフェース、キーボード及び入力出力インターフェースなどの部材をさらに有してもよく、当該サーバは、他の機器機能を実装するための部材をさらに含んでもよく、ここでは詳細な説明を省略する。

サーバ１３００は、上記の通話方法におけるサーバ、第１サーバ及び第２サーバによって実行されるステップに使用されることができる。

本願の実施例は、ミキシングのためのサーバをさらに提供し、サーバはメモリ及びプロセッサを含み、メモリにはコンピュータ可読命令が記憶されており、コンピュータ可読命令がプロセッサによって実行されると、プロセッサが上記の通話方法のステップを実行する。ここの通話方法のステップは、上記の各実施例の通話方法におけるステップであり得る。

本願の実施例は、コンピュータ可読記憶媒体をさらに提供し、コンピュータ可読記憶媒体にはコンピュータ可読命令が記憶されており、コンピュータ可読命令がプロセッサによって実行されると、プロセッサが上記の通話方法のステップを実行する。ここの通話方法のステップは、上記の各実施例の通話方法におけるステップであり得る。

本願の実施例は、コンピュータプログラムをさらに提供し、当該コンピュータプログラムは、少なくとも１つのコンピュータ可読命令を含み、当該少なくとも１つのコンピュータ可読命令がプロセッサによってロードされて実行されると、プロセッサが上記の通話方法のステップを実行する。ここの通話方法のステップは、上記の各実施例の通話方法におけるステップであり得る。

当業者であれば理解できるように、上記の実施例の方法の全部又は一部のフローの実現は、コンピュータ可読命令で関連のハードウェアを指示して完了することができ、前記プログラムは、不揮発性コンピュータ可読記憶媒体に記憶されてもよく、当該プログラムは、実行される際に、上記の各方法の実施例のフローを含んでもよい。ここで、本願にて提供される各実施例に使用されるメモリ、ストレージ、データベース、または他の媒体への任意の参照は、不揮発性および／または揮発性メモリを含み得る。不揮発性メモリは、読み取り専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）又は外部キャッシュメモリを含み得る。限定ではなく例示として、ＲＡＭは、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、エンハンストＳＤＲＡＭ（ＥＳＤＲＡＭ）、シンクロナス（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、メモリバス（Ｒａｍｂｕｓ）直接ＲＡＭ（ＲＤＲＡＭ）、ダイレクトメモリバスダイナミックＲＡＭ（ＤＲＤＲＡＭ）、及びメモリバスダイナミックＲＡＭ（ＲＤＲＡＭ）など、様々な形態で利用可能である。

以上の実施例の各技術的特徴に対して、任意に組み合わせを行ってもよく、記載を簡潔にするために、上記の実施例の各技術的特徴の全ての可能な組み合わせを記載していないが、これらの技術的特徴の組合せはいずれも、矛盾が生じない限り、本明細書の記載範囲であると認められる。

以上の実施例は、本願のいくつかの実施形態を表すだけで、その記載が具体的且つ詳しいが、これを理由で、発明の特許範囲に対する限定と理解されることができない。当業者にとって、本出願の構想から逸脱しない前提で、さらに、若干の変形及び改良を行ってもよく、これらはいずれも本出願の保護範囲に当該当すべきであることに留意されたい。従って、本出願特許の保護範囲は、添付の特許請求の範囲を基準とする。

１０１端末
１０２サーバ
１０３制御サーバ
３０１端末
３０２第１サーバ
３０３第２サーバ
１００１取得モジュール
１００２選択モジュール
１００３送信モジュール
１００４第１選択ユニット
１００５第２選択ユニット
１００６第３選択ユニット
１００７第１付加ユニット
１００８比較ユニット
１００９第２付加ユニット
１０１０除去ユニット
１０１１第３付加ユニット
１０１２トラバースユニット
１０１３第４選択ユニット
１０１４決定モジュール
１０１５受信ユニット
１０１６作成ユニット
１０１７第５選択ユニット
１２００端末
１２０１プロセッサ
１２０２メモリ
１２０３周辺機器インターフェース
１２０４無線周波数回路
１２０５ディスプレイ
１２０６カメラコンポーネント
１２０７オーディオ回路
１２０８測位コンポーネント
１２０９電源
１２１０センサ
１２１１加速度センサ
１２１２ジャイロセンサ
１２１３圧力センサ
１２１４指紋センサ
１２１５光学センサ
１２１６近接センサ
１３００サーバ
１３０１プロセッサ
１３０２メモリ

Claims

サーバによって実行される通話方法であって、
少なくとも３つの第１端末が送信した音声データを取得するステップであって、前記音声データは指示情報を携帯し、前記指示情報は、少なくとも音声区間検出（ＶＡＤ）情報を含み、前記ＶＡＤ情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる、ステップと、
取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、前記少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択するステップであって、前記少なくとも２つのチャンネルの標的音声データの数は、前記少なくとも３つのチャンネルの音声データの数よりも少ない、ステップと、
前記少なくとも２つのチャンネルの標的音声データを第２端末に送信するステップであって、前記第２端末は、前記少なくとも２つのチャンネルの標的音声データを復号化し、復号化された少なくとも２つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる、ステップと、を含み、
前記第２端末は、通話グループ内のいずれか１つの端末であり、前記少なくとも３つの第１端末は、前記通話グループ内の前記第２端末と異なる端末である、
ことを特徴とする通話方法。
取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、前記少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択する前記ステップは、
取得した少なくとも３つのチャンネルの音声データのＶＡＤ情報に応じて、前記少なくとも３つのチャンネルの音声データから音声区間を含む少なくとも２つのチャンネルの標的音声データを取得するステップを含む、
ことを特徴とする請求項１に記載の通話方法。
前記指示情報には音声エネルギーが含まれ、取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、前記少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択する前記ステップは、
取得した少なくとも３つのチャンネルの音声データのＶＡＤ情報及び音声エネルギーに応じて、前記少なくとも３つのチャンネルの音声データから、音声区間を含む音声データのうち、前記音声エネルギーが最大のプリセット数の標的音声データを選択するステップであって、前記プリセット数は、前記少なくとも３つのチャンネルの音声データの数よりも少ない、ステップを含む、
ことを特徴とする請求項１に記載の通話方法。
前記指示情報には音声エネルギーが含まれ、取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、前記少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択する前記ステップは、
取得した少なくとも３つのチャンネルの音声データのＶＡＤ情報及び音声エネルギーに応じて、前記少なくとも３つのチャンネルの音声データの排列順を取得するステップであって、音声区間を含む音声データが音声区間を含まない音声データの前に排列され、前記音声区間を含む音声データのうち、音声エネルギーの大きい音声データが音声エネルギーの小さい音声データの前に排列される、ステップと、
前記少なくとも３つのチャンネルの音声データの排列順にしたがって、ソート順が上位のプリセット数の標的音声データを選択するステップであって、前記プリセット数は、前記少なくとも３つのチャンネルの音声データの数よりも少ない、ステップと、を含む、
ことを特徴とする請求項１に記載の通話方法。
取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、前記少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択する前記ステップは、
前記少なくとも３つのチャンネルの音声データにおける第１音声データが音声区間を含み、標的音声データリスト内の音声データの数がプリセット数に達していない場合、前記第１音声データを前記標的音声データリストに付加するステップであって、前記標的音声データリストは、選択した標的音声データを記憶するために用いられ、前記プリセット数は、前記少なくとも３つのチャンネルの音声データの数よりも少ない、ステップを含む、
ことを特徴とする請求項１に記載の通話方法。
前記第１音声データが音声区間を含むが、前記標的音声データリスト内の音声データの数が前記プリセット数に達した場合、前記第１音声データの音声エネルギーと、前記標的音声データリスト内の音声エネルギーが最小の第２音声データの音声エネルギーとを比較するステップと、
前記第１音声データの音声エネルギーが前記第２音声データの音声エネルギーよりも大きい場合、前記第１音声データを前記標的音声データリストに付加して、前記第２音声データを前記標的音声データリストから除去するステップと、をさらに含む、
ことを特徴とする請求項５に記載の通話方法。
前記第１音声データが音声区間を含まない場合、前記第１音声データを候補音声データリストに付加するステップをさらに含む、
ことを特徴とする請求項５に記載の通話方法。
前記候補音声データリストは、第１候補音声データリスト及び第２候補音声データリストを含み、前記第１音声データが音声区間を含まない場合、前記第１音声データを候補音声データリストに付加する前記ステップは、
前記第１音声データが音声区間を含まず、かつ、前記第１音声データに対応する第１端末が指定端末である場合、前記第１音声データを前記第１候補音声データリストに付加するステップであって、前記指定端末は、前に、送信した音声データが標的音声データとして選択された端末である、ステップを含む、
ことを特徴とする請求項７に記載の通話方法。
前記第１音声データが音声区間を含まない場合、前記第１音声データを候補音声データリストに付加する前記ステップは、
前記第１音声データが音声区間を含まず、かつ、前記第１音声データに対応する第１端末が指定端末でない場合、前記第１音声データを前記第２候補音声データリストに付加するステップを含む、
ことを特徴とする請求項７に記載の通話方法。
取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、前記少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択する前記ステップは、
取得した少なくとも３つのチャンネルの音声データをトラバースし、前記少なくとも３つのチャンネルの音声データの指示情報に応じて、標的音声データリスト及び候補音声データリストを決定するステップであって、前記標的音声データリストは、現在選択された音声データを記憶するために用いられ、前記候補音声データリストは、現在選択されていない音声データを記憶するために用いられる、ステップと、
前記少なくとも３つのチャンネルの音声データのトラバースが完了した後、前記標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記候補音声データリストから少なくとも１つの音声データを選択して、前記標的音声データリストに付加するステップであって、前記プリセット数は、前記少なくとも３つのチャンネルの音声データの数よりも少ない、ステップと、を含む、
ことを特徴とする請求項１に記載の通話方法。
前記候補音声データリストは、第１候補音声データリスト及び第２候補音声データリストを含み、前記第１候補音声データリストは、音声区間を含まず、かつ、対応する第１端末が指定端末である音声データを記憶するために用いられ、前記第２候補音声データリストは、音声区間を含まず、かつ、対応する第１端末が指定端末でない音声データを記憶するために用いられ、前記指定端末は、前に、送信した音声データが標的音声データとして選択された端末である、
ことを特徴とする請求項１０に記載の通話方法。
前記標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記候補音声データリストから少なくとも１つの音声データを選択して、前記標的音声データリストに付加する前記ステップは、
前記標的音声データリスト内の音声データの数が前記プリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記第１候補音声データリストから少なくとも１つの音声データを選択して、前記標的音声データリストに付加するステップを含む、
ことを特徴とする請求項１０に記載の通話方法。
前記標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記候補音声データリストから少なくとも１つの音声データを選択して、前記標的音声データリストに付加するステップは、
前記標的音声データリスト内の音声データの数が前記プリセット数よりも少ない場合、前記第１候補音声データリスト内の音声データを全部前記標的音声データリストに付加するステップであって、音声データを付加した後、前記標的音声データリストの音声データの数が前記プリセット数以下である、ステップと、
前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記第２候補音声データリストから少なくとも１つの音声データを選択して、前記標的音声データリストに付加するステップと、を含む、
ことを特徴とする請求項１０に記載の通話方法。
通話装置であって、
少なくとも３つの第１端末が送信した、指示情報を携帯する音声データを取得するために用いられる取得モジュールであって、前記指示情報は、少なくとも音声区間検出（ＶＡＤ）情報を含み、前記ＶＡＤ情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる、取得モジュールと、
取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、前記少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択するために用いられる選択モジュールであって、前記少なくとも２つのチャンネルの標的音声データの数は、前記少なくとも３つのチャンネルの音声データの数よりも少ない、選択モジュールと、
前記少なくとも２つのチャンネルの標的音声データを第２端末に送信するために用いられる送信モジュールであって、前記第２端末は、前記少なくとも２つのチャンネルの標的音声データを復号化し、復号化された少なくとも２つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる、送信モジュールと、を含み、
前記第２端末は、通話グループ内のいずれか１つの端末であり、前記少なくとも３つの第１端末は、前記通話グループ内の前記第２端末と異なる端末である、
ことを特徴とする通話装置。
通話システムであって、通話グループ内の少なくとも４つの端末及びサーバを含み、
前記少なくとも４つの端末は、前記サーバに指示情報を携帯する音声データを送信するために用いられ、前記指示情報は、少なくとも音声区間検出（ＶＡＤ）情報を含み、前記ＶＡＤ情報は、対応する音声データが音声区間を含むか否かを指示するために用いられ、
前記サーバは、少なくとも３つの第１端末が送信した音声データを取得するために用いられ、
前記サーバは、さらに、取得した少なくとも３つのチャンネルの音声データの指示情報に応じて、前記少なくとも３つのチャンネルの音声データから少なくとも２つのチャンネルの標的音声データを選択するために用いられ、前記少なくとも２つのチャンネルの標的音声データの数は、前記少なくとも３つのチャンネルの音声データの数よりも少なく、
前記サーバは、さらに、前記少なくとも２つのチャンネルの標的音声データを第２端末に送信するために用いられ、
前記第２端末は、前記少なくとも２つのチャンネルの標的音声データを復号化し、復号化された少なくとも２つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられ、
前記第２端末は、前記通話グループ内のいずれか１つの端末であり、前記少なくとも３つの第１端末は、前記通話グループ内の前記第２端末と異なる端末である、
ことを特徴とする通話システム。
メモリ及びプロセッサを含むサーバであって、前記メモリにはコンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサによって実行されると、前記プロセッサが請求項１から１３のいずれか一項に記載の方法のステップを実行する、
ことを特徴とするサーバ。
コンピュータ可読命令が記憶されている不揮発性記憶媒体であって、前記コンピュータ可読命令が１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のプロセッサが請求項１から１３のいずれか一項に記載の方法のステップを実行する、
ことを特徴とする不揮発性記憶媒。