JP2022546542A - 通話方法、通話装置、通話システム、サーバ及びコンピュータプログラム - Google Patents

通話方法、通話装置、通話システム、サーバ及びコンピュータプログラム Download PDF

Info

Publication number
JP2022546542A
JP2022546542A JP2022514029A JP2022514029A JP2022546542A JP 2022546542 A JP2022546542 A JP 2022546542A JP 2022514029 A JP2022514029 A JP 2022514029A JP 2022514029 A JP2022514029 A JP 2022514029A JP 2022546542 A JP2022546542 A JP 2022546542A
Authority
JP
Japan
Prior art keywords
audio data
channels
voice
terminal
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022514029A
Other languages
English (en)
Other versions
JP7361890B2 (ja
Inventor
毅 高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022546542A publication Critical patent/JP2022546542A/ja
Application granted granted Critical
Publication of JP7361890B2 publication Critical patent/JP7361890B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1069Session establishment or de-establishment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • H04L65/4038Arrangements for multi-party communication, e.g. for conferences with floor control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

通話方法であって、当該方法は、少なくとも3つの第1端末が送信した、指示情報を携帯する音声データを取得するステップと、取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するステップと、少なくとも2つのチャンネルの標的音声データを第2端末に送信するステップと、を含み、第2端末は、少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる。

Description

関連出願の相互参照
本願は、2019年12月23日に中国国家知識産権局に提出された、出願番号が第201911334137.X号で、出願名称が「通話方法、装置、システム、サーバ及び記憶媒体」である中国特許出願の優先権を主張し、当該出願の全ての内容は援用により本願に組み込まれる。
本願の実施例は、インターネット技術の分野に関し、特に、通話方法、装置、システム、サーバ及び記憶媒体に関する。
インターネット技術の発展に伴い、通話機能はますます広く適用され、複数のユーザ間の通話を可能にするため、複数のユーザ間のコミュニケーションが非常に容易になり、日常生活に多くの利便性をもたらした。
複数の第1端末と第2端末との通話を例とすると、複数の第1端末及び第2端末が、それぞれサーバに音声データを送信する。サーバは、複数の第1端末が送信した音声データを当該第2端末に送信し、第2端末はサーバが送信した多チャンネル音声データを受信し、当該多チャンネル音声データを復号化し、復号化された多チャンネル音声データをミキシングし、ミキシングされた音声データを再生する。
しかしながら、サーバは、多チャンネル音声データを第2端末に送信する必要があるため、多くのネットワーク帯域を占有し、多くのデータ通信量を消費することにより、音声データの伝送速度が遅くなり、通話の品質に影響を与える可能性がある。
本願にて提供される各実施例によれば、通話方法、装置、システム、サーバ及び記憶媒体を提供する。
通話方法であって、サーバによって実行され、前記方法は、
少なくとも3つの第1端末が送信した音声データを取得するステップであって、前記音声データは指示情報を携帯し、前記指示情報は、少なくとも音声区間検出(VAD)情報を含み、前記VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる、ステップと、
取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するステップであって、前記少なくとも2つのチャンネルの標的音声データの数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、ステップと、
前記少なくとも2つのチャンネルの標的音声データを第2端末に送信するステップであって、前記第2端末は、前記少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる、ステップと、を含み、
前記第2端末は、通話グループ内のいずれか1つの端末であり、前記少なくとも3つの第1端末は、前記通話グループ内の前記第2端末と異なる端末である。
通話装置であって、前記装置は、
少なくとも3つの第1端末が送信した、指示情報を携帯する音声データを取得するために用いられる取得モジュールであって、前記指示情報は、少なくとも音声区間検出(VAD)情報を含み、前記VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる、取得モジュールと、
取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するために用いられる選択モジュールであって、前記少なくとも2つのチャンネルの標的音声データの数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、選択モジュールと、
前記少なくとも2つのチャンネルの標的音声データを第2端末に送信するために用いられる送信モジュールであって、前記第2端末は、前記少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる、送信モジュールと、を含み、
前記第2端末は、通話グループ内のいずれか1つの端末であり、前記少なくとも3つの第1端末は、前記通話グループ内の前記第2端末と異なる端末である。
通話システムであって、前記システムは、通話グループ内の少なくとも4つの端末及びサーバを含み、
前記少なくとも4つの端末は、前記サーバに指示情報を携帯する音声データを送信するために用いられ、前記指示情報は、少なくとも音声区間検出(VAD)情報を含み、前記VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられ、
前記サーバは、少なくとも3つの第1端末が送信した音声データを取得するために用いられ、
前記サーバは、さらに、取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するために用いられ、前記少なくとも2つのチャンネルの標的音声データの数は、前記少なくとも3つのチャンネルの音声データの数よりも少なく、
前記サーバは、さらに、前記少なくとも2つのチャンネルの標的音声データを第2端末に送信するために用いられ、
前記第2端末は、前記少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられ、
前記第2端末は、前記通話グループ内のいずれか1つの端末であり、前記少なくとも3つの第1端末は、前記通話グループ内の前記第2端末と異なる端末である。
コンピュータ可読命令が記憶されている不揮発性記憶媒体であって、前記コンピュータ可読命令が1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサが通話方法のステップを実行する。
メモリ及びプロセッサを含むサーバであって、前記メモリにはコンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記プロセッサによって実行されると、前記プロセッサが通話方法のステップを実行する。
本願の1つ又は複数の実施例の詳細は、以下の添付図面及び説明で提示される。本願の他の特徴、目的、及び利点は、説明、添付図面、及び特許請求の範囲から明らかになる。
本願の実施例における技術的解決手段をより明確に説明するために、以下では、実施例の説明に必要な図面を簡単に紹介するが、当然ながら、以下の説明における図面は、本願の一部の実施例にすぎず、当業者であれば、創造的な働きなしに、これらの図面から他の図面を取得することもできる。
本願の実施例にて提供される実施環境の模式図である。 本願の実施例にて提供される別の実施環境の模式図である。 本願の実施例にて提供される別の実施環境の模式図である。 本願の実施例にて提供される通話方法のフローチャートである。 本願の実施例にて提供される受信端末が音声データを処理する模式図である。 本願の実施例にて提供される制御プログラムの模式図である。 本願の実施例にて提供される選択ロジックモジュールの模式図である。 本願の実施例にて提供される標的音声データの選択方法のフローチャートである。 本願の実施例にて提供される別の通話方法のフローチャートである。 本願の実施例にて提供される通話装置の構造の模式図である。 本願の実施例にて提供される別の通話装置の構造の模式図である。 本願の実施例にて提供される端末の構造の模式図である。 本願の実施例にて提供されるサーバの構造の模式図である。
本願の目的、技術的解決手段及び利点をより明確にするために、添付図面及び実施例を参照しながら本願をより詳細に説明する。本明細書に記載の具体的な実施例は、本願を説明するために使用されるだけで、本願を限定するものではないことを理解されたい。
図1は、本願の実施例にて提供される実施環境の模式図であり、図1を参照すると、当該実施環境には、複数の端末101及びサーバ102が含まれる。各端末101は、サーバ102にネットワークを介して接続され、サーバ102は、受信した1つの端末101が送信した音声データを、別の端末101に送信する。通話時に、端末101は送信端末であってもよいし、受信端末であってもよい。
ここで、端末101は、携帯電話、タブレットなどの様々な種類の機器であり得る。サーバ102は、1台のサーバであってもよいし、複数台のサーバからなるサーバクラスタであってもよいし、クラウドコンピューティングサービスセンタであってもよい。
可能な実施形態において、図2に示すように、実施環境には、制御サーバ103がさらに含まれ、複数の端末101は制御サーバ103に接続し、サーバ102は制御サーバ103に接続する。
可能な実施形態において、複数の端末101は制御サーバ103に接続し、制御サーバ103と端末101とは、シグナリングにより情報を交換し、シグナリングは、各端末101間の通信関係を確立、維持、解除するための情報である。情報を交換する際に、端末101は、通話中の端末の識別子を制御サーバ103に送信し、制御サーバ103は、受信した複数の端末101の識別子に基づいて、同じ通話グループ内の複数の端末101を決定する。制御サーバ103は、サーバ102が同じ通話グループにある端末101がどれらかを決定できるように、同じ通話グループ内の複数の端末101の識別子をサーバ102に送信する。
制御サーバ103は、通話に加入する新しい端末101があるか否か、又は通話から退出した端末101があるか否かを監視することができ、通話が終了した後、データ接続及びシグナリング接続を切断して、リソースを解放する。
図3は、本願の実施例にて提供される別の実施環境の模式図であり、図3を参照すると、当該実施環境には、複数の端末301、第1サーバ302及び第2サーバ303が含まれている。端末301は第1サーバ302に接続するか、又は、端末301は第2サーバ303に接続し、第1サーバ302と第2サーバ303とが接続する。
ここで、端末301は、携帯電話、タブレットなどの様々な種類の機器であり得る。第1サーバ302及び第2サーバ303は、一台のサーバであってもよいし、複数台のサーバからなるサーバクラスタであってもよいし、クラウドコンピューティングサービスセンタであってもよい。
例えば、第1端末及び第2端末が同じ通話グループ内にあり、第1端末が送信端末で、第2端末が受信端末であり、第1端末が第1サーバに接続し、第2端末が第2サーバに接続する場合、第1サーバは、第1端末が送信した音声データを受信して、当該音声データを第2サーバに送信し、第2サーバは、第1サーバが送信した音声データを受信して、当該音声データを第2端末に送信する。
本願の実施例にて提供される方法は、音声通話、ビデオ通話又は他の通話シーンに適用できる。音声通話又はビデオ通話は、VOIP(Voice over Internet Protocol、IP電話)多人数会議シーン又は他のシーンであり得る。
例えば、音声通話シーンに適用される場合、少なくとも4つの端末間で音声データのやり取りを行う。サーバは、本願の実施例にて提供される方法を使用して少なくとも3つの送信端末が送信した少なくとも3つのチャンネルの音声データから、標的音声データを選択して、受信端末に送信し、受信端末は、受信した標的音声データを復号化及びミキシングして、ミキシングされた音声データを再生する。
例えば、ビデオ通話シーンに適用される場合、少なくとも4つの端末間でビデオデータのやり取りを行い、ビデオデータは、音声データ及び画像データを含み、サーバは、ビデオ通話中の音声データ及び画像データをそれぞれ処理する。
音声データの処理について、サーバは、本願の実施例にて提供される方法を使用して、少なくとも3つの送信端末が送信した少なくとも3つのチャンネルの音声データから、標的音声データを選択して、受信端末に送信し、受信端末は、受信した標的音声データを復号化及びミキシングして、ミキシングされた音声データを再生する。
画像データの処理について、サーバは、少なくとも3つの送信端末が送信した画像データを受信端末に送信し、受信端末は、受信した少なくとも3つの画像データ及び当該端末で収集された画像データに基づいて、表示しようとする画像データを決定して、当該画像データを表示する。表示する画像データは、受信した少なくとも3つの画像データと、当該端末で収集した画像データとを合併して得たものであってもよいし、受信した少なくとも3つの画像データ及び当該端末で収集された画像データからユーザが選択したある画像データであってもよい。
音声データ及び画像データを別々に処理する場合、音声データと画像データとの同期を保証する必要がある。
図4は、本願の実施例にて提供される通話方法のフローチャートである。本願の実施例のやり取りの主体は、第1端末、サーバ及び第2端末であり、図4を参照すると、当該方法は、ステップ401~405を含む。
401.少なくとも3つの第1端末がサーバに音声データを送信する。
本願の実施例では、少なくとも4つの端末が同じ通話グループに加入しており、当該少なくとも4つの端末は、互いに通話することができる。ここで、送信端末とは、音声データを送信する端末であり、受信端末とは、他の端末が送信した音声データを受信する端末である。受信端末は、通話グループ内のいずれか1つの端末であり、少なくとも2つの送信端末は、通話グループ内の受信端末と異なる端末であり、通話グループ内の各端末は、送信端末であっても、受信端末であってもよい。本願の実施例は、第1端末が送信端末で、第2端末が受信端末であることを例として説明したが、他の端末を送信端末とするか又は受信端末とする場合の処理過程も、これに類似する。
当該通話グループは、音声通話グループであってもよいし、ビデオ通話グループであってもよく、当該少なくとも4つの端末は、音声通話することも、ビデオ通話することもできる。ここで、音声通話中では、当該少なくとも4つの端末は音声データをやり取りする必要があり、ビデオ通話中では、当該少なくとも4つの端末は音声データをやり取りする必要がある以外に、画像データをやり取りする必要もある。本願の実施例は、音声データのやり取り過程のみを説明した。
ここで、各第1端末にとって、第1端末は音声データを収集してから、サーバに当該音声データを送信し、第1端末によって収集された音声データは、1つの音声フレームを含んでも、複数の音声フレームを含んでもよい。
当該音声データは指示情報を携帯し、当該指示情報は、VAD(Voice Activity Detection、音声区間検出)情報を含み、VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる。
ここで、音声データのVAD情報は、音声データにおける音声フレームごとのVAD識別子を含み、VAD識別子は、第1のVAD識別子及び第2のVAD識別子の2つのタイプを含み、第1のVAD識別子は、対応する音声フレームが音声区間であることを指示するために用いられ、第2のVAD識別子は、対応する音声フレームが音声区間でないことを指示するために用いられる。
音声データのVAD情報に第1のVAD識別子が含まれている場合、音声データが音声区間を含むと決定し、音声データのVAD情報に第1のVAD識別子が含まれていない場合、音声データが音声区間を含まないと決定する。ここで、第1のVAD識別子は、プリセット値又は他の識別子であってもよく、第2のVAD識別子は第1のVAD識別子と異なる他の識別子であってもよい。例えば、第1のVAD識別子は1で、第2のVAD識別子は0である。
各第1端末にとって、当該第1端末は、音声データを収集した後、音声データに対して音声区間検出を行うことができ、音声データにおける各音声フレームが音声区間であるか否かを、即ち各音声フレームに音声が含まれているか否かを検出し、それにより、各音声フレームに対応するVAD識別子を取得して、当該音声データに付加すると、音声データが音声フレームごとのVAD識別子を携帯するようになる。
可能な実施形態において、指示情報に音声エネルギーが含まれる。当該音声エネルギーは、音声データに音声があるか否かを指示するために用いられ、音声データが音声区間を含む場合、音声エネルギーが大きく、音声データが音声区間を含まない場合、音声エネルギーの小さい。そして、音声区間が異なると、音声エネルギーも異なる。
例えば、話している人がいないと、音声データに背景の雑音だけあるか又は無音であり、当該音声データが音声区間を含まず、音声データのエネルギーも小さい。話している人がいると、音声の音量が異なると、音声エネルギーも異なり、音声の音量が大きい場合、音声エネルギーも大きく、音声の音量が小さい場合、音声エネルギーも小さい。
各第1端末にとって、当該第1端末は、音声データを収集した後、当該音声データの音声エネルギーを算出して、当該音声データに付加することができ、音声データが当該音声エネルギーを携帯する。ここで、音声データが音声フレームを1つしか含まない場合、当該音声データの音声エネルギーは、当該音声フレームの音声エネルギーであり、音声データが複数の音声フレームを含む場合、当該音声データの音声エネルギーは、当該複数の音声フレームの音声エネルギーの合計である。
また、音声データは、ペイロードデータをさらに含んでもよく、ペイロードデータは、音声データを符号化した後に得たコードストリームデータを示すために用いられる。
402.サーバは、少なくとも3つの第1端末が送信した音声データを取得する。
サーバが少なくとも3つの第1端末が送信した音声データを受信したため、少なくとも3つのチャンネルの音声データを取得でき、サーバは、当該少なくとも3つのチャンネルの音声データを直ちに処理してもよいし、先に当該少なくとも3つのチャンネルの音声データをバッファした後、バッファした当該少なくとも3つのチャンネルの音声データを抽出してから、当該少なくとも3つのチャンネルの音声データを処理してもよい。
403.サーバは、取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択する。
サーバは、当該少なくとも3つのチャンネルの音声データを別々に解析して、各チャンネルの音声データに携帯されている指示情報を取得し、サーバは、取得した指示情報に応じて、少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択する。
ここで、少なくとも2つのチャンネルの標的音声データの数は、少なくとも3つのチャンネルの音声データの数以下である。サーバは、少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択できるため、音声データの数を減らして、第2端末に音声データを送信する際に、占有するネットワーク帯域を低減し、消費するデータ通信量を低減することができる。ここで、当該プリセット数は、通常の通話中に同時に話している最大人数をカウントすることによって決定されてもよいし、データ通信量のニーズに応じて決定されてもよい。
本願の実施例では、標的音声データの選択過程には、(1)~(3)の方法が含まれ得る。
(1)サーバは、少なくとも3つのチャンネルの音声データのVAD情報に応じて、少なくとも3つのチャンネルの音声データから、音声区間を含む少なくとも2つのチャンネルの標的音声データを選択する。
つまり、少なくとも3つのチャンネルの音声データから、VAD情報に第1のVAD識別子が含まれている音声データを選択して、標的音声データとする。
サーバは、当該少なくとも3つのチャンネルの音声データをトラバースすることができ、現在トラバースしている音声データのVAD情報に第1のVAD識別子が含まれている否かを判断することができ、はいであれば、現在トラバースしている音声データを標的音声データとするとともに、当該少なくとも3つのチャンネルの音声データのトラバースが全部完了するまで、引き続き次のチャンネルの音声データをトラバースすると、少なくとも2つのチャンネルの標的音声データを選択できる。
例えば、1つの通話グループには、端末A、端末B、端末C及び端末Dが含まれ、端末A、端末B及び端末Cに対応するユーザが話しているが、端末Dに対応するユーザが話していない場合、端末A、端末B及び端末Cが送信した音声データは音声区間を含むが、端末Dが送信した音声データは音声区間を備えなく、端末Cを受信端末とし、端末A、端末B及び端末Dを送信端末とする場合、サーバは、端末A、端末B及び端末Dが送信した3つのチャンネルの音声データから、端末A、端末Bが送信した音声データを選択して、標的音声データとし、後続で、端末Dが送信した音声データを端末Cに送信するのではなく、端末A、端末Bが送信した音声データを端末Cに送信する。
(2)サーバは、少なくとも3つのチャンネルの音声データのVAD情報及び音声エネルギーに応じて、少なくとも3つのチャンネルの音声データから、音声区間を含む音声データのうち音声エネルギーが最大のプリセット数の標的音声データを選択する。
ここで、プリセット数は、少なくとも3つのチャンネルの音声データの数よりも少ない。当該プリセット数は、1より大きく、かつ、少なくとも3つのチャンネルの音声データの数より小さい整数である。
サーバは、少なくとも3つのチャンネルの音声データのVAD情報に応じて、少なくとも3つのチャンネルの音声データから音声区間を含む音声データを選択してから、選択した音声データの音声エネルギーに応じて、選択した音声データから音声エネルギーが最大のプリセット数の標的音声データを選択することにより、選択した標的音声データが音声区間を含むとともに、選択した標的音声データの音声エネルギーが選択しなかった音声データの音声エネルギーよりも大きいことを保証する。
サーバが少なくとも3つのチャンネルの音声データから音声区間を含む音声データを選択する過程は、上記方法(1)に類似する。その後、サーバは、選択した多チャンネル音声データを、音声エネルギーにしたがって大きい順にソートし、ソートにしたって、前にある音声データをプリセット数分選択して、標的音声データとする。
例えば、プリセット数が2であり、第1端末Aが送信した音声データの音声エネルギーが、第1端末Bが送信した音声データのエネルギーよりも大きく、第1端末Bが送信した音声データの音声エネルギーが、第1端末Cが送信した音声データのエネルギーよりも大きい場合、標的音声データとして、第1端末Aが送信した音声データ及び第1端末Bが送信した音声データを選択することができる。
(3)サーバは、少なくとも3つのチャンネルの音声データのVAD情報及び音声エネルギーに応じて、少なくとも3つのチャンネルの音声データの排列順を取得し、かつ、音声区間を含む音声データが音声区間を含まない音声データの前に排列され、音声区間を含む音声データのうち、音声エネルギーの大きい音声データが音声エネルギーの小さい音声データの前に排列され、少なくとも3つのチャンネルの音声データの排列順にしたがって、ソート順が上位のプリセット数の標的音声データを選択する。
ここで、音声区間を含む音声データの数がプリセット数以上である場合、選択した標的音声データは、いずれも音声区間を含む音声データであり、音声区間を含む音声データの数がプリセット数よりも少ない場合、選択した標的音声データは、音声区間を含む音声データ及び音声区間を含まない音声データを含む。
なお、本願の実施例は、第2端末及び当該第2端末に対応する少なくとも3つの第1端末を例として説明したに過ぎず、同じ通話グループにおいて、各端末は、いずれも受信端末にすることも、送信端末にすることもできる。音声データのやり取りを容易にするために、計算量を減らし、通話グループについて、当該通話グループ内の少なくとも4つの端末がサーバに音声データを送信する場合、サーバは、少なくとも4つのチャンネルの音声データを受信し、少なくとも4つのチャンネルの音声データのVAD情報及び音声エネルギーに応じて、少なくとも4つのチャンネルの音声データの排列順を取得し、音声区間を含む音声データが音声区間を含まない音声データの前に排列され、音声区間を含む音声データのうち、音声エネルギーの大きい音声データが音声エネルギーの小さい音声データの前に排列される。
その後、そのうちの1つの端末を第2端末に決定するたびに、サーバは、取得した少なくとも4つのチャンネルの音声データの排列順から、当該第2端末が送信した音声データを削除し、それにより、残りの少なくとも3つのチャンネルの音声データの排列順を取得する。
こうすると、サーバは、1つの通話グループに対して、異なる第2端末を別々にソートすることを必要とせず、1回ソートするだけよいことを保証でき、計算量を減らし、処理速度が速くなった。
例えば、4つのチャンネルの音声データをソートした後、取得した排列順が順番に、端末Aが送信した音声データ、端末Bが送信した音声データ、端末Cが送信した音声データ、端末Dが送信した音声データである場合、端末Aを受信端末とすると、取得した他の3つのチャンネルの音声データの排列順は、順番に、端末Bが送信した音声データ、端末Cが送信した音声データ、端末Dが送信した音声データである。プリセット数が2である場合、標的音声データとして、ソート順が上位の2つの音声データ、即ち端末Bが送信した音声データ及び端末Cが送信した音声データを選択して、端末Aに送信する。端末Bを受信端末とすると、取得した他の3つのチャンネルの音声データの排列順は、順番に、端末Aが送信した音声データ、端末Cが送信した音声データ、端末Dが送信した音声データであり、標的音声データとして、ソート順が上位の2つの音声データ、即ち端末Aが送信した音声データ及び端末Cが送信した音声データを選択して、端末Bに送信する。
別の可能な実施形態では、標的音声データの選択を容易にし、合理性を向上させるために、サーバに、標的音声データリスト及び候補音声データリストを設定してもよい。ここで、標的音声データリストは、選択した標的音声データを記憶するために用いられ、候補音声データリストは、選択されなかった音声データを記憶するために用いられる。
少なくとも3つのチャンネルの音声データのうちの第1音声データを例とすると、サーバは、第1音声データが音声区間を含むか否かに応じて、第1音声データを標的音声データリストに付加するか、又は候補音声データリストに付加するかを決定する。ここで、第1音声データは、少なくとも3つのチャンネルの音声データのうちのいずれか1つの音声データである。
第1音声データの処理過程は、以下の2つの場合を含む。
1つの場合:第1音声データが音声区間を含む。
標的音声データリストにプリセット数分の標的音声データしか記憶することができないため、第1音声データが音声区間を含む場合には、標的音声データリスト内の音声データの数がプリセット数に達したか否かを決定する必要もある。
(1)少なくとも3つのチャンネルの音声データにおける第1音声データが音声区間を含み、かつ、標的音声データリスト内の音声データの数がプリセット数に達していない場合、サーバが第1音声データを標的音声データリストに付加することは、現在、標的音声データとして第1音声データを選択したことを表す。
(2)第1音声データが音声区間を含むが、標的音声データリスト内の音声データの数がプリセット数に達した場合、サーバは、第1音声データの音声エネルギーと、標的音声データリスト内の音声エネルギーが最小の第2音声データの音声エネルギーとを比較する。
第1音声データの音声エネルギーが第2音声データの音声エネルギーよりも大きい場合、サーバは、第1音声データを標的音声データリストに付加し、第2音声データを標的音声データリストから除去することは、現在、標的音声データとして第1音声データが選択され、第2音声データはすでに標的音声データでないことを表す。ここで、第2音声データを捨てるか又は候補音声データリストに付加する。
第1音声データの音声エネルギーが第2音声データの音声エネルギーよりも小さい場合、サーバは、標的音声データリスト内の音声データをそのまま維持し、第1音声データを捨てるか、又は候補音声データリスト付加することは、現在、第1音声データを標的音声データとして選択せず、第2音声データを依然として標的音声データとすることを表す。
ここで、第2音声データは、少なくとも3つのチャンネルの音声データのうち、第1音声データと異なるいずれか1つの音声データである。
もう1つの場合:第1音声データが音声区間を含まない。
第1音声データが音声区間を含まない場合、第1音声データを候補音声データリストに付加することは、現在、第1音声データを標的音声データとしないことを表す。
ここで、候補音声データリストは、記憶する音声データの数について限定しない。
可能な実施形態において、候補音声データリストは、第1候補音声データリスト及び第2候補音声データリストを含み、第1候補音声データリストは、音声区間を含まず、かつ、対応する第1端末が指定端末である音声データを記憶するために用いられ、第2候補音声データリストは、音声区間を含まず、かつ、対応する第1端末が指定端末でない音声データを記憶するために用いられ、指定端末は、前に、送信した音声データが標的音声データとして選択されたことがある端末である。
任意選択で、第1音声データは、対応する第1端末の端末識別子を携帯する。サーバは、前に通話するときの標的音声データが携帯した端末識別子を取得し、第1音声データが携帯した端末識別子と、前の標的音声データが携帯した端末識別子とを比較し、前の標的音声データが携帯した端末識別子に、第1音声データが携帯した端末識別子が含まれていると、第1音声データに対応する第1端末は指定端末であると決定する。
第1音声データが音声区間を含まない場合、第1音声データを候補音声データリストに付加するステップは、
(1)第1音声データが音声区間を含まず、かつ、第1音声データに対応する第1端末が指定端末である場合、第1音声データを第1候補音声データリストに付加するステップと、
(2)第1音声データが音声区間を含まず、かつ、第1音声データに対応する第1端末が指定端末でない場合、第1音声データを第2候補音声データリストに付加するステップと、を含む。
404.サーバは、少なくとも2つのチャンネルの標的音声データを第2端末に送信する。
可能な実施形態において、サーバは、上記のステップ403で選択した少なくとも2つのチャンネルの標的音声データの選択可能な解決手段に基づいて、第2端末に当該少なくとも2つのチャンネルの標的音声データを送信する。
可能な実施形態において、サーバは、上記のステップ403で第1音声データを標的音声データリストに付加する選択可能な解決手段に基づいて、第2端末に標的音声データリスト内の標的音声データを送信する。
405.第2端末は、サーバが送信した少なくとも2つのチャンネルの標的音声データを受信し、少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生する。
可能な実施形態において、図5を参照すると、第2端末は少なくとも2つのチャンネルの標的音声データを受信した後、対応する数の論理チャンネルを作成する。各論理チャンネルは、コードストリーム受信モジュール、ジッタバッファモジュール、デコーダ及び音声処理モジュールを含む。ここで、コードストリーム受信モジュールは、標的音声データを受信するために用いられ、ジッタバッファモジュールは、標的音声データに対してバッファ及び誤り訂正を行うために用いられ、デコーダは、標的音声データを復号化して、復号化された音声データを取得するために用いられ、音声処理モジュールは、復号化された音声データに対して利得調整又は音色調整を行うために用いられる。
論理チャンネルは、各標的音声データを処理した後、取得した少なくとも2つのチャンネルの標的音声データをミキシングモジュールでミキシングし、少なくとも2つのチャンネルの標的音声データを1つのチャンネルの音声データに併合し、再生モジュールが当該1つのチャンネルの音声データを再生する。
なお、本願の実施例は、1つのサーバを例としただけで、別の実施例では、端末は異なる地域に分布される可能性があるため、端末は、音声データを送信する際に、当該端末に最も近いサーバ又は速度が最も速いサーバを選択して接続する。したがって、異なる端末は、異なるサーバに接続できる。
例えば、第1サーバは、第2端末に接続し、第2サーバは第1端末に接続する。また、第1サーバも第1端末に接続することができる。
第2サーバは、少なくとも3つの第1端末が送信した少なくとも3つのチャンネルの音声データを受信し、第2サーバは、当該少なくとも3つのチャンネルの音声データを第1サーバに送信し、第1サーバは、第2サーバが送信した少なくとも3つのチャンネルの音声データを受信し、少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択して、当該少なくとも2つのチャンネルの標的音声データを第2端末に送信する。第2端末は、受信した少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生する。
本願の実施例にて提供される方法は、少なくとも3つの第1端末がサーバに音声データを送信し、サーバ少なくとも3つの第1端末が送信した音声データを取得し、取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択して、第2端末に少なくとも2つのチャンネルの標的音声データを送信し、第2端末は、サーバが送信した少なくとも2つのチャンネルの標的音声データを受信し、少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生する。当該方法は、受信した少なくとも3つのチャンネルの音声データから選択し、選択した標的音声データを端末に送信することにより、送信する音声データの数を減らし、それにより、送信中に占有するネットワーク帯域を低減し、消費するデータ通信量を節約し、音声データの伝送速度を向上させ、通話品質を向上させた。
さらに、本願の実施例では、第2端末で音声データをミキシングして、サーバが占有する計算リソースを低減し、サーバのリソース消費を低下させ、サーバの実行効率を向上させた。
さらに、本願の実施例は、分散処理を使用して、第1端末で音声データを処理してVAD情報及び音声エネルギーを取得し、サーバで音声データに対してチャンネル選択処理を行って標的音声データを取得し、第2端末で音声データを復号化及びミキシングし、第1端末、サーバ及び第2端末による音声データの分散処理により、占有する計算リソース及びネットワーク帯域を低減した。
また、関連技術において、サーバで音声データのミキシングを実現し、サーバは、受信した少なくとも3つのチャンネルの音声データを復号化及びミキシングし、その後、ミキシングされた音声データを1チャンネルの音声データとして第2端末に送信し、第2端末が、受信した音声データを再生すればよい。当該方法では、サーバが音声データを処理する必要があり、サーバが占有するリソースが増加した。
本願の実施例では、サーバは、音声データを復号化する操作を必要とせず、音声データを選択するだけでよく、サーバが占有する計算リソースを低減し、サーバによるリソース消費を低下させ、サーバが第2端末に送信する音声データの数を低減し、占有するネットワーク帯域を低減し、ネットワーク帯域に対する要求を低下させ、伝送速度を向上させ、通話品質を向上させた。そして、音声データを選択することにより、音声データにおける雑音をフィルタすることもできる。
上記の実施例に加え、可能な実施形態において、サーバは、第2端末のための対応する制御プログラムを作成し、サーバは、当該制御プログラムを実行することにより、少なくとも3つのチャンネルの音声データの指示情報に応じて、少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択する。ここで、制御プログラムは、第2端末に送信する標的音声データを選択するために用いられる。
サーバは、複数の端末に接続することができ、当該複数の端末は、同じ通話グループに位置してもよいし、異なる通話グループに位置してもよい。
例えば、図6を参照すると、端末1、端末2、端末3、端末4及び端末5は、同じ通話グループ内にあり、サーバは、端末1のための制御プログラムxを作成し、制御プログラムxが端末2、端末3、端末4及び端末5の音声データから標的音声データを選択して、端末1に送信する。端末a、端末b、端末c、端末d及び端末eは、同じ通話グループ内にあり、サーバは、端末aのための制御プログラムyを作成し、制御プログラムyが端末b、端末c、端末d及び端末eの音声データから標的音声データを選択して、端末aに送信する。
また、上記の実施例に加え、サーバには、チャンネル選択論理モジュールが設けられている。チャンネル選択論理モジュールは、解析ユニット、チャンネル選択アルゴリズムユニット及びチャンネル選択スイッチユニットを含み、解析ユニットは、音声データを解析してVAD情報及び音声エネルギーを得るために用いられ、チャンネル選択アルゴリズムユニットは、少なくとも3つのチャンネルの音声データからプリセット数の標的音声データを選択するために用いられ、チャンネル選択スイッチユニットは、選択した標的音声データを第2端末に送信するために用いられる。
例えば、図7を参照すると、プリセット数は3であり、端末1を第2端末とし、端末2、端末3、端末4、端末5及び端末6を第1端末とし、第1端末が音声データをサーバに送信した後、サーバは、チャンネル選択論理モジュールを使用して、5つの第1端末が送信した音声データから標的音声データを選択する。
ここで、送信された音声データは、データタイプ、VAD情報、音声エネルギー、ペイロードデータ及び他の情報を携帯する。解析ユニットは、各音声データを解析して、各音声データのVAD情報及び音声エネルギーを取得し、チャンネル選択アルゴリズムユニットは、本願の実施例における標的音声データを選択するいずれか1つの実施形態に基づいて、端末2、端末3、端末4、端末5及び端末6の音声データから、端末2、端末4及び端末6の音声データを選択し、チャンネル選択スイッチユニットは、当該3つのチャンネルの音声データを端末1に送信する。
ここで、図8は、チャンネル選択アルゴリズムユニットのチャンネル選択アルゴリズムのフローチャートであり、図8を参照すると、それぞれチャンネル選択アルゴリズムを使用して、端末1~6の音声データから選択し、最終的に、音声データを標的音声データリスト、第1候補データリスト又は第2候補音声データリストに付加する。
音声データをトラバースし、下記のステップ(1)~ステップ(8)を使用して、音声データNから選択する。
(1)音声データNが音声区間を含むか否かを判断し、「はい」であれば、ステップ(2)を実行し、「いいえ」であれば、ステップ(5)を実行する。
(2)標的音声データリスト内の音声データの数が3つに達したか否かを判断し、「はい」であれば、ステップ(3)を実行し、「いいえ」であれば、ステップ(4)を実行する。
(3)音声データNの音声エネルギーと、標的音声データリストのうち最小音声エネルギーとを比較し、音声データNの音声エネルギーが標的音声データリストのうち最小音声エネルギーよりも大きい場合、最小音声エネルギーに対応する音声データMを標的データリストから除去し、音声データNを標的音声データリストに付加して、ステップ(8)を実行する。
(4)音声データNを標的音声データリストに付加して、ステップ(8)を実行する。
(5)音声データNが、前に標的音声データとして選択されたか否かを判断し、「はい」であれば、ステップ(6)を実行し、「いいえ」であれば、ステップ(7)を実行する。
(6)音声データNを第1候補音声データリストに付加して、ステップ(8)を実行する。
(7)音声データNを第2候補音声データリストに付加して、ステップ(8)を実行する。
(8)音声データNが6つの音声データのうち最後の1つであるか否かを判断し、「はい」であれば、終了し、標的音声データリスト内の音声データが最終的に選択した標的音声データであり、「いいえ」であれば、ステップ(1)に戻って、音声データN+1を選択する。
図9は、本願の実施例にて提供される別の通話方法のフローチャートである。本願の実施例のやり取りの主体は、第1端末、サーバ及び第2端末であり、図9を参照すると、当該方法は、ステップ901~906を含む。
901.少なくとも3つの第1端末がサーバに音声データを送信する。
902.サーバは、少なくとも3つの第1端末が送信した音声データを取得する。
上記の実施例のステップ401及びステップ402の実施形態に類似する。
903.サーバが少なくとも3つのチャンネルの音声データをトラバースし、少なくとも3つのチャンネルの音声データの指示情報に応じて、標的音声データリスト及び候補音声データリストを決定する。
サーバは、各チャンネルの音声データの指示情報に応じて、各チャンネルの音声データを標的音声データリスト又は候補音声データリストにそれぞれ付加して、標的音声データリスト及び候補音声データリストを決定する。ここで、標的音声データリストは、現在選択された音声データを記憶するために用いられ、候補音声データリストは、現在選択されなかった音声データを記憶するために用いられる。
サーバが各チャンネルの音声データを標的音声データリスト又は候補音声データリストに付加する実施形態は、上記の実施例において第1音声データを標的音声データリストに付加するか、又は候補音声データリストに付加する実施形態に類似する。
可能な実施形態において、候補音声データリストには、第1候補音声データリスト及び第2候補音声データリストが含まれ、第1候補音声データリストは、音声区間を含まず、かつ、対応する第1端末が指定端末である音声データを記憶するために用いられ、第2候補音声データリストは、音声区間を含まず、かつ、対応する第1端末が指定端末でない音声データを記憶するために用いられ、指定端末は、前に、送信した音声データが標的音声データとして選択された端末である。サーバが音声データを第1候補音声データリストに付加するか、又は第2候補音声データリストに付加する実施形態は、上記の実施例ステップ403における実施形態に類似する。
904.サーバが少なくとも3つのチャンネルの音声データのトラバースが完了した後、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、標的音声データリスト内の音声データの数がプリセット数と等しくなるように、候補音声データリストから少なくとも1つの音声データを選択して、標的音声データリストに付加する。
サーバは、当該少なくとも3つのチャンネルの音声データをトラバースすることができ、各チャンネルの音声データのいずれに対しても上記のステップ903を実行することができ、それにより、各チャンネルの音声データを標的音声データリスト又は候補音声データリストに付加する。当該少なくとも3つのチャンネルの音声データのトラバースが完了すると、標的音声データの予備選択が完了する。
本願の実施例では、標的音声データリスト及び候補音声データリストを設けて音声データを記憶し、選択された音声データを標的音声データリストに付加し、選択されていない音声データを候補音声データリストに付加し、より合理的になり、そして、サーバが第2端末に標的音声データを送信する際に、標的音声データリストから標的音声データを直接取得することができるため、標的音声データの送信がより容易になる。
さらに、予備選択が完了した後も、標的音声データリスト内の音声データの数がプリセット数に達していない可能性があることを考慮し、この場合、引き続き標的音声データを選択することができる。そのため、本願の実施例では、標的音声データリスト内の音声データの数がプリセット数に達していない場合、標的音声データリスト内の音声データの数がプリセット数と等しくなるように、候補音声データリストから音声データを選択して、標的音声データリストに付加することもできる。音声区間を含む音声データを優先的に選択することができ、数が足りないときに、音声区間を含まない音声データを補うこともでき、柔軟性が向上し、適用範囲が広がる。
上記の実施例における、音声データを第1候補音声データリストに付加するか又は第2候補音声データリストに付加する選択可能な方法に基づいて、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、サーバは、標的音声データリスト内の音声データの数がプリセット数と等しくなるように、第1候補音声データリスト又は第2候補音声データリストから、少なくとも1つの音声データを選択して、標的音声データリストに付加することができる。
可能な実施形態において、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、サーバは、標的音声データリスト内の音声データの数がプリセット数と等しくなるように、第1候補音声データリストから少なくとも1つの音声データを選択して、標的音声データリストに付加する。
ここで、第1候補音声データリストに候補音声データが十分多いため、サーバが第1候補音声データリストから少なくとも1つの音声データを選択して、標的音声データリストに付加するだけで、標的音声データリスト内の音声データの数がプリセット数と等しくなることができる。
標的音声データリスト内の音声データの数とプリセット数との差がN個であると仮定すると、第1候補音声データリストから音声データを選択する際に、N個の音声データを任意に選択することができ、当該N個の音声データを標的音声データリストに付加する。又は、第1候補音声データリスト内の音声データに対応する指定端末の前に選択された回数に基づいて、回数が最も多いN個の音声データを選択して、標的音声データリストに付加する。又は、他の方法を使用して、第1候補音声データリストからN個の音声データを選択して、標的音声データリストに付加してもよい。
別の可能な実施形態では、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、サーバは、第1候補音声データリスト内の音声データを、いずれも標的音声データリストに付加し、そして、音声データを付加した後、標的音声データリスト内の音声データの数がプリセット数以下であり、サーバは、第2標的音声データリスト内の音声データの数がプリセット数と等しくなるように、候補音声データリストから少なくとも1つの音声データを選択して、標的音声データリストに付加する。
第1候補音声データリスト内の音声データを全部標的音声データリストに付加した後、標的音声データリスト内の音声データの数とプリセット数との差がM個であると仮定すると、第2候補音声データリストから音声データを選択する際に、M個の音声データを任意に選択してもよいし、他の方法を使用してM個の音声データを選択してもよく、選択したM個の音声データを標的音声データリストに付加する。
また、標的音声データを選択する際に、現在送信する音声データのみに応じて標的音声データを選択する。1つの通話グループにおいて、通話の連続性から、現時点では、ある人物が直前の時点で話していたならば、その人物が現時点で話していなくても、次の時点で話す確率が高く、ある人物が直前まで話していなく、現時点でもその人物が話していなければ、その人物が次の時点で話す確率は低い。
本願の実施例では、第1候補音声データリスト内の音声データは、前に、送信した音声データが標的音声データとして選択された端末が送信したものであり、つまり、前に話していたユーザが出した音声データである。第2候補音声データリスト内の音声データは、前に、送信した音声データが標的音声データとして選択されなかった端末が送信したものであり、つまり、前に話していないユーザが出した音声データである。
前の通話状況に応じて、前に話したユーザが出した音声データと、前に話していないユーザが出した音声データとを、それぞれ異なる候補音声データリストに付加し、優先的に第1候補音声データリスト内の音声データを選択して標的音声データリストに付加し、数が足りない場合、第2候補音声データリスト内の音声データを選択して標的音声データリストに付加する。このような方法を使用すると、音声データの選択が、より合理的になり、そして、音声通話時の実際の状況を考慮して、選択した標的音声データがより正確であることを保証し、ユーザのニーズをより満たすことができる。
なお、サーバが少なくとも3つのチャンネルの音声データのトラバースが完了した後、標的音声データリスト内の音声データの数がプリセット数に等しくなると、すでに標的音声データリストを決定したため、ステップ904を実行する必要がない。
905.サーバは、少なくとも2つのチャンネルの標的音声データを第2端末に送信する。
906.第2端末は、少なくとも2つのチャンネルの標的音声データを受信し、少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生する。
サーバが第2端末に、標的音声データリスト内のプリセット数の標的音声データを送信し、第2端末は、プリセット数の標的音声データを受信し、当該プリセット数の標的音声データを復号化し、復号化されたプリセット数の標的音声データをミキシングし、処理後の音声データを再生する。
標的音声データの処理方法は、上記の実施例のステップ405の実施形態に類似する。
本願の実施例にて提供される方法は、少なくとも3つの第1端末がサーバに音声データを送信し、サーバは、少なくとも3つの第1端末が送信した音声データを取得し、少なくとも3つのチャンネルの音声データをトラバースし、少なくとも3つのチャンネルの音声データの指示情報に応じて、標的音声データリスト及び候補音声データリストを決定し、少なくとも3つのチャンネルの音声データのトラバースが完了した後、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、標的音声データリスト内の音声データの数がプリセット数に等しくなるように、候補音声データリストから少なくとも1つの音声データを選択して、標的音声データリストに付加し、サーバは、第2端末に少なくとも2つのチャンネルの標的音声データを送信し、第2端末は、サーバが送信した少なくとも2つのチャンネルの標的音声データを受信し、少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生する。当該方法では、サーバは、標的音声データリスト及び候補音声データリストを決定し、かつ、標的音声データリスト内の音声データがプリセット数に達するようにするため、プリセット数の標的音声データを第2端末に送信し、送信する音声データの数を減らし、送信中に占有するネットワーク帯域を低減し、必要なデータ通信量が少なく、音声データの伝送速度、及び音声データの品質が向上した。
図10は、本願の実施例にて提供される通話装置の構造の模式図である。図10を参照すると、当該装置は、取得モジュール1001、選択モジュール1002及び送信モジュール1003を含む。通話装置に含まれる各モジュールは、全部又は一部がソフトウェア、ハードウェア又はそれらの組み合わせによって実装され得る。
取得モジュール1001は、少なくとも3つの第1端末が送信した、指示情報を携帯する音声データを取得するために用いられ、指示情報は、少なくとも音声区間検出(VAD)情報を含み、VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる。
選択モジュール1002は、取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するために用いられ、少なくとも2つのチャンネルの標的音声データの数は少なくとも3つのチャンネルの音声データの数よりも少ない。
送信モジュール1003は、少なくとも2つのチャンネルの標的音声データを第2端末に送信するために用いられ、第2端末は、少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる。
ここで、第2端末は、通話グループ内のいずれか1つの端末であり、少なくとも3つの第1端末は、通話グループ内の第2端末と異なる端末である。
一実施例では、図11を参照すると、選択モジュール1002は、
少なくとも3つのチャンネルの音声データのVAD情報に応じて、少なくとも3つのチャンネルの音声データから、音声区間を含む少なくとも2つのチャンネルの標的音声データを選択するための第1選択ユニット1004を含む。
一実施例では、指示情報には音声エネルギーが含まれ、図11を参照すると、選択モジュール1002は、
少なくとも3つのチャンネルの音声データのVAD情報及び音声エネルギーに応じて、少なくとも3つのチャンネルの音声データから、音声区間を含む音声データのうち音声エネルギーが最大のプリセット数の標的音声データを選択するために用いられ、プリセット数は少なくとも3つのチャンネルの音声データの数よりも少ない、第2選択ユニット1005を含む。
一実施例では、指示情報には音声エネルギーが含まれ、図11を参照すると、選択モジュール1002は、
少なくとも3つのチャンネルの音声データのVAD情報及び音声エネルギーに応じて、少なくとも3つのチャンネルの音声データの排列順を取得するために用いられ、音声区間を含む音声データが音声区間を含まない音声データの前に排列され、音声区間を含む音声データのうち、音声エネルギーの大きい音声データが音声エネルギーの小さい音声データの前に排列される、第3選択ユニット1006を含み、
第3選択ユニット1006は、さらに、少なくとも3つのチャンネルの音声データの排列順にしたがって、ソート順が上位のプリセット数の標的音声データを選択するために用いられ、プリセット数は少なくとも3つのチャンネルの音声データの数よりも少ない。
一実施例では、図11を参照すると、選択モジュール1002は、
少なくとも3つのチャンネルの音声データのうちの第1音声データが音声区間を含み、標的音声データリスト内の音声データの数がプリセット数に達していない場合、第1音声データを標的音声データリストに付加するために用いられ、標的音声データリストは、選択した標的音声データを記憶するために用いられ、プリセット数は少なくとも3つのチャンネルの音声データの数よりも少ない、第1付加ユニット1007を含む。
一実施例では、図11を参照すると、選択モジュール1002は、さらに、
第1音声データが音声区間を含むが、標的音声データリスト内の音声データの数がすでにプリセット数に達した場合、第1音声データの音声エネルギーと、標的音声データリスト内の音声エネルギーが最小の第2音声データの音声エネルギーとを比較するための比較ユニット1008と、
第1音声データの音声エネルギーが第2音声データの音声エネルギーよりも大きい場合、第1音声データを標的音声データリストに付加するための第2付加ユニット1009と、
第2音声データを標的音声データリストから除去するための除去ユニット1010と、を含む。
一実施例では、図11を参照すると、選択モジュール1002は、さらに、
第1音声データが音声区間を含まない場合、第1音声データを候補音声データリストに付加するための第3付加ユニット1011を含む。
一実施例では、候補音声データリストが第1候補音声データリストを含み、第3付加ユニット1011は、さらに、第1音声データが音声区間を含まず、かつ、第1音声データに対応する第1端末が指定端末である場合、第1音声データを第1候補音声データリストに付加するために用いられ、指定端末は、前に、送信した音声データが標的音声データとして選択された端末である。
一実施例では、候補音声データリストが第2候補音声データリストを含み、第3付加ユニット1011は、さらに、第1音声データが音声区間を含まず、かつ、第1音声データに対応する第1端末が指定端末でない場合、第1音声データを第2候補音声データリストに付加するために用いられ、指定端末は、前に、送信した音声データが標的音声データとして選択された端末である。
一実施例では、図11を参照すると、選択モジュール1002は、
少なくとも3つのチャンネルの音声データをトラバースし、少なくとも3つのチャンネルの音声データの指示情報に応じて、標的音声データリスト及び候補音声データリストを決定するために用いられ、標的音声データリストは、現在選択された音声データを記憶するために用いられ、候補音声データリストは、現在選択されていない音声データを記憶するために用いられる、トラバースユニット1012と、
少なくとも3つのチャンネルの音声データのトラバースが完了した後、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、標的音声データリスト内の音声データの数がプリセット数と等しくなるように、候補音声データリストから少なくとも1つの音声データを選択して、標的音声データリストに付加するために用いられ、プリセット数は少なくとも3つのチャンネルの音声データの数よりも少ない、第4選択ユニット1013と、を含む。
一実施例では、候補音声データリストは、第1候補音声データリスト及び第2候補音声データリストを含み、第1候補音声データリストは、音声区間を含まず、かつ、対応する第1端末が指定端末である音声データを記憶するために用いられ、第2候補音声データリストは、音声区間を含まず、かつ、対応する第1端末が指定端末でない音声データを記憶するために用いられ、指定端末は、前に、送信した音声データが標的音声データとして選択された端末である。
一実施例では、第4選択ユニット1013は、さらに、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、第1標的音声データリスト内の音声データの数がプリセット数と等しくなるように、候補音声データリストから少なくとも1つの音声データを選択して、標的音声データリストに付加するために用いられる。
一実施例では、第4選択ユニット1013は、さらに、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、第1候補音声データリスト内の音声データを全部標的音声データリストに付加することであって、音声データを付加した後、標的音声データリストの音声データの数がプリセット数以下である、ことと、標的音声データリスト内の音声データの数がプリセット数と等しくなるように、第2候補音声データリストから少なくとも1つの音声データを選択して、標的音声データリストに付加することとのために用いられる。
一実施例では、音声データのVAD情報に音声データの各音声フレームのVAD識別子が含まれ、通話装置は、さらに、
音声データのVAD情報に第1のVAD識別子が含まれている場合、音声データが音声区間を含むと決定するための決定モジュール1014を含み、
決定モジュール1014は、さらに、音声データのVAD情報に第1のVAD識別子が含まれていない場合、音声データが音声区間を含まないと決定するために用いられ、
ここで、第1のVAD識別子は、対応する音声フレームが音声区間であることを指示するために用いられる。
一実施例では、通話装置は、第1サーバに適用され、第1サーバは、第2端末が接続されるサーバであり、図11を参照すると、取得モジュール1001は、
第2サーバが送信した音声データを受信するために用いられ、音声データは、第1端末によって第2サーバに送信され、第2サーバは、第1端末が接続されるサーバである、受信ユニット1015を含む。
一実施例では、図11を参照すると、選択モジュール1002は、
第2端末のための対応する制御プログラムを作成するための作成ユニット1016と、
制御プログラムを実行することにより、少なくとも3つのチャンネルの音声データの指示情報に応じて、少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するための第5選択ユニット1017と、を含む。
なお、上記の実施例にて提供される通話装置で通話する場合、上記の各機能モジュールの分割を例として説明したに過ぎず、実際の適用では、必要に応じて、上記の機能を異なる機能モジュールで行うように割り当て、即ち、サーバの内部構造を、異なる機能モジュールに分割して、以上に説明した全部又は一部の機能を完了することができる。また、上記の実施例にて提供される通話装置は、通話方法の実施例と同じの構想に属し、具体的な実施プロセスの詳細は、方法の実施例を参照されたい。
図12は、本願の例示的な一実施例にて提供される端末1200の構造の模式図である。
一般に、端末1200は、プロセッサ1201及びメモリ1202を含む。
プロセッサ1201は、例えば4コアプロセッサ、8コアプロセッサなどの1つ又は複数の処理コアを含んでもよい。プロセッサ1201は、DSP(Digital Signal Processing、デジタル信号処理)、FPGA(Field-Programmable Gate Array、フィールドプログラマブルゲートアレイ(FPGA))、PLA(Programmable Logic Array、プログラマブルロジックアレイ)のうちの少なくとも1つのハードウェアの形で実装されてもよい。プロセッサ1201は、メインプロセッサ及びコプロセッサを含んでもよく、メインプロセッサは、ウェイク状態でのデータを処理するためのプロセッサであり、CPU(Central Processing Unit、中央処理装置)とも呼ばれ、コプロセッサは、待機状態でのデータを処理するための低消費電力プロセッサである。一部の実施例では、プロセッサ1201には、GPU(Graphics Processing Unit、グラフィックス処理ユニット)が組み込まれてもよく、GPUは、ディスプレイに表示しようとするコンテンツのレンダリング及び描画を担当するために用いられる。一部の実施例では、プロセッサ1201は、さらに、機械学習に関する演算操作を処理するためのAI(Artificial Intelligence、人工知能)プロセッサを含んでもよい。
メモリ1202は、1つ又は複数のコンピュータ可読記憶媒体を含んでもよく、当該コンピュータ可読記憶媒体は、非一時的なものであってもよい。メモリ1202は、さらに、高速ランダムアクセスメモリと、例えば1つ又は複数のディスク記憶媒機器、フラッシュメモリ記憶機器などの不揮発性メモリと、を含んでもよい。一部の実施例では、メモリ1202内の非一時的なコンピュータ可読記憶媒体は、少なくとも1つのプログラムコードを記憶するために用いられ、当該少なくとも1つのプログラムコードは、プロセッサ1201によって実行されることで、本願の方法の実施例にて提供される通話方法を実現する。
一部の実施例では、機器1200は、任意選択で、周辺機器インターフェース1203及び少なくとも1つの周辺機器をさらに含む。プロセッサ1201、メモリ1202及び周辺機器インターフェース1203は、バス又は信号線を介して互いに接続されてもよい。各周辺機器は、バス、信号線又は回路基板を介して周辺機器インターフェース1203に接続されてもよい。具体的には、周辺機器は、無線周波数回路1204、タッチディスプレイ1205、カメラ1206、オーディオ回路1207、測位コンポーネント1208及び電源1209のうちの少なくとも1つを含む。
周辺機器インターフェース1203は、I/O(Input/Output、入力/出力)に関する少なくとも1つの周辺機器をプロセッサ1201及びメモリ1202に接続するために使用してもよい。一部の実施例では、プロセッサ1201、メモリ1202及び周辺機器インターフェース1203は、同一のチップ又は回路基板上に集積され、他の一部の実施例では、プロセッサ1201、メモリ1202及び周辺機器インターフェース1203のうちのいずれか1つ又は2つは、個別のチップ又は回路基板上に実装されてもよく、本実施例では、これに対して限定しない。
無線周波数回路1204は、電磁信号とも呼ばれるRF(Radio Frequency、周波数)信号を受送信するために用いられる。無線周波数回路1204は、電磁信号を介して通信ネットワーク及び他の通信機器と通信する。無線周波数回路1204は、電気信号を電磁信号に変換して送信したり、受信した電磁信号を電気信号に変換したりする。任意選択で、無線周波数回路1204は、アンテナシステム、RFトランシーバ、1つ又は複数の増幅器、チューナ、発振器、デジタル信号プロセッサ、コーデックチップセット、及びユーザ識別モジュールカードなどを含む。無線周波数回路1204は、少なくとも1つの無線通信プロトコルを介して他の機器と通信することができる。当該無線通信プロトコルは、メトロポリタンエリアネットワーク、各世代移動通信ネットワーク(2G、3G、4G及び8G)、無線ローカルエリアネットワーク及び/又はWi-Fi(Wireless Fidelity、ワイヤレス・フィディリティー)ネットワークを含むが、これらに限定されない。一部の実施例では、無線周波数回路1204は、さらに、NFC(Near Field Communication、近距離無線通信)に関する回路を含んでもよく、本願は、これに対して限定しない。
ディスプレイ1205は、UI(User Interface、ユーザインタフェース)を表示するために用いられる。当該UIは、図形、テキスト、アイコン、ビデオ、及びこれらの任意の組み合わせを含んでもよい。ディスプレイ1205がタッチディスプレイである場合、ディスプレイ1205は、ディスプレイ1205の表面又は表面の上方のタッチ信号を収集する能力も有する。当該タッチ信号は、制御信号としてプロセッサ1201に入力されて処理されてもよい。この場合、ディスプレイ1205ソフトボタン及び/又はソフトキーボードとも呼ばれる仮想ボタン及び/又は仮想キーボードを提供するために用いられてもよい。一部の実施例では、ディスプレイ1205は、1つであってもよく、端末1200のフロントパネルに設けられてもよい。別の一部の実施例では、ディスプレイ1205は、少なくとも2つであってもよいし、それぞれ端末1200の異なる表面に設けられたり、折り畳まれるように設計されたりしてもよい。他の一部の実施例では、ディスプレイ1205は、端末1200の湾曲面又は折り畳み面に設けられるフレキシブルなディスプレイであってもよい。ひいては、ディスプレイ1205は、非矩形の不規則な図形、即ち異形ディスプレイに設けられてもよい。ディスプレイ1205は、LCD(Liquid Crystal Display、液晶ディスプレイ)、OLED(Organic Light-Emitting Diode、有機発光ダイオード)などの材質を用いて製造されてもよい。
カメラコンポーネント1206は、画像又はビデオを収集する。任意選択で、カメラコンポーネント1206は、フロントカメラとリアカメラとを含む。一般的に、フロントカメラは、端末1200末のフロントパネルに設けられ、リアカメラは、端末1200の背面に設けられる。一部の実施例では、リアカメラは、少なくとも2つあり、それぞれメインカメラ、デプスカメラ、広角カメラ、望遠カメラのうちの任意の1種類であり、これにより、メインカメラ及びデプスカメラを組み合わせて実現される背景ボケの機能、メインカメラ及び広角カメラを組み合わせて実現されるパノラマ撮影及びVR(Virtual Reality、仮想現実)撮影の機能、又はその他の組み合わせ撮影の機能を実現する。一部の実施例では、カメラコンポーネント1206は、フラッシュをさらに含んでもよい。フラッシュは、単一色温度フラッシュであってもよいし、二重色温度フラッシュであってもよい。二重色温度フラッシュは、暖色系のフラッシュと寒色系のフラッシュとの組み合わせを指し、異なる色温度での光の補償に用いることができる。
オーディオ回路1207は、マイクロホン及びスピーカーを含んでもよい。マイクロホンは、ユーザ及び環境の音波を収集し、音波を電気信号に変換し、電気信号を、処理のためにプロセッサ1201に入れて処理するか、又は、音声通信を実現するために無線周波数回路1204に入力する。マイクロホンは、ステレオ収集又はノイズ低減のために、複数であってもよく、端末1200の異なる部位にそれぞれ設けられてもよい。マイクロホンは、アレイマイクロホン又は全指向性マイクロホンであってもよい。スピーカーは、プロセッサ1201又は無線周波数回路1204からの電気信号を音波に変換する。スピーカーは、従来のフィルムスピーカーであってもよいし、圧電セラミックスピーカーであってもよい。スピーカーが圧電セラミックスピーカーである場合に、電気信号を人間に聞こえる音波に変換できるだけでなく、距離測定などの用途のために、電気信号を人間に聞こえない音波に変換できる。一部の実施例では、オーディオ回路1207は、イヤホンジャックをさらに含んでもよい。
測位コンポーネント1208は、ナビゲーション又はLBS(Location Based Service、位置情報サービス)を実現するために、端末1200の現在の地理的位置を測位するために用いられる。測位コンポーネント1208は、米国のGPS(Global Positioning System、全地球測位システム)、中国の北斗システム、ロシアのグロナスシステム、又は欧州連合のガリレオシステムに基づく測位コンポーネントであってもよい。
電源1209は、端末1200内の各コンポーネントに電力を供給するために用いられる。電源1209は、交流電力、直流電力、一次電池、又は充電式電池であってもよい。電源1209に充電式電池が含まれる場合、当該充電式電池は、有線充電又は無線充電のいずれかをサポートすることができる。当該充電式電池は、急速充電技術をサポートするために用いられてもよい。
一部の実施例では、端末1200は、1つ又は複数のセンサ1210をさらに含む。当該1つ又は複数のセンサ1210は、加速度センサ1211、ジャイロセンサ1212、圧力センサ1213、指紋センサ1214、光学センサ1215及び近接センサ1216を含むが、これらに限定されない。
加速度センサ1211は、端末1200で確立された座標系の3つの座標軸上の加速度の大きさを検出することができる。例えば、加速度センサ1211は、重力加速度の3つの座標軸の成分を検出するために用いられてもよい。プロセッサ1201は、加速度センサ1211で収集された重力加速度信号に基づいて、タッチディスプレイ1205が横方向のビュー又は縦方向のビューでユーザインタフェースの表示を行うように制御してもよい。加速度センサ1211は、さらに、ゲーム又はユーザの運動データの収集に用いられてもよい。
ジャイロセンサ1212は、端末1200の機体の方向及び回転角度を検出することができ、ジャイロセンサ1212は、加速度センサ1211と協働して、端末1200対するユーザの3D動作を収集することができる。プロセッサ1201は、ジャイロセンサ1212で収集されたデータに基づいて、動作感知(例えば、ユーザの傾き操作に応じてUIを変更する)、撮影時の画像安定化、ゲーム制御、及び慣性航法の機能を実現することができる。
圧力センサ1213は、端末1200のサイドフレーム及び/又はタッチディスプレイ1205の下層に設けられてもよい。圧力センサ1213は、端末1200のサイドフレームに設けられる場合、端末1200に対するユーザの把持信号を検出することができ、プロセッサ1201は、圧力センサ1213で収集された把持信号に基づいて、左右手の識別又はショートカット操作を行う。圧力センサ1213がタッチディスプレイ1205の下層に設けられる場合、プロセッサ1201は、タッチディスプレイ1205に対するユーザの圧力操作に基づいて、UI上の操作可能なコントロールユニットへの制御を実現する。操作可能なコントロールユニットは、ボタンコントロールユニット、スクロールバーコントロールユニット、アイコンコントロールユニット、メニューコントロールユニットのうちの少なくとも1種類を含む。
指紋センサ1214は、ユーザの指紋を収集し、プロセッサ1201が、指紋センサ1414で収集された指紋に基づいて、ユーザのアイデンティティを識別し、又は、指紋センサ1214が、収集された指紋に基づいて、ユーザのアイデンティティを識別する。ユーザのアイデンティティが、信頼できるアイデンティティであると識別された場合、プロセッサ1201は、当該ユーザが関連のセンシティブな操作を実行することを許可し、当該センシティブな操作は、画面のロック解除、暗号化情報の閲覧、ソフトウェアのダウンロード、支払い、及び設定変更などを含む。指紋センサ1214は、端末1200正面、背面、又は側面に設けられてもよい。当端末1200に物理キー又はメーカーロゴが設けられる場合、指紋センサ1214は、物理キー又はメーカーロゴと一体化されてもよい。
光学センサ1215は、環境光の強度を収集する。一実施例では、プロセッサ1201は、光学センサ1215で収集された環境光の強度に応じて、タッチディスプレイ1205の表示輝度を制御してもよい。具体的には、環境光の強度が高い場合に、タッチディスプレイ1205の表示輝度を高くし、環境光の強度が低い場合に、タッチディスプレイ1205の表示輝度を低くする。別の実施例では、プロセッサ1201は、光学センサ1215で収集された環境光の強度に応じて、カメラコンポーネント1206の撮影パラメータを動的に調整してもよい。
近接センサ1216は、距離センサとも呼ばれ、通常、端末1200のフロントパネルに設けられる。近接センサ1216は、ユーザと端末1200の正面との距離を収集する。一実施例では、近接センサ1216が、ユーザと端末1200の正面との距離が徐々に小さくなることを検出すると、プロセッサ1201は、タッチディスプレイ1205を点灯状態から消灯状態に切り替えるように制御し、近接センサ1216が、ユーザと端末1200の正面との距離が徐々に大きくなることを検出すると、プロセッサ1201は、タッチディスプレイ1205を消灯状態から点灯状態に切り替えるように制御する。
当業者であれば理解できるように、図12に示す構造は、端末1200を限定するもではなき、端末1200は、図示より多く又は少ないコンポーネントを含んでもよく、あるいはいくらかのコンポーネントを組み合わせたものであってもよく、あるいはコンポーネントの異なる配置を採用してもよい。
図13は、本願の実施例にて提供されるサーバの構造の模式図であり、当該サーバ1300は、構成又は性能の違いにより比較的大きな差が発生することができ、1つ又は1つ以上のプロセッサ(Central Processing Units、CPU)1301及び1つ又は1つ以上のメモリ1302を含んでもよく、ここで、前記メモリ1302には、少なくとも1つのプログラムコードが設けられ、前記少なくとも1つのプログラムコードは、上記の各方法の実施例にて提供される方法を実現するために、前記プロセッサ1301によってロードされて実行される。無論、当該サーバは、入出力を行うために、有線又は無線ネットワークインターフェース、キーボード及び入力出力インターフェースなどの部材をさらに有してもよく、当該サーバは、他の機器機能を実装するための部材をさらに含んでもよく、ここでは詳細な説明を省略する。
サーバ1300は、上記の通話方法におけるサーバ、第1サーバ及び第2サーバによって実行されるステップに使用されることができる。
本願の実施例は、ミキシングのためのサーバをさらに提供し、サーバはメモリ及びプロセッサを含み、メモリにはコンピュータ可読命令が記憶されており、コンピュータ可読命令がプロセッサによって実行されると、プロセッサが上記の通話方法のステップを実行する。ここの通話方法のステップは、上記の各実施例の通話方法におけるステップであり得る。
本願の実施例は、コンピュータ可読記憶媒体をさらに提供し、コンピュータ可読記憶媒体にはコンピュータ可読命令が記憶されており、コンピュータ可読命令がプロセッサによって実行されると、プロセッサが上記の通話方法のステップを実行する。ここの通話方法のステップは、上記の各実施例の通話方法におけるステップであり得る。
本願の実施例は、コンピュータプログラムをさらに提供し、当該コンピュータプログラムは、少なくとも1つのコンピュータ可読命令を含み、当該少なくとも1つのコンピュータ可読命令がプロセッサによってロードされて実行されると、プロセッサが上記の通話方法のステップを実行する。ここの通話方法のステップは、上記の各実施例の通話方法におけるステップであり得る。
当業者であれば理解できるように、上記の実施例の方法の全部又は一部のフローの実現は、コンピュータ可読命令で関連のハードウェアを指示して完了することができ、前記プログラムは、不揮発性コンピュータ可読記憶媒体に記憶されてもよく、当該プログラムは、実行される際に、上記の各方法の実施例のフローを含んでもよい。ここで、本願にて提供される各実施例に使用されるメモリ、ストレージ、データベース、または他の媒体への任意の参照は、不揮発性および/または揮発性メモリを含み得る。不揮発性メモリは、読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含み得る。限定ではなく例示として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、エンハンストSDRAM(ESDRAM)、シンクロナス(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)直接RAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、及びメモリバスダイナミックRAM(RDRAM)など、様々な形態で利用可能である。
以上の実施例の各技術的特徴に対して、任意に組み合わせを行ってもよく、記載を簡潔にするために、上記の実施例の各技術的特徴の全ての可能な組み合わせを記載していないが、これらの技術的特徴の組合せはいずれも、矛盾が生じない限り、本明細書の記載範囲であると認められる。
以上の実施例は、本願のいくつかの実施形態を表すだけで、その記載が具体的且つ詳しいが、これを理由で、発明の特許範囲に対する限定と理解されることができない。当業者にとって、本出願の構想から逸脱しない前提で、さらに、若干の変形及び改良を行ってもよく、これらはいずれも本出願の保護範囲に当該当すべきであることに留意されたい。従って、本出願特許の保護範囲は、添付の特許請求の範囲を基準とする。
101 端末
102 サーバ
103 制御サーバ
301 端末
302 第1サーバ
303 第2サーバ
1001 取得モジュール
1002 選択モジュール
1003 送信モジュール
1004 第1選択ユニット
1005 第2選択ユニット
1006 第3選択ユニット
1007 第1付加ユニット
1008 比較ユニット
1009 第2付加ユニット
1010 除去ユニット
1011 第3付加ユニット
1012 トラバースユニット
1013 第4選択ユニット
1014 決定モジュール
1015 受信ユニット
1016 作成ユニット
1017 第5選択ユニット
1200 端末
1201 プロセッサ
1202 メモリ
1203 周辺機器インターフェース
1204 無線周波数回路
1205 ディスプレイ
1206 カメラコンポーネント
1207 オーディオ回路
1208 測位コンポーネント
1209 電源
1210 センサ
1211 加速度センサ
1212 ジャイロセンサ
1213 圧力センサ
1214 指紋センサ
1215 光学センサ
1216 近接センサ
1300 サーバ
1301 プロセッサ
1302 メモリ

Claims (17)

  1. サーバによって実行される通話方法であって、
    少なくとも3つの第1端末が送信した音声データを取得するステップであって、前記音声データは指示情報を携帯し、前記指示情報は、少なくとも音声区間検出(VAD)情報を含み、前記VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる、ステップと、
    取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するステップであって、前記少なくとも2つのチャンネルの標的音声データの数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、ステップと、
    前記少なくとも2つのチャンネルの標的音声データを第2端末に送信するステップであって、前記第2端末は、前記少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる、ステップと、を含み、
    前記第2端末は、通話グループ内のいずれか1つの端末であり、前記少なくとも3つの第1端末は、前記通話グループ内の前記第2端末と異なる端末である、
    ことを特徴とする通話方法。
  2. 取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択する前記ステップは、
    取得した少なくとも3つのチャンネルの音声データのVAD情報に応じて、前記少なくとも3つのチャンネルの音声データから音声区間を含む少なくとも2つのチャンネルの標的音声データを取得するステップを含む、
    ことを特徴とする請求項1に記載の通話方法。
  3. 前記指示情報には音声エネルギーが含まれ、取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択する前記ステップは、
    取得した少なくとも3つのチャンネルの音声データのVAD情報及び音声エネルギーに応じて、前記少なくとも3つのチャンネルの音声データから、音声区間を含む音声データのうち、前記音声エネルギーが最大のプリセット数の標的音声データを選択するステップであって、前記プリセット数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、ステップを含む、
    ことを特徴とする請求項1に記載の通話方法。
  4. 前記指示情報には音声エネルギーが含まれ、取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択する前記ステップは、
    取得した少なくとも3つのチャンネルの音声データのVAD情報及び音声エネルギーに応じて、前記少なくとも3つのチャンネルの音声データの排列順を取得するステップであって、音声区間を含む音声データが音声区間を含まない音声データの前に排列され、前記音声区間を含む音声データのうち、音声エネルギーの大きい音声データが音声エネルギーの小さい音声データの前に排列される、ステップと、
    前記少なくとも3つのチャンネルの音声データの排列順にしたがって、ソート順が上位のプリセット数の標的音声データを選択するステップであって、前記プリセット数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、ステップと、を含む、
    ことを特徴とする請求項1に記載の通話方法。
  5. 取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択する前記ステップは、
    前記少なくとも3つのチャンネルの音声データにおける第1音声データが音声区間を含み、標的音声データリスト内の音声データの数がプリセット数に達していない場合、前記第1音声データを前記標的音声データリストに付加するステップであって、前記標的音声データリストは、選択した標的音声データを記憶するために用いられ、前記プリセット数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、ステップを含む、
    ことを特徴とする請求項1に記載の通話方法。
  6. 前記第1音声データが音声区間を含むが、前記標的音声データリスト内の音声データの数が前記プリセット数に達した場合、前記第1音声データの音声エネルギーと、前記標的音声データリスト内の音声エネルギーが最小の第2音声データの音声エネルギーとを比較するステップと、
    前記第1音声データの音声エネルギーが前記第2音声データの音声エネルギーよりも大きい場合、前記第1音声データを前記標的音声データリストに付加して、前記第2音声データを前記標的音声データリストから除去するステップと、をさらに含む、
    ことを特徴とする請求項5に記載の通話方法。
  7. 前記第1音声データが音声区間を含まない場合、前記第1音声データを候補音声データリストに付加するステップをさらに含む、
    ことを特徴とする請求項5に記載の通話方法。
  8. 前記候補音声データリストは、第1候補音声データリスト及び第2候補音声データリストを含み、前記第1音声データが音声区間を含まない場合、前記第1音声データを候補音声データリストに付加する前記ステップは、
    前記第1音声データが音声区間を含まず、かつ、前記第1音声データに対応する第1端末が指定端末である場合、前記第1音声データを前記第1候補音声データリストに付加するステップであって、前記指定端末は、前に、送信した音声データが標的音声データとして選択された端末である、ステップを含む、
    ことを特徴とする請求項7に記載の通話方法。
  9. 前記第1音声データが音声区間を含まない場合、前記第1音声データを候補音声データリストに付加する前記ステップは、
    前記第1音声データが音声区間を含まず、かつ、前記第1音声データに対応する第1端末が指定端末でない場合、前記第1音声データを前記第2候補音声データリストに付加するステップを含む、
    ことを特徴とする請求項7に記載の通話方法。
  10. 取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択する前記ステップは、
    取得した少なくとも3つのチャンネルの音声データをトラバースし、前記少なくとも3つのチャンネルの音声データの指示情報に応じて、標的音声データリスト及び候補音声データリストを決定するステップであって、前記標的音声データリストは、現在選択された音声データを記憶するために用いられ、前記候補音声データリストは、現在選択されていない音声データを記憶するために用いられる、ステップと、
    前記少なくとも3つのチャンネルの音声データのトラバースが完了した後、前記標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記候補音声データリストから少なくとも1つの音声データを選択して、前記標的音声データリストに付加するステップであって、前記プリセット数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、ステップと、を含む、
    ことを特徴とする請求項1に記載の通話方法。
  11. 前記候補音声データリストは、第1候補音声データリスト及び第2候補音声データリストを含み、前記第1候補音声データリストは、音声区間を含まず、かつ、対応する第1端末が指定端末である音声データを記憶するために用いられ、前記第2候補音声データリストは、音声区間を含まず、かつ、対応する第1端末が指定端末でない音声データを記憶するために用いられ、前記指定端末は、前に、送信した音声データが標的音声データとして選択された端末である、
    ことを特徴とする請求項10に記載の通話方法。
  12. 前記標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記候補音声データリストから少なくとも1つの音声データを選択して、前記標的音声データリストに付加する前記ステップは、
    前記標的音声データリスト内の音声データの数が前記プリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記第1候補音声データリストから少なくとも1つの音声データを選択して、前記標的音声データリストに付加するステップを含む、
    ことを特徴とする請求項10に記載の通話方法。
  13. 前記標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記候補音声データリストから少なくとも1つの音声データを選択して、前記標的音声データリストに付加するステップは、
    前記標的音声データリスト内の音声データの数が前記プリセット数よりも少ない場合、前記第1候補音声データリスト内の音声データを全部前記標的音声データリストに付加するステップであって、音声データを付加した後、前記標的音声データリストの音声データの数が前記プリセット数以下である、ステップと、
    前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記第2候補音声データリストから少なくとも1つの音声データを選択して、前記標的音声データリストに付加するステップと、を含む、
    ことを特徴とする請求項10に記載の通話方法。
  14. 通話装置であって、
    少なくとも3つの第1端末が送信した、指示情報を携帯する音声データを取得するために用いられる取得モジュールであって、前記指示情報は、少なくとも音声区間検出(VAD)情報を含み、前記VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる、取得モジュールと、
    取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するために用いられる選択モジュールであって、前記少なくとも2つのチャンネルの標的音声データの数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、選択モジュールと、
    前記少なくとも2つのチャンネルの標的音声データを第2端末に送信するために用いられる送信モジュールであって、前記第2端末は、前記少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる、送信モジュールと、を含み、
    前記第2端末は、通話グループ内のいずれか1つの端末であり、前記少なくとも3つの第1端末は、前記通話グループ内の前記第2端末と異なる端末である、
    ことを特徴とする通話装置。
  15. 通話システムであって、通話グループ内の少なくとも4つの端末及びサーバを含み、
    前記少なくとも4つの端末は、前記サーバに指示情報を携帯する音声データを送信するために用いられ、前記指示情報は、少なくとも音声区間検出(VAD)情報を含み、前記VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられ、
    前記サーバは、少なくとも3つの第1端末が送信した音声データを取得するために用いられ、
    前記サーバは、さらに、取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するために用いられ、前記少なくとも2つのチャンネルの標的音声データの数は、前記少なくとも3つのチャンネルの音声データの数よりも少なく、
    前記サーバは、さらに、前記少なくとも2つのチャンネルの標的音声データを第2端末に送信するために用いられ、
    前記第2端末は、前記少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられ、
    前記第2端末は、前記通話グループ内のいずれか1つの端末であり、前記少なくとも3つの第1端末は、前記通話グループ内の前記第2端末と異なる端末である、
    ことを特徴とする通話システム。
  16. メモリ及びプロセッサを含むサーバであって、前記メモリにはコンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサによって実行されると、前記プロセッサが請求項1から13のいずれか一項に記載の方法のステップを実行する、
    ことを特徴とするサーバ。
  17. コンピュータ可読命令が記憶されている不揮発性記憶媒体であって、前記コンピュータ可読命令が1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサが請求項1から13のいずれか一項に記載の方法のステップを実行する、
    ことを特徴とする不揮発性記憶媒。
JP2022514029A 2019-12-23 2020-06-11 通話方法、通話装置、通話システム、サーバ及びコンピュータプログラム Active JP7361890B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911334137.X 2019-12-23
CN201911334137.XA CN111049848B (zh) 2019-12-23 2019-12-23 通话方法、装置、系统、服务器及存储介质
PCT/CN2020/095486 WO2021128752A1 (zh) 2019-12-23 2020-06-11 通话方法、装置、系统、服务器及存储介质

Publications (2)

Publication Number Publication Date
JP2022546542A true JP2022546542A (ja) 2022-11-04
JP7361890B2 JP7361890B2 (ja) 2023-10-16

Family

ID=70238472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022514029A Active JP7361890B2 (ja) 2019-12-23 2020-06-11 通話方法、通話装置、通話システム、サーバ及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US11842751B2 (ja)
EP (1) EP4016956A4 (ja)
JP (1) JP7361890B2 (ja)
CN (1) CN111049848B (ja)
WO (1) WO2021128752A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111049848B (zh) * 2019-12-23 2021-11-23 腾讯科技(深圳)有限公司 通话方法、装置、系统、服务器及存储介质
WO2021185318A1 (zh) * 2020-03-20 2021-09-23 海信视像科技股份有限公司 多媒体设备及投屏播放方法
CN111276152A (zh) * 2020-04-30 2020-06-12 腾讯科技(深圳)有限公司 一种音频处理方法、终端及服务器
CN112118264A (zh) * 2020-09-21 2020-12-22 苏州科达科技股份有限公司 会议混音方法以及系统
CN116609726A (zh) * 2023-05-11 2023-08-18 钉钉(中国)信息技术有限公司 一种声源定位方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070237099A1 (en) * 2006-03-29 2007-10-11 Microsoft Corporation Decentralized architecture and protocol for voice conferencing
JP2008141505A (ja) * 2006-12-01 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 話者選択装置、話者選択方法、話者選択プログラムおよびこれを記録した記録媒体
CN101252452A (zh) * 2007-03-31 2008-08-27 红杉树(杭州)信息技术有限公司 一种多媒体会议中分布式混音系统

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7599834B2 (en) * 2005-11-29 2009-10-06 Dilithium Netowkrs, Inc. Method and apparatus of voice mixing for conferencing amongst diverse networks
US9331887B2 (en) * 2006-03-29 2016-05-03 Microsoft Technology Licensing, Llc Peer-aware ranking of voice streams
ATE527810T1 (de) 2006-05-11 2011-10-15 Global Ip Solutions Gips Ab Tonmischung
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
CN101471804B (zh) 2007-12-28 2011-08-10 华为技术有限公司 一种音频处理方法、系统和控制服务器
US8532269B2 (en) * 2009-01-16 2013-09-10 Microsoft Corporation In-band signaling in interactive communications
US8989058B2 (en) * 2011-09-28 2015-03-24 Marvell World Trade Ltd. Conference mixing using turbo-VAD
CN102436818A (zh) 2011-10-25 2012-05-02 浙江万朋网络技术有限公司 一种基于能量优先的服务器端选路混音方法
US8791982B1 (en) * 2012-06-27 2014-07-29 Google Inc. Video multicast engine
US9813808B1 (en) * 2013-03-14 2017-11-07 Amazon Technologies, Inc. Adaptive directional audio enhancement and selection
CN105513596B (zh) * 2013-05-29 2020-03-27 华为技术有限公司 一种语音控制方法和控制设备
JP6408020B2 (ja) * 2014-02-28 2018-10-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 遠隔会議における知覚的に連続的な混合
CN104200811A (zh) * 2014-08-08 2014-12-10 华迪计算机集团有限公司 对语音信号进行自适应谱减消噪处理的方法和装置
KR101678657B1 (ko) * 2015-03-06 2016-11-22 라인 가부시키가이샤 회의 서비스 제공 방법 및 컴퓨터 프로그램
CN105304079B (zh) * 2015-09-14 2019-05-07 上海可言信息技术有限公司 一种多方通话的多模式语音合成方法与系统以及服务器
CN105957520B (zh) * 2016-07-04 2019-10-11 北京邮电大学 一种适用于回声消除系统的语音状态检测方法
CN107635082A (zh) * 2016-07-18 2018-01-26 深圳市有信网络技术有限公司 一种双端发声端检测系统
CN108206817B (zh) 2016-12-20 2020-12-22 中移(杭州)信息技术有限公司 一种会议选路方法及装置
CN108881783B (zh) * 2017-05-09 2020-09-08 腾讯科技(深圳)有限公司 实现多人会话的方法和装置、计算机设备和存储介质
CN107733848A (zh) * 2017-08-16 2018-02-23 北京中兴高达通信技术有限公司 终端混音的通话系统和方法
US10326886B1 (en) * 2017-08-31 2019-06-18 Amazon Technologies, Inc. Enabling additional endpoints to connect to audio mixing device
US10614831B2 (en) * 2017-10-12 2020-04-07 Qualcomm Incorporated Audio activity tracking and summaries
CN107733631A (zh) * 2017-10-31 2018-02-23 深圳市惟新科技股份有限公司 全双工终端的话权控制方法及装置
CN109331470B (zh) * 2018-08-21 2023-09-26 平安科技(深圳)有限公司 基于语音识别的抢答游戏处理方法、装置、设备及介质
CN111049848B (zh) * 2019-12-23 2021-11-23 腾讯科技(深圳)有限公司 通话方法、装置、系统、服务器及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070237099A1 (en) * 2006-03-29 2007-10-11 Microsoft Corporation Decentralized architecture and protocol for voice conferencing
JP2008141505A (ja) * 2006-12-01 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 話者選択装置、話者選択方法、話者選択プログラムおよびこれを記録した記録媒体
CN101252452A (zh) * 2007-03-31 2008-08-27 红杉树(杭州)信息技术有限公司 一种多媒体会议中分布式混音系统

Also Published As

Publication number Publication date
EP4016956A4 (en) 2022-10-12
US11842751B2 (en) 2023-12-12
JP7361890B2 (ja) 2023-10-16
US20220044699A1 (en) 2022-02-10
EP4016956A1 (en) 2022-06-22
CN111049848B (zh) 2021-11-23
CN111049848A (zh) 2020-04-21
WO2021128752A1 (zh) 2021-07-01

Similar Documents

Publication Publication Date Title
JP7361890B2 (ja) 通話方法、通話装置、通話システム、サーバ及びコンピュータプログラム
US11798566B2 (en) Data transmission method and apparatus, terminal, and storage medium
CN110022489B (zh) 视频播放方法、装置及存储介质
CN110996305B (zh) 连接蓝牙设备的方法、装置、电子设备及介质
CN113890932A (zh) 一种音频控制方法、系统及电子设备
US11315534B2 (en) Method, apparatus, terminal and storage medium for mixing audio
CN111596885B (zh) 音频数据处理方法、服务器及存储介质
WO2022143883A1 (zh) 一种拍摄方法、系统及电子设备
CN110149491B (zh) 视频编码方法、视频解码方法、终端及存储介质
WO2023151526A1 (zh) 音频采集方法、装置、电子设备及外设组件
CN110798327B (zh) 消息处理方法、设备及存储介质
CN111628925A (zh) 歌曲交互方法、装置、终端及存储介质
CN111613213A (zh) 音频分类的方法、装置、设备以及存储介质
CN111312207B (zh) 文本转音频方法、装置、计算机设备及存储介质
CN114666433A (zh) 一种终端设备中啸叫处理方法及装置、终端
US20220174356A1 (en) Method for determining bandwidth, terminal, and storage medium
WO2022110939A1 (zh) 一种设备推荐方法及电子设备
CN112151017B (zh) 语音处理方法、装置、系统、设备及存储介质
CN113192519B (zh) 音频编码方法和装置以及音频解码方法和装置
CN109155803B (zh) 音频数据处理方法、终端设备和存储介质
CN112260845B (zh) 进行数据传输加速的方法和装置
CN112329909B (zh) 生成神经网络模型的方法、装置及存储介质
CN113805837A (zh) 音频处理方法、移动终端及存储介质
CN113301444A (zh) 视频处理方法、装置、电子设备及存储介质
US20230297324A1 (en) Audio Control Method, System, and Electronic Device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220301

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230320

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231003

R150 Certificate of patent or registration of utility model

Ref document number: 7361890

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150