JP7361890B2 - 通話方法、通話装置、通話システム、サーバ及びコンピュータプログラム - Google Patents
通話方法、通話装置、通話システム、サーバ及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7361890B2 JP7361890B2 JP2022514029A JP2022514029A JP7361890B2 JP 7361890 B2 JP7361890 B2 JP 7361890B2 JP 2022514029 A JP2022514029 A JP 2022514029A JP 2022514029 A JP2022514029 A JP 2022514029A JP 7361890 B2 JP7361890 B2 JP 7361890B2
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- channels
- terminal
- target
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 73
- 238000004590 computer program Methods 0.000 title claims description 4
- 230000015654 memory Effects 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 23
- 230000001755 vocal effect Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 15
- 230000002093 peripheral effect Effects 0.000 description 11
- 230000001133 acceleration Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 1
- 239000000919 ceramic Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/765—Media network packet handling intermediate
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1069—Session establishment or de-establishment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
- H04L65/4038—Arrangements for multi-party communication, e.g. for conferences with floor control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Description
本願は、2019年12月23日に中国国家知識産権局に提出された、出願番号が第201911334137.X号で、出願名称が「通話方法、装置、システム、サーバ及び記憶媒体」である中国特許出願の優先権を主張し、当該出願の全ての内容は援用により本願に組み込まれる。
少なくとも3つの第1端末が送信した音声データを取得するステップであって、前記音声データは指示情報を携帯し、前記指示情報は、少なくとも音声区間検出(VAD)情報を含み、前記VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる、ステップと、
取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するステップであって、前記少なくとも2つのチャンネルの標的音声データの数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、ステップと、
前記少なくとも2つのチャンネルの標的音声データを第2端末に送信するステップであって、前記第2端末は、前記少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる、ステップと、を含み、
前記第2端末は、通話グループ内のいずれか1つの端末であり、前記少なくとも3つの第1端末は、前記通話グループ内の前記第2端末と異なる端末である。
少なくとも3つの第1端末が送信した、指示情報を携帯する音声データを取得するために用いられる取得モジュールであって、前記指示情報は、少なくとも音声区間検出(VAD)情報を含み、前記VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる、取得モジュールと、
取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するために用いられる選択モジュールであって、前記少なくとも2つのチャンネルの標的音声データの数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、選択モジュールと、
前記少なくとも2つのチャンネルの標的音声データを第2端末に送信するために用いられる送信モジュールであって、前記第2端末は、前記少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる、送信モジュールと、を含み、
前記第2端末は、通話グループ内のいずれか1つの端末であり、前記少なくとも3つの第1端末は、前記通話グループ内の前記第2端末と異なる端末である。
前記少なくとも4つの端末は、前記サーバに指示情報を携帯する音声データを送信するために用いられ、前記指示情報は、少なくとも音声区間検出(VAD)情報を含み、前記VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられ、
前記サーバは、少なくとも3つの第1端末が送信した音声データを取得するために用いられ、
前記サーバは、さらに、取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するために用いられ、前記少なくとも2つのチャンネルの標的音声データの数は、前記少なくとも3つのチャンネルの音声データの数よりも少なく、
前記サーバは、さらに、前記少なくとも2つのチャンネルの標的音声データを第2端末に送信するために用いられ、
前記第2端末は、前記少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられ、
前記第2端末は、前記通話グループ内のいずれか1つの端末であり、前記少なくとも3つの第1端末は、前記通話グループ内の前記第2端末と異なる端末である。
(1)第1音声データが音声区間を含まず、かつ、第1音声データに対応する第1端末が指定端末である場合、第1音声データを第1候補音声データリストに付加するステップと、
(2)第1音声データが音声区間を含まず、かつ、第1音声データに対応する第1端末が指定端末でない場合、第1音声データを第2候補音声データリストに付加するステップと、を含む。
少なくとも3つのチャンネルの音声データのVAD情報に応じて、少なくとも3つのチャンネルの音声データから、音声区間を含む少なくとも2つのチャンネルの標的音声データを選択するための第1選択ユニット1004を含む。
少なくとも3つのチャンネルの音声データのVAD情報及び音声エネルギーに応じて、少なくとも3つのチャンネルの音声データから、音声区間を含む音声データのうち音声エネルギーが最大のプリセット数の標的音声データを選択するために用いられ、プリセット数は少なくとも3つのチャンネルの音声データの数よりも少ない、第2選択ユニット1005を含む。
少なくとも3つのチャンネルの音声データのVAD情報及び音声エネルギーに応じて、少なくとも3つのチャンネルの音声データの排列順を取得するために用いられ、音声区間を含む音声データが音声区間を含まない音声データの前に排列され、音声区間を含む音声データのうち、音声エネルギーの大きい音声データが音声エネルギーの小さい音声データの前に排列される、第3選択ユニット1006を含み、
第3選択ユニット1006は、さらに、少なくとも3つのチャンネルの音声データの排列順にしたがって、ソート順が上位のプリセット数の標的音声データを選択するために用いられ、プリセット数は少なくとも3つのチャンネルの音声データの数よりも少ない。
少なくとも3つのチャンネルの音声データのうちの第1音声データが音声区間を含み、標的音声データリスト内の音声データの数がプリセット数に達していない場合、第1音声データを標的音声データリストに付加するために用いられ、標的音声データリストは、選択した標的音声データを記憶するために用いられ、プリセット数は少なくとも3つのチャンネルの音声データの数よりも少ない、第1付加ユニット1007を含む。
第1音声データが音声区間を含むが、標的音声データリスト内の音声データの数がすでにプリセット数に達した場合、第1音声データの音声エネルギーと、標的音声データリスト内の音声エネルギーが最小の第2音声データの音声エネルギーとを比較するための比較ユニット1008と、
第1音声データの音声エネルギーが第2音声データの音声エネルギーよりも大きい場合、第1音声データを標的音声データリストに付加するための第2付加ユニット1009と、
第2音声データを標的音声データリストから除去するための除去ユニット1010と、を含む。
第1音声データが音声区間を含まない場合、第1音声データを候補音声データリストに付加するための第3付加ユニット1011を含む。
少なくとも3つのチャンネルの音声データをトラバースし、少なくとも3つのチャンネルの音声データの指示情報に応じて、標的音声データリスト及び候補音声データリストを決定するために用いられ、標的音声データリストは、現在選択された音声データを記憶するために用いられ、候補音声データリストは、現在選択されていない音声データを記憶するために用いられる、トラバースユニット1012と、
少なくとも3つのチャンネルの音声データのトラバースが完了した後、標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、標的音声データリスト内の音声データの数がプリセット数と等しくなるように、候補音声データリストから少なくとも1つの音声データを選択して、標的音声データリストに付加するために用いられ、プリセット数は少なくとも3つのチャンネルの音声データの数よりも少ない、第4選択ユニット1013と、を含む。
音声データのVAD情報に第1のVAD識別子が含まれている場合、音声データが音声区間を含むと決定するための決定モジュール1014を含み、
決定モジュール1014は、さらに、音声データのVAD情報に第1のVAD識別子が含まれていない場合、音声データが音声区間を含まないと決定するために用いられ、
ここで、第1のVAD識別子は、対応する音声フレームが音声区間であることを指示するために用いられる。
第2サーバが送信した音声データを受信するために用いられ、音声データは、第1端末によって第2サーバに送信され、第2サーバは、第1端末が接続されるサーバである、受信ユニット1015を含む。
第2端末のための対応する制御プログラムを作成するための作成ユニット1016と、
制御プログラムを実行することにより、少なくとも3つのチャンネルの音声データの指示情報に応じて、少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するための第5選択ユニット1017と、を含む。
102 サーバ
103 制御サーバ
301 端末
302 第1サーバ
303 第2サーバ
1001 取得モジュール
1002 選択モジュール
1003 送信モジュール
1004 第1選択ユニット
1005 第2選択ユニット
1006 第3選択ユニット
1007 第1付加ユニット
1008 比較ユニット
1009 第2付加ユニット
1010 除去ユニット
1011 第3付加ユニット
1012 トラバースユニット
1013 第4選択ユニット
1014 決定モジュール
1015 受信ユニット
1016 作成ユニット
1017 第5選択ユニット
1200 端末
1201 プロセッサ
1202 メモリ
1203 周辺機器インターフェース
1204 無線周波数回路
1205 ディスプレイ
1206 カメラコンポーネント
1207 オーディオ回路
1208 測位コンポーネント
1209 電源
1210 センサ
1211 加速度センサ
1212 ジャイロセンサ
1213 圧力センサ
1214 指紋センサ
1215 光学センサ
1216 近接センサ
1300 サーバ
1301 プロセッサ
1302 メモリ
Claims (11)
- サーバによって実行される通話方法であって、
少なくとも3つの第1端末が送信した音声データを取得するステップであって、前記音声データは指示情報を携帯し、前記指示情報は、少なくとも音声区間検出(VAD)情報を含み、前記VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる、ステップと、
取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するステップであって、前記少なくとも2つのチャンネルの標的音声データの数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、ステップと、
前記少なくとも2つのチャンネルの標的音声データを第2端末に送信するステップであって、前記第2端末は、前記少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる、ステップと、を含み、
前記第2端末は、通話グループ内のいずれか1つの端末であり、前記少なくとも3つの第1端末は、前記通話グループ内の前記第2端末と異なる端末であり、
取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択する前記ステップは、
取得した少なくとも3つのチャンネルの音声データの各々について前記標的音声データとして選択するか否かを判定し、前記少なくとも3つのチャンネルの音声データの指示情報に応じて、標的音声データリスト及び候補音声データリストを決定するステップであって、前記標的音声データリストは、現在選択された音声データを記憶するために用いられ、前記候補音声データリストは、現在選択されていない音声データを記憶するために用いられる、ステップと、
前記少なくとも3つのチャンネルの音声データの各々の判定が完了した後、前記標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記候補音声データリストから少なくとも1つの音声データを選択して、前記標的音声データリストに付加するステップであって、前記プリセット数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、ステップと、を含む、
ことを特徴とする通話方法。 - 取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択する前記ステップは、
取得した少なくとも3つのチャンネルの音声データのVAD情報に応じて、前記少なくとも3つのチャンネルの音声データから音声区間を含む少なくとも2つのチャンネルの標的音声データを取得するステップを含む、
ことを特徴とする請求項1に記載の通話方法。 - 前記指示情報には音声エネルギーが含まれ、取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択する前記ステップは、
取得した少なくとも3つのチャンネルの音声データのVAD情報及び音声エネルギーに応じて、前記少なくとも3つのチャンネルの音声データから、音声区間を含む音声データのうち、前記音声エネルギーが最大のプリセット数の標的音声データを選択するステップであって、前記プリセット数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、ステップを含む、
ことを特徴とする請求項1に記載の通話方法。 - 前記指示情報には音声エネルギーが含まれ、取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択する前記ステップは、
取得した少なくとも3つのチャンネルの音声データのVAD情報及び音声エネルギーに応じて、前記少なくとも3つのチャンネルの音声データの排列順を取得するステップであって、音声区間を含む音声データが音声区間を含まない音声データの前に排列され、前記音声区間を含む音声データのうち、音声エネルギーの大きい音声データが音声エネルギーの小さい音声データの前に排列される、ステップと、
前記少なくとも3つのチャンネルの音声データの排列順にしたがって、ソート順が上位のプリセット数の標的音声データを選択するステップであって、前記プリセット数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、ステップと、を含む、
ことを特徴とする請求項1に記載の通話方法。 - 前記候補音声データリストは、第1候補音声データリスト及び第2候補音声データリストを含み、前記第1候補音声データリストは、音声区間を含まず、かつ、対応する第1端末が指定端末である音声データを記憶するために用いられ、前記第2候補音声データリストは、音声区間を含まず、かつ、対応する第1端末が指定端末でない音声データを記憶するために用いられ、前記指定端末は、前に、送信した音声データが標的音声データとして選択された端末である、
ことを特徴とする請求項1に記載の通話方法。 - 前記標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記候補音声データリストから少なくとも1つの音声データを選択して、前記標的音声データリストに付加する前記ステップは、
前記標的音声データリスト内の音声データの数が前記プリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記第1候補音声データリストから少なくとも1つの音声データを選択して、前記標的音声データリストに付加するステップを含む、
ことを特徴とする請求項5に記載の通話方法。 - 前記標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記候補音声データリストから少なくとも1つの音声データを選択して、前記標的音声データリストに付加するステップは、
前記標的音声データリスト内の音声データの数が前記プリセット数よりも少ない場合、前記第1候補音声データリスト内の音声データを全部前記標的音声データリストに付加するステップであって、音声データを付加した後、前記標的音声データリストの音声データの数が前記プリセット数以下である、ステップと、
前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記第2候補音声データリストから少なくとも1つの音声データを選択して、前記標的音声データリストに付加するステップと、を含む、
ことを特徴とする請求項5に記載の通話方法。 - 通話装置であって、
少なくとも3つの第1端末が送信した、指示情報を携帯する音声データを取得するために用いられる取得モジュールであって、前記指示情報は、少なくとも音声区間検出(VAD)情報を含み、前記VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられる、取得モジュールと、
取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するために用いられる選択モジュールであって、前記少なくとも2つのチャンネルの標的音声データの数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、選択モジュールと、
前記少なくとも2つのチャンネルの標的音声データを第2端末に送信するために用いられる送信モジュールであって、前記第2端末は、前記少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられる、送信モジュールと、を含み、
前記第2端末は、通話グループ内のいずれか1つの端末であり、前記少なくとも3つの第1端末は、前記通話グループ内の前記第2端末と異なる端末であり、
取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択することは、
取得した少なくとも3つのチャンネルの音声データの各々について前記標的音声データとして選択するか否かを判定し、前記少なくとも3つのチャンネルの音声データの指示情報に応じて、標的音声データリスト及び候補音声データリストを決定することであって、前記標的音声データリストは、現在選択された音声データを記憶するために用いられ、前記候補音声データリストは、現在選択されていない音声データを記憶するために用いられる、ことと、
前記少なくとも3つのチャンネルの音声データの各々の判定が完了した後、前記標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記候補音声データリストから少なくとも1つの音声データを選択して、前記標的音声データリストに付加することであって、前記プリセット数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、ことと、を含む、
ことを特徴とする通話装置。 - 通話システムであって、通話グループ内の少なくとも4つの端末及びサーバを含み、
前記少なくとも4つの端末は、前記サーバに指示情報を携帯する音声データを送信するために用いられ、前記指示情報は、少なくとも音声区間検出(VAD)情報を含み、前記VAD情報は、対応する音声データが音声区間を含むか否かを指示するために用いられ、
前記サーバは、少なくとも3つの第1端末が送信した音声データを取得するために用いられ、
前記サーバは、さらに、取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択するために用いられ、前記少なくとも2つのチャンネルの標的音声データの数は、前記少なくとも3つのチャンネルの音声データの数よりも少なく、
前記サーバは、さらに、前記少なくとも2つのチャンネルの標的音声データを第2端末に送信するために用いられ、
前記第2端末は、前記少なくとも2つのチャンネルの標的音声データを復号化し、復号化された少なくとも2つのチャンネルの標的音声データをミキシングし、ミキシングされた音声データを再生するために用いられ、
前記第2端末は、前記通話グループ内のいずれか1つの端末であり、前記少なくとも3つの第1端末は、前記通話グループ内の前記第2端末と異なる端末であり、
取得した少なくとも3つのチャンネルの音声データの指示情報に応じて、前記少なくとも3つのチャンネルの音声データから少なくとも2つのチャンネルの標的音声データを選択することは、
取得した少なくとも3つのチャンネルの音声データの各々について前記標的音声データとして選択するか否かを判定し、前記少なくとも3つのチャンネルの音声データの指示情報に応じて、標的音声データリスト及び候補音声データリストを決定することであって、前記標的音声データリストは、現在選択された音声データを記憶するために用いられ、前記候補音声データリストは、現在選択されていない音声データを記憶するために用いられる、ことと、
前記少なくとも3つのチャンネルの音声データの各々の判定が完了した後、前記標的音声データリスト内の音声データの数がプリセット数よりも少ない場合、前記標的音声データリスト内の音声データの数が前記プリセット数と等しくなるように、前記候補音声データリストから少なくとも1つの音声データを選択して、前記標的音声データリストに付加することであって、前記プリセット数は、前記少なくとも3つのチャンネルの音声データの数よりも少ない、ことと、を含む、
ことを特徴とする通話システム。 - メモリ及びプロセッサを含むサーバであって、前記メモリにはコンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサによって実行されると、前記プロセッサが請求項1から7のいずれか一項に記載の方法のステップを実行する、
ことを特徴とするサーバ。 - コンピュータに請求項1から7のいずれか一項に記載の方法のステップを実行させる、
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911334137.XA CN111049848B (zh) | 2019-12-23 | 2019-12-23 | 通话方法、装置、系统、服务器及存储介质 |
CN201911334137.X | 2019-12-23 | ||
PCT/CN2020/095486 WO2021128752A1 (zh) | 2019-12-23 | 2020-06-11 | 通话方法、装置、系统、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022546542A JP2022546542A (ja) | 2022-11-04 |
JP7361890B2 true JP7361890B2 (ja) | 2023-10-16 |
Family
ID=70238472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022514029A Active JP7361890B2 (ja) | 2019-12-23 | 2020-06-11 | 通話方法、通話装置、通話システム、サーバ及びコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11842751B2 (ja) |
EP (1) | EP4016956B1 (ja) |
JP (1) | JP7361890B2 (ja) |
CN (1) | CN111049848B (ja) |
WO (1) | WO2021128752A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111049848B (zh) | 2019-12-23 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 通话方法、装置、系统、服务器及存储介质 |
WO2021185318A1 (zh) * | 2020-03-20 | 2021-09-23 | 海信视像科技股份有限公司 | 多媒体设备及投屏播放方法 |
CN111276152A (zh) * | 2020-04-30 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、终端及服务器 |
CN112118264A (zh) * | 2020-09-21 | 2020-12-22 | 苏州科达科技股份有限公司 | 会议混音方法以及系统 |
CN116609726A (zh) * | 2023-05-11 | 2023-08-18 | 钉钉(中国)信息技术有限公司 | 一种声源定位方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070237099A1 (en) | 2006-03-29 | 2007-10-11 | Microsoft Corporation | Decentralized architecture and protocol for voice conferencing |
JP2008141505A (ja) | 2006-12-01 | 2008-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 話者選択装置、話者選択方法、話者選択プログラムおよびこれを記録した記録媒体 |
CN101252452A (zh) | 2007-03-31 | 2008-08-27 | 红杉树(杭州)信息技术有限公司 | 一种多媒体会议中分布式混音系统 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007084254A2 (en) * | 2005-11-29 | 2007-07-26 | Dilithium Networks Pty Ltd. | Method and apparatus of voice mixing for conferencing amongst diverse networks |
US9331887B2 (en) * | 2006-03-29 | 2016-05-03 | Microsoft Technology Licensing, Llc | Peer-aware ranking of voice streams |
EP2367343B1 (en) | 2006-05-11 | 2017-03-22 | Google, Inc. | Audio mixing |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
CN101471804B (zh) | 2007-12-28 | 2011-08-10 | 华为技术有限公司 | 一种音频处理方法、系统和控制服务器 |
US8532269B2 (en) * | 2009-01-16 | 2013-09-10 | Microsoft Corporation | In-band signaling in interactive communications |
US8989058B2 (en) * | 2011-09-28 | 2015-03-24 | Marvell World Trade Ltd. | Conference mixing using turbo-VAD |
CN102436818A (zh) | 2011-10-25 | 2012-05-02 | 浙江万朋网络技术有限公司 | 一种基于能量优先的服务器端选路混音方法 |
US8791982B1 (en) * | 2012-06-27 | 2014-07-29 | Google Inc. | Video multicast engine |
US9813808B1 (en) * | 2013-03-14 | 2017-11-07 | Amazon Technologies, Inc. | Adaptive directional audio enhancement and selection |
CN105513596B (zh) * | 2013-05-29 | 2020-03-27 | 华为技术有限公司 | 一种语音控制方法和控制设备 |
WO2015130508A2 (en) * | 2014-02-28 | 2015-09-03 | Dolby Laboratories Licensing Corporation | Perceptually continuous mixing in a teleconference |
CN104200811A (zh) * | 2014-08-08 | 2014-12-10 | 华迪计算机集团有限公司 | 对语音信号进行自适应谱减消噪处理的方法和装置 |
KR101678657B1 (ko) * | 2015-03-06 | 2016-11-22 | 라인 가부시키가이샤 | 회의 서비스 제공 방법 및 컴퓨터 프로그램 |
CN105304079B (zh) * | 2015-09-14 | 2019-05-07 | 上海可言信息技术有限公司 | 一种多方通话的多模式语音合成方法与系统以及服务器 |
CN105957520B (zh) * | 2016-07-04 | 2019-10-11 | 北京邮电大学 | 一种适用于回声消除系统的语音状态检测方法 |
CN107635082A (zh) * | 2016-07-18 | 2018-01-26 | 深圳市有信网络技术有限公司 | 一种双端发声端检测系统 |
CN108206817B (zh) | 2016-12-20 | 2020-12-22 | 中移(杭州)信息技术有限公司 | 一种会议选路方法及装置 |
CN108881783B (zh) * | 2017-05-09 | 2020-09-08 | 腾讯科技(深圳)有限公司 | 实现多人会话的方法和装置、计算机设备和存储介质 |
CN107733848A (zh) * | 2017-08-16 | 2018-02-23 | 北京中兴高达通信技术有限公司 | 终端混音的通话系统和方法 |
US10326886B1 (en) * | 2017-08-31 | 2019-06-18 | Amazon Technologies, Inc. | Enabling additional endpoints to connect to audio mixing device |
US10614831B2 (en) * | 2017-10-12 | 2020-04-07 | Qualcomm Incorporated | Audio activity tracking and summaries |
CN107733631A (zh) * | 2017-10-31 | 2018-02-23 | 深圳市惟新科技股份有限公司 | 全双工终端的话权控制方法及装置 |
CN109331470B (zh) * | 2018-08-21 | 2023-09-26 | 平安科技(深圳)有限公司 | 基于语音识别的抢答游戏处理方法、装置、设备及介质 |
CN111049848B (zh) * | 2019-12-23 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 通话方法、装置、系统、服务器及存储介质 |
-
2019
- 2019-12-23 CN CN201911334137.XA patent/CN111049848B/zh active Active
-
2020
- 2020-06-11 JP JP2022514029A patent/JP7361890B2/ja active Active
- 2020-06-11 EP EP20907597.7A patent/EP4016956B1/en active Active
- 2020-06-11 WO PCT/CN2020/095486 patent/WO2021128752A1/zh unknown
-
2021
- 2021-10-21 US US17/507,761 patent/US11842751B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070237099A1 (en) | 2006-03-29 | 2007-10-11 | Microsoft Corporation | Decentralized architecture and protocol for voice conferencing |
JP2008141505A (ja) | 2006-12-01 | 2008-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 話者選択装置、話者選択方法、話者選択プログラムおよびこれを記録した記録媒体 |
CN101252452A (zh) | 2007-03-31 | 2008-08-27 | 红杉树(杭州)信息技术有限公司 | 一种多媒体会议中分布式混音系统 |
Also Published As
Publication number | Publication date |
---|---|
US11842751B2 (en) | 2023-12-12 |
EP4016956B1 (en) | 2024-07-31 |
JP2022546542A (ja) | 2022-11-04 |
WO2021128752A1 (zh) | 2021-07-01 |
US20220044699A1 (en) | 2022-02-10 |
EP4016956A4 (en) | 2022-10-12 |
EP4016956A1 (en) | 2022-06-22 |
CN111049848B (zh) | 2021-11-23 |
CN111049848A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7361890B2 (ja) | 通話方法、通話装置、通話システム、サーバ及びコンピュータプログラム | |
WO2021098405A1 (zh) | 数据传输方法、装置、终端及存储介质 | |
CN110022489B (zh) | 视频播放方法、装置及存储介质 | |
CN111596885B (zh) | 音频数据处理方法、服务器及存储介质 | |
CN110149491B (zh) | 视频编码方法、视频解码方法、终端及存储介质 | |
CN110798327B (zh) | 消息处理方法、设备及存储介质 | |
CN114697732A (zh) | 一种拍摄方法、系统及电子设备 | |
CN111628925A (zh) | 歌曲交互方法、装置、终端及存储介质 | |
CN111294551B (zh) | 进行音视频传输的方法、装置、设备及存储介质 | |
EP4152756A1 (en) | Device recommendation method and electronic device | |
CN111613213A (zh) | 音频分类的方法、装置、设备以及存储介质 | |
CN111586433B (zh) | 码率调整方法、装置、设备及存储介质 | |
US20220174356A1 (en) | Method for determining bandwidth, terminal, and storage medium | |
US20230297324A1 (en) | Audio Control Method, System, and Electronic Device | |
CN112151017B (zh) | 语音处理方法、装置、系统、设备及存储介质 | |
CN116996409A (zh) | 数据传输方法、装置、设备及存储介质 | |
CN113162837B (zh) | 语音消息的处理方法、装置、设备及存储介质 | |
CN113301444A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN111580777B (zh) | 音频处理方法、装置、电子设备及存储介质 | |
CN111683262B (zh) | 连麦时长确定方法、装置、服务器、终端及存储介质 | |
CN111246147B (zh) | 视频缓存方法、装置、终端及存储介质 | |
CN114464171A (zh) | 音频切分方法、装置、电子设备、存储介质及产品 | |
CN114826800A (zh) | 信息获取方法、装置、终端及存储介质 | |
CN118718398A (zh) | 数据处理方法、装置、设备、存储介质及产品 | |
CN110830656A (zh) | 进行来电提示的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220301 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220301 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230320 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230925 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231003 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7361890 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |