JP2022528683A

JP2022528683A - 音声通話方法並びにその、装置、電子機器及びコンピュータプログラム

Info

Publication number: JP2022528683A
Application number: JP2021558866A
Authority: JP
Inventors: 岳▲鵬▼ 李; 志▲鵬▼ ▲劉▼; 睿朱
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-24
Filing date: 2020-03-26
Publication date: 2022-06-15
Anticipated expiration: 2040-03-26
Also published as: US11875808B2; EP3920516A4; WO2021056999A1; JP7290749B2; EP3920516B1; EP3920516A1; EP3920516C0; CN110602327B; US20210390969A1; CN110602327A

Abstract

本出願は、音声通話方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供し、この方法は、端末システムの履歴時刻での音声通話状態を取得するステップであって、端末システムに少なくとも２つのオーディオキャプチャ機器が設けられているステップと、各オーディオキャプチャ機器により現在の時刻にキャプチャされた第１の音声信号を取得し、各第１の音声信号の信号エネルギーをそれぞれ決定するステップと、履歴時刻での音声通話状態、及び各第１の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器のうち現在の時刻でのターゲットオーディオキャプチャ機器を決定する。

Description

本出願は、２０１９年９月２４日に国家知識産権局に提出された、出願番号が２０１９１０９０６７２８．３で、発明の名称が「音声通話方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体」である中国特許出願の優先権を主張し、その全ての内容は、参照により本願に組み込まれるものとする。

本出願は、コンピュータの技術分野に関し、具体的には、本出願は、音声通話方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。

科学技術の急速な発展に伴い、人々はスマートフォン、スマートウォッチ、タブレットコンピュータなどの端末システムを介して音声通話を行うことができる。通話品質を向上させるために、端末システムの製造元は、集音用のデュアルマイクロホン（Ｍｉｃｒｏｐｈｏｎｅ）をデバイスに搭載する。デュアルマイクロホンは２つの対応する音声信号をもたらすため、それにより、対応する音声強化の技術案を設定することができる。

第１の態様によれば、本出願の実施例は、電子機器が実行する音声通話方法を提供し、この方法は、
端末システムの履歴時刻での音声通話状態を取得するステップであって、端末システムに少なくとも２つのオーディオキャプチャ機器が設けられているステップと、
各オーディオキャプチャ機器により現在の時刻にキャプチャされた第１の音声信号を取得し、各第１の音声信号の信号エネルギーをそれぞれ決定するステップと、
履歴時刻での音声通話状態、及び各第１の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器のうち現在の時刻でのターゲットオーディオキャプチャ機器を決定するステップとを含む。

第２の態様によれば、本出願の実施例は、電子機器が実行する音声通話方法を提供し、この方法は、
ユーザによる音声通話トリガー動作を受信するステップと、
音声通話トリガー動作に応じて、端末システムのオーディオ再生機器と少なくとも２つのオーディオキャプチャ機器を起動させるステップと、
音声通話の初期時刻に対して、事前設定情報に対応する少なくとも２つのオーディオキャプチャ機器のうちのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、初期時刻での音声通話状態を決定するステップと、
音声通話の初期時刻以外の現在の時刻に対して、第１の態様または第１の態様のいずれかの実施例に係る方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行うステップとを含む。

第３の態様によれば、本出願の実施例は、音声通話装置を提供し、この装置は、
端末システムの履歴時刻での音声通話状態を取得するための通話状態取得モジュールであって、端末システムに少なくとも２つのオーディオキャプチャ機器が設けられている通話状態取得モジュールと、
各オーディオキャプチャ機器により現在の時刻にキャプチャされた第１の音声信号を取得し、各第１の音声信号の信号エネルギーをそれぞれ決定するための信号エネルギー取得モジュールと、
履歴時刻での音声通話状態、及び各第１の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器のうちターゲットオーディオキャプチャ機器を決定するためのターゲットオーディオキャプチャ機器決定モジュールとを含む。

第４の態様によれば、本出願の実施例は、音声通話装置を提供し、この装置は、
ユーザによる音声通話トリガー動作を受信するためのトリガー動作受信モジュールと、
音声通話トリガー動作に応じて、端末システムのオーディオ再生機器と少なくとも２つのオーディオキャプチャ機器を起動させるための機器起動モジュールと、
音声通話の初期時刻に対して、事前設定情報に対応する少なくとも２つのオーディオキャプチャ機器のうちのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、初期時刻での音声通話状態を決定するための初期決定モジュールと、
音声通話の初期時刻以外の現在の時刻に対して、第１の態様または第１の態様のいずれかの実施例に係る方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行うための音声通話モジュールとを含む。

第５の態様によれば、本出願の実施例は、電子機器を提供し、この電子機器は、メモリ、プロセッサ、オーディオ再生機器及び少なくとも２つのオーディオキャプチャ機器を含み、
オーディオ再生機器は、音声信号を再生するためのものであり、
少なくとも２つのオーディオキャプチャ機器は、音声信号をキャプチャするためのものであり、
メモリにコンピュータプログラムが記憶されており、
プロセッサは、コンピュータプログラムを実行することで、第１の態様または第２の者面に係る方法を実現するためのものである。

第６の態様によれば、本出願の実施例は、コンピュータ読み取り可能な記憶媒体であって、プロセッサによって実行されると、第１の態様または第２の態様に係る方法を実現するコンピュータプログラムが記憶されている、ことを特徴とするコンピュータ読み取り可能な記憶媒体を提供する。

本出願の実施形態における技術的解決策をより明確に説明するために、以下、本出願の実施形態の説明において使用すべき図面を簡単に説明する。

携帯電話端末の構造模式図である。本出願の実施例に係る音声通話方法のフローチャートである。本出願の実施例の一例における音声通話の実現フローチャートである。本出願の実施例の一例における通話状態推定及びマイクロホン選択の実現フローチャートである。本出願の実施例の一例におけるターゲットマイクロホンの選択結果の模式図である。本出願の実施例に係る音声通話方法のフローチャートである。本出願の一例におけるアプリケーションシーンの模式図である。本出願の実施例に係る音声通話装置の構造ブロック図である。本出願の実施例に係る音声通話装置の構造ブロック図である。本出願の実施例に係る電子機器の構造模式図である。

以下、本出願の実施例について詳細に説明し、前記実施例の例は、図面に示され、常に同一または類似する符号は、同一または類似する素子または同一または類似機能を有する素子を表す。以下、図面を参照して説明された実施例は、例示的なものであり、本出願を解釈するためのものに過ぎず、本発明に対する限定として解釈すべきではない。

当業者であれば理解できるように、ここで使用される単数形式「１」、「１つ」、「前記」及び「この」は、明確に説明されない限り、複数形もまた含むことが意図される。本出願の明細書で使用される用語の「含む」は、前記特徴、整数、ステップ、動作、素子及び／またはユニットの存在を指定するが、１つ以上の他の特徴、整数、ステップ、動作、素子、ユニット及び／またはそれらのグループの存在または追加を除外しないことが更に理解されるであろう。要素が別の要素に「接続されている」または「結合されている」として言及される場合は、他の要素に直接接続、または結合されていてもよく、或は介在する要素が存在してもよいことを理解されるであろう。また、ここで用いられる「接続される」または「結合される」は、無線接続されるまたは無線結合されること、を含むことがさらに理解されるであろう。ここで用いられる「及び／または」という用語は、１つ以上のリストされた項目のすべてまたはいずれかのユニット及び全ての組み合わせを含む。

本出願の目的、技術案及び利点をより明瞭にするために、以下、図面を組み合わせて本出願の実施の形態についてさらに詳細に説明する。

先ず、本出願に係る複数の名詞について説明して解釈する。
近端とは、音声通話中の通信ネットワークにおけるローカル端である。
遠端とは、音声通話中の通信ネットワークにおける相手端である。
近端機器とは、音声通話中の近端での発話者が用いた通話機器であり、近端機器に、オーディオキャプチャ機器（例えばマイクロホン）及びオーディオ再生機器（例えばスピーカ、受話器）が設けられている。
遠端機器とは、音声通話中の遠端での発話者が用いた通話機器であり、遠端機器に、オーディオキャプチャ機器（例えばマイクロホン）及びオーディオ再生機器（例えばスピーカ、受話器）が設けられている。
近端音声信号とは、音声通話中に、近端の発話者が話し、近端機器のオーディオキャプチャ機器がキャプチャした音声信号である。
遠端音声信号とは、音声通話中に、遠端の発話者が話し、遠端機器のオーディオキャプチャ機器がキャプチャした後、通信ネットワークを介して近端機器に伝送した音声信号である。
エコー信号とは、音声通話中に、近端機器のオーディオ再生機器が遠端音声信号を再生した後、近端機器のオーディオキャプチャ機器がキャプチャした音声信号である。
エコーキャンセレーションとは、近端機器のオーディオキャプチャ機器からキャプチャされた音声信号からエコー信号をフィルタリングする処理プロセスである。
遠端シングルトークとは、音声通話中に、遠端音声信号が存在し、且つ近端音声信号が存在しない場合の通話状態である。
近端シングルトークとは、音声通話中に、遠端音声信号が存在せず、且つ近端音声信号が存在する場合の通話状態である。
両端ダブルトークとは、音声通話中に、遠端音声信号が存在し、且つ近端音声信号が存在する場合の通話状態である。
ノートークとは、音声通話中に、遠端音声信号が存在せず、且つ近端音声信号が存在しない場合の通話状態である。

デュアルマイクロホン端末システムを有する通話システムでは、通常、信号振幅が大きい一方のマイクロホン信号を以後の使用の入力とし、この選択技術案は、近端音声が存在する場合しか、音声を効果的に強化する効果を果たすことができず、次に強い遠端音声が存在するシーンでは、２つのマイクロホンがいずれも非常に強いエコーをキャプチャし、信号振幅が大きい一方のマイクロホン信号を選択すると、エコーが大きい一方のマイクロホン信号を選択してしまう可能性があり、音声強化が望まれる効果を実現できず、さらに、音声通話品質を低減させる。

音声通話を行っている２つの機器をＡ、Ｂとし、機器Ａのユーザａ、すなわち、このユーザａの角度から、機器Ａが近端機器であり、Ｂが対応する遠端機器すなわち相手端機器である。同様に、機器Ｂのユーザｂにとって、機器Ｂが近端機器であり、機器Ａが対応する遠端機器である。

以下、近端機器が機器Ａであることを例として説明し、Ａが近端機器である場合、Ａのオーディオキャプチャ機器がキャプチャしたローカル発話者すなわちユーザａの音声信号は、近端音声信号であり、ＢによりＡに送信された音声信号（相手端の発話者すなわちユーザｂが話すことで生じた音声信号）は、遠端音声信号であり、Ａにおけるオーディオ再生機器が遠端音声信号を再生した後、Ａにおけるオーディオキャプチャ機器がキャプチャした音声信号は、エコー信号であり、Ａのオーディオキャプチャ機器がキャプチャした音声信号中のエコー信号を削除するプロセスは、エコーキャンセレーションである。機器Ａのユーザａと機器Ｂのユーザｂとが音声通話を行っているとき、機器Ａにとっては、Ｂにより送信された遠端音声信号（ユーザｂが話している）を受信し、且つＡのオーディオキャプチャ機器がキャプチャした音声信号のうち、近端音声信号がない（ユーザａが話していない）場合の通話状態は、遠端シングルトークであり、ユーザｂが話さず、ユーザａのみ話している場合の通話状態は、近端シングルトークであり、ユーザａ及びユーザｂがいずれも話している場合の通話状態は、両端ダブルトークであり、ユーザａ及びユーザｂがいずれも話していない場合の通話状態は、ノートークである。

２つのオーディオキャプチャ機器を有する端末システムの通話システムでは、音声を強化するために、デュアルマイクロホンのうち１つのマイクロホンを入力マイクロホンとして選択する必要がある。関連技術で用いられた入力マイクロホンの選択技術案は、一般に、以下の２つある。

１つとしては、マイクロホンがキャプチャした音声信号の信号振幅に基づいて入力マイクロホンを選択し、２つのマイクロホンのうち、キャプチャした音声信号の信号振幅が高いマイクロホンを入力マイクロホンとして選択し、すなわち、以後の音声強化処理のために、信号振幅が最大の音声信号を入力音声信号とする。しかし、音声通話に強い遠端音声信号が存在する場合、２つのマイクロホンがキャプチャした音声信号にいずれも、強いエコーが存在し、選択した信号振幅が大きいマイクロホンは、エコーが大きいマイクロホンである可能性があるため、エコーが漏洩し、音声通話品質が低減してしまう。

もう１つとしては、端末システムの通話シーンに応じて入力マイクロホンを選択し、デュアルマイクロホン端末システムを例とし、図１は、通常の携帯電話のオーディオキャプチャ機器及びオーディオ再生機器の構造模式図を示し、図１に示すように、この携帯電話には、端末システムのスクリーンの上方にあるトップマイクロホン（トップマイクと略称）２０１、スクリーンの下方にあるボトムマイクロホン（ボトムマイクと略称）２０２、スクリーンのトップにある受話器２０３、及び、スクリーンの底部にあるスピーカ２０４が設けられている。

ハンズフリーシーンでは、携帯電話の底部にあるスピーカ２０４が遠端音声信号を再生し、マイクロホンがキャプチャしてエコーを形成する。ボトムマイク２０２がスピーカに近いため、キャプチャしたエコーが大きい一方が、近端に話している人が携帯電話から離れており、２つのマイクロホンがキャプチャした近端にある人の声のエネルギーがほぼ同じであり、この場合、トップマイクがキャプチャした信号は、以後の処理のための最適な入力選択である。

手持ちシーンでは、携帯電話の上方にある受話器２０３が遠端音声信号を再生し、近端の発話者が携帯電話を持ってスクリーンの下方に近接して話し、この場合、ボトムマイク２０２がキャプチャした近端音声信号が大きいが、トップマイク２０１がキャプチャしたエコーが大きく、この場合、ボトムマイクがキャプチャした信号は、以後の処理のための最適な選択である。

つまり、手持ちシーンではボトムマイクを選択し、ハンズフリーシーンではトップマイクを選択することは、合理的な選択である。しかし、実際の通話シーンは、より複雑であり、ハンズフリーシーンでも、ユーザは、口がボトムマイク２０２に接近することがあり、この場合、トップマイク２０１を選択すると、近端音声信号を効果的に取得することができない。オーディオ再生機器の種類が異なり、キャプチャ機器の種類が多く、マイクロホンの配置位置がさまざまであるほか、ダブルスピーカを備えたステレオ再生携帯電話もあり、これらにより、マイクロホンの選択とシーンシンプルとを簡単に関連づけることができなくなる。従って、シーンに応じてマイクロホンを選択する技術案は、適用範囲が狭く、選択したマイクロホンが合理的であることを確保できない。

従来の音声通話技術案に存在する以上の技術課題に対して、本出願の実施例は、音声通話方法を提供し、この方法は、別の合理的なオーディオキャプチャ機器の選択方式を提供し、音声通話効果を効果的に向上できる。

以下、具体的な実施例を通して、本出願の技術案及び本出願の技術案が如何に上記技術課題を解決するかについて、詳細に説明する。以下の複数の具体的な実施例は、互いに組み合わせることができ、同一または類似する概念またはプロセスは、一部の実施例で繰り返し説明されない。以下、図面を参照し、本出願の実施例について説明する。

図２は、本出願の実施例に係る音声通話方法のフローチャートであり、この方法は、具体的には、端末システムまたはサーバなどの電子機器により実行されてもよく、図１に示すように、この方法は、ステップＳ１０１～ステップＳ１０３を含んでもよい。

ステップＳ１０１において、端末システムの履歴時刻での音声通話状態を取得し、端末システムに少なくとも２つのオーディオキャプチャ機器が設けられている。

なお、端末システムは、オーディオ再生機器、オーディオキャプチャ機器及びプロセッサなどのデバイスが集積された端末機器であり得、この端末機器の具体的な種類については、音声通話ができる機器である限り、本出願の実施例で限定しない。携帯電話、ＰＡＤなどを含むが、これらに限られない。端末システムは、互い独立したオーディオ再生機器、オーディオキャプチャ機器及びプロセッサからなる音声通話システムであってもよく、例えば、端末システムは、ビデオ会議システムであってもよく、ビデオ会議システムは、複数のオーディオキャプチャ機器（例えば、マイクロホン）、１つまたは複数のオーディオ再生機器（例えば、スピーカ）、及び、プロセッサを含み、オーディオキャプチャ機器及びオーディオ再生機器は、ミーティング場所などの実際のニーズに応じて分散して配置されてもよい。

この方法は、端末システムは各デバイスが集積された端末機器である場合、端末機器に集積されたプロセッサにより実行されてもよいし、この端末機器に対応するサーバにより実行されてもよく、端末システムが互い独立した複数の機器からなる音声通話システムである場合、この端末システムにおけるプロセッサにより実行されてもよいし、この端末システムに対応するサーバにより実行されてもよいことが理解され得る。要するに、この方法は、端末システムまたはサーバなどの電子機器により実行され得る。

この音声通話方法を実行する端末システムにとっては、この端末システムが現在の音声通話の近端機器であり、この端末システムと音声通話を行う相手端機器が遠端機器である。

音声通話中の各時刻は、ターゲットオーディオキャプチャ機器を再決定する時刻と捉える。履歴時刻は、１つまたは複数の時刻を含むことができ、２つの時刻の時間間隔は、実際のニーズに応じて設定されてもよい。例えば、２つの時刻の時間間隔が０．０２秒に設定され、現在の時刻が音声通話中の０．２０秒目であると、履歴時刻が音声通話中の０．１８秒目である。

音声通話状態は、音声通話中の近端音声状況及び遠端音声状況を特徴付けるものであり、いずれかの時刻での近端音声通話状態に応じて、この時刻に近端音声信号及び遠端音声信号が存在するか否かを決定することができる。例えば、音声通話の０．２０秒目の音声通話状態が遠端シングルトークであり、すなわち、音声通話の０．２０秒目に遠端音声信号が存在するが、近端音声信号が存在しない。

端末システムに設けられたオーディオキャプチャ機器は、マイクロホンであってもよいし、他の種類のオーディオキャプチャ機器であってもよく、少なくとも２つのオーディオキャプチャ機器の具体的な種類、具体的な数、及びオーディオキャプチャ機器の端末システムでの位置については、本出願の実施例では限定しない。例えば、携帯電話の場合、少なくとも２つのオーディオキャプチャ機器は、２つのマイクロホンであってもよく、２つのマイクロホンは、図１に示すデュアルマイクロホンの設置形態のように、それぞれ携帯電話のスクリーンの正面の上方及び下方に設けられてもよく、他の設置形態であってもよく、例えば、スクリーンの裏面に設けられてもよく、本出願の実施例では具体的に限定しない。

ステップＳ１０２において、各オーディオキャプチャ機器により現在の時刻にキャプチャされた第１の音声信号を取得し、各第１の音声信号の信号エネルギーをそれぞれ決定する。

第１の音声信号は、近端音声信号、エコー信号及び環境ノイズ信号などを含み得、音声通話中に、エコー信号及び環境ノイズ信号を削除し、近端音声信号を遠端機器に伝送する必要がある。近端機器の各オーディオキャプチャ機器によりキャプチャされた第１の音声信号に含まれる信号種類及び信号エネルギーの大きさは、それぞれ同じではなく、第１の音声信号の信号エネルギーの各々の大きさは、含まれる音声信号の大きさを表すことができ、さらに、この後にターゲットオーディオキャプチャ機器を決定するときの根拠とすることができる。実際の使用では、音声信号の信号エネルギーの大きさは、音声信号の信号振幅またはピークエンベロープなどに応じて決定されてもよい。

なお、上記ステップＳ１０１及びステップＳ１０２のステップ番号は、２つのステップの順序を限定するものではないことに留意されたい。すなわち、ステップＳ１０１及びステップＳ１０２の実行順序は、どうでもよく、ステップＳ１０１を実行してからステップＳ１０２を実行してもよいし、または、ステップＳ１０２を実行してからステップＳ１０１を実行してもよいし、または、ステップＳ１０１及びステップＳ１０２を同時に実行してもよい。すなわち、本出願の実施例で実現されるプロセスにおいて、近端機器の履歴時刻での音声通話状態を取得すること、及び、各オーディオキャプチャ機器が現在の時刻にキャプチャした第１の音声信号の信号エネルギーを取得することの実行順序については限定しない。

ステップＳ１０３において、履歴時刻での音声通話状態、及び各第１の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器のうち現在の時刻でのターゲットオーディオキャプチャ機器を決定する。

具体的には、実際の使用では、音声通話の短い時間間隔内に、音声通話の状態は、一般的に変わらない。従って、履歴時刻での音声通話状態に応じて、現在の時刻での音声通話状態を予測し、すなわち、履歴時刻での音声通話状態を現在の時刻での音声通話状態とすることができる。履歴時刻が１つ時刻だけ含む場合、この１つの時刻での音声通話状態を履歴時刻での音声通話状態とし、履歴時刻に含まれる時刻が現在の時刻に隣接する前の時刻であってもよい。履歴時刻が複数の時刻を含む場合、履歴時刻での音声通話状態は、各時刻での音声通話状態をそれぞれ取得し、発生回数が最多の音声通話状態を履歴時刻での音声通話状態とする方式、または、現在の時刻に最も近い時刻での音声通話状態を履歴時刻での音声通話状態とする方式によって決定される。

異なる音声通話状態が存在するため、オーディオキャプチャ機器によりキャプチャされた音声信号の種類も異なる。例えば、音声通話状態が遠端シングルトークである場合、オーディオキャプチャ機器によりキャプチャされた信号がエコー信号であり、近端シングルトークである場合、オーディオキャプチャ機器によりキャプチャされた信号が近端音声信号である（もちろん、一般的にノイズ信号も存在する）。従って、音声通話状態は、オーディオキャプチャ機器によりキャプチャされた第１の音声信号にエコー信号が存在するか否か、近端音声信号などが存在するか否かを特徴づけるものであり、すなわち、履歴時刻での音声通話状態に応じて、第１の音声信号に含まれる信号の種類を決定することができる。例えば、履歴時刻での音声通話状態が近端シングルトークである場合、現在の時刻に近端音声信号が存在し、且つ遠端音声信号が存在しない。エコー信号が遠端音声信号の存在により生じるものであるため、第１の音声信号にエコー信号が存在しないことを判断できる。

履歴時刻での音声通話状態に応じて、各第１の音声信号に含まれる信号の種類を決定した後、各第１の音声信号の信号エネルギーの大きさに基づいて、含まれる特定のタイプの音声信号の信号エネルギーの大きさを決定することができ、つまり、各オーディオキャプチャ機器によりキャプチャされた特定のタイプの音声信号の信号エネルギーの大きさを決定することができる。例えば、履歴時刻での音声通話状態が近端シングルトークである場合、この音声通話状態に応じて、各第１の音声信号が近端音声信号を含み、一般的に環境ノイズ信号などをさらに含むことを決定し、しかし、各第１の音声信号に含まれる環境ノイズ信号の信号エネルギーの大きさがほぼ同じであり、従って、第１の音声信号中の近端音声信号の信号エネルギーの大きさが、この第１の音声信号の信号エネルギーの大きさと正相関し、すなわち、第１の音声信号の信号エネルギーが大きいほど、この第１の音声信号に含まれる近端音声信号の信号エネルギーが大きく、すなわち、対応するオーディオキャプチャ機器がキャプチャした近端音声信号の信号エネルギーが大きく、この場合、キャプチャした信号エネルギーが大きい第１の音声信号のオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とすることができる。

以上のように、履歴時刻での音声通話状態、及び各第１の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器が特定の音声通話状態でキャプチャした特定のタイプの音声信号の信号エネルギーの大きさ関係を決定することができる。

さらに、決定された現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号は、対応する音声状態で以後の音声強化処理により寄与する第１の音声信号であり、一般に、第１の音声信号は、以後の音声強化処理に寄与すればするほど、含む近端音声信号の信号エネルギーが大きく、または、含むエコー信号の信号エネルギーが小さい。履歴時刻での音声通話状態、及び各第１の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器が特定の音声通話状態でキャプチャした特定のタイプの音声信号の信号エネルギーの大きさ関係を決定できるため、履歴時刻での音声通話状態、及び各第１の音声信号の信号エネルギーに応じて、特定の音声通話状態でのターゲットオーディオキャプチャ機器を決定することができる。

そうすると、ターゲットオーディオキャプチャ機器を決定するとき、各オーディオキャプチャ機器によりキャプチャされた第１の音声信号の信号エネルギーを根拠とした上で、履歴時刻での音声通話状態をさらに組み合わせることによって、決定されたターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号に含まれるエコー信号が最大の状況を効果的に回避できる。また、このターゲットオーディオキャプチャ機器の決定プロセスが近端機器の通話シーンに依存しないため、決定されたターゲットオーディオキャプチャ機器が有効的な近端音声信号をキャプチャできない状況も回避する。

初期時刻以外、音声通話のいずれかの時刻でも、本出願の実施例に係るこの方法に基づいて、この時刻でのターゲットオーディオキャプチャ機器を決定することができることが理解され得る。音声通話の初期時刻では、ターゲットオーディオキャプチャ機器が少なくとも２つのオーディオキャプチャ機器のうちの１つのオーディオキャプチャ機器を予め指定または選択してもよいし、従来のターゲットオーディオキャプチャ機器の決定方式で選択してもよく、例えば、通話シーンに応じて、初期時刻でのターゲットオーディオキャプチャ機器を決定する。

なお、この方法がサーバにより実行される場合、この技術案で、端末システムとサーバとのインタラクションプロセスは、音声通話の初期時刻に、サーバが端末にターゲットオーディオキャプチャ機器の事前設定情報を送信し、端末システムが受信した事前設定情報に基づいて、少なくとも２つのオーディオキャプチャ機器のうちターゲットオーディオキャプチャ機器を選択するステップ、または、事前設定情報が端末システムに記憶されており、端末システムが事前設定情報に基づいて、少なくとも２つのオーディオキャプチャ機器のうちターゲットオーディオキャプチャ機器を選択するステップを含むことができる。サーバは、現在の時刻に、端末により送信された少なくとも２つのオーディオキャプチャ機器によりキャプチャされた第１の音声信号を受信し、各第１の音声信号の信号エネルギーを取得し、履歴時刻での音声通話状態、及び受信した各第１の音声信号の信号エネルギー応じて、現在の時刻でのターゲットオーディオキャプチャ機器を決定する。

本出願の実施例に係る音声通話方法では、履歴時刻での音声通話状態を用い、各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーを組み合わせ、特定の音声通話状態で、以後の音声強化処理に寄与する音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定し、ターゲットオーディオキャプチャ機器の決定プロセスは、各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーまたは近端機器の通話シーンのみに依存するものではなく、従って、関連技術で決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号中のエコーが大きい、または、近端音声が小さい問題を回避し、音声通話の効果を向上させる。

本出願の一実施例では、履歴時刻での音声通話状態は、
履歴時刻に遠端音声信号が存在するか否かを決定し、第１の決定結果を得て、
履歴時刻に近端近端音声信号が存在するか否かを決定し、第２の決定結果を得て、
第１の決定結果及び第２の決定結果に従って、履歴時刻での音声通話状態を決定する方式によって決定される。

音声通話状態は、音声通話中の近端音声状況及び遠端音声状況を指示するものであり、音声通話中の近端音声状況及び遠端音声状況に応じて、対応する音声通話状態を決定することができる。

具体的には、履歴時刻に遠端音声信号が存在するか否かは、履歴時刻に端末システムが遠端音声信号を受信したか否かを判断することで決定され、例えば、履歴時刻に端末システムが受信した音声信号に、遠端発話者の声信号（すなわち遠端音声信号）が存在すると、履歴時刻に遠端音声信号が存在することを決定する。履歴時刻に近端音声信号が存在するか否かは、履歴時刻に端末システムにおけるいずれかのオーディオキャプチャ機器によりキャプチャされた音声信号が近端音声信号を含むか否かを判断することで決定され、例えば、履歴時刻のいずれかのオーディオキャプチャ機器によりキャプチャされた音声信号が近端発話者の声信号（すなわち近端音声信号）を含むと、履歴時刻に近端音声信号が存在することを決定する。

音声信号に近端音声信号または遠端音声信号が存在するか否かを決定するとき、近端音声信号及び遠端音声信号の信号エネルギー、信号波形などの特徴に基づいて判定してもよく、例えば、第１の音声信号中の信号エネルギーが所定範囲内にある音声信号を近端音声信号として決定することが理解され得る。

本出願は、履歴時刻が複数の時刻を含む場合、上記技術案を用いて、それぞれ各時刻での音声通話状態を決定し、各時刻での音声通話状態を決定した後、履歴時刻での音声通話状態をさらに決定することが理解され得る。履歴時刻に含まれる複数の時刻での音声通話状態に応じて、履歴時刻での音声通話状態を決定するプロセスは、以上に記載された通り、各時刻に対応する音声通話状態のうち、発生回数が最多の音声通話状態を履歴時刻での音声通話状態とし、または、現在の時刻に最も近い時刻での音声通話状態を履歴時刻での音声通話状態とする。

なお、この方法がサーバにより実行される場合、対応する端末システムとサーバとのインタラクションプロセスは、履歴時刻に、サーバが端末システムにより送信された遠端信号及び各第１の音声信号を受信し、サーバが受信した遠端音声信号が０であるか否かに応じて、第１の決定結果を得て、サーバが受信した各第１の音声信号に近端音声信号が存在するか否かに応じて、第２の決定結果を得るステップと、次に第１の決定結果及び第２の決定結果に従って、履歴時刻での音声通話状態を決定するステップと、を含むことができる。

本出願の一実施例では、履歴時刻に近端音声信号が存在するか否かを決定するステップは、
履歴時刻でのターゲットオーディオキャプチャ機器により履歴時刻にキャプチャされた第２の音声信号を取得するステップと、
第２の音声信号にエコーキャンセレーションを行い、エコーキャンセレーション処理後の第２の音声信号に近端音声信号が存在するか否かを決定するステップと、を含む。

具体的には、履歴時刻でのターゲットオーディオキャプチャ機器を決定した後、履歴時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第２の音声信号にエコーキャンセレーション及び以後の音声強化処理を行う必要があり、第２の音声信号は、近端音声信号、エコー信号及び環境ノイズ信号などを含み得、第２の音声信号にエコーキャンセレーションを行った後、第２の音声信号がエコー信号を含まなくなると考えることができ、近端音声信号が存在するか否かを決定するとき、エコー信号の影響を排除でき、決定結果がより正確になる。また、履歴時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第２の音声信号にエコーキャンセレーションを行うことも、音声通話中の必要な動作であるため、エコーキャンセレーション処理後の前記第２の音声信号を判断対象として選択すると、音声通話中の処理ステップをさらに増加させることがない。

なお、この方法がサーバにより実行される場合、対応する端末システムとサーバとのインタラクションプロセスは、履歴時刻に、サーバが端末システムにより送信されたターゲット音声機器によりキャプチャされた第２の音声信号を受信し、この第２の音声信号に近端音声信号が存在するか否かを決定するステップを含むことができる。

本出願の一実施例では、音声通話状態は、遠端シングルトーク、近端シングルトーク、両端ダブルトークまたはノートークを含む。

本出願の一実施例では、第１の決定結果及び第２の決定結果に従って、履歴時刻での音声通話状態を決定するステップは、
第１の決定結果として遠端音声信号が存在し、且つ第２の決定結果として近端音声信号が存在しない場合、履歴時刻での音声通話状態が遠端シングルトークであるステップと、
第１の決定結果として遠端音声信号が存在せず、且つ第２の決定結果として近端音声信号が存在する場合、履歴時刻での音声通話状態が近端シングルトークであるステップと、
第１の決定結果として遠端音声信号が存在し、且つ第２の決定結果として近端音声信号が存在する場合、履歴時刻での音声通話状態が両端ダブルトークであるステップと、
第１の決定結果として遠端音声信号が存在せず、且つ第２の決定結果として近端音声信号が存在しない場合、履歴時刻での音声通話状態がノートークであるステップと、を含む。

音声通話中に、音声通話状態を遠端シングルトーク、近端シングルトーク、両端ダブルトークまたはノートークなどの４つの状態にまとめることが理解され得る。実際の音声通話では、一方が話し、他方が聞き、または、一方が聞き、他方が話すことが多く、両方が同時に話す、または、両方が話さないことが少なく、遠端シングルトーク及び近端シングルトークの通話状態が多く、両端ダブルトークまたはノートークの通話状態が少ない。

本出願の一実施例では、履歴時刻での音声通話状態、及び各第１の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器のうち現在の時刻でのターゲットオーディオキャプチャ機器を決定するステップは、
履歴時刻での音声通話状態が遠端シングルトークである場合、信号エネルギーが最小の第１の音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定するステップと、
履歴時刻での音声通話状態が近端シングルトークである場合、信号エネルギーが最大の第１の音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定するステップと、
履歴時刻での音声通話状態が両端ダブルトークまたはノートークである場合、履歴時刻で決定されたターゲットオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定するステップと、を含む。

具体的には、履歴時刻での音声通話状態が遠端シングルトークである場合、現在の時刻での音声通話状態も遠端シングルトークであり、近端機器における各オーディオキャプチャ機器によりキャプチャされた第１の音声信号がエコー信号及び環境ノイズ信号を含むことを予測すると、各第１の音声信号の信号エネルギーの大きさが、含まれるエコー信号の信号エネルギーの大きさと正相関し、以後の音声強化処理用の音声信号中のエコー信号の信号エネルギーを最小にするために、信号エネルギーが最小の第１の音声信号に対応するオーディオキャプチャ機器を選択し、ターゲットオーディオキャプチャ機器として決定し、すなわち、信号エネルギーが最小の第１の音声信号を以後の音声強化処理の入力信号とする。

履歴時刻での音声通話状態が近端シングルトークである場合、現在の時刻での音声通話状態も近端シングルトークであり、近端機器における各オーディオキャプチャ機器によりキャプチャされた第１の音声信号が近端音声信号及び環境ノイズ信号を含むことを予測すると、各第１の音声信号の信号エネルギーの大きさが、含まれる近端音声信号の信号エネルギーの大きさと正相関し、以後の音声強化処理用の音声信号中の近端音声信号の信号エネルギーを最大にするために、信号エネルギーが最大の第１の音声信号に対応するオーディオキャプチャ機器を選択し、ターゲットオーディオキャプチャ機器として決定し、すなわち、信号エネルギーが最大の第１の音声信号を以後の音声強化処理の入力信号とする。

履歴時刻での音声通話状態が両端ダブルトークである場合、現在の時刻での音声通話状態も両端ダブルトークであることを予測すると、近端機器における各オーディオキャプチャ機器によりキャプチャされた第１の音声信号の信号エネルギーの大きさが、エコー信号の信号エネルギーの大きさと関連しているとともに、近端音声信号の信号エネルギーの大きさにも関連している。この場合、第１の音声信号の信号エネルギーの大きさに基づいて、含まれるエコー信号及び近端音声信号の信号エネルギーの大きさを決定できないが、一般的に、両端ダブルトークの持続時間が短く、音声通話の安定性を確保するために、ターゲットオーディオキャプチャ機器を不変に維持するため、履歴時刻に決定されたターゲットオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器とする。

履歴時刻での音声通話状態がノートークである場合、現在の時刻での音声通話状態もノートークであることを予測すると、近端機器における各オーディオキャプチャ機器によりキャプチャされた第１の音声信号がエコー信号及び近端音声信号を含まないが、一般的に両端ダブルトークの持続時間が短く、音声通話の安定性を確保するために、ターゲットオーディオキャプチャ機器を不変に維持するため、履歴時刻に決定されたターゲットオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器とする。

本出願の一実施例では、この方法は、履歴時刻での音声通話状態が遠端シングルトークである場合、
現在の時刻よりも前に、音声通話状態が遠端シングルトークであり続ける回数を決定するステップと、
回数が所定値よりも大きい場合、現在の時刻でのターゲットオーディオキャプチャ機器を現在の時刻以降の所定期間内のターゲットオーディオキャプチャ機器として決定するステップと、をさらに含んでもよい。

具体的には、実際の使用では、通話中に持続的な長時間の通話状態が遠端シングルトークであり続け、すなわち、相手端の通話者のみ話している場合、以後の通話中にこの状態が続く可能性が高いと考える。従って、ある時刻に音声通話状態を決定する際、状態が遠端シングルトークであり続ける回数を記録し、例えば、カウンタを設け、通話状態が遠端シングルトークであると、このカウンタの値に１を加算し、他の通話状態であると、カウンタをクリアし、通話状態が遠端シングルトークであることを再び決定した場合、カウントを再開始する。持続回数が所定値を超えると、現在の時刻でのターゲットオーディオキャプチャ機器をそのまま、以後の通話中のターゲットオーディオキャプチャ機器としてもよく、もちろん、以後の通話中の所定期間のターゲットオーディオキャプチャ機器としてもよい。この期間の後に、上記の実施例で説明された方式によって、ターゲットオーディオキャプチャ機器を決定する。所定値を超えると、上記の実施例で説明された方式を用いてターゲットオーディオキャプチャ機器を決定する。

なお、この方法がサーバにより実行される場合、対応する端末システムとサーバとのインタラクションプロセスは、サーバが各時刻での通話状態を統計し、現在の時刻よりも前に、音声通話状態が遠端シングルトークであり続ける回数が所定値よりも大きいことを決定する場合、現在の時刻でのターゲットオーディオキャプチャ機器を現在の時刻以降の所定期間内のターゲットオーディオキャプチャ機器として決定するステップを含むことができる。

本出願の一実施例では、この方法は、
現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号にエコーキャンセレーションを行うステップと、
エコーキャンセレーション処理後の第１の音声信号に近端音声信号が存在する場合、エコーキャンセレーション処理後の第１の音声信号を遠端機器に送信するステップと、をさらに含む。

具体的には、以上の説明から分かるように、ターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号は、近端音声信号、エコー信号及び環境ノイズ信号などを含み得るため、音声通話中に、エコーが漏洩することを回避するために、第１の音声信号を遠端機器に送信する前、第１の音声信号にエコーキャンセレーションを行う必要がある。エコーキャンセレーション処理後の第１の音声信号に対して音声検出を行い、近端音声信号が存在すると、遠端機器に送信し、近端音声信号が存在しないと、残留エコー信号及び環境ノイズ信号を含み、遠端機器に送信しない。

なお、この方法がサーバにより実行される場合、対応する端末システムとサーバとのインタラクションプロセスは、サーバが現在の時刻ターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号にエコーキャンセレーションを行い、エコーキャンセレーション処理後の第１の音声信号に近端音声信号が存在すると、近端音声信号を遠端機器に送信するステップを含んでもよい。

本出願の一実施例では、現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号にエコーキャンセレーションを行うステップは、具体的には、
現在の時刻での遠端音声信号を取得するステップと、
現在の時刻での遠端音声信号及び現在の時刻でのエコー伝搬経路関数に基づいて、現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号中のエコー信号を得るステップと、
エコー信号に基づいて、現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号にエコーキャンセレーションを行うステップと、を含む。

エコー伝搬経路関数は、遠端音声信号と、オーディオキャプチャ機器により受信されたエコー信号とのマッピング関係と捉え、すなわち、現在の時刻での遠端音声信号を現在の時刻でのエコー伝搬経路関数に導入すると、対応するエコー信号を得ることができる。

具体的には、現在の時刻に遠端音声信号が存在する場合、エコー伝搬経路関数に基づいて対応するエコー信号を得、第１の音声信号中のエコー信号を除去し、第１の音声信号のエコーキャンセレーションを完了する。現在の時刻に遠端音声信号が存在しない場合、第１の音声信号にもエコー信号が存在せず、エコーキャンセレーション処理後の第１の音声信号をエコーキャンセレーションの前と不変に維持する。

本出願の一実施例では、この方法は、
履歴時刻に選択されたターゲットオーディオキャプチャ機器によりキャプチャされた第２の音声信号にエコー信号削除を行い、履歴時刻での残留エコー信号を得るステップと、
履歴時刻での残留エコー信号に基づいて、履歴時刻でのエコー伝搬経路関数を更新し、現在の時刻でのエコー伝搬経路関数を得るステップと、をさらに含んでもよい。

具体的には、各時刻にこの時刻での遠端音声信号及びエコー伝搬経路関数に基づいて得たこの時刻でのエコー信号と、この時刻での実際のエコー信号と偏差があるため、次の時刻に得るエコー信号と実際のエコー信号との偏差を小さくするために、各時刻にエコーキャンセレーション処理後の残留エコー信号を用いて、この時刻でのエコー伝搬経路関数のパラメータを補正し、すなわち、更新し、次の時刻でのエコー伝搬経路関数を得る。履歴時刻に遠端音声信号が存在しない場合、第１の音声信号も信号を含まず、さらに残留エコー信号も存在せず、現在の時刻でのエコー伝搬経路関数と、履歴時刻でのエコー伝搬経路関数とが同じであることが理解され得る。

本出願の一実施例では、エコーキャンセレーション処理後の第１の音声信号を遠端機器に送信するステップは、具体的には、
エコーキャンセレーション処理後の第１の音声信号中の環境ノイズ信号及び残留エコー信号を除去して得られた音声信号を遠端機器に送信するステップを含む。

具体的には、第１の音声信号にエコーキャンセレーションを行った後、音声通話品質をさらに向上させるために、さらに、以後の音声強化処理を行う必要がある。以後の音声強化処理は、環境ノイズ信号、及び残留エコー信号などを除去すること、を含む。

以下、例を通して本出願の実施例についてさらに説明し、この例では、端末システムが実行本体であることについて説明し、音声通話中の近端機器を携帯電話とし、この例では、図１に示す携帯電話を例とし、この携帯電話は、それぞれトップマイクロホン（トップマイク）２０１及びボトムマイクロホン（ボトムマイク）２０２の２つのオーディオキャプチャ機器が設けられ、受話器２０３及びスピーカ２０４をさらに含む。トップマイク２０１及びボトムマイク２０２は、いずれも、第１の音声信号をキャプチャでき、受話器２０３及びスピーカ２０４は、いずれも、受信した遠端音声を再生できる。

図３は、本例でこの携帯電話がターゲットオーディオキャプチャ機器を選択する原理模式図を示す。図３に示すように、この携帯電話は、通話状態推定・マイクロホン選択装置３０１、エコー推定装置３０２及び音声強化プロセッサ３０４を含んでもよい。通話状態推定・マイクロホン選択装置３０１は、各時刻での音声通話状態を決定し、履歴時刻での音声通話状態、及び現在の時刻トップマイクとボトムマイクによりキャプチャされた音声信号の信号エネルギーの大きさに応じて、ターゲットマイクロホンを決定する。エコー推定装置３０２は、入力された遠端音声信号に基づいて、現在の時刻でのエコー信号を推定する。エコーキャンセレーション装置３０３は、入力されたエコー信号に基づいて、入力された音声信号にエコーキャンセレーションを行い、エコーキャンセレーション装置３０３は、加算器として捉え、「－」及び「＋」は、それぞれ、入力信号に対する減算及び加算を表す。音声強化プロセッサ３０４は、入力された音声信号に以後の強化処理（残留エコー信号及び環境ノイズ信号を除去すること、を含む）を行う。

なお、以上の通話状態推定・マイクロホン選択装置３０１、エコー推定装置３０２及び音声強化プロセッサ３０４は、対応する機能を有する物理的デバイスであってもよいし、対応する機能を実現できるアプリケーションプログラムであってもよい。

本出願の実施例に係る技術案によれば、現在の時刻にこの携帯電話における音声通話の実現プロセスは、ステップ１－１～ステップ１－５を含む。

ステップ１－１において、この携帯電話が遠端音声信号を受信した後に、スピーカまたは受話器が遠端発話者の声を再生し、トップマイク及びボトムマイクがそれぞれ近端発話者の声信号、遠端発話者の声信号及び環境ノイズ信号をキャプチャし、対応する２つの第１の音声信号を得、それぞれ２つの第１の音声信号を通話状態推定・マイクロホン選択装置３０１に入力する。

ステップ１－２において、通話状態推定・マイクロホン選択装置３０１が予め取得された履歴時刻での音声通話状態及び受信したトップマイク及びボトムマイク入力された２つの第１の音声信号に基づいて、ターゲットマイクロホンを決定し、ターゲットマイクロホンによりキャプチャされた第１の音声信号をエコーキャンセレーション装置３０３に入力する。

ステップ１－３において、エコー推定装置３０２が入力された遠端音声信号に基づいて推定してエコー信号を得、エコー信号をエコーキャンセレーション装置３０３中に入力する。

ステップ１－４において、エコーキャンセレーション装置３０３がエコー推定装置３０２によって入力されたエコー信号に基づいて、ターゲットマイクロホンによりキャプチャされた第１の音声信号にエコーキャンセレーションを行い、エコーキャンセレーション処理後の第１の音声信号を音声強化プロセッサ３０４に入力する。

ステップ１－５において、音声強化プロセッサ３０４が、エコー信号が削除された後の第１の音声信号にさらなる音声強化処理（環境ノイズ信号及び残留エコー信号などを除去すること、を含む）を行い、さらに音声強化処理された第１の音声信号を遠端機器に送信する。

また、図に示すように、ステップ１－４において、エコーキャンセレーション装置３０３は、さらに、エコーキャンセレーション処理後の第１の音声信号を通話状態推定・マイクロホン選択装置３０１及びエコー推定装置３０２に入力することで、通話状態推定・マイクロホン選択装置３０１は、次の時刻でのターゲットマイクロホンを決定するために、この入力信号に基づいて、現在の時刻での音声通話状態を決定し、エコー推定装置３０２は、エコーキャンセレーション処理後の第１の音声信号中の残留エコー信号に基づいて自体を更新し、例えば、エコー伝搬経路関数を更新する。

図４は、通話状態推定・マイクロホン選択装置の任意選択的な構造模式図を示す。図４に示すように、この通話状態推定・マイクロホン選択装置は、第１のピークエンベロープ検出モジュール４０１、第２のピークエンベロープ検出モジュール４０２、遠端音声行動検出モジュール４０３、近端音声行動検出モジュール４０４、通話状態推定モジュール４０５、マイクロホン選択モジュール４０６及び音声ミキシングモジュール４０７を含んでもよい。

第１のピークエンベロープ検出モジュール４０１は、トップマイクによりキャプチャされた音声信号のピークエンベロープの大きさを検出し、第２のピークエンベロープ検出モジュール４０２は、ボトムマイクによりキャプチャされた音声信号のピークエンベロープの大きさを検出する。遠端音声行動検出モジュール４０３は、各通話時刻に遠端音声信号が存在するか否かを検出し、近端音声行動検出モジュール４０４は、各通話時刻に近端音声信号が存在するか否かを検出する。通話状態推定モジュール４０５は、各通話時刻に近端音声信号が存在するか否か、及び遠端音声信号が存在するか否かに応じて、各時刻での通話状態を決定し、すなわち、遠端音声行動検出モジュール４０３及び近端音声行動検出モジュール４０３の判断結果に従って、対応する時刻での通話状態を決定する。マイクロホン選択モジュール４０６は、入力されたトップマイクによりキャプチャされた音声信号のピークエンベロープの大きさ及びボトムマイクによりキャプチャされた音声信号のピークエンベロープの大きさに応じて、ターゲットマイクロホン選択結果を決定する。音声ミキシングモジュール４０７は、入力されたターゲットマイクロホン選択結果に従って、ターゲットマイクロホンによりキャプチャされた第１の音声信号を出力する。

なお、以上の第１のピークエンベロープ検出モジュール４０１、第２のピークエンベロープ検出モジュール４０２、遠端音声行動検出モジュール４０３、近端音声行動検出モジュール４０４、通話状態推定モジュール４０５、マイクロホン選択モジュール４０６及び音声ミキシングモジュール４０７は、対応する機能を有する物理的デバイスであってもよいし、対応する機能を実現できるアプリケーションプログラムであってもよい。図４に示すこの構造によれば、この携帯電話が現在の時刻でのターゲットマイクロホンを決定するプロセスは、ステップ２－１～ステップ２－３を含む。

ステップ２－１において、第１のピークエンベロープ検出モジュール４０１がトップマイクによりキャプチャされた第１の音声信号のピークエンベロープの大きさを検出し、第２のピークエンベロープ検出モジュール４０２がボトムマイクによりキャプチャされた第１の音声信号のピークエンベロープの大きさを検出し、それぞれ２つのピークエンベロープの大きさをマイクロホン選択モジュール４０６に入力する。

ステップ２－２において、マイクロホン選択モジュール４０６が通話状態推定モジュール４０５によって決定された履歴時刻での音声通話状態、及び入力された２つのピークエンベロープの大きさに応じて、ターゲットマイクロホン選択結果を決定し、ターゲットマイクロホン選択結果を音声ミキシングモジュール４０７に入力する。

具体的には、通話状態推定モジュール４０５は、履歴時刻での音声通話状態を決定とき、遠端音声行動検出モジュール４０３によって決定される履歴時刻に遠端音声信号が存在するか否かという第１の決定結果、及び近端音声行動検出モジュール４０４によって決定される履歴時刻に近端音声信号が存在するか否かという第２の決定結果に従って、履歴時刻での音声通話状態を決定する。

マイクロホン選択モジュール４０６は、履歴時刻での音声通話状態が遠端シングルトークである場合、信号エネルギーが小さい第１の音声信号に対応するマイクロホンをターゲットマイクロホンとして決定し、履歴時刻での音声通話状態が近端シングルトークである場合、信号エネルギーが大きい第１の音声信号に対応するマイクロホンをターゲットマイクロホンとして決定し、履歴時刻での音声通話状態が両端ダブルトークまたはノートークである場合、履歴時刻で決定されたターゲットマイクロホンをターゲットマイクロホンとして決定する。

ステップ２－３において、音声ミキシングモジュール４０７が入力されたターゲットマイクロホン選択結果に従って、２つのマイクロホンによりキャプチャされた第１の音声信号に対して音声ミキシング選択を行い、ターゲットマイクロホンの音声信号を出力する。一方のマイクロホン信号から他方のマイクロホン信号に切り替えるとき、スムーズな遷移時間ウィンドウを設定し、遷移の連続性を確保する。

また、次の時刻でターゲットマイクロホンを選択するために、通話状態推定モジュール４０５が現在の時刻での音声通話状態をさらに決定する必要があり、このプロセスは、具体的には、ステップ３－１及びステップ３－２を含む。

ステップ３－１において、遠端音声行動検出モジュール４０３が入力された現在の時刻での遠端音声信号（図に示す遠端音声）に基づいて、現在の時刻に遠端音声信号が存在するか否かを決定し、近端音声状況検出器モジュール４０４が入力され現在の時刻でのターゲットマイクロホンによりキャプチャされたエコーキャンセレーション処理後の第１の音声信号（図に示すエコーキャンセレーション処理後の第１の音声）に基づいて、現在の時刻に近端音声信号が存在するか否かを決定し、それぞれ２つの確認結果を通話状態推定モジュール４０５に入力する。

ステップ３－２において、通話状態推定モジュール４０５が入力された２つの確認結果に基づいて現在の時刻での音声通話状態を決定する。

具体的には、遠端音声信号が存在し、且つ近端音声信号が存在しない場合、現在の時刻での音声通話状態が遠端シングルトークであり、遠端音声信号が存在せず、且つ近端音声信号が存在する場合、現在の時刻での音声通話状態が近端シングルトークであり、遠端音声信号が存在し、且つ近端音声信号が存在する場合、現在の時刻での音声通話状態が両端ダブルトークであり、遠端音声信号が存在せず、且つ近端音声信号が存在しない場合、現在の時刻での音声通話状態がノートークである。

本出願の実施例に係る技術案は、端末システムの複数のオーディオキャプチャ機器によりキャプチャされた音声信号、オーディオ再生機器により再生された音声信号、及び機器の通話状態を統合して分析することで、ターゲットオーディオキャプチャ機器を選択することを実現し、関連技術に比べて、音声通話の全体性能を効果的に向上できる。

１つの例としては、本出願の実施例に係る音声通話技術案によれば、この例では、端末システムが実行本体であることについて説明し、図５は、端末システムがハンズフリー通話シーンでマイクロホンを選択する効果の模式図を示し、この携帯電話は、それぞれマイクロホンａ及びマイクロホンｂの２つのマイクロホンを含み、この携帯電話は、ハンズフリーで音声通話を行い、マイクロホンａによりキャプチャされた音声信号の時間領域の波形が図におけるａ波形に示され、マイクロホンｂによりキャプチャされた音声信号の時間領域の波形が図におけるｂ波形に示され、スピーカにより再生された音声信号の時間領域の波形が図におけるｃ波形に示され、ターゲットマイクロホンの選択結果が図における曲線ｄに示される。この例では、曲線ｄのＳ１に示す結果によれば、ターゲットマイクロホンがａであることが表われ、曲線ｄのＳ２に示す結果によれば、ターゲットマイクロホンがｂであることを表われる。この模式図において、横座標は、単位が秒（ｓ）の時間（図において一部の時間のみ示される）を表し、波形ａ～波形ｃは、縦座標が信号エネルギーの大きさを表し、具体的には、信号の振幅である。

具体的には、この例では、隣接する２つの時刻の間隔を０．１ｓとし、音声通話の０ｓ～１ｓ内に、曲線ｄから分かるように、この期間内においてマイクロホンａをターゲットマイクロホンとして選択し、具体的ば選択プロセスは、以下のとおりである。０ｓ～１ｓの期間内のいずれかの時刻、例えば０．３ｓに、履歴時刻が０．２ｓであり、０．２ｓ時刻での実際の音声検出結果として、この時刻に近端音声信号が存在せず、遠端音声信号が存在する場合、０．２秒での音声通話状態が遠端シングルトークであることを決定し、０．３ｓに信号エネルギーが小さい音声信号に対応するマイクロホンをターゲットマイクロホンとして選択すべきであり、波形ａ及び波形ｂから分かるように、０．３ｓにマイクロホンａによりキャプチャされた音声信号の信号エネルギーがマイクロホンｂによりキャプチャされた音声信号の信号エネルギー未満であり、０．３ｓにマイクロホンａをターゲットマイクロホンとして選択すべきである。

また例えば、音声通話の１ｓ～１．５ｓにおいて、音声信号の実際検出結果として遠端音声信号も存在せず、近端音声信号も存在せず、図の波形ａ及び波形ｂのこの期間の波形から分かるように、この期間内において２つのマイクロホンがあまり信号をキャプチャせず、実際の検出では、遠端音声信号が存在せず、すなわち、遠端音声信号を受信せず、スピーカが音声信号を再生せず、この期間内の各時刻での音声通話状態がいずれもノートーク状態であることを決定し、履歴時刻でのターゲットマイクロホンを現在の時刻でのターゲットマイクロホンとして決定し、すなわち、この期間内の各時刻でも、引き続きマイクロホンａをターゲットマイクロホンとして選択する。

また例えば、音声通話の１．５ｓ～２．４ｓの期間内において、曲線ｄから分かるように、この期間のターゲットマイクロホンがマイクロホンｂであり、ターゲットマイクロホンの選択プロセスは、以下のとおりである。この期間の実際音声検出結果として、近端音声信号が存在し、遠端音声信号が存在しない場合、この期間内の各時刻での音声通話状態が近端シングルトークであることを決定し、２つのマイクロホンのうち、キャプチャした音声信号の信号エネルギーが大きいマイクロホンをこの期間内の各時刻でのターゲットマイクロホンとして選択すべきであり、波形ａ及び波形ｂから分かるように、この期間内においてマイクロホンｂによりキャプチャされた音声信号のエネルギーがマイクロホンａによりキャプチャされた音声信号のエネルギーより大きく、この期間内の各時刻にマイクロホンｂをターゲットマイクロホンとして選択する。

また例えば、音声通話の３．６ｓ～４．６ｓの期間内において、４．１ｓを例とすると、対応する履歴時刻が４．０ｓであり、４．０ｓに対応する時間検出結果として近端音声信号も存在し、遠端音声信号も存在する場合、４．０ｓの音声通話状態が両端ダブルトークであることを決定し、履歴時刻でのターゲットマイクロホンを現在の時刻でのターゲットマイクロホンとして決定し、すなわち、４．０ｓのターゲットマイクロホンすなわちマイクロホンａを４．１ｓのターゲットマイクロホンとする。

同様に、本出願の実施例に係る技術案により、上記例における音声通話の各時刻でのターゲットマイクロホンの選択を実現することができ、ここで繰り返し説明しない。実験の認証によれば、本出願に係る技術案を用いることで、特定の音声通話状態で対応するターゲットマイクロホンを選択することができ、音声通話効果を効果的に向上させることができる。

図６は、本出願の実施例に係る音声通話方法のフローチャートであり、図６に示すように、この方法は、ステップ５０１～ステップ５０４を含むことができる。

ステップ５０１において、ユーザによる音声通話トリガー動作を受信する。

音声通話のトリガー動作とは、音声通話を起動させる指示であり、ユーザによる、対応する音声通話アプリケーションプログラムに対するクリック動作であってもよいし、ユーザが音声または文字を入力することで音声通話を起動させる指示であってもよい。

ステップ５０２において、前記音声通話トリガー動作に応じて、端末システムにおけるオーディオ再生機器と少なくとも２つのオーディオキャプチャ機器を起動させる。

この端末システムの具体的な種類については、音声通話ができる機器である限り、本出願の実施例で限定しない。携帯電話、ＰＡＤなどなどを含むが、これらに限られない。設けられたオーディオ再生機器は、スピーカであってもよく、オーディオキャプチャ機器は、マイクロホンであってもよく、オーディオ再生機器及び少なくとも２つのオーディオキャプチャ機器の具体的な種類、具体的な数、及びオーディオキャプチャ機器の端末システムにおける位置については、本出願の実施例で限定しない。

実際の使用では、端末システムは、音声通話に、対応するインタラクションインタフェースを提供することができ、このインタラクションインタフェースにおける対応する位置にオーディオ再生機器のアイコン及び少なくとも２つのオーディオキャプチャ機器アイコンを表示し、アイコンの色または形状などで、対応する機器のオンまたはオフ状態を表す。

ステップ５０３において、音声通話の初期時刻に対して、事前設定情報に対応する前記少なくとも２つのオーディオキャプチャ機器のうちのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、前記初期時刻での音声通話状態を決定する。

具体的には、事前設定情報に対応するターゲットオーディオキャプチャ機器は、少なくとも２つのオーディオキャプチャ機器のうちの１つのオーディオキャプチャ機器を予め指定または選択してもよいし、従来のターゲットオーディオキャプチャ機器の決定方式で選択してもよく、例えば、通話シーンに応じて、初期時刻でのターゲットオーディオキャプチャ機器を決定する。

ステップ５０４において、音声通話の初期時刻以外の現在の時刻に対して、上記実施例に係る方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行う。

本出願の実施例に係る音声通話方法は、履歴時刻での音声通話状態を用い、各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーを組み合わせることで、特定の音声通話状態で以後の音声強化処理により寄与する音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定し、ターゲットオーディオキャプチャ機器の決定プロセスが各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーまたは近端機器の通話シーンのみに依存するものではなく、従って、従来技術で決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号中のエコーが大きい、または、近端音声が小さい問題を回避し、音声通話の効果を向上させる。

本出願の実施例に係る音声通話方法は、マルチマイクロホン（デュアルマイクロホンを例とする）を有する端末システムの音声通話、例えば、音声通話シーンに関する関連アプリケーションプログラムに適用され、端末システムにおけるデュアルマイクロホンを用いて通話中のエコーを抑え、近端の音声ボリュームを向上させ、通話品質を向上させる。音声ミーティングアプリケーションプログラム（ＡＰＰ）を例とすると、具体的には、図７に示すように、アプリケーションプログラムを起動させ、ユーザ（図におけるアバターが現在のユーザを表す）がミーティングインタフェースに入り、マイクロホンを起動させると、発言し始め、図に示すように、ユーザがさらにこのミーティングインタフェースにおいて（誘いボタンをクリックすることで）他のユーザを誘ってこの会話に参加させ、さらにスクリーンを共有し、カメラを起動させて録画し、ＡＰＰを設定するなどを行うことができる。この場合、ユーザが発言した声は、端末システムにおける２つのマイクロホンによりキャプチャされ、オンラインの他のユーザの声も、機器により再生された後、マイクロホンによりキャプチャされるため、オンラインの他のユーザは、自分が発言した声、すなわち、エコーも聞いてしまう。エコーキャンセレーション装置がＡＰＰに内蔵されてもよく、マイクロホンが他のユーザのエコーをキャプチャすることを回避し、ローカルのユーザが発言した声のみを残し、ミーティングエクスペリエンスを向上させ、音声通話中、端末システムのデュアルマイクロホン音声強化モジュール（具体的には、ターゲットマイクロホンを決定し、音声信号を送信するなど）によってターゲットマイクロホンを選択することができ、選択したターゲットマイクロホンによりキャプチャされた音声信号に基づいて、他のユーザの端末システムに音声信号を送信する。なお、実際の使用では、ユーザがマイクロホン切り替えなどの他の動作を行うことなく、デュアルマイクロホンの音声強化モジュールは、マイクロホンスイッチのオンオフとともに、自動的にオンオフすることができる。

本出願の実施例に係る音声通話方法に対応し、本出願の実施例は、音声通話装置をさらに提供し、図８に示すように、この装置６００は、通話状態取得モジュール６０１、信号エネルギー取得モジュール６０２及びターゲットオーディオキャプチャ機器決定モジュール６０３を含むことができる。

通話状態取得モジュール６０１は、端末システムの履歴時刻での音声通話状態を取得するためのものであり、端末システムに少なくとも２つのオーディオキャプチャ機器が設置されており、
信号エネルギー取得モジュール６０２は、各オーディオキャプチャ機器により現在の時刻にキャプチャされた第１の音声信号を取得し、各第１の音声信号の信号エネルギーをそれぞれ決定するためのものであり、
ターゲットオーディオキャプチャ機器決定モジュール６０３は、履歴時刻での音声通話状態、及び各第１の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器のうちターゲットオーディオキャプチャ機器を決定するためのものである。

本出願の実施例に係る音声通話装置は、履歴時刻での音声通話状態を用い、各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーを組み合わせ、特定の音声通話状態で以後の音声強化処理に寄与する音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定し、ターゲットオーディオキャプチャ機器の決定プロセスが各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーまたは近端機器の通話シーンのみに依存するものではなく、従って、従来技術で決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号中のエコーが大きいまたは近端音声が小さい問題を回避し、音声通話の効果を向上させる。

本出願の一実施例では、この装置は、端末システムの音声通話状態を決定するための通話状態決定モジュールをさらに含み、このモジュールは、履歴時刻での音声通話状態を決定するとき、具体的には、
履歴時刻に遠端音声信号が存在するか否かを決定し、第１の決定結果を得て、
履歴時刻に近端音声信号が存在するか否かを決定し、第２の決定結果を得て、
第１の決定結果及び第２の決定結果に従って、履歴時刻での音声通話状態を決定する。

本出願の一実施例では、通話状態決定モジュールは、履歴時刻に近端音声信号が存在するか否かを決定するとき、具体的には、
履歴時刻でのターゲットオーディオキャプチャ機器により履歴時刻にキャプチャされた第２の音声信号を取得し、
第２の音声信号にエコーキャンセレーションを行い、エコーキャンセレーション処理後の第２の音声信号に近端音声信号が存在するか否かを決定する。

本出願の一実施例では、通話状態決定モジュールは、第１の決定結果及び第２の決定結果に従って、履歴時刻での音声通話状態を決定するとき、具体的には、
第１の決定結果として遠端音声信号が存在し、且つ第２の決定結果として近端音声信号が存在しない場合、履歴時刻での音声通話状態が遠端シングルトークであり、
第１の決定結果として遠端音声信号が存在せず、且つ第２の決定結果として近端音声信号が存在する場合、履歴時刻での音声通話状態が近端シングルトークであり、
第１の決定結果として遠端音声信号が存在し、且つ第２の決定結果として近端音声信号が存在する場合、履歴時刻での音声通話状態が両端ダブルトークであり、
第１の決定結果として遠端音声信号が存在せず、且つ第２の決定結果として近端音声信号が存在しない場合、履歴時刻での音声通話状態がノートークである。

本出願の一実施例では、ターゲットオーディオキャプチャ機器決定モジュール６０３は、具体的には、
履歴時刻での音声通話状態が遠端シングルトークである場合、信号エネルギーが最小の第１の音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定し、
履歴時刻での音声通話状態が近端シングルトークである場合、信号エネルギーが最大の第１の音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定し、
履歴時刻での音声通話状態が両端ダブルトークまたはノートークである場合、履歴時刻でのターゲットオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定する。

本出願の一実施例では、ターゲットオーディオキャプチャ機器決定モジュール６０３は、さらに、
履歴時刻での音声通話状態が遠端シングルトークである場合、現在の時刻よりも前に、音声通話状態が遠端シングルトークであり続ける回数を決定し、この回数が所定値よりも大きい場合、現在の時刻でのターゲットオーディオキャプチャ機器を現在の時刻以降のターゲットオーディオキャプチャ機器として決定する。

本出願の一実施例では、この装置は、
現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号にエコーキャンセレーションを行い、
エコーキャンセレーション処理後の第１の音声信号に近端音声信号が存在する場合、エコーキャンセレーション処理後の第１の音声信号を音声通話の相手端機器に送信するための信号送信モジュールをさらに含む。

本出願の一実施例では、信号送信モジュールは、現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号にエコーキャンセレーションを行うとき、具体的には、
現在の時刻での遠端音声信号を取得し、
現在の時刻での遠端音声信号及び現在の時刻でのエコー伝搬経路関数に基づいて、現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号中のエコー信号を決定し、
エコー信号に基づいて、現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号にエコーキャンセレーションを行う。

本出願の一実施例では、現在の時刻でのエコー伝搬経路関数は、
履歴時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第２の音声信号にエコーキャンセレーションを行い、履歴時刻での残留エコー信号を得て、
履歴時刻での残留エコー信号に基づいて、履歴時刻でのエコー伝搬経路関数を更新し、現在の時刻でのエコー伝搬経路関数を得る方式によって得られる。

図９は、本出願の実施例に係る音声通話装置の構造ブロック図であり、図９に示すように、この装置７００は、トリガー動作受信モジュール７０１、機器起動モジュール７０２、初期決定モジュール７０３及び音声通話モジュール７０４を含むことができ、
トリガー動作受信モジュール７０１は、ユーザによる音声通話トリガー動作を受信するためのものであり、
機器起動モジュール７０２は、音声通話トリガー動作に応じて、端末システムのオーディオ再生機器と少なくとも２つのオーディオキャプチャ機器を起動させるためのものであり、
初期決定モジュール７０３は、音声通話の初期時刻に対して、事前設定情報に対応する少なくとも２つのオーディオキャプチャ機器のうちのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、初期時刻での音声通話状態を決定するためのものであり、
音声通話モジュール７０４は、音声通話の初期時刻以外の現在の時刻に対して、第１の態様、第１の態様のいずれかの任意選択的な実施例または第３の態様に係る方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行うためのものである。

本出願の実施例に係る音声通話装置は、履歴時刻での音声通話状態を用い、各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーを組み合わせ、特定の音声通話状態で以後の音声強化処理により寄与する音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定し、ターゲットオーディオキャプチャ機器の決定プロセスが各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーまたは近端機器の通話シーンのみ依存するものではなく、従って、従来技術で決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号中のエコーが大きい、または、近端音声が小さい問題を回避し、音声通話の効果を向上させる。

同じ原理に基づいて、本出願の実施例は、電子機器をさらに提供し、この電子機器は、メモリ、プロセッサ、オーディオ再生機器、及び少なくとも２つのオーディオキャプチャ機器を含み、オーディオ再生機器は、音声信号を再生するためのものであり、少なくとも２つのオーディオキャプチャ機器は、音声信号をキャプチャするためのものであり、メモリにコンピュータプログラムが記憶されており、プロセッサは、このコンピュータプログラムを実行すると、本出願のいずれかの実施例に係る方法を実現し、具体的には、場合１及び場合２を実現することができる。

場合１：端末システムの履歴時刻での音声通話状態を取得し、端末システムに少なくとも２つのオーディオキャプチャ機器が設置されており、各オーディオキャプチャ機器により現在の時刻にキャプチャされた第１の音声信号を取得し、各第１の音声信号の信号エネルギーをそれぞれ決定し、履歴時刻での音声通話状態、及び各第１の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器のうち現在の時刻でのターゲットオーディオキャプチャ機器を決定する。

場合２：ユーザによる音声通話トリガー動作を受信し、音声通話トリガー動作に応じて、端末システムのオーディオ再生機器と少なくとも２つのオーディオキャプチャ機器を起動させ、音声通話の初期時刻に対して、事前設定情報に対応する少なくとも２つのオーディオキャプチャ機器のうちのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、初期時刻での音声通話状態を決定し、音声通話の初期時刻以外の現在の時刻に対して、場合１に係る方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行う。

本出願の実施例は、コンピュータ読み取り可能な記憶媒体をさらに提供し、このコンピュータ読み取り可能な記憶媒体にコンピュータプログラムが記憶されており、このプログラムがプロセッサにより実行されると、本出願のいずれかの実施例に示す方法を実現する。このコンピュータ読み取り可能な記憶媒体に記憶されるのは、本出願のいずれかの実施例に係る音声通話方法に対応するコンピュータプログラムであることが理解され得る。

図１０は、本出願の実施例が適用される電子機器の構造模式図を示し、図１０に示すように、図１０に示す電子機器８００は、プロセッサ８０１、メモリ８０３、オーディオ再生機器８０５及び少なくとも２つのオーディオキャプチャ機器８０６を含む。プロセッサ８０１、オーディオ再生機器８０５、少なくとも２つのオーディオキャプチャ機器８０６は、メモリ８０３に接続され、例えば、バス８０２を介して接続される。電子機器８００は、送受信機８０４をさらに含んでもよい。電子機器８００は、送受信機８０４を介して他の電子機器とデータを交換することができる。なお、実際の使用では、送受信機８０４は１つに限られず、この電子機器８００の構造は、本出願の実施例を限定するものを構成しない。

プロセッサ８０１は、本出願の実施例に適用され、図８または図９に示す音声通話装置の機能を実現する。

プロセッサ８０１は、ＣＰＵ、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡまたは他のプログラマブルロジックデバイス、トランジスタロジックデバイス、ハードウェア部材またはそれらの任意の組み合わせであり得る。本出願に開示される内容を組み合わせて説明された様々な例示的な論理ブロック、モジュール及び回路を実現または実行することができる。プロセッサ８０１は、計算機能を実現する組み合わせであってもよく、例えば、１つまたは複数のマイクロプロセッサー組み合わせ、ＤＳＰとマイクロプロセッサの組み合わせなどを含む。

バス８０２は、上記ユニットの間に情報を転送する通路を含んでもよい。バス８０２は、ＰＣＩバスやＥＩＳＡバスなどであり得る。バス８０２は、アドレスバス、データバス、コントロールバスなどに分けられる。表示の便宜上、図１０には１本の太い線で示めされているが、決して１本のバスや１種類のバスだけがあることを示していないのである。

メモリ８０３は、ＲＯＭまたは静的情報及び命令を記憶できる他の種類の静的記憶デバイス、ＲＡＭまたは情報及び命令を記憶できる他の種類の動的記憶デバイスであってもよいし、ＥＥＰＲＯＭ、ＣＤ－ＲＯＭまたは他の磁気ディスク・メモリー、光ディスク・メモリー（コンパクトディスク、レーザーディスク(登録商標)、光ディスク、デジタル多用途ディスク、レーザーディスク(登録商標)などを含む）、磁気ディスク記憶媒体または他の磁気メモリデバイス、または、命令あるいはデータ構造形式を有する望まれるプログラム・コードを含むまたは記憶し、かつコンピュータがアクセスできる他の如何なる適切な媒体であってもよいが、これらに限られない。

メモリ８０３は、本出願の技術案を実行するアプリケーションプログラムコードを記憶し、プロセッサ８０１は、制御することで実行させる。プロセッサ８０１は、メモリ８０３に記憶されるアプリケーションプログラムコードを実行することで、図８または図９に示す実施例に係る音声通話装置の動作を実現する。

図面のフローチャートの各ステップは、矢印の指示に沿って順次示されているが、これらのステップは必ずしも矢印の指示順序に沿って実行されるわけではない。本文に明示されない限り、これらのステップの実行は順序によって厳密に制限されず、他の順序で実行してもいいことが理解すべきである。また、図面のフローチャートの少なくとも一部のステップは複数のサブステップまたは複数の段階を含み、これらのサブステップまたは段階は必ずしも同一時刻で実行されずに、異なる時刻で実行してもよく、それらの実行順序も必ずしも順序通りに実行するものではなく、他のステップ、或いは、他のステップのサブステップまたは段階の少なくとも一部と順番にまたは入れ替えて実行することができる。

以上は、本出願の一部の実施の形態である。なお、当業者は、本出願に記載されている原理を逸脱せずに様々な改良や修飾をすることもできる。これらの改良や修飾も、本出願の保護範囲として見なされるべきである。

６００音声通話装置
６０１通話状態取得モジュール
６０２信号エネルギー取得モジュール
６０３ターゲットオーディオキャプチャ機器決定モジュール
７００音声通話装置
７０１トリガー動作受信モジュール
７０２機器起動モジュール
７０３初期決定モジュール
７０４音声通話モジュール
８００電子機器
８０１プロセッサ
８０２バス
８０３メモリ
８０４送受信機
８０５オーディオ再生機器
８０６オーディオキャプチャ機器

Claims

音声通話方法であって、
端末システムの履歴時刻での音声通話状態を取得するステップであって、前記端末システムに少なくとも２つのオーディオキャプチャ機器が設けられているステップと、
各前記オーディオキャプチャ機器により現在の時刻にキャプチャされた第１の音声信号を取得し、各前記第１の音声信号の信号エネルギーをそれぞれ決定するステップと、
前記履歴時刻での音声通話状態、及び各前記第１の音声信号の信号エネルギー応じて、前記オーディオキャプチャ機器のうち前記現在の時刻でのターゲットオーディオキャプチャ機器を決定するステップと、を含む、ことを特徴とする音声通話方法。
前記履歴時刻での音声通話状態は、
前記履歴時刻に遠端音声信号が存在するか否かを決定し、第１の決定結果を得るステップと、
前記履歴時刻に近端音声信号が存在するか否かを決定し、第２の決定結果を得るステップと、
前記第１の決定結果と前記第２の決定結果に従って、前記履歴時刻での音声通話状態を決定するステップと、によって決定される、ことを特徴とする請求項１に記載の方法。
前記履歴時刻に近端音声信号が存在するか否かを決定するステップは、
前記履歴時刻でのターゲットオーディオキャプチャ機器により前記履歴時刻にキャプチャされた第２の音声信号を取得するステップと、
前記第２の音声信号にエコーキャンセレーションを行い、エコーキャンセレーション処理後の前記第２の音声信号に近端音声信号が存在するか否かを決定するステップと、を含む、ことを特徴とする請求項２に記載の方法。
前記音声通話状態は、少なくとも、遠端シングルトーク、近端シングルトーク、両端ダブルトークまたはノートークを含む、ことを特徴とする請求項２に記載の方法。
第１の決定結果と前記第２の決定結果に従って、前記履歴時刻での音声通話状態を決定する前記ステップは、
前記第１の決定結果として遠端音声信号が存在し、且つ前記第２の決定結果として近端音声信号が存在しない場合、前記履歴時刻での音声通話状態が遠端シングルトークであるステップと、
前記第１の決定結果として遠端音声信号が存在せず、且つ前記第２の決定結果として近端音声信号が存在する場合、前記履歴時刻での音声通話状態が近端シングルトークであるステップと、
前記第１の決定結果として遠端音声信号が存在し、且つ前記第２の決定結果として近端音声信号が存在する場合、前記履歴時刻での音声通話状態が両端ダブルトークであるステップと、
前記第１の決定結果として遠端音声信号が存在せず、且つ前記第２の決定結果として近端音声信号が存在しない場合、前記履歴時刻での音声通話状態がノートークであるステップと、を含む、ことを特徴とする請求項４に記載の方法。
前記履歴時刻での音声通話状態、及び各前記第１の音声信号の信号エネルギー応じて、前記オーディオキャプチャ機器のうち前記現在の時刻でのターゲットオーディオキャプチャ機器を決定する前記ステップは、
前記履歴時刻での音声通話状態が遠端シングルトークである場合、信号エネルギーが最小の第１の音声信号に対応するオーディオキャプチャ機器を前記現在の時刻でのターゲットオーディオキャプチャ機器として決定するステップと、
前記履歴時刻での音声通話状態が近端シングルトークである場合、信号エネルギーが最大の第１の音声信号に対応するオーディオキャプチャ機器を前記現在の時刻でのターゲットオーディオキャプチャ機器として決定するステップと、
前記履歴時刻での音声通話状態が両端ダブルトークまたはノートークである場合、履歴時刻でのターゲットオーディオキャプチャ機器を前記現在の時刻でのターゲットオーディオキャプチャ機器として決定するステップと、を含む、ことを特徴とする請求項４に記載の方法。
前記履歴時刻での音声通話状態が遠端シングルトークである場合、
前記現在の時刻よりも前に、音声通話状態が遠端シングルトークであり続ける回数を決定するステップと、
前記回数が所定値よりも大きい場合、前記現在の時刻でのターゲットオーディオキャプチャ機器を前記現在の時刻以降のターゲットオーディオキャプチャ機器として決定するステップと、をさらに含む、ことを特徴とする請求項６に記載の方法。
前記現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号にエコーキャンセレーションを行うステップと、
エコーキャンセレーション処理後の第１の音声信号に近端音声信号が存在する場合、エコーキャンセレーション処理後の前記第１の音声信号を音声通話の相手端機器に送信するステップと、をさらに含む、ことを特徴とする請求項１～７のいずれか１項に記載の方法。
前記現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号にエコーキャンセレーションを行う前記ステップは、具体的には、
前記現在の時刻での遠端音声信号を取得するステップと、
前記現在の時刻での遠端音声信号と前記現在の時刻でのエコー伝搬経路関数に基づいて、前記現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号中のエコー信号を決定するステップと、
前記エコー信号に基づいて、前記現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第１の音声信号にエコーキャンセレーションを行うステップと、を含む、ことを特徴とする請求項８に記載の方法。
前記現在の時刻でのエコー伝搬経路関数は、
前記履歴時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第２の音声信号にエコーキャンセレーションを行い、前記履歴時刻での残留エコー信号を得て、
前記履歴時刻での残留エコー信号に基づいて、前記履歴時刻でのエコー伝搬経路関数を更新し、前記現在の時刻でのエコー伝搬経路関数を得る方式によって得られる、ことを特徴とする請求項９に記載の方法。
音声通話方法であって、
ユーザによる音声通話トリガー動作を受信するステップと、
前記音声通話トリガー動作に応じて、端末システムのオーディオ再生機器と少なくとも２つのオーディオキャプチャ機器を起動させるステップと、
音声通話の初期時刻に対して、事前設定情報に対応する前記少なくとも２つのオーディオキャプチャ機器のうちの１つのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、前記初期時刻での音声通話状態を決定するステップと、
音声通話の初期時刻以外の現在の時刻に対して、請求項１～１０のいずれか１項に記載の方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行うステップと、を含む、ことを特徴とする音声通話方法。
音声通話装置であって、
端末システムの履歴時刻での音声通話状態を取得するための通話状態取得モジュールであって、前記端末システムに少なくとも２つのオーディオキャプチャ機器が設けられている通話状態取得モジュールと、
各前記オーディオキャプチャ機器により現在の時刻にキャプチャされた第１の音声信号を取得し、各前記第１の音声信号の信号エネルギーをそれぞれ決定するための信号エネルギー取得モジュールと、
前記履歴時刻での音声通話状態、及び各前記第１の音声信号の信号エネルギー応じて、前記オーディオキャプチャ機器のうちターゲットオーディオキャプチャ機器を決定するためのターゲットオーディオキャプチャ機器決定モジュールと、を含む、ことを特徴とする音声通話装置。
音声通話装置であって、
ユーザによる音声通話トリガー動作を受信するためのトリガー動作受信モジュールと、
前記音声通話トリガー動作に応じて、端末システムのオーディオ再生機器と少なくとも２つのオーディオキャプチャ機器を起動させるための機器起動モジュールと、
音声通話の初期時刻に対して、事前設定情報に対応する前記少なくとも２つのオーディオキャプチャ機器のうちのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、前記初期時刻での音声通話状態を決定するための初期決定モジュールと、
音声通話の初期時刻以外の現在の時刻に対して、請求項１～１０のいずれか１項に記載の方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行うための音声通話モジュールと、を含む、ことを特徴とする音声通話装置。
メモリ、プロセッサ、オーディオ再生機器、及び少なくとも２つのオーディオキャプチャ機器を含み、
前記オーディオ再生機器は、音声信号を再生するためのものであり、
前記少なくとも２つのオーディオキャプチャ機器は、音声信号をキャプチャするためのものであり、
前記メモリにコンピュータプログラムが記憶されており、
前記プロセッサは、前記コンピュータプログラムを実行することで、請求項１～１１のいずれか１項に記載の方法を実現する、ことを特徴とする電子機器。
プロセッサによって実行されると、請求項１～１１のいずれか１項に記載の方法を実現するコンピュータプログラムが記憶されている、ことを特徴とするコンピュータ読み取り可能な記憶媒体。