JP2023511090A

JP2023511090A - ステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体

Info

Publication number: JP2023511090A
Application number: JP2022543511A
Authority: JP
Inventors: ハン，ボー; リウ，シン; シオーン，ウエイ; ジーン，シヤオ; リー，フオン
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-01-16
Filing date: 2021-01-12
Publication date: 2023-03-16
Also published as: CN113132863A; WO2021143656A1; CN113132863B; BR112022013690A2; CN117528349A; CN114846816A; US20230048860A1; EP4075825A4; CN114846816B; EP4075825A1

Abstract

本発明の実施形態は、ステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体を提供する。端末デバイスは、複数のマイクロフォンの収音データから複数のターゲット収音データを取得し、端末デバイスの姿勢データおよびカメラデータを取得し、姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定し、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成する。このようにして、端末デバイスが異なるビデオ記録シナリオにあるとき、異なるターゲットビームパラメータ群が異なる姿勢データおよびカメラデータに基づいて決定され、ステレオビームの方向が、異なるターゲットビームパラメータ群に基づいて調整される。したがって、記録環境におけるノイズの影響を効果的に低減することができ、その結果、端末デバイスは、異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができる。

Description

本出願は、２０２０年１月１６日に中国国家知識産権局に出願された、「STEREO SOUND PICKUP METHOD AND APPARATUS, TERMINAL DEVICE, AND COMPUTER-READABLE STORAGE MEDIUM」と題する中国特許出願第２０２０１００４８８５１．９号の優先権を主張し、その全体が参照により本明細書に組み込まれる。

本発明は、オーディオ処理分野に関し、特に、ステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体に関する。

端末技術の発展に伴い、ビデオ記録は、携帯電話またはタブレットコンピュータなどの端末デバイスの重要なアプリケーションになっており、ビデオ記録効果に対するユーザの要求はますます高くなってきている。

現在、ビデオを記録するために端末デバイスを使用するとき、端末デバイスは、ビデオ記録シナリオが複雑かつ変更可能であり、記録中に環境ノイズの影響があり、端末デバイスによって生成されるステレオビームの方向が固定の設定パラメータにより調整不可能であるので、様々なシナリオの要件に適応することができない。その結果、より良好なステレオ記録効果を得ることができない。

これに鑑みて、本発明の目的は、端末デバイスが異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができるようなステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体を提供することである。

前述の目的を達成するために、本発明の実施形態は、以下の技術的解決策を使用する。

第１の態様によれば、本発明の実施形態は、端末デバイスに適用されるステレオ収音方法を提供し、ここで、端末デバイスは複数のマイクロフォンを含み、方法は、以下を含む：
複数のマイクロフォンの収音データから複数のターゲット収音データを取得すること；
端末デバイスの姿勢データおよびカメラデータを取得すること；
姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定すること、ここで、ターゲットビームパラメータ群は、複数のターゲット収音データにそれぞれ対応するビームパラメータを含む；および
ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成すること。

本発明の本実施形態において提供されるステレオ収音方法では、ターゲットビームパラメータ群が端末デバイスの姿勢データとカメラデータとに基づいて決定されるので、端末デバイスが異なるビデオ記録シナリオにあるとき、異なるターゲットビームパラメータ群を決定することができるように、異なる姿勢データおよびカメラデータが取得される。このように、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームが形成されるとき、異なるターゲットビームパラメータ群を使用することによってステレオビームの方向が調整され得る。これにより、記録環境におけるノイズの影響が効果的に低減され、その結果、端末デバイスは、異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができる。任意選択の実装形態では、カメラデータはイネーブルデータを含み、イネーブルデータは有効なカメラ（enabled camera）を示す。

姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するステップは、姿勢データとイネーブルデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応する第１のターゲットビームパラメータ群を決定することを含む。

ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するステップは、第１のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて第１のステレオビームを形成することを含み、ここで、第１のステレオビームは、有効なカメラの撮影方向を指す。

本発明の本実施形態では、第１のターゲットビームパラメータ群は、端末デバイスの姿勢データと有効なカメラを示すイネーブルデータとに基づいて決定され、第１のステレオビームは、第１のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて形成される。したがって、異なるビデオ記録シナリオでは、第１のステレオビームの方向は、姿勢データとイネーブルデータとに基づいて適応的に調整され、これにより、端末デバイスがビデオを記録するときに、より良好なステレオ記録効果が得られ得ることが保証される。

任意選択の実装形態では、複数のビームパラメータ群は、第１のビームパラメータ群、第２のビームパラメータ群、第３のビームパラメータ群、および第４のビームパラメータ群を含み、第１のビームパラメータ群、第２のビームパラメータ群、第３のビームパラメータ群、および第４のビームパラメータ群内のビームパラメータは異なる。

端末デバイスが横向きモードにあることを姿勢データが示し、背面カメラが有効であることをイネーブルデータが示す場合、第１のターゲットビームパラメータ群は第１のビームパラメータ群である。

端末デバイスが横向きモードにあることを姿勢データが示し、前面カメラが有効であることをイネーブルデータが示す場合、第１のターゲットビームパラメータ群は第２のビームパラメータ群である。

端末デバイスが縦向きモードにあることを姿勢データが示し、背面カメラが有効であることをイネーブルデータが示す場合、第１のターゲットビームパラメータ群は第３のビームパラメータ群である。

端末デバイスが縦向きモードにあることを姿勢データが示し、前面カメラが有効であることをイネーブルデータが示す場合、第１のターゲットビームパラメータ群は第４のビームパラメータ群である。

任意選択の実装形態では、カメラデータはイネーブルデータとズームデータとを含む。ズームデータは、イネーブルデータによって示される有効なカメラのズーム倍率である。

姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するステップは、姿勢データと、イネーブルデータと、ズームデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応する第２のターゲットビームパラメータ群を決定することを含む。

ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するステップは、第２のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて、第２のステレオビームを形成することを含む。第２のステレオビームは、有効なカメラの撮影方向を指し、第２のステレオビームの幅は、ズーム倍率が大きくなるにつれて狭くなる。

本発明の本実施形態では、第２のターゲットビームパラメータ群は、端末デバイスの姿勢データと、有効なカメラを示すイネーブルデータと、ズームデータとに基づいて決定され、第２のステレオビームは、第２のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて形成される。したがって、異なるビデオ記録シナリオでは、姿勢データと、イネーブルデータと、ズームデータとに基づいて、第２のステレオビームの方向および幅が適応的に調整され、その結果、ノイズの多い環境および長距離収音条件において、より良好な記録ロバスト性を実現することができる。

任意選択の実装形態では、複数のマイクロフォンの収音データから複数のターゲット収音データを取得するステップは、以下を含む：
複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得すること；
各マイクロフォンの収音データに異常音データが存在するか否かを検出すること；
異常音データが存在する場合、複数のマイクロフォンの収音データ中の異常音データを除去して、初期ターゲット収音データを取得すること；および
初期ターゲット収音データから、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを、複数のターゲット収音データとして選択すること。

本発明の本実施形態では、ステレオビームを形成するために使用される複数のターゲット収音データは、複数のマイクロフォンに対してマイクロフォンブロッキング検出を実行し、複数のマイクロフォンの収音データに対して異常音処理を実行することによって決定され、その結果、異常音干渉およびマイクロフォンブロッキングの場合でも、依然としてより良好な記録ロバスト性が実現され、良好なステレオ記録効果が保証される。

任意選択の実装形態では、複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得するステップは、以下を含む：
各マイクロフォンの収音データに対して時間領域フレーミング処理および周波数領域変換処理を行って、各マイクロフォンの収音データに対応する時間領域情報および周波数領域情報を取得すること；
異なるマイクロフォンの収音データに対応する時間領域情報および周波数領域情報を別々に比較して、時間領域比較結果および周波数領域比較結果を取得すること；
時間領域比較結果と周波数領域比較結果とに基づいて、ブロックされたマイクロフォンのシーケンス番号を決定すること；および
ブロックされたマイクロフォンのシーケンス番号に基づいて、ブロックされていないマイクロフォンのシーケンス番号を決定すること。

本発明の本実施形態では、正確なマイクロフォンブロッキング検出結果を取得することができるように、異なるマイクロフォンの収音データに対応する時間領域情報および周波数領域情報が比較される。これは、ステレオビームを形成するために使用される複数のターゲット収音データを後に決定するのに役立ち、良好なステレオ記録効果を保証する。

任意選択の実装形態では、各マイクロフォンの収音データに異常音データが存在するか否かを検出するステップは、以下を含む：
各マイクロフォンの収音データに対して周波数領域変換処理を行い、各マイクロフォンの収音データに対応する周波数領域情報を取得すること；および
予めトレーニングされた異常音検出ネットワークと、各マイクロフォンの収音データに対応する周波数領域情報とに基づいて、各マイクロフォンの収音データに異常音データが存在するか否かを検出すること。

本発明の本実施形態では、周波数領域変換処理がマイクロフォンの収音データに対して実行され、マイクロフォンの収音データに異常音データが存在するか否かが、予めトレーニングされた異常音検出ネットワーククと、マイクロフォンの収音データに対応する周波数領域情報とを使用することによって検出されて、その後、クリーンな収音データが取得され、それによって、良好なステレオ記録効果を保証する。

任意選択の実装形態では、複数のマイクロフォンの収音データ中の異常音データを除去するステップは、以下を含む：
予めトレーニングされた音検出ネットワークを使用することによって、異常音データに予め設定された音データが存在するか否かを検出すること；および
予め設定された音データが存在しない場合、異常音データを除去すること；または
予め設定された音データが存在する場合、異常音データの強度を低減すること。

本発明の本実施形態では、異常音に対して除去処理が実行されるとき、異常音データに予め設定された音データが存在するか否かが検出され、検出結果に基づいて異なる除去措置がとられる。これは、クリーンな収音データが得られることを保証するだけでなく、ユーザが記録することを期待する音データが完全に除去されることを防止することもできる。

任意選択の実装形態では、複数のマイクロフォンの収音データから複数のターゲット収音データを取得するステップは、以下を含む：
複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得すること；および
複数のマイクロフォンの収音データから、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを、複数のターゲット収音データとして選択すること。

本発明の本実施形態では、複数のマイクロフォンに対してマイクロフォンブロッキング検出が行われ、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データが選択されてから、ステレオビームが形成されるので、端末デバイスがビデオを記録するときに、マイクロフォンブロッキングに起因して音質が著しく低下することもステレオが著しく不均衡になることもなく、すなわち、マイクロフォンがブロッキングされているときでも、ステレオ記録効果を保証することができ、記録ロバスト性は良好である。

任意選択の実装形態では、複数のマイクロフォンの収音データから複数のターゲット収音データを取得するステップは、以下を含む：
各マイクロフォンの収音データに異常音データが存在するか否かを検出すること；および
異常音データが存在する場合、複数のマイクロフォンの収音データ中の異常音データを除去して、複数のターゲット収音データを取得すること。

本発明の本実施形態では、複数のマイクロフォンの収音データに対して異常音検出および異常音除去処理が行われ、その結果、後にステレオビームを形成するためのクリーンな収音データが取得され得る。このようにして、端末デバイスがビデオを記録するとき、ステレオ記録効果に対する異常音データの影響が効果的に低減される。任意選択の実装形態では、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するステップの後に、方法は、以下をさらに含む：
ステレオビームの音色を補正すること。

本発明の本実施形態では、ステレオビームの音色を補正することによって、周波数応答が直線になるように補正されて、より良好なステレオ記録効果を得ることができるようにする。

任意選択の実装形態では、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するステップの後に、方法は、以下をさらに含む：
ステレオビームの利得を調整すること。

本発明の本実施形態では、ステレオビームの利得を調整することによって、低音量の収音データを明瞭に聞くことができ、高音量の収音データにクリッピング歪みが生じないので、ユーザによって記録された音を適切な音量に調整することができる。これにより、ユーザのビデオ記録経験が向上する。

任意選択の実装形態では、カメラデータは、有効なカメラのズーム倍率を含み、ステレオビームの利得を調整するステップは、以下を含む：
カメラのズーム倍率に基づいてステレオビームの利得を調整すること。

本発明の本実施形態では、ターゲット音源の音量が長距離に起因して減少しないように、ステレオビームの利得をカメラのズーム倍率に基づいて調整する。これにより、ビデオ記録の音響効果が向上する。

任意選択の実装形態では、マイクロフォンの数が３～６であり、端末デバイスの画面の前面または端末デバイスの背面に少なくとも１つのマイクロフォンが配置される。

本発明の本実施形態では、端末デバイスの前方向および後方向を指すステレオビームが形成され得ることを保証するために、端末デバイスの画面の前面または端末デバイスの背面に少なくとも１つのマイクロフォンが配置される。

任意選択の実装形態では、マイクロフォンの数が３であり、端末デバイスの上部および下部のぞれぞれに１つずつマイクロフォンが配置され、端末デバイスの画面の前面または端末デバイスの背面に１つのマイクロフォンが配置される。

任意選択の実装形態では、マイクロフォンの数が６であり、端末デバイスの上部および下部のぞれぞれに２つずつマイクロフォンが配置され、端末デバイスの画面の前面および端末デバイスの背面のそれぞれに１つずつマイクロフォンが配置される。

第２の態様によれば、本発明の実施形態は、端末デバイスに適用されるステレオ収音装置を提供し、ここで、端末デバイスは複数のマイクロフォンを含み、装置は、以下を含む：
複数のマイクロフォンの収音データから複数のターゲット収音データを取得するように構成された収音データ取得モジュール；
端末デバイスの姿勢データおよびカメラデータを取得するように構成されたデバイスパラメータ取得モジュール；
姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するように構成されたビームパラメータ決定モジュール、ここで、ターゲットビームパラメータ群は、複数のターゲット収音データにそれぞれ対応するビームパラメータを含む；および
ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するように構成されたビーム形成モジュール。

第３の態様によれば、本発明の実施形態は、コンピュータプログラムを記憶するメモリと、プロセッサとを含む端末デバイスを提供する。コンピュータプログラムがプロセッサによって読み取られて実行されるとき、前述の実装形態のいずれか１つによる方法が実施される。

第４の態様によれば、本発明の実施形態は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体はコンピュータプログラムを記憶し、コンピュータプログラムがプロセッサによって読み取られて実行されるとき、前述の実装形態のいずれか１つによる方法が実施される。

第５の態様によれば、本発明の実施形態は、コンピュータプログラム製品をさらに提供する。コンピュータプログラム製品がコンピュータ上で実行されるとき、コンピュータは、前述の実装形態のいずれか１つによる方法を実行することが可能にされる。

第６の態様によれば、本発明の実施形態は、チップシステムをさらに提供する。チップシステムは、プロセッサを含み、前述の実装形態のいずれか１つによる方法を実施するように構成されたメモリをさらに含み得る。チップシステムは、チップを含み得るか、またはチップおよび別の個別構成要素を含み得る。

本発明の目的、特徴、および利点をより明確かつより分かりやすくするために、以下に、実施形態および添付の図面を参照して詳細な説明を与える。

本発明の実施形態における技術的解決策をより明確に説明するために、以下では、実施形態を説明するために使用される添付の図面について簡単に説明する。添付の図面は、本発明のいくつかの実施形態のみを示すものであり、したがって、範囲を限定するものと見なされるべきではないことは理解されたい。当業者は、創造的な努力なしに、これらの添付の図面から他の関連する図面をさらに導出し得る。
本発明の実施形態による、端末デバイスのハードウェア構造の概略図である。本発明の実施形態による、端末デバイス上のマイクロフォンの数が３であるときのレイアウトの概略図である。本発明の実施形態による、端末デバイス上のマイクロフォンの数が６であるときのレイアウトの概略図である。本発明の実施形態による、ステレオ収音方法の概略フローチャートである。本発明の実施形態による、ステレオ収音方法の別の概略フローチャートである。端末デバイスが横向きモードにあり、背面カメラが有効であるときの対応する第１のステレオビームの概略図である。端末デバイスが横向きモードにあり、前面カメラが有効であるときの対応する第１のステレオビームの概略図である。端末デバイスが縦向きモードにあり、背面カメラが有効であるときの対応する第１のステレオビームの概略図である。端末デバイスが縦向きモードにあり、前面カメラが有効であるときの対応する第１のステレオビームの概略図である。本発明の実施形態による、ステレオ収音方法のさらに別の概略フローチャートである。図１１ａ～図１１ｃは、第２のステレオビームの幅が有効なカメラのズーム倍率とともに変化する概略図である。図４のＳ２０１のサブステップの概略フローチャートである。図４のＳ２０１のサブステップの別の概略フローチャートである。図４のＳ２０１のサブステップのさらに別の概略フローチャートである。本発明の実施形態による、ステレオ収音方法のさらに別の概略フローチャートである。本発明の実施形態による、ステレオ収音方法のさらに別の概略フローチャートである。本発明の実施形態による、ステレオ収音装置の機能モジュールの概略図である。本発明の実施形態による、ステレオ収音装置の機能モジュールの別の概略図である。本発明の実施形態による、ステレオ収音装置の機能モジュールのさらに別の概略図である。

以下は、本発明の実施形態における添付の図面を参照して、本発明の実施形態における技術的解決策を明確に説明する。説明される実施形態が、本発明の実施形態のすべてではなく、単に一部であることは明らかである。一般に、本明細書で説明され、添付の図面に示される本発明の実施形態の構成要素は、様々な構成で配置および設計され得る。

したがって、添付の図面において提供される本発明の実施形態の以下の詳細な説明は、保護を主張する本発明の範囲を限定することを意図するものではなく、単に本発明の選択された実施形態を表すものである。創造的な努力なしに本発明の実施形態に基づいて当業者によって得られるすべての他の実施形態は、本発明の保護範囲内に入るものとする。

「第１」および「第２」などの関係語は、単に、あるエンティティまたは動作を別のエンティティまたは動作と区別するために使用されており、これらのエンティティまたは動作の間に何らかの実際の関係または順序が存在することを必ずしも必要とするものでも暗示するものでもないことに留意されたい。さらに、「含む（include）」、「含有する（contain）」という用語、または任意の他の変形は、要素のリストを含むプロセス、方法、物品、またはデバイスが、それらの要素を含むだけでなく、明示的に列挙されていない他の要素も含むか、またはそのようなプロセス、方法、物品、もしくはデバイスに固有の要素をさらに含むように、非排他的な包含をカバーすることが意図される。「～を含む（includes a ...）」が先行する要素は、さらなる制約なしに、その要素を含むプロセス、方法、物品、またはデバイスにおける追加の同一要素の存在を排除しない。

本発明の実施形態において提供されるステレオ収音方法および装置は、携帯電話またはタブレットコンピュータなどの端末デバイスに適用され得る。例えば、図１は、端末デバイスのハードウェア構造の概略図である。端末デバイスは、プロセッサ１１０、内部メモリ１２０、外部メモリインターフェース１３０、センサモジュール１４０、カメラ１５０、ディスプレイ１６０、オーディオモジュール１７０、スピーカ１７１、マイクロフォン１７２、受信機１７３、ヘッドセットジャック１７４、モバイル通信モジュール１８０、ワイヤレス通信モジュール１９０、ＵＳＢ（Universal Serial Bus、ユニバーサルシリアルバス）インターフェース１０１、充電管理モジュール１０２、電力管理モジュール１０３、バッテリ１０４、ボタン１０５、モータ１０６、インジケータ１０７、加入者識別モジュール（Subscriber Identification Module、ＳＩＭ）カードインターフェース１０８、およびアンテナ１、アンテナ２などを含み得る。

図１に示されるハードウェア構造は一例にすぎないことは理解されたい。本発明の実施形態における端末デバイスは、図１に示される端末デバイスよりも多いまたは少ない構成要素を含み得るか、２つ以上の構成要素を組み合わせ得るか、または異なる構成要素構成を有し得る。図１に示される様々な構成要素は、１つまたは複数の信号処理および／または特定用途向け集積回路を含むハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組合せで実装され得る。

プロセッサ１１０は、１つまたは複数の処理ユニットを含み得る。例えば、プロセッサ１１０は、アプリケーションプロセッサ（Application Processor、ＡＰ）、モデムプロセッサ、グラフィックス処理ユニット（Graphics Processing Unit、ＧＰＵ）、画像信号プロセッサ（Ｉｍａｇｅ Signal Processor、ＩＳＰ）、コントローラ、メモリ、ビデオコーデック、デジタル信号プロセッサ（Digital Signal Processor、ＤＳＰ）、ベースバンドプロセッサ、ニューラルネットワーク処理ユニット（Neural-network Processing Unit、ＮＰＵ）、および／または同様のものを含み得る。異なる処理ユニットは、独立した構成要素であり得るか、または１つまたは複数のプロセッサに統合され得る。コントローラは、端末デバイスの中枢およびコマンドセンターであり得る。コントローラは、命令オペレーションコードおよび時系列信号に基づいてオペレーション制御信号を生成して、命令のフェッチおよび命令の実行の制御を完了し得る。

メモリは、プロセッサ１１０内に配置され得、命令およびデータを記憶するように構成される。いくつかの実施形態では、プロセッサ１１０内のメモリはキャッシュである。メモリは、プロセッサ１１０によって単に使用されるかまたは周期的に使用される命令またはデータを記憶し得る。プロセッサ１１０が命令またはデータを再び使用する必要がある場合、プロセッサ１１０はメモリから命令またはデータを直接呼び出して、反復アクセスを回避し、プロセッサ１１０の待ち時間を低減し、それによってシステム効率を高め得る。

内部メモリ１２０は、コンピュータプログラムおよび／またはデータを記憶するように構成され得る。いくつかの実施形態では、内部メモリ１２０は、プログラム記憶領域とデータ記憶領域とを含み得る。プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能（例えば、音再生機能、画像再生機能、または顔認識機能）などによって必要とされるアプリケーションなどを記憶し得る。データ記憶領域は、端末デバイスの使用中に作成されるデータ（例えば、オーディオデータまたは画像データ）などを記憶し得る。例えば、プロセッサ１１０は、内部メモリ１２０に記憶されたコンピュータプログラムおよび／またはデータを実行して、端末デバイスの様々な機能アプリケーションおよびデータ処理を実行し得る。例えば、内部メモリ１２０に記憶されたコンピュータプログラムおよび／またはデータがプロセッサ１１０によって読み出されて実行されるとき、端末デバイスは、本発明の実施形態において提供されるステレオ収音方法を実行し得、その結果、端末デバイスは、異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができる。加えて、内部メモリ１２０は、高速ランダムアクセスメモリを含み得、さらに不揮発性メモリを含み得る。例えば、不揮発性メモリは、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、ユニバーサルフラッシュストレージ（Universal Flash Storage、ＵＦＳ）などを含み得る。

外部メモリインターフェース１３０は、端末デバイスの記憶能力を拡張するために、外部記憶カード、例えばマイクロＳＤカードに接続するように構成され得る。外部記憶カードは、外部メモリインターフェース１３０を通してプロセッサ１１０と通信して、データ記憶機能を実装する。例えば、音楽やビデオなどのファイルが外部記憶カードに記憶される。

センサモジュール１４０は、１つまたは複数のセンサ、例えば、加速度センサ１４０Ａ、ジャイロスコープセンサ１４０Ｂ、距離センサ１４０Ｃ、圧力センサ１４０Ｄ、タッチセンサ１４０Ｅ、指紋センサ１４０Ｆ、周辺光センサ１４０Ｇ、骨伝導センサ１４０Ｈ、光学式近接センサ１４０Ｊ、温度センサ１４０Ｋ、気圧センサ１４０Ｌ、または磁気センサ１４０Ｍを含み得る。ここでは、これに限定しない。

加速度センサ１４０Ａは、加速力の変化、例えば、振動、落下、上昇、および降下などの様々な動きの変化、ならびに端末デバイスが保持される角度の変化を感知することができ、加速度センサ１４０Ａによってこれらの変化が電気信号に変換され得る。本実施形態では、加速度センサ１４０Ａは、端末デバイスが横向きモードにあるか縦向きモードにあるかを検出し得る。

ジャイロスコープセンサ１４０Ｂは、端末デバイスの動き姿勢を決定するように構成され得る。いくつかの実施形態では、３つの軸（すなわち、ｘ、ｙ、およびｚ軸）の周りの端末デバイスの角速度が、ジャイロスコープセンサ１４０Ｂを使用することによって決定され得る。ジャイロスコープセンサ１４０Ｂは、撮影中に画像安定化を実施するように構成され得る。例えば、シャッターが押されるとき、ジャイロスコープセンサ１４０Ｂは、端末デバイスの振れ角度を検出し、その角度に基づいて、レンズモジュールによって補償される必要がある距離を計算し、逆の動きを実行することによってレンズが端末デバイスの振れを打ち消すことができるようにし、それによって画像安定化を実施する。ジャイロスコープセンサ１４０Ｂは、ナビゲーションおよび動き感知ゲームシナリオにおいてさらに使用され得る。

距離センサ１４０Ｃは、距離を測定するように構成され得る。端末デバイスは、赤外光またはレーザを使用することによって距離を測定し得る。例えば、撮影シナリオでは、端末デバイスは、距離センサ１４０Ｃを使用することによって距離を測定して、高速焦点合わせを実施し得る。

圧力センサ１４０Ｄは、圧力信号を感知し、圧力信号を電気信号に変換するように構成され得る。いくつかの実施形態では、圧力センサ１４０Ｄは、ディスプレイ１６０上に配置され得る。例えば、抵抗型圧力センサ、誘導型圧力センサ、および容量型圧力センサといった、多くのタイプの圧力センサ１４０Ｄがある。容量型圧力センサは、導電性材料で作られた少なくとも２つの平行なプレートを含み得る。圧力センサ１４０Ｄに力が加えられると、電極間の静電容量が変化し、端末デバイスは、静電容量の変化に基づいて圧力の強さを決定する。端末デバイスは、ディスプレイ１６０に対してタッチ操作が行われた場合、圧力センサ１４０Ｄを使用することによってタッチ操作の強さを検出し得るか、または圧力センサ１４０Ｄの検出信号に基づいてタッチ位置を計算し得る。

タッチセンサ１４０Ｅは、「タッチパネル」とも呼ばれる。タッチセンサ１４０Ｅは、ディスプレイ１６０上に配置され得、タッチセンサ１４０Ｅおよびディスプレイ１６０は、「タッチ画面」とも呼ばれるタッチスクリーンを形成する。タッチセンサ１４０Ｅは、タッチセンサ１４０Ｅにまたはその付近に対して行われたタッチ操作を検出するように構成される。タッチセンサ１４０Ｅは、検出されたタッチ操作をアプリケーションプロセッサに伝達してタッチイベントのタイプを決定し、ディスプレイ１６０を通してタッチ操作と関連した視覚的出力を提供し得る。いくつかの他の実施形態では、タッチセンサ１４０Ｅは、代替的に、ディスプレイ１６０の位置とは異なる位置で端末デバイスの表面上に配置され得る。

指紋センサ１４０Ｆは、指紋を収集するように構成され得る。端末デバイスは、収集された指紋の特徴を使用して、指紋ベースのロック解除、アプリケーションロックアクセス、指紋ベースの写真撮影、指紋ベースの電話応答などを実施し得る。

周辺光センサ１４０Ｇは、周辺光の輝度を感知するように構成され得る。端末デバイスは、感知された周辺光の輝度に基づいて、ディスプレイ１６０の輝度を適応的に調整し得る。また、周辺光センサ１４０Ｇは、撮影時にホワイトバランスを自動的に調整するように構成され得る。周辺光センサ１４０Ｇはさらに、光学式近接センサ１４０Ｊと協働して、端末デバイスがポケット内にあるか否かを検出して、偶発的な接触を防止し得る。骨伝導センサ１４０Ｈは、振動信号を取得するように構成され得る。いくつかの実施形態では、骨伝導センサ１４０Ｈは、人間の声帯部分の振動骨の振動信号を取得し得る。骨伝導センサ１４０Ｈはまた、血圧拍動信号を受信するために身体パルスと接触し得る。いくつかの実施形態では、骨伝導センサ１４０Ｈは、骨伝導ヘッドセットを得るために、ヘッドセット内に配置され得る。オーディオモジュール１７０は、骨伝導センサ１４０Ｈによって取得された、声帯部分の振動骨の振動信号に基づく解析を通して音声信号を取得して、音声機能を実装し得る。アプリケーションプロセッサは、骨伝導センサ１４０Ｈによって取得された血圧拍動信号に基づいて心拍数情報を解析して、心拍数検出機能を実装し得る。

光学式近接センサ１４０Ｊは、例えば、発光ダイオード（ＬＥＤ）と、フォトダイオードなどの光検出器とを含み得る。発光ダイオードは、赤外発光ダイオードであり得る。端末デバイスは、発光ダイオードを使用することによって赤外光を外部に発する。端末デバイスは、フォトダイオードを使用することによって近くのオブジェクトからの赤外反射光を検出する。適切な反射光が検出されると、端末デバイスは、端末デバイスの近くにオブジェクトが存在すると決定し得る。不適切な反射光が検出されると、端末デバイスは、端末デバイスの近くにオブジェクトが存在しないと決定し得る。端末デバイスは、端末デバイスが自動的に画面をオフにして電力を節約することができるように、光学式近接センサ１４０Ｊを使用することによって、ユーザが通話のために端末デバイスを耳の近くに保持していることを検出し得る。

温度センサ１４０Ｋは、温度を検出するように構成され得る。いくつかの実施形態では、端末デバイスは、温度センサ１４０Ｋによって検出された温度を使用することによって温度処理ポリシーを実行する。例えば、温度センサ１４０Ｋによって報告された温度がしきい値を超えるとき、端末デバイスは、温度センサ１４０Ｋの近くに位置するプロセッサの性能を低下させて、電力消費を低減し、熱保護を実施する。いくつかの他の実施形態では、温度が別のしきい値よりも低いとき、端末デバイスはバッテリ１０４を加熱して、低温によって引き起こされる端末デバイスの異常シャットダウンを回避する。いくつかの他の実施形態では、温度がさらに別のしきい値よりも低いとき、端末デバイスはバッテリ１０４の出力電圧をブーストして、低温によって引き起こされる異常シャットダウンを回避する。

気圧センサ１４０Ｌは、気圧を測定するように構成され得る。いくつかの実施形態では、端末デバイスは、気圧センサ１４０Ｌによって測定された気圧値を使用することによって高度を計算して、測位およびナビゲーションを支援する。

磁気センサ１４０Ｍは、ホール効果センサを含み得る。端末デバイスは、磁気センサ１４０Ｍを使用することによってフリップカバーの開閉を検出し得る。いくつかの実施形態では、端末デバイスが折り畳み式携帯電話であるとき、端末デバイスは、磁気センサ１４０Ｍを使用することによって、フリップカバーが開いているか閉じているかを検出し、さらに、フリップカバーの検出された開閉状態に基づいて、フリップカバーの自動ロック解除などの機能を設定し得る。

カメラ１５０は、画像またはビデオをキャプチャするように構成される。オブジェクトの光学像は、レンズを使用することによって生成され、感光素子に投影される。感光素子は、電荷結合素子（Charge Coupled Device、ＣＣＤ）または相補型金属酸化膜半導体（Complementary Metal-Oxide-Semiconductor、ＣＭＯＳ）光電トランジスタであり得る。感光素子は光信号を電気信号に変換し、次いで、電気信号をＩＳＰに送信して、電気信号をデジタル画像信号に変換する。ＩＳＰは、処理のためにデジタル画像信号をＤＳＰに出力する。ＤＳＰは、デジタル画像信号を、ＲＧＢやＹＵＶなどの標準フォーマットの画像信号に変換する。いくつかの実施形態では、端末デバイスは、１つまたは複数のカメラ１５０を含み得る。ここでは、これに限定しない。一例では、端末デバイスは、２つのカメラ１５０、例えば、１つの前面カメラおよび１つの背面カメラを含む。別の例では、端末デバイスは、５つのカメラ１５０、例えば、３つの背面カメラおよび２つの前面カメラを含む。端末デバイスは、ＩＳＰ、カメラ１５０、ビデオコーデック、ＧＰＵ、ディスプレイ１６０、アプリケーションプロセッサなどを使用することによって撮影機能を実装することができる。

ディスプレイ１６０は、画像、ビデオなどを表示するように構成される。ディスプレイ１６０は、ディスプレイパネルを含む。ディスプレイパネルは、液晶ディスプレイ（Liquid Crystal Display、ＬＣＤ）、有機発光ダイオード（Organic Light-Emitting Diode、ＯＬＥＤ）、アクティブマトリクス有機発光ダイオード（Active-Matrix Organic Light Emitting Diode、ＡＭＯＬＥＤ）、フレキシブル発光ダイオード（Flexible Light-Emitting Diode、ＦＬＥＤ）、ミニＬＥＤ、マイクロＬＥＤ、マイクロＯＬＥＤ、量子ドット発光ダイオード（Quantum Dot Light Emitting Diode、ＱＬＥＤ）などを使用し得る。例えば、端末デバイスは、ＧＰＵ、ディスプレイ１６０、アプリケーションプロセッサなどを使用することによって表示機能を実装し得る。

本実施形態では、端末デバイスは、オーディオモジュール１７０、スピーカ１７１、マイクロフォン１７２、受信機１７３、ヘッドセットジャック１７４、アプリケーションプロセッサなどを使用することによって、オーディオ再生および記録などのオーディオ機能を実装し得る。

オーディオモジュール１７０は、デジタルオーディオ情報をアナログオーディオ信号出力に変換するように構成され、アナログオーディオ入力をデジタルオーディオ信号に変換するようにも構成される。オーディオモジュール１７０は、オーディオ信号を符号化および復号するようにさらに構成され得る。いくつかの実施形態では、オーディオモジュール１７０がプロセッサ１１０内に配置され得るか、またはオーディオモジュール１７０内のいくつかの機能モジュールがプロセッサ１１０内に配置される。

「ラウドスピーカ」とも呼ばれるスピーカ１７１は、オーディオ電気信号を音信号に変換するように構成される。例えば、端末デバイスは、スピーカ１７１を使用することによって、音楽を再生したり、声によるプロンプトを送信したりし得る。

「マイク」または「ｍｉｃ」とも呼ばれるマイクロフォン１７２は、音（例えば、人によって発せられる音またはデバイスによって発せられる音を含む周囲音）をキャプチャし、音信号をオーディオ電気信号、すなわち、本実施形態における収音データに変換するように構成される。複数のマイクロフォン１７２が端末デバイス上に配置され得ること、および、複数のマイクロフォン１７２が端末デバイス上に配置されるので、端末デバイスを使用することによってビデオを記録するときに、ユーザが高品質のステレオ記録効果を得ることができることに留意されたい。

本実施形態では、端末デバイス上に配置されるマイクロフォン１７２の数は３～６であり得、端末デバイスの前方向および後方向を指すステレオビームが形成され得ることを保証するために、端末デバイスの画面の前面または端末デバイスの背面に少なくとも１つのマイクロフォン１７２が配置される。

例えば、図２に示されるように、マイクロフォンの数が３であるとき、端末デバイスの上部および下部のそれぞれに１つずつマイクロフォンが配置され（すなわち、ｍ１およびｍ２）、端末デバイスの画面の前面または端末デバイスの背面に１つのマイクロフォンが配置される（すなわち、ｍ３）。図３に示されるように、マイクロフォンの数が６であるとき、端末デバイスの上部および下部のそれぞれに２つずつマイクロフォンが配置され（すなわち、ｍ１およびｍ２、ならびにｍ３およびｍ４）、端末デバイスの画面の前面および端末デバイスの背面のそれぞれに１つずつマイクロフォンが配置される（すなわち、ｍ５およびｍ６）。別の実施形態では、マイクロフォン１７２の数は代替的に４つまたは５つであってもよく、端末デバイスの画面の前面または端末デバイスの背面に少なくとも１つのマイクロフォン１７２が配置されることが理解され得る。

「イヤピース」とも呼ばれる受信機１７３は、オーディオ電気信号を音信号に変換するように構成される。電話に応答するためまたは音声情報を聞いたりするために端末デバイスが使用されるとき、受信機１７３は、音声を聞くために人間の耳の近くに置かれ得る。

ヘッドセットジャック１７４は、ワイヤードヘッドセットに接続するように構成される。ヘッドセットジャック１７４は、ＵＳＢインターフェースであり得るか、または３．５ｍｍのオープンモバイルターミナルプラットフォーム（Open Mobile Terminal Platform、ＯＭＴＰ）標準インターフェースもしくは米国セルラー通信工業会（Cellular Telecommunications Industry Association of the USA、ＣＴＩＡ）標準インターフェースであり得る。

端末デバイスのワイヤレス通信機能は、アンテナ１、アンテナ２、モバイル通信モジュール１８０、ワイヤレス通信モジュール１９０、モデムプロセッサ、ベースバンドプロセッサなどを通して実装され得る。

アンテナ１およびアンテナ２は、電磁波信号を送信および受信するように構成される。端末デバイス内の各アンテナは、１つまたは複数の通信周波数帯域をカバーするように構成され得る。アンテナ利用率を改善するために、異なるアンテナがさらに多重化され得る。例えば、アンテナ１は、ワイヤレスローカルエリアネットワークのダイバーシティアンテナとして多重化され得る。いくつかの他の実施形態では、アンテナは、同調スイッチと組み合わせて使用され得る。

モバイル通信モジュール１８０は、端末デバイスにおいて使用され、２Ｇ、３Ｇ、４Ｇ、５Ｇなどのワイヤレス通信を含むワイヤレス通信ソリューションを提供し得る。モバイル通信モジュール１８０は、少なくとも１つのフィルタ、スイッチ、電力増幅器、低ノイズ増幅器（Low Noise Amplifier、ＬＮＡ）などを含み得る。モバイル通信モジュール１８０は、アンテナ１を通して電磁波を受信し、受信された電磁波に対してフィルタリングまたは増幅などの処理を実行し、復調のために電磁波をモデムプロセッサに転送し得る。モバイル通信モジュール１８０は、モデムプロセッサによって変調された信号をさらに増幅し、アンテナ１を通した放射のために信号を電磁波に変換し得る。いくつかの実施形態では、モバイル通信モジュール１８０内の少なくともいくつかの機能モジュールは、プロセッサ１１０内に配置され得る。いくつかの他の実施形態では、モバイル通信モジュール１８０内の少なくともいくつかの機能モジュールは、プロセッサ１１０内の少なくともいくつかのモジュールと同じデバイス内に配置され得る。

モデムプロセッサは、変調器と復調器とを含み得る。変調器は、送信されるべき低周波数ベースバンド信号を中高周波数信号に変調するように構成され、復調器は、受信された電磁波信号を低周波数ベースバンド信号に復調するように構成される。次いで、復調器は、復調によって得られた低周波数ベースバンド信号を、処理のためにベースバンドプロセッサに送信する。ベースバンドプロセッサは、低周波数ベースバンド信号を処理し、次いで、処理された信号をアプリケーションプロセッサに送信する。アプリケーションプロセッサは、オーディオデバイス（これは、スピーカ１７１、受信機１７３などに限られない）を通して音信号を出力したり、ディスプレイ１６０を通して画像またはビデオを表示したりする。いくつかの実施形態では、モデムプロセッサは、独立した構成要素であり得る。いくつかの他の実施形態では、モデムプロセッサは、プロセッサ１１０から独立していてもよく、モバイル通信モジュール１８０または別の機能モジュールと同じデバイス内に配置される。

ワイヤレス通信モジュール１９０は、ワイヤレスローカルエリアネットワーク（Wireless Local Area Network、ＷＬＡＮ）（ワイヤレスフィデリティ（Wireless Fidelity、Ｗｉ－Ｆｉ）ネットワークなど）、Ｂｌｕｅｔｏｏｔｈ（BitTorrent、ＢＴ）、全地球的航法衛星システム（Global Navigation Satellite System、ＧＮＳＳ）、周波数変調（Frequency Modulation、ＦＭ）、近距離通信（Near Field Communication、ＮＦＣ）技術、および赤外線（Infrared Radiation、ＩＲ）技術を含み、端末デバイスに適用されるワイヤレス通信ソリューションを提供し得る。ワイヤレス通信モジュール１９０は、少なくとも１つの通信処理モジュールが統合された１つまたは複数の構成要素であり得る。ワイヤレス通信モジュール１９０は、アンテナ２を通して電磁波を受信し、電磁波信号に対して周波数変調およびフィルタリング処理を行い、処理された信号をプロセッサ１１０に送信する。ワイヤレス通信モジュール１９０は、プロセッサ１１０から、送信されるべき信号をさらに受信し、信号に対して周波数変調および増幅を実行し、アンテナ２を通した放射のために信号を電磁波に変換し得る。

いくつかの実施形態では、端末デバイスがワイヤレス通信技術を使用することによってネットワークおよび別のデバイスと通信することができるように、端末デバイスのアンテナ１はモバイル通信モジュール１８０に結合され、アンテナ２はワイヤレス通信モジュール１９０に結合される。ワイヤレス通信技術は、グローバルシステムフォーモバイルコミュニケーション（Global System For Mobile Communication、ＧＳＭ）、汎用パケット無線サービス（General Packet Radio Service、ＧＰＲＳ）、符号分割多元接続（Code Division Multiple Access、ＣＤＭＡ）、広帯域符号分割多元接続（Wideband Code Division Multiple Access、ＷＣＤＭＡ）、時分割同期符号分割多元接続（Time Division-Synchronous Code Division Multiple Access、ＴＤ－ＳＣＤＭＡ）、ロングタームエボリューション（Long Term Evolution、ＬＴＥ）、ＢＴ、ＧＮＳＳ、ＷＬＡＮ、ＮＦＣ、ＦＭ、ＩＲ技術、および／または同様のものを含み得る。ＧＮＳＳは、全地球測位システム（Global Positioning System、ＧＰＳ）、全地球的航法衛星システム（Global Navigation Satellite System、ＧＬＯＮＡＳＳ）、北斗航法衛星システム（BeiDou Navigation Satellite System、ＢＤＳ）、準天頂衛星システム（Quasi-Zenith Satellite System、ＱＺＳＳ）、および／または衛星ベース補強システム（Satellite Based Augmentation System、ＳＢＡＳ）を含み得る。

ＵＳＢインターフェース１０１は、ＵＳＢ標準仕様に準拠するインターフェースであり、具体的には、ミニＵＳＢインターフェース、マイクロＵＳＢインターフェース、ＵＳＢＴｙｐｅＣインターフェースなどであり得る。ＵＳＢインターフェース１０１は、端末デバイスを充電するために充電器に接続するように構成され得るか、または端末デバイスと周辺デバイスとの間でデータを送信するように構成され得るか、またはヘッドセットを使用することによってオーディオを再生するためにヘッドセットに接続するように構成され得る。例えば、ヘッドセットジャック１７４に加えて、ＵＳＢインターフェース１０１は、別の端末デバイス、例えば、ＡＲ（Augmented Reality、拡張現実）デバイスまたはコンピュータに接続するようにさらに構成され得る。

充電管理モジュール１０２は、充電器から充電入力を受信するように構成される。充電器は、ワイヤレス充電器またはワイヤード充電器であり得る。ワイヤード充電のいくつかの実施形態では、充電管理モジュール１０２は、ＵＳＢインターフェース１０１を通してワイヤード充電器の充電入力を受信し得る。ワイヤレス充電のいくつかの実施形態では、充電管理モジュール１０２は、端末デバイスのワイヤレス充電コイルを通してワイヤレス充電入力を受信し得る。バッテリ１０４を充電するとき、充電管理モジュール１０２は、電力管理モジュール１０３を使用することによって端末デバイスに電力をさらに供給し得る。

電力管理モジュール１０３は、バッテリ１０４、充電管理モジュール１０２、およびプロセッサ１１０に接続するように構成される。電力管理モジュール１０３は、バッテリ１０４からの入力および／または充電管理モジュール１０２からの入力を受信し、プロセッサ１１０、内部メモリ１２０、カメラ１５０、ディスプレイ１６０などに電力を供給する。電力管理モジュール１０３は、バッテリ容量、バッテリサイクルカウント、およびバッテリ健康状態（漏電またはインピーダンス）などのパラメータを監視するようにさらに構成され得る。いくつかの実施形態では、電力管理モジュール１０３は、プロセッサ１１０内に配置され得る。いくつかの他の実施形態では、電力管理モジュール１０３および充電管理モジュール１０２は、代替的に、同じデバイス内に配置されてもよい。

ボタン１０５は、電源ボタン、音量ボタンなどを含む。ボタン１０５は、機械的なボタンであり得るか、またはタッチボタンであり得る。端末デバイスは、ボタン入力を受信し、端末デバイスのユーザ設定および機能制御に関連するボタン信号入力を生成し得る。

モータ１０６は振動プロンプトを生成し得る。モータ１０６は、着呼振動プロンプトおよびタッチ振動フィードバックを提供するように構成され得る。例えば、異なるアプリケーション（例えば、撮影アプリケーションおよびオーディオ再生アプリケーション）上で行われるタッチ操作は、異なる振動フィードバック効果に対応し得る。モータ１０６はまた、ディスプレイ１６０の異なる領域上で行われるタッチ操作に対する異なる振動フィードバック効果に対応し得る。異なるアプリケーションシナリオ（例えば、時間リマインド、情報受信、目覚まし時計、およびゲーム）もまた、異なる振動フィードバック効果に対応し得る。タッチ振動フィードバック効果は、さらにカスタマイズされてもよい。

インジケータ１０７は、インジケータライトであり得、充電ステータスおよび電力変化を示すように構成され得るか、またはメッセージ、不在着信、通知などを示すように構成され得る。

ＳＩＭカードインターフェース１０８は、ＳＩＭカードに接続するように構成される。ＳＩＭカードは、端末デバイスとの接触または端末デバイスからの分離を実施するために、ＳＩＭカードインターフェース１０８に挿入され得るか、またはＳＩＭカードインターフェース１０８から取り外され得る。端末デバイスは、１つまたは複数のＳＩＭカードインターフェースをサポートし得る。ＳＩＭカードインターフェース１０８は、ナノＳＩＭカード、マイクロＳＩＭカード、ＳＩＭカードなどをサポートし得る。複数のカードを同じＳＩＭカードインターフェース１０８に同時に挿入してもよい。複数のカードは、同じタイプであってもよいし、異なるタイプであってもよい。ＳＩＭカードインターフェース１０８はまた、異なるタイプのＳＩＭカードと互換性がある。ＳＩＭカードインターフェース１０８は、外部記憶カードとも互換性がある。端末デバイスは、ＳＩＭカードを使用することによってネットワークと対話して、呼およびデータ通信などの機能を実装する。いくつかの実施形態では、端末デバイスは、ｅＳＩＭ、すなわち埋め込みＳＩＭカードを使用する。ｅＳＩＭカードは、端末デバイスに埋め込まれ得、端末デバイスから分離することができない。

本発明の実施形態において提供されるステレオ収音方法によれば、端末デバイスの姿勢データとカメラデータとに基づいてターゲットビームパラメータ群が決定され、マイクロフォンによって収音されたターゲット収音データに基づいてステレオビームが形成される。異なるターゲットビームパラメータ群は、異なる姿勢データおよびカメラデータに基づいて決定される。したがって、ステレオビームの方向は、異なるターゲットビームパラメータ群に基づいて調整され得る。したがって、記録環境におけるノイズの影響を効果的に低減することができ、その結果、端末デバイスは、異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができる。加えて、マイクロフォンの孔ブロッキング状態を検出し、様々な異常音データを除去し、ステレオビームの音色を補正し、ステレオビームの利得を調整することによって、良好なステレオ記録効果を保証しながら、記録のロバスト性をさらに高める。

図４は、本発明の実施形態による、ステレオ収音方法の概略フローチャートである。ステレオ収音方法は、前述のハードウェア構造を有する端末デバイス上で実装され得る。図４を参照されたい。ステレオ収音方法は、以下のステップを含み得る。

Ｓ２０１：複数のマイクロフォンの収音データから複数のターゲット収音データを取得する。

本実施形態では、ユーザが端末デバイスを使用して写真を撮ったりビデオを記録したりするとき、端末デバイスは、端末デバイス上に配置された複数のマイクロフォンを使用することによって音をキャプチャし、次いで、複数のマイクロフォンの収音データから複数のターゲット収音データを取得し得る。

複数のターゲット収音データは、複数のマイクロフォンの収音データに基づいて直接取得され得るか、または複数のマイクロフォンのうちのいくつかのマイクロフォンの収音データを特定の規則にしたがって選択することによって取得され得るか、または複数のマイクロフォンの収音データが特定の方法で処理された後に取得され得る。これに限定されるものではない。

Ｓ２０２：端末デバイスの姿勢データおよびカメラデータを取得する。

本実施形態では、端末デバイスの姿勢データは、加速度センサ１４０Ａを使用することによって取得され得る。姿勢データは、端末デバイスが横向きモードまたは縦向きモードにあることを示し得る。カメラデータは、ビデオを記録するためにユーザが端末デバイスを使用するプロセスにおいて、端末デバイス上に配置されたカメラに対応する使用として理解され得る。

Ｓ２０３：姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定する、ここで、ターゲットビームパラメータ群は、複数のターゲット収音データにそれぞれ対応するビームパラメータを含む。

本実施形態では、ビームパラメータ群は、事前トレーニングを通して取得され、端末デバイスに記憶され得、ステレオビームの形成に影響を与えるいくつかのパラメータを含む。一例では、端末デバイスの想定されるビデオ記録シナリオについて、端末デバイスに対応する姿勢データおよびカメラデータが事前に決定され得、一致するビームパラメータ群が、姿勢データとカメラデータとに基づいて設定される。このようにして、異なるビデオ記録シナリオにそれぞれ対応する複数のビームパラメータ群が取得され得、複数のビームパラメータ群は、後続のビデオ記録のために端末デバイスに記憶される。例えば、ユーザが端末デバイスを使用して写真を撮ったりビデオを記録したりするとき、端末デバイスは、現時点で取得されている姿勢データとカメラデータとに基づいて、複数のビームパラメータ群から一致するターゲットビームパラメータ群を決定し得る。

端末デバイスが異なるビデオ記録シナリオにあるとき、端末デバイスに対応する姿勢データおよびカメラデータはそれに応じて変化することが理解され得る。したがって、姿勢データとカメラデータとに基づいて、複数のビームパラメータ群から異なるターゲットビームパラメータ群が決定され得る。言い換えれば、複数のターゲット収音データにそれぞれに対応するビームパラメータは、ビデオ記録シナリオによって変化する。

Ｓ２０４：ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成する。

本実施形態では、ターゲットビームパラメータ群中のビームパラメータは、重み値として理解され得る。ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するとき、それぞれのターゲット収音データと、対応する重み値とを使用することによって加重和演算を行い、最終的にステレオビームを取得し得る。

ステレオビームは空間指向性を有するので、複数のターゲット収音データに対してビームフォーミング処理が実行され、その結果、ステレオビームが指す空間方向よりも外側の収音データに対して異なる程度の抑制を実施して、記録環境におけるノイズの影響を効果的に低減することができる。加えて、複数のターゲット収音データにそれぞれ対応するビームパラメータは、ビデオ記録シナリオによって変化するので、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいて形成されるステレオビームの方向も、ビデオ記録シナリオに応じて変化し、その結果、端末デバイスは、異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができる。

いくつかの実施形態では、端末デバイスを使用することによってビデオを記録するとき、ユーザは、異なる記録シナリオに基づいて撮影のために異なるカメラを選択し、端末デバイスの姿勢をさらに調整して、端末デバイスを横向きモードまたは縦向きモードにし得る。この場合、端末デバイスのカメラデータは、イネーブルデータを含み得、イネーブルデータは有効なカメラを示す。図５に示されるように、ステップＳ２０３は、姿勢データとイネーブルデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応する第１のターゲットビームパラメータ群を決定するサブステップＳ２０３－１を含み得る。ステップＳ２０４は、第１のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて第１のステレオビームを形成するサブステップであって、ここで、第１のステレオビームは、有効なカメラの撮影方向を指すサブステップＳ２０４－１を含み得る。

実際のアプリケーションでは、端末デバイスが異なるビデオ記録シナリオにあるとき、端末デバイスは、異なるビームパラメータ群に対応する必要がある。したがって、端末デバイスは、複数のビームパラメータ群を予め記憶し得る。一例では、複数のビームパラメータ群は、第１のビームパラメータ群、第２のビームパラメータ群、第３のビームパラメータ群、および第４のビームパラメータ群を含み得、第１のビームパラメータ群、第２のビームパラメータ群、第３のビームパラメータ群、および第４のビームパラメータ群内のビームパラメータは異なる。

例えば、ビデオ記録シナリオは、端末デバイスの横向きモードおよび縦向きモード、ならびに前面カメラおよび背面カメラの使用を含む。端末デバイスが横向きモードにあることを姿勢データが示し、背面カメラが有効であることをイネーブルデータが示す場合、第１のターゲットビームパラメータ群は第１のビームパラメータ群である。端末デバイスが横向きモードにあることを姿勢データが示し、前面カメラが有効であることをイネーブルデータが示す場合、第１のターゲットビームパラメータ群は第２のビームパラメータ群である。端末デバイスが縦向きモードにあることを姿勢データが示し、背面カメラが有効であることをイネーブルデータが示す場合、第１のターゲットビームパラメータ群は第３のビームパラメータ群である。端末デバイスが縦向きモードにあることを姿勢データが示し、前面カメラが有効であることをイネーブルデータが示す場合、第１のターゲットビームパラメータ群は第４のビームパラメータ群である。

例えば、図６～図９は、第１のステレオビームの方向が、端末デバイスの横向きモードと縦向きモードとの間の切り替えおよび前面カメラまたは背面カメラの有効化にしたがって変化する概略図である。図６の端末デバイスは、横向きモードにあり、撮影のために背面カメラを有効にし、図７の端末デバイスは、横向きモードにあり、撮影のために前面カメラを有効にし、図８の端末デバイスは、縦向きモードにあり、撮影のために背面カメラを有効にし、図９の端末デバイスは、縦向きモードにあり、撮影のために前面カメラを有効にする。

図６～図９において、左矢印および右矢印はそれぞれ、左ビームおよび右ビームの方向を表し、第１のステレオビームは、左ビームと右ビームの合成ビームとして理解され得る。水平面は、端末デバイスの現在の撮影姿勢（横向きモードまたは縦向きモード）における垂直辺に垂直な平面であり、形成された第１のステレオビームの主軸は、水平面内に位置する。端末デバイスが横向きモードと縦向きモードとの間で切り替わるとき、第１のステレオビームの方向もそれに応じて変化する。例えば、図６に示される第１のステレオビームの主軸は、横向きモードにある端末デバイスの垂直辺に垂直な水平面に位置する。端末デバイスが縦向きモードに切り替わった後、第１のステレオビームの主軸は、図８に示されるように、縦向きモードにある端末デバイスの垂直辺に垂直な水平面に位置する。

加えて、有効なカメラの撮影方向は、一般に、ユーザが収音に焦点を合わせる方向であるので、第１のステレオビームの方向もまた、有効なカメラの撮影方向とともに変化する。例えば、図６および図８では、第１のステレオビームの方向は、背面カメラの撮影方向を指す。図７および図９では、第１のステレオビームの方向は、前面カメラの撮影方向を指す。

異なるビデオ記録シナリオでは、異なる方向の第１のステレオビームを形成するために、複数のターゲット収音データが異なる第１のターゲットビームパラメータ群に対応するので、第１のステレオビームの方向は、端末デバイスの横向きモードと縦向きモードとの間の切り替えならびに前面カメラおよび背面カメラの有効化にしたがって適応的に調整され、端末デバイスがビデオを記録するときにより良好なステレオ記録効果が取得され得ることを保証することが分かる。

いくつかの実施形態では、端末デバイスを使用することによってビデオを記録するとき、ユーザは、端末デバイス上で横向き／縦向き切り替えを実行して、撮影のために異なるカメラを選択するだけでなく、撮影の被写体の距離に基づいてズームも実行する。この場合、カメラデータは、イネーブルデータおよびズームデータを含み得る。ズームデータは、イネーブルデータによって示される有効なカメラのズーム倍率である。図１０に示されるように、ステップＳ２０３は、姿勢データと、イネーブルデータと、ズームデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応する第２のターゲットビームパラメータ群を決定するサブステップＳ２０３－２を含み得る。ステップＳ２０４は、第２のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて、第２のステレオビームを形成するサブステップであって、ここで、第２のステレオビームは、有効なカメラの撮影方向を指し、第２のステレオビームの幅は、ズーム倍率が大きくなるにつれて狭くなる、サブステップＳ２０４－２を含み得る。

第２のステレオビームの幅は、有効なカメラのズーム倍率が増加するにつれて狭くなり、その結果、音像をより集中させることができる。ユーザは、通常、長距離収音シナリオにおいてズームを実行し、被写体の信号対ノイズ比は低くなる。第２のステレオビームを狭めることで、信号対ノイズ比を改善することができ、その結果、端末デバイスは、低い信号対ノイズ比の場合により良好な記録ロバスト性を有することができ、それにより、より良好なステレオ記録効果を得る。

本実施形態では、有効なカメラのズーム倍率が増加するにつれて第２のステレオビームの幅が狭くなるように、異なる姿勢データ、イネーブルデータ、およびズームデータの場合の第２のステレオビームに対応する被写体の形状が予め設定され得、次いで、ビームパラメータ群に基づいて形成される第２のステレオビームが設定された被写体形状に近似するように、最小二乗法を用いたトレーニングを通して一致するビームパラメータ群が取得される。したがって、異なる姿勢データ、イネーブルデータ、ズームデータに対応するビームパラメータ群が取得される。

端末デバイスを使用することによってユーザがビデオを記録するとき、ズーム倍率が増加または減少するにつれて、端末デバイスは、異なるズーム倍率に対応する第２のターゲットビームパラメータ群に一致して、第２のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて異なる幅の第２のステレオビームを形成し、ユーザのビデオ記録要件を満たし得る。例えば、図１１ａ～図１１ｃは、有効なカメラのズーム倍率に応じて第２のステレオビームの幅が変化する概略図である。図１１ａ～図１１ｃにおいて、第２のステレオビームは、左ビームおよび右ビームの合成ビームであり、０度方向は、ユーザがビデオを記録するときに有効にされたカメラの撮影方向（ターゲット方向とも呼ばれ得る）である。低ズーム倍率を使用することによってユーザがビデオを記録するとき、端末デバイスは、この低ズーム倍率に対応する第２のターゲットビームパラメータ群に一致し、図１１ａに示される広い第２のステレオビームを形成し得る。図１１ａの左ビームおよび右ビームは、それぞれ撮影方向の左右４５度を指す。中間ズーム倍率を使用することによってユーザがビデオを記録するとき、端末デバイスは、中間ズーム倍率に対応する第２のターゲットビームパラメータ群に一致し、図１１ｂに示される狭められた第２のステレオビームを形成し得る。図１１ｂの左ビームおよび右ビームの方向は、撮影方向に対して左右約３０度に狭められている。高ズーム倍率を使用することによってユーザがビデオを記録するとき、端末デバイスは、高ズーム倍率に対応する第２のターゲットビームパラメータ群に一致し、図１１ｃに示されるさらに狭められた第２のステレオビームを形成し得る。図１１ｃの左ビームと右ビームの方向は、撮影方向に対して左右約１０度にさらに狭められている。

図１１ａ～図１１ｃから、有効なカメラのズーム倍率が増加するにつれて第２のステレオビームの幅が狭くなり、その結果、非ターゲット方向におけるノイズ低減能力が改善され得ることが分かる。左ビームが一例として使用される。図１１ａでは、左ビームは、６０度方向の収音データに対してほとんど抑圧効果がない。図１１ｂでは、左ビームは、６０度方向の収音データに対して特定の抑圧効果を有している。図１１ｃでは、左ビームは、６０度方向の収音データに対して大きな抑圧効果を有している。

ユーザが端末デバイスを使用してビデオを記録し、ズームを実行するとき、異なる方向および幅の第２のステレオビームを形成するために、端末デバイスの横向きモードと縦向きモードとの間の切り替え、前面カメラおよび背面カメラの有効化、ならびに有効なカメラのズーム倍率の変更にしたがって、異なる第２のターゲットビームパラメータ群が決定され得ることが分かる。このようにして、端末デバイスの姿勢、有効なカメラ、およびズーム倍率の変更に基づいて、第２のステレオビームの方向および幅が適応的に調整され得、その結果、ノイズの多い環境および長距離収音条件において、良好な記録ロバスト性を実現することができる。

実際のアプリケーションでは、ユーザが端末デバイスを使用してビデオを記録するとき、周囲ノイズによる干渉に加えて、ユーザが端末デバイスを保持するときにマイクロフォンが指または別の部分によって塞がれたり、汚れが導音孔に入ってマイクロフォンをブロックしたりするので、ステレオ記録効果は影響を受けやすい。加えて、端末デバイスの機能がより強力になるにつれて、端末デバイスの自己ノイズ（すなわち、端末デバイスの内部回路によって生成されるノイズ）、例えば、カメラのモータノイズ、Ｗｉ－Ｆｉ干渉ノイズ、ならびにキャパシタの充電および放電によって引き起こされるノイズが、ますますマイクロフォンによって拾われやすくなる。加えて、ズームまたは他の操作により、ユーザの指または他の部分が画面に触れたり、マイクロフォン孔付近を擦ったりすることで、ユーザが予期しない異常音が発生する場合がある。自己ノイズや異常音の干渉は、ビデオのステレオ記録効果にある程度影響を与える。

これに基づいて、本実施形態は、複数のマイクロフォンの収音データが取得された後に、複数のマイクロフォンに対してマイクロフォンブロッキング検出を実行し、複数のマイクロフォンの収音データに対して異常音処理を実行することによって、ステレオビームを形成するために使用される複数のターゲット収音データを決定するので、異常音干渉および／またはマイクロフォンブロッキングの場合でも、依然として、より良好な記録ロバスト性が実現され、良好なステレオ記録効果が保証されることを提案する。以下では、複数のターゲット収音データを取得するプロセスについて詳細に説明する。

図１２に示されるように、Ｓ２０１は、以下のサブステップを含む。

Ｓ２０１１－Ａ：複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得する。

任意選択で、複数のマイクロフォンの収音データを取得した後に、端末デバイスは、各マイクロフォンの収音データに対して時間領域フレーミング処理および周波数領域変換処理を行って、各マイクロフォンの収音データに対応する時間領域情報および周波数領域情報を取得し、異なるマイクロフォンの収音データに対応する時間領域情報および周波数領域情報を別々に比較して、時間領域比較結果および周波数領域比較結果を取得し、時間領域比較結果と周波数領域比較結果とに基づいて、ブロックされたマイクロフォンのシーケンス番号を決定し、ブロックされたマイクロフォンのシーケンス番号に基づいて、ブロックされていないマイクロフォンのシーケンス番号を決定し得る。時間領域分析が信号に対して実行されるとき、時間領域情報が同じであっても２つの信号が完全に同じであることを意味するものではなく、信号は周波数領域の観点からさらに分析される必要がある。したがって、本実施形態では、マイクロフォンの収音データは、時間領域および周波数領域という２つの異なる観点から分析されるので、マイクロフォンブロッキング検出の精度を効果的に高めることができ、単一の観点からの分析によって引き起こされるマイクロフォンブロッキングの誤った決定を回避することができる。一例では、時間領域情報は、収音データに対応する時間領域信号のＲＭＳ（Root-Mean-Square、二乗平均平方根）値であり得、周波数領域情報は、収音データに対応する周波数領域信号の特定の周波数（例えば、２ｋＨｚ）より上の高周波数部分のＲＭＳ値であり得る。高周波数部分のＲＭＳ値の特徴は、マイクロフォンがブロックされているときにより明白である。

実際のアプリケーションでは、端末デバイス内にブロックされたマイクロフォンが存在するとき、ブロックされたマイクロフォンの収音データおよびブロックされていないマイクロフォンの収音データにおいて、時間領域信号のＲＭＳ値および高周波数部分のＲＭＳ値が異なる。ブロックされていないマイクロフォンであっても、時間領域信号のＲＭＳ値および高周波数部分のＲＭＳ値は、マイクロフォンの構造および端末デバイスの筐体のブロッキングなどの要因により、わずかに異なる。したがって、端末デバイスの開発段階では、ブロックされたマイクロフォンとブロックされていないマイクロフォンとの間の差分を見つける必要があり、この差分に基づいて、対応する時間領域しきい値および対応する周波数領域しきい値が設定され、それぞれ、異なるマイクロフォンの収音データに対応する時間領域信号のＲＭＳ値を時間領域において比較して時間領域比較結果を取得するため、ならびに、異なるマイクロフォンの収音データに対応する高周波数部分のＲＭＳ値を周波数領域において比較して周波数領域比較結果を取得するために使用される。さらに、時間領域比較結果と周波数領域比較結果とを参照して、ブロックされたマイクロフォンがあるか否かを決定する。本実施形態では、時間領域しきい値および周波数領域しきい値は、当業者が実験により取得した経験値であり得る。

例えば、端末デバイスは３つのマイクロフォンを含む。３つのマイクロフォンのシーケンス番号はそれぞれｍ１、ｍ２、ｍ３であり、３つのマイクロフォンの収音データに対応する時間領域信号のＲＭＳ値はそれぞれＡ１、Ａ２、Ａ３であり、３つのマイクロフォンの収音データに対応する高周波数部分のＲＭＳ値はそれぞれＢ１、Ｂ２、Ｂ３である。３つのマイクロフォンの収音データに対応する時間領域情報が時間領域において比較される場合、Ａ１とＡ２、Ａ１とＡ３、Ａ２とＡ３との差分が別々に計算され、それぞれの差分が、設定された時間領域しきい値と比較され得る。差分が時間領域しきい値を超えない場合、２つのマイクロフォンの収音データに対応する時間領域情報は一致していると見なされる。差分が時間領域しきい値より大きい場合、２つのマイクロフォンの収音データに対応する時間領域情報は一致しないと見なされ、２つのマイクロフォンの収音データに対応する時間領域情報の値の関係が決定される。同様に、３つのマイクロフォンの収音データに対応する周波数領域情報が周波数領域において比較される場合、Ｂ１とＢ２、Ｂ１とＢ３、Ｂ２とＢ３との差分が別々に計算され、それぞれの差分が、設定された周波数領域しきい値と比較され得る。差分が周波数領域しきい値を超えない場合、２つのマイクロフォンの収音データに対応する周波数領域情報は一致していると見なされる。差分が周波数領域しきい値より大きい場合、２つのマイクロフォンの収音データに対応する周波数領域情報は一致しないと見なされ、２つのマイクロフォンの収音データに対応する周波数領域情報の値の関係が決定される。

本実施形態では、時間領域比較結果および周波数領域比較結果に基づいて、ブロックされたマイクロフォンが存在するか否かが決定されるとき、ブロックされたマイクロフォンをできるだけ検出することが予想される場合、ブロックされたマイクロフォンは、２つのマイクロフォンの時間領域情報と周波数領域情報との間の不一致に基づいて決定され得る。例えば、異なるマイクロフォンの収音データに対応する時間領域情報と周波数領域情報とが別々に比較されるとき、得られる時間領域比較結果は、Ａ１＝Ａ２＝Ａ３であり、得られる周波数領域比較結果は、Ｂ１＜Ｂ２、Ｂ１＜Ｂ３、およびＢ２＝Ｂ３である。この場合、ブロックされたマイクロフォンのシーケンス番号がｍ１であり、ブロックされていないマイクロフォンのシーケンス番号がｍ２およびｍ３であることが、時間領域比較結果と周波数領域比較結果とに基づいて決定され得る。

誤検出を回避するために、ブロックされたマイクロフォンは、２つのマイクロフォンの時間領域情報と周波数領域情報の両方が一致しないことに基づいて決定され得る。例えば、異なるマイクロフォンの収音データに対応する時間領域情報および周波数領域情報が別々に比較されるとき、得られる時間領域比較結果は、Ａ１＜Ａ２、Ａ１＜Ａ３、およびＡ２＝Ａ３であり、得られる周波数領域比較結果は、Ｂ１＜Ｂ２、Ｂ１＜Ｂ３、およびＢ２＝Ｂ３である。この場合、ブロックされたマイクロフォンのシーケンス番号がｍ１であり、ブロックされていないマイクロフォンのシーケンス番号がｍ２およびｍ３であることが、時間領域比較結果と周波数領域比較結果とに基づいて決定され得る。

Ｓ２０１２－Ａ：各マイクロフォンの収音データに異常音データが存在するか否かを検出する。

本実施形態では、各マイクロフォンの収音データに対して周波数領域変換処理を行って、各マイクロフォンの収音データに対応する周波数領域情報を取得し得、予めトレーニングされた異常音検出ネットワークと、各マイクロフォンの収音データに対応する周波数領域情報とに基づいて、各マイクロフォンの収音データに異常音データが存在するか否かが検出される。

予めトレーニングされた異常音検出ネットワークは、端末デバイスの開発段階において大量の異常音データ（例えば、特定の周波数を有する何らかの音データ）を収集し、ＡＩ（Artificial Intelligence、人工知能）アルゴリズムを使用することによって特徴学習を実行することによって取得され得る。検出段階では、各マイクロフォンの収音データに対応する周波数領域情報を予めトレーニングされた異常音検出ネットワークに入力して、異常音データが存在するか否かを示す検出結果を取得する。

Ｓ２０１３－Ａ：異常音データが存在する場合、複数のマイクロフォンの収音データ中の異常音データを除去して、初期ターゲット収音データを取得する。

本実施形態では、異常音データは、端末デバイスの自己ノイズ、またはユーザが指を使用することによって画面に触れたり、マイクロフォン孔を擦ったりするときに生成されるノイズなどの異常音を含み得る。異常音データは、時間領域フィルタリング方式および周波数領域フィルタリング方式と組み合わせてＡＩアルゴリズムを使用することによって除去され得る。任意選択で、異常音データが検出されたとき、異常音データの周波数の利得が低減され得、すなわち、０と１との間の値を乗じることで、異常音データが除去されるか、または異常音データの強度が低減される。

一例では、異常音データに予め設定された音データが存在するか否かは、予めトレーニングされた音検出ネットワークを使用することによって検出され得る。予めトレーニングされた音検出ネットワークは、ＡＩアルゴリズムを使用することによって特徴学習を実行することによって取得され得る。予め設定された音データは、例えば、スピーチサウンドまたは音楽など、ユーザが記録することを期待する非ノイズデータとして理解され得る。予めトレーニングされた音検出ネットワークを使用することによって、ユーザが記録することを期待する非ノイズデータが存在することが検出された場合、異常音データは除去される必要はなく、異常音データの強度のみが低減される（例えば、値０．５を乗じる）必要がある。予めトレーニングされた音検出ネットワークを使用することによって、ユーザが記録することを期待する非ノイズデータが存在しないことが検出された場合、異常音データは、直接除去される（例えば、値０を乗じる）。

Ｓ２０１４－Ａ：初期ターゲット収音データから、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを、複数のターゲット収音データとして選択する。

例えば、シーケンス番号がそれぞれｍ１、ｍ２、およびｍ３であるマイクロフォンにおいて、ブロックされたマイクロフォンのシーケンス番号がｍ１であり、ブロックされていないマイクロフォンのシーケンス番号がｍ２およびｍ３である場合、シーケンス番号ｍ２およびｍ３に対応する収音データが、初期ターゲット収音データからターゲット収音データとして選択されて、後にステレオビームを形成するための複数のターゲット収音データが取得され得る。

Ｓ２０１１－Ａは、Ｓ２０１２－Ａの前に実行されてもよいし、Ｓ２０１２－Ａの後に実行されてもよいし、またはＳ２０１２－Ａと同時に実行されてもよいことに留意されたい。すなわち、本実施形態は、マイクロフォンブロッキング検出および異常音データ処理の順序を限定するものではない。

本実施形態では、ステレオビームを形成するために使用される複数のターゲット収音データは、マイクロフォンの収音データのマイクロフォンブロッキング検出および異常音処理を参照して決定され得る。端末デバイスを使用することによってユーザがビデオを記録するとき、マイクロフォンがブロックされ、マイクロフォンの収音データに異常音データが存在する場合であっても、依然として良好なステレオ記録効果を保証することができ、その結果、良好な記録ロバスト性が実現される。実際のアプリケーションでは、ステレオビームを形成するために使用される複数のターゲット収音データは、マイクロフォンに対してマイクロフォンブロッキング検出を実行すること、またはマイクロフォンの収音データに対して異常音処理を実行することによってさらに決定され得る。

図１３に示されるように、ステレオビームを形成するために使用される複数のターゲット収音データが、マイクロフォンに対してマイクロフォンブロッキング検出を実行することによって決定されるとき、Ｓ２０１は、以下のサブステップを含む。

Ｓ２０１１－Ｂ：複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得する。

Ｓ２０１１－Ｂの具体的な内容については、Ｓ２０１１－Ａを参照されたい。ここでは詳細について改めて説明はしない。

Ｓ２０１２－Ｂ：複数のマイクロフォンの収音データから、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを、複数のターゲット収音データとして選択する。

例えば、シーケンス番号がそれぞれｍ１、ｍ２、およびｍ３であるマイクロフォンにおいて、ブロックされたマイクロフォンのシーケンス番号がｍ１であり、ブロックされていないマイクロフォンのシーケンス番号がｍ２およびｍ３である場合、シーケンス番号がｍ２およびｍ３であるマイクロフォンの収音データが、３つのマイクロフォンの収音データからターゲット収音データとして選択されて、複数のターゲット収音データが取得される。

ユーザがビデオを記録するときにマイクロフォンがブロックされ得る場合、複数のマイクロフォンの収音データを取得した後に、端末デバイスは、複数のマイクロフォンの収音データに基づいて複数のマイクロフォンに対してマイクロフォンブロッキング検出を実行してブロックされていないマイクロフォンのシーケンス番号を取得し、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを選択してから、ステレオビームを形成することが分かる。このようにして、端末デバイスがビデオを記録するときに、マイクロフォンブロッキングに起因して音質が著しく低下することもステレオが著しく不均衡になることもなく、すなわち、マイクロフォンがブロッキングされているときでも、ステレオ記録効果を保証することができ、記録ロバスト性は良好である。

図１４に示されるように、ステレオビームを形成するために使用される複数のターゲット収音データが、マイクロフォンの収音データに対して異常音処理を実行することによって決定される場合、Ｓ２０１は、以下のサブステップを含む。

Ｓ２０１１－Ｃ：各マイクロフォンの収音データに異常音データが存在するか否かを検出する。

Ｓ２０１１－Ｃの具体的な内容については、Ｓ２０１２－Ａを参照されたい。ここでは詳細について改めて説明はしない。

Ｓ２０１２－Ｃ：異常音データが存在する場合、複数のマイクロフォンの収音データ中の異常音データを除去して、複数のターゲット収音データを取得する。

言い換えれば、複数のマイクロフォンの収音データを取得した後に、端末デバイスは、複数のマイクロフォンの収音データに対して異常音検出および異常音除去処理を実行して、後にステレオビームを形成するための「クリーンな」収音データ（すなわち、複数のターゲット収音データ）を取得し得る。このようにして、端末デバイスがビデオを記録するとき、指がマイクロフォンを擦るときに生成されるノイズおよび端末デバイスの自己ノイズなどの異常音データがステレオ記録効果に与える影響が効果的に低減される。

実際のアプリケーションでは、音波が端末デバイスのマイクロフォン孔からアナログデジタル変換プロセスに送信されるときに生成される周波数応答変化、例えば、マイクロフォン本体の不均一な周波数応答、マイクロフォンパイプの共振効果、およびフィルタ回路などの要因により、ステレオ記録効果もある程度影響を受ける。これに基づいて、図１５を参照されたい。ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成した後（すなわち、ステップＳ２０４の後）、ステレオ収音方法は、以下のステップをさらに含む。

Ｓ３０１：ステレオビームの音色を補正する。

ステレオビームの音色を補正することによって、周波数応答は直線になるように補正されて、より良好なステレオ記録効果を得ることができるようにする。

いくつかの実施形態では、ユーザによって記録された音を適切な音量に調整するために、生成されたステレオビームに対して利得制御がさらに実行され得る。図１６を参照されたい。ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成した後（すなわち、ステップＳ２０４の後）、ステレオ収音方法は、以下のステップをさらに含む。

Ｓ４０１：ステレオビームの利得を調整する。

ステレオビームの利得を調整することによって、低音量の収音データを明瞭に聞くことができ、高音量の収音データにクリッピング歪みが生じないので、ユーザによって記録された音を適切な音量に調整することができる。これにより、ユーザのビデオ記録経験が向上する。

実際のアプリケーションでは、ユーザは通常、長距離収音シナリオにおいてズームを実行する。この場合、距離が長いことでターゲット音源の音量が小さくなり、記録された音の効果に影響を与える。これに基づき、本実施形態は、カメラのズーム倍率に基づいてステレオビームの利得を調整することを提案する。長距離収音シナリオでは、ズーム倍率が大きくなるほど、利得増幅量も大きくなる。これにより、長距離収音シナリオにおいても依然としてターゲット音源の音量がクリアで大きいことが保証される。

実際のビデオ記録プロセスにおいて、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成した後、端末デバイスは、最初に、ステレオビームに対して音色補正を実行し、次いで、ステレオビームの利得を調整して、より良好なステレオ記録効果を得ることができることに留意されたい。

前述の実施形態および想定される各実装形態において対応するステップを実行するために、以下では、ステレオ収音装置の実装形態を提供する。図１７は、本発明の実施形態による、ステレオ収音装置の機能モジュールの図である。本実施形態において提供されるステレオ収音装置の基本原理および技術的効果は、前述の実施形態におけるものと同じであることに留意されたい。説明を簡潔にするために、本実施形態において言及されていない部分については、前述の実施形態における対応する内容を参照されたい。ステレオ収音装置は、収音データ取得モジュール５１０と、デバイスパラメータ取得モジュール５２０と、ビームパラメータ決定モジュール５３０と、ビーム形成モジュール５４０とを含む。

収音データ取得モジュール５１０は、複数のマイクロフォンの収音データから複数のターゲット収音データを取得するように構成される。

収音データ取得モジュール５１０がＳ２０１を実行し得ることが理解され得る。

デバイスパラメータ取得モジュール５２０は、端末デバイスの姿勢データおよびカメラデータを取得するように構成される。

デバイスパラメータ取得モジュール５２０がＳ２０２を実行し得ることが理解され得る。

ビームパラメータ決定モジュール５３０は、姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するように構成される。ターゲットビームパラメータ群は、複数のターゲット収音データにそれぞれ対応するビームパラメータを含む。

ビームパラメータ決定モジュール５３０がＳ２０３を実行し得ることが理解され得る。

ビーム形成モジュール５４０は、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するように構成される。

ビーム形成モジュール５４０がＳ２０４を実行し得ることが理解され得る。

いくつかの実施形態では、カメラデータはイネーブルデータを含み得る。イネーブルデータは有効なカメラを示す。ビームパラメータ決定モジュール５３０は、姿勢データとイネーブルデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応する第１のターゲットビームパラメータ群を決定するように構成される。ビーム形成モジュール５４０は、第１のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて第１のステレオビームを形成するように構成される。第１のステレオビームは、有効なカメラの撮影方向を指す。

任意選択で、複数のビームパラメータ群は、第１のビームパラメータ群、第２のビームパラメータ群、第３のビームパラメータ群、および第４のビームパラメータ群を含み、第１のビームパラメータ群、第２のビームパラメータ群、第３のビームパラメータ群、および第４のビームパラメータ群内のビームパラメータは異なる。

端末デバイスが横向きモードにあることを姿勢データが示し、背面カメラが有効であることをイネーブルデータが示す場合、第１のターゲットビームパラメータ群は第１のビームパラメータ群である。端末デバイスが横向きモードにあることを姿勢データが示し、前面カメラが有効であることをイネーブルデータが示す場合、第１のターゲットビームパラメータ群は第２のビームパラメータ群である。端末デバイスが縦向きモードにあることを姿勢データが示し、背面カメラが有効であることをイネーブルデータが示す場合、第１のターゲットビームパラメータ群は第３のビームパラメータ群である。端末デバイスが縦向きモードにあることを姿勢データが示し、前面カメラが有効であることをイネーブルデータが示す場合、第１のターゲットビームパラメータ群は第４のビームパラメータ群である。

ビームパラメータ決定モジュール５３０がＳ２０３－１を実行し得、ビーム形成モジュール５４０がＳ２０４－１を実行し得ることが理解され得る。

いくつかの他の実施形態では、カメラデータはイネーブルデータとズームデータとを含み得る。ズームデータは、イネーブルデータによって示される有効なカメラのズーム倍率である。ビームパラメータ決定モジュール５３０は、姿勢データと、イネーブルデータと、ズームデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応する第２のターゲットビームパラメータ群を決定するように構成される。ビーム形成モジュール５４０は、第２のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて、第２のステレオビームを形成し得る。第２のステレオビームは、有効なカメラの撮影方向を指し、第２のステレオビームの幅は、ズーム倍率が大きくなるにつれて狭くなる。

ビームパラメータ決定モジュール５３０がＳ２０３－２を実行し得、ビーム形成モジュール５４０がＳ２０４－２を実行し得ることが理解され得る。

図１８を参照されたい。収音データ取得モジュール５１０は、マイクロフォンブロッキング検出モジュール５１１および／または異常音処理モジュール５１２と、ターゲット収音データ選択モジュール５１３とを含み得る。マイクロフォンブロッキング検出モジュール５１１および／または異常音処理モジュール５１２と、ターゲット収音データ選択モジュール５１３とを使用することによって、複数のマイクロフォンの収音データから複数のターゲット収音データが取得され得る。

任意選択で、マイクロフォンブロッキング検出モジュール５１１、異常音処理モジュール５１２、およびターゲット収音データ選択モジュール５１３を使用することによって、複数のターゲット収音データが取得されるとき、マイクロフォンブロッキング検出モジュール５１１は、複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得するように構成され、異常音処理モジュール５１２は、各マイクロフォンの収音データに異常音データが存在するか否かを検出し、異常音データが存在する場合、複数のマイクロフォンの収音データ中の異常音データを除去して、初期ターゲット収音データを取得するように構成され、ターゲット収音データ選択モジュール５１３は、初期ターゲット収音データから、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを、複数のターゲット収音データとして選択するように構成される。

マイクロフォンブロッキング検出モジュール５１１は、各マイクロフォンの収音データに対して時間領域フレーミング処理および周波数領域変換処理を行って、各マイクロフォンの収音データに対応する時間領域情報および周波数領域情報を取得し、異なるマイクロフォンの収音データに対応する時間領域情報および周波数領域情報を別々に比較して、時間領域比較結果および周波数領域比較結果を取得し、時間領域比較結果と周波数領域比較結果とに基づいて、ブロックされたマイクロフォンのシーケンス番号を決定し、ブロックされたマイクロフォンのシーケンス番号に基づいて、ブロックされていないマイクロフォンのシーケンス番号を決定するように構成される。

異常音処理モジュール５１２は、各マイクロフォンの収音データに対して周波数領域変換処理を行い、各マイクロフォンの収音データに対応する周波数領域情報を取得し、予めトレーニングされた異常音検出ネットワークと、各マイクロフォンの収音データに対応する周波数領域情報とに基づいて、各マイクロフォンの収音データに異常音データが存在するか否かを検出するように構成される。異常音データが除去される必要があるとき、異常音データに予め設定された音データが存在するか否かが、予めトレーニングされた音検出ネットワークを使用することによって検出され得る。予め設定された音データが存在しない場合、異常音データを除去する。予め設定された音データが存在する場合、異常音データの強度が低減される。

任意選択的に、マイクロフォンブロッキング検出モジュール５１１およびターゲット収音データ選択モジュール５１３を使用することによって複数のターゲット収音データが取得されるとき、マイクロフォンブロッキング検出モジュール５１１は、複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得するように構成され、ターゲット収音データ選択モジュール５１３は、複数のマイクロフォンの収音データから、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを、複数のターゲット収音データとして選択するように構成される。

任意選択で、異常音処理モジュール５１２およびターゲット収音データ選択モジュール５１３を使用することによって複数のターゲット収音データが取得されるとき、異常音処理モジュール５１２は、各マイクロフォンの収音データに異常音データが存在するか否かを検出し、異常音データが存在する場合、複数のマイクロフォンの収音データ中の異常音データを除去して、複数のターゲット収音データを取得するように構成される。

マイクロフォンブロッキング検出モジュール５１１がＳ２０１１－ＡおよびＳ２０１１－Ｂを実行し得、異常音処理モジュール５１２がＳ２０１２－Ａ、Ｓ２０１３－Ａ、およびＳ２０１１－Ｃを実行し得、ターゲット収音データ選択モジュール５１３がＳ２０１４－Ａ、Ｓ２０１２－Ｂ、およびＳ２０１２－Ｃを実行し得ることが理解され得る。

図１９を参照されたい。ステレオ収音装置は、音色補正モジュール５５０と利得制御モジュール５６０とをさらに含み得る。

音色補正モジュール５５０は、ステレオビームの音色を補正するように構成される。

音色補正モジュールがＳ３０１を実行し得ることは理解され得る。

利得制御モジュール５６０は、ステレオビームの利得を調整するように構成される。

利得制御モジュール５６０は、カメラのズーム倍率に基づいてステレオビームの利得を調整し得る。

利得制御モジュール５６０がＳ４０１を実行し得ることは理解され得る。

本発明の実施形態は、コンピュータ可読記憶媒体をさらに提供する。コンピュータ可読記憶媒体はコンピュータプログラムを記憶し、コンピュータプログラムがプロセッサによって読み取られて実行されるとき、前述の実施形態で開示されたステレオ収音方法が実施される。

本発明の実施形態は、コンピュータプログラム製品をさらに提供する。コンピュータプログラム製品がコンピュータ上で実行されるとき、コンピュータは、前述の実施形態で開示されたステレオ収音方法を実行することが可能にされる。

本発明の実施形態は、チップシステムをさらに提供する。チップシステムは、プロセッサを含み、前述の実施形態で開示されたステレオ収音方法を実施するように構成されたメモリをさらに含み得る。チップシステムは、チップを含み得るか、またはチップおよび別の個別構成要素を含み得る。

結論として、本発明の実施形態において提供されるステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体によれば、端末デバイスの姿勢データおよびカメラデータに基づいてターゲットビームパラメータ群が決定されるので、端末デバイスが異なるビデオ記録シナリオにあるとき、異なる姿勢データおよびカメラデータを取得して、異なるターゲットビームパラメータ群を決定することができる。このように、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームが形成されるとき、異なるターゲットビームパラメータ群を使用することによってステレオビームの方向が調整され得る。これにより、記録環境におけるノイズの影響が効果的に低減され、その結果、端末デバイスは、異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができる。加えて、マイクロフォンブロッキング状態を検出し、様々な異常音データに対して除去処理を実行することによって、マイクロフォンがブロックされており、異常音データが存在する場合でも、ビデオが記録されるときに良好なステレオ記録効果および良好な記録ロバスト性を依然として保証することができる。

本出願で提供されるいくつかの実施形態では、開示された装置および方法は他の方法でも実装され得ることを理解されたい。説明された装置の実施形態は単なる例である。例えば、添付の図面におけるフローチャートおよびブロック図は、本発明の複数の実施形態による装置、方法、およびコンピュータプログラム製品によって実装され得るシステムアーキテクチャ、機能、および動作を示す。この点に関して、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表し得、モジュール、プログラムセグメント、またはコードの一部は、指定された論理機能を実装するための１つまたは複数の実行可能命令を含む。また、いくつかの代替的な実装形態では、ブロック内にマークされた機能は、添付の図面にマークされた順序とは異なる順序で行われ得ることに留意されたい。例えば、連続する２つのブロックは、実際には実質的に並行して実行され得るか、または機能によっては逆の順序で実行され得る。ブロック図および／またはフローチャート内の各ブロック、ならびにブロック図および／またはフローチャート内のブロックの組合せは、指定された機能またはアクションを実行する専用ハードウェアベースのシステムによって実装され得るか、または専用ハードウェアとコンピュータ命令との組合せによって実装され得ることにも留意されたい。

加えて、本発明の実施形態における機能モジュールは、互いに統合されて独立した部分を形成してもよく、またはモジュールの各々が単独で存在してもよく、または２つ以上のモジュールが統合されて独立した部分を形成してもよい。

機能がソフトウェア機能モジュールの形態で実装され、独立した製品として販売または使用されるとき、これらの機能は、コンピュータ可読記憶媒体に記憶され得る。そのような理解に基づいて、本質的に本発明の技術的解決策、または従来技術に寄与する部分、または技術的解決策のうちの一部は、ソフトウェア製品の形態で実装され得る。コンピュータソフトウェア製品は、記憶媒体に記憶され、本発明の実施形態で説明された方法のステップの全部または一部を実行するようにコンピュータデバイス（携帯電話、タブレットコンピュータなどであり得る）に命令するためのいくつかの命令を含む。記憶媒体は、ＵＳＢフラッシュドライブ、リムーバブルハードディスク、読取り専用メモリ（ＲＯＭ、Read-Only Memory）、ランダムアクセスメモリ（ＲＡＭ、Random Access Memory）、磁気ディスク、または光ディスクなど、プログラムコードを記憶することができる任意の媒体を含む。

前述の説明は、本発明の実施形態にすぎず、本発明を限定することを意図していない。当業者は、本発明に対して様々な変更および変形を行うことができる。本発明の原理から逸脱することなく行われる任意の修正、等価な置換、または改善は、本発明の保護範囲内に入るものとする。

Claims

端末デバイスに適用されるステレオ収音方法であって、前記端末デバイスは複数のマイクロフォンを備え、前記方法は、
前記複数のマイクロフォンの収音データから複数のターゲット収音データを取得することと、
前記端末デバイスの姿勢データおよびカメラデータを取得することと、
前記姿勢データと前記カメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、前記複数のターゲット収音データに対応するターゲットビームパラメータ群を決定することと、ここで、前記ターゲットビームパラメータ群は、前記複数のターゲット収音データにそれぞれ対応するビームパラメータを含み、
前記ターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいてステレオビームを形成することと
を含む方法。
前記カメラデータはイネーブルデータを含み、前記イネーブルデータは有効なカメラを示し
前記姿勢データと前記カメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、前記複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するステップは、前記姿勢データと前記イネーブルデータとに基づいて、前記予め記憶された複数のビームパラメータ群から、前記複数のターゲット収音データに対応する第１のターゲットビームパラメータ群を決定することを含み、
前記ターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいてステレオビームを形成するステップは、前記第１のターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいて第１のステレオビームを形成することを含み、ここで、前記第１のステレオビームは、前記有効なカメラの撮影方向を指す、
請求項１に記載の方法。
前記複数のビームパラメータ群は、第１のビームパラメータ群、第２のビームパラメータ群、第３のビームパラメータ群、および第４のビームパラメータ群を含み、前記第１のビームパラメータ群、前記第２のビームパラメータ群、前記第３のビームパラメータ群、および前記第４のビームパラメータ群内のビームパラメータは異なり、
前記端末デバイスが横向きモードにあることを前記姿勢データが示し、背面カメラが有効であることを前記イネーブルデータが示す場合、前記第１のターゲットビームパラメータ群は前記第１のビームパラメータ群であり、
前記端末デバイスが横向きモードにあることを前記姿勢データが示し、前面カメラが有効であることを前記イネーブルデータが示す場合、前記第１のターゲットビームパラメータ群は前記第２のビームパラメータ群であり、
前記端末デバイスが縦向きモードにあることを前記姿勢データが示し、背面カメラが有効であることを前記イネーブルデータが示す場合、前記第１のターゲットビームパラメータ群は前記第３のビームパラメータ群であり、または
前記端末デバイスが縦向きモードにあることを前記姿勢データが示し、前面カメラが有効であることを前記イネーブルデータが示す場合、前記第１のターゲットビームパラメータ群は前記第４のビームパラメータ群である、
請求項２に記載の方法。
前記カメラデータはイネーブルデータとズームデータとを含み、前記ズームデータは、前記イネーブルデータによって示される有効なカメラのズーム倍率であり、
前記姿勢データと前記カメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、前記複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するステップは、前記姿勢データと、前記イネーブルデータと、前記ズームデータとに基づいて、前記予め記憶された複数のビームパラメータ群から、前記複数のターゲット収音データに対応する第２のターゲットビームパラメータ群を決定することを含み、
前記ターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいてステレオビームを形成するステップは、前記第２のターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいて、第２のステレオビームを形成することを含み、ここで、前記第２のステレオビームは、前記有効なカメラの撮影方向を指し、前記第２のステレオビームの幅は、前記ズーム倍率が大きくなるにつれて狭くなる、
請求項１に記載の方法。
前記複数のマイクロフォンの収音データから複数のターゲット収音データを取得するステップは、
前記複数のマイクロフォンの前記収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得することと、
各マイクロフォンの前記収音データに異常音データが存在するか否かを検出することと、
前記異常音データが存在する場合、前記複数のマイクロフォンの前記収音データ中の前記異常音データを除去して、初期ターゲット収音データを取得することと、
前記初期ターゲット収音データから、前記ブロックされていないマイクロフォンの前記シーケンス番号に対応する収音データを、前記複数のターゲット収音データとして選択することと
を含む、請求項１から４のいずれか一項に記載の方法。
前記複数のマイクロフォンの前記収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得するステップは、
各マイクロフォンの前記収音データに対して時間領域フレーミング処理および周波数領域変換処理を行って、各マイクロフォンの前記収音データに対応する時間領域情報および周波数領域情報を取得することと、
異なるマイクロフォンの収音データに対応する時間領域情報および周波数領域情報を別々に比較して、時間領域比較結果および周波数領域比較結果を取得することと、
前記時間領域比較結果と前記周波数領域比較結果とに基づいて、ブロックされたマイクロフォンのシーケンス番号を決定することと、
前記ブロックされたマイクロフォンの前記シーケンス番号に基づいて、前記ブロックされていないマイクロフォンの前記シーケンス番号を決定することと
を含む、請求項５に記載の方法。
各マイクロフォンの前記収音データに異常音データが存在するか否かを検出するステップは、
各マイクロフォンの前記収音データに対して周波数領域変換処理を行い、各マイクロフォンの前記収音データに対応する周波数領域情報を取得することと、
予めトレーニングされた異常音検出ネットワークと、各マイクロフォンの前記収音データに対応する前記周波数領域情報とに基づいて、各マイクロフォンの前記収音データに前記異常音データが存在するか否かを検出することと
を含む、請求項５に記載の方法。
前記複数のマイクロフォンの前記収音データ中の前記異常音データを除去するステップは、
予めトレーニングされた音検出ネットワークを使用することによって、前記異常音データに予め設定された音データが存在するか否かを検出することと、
前記予め設定された音データが存在しない場合、前記異常音データを除去すること、または
前記予め設定された音データが存在する場合、前記異常音データの強度を低減すること
を含む、請求項５に記載の方法。
前記複数のマイクロフォンの収音データから複数のターゲット収音データを取得するステップは、
前記複数のマイクロフォンの前記収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得することと、
前記複数のマイクロフォンの前記収音データから、前記ブロックされていないマイクロフォンの前記シーケンス番号に対応する収音データを、前記複数のターゲット収音データとして選択することと
を含む、請求項１から４のいずれか一項に記載の方法。
前記複数のマイクロフォンの収音データから複数のターゲット収音データを取得するステップは、
各マイクロフォンの前記収音データに異常音データが存在するか否かを検出することと、
前記異常音データが存在する場合、前記複数のマイクロフォンの前記収音データ中の前記異常音データを除去して、前記複数のターゲット収音データを取得することと
を含む、請求項１から４のいずれか一項に記載の方法。
前記ターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいてステレオビームを形成するステップの後に、前記方法は、
前記ステレオビームの音色を補正すること
をさらに含む、請求項１から４のいずれか一項に記載の方法。
前記ターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいてステレオビームを形成するステップの後に、前記方法は、
前記ステレオビームの利得を調整すること
をさらに含む、請求項１から４のいずれか一項に記載の方法。
前記カメラデータは、前記有効なカメラの前記ズーム倍率を含み、前記ステレオビームの利得を調整するステップは、
前記カメラの前記ズーム倍率に基づいて前記ステレオビームの前記利得を調整すること
を含む、請求項１２に記載の方法。
前記マイクロフォンの数が３～６であり、前記端末デバイスの画面の前面または前記端末デバイスの背面に少なくとも１つのマイクロフォンが配置される、請求項１から４のいずれか一項に記載の方法。
前記マイクロフォンの前記数が３であり、前記端末デバイスの上部および下部のぞれぞれに１つずつマイクロフォンが配置され、前記端末デバイスの前記画面の前記前面または前記端末デバイスの前記背面に１つのマイクロフォンが配置される、請求項１４に記載の方法。
前記マイクロフォンの前記数が６であり、前記端末デバイスの上部および下部のぞれぞれに２つずつマイクロフォンが配置され、前記端末デバイスの前記画面の前面および前記端末デバイスの背面のそれぞれに１つずつマイクロフォンが配置される、請求項１４に記載の方法。
端末デバイスに適用されるステレオ収音装置であって、前記端末デバイスは複数のマイクロフォンを備え、前記装置は、
前記複数のマイクロフォンの収音データから複数のターゲット収音データを取得するように構成された収音データ取得モジュールと、
前記端末デバイスの姿勢データおよびカメラデータを取得するように構成されたデバイスパラメータ取得モジュールと、
前記姿勢データと前記カメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、前記複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するように構成されたビームパラメータ決定モジュールと、ここで、前記ターゲットビームパラメータ群は、前記複数のターゲット収音データにそれぞれ対応するビームパラメータを含み、
前記ターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいてステレオビームを形成するように構成されたビーム形成モジュールと
を備える装置。
コンピュータプログラムを記憶するメモリと、プロセッサとを備える端末デバイスであって、前記コンピュータプログラムが前記プロセッサによって読み取られて実行されるとき、請求項１から１６のいずれか一項に記載の方法が実施される、端末デバイス。
コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって読み取られて実行されるとき、請求項１から１６のいずれか一項に記載の方法が実施される、コンピュータ可読記憶媒体。