JP2023511090A - ステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体 - Google Patents

ステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体 Download PDF

Info

Publication number
JP2023511090A
JP2023511090A JP2022543511A JP2022543511A JP2023511090A JP 2023511090 A JP2023511090 A JP 2023511090A JP 2022543511 A JP2022543511 A JP 2022543511A JP 2022543511 A JP2022543511 A JP 2022543511A JP 2023511090 A JP2023511090 A JP 2023511090A
Authority
JP
Japan
Prior art keywords
data
target
terminal device
sound
stereo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022543511A
Other languages
English (en)
Inventor
ハン,ボー
リウ,シン
シオーン,ウエイ
ジーン,シヤオ
リー,フオン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2023511090A publication Critical patent/JP2023511090A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/026Single (sub)woofer with two or more satellite loudspeakers for mid- and high-frequency band reproduction driven via the (sub)woofer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本発明の実施形態は、ステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体を提供する。端末デバイスは、複数のマイクロフォンの収音データから複数のターゲット収音データを取得し、端末デバイスの姿勢データおよびカメラデータを取得し、姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定し、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成する。このようにして、端末デバイスが異なるビデオ記録シナリオにあるとき、異なるターゲットビームパラメータ群が異なる姿勢データおよびカメラデータに基づいて決定され、ステレオビームの方向が、異なるターゲットビームパラメータ群に基づいて調整される。したがって、記録環境におけるノイズの影響を効果的に低減することができ、その結果、端末デバイスは、異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができる。

Description

本出願は、2020年1月16日に中国国家知識産権局に出願された、「STEREO SOUND PICKUP METHOD AND APPARATUS, TERMINAL DEVICE, AND COMPUTER-READABLE STORAGE MEDIUM」と題する中国特許出願第202010048851.9号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
本発明は、オーディオ処理分野に関し、特に、ステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体に関する。
端末技術の発展に伴い、ビデオ記録は、携帯電話またはタブレットコンピュータなどの端末デバイスの重要なアプリケーションになっており、ビデオ記録効果に対するユーザの要求はますます高くなってきている。
現在、ビデオを記録するために端末デバイスを使用するとき、端末デバイスは、ビデオ記録シナリオが複雑かつ変更可能であり、記録中に環境ノイズの影響があり、端末デバイスによって生成されるステレオビームの方向が固定の設定パラメータにより調整不可能であるので、様々なシナリオの要件に適応することができない。その結果、より良好なステレオ記録効果を得ることができない。
これに鑑みて、本発明の目的は、端末デバイスが異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができるようなステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体を提供することである。
前述の目的を達成するために、本発明の実施形態は、以下の技術的解決策を使用する。
第1の態様によれば、本発明の実施形態は、端末デバイスに適用されるステレオ収音方法を提供し、ここで、端末デバイスは複数のマイクロフォンを含み、方法は、以下を含む:
複数のマイクロフォンの収音データから複数のターゲット収音データを取得すること;
端末デバイスの姿勢データおよびカメラデータを取得すること;
姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定すること、ここで、ターゲットビームパラメータ群は、複数のターゲット収音データにそれぞれ対応するビームパラメータを含む;および
ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成すること。
本発明の本実施形態において提供されるステレオ収音方法では、ターゲットビームパラメータ群が端末デバイスの姿勢データとカメラデータとに基づいて決定されるので、端末デバイスが異なるビデオ記録シナリオにあるとき、異なるターゲットビームパラメータ群を決定することができるように、異なる姿勢データおよびカメラデータが取得される。このように、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームが形成されるとき、異なるターゲットビームパラメータ群を使用することによってステレオビームの方向が調整され得る。これにより、記録環境におけるノイズの影響が効果的に低減され、その結果、端末デバイスは、異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができる。任意選択の実装形態では、カメラデータはイネーブルデータを含み、イネーブルデータは有効なカメラ(enabled camera)を示す。
姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するステップは、姿勢データとイネーブルデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応する第1のターゲットビームパラメータ群を決定することを含む。
ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するステップは、第1のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて第1のステレオビームを形成することを含み、ここで、第1のステレオビームは、有効なカメラの撮影方向を指す。
本発明の本実施形態では、第1のターゲットビームパラメータ群は、端末デバイスの姿勢データと有効なカメラを示すイネーブルデータとに基づいて決定され、第1のステレオビームは、第1のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて形成される。したがって、異なるビデオ記録シナリオでは、第1のステレオビームの方向は、姿勢データとイネーブルデータとに基づいて適応的に調整され、これにより、端末デバイスがビデオを記録するときに、より良好なステレオ記録効果が得られ得ることが保証される。
任意選択の実装形態では、複数のビームパラメータ群は、第1のビームパラメータ群、第2のビームパラメータ群、第3のビームパラメータ群、および第4のビームパラメータ群を含み、第1のビームパラメータ群、第2のビームパラメータ群、第3のビームパラメータ群、および第4のビームパラメータ群内のビームパラメータは異なる。
端末デバイスが横向きモードにあることを姿勢データが示し、背面カメラが有効であることをイネーブルデータが示す場合、第1のターゲットビームパラメータ群は第1のビームパラメータ群である。
端末デバイスが横向きモードにあることを姿勢データが示し、前面カメラが有効であることをイネーブルデータが示す場合、第1のターゲットビームパラメータ群は第2のビームパラメータ群である。
端末デバイスが縦向きモードにあることを姿勢データが示し、背面カメラが有効であることをイネーブルデータが示す場合、第1のターゲットビームパラメータ群は第3のビームパラメータ群である。
端末デバイスが縦向きモードにあることを姿勢データが示し、前面カメラが有効であることをイネーブルデータが示す場合、第1のターゲットビームパラメータ群は第4のビームパラメータ群である。
任意選択の実装形態では、カメラデータはイネーブルデータとズームデータとを含む。ズームデータは、イネーブルデータによって示される有効なカメラのズーム倍率である。
姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するステップは、姿勢データと、イネーブルデータと、ズームデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応する第2のターゲットビームパラメータ群を決定することを含む。
ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するステップは、第2のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて、第2のステレオビームを形成することを含む。第2のステレオビームは、有効なカメラの撮影方向を指し、第2のステレオビームの幅は、ズーム倍率が大きくなるにつれて狭くなる。
本発明の本実施形態では、第2のターゲットビームパラメータ群は、端末デバイスの姿勢データと、有効なカメラを示すイネーブルデータと、ズームデータとに基づいて決定され、第2のステレオビームは、第2のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて形成される。したがって、異なるビデオ記録シナリオでは、姿勢データと、イネーブルデータと、ズームデータとに基づいて、第2のステレオビームの方向および幅が適応的に調整され、その結果、ノイズの多い環境および長距離収音条件において、より良好な記録ロバスト性を実現することができる。
任意選択の実装形態では、複数のマイクロフォンの収音データから複数のターゲット収音データを取得するステップは、以下を含む:
複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得すること;
各マイクロフォンの収音データに異常音データが存在するか否かを検出すること;
異常音データが存在する場合、複数のマイクロフォンの収音データ中の異常音データを除去して、初期ターゲット収音データを取得すること;および
初期ターゲット収音データから、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを、複数のターゲット収音データとして選択すること。
本発明の本実施形態では、ステレオビームを形成するために使用される複数のターゲット収音データは、複数のマイクロフォンに対してマイクロフォンブロッキング検出を実行し、複数のマイクロフォンの収音データに対して異常音処理を実行することによって決定され、その結果、異常音干渉およびマイクロフォンブロッキングの場合でも、依然としてより良好な記録ロバスト性が実現され、良好なステレオ記録効果が保証される。
任意選択の実装形態では、複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得するステップは、以下を含む:
各マイクロフォンの収音データに対して時間領域フレーミング処理および周波数領域変換処理を行って、各マイクロフォンの収音データに対応する時間領域情報および周波数領域情報を取得すること;
異なるマイクロフォンの収音データに対応する時間領域情報および周波数領域情報を別々に比較して、時間領域比較結果および周波数領域比較結果を取得すること;
時間領域比較結果と周波数領域比較結果とに基づいて、ブロックされたマイクロフォンのシーケンス番号を決定すること;および
ブロックされたマイクロフォンのシーケンス番号に基づいて、ブロックされていないマイクロフォンのシーケンス番号を決定すること。
本発明の本実施形態では、正確なマイクロフォンブロッキング検出結果を取得することができるように、異なるマイクロフォンの収音データに対応する時間領域情報および周波数領域情報が比較される。これは、ステレオビームを形成するために使用される複数のターゲット収音データを後に決定するのに役立ち、良好なステレオ記録効果を保証する。
任意選択の実装形態では、各マイクロフォンの収音データに異常音データが存在するか否かを検出するステップは、以下を含む:
各マイクロフォンの収音データに対して周波数領域変換処理を行い、各マイクロフォンの収音データに対応する周波数領域情報を取得すること;および
予めトレーニングされた異常音検出ネットワークと、各マイクロフォンの収音データに対応する周波数領域情報とに基づいて、各マイクロフォンの収音データに異常音データが存在するか否かを検出すること。
本発明の本実施形態では、周波数領域変換処理がマイクロフォンの収音データに対して実行され、マイクロフォンの収音データに異常音データが存在するか否かが、予めトレーニングされた異常音検出ネットワーククと、マイクロフォンの収音データに対応する周波数領域情報とを使用することによって検出されて、その後、クリーンな収音データが取得され、それによって、良好なステレオ記録効果を保証する。
任意選択の実装形態では、複数のマイクロフォンの収音データ中の異常音データを除去するステップは、以下を含む:
予めトレーニングされた音検出ネットワークを使用することによって、異常音データに予め設定された音データが存在するか否かを検出すること;および
予め設定された音データが存在しない場合、異常音データを除去すること;または
予め設定された音データが存在する場合、異常音データの強度を低減すること。
本発明の本実施形態では、異常音に対して除去処理が実行されるとき、異常音データに予め設定された音データが存在するか否かが検出され、検出結果に基づいて異なる除去措置がとられる。これは、クリーンな収音データが得られることを保証するだけでなく、ユーザが記録することを期待する音データが完全に除去されることを防止することもできる。
任意選択の実装形態では、複数のマイクロフォンの収音データから複数のターゲット収音データを取得するステップは、以下を含む:
複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得すること;および
複数のマイクロフォンの収音データから、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを、複数のターゲット収音データとして選択すること。
本発明の本実施形態では、複数のマイクロフォンに対してマイクロフォンブロッキング検出が行われ、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データが選択されてから、ステレオビームが形成されるので、端末デバイスがビデオを記録するときに、マイクロフォンブロッキングに起因して音質が著しく低下することもステレオが著しく不均衡になることもなく、すなわち、マイクロフォンがブロッキングされているときでも、ステレオ記録効果を保証することができ、記録ロバスト性は良好である。
任意選択の実装形態では、複数のマイクロフォンの収音データから複数のターゲット収音データを取得するステップは、以下を含む:
各マイクロフォンの収音データに異常音データが存在するか否かを検出すること;および
異常音データが存在する場合、複数のマイクロフォンの収音データ中の異常音データを除去して、複数のターゲット収音データを取得すること。
本発明の本実施形態では、複数のマイクロフォンの収音データに対して異常音検出および異常音除去処理が行われ、その結果、後にステレオビームを形成するためのクリーンな収音データが取得され得る。このようにして、端末デバイスがビデオを記録するとき、ステレオ記録効果に対する異常音データの影響が効果的に低減される。任意選択の実装形態では、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するステップの後に、方法は、以下をさらに含む:
ステレオビームの音色を補正すること。
本発明の本実施形態では、ステレオビームの音色を補正することによって、周波数応答が直線になるように補正されて、より良好なステレオ記録効果を得ることができるようにする。
任意選択の実装形態では、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するステップの後に、方法は、以下をさらに含む:
ステレオビームの利得を調整すること。
本発明の本実施形態では、ステレオビームの利得を調整することによって、低音量の収音データを明瞭に聞くことができ、高音量の収音データにクリッピング歪みが生じないので、ユーザによって記録された音を適切な音量に調整することができる。これにより、ユーザのビデオ記録経験が向上する。
任意選択の実装形態では、カメラデータは、有効なカメラのズーム倍率を含み、ステレオビームの利得を調整するステップは、以下を含む:
カメラのズーム倍率に基づいてステレオビームの利得を調整すること。
本発明の本実施形態では、ターゲット音源の音量が長距離に起因して減少しないように、ステレオビームの利得をカメラのズーム倍率に基づいて調整する。これにより、ビデオ記録の音響効果が向上する。
任意選択の実装形態では、マイクロフォンの数が3~6であり、端末デバイスの画面の前面または端末デバイスの背面に少なくとも1つのマイクロフォンが配置される。
本発明の本実施形態では、端末デバイスの前方向および後方向を指すステレオビームが形成され得ることを保証するために、端末デバイスの画面の前面または端末デバイスの背面に少なくとも1つのマイクロフォンが配置される。
任意選択の実装形態では、マイクロフォンの数が3であり、端末デバイスの上部および下部のぞれぞれに1つずつマイクロフォンが配置され、端末デバイスの画面の前面または端末デバイスの背面に1つのマイクロフォンが配置される。
任意選択の実装形態では、マイクロフォンの数が6であり、端末デバイスの上部および下部のぞれぞれに2つずつマイクロフォンが配置され、端末デバイスの画面の前面および端末デバイスの背面のそれぞれに1つずつマイクロフォンが配置される。
第2の態様によれば、本発明の実施形態は、端末デバイスに適用されるステレオ収音装置を提供し、ここで、端末デバイスは複数のマイクロフォンを含み、装置は、以下を含む:
複数のマイクロフォンの収音データから複数のターゲット収音データを取得するように構成された収音データ取得モジュール;
端末デバイスの姿勢データおよびカメラデータを取得するように構成されたデバイスパラメータ取得モジュール;
姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するように構成されたビームパラメータ決定モジュール、ここで、ターゲットビームパラメータ群は、複数のターゲット収音データにそれぞれ対応するビームパラメータを含む;および
ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するように構成されたビーム形成モジュール。
第3の態様によれば、本発明の実施形態は、コンピュータプログラムを記憶するメモリと、プロセッサとを含む端末デバイスを提供する。コンピュータプログラムがプロセッサによって読み取られて実行されるとき、前述の実装形態のいずれか1つによる方法が実施される。
第4の態様によれば、本発明の実施形態は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体はコンピュータプログラムを記憶し、コンピュータプログラムがプロセッサによって読み取られて実行されるとき、前述の実装形態のいずれか1つによる方法が実施される。
第5の態様によれば、本発明の実施形態は、コンピュータプログラム製品をさらに提供する。コンピュータプログラム製品がコンピュータ上で実行されるとき、コンピュータは、前述の実装形態のいずれか1つによる方法を実行することが可能にされる。
第6の態様によれば、本発明の実施形態は、チップシステムをさらに提供する。チップシステムは、プロセッサを含み、前述の実装形態のいずれか1つによる方法を実施するように構成されたメモリをさらに含み得る。チップシステムは、チップを含み得るか、またはチップおよび別の個別構成要素を含み得る。
本発明の目的、特徴、および利点をより明確かつより分かりやすくするために、以下に、実施形態および添付の図面を参照して詳細な説明を与える。
本発明の実施形態における技術的解決策をより明確に説明するために、以下では、実施形態を説明するために使用される添付の図面について簡単に説明する。添付の図面は、本発明のいくつかの実施形態のみを示すものであり、したがって、範囲を限定するものと見なされるべきではないことは理解されたい。当業者は、創造的な努力なしに、これらの添付の図面から他の関連する図面をさらに導出し得る。
本発明の実施形態による、端末デバイスのハードウェア構造の概略図である。 本発明の実施形態による、端末デバイス上のマイクロフォンの数が3であるときのレイアウトの概略図である。 本発明の実施形態による、端末デバイス上のマイクロフォンの数が6であるときのレイアウトの概略図である。 本発明の実施形態による、ステレオ収音方法の概略フローチャートである。 本発明の実施形態による、ステレオ収音方法の別の概略フローチャートである。 端末デバイスが横向きモードにあり、背面カメラが有効であるときの対応する第1のステレオビームの概略図である。 端末デバイスが横向きモードにあり、前面カメラが有効であるときの対応する第1のステレオビームの概略図である。 端末デバイスが縦向きモードにあり、背面カメラが有効であるときの対応する第1のステレオビームの概略図である。 端末デバイスが縦向きモードにあり、前面カメラが有効であるときの対応する第1のステレオビームの概略図である。 本発明の実施形態による、ステレオ収音方法のさらに別の概略フローチャートである。 図11a~図11cは、第2のステレオビームの幅が有効なカメラのズーム倍率とともに変化する概略図である。 図4のS201のサブステップの概略フローチャートである。 図4のS201のサブステップの別の概略フローチャートである。 図4のS201のサブステップのさらに別の概略フローチャートである。 本発明の実施形態による、ステレオ収音方法のさらに別の概略フローチャートである。 本発明の実施形態による、ステレオ収音方法のさらに別の概略フローチャートである。 本発明の実施形態による、ステレオ収音装置の機能モジュールの概略図である。 本発明の実施形態による、ステレオ収音装置の機能モジュールの別の概略図である。 本発明の実施形態による、ステレオ収音装置の機能モジュールのさらに別の概略図である。
以下は、本発明の実施形態における添付の図面を参照して、本発明の実施形態における技術的解決策を明確に説明する。説明される実施形態が、本発明の実施形態のすべてではなく、単に一部であることは明らかである。一般に、本明細書で説明され、添付の図面に示される本発明の実施形態の構成要素は、様々な構成で配置および設計され得る。
したがって、添付の図面において提供される本発明の実施形態の以下の詳細な説明は、保護を主張する本発明の範囲を限定することを意図するものではなく、単に本発明の選択された実施形態を表すものである。創造的な努力なしに本発明の実施形態に基づいて当業者によって得られるすべての他の実施形態は、本発明の保護範囲内に入るものとする。
「第1」および「第2」などの関係語は、単に、あるエンティティまたは動作を別のエンティティまたは動作と区別するために使用されており、これらのエンティティまたは動作の間に何らかの実際の関係または順序が存在することを必ずしも必要とするものでも暗示するものでもないことに留意されたい。さらに、「含む(include)」、「含有する(contain)」という用語、または任意の他の変形は、要素のリストを含むプロセス、方法、物品、またはデバイスが、それらの要素を含むだけでなく、明示的に列挙されていない他の要素も含むか、またはそのようなプロセス、方法、物品、もしくはデバイスに固有の要素をさらに含むように、非排他的な包含をカバーすることが意図される。「~を含む(includes a ...)」が先行する要素は、さらなる制約なしに、その要素を含むプロセス、方法、物品、またはデバイスにおける追加の同一要素の存在を排除しない。
本発明の実施形態において提供されるステレオ収音方法および装置は、携帯電話またはタブレットコンピュータなどの端末デバイスに適用され得る。例えば、図1は、端末デバイスのハードウェア構造の概略図である。端末デバイスは、プロセッサ110、内部メモリ120、外部メモリインターフェース130、センサモジュール140、カメラ150、ディスプレイ160、オーディオモジュール170、スピーカ171、マイクロフォン172、受信機173、ヘッドセットジャック174、モバイル通信モジュール180、ワイヤレス通信モジュール190、USB(Universal Serial Bus、ユニバーサルシリアルバス)インターフェース101、充電管理モジュール102、電力管理モジュール103、バッテリ104、ボタン105、モータ106、インジケータ107、加入者識別モジュール(Subscriber Identification Module、SIM)カードインターフェース108、およびアンテナ1、アンテナ2などを含み得る。
図1に示されるハードウェア構造は一例にすぎないことは理解されたい。本発明の実施形態における端末デバイスは、図1に示される端末デバイスよりも多いまたは少ない構成要素を含み得るか、2つ以上の構成要素を組み合わせ得るか、または異なる構成要素構成を有し得る。図1に示される様々な構成要素は、1つまたは複数の信号処理および/または特定用途向け集積回路を含むハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組合せで実装され得る。
プロセッサ110は、1つまたは複数の処理ユニットを含み得る。例えば、プロセッサ110は、アプリケーションプロセッサ(Application Processor、AP)、モデムプロセッサ、グラフィックス処理ユニット(Graphics Processing Unit、GPU)、画像信号プロセッサ(Image Signal Processor、ISP)、コントローラ、メモリ、ビデオコーデック、デジタル信号プロセッサ(Digital Signal Processor、DSP)、ベースバンドプロセッサ、ニューラルネットワーク処理ユニット(Neural-network Processing Unit、NPU)、および/または同様のものを含み得る。異なる処理ユニットは、独立した構成要素であり得るか、または1つまたは複数のプロセッサに統合され得る。コントローラは、端末デバイスの中枢およびコマンドセンターであり得る。コントローラは、命令オペレーションコードおよび時系列信号に基づいてオペレーション制御信号を生成して、命令のフェッチおよび命令の実行の制御を完了し得る。
メモリは、プロセッサ110内に配置され得、命令およびデータを記憶するように構成される。いくつかの実施形態では、プロセッサ110内のメモリはキャッシュである。メモリは、プロセッサ110によって単に使用されるかまたは周期的に使用される命令またはデータを記憶し得る。プロセッサ110が命令またはデータを再び使用する必要がある場合、プロセッサ110はメモリから命令またはデータを直接呼び出して、反復アクセスを回避し、プロセッサ110の待ち時間を低減し、それによってシステム効率を高め得る。
内部メモリ120は、コンピュータプログラムおよび/またはデータを記憶するように構成され得る。いくつかの実施形態では、内部メモリ120は、プログラム記憶領域とデータ記憶領域とを含み得る。プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能(例えば、音再生機能、画像再生機能、または顔認識機能)などによって必要とされるアプリケーションなどを記憶し得る。データ記憶領域は、端末デバイスの使用中に作成されるデータ(例えば、オーディオデータまたは画像データ)などを記憶し得る。例えば、プロセッサ110は、内部メモリ120に記憶されたコンピュータプログラムおよび/またはデータを実行して、端末デバイスの様々な機能アプリケーションおよびデータ処理を実行し得る。例えば、内部メモリ120に記憶されたコンピュータプログラムおよび/またはデータがプロセッサ110によって読み出されて実行されるとき、端末デバイスは、本発明の実施形態において提供されるステレオ収音方法を実行し得、その結果、端末デバイスは、異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができる。加えて、内部メモリ120は、高速ランダムアクセスメモリを含み得、さらに不揮発性メモリを含み得る。例えば、不揮発性メモリは、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、ユニバーサルフラッシュストレージ(Universal Flash Storage、UFS)などを含み得る。
外部メモリインターフェース130は、端末デバイスの記憶能力を拡張するために、外部記憶カード、例えばマイクロSDカードに接続するように構成され得る。外部記憶カードは、外部メモリインターフェース130を通してプロセッサ110と通信して、データ記憶機能を実装する。例えば、音楽やビデオなどのファイルが外部記憶カードに記憶される。
センサモジュール140は、1つまたは複数のセンサ、例えば、加速度センサ140A、ジャイロスコープセンサ140B、距離センサ140C、圧力センサ140D、タッチセンサ140E、指紋センサ140F、周辺光センサ140G、骨伝導センサ140H、光学式近接センサ140J、温度センサ140K、気圧センサ140L、または磁気センサ140Mを含み得る。ここでは、これに限定しない。
加速度センサ140Aは、加速力の変化、例えば、振動、落下、上昇、および降下などの様々な動きの変化、ならびに端末デバイスが保持される角度の変化を感知することができ、加速度センサ140Aによってこれらの変化が電気信号に変換され得る。本実施形態では、加速度センサ140Aは、端末デバイスが横向きモードにあるか縦向きモードにあるかを検出し得る。
ジャイロスコープセンサ140Bは、端末デバイスの動き姿勢を決定するように構成され得る。いくつかの実施形態では、3つの軸(すなわち、x、y、およびz軸)の周りの端末デバイスの角速度が、ジャイロスコープセンサ140Bを使用することによって決定され得る。ジャイロスコープセンサ140Bは、撮影中に画像安定化を実施するように構成され得る。例えば、シャッターが押されるとき、ジャイロスコープセンサ140Bは、端末デバイスの振れ角度を検出し、その角度に基づいて、レンズモジュールによって補償される必要がある距離を計算し、逆の動きを実行することによってレンズが端末デバイスの振れを打ち消すことができるようにし、それによって画像安定化を実施する。ジャイロスコープセンサ140Bは、ナビゲーションおよび動き感知ゲームシナリオにおいてさらに使用され得る。
距離センサ140Cは、距離を測定するように構成され得る。端末デバイスは、赤外光またはレーザを使用することによって距離を測定し得る。例えば、撮影シナリオでは、端末デバイスは、距離センサ140Cを使用することによって距離を測定して、高速焦点合わせを実施し得る。
圧力センサ140Dは、圧力信号を感知し、圧力信号を電気信号に変換するように構成され得る。いくつかの実施形態では、圧力センサ140Dは、ディスプレイ160上に配置され得る。例えば、抵抗型圧力センサ、誘導型圧力センサ、および容量型圧力センサといった、多くのタイプの圧力センサ140Dがある。容量型圧力センサは、導電性材料で作られた少なくとも2つの平行なプレートを含み得る。圧力センサ140Dに力が加えられると、電極間の静電容量が変化し、端末デバイスは、静電容量の変化に基づいて圧力の強さを決定する。端末デバイスは、ディスプレイ160に対してタッチ操作が行われた場合、圧力センサ140Dを使用することによってタッチ操作の強さを検出し得るか、または圧力センサ140Dの検出信号に基づいてタッチ位置を計算し得る。
タッチセンサ140Eは、「タッチパネル」とも呼ばれる。タッチセンサ140Eは、ディスプレイ160上に配置され得、タッチセンサ140Eおよびディスプレイ160は、「タッチ画面」とも呼ばれるタッチスクリーンを形成する。タッチセンサ140Eは、タッチセンサ140Eにまたはその付近に対して行われたタッチ操作を検出するように構成される。タッチセンサ140Eは、検出されたタッチ操作をアプリケーションプロセッサに伝達してタッチイベントのタイプを決定し、ディスプレイ160を通してタッチ操作と関連した視覚的出力を提供し得る。いくつかの他の実施形態では、タッチセンサ140Eは、代替的に、ディスプレイ160の位置とは異なる位置で端末デバイスの表面上に配置され得る。
指紋センサ140Fは、指紋を収集するように構成され得る。端末デバイスは、収集された指紋の特徴を使用して、指紋ベースのロック解除、アプリケーションロックアクセス、指紋ベースの写真撮影、指紋ベースの電話応答などを実施し得る。
周辺光センサ140Gは、周辺光の輝度を感知するように構成され得る。端末デバイスは、感知された周辺光の輝度に基づいて、ディスプレイ160の輝度を適応的に調整し得る。また、周辺光センサ140Gは、撮影時にホワイトバランスを自動的に調整するように構成され得る。周辺光センサ140Gはさらに、光学式近接センサ140Jと協働して、端末デバイスがポケット内にあるか否かを検出して、偶発的な接触を防止し得る。骨伝導センサ140Hは、振動信号を取得するように構成され得る。いくつかの実施形態では、骨伝導センサ140Hは、人間の声帯部分の振動骨の振動信号を取得し得る。骨伝導センサ140Hはまた、血圧拍動信号を受信するために身体パルスと接触し得る。いくつかの実施形態では、骨伝導センサ140Hは、骨伝導ヘッドセットを得るために、ヘッドセット内に配置され得る。オーディオモジュール170は、骨伝導センサ140Hによって取得された、声帯部分の振動骨の振動信号に基づく解析を通して音声信号を取得して、音声機能を実装し得る。アプリケーションプロセッサは、骨伝導センサ140Hによって取得された血圧拍動信号に基づいて心拍数情報を解析して、心拍数検出機能を実装し得る。
光学式近接センサ140Jは、例えば、発光ダイオード(LED)と、フォトダイオードなどの光検出器とを含み得る。発光ダイオードは、赤外発光ダイオードであり得る。端末デバイスは、発光ダイオードを使用することによって赤外光を外部に発する。端末デバイスは、フォトダイオードを使用することによって近くのオブジェクトからの赤外反射光を検出する。適切な反射光が検出されると、端末デバイスは、端末デバイスの近くにオブジェクトが存在すると決定し得る。不適切な反射光が検出されると、端末デバイスは、端末デバイスの近くにオブジェクトが存在しないと決定し得る。端末デバイスは、端末デバイスが自動的に画面をオフにして電力を節約することができるように、光学式近接センサ140Jを使用することによって、ユーザが通話のために端末デバイスを耳の近くに保持していることを検出し得る。
温度センサ140Kは、温度を検出するように構成され得る。いくつかの実施形態では、端末デバイスは、温度センサ140Kによって検出された温度を使用することによって温度処理ポリシーを実行する。例えば、温度センサ140Kによって報告された温度がしきい値を超えるとき、端末デバイスは、温度センサ140Kの近くに位置するプロセッサの性能を低下させて、電力消費を低減し、熱保護を実施する。いくつかの他の実施形態では、温度が別のしきい値よりも低いとき、端末デバイスはバッテリ104を加熱して、低温によって引き起こされる端末デバイスの異常シャットダウンを回避する。いくつかの他の実施形態では、温度がさらに別のしきい値よりも低いとき、端末デバイスはバッテリ104の出力電圧をブーストして、低温によって引き起こされる異常シャットダウンを回避する。
気圧センサ140Lは、気圧を測定するように構成され得る。いくつかの実施形態では、端末デバイスは、気圧センサ140Lによって測定された気圧値を使用することによって高度を計算して、測位およびナビゲーションを支援する。
磁気センサ140Mは、ホール効果センサを含み得る。端末デバイスは、磁気センサ140Mを使用することによってフリップカバーの開閉を検出し得る。いくつかの実施形態では、端末デバイスが折り畳み式携帯電話であるとき、端末デバイスは、磁気センサ140Mを使用することによって、フリップカバーが開いているか閉じているかを検出し、さらに、フリップカバーの検出された開閉状態に基づいて、フリップカバーの自動ロック解除などの機能を設定し得る。
カメラ150は、画像またはビデオをキャプチャするように構成される。オブジェクトの光学像は、レンズを使用することによって生成され、感光素子に投影される。感光素子は、電荷結合素子(Charge Coupled Device、CCD)または相補型金属酸化膜半導体(Complementary Metal-Oxide-Semiconductor、CMOS)光電トランジスタであり得る。感光素子は光信号を電気信号に変換し、次いで、電気信号をISPに送信して、電気信号をデジタル画像信号に変換する。ISPは、処理のためにデジタル画像信号をDSPに出力する。DSPは、デジタル画像信号を、RGBやYUVなどの標準フォーマットの画像信号に変換する。いくつかの実施形態では、端末デバイスは、1つまたは複数のカメラ150を含み得る。ここでは、これに限定しない。一例では、端末デバイスは、2つのカメラ150、例えば、1つの前面カメラおよび1つの背面カメラを含む。別の例では、端末デバイスは、5つのカメラ150、例えば、3つの背面カメラおよび2つの前面カメラを含む。端末デバイスは、ISP、カメラ150、ビデオコーデック、GPU、ディスプレイ160、アプリケーションプロセッサなどを使用することによって撮影機能を実装することができる。
ディスプレイ160は、画像、ビデオなどを表示するように構成される。ディスプレイ160は、ディスプレイパネルを含む。ディスプレイパネルは、液晶ディスプレイ(Liquid Crystal Display、LCD)、有機発光ダイオード(Organic Light-Emitting Diode、OLED)、アクティブマトリクス有機発光ダイオード(Active-Matrix Organic Light Emitting Diode、AMOLED)、フレキシブル発光ダイオード(Flexible Light-Emitting Diode、FLED)、ミニLED、マイクロLED、マイクロOLED、量子ドット発光ダイオード(Quantum Dot Light Emitting Diode、QLED)などを使用し得る。例えば、端末デバイスは、GPU、ディスプレイ160、アプリケーションプロセッサなどを使用することによって表示機能を実装し得る。
本実施形態では、端末デバイスは、オーディオモジュール170、スピーカ171、マイクロフォン172、受信機173、ヘッドセットジャック174、アプリケーションプロセッサなどを使用することによって、オーディオ再生および記録などのオーディオ機能を実装し得る。
オーディオモジュール170は、デジタルオーディオ情報をアナログオーディオ信号出力に変換するように構成され、アナログオーディオ入力をデジタルオーディオ信号に変換するようにも構成される。オーディオモジュール170は、オーディオ信号を符号化および復号するようにさらに構成され得る。いくつかの実施形態では、オーディオモジュール170がプロセッサ110内に配置され得るか、またはオーディオモジュール170内のいくつかの機能モジュールがプロセッサ110内に配置される。
「ラウドスピーカ」とも呼ばれるスピーカ171は、オーディオ電気信号を音信号に変換するように構成される。例えば、端末デバイスは、スピーカ171を使用することによって、音楽を再生したり、声によるプロンプトを送信したりし得る。
「マイク」または「mic」とも呼ばれるマイクロフォン172は、音(例えば、人によって発せられる音またはデバイスによって発せられる音を含む周囲音)をキャプチャし、音信号をオーディオ電気信号、すなわち、本実施形態における収音データに変換するように構成される。複数のマイクロフォン172が端末デバイス上に配置され得ること、および、複数のマイクロフォン172が端末デバイス上に配置されるので、端末デバイスを使用することによってビデオを記録するときに、ユーザが高品質のステレオ記録効果を得ることができることに留意されたい。
本実施形態では、端末デバイス上に配置されるマイクロフォン172の数は3~6であり得、端末デバイスの前方向および後方向を指すステレオビームが形成され得ることを保証するために、端末デバイスの画面の前面または端末デバイスの背面に少なくとも1つのマイクロフォン172が配置される。
例えば、図2に示されるように、マイクロフォンの数が3であるとき、端末デバイスの上部および下部のそれぞれに1つずつマイクロフォンが配置され(すなわち、m1およびm2)、端末デバイスの画面の前面または端末デバイスの背面に1つのマイクロフォンが配置される(すなわち、m3)。図3に示されるように、マイクロフォンの数が6であるとき、端末デバイスの上部および下部のそれぞれに2つずつマイクロフォンが配置され(すなわち、m1およびm2、ならびにm3およびm4)、端末デバイスの画面の前面および端末デバイスの背面のそれぞれに1つずつマイクロフォンが配置される(すなわち、m5およびm6)。別の実施形態では、マイクロフォン172の数は代替的に4つまたは5つであってもよく、端末デバイスの画面の前面または端末デバイスの背面に少なくとも1つのマイクロフォン172が配置されることが理解され得る。
「イヤピース」とも呼ばれる受信機173は、オーディオ電気信号を音信号に変換するように構成される。電話に応答するためまたは音声情報を聞いたりするために端末デバイスが使用されるとき、受信機173は、音声を聞くために人間の耳の近くに置かれ得る。
ヘッドセットジャック174は、ワイヤードヘッドセットに接続するように構成される。ヘッドセットジャック174は、USBインターフェースであり得るか、または3.5mmのオープンモバイルターミナルプラットフォーム(Open Mobile Terminal Platform、OMTP)標準インターフェースもしくは米国セルラー通信工業会(Cellular Telecommunications Industry Association of the USA、CTIA)標準インターフェースであり得る。
端末デバイスのワイヤレス通信機能は、アンテナ1、アンテナ2、モバイル通信モジュール180、ワイヤレス通信モジュール190、モデムプロセッサ、ベースバンドプロセッサなどを通して実装され得る。
アンテナ1およびアンテナ2は、電磁波信号を送信および受信するように構成される。端末デバイス内の各アンテナは、1つまたは複数の通信周波数帯域をカバーするように構成され得る。アンテナ利用率を改善するために、異なるアンテナがさらに多重化され得る。例えば、アンテナ1は、ワイヤレスローカルエリアネットワークのダイバーシティアンテナとして多重化され得る。いくつかの他の実施形態では、アンテナは、同調スイッチと組み合わせて使用され得る。
モバイル通信モジュール180は、端末デバイスにおいて使用され、2G、3G、4G、5Gなどのワイヤレス通信を含むワイヤレス通信ソリューションを提供し得る。モバイル通信モジュール180は、少なくとも1つのフィルタ、スイッチ、電力増幅器、低ノイズ増幅器(Low Noise Amplifier、LNA)などを含み得る。モバイル通信モジュール180は、アンテナ1を通して電磁波を受信し、受信された電磁波に対してフィルタリングまたは増幅などの処理を実行し、復調のために電磁波をモデムプロセッサに転送し得る。モバイル通信モジュール180は、モデムプロセッサによって変調された信号をさらに増幅し、アンテナ1を通した放射のために信号を電磁波に変換し得る。いくつかの実施形態では、モバイル通信モジュール180内の少なくともいくつかの機能モジュールは、プロセッサ110内に配置され得る。いくつかの他の実施形態では、モバイル通信モジュール180内の少なくともいくつかの機能モジュールは、プロセッサ110内の少なくともいくつかのモジュールと同じデバイス内に配置され得る。
モデムプロセッサは、変調器と復調器とを含み得る。変調器は、送信されるべき低周波数ベースバンド信号を中高周波数信号に変調するように構成され、復調器は、受信された電磁波信号を低周波数ベースバンド信号に復調するように構成される。次いで、復調器は、復調によって得られた低周波数ベースバンド信号を、処理のためにベースバンドプロセッサに送信する。ベースバンドプロセッサは、低周波数ベースバンド信号を処理し、次いで、処理された信号をアプリケーションプロセッサに送信する。アプリケーションプロセッサは、オーディオデバイス(これは、スピーカ171、受信機173などに限られない)を通して音信号を出力したり、ディスプレイ160を通して画像またはビデオを表示したりする。いくつかの実施形態では、モデムプロセッサは、独立した構成要素であり得る。いくつかの他の実施形態では、モデムプロセッサは、プロセッサ110から独立していてもよく、モバイル通信モジュール180または別の機能モジュールと同じデバイス内に配置される。
ワイヤレス通信モジュール190は、ワイヤレスローカルエリアネットワーク(Wireless Local Area Network、WLAN)(ワイヤレスフィデリティ(Wireless Fidelity、Wi-Fi)ネットワークなど)、Bluetooth(BitTorrent、BT)、全地球的航法衛星システム(Global Navigation Satellite System、GNSS)、周波数変調(Frequency Modulation、FM)、近距離通信(Near Field Communication、NFC)技術、および赤外線(Infrared Radiation、IR)技術を含み、端末デバイスに適用されるワイヤレス通信ソリューションを提供し得る。ワイヤレス通信モジュール190は、少なくとも1つの通信処理モジュールが統合された1つまたは複数の構成要素であり得る。ワイヤレス通信モジュール190は、アンテナ2を通して電磁波を受信し、電磁波信号に対して周波数変調およびフィルタリング処理を行い、処理された信号をプロセッサ110に送信する。ワイヤレス通信モジュール190は、プロセッサ110から、送信されるべき信号をさらに受信し、信号に対して周波数変調および増幅を実行し、アンテナ2を通した放射のために信号を電磁波に変換し得る。
いくつかの実施形態では、端末デバイスがワイヤレス通信技術を使用することによってネットワークおよび別のデバイスと通信することができるように、端末デバイスのアンテナ1はモバイル通信モジュール180に結合され、アンテナ2はワイヤレス通信モジュール190に結合される。ワイヤレス通信技術は、グローバルシステムフォーモバイルコミュニケーション(Global System For Mobile Communication、GSM)、汎用パケット無線サービス(General Packet Radio Service、GPRS)、符号分割多元接続(Code Division Multiple Access、CDMA)、広帯域符号分割多元接続(Wideband Code Division Multiple Access、WCDMA)、時分割同期符号分割多元接続(Time Division-Synchronous Code Division Multiple Access、TD-SCDMA)、ロングタームエボリューション(Long Term Evolution、LTE)、BT、GNSS、WLAN、NFC、FM、IR技術、および/または同様のものを含み得る。GNSSは、全地球測位システム(Global Positioning System、GPS)、全地球的航法衛星システム(Global Navigation Satellite System、GLONASS)、北斗航法衛星システム(BeiDou Navigation Satellite System、BDS)、準天頂衛星システム(Quasi-Zenith Satellite System、QZSS)、および/または衛星ベース補強システム(Satellite Based Augmentation System、SBAS)を含み得る。
USBインターフェース101は、USB標準仕様に準拠するインターフェースであり、具体的には、ミニUSBインターフェース、マイクロUSBインターフェース、USB Type Cインターフェースなどであり得る。USBインターフェース101は、端末デバイスを充電するために充電器に接続するように構成され得るか、または端末デバイスと周辺デバイスとの間でデータを送信するように構成され得るか、またはヘッドセットを使用することによってオーディオを再生するためにヘッドセットに接続するように構成され得る。例えば、ヘッドセットジャック174に加えて、USBインターフェース101は、別の端末デバイス、例えば、AR(Augmented Reality、拡張現実)デバイスまたはコンピュータに接続するようにさらに構成され得る。
充電管理モジュール102は、充電器から充電入力を受信するように構成される。充電器は、ワイヤレス充電器またはワイヤード充電器であり得る。ワイヤード充電のいくつかの実施形態では、充電管理モジュール102は、USBインターフェース101を通してワイヤード充電器の充電入力を受信し得る。ワイヤレス充電のいくつかの実施形態では、充電管理モジュール102は、端末デバイスのワイヤレス充電コイルを通してワイヤレス充電入力を受信し得る。バッテリ104を充電するとき、充電管理モジュール102は、電力管理モジュール103を使用することによって端末デバイスに電力をさらに供給し得る。
電力管理モジュール103は、バッテリ104、充電管理モジュール102、およびプロセッサ110に接続するように構成される。電力管理モジュール103は、バッテリ104からの入力および/または充電管理モジュール102からの入力を受信し、プロセッサ110、内部メモリ120、カメラ150、ディスプレイ160などに電力を供給する。電力管理モジュール103は、バッテリ容量、バッテリサイクルカウント、およびバッテリ健康状態(漏電またはインピーダンス)などのパラメータを監視するようにさらに構成され得る。いくつかの実施形態では、電力管理モジュール103は、プロセッサ110内に配置され得る。いくつかの他の実施形態では、電力管理モジュール103および充電管理モジュール102は、代替的に、同じデバイス内に配置されてもよい。
ボタン105は、電源ボタン、音量ボタンなどを含む。ボタン105は、機械的なボタンであり得るか、またはタッチボタンであり得る。端末デバイスは、ボタン入力を受信し、端末デバイスのユーザ設定および機能制御に関連するボタン信号入力を生成し得る。
モータ106は振動プロンプトを生成し得る。モータ106は、着呼振動プロンプトおよびタッチ振動フィードバックを提供するように構成され得る。例えば、異なるアプリケーション(例えば、撮影アプリケーションおよびオーディオ再生アプリケーション)上で行われるタッチ操作は、異なる振動フィードバック効果に対応し得る。モータ106はまた、ディスプレイ160の異なる領域上で行われるタッチ操作に対する異なる振動フィードバック効果に対応し得る。異なるアプリケーションシナリオ(例えば、時間リマインド、情報受信、目覚まし時計、およびゲーム)もまた、異なる振動フィードバック効果に対応し得る。タッチ振動フィードバック効果は、さらにカスタマイズされてもよい。
インジケータ107は、インジケータライトであり得、充電ステータスおよび電力変化を示すように構成され得るか、またはメッセージ、不在着信、通知などを示すように構成され得る。
SIMカードインターフェース108は、SIMカードに接続するように構成される。SIMカードは、端末デバイスとの接触または端末デバイスからの分離を実施するために、SIMカードインターフェース108に挿入され得るか、またはSIMカードインターフェース108から取り外され得る。端末デバイスは、1つまたは複数のSIMカードインターフェースをサポートし得る。SIMカードインターフェース108は、ナノSIMカード、マイクロSIMカード、SIMカードなどをサポートし得る。複数のカードを同じSIMカードインターフェース108に同時に挿入してもよい。複数のカードは、同じタイプであってもよいし、異なるタイプであってもよい。SIMカードインターフェース108はまた、異なるタイプのSIMカードと互換性がある。SIMカードインターフェース108は、外部記憶カードとも互換性がある。端末デバイスは、SIMカードを使用することによってネットワークと対話して、呼およびデータ通信などの機能を実装する。いくつかの実施形態では、端末デバイスは、eSIM、すなわち埋め込みSIMカードを使用する。eSIMカードは、端末デバイスに埋め込まれ得、端末デバイスから分離することができない。
本発明の実施形態において提供されるステレオ収音方法によれば、端末デバイスの姿勢データとカメラデータとに基づいてターゲットビームパラメータ群が決定され、マイクロフォンによって収音されたターゲット収音データに基づいてステレオビームが形成される。異なるターゲットビームパラメータ群は、異なる姿勢データおよびカメラデータに基づいて決定される。したがって、ステレオビームの方向は、異なるターゲットビームパラメータ群に基づいて調整され得る。したがって、記録環境におけるノイズの影響を効果的に低減することができ、その結果、端末デバイスは、異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができる。加えて、マイクロフォンの孔ブロッキング状態を検出し、様々な異常音データを除去し、ステレオビームの音色を補正し、ステレオビームの利得を調整することによって、良好なステレオ記録効果を保証しながら、記録のロバスト性をさらに高める。
図4は、本発明の実施形態による、ステレオ収音方法の概略フローチャートである。ステレオ収音方法は、前述のハードウェア構造を有する端末デバイス上で実装され得る。図4を参照されたい。ステレオ収音方法は、以下のステップを含み得る。
S201:複数のマイクロフォンの収音データから複数のターゲット収音データを取得する。
本実施形態では、ユーザが端末デバイスを使用して写真を撮ったりビデオを記録したりするとき、端末デバイスは、端末デバイス上に配置された複数のマイクロフォンを使用することによって音をキャプチャし、次いで、複数のマイクロフォンの収音データから複数のターゲット収音データを取得し得る。
複数のターゲット収音データは、複数のマイクロフォンの収音データに基づいて直接取得され得るか、または複数のマイクロフォンのうちのいくつかのマイクロフォンの収音データを特定の規則にしたがって選択することによって取得され得るか、または複数のマイクロフォンの収音データが特定の方法で処理された後に取得され得る。これに限定されるものではない。
S202:端末デバイスの姿勢データおよびカメラデータを取得する。
本実施形態では、端末デバイスの姿勢データは、加速度センサ140Aを使用することによって取得され得る。姿勢データは、端末デバイスが横向きモードまたは縦向きモードにあることを示し得る。カメラデータは、ビデオを記録するためにユーザが端末デバイスを使用するプロセスにおいて、端末デバイス上に配置されたカメラに対応する使用として理解され得る。
S203:姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定する、ここで、ターゲットビームパラメータ群は、複数のターゲット収音データにそれぞれ対応するビームパラメータを含む。
本実施形態では、ビームパラメータ群は、事前トレーニングを通して取得され、端末デバイスに記憶され得、ステレオビームの形成に影響を与えるいくつかのパラメータを含む。一例では、端末デバイスの想定されるビデオ記録シナリオについて、端末デバイスに対応する姿勢データおよびカメラデータが事前に決定され得、一致するビームパラメータ群が、姿勢データとカメラデータとに基づいて設定される。このようにして、異なるビデオ記録シナリオにそれぞれ対応する複数のビームパラメータ群が取得され得、複数のビームパラメータ群は、後続のビデオ記録のために端末デバイスに記憶される。例えば、ユーザが端末デバイスを使用して写真を撮ったりビデオを記録したりするとき、端末デバイスは、現時点で取得されている姿勢データとカメラデータとに基づいて、複数のビームパラメータ群から一致するターゲットビームパラメータ群を決定し得る。
端末デバイスが異なるビデオ記録シナリオにあるとき、端末デバイスに対応する姿勢データおよびカメラデータはそれに応じて変化することが理解され得る。したがって、姿勢データとカメラデータとに基づいて、複数のビームパラメータ群から異なるターゲットビームパラメータ群が決定され得る。言い換えれば、複数のターゲット収音データにそれぞれに対応するビームパラメータは、ビデオ記録シナリオによって変化する。
S204:ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成する。
本実施形態では、ターゲットビームパラメータ群中のビームパラメータは、重み値として理解され得る。ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するとき、それぞれのターゲット収音データと、対応する重み値とを使用することによって加重和演算を行い、最終的にステレオビームを取得し得る。
ステレオビームは空間指向性を有するので、複数のターゲット収音データに対してビームフォーミング処理が実行され、その結果、ステレオビームが指す空間方向よりも外側の収音データに対して異なる程度の抑制を実施して、記録環境におけるノイズの影響を効果的に低減することができる。加えて、複数のターゲット収音データにそれぞれ対応するビームパラメータは、ビデオ記録シナリオによって変化するので、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいて形成されるステレオビームの方向も、ビデオ記録シナリオに応じて変化し、その結果、端末デバイスは、異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができる。
いくつかの実施形態では、端末デバイスを使用することによってビデオを記録するとき、ユーザは、異なる記録シナリオに基づいて撮影のために異なるカメラを選択し、端末デバイスの姿勢をさらに調整して、端末デバイスを横向きモードまたは縦向きモードにし得る。この場合、端末デバイスのカメラデータは、イネーブルデータを含み得、イネーブルデータは有効なカメラを示す。図5に示されるように、ステップS203は、姿勢データとイネーブルデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応する第1のターゲットビームパラメータ群を決定するサブステップS203-1を含み得る。ステップS204は、第1のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて第1のステレオビームを形成するサブステップであって、ここで、第1のステレオビームは、有効なカメラの撮影方向を指すサブステップS204-1を含み得る。
実際のアプリケーションでは、端末デバイスが異なるビデオ記録シナリオにあるとき、端末デバイスは、異なるビームパラメータ群に対応する必要がある。したがって、端末デバイスは、複数のビームパラメータ群を予め記憶し得る。一例では、複数のビームパラメータ群は、第1のビームパラメータ群、第2のビームパラメータ群、第3のビームパラメータ群、および第4のビームパラメータ群を含み得、第1のビームパラメータ群、第2のビームパラメータ群、第3のビームパラメータ群、および第4のビームパラメータ群内のビームパラメータは異なる。
例えば、ビデオ記録シナリオは、端末デバイスの横向きモードおよび縦向きモード、ならびに前面カメラおよび背面カメラの使用を含む。端末デバイスが横向きモードにあることを姿勢データが示し、背面カメラが有効であることをイネーブルデータが示す場合、第1のターゲットビームパラメータ群は第1のビームパラメータ群である。端末デバイスが横向きモードにあることを姿勢データが示し、前面カメラが有効であることをイネーブルデータが示す場合、第1のターゲットビームパラメータ群は第2のビームパラメータ群である。端末デバイスが縦向きモードにあることを姿勢データが示し、背面カメラが有効であることをイネーブルデータが示す場合、第1のターゲットビームパラメータ群は第3のビームパラメータ群である。端末デバイスが縦向きモードにあることを姿勢データが示し、前面カメラが有効であることをイネーブルデータが示す場合、第1のターゲットビームパラメータ群は第4のビームパラメータ群である。
例えば、図6~図9は、第1のステレオビームの方向が、端末デバイスの横向きモードと縦向きモードとの間の切り替えおよび前面カメラまたは背面カメラの有効化にしたがって変化する概略図である。図6の端末デバイスは、横向きモードにあり、撮影のために背面カメラを有効にし、図7の端末デバイスは、横向きモードにあり、撮影のために前面カメラを有効にし、図8の端末デバイスは、縦向きモードにあり、撮影のために背面カメラを有効にし、図9の端末デバイスは、縦向きモードにあり、撮影のために前面カメラを有効にする。
図6~図9において、左矢印および右矢印はそれぞれ、左ビームおよび右ビームの方向を表し、第1のステレオビームは、左ビームと右ビームの合成ビームとして理解され得る。水平面は、端末デバイスの現在の撮影姿勢(横向きモードまたは縦向きモード)における垂直辺に垂直な平面であり、形成された第1のステレオビームの主軸は、水平面内に位置する。端末デバイスが横向きモードと縦向きモードとの間で切り替わるとき、第1のステレオビームの方向もそれに応じて変化する。例えば、図6に示される第1のステレオビームの主軸は、横向きモードにある端末デバイスの垂直辺に垂直な水平面に位置する。端末デバイスが縦向きモードに切り替わった後、第1のステレオビームの主軸は、図8に示されるように、縦向きモードにある端末デバイスの垂直辺に垂直な水平面に位置する。
加えて、有効なカメラの撮影方向は、一般に、ユーザが収音に焦点を合わせる方向であるので、第1のステレオビームの方向もまた、有効なカメラの撮影方向とともに変化する。例えば、図6および図8では、第1のステレオビームの方向は、背面カメラの撮影方向を指す。図7および図9では、第1のステレオビームの方向は、前面カメラの撮影方向を指す。
異なるビデオ記録シナリオでは、異なる方向の第1のステレオビームを形成するために、複数のターゲット収音データが異なる第1のターゲットビームパラメータ群に対応するので、第1のステレオビームの方向は、端末デバイスの横向きモードと縦向きモードとの間の切り替えならびに前面カメラおよび背面カメラの有効化にしたがって適応的に調整され、端末デバイスがビデオを記録するときにより良好なステレオ記録効果が取得され得ることを保証することが分かる。
いくつかの実施形態では、端末デバイスを使用することによってビデオを記録するとき、ユーザは、端末デバイス上で横向き/縦向き切り替えを実行して、撮影のために異なるカメラを選択するだけでなく、撮影の被写体の距離に基づいてズームも実行する。この場合、カメラデータは、イネーブルデータおよびズームデータを含み得る。ズームデータは、イネーブルデータによって示される有効なカメラのズーム倍率である。図10に示されるように、ステップS203は、姿勢データと、イネーブルデータと、ズームデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応する第2のターゲットビームパラメータ群を決定するサブステップS203-2を含み得る。ステップS204は、第2のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて、第2のステレオビームを形成するサブステップであって、ここで、第2のステレオビームは、有効なカメラの撮影方向を指し、第2のステレオビームの幅は、ズーム倍率が大きくなるにつれて狭くなる、サブステップS204-2を含み得る。
第2のステレオビームの幅は、有効なカメラのズーム倍率が増加するにつれて狭くなり、その結果、音像をより集中させることができる。ユーザは、通常、長距離収音シナリオにおいてズームを実行し、被写体の信号対ノイズ比は低くなる。第2のステレオビームを狭めることで、信号対ノイズ比を改善することができ、その結果、端末デバイスは、低い信号対ノイズ比の場合により良好な記録ロバスト性を有することができ、それにより、より良好なステレオ記録効果を得る。
本実施形態では、有効なカメラのズーム倍率が増加するにつれて第2のステレオビームの幅が狭くなるように、異なる姿勢データ、イネーブルデータ、およびズームデータの場合の第2のステレオビームに対応する被写体の形状が予め設定され得、次いで、ビームパラメータ群に基づいて形成される第2のステレオビームが設定された被写体形状に近似するように、最小二乗法を用いたトレーニングを通して一致するビームパラメータ群が取得される。したがって、異なる姿勢データ、イネーブルデータ、ズームデータに対応するビームパラメータ群が取得される。
端末デバイスを使用することによってユーザがビデオを記録するとき、ズーム倍率が増加または減少するにつれて、端末デバイスは、異なるズーム倍率に対応する第2のターゲットビームパラメータ群に一致して、第2のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて異なる幅の第2のステレオビームを形成し、ユーザのビデオ記録要件を満たし得る。例えば、図11a~図11cは、有効なカメラのズーム倍率に応じて第2のステレオビームの幅が変化する概略図である。図11a~図11cにおいて、第2のステレオビームは、左ビームおよび右ビームの合成ビームであり、0度方向は、ユーザがビデオを記録するときに有効にされたカメラの撮影方向(ターゲット方向とも呼ばれ得る)である。低ズーム倍率を使用することによってユーザがビデオを記録するとき、端末デバイスは、この低ズーム倍率に対応する第2のターゲットビームパラメータ群に一致し、図11aに示される広い第2のステレオビームを形成し得る。図11aの左ビームおよび右ビームは、それぞれ撮影方向の左右45度を指す。中間ズーム倍率を使用することによってユーザがビデオを記録するとき、端末デバイスは、中間ズーム倍率に対応する第2のターゲットビームパラメータ群に一致し、図11bに示される狭められた第2のステレオビームを形成し得る。図11bの左ビームおよび右ビームの方向は、撮影方向に対して左右約30度に狭められている。高ズーム倍率を使用することによってユーザがビデオを記録するとき、端末デバイスは、高ズーム倍率に対応する第2のターゲットビームパラメータ群に一致し、図11cに示されるさらに狭められた第2のステレオビームを形成し得る。図11cの左ビームと右ビームの方向は、撮影方向に対して左右約10度にさらに狭められている。
図11a~図11cから、有効なカメラのズーム倍率が増加するにつれて第2のステレオビームの幅が狭くなり、その結果、非ターゲット方向におけるノイズ低減能力が改善され得ることが分かる。左ビームが一例として使用される。図11aでは、左ビームは、60度方向の収音データに対してほとんど抑圧効果がない。図11bでは、左ビームは、60度方向の収音データに対して特定の抑圧効果を有している。図11cでは、左ビームは、60度方向の収音データに対して大きな抑圧効果を有している。
ユーザが端末デバイスを使用してビデオを記録し、ズームを実行するとき、異なる方向および幅の第2のステレオビームを形成するために、端末デバイスの横向きモードと縦向きモードとの間の切り替え、前面カメラおよび背面カメラの有効化、ならびに有効なカメラのズーム倍率の変更にしたがって、異なる第2のターゲットビームパラメータ群が決定され得ることが分かる。このようにして、端末デバイスの姿勢、有効なカメラ、およびズーム倍率の変更に基づいて、第2のステレオビームの方向および幅が適応的に調整され得、その結果、ノイズの多い環境および長距離収音条件において、良好な記録ロバスト性を実現することができる。
実際のアプリケーションでは、ユーザが端末デバイスを使用してビデオを記録するとき、周囲ノイズによる干渉に加えて、ユーザが端末デバイスを保持するときにマイクロフォンが指または別の部分によって塞がれたり、汚れが導音孔に入ってマイクロフォンをブロックしたりするので、ステレオ記録効果は影響を受けやすい。加えて、端末デバイスの機能がより強力になるにつれて、端末デバイスの自己ノイズ(すなわち、端末デバイスの内部回路によって生成されるノイズ)、例えば、カメラのモータノイズ、Wi-Fi干渉ノイズ、ならびにキャパシタの充電および放電によって引き起こされるノイズが、ますますマイクロフォンによって拾われやすくなる。加えて、ズームまたは他の操作により、ユーザの指または他の部分が画面に触れたり、マイクロフォン孔付近を擦ったりすることで、ユーザが予期しない異常音が発生する場合がある。自己ノイズや異常音の干渉は、ビデオのステレオ記録効果にある程度影響を与える。
これに基づいて、本実施形態は、複数のマイクロフォンの収音データが取得された後に、複数のマイクロフォンに対してマイクロフォンブロッキング検出を実行し、複数のマイクロフォンの収音データに対して異常音処理を実行することによって、ステレオビームを形成するために使用される複数のターゲット収音データを決定するので、異常音干渉および/またはマイクロフォンブロッキングの場合でも、依然として、より良好な記録ロバスト性が実現され、良好なステレオ記録効果が保証されることを提案する。以下では、複数のターゲット収音データを取得するプロセスについて詳細に説明する。
図12に示されるように、S201は、以下のサブステップを含む。
S2011-A:複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得する。
任意選択で、複数のマイクロフォンの収音データを取得した後に、端末デバイスは、各マイクロフォンの収音データに対して時間領域フレーミング処理および周波数領域変換処理を行って、各マイクロフォンの収音データに対応する時間領域情報および周波数領域情報を取得し、異なるマイクロフォンの収音データに対応する時間領域情報および周波数領域情報を別々に比較して、時間領域比較結果および周波数領域比較結果を取得し、時間領域比較結果と周波数領域比較結果とに基づいて、ブロックされたマイクロフォンのシーケンス番号を決定し、ブロックされたマイクロフォンのシーケンス番号に基づいて、ブロックされていないマイクロフォンのシーケンス番号を決定し得る。時間領域分析が信号に対して実行されるとき、時間領域情報が同じであっても2つの信号が完全に同じであることを意味するものではなく、信号は周波数領域の観点からさらに分析される必要がある。したがって、本実施形態では、マイクロフォンの収音データは、時間領域および周波数領域という2つの異なる観点から分析されるので、マイクロフォンブロッキング検出の精度を効果的に高めることができ、単一の観点からの分析によって引き起こされるマイクロフォンブロッキングの誤った決定を回避することができる。一例では、時間領域情報は、収音データに対応する時間領域信号のRMS(Root-Mean-Square、二乗平均平方根)値であり得、周波数領域情報は、収音データに対応する周波数領域信号の特定の周波数(例えば、2kHz)より上の高周波数部分のRMS値であり得る。高周波数部分のRMS値の特徴は、マイクロフォンがブロックされているときにより明白である。
実際のアプリケーションでは、端末デバイス内にブロックされたマイクロフォンが存在するとき、ブロックされたマイクロフォンの収音データおよびブロックされていないマイクロフォンの収音データにおいて、時間領域信号のRMS値および高周波数部分のRMS値が異なる。ブロックされていないマイクロフォンであっても、時間領域信号のRMS値および高周波数部分のRMS値は、マイクロフォンの構造および端末デバイスの筐体のブロッキングなどの要因により、わずかに異なる。したがって、端末デバイスの開発段階では、ブロックされたマイクロフォンとブロックされていないマイクロフォンとの間の差分を見つける必要があり、この差分に基づいて、対応する時間領域しきい値および対応する周波数領域しきい値が設定され、それぞれ、異なるマイクロフォンの収音データに対応する時間領域信号のRMS値を時間領域において比較して時間領域比較結果を取得するため、ならびに、異なるマイクロフォンの収音データに対応する高周波数部分のRMS値を周波数領域において比較して周波数領域比較結果を取得するために使用される。さらに、時間領域比較結果と周波数領域比較結果とを参照して、ブロックされたマイクロフォンがあるか否かを決定する。本実施形態では、時間領域しきい値および周波数領域しきい値は、当業者が実験により取得した経験値であり得る。
例えば、端末デバイスは3つのマイクロフォンを含む。3つのマイクロフォンのシーケンス番号はそれぞれm1、m2、m3であり、3つのマイクロフォンの収音データに対応する時間領域信号のRMS値はそれぞれA1、A2、A3であり、3つのマイクロフォンの収音データに対応する高周波数部分のRMS値はそれぞれB1、B2、B3である。3つのマイクロフォンの収音データに対応する時間領域情報が時間領域において比較される場合、A1とA2、A1とA3、A2とA3との差分が別々に計算され、それぞれの差分が、設定された時間領域しきい値と比較され得る。差分が時間領域しきい値を超えない場合、2つのマイクロフォンの収音データに対応する時間領域情報は一致していると見なされる。差分が時間領域しきい値より大きい場合、2つのマイクロフォンの収音データに対応する時間領域情報は一致しないと見なされ、2つのマイクロフォンの収音データに対応する時間領域情報の値の関係が決定される。同様に、3つのマイクロフォンの収音データに対応する周波数領域情報が周波数領域において比較される場合、B1とB2、B1とB3、B2とB3との差分が別々に計算され、それぞれの差分が、設定された周波数領域しきい値と比較され得る。差分が周波数領域しきい値を超えない場合、2つのマイクロフォンの収音データに対応する周波数領域情報は一致していると見なされる。差分が周波数領域しきい値より大きい場合、2つのマイクロフォンの収音データに対応する周波数領域情報は一致しないと見なされ、2つのマイクロフォンの収音データに対応する周波数領域情報の値の関係が決定される。
本実施形態では、時間領域比較結果および周波数領域比較結果に基づいて、ブロックされたマイクロフォンが存在するか否かが決定されるとき、ブロックされたマイクロフォンをできるだけ検出することが予想される場合、ブロックされたマイクロフォンは、2つのマイクロフォンの時間領域情報と周波数領域情報との間の不一致に基づいて決定され得る。例えば、異なるマイクロフォンの収音データに対応する時間領域情報と周波数領域情報とが別々に比較されるとき、得られる時間領域比較結果は、A1=A2=A3であり、得られる周波数領域比較結果は、B1<B2、B1<B3、およびB2=B3である。この場合、ブロックされたマイクロフォンのシーケンス番号がm1であり、ブロックされていないマイクロフォンのシーケンス番号がm2およびm3であることが、時間領域比較結果と周波数領域比較結果とに基づいて決定され得る。
誤検出を回避するために、ブロックされたマイクロフォンは、2つのマイクロフォンの時間領域情報と周波数領域情報の両方が一致しないことに基づいて決定され得る。例えば、異なるマイクロフォンの収音データに対応する時間領域情報および周波数領域情報が別々に比較されるとき、得られる時間領域比較結果は、A1<A2、A1<A3、およびA2=A3であり、得られる周波数領域比較結果は、B1<B2、B1<B3、およびB2=B3である。この場合、ブロックされたマイクロフォンのシーケンス番号がm1であり、ブロックされていないマイクロフォンのシーケンス番号がm2およびm3であることが、時間領域比較結果と周波数領域比較結果とに基づいて決定され得る。
S2012-A:各マイクロフォンの収音データに異常音データが存在するか否かを検出する。
本実施形態では、各マイクロフォンの収音データに対して周波数領域変換処理を行って、各マイクロフォンの収音データに対応する周波数領域情報を取得し得、予めトレーニングされた異常音検出ネットワークと、各マイクロフォンの収音データに対応する周波数領域情報とに基づいて、各マイクロフォンの収音データに異常音データが存在するか否かが検出される。
予めトレーニングされた異常音検出ネットワークは、端末デバイスの開発段階において大量の異常音データ(例えば、特定の周波数を有する何らかの音データ)を収集し、AI(Artificial Intelligence、人工知能)アルゴリズムを使用することによって特徴学習を実行することによって取得され得る。検出段階では、各マイクロフォンの収音データに対応する周波数領域情報を予めトレーニングされた異常音検出ネットワークに入力して、異常音データが存在するか否かを示す検出結果を取得する。
S2013-A:異常音データが存在する場合、複数のマイクロフォンの収音データ中の異常音データを除去して、初期ターゲット収音データを取得する。
本実施形態では、異常音データは、端末デバイスの自己ノイズ、またはユーザが指を使用することによって画面に触れたり、マイクロフォン孔を擦ったりするときに生成されるノイズなどの異常音を含み得る。異常音データは、時間領域フィルタリング方式および周波数領域フィルタリング方式と組み合わせてAIアルゴリズムを使用することによって除去され得る。任意選択で、異常音データが検出されたとき、異常音データの周波数の利得が低減され得、すなわち、0と1との間の値を乗じることで、異常音データが除去されるか、または異常音データの強度が低減される。
一例では、異常音データに予め設定された音データが存在するか否かは、予めトレーニングされた音検出ネットワークを使用することによって検出され得る。予めトレーニングされた音検出ネットワークは、AIアルゴリズムを使用することによって特徴学習を実行することによって取得され得る。予め設定された音データは、例えば、スピーチサウンドまたは音楽など、ユーザが記録することを期待する非ノイズデータとして理解され得る。予めトレーニングされた音検出ネットワークを使用することによって、ユーザが記録することを期待する非ノイズデータが存在することが検出された場合、異常音データは除去される必要はなく、異常音データの強度のみが低減される(例えば、値0.5を乗じる)必要がある。予めトレーニングされた音検出ネットワークを使用することによって、ユーザが記録することを期待する非ノイズデータが存在しないことが検出された場合、異常音データは、直接除去される(例えば、値0を乗じる)。
S2014-A:初期ターゲット収音データから、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを、複数のターゲット収音データとして選択する。
例えば、シーケンス番号がそれぞれm1、m2、およびm3であるマイクロフォンにおいて、ブロックされたマイクロフォンのシーケンス番号がm1であり、ブロックされていないマイクロフォンのシーケンス番号がm2およびm3である場合、シーケンス番号m2およびm3に対応する収音データが、初期ターゲット収音データからターゲット収音データとして選択されて、後にステレオビームを形成するための複数のターゲット収音データが取得され得る。
S2011-Aは、S2012-Aの前に実行されてもよいし、S2012-Aの後に実行されてもよいし、またはS2012-Aと同時に実行されてもよいことに留意されたい。すなわち、本実施形態は、マイクロフォンブロッキング検出および異常音データ処理の順序を限定するものではない。
本実施形態では、ステレオビームを形成するために使用される複数のターゲット収音データは、マイクロフォンの収音データのマイクロフォンブロッキング検出および異常音処理を参照して決定され得る。端末デバイスを使用することによってユーザがビデオを記録するとき、マイクロフォンがブロックされ、マイクロフォンの収音データに異常音データが存在する場合であっても、依然として良好なステレオ記録効果を保証することができ、その結果、良好な記録ロバスト性が実現される。実際のアプリケーションでは、ステレオビームを形成するために使用される複数のターゲット収音データは、マイクロフォンに対してマイクロフォンブロッキング検出を実行すること、またはマイクロフォンの収音データに対して異常音処理を実行することによってさらに決定され得る。
図13に示されるように、ステレオビームを形成するために使用される複数のターゲット収音データが、マイクロフォンに対してマイクロフォンブロッキング検出を実行することによって決定されるとき、S201は、以下のサブステップを含む。
S2011-B:複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得する。
S2011-Bの具体的な内容については、S2011-Aを参照されたい。ここでは詳細について改めて説明はしない。
S2012-B:複数のマイクロフォンの収音データから、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを、複数のターゲット収音データとして選択する。
例えば、シーケンス番号がそれぞれm1、m2、およびm3であるマイクロフォンにおいて、ブロックされたマイクロフォンのシーケンス番号がm1であり、ブロックされていないマイクロフォンのシーケンス番号がm2およびm3である場合、シーケンス番号がm2およびm3であるマイクロフォンの収音データが、3つのマイクロフォンの収音データからターゲット収音データとして選択されて、複数のターゲット収音データが取得される。
ユーザがビデオを記録するときにマイクロフォンがブロックされ得る場合、複数のマイクロフォンの収音データを取得した後に、端末デバイスは、複数のマイクロフォンの収音データに基づいて複数のマイクロフォンに対してマイクロフォンブロッキング検出を実行してブロックされていないマイクロフォンのシーケンス番号を取得し、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを選択してから、ステレオビームを形成することが分かる。このようにして、端末デバイスがビデオを記録するときに、マイクロフォンブロッキングに起因して音質が著しく低下することもステレオが著しく不均衡になることもなく、すなわち、マイクロフォンがブロッキングされているときでも、ステレオ記録効果を保証することができ、記録ロバスト性は良好である。
図14に示されるように、ステレオビームを形成するために使用される複数のターゲット収音データが、マイクロフォンの収音データに対して異常音処理を実行することによって決定される場合、S201は、以下のサブステップを含む。
S2011-C:各マイクロフォンの収音データに異常音データが存在するか否かを検出する。
S2011-Cの具体的な内容については、S2012-Aを参照されたい。ここでは詳細について改めて説明はしない。
S2012-C:異常音データが存在する場合、複数のマイクロフォンの収音データ中の異常音データを除去して、複数のターゲット収音データを取得する。
言い換えれば、複数のマイクロフォンの収音データを取得した後に、端末デバイスは、複数のマイクロフォンの収音データに対して異常音検出および異常音除去処理を実行して、後にステレオビームを形成するための「クリーンな」収音データ(すなわち、複数のターゲット収音データ)を取得し得る。このようにして、端末デバイスがビデオを記録するとき、指がマイクロフォンを擦るときに生成されるノイズおよび端末デバイスの自己ノイズなどの異常音データがステレオ記録効果に与える影響が効果的に低減される。
実際のアプリケーションでは、音波が端末デバイスのマイクロフォン孔からアナログデジタル変換プロセスに送信されるときに生成される周波数応答変化、例えば、マイクロフォン本体の不均一な周波数応答、マイクロフォンパイプの共振効果、およびフィルタ回路などの要因により、ステレオ記録効果もある程度影響を受ける。これに基づいて、図15を参照されたい。ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成した後(すなわち、ステップS204の後)、ステレオ収音方法は、以下のステップをさらに含む。
S301:ステレオビームの音色を補正する。
ステレオビームの音色を補正することによって、周波数応答は直線になるように補正されて、より良好なステレオ記録効果を得ることができるようにする。
いくつかの実施形態では、ユーザによって記録された音を適切な音量に調整するために、生成されたステレオビームに対して利得制御がさらに実行され得る。図16を参照されたい。ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成した後(すなわち、ステップS204の後)、ステレオ収音方法は、以下のステップをさらに含む。
S401:ステレオビームの利得を調整する。
ステレオビームの利得を調整することによって、低音量の収音データを明瞭に聞くことができ、高音量の収音データにクリッピング歪みが生じないので、ユーザによって記録された音を適切な音量に調整することができる。これにより、ユーザのビデオ記録経験が向上する。
実際のアプリケーションでは、ユーザは通常、長距離収音シナリオにおいてズームを実行する。この場合、距離が長いことでターゲット音源の音量が小さくなり、記録された音の効果に影響を与える。これに基づき、本実施形態は、カメラのズーム倍率に基づいてステレオビームの利得を調整することを提案する。長距離収音シナリオでは、ズーム倍率が大きくなるほど、利得増幅量も大きくなる。これにより、長距離収音シナリオにおいても依然としてターゲット音源の音量がクリアで大きいことが保証される。
実際のビデオ記録プロセスにおいて、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成した後、端末デバイスは、最初に、ステレオビームに対して音色補正を実行し、次いで、ステレオビームの利得を調整して、より良好なステレオ記録効果を得ることができることに留意されたい。
前述の実施形態および想定される各実装形態において対応するステップを実行するために、以下では、ステレオ収音装置の実装形態を提供する。図17は、本発明の実施形態による、ステレオ収音装置の機能モジュールの図である。本実施形態において提供されるステレオ収音装置の基本原理および技術的効果は、前述の実施形態におけるものと同じであることに留意されたい。説明を簡潔にするために、本実施形態において言及されていない部分については、前述の実施形態における対応する内容を参照されたい。ステレオ収音装置は、収音データ取得モジュール510と、デバイスパラメータ取得モジュール520と、ビームパラメータ決定モジュール530と、ビーム形成モジュール540とを含む。
収音データ取得モジュール510は、複数のマイクロフォンの収音データから複数のターゲット収音データを取得するように構成される。
収音データ取得モジュール510がS201を実行し得ることが理解され得る。
デバイスパラメータ取得モジュール520は、端末デバイスの姿勢データおよびカメラデータを取得するように構成される。
デバイスパラメータ取得モジュール520がS202を実行し得ることが理解され得る。
ビームパラメータ決定モジュール530は、姿勢データとカメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するように構成される。ターゲットビームパラメータ群は、複数のターゲット収音データにそれぞれ対応するビームパラメータを含む。
ビームパラメータ決定モジュール530がS203を実行し得ることが理解され得る。
ビーム形成モジュール540は、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームを形成するように構成される。
ビーム形成モジュール540がS204を実行し得ることが理解され得る。
いくつかの実施形態では、カメラデータはイネーブルデータを含み得る。イネーブルデータは有効なカメラを示す。ビームパラメータ決定モジュール530は、姿勢データとイネーブルデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応する第1のターゲットビームパラメータ群を決定するように構成される。ビーム形成モジュール540は、第1のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて第1のステレオビームを形成するように構成される。第1のステレオビームは、有効なカメラの撮影方向を指す。
任意選択で、複数のビームパラメータ群は、第1のビームパラメータ群、第2のビームパラメータ群、第3のビームパラメータ群、および第4のビームパラメータ群を含み、第1のビームパラメータ群、第2のビームパラメータ群、第3のビームパラメータ群、および第4のビームパラメータ群内のビームパラメータは異なる。
端末デバイスが横向きモードにあることを姿勢データが示し、背面カメラが有効であることをイネーブルデータが示す場合、第1のターゲットビームパラメータ群は第1のビームパラメータ群である。端末デバイスが横向きモードにあることを姿勢データが示し、前面カメラが有効であることをイネーブルデータが示す場合、第1のターゲットビームパラメータ群は第2のビームパラメータ群である。端末デバイスが縦向きモードにあることを姿勢データが示し、背面カメラが有効であることをイネーブルデータが示す場合、第1のターゲットビームパラメータ群は第3のビームパラメータ群である。端末デバイスが縦向きモードにあることを姿勢データが示し、前面カメラが有効であることをイネーブルデータが示す場合、第1のターゲットビームパラメータ群は第4のビームパラメータ群である。
ビームパラメータ決定モジュール530がS203-1を実行し得、ビーム形成モジュール540がS204-1を実行し得ることが理解され得る。
いくつかの他の実施形態では、カメラデータはイネーブルデータとズームデータとを含み得る。ズームデータは、イネーブルデータによって示される有効なカメラのズーム倍率である。ビームパラメータ決定モジュール530は、姿勢データと、イネーブルデータと、ズームデータとに基づいて、予め記憶された複数のビームパラメータ群から、複数のターゲット収音データに対応する第2のターゲットビームパラメータ群を決定するように構成される。ビーム形成モジュール540は、第2のターゲットビームパラメータ群と複数のターゲット収音データとに基づいて、第2のステレオビームを形成し得る。第2のステレオビームは、有効なカメラの撮影方向を指し、第2のステレオビームの幅は、ズーム倍率が大きくなるにつれて狭くなる。
ビームパラメータ決定モジュール530がS203-2を実行し得、ビーム形成モジュール540がS204-2を実行し得ることが理解され得る。
図18を参照されたい。収音データ取得モジュール510は、マイクロフォンブロッキング検出モジュール511および/または異常音処理モジュール512と、ターゲット収音データ選択モジュール513とを含み得る。マイクロフォンブロッキング検出モジュール511および/または異常音処理モジュール512と、ターゲット収音データ選択モジュール513とを使用することによって、複数のマイクロフォンの収音データから複数のターゲット収音データが取得され得る。
任意選択で、マイクロフォンブロッキング検出モジュール511、異常音処理モジュール512、およびターゲット収音データ選択モジュール513を使用することによって、複数のターゲット収音データが取得されるとき、マイクロフォンブロッキング検出モジュール511は、複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得するように構成され、異常音処理モジュール512は、各マイクロフォンの収音データに異常音データが存在するか否かを検出し、異常音データが存在する場合、複数のマイクロフォンの収音データ中の異常音データを除去して、初期ターゲット収音データを取得するように構成され、ターゲット収音データ選択モジュール513は、初期ターゲット収音データから、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを、複数のターゲット収音データとして選択するように構成される。
マイクロフォンブロッキング検出モジュール511は、各マイクロフォンの収音データに対して時間領域フレーミング処理および周波数領域変換処理を行って、各マイクロフォンの収音データに対応する時間領域情報および周波数領域情報を取得し、異なるマイクロフォンの収音データに対応する時間領域情報および周波数領域情報を別々に比較して、時間領域比較結果および周波数領域比較結果を取得し、時間領域比較結果と周波数領域比較結果とに基づいて、ブロックされたマイクロフォンのシーケンス番号を決定し、ブロックされたマイクロフォンのシーケンス番号に基づいて、ブロックされていないマイクロフォンのシーケンス番号を決定するように構成される。
異常音処理モジュール512は、各マイクロフォンの収音データに対して周波数領域変換処理を行い、各マイクロフォンの収音データに対応する周波数領域情報を取得し、予めトレーニングされた異常音検出ネットワークと、各マイクロフォンの収音データに対応する周波数領域情報とに基づいて、各マイクロフォンの収音データに異常音データが存在するか否かを検出するように構成される。異常音データが除去される必要があるとき、異常音データに予め設定された音データが存在するか否かが、予めトレーニングされた音検出ネットワークを使用することによって検出され得る。予め設定された音データが存在しない場合、異常音データを除去する。予め設定された音データが存在する場合、異常音データの強度が低減される。
任意選択的に、マイクロフォンブロッキング検出モジュール511およびターゲット収音データ選択モジュール513を使用することによって複数のターゲット収音データが取得されるとき、マイクロフォンブロッキング検出モジュール511は、複数のマイクロフォンの収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得するように構成され、ターゲット収音データ選択モジュール513は、複数のマイクロフォンの収音データから、ブロックされていないマイクロフォンのシーケンス番号に対応する収音データを、複数のターゲット収音データとして選択するように構成される。
任意選択で、異常音処理モジュール512およびターゲット収音データ選択モジュール513を使用することによって複数のターゲット収音データが取得されるとき、異常音処理モジュール512は、各マイクロフォンの収音データに異常音データが存在するか否かを検出し、異常音データが存在する場合、複数のマイクロフォンの収音データ中の異常音データを除去して、複数のターゲット収音データを取得するように構成される。
マイクロフォンブロッキング検出モジュール511がS2011-AおよびS2011-Bを実行し得、異常音処理モジュール512がS2012-A、S2013-A、およびS2011-Cを実行し得、ターゲット収音データ選択モジュール513がS2014-A、S2012-B、およびS2012-Cを実行し得ることが理解され得る。
図19を参照されたい。ステレオ収音装置は、音色補正モジュール550と利得制御モジュール560とをさらに含み得る。
音色補正モジュール550は、ステレオビームの音色を補正するように構成される。
音色補正モジュールがS301を実行し得ることは理解され得る。
利得制御モジュール560は、ステレオビームの利得を調整するように構成される。
利得制御モジュール560は、カメラのズーム倍率に基づいてステレオビームの利得を調整し得る。
利得制御モジュール560がS401を実行し得ることは理解され得る。
本発明の実施形態は、コンピュータ可読記憶媒体をさらに提供する。コンピュータ可読記憶媒体はコンピュータプログラムを記憶し、コンピュータプログラムがプロセッサによって読み取られて実行されるとき、前述の実施形態で開示されたステレオ収音方法が実施される。
本発明の実施形態は、コンピュータプログラム製品をさらに提供する。コンピュータプログラム製品がコンピュータ上で実行されるとき、コンピュータは、前述の実施形態で開示されたステレオ収音方法を実行することが可能にされる。
本発明の実施形態は、チップシステムをさらに提供する。チップシステムは、プロセッサを含み、前述の実施形態で開示されたステレオ収音方法を実施するように構成されたメモリをさらに含み得る。チップシステムは、チップを含み得るか、またはチップおよび別の個別構成要素を含み得る。
結論として、本発明の実施形態において提供されるステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体によれば、端末デバイスの姿勢データおよびカメラデータに基づいてターゲットビームパラメータ群が決定されるので、端末デバイスが異なるビデオ記録シナリオにあるとき、異なる姿勢データおよびカメラデータを取得して、異なるターゲットビームパラメータ群を決定することができる。このように、ターゲットビームパラメータ群と複数のターゲット収音データとに基づいてステレオビームが形成されるとき、異なるターゲットビームパラメータ群を使用することによってステレオビームの方向が調整され得る。これにより、記録環境におけるノイズの影響が効果的に低減され、その結果、端末デバイスは、異なるビデオ記録シナリオにおいてより良好なステレオ記録効果を得ることができる。加えて、マイクロフォンブロッキング状態を検出し、様々な異常音データに対して除去処理を実行することによって、マイクロフォンがブロックされており、異常音データが存在する場合でも、ビデオが記録されるときに良好なステレオ記録効果および良好な記録ロバスト性を依然として保証することができる。
本出願で提供されるいくつかの実施形態では、開示された装置および方法は他の方法でも実装され得ることを理解されたい。説明された装置の実施形態は単なる例である。例えば、添付の図面におけるフローチャートおよびブロック図は、本発明の複数の実施形態による装置、方法、およびコンピュータプログラム製品によって実装され得るシステムアーキテクチャ、機能、および動作を示す。この点に関して、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表し得、モジュール、プログラムセグメント、またはコードの一部は、指定された論理機能を実装するための1つまたは複数の実行可能命令を含む。また、いくつかの代替的な実装形態では、ブロック内にマークされた機能は、添付の図面にマークされた順序とは異なる順序で行われ得ることに留意されたい。例えば、連続する2つのブロックは、実際には実質的に並行して実行され得るか、または機能によっては逆の順序で実行され得る。ブロック図および/またはフローチャート内の各ブロック、ならびにブロック図および/またはフローチャート内のブロックの組合せは、指定された機能またはアクションを実行する専用ハードウェアベースのシステムによって実装され得るか、または専用ハードウェアとコンピュータ命令との組合せによって実装され得ることにも留意されたい。
加えて、本発明の実施形態における機能モジュールは、互いに統合されて独立した部分を形成してもよく、またはモジュールの各々が単独で存在してもよく、または2つ以上のモジュールが統合されて独立した部分を形成してもよい。
機能がソフトウェア機能モジュールの形態で実装され、独立した製品として販売または使用されるとき、これらの機能は、コンピュータ可読記憶媒体に記憶され得る。そのような理解に基づいて、本質的に本発明の技術的解決策、または従来技術に寄与する部分、または技術的解決策のうちの一部は、ソフトウェア製品の形態で実装され得る。コンピュータソフトウェア製品は、記憶媒体に記憶され、本発明の実施形態で説明された方法のステップの全部または一部を実行するようにコンピュータデバイス(携帯電話、タブレットコンピュータなどであり得る)に命令するためのいくつかの命令を含む。記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、読取り専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク、または光ディスクなど、プログラムコードを記憶することができる任意の媒体を含む。
前述の説明は、本発明の実施形態にすぎず、本発明を限定することを意図していない。当業者は、本発明に対して様々な変更および変形を行うことができる。本発明の原理から逸脱することなく行われる任意の修正、等価な置換、または改善は、本発明の保護範囲内に入るものとする。

Claims (19)

  1. 端末デバイスに適用されるステレオ収音方法であって、前記端末デバイスは複数のマイクロフォンを備え、前記方法は、
    前記複数のマイクロフォンの収音データから複数のターゲット収音データを取得することと、
    前記端末デバイスの姿勢データおよびカメラデータを取得することと、
    前記姿勢データと前記カメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、前記複数のターゲット収音データに対応するターゲットビームパラメータ群を決定することと、ここで、前記ターゲットビームパラメータ群は、前記複数のターゲット収音データにそれぞれ対応するビームパラメータを含み、
    前記ターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいてステレオビームを形成することと
    を含む方法。
  2. 前記カメラデータはイネーブルデータを含み、前記イネーブルデータは有効なカメラを示し
    前記姿勢データと前記カメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、前記複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するステップは、前記姿勢データと前記イネーブルデータとに基づいて、前記予め記憶された複数のビームパラメータ群から、前記複数のターゲット収音データに対応する第1のターゲットビームパラメータ群を決定することを含み、
    前記ターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいてステレオビームを形成するステップは、前記第1のターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいて第1のステレオビームを形成することを含み、ここで、前記第1のステレオビームは、前記有効なカメラの撮影方向を指す、
    請求項1に記載の方法。
  3. 前記複数のビームパラメータ群は、第1のビームパラメータ群、第2のビームパラメータ群、第3のビームパラメータ群、および第4のビームパラメータ群を含み、前記第1のビームパラメータ群、前記第2のビームパラメータ群、前記第3のビームパラメータ群、および前記第4のビームパラメータ群内のビームパラメータは異なり、
    前記端末デバイスが横向きモードにあることを前記姿勢データが示し、背面カメラが有効であることを前記イネーブルデータが示す場合、前記第1のターゲットビームパラメータ群は前記第1のビームパラメータ群であり、
    前記端末デバイスが横向きモードにあることを前記姿勢データが示し、前面カメラが有効であることを前記イネーブルデータが示す場合、前記第1のターゲットビームパラメータ群は前記第2のビームパラメータ群であり、
    前記端末デバイスが縦向きモードにあることを前記姿勢データが示し、背面カメラが有効であることを前記イネーブルデータが示す場合、前記第1のターゲットビームパラメータ群は前記第3のビームパラメータ群であり、または
    前記端末デバイスが縦向きモードにあることを前記姿勢データが示し、前面カメラが有効であることを前記イネーブルデータが示す場合、前記第1のターゲットビームパラメータ群は前記第4のビームパラメータ群である、
    請求項2に記載の方法。
  4. 前記カメラデータはイネーブルデータとズームデータとを含み、前記ズームデータは、前記イネーブルデータによって示される有効なカメラのズーム倍率であり、
    前記姿勢データと前記カメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、前記複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するステップは、前記姿勢データと、前記イネーブルデータと、前記ズームデータとに基づいて、前記予め記憶された複数のビームパラメータ群から、前記複数のターゲット収音データに対応する第2のターゲットビームパラメータ群を決定することを含み、
    前記ターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいてステレオビームを形成するステップは、前記第2のターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいて、第2のステレオビームを形成することを含み、ここで、前記第2のステレオビームは、前記有効なカメラの撮影方向を指し、前記第2のステレオビームの幅は、前記ズーム倍率が大きくなるにつれて狭くなる、
    請求項1に記載の方法。
  5. 前記複数のマイクロフォンの収音データから複数のターゲット収音データを取得するステップは、
    前記複数のマイクロフォンの前記収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得することと、
    各マイクロフォンの前記収音データに異常音データが存在するか否かを検出することと、
    前記異常音データが存在する場合、前記複数のマイクロフォンの前記収音データ中の前記異常音データを除去して、初期ターゲット収音データを取得することと、
    前記初期ターゲット収音データから、前記ブロックされていないマイクロフォンの前記シーケンス番号に対応する収音データを、前記複数のターゲット収音データとして選択することと
    を含む、請求項1から4のいずれか一項に記載の方法。
  6. 前記複数のマイクロフォンの前記収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得するステップは、
    各マイクロフォンの前記収音データに対して時間領域フレーミング処理および周波数領域変換処理を行って、各マイクロフォンの前記収音データに対応する時間領域情報および周波数領域情報を取得することと、
    異なるマイクロフォンの収音データに対応する時間領域情報および周波数領域情報を別々に比較して、時間領域比較結果および周波数領域比較結果を取得することと、
    前記時間領域比較結果と前記周波数領域比較結果とに基づいて、ブロックされたマイクロフォンのシーケンス番号を決定することと、
    前記ブロックされたマイクロフォンの前記シーケンス番号に基づいて、前記ブロックされていないマイクロフォンの前記シーケンス番号を決定することと
    を含む、請求項5に記載の方法。
  7. 各マイクロフォンの前記収音データに異常音データが存在するか否かを検出するステップは、
    各マイクロフォンの前記収音データに対して周波数領域変換処理を行い、各マイクロフォンの前記収音データに対応する周波数領域情報を取得することと、
    予めトレーニングされた異常音検出ネットワークと、各マイクロフォンの前記収音データに対応する前記周波数領域情報とに基づいて、各マイクロフォンの前記収音データに前記異常音データが存在するか否かを検出することと
    を含む、請求項5に記載の方法。
  8. 前記複数のマイクロフォンの前記収音データ中の前記異常音データを除去するステップは、
    予めトレーニングされた音検出ネットワークを使用することによって、前記異常音データに予め設定された音データが存在するか否かを検出することと、
    前記予め設定された音データが存在しない場合、前記異常音データを除去すること、または
    前記予め設定された音データが存在する場合、前記異常音データの強度を低減すること
    を含む、請求項5に記載の方法。
  9. 前記複数のマイクロフォンの収音データから複数のターゲット収音データを取得するステップは、
    前記複数のマイクロフォンの前記収音データに基づいて、ブロックされていないマイクロフォンのシーケンス番号を取得することと、
    前記複数のマイクロフォンの前記収音データから、前記ブロックされていないマイクロフォンの前記シーケンス番号に対応する収音データを、前記複数のターゲット収音データとして選択することと
    を含む、請求項1から4のいずれか一項に記載の方法。
  10. 前記複数のマイクロフォンの収音データから複数のターゲット収音データを取得するステップは、
    各マイクロフォンの前記収音データに異常音データが存在するか否かを検出することと、
    前記異常音データが存在する場合、前記複数のマイクロフォンの前記収音データ中の前記異常音データを除去して、前記複数のターゲット収音データを取得することと
    を含む、請求項1から4のいずれか一項に記載の方法。
  11. 前記ターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいてステレオビームを形成するステップの後に、前記方法は、
    前記ステレオビームの音色を補正すること
    をさらに含む、請求項1から4のいずれか一項に記載の方法。
  12. 前記ターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいてステレオビームを形成するステップの後に、前記方法は、
    前記ステレオビームの利得を調整すること
    をさらに含む、請求項1から4のいずれか一項に記載の方法。
  13. 前記カメラデータは、前記有効なカメラの前記ズーム倍率を含み、前記ステレオビームの利得を調整するステップは、
    前記カメラの前記ズーム倍率に基づいて前記ステレオビームの前記利得を調整すること
    を含む、請求項12に記載の方法。
  14. 前記マイクロフォンの数が3~6であり、前記端末デバイスの画面の前面または前記端末デバイスの背面に少なくとも1つのマイクロフォンが配置される、請求項1から4のいずれか一項に記載の方法。
  15. 前記マイクロフォンの前記数が3であり、前記端末デバイスの上部および下部のぞれぞれに1つずつマイクロフォンが配置され、前記端末デバイスの前記画面の前記前面または前記端末デバイスの前記背面に1つのマイクロフォンが配置される、請求項14に記載の方法。
  16. 前記マイクロフォンの前記数が6であり、前記端末デバイスの上部および下部のぞれぞれに2つずつマイクロフォンが配置され、前記端末デバイスの前記画面の前面および前記端末デバイスの背面のそれぞれに1つずつマイクロフォンが配置される、請求項14に記載の方法。
  17. 端末デバイスに適用されるステレオ収音装置であって、前記端末デバイスは複数のマイクロフォンを備え、前記装置は、
    前記複数のマイクロフォンの収音データから複数のターゲット収音データを取得するように構成された収音データ取得モジュールと、
    前記端末デバイスの姿勢データおよびカメラデータを取得するように構成されたデバイスパラメータ取得モジュールと、
    前記姿勢データと前記カメラデータとに基づいて、予め記憶された複数のビームパラメータ群から、前記複数のターゲット収音データに対応するターゲットビームパラメータ群を決定するように構成されたビームパラメータ決定モジュールと、ここで、前記ターゲットビームパラメータ群は、前記複数のターゲット収音データにそれぞれ対応するビームパラメータを含み、
    前記ターゲットビームパラメータ群と前記複数のターゲット収音データとに基づいてステレオビームを形成するように構成されたビーム形成モジュールと
    を備える装置。
  18. コンピュータプログラムを記憶するメモリと、プロセッサとを備える端末デバイスであって、前記コンピュータプログラムが前記プロセッサによって読み取られて実行されるとき、請求項1から16のいずれか一項に記載の方法が実施される、端末デバイス。
  19. コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって読み取られて実行されるとき、請求項1から16のいずれか一項に記載の方法が実施される、コンピュータ可読記憶媒体。
JP2022543511A 2020-01-16 2021-01-12 ステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体 Pending JP2023511090A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010048851.9A CN113132863B (zh) 2020-01-16 2020-01-16 立体声拾音方法、装置、终端设备和计算机可读存储介质
CN202010048851.9 2020-01-16
PCT/CN2021/071156 WO2021143656A1 (zh) 2020-01-16 2021-01-12 立体声拾音方法、装置、终端设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
JP2023511090A true JP2023511090A (ja) 2023-03-16

Family

ID=76771795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022543511A Pending JP2023511090A (ja) 2020-01-16 2021-01-12 ステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体

Country Status (6)

Country Link
US (1) US20230048860A1 (ja)
EP (1) EP4075825A4 (ja)
JP (1) JP2023511090A (ja)
CN (3) CN113132863B (ja)
BR (1) BR112022013690A2 (ja)
WO (1) WO2021143656A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115942108A (zh) * 2021-08-12 2023-04-07 北京荣耀终端有限公司 一种视频处理方法及电子设备
CN115843054A (zh) * 2021-09-18 2023-03-24 维沃移动通信有限公司 参数选择方法、参数配置方法、终端及网络侧设备
CN115134499B (zh) * 2022-06-28 2024-02-02 世邦通信股份有限公司 一种音视频监控方法及系统
CN118276812A (zh) * 2022-09-02 2024-07-02 荣耀终端有限公司 一种界面交互方法及电子设备
CN116668892B (zh) * 2022-11-14 2024-04-12 荣耀终端有限公司 音频信号的处理方法、电子设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005124090A (ja) * 2003-10-20 2005-05-12 Sony Corp マイクロホン装置、再生装置及び撮像装置
EP2680615A1 (en) * 2012-06-25 2014-01-01 LG Electronics Inc. Mobile terminal and audio zooming method thereof
US20160050488A1 (en) * 2013-03-21 2016-02-18 Timo Matheja System and method for identifying suboptimal microphone performance
US20160189728A1 (en) * 2013-09-11 2016-06-30 Huawei Technologies Co., Ltd. Voice Signal Processing Method and Apparatus
JP2016133304A (ja) * 2015-01-15 2016-07-25 本田技研工業株式会社 音源定位装置、音響処理システム、及び音源定位装置の制御方法
JP6312069B1 (ja) * 2017-04-20 2018-04-18 株式会社Special Medico 通話システムにおける個人情報管理方法、サーバ及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050062266A (ko) * 2003-12-20 2005-06-23 엘지전자 주식회사 이동 통신 단말기의 캠코더용 외부마이크 장치
CN102780947B (zh) * 2011-05-13 2015-12-16 宏碁股份有限公司 降低手持式电子装置录音噪音的系统及其方法
KR102060712B1 (ko) * 2013-01-31 2020-02-11 엘지전자 주식회사 이동 단말기, 및 그 동작방법
GB2583028B (en) * 2013-09-12 2021-05-26 Cirrus Logic Int Semiconductor Ltd Multi-channel microphone mapping
US9338575B2 (en) * 2014-02-19 2016-05-10 Echostar Technologies L.L.C. Image steered microphone array
CN104244137B (zh) * 2014-09-30 2017-11-17 广东欧珀移动通信有限公司 一种录像过程中提升远景录音效果的方法及系统
US9716944B2 (en) * 2015-03-30 2017-07-25 Microsoft Technology Licensing, Llc Adjustable audio beamforming
US10122914B2 (en) * 2015-04-17 2018-11-06 mPerpetuo, Inc. Method of controlling a camera using a touch slider
CN106486147A (zh) * 2015-08-26 2017-03-08 华为终端(东莞)有限公司 指向性录音方法、装置及录音设备
CN111724823B (zh) * 2016-03-29 2021-11-16 联想(北京)有限公司 一种信息处理方法及装置
CN107026934B (zh) * 2016-10-27 2019-09-27 华为技术有限公司 一种声源定位方法和装置
WO2019130908A1 (ja) * 2017-12-26 2019-07-04 キヤノン株式会社 撮像装置及びその制御方法及び記録媒体
CN108200515B (zh) * 2017-12-29 2021-01-22 苏州科达科技股份有限公司 多波束会议拾音系统及方法
CN108831474B (zh) * 2018-05-04 2021-05-25 广东美的制冷设备有限公司 语音识别设备及其语音信号捕获方法、装置和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005124090A (ja) * 2003-10-20 2005-05-12 Sony Corp マイクロホン装置、再生装置及び撮像装置
EP2680615A1 (en) * 2012-06-25 2014-01-01 LG Electronics Inc. Mobile terminal and audio zooming method thereof
US20160050488A1 (en) * 2013-03-21 2016-02-18 Timo Matheja System and method for identifying suboptimal microphone performance
US20160189728A1 (en) * 2013-09-11 2016-06-30 Huawei Technologies Co., Ltd. Voice Signal Processing Method and Apparatus
JP2016133304A (ja) * 2015-01-15 2016-07-25 本田技研工業株式会社 音源定位装置、音響処理システム、及び音源定位装置の制御方法
JP6312069B1 (ja) * 2017-04-20 2018-04-18 株式会社Special Medico 通話システムにおける個人情報管理方法、サーバ及びプログラム

Also Published As

Publication number Publication date
CN113132863A (zh) 2021-07-16
WO2021143656A1 (zh) 2021-07-22
CN113132863B (zh) 2022-05-24
BR112022013690A2 (pt) 2022-09-06
CN117528349A (zh) 2024-02-06
CN114846816A (zh) 2022-08-02
US20230048860A1 (en) 2023-02-16
EP4075825A4 (en) 2023-05-24
CN114846816B (zh) 2023-10-20
EP4075825A1 (en) 2022-10-19

Similar Documents

Publication Publication Date Title
CN111050269B (zh) 音频处理方法和电子设备
JP2023511090A (ja) ステレオ収音方法および装置、端末デバイス、ならびにコンピュータ可読記憶媒体
US11956607B2 (en) Method and apparatus for improving sound quality of speaker
CN113496708B (zh) 拾音方法、装置和电子设备
CN114697812B (zh) 声音采集方法、电子设备及系统
WO2020015144A1 (zh) 一种拍照方法及电子设备
CN113744750B (zh) 一种音频处理方法及电子设备
CN113890936A (zh) 音量调整方法、装置及存储介质
CN113393856B (zh) 拾音方法、装置和电子设备
US11978384B2 (en) Display method for electronic device and electronic device
CN115514844A (zh) 一种音量调节的方法,电子设备和系统
US20230162718A1 (en) Echo filtering method, electronic device, and computer-readable storage medium
CN113129916A (zh) 一种音频采集方法、系统及相关装置
US20230370718A1 (en) Shooting Method and Electronic Device
WO2022142795A1 (zh) 一种设备的识别方法及设备
US11388281B2 (en) Adaptive method and apparatus for intelligent terminal, and terminal
CN115706755A (zh) 回声消除方法、电子设备及存储介质
CN115395827A (zh) 驱动波形的调整方法、装置、设备及可读存储介质
CN113436635A (zh) 分布式麦克风阵列的自校准方法、装置和电子设备
CN115297269B (zh) 曝光参数的确定方法及电子设备
WO2022105670A1 (zh) 一种显示方法及终端
CN115712368A (zh) 音量显示方法、电子设备及存储介质
CN115706680A (zh) 人声信号响应方法、控制设备及计算机可读存储介质
CN116069156A (zh) 拍摄参数调节方法、电子设备及存储介质
CN115378303A (zh) 驱动波形的调整方法及装置、电子设备、可读存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220726

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220726

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240507

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240625