JP2023137650A - 音信号処理方法及び音信号処理装置 - Google Patents

音信号処理方法及び音信号処理装置 Download PDF

Info

Publication number
JP2023137650A
JP2023137650A JP2022043931A JP2022043931A JP2023137650A JP 2023137650 A JP2023137650 A JP 2023137650A JP 2022043931 A JP2022043931 A JP 2022043931A JP 2022043931 A JP2022043931 A JP 2022043931A JP 2023137650 A JP2023137650 A JP 2023137650A
Authority
JP
Japan
Prior art keywords
sound signal
signal processing
sound
processing device
room
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022043931A
Other languages
English (en)
Inventor
訓史 鵜飼
Norifumi Ukai
雅司 鈴木
Masashi Suzuki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2022043931A priority Critical patent/JP2023137650A/ja
Priority to US18/179,484 priority patent/US20230300553A1/en
Priority to CN202310214979.1A priority patent/CN116782089A/zh
Priority to EP23161172.4A priority patent/EP4246514A1/en
Publication of JP2023137650A publication Critical patent/JP2023137650A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 状況に応じて適切な音処理を行うことが可能な音信号処理方法を提供する。【解決手段】 一実施形態に係る映像信号処理方法は、音信号を受け付け、第1画像を取得し、取得した第1画像に基づいて部屋情報を推定し、推定した部屋情報に応じて音響パラメータを設定し、設定された音響パラメータに基づく音処理を音信号に対して行い、音処理が行われた音信号を出力する。【選択図】 図3

Description

この発明に係る一実施形態は、音信号の処理に係る音信号処理方法及び音信号処理装置に関する。
特許文献1には、マイクロホンを備えるゲイン自動装置が記載されている。ゲイン自動装置は、マイクロホンで収音した使用者の音声のレベル及び暗騒音のレベルを検出する。ゲイン自動装置は、使用者の音声のレベル及び暗騒音のレベルに基づいてゲインを設定する。
特許文献2には、音声信号を抑圧するノイズゲートが記載されている。ノイズゲートは、入力された音声信号の信号レベルを算出する。ノイズゲートは、信号レベルが閾値未満の音声信号のゲインを低下させる。
特開2011-151634号公報 特開2010-122617号公報
特許文献1に記載のゲイン自動装置(以下、装置Xと称する)及び特許文献2に記載のノイズゲート(以下、装置Yと称する)のそれぞれは、音信号に基づいてゲインの自動調整を実行する。従って、装置X及び装置Yは、使用時の状況に応じた適切な音処理が実行されるとは限らない。例えば、会議室等の閉じた空間において、会議室内にいる全ての人は会議の参加者である可能性が高い。従って、装置X及びYは、話者の小さな声でも可能な限り収音出来るように、AGC(Auto Gain Control)により話者の音声を大きくすることが好ましい。加えて、会議室内にいる全ての人は、物音を立てる可能性が低いと考えられるため、装置X及びYが、AGCによって音量の増加したノイズを収音する可能性も低い。一方、例えば、オープンスペースであれば、異なる目的を持つ複数の人が空間を共有している。このため、装置X及び装置Yの使用者以外の人がノイズを出す可能性が高い。従って、装置X及び装置Yは、ノイズを抑制することが好ましい。しかし、オープンスペースにおいて、装置X及び装置Yが、仮に閉じた空間と同じようにAGCを実行した場合、却ってノイズを増強してしまう。
本発明の一実施形態は、状況に応じて適切な音処理を行うことが可能な音信号処理方法を提供することを目的とする。
本発明の一実施形態に係る音信号処理方法は、
音信号を受け付け、
第1画像を取得し、
取得した前記第1画像に基づいて部屋情報を推定し、
推定した前記部屋情報に応じて音響パラメータを設定し、
前記設定された音響パラメータに基づく音処理を前記音信号に対して行い、
前記音処理が行われた前記音信号を出力する。
この発明の一実施形態に係る音信号処理方法によれば、状況に応じて適切な音処理を行うことが可能となる。
図1は、音信号処理装置1と、音信号処理装置1とは異なる機器と、の接続の一例を示すブロック図である。 図2は、プロセッサ17の機能的構成を示すブロック図である。 図3は、音信号処理装置1の処理の一例を示すフローチャートである。 図4は、閉じた空間を示す第1画像M1の一例である。 図5は、オープンスペースを示す第1画像M1の一例である。 図6は、部屋情報RIと音響パラメータSPとの対応関係を示す図である。 図7は、音信号処理装置1bのプロセッサ17bの機能的構成を示すブロック図である。 図8は、音信号処理装置1cにおける音響パラメータSPの設定の一例を示すフローチャートである。 図9は、音信号処理装置1dにおけるゲイン調整を示す図である。 図10は、音信号処理装置1eのプロセッサ17eの機能的構成を示すブロック図である。 図11は、音信号処理装置1fのプロセッサ17fの機能的構成を示すブロック図である。 図12は、音信号処理装置1hのプロセッサ17hの機能的構成を示すブロック図である。 図13は、音信号処理装置1hにおける音響パラメータSPの設定の一例を示すフローチャートである。 図14は、音信号処理装置1hにおける画像処理の一例を示す図である。
(第1実施形態)
以下、第1実施形態に係る音信号処理方法について図を参照して説明する。図1は、音信号処理装置1と、音信号処理装置1とは異なる機器(処理装置2)と、の接続の一例を示すブロック図である。
音信号処理装置1は、遠隔地のPC等の処理装置2と接続して遠隔会話を行うための装置である(図1参照)。音信号処理装置1は、例えば、PC等の情報処理装置である。音信号処理装置1は、第1実施形態に係る音信号処理方法を実行する。
音信号処理装置1は、図1に示すように、オーディオインタフェース11と、汎用インタフェース12と、通信インタフェース13と、ユーザインタフェース14と、フラッシュメモリ15と、RAM(Random Aceess Memory)16と、プロセッサ17と、を備えている。プロセッサ17は、例えば、CPU(Central Processing Unit)等である。
オーディオインタフェース11は、信号線を介して、マイク4、又は、スピーカ5等のオーディオ機器と通信を行う(図1参照)。マイク4は、音信号処理装置1の使用者(以下、使用者Uと称する)の音声を取得する。マイク4は、取得した音声を音信号としてオーディオインタフェース11へ出力する。オーディオインタフェース11は、例えば、処理装置2から受信したデジタルの音信号をアナログの音信号に変換する。スピーカ5は、オーディオインタフェース11からアナログの音信号を受信し、受信したアナログの音信号に基づいた音を出力する。
汎用インタフェース12は、例えば、USB(Universal Serial Bus)等の規格に基づくインタフェースである。汎用インタフェース12は、図1に示すように、カメラ6に接続する。カメラ6は、カメラ6の周囲(使用者Uの周囲)を撮影することによって第1画像M1を取得する。カメラ6は、取得した第1画像M1を画像データとして汎用インタフェース12へ出力する。
通信インタフェース13は、ネットワークインタフェース等である。通信インタフェース13は、通信回線3を介して処理装置2と通信を行う。通信回線3は、インターネット、又は、LAN(Local Area Network)等である。通信インタフェース13と、処理装置2と、は無線又は有線によって通信を行う。
ユーザインタフェース14は、使用者Uから、音信号処理装置1に対する操作を受け付ける。ユーザインタフェース14は、例えばキーボード、マウス、又は、タッチパネル等である。
フラッシュメモリ15は、種々のプログラムを記憶する。種々のプログラムとは、例えば、音信号処理装置1を動作させるプログラム、又は、該音信号処理方法に係る音処理を実行するためのアプリケーションプログラム等である。なお、フラッシュメモリ15が、必ずしも、種々のプログラムを記憶しなくてよい。種々のプログラムは、例えば、サーバ等の他装置に記憶されていてもよい。この場合、音信号処理装置1は、サーバ等の他装置から種々のプログラムを受信する。
プロセッサ17は、フラッシュメモリ15に記憶されたプログラムをRAM16に読み出すことによって各種の動作を実行する。プロセッサ17は、音信号処理方法に係る信号処理(以下、音処理Pと称する)、又は、音信号処理装置1と処理装置2との通信に関連する処理等を行う。
プロセッサ17は、オーディオインタフェース11を介してマイク4から音信号を受け付ける。プロセッサ17は、受け付けた音信号に音処理Pを行う。プロセッサ17は、音処理Pを行った後の音信号を、通信インタフェース13を介して処理装置2へ送信する。プロセッサ17は、通信インタフェース13を介して処理装置2から音信号を受信する。プロセッサ17は、音信号を、オーディオインタフェース11を介してスピーカ5に送信する。また、プロセッサ17は、汎用インタフェース12を介してカメラ6から第1画像M1を受信する。
処理装置2は、スピーカ(図示せず)を備えている。処理装置2のスピーカは、音信号処理装置1から受信した音信号に基づいた音を出力する。処理装置2の使用者(以下、対話者と称する)は、処理装置2のスピーカから出力された音を聞く。処理装置2は、マイク(図示せず)を備えている。処理装置2は、処理装置2のマイクで取得した音信号を、通信インタフェース13を介して音信号処理装置1に送信する。
以下、プロセッサ17における音処理Pについて図を参照して詳細に説明する。図2は、プロセッサ17の機能的構成を示すブロック図である。図3は、音信号処理装置1の処理の一例を示すフローチャートである。図4は、閉じた空間を示す第1画像M1の一例である。図5は、オープンスペースを示す第1画像M1の一例である。図6は、部屋情報RIと音響パラメータSPとの対応関係を示す図である。
プロセッサ17は、図2に示すように、受付部170と、取得部171と、推定部172と、設定部173と、信号処理部174と、出力部175と、を機能的に含んでいる。受付部170と、取得部171と、推定部172と、設定部173と、信号処理部174と、出力部175とが、音処理Pを実行する。
プロセッサ17は、例えば、音処理Pに係るアプリケーションプログラムを実行したときに、音処理Pを開始する(図3:START)。
開始後、取得部171は、画像(以下、第1画像M1と称する)を取得する(図3:ステップS11)。取得部171は、カメラ6から第1画像M1を取得し、推定部172へ出力する。
次に、推定部172は、第1画像M1に基づいて部屋情報RIを推定する(図3:ステップS12)。部屋情報RIとは、例えば、使用者Uのいる空間を示す情報である。本実施形態において、使用者Uのいる空間を示す情報とは、例えば、閉じた空間(開放されていない空間)か、又は、オープンスペース(開放されている空間)か、を示す情報である。換言すれば、本実施形態において、部屋情報RIは、オープンスペース、又は、閉じた空間であることを示す情報を含んでいる。閉じた空間とは、例えば、会議室等の壁や天井等で仕切られた室内空間である。オープンスペースとは、例えば、多目的スペース、又は、屋外等の壁や天井等で仕切られていない開放された空間である。
推定部172は、第1画像M1を解析処理することによって部屋情報RIを推定する。解析処理とは、例えば、ニューラルネットワーク等(例えば、DNN(Deep Newral Network)等)の人工知能による解析処理である。推定部172は、入力画像と部屋情報RIとの関係を機械学習により学習した学習済モデルを用いて部屋情報RIを推定する。具体的には、推定部172は、第1画像M1の特徴量を抽出し、学習済モデルへ出力する。学習済モデルは、第1画像M1に含まれるオブジェクトを、例えば、第1画像M1に含まれる特徴量等に基づいて判定する。特徴量とは、例えば、第1画像M1内のエッジ、又は、テクスチャ等である。学習済モデルは、使用者Uのいる空間が閉じた空間か、又は、オープンスペースか、を第1画像M1に含まれるオブジェクトに基づいて判定する。
この場合、学習済モデルは、第1画像M1に閉じた空間特有のオブジェクトが含まれていると判定したときに、「部屋情報RI:閉じた空間」と判定する。例えば、カメラ6が閉じた空間を撮影した場合、第1画像M1には、壁と天井との境界B1が撮像されている可能性が高い(図4参照)。従って、学習済モデルは、例えば、第1画像M1に含まれているオブジェクトとして境界B1を認識した場合、使用者Uのいる空間を閉じた空間と判定する。一方、学習済モデルは、第1画像M1に閉じた空間特有のオブジェクトが含まれていないと判定したときに、「部屋情報RI:オープンスペース」と判定する。
なお、図4に示す例において、カメラ6が閉じた空間を撮影した場合、第1画像M1には、ドアDが撮像されている可能性が高い。従って、学習済モデルは、例えば、第1画像M1に含まれているオブジェクトとしてドアDを認識した場合、「部屋情報RI:閉じた空間」と判定してもよい。
なお、音信号処理装置1が、部屋情報RIを推定する方法は、ニューラルネットワーク等の人工知能を用いる方法のみに限定されない。音信号処理装置1は、例えば、パターンマッチングによって部屋情報RIを推定してもよい。この場合、音信号処理装置1には、テンプレートデータとして、閉じた空間を示す画像、又は、オープンスペースを示す画像が予め記録されている。推定部172は、第1画像M1と、テンプレートデータとの類似度を計算し、類似度に基づいて部屋情報RIを推定する。
ステップS12の後、設定部173は、推定した部屋情報RIに応じて音響パラメータSPを設定する(図3:ステップS13)。本実施形態における音響パラメータSPは、AGC、又は、ノイズリダクションに関するパラメータである。本実施形態では、設定部173は、閉じた空間に適する音響パラメータSPを設定する、又は、オープンスペースに適する音響パラメータSPを設定する。例えば、設定部173は、推定部172で「部屋情報RI:閉じた空間」と推定した場合、音響パラメータSPとしてAGCをオンするパラメータ、及び、ノイズリダクションをオフするパラメータを設定する(図6参照)。すなわち、設定部173は、推定部172で「部屋情報RI:閉じた空間」と推定した場合、AGCをオンにし、且つ、ノイズリダクションをオフにする。一方、設定部173は、推定部172で「部屋情報RI:オープンスペース」と推定した場合、AGCをオフにし、且つ、ノイズリダクションをオンにする(図6参照)。上記に示すように、本実施形態において、設定部173は、オープンスペース、又は、閉じた空間であることを示す情報に基づいて音響パラメータSPを設定する。
本実施形態におけるノイズリダクションは、例えば、複数のマイクの出力信号から1つの出力信号を出力するマルチチャネル信号処理である。この場合、マイク4は、複数のマイクロホンを有しているマイクロホンアレーである。
なお、ノイズリダクションは、上記に示した例のみに限定されない。ノイズリダクションは、例えば、マイク4の信号レベルを計算して、信号レベルが一定レベル以下の場合であったときのみ、マイク4の信号レベルを減衰させるノイズゲートであってもよい。または、ノイズリダクションは、マイク4の所定期間(長時間)における平均パワーを周波数ごとに計算し、ウィーナーフィルタなどのフィルタ処理によってノイズを取り除く処理であってもよい。
次に、受付部170は、音信号を受け付ける(図3:ステップS14)。受付部170は、図2に示すように、マイク4から音信号SS1を取得する。
次に、信号処理部174は、音響パラメータSPに基づく音処理を音信号SS1に対して行う(図3:ステップS15)。例えば、設定部173は、AGCがオンであれば話者の音声のレベルが一定になる様に音信号SS1のゲインを自動で増加乃至減少させる処理(ゲイン調整)を行う。換言すれば、本実施形態において、音処理Pは、ゲイン調整を含んでいる。一方、設定部173でAGCがオフであれば信号処理部174は、音信号SS1に対してAGCを行わない。また、設定部173はノイズリダクションがオンであれば音信号SS1のノイズを抑圧する。換言すれば、本実施形態において、音処理Pは、ノイズリダクションを含んでいる。一方、信号処理部174は、設定部173でノイズリダクションがオフであれば音信号SS1に対してノイズリダクションを行わない。以下、音処理が行われた後の音信号を音信号SS2と称する。
次に、出力部175は、音信号SS2を出力する(図3:ステップS16)。具体的には、出力部175は、音信号SS2を通信インタフェース13へ出力する。通信インタフェース13は、音信号SS2を、通信回線3を介して処理装置2へ送信する。処理装置2のスピーカは、音信号SS2に基づいた音を放音する。
ステップS16の後、プロセッサ17は、例えば、音処理Pに係るアプリケーションプログラムの終了命令の有無を判定する(図3:ステップS17)。プロセッサ17は、「終了命令:無し」と判定した場合(図3:ステップS17 No)、ステップS14からステップS16の処理を再び行う。これにより、プロセッサ17は、最初に設定した音響パラメータSPに基づいて音処理を繰り返し行うことが出来る。
ステップS17において、プロセッサ17は、「終了命令:有り」と判定した場合(図3:ステップS17 Yes)、一連の音処理Pの実行を完了する(図3:END)。なお、プロセッサ17は、音処理Pに係るアプリケーションプログラムの終了命令の有無の判定以外の方法によって、音処理Pの実行を完了するか否かを判定してもよい。
なお、図3に示した処理の順序は一例であって、プロセッサ17は、必ずしも図3に示した順序で処理を実行しなくてよい。プロセッサ17は、ステップS15を実行する前に、ステップS13の処理とステップS14の処理とを実行していれば、どの様な順序で処理を実行してもよい。例えば、プロセッサ17は、ステップS11からステップS13までの処理(音響パラメータSPの設定処理)と、ステップS14の処理(音信号SS1を受け付ける処理)とを並行して行ってもよい。
(第1実施形態の効果)
音信号処理装置1は、状況に応じて適切な音処理を行うことが出来る。具体的には、音信号処理装置1は、使用者Uのいる空間の種類(会議室等の閉じた空間か、オープンスペースか)を自動で推定する。そして、音信号処理装置1は、推定した結果に基づいて音響パラメータSPを自動で設定する。例えば、音信号処理装置1は、「部屋情報RI:閉じた空間」と推定した場合、自動でAGCをオンにし、且つ、自動でノイズリダクションをオフにする。音信号処理装置1は、AGCをオンにすることによって、マイク4から離れた位置にいる話者の音声もマイク4に近い位置にいる話者の音声も一定のレベルにする。また、音信号処理装置1は、ノイズリダクションをオフにすることで、マイク4から離れた位置にいる使用者Uの声をノイズとして除去しない。従って、音信号処理装置1は、マイク4から遠い位置に話者が存在する可能性のある閉じた空間に適するように、音響パラメータSPを自動で設定する。
音信号処理装置1は、ノイズリダクションをオンにすることでマイク4から遠い音(例えば、定常雑音又はマイク4から遠い人の声)を除去する。また、音信号処理装置1は、AGCをオフにすることで、マイク4から遠い雑音の音量を増加させない。結果、音信号処理装置1は、マイク4に近い位置にのみ話者が存在するオープンスペースに適するように、音響パラメータSPを自動で設定する。上記に示す様に、音信号処理装置1は、状況に応じて(使用者Uのいる空間に応じて)適切に音処理を行うことが出来る。
音信号処理装置1は、使用者Uのいる空間の種類に基づいて自動で音響パラメータSPを設定する。従って、使用者Uは、音響パラメータSPを手動で設定しなくてよい。結果、使用者Uによる音響パラメータSPの設定ミス等が、発生しない。結果、使用者Uと対話者とは、適切な音処理が行われた音に基づいて会話を行うことが出来る。
(変形例1)
以下、変形例1に係る音信号処理装置1a(図示せず)について説明する。音信号処理装置1aの構成は、図2に示す音信号処理装置1の構成と同じである。音信号処理装置1aは、マイク4から受信した音信号に対して音処理Pを行う代わりに、処理装置2から受信した音信号に対して音処理Pを行う。例えば、音信号処理装置1aは、「部屋情報RI:閉じた空間」と推定した場合、ノイズの少ない環境に合わせて処理装置2から受信した音信号のゲインを減少させるように音響パラメータSPを設定する。これにより、音信号処理装置1aは、遠方の対話者の声を、聴取環境に合わせた適切な音量で出力する。一方、音信号処理装置1aは、例えば、「部屋情報RI:オープンスペース」と推定した場合、ノイズの多い環境に合わせて処理装置2から受信した音信号のゲインを増加させるように音響パラメータSPを設定する。この場合も、音信号処理装置1aは、遠方の対話者の声を、聴取環境に合わせた適切な音量で出力する。音信号処理装置1aは、スピーカ5に出力する音信号に対して状況に応じて適切な音処理を行うことが出来る。
なお、音信号処理装置1aは、マイク4から受信した音信号SS1及び処理装置2から受信した音信号の両方に、音処理Pを行ってもよい。
(変形例2)
以下、変形例2に係る音信号処理装置1bについて図を参照して説明する。図7は、音信号処理装置1bのプロセッサ17bの機能的構成を示すブロック図である。
音信号処理装置1bの備えるプロセッサ17bは、設定部173の代わりに設定部173bを機能的に含んでいる(図7参照)。設定部173bは、設定部173の処理に加えて、音処理Pが行われた音信号SS2に基づいて音響パラメータSPを設定する処理を行う。例えば、設定部173bは、音処理が行われた後の音信号SS2に含まれている雑音(定常ノイズ)の信号レベルを測定する。設定部173bは、所定の閾値以上の信号レベルの雑音を検知した場合、AGCをオフにし、且つ、ノイズリダクションをオンにする。このように、設定部173bは、仮に推定部172でオープンスペースを閉じた空間と誤って推定したときであっても、オープンスペースに適した音響制御(AGCオフ及びノイズリダクションオン)を行う。対話者は、音信号処理装置1bによって、音質が改善された状態で使用者Uと会話可能である。
(変形例3)
以下、変形例3に係る音信号処理装置1cについて図を参照しながら説明する。図8は、音信号処理装置1cにおける音響パラメータSPの設定の一例を示すフローチャートである。音信号処理装置1cの構成は、図2に記載の音信号処理装置1の構成と同じである。
音信号処理装置1が、画像の取得と、部屋情報RIの推定と、音響パラメータSPの設定と、をそれぞれ1回ずつ実行するのに対して、音信号処理装置1cは、画像の取得と、部屋情報RIの推定と、音響パラメータSPの設定と、をそれぞれ2回以上実行する。以下、詳細に説明する。
音信号処理装置1cは、ステップS14の後、カメラ6からn番目の画像(第n画像Mnと称する。)を取得する(図8:ステップS21)。なお、nは1以上の任意の数字であり、第n画像Mnを取得するとは、S14以後の処理がn回目であること意味する。換言すれば、取得部171は、第1画像M1を取得したタイミングと異なるタイミングで第2画像M2を取得する。
取得部171で第2画像M2を取得した後、音信号処理装置1cの推定部172は、取得した第2画像M2から部屋情報RIを推定する(図8:ステップS22)。音信号処理装置1cにおける部屋情報RIの推定方法は、音信号処理装置1における部屋情報RIの推定方法と同じである。
推定部172で第2画像M2に基づいて部屋情報RIを推定した後、音信号処理装置1cの設定部173は、第2画像M2から推定した部屋情報RIに基づいて音響パラメータSPを変更する(図8:ステップS23)。この場合、音信号処理装置1cの信号処理部174は、変更した音響パラメータSPに基づく音処理を音信号SS1に対して行い(図8:ステップS15)、且つ、音信号処理装置1cの出力部175は、変更した音響パラメータSPに基づく音処理が行われた音信号SS2を、処理装置2へ出力する(図8:ステップS16)。
ステップS16の後、音信号処理装置1cのプロセッサ17は、ステップS17を実行する。プロセッサ17は、ステップS17において「終了命令:無し」と判定した場合(図8:ステップS17 No)、ステップS14、S21、S22、S23、S15、S16の処理を再び実行する。
ステップS17において、プロセッサ17は、「終了命令:有り」と判定した場合(図8:ステップS17 Yes)、一連の音処理Pの実行を完了する(図8:END)。
(変形例3の効果)
音信号処理装置1が、音処理Pに係るアプリケーションプログラムの開始後に、音響パラメータSPの設定を1回実行するのに対して、音信号処理装置1cは、音響パラメータSPの設定を2回以上実行する。従って、音信号処理装置1cは、使用者Uのいる空間の変化に伴って、音響パラメータSPを変化させることが出来る。例えば、使用者Uによって部屋のパーティション等が外される場合がある。この場合、使用者Uのいる空間は、閉じた空間からオープンスペースに変化する。このとき、音信号処理装置1cは、音響パラメータSPを自動で変更する。従って、音信号処理装置1cは、状況の変化に応じて適切に設定された音響パラメータSPで音処理を行うことが出来る。
(変形例4)
以下、変形例4に係る音信号処理装置1dについて図を参照しながら説明する。図9は、音信号処理装置1dにおけるゲイン調整を示す図である。音信号処理装置1dの構成は、図2に示す音信号処理装置1の構成と同じである。
音信号処理装置1dの信号処理部174は、音響パラメータSPの変更において、所定時間Ptの間に徐々に音響パラメータSPを変更する。本変形例において、音信号処理装置1dは、所定時間Ptの間に徐々に、AGCオフからAGCオンへ変更をする。具体的には、音信号処理装置1dは、AGCをオンにしたときに、音信号SS1のゲインの目標値TVを決定する。音信号処理装置1dは、目標値TVを音響パラメータSPとして設定する。このとき、目標値TVが、音信号SS1の現在値CDと異なる場合がある。この場合、音信号SS1のゲインの値を、現在値CDから目標値TVへ所定時間Ptをかけて緩やかに変更する。本変形例において、例えば、音信号処理装置1dのフラッシュメモリ15が、所定時間Ptを予め記録している。
図9に示す例では、フラッシュメモリ15は、所定時間Ptを6秒と記録している。この場合、音信号処理装置1dは、6秒の間に音信号SS1のゲインの値を徐々に変更する。例えば、図9では、音信号SS1のゲインの現在値は20dBであり、音信号SS1のゲインの目標値TVは5dBである。この場合、音信号処理装置1dは、音信号SS1のゲインの値を、20dBから5dBに、6秒の間に変更する。これにより、対話者は、処理装置2のスピーカから出力された音に違和感を覚えることなく使用者Uと会話をすることが出来る。
(変形例5)
以下、変形例5に係る音信号処理装置1eについて図を参照して説明する。図10は、音信号処理装置1eのプロセッサ17eの機能的構成を示すブロック図である。
音信号処理装置1eに備わるプロセッサ17eは、AGC又はノイズリダクションと異なる音処理である残響除去、又は、残響付加を実行する。従って、本変形例における音響パラメータSPは、残響除去に関するパラメータ、又は、残響付加に関するパラメータである。プロセッサ17eは、設定部173の代わりに設定部173eを機能的に含んでいる(図10参照)。設定部173eは、残響除去をオン/オフ、又は、残響付加をオン/オフする。換言すれば、本変形例において、音処理Pは、残響除去、又は、残響付加の少なくとも1つを含んでいる。
より詳細には、設定部173eは、推定部172で「部屋情報RI:閉じた空間」と推定した場合、残響除去をオンにする。この場合、音信号処理装置1eは、マイク4で取得した音に係る音信号SS1に対して残響除去を行う。音信号処理装置1eは、残響除去を行った後の音信号SS2を処理装置2へ送信する。対話者は、音信号処理装置1eによって残響除去された音を用いて、使用者Uと会話を行うことが出来る。従って、対話者は、使用者Uの直接音のみを聞くことが出来るため、使用者Uの声を聞きやすくなる。
一方、設定部173eは、推定部172で「部屋情報RI:オープンスペース」と推定した場合、残響付加をオンにする。この場合、音信号処理装置1eは、処理装置2から受信した音信号に対して残響付加を行う。スピーカ5は、残響付加を行った音信号SS2に基づいた音を発する。音信号への残響付加によって、使用者Uは、臨場感のある(例えば、使用者Uが、会議室内で対話者と会話をしている様な)会話を対話者と行うことが可能である。上記に示すように、音信号処理装置1eは、残響付加又は残響除去を、状況に応じて適切に実行することが出来る。
(変形例6)
以下、変形例6に係る音信号処理装置1fについて図を参照して説明する。図11は、音信号処理装置1fのプロセッサ17fの機能的構成を示すブロック図である。なお、音信号処理装置1fにおいて、音信号処理装置1と同じ構成については、同じ符号を付して説明を省略する。
音信号処理装置1fに備わるプロセッサ17fは、信号処理部174の代わりに信号処理部174fを機能的に含んでいる(図11参照)。信号処理部174fは、雑音除去用の学習済モデルMM1を用いて音信号SS1の雑音を除去する。学習済モデルMM1は、ある入力の音信号(以下、第1音信号と称する)を、雑音を除去した音信号(以下、第2音信号と称する)に変換する処理を学習済である。換言すれば、学習済モデルMM1は、第1音信号と、第1音信号から雑音を除去した第2音信号との関係を機械学習している。信号処理部174fは、学習済モデルMM1を用いて音処理を行う。具体的には、信号処理部174fは、音信号SS1を、音信号SS1から雑音を除去した音信号SS3に変換する音処理を行う。信号処理部174fは、出力部175を介して、音信号SS3を処理装置2へ送信する。
なお、音信号処理装置1fが、必ずしも、学習済モデルMM1を含んでいなくてもよい。サーバ等の他装置が学習済モデルMM1を含んでいてもよい。この場合、音信号処理装置1fは、学習済モデルMM1を含んでいる他装置に音信号SS1を送信することによって、音信号SS1の雑音を除去する。
(変形例7)
以下、変形例7に係る音信号処理装置1g(図示せず)について図4及び図5を準用して説明する。音信号処理装置1gの構成は、図2に示す音信号処理装置1の構成と同じである。音信号処理装置1gは、オープンスペース又は閉じた空間であることを示す情報以外の部屋情報RIIに基づいて音響パラメータSPを設定する。
部屋情報RIIは、具体的には、部屋自体を示す情報、又は、部屋の使用状況を示す情報を含んでいる。部屋自体を示す情報とは、例えば、部屋の大きさ、部屋の形状、又は、部屋の材質、等である。部屋の使用状況を示す情報とは、例えば、部屋内にいる人の数、又は、部屋内の設備(家具等)等である。部屋内の設備とは、例えば、部屋内の椅子の数、又は、机の形等である。換言すれば、本変形例において、部屋情報RIIは、部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形、の少なくとも1つを含んでいる。
音信号処理装置1gは、例えば、図4に示す第1画像M1に基づいて、部屋の大きさ、部屋の形状、又は、部屋の材質を推定する。例えば、音信号処理装置1gは、既存のオブジェクト認識技術等によって、部屋の大きさ、部屋の形状、又は、部屋の材質を推定する。音信号処理装置1gは、部屋の大きさ、部屋の形状、又は、部屋の材質に適するように音響パラメータSPを設定する。
例えば、音信号処理装置1gは、処理装置2から受信した音信号のゲインの値を増加させる又は減少させるように音響パラメータSPを設定する。具体的には、音信号処理装置1gは、大きい部屋と推定した場合、処理装置2から受信した音信号のゲインを増加させる。これにより、スピーカ5から出力される音の音量が増加する。従って、使用者Uは、スピーカ5から遠い位置にいても該スピーカ5から出力される音を聞くことが出来る。一方、音信号処理装置1gは、小さい部屋と推定した場合、処理装置2から受信した音信号のゲインの値を減少させる。これにより、使用者Uは、大きい音による不快感を覚えない。
部屋の大きさ、部屋の形状、又は、部屋の材質は、音の残響等に影響を与える要因でもある。従って、音信号処理装置1gは、例えば、残響付加のオン/オフを行う。具体的には、音信号処理装置1gは、部屋の大きさ、部屋の形状又は部屋の材質に基づいて、残響の発生しやすい部屋か発生しにくい部屋かを推定する。音信号処理装置1gは、残響の発生しにくい部屋と推定した場合、残響付加をオンにする。この場合、音信号処理装置1gは、処理装置2から受信した音信号に対して残響を付加する処理を行う。これにより、スピーカ5は、残響を付加した音信号に係る音を出力する。従って、スピーカ5から発する音の音質が向上する。一方、音信号処理装置1gは、残響の発生しやすい部屋と推定した場合、残響付加をオフにする。この場合、音信号処理装置1gは、処理装置2から受信した音信号に対して、残響を付加する処理を行わない。従って、音信号処理装置1gは、不要な処理を実行しない。上記に示すように、音信号処理装置1gは、部屋に応じて残響付加のオン/オフを適切に切り替えることが出来る。
また、例えば、音信号処理装置1gは、残響の発生しやすい部屋か発生しにくい部屋かの推定結果に基づいて残響除去のオン/オフを行う。具体的には、音信号処理装置1gは、残響の発生しやすい部屋と推定した場合、残響除去をオンにする。この場合、音信号処理装置1gは、マイク4から受信した音信号SS1に対して、残響を除去する処理を行うことによって音信号SS2を取得する。音信号処理装置1gは、残響を除去した音信号SS2を処理装置2へ送信する。これにより、処理装置2のスピーカは、残響を除去した音信号SS2に係る音を出力する。従って、対話者は、使用者Uの声を聞きやすい。一方、音信号処理装置1gは、残響の発生しにくい部屋と推定した場合、残響除去をオフにする。この場合、音信号処理装置1gは、マイク4から受信した音信号SS1に対して、残響を除去する処理を行わない。従って、音信号処理装置1gは、不要な処理を実行しない。上記に示す様に、音信号処理装置1gは、部屋に応じて残響除去のオン/オフを適切に切り替えることが出来る。
また、音信号処理装置1gは、既存のオブジェクト認識技術等によって、人の数、椅子の数、又は、机の形を推定する。例えば、音信号処理装置1gは、図4における第1画像M1に基づいて、「人の数:3人(人H1,H2,H3)、椅子の数:2つ(椅子C1,C2)、机の形状(机Eの形状):長方形状」等と判定する。
部屋内にいる人の数又は部屋内に配置されている椅子の数が多い場合、室内における残響は、弱くなりやすい。また、部屋内に配置されている机の形状が複雑な場合、室内における残響は、弱くなりやすい。従って、音信号処理装置1gは、室内にいる人の数、室内に配置されている椅子の数、又は、机の形状に基づいて、残響の発生しやすい部屋か残響の発生しにくい部屋かを推定する。音信号処理装置1gは、残響の発生しやすい部屋か残響の発生しにくい部屋かの推定結果に基づいて、残響付加のオン/オフ、又は、残響除去のオン/オフを行う。
例えば、音信号処理装置1gは、残響の発生しやすい部屋と推定した場合(人が少ない、椅子が少ない、又は、机の形状が単純であると推定した場合)、残響付加をオフにする。この場合、音信号処理装置1gは、処理装置2から受信した音信号に対して、残響を付加する処理を行わない。従って、音信号処理装置1gは、不要な処理を実行しない。また、音信号処理装置1gは、残響の発生しやすい部屋と推定した場合、残響除去をオンにする。この場合、音信号処理装置1gは、マイク4から受信した音信号SS1に対して、残響を除去する処理を行うことによって音信号SS2を取得する。音信号処理装置1gは、残響を除去した音信号SS2を処理装置2へ送信する。従って、対話者は、使用者Uの声を聞きやすい。
一方、音信号処理装置1gは、残響の発生しにくい部屋と推定した場合(人が多い、椅子が多い、又は、机の形状が複雑であると推定した場合)、残響付加をオンにする。この場合、音信号処理装置1gは、処理装置2から受信した音信号に対して残響を付加する処理を行う。従って、スピーカ5から発する音の音質が向上する。また、音信号処理装置1gは、残響の発生しにくい部屋と推定した場合、残響除去をオフにする。この場合、音信号処理装置1gは、マイク4から受信した音信号SS1に対して、残響を除去する処理を行わない。従って、音信号処理装置1gは、不要な処理を実行しない。
上記に示すように、本変形例において、音信号処理装置1gの設定部173は、部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形に応じて音響パラメータSPを設定する。従って、音信号処理装置1gは、状況に合わせて適切に設定された音響パラメータSPに基づいた音処理を実行する。
なお、部屋情報RIIは、部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形、以外の情報を含んでいてもよい。部屋情報RIIは、例えば、部屋内にいる人の内、カメラ6の方向を向いている人の数及びカメラ6の方向を向いていない人の数を含んでいてもよい。音信号処理装置1gは、例えば、人工知能等に基づいて、カメラ6の方向を向いている人の数及びカメラ6の方向を向いていない人の数を判定する。図5に示す例では、音信号処理装置1gは、「カメラ6の方向を向いている人の数=3人(人H1,H2,H3)」と判定し、且つ、「カメラ6の方向を向いていない人の数=1人(人Q1)」と判定する。音信号処理装置1gは、カメラ6の方向を向いている人の数が、カメラ6の方向を向いていない人の数よりも多いと判定した場合、使用者Uのいる空間を、閉じた空間と判定する。一方、音信号処理装置1gは、カメラ6の方向を向いている人の数が、カメラ6の方向を向いていない人の数よりも少ないと判定した場合、使用者Uのいる空間を、オープンスペースと判定する。
なお、部屋情報RIIは、例えば、空間内に配置されている家具の価格等を含んでいてもよい。音信号処理装置1gは、例えば、家具の価格に基づいて音響パラメータSPを設定する。この場合、音信号処理装置1gは、例えば、人工知能等を用いて第1画像M1に撮像されている家具の価格を推定する。音信号処理装置1gは、家具の価格を高価と推定した場合、スピーカ5から一定以上の音量を発生させないように、音響パラメータSPを設定する。上記に示す様に、音信号処理装置1gは、例えば、家具の価格に基づいて大きな音を発生させてもよい空間か否かを推定する。すなわち、部屋に適した音響パラメータSPを設定することが出来る。
(変形例8)
以下、変形例8に係る音信号処理装置1hについて図を参照しながら説明する。図12は、音信号処理装置1hのプロセッサ17hの機能的構成を示すブロック図である。図13は、音信号処理装置1hにおける音響パラメータSPの設定の一例を示すフローチャートである。図14は、音信号処理装置1hにおける画像処理の一例を示す図である。
音信号処理装置1hは、机Eの上面において反射した音を出力するか否かを判定する処理を実行する点で、音信号処理装置1と異なる。
図12に示すように、音信号処理装置1hは、受付部170、取得部171、推定部172、設定部173、信号処理部174及び出力部175に加えて、方向検出部176を機能的に備えている。方向検出部176は、音声の到来する方向F1を検出する(図13:ステップS30)。例えば、本変形例において、音信号処理装置1hは、複数のマイク(例えば、図12における、マイク4及びマイク4a)と接続している。方向検出部176は、複数のマイクの収音信号(例えば、図12における、マイク4から取得した音信号SS1及びマイク4aから取得した音信号SS1a)の相互相関を算出することによって方向F1を検出する。
ステップS30の後、推定部172は、第1画像M1を解析処理(例えば、第1実施形態と同様の人工知能による解析処理等)することによって、第1画像M1に人の頭部が撮像されているか否かを判定する(図13:ステップS31)。
推定部172は、「人の頭部:有」と判定した場合(図13:ステップS31 Yes)、検出した人の頭部の方向F2を算出する(図13:ステップS32)。例えば、図14において、推定部172は、第1画像M1に基づいて人H3の方向F2を推定する。
ステップS32の後、推定部172は、第1画像M1に机が撮像されているか否かを判定する(図13:ステップS33)。具体的には、推定部172は、後述する机の有無を判定する処理を実行する。この場合、推定部172は、第1画像M1に基づいて机の位置を算出している。机の位置は、部屋の使用状況を示す情報(部屋内の設備を示す情報)の一例である。従って、本変形例において、部屋情報RIは、机の位置を示す情報を含んでいる。
推定部172は、「机:有」と判定した場合(図13:ステップS33 Yes)、机の方向F3を算出する(図13:ステップS34)。例えば、図14において、第1画像M1に机Eが撮像されている。この場合、推定部172は、机Eの位置する方向F3を算出する。
ステップS34の後、推定部172は、「音声の到来する方向F1が、人の頭部の位置する方向F2と一致するか否か」を判定する(図13:ステップS35)。例えば、図14において、人H3の音声SH2が、音信号処理装置1hに接続されているマイクに直接到達する。この場合、推定部172は、「方向F1が、人H3の頭部の位置する方向F2と一致する」と判定する。
設定部173は、推定部172で「方向F1が、方向F2と一致する」と判定した場合(図13:ステップS35 Yes)、方向F3からの音を、出力しない設定を行う(図13:ステップS36)。これにより、音信号処理装置1hは、机Eにおいて反射した音声SH3によって使用者Uの音声が遅れて複数回収音され、エコーの様に聞こえることを防止する。
ステップS36の後、設定部173は、方向F1に高い感度を有する収音ビームを形成する(図13:ステップS37)。具体的には、音信号処理装置1hに接続されている複数のマイクそれぞれの収音信号を所定の遅延量で遅延して合成することによって、方向F1に高い感度を有する収音ビームを形成する。これにより、音信号処理装置1hは、人H3の音声SH2を明瞭に取得することが出来る。上記に示すように、本変形例において、設定部173は、机の位置を示す情報(部屋情報の一例)に応じて音響パラメータSPを設定する。
ステップS31において推定部172で「人の頭部:無」と判定した場合(図13:ステップS31 No)、方向検出部176が、第1画像M1に撮像されていない領域から到来した音声SH1(第1画像M1に撮像されていない人の音声等)、又は人の音声ではない音源の音(例えば、図14に図示するPCの音等)を検出している可能性がある(図14参照)。このため、設定部173は、推定部172で「人の頭部:無」と判定した場合(図13:ステップS31 No)、方向F1に高い感度を有する収音ビームを形成する設定を行う(図13:ステップS40)。これにより、音信号処理装置1hは、第1画像M1に撮像されていない領域から到来した音声SH1(第1画像M1に撮像されていない人の音声)を明瞭に取得することが出来る。
ステップS33において、推定部172は、「机:無」と判定した場合(図13:ステップS33 No)、「音声の到来する方向F1が、人の頭部の位置する方向F2と一致するか否か」を判定する(図13:ステップS38)。
ステップS38において推定部172で「方向F1が、方向F2と一致する」と判定した場合(図13:ステップS38 Yes)、設定部173は、方向F1に高い感度を有する収音ビームを形成する(図13:ステップS40)。これにより、音信号処理装置1hは、机の上面で反射した音声SH3ではなく、人から直接到達した音声SH2を明瞭に取得することが出来る。
ステップS38において、設定部173は、推定部172で「方向F1が、方向F2と一致しない」と判定した場合(図13:ステップS38 No)処理を終える(図13:END)。つまり、音信号処理装置1hは、現在の収音ビームの状態を維持する。方向F1が方向F2に一致しないということは、収音ビームは、第1画像M1に撮像されていない領域の方向に向いている。従って、設定部173は、収音ビームの設定を維持し、第1画像M1に撮像されていない領域から到来した音声SH1(第1画像M1に撮像されていない人の音声)を取得する。
ステップS35において、推定部172は、「方向F1が、方向F2と一致しない」と判定した場合(図13:ステップS38 No)、「方向F1が、方向F3と一致するか否か」を判定する(図13:ステップS39)。
ステップS39において、推定部172で「方向F1が、方向F3と一致する」と判定した場合、話者の音声が机Eで反射してマイクに収音されている可能性がある一方で、部屋を平面視して、机で反射した音声の方向と同じ方向に話者が存在し、当該話者からの直接音がマイクに収音されている可能性もある。このとき、仮に音信号処理装置1hが、当該方向の音声を出力しない処理を実行した場合、当該方向に居る話者の音声を出力しなくなる。このため、対話者が、話者の音声を聞きとれなくなる虞がある。従って、設定部173は、推定部172で「方向F1が、方向F3と一致する」と判定した場合(図13:ステップS39 Yes)、方向F1に高い感度を有する収音ビームを形成する設定を行う(図13:ステップS37)。これにより、音信号処理装置1hは、机Eで反射した話者の音声を明瞭に取得することが出来る。
一方、方向検出部176は、ステップS39において推定部172で「方向F1が、方向F3と一致しない」と判定した場合(図13:ステップS39 No)、処理を終える(図13:END)。つまり、音信号処理装置1hは、現在の収音ビームの状態を維持する。方向F1が方向F2に一致せず、且つ、方向F1が方向F3に一致しないということは、収音ビームは、第1画像M1に撮像されていない領域の方向に向いている。従って、設定部173は、収音ビームの設定を維持し、第1画像M1に撮像されていない領域から到来した音声SH1(第1画像M1に撮像されていない人の音声)を取得する。
(効果)
音信号処理装置1hによれば、対話者は、使用者Uの音声を聞き取りやすくなる。音信号処理装置1hは、机において反射した音声を収音しないように遅延量(音響パラメータSP)を設定する。例えば、図14において、音信号処理装置1hは、机Eにおいて反射した人H3の音声を出力しにくくなる。この場合、音信号処理装置1hは、机Eにおいて反射した音声によって使用者Uの音声が遅れて複数回収音され、エコーの様に聞こえることを防止する。従って、対話者は、人H3の音声を明瞭に聞き取りやすくなる。
(机の有無を判定する処理)
以下、音信号処理装置1hにおける机の有無を判定する処理(以下、処理Zと称す)について説明する。音信号処理装置1hは、第1画像M1の色の分布を解析することによって、机の有無を判定する。具体的には、音信号処理装置1hは、図14の破線で示すように、第1画像M1を複数の領域(例えば、100×100ピクセル等)に分割する。音信号処理装置1hは、分割した各領域に対して以下に示す(1)から(9)の処理を順に施す。
(1):各領域の全ピクセルの平均RGB値(以下、第1平均値と称す)を求める。
(2):複数の行の内の1行目(最も下の行)において、RGBが同一の色とみなせる範囲に収まっている領域(以下、第1領域と称す)の数を算出する。同一の色とみなせる範囲とは、例えば、その行における第1平均値の中央値±α(αは任意の値)の範囲である。つまり、各領域が、中央値-α<第1平均値<中央値+αの範囲である場合に第1領域とする。
(3):1行目において全領域の数に対する第1領域の数の割合が、第1閾値以上(例えば、80%以上等)である場合、1行目に机Eが撮像されていると判定する。全領域の数に対する第1領域の数の割合が第1閾値未満である場合、机Eが撮像されていないと判定する。
(4):(3)において机Eが撮像されていないと判定した場合、当該判定を行った行の次の行において、(2)から(3)の処理を繰り返す。例えば、1行目において机Eが撮像されていないと判定した場合、2行目において(2)から(3)の処理を行う。
(5):(3)において机Eが撮像されていると判定した場合、第1領域全てのRGBの平均値(以下、第2平均値と称す)を算出する。
(6)机Eが撮像されていると判定した次の行において、第2平均値と同程度の色の領域(以下、第2領域と称す)の数を求める。同程度の色とは、例えば、第2平均値±Δ(Δは任意の値)の範囲内の色である。つまり、各領域が第2平均値-Δ<第1平均値<第2平均値+Δの範囲である場合に第2領域とする。
(7):その行の全領域の数に対する第2領域の数の割合が、第2閾値以上(例えば、60%以上等)である場合、その行に机Eが撮像されていると判定する。第2閾値は、第1閾値未満である。
(8):以下、残りの行についても(5)から(7)の処理を繰り返す。
(9):(8)において、その行に机Eが撮像されていないと判定した場合、机Eの有無を判定する処理を終了する。これにより、音信号処理装置1hは、第1画像M1に撮像されている机Eの範囲(机Eが撮像されている領域)を確定する。
(効果)
処理Zを実行する音信号処理装置1hは、ピクセル毎ではなく、領域毎に机Eの有無を判定する。この場合、音信号処理装置1hの負荷は、ピクセル毎に机Eの有無を判定する場合と比較して、小さくなる。
机Eの色は、同一色である場合が多い。つまり、前の行に撮像されている机Eの色が、次の行に撮像されている机Eの色と同じである可能性が高い。そこで、処理Zを実行する音信号処理装置1hは、前の行の計算結果(前の行で机Eと判定した第1領域の平均RGB値の算出結果)を、次の行の計算(第2領域であるか否か)に反映させる。つまり、前の行で特定した机Eの色(前の行で机Eと判定した第1領域の平均RGB値)に基づいて次の行の各領域に机Eが撮像されているか否かを判定する(色が近いか否かによって、机Eの有無を判定する)。従って、音信号処理装置1hにおける机Eの検出精度が向上する。
撮像された物体は、遠い位置ほど小さくなる。このため、長方形状の机Eは、台形状に撮像される。第1画像M1において上の行に撮像されている机Eの幅ほど、下の行に撮像されている机Eの幅よりも小さくなる。従って、上の行ほど、机Eが撮像されている領域の数が少なくなる。そこで、音信号処理装置1hは、第1閾値未満である第2閾値を設定(台形状に撮像される机Eの特徴に対応させた閾値を設定)し、各行に机が撮像されているか否かを判定する。これにより、音信号処理装置1hにおける机Eの検出精度が向上する。
なお、音信号処理装置1hは、机Eが存在すると判定した領域毎に音声ビームの処理を変えてもよい。例えば、音声は、机Eの端よりも机Eの中央において反射しやすい。従って、音信号処理装置1hは、机Eが存在すると判定した領域毎に「机Eの中央が存在するか、又は、机Eの端が存在するか」を判定する。音信号処理装置1hは、「机の中央が存在する」と判定した各領域に対して図13に示すフローに基づいた処理(ステップS34,S35,S36,S37,S39)を実行する。一方、音信号処理装置1hは、「机の端が存在する」と判定した各領域に対して音声ビームの処理を実行しない。このように、音信号処理装置1hは、机Eが存在すると判定した領域毎に適切に音声ビームの処理を行うことが出来る。
なお、音信号処理装置1hは、机Eが存在すると判定した領域毎に音声の反射角を算出(例えば、第1画像M1を解析処理することによって算出)し、算出した反射角に基づいて音声ビームの処理を実行してもよい。例えば、立っている話者の音声の反射角は小さくなる。マイクは、反射角の小さい音声(指向性を有していない方向からの音声)を収音しにくい。従って、音信号処理装置1hは、反射角の小さい音声(収音されにくい音声)を出力しないようにする。これにより、対話者が、音声を聞き取りにくく感じることを防ぐ。一方、座っている話者の音声の反射角は大きくなる。この場合、反射した音声の方向と、話者から直接到達した音声の方向とは、同一であるとみなすことが出来る(方向F1≒方向F3とみなすことが出来る)。このため、音信号処理装置1hは、反射角の大きい音声を収音するように収音ビームを形成する。
なお、マイクの収音する音声の周波数特性は、音声の到来する方向によって変化する可能性がある。例えば、机Eにおいて反射した音声と、話者から直接到達した音声とが、干渉することによって周波数特性が変化する可能性がある。従って、音信号処理装置1hは、机Eが存在すると判定した領域毎に音声の到来する方向に基づいてイコライザーのパラメータを変化させてもよい。これにより、音信号処理装置1hは、対話者の聞き取りやすい音声を出力することが出来る。
なお、音信号処理装置1hは、マイクと、机Eにおける音声の反射位置と、の間の距離(以下、マイク-反射位置間の距離と称す)に基づいて、音声を出力するか否かを判定してもよい。例えば、マイクに近い位置で反射した音声は、話者から直接到来した音声と同一とみなすことが出来る(F1≒F3とみなすことが出来る)。従って、音信号処理装置1hは、机Eが存在すると判定した領域毎に、マイク-反射位置間の距離を算出する。そして、音信号処理装置1hは、「マイク-反射位置間の距離が、短い(予め音信号処理装置1hに設定している任意の閾値以下)」と判定した場合、当該領域に対して音声ビームの処理を実行しない。これにより、音信号処理装置1hの処理の負荷が、机Eが存在すると判定した全領域で音声ビームの処理を実行する場合と比較して、軽減される。
なお、音信号処理装置1,1a,1b,1c,1d,1e,1f,1g,1hの構成を任意に組み合わせてもよい。
1,1a,1b,1c,1d,1e,1f,1g,1h:音信号処理装置
17,17b,17e,17f:プロセッサ
170:受付部
171:取得部
172:推定部
173,173b,173e:設定部
174,174f:信号処理部
175:出力部
M1:第1画像
P:音処理
RI,RII:部屋情報
SP:音響パラメータ
SS1,SS2,SS3:音信号

Claims (20)

  1. 音信号を受け付け、
    第1画像を取得し、
    取得した前記第1画像に基づいて部屋情報を推定し、
    推定した前記部屋情報に応じて音響パラメータを設定し、
    前記設定された音響パラメータに基づく音処理を前記音信号に対して行い、
    前記音処理が行われた前記音信号を出力する、
    音信号処理方法。
  2. 前記音処理が行われた前記音信号に基づいて前記音響パラメータを変更する、
    請求項1に記載の音信号処理方法。
  3. 前記第1画像を取得したタイミングと異なるタイミングで第2画像を取得し、
    取得した前記第2画像から前記部屋情報を推定し、
    前記第2画像から推定した前記部屋情報に基づいて前記音響パラメータを変更する、
    請求項1又は請求項2に記載の音信号処理方法。
  4. 前記変更において所定時間の間に音響パラメータを変更する、
    請求項2又は請求項3に記載の音信号処理方法。
  5. 前記部屋情報は、オープンスペース、又は、閉じた空間であること示す情報を含んでおり、
    前記オープンスペース、又は、閉じた空間であること示す情報に基づいて前記音響パラメータを設定する、
    請求項1から請求項4のいずれかに記載の音信号処理方法。
  6. 前記部屋情報は、部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形、の少なくとも1つを含み、
    前記部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形に応じて前記音響パラメータを設定する
    請求項1から請求項5のいずれかに記載の音信号処理方法。
  7. 前記音処理は、ノイズリダクション、ゲイン調整、残響除去、又は、残響付加の少なくとも1つを含んでいる、
    請求項1から請求項6のいずれかに記載の音信号処理方法。
  8. 前記部屋情報は、机の位置を示す情報を含んでおり、
    前記机の位置を示す情報に応じて前記音響パラメータを設定する、
    請求項1から請求項7のいずれかに記載の音信号処理方法。
  9. 第1音信号と、前記第1音信号から雑音を除去した第2音信号との関係を機械学習した学習済モデルを用いて、前記音処理を行う、
    請求項1から請求項8のいずれかに記載の音信号処理方法。
  10. 入力画像と部屋情報との関係を機械学習により学習した学習済モデルを用いて前記部屋情報を推定する、
    請求項1から請求項9のいずれかに記載の音信号処理方法。
  11. 音信号を受け付ける受付部と、
    第1画像を取得する取得部と、
    取得した前記第1画像に基づいて部屋情報を推定する推定部と、
    推定した前記部屋情報に応じて音響パラメータを設定する設定部と、
    前記設定された音響パラメータに基づく音処理を前記音信号に対して行う信号処理部と、
    前記音処理が行われた前記音信号を出力する出力部と、
    を備えている、
    音信号処理装置。
  12. 前記信号処理部は、前記音処理が行われた前記音信号に基づいて前記音響パラメータを変更する、
    請求項11に記載の音信号処理装置。
  13. 前記取得部は、前記第1画像を取得したタイミングと異なるタイミングで第2画像を取得し、
    前記推定部は、取得した前記第2画像から前記部屋情報を推定し、
    前記設定部は、前記第2画像から推定した前記部屋情報に基づいて前記音響パラメータを変更する、
    請求項11又は請求項12に記載の音信号処理装置。
  14. 前記信号処理部は、前記変更において所定時間の間に音響パラメータを変更する、
    請求項12又は請求項13に記載の音信号処理装置。
  15. 前記部屋情報は、オープンスペース、又は、閉じた空間であること示す情報を含んでおり、
    前記設定部は、前記オープンスペース、又は、閉じた空間であること示す情報に基づいて前記音響パラメータを設定する、
    請求項11から請求項14のいずれかに記載の音信号処理装置。
  16. 前記部屋情報は、部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形、の少なくとも1つを含み、
    前記設定部は、前記部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形に応じて前記音響パラメータを設定する
    請求項11から請求項15のいずれかに記載の音信号処理装置。
  17. 前記音処理は、ノイズリダクション、ゲイン調整、残響除去、又は、残響付加の少なくとも1つを含んでいる、
    請求項11から請求項16のいずれかに記載の音信号処理装置。
  18. 前記部屋情報は、机の位置を示す情報を含んでおり、
    前記設定部は、前記机の位置を示す情報に応じて前記音響パラメータを設定する、
    請求項11から請求項17のいずれかに記載の音信号処理装置。
  19. 前記信号処理部は、第1音信号と、前記第1音信号から雑音を除去した第2音信号との関係を機械学習した学習済モデルを用いて、前記音処理を行う、
    請求項11から請求項18のいずれかに記載の音信号処理装置。
  20. 前記推定部は、入力画像と部屋情報との関係を機械学習により学習した学習済モデルを用いて前記部屋情報を推定する、
    請求項11から請求項19のいずれかに記載の音信号処理装置。
JP2022043931A 2022-03-18 2022-03-18 音信号処理方法及び音信号処理装置 Pending JP2023137650A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2022043931A JP2023137650A (ja) 2022-03-18 2022-03-18 音信号処理方法及び音信号処理装置
US18/179,484 US20230300553A1 (en) 2022-03-18 2023-03-07 Audio signal processing method and audio signal processing device
CN202310214979.1A CN116782089A (zh) 2022-03-18 2023-03-08 音信号处理方法及音信号处理装置
EP23161172.4A EP4246514A1 (en) 2022-03-18 2023-03-10 Audio signal processing method and audio signal processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022043931A JP2023137650A (ja) 2022-03-18 2022-03-18 音信号処理方法及び音信号処理装置

Publications (1)

Publication Number Publication Date
JP2023137650A true JP2023137650A (ja) 2023-09-29

Family

ID=85569726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022043931A Pending JP2023137650A (ja) 2022-03-18 2022-03-18 音信号処理方法及び音信号処理装置

Country Status (4)

Country Link
US (1) US20230300553A1 (ja)
EP (1) EP4246514A1 (ja)
JP (1) JP2023137650A (ja)
CN (1) CN116782089A (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010122617A (ja) 2008-11-21 2010-06-03 Yamaha Corp ノイズゲート、及び収音装置
JP5477854B2 (ja) 2010-01-22 2014-04-23 株式会社タムラ製作所 ゲイン自動設定装置およびゲイン自動設定方法
EP3301675B1 (en) * 2016-09-28 2019-08-21 Panasonic Intellectual Property Corporation of America Parameter prediction device and parameter prediction method for acoustic signal processing
US10440497B2 (en) * 2017-11-17 2019-10-08 Intel Corporation Multi-modal dereverbaration in far-field audio systems
US10721521B1 (en) * 2019-06-24 2020-07-21 Facebook Technologies, Llc Determination of spatialized virtual acoustic scenes from legacy audiovisual media
EP3994691B1 (en) * 2019-07-03 2024-05-29 Hewlett-Packard Development Company, L.P. Audio signal dereverberation
US11190898B2 (en) * 2019-11-05 2021-11-30 Adobe Inc. Rendering scene-aware audio using neural network-based acoustic analysis

Also Published As

Publication number Publication date
EP4246514A1 (en) 2023-09-20
US20230300553A1 (en) 2023-09-21
CN116782089A (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
EP1913708B1 (en) Determination of audio device quality
KR101970370B1 (ko) 오디오 신호의 처리 기법
US7773763B2 (en) Binaural hearing aid system with coordinated sound processing
JP2020068465A (ja) アレイマイクロフォンおよび収音方法
CN108235181B (zh) 在音频处理装置中降噪的方法
GB2491173A (en) Setting gain applied to an audio signal based on direction of arrival (DOA) information
JP2003270034A (ja) 音情報解析方法、装置、プログラム、および記録媒体
JP2022542962A (ja) 分散配置されたオーディオデバイスのための音響エコー除去制御
JP2020068466A (ja) 音信号処理装置、ミキサ、および音信号処理方法
JP2023137650A (ja) 音信号処理方法及び音信号処理装置
CN115410593A (zh) 音频信道的选择方法、装置、设备及存储介质
CN113542466A (zh) 音频处理方法、电子设备及存储介质
JP2020178150A (ja) 音声処理装置及び音声処理方法
US12003673B2 (en) Acoustic echo cancellation control for distributed audio devices
WO2023228713A1 (ja) 音声処理装置および方法、情報処理装置、並びにプログラム
RU2818982C2 (ru) Управление акустической эхокомпенсацией для распределенных аудиоустройств
US20240107252A1 (en) Insertion of forced gaps for pervasive listening
WO2023125537A1 (zh) 声音信号处理方法、装置、设备及存储介质
TWI775119B (zh) 用於雜音過濾之設備與方法及相關聯非暫時性電腦可讀儲存媒體
JP2019537071A (ja) 分散したマイクロホンからの音声の処理
US12003933B2 (en) Rendering audio over multiple speakers with multiple activation criteria
US20220322010A1 (en) Rendering audio over multiple speakers with multiple activation criteria
CN114401350A (zh) 一种音频处理方法及会议系统
CN115547351A (zh) 拾音装置的配置方法、装置、终端设备及存储介质