JP4816711B2 - 通話音声処理装置および通話音声処理方法 - Google Patents

通話音声処理装置および通話音声処理方法 Download PDF

Info

Publication number
JP4816711B2
JP4816711B2 JP2008283068A JP2008283068A JP4816711B2 JP 4816711 B2 JP4816711 B2 JP 4816711B2 JP 2008283068 A JP2008283068 A JP 2008283068A JP 2008283068 A JP2008283068 A JP 2008283068A JP 4816711 B2 JP4816711 B2 JP 4816711B2
Authority
JP
Japan
Prior art keywords
voice
input
sound
call
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008283068A
Other languages
English (en)
Other versions
JP2010112995A (ja
Inventor
隆一 難波
素嗣 安部
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008283068A priority Critical patent/JP4816711B2/ja
Priority to US12/611,908 priority patent/US20100111290A1/en
Priority to CN2009102093334A priority patent/CN101740035B/zh
Publication of JP2010112995A publication Critical patent/JP2010112995A/ja
Application granted granted Critical
Publication of JP4816711B2 publication Critical patent/JP4816711B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6008Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、通話音声処理装置および通話音声処理方法に関し、特に、撮像マイクを流用して通話音声を高音質化する通話音声処理装置および通話音声処理方法に関する。
通常、携帯電話等の通信装置においては、単一の通話用マイクのみを利用して通話を行っている。このため、複数のマイクを用いてマイク間の空間伝達特性の相違を利用した高音質化を行うことができなかった。単一音声を用いて雑音除去を行う場合には、スペクトルサブトラクション等、出力音声に歪みを付加する手法を用いる以外の選択肢が存在しなかった。
そこで、通話音声を高音質化するために、環境音の採取や除去をするためのマイクを追加して通話音声を高音質化する方法が考えられている。当該方法においては、追加したマイクにより採取された環境音を通話マイクにより収音された音声から減算することにより通話音声の高音質化を実現することが可能となる。
ところで、近年の通信装置には、撮像機能が備わることが多くなってきている。そこで、上記のようにマイクを追加しなくとも、撮像用マイクを流用して通話音声を高音質化することが可能であると考えられる。例えば、複数の音源から発せられた音声を分離して、通話音声のみを強調する方法が考えられる。例えば、音声を強調する方法として、複数のパートからなる音楽信号について、各パートに分離して重要なパートを強調し、分離された音声を再混合する方法が挙げられる(例えば、特許文献1)。
特開2002−236499号公報
しかし、特許文献1は、音楽信号を対象としており、通話音声を対象とする技術ではない。また、撮像マイクの特性は、通話マイクの特性と大きく異なることが多く、各マイクの配置が必ずしも通話音声の高音質化に最適なものとなっていないという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、異なる特性のマイクを用いて通話音声を強調することが可能な、新規かつ改良された通話音声処理装置および通話音声処理方法を提供することにある。
上記課題を解決するために、本発明のある観点によれば、通話時に第1の入力音声が入力される通話マイクと、前記通話時に第2の入力音声が入力される撮像マイクと、第1の入力音声の特性を、該特性とは異なる第2の入力音声の特性に補正する入力補正部と、第2の入力音声に複数の音声が含まれている場合に、第2の入力音声を複数の音声に分離する音声分離部と、音声分離部により分離された複数の音声の音声種別を推定する音声種別推定部と、音声種別推定部により推定された音声種別に応じて各音声の混合比を算出する混合比算出部と、混合比算出部により算出された混合比で音声分離部により分離された複数の音声を混合する音声混合部と、音声混合部により混合された混合音声を用いて、入力補正部により補正された第1の入力音声から通話者の音声を抽出する抽出部と、を備える、通話音声処理装置が提供される。
かかる構成によれば、通話音声処理装置の通話マイクから入力される第1の入力音声の特性を、撮像マイクから入力される第2の入力音声の特性に補正する。第2の入力音声は、複数の音源から発生された音声に分離され、分離された複数の音声種別が推定される。そして、推定された音声種別に応じて各音声の混合比が算出され、該混合比で分離された各音声が再混合される。そして、再混合された混合音声を用いて、特性補正がなされた第1の入力音声から通話音声が抽出される。
これにより、異なる特性を有するマイク等の入力装置を用いて通話音声を強調することができる。すなわち、通話音声処理装置に備わる撮像マイクを流用して、通話マイクに入力される第1の入力音声から通話音声を抽出して快適に通話することが可能となる。例えば、所望の通話音声が、該音量より音量の大きい雑音にマスキングされて聞き取りづらく、適切な通話ができなくなることを防止することができる。また、通話音声処理装置に環境音の採取や除去のためのマイクを追加することなく、撮像マイクを流用してユーザが所望する通話音声を抽出することができる。
また、上記通話音声処理装置は、携帯電話であってもよい。
また、音声分離部は、第1の入力音声および第2の入力音声を複数の音声に分離してもよい。
また、第1の入力音声に通話者の音声が含まれるか否かを判定する音声判定部を備えてもよい。
また、音声判定部は、入力音声の音量、スペクトル、複数入力音声の位相差、離散時間における振幅情報の分布のうちのいずれか1つ以上を用いて、音源の方向、距離、音色を特定し、通話者音源が含まれているか否かを判定してもよい。
また、上記入力補正部は、第1の入力音声および/または第2の入力音声の周波数特性を補正してもよい。
また、上記入力補正部は、第1の入力音声および/または第2の入力音声のサンプリングレート変換を行ってもよい。
また、上記入力補正部は、第1の入力音声と第2の入力音声とのA/D変換による遅延の相違を補正してもよい。
また、上記音声分離部は、ブロック単位で入力音声を複数の音声に分離し、音声分離部により分離された音声が複数のブロック間で同一か否かを判断する同一性判断部と、音声分離部により分離された音声をブロック単位で記録する記録部と、を備えてもよい。
また、上記音声分離部は、音声の統計的な独立性と空間伝達特性の相違を用いて、入力音声を複数の音声に分離してもよい。
また、上記音声分離部は、音源の時間周波数成分間の重なりの少なさを用いて特定音源から発せられた音声とそれ以外の音声とを分離してもよい。
また、上記音声種別推定部は、入力音声の離散時間における振幅情報の分布、方向、音量、ゼロ交差数用いて、入力音声が定常音声か非定常音声かを推定してもよい。
また、上記音声種別推定部は、非定常音声であると推定された音声がノイズ音声か人の発した音声かを推定してもよい。
また、上記混合比算出部は、音声種別推定部により、定常音声であると推定された音声の音量が大きく変化しない混合比を算出してもよい。
また、上記混合比算出部は、音声種別推定部によりノイズ音声であると推定された音声の音量を低減し、人の発した音声であると推定された音声の音量を低減しなし混合比を算出してもよい。
また、上記課題を解決するために、本発明のある観点によれば、第1の入力音声が入力される通話マイク、および第2の入力音声が入力される撮像マイクを有する装置における通話音声処理方法であって、第1の入力音声の特性を、該特性とは異なる第2の入力音声の特性に補正するステップと、第2の入力音声に複数の音声が含まれている場合に、第2の入力音声を複数の音声に分離するステップと、分離された複数の音声の音声種別を推定するステップと、推定された音声種別に応じて各音声の混合比を算出するステップと、算出された混合比で分離された複数の音声を混合するステップと、混合された混合音声を用いて、補正された第1の入力音声から通話者の音声を抽出するステップと、を含む、通話音声処理方法が提供される。
以上説明したように本発明によれば、異なる特性のマイクを用いて通話音声を強調することができる。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、以下に示す順序に従って、当該「発明を実施するための最良の形態」を説明する。
〔1〕本実施形態の目的
〔2〕本発明の第1実施形態にかかる通話音声処理装置の説明
〔2−1〕本実施形態にかかる通話音声処理装置の機能構成
〔2−2〕本実施形態にかかる通話音声処理装置の動作
〔3〕本発明の第2実施形態にかかる通話音声処理装置の説明
〔3−1〕本実施形態にかかる通話音声処理装置の機能構成
〔1〕本実施形態の目的
まず、本発明の実施形態の目的について説明する。通常、携帯電話等の通信装置においては、単一の通話用マイクのみを利用して通話を行っている。このため、複数のマイクを用いてマイク間の空間伝達特性の相違を利用した高音質化を行うことができなかった。単一音声を用いて雑音除去を行う場合には、スペクトルサブトラクション等、出力音声に歪みを付加する手法を用いる以外の選択肢が存在しなかった。
そこで、通話音声を高音質化するために、環境音の採取や除去をするためのマイクを追加して通話音声を高音質化する方法が考えられている。当該方法においては、追加したマイクにより採取された環境音を通話マイクにより収音された音声から減算することにより通話音声の高音質化を実現することが可能となる。
ところで、近年の通信装置には、撮像機能が備わることが多くなってきている。そこで、上記のようにマイクを追加しなくとも、撮像用マイクを流用して通話音声を高音質化することが可能であると考えられる。例えば、複数の音源から発せられた音声を分離して、通話音声のみを強調する方法が考えられる。
しかし、撮像マイクの特性は、通話マイクの特性と大きく異なることが多く、各マイクの配置が必ずしも通話音声の高音質化に最適なものとなっていないという問題があった。そこで、上記のような事情を一着眼点として、本発明の実施形態にかかる通話音声処理装置が創作されるに至った。本実施形態にかかる通話音声処理装置10によれば、異なる特性のマイクを用いて通話音声を強調することができる。
〔2〕本発明の第1実施形態にかかる通話音声処理装置の説明
次に、本実施形態にかかる通話音声処理装置の一例として、通話音声処理装置10の機能構成および動作について説明する。
〔2−1〕本実施形態にかかる通話音声処理装置の機能構成
図1を参照して、通話音声処理装置10の機能構成について説明する。本実施形態にかかる通話音声処理装置10は、上記したように、異なる特性のマイクを用いて通話音声を強調することができる。通話音声処理装置10は、例えば、撮像用カメラを搭載した携帯電話等の通信装置を例示できる。
通話機能および撮像機能を有する通信装置において通話を行う場合には、話者が発する音声が他の音源の発する音声によりマスキングされ、話者の発する音声を明瞭に送話できない場合が多い。また、移動中など周囲の状況が変化する場合には、通話音声に大きなばらつきが存在し、受話側で一定の再生音量で通話音声を快適に聴くことが困難となる。しかし、本実施形態にかかる通話音声処理装置10によれば、撮像用のマイクを通話マイクに流用し、通話音声と通話音声以外の他の音声の音量バランスを調整したり、通話音量レベルを調節したりして、通話音声の高音質化を図ることが可能となる。
図1は、本実施形態にかかる通話音声処理装置10の機能構成を示したブロック図である。図1に示したように、通話音声処理装置10は、第1音声収音部102と、入力補正部104と、抽出部106と、音声判定部108と、第2音声収音部110と、音声分離部112と、記録部114と、記憶部116と、同一性判断部118と、音声種別推定部122と、混合比算出部120と、音声混合部124などを備える。
第1音声収音部102は、音声を収音し、収音した音声を離散量子化する機能を有する。また、第1音声収音部102は、本発明の第1の入力装置の一例であって、例えば通話マイクなどである。第1音声収音部102は、物理的に分離された2以上の収音部(例えば、マイクロホン)を含む。第1音声収音部102は、左音声を収音する収音部と右音声を収音する収音部の2つを含むようにしてもよい。
また、第1音声収音部102は、離散量子化した音声を入力音声として入力補正部104に提供する。また第1音声収音部102は、該入力音声を音声判定部108に提供してもよい。また、第1音声収音部102は、入力音声を所定長のブロック単位で入力補正部104および/または音声判定部108に提供してもよい。
入力補正部104は、特性の異なる通話マイクの特性を補正する機能を有する。すなわち、第1の入力装置である通話マイクから入力される第1の入力音声(通話音声)の特性を、第2の入力装置である撮像マイクから入力される第2の入力音声(撮像時の音声)の特性に補正する。入力音声の補正とは、例えば、サンプリング周波数が他のマイクと異なる場合はレート変換を行い、周波数特性が異なる場合は周波数特性の逆特性の適用を行うことである。また、A/D変換等による遅延量が異なる場合は、当該遅延量の補正を行ってもよい。
音声判定部108は、第1音声収音部102より提供された第1の入力音声(通話音声)に、通話者の音声が含まれるか否かを判定する機能を有する。具体的には、第1の入力音声の音量、スペクトル、複数入力音声の位相差情報、離散時間における振幅情報の分布などから、音声入力があるか否かを判定した後、通話者が発した音声入力が含まれているか否かを判定する。音声判定部108は、判定の結果、通話者が発した音声入力が含まれていると判定した場合に当該判定結果を音声分離部112に通知する。
第2音声収音部110は、音声を収音し、収音した音声を離散量子化する機能を有する。また、第2音声収音部110は、本発明の第2の入力装置の一例であって、例えば撮像マイクなどである。また、第2音声収音部110は、物理的に分離された2以上の収音部(例えば、マイクロホン)を含む。第2音声収音部110は、左音声を収音する収音部と右音声を収音する収音部の2つを含むようにしてもよい。また、第2音声収音部110は、離散量子化した音声を入力音声として音声分離部112に提供する。また、第2音声収音部110は、入力音声を所定長のブロック単位で音声分離部112に提供してもよい。
音声分離部112は、第2音声収音部110から提供された第2の入力音声を複数の音源から発生された複数の音声に分離する機能を有する。具体的には、第2の入力音声を音源の統計的な独立性と空間伝達特性の相違を用いて分離する。上記したように、第2音声収音部110から所定長のブロック単位で入力音声が提供される場合には、当該ブロック単位で音声を分離するようにしてもよい。
音声分離部112による音源を分離するための具体的手法としては、例えば、独立成分解析を用いた手法(論文1:Y.Mori, H.Saruwatari, T.Takatani, S.Ukai, K.Shikano, T.hiekata, T.Morita, Real-Time Implementation of Two-Stage Blind Source Separation Combining SIMO-ICA and Binary Masking, Proceedings of IWAENC2005, (2005).)を用いることができる。また、音の時間周波数成分間の重なりの少なさを利用する手法(論文2:O.Yilmaz and S.Richard, Blind Separation of Speech Mixtures via Time-Frequency Masking, IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL.52, NO.7, JULY(2004).)を用いてもよい。
また、音声判定部108により通話者が発した音声入力が含まれていると判定された結果が通知された場合に第1の入力音声の分離を実行するようにしてもよい。また、音声判定部108により通話者が発した音声入力が含まれていないと判定された結果が通知された場合には、第1の入力音声の分離を実行しないようにしてもよい。
また、本実施形態では、音声判定部108により第1の入力音声の判定を実行しているが、音声判定部108の機能を省略する構成としてもよい。すなわち、第1の入力音声の判定を行わず、第1の入力音声のすべてを音声分離部112に提供するようにしてもよい。
同一性判断部118は、音声分離部112によりブロック単位で入力音声が複数の音声に分離された場合に、当該分離された音声が複数のブロック間で同一か否かを判断する機能を有する。例えば、音声分離部112から提供された分離音声の離散時間における振幅情報の分布、音量、方向情報などを用いて、前後ブロック間で同一の音源から発生された分離音声であるか否かを判断する。
記録部114は、音声分離部112により分離された音声の音量情報をブロック単位で記憶部116に記録する機能を有する。記憶部116に記録される音量情報としては、例えば、同一性判断部118により取得される各分離音声の音声種別情報や、音声分離部112により取得される分離音声の音量の平均値、最大値、分散値等などが挙げられる。また、リアルタイムの音声のみならず、過去に音声処理された分離音声の音量平均値を記録してもよい。また、入力音声の音量情報等が入力音声よりも先に取得可能な場合には、当該音量情報を記録するようにしてもよい。
音声種別推定部122は、音声分離部112により分離された複数の音声の音声種別を推定する機能を有する。例えば、分離音声の音量、振幅情報の分布、最大値、平均値、分散値、ゼロ交差数などから得られる音声情報と、方向距離情報から、音声種別(定常または非定常、ノイズまたは音声)を推定する。ここで、音声種別推定部122の詳細な機能について説明する。以下では、通信装置に通話音声処理装置10が搭載されている場合について説明する。音声種別推定部122は、撮像装置の操作者の音声または操作者の動作に起因するノイズなど撮像装置の近傍から発せられた音声が含まれているか否かを判定する。これにより、どの音源から発生された音声なのか否かを推定することができる。
図2は、音声種別推定部122の構成を示した機能ブロック図である。音声種別推定部122は、音量検出器132、平均音量検出器134および最大音量検出器136からなる音量検出部130と、スペクトル検出器140および音質検出器142からなる音質検出部138と、距離方向推定器144と、音声推定器146と、を備える。
音量検出器132は、所定長さのフレーム単位(例えば、数10msec)で与えられる入力音声の音量値列(振幅)を検出し、検出した入力音声の音量値列を平均音量検出器134、最大音量検出器136、音質検出器142および距離方向推定器144に出力する。
平均音量検出器134は、音量検出器132から入力されるフレーム単位の音量値列に基づいて、入力音声の音量平均値を例えばフレームごとに検出する。また、平均音量検出器134は、検出した音量平均値を音質検出器142および音声推定器146に出力する。
最大音量検出器136は、音量検出器132から入力されるフレーム単位の音量値列に基づいて、入力音声の音量最大値を例えばフレームごとに検出する。また、最大音量検出器136は、検出した入力音声の音量最大値を音質検出器142および音声推定器146に出力する。
スペクトル検出器140は、入力音声に例えばFFT(Fast Fourier Transform)処理を施し、入力音声の周波数領域における各スペクトルを検出する。スペクトル検出器140は、検出したスペクトルを音質検出器142および距離方向推定器144に出力する。
音質検出器142は、入力音声、音量平均値、音量最大値およびスペクトルが入力され、かかる入力に基づいて入力音声の人間の音声らしさ、音楽らしさ、定常性、インパルス性などを検出し、音声推定器146に出力する。人間の音声らしさは、入力音声の一部または全体が人間の音声と一致するか否か、あるいは人間の音声とどの程度近似するかなどを示す情報であってもよい。また、音楽らしさは、入力音声の一部または全体が音楽であるか否か、あるいは音楽とどの程度近似するかなどを示す情報であってもよい。
定常性は、例えば空調音のように時間的にそれほど音声の統計的性質が変化しない性質を指す。インパルス性は、例えば打撃音、破裂音のように短時間にエネルギーが集中した雑音性の強い性質を指す。
例えば、音質検出器142は、入力音声のスペクトル分布と人間の音声のスペクトル分布との一致度に基づいて人間の音声らしさを検出することができる。また、音質検出器142は、フレームごとの音量最大値を比較し、他のフレームと比較して音量最大値が大きいほどインパルス性が高いことを検出してもよい。
なお、音質検出器142は、ゼロクロッシング法、LPC(Linear Predictive Coding)分析などの信号処理技術を用いて入力音声の音質を分析してもよい。ゼロクロッシング法によれば入力音声の基本周期が検出されるため、音質検出器142は該基本周期が人間の音声の基本周期(例えば100〜200Hz)に含まれるか否かに基づいて人間の音声らしさを検出してもよい。
距離方向推定器144には、入力音声、入力音声の音量値列、入力音声のスペクトルなどが入力される。距離方向推定器144は、該入力に基づいて入力音声の音源または入力音声に含まれる支配的な音声が発せられた音源の方向情報および距離情報などの位置情報を推定する位置情報算出部としての機能を有する。かかる距離方向推定器144は、入力音声の位相、音量、音量値列、過去の平均音量値、最大音量値などによる音源の位置情報の推定方法を組み合わせることで、残響や撮像装置本体による音声の反射の影響が大きい場合でも総合的に音源位置を推定することができる。距離方向推定器144による方向情報および距離情報の推定方法の一例を図3〜図6を参照して説明する。
図3は、2つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。音源が点音源であると仮定すると、第2音声収音部110を構成するマイクロホンM1およびマイクロホンM2に到達する各入力音声の位相と各入力音声の位相差が測定できる。さらに、位相差と、入力音声の周波数fおよび音速cの値から、入力音声の音源位置までのマイクロホンM1からの距離とマイクロホンM2からの距離との差を算出できる。音源は、当該距離差が一定である点の集合上に存在する。このような距離差が一定である点の集合は、双曲線となることが知られている。
例えば、マイクロホンM1が(x1、0)に位置し、マイクロホンM1が(x2、0)に位置すると仮定する(このように仮定しても一般性を失わない)。また、求める音源位置の集合上の点を(x、y)とおき、上記距離差をdとおくと、以下の数式1が成り立つ。
Figure 0004816711
(数式1)
さらに、数式1は数式2のように展開でき、数式2を整理すると双曲線を表す数式3が導かれる。
Figure 0004816711
(数式2)

Figure 0004816711
(数式3)
また、距離方向推定器144は、マイクロホンM1およびマイクロホンM2の各々が収音した入力音声の音量差に基づいて音源がマイクロホンM1およびマイクロホンM2のどちらの近傍であるかを判定できる。これにより、例えば図3に示したようにマイクロホンM2に近い双曲線1上に音源が存在すると判定することができる。
なお、位相差算出に用いる入力音声の周波数fは、マイクロホンM1およびマイクロホンM2間の距離に対して下記の数式4の条件を満たす必要がある。
Figure 0004816711
(数式4)
図4は、3つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。図4に示したような第2音声収音部110を構成するマイクロホンM3、マイクロホンM4およびマイクロホンM5の配置を想定する。マイクロホンM3およびマイクロホンM4に到達する入力音声の位相に比較してマイクロホンM5に到達する入力音声の位相が遅れる場合がある。この場合、距離方向推定器144は、音源がマイクロホンM4およびマイクロホンM5を結ぶ直線1に対してマイクロホンM5の逆側に位置すると判定できる(前後判定)。
さらに、距離方向推定器144は、マイクロホンM3およびマイクロホンM4の各々に到達する入力音声の位相差に基づいて音源が存在し得る双曲線2を算出する。そして、マイクロホンM4およびマイクロホンM5の各々に到達する入力音声の位相差に基づいて音源が存在し得る双曲線3を算出することができる。その結果、距離方向推定器144は、双曲線2および双曲線3の交点P1を音源位置として推定することができる。
図5は、2つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。音源が点音源であると仮定すると、逆二乗則よりある点で観測される音量は距離の二乗に反比例する。図5に示したような第2音声収音部110を構成するマイクロホンM6およびマイクロホンM7を想定した場合、マイクロホンM6およびマイクロホンM7に到達する音量比が一定となる点の集合は円となる。距離方向推定器144は、音量検出器132から入力される音量の値から音量比を求め、音源の存在する円の半径及び中心位置を算出できる。
図5に示したように、マイクロホンM6が(x3、0)に位置し、マイクロホンM7が(x4、0)に位置する。この場合(このように仮定しても一般性を失わない)、求める音源位置の集合上の点を(x、y)と置くと、各マイクロホンから音源までの距離r1、r2は以下の数式5のように表せる。
Figure 0004816711
Figure 0004816711
(数式5)
ここで、逆二乗則より以下の数式6が成り立つ。
Figure 0004816711
(数式6)
数式6は正の定数d(例えば4)を用いて数式7にように変形される。
Figure 0004816711
(数式7)
数式7をr1およびr2に代入し、整理すると以下の数式8が導かれる。
Figure 0004816711

Figure 0004816711
(数式8)
数式8より、距離方向推定器144は、図5に示したように、中心の座標が数式9で表され半径が数式10で表される円1上に音源が存在すると推定できる。
Figure 0004816711
(数式9)
Figure 0004816711
(数式10)
図6は、3つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。図6に示したような第2音声収音部110を構成するマイクロホンM3、マイクロホンM4およびマイクロホンM5の配置を想定する。マイクロホンM3およびマイクロホンM4に到達する入力音声の位相に比較してマイクロホンM5に到達する入力音声の位相が遅れる場合がある。この場合、距離方向推定器144は、音源がマイクロホンM4およびマイクロホンM5を結ぶ直線2に対してマイクロホンM5の逆側に位置すると判定できる(前後判定)。
さらに、距離方向推定器144は、マイクロホンM3およびマイクロホンM4の各々に到達する入力音声の音量比に基づいて音源が存在し得る円2を算出する。そして、マイクロホンM4およびマイクロホンM5の各々に到達する入力音声の音量比に基づいて音源が存在し得る円3を算出することができる。その結果、距離方向推定器144は、円2および円3の交点P2を音源位置として推定することができる。なお、4つ以上のマイクロホンを使用した場合には、距離方向推定器144は、空間的な音源の配置を含め、より精度の高い推定が可能となる。
距離方向推定器144は、上記のように各入力音声の位相差や音量比に基づいて入力音声の音源の位置を推定し、推定した音源の方向情報や距離情報を音声推定器146に出力する。以下の表1に、上述した音量検出部130、音質検出部138および距離方向推定器144の各構成の入出力をまとめた。
Figure 0004816711
なお、入力音声に複数の音源から発せられた音声が重畳されている場合、距離方向推定器144は入力音声に支配的に含まれている音声の音源位置を正確に推定することは困難である。しかし、距離方向推定器144は入力音声に支配的に含まれている音声の音源位置に近い位置を推定することは可能である。また、当該推定された音源位置は音声分離部112において音声分離のための初期値として利用してもよいため、距離方向推定器144が推定する音源位置に誤差があっても当該通話音声処理装置10は所望の動作をすることができる。
図2を参照して音声種別推定部122の構成の説明に戻る。音声推定器146は、入力音声の音量、音質または位置情報の少なくともいずれかに基づき、入力音声に操作者の音声または操作者の動作に起因するノイズなど通話音声処理装置10の近傍である特定音源から発せられた近傍音声が含まれているか否かを総合的に判定する。また、音声推定器146は、入力音声に近傍音声が含まれていると判定した場合、音声分離部112に入力音声に近傍音声が含まれる旨(操作者音声存在情報)や距離方向推定器144により推定された位置情報などを出力する音声判定部としての機能を有する。
具体的には、音声推定器146は、入力音声の音源の位置が映像を撮像する撮像部(図示せず。)の撮像方向の後方であると距離方向推定器144に推定され、入力音声が人間の音声と一致または近似する音質である場合、入力音声に近傍音声が含まれていると判定してもよい。
音声推定器146は、入力音声の音源の位置が撮像部の撮像方向の後方であり、入力音声が人間の音声と一致または近似する音質である場合、入力音声に近傍音声として操作者の音声が支配的に含まれていると判定するようにしてもよい。その結果、後述の音声混合部124により操作者の音声の音量比率が低減された混合音声を得ることができる。
また、音声推定器146は、入力音声の音源の位置が収音位置から設定距離(例えば、通話音声処理装置10の1m以内など通話音声処理装置10の近傍)の範囲内である。また、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、入力音声に特定音源から発せられた近傍音声が含まれていると判定してもよい。ここで、撮像装置の操作者が当該撮像装置に備わるボタンを操作したり撮像装置を持ち替えると「パチン」、「バン」などのインパルス音が発生したりする場合が多い。また、該インパルス音は通話音声処理装置10を搭載した撮像装置において発生するため、比較的大きな音量で収音される可能性が高い。
したがって、音声推定器146は、入力音声の音源の位置が収音位置から設定距離の範囲内である。また、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、入力音声に近傍音声として操作者の動作に起因するノイズが支配的に含まれていると判定することができる。その結果、後述の音声混合部124により操作者の動作に起因するノイズの音量比率が低減された混合音声を得ることができる。
その他、音声推定器146に入力される情報と、入力される情報に基づく音声推定器146の判定結果の一例を以下の表2にまとめた。なお、近接センサー、温度センサーなどを組み合わせて用いて音声推定器146における判定の精度をあげることも可能である。
Figure 0004816711
図1に戻り、混合比算出部120は、音声種別推定部122により推定された音声種別に応じて、各音声の混合比を算出する機能を有する。例えば、音声分離部112により分離された分離音声と、音声種別推定部122により音声種別情報と記録部114ニ記録された音量情報を用いて、支配的な音声の音量を低減する混合比を算出する。
また、音声種別推定部122の出力情報を参照して、音声種別がより定常的である場合は、前後ブロックでの音量情報が大きく変化しないような混合比を算出する。また、混合比算出部120は、音声種別が定常的ではなく(非定常)、ノイズの可能性が高い場合には、当該音声の音量を低減する。一方、音声種別が非定常であり、人が発した音声である可能性が高い場合には、当該音声の音量をノイズ音声に比較してそれほど低減しない。
音声混合部124は、混合比算出部120により提供された混合比で音声分離部112により分離された複数の音声を混合する機能を有する。音声混合部124は、例えば、通話音声処理装置10の近傍音声および収音対称音声を、近傍音声が占める音量比率が、入力音声に占める近傍音声の音量比率より低減されるように混合するようにしてもよい。これにより、第2の入力音声のうち、近傍音声の音量が不要に大きい場合、収音対象音声が占める音量比率が入力音声に占める収音対象音声の音量比率より増大した混合音声を得ることができる。その結果、収音対象音声が近傍音声に埋もれてしまうことが防止することができる。
抽出部106は、音声混合部124により混合された混合音声を用いて、入力補正部104により補正された第1の入力音声から特定の音声を抽出する機能を有する。例えば、入力補正部104により提供された第1の入力音声に含まれる通話音声を強調することにより、通話音声を抽出するようにしてもよい。
通話音声の抽出の仕組みとしては、スペクトルサブトラクション等の非線形処理が考えられるが、当該仕組みに限定されるものではない。ここで、図7を参照して、抽出部106による通話音声の抽出について説明する。図7は、抽出部106による通話音声の抽出の一例を説明する説明図である。
図7に示したように、グラフ700に示した周波数特性aは、通話音声が支配的な音声の周波数特性である。また、周波数特性bは、ノイズ音声が支配的な音声の周波数特性である。そして、周波数特性cは、通話音声が強調された音声である。
抽出部106は、周波数特性aが示す通話音声が支配的な音声の特性から、周波数特性bが示すノイズ音声が支配的な音声の特性を減算して、周波数特性cが示す通話音声が強調された音声を抽出する。
〔2−2〕本実施形態にかかる通話音声処理装置の動作
以上、本実施形態にかかる通話音声処理装置10の機能構成について説明した。次に、図8を参照して、通話音声処理装置10において実行される通話音声処理方法について説明する。図8は、本実施形態にかかる通話音声処理装置10において実行される音声処理方法の流れを示したフローチャートである。図8に示したように、まず、通話音声処理装置10の第1音声収音部102は、第1の入力音声である通話音声を収音する。また第2音声収音部110は、第2の入力音声である撮像時の音声を収音する(S102)。
次に、第1の入力音声が入力されたか、第2の入力音声が入力されたか否かを判定する(S104)。ステップS104において、第1の入力音声も第2の入力音声もなかった場合には処理を終了する。
ステップS104において、第1の入力音声があったと判定された場合には、入力補正部104は、第1の入力音声の特性を、第2の入力音声の特性に補正する(S106)。次に、音声判定部108は、第1の入力音声に通話音声が存在するか否かを判定する(S108)。
ステップS108において、第1の入力音声に通話音声が存在すると判定された場合には、音声分離部112は、第2の入力音声を複数の音声に分離する(S110)。ステップS110において、音声分離部112は、所定長のブロック単位で入力音声を分離するようにしてもよい。ステップS108において、第1の入力音声に通話音声が存在しないと判定された場合には、第2の入力音声の分離を実行せずにステップS112の処理を実行する。
そして、同一性判断部118は、ステップS110において所定長のブロック単位で分離された第2の入力音声が複数のブロック間で同一か否かを判断する(S112)。同一性判断部118は、ステップS110において分離されたブロック単位の音声の離散時間における振幅情報の分布、音量、方向情報などを用いて同一性を判断するようにしてもよい。
次に、音声種別推定部122は、各ブロックの音量情報を算出し(S114)、各ブロックの音声種別を推定する(S116)。ステップS116において、音声種別推定部122は、操作者の発した音声、被写体の発した音声、操作者の動作に起因するノイズ、インパルス音、定常的な環境音などに音声を分離する。
次に、混合比算出部120は、ステップS116において推定された音声種別に応じて、各音声の混合比を算出する(S118)。混合比算出部120は、ステップS114において算出した音量情報と、ステップS116において算出した音声種別情報を元に、支配的な音声の音量を低減する混合比を算出する。
そして、ステップS118において算出された各音声の混合比を用いて、ステップS110において分離された複数の音声を混合する(S120)。そして、抽出部106はステップS120において混合された混合音声を用いて、ステップS106において補正された第1の入力音声から通話音声を抽出する(S122)。
以上説明したように、上記実施形態によれば、通話音声処理装置10の通話マイクから入力される第1の入力音声の特性を、撮像マイクから入力される第2の入力音声の特性に補正する。第2の入力音声は、複数の音源から発生された音声に分離され、分離された複数の音声種別が推定される。そして、推定された音声種別に応じて各音声の混合比が算出され、該混合比で分離された各音声が再混合される。そして、再混合された混合音声を用いて、特性補正がなされた第1の入力音声から通話音声が抽出される。
これにより、通話音声処理装置10に備わる撮像マイクを流用して、通話マイクに入力される第1の入力音声から通話音声を抽出して快適に通話することが可能となる。例えば、所望の通話音声が、該音量より音量の大きい雑音にマスキングされて聞き取りづらく、適切な通話ができなくなることを防止することができる。また、通話音声処理装置10に環境音の採取や除去のためのマイクを追加することなく、撮像マイクを流用してユーザが所望する通話音声を抽出することができる。
〔3〕本発明の第2実施形態にかかる通話音声処理装置の説明
上記したように、第1の実施形態では、第2の入力音声の音声分離を行って、分離された第2の入力音声の再混合を行っていた。しかし、第2の実施形態では、第2の入力音声だけでなく第1の入力音声も用いて入力音声の分離を行う。したがって、抽出部106においては、第1の入力音声も含まれた混合音声を用いて通話音声の抽出が行われる。以下では、第1実施形態と異なる部分について特に詳細に説明し、第1実施形態と同様の構成については詳細な説明を省略する。
〔3−1〕本実施形態にかかる通話音声処理装置の機能構成
図9を参照して、本実施形態にかかる通話音声処理装置11の機能構成について説明する。上記したように、本実施形態にかかる通話音声処理装置11は、通話マイクから入力される第1の入力音声と撮像マイクから入力された第2の入力音声の双方を用いて入力音声の分離を行う。
図9に示したように、通話音声処理装置11は、第1音声収音部102、入力補正部104、抽出部106、音声判定部108、第2音声収音部110、音声分離部112、記録部114、記憶部116、同一性判断部118、混合比算出部120、音声種別推定部122、音声混合部124などを備える。
入力補正部104は、音声分離部112に補正された第1の入力音声を提供する。そして、音声分離部112は、第2音声収音部110により提供された第2の入力音声だけでなく、入力補正部104により提供された第1の入力音声の双方を用いて入力音声の分離を行う。
抽出部106は、音声分離部112は、再混合された入力音声中の通話音声成分を強調することにより、通話音声を抽出する。
本実施形態においても、音声判定部108の機能を省略する構成とすることができる。すなわち、第1の入力音声の判定を行わず、音声分離部112にすべての第1の入力音声と第2の入力音声と含む入力音声が提供するようにしてもよい。
以上説明したように、上記実施形態によれば、通話音声処理装置11の通話マイクから入力される第1の入力音声の特性を、撮像マイクから入力される第2の入力音声の特性に補正する。第2の入力音声および補正された第1の入力音声は、複数の音源から発生された音声に分離され、分離された複数の音声種別が推定される。そして、推定された音声種別に応じて各音声の混合比が算出され、該混合比で分離された各音声が再混合される。そして、再混合された混合音声の中から通話音声が抽出される。
これにより、通話音声処理装置11に備わる撮像マイクを流用して、通話マイクに入力される第1の入力音声から通話音声を抽出して快適に通話することが可能となる。例えば、所望の通話音声が、該音量より音量の大きい雑音にマスキングされて聞き取りづらく、適切な通話ができなくなることを防止することができる。また、通話音声処理装置11に環境音の採取や除去のためのマイクを追加することなく、撮像マイクを流用してユーザが所望する通話音声を抽出することができる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、上記実施形態では、撮像機能を有する通信装置の通話音声の高音質化について説明したが、本発明はかかる例に限定されない。例えば、撮像機能を有さないが録音機能を有する通信装置であってもよい。また、通話マイク以外に使用可能な追加マイクを備えた通信装置に上記発明を適用してもよい。
本発明の第1の実施形態にかかる通話音声処理装置の機能構成を示したブロック図である。 同実施形態にかかる音声種別推定部の構成を示した機能ブロック図である。 2つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。 3つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。 2つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。 3つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。 同実施形態にかかる抽出部による通話音声の抽出の一例を説明する説明図である。 同実施形態にかかる音声処理装置において実行される音声処理方法の流れを示したフローチャートである。 本発明の第2の実施形態にかかる通話音声処理装置の機能構成を示したブロック図である。
符号の説明
10、11 通話音声処理装置
102 第1音声収音部
104 入力補正部
106 抽出部
108 音声判定部
110 第2音声収音部
112 音声分離部
114 記録部
116 記憶部
118 同一性判断部
120 混合比算出部
122 音声種別推定部
124 音声混合部

Claims (16)

  1. 通話時に第1の入力音声が入力される通話マイクと、
    前記通話時に第2の入力音声が入力される撮像マイクと、
    前記第1の入力音声の特性を、該特性とは異なる前記第2の入力音声の特性に補正する入力補正部と、
    前記第2の入力音声に複数の音声が含まれている場合に、前記第2の入力音声を複数の音声に分離する音声分離部と、
    前記音声分離部により分離された複数の音声の音声種別を推定する音声種別推定部と、
    前記音声種別推定部により推定された音声種別に応じて各音声の混合比を算出する混合比算出部と、
    前記混合比算出部により算出された混合比で前記音声分離部により分離された前記複数の音声を混合する音声混合部と、
    前記音声混合部により混合された混合音声を用いて、前記入力補正部により補正された前記第1の入力音声から通話者の音声を抽出する抽出部と、
    を備える、通話音声処理装置。
  2. 前記通話音声処理装置は、携帯電話である、請求項1に記載の通話音声処理装置。
  3. 前記音声分離部は、
    前記第1の入力音声および前記第2の入力音声を複数の音声に分離する、請求項1または2に記載の通話音声処理装置。
  4. 前記第1の入力音声に通話者の音声が含まれるか否かを判定する音声判定部を備える、請求項1〜3のいずれか1項に記載の通話音声処理装置。
  5. 前記音声判定部は、
    入力音声の音量、スペクトル、複数入力音声の位相差、離散時間における振幅情報の分布のうちのいずれか1つ以上を用いて、音源の方向、距離、音色を特定し、通話者音源が含まれているか否かを判定する、請求項4に記載の通話音声処理装置。
  6. 前記入力補正部は、前記第1の入力音声および/または前記第2の入力音声の周波数特性を補正する、請求項1〜5のいずれか1項に記載の通話音声処理装置。
  7. 前記入力補正部は、前記第1の入力音声および/または前記第2の入力音声のサンプリングレート変換を行う、請求項1〜6のいずれか1項に記載の通話音声処理装置。
  8. 前記入力補正部は、前記第1の入力音声と前記第2の入力音声とのA/D変換による遅延の相違を補正する、請求項1〜7のいずれか1項に記載の通話音声処理装置。
  9. 前記音声分離部は、ブロック単位で前記入力音声を複数の音声に分離し、
    前記音声分離部により分離された音声が複数のブロック間で同一か否かを判断する同一性判断部と、
    前記音声分離部により分離された音声をブロック単位で記録する記録部と、
    を備える、請求項1〜8のいずれか1項に記載の通話音声処理装置。
  10. 前記音声分離部は、音声の統計的な独立性と空間伝達特性の相違を用いて、前記入力音声を複数の音声に分離する、請求項1〜9のいずれか1項に記載の通話音声処理装置。
  11. 前記音声分離部は、音源の時間周波数成分間の重なりの少なさを用いて特定音源から発せられた音声とそれ以外の音声とを分離する、請求項1〜10のいずれか1項に記載の通話音声処理装置。
  12. 前記音声種別推定部は、前記入力音声の離散時間における振幅情報の分布、方向、音量、ゼロ交差数を用いて、前記入力音声が定常音声か非定常音声かを推定する、請求項1〜11のいずれか1項に記載の通話音声処理装置。
  13. 前記音声種別推定部は、前記非定常音声であると推定された音声がノイズ音声か人の発した音声かを推定する、請求項12に記載の通話音声処理装置。
  14. 前記混合比算出部は、前記音声種別推定部により、定常音声であると推定された音声の音量が大きく変化しない混合比を算出する、請求項12または13に記載の通話音声処理装置。
  15. 前記混合比算出部は、前記音声種別推定部によりノイズ音声であると推定された音声の音量を低減し、人の発した音声であると推定された音声の音量を低減しない混合比を算出する、請求項13に記載の通話音声処理装置。
  16. 通話時に第1の入力音声が入力される通話マイク、および前記通話時に第2の入力音声が入力される撮像マイクを有する装置における通話音声処理方法であって、
    前記第1の入力音声の特性を、該特性とは異なる前記第2の入力音声の特性に補正するステップと、
    前記第2の入力音声に複数の音声が含まれている場合に、前記第2の入力音声を複数の音声に分離するステップと、
    前記分離された複数の音声の音声種別を推定するステップと、
    前記推定された音声種別に応じて各音声の混合比を算出するステップと、
    前記算出された混合比で前記分離された複数の音声を混合するステップと、
    前記混合された混合音声を用いて、前記補正された前記第1の入力音声から通話者の音声を抽出するステップと、
    を含む、通話音声処理方法。
JP2008283068A 2008-11-04 2008-11-04 通話音声処理装置および通話音声処理方法 Expired - Fee Related JP4816711B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008283068A JP4816711B2 (ja) 2008-11-04 2008-11-04 通話音声処理装置および通話音声処理方法
US12/611,908 US20100111290A1 (en) 2008-11-04 2009-11-03 Call Voice Processing Apparatus, Call Voice Processing Method and Program
CN2009102093334A CN101740035B (zh) 2008-11-04 2009-11-04 通话语音处理装置、通话语音处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008283068A JP4816711B2 (ja) 2008-11-04 2008-11-04 通話音声処理装置および通話音声処理方法

Publications (2)

Publication Number Publication Date
JP2010112995A JP2010112995A (ja) 2010-05-20
JP4816711B2 true JP4816711B2 (ja) 2011-11-16

Family

ID=42131412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008283068A Expired - Fee Related JP4816711B2 (ja) 2008-11-04 2008-11-04 通話音声処理装置および通話音声処理方法

Country Status (3)

Country Link
US (1) US20100111290A1 (ja)
JP (1) JP4816711B2 (ja)
CN (1) CN101740035B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102710542B (zh) * 2012-05-07 2015-04-01 苏州阔地网络科技有限公司 一种声音处理的方法及系统
CN102710604B (zh) * 2012-05-07 2015-04-01 苏州阔地网络科技有限公司 一种声音提取的方法及系统
JP6289936B2 (ja) * 2014-02-26 2018-03-07 株式会社東芝 音源方向推定装置、音源方向推定方法およびプログラム
FR3067511A1 (fr) * 2017-06-09 2018-12-14 Orange Traitement de donnees sonores pour une separation de sources sonores dans un signal multicanal
CN107613134B (zh) * 2017-09-29 2021-04-20 惠州Tcl移动通信有限公司 一种通话音量的控制方法、移动终端及存储介质
CN107819964B (zh) * 2017-11-10 2021-04-06 Oppo广东移动通信有限公司 提高通话质量的方法、装置、终端和计算机可读存储介质
BR112021018647A2 (pt) 2019-03-27 2021-11-23 Sony Group Corp Dispositivo e método de processamento de sinais, e, programa para fazer com que um computador execute o processamento
CN110430330A (zh) * 2019-08-08 2019-11-08 北京云中融信网络科技有限公司 一种基于通话的音频数据处理方法及装置
CN111883166A (zh) * 2020-07-17 2020-11-03 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质
CN116990755A (zh) * 2023-09-22 2023-11-03 海宁市微纳感知计算技术有限公司 一种鸣笛声源定位方法、系统、电子设备及可读存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02277308A (ja) * 1989-04-18 1990-11-13 Yamaha Corp デジタルミキシング回路
GB2301003B (en) * 1995-05-19 2000-03-01 Sony Uk Ltd Audio mixing console
JP2002099297A (ja) * 2000-09-22 2002-04-05 Tokai Rika Co Ltd マイクロフォン装置
JP2004304560A (ja) * 2003-03-31 2004-10-28 Fujitsu Ltd 電子装置
JP4543731B2 (ja) * 2004-04-16 2010-09-15 日本電気株式会社 雑音除去方法、雑音除去装置とシステム及び雑音除去用プログラム
JP4237699B2 (ja) * 2004-12-24 2009-03-11 防衛省技術研究本部長 混合信号分離・抽出装置
JP2006211570A (ja) * 2005-01-31 2006-08-10 Matsushita Electric Ind Co Ltd 撮影装置
WO2007018293A1 (ja) * 2005-08-11 2007-02-15 Asahi Kasei Kabushiki Kaisha 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
JP2007295085A (ja) * 2006-04-21 2007-11-08 Kobe Steel Ltd 音源分離装置及び音源分離方法
JP4449987B2 (ja) * 2007-02-15 2010-04-14 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US8259926B1 (en) * 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
JP2008236077A (ja) * 2007-03-16 2008-10-02 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム
JP4649437B2 (ja) * 2007-04-03 2011-03-09 株式会社東芝 信号分離抽出装置
KR101456866B1 (ko) * 2007-10-12 2014-11-03 삼성전자주식회사 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
US8131541B2 (en) * 2008-04-25 2012-03-06 Cambridge Silicon Radio Limited Two microphone noise reduction system

Also Published As

Publication number Publication date
US20100111290A1 (en) 2010-05-06
CN101740035A (zh) 2010-06-16
CN101740035B (zh) 2012-10-31
JP2010112995A (ja) 2010-05-20

Similar Documents

Publication Publication Date Title
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
JP4952698B2 (ja) 音声処理装置、音声処理方法およびプログラム
JP2010112996A (ja) 音声処理装置、音声処理方法およびプログラム
US10602267B2 (en) Sound signal processing apparatus and method for enhancing a sound signal
US10251005B2 (en) Method and apparatus for wind noise detection
US8065115B2 (en) Method and system for identifying audible noise as wind noise in a hearing aid apparatus
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
EP3526979B1 (en) Method and apparatus for output signal equalization between microphones
US9959886B2 (en) Spectral comb voice activity detection
US8422696B2 (en) Apparatus and method for removing noise
KR20190130533A (ko) 음성 검출기를 구비한 보청기 및 그 방법
JPH11249693A (ja) 収音装置
CN108389590B (zh) 一种时频联合的语音削顶检测方法
KR101096091B1 (ko) 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법
US11528556B2 (en) Method and apparatus for output signal equalization between microphones
KR20100056859A (ko) 음성 인식 장치 및 방법
KR100198019B1 (ko) 마이크 어레이를 이용한 원격음성입력장치 및 그 원격음성입력 처리방법
JP2005284016A (ja) 音声信号の雑音推定方法およびそれを用いた雑音除去装置
KR100565428B1 (ko) 인간 청각 모델을 이용한 부가잡음 제거장치
Qi et al. An adaptive wiener filter for automatic speech recognition in a car environment with non-stationary noise
JPH0627994A (ja) 音声分析方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110815

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140909

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4816711

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140909

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees