JP7211419B2 - パターン認識装置、パターン認識方法及びパターン認識プログラム - Google Patents

パターン認識装置、パターン認識方法及びパターン認識プログラム Download PDF

Info

Publication number
JP7211419B2
JP7211419B2 JP2020518850A JP2020518850A JP7211419B2 JP 7211419 B2 JP7211419 B2 JP 7211419B2 JP 2020518850 A JP2020518850 A JP 2020518850A JP 2020518850 A JP2020518850 A JP 2020518850A JP 7211419 B2 JP7211419 B2 JP 7211419B2
Authority
JP
Japan
Prior art keywords
pattern recognition
model
input signal
unit
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020518850A
Other languages
English (en)
Other versions
JPWO2019220532A1 (ja
Inventor
達也 小松
玲史 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2019220532A1 publication Critical patent/JPWO2019220532A1/ja
Application granted granted Critical
Publication of JP7211419B2 publication Critical patent/JP7211419B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、パターン認識装置、パターン認識方法及びパターン認識プログラムに関する。
非特許文献1には、受音した音響信号をあらかじめ定義した複数の音響イベントパターンへ分類するためのパターン認識装置とその認識器の学習方法について記載されている。
また、特許文献1には、音響信号の種類を精度よく識別することができるという音響識別装置が開示されている。同文献によると、この音響識別装置の音響信号分析部200は、信号線101からの音響信号における音声成分および音楽成分の有する周波数スペクトルの時間特性に基づく特徴量を抽出する。また、この音響信号分析部200は、音響信号の周波数スペクトルを時系列に生成して、その時系列に生成された周波数スペクトルにおける周波数ごとの差分値を算出する。そして、音響信号分析部200は、その算出された差分値に基づく度数分布の偏り度合いを示す分散を音響信号の特徴量として抽出する。そして、音響信号識別部110は、音響信号の種類が音楽と、音楽および音声の重畳と、音声とのいずれであるかを、その特徴量に基づいて識別する。最後に、この音響信号識別部110は、音声成分および音楽成分が重畳する音響信号に対応する特徴量よりも小さい音楽閾値を基準として、音響信号の種類が音楽であるか否かを識別する。
また、特許文献2には、様々なノイズが含まれた環境下でパターン認識を行うパターン認識装置に用いて好適な耐性の高い認識モデルを学習し、当該パターン認識装置におけるパターン認識率を向上させることができるという認識モデル学習装置が開示されている。同文献によると、この認識モデル学習装置のパターン認識モデル格納部606には、パターン認識装置におけるパターン認識処理に用いられるパターン認識モデルが格納されている。そして、情報入力部602から学習用情報が入力され、情報特徴量計算部603で情報の特徴量が計算される。ここで、パラメータ変動部604でパラメータが変動され、パターン認識モデル学習部605において、変動させたパラメータで計算された特徴量を用いてパターン認識モデルが学習される。
特開2011-85824号公報 特開2005-31258号公報
Komatsu, Tatsuya, et al. "Acoustic event detection method using semi-supervised non-negative matrix factorization with a mixture of local dictionaries." Proceedings of the Detection and Classification of Acoustic Scenes and Events 2016 Workshop (DCASE2016). 2016.
以下の分析は、本発明によって与えられたものである。非特許文献1に記載の技術では、音源から受音点までの伝達パスによって受信点で得られる信号の周波数特性が大きく変わる場合があり、パターン認識性能が劣化する問題がある。この点は、特許文献1、2も同様であり、音源から受音点までの伝達パスによって受信点で得られる信号の周波数特性が大きく変わるという点の考慮は一切なされていない。
上記音源から受音点までの伝達パスによって受信点で得られる信号の周波数特性が大きく変わるのは、音響信号に限られず、振動センサから得られる時系列振動信号など、空間中を伝播し伝わり、その伝達パスにより特性が変化するような信号に共通する。
本発明は、上記した信号の伝達パスによる影響に頑健で、より高い精度でのパターン認識の実現に貢献できるパターン認識装置、パターン認識方法及びパターン認識プログラムを提供することを目的とする。
第1の視点によれば、学習用信号に加えて、該学習用信号の伝達パスの違いを示す伝達パス情報を用いて作成されたモデルを記憶するモデル記憶部と、前記モデルを用いて、入力信号と、該入力信号の伝達パスの違いを示す伝達パス情報とを入力として、入力信号のパターン認識を行うパターン認識部と、を含むパターン認識装置が提供される。
前記第1の視点の変形として、学習用信号に加えて、該学習用信号の伝達パスの違いを示す伝達パス情報を用いて作成されたモデルを記憶するモデル記憶部と、前記モデルを用いて、入力信号と、該入力信号の伝達パスの違いを示す伝達パス情報とを入力として、入力信号のパターン認識を行うパターン認識部と、入力信号の特徴量から伝達パスを識別する伝達パス識別部と、前記パターン認識部の出力と、前記伝達パス識別部の出力とを統合して、認識結果を出力する情報統合部と、を含むパターン認識装置が提供される。
第2の視点によれば、学習用信号に加えて、該学習用信号の伝達パスの違いを示す伝達パス情報を用いて作成されたモデルを記憶するモデル記憶部を備えるコンピュータが、入力信号と、該入力信号の伝達パスの違いを示す伝達パス情報とを入力するステップと、前記モデルを用いて、前記入力信号と、前記伝達パス情報とを入力として、入力信号のパターン認識を行うステップと、を含むパターン認識方法が提供される。本方法は、学習用信号を用いて作成されたモデルを用いてパターン認識を行うコンピュータという、特定の機械に結びつけられている。
前記第2の視点の変形として、学習用信号に加えて、該学習用信号の伝達パスの違いを示す伝達パス情報を用いて作成されたモデルを記憶するモデル記憶部を備えるコンピュータが、入力信号と、該入力信号の伝達パスの違いを示す伝達パス情報とを入力するステップと、前記モデルを用いて、前記入力信号と、前記伝達パス情報とを入力として、入力信号のパターン認識を行うステップと、入力信号の特徴量から伝達パスを識別するステップと、前記入力信号のパターン認識を行った認識結果と、前記伝達パスを識別した識別結果とを統合して情報を出力するステップと、を含むパターン認識方法が提供される。
第3の視点によれば、上記したコンピュータの機能を実現するためのプログラムが提供される。なお、このプログラムは、コンピュータが読み取り可能な(非トランジトリーな)記憶媒体に記録することができる。即ち、本発明は、コンピュータプログラム製品として具現することも可能である。
本発明によれば、信号の伝達パスによる影響に頑健で、より高い精度でのパターン認識を実施することが可能となる。
本発明の一実施形態の構成を示す図である。 本発明の第1の実施形態のパターン認識装置の構成を示す図である。 本発明の第1の実施形態のパターン認識装置の伝達パス識別部の構成例を示す図である。 本発明の第2の実施形態のパターン認識装置の構成を示す図である。 本発明の第3の実施形態のパターン認識装置の構成を示す図である。 本発明の第4の実施形態のパターン認識装置の構成を示す図である。 本発明の第5の実施形態のパターン認識装置の構成を示す図である。 本発明の第6の実施形態のパターン認識装置の構成を示す図である。 本発明の第7の実施形態のパターン認識装置の変形構成を示す図である。 本発明の第8の実施形態のパターン認識装置の伝達パス識別部の構成例を示す図である。 本発明の第8の実施形態において、空気中が伝搬経路となる音源との関係を表す図である。 本発明の第8の実施形態において、固体中が伝搬経路となる音源との関係を表す図である。 本発明の第8の実施形態において、空気中が伝搬経路となる音源から、センサ1に到達する音の経路を説明する図である。 本発明の第8の実施形態において、空気中が伝搬経路となる音源から、センサ2に到達する音の経路を説明する図である。 本発明の第8の実施形態において、固体中が伝搬経路となる音源から、センサ1に到達する音の経路を説明する図である。 本発明の第8の実施形態において、固体中が伝搬経路となる音源から、センサ2に到達する音の経路を説明する図である。 本発明の第9の実施形態を実施するための形態を示すブロック図である。 本発明の9の実施形態の動作を説明する図である。 本発明のパターン認識装置を構成するコンピュータの構成を示す図である。
はじめに本発明の一実施形態の概要について図面を参照して説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、本発明を図示の態様に限定することを意図するものではない。また、以降の説明で参照する図面等のブロック間の接続線は、双方向及び単方向の双方を含む。一方向矢印については、主たる信号(データ)の流れを模式的に示すものであり、双方向性を排除するものではない。また、図中の各ブロックの入出力の接続点には、ポート乃至インタフェースがあるが図示省略する。
本発明は、その一実施形態において、図1に示すように、モデル記憶部901と、このモデルを用いて、パターン認識を行うパターン認識部902と、を含むパターン認識装置900にて実現できる。
より具体的には、モデル記憶部901は、学習用信号に加えて、該学習用信号の伝達パスの違いを示す伝達パス情報を用いて作成されたモデルを記憶する。
パターン認識部902は、前記モデルを用いて、入力信号と、該入力信号の伝達パスの違いを示す伝達パス情報とを入力として、入力信号のパターン認識を行う。
上記のパターン認識装置900によれば、入力信号の伝達パスの違いを示す伝達パス情報を加味したパターン認識が行われる。これにより、信号の伝達パスによる影響に頑健で、より高い精度でのパターン認識実施することが可能となる。
[第1の実施形態]
以下の実施形態では、入力信号が音響信号である例を挙げて説明する。はじめに、音源信号と受音点における音響信号の関係を、伝達パスによる信号の周波数特性変化の観点から説明する。
以降では、音源信号s(t)、受音点における音響信号をx(t)として説明する。ここで、s(t)、x(t)はマイクロフォン等の音響センサで収録したアナログ音響信号をAD変換(Analog to Digital Conversion)して得られるデジタル信号系列である。tは時間を表すインデックスであり、所定の時間(たとえば装置やセンサを起動した時間)を、原点t=0として順次入力される音響信号の時間インデックスである。サンプリング周波数をFsとすると、隣り合う時間インデックスtとt+1の時間差、つまり時間分解能は1/Fsとなる。
音源信号s(t)は、空気中、もしくは壁や建造物などの固体中、水や油などの液体中において、音波として伝播し受音点へ到達、音響信号x(t)として観測される。音波は媒質間の境界や音響インピーダンスの高低差などの影響により、反射や回折、透過などを起こしながら媒質中を伝播する。本発明ではこの伝播によるs(t)に生じた遅延や周波数特性の変化を定量化したものを伝達パス(伝搬パス)と呼ぶ。
s(t)とx(t)との関係は、伝達パスをある関数f(・)を用いて、次の[数1]のように表現できる。
[数1]
Figure 0007211419000001
音響デジタル信号処理分野において、関数f(・)は、時不変FIRフィルタによって近似するのが一般的であり、つまりフィルタ長がTであるFIRフィルタh(t)を用いて、[数1]の右辺は、[数2]のようにh(t)とs(t)の畳み込みとして表現できる。
[数2]
Figure 0007211419000002
また、伝達パスによる音源信号の周波数特性変化は、h(t)の周波数応答として表現できる。本発明では、フィルタh(t)が伝達パスを特徴づけるベクトルであるとみなし、伝達パス特徴ベクトルhとして用いる。
hの推定において、一般に音源信号s(t)は未知であり、受音点における観測信号x(t)のみしか得られない場合が多い。その場合、x(t)に対する線形予測分析を行う方法などが用いられる。本発明はhの推定方法については限定しておらず、任意の推定方法を用いてよい。
続いて、本発明の第1実施形態のパターン認識装置100について、図2を用いて説明する。図2を参照すると、伝達パス識別部102と、モデル学習部103と、モデル記憶部104とを含む学習信号からパターン認識用のモデルを作成する構成と、このモデルを用いてパターン認識を行うパターン認識装置100(破線内参照)とを含む構成が示されている。以下、伝達パス識別部102と、モデル学習部103と、モデル記憶部104とを含む学習信号からパターン認識用のモデルを作成する構成を「学習部」ともいう。
パターン認識装置100は、伝達パス識別部112と、モデル切替部113と、パターン認識部114と、モデル記憶部104とを含んで構成されている。
学習信号101は、後段のパターン認識用のモデルを作成するための音響信号である。学習信号101は、x_train(t,n)と表すことができる。ここで、tは時間を表すインデックスであり、nはx_train(t,n)が音響信号の種別を表すラベルである。例えば、入力の音響信号を「音声」と「音楽」に識別するパターン認識装置を考える場合、n={音声、音楽}となる。なお、以下、数式中の下付きの添え字xを「_x」と記す。
伝達パス識別部102は、学習信号x_train(t,n)の伝達パスを識別し、学習信号x_train(t,n)の伝達パスラベルcを出力する。例えば、伝達パス識別部102が識別する伝達パスが「空気」or「木材」であった場合、伝達パス識別部102は、学習信号x_train(t,n)の伝達パスを識別して、c=空気、もしくはc=木材を出力する。なお、伝達パス識別部102における伝達パスの識別方法については後に詳説する。
モデル学習部103は、学習信号x_train(t,n)に加えて伝達パスラベルcを用いてパターン認識用のモデルPを作成する。ここで、モデルPは、学習信号x_train(t,n)の種別を出力するよう作成される、つまり前述の例でいうと、学習信号x_train(t,n)の種別に応じて、「音声」もしくは「音楽」と識別するモデルが作成される。このモデルの作成には、「音声」又は「音楽」のいずれかの音響信号を用いた教師付きの学習信号を用いてもよい。ここで、本実施形態では、学習信号x_train(t,n)の伝達パスラベルcに応じて別のモデルを作成する。つまり、伝達パスラベルcが{空気、木材}の2種である場合、入力のcに応じて、P={P_空気、P_木材}の2種類のモデルが作成される。
モデル記憶部104は、モデル学習部103が作成したモデルPを記憶する。以上が、図2のモデルを作成するための学習部の構成となる。
続いて、上記したモデルを用いてパターン認識を行うパターン認識装置の各部の動作について説明する。受音信号111は、伝達パス識別部112とパターン認識部114に入力される。以下、この受音信号111をx(t)と表す。
伝達パス識別部112は、受音信号x(t)の伝達パスラベルdを算出し、モデル切替部113に出力する。なお、伝達パス識別部112は、上記伝達パス識別部102と同等の構成となる。
モデル切替部113は、伝達パスラベルdに応じて後段のパターン認識部114で用いるモデルを切り替え、伝達パスラベルdに対応するモデルP_dのみを出力する。例えばd=木材の場合、モデル切替部113は、モデル記憶部104に格納のモデルP={P_空気、P_木材}のうち、P_木材のみを出力する。
パターン認識部114では、モデル切替部113出力のモデルP_dを用いて受音信号x(t)に関するパターン認識を行い結果を出力する。本実施形態では、入力の音響信号を「音声」と「音楽」に識別するパターン認識を行うため、パターン認識部114は、「音声」、「音楽」、識別不能といった出力を行うことになる。
ここで、上記伝達パス識別部102及び伝達パス識別部112における伝達パスを識別する構成について説明する。図3は、本発明の第1の実施形態のパターン認識装置100の伝達パス識別部102/112の構成例を示す図である。
図3を参照すると、伝達パス特徴抽出部002と、パス識別モデル記憶部003と、パス識別部004と、を含む伝達パス識別部102/112の構成が示されている。
伝達パス特徴抽出部002は、受音信号001を入力とし伝達パス特徴を算出し出力する。
パス識別部004は、伝達パス特徴抽出部002によって出力された伝達パス特徴に基づいて、パス識別モデル記憶部003格納のパス識別モデルに基づき伝達パスを識別する。
図3の下段は、上記パス識別モデルを作成する識別モデル学習部010の構成を示している。伝達パス特徴抽出部002は、パス学習用信号とそのラベルの組011、即ち、教師付き学習信号を入力とし、伝達パスの特徴を算出し出力する。
パス識別モデル学習部013は、伝達パス特徴抽出部012出力の伝達パス特徴に基づいて、パス識別モデルを学習する。
上記伝達パス識別部102/112及び識別モデル学習部010の動作は次のとおりとなる。まず、パス学習用信号とそのラベルcの組011は、伝達パス特徴抽出部012へ入力される。このパス学習用信号とそのラベルcの組は、y_train(t,c)と表すことができる。
ここでラベルcとは、y_train(t,c)の伝達パスを識別するためのラベルである。例えば、空気伝播した音響信号の伝達パスをc=空気、木材を伝播した伝達パスをc=木材、金属を伝播した伝達パスをc=金属、とすることができる。このとき、パス学習用信号とそのラベルcの組y_train(t,木材)は、伝達パスが木材である場合の受音信号である。そして、パス学習用信号とそのラベルcの組y_train(t, 木材)から算出した伝達パス特徴は、木材の伝達パスの特徴を表しているといえる。
伝達パス特徴抽出部012は、上記y_train(t,c)からh_train(c)を算出し、パス識別モデル学習部013へ出力する。このh_train(c)が、前述の伝達パス特徴ベクトルである。
パス識別モデル学習部013は、伝達パス特徴ベクトルh_train(c)を入力とし、伝達パスの識別モデルMを作成する。この識別モデルMは、伝達パス特徴ベクトルを入力とし、ラベルcを出力とする多クラス分類器として機能する。なお、識別モデルMは、混合ガウス分布やサポートベクトルマシン、ニューラルネットなど任意のモデルを用いることができる。
伝達パス識別部102/112の各部は、次のように動作する。
受音信号001は伝達パス特徴抽出部002に入力される。ここで、受音信号をx(t)と記す。
伝達パス特徴抽出部002は、受音信号x(t)から伝達パス特徴ベクトルhを算出しパス識別部004へ出力する。
パス識別部004は、パス識別モデル記憶部003格納のパス識別モデルに基づき、伝達パスを識別し、伝達パスの識別結果を出力する。この識別結果が前述の伝達パスラベルdとなる。
以上説明したように、本実施形態のパターン認識装置100は、音響信号の伝達パスを識別し、パターン認識に用いるモデルを切り替える。そのため、異なる伝達パスが含まれるような環境においても頑健にパターン認識が可能となる。つまり、伝達パスの影響に頑健で、より高い精度でのパターン認識精度を実現できる。
なお、上記した説明では、パターン認識装置100には、伝達パス識別部102やモデル学習部103は含まれないものとして説明したが、パターン認識装置100が、伝達パス識別部102やモデル学習部103を備えていてもよい。このような構成を採ることで、パターン認識装置100の検出結果をさらに、学習データとして学習を行い、モデルを更新することが可能となる。
[第2の実施形態]
次に、上記第1の実施形態におけるモデルの切替を省略可能とした本発明の第2実施形態に係るパターン認識装置200について、図4を用いて説明する。
図4は、本発明の第2の実施形態のパターン認識装置の構成を示す図である。図4を参照すると、伝達パス特徴抽出部202と、モデル学習部203と、モデル記憶部204とを含む学習信号からパターン認識用のモデルを作成する構成と、このモデルを用いてパターン認識を行うパターン認識装置200(破線内参照)とを含む構成が示されている。以下、伝達パス特徴抽出部202と、モデル学習部203と、モデル記憶部204とを含む学習信号からパターン認識用のモデルを作成する構成を「学習部」ともいう。
パターン認識装置200は、伝達パス特徴抽出部212と、パターン認識部213と、モデル記憶部204とを含んで構成されている。
学習信号201は、パターン認識用のモデルを作成するための音響信号であり、伝達パス特徴抽出部202と、モデル学習部203とにそれぞれ入力される。学習信号101は、x_train(t,n)と表すことができる。
伝達パス特徴抽出部202は、学習信号x_train(t,n)の伝達パス特徴ベクトルh_trainを算出し、モデル学習部203に出力する。
モデル学習部203は、学習信号x_train(t,n)に加えてh_trainを用いてパターン認識用のモデルPを作成する。
モデル学習部203は、x_train(t,n)のみでなく、伝達パス特徴ベクトルh_trainをパターン認識用のモデルの作成のための特徴量として用いるため、x_train(t,n)の伝達パスの情報も考慮したモデルを作成することができる。モデル記憶部204は、モデル学習部203が作成したモデルPを作成する。
第2の実施形態におけるh_trainを用いたモデルPは、次のように作成できる。例えば、学習信号x_train(t,n)から得られた特徴ベクトルgに対して、連結したベクトル[g,h]を新たな特徴ベクトルとしてモデルPを作成することで、伝達パス特徴ベクトルh_trainを考慮したモデルを作成することができる。また、上記の方法に代えて、伝達パス特徴ベクトルh_trainを学習信号x_trainの事前分布や条件付き分布パラメータとしてモデルPを作成してもよい。
続いて、上記したモデルを用いてパターン認識を行うパターン認識装置200の各部の動作について説明する。
受音信号211は、伝達パス特徴抽出部212とパターン認識部213にそれぞれ入力される。以下、受音信号211をx(t)とも記す。
伝達パス特徴抽出部212は、伝達パス特徴抽出部x(t)の伝達パス特徴ベクトルhを算出し、パターン認識部213に出力する。
パターン認識部213は、受音信号x(t)と伝達パス特徴ベクトルhを入力としてx(t)に関するパターン認識を行い結果を出力する。
以上のとおり、本実施形態では、音響信号の伝達パス特徴ベクトルを補助特徴量として用い、パターン認識用のモデルを作成する。そのため、異なる伝達パスが含まれるような環境においても頑健にパターン認識が可能となる。つまり、伝達パスの影響に頑健で、より高い精度でのパターン認識精度を実現できる。
[第3の実施形態]
次に、伝達パス特徴ベクトルhをモデルの補正に用いるように構成した本発明の第3の実施形態のパターン認識装置300について、図5を用いて説明する。
図5は、本発明の第3の実施形態のパターン認識装置の構成を示す図である。図5を参照すると、モデル記憶部303と、伝達パス特徴抽出部302と、モデル補正部304と、補正後のモデルを用いてパターン認識を行うパターン認識部305とを備えたパターン認識装置300が示されている。なお、図5では、第1、第2の実施形態における学習部に相当する構成は、省略しているが、学習信号を入力として、モデル記憶部303に記憶するモデルを作成するモデル学習部が備えられていてもよい。
受音信号301は、伝達パス特徴抽出部302と、パターン認識部305に入力される。以下、受音信号301をx(t)とも記す。
伝達パス特徴抽出部302は、受音信号x(t)の伝達パス特徴ベクトルhを算出し、モデル補正部304に入力する。
モデル補正部304は、モデル記憶部303に記憶されているモデルPを、伝達パス特徴ベクトルhに基づき補正し、補正したモデルP_newを出力する。伝達パス特徴ベクトルhは、伝達パスによる信号の周波数特性変化を表す特徴である。
受音信号x(t)のパターン認識を行う場合、受音信号x(t)には伝達パスの影響が含まれる。換言すると、受音信号x(t)は、パターン認識時に特徴量空間上にて伝達パス特徴ベクトルhに相当するズレが生じている。そのため、モデル補正部304ではモデルPをそのズレの分だけ補正する。以下、モデルPで用いるx(t)に関する音響特徴量が周波数スペクトルである場合を例としてその原理を説明する。
受音信号x(t)のフーリエ変換をF(x(t))とすると、下記[数2](再掲)は、フーリエ変換の定義より、[数3]のように書き換えられる。
[数2]
Figure 0007211419000003
[数3]
Figure 0007211419000004
つまり、特徴量空間において、受音信号x(t)は、F(h)分だけズレが生じているといえる。そのため、モデルPのパラメータに対してF(h)分の線形変換を加えることで、モデルPを補正し、ズレを除去したモデルP_newを得ることができる。
パターン認識部305は、受音信号x(t)を入力として、補正後のモデルP_newに基づきx(t)に関するパターン認識を行い、結果を出力する。
ここで、モデル記憶部303が格納するモデルPは、伝達特性hの影響がないような学習信号を用いて、つまり音源信号s(t)を用いて学習されたものである。ここで、モデルPの作成に用いた学習信号にすでに何らかの伝達パス特性h2が加わっている場合には、伝達パス特性h2の特性とhの特性の差分、つまりF(h)-F(h2)を用いてモデルPを補正することで新たなモデルP_newを得る。
以上のとおり、本実施形態では、音響信号の伝達パス特徴ベクトルhを用いて、モデルPを補正する。そのため、異なる伝達パスが含まれるような環境においても頑健にパターン認識が可能となる。つまり、伝達パスの影響に頑健で、より高い精度でのパターン認識精度を実現できる。
[第4の実施形態]
次に、伝達パス特徴ベクトルhを用いて入力信号を補正するように構成した本発明の第4の実施形態のパターン認識装置400について、図6を用いて説明する。
図6は、本発明の第4の実施形態のパターン認識装置の構成を示す図である。図6を参照すると、伝達パス特徴抽出部402と、入力信号補正部403と、モデル学習部404と、モデル記憶部405とを含む学習信号からパターン認識用のモデルを作成する構成と、このモデルを用いてパターン認識を行うパターン認識装置400(破線内参照)とを含む構成が示されている。以下、伝達パス特徴抽出部402と、入力信号補正部403と、モデル学習部404と、モデル記憶部405とを含む学習信号からパターン認識用のモデルを作成する構成を「学習部」ともいう。
パターン認識装置400は、伝達パス特徴抽出部412と、入力信号補正部403と、パターン認識部414と、モデル記憶部405とを含んで構成されている。
学習信号401は、後段のパターン認識用のモデルを作成するための音響信号である。以下、学習信号401を、x_train(t,n)とも記す。
伝達パス特徴抽出部402は、学習信号x_train(t,n)の伝達パス特徴ベクトルh_trainを算出し、入力信号補正部403に出力する。
入力信号補正部403は、学習信号x_train(t,n)を伝達パス特徴ベクトルh_trainに基づき補正し、新たな信号x_train_new(t,n)を出力する。前述の受音信号x(t)と同様に、学習信号x_train(t,n)は、次式[数4]で表され、h_trainによって周波数特性の変化が生じている。
[数4]
Figure 0007211419000005
そのため、学習信号x_train(t,n)に対して、伝達パス特徴ベクトルh_trainと逆の特性となるような逆フィルタを乗算することにより、その変化を打ち消すことができる。FIRフィルタの逆フィルタについては、任意の方法を用いてよい。また補正は、周波数領域で表してもよく、畳み込み項は積として、下記[数5]により表される。
[数5]
Figure 0007211419000006
ここで、伝達パス特徴ベクトルh_trainの逆の逆フィルタを(h_train)-1、F(h_train)の逆特性をF(h_train)-1として表現すると、[数5]は[数6]のように書き換えられる。
[数6]
Figure 0007211419000007
補正後の学習信号である上記[数6]のx_train_new(t,n)は、モデル学習部404に出力される。
モデル学習部404は、補正後の学習信号x_train_new(t,n)を用いてモデルPを作成する。モデル学習部404は、学習信号x_train(t,n)の伝達パス特徴ベクトルh_trainによる周波数特性変化を打ち消した信号であるx_train_newを用いてモデルを作成する。このため、伝達パスの影響に左右されずにモデルを作成することができる。
モデル記憶部405は、モデル学習部404が出力したモデルPを記憶する。このモデルPha,音響信号の伝達パス特徴ベクトルh_trainを用いて補正した学習信号を用いて作成されてい。このため、異なる伝達パスが含まれるような学習信号を用いても伝達パスの影響に左右されないモデルを作成できる。
続いて、上記したモデルを用いてパターン認識を行うパターン認識装置400の各部の動作について説明する。受音信号411は、伝達パス特徴抽出部412と入力信号補正部413にそれぞれ入力される。以下、受音信号411をx(t)とも記す。
伝達パス特徴抽出部412及び入力信号補正部413は、伝達パス特徴抽出部402、入力信号補正部403と同様にして、受音信号x(t)を補正し、パターン認識部414に補正後の受音信号x_new(t)を出力する。パターン認識部414は、補正後の受音信号x_new(t)を入力としてx_new(t)に関するパターン認識を行い、結果を出力する。上記パターン認識部414では、上記モデルの作成過程と同様に、音響信号の伝達パス特徴ベクトルを用いて補正した信号に対してパターン認識処理を行う。このため、異なる伝達パスが含まれるような信号に対しても伝達パスの影響に左右されずパターン認識ができる。
前述したとおり、本実施形態では、本実施形態では、パターン認識用のモデルの作成過程においても、音響信号の伝達パス特徴ベクトルを用いて補正した学習信号を用いてモデルを学習する。このため、異なる伝達パスが含まれるような学習信号を用いても伝達パスの影響に左右されないパターン認識を実施できる。
また、音響信号の伝達パス特徴ベクトルを用いて補正した信号に対してパターン認識処理を行うため、異なる伝達パスが含まれるような信号に対しても伝達パスの影響に左右されずパターン認識ができる。
つまり、本実施形態の構成もまた、伝達パスの影響に頑健で、より高い精度でのパターン認識精度を実現できるものとなっている。
[第5の実施形態]
次に、本発明の第5の実施形態のパターン認識装置500について、図7を用いて説明する。
図7は、本発明の第5の実施形態のパターン認識装置の構成を示す図である。図7を参照すると、伝達パス特徴抽出部502と、入力信号補正部503と、モデル学習部504と、モデル記憶部505とを含む学習信号からパターン認識用のモデルを作成する構成と、このモデルを用いてパターン認識を行うパターン認識装置500(破線内参照)とを含む構成が示されている。以下、伝達パス特徴抽出部502と、入力信号補正部503と、モデル学習部504と、モデル記憶部505とを含む学習信号からパターン認識用のモデルを作成する構成を「学習部」ともいう。
この第5の実施形態は、上記第1~第4の実施形態の構成をすべて組み合わせたものである。具体的には、学習部では、伝達パス特徴ベクトルを用いた入力信号の補正と、モデルの補正が行われる。また、このモデルは、伝達パス特徴ベクトルから把握される伝達パスによって伝達パスごとに作成され、それぞれが伝達パス特徴ベクトルを特徴量として含んでいる。
パターン認識装置500の動作も上記を組み合わせたものであり、パターン認識装置500は、伝達パス特徴ベクトルから把握される伝達パスによって伝達パスに対応するモデルを選択する。そして、パターン認識装置500は、伝達パス特徴ベクトルを用いた受音信号の補正と、モデルの補正が行った後で、伝達パス特徴ベクトルを含んだパターン認識を行う。
以上のような第1~第4を任意に組み合わせた構成を採ることで、より頑健なパターン認識を実施することが可能となる。なお、上記した第5の実施形態の説明では、上記第1~第4の実施形態の構成をすべて組み合わせるものとして説明したが、これらのすべてを組み合わせる必要はない。例えば、第1の実施形態と、第2~第4の実施形態のいずれか1~2つを組み合わせてもよい。同様に、第2の実施形態と、第3~第4の実施形態のいずれか1~2つを組み合わせてもよい。第3、第4の実施形態についても同様に、他の実施形態の1~3つを組み合わせることが可能である。
[第6の実施形態]
次に、本発明の第6実施形態の統合型のパターン認識装置600について、図8を用いて説明する。
図8は、本発明の第6の実施形態のパターン認識装置の構成を示す図である。図8を参照すると、パターン認識装置602と並列に第2の伝達パス識別部603を配置し、それぞれの出力が情報統合部604に入力される構成が示されている。
受音信号601は、パターン認識装置602、第2の伝達パス識別部603に入力される。以下、受音信号601をx(t)とも記す。
パターン認識装置602としては、上記第1から第5の実施形態を含む任意のパターン認識装置を用いることができる。従って、パターン認識装置602は、受音信号x(t)に関するパターン認識を行い、認識結果nを出力する。認識結果nは例えば「音声」や「音楽」など音響信号のパターンを表す。
第2の伝達パス識別部603は受音信号x(t)の伝達パスを識別し、識別結果(ラベル)cを出力する。この識別結果cは例えば「木材」や「金属」などx(t)がどのような伝達パスを通って受音されたかを示す。なお、パターン認識装置602側に、モデル切替用のための伝達パス識別部が備えられている場合、その伝達パス識別部を第2の伝達パス識別部603として用いることができる。
情報統合部604では、上記認識結果nと識別結果cとを入力とし、統合した情報を出力する。たとえば「空気中を伝播した音声」や、「木材を伝播した音楽」などである。
ここで、情報統合した結果により、後段においてさらに処理を加えてもよい。例えば木材の壁で遮られた2つの部屋A、Bを想定し、部屋Aにおいて動作している音声検出装置の前段として統合型パターン認識装置600を配置することを考える。この場合、統合型パターン認識装置600はn={音声、その他}、c={空気、木材}というパターン認識を行うことになる。その場合、情報統合部604の出力は、「空気中を伝播した音声」、「木材を伝播した音声」、などがあり得る。ここで、部屋Aに設置された統合型パターン認識装置600の設置目的が、部屋A内部の人間の音声検出であった場合、部屋の仕切りを構成する木材や金属を介して伝わる部屋B内部の人間の音声は検出の対象から外れる情報となる。そうした場合、受音信号x(t)が音声であったとしても、情報統合部604の出力結果を利用して、その伝達パスによりパターン認識の対象から外したり、逆に、部屋Aで検出された音声についてパターン認識を行うなどのより細かい粒度によるパターン識別が可能となる。
以上、説明したとおり、本実施形態では、音響信号の伝達パスを識別した結果を、音響信号のパターン認識結果と統合することにより、より細かい粒度のパターン識別を実現できる。
[第7の実施形態]
また、この第6の実施形態の構成に、図3にて説明した識別モデル学習部に相当する構成を追加することも可能である。図9は、本発明の第6の実施形態のパターン認識装置の変形構成を示す図である。図9を参照すると、上段の学習部に相当する部分及び情報統合部718が組み込まれたパターン認識装置700の下段に、識別モデル学習部を構成する、伝達パス特徴抽出部722、パス識別モデル学習部723及びパス識別モデル記憶部724が追加されている。これらは、第1の実施形態の説明したものと同様であるもので、説明を省略する。
パターン認識装置700の方は、図7に示した第5の実施形態の構成に、伝達パス特徴抽出部714及び(第2の)伝達パス識別部715を追加し、その後段に情報統合部718を配置した構成となっている。この構成は、パターン認識部717からの出力と、伝達パス識別部715からの出力とが情報統合部718に入力され、情報統合部718が統合した判断を行う第6の実施形態に相当するものである。従って、図9の構成は、第6の実施形態の構成に、別途、モデル学習部を構成する、伝達パス特徴抽出部722、パス識別モデル学習部723及びパス識別モデル記憶部724を追加したものとなる。これらの要素は、上記した核実施形態で説明済みであるので、説明を省略する。
[第8の実施形態]
続いて上記第1、第5、第6、第7の実施形態の伝達パス識別部においてモデルを用いずに伝達パスを特定できるようにした第8の実施形態を説明する。図10は、本発明の第8の実施形態の伝達パス識別部の構成を示すブロック図である。図10を参照すると、本発明の第8の実施形態の伝達パス識別部800は、複数のセンサ8101と8102(以降、センサ1、センサ2とも記す)と、特徴量算出部8201と、伝達パス判断部8202とを含む。
これらの手段はそれぞれ概略つぎのように動作する。複数のセンサ8101と8102は、一定の間隔をあけて固定され、それぞれ受信した信号の情報を得る。固定の方法の一例は、図11に示すように壁に沿ってセンサ8101、8102を配置するものである。本実施形態では、センサ8101、8102の出力はデジタル量の時系列信号として扱うことができるものとする。
特徴量算出部8201は、センサ8101、8102で受信した信号から、一定時間周期ごとに、信号の到来、伝達に要した空間パスを表現する特徴量を算出する。
伝達パス判断部8202は、前記特徴量を用いて、センサ8101、8102に入力されている信号が、空気中を伝搬してきたものか、あるいは固体中を伝搬してきたものかを判定し、判断結果8401を出力する。
次に、図10~16を参照して、本実施形態の全体の動作について詳細に説明する。はじめに、本実施形態の伝達パス識別部が識別する対象とする2つの事象、空気中を伝搬する音と固体中を伝搬する音について、図11から図16を用いて説明する。空気中を伝播してくる音とは、図11に示すように、音源8300とセンサ8101およびセンサ8102の間に空気が介在して伝わるものである。この場合、図13に示すように、音源8300からセンサ1 8101に到達する音響パスとしては直接音である音響パス1-1の他に、反射音である音響パス1-2、音響パス1-3、音響パス1-4など複数の音響パスが存在する。この場合、受信点となるセンサ1ではこれらの音響パスを通った音が混じった形で観測されることが通例である。同様に、図14に示すように、音源8300からセンサ2 8102に到達する音響パスも、同様に観測される。
これに対して、固体を伝播してくる音とは、図12に示すように固体、この場合は壁を例としているが、この固体に接して音源8300が存在する。この場合、図15に示すように、音源8300からセンサ1 8101に到達する音響パスとしては直接音である音響パスだけが存在し、反射音は存在しない。同様に、図16に示すように、音源8300からセンサ2 8102に到達する音響パスも、同様に観測される。
ここではセンサ1 8101とセンサ2 8102には、マイクロフォンを用いる。特徴量算出部8201は、センサ8101とセンサ8102から入力される信号のクロススペクトルを逐次計算する。すなわち、センサ8101の信号系列x1(t)とセンサ8102の信号系列x2(t)について、それぞれのフーリエ変換をX1(f),X2(f)と置き、X2(f)の複素共役をX2*(f)とすれば、ある時刻におけるクロススペクトルW(f)は、W(f)=(X1(f) X2*(f))として計算することができる。
このクロススペクトルそのもの、あるいはクロススペクトルの形状を適切な形状のフィルタで切り出したものが、音源8300からセンサ1 8101へのパスとセンサ2 8102へのパスの伝達関数の類似度の逆、すなわち差異を表す。
ここでクロススペクトルを計算する際にノルム正規化を行うことにより、音の大きさへの依存性を除去することも可能である。
この差異を逆フーリエ変換することで、複数のセンサ8101、8102の間の相互相関関数を得る。ここでは、この相互相関関数を特徴量として出力する。
次に、伝達パス判断部8202の動作について説明する。もしも特徴量算出部8201が生成した相互相関関数が単一のピークを持つ場合は、複数のセンサ8101、8102の間に時間遅れの関係しか存在しないことは明らかである。この場合、反射波による影響は存在しないので、伝達パス判断部8202は固体中を伝搬してきた音であると判断し、判断結果8401として出力する。
一方、特徴量算出部8201が生成した相互相関関数が複数のピークを持つ場合は、複数のセンサ8101、8102の間に時間遅れ以外の関係が存在することから、反射波による影響が存在するので、伝達パス判断部8202は空気中を伝搬してきた音であると判断し、判断結果8401として出力する。
ここではセンサ数を2であるとして説明したが、センサ数を3以上とし、それぞれの間で判断を行い、多数決または論理和あるいは論理積を取って判断を行っても良く、それによって推定精度を高めることが可能である。
また、受信した信号がある一定以上のパワーを持っている時だけ、伝達パス判断部8202が動作しても良い。それによってパワーの小さい信号ひいてはS/N比の小さい条件下で発生する誤りを低減することも可能となる。
なお、上記した実施形態では典型的に伝達経路を空気中と固体中としたが、空気中は反射の存在する典型的な経路であり、固体中は反射の無い典型的な経路である範囲で、他の媒質としてもかまわない。例えば、空気中は、窒素などの気体、水などの液体で代えることができる。また固体中は、十分に粘性の高いゲル状の物体などで代えることができる。
次に、本実施形態の効果について説明する。本実施形態によれば、複数のセンサを用いて信号の伝達パスを推定するため、受信点だけの情報があれば伝達パスの推定が可能であり、送信側あるいは伝達経路に関する情報を用いたモデルは必要ではない。換言すると、本実施形態は、特別な空間内キャリブレーションを必要とせず通常の運用で範囲が計算できるため、設置コストを低減することができるという利点もある。
[第9の実施形態]
続いて、上記伝達パスの判定精度をより向上できるようにした第9の実施形態について図面を参照して詳細に説明する。図17は、本発明の第9の実施形態の構成を示すブロック図である。図17を参照すると、本発明の第9の実施形態の伝達パス識別部8100Aは、第8の実施形態の構成に加えて、蓄積部8203、範囲決定部8204及び判断モデル8205を有する。その他の構成は第1の実施形態と同様であるので、以下、その相違点を中心に説明する。
蓄積部8203は、特徴量算出部8201が過去において算出した特徴量を一定期間蓄積する。蓄積部8203における特徴量の蓄積期間は、例えば複数のセンサ8101、8102を設置して以来といった長期間のものでも良いが、典型的には例えば過去1日間の特徴量を蓄積するものでもよい。以下、本実施形態では、蓄積部8203は、1フレームの長さを1秒間とし、重なりの無い1日分の86400フレームを蓄積するものとして説明する。
範囲決定部8204は、蓄積部8203が蓄積した全フレームの特徴量を、特徴量空間にマップする。図18は、範囲決定部8204による特徴量のマッピングの例を示す。図18の例では、44フレームのみを記載しているが、蓄積されたフレーム数が変わっても同様である。
ここで、図18は、該当特徴量に幾つのフレームが該当するかを数値で表現した、2つの相互相関関数を変数とした2次元ヒストグラム(ヒートマップとも言う。)である。図18の例では、37フレームがほぼ同一の特徴量を持ち、残るフレームはそれぞれ異なる特徴量を持つ。ここで、多数のフレームが同一の特徴量を持つということは、特徴量の分散が小さく遅延項のみで構成されていることであるから、図18で点線の円で示した範囲を、固体中を伝搬経路とする特徴量の範囲であると決定することができる。一方、その他の領域は特徴量の分散が大きいということであるから、それ以外の範囲を、空気中を伝搬経路とする特徴量の範囲であると決定することができる。ここで多数のフレームである条件としては、予め定められた閾値Dを超えた点全てを取るという条件を採用することができる。もちろん、閾値Dを超えたという条件の代わりに最大値を取る特徴量としても良い。また範囲の円の半径εは、雑音により影響を受ける範囲を想定して小さな値を予め決めることができる。
判断モデル8205は、このようにして得られた範囲の情報を判断モデルとして保存したものである。従って、上記した範囲決定部8204は、判断モデル作成部と言い換えることもできる。
なお、上記した蓄積部8203は、伝達パス識別部を構成するコンピュータの記憶装置を用いて構成することができる。同様に、判断モデル8205も、伝達パス識別部を構成するコンピュータの記憶装置に保存させることができる。
伝達パス判断部8202は、特徴量算出部8201が出力した特徴量の値を、前記判断モデル(パス識別モデル)8205に保存された範囲の情報と比較して、該当特徴量が空気中の伝搬経路であるか固体中の伝搬経路であるかを決定し、該当判断結果8401を判断出力として出力する。
次に、本実施形態の効果について説明する。本実施形態では、過去の情報を用いて判断を行うことができるため、設置した環境に応じて最適な判定を行い、その精度を向上させることが可能である。なお、上記した実施形態では、過去1日間の特徴量を蓄積し、判断モデル(パス識別モデル)8205を作成するものとして説明したが、蓄積した特徴量をさまざまな観点で層別し、複数の判断モデル(パス識別モデル)を作成してもよい。例えば、伝達パス識別部が設置される環境が時刻や季節によって環境が変わるというような場合には、当該時刻を含む時間帯、該当する季節に得られた特徴量を用いて判断モデルを作成し、その判断モデルを用いて判定を行うこともできる。
上記した第8、第9の実施形態の伝達パス識別部を用いることにより、空気中伝播と固体中伝播の2種類の伝播方法を従来よりも精度高く識別できるようになる。このような伝達パス識別部を採用することにより、第1、第5、第6の実施形態において、空気中、固体中といった性質の異なる伝達パスの違いを判定することが可能となり、より頑健なパターン認識を実施することが可能となる。
以上、本発明の各実施形態を説明したが、本発明は、上記した実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。例えば、各図面に示した装置構成、各要素の構成は、本発明の理解を助けるための一例であり、これらの図面に示した構成に限定されるものではない。また、以下の説明において、「A及び/又はB」は、A及びBの少なくともいずれかという意味で用いる。
たとえば、上記した実施形態では、主として入力信号が音響信号であることを想定して説明したが、入力信号の例はこれに限られない。例えば、振動センサから得られる時系列振動信号など、空間中を伝播し伝わり、その伝達パスにより特性が変化するような信号にも本発明を適用することが可能である.当然に、系列データには等間隔の系列データのみでなく不等間隔の系列データも含まれる.
本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体(non-transitory computer readable medium)は本発明の範疇に含まれる。
また、上記した第1~第9の実施形態に示した手順は、パターン認識装置や伝達パス識別部として機能するコンピュータ(図19の9000)に、これらの装置としての機能を実現させるプログラムにより実現可能である。このようなコンピュータは、図19のCPU(Central Processing Unit)9010、通信インタフェース9020、メモリ9030、補助記憶装置9040を備える構成に例示される。すなわち、図19のCPU9010にて、パターン認識プログラムや伝達パス特徴抽出プログラムを実行し、その補助記憶装置9040等に保持された各計算パラメータの更新処理を実施させればよい。
即ち、上記した第1~第9の実施形態に示したパターン認識装置や伝達パス識別部の各部(処理手段、機能)は、これらの装置に搭載されたプロセッサに、そのハードウェアを用いて、上記した各処理を実行させるコンピュータプログラムにより実現することができる。
最後に、本発明の好ましい形態を要約する。
[第1の形態]
(上記第1の視点によるパターン認識装置参照)
[第2の形態]
上記したパターン認識装置において、前記モデルは、少なくとも2以上の異なる伝達パス毎に、前記伝達パスを介して観測された信号を用いて作成される複数のモデルであり、
さらに、
入力信号の特徴量から伝達パスを識別する伝達パス識別部を含み、
前記パターン認識部は、
前記複数のモデルから前記識別した伝達パスに対応するモデルを選択して入力信号のパターン認識を行う構成を採ることができる。
[第3の形態]
前記モデルは、学習用信号の伝達パスの特徴を表す伝達パス特徴ベクトルを含む、前記学習用信号を用いて作成されたモデルであり、
上記したパターン認識装置は、さらに、
入力信号の伝達パスの特徴を表す伝達パス特徴ベクトルを計算する伝達パス特徴ベクトル抽出部を含み、
前記パターン認識部は、前記モデルを用いて、入力信号の特徴に加え、前記入力信号から計算した伝達パス特徴ベクトルを用いて、入力信号のパターン認識を行う構成を採ることができる。
[第4の形態]
上記したパターン認識装置は、さらに、
入力信号の伝達パスの特徴を表す伝達パス特徴ベクトルを計算する伝達パス特徴ベクトル抽出部と、
前記伝達パス特徴ベクトルを用いて、前記モデルを補正するモデル補正部とを含み、
前記パターン認識部は、前記補正後のモデルを用いて、入力信号のパターン認識を行う構成を採ることができる。
[第5の形態]
上記したパターン認識装置は、さらに、
前記伝達パス特徴ベクトルを用いて、前記入力信号を補正する入力信号補正部とを含み、
前記パターン認識部は、前記補正後の入力信号を用いて、パターン認識を行う構成を採ることができる。
[第6の形態]
上記したパターン認識装置は、さらに、
入力信号の特徴量から伝達パスを識別する第2の伝達パス識別部と、
前記パターン認識部の出力と、前記第2の伝達パス識別部の出力とを統合して、認識結果を出力する情報統合部と、を含む構成を採ることができる。
[第7の形態]
上記したパターン認識装置に入力される入力信号が音響信号であり、少なくとも前記伝達パスが空気中か固体中かを識別してパターン認識を行う構成を採ることができる。
[第8の形態]
上記したパターン認識装置において、
前記伝達パス識別部及び前記第2のパス識別部の少なくとも一方が、
複数のセンサのセンサ出力信号から特徴量を計算する特徴量算出部と、
該当特徴量に対応して伝搬パスを判断する伝搬パス判断部と、
を含んで構成されている構成を採ることができる。
[第9の形態]
(上記第2の視点によるパターン認識方法参照)
[第10の形態]
(上記第3の視点によるプログラム参照)
なお、上記第9~第10の形態は、第1の形態と同様に、第2~第8の形態に展開することが可能である。
なお、上記の特許文献および非特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の開示の枠内において種々の開示要素(各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし選択(又は削除)が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。
001、111、211、301、411、511、601、711 受音信号
002、012、202、212、302、402、412,502、512、702、712、714、722 伝達パス特徴抽出部
003、724 パス識別モデル記憶部
004 パス識別部
011 パス学習用信号とそのラベルの組
013、723 パス識別モデル学習部
100、200、300、400、500、602、900 パターン認識装置
101、201、401、501、701 学習信号
004、102、112、603、715、800、8100A 伝達パス識別部
103、203、404、504、704 モデル学習部
104、204、303、405、505、705、901 モデル記憶部
113 モデル切替部
114、214、305、414、515、717、902 パターン認識部
304 モデル補正部
403、413、503、513、703、713 入力信号補正部
514、716 モデル補正・切替部
600 統合型パターン認識装置
604、718 情報統合部
721 パス学習信号
8101、8102 センサ
8201 特徴量算出部
8202 伝達パス判断部
8203 蓄積部
8204 範囲決定部
8205 判断モデル
8300 音源
8301 壁
8401 判断結果
9000 コンピュータ
9010 CPU
9020 通信インタフェース
9030 メモリ
9040 補助記憶装置

Claims (9)

  1. 学習用信号に加えて、該学習用信号の伝達パスの違いを示す伝達パス情報を用いて作成されたモデルを記憶するモデル記憶部と、
    前記モデルを用いて、入力信号と、該入力信号の伝達パスの違いを示す伝達パス情報とを入力として、入力信号のパターン認識を行うパターン認識部と、
    入力信号の特徴量から伝達パスを識別する伝達パス識別部と、
    前記パターン認識部の出力と、前記伝達パス識別部の出力とを統合して、認識結果を出力する情報統合部と、
    を含むパターン認識装置。
  2. 前記モデルは、少なくとも2以上の異なる伝達パス毎に、前記伝達パスを介して観測された信号を用いて作成される複数のモデルであり、
    さらに、
    入力信号の特徴量から伝達パスを識別する第2の伝達パス識別部を含み、
    前記パターン認識部は、
    前記複数のモデルから前記第2の伝達パス識別部で識別した伝達パスに対応するモデルを選択して入力信号のパターン認識を行う請求項1のパターン認識装置。
  3. 前記モデルは、学習用信号の伝達パスの特徴を表す伝達パス特徴ベクトルを含む、前記学習用信号を用いて作成されたモデルであり、
    さらに、
    入力信号の伝達パスの特徴を表す伝達パス特徴ベクトルを計算する伝達パス特徴ベクトル抽出部を含み、
    前記パターン認識部は、前記モデルを用いて、入力信号の特徴に加え、前記入力信号から計算した伝達パス特徴ベクトルを用いて、入力信号のパターン認識を行う請求項1又は2のパターン認識装置。
  4. さらに、
    入力信号の伝達パスの特徴を表す伝達パス特徴ベクトルを計算する伝達パス特徴ベクトル抽出部と、
    前記伝達パス特徴ベクトルを用いて、前記モデルを補正するモデル補正部とを含み、
    前記パターン認識部は、前記補正後のモデルを用いて、入力信号のパターン認識を行う請求項1又は2のパターン認識装置。
  5. さらに、
    前記伝達パス特徴ベクトルを用いて、前記入力信号を補正する入力信号補正部とを含み、
    前記パターン認識部は、前記補正後の入力信号を用いて、パターン認識を行う請求項4のパターン認識装置。
  6. さらに、
    入力信号の伝達パスの特徴を表す伝達パス特徴ベクトルを計算する伝達パス特徴ベクトル抽出部と、
    前記伝達パス特徴ベクトルを用いて、前記入力信号を補正する入力信号補正部とを含み、
    前記パターン認識部は、前記補正後の入力信号を用いて、パターン認識を行う請求項1又は2のパターン認識装置。
  7. 前記入力信号が音響信号であり、少なくとも前記伝達パスが空気中か固体中かを識別してパターン認識を行う請求項1から6いずれか一のパターン認識装置。
  8. 前記伝達パス識別部及び前記第2の伝達パス識別部の少なくとも一方が、
    複数のセンサのセンサ出力信号から特徴量を計算する特徴量算出部と、
    当該特徴量に対応して伝達パスを判断する伝達パス判断部と、
    を含んで構成されている請求項2のパターン認識装置。
  9. 学習用信号に加えて、該学習用信号の伝達パスの違いを示す伝達パス情報を用いて作成されたモデルを記憶するモデル記憶部を備えるコンピュータがパターンを認識するパターン認識方法であって
    入力信号と、該入力信号の伝達パスの違いを示す伝達パス情報とを入力するステップと、
    前記モデルを用いて、前記入力信号と、前記伝達パス情報とを入力として、入力信号のパターン認識を行うステップと、
    入力信号の特徴量から伝達パスを識別するステップと、
    前記入力信号のパターン認識を行った認識結果と、前記伝達パスを識別した識別結果とを統合して情報を出力するステップと、
    を含むパターン認識方法。
JP2020518850A 2018-05-15 2018-05-15 パターン認識装置、パターン認識方法及びパターン認識プログラム Active JP7211419B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/018740 WO2019220532A1 (ja) 2018-05-15 2018-05-15 パターン認識装置、パターン認識方法及びパターン認識プログラム

Publications (2)

Publication Number Publication Date
JPWO2019220532A1 JPWO2019220532A1 (ja) 2021-05-20
JP7211419B2 true JP7211419B2 (ja) 2023-01-24

Family

ID=68539687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020518850A Active JP7211419B2 (ja) 2018-05-15 2018-05-15 パターン認識装置、パターン認識方法及びパターン認識プログラム

Country Status (3)

Country Link
US (1) US11620985B2 (ja)
JP (1) JP7211419B2 (ja)
WO (1) WO2019220532A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285103A (ja) 2005-04-04 2006-10-19 Nissan Motor Co Ltd 音声認識装置および方法
JP2009157337A (ja) 2007-12-06 2009-07-16 Sanyo Electric Co Ltd 集音環境判定装置及びそれを備えた電子機器並びに集音環境判定方法
JP2015082036A (ja) 2013-10-23 2015-04-27 日本電信電話株式会社 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
JP3204654B2 (ja) 2000-01-14 2001-09-04 富士技研センター株式会社 反射音を考慮した道路騒音の予測方法
US7516071B2 (en) * 2003-06-30 2009-04-07 International Business Machines Corporation Method of modeling single-enrollment classes in verification and identification tasks
JP2005031258A (ja) 2003-07-09 2005-02-03 Canon Inc 認識モデル学習装置及び方法
US8611560B2 (en) * 2007-04-13 2013-12-17 Navisense Method and device for voice operated control
US8050142B2 (en) 2007-12-06 2011-11-01 Sanyo Electric Co., Ltd. Sound collection environment deciding device, sound processing device, electronic appliance, sound collection environment deciding method and sound processing method
JP2011085824A (ja) 2009-10-19 2011-04-28 Sony Corp 音響識別装置、その処理方法およびプログラム
US20130083929A1 (en) 2011-09-30 2013-04-04 Hitachi, Ltd. Method for analyzing sound transmission paths in a system
US9984678B2 (en) * 2012-03-23 2018-05-29 Microsoft Technology Licensing, Llc Factored transforms for separable adaptation of acoustic models
US8768695B2 (en) * 2012-06-13 2014-07-01 Nuance Communications, Inc. Channel normalization using recognition feedback
WO2014018004A1 (en) * 2012-07-24 2014-01-30 Nuance Communications, Inc. Feature normalization inputs to front end processing for automatic speech recognition
US9135915B1 (en) * 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
US9620116B2 (en) * 2013-12-24 2017-04-11 Intel Corporation Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
US10313782B2 (en) * 2017-05-04 2019-06-04 Apple Inc. Automatic speech recognition triggering system
JP7103353B2 (ja) * 2017-05-08 2022-07-20 ソニーグループ株式会社 情報処理装置
US20190043509A1 (en) * 2017-08-04 2019-02-07 Cirrus Logic International Semiconductor Ltd. Audio privacy based on user identification
US10854186B1 (en) * 2019-07-22 2020-12-01 Amazon Technologies, Inc. Processing audio data received from local devices
US11356783B2 (en) * 2020-10-02 2022-06-07 Oticon A/S Hearing device comprising an own voice processor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285103A (ja) 2005-04-04 2006-10-19 Nissan Motor Co Ltd 音声認識装置および方法
JP2009157337A (ja) 2007-12-06 2009-07-16 Sanyo Electric Co Ltd 集音環境判定装置及びそれを備えた電子機器並びに集音環境判定方法
JP2015082036A (ja) 2013-10-23 2015-04-27 日本電信電話株式会社 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHU, Selina, et al.,"Environmental Sound Recognition with Time-Frequency Audio Features",IEEE Transactions on Audio, Speech, and Language Processing,2009年06月23日,Vol.17, No.6,pp.1142-1158
LI, Jinyu, et al.,"An Overview of Noise-Robust Automatic Speech Recognition",IEEE/ACM Transactions on Audio, Speech, and Language Processing,2014年02月05日,Vol.22, No.4,pp.745-777

Also Published As

Publication number Publication date
JPWO2019220532A1 (ja) 2021-05-20
WO2019220532A1 (ja) 2019-11-21
US20210074268A1 (en) 2021-03-11
US11620985B2 (en) 2023-04-04

Similar Documents

Publication Publication Date Title
CN110352349B (zh) 异常音检测装置、异常度计算装置、异常音生成装置、异常信号检测装置、及其方法、记录介质
CN105810193B (zh) 训练语言模型的方法和设备及识别语言的方法和设备
EP3142106B1 (en) Apparatus and method for generating acoustic model, and apparatus and method for speech recognition
da Silva et al. Structural damage detection by fuzzy clustering
JP6235938B2 (ja) 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
US10565699B2 (en) Apparatus and method for detecting anomaly in plant pipe using multiple meta-learning
CN110767223B (zh) 一种单声道鲁棒性的语音关键词实时检测方法
JP6236282B2 (ja) 異常検出装置、異常検出方法、及びコンピュータ読み取り可能な記憶媒体
JP2010122912A (ja) 異常判定装置、方法、及びプログラム
JP2018529298A (ja) 環境コンテキストにおいて人間のような制御行動をシミュレーションするためのシステム及びコンピュータに基づく方法。
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
WO2019220620A1 (ja) 異常検出装置、異常検出方法及びプログラム
JP6729577B2 (ja) 信号検知装置、信号検知方法およびプログラム
JP7014295B2 (ja) 異常検出装置、異常検出方法及びプログラム
Zheng et al. Recursive adaptive algorithms for fast and rapidly time-varying systems
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP5791081B2 (ja) 音源分離定位装置、方法、及びプログラム
JP7211419B2 (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
JP2022092827A (ja) 計算機システム及びデータ処理方法
CN115758237A (zh) 基于智能巡检机器人的轴承故障分类方法及系统
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
JP2020030373A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP6984744B2 (ja) 伝搬パス推定装置、伝搬パス推定方法及びプログラム
CN114495974B (zh) 音频信号处理方法
CN115579019A (zh) 语音分类模型的优化训练方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221226

R151 Written notification of patent or utility model registration

Ref document number: 7211419

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151