JP2012514228A - パターン発見およびパターン認識のための方法 - Google Patents

パターン発見およびパターン認識のための方法 Download PDF

Info

Publication number
JP2012514228A
JP2012514228A JP2011544065A JP2011544065A JP2012514228A JP 2012514228 A JP2012514228 A JP 2012514228A JP 2011544065 A JP2011544065 A JP 2011544065A JP 2011544065 A JP2011544065 A JP 2011544065A JP 2012514228 A JP2012514228 A JP 2012514228A
Authority
JP
Japan
Prior art keywords
sequence
concept
transition
matrix
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011544065A
Other languages
English (en)
Other versions
JP5611232B2 (ja
Inventor
ライネ,ウント
ラサネン,オッコ
Original Assignee
アールト コルケアコウルスエーティ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アールト コルケアコウルスエーティ filed Critical アールト コルケアコウルスエーティ
Publication of JP2012514228A publication Critical patent/JP2012514228A/ja
Application granted granted Critical
Publication of JP5611232B2 publication Critical patent/JP5611232B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、パターン発見およびパターン認識のための方法に関し、概念に関連する第1のシーケンス・シンボルを含む第1のシーケンスおよび第1のシーケンスと関係づけられたタグが受けられ、遷移確率マトリックスが、第1のシーケンスの中の異なる距離における第1のシーケンス・シンボルの間の遷移の発生の頻度データを表示する遷移頻度マトリックスから得られ、各タグおよび各距離に対する遷移確率マトリックスが、第2のシーケンスの中で発生する概念を確定する活性化関数を得るために習得される。また、本発明は、パターン発見およびパターン認識の方法を実行するコンピュータ・プログラム製品および装置に関する。

Description

本発明は、パターン発見およびパターン認識のための方法に関する。また、本発明は、パターン発見およびパターン認識のためのコンピュータ・プログラム製品に関する。さらに、本発明は、パターン発見およびパターン認識のための装置に関する。
すべてのパターン発見法における基本的な考え方は、生成された(学習された)モデルと解析されている現在のパターンとの間の1つまたは複数の類似点を測定するために、統計的規則性をモデル化し、モデルを実際の表示と比較することである。
シーケンス(sequence)の中のパターンをモデル化し、認識するために使用される、知られている方法および技術の1つは、モデル化されるべきシーケンスがマルコフ性(Markov property)を有することを仮定するマルコフ・モデルである。マルコフ性を有することは、現在の状態が与えられると、将来の状態は、過去の状態とは無関係であるということを意味する。言い換えれば、現在の状態のみの記述が、プロセスの将来の展開に影響を与えうるすべての情報を完全に保持する。将来の状態は、確定プロセスの代わりに確率プロセスを通して到達される。
各ステップにおいて、システムは、ある一定の確率分布にしたがって、現在の状態から別の状態にその状態を変えてよく、または同じ状態に留まってよい。状態の変化は遷移と呼ばれ、種々の状態変化に関連する確率は、遷移確率と呼ばれる。
多くの物理的プロセスと、その物理的プロセスによって生成される、対応する観測可能なシーケンスとが、高次の相関係数によって測定されうる時間構造(temporal structure)など、強い構造(strong structure)を有する。したがって、使用される時間分解能に応じて、生成されるシーケンスは、将来の状態が過去の状態とは無関係であるマルコフ連鎖によって正確にモデル化されえない、(時間または空間にわたる)広い構造(wide structure)を有してよい。
本発明の1つの目的は、パターン発見およびパターン認識のための方法、パターン発見およびパターン認識のためのコンピュータ・プログラム製品、ならびにパターン発見およびパターン認識のための装置を提供することにある。
本発明の目的は、概念に関連する第1のシーケンス・シンボルを含む第1のシーケンスおよび第1のシーケンスと関係づけられたタグが受けられ、遷移確率マトリックスが、第1のシーケンスの中の異なる距離における第1のシーケンス・シンボルの間の遷移の発生の頻度データを表示する遷移頻度マトリックスから得られ、各タグおよび各距離に対する遷移確率マトリックスが、第2のシーケンスの中で発生する概念を確定する活性化関数を得るために習得される方法を提供することによって履行される。
また、本発明の目的は、概念に関する第1のシーケンス・シンボルを含む第1のシーケンスおよび第1のシーケンスと関係づけられたタグを受け、第1のシーケンスの中の異なる距離における第1のシーケンス・シンボルの間の遷移の発生の頻度データを表示する遷移頻度マトリックスから遷移確率マトリックスを得て、第2のシーケンスの中で発生する概念を確定する活性化関数を得るために、各タグおよび各距離に対する遷移確率マトリックスを学習するコンピュータ・プログラム製品を提供することによって履行される。
さらに、本発明の目的は、概念に関する第1のシーケンス・シンボルを含む第1のシーケンスおよび第1のシーケンスと関係づけられたタグを受け、第1のシーケンスの中の異なる距離における第1のシーケンス・シンボルの間の遷移の発生の頻度データを表示する遷移頻度マトリックスから遷移確率マトリックスを得て、第2のシーケンスの中で発生する概念を確定する活性化関数を得るために、各タグおよび各距離に対する遷移確率マトリックスを学習する装置を提供することによって履行される。
本発明の一実施形態は、独立請求項1による方法に関する。
加えて、本発明の一実施形態は、独立請求項10によるコンピュータ・プログラム製品に関する。
また、本発明の一実施形態は、独立請求項11による装置に関する。
さらに、実施形態は、従属請求項の中で定義される。
本発明の一実施形態によれば、方法は、概念に関する第1のシーケンス・シンボルを含む第1のシーケンスおよび第1のシーケンスと関係づけられたタグを受けることと、第1のシーケンスの中の異なる距離における第1のシーケンス・シンボルの間の遷移の発生の頻度データを表示する遷移頻度マトリックスから遷移確率マトリックスを得ることと、第2のシーケンスの中で発生する概念を確定する活性化関数を得るために、各タグおよび各距離に対する遷移確率マトリックスを学習することとを含む。
本発明の実施形態による方法は、例えば、ソフトウェアがパターン発見およびパターン認識の処理を実行するコンピュータ・システム、ラップトップ、または携帯電話であってよい装置において実施されうる。第2に、パターン発見およびパターン認識の処理は、パターン発見およびパターン認識の処理を実施するように適合されているプロセッサ(例えば、ディジタル・シグナル・プロセッサ(DSP)チップ)によって実行されうる。
用語「概念」(パターン)は、1シーケンスにおける(または2つの異なるシーケンスの間の)ある種の統計的規則性のことを言い、その概念は、他の概念(他の規則性)と異なり、すべてのノイズ状の不規則性と明確な対比をなす。
用語「タグ」は、あるシーケンスと関係づけられた徴候のことを言い、あるいはいくつかのタグが同じシーケンスと関係づけられ、これらの関連性が、概念と呼ばれる。
用語「遷移」は、シーケンス・シンボル(インデックス、ラベル)対のことを言う。シーケンス・シンボルは、シーケンスの基本的要素であり、シーケンス・シンボル対は、対の内部のシーケンス・シンボル間に距離を有する(言い換えれば、各シンボル対は、シーケンスの中にある一定の位置および相互の間隔(位置の違い)を有する)。
本発明の一実施形態によれば、前の一実施形態で開示される方法は、概念を含む第1の情報を受けることを含む。第1の情報は、例えばスピーチまたは画像であってよい。
本発明の一実施形態によれば、前の実施形態のいずれかで開示される方法は、タグを第1のシーケンスと関係づけることを含む。
本発明の一実施形態によれば、前の一実施形態のいずれかで開示される方法は、概念を含む第1の情報を離散化することおよび量子化すること、ならびに第1の情報を1次元の(1D−)第1のシーケンスの形で表示することを含む。また、視覚的(空間的)2D情報は、1Dシーケンスを形成するために異なる方法でサンプリングされうる。このため、詳細な説明は、シーケンシャル(1D)情報のみに限定する。より複雑な場合では、1セットの1Dシーケンス、ならびにこれらのシーケンス間の関連性(例えば、聴覚的表示と視覚的表示との間の関連性)を処理することが可能である。
本発明の一実施形態によれば、前の実施形態のいずれかで開示される方法は、第1のシーケンスにおけるシーケンス・シンボル間の遷移の発生の頻度データを収集することを含む。その方法は、各タグに対する、頻度データからなる、少なくとも1つのマトリックスを含むマトリックスの群で定式化される。群の中のマトリックスの数は、シーケンスから収集されたシンボル対の異なる距離の数、および概念に関連するタグの数に応じて決まる(例えば、マトリックスM(a、b|距離、タグ)、ここでa×bがマトリックスのサイズを画定し、マトリックスの数は距離のタグ倍に等しい)。
本発明の一実施形態によれば、前の実施形態のいずれかで開示される方法は、第1のシーケンスにおける遷移の発生の頻度データを、遷移頻度マトリックスに記憶することを含む。
本発明の一実施形態によれば、前の実施形態のいずれかで開示される方法は、後で示す式(1)〜式(3)によって、遷移頻度マトリックスを遷移確率マトリックスに正規化することを含む。
本発明の一実施形態によれば、第2のシーケンス(複数可)が第2の実際の情報から処理される、前の実施形態のいずれかで開示される方法は、第2の情報を第2のシーケンス(複数可)の形で表示するために、第2の情報を離散化し、量子化することによる概念を含む。
本発明の一実施形態によれば、前の実施形態のいずれかで開示される方法は、例えばスピーチ認識または画像認識に関するパターン認識のために使用される。使用された、方法を実行するアルゴリズムは、離散的な量子化された形で与えられる情報ストリームを取り込む。情報は、任意の時変プロセス、例えば視聴覚信号によって生成されてよく、または、情報は、空間的に変化するだけの、例えば静止画像であってよい。
本発明の実施形態による方法は、装置、例えばコンピュータ・システム、ラップトップ、または携帯電話の中で実施されてよく、ソフトウェアが、パターン発見およびパターン認識の処理を実行する。
第2に、パターン発見およびパターン認識の処理は、パターン発見およびパターン認識の処理を実施するように適合された、プログラムされたプロセッサ(例えば、ディジタル・シグナル・プロセッサ(DSP)チップ)によって実行されうる。
本発明の実施形態による方法を実行するアルゴリズムは、実際のシーケンスから証拠(evidence)を収集することによって統計を学習し、これらのシーケンスに対する統計モデルを構築し、それらの統計モデルをパターン発見およびパターン分類に適用する。
統計は、空間的事例では異なる空間距離において、または時間的事例では異なる遅延において見出されるシーケンス・シンボル対の頻度に基づく。時間シーケンスの事例では、シーケンス・シンボル対は、状態遷移として解釈されてよく、それらの対応する相対頻度は、対応する遷移確率を生じさせるために正規化されうる。異なるシーケンス・シンボル対の発生の数が、頻度マトリックスまたは表を形成するために収集されうる。あらゆる空間距離または時間的距離(遅延)は、それ自体のマトリックスまたは表を生成する。それに応じて、結合的統計が、2つの異なるシーケンスの間に生成されうる。
遷移統計が、マルチモーダル入力(タグ)の存在と結びつけられ、それにより、各タグが、タグに関連する時系列の中で1つの概念(パターン)を示す。モデルを訓練した後、前に学習された概念のうちの1つである知られていない概念が、新しいシーケンスから認識されうる。アルゴリズムは、シーケンスが高レベルの歪みおよびノイズで損なわれる状態において、および、事象の従属性が時間または空間にわたって分散され、それにより、隣接事象が、互いに従属するものと確実にみなすことができない状態において、特にパターン認識に対して調整される。
本発明の実施形態による方法とマルコフ連鎖との間の1つの違いは、本発明の実施形態による方法は、シーケンスから統計的証拠を収集し、最初に異なる距離において見出されるすべてのラベル対の数をカウントし、次いで、2つの異なる正規化(詳細な説明における式(1)および式(2))を実施し、活性化マトリックスの最終セットを導くために実行される第3の正規化の前に、これら2つの統計的表示を組み合わせることである。
導かれた表示のうちの1つだけ、遅延1の状態遷移マトリックスが、マルコフ連鎖法で知られる表示と同等である。活性化マトリックスの誘導において使用される他の2つの表示では、統計的証拠の取り扱いが、以前から知られている取り扱いとは大幅に異なる。
別の違いは、マルコフ連鎖は、典型的には1より大きい遅延にわたる統計を使用せず、マルコフ連鎖が使用するときは、統計は、単なるマトリックスの乗算(チャップマン−コルモゴロフの方程式)によって遅延1の遷移マトリックスから導かれうることである。本発明の実施形態による方法では、より大きな遅延にわたる統計が、シーケンスから直接取り込まれ、マトリックスの乗算によって近似値が求められる(概算される)ものではない。
本発明の実施形態による方法とマルコフ連鎖との間の第3の違いは、本発明の実施形態による方法は、あらゆる概念(式(2))および異なる距離のラベル対に対して得られたすべての活性化マトリックス(式(4))に対する2つの異なる表示を並列に使用することである。したがって、組み合わされた活性化パターンは、現在または前の状態に従属するばかりでなく、活性化マトリックスのセットによって説明されるシーケンスの中のすべての前の事象にも従属する。
本発明の実施形態による方法の利点は、外乱(disturbance)により、有限の時間窓または空間窓の中で元の情報が完全に壊されたかまたは著しく損なわれたデータを取り扱うときに明らかになる。元の情報は、モデルが、近隣にある利用可能な情報を利用できるときにのみ、さらには、モデルが、周辺にある損なわれていない情報に基づいて適切に連想することができるときにのみ、修復(訂正)されうる。
次に、本発明の態様が、例示的実施形態を添付の図面と併せて参照することによって、より詳細に説明される。
本発明の有利な一実施形態による、パターン発見およびパターン認識のための方法を示す例示的な概要流れ図である。 本発明の有利な一実施形態による、パターン発見のための方法を示す例示的流れ図である。 本発明の有利な一実施形態による、パターン認識のための方法を示す例示的流れ図である。 活性化のメジアン・フィルタをかけない時間の関数としての、発声における単語の表示の活性化を示す図である。 活性化のメジアン・フィルタリングをかけた時間の関数としての、発声における単語の表示の活性化を示す図である。 アルゴリズムの特徴学習曲線を示す図である。
図1は、本発明の実施形態によるパターン発見およびパターン認識の方法100を説明する概要流れ図を表す。
最初に、ステップ110で、データ、例えばスピーチ認識処理においていくつかの単語を含む発声が収集される。
収集されたデータは、ステップ120の間に処理され、それにより、処理されたデータから統計的規則性(パターン)を見出すことができ、見出されたパターンに対する統計モデルが生成される。学習段階において、同時に存在する外部のタグが、パターンのセットのうちのどの1つ(後で認識される)が実際のシーケンスのどこかに存在するかを示す。
最後に、ステップ130で、生成されたパターンの統計モデルと実際のパターンとの間の類似性を発見するために、パターンの統計モデルが、新しい、以前には見られなかった実際のデータと比較される。
図2Aは、より詳細な本発明の実施形態による発見方法200を説明する流れ図を、単なる1つの例によって開示する。
ステップ205における方法の開始の間に、方法を実行するコンピュータおよび/またはアプリケーションがスイッチを入れられ、アプリケーションのセット・アップの定義、および異なる変数およびパラメータの初期化など、パターンの学習プロセス、発見および認識の前に必要な段階が提供される。
この場合は、ユーザが、パターンの学習、発見および認識を考慮してセット・アップ、変数およびパラメータを定義する。
次に、ステップ210で、人によって話された1つまたは複数の単語を含む発声など、学習(訓練)プロセスにおいて使用される情報が、受信器、例えばマイクロフォン、および受信された音響信号をパターン発見およびパターン認識のソフトウェアに適切な形に修正することができる信号処理ユニットを介して、パターン発見およびパターン認識のソフトウェアに導入される。
ステップ215で、受信された情報(サンプル)が離散化され量子化されて、その後、ステップ220で、離散する量子化された情報が、1D−シーケンスまたは複数のシーケンスの形で表される。
次いで、ステップ225で、シーケンス(複数可)と関係づけるいくつかの事象(パターン)が、例えば数字またはアルファベットでありうるタグによって特定される。
それで、システムへの入力は、離散要素の時系列、もしくは1D−シーケンスを形成するためにサンプリングされた空間情報、および訓練段階における、シーケンスに関連するいくつかの事象またはパターンを特定するタグからなる。いくつかの場合では、1つの情報モダリティが、別のモダリティに対するタグを提供してよい。シーケンスの基本的要素はラベルと呼ばれ、最も簡単な場合では、シーケンスの基本的要素は、ベクトル量子化コードブックにおける項目と呼ばれてよく、またはシーケンスの基本的要素は、時系列もしくは画像の任意の種類の量子化によって生み出されうる。より複雑な場合では、シーケンスの基本的要素は、情報のいくつかの高レベルの表示、例えば透明な定性的特性を反映することができる事象または項目と呼ばれてよい。1つの例は、株式市場および複雑な計量経済学的プロセスのモデリングでありうる。他の情報源(可能な別のモダリティ源)が、いわゆる概念タグcの1セットによって表示される。
タグは、通常、時系列入力と関係づけられた別のプロセス(例えば、スピーチ認識の場合に別のモダリティ状の視覚または触知覚において実施されるカテゴリー化プロセス、または時系列に関連することが望まれる、手動で定義される事象のいくつかの他の群)の不変出力を表示する整数値である。
また、メカニズムは、反対方向に働くことができ、音響事象は、視覚的パターンを学習するためのタグとして働くことができる。1つのモダリティが、学習を助けるために他のモダリティに対するタグを形成することができる。より一般的には、方法は、異なるモダリティ間の統計的関連性の構築を可能にする。これは、(エージェントおよび人によって)意味の構成および学習をモデル化し理解する途上における主要な問題の1つである。
ステップ230で、概念(タグ)が活性化され、シーケンスが表示されるとき、アルゴリズムが、シーケンスの中の距離lにおけるラベル対(遷移)の発生の頻度データを収集し始める。
ステップ235で、アルゴリズムは、収集されたラベル対の発生の頻度データを、ヒストグラム表またはマトリックスT(遷移頻度マトリックス)に記憶する。元のラベルは、対応するラベル対の発生の数が必要なときに、Tに対するポインタとして使用されうる。
次のステップ240の間に、T内に収集されたヒストグラムは、次いで、別の表示Pを生み出すために使用される。
アルゴリズムの基幹(backbone)は、N×NのサイズのマトリックスPl、cであり、ここでNは、遷移確率マトリックスに類似するが、明確に定義された確率を含まず、代わりに一種の累積確率合計を含む、コードブックのサイズである。コードブックは、概念cが同時に存在する中で、ラベルa[t−l]からラベルa[t]までの正規化された遷移確率の記録を保持し、ここでl、c、t∈Zであり、lはセットl={l,l,l、...,l}の1項(member)であり、cはセットc={1,2,3,...,N}の1項である。言い換えれば、Nはシステムに導入された概念の総数である。仮にN=‖l‖と定義すれば、特定の遅延における各概念に対して1つの、合計N=N*NのPマトリックスのインスタンス(instance)が存在する。マトリックスTl、cは、それが、概念cが存在する中で、ラベルa[t−l]からラベルa[t]までの正規化された確率の代わりに遷移頻度の記録を保持することを除いて、Pl、cと同様である。
Pの値は、3段階の正規化プロセスのために、0と1との間の範囲内の古典的確率ではないので、Pの値は活性化値と呼ばれ、Pは活性化マトリックスと呼ばれる。Pに記憶される活性化値は、Tに記憶される頻度情報を使用することによって計算される。
次に、訓練が方法の中にいかにして提供されるかが表示される。表記法を簡単にするために、マトリックスPl、cおよびTl、cの要素は、P(a,a|l,c)およびT(a,a|l,c)の形で表示され、ここで最初の2つの変数aおよびaはラベルのマトリックス要素インデックス(aからaへの遷移、またはaおよびaの共起)を定義し、一方、lは遅延を定義し、cは概念を定義する。
入力は、訓練シーケンスS={s,s,...,s}およびシーケンス関連の概念V={v,v,...,v}からなり、ここで各v={c,c,...,c}であり、v∈cである。遅延lにおいて発生するシーケンスsの中のすべての遷移は、遷移頻度マトリックスTl、cに更新され、ここでcはsに関連するvの1項である。このプロセスは、訓練材料の中ですべてのSに対して繰り返される。
以下の疑似コードの例は、遷移頻度の収集プロセスを示す。
for i = 1:length{S}
s = S(i);
v = V(i)
for lag = 1:length(l)
for t = 1:length(s)
for c = 1:length(v)
T(s[t-lag],s[t] | lag,c) = T(s[t-lag],s[t]lag,c) +1;
end
end
end
end
ステップ240で、訓練材料の中で発生するすべての遷移が加算され、遷移頻度マトリックスTに記憶されるので、遷移確率を各ラベルからすべての他のラベルΣPr(a、a)=1に、
を行うことで正規化することによって、マトリックスが遷移確率マトリックスP’に正規化される。ここでNは、時系列におけるコードブックのサイズ、すなわち一意の要素の数である。
特定の遷移がすべての他の遷移に変わって1つのタグが存在する間に発生する確率が、P’ l、cに累積的に加算される。
このことが、概念の存在において非常に一般的なこれらの遷移の値を高める。マトリックスは、この時点で、次の状態の確率がマトリックスに加算されないという意味で、もはや明確に定義された遷移確率マトリックスではないことに留意されたい。それゆえ、Pの値は、今後は、(概念に固有の)活性化値と呼ばれ、認識プロセスの結果は概念活性化と呼ばれる。
最後に、任意の他の概念の代わりに1つの概念cが存在する間に遷移が発生する確率が、
を行うことで最後の活性化マトリックスPに組み入れられる。
言い換えれば、タグcの場合にaからaへの遷移の累積確率が、すべての可能なタグcの間に同じ遷移が発生する確率の合計で除される。仮に遷移が、すべての概念に対して等しい確度になり、それゆえ情報化値を含まないならば、遷移は、1/Ncの確率を有することになる。それゆえ、すべてのマトリックスの中の各要素は、完全にランダムな場合に対してゼロ活性化を有するために、および他の概念の間により多く発生する遷移に対して負の値を有するために、その値から減算された1/Nを有する。前述の1/N減算は、必ずしも必要なステップではないが、1/N減算は、プロセスをより便利にする。
訓練が完了したとき、方法は、ステップ245で終了する。
図2Bは、本発明の実施形態によるパターン認識法260を説明する流れ図を、単なる1つの例によって示す。
ステップ265での認識プロセスの開始は、発見プロセスの開始と同様である。
ステップ270で、プロセスは、第2の情報、実際の入力データをシステムに導入され、ステップ275および280の間に、第2の情報が、パターンを有する1つまたは複数のシーケンスの形で実際の入力データを提示するために、離散化および量子化することによって処理される。
次に、ステップ285で、実際の入力データからの概念が、シーケンス(複数可)の遷移を調査する(study)ことによって確定される。遷移は、各距離および各タグに関する遷移確率Pを有する。これらの確率は、学習段階の間に推定される。確率は、活性化関数Aを生成するために組み合わされ、最高の活性化レベルを有する概念が認識される。
それゆえ、実際の入力シーケンスが与えられると、時間tにおける概念cの活性化レベルは、入力シーケンスの後方履歴だけが含まれるときに、
として表現されうる。
パターン認識が完了したときに、ステップ290で、方法は終了する。
また、仮にシーケンスの中の最大遅延max(l)までの後続のラベルが予め知られているならば、P(s[t],s[t+l]|l,c)活性化値を式(4)の合計に含めることによって、双方向認識プロセスを有することができる。このことが、認識された事象の局所化を強める。なぜなら、活性化曲線のピーク値は、特定の概念に対して主要な統計的支援が存在する一点に集中し、遷移確率に関してその点周りに対称に分布するようになるからである。
式(4)は、各概念の候補に対する局所活性化推定を提供するが、多くの用途では、認識されている事象は、後に続くいくつかの時間フレームにわたって広がるので、より大きな時間窓の中で活性化出力を考察することが有用である。このことを行うための1つの可能性は、より大きな時間窓の中で活性化曲線を、最初にローパス・フィルタまたはメジアン・フィルタにかけることである。次いで、これらの概念に関する時間的活性化曲線のそれぞれが、活性化値の最大累積合計を有する長さL∈[Lmin,Lmax]の部分列を探索される。各概念モデルcに対してこれらの部分列が見出された後、最大の累積合計を有する部分列iが、概念仮説cを画定する。
minは、認識決定プロセスの中に含まれる情報に対する最小の時間的制限を設定し、少なくとも最短の可能な事象が認識されるのと同じほどの長さであるべきである。同様に、Lmaxは、情報の統合に対する時間的上限を画定し、少なくとも最長の可能な事象が認識されるのと同じほどの長さであるべきである。しかし、1事象の前後関係が、多くの場合、事象自体の手がかり(cue)を含み、遷移確率マトリックスに埋め込まれた統計は、この情報を考慮に入れるので、Lmaxに対してさらに大きな値を有することが、いくつかの状況において有利でありうる。
上記の式(2)および式(4)における加算(一次結合)が、値1を有する重み付け係数によって実施される。しかし、1でない値を有する重み付け係数αを使用することが可能である。これらの値は、いくつかの付加的な基準に基づいて、例えば、反復的にパターン認識の成功に基づいて確定されうる。
さらに、いくつかの情報源を組み入れるために、いくつかの、同時に量子化された入力ストリームに対してすべてのアルゴリズムを並列に実行することも可能である。このことが、頻度マトリックスおよび活性化マトリックスを、TΨ(a,a|l,c)およびPΨ(a,a|l,c)の形に変換し、ここでΨは入力ストリームが処理された数を表示する。各遅延における各概念に対して、かつ各ストリームに対して別個の概念マトリックスを構築するために、訓練が、単一ストリームの条件に対して同様に実施される。試験段階において、すべてのストリームからの確率出力が組み合わされて、時間tにおける概念cの確率
を得る。ここでωΨは、各入力ストリームに対して確定される重み付け係数である。
図3および図4に、説明されたパターン認識法に関する結果の例を示す。
概念マトリックスアルゴリズムが、教師なし単語学習実験に適用された。目的は、4人の話し手によってブリティッシュ・イングリッシュで話された4000の発声(男性2人および女性2人、1000発声/人)を含むコーパスから11の異なるキーワードを学習することであった。各発声は、1つまたは2つのキーワードを含み、これらのキーワードの存在を別のモダリティでシミュレーションするメタタグを付帯する。約3000の発声が訓練に割り当てられ、残りの1000の発声が試験のために割り当てられるときに、100%の認識精度が達成される。
スピーチ材料が、k平均法クラスタ化アルゴリズムを用いて、1ストリームのベクトル量子化(VQ)インデックス(フレーム長10ms、コードブック・サイズN=150)に量子化された。静的MFCCベクトルのユークリッド距離が、距離の単位(measure)として使用された。訓練が、1回に1発声ずつ、その関連する概念タグを伴って実施された。試験段階では、発声のVQストリームだけが入力として使用され、システムは、どのキーワード(概念タグ)が発声の中に埋め込まれているかを認識しなければならなかった。活性化曲線が、150msで窓をかけられ、Lminが350ms、Lmaxが450msに設定されて、メジアン・フィルタにかけられた。
図3は、発声「Daddy comes closer(父さんが近づいてくる)」における内部概念(すなわち単語)表示の活性化を、活性化のメジアン・フィルタをかけない時間の関数として例示する。図3の上側に、各概念の活動が、確率値を有する個別の曲線を示す時間の関数として示され、下側に、各概念に対して見出された部分列の最良の累積合計が示される。得られた(winning)概念の部分列の境界が、矢で指示される。
図4は、メジアン・フィルタをかけた同じプロセスを示す。正しいキーワード「daddy(父さん)」が、他の単語候補に対して明確なマージンを有して認識されることが、図から分かる。また、メジアン・フィルタリングは、より大きな時間窓にわたって情報を統合し、それゆえ、入力から連続的支援を受ける概念と、入力の中になんらかの知られている構造を単にランダムに見出す概念との間の違いを強める。上側に、各概念の活動が、確率値を有する個別の曲線を示す時間の関数として示され、下側に、各概念に対して見出された部分列の最良の累積合計が示される。得られた概念の部分列の境界が、矢で指示される。
図5は、アルゴリズムの特徴学習曲線を、訓練された発声の数を関数として表示する。学習曲線は、認識率が、ほんの数トークン(token)後に非常に速やかに増大し、3000の発声において100%の精度に到達することを示す。最初の500の発声を、右下に詳細に示す。
本発明が、これまで、上述の実施形態を参照して上で説明され、本発明いくつかの利点が例示された。本発明が、これらの実施形態に限定されないばかりでなく、本発明の趣旨および範囲内の、考えられるすべての可能な実施形態、ならびに以下の特許請求の範囲を含むことは明らかである。

Claims (11)

  1. 概念に関する第1のシーケンス・シンボルを含む第1のシーケンスおよび前記第1のシーケンスと関係づけられたタグを受けることと、
    前記第1のシーケンスの中の異なる距離における前記第1のシーケンス・シンボル間の遷移の発生の頻度データを表示する遷移頻度マトリックスから、遷移確率マトリックスを得ることと、
    第2のシーケンスの中で発生する前記概念を確定する活性化関数を得るために、各タグおよび各距離に対する前記遷移確率マトリックスを学習することと
    を含む、方法。
  2. 前記概念を含む第1の情報を受けることをさらに含む、請求項1に記載の方法。
  3. 前記タグを前記第1のシーケンスと関係づけることを含む、請求項1または2に記載の方法。
  4. 前記概念を含む第1の情報を離散化することおよび量子化すること、ならびに前記第1の情報を前記第1のシーケンスの形で表示することをさらに含む、請求項1乃至3のいずれか1項に記載の方法。
  5. 前記第1のシーケンスにおける前記遷移の前記発生の前記頻度データを収集することをさらに含む、請求項1乃至4のいずれか1項に記載の方法。
  6. 前記第1のシーケンスにおける前記遷移の前記発生の前記収集された頻度データを、前記遷移頻度マトリックスに記憶することをさらに含む、請求項1乃至5のいずれか1項に記載の方法。
  7. 前記遷移頻度マトリックスを前記遷移確率マトリックスに正規化することを含む、請求項1乃至6のいずれか1項に記載の方法。
  8. 前記第2のシーケンスが、第2の情報を前記第2のシーケンスの形で表示するために、前記第2の情報を離散化することおよび量子化することによって、前記概念を含む前記第2の情報から処理される、請求項1乃至7のいずれか1項に記載の方法。
  9. スピーチ認識または画像認識のために使用される、請求項1乃至8のいずれか1項に記載の方法。
  10. コンピュータ・プログラム製品がコンピュータ内で実行されるときに、請求項1乃至9のいずれか1項の前記方法を実行するように構成されたコンピュータ・プログラム製品。
  11. 請求項1乃至9のいずれか1項の前記方法を実行するように構成された装置。
JP2011544065A 2008-12-31 2009-12-28 パターン発見およびパターン認識のための方法 Active JP5611232B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI20086260 2008-12-31
FI20086260A FI20086260A (fi) 2008-12-31 2008-12-31 Menetelmä hahmon löytämiseksi ja tunnistamiseksi
PCT/FI2009/051041 WO2010076386A2 (en) 2008-12-31 2009-12-28 Method for a pattern discovery and recognition

Publications (2)

Publication Number Publication Date
JP2012514228A true JP2012514228A (ja) 2012-06-21
JP5611232B2 JP5611232B2 (ja) 2014-10-22

Family

ID=40240655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011544065A Active JP5611232B2 (ja) 2008-12-31 2009-12-28 パターン発見およびパターン認識のための方法

Country Status (7)

Country Link
US (1) US8560469B2 (ja)
EP (1) EP2382587B1 (ja)
JP (1) JP5611232B2 (ja)
CN (1) CN102308307B (ja)
ES (1) ES2536560T3 (ja)
FI (1) FI20086260A (ja)
WO (1) WO2010076386A2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10068050B2 (en) * 2013-10-30 2018-09-04 Vahagn Gurzadyan Revealing somatic sequences in human genome via Kolmogorov-Arnold technique
CN111126103B (zh) * 2018-10-30 2023-09-26 百度在线网络技术(北京)有限公司 用户人生阶段状态的判断方法和装置
CN116340723B (zh) * 2023-05-22 2023-08-01 安徽中科大国祯信息科技有限责任公司 基于大数据的乡村水污染快速溯源方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001521193A (ja) * 1997-10-16 2001-11-06 ソニー エレクトロニクス インク パラメータ共用音声認識方法及び装置
JP2003015684A (ja) * 2001-05-21 2003-01-17 Mitsubishi Electric Research Laboratories Inc 1つの音源から生成される音響信号から特徴を抽出するための方法及び複数の音源から生成される音響信号から特徴を抽出するための方法
JP2004523788A (ja) * 2001-01-12 2004-08-05 クゥアルコム・インコーポレイテッド 音声認識モデルの効率的な記憶のためのシステムおよび方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2081406C (en) 1991-12-23 1997-09-16 Chinmoy Bhusan Bose Method and apparatus for connected and degraded text recognition
DE69615667T2 (de) * 1995-03-07 2002-06-20 British Telecomm Spracherkennung
US5617509A (en) 1995-03-29 1997-04-01 Motorola, Inc. Method, apparatus, and radio optimizing Hidden Markov Model speech recognition
US5924066A (en) 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
CN1295674C (zh) * 2002-03-27 2007-01-17 诺基亚有限公司 模式识别
US20030212535A1 (en) * 2002-05-09 2003-11-13 Nagendra Goel Method and apparatus for simulating network jitter and packet loss
US7873185B2 (en) 2005-08-03 2011-01-18 Siemens Medical Solutions Usa, Inc. Method for detection and tracking of deformable objects

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001521193A (ja) * 1997-10-16 2001-11-06 ソニー エレクトロニクス インク パラメータ共用音声認識方法及び装置
JP2004523788A (ja) * 2001-01-12 2004-08-05 クゥアルコム・インコーポレイテッド 音声認識モデルの効率的な記憶のためのシステムおよび方法
JP2003015684A (ja) * 2001-05-21 2003-01-17 Mitsubishi Electric Research Laboratories Inc 1つの音源から生成される音響信号から特徴を抽出するための方法及び複数の音源から生成される音響信号から特徴を抽出するための方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG199900182009; 嵯峨山 茂樹 Shigeki SAGAYAMA: '行列演算によるHMM音声認識アルゴリズムの表現について A Matrix Representation of HMM-based Speech' 電子情報通信学会技術研究報告 Vol.90 No.373 IEICE Technical Report , 19901220, p.63-70, 社団法人電子情報通信学会 The Institute of Electro *
JPN6013040108; 嵯峨山 茂樹 Shigeki SAGAYAMA: '行列演算によるHMM音声認識アルゴリズムの表現について A Matrix Representation of HMM-based Speech' 電子情報通信学会技術研究報告 Vol.90 No.373 IEICE Technical Report , 19901220, p.63-70, 社団法人電子情報通信学会 The Institute of Electro *

Also Published As

Publication number Publication date
EP2382587A2 (en) 2011-11-02
WO2010076386A2 (en) 2010-07-08
WO2010076386A3 (en) 2010-09-16
FI20086260A0 (fi) 2008-12-31
CN102308307B (zh) 2014-03-12
US20120023047A1 (en) 2012-01-26
US8560469B2 (en) 2013-10-15
CN102308307A (zh) 2012-01-04
JP5611232B2 (ja) 2014-10-22
FI20086260A (fi) 2010-09-02
EP2382587B1 (en) 2015-02-18
ES2536560T3 (es) 2015-05-26

Similar Documents

Publication Publication Date Title
US10460721B2 (en) Dialogue act estimation method, dialogue act estimation apparatus, and storage medium
CN108846077B (zh) 问答文本的语义匹配方法、装置、介质及电子设备
Mesnil et al. Investigation of recurrent-neural-network architectures and learning methods for spoken language understanding.
US20210201143A1 (en) Computing device and method of classifying category of data
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
Li et al. Simplified supervised i-vector modeling with application to robust and efficient language identification and speaker verification
US20110257976A1 (en) Robust Speech Recognition
US10762417B2 (en) Efficient connectionist temporal classification for binary classification
CN110570879A (zh) 基于情绪识别的智能会话方法、装置及计算机设备
CN110275928B (zh) 迭代式实体关系抽取方法
EP3916641A1 (en) Continuous time self attention for improved computational predictions
KR20220130565A (ko) 키워드 검출 방법 및 장치
KR102406512B1 (ko) 음성인식 방법 및 그 장치
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
JP5611232B2 (ja) パターン発見およびパターン認識のための方法
Akbal et al. Development of novel automated language classification model using pyramid pattern technique with speech signals
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
Sunija et al. Comparative study of different classifiers for Malayalam dialect recognition system
WO2016152132A1 (ja) 音声処理装置、音声処理システム、音声処理方法、および記録媒体
Passricha et al. End-to-end acoustic modeling using convolutional neural networks
JP2011191542A (ja) 音声分類装置、音声分類方法、及び音声分類用プログラム
Al-Kaltakchi et al. Closed-set speaker identification system based on MFCC and PNCC features combination with different fusion strategies
JPH06266386A (ja) ワードスポッティング方法
Saudi et al. Improving audio-visual speech recognition using gabor recurrent neural networks
Gupta et al. Noise robust acoustic signal processing using a Hybrid approach for speech recognition

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120713

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130813

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131113

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140902

R150 Certificate of patent or registration of utility model

Ref document number: 5611232

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250