JP6599914B2 - 音声認識装置、音声認識方法およびプログラム - Google Patents

音声認識装置、音声認識方法およびプログラム Download PDF

Info

Publication number
JP6599914B2
JP6599914B2 JP2017045210A JP2017045210A JP6599914B2 JP 6599914 B2 JP6599914 B2 JP 6599914B2 JP 2017045210 A JP2017045210 A JP 2017045210A JP 2017045210 A JP2017045210 A JP 2017045210A JP 6599914 B2 JP6599914 B2 JP 6599914B2
Authority
JP
Japan
Prior art keywords
symbol
search
output
route
additional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017045210A
Other languages
English (en)
Other versions
JP2018151413A (ja
Inventor
貴史 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2017045210A priority Critical patent/JP6599914B2/ja
Priority to US15/689,775 priority patent/US10553205B2/en
Priority to CN201710760251.3A priority patent/CN108573713B/zh
Publication of JP2018151413A publication Critical patent/JP2018151413A/ja
Application granted granted Critical
Publication of JP6599914B2 publication Critical patent/JP6599914B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、音声認識装置、音声認識方法およびプログラムに関する。
フィラー、非流暢性および非言語音を、音韻と同時に評価することができる音響モデルが知られている。このような音響モデルを用いた音声認識システムでは、フィラー、非流暢性および非言語音を除去して音声認識することができるので、認識精度を高くすることができる。
しかし、フィラー、非流暢性および非言語音を正しく認識するためには、認識辞書として機能する探索モデルに、フィラー、非流暢性および非言語音等を含む語断片を単語として予め登録してなければならなかった。このため、従来の音声認識システムでは、このような語断片を探索モデルに単語として登録するための処理に非常に大きなコストがかかってしまっていた。
那須悠、藤村浩司、「LSTM−CTCを用いた音響イベント検出・除去音声認識システムの検討」、電子情報通信学会、信学技報 Vol.116 No.208、PRMU2016−69、p.121−126、2016年9月
本発明が解決しようとする課題は、音韻とともに、フィラー、非流暢性および非言語音を含む音声信号を小さいコストで精度良く認識することにある。
実施形態に係る音声認識装置は、音声信号に含まれる言語情報を表す出力記号を出力する。前記音声認識装置は、算出部と、探索部とを備える。前記算出部は、前記音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含むスコアベクトルが並んだスコアベクトル列を算出する。前記探索部は、予め登録された探索モデルを探索することにより前記スコアベクトル列における尤もらしい前記音響スコアが得られる前記入力記号を辿る経路を検出し、前記探索モデルにおける検出した経路に割り当てられた前記出力記号を出力する。前記記号集合は、認識対象の音韻を表す認識対象記号と、フィラー、非流暢性および非言語音の少なくとも1つを表す付加記号とを、前記入力記号として含む。前記探索モデルは、1以上の前記入力記号が並んだ入力記号列と、前記出力記号とが割り当てられた複数の経路を含む。前記探索部は、尤もらしい前記音響スコアが得られる前記入力記号として、前記付加記号を受理した場合、受理した前記付加記号を含む前記スコアベクトルの次の前記スコアベクトルから、新しい前記出力記号に対応する経路の探索を開始する。
実施形態に係る音声認識装置の構成図。 スコア算出部の構成の一例を示す図。 探索部の処理フローを示す図。 英語の音声を認識するための探索モデルを示す図。 付加記号を受理した場合に開始点に遷移させる探索モデルを示す図。 付加記号を表す記号を出力する探索モデルを示す図。 入力記号列を出力する探索モデルを示す図。 経路に割り当てられている出力記号を出力する探索モデルを示す図。 確定していれば出力記号を出力する探索モデルを示す図。 付加記号を受理した場合に終了点に遷移させる探索モデルを示す図。 日本語の音声を認識するための探索モデルを示す図。 付加記号を受理した場合に開始点に遷移させる探索モデルを示す図。 付加記号を表す記号を出力する探索モデルを示す図。 入力記号列を出力する探索モデルを示す図。 経路に割り当てられている出力記号を出力する探索モデルを示す図。 確定していれば出力記号を出力する探索モデルを示す図。 付加記号を受理した場合に終了点に遷移させる探索モデルを示す図。 音声認識装置のハードウェアブロック図。
以下、図面を参照しながら実施形態について詳細に説明する。本実施形態に係る音声認識装置10は、音韻とともに、フィラー、非流暢性および非言語音を含む音声信号を、小さいコストで精度良く音声認識する。そして、音声認識装置10は、音声認識して得られた言語情報を表す出力記号を出力する。
(定義)
まず、実施の形態で用いる用語について説明する。
音響情報とは、音声信号に含まれる情報である。音響情報には、音韻、フィラー、非流暢性、非言語音および無音情報が含まれる。
音韻は、話し手が言語を発声することにより音声信号に付加した、言語を表す音の単位である。例えば、音韻は、音素、音節、モーラ単位でまとめた音素、サブワード、文字、単語等である。日本語の場合、音韻は、仮名であってよい。また、英語の場合、音韻は、発音記号であってもよいし、アルファベットであってもよい。日本語の促音のような無音も音韻に含まれる場合がある。
フィラーは、話の調子を整えたり、思考の中断または思考の遅れに伴って言葉の途中に挿入されたり、言葉の続きを知らせたりする間投詞的な音である。
非流暢性は、発話の失敗等のために言い淀んだり、同じ用語または表現を言い直したり、同じ用語または表現を繰り返したりした場合に、音声信号に含まれる音である。例えば、話し手は、次に現れる単語の一部を発話した後、改めて言い直したり、文の一部を途中で中断して言い直したりする場合がある。言い直しおよび繰り返しをした場合に音声信号に含まれる音の多くは、次に現れる単語の接頭の発音の一部、その類似の音、または、意味的に類似の単語の一部である。このような音が表す情報は、文法的には無意味な語断片であることが多く、認識結果から取り去っても、意味内容に影響を与えない場合が多い。このような音を、非流暢性という。
非言語音は、咳、くしゃみ、あくび、笑い声、泣き声、呼吸音等の音であり、話し手が言語を発声する場合には発生されない音である。
無音情報は、音声信号に音韻、フィラー、非流暢性および非言語音の何れも含まれない状態において音声信号に含まれる音(例えば無音および雑音)を表す情報である。
入力記号は、音響情報を表す記号である。記号集合は、入力記号を要素とする集合である。記号集合は、予め定義されている。記号集合は、入力記号として、少なくとも1つの認識対象記号と、少なくとも1つの付加記号と、対象外記号とを含む。
認識対象記号は、認識対象の音韻を表す記号である。記号集合は、音声信号に含むことが可能な全ての音韻に対応する文字(例えば、全ての発音記号)を、認識対象記号として含んでよい。また、音声認識装置10が特定の単語のみを認識する場合(例えば「こんにちは」のみを認識する場合)、特定の単語を認識するために必要な音韻に対応する文字を、認識対象記号として含んでもよい。無音情報を認識する場合には、認識対象記号の一つとして、無音情報を表す無音記号を認識対象記号に含んでもよい。
付加記号は、入力記号の一つであり、フィラー、非流暢性および/または非言語音を表す記号である。記号集合は、フィラー、非流暢性および非言語音のそれぞれを表す3種類の付加記号を含んでよい。記号集合は、フィラー、非流暢性および非言語音のうち、何れか1つまたは2つのそれぞれを表す1または2種類の付加記号を含んでもよい。また、記号集合は、フィラー、非流暢性および非言語音のうちの2つまたは3つをまとめて表す付加記号を含んでもよい。また、記号集合は、非言語音を表す付加記号として、咳、くしゃみ、あくび、笑い声、泣き声および呼吸音等のそれぞれを表す異なる記号を含んでもよい。
対象外記号は、入力記号の一つであり、認識対象記号および付加記号が表す音響情報のうち、いずれの音響情報が音声信号に含まれているかが未定であることを表す記号である。つまり、対象外記号は、音声認識装置10が認識対象記号または付加記号をまだ認識できないことを表す記号である。
入力記号列は、音声信号を認識して得られる尤もらしい入力記号の系列である。音声認識装置10は、1つの音声信号に対して、1個の入力記号列を生成してよい。また、音声認識装置10は、1つの音声信号に対して、M個(Mは2以上の整数)の入力記号列を生成してもよい。
出力記号は、音声信号の認識結果である言語情報を表す。出力記号は、単語、文字、サブワード等であってよい。出力記号は、入力記号列に含まれる認識対象記号に基づき生成される。音声認識装置10は、1個の入力記号列から時系列に並んだ複数の出力記号を生成してもよい。
(音声認識装置10の説明)
図1は、実施形態に係る音声認識装置10の構成を示す図である。音声認識装置10は、特徴抽出部22と、音響モデル記憶部24と、スコア算出部26と、探索モデル記憶部28と、探索部30とを備える。
特徴抽出部22は、認識対象の音声信号を取得する。特徴抽出部22は、例えば集音装置により検出された音声信号を取得する。
特徴抽出部22は、フレーム毎に音声信号を解析して、フレーム毎に特徴ベクトルを算出する。特徴ベクトルは、音声の特徴を表す複数種類の特徴量を含む。フレームは、1つの特徴ベクトルを算出するための音声信号の区間である。フレームは、中心時刻が所定間隔毎にずれるように設定される。また、複数のフレームは、例えば互いに同一の時間長である。それぞれのフレームは、他のフレームと一部の区間が重なってもよい。
音響モデル記憶部24は、音響モデルを記憶する。音響モデルは、音声信号をパターン認識するためにスコア算出部26により用いられるデータである。音響モデルは、音声認識装置10による音声信号の認識に先だって、学習装置により適切に訓練されている。音響モデル記憶部24は、例えばネットワーク上のサーバにより実現されてもよい。
スコア算出部26は、特徴抽出部22によりフレーム毎に算出された特徴ベクトルに基づき、音響モデル記憶部24に記憶された音響モデルを用いて、複数のスコアベクトルが並んだスコアベクトル列を算出する。それぞれのスコアベクトルは、予め定められた記号集合の要素である入力記号毎の音響スコアを含む。
スコアベクトルに含まれるそれぞれの音響スコアは、何れかの入力記号に対応している。音響スコアは、対応する入力記号により表される音響情報が、音声信号に含まれている尤もらしさを表す。なお、音声信号に含まれている音響情報と、入力記号が表す音響情報とは、フレーム同期(時間同期)していなくてよい。すなわち、入力記号が表す音響情報は、音声信号に含まれている音響情報から遅延してもよい。例えば、15番目のフレームの特徴ベクトルの入力によってスコア算出部26が計算するスコアベクトルに含まれる音響スコアのうち、最も良い音響スコアが対応する入力記号が表す音響情報が、1〜10番目のフレームに含まれていてもよい。
例えば、音響スコアは、対応する入力記号により表される音響情報が、音声信号に含まれている確率、尤度、対数尤度または対数確率であってよい。音響スコアは、値が大きい程、良い(すなわち、尤もらしい)ことを示してもよいし、値が小さい程、良いことを示してもよい。例えば、音響スコアは、確率、尤度、対数確率または対数尤度である場合には、値が大きい程、良いことを示す。また、例えば、音響スコアは、符号を反転した対数確率または符号を反転した対数尤度である場合には、値が小さい程、良いことを示す。また、音響スコアは、音声信号(特徴ベクトル)と音響モデルとの何らかの距離を音響スコアとする場合には、値が小さい程、良いことを示す。
スコアベクトル列は、複数のスコアベクトルが並んだ情報である。スコア算出部26は、算出したスコアベクトル列を探索部30に与える。なお、特徴抽出部22およびスコア算出部26は、音声信号に基づきスコアベクトル列を算出する算出部に対応する。
探索モデル記憶部28は、探索モデルを記憶する。探索モデルは、1以上の入力記号が並んだ入力記号列と、出力記号とが割り当てられた複数の経路を含む。探索モデルは、スコアベクトル列から入力記号列および出力記号を生成するためのデータであって、探索部30により用いられる。探索モデルは、例えば、重み付き有限状態トランスデューサ(WFST)である。探索モデルは、音声認識装置10による音声信号の認識に先だって、学習装置により適切に訓練されている。探索モデル記憶部28は、例えばネットワーク上のサーバにより実現されてもよい。
探索部30は、探索モデル記憶部28に記憶された探索モデルを探索することにより、スコア算出部26により算出されたスコアベクトル列における尤もらしい音響スコアが得られる入力記号を辿る経路を検出する。探索部30は、探索モデルにおける検出した経路に割り当てられた入力記号列および出力記号を取得する。そして、探索部30は、探索モデルにおける検出した経路に割り当てられた出力記号を出力する。
さらに、探索部30は、探索モデルの探索中において、尤もらしい音響スコアが得られる入力記号として、付加記号を受理した場合、受理した付加記号を含むスコアベクトルの次のスコアベクトルから、新しい出力記号に対応する経路の探索を開始する。すなわち、探索部30は、探索モデルの探索中において、尤もらしい音響スコアが得られる入力記号として、付加記号を受理した場合、現在の経路の探索を終了して、次の経路の探索を開始する。
図2は、スコア算出部26の構成の一例を示す図である。スコア算出部26は、例えば図2に示すような、コネクショニスト時系列分類法(CTC)を適用した再帰型ニューラルネットワーク(RNN)であってよい。
例えば、スコア算出部26は、入力層42と、少なくとも1つの中間層44と、出力層46とを有する。入力層42、中間層44および出力層46のそれぞれは、少なくとも1つの信号の取得処理、取得した信号に対する演算処理、および、少なくとも1つの信号の出力処理を実行する。
入力層42と、少なくとも1つの中間層44と、出力層46とは、直列に接続される。入力層42は、特徴ベクトルを受け取り、演算処理を実行する。そして、入力層42は、演算結果として得られた少なくとも1つの信号を、次段の中間層44へ出力する。また、それぞれの中間層44は、前段から受け取った少なくとも1つの信号に対して演算処理を実行する。そして、それぞれの中間層44は、演算結果として得られた少なくとも1つの信号を、次段の中間層44または出力層46へと出力する。さらに、それぞれの中間層44は、自身への信号を帰還させる帰還路を有してもよい。
出力層46は、前段の中間層44から受け取った信号に対して演算処理を実行する。そして、出力層46は、演算結果としてスコアベクトルを出力する。出力層46は、入力記号の数分の信号を出力する。出力層46は、出力する信号が、入力記号のそれぞれに対応付けられている。例えば、出力層46は、ソフトマックス関数による演算を実行する。
また、それぞれの層が演算処理に用いるパラメータは、音響モデル記憶部24に記憶された音響モデルから与えられる。音響モデルは、特徴ベクトルに基づき、予め定められた記号集合に含まれるそれぞれの入力記号の音響スコアを出力するように、予め学習装置により訓練されている。すなわち、音響モデルは、認識対象の音韻を表す少なくとも1つの認識対象記号、フィラー、非流暢性および/または非言語音の少なくとも1つを表す付加記号、および、認識対象外の音響スコアを表す対象外記号のそれぞれの音響スコアを出力するように、学習装置により訓練されている。
これにより、スコア算出部26は、記号集合に含まれるそれぞれの入力記号についての音響スコアを同時に出力することができる。つまり、スコア算出部26は、認識対象記号、付加記号および対象外記号のそれぞれについての音響スコアを同時に出力することができる。
なお、スコア算出部26は、RNNに代えて、RNNを拡張した長・短期記憶(Long Short−Term Memory)と呼ばれるネットワークであってもよい。また、出力層46は、ソフトマックス関数に代えて、サポートベクタマシーンを用いてもよい。
図3は、探索部30の処理フローを示す図である。探索部30は、例えば図3に示すような手順で処理を実行する。
まず、S11において、探索部30は、スコアベクトル列を取得する。
続いて、S12において、探索部30は、WFST等の探索モデルを探索することにより、スコアベクトル列における尤もらしい音響スコアが得られる入力記号の経路を検出し、検出した経路に割り当てられた入力記号列を生成する。例えば、探索部30は、WFST等の探索モデルを用いてビタビアルゴリズム等により最良の経路を探索して、入力記号列を生成する。なお、探索部30は、例えば、音響モデル、単語辞書および言語モデルを合成した探索モデルを利用し、音響スコアと言語スコアとを合わせたスコアを用いて経路を探索することにより、尤もらしい音響スコアが得られる入力記号の経路を検出してもよい。
なお、S12の探索処理において、探索部30は、入力記号列の中で、複数の認識対象記号が連続する部分を検出する。そして、探索部30は、複数の認識対象記号が連続する部分を検出した場合、連続する複数の入力記号のうち何れか1つを残し、他を削除する。これにより、探索部30は、同一の音韻が重複して認識されてしまうことを回避することができる。さらに、S12の探索処理において、探索部30は、連続する複数の認識対象記号のうちの1つを残した後において、入力記号列から対象外記号を削除する。
さらに、S12の探索処理において、探索部30は、尤もらしい音響スコアが得られる入力記号として、付加記号を受理した場合、受理した付加記号を含むスコアベクトルの次のスコアベクトルから、新しい出力記号に対応する経路の探索を開始する。すなわち、探索部30は、探索モデルの探索中において、尤もらしい音響スコアが得られる入力記号として、付加記号を受理した場合、現在の経路の探索を強制的に終了して、次の経路の探索を開始する。
続いて、S13において、探索部30は、経路の探索が終了する毎に、出力記号を生成して出力する。例えば、探索部30は、経路の探索が終了する毎に、生成した入力記号列に対応する経路に割り当てられた出力記号を探索モデルから取得する。そして、探索部30は、探索モデルから取得した出力記号を出力する。
なお、探索部30は、探索モデルがWFSTである場合、S12およびS13の処理を一括して処理する。例えば、探索部30は、探索モデルを探索してスコアベクトル列における尤もらしい音響スコアが得られる入力記号を辿る経路を検出し、検出した経路に割り当てられた出力記号を出力する処理を、一括して実行する。
(探索例)
つぎに、英語を認識するためのWFSTを探索モデルに用いた場合の処理を図4から図10を参照して説明する。
図に示す一重丸は、WFSTの状態を示す。一重丸の中の数字は、状態を識別するための番号を示す。0番目の状態は、開始状態を示す。中にEと示された二重丸は、終了状態を示す。状態から状態へと接続された矢印は、エッジ(遷移)を示す。
矢印に付加されている文字のうち、“:”の左側は、エッジに割り当てられた入力記号を示す。矢印に付加されている文字のうち、“:”の右側は、エッジに割り当てられた出力記号を表す。
探索部30は、スコアベクトルが与えられた場合、尤もらしい何れかの入力記号を受理する。そして、探索部30は、例えば、ある状態において、ある状態から出ていくエッジに割り当てられた入力記号を受理した場合、そのエッジに従って状態を遷移させる。
さらに、探索部30は、例えば、状態を遷移させた場合、エッジに割り当てられた出力記号を出力する。なお、εは、空を表す記号である。探索部30は、εが出力記号として割り当てられている場合、探索部30は、出力記号を出力しないまたは空を表す出力記号を出力する。
図4から図10に示すWFSTには、下記の表1に示すような5つの経路(♯1〜♯5)が登録されている。このWFSTには、それぞれの経路に、下記の表1に示すような入力記号列と、出力記号とが割り当てられている。
Figure 0006599914
図4は、入力記号に付加記号を含まない場合における、英語の音声を認識するための探索モデルの一例を示す図である。
探索部30は、例えば、表1の第1経路(♯1)に示された入力記号列を受理した場合、状態を0→1→2→3→4→5と遷移させる。そして、探索部30は、その後εを受理すると、状態を5→Eと遷移させて、出力記号として“McKay”を出力する。
また、探索部30は、例えば、表1の第2経路(♯2)に示された入力記号列を受理した場合、状態を0→6→7と遷移させる。そして、探索部30は、その後にεを受理すると、状態を7→Eと遷移させて、出力記号として“A”を出力する。
また、探索部30は、例えば、表1の第3経路(♯3)に示された入力記号列を受理した場合、状態を0→8と遷移させる。そして、探索部30は、その後にεを受理すると、状態を8→Eと遷移させて、出力記号として“uh”を出力する。
また、探索部30は、例えば、表1の第4経路(♯4)に示された入力記号列を受理した場合、状態を0→9→10→11→12→13と遷移させる。そして、探索部30は、その後にεを受理すると、状態を13→Eと遷移させて、出力記号として“street”を出力する。
また、探索部30は、例えば、表1の第5経路(♯5)に示された入力記号列を受理した場合、状態を0→9→10→14→15→16→17と遷移させる。そして、探索部30は、その後にεを受理すると、状態を17→Eと遷移させて、出力記号として“stomach”を出力する。
ここで、ユーザが“McKay Street”という文字を読んだ場合に、下記のような発音がされたとする。なお、Dは、非流暢性を表す。
Figure 0006599914
従来の探索装置は、このような音声信号を図4に示すWFSTを用いて探索処理をした場合、Dを受理することができない。従って、この場合、従来の探索装置は、状態を、0→9→10→14→15→16→17→E→0→6→7→E→0→9→10→11→12→13→Eと遷移させる。この結果、従来の探索装置は、出力記号として、“stomach A street”を出力してしまい、誤認識をする。
図5は、英語の音声を認識するための探索モデルであって、付加記号を受理した場合に経路開始点に遷移させるモデルの一例を示す図である。
これに対して、探索部30は、フィラー、非流暢性および/または非言語音の少なくとも1つを表す付加記号を入力記号として受理する。そして、探索部30は、付加記号を受理した場合、探索位置を、探索モデルに含まれる経路の開始点に移動させる。例えば、探索部30は、探索モデルがWFSTであれば、付加記号を受理した場合、経路の状態を、WFSTにおける開始状態に遷移させる。これにより、探索部30は、付加記号を受理した場合、受理した付加記号を含むスコアベクトルの次のスコアベクトルから、新しい出力記号に対応する経路の探索を開始することができる。
例えば、上述の表2に示すような発音がされた場合、探索部30は、状態を、0→9→10→0→8→0→1→2→3→4→5→E→0→9→10→11→12→13→Eと遷移させることができる。この結果、探索部30は、出力記号として、“McKay street”を出力することができ、正しい認識をすることができる。
なお、図5の例においては、入力記号として、非流暢性(D)が割り当てられたWFSTを示している。しかし、入力記号として、フィラーまたは非言語音が割り当てられたWFSTであってもよい。図6以降も同様である。
また、例えば、探索モデルには、付加記号を受理する経路が予め追加されていてもよい。例えば、探索モデルがWFSTである場合、WFSTには、予め、終了状態以外のそれぞれの状態から開始状態に接続される第1エッジが付加されていてもよい。この場合、それぞれの第1エッジには、入力記号として、付加記号が割り当てられている。これにより、探索部30は、付加記号を受理した場合、経路の状態を、WFSTにおける開始状態に遷移させることができる。
また、探索モデルには、付加記号を受理する経路が追加されていなくてもよい。この場合、探索部30は、経路の探索を進める毎に、付加記号を受理したか否かを判断する。そして、探索部30は、付加記号を受理した場合に、探索モデルの経路に関わらず、強制的に探索位置を経路開始点に移動させる。例えば、探索部30は、探索モデルがWFSTであれば、付加記号を受理した場合、WFSTのエッジに関わらず、経路の状態を、WFSTにおける開始状態に遷移させる。これにより、探索部30は、付加記号を受理した場合、経路の状態を、WFSTにおける開始状態に遷移させることができる。
なお、探索モデルに含まれるそれぞれの単語の始端の状態には、始端を表す始端情報が付与されていてもよい。この場合、探索部30は、付加記号を受理した場合に始端情報が付加された状態に探索位置を移動させてもよい。また、探索部30は、探索モデルに含まれるそれぞれの単語の始端の状態を表す番号を記憶しておき、付加記号を受理した毎に、記憶している番号を持つ状態に探索位置を移動させてもよい。
また、探索部30は、付加記号を受理した場合、出力記号を出力しない、または、空を表す出力記号を出力してもよい。例えば、探索モデルに付加記号を受理する経路が予め追加されている場合、その経路の出力記号に、空を表す記号(ε)が割り当てられていてもよい。
図6は、英語の音声を認識するための探索モデルであって、付加記号を受理した場合に、付加記号を表す記号を出力するモデルの一例を示す図である。
探索部30は、付加記号を受理した場合、付加記号を表す記号を出力してもよい。例えば、探索モデルに付加記号を受理する経路が予め追加されている場合、その経路には、出力記号として、付加記号を表す記号が割り当てられていてもよい。
例えば、上述の表2に示すような発音がされた場合、探索部30は、出力記号として、“D D McKay street”を出力する。これにより、探索部30は、非流暢性が含まれていたことを認識結果に含めることができる。
図7は、英語の音声を認識するための探索モデルであって、付加記号を受理した場合に、入力記号列を出力するモデルの一例を示す図である。
探索部30は、付加記号を受理した場合、経路の開始位置から付加記号を受理するまでに受理した入力記号列を出力してもよい。例えば、探索モデルに付加記号を受理する経路が予め追加されている場合、その経路には、出力記号として、開始位置から付加記号を受理するまでに受理した入力記号列が割り当てられていてもよい。
例えば、上述の表2に示すような発音がされた場合、探索部30は、下記の表3に示すような出力記号を出力する。これにより、例えば、探索部30は、認識結果が確定できなかった部分については、語断片の発音列を出力することができる。
Figure 0006599914
図8は、英語の音声を認識するための探索モデルであって、付加記号を受理した場合に、経路に割り当てられている出力記号を出力するモデルの一例を示す図である。
探索部30は、付加記号を受理した場合、付加記号を受理する直前までに辿った経路に継続した経路の出力記号を出力してもよい。例えば、探索モデルに付加記号を受理する経路が予め追加されている場合、その経路には、出力記号として、付加記号を受理する直前までに辿った経路に継続した経路の出力記号が割り当てられていてもよい。
例えば、1、2、3、4または5の状態から継続した経路に割り当てられている出力記号は、“McKay”である。従って、探索部30は、1、2、3、4または5の状態において付加記号を受理した場合、“McKay”を出力する。
例えば、6または7の状態から継続した経路に割り当てられている出力記号は、“A”である。従って、探索部30は、6または7の状態において付加記号を受理した場合、“A”を出力する。
例えば、8の状態から継続した経路に割り当てられている出力記号は、“uh”である。従って、探索部30は、8の状態において付加記号を受理した場合、“uh”を出力する。
例えば、11、12、または13の状態から継続した経路に割り当てられている出力記号は、“street”である。従って、探索部30は、11、12、または13の状態において付加記号を受理した場合、“street”を出力する。
例えば、14、15、16、または17の状態から継続した経路に割り当てられている出力記号は、“stomach”である。従って、探索部30は、14、15、16、または17の状態において付加記号を受理した場合、“stomach”を出力する。
例えば、9または10の状態から継続した経路に割り当てられている出力記号は、“street”および“stomach”である。従って、探索部30は、9または10の状態において付加記号を受理した場合、“street”および“stomach”を出力する。
図9は、英語の音声を認識するための探索モデルであって、付加記号を受理した場合に、確定していれば出力記号を出力するモデルの一例を示す図である。
また、探索部30は、付加記号を受理した場合、付加記号を受理する直前までに辿った経路に継続した経路が、1つに確定しているか否かを検出してもよい。そして、探索部30は、経路が1つに確定している場合、確定している経路に割り当てられた出力記号を出力し、経路が1つに確定していない場合、出力記号を出力しないまたは空を表す出力記号を出力してもよい。
例えば、9または10の状態は、付加記号を受理する直前までに辿った経路に継続した経路が2つに分岐しており、経路が1つに確定されていない。すなわち、9または10の状態は、“street”を出力するか、“stomach”を出力するかが確定していない。従って、9または10の状態において付加記号を受理した場合、探索部30は、出力記号を出力しないまたは空を表す出力記号を出力する。
また、9および10以外の状態は、付加記号を受理する直前までに辿った経路に継続した経路が、1つに確定されている。従って、9または10の状態以外において付加記号を受理した場合、探索部30は、確定している経路に割り当てられた出力記号を出力する。
図10は、英語の音声を認識するための探索モデルで、付加記号を受理した場合に経路終了点に遷移させるモデルの一例を示す図である。
探索部30は、付加記号を受理した場合、探索位置を、探索モデルに含まれる経路の終了点に移動させてもよい。例えば、探索部30は、探索モデルがWFSTであれば、付加記号を受理した場合、経路の状態を、WFSTにおける終了状態に遷移させてもよい。このようにしても、探索部30は、付加記号を受理した場合、受理した付加記号を含むスコアベクトルの次のスコアベクトルから、新しい出力記号に対応する経路の探索を開始することができる。
例えば、上述の表2に示すような発音がされた場合、探索部30は、状態を、0→9→10→E→0→8→E→0→1→2→3→4→5→E→0→9→10→11→12→13→Eと遷移させることができる。この結果、探索部30は、出力記号として、“McKay street”を出力することができ、正しい認識をすることができる。
例えば、探索モデルには、付加記号を受理する経路が予め追加されていてもよい。例えば、探索モデルがWFSTである場合、WFSTには、予め、終了状態以外のそれぞれの状態から終了状態に接続される第2エッジが付加されていてもよい。この場合、それぞれの第2エッジには、入力記号として、付加記号が割り当てられている。これにより、探索部30は、付加記号を受理した場合、経路の状態を、WFSTにおける終了状態に遷移させることができる。
また、探索モデルには、付加記号を受理する経路が追加されていなくてもよい。この場合、探索部30は、経路の探索を進める毎に、付加記号を受理したか否かを判断する。そして、探索部30は、付加記号を受理した場合に、探索モデルの経路に関わらず、強制的に探索位置を経路終了点に移動させる。例えば、探索部30は、探索モデルがWFSTであれば、付加記号を受理した場合、WFSTのエッジに関わらず、経路の状態を、WFSTにおける終了状態に遷移させる。これにより、探索部30は、付加記号を受理した場合、経路の状態を、WFSTにおける終了状態に遷移させることができる。
なお、探索モデルに含まれるそれぞれの単語の終端の状態には、終端を表す終端情報が付与されていてもよい。この場合、探索部30は、付加記号を受理した場合に終端情報が付加された状態に探索位置を移動させてもよい。また、探索部30は、探索モデルに含まれるそれぞれの単語の終端の状態を表す番号を記憶しておき、付加記号を受理した毎に、記憶している番号を持つ状態に探索位置を移動させてもよい。
また、探索部30は、探索位置を、探索モデルに含まれる経路の終了点に移動させる場合も、図6〜図9と同様の記号を出力してもよい。
つぎに、日本語を認識するためのWFSTを探索モデルに用いた場合の処理を図11から図17を参照して説明する。図11から図17におけるWFSTの表現方法は、図4〜図10の例と同様である。
図11から図17に示すWFSTには、下記のような3つの経路が登録されている。
すなわち、状態が0→1→2→3→4と遷移する経路に対して、入力記号列として「さいとお」、出力記号として「斉藤」が割り当てられている。また、状態が0→1→5と遷移する経路に対して、入力記号列として「ささ」、出力記号として「笹」が割り当てられている。また、状態が0→6→7→8と遷移する経路に対して、入力記号列として「いとお」、出力記号として「伊藤」が割り当てられている。
図11は、入力記号に付加記号を含まない場合における、日本語の音声を認識するための探索モデルの一例を示す図である。
探索部30は、例えば、入力記号列(「さいとお」)を受理した場合、状態を0→1→2→3→4と遷移させる。そして、探索部30は、その後にεを受理すると、状態を4→Eと遷移させて、出力記号として“斉藤”を出力する。
探索部30は、例えば、入力記号列(「ささ」)を受理した場合、状態を0→1→5と遷移させる。そして、探索部30は、その後にεを受理すると、状態を5→Eと遷移させて、出力記号として“笹”を出力する。
探索部30は、例えば、入力記号列(「いとお」)を受理した場合、状態を0→6→7→8と遷移させる。そして、探索部30は、その後にεを受理すると、状態を8→Eと遷移させて、出力記号として“伊藤”を出力する。
ここで、ユーザが“斉藤”という文字を読んだ場合に、「さDさいとお」と発音したとする。
従来の探索装置は、このような音声信号を図11に示すWFSTを用いて探索処理をした場合、Dを受理することができない。従って、従来の探索装置は、状態を、0→1→5→E→6→7→8→Eと遷移させる。この結果、従来の探索装置は、出力記号として、“笹 伊藤”を出力してしまい、誤認識をする。
これに対して、探索部30は、フィラー、非流暢性および/または非言語音の少なくとも1つを表す付加記号を受理した場合、探索位置を、探索モデルに含まれる経路の開始点に移動させる。例えば、探索部30は、探索モデルがWFSTであれば、付加記号を受理した場合、経路の状態を、WFSTにおける開始状態に遷移させる。
図12は、日本語の音声を認識するための探索モデルであって、付加記号を受理した場合に経路開始点に遷移させるモデルの一例を示す図である。
これにより、例えば、ユーザが「さDさいとお」と発音した場合、探索部30は、状態を、0→1→0→1→2→3→4→Eと遷移させることができる。この結果、探索部30は、出力記号として、“斉藤”を出力することができ、正しい認識をすることができる。
図13は、日本語の音声を認識するための探索モデルであって、付加記号を受理した場合に、付加記号を表す記号を出力するモデルの一例を示す図である。
探索部30は、付加記号を受理した場合、付加記号を表す記号を出力してもよい。例えば、探索モデルに付加記号を受理する経路が予め追加されている場合、その経路には、出力記号として、付加記号を表す記号が割り当てられていてもよい。
例えば、ユーザが「さDさいとお」と発音した場合、探索部30は、出力記号として、“D 斉藤”を出力する。これにより、探索部30は、非流暢性が含まれていたことを認識結果に含めることができる。
図14は、日本語の音声を認識するための探索モデルであって、付加記号を受理した場合に、入力記号列を出力するモデルの一例を示す図である。
探索部30は、付加記号を受理した場合、経路の開始位置から付加記号までに受理した入力記号列を出力してもよい。例えば、ユーザが「さDさいとお」と発音した場合、探索部30は、出力記号として、“さ 斉藤”を出力する。これにより、例えば、探索部30は、認識結果が確定できなかった部分については、語断片の発音列を出力することができる。
図15は、日本語の音声を認識するための探索モデルであって、付加記号を受理した場合に、経路に割り当てられている出力記号を出力するモデルの一例を示す図である。
探索部30は、付加記号を受理した場合、付加記号を受理する直前までに辿った経路に継続した経路の出力記号を出力してもよい。
例えば、2、3または4の状態から継続した経路に割り当てられている出力記号は、“斉藤”である。従って、探索部30は、2、3または4の状態において付加記号を受理した場合、“斉藤”を出力する。
例えば、5の状態から継続した経路に割り当てられている出力記号は、“笹”である。従って、探索部30は、5の状態において付加記号を受理した場合、“笹”を出力する。
例えば、6、7または8の状態から継続した経路に割り当てられている出力記号は、“伊藤”である。従って、探索部30は、6、7または8の状態において付加記号を受理した場合、“伊藤”を出力する。
例えば、1の状態から継続した経路に割り当てられている出力記号は、“斉藤”および“笹”である。従って、探索部30は、1の状態において付加記号を受理した場合、“斉藤”および“笹”を出力する。
図16は、日本語の音声を認識するための探索モデルであって、付加記号を受理した場合に、確定していれば出力記号を出力するモデルの一例を示す図である。
また、探索部30は、付加記号を受理した場合、付加記号を受理する直前までに辿った経路に継続した経路が、1つに確定しているか否かを検出してもよい。そして、探索部30は、経路が1つに確定している場合、確定している経路に割り当てられた出力記号を出力し、経路が1つに確定していない場合、出力記号を出力しないまたは空を表す出力記号を出力してもよい。
例えば、1の状態は、付加記号を受理する直前までに辿った経路に継続した経路が2つに分岐しており、経路が1つに確定されていない。従って、1の状態において付加記号を受理した場合、探索部30は、出力記号を出力しないまたは空を表す出力記号を出力する。
また、1以外の状態は、付加記号を受理する直前までに辿った経路に継続した経路が1つに確定されている。従って、1の状態以外において付加記号を受理した場合、探索部30は、付加記号を受理する直前までに辿った経路に継続した経路に割り当てられている出力記号を出力する。
図17は、日本語の音声を認識するための探索モデルで、付加記号を受理した場合に経路終了点に遷移させるモデルの一例を示す図である。
探索部30は、付加記号を受理した場合、探索位置を、探索モデルに含まれる経路の終了点に移動させてもよい。例えば、探索部30は、探索モデルがWFSTであれば、付加記号を受理した場合、経路の状態を、WFSTにおける終了状態に遷移させてもよい。
これにより、例えば、ユーザが「さDさいとお」と発音した場合、探索部30は、状態を、0→1→E→0→1→2→3→4→Eと遷移させることができる。この結果、探索部30は、出力記号として、“斉藤”を出力することができ、正しい認識をすることができる。
また、探索部30は、探索位置を、探索モデルに含まれる経路の終了点に移動させる場合も、図13〜図16と同様の記号を出力してもよい。
以上のように、本実施形態に係る音声認識装置10は、尤もらしい音響スコアが得られる入力記号として、フィラー、非流暢性および非言語音の少なくとも1つを表す付加記号を受理した場合、受理した付加記号を含むスコアベクトルの次のスコアベクトルから、新しい出力記号に対応する経路の探索を開始する。これにより、本実施形態に係る音声認識装置10は、音韻とともに、フィラー、非流暢性および非言語音を含む音声信号を、既存の探索モデルを大きく変更することなく、非常に簡易な処理で、精度良く認識することができる。
図18は、音声認識装置10のハードウェアブロック図である。音声認識装置10は、一例として、一般のコンピュータ(情報処理装置)と同様のハードウェア構成により実現される。音声認識装置10は、CPU(Central Processing Unit)101と、操作部102と、表示部103と、マイクロフォン104と、ROM(Read Only Memory)105と、RAM(Random Access Memory)106と、記憶部107と、通信装置108と、バス109とを備える。各部は、バス109により接続される。
CPU101は、RAM106の所定領域を作業領域としてROM105または記憶部107に予め記憶された各種プログラムとの協働により各種処理を実行し、音声認識装置10(特徴抽出部22、スコア算出部26および探索部30)を構成する各部の動作を統括的に制御する。また、CPU101は、ROM105または記憶部107に予め記憶されたプログラムとの協働により、操作部102、表示部103、マイクロフォン104および通信装置108等を実現させる。
操作部102は、マウスやキーボード等の入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、その指示信号をCPU101に出力する。
表示部103は、LCD(Liquid Crystal Display)等の表示装置である。表示部103は、CPU101からの表示信号に基づいて、各種情報を表示する。例えば、表示部103は、出力記号等を表示する。なお、通信装置108または記憶部107等に出力記号等を出力する場合には、音声認識装置10は、表示部103を備えなくてもよい。
マイクロフォン104は、音声信号を入力するデバイスである。予め記録された音声信号または通信装置108から入力される音声信号のパターン認識をする場合には、音声認識装置10は、マイクロフォン104を備えなくてもよい。
ROM105は、音声認識装置10の制御に用いられるプログラムおよび各種設定情報等を書き換え不可能に記憶する。RAM106は、SDRAM(Synchronous Dynamic Random Access Memory)等の揮発性の記憶媒体である。RAM106は、CPU101の作業領域として機能する。具体的には、音声認識装置10が用いる各種変数およびパラメータ等を一時記憶するバッファ等として機能する。
記憶部107は、フラッシュメモリ等の半導体による記憶媒体、磁気的または光学的に記録可能な記憶媒体等の書き換え可能な記録装置である。記憶部107は、音声認識装置10の制御に用いられるプログラムおよび各種設定情報等を記憶する。また、記憶部107は、音響モデル記憶部24および探索モデル記憶部28等が記憶する情報を記憶する。
通信装置108は、外部の機器と通信して、出力記号および付加記号等の出力等に用いられる。予め記録された音声信号またはマイクロフォン104から入力した音声信号のパターン認識をする場合であり、出力記号および付加記号等を表示部103または記憶部107に出力する場合には、音声認識装置10は、通信装置108を備えなくてもよい。
本実施形態の音声認識装置10で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態の音声認識装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の音声認識装置10で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。また、本実施形態の音声認識装置10で実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施形態の音声認識装置10で実行されるプログラムは、上述した特徴抽出モジュール、スコア算出モジュールおよび探索モジュールを含むモジュール構成となっており、CPU101(プロセッサ)が記憶媒体等からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、特徴抽出部22、スコア算出部26および探索部30が主記憶装置上に生成されるようになっている。なお、特徴抽出部22、スコア算出部26および探索部30の一部または全部がハードウェアにより構成されていてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 音声認識装置
22 特徴抽出部
24 音響モデル記憶部
26 スコア算出部
28 探索モデル記憶部
30 探索部
42 入力層
44 中間層
46 出力層
101 CPU
102 操作部
103 表示部
104 マイクロフォン
105 ROM
106 RAM
107 記憶部
108 通信装置
109 バス

Claims (14)

  1. 音声信号に含まれる言語情報を表す出力記号を出力する音声認識装置であって、
    前記音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含むスコアベクトルが並んだスコアベクトル列を算出する算出部と、
    予め登録された探索モデルを探索することにより前記スコアベクトル列における尤もらしい前記音響スコアが得られる前記入力記号を辿る経路を検出し、前記探索モデルにおける検出した経路に割り当てられた前記出力記号を出力する探索部と、
    を備え、
    前記記号集合は、認識対象の音韻を表す認識対象記号と、フィラー、非流暢性および非言語音の少なくとも1つを表す付加記号とを、前記入力記号として含み、
    前記探索モデルは、1以上の前記入力記号が並んだ入力記号列と、前記出力記号とが割り当てられた複数の経路を含み、
    前記探索部は、尤もらしい前記音響スコアが得られる前記入力記号として、前記付加記号を受理した場合、受理した前記付加記号を含む前記スコアベクトルの次の前記スコアベクトルから、新しい前記出力記号に対応する経路の探索を開始する
    音声認識装置。
  2. 前記探索部は、前記付加記号を受理した場合、探索位置を、前記探索モデルに含まれる経路の開始点に移動させる
    請求項1に記載の音声認識装置。
  3. 前記探索モデルは、有限状態トランスデューサであり、
    前記探索部は、前記付加記号を受理した場合、経路の状態を、前記有限状態トランスデューサにおける開始状態に遷移させる
    請求項2に記載の音声認識装置。
  4. 前記探索部は、前記付加記号を受理した場合、探索位置を、前記探索モデルに含まれる経路の終了点に移動させる
    請求項1に記載の音声認識装置。
  5. 前記探索モデルは、有限状態トランスデューサであり、
    前記探索部は、前記付加記号を受理した場合、経路の状態を、前記有限状態トランスデューサにおける終了状態に遷移させる
    請求項4に記載の音声認識装置。
  6. 前記探索部は、前記付加記号を受理した場合、前記出力記号を出力しないまたは空を表す前記出力記号を出力する
    請求項1から5の何れか1項に記載の音声認識装置。
  7. 前記探索部は、前記付加記号を受理した場合、前記付加記号を表す記号を出力する
    請求項1から5の何れか1項に記載の音声認識装置。
  8. 前記探索部は、前記付加記号を受理した場合、経路の開始位置から前記付加記号を受理するまでに受理した前記入力記号列を出力する
    請求項1から5の何れか1項に記載の音声認識装置。
  9. 前記探索部は、前記付加記号を受理した場合、前記付加記号を受理する直前までに辿った経路に継続した経路の前記出力記号を出力する
    請求項1から5の何れか1項に記載の音声認識装置。
  10. 前記探索部は、
    前記付加記号を受理した場合、前記付加記号を受理する直前までに辿った経路に継続した経路が、1つに確定しているか否かを検出し、
    経路が1つに確定している場合、確定している経路に割り当てられた前記出力記号を出力し、
    経路が1つに確定していない場合、前記出力記号を出力しないまたは空を表す前記出力記号を出力する
    請求項1から5の何れか1項に記載の音声認識装置。
  11. 前記探索モデルには、前記付加記号を受理する経路が予め追加されている
    請求項1から10の何れか1項に記載の音声認識装置。
  12. 前記探索モデルには、前記付加記号を受理する経路が追加されておらず、
    前記探索部は、経路の探索を進める毎に、前記付加記号を受理したか否かを判断する
    請求項1から10の何れか1項に記載の音声認識装置。
  13. 音声信号に含まれる言語情報を表す出力記号を出力する音声認識方法であって、
    前記音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含むスコアベクトルが並んだスコアベクトル列を算出し、
    予め登録された探索モデルを探索することにより前記スコアベクトル列における尤もらしい前記音響スコアが得られる前記入力記号を辿る経路を検出し、前記探索モデルにおける検出した経路に割り当てられた前記出力記号を出力し、
    前記記号集合は、認識対象の音韻を表す認識対象記号と、フィラー、非流暢性および非言語音の少なくとも1つを表す付加記号とを、前記入力記号として含み、
    前記探索モデルは、1以上の前記入力記号が並んだ入力記号列と、前記出力記号とが割り当てられた複数の経路を含み、
    尤もらしい前記音響スコアが得られる前記入力記号として、前記付加記号を受理した場合、受理した前記付加記号を含む前記スコアベクトルの次の前記スコアベクトルから、新しい前記出力記号に対応する経路の探索を開始する
    音声認識方法。
  14. 情報処理装置を、音声信号に含まれる言語情報を表す出力記号を出力する音声認識装置として機能させるためのプログラムであって、
    前記情報処理装置を、
    前記音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含むスコアベクトルが並んだスコアベクトル列を算出する算出部と、
    予め登録された探索モデルを探索することにより前記スコアベクトル列における尤もらしい前記音響スコアが得られる前記入力記号を辿る経路を検出し、前記探索モデルにおける検出した経路に割り当てられた前記出力記号を出力する探索部と、
    して機能させ、
    前記記号集合は、認識対象の音韻を表す認識対象記号と、フィラー、非流暢性および非言語音の少なくとも1つを表す付加記号とを、前記入力記号として含み、
    前記探索モデルは、1以上の前記入力記号が並んだ入力記号列と、前記出力記号とが割り当てられた複数の経路を含み、
    前記探索部は、尤もらしい前記音響スコアが得られる前記入力記号として、前記付加記号を受理した場合、受理した前記付加記号を含む前記スコアベクトルの次の前記スコアベクトルから、新しい前記出力記号に対応する経路の探索を開始する
    プログラム。
JP2017045210A 2017-03-09 2017-03-09 音声認識装置、音声認識方法およびプログラム Active JP6599914B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017045210A JP6599914B2 (ja) 2017-03-09 2017-03-09 音声認識装置、音声認識方法およびプログラム
US15/689,775 US10553205B2 (en) 2017-03-09 2017-08-29 Speech recognition device, speech recognition method, and computer program product
CN201710760251.3A CN108573713B (zh) 2017-03-09 2017-08-30 语音识别装置、语音识别方法以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017045210A JP6599914B2 (ja) 2017-03-09 2017-03-09 音声認識装置、音声認識方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2018151413A JP2018151413A (ja) 2018-09-27
JP6599914B2 true JP6599914B2 (ja) 2019-10-30

Family

ID=63445563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017045210A Active JP6599914B2 (ja) 2017-03-09 2017-03-09 音声認識装置、音声認識方法およびプログラム

Country Status (3)

Country Link
US (1) US10553205B2 (ja)
JP (1) JP6599914B2 (ja)
CN (1) CN108573713B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110179466A (zh) * 2019-06-03 2019-08-30 珠海涵辰科技有限公司 基于智能终端的灾后呼吸检测系统
CN112116908B (zh) * 2020-11-18 2021-02-23 北京声智科技有限公司 唤醒音频确定方法、装置、设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3698511B2 (ja) 1996-12-11 2005-09-21 沖電気工業株式会社 音声認識方法
US7050975B2 (en) * 2002-07-23 2006-05-23 Microsoft Corporation Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
CN100495535C (zh) * 2003-02-19 2009-06-03 松下电器产业株式会社 语音识别装置及语音识别方法
US8244522B2 (en) 2007-05-22 2012-08-14 Honda Motor Co., Ltd. Language understanding device
JP4283333B2 (ja) * 2008-09-29 2009-06-24 三菱電機インフォメーションシステムズ株式会社 オペレータ業務支援システム
CN101727903B (zh) * 2008-10-29 2011-10-19 中国科学院自动化研究所 基于多特征和多系统融合的发音质量评估和错误检测方法
JP5621993B2 (ja) * 2009-10-28 2014-11-12 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム
TWI420510B (zh) * 2010-05-28 2013-12-21 Ind Tech Res Inst 可調整記憶體使用空間之語音辨識系統與方法
KR20120066530A (ko) * 2010-12-14 2012-06-22 한국전자통신연구원 언어 모델 가중치 추정 방법 및 이를 위한 장치
JP5739718B2 (ja) * 2011-04-19 2015-06-24 本田技研工業株式会社 対話装置
CN104143328B (zh) 2013-08-15 2015-11-25 腾讯科技(深圳)有限公司 一种关键词检测方法和装置
EP2862164B1 (en) 2013-08-23 2017-05-31 Nuance Communications, Inc. Multiple pass automatic speech recognition
JP6315980B2 (ja) * 2013-12-24 2018-04-25 株式会社東芝 デコーダ、デコード方法およびプログラム
US9953632B2 (en) * 2014-04-17 2018-04-24 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
JP2016057986A (ja) * 2014-09-11 2016-04-21 株式会社東芝 音声翻訳装置、方法およびプログラム
CN105529027B (zh) * 2015-12-14 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置

Also Published As

Publication number Publication date
US20180261210A1 (en) 2018-09-13
US10553205B2 (en) 2020-02-04
JP2018151413A (ja) 2018-09-27
CN108573713B (zh) 2022-01-11
CN108573713A (zh) 2018-09-25

Similar Documents

Publication Publication Date Title
JP5282737B2 (ja) 音声認識装置および音声認識方法
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US7983912B2 (en) Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance
JP6585022B2 (ja) 音声認識装置、音声認識方法およびプログラム
CN108091334B (zh) 识别装置、识别方法以及存储介质
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
KR101587866B1 (ko) 음성 인식용 발음사전 확장 장치 및 방법
KR20160122542A (ko) 발음 유사도 측정 방법 및 장치
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
JP6235280B2 (ja) 音声同時処理装置、方法およびプログラム
US10042345B2 (en) Conversion device, pattern recognition system, conversion method, and computer program product
JP7111758B2 (ja) 音声認識誤り訂正装置、音声認識誤り訂正方法及び音声認識誤り訂正プログラム
JP2016011995A (ja) 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム
JP6599914B2 (ja) 音声認識装置、音声認識方法およびプログラム
US20180012602A1 (en) System and methods for pronunciation analysis-based speaker verification
US20230360633A1 (en) Speech processing techniques
JP2000056795A (ja) 音声認識装置
EP0987681B1 (en) Speech recognition method and apparatus
JP2000056793A (ja) 音声認識装置
JPH0736481A (ja) 補完音声認識装置
JPH08171396A (ja) 音声認識装置
JP2003050595A (ja) 音声認識装置及び方法、並びにプログラム
CN118098290A (zh) 朗读评测方法、装置、设备、存储介质及计算机程序产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191003

R151 Written notification of patent or utility model registration

Ref document number: 6599914

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151