JP5701348B2 - 音声認識装置、音声認識方法、およびプログラム - Google Patents

音声認識装置、音声認識方法、およびプログラム Download PDF

Info

Publication number
JP5701348B2
JP5701348B2 JP2013173272A JP2013173272A JP5701348B2 JP 5701348 B2 JP5701348 B2 JP 5701348B2 JP 2013173272 A JP2013173272 A JP 2013173272A JP 2013173272 A JP2013173272 A JP 2013173272A JP 5701348 B2 JP5701348 B2 JP 5701348B2
Authority
JP
Japan
Prior art keywords
wfst
external
transition
phoneme symbol
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013173272A
Other languages
English (en)
Other versions
JP2015041055A (ja
Inventor
健一 磯
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2013173272A priority Critical patent/JP5701348B2/ja
Publication of JP2015041055A publication Critical patent/JP2015041055A/ja
Application granted granted Critical
Publication of JP5701348B2 publication Critical patent/JP5701348B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声を認識する音声認識装置等に関するものである。
従来、音声信号を、WFST(重み付き有限状態トランスデューサ)を用いてデコードし、音声認識の結果の文字列を取得する手法が用いられている(例えば、非特許文献1参照)。WFSTを用いた音声認識は、1つのWFSTを用いて行われるため、新語やユーザごとの単語辞書等を追加したい場合には、その追加ごとにWFSTをすべて作り直す必要があった。また、WFSTを作り直す処理は通常、時間のかかる処理であるため、新語等の追加ごとにWFSTを作り直すことは難しかった。そこで、ただ一つのWFSTを用いて音声認識を行うのではなく、主WFSTと、外部WFSTとを用いて音声認識を行う方法が用いられている(例えば、特許文献1参照)。その方法は、主WFSTにおいて、人名に関する外部WFSTを呼び出しながら音声認識を行う方法である。
米国特許出願公開第2003/009335号明細書
堀貴明,塚田元、「音声情報処理技術の最先端:3.重み付き有限状態トランスデューサによる音声認識」、情報処理学会誌,Vol.45,No.10,p.1020−1026,2004年10月
音素の文脈依存性を考慮した音声認識では、主WFSTから外部WFSTにつながる部分において、主WFST側の音素は、次の外部WFSTの音素が分からず、外部WFSTから主WFSTにつながる部分において、外部WFST側の音素は、次の主WFSTの音素が分からないという問題がある。そのため、前述の特許文献1に記載の方法では、主WFSTと外部WFSTとの接合部分をあらかじめすべての起こりうる可能性について展開することが行われていた。具体的には、主WFSTと外部WFSTとの接合部分において、次の音素が分からないため、すべての可能な音素を仮定して事前に文脈依存音素に展開していた。そして、デコード時には、両WFSTの文脈依存音素のすべての組み合わせについて、整合性を調べて矛盾のない組み合わせのみを接続することが行われていた。そのような場合には、主WFST及び外部WFSTのデータ量が大きくなり、またデコード時の処理も多くなるという問題があった。そのことは、遷移に対応する音素の数が多くなる場合(例えば、左右1音素ではなく、2音素、3音素を用いる場合等)や、主WFST中で外部WFSTの呼び出し箇所が多くなる場合には、特に顕著になる。
本発明は、上記問題点を解決するためになされたものであり、その目的は、外部WFSTを、従来の方法より少ない処理量と少ないデータ量で展開することができる音声認識装置等を提供することである。
本第一の発明の音声認識装置等は、音声信号をテキスト情報に変換するために用いられるWFST(重みつき有限状態トランスデューサ)であり、文脈に依存した音素記号に対応する入力を有する遷移と、遷移によって接続される状態とを有するWFSTである外部WFSTが1以上格納される外部WFST格納手段と、外部WFSTを識別する情報である特殊音素記号を有する遷移を含むWFSTである主WFSTが格納される主WFST格納手段と、発話された音声を示す音声信号を受け付ける音声信号受付手段と、音声信号に応じて、主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、特殊音素記号が識別する外部WFSTを、特殊音素記号に対応する入力を有する遷移の遷移先に関する情報と、遷移が有する入力に対応付けられた音素記号とに応じて展開することによって音声認識を行う音声認識手段と、音声認識手段が音声認識した結果を出力する出力手段とを具備する音声認識装置である。
また、本第二の発明の音声認識装置は、第一の発明に対して、音声認識手段は、音声信号に応じて、主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、遷移に含まれる入力に対応付けられた特殊音素記号以外の音素記号を用いて、主WFSTから特殊音素記号で識別される外部WFSTへの遷移と、外部WFSTから主WFSTに含まれる特殊音素記号以後の状態への遷移とを、主WFSTに追加することによって展開する、音声認識装置である。
また、本第三の発明の音声認識装置は、第一または第二の発明に対して、音声認識手段は、音声信号に応じて、主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、特殊音素記号に対応する入力を有する遷移の遷移先に関する情報であって、特殊音素記号が識別する外部WFSTの終端から遷移する主WFSTに関する情報を一時的に蓄積する、音声認識装置である。
また、本第四の発明の音声認識装置は、第一から第二のいずれか一項の発明に対して、ユーザ固有の情報である固有情報を受け付ける固有情報受付手段と、固有情報と対応する音声信号を認識するための外部WFSTを作成する外部WFST作成手段と、外部WFST作成手段が作成した外部WFSTを、特殊音素記号に対応付けて外部WFST格納手段に蓄積する外部WFST蓄積手段とをさらに具備する、音声認識装置である。
また、本第五の発明の音声認識装置は、第一または第二の発明に対して、外部WFSTを受け付ける外部WFST受付手段と、外部WFST受付手段が受け付けた外部WFSTを、特殊音素記号に対応付けて外部WFST格納手段に蓄積する外部WFST蓄積手段とをさらに具備する、音声認識装置である。
本発明による音声認識装置等によれば、音声認識の際に、必要な遷移だけを作成して、特殊音素記号に対応する外部WFSTに接続でき、不要な遷移をも作成する手法と比較して、処理量とデータ量を削減できる。
実施の形態1における音声認識装置の構成を示すブロック図 同実施の形態における主WFST格納手段に格納されている主WFST、および外部WFST格納手段に格納されている外部WFSTの一例を視覚化した図 同実施の形態における主WFSTに外部WFSTを展開したWFSTの一例を視覚化した図 同実施の形態における主WFSTに外部WFSTを展開した場合に作成される情報の一例を示す図 同実施の形態における主WFSTに外部WFSTを展開したWFSTの一例を視覚化した図 同実施の形態における音声認識装置の動作の一例を示すフローチャート 同実施の形態におけるコンピュータシステムの外観の一例を示す図 同実施の形態におけるコンピュータシステムの構成の一例を示す図
以下、音声認識装置等の実施の形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、文脈に依存したWFSTを用いた音声認識のデコード時に、外部に格納されているWFSTを、必要な分だけ動的に展開することで音声認識を行う音声認識装置1について説明する。
図1は、本実施の形態における音声認識装置1のブロック図である。音声認識装置1は、外部WFST格納手段101、主WFST格納手段102、固有情報受付手段103、外部WFST作成手段104、外部WFST受付手段105、外部WFST蓄積手段106、音声信号受付手段107、音声認識手段108、および出力手段109を備える。
外部WFST格納手段101には、外部WFSTが1以上格納される。また、主WFST格納手段102には、主WFSTが格納される。外部WFST、および主WFSTは、音声信号をテキスト情報に変換するために用いられるWFSTであり、遷移と状態とを有するWFSTである。WFSTは、Weighted Finite State Transducerの略であり、重み付き有限状態トランスデューサと訳される。以下、音声信号をテキスト情報に変換するために用いられるWFSTを音声認識WFSTともいう。音声認識WFSTは、外部WFSTと主WFSTとを示す名称である。
WFSTとは、入力記号列に対して状態遷移を繰り返し、それに対応した出力の情報の列と重み(スコア)とを出力する有限状態オートマトンの一種である。WFSTを用いた音声認識は、音響モデル、辞書、および言語モデル等の音声認識に必要な情報をそれぞれWFSTに変換し、それらを合成したWFSTを探索空間に見立てて、音声信号をデコードし、音声認識結果の文字列に変換する手法である。また、WFSTを用いた音声認識は、デコードする過程で累積された重みの値が最も大きい状態遷移が示す文字列を取得する手法である。外部WFSTは、主WFSTを拡張するためのWFSTである。例えば、外部WFSTは、地名や人名等の固有名詞の用語や、新しい用語、一部のコミュニティでのみ使われる用語、または個人でのみ使われる用語等を、音声認識できるようにするために用いられる。主WFSTの拡張は、主WFST内の適切な位置に外部WFSTを展開することで行われる。なお、WFSTをたどる音声認識の処理は、公知技術であるため、その詳細な説明を省略すことがある。
音声認識WFSTは、音響モデル、辞書、および言語モデルに関するWFSTが合成されたWFSTであっても良く、合成されていないWFSTであっても良い。後者の場合は、音響モデル、辞書、および言語モデルに関するWFSTが合成されたWFSTと同様の音声認識WFSTが、合成を行うことなく作成されても良い。また、音声認識WFSTは、最適化手法である決定化、および/または、最小化を行った状態であることが好適である。また、音声認識WFSTは、実際に最適化が行われたWFSTであっても良く、最適化が行われていなくても良い。後者の場合は、最適化が行われた状態と同様の音声認識WFSTが、最適化を行うことなく作成されても良い。決定化は、音声認識WFSTが非決定性WFSTであった場合に、決定性WFSTに変換する最適化手法である。決定性WFSTは、1つの情報に対して、最終的な遷移先の状態が1つに定まるWFSTである。非決定性WFSTは、1つの情報に対して、最終的な遷移先の状態が複数あるWFSTである。なお、非決定性WFSTの場合の音声認識の結果は、累積された重みの値を用いて選択された1つの結果であっても良い。また、最小化は、WFSTの状態の数を最小限にする最適化手法である。例えば、最小化は、入力の順番が共通する1以上の遷移の組がある場合に、その遷移の組み合わせを、共通化する最適化手法である。なお、決定化、および最小化に用いるアルゴリズムは問わない。
音声認識WFSTに含まれる遷移とは、文脈に依存した2以上の音素記号に対応する入力を有するものである。遷移は、グラフ構造におけるリンク(エッジ)を示すものである。音素記号は、音素を示す記号であり、主にアルファベットで記述される。2以上の音素記号は、その音素記号に対応する入力を有する遷移に対応する特徴量と合致する音素と、文脈に依存したその音素の周辺の音素である。例えば、2以上の音素記号は、音素記号に対応する入力を有する遷移に対応する音声信号の特徴量と合致する音素と、その直前、および/または、直後の音素であっても良い。以下、この2以上の音素記号を文脈依存音素ともいう。音声信号の特徴量とは、一定期間ごとに分割された音声信号の、その期間における特徴量である。なお、以下、一定期間ごとに分割された各期間に対応する時間的な枠をフレームとも言う。特徴量は、例えば、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータ、およびデルタデルタパラメータをそれぞれ12次元有し、さらに正規化されたパワーとデルタパワー、およびデルタデルタパワーを有しても良い(合計39次元)。また、特徴量は、MFCCの12次元、ΔMFCCの12次元、Δ対数パワーの1次元を含む25次元のものであっても良い。このように、種々の特徴量を用いることが可能である。特徴量の取得方法は、公知技術であるため、詳細な説明を省略する。
主WFSTに含まれる遷移は、外部WFSTを識別する情報である特殊音素記号を有する。特殊音素記号は、外部WFSTを識別する情報であれば、どのような情報であっても良い。例えば、特殊音素記号は、外部WFST格納手段101に格納されている外部WFSTを識別するID等であっても良い。なお、特殊音素記号は、外部WFST作成手段104が作成した外部WFSTを識別する情報であっても良く、外部WFST受付手段105が受け付けた外部WFSTを識別する情報であっても良い。
音声認識WFSTに含まれる状態は、遷移によって接続されるものである。状態は、グラフ構造におけるノードを示すものである。状態は、1以上の遷移を介して、前の状態から移行できるようなノードであっても良く、いずれの状態からも移行できないノードであっても良い。いずれの状態からも移行できないノードは、例えば、起点となるノードであり、他のノードへ移行できるノードであっても良い。また、状態は、1以上の遷移を介して、それぞれの遷移に応じた次の状態に移行できるノードであっても良く、いずれの状態へも移行できないノードであっても良い。いずれの状態へも移行できないノードは、例えば、終点となるノードであり、他のノードから移行できるノードであっても良い。
音声認識WFSTは、結果として、WFSTを用いた音声認識が可能であれば、どのようなデータの持ち方で実現しても良い。例えば、遷移は、その遷移の直前の状態を識別する情報を有していても良く、有していなくても良い。また、遷移は、その遷移の直後の状態を識別する情報を有していても良く、有していなくても良い。また、状態は、その状態の直前の遷移を識別する情報を有していても良く、有していなくても良い。また、状態は、その状態の直後の遷移を識別する情報を有していても良く、有していなくても良い。具体的には、音声認識WFSTは、各状態と、その状態の直後の遷移を識別する情報とを対応付ける情報、および、各遷移と、その遷移の直後の状態とを対応付ける情報を有していても良い。また、各遷移には、文脈依存音素である入力記号と、重みとが対応付けられていても良い。なお、データは、重複して持たないことが好適である。テータの重複は、例えば、遷移が、直後の状態を識別する情報を有していて、状態が、直前の遷移を識別する情報を有している場合等である。なお、本実施の形態におけるWFSTの重み情報は、遷移が有していても良く、状態が有していても良く、遷移と状態が有していても良い。また、本実施の形態におけるWFSTの出力は、遷移が有していても良く、状態が有していても良く、遷移と状態が有していても良い。以下、遷移が出力を有しているものとして説明する。
図2は、外部WFST格納手段101、および主WFST格納手段102に格納される音声認識WFSTの一例を視覚化したものを示す図である。図2のWFSTは、遷移に3つの音素記号が対応付けられているトライフォンの文脈依存WFSTである。図2のWFSTにおいて、矢印で示されているものが遷移であり、丸印で示されているものが状態である。また、遷移に対応付けられたアルファベットが、遷移に含まれる入力に対応する音素記号である。その音素記号は、(「直前の音素記号(左音素記号)」−「中心の音素記号」+「直後の音素記号(右音素記号)」)で示されている。なお、中心の音素記号は、1つの遷移に1つの音素記号が対応するWFSTの場合でも、その遷移に対応する音素のことである。音素記号のうち、Xは、特殊音素記号である。また、外部WFSTにおけるLとRは、接続部分における主WFSTの音素記号を示す音素記号である。そのLやRの部分には、外部WFSTの展開時に、主WFSTの具体的な音素が入れられることになる。また、各状態には、状態を識別するIDを付与している。Mから始まる状態のIDは、主WFSTの状態である。また、Sから始まる状態のIDは外部WFSTの状態である。文脈依存WFSTにおける遷移は、直前の遷移の中心の音素記号以降の音素記号に依存した遷移となる。中心の音素記号以降の音素記号とは、例えばトライフォンのWFSTであれば、中心の音素記号の音素記号、および直後の音素記号である。具体的には、図2の(M10)から(M11)への遷移、および(M14)への遷移は、(M10)の直前の遷移が有する入力に対応する(a−b+c)の(b+c)に対応するように(b−c+「直後の音素記号」)となる。なお、外部WFSTの最初と最後の遷移はこの限りではない。外部WFSTの最初と最後の遷移は、主WFSTに展開された際に、直前の遷移の中心の音素記号以降の音素記号に依存するという条件を結果として満たせば良い。
固有情報受付手段103は、ユーザ固有の情報である固有情報を受け付ける。固有情報は、例えば、ユーザの端末装置に記録されている電話帳の個人名であっても良く、ユーザが打ったメールや、投稿した書き込みに含まれる一般的でない用語や言い回しであっても良く、その他のユーザ固有の情報であっても良い。なお、固有情報受付手段103は、固有情報を、電話帳データ等のように、端末側で使用されているデータ形式のまま受け付けても良く、端末側で使用されているデータ形式を加工したデータを受け付けても良い。データ形式を加工したデータとは、例えば、外部WFSTに必要なデータのみ抽出したデータであっても良く、その情報に対して形態素解析等の処理を行って品詞ごとに分類したデータであっても良く、その処理を行った結果取得した特定の品詞のみのデータ等であっても良い。また、固有情報は、文字列であっても良く、文字列とその文字列の読み仮名との組であっても良く、文字列とその文字列に対応する音素記号の列との組であっても良い。また、固有情報受付手段103は、固有情報を用いて作成される外部WFSTを識別するあらかじめ設定された特殊音素記号を受け付けても良く、すでに主WFSTに含まれている特殊音素記号を受け付けても良い。固有情報受付手段103は、メモリーカードやUSBメモリ等を介して固有情報等を受け付けても良い。また、固有情報受付手段103は、有線または無線の通信回線を介して固有情報等を受け付けても良い。通信回線は、例えば、インターネットやイントラネット、LAN(Local Area Network)、公衆電話回線等である。
外部WFST作成手段104は、固有情報と対応する音声信号を認識するための外部WFSTを作成する。外部WFST作成手段104は、例えば、固有情報から辞書に対応したWFSTを作成しても良い。辞書に対応したWFSTは、音素の列を単語に代えるためのWFSTである。例えば、外部WFST作成手段104は、固有情報が文字列とその文字列に対応する音素記号の列との組でない場合に、形態素解析等の処理を行って、固有情報から文字列とその文字列に対応する音素記号との組を1以上取得しても良い。そして、外部WFST作成手段104は、取得した文字列とその文字列に対応する音素記号との組を用いて外部WFSTを作成しても良い。なお、外部WFST作成手段104は、固有情報を用いて作成した辞書に関するWFSTと、図示しない格納手段、または図示しない外部の格納装置に格納されている言語モデルに関するWFSTと音響モデルに関するWFSTと合成して外部WFSTを作成しても良い。また、その合成の後に最適化を行っても良いことは言うまでもない。WFSTの作成方法については、公知技術であるため、説明を省略する。なお、「外部WFSTを作成する」とは、全く新しい外部WFSTを作成することであっても良く、すでにある外部WFSTに情報を追加することであっても良い。後者の場合には、例えば、すでに存在する人名の外部WFSTに対して、固有情報受付手段103が受け付けた固有情報に対応する外部WFSTを追加しても良い。なお、追加の後に、さらに最適化等を行っても良い。また、外部WFST作成手段104は、受け付けられた固有情報と、あらかじめ図示しない格納手段で記憶されているデフォルトの固有情報とを用いて、外部WFSTを作成しても良い。例えば、外部WFST作成手段104は、受け付けられた固有情報に含まれるユーザの友人・知人等の人名と、デフォルトの固有情報である一般の人名とを用いて、人名に対応する外部WFSTを生成しても良い。なお、外部WFST作成手段104は、固有情報受付手段103が特殊音素記号を受け付けている場合は、その特殊音素記号に対応する外部WFSTを作成しても良い。
外部WFST受付手段105は、外部WFSTを受け付ける。なお、外部WFST受付手段105は、その外部WFSTを識別する特殊音素記号をも受け付けても良い。外部WFST受付手段105は、メモリーカードやUSBメモリ等を介して外部WFSTを受け付けても良い。また、外部WFST受付手段105は、有線または無線の通信回線を介して外部WFSTを受け付けても良い。通信回線は、例えば、インターネットやイントラネット、LAN、公衆電話回線等である。外部WFST受付手段105は、例えば、スマートフォン等の端末装置等から外部WFSTを受け付けてもよく、または、外部WFSTを生成するサーバ等から外部WFSTを受け付けても良い。後者の場合には、例えば、スマートフォン等の端末装置から送信された固有情報に応じて、そのサーバ等において外部WFSTが生成され、その生成された外部WFSTが外部WFST受付手段105で受け付けられても良い。
外部WFST蓄積手段106は、外部WFSTを特殊音素記号に対応付けて外部WFST格納手段101に蓄積する。外部WFST蓄積手段106が蓄積する外部WFSTは、外部WFST作成手段104が作成した外部WFSTであっても良く、外部WFST受付手段105が受け付けた外部WFSTであっても良い。なお、外部WFST蓄積手段106は、全く新しい外部WFSTを蓄積しても良く、すでにある外部WFSTに追加しても良い。また、外部WFST蓄積手段106が蓄積した外部WFSTと対応する特殊音素記号は、固有情報受付手段103が受け付けた特殊音素記号であっても良く、外部WFST受付手段105が受け付けた特殊音素記号であっても良く、蓄積対象の外部WFSTに応じて生成された特殊音素記号であっても良い。また、外部WFST蓄積手段106は、外部WFSTと共に、その外部WFSTに対応する特殊音素記号も外部WFST格納手段101に蓄積しても良い。
ここで、外部WFST作成手段104が作成した外部WFSTや、外部WFST受付手段105が受け付けた外部WFSTが音声認識で用いられる理由について簡単に説明する。音声認識装置1が、あるユーザの端末装置から音声信号を受け付けて音声認識を行う場合には、その音声信号に、そのユーザがよく使用する固有名詞等が多く含まれていることが想定される。したがって、外部WFST作成手段104が作成した外部WFST等を用いて音声認識を行うことによって、その音声信号の認識精度を向上させることができると考えられる。
音声信号受付手段107は、音声信号を受け付ける。音声信号は、発話された音声を示す信号である。音声信号受付手段107は、発話された音声を集音した装置から音声信号を受け付けても良く、集音した装置以外から音声信号を受け付けても良い。なお、ここでいう「音声を集音した装置」は、マイクロフォン装置であっても良く、スマートフォンやPDA等の端末装置であっても良い。集音した装置以外から音声信号を受け付ける場合は、音声信号受付手段107は、メモリーカードやUSBメモリ等を介して音声信号を受け付けても良い。また、音声信号受付手段107は、有線または無線の通信回線を介して音声信号を受け付けても良い。通信回線は、例えば、インターネットやイントラネット、LAN、公衆電話回線等である。音声は、1または2以上の単語の音声であっても良く、1または2以上の文節の音声であっても良く、1または2以上の文章の音声であっても良い。
音声認識手段108は、音声信号に応じて、主WFSTの各遷移をたどりながら音声認識処理を行う。また、音声認識手段108は、主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、その特殊音素記号が識別する外部WFSTを取得し、その外部WFSTを、その特殊音素記号に対応する入力を有する遷移の遷移先に関する情報と、その遷移が有する入力に対応付けられた音素記号とに応じて展開することによって音声認識を行う。具体的には、音声認識手段108は、音声信号を、一定の期間ごとに分割したフレームごとに取得する。そして、音声認識手段108は、分割したフレームごとの特徴量を取得する。さらに、音声認識手段108は、その特徴量ごとに主WFST上の遷移をたどる。なお、音声認識手段108は、遷移をたどりながら遷移が有する出力を図示しない格納手段に蓄積する。
音声認識手段108は、次の遷移が有する入力が特殊音素記号を含む音素記号と対応付いている入力を有する状態である場合に、その特殊音素記号に識別される外部WFSTを、その特殊音素記号と同じ入力に対応付けられた他の音素記号を用いて展開する。その特殊音素記号と同じ入力に対応付けられた他の音素記号とは、例えば、特殊音素記号と対応する入力の音素記号が「a−b+X」であり、「X」が特殊音素記号である場合の、「a」と「b」とである。音声認識手段108は、その他の音素記号を用いて外部WFSTへの遷移を作成することで展開する。その際に、音声認識手段108は、外部WFSTの最初の状態から出発するすべての遷移が有する入力に対応する中心の音素記号を取得する。この中心の音素記号は、具体的には、図2における「m」および「o」である。音声認識手段108は、取得したそれぞれの中心の音素記号ごとに、主WFST上での遷移を作成する。例えば、音声認識手段108は、特殊音素記号「X」が識別する外部WFSTの最初の遷移が「L−m+n」であり、「L」が主WFST上の特殊音素記号の直前の音素である場合に、「a」、「b」、および「m」を用いて「a−b+m」と対応付けられた入力を有する遷移等を作成しても良い。この際に作成される遷移は、特殊音素記号「X」を取得した中心の音素記号に置換した音素記号列と対応する入力を有するものである。また、この際に作成される遷移は、具体的には、図3における(M10)から(T10)への遷移(b−c+m)、および(M10)から(T20)への遷移(b−c+o)である。なお、音声認識手段108が遷移を作成することは、作成された遷移の先の状態を識別する「展開された外部WFSTの状態ID」、主WFSTの遷移先の状態を識別する「主WFSTの遷移先状態ID」、外部WFST上での行き先状態を識別する「外部WFSTの状態ID」、作成される遷移が有する入力に対応する中心の音素記号、作成される遷移が有する入力に対応する直後の音素記号、および作成される遷移に対応する主WFST上での遷移が有する入力に対応する直後の音素記号である「主WFST上の直後の音素記号」を有する情報である作成遷移情報を作成することであっても良い。なお、作成遷移情報は、その作成された遷移を識別する情報を含んでいても良い。また、作成遷移情報は、具体的には、図4の一行に当たる情報である。図4は、外部WFSTを主WFSTに展開した場合のデータの格納手法の一例である。なお、音声認識手段108は、遷移を作成する場合に、特殊音素記号に対応する入力を有する遷移の遷移先に関する情報であって、特殊音素記号が識別する外部WFSTの終端から遷移する主WFSTに関する情報を図示しない格納手段に蓄積しても良い。外部WFSTの終端から遷移する主WFSTに関する情報は、例えば、「主WFSTの遷移先状態ID」であっても良く、「主WFSTの遷移先状態ID」でなくても良い。外部WFSTの終端から遷移する主WFSTに関する情報が「主WFSTの遷移先状態ID」でない場合は、遷移の遷移先に関する情報は、その遷移の遷移先の状態であっても良く、その遷移の遷移先の状態から続く遷移であっても良く、その遷移の遷移先の状態から続く遷移の遷移先の状態等であっても良い。外部WFSTの終端から遷移する主WFSTに関する情報が「主WFSTの遷移先状態ID」でない場合は、外部WFSTの終端から遷移する主WFSTに関する情報は、作成遷移情報に含まれていても良く、含まれていなくても良い。つまり、外部WFSTの終端から遷移する主WFSTに関する情報は、外部WFSTから主WFSTへ戻るための遷移を作成するために用いられる情報であれば何でも良い。また、音声認識手段108は、遷移を作成する場合に作成遷移情報等を図示しない格納手段に蓄積しても良い。
特殊音素記号によって識別される外部WFSTへの遷移が作成されると、音声認識手段108は、展開前と同様に各フレームに含まれる特徴量ごとに遷移をたどる処理を再開する。なお、図3の展開後、M11に進んだ場合は、音声認識手段108は、再度特殊音素記号Xに対応する外部WFSTへの遷移を作成する。また、音声認識手段108は、作成された遷移に進んだ場合は、その遷移の先の遷移を作成する。例えば、音声認識手段108は、進んだその遷移と対応する作成遷移情報を取得し、「外部WFSTの状態ID」で識別される外部WFST上の状態からつながる遷移を作成しても良い。この場合、音声認識手段108は、新たに作成された遷移に対応する作成遷移情報を作成しても良く、その新たに作成した作成遷移情報を図示しない格納手段に蓄積しても良い。なお、音声認識手段108は、進んだ遷移に対応する作成遷移情報に含まれる「外部WFSTの状態ID」が識別する状態の種類によって処理を変更しても良い。
進んだ遷移に対応する作成遷移情報に含まれる「外部WFSTの状態ID」が外部WFSTの最初の状態を識別する場合は、音声認識手段108は、その外部WFSTの最初の状態からの遷移を作成しても良い。例えば、音声認識手段108は、最初の遷移が「L−m+n」であり、「L」が主WFST上の特殊音素記号の直前の音素である場合に、進んだ遷移に対応する作成遷移情報の中心の音素記号をLと置換して遷移を作成しても良い。また、作成遷移情報を作成する場合は、音声認識手段108は、「主WFSTの遷移先状態ID」に、進んだ遷移に対応する作成遷移情報の「主WFSTの遷移先状態ID」の次の状態を識別する情報を設定しても良い。また、作成遷移情報を作成する場合は、音声認識手段108は、主WFST上の直後の音素記号に進んだ遷移に対応する作成遷移情報の「主WFSTの遷移先状態ID」が識別する遷移からの遷移が有する入力に対応する直後の音素記号を設定しても良い。
進んだ遷移に対応する作成遷移情報に含まれる「外部WFSTの状態ID」が外部WFSTの最初および最後の状態以外の状態を識別する場合は、音声認識手段108は、進んだ遷移に対応する作成遷移情報の「外部WFSTの状態ID」が識別する外部WFSTの遷移からの遷移と同様の遷移を作成しても良い。なお、その遷移に主WFST上の特殊音素記号の直後の音素を示す記号(例えばR)等が含まれている場合は、その主WFST上の特殊音素記号の直後の音素を示す記号と、進んだ遷移に対応する作成遷移情報に含まれる主WFST上の直後の音素記号を置換して作成しても良い。
進んだ遷移に対応する作成遷移情報に含まれる「外部WFSTの状態ID」が外部WFSTの最後の状態を識別する場合は、音声認識手段108は、「主WFSTの遷移先状態ID」が識別する主WFST上での状態からの遷移を作成しても良く、外部WFSTの終端から遷移する主WFSTに関する情報を用いて主WFSTへの遷移を作成しても良い。
また、音声認識手段108は、作成遷移情報、または作成遷移情報に含まれる一部の情報を図示しない一時格納手段に蓄積することで、外部WFSTを展開しても良く、長期的な格納手段に蓄積することで、外部WFSTを展開しても良い。また、音声認識手段108は、遷移を作成した場合に、遷移の先の状態がなければ、その状態も作成しても良い。つまり、音声認識手段108は、外部WFSTへの遷移や外部WFST内の遷移を作成する場合に、一時的に状態を作成して遷移を接続しても良く、主WFSTに戻る場合に、主WFSTの状態をそのまま用いて遷移を接続しても良い。また、作成遷移情報は、必ずしも作成されなくても良い。作成遷移情報が作成されない場合は、上記説明における作成遷移情報を用いて行った処理は、その処理に用いられた作成遷移情報に含まれる情報と同等の情報を用いて行っても良い。また作成遷移情報は、一部の情報を含まない情報であっても良い。以上のようにして、音声認識手段108は、外部WFSTを図3のように展開しても良い。この場合の外部WFSTは、例えば、後述する図4のようなデータ構造で展開されても良い。なお、音声認識手段108による外部WFSTの展開は、1度に図2の外部WFSTをすべて展開しても良く、音声認識の処理によるWFSTのたどり具合に応じて、逐次展開するようにしても良い。なお、音声認識手段108がすべて外部WFSTをすべて展開した場合は、図5のようになる。
音声認識手段108は、外部WFSTを展開する場合に、遷移に含まれる入力に対応付けられた特殊音素記号以外の音素記号を用いて、主WFSTから特殊音素記号で識別される外部WFSTへの遷移と、その外部WFSTからその主WFSTに含まれるその特殊音素記号以後の状態への遷移とを、その主WFSTに追加することによって展開しても良い。上記方法は、一例であり、異なる方法で外部WFSTを展開しても良い。つまり、音声認識手段108は、主WFSTから、直前の遷移に含まれる入力に対応付けられた中心の音素記号以降の音素記号に依存した遷移を作成して外部WFSTに接続し、主WFSTから接続された外部WFSTから、その外部WFSTの最後の遷移に含まれる入力に対応付けられた中心の音素記号以降の音素記号に依存した遷移を作成して、主WFSTに接続するのであれば、その方法は問わない。遷移をたどり終えると、音声認識手段108は、蓄積された出力が示す文字列を取得することで音声認識の結果を取得する。
なお、遷移が有する入力において、直前または直後のどちらか一方の音素記号のみしか対応付けられていない場合は、音声認識手段108は、その対応付けられていない音素記号に関する遷移については、外部WFSTの展開を行わなくても良い。例えば、文脈依存がバイフォンであり、直前の音素(例えば、左側の音素)にしか依存しない場合には、外部WFSTにおいて、図2の「R」のような未定の音素が存在しなくなるため、そのRに関する展開を行わなくても良い。したがって、遷移が有する入力において、前方の音素(例えば、左側の音素)についてのみ文脈依存がある場合には、音声認識手段108は、前方の音素のみに応じて、主WFSTから特殊音素記号で識別される外部WFSTへの遷移を主WFSTに追加するように展開を行っても良い。また、遷移が有する入力において、後方の音素(例えば、右側の音素)についてのみ文脈依存がある場合には、音声認識手段108は、後方の音素のみに応じて、外部WFSTから主WFSTに含まれるその特殊音素記号以後の状態への遷移を主WFSTに追加するように展開を行っても良い。また、フレームに対応する期間の長さは問わない。また、音声認識手段108は、特徴量を取得する場合に、音声に関する特徴量のみを抽出するために、雑音を除外するための処理等を行っても良い。
本実施の形態では、音声認識手段108が、主WFSTをたどった場合で、特殊音素記号と対応付けられた入力を有する遷移の前の状態まで移行したとき、その特殊音素記号に対応する外部WFSTを、その特殊音素記号の直前の文脈、および、その特殊音素記号の直後の文脈に依存するようにして展開することで、必要な(整合した文脈依存音素を有する)遷移だけが作成されるようにして主WFSTと外部WFSTとを接続できる。この手法は、従来の手法における、不要な(音素文脈が整合しない)遷移を事前に展開しないため、処理時間が短縮され、さらにデータの使用量が削減できる。さらに、整合した文脈依存音素のみの遷移で音声認識が行われるため、デコードの際に整合性チェックが不要となる。
出力手段109は、音声認識手段108が音声認識した結果を出力する。音声認識した結果は、例えば、文字列であっても良い。例えば、出力手段109は、音声認識手段108による音声認識の過程で、図示しない格納手段に格納された、出力の列を出力しても良く、その出力の列をつなげた文字列を出力しても良い。
外部WFST格納手段101、および主WFST格納手段102は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。主WFST格納手段102等に主WFST等の情報が記憶される過程は問わない。例えば、記録媒体を介して主WFST等の情報が主WFST格納手段102等で記憶されるようになっても良く、通信回線等を介して送信された主WFST等の情報が主WFST格納手段102等で記憶されるようになっても良い。
外部WFST作成手段104、外部WFST蓄積手段106、および音声認識手段108は、通常、MPUやメモリ等から実現され得る。外部WFST作成手段104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力手段109は、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラム等への処理結果の引渡し等を行っても良い。
次に、音声認識装置1の動作について図6のフローチャートを用いて説明する。なお、本フローチャートは、音声認識の対象となる音声信号をすべて受け付けてから、その音声信号に対する音声認識を開始するものである。
(ステップS201)固有情報受付手段103は、固有情報を受け付けたかどうかを判断する。固有情報を受け付けた場合は、ステップS202へ進み、受け付けていない場合は、ステップS204へ進む。
(ステップS202)外部WFST作成手段104は、ステップS201で受け付けた固有情報を用いて外部WFSTを作成する。
(ステップS203)外部WFST蓄積手段106は、ステップS202で作成した外部WFST、またはステップS204で受け付けた外部WFSTを、その外部WFSTを識別する特殊音素記号と対応付けて、外部WFST格納手段101に蓄積する。
(ステップS204)外部WFST受付手段105は、外部WFSTを受け付けたかどうかを判断する。外部WFSTを受け付けた場合は、ステップS203へ進み、受け付けていない場合は、ステップS205へ進む。
(ステップS205)音声信号受付手段107は、音声信号を受け付けたかどうかを判断する。音声信号を受け付けた場合は、ステップS206へ進み、受け付けなかった場合は、ステップS201に戻る。
(ステップS206)音声認識手段108は、ステップS205で受け付けた音声信号を一定の期間ごとに分割する。
(ステップS207)音声認識手段108は、ステップS206で分割した期間ごとに特徴量を取得する。
(ステップS208)音声認識手段108は、カウンタnに1を代入する。
(ステップS209)音声認識手段108は、n番目の特徴量があるかどうかを判断する。n番目の特徴量がある場合は、ステップS210へ進み、n番目の特徴量がない場合は、ステップS216へ進む。
(ステップS210)音声認識手段108は、n番目の特徴量に対応する遷移から、n番目の特徴量に合致する遷移を選択する。なお、ここでいうn番目の特徴量に対応する遷移とは、音声認識WFST上の現在の状態の次の遷移であり、n番目の特徴量、および/または、n番目以前の特徴量によってたどった遷移の履歴に合致する遷移のことを示しているものとする。
(ステップS211)音声認識手段108は、ステップS210で選択した遷移をたどり、次の状態へ移行する。
(ステップS212)音声認識手段108は、n番目の特徴量に対応する遷移が有する出力を取得し、図示しない一時格納手段に蓄積する。
(ステップS213)音声認識手段108は、次の遷移が有する入力が特殊音素記号と対応付けられているかどうかを判断する。特殊音素記号と対応付けられている場合は、ステップS214へ進み、特殊音素記号と対応付けられていない場合は、ステップS215へ進む。
(ステップS214)音声認識手段108は、ステップS213で確認した特殊音素記号に識別される外部WFSTを展開する。
(ステップS215)音声認識手段108は、カウンタnを1だけインクリメントする。そして、ステップS209へ戻る。
(ステップS216)出力手段109は、ステップS212で蓄積された、図示しない一時格納手段に格納されている音声認識結果を出力する。そして、ステップS201に戻る。
なお、図6のフローチャートでは、音声認識のバッチ処理を行う場合について説明したが、音声認識のリアルタイム処理を行う場合にも、同様に行うことができる。また、図6のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における音声認識装置1の具体的な動作について説明する。なお、本具体例では、ステップS205からステップS216までの処理について説明する。つまり、本具体例では、固有情報受付手段103が固有情報を受け付け、外部WFST作成手段104が作成した外部WFST、または、外部WFST受付手段105が受け付けた外部WFSTを外部WFST蓄積手段106が外部WFST格納手段101に蓄積し終えているものとする。なお、主WFST格納手段102に格納されている主WFST、および外部WFST格納手段101に格納されている外部WFSTは、図2に示すWFSTであるものとする。
音声認識装置1に接続されている図示しないマイクロフォンに対して、ユーザが発声を行ったものとする。マイクロフォンは、音声を信号に変換し、音声認識装置1の音声信号受付手段107へ渡す。音声信号受付手段107は、その音声信号を受け付ける(ステップS205)。音声認識手段108は、音声信号受付手段107が受け付けた音声信号をフレームに分割し(ステップS206)、フレームごとの特徴量を取得する(ステップS207)。フレームごとの特徴量を取得すると、音声認識手段108は、その特徴量の順に、起点の状態から主WFSTをたどって行く。そして、特殊音素記号「X」を含む遷移の前の状態(M10)にたどりついたものとする(ステップS209からステップS213、およびステップS215)。
その状態(M10)から出発する遷移に特殊音素記号「X」が含まれるため、音声認識手段108は、その特殊音素記号「X」に対応する外部WFSTを外部WFST格納手段101から取得する。そして、その外部WFSTを展開するための領域を確保する。確保される領域は、「展開された外部WFSTの状態ID」、「主WFSTの遷移先状態ID」、「外部WFSTの状態ID」、「中心の音素記号」、「直後の音素記号」、および「主WFST上の直後の音素記号」を格納する領域である。そして、音声認識手段108は、その外部WFST上の起点の状態から出発する全遷移の持つ中心の音素記号「m」と「o」とを取得する。次に、音声認識手段108は、主WFST上での遷移(b−c+X)の直後の音素記号である特殊音素記号「X」を、取得した1個目の音素記号「m」に置換した遷移(b−c+m)を作成する。そして、音声認識手段108は、外部WFSTにおける起点の状態(S20)に対応する状態であって、作成した遷移の行き先の状態(T10)を作成する。音声認識手段108は、このようにして展開された外部WFSTの状態ID「T10」を、図4の1番目のレコードに蓄積する。また、主WFSTにおける、その作成した遷移の行き先は状態(M14)であるため、音声認識手段108は、主WFSTの遷移先状態ID「M14」を、図4の1番目のレコードに蓄積する。また、外部WFSTにおける、その作成した遷移の行き先は状態(S20)であるため、音声認識手段108は、外部WFSTの状態ID「S20」を、図4の1番目のレコードに蓄積する。また、その作成した遷移の中心の音素記号は「c」であり、直後の音素記号は「m」であるため、音声認識手段108は、それらの音素記号を、図4の1番目のレコードに蓄積する。また、主WFSTにおいて、中心の音素記号「c」の直後の音素記号は「X」であるため、音声認識手段108は、主WFST上の直後の音素記号「X」を、図4の1番目のレコードに蓄積する。
その後、音声認識手段108は、外部WFSTを参照して、図4の1番目のレコードでの直後の音素記号「m」を中心の音素記号に有する、状態(T10)の次の遷移(c−m+n)を作成する。そして、外部WFSTにおける、その作成した遷移に対応する行き先が状態(S21)であることから、作成した遷移の行き先の状態(T11)を作成する。音声認識手段108は、このようにして展開された外部WFSTの状態ID「T11」を、図4の2番目のレコードに蓄積する。また、主WFSTにおける、その作成した遷移の行き先は状態(M13)であるため、音声認識手段108は、主WFSTの遷移先状態ID「M13」を、図4の2番目のレコードに蓄積する。また、外部WFSTにおける、その作成した遷移の行き先は状態(S21)であるため、音声認識手段108は、外部WFSTの状態ID「S21」を、図4の2番目のレコードに蓄積する。また、その遷移の中心の音素記号は、図4の1番目のレコードでの直後の音素記号「m」であり、直後の音素記号は「n」である。また、主WFST上の直後の音素記号は、図4の1番目のレコードでの主WFST上の直後の音素記号「X」の次の音素記号「g」である。音声認識手段108は、上記それぞれの値を図4の1番目のレコードの場合と同様に、図4の2番目のレコードに蓄積する。なお、このように主WFST上の直後の音素記号に、特殊音素記号「X」の次の音素記号「g」が格納された場合は、その主WFST上の直後の音素記号「g」は、外部WFSTの状態IDが終端に対応する状態になる直前まで変化しない。なお、外部WFSTの状態IDが終端に対応する状態になった場合には、主WFST上の直後の音素記号は、特殊音素記号「X」の次の音素記号ではなくなるため、例えば、図4の3番目のレコードで示されるように、主WFST上の直後の音素記号は蓄積されなくてもよい。音声認識手段108は、同様の処理を繰り返し、外部WFSTの状態IDが外部WFSTの終端になるまで状態と遷移とを作成する。音声認識手段108は、取得した1番目の音素記号「m」に関する状態遷移の作成が終了すると、取得した2番目の音素記号「o」についても同様に状態遷移を作成する(ステップS214)。その結果、図4で示されるように展開が行われる。図4において、展開された外部WFSTの状態IDが「T20」、「T21」、「T22」であるレコードが、その音素記号「o」に対応して蓄積されたものである。外部WFSTの展開が終了すると、音声認識手段108は、引き続き展開された外部WFSTを含む主WFSTをたどる。音声認識手段108は、外部WFSTの終端の状態IDと対応する展開された状態(例えばT12やT22)にたどり着いた場合に、その外部WFSTの状態IDに対応する主WFSTの遷移先状態IDに移行するようにして音声認識を続ける。
音声認識手段108は、すべてのフレームに対応する特徴量ごとに主WFSTをたどり終えると、たどった遷移が有する出力の情報の列である音声認識の結果を出力する(ステップS216)。
以上のように、本実施の形態による音声認識装置1によれば、音声認識手段108が、外部WFSTを文脈に応じて動的に展開することで、従来の文脈に依存しない外部WFSTの展開方法より、少ない処理、かつ少ないデータ量で音声認識ができる。また、外部WFST作成手段104が、固有情報から外部WFSTを作成することで、外部WFSTを更新できる。これにより、例えば、ユーザ固有の外部WFSTを用いた音声認識ができる。また、音声認識手段108が、特殊音素記号に対応する入力を含む遷移の遷移先に関する情報を一時蓄積する。これにより、例えば、外部WFSTから主WFSTへの接続が容易に行える。また、外部WFST受付手段105が、外部WFSTを受け付けることで、外部WFSTを更新できる。
また、本実施の形態において、固有情報受付手段103、外部WFST作成手段104、および外部WFST蓄積手段106を含む場合について説明したが、音声認識装置1は、固有情報受付手段103、外部WFST作成手段104、および外部WFST蓄積手段106を含まなくても良い。音声認識装置1が固有情報受付手段103、外部WFST作成手段104、および外部WFST蓄積手段106を含まない場合は、固有情報を用いて作成された外部WFSTを外部WFST格納手段101に追加しない音声認識装置1であっても良い。
また、本実施の形態において、外部WFST受付手段105、および外部WFST蓄積手段106を含む場合について説明したが、音声認識装置1は、外部WFST受付手段105、および外部WFST蓄積手段106を含まなくても良い。音声認識装置1が外部WFST受付手段105、および外部WFST蓄積手段106を含まない場合は、外部の装置、または記録媒体等を介して受け付けた外部WFSTを外部WFST格納手段101に追加しない音声認識装置1であっても良い。
また、本実施の形態における音声認識装置1を実現するソフトウェアは、以下のようなプログラムであっても良い。つまり、プログラムは、音声信号をテキスト情報に変換するために用いられるWFST(重みつき有限状態トランスデューサ)であり、文脈に依存した2以上の音素記号に対応する入力を有する遷移と、遷移によって接続される状態とを有するWFSTである外部WFSTが1以上格納される外部WFST格納手段と、外部WFSTを識別する情報である特殊音素記号を有する遷移を含むWFSTである主WFSTが格納される主WFST格納手段とにアクセス可能なコンピュータを、発話された音声を示す音声信号を受け付ける音声信号受付手段、音声信号に応じて、主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、特殊音素記号が識別する外部WFSTを、特殊音素記号に対応する入力を有する遷移の遷移先に関する情報と、遷移が有する入力に対応付けられた音素記号とに応じて展開することによって音声認識を行う音声認識手段、音声認識手段が音声認識した結果を出力する出力手段として機能させるためのプログラムである。
なお、本実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されても良く、または、複数の装置によって分散処理されることによって実現されても良い。また、本実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の手段で実現されても良いことは言うまでもない。
また、本実施の形態において、各構成要素は、専用のハードウェアにより構成されても良く、または、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されても良い。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行手段が読み出して実行することによって、各構成要素が実現され得る。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得手段や、情報を出力する出力手段等におけるモデムやインターフェースカード等のハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。
図7は、上記プログラムを実行して、上記実施の形態による本発明を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。
図7において、コンピュータシステム1100は、CD−ROMドライブ1105、FDドライブ1106を含むコンピュータ1101と、キーボード1102と、マウス1103と、モニタ1104とを備える。
図8は、コンピュータシステム1100の内部構成を示す図である。図8において、コンピュータ1101は、CD−ROMドライブ1105、FDドライブ1106に加えて、MPU1111と、ブートアッププログラム等のプログラムを蓄積するためのROM1112と、MPU1111に接続され、アプリケーションプログラムの命令を一時的に蓄積すると共に、一時記憶空間を提供するRAM1113と、アプリケーションプログラム、システムプログラム、およびデータを蓄積するハードディスク1114と、MPU1111と、ROM1112等を相互に接続するバス1115とを備える。なお、コンピュータ1101は、LANへの接続を提供する図示しないネットワークカードを含んでいても良い。
コンピュータシステム1100に、上記実施の形態による本発明等の機能を実行させるプログラムは、CD−ROM1121、またはFD1122に蓄積されて、CD−ROMドライブ1105、またはFDドライブ1106に挿入され、ハードディスク1114に転送されても良い。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ1101に送信され、ハードディスク1114に蓄積されても良い。プログラムは実行の際にRAM1113にロードされる。なお、プログラムは、CD−ROM1121やFD1122、またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ1101に、上記実施の形態による本発明の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム1100がどのように動作するのかについては周知であり、詳細な説明は省略する。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。また、本発明における各手段の「手段」は、「部」や「回路」等と読み替えても良い。
以上のように、本発明にかかる音声認識装置等は、デコードの際に、必要な遷移だけを作成して、特殊音素記号に対応する外部WFSTに接続でき、不要な遷移をも作成する手法より、処理量とデータ量を削減できるという効果を有し、音声認識装置等として有用である。
1 音声認識装置
101 外部WFST格納手段
102 主WFST格納手段
103 固有情報受付手段
104 外部WFST作成手段
105 外部WFST受付手段
106 外部WFST蓄積手段
107 音声信号受付手段
108 音声認識手段
109 出力手段

Claims (7)

  1. 音声信号をテキスト情報に変換するために用いられるWFST(重みつき有限状態トランスデューサ)であり、文脈に依存した音素記号に対応する入力を有する遷移と、遷移によって接続される状態とを有するWFSTである外部WFSTが1以上格納される外部WFST格納手段と、
    当該外部WFSTを識別する情報である特殊音素記号を有する遷移を含むWFSTである主WFSTが格納される主WFST格納手段と、
    発話された音声を示す音声信号を受け付ける音声信号受付手段と、
    前記音声信号に応じて、前記主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、当該特殊音素記号が識別する外部WFSTを、当該特殊音素記号に対応する入力を有する遷移の遷移先に関する情報と、当該遷移が有する入力に対応付けられた音素記号とに応じて展開することによって音声認識を行う音声認識手段と、
    前記音声認識手段が音声認識した結果を出力する出力手段とを具備する音声認識装置。
  2. 前記音声認識手段は、
    前記音声信号に応じて、前記主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、当該遷移に含まれる入力に対応付けられた特殊音素記号以外の音素記号を用いて、当該主WFSTから当該特殊音素記号で識別される外部WFSTへの遷移と、当該外部WFSTから当該主WFSTに含まれる当該特殊音素記号以後の状態への遷移とを、当該主WFSTに追加することによって展開する、請求項1記載の音声認識装置。
  3. 前記音声認識手段は、
    前記音声信号に応じて、前記主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、当該特殊音素記号に対応する入力を有する遷移の遷移先に関する情報であって、当該特殊音素記号が識別する外部WFSTの終端から遷移する主WFSTに関する情報を一時的に蓄積する、請求項1または請求項2記載の音声認識装置。
  4. ユーザ固有の情報である固有情報を受け付ける固有情報受付手段と、
    前記固有情報と対応する音声信号を認識するための外部WFSTを作成する外部WFST作成手段と、
    前記外部WFST作成手段が作成した外部WFSTを、特殊音素記号に対応付けて前記外部WFST格納手段に蓄積する外部WFST蓄積手段とをさらに具備する、請求項1から請求項2のいずれか一項記載の音声認識装置。
  5. 外部WFSTを受け付ける外部WFST受付手段と、
    前記外部WFST受付手段が受け付けた外部WFSTを、特殊音素記号に対応付けて前記外部WFST格納手段に蓄積する外部WFST蓄積手段とをさらに具備する、請求項1または請求項2記載の音声認識装置。
  6. 音声信号をテキスト情報に変換するために用いられるWFST(重みつき有限状態トランスデューサ)であり、文脈に依存した音素記号に対応する入力を有する遷移と、遷移によって接続される状態とを有するWFSTである外部WFSTが1以上格納される外部WFST格納手段と、当該外部WFSTを識別する情報である特殊音素記号を有する遷移を含むWFSTである主WFSTが格納される主WFST格納手段と、音声信号受付手段と、音声認識手段と、出力手段とを用いて処理される音声認識方法であって、
    前記音声信号受付手段が、
    発話された音声を示す音声信号を受け付ける音声信号受付ステップと、
    前記音声認識手段が、
    前記音声信号に応じて、前記主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、当該特殊音素記号が識別する外部WFSTを、当該特殊音素記号に対応する入力を有する遷移の遷移先に関する情報と、当該遷移が有する入力に対応付けられた音素記号とに応じて展開することによって音声認識を行う音声認識ステップと、
    前記出力手段が、
    前記音声認識ステップで音声認識した結果を出力する出力ステップとを具備する音声認識方法。
  7. 音声信号をテキスト情報に変換するために用いられるWFST(重みつき有限状態トランスデューサ)であり、文脈に依存した2以上の音素記号に対応する入力を有する遷移と、遷移によって接続される状態とを有するWFSTである外部WFSTが1以上格納される外部WFST格納手段と、当該外部WFSTを識別する情報である特殊音素記号を有する遷移を含むWFSTである主WFSTが格納される主WFST格納手段とにアクセス可能なコンピュータを、
    発話された音声を示す音声信号を受け付ける音声信号受付手段、
    前記音声信号に応じて、前記主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、当該特殊音素記号が識別する外部WFSTを、当該特殊音素記号に対応する入力を有する遷移の遷移先に関する情報と、当該遷移が有する入力に対応付けられた音素記号とに応じて展開することによって音声認識を行う音声認識手段、
    前記音声認識手段が音声認識した結果を出力する出力手段として機能させるためのプログラム。
JP2013173272A 2013-08-23 2013-08-23 音声認識装置、音声認識方法、およびプログラム Active JP5701348B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013173272A JP5701348B2 (ja) 2013-08-23 2013-08-23 音声認識装置、音声認識方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013173272A JP5701348B2 (ja) 2013-08-23 2013-08-23 音声認識装置、音声認識方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2015041055A JP2015041055A (ja) 2015-03-02
JP5701348B2 true JP5701348B2 (ja) 2015-04-15

Family

ID=52695234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013173272A Active JP5701348B2 (ja) 2013-08-23 2013-08-23 音声認識装置、音声認識方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5701348B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683677B (zh) 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
US20220147570A1 (en) * 2019-03-04 2022-05-12 Sony Group Corporation Information processing apparatus and information processing method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030009335A1 (en) * 2001-07-05 2003-01-09 Johan Schalkwyk Speech recognition with dynamic grammars
JP5199985B2 (ja) * 2009-11-30 2013-05-15 日本電信電話株式会社 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム

Also Published As

Publication number Publication date
JP2015041055A (ja) 2015-03-02

Similar Documents

Publication Publication Date Title
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
KR101626887B1 (ko) 음성번역시스템, 사전서버장치, 및 프로그램
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JPWO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5701348B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2010009446A (ja) 音声ファイルの検索システム、方法及びプログラム
WO2006118683A1 (en) Speech dialog method and system
JP4859125B2 (ja) 発音評定装置、およびプログラム
JP6347939B2 (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
JP6179884B2 (ja) Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム
JP2008293098A (ja) 応答スコア情報生成装置、対話処理装置
JP5877823B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP5976255B2 (ja) 情報提供装置および情報提供方法
JP5881157B2 (ja) 情報処理装置、およびプログラム
JP2013088488A (ja) 音声検索装置、音声検索方法及びプログラム
JP2017198790A (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JPWO2009041220A1 (ja) 略語生成装置およびプログラム、並びに、略語生成方法
JP2005283646A (ja) 音声認識率推定装置
JP2004294577A (ja) 文字情報音声変換方法
JP6003127B2 (ja) 言語モデル作成プログラム及び言語モデル作成装置
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150217

R150 Certificate of patent or registration of utility model

Ref document number: 5701348

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250