JP5877823B2

JP5877823B2 - 音声認識装置、音声認識方法、およびプログラム

Info

Publication number: JP5877823B2
Application number: JP2013175117A
Authority: JP
Inventors: 健一磯; ウィッタッカー・エドワード
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2013-08-27
Filing date: 2013-08-27
Publication date: 2016-03-08
Anticipated expiration: 2033-08-27
Also published as: JP2015045668A

Description

本発明は、音声を認識する音声認識装置等に関するものである。

従来の音声認識装置において、音声信号を、ＷＦＳＴ（重み付き有限状態トランスデューサ）を用いてデコードし、音声認識の結果の文字列を取得する手法が用いられている（例えば、非特許文献１参照）。ＷＦＳＴを用いた音声認識は、大規模な音響モデル、辞書、および言語モデルを合成したＷＦＳＴを用いるほど音声認識の精度が上がる手法である。そのため、精度に比例して、音声認識に必要なメモリ使用量が増化する問題がある。そこで、共通する状態遷移を共有化する等の処理によってデータ量の削減が行われている（例えば、特許文献１、および非特許文献２参照）。

特開２０１２−１１３０８７号公報

堀貴明，塚田元、「音声情報処理技術の最先端：３．重み付き有限状態トランスデューサによる音声認識」、情報処理学会誌，Ｖｏｌ．４５，Ｎｏ．１０，ｐ．１０２０−１０２６，２００４年１０月磯健一，ＥｄｗａｒｄＷｈｉｔｔａｋｅｒ，江森正，三宅純平、「日本語音声検索の改良」、日本音響学会講演論文集，Ｎｏ．３−１−６，ｐ．１０７−１０８，２０１２年９月

上述したように、ＷＦＳＴについては、データ量を削減することが求められていた。

本発明は、上記課題を解決するためになされたものであり、その目的は、ＷＦＳＴのデータ量を削減することである。

本第一の発明の音声認識装置等は、発話された音声を示す音声信号を受け付ける音声信号受付手段と、入力を有する遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、単語の認識に用いられる１以上の一般遷移の組の次の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのＷＦＳＴ（重み付き有限状態トランスデューサ）である音声認識ＷＦＳＴを用いて、音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段と、音声認識結果情報を出力する出力手段とを具備する音声認識装置である。

また、本第二の発明の音声認識装置等は、発話された音声を示す音声信号を受け付ける音声信号受付手段と、入力を有する遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、単語の認識に用いられる１以上の一般遷移の組の前の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのＷＦＳＴ（重み付き有限状態トランスデューサ）である音声認識ＷＦＳＴを用いて、音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段と、音声認識結果情報を出力する出力手段とを具備する音声認識装置である。

また、本第三の発明の音声認識装置は、第一または第二の発明に対して、音声認識手段は、特殊遷移を用いて、単語間の境界に関する情報をも含む音声認識結果情報を取得する、音声認識装置である。

また、本第四の発明の音声認識装置は、第一から第三のいずれかの発明に対して、単語に関する用語は、単語に対応する用語であって、単語と発音が異なる用語である、音声認識装置である。

本発明による音声認識装置等によれば、一部の遷移にのみ出力に関する特殊発音記号を付与するようにしたため、そうでないＷＦＳＴよりデータ量を削減できる。

実施の形態１における音声認識装置のブロック図同実施の形態におけるＷＦＳＴ格納手段に格納されている音声認識ＷＦＳＴの一例を視覚化した図同実施の形態における用語格納手段に格納されている用語の一例を示す図同実施の形態における音声認識装置の動作の一例を示すフローチャート同実施の形態におけるコンピュータシステムの外観の一例を示す図同実施の形態におけるコンピュータシステムの構成の一例を示す図

以下、音声認識装置等の実施の形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）
本実施の形態において、音声認識に用いるＷＦＳＴ内の単語間の境界位置に、単語を識別する情報を加え、その情報を用いて音声認識の結果を出力する音声認識装置１について説明する。

図１は、本実施の形態における音声認識装置１のブロック図である。音声認識装置１は、ＷＦＳＴ格納手段１０１、音声信号受付手段１０２、用語格納手段１０３、音声認識手段１０４、および出力手段１０５を備える。

ＷＦＳＴ格納手段１０１には、音声信号を単語の列に変換するために用いられる最適化済みのＷＦＳＴである音声認識ＷＦＳＴが格納される。ＷＦＳＴは、ＷｅｉｇｈｔｅｄＦｉｎｉｔｅＳｔａｔｅＴｒａｎｓｄｕｃｅｒの略であり、重み付き有限状態トランスデューサと訳される。ＷＦＳＴとは、入力記号列に対して状態遷移を繰り返し、それに対応した出力の情報の列と重み（スコア）とを出力する有限状態オートマトンの一種である。ＷＦＳＴを用いた音声認識は、音響モデル、辞書、および言語モデル等の音声認識に必要な情報をそれぞれＷＦＳＴに変換し、それらを合成したＷＦＳＴを探索空間に見立てて、音声信号をデコードし、音声認識結果の文字列に変換する手法である。また、ＷＦＳＴを用いた音声認識は、デコードする過程で累積された重みの値が最も大きい状態遷移が示す文字列を取得する手法である。

音声信号を単語の列に変換するために用いられる最適化済みのＷＦＳＴは、最適化手法である決定化、および／または、最小化を行った状態である。なお、通常、最適化済みのＷＦＳＴは、２以上のＷＦＳＴを合成し、その合成後のＷＦＳＴについて最適化を行うことによって生成されるが、そうでなくても良い。後者の場合には、例えば、合成後のＷＦＳＴと同様のものを直接作成し、それに対して最適化を行っても良く、または、最適化済みのＷＦＳＴと同様のものを直接作成しても良い。決定化は、ＷＦＳＴが非決定性ＷＦＳＴであった場合に、決定性ＷＦＳＴに変換する最適化手法である。決定性ＷＦＳＴは、１つの情報に対して、最終的な遷移先の状態が１つに定まるＷＦＳＴである。非決定性ＷＦＳＴは、１つの情報に対して、最終的な遷移先の状態が複数あるＷＦＳＴである。なお、非決定性ＷＦＳＴの場合の音声認識の結果は、累積された重みの値を用いて選択された１つの結果であっても良い。また、最小化は、ＷＦＳＴの状態の数を最小限にする最適化手法である。例えば、最小化は、入力の順番が共通する１以上の遷移の組がある場合に、その遷移の組み合わせを、共通化する最適化手法である。なお、決定化、および最小化に用いるアルゴリズムは問わない。本実施の形態で用いられる音声認識ＷＦＳＴは、一般遷移、および特殊遷移である遷移と、状態とを有するＷＦＳＴである。特殊遷移を含まないＷＦＳＴを用いた音声認識、および最適化等は、公知技術であるため、それらの詳細な説明を省略する。

一般遷移とは、入力を有する遷移である。一般遷移は、グラフ構造におけるリンク（エッジ）を示すものである。「一般」は、特殊遷移の「特殊」に対しての「一般」である。一般遷移は、従来のＷＦＳＴにおける一般的な遷移と一部が異なる遷移である。例えば、一般遷移は、従来のＷＦＳＴの遷移と異なり、音声認識に用いる通常のＷＦＳＴに含まれる遷移が有する出力の情報を含まない情報である。本実施の形態における一般遷移の入力は、音声信号の特徴量に対応する情報である。音声信号の特徴量とは、一定期間ごとに分割された音声信号の、その期間における特徴量である。なお、以下、一定期間ごとに分割された各期間に対応する時間的な枠をフレームとも言う。特徴量は、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータ、およびデルタデルタパラメータをそれぞれ１２次元有し、さらに正規化されたパワーとデルタパワー、およびデルタデルタパワーを有しても良い（合計３９次元）。また、特徴量は、ＭＦＣＣの１２次元、ΔＭＦＣＣの１２次元、Δ対数パワーの１次元を含む２５次元のものであっても良い。このように、種々の特徴量を用いることが可能である。特徴量の取得方法は、公知技術であるため、詳細な説明を省略する。以下、音声認識ＷＦＳＴ上の、各フレームの特徴量に対応する情報を、音素ともいうものとする。また、音素は、アルファベットを用いて記述する。なお、一般遷移に含まれる入力に対応する音素は、１つの音素であっても良く、２以上の音素であっても良い。後者の場合は、例えば、一般遷移には、直前の音素、および／または、直後の音素が入力に対応付けられていても良い。２以上の音素が入力に対応付けられている場合の音声認識ＷＦＳＴは、文脈に依存した状態遷移が可能であり、文脈に依存しない音声認識ＷＦＳＴよりも高い精度で音声認識が可能となる。

特殊遷移とは、単語に関する用語を識別する特殊発音記号を有する遷移であり、単語の認識に用いられる１以上の一般遷移の組の次の遷移であっても良い。特殊遷移も、グラフ構造におけるリンクを示すものである。１以上の一般遷移の組の次の遷移とは、特定の単語を示すために用いられる１以上の一般遷移の最後の遷移の次の遷移であっても良い。なお、特定の単語を示すために用いられる１以上の一般遷移は、１以上の連続した一般遷移である。また、特殊繊維は、単語の認識に用いられる１以上の一般遷移の組の前の遷移であっても良い。１以上の一般遷移の組の前の遷移とは、特定の単語を示すために用いられる１以上の一般遷移の最後の遷移の前の遷移であっても良い。なお、特殊繊維が１以上の一般遷移の組の前後どちらの位置にあるかは、１つのＷＦＳＴの中で統一されていることが好適である。特殊発音記号は、単語に関連する用語そのものであっても良く、単語に関連する用語を識別するＩＤ等の情報であっても良い。単語に関連する用語は、単語と同じ用語であっても良く、そうでなくても良い。前者の場合には、用語は単語そのものとなる。後者の場合については後述する。特殊発音記号がＩＤである場合は、特殊発音記号は、用語格納手段１０３に格納されている用語を識別するＩＤであっても良く、図示しない外部の装置に格納されている用語を識別するＩＤであっても良い。なお、以下では、特殊発音記号を用語格納手段１０３に格納されている用語を識別するＩＤとして説明するものとする。また、特殊遷移は、入力を有していなくても良く、入力を有していても良い。なお、特殊遷移が入力を有している場合の入力は、入力の音声信号なしで遷移できる情報（一般的にεで記述）であるものとする。

従来の方法では、すべての遷移に出力の情報が含まれるが、本実施の形態では、特殊遷移に出力の情報を含めることによって、一般遷移が出力の情報を保持しなくても良くなる。例えば、従来、１つの遷移に、直前の状態を識別する情報と、直後の状態を識別する情報と、入力と、出力と、重みとが含まれ、それぞれが２バイトずつメモリを使用している場合で、６つの音素で１つの単語を示していると仮定するとき、本実施の形態では、一般遷移が、直前の状態を識別する情報と、直後の状態を識別する情報と、入力と、重みとを含み、特殊遷移が、直前の状態を識別する情報と、直後の状態を識別する情報と、出力とを含むのみで良いため、１つの単語あたり、６バイト削減できる。また、一般にＷＦＳＴの最適化アルゴリズムは最適化の途中に、各遷移に付随する出力記号を別の遷移上へ移動させることがある。よって入力記号と出力記号の対応付けはデコード用ＷＦＳＴでは異なってしまうため、出力記号を保持する遷移が必ずしも単語の最後の音素ではなくなってしまう。そのため、単語の境界位置を知ることができなくなってしまう。しかし、本実施の形態によるＷＦＳＴでは、単語境界位置に特殊発音記号が埋め込まれているため、従来の音声認識用ＷＦＳＴでは困難だった単語境界情報の検出と、単語の特定が可能となる。ただし、最適化は、特殊遷移を考慮した最適化が行われるものとする。特殊遷移を考慮した最適化の処理は、例えば、前方部分の音素が一致した場合に、前方の一致した音素のみを共通化する処理であっても良く、後方の部分の音素が一致した場合に、後方の一致した音素のみを共通化する処理であっても良く、前方、後方の部分の音素が一致した場合に、その一致した音素を共通化する処理であっても良い。ただし、後方の音素を共通化する場合の特殊遷移を考慮した最適化の処理は、音声認識手段１０４が、共通化の際にたどった単語の音素に応じて、適切な特殊発音記号を有する特殊遷移をたどることができるようにする手法である。この場合は、例えば、特殊遷移は、前方の遷移を識別する情報を有していても良い。音声認識手段１０４は、その前方の遷移を識別する情報を用いて、どの特殊遷移をたどるかどうかを判断しても良い。なお、後方の音素を共通化する場合の最小化のアルゴリズムは、結果として適切な特殊遷移を選択できれば良いため、その手法は問わない。

また、状態とは、各遷移によって接続されるものである。各遷移とは、１以上の一般遷移、および／または、１以上の特殊遷移である。状態は、グラフ構造におけるノードを示すものである。状態は、１以上の一般遷移を介して、前の状態から移行できるようなノードであっても良く、１以上の特殊遷移を介して、前の状態から移行できるようなノードであっても良く、１以上の一般遷移と１以上の特殊遷移とを介して、前の状態から移行できるようなノードであっても良く、いずれの状態からも移行できないノードであっても良い。また、状態は、１以上の一般遷移を介して、それぞれの一般遷移に応じた次の状態に移行できるノードであっても良く、１以上の特殊遷移を介して、それぞれの特殊遷移に応じた次の状態に移行できるノードであっても良く、１以上の一般遷移と１以上の特殊遷移とを介して、それぞれの遷移に応じた次の状態に移行できるノードであっても良く、いずれの状態へも移行できないノードであっても良い。

音声認識ＷＦＳＴは、結果として、ＷＦＳＴを用いた音声認識が可能であれば、どのようなデータの持ち方で実現しても良い。例えば、一般遷移は、その一般遷移の直前の状態を識別する情報を有していても良く、有していなくても良い。また、一般遷移は、その一般遷移の直後の状態を識別する情報を有していても良く、有していなくても良い。また、特殊遷移は、その特殊遷移の直前の状態を識別する情報を有していても良く、有していなくても良い。また、特殊遷移は、その特殊遷移の直後の状態を識別する情報を有していても良く、有していなくても良い。また、状態は、その状態の直前の遷移を識別する情報を有していても良く、有していなくても良い。また、状態は、その状態の直後の遷移を識別する情報を有していても良く、有していなくても良い。具体的には、音声認識ＷＦＳＴは、各状態と、その状態の直後の遷移を識別する情報とを対応付ける情報、および、各遷移と、その遷移の直後の状態とを対応付ける情報を有していても良い。また、各一般遷移には、音素である入力記号と、重みとが対応付けられていても良い。なお、データは、重複して持たないことが好適である。テータの重複は、例えば、一般遷移が、直後の状態を識別する情報を有していて、状態が、直前の遷移を識別する情報を有している場合などである。

なお、本実施の形態におけるＷＦＳＴの重み情報は、一般遷移が有していても良く、特殊遷移が有していても良く、状態が有していても良く、上記２以上の組み合わせた要素が有していても良い。ＷＦＳＴ格納手段１０１に格納される音声認識ＷＦＳＴの一例を視覚化したものを図２に示す。図２のＷＦＳＴは、入力された単語の音声信号から、その単語を認識する音声認識ＷＦＳＴである。図２のＷＦＳＴにおいて、矢印で示されているものが遷移であり、丸印で示されているものが状態である。また、音素と対応付けられている遷移が一般遷移であり、＃から始まる数字で示されている情報と対応付けられている遷移が特殊遷移である。なお、＃から始まる数字は、用語を識別するＩＤである。つまり、＃から始まる数字は、特殊発音記号である。図２の音声認識ＷＦＳＴは、例えば、そのＷＦＳＴを繰り返したどることで、複数の単語や文章の音声認識を行うことができるものである。

音声信号受付手段１０２は、音声信号を受け付ける。音声信号は、発話された音声を示す信号である。音声信号受付手段１０２は、発話された音声を集音した装置から音声信号を受け付けても良く、集音した装置以外から音声信号を受け付けても良い。なお、ここでいう「音声を集音した装置」は、マイクロフォン装置であっても良く、スマートフォンやＰＤＡ等の端末装置であっても良い。集音した装置以外から音声信号を受け付ける場合は、音声信号受付手段１０２は、メモリーカードやＵＳＢメモリ等を介して音声信号を受け付けても良い。また、音声信号受付手段１０２は、通信回線を介して音声信号を受け付けても良い。通信回線は、有線、または無線の通信回線であっても良い。例えば、通信回線は、インターネットやイントラネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、公衆電話回線等である。音声は、１または２以上の単語の音声であっても良く、１または２以上の文節の音声であっても良く、１または２以上の文章の音声であっても良い。

用語格納手段１０３には、ＩＤである特殊発音記号と、その特殊発音記号に対応する用語が１以上格納されている。用語格納手段１０３に格納されている情報の一例を図３に示す。図３のテーブルは、特殊発音記号と用語とを有している。例えば、「特殊発音記号：＃００００１」の用語は「水郷」である。

音声認識手段１０４は、主ＷＦＳＴを用いて、音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する。具体的には、音声認識手段１０４は、音声信号を、一定の期間ごとに分割したフレームごとに取得する。そして、音声認識手段１０４は、分割したフレームごとの特徴量を取得する。さらに、音声認識手段１０４は、その特徴量、またはその特徴量の２以上の組み合わせごとに遷移をたどりながら、特殊遷移が有する特殊発音記号を蓄積する。音声認識手段１０４は、遷移をたどる際に、分割したフレームごとの特徴量に合致した遷移を選択しながらたどる。遷移をたどり終えると、音声認識手段１０４は、蓄積された特殊発音記号に対応する用語の列を取得することで音声認識結果情報を取得する。音声信号に対応する特殊遷移とは、音声認識によって認識された１つの結果を導くまでに、たどった遷移のうち、その結果を識別するのにたどった特殊遷移のことである。音声認識手段１０４は、その特殊遷移に対応する用語の列を取得する。なお、フレームに対応する期間の長さは問わない。また、音声認識手段１０４は、特徴量を取得する場合に、音声に関する特徴量のみを抽出するために、雑音を除外するための処理等を行っても良い。

また、音声認識手段１０４は、特殊遷移を用いて、単語間の境界に関する情報をも含む音声認識結果情報を取得しても良い。単語間の境界に関する情報は、特殊発音記号に対応付けられている用語ごとの境界に対応する音声信号の時間的な位置を示す情報であっても良い。音声信号の時間的な位置を示す情報は、例えば、音声信号のタイムコード等であっても良い。具体的には、単語間の境界に関する情報も含む音声認識結果情報では、音声認識結果であるテキスト情報における単語の境界と、その単語の境界に対応する音声信号のタイムコードとが対応付けられていても良い。

出力手段１０５は、音声認識結果情報を出力する。出力手段１０５は、例えば、音声認識結果情報に含まれている用語の列である文字列を出力しても良く、その用語の列を音声認識された単語間の境界ごとに区切って出力しても良く、その用語の列を音声認識された単語間の境界ごとに音声信号と対応付けて出力しても良い。

ＷＦＳＴ格納手段１０１、および用語格納手段１０３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。ＷＦＳＴ格納手段１０１等に音声認識ＷＦＳＴ等の情報が記憶される過程は問わない。例えば、記録媒体を介して音声認識ＷＦＳＴ等の情報がＷＦＳＴ格納手段１０１等で記憶されるようになっても良く、通信回線等を介して送信された音声認識ＷＦＳＴ等の情報がＷＦＳＴ格納手段１０１等で記憶されるようになっても良く、あるいは、入力デバイスを介して入力された音声認識ＷＦＳＴ等の情報がＷＦＳＴ格納手段１０１等で記憶されるようになっても良い。

音声信号受付手段１０２は、受け付けを行うための、インターフェースカードやモデムやネットワークカードやカードリーダー等のデバイスを含んでも良く、あるいは含まなくても良い。また、音声信号受付手段１０２は、ハードウェアによって実現されても良く、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されても良い。

音声認識手段１０４は、通常、ＭＰＵやメモリ等から実現され得る。音声認識手段１０４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力手段１０５は、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラム等への処理結果の引渡し等を行っても良い。

次に、音声認識装置１の動作について図４のフローチャートを用いて説明する。なお、本フローチャートは、音声認識の対象となる音声信号をすべて受け付けてから、その音声信号に対する音声認識を開始するものである。

（ステップＳ２０１）音声信号受付手段１０２は、音声信号を受け付けたかどうかを判断する。音声信号を受け付けた場合は、ステップＳ２０２へ進み、受け付けなかった場合は、ステップＳ２０１を繰り返す。

（ステップＳ２０２）音声認識手段１０４は、ステップＳ２０１で受け付けた音声信号を一定の期間ごとに分割する。

（ステップＳ２０３）音声認識手段１０４は、ステップＳ２０２で分割した期間ごとに特徴量を取得する。

（ステップＳ２０４）音声認識手段１０４は、カウンタｎに１を代入する。

（ステップＳ２０５）音声認識手段１０４は、ｎ番目の特徴量があるかどうかを判断する。ｎ番目の特徴量がある場合は、ステップＳ２０６へ進み、ｎ番目の特徴量がない場合は、ステップＳ２１２へ進む。

（ステップＳ２０６）音声認識手段１０４は、ｎ番目の特徴量に対応する遷移から、ｎ番目の特徴量に合致する遷移を選択する。なお、ここでいうｎ番目の特徴量に対応する遷移とは、音声認識ＷＦＳＴ上の現在の状態の次の遷移であり、ｎ番目の特徴量、および／または、ｎ番目以前の特徴量によってたどった遷移の履歴に合致する遷移のことを示しているものとする。

（ステップＳ２０７）音声認識手段１０４は、ステップＳ２０６で選択した遷移をたどり、次の状態へ移行する。

（ステップＳ２０８）音声認識手段１０４は、次の遷移が特殊遷移であるかどうかを判断する。次の遷移が特殊遷移である場合は、ステップＳ２０９へ進み、特殊遷移でない場合は、ステップＳ２１１へ進む。なお、音声認識手段１０４は、次の遷移に、特殊遷移、および一般遷移の両方がある場合は、ｎ番目以前の特徴量によってたどった遷移の履歴が、特殊遷移に合致する場合に、次の遷移が特殊遷移であると判断する。

（ステップＳ２０９）音声認識手段１０４は、ｎ番目の特徴量に対応する特殊遷移が有する特殊発音記号に対応する用語を取得し、図示しない一時格納手段に蓄積する。

（ステップＳ２１０）音声認識手段１０４は、ｎ番目の特徴量に対応する特殊遷移の次の状態へ移行する。なお、この処理によって、ｎ番目の特徴量に対応する遷移が一つ先の遷移に変わったものとする。

（ステップＳ２１１）音声認識手段１０４は、カウンタｎを１だけインクリメントする。そして、ステップＳ２０５へ戻る。

（ステップＳ２１２）出力手段１０５は、ステップＳ２０９で蓄積された、図示しない一時格納手段に格納されている用語を、その用語の境界が分かるように出力する。そして、ステップＳ２０１に戻る。
なお、図４のフローチャートでは、音声認識のバッチ処理を行う場合について説明したが、音声認識のリアルタイム処理を行う場合にも、同様に行うことができる。また、図４のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

以上のように、本実施の形態による音声認識装置１によれば、一般遷移が出力に関する情報を有さず、特殊遷移のみが出力に関する特殊発音記号を有することによって、そのようなデータ構造を有しないＷＦＳＴより、音声認識ＷＦＳＴのデータ量を削減することができる。また、その音声認識ＷＦＳＴでは、最適化済みであっても、特殊発音記号を有する特殊遷移が単語の境界に位置するため、音声認識時に単語の境界を特定することができるようになる。その結果、例えば、音声認識結果情報に、単語の境界と、その境界に対応する音声信号のタイムコードとを含めることができるようになる。また、そのような音声認識結果情報を用いることにより、音声認識結果の任意のテキストに対応する音声に容易にアクセスすることができ、ディクテーションソフトウェア等において有用である。

なお、本実施の形態では、特殊発音記号で識別される用語は、単語に関連する用語であれば良い。単語に関連する用語は、単語と同じ用語であっても良く、単語と異なる用語であっても良い。単語に関連する用語が単語と異なる用語の場合の用語は、その単語に関連する用語であって、発音の異なる用語であっても良い。単語とその単語に関連する用語であって、発音の異なる用語は、例えば、略語の単語と正式名称の用語であっても良く、標準語の単語と方言の用語であっても良く、上記組み合わせの逆の組み合わせであっても良く、他の関連のある組み合わせであっても良い。単語とその単語に関連する用語であって、発音の異なる用語は、具体的には、「電番」という単語に関連する「電話番号」であっても良く、「よい」と「ええ」等であっても良い。例えば、図３の特殊発音記号「＃９９９９９」を有するレコードでは、図２で示される音素列「ｄｅｎｂａｎ（電番）」に対して、用語「電話番号」を対応付けている。特殊発音記号により、認識される単語と異なる用語が識別できることで、音声認識手段１０４が、音声認識の結果と異なる文字列を取得できる。これにより、例えば、標準語の音声信号を方言の文字列に変換すること等ができる。

また、人名を示す音声信号に対して、電話番号等を識別する特殊発音記号を登録することで、音声認識手段１０４が、発話された人名から電話番号を特定し、出力手段１０５が、電話番号を図示しない電話関連の処理を行う手段、または外部の電話装置に出力することで、電話をかけられるようにしても良い。

また、本実施の形態において、ＷＦＳＴ格納手段１０１を含む場合について説明したが、音声認識装置１は、ＷＦＳＴ格納手段１０１を含まなくても良い。音声認識装置１がＷＦＳＴ格納手段１０１を含まない場合は、音声認識手段１０４は、図示しない受付手段を介して、図示しない外部の装置から音声認識ＷＦＳＴを受け付けても良く、図示しない取得手段を介して、音声認識ＷＦＳＴを取得しても良い。

また、本実施の形態において、用語格納手段１０３を含む場合について説明したが、音声認識装置１は、用語格納手段１０３を含まなくても良い。音声認識装置１が用語格納手段１０３を含まない場合は、音声認識手段１０４は、図示しない受付手段を介して、図示しない外部の装置から特殊発音記号に対応する用語を受け付けても良く、図示しない取得手段を介して、特殊発音記号に対応する用語を取得しても良い。また、特殊発音記号は、用語そのものであっても良い。

また、本実施の形態における音声認識装置１を実現するソフトウェアは、以下のようなプログラムであっても良い。つまり、プログラムは、コンピュータを、発話された音声を示す音声信号を受け付ける音声信号受付手段、入力を有する遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、単語の認識に用いられる１以上の一般遷移の組の次の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのＷＦＳＴ（重み付き有限状態トランスデューサ）である音声認識ＷＦＳＴを用いて、音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段、音声認識結果情報を出力する出力手段として機能させるためのプログラムでっても良い。

また、本実施の形態における音声認識装置１を実現するソフトウェアは、以下のようなプログラムであっても良い。つまり、プログラムは、コンピュータを、発話された音声を示す音声信号を受け付ける音声信号受付手段、入力を有する遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、単語の認識に用いられる１以上の一般遷移の組の前の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのＷＦＳＴ（重み付き有限状態トランスデューサ）である音声認識ＷＦＳＴを用いて、音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段、音声認識結果情報を出力する出力手段として機能させるためのプログラムであっても良い。

なお、本実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されても良く、または、複数の装置によって分散処理されることによって実現されても良い。また、本実施の形態において、一の装置に存在する２以上の通信手段は、物理的に一の手段で実現されても良いことは言うまでもない。

また、本実施の形態において、各構成要素は、専用のハードウェアにより構成されても良く、または、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されても良い。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行手段が読み出して実行することによって、各構成要素が実現され得る。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得手段や、情報を出力する出力手段等におけるモデムやインターフェースカード等のハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。

図５は、上記プログラムを実行して、上記実施の形態による本発明を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。

図５において、コンピュータシステム１１００は、ＣＤ−ＲＯＭドライブ１１０５、ＦＤドライブ１１０６を含むコンピュータ１１０１と、キーボード１１０２と、マウス１１０３と、モニタ１１０４とを備える。

図６は、コンピュータシステム１１００の内部構成を示す図である。図６において、コンピュータ１１０１は、ＣＤ−ＲＯＭドライブ１１０５、ＦＤドライブ１１０６に加えて、ＭＰＵ１１１１と、ブートアッププログラム等のプログラムを蓄積するためのＲＯＭ１１１２と、ＭＰＵ１１１１に接続され、アプリケーションプログラムの命令を一時的に蓄積すると共に、一時記憶空間を提供するＲＡＭ１１１３と、アプリケーションプログラム、システムプログラム、およびデータを蓄積するハードディスク１１１４と、ＭＰＵ１１１１と、ＲＯＭ１１１２等を相互に接続するバス１１１５とを備える。なお、コンピュータ１１０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいても良い。

コンピュータシステム１１００に、上記実施の形態による本発明等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ１１２１、またはＦＤ１１２２に蓄積されて、ＣＤ−ＲＯＭドライブ１１０５、またはＦＤドライブ１１０６に挿入され、ハードディスク１１１４に転送されても良い。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ１１０１に送信され、ハードディスク１１１４に蓄積されても良い。プログラムは実行の際にＲＡＭ１１１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ１１２１やＦＤ１１２２、またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ１１０１に、上記実施の形態による本発明の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム１１００がどのように動作するのかについては周知であり、詳細な説明は省略する。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。また、本発明における各手段の「手段」は、「部」や「回路」等と読み替えても良い。

以上のように、本発明にかかる音声認識装置等は、一部の遷移にのみ出力に関する特殊発音記号を付与するようにしたため、そうでないＷＦＳＴよりデータ量を削減できるという効果を有し、音声認識装置等として有用である。

１音声認識装置
１０１ＷＦＳＴ格納手段
１０２音声信号受付手段
１０３用語格納手段
１０４音声認識手段
１０５出力手段

Claims

発話された音声を示す音声信号を受け付ける音声信号受付手段と、
入力を有し、出力を有しない遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、当該単語の認識に用いられる１以上の一般遷移の組の次の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのＷＦＳＴ（重み付き有限状態トランスデューサ）である音声認識ＷＦＳＴを用いて、前記音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段と、
前記音声認識結果情報を出力する出力手段とを具備する音声認識装置。
発話された音声を示す音声信号を受け付ける音声信号受付手段と、
入力を有し、出力を有しない遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、当該単語の認識に用いられる１以上の一般遷移の組の前の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのＷＦＳＴ（重み付き有限状態トランスデューサ）である音声認識ＷＦＳＴを用いて、前記音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段と、
前記音声認識結果情報を出力する出力手段とを具備する音声認識装置。
前記音声認識手段は、
前記特殊遷移を用いて、単語間の境界に関する情報をも含む音声認識結果情報を取得する、請求項１または２記載の音声認識装置。
前記単語に関する用語は、
当該単語に対応する用語であって、当該単語と発音が異なる用語である、請求項１から請求項３のいずれか一項記載の音声認識装置。
音声信号受付手段と、音声認識手段と、出力手段とを用いて処理される音声認識方法であって、
前記音声信号受付手段が、発話された音声を示す音声信号を受け付ける音声信号受付ステップと、
前記音声認識手段が、入力を有し、出力を有しない遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、当該単語の認識に用いられる１以上の一般遷移の組の次の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのＷＦＳＴ（重み付き有限状態トランスデューサ）である音声認識ＷＦＳＴを用いて、前記音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識ステップと、
前記出力手段が、前記音声認識結果情報を出力する出力ステップとを具備する音声認識方法。
音声信号受付手段と、音声認識手段と、出力手段とを用いて処理される音声認識方法であって、
前記音声信号受付手段が、発話された音声を示す音声信号を受け付ける音声信号受付ステップと、
前記音声認識手段が、入力を有し、出力を有しない遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、当該単語の認識に用いられる１以上の一般遷移の組の前の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのＷＦＳＴ（重み付き有限状態トランスデューサ）である音声認識ＷＦＳＴを用いて、前記音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識ステップと、
前記出力手段が、前記音声認識結果情報を出力する出力ステップとを具備する音声認識方法。
コンピュータを、
発話された音声を示す音声信号を受け付ける音声信号受付手段、
入力を有し、出力を有しない遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、当該単語の認識に用いられる１以上の一般遷移の組の次の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのＷＦＳＴ（重み付き有限状態トランスデューサ）である音声認識ＷＦＳＴを用いて、前記音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段、
前記音声認識結果情報を出力する出力手段として機能させるためのプログラム。
コンピュータを、
発話された音声を示す音声信号を受け付ける音声信号受付手段、
入力を有し、出力を有しない遷移である一般遷移と、単語に関する用語を識別する特殊発音記号を有する遷移であり、当該単語の認識に用いられる１以上の一般遷移の組の前の遷移である特殊遷移と、各遷移によって接続される状態とを有する最適化済みのＷＦＳＴ（重み付き有限状態トランスデューサ）である音声認識ＷＦＳＴを用いて、前記音声信号に対応する特殊遷移が有する特殊発音記号により識別される用語の列である音声認識結果情報を取得する音声認識手段、
前記音声認識結果情報を出力する出力手段として機能させるためのプログラム。