JP2017026808A

JP2017026808A - 音声認識装置、音声認識方法、プログラム

Info

Publication number: JP2017026808A
Application number: JP2015145011A
Authority: JP
Inventors: 孝中村; Takashi Nakamura; 澄宇阪内; Sumitaka Sakauchi; 学岡本; Manabu Okamoto; 孝典芦原; Takanori Ashihara; 勇祐井島; Yusuke Ijima
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-07-22
Filing date: 2015-07-22
Publication date: 2017-02-02
Anticipated expiration: 2035-07-22
Also published as: JP6486789B2

Abstract

【課題】バリエーションが多く、かつ外れ値を排除した音声認識結果集合を生成できる音声認識装置を提供する。
【解決手段】音声特徴量または音声信号を音声認識して複数の音声認識結果からなる音声認識結果集合を取得する音声認識部１１と、音声認識結果集合に基づいて、そのアークに品詞情報および単語事後確率を含むコンフュージョンネットワークを生成するコンフュージョンネットワーク生成部１２と、コンフュージョンセット内の各アークについて、文脈一致性および概念類似性を算出し、概念類似性の逆数と文脈一致性に基づく値により、音声認識結果集合を並び替えるコンフュージョンネットワーク操作部１３を含む。
【選択図】図１

Description

本発明は、音声認識を実行して取得した複数の音声認識結果を好適な順序に並び替えて表示する音声認識装置、音声認識方法、プログラムに関する。

従来、メモアプリや音声検索などにおいて、音声認識結果の一覧を生成し、これをユーザに提示して正解を選択させることはよく行われている（例えば非特許文献１、２）。同様に、音声認識結果のリスコアリングや絞り込みもよく行われている（例えば非特許文献３）。

株式会社イーエスケイ、"音声入力の使い方"、[online]、平成25年4月14日、株式会社イーエスケイ、[平成27年7月10日検索]、インターネット<URL: http://hata-nikki.jp/wp/wp-content/uploads/2013/04/onsei_1304.pdf> FUJIYAMA VOLCANO、"声でラクラク文字入力！音声入力まっしゅ"、[online]、平成25年4月9日、FUJIYAMA VOLCANO、[平成27年7月10日検索]、インターネット<URL: https://play.google.com/store/apps/details?id=jp.fujivol.recmash > 小林彰夫、外5名、"単語誤り最小化に基づく識別的リスコアリングによる音声認識"、[online]、平成24年1月、ＮＨＫ技研、[平成27年7月10日検索]、インターネット<URL: http://www.nhk.or.jp/strl/publica/rd/rd131/PDF/P28-39.pdf>

非特許文献１、２では正解の候補として音声認識結果が複数出力される。しかし、表示スペースが限られる、分かりやすいＧＵＩの妨げになるなどの理由から、画面に一度に出力する候補の数はあまり多くできない。これにより、内容に大きな差がないような候補で出力欄が占有され、正解の音声認識結果が出力されない場合がある。

上述の非特許文献３では、誤り傾向に応じてペナルティーを与えるため、より誤りやすい傾向にある単語は出力確率を抑えられるが、これにより候補間の差異が少なくなり、上記同様、似たような認識結果で候補集合が占有されることが考えられる。

そこで本発明では、バリエーションが多く、かつ外れ値を排除した音声認識結果集合を生成できる音声認識装置を提供することを目的とする。

本発明の音声認識装置は、音声認識部と、コンフュージョンネットワーク生成部と、コンフュージョンネットワーク操作部を含む。

音声認識部は、音声特徴量、または音声信号を音声認識して複数の音声認識結果からなる音声認識結果集合を取得する。コンフュージョンネットワーク生成部は、音声認識結果集合に基づいて、そのアークに品詞情報および単語事後確率を含むコンフュージョンネットワークを生成する。コンフュージョンネットワーク操作部は、コンフュージョンネットワークにおいて複数のアークに分岐した位置におけるアークのセットであるコンフュージョンセット内の各アークについて、既存発話における文脈との一致性を表す文脈一致性を算出し、コンフュージョンセット内の各アークについて、当該アークが属するコンフュージョンセット内において単語事後確率が最大となるアークとの概念の類似性を表す概念類似性を算出し、概念類似性の逆数と文脈一致性に基づく値により、音声認識結果集合を並び替える。

本発明の音声認識装置によれば、バリエーションが多く、かつ外れ値を排除した音声認識結果集合を生成できる。

実施例１の音声認識装置の構成を示すブロック図。実施例１の音声認識装置の動作を示すフローチャート。実施例１の音声認識装置が生成するコンフュージョンネットワークの例を示す図。実施例１のコンフュージョンネットワーク操作部の構成を示すブロック図。実施例１のコンフュージョンネットワーク操作部の動作を示すフローチャート。実施例１の音声認識装置の文脈一致性算出部の構成を示すブロック図。実施例１の音声認識装置の文脈一致性算出部の動作を示すフローチャート。実施例１の音声認識装置の概念類似性算出部の構成を示すブロック図。実施例１の音声認識装置の概念類似性算出部の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１、図２を参照して実施例１の音声認識装置の構成、および動作を説明する。図１は、本実施例の音声認識装置１の構成を示すブロック図である。図２は、本実施例の音声認識装置１の動作を示すフローチャートである。図１に示すように、本実施例の音声認識装置１は、音声認識部１１と、コンフュージョンネットワーク生成部１２と、コンフュージョンネットワーク操作部１３を含む。

音声認識部１１は、音声特徴量、または音声信号を音声認識して複数の音声認識結果からなる音声認識結果集合を取得する（Ｓ１１）。音声認識部１１は、例えば参考非特許文献１などに開示されている公知の技術により音声認識を実行する。入力が音声信号の場合は、音声認識部１１は必要に応じて音声区間検出処理や雑音抑圧処理を行い、音声信号を音声特徴量に変換したのち、音声認識処理を実行する。
（参考非特許文献１：日本電信電話株式会社、”音声認識エンジンVoiceRexの開発”、[online]、日本電信電話株式会社、[平成27年7月10日検索]、インターネット<URL:http://www.ntt.co.jp/svlab/activity/category_2/product2_12.html>）

コンフュージョンネットワーク生成部１２は、音声認識結果集合に基づいて、コンフュージョンネットワークを生成する（Ｓ１２）。コンフュージョンネットワーク生成部１２は、例えば参考非特許文献２などに開示されている公知の技術によりコンフュージョンネットワークを生成する。
（参考非特許文献２：Lidia Mangu et al., “Finding consensus in speech recognition: word error minimization and other applications of confusion networks,” Computer Speech & Language, volume 14, issue 4, pp.373-400, October 2000.）

図３を参照して、コンフュージョンネットワークについて説明する。図３は、本実施例の音声認識装置１が生成するコンフュージョンネットワークの例を示す図である。同図の例において、音声認識部１１は「お電話ありがとう」「お電話有りがとう」「お電話蟻がとう」「おでんはありがとう」「おでんは有りがとう」「おでんは蟻がとう」の合計６つの音声認識結果からなる音声認識結果集合を取得したものとする。この場合、コンフュージョンネットワーク生成部１２は、同図に示すコンフュージョンネットワークを生成する。コンフュージョンネットワークにおいては、複数のパターンで音声認識された箇所については、複数のアークに分岐した状態で表現される。複数のアークに分岐した位置におけるアークのセットをコンフュージョンセットと呼ぶ。同図の例では、音声認識結果が「電話」「でんは」と二つのパターンに分かれた箇所、「あり」「有り」「蟻」と三つのパターンに分かれた箇所において、それぞれアーク二つを含むコンフュージョンセット、アーク三つを含むコンフュージョンセットが形成される。ステップＳ１２で生成されるコンフュージョンネットワークは、そのアークに品詞情報および単語事後確率を含むものとする。例えば同図において、「お」に対して、品詞情報として「接頭辞」、単語事後確率としてＰ_１が付与されている。「電話」に対して、品詞情報として「名詞」、単語事後確率としてＰ_２が付与されている。

コンフュージョンネットワーク操作部１３は、コンフュージョンセット内の各アークについて、文脈一致性、概念類似性を算出し、概念類似性の逆数と文脈一致性に基づく値により、音声認識結果集合を並び替える（Ｓ１３）。文脈一致性とは、既存発話における文脈との一致性を表す値のことである。概念類似性とは、コンフュージョンセット内の各アークについて、当該アークが属するコンフュージョンセット内において単語事後確率が最大となるアークとの概念の類似性を表す値である。

以下、図４、図５を参照して本実施例の音声認識装置１のコンフュージョンネットワーク操作部１３の詳細な構成および動作について説明する。図４は、本実施例のコンフュージョンネットワーク操作部１３の構成を示すブロック図である。図５は、本実施例のコンフュージョンネットワーク操作部１３の動作を示すフローチャートである。

図５に示すようにコンフュージョンネットワーク操作部１３は、代表品詞抽出部１３１と、処理対象抽出部１３２と、文脈一致性算出部１３３と、概念類似性算出部１３４と、音声認識結果並び替え部１３５を含む構成である。

代表品詞抽出部１３１は、各コンフュージョンセットにおいて多く含まれる品詞を各コンフュージョンセットの代表品詞として抽出する（Ｓ１３１）。代表品詞抽出部１３１は、あるコンフュージョンセット内の各アークの品詞が例えば「名詞」「名詞」「形容詞」であった場合、「名詞」を代表品詞として抽出する。代表品詞抽出部１３１は、コンフュージョンセット内の複数の品詞を代表品詞として抽出してもよい。例えば図３の「電話（名詞）」「でんは（格助詞）」が一つずつ含まれるコンフュージョンセットについては、「名詞」「格助詞」の双方を代表品詞として抽出してもよい。また同図の「あり（形容詞）」「有り（動詞）」「蟻（名詞）」が一つずつ含まれるコンフュージョンセットについては、「形容詞」「動詞」「名詞」の全てを代表品詞として抽出してもよい。

処理対象抽出部１３２は、代表品詞が特定の品詞（例えば名詞、動詞語幹等）となるコンフュージョンセットのみを処理対象として抽出する（Ｓ１３２）。処理対象抽出部１３２は、処理対象外のコンフュージョンセットについては、単語事後確率最大の単語のみを残し、それ以外のアークを削除する。ステップＳ１３１、Ｓ１３２は、音声認識において不明瞭な発音となる場合が多い、例えば助詞について生成されるコンフュージョンセット（アークが「が」「は」などで構成されるセット）を処理対象から除くことを目的の一つとしている。ただし、ステップＳ１３１、Ｓ１３２を実行する目的はこれに限られない。

次に、文脈一致性算出部１３３は、抽出されたコンフュージョンセット内の各アークについて、文脈一致性を算出する（Ｓ１３３）。概念類似性算出部１３４は、抽出されたコンフュージョンセット内の各アークについて、概念類似性を算出する（Ｓ１３４）。音声認識結果並び替え部１３５は、概念類似性の逆数と文脈一致性に基づく値により、音声認識結果集合を並び替える（Ｓ１３５）。文脈一致性算出部１３３、概念類似性算出部１３４、音声認識結果並び替え部１３５の詳細については後述する。

以下、図６、図７を参照して文脈一致性算出部１３３の詳細な構成、動作について説明する。図６は、本実施例の音声認識装置１の文脈一致性算出部１３３の構成を示すブロック図である。図７は、本実施例の音声認識装置１の文脈一致性算出部１３３の動作を示すフローチャートである。

図６に示すように、文脈一致性算出部１３３は、α付与部１３３１と、β付与部１３３２と、γ付与部１３３３を含む構成である。図７に示すように、まず、文脈一致性算出部１３３は、εの初期値を０に設定する（Ｓ１３３Ａ）。次に、α付与部１３３１は、アークが示す単語が既存発話に既出の単語であるか否かを判定する（Ｓ１３３１Ａ）。アークが示す単語が既存発話に既出の単語である場合（Ｓ１３３１ＡＹ）、α付与部１３３１はεに値αを加算する（Ｓ１３３１Ｂ）。アークが示す単語が既存発話に既出の単語でない場合（Ｓ１３３１ＡＮ）、α付与部１３３１はεに値αを加算しない。ステップＳ１３３１Ｂ、またはステップＳ１３３１ＡＮの後、β付与部１３３２は、アークが示す単語のトピックが既存発話に既出であるか否かを判定する（Ｓ１３３２Ａ）。アークが示す単語のトピックが既存発話に既出である場合（Ｓ１３３２ＡＹ）、β付与部１３３２はεに値βを加算する（Ｓ１３３２Ｂ）。アークが示す単語のトピックが既存発話に既出でない場合（Ｓ１３３２ＡＮ）、β付与部１３３２はεに値βを加算しない。ステップＳ１３３２Ｂ、またはステップＳ１３３２ＡＮの後、γ付与部１３３３は、アークが示す単語のトピックが既存発話に既出のトピックに類似するか否かを判定する（Ｓ１３３３Ａ）。アークが示す単語のトピックが既存発話に既出のトピックに類似する場合（Ｓ１３３３ＡＹ）、γ付与部１３３３はεに値γを加算する（Ｓ１３３３Ｂ）。アークが示す単語のトピックが既存発話に既出のトピックに類似しない場合（Ｓ１３３３ＡＮ）γ付与部１３３３はεに値γを加算しない。ステップＳ１３３３Ｂ、またはステップＳ１３３３ＡＮの後、文脈一致性算出部１３３は、次の処理対象のアークが存在するか否かを判定し（Ｓ１３３Ｂ）、次の処理対象のアークが存在する場合（Ｓ１３３ＢＹ）には、フローの最初に戻り、次のアークに対して同じステップ（Ｓ１３３Ａ〜Ｓ１３３Ｂ）を実行する。次の処理対象のアークが存在しない場合（Ｓ１３３ＢＮ）、文脈一致性算出部１３３は処理を終了する（エンド）。

このように文脈一致性算出部１３３は、初期値０としたεに、予め定めた各条件（Ｓ１３３１Ａ、Ｓ１３３２Ａ，Ｓ１３３３Ａ）が該当するか否かに応じて、値α、β、γをε加算するため、これらの条件がすべて該当する場合には、ε＝α＋β＋γとして文脈一致性が算出される。例えば、Ｓ１３３１ＡＹ、Ｓ１３３２ＡＹであって、Ｓ１３３３ＡＮの場合には、ε＝α＋βとして文脈一致性が算出される。またすべての条件が非該当の場合にはε＝０のままである。なお、１＞α＞β＞γ＞０であるものとする。図７のフローの処理例に限らず、文脈一致性算出部１３３は、アークが示す単語が既存発話に既出の単語であるか否か、またはアークが示す単語のトピックが既存発話に既出であるか否か、あるいはアークが示す単語のトピックが既存発話に既出のトピックに類似するか否か、の少なくとも何れかに基づいて文脈一致性を算出してもよい。

以下、図８、図９を参照して概念類似性算出部１３４の詳細な構成、動作について説明する。図８は、本実施例の音声認識装置１の概念類似性算出部１３４の構成を示すブロック図である。図９は、本実施例の音声認識装置１の概念類似性算出部１３４の動作を示すフローチャートである。図８に示すように概念類似性算出部１３４は、単語概念ベース算出部１３４１と、σ算出部１３４２を含む構成である。単語概念ベース算出部１３４１は、各音声認識結果の単語概念ベースを算出する。単語概念ベースの算出方法は、参考非特許文献３に開示されている。
（参考非特許文献３：別所克人、外２名、”単語と意味属性との共起に基づく概念ベクトル生成手法”、[online]、平成18年6月、人工知能学会、[平成27年7月10日検索]、インターネット<URL:http://www.jaist.ac.jp/jsai2006/program/pdf/100023.pdf>）

σ算出部１３４２は、単語事後確率最大となる候補とそれ以外の候補との概念類似性σを下記の式にて算出する。このとき、単語事後確率最大の候補の場合はσ＝１とし、改めて計算はしないものとする。
σ＝（１＋｜ｃｏｓθ｜）／２

ここで｜ｃｏｓθ｜は、計算対象の２つのベクトル間のコサイン測度の絶対値とする。最後に、音声認識結果並び替え部１３５は、コンフュージョンネットワーク上でのすべての組み合わせについて、概念類似性σの逆数１／σと文脈一致性εとの和を算出し、当該和の値が大きい順に音声認識結果を並び替え、上から順にＮ個の候補を、修正済み音声認識結果集合として出力する（Ｓ１３５）。

本実施例の音声認識装置１によれば、言語的な文脈を考慮しつつ、単語事後確率最大となる候補との概念類似性の高くない候補に加点をするような評価関数を設定することで、よりバリエーションが高く、かつ外れ値を排除できる結果集合を生成できるようになり、ユーザの選択がしやすいようにすることができる。また、コンフュージョンセットの中で重要となる特定の品詞に限って候補をとるようにすることで、仔細な差異しかないような候補が並びにくくなる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音声特徴量、または音声信号を音声認識して複数の音声認識結果からなる音声認識結果集合を取得する音声認識部と、
前記音声認識結果集合に基づいて、そのアークに品詞情報および単語事後確率を含むコンフュージョンネットワークを生成するコンフュージョンネットワーク生成部と、
前記コンフュージョンネットワークにおいて複数のアークに分岐した位置におけるアークのセットであるコンフュージョンセット内の各アークについて、既存発話における文脈との一致性を表す文脈一致性を算出し、前記コンフュージョンセット内の各アークについて、当該アークが属するコンフュージョンセット内において単語事後確率が最大となるアークとの概念の類似性を表す概念類似性を算出し、前記概念類似性の逆数と前記文脈一致性に基づく値により、前記音声認識結果集合を並び替えるコンフュージョンネットワーク操作部
を含む音声認識装置。
請求項１に記載の音声認識装置であって、
前記コンフュージョンネットワーク操作部は、
各コンフュージョンセットにおいて多く含まれる品詞を各コンフュージョンセットの代表品詞として抽出する代表品詞抽出部と、
前記代表品詞が特定の品詞となるコンフュージョンセットを処理対象として抽出する処理対象抽出部と、
前記抽出されたコンフュージョンセット内の各アークについて、前記文脈一致性を算出する文脈一致性算出部と、
前記抽出されたコンフュージョンセット内の各アークについて、前記概念類似性を算出する概念類似性算出部と、
前記概念類似性の逆数と前記文脈一致性に基づく値により、前記音声認識結果集合を並び替える音声認識結果並び替え部
を含む音声認識装置。
請求項１または請求項２に記載の音声認識装置であって、
前記文脈一致性が、
前記アークが示す単語が既存発話に既出の単語であるか否か、または前記アークが示す単語のトピックが既存発話に既出であるか否か、あるいは前記アークが示す単語のトピックが既存発話に既出のトピックに類似するか否か、の少なくとも何れかに基づいて算出される
音声認識装置。
請求項１から３の何れかに記載の音声認識装置であって、
前記概念類似性が、
前記各アークの単語概念ベクトル間のコサイン測度に基づいて算出される
音声認識装置。
音声認識装置が実行する音声認識方法であって、
音声特徴量、または音声信号を音声認識して複数の音声認識結果からなる音声認識結果集合を取得するステップと、
前記音声認識結果集合に基づいて、そのアークに品詞情報および単語事後確率を含むコンフュージョンネットワークを生成するステップと、
前記コンフュージョンネットワークにおいて複数のアークに分岐した位置におけるアークのセットであるコンフュージョンセット内の各アークについて、既存発話における文脈との一致性を表す文脈一致性を算出し、前記コンフュージョンセット内の各アークについて、当該アークが属するコンフュージョンセット内において単語事後確率が最大となるアークとの概念の類似性を表す概念類似性を算出し、前記概念類似性の逆数と前記文脈一致性に基づく値により、前記音声認識結果集合を並び替えるステップ
を含む音声認識方法。
コンピュータを請求項１から４の何れかに記載の音声認識装置として機能させるプログラム。