JP3955880B2

JP3955880B2 - 音声認識装置

Info

Publication number: JP3955880B2
Application number: JP2006547696A
Authority: JP
Inventors: 剛男大野; 誠西崎; 伸一芳澤; 哲鈴木
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2004-11-30
Filing date: 2005-11-01
Publication date: 2007-08-08
Anticipated expiration: 2025-11-01
Also published as: JPWO2006059451A1; WO2006059451A1; US20080046244A1; US7848927B2

Description

本発明は、発声入力された音声信号を認識し、この認識結果を出力する音声認識装置に関するものである。

近年、カーナビゲーションやデジタルテレビなどの情報機器が扱う情報量が急激に増加しつつある。例えば、カーナビゲーション装置が参照する地図データベースには、より広範囲の地域の地名や施設名などに関する情報が記録され、また、デジタルテレビのＥＰＧ（電子番組ガイド）には、より多くのチャンネルの番組に関して、番組名や出演者名などの詳細な番組情報が配信されるようになってきており、これらの情報を検索する際のインターフェイス手段として、音声認識技術が注目されている。

しかしながら、地名や施設名、番組名や出演者名といった語彙を単語辞書に記憶し、これら語彙を認識対象とする音声認識装置においては、認識対象語彙数が増加すると、認識率が低下してしまうという課題がある。また、これら認識対象語彙を、通信手段を通じて獲得し、これを認識辞書に記憶する音声認識装置においては、記憶した語彙数が認識辞書の記憶容量限界に達してしまった場合、その後新たな認識語彙を獲得、記憶することが不可能になるという課題がある。

このような課題を解決するものとして、従来、様々な技術が提案されている（例えば、特許文献１、特許文献２）。図８は、特許文献１に記載の第一の従来技術の構成を示すものであり、ＥＰＧ（電子番組表）の操作に応用した音声認識装置に関するものである。図８に示すとおり、従来の音声認識装置では、ＥＰＧ受信部５で受信したＥＰＧデータを項目分類部６で項目ごとに分類した後に、読み取得部７が漢字かな変換部１５を参照して読みを取得し、辞書更新部８が言葉と読みとを対にして辞書９に登録するとともに、登録語削除部１４が、例えば前日までに登録された古い登録データを削除する。以上のような処理により、新たにＥＰＧデータに登場した言葉（新番組、新出演者など）の辞書登録と、辞書登録後あらかじめ定めされた時間が経過した辞書項目の削除を行うことで、認識辞書に記憶される語彙数が増加して認識率が低下することを防ぎつつ、かつ、辞書に記録されたデータの量が限界以上に増大しオーバーフローすることを防止しながら、最新のＥＰＧデータを反映した辞書を利用した音声認識処理を可能としている。

また、特許文献２記載の第二の従来技術は、車載用ナビゲーション装置における地名検索に音声認識装置を応用したものであり、道路沿いに設置された交通情報送信手段（いわゆるビーコン）から送信される交通情報を利用して地名認識を行う構成としている。より具体的には、自車現在位置近くの交通情報送信手段を通じて取得された交通情報から、自車現在位置付近の地名（例えば町名、交差点名、路線名、駅名、主要構造物名等）を表す単語を抽出し、これを現時点の認識対象語彙としている。交通情報送信手段は、個々の設置位置付近の地名情報を詳細に提供するものであるため、車両走行によりユーザが移動し現在位置が変化すると、交通情報を受信する交通情報送信手段も現在位置付近のものに更新され、これから受信する交通情報も最新の現在位置に対応した地名情報を含むものとなる。以上の構成により、認識辞書に記憶される語彙数が増加して認識率が低下することを防ぎつつ、常に現在位置付近の地名を認識対象語彙とすることが可能な音声認識装置を実現している。
特開平２００１−２２３７４号公報特許第３２８３３５９号公報

しかしながら、上記第一の従来技術では、辞書登録後あらかじめ定めされた時間が経過した時点で辞書項目の削除を行うため、削除時刻の直前まで認識可能であった番組名や出演者名などの語彙が削除時刻を過ぎると突然認識不可能となってしまう。このため、ユーザである発話者が認識装置内部での辞書項目の削除処理を認知できない場合には、ユーザはなぜ直前まで認識できていた語彙が突然認識不可能になってしまうのかを理解できず、認識装置の不可解な動作に対して違和感を覚えてしまうという課題を有している。

また、上記第二の従来技術では、自車走行による現在位置の移動にともない交通情報送信手段が切替わり、これを境に交通情報から抽出される地名語彙も切替わるため、それまで認識可能であった町名や主要構造物名等の地名が突然認識できなくなってしまい、上記第一の従来技術の場合と同様に、認識装置の不可解な動作に対してユーザが違和感を覚えてしまうという課題を有している。

つまり、第一の従来技術、第二の従来技術ともに、認識対象語彙数の増加による認識率低下を防止することを目的とし、認識対象語彙に対する制限処理を行った結果、ある時点まで認識できていた語彙が突然認識できなくなるという、ユーザにとって不可解な動作を音声認識装置が行うため、ユーザの音声認識装置に対する違和感が増加し、これが著しく増加した場合、最終的にユーザが音声認識装置の使用を諦めてしまい、音声認識装置の利点を享受できないという課題を有している。

本発明は、上記従来の課題を解決するもので、地名や施設名、番組名や出演者名といった語彙を認識対象語彙とする音声認識装置であって、これら認識対象語彙に適正な制限を加えつつ、制限処理に起因するユーザの違和感を取除くことのできる音声認識装置を提供することを目的とする。

上記目的を達成するために、本発明に係る音声認識装置は、音声信号を認識し、認識した結果を出力する音声認識装置であって、単語又は単語列ごとの出現確率を示す言語モデルを格納している言語モデル格納手段と、入力された音声信号の特徴量を抽出し、抽出した特徴量を前記言語モデル格納手段に格納された言語モデルと照合することによって前記音声信号に対応した単語又は単語列を特定し、特定した単語又は単語列を音声認識結果として出力する認識手段と、外部から単語を取得する単語取得手段と、前記単語取得手段によって単語が取得されてからの経過時間に伴い前記言語モデルにおける前記出現確率を変化させることによって前記言語モデルを調整する言語モデル調整手段とを備え、前記認識手段は、前記言語モデル調整手段によって調整された言語モデルを用いて前記単語又は単語列を特定することを特徴とする。これによって、時間の経過に従って単語の出現確率を連続的に変化させることが可能となり、認識対象語彙に適正な制限を加えつつ、直前まで認識されていた単語がある時期を境に突然認識されなくなってしまうという不具合が回避される。

より詳しくは、前記単語取得手段は、前記単語とともに、当該単語に付帯する事項を示す単語付帯情報を取得し、前記言語モデル調整手段は、単語付帯情報ごとに、単語が取得されてからの経過時間に伴って単語の出現確率がどのように変化するかを示す単語出現確率時間特性を格納している単語出現確率時間特性格納部と、前記単語取得手段によって取得された単語と単語付帯情報とを対応づけて記憶する単語記憶部と、前記単語取得手段によって単語が取得されてからの経過時間を単語ごとに計測する経過時間計測部と、前記単語記憶部に記憶されている単語について、当該単語の単語付帯情報に対応する単語出現確率時間特性を前記単語出現確率時間特性格納部に格納されている単語出現確率時間特性の中から特定し、特定した単語出現確率時間特性を用いて前記経過時間計測部によって計測された当該単語の経過時間に対応する単語の出現確率を特定し、特定した出現確率を用いて前記言語モデルを調整する調整部とを有する構成とすることができる。

なお、前記言語モデルとしては、例えば、Ｎグラム言語モデルであり、前記調整部は、特定した前記単語の出現確率を、Ｎグラム言語モデルにおける当該単語の出現確率を導出するパラメータとして前記言語モデル格納手段に登録することによって、前記言語モデルを調整してもよい。例えば、経過時間に対応して特定された単語の出現確率をユニグラム値として反映する方法が考えられる。

また、前記単語取得手段は、前記単語の意味カテゴリーを示す情報を前記単語付帯情報として取得し、前記言語モデル調整手段は、前記単語付帯情報が示す意味カテゴリーごとに、前記言語モデルにおける前記出現確率を変化させてもよい。同様に、前記単語取得手段は、前記単語がいずれの場所で取得されたか示す情報を前記単語付帯情報として取得し、前記言語モデル調整手段は、前記単語付帯情報が示す単語取得場所ごとに、前記言語モデルにおける前記出現確率を変化させてもよい。これによって、意味カテゴリーや単語取得場所ごとに、短期間だけ使用される流行に敏感な単語や、比較的長期間に渡って継続的に使用される単語等が分類され、単語の性質や取得場所に則した単語出現確率時間特性が用いられるので、より現実を反映した言語モデルの調整が可能となる。

また、前記音声認識装置はさらに、当該音声認識装置の外から単語出現確率時間特性を取得し、取得した単語出現確率時間特性を前記単語出現確率時間特性格納部に格納する単語出現確率時間特性取得手段を備えてもよい。これによって、それまで使用してきた単語出現確率時間特性をより的確なものに更新したり、より緻密に分類した単語出現確率時間特性を使用して言語モデルを調整することが可能となり、より自然な音声認識が実現される。

また、前記調整部は、特定した前記単語の出現確率が一定のしきい値よりも小さい場合に、前記単語記憶部に記憶されている前記単語、前記単語の単語付帯情報、前記経過時間計測部に保持されている前記単語の経過時間、及び、前記言語モデル格納手段に格納されている前記単語の言語モデルのいずれか、又は全てを削除してもよい。これによって、ほとんど使用されなくなった単語が各種記憶部から削除され、不要な単語で記憶部の記憶スペースが圧迫されてしまうという不具合の発生が回避される。

また、前記言語モデルにおける前記出現確率の変化は、経過時間に伴って滑らかに変化する（例えば、減少する）曲線であってもよいし、一定の経過時間後に単語の出現確率が最大となる曲線であってもよい。これによって、時間の経過に伴って単語の出現確率が連続的に変化することが確保され、認識対象語彙に適正な制限を加えつつ、制限処理に起因するユーザの違和感を取除くことができる。

なお、本発明は、このような音声認識装置として実現することができるだけでなく、音声認識方法として実現したり、コンピュータに音声認識方法を実行させるプログラムとして実現したり、そのプログラムを記録したＣＤ−ＲＯＭ等の記録媒体として実現することもできる。

本発明の音声認識装置によれば、取得単語の付帯情報に応じて言語モデルの単語出現確率を時間経過にしたがい連続的に調整することができ、認識対象語彙に適正な制限を加えつつ、制限処理に起因するユーザの違和感を取除くことのできる音声認識結果を提供することができる。

よって、本発明は、特に、認識辞書が肥大化しやすい流行に敏感なデジタルテレビ用の音声認識装置やファッション用品を販売する店舗における音声認識装置等として、その実用的価値は極めて高い。

以下、本発明の実施の形態について、図を参照しながら説明する。

（実施の形態１）
まず、本発明の実施の形態１に係る音声認識装置について、図１〜５を用いて説明する。実施の形態１における音声認識装置は、例えば、ユーザが携帯する情報端末に内蔵され、ユーザが店舗にて買い物を行う際の情報検索や音声通訳などの用途に応用され、ユーザが所望の商品に関する問合せを行う発声を認識する。この音声認識装置は、無線通信等によって、言語モデルの調整対象とする単語を外部から取得する。取得単語としては、各店舗にて扱う商品の商品名、ブランド名などが想定され、例えば、ユーザが店舗に入ったときに、その店舗に設置された情報提供サーバから無線通信等によってユーザの情報端末に提供される。

図１は、本発明の実施の形態１における音声認識装置の構成図である。図１に示すように、本実施の形態１に係る音声認識装置１００は、認識対象語彙における言語モデルの単語出現確率を時間経過とともに連続的に調整することが可能な音声認識装置であり、音響特徴量抽出部１０１、照合部１０２、音響モデル格納部１０３、言語モデル格納部１０４、取得単語信号受信解析部１０５、単語出現確率時間特性格納部１０６、取得単語語彙記憶部１０７、取得単語付帯情報記憶部１０８、取得後経過時間計測部１０９、言語モデル調整部１１０を備える。

音響特徴量抽出部１０１は、音声認識装置１００に入力された音声信号から、その特徴を表す音響特徴量を抽出し、照合部１０２に送る。この音響特徴量抽出部１０１は、例えば、音声信号を集音するマイクロフォンと、これをサンプリング周波数１２ｋＨｚ、Ａ／Ｄ変換精度１６Ｂｉｔの精度でデジタル信号に変換するＡ／Ｄ変換器と、入力音声のデジタル信号から音声の特徴を表現するスペクトルやケプストラムなどの音響的特徴量を計算する音響特徴計算部から構成される。音響特徴計算部による計算方法としては、例えば、ＭＦＣＣ分析手法などが考えられ、音響特徴量抽出部１０１により抽出される音響特徴量としては、１６次のＭＦＣＣ係数と１６次のΔＭＦＣＣ係数と１次のΔパワーによって構成される音響的特徴量などが用いられる。

音響モデル格納部１０３は、音響モデル、つまり、単語などの音声の単位ごとにあらかじめ用意された音声のパターンを示すデータをあらかじめ格納しているメモリ等である。格納される音響モデルとしては、一般に音声認識で用いられているＨＭＭモデル（隠れマルコフモデル）を利用することができ、例えば、音韻ごとに３状態Ｌｅｆｔ―ｔｏ―ｒｉｇｈｔ型４混合連続分布ＨＭＭモデルをあらかじめ学習用音声データから学習し、音響モデル格納部１０３に格納しておく。

言語モデル格納部１０４は、言語モデル、つまり、文を構成する単語の並び等の言語的な特徴を示すデータをあらかじめ格納しているメモリ等である。たとえば、単語又は単語列ごとの出現確率を示す言語モデルを格納している。言語モデルとしては、単語の生起をＮ−１重マルコフ過程で近似したＮグラム（Ｎ−ｇｒａｍ）言語モデルである、ユニグラム（ｕｎｉ−ｇｒａｍ）、バイグラム（ｂｉ−ｇｒａｍ）、トライグラム（ｔｒｉ−ｇｒａｍ）などとすることができる。なお、ここで説明したＨＭＭに基づく音響モデルとＮグラムに基づく言語モデルによる音声認識処理手法としては、公知の音声認識処理手法を用いることができる（例えば、鹿野清宏、中村哲、伊勢史郎「音声・音情報のディジタル信号処理」昭晃堂、ｐｐ．６３−１２１、１９９７年１１月参照）。

照合部１０２は、音響特徴量抽出部１０１で抽出された音響特徴量と、音響モデル格納部１０３に格納された音響モデルおよび言語モデル格納部１０４に格納された言語モデルとを照合することにより、最も類似性の高い単語、もしくは、単語系列を音声認識結果として出力する。たとえば、音響モデル格納部１０３に格納された音響モデルから特定される確率と、言語モデル格納部１０４に格納された言語モデルから特定される確率との積が最も高い単語又は単語系列を認識結果として出力する。

取得単語信号受信解析部１０５は、外部から単語を取得する処理部であり、具体的には、音声認識装置１００の外部から、取得単語の語彙とその単語に関する付帯情報を含んだ取得単語信号を受信し、これを解析する。例えば、各店舗内に設置された光ビーコン情報送信装置から取得単語信号が送信される場合、取得単語信号受信解析部１０５における受信機能は、光ビーコン情報受信装置により実現することができる。この取得単語信号受信解析部１０５は、取得単語信号を受信後、信号の解析により取得単語語彙と、取得した単語の意味カテゴリーや取得場所などの情報を含む取得単語付帯情報とを抽出する。ここで、取得単語は、ユーザが立寄った店舗が洋品店であれば、洋品店での買い物に関連した単語であり、例えば、取得単語語彙は、「マルフローレン」「タムソナイト」「フェラガメ」など、洋品店で扱う商品のうち特に伝統的な老舗ブランド名であり、これらの単語に対応した取得単語付帯情報は、取得した単語は「『意味カテゴリー』が『老舗洋品ブランド名』」であるという情報である。この取得単語信号受信解析部１０５は、取得単語信号の受信解析後、抽出した取得単語語彙と取得単語付帯情報を、それぞれ取得単語語彙記憶部１０７と取得単語付帯情報記憶部１０８に格納する。さらに、この取得単語信号受信解析部１０５は、取得単語信号受信時、単語取得時刻を表す単語取得時刻信号を取得後、経過時間計測部１０９に送る。取得後経過時間計測部１０９は、単語取得時刻信号に基づきその後の経過時間の計測を行い、取得後経過時間として保持する。

図２は、取得単語語彙記憶部１０７に記憶される取得単語語彙、取得単語付帯情報記憶部１０８に記録される取得単語付帯情報、ならびに、取得後経過時間計測部１０９にて計測、保持される取得後経過時間の一例を具体的に示している。ここで、個々の語彙に対応した取得単語付帯情報と経過時間は、語彙ごとに割当てられた取得単語ＩＤ番号を介するなどして、取得単語語彙と関連付けられて記憶されており、例えば、取得単語ＩＤ番号「１」に対応した取得単語語彙、取得単語付帯情報、取得後経過時間は、それぞれ、「マルフローレン」「意味カテゴリー：老舗洋品ブランド名」「３０日８時間１５分」である。取得単語信号受信解析部１０５を通じて取得された他の単語についても、同様に、取得単語語彙、取得単語付帯情報、取得後経過時間が関連付けられ、それぞれ、取得単語語彙記憶部１０７、取得単語付帯情報記憶部１０８および取得後経過時間計測部１０９に記憶、保持されている。

単語出現確率時間特性格納部１０６は、あらかじめ取得単語付帯情報ごとの単語出現確率時間特性を示す情報を格納しているメモリ等である。図３は、この単語出現確率時間特性格納部に格納されている単語出現確率時間特性の一例を示している。単語出現確率時間特性は、意味カテゴリーごとに定義され、単語出現確率と取得後経過時間との関係を示し、例えば、単語出現確率が単語取得後の経過時間に伴って減少する直線あるいは滑らかな曲線等である。例えば、洋品ブランド、特にいわゆる老舗ブランドと呼ばれる伝統的な老舗ブランド名に属する単語は、取得後も比較的長期に渡って継続的に発話される単語であるため、取得単語付帯情報「意味カテゴリー：老舗洋品ブランド名」に属する単語語彙の単語出現確率時間特性は、取得後経過時間への依存性が低く、なだらかに減衰する特性となっている。一方、楽曲名、特にある特定の週の音楽ＣＤ売上枚数などから定義される週間ヒット曲名に属する単語は、取得後数週間後には急激に発話頻度が低下する単語であるため、取得単語付帯情報「意味カテゴリー：週間ヒット曲名」に属する単語語彙の単語出現確率時間特性は、取得後経過時間への依存性が高く、取得後数週間で急激に減衰する特性となっている。ここで、各意味カテゴリーごとの単語出現確率時間特性の設定方法としては、例えば、同種のカテゴリーに属する商品の販売量が過去にどのような時間経過特性をもって推移したかの統計を参照することによって設定することができる。

言語モデル調整部１１０は、単語取得後の経過時間に伴って言語モデルにおける単語又は単語列の出現確率を変化させることによって言語モデルを調整する処理部であり、より詳しくは、取得単語語彙記憶部１０７に記憶される取得単語語彙と、取得単語語彙に対応して取得単語付帯情報記憶部１０８に記憶される取得単語付帯情報と、取得単語語彙に対応して取得後経過時間計測部１０９で計測される取得後経過時間と、取得単語付帯情報に対応して単語出現確率時間特性格納部１０６に格納される単語出現確率時間特性とから、該当単語の単語出現確率を獲得し、獲得した単語出現確率をもとに、該当単語に関連する言語モデルを調整する。つまり、取得単語語彙記憶部１０７に記憶されている取得単語語彙について、その取得単語付帯情報に対応する単語出現確率時間特性を単語出現確率時間特性格納部１０６に格納されている単語出現確率時間特性の中から特定し、特定した単語出現確率時間特性を用いて取得後経過時間計測部１０９によって計測された経過時間に対応する単語出現確率を特定し、特定した単語出現確率を用いて言語モデルを調整する。本実施の形態においては、単語出現確率時間特性格納部１０６には、図３に示されるように、単語出現確率が単語取得後の経過時間に伴って減少するような特性が格納されているので、この言語モデル調整部１１０は、単語取得後の経過時間に伴って単語出現確率が減少するように変化させることで言語モデルを調整する。

なお、請求の範囲における構成要素と本実施の形態における構成要素との対応は次の通りである。つまり、請求の範囲における言語モデル格納手段は、音響モデル格納部１０３に対応し、認識手段は、音響特徴量抽出部１０１、照合部１０２及び音響モデル格納部１０３を併せたものに対応し、単語取得手段は、取得単語信号受信解析部１０５に対応し、言語モデル調整手段は、単語出現確率時間特性格納部１０６、取得単語語彙記憶部１０７、取得単語付帯情報記憶部１０８、取得後経過時間計測部１０９及び言語モデル調整部１１０を併せたものに対応する。

次に、以上のように構成された本実施の形態における音声認識装置１００の動作について説明する。

図４は、音声認識装置１００の言語モデル調整部１１０による言語モデル調整の処理動作を示すフローチャートである。まず、言語モデル調整部１１０は、取得単語語彙記憶部１０７から特定の取得単語語彙を獲得し（Ｓ４０１）、該当の取得単語語彙に対応した取得単語付帯情報を取得単語付帯情報記憶部１０８から獲得し（Ｓ４０２）、獲得した取得単語付帯情報から、単語出現確率時間特性格納部１０６に格納されている単語出現確率時間特性のうち、いずれの時間特性を参照したらよいかを決定する（Ｓ４０３）。たとえば、獲得した取得単語付帯情報が示す意味カテゴリーに対応する単語出現確率時間特性を特定する。

さらに、言語モデル調整部１１０は、該当の取得単語語彙に対応した取得後経過時間を取得後経過時間計測部１０９から獲得し（Ｓ４０４）、先に決定した単語出現確率時間特性上、獲得した取得語彙経過時間における単語出現確率を、該当の取得単語語彙の現在時刻における単語出現確率値として定める（Ｓ４０５）。言語モデル調整部１１０は、取得単語語彙記憶部１０７に記憶されるその他の必要な全ての取得単語語彙についても同様の処理を行い、それぞれの取得単語語彙の現在時刻における単語出現確率値を定める（Ｓ４０６）。

そして、言語モデル調整部１１０は、単語出現確率をもとに、音声認識処理に用いられる言語モデルを調節する（Ｓ４０７）。つまり、言語モデル調整部１１０は、対象となっている取得単語語彙について、いま特定した単語出現確率で音声認識が行われることとなるように、言語モデルのパラメータを決定する。言語モデルの具体的な調節処理方法としては、例えば、単語の生起をＮ−１重マルコフ過程で近似したＮグラム言語モデルのうち、Ｎ＝１の場合のユ二グラムを単語出現確率から計算する方法などが考えられる。なお、ここで説明したＮグラム言語モデルの生成方法については、公知の生成方法を用いることができる（例えば、北研二、中村哲、永田昌明「音声言語処理」森北出版ｐｐ．２７−３７、１９９６年１１月参照）。

最後に、言語モデル調整部１１０は、取得単語語彙の現在時刻における単語出現確率値から該当の単語に関連した言語モデルを調整した後、これを言語モデル格納部１０４に送り格納する（Ｓ４０８）。

このようにして調整された言語モデルが言語モデル格納部１０４に格納された以降においては、照合部１０２によって、調整後の言語モデルを用いた照合、つまり、調整後の言語モデルを用いた音声認識が行われる。これによって、新規に取得された単語については、取得後の経過時間を反映した音声認識が行われ、ユーザに違和感を与えることがない自然な音声認識が実現される。

次に、言語モデル調整部１１０による言語モデルの調整の具体例について説明する。ここでは、言語モデルとしてＮグラムモデルを用いた場合の例を示す。
（１）第一の調整例は、言語モデル調整部１１０が特定した単語出現確率をＮグラム言語モデルにおけるユニグラム値（確率）として用いる例である。

いま、ｗ₁、ｗ₂、・・、ｗ_nをそれぞれ単語とし、Ｐ（ｗ₁ｗ₂・・・ｗ_n）を単語列ｗ₁ｗ₂・・・ｗ_n（言語表現）の出現確率とすると、ユニグラムモデルでは、例えば、言語表現「これはマルフローレンですか」の出現確率Ｐ（これはマルフローレンですか）は、以下のような単語ごとの出現確率（ユニグラム値）の積で表される。

Ｐ（これはマルフローレンですか）＝Ｐ（これ）Ｐ（は）Ｐ（マルフローレン）Ｐ（です）Ｐ（か）
この第一の調整例では、言語モデル調整部１１０が特定した「マルフローレン」の単語出現確率を上記ユニグラム値Ｐ（マルフローレン）として言語モデル格納部１０４に格納する。

（２）第二の調整例は、言語モデル調整部１１０が特定した単語出現確率をバイグラム、あるいは、より高次のＮグラム推定のための線形補間として用いる例である。

バイグラムモデルでは、例えば、言語表現「これはマルフローレンですか」の出現確率Ｐ（これはマルフローレンですか）は、以下のような２つの連続する単語の出現確率（バイグラム値）の積で表される。

Ｐ（これはマルフローレンですか）＝Ｐ（これ｜"文頭"）Ｐ（は｜これ）Ｐ（マルフローレン｜は）Ｐ（です｜マルフローレン）Ｐ（か｜です）
なお、Ｐ（これ｜"文頭"）は、文頭に単語「これ」が出現する確率を示し、Ｐ（は｜これ）は、単語「これ」に続いて単語「は」が出現する確率を示し、Ｐ（マルフローレン｜は）は、単語「は」に続いて単語「マルフローレン」が出現する確率を示す（以下、同様）。

一般に、Ｎグラムモデルでは、Ｐ（ｗ₁ｗ₂・・・ｗ_n）の推定をする場合に、下記の近似を行う。

ここで、Ｎ＝１の場合がユニグラムモデル、Ｎ＝２の場合がバイグラムモデル、Ｎ＝３の場合がトライグラムモデルに相当する。

上記Ｎグラムモデルを学習サンプルから推定する際、学習サンプル中に現れる該当単語を含むサンプル表現が少ない場合などに、Ｎグラム値の推定精度の向上を目的に、以下の式に示されるように、Ｎグラム値を、低次のＭグラム値（Ｍ＜Ｎ）を用いて線形補間することがある。

ここで、上記式における左辺は、単語ｗ_nのＮグラム値であり、右辺の第１項は、実際のサンプルデータから推定されたＮグラム値に混合係数λ（０≦λ≦１）を乗じた値であり、右辺の第２項は、（Ｎ−１）グラム値に混合係数（１−λ）を乗じた値である。

たとえば、バイグラム値をユニグラム値で線形補間する場合は、以下の近似式を用いる。

この第二の調整例では、上記式におけるユニグラム値Ｐ（ｗ_n）として、言語モデル調整部１１０が特定した単語出現確率を用いる。これによって、バイグラム、あるいは、より高次のＮグラムモデルに対応した言語モデルの調整が可能となる。
（３）第三の調整例は、言語モデル調整部１１０が特定した単語出現確率をＮグラムクラスモデルにおけるクラスに属する語彙の単語出現確率として用いる調整例である。

ここで、Ｎグラムクラスモデルとは、Ｎグラムモデルにクラス（単語クラス）という概念を導入したモデルの総称である。クラスとしては、品詞や、単語をその意味カテゴリーごとに分類した単語集合などがある。いま、単語ｗ_nの属するクラスをｃ_nとするとき、Ｎグラムクラスモデルは次式で定義される。

ここで、上記式における左辺は、単語ｗ_nのＮグラム値であり、右辺の第１項は、単語ｗ_nがクラスｃ_nから生起される確率であり、下記式に示されるように、学習データ中に単語ｗ_nが出現した回数Ｃ（ｗ_n）をクラスｃ_nの単語が出現した回数Ｃ（ｃ_n）で除した値であり、右辺の第２項は、クラスを対象としたＮグラム値である。

この第三の調整例では、言語モデル調整部１１０は、特定した単語出現確率をそのクラスに属する語彙の単語出現確率値と相対化することによって上記確率Ｐ（ｗ_n｜ｃ_n）を決定し、言語モデル格納部１０４に格納する。これによって、Ｎグラムクラスモデルに対応した言語モデルの調整が可能となる。

次に、以上のような本実施の形態における音声認識装置の具体的な動作例を説明する。ここでは、ユーザが、図２に示される取得単語語彙の取得単語ＩＤ番号１の「マルフローレン」と取得単語ＩＤ番号３１の「マルクローリン」の中間的な音響特徴をもつ「マルフローリン」という発声を、異なる２つの時刻Ｔ１、Ｔ２に行った場合を例に説明する。ただし、音声認識装置の言語モデルは単語出現確率に基づくユニグラムであり、認識装置は孤立単語認識を行い、さらに、取得単語語彙、取得単語付帯情報、単語出現確率時間特性は、図２および図３に示される状況であると想定する。

まず、第１回目の発声時刻Ｔ１が、図２に示される時刻、つまり、意味カテゴリー「老舗洋品ブランド名」に属する単語を洋品店店舗入口に備付けの光ビーコン装置から取得後「３０日８時間１５分」、意味カテゴリー「週間ヒット曲名」に属する単語を音楽ＣＤショップ入口に備付けの光ビーコン装置から取得後「１日２時間３０分」が経過した時刻であったとする。このとき、発声「マルフローリン」は、つい１日前に訪れた音楽ＣＤショップに関わるユーザの発声である可能性が高い。発声「マルフローリン」の音響的特徴が、取得単語ＩＤ番号１の「マルフローレン」と取得単語ＩＤ番号３１の「マルクローリン」のいずれの音響的特徴とも同等の類似性を持っている場合、この時刻Ｔ１における単語出現確率は、意味カテゴリー「週間ヒット曲名」に属する単語に対する値の方が、意味カテゴリー「老舗洋品ブランド名」に属する単語に対する値より高いので（図３）、本実施の形態における音声認識装置１００は、意味カテゴリー「週間ヒット曲名」に属する「マルクローリン」をこの発声に対する単語認識結果として出力する。

次に、第１回目の発声時刻Ｔ１から６０日が経過した時刻Ｔ２に、第２回目の発声が行われたとする。この時、既に音楽ＣＤショップに立寄って意味カテゴリー「週間ヒット曲名」に属する単語を取得してから６０日以上の時間が経過しているので、ユーザの発声が音楽ＣＤショップに関わる内容である可能性は低い。この時の発声も、第１回目の発声と同様に、その音響的特徴が、取得単語ＩＤ番号１の「マルフローレン」と取得単語ＩＤ番号３１の「マルクローリン」のいずれの音響的特徴とも同等の類似性を持っている場合、今度は、意味カテゴリー「老舗洋品ブランド名」に属する単語に対する単語出現確率値の方が、意味カテゴリー「週間ヒット曲名」に属する単語に対する単語出現確率値より高いので（図３）、音声認識装置１００は、意味カテゴリー「老舗洋品ブランド名」に属する「マルフローレン」をこの発声に対する単語認識結果として出力する。「老舗洋品ブランド名」や「週間ヒット曲名」などの単語語彙を取得した後、時刻Ｔ１を経てＴ２に至るまでの期間、それぞれの取得単語の取得単語付帯情報ごとに定義された単語出現確率時間特性に基づき、時間的に連続して言語モデルを調整し、これにより認識対象語彙に適正な制限を加えることができる。

このように、言語モデルの単語出現確率を時間経過とともに連続的に調整することにより、従来技術のように、認識対象語彙に対する制限処理を行った結果ある時点まで認識できていた語彙が突然認識できなくなるというようなことがなく、認識対象語彙に適正な制限を加えつつ、認識対象語彙の制限処理に起因するユーザの違和感を取除くことが可能となる。

なお、時刻Ｔ２において、意味カテゴリー「週間ヒット曲名」に属する単語の単語出現確率時間特性値が充分小さな値、例えば図２中のしきい値Ｐｔｈのようにあらかじめ定められた値よりも小さいならば、言語モデル調整部１１０によって、意味カテゴリー「週間ヒット曲名」に属する単語を、この時点で取得単語語彙記憶部１０７に記憶される取得単語語彙から削除し、さらにこれらの単語に関わる取得単語付帯情報、取得単語経過時間、言語モデルも削除してもよい。このような単語語彙削除を伴う言語モデルの調整処理フローは、図５のようになる。取得単語語彙の獲得（Ｓ５０１）から単語出現確率値の決定（Ｓ５０５）までは、前述の図４におけるフローにおけるステップＳ４０１〜Ｓ４０５と同様である。次に、決定された単語出現確率値がしきい値Ｐｔｈよりも小さい場合、言語モデル調整部１１０は、該当の単語の単語語彙削減処理を行う決定をし（Ｓ５０６）、単語語彙削減処理を実行する（Ｓ５０７）。決定された単語出現確率値が、しきい値Ｐｔｈよりも大きい場合、言語モデル調整部１１０は、該当の単語の単語語彙削減処理は行わない決定をし（Ｓ５０６）、以上の処理を該当の全単語について行った後、言語モデルの調整（Ｓ５０９）と言語モデルの格納（Ｓ５０８）を実行する。以上の取得単語語彙と、該当の単語に関わる取得単語付帯情報、取得単語経過時間、言語モデルの削除を行うことにより、音声認識装置内の記憶部を有限に活用することが可能となる。

このように、本実施の形態１に係る音声認識装置１００によれば、取得単語信号受信解析部１０５、単語出現確率時間特性格納部１０６、取得単語語彙記憶部１０７、取得単語付帯情報記憶部１０８、取得後経過時間計測部１０９、言語モデル調整部１１０とを備える構成により、取得単語の付帯情報に応じて定義された時間特性に基づいて、言語モデル調整部１１０が言語モデルの単語出現確率を時間経過とともに連続的に調整することが可能となり、認識対象語彙に適正な制限を加えつつ、認識対象語彙の制限処理に起因するユーザの違和感を取除くことのできる音声認識装置が実現される。

なお、本実施の形態１においては、取得単語信号受信解析部１０５における取得単語信号の取得は、光ビーコン情報受信装置を用いて取得する例を用いて説明したが、この他に、テレビ放送網、インターネット網、ＲＦ−ＩＤなどを利用して取得することも可能である。

また、本実施の形態１においては、取得単語語彙、取得単語付帯情報、取得後経過時間の３つの要素が全て揃って、取得、記憶されることを想定したが、このうち、ある特定の単語については、取得単語付帯情報が取得できない場合は、例えば、音声認識結果から該当単語の意味カテゴリーなど取得単語付帯情報を類推し、これを該当単語の取得単語付帯情報として取得単語付帯情報記憶部１０８に記憶し、この情報から調整される言語モデルを次回の音声認識時に利用してもよい。

また、本実施の形態１においては、単語出現確率時間特性は、単語出現確率時間特性格納部１０６にあらかじめ格納されていることを想定したが、該当の取得単語付帯情報に対応した単語出現確率時間特性が単語出現確率時間特性格納部１０６にあらかじめ格納されていない場合、取得単語信号受信解析部を通じて、認識装置外部から単語出現確率時間特性を取得してもよい。また、該当の取得単語付帯情報に対応した単語出現確率時間特性が単語出現確率時間特性格納部１０６にあらかじめ格納されていたとしても、取得単語信号受信解析部を通じて、認識装置外部から単語出現確率時間特性が取得可能な場合、これをあらかじめ格納されていた単語出現確率時間特性と置換えて更新してもよい。

また、本実施の形態１においては、単語出現確率時間特性の学習は、同種のカテゴリーに属する商品の販売量が、過去にどのような時間経過特性をもって推移したかに基づき、学習することを想定したが、その他に、同様のカテゴリーに属する単語が新聞、テレビ等のメディアに出現した時間特性に基づき、単語出現確率時間特性を学習してもよい。

また、本実施の形態１においては、単語出現確率時間特性を定める取得単語付帯情報として、単語の言語上の「意味カテゴリー」を参照する例を用いて説明したが、この他に、単語「単語取得場所」など取得状況に関する情報を取得単語付帯情報として利用することも考えられる。例えば、取得単語付加情報の内容が「『単語取得場所』が『テーマパーク入口』」で、取得単語語彙がテーマパーク内の施設名や関連キャラクター名である場合、アミューズメントパークに滞在する時間は長くても数日程度であると考えられるので、３日程度の時間経過後に減衰する特性をもち、取得単語付加情報の内容が「『単語取得場所』が『国際空港到着ゲート』」で、取得単語語彙が到着した国に存在する観光地名、名物料理名、流通通貨単位などである場合、通常観光目的に外国に滞在する期間はビザの有効期間から考えて長くて数ヶ月であると考えられるので、３ヶ月程度の時間経過後に減衰する特性とすることができる。

また、本実施の形態１においては、単語出現確率をもとに調整する言語モデルは、ユニグラムであることを想定して説明したが、この他に、取得した単語出現確率をもとに、バイグラムなどより高次のＮグラムの補間を行うという言語モデルの調整を行ってもよいし、さらに、品詞クラスなどのＮグラムクラスモデルを言語モデルとして採用する場合、このＮグラムクラスモデルを取得した単語出現確率から調整してもよい。

さらに、本実施の形態１においては、取得単語語彙と該当単語に関わる取得単語付帯情報、取得単語経過時間、言語モデルの削除処理において、あらかじめ定められたしきい値より単語出現確率値が小さくなることを削減処理実行のための判断基準としたが、音声認識装置内の記憶部が単語取得により飽和した時点で、単語出現確率の低い単語の順に削除処理を行うことも可能である。

（実施の形態２）
次に、本発明の実施の形態２に係る音声認識装置について、図１、および、図６〜７を用いて説明する。実施の形態２における音声認識装置は、デジタルテレビ受信録画装置に内蔵されており、ユーザがＥＰＧを利用して所望のテレビ番組を検索、録画、または、再生するなどの用途に応用され、ユーザがこれら用途のために発声する番組名や出演者名含む音声を認識する。この音声認識装置の構成は、機能的には、先の実施の形態１と同様である。ただし、単語出現確率時間特性格納部１０６に格納されている単語出現確率時間特性等の具体的なデータがデジタルテレビ受信録画装置用のものになっている点で実施の形態１と異なる。以下、実施の形態１と異なる点を中心に説明する。

音声認識装置１００の外部から単語情報信号を取得する取得単語信号受信解析部１０５は、例えば、テレビ番組の番組名や出演者名などを含むＥＰＧデータ信号を獲得するための放送信号受信装置やインターネットへの接続装置などから構成され、さらに、番組名や出演者名などテレビ番組の検索、録画、または、再生などの操作に有用な単語語彙を取得されたＥＰＧデータから抽出する機能を備える。取得単語信号受信解析部１０５は、取得単語信号の受信解析後、抽出した取得単語語彙と取得単語付帯情報を、それぞれ取得単語語彙記憶部１０７と取得単語付帯情報記憶部１０８に格納する。さらに、取得単語信号受信解析部１０５は、取得単語信号受信時、単語取得時刻を表す単語取得時刻信号を取得後経過時間計測部１０９に送る。取得後経過時間計測部１０９は、単語取得時刻信号に基づき、その後の経過時間の計測を行い、取得後経過時間として保持する。

図６は、取得単語語彙記憶部１０７に記憶される取得単語語彙、取得単語付帯情報記憶部１０８に記録される取得単語付帯情報、ならびに、取得後経過時間計測部にて計測、保持される取得後経過時間の一例を具体的に示している。ここで、取得された単語はいずれもテレビ番組名であり、取得単語付帯情報としては、「意味カテゴリー：今週放送の番組名」「意味カテゴリー：来週放送の番組名」「意味カテゴリー：来月放送の番組名」のいずれかが付与されている。

図７は、単語出現確率時間特性格納部１０６にあらかじめ格納されている取得単語付帯情報ごとの単語出現確率時間特性の一例を示している。ＥＰＧを利用して所望のテレビ番組の検索、録画、または、再生といった操作を行う場合、例えば、１週間先のテレビ番組の録画は、いつ頃その録画操作が行われる頻度が高いかというユーザの操作時期に関する情報は、あらかじめこれを学習しておくことができるので、単語出現確率時間特性は、こうしたユーザのＥＰＧ操作時期に関する情報をもとに定めることができる。

例えば、今週放送の番組に関する検索、録画、再生等のＥＰＧ操作は、単語取得直後から１〜２週間の間に頻繁に行われると考えられるので、取得単語付帯情報「意味カテゴリー：今週放送の番組名」に属する単語の単語出現確率時間特性は、こうしたユーザ操作の時間特性に対応した特性となっている。

一方、来月放送の番組に関するＥＰＧ操作は、放送間じかとなった単語取得後２週間以降に頻繁に行われると考えられるので、取得単語付帯情報「意味カテゴリー：来月放送の番組名」に属する単語の単語出現確率時間特性は、こうしたユーザ操作の時間特性に対応した特性となっている。ここでは、図７に示されるように、一定期間の経過後に単語出現確率がピーク（最大）となるような滑らかな山形の特性となっている。より具体的には、単語取得時に「意味カテゴリー：来月放送の番組名」に属するテレビ番組「オリンピック開会式」は、まだ１ヶ月先の放映であるので、これをユーザが検索や録画操作の対象とする可能性は小さく、今週放送の番組や来週放送の番組よりも小さな単語出現確率値を定義することにより、音声認識装置全体の認識性能を高く保つことができる。単語取得後３週間が経過し、オリンピック開会が間じかになった時、番組「オリンピック開会式」をユーザが検索や録画操作の対象とする可能性が高くなるため、「意味カテゴリー：来月放送の番組名」に該当する単語出現確率値を大きく設定することにより、これに属する番組名「オリンピック開会式」の単語出現確率を大きな値とすることができる。このとき、取得単語付帯情報「意味カテゴリー：今週放送の番組名」に属するテレビ番組は既に放映が終了して一定時間が経過し、ユーザの検索、再生操作もその可能性が低下していると考えられるので、取得単語付帯情報「意味カテゴリー：今週放送の番組名」に属する単語の単語出現確率は小さな値にすることができ、これらテレビ番組名に関する取得単語付帯情報ごと単語出現確率に基づき言語モデルを調節することで、認識対象語彙に適正な制限を加えることができる。

なお、本実施の形態では、単語出現確率時間特性格納部１０６に格納されている単語出現確率時間特性が単調減少ではなく、一定期間経過後にピークとなる曲線である点で実施の形態１と異なり、他の構成要素における処理は、実施の形態１と同様である。よって、本実施の形態においては、単語出現確率時間特性格納部１０６には、図７に示されるように、単語出現確率が単語取得後の一定時間の経過後に最大となるような特性が格納されているので、この言語モデル調整部１１０は、単語が取得されてから一定の経過時間後に単語出現確率が最大となるように変化させることで言語モデルを調整する。ただし、単語出現確率が一定のしきい値よりも小さくなったときに取得単語語彙記憶部１０７、取得単語付帯情報記憶部１０８、取得後経過時間計測部１０９および言語モデル格納部１０４からそれぞれ対応する取得単語語彙、取得単語付帯情報、取得単語経過時間および言語モデルを削除するタイミングについては、言語モデル調整部１１０は、単語出現確率の値だけでなく、変化の方向（しきい値を上から下に横切ったこと）をも考慮する。つまり、しきい値よりも大きな値であった単語出現確率がしきい値よりも小さな値になった後に、それらの情報を削除する。

以上のように、言語モデルの単語出現確率を時間経過とともに連続的に調整することにより、従来技術のように、認識対象語彙に対して制限処理を行うことである時点まで認識できていた語彙が突然認識できなくなるというようなことがなく、また、単語取得時にはその単語出現確率値が小さな単語に対しても、発声の頻度が高くなる時期に単語出現確率を大きく設定することも可能となり、認識対象語彙に適正な制限を加えつつ、認識対象語彙の制限処理に起因するユーザの違和感を取除くことが可能となる。

本発明は、音声認識装置として、例えば、現在地周辺の施設名や地名などを認識対象語彙とするナビゲーション装置用の音声認識装置、放送網などを通じて獲得したＥＰＧデータから番組名や出演者名などを抽出し、これらを認識対象語彙とするデジタルテレビ用の音声認識装置、さらには、ユーザが立寄ったお店が扱う商品名やブランド名などを認識対象語彙とする携帯型情報端末用の音声認識装置として有用である。

図1は、本発明の実施の形態１における音声認識装置の構成を示すブロック図図２は、本発明の実施の形態１における音声認識装置の取得単語語彙と取得単語付帯情報と取得後経過時間の一例を示す図図３は、本発明の実施の形態１における音声認識装置の単語出現確率時間特性格納部に格納される単語出現確率時間特性の一例を示す図図４は、本発明の実施の形態１における音声認識装置の言語モデル調整に関わる処理動作の一例を示すフローチャート図５は、本発明の実施の形態１における音声認識装置の言語モデル調整に関わる処理動作の一例を示すフローチャート図６は、本発明の実施の形態２における音声認識装置の取得単語語彙と取得単語付帯情報と取得後経過時間の一例を示す図図７は、本発明の実施の形態２における音声認識装置の単語出現確率時間特性格納部に格納される単語出現確率時間特性の一例を示す図図８は、従来の音声認識装置の構成を示すブロック図

符号の説明

１０１音響特徴量抽出部
１０２照合部
１０３音響モデル格納部
１０４言語モデル格納部
１０５取得単語信号受信解析部
１０６単語出現確率時間特性格納部
１０７取得単語語彙記憶部
１０８取得単語付帯情報記憶部
１０９取得後経過時間計測部
１１０言語モデル調整部

Claims

音声信号を認識し、認識した結果を出力する音声認識装置であって、
単語又は単語列ごとの出現確率を示す言語モデルを格納している言語モデル格納手段と、
入力された音声信号の特徴量を抽出し、抽出した特徴量を前記言語モデル格納手段に格納された言語モデルと照合することによって前記音声信号に対応した単語又は単語列を特定し、特定した単語又は単語列を音声認識結果として出力する認識手段と、
外部から単語を取得する単語取得手段と、
前記単語取得手段によって単語が取得されてからの経過時間に伴い前記言語モデルにおける前記出現確率が一定の経過時間後に最大となるように、前記出現確率を変化させることによって前記言語モデルを調整する言語モデル調整手段とを備え、
前記認識手段は、前記言語モデル調整手段によって調整された言語モデルを用いて前記単語又は単語列を特定する
ことを特徴とする音声認識装置。
前記単語取得手段は、前記単語の意味カテゴリーを示す情報を前記単語付帯情報として取得し、
前記言語モデル調整手段は、前記単語付帯情報が示す意味カテゴリーごとに、前記言語モデルにおける前記出現確率を変化させる
ことを特徴とする請求項１記載の音声認識装置。
前記単語取得手段は、前記単語がいずれの場所で取得されたか示す情報を前記単語付帯情報として取得し、
前記言語モデル調整手段は、前記単語付帯情報が示す単語取得場所ごとに、前記言語モデルにおける前記出現確率を変化させる
ことを特徴とする請求項１記載の音声認識装置。
前記単語取得手段は、前記単語とともに、当該単語に付帯する事項を示す単語付帯情報を取得し、
前記言語モデル調整手段は、
単語付帯情報ごとに、単語が取得されてからの経過時間に伴って単語の出現確率がどのように変化するかを示す単語出現確率時間特性を格納している単語出現確率時間特性格納部と、
前記単語取得手段によって取得された単語と単語付帯情報とを対応づけて記憶する単語記憶部と、
前記単語取得手段によって単語が取得されてからの経過時間を単語ごとに計測する経過時間計測部と、
前記単語記憶部に記憶されている単語について、当該単語の単語付帯情報に対応する単語出現確率時間特性を前記単語出現確率時間特性格納部に格納されている単語出現確率時間特性の中から特定し、特定した単語出現確率時間特性を用いて前記経過時間計測部によって計測された当該単語の経過時間に対応する単語の出現確率を特定し、特定した出現確率を用いて前記言語モデルを調整する調整部とを有する
ことを特徴とする請求項１記載の音声認識装置。
前記調整部は、特定した前記単語の出現確率が一定のしきい値よりも小さい場合に、前記単語記憶部に記憶されている前記単語、前記単語の単語付帯情報、前記経過時間計測部に保持されている前記単語の経過時間、及び、前記言語モデル格納手段に格納されている前記単語の言語モデルのいずれか又は全てを削除する
ことを特徴とする請求項４記載の音声認識装置。
単語又は単語列ごとの出現確率を示す言語モデルを格納している言語モデル格納手段を用いて音声を認識する方法であって、
入力された音声信号の特徴量を抽出し、抽出した特徴量を前記言語モデル格納手段に格納された言語モデルと照合することによって前記音声信号に対応した単語又は単語列を特定し、特定した単語又は単語列を音声認識結果として出力する認識ステップと、
外部から単語を取得する単語取得ステップと、
前記単語取得ステップによって単語が取得されてからの経過時間に伴い前記言語モデルにおける前記出現確率が一定の経過時間後に最大となるように、前記出現確率を変化させることによって前記言語モデルを調整する言語モデル調整ステップとを含み、
前記認識ステップでは、前記言語モデル調整ステップによって調整された言語モデルを用いて前記単語又は単語列を特定する
ことを特徴とする音声認識方法。
単語又は単語列ごとの出現確率を示す言語モデルを格納している言語モデル格納手段を備える音声認識装置のためのプログラムであって、
請求項６記載の音声認識方法に含まれるステップをコンピュータに実行させる
ことを特徴とするプログラム。