JP4705023B2

JP4705023B2 - 音声認識装置、音声認識方法、及びプログラム

Info

Publication number: JP4705023B2
Application number: JP2006514478A
Authority: JP
Inventors: 純幸沖本; 剛井上; 貴史續木
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2004-06-10
Filing date: 2005-06-02
Publication date: 2011-06-22
Anticipated expiration: 2025-06-02
Also published as: US7813928B2; US20080167872A1; WO2005122144A1; JPWO2005122144A1

Description

本発明は、音声認識に基づくマン・マシン・インタフェースに用いられる音声認識装置に関し、特に、未登録語発声に対する応答技術に関する。

従来、利用者に使い易い機器コントロールのための入力フロントエンドとして、音声認識技術を応用したものが存在する。一般に、音声認識では、非特許文献１に述べられているように発話された音声と、あらかじめ音声認識用辞書に定められた単語群の標準パタンそれぞれとの比較を行ない、最も近いものを認識結果とするという方法が採られる。

しかし、機器の利用者は、音声認識が対象としている単語群を全て覚えている訳ではないため、音声認識が対象としていない単語を発話するという事が起こりうる。このような場合において、上述したような音声認識の基本的枠組では、音声認識用辞書内の最も近い単語を結果として返すので、必然的に誤認識を生じてしまうという問題がある。このような問題に対して、音声認識用辞書に存在しない単語（未登録語）の利用者による発話を検出する方法が考案されている。

例えば、特許文献１においては、入力音声と音声認識用辞書の各単語との類似度を求めると共に、単位標準パタンを結合したパタンから参照類似度を求めて、各単語に求められた類似度を補正し、この補正類似度が一定のしきい値に満たなければ、利用者の発話を未登録語とみなすという方法が記載されている。

また、特許文献２においては、音素ＨＭＭ（Hidden Markov Model）と、ガーベジＨＭＭとを用いて、未登録語を、少ない処理量で高精度に検出する方法が記載されている。

そして、利用者による未登録語の発話を検出した際に、そのことを利用者に、ビープ音等の警告音にて示したり、「それはありません」等の発話内容を代名詞で言い換えた応答出力によって示したりすることが容易に考えられる。

しかし、このような応答を返すだけでは、利用者にとっては不十分である。なぜなら、この応答から、自らが発話した単語が、たまたま認識されなかったのか、未登録語であるのかを明瞭に切り分けることができないからである。

このため、利用者は、納得がいくか、または、諦めるまで、発音に一層の注意を払いながら発話を続けざるを得ず、音声入力による機器コントロールの利便性を低下させてしまうといった問題が起こる。

このような問題に対して、特許文献３では、利用者による未登録語の発話が検出されると、状況に応じて機器が受理可能な単語の一覧を、利用者に提示する方法が記載されている。これによれば利用者は、機器に認識される単語を知らなくても、未登録語を発話するたびに、その状況で発話可能な単語を教示されるため、何度も同じ単語の発話を繰り返すことなく、思いの動作を実現することが可能である。

また、特許文献４では、従来の音声認識用辞書に相当する内部辞書と、従来の音声認識用辞書では未登録語となる単語を多数格納した外部辞書とを合わせて、音声認識用辞書として音声認識を行ない、外部辞書に含まれる単語が認識結果となった場合には、これが未登録語であることを同時に提示するという方法が記載されている。これによれば、例えば「松下太郎」という単語が外部辞書に含まれている状態で、「松下太郎」と利用者が発話すると、「松下太郎はおりません。」といった応答が可能となる。
特許第２８０８９０６号公報特許第２８８６１１７号公報特許第３４６８５７２号公報特開平９−２３０８８９号公報鹿野清宏、中村哲、伊勢史郎，「ディジタル信号処理シリーズ５：音声・音情報のディジタル信号処理」，昭晃堂，１９９７年１１月１０日，ｐ．４５，５３

しかしながら、上記特許文献３の方法では、受理可能な単語の数が非常に多くなった場合に、多数の単語の中から利用者が所望の単語を探す必要を生じさせ、利用者にとって見落としや煩わしさの原因となりうる。例えば、利用者がそのシステムに存在しない「松下太郎」という人物名を発話し、受理可能な単語の中から人物検索により「松下太郎」を探そうとした際に、検索可能な人物名として１００名の名前が一覧表示されたとすると、利用者は、そのリストの中に「松下太郎」がいるのかいないのか、また、「松下太郎」の代わりの人物がいるのかいないのかを確認しなければならない。このような場合に、利用者は、「松下太郎」を見落としてしまうおそれがあり、また、「松下太郎」を探し出すのは、煩わしい作業であるとともに、容易ではない。

また、上記特許文献４の方法において、前述したような応答を良好に返すには、未登録語単語辞書としての外部辞書に、非常に多くの単語を登録する必要があるが、このような大語彙の辞書を用いて音声認識を行なった場合には、類似する多くの単語が登録されているが故に認識誤りが発生し易くなるという背反する問題が生じる。この結果、例えば「松下太郎」という利用者の発話に対して、「松下徹はおりません。」といった応答や、「松下徹ですね。」といった応答を返してしまい、利用者は無用の混乱に陥ったり、再発話を余儀なくされてしまうという問題が起こりうる。

そこで、本発明は、かかる問題に鑑みなされたものであり、利用者が無益な再発話を試みる状況を減らすことができる音声認識装置を提供することを目的とする。

上記目的を達成するために、本発明に係る音声認識装置は、発話された音声を認識する音声認識装置であって、音声認識のための語彙を定義し、登録語として記憶する音声認識用単語記憶手段と、前記発話された音声と、前記音声認識用単語記憶手段に記憶されている登録語とを照合する音声認識手段と、前記発話された音声と、音響の単位となるサブワードを組み合わせてなる系列との類似度を求める参照類似度計算手段と、前記音声認識手段の照合結果と前記参照類似度計算手段の算出結果とに基づいて、前記発話された音声が、前記音声認識用単語記憶手段に記憶されている登録語であるか、記憶されていない未登録語であるかを判定する未登録語判定手段と、前記未登録語を記憶する未登録語単語記憶手段と、前記未登録語判定手段で未登録語と判定された場合に、前記発話された音声に基づいて、前記発話された音声に対応すると思われる未登録語候補を、前記未登録語単語記憶手段に記憶されている未登録語の中から検索する未登録語候補検索手段と、前記検索結果を表示する結果表示手段とを備えることを特徴とする。

ここで、前記音声認識装置は、前記未登録語単語記憶手段に記憶されていない未登録語群を記憶する未登録語単語サーバと通信する通信手段を備え、前記通信手段が前記未登録単語サーバから前記未登録語群を受信することによって、前記未登録語単語記憶手段に記憶されている未登録語を更新するとしてもよい。

なお、本発明は、このような音声認識装置として実現することができるだけでなく、このような音声認識装置が備える特徴的な手段をステップとする音声認識方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。

本発明によれば、利用者による音声認識が不成立となる未登録語単語の発話を利用者に提示すると同時に、それが認識誤りによるものでないことも利用者に判り易く提示することができる。

また、本発明によれば、本来の目的である音声認識辞書内の単語の発話に対する認識率を低下させることがない。

さらに、未登録語候補を検索するための未登録語単語記憶手段は、非常に大きなものとなり、また常にメンテナンスが必要となるが、この機能をサーバとして機器から切り離すことで、機器の製造コストを下げることを可能とすると同時に、未登録語単語記憶手段のメンテナンスコストも下げることが可能になる。

上記目的を達成するために、本発明に係る音声認識装置は、発話された音声を認識して当該認識の結果を提示する音声認識装置であって、音声認識のための語彙を定義し、登録語として記憶する音声認識用単語記憶手段と、前記発話された音声と、前記音声認識用単語記憶手段に記憶されている登録語とを照合する音声認識手段と、前記発話された音声との類似度が最も高くなる、音響の単位となるサブワードを組み合わせてなる系列を探索し、当該探索された系列に関する参照類似度を求める参照類似度計算手段と、前記音声認識手段で照合された前記登録語と前記発話された音声との類似度と、前記参照類似度計算手段で求められた前記参照類似度とを比較することで、前記発話された音声が、前記音声認識用単語記憶手段に記憶されている登録語であるか、記憶されていない未登録語であるかを判定する未登録語判定手段と、前記未登録語を記憶する未登録語単語記憶手段と、前記未登録語判定手段で未登録語と判定された場合に、前記発話された音声に基づいて、前記発話された音声に対応すると思われる未登録語候補を、前記未登録語単語記憶手段に記憶されている未登録語の中から検索する未登録語候補検索手段と、前記発話された音声が未登録語である旨とともに、前記検索結果を表示する結果表示手段とを備えることを特徴とする。

これによって、利用者の発話した単語が未登録語である場合に、未登録語候補を検索して提示するので、利用者は、未登録語候補の中に自身の発話した単語が含まれていることを確認するだけで未登録語発話を自覚することができる。また、未登録語単語候補の検索を、音声認識辞書内の単語比較と別に行なうので、音声認識そのものの性能を低下させることがない。

ここで、前記未登録語候補検索手段は、複数の未登録語候補を、前記未登録語単語記憶手段に記憶されている未登録語の中から検索するとしてもよい。

この構成によれば、未登録語候補を１単語に絞り込まないので、未登録語候補の検索について高精度が要求されず、ハードウェアリソースを低く抑えることができる。

また、前記未登録語単語記憶手段は、前記未登録語の属するカテゴリに応じて、前記カテゴリごとに分類して前記未登録語を記憶しているとするのが好ましく、前記音声認識装置は、さらに、前記発話された音声に基づいて、前記未登録語の属するカテゴリを判定する未登録語クラス判定手段を備え、また、前記未登録語候補検索手段は、前記未登録語クラス判定手段の判定結果に基づいて、前記未登録語候補を、前記未登録語単語記憶手段における分類されたカテゴリの中から検索するのがより好ましい。

これによって、未登録語候補の検索範囲を未登録語のカテゴリに応じて絞り込むので、利用者が本来意図していなかったカテゴリの単語を未登録語候補として提示するのを防止することができる。また、検索範囲を絞り込むので、未登録語候補の検索精度を向上させることも可能となる。

また、前記音声認識装置は、さらに、前記カテゴリに関する情報を取得する情報取得手段を備え、前記未登録語候補検索手段は、前記情報取得手段が取得した情報に基づいて、前記未登録語候補を、前記未登録語単語記憶手段における分類されたカテゴリの中から検索するとしてもよい。

この構成によれば、発音的には類似するが、状況から見て発話されたとは考えにくい未登録語単語の候補を出力させないので、提示する未登録語候補数を削減し、利用者に未登録語候補を判り易く提示する音声認識装置が実現される。

さらに、前記未登録語候補検索手段は、前記発話された音声との類似する度合いを数値化した未登録語スコアを計算することにより、前記未登録語候補を検索し、前記結果表示部は、前記検索結果として、前記未登録語候補とその未登録語スコアとを表示し、また、前記結果表示部は、前記未登録語スコアに応じて、前記未登録語候補の表示を変更するのが好ましい。

これによって、未登録語候補の提示において、未登録語候補を数値化し、また、未登録語候補として、もっともらしいものを強調することにより、利用者に未登録語候補を判り易く提示することができるという効果を奏する。

また、前記未登録語単語記憶手段に記憶されている未登録語は、所定の条件下で更新されるとしてもよい。

これによって、日々増加する固有人名や番組のタイトル等の未登録語単語に対して、これを素早く未登録語単語記憶手段に反映させることが可能になる。

これによって、外部のサーバから新たな未登録語が提供されるので、日々増加する固有人名や固有タイトルのような未登録語について、これらを未登録語単語記憶手段に登録する手間を利用者に要求することなく、未登録語単語記憶手段を最適な状態に保つことができる。

また、前記音声認識用単語記憶手段に記憶されている登録語は、所定の条件下で更新されるとしてもよい。

これによって、登録語の使用頻度の時間変動に追従して、高い使用頻度が見込まれる比較的少数の登録語のみを前記音声認識用単語記憶手段に記憶させておくことができるので、認識時間を短縮すると共に良好な認識率を得ることが容易となる。

また、本発明は、このような音声認識装置として実現することができるだけでなく、音声認識システムとして実現することもできる。すなわち、発話された音声を認識する音声認識システムであって、前記音声認識システムは、発話された音声を認識して当該認識の結果を提示する音声認識装置と、前記音声認識装置に登録されていない未登録語を検索する未登録語検索サーバとを備え、前記音声認識装置は、音声認識のための語彙を定義し、登録語として記憶する音声認識用単語記憶手段と、前記発話された音声と、前記音声認識用単語記憶手段に記憶されている登録語とを照合する音声認識手段と、前記発話された音声との類似度が最も高くなる、音響の単位となるサブワードを組み合わせてなる系列を探索し、当該探索された系列に関する参照類似度を求める参照類似度計算手段と、前記音声認識手段で照合された前記登録語と前記発話された音声との類似度と、前記参照類似度計算手段で求められた前記参照類似度とを比較することで、前記発話された音声が、前記音声認識用単語記憶手段に記憶されている登録語であるか、記憶されていない未登録語であるかを判定する未登録語判定手段と、前記未登録語判定手段で未登録語と判定された場合に、前記未登録検索サーバに、前記発話された音声に対応すると思われる未登録語候補の検索を要求する検索要求送信手段と、前記未登録語検索サーバから前記未登録語候補の検索結果を取得する検索結果受信手段と、前記発話された音声が未登録語である旨とともに、前記検索結果を表示する結果表示手段とを備え、前記未登録語検索サーバは、前記未登録語を記憶する未登録語単語記憶手段と、前記検索要求送信手段から前記検索要求を受信する検索要求受信手段と、前記検索要求受信手段が前記検索要求を受信した場合に、前記発話された音声に基づいて、前記発話された音声に対応すると思われる未登録語候補を、前記未登録語単語記憶手段に記憶されている未登録語の中から検索する未登録語候補検索手段と、前記検索結果を前記音声認識装置に送信する検索結果送信手段とを備えることを特徴とするとしてもよい。

この構成によれば、音声認識インタフェースをコンパクトに実現することを可能とすると同時に、未登録語単語格納部のメンテナンスコストを下げることができるという効果を奏する。また、常に更新が必要とされる未登録語単語記憶手段を、複数の機器に対して１つにまとめることが可能となり、メンテナンスのコストを下げることもできる。

以下、本発明を実施するための最良の形態について、図１から図２１を参照しながら詳細に説明する。

（実施の形態１）
図１は、本発明の実施の形態１に係る音声認識装置の機能的な構成を示すブロック図である。

図１に示す音声認識装置１００は、マン・マシン・インタフェースの１つとして用いられ、利用者から音声入力を受け付け、入力された音声の認識結果を出力する装置であり、音声認識部１０１、音声認識語彙格納部１０２、参照類似度計算部１０３、未登録語判定部１０４、未登録語候補検索部１０５、未登録語単語格納部１０６、および、結果表示部１０７を備える。

音声認識部１０１は、入力音声を取り込んでその発話内容を認識する処理部である。

音声認識語彙格納部１０２は、音声認識部１０１で認識する語彙を規定し格納するハードディスク等の記憶装置である。この音声認識語彙格納部１０２は、各単語の標準的な音響パタンを標準パタンとして、または、各単語の音響パタンをＨＭＭ(Hidden Markov Model)やニューラルネットと呼ばれるモデルで表現したものを格納している。この音声認識語彙格納部１０２は、あるいは、より短い音響単位ごとのパタンを表現した標準パタンや、ＨＭＭやニューラルネットなどのモデルで表現したものを格納しており、音声認識時には単語ごとに単語パタンや単語モデルを合成して、音声認識部１０１に提供する。

参照類似度計算部１０３は、入力音声が未登録語であるか否かを判定するために用いる参照類似度の計算を行なう処理部である。この参照類似度計算部１０３は、サブワードと呼ばれる単語よりも短い音響単位のパタンやモデルを任意に組み合わせて、入力音声に最も類似度が高くなるサブワード系列の探索を行ない、その最大類似度を求める。

未登録語判定部１０４は、上記音声認識部１０１および参照類似度計算部１０３の双方の結果を基に、利用者の発話内容が未登録語であるか否かを判定する。この未登録語判定部１０４は、利用者の発話内容が音声認識語彙格納部１０２に格納されている単語、すなわち、登録語である場合には、発話内容を認識したという認識結果を結果表示部１０７に出力し、音声認識語彙格納部１０２に格納されていない単語、すなわち、未登録語である場合には、発話内容が未登録語であるという判定結果を未登録語候補検索部１０５に出力する。

未登録語候補検索部１０５は、利用者の発話内容が未登録語と判定された際に、その発話内容から未登録語単語の検索を行なう処理部である。

未登録語単語格納部１０６は、上記未登録語候補検索部１０５における未登録語検索の対象となる多数の単語を格納するハードディスク等の記憶装置である。

なお、未登録語候補検索部１０５は、未登録語単語格納部１０６に格納される非常に多くの語彙の中から未登録語単語を検索することを想定しているため、後述するように、音声認識部１０１とは異なる、より簡素で高速な（つまり計算時間が短い）方法を用いて検索を行うことが好ましい。

結果表示部１０７は、ＣＲＴディスプレイや液晶ディスプレイ等の表示装置であり、未登録語判定部１０４から出力される認識結果を示す画面や、判定結果および未登録語単語の検索結果を示す画面を表示することで、利用者の発話内容が認識されたか否か、未登録語であるか否かを利用者に提示する。

次に、このように構成された音声認識装置１００の動作について説明する。

図２は、音声認識装置１００の処理動作を示すフローチャートである。

まず、音声認識装置１００は、利用者の発話した音声の入力を受け付けると（Ｓ１０）、音声認識部１０１において、入力音声に基づき、音声認識語彙格納部１０２の中から入力音声に類似する単語を認識する（Ｓ１２）。ここで、より具体的には、音声認識部１０１は、音声認識語彙格納部１０２に格納された各単語の標準パタンまたは単語モデルと、入力音声とを照合して、単語ごとに入力音声との類似度を計算し、類似度の高いものを候補として抽出する。また、このとき、音声認識装置１００は、参照類似度計算部１０３において、入力音声に最も近いサブワード系列の探索を行ない、その類似度を参照類似度として求める（Ｓ１４）。

次に、音声認識装置１００は、未登録語判定部１０４において、音声認識部１０１で求められた１位候補の単語（最も類似度の高い候補の単語）の類似度と、参照類似度計算部１０３で求められた参照類似度とを比較し、その比較結果が所定の閾値以内であるかを判断する（Ｓ１６）。ここにいう所定の閾値とは、利用者の発話内容を、登録語であるか未登録語であるか判別するための閾値であり、登録語を発話した多数のサンプル音声と、未登録語を発話した多数のサンプル音声を用いて、音声認識部１０１および参照類似度計算部１０３それぞれによる類似度を求めて、これらの統計的分布から最適な閾値が決定される。

ここで、未登録語判定部１０４は、音声認識部１０１の１位候補単語の類似度と参照類似度計算部１０３による参照類似度とが、事前に統計的に定めた閾値以内である場合（Ｓ１６のＹｅｓ）、利用者の発話内容を音声認識語彙格納部１０２に含まれる単語（登録語）であると判定する（Ｓ１８）。その後、音声認識装置１００は、結果表示部１０７を介して、認識結果を利用者に提示し（Ｓ２６）、処理動作を終了する。

一方、未登録語判定部１０４は、音声認識部１０１の１位候補単語の類似度と参照類似度計算部１０３による参照類似度とが、事前に統計的に定めた閾値を超えている場合（Ｓ１６のＮｏ）、利用者の発話内容を音声認識語彙格納部１０２に含まれない単語（未登録語）であると判定し（Ｓ２０）、判定結果を未登録語候補検索部１０５に出力する。

未登録語判定部１０４で、利用者の発話内容が未登録語であると判定されると、音声認識装置１００は、未登録語候補検索部１０５において、その発話内容から未登録語単語の検索を行なう（Ｓ２２）。このとき、未登録語候補検索部１０５は、参照類似度計算部１０３で得られたサブワード系列と、未登録語単語格納部１０６に格納された多数の未登録語単語それぞれとを比較して、類似度に関連するスコアである未登録語スコアを求めることにより、スコアの高い未登録語、すなわち、利用者の発話内容と思われる未登録語を検索する。そして、未登録語候補検索部１０５は、利用者の発話内容と思われる未登録語の候補を、例えば、スコアの高いものから降順に複数語抽出し（Ｓ２４）、その未登録語スコアと共に結果表示部１０７に出力する。その後、音声認識装置１００は、結果表示部１０７を介して、判定結果と、抽出された未登録語の候補およびその未登録語スコアとを、利用者に提示し（Ｓ２６）、処理動作を終了する。

ところで、一般に音声認識装置１００は、音声認識装置１００をマン・マシン・インタフェースの入力装置として利用するアプリケーションに応じて、認識する単語すなわち音声認識語彙が規定される。例えば、音声認識を入力手段として番組検索を行うアプリケーションの場合、検索対象の番組名や検索の際キーとなる出演者名などが音声認識語彙として規定されることになる。

このような応用を想定した上で本音声認識装置１００は、利用者による発話内容が音声認識語彙格納部１０２に含まれる単語であるか否かによって異なる表示を行なう。

つまり、発話内容が音声認識語彙格納部１０２に含まれる単語である場合には、上述したように、音声認識語彙格納部１０２に格納された各単語の標準パタンまたは単語モデルと、入力音声との照合が音声認識部１０１で行なわれ、単語ごとの類似度が計算され類似度の高いものから降順に上位候補が得られ、その内容が結果表示部１０７に出力される。

具体的な例として、音声認識語彙格納部１０２に「松下太郎」という単語が存在すると仮定して、利用者が「マツシタタロウ」と発話した場合の例を図３に示す。またこの時、参照類似度計算部１０３では、入力音声に最も近いサブワード系列の探索が行なわれて、その類似度が参照類似度として求められる。

図４には、利用者による「マツシタタロウ」という発話に対する参照類似度計算部１０３の出力例を示す。

図３および図４に示した例では、１位候補の類似度“２０４１”と、参照類似度“２２２５”の差は、事前に統計的に求めておいた閾値（例えば、“２００”）より小さいことから、未登録語判定部１０４は、利用者の発話内容は登録語であると判定する。発話内容の判定結果は、未登録語ではなかったので、この場合、未登録語候補検索部１０５は、未登録語検索を行なわず、そのまま認識結果を結果表示部１０７に出力し、結果表示部１０７を介して、認識結果として「松下太郎」が正しく表示される。図５に、この結果表示部１０７における結果表示の一例を示す。

図５に例示される形式の認識結果を見た利用者は、自身の発話内容が登録語であったことを一目で知ることができる。

他方、利用者による発話内容が音声認識語彙格納部１０２に存在しない単語である場合でも、音声認識部１０１は、音声認識語彙格納部１０２に格納された各単語との照合を行ない、単語ごとに類似度を求め、類似度の高いものから降順に上位候補を出力する。しかし、この場合、発話内容は音声認識語彙に含まれない単語であるため、これら候補の中に発話内容に一致する単語は存在しないことになるので、その出力例は、図６に示すようなものとなる。ここでは、先に述べた場合と同様に利用者の発話内容は「マツシタタロウ」であるが、音声認識語彙格納部１０２には、この単語、すなわち、「松下太郎」という単語は含まれていないとしている。

また、このとき、参照類似度計算部１０３では、入力音声に最も類似するサブワード列の探索とその類似度の計算が行なわれるが、これは発話内容が音声認識語彙に含まれているか否かには全く影響を受けない。この結果、参照類似度計算部１０３の出力は、図７に示すように、発話内容が音声認識語彙に含まれている場合の出力例（図４参照）と同様の出力となる。

続いて、未登録語判定部１０４は、上述したように、音声認識部１０１による１位候補の類似度と、参照類似度計算部１０３による参照類似度とを比較する。発話内容が音声認識語彙に含まれない場合では、この両者の類似度は大きく異なり、それらの差は予め定めた閾値より大きくなるため、これを根拠として、未登録語判定部１０４は、発話内容を未登録語と判定する。例えば、図６および図７に示した例では、音声認識部１０１における１位候補の類似度“１４３１”と、参照類似度“２２２５”とは、大きくかけ離れており、その差は予め定められた閾値（例えば、“２００”）より大きいので、未登録語判定部１０４は、利用者の発話内容を未登録語と判定する。

未登録語判定部１０４で、利用者の発話内容が未登録語であると判定されると、未登録語候補検索部１０５は、参照類似度計算部１０３において得られたサブワード系列と、未登録語単語格納部１０６に格納された多数の未登録語単語それぞれとの比較を行ない、類似度に関連するスコアである未登録語スコアを算出する。そして、未登録語候補検索部１０５は、未登録語単語の中から、未登録語スコアの高い順に上位５つの候補を抽出して、その未登録語スコアと一緒に結果表示部１０７に出力する。

図８は、未登録語候補検索部１０５が、利用者の「マツシタタロウ」という発話に対して、参照類似度計算部１０３で得られたサブワード列「マツシマカノウ」に基づいて、未登録語を検索した結果の例を示す図である。ここで、未登録単語格納部１０６には「松下太郎」が格納されているとしている。

このように、未登録語候補検索部１０５による検索結果は、これらの単語が未登録語であるという情報と共に、結果表示部１０７に送られ、利用者の発話が未登録語として認識されたことが利用者に伝えられる。図８に示した例では、図９に示す結果が出力される。図９に例示される形式の認識結果を見た利用者は、自身の発話内容がシステムにとって未知であったことを、一目で知ることができる。

このような結果表示方法とすることによって、利用者の発話した内容が画面に表示されているため、利用者は、発話が正しく認識されたかどうかを疑う必要なく、正しく認識された単語が音声認識語彙に含まれていなかったことを明確に知ることができるようになる。

また、このような結果表示方法とした場合、未登録語候補として複数の単語を表示することになるので、利用者は、自らが発話した単語を捜すことが必要となる。しかし、出力される候補の数が少なければ、その手間は僅かで済む。しかも、このような未登録語候補の表示は、表示された単語について、未登録語であるがために、その後の処理を行なうことはできないことの表明を意図したものであるため、複数の未登録語候補の中から、利用者の発話した単語を利用者に選ばせるという手間は起こりえない。したがって、未登録語候補として複数候補を表示することのデメリットは非常に少ないといえる。

また、音声認識システムを実装する観点から見れば、未登録語候補を１単語に絞り込まなくてもよいということは、未登録語候補検索部１０５における検索精度は、高精度が要求されるわけではなく、また、その検索精度を実現するためのハードウェアリソースも低く抑えられる等、大きなメリットとなり得る。しかも、たとえ検索精度があまり高くなかったとしても、複数候補を表示することによって、利用者が発話した単語がその中に高い確率で含まれることとなり、利用者から見ても、その単語が未登録語であるが故に繰り返し発話を試みても無益であると知る上で、大きな実用性が得られる。

以下では、未登録語候補検索部１０５の動作について、より具体的に説明する。

本実施の形態１における未登録語候補検索部１０５では、未登録語候補の検索手法として、音素編集距離に基づく値を用いる。

この検索手法は、２つの単語をそれぞれ音素記号で表記した場合に、一方の単語の音素記号列を編集して、もう一方の音素記号列に書き換える作業を想定した場合に、何ステップの変更作業が必要であるかをカウントするものである。

この例を図１０に示す。図１０には、音素記号列“ＡＢＣＤＥＦ”（系列１）と、音素記号列“ＡＸＢＹＤＦ”（系列２）とが示されており、系列２から系列１に書き換えるために、必要なステップ（編集距離）は、挿入（挿入誤り）、置換（置換誤り）、削除（脱落誤り）の編集作業が各１回ずつ必要であることが示されている。すなわち、図１０に示す例では、系列２から系列１に書き換える作業に必要な編集距離は、３（挿入１＋置換１＋削除１）となる。

未登録語候補検索部１０５では、参照類似度計算部１０３により求められたサブワード系列の音素記号列表現と、未登録語単語格納部１０６に格納された単語の音素記号列に対して、上述したような編集距離の計算を行ない、さらに、これを長さで正規化したものを１から引いて未登録語スコアとする。未登録語候補検索部１０５は、この処理を未登録語単語格納部１０６に格納された全ての単語に対して行ない、未登録語スコアの高い単語から降順に未登録語候補として抽出し、結果表示部１０７に出力する。先の図８に示した図は、このようにして得られた未登録語候補とその未登録語スコアの例である。

このように未登録語の検索手法を、音素系列の比較によって実現することの利点は、非常に多くの語彙が格納される未登録語単語格納部１０６に対する全探索を軽い処理で行なうことで、未登録語検索に必要な計算リソース（計算時間、計算に要するメモリ量、プロセッサ負荷、消費電力等）を小さく抑える点にある。これにより、例えば携帯情報端末装置といった計算リソースが制限されやすい装置においても、短時間のうちに未登録語候補を検索して利用者に表示して、利用者に軽快な使用感を与えることができる。

その反面、探索を簡便に行なうことによる検索精度の低下が懸念されるが、上述したように、未登録語候補は、複数の候補を出力することが許されているため、上位候補を複数出力することで利用者が発話した単語がその中に含まれる確率を高め、検索精度の低下に対応させることができる。また、未登録語検索を音声認識部１０１とは独立に実行することで、音声認識部１０１の認識処理に悪影響を与えないという効果も有する。

なお、本実施の形態１においては、未登録語判定のために参照類似度計算部１０３を設けたが、これは必須要件ではなく、音響モデルにガベッジモデルを加えるなど、その他の未登録語判定の手法を利用することも可能である。

また、本実施の形態１で説明した音声認識部１０１、音声認識語彙格納部１０２、および、参照類似度計算部１０３を代替して、図１１に示すような未知発話検出装置を用いることもできる。

図１１は、未知発話検出装置の機能的な構成を示すブロック図である。

音声片パタン格納部１１１は、入力音声の特徴パラメータとのマッチングに用いられる、標準的な音声の音声片を格納する。

ここで、音声片とは、音声の母音区間の後半部分と、これに後続する子音区間の前半部分とを連接したＶＣパタン、および、子音区間の後半部分と、これに後続する母音区間の前半部分とを連接したＣＶパタンの集合を意味している。ただし、音声片は、この他にも日本語をローマ字標記した場合のアルファベット１文字１文字にほぼ相当する音素の集合、日本語をひらがな標記した場合のひらがな１文字１文字にほぼ相当するモーラの集合、複数のモーラの連鎖を意味するサブワードの集合、さらに、これらの集合の混合集合であってもよい。

単語辞書格納部１１２は、上記音声片を連結して音声認識語彙の単語パタンを合成するための規則を格納する。

単語マッチング部１１３は、特徴パラメータの時系列で表現された入力音声と、上記合成された単語パタンとを比較し、その類似性に対応する、尤度を単語ごとに求める。

遷移確率格納部１１４は、音声片同士を任意に結合する場合における、結合の自然さを連続値で表現する遷移確率を格納する。ここでは、遷移確率として音素の２ｇｒａｍ確率を用いる。音素の２ｇｒａｍ確率とは、先行する音素ｘの後に、音素ｙが接続する確率Ｐ（ｙ｜ｘ）を意味するもので、多数の日本語テキストデータなどを用いて事前に求めておく。ただし、遷移確率は、これ以外にモーラの２ｇｒａｍ確率、サブワードの２ｇｒａｍ確率、あるいは、これらの混合の２ｇｒａｍ確率であってもよく、また２ｇｒａｍ確率以外にも、３ｇｒａｍ確率などであってもよい。

音声系列マッチング部１１５は、上記音声片パタンを任意に結合してできるパタンと、特徴パラメータの時系列として表現された入力音声との尤度を、上記遷移確率を考慮して計算し、得られた最大尤度とする。

候補スコア差計算部１１６は、上記単語マッチング部１１３で計算された単語ごとの尤度のうち、最も高い値を得た単語（１位候補）と次に高い値を得た単語（２位候補）の尤度の差を単語の長さで正規化して計算する。

候補・音素系列間類似度計算部１１７は、１位候補と２位候補の音響的な類似性を求めるため、１位候補の音素系列と２位候補の音素系列の系列間の距離を計算する。

候補・音声系列スコア差計算部１１８は、１位候補の尤度と、上記音声系列マッチング部１１５で計算された参照尤度との差を単語の長さで正規化して計算する。

候補・音声系列・音素系列類似度計算部１１９は、１位候補と、上記音声系列マッチング部１１５によって最適系列とされた系列の音響的な類似性を、各音素系列間の距離として計算する。

そして、このような未知発話検出装置を用いるとした場合、未登録語判定部１０４は、上記、候補スコア差計算部１１６、候補・音素系列間類似度計算部１１７、候補・音声系列スコア差計算部１１８、および、候補・音声系列・音素系列類似度計算部１１９で求められた各値を総合して、入力音声が未登録語であるか否かを判定する。このように、複数の未登録語検出のための尺度を統計的に組み合わせて判定することで、未登録語の判定精度が向上する。なお、ここでは、未登録語判定部１０４で用いる尺度として、４つの尺度を挙げたが、これ以外にも、各単語候補の尤度そのものや、その分布、また、単語区間内での局所スコアの変動量、単語を構成する音素の持続時間情報などの尺度も併用することも可能である。

また、この場合、複数の尺度を元に未登録語を判定する手法として、事前に多数の認識結果の事例を用いて求めた線型判別式を利用する。しかし、これ以外にも、ニューラルネットワーク、決定木、ＳＶＭ（サポート・ベクトル・マシン）など、いわゆる学習機械の利用も有効である。

また、未登録語候補検索部１０５においては、音素系列間の編集距離に基づいた未登録語検索方法について述べたが、音素間の編集距離の定義として、挿入誤り、脱落誤り、置換誤りを全て編集距離“１”とするのではなく、実験的に得られたそれら誤りの発生確率に基づいた連続値を距離とすることも効果的である。

さらに、未登録語単語格納部１０６に、音声認識語彙格納部１０２と同様のフォーマットのデータを格納しておき、未登録語候補検索部１０５では、音声認識部１０１と同様に入力音声のパラメータから直接単語の照合を行なって、未登録語候補およびそれらの未登録語スコアを出力するという方法も可能である。このような構成とした場合、未登録語検索に要するリソースは増大する反面、未登録語の検索精度が向上するという効果が得られる。また、この場合においても、本発明の特長である、目的単語に対する認識率を低下させないという効果は維持されることになる。

さらに、未登録語単語格納部１０６に含まれる単語と、音声認識語彙格納部１０２に含まれる単語は重なりがないことを前提に説明をしてきたが、未登録語単語格納部１０６に格納される単語は、音声認識語彙格納部１０２に含まれる単語であっても良いものとし、代わりに未登録語候補検索部１０５において、音声認識語彙格納部１０２に含まれる単語が検索された場合には、これを除外して結果表示部１０７に出力するとしてもよい。このようにすることで、音声認識語彙格納部１０２の内容に関わらず未登録語単語格納部１０６の語彙を確定することが可能となり、未登録語単語格納部１０６のメンテナンスが容易になるという効果が得られる。

また、本実施の形態１では、入力発声は単語発声であるものとして説明を述べてきたが、入力発声は文発声であっても構わない。この場合、未登録語判定部１０４において、文発声中に未登録語単語が含まれていないか、含まれている場合には、どの位置に未登録語単語があるかを判定する処理が必要となるが、その他の動作は全く同様である。

また、本実施の形態１では、未登録語候補検索部１０５は、５語の未登録語候補を出力するものとして説明したが、未登録語候補検索部１０５の未登録語検索精度に応じて、これを変更することは有効であり、また、各未登録語の類似度に応じて出力する候補数を、未登録語候補検索部１０５で可変としてもよい。したがって、未登録語候補検索部１０５の検索精度または検索された未登録語の未登録語スコアによっては、出力される未登録語候補の数は１つとなる場合もある。このような構成とすることで、候補リストに発話した単語があるか否かを、利用者に判断させる場合に、無用な負荷を利用者にかけずに済むという効果が得られる。

さらに、図９に示した出力の例では、全ての未登録語候補が同様に表示される例を示したが、結果表示部１０７における表示は、未登録語候補の未登録語スコアに応じてフォントサイズを変更するとしたり、字体をボールドにしたり、色を変更したりするといった手法によって、利用者の発話内容と思われる候補をより強調することも可能である。これによって、発話単語をリストから探す際の利用者の負荷を軽減する効果が得られる。

（実施の形態２）
次に、本発明の実施の形態２に係る音声認識装置について説明する。

図１２は、本実施の形態２に係る音声認識装置の機能的な構成を示すブロック図である。

図１２に示すように、音声認識装置２００は、音声認識部１０１、音声認識語彙格納部１０２、参照類似度計算部１０３、未登録語判定部１０４、未登録語候補検索部１０５、および、結果表示部１０７を備えている点で、上記実施の形態１に係る音声認識装置１００と共通する。しかし、本実施の形態２に係る音声認識装置２００は、未登録語クラス判定部２０１および未登録語クラス別単語格納部２０２を備えている点で、上記実施の形態１に係る音声認識装置１００と異なる。以下、この異なる点を中心に説明する。なお、上記実施の形態１と共通する各部には、同一の符号を付して、その説明を省略する。

未登録語クラス判定部２０１は、発話された単語が未登録語である場合に、利用者による発話内容やシステムの利用状況から、未登録語がどのようなカテゴリに属するものか判定を行なう処理部である。

未登録語クラス別単語格納部２０２は、未登録語単語をカテゴリ毎に分類して格納するハードディスク等の記憶装置である。

続いて、本実施の形態２に係る音声認識装置２００の動作について述べる。

本実施の形態２においても、利用者の発話内容が音声認識語彙格納部１０２に含まれる単語である場合、その動作は実施の形態１に示したものと同様である。

利用者の発話が未登録語であった場合には、参照類似度計算部１０３による参照類似度に基づいて、未登録語判定部１０４において未登録語判定が行なわれる。同時に未登録語クラス判定部２０１において、前記未登録語がどのようなカテゴリに属する単語であるかの判定が行なわれる。ここで、未登録語のカテゴリとは、たとえば図１３に示すように、芸能人名のような固有人名、番組タイトルのような固有タイトル名、名所・観光地のような固有地名などを指す。なお、未登録語クラス判定部２０１における未登録語カテゴリの判定方法については後述する。

利用者の発話した単語が未登録語であり、かつ、その単語がどのようなカテゴリに属する単語であるか推定されると、未登録語候補検索部１０５で未登録語の検索が行なわれる。この際、未登録語候補検索部１０５は、未登録語クラス判定部２０１によるクラス判定結果に基づいて、未登録語クラス別単語格納部２０２の検索範囲を絞り込んで、未登録語の検索を行なう。このようにして、音声認識装置２００は未登録語候補を取得すると、実施の形態１の場合と同様に結果表示部１０７を介して未登録語候補を利用者に提示する。

ここで、未登録語クラス判定部２０１の動作について、詳細に述べる。

利用者による発話が文発声である場合には、認識された文中の未登録語の前後の情報から、未登録語カテゴリの判定を行なうことができる。例えば、利用者の発話が「○○の出演している番組が見たい」であった場合には、「○○」は固有人名クラスの未登録語であるとみなし、「明日の△△を録画して」という発話に対しては、△△は番組タイトルクラスの未登録語であるとみなす。このように文の前後のコンテキストから、目的個所の単語のクラスを推定するモデルとしては、未登録語クラスを含んだクラスＮグラム言語モデルの利用が可能である。未登録語クラスを含んだクラスＮグラム言語モデルを利用する場合の未登録語クラス判定部の機能構成を図１４に示す。

図１４に示すように、クラスＮグラム言語モデルを利用する場合の未登録語クラス判定部２０１ａは、単語列仮説生成部２１１と、クラスＮグラム生成蓄積部２２１と、クラス依存単語Ｎグラム生成蓄積部２３１とを備える。

単語列仮説生成部２１１は、単語および未登録語クラスの系列を評価するクラスＮグラムと、未登録語クラスを構成する単語列を評価するクラス依存単語Ｎグラムとを参照して単語照合結果から単語列仮説を生成し、認識結果を取得する。

クラスＮグラム生成蓄積部２２１は、言語的な確率の対数値である言語尤度を未登録語クラスを含む文脈に付与するためのクラスＮグラムを生成し、生成したクラスＮグラムを蓄積する。

クラス依存単語Ｎグラム生成蓄積部２３１は、言語的な確率の対数値である言語尤度を未登録語クラス内の単語系列に付与するためのクラス依存単語Ｎグラムを生成し、生成したクラス依存単語Ｎグラムを蓄積する。

図１５に、クラスＮグラム生成蓄積部２２１の機能構成を示す。

図１５に示すように、クラスＮグラム生成蓄積部２２１は、認識対象となる文表現がテキストとして予め多数蓄積された文表現コーパス蓄積部２２２と、文表現を形態素解析する文表現用形態素解析部２２３と、単語列クラス定義を参照して形態素結果から、単語や未登録語クラスの連鎖の統計量を求めてクラスＮグラムを生成するクラスＮグラム生成部２２４と、クラスＮグラムを蓄積し、単語列仮説生成部２１１に出力するクラスＮグラム蓄積部２２５とから構成される。

文表現コーパス蓄積部２２２は、認識対象となる文表現のデータライブラリを予め多数蓄積する。

文表現用形態素解析部２２３は、文表現コーパス蓄積部２２２が蓄積している「明日の天気予報を録画して」などの比較的長い文表現であるテキストから、意味を有する最小の言語単位である形態素を解析する。

クラスＮグラム生成部２２４は、形態素に解析されたテキストに含まれる単語列を抽出し、後述するクラス依存単語Ｎグラム生成蓄積部２３１から入力される未登録語クラスを参照し、該当する未登録語クラスが存在する場合は、テキストに含まれる未登録語クラスを仮想的な単語に置き換え、単語又は未登録語クラスの連鎖の統計量を求めることで単語又は未登録語クラスの連鎖とその確率とを対応付けたクラスＮグラムを生成する。クラスＮグラム生成部２２４によって生成されたクラスＮグラムは、クラスＮグラム蓄積部２２５に蓄積される。

このように各単語連鎖の頻度を計測しておくことで、条件付き確率を計算でき、また、未登録語クラスは仮想的に１単語として扱うことができ、単語ごとに条件付き確率が付加された言語モデルとなる。

続いて、図１６に、クラス依存単語Ｎグラム生成蓄積部２３１の機能構成を示す。

図１６に示すように、クラス依存単語Ｎグラム生成蓄積部２３１は、クラスコーパス蓄積部２３２と、クラス用形態素解析部２３３と、クラス依存単語Ｎグラム生成部２３４と、クラス依存単語Ｎグラム蓄積部２３５と、未登録語クラス定義生成部２３６と、未登録語クラス定義蓄積部２３７とから構成される。

クラスコーパス蓄積部２３２は、意味的な性質や、構文的な性質が同一である未登録語（例えば、テレビ番組のタイトルや、人名等）のデータライブラリを予め蓄積する。

クラス用形態素解析部２３３は、クラスコーパスを形態素解析する。具体的には、クラス用形態素解析部１２２は、クラスコーパス蓄積部１２１が蓄積している「ＭＭＭ天気予報」の様なテレビ番組名などの比較的短く、共通の性質を持つ未登録語を、形態素単位に解析する。

クラス依存単語Ｎグラム生成部２３４は、形態素解析結果を処理し、単語の連鎖の統計量を求めて、単語列とその確率とを対応付けた情報であるクラス依存単語Ｎグラムを生成する。

クラス依存単語Ｎグラム蓄積部２３５は、クラス依存単語Ｎグラム生成部２３４が生成したクラス依存単語Ｎグラムを蓄積する。このクラス依存単語Ｎグラム蓄積部２３５に蓄積されたクラス依存単語Ｎグラムは、音声認識の際に単語列仮説生成部２１１に参照される。

未登録語クラス定義生成部２３６は、クラスコーパスの形態素解析結果から共通の性質を持つ未登録語をクラスとして定義した未登録語クラスの定義を生成する。すなわち、共通の性質を持つ未登録語を形態素解析し、得られた単語列を未登録語クラスの単語列とするクラスの定義を生成する。

未登録語クラス定義蓄積部２３７は、未登録語クラス定義生成部２３６が生成した未登録語クラス定義を蓄積する。この未登録語クラス定義は、上記クラスＮグラムの生成の際にクラスＮグラム生成蓄積部２２１のクラスＮグラム生成部２２４によって参照される。

以上のような構成を有する未登録語クラス判定部２０１ａにおいて利用されるクラスＮグラム言語モデルでは、一般的に、Ｉ個の単語からなる単語系列Ｗ₁．．．Ｗ_Iの生起する確率を単語ｎ連鎖の確率を用いて、下記の数式１のように定式化する。

ここで、Ｗ₁、Ｗ₂、．．．、Ｗ_Iは個々の単語を表わし、Ｃ₁、Ｃ₂、．．．、Ｃ_Iはそれぞれ対応する単語の属するクラスを意味する。

従って、Ｐ（Ｃ_j｜Ｃ_j-n+1，．．．，Ｃ_j-1）は、単語クラスのｎ連鎖が生起する確率を意味し、Ｐ（Ｗ_j｜Ｃ_j）はこのクラスＣ_jから具体的な単語Ｗ_jが生起する確率を意味する。ここで、クラスとは、単語の品詞や、さらにそれを細分化した単位など、単語の接続性を考慮したまとまりを意味する。

なお、このような一般的なクラスＮグラム言語モデルを用いる場合、Ｗ_jは未登録語であるため、未登録語クラスに対してＰ（Ｗ_j｜Ｃ_j）を予め求めておくことはできない。未登録語のためのＰ（Ｗ_j｜Ｃ_j）を持つモデルの１つが、上記図１４〜１６によって機能構成を示した、未登録語単語Ｗｊをより小さく基本的な単語の連鎖としてモデル化する方法である（特願２００３−２７６８４４号「連続音声認識装置および連続音声認識方法」参照。）。

このようなモデルを用いて未登録語のカテゴリを判定するモデルとする場合には、判定を行なう未登録語のカテゴリごとに「未登録語固有人名クラス」、「未登録語固有番組クラス」のようにクラスを定義して言語モデルのトレーニングを行なう。

このようなトレーニングによるｎ＝３とした言語モデルの例を図１７に示す。この例に示された言語モデルを用いると、「○○を録画」の生起する確率は、「○○」を固有番組名クラスの単語と考えた場合、

となる。

これに対して、「○○」を固有人名クラスと考えた場合、

となる。

すなわち、この場合、「○○」を固有番組名クラスと考えた方が、生起確率が高くなることから、これを固有番組名クラスと判定することができる。

全く同様に、「△△の出演」の生起する確率は、「△△」を固有番組名クラスと考えた場合、

となる。

これに対して、「△△」を固有人名クラスと考えた場合には、

となる。

すなわち、「△△」を固有人名クラスと考えた方が、生起確率が高くなることから、これを固有人名クラスと判定することができる。

このように、本実施の形態２に係る音声認識装置２００によれば、例えば、利用者の発話が「今日の“松下太郎”の出ている番組」であって「松下太郎」が未登録語であった場合、「松下太郎」を固有人名のクラスに属する未登録語と推定し、未登録語クラス別単語格納部２０２中の、固有人名クラスの未登録語単語格納部から未登録語候補の検索を行なう。そして、その検索の結果として取得した複数の未登録語候補を結果表示部１０７を介して利用者に提示し、既に示した図９のような応答を行なう。

これに対して、利用者の発話が「明日の“太陽を撃て”を録画して」であって、「太陽を撃て」が未登録語であった場合、「太陽を撃て」を固有番組名クラスに属する未登録語と推定し、未登録語クラス別単語格納部２０２中の、固有番組名クラスの未登録語単語格納部から未登録語候補の検索を行なう。そして、その検索の結果として取得した複数の未登録語候補、例えば、図１８に示すような未登録語固有番組クラスの単語候補を、結果表示部１０７を介して利用者に提示する。

このように未登録語の検索範囲を未登録語のカテゴリに応じて絞り込むことによる効果は、例えば、人物検索をしているにもかかわらず番組名を提示するといった、利用者が本来意図していなかったカテゴリの単語を未登録語として提示し、利用者を惑わせてしまうのを防止することができる点と、検索範囲を絞り込むことで未登録語の検索精度が向上する点を挙げることができる。

なお、本実施の形態２では、未登録語クラス判定部における未登録語カテゴリの判定方法として、クラスＮグラム言語モデルを用いた判定方法の例を示した。このような判定方法以外にも、この未登録語提示手段を搭載した音声認識システムを音声対話システムの入力インタフェースとして用いるような場合において、対話の文脈情報を利用する方法が可能である。この方法では、音声対話システムの対話管理部において、対話履歴情報から利用者が発話する可能性の高い単語カテゴリに関する推定情報を生成し、これを未登録語クラス判定部に伝達する。未登録語クラス判定部は、伝達された単語カテゴリに関する推定情報から、未登録語単語のカテゴリの判定を行なう。このような構成とする場合の未登録語クラス判定部のブロック図を、図１９に示す。

この場合、未登録語クラス判定部２０１ｂは、外部アプリケーションから発話単語のカテゴリを取得する単語カテゴリ情報受信部２４１と、単語カテゴリ情報受信部２４１の取得したカテゴリに基づいて、未登録語と判定された単語のカテゴリを決定する未登録語クラス決定部２４２とを備えている。このような構成を採ることによる効果は、未登録語カテゴリの判定をクラスＮグラム言語モデルを用いて行なう場合には、期待される入力発声が文発声でなければならなかったのに対して、対話管理部などアプリケーションでの推定結果を用いることで、入力音声が単語発声であってもカテゴリの判定ができることが挙げられる。

（実施の形態３）
続いて、本発明の実施の形態３に係る音声認識装置について説明する。

図２０は、本実施の形態３に係る音声認識装置の機能的な構成を示すブロック図である。

図２０に示すように、音声認識装置３００は、音声認識部１０１、音声認識語彙格納部１０２、参照類似度計算部１０３、未登録語判定部１０４、未登録語候補検索部１０５、および、結果表示部１０７を備えている点で、上記実施の形態１等に係る音声認識装置１００等と共通する。しかし、本実施の形態３に係る音声認識装置３００は、ネットワーク３０２を介して未登録語単語サーバ３０３と接続される未登録語単語格納部３０１を備えている点で、上記実施の形態１等に係る音声認識装置１００等と異なる。以下、この異なる点を中心に説明する。なお、上記実施の形態１等と共通する各部には、同一の符号を付して、その説明を省略する。

未登録語単語格納部３０１は、未登録語候補検索部１０５における未登録語検索の対象となる多数の未登録語を格納すると同時に、通信手段によってその格納情報を更新する機能を有する。

ネットワーク３０２は、インターネットや電話回線等の通信網である。

未登録語単語サーバ３０３は、必要な最新の未登録語単語を格納し、クライアント（ここでは、音声認識装置３００）からのリクエストに対して、これらの情報を提供するサーバ装置である。

次に、このように構成される音声認識装置３００の動作を説明する。

本実施の形態３における、利用者の発話に対する音声認識装置の出力のフローは、実施の形態１に示したものと同様である。実施の形態３における相異点は、未登録語候補検索部１０５が参照する未登録語単語格納部３０１のメンテナンス方法にある。

本実施の形態３において、未登録語単語格納部３０１は任意に更新可能なものとなっている。すなわち、固有人名や固有番組名など、日々変化し増加する単語を固定的に保持していたのでは、未登録語候補検索時に利用者の発話単語を検索できないという事態が起こり得る。例えば、テレビ放送における番組改変の時期や、プロスポーツにおける新しいシーズンの開始時期などにおいては、放映される番組タイトルに新しいタイトルが現われたり、新しい芸能人や新しいスポーツ選手名が登場したりするようになり、これらは未登録語となる。

そのため、未登録語単語格納部３０１に格納される単語を更新可能とし、これらの新しい未登録語を未登録語単語格納部３０１に格納することで、未登録語候補検索時に利用者が発話する単語を検索できないという事態を回避することができる。

未登録語単語格納部３０１に格納される単語の更新作業は、具体的には以下のようにして行なう。

未登録語単語格納部３０１に登録されていない未登録語が急増すると考えられる日を予め定めておき、この日が来ると自動的に未登録語単語更新要求を、電話回線やインターネットなどのネットワーク３０２を経由して、未登録語単語サーバ３０３に送信する。あるいは、常に未登録語単語格納部３０１が予め定められたスケジュールに従って更新を行なうだけでなく、未登録語登録の不足を感じた利用者が更新要求を行なうことによって、未登録語単語格納部３０１から未登録語単語サーバ３０３へ更新要求を送信する。さらにまた、未登録語単語格納部３０１が、常時、能動的に更新要求を未登録語単語サーバ３０３に送信するだけでなく、一定量の未登録語が追加されたことを検出した未登録語単語サーバ３０３が、各クライアントの未登録語単語格納部３０１へ更新情報を送信するとしてもよい。更新要求を受けた、または、新規の未登録語が規定量に達して更新が必要と判断した未登録語単語サーバ３０３は、追加された単語に関する情報を、クライアントの未登録語単語格納部３０１へ返信する。

このようにすれば、未登録語単語は、未登録語単語サーバ３０３上でのみ正しくメンテナンスされておればよく、各クライアントは、未登録語単語サーバ３０３にアクセスするための通信手段だけ有していれば、常に未登録語単語格納部３０１を最適な状態に維持することができる。

また、このように、外部のサーバから新たな未登録語を提供することにより、日々増加する固有人名や固有タイトルのような未登録語について、これらを未登録語単語格納部３０１に登録する手間を利用者に要求することなく、未登録語単語格納部３０１を最適な状態に保つことが可能となるという効果を得ることができる。

なお、本実施の形態３では、最適にメンテナンスされた、単語を更新する作業専用の未登録語単語サーバ３０３に従って未登録語単語格納部３０１が格納する単語を更新するものとしたが、更新作業専用に特化されていないサーバが持つ情報を使って、単語更新することも可能である。

例えば、テレビ放送においては、ＥＰＧ(Electronic Program Guide)と呼ばれる電子番組表が放送波に合わせて送信されている。ここに記録された出演者名や番組タイトルを自動抽出し、これを未登録語単語格納部３０１に格納することが可能である。同様にインターネットのＷＥＢサービスでは、芸能人に関する情報が記載されたサイトや、番組に関する情報が記載されたサイトなどが多数存在する。これらを順次巡回することで必要な情報を収集し、未登録語単語格納部３０１に格納することも可能である。さらに利用者による過去の未登録語参照履歴から、利用者が発話する可能性の少ないジャンル、たとえばプロ野球選手名、外国映画俳優名、日本映画タイトルなどのジャンル情報を予め抽出しておき、これら抽出されたジャンルの未登録語は、未登録語単語サーバ３０３から取得しないようにすることも可能である。これにより、未登録語単語格納部３０１を無用に肥大化させるのを防ぐという効果を得ることもできる。

また、音声認識語彙格納部１０２に格納される単語を更新する変形も考えられる。この変形の具体例として、図外に設けられるサーバが、利用者によって近い将来に発話される可能性が高いと考えられる単語を選択し、選択された単語に関して音声認識語彙格納部１０２の内容を更新してもよい。そのような単語として、例えば、この音声認識装置３００が録画予約システムに適用される場合、前述したＥＰＧに記録された出演者名や番組タイトルの中から１週間以内に放送予定の番組に関連する単語を好適に用いることができる。そして、そのサーバは、抽出された単語の認識に音声認識部１０１が用いる情報を生成し、生成された情報で音声認識語彙格納部１０２の内容を更新する。

このような更新操作は、未登録語単語サーバ３０３からネットワーク３０２を経由して未登録語単語格納部３０１の内容を更新する操作と、全く同様に行うことができる。好ましくは、日々、過去の放送予定となった番組に関連する単語の認識用の情報を削除すると共に、１週間先の放送予定の番組に関連する単語の認識用の情報を追加してもよい。

この構成によれば、登録語の使用頻度が予め知られた時間変動を見せる場合に、その変動に追従して外部から与えられる認識用の情報（音声認識語彙）を用いて、高い使用頻度が見込まれる比較的少数の認識用情報のみを音声認識語彙格納部１０２に記憶させておくことができるので、認識時間を短縮すると共に良好な認識率を得ることが容易となる。

（実施の形態４）
さらに続いて、本発明の実施の形態４に係る音声認識装置について説明する。

図２１は、本発明の実施の形態４に係る音声認識装置の機能的な構成を示すブロック図である。

図２１に示すように、音声認識装置４００は、音声認識部１０１、音声認識語彙格納部１０２、参照類似度計算部１０３、未登録語判定部１０４、および、結果表示部１０７を備えている点で、上記実施の形態１〜３に係る音声認識装置１００等と共通する。しかし、本実施の形態４に係る音声認識装置４００は、ネットワーク４０２を介して未登録語検索サーバ４０３と接続される未登録語検索要求送受信部４０１を備えている点で、上記実施の形態１〜３に係る音声認識装置１００等と異なる。以下、この異なる点を中心に説明する。なお、上記実施の形態１等と共通する各部には、同一の符号を付して、その説明を省略する。

未登録語検索要求送受信部４０１は、ネットワーク４０２を経由して、未登録語の検索要求を未登録語検索サーバ４０３に送信し、未登録語検索サーバ４０３から未登録語の検索結果を受信する処理部であり、通信インタフェース等によって実現される。この未登録語検索要求送受信部４０１は、未登録語の検索が必要となった場合に、実施の形態１で述べたような参照類似度計算部１０３で求めたサブワード系列や、入力音声の未登録語部分のパラメータなど、未登録語発話個所の発話内容を表わす情報をネットワーク４０２を経由して未登録語検索サーバ４０３に送信し、また、未登録語検索サーバからの返信を未登録語検索結果として、結果表示部１０７に出力する。

ネットワーク４０２は、インターネットや電話回線等の通信網である。

未登録語検索サーバ４０３は、クライアント（音声認識装置４００）からの要求に応じて未登録語の検索を行なうサーバ装置であり、未登録語検索部４０４と未登録語単語格納部４０５とを備える。

未登録語検索部４０４は、未登録語検索を行なう処理部であるとともに、未登録語に関する情報をネットワーク４０２を介してクライアントから受信し、その検索結果をネットワーク４０２を経由して返信する通信機能も有している。

未登録語単語格納部４０５は、未登録語単語に関する情報を格納するハードディスク等の記憶装置である。

次に、このように構成される音声認識装置４００の動作を説明する。

本実施の形態４における、利用者の発話に対する音声認識装置の出力のフローは、実施の形態１に示したものと同様である。実施の形態４における相異点は、実施の形態１における未登録語候補検索部１０５を内部に持たずに、未登録語候補の検索作業を外部のサーバに委託する点である。

すなわち、利用者による発話に未登録語が含まれていたと判断された場合には、参照類似度計算部１０３で求められた未登録語個所のサブワード系列を、未登録語検索要求送受信部４０１が未登録語検索サーバ４０３に送信する。クライアントから未登録語個所のサブワード系列を受信した未登録語検索部４０４は、未登録語単語格納部４０５に格納された単語群から、利用者により発話された未登録語の検索を行なう。ここで、サブワード系列を用いて未登録語を検索する方法は、上記した実施の形態１で図１０を用いて説明した方法などが有効である。このようにして得られた検索結果は、未登録語候補としてネットワーク４０２を経由して未登録語検索要求送受信部４０１に返される。未登録語検索要求送受信部４０１は、返信された未登録語検索結果を結果表示部１０７に渡し、結果表示部１０７を介して利用者の発話した単語が未登録語であったことを利用者に提示する。

以上のように、未登録語検索を行なう処理を外部のサーバに代替して行なわせ、リモートに配置することにより、日々変化し、また増大する未登録語単語格納部のメンテナンスを一元化して、維持コストを低く抑えることが可能になるという効果を得ることができる。

また、大語彙のリストの中から目的の単語の検索を行なうには、大きな計算リソースが必要であるところ、このような作業を外部に委託することにより、音声認識装置自体のハードウェア構成をコンパクトにすることができるという効果も得られる。

また反対に、サーバ側では一般に比較的大きなハードウェア構成とすることが可能であるから、携帯端末等のクライアント側に搭載するのは、ハードウェア構成として難しいような未登録語の検索アルゴリズムを実装することが可能となり、未登録語の検索精度を高めることも実現可能となりうる。

なお、上記実施の形態４では、未登録語検索のための検索データとしてサブワード系列を用いる例を示したが、実施の形態１でも述べたように、利用者による発話音声そのものや、そこから抽出した音響パラメータを用いて未登録語検索を行なうように、未登録語検索サーバを実現することも可能である。

本発明は、機器への入力手段として音声認識技術を利用する種々の電子機器、例えばテレビ、ビデオ等のＡＶ機器、カーナビゲーションシステムなどの車載器、ＰＤＡや携帯電話などの携帯端末器等に利用することができ、その産業上の利用可能性は、非常に広く、かつ、大きい。

図１は、本発明の実施の形態１に係る音声認識装置の機能的な構成を示すブロック図である。図２は、本実施の形態１に係る音声認識装置の動作を示すフローチャートである。図３は、本実施の形態１に係る認識語彙発話時の音声認識部の出力例を示す図である。図４は、本実施の形態１に係る認識語彙発話時の参照類似度計算部の出力例を示す図である。図５は、本実施の形態１に係る認識語彙発話時の結果表示例を示す図である。図６は、本実施の形態１に係る未登録語発話時の音声認識部の出力例を示す図である。図７は、本実施の形態１に係る未登録語発話時の参照類似度計算部の出力例を示す図である。図８は、本実施の形態１に係る未登録語候補検索部の出力例を示す図である。図９は、本実施の形態１に係る未登録語発話時の結果表示例を示す図である。図１０は、本実施の形態１に係る未登録語検索時の音素系列間類似度の計算方法を示す図である。図１１は、未知発話検出装置の機能的な構成を示すブロック図である。図１２は、本発明の実施の形態２に係る音声認識装置の機能的な構成を示すブロック図である。図１３は、本実施の形態２に係る未登録語カテゴリの例を示す図である。図１４は、クラスＮグラム言語モデルを利用する未登録語クラス判定部の機能構成を示すブロック図である。図１５は、クラスＮグラム生成蓄積部の機能構成を示すブロック図である。図１６は、クラス依存単語Ｎグラム生成蓄積部の機能構成を示すブロック図である。図１７は、本実施の形態２に係る未登録語クラス判定のためのクラスＮグラム言語モデルの例を示す図である。図１８は、本実施の形態２に係る異なるクラスの未登録語の発話時の結果表示例を示す図である。図１９は、本実施の形態２に係る外部アプリケーションから未登録語クラス判定のための情報を取得する、未登録語クラス判定部の構成を示す図である。図２０は、本発明の実施の形態３に係る音声認識装置の機能的な構成を示すブロック図である。図２１は、本発明の実施の形態４に係る音声認識装置の機能的な構成を示すブロック図である。

符号の説明

１００、２００、３００、４００音声認識装置
１０１音声認識部
１０２音声認識語彙格納部
１０３参照類似度計算部
１０４未登録語判定部
１０５未登録語候補検索部
１０６、３０１未登録語単語格納部
１０７結果表示部
１１１音声片パタン格納部
１１２単語辞書格納部
１１３単語マッチング部
１１４遷移確率格納部
１１５音声系列マッチング部
１１６候補スコア差計算部
１１７候補・音素系列間類似度計算部
１１８候補・音声系列スコア差計算部
１１９候補・音声系列・音素系列類似度計算部
２０１、２０１ａ、２０１ｂ未登録語クラス判定部
２０２未登録語クラス別単語格納部
２１１単語列仮説生成部
２２１クラスＮグラム生成蓄積部
２２２文表現コーパス蓄積部
２２３文表現用形態素解析部
２２４クラスＮグラム生成部
２２５クラスＮグラム蓄積部
２３１クラス依存単語Ｎグラム生成蓄積部
２３２クラスコーパス蓄積部
２３３クラス用形態素解析部
２３４クラス依存単語Ｎグラム生成部
２３５クラス依存単語Ｎグラム蓄積部
２３６未登録語クラス定義生成部
２３７未登録語クラス定義蓄積部
２４１単語カテゴリ情報受信部
２４２未登録語クラス決定部
３０２、４０２ネットワーク（通信手段）
３０３未登録語単語サーバ
４０１未登録語検索要求送受信部
４０３未登録語検索サーバ
４０４未登録語検索部
４０５未登録語単語格納部

Claims

発話された音声を認識して当該認識の結果を提示する音声認識装置であって、
音声認識のための語彙を定義し、登録語として記憶する音声認識用単語記憶手段と、
前記発話された音声と、前記音声認識用単語記憶手段に記憶されている登録語とを照合する音声認識手段と、
前記発話された音声との類似度が最も高くなる、音響の単位となるサブワードを組み合わせてなる系列を探索し、当該探索された系列に関する参照類似度を求める参照類似度計算手段と、
前記音声認識手段で照合された前記登録語と前記発話された音声との類似度と、前記参照類似度計算手段で求められた前記参照類似度とを比較することで、前記発話された音声が、前記音声認識用単語記憶手段に記憶されている登録語であるか、記憶されていない未登録語であるかを判定する未登録語判定手段と、
前記未登録語を記憶する未登録語単語記憶手段と、
前記未登録語判定手段で未登録語と判定された場合に、前記発話された音声に基づいて、前記発話された音声に対応すると思われる未登録語候補を、前記未登録語単語記憶手段に記憶されている未登録語の中から検索する未登録語候補検索手段と、
前記発話された音声が未登録語である旨とともに、前記検索結果を表示する結果表示手段とを備える
ことを特徴とする音声認識装置。
前記未登録語候補検索手段は、
複数の未登録語候補を、前記未登録語単語記憶手段に記憶されている未登録語の中から検索する
ことを特徴とする請求項１記載の音声認識装置。
前記未登録語単語記憶手段は、
前記未登録語の属するカテゴリに応じて、前記カテゴリごとに分類して前記未登録語を記憶している
ことを特徴とする請求項１または２記載の音声認識装置。
前記音声認識装置は、さらに、
前記発話された音声に基づいて、前記未登録語の属するカテゴリを判定する未登録語クラス判定手段を備える
ことを特徴とする請求項３記載の音声認識装置。
前記未登録語候補検索手段は、
前記未登録語クラス判定手段の判定結果に基づいて、前記未登録語候補を、前記未登録語単語記憶手段における分類されたカテゴリの中から検索する
ことを特徴とする請求項４記載の音声認識装置。
前記音声認識装置は、さらに、
前記カテゴリに関する情報を取得する情報取得手段を備え、
前記未登録語候補検索手段は、
前記情報取得手段が取得した情報に基づいて、前記未登録語候補を、前記未登録語単語記憶手段における分類されたカテゴリの中から検索する
ことを特徴とする請求項３記載の音声認識装置。
前記結果表示手段は、
前記未登録語候補検索手段における検索結果から前記音声認識用単語記憶手段に記憶されている登録語を除外して、前記検索結果を表示する
ことを特徴とする請求項１記載の音声認識装置。
前記未登録語候補検索手段は、前記発話された音声との類似する度合いを数値化した未登録語スコアを計算することにより、前記未登録語候補を検索する
ことを特徴とする請求項１記載の音声認識装置。
前記結果表示部は、前記検索結果として、前記未登録語候補とその未登録語スコアとを表示する
ことを特徴とする請求項８記載の音声認識装置。
前記結果表示部は、前記未登録語スコアに応じて、前記未登録語候補の表示を変更する
ことを特徴とする請求項９記載の音声認識装置。
前記未登録語単語記憶手段に記憶されている未登録語は、所定の条件下で更新される
ことを特徴とする請求項１記載の音声認識装置。
前記音声認識装置は、さらに、
前記未登録語単語記憶手段に記憶されていない未登録語群を記憶する未登録語単語サーバと通信する通信手段を備え、
前記通信手段が前記未登録単語サーバから前記未登録語群を受信することによって、前記未登録語単語記憶手段に記憶されている未登録語を更新する
ことを特徴とする請求項１１記載の音声認識装置。
前記音声認識用単語記憶手段に記憶されている登録語は、所定の条件下で更新される
ことを特徴とする請求項１記載の音声認識装置。
発話された音声を認識して当該認識の結果を提示する音声認識システムであって、
前記音声認識システムは、
発話された音声を認識する音声認識装置と、前記音声認識装置に登録されていない未登録語を検索する未登録語検索サーバとを備え、
前記音声認識装置は、
音声認識のための語彙を定義し、登録語として記憶する音声認識用単語記憶手段と、
前記発話された音声と、前記音声認識用単語記憶手段に記憶されている登録語とを照合する音声認識手段と、
前記発話された音声との類似度が最も高くなる、音響の単位となるサブワードを組み合わせてなる系列を探索し、当該探索された系列に関する参照類似度を求める参照類似度計算手段と、
前記音声認識手段で照合された前記登録語と前記発話された音声との類似度と、前記参照類似度計算手段で求められた前記参照類似度とを比較することで、前記発話された音声が、前記音声認識用単語記憶手段に記憶されている登録語であるか、記憶されていない未登録語であるかを判定する未登録語判定手段と、
前記未登録語判定手段で未登録語と判定された場合に、前記未登録検索サーバに、前記発話された音声に対応すると思われる未登録語候補の検索を要求する検索要求送信手段と、
前記未登録語検索サーバから前記未登録語候補の検索結果を取得する検索結果受信手段と、
前記発話された音声が未登録語である旨とともに、前記検索結果を表示する結果表示手段とを備え、
前記未登録語検索サーバは、
前記未登録語を記憶する未登録語単語記憶手段と、
前記検索要求送信手段から前記検索要求を受信する検索要求受信手段と、
前記検索要求受信手段が前記検索要求を受信した場合に、前記発話された音声に基づいて、前記発話された音声に対応すると思われる未登録語候補を、前記未登録語単語記憶手段に記憶されている未登録語の中から検索する未登録語候補検索手段と、
前記検索結果を前記音声認識装置に送信する検索結果送信手段とを備える
ことを特徴とする音声認識システム。
発話された音声を認識して当該認識の結果を提示する音声認識装置と、前記音声認識装置に登録されていない未登録語を検索する未登録語検索サーバとから構成される音声認識システムにおける音声認識装置であって、
音声認識のための語彙を定義し、登録語として記憶する音声認識用単語記憶手段と、
前記発話された音声と、前記音声認識用単語記憶手段に記憶されている登録語とを照合する音声認識手段と、
前記発話された音声との類似度が最も高くなる、音響の単位となるサブワードを組み合わせてなる系列を探索し、当該探索された系列に関する参照類似度を求める参照類似度計算手段と、
前記音声認識手段で照合された前記登録語と前記発話された音声との類似度と、前記参照類似度計算手段で求められた前記参照類似度とを比較することで、前記発話された音声が、前記音声認識用単語記憶手段に記憶されている登録語であるか、記憶されていない未登録語であるかを判定する未登録語判定手段と、
前記未登録語判定手段で未登録語と判定された場合に、前記未登録検索サーバに、前記発話された音声に対応すると思われる未登録語候補の検索を要求する検索要求送信手段と、
前記未登録語検索サーバから前記未登録語候補の検索結果を取得する検索結果受信手段と、
前記発話された音声が未登録語である旨とともに、前記検索結果を表示する結果表示手段とを備える
ことを特徴とする音声認識装置。
発話された音声を認識して当該認識の結果を提示する音声認識方法であって、
前記発話された音声と、音声認識のための語彙を定義し、登録語として記憶する音声認識用単語データベースに記憶されている登録語とを照合する音声認識ステップと、
前記発話された音声との類似度が最も高くなる、音響の単位となるサブワードを組み合わせてなる系列を探索し、当該探索された系列に関する参照類似度を求める参照類似度計算ステップと、
前記音声認識ステップにおいて照合された前記登録語と前記発話された音声との類似度と、前記参照類似度計算ステップにおいて求められた前記参照類似度とを比較することで、前記発話された音声が、前記音声認識用単語データベースに記憶されている登録語であるか、記憶されていない未登録語であるかを判定する未登録語判定ステップと、
前記未登録語判定ステップで未登録語と判定された場合に、前記発話された音声に基づいて、前記発話された音声に対応すると思われる未登録語候補を、前記未登録語を記憶する未登録語単語データベースに記憶されている未登録語の中から検索する未登録語候補検索ステップと、
前記発話された音声が未登録語である旨とともに、前記検索結果を表示する結果表示ステップとを含む
ことを特徴とする音声認識方法。
発話された音声を認識して当該認識の結果を提示する音声認識装置のためのプログラムであって、
前記発話された音声と、音声認識のための語彙を定義し、登録語として記憶する音声認識用単語データベースに記憶されている登録語とを照合する音声認識ステップと、
前記発話された音声との類似度が最も高くなる、音響の単位となるサブワードを組み合わせてなる系列を探索し、当該探索された系列に関する参照類似度を求める参照類似度計算ステップと、
前記音声認識ステップにおいて照合された前記登録語と前記発話された音声との類似度と、前記参照類似度計算ステップにおいて求められた前記参照類似度とを比較することで、前記発話された音声が、前記音声認識用単語データベースに記憶されている登録語であるか、記憶されていない未登録語であるかを判定する未登録語判定ステップと、
前記未登録語判定ステップで未登録語と判定された場合に、前記発話された音声に基づいて、前記発話された音声に対応すると思われる未登録語候補を、前記未登録語を記憶する未登録語単語データベースに記憶されている未登録語の中から検索する未登録語候補検索ステップと、
前記発話された音声が未登録語である旨とともに、前記検索結果を表示する結果表示ステップとをコンピュータに実行させる
ことを特徴とするプログラム。