JP2014056216A

JP2014056216A - 音声認識装置、音声認識方法、及び、プログラム

Info

Publication number: JP2014056216A
Application number: JP2012202393A
Authority: JP
Inventors: Ryosuke Isotani; 亮輔磯谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-09-14
Filing date: 2012-09-14
Publication date: 2014-03-27

Abstract

【課題】言語モデルに新たに登録した単語が精度よく認識される音声認識装置を提供する。
【解決手段】単語の集合および単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶部と、新規に登録する単語である新規登録単語と新規登録単語を含む音声データとを用いて新規登録単語に付随するパラメータを決定し、新規登録単語、及び、新規登録単語に付随するパラメータを確率的言語モデルに登録する言語モデル更新部３とを有し、言語モデル更新部３は、新規登録単語に付随するパラメータを決定する際、音声データ中の新規登録単語部分が正しく認識されるパラメータを特定し、特定したパラメータを新規登録単語に付随するパラメータとして決定する音声認識装置１０。
【選択図】図１

Description

本発明は、音声認識装置、音声認識方法、及び、プログラムに関する。

近年、音声で入力した文をテキストに変換する音声認識装置が実用化されている。このような音声認識装置には、確率的言語モデルを用いた連続音声認識技術が広く使用されている。

確率的言語モデルは、一般に大規模なテキストコーパスから学習することによりあらかじめ作成され提供される。言語モデルに含まれる語彙、すなわち音声認識辞書は、学習に用いたテキストコーパスに含まれる単語から作成され、数万語以上の単語を含むことが多いが、それでも固有名詞や新語などユーザの発声しうるあらゆる単語をカバーすることはできず、ユーザが言語モデルの語彙にない単語を含む文を発声することがある。音声認識辞書に含まれない単語は未知語と呼ばれ、誤認識の原因となる。

未知語を認識できるようにするには、未知語を言語モデルに追加登録する必要がある。その際、未知語が正しく認識されるようにするためには、その未知語を音声認識辞書に追加するのに加え、さらに未知語に対して言語モデルとして適切なパラメータを割り当てる必要がある。

従来、単語（未知語）を言語モデルに追加登録する方法として、特許文献１に記載の方法が知られている。当該技術では、未知語および該未知語が属する単語クラスを入力する入力手段と、単語クラスごとに未知語に対して割り当てるパラメータを記憶しておく記憶手段と、確率的言語モデルに登録されている既知語およびそのパラメータを単語クラスごとに分類する手段を有し、当該単語クラスごとに分類された既知語のパラメータに基づいてあらかじめ定めた演算式にしたがって前記記憶手段に記憶するパラメータを取得する演算手段を有する。

特許第３９０７８８０号公報

上記特許文献１の方法では、認識させたい未知語を登録しても、その語に対する言語モデルのパラメータが適切に割り当てられず、発声しても認識されないことがあるという問題点がある。その理由は、未知語にパラメータを割り当てる処理において、既に言語モデルに登録されている既知語中の同音語や類似語の言語モデルパラメータとの関係が考慮されないためである。たとえば、登録する未知語と同音の既知語が既に登録されており、その語に未知語に割り当てたパラメータよりも大きな（よい）言語モデルパラメータがもともと割り当てられていると、常にその既知語の方が優先的に認識結果とされることとなる。このため、登録した未知語を発声した場合であっても、その既知語として認識されてしまい、新たに登録した未知語として正しく認識されないという問題が発生しうる。

本発明の目的は、かかる課題を解決し、言語モデルに新たに登録した単語が精度よく認識される音声認識装置を提供することにある。

本発明によれば、
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶手段と、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新手段と、
を有し、
前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する前記音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定し、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定する音声認識装置が提供される。

また、本発明によれば、
コンピュータが、
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶しておき、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新ステップを実行し、
前記言語モデル更新ステップで前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定し、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定する音声認識方法が提供される。

また、本発明によれば、
コンピュータを、
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶手段、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新手段、
として機能させ、
前記言語モデル更新手段に、前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定させ、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定させるプログラムが提供される。

本発明によれば、言語モデルに新たに登録した単語が精度よく認識できるようになる。

本実施形態の音声認識装置の機能ブロック図の一例である。本実施形態の音声認識装置の機能ブロック図の一例である。

以下、本発明の実施の形態について図面を用いて説明する。

なお、本実施形態の装置は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされたプログラム（あらかじめ装置を出荷する段階からメモリ内に格納されているプログラムのほか、ＣＤ等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む）、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インタフェイスを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

また、本実施形態の説明において利用する機能ブロック図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、各装置は１つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。

＜第１の実施形態＞
まず、本発明の第１の実施の形態について図面を参照して詳細に説明する。

図１を参照すると、本実施形態の音声認識装置１０は、音声入力部１と、登録単語入力部２と、言語モデル更新部３と、音声認識部４とを含む。これらの部はそれぞれ概略つぎのように動作する。

音声入力部１は、マイク等の機器あるいは電話等の通信回線経由で音声信号を取り込み、必要に応じてＡ／Ｄ変換、符号化音声の復号、雑音除去、音声分析などの前処理を行い、特徴量の時系列データを出力する。音声信号を取り込むかわりに、デジタル化された音声データや前処理済みの特徴量データを記憶媒体から読みこむ構成もありうる。以下では、音声入力部１が出力する特徴量の時系列データを入力音声データと称する。

登録単語入力部２は、ユーザが音声認識辞書に登録したい単語（新規登録単語）の情報を入力する手段を提供する。新規登録単語の情報としては、表記、読み、品詞等のカテゴリなどがありうる。入力手段としては、キーボード入力、ファイルからの読み込み、外部のデータベースからの取得などが考えられる。

音声認識装置１０は、音声認識モードと単語登録モードの２つのモードを有し、音声入力部１が出力する入力音声データは、音声認識モードでは音声認識部４に、単語登録モードでは言語モデル更新部３に入力される。

音声認識モードでは、音声認識部４が音声入力部１から入力音声データを受け取り、言語モデル５と音響モデル６を用いて音声認識を行い、結果の単語列を音声認識結果テキストとして出力する。

言語モデル５は、単語の集合および単語各々に付随するパラメータを保持する確率的言語モデルであり、確率的言語モデル記憶部に記憶されている。言語モデル５としては、例えば、単語Ｎ−ｇｒａｍモデル、クラス言語モデルなどを用いることができる。音響モデル６としては、隠れマルコフモデルなどを用いることができる。これらの技術は当業者には周知であるため、ここでは詳細な説明は省略する。

単語登録モードでは、登録単語入力部２によって新規登録単語の情報の入力を受け付けるとともに、ユーザにその単語もしくはその単語を含む文を音声で入力するよう促すなどすることで入力された音声信号を音声入力部１により取り込む。登録単語入力部２で入力を受け付けた新規登録単語の情報は、音声入力部１からの入力音声データとともに、言語モデル更新部３に渡される。

言語モデル更新部３は、新規に登録する単語である新規登録単語と新規登録単語を含む音声データとを用いて新規登録単語に付随するパラメータを決定し、新規登録単語、及び、新規登録単語に付随するパラメータを確率的言語モデルに登録する。

すなわち、言語モデル更新部３は、新規登録単語を言語モデル５の語彙（音声認識辞書）に登録するとともに、入力音声データと音響モデル６を参照して、その入力音声データに対して音声認識を行ったときに新規登録単語が正しく認識されるように当該単語に付随するパラメータを決定し、言語モデル５に登録する。

なお、言語モデル更新部３は、新規登録単語に付随するパラメータを決定する際、新規登録単語、及び、新規登録単語に付随する仮のパラメータを確率的言語モデルに仮登録し、当該確率的言語モデルを用いて音声データに対して音声認識処理を行うシミュレーションにより、音声データに対する音声認識処理の認識結果に新規登録単語が含まれることとなるパラメータを特定し、特定したパラメータを新規登録単語に付随するパラメータとして決定してもよい。上記シミュレーションにおける音声認識処理は、音声認識部４が行う音声認識処理と同じ条件で行われるのが好ましい。言語モデル更新部３が決定するパラメータは、そのパタメータの具体的な値である。

以下、言語モデル更新部３の動作について、具体的な実施例に基づいてより詳細に説明する。

言語モデル５として、クラス言語モデルの一種であるクラスバイグラムモデルを例にとって説明する。クラスとしては品詞を用いる。品詞のかわりに、品詞を細分化した「地名」、「人名」などのクラスを用いることもできる。あるいは、「未知語」というクラスを用いて、新規登録単語はすべて「未知語」クラスに属するものとして扱うこともできる。クラスバイグラムモデルでは、単語ｗ_i-1の次に単語ｗ_iがくる単語バイグラム確率を次式で近似する。

ここで、Ｃ_iは単語ｗ_iの属するクラスである。言語モデル５は、表記、読み、品詞情報つきの単語の集合である音声認識辞書と、クラス間の連接確率Ｐ（Ｃ_i｜Ｃ_i-1）の値のテーブルと、単語に付随するパラメータとして音声認識辞書中の各単語ｗについてのその品詞内での出現確率Ｐ（ｗ｜Ｃ）の値を保持する。Ｐ（ｗ｜Ｃ）の値が大きいほど、その単語は認識結果として出やすくなる。Ｐ（ｗ｜Ｃ）の値が小さすぎると、その単語を含む文を発声しても正しく認識されず、逆に大き過ぎると、その単語を発声していないにも関わらず、誤ってその単語が認識結果に表れることになる。

登録単語入力部２は、新規登録単語の情報として、その単語の表記、読み、クラス（品詞）の入力を受け付ける。たとえば、表記が「鈴木」、読みが「すずき」、クラスが「人名」である単語が入力されたとする。言語モデル更新部３は、入力された単語の表記、読み、品詞の組を言語モデル５の語彙に追加する。言語モデル更新部３は、音響モデル、言語モデルを参照して、新規登録単語を含む入力音声データ、たとえば「私の名前は鈴木です」と発声した音声データを音声認識部４と同じ条件（同じ言語モデル５及び同じ音響モデル６）で認識し、認識結果を求める。認識結果は、一般に単語列として得られる。このとき、新規登録単語についてのＰ（ｗ｜Ｃ）の値については、十分小さな値から十分大きな値までの複数個の候補値をあらかじめ用意しておき、それぞれの値に仮置きして音声認識結果を求める。Ｐ（ｗ｜Ｃ）の値によって、たとえば「私／の／名前／は／好き／です」、「私／の／名前／は／鈴木／です」などの認識結果が得られる。ここで記号「／」は単語区切りを表す。そして、上記入力音声データ中の新規登録単語部分が正しく認識される（上記入力音声データに対する音声認識処理の認識結果単語列中に新規登録単語が含まれる）Ｐ（ｗ｜Ｃ）の値のいずれかを、当該新規登録単語のパラメータとして決定し、言語モデル５に登録する。上記の例では、認識結果単語列中に「鈴木」という単語が含まれるようなＰ（ｗ｜Ｃ）の値のいずれかを登録する。

入力音声データ中の新規登録単語部分が正しく認識されるＰ（ｗ｜Ｃ）の値が複数ある場合、いずれを当該新規登録単語に付随するパラメータとして言語モデル５に登録するかは設計的事項である。しかし、一般に、Ｐ（ｗ｜Ｃ）の値が小さいとその単語は認識結果には出現せず、Ｐ（ｗ｜Ｃ）がある値以上になると、認識結果に出現するようになる。そこで、上記入力音声データ中の新規登録単語部分が正しく認識されるＰ（ｗ｜Ｃ）の値のうち、最も小さな値を選択して、言語モデル５に登録してもよい。このとき余裕をみて、上記最も小さな値に一定値を上乗せした値を登録することもできる。

なお、上述のように複数のパラメータの候補をあらかじめ用意しておき、各々を用いて音声認識を行うシミュレーションに代えて、以下のような手段を採用することもできる。

ある一つのあらかじめ決めた仮のＰ（ｗ｜Ｃ）の値を用いて音声認識を行い、２位以下の候補を含めた複数の認識結果候補（Ｎベスト)をスコア（類似度）つきで求める。そして、新規登録単語が含まれる認識結果候補のうちスコア（類似度）が最上位のものと、その新規登録単語を含まない認識結果候補のうちスコア（類似度）が最上位のものとのスコア差をもとに、その単語が含まれる認識結果候補が認識結果（１位認識結果）になるようなＰ（ｗ｜Ｃ）の値を求めることも可能である。たとえば、前者のスコアが後者のスコアより小さければ、その差に相当する値より大きな値をあらかじめ決めた上記仮のＰ（ｗ｜Ｃ）の値に加えることで、当該新規登録単語に付随するパラメータとして言語モデル５に登録する値を決定することができる。新規登録単語についてＰ（ｗ｜Ｃ）をあらたに登録するのに加え、同じクラスＣに属するすべての単語についてのＰ（ｗ｜Ｃ）の和が１になるよう、同じクラスＣに属する他の単語についてのＰ（ｗ｜Ｃ）の値を一定割合減じてもよい。

言語モデル更新部３では、登録単語入力部２が入力を受け付けた新規登録単語を言語モデル５の語彙に追加する前に、その単語が言語モデル５の語彙に含まれている単語のいずれかと一致するか否かを調べ、一致するものがあれば、その新規登録単語を言語モデル５に追加登録するかわりに、語彙中の一致した単語に付随するパラメータを上記のように決定した値に更新するようにしてもよい。

本実施形態によれば、登録した単語（未知語）が精度よく認識できるようになる。その理由は、実際にその語を含む音声の音声認識を行って、その語が認識結果に表れるように、その語に対する言語モデルパラメータを決定するからである。

＜第２の実施形態＞
次に、本発明の第２の実施の形態について、図面を参照して詳細に説明する。

図２を参照すると、本実施形態の音声認識装置１０は、音声入力部１０１と、登録単語入力部１０２と、単語・音声対応付け部１０７と、言語モデル更新部３と、音声認識部４とを含む。これらの部はそれぞれ概略つぎのように動作する。

音声入力部１０１は、マイク等の機器あるいは電話等の通信回線経由で音声信号を取り込み、必要に応じてＡ／Ｄ変換、符号化音声の復号、雑音除去、音声分析などの前処理を行い、特徴量の時系列データを出力するとともに、入力された音声信号あるいはそれに対し前処理を行った結果のデータを、タイムスタンプなどの付加情報とともに音声ファイル１０８に格納する。

音声認識部４の動作については、第１の実施形態と同様なので省略する。

登録単語入力部１０２は、ユーザが音声認識辞書に登録したい１つ以上の単語（新規登録単語）の情報を入力する手段を提供する。各新規登録単語の情報としては、表記、読み、品詞等のカテゴリなどがありうる。入力手段としては、キーボード入力、ファイルからの読み込み、外部のデータベースからの取得などが考えられる。

音声ファイル１０８には、音声データが格納されている（音声データ記憶部）。

単語・音声対応付け部１０７は、音声ファイル１０８を参照し、登録単語入力部１０２に入力された新規登録単語を含む音声データがあるか否かを判断し、ある場合には、その新規登録単語とその音声データとを対にして、言語モデル更新部３に入力する。

言語モデル更新部３は、単語・音声対応付け部１０７から新規登録単語とその新規登録単語を含む音声データの対を受け取り、言語モデル５を更新する。言語モデル更新部３の動作については、第１の実施形態と同様なので詳細は省略する。

なお、音声ファイル１０８の中に対応する音声データがない新規登録単語には、音声データと対にされることなく、新規登録単語だけで言語モデル更新部３に入力されてもよい。かかる場合、言語モデル更新部３は、当該新規登録単語に付随するパラメータとして、あらかじめ定められたパラメータの値を決定し、言語モデル５に登録してもよい。

また、音声ファイル１０８の中に対応する音声データが複数見付かった新規登録単語については、当該新規登録単語と複数の音声データとを対にして、言語モデル更新部３に入力されてもよい。かかる場合、言語モデル更新部３は、複数の音声データ各々を用いて第１の実施形態で説明したシミュレーションを行い、すべての音声データ中の新規登録単語部分が正しく認識されるパラメータを特定して、そのパラメータの値を、当該新規登録単語のパラメータとして決定してもよい。

以下、単語・音声対応付け部１０７の動作について、具体的な実施例に基づいてより詳細に説明する。

単語・音声対応付け部１０７は、音声ファイル１０８に格納されている音声データから、望ましくはタイムスタンプが一定時間前以降であるなどの条件で選択を行った上で、各音声データが、登録単語入力部１０２に入力された各新規登録単語を含むか否かを判断する。

ある音声がある新規登録単語を含むかどうかの判定には、たとえばワードスポッティング法を用いることができる。ワードスポッティング法は当業者には周知の技術であるため、詳細は省略する。あるいは、言語モデル５と音響モデル６を用いて判定する方法も考えられる。具体的には、言語モデル５に当該新規登録単語を仮のパラメータで登録した上で、音響モデル６と言語モデル５を用いて音声認識部４と同様の方法で音声認識を行い、２位以下の候補を含めた複数の認識結果候補を取得する。そして、複数の認識結果候補（単語列）の中に当該新規登録単語を含むものがあれば、当該音声データに当該新規登録単語が含まれていると判定する。このようにして、登録単語入力部１０２に入力された新規登録単語各々について、音声ファイル１０８の中に各新規登録単語を含む音声データがあるか否かを判定してもよい。

上記では、登録単語入力部１０２が新規登録単語の入力を受け付ける前に既に存在する音声ファイル１０８を利用する場合について述べたが、登録単語入力部１０２が新規登録単語の入力を受け付けた後に設けられた音声ファイルを用いることも考えられる。この場合は、単語・音声対応付け部１０７は、登録単語入力部１０２から新規登録単語の情報を受け取った後、音声ファイル１０８を監視し、新たにデータが一定量追加されたとき、それらの音声データを対象として、登録単語入力部１０２に入力された新規登録単語各々を含むか否かの判断を行い、結果を出力する。この処理は、一定量データが追加されるたび、あるいは一定時間ごとに繰り返してもよい。

本実施形態では、第１の実施形態と比べて、ユーザの利便性が向上する。その理由は、ユーザが新規登録単語を入力するたびに音声を入力しなくて済むからである。

また、本実施形態では、第１の実施形態と同様の作用効果を実現することができる。

＜＜付記＞＞
上記説明によれば、以下の発明の説明がなされている。
＜発明１＞
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶手段と、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新手段と、
を有し、
前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定し、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定する音声認識装置。
＜発明２＞
発明１に記載の音声認識装置において、
前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを決定する際、前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより、前記音声データに対する前記音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定する音声認識装置。
＜発明３＞
発明１又は２に記載の音声認識装置において、
音声データを格納する音声ファイルを記憶する音声データ記憶手段と、
前記新規登録単語の入力を受け付ける登録単語入力手段と、
前記音声ファイルを参照し、前記新規登録単語を含む前記音声データがあるか否かを判断し、ある場合には、その新規登録単語とその音声データとを対にして、前記言語モデル更新手段に入力する単語・音声対応付け手段と、
をさらに有する音声認識装置。
＜発明４＞
発明３に記載の音声認識装置において、
前記単語・音声対応付け手段は、
前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声ファイル中の各音声データに対して音声認識処理を行うことにより、前記音声ファイルの中に前記新規登録単語を含む音声データがあるか否かを判定する音声認識装置。
＜発明５＞
発明２に記載の音声認識装置において、さらに、
入力された音声データに対して音響モデルを用いて音声認識処理を行い、認識結果を出力する音声認識手段を有し、
前記言語モデル更新手段は、前記シミュレーションにおいて前記音響モデルを用いる音声認識装置。
＜発明６＞
発明１から５のいずれかに記載の音声認識装置において、
前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを、あらかじめ用意した複数の候補の中から選択することにより決定する音声認識装置。
＜発明７＞
発明１から６のいずれかに記載の音声認識装置において、
前記言語モデル更新手段は、
前記新規登録単語、及び、前記新規登録単語に付随するあらかじめ用意した仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより得られる音声認識結果の複数の候補と各候補の類似度を基に、前記新規登録単語に付随する前記パラメータを決定する音声認識装置。
＜発明８＞
発明１から７のいずれかに記載の音声認識装置において、
前記確率的言語モデルはクラス言語モデルであり、前記単語各々に付随する前記パラメータはその単語の属するクラスにおけるその単語の出現確率である音声認識装置。
＜発明９＞
コンピュータが、
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶しておき、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新ステップを実行し、
前記言語モデル更新ステップで前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定し、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定する音声認識方法。
＜発明９−２＞
発明９に記載の音声認識方法において、
前記言語モデル更新ステップでは、前記新規登録単語に付随する前記パラメータを決定する際、前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより、前記音声データに対する前記音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定する音声認識方法。
＜発明９−３＞
発明９又は９−２に記載の音声認識方法において、
前記コンピュータが、
音声データを格納する音声ファイルを記憶しておき、
前記新規登録単語の入力を受け付ける登録単語入力ステップと、
前記音声ファイルを参照し、前記新規登録単語を含む前記音声データがあるか否かを判断し、ある場合には、その新規登録単語とその音声データとを対にして、前記言語モデル更新ステップで使用するために出力する単語・音声対応付けステップと、
をさらに実行する音声認識方法。
＜発明９−４＞
発明９−３に記載の音声認識方法において、
前記単語・音声対応付けステップでは、
前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声ファイル中の各音声データに対して音声認識処理を行うことにより、前記音声ファイルの中に前記新規登録単語を含む音声データがあるか否かを判定する音声認識方法。
＜発明９−５＞
発明９−２に記載の音声認識方法において、
前記コンピュータが、
入力された音声データに対して音響モデルを用いて音声認識処理を行い、認識結果を出力する音声認識ステップを実行し、
前記言語モデル更新ステップでは、前記シミュレーションにおいて前記音響モデルを用いる音声認識方法。
＜発明９−６＞
発明９から９−５のいずれかに記載の音声認識方法において、
前記言語モデル更新ステップでは、前記新規登録単語に付随する前記パラメータを、あらかじめ用意した複数の候補の中から選択することにより決定する音声認識方法。
＜発明９−７＞
発明９から９−６のいずれかに記載の音声認識方法において、
前記言語モデル更新ステップでは、
前記新規登録単語、及び、前記新規登録単語に付随するあらかじめ用意した仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより得られる音声認識結果の複数の候補と各候補の類似度を基に、前記新規登録単語に付随する前記パラメータを決定する音声認識方法。
＜発明９−８＞
発明９から９−７のいずれかに記載の音声認識方法において、
前記確率的言語モデルはクラス言語モデルであり、前記単語各々に付随する前記パラメータはその単語の属するクラスにおけるその単語の出現確率である音声認識方法。
＜発明１０＞
コンピュータを、
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶手段、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新手段、
として機能させ、
前記言語モデル更新手段に、前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定させ、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定させるプログラム。
＜発明１０−２＞
発明１０に記載のプログラムにおいて、
前記言語モデル更新手段に、前記新規登録単語に付随する前記パラメータを決定する際、前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより、前記音声データに対する前記音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定させるプログラム。
＜発明１０−３＞
発明１０又は１０−２に記載のプログラムにおいて、
前記コンピュータを、
音声データを格納する音声ファイルを記憶する音声データ記憶手段、
前記新規登録単語の入力を受け付ける登録単語入力手段、
前記音声ファイルを参照し、前記新規登録単語を含む前記音声データがあるか否かを判断し、ある場合には、その新規登録単語とその音声データとを対にして、前記言語モデル更新手段に入力する単語・音声対応付け手段、
として機能させるプログラム。
＜発明１０−４＞
発明１０−３に記載のプログラムにおいて、
前記単語・音声対応付け手段に、
前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声ファイル中の各音声データに対して音声認識処理を行うことにより、前記音声ファイルの中に前記新規登録単語を含む音声データがあるか否かを判定させるプログラム。
＜発明１０−５＞
発明１０−２に記載のプログラムにおいて、
前記コンピュータを、さらに、
入力された音声データに対して音響モデルを用いて音声認識処理を行い、認識結果を出力する音声認識手段として機能させ、
前記言語モデル更新手段に、前記シミュレーションにおいて前記音響モデルを用いさせるプログラム。
＜発明１０−６＞
発明１０から１０−５のいずれかに記載のプログラムにおいて、
前記言語モデル更新手段に、前記新規登録単語に付随する前記パラメータを、あらかじめ用意した複数の候補の中から選択することにより決定させるプログラム。
＜発明１０−７＞
発明１０から１０−６のいずれかに記載のプログラムにおいて、
前記言語モデル更新手段に、
前記新規登録単語、及び、前記新規登録単語に付随するあらかじめ用意した仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより得られる音声認識結果の複数の候補と各候補の類似度を基に、前記新規登録単語に付随する前記パラメータを決定させるプログラム。
＜発明１０−８＞
発明１０から１０−７のいずれかに記載のプログラムにおいて、
前記確率的言語モデルはクラス言語モデルであり、前記単語各々に付随する前記パラメータはその単語の属するクラスにおけるその単語の出現確率であるプログラム。

１音声入力部
２登録単語入力部
３言語モデル更新部
４音声認識部
５言語モデル
６音響モデル
１０音声認識装置
１０１音声入力部
１０２登録単語入力部
１０７単語・音声対応付け部
１０８音声ファイル

Claims

単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶手段と、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新手段と、
を有し、
前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定し、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定する音声認識装置。
請求項１に記載の音声認識装置において、
前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを決定する際、前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより、前記音声データに対する前記音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定する音声認識装置。
請求項１又は２に記載の音声認識装置において、
音声データを格納する音声ファイルを記憶する音声データ記憶手段と、
前記新規登録単語の入力を受け付ける登録単語入力手段と、
前記音声ファイルを参照し、前記新規登録単語を含む前記音声データがあるか否かを判断し、ある場合には、その新規登録単語とその音声データとを対にして、前記言語モデル更新手段に入力する単語・音声対応付け手段と、
をさらに有する音声認識装置。
請求項３に記載の音声認識装置において、
前記単語・音声対応付け手段は、
前記新規登録単語、及び、前記新規登録単語に付随する仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声ファイル中の各音声データに対して音声認識処理を行うことにより、前記音声ファイルの中に前記新規登録単語を含む音声データがあるか否かを判定する音声認識装置。
請求項２に記載の音声認識装置において、さらに、
入力された音声データに対して音響モデルを用いて音声認識処理を行い、認識結果を出力する音声認識手段を有し、
前記言語モデル更新手段は、前記シミュレーションにおいて前記音響モデルを用いる音声認識装置。
請求項１から５のいずれか１項に記載の音声認識装置において、
前記言語モデル更新手段は、前記新規登録単語に付随する前記パラメータを、あらかじめ用意した複数の候補の中から選択することにより決定する音声認識装置。
請求項１から６のいずれか１項に記載の音声認識装置において、
前記言語モデル更新手段は、
前記新規登録単語、及び、前記新規登録単語に付随するあらかじめ用意した仮の前記パラメータを前記確率的言語モデルに仮登録し、当該確率的言語モデルを用いて前記音声データに対して音声認識処理を行うシミュレーションにより得られる音声認識結果の複数の候補と各候補の類似度を基に、前記新規登録単語に付随する前記パラメータを決定する音声認識装置。
請求項１から７のいずれか１項に記載の音声認識装置において、
前記確率的言語モデルはクラス言語モデルであり、前記単語各々に付随する前記パラメータはその単語の属するクラスにおけるその単語の出現確率である音声認識装置。
コンピュータが、
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶しておき、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新ステップを実行し、
前記言語モデル更新ステップで前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定し、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定する音声認識方法。
コンピュータを、
単語の集合および前記単語各々に付随するパラメータを保持する確率的言語モデルを記憶する確率的言語モデル記憶手段、
新規に登録する単語である新規登録単語と前記新規登録単語を含む音声データとを用いて前記新規登録単語に付随する前記パラメータを決定し、前記新規登録単語、及び、前記新規登録単語に付随する前記パラメータを前記確率的言語モデルに登録する言語モデル更新手段、
として機能させ、
前記言語モデル更新手段に、前記新規登録単語に付随する前記パラメータを決定する際、前記音声データに対する音声認識処理の認識結果に前記新規登録単語が含まれることとなる前記パラメータを特定させ、特定した前記パラメータを前記新規登録単語に付随する前記パラメータとして決定させるプログラム。