JP2010078934A

JP2010078934A - 音声認識装置、音声認識方法、及び音声認識プログラム

Info

Publication number: JP2010078934A
Application number: JP2008247374A
Authority: JP
Inventors: Toshiyuki Hatada; 敏行幡田
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2008-09-26
Filing date: 2008-09-26
Publication date: 2010-04-08

Abstract

【課題】
本発明の目的は、音声認識に用いる言語モデルを決定するための情報処理の負担が少なく、且つ、精度良い音声認識を行うことが可能な音声認識装置を提供することである。
【解決手段】
最高確率言語モデルプログラム７０１３により、マイク４により入力された音声信号と、言語モデル情報６０１２としてＲＡＭ６に記憶される言語モデルとを比較することで、最高確率言語モデルが決定される。関連言語モデル選択プログラム７０１４により、最高確率言語モデルを用いて、次回音声認識を行うための言語モデルを決定するための関連言語モデルが選択される。
【選択図】図８

Description

本発明は、音声認識装置に関する。詳細には、複数の言語モデルを用いて音声認識を行う音声認識装置において、入力された音声信号に対応する単語列の生起確率に応じて選択された言語モデルを用いて音声認識を行う音声認識装置に関する。

特許文献１には、言語モデルの学習に用いるテキストコーパスをクラスタリングし、任意に抽出された複数のクラスタに対応する複数の言語モデルを構築する音声認識装置が開示されている。特許文献１に記載の音声認識装置は、学習用テキストコーパス全体について生成された多数の言語モデルの全てについて、各言語モデルごとの生起確率を決定し、生起確率の最も高い言語モデルを決定する。そして、生起確率の最も高い言語モデルと、複数のクラスタに対応して構築された複数の言語モデルとを用いて音声認識が行われている。音声認識を行う言語モデルとして、最も生起確率の高い言語モデルを用いるため、精度良い音声認識を行うことができる。

特許文献２には、予め分類された対話の場面ごとに異なる複数の言語モデルをメモリに記憶し、対話場面に応じて言語モデルを切り替える対話システムが開示されている。特許文献２に記載の対話システムでは、ユーザが対話システムとの対話を開始または終了する場面と、対話システムがユーザに質問する場面とに予め対応した言語モデルがメモリに記憶される。この結果、予め想定される場面に対応する言語モデルが決定されているため、対話システムにより音声認識を行うための計算量が少なくなる。
特開２０００−７５８８６号公報特開平７−１０４７８６号公報

しかしながら、特許文献１に記載された音声認識装置では、精度良い音声認識を行うことができるが、生起確率の最も高い言語モデルと、各クラスタに対応して構築された言語モデルの全てとを用いて、音声認識を行っているため情報処理量が多くなり、実用的ではなかった。また、特許文献２に記載された対話システムでは、予め想定される対話場面に対応する言語モデルが決定されているため音声認識を行う際の計算量は少ないが、想定されていない対話場面のときに音声認識率が低くなってしまい、依然として問題が残されていた。

本発明は、上述した問題点を解決するためになされたものである。本発明の目的は、音声認識に用いる言語モデルを決定するための情報処理の負担が少なく、且つ、精度良い音声認識を行うことが可能な音声認識装置を提供することである。

この目的を達成するために、請求項１に記載の発明は、多数の言語モデルを互いに関連付けて記憶する言語モデル記憶部と、音声入力部により入力される音声信号に対応する単語列と、前記言語モデル記憶部に記憶された多数の言語モデルの少なくとも一部の言語モデルの各々とを比較することで、各言語モデルについて前記単語列が生起する生起確率を決定する生起確率決定部と、前記生起確率決定部により各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する言語モデル決定部と、前記生起確率決定部が、前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも１つの関連言語モデルとを選択する言語モデル選択部と、を備えることを特徴としている。

請求項２に記載の発明は、前記言語モデル選択部により選択された前記関連言語モデルが、前記一部の言語モデル以外の言語モデルの中から選択されたか否かを判別する関連言語モデル判別部を備え、前記関連言語モデル判別部が、前記言語モデル記憶部に記憶された前記一部の言語モデル以外の言語モデルの中から前記関連言語モデルが選択されたと判別した場合、前記生起確率決定部は、前記音声入力部により先回入力された音声信号に対応する前記単語列と、前記選択された最高確率言語モデル及び関連言語モデルとを比較することで、前記選択された最高確率言語モデル及び関連言語モデルについてのみ前記生起確率を決定することを特徴としている。

請求項３に記載の発明は、前記音声入力部により、新しく音声信号が入力された場合、前記生起確率決定部は、前記新しく入力された音声信号に対応する単語列と、前記選択された最高確率言語モデル及び関連言語モデルとを比較することで、前記選択された最高確率言語モデル及び関連言語モデルについてのみ前記生起確率を決定することを特徴としている。

請求項４に記載の発明は、前記最高確率言語モデルについての生起確率の値より、前記関連言語モデルについての生起確率の値の方が大きい場合、前記言語モデル決定部は、前記関連言語モデルを最高確率言語モデルとして再度決定し、前記言語モデル選択部は、前記再度決定された最高確率言語モデルと、その最高確率言語モデルに関連する関連言語モデルとを選択し、前記生起確率決定部は、前記新しく入力された音声信号に対応する単語列と、前記再度決定された最高確率言語モデル及び前記関連言語モデルとを比較することで、前記再度選択された最高確率言語モデル及び前記関連言語モデルについてのみ生起確率を決定することを特徴としている。

請求項５に記載の発明は、前記選択された最高確率言語モデル及び前記関連言語モデルについて前記単語列が生起する前記生起確率の値が所定の値以下の場合、前記生起確率決定部は、前記言語モデル記憶部に記憶された多数の言語モデルの中の少なくとも一部の言語モデルについて前記単語列が生起する生起確率を再度決定することを特徴としている。

請求項６に記載の発明は、前記言語モデル決定部は、前記生起確率決定部により決定された生起確率の中で、前記生起確率が最も低い最低確率言語モデルを決定し、前記言語モデル選択部は、前記言語モデル決定部により決定された最低確率言語モデルを除いた言語モデルから前記関連言語モデルを選択することを特徴としている。

請求項７に記載の発明は、前記言語モデル記憶部は、多数の所定の単語に基づいて分類されたテキストデータを用いて、前記多数の所定の単語に対応して生成された多数の言語モデルを記憶し、前記多数の言語モデルは、意味が類似する複数の所定の単語に対応して互いに関連付けられて前記言語モデル記憶部に記憶されることを特徴としている。

請求項８に記載の発明は前記多数の言語モデルは、前記多数の言語モデルは、意味が類似する複数の所定の単語に対応して互いに関連付けられて、木構造として前記言語モデル記憶部に記憶され、前記多数の言語モデルにおける所定の言語モデルの上位に位置する上位言語モデルは、前記上位言語モデルの下位に位置する複数の言語モデルを生成するために用いられたテキストデータを用いて生成された言語モデルであることを特徴としている。

請求項９に記載の発明は、前記言語モデル選択部は、木構造において、前記最高確率言語モデルと上下階層関係により関連付けられる前記最高確率言語モデルの上位に位置する前記上位言語モデルの少なくとも１つの関連言語モデルと、前記最高確率言語モデルとを選択することを特徴としている。

請求項１０に記載の発明は、前記多数の言語モデルにおける所定の言語モデルの下位に位置する下位言語モデルは、前記所定の言語モデルを生成するために用いられたテキストデータの一部を用いて生成された言語モデルであり、前記言語モデル選択部は、木構造において、上下階層関係により関連付けられる前記最高確率言語モデルの下位に位置する前記下位言語モデルの少なくとも１つの関連言語モデルと、前記最高確率言語モデルとを選択することを特徴としている。

請求項１１に記載の発明は、前記言語モデル選択部は、木構造において、上下階層関係により関連付けられる前記最高確率言語モデルの上位に位置する前記上位言語モデルと同一階層で隣合う関係により関連付けられる少なくとも１つの関連言語モデルと、前記最高確率言語モデルとを選択することを特徴としている。

請求項１２に記載の発明は、多数の言語モデルを互いに関連付けて記憶する言語モデル記憶ステップと、音声入力部により入力される音声信号に対応する単語列と、前記言語モデル記憶ステップにより記憶された多数の言語モデルの少なくとも一部の言語モデルの各々とを比較することで、各言語モデルについて前記単語列が生起する生起確率を決定する生起確率決定ステップと、前記生起確率決定ステップにより各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する言語モデル決定ステップと、前記生起確率決定ステップが、前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも１つの関連言語モデルとを選択する言語モデル選択ステップと、を備えることを特徴とする音声認識方法である。

請求項１３に記載の発明は、多数の言語モデルを互いに関連付けて記憶する言語モデル記憶ステップと、音声入力部により入力される音声信号に対応する単語列と、前記言語モデル記憶ステップにより記憶された多数の言語モデルの少なくとも一部の言語モデルの各々とを比較することで、各言語モデルについて前記単語列が生起する生起確率を決定する生起確率決定ステップと、前記生起確率決定ステップにより各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する言語モデル決定ステップと、前記生起確率決定ステップが、前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも１つの関連言語モデルとを選択する言語モデル選択ステップと、をコンピュータに実現させる音声認識プログラムである。

請求項１に記載の発明によれば、言語モデル記憶部は、多数の言語モデルを互いに関連付けて記憶する。言語モデル決定部は、生起確率が最も高い言語モデルを音声認識に用いる言語モデルとして決定する。前記生起確率決定部が前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、言語モデル選択部は、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも１つの関連言語モデルとを選択する。この結果、次回入力される音声信号に対応する単語列と比較を行う言語モデルとして、全ての言語モデルが選択される場合と比べると、最高確率言語モデルと関連言語モデルとの中から次回音声認識に用いる言語モデルが決定され、その言語モデルを決定するための情報処理の負担が少ない。また、入力された音声信号に対応する単語列と次回比較を行う言語モデルとして、最高確率言語モデルと関連言語モデルとが選択されるため、先回決定された最高確率言語モデルでは音声認識が上手く行かない場合、又は、音声認識が困難な対話場面でも、最高確率言語モデルと関連言語モデルとの中から音声認識を行うための最適な言語モデルを再度決定することが可能になるため、音声認識を精度良く行うことが可能になる。

請求項２に記載の発明によれば、関連言語モデル判別部が、言語モデル記憶部に記憶された一部の言語モデル以外の言語モデルの中から関連言語モデルが選択されたと判別した場合、生起確率決定部は、音声入力部により先回入力された音声信号に対応する単語列と、選択された最高確率言語モデル及び関連言語モデルとを比較することで、選択された最高確率言語モデル及び関連言語モデルについてのみ生起確率を決定する。この結果、先回入力された音声信号に関して、最高確率言語モデルについての生起確率より、関連言語モデルについての生起確率の方が大きい場合が存在することから、先回入力された音声信号に関して関連言語モデルについての生起確率が新たに決定され、再度決定された生起確率に基づいて前記先回入力された音声信号を認識するために最適な最高確率言語モデルの選択が可能になる。ある会話の特定の音声信号に対応した単語について、最高確率言語モデルと比較して決定された生起確率よりも、関連言語モデルと比較して決定された生起確率が高い場合、音声認識を行う言語モデルとして関連言語モデルを選択することができる。先回最高確率言語モデルとして決定された言語モデルを用いて音声認識を行うのと比較すると、音声認識を行うための最適な言語モデルを、最高確率言語モデルと関連言語モデルとから選択することができるため、音声認識を精度良く行えるため効果的である。

請求項３に記載の発明によれば、音声入力部により、新しく音声信号が入力された場合、生起確率決定部は、新しく入力された音声信号に対応する単語列と、選択された最高確率言語モデル及び関連言語モデルとを比較することで、選択された最高確率言語モデル及び関連言語モデルについてのみ生起確率を決定する。この結果、現在の会話内容において生起確率の最も高い最高確率言語モデルと、それに関連付けられた関連言語モデルとの中から、次回音声認識を行う言語モデルが選択される。現在の会話内容に関連のある話題へ会話が展開された場合、現在の会話内容において生起確率の最も高い言語モデルに関連付けられた言語モデルを用いて音声認識を行うことができる。そのため、高い精度を維持し続けながら音声認識を行うことができる。

請求項４記載の発明によれば、最高確率言語モデルについての生起確率の値より、関連言語モデルについての生起確率の値の方が大きい場合、言語モデル決定部は、関連言語モデルを最高確率言語モデルとして再度決定する。その後、言語モデル選択部は、再度決定された最高確率言語モデルと、その最高確率言語モデルに関連する関連言語モデルとを選択する。生起確率決定部は、新しく入力された音声信号に対応する単語列と、再度決定された最高確率言語モデル及び関連言語モデルとを比較することで、再度選択された最高確率言語モデル及び関連言語モデルについてのみ生起確率を決定する。この結果、関連言語モデルと最高確率言語モデルとの生起確率を比較して、関連言語モデルの生起確率が大きい場合、言語モデルの選択及び生起確率の決定の処理を繰り返し行うことができるため、前記新しく入力された音声信号に対応する単語列について最適な言語モデルを選択することができることで、精度良い音声認識を行うことが可能となる。

請求項５記載の発明によれば、選択された最高確率言語モデル及び関連言語モデルについて単語列が生起する生起確率の値が所定の値以下の場合、生起確率決定部は、言語モデル記憶部に記憶された多数の言語モデルの中の少なくとも一部の言語モデルについて単語列が生起する生起確率を再度決定する。この結果、決定された生起確率が所定の値より小さい場合は、最高確率言語モデル及び関連言語モデルのみを用いて生起確率を決定せず、再度、言語モデル記憶部に記憶される多数の言語モデルを用いて生起確率を決定する。従って、言語モデル記憶部に記憶される多数の言語モデルを用いて、音声信号に対応する単語列について最適な言語モデルを決定することができる。

請求項６記載の発明によれば、言語モデル決定部は、生起確率決定部により決定された生起確率の中で、生起確率が最も低い最低確率言語モデルを決定する。言語モデル選択部は、言語モデル決定部により決定された最低確率言語モデルを除いた言語モデルから関連言語モデルを選択する。この結果、言語モデル選択部は、生起確率の最も高い言語モデルに関連する言語モデルであっても、生起確率の最も低い言語モデルを選択しない。そのため、音声認識を行う言語モデルとして、生起確率の最も低い最低確率言語モデルが選択されないため、音声認識の低下を防ぐことができる。

請求項７記載の発明によれば、言語モデル記憶部は、多数の所定の単語に基づいて分類されたテキストデータを用いて、多数の所定の単語に対応して生成された多数の言語モデルを記憶する。多数の言語モデルは、意味が類似する複数の所定の単語に対応して互いに関連付けられて言語モデル記憶部に記憶される。この結果、意味が類似する単語に対応する言語モデルが、関連言語モデルとして選択されるため、現在の会話内容に類似した会話内容に変わった場合、その関連言語モデルを用いて音声認識を行うため、精度良い音声認識を維持することができる。

請求項８に記載の発明によれば、前記多数の言語モデルは、意味が類似する複数の所定の単語に対応して互いに関連付けられて、木構造として前記言語モデル記憶部に記憶される。前記多数の言語モデルにおける所定の言語モデルの上位に位置する上位言語モデルは、前記上位言語モデルの下位に位置する複数の言語モデルを生成するために用いられたテキストデータを用いて生成された言語モデルである。所定の言語モデルの上位に位置する上位言語モデルは、その上位言語モデルの下位に位置する言語モデルと対応付けられた単語を含んだ会話内容を認識するための言語モデルとして、言語モデル記憶部に記憶される。上位言語モデルを生成するためのテキストデータは、前記上位言語モデルの下位に位置する下位言語モデルを生成するためのテキストデータと共通している。この結果、入力された音声信号に対応する単語列が、下位に位置する言語モデルと対応付けられた単語を含む広い概念の会話内容である場合、上位に位置する言語モデルが音声認識を行う言語モデルとして選択されることで、下位に位置する言語モデルに対応付けられた単語を含む広い概念の会話内容についても音声認識が可能となる。また、入力された音声信号に対応する単語列が、下位に位置する言語モデルに対応付けられた具体的な狭い概念の会話内容である場合、下位に位置する言語モデルが音声認識を行う言語モデルとして、選択されることで、具体的な会話内容について精度良い音声認識を行うことが可能となる。

請求項９記載の発明によれば、言語モデル選択部は、木構造において、最高確率言語モデルと上下階層関係により関連付けられる最高確率言語モデルの上位に位置する上位言語モデルの少なくとも１つの関連言語モデルと、最高確率言語モデルとを選択する。この結果、最高確率言語モデルの上位に位置する上位言語モデルが、関連言語モデルとして選択されることから、最高確率言語モデルでは音声認識が困難な会話でも、その上位言語モデルに対応する単語を含んだ会話内容についても音声認識を行うことができるため、精度良く音声認識を行うことが可能になる。例えば、入力された音声信号に対応する単語列が、下位に位置する言語モデルと対応付けられた単語を含む広い概念の会話内容である場合、上位に位置する関連言語モデルにより広い概念の会話内容についても音声認識を精度良く行うことが可能となる。

請求項１０記載の発明によれば、多数の言語モデルにおける所定の言語モデルの下位に位置する下位言語モデルは、所定の言語モデルを生成するために用いられたテキストデータの一部を用いて生成された言語モデルである。言語モデル選択部は、木構造において、上下階層関係により関連付けられる最高確率言語モデルの下位に位置する下位言語モデルの少なくとも１つの関連言語モデルと、最高確率言語モデルとを選択する。この結果、言語モデル選択部は、所定の単語に対応する特定の会話内容に特化した前記下位の言語モデルを関連言語モデルとして選択する。従って、最高確率言語モデルの下位に位置する関連言語モデルを用いて、特定の会話内容及び単語に特化した音声認識を精度良く行うことができる。例えば、入力された音声信号に対応する単語が、下位に位置する言語モデルに対応付けられた具体的な単語に関連する会話内容である場合、下位に位置する関連言語モデルにより、具体的な会話内容について精度良い音声認識を行うことが可能となる。

請求項１１記載の発明によれば、言語モデル選択部は、木構造において、上下階層関係により関連付けられる最高確率言語モデルの上位に位置する前記上位言語モデルと同一階層で隣合う関係により関連付けられる少なくとも１つの関連言語モデルと、最高確率言語モデルとを選択する。この結果、最高確率言語モデルの上位に位置する言語モデルと同一階層で隣合う言語モデルが関連言語モデルとして選択されることで、前記上位に位置する言語モデルと隣合う言語モデルに対応する単語を含んだ会話内容についても音声認識を行うことが可能になる。そのため、幅広い話題及び単語に対応可能な音声認識を行うことが可能になる。例えば、入力された音声信号に対応する単語列が、ある所定の言語モデルの上位に位置する上位言語モデルと隣合う上位言語モデルの下位言語モデルと対応付けられた単語を含む広い概念の会話内容である場合、前記隣合う上位言語モデルが関連言語モデルとして選択されることで、前記隣合う上位言語モデルの下位言語モデルに対応付けられた単語を含む広い概念の会話内容についても音声認識が可能となる。

請求項１２と請求項１３との発明によれば、言語モデル記憶ステップは、多数の言語モデルを互いに関連付けて記憶する。言語モデル決定ステップは、生起確率決定ステップにより各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する。言語モデル選択ステップは、生起確率決定ステップが、入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、言語モデル決定部により決定された最高確率言語モデルと、最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも１つの関連言語モデルとを選択する。この結果、次回入力される音声信号に対応する単語列と比較を行う言語モデルとして、全ての言語モデルが選択される場合と比べると、最高確率言語モデルと関連言語モデルのみから次回音声認識に用いる言語モデルが決定されるため、音声認識を行うために用いる言語モデルを決定するための情報処理の負担が少ない。また、次回入力された音声信号に対応する単語列と比較を行う言語モデルとして、最高確率言語モデルと関連言語モデルとが選択されるため、先回決定された最高確率言語モデルでは音声認識が上手く行かない場合、又は、音声認識が困難な対話場面でも、最高確率言語モデルと関連言語モデルとを用いて入力された音声信号に対応する単語列を音声認識を行うための最適な言語モデルを再度決定することが可能になるため、音声認識を精度良く行うことが可能になる。

［第１実施形態］
以下、音声認識機能を備えた受付端末装置に本発明を適用した第１の実施形態について図面を参照して説明する。

＜第１の実施形態の概観図＞
図１は、本発明を適用した第１の実施形態の受付端末装置１の概観図である。受付端末装置１は、ディスプレイ２とスピーカ３とマイク４とを備える。ディスプレイ２は、ユーザに表示情報を表示する。スピーカ３は外部に音声を出力する。マイク４は、受付端末１へ音声信号を入力する。

＜第１の実施形態の電気的構成＞
図２は、第１の実施形態の受付端末装置１の電気的構成を示すブロック図である。図２に示すように、受付端末装置１には、受付端末装置１を制御するＣＰＵ５が備えられている。ＣＰＵ５には、ディスプレイ２とスピーカ３とマイク４とＲＡＭ６とＨＤＤ７とがそれぞれ電気的に接続されている。ＣＰＵ５は、ＲＡＭ６、ＨＤＤ７などの記憶手段と共に、受付端末装置１の動作を制御処理するコンピュータを構成している。ＣＰＵ５と記憶手段とからなるコンピュータは、本発明の生起確率決定部と、言語モデル決定部と、言語モデル選択部と、関連言語モデル判別部と、の一例である。

ＨＤＤ７には、プログラム７０１と言語モデル生成情報７０２とが記憶されている。

プログラム７０１は、メイン動作プログラム７０１１と、言語モデル生成プログラム７０１２と、最高確率言語モデル決定プログラム７０１３と、関連言語モデル選択プログラム７０１４とを含む。メイン動作プログラム７０１１は、受付端末装置１を制御するためのプログラムである。言語モデル生成プログラム７０１２は、言語モデルを生成するためのプログラムである。最高確率言語モデル決定プログラム７０１３は、マイク４から入力される音声信号について音声認識を行うために、複数の言語モデルから、生起確率が最高である言語モデルを決定するためのプログラムである。関連言語モデル選択プログラム７０１４は、最高確率言語モデルプログラム７０１３により決定された最高確率言語モデルを用いて、次回音声認識を行うための言語モデルを決定するための関連言語モデルを選択するためのプログラムである。

言語モデル生成情報７０２は、言語モデル生成文章情報７０２１と、単語分類情報７０２２とを含む。

言語モデル生成文章情報７０２１は、言語生成プログラム７０１２により言語モデルを生成するための文章である。図３は、言語モデル生成文章情報７０２１がＨＤＤ７に記憶される記憶状態を示す概念図である。図３に示すように、言語モデル生成文章情報７０２１として、多数の文章が記憶されている。

単語分類情報７０２２は、言語モデル生成文章情報７０２１としてＨＤＤ７に記憶された多数の文章の分類分けを行なうための単語分類である。図４は単語分類情報７０２２としてＨＤＤ７に記憶された単語分類の概念図である。図４では、１３個の単語分類１０１〜１１３が分類分けされている。図４の単語分類１０１を示す「人工物」は、単語分類１０２を示す「食料」と、単語分類１０３を示す「薬品」とを含む単語分類であることを表している。図４の単語分類１０２を示す「食料」は、単語分類１０４を示す「料理」と、単語分類１０５を示す「食品」と、単語分類１０６を示す「嗜好品」とを含む単語分類であることを表している。また、各単語分類は、その単語分類に含まれる複数の単語から構成される。例えば、図４の単語分類１０９を示す「パン」は、「パン」に関する単語「あんぱん」、「渦巻パン」、「サンドイッチ」などのパンに関連する単語により構成されている。また、単語分類１０１を示す「人工物」を構成する単語ではあるが、単語分類１０２を示す「食料」と単語分類１０３を示す「薬品」とに含まれない単語があっても良い。第１の実施形態で用いる単語分類は、日本語語彙体系（ｈｔｔｐ：／／ｗｗｗ．ｋｅｃｌ．ｎｔｔ．ｃｏ．ｊｐ／ｍｔｇ／ｒｅｓｏｕｒｃｅｓ／ＧｏｉＴａｉｋｅｉ／）を用いて分類分けされる。なお、本明細書では、上記で説明した、単語分類１０１が単語分類１０２と単語分類１０３とを含む単語分類であることを、単語分類１０１は、単語分類１０２と単語分類１０３との上位に位置する単語分類であると表現する。また、本明細書では、単語分類１０２と単語分類１０３とは、単語分類１０１の下位に位置する単語分類であると表現する。

ＲＡＭ６は、公知のＲＡＭから構成される。ＲＡＭ６は、言語モデル生成情報６０１と、音声入力信号情報６０２と、最高確率言語モデル情報６０３と、言語モデル生起確率情報６０４と、最高生起確率情報６０５と、関連言語モデル情報６０６と、前回最高確率言語モデル情報６０７と、前回関連言語モデル情報６０８と、生起確率計算情報６０９と、最高生起確率認識結果情報６１０とを含む。

言語モデル生成情報６０１は、単語分類文集合情報６０１１と言語モデル情報６０１２と判別単語分類情報６０１３と分類文章記憶情報６０１４とを含む。

単語分類文集合情報６０１１は、単語分類１０１〜１１３それぞれの単語分類に対応する文章である。言語モデル生成文章情報７０２１としてＨＤＤ７に記憶された多数の文章が、単語分類１０１〜１１３に基づいて分類分けされる。分類分けされた各文章は、対応する単語分類１０１〜１１３の文集合として、単語分類文集合情報６０１１としてＲＡＭ６に一時記憶される。

言語モデル情報６０１２は、マイク４から入力された音声信号と比較され、音声認識を行うための複数の言語モデルを木構造として含む。図５は、第１の実施形態における複数の言語モデルが、言語モデル情報６０１２に木構造として含まれる状態を示す概念図である。図５に示す言語モデル２０１〜２１３が、第１の実施形態では木構造として言語モデル情報６０１２に含まれる。図５の言語モデル２０１〜２１３に記載された「人工物」、「食料」といった言葉は、各言語モデルに対応する単語分類を示す。図５に示す木構造として含まれる言語モデル２０１〜２１３は、図４に示す単語分類１０１〜１１３それぞれと対応している。言語モデル情報６０１２を記憶するＲＡＭ６は、本発明の言語モデル記憶部の一例である。

判別単語分類情報６０１３は、言語モデル生成文章情報７０２１または分類文章記憶情報６０１４に含まれる文章を分類するための単語分類である。

分類文章記憶情報６０１４は、判別単語分類情報６０１３に記憶される単語分類を用いて分類される文章である。

音声入力信号情報６０２は、マイク４により入力された音声信号である。

最大確率言語モデル情報６０３は、音声入力信号情報６０２を用いて、最大確率言語モデル決定プログラム７０１３により決定された最大確率言語モデルに関する情報である。

言語モデル生起確率情報６０４は、言語モデル生成プログラム７０１２により生成された言語モデルと、音声入力信号情報６０２とを比較して決定された各言語モデルについての生起確率である。図６は、言語モデル生起確率情報６０４として、各言語モデルについての生起確率が記憶される記憶状態を示す概念図である。図６は、言語モデル２０１と言語モデル２０２と言語モデル２０３とについて、生起確率が決定された例を示している。図６の表中の「ｎｕｌｌ」は、生起確率が決定されなかったことを示す。

最高生起確率情報６０５は、最高確率言語モデル決定プログラム７０１３により決定される最高確率言語モデルの生起確率の値である。

関連言語モデル情報６０６は、次回音声認識を行うための最高確率言語モデルを決定するため、関連言語モデル選択プログラム７０１４により選択される関連言語モデルに関する情報である。図７は、関連言語モデル情報６０６として、関連言語モデルが一時記憶される記憶状態を示す概念図である。図７に示すように、最高確率言語モデルとして言語モデル２０２が、関連言語モデルとして言語モデル２０４と言語モデル２０５と言語モデル２０６とが、関連言語モデル情報６０６としてＲＡＭ６により一時記憶される。

前回最高確率言語モデル情報６０７は、最高確率言語モデル情報６０３として記憶されていた情報である。最高確率言語モデル情報６０３として、ＲＡＭ６に新しく情報が一時記憶される際、最高確率言語情報モデル６０３に記憶されていた情報が、前回最高確率言語モデル情報６０７として、ＲＡＭ６に一時記憶される。

前回関連言語モデル情報６０８は、関連言語モデル情報６０６として記憶されていた情報である。関連言語モデル情報６０６としてＲＡＭ６に新しく情報が一時記憶される際、関連言語モデル情報６０６としてＲＡＭ６に記憶されていた情報が、前回関連言語モデル情報６０８としてＲＡＭ６に一時記憶される。

生起確率計算情報６０９は、言語モデル一時情報６０９１と生起確率一時情報６０９２と、認識結果一時情報６０９３とを含む。言語モデル一時情報６０９１は、最高確率言語モデル決定プログラム７０１３により最高確率言語モデルを決定するための言語モデルに関する情報である。生起確率一時記憶情報６０９２は、最高確率言語モデルの生起確率の値を決定するための言語モデルに関する生起確率の値である。認識結果一時情報６０９３は、生起確率が決定された言語モデルに対応する認識結果である。

最高生起確率認識結果情報６１０は、最高生起確率言語モデルによる音声入力信号情報６０２の認識結果である。

＜第１の実施形態のメイン動作の説明＞
以上説明した構成からなる第１の実施形態の受付端末装置１の動作及び作用について、添付図面を参照して説明する。図８は、受付端末装置１におけるメイン動作の処理手順を示すフローチャートである。メイン動作は、電源またはコンセントを介して商用電源などの外部電源と受付端末装置１とが接続されたことにより、ＣＰＵ５がメイン動作プログラム７０１１を実行することにより、遂行される。以下に示す処理はＣＰＵ５により処理される。

受付端末装置１では、最初にステップＳ１０１で本装置の電源スイッチがユーザによりＯＮされたかが判定される。電源スイッチがＯＮにされたと判定されるまで、ステップＳ１０１が繰り返される。電源スイッチがＯＮにされたと判定されると、ステップＳ１０２が実行される。電源スイッチは、ハードウェアを用いたスイッチであっても、ソフトウェアにより動作される電源スイッチであっても良い。

ステップＳ１０２では、単語分類文集合情報６０１１である各単語分類に対応する文章を用いて、言語モデルが生成される。生成された言語モデルは、言語モデル情報６０１２として、ＲＡＭ６に一時記憶される。ステップＳ１０２は、本発明の言語モデル記憶ステップの一例である。

ステップＳ１０３では、初期値設定処理が実行される。初期値設定処理により、第１の実施形態では、図５に示すように、言語モデル情報６０１２として記憶される最上位言語モデルである言語モデル２０１が、最高確率言語モデルとして決定される。また、最高確率情報６０５に最高生起確率の初期値として「０」が、関連言語モデル情報６０６の初期値として「ｎｕｌｌ」が一時記憶される。

ステップＳ１０４では、新しい音声信号が入力されたかが判定される。マイク４により所定の時間の間入力された音声の振幅が、所定の閾値より小さい場合、新しい音声信号が入力されないと判定される。マイク４により所定の時間の間入力された音声の振幅が、所定の閾値より大きい場合、新しい音声信号が入力されたと判定される。新しい音声が入力されたと判定されると、入力された音声は、音声入力信号情報６０２としてＲＡＭ６に一時記憶される。新しい音声信号が入力されたと判定された場合、ステップＳ１０５が実行される。新しい音声信号が入力されたと判定されなかった場合、再度ステップＳ１０４が実行される。

ステップＳ１０５では、音声認識フラグがＴＲＵＥにされる。

ステップＳ１０６では、最高確率言語モデル決定処理が実行される。最高確率言語モデル決定処理により、関連言語モデル情報６０６として記憶された言語モデルを用いて、音声入力信号情報６０２として記憶される音声入力信号について生起確率の値が最高である言語モデルが決定される。関連言語モデル情報６０６として「ｎｕｌｌ」が記憶されていた場合、最高確率言語モデル情報６０３として記憶された言語モデルが、最高確率言語モデルとして保持される。ステップＳ１０６は、本発明の生起確率決定ステップと、言語モデル決定ステップとの一例である。

ステップＳ１０７では、音声認識フラグがＴＲＵＥであるか、ＦＡＬＳＥであるかが判定される。音声認識フラグがＴＲＵＥの場合、ステップＳ１０８が実行される。音声認識フラグがＦＡＬＳＥの場合、ステップＳ１０９が実行される。

ステップＳ１０８では、最高生起確率認識結果情報６１０が出力される。また、音声認識フラグがＦＡＬＳＥにされる。本明細書中の音声認識は、音声入力信号情報６０２と言語モデル情報６０１２として記憶される言語モデルとを用いて生起確率を決定すると共に，各言語モデルに対応する認識結果を決定する。ステップＳ１０８では、最高確率言語モデルに対応する認識結果が音声認識結果として出力される。

ステップＳ１０９では、前回最高確率言語モデル情報６０７と、最高確率言語モデル情報６０３とが一致しているかが判定される。一致していないと判定された場合、ステップＳ１１０が実行される。一致していると判定された場合ステップＳ１１２が実行される。

ステップＳ１１０では、最高生起確率情報６０５としてＲＡＭ６に記憶されている値が、所定の値より小さいか否かが判定される。所定の値より小さいと判定された場合、ステップＳ１１１が実行される。所定の値より小さいと判定されなかった場合、ステップＳ１１２が実行される。

ステップＳ１１１では、関連言語モデルが再度選択される。関連言語モデル情報６０６としてＲＡＭ６に記憶されていた情報が、前回関連言語モデル情報６０８としてＲＡＭ６に一時記憶される。最高確率言語モデル情報６０３として記憶される言語モデルを用いて、関連言語モデルが再度決定される。そして、再度決定された関連言語モデルの中に、関連言語モデル情報６０６として記憶される関連言語モデルとは異なる言語モデルがある場合、その言語モデルは優先的に、新たに関連言語モデル情報６０６としてＲＡＭ６に一時記憶される。ステップＳＳ１１１で再度選択される言語モデルは、言語モデル情報６０１２からランダムに選択されても良い。

ステップＳ１１２では、関連言語モデル選択処理が実行される。関連言語モデル選択処理により、最高確率言語モデル情報６０３としてＲＡＭ６に記憶された言語モデルを用いて、関連言語モデルが選択される。決定された関連言語モデルは、関連言語モデル情報６０６としてＲＡＭ６に一時記憶される。ステップＳ１１２は、本発明の言語モデル選択ステップの一例である。

ステップＳ１１３では、前回関連言語モデル情報６０８と、関連言語モデル情報６０６とが一致しているかが判定される。一致していないと判定された場合、ステップＳ１０６が実行される。一致していると判定された場合ステップＳ１１４が実行される。

ステップＳ１１４では、ユーザにより電源スイッチがＯＦＦされたかが判定される。電源スイッチがＯＦＦされなかった場合は、ステップＳ１０４が実行される。電源スイッチがＯＦＦにされた場合は、ステップＳ１０１へ戻り再びステップＳ１０１が実行される。

（言語モデル生成処理動作）
図９は、言語モデル生成プログラム７０１２に従う受付端末装置１の言語モデル生成処理を実行するフローチャートである。まず、ステップＳ２０１では、言語モデルを作成するために言語モデル生成文章情報７０２１として記憶された多数の文章を分類するための単語分類が取得される。第１の実施形態では、単語分類は、単語分類情報７０２２としてＨＤＤ７に記憶されている。図４に示す単語分類１０１〜１１３に基づいて単語が分類分けされる。

ステップＳ２０２では、単語分類情報７０２２の最上位単語分類として単語分類１０１を示す「人工物」が、判別単語分類情報６０１３としてＲＡＭ６に一時記憶される。判別単語分類情報６０１３としてＲＡＭ６に記憶される単語分類に対応する文章が、単語分類文集合情報６０１１としてＲＡＭ６に一時記憶される。言語モデル生成文章情報７０２１として記憶された文章から、所定の文章が取り出される。取り出された文章は、形態素解析により各単語に分けられる。形態素解析により分けられた単語が、判別単語分類情報６０１３の最上位単語分類である単語分類１０１を示す「人工物」に対応しているかが判定される。対応していると判定された場合、取り出された文章は、「人工物」に対応する単語分類文集合情報６０１１としてＲＡＭ６に一時記憶される。図１０は、単語分類１０１を示す「人工物」に対応する文章が、図３に示す言語モデル生成文章情報７０２１として記憶された文章から取り出された概念図である。図１０に示す文書が、単語分類１０１を示す「人工物」に対応する文章として、単語分類文集合情報６０１１としてＲＡＭ６に一時記憶される。

ステップＳ２０３では、判別単語分類情報６０１３としてＲＡＭ６に記憶された単語分類の下位の位置に単語分類があるかが判定される。下位の位置に単語分類があると判定された場合、ステップＳ２０４が実行される。下位の位置に単語分類がないと判定された場合、ステップＳ２０８が実行される。判別単語分類情報６０１３として単語分類１０１を示す「人工物」が記憶されている場合、図４に示すように単語分類１０１の下位の位置に、単語分類１０２を示す「食料」と、単語分類１０３を示す「薬品」とがあるため、ステップＳ２０４が実行される。

ステップＳ２０４では、まず、単語分類文集合情報６０１１として記憶された文章から、判別単語分類情報６０１３としてＲＡＭ６に記憶された単語分類に対応する文章が、分類文章記憶情報６０１４としてＲＡＭ６に一時記憶される。図１０に示す単語分類１０１の「人工物」に対応する文章が、分類文章記憶情報６０１４としてＲＡＭ６に一時記憶される。次に、判別単語分類情報６０１３の下位に位置する単語分類が新たに判別単語分類情報６０１３としてＲＡＭ６に一時記憶される。判別単語分類情報６０１３が単語分類１０１を示す「人工物」である場合、単語分類１０１を示す「人工物」の下位に位置する単語分類１０２の「食料」と、単語分類１０３の「薬品」とが、新たに単語分類情報情報６０１３としてＲＡＭ６に一時記憶される。

ステップＳ２０５では、ステップＳ２０４で分類文章記憶情報６０１４として記憶された文章を形態素解析する。形態素解析により分類された単語が、最も多く含まれる下位単語分類が決定される。例えば、図１０に示す文章「うな丼、マグロ丼、サンドイッチがあるよ。」の場合、「うな丼」と「マグロ丼」と「サンドイッチ」との３つの単語が１つの文章に含まれている。単語分類２０７の「飯」と単語分類２０８の「麺類」と単語分類２０９の「パン」とが下位単語分類の場合、３つの単語のうち２つが含まれている単語分類１０７「飯」を示す単語分類が決定される。

ステップＳ２０６では、ステップＳ２０５で決定された下位単語分類に対応する文章が、分類文章記憶情報６０１４から取り出される。取り出された文章は、上述した下位単語分類に対応する単語分類文集合６０１１として記憶される。図１１は、図４に示す単語分類１０２と単語分類１０３とにそれぞれ対応する文章が、分類文章記憶情報６０１４としてＲＡＭ６から読み出されて、単語分類文集合情報６０１１として記憶された記憶状態を示す概念図である。図１１に示すように、各単語分類に対応する文章が、単語分類文集合６０１１として記憶される。

ステップＳ２０７では、判別単語分類情報６０１３としてＲＡＭ６に記憶された単語分類の下位に単語分類があるかが判定される。単語分類があると判定された場合、ステップＳ２０４が再び実行される。単語分類がないと判定された場合、ステップＳ２０８が実行される。判別単語分類情報６０１３として、単語分類１０２の「食料」と、単語分類１０３の「薬品」とが記憶されていた場合、図４に示すように単語分類１０２の下位の位置に、単語分類１０４と単語分類１０５と単語分類１０６とがあると判定される。また、単語分類１０３の「薬品」の下位の位置には、単語分類がないと判定される。判別単語分類情報６０１３としてＲＡＭ６に記憶された全ての単語分類について、下位の位置に単語分類がないと判定されるまで、ステップＳ２０４からステップＳ２０７が繰り返し実行される。

ステップＳ２０８では、単語分類文集合情報６０１１として記憶された各単語分類に対応する文章を用いて、各単語分類それぞれについて言語モデルが生成される。言語モデル生成方法としては、「言語と計算４確率的言語モデル：東京大学出版会」に記載されている代表的な言語モデル生成方法を用いる。上位階層の単語分類１０１は、下位の単語分類１０２から単語分類１１３までを含む。言語モデル２０１は、単語分類１０２から単語分類１１３までに対応する単語を用いて生成されることから、単語分類１０２から単語分類１１３までを含む幅広い単語に対応可能な言語モデルとなる。一方、下位に位置する言語モデルは、細かく分類分けされた単語分類に対応する単語を用いて生成される。そのため、下位に位置する言語モデルは、細かく分類分けされた単語にしか対応できない言語モデルとなってしまうが、分類分けされた単語分類に対応する単語については、精度の高い音声認識を行なうことが可能な言語モデルとなる。

（最高確率言語モデル決定処理動作の説明）
図１２は、最高確率言語モデル決定処理プログラム７０１３に従う受付端末装置１の最高確率言語モデル決定処理を実行するフローチャートである。まず、ステップＳ４０１では、最高確率言語モデル情報６０３として記憶された情報が、前回最高確率言語モデル情報６０７として記憶される。次に、関連言語モデル情報６０６として記憶される言語モデルから、選択された所定の１つの言語モデルが、言語モデル一時情報６０９１として記憶される。

ステップＳ４０２では、ステップＳ４０１で選択された言語モデルを用いて、音声信号入力情報６０２として記憶される音声信号についての生起確率が決定される。生起確率が決定された言語モデルに対応する認識結果が得られる。決定された生起確率は、生起確率一時情報６０９２として記憶される。生起確率が決定された言語モデルに対応する認識結果は、認識結果一時情報６０９３として記憶される。

ステップＳ４０３では、最高生起確率情報６０５が表す最高確率の値と、生起確率一時情報６０９２が表す生起確率の値とを比較する。生起確率一時情報６０９２が表す生起確率の値が、最高生起確率情報６０５が表す最高確率の値より大きい場合、ステップＳ４０４が実行される。最高確率６０４が表す最高確率の値が、生起確率一時情報６０９２が表す生起確率の値より大きい場合、ステップＳ４０６が実行される。

ステップＳ４０４では、言語モデル一時情報６０９１としてＲＡＭ６に記憶される情報が、最高確率言語モデル情報６０３としてＲＡＭ６に一時記憶される。認識結果一時情報６０９３としてＲＡＭ６に記憶される情報が、最高生起確率認識結果情報６１０としてＲＡＭ６に一時記憶される。

ステップＳ４０５では、生起確率一時情報６０９２としてＲＡＭ６に記憶された生起確率が、最高生起確率情報６０５としてＲＡＭ６に一時記憶される。

ステップＳ４０６では、関連言語モデル情報６０６としてＲＡＭ６に記憶される言語モデルの全てが、ステップＳ４０１で選択されたかが判定される。関連言語モデル情報６０１として記憶される言語モデル全てが、ステップＳ４０１で選択されたと判定されなかった場合、ステップＳ４０１が再度実行される。関連言語モデル情報６０６として記憶される言語モデル全てが、ステップＳ４０１で選択されたと判定された場合、最大生起確率言語モデル決定処理動作が終了される。

（関連言語モデル選択処理動作の説明）
図１３は、関連言語モデル選択処理プログラム７０１４に従う受付端末装置１の関連言語モデル選択処理を実行するフローチャートである。まず、ステップＳ５０１では、関連言語モデル情報６０６として記憶された情報が、前回関連言語モデル情報６０８として記憶される。また、関連言語モデル情報６０６として、最高確率言語モデル６０３が新しく記憶される。

ステップＳ５０２では、最高確率言語モデル情報６０３が表す最高確率言語モデルの下位に位置する下位言語モデルがあるかが判定される。下位言語モデルがある場合、ステップＳ５０３が実行される。下位言語モデルがない場合、ステップＳ５０４が実行される。第１の実施形態では、最高確率言語モデル情報６０３として図５に示す言語モデル２０１がＲＡＭ６に記憶されている場合、言語モデル２０２または言語モデル２０３が、言語モデル２０１の木構造として１つ下位の階層に位置する下位言語モデルである。

ステップＳ５０３では、ステップＳ５０２で判定された下位言語モデルが、関連言語モデル情報６０６に追加記憶される。例えば、音声入力信号情報６０２として「野菜を買わないといけなかったんだ」がＲＡＭ６に記憶されているとき、最高確率言語モデル情報６０３として単語分類１０５を示す「食品」に対応する言語モデル２０５がＲＡＭ６に一時記憶され、関連言語モデル情報６０６として言語モデル２０５の下位に位置する単語分類「野菜」に対応する言語モデル２１１がＲＡＭ６に一時記憶されているとする。先回入力された「野菜を買わないといけなかったんだ」について、会話内容に単語分類「野菜」が含まれている。そのため、下位言語モデルとして単語分類「野菜」を示す言語モデル２１１以外にも言語モデル２１０を含む、単語分類「食品」に対応する言語モデル２０５よりも、単語分類「野菜」に対応する言語モデル２１１の方が、生起確率が高くなる。複数の単語分類として単語分類１１０を示す「穀物」と単語分類１１１を示す「野菜」とを包含する単語分類「食品」に対応する言語モデル１０５よりも、単語分類１１１を示す「野菜」に対応する言語モデル１１１の方が、野菜に関する単語を用いて生起確率を決定する場合、生起確率が高くなる。そのため、関連言語モデルとして最高確率言語モデルの下位言語モデルが選択されることで、特定の会話内容及び単語に特化した音声認識を精度良く行うことができる。

ステップＳ５０４では、最高確率言語モデル情報６０３が表す最高確率言語モデルの上位に位置する上位言語モデルがあるかが判定される。上位言語モデルがある場合、ステップＳ５０５が実行される。上位言語モデルがない場合、関連言語モデル選択処理動作が終了される。第１の実施形態では、最高確率言語モデル情報６０３として図５に示す言語モデル２１０がＲＡＭ６に記憶されている場合、言語モデル２０５が、言語モデル２１０の木構造として１つ上位の階層に位置する上位言語モデルである。

ステップＳ５０５では、ステップＳ５０４で判定された上位言語モデルが、関連言語モデル情報６０６に追加記憶される。図１４は、会話の経緯および各会話において選択された最高確率言語モデルと関連言語モデルとを示す説明図である。図１４に示すように、音声入力信号情報６０２として「今日の晩御飯は、マグロ丼にしよう。」が入力された後に、新しい音声として「いやラーメンもいいな。」が入力される場合について音声認識動作を説明する。単語分類１０７を示す「飯」の言語モデル２０７が、「今日の晩御飯は、マグロ丼にしよう。」の音声入力信号情報についての最高確率言語モデルとして決定されている。言語モデル２０４は、言語モデル２０７と木構造において上下階層関係にある。言語モデル２０４は、言語モデル２０７の階層よりも１つ上位階層に位置する。この結果、単語分類１０７を示す「飯」の言語モデルの関連言語モデルとして、単語分類１０４を示す「料理」の言語モデル２０４が選択される。先回入力された「今日の晩御飯は、マグロ丼にしよう」の音声信号の次に、「いや、ラーメンもいいな。」の音声信号が新しく入力されたとする。会話内容に単語分類１０８を示す「麺類」が含まれているため、「麺類」を含まない単語分類１０７を示す「飯」の言語モデル２０７では、単語分類１０８を示す「麺類」の生起確率は低くなってしまう。一方、言語モデル２０４は、下位の言語モデルとして単語分類「麺類」を含む単語分類「料理」に対応する言語モデルである。そのため、単語分類「麺類」を含む言語モデル２０４の方が、単語分類「飯」の言語モデル２０７よりも単語分類１０８を示す「麺類」の生起確率が高くなる。従って、関連言語モデルとして上位言語モデル２０４が選択されることで、上位言語モデル２０４は、上位言語モデル２０４の下位に位置する言語モデル２０７及び言語モデル２０８を含む幅広い単語に対応した音声認識が可能となる。

ステップＳ５０６では、最高確率言語モデル情報６０３が表す最高確率言語モデルの上位言語モデルと隣り合う位置にある隣接言語モデルがあるかが判定される。隣接言語モデルがある場合、ステップＳ５０７が実行される。隣接言語モデルがない場合、関連言語モデル選択処理動作が終了される。

ステップＳ５０７では、ステップＳ５０６で選択された隣接言語モデルが、関連言語モデル情報６０６としてＲＡＭ６に追加記憶される。第１の実施形態では、最高確率言語モデル情報６０３としてＲＡＭ６に図５に示す言語モデル２１０が記憶されている場合、言語モデル２１０の上位言語モデルである言語モデル２０５と、同じ階層位置で直接隣り合う言語モデル２０４と言語モデル２０６とが隣接言語モデルである。図１５は、会話の経緯および各会話において選択された最高確率言語モデルと関連言語モデルとを示す説明図である。図１５に示すように、音声入力信号情報６０２として「今日の晩御飯は、マグロ丼にしよう。」が入力された後に、新しい音声として「野菜を買わないといけなかったんだ。」が入力される場合について音声認識動作を説明する。単語分類１０７を示す「飯」の言語モデル２０７が、「今日の晩御飯は、マグロ丼にしよう。」の音声入力信号情報についての最高確率言語モデルとして決定されている。言語モデル２０５は、言語モデル２０７と木構造において上下階層関係にある言語モデル２０４と隣り合っている。言語モデル２０５は、言語モデル２０７の階層よりも１つ上位階層に位置する言語モデル２０４と隣り合う位置である。この結果、単語分類１０７を示す「飯」の言語モデルの関連言語モデルとして、単語分類１０５を示す「食品」の言語モデル２０５が選択される。先回入力された「今日の晩御飯は、マグロ丼にしよう」の音声信号の次に、「野菜を買わないといけなかったんだ。」の音声信号が新しく入力されたとする。会話内容に単語分類１１１を示す「野菜」が含まれているため、「野菜」を含まない単語分類１０７を示す「飯」の言語モデル２０７では、単語分類１１１を示す「野菜」の生起確率は低くなってしまう。一方、言語モデル２０５は、下位の言語モデルとして単語分類「野菜」を含む単語分類「食品」に対応する上位言語モデルである。そのため、単語分類「野菜」を含む言語モデル２０５の方が、単語分類「飯」の言語モデル２０７よりも単語分類１１１を示す「野菜」の生起確率が高くなる。そのため、関連言語モデルとして最高確率言語モデル２０７の上位言語モデル２０４と隣合う隣接言語モデル２０５が選択されることで、下位に位置する言語モデル２１１を含む幅広い単語に対応した音声認識が可能となる。

[第２の実施形態]
以下、音声認識機能を備えた受付端末装置に本発明を適用した第２の実施形態について図面を参照して説明する。第２の実施形態の外観的構成及び電気的構成は、第１の実施形態と同じ構成である。

＜第２の実施形態のメイン動作の説明＞
以上説明した構成からなる第２の実施形態の受付端末装置１の動作及び作用について、添付図面を参照して説明する。図１６は、受付端末装置１におけるメイン動作の処理手順を示すフローチャートである。メイン動作は、第１の実施形態とほぼ同じ構成であるので、相違する部分についてのみ説明する。

ステップＳ６０４では、新しい音声信号が入力されたかが判定される。マイク４により所定の時間の間入力された音声の振幅が、所定の閾値より小さい場合、新しい音声信号が入力されないと判定される。マイク４により所定の時間の間入力された音声の振幅が、所定の閾値より大きい場合、新しい音声信号が入力されたと判定される。新しい音声が入力されたと判定されると、入力された音声は、音声入力信号情報６０２としてＲＡＭ６に一時記憶される。新しい音声信号が入力されたと判定された場合、ステップＳ６０５が実行される。新しい音声信号が入力されたと判定されなかった場合、再度ステップＳ６１２が実行される。

ステップＳ６０５では、第１の実施形態のメイン動作処理のステップＳ１０６と同様に、最高確率言語モデル決定処理が実行される。最高確率言語モデル決定処理により、関連言語モデル情報６０６として記憶された言語モデルを用いて、音声入力信号情報６０２として記憶される音声入力信号について生起確率の値が最高である言語モデルが決定される。ステップＳ６０５は、本発明の生起確率決定ステップと、言語モデル決定ステップとの一例である。

ステップＳ６０６では、第１の実施形態のメイン動作処理のステップＳ１０９と同様に、前回最高確率言語モデル情報６０７と、最高確率言語モデル情報６０３とが一致しているかが判定される。一致していないと判定された場合、ステップＳ６０７が実行される。一致していると判定された場合ステップＳ６０９が実行される。

ステップＳ６０７では、第１の実施形態のメイン動作処理のステップＳ１１０と同様に、最高生起確率情報６０５としてＲＡＭ６に記憶されている値が、所定の値より小さいか否かが判定される。所定の値より小さいと判定された場合、ステップＳ６０８が実行される。所定の値より小さいと判定されなかった場合、ステップＳ６０９が実行される。

ステップＳ６０８では、第１の実施形態のメイン動作処理のステップＳ１１１と同様に、関連言語モデルが再度選択される。関連言語モデル情報６０６としてＲＡＭ６に記憶されていた情報が、前回関連言語モデル情報６０８としてＲＡＭ６に一時記憶される。最高確率言語モデル情報６０３として記憶される言語モデルを用いて、関連言語モデルが再度決定される。そして、再度決定された関連言語モデルの中に、関連言語モデル情報６０６として記憶される関連言語モデルとは異なる言語モデルがある場合、その言語モデルは、新たに関連言語モデル情報６０６としてＲＡＭ６に一時記憶される。ステップＳＳ１１１で再度選択される言語モデルは、言語モデル情報６０１２からランダムに選択されても良い。

ステップＳ６０９では、第１の実施形態のメイン動作処理のステップＳ１１２と同様に、関連言語モデル選択処理が実行される。関連言語モデル選択処理により、最高確率言語モデル情報６０３としてＲＡＭ６に記憶された言語モデルを用いて、関連言語モデルが選択される。決定された関連言語モデルは、関連言語モデル情報６０６としてＲＡＭ６に一時記憶される。

ステップＳ６１０では、第１の実施形態のメイン動作処理のステップＳ１１３と同様に、前回関連言語モデル情報６０８と、関連言語モデル情報６０６とが一致しているかが判定される。一致していないと判定された場合、ステップＳ６０５が実行される。一致していると判定された場合ステップＳ６１１が実行される。

ステップＳ６１１では、最大生起確率認識結果情報６１０が出力される。

（変形例１）
第１の実施形態のＲＡＭ６とＨＤＤ７の変形例１について説明する。第１の実施形態では、言語モデル情報６０１２として記憶される言語モデルが、言語モデル生成プログラム７０１２により生成されているが、受付端末装置１により生成されなくても良い。別装置により生成された言語モデル情報６０１２が、ＨＤＤ７に予め記憶されている構成でも良い。

（変形例２）
第１の実施形態における関連言語モデルプログラム７０１４のステップ５０６及びステップＳ５０７の変形例２について説明する。ステップＳ５０６とステップＳ５０７とでは、最高確率言語モデルの上位に位置する上位言語モデルと隣接する言語モデルが、隣接言語モデルとして選択されている。上位言語モデルに隣接する言語モデルの代わりに、最高確率言語モデルの下位に位置する下位言語モデルと隣り合う言語モデルが、隣接言語モデルとして選択されても良い。

（変形例３）
第１の実施形態における関連言語モデルプログラム７０１４の変形例３について説明する。図１７は、言語モデル２０１〜２１３それぞれが音声認識を行なう言語モデルとして決定された後に、次回音声認識を行なう言語モデルとして決定された言語モデルの決定履歴回数を示すテーブルが、言語モデル情報６０１２としてＲＡＭ６に一時記憶される記憶状態を示す概念図である。最高確率言語モデルとして言語モデル２０１が決定された場合、図１７に示す履歴回数が多い言語モデル２０５と言語モデル２０７とが、関連言語モデルとして選択されても良い。

（変形例４）
第１の実施形態及び第２の実施形態におけるメイン動作プログラム７０１１のステップＳ１０３及びステップＳ６０３の変形例４について説明する。ステップ１０３及びステップＳ６０３では、言語モデル情報に記憶される木構造の最上位の言語モデルが、最高確率言語モデルとして決定されている。ステップＳ１０３及びステップＳ６０３で木構造の最上位に位置する言語モデルが最高言語モデルとして決定される代わりに、言語モデル情報６０１２として記憶される全ての言語モデルを用いて、最高確率言語モデルが決定されても良い。また、言語モデル情報６０１２として記憶される一部の言語モデルを用いて、最高確率言語モデルが決定されても良い。

（変形例５）
第１の実施形態における関連言語モデル選択プログラム７０１４のステップＳ５０１からステップＳ５０７までの変形例５について説明する。ステップＳ５０１からステップＳ５０７までにより選択される関連言語モデルとして、木構造において最高確率言語モデルと上下階層関係により最高確率言語モデルに関連付けられる全ての言語モデルが選択されても良い。また、木構造において最高確率言語モデルと上下階層関係により最高確率言語モデルに関連のある言語モデルの一部が選択されても良い。

（変形例６）
第１の実施形態における関連言語モデル選択プログラム７０１４のステップＳ５０２からステップＳ５０７までの変形例６について説明する。第１の実施形態では、関連言語モデルとして、木構造において関連し合う最高確率言語モデルの上位に位置する上位言語モデルと、上位言語モデルと隣り合う隣接言語モデルとが選択されている。関連言語モデルとして木構造を用いず、単語分類の意味の類似性により関連付けられても良い。複数の単語が同じ１文に出現する出現頻度が、意味の類似性として用いても良い。

(変形例７)
第１の実施形態における関連言語モデル選択プログラム７０１４のステップＳ５０２及びステップＳ５０３とステップＳ５０４及びステップＳ５０５の変形例７について説明する。ステップＳ５０４とステップＳ５０５では、最高確率言語モデルより１つ上位の階層位置に位置する上位言語モデルが関連言語モデルとして選択されている。最高確率言語モデルより１つ上位の階層位置に位置する上位言語モデルだけでなく、最高確率言語モデルと関連がある複数階層上位に位置する上位言語モデルが選択されても良い。また、ステップＳ５０２及びステップＳ５０３の変形例として、最高確率言語モデルと関連がある複数階層下位に位置する下位言語モデルが、関連言語モデルとして選択されても良い。

（変形例８）
第１の実施形態及び第２実施形態におけるメイン動作プログラム７０１１の変形例８について説明する。第１の実施形態におけるメイン動作プログラムのステップＳ１０９、ステップＳ１１０、ステップＳ１１１、ステップＳ１１３の少なくとも１つのステップがなくても良い。ステップＳ１０９、ステップＳ１１０、ステップＳ１１１、ステップＳ１１３全てがなくても良い。また、第２の実施形態におけるメイン動作プログラムのステップＳ６０６、ステップＳ６０７、ステップＳ６０８、ステップＳ６１０の少なくとも１つのステップがなくても良い。ステップＳ６０６、ステップＳ６０７、ステップＳ６０８、ステップＳ６１０全てがなくても良い。

（変形例９）
第１の実施形態における関連言語モデルプログラム７０１４の変形例９について説明する。関連言語モデルとして選択された言語モデルにおける生起確率の値が、これまで決定してきた生起確率の中で最も低い生起確率の場合、関連言語モデルから、生起確率が最も低い言語モデルは除外されても良い。

第１の実施形態における受付端末装置１の外観図である。第１の実施形態における受付端末装置１の電気的構成を示すブロック図である。第１の実施形態における言語モデル生成文章情報７０２１としてＨＤＤ７に記憶される記憶状態を示す概念図である。第１の実施形態における単語分類情報７０２２としてＨＤＤ７に記憶される記憶状態を示す概念図である。第１の実施形態における言語モデル情報６０１２としてＲＡＭ６に記憶される記憶状態を示す概念図である。第１の実施形態における言語モデル生起確率情報６０４としてＲＡＭ６に記憶される記憶状態を示す概念図である。第１の実施形態における関連言語モデル６０６としてＲＡＭ６に記憶される記憶状態を示す概念図である。第１の実施形態におけるメイン動作を示すフローチャートである。第１の実施形態における言語モデル生成処理動作を示すフローチャートである。第１の実施形態における単語分類文集合６０１１としてＲＡＭ６に記憶される記憶状態を示す概念図である。第１の実施形態における単語分類文集合６０１１としてＲＡＭ６に記憶される記憶状態を示す概念図である。第１の実施形態における最高確率言語モデル決定処理動作を示すフローチャートである。第１の実施形態における関連言語モデル選択処理動作を示すフローチャートである。第１の実施形態における会話の経緯および各会話において選択された最高確率言語モデルと関連言語モデルとを示す説明図である。第１の実施形態における会話の経緯および各会話において選択された最高確率言語モデルと関連言語モデルとを示す説明図である。第２の実施形態におけるメイン動作を示すフローチャートである。第１の実施形態の変形例４における言語モデルの決定履歴回数を示すテーブルが、言語モデル情報６０１２としてＲＡＭ６に記憶される記憶状態を示す概念図である。

符号の説明

１受付端末装置
２ディスプレイ
３マイク
４スピーカ
５ＣＰＵ
６ＲＡＭ
７ＨＤＤ
１０１単語分類
１０２単語分類
１０３単語分類
１０４単語分類
１０５単語分類
１０６単語分類
１０７単語分類
１０８単語分類
１０９単語分類
１１０単語分類
１１１単語分類
１１２単語分類
１１３単語分類
２０１言語モデル
２０２言語モデル
２０３言語モデル
２０４言語モデル
２０５言語モデル
２０６言語モデル
２０７言語モデル
２０８言語モデル
２０９言語モデル
２１０言語モデル
２１１言語モデル
２１２言語モデル
２１３言語モデル
６０１言語モデル生成情報
６０２音声入力信号情報
６０３最高確率言語モデル情報
６０４言語モデル生起確率情報
６０５最高生起確率情報
６０６関連言語モデル情報
６０７前回最高確率言語モデル情報
６０８前回関連言語モデル情報
６０９生起確率計算情報
６０１１単語分類文集合情報
６０１２言語モデル情報
６０１３判別単語分類情報
６０１４分類文章記憶情報
６０９１言語モデル一時情報
６０９２生起確率一時情報
６０９３認識結果一時情報
６１０最高生起確率認識結果情報
７０１１メイン動作プログラム
７０１２言語モデル生成プログラム
７０１３最高確率言語モデル決定プログラム
７０１４関連言語モデル選択プログラム
７０２１言語モデル生成文章情報
７０２２単語分類情報

Claims

多数の言語モデルを互いに関連付けて記憶する言語モデル記憶部と、
音声入力部により入力される音声信号に対応する単語列と、前記言語モデル記憶部に記憶された多数の言語モデルの少なくとも一部の言語モデルの各々とを比較することで、各言語モデルについて前記単語列が生起する生起確率を決定する生起確率決定部と、
前記生起確率決定部により各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する言語モデル決定部と、
前記生起確率決定部が、前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも１つの関連言語モデルとを選択する言語モデル選択部と、
を備えることを特徴とする音声認識装置。
前記言語モデル選択部により選択された前記関連言語モデルが、前記一部の言語モデル以外の言語モデルの中から選択されたか否かを判別する関連言語モデル判別部を備え、
前記関連言語モデル判別部が、前記言語モデル記憶部に記憶された前記一部の言語モデル以外の言語モデルの中から前記関連言語モデルが選択されたと判別した場合、前記生起確率決定部は、前記音声入力部により先回入力された音声信号に対応する前記単語列と、前記選択された最高確率言語モデル及び関連言語モデルとを比較することで、前記選択された最高確率言語モデル及び関連言語モデルについてのみ前記生起確率を決定することを特徴とする請求項１に記載の音声認識装置。
前記音声入力部により、新しく音声信号が入力された場合、前記生起確率決定部は、前記新しく入力された音声信号に対応する単語列と、前記選択された最高確率言語モデル及び関連言語モデルとを比較することで、前記選択された最高確率言語モデル及び関連言語モデルについてのみ前記生起確率を決定することを特徴とする請求項１または請求項２に記載の音声認識装置。
前記最高確率言語モデルについての生起確率の値より、前記関連言語モデルについての生起確率の値の方が大きい場合、前記言語モデル決定部は、前記関連言語モデルを最高確率言語モデルとして再度決定し、
前記言語モデル選択部は、前記再度決定された最高確率言語モデルと、その最高確率言語モデルに関連する関連言語モデルとを選択し、
前記生起確率決定部は、前記新しく入力された音声信号に対応する単語列と、前記再度決定された最高確率言語モデル及び前記関連言語モデルとを比較することで、前記再度選択された最高確率言語モデル及び前記関連言語モデルについてのみ生起確率を決定することを特徴とする請求項３に記載の音声認識装置。
前記選択された最高確率言語モデル及び前記関連言語モデルについて前記単語列が生起する前記生起確率の値が所定の値以下の場合、前記生起確率決定部は、前記言語モデル記憶部に記憶された多数の言語モデルの中の少なくとも一部の言語モデルについて前記単語列が生起する生起確率を再度決定することを特徴とする請求項２から請求項４のいずれかに記載の音声認識装置。
前記言語モデル決定部は、前記生起確率決定部により決定された生起確率の中で、前記生起確率が最も低い最低確率言語モデルを決定し、
前記言語モデル選択部は、前記言語モデル決定部により決定された最低確率言語モデルを除いた言語モデルから前記関連言語モデルを選択することを特徴とする請求項１から請求項５のいずれかに記載の音声認識装置。
前記言語モデル記憶部は、多数の所定の単語に基づいて分類されたテキストデータを用いて、前記多数の所定の単語に対応して生成された多数の言語モデルを記憶し、
前記多数の言語モデルは、意味が類似する複数の所定の単語に対応して互いに関連付けられて前記言語モデル記憶部に記憶されることを特徴とする請求項１から請求項６のいずれかに記載の音声認識装置。
前記多数の言語モデルは、意味が類似する複数の所定の単語に対応して互いに関連付けられて、木構造として前記言語モデル記憶部に記憶され、
前記多数の言語モデルにおける所定の言語モデルの上位に位置する上位言語モデルは、前記上位言語モデルの下位に位置する複数の言語モデルを生成するために用いられたテキストデータを用いて生成された言語モデルであることを特徴とする請求項７に記載の音声認識装置。
前記言語モデル選択部は、木構造において、前記最高確率言語モデルと上下階層関係により関連付けられる前記最高確率言語モデルの上位に位置する前記上位言語モデルの少なくとも１つの関連言語モデルと、前記最高確率言語モデルとを選択することを特徴とする請求項８に記載の音声認識装置。
前記多数の言語モデルにおける所定の言語モデルの下位に位置する下位言語モデルは、前記所定の言語モデルを生成するために用いられたテキストデータの一部を用いて生成された言語モデルであり、
前記言語モデル選択部は、木構造において、上下階層関係により関連付けられる前記最高確率言語モデルの下位に位置する前記下位言語モデルの少なくとも１つの関連言語モデルと、前記最高確率言語モデルとを選択することを特徴とする請求項８または請求項９に記載の音声認識装置。
前記言語モデル選択部は、木構造において、上下階層関係により関連付けられる前記最高確率言語モデルの上位に位置する前記上位言語モデルと同一階層で隣合う関係により関連付けられる少なくとも１つの関連言語モデルと、前記最高確率言語モデルとを選択することを特徴とする請求項８から請求項１０のいずれかに記載の音声認識装置。
多数の言語モデルを互いに関連付けて記憶する言語モデル記憶ステップと、
音声入力部により入力される音声信号に対応する単語列と、前記言語モデル記憶ステップにより記憶された多数の言語モデルの少なくとも一部の言語モデルの各々とを比較することで、各言語モデルについて前記単語列が生起する生起確率を決定する生起確率決定ステップと、
前記生起確率決定ステップにより各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する言語モデル決定ステップと、
前記生起確率決定ステップが、前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも１つの関連言語モデルとを選択する言語モデル選択ステップと、
を備えることを特徴とする音声認識方法。
多数の言語モデルを互いに関連付けて記憶する言語モデル記憶ステップと、
音声入力部により入力される音声信号に対応する単語列と、前記言語モデル記憶ステップにより記憶された多数の言語モデルの少なくとも一部の言語モデルの各々とを比較することで、各言語モデルについて前記単語列が生起する生起確率を決定する生起確率決定ステップと、
前記生起確率決定ステップにより各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する言語モデル決定ステップと、
前記生起確率決定ステップが、前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも１つの関連言語モデルとを選択する言語モデル選択ステップと、
をコンピュータに実現させる音声認識プログラム。