JP2010078934A - 音声認識装置、音声認識方法、及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法、及び音声認識プログラム Download PDF

Info

Publication number
JP2010078934A
JP2010078934A JP2008247374A JP2008247374A JP2010078934A JP 2010078934 A JP2010078934 A JP 2010078934A JP 2008247374 A JP2008247374 A JP 2008247374A JP 2008247374 A JP2008247374 A JP 2008247374A JP 2010078934 A JP2010078934 A JP 2010078934A
Authority
JP
Japan
Prior art keywords
language model
probability
language
highest
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008247374A
Other languages
English (en)
Inventor
Toshiyuki Hatada
敏行 幡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2008247374A priority Critical patent/JP2010078934A/ja
Publication of JP2010078934A publication Critical patent/JP2010078934A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】
本発明の目的は、音声認識に用いる言語モデルを決定するための情報処理の負担が少なく、且つ、精度良い音声認識を行うことが可能な音声認識装置を提供することである。
【解決手段】
最高確率言語モデルプログラム7013により、マイク4により入力された音声信号と、言語モデル情報6012としてRAM6に記憶される言語モデルとを比較することで、最高確率言語モデルが決定される。関連言語モデル選択プログラム7014により、最高確率言語モデルを用いて、次回音声認識を行うための言語モデルを決定するための関連言語モデルが選択される。
【選択図】図8

Description

本発明は、音声認識装置に関する。詳細には、複数の言語モデルを用いて音声認識を行う音声認識装置において、入力された音声信号に対応する単語列の生起確率に応じて選択された言語モデルを用いて音声認識を行う音声認識装置に関する。
特許文献1には、言語モデルの学習に用いるテキストコーパスをクラスタリングし、任意に抽出された複数のクラスタに対応する複数の言語モデルを構築する音声認識装置が開示されている。特許文献1に記載の音声認識装置は、学習用テキストコーパス全体について生成された多数の言語モデルの全てについて、各言語モデルごとの生起確率を決定し、生起確率の最も高い言語モデルを決定する。そして、生起確率の最も高い言語モデルと、複数のクラスタに対応して構築された複数の言語モデルとを用いて音声認識が行われている。音声認識を行う言語モデルとして、最も生起確率の高い言語モデルを用いるため、精度良い音声認識を行うことができる。
特許文献2には、予め分類された対話の場面ごとに異なる複数の言語モデルをメモリに記憶し、対話場面に応じて言語モデルを切り替える対話システムが開示されている。特許文献2に記載の対話システムでは、ユーザが対話システムとの対話を開始または終了する場面と、対話システムがユーザに質問する場面とに予め対応した言語モデルがメモリに記憶される。この結果、予め想定される場面に対応する言語モデルが決定されているため、対話システムにより音声認識を行うための計算量が少なくなる。
特開2000−75886号公報 特開平7−104786号公報
しかしながら、特許文献1に記載された音声認識装置では、精度良い音声認識を行うことができるが、生起確率の最も高い言語モデルと、各クラスタに対応して構築された言語モデルの全てとを用いて、音声認識を行っているため情報処理量が多くなり、実用的ではなかった。また、特許文献2に記載された対話システムでは、予め想定される対話場面に対応する言語モデルが決定されているため音声認識を行う際の計算量は少ないが、想定されていない対話場面のときに音声認識率が低くなってしまい、依然として問題が残されていた。
本発明は、上述した問題点を解決するためになされたものである。本発明の目的は、音声認識に用いる言語モデルを決定するための情報処理の負担が少なく、且つ、精度良い音声認識を行うことが可能な音声認識装置を提供することである。
この目的を達成するために、請求項1に記載の発明は、多数の言語モデルを互いに関連付けて記憶する言語モデル記憶部と、音声入力部により入力される音声信号に対応する単語列と、前記言語モデル記憶部に記憶された多数の言語モデルの少なくとも一部の言語モデルの各々とを比較することで、各言語モデルについて前記単語列が生起する生起確率を決定する生起確率決定部と、前記生起確率決定部により各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する言語モデル決定部と、前記生起確率決定部が、前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも1つの関連言語モデルとを選択する言語モデル選択部と、を備えることを特徴としている。
請求項2に記載の発明は、前記言語モデル選択部により選択された前記関連言語モデルが、前記一部の言語モデル以外の言語モデルの中から選択されたか否かを判別する関連言語モデル判別部を備え、前記関連言語モデル判別部が、前記言語モデル記憶部に記憶された前記一部の言語モデル以外の言語モデルの中から前記関連言語モデルが選択されたと判別した場合、前記生起確率決定部は、前記音声入力部により先回入力された音声信号に対応する前記単語列と、前記選択された最高確率言語モデル及び関連言語モデルとを比較することで、前記選択された最高確率言語モデル及び関連言語モデルについてのみ前記生起確率を決定することを特徴としている。
請求項3に記載の発明は、前記音声入力部により、新しく音声信号が入力された場合、前記生起確率決定部は、前記新しく入力された音声信号に対応する単語列と、前記選択された最高確率言語モデル及び関連言語モデルとを比較することで、前記選択された最高確率言語モデル及び関連言語モデルについてのみ前記生起確率を決定することを特徴としている。
請求項4に記載の発明は、前記最高確率言語モデルについての生起確率の値より、前記関連言語モデルについての生起確率の値の方が大きい場合、前記言語モデル決定部は、前記関連言語モデルを最高確率言語モデルとして再度決定し、前記言語モデル選択部は、前記再度決定された最高確率言語モデルと、その最高確率言語モデルに関連する関連言語モデルとを選択し、前記生起確率決定部は、前記新しく入力された音声信号に対応する単語列と、前記再度決定された最高確率言語モデル及び前記関連言語モデルとを比較することで、前記再度選択された最高確率言語モデル及び前記関連言語モデルについてのみ生起確率を決定することを特徴としている。
請求項5に記載の発明は、前記選択された最高確率言語モデル及び前記関連言語モデルについて前記単語列が生起する前記生起確率の値が所定の値以下の場合、前記生起確率決定部は、前記言語モデル記憶部に記憶された多数の言語モデルの中の少なくとも一部の言語モデルについて前記単語列が生起する生起確率を再度決定することを特徴としている。
請求項6に記載の発明は、前記言語モデル決定部は、前記生起確率決定部により決定された生起確率の中で、前記生起確率が最も低い最低確率言語モデルを決定し、前記言語モデル選択部は、前記言語モデル決定部により決定された最低確率言語モデルを除いた言語モデルから前記関連言語モデルを選択することを特徴としている。
請求項7に記載の発明は、前記言語モデル記憶部は、多数の所定の単語に基づいて分類されたテキストデータを用いて、前記多数の所定の単語に対応して生成された多数の言語モデルを記憶し、前記多数の言語モデルは、意味が類似する複数の所定の単語に対応して互いに関連付けられて前記言語モデル記憶部に記憶されることを特徴としている。
請求項8に記載の発明は前記多数の言語モデルは、前記多数の言語モデルは、意味が類似する複数の所定の単語に対応して互いに関連付けられて、木構造として前記言語モデル記憶部に記憶され、前記多数の言語モデルにおける所定の言語モデルの上位に位置する上位言語モデルは、前記上位言語モデルの下位に位置する複数の言語モデルを生成するために用いられたテキストデータを用いて生成された言語モデルであることを特徴としている。
請求項9に記載の発明は、前記言語モデル選択部は、木構造において、前記最高確率言語モデルと上下階層関係により関連付けられる前記最高確率言語モデルの上位に位置する前記上位言語モデルの少なくとも1つの関連言語モデルと、前記最高確率言語モデルとを選択することを特徴としている。
請求項10に記載の発明は、前記多数の言語モデルにおける所定の言語モデルの下位に位置する下位言語モデルは、前記所定の言語モデルを生成するために用いられたテキストデータの一部を用いて生成された言語モデルであり、前記言語モデル選択部は、木構造において、上下階層関係により関連付けられる前記最高確率言語モデルの下位に位置する前記下位言語モデルの少なくとも1つの関連言語モデルと、前記最高確率言語モデルとを選択することを特徴としている。
請求項11に記載の発明は、前記言語モデル選択部は、木構造において、上下階層関係により関連付けられる前記最高確率言語モデルの上位に位置する前記上位言語モデルと同一階層で隣合う関係により関連付けられる少なくとも1つの関連言語モデルと、前記最高確率言語モデルとを選択することを特徴としている。
請求項12に記載の発明は、多数の言語モデルを互いに関連付けて記憶する言語モデル記憶ステップと、音声入力部により入力される音声信号に対応する単語列と、前記言語モデル記憶ステップにより記憶された多数の言語モデルの少なくとも一部の言語モデルの各々とを比較することで、各言語モデルについて前記単語列が生起する生起確率を決定する生起確率決定ステップと、前記生起確率決定ステップにより各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する言語モデル決定ステップと、前記生起確率決定ステップが、前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも1つの関連言語モデルとを選択する言語モデル選択ステップと、を備えることを特徴とする音声認識方法である。
請求項13に記載の発明は、多数の言語モデルを互いに関連付けて記憶する言語モデル記憶ステップと、音声入力部により入力される音声信号に対応する単語列と、前記言語モデル記憶ステップにより記憶された多数の言語モデルの少なくとも一部の言語モデルの各々とを比較することで、各言語モデルについて前記単語列が生起する生起確率を決定する生起確率決定ステップと、前記生起確率決定ステップにより各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する言語モデル決定ステップと、前記生起確率決定ステップが、前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも1つの関連言語モデルとを選択する言語モデル選択ステップと、をコンピュータに実現させる音声認識プログラムである。
請求項1に記載の発明によれば、言語モデル記憶部は、多数の言語モデルを互いに関連付けて記憶する。言語モデル決定部は、生起確率が最も高い言語モデルを音声認識に用いる言語モデルとして決定する。前記生起確率決定部が前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、言語モデル選択部は、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも1つの関連言語モデルとを選択する。この結果、次回入力される音声信号に対応する単語列と比較を行う言語モデルとして、全ての言語モデルが選択される場合と比べると、最高確率言語モデルと関連言語モデルとの中から次回音声認識に用いる言語モデルが決定され、その言語モデルを決定するための情報処理の負担が少ない。また、入力された音声信号に対応する単語列と次回比較を行う言語モデルとして、最高確率言語モデルと関連言語モデルとが選択されるため、先回決定された最高確率言語モデルでは音声認識が上手く行かない場合、又は、音声認識が困難な対話場面でも、最高確率言語モデルと関連言語モデルとの中から音声認識を行うための最適な言語モデルを再度決定することが可能になるため、音声認識を精度良く行うことが可能になる。
請求項2に記載の発明によれば、関連言語モデル判別部が、言語モデル記憶部に記憶された一部の言語モデル以外の言語モデルの中から関連言語モデルが選択されたと判別した場合、生起確率決定部は、音声入力部により先回入力された音声信号に対応する単語列と、選択された最高確率言語モデル及び関連言語モデルとを比較することで、選択された最高確率言語モデル及び関連言語モデルについてのみ生起確率を決定する。この結果、先回入力された音声信号に関して、最高確率言語モデルについての生起確率より、関連言語モデルについての生起確率の方が大きい場合が存在することから、先回入力された音声信号に関して関連言語モデルについての生起確率が新たに決定され、再度決定された生起確率に基づいて前記先回入力された音声信号を認識するために最適な最高確率言語モデルの選択が可能になる。ある会話の特定の音声信号に対応した単語について、最高確率言語モデルと比較して決定された生起確率よりも、関連言語モデルと比較して決定された生起確率が高い場合、音声認識を行う言語モデルとして関連言語モデルを選択することができる。先回最高確率言語モデルとして決定された言語モデルを用いて音声認識を行うのと比較すると、音声認識を行うための最適な言語モデルを、最高確率言語モデルと関連言語モデルとから選択することができるため、音声認識を精度良く行えるため効果的である。
請求項3に記載の発明によれば、音声入力部により、新しく音声信号が入力された場合、生起確率決定部は、新しく入力された音声信号に対応する単語列と、選択された最高確率言語モデル及び関連言語モデルとを比較することで、選択された最高確率言語モデル及び関連言語モデルについてのみ生起確率を決定する。この結果、現在の会話内容において生起確率の最も高い最高確率言語モデルと、それに関連付けられた関連言語モデルとの中から、次回音声認識を行う言語モデルが選択される。現在の会話内容に関連のある話題へ会話が展開された場合、現在の会話内容において生起確率の最も高い言語モデルに関連付けられた言語モデルを用いて音声認識を行うことができる。そのため、高い精度を維持し続けながら音声認識を行うことができる。
請求項4記載の発明によれば、最高確率言語モデルについての生起確率の値より、関連言語モデルについての生起確率の値の方が大きい場合、言語モデル決定部は、関連言語モデルを最高確率言語モデルとして再度決定する。その後、言語モデル選択部は、再度決定された最高確率言語モデルと、その最高確率言語モデルに関連する関連言語モデルとを選択する。生起確率決定部は、新しく入力された音声信号に対応する単語列と、再度決定された最高確率言語モデル及び関連言語モデルとを比較することで、再度選択された最高確率言語モデル及び関連言語モデルについてのみ生起確率を決定する。この結果、関連言語モデルと最高確率言語モデルとの生起確率を比較して、関連言語モデルの生起確率が大きい場合、言語モデルの選択及び生起確率の決定の処理を繰り返し行うことができるため、前記新しく入力された音声信号に対応する単語列について最適な言語モデルを選択することができることで、精度良い音声認識を行うことが可能となる。
請求項5記載の発明によれば、選択された最高確率言語モデル及び関連言語モデルについて単語列が生起する生起確率の値が所定の値以下の場合、生起確率決定部は、言語モデル記憶部に記憶された多数の言語モデルの中の少なくとも一部の言語モデルについて単語列が生起する生起確率を再度決定する。この結果、決定された生起確率が所定の値より小さい場合は、最高確率言語モデル及び関連言語モデルのみを用いて生起確率を決定せず、再度、言語モデル記憶部に記憶される多数の言語モデルを用いて生起確率を決定する。従って、言語モデル記憶部に記憶される多数の言語モデルを用いて、音声信号に対応する単語列について最適な言語モデルを決定することができる。
請求項6記載の発明によれば、言語モデル決定部は、生起確率決定部により決定された生起確率の中で、生起確率が最も低い最低確率言語モデルを決定する。言語モデル選択部は、言語モデル決定部により決定された最低確率言語モデルを除いた言語モデルから関連言語モデルを選択する。この結果、言語モデル選択部は、生起確率の最も高い言語モデルに関連する言語モデルであっても、生起確率の最も低い言語モデルを選択しない。そのため、音声認識を行う言語モデルとして、生起確率の最も低い最低確率言語モデルが選択されないため、音声認識の低下を防ぐことができる。
請求項7記載の発明によれば、言語モデル記憶部は、多数の所定の単語に基づいて分類されたテキストデータを用いて、多数の所定の単語に対応して生成された多数の言語モデルを記憶する。多数の言語モデルは、意味が類似する複数の所定の単語に対応して互いに関連付けられて言語モデル記憶部に記憶される。この結果、意味が類似する単語に対応する言語モデルが、関連言語モデルとして選択されるため、現在の会話内容に類似した会話内容に変わった場合、その関連言語モデルを用いて音声認識を行うため、精度良い音声認識を維持することができる。
請求項8に記載の発明によれば、前記多数の言語モデルは、意味が類似する複数の所定の単語に対応して互いに関連付けられて、木構造として前記言語モデル記憶部に記憶される。前記多数の言語モデルにおける所定の言語モデルの上位に位置する上位言語モデルは、前記上位言語モデルの下位に位置する複数の言語モデルを生成するために用いられたテキストデータを用いて生成された言語モデルである。所定の言語モデルの上位に位置する上位言語モデルは、その上位言語モデルの下位に位置する言語モデルと対応付けられた単語を含んだ会話内容を認識するための言語モデルとして、言語モデル記憶部に記憶される。上位言語モデルを生成するためのテキストデータは、前記上位言語モデルの下位に位置する下位言語モデルを生成するためのテキストデータと共通している。この結果、入力された音声信号に対応する単語列が、下位に位置する言語モデルと対応付けられた単語を含む広い概念の会話内容である場合、上位に位置する言語モデルが音声認識を行う言語モデルとして選択されることで、下位に位置する言語モデルに対応付けられた単語を含む広い概念の会話内容についても音声認識が可能となる。また、入力された音声信号に対応する単語列が、下位に位置する言語モデルに対応付けられた具体的な狭い概念の会話内容である場合、下位に位置する言語モデルが音声認識を行う言語モデルとして、選択されることで、具体的な会話内容について精度良い音声認識を行うことが可能となる。
請求項9記載の発明によれば、言語モデル選択部は、木構造において、最高確率言語モデルと上下階層関係により関連付けられる最高確率言語モデルの上位に位置する上位言語モデルの少なくとも1つの関連言語モデルと、最高確率言語モデルとを選択する。この結果、最高確率言語モデルの上位に位置する上位言語モデルが、関連言語モデルとして選択されることから、最高確率言語モデルでは音声認識が困難な会話でも、その上位言語モデルに対応する単語を含んだ会話内容についても音声認識を行うことができるため、精度良く音声認識を行うことが可能になる。例えば、入力された音声信号に対応する単語列が、下位に位置する言語モデルと対応付けられた単語を含む広い概念の会話内容である場合、上位に位置する関連言語モデルにより広い概念の会話内容についても音声認識を精度良く行うことが可能となる。
請求項10記載の発明によれば、多数の言語モデルにおける所定の言語モデルの下位に位置する下位言語モデルは、所定の言語モデルを生成するために用いられたテキストデータの一部を用いて生成された言語モデルである。言語モデル選択部は、木構造において、上下階層関係により関連付けられる最高確率言語モデルの下位に位置する下位言語モデルの少なくとも1つの関連言語モデルと、最高確率言語モデルとを選択する。この結果、言語モデル選択部は、所定の単語に対応する特定の会話内容に特化した前記下位の言語モデルを関連言語モデルとして選択する。従って、最高確率言語モデルの下位に位置する関連言語モデルを用いて、特定の会話内容及び単語に特化した音声認識を精度良く行うことができる。例えば、入力された音声信号に対応する単語が、下位に位置する言語モデルに対応付けられた具体的な単語に関連する会話内容である場合、下位に位置する関連言語モデルにより、具体的な会話内容について精度良い音声認識を行うことが可能となる。
請求項11記載の発明によれば、言語モデル選択部は、木構造において、上下階層関係により関連付けられる最高確率言語モデルの上位に位置する前記上位言語モデルと同一階層で隣合う関係により関連付けられる少なくとも1つの関連言語モデルと、最高確率言語モデルとを選択する。この結果、最高確率言語モデルの上位に位置する言語モデルと同一階層で隣合う言語モデルが関連言語モデルとして選択されることで、前記上位に位置する言語モデルと隣合う言語モデルに対応する単語を含んだ会話内容についても音声認識を行うことが可能になる。そのため、幅広い話題及び単語に対応可能な音声認識を行うことが可能になる。例えば、入力された音声信号に対応する単語列が、ある所定の言語モデルの上位に位置する上位言語モデルと隣合う上位言語モデルの下位言語モデルと対応付けられた単語を含む広い概念の会話内容である場合、前記隣合う上位言語モデルが関連言語モデルとして選択されることで、前記隣合う上位言語モデルの下位言語モデルに対応付けられた単語を含む広い概念の会話内容についても音声認識が可能となる。
請求項12と請求項13との発明によれば、言語モデル記憶ステップは、多数の言語モデルを互いに関連付けて記憶する。言語モデル決定ステップは、生起確率決定ステップにより各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する。言語モデル選択ステップは、生起確率決定ステップが、入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、言語モデル決定部により決定された最高確率言語モデルと、最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも1つの関連言語モデルとを選択する。この結果、次回入力される音声信号に対応する単語列と比較を行う言語モデルとして、全ての言語モデルが選択される場合と比べると、最高確率言語モデルと関連言語モデルのみから次回音声認識に用いる言語モデルが決定されるため、音声認識を行うために用いる言語モデルを決定するための情報処理の負担が少ない。また、次回入力された音声信号に対応する単語列と比較を行う言語モデルとして、最高確率言語モデルと関連言語モデルとが選択されるため、先回決定された最高確率言語モデルでは音声認識が上手く行かない場合、又は、音声認識が困難な対話場面でも、最高確率言語モデルと関連言語モデルとを用いて入力された音声信号に対応する単語列を音声認識を行うための最適な言語モデルを再度決定することが可能になるため、音声認識を精度良く行うことが可能になる。
[第1実施形態]
以下、音声認識機能を備えた受付端末装置に本発明を適用した第1の実施形態について図面を参照して説明する。
<第1の実施形態の概観図>
図1は、本発明を適用した第1の実施形態の受付端末装置1の概観図である。受付端末装置1は、ディスプレイ2とスピーカ3とマイク4とを備える。ディスプレイ2は、ユーザに表示情報を表示する。スピーカ3は外部に音声を出力する。マイク4は、受付端末1へ音声信号を入力する。
<第1の実施形態の電気的構成>
図2は、第1の実施形態の受付端末装置1の電気的構成を示すブロック図である。図2に示すように、受付端末装置1には、受付端末装置1を制御するCPU5が備えられている。CPU5には、ディスプレイ2とスピーカ3とマイク4とRAM6とHDD7とがそれぞれ電気的に接続されている。CPU5は、RAM6、HDD7などの記憶手段と共に、受付端末装置1の動作を制御処理するコンピュータを構成している。CPU5と記憶手段とからなるコンピュータは、本発明の生起確率決定部と、言語モデル決定部と、言語モデル選択部と、関連言語モデル判別部と、の一例である。
HDD7には、プログラム701と言語モデル生成情報702とが記憶されている。
プログラム701は、メイン動作プログラム7011と、言語モデル生成プログラム7012と、最高確率言語モデル決定プログラム7013と、関連言語モデル選択プログラム7014とを含む。メイン動作プログラム7011は、受付端末装置1を制御するためのプログラムである。言語モデル生成プログラム7012は、言語モデルを生成するためのプログラムである。最高確率言語モデル決定プログラム7013は、マイク4から入力される音声信号について音声認識を行うために、複数の言語モデルから、生起確率が最高である言語モデルを決定するためのプログラムである。関連言語モデル選択プログラム7014は、最高確率言語モデルプログラム7013により決定された最高確率言語モデルを用いて、次回音声認識を行うための言語モデルを決定するための関連言語モデルを選択するためのプログラムである。
言語モデル生成情報702は、言語モデル生成文章情報7021と、単語分類情報7022とを含む。
言語モデル生成文章情報7021は、言語生成プログラム7012により言語モデルを生成するための文章である。図3は、言語モデル生成文章情報7021がHDD7に記憶される記憶状態を示す概念図である。図3に示すように、言語モデル生成文章情報7021として、多数の文章が記憶されている。
単語分類情報7022は、言語モデル生成文章情報7021としてHDD7に記憶された多数の文章の分類分けを行なうための単語分類である。図4は単語分類情報7022としてHDD7に記憶された単語分類の概念図である。図4では、13個の単語分類101〜113が分類分けされている。図4の単語分類101を示す「人工物」は、単語分類102を示す「食料」と、単語分類103を示す「薬品」とを含む単語分類であることを表している。図4の単語分類102を示す「食料」は、単語分類104を示す「料理」と、単語分類105を示す「食品」と、単語分類106を示す「嗜好品」とを含む単語分類であることを表している。また、各単語分類は、その単語分類に含まれる複数の単語から構成される。例えば、図4の単語分類109を示す「パン」は、「パン」に関する単語「あんぱん」、「渦巻パン」、「サンドイッチ」などのパンに関連する単語により構成されている。また、単語分類101を示す「人工物」を構成する単語ではあるが、単語分類102を示す「食料」と単語分類103を示す「薬品」とに含まれない単語があっても良い。第1の実施形態で用いる単語分類は、日本語語彙体系(http://www.kecl.ntt.co.jp/mtg/resources/GoiTaikei/)を用いて分類分けされる。なお、本明細書では、上記で説明した、単語分類101が単語分類102と単語分類103とを含む単語分類であることを、単語分類101は、単語分類102と単語分類103との上位に位置する単語分類であると表現する。また、本明細書では、単語分類102と単語分類103とは、単語分類101の下位に位置する単語分類であると表現する。
RAM6は、公知のRAMから構成される。RAM6は、言語モデル生成情報601と、音声入力信号情報602と、最高確率言語モデル情報603と、言語モデル生起確率情報604と、最高生起確率情報605と、関連言語モデル情報606と、前回最高確率言語モデル情報607と、前回関連言語モデル情報608と、生起確率計算情報609と、最高生起確率認識結果情報610とを含む。
言語モデル生成情報601は、単語分類文集合情報6011と言語モデル情報6012と判別単語分類情報6013と分類文章記憶情報6014とを含む。
単語分類文集合情報6011は、単語分類101〜113それぞれの単語分類に対応する文章である。言語モデル生成文章情報7021としてHDD7に記憶された多数の文章が、単語分類101〜113に基づいて分類分けされる。分類分けされた各文章は、対応する単語分類101〜113の文集合として、単語分類文集合情報6011としてRAM6に一時記憶される。
言語モデル情報6012は、マイク4から入力された音声信号と比較され、音声認識を行うための複数の言語モデルを木構造として含む。図5は、第1の実施形態における複数の言語モデルが、言語モデル情報6012に木構造として含まれる状態を示す概念図である。図5に示す言語モデル201〜213が、第1の実施形態では木構造として言語モデル情報6012に含まれる。図5の言語モデル201〜213に記載された「人工物」、「食料」といった言葉は、各言語モデルに対応する単語分類を示す。図5に示す木構造として含まれる言語モデル201〜213は、図4に示す単語分類101〜113それぞれと対応している。言語モデル情報6012を記憶するRAM6は、本発明の言語モデル記憶部の一例である。
判別単語分類情報6013は、言語モデル生成文章情報7021または分類文章記憶情報6014に含まれる文章を分類するための単語分類である。
分類文章記憶情報6014は、判別単語分類情報6013に記憶される単語分類を用いて分類される文章である。
音声入力信号情報602は、マイク4により入力された音声信号である。
最大確率言語モデル情報603は、音声入力信号情報602を用いて、最大確率言語モデル決定プログラム7013により決定された最大確率言語モデルに関する情報である。
言語モデル生起確率情報604は、言語モデル生成プログラム7012により生成された言語モデルと、音声入力信号情報602とを比較して決定された各言語モデルについての生起確率である。図6は、言語モデル生起確率情報604として、各言語モデルについての生起確率が記憶される記憶状態を示す概念図である。図6は、言語モデル201と言語モデル202と言語モデル203とについて、生起確率が決定された例を示している。図6の表中の「null」は、生起確率が決定されなかったことを示す。
最高生起確率情報605は、最高確率言語モデル決定プログラム7013により決定される最高確率言語モデルの生起確率の値である。
関連言語モデル情報606は、次回音声認識を行うための最高確率言語モデルを決定するため、関連言語モデル選択プログラム7014により選択される関連言語モデルに関する情報である。図7は、関連言語モデル情報606として、関連言語モデルが一時記憶される記憶状態を示す概念図である。図7に示すように、最高確率言語モデルとして言語モデル202が、関連言語モデルとして言語モデル204と言語モデル205と言語モデル206とが、関連言語モデル情報606としてRAM6により一時記憶される。
前回最高確率言語モデル情報607は、最高確率言語モデル情報603として記憶されていた情報である。最高確率言語モデル情報603として、RAM6に新しく情報が一時記憶される際、最高確率言語情報モデル603に記憶されていた情報が、前回最高確率言語モデル情報607として、RAM6に一時記憶される。
前回関連言語モデル情報608は、関連言語モデル情報606として記憶されていた情報である。関連言語モデル情報606としてRAM6に新しく情報が一時記憶される際、関連言語モデル情報606としてRAM6に記憶されていた情報が、前回関連言語モデル情報608としてRAM6に一時記憶される。
生起確率計算情報609は、言語モデル一時情報6091と生起確率一時情報6092と、認識結果一時情報6093とを含む。言語モデル一時情報6091は、最高確率言語モデル決定プログラム7013により最高確率言語モデルを決定するための言語モデルに関する情報である。生起確率一時記憶情報6092は、最高確率言語モデルの生起確率の値を決定するための言語モデルに関する生起確率の値である。認識結果一時情報6093は、生起確率が決定された言語モデルに対応する認識結果である。
最高生起確率認識結果情報610は、最高生起確率言語モデルによる音声入力信号情報602の認識結果である。
<第1の実施形態のメイン動作の説明>
以上説明した構成からなる第1の実施形態の受付端末装置1の動作及び作用について、添付図面を参照して説明する。図8は、受付端末装置1におけるメイン動作の処理手順を示すフローチャートである。メイン動作は、電源またはコンセントを介して商用電源などの外部電源と受付端末装置1とが接続されたことにより、CPU5がメイン動作プログラム7011を実行することにより、遂行される。以下に示す処理はCPU5により処理される。
受付端末装置1では、最初にステップS101で本装置の電源スイッチがユーザによりONされたかが判定される。電源スイッチがONにされたと判定されるまで、ステップS101が繰り返される。電源スイッチがONにされたと判定されると、ステップS102が実行される。電源スイッチは、ハードウェアを用いたスイッチであっても、ソフトウェアにより動作される電源スイッチであっても良い。
ステップS102では、単語分類文集合情報6011である各単語分類に対応する文章を用いて、言語モデルが生成される。生成された言語モデルは、言語モデル情報6012として、RAM6に一時記憶される。ステップS102は、本発明の言語モデル記憶ステップの一例である。
ステップS103では、初期値設定処理が実行される。初期値設定処理により、第1の実施形態では、図5に示すように、言語モデル情報6012として記憶される最上位言語モデルである言語モデル201が、最高確率言語モデルとして決定される。また、最高確率情報605に最高生起確率の初期値として「0」が、関連言語モデル情報606の初期値として「null」が一時記憶される。
ステップS104では、新しい音声信号が入力されたかが判定される。マイク4により所定の時間の間入力された音声の振幅が、所定の閾値より小さい場合、新しい音声信号が入力されないと判定される。マイク4により所定の時間の間入力された音声の振幅が、所定の閾値より大きい場合、新しい音声信号が入力されたと判定される。新しい音声が入力されたと判定されると、入力された音声は、音声入力信号情報602としてRAM6に一時記憶される。新しい音声信号が入力されたと判定された場合、ステップS105が実行される。新しい音声信号が入力されたと判定されなかった場合、再度ステップS104が実行される。
ステップS105では、音声認識フラグがTRUEにされる。
ステップS106では、最高確率言語モデル決定処理が実行される。最高確率言語モデル決定処理により、関連言語モデル情報606として記憶された言語モデルを用いて、音声入力信号情報602として記憶される音声入力信号について生起確率の値が最高である言語モデルが決定される。関連言語モデル情報606として「null」が記憶されていた場合、最高確率言語モデル情報603として記憶された言語モデルが、最高確率言語モデルとして保持される。ステップS106は、本発明の生起確率決定ステップと、言語モデル決定ステップとの一例である。
ステップS107では、音声認識フラグがTRUEであるか、FALSEであるかが判定される。音声認識フラグがTRUEの場合、ステップS108が実行される。音声認識フラグがFALSEの場合、ステップS109が実行される。
ステップS108では、最高生起確率認識結果情報610が出力される。また、音声認識フラグがFALSEにされる。本明細書中の音声認識は、音声入力信号情報602と言語モデル情報6012として記憶される言語モデルとを用いて生起確率を決定すると共に,各言語モデルに対応する認識結果を決定する。ステップS108では、最高確率言語モデルに対応する認識結果が音声認識結果として出力される。
ステップS109では、前回最高確率言語モデル情報607と、最高確率言語モデル情報603とが一致しているかが判定される。一致していないと判定された場合、ステップS110が実行される。一致していると判定された場合ステップS112が実行される。
ステップS110では、最高生起確率情報605としてRAM6に記憶されている値が、所定の値より小さいか否かが判定される。所定の値より小さいと判定された場合、ステップS111が実行される。所定の値より小さいと判定されなかった場合、ステップS112が実行される。
ステップS111では、関連言語モデルが再度選択される。関連言語モデル情報606としてRAM6に記憶されていた情報が、前回関連言語モデル情報608としてRAM6に一時記憶される。最高確率言語モデル情報603として記憶される言語モデルを用いて、関連言語モデルが再度決定される。そして、再度決定された関連言語モデルの中に、関連言語モデル情報606として記憶される関連言語モデルとは異なる言語モデルがある場合、その言語モデルは優先的に、新たに関連言語モデル情報606としてRAM6に一時記憶される。ステップSS111で再度選択される言語モデルは、言語モデル情報6012からランダムに選択されても良い。
ステップS112では、関連言語モデル選択処理が実行される。関連言語モデル選択処理により、最高確率言語モデル情報603としてRAM6に記憶された言語モデルを用いて、関連言語モデルが選択される。決定された関連言語モデルは、関連言語モデル情報606としてRAM6に一時記憶される。ステップS112は、本発明の言語モデル選択ステップの一例である。
ステップS113では、前回関連言語モデル情報608と、関連言語モデル情報606とが一致しているかが判定される。一致していないと判定された場合、ステップS106が実行される。一致していると判定された場合ステップS114が実行される。
ステップS114では、ユーザにより電源スイッチがOFFされたかが判定される。電源スイッチがOFFされなかった場合は、ステップS104が実行される。電源スイッチがOFFにされた場合は、ステップS101へ戻り再びステップS101が実行される。
(言語モデル生成処理動作)
図9は、言語モデル生成プログラム7012に従う受付端末装置1の言語モデル生成処理を実行するフローチャートである。まず、ステップS201では、言語モデルを作成するために言語モデル生成文章情報7021として記憶された多数の文章を分類するための単語分類が取得される。第1の実施形態では、単語分類は、単語分類情報7022としてHDD7に記憶されている。図4に示す単語分類101〜113に基づいて単語が分類分けされる。
ステップS202では、単語分類情報7022の最上位単語分類として単語分類101を示す「人工物」が、判別単語分類情報6013としてRAM6に一時記憶される。判別単語分類情報6013としてRAM6に記憶される単語分類に対応する文章が、単語分類文集合情報6011としてRAM6に一時記憶される。言語モデル生成文章情報7021として記憶された文章から、所定の文章が取り出される。取り出された文章は、形態素解析により各単語に分けられる。形態素解析により分けられた単語が、判別単語分類情報6013の最上位単語分類である単語分類101を示す「人工物」に対応しているかが判定される。対応していると判定された場合、取り出された文章は、「人工物」に対応する単語分類文集合情報6011としてRAM6に一時記憶される。図10は、単語分類101を示す「人工物」に対応する文章が、図3に示す言語モデル生成文章情報7021として記憶された文章から取り出された概念図である。図10に示す文書が、単語分類101を示す「人工物」に対応する文章として、単語分類文集合情報6011としてRAM6に一時記憶される。
ステップS203では、判別単語分類情報6013としてRAM6に記憶された単語分類の下位の位置に単語分類があるかが判定される。下位の位置に単語分類があると判定された場合、ステップS204が実行される。下位の位置に単語分類がないと判定された場合、ステップS208が実行される。判別単語分類情報6013として単語分類101を示す「人工物」が記憶されている場合、図4に示すように単語分類101の下位の位置に、単語分類102を示す「食料」と、単語分類103を示す「薬品」とがあるため、ステップS204が実行される。
ステップS204では、まず、単語分類文集合情報6011として記憶された文章から、判別単語分類情報6013としてRAM6に記憶された単語分類に対応する文章が、分類文章記憶情報6014としてRAM6に一時記憶される。図10に示す単語分類101の「人工物」に対応する文章が、分類文章記憶情報6014としてRAM6に一時記憶される。次に、判別単語分類情報6013の下位に位置する単語分類が新たに判別単語分類情報6013としてRAM6に一時記憶される。判別単語分類情報6013が単語分類101を示す「人工物」である場合、単語分類101を示す「人工物」の下位に位置する単語分類102の「食料」と、単語分類103の「薬品」とが、新たに単語分類情報情報6013としてRAM6に一時記憶される。
ステップS205では、ステップS204で分類文章記憶情報6014として記憶された文章を形態素解析する。形態素解析により分類された単語が、最も多く含まれる下位単語分類が決定される。例えば、図10に示す文章「うな丼、マグロ丼、サンドイッチがあるよ。」の場合、「うな丼」と「マグロ丼」と「サンドイッチ」との3つの単語が1つの文章に含まれている。単語分類207の「飯」と単語分類208の「麺類」と単語分類209の「パン」とが下位単語分類の場合、3つの単語のうち2つが含まれている単語分類107「飯」を示す単語分類が決定される。
ステップS206では、ステップS205で決定された下位単語分類に対応する文章が、分類文章記憶情報6014から取り出される。取り出された文章は、上述した下位単語分類に対応する単語分類文集合6011として記憶される。図11は、図4に示す単語分類102と単語分類103とにそれぞれ対応する文章が、分類文章記憶情報6014としてRAM6から読み出されて、単語分類文集合情報6011として記憶された記憶状態を示す概念図である。図11に示すように、各単語分類に対応する文章が、単語分類文集合6011として記憶される。
ステップS207では、判別単語分類情報6013としてRAM6に記憶された単語分類の下位に単語分類があるかが判定される。単語分類があると判定された場合、ステップS204が再び実行される。単語分類がないと判定された場合、ステップS208が実行される。判別単語分類情報6013として、単語分類102の「食料」と、単語分類103の「薬品」とが記憶されていた場合、図4に示すように単語分類102の下位の位置に、単語分類104と単語分類105と単語分類106とがあると判定される。また、単語分類103の「薬品」の下位の位置には、単語分類がないと判定される。判別単語分類情報6013としてRAM6に記憶された全ての単語分類について、下位の位置に単語分類がないと判定されるまで、ステップS204からステップS207が繰り返し実行される。
ステップS208では、単語分類文集合情報6011として記憶された各単語分類に対応する文章を用いて、各単語分類それぞれについて言語モデルが生成される。言語モデル生成方法としては、「言語と計算4 確率的言語モデル:東京大学出版会」に記載されている代表的な言語モデル生成方法を用いる。上位階層の単語分類101は、下位の単語分類102から単語分類113までを含む。言語モデル201は、単語分類102から単語分類113までに対応する単語を用いて生成されることから、単語分類102から単語分類113までを含む幅広い単語に対応可能な言語モデルとなる。一方、下位に位置する言語モデルは、細かく分類分けされた単語分類に対応する単語を用いて生成される。そのため、下位に位置する言語モデルは、細かく分類分けされた単語にしか対応できない言語モデルとなってしまうが、分類分けされた単語分類に対応する単語については、精度の高い音声認識を行なうことが可能な言語モデルとなる。
(最高確率言語モデル決定処理動作の説明)
図12は、最高確率言語モデル決定処理プログラム7013に従う受付端末装置1の最高確率言語モデル決定処理を実行するフローチャートである。まず、ステップS401では、最高確率言語モデル情報603として記憶された情報が、前回最高確率言語モデル情報607として記憶される。次に、関連言語モデル情報606として記憶される言語モデルから、選択された所定の1つの言語モデルが、言語モデル一時情報6091として記憶される。
ステップS402では、ステップS401で選択された言語モデルを用いて、音声信号入力情報602として記憶される音声信号についての生起確率が決定される。生起確率が決定された言語モデルに対応する認識結果が得られる。決定された生起確率は、生起確率一時情報6092として記憶される。生起確率が決定された言語モデルに対応する認識結果は、認識結果一時情報6093として記憶される。
ステップS403では、最高生起確率情報605が表す最高確率の値と、生起確率一時情報6092が表す生起確率の値とを比較する。生起確率一時情報6092が表す生起確率の値が、最高生起確率情報605が表す最高確率の値より大きい場合、ステップS404が実行される。最高確率604が表す最高確率の値が、生起確率一時情報6092が表す生起確率の値より大きい場合、ステップS406が実行される。
ステップS404では、言語モデル一時情報6091としてRAM6に記憶される情報が、最高確率言語モデル情報603としてRAM6に一時記憶される。認識結果一時情報6093としてRAM6に記憶される情報が、最高生起確率認識結果情報610としてRAM6に一時記憶される。
ステップS405では、生起確率一時情報6092としてRAM6に記憶された生起確率が、最高生起確率情報605としてRAM6に一時記憶される。
ステップS406では、関連言語モデル情報606としてRAM6に記憶される言語モデルの全てが、ステップS401で選択されたかが判定される。関連言語モデル情報601として記憶される言語モデル全てが、ステップS401で選択されたと判定されなかった場合、ステップS401が再度実行される。関連言語モデル情報606として記憶される言語モデル全てが、ステップS401で選択されたと判定された場合、最大生起確率言語モデル決定処理動作が終了される。
(関連言語モデル選択処理動作の説明)
図13は、関連言語モデル選択処理プログラム7014に従う受付端末装置1の関連言語モデル選択処理を実行するフローチャートである。まず、ステップS501では、関連言語モデル情報606として記憶された情報が、前回関連言語モデル情報608として記憶される。また、関連言語モデル情報606として、最高確率言語モデル603が新しく記憶される。
ステップS502では、最高確率言語モデル情報603が表す最高確率言語モデルの下位に位置する下位言語モデルがあるかが判定される。下位言語モデルがある場合、ステップS503が実行される。下位言語モデルがない場合、ステップS504が実行される。第1の実施形態では、最高確率言語モデル情報603として図5に示す言語モデル201がRAM6に記憶されている場合、言語モデル202または言語モデル203が、言語モデル201の木構造として1つ下位の階層に位置する下位言語モデルである。
ステップS503では、ステップS502で判定された下位言語モデルが、関連言語モデル情報606に追加記憶される。例えば、音声入力信号情報602として「野菜を買わないといけなかったんだ」がRAM6に記憶されているとき、最高確率言語モデル情報603として単語分類105を示す「食品」に対応する言語モデル205がRAM6に一時記憶され、関連言語モデル情報606として言語モデル205の下位に位置する単語分類「野菜」に対応する言語モデル211がRAM6に一時記憶されているとする。先回入力された「野菜を買わないといけなかったんだ」について、会話内容に単語分類「野菜」が含まれている。そのため、下位言語モデルとして単語分類「野菜」を示す言語モデル211以外にも言語モデル210を含む、単語分類「食品」に対応する言語モデル205よりも、単語分類「野菜」に対応する言語モデル211の方が、生起確率が高くなる。複数の単語分類として単語分類110を示す「穀物」と単語分類111を示す「野菜」とを包含する単語分類「食品」に対応する言語モデル105よりも、単語分類111を示す「野菜」に対応する言語モデル111の方が、野菜に関する単語を用いて生起確率を決定する場合、生起確率が高くなる。そのため、関連言語モデルとして最高確率言語モデルの下位言語モデルが選択されることで、特定の会話内容及び単語に特化した音声認識を精度良く行うことができる。
ステップS504では、最高確率言語モデル情報603が表す最高確率言語モデルの上位に位置する上位言語モデルがあるかが判定される。上位言語モデルがある場合、ステップS505が実行される。上位言語モデルがない場合、関連言語モデル選択処理動作が終了される。第1の実施形態では、最高確率言語モデル情報603として図5に示す言語モデル210がRAM6に記憶されている場合、言語モデル205が、言語モデル210の木構造として1つ上位の階層に位置する上位言語モデルである。
ステップS505では、ステップS504で判定された上位言語モデルが、関連言語モデル情報606に追加記憶される。図14は、会話の経緯および各会話において選択された最高確率言語モデルと関連言語モデルとを示す説明図である。図14に示すように、音声入力信号情報602として「今日の晩御飯は、マグロ丼にしよう。」が入力された後に、新しい音声として「いやラーメンもいいな。」が入力される場合について音声認識動作を説明する。単語分類107を示す「飯」の言語モデル207が、「今日の晩御飯は、マグロ丼にしよう。」の音声入力信号情報についての最高確率言語モデルとして決定されている。言語モデル204は、言語モデル207と木構造において上下階層関係にある。言語モデル204は、言語モデル207の階層よりも1つ上位階層に位置する。この結果、単語分類107を示す「飯」の言語モデルの関連言語モデルとして、単語分類104を示す「料理」の言語モデル204が選択される。先回入力された「今日の晩御飯は、マグロ丼にしよう」の音声信号の次に、「いや、ラーメンもいいな。」の音声信号が新しく入力されたとする。会話内容に単語分類108を示す「麺類」が含まれているため、「麺類」を含まない単語分類107を示す「飯」の言語モデル207では、単語分類108を示す「麺類」の生起確率は低くなってしまう。一方、言語モデル204は、下位の言語モデルとして単語分類「麺類」を含む単語分類「料理」に対応する言語モデルである。そのため、単語分類「麺類」を含む言語モデル204の方が、単語分類「飯」の言語モデル207よりも単語分類108を示す「麺類」の生起確率が高くなる。従って、関連言語モデルとして上位言語モデル204が選択されることで、上位言語モデル204は、上位言語モデル204の下位に位置する言語モデル207及び言語モデル208を含む幅広い単語に対応した音声認識が可能となる。
ステップS506では、最高確率言語モデル情報603が表す最高確率言語モデルの上位言語モデルと隣り合う位置にある隣接言語モデルがあるかが判定される。隣接言語モデルがある場合、ステップS507が実行される。隣接言語モデルがない場合、関連言語モデル選択処理動作が終了される。
ステップS507では、ステップS506で選択された隣接言語モデルが、関連言語モデル情報606としてRAM6に追加記憶される。第1の実施形態では、最高確率言語モデル情報603としてRAM6に図5に示す言語モデル210が記憶されている場合、言語モデル210の上位言語モデルである言語モデル205と、同じ階層位置で直接隣り合う言語モデル204と言語モデル206とが隣接言語モデルである。図15は、会話の経緯および各会話において選択された最高確率言語モデルと関連言語モデルとを示す説明図である。図15に示すように、音声入力信号情報602として「今日の晩御飯は、マグロ丼にしよう。」が入力された後に、新しい音声として「野菜を買わないといけなかったんだ。」が入力される場合について音声認識動作を説明する。単語分類107を示す「飯」の言語モデル207が、「今日の晩御飯は、マグロ丼にしよう。」の音声入力信号情報についての最高確率言語モデルとして決定されている。言語モデル205は、言語モデル207と木構造において上下階層関係にある言語モデル204と隣り合っている。言語モデル205は、言語モデル207の階層よりも1つ上位階層に位置する言語モデル204と隣り合う位置である。この結果、単語分類107を示す「飯」の言語モデルの関連言語モデルとして、単語分類105を示す「食品」の言語モデル205が選択される。先回入力された「今日の晩御飯は、マグロ丼にしよう」の音声信号の次に、「野菜を買わないといけなかったんだ。」の音声信号が新しく入力されたとする。会話内容に単語分類111を示す「野菜」が含まれているため、「野菜」を含まない単語分類107を示す「飯」の言語モデル207では、単語分類111を示す「野菜」の生起確率は低くなってしまう。一方、言語モデル205は、下位の言語モデルとして単語分類「野菜」を含む単語分類「食品」に対応する上位言語モデルである。そのため、単語分類「野菜」を含む言語モデル205の方が、単語分類「飯」の言語モデル207よりも単語分類111を示す「野菜」の生起確率が高くなる。そのため、関連言語モデルとして最高確率言語モデル207の上位言語モデル204と隣合う隣接言語モデル205が選択されることで、下位に位置する言語モデル211を含む幅広い単語に対応した音声認識が可能となる。
[第2の実施形態]
以下、音声認識機能を備えた受付端末装置に本発明を適用した第2の実施形態について図面を参照して説明する。第2の実施形態の外観的構成及び電気的構成は、第1の実施形態と同じ構成である。
<第2の実施形態のメイン動作の説明>
以上説明した構成からなる第2の実施形態の受付端末装置1の動作及び作用について、添付図面を参照して説明する。図16は、受付端末装置1におけるメイン動作の処理手順を示すフローチャートである。メイン動作は、第1の実施形態とほぼ同じ構成であるので、相違する部分についてのみ説明する。
ステップS604では、新しい音声信号が入力されたかが判定される。マイク4により所定の時間の間入力された音声の振幅が、所定の閾値より小さい場合、新しい音声信号が入力されないと判定される。マイク4により所定の時間の間入力された音声の振幅が、所定の閾値より大きい場合、新しい音声信号が入力されたと判定される。新しい音声が入力されたと判定されると、入力された音声は、音声入力信号情報602としてRAM6に一時記憶される。新しい音声信号が入力されたと判定された場合、ステップS605が実行される。新しい音声信号が入力されたと判定されなかった場合、再度ステップS612が実行される。
ステップS605では、第1の実施形態のメイン動作処理のステップS106と同様に、最高確率言語モデル決定処理が実行される。最高確率言語モデル決定処理により、関連言語モデル情報606として記憶された言語モデルを用いて、音声入力信号情報602として記憶される音声入力信号について生起確率の値が最高である言語モデルが決定される。ステップS605は、本発明の生起確率決定ステップと、言語モデル決定ステップとの一例である。
ステップS606では、第1の実施形態のメイン動作処理のステップS109と同様に、前回最高確率言語モデル情報607と、最高確率言語モデル情報603とが一致しているかが判定される。一致していないと判定された場合、ステップS607が実行される。一致していると判定された場合ステップS609が実行される。
ステップS607では、第1の実施形態のメイン動作処理のステップS110と同様に、最高生起確率情報605としてRAM6に記憶されている値が、所定の値より小さいか否かが判定される。所定の値より小さいと判定された場合、ステップS608が実行される。所定の値より小さいと判定されなかった場合、ステップS609が実行される。
ステップS608では、第1の実施形態のメイン動作処理のステップS111と同様に、関連言語モデルが再度選択される。関連言語モデル情報606としてRAM6に記憶されていた情報が、前回関連言語モデル情報608としてRAM6に一時記憶される。最高確率言語モデル情報603として記憶される言語モデルを用いて、関連言語モデルが再度決定される。そして、再度決定された関連言語モデルの中に、関連言語モデル情報606として記憶される関連言語モデルとは異なる言語モデルがある場合、その言語モデルは、新たに関連言語モデル情報606としてRAM6に一時記憶される。ステップSS111で再度選択される言語モデルは、言語モデル情報6012からランダムに選択されても良い。
ステップS609では、第1の実施形態のメイン動作処理のステップS112と同様に、関連言語モデル選択処理が実行される。関連言語モデル選択処理により、最高確率言語モデル情報603としてRAM6に記憶された言語モデルを用いて、関連言語モデルが選択される。決定された関連言語モデルは、関連言語モデル情報606としてRAM6に一時記憶される。
ステップS610では、第1の実施形態のメイン動作処理のステップS113と同様に、前回関連言語モデル情報608と、関連言語モデル情報606とが一致しているかが判定される。一致していないと判定された場合、ステップS605が実行される。一致していると判定された場合ステップS611が実行される。
ステップS611では、最大生起確率認識結果情報610が出力される。
(変形例1)
第1の実施形態のRAM6とHDD7の変形例1について説明する。第1の実施形態では、言語モデル情報6012として記憶される言語モデルが、言語モデル生成プログラム7012により生成されているが、受付端末装置1により生成されなくても良い。別装置により生成された言語モデル情報6012が、HDD7に予め記憶されている構成でも良い。
(変形例2)
第1の実施形態における関連言語モデルプログラム7014のステップ506及びステップS507の変形例2について説明する。ステップS506とステップS507とでは、最高確率言語モデルの上位に位置する上位言語モデルと隣接する言語モデルが、隣接言語モデルとして選択されている。上位言語モデルに隣接する言語モデルの代わりに、最高確率言語モデルの下位に位置する下位言語モデルと隣り合う言語モデルが、隣接言語モデルとして選択されても良い。
(変形例3)
第1の実施形態における関連言語モデルプログラム7014の変形例3について説明する。図17は、言語モデル201〜213それぞれが音声認識を行なう言語モデルとして決定された後に、次回音声認識を行なう言語モデルとして決定された言語モデルの決定履歴回数を示すテーブルが、言語モデル情報6012としてRAM6に一時記憶される記憶状態を示す概念図である。最高確率言語モデルとして言語モデル201が決定された場合、図17に示す履歴回数が多い言語モデル205と言語モデル207とが、関連言語モデルとして選択されても良い。
(変形例4)
第1の実施形態及び第2の実施形態におけるメイン動作プログラム7011のステップS103及びステップS603の変形例4について説明する。ステップ103及びステップS603では、言語モデル情報に記憶される木構造の最上位の言語モデルが、最高確率言語モデルとして決定されている。ステップS103及びステップS603で木構造の最上位に位置する言語モデルが最高言語モデルとして決定される代わりに、言語モデル情報6012として記憶される全ての言語モデルを用いて、最高確率言語モデルが決定されても良い。また、言語モデル情報6012として記憶される一部の言語モデルを用いて、最高確率言語モデルが決定されても良い。
(変形例5)
第1の実施形態における関連言語モデル選択プログラム7014のステップS501からステップS507までの変形例5について説明する。ステップS501からステップS507までにより選択される関連言語モデルとして、木構造において最高確率言語モデルと上下階層関係により最高確率言語モデルに関連付けられる全ての言語モデルが選択されても良い。また、木構造において最高確率言語モデルと上下階層関係により最高確率言語モデルに関連のある言語モデルの一部が選択されても良い。
(変形例6)
第1の実施形態における関連言語モデル選択プログラム7014のステップS502からステップS507までの変形例6について説明する。第1の実施形態では、関連言語モデルとして、木構造において関連し合う最高確率言語モデルの上位に位置する上位言語モデルと、上位言語モデルと隣り合う隣接言語モデルとが選択されている。関連言語モデルとして木構造を用いず、単語分類の意味の類似性により関連付けられても良い。複数の単語が同じ1文に出現する出現頻度が、意味の類似性として用いても良い。
(変形例7)
第1の実施形態における関連言語モデル選択プログラム7014のステップS502及びステップS503とステップS504及びステップS505の変形例7について説明する。ステップS504とステップS505では、最高確率言語モデルより1つ上位の階層位置に位置する上位言語モデルが関連言語モデルとして選択されている。最高確率言語モデルより1つ上位の階層位置に位置する上位言語モデルだけでなく、最高確率言語モデルと関連がある複数階層上位に位置する上位言語モデルが選択されても良い。また、ステップS502及びステップS503の変形例として、最高確率言語モデルと関連がある複数階層下位に位置する下位言語モデルが、関連言語モデルとして選択されても良い。
(変形例8)
第1の実施形態及び第2実施形態におけるメイン動作プログラム7011の変形例8について説明する。第1の実施形態におけるメイン動作プログラムのステップS109、ステップS110、ステップS111、ステップS113の少なくとも1つのステップがなくても良い。ステップS109、ステップS110、ステップS111、ステップS113全てがなくても良い。また、第2の実施形態におけるメイン動作プログラムのステップS606、ステップS607、ステップS608、ステップS610の少なくとも1つのステップがなくても良い。ステップS606、ステップS607、ステップS608、ステップS610全てがなくても良い。
(変形例9)
第1の実施形態における関連言語モデルプログラム7014の変形例9について説明する。関連言語モデルとして選択された言語モデルにおける生起確率の値が、これまで決定してきた生起確率の中で最も低い生起確率の場合、関連言語モデルから、生起確率が最も低い言語モデルは除外されても良い。
第1の実施形態における受付端末装置1の外観図である。 第1の実施形態における受付端末装置1の電気的構成を示すブロック図である。 第1の実施形態における言語モデル生成文章情報7021としてHDD7に記憶される記憶状態を示す概念図である。 第1の実施形態における単語分類情報7022としてHDD7に記憶される記憶状態を示す概念図である。 第1の実施形態における言語モデル情報6012としてRAM6に記憶される記憶状態を示す概念図である。 第1の実施形態における言語モデル生起確率情報604としてRAM6に記憶される記憶状態を示す概念図である。 第1の実施形態における関連言語モデル606としてRAM6に記憶される記憶状態を示す概念図である。 第1の実施形態におけるメイン動作を示すフローチャートである。 第1の実施形態における言語モデル生成処理動作を示すフローチャートである。 第1の実施形態における単語分類文集合6011としてRAM6に記憶される記憶状態を示す概念図である。 第1の実施形態における単語分類文集合6011としてRAM6に記憶される記憶状態を示す概念図である。 第1の実施形態における最高確率言語モデル決定処理動作を示すフローチャートである。 第1の実施形態における関連言語モデル選択処理動作を示すフローチャートである。 第1の実施形態における会話の経緯および各会話において選択された最高確率言語モデルと関連言語モデルとを示す説明図である。 第1の実施形態における会話の経緯および各会話において選択された最高確率言語モデルと関連言語モデルとを示す説明図である。 第2の実施形態におけるメイン動作を示すフローチャートである。 第1の実施形態の変形例4における言語モデルの決定履歴回数を示すテーブルが、言語モデル情報6012としてRAM6に記憶される記憶状態を示す概念図である。
符号の説明
1 受付端末装置
2 ディスプレイ
3 マイク
4 スピーカ
5 CPU
6 RAM
7 HDD
101 単語分類
102 単語分類
103 単語分類
104 単語分類
105 単語分類
106 単語分類
107 単語分類
108 単語分類
109 単語分類
110 単語分類
111 単語分類
112 単語分類
113 単語分類
201 言語モデル
202 言語モデル
203 言語モデル
204 言語モデル
205 言語モデル
206 言語モデル
207 言語モデル
208 言語モデル
209 言語モデル
210 言語モデル
211 言語モデル
212 言語モデル
213 言語モデル
601 言語モデル生成情報
602 音声入力信号情報
603 最高確率言語モデル情報
604 言語モデル生起確率情報
605 最高生起確率情報
606 関連言語モデル情報
607 前回最高確率言語モデル情報
608 前回関連言語モデル情報
609 生起確率計算情報
6011 単語分類文集合情報
6012 言語モデル情報
6013 判別単語分類情報
6014 分類文章記憶情報
6091 言語モデル一時情報
6092 生起確率一時情報
6093 認識結果一時情報
610 最高生起確率認識結果情報
7011 メイン動作プログラム
7012 言語モデル生成プログラム
7013 最高確率言語モデル決定プログラム
7014 関連言語モデル選択プログラム
7021 言語モデル生成文章情報
7022 単語分類情報

Claims (13)

  1. 多数の言語モデルを互いに関連付けて記憶する言語モデル記憶部と、
    音声入力部により入力される音声信号に対応する単語列と、前記言語モデル記憶部に記憶された多数の言語モデルの少なくとも一部の言語モデルの各々とを比較することで、各言語モデルについて前記単語列が生起する生起確率を決定する生起確率決定部と、
    前記生起確率決定部により各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する言語モデル決定部と、
    前記生起確率決定部が、前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも1つの関連言語モデルとを選択する言語モデル選択部と、
    を備えることを特徴とする音声認識装置。
  2. 前記言語モデル選択部により選択された前記関連言語モデルが、前記一部の言語モデル以外の言語モデルの中から選択されたか否かを判別する関連言語モデル判別部を備え、
    前記関連言語モデル判別部が、前記言語モデル記憶部に記憶された前記一部の言語モデル以外の言語モデルの中から前記関連言語モデルが選択されたと判別した場合、前記生起確率決定部は、前記音声入力部により先回入力された音声信号に対応する前記単語列と、前記選択された最高確率言語モデル及び関連言語モデルとを比較することで、前記選択された最高確率言語モデル及び関連言語モデルについてのみ前記生起確率を決定することを特徴とする請求項1に記載の音声認識装置。
  3. 前記音声入力部により、新しく音声信号が入力された場合、前記生起確率決定部は、前記新しく入力された音声信号に対応する単語列と、前記選択された最高確率言語モデル及び関連言語モデルとを比較することで、前記選択された最高確率言語モデル及び関連言語モデルについてのみ前記生起確率を決定することを特徴とする請求項1または請求項2に記載の音声認識装置。
  4. 前記最高確率言語モデルについての生起確率の値より、前記関連言語モデルについての生起確率の値の方が大きい場合、前記言語モデル決定部は、前記関連言語モデルを最高確率言語モデルとして再度決定し、
    前記言語モデル選択部は、前記再度決定された最高確率言語モデルと、その最高確率言語モデルに関連する関連言語モデルとを選択し、
    前記生起確率決定部は、前記新しく入力された音声信号に対応する単語列と、前記再度決定された最高確率言語モデル及び前記関連言語モデルとを比較することで、前記再度選択された最高確率言語モデル及び前記関連言語モデルについてのみ生起確率を決定することを特徴とする請求項3に記載の音声認識装置。
  5. 前記選択された最高確率言語モデル及び前記関連言語モデルについて前記単語列が生起する前記生起確率の値が所定の値以下の場合、前記生起確率決定部は、前記言語モデル記憶部に記憶された多数の言語モデルの中の少なくとも一部の言語モデルについて前記単語列が生起する生起確率を再度決定することを特徴とする請求項2から請求項4のいずれかに記載の音声認識装置。
  6. 前記言語モデル決定部は、前記生起確率決定部により決定された生起確率の中で、前記生起確率が最も低い最低確率言語モデルを決定し、
    前記言語モデル選択部は、前記言語モデル決定部により決定された最低確率言語モデルを除いた言語モデルから前記関連言語モデルを選択することを特徴とする請求項1から請求項5のいずれかに記載の音声認識装置。
  7. 前記言語モデル記憶部は、多数の所定の単語に基づいて分類されたテキストデータを用いて、前記多数の所定の単語に対応して生成された多数の言語モデルを記憶し、
    前記多数の言語モデルは、意味が類似する複数の所定の単語に対応して互いに関連付けられて前記言語モデル記憶部に記憶されることを特徴とする請求項1から請求項6のいずれかに記載の音声認識装置。
  8. 前記多数の言語モデルは、意味が類似する複数の所定の単語に対応して互いに関連付けられて、木構造として前記言語モデル記憶部に記憶され、
    前記多数の言語モデルにおける所定の言語モデルの上位に位置する上位言語モデルは、前記上位言語モデルの下位に位置する複数の言語モデルを生成するために用いられたテキストデータを用いて生成された言語モデルであることを特徴とする請求項7に記載の音声認識装置。
  9. 前記言語モデル選択部は、木構造において、前記最高確率言語モデルと上下階層関係により関連付けられる前記最高確率言語モデルの上位に位置する前記上位言語モデルの少なくとも1つの関連言語モデルと、前記最高確率言語モデルとを選択することを特徴とする請求項8に記載の音声認識装置。
  10. 前記多数の言語モデルにおける所定の言語モデルの下位に位置する下位言語モデルは、前記所定の言語モデルを生成するために用いられたテキストデータの一部を用いて生成された言語モデルであり、
    前記言語モデル選択部は、木構造において、上下階層関係により関連付けられる前記最高確率言語モデルの下位に位置する前記下位言語モデルの少なくとも1つの関連言語モデルと、前記最高確率言語モデルとを選択することを特徴とする請求項8または請求項9に記載の音声認識装置。
  11. 前記言語モデル選択部は、木構造において、上下階層関係により関連付けられる前記最高確率言語モデルの上位に位置する前記上位言語モデルと同一階層で隣合う関係により関連付けられる少なくとも1つの関連言語モデルと、前記最高確率言語モデルとを選択することを特徴とする請求項8から請求項10のいずれかに記載の音声認識装置。
  12. 多数の言語モデルを互いに関連付けて記憶する言語モデル記憶ステップと、
    音声入力部により入力される音声信号に対応する単語列と、前記言語モデル記憶ステップにより記憶された多数の言語モデルの少なくとも一部の言語モデルの各々とを比較することで、各言語モデルについて前記単語列が生起する生起確率を決定する生起確率決定ステップと、
    前記生起確率決定ステップにより各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する言語モデル決定ステップと、
    前記生起確率決定ステップが、前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも1つの関連言語モデルとを選択する言語モデル選択ステップと、
    を備えることを特徴とする音声認識方法。
  13. 多数の言語モデルを互いに関連付けて記憶する言語モデル記憶ステップと、
    音声入力部により入力される音声信号に対応する単語列と、前記言語モデル記憶ステップにより記憶された多数の言語モデルの少なくとも一部の言語モデルの各々とを比較することで、各言語モデルについて前記単語列が生起する生起確率を決定する生起確率決定ステップと、
    前記生起確率決定ステップにより各言語モデルについて決定された生起確率の中で、生起確率が最も高い最高確率言語モデルを音声認識を行う言語モデルとして決定する言語モデル決定ステップと、
    前記生起確率決定ステップが、前記入力される音声信号に対応する単語列と次回比較を行う言語モデルとして、前記言語モデル決定部により決定された最高確率言語モデルと、前記最高確率言語モデルに関連付けて記憶される言語モデルの中の少なくとも1つの関連言語モデルとを選択する言語モデル選択ステップと、
    をコンピュータに実現させる音声認識プログラム。
JP2008247374A 2008-09-26 2008-09-26 音声認識装置、音声認識方法、及び音声認識プログラム Pending JP2010078934A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008247374A JP2010078934A (ja) 2008-09-26 2008-09-26 音声認識装置、音声認識方法、及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008247374A JP2010078934A (ja) 2008-09-26 2008-09-26 音声認識装置、音声認識方法、及び音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2010078934A true JP2010078934A (ja) 2010-04-08

Family

ID=42209456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008247374A Pending JP2010078934A (ja) 2008-09-26 2008-09-26 音声認識装置、音声認識方法、及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP2010078934A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012008554A (ja) * 2010-05-24 2012-01-12 Denso Corp 音声認識装置
JP2018151631A (ja) * 2017-03-10 2018-09-27 サウンドハウンド,インコーポレイテッド ドメイン曖昧性除去を含む音声対応システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012008554A (ja) * 2010-05-24 2012-01-12 Denso Corp 音声認識装置
JP2018151631A (ja) * 2017-03-10 2018-09-27 サウンドハウンド,インコーポレイテッド ドメイン曖昧性除去を含む音声対応システム

Similar Documents

Publication Publication Date Title
EP3155614B1 (en) Dialog state tracking using web-style ranking and multiple language understanding engines
CN101567189B (zh) 声音识别结果修正装置、方法以及系统
Wu et al. Speech emotion estimation in 3D space
US10811006B2 (en) Information processing method, information processing apparatus, and non-transitory recording medium
CN110673748A (zh) 输入法中候选长句的提供方法及装置
KR20190002812A (ko) 음성 인식 방법 및 그 장치
CN112509552B (zh) 语音合成方法、装置、电子设备和存储介质
JP2008203469A (ja) 音声認識装置及び方法
JP2010537321A (ja) 統計的分類のための最適な選択方略の方法及びシステム
US20200301659A1 (en) Graphical interface for speech-enabled processing
JP2019003380A (ja) 発話継続判定方法、発話継続判定装置およびプログラム
JP7058574B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2020024277A (ja) データ・セグメンテーション装置
CN110431547A (zh) 电子设备和控制方法
WO2007066433A1 (ja) 音声認識装置
US11403470B2 (en) Translation device
US8639641B2 (en) Information processing device, information processing method, and program
JP6952259B2 (ja) 情報処理方法、情報処理装置、及び、プログラム
KR20210031094A (ko) 트리 기반 이상치 탐지 장치 및 방법, 컴퓨터 프로그램
JP2010078934A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
US9336774B1 (en) Pattern recognizing engine
JP2014002257A (ja) 言語モデル生成装置、その方法及びプログラム
JP6782329B1 (ja) 感情推定装置、感情推定システム、及び感情推定方法
JP6674876B2 (ja) 補正装置、補正方法及び補正プログラム