JP2008225001A

JP2008225001A - 音声認識装置および音声認識方法，音声認識用プログラム

Info

Publication number: JP2008225001A
Application number: JP2007062527A
Authority: JP
Inventors: Atsushi Wakao; 淳若尾
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-03-12
Filing date: 2007-03-12
Publication date: 2008-09-25

Abstract

【課題】発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識できる音声認識装置および音声認識方法，音声認識用プログラムを提供する。
【解決手段】人密度推定手段１が、発話者の周囲の人密度を推定し、音声認識手段２が、人密度に基づいて入力音声を音声認識する。例えば、発話者の周囲の電波密度，足音等から人密度を算出し、人密度が高い場合に、早口の音声に対応した音響モデル、または、聞かれてもよい単語を用いた発話に対応する辞書を用いて音声認識処理を実行する。
【選択図】図１

Description

本発明は、音声認識装置および音声認識方法，音声認識用プログラムに関し、特に、使用環境に対応して音声認識する音声認識装置および音声認識方法，音声認識用プログラムに関する。

従来、音声認識技術の向上に伴って使用環境に応じた音声認識を実行する音声認識装置が実用化されている。例えば、入力音声に雑音が混在している場合の誤認識を軽減した音声認識装置が特許文献１に開示されている。

特許文献１の音声認識装置は、音声分析手段と、前処理手段と、音声認識手段と、機器操作手段と、雑音検出手段と、雑音レベル判定手段と、認識閾値変更手段とを備えて構成されている。特許文献１の音声認識装置では、音声検出手段が音声を検出し、この音声に対して前処理手段が増幅・雑音除去等を行い、一方、雑音検出手段で雑音が検出されると雑音レベル判定手段で雑音のレベルが判定され、認識閾値変更手段でこの判定に従って閾値が修正される。そして、音声認識手段が、前処理手段からの音声を閾値に従って認識し、機器操作手段は認識結果に基づいて機器を操作する。

特開平５‐１１７９５号公報

しかしながら、音声認識技術における課題としては、入力音声に雑音が混在する場合とは別に、発話者が周囲の状況に影響されて通常とは違う発声を行う場合の課題がある。具体的には、発話者が周りにいる人に聞かれまいとして小声で発声する場合や早口に発声する場合、周囲の人に聞かれてもよい内容で発話する場合等の想定していない発声に対して、音声認識の精度が低くなるという不都合があった。

そこで、本発明は、上記従来技術の不都合を改善し、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識できる音声認識装置および音声認識方法，音声認識用プログラムの提供を、その目的とする。

上記目的を達成するため、本発明の音声認識装置は、入力音声の発話者又はその周囲に関する情報を基に当該発話者の周囲の人密度を推定する人密度推定手段と、人密度に基づいて入力音声を音声認識する音声認識手段とを備えたことを特徴とする。このような音声認識装置によれば、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識することができる。

また、上記の音声認識装置は、発話者の背景騒音から雑音を推定する雑音推定手段を備え、音声認識手段が、雑音に基づいて入力音声を音声認識してもよい。このようにすると、入力音声に雑音が混在している場合でも精度よく音声認識することができる。

また、上記の音声認識装置において、上述した人密度推定手段が、雑音から足音を抽出しこの足音のレベルと予め記憶した基準情報とを基に人密度を推定してもよい。このようにすると、発話者の周囲の雑音から人密度を推定することができる。

また、上記の音声認識装置において、上述した人密度推定手段が、発話者の周囲の電波密度を測定しこの電波密度と予め記憶した基準情報とを基に人密度を推定してもよい。このようにすると、発話者の周囲の電波状況から人密度を推定できる。

また、上記の音声認識装置において、上述した人密度推定手段が、音声の発声源と当該音声を入力するマイクロホンとの距離を測定しこの距離と予め記憶した基準情報とを基に人密度を推定してもよい。発話者の周囲に多くの他者が存在すると、発話者はマイクロホンに口を近づけて小声で発話することが考えられるから、発話者の口とマイクロホンとの距離がより近ければ、人密度がより高いと推定できる。

また、上記の音声認識装置において、上述した人密度推定手段が、発話者の血圧を測定しこの血圧値と予め記憶した基準情報とを基に人密度を推定してもよい。発話者の周囲に多くの他者が存在すると、発話者は緊張し血圧が変化することが考えられるから、発話者の血圧値から人密度を推定できる。

また、上記の音声認識装置において、上述した人密度推定手段が、発話者の体温を測定しこの体温と予め記憶した基準情報とを基に人密度を推定してもよい。発話者の周囲に多くの他者が存在すると、発話者は緊張し体温が変化することが考えられるから、発話者の体温から人密度を推定できる。

また、上記の音声認識装置において、上述した人密度推定手段が、発話者の場所を基に人密度を推定してもよい。このようにすると、発話者の居る場所から人密度を推定することができる。

また、上記の音声認識装置において、上述した人密度推定手段が、音声を入力した時刻を基に人密度を推定してもよい。このようにすると、発話者が発声した時刻から人密度を推定することができる。

また、上記の音声認識装置において、上述した音声認識手段が、人密度に対応した音響モデルを用いて入力音声を音声認識してもよい。このようにすると、例えば、人密度が高い場合に、小声の音声に対応した音響モデルや早口の音声に対応した音響モデルを用いて音声入力することができる。

また、上記の音声認識装置において、上述した音声認識手段が、人密度に対応した辞書を用いて入力音声を音声認識してもよい。このようにすると、例えば、聞かれてもよい単語を用いた発話に対応する辞書を用いることで状況に応じた音声認識処理を実行することができる。

また、上記の音声認識装置において、上述した音声認識手段が、音声を入力するマイクロホンの感度を人密度に応じて調節してもよい。このようにすると、発話者の周囲に多くの他者が存在すると、発話者は小声で発話することが考えられるから、小声の音声に対応してマイクロホンの感度を調節することができる。

次に、本発明の音声認識方法は、入力音声の発話者又はその周囲に関する情報を入力しこの情報を基に当該発話者の周囲の人密度を推定する人密度推定工程と、発話者からの音声を入力する音声入力工程と、人密度に基づいて入力音声を音声認識する音声認識工程とを設けたことを特徴とする。

また、上記の音声認識方法は、発話者の周囲の雑音を検出し入力する雑音検出工程を設け、音声認識工程では、雑音に基づいて入力音声を音声認識してもよい。

また、上記の音声認識方法において、上述した人密度推定工程では、検出された雑音から足音を抽出しこの足音のレベルを基に人密度を推定してもよく、発話者の周囲の電波密度を測定しこの電波密度を基に人密度を推定してもよい。また、上述した人密度推定工程では、音声の発声源と当該音声を入力するマイクロホンとの距離を測定しこの距離を基に人密度を推定してもよい。

さらに、上記の音声認識方法において、上述した人密度推定工程では、発話者の血圧を測定しこの血圧値を基に人密度を推定してもよく、発話者の体温を測定しこの体温を基に人密度を推定してもよい。また、上述した人密度推定工程では、発話者の場所を基に人密度を推定してもよく、音声を入力した時刻を基に人密度を推定してもよい。

またさらに、上記の音声認識方法において、上述した音声認識工程では、人密度に対応した音響モデルを用いて入力音声を音声認識してもよく、人密度に対応した辞書を用いて入力音声を音声認識してもよい。

さらに、上記の音声認識方法は、音声を入力するマイクロホンの感度を人密度に応じて調節するマイクゲイン調節工程を設けてもよい。

このような音声認識方法によれば、入力音声に雑音が混在している場合でも、精度のよい音声認識が可能であると共に、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識することができる。例えば、人密度が閾値以上である場合に、小声の音声に対応したマイクゲインに調整したり、早口の音声に対応した音響モデル、または、聞かれてもよい単語を用いた発話に対応する辞書を用いたりすることで、状況に応じた音声認識を実行することができる。

次に、本発明の音声認識用プログラムは。発話者又はその周囲に関する情報を入力しこの情報を基に発話者の周囲の人密度を推定する人密度推定処理と、発話者からの音声を入力する音声入力処理と、人密度に基づいて入力音声を音声認識する音声認識処理とをコンピュータに実行させることを特徴とする。

また、上記の音声認識用プログラムは、発話者の周囲の雑音を検出し入力する雑音検出処理と共に、音声認識処理を、雑音に基づいて入力音声を音声認識するような内容に特定してコンピュータに実行させてもよい。

また、上記の音声認識用プログラムにおいて、上述した人密度推定処理を、雑音から足音を抽出しこの足音のレベルを基に人密度を推定するような内容に特定してもよく、発話者の周囲の電波密度を測定しこの電波密度を基に人密度を推定するような内容に特定してもよい。また、上述した人密度推定処理を、音声の発声源と当該音声を入力するマイクロホンとの距離を測定しこの距離を基に人密度を推定するような内容に特定してもよい。

さらに、上記の音声認識用プログラムにおいて、上述した人密度推定処理を、発話者の血圧を測定しこの血圧値を基に人密度を推定するような内容に特定してもよく、発話者の体温を測定しこの体温を基に人密度を推定するような内容に特定してもよい。また、上述した人密度推定処理を、発話者の場所を基に人密度を推定するような内容に特定してもよく、音声を入力した時刻を基に人密度を推定するような内容に特定してもよい。

またさらに、上記の音声認識用プログラムにおいて、上述した音声認識処理を、人密度に対応した音響モデルを用いて入力音声を音声認識するような内容に特定してもよく、人密度に対応した辞書を用いて入力音声を音声認識するような内容に特定してもよい。

さらに、上記の音声認識用プログラムは、人密度に応じて音声を入力するマイクロホンの感度を調節させるマイクゲイン調節処理をコンピュータに実行させてもよい。

このような音声認識用プログラムによれば、入力音声に雑音が混在している場合でも、精度のよい音声認識をコンピュータに実行させることができると共に、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識させることができる。例えば、人密度が閾値以上である場合に、小声の音声に対応したマイクゲインに調整させたり、早口の音声に対応した音響モデル、または、聞かれてもよい単語を用いた発話に対応する辞書を選択させることで状況に応じた音声認識処理を実行させることができる。

本発明は以上のように構成され機能するため、これにより、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識することができる。例えば、人密度が高い場合に、小声の音声に対応したマイクゲインに調整したり、早口の音声に対応した音響モデル、または、聞かれてもよい単語を用いた発話に対応する辞書を用いたりすることで、状況に応じた音声認識処理を実行することができる。

以下、本発明における一実施形態を、図面を参照して説明する。

図１は、本発明にかかる第１実施形態の音声認識装置の構成を示すブロック図である。

本第１実施形態の音声認識装置は、図１に示すように、入力音声の発話者又はその周囲に関する情報を基にこの発話者の周囲の人の密度（人密度）を推定する人密度推定手段１と、この人密度に基づいて入力音声を音声認識する音声認識手段２とを備えて構成されている。

図２は、音声認識手段２の構成を示すブロック図である。図２に示すように、音声認識手段２は、入力音声を特徴量に変換する音声分析手段２１と、この特徴量に変換された音声と、辞書及び音響モデルを基に作成される参照モデルとを比較して、最も音声と類似した参照モデルに対応する単語を音声認識結果として出力する音声比較手段２２と、辞書から選出した単語の読みに従って音響モデルを選出し参照モデルを作成する参照モデル作成手段２３と、音素、音節等の音韻単位でＨＭＭ（Hidden Markov Model）等の音響モデルを記憶している音響モデル記憶手段２４と、音声認識用の辞書を記憶している辞書記憶手段２５とを備えている。

音声分析手段２１は、入力音声中から音声認識に有効な特徴量を取り出しており、この特徴量としては、ケプストラムやスペクトルが一般的である。

音響モデル記憶手段２４は、通常の音声に対応した音響モデルの他に、小声の音声に対応した音響モデルや早口の音声に対応した音響モデル等、入力音声の状態に対応するために複数の音響モデルを記憶している。

辞書記憶手段２５は、通常の場合に対応する辞書の他に、聞かれてもよい単語を用いた発話に対応する辞書等、入力音声の状態に対応するために複数の辞書を記憶している。

参照モデル作成手段２３は、人密度推定手段１から人密度を入力し、この人密度が予め定められている閾値以上であるか否かを判定し、判定結果に従って異なる音響モデル及び辞書をそれぞれ音響モデル記憶手段２４及び辞書記憶手段２５から選出し、選出した辞書と音響モデルとを用いて参照モデルを作成する。

図１に示す人密度推定手段１は、発話者に関する情報、または発話者の周囲に関わる情報を入力し、予め記憶した基準情報であるデータテーブルを参照して、入力情報に対応した人密度の推定値を算出する。例えば、人密度推定手段１は、図３に示すように構成されており、発話者の周囲における携帯電話，無線ＬＡＮ，ＲＦＩＤ等の電波の電波密度が電波測定器１Ａによって測定され、人密度算出手段１２が、電波密度と人密度の推定値とを対応付けたデータテーブルをデータテーブル記憶手段１３から読み出し、このデータテーブルと電波測定器１Ａによって測定された電波密度とを基に人密度の推定値を算出する。このようにして人密度を推定する理由は、発話者の周囲の電波密度が高ければ、電波を発信する端末を所持した他者が発話者の周囲に密集して存在していることが考えられるからである。

他の例として、音声の発声源である発話者の口と音声入力のためのマイクロホンとの距離が距離センサ１Ｂにより測定され、人密度算出手段１２が、距離と人密度の推定値とを対応付けたデータテーブルをデータテーブル記憶手段１３から読み出し、このデータテーブルとこの測定された距離とを基に人密度の推定値を算出する。このようにして人密度を推定する理由は、発話者の周囲に多くの他者が存在すると、発話者はマイクロホンに口を近づけて小声で発話することが考えられるからである。

さらに他の例として、人密度算出手段１２は、血圧測定器１Ｃ及び体温測定器１Ｄにより測定された発話者の血圧及び体温のいずれかに基づいて人密度の推定値を算出する。このようにして人密度を推定する理由は、発話者の周囲に多くの他者が存在すると、発話者は無意識に緊張し血圧や体温が変化することが考えられるからである。他にも、発話者のいる場所や発声時の時刻から人密度の推定値を算出してもよい。また、人密度推定手段１は、上述した例を組み合わせて人密度を推定してもよい。

ここで、人密度推定手段１と音声認識手段２については、その機能内容をプログラム化しコンピュータに実行させるように構成してもよい。

次に、本第１実施形態の音声認識装置の動作について説明する。図４は、本第１実施形態の音声認識装置の動作を示すフローチャートである。ここで、本発明の音声認識方法についてもその各工程を示して同時に説明する。

まず、図４のステップＳ１では、発話者または発話者の周囲に関する情報に基づいて人密度推定手段１により人密度が推定される（人密度推定工程）。続いて、図４のステップＳ２では、音声分析手段２１により音声が入力されたか否かが判定され、音声入力が無かった場合は動作を終了する。音声が入力されると、図４のステップＳ３において、音声分析手段２１により音声が特徴量に変換される（音声入力工程）。

続いて、図４のステップＳ４においては、参照モデル作成手段２３に人密度推定手段１からの人密度が入力され、参照モデル作成手段２３によって、人密度に対応する音響モデル及び辞書がそれぞれ音響モデル記憶手段２４及び辞書記憶手段２５から選出され、選出された辞書と音響モデルとを用いて参照モデルが作成される。

図４のステップＳ５では、音声比較手段２２により音声特徴量と参照モデルとが比較され、最も類似した参照モデルに対応した単語が認識結果として出力される（音声認識工程）。続いて、再びステップＳ２に戻り、音声が入力されたか否かが判定され、以下、同様の動作が繰り返される。

本第１実施形態の音声認識装置がこのように動作することで、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識することができる。例えば、人密度が閾値以上である場合に、小声の音声に対応した音響モデルや早口の音声に対応した音響モデル、または、聞かれてもよい単語を用いた発話に対応する辞書を用いることで、状況に応じた音声認識処理を実行することができる。

次に、本発明にかかる第２実施形態について説明する。

本第２実施形態の音声認識装置は、図１に示す第１実施形態と同様に、人密度推定手段１と、音声認識手段２とを備えて構成されている。

本第２実施形態においては、人密度推定手段１が第１実施形態と同様にして人密度を算出し、音声認識手段２が予め装備しているマイクロホンの感度を人密度に応じて調節する機能を備えている。このようにすると、小声の発声に対応してマイクロホンの感度を高くすることができる。

本第２実施形態の音声認識装置の動作について説明する。図５は、本第２実施形態の動作を示すフローチャートである。ここで、本発明の音声認識方法についてもその各工程を示して同時に説明する。

まず、図５のステップＳ２１では、人密度推定手段１により第１実施形態と同様にして人密度が推定される（人密度推定工程）。そして、図５のステップＳ２２において、音声認識手段２により予め装備しているマイクロホンの感度が人密度に応じて調節される（マイクゲイン調節工程）。

続いて、図５のステップＳ２３では、音声が入力されたか否かが判定され、音声入力が無かった場合は動作を終了する。音声が入力されると、図５のステップＳ２４において、音声が特徴量に変換される（音声入力工程）。続いて、図５のステップＳ２５においては、人密度に対応する音響モデル及び辞書を用いて参照モデルが作成される。

図５のステップＳ２６では、音声特徴量と参照モデルとが比較され、最も類似した参照モデルに対応した単語が認識結果として出力される（音声認識工程）。そして、再びステップＳ２３に戻り、音声が入力されたか否かが判定され、以下、同様の動作が繰り返される。

本第２実施形態の音声認識装置がこのように動作することで、第１実施形態と同様に、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識することができる。例えば、人密度が閾値以上である場合に、小声の音声に対応したマイクゲインに調整することで、状況に応じた音声認識処理を実行することができる。

次に、本発明にかかる第３実施形態について説明する。

第３実施形態は、第１実施形態の音声認識装置の構成に背景騒音検出手段３と、雑音推定手段４とを追加して備えた構成である。図６は、本第３実施形態の音声認識装置の構成を示すブロック図である。図６においては、図１と同様の構成要素について同一の符号を付して示している。

図６に示すように、本第３実施形態の音声認識装置は、人密度推定手段１と、音声認識手段５とを備え、さらに、発話者の周囲の騒音を検出する背景騒音検出手段３と、検出された騒音から発話音声ではない雑音を推定し、その雑音のスペクトルを測定する雑音推定手段４とを備えて構成されている。また、音声認識手段５は図７に示す構成である。

本第３実施形態においては、音声認識手段５の参照モデル作成手段５３が、第１実施形態の参照モデル作成手段２３と同様にして参照モデルを作成し、この参照モデルに雑音推定手段４からのスペクトルを加算して音声比較手段２２へ出力する。これにより、発話者の周囲の雑音に応じた音声認識処理を実行できる。

また、本第３実施形態においては、人密度推定手段１が、第１実施形態と同様にして人密度を算出するほかに、例えば、図８に示すように、背景騒音検出手段３に検出された背景騒音から足音の周波数成分を取り出す足音抽出手段１１と、足音の周波数成分のレベルと人密度とを対応付けたデータテーブルをデータテーブル記憶手段１３から読み出して参照し、足音抽出手段１１により抽出された足音の周波数成分に基づいて人密度を推定する人密度算出手段１２とを備えた構成であってもよい。このようにして人密度を推定する理由は、発話者の周囲の騒音において足音に相当する音のレベルが高ければ、他者が発話者の周囲に密集して存在していることが考えられるからである。

ここで、人密度推定手段１と音声認識手段５と背景騒音検出手段３と雑音推定手段４とについては、その機能内容をプログラム化しコンピュータに実行させるように構成してもよい。

次に、本第３実施形態の動作について説明する。図９は、本第３実施形態の音声認識装置の動作を示すフローチャートである。ここで、本発明の音声認識方法についてもその各工程を示して同時に説明する。

まず、図９のステップＳ３１では、背景騒音検出手段３により発話者の周囲の騒音が検出され、雑音推定手段４により雑音のスペクトルが測定される（雑音検出工程）。続いて、図９のステップＳ３２では、上述したように人密度推定手段１により人密度が推定される（人密度推定工程）。

続いて、図９のステップＳ３３において、音声分析手段２１により音声が入力されたか否かが判定され、音声入力が無かった場合は動作を終了する。音声が入力されると、図９のステップＳ３４において、音声分析手段２１により音声が特徴量に変換される（音声入力工程）。

続いて、図９のステップＳ３５においては、参照モデル作成手段５３に人密度推定手段１からの人密度が入力され、参照モデル作成手段５３によって人密度に対応する音響モデル及び辞書がそれぞれ音響モデル記憶手段２４及び辞書記憶手段２５から選出され、選出された音響モデルと辞書とを用いて参照モデルが作成され、この参照モデルに雑音推定手段４からのスペクトルが加算される。

図９のステップＳ３６では、音声比較手段２２により音声特徴量と雑音スペクトルが加算された参照モデルとが比較され、最も類似した参照モデルに対応した単語が認識結果として出力される（音声認識工程）。そして、再び図９のステップＳ３２に戻り、音声が入力されたか否かが判定され、以下、同様の動作が繰り返される。

ここで、本第３実施形態においても、上述した第２実施形態と同様に、音声認識手段５が、人密度推定手段１が算出した人密度を入力し、予め装備しているマイクロホンの感度を人密度に応じて調節するようにしてもよい。

本第３実施形態の音声認識装置がこのように動作することで、入力音声に雑音が混在している場合でも、精度のよい音声認識が可能であると共に、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識することができる。

本発明は、モバイル機器における音声操作に適応できる。

本発明における第１実施形態の音声認識装置の構成を示すブロック図である。図１に示す実施形態における音声認識手段の構成を示すブロック図である。図１に示す実施形態における人密度推定手段の構成の一例を示すブロック図である。図１に示す実施形態の音声認識装置の動作を示すフローチャートである。本発明における第２実施形態の音声認識装置の動作を示すフローチャートである。本発明における第３実施形態の音声認識装置の構成を示すブロック図である。図６に示す実施形態における音声認識手段の構成を示すブロック図である。図６に示す実施形態における人密度推定手段の構成の一例を示すブロック図である。図６に示す実施形態の音声認識装置の動作を示すフローチャートである。

符号の説明

１人密度推定手段
２，５音声認識手段
３背景騒音検出手段
４雑音推定手段
１１足音抽出手段
１２人密度算出手段
１３データテーブル記憶手段
２１音声分析手段
２２音声比較手段
２３，５３参照モデル作成手段
２４音響モデル記憶手段
２５辞書記憶手段

Claims

入力した音声を音声認識する音声認識手段を備えた音声認識装置において、
入力音声の発話者又はその周囲に関する情報を基に当該発話者の周囲の人密度を推定する人密度推定手段を備え、
前記音声認識手段が、前記人密度に基づいて前記入力音声を音声認識することを特徴とする音声認識装置。
前記請求項１に記載の音声認識装置において、
前記発話者の背景騒音から雑音を推定する雑音推定手段を備え、
前記音声認識手段が、前記雑音に基づいて前記入力音声を音声認識することを特徴とする音声認識装置。
前記請求項２に記載の音声認識装置において、
前記人密度推定手段が、前記背景騒音から足音を抽出しこの足音のレベルと予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識装置。
前記請求項１乃至３のいずれか一項に記載の音声認識装置において、
前記人密度推定手段が、前記発話者の周囲の電波密度を測定しこの電波密度と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識装置。
前記請求項１乃至４のいずれか一項に記載の音声認識装置において、
前記人密度推定手段が、前記音声の発声源と当該音声を入力するマイクロホンとの距離を測定しこの距離と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識装置。
前記請求項１乃至５のいずれか一項に記載の音声認識装置において、
前記人密度推定手段が、前記発話者の血圧を測定しこの血圧値と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識装置。
前記請求項１乃至６のいずれか一項に記載の音声認識装置において、
前記人密度推定手段が、前記発話者の体温を測定しこの体温と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識装置。
前記請求項１乃至７のいずれか一項に記載の音声認識装置において、
前記人密度推定手段が、前記発話者の場所と予め記憶した情報とを基に前記人密度を推定することを特徴とする音声認識装置。
前記請求項１乃至８のいずれか一項に記載の音声認識装置において、
前記人密度推定手段が、前記音声を入力した時刻と予め記憶した情報とを基に前記人密度を推定することを特徴とする音声認識装置。
前記請求項１乃至９のいずれか一項に記載の音声認識装置において、
前記音声認識手段が、前記人密度に対応した音響モデルを用いて前記入力音声を音声認識することを特徴とする音声認識装置。
前記請求項１乃至１０のいずれか一項に記載の音声認識装置において、
前記音声認識手段が、前記人密度に対応した辞書を用いて前記入力音声を音声認識することを特徴とする音声認識装置。
前記請求項１乃至１１のいずれか一項に記載の音声認識装置において、
前記音声認識手段が、前記音声を入力するマイクロホンの感度を前記人密度に応じて調節することを特徴とする音声認識装置。
発話者又はその周囲に関する情報を入力しこの情報を基に当該発話者の周囲の人密度を推定する人密度推定工程と、
前記発話者からの音声を入力する音声入力工程と、
前記人密度に基づいて前記入力した音声を音声認識する音声認識工程とを設けたことを特徴とする音声認識方法。
前記請求項１３に記載の音声認識方法において、
前記発話者の周囲の雑音を検出し入力する雑音検出工程を設け、
前記音声認識工程では、前記雑音に基づいて前記入力音声を音声認識することを特徴とする音声認識方法。
前記請求項１４に記載の音声認識方法において、
前記人密度推定工程では、前記検出された雑音から足音を抽出しこの足音のレベルと予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識方法。
前記請求項１３乃至１５のいずれか一項に記載の音声認識方法において、
前記人密度推定工程では、前記発話者の周囲の電波密度を測定しこの電波密度と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識方法。
前記請求項１３乃至１６のいずれか一項に記載の音声認識方法において、
前記人密度推定工程では、前記音声の発声源と当該音声を入力するマイクロホンとの距離を測定しこの距離と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識方法。
前記請求項１３乃至１７のいずれか一項に記載の音声認識方法において、
前記人密度推定工程では、前記発話者の血圧を測定しこの血圧値と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識方法。
前記請求項１３乃至１８のいずれか一項に記載の音声認識方法において、
前記人密度推定工程では、前記発話者の体温と予め記憶した基準情報とを測定しこの体温を基に前記人密度を推定することを特徴とする音声認識方法。
前記請求項１３乃至１９のいずれか一項に記載の音声認識方法において、
前記人密度推定工程では、前記発話者の場所と予め記憶した情報とを基に前記人密度を推定することを特徴とする音声認識方法。
前記請求項１３乃至２０のいずれか一項に記載の音声認識方法において、
前記人密度推定工程では、前記音声を入力した時刻と予め記憶した情報とを基に前記人密度を推定することを特徴とする音声認識方法。
前記請求項１３乃至２１のいずれか一項に記載の音声認識方法において、
前記音声認識工程では、前記人密度に対応した音響モデルを用いて前記入力音声を音声認識することを特徴とする音声認識方法。
前記請求項１３乃至２２のいずれか一項に記載の音声認識方法において、
前記音声認識工程では、前記人密度に対応した辞書を用いて前記入力音声を音声認識することを特徴とする音声認識方法。
前記請求項１３乃至２３のいずれか一項に記載の音声認識方法において、
前記音声を入力するマイクロホンの感度を前記人密度に応じて調節するマイクゲイン調節工程を設けたことを特徴とする音声認識方法。
発話者又はその周囲に関する情報を入力しこの情報を基に当該発話者の周囲の人密度を推定する人密度推定処理と、
前記発話者からの音声を入力する音声入力処理と、
前記人密度に基づいて前記入力した音声を音声認識する音声認識処理とをコンピュータに実行させることを特徴とする音声認識用プログラム。
前記請求項２５に記載の音声認識用プログラムにおいて、
前記発話者の周囲の雑音を検出し入力する雑音検出処理と共に、
前記音声認識処理を、前記雑音に基づいて前記入力音声を音声認識するような内容に特定して前記コンピュータに実行させることを特徴とする音声認識用プログラム。
前記請求項２６に記載の音声認識用プログラムにおいて、
前記人密度推定処理が、前記検出された雑音から足音を抽出しこの足音のレベルと予め記憶した基準情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
前記請求項２５乃至２７のいずれか一項に記載の音声認識用プログラムにおいて、
前記人密度推定処理が、前記発話者の周囲の電波密度を測定しこの電波密度と予め記憶した基準情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
前記請求項２５乃至２８のいずれか一項に記載の音声認識用プログラムにおいて、
前記人密度推定処理が、前記音声の発声源と当該音声を入力するマイクロホンとの距離を測定しこの距離と予め記憶した基準情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
前記請求項２５乃至２９のいずれか一項に記載の音声認識用プログラムにおいて、
前記人密度推定処理が、前記発話者の血圧を測定しこの血圧値と予め記憶した基準情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
前記請求項２５乃至３０のいずれか一項に記載の音声認識用プログラムにおいて、
前記人密度推定処理が、前記発話者の体温を測定しこの体温と予め記憶した基準情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
前記請求項２５乃至３１のいずれか一項に記載の音声認識用プログラムにおいて、
前記人密度推定処理が、前記発話者の場所と予め記憶した情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
前記請求項２５乃至３２のいずれか一項に記載の音声認識用プログラムにおいて、
前記人密度推定処理が、前記音声を入力した時刻と予め記憶した情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
前記請求項２５乃至３３のいずれか一項に記載の音声認識用プログラムにおいて、
前記音声認識処理が、前記人密度に対応した音響モデルを用いて前記入力音声を音声認識するような内容に特定されたことを特徴とする音声認識用プログラム。
前記請求項２５乃至３４のいずれか一項に記載の音声認識用プログラムにおいて、
前記音声認識処理が、前記人密度に対応した辞書を用いて前記入力音声を音声認識するような内容に特定されたことを特徴とする音声認識用プログラム。
前記請求項２５乃至３５のいずれか一項に記載の音声認識用プログラムにおいて、
前記音声を入力するマイクロホンの感度を前記人密度に応じて調節させるマイクゲイン調節処理を前記コンピュータに実行させることを特徴とする音声認識用プログラム。