JP2008225001A - 音声認識装置および音声認識方法,音声認識用プログラム - Google Patents

音声認識装置および音声認識方法,音声認識用プログラム Download PDF

Info

Publication number
JP2008225001A
JP2008225001A JP2007062527A JP2007062527A JP2008225001A JP 2008225001 A JP2008225001 A JP 2008225001A JP 2007062527 A JP2007062527 A JP 2007062527A JP 2007062527 A JP2007062527 A JP 2007062527A JP 2008225001 A JP2008225001 A JP 2008225001A
Authority
JP
Japan
Prior art keywords
speech recognition
human density
voice
speaker
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007062527A
Other languages
English (en)
Inventor
Atsushi Wakao
淳 若尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007062527A priority Critical patent/JP2008225001A/ja
Publication of JP2008225001A publication Critical patent/JP2008225001A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識できる音声認識装置および音声認識方法,音声認識用プログラムを提供する。
【解決手段】人密度推定手段1が、発話者の周囲の人密度を推定し、音声認識手段2が、人密度に基づいて入力音声を音声認識する。例えば、発話者の周囲の電波密度,足音等から人密度を算出し、人密度が高い場合に、早口の音声に対応した音響モデル、または、聞かれてもよい単語を用いた発話に対応する辞書を用いて音声認識処理を実行する。
【選択図】図1

Description

本発明は、音声認識装置および音声認識方法,音声認識用プログラムに関し、特に、使用環境に対応して音声認識する音声認識装置および音声認識方法,音声認識用プログラムに関する。
従来、音声認識技術の向上に伴って使用環境に応じた音声認識を実行する音声認識装置が実用化されている。例えば、入力音声に雑音が混在している場合の誤認識を軽減した音声認識装置が特許文献1に開示されている。
特許文献1の音声認識装置は、音声分析手段と、前処理手段と、音声認識手段と、機器操作手段と、雑音検出手段と、雑音レベル判定手段と、認識閾値変更手段とを備えて構成されている。特許文献1の音声認識装置では、音声検出手段が音声を検出し、この音声に対して前処理手段が増幅・雑音除去等を行い、一方、雑音検出手段で雑音が検出されると雑音レベル判定手段で雑音のレベルが判定され、認識閾値変更手段でこの判定に従って閾値が修正される。そして、音声認識手段が、前処理手段からの音声を閾値に従って認識し、機器操作手段は認識結果に基づいて機器を操作する。
特開平5‐11795号公報
しかしながら、音声認識技術における課題としては、入力音声に雑音が混在する場合とは別に、発話者が周囲の状況に影響されて通常とは違う発声を行う場合の課題がある。具体的には、発話者が周りにいる人に聞かれまいとして小声で発声する場合や早口に発声する場合、周囲の人に聞かれてもよい内容で発話する場合等の想定していない発声に対して、音声認識の精度が低くなるという不都合があった。
そこで、本発明は、上記従来技術の不都合を改善し、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識できる音声認識装置および音声認識方法,音声認識用プログラムの提供を、その目的とする。
上記目的を達成するため、本発明の音声認識装置は、入力音声の発話者又はその周囲に関する情報を基に当該発話者の周囲の人密度を推定する人密度推定手段と、人密度に基づいて入力音声を音声認識する音声認識手段とを備えたことを特徴とする。このような音声認識装置によれば、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識することができる。
また、上記の音声認識装置は、発話者の背景騒音から雑音を推定する雑音推定手段を備え、音声認識手段が、雑音に基づいて入力音声を音声認識してもよい。このようにすると、入力音声に雑音が混在している場合でも精度よく音声認識することができる。
また、上記の音声認識装置において、上述した人密度推定手段が、雑音から足音を抽出しこの足音のレベルと予め記憶した基準情報とを基に人密度を推定してもよい。このようにすると、発話者の周囲の雑音から人密度を推定することができる。
また、上記の音声認識装置において、上述した人密度推定手段が、発話者の周囲の電波密度を測定しこの電波密度と予め記憶した基準情報とを基に人密度を推定してもよい。このようにすると、発話者の周囲の電波状況から人密度を推定できる。
また、上記の音声認識装置において、上述した人密度推定手段が、音声の発声源と当該音声を入力するマイクロホンとの距離を測定しこの距離と予め記憶した基準情報とを基に人密度を推定してもよい。発話者の周囲に多くの他者が存在すると、発話者はマイクロホンに口を近づけて小声で発話することが考えられるから、発話者の口とマイクロホンとの距離がより近ければ、人密度がより高いと推定できる。
また、上記の音声認識装置において、上述した人密度推定手段が、発話者の血圧を測定しこの血圧値と予め記憶した基準情報とを基に人密度を推定してもよい。発話者の周囲に多くの他者が存在すると、発話者は緊張し血圧が変化することが考えられるから、発話者の血圧値から人密度を推定できる。
また、上記の音声認識装置において、上述した人密度推定手段が、発話者の体温を測定しこの体温と予め記憶した基準情報とを基に人密度を推定してもよい。発話者の周囲に多くの他者が存在すると、発話者は緊張し体温が変化することが考えられるから、発話者の体温から人密度を推定できる。
また、上記の音声認識装置において、上述した人密度推定手段が、発話者の場所を基に人密度を推定してもよい。このようにすると、発話者の居る場所から人密度を推定することができる。
また、上記の音声認識装置において、上述した人密度推定手段が、音声を入力した時刻を基に人密度を推定してもよい。このようにすると、発話者が発声した時刻から人密度を推定することができる。
また、上記の音声認識装置において、上述した音声認識手段が、人密度に対応した音響モデルを用いて入力音声を音声認識してもよい。このようにすると、例えば、人密度が高い場合に、小声の音声に対応した音響モデルや早口の音声に対応した音響モデルを用いて音声入力することができる。
また、上記の音声認識装置において、上述した音声認識手段が、人密度に対応した辞書を用いて入力音声を音声認識してもよい。このようにすると、例えば、聞かれてもよい単語を用いた発話に対応する辞書を用いることで状況に応じた音声認識処理を実行することができる。
また、上記の音声認識装置において、上述した音声認識手段が、音声を入力するマイクロホンの感度を人密度に応じて調節してもよい。このようにすると、発話者の周囲に多くの他者が存在すると、発話者は小声で発話することが考えられるから、小声の音声に対応してマイクロホンの感度を調節することができる。
次に、本発明の音声認識方法は、入力音声の発話者又はその周囲に関する情報を入力しこの情報を基に当該発話者の周囲の人密度を推定する人密度推定工程と、発話者からの音声を入力する音声入力工程と、人密度に基づいて入力音声を音声認識する音声認識工程とを設けたことを特徴とする。
また、上記の音声認識方法は、発話者の周囲の雑音を検出し入力する雑音検出工程を設け、音声認識工程では、雑音に基づいて入力音声を音声認識してもよい。
また、上記の音声認識方法において、上述した人密度推定工程では、検出された雑音から足音を抽出しこの足音のレベルを基に人密度を推定してもよく、発話者の周囲の電波密度を測定しこの電波密度を基に人密度を推定してもよい。また、上述した人密度推定工程では、音声の発声源と当該音声を入力するマイクロホンとの距離を測定しこの距離を基に人密度を推定してもよい。
さらに、上記の音声認識方法において、上述した人密度推定工程では、発話者の血圧を測定しこの血圧値を基に人密度を推定してもよく、発話者の体温を測定しこの体温を基に人密度を推定してもよい。また、上述した人密度推定工程では、発話者の場所を基に人密度を推定してもよく、音声を入力した時刻を基に人密度を推定してもよい。
またさらに、上記の音声認識方法において、上述した音声認識工程では、人密度に対応した音響モデルを用いて入力音声を音声認識してもよく、人密度に対応した辞書を用いて入力音声を音声認識してもよい。
さらに、上記の音声認識方法は、音声を入力するマイクロホンの感度を人密度に応じて調節するマイクゲイン調節工程を設けてもよい。
このような音声認識方法によれば、入力音声に雑音が混在している場合でも、精度のよい音声認識が可能であると共に、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識することができる。例えば、人密度が閾値以上である場合に、小声の音声に対応したマイクゲインに調整したり、早口の音声に対応した音響モデル、または、聞かれてもよい単語を用いた発話に対応する辞書を用いたりすることで、状況に応じた音声認識を実行することができる。
次に、本発明の音声認識用プログラムは。発話者又はその周囲に関する情報を入力しこの情報を基に発話者の周囲の人密度を推定する人密度推定処理と、発話者からの音声を入力する音声入力処理と、人密度に基づいて入力音声を音声認識する音声認識処理とをコンピュータに実行させることを特徴とする。
また、上記の音声認識用プログラムは、発話者の周囲の雑音を検出し入力する雑音検出処理と共に、音声認識処理を、雑音に基づいて入力音声を音声認識するような内容に特定してコンピュータに実行させてもよい。
また、上記の音声認識用プログラムにおいて、上述した人密度推定処理を、雑音から足音を抽出しこの足音のレベルを基に人密度を推定するような内容に特定してもよく、発話者の周囲の電波密度を測定しこの電波密度を基に人密度を推定するような内容に特定してもよい。また、上述した人密度推定処理を、音声の発声源と当該音声を入力するマイクロホンとの距離を測定しこの距離を基に人密度を推定するような内容に特定してもよい。
さらに、上記の音声認識用プログラムにおいて、上述した人密度推定処理を、発話者の血圧を測定しこの血圧値を基に人密度を推定するような内容に特定してもよく、発話者の体温を測定しこの体温を基に人密度を推定するような内容に特定してもよい。また、上述した人密度推定処理を、発話者の場所を基に人密度を推定するような内容に特定してもよく、音声を入力した時刻を基に人密度を推定するような内容に特定してもよい。
またさらに、上記の音声認識用プログラムにおいて、上述した音声認識処理を、人密度に対応した音響モデルを用いて入力音声を音声認識するような内容に特定してもよく、人密度に対応した辞書を用いて入力音声を音声認識するような内容に特定してもよい。
さらに、上記の音声認識用プログラムは、人密度に応じて音声を入力するマイクロホンの感度を調節させるマイクゲイン調節処理をコンピュータに実行させてもよい。
このような音声認識用プログラムによれば、入力音声に雑音が混在している場合でも、精度のよい音声認識をコンピュータに実行させることができると共に、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識させることができる。例えば、人密度が閾値以上である場合に、小声の音声に対応したマイクゲインに調整させたり、早口の音声に対応した音響モデル、または、聞かれてもよい単語を用いた発話に対応する辞書を選択させることで状況に応じた音声認識処理を実行させることができる。
本発明は以上のように構成され機能するため、これにより、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識することができる。例えば、人密度が高い場合に、小声の音声に対応したマイクゲインに調整したり、早口の音声に対応した音響モデル、または、聞かれてもよい単語を用いた発話に対応する辞書を用いたりすることで、状況に応じた音声認識処理を実行することができる。
以下、本発明における一実施形態を、図面を参照して説明する。
図1は、本発明にかかる第1実施形態の音声認識装置の構成を示すブロック図である。
本第1実施形態の音声認識装置は、図1に示すように、入力音声の発話者又はその周囲に関する情報を基にこの発話者の周囲の人の密度(人密度)を推定する人密度推定手段1と、この人密度に基づいて入力音声を音声認識する音声認識手段2とを備えて構成されている。
図2は、音声認識手段2の構成を示すブロック図である。図2に示すように、音声認識手段2は、入力音声を特徴量に変換する音声分析手段21と、この特徴量に変換された音声と、辞書及び音響モデルを基に作成される参照モデルとを比較して、最も音声と類似した参照モデルに対応する単語を音声認識結果として出力する音声比較手段22と、辞書から選出した単語の読みに従って音響モデルを選出し参照モデルを作成する参照モデル作成手段23と、音素、音節等の音韻単位でHMM(Hidden Markov Model)等の音響モデルを記憶している音響モデル記憶手段24と、音声認識用の辞書を記憶している辞書記憶手段25とを備えている。
音声分析手段21は、入力音声中から音声認識に有効な特徴量を取り出しており、この特徴量としては、ケプストラムやスペクトルが一般的である。
音響モデル記憶手段24は、通常の音声に対応した音響モデルの他に、小声の音声に対応した音響モデルや早口の音声に対応した音響モデル等、入力音声の状態に対応するために複数の音響モデルを記憶している。
辞書記憶手段25は、通常の場合に対応する辞書の他に、聞かれてもよい単語を用いた発話に対応する辞書等、入力音声の状態に対応するために複数の辞書を記憶している。
参照モデル作成手段23は、人密度推定手段1から人密度を入力し、この人密度が予め定められている閾値以上であるか否かを判定し、判定結果に従って異なる音響モデル及び辞書をそれぞれ音響モデル記憶手段24及び辞書記憶手段25から選出し、選出した辞書と音響モデルとを用いて参照モデルを作成する。
図1に示す人密度推定手段1は、発話者に関する情報、または発話者の周囲に関わる情報を入力し、予め記憶した基準情報であるデータテーブルを参照して、入力情報に対応した人密度の推定値を算出する。例えば、人密度推定手段1は、図3に示すように構成されており、発話者の周囲における携帯電話,無線LAN,RFID等の電波の電波密度が電波測定器1Aによって測定され、人密度算出手段12が、電波密度と人密度の推定値とを対応付けたデータテーブルをデータテーブル記憶手段13から読み出し、このデータテーブルと電波測定器1Aによって測定された電波密度とを基に人密度の推定値を算出する。このようにして人密度を推定する理由は、発話者の周囲の電波密度が高ければ、電波を発信する端末を所持した他者が発話者の周囲に密集して存在していることが考えられるからである。
他の例として、音声の発声源である発話者の口と音声入力のためのマイクロホンとの距離が距離センサ1Bにより測定され、人密度算出手段12が、距離と人密度の推定値とを対応付けたデータテーブルをデータテーブル記憶手段13から読み出し、このデータテーブルとこの測定された距離とを基に人密度の推定値を算出する。このようにして人密度を推定する理由は、発話者の周囲に多くの他者が存在すると、発話者はマイクロホンに口を近づけて小声で発話することが考えられるからである。
さらに他の例として、人密度算出手段12は、血圧測定器1C及び体温測定器1Dにより測定された発話者の血圧及び体温のいずれかに基づいて人密度の推定値を算出する。このようにして人密度を推定する理由は、発話者の周囲に多くの他者が存在すると、発話者は無意識に緊張し血圧や体温が変化することが考えられるからである。他にも、発話者のいる場所や発声時の時刻から人密度の推定値を算出してもよい。また、人密度推定手段1は、上述した例を組み合わせて人密度を推定してもよい。
ここで、人密度推定手段1と音声認識手段2については、その機能内容をプログラム化しコンピュータに実行させるように構成してもよい。
次に、本第1実施形態の音声認識装置の動作について説明する。図4は、本第1実施形態の音声認識装置の動作を示すフローチャートである。ここで、本発明の音声認識方法についてもその各工程を示して同時に説明する。
まず、図4のステップS1では、発話者または発話者の周囲に関する情報に基づいて人密度推定手段1により人密度が推定される(人密度推定工程)。続いて、図4のステップS2では、音声分析手段21により音声が入力されたか否かが判定され、音声入力が無かった場合は動作を終了する。音声が入力されると、図4のステップS3において、音声分析手段21により音声が特徴量に変換される(音声入力工程)。
続いて、図4のステップS4においては、参照モデル作成手段23に人密度推定手段1からの人密度が入力され、参照モデル作成手段23によって、人密度に対応する音響モデル及び辞書がそれぞれ音響モデル記憶手段24及び辞書記憶手段25から選出され、選出された辞書と音響モデルとを用いて参照モデルが作成される。
図4のステップS5では、音声比較手段22により音声特徴量と参照モデルとが比較され、最も類似した参照モデルに対応した単語が認識結果として出力される(音声認識工程)。続いて、再びステップS2に戻り、音声が入力されたか否かが判定され、以下、同様の動作が繰り返される。
本第1実施形態の音声認識装置がこのように動作することで、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識することができる。例えば、人密度が閾値以上である場合に、小声の音声に対応した音響モデルや早口の音声に対応した音響モデル、または、聞かれてもよい単語を用いた発話に対応する辞書を用いることで、状況に応じた音声認識処理を実行することができる。
次に、本発明にかかる第2実施形態について説明する。
本第2実施形態の音声認識装置は、図1に示す第1実施形態と同様に、人密度推定手段1と、音声認識手段2とを備えて構成されている。
本第2実施形態においては、人密度推定手段1が第1実施形態と同様にして人密度を算出し、音声認識手段2が予め装備しているマイクロホンの感度を人密度に応じて調節する機能を備えている。このようにすると、小声の発声に対応してマイクロホンの感度を高くすることができる。
本第2実施形態の音声認識装置の動作について説明する。図5は、本第2実施形態の動作を示すフローチャートである。ここで、本発明の音声認識方法についてもその各工程を示して同時に説明する。
まず、図5のステップS21では、人密度推定手段1により第1実施形態と同様にして人密度が推定される(人密度推定工程)。そして、図5のステップS22において、音声認識手段2により予め装備しているマイクロホンの感度が人密度に応じて調節される(マイクゲイン調節工程)。
続いて、図5のステップS23では、音声が入力されたか否かが判定され、音声入力が無かった場合は動作を終了する。音声が入力されると、図5のステップS24において、音声が特徴量に変換される(音声入力工程)。続いて、図5のステップS25においては、人密度に対応する音響モデル及び辞書を用いて参照モデルが作成される。
図5のステップS26では、音声特徴量と参照モデルとが比較され、最も類似した参照モデルに対応した単語が認識結果として出力される(音声認識工程)。そして、再びステップS23に戻り、音声が入力されたか否かが判定され、以下、同様の動作が繰り返される。
本第2実施形態の音声認識装置がこのように動作することで、第1実施形態と同様に、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識することができる。例えば、人密度が閾値以上である場合に、小声の音声に対応したマイクゲインに調整することで、状況に応じた音声認識処理を実行することができる。
次に、本発明にかかる第3実施形態について説明する。
第3実施形態は、第1実施形態の音声認識装置の構成に背景騒音検出手段3と、雑音推定手段4とを追加して備えた構成である。図6は、本第3実施形態の音声認識装置の構成を示すブロック図である。図6においては、図1と同様の構成要素について同一の符号を付して示している。
図6に示すように、本第3実施形態の音声認識装置は、人密度推定手段1と、音声認識手段5とを備え、さらに、発話者の周囲の騒音を検出する背景騒音検出手段3と、検出された騒音から発話音声ではない雑音を推定し、その雑音のスペクトルを測定する雑音推定手段4とを備えて構成されている。また、音声認識手段5は図7に示す構成である。
本第3実施形態においては、音声認識手段5の参照モデル作成手段53が、第1実施形態の参照モデル作成手段23と同様にして参照モデルを作成し、この参照モデルに雑音推定手段4からのスペクトルを加算して音声比較手段22へ出力する。これにより、発話者の周囲の雑音に応じた音声認識処理を実行できる。
また、本第3実施形態においては、人密度推定手段1が、第1実施形態と同様にして人密度を算出するほかに、例えば、図8に示すように、背景騒音検出手段3に検出された背景騒音から足音の周波数成分を取り出す足音抽出手段11と、足音の周波数成分のレベルと人密度とを対応付けたデータテーブルをデータテーブル記憶手段13から読み出して参照し、足音抽出手段11により抽出された足音の周波数成分に基づいて人密度を推定する人密度算出手段12とを備えた構成であってもよい。このようにして人密度を推定する理由は、発話者の周囲の騒音において足音に相当する音のレベルが高ければ、他者が発話者の周囲に密集して存在していることが考えられるからである。
ここで、人密度推定手段1と音声認識手段5と背景騒音検出手段3と雑音推定手段4とについては、その機能内容をプログラム化しコンピュータに実行させるように構成してもよい。
次に、本第3実施形態の動作について説明する。図9は、本第3実施形態の音声認識装置の動作を示すフローチャートである。ここで、本発明の音声認識方法についてもその各工程を示して同時に説明する。
まず、図9のステップS31では、背景騒音検出手段3により発話者の周囲の騒音が検出され、雑音推定手段4により雑音のスペクトルが測定される(雑音検出工程)。続いて、図9のステップS32では、上述したように人密度推定手段1により人密度が推定される(人密度推定工程)。
続いて、図9のステップS33において、音声分析手段21により音声が入力されたか否かが判定され、音声入力が無かった場合は動作を終了する。音声が入力されると、図9のステップS34において、音声分析手段21により音声が特徴量に変換される(音声入力工程)。
続いて、図9のステップS35においては、参照モデル作成手段53に人密度推定手段1からの人密度が入力され、参照モデル作成手段53によって人密度に対応する音響モデル及び辞書がそれぞれ音響モデル記憶手段24及び辞書記憶手段25から選出され、選出された音響モデルと辞書とを用いて参照モデルが作成され、この参照モデルに雑音推定手段4からのスペクトルが加算される。
図9のステップS36では、音声比較手段22により音声特徴量と雑音スペクトルが加算された参照モデルとが比較され、最も類似した参照モデルに対応した単語が認識結果として出力される(音声認識工程)。そして、再び図9のステップS32に戻り、音声が入力されたか否かが判定され、以下、同様の動作が繰り返される。
ここで、本第3実施形態においても、上述した第2実施形態と同様に、音声認識手段5が、人密度推定手段1が算出した人密度を入力し、予め装備しているマイクロホンの感度を人密度に応じて調節するようにしてもよい。
本第3実施形態の音声認識装置がこのように動作することで、入力音声に雑音が混在している場合でも、精度のよい音声認識が可能であると共に、発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識することができる。
本発明は、モバイル機器における音声操作に適応できる。
本発明における第1実施形態の音声認識装置の構成を示すブロック図である。 図1に示す実施形態における音声認識手段の構成を示すブロック図である。 図1に示す実施形態における人密度推定手段の構成の一例を示すブロック図である。 図1に示す実施形態の音声認識装置の動作を示すフローチャートである。 本発明における第2実施形態の音声認識装置の動作を示すフローチャートである。 本発明における第3実施形態の音声認識装置の構成を示すブロック図である。 図6に示す実施形態における音声認識手段の構成を示すブロック図である。 図6に示す実施形態における人密度推定手段の構成の一例を示すブロック図である。 図6に示す実施形態の音声認識装置の動作を示すフローチャートである。
符号の説明
1 人密度推定手段
2,5 音声認識手段
3 背景騒音検出手段
4 雑音推定手段
11 足音抽出手段
12 人密度算出手段
13 データテーブル記憶手段
21 音声分析手段
22 音声比較手段
23,53 参照モデル作成手段
24 音響モデル記憶手段
25 辞書記憶手段

Claims (36)

  1. 入力した音声を音声認識する音声認識手段を備えた音声認識装置において、
    入力音声の発話者又はその周囲に関する情報を基に当該発話者の周囲の人密度を推定する人密度推定手段を備え、
    前記音声認識手段が、前記人密度に基づいて前記入力音声を音声認識することを特徴とする音声認識装置。
  2. 前記請求項1に記載の音声認識装置において、
    前記発話者の背景騒音から雑音を推定する雑音推定手段を備え、
    前記音声認識手段が、前記雑音に基づいて前記入力音声を音声認識することを特徴とする音声認識装置。
  3. 前記請求項2に記載の音声認識装置において、
    前記人密度推定手段が、前記背景騒音から足音を抽出しこの足音のレベルと予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識装置。
  4. 前記請求項1乃至3のいずれか一項に記載の音声認識装置において、
    前記人密度推定手段が、前記発話者の周囲の電波密度を測定しこの電波密度と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識装置。
  5. 前記請求項1乃至4のいずれか一項に記載の音声認識装置において、
    前記人密度推定手段が、前記音声の発声源と当該音声を入力するマイクロホンとの距離を測定しこの距離と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識装置。
  6. 前記請求項1乃至5のいずれか一項に記載の音声認識装置において、
    前記人密度推定手段が、前記発話者の血圧を測定しこの血圧値と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識装置。
  7. 前記請求項1乃至6のいずれか一項に記載の音声認識装置において、
    前記人密度推定手段が、前記発話者の体温を測定しこの体温と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識装置。
  8. 前記請求項1乃至7のいずれか一項に記載の音声認識装置において、
    前記人密度推定手段が、前記発話者の場所と予め記憶した情報とを基に前記人密度を推定することを特徴とする音声認識装置。
  9. 前記請求項1乃至8のいずれか一項に記載の音声認識装置において、
    前記人密度推定手段が、前記音声を入力した時刻と予め記憶した情報とを基に前記人密度を推定することを特徴とする音声認識装置。
  10. 前記請求項1乃至9のいずれか一項に記載の音声認識装置において、
    前記音声認識手段が、前記人密度に対応した音響モデルを用いて前記入力音声を音声認識することを特徴とする音声認識装置。
  11. 前記請求項1乃至10のいずれか一項に記載の音声認識装置において、
    前記音声認識手段が、前記人密度に対応した辞書を用いて前記入力音声を音声認識することを特徴とする音声認識装置。
  12. 前記請求項1乃至11のいずれか一項に記載の音声認識装置において、
    前記音声認識手段が、前記音声を入力するマイクロホンの感度を前記人密度に応じて調節することを特徴とする音声認識装置。
  13. 発話者又はその周囲に関する情報を入力しこの情報を基に当該発話者の周囲の人密度を推定する人密度推定工程と、
    前記発話者からの音声を入力する音声入力工程と、
    前記人密度に基づいて前記入力した音声を音声認識する音声認識工程とを設けたことを特徴とする音声認識方法。
  14. 前記請求項13に記載の音声認識方法において、
    前記発話者の周囲の雑音を検出し入力する雑音検出工程を設け、
    前記音声認識工程では、前記雑音に基づいて前記入力音声を音声認識することを特徴とする音声認識方法。
  15. 前記請求項14に記載の音声認識方法において、
    前記人密度推定工程では、前記検出された雑音から足音を抽出しこの足音のレベルと予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識方法。
  16. 前記請求項13乃至15のいずれか一項に記載の音声認識方法において、
    前記人密度推定工程では、前記発話者の周囲の電波密度を測定しこの電波密度と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識方法。
  17. 前記請求項13乃至16のいずれか一項に記載の音声認識方法において、
    前記人密度推定工程では、前記音声の発声源と当該音声を入力するマイクロホンとの距離を測定しこの距離と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識方法。
  18. 前記請求項13乃至17のいずれか一項に記載の音声認識方法において、
    前記人密度推定工程では、前記発話者の血圧を測定しこの血圧値と予め記憶した基準情報とを基に前記人密度を推定することを特徴とする音声認識方法。
  19. 前記請求項13乃至18のいずれか一項に記載の音声認識方法において、
    前記人密度推定工程では、前記発話者の体温と予め記憶した基準情報とを測定しこの体温を基に前記人密度を推定することを特徴とする音声認識方法。
  20. 前記請求項13乃至19のいずれか一項に記載の音声認識方法において、
    前記人密度推定工程では、前記発話者の場所と予め記憶した情報とを基に前記人密度を推定することを特徴とする音声認識方法。
  21. 前記請求項13乃至20のいずれか一項に記載の音声認識方法において、
    前記人密度推定工程では、前記音声を入力した時刻と予め記憶した情報とを基に前記人密度を推定することを特徴とする音声認識方法。
  22. 前記請求項13乃至21のいずれか一項に記載の音声認識方法において、
    前記音声認識工程では、前記人密度に対応した音響モデルを用いて前記入力音声を音声認識することを特徴とする音声認識方法。
  23. 前記請求項13乃至22のいずれか一項に記載の音声認識方法において、
    前記音声認識工程では、前記人密度に対応した辞書を用いて前記入力音声を音声認識することを特徴とする音声認識方法。
  24. 前記請求項13乃至23のいずれか一項に記載の音声認識方法において、
    前記音声を入力するマイクロホンの感度を前記人密度に応じて調節するマイクゲイン調節工程を設けたことを特徴とする音声認識方法。
  25. 発話者又はその周囲に関する情報を入力しこの情報を基に当該発話者の周囲の人密度を推定する人密度推定処理と、
    前記発話者からの音声を入力する音声入力処理と、
    前記人密度に基づいて前記入力した音声を音声認識する音声認識処理とをコンピュータに実行させることを特徴とする音声認識用プログラム。
  26. 前記請求項25に記載の音声認識用プログラムにおいて、
    前記発話者の周囲の雑音を検出し入力する雑音検出処理と共に、
    前記音声認識処理を、前記雑音に基づいて前記入力音声を音声認識するような内容に特定して前記コンピュータに実行させることを特徴とする音声認識用プログラム。
  27. 前記請求項26に記載の音声認識用プログラムにおいて、
    前記人密度推定処理が、前記検出された雑音から足音を抽出しこの足音のレベルと予め記憶した基準情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
  28. 前記請求項25乃至27のいずれか一項に記載の音声認識用プログラムにおいて、
    前記人密度推定処理が、前記発話者の周囲の電波密度を測定しこの電波密度と予め記憶した基準情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
  29. 前記請求項25乃至28のいずれか一項に記載の音声認識用プログラムにおいて、
    前記人密度推定処理が、前記音声の発声源と当該音声を入力するマイクロホンとの距離を測定しこの距離と予め記憶した基準情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
  30. 前記請求項25乃至29のいずれか一項に記載の音声認識用プログラムにおいて、
    前記人密度推定処理が、前記発話者の血圧を測定しこの血圧値と予め記憶した基準情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
  31. 前記請求項25乃至30のいずれか一項に記載の音声認識用プログラムにおいて、
    前記人密度推定処理が、前記発話者の体温を測定しこの体温と予め記憶した基準情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
  32. 前記請求項25乃至31のいずれか一項に記載の音声認識用プログラムにおいて、
    前記人密度推定処理が、前記発話者の場所と予め記憶した情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
  33. 前記請求項25乃至32のいずれか一項に記載の音声認識用プログラムにおいて、
    前記人密度推定処理が、前記音声を入力した時刻と予め記憶した情報とを基に前記人密度を推定するような内容に特定されたことを特徴とする音声認識用プログラム。
  34. 前記請求項25乃至33のいずれか一項に記載の音声認識用プログラムにおいて、
    前記音声認識処理が、前記人密度に対応した音響モデルを用いて前記入力音声を音声認識するような内容に特定されたことを特徴とする音声認識用プログラム。
  35. 前記請求項25乃至34のいずれか一項に記載の音声認識用プログラムにおいて、
    前記音声認識処理が、前記人密度に対応した辞書を用いて前記入力音声を音声認識するような内容に特定されたことを特徴とする音声認識用プログラム。
  36. 前記請求項25乃至35のいずれか一項に記載の音声認識用プログラムにおいて、
    前記音声を入力するマイクロホンの感度を前記人密度に応じて調節させるマイクゲイン調節処理を前記コンピュータに実行させることを特徴とする音声認識用プログラム。
JP2007062527A 2007-03-12 2007-03-12 音声認識装置および音声認識方法,音声認識用プログラム Withdrawn JP2008225001A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007062527A JP2008225001A (ja) 2007-03-12 2007-03-12 音声認識装置および音声認識方法,音声認識用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007062527A JP2008225001A (ja) 2007-03-12 2007-03-12 音声認識装置および音声認識方法,音声認識用プログラム

Publications (1)

Publication Number Publication Date
JP2008225001A true JP2008225001A (ja) 2008-09-25

Family

ID=39843705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007062527A Withdrawn JP2008225001A (ja) 2007-03-12 2007-03-12 音声認識装置および音声認識方法,音声認識用プログラム

Country Status (1)

Country Link
JP (1) JP2008225001A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220080629A (ko) * 2020-12-07 2022-06-14 서울대학교산학협력단 화자 외 정보가 제거된 화자 임베딩 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220080629A (ko) * 2020-12-07 2022-06-14 서울대학교산학협력단 화자 외 정보가 제거된 화자 임베딩 장치 및 방법
KR102477444B1 (ko) 2020-12-07 2022-12-15 서울대학교산학협력단 화자 외 정보가 제거된 화자 임베딩 장치 및 방법

Similar Documents

Publication Publication Date Title
US11295748B2 (en) Speaker identification with ultra-short speech segments for far and near field voice assistance applications
US11735191B2 (en) Speaker recognition with assessment of audio frame contribution
JP6654611B2 (ja) 成長型対話装置
KR100742888B1 (ko) 음성 인식 방법
JP6759898B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
EP2048655A1 (en) Context sensitive multi-stage speech recognition
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP5040778B2 (ja) 音声合成装置、方法及びプログラム
JP2019101385A (ja) 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2018013549A (ja) 発話内容認識装置
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
JPH11175082A (ja) 音声対話装置及び音声対話用音声合成方法
KR102188264B1 (ko) 언어재활 기반 발성 음성 평가 장치 및 방법
JP4074543B2 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP6996185B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2015055653A (ja) 音声認識装置及び方法、並びに、電子機器
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP2008225001A (ja) 音声認識装置および音声認識方法,音声認識用プログラム
JP2007328288A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP4749990B2 (ja) 音声認識装置
JP2012155301A (ja) 状況認知型音声認識方法
KR20100111544A (ko) 음성인식을 이용한 발음 교정 시스템 및 그 방법
JP4449380B2 (ja) 話者正規化方法及びそれを用いた音声認識装置
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100601