JP4433704B2 - 音声認識装置および音声認識用プログラム - Google Patents
音声認識装置および音声認識用プログラム Download PDFInfo
- Publication number
- JP4433704B2 JP4433704B2 JP2003185469A JP2003185469A JP4433704B2 JP 4433704 B2 JP4433704 B2 JP 4433704B2 JP 2003185469 A JP2003185469 A JP 2003185469A JP 2003185469 A JP2003185469 A JP 2003185469A JP 4433704 B2 JP4433704 B2 JP 4433704B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- user
- information
- pause time
- smoothness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【技術分野】
本発明は、音声認識装置に関し、特に、認識対象となる発話音声の終端を高い精度で判断する音声認識装置および音声認識用プログラムに関する。
【0002】
【背景技術】
音声認識の手法として、小語彙の単語を単独で認識する孤立単語音声認識手法や、記述文法に従う単語の組合せを認識できる連続単語音声認識手法、自然言語処理を考慮した大語彙連続音声認識手法などが提案されている。
【0003】
いずれの手法においても音声を正確に認識するためには、連続する単語間に生じる「各単語の区切り」及び発話の終了時に生じる「発話終了の区切り」を正確に検出することが重要である。
【0004】
【従来の技術】
従来は、「各単語の区切り」と「発話終了の区切り」とを区別して検出するために所定時間長の「閾値」を設定し、この設定された閾値と検出されたポーズ時間とを比較して、発話に含まれた無音区間が「各単語の区切り」または「発話終了の区切り」のどちらであるかを判断する手法が用いられていた。たとえば、特許文献1には、単語を構成する音素の配列情報、各音素の強度情報、及び各音素の継続時間情報に基づいて閾値を定め、当該閾値未満の音素の継続時間長に応じて音声区間を検出する手法が記載されている。
【0005】
「各単語の区切り」と「発話終了の区切り」とを区別する閾値は、長めに設定するのが一般的である。なぜなら、この閾値が短すぎると、「各単語の区切り」として検出されるべき無音区間が誤って「発話終了の区切り」として検出されてしまい、発話の待ち受けモードが解除され、続いて発話された単語を認識せずに、誤った認識結果を出力してしまう場合があるからである。また、発話中に含まれる「各単語の区切り」の時間長は一律ではないため、これらのバラツキを考慮する必要もある。
【0006】
しかしながら、「各単語の区切り」と「発話終了の区切り」とを検出するための「閾値」が長すぎると、「発話終了の区切り」の検出を行うのに余分な時間がかかり、音声認識処理が遅くなるという不都合があった。また、「発話終了の区切り」を検出するための閾値が長すぎると、実際には発話が終了しているにもかかわらず発話を待ち受けてしまい、発話以外の音を発話音声として認識し、誤った認識結果を出力してしまうという不都合があった。特に、高ノイズの環境下においては、発話の終端部にノイズが含まれる可能性が高くなるため、正確な音声認識処理ができないという不都合があった。
【0007】
【特許文献1】
特開2002−32094号公報
【0008】
【発明の開示】
本発明は、ユーザの発話の終了を高い精度で検出することを目的とする。
【0009】
この発明によれば、ユーザから発話入力される連続した単語を含む音声データを取得する音声データ取得手段と、前記取得した音声データを認識する音声認識手段とを有し、前記音声認識手段は、予め時間長が設定された発話終了ポーズ時間以上の無音区間を検出した場合に前記ユーザの発話入力の終了を検出する機能を少なくとも備えた音声区間検出部と、前記ユーザから入力される発話の終端を検出する精度に応じて前記発話終了ポーズ時間を決定する発話終了ポーズ時間演算部とを有する音声認識装置を提供することができる。
【0010】
これにより、ユーザの発話の終端を検出する精度に応じて、「発話終了の区切り」を高い精度で区別する音声認識装置または音声認識用プログラムを提供することができる。
【0011】
【発明の実施の形態】
本発明は、ユーザから発話入力される連続した単語を含む音声データに、予め時間長が設定された発話終了ポーズ時間以上の無音区間を検出した場合に前記ユーザの発話入力の終了を検出し、音声認識処理を行う装置に係り、「発話入力の終端を検出する精度」に応じて、発話の終了を検出する基準となる「発話終了ポーズ時間」を決定することを特徴とする。
【0012】
この「発話入力の終端を検出する精度」とは、ユーザの発話完了の検出の難易度、すなわち、発話完了を認識する場合の確からしさであり、「発話終端検出精度情報」から推測される。
【0013】
「発話終端検出精度情報」は、発話入力の終端を検出する精度に影響を与える因子であり、発話者側に起因する発話終端検出精度情報と、発話された音声を取得する音声認識装置側に起因する発話終端検出精度情報とを少なくとも含む。発話者側に起因する発話終端検出精度情報としては、発話者の発話の連続性または発話の連続性に影響を与える要因に関係する情報を用いることが好ましい。たとえば、発話者が円滑に発話している場合には発話が連続し、発話の連続性が保たれることから、発話の円滑性に寄与する要因を定量的に示す情報(たとえば第1〜第7実施形態における円滑要因情報)を発話終端検出精度情報として用いることが好ましい。
【0014】
他方、音声認識装置側に起因する発話終端検出精度情報としては、発話された音声データの取得時の音環境に影響を与える要因に関係する情報を用いることが好ましい。たとえば、音声信号取得時の音環境が何らかの要因によって音声データの取得に好適となる場合、または何らかの要因によって音声データの取得に不適となる場合において、そのような音声データ取得時の音環境に寄与する要因を定量的に示す情報(たとえば第8〜第9実施形態における音声信号取得環境情報)を発話終端検出精度情報として用いることが好ましい。
【0015】
以下、第1実施形態から第7実施形態では、ユーザの発話の円滑性に寄与する「円滑要因情報」を「発話終端検出精度情報」として用いることにより、発話終了ポーズ時間を決定する例を説明する。また、第8実施形態および第9実施形態では、音声データを取得する際の音環境に寄与する「音声信号取得環境情報」を「発話終端検出精度情報」として用いることにより発話終了ポーズ時間を決定する例を説明する。さらに、第10実施形態では、「円滑要因情報」及び「音声信号取得環境情報」を「発話終端検出精度情報」として用いることにより、発話終了ポーズ時間を決定する例を説明する。
【0016】
<第1実施形態>
第1実施形態は、本発明の基本的な実施形態である。以下、第1実施形態を図面に基づいて説明する。
図1に示す本実施形態の音声認識装置100は、入力装置200を介して入力された音声その他の入力信号を取得する音声データ取得手段1と、音声データ取得手段1が取得した音声データを認識する音声認識手段2と、音声認識手段2の認識結果を外部装置400へ向けて出力する出力手段3とを有している。具体的には、少なくとも、音声データを認識するプログラム、発話終了ポーズ時間を制御するプログラムを格納したROMと、このROMに格納されたプログラムを実行することで、音声認識手段2として機能するCPUと、情報を記憶し記憶装置300として機能するRAMとを備えている。
【0017】
音声認識装置100の各構成について、図1を用いて説明する。
音声データ取得手段1は、入力装置200を介してユーザからの入力信号を取得する。入力装置200は、ユーザが発話入力した音声データを受け付けるマイクロフォンを少なくとも有し、マイクロフォンに入力された音声データは、音声データ取得手段1のA/D変換部によりディジタル信号に変換される。音声データ取得手段1が取得する入力信号には、音声データ、音声入力の開始又は終了の信号、訂正命令の入力信号、騒音マイクにより収音した騒音に関するデータなどが少なくとも含まれる。また、音声データ取得手段1は、連続した単語を含む音声データを取得する。連続した単語を含む音声データには、単語が連続する「神奈川県 横須賀市」といった発話音声や、単語間に間投詞「の」、「が」、「で」等を挿入できる「神奈川県の横須賀市」といった発話音声が含まれる。
【0018】
音声認識手段2は、連続した単語を含む音声データを認識し、少なくとも音声区間検出部21と、特徴分析処理部23と、照合処理部24と、発話ポーズ時間演算部25とを有している。
【0019】
音声区間検出部21は、音声データから認識の単位となる単位音声データの始端と終端とを検出し、認識対象となる音声データを有音の音声区間として切り出す。
【0020】
図2にユーザが発話した音声データの一例を示す。この音声データは、音声入力が開始されるまでの無音区間、発話された単語に対応する有音区間、次に発話された単語との間に形成された無音区間、同様に有音区間と無音区間とが繰り返され、最後に発話された単語に対応する有音区間、その後、発話終了後の無音区間を含んでいる。
【0021】
音声区間検出部21は、この音声データから、少なくとも有音区間を切り出す。音声区間の始端と終端は任意に定義することができる。本実施形態の有音区間は、発話された単語に対応する音声データとこの音声データに続く無音区間とを含む。有音区間の始端は、音声データのパワーが所定の閾値以上となったタイミング、または音声入力スイッチ200が押されたタイミングとすることが好ましい。有音区間の終端は、音声データのパワーが所定の時間よりも長く閾値を下回ったタイミングとすることが好ましい。
【0022】
本形態の音声区間検出部21は、取得した音声データを、所定時間長毎の時系列信号として蓄えることが可能なバッファを含んで構成され、入力された音声データをバッファに取得し、入力音声データのパワー値と、予め定めた閾値(SN比によって制御された閾値を含む)と、入力された音声データのパワー値とを比較する。
【0023】
また、音声区間検出部21は、ユーザの発話入力の終了を検出する発話終了検出機能211を少なくとも備えている。発話終了検出機能211は、予め時間長が設定された「発話終了ポーズ時間212」以上の無音区間を検出した場合に、ユーザの発話入力の終了を検出する。この「発話終了ポーズ時間212」は予め記憶されていてもよいし、任意のタイミングで算出してもよい。
【0024】
図3は、「神奈川県横須賀市夏島町」と連続発話をした場合の音声データを示す。図中のアルファベットは音素記号を表し、SilBは発話開始直前のポーズ、SilEは発話終了後のポーズ、SP1〜SP4は単語間のポーズの時間長を表す。発話Aは、ユーザが円滑に発話していない場合(円滑性が低い場合)、発話Bはユーザが円滑に発話した場合(円滑度が高い場合)を表している。
【0025】
図4では、図3で示した各ポーズ区間の時間長を比較した。初期設定時において発話終了ポーズ時間は、SP1〜SP4のうち最長であるSP2よりも長い時間であることが好ましい。単語間の無音区間であるSP4を発話終了後の無音区間として検出してしまうからである。
【0026】
発話終了ポーズ時間212の初期設定について説明する。発話終了ポーズ時間は、単語間に形成される無音区間と発話終了時に形成される無音区間の中から、発話終了時に形成される無音区間を検出できるように設定される。発話終了時に形成される無音区間の時間は、単語間に形成される無音区間の時間よりも長い傾向があるため、単語間の無音区間の時間長以上、発話終了時の無音区間の時間長以下であることが好ましい。本実施形態では、SP2+αの時間長を発話終了ポーズ時間(SPMAX)として初期設定する。
【0027】
この「発話終了ポーズ時間」は、発話終了ポーズ時間演算部25により決定され、発話終了ポーズ時間212に初期設定として書き込まれ、または、記憶されている「発話終了ポーズ時間」に書き換えられる。
【0028】
図5には、初期設定された発話終了ポーズ時間(SPMAX)を、実際の音声データにあてはめた場合を示した。ユーザの発話が円滑ではなく、長いポーズ時間(SP2)を発話中に含む発話Aについては発話終了ポーズ時間の長さは適切である。しかし、ユーザが円滑に発話し、単語間のポーズ時間が短い発話B(最長のポーズ時間はSP4)については、SPMAXの時間が経過しないと発話終了を検出することができず、発話終了を検出するまでに長い時間を要する。
【0029】
ところで、ユーザが発話した音声データに含まれるポーズ時間の長さは、ユーザの発話が円滑であるかどうかに応じて変化する傾向がある。すなわち、円滑な発話のポーズ時間は短くなる傾向があり、円滑でない発話のポーズ時間は長くなる傾向がある。本実施形態ではこの発話の特性を考慮して、ユーザの発話の円滑性に応じて「発話終了ポーズ時間」の時間長を決定する。発話の円滑性とは、単語間をスムーズに繋げて発話できたかどうかという観点から発話を評価したものである。単語間のポーズが相対的に短い発話は、円滑性の高い発話と評価できる。逆に、単語間のポーズが相対的に長い発話は、円滑性の高い発話と評価できる。
【0030】
「発話終了ポーズ時間演算部25」は、発話の円滑性を考慮して「発話終了ポーズ時間」の時間長を決定し、「円滑要因情報取得部253(情報取得部)」と、「円滑度推測部254」と、「演算部251」とを有している。
【0031】
「円滑要因情報取得部253」は、ユーザの発話の円滑性に寄与する円滑要因情報を取得する。円滑要因情報取得部253が取得する「円滑要因情報」は、ユーザの発話に影響を与える因子であれば特に限定されず、例えば、ユーザの運転負荷に関する情報、ユーザの発話命令に基づく動作履歴に関する情報、ユーザの発話命令履歴に関する情報、ユーザ周囲の騒音量に関する情報、ユーザの発話入力の訂正命令に関する情報などを例示することができる。
【0032】
「円滑度推測部254」は、円滑要因情報取得部253により取得された円滑要因情報からユーザの発話の円滑度を推測する。本実施形態の円滑度推測部252は、円滑要因情報から所定のパラメータを抽出し、予め円滑要因情報のパラメータと円滑度とを対応づけた円滑度判断テーブルを参照し、取得した円滑要因情報に基づいて円滑度を推測する。
【0033】
具体的な円滑度の推測手法例を以下に列挙する。
1.ユーザの運転負荷が高い場合には、ユーザが発話に集中できず、発話の円滑性は低下する傾向があるという関係から運転負荷の高さに応じて円滑度を推測する。
【0034】
2.ある動作が過去に何度も実行されている場合には、ユーザはその動作に慣れていて、発話の円滑性は向上する傾向があるという関係から動作頻度に基づいて円滑度を推測する。
【0035】
3.ユーザが過去に何度も発話したことのある命令であれば、ユーザは明瞭に発話することができ、発話の円滑性は向上する傾向があるという関係から命令頻度に基づいて円滑度を推測する。
【0036】
4.周囲の騒音が激しい場合には、ユーザは大きい声ではっきりと発話し、発話の円滑性が高くなる傾向があるという関係から騒音量に基づいて円滑度を推測する。
【0037】
5.訂正入力時にはユーザは意識的に大きい声ではっきりと発話し、発話の円滑性が高くなる傾向があるので、訂正入力の有無に基づいて円滑度を推測する。
「演算部251」は、ユーザの発話が円滑である場合には音声データ中のポーズ時間が短くなり、ユーザの発話が円滑でない場合には音声データ中のポーズ時間が長くなる傾向を踏まえて、推測された円滑度に応じて発話終了ポーズ時間を決定する。
【0038】
本実施形態の演算部251は、円滑度推測部252の推測した円滑度が高い場合には、発話終了ポーズ時間を相対的に短く決定し、円滑度推測部252の推測した円滑度が低い場合には、発話終了ポーズ時間を相対的に長く決定する。発話終了ポーズ時間の時間長の制御手法は特に限定されないが、本実施形態では、基準となる標準発話終了ポーズ時間を設定し、円滑度に応じて標準発話終了ポーズ時間を相対的に延長又は短縮する手法を用いる。延長の程度または短縮の程度は、予め円滑度に対応づけておくことが好ましい。
【0039】
発話終了ポーズ時間演算部25が決定した発話終了ポーズ時間を参照して検出された音声区間に含まれる音声データは、特徴分析処理部23へ送出される。
【0040】
「特徴分析処理部23」は、取得した音声データから音素の音響的な特徴パラメータを抽出する。さらに、抽出した特徴パラメータの時系列ベクトルデータに変換し、変換した時系列ベクトルデータを照合処理部24に送出する。特徴分析処理の手法は特に限定されず、線形予測分析(LPC:Linear Predictive Coding)などの公知の手法を用いることができる。また、LPCケプストラム、LPCデルタケプストラム、メルケプストラム、対数パワーその他の特徴パラメータを用いることができる。
【0041】
「照合処理部24」は、音響モデル301、言語モデル302に基づいて、変換された時系列ベクトルデータを評価する。具体的には、言語モデル302上に存在する単語(単語辞書上の単語)に対応した音響モデル301と、入力された音声データの特徴パラメータとを照合し、言語モデルにて生成された仮説に対し、音響的な尤もらしさ(音響尤度)を求める。音響尤度が最も高いと判定された仮説を認識結果として出力手段3へ向けて出力する。音響モデル301、言語モデル302は、照合処理部24が備えていてもよいし、アクセス可能な記憶装置300に格納しておいてもよい。音響モデル301は、単語列の音響特徴を記述する統計的モデルであって、前後につながる音韻の種類を考慮したスペクトル特性の時系列変化を記述したデータである。用いる音響モデル301は、特に限定されず、隠れマルコフモデル(Hidden Markov Moddel:HMM)などを用いることができる。言語モデル302は、単語群と各単語の音素の並びが格納されたリストデータ及び、該単語群の結合関係を表す単語ネットワークを記述したデータを有している。単語ネットワークとは、音声認識装置が認識可能な単語間のつながりを記憶した辞書であり、連続音声認識における言語モデルの表現手法である。例えば、地名に関する単語ネットワークの一例を図6に示した。
【0042】
「出力手段3」は、照合処理部24から送出された認識結果に応じて外部装置400に対する制御命令を出力する。
【0043】
以上、図1に示した音声認識装置100の基本的な動作を説明する。図7は、音声認識装置100の基本動作制御処理のフローチャート図である。
【0044】
まず、円滑要因情報取得部253は、ユーザの発話の円滑性に影響を与える円滑要因情報を取得する(102)。円滑度推測部252は、取得した円滑要因情報に基づいて円滑度を推測する(103)。この推測は、予め円滑要因情報と円滑度とを対応づけた円滑度判断テーブルを参照して行う。円滑度推測部252は、円滑要因情報から抽出した所定のパラメータ値に応じた定量的な円滑度を推測する。
【0045】
演算部251は、推測した円滑度に応じて発話終了ポーズ時間を決定する(104)。演算部251は、決定した発話終了ポーズ時間を音声区間検出部21に向けて送出し、発話終了ポーズ時間を書き込み(設定)または更新する。なお、この発話終了ポーズ時間の決定処理は、音声データの入力があった場合にのみ実行させてもよい。
【0046】
次に、認識処理(110〜125)が行われる。まず、音声データ取得手段1は、入力装置200を介して、ユーザが発話した音声データを取得する(110)。音声区間検出部21は音声データ中の音声パワーを取得する(111)。取得した音声パワーが所定の閾値よりも大きくなったタイミングを(112)検出し、そのポイントを音声区間の始端と決定する(113)。他方、音声パワーが所定の閾値よりも小さい場合には、音声データからの音声パワーの抽出を継続する(112、111)。音声パワーの閾値とは、本装置が使用される環境下での背景雑音(騒音)の混入を考慮しても音声区間を適切に切り出すことができるように予め定めた値である。音声区間の切り出し手法は、これに限定されず、音声パワーが閾値を上回った時点から、所定時間だけ遡った時点を音声区間の始端としてもよい。音声区間の始端となる先頭音素が閾値未満となり、発話途中の音素を音声区間の始端と判断された場合に有効である。また、入力手段200の発話入力スイッチのON情報に基づいて判断してもよい。
【0047】
音声区間の始端が決定されたタイミングで(113)、音声データ中の無音区間の時間長を計測するポーズタイマーを初期化し(114)、閾値よりも小さい音声パワーを検出するまで、音声データをバッフアリングし(115)、音声パワーの取得を継続する(116)。所定の閾値よりも小さい音声パワーを取得した場合、無音区間が開始したものと判断して、発話終了ポーズ時間を取得し(118)、ポーズタイマーのカウントアップを行う(119)。
【0048】
発話終了検出機能211は、ポーズタイマーが計測した「無音区間の時間長」と、取得した「発話終了ポーズ時間212」とを比較する。「無音区間の時間長」が「発話終了ポーズ時間」よりも短い場合には(120)、ステップ115〜ステップ119を繰り返す。他方、「無音区間の時間長」が「発話終了ポーズ時間」よりも長い場合には(120)、無音区間の終端を音声区間の終端として決定する(121)。バッファリングされていた音声区間の音声データを、特徴分析処理部23、照合処理部24に向けて送出する(122)。音声認識手段2は音声認識処理を行う(123)。認識成功と判断された場合(123)、認識結果は出力手段3を介して外部装置400へ向けて送出される(125)。一方、認識不成功と判断された場合(123)、認識不成功の告知処理、再度の発話入力の要求処理を行う(126)。
【0049】
以上のように構成され、動作する第1実施形態は以下の効果を奏する。
【0050】
ユーザの発話の状況に応じて、適当な「発話終了ポーズ時間」を決定し、円滑に発話するユーザには迅速な音声認識処理を行い、円滑に発話できないユーザにはユーザのテンポに合った音声認識処理を行うことができる。
【0051】
すなわち、単語間のポーズと発話終了時のポーズとを区別するための「発話終了ポーズ時間」の時間長を、比較的に長い画一的な時間とせずに、ユーザの発話の円滑性に応じた長さにするため、認識処理の正確性を担保しつつ、円滑に発話するユーザには迅速な音声認識処理を提供することができる。ユーザ側からすると、円滑に発話しているにもかかわらず、音声認識処理が遅いために発話のテンポが乱されるといった不具合や、発話に集中できず沈黙してしまった場合、発話終了と誤認識されてしまうといった不具合がなくなる。
【0052】
本実施形態では、ユーザの発話の円滑性に応じて「発話終了ポーズ時間」の時間長を必要最低限に短くすることができるため、待ち受ける音声データの終端にノイズが含まれることを防ぐことができる。
【0053】
本実施形態では、ユーザの「発話の円滑性」という個人的な状況を、「円滑要因情報」という客観的な情報から、「円滑度」という定量的な値として導くため、決定された「発話終了ポーズ時間」は、発話するユーザの状況を正確に反映したものとなる。
【0054】
本実施形態では、推測した円滑度が高い場合には、「発話終了ポーズ時間」を短く決定し、円滑度が低い場合には「発話終了ポーズ時間」を長く設定する。これにより、円滑度が高いと発話全体の無音区間(ポーズ時間)が短縮され、円滑度が低いと発話全体の無音区間(ポーズ時間)が長くなるという傾向に応じて、「発話終了ポーズ時間」を決定することができる。たとえば、ユーザが円滑な発話をしている場合には、「発話終了ポーズ時間」を短くすることにより、発話終了を検出するまでの時間を短縮し、ユーザへのレスポンスを高めることができる。一方、ユーザが円滑な発話ができない場合には、「発話終了ポーズ時間」を長くすることにより、長くなりがちな単語間の無音区間を誤って発話終了の無音区間と判断することを防ぐことができる。その結果、ユーザの発話の円滑度に応じてレスポンスを高めるとともに、データ終端にノイズが含まれることによる誤認識を防止することができ、高い精度で発話の終端を認識することができる。
【0055】
以上説明した第1実施形態は、本発明に係る音声認識装置100の基本的な実施態様である。以下には、発話終了ポーズ時間演算部25において取得される円滑要因情報が異なる第2〜第8実施形態を説明する。第2〜第8実施形態の音声認識装置100は車両に搭載されている。基本的な構成および制御手順は第1実施形態と共通する。ここでは、異なる部分を中心に説明する。
【0056】
<第2実施形態>
第2実施形態に係る音声認識装置100のブロック構成を図8に示した。図8に示すように、第2の実施形態に係る音声認識装置100は、図1に示した第1実施形態の音声認識装置100の主要な構成を有している。更に、本実施形態は「運転負荷判定手段51」とを有している。また、円滑要因情報取得部253は、少なくとも「運転負荷情報取得機能」を有している。
【0057】
「運転負荷判定手段51」は、外部の車速センサ、ステアリング舵角センサその他の車両情報検出装置500から、車速情報、ステアリング舵角情報その他の車両情報を取得する。車速センサ、ステアリング舵角センサは、それぞれ、車速、ステアリングの操舵角度を時々刻々検出するものであり、車両一般に搭載されているものを利用することができる。また、「運転負荷判定手段51」は、取得した車両情報に基づいて、予め対応づけた車両情報と運転負荷との関係を参照して、運転負荷を算出する。運転負荷とは、車両運転者の運転能力に対して要求される運転能力(運転操作)の比率である。本実施形態では、車両の運転速度、ステアリング操作等の車両の操作に基づいて運転負荷を定量的な値として算出する。行うべき操作が多ければ高い運転負荷を算出する。また、運転速度が高い場合には高い運転負荷を算出し、ステアリングの舵角変化量が高い場合には高い運転負荷を算出する。運転負荷を求める手法は特に限定されず、例えば、特開平11−227491号公報に記載された手法によって検出された指標に基づいて決定する手法、ペダル、ミッション、ハンドルその他の運転操作の操作頻度に基づいて決定する手法、位置情報システムから取得可能な、位置、道路種別(高速道路、幹線、市街地等)、道の複雑さ、道路幅、混雑度その他の道路情報に基づいて決定する手法などを採用することができる。
【0058】
「運転負荷情報取得機能」は、運転負荷を円滑要因情報として取得する。円滑要因情報が運転負荷であることを除き、本実施形態の発話ポーズ時間演算部25は、第1実施形態の発話終了ポーズ演算部25と同様に発話ポーズ時間決定処理を行う。すなわち、円滑要因情報取得部253は、運転負荷情報を円滑要因情報として取得し、円滑度推測部252は、予め対応づけた運転負荷と円滑度との対応関係に基づいて、取得した運転負荷情報から円滑度を推測する。
【0059】
本実施形態の円滑度推測部252は、運転負荷が高い場合には低い円滑度を推測し、運転負荷が低い場合には高い円滑度を推測する。
【0060】
「演算部251」は、円滑度推測部252により推測された円滑度に基づいて、「円滑度」と「発話終了ポーズ時間」との対応関係を参照して発話終了ポーズ時間を決定する。運転負荷が高い場合には円滑度が低いと推測され、発話終了ポーズ時間が長く決定される。他方、運転負荷が低い場合には、円滑度が高いと推測され、発話終了ポーズ時間が短く決定される。
【0061】
なお、「車両情報と運転負荷との対応関係」、「運転負荷と円滑度との対応関係」、「円滑度と発話終了ポーズ時間との対応関係」、「運転負荷と発話終了ポーズ時間との対応関係」、その他の本明細書中の「対応関係」は、後に説明する第10実施形態に示すようなテーブルの形態でもよいし、数式で示される相関関係であってもよい。たとえば、運転負荷の増減と発話終了ポーズ時間の増減との間にある相関関係より、運転負荷をTASK、発話終了ポーズ時間SPmaxとし、(式)SPmax = k * TASKにより相関関係を示すことができる。この式における「k」は実験的に求めた定数又は変数である。
【0062】
ちなみに、発話終了ポーズ時間演算部25は、運転負荷から推測される円滑度を考慮したうえで、「運転負荷情報」と「発話終了ポーズ時間」とを直接対応づけ、この対応関係を参照して、運転負荷に基づいて発話終了ポーズ時間を決定してもよい。
【0063】
第2実施形態における円滑度推測処理手順を図9のフローチャートに示した。
【0064】
運転負荷判定手段51は、車速を車速センサ(車両情報検出装置500)から、ステアリングの舵角をステアリンク蛇角センサ(車両情報検出装置500)からそれぞれ取得し(902)、取得した車速、ステアリング舵角から運転負荷を判定する(903)。
【0065】
円滑要因情報取得部253の運転負荷情報取得機能は、運転負荷判定手段51から運転負荷情報を取得する(904)。運転負荷は円滑度推測部252に送出される。円滑度推測部252は、予め対応づけられた運転負荷と円滑度との対応関係を参照する(908)。円滑度推測部252は、この対応関係を参照して運転負荷から円滑度を推測する(909)。推測した円滑度を演算部251に送出する。演算部251は、予め対応づけられた円滑度と発話終了ポーズ時間との対応関係を参照する(910)。この対応関係を参照して、発話終了ポーズ時間を決定する(906)。決定された発話終了ポーズ時間は、音声区間検出部21の発話終了ポーズ時間212に書き込まれる。
【0066】
ステップ904からステップ905へ向かうフローは、「運転負荷情報」から直接「発話終了ポーズ時間」を求める手法である。運転負荷を取得した発話終了ポーズ時間演算部25は、予め対応づけられた運転負荷と発話終了ポーズ時間との対応関係を参照する(905)。この対応関係を参照して運転負荷に基づく発話終了ポーズ時間を決定する(906)。
【0067】
本実施形態では、運転負荷が高い場合にはユーザが発話に集中できず、発話中の無音区間(ポーズ)の時間が長くなり、運転負荷が低い場合にはユーザが発話に集中でき、発話中の無音区間(ポーズ)の時間が短くなるという傾向に着目し、運転負荷の高低に応じた発話終了ポーズ時間を決定する。
【0068】
これにより、第1実施形態と同様の効果に加えて、高速での走行中や、カーブの多い道路において、ユーザの運転負荷が高いと判定された場合には発話終了ポーズ時間が長く決定されるため、ユーザの発話が途切れがちで発話中の無音区間(ポーズ)が長くなったとしても、単語間の無音区間を発話終了の無音区間と誤って判断することを防止することができる。逆に、車両が停車中(車速ゼロ)で、運転負荷が低いと判定された場合には、発話終了ポーズ時間が短く決定されるため、単語間の無音区間と発話終了の無音区間とを適切に判断することができる。
【0069】
<第3実施形態>
次に第3実施形態について説明する。この実施形態は、ユーザが発話入力において入力した訂正命令の頻度(または回数)に関する情報を円滑要因情報として利用する。この訂正命令は、ユーザによって発話入力された音声が誤認識された場合に、再度発話入力を受け付けるように求める命令である。訂正命令後の再度の入力においては、ユーザは明瞭に発話しようと務め、結果として発話の円滑性が向上する傾向があることを利用するものである。
【0070】
第3実施形態に係る音声認識装置100のブロック構成を図10に示した。図10に示すように、第3の実施形態に係る音声認識装置は、図1に示した第1実施形態の音声認識装置100の主要な構成を有している。更に、本実施形態の円滑要因情報取得部253は、訂正スイッチ202から入力された訂正命令を取得する「訂正命令取得得機能」を有している。
【0071】
円滑要因情報が訂正命令に関する情報であることを除き、本実施形態の発話ポーズ時間演算部25は、第1実施形態の発話終了ポーズ演算部25と同様に、発話ポーズ時間決定処理を行う。すなわち、円滑要因情報取得部253は、訂正命令を円滑要因情報として取得し、円滑度推測部252は、予め対応づけた訂正命令の有無又は訂正命令の回数と円滑度との対応関係に基づいて、取得した訂正命令情報から円滑度を推測する。
【0072】
本実施形態の円滑度推測部252は、訂正命令が入力された場合、円滑度を高く推測し、訂正命令が入力されない場合、発話の円滑度には変更がないと推測する。演算部251は発話の円滑度が高いと推測された場合には、所定時間だけ長い発話終了ポーズ時間を決定し、円滑度に変化がないと推測された場合には、予め設定された発話終了ポーズ時間を更新しない。
【0073】
第3実施形態における円滑度推測処理手順を図11のフローチャートに示した。
【0074】
円滑要因情報取得部253が、円滑要因情報としての訂正命令を取得した場合(1102)、円滑度推測部252は、訂正命令の頻度(回数)と円滑度との対応関係を参照する(1103)。円滑度推測部252は、この対応関係を参照して、訂正命令入力の有無から円滑度を推測する(1104)。演算部251は、円滑度と発話終了ポーズ時間との対応関係を参照する(1105)。演算部251はこの対応関係を参照して、円滑度から発話終了ポーズ時間を決定する(1106)。決定された発話終了ポーズ時間を音声区間検出部21に送出し、設定または記憶させる(1107)。
【0075】
本実施形態では、訂正命令が入力された場合にはユーザの発話中の無音区間(ポーズ)の時間が短くなるという傾向に着目し、訂正命令の有無、訂正命令の頻度(回数)に応じて発話終了ポーズ時間を決定する。
【0076】
これにより、第1実施形態と同様の効果に加えて、訂正命令が入力された場合に、発話終了ポーズ時間が短く決定されるため、単語間の無音区間と発話終了の無音区間とを適切に判断することができる。
【0077】
<第4実施形態>
次に第4実施形態について説明する。この実施形態は、発話入力するユーザの周囲の騒音量に関する情報を円滑要因情報として利用する。発話入力をしようとするユーザは周囲が騒がしい(騒音量が大きい)場合には、ユーザは円滑に発話する傾向があることを利用するものである
第4実施形態に係る音声認識装置100のブロック構成を図12に示した。図12に示すように、第4の実施形態に係る音声認識装置は、図1に示した第1実施形態の音声認識装置100の主要な構成を有している。更に、本実施形態の円滑要因情報取得部253は、少なくとも「騒音情報取得機能」を有している。「騒音情報取得機能」は、騒音マイク202が収音した騒音に関する騒音情報を取得する。騒音情報には、少なくとも騒音量の大きさを示す情報が含まれている。騒音量は、騒音マイク202が常時収音した騒音量の平均値であってもよいし、発話開始直前の騒音量であってもよい。
【0078】
「騒音情報取得機能」は、騒音量に関する情報を円滑要因情報として取得する。円滑要因情報が騒音量に関する情報であることを除き、本実施形態の発話ポーズ時間演算部25は、第1実施形態の発話終了ポーズ演算部25と同様に発話ポーズ時間決定処理を行う。すなわち、円滑要因情報取得部253は、騒音量に関する情報を円滑要因情報として取得し、円滑度推測部252は、予め対応づけた騒音量と円滑度との対応関係に基づいて、取得した騒音量から円滑度を推測する。
【0079】
本実施形態では、原則として、騒音量が大きい場合には発話の円滑度が高くなると推測し、騒音量が小さい場合には発話の円滑度が低くなると推測する。演算部251は、発話の円滑度が高いと推測された場合に発話終了ポーズ時間を長くし、円滑度が低いと推測された場合に発話終了ポーズ時間を短くする。よって、騒音量が大きい場合、演算部251は、所定時間だけ長い発話終了ポーズ時間を決定し、騒音量が小さい場合、演算部251は、所定時間だけ短い発話終了ポーズ時間を決定する。
【0080】
高騒音下では音声認識がされにくいという経験をもっているユーザが円滑に発話する傾向を利用することにより、このような環境下において発話の終端部分に含まれてしまうノイズによる認識率の低下を抑制し、かつ音声認識処理のレスポンスを向上させることができる。
【0081】
第4実施形態における円滑度推測処理手順を図13のフローチャートに示した。
円滑要因情報取得部253は円滑要因情報としての騒音量の大きさに関する情報を取得する(1302)。円滑度推測部252は、騒音量と円滑度との対応関係を参照する(1303)。円滑度推測部252は、この対応関係を参照して、騒音量から円滑度を推測する(1304)。演算部251は、円滑度と発話終了ポーズ時間との対応関係を参照する(1305)。演算部251はこの対応関係を参照して、円滑度から発話終了ポーズ時間を決定する(1306)。決定した発話終了ポーズ時間を設定または記憶する(1307)。
【0082】
本実施形態では、騒音量が大きい場合にはユーザが明瞭に発話しようとして、発話が円滑になり、発話中の無音区間(ポーズ)の時間が短くなるという傾向に着目し、騒音量に応じた発話終了ポーズ時間を決定する。
【0083】
これにより、第1実施形態と同様の効果を奏するとともに、騒音量が高いと判定された場合に発話終了ポーズ時間が短く決定されるため、騒音を意識したユーザの円滑な発話に対し、単語間の無音区間と発話終了の無音区間とを適切に判断することができる。
【0084】
<第5実施形態>
次に第5実施形態について説明する。この実施形態は、過去における車載機器の動作頻度を円滑要因情報として利用する。動作頻度の高い操作に関する命令であれば、ユーザはその動作に必要な手順、コマンド系列および命令言語の単語系列を熟知しており、円滑に発話される傾向があることを利用するものである。
【0085】
第5実施形態に係る音声認識装置100のブロック構成を図14に示した。図14に示すように、第5の実施形態に係る音声認識装置は、図1に示した第1実施形態の音声認識装置100の主要な構成を有している。更に、本実施形態の円滑要因情報取得部253は「動作頻度情報取得機能」を有し、円滑度推測部252は「仮認識結果取得機能2521」を有する。
【0086】
円滑要因情報取得部253の「動作頻度情報取得機能」は、動作履歴情報を少なくとも一時的に記憶し、動作履歴から動作頻度を算出し、動作頻度情報を円滑要因情報として取得する。車載装置600の動作履歴は、音声入力された命令に従う動作履歴のほか、スイッチ入力された命令に従う動作履歴をも含む。外部の車載装置600は、オーディオ装置、エアーコンディション制御装置、ナビゲーション装置、電話、メールなどの通信装置、その他のユーザが操作して動作させる装置である。
【0087】
たとえば、ナビゲーション装置についてであれば、「メニュー表示動作」、「目的地設定動作」、「拡大動作」、「縮小操作」、「経路案内操作」、「決定操作」、「検索操作」などの動作が動作履歴として動作履歴記憶部131に記憶される。さらに、ナビゲーション装置に対する目的地の設定操作を例にすると、目的地を「神奈川県横須賀市夏島町」と入力した場合、「メニュー」→「目的地」→「住所」→「神奈川県」→「横須賀市」→「夏島町」と順次選択した動作履歴が、動作履歴記憶部131に記憶される
動作頻度取得機能は、動作履歴情報から動作頻度を算出する。動作頻度は、ある動作の所定時間あたりの動作回数である。所定時間の間隔は特に限定されず、1ヶ月、3ヶ月という期間であってもよいし、使用開始から現在までの積算回数であってもよい。動作頻度情報取得機能は、算出した動作頻度を円滑要因情報として円滑度推測部252に向けて送出する。
【0088】
円滑度推測部252は、予め対応づけた動作頻度と円滑度との対応関係に基づいて、取得した動作頻度から円滑度を推測する。本実施形態では、発話入力された発話命令の対象が、動作頻度の高い動作に関するものであるか否かによって、発話命令をしたユーザの円滑度を推測する。すなわち、発話命令の入力を待って、入力された発話命令が動作頻度の高い動作に関するものであるか否かを判断する。
【0089】
入力された発話命令の動作対象を先に取得するために、円滑度推測部252の「仮認識結果取得機能2521」は、照合処理部24から仮の音声認識結果を取得する。仮の音声認識結果とは、入力された音声データに対して行われる認識処理の途中結果である。たとえば、音声データに含まれるネットワーク文法の全階層中、中間階層までの途中結果(その処理段階で尤度の高いもの)である。上述の例で説明すると、「神奈川県横須賀市夏島町1丁目」という発話入力に対し、「カナガワケン」まで発話した時点では、尤度の高い順に「神奈川県」「香川県」が仮の認識結果である。すなわち、この入力は「神奈川県」または「香川県」に関する動作命令であることを仮に認識することができる。
【0090】
「円滑度推測部252」は、この仮の認識結果の示す動作について、過去の動作履歴を参照し、その動作履歴から求めた動作頻度の高さに応じて円滑度を推測する。具体的には、動作の対象と動作頻度と円滑度とを予め対応づけた対応関係に基づいて、仮認識された動作の動作頻度情報から円滑度を推測する。
【0091】
本実施形態の円滑度推測部252は、仮の認識結果の示す動作が動作頻度の高い動作である場合、円滑度が高いと推測し、仮の認識結果の示す動作が動作頻度の低い動作である場合、円滑度が低いと推測する。これにより、動作頻度が高い動作に関して発話入力があった場合には、ユーザの発話の円滑度が高いと推測され、発話終了ポーズ時間が長く決定される。他方、動作頻度が低い動作に関して発話入力があった場合には、円滑度が低いと推測され、発話終了ポーズ時間が短く決定される。
【0092】
演算部251は、円滑度推測部252により推測された円滑度に基づいて、発話終了ポーズ時間を決定する。
【0093】
第5実施形態における円滑度推測処理手順を図15のフローチャートを用いて説明する。
【0094】
発話終了ポーズ時間の決定とは、別のフローにおいて動作履歴頻度の算出が行われる(1501〜1504)ユーザがナビゲーション装置600に目的地を入力する場合を例にして説明する。入力装置200は、ナビゲーション装置600に対する動作の履歴を蓄積し(1501)、記憶する(1502)。記憶された動作履歴情報を取得し(1503)、動作頻度を算出する(1504)。この処理は車載装置側で行ってもよいし、情報取得部253の動作頻度情報取得機能において行ってもよい。
【0095】
発話終了ポーズ時間の決定のフローを説明する。照合処理部24は、入力された音声データについて認識処理を行い、仮の認識結果を結発話終了ポーズ演算部25へ向けて送出する(1512)。円滑度推測部252は、仮の認識結果の尤度を取得し、仮認識結果の尤度が十分に信用できる値の尤度(認識率が95%以上である仮認識の平均尤度)以上であることを確認する(1513)。仮認識結果の尤度が閾値以上である場合は、発話終了ポーズ時間決定へ向けてステップ1514へ進む。他方、仮認識結果の尤度が閾値未満である場合は、仮認識結果が信用するに足りないため、発話終了ポーズ時間の設定および更新は行わない。
【0096】
円滑度推測部252は、動作頻度情報を取得する(1514)。先に仮認識された発話命令の動作対象が、動作頻度の高い動作であるか否かを判断する(1515)。たとえば、「カナガワケン」と仮認識された動作が、過去において高い頻度で行われた動作であるか否かを判断する。具体的な手法としては、動作頻度の高い(閾値以上の動作頻度である)動作を予め識別しておき、この識別された動作と仮認識された動作とを対比し、入力に係る動作が動作頻度の高い動作に該当するか否かを判断する。
【0097】
入力に係る動作が動作頻度の高い動作に該当する場合には、動作頻度の高さに応じて円滑度を高くする(1716)。演算部251は、円滑度と発話終了ポーズ時間とを対応づけた対応関係を参照し(1717)、円滑度から発話終了ポーズ時間を決定する(1718)。発話終了ポーズ時間を設定または更新する(1719)。発話終了ポーズ時間の決定処理終了後、入力動作を動作履歴記憶部131に記憶する(1720)。
【0098】
ステップ1513の判断において、仮認識結果の尤度が閾値未満である場合は、仮認識処理の対象は認識対象となるネットワーク文法の最下層の単語であるか否かを判断する(1521)。最下層の単語でない場合には、仮認識処理1512を繰り返す。最下層の単語である場合には、発話終了ポーズ時間の変更は行わずにステップ1520へ向かう。最下層の単語まで行った認識処理を行ったにもかかわらず、認識結果の尤度が低い場合には、認識処理に何らかの問題があったと考えられ、このような認識処理に基づいて発話終了ポーズ時間を決定することは適当ではないからである。
【0099】
ちなみに、本実施形態に係る処理は、ネットワーク文法の階層ごとに行うことが好ましい。たとえば、第1階層で十分な尤度が確認でき、かつ動作履歴に含まれる場合、その発話の円滑度は高いものと判断して発話終了ポーズ時間を短縮する。その後、第2階層以降で円滑度が低い(動作履歴の頻度が低い)場合には、一旦短縮された発話終了ポーズ時間を若干延長することが好ましい。例えば、「神奈川県横須賀市」の動作履歴は高いが、「神奈川県横浜市」の動作履歴が低い場合、「神奈川県」と発話入力されたときに発話終了ポーズ時間を延長し、「横浜市」と発話入力されたときに発話終了ポーズ時間を短縮することができる。
【0100】
なお、ステップ1521においては発話開始からn番目までの単語(音声区間)であるか否かを判断してもよい。このステップにより、どの深さの階層までを本形態の仮認識結果として利用するかを制御することができる。この手法以外にも、発話開始後から時間で区分した音声データに対する仮認識結果を利用してもよい。
【0101】
本実施形態では、過去に動作入力の経験があれば、発話中の無音区間(ポーズ)の時間が短くなる傾向があり、逆に、動作入力の経験が少なければ、発話中の無音区間(ポーズ)の時間が長くなるという傾向があることに着目し、動作履歴の高低に応じて発話終了ポーズ時間を決定する。たとえば、「神奈川県横須賀市…」の入力に係る動作が高い頻度で行われている場合、この地域を含む「神奈川県」の入力に係る動作は、過去に指定したことのない地名(県名)に比べて発話の円滑度が高くなる傾向があるため、発話終了ポーズ時間を短く決定する。
【0102】
これにより、第1実施形態と同様の効果を奏するとともに、動作頻度の高い動作に関する入力に対して発話終了ポーズ時間が短く決定されるため、ユーザが円滑に(無音区間を短く)発話した場合であっても、単語間の無音区間と発話終了の無音区間とを適切に判断し、スムーズ処理を行うことができる。逆に、動作頻度が低い動作に関する入力に対しては発話終了ポーズ時間が長く決定されるため、ユーザが長い無音区間を含んだ発話をした場合であっても、単語間の無音区間を発話終了の無音区間と誤って判断することがない。
【0103】
<第6実施形態>
次に、第6実施形態について説明する。本実施形態は、車載機器に対する発話命令の命令頻度の高さに応じてユーザの円滑度を推測し、推測した円滑度に基づいて、発話終了ポーズ時間を決定する。発話命令の頻度の高い操作に関する命令であれば、ユーザは発話に慣れており、円滑に発話される傾向があることを利用するものである。
【0104】
第6実施形態に係る音声認識装置100のブロック構成を図16に示し、その動作を図17に示した。各ブロックの機能および処理は、第5実施形態のそれと基本的に共通する。異なる点は、第5実施形態では車載機器の実際の動作履歴に基づいて発話終了ポーズ時間を決定するのに対し、第6実施形態では車載機器に対して行った発話命令の履歴に基づいて発話終了ポーズ時間を決定する点である。
【0105】
すなわち第5実施形態では、発話入力による動作のみならずスイッチ入力による動作を含め、その動作履歴を考慮するが、本実施形態では発話入力の履歴を用いる。発話に慣れているか否かは、発話の円滑性に直接的な影響を与えることから、本実施形態によれば発話命令の履歴から発話の円滑性を直接的に導くことができる。具体的には、本実施形態の発話命令頻度取得機能は、出力手段3を介して出力された認識結果を発話命令履歴として記憶し、発話命令履歴から発話命令頻度を算出する。また、円滑度推測部252は仮認識結果取得機能2521を有している。
【0106】
図17に示す本実施形態のフローチャートは、図15に示す第5実施形態と同様の動作手順である。本実施形態の「発話命令履歴」が第5実施形態の「動作履歴」に対応し、本実施形態の「発話命令履歴の命令頻度」が第5実施形態の「動作履歴の動作頻度」に対応する。
【0107】
本実施形態では、発話命令頻度が高ければ、発話に慣れているため、無音区間(ポーズ)の時間が短くなり、他方、発話命令頻度が低ければ、発話経験が少ないため、無音区間(ポーズ)の時間が長くなるという傾向に着目し、発話命令頻度の高低に応じて発話終了ポーズ時間を決定する。具体的には、「神奈川県横須賀市…」の発話命令が高い頻度で行われている場合、この地域を含む「神奈川県」の入力に係る動作は、過去に発話したことのない地名(県名)に係る動作に比べて発話の円滑度が高くなる傾向があるため、発話終了ポーズ時間を長く決定する。
【0108】
これにより、第1実施形態と同様の効果を奏するとともに、発話命令の頻度が高く、ユーザが円滑に(無音区間を短く)発話した場合、発話終了ポーズ時間が短く決定されるため、単語間の無音区間と発話終了の無音区間とを適切に区別し、スムーズな音声認識処理を行うことができる。逆に、発話経験がなく不慣れな発話であるために無音区間(ポーズ)が長くなったとしても、発話終了ポーズ時間が長く決定されるため、単語間の無音区間を発話終了の無音区間と誤って判断することがない。
【0109】
<第7実施形態>
以下、第7実施形態について説明する。本実施形態は、ユーザの発話に含まれるポーズ時間の長さに応じてユーザの円滑度を推測し、推測した円滑度に基づいて、発話終了ポーズ時間を決定する。実際の発話に含まれるポーズ時間が短い場合、ユーザの発話の円滑性が高い傾向にあることを利用するものである。
【0110】
第7実施形態に係る音声認識装置100のブロック構成を図18に示した。図18に示すように、第7の実施形態に係る音声認識装置は、図1に示した第1実施形態の音声認識装置100の主要な構成を有している。更に、本実施形態は、「ポーズ時間検出機能221」を有している。また、円滑要因情報取得部253は、少なくとも「ポーズ時間取得機能」と「平均ポーズ時間算出機能」とを有している。
「ポーズ時間検出機能221」は、音声データに含まれるポーズ時間を検出し、少なくとも一時的に記憶する。円滑要因情報取得部253の「ポーズ時間取得機能」は、ポーズ時間検出機能221により検出されたポーズ時間を取得し、「平均ポーズ時間算出機能」は、取得したポーズ時間の平均時間を算出する。
【0111】
第7実施形態における円滑度推測処理手順を図19のフローチャートに示した。
【0112】
ポーズ時間検出機能221は、発話中の無音区間(ポーズ)の時間をポーズごとに検出し、記憶する(1902)。発話終了ポーズ時間演算部25のポーズ時間取得機能は、検出されたポーズ時間を取得し、平均ポーズ時間算出機能は平均ポーズ時間を算出する(1903)。算出した平均ポーズ時間を円滑度推測部252へ向けて送出する。なお、平均ポーズ時間を算出するにあたり用いるポーズ時間は、音声認識が成功した(誤認識しなかった)発話に関するポーズ時間に限定することが好ましい。
【0113】
円滑度推測部252は、平均ポーズ時間と円滑度とを対応づけた対応関係を参照し(1904)、円滑度を推測する(1905)。演算部251は、円滑度と発話終了ポーズ時間とを対応づけた対応関係を参照する(1906)。本実施形態の対応関係では円滑度と発話終了ポーズ時間の延長又は短縮時間αとを対応づけている。もちろん、後に説明する第10実施形態で示した対応テーブルを用いても良い。演算部251は、この対応関係を参照して求めた延長又は短縮時間αを平均ポーズ時間に加算(又は減算)して発話終了ポーズ時間を算出する(1907)。この算出結果を発話終了ポーズ時間と決定する(1908)。発話終了ポーズ時間を更新する(1909)。
【0114】
本実施形態では、ユーザの発話から実際に検出されたポーズの時間長を用いて発話終了ポーズ時間を決定することにより、ユーザの発話癖に応じた最適な発話終了ポーズ時間を決定することができる。また、第1実施形態と同様の効果を奏することができる。
<第8実施形態>
第8実施形態および第9実施形態は、第1〜第7実施形態とは異なり、発話終端検出精度情報として、音声認識装置側に起因する音声信号取得環境情報を用いる。音声信号取得環境情報とは、ユーザが発話した音声データに対して音声認識装置側が取得する際の音環境に寄与する要因に対応づけられた情報である。音声データ取得時の音環境が、音声認識装置側に起因する何らかの要因によって音声データの取得に適している場合、または何らかの要因によって音声データの取得に適していない場合がある。本実施形態では、この要因を定量的に示す情報を「音声信号取得環境情報」として利用する。「音声信号取得環境情報」の内容は特に限定されないが、第8および第9実施形態では、音声データを取得する際の音環境に寄与する要因を定量的に示す「音声信号取得環境情報」を「発話終端検出精度情報」として用いた。
【0115】
第8実施形態に係る構成を図20に示した。基本的構成は、図1に示す第1実施形態の構成と共通する。異なる点は、発話終了ポーズ時間演算部25の情報取得部257が、「音声信号取得環境情報」を「発話終端検出精度情報」として取得する音声信号取得環境情報の取得部として機能する点である。情報取得部257は、騒音情報を音声信号取得環境情報として取得する。これに対応して、推測部256は、音声データを取得する環境が音声データの取得に適した環境であるか否かという音環境の状態を推測する。また、演算部255は、推測された音環境の状態に応じて発話終了ポーズ時間を決定する。
【0116】
第8実施形態の処理手順2101を図21のフローチャートに基づいて説明する。
まず、騒音信号を取得する(2102)。騒音情報取得部257は、入力装置200から入力された騒音を、ディジタル信号に変換して騒音信号データとして取得する。騒音信号データは、常時収音することにより取得してもよいし、発話時に取得してもよいし、または発話開始(直前)に取得してもよい。騒音信号データは、発話音声を受け付ける音声マイク201を介して収音してもよいし、音声マイク201とは別に設けられた騒音マイク203を介して収音してもよい。
【0117】
推測部256は、収音された騒音の騒音信号データから騒音量に関するデータを算出する(2103)。騒音量に関するデータとして、「騒音のエネルギー」を算出してもよいし、又は音声データ取得手段1を介して取得された「音声データのエネルギー値」と、それと同時刻に収音された「騒音エネルギー値」との「比」を算出してもよい。
【0118】
推測部256は予め騒音量と音声信号取得環境値を対応付けたデータテーブルを参照し(2104)、音声データ取得時の音環境を示す音声信号取得環境値を取得する(2105)。続いて、演算部255は音声信号取得環境値と発話終了ポーズ時間を対応付けたデータテーブルを参照し、発話終了ポーズ時間を取得し(2106)、取得した発話終了ポーズ時間に基づいて発話終了ポーズ時間を決定する(2107)。決定した発話終了ポーズ時間を設定し、更新する(2108)。
【0119】
以上のように構成され、動作する第8実施形態は以下の効果を奏する。
【0120】
音声データ取得時の音環境に応じて、適当な「発話終了ポーズ時間」を決定し、音環境が音声取得に適している場合には迅速な音声認識処理を行い、音環境が音声取得に適していない場合には長めの発話終了ポーズ時間を設定することにより正解な音声認識処理を行うことができる。
【0121】
すなわち、単語間のポーズと発話終了時のポーズとを区別するための「発話終了ポーズ時間」の時間長を、比較的に長い画一的な時間とせずに、音声データ取得時の音環境に応じた長さにするため、認識処理の正確性を担保しつつ、音環境が音声データ取得に適している場合には迅速な音声認識処理を提供することができる。騒音量が小さく発話の終端を正確に検出できる音環境であるのに、発話終了ポーズ時間が長いために音声認識処理が遅れるといった不具合がなくなる。
【0122】
また、本実施形態では、音声データ取得時の音環境に応じて「発話終了ポーズ時間」の時間長を必要最低限に短くすることができるため、待ち受ける音声データの終端にノイズが含まれることを防ぐことができる。
【0123】
なお、本実施形態では、音声データ取得時の音環境という流動的な状況を、「音声信号取得環境情報」という客観的な情報から、「音環境」という定量的な値として導くため、決定された「発話終了ポーズ時間」は、音声データ取得時の音環境を反映したものとなる。
【0124】
音環境が音声信号取得に適している場合には「発話終了ポーズ時間」を短く設定し、音環境が音声信号取得に適していない場合には「発話終了ポーズ時間」を長く設定することが好ましい。本実施形態では、検出した騒音量が小さい場合(静かな場合)には、「発話終了ポーズ時間」を短く決定し、騒音量が大きい場合(うるさい場合)には「発話終了ポーズ時間」を長く設定する。
【0125】
これにより、騒音量が小さい場合(静かな場合)には、発話音声の認識精度が向上し、発話終端のポーズが短くても発話終端の検出精度が向上するという傾向に応じて、「発話終了ポーズ時間」を決定することができる。たとえば、騒音量が小さい場合には、「発話終了ポーズ時間」を短くすることにより、発話終了を検出するまでの時間を短縮し、認識精度を維持しつつユーザへのレスポンスを高めることができる。一方、騒音量が大きい場合には、「発話終了ポーズ時間」を長くすることにより、発話終了を正確に認識する。その結果、ユーザの発話の円滑度に応じてレスポンスを高めるとともに、高い精度で発話の終端を認識することができる。
<第9実施形態>
第9実施形態に係る構成を図22に示した。基本的構成は、図1に示す第1実施形態の構成と共通する。異なる点は、発話終了ポーズ時間演算部25の情報取得部257が、「音声信号取得環境情報」を「発話終端検出精度情報」として取得する音声信号取得環境情報の取得部として機能する点である。情報取得部257は、「訂正情報」を「音声信号取得環境情報」として取得する。「訂正情報」は訂正命令が入力された旨の情報、訂正命令が入力された回数に関する情報である。
【0126】
本実施形態では、訂正命令が入力されたという事実から、音環境が音声信号取得に適しているか否かを推測する。具体的には、訂正命令が入力されない場合は音環境が音声信号取得に適していると推測でき、訂正命令が入力され、その入力回数が増加するに従い、音環境が音声信号取得には適していないものと推測する。
【0127】
推測部256は、取得した「訂正情報」から音声データを取得する環境が音声データの取得に適した環境であるか否かという音環境の状態を推測する。また、演算部255は、推測された音環境の状態に応じて発話終了ポーズ時間を決定する。
【0128】
第9実施形態の処理手順2301を図23のフローチャートに基づいて説明する。
訂正情報取得部257は、入力装置200を介して訂正スイッチ信号を取得すると(2302)、発話終了ポーズ時間変更処理(2303以降)を行う。それ以外の場合は、処理を終了する。訂正スイッチ信号とは音声認識結果が誤っている場合に、ユーザが音声認識装置に対して入力した認識結果の訂正命令に関する信号である。
【0129】
推測部256は、ユーザが入力した訂正スイッチ信号に基づいて音声信号取得環境を推測する。推測部256は、予め訂正スイッチ信号と音声信号取得環境値とを対応付けたデータテーブルを参照し(2303)、音声信号取得環境値を取得する(2304)。ここでは、前回以前の入力があるかの情報すなわち訂正の回数を考慮し、例えば訂正回数が増えるほど音声データ取得時の取得環境が悪いと判断するようにしても良い。
【0130】
演算部255は、音声信号取得環境値と発話終了ポーズ時間とを対応付けたデータテーブルを参照し、発話終了ポーズ時間を取得し(2305)、得られた発話終了ポーズ時間に基づいて発話終了ポーズ時間を決定する(2306)。決定した発話終了ポーズ時間を設定・更新する(2307)。
【0131】
これにより、第8実施形態と同様の効果に加えて、訂正命令の入力または訂正命令の入力回数から音声信号入力時の音環境を推測することができ、音声信号入力時の音環境に応じて発話終了ポーズ時間が決定されるため、単語間の無音区間と発話終了の無音区間とを適切に判断することができる。
【0132】
<第10実施形態>
第10実施形態に係る構成を図24に示した。基本的構成は、図1に示す第1実施形態の構成と共通する。一方、第10実施形態は、発話終了ポーズ時間演算部25が、「円滑要因情報」を「発話終端検出精度情報」として取得する円滑要因情報取得部253と、円滑要因情報に基づいて円滑度を推測する円滑度推測部252とを有している。また、同じ発話終了ポーズ時間演算部25が、「音声信号取得環境情報」を「発話終端検出精度情報」として取得する音声信号取得環境情報の取得部257と、音声信号取得環境情報に基づいて音環境を推測する音声信号取得環境推測部256とを有している。さらに、発話終了ポーズ時間演算部25は、「ユーザの発話の円滑度」と「音声信号取得時の音環境」とを少なくとも含む「発話の終端検出精度」に応じて発話終了ポーズ時間を求める演算部258を有している。
【0133】
「円滑要因情報取得部253」、「円滑度推測部252」の機能および動作は、第1実施形態〜第7実施形態のそれと共通し、「信号情報取得環境情報の取得部257」、「音声信号取得環境推測部256」の機能および動作は第8、第9実施形態のそれと共通する。
【0134】
本実施形態の演算部258は、推測された「ユーザの発話の円滑度」と「音声信号取得時の音環境」とから総合的な「発話の終端検出精度」を求め、「発話の終端検出精度」に応じて発話終了ポーズ時間を求める。
【0135】
演算部258の基本的な処理は以下のとおりである。各種「ユーザの発話の円滑度」を算出し、算出した各種「ユーザの発話の円滑度」からこれらを統合した「統合円滑度」を算出する第1のフローと、各種「音声信号取得時の音環境」を算出し、算出した各種の「音声信号取得時の音環境」からこれらを統合した「統合音環境」を算出する第2のフローとを有し、第1のフローにおいて算出された「統合円滑度」と第2のフローにおいて算出された「統合音環境」とから最終的に一の値である「発話終了ポーズ時間」を算出する。
【0136】
第10実施形態の発話終了ポーズ時間決定処理の処理手順2501を図25のフローチャートに基づいて説明する。ここでは具体的なデータテーブルを示しながら、算出過程を含めて説明する。本形態において示した各種「ユーザの発話の円滑度」のデータテーブルおよびその算出過程、並びに各種「音声信号取得時の音環境」のデータテーブルおよびその算出過程は、先に説明した第1〜第9実施形態においても用いることができる。記載の重複を避けるために、ここでまとめて説明する。
【0137】
まず、第1のフローにおいて、円滑要因情報取得部253は、運転負荷に関する情報、訂正命令の頻度または訂正命令の回数に関する情報、ユーザの周囲の騒音量に関する情報、外部機器の動作履歴に関する情報、ユーザの発話命令履歴に関する情報、ユーザの発話に含まれるポーズ時間に関する情報を少なくとも含む円滑要因情報を取得する(2502)。具体的には、騒音信号、訂正スイッチ信号を入力装置200より取得し、運転負荷を運転負荷判定手段51より取得する。動作履歴、発話命令履歴を出力手段3から取得する。ユーザ発話のポーズ時間を音声区間検出部21のポーズ時間検出機能221により取得する。これら取得した各種情報を円滑度推測部252へ送出する。
【0138】
円滑度推測部252は、各種円滑要因情報に基づいて、円滑度を推測する(2504)。円滑度推測部252は、円滑要因情報に応じたデータテーブルを参照し、円滑要因情報の種類ごとに下記の円滑度をそれぞれ推測する(2504)。
【0139】
円滑要因情報が運転負荷の場合の円滑度: SM_1
円滑要因情報が訂正命令の場合の円滑度: SM_2
円滑要因情報が騒音量の場合の円滑度: SM_3
円滑要因情報が動作履歴の場合の円滑度: SM_4
円滑要因情報が発話命令履歴の場合の円滑度: SM_5
円滑要因情報がポーズ時間の場合の円滑度: SM_6
【0140】
表1は、ユーザの運転負荷の重さと円滑度SM_1とを対応づけたデータテーブルである。このデータテーブルは、100で正規化した運転負荷と8段階で示された円滑度SM_1と対応づけたものである。円滑度推測部252は、取得したユーザの運転負荷の重さから円滑度SM_1を算出する。
【表1】
【0141】
表2は、ユーザの発話入力の訂正命令の回数と円滑度SM_2とを対応づけたデータテーブルである。このデータテーブルは、訂正命令の回数と8段階で示された円滑度SM_2と対応づけたものである。円滑度推測部252は、取得したユーザの訂正命令の回数から円滑度SM_2を算出する。
【表2】
【0142】
表3は、ユーザの周囲の騒音量の大きさと円滑度SM_3とを対応づけたデータテーブルである。このデータテーブルは、騒音量(SN比[dB])と8段階で示された円滑度SM_3と対応づけたものである。騒音量をSN比で示した。SN比が低いほど(−10.0方向)騒音量は大きくなり、SN比が高いほど(+20.0方向)騒音量は小さくなる。ちなみに、表3において、円滑要因情報としての騒音量が大きい場合には、ユーザは明確な発話を行うと考えられるため円滑度は高くなる傾向を示す。円滑度推測部252は、検出したユーザ周囲の騒音量から円滑度SM_3を算出する。
【表3】
【0143】
表4は、ユーザが操作する外部機器の動作履歴に関する情報と円滑度SM_4とを対応づけたデータテーブルである。このデータテーブルは、動作履歴(回数)と8段階で示された円滑度SM_4と対応づけたものである。円滑度推測部252は、ユーザの動作回数から円滑度SM_4を算出する。
なお、ユーザが操作する外部機器の動作履歴に代えて、ユーザの発話命令の回数と8段階で示された円滑度SM_5とを対応づけたデータテーブルを用いることができる。この場合、表4の「動作履歴(回数)」を、「発話命令の回数」に読み替え、表4の「円滑度SM_4」を「円滑度SM_5」に読み替えたテーブルを用いる。
【表4】
【0144】
表5は、ユーザの発話に含まれるポーズ時間と円滑度SM_6とを対応づけたデータテーブルである。このデータテーブルは、ユーザの発話に含まれるポーズ時間の平均と8段階で示された円滑度SM_6と対応づけたものである。円滑度推測部252は、ユーザの平均ポーズ時間から円滑度SM_6を算出する。
【表5】
【0145】
円滑度推測部252は、以上算出された円滑度各種円滑度(SM_1〜SM_6)のいずれか1以上を任意に用いて統合円滑度(SM)を算出する。算出の手法は特に限定されないが、本実施形態では上記円滑度(SM_1〜SM_6)を用いて、下記の式1を適用して統合円滑度(SM)を算出する(2506)。
SM = a*SM_1+b*SM_2+c*SM_3+d*SM_4+e*SM_5+f*SM_6 …(式1)
(a,b,c,d,e,f :重み係数。この値は実験等により求める。)
演算部258は、推測された統合円滑度(SM)に基づいて発話終了ポーズ時間(T_sm)を算出する。この算出の手法は特に限定されないが、本実施形態では表6に示すデータテーブルを参照して行う。表6は、8段階に正規化した円滑度と、この8段階に対応させて区切った発話終了ポーズ時間とを対応させたものである。なお、区分する段階の数は特に限定されず、8以外の数であってもよいし、整数でなくてもよい。
【表6】
第1のフローと同時に又は相前後して処理が行われる第2のフローにおいて、音声信号取得環境情報の取得部257は、訂正命令の頻度または訂正命令の回数に関する情報、ユーザの周囲の騒音量に関する情報を少なくとも含む音声信号取得環境情報を取得する(2503)。具体的には、騒音信号、訂正スイッチ信号を入力装置200より取得する。取得した各種情報を音声信号取得環境推測部256へ送出する。音声信号取得環境推測部256は、各種音声信号取得環境情報に基づいて、音環境を推測する(2505)。音声信号取得環境推測部256は、音声信号取得環境情報に応じたデータテーブルを参照し、音声信号取得環境推測情報の種類ごとに下記の音環境(音声信号取得環境値)をそれぞれ推測する。
【0146】
音声信号取得環境が訂正命令の場合の音声信号取得環境値: ENV_1
音声信号取得環境が騒音量の場合の音声信号取得環境値: ENV_2
【0147】
表7は、訂正命令の回数と音声信号取得環境値ENV_1とを対応づけたデータテーブルである。このデータテーブルは、訂正命令がなされた回数と8段階で示された音声信号取得環境値ENV_1と対応づけたものである。音声信号取得環境推測部256は、取得した訂正命令の回数から音環境を示す音声信号取得環境値ENV_1を算出する。
【表7】
【0148】
表8は、ユーザの周囲の騒音量の大きさと音声信号取得環境値ENV_2とを対応づけたデータテーブルである。このデータテーブルは、騒音量(SN比[dB])と8段階で示された音声信号取得環境値ENV_8と対応づけたものである。騒音量をSN比で示した。SN比が低いほど(−10.0方向)騒音量は大きくなり、SN比が高いほど(+20.0方向)騒音量は小さくなる。ちなみに、表8において、音声信号取得環境情報としての騒音量が大きい場合には、音環境が音声信号を取得するには適していないと考えられるので、音声信号取得環境値ENV_2は低くなる傾向を示す。音声信号取得環境推測部256は、検出したユーザ周囲の騒音量から音声信号取得環境値ENV_2を算出する。
【表8】
【0149】
音声信号取得環境推測部256は、以上算出された音声信号取得環境値(ENV_1〜ENV_2)の1つ以上を任意に用いて統合円滑度(ENV)を算出する。算出の手法は特に限定されないが、本実施形態では上記音声信号取得環境値(ENV_1〜ENV_2)を用いて、下記の式2を適用して統合音声信号取得環境値(ENV)を算出する(2507)。
ENV = g*ENV_1 + h*ENV_2 …(式2)
(g,h:重み係数。この値は実験等により求める。)
演算部258は、推測された統合音声信号取得環境値(ENV)に基づいて発話終了ポーズ時間(T_env)を算出する。この算出の手法は特に限定されないが、本実施形態では表9に示すデータテーブルを参照して行う。表9は、8段階に正規化した音環境を示す音声信号取得環境値と、この8段階に対応させて区切った発話終了ポーズ時間とを対応させたものである。なお、区分する段階の数は特に限定されず、8以外の数であってもよいし、整数でなくてもよい。
【0150】
【表9】
次に、ユーザの発話の円滑度に応じた発話終了ポーズ時間(T_sm)と、音声信号取得時の音環境(音声信号取得環境値)に応じた発話終了ポーズ時間(T_env)とから、1の発話終了ポーズ時間を決定する(2510)。
【0151】
演算部258は、統合円滑度(SM)に基づいて、表6に示したデータテーブルを参照して求めた発話終了ポーズ時間(T_sm)を取得する。また、演算部258は、統合音声信号取得環境値(ENV)に基づいて、表9に示したデータテーブルを参照して求めたと発話終了ポーズ時間(T_env)を取得する。なお、表6および表9に示した発話終了ポーズ時間T_sm、T_envは、最大値及び最小値を持つ。最大値はこれ以上伸ばしても音声切り出し上効果が無くなる値、もしくは使用者がシステム応答のために待たされる最大許容時間に対応する。最小値は円滑度が最大の場合に正確に音声区間を切り出すことができる最小の発話終了ポーズ時間に対応する。これら双方の値は、認識機の性能及び、認識機の使用される環境に応じ実験的に求められる。
【0152】
取得した発話終了ポーズ時間(T_sm)と発話終了ポーズ時間(T_env)とから、最終的な発話終了ポーズ時間Tを算出する(2510)。この算出手法は特に限定されないが、本実施形態では、T=Max(T_sm、T_env)の式を用い、取得した発話終了ポーズ時間(T_sm)と発話終了ポーズ時間(T_env)のうちいずれか大きい値を示す発話終了ポーズ時間を、最終的な発話終了ポーズ時間Tとして決定する。
【0153】
図26には、円滑度および音声信号取得環境値をともに8段階に正規化し、円滑度と発話終了ポーズ時間(T_sm)との対応関係と、音声信号取得環境値と発話終了ポーズ時間(T_env)との対応関係とを示した。ある発話に対し円滑度が3で音環境が6となった場合、円滑度に基づけば発話終了ポーズ時間(T_sm)は1000秒となり、音環境に基づくと発話終了ポーズ時間(T_env)は600秒となる。この場合は、発話終了ポーズ時間が長い円滑度に基づく発話終了ポーズ時間(T_sm)が採用される。また、ある発話に対し円滑度が3で音環境が3となった場合、円滑度に基づけば発話終了ポーズ時間(T_sm)は1000秒となり、音環境に基づくと発話終了ポーズ時間(T_env)は1100秒となる。この場合は、発話終了ポーズ時間が長い音環境に基づく発話終了ポーズ時間(T_env)が採用される。
【0154】
算出された発話終了ポーズ時間Tで発話終了ポーズ時間を更新する。(2509)。
【0155】
なお、発話終了ポーズ時間Tの算出手法は特に限定されず、円滑度に基づく発話終了ポーズ時間(T_sm)と、音環境に基づく発話終了ポーズ時間(T_env)との平均値を発話終了ポーズ時間Tとしてもよい。
【0156】
本実施形態によれば、第1〜第9の実施形態における効果を得られるほか、ユーザに起因する発話の円滑性と、音声信号取得時の環境に起因する音環境との両方の側面から、発話終了ポーズ時間の長さを制御することができる。これにより、音声認識処理が迅速に行われ、また誤認識の原因となるような発話音声以外の信号がポーズに含まれる事態を防ぐことができる。
【0157】
本実施形態では音声認識装置100について説明したが、本発明の音声認識用プログラムにより動作するコンピュータは、音声認識装置100と同様に作用し、同様の効果を奏する。
【0158】
なお、以上説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計決定や均等物をも含む趣旨である。
【図面の簡単な説明】
【図1】第1実施形態に係る音声認識装置のブロック図である。
【図2】音声データを説明するための図である。
【図3】無音区間(ポーズ)を説明するための図である。
【図4】発話終了ポーズ時間を説明するための図である。
【図5】発話終了ポーズ時間を、音声データにあてはめた図である。
【図6】ネットワーク言語の言語モデルの一例を示す図である。
【図7】第1実施形態のおける制御手順を示すフローチャート図である。
【図8】第2実施形態に係る音声認識装置のブロック図である。
【図9】第2実施形態のおける制御手順を示すフローチャート図である。
【図10】第3実施形態に係る音声認識装置のブロック図である。
【図11】第3実施形態のおける制御手順を示すフローチャート図である。
【図12】第4実施形態に係る音声認識装置のブロック図である。
【図13】第4実施形態のおける制御手順を示すフローチャート図である。
【図14】第5実施形態に係る音声認識装置のブロック図である。
【図15】第5実施形態のおける制御手順を示すフローチャート図である。
【図16】第6実施形態に係る音声認識装置のブロック図である。
【図17】第6実施形態のおける制御手順を示すフローチャート図である。
【図18】第7実施形態に係る音声認識装置のブロック図である。
【図19】第7実施形態のおける制御手順を示すフローチャート図である。
【図20】第8実施形態に係る音声認識装置のブロック図である。
【図21】第8実施形態のおける制御手順を示すフローチャート図である。
【図22】第9実施形態に係る音声認識装置のブロック図である。
【図23】第9実施形態のおける制御手順を示すフローチャート図である。
【図24】第10実施形態に係る音声認識装置のブロック図である。
【図25】第10実施形態のおける制御手順を示すフローチャート図である。
【図26】第10実施形態の処理に関し、円滑度および音環境と発話終了ポーズ時間との関係を示す図である。
【符号の説明】
100…音声認識装置
1…音声データ取得手段
2…音声認識手段
21…音声区間検出部
23…特徴分析処理部
24…照合処理部
25…発話終了ポーズ時間演算部
251…演算部
252…推測部(円滑度推測)
256…推測部(音環境推測)
253…情報取得部、円滑要因情報取得部、
257…情報取得部、音声信号取得環境情報の取得部
3…出力手段
200…入力装置
300…記憶装置
400…外部装置
500…車両情報検出装置
Claims (6)
- ユーザから発話入力される連続した単語を含む音声データを取得する音声データ取得手段と、前記取得した音声データを認識する音声認識手段とを有する音声認識装置であって、
前記音声認識手段は、
予め時間長が設定された発話終了ポーズ時間以上の無音区間を検出した場合に前記ユーザの発話入力の終了を検出する機能を少なくとも備えた音声区間検出部と、
前記ユーザから入力される発話の終端を検出する精度に応じて前記発話終了ポーズ時間を決定する発話終了ポーズ時間演算部とを有し、
前記発話終了ポーズ時間演算部は、
前記ユーザの発話の円滑性に寄与する円滑要因情報を、前記発話の終端を検出する精度に寄与する発話終端検出精度情報として取得する情報取得部と、
前記情報取得部の取得した円滑要因情報から前記ユーザの発話の円滑度を推測する推測部と、
前記推測部により推測されたユーザの発話の円滑度に応じて前記発話終了ポーズ時間を求める演算部と、を有し、
前記円滑要因情報は、前記ユーザの運転負荷に関する情報、前記ユーザの発話入力の訂正命令の頻度に関する情報、前記ユーザの周囲の騒音量に関する情報、前記ユーザが操作する外部機器の動作履歴の動作頻度に関する情報、前記ユーザの発話命令履歴の命令頻度に関する情報のいずれかの情報を含み、
前記演算部は、前記ユーザの運転負荷が小さいほど、前記ユーザの発話入力の訂正命令の頻度が高いほど、前記ユーザの周囲の騒音量が大きいほど、前記ユーザが操作する外部機器の動作履歴の動作頻度が高いほど、前記ユーザの発話命令履歴の命令頻度が高いほど、それぞれ前記発話終了ポーズ時間を相対的に短くすることを特徴とする音声認識装置。 - 前記情報取得部は、前記音声データを取得する際の騒音量に関する情報または入力された訂正命令の頻度に関する情報のいずれかの情報を含む、音声データを取得する際の音環境に寄与する音声信号取得環境情報を発話終端検出精度情報として取得し、
前記推測部は、前記情報取得部の取得した音声信号取得環境情報から音声信号取得時の音環境を推測し、
前記演算部は、前記音声データを取得する際の騒音量が小さいほど、前記入力された訂正命令の頻度が低いほど、前記発話終了ポーズ時間を相対的に短くする請求項1記載の音声認識装置。 - 前記演算部は、前記推測部により推測された前記ユーザの発話の円滑度から求められた発話終了ポーズ時間と、前記音声データ取得時の音環境から求められた発話終了ポーズ時間のうち大きい方又はこれらの平均値を最終的な発話終了ポーズ時間に決定する請求項2に記載の音声認識装置。
- コンピュータの音声認識手段に、
ユーザから発話入力される連続した単語を含む音声データを取得するステップと、
前記取得した音声データを認識するステップとを実行させるプログラムであって、
前記音声データを認識するステップは、
前記ユーザから入力される発話の終端の検出精度に応じて前記発話終了ポーズ時間を決定するステップと、
前記決定された発話終了ポーズ時間以上の無音区間を検出した場合に前記ユーザの発話入力の終了を検出するステップとを含み、
前記発話終了ポーズ時間を決定するステップは、
前記発話の終端を検出する精度に寄与する発話終端検出精度情報を取得するステップと、
前記取得した発話終端検出精度情報から前記ユーザの発話の終端検出精度を推測するステップと、
前記推測された発話の終端検出精度に応じて前記発話終了ポーズ時間を求めるステップとを有し、
前記発話の終端を検出する精度に寄与する発話終端検出精度情報を取得するステップは、以下のa〜eに示した前記ユーザの発話の円滑性に寄与する円滑要因情報の中から任意に選択された1又は2以上の情報を、前記発話終端検出精度情報として取得し、
前記発話終了ポーズ時間を求めるステップは、前記ユーザの運転負荷が小さいほど、前記ユーザの発話入力の訂正命令の頻度が高いほど、前記ユーザの周囲の騒音量が大きいほど、前記ユーザが操作する外部機器の動作履歴の動作頻度が高いほど、前記ユーザの発話命令履歴の命令頻度が高いほど、それぞれ前記発話終了ポーズ時間を相対的に短くする音声認識用プログラム。
a:前記ユーザの運転負荷に関する情報
b:前記ユーザの発話入力の訂正命令の頻度に関する情報
c:前記ユーザの周囲の騒音量に関する情報
d:前記ユーザが操作する外部機器の動作履歴の動作頻度に関する情報
e:前記ユーザの発話命令履歴の命令頻度に関する情報 - 前記発話の終端を検出する精度に寄与する発話終端検出精度情報を取得するステップは、以下のf〜gに示した前記音声データを取得する際の音環境に寄与する音声信号取得環境情報の中から任意に選択された1又は2以上の情報を、前記発話終端検出精度情報として取得し、
前記発話終了ポーズ時間を求めるステップは、前記音声データを取得する際の騒音量が小さいほど、前記入力された訂正命令の頻度が低いほど、前記発話終了ポーズ時間を相対的に短くする請求項4に記載の音声認識用プログラム。
f:前記ユーザの発話入力の訂正命令の頻度に関する情報
g:前記ユーザの周囲の騒音量に関する情報 - 前記発話終了ポーズ時間を求めるステップは、前記ユーザの発話の円滑性に寄与する円滑要因情報から求められた発話終了ポーズ時間と、前記音声データを取得する際の音環境に寄与する音声信号取得環境情報から求められた発話終了ポーズ時間のうち大きい方又はこれらの平均値を最終的な発話終了ポーズ時間に決定する請求項5に記載の音声認識用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003185469A JP4433704B2 (ja) | 2003-06-27 | 2003-06-27 | 音声認識装置および音声認識用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003185469A JP4433704B2 (ja) | 2003-06-27 | 2003-06-27 | 音声認識装置および音声認識用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005017932A JP2005017932A (ja) | 2005-01-20 |
JP4433704B2 true JP4433704B2 (ja) | 2010-03-17 |
Family
ID=34184908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003185469A Expired - Fee Related JP4433704B2 (ja) | 2003-06-27 | 2003-06-27 | 音声認識装置および音声認識用プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4433704B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107068147A (zh) * | 2015-10-19 | 2017-08-18 | 谷歌公司 | 语音端点确定 |
US10269341B2 (en) | 2015-10-19 | 2019-04-23 | Google Llc | Speech endpointing |
US10593352B2 (en) | 2017-06-06 | 2020-03-17 | Google Llc | End of query detection |
US10929754B2 (en) | 2017-06-06 | 2021-02-23 | Google Llc | Unified endpointer using multitask and multidomain learning |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9117460B2 (en) | 2004-05-12 | 2015-08-25 | Core Wireless Licensing S.A.R.L. | Detection of end of utterance in speech recognition system |
JP4906379B2 (ja) | 2006-03-22 | 2012-03-28 | 富士通株式会社 | 音声認識装置、音声認識方法、及びコンピュータプログラム |
US8812313B2 (en) | 2008-12-17 | 2014-08-19 | Nec Corporation | Voice activity detector, voice activity detection program, and parameter adjusting method |
JP4873031B2 (ja) | 2009-03-18 | 2012-02-08 | カシオ計算機株式会社 | 撮像装置、撮像方法及びプログラム |
JP5168375B2 (ja) * | 2011-03-11 | 2013-03-21 | カシオ計算機株式会社 | 撮像装置、撮像方法及びプログラム |
JP2013019958A (ja) * | 2011-07-07 | 2013-01-31 | Denso Corp | 音声認識装置 |
JP6171617B2 (ja) * | 2013-06-24 | 2017-08-02 | 日本電気株式会社 | 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム |
KR102299330B1 (ko) * | 2014-11-26 | 2021-09-08 | 삼성전자주식회사 | 음성 인식 방법 및 그 전자 장치 |
WO2016103809A1 (ja) * | 2014-12-25 | 2016-06-30 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US10339917B2 (en) | 2015-09-03 | 2019-07-02 | Google Llc | Enhanced speech endpointing |
US20170069309A1 (en) | 2015-09-03 | 2017-03-09 | Google Inc. | Enhanced speech endpointing |
KR102429498B1 (ko) | 2017-11-01 | 2022-08-05 | 현대자동차주식회사 | 차량의 음성인식 장치 및 방법 |
JP7096707B2 (ja) * | 2018-05-29 | 2022-07-06 | シャープ株式会社 | 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 |
JP2019211599A (ja) * | 2018-06-04 | 2019-12-12 | 本田技研工業株式会社 | 音声認識装置、音声認識方法およびプログラム |
JP7251953B2 (ja) * | 2018-11-19 | 2023-04-04 | トヨタ自動車株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
KR102075399B1 (ko) * | 2019-03-14 | 2020-02-10 | 주식회사 포지큐브 | 스피치 인식 장치 |
KR102076212B1 (ko) * | 2019-03-14 | 2020-02-11 | 주식회사 포지큐브 | 스피치 인식 장치의 동작 방법 |
WO2021014612A1 (ja) * | 2019-07-24 | 2021-01-28 | 日本電信電話株式会社 | 発話区間検出装置、発話区間検出方法、プログラム |
EP4099318A4 (en) * | 2020-01-31 | 2023-05-10 | Sony Group Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
CN112466296A (zh) | 2020-11-10 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音交互的处理方法、装置、电子设备及存储介质 |
CN113241071B (zh) * | 2021-05-10 | 2024-10-01 | 亿咖通(湖北)技术有限公司 | 一种语音处理方法、电子设备及存储介质 |
WO2023181107A1 (ja) * | 2022-03-22 | 2023-09-28 | 日本電気株式会社 | 音声検出装置、音声検出方法及び記録媒体 |
-
2003
- 2003-06-27 JP JP2003185469A patent/JP4433704B2/ja not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107068147A (zh) * | 2015-10-19 | 2017-08-18 | 谷歌公司 | 语音端点确定 |
KR101942521B1 (ko) * | 2015-10-19 | 2019-01-28 | 구글 엘엘씨 | 음성 엔드포인팅 |
US10269341B2 (en) | 2015-10-19 | 2019-04-23 | Google Llc | Speech endpointing |
US11062696B2 (en) | 2015-10-19 | 2021-07-13 | Google Llc | Speech endpointing |
US11710477B2 (en) | 2015-10-19 | 2023-07-25 | Google Llc | Speech endpointing |
US10593352B2 (en) | 2017-06-06 | 2020-03-17 | Google Llc | End of query detection |
US10929754B2 (en) | 2017-06-06 | 2021-02-23 | Google Llc | Unified endpointer using multitask and multidomain learning |
US11551709B2 (en) | 2017-06-06 | 2023-01-10 | Google Llc | End of query detection |
US11676625B2 (en) | 2017-06-06 | 2023-06-13 | Google Llc | Unified endpointer using multitask and multidomain learning |
Also Published As
Publication number | Publication date |
---|---|
JP2005017932A (ja) | 2005-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4433704B2 (ja) | 音声認識装置および音声認識用プログラム | |
US7672846B2 (en) | Speech recognition system finding self-repair utterance in misrecognized speech without using recognized words | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP5621783B2 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
JP2004198831A (ja) | 音声認識装置および方法、プログラム、並びに記録媒体 | |
JP3611223B2 (ja) | 音声認識装置及び方法 | |
CN110189750B (zh) | 词语检测系统、词语检测方法以及记录介质 | |
JP2004333543A (ja) | 音声対話システム及び音声対話方法 | |
JP3876703B2 (ja) | 音声認識のための話者学習装置及び方法 | |
WO2011016129A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JPH11184491A (ja) | 音声認識装置 | |
JP5532880B2 (ja) | 音声認識装置 | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
JP4178931B2 (ja) | 音声認識装置 | |
JP4281369B2 (ja) | 音声認識装置 | |
JP4749990B2 (ja) | 音声認識装置 | |
JP3615088B2 (ja) | 音声認識方法及び装置 | |
JP2001175276A (ja) | 音声認識装置及び記録媒体 | |
JPH08241096A (ja) | 音声認識方法 | |
Hüning et al. | Speech Recognition Methods and their Potential for Dialogue Systems in Mobile Environments | |
JP4297349B2 (ja) | 音声認識システム | |
JP3936827B2 (ja) | 音声認識装置および方法 | |
JP4881625B2 (ja) | 音声検出装置及び音声検出プログラム | |
JP2002132293A (ja) | 音声認識装置 | |
JPH1185200A (ja) | 音声認識のための音響分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060424 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090623 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090806 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090806 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091221 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130108 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130108 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140108 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |