JP5532880B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP5532880B2
JP5532880B2 JP2009277698A JP2009277698A JP5532880B2 JP 5532880 B2 JP5532880 B2 JP 5532880B2 JP 2009277698 A JP2009277698 A JP 2009277698A JP 2009277698 A JP2009277698 A JP 2009277698A JP 5532880 B2 JP5532880 B2 JP 5532880B2
Authority
JP
Japan
Prior art keywords
command
speech
voice
value
utterance speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009277698A
Other languages
English (en)
Other versions
JP2011118290A (ja
Inventor
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2009277698A priority Critical patent/JP5532880B2/ja
Publication of JP2011118290A publication Critical patent/JP2011118290A/ja
Application granted granted Critical
Publication of JP5532880B2 publication Critical patent/JP5532880B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識技術に関し、特に、音声入力されるコマンドを電子機器に識別させる技術に関する。
パーソナルコンピュータや音楽プレイヤ、家庭用ゲーム機、カーナビゲーション装置などの電子機器に対するコマンド入力インタフェースとして、音声認識技術を利用したコマンド制御装置が用いられる場合がある。この種のコマンド制御装置では、ユーザの発した音声が予め辞書登録されたコマンドの何れに該当するのかを判定し、何れかのコマンドに該当すると判定される場合には、そのコマンドに応じて当該電子機器の作動制御を行う処理(以下、コマンド制御)が実行される。この種のコマンド制御装置で採用される音声認識技術の一例としては、DPマッチングを利用したもの(例えば、特許文献1)や、隠れマルコフモデル(Hidden Markov Model:以下、HMM)を利用したものが挙げられる。
特開2007−233077号公報
従来の音声認識技術においては、例えばキー操作等により認識処理の開始を指示する必要があったが、コマンド入力のたびにそのような操作を行うことは非常に煩わしいことである。このため、電子機器の電源が投入されてからその切断が行われるまでの間、常に周囲の音声を収音させ、そのようにして得られた連続音声から認識対象の音声(以下、認識対象音声)を切り出して音声認識を行うようにすることが望まれていた。
しかし、連続音声から認識対象音声を切り出す場合、DPマッチングを利用した音声認識技術では、電子機器の周囲で行われた人同士の会話の音声がその電子機器へのコマンド入力であると誤認識される場合がある、という問題があった。例えば、”おんがく”、”さいせい”、”すとっぷ”、”つぎ”、および”まえ”といった5種類のコマンドを対象としてDPマッチングを利用した音声認識を行う音楽プレイヤにおいて、”十分なメモリ削減の工夫が・・・”といった音声が”おんがく”というコマンドの入力音声であると誤認識される場合がある、といった具合である。一般に人同士の会話の音声は、その発話速度(単位時間あたりの音素数)がコマンド入力を意図して発せられた音声に比較して速いといった特徴を有するのであるが、DPマッチングでは絶対的な時間を考慮せずに音色が似ている部分同士を比較するため、このような不具合が生じ易いのである。
また、HMMを利用した音声認識技術では、音素の継続時間の統計的な分布を状態遷移確率で表現することができるものの、指数的に減衰する音声を表わす音声モデルであり、認識結果の尤もらしさを示すスコア値を発話速度に応じて調整することは困難で、上記のような誤認識を回避することは難しい。つまり、DPマッチングやHMMを利用した従来の音声認識技術をそのまま用いたのでは、人同士の会話の音声をコマンド入力音声と誤認識することを回避しつつ、連続音声から認識対象音声を切り出してコマンド制御を実現することは難しいのである。
本発明は、上記課題に鑑みて為されたものであり、電子機器に対するコマンド入力を目的として発せられたものではない音声がコマンド入力を意図したものであると誤認識されることを回避しつつ、連続音声から認識対象音声を切り出してコマンド制御を行うことを可能にする技術を提供することを目的とする。
上記課題を解決するために本発明は、1または複数のコマンドの各々に対応付けてそのコマンドの発話音声の特徴を示す特徴量が格納されたコマンドデータベースと、マイクロホンの出力信号を解析し、当該出力信号の表わす音声についての特徴量を算出する特徴量算出手段と、前記特徴量算出手段により算出される特徴量とコマンド毎に前記コマンドデータベースに格納されている特徴量との類似度に基づいて音声認識を行い、尤度を示すスコア値をコマンド毎に算出し、そのスコア値が高い上位N(Nは、1以上の整数)個のコマンドをコマンド候補として選択するコマンド候補選択手段と、前記マイクロホンの出力信号の示す音声の単位時間当たりの音素数を当該音声の発話速度として算出する発話速度算出手段と、前記コマンド選択手段により選択されたコマンド候補の各々のスコア値を前記発話速度が予め定められた上限値に近い値であるほど小さな値に補正し、補正後のスコア値が所定の閾値を下回っているものをコマンド候補から除外するコマンド候補絞込み手段とを有することを特徴とする音声認識装置、を提供する。
これは、人同士の会話の発話音声は電子機器に対するコマンド入力を意図して発せられる音声に比較して発話速度が速いことが一般的であることに着目したものであり、上記上限値を適切に定めておけば、人同士の会話のために発せられた音声が電子機器に対するコマンド入力を意図したものであると誤認識されることを回避することができる。何故ならば、このような音声認識装置によれば、マイクロホンの出力信号が示す音声の発話速度が上記上限値に近いほど、その音声に対して音声認識により選択されたコマンド候補のスコア値は小さい値に補正され、全てのコマンド候補が除外されることが起こり得る。全てのコマンド候補が除外されたのであれば、その音声はコマンド入力音声ではないと考えられるからである。ここで、上記上限値をどのように定めるのかについては種々の方法が考えられる。その一例としては、多数の人について、人同士の会話の発話音声の発話速度と電子機器に対してコマンド入力を行う際の発話音声の発話速度とを集計して両発話速度の分布を求めるとともに、それら2つの分布を最も高い信頼度で切り分けられるように上記上限値を定める態様が考えられる。なお、本発明の別の態様においては、コンピュータを上記各手段として機能させるプログラムを提供しても良い。
ここで認識対象音声の発話速度をどのよう算出するのかについては、種々の態様が考えられる。一例を挙げると、認識対象音声の変調スペクトルを算出し、当該変調スペクトルが最大となる周波数を当該音声の発話速度として出力する、といった具合である。変調スペクトルが最大となる周波数を認識対象音声の発話速度とすることの妥当性については、発明の詳細な説明において明らかにする。
また、上記課題を解決するために本発明は、1または複数のコマンドの各々に対応付けてそのコマンドの発話音声の特徴を示す特徴量が格納されたコマンドデータベースと、マイクロホンの出力信号を解析し、当該出力信号の表わす音声についての特徴量を算出する特徴量算出手段と、前記特徴量算出手段により算出される特徴量とコマンド毎に前記コマンドデータベースに格納されている特徴量との類似度に基づいて音声認識を行い、尤度を示すスコア値をコマンド毎に算出し、そのスコア値が高い上位N(Nは、1以上の整数)個のコマンドをコマンド候補として選択するコマンド候補選択手段と、前記マイクロホンの出力信号の示す音声の単位時間当たりの音素数を当該音声の発話速度として算出するとともに、前記コマンド選択手段により選択されたコマンド候補の各々について単位時間当たりの音素数をそのコマンド候補の発話速度として算出する発話速度算出手段と、前記各コマンド候補についてその発話速度と前記マイクロホンの出力信号の示す音声の発話速度との一致度が低いほどそのスコア値を小さな値に補正し、補正後のスコア値が所定の閾値を下回っているものをコマンド候補から除外するコマンド候補絞込み手段とを有することを特徴とする音声認識装置、を提供する。
このような音声認識装置によれば、認識対象音声とは発話速度が大きく異なる(換言すれば、認識対象音声とは音素数が大きく異なる)コマンドは、その音声に対するコマンド候補から除外される。このような態様によっても、人同士の会話のために発せられる音声がコマンド入力のためのものであると誤認識されることを回避することが可能になる。なお、本発明の別の態様においては、コンピュータを上記各手段として機能させるプログラムを提供しても良い。
より好ましい態様においては、上記各音声認識装置は、マイクロホンの出力信号の表す音声の発話速度が予め定められた上限値を超えている場合には、当該音声は前記1または複数のコマンドの何れの発話音声でもないと判定する判定手段をさらに有することを特徴とする。前述したように、人同士の会話の発話音声は電子機器に対するコマンド入力を意図して発せられる音声に比較して発話速度が速いことが一般的であり、上記上限値を適切に定めておけば、コマンド候補のスコア値の補正を行うまでもなく、その上限値を超えて早い発話速度の発話音声は電子機器に対するコマンド入力を目的として発せられたものではないと判断することができるからである。
本発明の一実施形態である音声認識装置30を含むコマンド制御装置1の構成例を示すブロック図である。 同音声認識装置30の構成例を示すブロック図である。 同音声認識装置30の制御部310が実行する音声認識処理の流れを示すフローチャートである。 同音声認識処理の発話速度算出処理3130にて算出される変調スペクトルの一例を示す図である。 同音声認識処理のコマンド候補絞込み処理3140にて使用される重み付け関数fおよびgの一例を示す図である。 人同士の会話の音声の発話速度の分布と電子機器に対するコマンド入力音声の発話速度の分布の一例を示す図である。
以下、図面を参照しつつ本発明の実施形態について説明する。
(A:構成)
図1は、本発明の一実施形態である音声認識装置30を含むコマンド制御装置1の構成例を示すブロック図である。このコマンド制御装置1は、電子機器(本実施形態では、音楽プレイヤ)に組み込まれ、その電子機器のコマンド入力インタフェースの役割を果たす。図1に示すようにコマンド制御装置1は、マイクロホン10、A/D変換器20、音声認識装置30、およびコマンドインタプリタ40を含んでいる。
マイクロホン10は、コマンド制御装置1が組み込まれた電子機器の周囲の音を収音し、その音波形を示すアナログオーディオ信号を出力する。入力を所望するコマンドの発話が当該電子機器のユーザによって行われると、その発話音声はマイクロホン10によって収音され、その発話音声を表わすアナログオーディオ信号が後段回路へ与えられる。A/D変換器20は、マイクロホン10の出力信号にA/D変換を施し、その変換結果であるデジタルオーディオデータ(以下、音声データ)を音声認識装置30に与える。なお、マイクロホン10がデジタルオーディオデータを出力するものである場合には、A/D変換器20を省略し、マイクロホン10の出力データを音声認識装置30に直接与えるようにすれば良い。
音声認識装置30は、A/D変換器20から与えられる音声データに音声認識処理を施し、予め登録された複数種のコマンドの何れかの発話音声を表すものであるか否かを判定し、何れかのコマンドの発話音声と判定される場合には、そのコマンドの実行指示をコマンドインタプリタ40に与える。コマンドインタプリタ40は、音声認識装置30から与えられる指示にしたがってコマンドを実行し、電子機器の各部の作動制御を行う。これにより、音声入力されたコマンドが実行され、そのコマンドに応じた処理が実行されるのである。
さて、図1に示すコマンド制御装置1では、当該コマンド制御装置1を含む電子機器の電源が投入されてから、その切断が行われるまでの間、マイクロホン10による音声の収音およびその音声に対する音声認識処理が継続して実行される。そして、図1の音声認識装置30は、A/D変換器20から順次与えられる音声データを蓄積し、それら音声データから無音区間(本実施形態では、音量レベルが予め定められた閾値未満の区間)により区画される有音区間の音波形を表す波形データを切り出し、その波形データに対して音声認識処理を施すのである。このため、本実施形態では、音声認識処理の開始を逐一ユーザに指示させる必要はない。加えて、本実施形態の音声認識装置30は、音声認識処理により得られるスコア値(認識結果の尤もらしさ(尤度)を示す値:本実施形態では、0〜1の範囲の値であって、1に近いほど尤度が高いことを示す)を、その認識対象音声(すなわち、有音区間の音声)の発話速度(本実施形態では、単位時間当たりの音素数:以下、単に「話速」とも呼ぶ)に応じて補正する処理を実行する。これは、人同士の会話の音声の発話速度はコマンド入力のための音声の発話速度に比較して速いことが多い、ということに着目したものであり、これにより、前者を後者であると誤認識することが回避される。
以下、本実施形態の特徴を顕著に示す音声認識装置30を中心に説明する。
図2は、音声認識装置30の構成例を示すブロック図である。
図2に示すように音声認識装置30は、制御部310、インタフェース群320、記憶部330、および、これら各構成要素間のデータ授受を仲介するバス340を含んでいる。制御部310は、例えばCPU(Central Processing Unit)である。制御部310は、記憶部330(より正確には、不揮発性記憶部334)に記憶されている音声認識プログラム334bを実行することにより、音声認識装置30の制御中枢として機能する。
インタフェース群320は、例えばシリアルインタフェースやNIC(Network Interface Card)など他の電子機器との間でデータの授受を行うためのインタフェースの集合体である。A/D変換器20やコマンドインタプリタ40は、インタフェース群320に含まれる各種インタフェースのうちの適当なものに接続され、そのインタフェースを介して音声認識装置30(より正確には、制御部310)との間でデータの授受を行う。
記憶部330は、図2に示すように揮発性記憶部332と不揮発性記憶部334を含んでいる。揮発性記憶部332は、例えばRAM(Random Access Memory)である。この揮発性記憶部332は、音声認識処理を実行する際のワークエリアとして制御部310によって利用される。不揮発性記憶部334は、例えばハードディスクである。この不揮発性記憶部334には、コマンドデータベース334aと音声認識プログラム334bが予め格納されている。
コマンドデータベース334aには、コマンド制御装置1を含む電子機器に対して入力され得る複数種のコマンドの各々を示すコマンド識別子(例えば、コマンドの発話音声を構成する音素の配列を示す文字列)に対応付けてそのコマンドの発話音声の特徴を示す特徴量とそのコマンドの発話音声の発話速度を示す発話速度データが格納されている。前述したように、本実施形態においてコマンド制御装置1が組み込まれた電子機器は音楽プレイヤであり、”おんがく”、”さいせい”、”すとっぷ”、”つぎ”、および”まえ”の5種類のコマンドが入力され得る。そして、本実施形態では、これら5種類のコマンドのコマンド識別子として、ongaku、saisei、sutopqu、tsugi、およびmaeが用いられている。
これら5種類のコマンドのうち、”おんがく”というコマンドは当該電子機器に記憶されている楽曲の一覧である楽曲リストの先頭にポインタを位置付けるコマンドである。”さいせい”というコマンドは、ポインタの指し示す楽曲の再生開始を指示するコマンドであり、”すとっぷ”というコマンドは楽音の再生停止を指示するコマンドである。そして、”つぎ”というコマンドは、上記ポインタを楽曲リストの次の楽曲に位置付けることを指示するコマンドであり、”まえ”というコマンドは上記ポインタを楽曲リスト上の一つ手前の楽曲に位置付けるコマンドである。
また、本実施形態では、上記特徴量として以下の要領で算出されるMFCC(Mel-Frequency
Cepstrum Coefficient)が採用されている。各コマンド識別子に対応付けてコマンドデータベース334aに格納されているMFCCは、そのコマンド識別子の表わすコマンドの発話音声の波形データを所定の時間単位(例えば、500ms)分ずつに分割し、それら所定単位時間分の波形データの各々に対してFFTを施してパワースペクトルを算出し、そのパワースペクトルの対数値にメル尺度に基づく窓関数を乗算する等して算出されたものである。なお、本実施形態では、特徴量としてMFCCを用いたが、パワースペクトルの対数値(以下、対数パワースペクトル)やケプストラム(対数パワースペクトルに逆フーリエ変換を施して得られる値)を用いても勿論良く、また、これらのうちの複数種を組み合わせて用いても良い。
音声認識プログラム334bは、A/D変換器20から引渡される音声データの表わす音声が上記5種類のコマンドの何れかの入力を指示するものであるか否かを判定し、コマンドの入力を指示するものであると判定された場合には、その判定の尤もらしさが最も高いコマンド(前述したスコア値が最も高いコマンド)のコマンド識別子をコマンドインタプリタ40に与え、そのコマンドの実行を指示する音声認識処理を制御部310に実行させるプログラムである。ただし、本実施形態の音声認識プログラム334bは、マイクロホン10により収音された音声の発話速度を算出し、その音声にて入力を指示されたと推定されるコマンド(以下、コマンド候補)のスコア値をその発話速度に基づいて補正する処理を制御部310に実行させる点が従来のものと異なる。この音声認識プログラム334bにしたがって制御部310が実行する音声認識処理の詳細については重複を避けるため動作例において明らかにする。
以上が音声認識装置30の構成である。
(B:動作)
次いで、音声認識装置30の動作を説明する。
図3は、音声認識装置30の制御部310が音声認識プログラム334bにしたがって実行する音声認識処理の流れを示すフローチャートである。図3に示すように、この音声認識処理には、波形切り出し処理3100、特徴量算出処理3110、コマンド候補選択処理3120、発話速度算出処理3130、コマンド候補絞込み処理3140が含まれる。
波形切り出し処理3100は、A/D変換器20から順次引渡される音声データを揮発性記憶部332(より正確には、揮発性記憶部332内に確保される記憶領域により構成されるFIFOやリングバッファ)に書き込んで蓄積するとともに、それら連続音声の音声データから無音区間(前述したように、本実施形態では、音量レベルが所定の閾値未満の区間)により区画される有音区間の音波形(すなわち、認識対象音声の音波形)を示す波形データを切り出す処理である。ここで、音量レベルが所定の閾値未満の区間を無音区間としたのは、環境音等など雑音による影響を緩和するためであり、無音区間か否かを判別するための閾値をどの程度の値にするのかについては、適宜実験等を行って定めるようにすれば良い。図3に示すように波形切り出し処理3100により得られる波形データは、特徴量算出処理3110および発話速度算出処理3130の処理対象データとなる。
特徴量算出処理3110は、波形切り出し処理3100により得られる波形データを解析し、コマンドデータベース334aに格納されているものと同種の特徴量(本実施形態では、MFCC)を算出する処理である。より詳細に説明すると、この特徴量算出処理3110では、制御部310は、波形切り出し処理3100により得られる波形データを所定の時間単位(500ms)分ずつ分割し、それら所定単位時間分の波形データの各々に対してFFTを施してパワースペクトルを算出し、そのパワースペクトルの対数値にメル尺度に基づく窓関数を乗算する等して特徴量(MFCC)を算出する。
コマンド候補選択処理3120では、制御部310は、特徴量算出処理3110にて算出された特徴量とコマンドデータベース334aの格納内容とを用いて音声認識(本実施形態では、DPマッチング)を行い、5種類のコマンドの各々について認識対象音声をそのコマンドの入力指示であるとした場合の尤度を示すスコア値を算出し、そのスコア値が高い上位N(Nは、1以上の予め定められた整数)個のコマンドをコマンド候補として選択する。ここでスコア値の算出アルゴリズムとしては種々のものが考えられる。例えば、コマンドデータベース334aにコマンド毎に格納されている特徴量および特徴量算出処理3110にて算出される特徴量が多次元ベクトル形式のものである場合には、それら特徴量ベクトル間の距離(或いは、両特徴量ベクトルのなす角度)を0〜1の範囲に規格化してスコア値とする態様が考えられる。また、音声認識アルゴリズムとしてHMMを利用したものを採用する場合には、所謂ビタビアルゴリズムなどの最尤推定アルゴリズムを用いてスコア値を算出するようにすれば良い。そして、制御部310は、このようにして算出されるスコア値が高いものからN(本実施形態では、N=5)個のコマンドをコマンド候補として選び出し、それらコマンドのコマンド識別子とそのスコア値とを対応付けてスコア値の降順に配列したコマンド候補リストを出力する。例えば、本実施形態では、認識対象音声に対して以下の表1に示すようなコマンド候補リストが生成される。
Figure 0005532880
従来の音声認識技術では、上記のようにして生成されたコマンド候補リストにて最上位のコマンドのスコア値が所定の閾値(例えば、0.5など)を上回っているのであれば、認識対象音声は当該最上位のコマンドの入力を指示するものであると判定され、そのコマンドに応じた処理が実行されていた。しかし、このような態様では、人同士の会話のために発せられた音声に偶然、何れかのコマンドと類似する音色を有する部分が含まれている場合などに誤認識を生じさせてしまう場合があることは前述した通りである。そこで、本実施形態では、認識対象音声の発話速度を考慮することで、このような誤認識の発生を回避するものであり、図3の発話速度算出処理3130およびコマンド候補絞込み処理3140は本実施形態の中核を成すのである。
発話速度算出処理3130は、波形切り出し処理3100により得られる波形データの表す音声の発話速度を算出する処理である。より詳細に説明すると、この発話速度算出処理3130では、制御部310は、まず、上記波形データに対してローパスフィルタ処理を施し、所定周波数(本実施形態では、800Hz)以上の周波数を有する高周波成分を除去する。ここで、所定周波数以上の高周波成分を除去するのは、発話音声以外の雑音(例えば、周囲の環境音等)による影響を緩和するためである。
次いで、制御部310は、高周波成分を除去した波形データを所定の単位時間(500ms)分ずつに分割し、変調スペクトルを算出する。ここで、変調スペクトルとは、単位時間分の波形データの対数パワースペクトルの時間軌跡を表わすデータ列にフーリエ変換を施して得られるものである。つまり、制御部310は、高周波成分を除去した波形データを上記単位時間分ずつの波形データに区切って対数パワースペクトルを算出し、その算出結果にフーリエ変換を施すことで変調スペクトルを算出するのである。
図4は、発話速度算出処理3130にて制御部310が算出する変調スペクトルの一例を示すグラフである。音声を分析して得られる変調スペクトルは、一般に0から20Hzの帯域にピークをもつ山型の形状となることが知られており、図4においても当該ピークが現れている。制御部310は、このようにして得られた変調スペクトルのピーク周波数(すなわち、変調スペクトルが最大となる周波数)を表わすデータを上記波形データの表わす音声の発話速度を表わす発話速度データとして出力する。ここで、変調スペクトルのピーク周波数を発話速度とする理由は以下の通りである。前述したように、変調スペクトルは、音声の対数パワースペクトルの時間軌跡を表わすデータ列にフーリエ変換を施して得られるものであり、その音声にて対数パワースペクトルが変化する周期とその周期での対数パワースペクトルの変化の出現頻度とを表している。つまり、変調スペクトルのピーク周波数は、そのピーク周波数に応じた周期で対数パワースペクトルが変化する頻度が最も高いことを示しているのである。音素の境界ではそれら特徴量は当然に変化するのであるから、変調スペクトルのピーク周波数は、単位時間当たりにどの程度の頻度で音素の切り換りが発生したのか(すなわち、単位時間当たりの音素数)を表わすこととなり、これは発話速度に他ならない。これが、変調スペクトルのピーク周波数を発話速度とする理由である。
図3のコマンド候補絞込み処理3140は、コマンド候補選択処理3120にて生成されたコマンド候補リスト(表1参照)に含まれるN個のコマンド候補の各々のスコア値を認識対象音声の発話速度(すなわち、発話速度算出処理3130にて算出される発話速度データの示す発話速度)に応じて補正し、その補正後のスコア値が所定の閾値未満のものをコマンド候補から除外する処理である。本実施形態では、上記各スコア値に上記発話速度に応じた重みを乗算することでその補正が行われる。そして、各コマンド候補のスコア値に乗算する重みとしては、認識対象音声の発話速度にのみ依存する第1の重みと、認識対象音声の発話速度とコマンド候補の発話速度に依存する第2の重みの2種類が用いられる。
図5(a)は、第1の重みを表す関数fの特性を表わすグラフである。この関数fは、認識対象音声の発話速度を引数とし、0から1までの何れかの値をとる関数である。より詳細に説明すると、関数fの値は、その引数である発話速度が所定の値VB(図5(a)に示すように、本実施形態では、5[Hz])未満である場合には1となり、発話速度が所定の上限値VAに近くづくにつれて0に向って減少する。このような特性の重み付け関数fを用いて重み付けを行う理由は以下の通りである。
前述したように人同士の会話の音声の発話速度は電子機器に対するコマンド入力音声の発話速度に比較して早いことが一般的である。このため、多数の人(以下、モニタと呼ぶ)を対象として人同士の会話の音声の発話速度と電子機器に対するコマンド入力音声の発話速度を計測し、各々の出現頻度を集計すれば、図6に示すような分布が得られると考えられる。図6において破線で描画された曲線は人同士の会話の音声の発話速度の出現頻度の分布を表す分布曲線であり、実線で描画された曲線は電子機器に対するコマンド入力音声の発話速度の出現頻度の分布曲線である。これら2つの分布曲線は、モニタの数が多いほど正規分布に近づくと考えられる。例えば、図6にて人同士の会話の音声の発話速度の出現頻度の分布曲線がゼロから立ち上がり始める発話速度を図5(a)のVBとし、同図6において、コマンド入力音声の発話速度の出現頻度の分布曲線がそのピークから次第に減少し略ゼロとなったときの発話速度を図5(a)のVAとすれば、上記重み付け関数fを用いることによって、認識対象音声の発話速度が上限値VAに近いほど各コマンド候補のスコア値は小さな値に補正され、認識対象音声に対するコマンド候補として選択されにくくなる。これは、図6にて発話速度がVBからVAの区間では発話速度がVAに近いほどその音声は人同士の会話の音声である可能性が高くなっていることと整合する。つまり、第1の重みを表わす関数fは、認識対象音声の話速が上限値VAに近いほど、その音声に対して選択された全てのコマンド候補のスコア値を小さな値に補正し、何れのコマンド候補も選択されないようにする役割を果たすのである。
一方、第2の重みを表わす関数gは、認識対象音声の発話速度とコマンド候補の発話速度の一致度が高いほど1に近く、一致度が低いほど0に近い値となる関数である。図5(b)は、本実施形態における関数gの特性を表わすグラフである。この関数gは、認識対象音声の発話速度とコマンド候補の発話速度の比rを引数とする。この関数gの値は、図5(b)に示すように、その引数rが0.5〜2の場合には1となり、引数rが0.5より小さくなるほど、或いは2より大きくなるほど0に近い値となる。この関数gは、認識対象音声の発話速度との一致度が低い発話速度のコマンド候補ほどそのスコア値を小さな値に補正し、それらコマンド候補が選択されにくくなるようにする、といった役割を果たすのである。
関数fおよびgの各々は、何れも0〜1の範囲の値をとるのであるから、これら関数fおよびgによる重みを乗算した後のスコア値は、その乗算前のスコア値と等しい値か、またはより小さい値に更新されることになる。したがって、これら関数fおよびgを用いて重み付けを行うことにより、上記コマンド候補リストは、例えば、以下の表2のように更新される。なお、表2においては、fおよびgを乗算した後のスコア値(表2では、スコア値(新)と表記)のほかに、その乗算前のスコア値(表2では、スコア値(旧)と表記)と、fとgの積の値を併記した。
Figure 0005532880
コマンド候補絞込み処理3140では、制御部310は、関数fおよびgによる重み付けを行った後のスコア値が最大であるコマンド候補のコマンド識別子をコマンドインタプリタ40に出力するのであるが、それらコマンド候補にスコア値が所定の閾値(例えば、0.5)未満のものが含まれている場合には、まず、それらを除外する。関数fおよびgによる重み付け後のスコア値が所定の閾値を下回るコマンド候補については、認識対象音声はそのコマンド候補の入力を指示したものではないと考えられるからである。表2を参照すれば明らかなように、本動作例においては、最も順位が高いコマンド候補“ongaku”であっても、そのスコア値(新)は上記閾値未満であるから、全てのコマンド候補が除外され、コマンドインタプリタ40にコマンド候補のコマンド識別子が引渡されることはない。全てのコマンド候補が除外されたのであれば、認識対象音声は予め登録された複数種のコマンドの何れの入力も指示するものではなく、人同士の会話のために発話された音声の可能性が高いと判断される、ということである。
このように、本実施形態では、図5(a)および(b)に示す関数fおよびgを用いて各コマンド候補のスコア値を補正した後に絞り込みを行うようにしたため、マイクロホン10により収音された音声の発話速度が速すぎる場合(すなわち、認識対象音声の発話速度が上限値VAに近いほど)には、関数fは0近傍の値となり、各コマンド候補のスコア値は0近傍の値まで引き下げられ、その音声に対応するコマンド候補が音声認識装置30からコマンドインタプリタ40に引渡されることはない。前述したように、電子機器に対するコマンド入力のために発せられる音声の発話速度は、人同士の会話の発話速度に比較して遅いことが一般的であり、上記のような発話速度の速さに応じたフィルタリングを行うことによって、会話のための音声が電子機器に対するコマンド入力であると誤認識されることが回避される。なお、認識対象音声の発話速度が上限値VAを上回っている場合には、コマンド候補のスコア値の補正を行うことなく認識対象音声はコマンド入力を意図して発せられたものではないと判定するようにしても良い。加えて、本実施形態では、マイクロホンにより収音された音声の発話速度とはかけ離れた発話速度を有するものは関数gが0近傍の値になるため、やはりコマンド候補から除外される。このため、マイクロホンによる収音された音声がその音声とは極端に異なる音素数のコマンドの入力を意図したものであると誤認識されること(例えば、”十分なメモリ削減の工夫が”といった音声が”おんがく”といったコマンド入力を意図するものであると誤判断されること)も回避される。
このように、本実施形態の音声認識装置30によれば、電子機器に対するコマンド入力を目的として発せられたものではない音声がコマンド入力を意図したものであると誤認識されることを回避しつつ、連続音声から認識対象音声を切り出してコマンド制御を行うことが可能になる。
(C:変形)
以上、本発明の一実施形態について説明したが、かかる実施形態に以下に述べる変形を加えても良い。
(1)上述した実施形態では、音楽プレイヤに本実施形態のコマンド制御装置1を組み込んだ場合について説明した。しかし、本実施形態のコマンド制御装置1の組み込み対象の電子機器は、音楽プレイヤに限定されるものではなく、パーソナルコンピュータや家庭用ゲーム機、カーナビゲーション装置などであっても良い。要は、何らかのコマンド入力を要する電子機器であれば、本実施形態のコマンド制御装置1を組み込むことによってそのコマンド入力を音声で行わせることが可能になる。また、上述した実施形態では、コマンドデータベース334aに5種類のコマンドが予め登録されていたが、1〜4種類のコマンドが予め登録されている態様であっても良く、また、6種類以上のコマンドが予め登録されている態様でも良い。要は、1または複数種類のコマンドが登録されている態様であれば良い。
(2)上述した実施形態では、関数fおよび関数gの両方を用いてスコア値の重み付けを行ったが、何れか一方のみを用いて重み付けを行っても良い。なお、関数fのみを用いて重み付けを行う場合には、音声認識により選択される各コマンド候補の発話速度は必要なく、発話速度を示すデータをコマンドデータベース334aに格納しておく必要はない。また、関数gを用いて(関数gのみ、或いは関数gと関数fとを用いて)スコア値の重み付けを行う態様であっても、各コマンド候補の発話速度そのものを示すデータをコマンドデータベース334aに格納しておく必要はなく、発話速度の算出に要するデータ(例えば、各コマンドの発話音声の音素数と発話時間を示すデータや、各コマンドの発話音声の変調スペクトルを表わすデータや、その波形データそのもの等)をコマンドデータベース334aに格納しておけば良い。
(3)上述した実施形態では、音声認識アルゴリズムとしてDPマッチングを用いたが、HMMを利用したアルゴリズムを用いても良く、また、SVM(Support Vector Machine)などDPマッチングやHMM以外のアルゴリズムを用いても良い。また、上述した実施形態では、変調スペクトルを算出しそのピーク周波数を認識対象音声の発話速度としたが、他の手法により発話速度を算出しても勿論良い。また、上述した実施形態では、図6にて人同士の会話の音声の発話速度の出現頻度の分布曲線がゼロから立ち上がり始める発話速度がコマンド入力音声の発話速度の出現頻度の分布曲線がそのピークから次第に減少し略ゼロとなったときの発話速度よりも遅い場合について説明したが、逆に、前者が後者よりも早い場合には、前者(人同士の会話の音声の発話速度の出現頻度の分布曲線がゼロから立ち上がり始める発話速度)を図5(a)の上限値VAとしても勿論良い。
(4)上述した実施形態では、音声認識プログラム334bが音声認識装置30の不揮発性記憶部334に予め格納されていた。しかし、CD−ROM(Compact Disk Read Only Memory)などのコンピュータ読み取り可能な記録媒体に音声認識プログラム334bを書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。このようにして配布される音声認識プログラム334bをパーソナルコンピュータなどの一般的なコンピュータに記憶させ、そのCPUをその音声認識プログラム334bにしたがって作動させることで、このような一般的なコンピュータを本実施形態の音声認識装置30として機能させることが可能になるからである。また、上述した実施形態では、本発明の特徴を顕著に示す音声認識処理をソフトウェアにより実現したがハードウェアにより実現することも可能である。具体的には、波形切り出し処理3100を実行する波形切出し手段、特徴量算出処理3110を実行する特徴量算出手段、コマンド候補選択処理3120を実行するコマンド候補選択手段、発話速度算出処理3130を実行する発話速度算出手段、およびコマンド候補絞込み処理3140を実行するコマンド候補絞込み手段の各手段を電子回路で構成し、これら各手段と、コマンドデータベース334aを記憶した記憶装置とを組み合わせて音声認識装置を構成し、上記各手段を図3に示しように順次作動させるようにすれば良い。
1…コマンド制御装置、10…マイクロホン、20…A/D変換器、30…音声認識装置、310…制御部、320…インタフェース群、330…記憶部、332…揮発性記憶部、334…不揮発性記憶部、334a…コマンドデータベース、334b…音声認識プログラム、340…バス、3100…波形切り出し処理、3110…特徴量算出処理、3120…コマンド候補選択処理、3130…発話速度算出処理、3140…コマンド絞込み処理、40…コマンドインタプリタ。

Claims (4)

  1. 1または複数のコマンドの各々に対応付けてそのコマンドの発話音声の特徴を示す特徴量が格納されたコマンドデータベースと、
    マイクロホンの出力信号を解析し、当該出力信号の表わす音声についての特徴量を算出する特徴量算出手段と、
    前記特徴量算出手段により算出される特徴量とコマンド毎に前記コマンドデータベースに格納されている特徴量との類似度に基づいて音声認識を行い、尤度を示すスコア値をコマンド毎に算出し、そのスコア値が高い上位N(Nは、1以上の整数)個のコマンドをコマンド候補として選択するコマンド候補選択手段と、
    前記マイクロホンの出力信号の示す音声の単位時間当たりの音素数を当該音声の発話速度として算出する発話速度算出手段と、
    前記コマンド候補選択手段により選択されたコマンド候補の各々のスコア値を前記発話速度が予め定められた上限値に近い値であるほど小さな値に補正し、補正後のスコア値が所定の閾値を下回っているものをコマンド候補から除外するコマンド候補絞込み手段と、を有し、
    前記上限値は、電子機器に対してコマンド入力を行う際の発話音声の発話速度の出現頻度の分布と人同士の会話音声の発話速度の出現頻度の分布とから定められる
    ことを特徴とする音声認識装置。
  2. 前記発話速度算出手段は、前記コマンド候補選択手段により選択されたコマンド候補の各々について単位時間当たりの音素数をそのコマンド候補の発話速度として算出し、
    前記コマンド候補絞込み手段は、前記各コマンド候補についてその発話速度と前記マイクロホンの出力信号の示す音声の発話速度との一致度が低いほどそのスコア値を小さな値に補正し、補正後のスコア値が所定の閾値を下回っているものをコマンド候補から除外す
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 前記発話速度算出手段は、発話速度の算出対象となる音声の変調スペクトルを算出し、当該変調スペクトルが最大となる周波数を当該音声の発話速度として出力することを特徴とする請求項1または2の何れかに記載の音声認識装置。
  4. 前記マイクロホンの出力信号の表す音声の発話速度が前記上限値を超えている場合には、当該音声は前記1または複数のコマンドの何れの発話音声でもないと判定する判定手段をさらに有することを特徴とする請求項1から3の何れか1に記載の音声認識装置。
JP2009277698A 2009-12-07 2009-12-07 音声認識装置 Expired - Fee Related JP5532880B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009277698A JP5532880B2 (ja) 2009-12-07 2009-12-07 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009277698A JP5532880B2 (ja) 2009-12-07 2009-12-07 音声認識装置

Publications (2)

Publication Number Publication Date
JP2011118290A JP2011118290A (ja) 2011-06-16
JP5532880B2 true JP5532880B2 (ja) 2014-06-25

Family

ID=44283675

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009277698A Expired - Fee Related JP5532880B2 (ja) 2009-12-07 2009-12-07 音声認識装置

Country Status (1)

Country Link
JP (1) JP5532880B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112014007015B4 (de) * 2014-09-30 2021-01-14 Mitsubishi Electric Corporation Spracherkennungssystem
EP3447728A4 (en) * 2016-04-22 2019-05-01 Panasonic Intellectual Property Management Co., Ltd. MOVEMENT VIDEO SEGMENTATION METHOD, MOVEMENT VIDEO SEGMENTATION DEVICE, AND MOTION VIDEO PROCESSING SYSTEM
WO2018163378A1 (ja) 2017-03-09 2018-09-13 ヤマハ株式会社 操作装置、コマンド処理装置、及びコンテンツ再生システム
TW201921336A (zh) 2017-06-15 2019-06-01 大陸商北京嘀嘀無限科技發展有限公司 用於語音辨識的系統和方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3532248B2 (ja) * 1994-07-12 2004-05-31 三菱電機株式会社 学習音声パタンモデル使用音声認識装置
JP3042585B2 (ja) * 1995-01-30 2000-05-15 富士通テン株式会社 音声認識装置
JPH1049194A (ja) * 1996-07-30 1998-02-20 Aqueous Res:Kk 音声認識装置
JPH10124090A (ja) * 1996-10-24 1998-05-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法およびこの方法を実施する装置
JP4517457B2 (ja) * 2000-06-13 2010-08-04 カシオ計算機株式会社 音声認識装置、及び音声認識方法
JP2003308091A (ja) * 2002-04-17 2003-10-31 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
JP4239479B2 (ja) * 2002-05-23 2009-03-18 日本電気株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP4752516B2 (ja) * 2006-01-12 2011-08-17 日産自動車株式会社 音声対話装置および音声対話方法

Also Published As

Publication number Publication date
JP2011118290A (ja) 2011-06-16

Similar Documents

Publication Publication Date Title
JP6024180B2 (ja) 音声認識装置、音声認識方法、及びプログラム
EP1936606B1 (en) Multi-stage speech recognition
JP5621783B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
CN111566729A (zh) 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
EP1701338B1 (en) Speech recognition method
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
US8731925B2 (en) Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
EP2048655A1 (en) Context sensitive multi-stage speech recognition
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JPH11153999A (ja) 音声認識装置及びそれを用いた情報処理装置
JP2004198831A (ja) 音声認識装置および方法、プログラム、並びに記録媒体
JP5532880B2 (ja) 音声認識装置
JP3611223B2 (ja) 音声認識装置及び方法
JPH11184491A (ja) 音声認識装置
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP5549166B2 (ja) 音声処理装置、プログラム
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP3615088B2 (ja) 音声認識方法及び装置
JP5157474B2 (ja) 音処理装置およびプログラム
JP2008216618A (ja) 音声判別装置
JP4749990B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

R150 Certificate of patent or registration of utility model

Ref document number: 5532880

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140414

LAPS Cancellation because of no payment of annual fees