JP2006084664A - 音声認識装置および音声認識プログラム - Google Patents
音声認識装置および音声認識プログラム Download PDFInfo
- Publication number
- JP2006084664A JP2006084664A JP2004268182A JP2004268182A JP2006084664A JP 2006084664 A JP2006084664 A JP 2006084664A JP 2004268182 A JP2004268182 A JP 2004268182A JP 2004268182 A JP2004268182 A JP 2004268182A JP 2006084664 A JP2006084664 A JP 2006084664A
- Authority
- JP
- Japan
- Prior art keywords
- instantaneous frequency
- feature quantity
- likelihood
- calculated
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】 韻律に基づいた新規な音声認識方法を提供する。
【解決手段】 車両用ナビゲーション装置が、音声認識プログラム30を実行することで、入力された音声信号から音響特徴量を算出しおよび瞬時周波数特徴量を算出し(音響分析部31、瞬時周波数分析部32)、算出した音響特徴量に基づいて、複数の認識候補語の音韻尤度を算出し(音韻尤度計算部33、音素HMM部34)、算出した瞬時周波数特徴量に基づいて、複数の認識候補語の韻律尤度を算出し(韻律尤度計算部35、韻律HMM部36)、算出した音韻尤度と韻律尤度に基づいて、認識候補となる語の結合尤度を算出し、複数の認識候補語のうちから、算出した結合尤度の最も高い1つを選択する。
【選択図】 図2
【解決手段】 車両用ナビゲーション装置が、音声認識プログラム30を実行することで、入力された音声信号から音響特徴量を算出しおよび瞬時周波数特徴量を算出し(音響分析部31、瞬時周波数分析部32)、算出した音響特徴量に基づいて、複数の認識候補語の音韻尤度を算出し(音韻尤度計算部33、音素HMM部34)、算出した瞬時周波数特徴量に基づいて、複数の認識候補語の韻律尤度を算出し(韻律尤度計算部35、韻律HMM部36)、算出した音韻尤度と韻律尤度に基づいて、認識候補となる語の結合尤度を算出し、複数の認識候補語のうちから、算出した結合尤度の最も高い1つを選択する。
【選択図】 図2
Description
本発明は、音声認識装置および音声認識プログラムに関する。
従来、音声認識においては、「旦那」と「パンダ」、「橋」と「箸」等、韻律(具体的には高低アクセント)が異なるため人間が聴くと容易に区別できるにもかかわらず、音素列が似ているために区別が難しいような単語がある。
このような問題を解決するための方法として、例えば音声の基本周波数に関する情報を用いて音声認識性能を向上させる方法が提案されている。
例えば特許文献1には、音声信号の音響特徴量と基本周波数の微分係数を求め、それらをマルチストリームとして用いて単語音声認識を行う技術が開示されている。この特許文献1においては、基本周波数の微分係数は時間−ケプストラム平面のハフ変換により計算するようになっている。
岩野、関、古井、「雑音に頑健な音声認識のための韻律情報の利用」、情報処理学会研究報告、2003年5月27日、Vol.2003、No.58、p55-60
しかし、基本周波数を用いて音声認識を行う方法には、いくつかの問題点がある。例えば、特許文献1の技術では、ケプストラムを用いるため、正確な計算を行うには、広い周波数の情報が必要であるという問題がある。また、特許文献1の技術では、ハフ変換を用いるため、計算量が多いという問題がある。
本発明は上記点に鑑み、韻律に基づいた新規な音声認識方法を提供することを目的とする。
上記目的を達成するための請求項1に記載の発明は、入力された音声信号から音響特徴量を算出する音響特徴量算出手段と、前記音声信号から瞬時周波数特徴量を算出する瞬時周波数特徴量算出手段と、前記音響特徴量算出手段が算出した音響特徴量および前記瞬時周波数特徴量算出手段が算出した瞬時周波数特徴量に基づいて、前記音声信号の音声認識を行う認識手段と、を備えた音声認識装置である。
このようになっているので、音声認識装置は、入力された音声信号から算出した音響特徴量および瞬時周波数特徴量に基づいて、音声信号の音声認識を行う。このように、瞬時周波数特徴量を用いて音声認識を行うことで、韻律に基づく音声認識が可能となる。
また、瞬時周波数の計算には、ハフ変換を必要としないので、計算量が少なくて済む。また、入力信号の全周波数帯域を用いて音声認識を行う必要がない。
なお、瞬時周波数特徴量とは、瞬時周波数そのもの、瞬時周波数の微分係数等、瞬時周波数によって特徴づけられる量をいう。
また、請求項2に記載の発明は、請求項1に記載の音声認識装置において、前記認識手段は、前記音響特徴量算出手段が算出した音響特徴量に基づいて、複数の認識候補語の音韻尤度を算出する音韻尤度算出手段と、前記瞬時周波数特徴量算出手段が算出した瞬時周波数特徴量に基づいて、複数の認識候補語の韻律尤度を算出する韻律尤度算出手段と、前記音韻尤度算出手段が算出した音韻尤度と、前記韻律尤度算出手段が算出した韻律尤度に基づいて、認識候補となる語の結合尤度を算出し、算出した結合尤度に基づいて、前記複数の認識候補語のうちから1つを選択することで、前記音声信号の音声認識を行う結合尤度算出手段と、を備えたことを特徴とする。
また、請求項3に記載の発明は、請求項1または2に記載の音声認識装置において、入力された音声信号に対して、独立に第1の雑音抑制および第2の雑音抑制を施す雑音抑制手段を備え、前記音響特徴量算出手段は、前記入力された音声信号に対して前記雑音抑制手段が前記第1の雑音抑制を施した信号から音響特徴量を算出し、前記瞬時周波数特徴量算出手段は、入力された音声信号に対して前記雑音抑制手段が前記第2の雑音抑制を施した信号から瞬時周波数特徴量を算出し、前記第1の雑音抑制は、前記第2の雑音抑制よりも前記音声信号中の音響特徴量の保存度合いが高く、前記第2の雑音抑制は、前記第1の雑音抑制よりも前記音声信号中の瞬時周波数特徴量の保存度合いが高いことを特徴とする。
このようになっているので、音響特徴量と瞬時周波数特徴量のそれぞれの特徴に応じた雑損抑制を行うことができる。
また、請求項4に記載の発明は、請求項3に記載の音声認識装置において、前記雑音抑制手段は、前記第1の雑音制御において、第1の減算パラメータを用いてスペクトルサブトラクション法を適用し、前記第2の雑音制御において、第1の減算パラメータより大きい第2の減算パラメータを用いてスペクトルサブトラクション法を適用することを特徴とする。
また、請求項5に記載の発明は、請求項1ないし4のいずれか1つに記載の音声認識装置において、入力された音声信号の雑音分析を行う雑音分析手段と、前記雑音分析手段の分析結果に基づいて、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量の算出に用いる音声信号の周波数帯域を制限する帯域制限手段と、を備えたことを特徴とする。
このように、雑音分析結果に基づいて使用周波数帯域を制限することで、雑音抑制の効果が高まる。
また、請求項6に記載の発明は、請求項5に記載の音声認識装置において、前記雑音分析手段は、入力された音声信号の周波数毎のS/N比を算出し、前記帯域制限手段は、前記雑音分析手段が算出したS/N比が基準値以下の周波数を、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量の算出に用いる音声信号の周波数帯域から除外することを特徴とする。
このように、周波数毎のS/Nに基づいて使用周波数帯域を制限することで、雑音抑制の効果が高まる。
また、請求項7に記載の発明は、請求項1ないし5のいずれか1つに記載の音声認識装置において、入力された音声信号の雑音分析を行う雑音分析手段と、前記雑音分析手段の分析結果に基づいて、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量を算出する対象の音声信号の、周波数毎の前記周波数特徴量への寄与度を決定する重み付け決定手段と、を備えたことを特徴とする。
このように、雑音分析結果に基づいて、入力された音声信号の、周波数毎の周波数特徴量への寄与度を決定することで、雑音抑制の効果が高まる。
また、請求項8に記載の発明は、請求項7に記載の音声認識装置において、前記雑音分析手段は、入力された音声信号の周波数毎のS/N比を算出し、前記重み付け手段は、前記雑音分析手段が算出したS/N比に基づいて、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量を算出する対象の音声信号の、周波数毎の前記周波数特徴量への寄与度を決定することを特徴とする。
このように、周波数毎のS/N比に基づいて、入力された音声信号の、周波数毎の周波数特徴量への寄与度を決定することで、雑音抑制の効果が高まる。
また、請求項9に記載の発明は、請求項8に記載の音声認識装置において、前記寄与度は、入力された音声信号の周波数ω毎のS/N比であるSN(ω)より寄与度=SN(ω)/(1+SN(ω))と計算されることを特徴とする。
また、請求項10に記載の発明は、入力された音声信号から音響特徴量を算出する音響特徴量算出手段、前記音声信号から瞬時周波数特徴量を算出する瞬時周波数特徴量算出手段、および前記音響特徴量算出手段が算出した音響特徴量および前記瞬時周波数特徴量算出手段が算出した瞬時周波数特徴量に基づいて、前記音声信号の音声認識を行う認識手段として、コンピュータを機能させる音声認識プログラムである。
このように、音声認識プログラムとしても、本発明の特徴を実現することができる。
(第1実施形態)
以下、本発明の第1実施形態について説明する。図1に、本実施形態の音声認識装置としての車両用ナビゲーション装置1のハードウェア構成を示す。
以下、本発明の第1実施形態について説明する。図1に、本実施形態の音声認識装置としての車両用ナビゲーション装置1のハードウェア構成を示す。
この車載用ナビゲーション装置1は、位置検出器11、操作スイッチ群12、画像表示装置13、スピーカ14、RAM16、ROM17、外部記憶媒体18、制御回路19、マイク21、およびA/D変換器22を有している。
位置検出器11は、いずれも周知の図示しない地磁気センサ、ジャイロスコープ、車速センサ、およびGPS受信機等のセンサを有しており、これらセンサの各々の性質に基づいた、車両の現在位置や向きを特定するための情報を制御回路19に出力する。
操作スイッチ群12は、車両用ナビゲーション装置1に設けられた複数のメカニカルスイッチ、画像表示装置13の表示面に重ねて設けられたタッチパネル等の入力装置から成り、ユーザによるメカニカルスイッチの押下、タッチパネルのタッチに基いた信号を制御回路19に出力する。
画像表示装置13は、制御回路19から出力された映像信号に基いた映像をユーザに表示する。表示映像としては、例えば現在地を中心とする地図等がある。
A/D変換器22は、マイク21から入力されたユーザのアナログ音声信号をデジタルデータに変換して制御回路19に出力する回路である。
外部記憶媒体18は、HDD等の不揮発性の記憶媒体であり、制御回路19が読み出して実行するプログラム、経路案内用の地図データ、認識辞書データ等を記憶している。
認識辞書データは、単語毎のエントリを有するテーブルであり、各エントリは、単語の文字列データ、その単語の読み仮名データ、その単語の韻律種別データを1つずつ有している。単語の文字列データとは、「橋」「箸」「自動車」「東京」等、その単語の文字列のデータである。単語の読み仮名データとは、「はし」、「じどうしゃ」、「とうきょう」等、その単語の読み仮名の文字列を示すデータである。単語の韻律種別データとは、例えばアクセントの低→低、高→低、低→高、高→高→低、高→低→高、低→中→高等、韻律についての複数の時間変化パターンのうち、その単語がどの時間変化パターンに属するかを示すデータである。
制御回路(コンピュータに相当する)19は、ROM17および外部記憶媒体18から読み出した車両用ナビゲーション装置1の動作のためのプログラムを実行し、その実行の際にはRAM16、ROM17、および外部記憶媒体18から情報を読み出し、RAM16および外部記憶媒体18に対して情報の書き込みを行い、位置検出器11、操作スイッチ群12、画像表示装置13、スピーカ14、A/D変換器22と信号の授受を行う。
制御回路19がプログラムを実行することによって行う具体的な処理としては、現在位置特定処理、案内経路探索処理、経路案内処理等がある。
現在位置特定処理は、位置検出器11からの信号に基いて、周知のマップマッチング等の技術を用いて車両の現在位置や向きを特定する処理である。
案内経路探索処理は、操作スイッチ群12からユーザによる目的地の入力を受け付け、現在位置から当該目的地までの最適な案内経路を算出する処理である。
経路案内処理は、外部記憶媒体18から地図データを読み出し、算出された案内経路、目的施設、経由施設、現在位置等をこの地図データの示す地図上に重ねた画像を、画像表示装置13に出力し、案内交差点の手前に自車両が到達した等の必要時に、右折、左折等を指示する案内音声信号をスピーカ14に出力する処理である。
これらの処理において、制御回路19は、A/D変換器22から入力された音声データに対して音声認識処理を行うことで、その音声データが示す単語または単語列を特定し、その単語または単語列の内容に基づいた処理を実行する。例えば、制御回路19は、音声認識処理によって特定した単語列が「経路探索」「経路案内」等の、特定の処理を実行するための文字列であった場合、その処理のためのプログラムの実行を開始する。また例えば、制御回路19は、上述の案内経路探索処理の目的地入力の段階において、音声認識処理が「志賀高原」「奈良東大寺」等の、地名を示す単語列を特定した場合、その地名を目的地として案内経路の探索を開始する。
このような音声認識処理を実行するために、制御回路19が常時実行する音声認識プログラム30の構成を、図2に示す。音声認識プログラム30は、音響分析部31、瞬時周波数分析部32、音韻尤度計算部33、音素HMM部34、韻律尤度計算部35、韻律HMM部36、および結合尤度計算部37を有している。以下、制御回路19がこれら音声認識プログラム30の各部を実行することで行う作動を、それら各部自体の作動であるとして説明する。
音響分析部31は、A/D変換器22から入力のあった音声信号に対して周知の音響分析を行うことで、人の口の形状変化や舌の位置変化を反映する音響特徴量を算出する。
瞬時周波数分析部32は、A/D変換器22から入力のあった音声信号に対して瞬時周波数分析を行うことで、瞬時周波数の微分係数を算出する。この算出は、具体的には、入力のあった音声信号をx(t)(ただしtは時間を示す)とすると、これに対して
また、α(ω、t)は、重み付け関数である。この重み付け関数は、瞬時周波数特徴量の算出に用いる音声信号の、周波数毎の周波数特徴量への寄与度を決定することになる。すなわち、ある角周波数ωの値において値αが大きいほど、音声信号のその角周波数の成分の、周波数特徴量の算出への寄与度が高くなる。重み付け関数の具体例としては、例えば、α(ω、t)≡1であってもよい。
また、数3中のejωτX(ω、t)は、1に置き換えられてもよい。
音韻尤度計算部33は、音響分析部31が算出した音響特徴量に基づいて、複数の認識候補単語の音韻尤度を算出する。ここでは、認識候補単語とは、上述した認識辞書中の各エントリに対応する単語である。音韻尤度計算部33は、この算出のために、音素HMM部34および上述の認識辞書データを用いる。
音素HMM部34は、「あ」、「い」、「う」等の複数の音素のそれぞれに対応して1つずつ音素尤度計算部を有している。各音素尤度計算部は、入力された音響特徴量の、対応する音素に対する尤度を、音声認識アルゴリズムの1つであるHMM(隠れマルコフモデル)を用いて算出する。
音韻尤度計算部33はこれらを用い、認識辞書の各エントリ中の単語に対応する尤度計算を行うために、このエントリ中の読み仮名データが示す音素の並びに基づいて、音素HMM部34の各音素HMMを連結して単語HMMを作成することによって、認識辞書の各単語に対応する単語尤度計算部が作成される。そして音韻尤度計算部33は、このようにして作成した各単語に対する単語尤度計算部のすべてに対して、音響分析部31が算出した音響特徴量を入力し、それによってそれぞれの単語尤度計算部が算出した尤度を、各認識候補単語の音韻尤度とする。なお、単語尤度計算部は、車両用ナビゲーション装置1の出荷時にあらかじめ作成されていてもよいし、学習機能を用いることで車両用ナビゲーション装置1の使用と共に逐次更新されていくようになっていてもよい。
韻律尤度計算部35は、瞬時周波数分析部32が算出した瞬時周波数特徴量に基づいて、複数の認識候補単語の韻律尤度を算出する。このために、韻律尤度計算部35は、韻律HMM部36を用いる。
韻律HMM部36は、韻律についての複数の時間変化パターンのそれぞれ(以下韻律種別)に対応して1つずつ韻律種別尤度計算部を有している。各韻律種別尤度計算部は、入力された瞬時周波数特徴量の、対応する韻律種別に対する尤度を、HMMを用いて算出する。なお、韻律種別尤度計算部は、車両用ナビゲーション装置1の出荷時にあらかじめ作成されていてもよいし、学習機能を用いることで車両用ナビゲーション装置1の使用と共に逐次更新されていくようになっていてもよい。
これを用いる韻律尤度計算部35は、認識辞書の各エントリ中の単語に対応する尤度計算を行うために、瞬時周波数分析部32が算出した瞬時周波数特徴量を、韻律HMM部36の韻律種別尤度計算部のすべてに入力し、その結果これらが算出した韻律種別に対する尤度を、その韻律種別を韻律種別データとして有する単語の韻律尤度であるとする。
結合尤度計算部37は、音韻尤度計算部33が算出した音響特徴量および韻律尤度計算部35が算出した瞬時周波数特徴量をマルチストリームとして用いることで、認識辞書の各認識候補単語の結合尤度を算出し、算出した結合尤度に基づいて、複数の認識候補単語のうちから1つを選択する。具体的には、認識辞書中の各エントリ毎に、そのエントリの単語に対する音韻尤度に韻律尤度を乗算し、その乗算結果を結合尤度とする。そして、認識辞書中の結合尤度の最も高い1つを選択し、それを認識結果の単語とする。
なお、単語の結合尤度は、必ずしもその単語の音韻尤度と韻律尤度との乗算結果である必要はなく、その単語の音韻尤度と韻律尤度との関数であって、音韻尤度が高い程大きくなり、かつ、韻律尤度が高いほど高くなるような量であればよい。例えば、結合尤度は、音韻尤度をγ乗したものに、韻律尤度を(1−γ)乗したものを乗算した結果であるとしてもよい(ただしγは重み付け用の定数であり、0<γ<1である)。
このような処理を行うために音声認識プログラム30の各部31〜37は、それぞれが制御回路19によって並列的に実行され、その処理のために必要なデータを互いに授受するようになっていてもよいし、図3のフローチャートに示すような順で時系列に沿って実行されるようになっていてもよい。すなわち、制御回路19による音声認識プログラム30の実行においては、まず音響分析部31が入力された音声信号から音響特徴量を算出し(ステップ110)、続いて音韻尤度計算部33が音韻尤度を算出し(ステップ120)、続いて瞬時周波数分析部32が瞬時周波数特徴量を算出し(ステップ130)、続いて韻律尤度計算部35が韻律尤度を算出し(ステップ140)、続いて結合尤度計算部37が結合尤度を算出して音声認識結果の単語を特定する(ステップ150)ようになっていてもよい。
ここで、以上のような車両用ナビゲーション装置1に対して、例えばユーザが音声で「箸」という音声を、マイク21を用いて入力した場合を考える。この場合、音韻尤度計算部33は、「はし」という読み仮名を有する認識辞書中の単語に対して最も高い音韻尤度を算出する。「はし」の読みを有する単語は例えば「箸」、「橋」等、複数あるので、音韻尤度計算部33は、これらの単語に対しては同じ音韻尤度を算出する。
一方、「箸」と「橋」とは、韻律種別が異なる。図4および図5に、それぞれ「箸」の音声信号の瞬時周波数の微分係数の時間変化、および「橋」の音声信号の瞬時周波数の微分係数の時間変化を、横軸を時間、縦軸を微分係数とするグラフで示す。この図に見られるように、箸の場合は、は→しにかけてその高低アクセントが高→低となるので、その瞬時周波数の微分係数は負の値となる。また、橋の場合は、は→しにかけてその高低アクセントが低→高となるので、その瞬時周波数の微分係数は正の値となる。
したがって、音響分析部31は、図4に示すような瞬時周波数特徴量を算出し、音韻尤度計算部33は、この音響特徴量に対して、高→低となるような高低アクセント変化に相当する韻律種別を有する単語に対して、最も高い韻律尤度を算出する。従って、「箸」という単語の韻律尤度は、「橋」という単語の韻律尤度よりも高くなる。
結合尤度計算部37は、これら音韻尤度計算部33および韻律尤度計算部35の算出結果に基づいて、各単語の結合尤度を算出する。図6に、「箸」という音声がユーザによって入力された場合の、音韻尤度、韻律尤度、結合尤度の関係の一例を、表として示す。上述したとおり、この場合における単語「箸」に対する音韻尤度と単語「橋」に対する音韻尤度とは同じであり(図6の例では0.2)、この場合における単語「箸」に対する韻律尤度(図6の例では0.1)は、単語「橋」に対する韻律尤度(図6の例では0.05)より高い。したがって、結合尤度計算部37が算出する単語「箸」に対する結合尤度(図6の例では0.02)は、単語「橋」に対する韻律尤度(図6の例では0.01)より高い。
このように、車両用ナビゲーション装置1は、読み仮名が同じで韻律が異なる単語を音声認識で区別することができる。そして、韻律に基づいた音声認識のために、瞬時周波数特徴量を用いるので、例えば、韻律に基づいた音声認識のために基本周波数の微分係数を時間−ケプストラム平面のハフ変換による計算する方法に比べ、ケプストラムを用いないので、入力された音声信号の周波数の全帯域を用いて計算する必要がなく、また、ハフ変換を用いないため、計算量が少なく済む。
(第2実施形態)
次に、本発明の第2実施形態について説明する。図7に、本実施形態における音声認識プログラム30の構成図を示す。本実施形態が第1実施形態と異なるのは、制御回路19が実行する音声認識プログラム30が、更に雑音抑圧部38を有していることである。
(第2実施形態)
次に、本発明の第2実施形態について説明する。図7に、本実施形態における音声認識プログラム30の構成図を示す。本実施形態が第1実施形態と異なるのは、制御回路19が実行する音声認識プログラム30が、更に雑音抑圧部38を有していることである。
雑音抑圧部38は、入力された音声信号に対して、独立に第1の雑音抑制および第2の雑音抑制を施す。ここで、第1の雑音抑制は、音響分析部31の処理にとって適した雑音抑制であり、第2の雑音抑制は、瞬時周波数分析部32の処理にとって適した雑音抑制である。そして、音響分析部31は、雑音抑圧部38が第1および第2の雑音抑制のうち第1の雑音抑制のみを施した信号から、第1実施形態と同様に音響特徴量を算出し、瞬時周波数分析部32は、雑音抑圧部38が第1および第2の雑音抑制のうち第2の雑音抑制のみを施した信号から、第1実施形態と同様に瞬時周波数特徴量を算出する。
以下、第1および第2の雑音抑制について説明する。第1の雑音抑制は、第2の雑音抑制よりも音声信号中の音響特徴量の保存度合いが高く、第2の雑音抑制は、第1の雑音抑制よりも音声信号中の瞬時周波数特徴量の保存度合いが高い。
具体的には、雑音抑圧部38は、これら雑音抑制において、スペクトルサブトラクションを用いる。このスペクトルサブトラクションにおいては、非音声区間における信号、すなわち音声が発されていない状態におけるマイク21、A/D変換器22からの入力信号の周波数毎の強度データ、すなわち推定雑音データをあらかじめ外部記憶媒体18に記憶させておき、音声の雑音抑制の際には、A/D変換器22から入力のあった音声信号の周波数毎の音声信号強度から、この推定雑音データに所定の係数βを乗算した値を減算する。なお、減算の結果、負となった周波数成分については、その値をゼロに変更する。
ここで、βを大きい値に設定すると、雑音抑制効果が高くなるが、音響特徴量が欠落する度合いが大きくなる。しかし、瞬時周波数特徴量は、βの値が大きくなっても、その情報が欠落する度合いが、音響特徴量に比べて少ない。
この特性を利用して、本実施形態では、第1の雑音抑制と、第2の雑音抑制とでは、用いる定数βが異なるようにしている。具体的には、第1の雑音抑制に用いるβを第1の正係数β1、第2の雑音抑制に用いるβを第2の正係数β2とすると、0<β1<β2としている。例えば、β1としては1.5を、β2としては2.0を用いる。
このような処理を行うために音声認識プログラム30の各部31〜38は、それぞれが制御回路19によって並列的に実行され、その処理のために必要なデータを互いに授受するようになっていてもよいし、図8のフローチャートに示すような順で時系列に沿って実行されるようになっていてもよい。すなわち、制御回路19は、制御回路19による音声認識プログラム30の実行においては、まず雑音抑圧部38が入力された音声信号に対して第1の雑音抑制を行い(ステップ102)、続いて雑音抑圧部38が入力された音声信号に対して、第1の雑音抑制とは独立に第2の雑音抑制を行い(ステップ104)、続いて音響分析部31が第1の雑音抑制が施された音声信号から音響特徴量を算出し(ステップ110)、続いて音韻尤度計算部33が音韻尤度を算出し(ステップ120)、続いて瞬時周波数分析部32が第2の雑音抑制が施された音声信号から瞬時周波数特徴量を算出し(ステップ130)、続いて韻律尤度計算部35が韻律尤度を算出し(ステップ140)、続いて結合尤度計算部37が結合尤度を算出して音声認識結果の単語を特定する(ステップ150)ようになっていてもよい。
このようにすることで、第1実施形態の効果に加え、車両用ナビゲーション装置1は、音響分析部31では、第2の雑音抑制よりも音響特徴量の欠落の少ない第1の雑音抑制の結果を用いて音響特徴量を算出し、瞬時周波数分析部32では、第1の雑音抑制よりもより雑音抑制効果の高い第2の雑音抑制の結果を用いて、瞬時周波数を算出することができる。
(第3実施形態)
次に、本発明の第3実施形態について説明する。図9に、本実施形態における音声認識プログラム30の構成図を示す。本実施形態が第2実施形態と異なるのは、制御回路19が実行する音声認識プログラム30が、雑音抑圧部38に代えて雑音分析・抑圧部39を有し、更に計算帯域決定部40を有していることである。
(第3実施形態)
次に、本発明の第3実施形態について説明する。図9に、本実施形態における音声認識プログラム30の構成図を示す。本実施形態が第2実施形態と異なるのは、制御回路19が実行する音声認識プログラム30が、雑音抑圧部38に代えて雑音分析・抑圧部39を有し、更に計算帯域決定部40を有していることである。
雑音分析・抑圧部39は、第2実施形態で示した雑音抑圧部38の機能に加え、A/D変換器22から入力された音声信号の雑音分析処理を行う。雑音分析処理とは、入力された音声信号中に含まれる雑音量についての定量的計算である。本実施形態においては、この雑音分析処理として、周波数毎のS/N比計算を行う。具体的には、上述のように外部記憶媒体18に記憶された推定雑音データに基づいて、入力された音声信号の周波数毎の信号部分の強度Sおよび雑音部分の強度Nを算出し、その比を算出する。
計算帯域決定部40は、雑音分析・抑圧部39の雑音分析結果に基づいて、瞬時周波数分析部32が瞬時周波数特徴量の算出に用いる音声信号の周波数帯域を制限する。具体的には、雑音分析・抑圧部39が算出した周波数毎のS/N比に基づいて、S/N比が基準値より低くなっている周波数帯域を、瞬時周波数の微分係数の計算のための周波数領域から除外する。すなわち、第1実施形態の積分区間ω0≦ω≦ω1から、S/N比が基準値より低くなっている角周波数帯域を除外する。
このような処理を行うために音声認識プログラム30の各部31〜40は、それぞれが制御回路19によって並列的に実行され、その処理のために必要なデータを互いに授受するようになっていてもよいし、図10のフローチャートに示すような順で時系列に沿って実行されるようになっていてもよい。すなわち、制御回路19は、制御回路19による音声認識プログラム30の実行においては、まず雑音抑圧部38が入力された音声信号に対して第1の雑音抑制を行い(ステップ102)、続いて雑音抑圧部38が入力された音声信号に対して、第1の雑音抑制とは独立に第2の雑音抑制を行い(ステップ104)、続いて音響分析部31が第1の雑音抑制が施された音声信号から音響特徴量を算出し(ステップ110)、続いて音韻尤度計算部33が音韻尤度を算出し(ステップ120)、続いて計算帯域決定部40が上述の通り周波数帯域を制限し(ステップ125)、続いて瞬時周波数分析部32が第2の雑音抑制が施された音声信号から瞬時周波数特徴量を算出し(ステップ130)、続いて韻律尤度計算部35が韻律尤度を算出し(ステップ140)、続いて結合尤度計算部37が結合尤度を算出して音声認識結果の単語を特定する(ステップ150)ようになっていてもよい。
このようにすることで、雑音分析結果に基づいて使用周波数帯域を制限することで、雑音抑制の効果が高まる。例えば、雑音の多い低周波数帯域を、瞬時周波数の微分係数の計算領域から自動的に除外することが可能となる。
(第4実施形態)
次に、本発明の第4実施形態について説明する。図11に、本実施形態における音声認識プログラム30の構成図を示す。本実施形態が第3実施形態と異なるのは、制御回路19が実行する音声認識プログラム30が、計算帯域決定部40に代えて重み付け決定部41を有していることである。
(第4実施形態)
次に、本発明の第4実施形態について説明する。図11に、本実施形態における音声認識プログラム30の構成図を示す。本実施形態が第3実施形態と異なるのは、制御回路19が実行する音声認識プログラム30が、計算帯域決定部40に代えて重み付け決定部41を有していることである。
重み付け決定部41は、雑音分析・抑圧部39の雑音分析結果に基づいて、瞬時周波数分析部32が瞬時周波数特徴量を算出する対象の音声信号の、周波数毎の周波数特徴量への寄与度、すなわち周波数毎の重み付けを決定する。
具体的には、重み付け決定部41は、雑音分析・抑圧部39の算出した周波数毎のS/N比SN(ω)に基づいて、第1実施形態で示した数3中の重み付け関数α(ω、t)を、SN(ω)/(1+SN(ω))の計算結果とする。この計算結果は、A/D変換器22から入力された音声信号の各周波数において、信号成分のパワーを、(信号成分のパワー+雑音成分のパワー)で除算した値と同等である。
このような処理を行うために音声認識プログラム30の各部31〜41は、それぞれが制御回路19によって並列的に実行され、その処理のために必要なデータを互いに授受するようになっていてもよいし、図12のフローチャートに示すような順で時系列に沿って実行されるようになっていてもよい。すなわち、制御回路19は、制御回路19による音声認識プログラム30の実行においては、まず雑音抑圧部38が入力された音声信号に対して第1の雑音抑制を行い(ステップ102)、続いて雑音抑圧部38が入力された音声信号に対して、第1の雑音抑制とは独立に第2の雑音抑制を行い(ステップ104)、続いて音響分析部31が第1の雑音抑制が施された音声信号から音響特徴量を算出し(ステップ110)、続いて音韻尤度計算部33が音韻尤度を算出し(ステップ120)、続いて重み付け決定部41が上述の通り重み付けを決定し(ステップ126)、続いて瞬時周波数分析部32が第2の雑音抑制が施された音声信号から瞬時周波数特徴量を算出し(ステップ130)、続いて韻律尤度計算部35が韻律尤度を算出し(ステップ140)、続いて結合尤度計算部37が結合尤度を算出して音声認識結果の単語を特定する(ステップ150)ようになっていてもよい。
このように、雑音分析結果に基づいて、入力された音声信号の、周波数毎の周波数特徴量への寄与度を決定することで、雑音抑制の効果が高まる。
なお、上記の各実施形態における構成要素と特許請求の範囲における構成要素との対応関係は以下の通りである。すなわち、制御回路19が、音響分析部31を実行することで、音響特徴量算出手段として機能する。また、制御回路19が、瞬時周波数分析部32を実行することで、瞬時周波数特徴量算出手段として機能する。また、制御回路19が、音韻尤度計算部33、音素HMM部34、韻律尤度計算部35、韻律HMM部36、および結合尤度計算部37を実行することで、認識手段として機能する。
また、制御回路19が、音韻尤度計算部33および音素HMM部34を実行することで音韻尤度算出手段として機能する。また、制御回路19が、韻律尤度計算部35および韻律HMM部36を実行することで、韻律尤度算出手段として機能する。また、制御回路19が、結合尤度計算部37を実行することで、結合尤度算出手段として機能する。
また、制御回路19が、雑音抑圧部38、および雑音分析・抑圧部39の雑音抑制部分(各フローチャートのステップ102および104に相当する)を実行することで、雑音抑制手段として機能する。また、制御回路19が、雑音分析・抑圧部39の雑音分析部分(各フローチャートのステップ101に相当する)を実行することで、雑音分析手段として機能する。
また、制御回路19が、計算帯域決定部40を実行することで、帯域制限手段として機能する。また、制御回路19が、重み付け決定部41を実行することで、重み付け決定手段として機能する。
(他の実施形態)
上記の各実施形態においては、音声認識プログラム30を制御回路19が実行することで、図2、7、9、11に示すような各機能が実現されているが、音響分析部31、瞬時周波数分析部32、音韻尤度計算部33、音素HMM部34、韻律尤度計算部35、韻律HMM部36、結合尤度計算部37、雑音抑圧部38、雑音分析・抑圧部39、計算帯域決定部40、重み付け決定部41は、それぞれが個々の機能を実現する回路を有するハードウェアとして実現されていてもよい。これらの機能を実現するハードウェアとしては、例えば回路構成がプログラム可能なFPGA(Field Programable Gate Array)等がある。
(他の実施形態)
上記の各実施形態においては、音声認識プログラム30を制御回路19が実行することで、図2、7、9、11に示すような各機能が実現されているが、音響分析部31、瞬時周波数分析部32、音韻尤度計算部33、音素HMM部34、韻律尤度計算部35、韻律HMM部36、結合尤度計算部37、雑音抑圧部38、雑音分析・抑圧部39、計算帯域決定部40、重み付け決定部41は、それぞれが個々の機能を実現する回路を有するハードウェアとして実現されていてもよい。これらの機能を実現するハードウェアとしては、例えば回路構成がプログラム可能なFPGA(Field Programable Gate Array)等がある。
また、上記の実施形態においては、瞬時周波数特徴量の一具体例としての瞬時周波数微分係数の計算において、周波数帯域の積分区間が限定されることで、瞬時周波数特徴量の算出のために用いる音声信号の周波数帯域が制限されているが、音声信号の周波数帯域の制限は、必ずしもこのようなものに限らない。例えば、A/D変換器22からの入力信号のうち、ある周波数区間の信号のみを取り出す周知のバンドパスフィルタを車両用ナビゲーション装置1が備え、瞬時周波数分析部32は、このバンドパスフィルタの出力に基づいて瞬時周波数特徴量(瞬時周波数、瞬時周波数の1階微分、2階微分等)を算出してもよい。この場合、当該バンドパスフィルタが、帯域制限手段に相当する。
また、上記の実施形態においては、瞬時周波数特徴量の一具体例としての瞬時周波数微分係数の計算において、重み付け関数α(ω、t)によって、瞬時周波数特徴量を算出する対象の音声信号の、周波数毎の当該周波数特徴量への寄与度が決まるようになっているが、必ずしもこのようになっている必要はない。上記のバンドパスフィルタが周波数毎に変化する透過特性を有している場合、その特性が重み付けに相当する。この場合、当該バンドパスフィルタが、重み付け決定手段に相当する。
また、上記の各実施形態においては、認識辞書は外部記憶媒体18に記憶されるようになっているが、実際に制御回路19がこの認識辞書を用いる場合は、外部記憶媒体18中の認識辞書をRAM16に複製し、そのRAM16中の認識辞書から各エントリのデータを読み出すようになっていてもよい。このようにすることで、認識辞書の読み取り効果が高まる。
1…車両用ナビゲーション装置、11…位置検出器、12…操作スイッチ群、
13…画像表示装置、14…スピーカ、15…CPU、16…RAM、17…ROM、
18…外部記憶媒体、19…制御回路、21…マイク、22…A/D変換器、
30…音声認識プログラム、31…音響分析部、32…瞬時周波数分析部、
33…音韻尤度計算部、34…音素HMM部、35…韻律尤度計算部、
36…韻律HMM部、37…結合尤度計算部、38…雑音抑圧部、
39…雑音分析・抑圧部、40…計算帯域決定部、41…重み付け決定部。
13…画像表示装置、14…スピーカ、15…CPU、16…RAM、17…ROM、
18…外部記憶媒体、19…制御回路、21…マイク、22…A/D変換器、
30…音声認識プログラム、31…音響分析部、32…瞬時周波数分析部、
33…音韻尤度計算部、34…音素HMM部、35…韻律尤度計算部、
36…韻律HMM部、37…結合尤度計算部、38…雑音抑圧部、
39…雑音分析・抑圧部、40…計算帯域決定部、41…重み付け決定部。
Claims (10)
- 入力された音声信号から音響特徴量を算出する音響特徴量算出手段と、
前記音声信号から瞬時周波数特徴量を算出する瞬時周波数特徴量算出手段と、
前記音響特徴量算出手段が算出した音響特徴量および前記瞬時周波数特徴量算出手段が算出した瞬時周波数特徴量に基づいて、前記音声信号の音声認識を行う認識手段と、を備えた音声認識装置。 - 前記認識手段は、前記音響特徴量算出手段が算出した音響特徴量に基づいて、複数の認識候補語の音韻尤度を算出する音韻尤度算出手段と、
前記瞬時周波数特徴量算出手段が算出した瞬時周波数特徴量に基づいて、複数の認識候補語の韻律尤度を算出する韻律尤度算出手段と、
前記音韻尤度算出手段が算出した音韻尤度と、前記韻律尤度算出手段が算出した韻律尤度に基づいて、認識候補となる語の結合尤度を算出し、算出した結合尤度に基づいて、前記複数の認識候補語のうちから1つを選択することで、前記音声信号の音声認識を行う結合尤度算出手段と、を備えたことを特徴とする請求項1に記載の音声認識装置。 - 入力された音声信号に対して、独立に第1の雑音抑制および第2の雑音抑制を施す雑音抑制手段を備え、
前記音響特徴量算出手段は、前記入力された音声信号に対して前記雑音抑制手段が前記第1の雑音抑制を施した信号から音響特徴量を算出し、
前記瞬時周波数特徴量算出手段は、入力された音声信号に対して前記雑音抑制手段が前記第2の雑音抑制を施した信号から瞬時周波数特徴量を算出し、
前記第1の雑音抑制は、前記第2の雑音抑制よりも前記音声信号中の音響特徴量の保存度合いが高く、前記第2の雑音抑制は、前記第1の雑音抑制よりも前記音声信号中の瞬時周波数特徴量の保存度合いが高いことを特徴とする請求項1または2に記載の音声認識装置。 - 前記雑音抑制手段は、前記第1の雑音制御において、第1の減算パラメータを用いてスペクトルサブトラクション法を適用し、前記第2の雑音制御において、第1の減算パラメータより大きい第2の減算パラメータを用いてスペクトルサブトラクション法を適用することを特徴とする請求項3に記載の音声認識装置。
- 入力された音声信号の雑音分析を行う雑音分析手段と、
前記雑音分析手段の分析結果に基づいて、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量の算出に用いる音声信号の周波数帯域を制限する帯域制限手段と、を備えたことを特徴とする請求項1ないし4のいずれか1つに記載の音声認識装置。 - 前記雑音分析手段は、入力された音声信号の周波数毎のS/N比を算出し、
前記帯域制限手段は、前記雑音分析手段が算出したS/N比が基準値以下の周波数を、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量の算出に用いる音声信号の周波数帯域から除外することを特徴とする請求項5に記載の音声認識装置。 - 入力された音声信号の雑音分析を行う雑音分析手段と、
前記雑音分析手段の分析結果に基づいて、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量を算出する対象の音声信号の、周波数毎の前記周波数特徴量への寄与度を決定する重み付け決定手段と、を備えたことを特徴とする請求項1ないし5のいずれか1つに記載の音声認識装置。 - 前記雑音分析手段は、入力された音声信号の周波数毎のS/N比を算出し、
前記重み付け手段は、前記雑音分析手段が算出したS/N比に基づいて、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量を算出する対象の音声信号の、周波数毎の前記周波数特徴量への寄与度を決定することを特徴とする請求項7に記載の音声認識装置。 - 請求項8記載の寄与度は、入力された音声信号の周波数毎のS/N比であるSN(ω)より寄与度=SN(ω)/(1+SN(ω))と計算されることを特徴とする請求項8に記載の音声認識装置。
- 入力された音声信号から音響特徴量を算出する音響特徴量算出手段、
前記音声信号から瞬時周波数特徴量を算出する瞬時周波数特徴量算出手段、および
前記音響特徴量算出手段が算出した音響特徴量および前記瞬時周波数特徴量算出手段が算出した瞬時周波数特徴量に基づいて、前記音声信号の音声認識を行う認識手段として、コンピュータを機能させる音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268182A JP2006084664A (ja) | 2004-09-15 | 2004-09-15 | 音声認識装置および音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268182A JP2006084664A (ja) | 2004-09-15 | 2004-09-15 | 音声認識装置および音声認識プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006084664A true JP2006084664A (ja) | 2006-03-30 |
Family
ID=36163247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004268182A Withdrawn JP2006084664A (ja) | 2004-09-15 | 2004-09-15 | 音声認識装置および音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006084664A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007328288A (ja) * | 2006-06-09 | 2007-12-20 | Sony Corp | 韻律識別装置及び方法、並びに音声認識装置及び方法 |
US20090035622A1 (en) * | 2007-07-31 | 2009-02-05 | Battelle Memorial Institute | Systems and methods for reducing organic sulfur components in hydrocarbon fuels |
JP2009031452A (ja) * | 2007-07-25 | 2009-02-12 | Sony Corp | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
US7979270B2 (en) | 2006-12-01 | 2011-07-12 | Sony Corporation | Speech recognition apparatus and method |
US9583776B2 (en) | 2011-09-02 | 2017-02-28 | Battelle Memorial Institute | Sweep membrane separator and fuel processing systems |
CN111862954A (zh) * | 2020-05-29 | 2020-10-30 | 北京捷通华声科技股份有限公司 | 一种语音识别模型的获取方法及装置 |
-
2004
- 2004-09-15 JP JP2004268182A patent/JP2006084664A/ja not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007328288A (ja) * | 2006-06-09 | 2007-12-20 | Sony Corp | 韻律識別装置及び方法、並びに音声認識装置及び方法 |
US7979270B2 (en) | 2006-12-01 | 2011-07-12 | Sony Corporation | Speech recognition apparatus and method |
JP2009031452A (ja) * | 2007-07-25 | 2009-02-12 | Sony Corp | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
US8165873B2 (en) | 2007-07-25 | 2012-04-24 | Sony Corporation | Speech analysis apparatus, speech analysis method and computer program |
US20090035622A1 (en) * | 2007-07-31 | 2009-02-05 | Battelle Memorial Institute | Systems and methods for reducing organic sulfur components in hydrocarbon fuels |
US9583776B2 (en) | 2011-09-02 | 2017-02-28 | Battelle Memorial Institute | Sweep membrane separator and fuel processing systems |
CN111862954A (zh) * | 2020-05-29 | 2020-10-30 | 北京捷通华声科技股份有限公司 | 一种语音识别模型的获取方法及装置 |
CN111862954B (zh) * | 2020-05-29 | 2024-03-01 | 北京捷通华声科技股份有限公司 | 一种语音识别模型的获取方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5229234B2 (ja) | 非音声区間検出方法及び非音声区間検出装置 | |
JP4757158B2 (ja) | 音信号処理方法、音信号処理装置及びコンピュータプログラム | |
EP2387031B1 (en) | Methods and systems for grammar fitness evaluation as speech recognition error predictor | |
US8223978B2 (en) | Target sound analysis apparatus, target sound analysis method and target sound analysis program | |
CN104934029B (zh) | 基于基音同步频谱参数的语音识别系统和方法 | |
US20200410992A1 (en) | Device for recognizing speech input from user and operating method thereof | |
KR20150037986A (ko) | 핫워드 적합성을 결정하는 방법 및 장치 | |
JP2002041085A (ja) | 音声認識装置及び記録媒体 | |
KR20150144031A (ko) | 음성 인식을 이용하는 사용자 인터페이스 제공 방법 및 사용자 인터페이스 제공 장치 | |
JP2004325936A (ja) | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 | |
JP4906776B2 (ja) | 音声制御装置 | |
JP2006084664A (ja) | 音声認識装置および音声認識プログラム | |
JP2016157097A (ja) | 音読評価装置、音読評価方法、及びプログラム | |
WO2018229937A1 (ja) | 意図推定装置及び意図推定方法 | |
CN114283828A (zh) | 语音降噪模型的训练方法、语音评分方法、装置及介质 | |
JP2009116075A (ja) | 音声認識装置 | |
Płonkowski | Using bands of frequencies for vowel recognition for Polish language | |
KR101066472B1 (ko) | 초성 기반 음성인식장치 및 음성인식방법 | |
JP2005267092A (ja) | 照応解析装置及びナビゲーション装置 | |
CN113611287B (zh) | 一种基于机器学习的发音纠错方法和系统 | |
JP4604424B2 (ja) | 音声認識装置及び方法、並びにプログラム | |
JP4362072B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP2017126004A (ja) | 音声評価装置、方法、及びプログラム | |
JP2009216733A (ja) | フィルタ推定装置、信号強調装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体 | |
JP2006106300A (ja) | 音声認識装置及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20071204 |