JP2003280682A - 音声認識装置及び方法 - Google Patents

音声認識装置及び方法

Info

Publication number
JP2003280682A
JP2003280682A JP2002079280A JP2002079280A JP2003280682A JP 2003280682 A JP2003280682 A JP 2003280682A JP 2002079280 A JP2002079280 A JP 2002079280A JP 2002079280 A JP2002079280 A JP 2002079280A JP 2003280682 A JP2003280682 A JP 2003280682A
Authority
JP
Japan
Prior art keywords
voice
waveform
island
recognition target
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002079280A
Other languages
English (en)
Inventor
Kazuhide Okada
一秀 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2002079280A priority Critical patent/JP2003280682A/ja
Publication of JP2003280682A publication Critical patent/JP2003280682A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 本発明の目的は、認識処理演算量を低減し、
かつ、必要な記憶容量も少なくすることのできる音声認
識装置を提供する。 【解決手段】 本発明の音声認識装置は、音声を入力す
る入力手段と、入力された音声の時間-振幅座標軸上に
表現される音声波形の形状を平滑化する平滑化手段と、
平滑化された音声波形における音声励起部分の塊を島と
して把握して島数を検出する島数検出手段と、複数のパ
ラメータの一つとして島数が関連づけられている認識対
象語を収納した音声データベースを記憶した記憶手段
と、入力音声の検出された島数と同一の島数を有する認
識対象語についてのみ、残りのパラメータを用いて入力
音声の語及び認識対象語の同定処理を行う同定処理手段
と備えていることを特徴としている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置及び
音声認識方法に関する。
【0002】
【従来の技術】音声をデータとして取得し、このデータ
を処理して発話された内容を認識する音声認識装置が実
用化されている。例えば、発話によって文章入力を行う
アプリケーションや発話によって操作する車載ナビゲー
ションシステムなどには、音声認識エンジンが内蔵され
ている。音声認識の手法としては、隠れマルコフモデル
(HMM:Hiden Markov Model)などの確率モデルを用いる
手法が有名である。
【0003】
【発明が解決しようとする課題】上述したMMHなどを用
いる音声認識手法では、ケプストラム係数などの10〜20
次程度の高い次数を有するベクトルが用いられる。これ
らの高次の係数は20〜40ms毎に算出される。このため、
この手法を用いる音声認識装置には、係数の算出及び確
率モデルの演算などで非常に高い演算処理能力と多くの
記憶容量が要求されてしまう。そこで、発明者らは、演
算量がより少なく、必要な記憶容量も少なくて済む音声
認識手法に基づく音声認識装置を実現すべく鋭意研究を
重ね、本発明を相当するに至った。
【0004】従って、本発明の目的は、認識処理演算量
を低減し、かつ、必要な記憶容量も少なくすることので
きる音声認識装置を提供することにある。
【0005】
【課題を解決するための手段】請求項1に記載の音声認
識装置は、音声を入力する入力手段と、入力された音声
の時間-振幅座標軸上に表現される音声波形の形状を平
滑化する平滑化手段と、平滑化された音声波形における
音声励起部分の塊を島として把握して島数を検出する島
数検出手段と、複数のパラメータの一つとして島数が関
連づけられている認識対象語を収納した音声データベー
スを記憶した記憶手段と、入力音声の検出された島数と
同一の島数を有する認識対象語についてのみ、残りのパ
ラメータを用いて入力音声の語及び認識対象語の同定処
理を行う同定処理手段と備えていることを特徴としてい
る。
【0006】請求項2に記載の音声認識装置は、音声を
入力する入力手段と、入力された音声の時間-振幅座標
軸上に表現される音声波形の形状を平滑化する平滑化手
段と、平滑化された音声波形における音声励起部分の塊
を島として把握し、所定の島の最大値、最小値、極大
値、又は、極小値を通り時間軸に垂直な軸を対称軸とす
る島形状の対称性を検出する対称性検出手段と、複数の
パラメータの一つとして島形状の対称性が関連づけられ
ている認識対象語を収納した音声データベースを記憶し
た記憶手段と、島形状の対称性を用いて入力音声の語及
び認識対象語の同定を行う同定手段と備えていることを
特徴としている。
【0007】請求項3に記載の音声認識装置は、音声を
入力する入力手段と、入力された音声の時間-振幅座標
軸上に表現される音声波形の形状を平滑化する平滑化手
段と、平滑化された音声波形における音声励起部分の塊
を島として把握し、所定の島の所定振幅レベルでの音声
励起部分の塊をクリップ輪として把握してクリップ輪数
を検出するクリップ輪数検出手段と、複数のパラメータ
の一つとしてクリップ輪数が関連づけられている認識対
象語を収納した音声データベースを記憶した記憶手段
と、クリップ輪数を用いて入力音声の語及び認識対象語
の同定を行う同定手段と備えていることを特徴としてい
る。
【0008】請求項4に記載の音声認識装置は、音声を
入力する入力手段と、入力された音声の時間-振幅座標
軸上に表現される音声波形の形状を平滑化する平滑化手
段と、平滑化された音声波形における音声励起部分の塊
を島として把握し、所定の二つの島の最大値比を検出す
る最大値比検出手段と、複数のパラメータの一つとして
最大値比が関連づけられている認識対象語を収納した音
声データベースを記憶した記憶手段と、最大値比を用い
て入力音声の語及び認識対象語の同定を行う同定手段と
備えていることを特徴としている。
【0009】請求項5に記載の発明は、音声を入力する
入力手段と、入力された音声の時間-振幅座標軸上に表
現される音声波形の形状を平滑化する平滑化手段と、平
滑化された音声波形における音声励起部分の塊を島とし
て把握し、所定の島に関する各種波形パラメータを検出
する波形パラメータ検出手段と、波形パラメータが関連
づけられている認識対象語が収納されているセットが複
数用意されている音声データベースを記憶した記憶手段
と、記憶手段の複数のセットうち何れのセットを使用す
るかを設定するセット設定手段と、設定されたセットを
用いて入力音声の語及び認識対象語の同定を行う同定手
段とを備えていることを特徴としている。
【0010】請求項6に記載の発明は、請求項1に記載
の音声認識装置において、音声データベースは、各認識
対象語毎に各種パラメータのセットを複数保持でき、特
定認識対象語に関する学習時に、特定認識対象語の音声
入力がなされ、その際の島数が既存のセットと異なる場
合には、特定認識対象語に関するセット音声データベー
スに追加記憶させる学習手段をさらに備えていることを
特徴としている。
【0011】請求項7に記載の音声認識方法は、入力さ
れた音声を時間-振幅座標軸上に表現される音声波形と
して把握し、座標軸上の音声波形の形状を平滑化して画
像として把握し、平滑化された音声波形における音声励
起部分の塊を島として把握して島数を検出し、複数のパ
ラメータの一つとして島数が関連づけられている認識対
象語を収納した音声データベースを用いて、入力音声の
検出された島数と同一の島数を有する認識対象語を抽出
し、抽出された認識対象語の残りのパラメータを用いて
入力音声の語及び認識対象語の同定を行うことを特徴と
している。
【0012】請求項8に記載の音声認識方法は、入力さ
れた音声を時間-振幅座標軸上に表現される音声波形と
して把握し、座標軸上の音声波形の形状を平滑化して画
像として把握し、平滑化された音声波形における音声励
起部分の塊を島として把握して所定の島の最大値、最小
値、極大値、又は、極小値を通り時間軸に垂直な軸を対
称軸とする島形状の対称性を検出し、複数のパラメータ
の一つとして島形状の対称性が関連づけられている認識
対象語を収納した音声データベースを用いて、島形状の
対称性に基づいて入力音声の語及び認識対象語の同定を
行うことを特徴としている。
【0013】請求項9に記載の音声認識方法は、入力さ
れた音声を時間-振幅座標軸上に表現される音声波形と
して把握し、座標軸上の音声波形の形状を平滑化して画
像として把握し、平滑化された音声波形における音声励
起部分の塊を島として把握し、かつ、て所定の島の所定
振幅レベルでの音声励起部分の塊をクリップ輪として把
握してクリップ輪数を検出し、複数のパラメータの一つ
としてクリップ輪数が関連づけられている認識対象語を
収納した音声データベースを用いて、クリップ輪数に基
づいて入力音声の語及び認識対象語の同定を行うことを
特徴としている。
【0014】請求項10に記載の音声認識方法は、入力
された音声を時間-振幅座標軸上に表現される音声波形
として把握し、座標軸上の音声波形の形状を平滑化して
画像として把握し、平滑化された音声波形における音声
励起部分の塊を島として把握して所定の二つの島の最大
値比を検出し、複数のパラメータの一つとして最大値比
が関連づけられている認識対象語を収納した音声データ
ベースを用いて、最大値比に基づいて入力音声の語及び
認識対象語の同定を行うことを特徴としている。
【0015】請求項11に記載の発明は、入力された音
声を時間-振幅座標軸上に表現される音声波形として把
握し、座標軸上の音声波形の形状を平滑化して画像とし
て把握し、平滑化された音声波形における音声励起部分
の塊を島として把握して所定の島に関する各種波形パラ
メータを検出し、波形パラメータが関連づけられている
認識対象語が収納されているセットが複数用意されてい
る音声データベースを用いて、波形パラメータに基づい
て入力音声の語及び認識対象語の同定を行に際して、音
声データベースの複数のセットのうちの何れのセットを
用いるかを予め設定しておくことを特徴としている。
【0016】請求項12に記載の発明は、請求項7に記
載の音声認識方法において、音声データベースは、各認
識対象語毎に各種パラメータのセットを複数保持でき、
特定認識対象語に関する学習時に、特定認識対象語の音
声入力がなされ、その際の島数が既存のセットと異なる
場合には、特定認識対象語に関するセットを音声データ
ベースに追加記憶させることを特徴としている。
【0017】
【発明の実施の形態】本発明の音声認識装置は、入力部
と演算処理部と記憶部とを有している。演算処理部と記
憶部とはCPUやROM、RAM等からなる電子制御ユ
ニット(ECU)として構成されている。入力部はマイ
クで上述したECUに接続されている。ECU内のCP
Uは、各種演算を行うと共に、その演算時の各種データ
はCPU内のキャッシュメモリやRAM内に保持され
る。ROM内には、音声認識に必要な辞書が収納されて
いる。なお、辞書などは光ディスクやハードディスクな
どの外部記憶装置内においても良い。ここでは、マイク
などの入力部が入力手段として機能し、ECUなどが島
数検出手段、対称性検出手段、クリップ輪数検出手段、
最大値比検出手段、セット設定手段、学習手段として機
能している。また、ECU内のROMやRAM、外部記
憶装置などが記憶手段として機能している。
【0018】本実施形態の音声認識装置及び方法におけ
る音声認識過程を図1のフローチャートに示す。まず、
上述したマイクなどで音声を取得する(ステップ10
0)。取得した音声は、図2に示されるように、通常の
時間-振幅座標軸上の波形(画像・図形)としてECU
内で把握される。図2に示される波形は、横軸が時間、
縦軸がマイクからの出力電圧であり、縦軸はその中心が
0で上側が正、下側が負である。マイクからの出力電圧
は、音圧に比例している。なお、入力された音声は波形
として把握されれば良く、必ずしもモニタ上に波形とし
て表示されることが必要ではない。
【0019】ここで入力された音声波形は、形状として
認識してデータ処理するには必ずしも適したものではな
い。そこで、まずこの波形を平滑化し、データ処理を行
いやすい形に整える。以下の数ステップは平滑化の工程
である。なお、平滑化の手法は種々有り、本実施形態の
手法に限定されるものではない。また、ここでは平滑化
によって、時間軸に添った連続データとしての波形は、
フレーム毎の値が複数並べられたヒストグラム状のデー
タに変換される。そして、このヒストグラムの柱状部上
面の形成する形状に基づいて音声認識が行われる。
【0020】まず、1000サンプリングで1フレーム(こ
こでは約45ms)を構成し、ヒストグラム化する(ステッ
プ105)。ワンフレーム間での平均値をヒストグラム
の高さに設定している。このとき、上述した図2の音声
波形では、正側と負側とを振動する波形であるので、負
側の絶対値を取って正側に加算してからヒストグラム化
している。なお、ここでは負側の絶対値を正側に加算し
た後に二分の一にすることはしていないが、波形の絶対
値ではなく形状を評価するので、波形処理をこの手法で
統一していれば何ら問題はない。また、正側と負側とは
その波形はほぼ一致するので、正側あるいは負側のみで
データ処理を行うことも可能である。
【0021】次に、隣接するフレーム毎に50%オーバー
ラップ(重畳)処理を行う(ステップ110)。これ
は、データを平滑化する手法の一つで、k番目のフレー
ムの後半と(k+1)番目の前半のデータの平均を新たな
フレームとして設定している。さらに、オーバーラップ
処理後の各フレームのデータを二階対数化する(ステッ
プ115)。これは、具体的には、オーバーラップ処理
後の各フレームのデータをFとした場合に、log(C*log
F)を計算している(Cは定数)。この処理の目的は、大
きさ、幅、所定のデータの比率、面積、極の数、等の形
状に関する各種パラメータを関数値の大きい領域に集約
させると共に関数のバリや短時間的な凹凸をなくし、形
状分析を容易にしようとするものである。
【0022】オーバーラップ処理及び二階対数処理を経
た後の波形(以下単に平滑化後の波形とも言う)が図3
に示されている。図3のグラフの横軸は、オーバーラッ
プ後のフレームであり、左→右に向けて時間の流れに対
応している。なお、図3のような波形は、その形状が把
握されれば良く、必ずしもモニタ上に波形として表示さ
れることが必要ではない。また、図3のグラフの縦軸が
波形の振幅(音の強さ)に対応する値であり、二階対数
化処理後の値である。このような処理を行うことによっ
て、図1に示されるような生の音声波形が平滑化され、
図3のように形状要素が丸みのついた柱状の形をした図
形の上部に集約、平滑化され、形状分析しやすいものと
なる。具体的には、図3で示しているように、平滑され
たデータの特徴的な形状は柱状の形をした図形の上部に
相当する2階対数値の70−110付近に集中している
ため、この領域のデータを見ることで容易に音声の状態
の捕捉が可能となる。この図3の波形から、音声認識に
用いるための各種波形パラメータを取得する。
【0023】波形パラメータの一つとして、「島数」が
取得される。波形上には、音声が発話されている間に相
当する部分に音声励起部分(ヒストグラムの柱状部)が
あらわれるが、この音声励起部分の塊を「島」と定義
し、この島の数を島数として取得する。図3に示される
波形では、音声励起部分の塊が二つ存在するので島数は
「2」である。図3に示される波形から、島数と共に島
数以外の波形パラメータも取得される(ステップ12
0)。
【0024】上述した記憶手段には、予め認識の対象と
なる語に関して上述した各種波形パラメータが辞書(音
声データベース)として保存されている。入力された音
声に関して取得した波形パラメータと、辞書内の認識対
象語の波形パラメータとを比較して、入力された語がど
のような語なのかを決定する(同定処理)。なお、一つ
の認識対象語に対して、発話者が異なったり、発話者が
同一でも状況(風邪をひいているなど)が異なるなどす
れば、波形には多少の変化が生じる。その結果として、
島が二つとして数えられるような場合もあれば、三つと
して数えられるような場合も生じ得る(認識対象語によ
っては、このような島数の変動が全く生じ得ないような
ものもある)。そこで、本実施形態では、一つの認識対
象語に関して、異なる島数の波形パラメータ群を二通り
記憶手段内に保持している。
【0025】辞書内の波形パラメータの記憶状態を模式
化したものを図4に示す。図4に示される語彙A〜Eが
認識対象語である。上述したように、一つの語彙に対し
て島数の異なる波形パラメータ群が二つずつ記憶されて
いる。語彙によっては一つの波形パラメータ群のみ、あ
るいは一方が空の場合もあり得る)。島数は、各パラメ
ータ群の先頭に位置している。各パラメータ群内には、
島数に続いて、各島毎に決定される波形パラメータ(島
形状対称性やクリップ輪数)が島数の分だけ保存されて
いる。語彙Aのa群に関しては島数が1なので、島形状
対称性やクリップ輪数に関しては1つのセットのみが保
存されている。なお、図4には、語彙Aのa群に関して
二番目の島に関する波形パラメータを保存する部分を確
保してあるように示してあるが、データ長を短くするた
めにこのような空白部分を詰めたデータ形式としても良
い。
【0026】各島毎の波形パラメータの後には、各島毎
には算出されない波形パラメータ(最大値比)が保存さ
れている。ここに言う最大値比とは、所定の二つの島の
最大値の比であるので、少なくとも二つ以上の島数を有
する認識対象語でないと有していない波形パラメータで
ある。なお、各波形パラメータ群内のデータ構造は上述
したものに限定されるわけではない。島数以外の各種波
形パラメータ(図4中の島形状対称性、クリップ輪数、
最大値比など)については追って詳しく説明する。
【0027】上述したように、入力された音声から波形
パラメータを算出し、辞書内の波形パラメータとの比較
によって入力語を認識する。この際、入力語の島数と同
一の島数を有する波形パラメータ群(認識対象語)のみ
を先に抽出し(ステップ125)、この波形パラメータ
群とで同定処理を行う(ステップ130)。なお、波形
パラメータ群(認識対象語)は、一つずつ抽出・同定処
理を行いこれを順次続けるようにしても良いし、いくつ
かをまとめて抽出してからまとめて同定処理を行っても
良い。
【0028】例えば、図2及び図3に示される音声が入
力された場合、入力後の島数は2である。そこで、図4
中島数が2の波形パラメータ群が抽出される。ここで
は、語彙毎に異なる島数の二つの波形パラメータ群を有
しているが、島数が一致するもののみが抽出される。も
し、各語彙毎に一つしか波形パラメータ群を有しないよ
うなデータベース構造を採用した場合は、同一島数を有
する認識対象語のみが抽出されることとなる。図4で
は、島数が2の場合は図4中右側に○で示した波形パラ
メータ群のみが同定処理を行われることとなる。
【0029】ステップ130における入力語と辞書内語
彙との波形パラメータ比較の結果、同一語であるか否か
を判定(同定処理)する(ステップ135)。同一であ
ると判定できるのであれば、入力語が何であるか決定で
きたこととなる(ステップ140)。一方、ステップ1
35で同定できない場合は、候補となる語彙が辞書中に
まだ残っているか否かを判定し(ステップ145)、残
っている場合は再びステップ125からのステップが実
行される。候補語彙が残っていない場合は、認識がされ
なかったとして所定のみ認識処理(再度入力を施した
り、モニタなどの表示手段で認識できなかった旨の表示
をするなど)を行う(ステップ150)。
【0030】このように、入力された音声波形を平滑化
して島数を検出し、辞書(音声データベース)内の同一
島数のデータ(波形パラメータ群・認識対象語)とのみ
同定処理を行うようにすることで、まず、同定処理以前
に行わなくてはならない演算量を低減すると同時に、少
ない記憶容量でその演算を行うことができる。さらに、
同一島数のデータとのみ同定処理を行うので、ここでの
演算処理量も低減することができる。また、演算量や記
憶容量を低減することができるにもかかわらず、上述し
た隠れマルコフモデルなどを用いた音声認識手法と同等
又はそれ以上の認識率を得ることができる。特に、後述
する波形パラメータを併用することで、認識率の向上が
図れる。
【0031】次に、島数以外の波形パラメータについて
説明する。まず、島形状の対称性について説明する。こ
の島形状の対称性は、島毎に算出し得るパラメータで。
島の最大値(最大振幅値)を記録した時間(フレーム)
を対称軸として、島の形状が左側と右側とでどの程度の
対称性を有しているかを示すものである。島数が一つし
かあらわれないような音声入力がなされたような場合
は、取得できる波形パラメータの種類自体が少なくな
る、ここで説明する島形状の対称性は島数が一つしかな
いような場合も取得できる有効な波形パラメータとな
る。
【0032】例えば、図5(a)に示される波形において
は、島の最大値の左側が右側よりもなだらかとなってお
り、図5(b)に示される波形においては、島の最大値の
右側が左側よりもなだらかとなっている。このような音
声波形(島)の形状を島形状の対称性としてパラメータ
化する。ここでは、図6(a)〜図6(b)に示されるような
手法で島形状の対称性を検出している(図6(a)〜図6
(b)ではヒストグラムとしてではなく簡易的な曲線で平
滑化後の波形を示してある)。
【0033】図6(a)に示されるように、最大値(最大
振幅値)を記録するフレームを中心として、左側(時間
を遡る側)に4フレーム戻った場所での振幅数から右側
(時間が進む側)に4フレーム戻った場所での振幅数を
引いた値Δhを島形状の対称性として算出する。図6
(a)に示される波形では、最大値の右側が左側よりなだ
らかであるので、Δhは負の値となる。一方、最大値の
右側と左側とが同じような形状であれば、図6(b)に示
されるように、Δhの値はほぼ0となる。また、最大値
の左側が右側よりなだらかである場合は、図6(c)に示
されるように、Δhは正の値となる。
【0034】このように島形状の対称性を用いることに
よって、島の形状を把握しやすくなり、認識率を向上さ
せることができる。特に、上述したように、島数が1つ
しかないような語に関しては形状による認識が難しいの
で、特に有効であり、実際にこの波形パラメータを用い
ることで認識率向上が認められている。
【0035】なお、この島形状の対称性は、必ずしも全
ての認識対象語毎に記憶されていなくても良く、例え
ば、島数が1の認識対象語についてのみ記憶されるよう
であってもよい。また、島数が複数の認識対象語に対し
て島形状の対称性を記憶する場合は、全ての島毎に記憶
しても良いし、任意の島についてのみ(例えば全ての島
の中で最大値を記録する島についてのみ)記憶するよう
にしても良い。さらに、本実施形態においては、最大値
を対称の中心として設定したが、最小値や、極大値、極
小値などを対称の中心として設定しても、波形の形状分
析上有効な島形状の対称性を得ることができる。
【0036】次に、クリップ輪数について説明する。ク
リップ輪数も各島毎に算出し得るパラメータである。ま
ず、クリップ輪数であるが、図7及び図8に示されるよ
うに(図7及び図8でもヒストグラムとしてではなく簡
易的な曲線で平滑化後の波形を示してある)、平滑化さ
れた音声波形の各島毎に最大値(最大振幅値)から所定
レベル(本実施形態では10と20)下がった位置を時間軸
に平行に切断した場合に、その切断線と島とが重なる区
間(クリップ輪という)がいくつあるかで定義される。
このクリップ輪数によって、各島内での音声励起状況
(どの程度の山がいくつあるか)を波形パラメータとし
て記憶することができる。原波形そのものを構成するサ
ンプリング値が、聴覚の指数関数になっているので、同
一語彙の発話においても発声時の肺圧の違いによるクリ
ップ輪の数のぶれを防ぐ目的で、最大値からX(本実施
形態では10と20)でクリップしている。
【0037】図7に示される波形であれば、(最大値−
10)でのクリップ輪数は3であり、(最大値−20)
でのクリップ輪数は2である。クリップ輪数は、このよ
うに切断レベルを複数設けて一つの島毎に複数記憶する
ことも可能であるし、切断レベルを一つだけにして各島
毎に一つだけ記憶することも可能である。このようにク
リップ輪数を用いることによって、島の形状を把握しや
すくなり、認識率を向上させることができる。特に、上
述したように、島の中での振幅変動を把握しやすいの
で、島の中で振幅変動を繰り返すような波形に対して有
効であり、実際にこの波形ラメータを用いることでも認
識率向上が認められている。図7と図8の関係のよう
に、島の形状が似ている場合であっても、クリップ輪の
パラメータを設けることで語彙の判別が容易になる。
【0038】なお、このクリップ輪数も、必ずしも全て
の認識対象語毎に記憶されていなくても良いし、一つの
認識対象語内の全ての島に関して記憶されていなくても
よい。例えば、複数の島数を有する認識対象語に対し
て、全ての島の中で最大値を記録する島についてのみク
リップ輪数を算出するようにしても良い。
【0039】次に、最大値について説明する。最大値比
は、各島毎に算出し得るパラメータではなく、複数の島
数を有する認識対象語に対して算出し得るパラメータで
ある。最大値比は、所定の二つの島の各最大値(最大振
幅値)の比である。島数が二つの認識対象語であれば、
比を算出するのに何れの(時間的に先又は後の)島を分
母とするかさえ決まっていれば最大値比は一通りに定ま
る。島数が三つ以上の認識対象語に関しては、何れの島
を用いて最大値比を算出するのかを決めておけばよい。
例えば、最も大きな最大値(最大振幅値)を有する島
と、その一つ左側の島の最大値との比を求めるなど決め
ておけばよい。あるいは、最大値比は、島数が2の認識
対象語についてのみ記憶・算出するものとしてもよい。
【0040】例となる音声波形(平滑化前:ただし、実
際の最大値比の算出は平滑化後の波形に基づいて行う)
を図9に示す。図9には、島数が2の語に対しての最大
値比が示されており、一番目の島の最大値に対する二番
目の最大値の比cを最大値比として示している。図9
(a)ではcは1以上となるが、図9(b)ではcは1未満と
なっている。この最大値比を用いることによって、認識
対象語のうちのどこに強弱(アクセント)があるのかを
パラメータ化することができる。これは、次のような場
合に有効なパラメータとなる。
【0041】標準語系発音と関西系発音とでは、同じ発
音でもアクセント位置が全く異なってしまうような語が
ある。具体的には、橋と箸が挙げられる。アクセントが
ある部分を「」で示すならば、標準語系発音では橋は、
は「し」、であり、箸は、「は」し、である。しかし、
関西系発音では橋は、「は」し、であり、箸は、は
「し」、である。このような場合に、最大値比をパラメ
ータとして採用することによって、このような後の認識
率を向上させることができる。
【0042】上述した図4に示される音声データベース
構造では、各語彙が有する複数の波形パラメータ群は異
なる島数を有するものとした。しかし、島数が同じで最
大値比が異なるものを各語彙内で登録するようにすれ
ば、このような方言などの認識率を向上させることが可
能である。また、各波形パラメータ群に標準語系発音か
関西系発音かを示すフラグをパラメータとして含めてお
き、標準語系発音の入力が多いようであれば、標準語系
発音のフラグを有する波形パラメータ群から先に同定処
理を行うようにしてもよい。このようにすれば認識速度
が向上する。なお、語によっては標準語系・関西系発音
の双方で同一のアクセントとなるものがあるのは言うま
でもない。
【0043】あるいは、音声データベースを、図10に
示されるように、二つのセット(標準語系・関西系発
音)を有する構造とし、切り替えて使用するようにして
も良い。この切替は、上述したECUを介して行われる
ようにする。また、この切替は、音声認識装置の初期設
定として、物理的スイッチによって使用者が任意に切り
替えられるようにしても良いし、入力音声の検出結果
(上述したフラグの検出頻度)に応じて自動的に切り替
えられるようにしても良い。
【0044】なお、図10には、島数が2の場合のみ最
大値を記録した辞書を示した。また、この辞書では同一
語彙ではセットが異なっても島数が同一である場合が示
されているが、異なる場合も生じ得る。また、ここで
は、方言を標準語系と関西系とに分けて説明したが、こ
れに限られるものではない。さらに、最大値比は、同一
語のアクセントの違いを認識するのに特に有用である
が、認識対象語同士の区別に関しても有用なパラメータ
である。
【0045】次に、辞書(音声データベース)の学習に
ついて説明する。音声入力の過程で辞書に学習による修
正あるいは追加を行うことで認識率を向上させることが
できる。学習には、いろいろな形態があるが、具体的に
は次にようなものが考えられる。各語彙毎に書き換えで
きない基本の波形パラメータ群(パラメータのセットと
も表現することとする:上述した図10のセットとは異
なる)を二つ記憶させる(初期データ)と共に、学習に
よって得た波形パラメータ群を書き込み可能な記憶領域
(学習領域)を二つ用意する。学習によって得た波形パ
ラメータ群の島数が初期データと異なる場合は、学習領
域に記憶し、後の同定処理時に利用する。
【0046】学習領域に記憶したデータは、更なる学習
によって新たな波形パラメータ群によって上書きされる
ようにしても良い。あるいは、更なる学習によってその
パラメータ群内のパラメータを修正するようにしても良
い。また、学習も、音声認識を行う過程で常に行われる
ようにしても良いし、装置を使用する前に初期処理(エ
ンロール等と呼ばれる)として行ってもよい。また、学
習によって得た波形の島数が変化する可能性が高く、変
化後の島数が初期データと異なると推測される場合に、
推測された変化後の島数を有する波形パラメータ群を予
め辞書に追加記憶させるようにしても良い。
【0047】具体的には、図4に示されるデータベース
構造に対して、各語彙毎にさらに二つの波形パラメータ
群(パラメータのセット)を記憶できる領域を用意して
おく。そして、学習によって取得した波形の特定の島
が、後述する谷比や海峡幅に基づく検討の結果、合体あ
るいは分割する可能性が高いと判断できる場合は、合体
あるいは分割した場合の島数を算出する。算出された島
数が初期データと異なる場合は、島が合体あるいは分割
したとしてその他の波形パラメータを算出し、新たな波
形パラメータ群として上述した空いている記憶領域に記
憶する。ここでは二つまで記憶することができる。
【0048】上述した谷比や海峡幅について説明する。
谷比を説明する図を図11に示す(図11でもヒストグ
ラムとしてではなく簡易的な曲線で平滑化後の波形を示
してある)。図11中のcはその島の最大値(最大振
幅)であり、d,eはその島の極小値(谷)である。こ
こでは、d/cやe/cを谷比として定義している。ま
た、一つの島でいくつかの谷比が検出され得るが(山が
一つであれば谷比は検出できない)、ここでは最も小さ
い谷比e/cをその島の谷比として扱っている。この谷
比も波形パラメータの一つであり、各島毎に算出し得
る。
【0049】一方、海峡幅を説明する図を図12に示す
(図12でもヒストグラムとしてではなく簡易的な曲線
で平滑化後の波形を示してある)。図12に示されるよ
うに、隣接する島の間の音声励起部分ではない部分の幅
を島と島との間の海峡幅wとして定義している。一つの
認識対象語でいくつかの海峡幅が検出され得るが(島が
一つであれば海峡幅は検出できない)、ここでは最も小
さい海峡幅wをその認識対象語の海峡幅として扱ってい
る。あるいは、次の島との間の海峡幅をその島毎に算出
し得る海峡幅として記憶しても良い(この場合最後の島
には海峡幅は検出できない)。
【0050】谷比が0に近ければ(0に近い所定値以下
であれば)、その谷比の元となる極小部で島が分割され
る可能性が高いと判断し得る。また、海峡幅が0に近け
れば(0に近い所定値以下であれば)、その海峡幅の両
側の島が合体する可能性が高いと判断し得る。この海峡
幅も波形パラメータの一つとして波形パラメータ群に記
憶させる。学習時にこのような事象が検出された場合
は、島が分割又は合体されたものとして、これに基づく
新たな波形パラメータ群を算出して記憶する。このよう
にすることによって、実際の入力に基づく学習によって
音声データベースの充実を図り、認識率をより一層向上
させることができる。
【0051】なお、本発明は上述した実施形態に限定さ
れるものではない。例えば、上述した図4の音声データ
ベースでは、各語彙毎に二つの波形パラメータ群を記憶
することとしているが、一つでも良いし、三つ以上でも
良い。また、語彙毎に記憶されている波形パラメータ群
(パラメータのセット)の数が異なるようであっても良
い。また、上述した実施形態では、学習時に島数が異な
るデータが取得された(予測された)場合にのみデータ
を追加記憶したが、島数が同じで他のパラメータが異な
る場合に、その波形パラメータ群を追加記憶しても良
い。
【0052】また、上述した実施形態では、学習によっ
て島が分割されるか合体される場合を予測し、その結果
を追加記憶させたが、学習によって他の形態(例えば島
数以外のパラメータを学習により取得して)のパラメー
タセットを追加記憶させても良い。また、上述した実施
形態では、波形パラメータとして、島数、島形状の対称
性、クリップ輪数、及び、最大値比を併用したが、これ
らの波形パラメータはそれぞれ独立して、あるいは任意
の組み合わせで使用できる。
【0053】
【発明の効果】請求項1及び請求項7に記載の音声認識
装置・方法によれば、音声波形を平滑化して形状として
把握し、島数を用いて処理することによって、認識処理
演算量を低減し、かつ、必要な記憶容量も少なくするこ
とができる。請求項2及び請求項8に記載の音声認識装
置・方法によれば、音声波形を平滑化して形状として把
握し、島形状の対称性を用いて処理することによって、
認識処理演算量を低減し、かつ、必要な記憶容量も少な
くすることができる。
【0054】請求項3及び請求項9に記載の音声認識装
置・方法によれば、音声波形を平滑化して形状として把
握し、クリップ輪数を用いて処理することによって、認
識処理演算量を低減し、かつ、必要な記憶容量も少なく
することができる。請求項4及び請求項10に記載の音
声認識装置・方法によれば、音声波形を平滑化して形状
として把握し、最大値比を用いて処理することによっ
て、認識処理演算量を低減し、かつ、必要な記憶容量も
少なくすることができる。演算量が少なければ、認識レ
スポンスが向上する。記憶容量が少なくて済むので、装
置の簡素装置を簡素化(低コスト化)することが容易と
なる。
【0055】請求項5及び請求項11に記載の音声認識
装置・方法によれば、音声波形を平滑化して形状として
把握し、音声波形に基づく音声データベース内に複数の
セットを用意し、このセットを切り替えて使用すること
によって、認識率をより一層向上させることができる。
請求項6又は請求項12に記載の音声認識装置・方法に
よれば、学習によって音声データベースにパラメータの
セットを増加させることによって、認識率をより一層向
上させることができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の一実施形態における音
声認識処理を示すフローチャートである。
【図2】時間−振幅座標軸上に表された音声波形であ
る。
【図3】平滑化後の音声波形である。
【図4】音声データベースの構造を示す説明図である。
【図5】(a)と(b)とは島形状対称性の異なる音声波形
(最大振幅近傍部分)である。
【図6】島形状の対称性を説明する説明図である。
【図7】クリップ輪数を説明する説明図(第一例)であ
る。
【図8】クリップ輪数を説明する説明図(第二例)であ
る。
【図9】最大値比を説明する説明図(ただし平滑化前の
音声波形による)である。
【図10】複数のセットを有する音声データベースの構
造を示す説明図である。
【図11】谷比を説明する説明図である。
【図12】海峡幅を説明する説明図である。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力する入力手段と、 入力された音声の時間-振幅座標軸上に表現される音声
    波形の形状を平滑化する平滑化手段と、 平滑化された音声波形における音声励起部分の塊を島と
    して把握して島数を検出する島数検出手段と、 複数のパラメータの一つとして島数が関連づけられてい
    る認識対象語を収納した音声データベースを記憶した記
    憶手段と、 入力音声の検出された島数と同一の島数を有する認識対
    象語についてのみ、残りのパラメータを用いて入力音声
    の語及び認識対象語の同定処理を行う同定処理手段と備
    えていることを特徴とする音声認識装置。
  2. 【請求項2】 音声を入力する入力手段と、 入力された音声の時間-振幅座標軸上に表現される音声
    波形の形状を平滑化する平滑化手段と、 平滑化された音声波形における音声励起部分の塊を島と
    して把握し、所定の島の最大値、最小値、極大値、又
    は、極小値を通り時間軸に垂直な軸を対称軸とする島形
    状の対称性を検出する対称性検出手段と、 複数のパラメータの一つとして島形状の対称性が関連づ
    けられている認識対象語を収納した音声データベースを
    記憶した記憶手段と、 島形状の対称性を用いて入力音声の語及び認識対象語の
    同定を行う同定手段と備えていることを特徴とする音声
    認識装置。
  3. 【請求項3】 音声を入力する入力手段と、 入力された音声の時間-振幅座標軸上に表現される音声
    波形の形状を平滑化する平滑化手段と、 平滑化された音声波形における音声励起部分の塊を島と
    して把握し、所定の島の所定振幅レベルでの音声励起部
    分の塊をクリップ輪として把握してクリップ輪数を検出
    するクリップ輪数検出手段と、 複数のパラメータの一つとしてクリップ輪数が関連づけ
    られている認識対象語を収納した音声データベースを記
    憶した記憶手段と、 クリップ輪数を用いて入力音声の語及び認識対象語の同
    定を行う同定手段と備えていることを特徴とする音声認
    識装置。
  4. 【請求項4】 音声を入力する入力手段と、 入力された音声の時間-振幅座標軸上に表現される音声
    波形の形状を平滑化する平滑化手段と、 平滑化された音声波形における音声励起部分の塊を島と
    して把握し、所定の二つの島の最大値比を検出する最大
    値比検出手段と、 複数のパラメータの一つとして最大値比が関連づけられ
    ている認識対象語を収納した音声データベースを記憶し
    た記憶手段と、 最大値比を用いて入力音声の語及び認識対象語の同定を
    行う同定手段と備えていることを特徴とする音声認識装
    置。
  5. 【請求項5】 音声を入力する入力手段と、 入力された音声の時間-振幅座標軸上に表現される音声
    波形の形状を平滑化する平滑化手段と、 平滑化された音声波形における音声励起部分の塊を島と
    して把握し、所定の島に関する各種波形パラメータを検
    出する波形パラメータ検出手段と、 波形パラメータが関連づけられている認識対象語が収納
    されているセットが複数用意されている音声データベー
    スを記憶した記憶手段と、 前記記憶手段の複数のセットうち何れのセットを使用す
    るかを設定するセット設定手段と、 設定されたセットを用いて入力音声の語及び認識対象語
    の同定を行う同定手段とを備えていることを特徴とする
    音声認識装置。
  6. 【請求項6】 前記音声データベースは、各認識対象語
    毎に各種パラメータのセットを複数保持でき、 特定認識対象語に関する学習時に、特定認識対象語の音
    声入力がなされ、その際の島数が既存のセットと異なる
    場合には、特定認識対象語に関するセット前記音声デー
    タベースに追加記憶させる学習手段をさらに備えている
    ことを特徴とする請求項1に記載の音声認識装置。
  7. 【請求項7】 入力された音声を時間-振幅座標軸上に
    表現される音声波形として把握し、 前記座標軸上の音声波形の形状を平滑化して画像として
    把握し、 平滑化された音声波形における音声励起部分の塊を島と
    して把握して島数を検出し、 複数のパラメータの一つとして島数が関連づけられてい
    る認識対象語を収納した音声データベースを用いて、入
    力音声の検出された島数と同一の島数を有する認識対象
    語を抽出し、 抽出された認識対象語の残りのパラメータを用いて入力
    音声の語及び認識対象語の同定を行うことを特徴とする
    音声認識方法。
  8. 【請求項8】 入力された音声を時間-振幅座標軸上に
    表現される音声波形として把握し、 前記座標軸上の音声波形の形状を平滑化して画像として
    把握し、 平滑化された音声波形における音声励起部分の塊を島と
    して把握して所定の島の最大値、最小値、極大値、又
    は、極小値を通り時間軸に垂直な軸を対称軸とする島形
    状の対称性を検出し、 複数のパラメータの一つとして島形状の対称性が関連づ
    けられている認識対象語を収納した音声データベースを
    用いて、島形状の対称性に基づいて入力音声の語及び認
    識対象語の同定を行うことを特徴とする音声認識方法。
  9. 【請求項9】 入力された音声を時間-振幅座標軸上に
    表現される音声波形として把握し、 前記座標軸上の音声波形の形状を平滑化して画像として
    把握し、 平滑化された音声波形における音声励起部分の塊を島と
    して把握し、かつ、て所定の島の所定振幅レベルでの音
    声励起部分の塊をクリップ輪として把握してクリップ輪
    数を検出し、 複数のパラメータの一つとしてクリップ輪数が関連づけ
    られている認識対象語を収納した音声データベースを用
    いて、クリップ輪数に基づいて入力音声の語及び認識対
    象語の同定を行うことを特徴とする音声認識方法。
  10. 【請求項10】 入力された音声を時間-振幅座標軸上
    に表現される音声波形として把握し、 前記座標軸上の音声波形の形状を平滑化して画像として
    把握し、 平滑化された音声波形における音声励起部分の塊を島と
    して把握して所定の二つの島の最大値比を検出し、 複数のパラメータの一つとして最大値比が関連づけられ
    ている認識対象語を収納した音声データベースを用い
    て、最大値比に基づいて入力音声の語及び認識対象語の
    同定を行うことを特徴とする音声認識方法。
  11. 【請求項11】 入力された音声を時間-振幅座標軸上
    に表現される音声波形として把握し、 前記座標軸上の音声波形の形状を平滑化して画像として
    把握し、 平滑化された音声波形における音声励起部分の塊を島と
    して把握して所定の島に関する各種波形パラメータを検
    出し、 波形パラメータが関連づけられている認識対象語が収納
    されているセットが複数用意されている音声データベー
    スを用いて、波形パラメータに基づいて入力音声の語及
    び認識対象語の同定を行に際して、 音声データベースの複数のセットのうちの何れのセット
    を用いるかを予め設定しておくことを特徴とする音声認
    識方法。
  12. 【請求項12】 前記音声データベースは、各認識対象
    語毎に各種パラメータのセットを複数保持でき、 特定認識対象語に関する学習時に、特定認識対象語の音
    声入力がなされ、その際の島数が既存のセットと異なる
    場合には、特定認識対象語に関するセットを前記音声デ
    ータベースに追加記憶させることを特徴とする請求項7
    に記載の音声認識方法。
JP2002079280A 2002-03-20 2002-03-20 音声認識装置及び方法 Pending JP2003280682A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002079280A JP2003280682A (ja) 2002-03-20 2002-03-20 音声認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002079280A JP2003280682A (ja) 2002-03-20 2002-03-20 音声認識装置及び方法

Publications (1)

Publication Number Publication Date
JP2003280682A true JP2003280682A (ja) 2003-10-02

Family

ID=29228812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002079280A Pending JP2003280682A (ja) 2002-03-20 2002-03-20 音声認識装置及び方法

Country Status (1)

Country Link
JP (1) JP2003280682A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039342A (ja) * 2004-07-29 2006-02-09 Toshiba Tec Corp 音声メモプリンタ
JP2008241772A (ja) * 2007-03-26 2008-10-09 Konami Digital Entertainment:Kk 音声画像処理装置、音声画像処理方法、ならびに、プログラム
JP2009020457A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
JP2009507260A (ja) * 2005-09-07 2009-02-19 バイループ テクノロジック,エス.エル. マイクロコントローラーを利用した信号認識法
JP2011095425A (ja) * 2009-10-28 2011-05-12 Kawai Musical Instr Mfg Co Ltd 盛り上がり検出装置及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039342A (ja) * 2004-07-29 2006-02-09 Toshiba Tec Corp 音声メモプリンタ
JP4544933B2 (ja) * 2004-07-29 2010-09-15 東芝テック株式会社 音声メモプリンタ
JP2009507260A (ja) * 2005-09-07 2009-02-19 バイループ テクノロジック,エス.エル. マイクロコントローラーを利用した信号認識法
JP4931927B2 (ja) * 2005-09-07 2012-05-16 バイループ テクノロジック,エス.エル. マイクロコントローラーを利用した信号認識法
JP2008241772A (ja) * 2007-03-26 2008-10-09 Konami Digital Entertainment:Kk 音声画像処理装置、音声画像処理方法、ならびに、プログラム
JP2009020457A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
JP2011095425A (ja) * 2009-10-28 2011-05-12 Kawai Musical Instr Mfg Co Ltd 盛り上がり検出装置及びプログラム

Similar Documents

Publication Publication Date Title
KR101988222B1 (ko) 대어휘 연속 음성 인식 장치 및 방법
JP5229234B2 (ja) 非音声区間検出方法及び非音声区間検出装置
JPH02195400A (ja) 音声認識装置
US20050021330A1 (en) Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes
WO2001052237A1 (fr) Appareil, methode et support d'apprentissage de langues etrangeres
JP2000105596A5 (ja)
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
CN112750445A (zh) 语音转换方法、装置和系统及存储介质
US20110218802A1 (en) Continuous Speech Recognition
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2003280682A (ja) 音声認識装置及び方法
JP2009187000A (ja) ユーザ音声診断装置及びユーザ音声診断方法
US20230178099A1 (en) Using optimal articulatory event-types for computer analysis of speech
CN112151066A (zh) 基于声音特征识别的语言冲突监测方法、介质及设备
Rao et al. Glottal excitation feature based gender identification system using ergodic HMM
JP2016157097A (ja) 音読評価装置、音読評価方法、及びプログラム
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP4408205B2 (ja) 話者認識装置
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP2006084664A (ja) 音声認識装置および音声認識プログラム
Zolnay Acoustic feature combination for speech recognition
CN113436649B (zh) 一种语音情感标定辅助方法及系统
JP3841342B2 (ja) 音声認識装置および音声認識プログラム
JP2017126004A (ja) 音声評価装置、方法、及びプログラム
Malcangi Softcomputing approach to segmentation of speech in phonetic units

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070515

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071002