JPH09274496A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH09274496A JPH09274496A JP8086509A JP8650996A JPH09274496A JP H09274496 A JPH09274496 A JP H09274496A JP 8086509 A JP8086509 A JP 8086509A JP 8650996 A JP8650996 A JP 8650996A JP H09274496 A JPH09274496 A JP H09274496A
- Authority
- JP
- Japan
- Prior art keywords
- boundary
- syllable
- directed graph
- recognition
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 正しい音節境界、文節境界を跨いで単語や文
節の仮説が生成されないようにし、余分な計算量を極力
抑え、また認識精度を向上させる 【解決手段】 音響分析部10は入力音声信号を分析し
てLPC係数、ピッチ信号、パワー信号を生成する。
コード発生部13はLPC係数を受け取ってコード列を
出力する。音節境界検出部15はLPC係数および音源
パワー信号を受け取って音節の境界を検出する。文節境
界検出部16はピッチ信号および音源パワー信号に基づ
いて文節の境界を検出する。有向グラフ作成部17はコ
ード列を音節のHMMモデルに照合して有向グラフを生
成する。有向グラフ作成部17はさらに音節および文節
の境界位置検出信号に基づいて有向グラフのノードを確
定する。
節の仮説が生成されないようにし、余分な計算量を極力
抑え、また認識精度を向上させる 【解決手段】 音響分析部10は入力音声信号を分析し
てLPC係数、ピッチ信号、パワー信号を生成する。
コード発生部13はLPC係数を受け取ってコード列を
出力する。音節境界検出部15はLPC係数および音源
パワー信号を受け取って音節の境界を検出する。文節境
界検出部16はピッチ信号および音源パワー信号に基づ
いて文節の境界を検出する。有向グラフ作成部17はコ
ード列を音節のHMMモデルに照合して有向グラフを生
成する。有向グラフ作成部17はさらに音節および文節
の境界位置検出信号に基づいて有向グラフのノードを確
定する。
Description
【0001】
【発明の属する技術分野】この発明は音声認識装置に関
し、特に認識の途中結果として得られる音素、音節、単
語など認識単位の系列を、時間長が限定された有向グラ
フ型のデータ構造の連接として表現することによって、
大語彙の連続音声認識や未知語・未知構文などを含む音
声の認識を高速かつ高精度に行うことのできる音声認識
装置に関する。
し、特に認識の途中結果として得られる音素、音節、単
語など認識単位の系列を、時間長が限定された有向グラ
フ型のデータ構造の連接として表現することによって、
大語彙の連続音声認識や未知語・未知構文などを含む音
声の認識を高速かつ高精度に行うことのできる音声認識
装置に関する。
【0002】
【従来の技術】音声認識に有向グラフ型のデータ構造を
用いる具体的な方法がこれまでいくつか提案されてきて
おり、例えば以下のものを挙げることができる。 (1)M.Oerder and H.Ney,“Wo
rd graphs:An effcient int
erface between continuou−
speech recognition and la
nguage understanding”,Pro
c.ICASSP−93,vol.II,pp.119
−122 (2)トーマス・イー・リンチ、「複数の出力を与える
音声認識法」 特開平5−265483号公報 (3)P.Kenny,etal.”New grap
h search techniques for s
peech recognition”,Proc.I
CASSP−94,vol.I,pp.553−556 以上の音声認識手法においては、一般に、グラフはノー
ドの集合と、二つのノードを結ぶアークの集合として定
義される。音声認識における有向グラフ型のデータ構造
では、アークは音素、音節、単語など認識単位の候補
を、ノードはそれらの候補の境界位置である時刻を表
す。アークの向きは時間の向きに一致し、入ってくるア
ークのないノードは発話開始時刻を表し、開始ノードと
呼ばれ、出ていくアークのないノードは発話終了時刻を
表し、終了ノードと呼ばれる。
用いる具体的な方法がこれまでいくつか提案されてきて
おり、例えば以下のものを挙げることができる。 (1)M.Oerder and H.Ney,“Wo
rd graphs:An effcient int
erface between continuou−
speech recognition and la
nguage understanding”,Pro
c.ICASSP−93,vol.II,pp.119
−122 (2)トーマス・イー・リンチ、「複数の出力を与える
音声認識法」 特開平5−265483号公報 (3)P.Kenny,etal.”New grap
h search techniques for s
peech recognition”,Proc.I
CASSP−94,vol.I,pp.553−556 以上の音声認識手法においては、一般に、グラフはノー
ドの集合と、二つのノードを結ぶアークの集合として定
義される。音声認識における有向グラフ型のデータ構造
では、アークは音素、音節、単語など認識単位の候補
を、ノードはそれらの候補の境界位置である時刻を表
す。アークの向きは時間の向きに一致し、入ってくるア
ークのないノードは発話開始時刻を表し、開始ノードと
呼ばれ、出ていくアークのないノードは発話終了時刻を
表し、終了ノードと呼ばれる。
【0003】有向グラフ型のデータ構造を作成する処理
では、まず、音韻列の尤度のスコアを用いて音素、音
節、単語など認識単位の候補を生成し、次に、それらの
候補の最適な境界位置を計算する。
では、まず、音韻列の尤度のスコアを用いて音素、音
節、単語など認識単位の候補を生成し、次に、それらの
候補の最適な境界位置を計算する。
【0004】ところで、音素、音節、単語など認識単位
の系列を表現したグラフは、グラフの開始ノードから終
了ノードまでアークを辿った経路が、言語的に受理可能
な音韻の系列に対応しているかを判断する言語認識処理
にかけられる。言語認識処理において、グラフは正しい
認識に対応しない余分なアークをできるだけ含まないこ
とが望ましい。特に、大語彙の音声認識や未知語・未知
構文などを含む音声の認識においてその要請が強い。
の系列を表現したグラフは、グラフの開始ノードから終
了ノードまでアークを辿った経路が、言語的に受理可能
な音韻の系列に対応しているかを判断する言語認識処理
にかけられる。言語認識処理において、グラフは正しい
認識に対応しない余分なアークをできるだけ含まないこ
とが望ましい。特に、大語彙の音声認識や未知語・未知
構文などを含む音声の認識においてその要請が強い。
【0005】有向グラフ型のデータ構造を、余分なアー
クを除去したコンパクトな形に確定するためには、発話
の開始から発話の終了までの区間に対し、音素、音節、
単語など認識単位の候補を生成する処理と、その処理が
発話の全区間に渡って終了した後、候補の境界を確定す
るなどの処理を、発話の全区間に渡って行うことを必要
とする。そのため、発話の途中までのグラフを、発話全
体のグラフの作成が終了する以前に、次段の処理に渡す
ことができない。
クを除去したコンパクトな形に確定するためには、発話
の開始から発話の終了までの区間に対し、音素、音節、
単語など認識単位の候補を生成する処理と、その処理が
発話の全区間に渡って終了した後、候補の境界を確定す
るなどの処理を、発話の全区間に渡って行うことを必要
とする。そのため、発話の途中までのグラフを、発話全
体のグラフの作成が終了する以前に、次段の処理に渡す
ことができない。
【0006】有向グラフ型のデータ構造を作成する処理
において、グラフ中に正しい音素、音節、単語など認識
単位の候補列が含まれる確率を上げるため、尤度の低い
候補までグラフに取り入れると、正しい音韻列に対応し
ない余分なアークの含まれる割合が高くなる。余分なア
ークが増えると言語認識処理の負荷が増すが、余分なア
ークの増加による言語認識処理の負荷の増大は、特に音
声の継続時間が長い場合に顕著である。
において、グラフ中に正しい音素、音節、単語など認識
単位の候補列が含まれる確率を上げるため、尤度の低い
候補までグラフに取り入れると、正しい音韻列に対応し
ない余分なアークの含まれる割合が高くなる。余分なア
ークが増えると言語認識処理の負荷が増すが、余分なア
ークの増加による言語認識処理の負荷の増大は、特に音
声の継続時間が長い場合に顕著である。
【0007】音素、音節を単位としたグラフに対して言
語認識処理を行う場合、文節などの境界が不明であるた
め、正しい文節の境界を跨いで、単語や文節の仮説が生
成されることがある。これは、言語認識処理の負荷の増
大と認識率の低下の原因となる。
語認識処理を行う場合、文節などの境界が不明であるた
め、正しい文節の境界を跨いで、単語や文節の仮説が生
成されることがある。これは、言語認識処理の負荷の増
大と認識率の低下の原因となる。
【0008】
【発明が解決しようとする課題】この発明は以上の事情
を考慮してなされたものであり、正しい音節境界、文節
境界を跨いで単語や文節の仮説が生成されないように
し、余分な計算量を極力抑え、また認識精度を向上させ
るようにすることを目的としている。
を考慮してなされたものであり、正しい音節境界、文節
境界を跨いで単語や文節の仮説が生成されないように
し、余分な計算量を極力抑え、また認識精度を向上させ
るようにすることを目的としている。
【0009】
【課題を解決するための手段】この発明によれば、上述
目的を達成するために、音声を音素、音節、単語などの
認識単位の系列として認識し、その途中結果を有向グラ
フ型のデータ構造を用いて表現する際に、音声から特徴
パラメータを抽出し、上記音素、音節、単語などの認識
単位の境界点を検出し、その検出の確信度があらかじめ
設定されている閾値より高い境界点を有向グラフのノー
ドとして確定し、確定されたノードを跨ぐアークを無効
化するようにしている。
目的を達成するために、音声を音素、音節、単語などの
認識単位の系列として認識し、その途中結果を有向グラ
フ型のデータ構造を用いて表現する際に、音声から特徴
パラメータを抽出し、上記音素、音節、単語などの認識
単位の境界点を検出し、その検出の確信度があらかじめ
設定されている閾値より高い境界点を有向グラフのノー
ドとして確定し、確定されたノードを跨ぐアークを無効
化するようにしている。
【0010】この構成によれば、韻律情報や音韻情報の
特徴パラメータを用いて、音素、音節、単語などの候補
の認識とは独立に、音素、音節、単語などの境界位置を
検出し、境界位置で分割された区間に対し、それぞれ独
立に有向グラフ型のデータ構造を作成する処理を行う。
音素や音節を単位とした有向グラフ型のデータ構造に、
文節などの境界の情報が付与されているため、言語認識
処理において、正しい文節境界を跨いで、単語や文節の
仮説が生成されない。また上記の分割された区間に対す
るグラフを、独立した部分グラフとして扱い、それを単
位として、次段の処理にグラフを渡すこともできる。こ
れにより、有向グラフ型のデータ構造を作成する処理と
次段の処理を並列化することが可能である。
特徴パラメータを用いて、音素、音節、単語などの候補
の認識とは独立に、音素、音節、単語などの境界位置を
検出し、境界位置で分割された区間に対し、それぞれ独
立に有向グラフ型のデータ構造を作成する処理を行う。
音素や音節を単位とした有向グラフ型のデータ構造に、
文節などの境界の情報が付与されているため、言語認識
処理において、正しい文節境界を跨いで、単語や文節の
仮説が生成されない。また上記の分割された区間に対す
るグラフを、独立した部分グラフとして扱い、それを単
位として、次段の処理にグラフを渡すこともできる。こ
れにより、有向グラフ型のデータ構造を作成する処理と
次段の処理を並列化することが可能である。
【0011】また、この構成においては、前記特徴パラ
メータは韻律情報を表すものを含み、上記韻律情報によ
り文節の境界点を検出するようにしてもよい。
メータは韻律情報を表すものを含み、上記韻律情報によ
り文節の境界点を検出するようにしてもよい。
【0012】また、前記特徴パラメータは音韻情報を表
すものを含み、上記音韻情報により音節の境界点を検出
するようにしてもよい。
すものを含み、上記音韻情報により音節の境界点を検出
するようにしてもよい。
【0013】さらに、この発明によれば、上述の目的を
達成するために、音声を音素、音節、単語など認識単位
の系列として認識し、その途中結果を有向グラフ型のデ
ータ構造を用いて表現する際に、音声から音韻情報を表
す特徴パラメータを抽出し、音素、音節など第1の認識
単位の境界点を検出し、その検出の確信度があらかじめ
設定されている閾値より高い境界点を有向グラフのノー
ドとして確定し、かつ、上記音声から韻律情報を表す特
徴パラメータを抽出し、文節など第2の認識単位の境界
点を検出し、その検出の確信度があらかじめ設定されて
いる閾値より高い境界点を有向グラフのノードとして確
定し、上記音素、音節など第1の認識単位の境界点およ
び上記文節など第2の認識単位の境界点をノードとして
確定し、確定されたノードを跨ぐアークを無効化するよ
うにしている。
達成するために、音声を音素、音節、単語など認識単位
の系列として認識し、その途中結果を有向グラフ型のデ
ータ構造を用いて表現する際に、音声から音韻情報を表
す特徴パラメータを抽出し、音素、音節など第1の認識
単位の境界点を検出し、その検出の確信度があらかじめ
設定されている閾値より高い境界点を有向グラフのノー
ドとして確定し、かつ、上記音声から韻律情報を表す特
徴パラメータを抽出し、文節など第2の認識単位の境界
点を検出し、その検出の確信度があらかじめ設定されて
いる閾値より高い境界点を有向グラフのノードとして確
定し、上記音素、音節など第1の認識単位の境界点およ
び上記文節など第2の認識単位の境界点をノードとして
確定し、確定されたノードを跨ぐアークを無効化するよ
うにしている。
【0014】この構成においても、音素や音節を単位と
した有向グラフ型のデータ構造に、文節などの境界の情
報が付与されているため、言語認識処理において、正し
い文節境界を跨いで、単語や文節の仮説が生成されな
い。
した有向グラフ型のデータ構造に、文節などの境界の情
報が付与されているため、言語認識処理において、正し
い文節境界を跨いで、単語や文節の仮説が生成されな
い。
【0015】
【発明の実施の態様】以下この発明を、HMM法を用い
た音声認識装置に適用した実施例について説明する。な
おこの実施例では、音響モデル及び認識単位を音節とし
ている。
た音声認識装置に適用した実施例について説明する。な
おこの実施例では、音響モデル及び認識単位を音節とし
ている。
【0016】図1はこの実施例の構成を示すものであ
る。図1においては、主に音響分析および音節グラフ生
成に関する部分を示しており、生成された音声グラフに
ついて言語的な分析を行い音声認識結果を出力する部分
については説明を省いている。図1において、音響分析
部10は入力音声信号を分析して特徴パラメータを出力
するものであり、LPC分析部11、自己相関計算部1
2を有している。LPC分析部11はLPC予測残差信
号およびLPC係数を出力する。自己相関計算部12は
LPC予測残差信号を受け取ってピッチ信号および音源
パワー信号を出力する。
る。図1においては、主に音響分析および音節グラフ生
成に関する部分を示しており、生成された音声グラフに
ついて言語的な分析を行い音声認識結果を出力する部分
については説明を省いている。図1において、音響分析
部10は入力音声信号を分析して特徴パラメータを出力
するものであり、LPC分析部11、自己相関計算部1
2を有している。LPC分析部11はLPC予測残差信
号およびLPC係数を出力する。自己相関計算部12は
LPC予測残差信号を受け取ってピッチ信号および音源
パワー信号を出力する。
【0017】コード発生部13はLPC係数を受け取っ
てコードブックを参照してコード列を出力するものであ
る。境界位置検出部14は音節境界検出部15および文
節境界検出部16を有し、音節境界検出部15はLPC
係数および音源パワー信号を受け取ってこれに基づいて
音節の境界を検出するものである。文節境界検出部16
はピッチ信号および音源パワー信号に基づいて文節の境
界を検出するものである。
てコードブックを参照してコード列を出力するものであ
る。境界位置検出部14は音節境界検出部15および文
節境界検出部16を有し、音節境界検出部15はLPC
係数および音源パワー信号を受け取ってこれに基づいて
音節の境界を検出するものである。文節境界検出部16
はピッチ信号および音源パワー信号に基づいて文節の境
界を検出するものである。
【0018】有向グラフ作成部17はコード発生部13
から出力されるコード列を音節のHMMモデルに照合し
て有向グラフを生成するものである。この有向グラフ作
成部17はさらに境界位置検出部10からの境界位置検
出信号に基づいて有向グラフのノードを確定するように
なっている。
から出力されるコード列を音節のHMMモデルに照合し
て有向グラフを生成するものである。この有向グラフ作
成部17はさらに境界位置検出部10からの境界位置検
出信号に基づいて有向グラフのノードを確定するように
なっている。
【0019】以上の構成において、音響分析部10は音
声信号を分析し、音韻情報と韻律情報を表す特徴パラメ
ータを抽出して境界位置検出部14に入力する。音韻情
報を表す特徴パラメータにはLPC係数およびパワーを
用いる。韻律情報を表す特徴パラメータにはピッチおよ
びパワーを用いる。これらの音韻情報と韻律情報の抽出
は、時間に同期して行われる。これらの情報が抽出され
た時間の単位をフレームと呼ぶ。境界位置検出部14の
文節境界検出部16は、特徴パラメータと文節境界を決
定する基準・規則を比較して、十分な確信度で文節境界
であると判定されたとき、文節境界信号を発生する。ま
た、境界位置検出部14の音節境界検出部15は、特徴
パラメータの系列と音節の境界を決定する基準・規則を
比較して、音節境界信号を発生する。
声信号を分析し、音韻情報と韻律情報を表す特徴パラメ
ータを抽出して境界位置検出部14に入力する。音韻情
報を表す特徴パラメータにはLPC係数およびパワーを
用いる。韻律情報を表す特徴パラメータにはピッチおよ
びパワーを用いる。これらの音韻情報と韻律情報の抽出
は、時間に同期して行われる。これらの情報が抽出され
た時間の単位をフレームと呼ぶ。境界位置検出部14の
文節境界検出部16は、特徴パラメータと文節境界を決
定する基準・規則を比較して、十分な確信度で文節境界
であると判定されたとき、文節境界信号を発生する。ま
た、境界位置検出部14の音節境界検出部15は、特徴
パラメータの系列と音節の境界を決定する基準・規則を
比較して、音節境界信号を発生する。
【0020】境界位置検出部14の音節境界検出部15
における音節境界検出は、音節境界パターンと特徴パラ
メータのマッチングを行うことで実現できるが、本実施
例においては、全ての音節境界を求める必要はないた
め、可能な全ての音節境界パターンとのマッチングは行
わず、検出の容易な音節境界パターンのみを用いる。ま
た、境界位置検出のコストを削減するため、類似の音節
境界パターンについては、共通のパターンを用いてマッ
チングを行う。ここで使用される特徴パラメータは、音
節境界パターン毎に異なっていてもよい。
における音節境界検出は、音節境界パターンと特徴パラ
メータのマッチングを行うことで実現できるが、本実施
例においては、全ての音節境界を求める必要はないた
め、可能な全ての音節境界パターンとのマッチングは行
わず、検出の容易な音節境界パターンのみを用いる。ま
た、境界位置検出のコストを削減するため、類似の音節
境界パターンについては、共通のパターンを用いてマッ
チングを行う。ここで使用される特徴パラメータは、音
節境界パターン毎に異なっていてもよい。
【0021】具体的な音節境界位置検出の手法として
は、例えば特開平2−204796号公報の手法を用い
ることができ、母音−子音連鎖標準パターンと母音−母
音連鎖標準パターンを用いて音節境界候補を求め、さら
に音節境界候補によって切り出された音節区間候補と音
節標準パターンとのマッチングを行い、音節境界のマッ
チングと音節区間のマッチングが整合するものを音節境
界として確定する。
は、例えば特開平2−204796号公報の手法を用い
ることができ、母音−子音連鎖標準パターンと母音−母
音連鎖標準パターンを用いて音節境界候補を求め、さら
に音節境界候補によって切り出された音節区間候補と音
節標準パターンとのマッチングを行い、音節境界のマッ
チングと音節区間のマッチングが整合するものを音節境
界として確定する。
【0022】音節境界位置検出の判定については、音節
境界パターンと特徴パラメータのマッチングの尤度と、
そのフレームが真の音節境界である確率について、音声
サンプルデータに対して、あらかじめ統計をとってお
く。真の音節境界である確率が、グラフに正しい音韻列
が存在する確率と比較して十分に高くなるマッチングの
尤度が得られたとき、音節境界位置が検出されたと判定
する。例えば、音響分析部10を用いずに作成したグラ
フに正しい音韻列が存在する確率が90%であり、1つ
のグラフにつき音節境界が3カ所程度検出されるとすれ
ば、検出された音節境界が正しいものである確率は97
%以上でなければならない。これは、誤った音節境界を
検出し、それをグラフのノードとして確定した場合、生
成されたグラフには正しい音韻列に相当する経路が存在
しないためである。グラフ全体の音節境界が正しい確率
は、各音節境界が正しい確率の積であるから、一つ一つ
の音節境界が正しい確率は非常に高いものであることが
要求される((0.97)3≒0.91)。音節境界パ
ターン毎に、必要とされる精度で音節境界を検出するた
めの、マッチングの尤度をテーブルとして記憶してお
く。特徴パラメータと音節境界パターンのマッチングの
結果、該テーブルの項目の値以上の尤度であったとき、
音節境界を確定する。
境界パターンと特徴パラメータのマッチングの尤度と、
そのフレームが真の音節境界である確率について、音声
サンプルデータに対して、あらかじめ統計をとってお
く。真の音節境界である確率が、グラフに正しい音韻列
が存在する確率と比較して十分に高くなるマッチングの
尤度が得られたとき、音節境界位置が検出されたと判定
する。例えば、音響分析部10を用いずに作成したグラ
フに正しい音韻列が存在する確率が90%であり、1つ
のグラフにつき音節境界が3カ所程度検出されるとすれ
ば、検出された音節境界が正しいものである確率は97
%以上でなければならない。これは、誤った音節境界を
検出し、それをグラフのノードとして確定した場合、生
成されたグラフには正しい音韻列に相当する経路が存在
しないためである。グラフ全体の音節境界が正しい確率
は、各音節境界が正しい確率の積であるから、一つ一つ
の音節境界が正しい確率は非常に高いものであることが
要求される((0.97)3≒0.91)。音節境界パ
ターン毎に、必要とされる精度で音節境界を検出するた
めの、マッチングの尤度をテーブルとして記憶してお
く。特徴パラメータと音節境界パターンのマッチングの
結果、該テーブルの項目の値以上の尤度であったとき、
音節境界を確定する。
【0023】文節境界検出に関しては、本実施例におい
ては、ピッチ、音声パワーの変化量などを用いて、過大
な計算コストをかけずに、また、検出された文節境界に
関しては、正しい文節境界である確率が十分に高いもの
であるように、文節境界検出を行う。必ずしも全ての文
節境界を検出する必要はない。
ては、ピッチ、音声パワーの変化量などを用いて、過大
な計算コストをかけずに、また、検出された文節境界に
関しては、正しい文節境界である確率が十分に高いもの
であるように、文節境界検出を行う。必ずしも全ての文
節境界を検出する必要はない。
【0024】具体的な文節境界検出の手法としては、例
えばM.Nakai他:”Automatic Pro
sodic Segmentation by F0
Clustering Using Superpos
ition Modeling”,ICASSP−9
5,pp.624−627(1995)に紹介される手
法があり、ピッチの包絡線の1段階DPマッチングによ
ってアクセントフレーズ境界の検出を行う。前記DPマ
ッチングのテンプレートはピッチのパターンをクラスタ
リングした各クラスタのセントロイドである。
えばM.Nakai他:”Automatic Pro
sodic Segmentation by F0
Clustering Using Superpos
ition Modeling”,ICASSP−9
5,pp.624−627(1995)に紹介される手
法があり、ピッチの包絡線の1段階DPマッチングによ
ってアクセントフレーズ境界の検出を行う。前記DPマ
ッチングのテンプレートはピッチのパターンをクラスタ
リングした各クラスタのセントロイドである。
【0025】文節境界検出に関しても、音節境界検出と
同様に、文節境界検出を行わないで作成されるグラフに
正しい音韻列が含まれる確率に比べ、十分に高い確率
で、文節境界であると判定されるフレームに対しての
み、文節境界が検出されたと判定する。
同様に、文節境界検出を行わないで作成されるグラフに
正しい音韻列が含まれる確率に比べ、十分に高い確率
で、文節境界であると判定されるフレームに対しての
み、文節境界が検出されたと判定する。
【0026】有向グラフ作成部17は、時間に同期し
た、特徴パラメータ系列を音節の認識候補列として認識
して、認識結果を有向グラフ型のデータ構造にまとめる
処理と、発話の区切りを検出した後に、候補間の境界位
置の確定し、スコアの低いアークをグラフから取り除く
などの、後戻り処理を行う。
た、特徴パラメータ系列を音節の認識候補列として認識
して、認識結果を有向グラフ型のデータ構造にまとめる
処理と、発話の区切りを検出した後に、候補間の境界位
置の確定し、スコアの低いアークをグラフから取り除く
などの、後戻り処理を行う。
【0027】有向グラフ作成部17は、境界位置検出部
14から音節境界信号を受け取ると、発話の区切りを検
出したとして後戻り処理に入る。このとき、音節境界直
前のフレームが音節モデルの最終状態に対応している音
節候補以外の候補は棄却される。
14から音節境界信号を受け取ると、発話の区切りを検
出したとして後戻り処理に入る。このとき、音節境界直
前のフレームが音節モデルの最終状態に対応している音
節候補以外の候補は棄却される。
【0028】ここで、有向グラフ作成部17から独立し
た境界位置検出部14を持たない場合に作成されるグラ
フと、本実施例で作成されるグラフを比較する。本実施
例で作成されるグラフでは1つのノードに収束している
時点で(図2)、境界位置検出部14を使用しないグラ
フでは、ノードと幾つかのアークが存在し、正しい音韻
列に対応しない無駄な仮説を残している(図3)。
た境界位置検出部14を持たない場合に作成されるグラ
フと、本実施例で作成されるグラフを比較する。本実施
例で作成されるグラフでは1つのノードに収束している
時点で(図2)、境界位置検出部14を使用しないグラ
フでは、ノードと幾つかのアークが存在し、正しい音韻
列に対応しない無駄な仮説を残している(図3)。
【0029】文節境界信号を受け取ったときは、ノード
に文節境界マークを付与する。そのようなグラフの例が
図4である。これは、「数字に変わります」という入力
に対するグラフであるが、「数字に」と「変わります」
という2つの文節からなる。文節境界検出ノードに文節
境界マークがあれば、言語認識処理において、該ノード
を跨いで単語仮説が生成されることはないが、文節境界
マークがなければ、「数字化あります」のように、正し
い文節境界を跨いだ単語仮説「数字化」などが生成され
る。
に文節境界マークを付与する。そのようなグラフの例が
図4である。これは、「数字に変わります」という入力
に対するグラフであるが、「数字に」と「変わります」
という2つの文節からなる。文節境界検出ノードに文節
境界マークがあれば、言語認識処理において、該ノード
を跨いで単語仮説が生成されることはないが、文節境界
マークがなければ、「数字化あります」のように、正し
い文節境界を跨いだ単語仮説「数字化」などが生成され
る。
【0030】後戻り処理と境界位置の次からのフレーム
に対する音節候補の生成の処理を並列化してもよい。
に対する音節候補の生成の処理を並列化してもよい。
【0031】有向グラフ作成部17は、作成した音節グ
ラフを、時間に非同期で次段の処理に渡す。発話の終了
に際しては、発話終了信号を次段の処理に渡す。生成さ
れたグラフは並行処理することもできる。図5は境界位
置検出を行って得た部分グラフを並列処理する例を、比
較例とともに示すものである。境界位置検出部14を用
いずに、入力音声全体を単位として、グラフ作成から言
語認識処理までを行った場合は上段に示すように時間が
かかるが、境界位置検出手部14を用いて、部分グラフ
を単位として並列的に処理を行うと、図の下段に示すよ
うに、処理時間の短縮が実現される。この例では、特に
言語認識処理に文節単位の文法を用い、文節境界を検出
すると、それ以降の言語認識処理を、文節境界以前の言
語認識処理と並列的に行うようにしている。
ラフを、時間に非同期で次段の処理に渡す。発話の終了
に際しては、発話終了信号を次段の処理に渡す。生成さ
れたグラフは並行処理することもできる。図5は境界位
置検出を行って得た部分グラフを並列処理する例を、比
較例とともに示すものである。境界位置検出部14を用
いずに、入力音声全体を単位として、グラフ作成から言
語認識処理までを行った場合は上段に示すように時間が
かかるが、境界位置検出手部14を用いて、部分グラフ
を単位として並列的に処理を行うと、図の下段に示すよ
うに、処理時間の短縮が実現される。この例では、特に
言語認識処理に文節単位の文法を用い、文節境界を検出
すると、それ以降の言語認識処理を、文節境界以前の言
語認識処理と並列的に行うようにしている。
【0032】
【発明の効果】以上説明したように、この発明によれ
ば、比較的長い発話に対しても、有向グラフ型のデータ
構造が適当な間隔で一つのノードに収束するため、グラ
フのサイズはあまり大型化しない。これにより、言語認
識処理に過大な負荷がかからなくなる。
ば、比較的長い発話に対しても、有向グラフ型のデータ
構造が適当な間隔で一つのノードに収束するため、グラ
フのサイズはあまり大型化しない。これにより、言語認
識処理に過大な負荷がかからなくなる。
【0033】また、有向グラフ作成の処理と言語認識処
理の並列化が可能となる。2つの処理の並列化により、
音声入力から認識結果出力までに要する時間が短縮化さ
れる。
理の並列化が可能となる。2つの処理の並列化により、
音声入力から認識結果出力までに要する時間が短縮化さ
れる。
【0034】また、正しい文節境界を跨いで無駄な単語
候補を生成しないため、言語認識処理に余分な負荷がか
からない。
候補を生成しないため、言語認識処理に余分な負荷がか
からない。
【図1】この発明の実施例を示すブロック図である。
【図2】実施例において、音節境界を検出し、その音節
境界がノードであることを条件に作成された、音節グラ
フの例である。
境界がノードであることを条件に作成された、音節グラ
フの例である。
【図3】図2の例において音節境界がノードであるとし
ないで作成した従来の音節グラフの例である。
ないで作成した従来の音節グラフの例である。
【図4】実施例において、文節境界を検出し、その文節
境界がノードであることを条件として作成された音節グ
ラフの例である。
境界がノードであることを条件として作成された音節グ
ラフの例である。
【図5】実施例において、音節境界・文節境界で区切ら
れた部分グラフを単位として、並列的に処理を行う例を
説明する図である。
れた部分グラフを単位として、並列的に処理を行う例を
説明する図である。
10 音響分析部 11 LPC分析部 12 自己相関計算部 13 コード発生部 14 境界位置検出部 15 音節境界検出部 16 文節境界検出部 17 グラフ作成部
Claims (4)
- 【請求項1】 音声を音素、音節、単語などの認識単位
の系列として認識し、その途中結果を有向グラフ型のデ
ータ構造を用いて表現する際に、音声から特徴パラメー
タを抽出し、上記音素、音節、単語などの認識単位の境
界点を検出し、その検出の確信度があらかじめ設定され
ている閾値より高い境界点を有向グラフのノードとして
確定し、確定されたノードを跨ぐアークを無効化するこ
とを特徴とする音声認識装置。 - 【請求項2】 前記特徴パラメータは韻律情報を表すも
のを含み、上記韻律情報により文節の境界点を検出する
ことを特徴とする請求項1記載の音声認識装置。 - 【請求項3】 前記特徴パラメータは音韻情報を表すも
のを含み、上記音韻情報により音節の境界点を検出する
ことを特徴とする請求項1または2記載の音声認識装
置。 - 【請求項4】 音声を音素、音節、単語など認識単位の
系列として認識し、その途中結果を有向グラフ型のデー
タ構造を用いて表現する際に、音声から音韻情報を表す
特徴パラメータを抽出し、音素、音節など第1の認識単
位の境界点を検出し、その検出の確信度があらかじめ設
定されている閾値より高い境界点を有向グラフのノード
として確定し、かつ、上記音声から韻律情報を表す特徴
パラメータを抽出し、文節など第2の認識単位の境界点
を検出し、その検出の確信度があらかじめ設定されてい
る閾値より高い境界点を有向グラフのノードとして確定
し、上記音素、音節など第1の認識単位の境界点および
上記文節など第2の認識単位の境界点をノードとして確
定し、確定されたノードを跨ぐアークを無効化すること
を特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8086509A JPH09274496A (ja) | 1996-04-09 | 1996-04-09 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8086509A JPH09274496A (ja) | 1996-04-09 | 1996-04-09 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09274496A true JPH09274496A (ja) | 1997-10-21 |
Family
ID=13888956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8086509A Pending JPH09274496A (ja) | 1996-04-09 | 1996-04-09 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH09274496A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7653541B2 (en) | 2002-11-21 | 2010-01-26 | Sony Corporation | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech |
-
1996
- 1996-04-09 JP JP8086509A patent/JPH09274496A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7653541B2 (en) | 2002-11-21 | 2010-01-26 | Sony Corporation | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zissman et al. | Automatic language identification | |
US20170133038A1 (en) | Method and apparatus for keyword speech recognition | |
US7181391B1 (en) | Method, apparatus, and system for bottom-up tone integration to Chinese continuous speech recognition system | |
JPH05197389A (ja) | 音声認識装置 | |
JP2002215187A (ja) | 音声認識方法及びその装置 | |
JPH0340177A (ja) | 音声認識装置 | |
JPH09274496A (ja) | 音声認識装置 | |
JP2880436B2 (ja) | 音声認識装置 | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
JP2905686B2 (ja) | 音声認識装置 | |
JP3766111B2 (ja) | 音声認識装置 | |
JPH0695684A (ja) | 音声認識システム | |
JP3110025B2 (ja) | 発声変形検出装置 | |
JPH05303391A (ja) | 音声認識装置 | |
JPH08123479A (ja) | 連続音声認識装置 | |
JP3231365B2 (ja) | 音声認識装置 | |
Kobayashi et al. | Word boundary detection by pitch contours in an artificial language | |
JPH11184493A (ja) | 音声認識装置および方法 | |
JPH07104782A (ja) | 音声認識装置 | |
Wang et al. | Prosodic modeling of Mandarin speech and its application to lexical decoding. | |
Zhao | HMM based recognition of Chinese tones in continuous speech | |
JPH06266387A (ja) | 音声認識方式 | |
Yanagida et al. | Detection and Identification of Plosive Sounds in Japanese Words | |
JPS6180298A (ja) | 音声認識装置 | |
JPH0981185A (ja) | 連続音声認識装置 |