JPH096385A

JPH096385A - 音声認識装置および方法

Info

Publication number: JPH096385A
Application number: JP7156539A
Authority: JP
Inventors: Yoshiaki Ito; 慶明伊藤; Jiro Kiyama; 次郎木山; Hiroshi Kojima; 浩小島; Susumu Seki; 進関; Ryuichi Oka; 隆一岡
Original assignee: GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO; NIPPON TEKKO RENMEI; Sharp Corp
Current assignee: GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO; NIPPON TEKKO RENMEI; Sharp Corp
Priority date: 1995-06-22
Filing date: 1995-06-22
Publication date: 1997-01-10
Anticipated expiration: 2019-10-13
Also published as: US5799275A; EP0750294A3; DE69620304D1; EP0750294A2; EP0750294B1; DE69620304T2; JP3576272B2

Abstract

(57)【要約】【目的】部分標準パターンの範囲指定を自動化する。【構成】標準パターンの各フレームτ２、τ３．．．
の位置でその位置を終端、それ前のフレームを始端とす
る複数の標準パターンを想定し、その累積距離を計算す
る。その中で累積距離を最小とする部分標準パターンを
部分入力音声パターンの認識結果とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力音声を音声認識す
るための音声認識装置および方法に関し、より詳しくは
順次に入力される入力音声から抽出した特徴パラメータ
系列と音韻等が判明している標準パターンの特徴パラメ
ータ系列との間の距離を連続ＤＰ法により計算し、最も
距離が近くなった時点での標準パターンの特徴パラメー
タ系列を検出することにより文単位の音声認識を行う場
合に、部分文、たとえば単語の音声認識をも行う音声認
識装置および方法に関する。

【０００２】

【従来の技術】連続音声の中の文の区切り毎に、すなわ
ち、連続ＤＰ法を用いて文スポッティングで音声認識を
行う過程で部分文、たとえば単語を認識する方法とし
て、“文スポッティング音声認識における部分文認識と
未知語処理方式”、信学論（Ｄ−ＩＩ）、Ｊ７７−Ｄ−
ＩＩ、Ｎｏ．８（１９９４−８）、伊藤慶明、木山次
郎、岡隆一が提案されている。

【０００３】この方法では、連続単語で表現された標準
パターンの中で予め指定した区間と入力音声との整合度
を標準パターン全体の計算過程で同時に求めることによ
り部分文を認識する。この方法を図１を用いて説明す
る。図１は横軸に入力音声をとり、音声の内容を文字に
より表している。縦軸には標準パターンをとり、その内
容を文字により表している。なお、実際に音声認識を行
う場合には音声から一定時間単位で取り出した音声特
徴、これは一般的に特徴パラメータと呼ばれるが、この
特徴パラメータを時系列的に並べた特徴パラメータ系列
を用いて標準パターンと入力音声の整合を行うが内容の
理解を容易にするためにここでは文字を用いて説明する
ことを了解されたい。

【０００４】標準パターンとして「にわとり」、部分区
間として「にわ」、「とり」を指定した場合を考える。
「に」の音声が入力されると、全ての組み合わせでの距
離計算が行われる。たとえば標準パターン側の「に」と
入力音声側の「に」の間の距離や標準パターン側の
「に」、「わ」．．．のそれぞれと入力音声パターン側
の「に」の間の距離が計算される。次に音声の「わ」が
入力されると、標準パターン側の「に」と入力音声パタ
ーン側の「わ」との間の距離、標準パターン側の「わ」
と入力音声パターン側の「わ」との間の距離が計算され
る。このようにして得られる距離計算の結果は前時点の
距離計算結果に累積されて行く。ある時点の入力音声と
標準パターン側の部分パターンとの間の距離計算結果は
前の時点の距離計算結果に加えられ、いくつかの計算結
果の中から結合の最適ルートが決定される。組み合わせ
パターンには図２に示すような入力音声と標準パターン
の時間的伸縮を吸収するようにした組み合わせが良く用
いられる。本例に当てはめるとＡ点は図２のＰ点の位置
を部分標準パターン「にわと」と入力音声「にわと」の
間の累積距離とすると、この累積距離としてはＡ→Ｂ→
Ｐの経路で得られる累積距離と、Ｃ→Ｐの経路で得られ
る累積距離と，Ｅ→Ｄ→Ｐの経路で得られる累積距離の
中の最小距離が用いられる。ちなみに、Ａ点の累積距離
は標準パターン側の「にわ」と、入力音声側の「に」と
の間の累積距離となる。Ｃ点の累積距離は標準パターン
側の「にわ」と、入力音声パターン側の「にわ」との間
の累積距離となる。このようにして入力音声が入力され
る毎にいろいろな組み合わせにおける累積距離を決定し
ていく。標準パターン「にわとり」と現時点での入力音
声との累積距離に着目していくと、入力音声が「にわと
り」になった時点で累積距離がしきい値以下となるの
で、この時点で入力音声は「にわとり」と認識される。
なお、標準パターンは複数用意されているので、各標準
パターンについて上述の距離計算（連続ＤＰ法による計
算と呼ばれる）を行うことはいうまでもない。このよう
な処理を実行することにより連続的に音声で入力される
複数の文の中から特定標準パターンに合致する文をスポ
ッティング的に認識する。

【０００５】部分文「とり」の累積距離を取得する場合
には図１に示すように「にわとり」の累積距離Ｄ２から
「にわ」の累積距離Ｄ１を差し引く。

【０００６】

【発明が解決しようとする課題】しかしながら、この方
法では部分文の距離を得るためには部分文の範囲を手動
で指示しなければならない。そこで、本発明は上述の点
に鑑みて、任意の部分文の標準パターンと入力音声との
間の距離を自動的取得できる音声認識装置および方法を
提供することを目的とする。

【０００７】

【課題を解決するための手段】このような目的を達成す
るために、請求項１の発明は、入力音声信号から抽出し
た入力音声パターンと文の標準パターンとの間の距離計
算を連続ＤＰ法にしたがってフレーム単位で順次に実行
し、当該得られたフレーム単位の距離計算結果を前記標
準パターンの始端位置から終端位置に向かって累積し、
前記標準パターンの終端位置に対応する累積結果がしき
い値よりも小さくなった場合に前記標準パターンを前記
入力音声パターンの中の一部についての認識結果とする
音声認識装置において、前記標準パターンの始端位置と
終端位置の間の各フレーム位置で、当該フレーム位置を
部分標準パターンの終端とみなし、該フレーム位置の累
積結果と前記始端位置に近いフレーム位置の各々の累積
結果との差分値を計算する第１の演算処理手段と、当該
計算された差分値の中の最小の差分値を検出し、当該検
出された最小の差分値に対応する部分標準パターンを前
記入力音声パターンの中の部分音声パターンの認識結果
とする第２の演算処理手段とを具えたことを特徴とす
る。

【０００８】請求項２の発明は、請求項１の発明に加え
て、前記部分標準パターンの終端から始端までのフレー
ム数を特定数以上に制限することを特徴とする。

【０００９】請求項３の発明は、入力音声信号から抽出
した入力音声パターンと標準パターンとの間の距離計算
を連続ＤＰ法にしたがってフレーム単位で順次に音声認
識装置において実行し、当該得られたフレーム単位の距
離計算結果を前記標準パターンの始端位置から終端位置
に向かって前記音声認識装置内で累積し、前記標準パタ
ーンの終端位置に対応する累積結果がしきい値よりも小
さくなった場合に前記標準パターンを前記入力音声パタ
ーンの中の一部についての認識結果とする音声認識方法
において、前記標準パターンの始端位置と終端位置の間
の各フレーム位置で、当該フレーム位置を部分標準パタ
ーンの終端とみなし、該フレーム位置の累積結果と前記
始端位置に近いフレーム位置の各々の累積結果との差分
値を前記音声認識装置内で計算し、当該計算された差分
値の中の最小の差分値を前記音声認識装置において検出
し、当該検出された最小の差分値に対応する部分標準パ
ターンを前記入力音声パターンの中の部分音声パターン
の認識結果として音声認識装置から出力することを特徴
とする。

【００１０】請求項４の発明は、請求項３の発明に加え
て、前記部分標準パターンの終端から始端までのフレー
ム数を特定数以上に制限することを特徴とする。

【００１１】請求項５の発明は、入力音声信号から抽出
した入力音声パターンと文の標準パターンとの間の距離
計算を連続ＤＰ法にしたがってフレーム単位で順次に実
行し、当該得られたフレーム単位の距離計算結果を前記
標準パターンの始端位置から終端位置に向かって累積
し、前記標準パターンの終端位置に対応する累積結果が
しきい値よりも小さくなった場合に前記標準パターンを
前記入力音声パターンの中の一部についての認識結果と
する音声認識装置において、前記標準パターンの始端位
置と終端位置の間の各フレーム位置で、当該フレーム位
置を部分標準パターンの終端とみなし、該フレーム位置
の累積結果と前記始端位置に近いフレーム位置の各々の
累積結果との差分値を計算する第１の演算処理手段と、
当該計算された差分値の中の最小の差分値を検出し、当
該検出された最小の差分値に対応する部分標準パターン
を前記入力音声パターンの中の部分音声パターンの認識
結果とする第２の演算処理手段とを具え、前記標準パタ
ーンを現時点から前の時点に向って一定の長さＷの入力
音声パターンとすることを特徴とする。

【００１２】請求項６の発明は、請求項５の発明に加え
て、前記一定の長さＷの入力音声パターンを記憶するバ
ッファを有し、フレーム単位の新しい入力音声パターン
が得られる毎に当該新しい入力パターン１フレームを前
記バッファに累積すると共に、当該バッファの最も古い
入力パターン１フレームを前記バッファから消去するこ
とを特徴とする。

【００１３】請求項７の発明は、入力音声信号から抽出
した入力音声パターンと文の標準パターンとの間の距離
計算を連続ＤＰ法にしたがってフレーム単位で順次に実
行し、当該得られたフレーム単位の距離計算結果を前記
標準パターンの始端位置から終端位置に向かって累積
し、前記標準パターンの終端位置に対応する累積結果が
しきい値よりも小さくなった場合に前記標準パターンを
前記入力音声パターンの中の一部についての認識結果と
する音声認識装置において、前記標準パターンの始端位
置と終端位置の間の各フレーム位置で、当該フレーム位
置を部分標準パターンの終端とみなし、該フレーム位置
の累積結果と前記始端位置に近いフレーム位置の各々の
累積結果との差分値を計算する第１の演算処理手段と、
当該計算された差分値の中の最小の差分値を検出し、当
該検出された最小の差分値に対応する部分標準パターン
を前記入力音声パターンの中の部分音声パターンの認識
結果とする第２の演算処理手段とを具え、当該定められ
た部分音声パターンの認識結果複数について、時系列順
に隙間および重複なく合成することを特徴とする。

【００１４】請求項８の発明は、請求項７の発明に加え
て、合成された前記認識結果複数を音声で再生出力する
ことを特徴とする。

【００１５】請求項９の発明は、入力音声信号から抽出
した入力音声パターンと文の標準パターンとの間の距離
計算を連続ＤＰ法にしたがってフレーム単位で順次に実
行し、当該得られたフレーム単位の距離計算結果を前記
標準パターンの始端位置から終端位置に向かって累積
し、前記標準パターンの終端位置に対応する累積結果が
しきい値よりも小さくなった場合に前記標準パターンを
前記入力音声パターンの中の一部についての認識結果と
する音声認識装置において、前記標準パターンの始端位
置と終端位置の間の各フレーム位置で、当該フレーム位
置を部分標準パターンの終端とみなし、該フレーム位置
の累積結果と前記始端位置に近いフレーム位置の各々の
累積結果との差分値を計算する第１の演算処理手段と、
当該計算された差分値の中の最小の差分値を検出し、当
該検出された最小の差分値に対応する部分標準パターン
を前記入力音声パターンの中の部分音声パターンの認識
結果とする第２の演算処理手段と、前記部分音声パター
ンの認識結果についてその時間軸上の通過頻度を計数す
る計数手段と、当該計数した通過頻度がしきい値以下と
なる時点を検出し、話題の境界位置と定める境界位置検
出手段とを具えたことを特徴とする。

【００１６】

【作用】請求項１、３の発明では、標準パターンの中の
各フレームと入力パターンの各フレームとの間の距離計
算および累積計算を行う際に、標準パターンの中のフレ
ームを部分標準パターンの終端とみなし、従来、手動で
指示していた位置を自動指定する。また、この始端位置
と前の各フレームを始端とする複数の部分標準パターン
を設定し、累積距離を差分計算により取得する。取得さ
れた累積距離の中で最小の累積距離を有する部分標準パ
ターンが部分入力パターンに対して最も的確性を有す
る。

【００１７】請求項２、４の発明では、部分標準パター
ンとして取り出すフレーム数を特定数以上とすることで
文字についての認識を省略し単語単位での認識が可能と
なる。

【００１８】請求項５の発明では、標準パターンを入力
音声パターンから作成することにより一定長さの入力音
声パターンに含まれる複数の同一の単語等の部分文が部
分音声の認識結果として得られる。

【００１９】請求項６の発明では、バッファにＦＩＦＯ
メモリ等を用いることができメモリ容量の節約が図れ
る。

【００２０】請求項７の発明では、部分音声パターンの
認識結果が１つに合成されるので、その内容は音声の要
約あるいはキーワード群として取扱うことができる。

【００２１】請求項８の発明では、合成内容を音声で再
生出力することにより送話者の要約を耳で確認すること
ができる。

【００２２】請求項９の発明では、送話者の話題の切れ
目を自動検出できる。

【００２３】

【実施例】以下、図面を使用して、本発明の実施例を詳
細に説明する。

【００２４】（第１実施例）まず、本実施例における音
声認識方法を説明する。

【００２５】標準パターン列Ｒ，入力パターン列Ｉを以
下の数１式で表す。

【００２６】

【数１】Ｒ＝τ（１），τ（２），…τ（ｒ），…τ（Ｔ）Ｉ＝ｉ（−∞），…ｉ（ｉ），…ｉ（∞）ここで、τ（ｒ）は標準パラメータ系列の中のｒ番目の
特徴パラメータを示し、ｉ（ｉ）は入力音声から取得
した入力パターン系列の中のｉ番目の特徴パラメータを
示す。また、本実施例ではこの特徴パラメータが得られ
た音声の単位部分をフレームと呼び、入力時刻をｔで表
すことにする。入力パターンと標準パターンとに共通す
る区間を標準パターンおよび入力パターンについて以下
のように定める。

【００２７】

【数２】Ｒｃ＝τ（τ１），τ（τ１＋１），…τ（τ２）Ｉｃ＝ｉ（ｔ１），ｉ（ｔ１＋１），…ｉ（ｔ２）標準パターンの各フレームτ（τ）では各時刻において
そのフレームを終端とするパスに対し累積距離の履歴を
全て保持することによりそのフレーム数前の区間距離は
この履歴の差として計算できる。その区間フレーム数で
区間距離を正規化すれば２つの区間の整合度を比較する
することが可能となる。例えば図３で時刻ｔ１において
フレームτ３からτ６までの正規化距離は（Ｄ（６，
３）−Ｄ（６，３））／３で求められ、τ３からτ５ま
での正規化距離（Ｄ（５，３）−Ｄ（５，３））／２等
と比較することができる。ここでＤ（τ２，τ１）｛τ
１≦τ２｝はフレームτ（τ２）に至るパス上のフレー
ムτ（τ１）における累積距離を表している。これによ
り連続した音声入力に対して標準パターンの連続ＤＰ計
算を行う過程で任意の区間同士の整合度を効率的に計算
することができる。また、必要があれば、単語の最短、
最長継続時間として履歴フレーム数に制限を与えること
も可能である。

【００２８】連続ＤＰ法では得られた最適パスの中の部
分パスについてもその最適性が保証される。たとえば、
図４で（ｔ０，τ０）〜（ｔ３，τ３）間で最適となっ
た場合、（ｔｊ，τｊ）〜（ｔ３，τ３）間のパスも最
適となる。また、連続ＤＰ法のように始端をフリーとし
てｔ０を決定した場合、τ１〜τ３間でも最適パスとな
る。しかし、この場合でもτ１〜τ３間が最適となって
いる保証はなく、τ１〜τ３間には点線で示すような最
適パスが存在することも可能である。すなわち、連続Ｄ
Ｐ法のように始端をフリーとする場合には標準パターン
全体の最適パスから得られる部分パスは必ずしも最適パ
スになるという保証は得られない。しかしながら、部分
分スポッティング実験では最適パスになっていなくても
性能の低下はみられなかった。

【００２９】以上の原理に基づき区間累積距離を計算す
る手順を次に説明する。縦軸を標準パターンの時間軸τ
（１≦τ≦Ｔ）、各フレームをτ（τ）とし、横軸を入
力音声の時間軸とする。時刻ｔの入力音声のフレームと
標準パターンのフレームτとの局所距離をｄ（ｔ，τ）
とする。

【００３０】連続ＤＰの計算で用いる傾斜制限として図
２のように対象の重み係数を持つものとする。Ｄ（ｔ
１，τ２，τ１）、Ｌ（ｔ，τ２，τ１）、Ｓ（ｔ，τ
２，τ１）によりそれぞれ時刻ｔにおけるτ２を終端フ
レームとするパス上でフレームτ１に至るまでの累積距
離、累積重み係数およびフレームτ１を通過した入力時
刻を表す。したがって、たとえばＤ（ｔ，τ２，０）を
０とすると、Ｄ（ｔ，τ２，τ２）は時刻ｔにおけるフ
レーム０〜τ２に至るまでの累積距離を表すことにな
る。また、時刻ｔにおけるτ１〜τ２の区間累積距離は
Ｄ（ｔ，τ２，τ２）−Ｄ（ｔ，τ２，τ１−１））と
なる。なお、図３におけるＤ（τ１，τ２）はＤ（ｔ，
τ１，τ２）のことである。

【００３１】初期条件を

【００３２】

【数３】Ｄ（−１，τ２，τ１）＝Ｄ（０，τ２，τ１）＝ＣＯＮＳＴＬ（−１，τ２，τ１）＝Ｌ（０，τ２，τ１）＝０Ｓ（−１，τ２，τ１）＝Ｌ（０，τ２，τ１）＝−１（１≦τ１≦τ２≦Ｔ）とする。ここでＣＯＮＳＴとは最長のフレーム数（Ｔ）
で正規化を行っても整合度が低くなるように大きな定数
を与えておく。また、τ２の最大値を設定すれば検出で
きる共通区間の最長区間となる。次にＤ，Ｌ，Ｓを計算
するためのフレーム同期で計算可能な漸化式を示す。

【００３３】

【数４】τ＝１のとき、Ｄ（ｔ，１，１）＝２ｄ（ｔ，１）Ｌ（ｔ，１，１）＝
２Ｓ（ｔ，１，１）＝ｔ

【００３４】

【数５】τ≧２のとき、Ｐ（ｔ，τ，１）＝Ｄ（ｔ−２，τ−１，τ−１）＋２
・ｄ（ｔ−１，τ）＋ｄ（ｔ，τ）Ｐ（ｔ，τ，２）＝Ｄ（ｔ−１，τ−１，τ−１）＋２
・ｄ（ｔ，τ）Ｐ（ｔ，τ，３）＝Ｄ（ｔ−１，τ−２，τ−２）＋２
・ｄ（ｔ，τ−１）＋ｄ（ｔ，τ）Ｑ（ｔ，τ，１）＝Ｌ（ｔ−２，τ−１，τ−１）＋３Ｑ（ｔ，τ，２）＝Ｌ（ｔ−１，τ−１，τ−１）＋２Ｑ（ｔ，τ，３）＝Ｌ（ｔ−１，τ−２，τ−２）＋３ただし、

【００３５】

【数６】τ＝２のとき、Ｐ（ｔ，τ，３）＝Ｄ（ｔ，τ−１，τ−１）＋ｄ
（ｔ，τ）Ｑ（ｔ，τ，３）＝Ｌ（ｔ，τ−１，τ−１）＋１上記の式によって求めた３つのＤＰパス（図２参照）を
比較するため以下の式で正規化し、最適パスを決定す
る。

【００３６】

【数７】α^* ＝ａｒｇｍｉｎＰ（ｔ，τ，α）／Ｑ
（ｔ，τ，α） α＝１，２，３求めた最適パスから累積距離の履歴をフレームτに数８
式〜数１０式でコピーし、τフレームまでの累積距離、
累積重みをＰ（ｔ，τ，α^* ）、Ｑ（ｔ，τ，α^* ）を
用いて数１１式を更新する。

【００３７】

【数８】

【００３８】

【数９】

【００３９】

【数１０】

【００４０】

【数１１】Ｄ（ｔ，τ，τ）＝Ｐ（ｔ，τ，α^* ）Ｌ（ｔ，τ，τ）＝Ｑ（ｔ，τ，α^* ）Ｓ（ｔ，τ，τ）＝ｔ上記の式を図３の例で説明する。時刻ｔにおけるフレー
ムτ６への３つのＤＰパスの各累積距離、累積重みを数
５式より求め、数７式より最適パス、すなわち、図２の
３つのＤＰパスの中の、累積距離を最小とするＤＰパス
を決定する。時刻ｔ−１，フレーム５を始端とするＤＰ
パスが最適となった場合、（α^* ＝２）である。次に数
１０式より、時刻ｔ−１，フレーム５における累積距離
の履歴Ｄ（１，５）｛ｔ−１｝〜Ｄ（５，６）｛ｔ−
１｝を履歴Ｄ（１，５）｛ｔ｝〜Ｄ（５，６）｛ｔ｝に
コピーする。すなわち、式ではＤ（ｔ−１，５，１）〜
Ｄ（ｔ−１，５，５）からＤ（ｔ，６，１）〜Ｄ（ｔ，
６，５）へのコピーとなる。最後に選択されたパスの累
積距離Ｄ（６，６）｛ｔ｝を更新する。累積重みについ
ても同様の処理が必要である上述したＤＰパスは図２に示すように対称の重み係数を
使用したが重み係数といｓｔｅ非対称でフレーム方向に
のみ重みを置く傾斜制限を用いれば、上述のＬ，Ｑを省
略することができ、数７式および数１１式は以下のよう
に計算が非常に単純となる。

【００４１】

【数１２】

【００４２】この場合、数８式〜数１０式はＤについて
のみ処理すればよいので、計算機、記憶量とも大幅に削
減することができる。後述する最長継続時間の制約とし
てＮｍａｘを与えるためには数８式〜数１０式において
条件に１≦τ≦Ｎｍａｘを加えればよい。

【００４３】以上の処理を音声フレームが入力される毎
に実行することにより標準パターンと連続音声パターン
との間の累積距離および部分音声パターンと、部分標準
パターンとの間の区間累積距離が求まる。

【００４４】標準パターン「にわとり」と連続音声の中
の「にわとり」と例にとると標準パターンの中の部分標
準パターン「に」と連続音声の中の部分音声パターン
「に」との間の区間累積距離や部分標準パターン「に
わ」と部分音声パターン「にわ」との間の区間累積距離
等いろいろな組み合わせの共通区間の累積距離が得られ
る。しかしながら音韻など非常に短い区間を計算の対称
としてもいたづらに計算量が増えるだけであり、実用的
ではない。そこで単語レベル程度以上のの音声長さを持
つ共通区間を検出し計算の対象とした方が好ましい。そ
こで最短の共通区間長Ｎｍｉｎを予め決定しておくと以
下の処理により最適な共通区間長を得ることができる。

【００４５】時刻ｔにおいて、フレームτをパスの終端
と仮定した場合、フレームτからｎ（ｎ≧Ｎｍｉｎ）前
までの区間（τ−ｎ，τ）の整合度Ａ（ｔ，τ，ｎ）は
以下の式で求められる。

【００４６】

【数１３】Ａ（ｔ，τ，ｎ）＝｛Ｄ（ｔ，τ，τ）−Ｄ
（ｔ，τ，τ−ｎ）｝／｛Ｌ（ｔ，τ，τ）−Ｌ（ｔ，
τ，τ−ｎ）｝したがって、全てのフレームτ、全ての区間ｎの中で以
下の式で与えられる最小の整合度Ａ（ｔ，τ，ｎ）を与
えるｒ^* ，ｎ^* が時刻ｔにおける最適共通区間を示して
いる。

【００４７】

【数１４】

【００４８】これより時刻ｔにおける最適共通区間、最
適整合度は以下の式で表される。

【００４９】

【数１５】（Ｓ（ｔ，τ^* ，ｎ^* ），ｔａｕ−ｎ^* ）〜
（ｔ，ｔａｕ^* ）

【００５０】

【数１６】Ａ（ｔ，τ^* ，ｎ^* ）共通区間を音声認識装置で判断する方法としては（１）
最適整合度の最小となる時刻における最適共通区間を全
区間における最適共通区間とする。

【００５１】一方、フレームと同期して共通区間を検出
する方法としては（２）時間推移を観察し、ローカルミ
ニマムになる箇所を最適共通区間とする。

【００５２】等が考えられる。

【００５３】このような音声認識方法を使用した音声認
識装置のシステム構成の一例を図５に示す。図５におい
て１１はパーソナルコンピュータ等の情報処理装置であ
る。

【００５４】マイクロホン１から入力された音声はアナ
ログの電気信号に変換され、Ａ／Ｄ変換器２によりデジ
タル信号に変換され、パーソナルコンピュータ１１の入
出力インタフェース３に入力される。デジタル形態の音
声信号に対してたとえば、フーリエ解析等の処理が施さ
れ、音声信号のフレーム単位の特徴パラメータが抽出さ
れる。標準パターンの作成モードにおいては抽出された
特徴パラメータはＣＰＵ４の制御によりハードディスク
記憶装置（ＨＤＤ）９に標準パターンとして格納され
る。このとき、音声の内容を示す文字等がキーボード等
の入力装置８から入力され、上記特徴パラメータと関連
づけて記憶される。一方、文字認識モードにおいては、
パーソナルコンピュータ１１に入力されたデジタル形態
の音声信号は特徴パラメータに変換され、ＣＰＵ４によ
り音声認識される。より具体的には、上述した音声認識
方法を用いてＨＤＤ９に格納された標準パターンと、音
声信号から得られる入力パターンを特徴パラメータ同士
で連続ＤＰマッチング法で距離比較（整合）する。

【００５５】一定周期で入力される音声信号について同
様の処理を繰り返し実行し、整合の結果は順次にＲＡＭ
６に格納され、その累積結果も格納されていく。さらに
本発明に関わる部分パターンについての整合に関連する
データもＲＡＭ６上に格納される。入力音声パターンが
標準パターンに合致していると判断されたときにその標
準パターンが音声認識結果としてディスプレイ７上に文
字形態で表示される。また、Ｄ／Ａ変換器１２を介して
スピーカ１３からも音声出力される。また、標準パター
ンの一部分と入力音声パターンの一部分、たとえば、単
語が合致していることもＣＰＵ４により検出され、その
音声認識結果がディスプレイ７に表示される。ＣＰＵ４
はこれら一連の機器制御をＲＯＭ５に格納されたシステ
ムプログラムに従って実行すると共に上述の音声認識処
理をＨＤＤ９に格納された専用のプログラムに従って実
行する。

【００５６】このような構成で実行される音声認識処理
を図６および図７を参照しながら説明する。図６は標準
パターンを構成するフレームと、入力音声パターンを構
成するフレームの整合結果および比較の対象となるフレ
ームの組み合わせ方（ＤＰパス）を示す。図中∞は整合
結果としてまったく類似していないことを示し、数値０
は類似していることを示す。実際の整合結果は数値形態
で表すが説明の都合上かかる表現を用いる。図６の縦軸
は標準パターンを表し、横軸は時系列的に入力される入
力音声パターンを表す。

【００５７】図７はＣＰＵ４により実行される音声認識
処理の処理手順を示す。この処理手順は実際にはＣＰＵ
４が実行可能なプログラム言語の形態でＨＤＤ９に格納
されている。説明の便宜上、処理内容については機能表
現している。本実施例では２フレーム（文字）以上の単
語について最短共通区間（Ｎｍｉｎ＝２）を設定してい
るものとする。

【００５８】音声認識モードが指示されると、ＣＰＵ４
は図７の処理手順が開始され、計算に必要な初期値が設
定される（ステップＳ１０）。マイクロホン１から認識
対象の音声が入力されるとパーソナルコンピュータ１１
ではフレーム単位で入力音声パターンを入力し特徴パラ
メータを抽出する（ステップＳ２０）。図６の例では
「そ」についてのフレームが得られる。ＣＰＵ４は最初
に標準パターンのフレーム「に」、「わ」．．．「り」
と入力音声パターンの「そ」との整合をそれぞれ行い、
その整合結果を組み合わせ位置に対応させてＲＡＭ５に
記憶する。また、その整合結果を用いて初期条件式によ
りその組み合わせ位置の累積結果の初期値も計算され記
憶される（ステップＳ３０）。

【００５９】次に標準パターンのフレーム「り」につい
ての累積距離としきい値が比較されるこの場合、しきい
値以上となるので文の標準パターンとこれまでの入力音
声パターンは一致しないと判断される（ステップＳ４
０）。

【００６０】この時点で標準パターン側のフレーム数は
１であり、最短共通区間２よりも小さいので、ステップ
Ｓ５０からＳ１００の処理を通過して、２番目の入力音
声フレームの入力を待つ。２番目の入力音声フレーム
「う」が入力されると、ＣＰＵ４は前回と同様標準パタ
ーンの各フレームと整合を行い、整合結果を図６の整合
位置に対応させてＲＡＭ６に記憶し、文の認識結果の有
無を判定する（ステップＳ３０からＳ４０）。

【００６１】入力音声フレームが２となったので、上述
の計算式を用いて標準パターンの部分区間「にわ」と入
力音声パターンの部分区間「そう」の整合が行われる。
この整合結果がＲＡＭ６に記憶される。また、このとき
の整合結果が仮の最小値として記憶される（ステップＳ
６０→Ｓ８０）。３番目の入力音声のフレーム「ち」が
入力されると、図６のＰの位置の累積距離が図２の傾斜
制限を用いて数５式により決定される。すなわち、数５
式によりＡのパスで定まる累積距離の値、Ｂのパスで定
まる累積距離の値、Ｃのパスで定まる累積距離の値の中
の最小値がＰの位置の累積距離として決定され、この値
を持つパスが最適パス、換言すると、これまでに最も類
似するフレームの組み合わせ順として決定される。ＣＰ
Ｕ４はその他入力音声フレームのフレーム「ち」と標準
パターンのフレームの「り」の組み合わせについても数
５式を用いて累積距離を計算する（ステップＳ３０）。

【００６２】また、ＣＰＵ４は次に上記Ｐ点の位置を起
点として前の時点および標準パターンの始端に向かって
２つ以上の各フレーム長さの区間距離を累積距離の差分
計算（上述）により求めＲＡＭ６に記憶してゆく（ステ
ップＳ４０）。この時点ではフレーム長さ２とフレーム
長さ３の２つの区間距離の値が得られる。この内の最小
値がこの位置での最適区間距離の値として記憶される
（ステップＳ５０）。また、前のフレーム時点で検出さ
れた最適区間距離の最小値と新たに得られた最適区間距
離の比較が行われ、新たに得られた最適区間距離が最小
値として記憶される（ステップＳ７５）。

【００６３】以下、入力音声フレームが入力される毎に
ＣＰＵ４は上述の文の標準パターンについての距離計算
およびその時点を起点とした所定区間の距離計算および
最適区間距離の計算等を行って行く。所定フレーム数、
たとえば、５毎にその中での最小最適区間距離を持つ部
分標準パターンが認識結果としてディスプレイ７に表示
され、次に次回のために仮の最小値が設定される（ステ
ップＳ８０→Ｓ９０→Ｓ１００）。

【００６４】また、図６の例では時刻ｔ１から累積距離
の計算が開始されたパスが時刻ｔ４になった時点で文の
最終端Ｑの位置の累積距離がしきい値以下となり、この
とき標準パターン「にわとりが」がスポット的にディス
プレイ７に認識結果として表示される（ステップＳ６０
→Ｓ６５）。

【００６５】以上説明したように本実施例では従来の文
の標準パターンについての連続ＤＰマッチングを行いな
がら、各時点でその時点を起点とした所定長さの区間距
離を計算して標準パターンの一部分と入力音声パターン
の中の一部分の一致を検出して行く。したがって、従来
のように距離計算を行うべき区間をユーザがわざわざ指
定する必要がなくなる。

【００６６】第１実施例については以下の例を実施でき
る。

【００６７】１）文についての認識結果、単語につい
ての認識結果については表示装置、スピーカ、プリンタ
等所望の出力装置を使用すればよい。

【００６８】２）本実施例で標準パターンは文、主
語、述語等の単語で構成されるものを説明したが文節程
の長さの文章音声をも標準パターンとすることができ
る。

【００６９】（第２実施例）ある話題において重要なキ
ーワード、例えば固有名詞はその話題音声にしばしば出
現し、ありふれた単語に比べ長いことが予想される。そ
こで話題に特有な語は次のような特性を持つと仮定す
る。

【００７０】・複数回出現する・十分な長さを持つこの仮定のもとでは、発話中の複数の箇所で十分な長さ
を持った音韻的に類似した区間を抽出することができれ
ば、重要な単語の含まれている区間の多くをカバーする
ことが可能であろう。

【００７１】ただし、機能語や副詞、接続詞のようなあ
りふれた単語も上記の前提を満たすことが多いため、音
韻的類似度のみを用いたものではそれらも抽出してしま
うことは避けられない。したがって、何らかの後処理
で、それらの不要な情報を除く必要がある。

【００７２】そこで、第２実施例では第１実施例で説明
した単語等の部分文の検出手法を用いて、一定時間内に
複数個出現する部分文を検出する方法を説明する。これ
により、話題の中のキーワードのみが検出され、キーワ
ードに付属する副詞、接続詞等の不要部分が排除され
る。

【００７３】第２実施例では第１実施例と同様のシステ
ム構成を用いることができるが一部異なる点があるの
で、相異点を説明することにする。第１実施例では標準
パターンは予め用意され、その内容が変化することはな
い。第２実施例では入力音声から取り出した一定期間内
の音声パターンを標準パターンとして取り扱い、その標
準パターンの長さを一定期間に維持しつつ、入力音声の
入力に応じて標準パターンも変化させる点が第１実施例
と異なる。

【００７４】より具体的には、図８に示すように現時点
をｔ−１とすると、この時点でＤＰマッチングに用いる
標準パターンは時刻ｔ−Ｗ−１〜時刻ｔ−１までの入力
音声から抽出した特徴パラメータ系列、すなわち、入力
パターンとなる。本実施例では時刻ｔに新たな音声部分
が入力されると、長さＷを維持するために時刻ｔ−Ｗ−
１のデータが標準パターンから消去され、新たに時刻ｔ
のデータが標準パターンに加えられる。

【００７５】以上の標準パターンを用いた場合、各時点
における標準パターンの両端点における累積距離の計算
方法が問題となる。本実施例では、時刻ｔにおける標準
パターン始端と終端のパス形状を図９のように設定す
る。それ以外の計算は第１実施例と共通である。

【００７６】時刻ｔを終端とする入力音声パターン上の
区間と標準パターン上の類似した区間の探索は、図１０
に示す領域で行われる。ここで、Ｗは標準パターンの最
大長、Ｈは類似区間の最大長である。また、Ｄは、ｔを
終端とする区間が検出されないために必要な遅延であ
る。もし、Ｄ＝０であれば、常に、自分自身が検出され
てしまうからである。全体的に見れば、探索はハッチン
グで示す領域の範囲で行われることになる。

【００７７】このような計算を行うためのデータ入力の
ためのＣＰＵ４の処理手順を図１１に示しておく。音声
データのサンプリングが開始されると、標準パターンを
記憶するＲＡＭ６上のバッファのフル（満杯）の有無が
確認され、フルになるまではバッファに入力のデータ、
すなわち音声特徴パラメータが蓄積される（ステップＳ
２１０→Ｓ２４０）。この処理を繰り返すとバッファが
フルとなるので以後、ＦＩＦＯ（ファーストインファー
ストアウト）のように、蓄積結果の先頭の音声特徴パラ
メータが消去され、入力の音声特徴パラメータが蓄積結
果の最後尾に追加される（ステップＳ２１０→Ｓ２２０
→Ｓ２３０）。

【００７８】このようにして標準パターンを変化させ
て、部分文の検出を行うと一定期間Ｗ内に同一あるいは
類似の単語が複数回出現すると、第１実施例の計算結果
は複数回出現した単語の方が他の単語よりも区間累積距
離が小さくなるので、最適区間距離として選択され、複
数回出現の単語が類似単語として出力される。

【００７９】第２実施例の他の例として以下を実施でき
る。

【００８０】１）第１実施例の固定の標準パターンを
用いた部分文の検出結果をＲＡＭ６に記憶しておく。新
たに部分文を検出する毎に記憶内容を参照し、同一のも
のがある場合にはその出現頻度を計数することによって
も複数回出現する部分文を検出できる。ただし、複数回
出現する部分文のみを検出する目的であれば第２実施例
の方が処理時間も短く、使用するメモリ空間も小さくな
る。

【００８１】（第３実施例）第１実施例で述べた類似単
語の抽出方法を実行して、抽出された複数の類似（区
間）の単語は図１２に示すように時系列的に一部重複し
てしまったり、単語と単語の間に隙間が生じる。したが
って、抽出の類似単語を直に再生出力しようとした場
合、その再生音声は聞きづらいものとなる。

【００８２】そこで第３実施例では隙間のある類似単語
同士、あるいは時系列的に重複する類似単語を結合した
上で連続的に再生処理を行う。

【００８３】このためのＣＰＵ４の処理手順を図１３に
示す。ＣＰＵ４は、第１番目に抽出された類似単語を初
期合成類似単語としてＲＡＭ６に格納する。第２番目の
類似単語が得られると、初期合成単語の時間軸上の位置
関係を類似単語の始端および終端位置を比較することで
重複の有無（隙間の有無）を調べる（ステップＳ３００
→Ｓ３１０）。この２つの類似単語が重複している場合
には、２つの類似単語の一つの重複部分を消去して、２
つの類似単語をマージ（結合）する（ステップＳ３２
０）。一方、２つの類似単語に隙間が生じている場合に
は、後の時点の類似単語の始端を前の時点の類似単語の
終端に結合する（ステップＳ３３０）。

【００８４】このようにして合成類似単語を作成する
と、前時点で作成された合成類似単語と差し換えてＲＡ
Ｍ６に記憶する。以下、新しい類似単語が得られる毎に
上述の手順を繰り返すと類似単語間の重複、隙間が除去
された１つの類似単語が合成される。一定回数、あるい
は一定時間上述の処理を繰り返すと（ステップＳ３４
０）、合成処理された類似単語をスピーカ１３から再生
する（ステップＳ３５０）。以下、順次類似単語の合
成、再生を繰り返す。

【００８５】（第４実施例）第１実施例のように文単位
の標準パターンを用意しても入力音声が標準パターンと
一致することは実用上、ほとんどない。そこで、部分文
を検出する訳であるが部分文のみを出力すると、文の切
れ目が見つかりにくい。

【００８６】本実施例では、異なる話題間では、用いら
れる単語集合が異なることに着目し、複数の話題を含む
音声に対し、第１実施例の手法により類似区間の検出を
行う。すると、同一話題内での類似区間の区間の対応は
多く、異なる話題間での対応は少なくなるであろうこと
が予測されるので、各時刻において、対応区間を結ぶ線
のよぎる頻度、すなわち、通過頻度を数えれば、図１４
に示すように話題の境界においては頻度が低くなること
が予想される。したがって、対応線の通過頻度が局所的
に低い時刻は話題の境界である可能性が高いと考えられ
る。

【００８７】そこで、本実施例では検出された類似単語
の通過頻度を取得し、特定のしきい値以下になる点を話
題の境界と決定する。

【００８８】このためのＣＰＵ４の処理手順を図１５に
示す。ＣＰＵ４は第１実施例で説明した方法により類似
単語を検出すると、その類似単語の始端および終端の入
力時間の間の期間に長さが矩形の長さに相当し、一定高
さをもつ矩形イメージをＲＡＭ６の２次元空間（時間軸
と通過頻度軸とで構成）上に作成し、類似単語が検出す
る毎にこの矩形を通過頻度軸方向に積み上げる。これに
より図４に示す通過頻度のグラフがＲＡＭ６上に形成さ
れる。このグラフの各時刻毎の使用頻度（通過頻度軸方
向のドット数）をしきい値と比較することで話題の境界
点時刻が検出される（ステップＳ４００）。この境界点
時刻がＲＡＭ６上に記憶される（ステップＳ４１０）。

【００８９】第４実施例の応用形態として以下を実施で
きる。

【００９０】１）本実施例では類似区間の集計をイメ
ージ処理で行う例を示したが、数値計算により各時刻毎
の通過頻度を求めてもよい。

【００９１】

【発明の効果】以上説明したように、請求項１，３の本
発明によれば、文の音声認識を行う途中で単語等の認識
が可能となり、かつ、従来のように部分標準パターンを
手動で指示する必要がなくなる。

【００９２】請求項２、４の発明では、部分標準パター
ンとして取り出すフレーム数を特定数以上とすることで
文字についての認識を省略し単語単位での認識が可能と
なる。

【００９３】これにより処理時間の短縮化がメモリ容量
の節約が図れる。

【００９４】請求項５の発明では、標準パターンを入力
音声パターンから作成することにより一定長さの入力音
声パターンに含まれる複数の同一の単語等の部分文が部
分音声の認識結果として得られる。これにより繰り返し
使用される単語等を重要キーワードとして取得できる。

【００９５】請求項６の発明では、バッファにＦＩＦＯ
メモリ等を用いることができメモリ容量の節約が図れ
る。

【００９６】請求項７の発明では、部分音声パターンの
認識結果が１つに合成されるので、その内容は音声の要
約あるいはキーワード群として取扱うことができる。

【００９７】請求項８の発明では、合成内容を音声で再
生出力することにより送話者の要約を耳で確認すること
ができる。

【００９８】請求項９の発明では、送話者の話題の切れ
目を自動検出できる。

【図面の簡単な説明】

【図１】従来の部分標準パターンの累積距離を取得する
方法を示す説明図である。

【図２】連続ＤＰ法を説明するための説明図である。

【図３】第１実施例の部分標準パターンの累積距離を取
得する方法を示す説明図である。

【図４】第１実施例の最適性を示す説明図である。

【図５】第１実施例のシステム構成を示すブロック図で
ある。

【図６】第１実施例に関わる音声認識方法を説明するた
めの説明図である。

【図７】第１実施例に関わる音声認識手順を示すフロー
チャートである。

【図８】第２実施例の標準パターンを示す説明図であ
る。

【図９】第２実施例の処理を示す説明図である。

【図１０】第２実施例の処理を示す説明図である。

【図１１】第２実施例の処理手順を示すフローチャート
である。

【図１２】第３実施例の処理を示す説明図である。

【図１３】第３実施例の処理手順を示すフローチャート
である。

【図１４】第４実施例の処理を示す説明図である。

【図１５】第４実施例の処理手順を示すフローチャート
である。

【符号の説明】

１マイクロホン２Ａ／Ｄ変換器３入出力装置（Ｉ／Ｏ）４ＣＰＵ６ＲＡＭ８入力装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者伊藤慶明東京都千代田区大手町１丁目９番４号経団連会館社団法人日本鉄鋼連盟内 (72)発明者木山次郎大阪府大阪市阿倍野区長池町22番22号シャープ株式会社内 (72)発明者小島浩東京都千代田区大手町１丁目９番４号経団連会館社団法人日本鉄鋼連盟内 (72)発明者関進大阪府大阪市阿倍野区長池町22番22号シャープ株式会社内 (72)発明者岡隆一茨城県つくば市竹園１−６−１つくば三井ビル13階技術研究組合新情報処理開発機構内

Claims

【特許請求の範囲】

【請求項１】入力音声信号から抽出した入力音声パタ
ーンと文の標準パターンとの間の距離計算を連続ＤＰ法
にしたがってフレーム単位で順次に実行し、当該得られ
たフレーム単位の距離計算結果を前記標準パターンの始
端位置から終端位置に向かって累積し、前記標準パター
ンの終端位置に対応する累積結果がしきい値よりも小さ
くなった場合に前記標準パターンを前記入力音声パター
ンの中の一部についての認識結果とする音声認識装置に
おいて、前記標準パターンの始端位置と終端位置の間の各フレー
ム位置で、当該フレーム位置を部分標準パターンの終端
とみなし、該フレーム位置の累積結果と前記始端位置に
近いフレーム位置の各々の累積結果との差分値を計算す
る第１の演算処理手段と、当該計算された差分値の中の最小の差分値を検出し、当
該検出された最小の差分値に対応する部分標準パターン
を前記入力音声パターンの中の部分音声パターンの認識
結果とする第２の演算処理手段とを具えたことを特徴と
する音声認識装置。
【請求項２】前記部分標準パターンの終端から始端ま
でのフレーム数を特定数以上に制限することを特徴とす
る請求項１に記載の音声認識装置。
【請求項３】入力音声信号から抽出した入力音声パタ
ーンと標準パターンとの間の距離計算を連続ＤＰ法にし
たがってフレーム単位で順次に音声認識装置において実
行し、当該得られたフレーム単位の距離計算結果を前記
標準パターンの始端位置から終端位置に向かって前記音
声認識装置内で累積し、前記標準パターンの終端位置に
対応する累積結果がしきい値よりも小さくなった場合に
前記標準パターンを前記入力音声パターンの中の一部に
ついての認識結果とする音声認識方法において、前記標準パターンの始端位置と終端位置の間の各フレー
ム位置で、当該フレーム位置を部分標準パターンの終端
とみなし、該フレーム位置の累積結果と前記始端位置に
近いフレーム位置の各々の累積結果との差分値を前記音
声認識装置内で計算し、当該計算された差分値の中の最小の差分値を前記音声認
識装置において検出し、当該検出された最小の差分値に対応する部分標準パター
ンを前記入力音声パターンの中の部分音声パターンの認
識結果として音声認識装置から出力することを特徴とす
る音声認識方法。
【請求項４】前記部分標準パターンの終端から始端ま
でのフレーム数を特定数以上に制限することを特徴とす
る請求項３に記載の音声認識方法。
【請求項５】入力音声信号から抽出した入力音声パタ
ーンと文の標準パターンとの間の距離計算を連続ＤＰ法
にしたがってフレーム単位で順次に実行し、当該得られ
たフレーム単位の距離計算結果を前記標準パターンの始
端位置から終端位置に向かって累積し、前記標準パター
ンの終端位置に対応する累積結果がしきい値よりも小さ
くなった場合に前記標準パターンを前記入力音声パター
ンの中の一部についての認識結果とする音声認識装置に
おいて、前記標準パターンの始端位置と終端位置の間の各フレー
ム位置で、当該フレーム位置を部分標準パターンの終端
とみなし、該フレーム位置の累積結果と前記始端位置に
近いフレーム位置の各々の累積結果との差分値を計算す
る第１の演算処理手段と、当該計算された差分値の中の最小の差分値を検出し、当
該検出された最小の差分値に対応する部分標準パターン
を前記入力音声パターンの中の部分音声パターンの認識
結果とする第２の演算処理手段とを具え、前記標準パタ
ーンを現時点から前の時点に向って一定の長さＷの入力
音声パターンとすることを特徴とする音声認識装置。
【請求項６】前記一定の長さＷの入力音声パターンを
記憶するバッファを有し、フレーム単位の新しい入力音
声パターンが得られる毎に当該新しい入力パターン１フ
レームを前記バッファに累積すると共に、当該バッファ
の最も古い入力パターン１フレームを前記バッファから
消去することを特徴とする請求項５に記載の音声認識装
置。
【請求項７】入力音声信号から抽出した入力音声パタ
ーンと文の標準パターンとの間の距離計算を連続ＤＰ法
にしたがってフレーム単位で順次に実行し、当該得られ
たフレーム単位の距離計算結果を前記標準パターンの始
端位置から終端位置に向かって累積し、前記標準パター
ンの終端位置に対応する累積結果がしきい値よりも小さ
くなった場合に前記標準パターンを前記入力音声パター
ンの中の一部についての認識結果とする音声認識装置に
おいて、前記標準パターンの始端位置と終端位置の間の各フレー
ム位置で、当該フレーム位置を部分標準パターンの終端
とみなし、該フレーム位置の累積結果と前記始端位置に
近いフレーム位置の各々の累積結果との差分値を計算す
る第１の演算処理手段と、当該計算された差分値の中の最小の差分値を検出し、当
該検出された最小の差分値に対応する部分標準パターン
を前記入力音声パターンの中の部分音声パターンの認識
結果とする第２の演算処理手段とを具え、当該定められ
た部分音声パターンの認識結果複数について、時系列順
に隙間および重複なく合成することを特徴とする音声認
識装置。
【請求項８】合成された前記認識結果複数を音声で再
生出力することを特徴とする請求項７に記載の音声認識
装置。
【請求項９】入力音声信号から抽出した入力音声パタ
ーンと文の標準パターンとの間の距離計算を連続ＤＰ法
にしたがってフレーム単位で順次に実行し、当該得られ
たフレーム単位の距離計算結果を前記標準パターンの始
端位置から終端位置に向かって累積し、前記標準パター
ンの終端位置に対応する累積結果がしきい値よりも小さ
くなった場合に前記標準パターンを前記入力音声パター
ンの中の一部についての認識結果とする音声認識装置に
おいて、前記標準パターンの始端位置と終端位置の間の各フレー
ム位置で、当該フレーム位置を部分標準パターンの終端
とみなし、該フレーム位置の累積結果と前記始端位置に
近いフレーム位置の各々の累積結果との差分値を計算す
る第１の演算処理手段と、当該計算された差分値の中の最小の差分値を検出し、当
該検出された最小の差分値に対応する部分標準パターン
を前記入力音声パターンの中の部分音声パターンの認識
結果とする第２の演算処理手段と、前記部分音声パターンの認識結果についてその時間軸上
の通過頻度を計数する計数手段と、当該計数した通過頻度がしきい値以下となる時点を検出
し、話題の境界位置と定める境界位置検出手段とを具え
たことを特徴とする音声認識装置。