JPH08166796A

JPH08166796A - 連続音声認識のためのアクセント句境界検出装置

Info

Publication number: JPH08166796A
Application number: JP6310455A
Authority: JP
Inventors: Mitsuru Nakai; 満中井; Shingaa Hararudo; ハラルド・シンガー; Yoshinori Kosaka; 芳典匂坂
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1994-12-14
Filing date: 1994-12-14
Publication date: 1996-06-25
Anticipated expiration: 2013-09-03
Also published as: JP2793137B2

Abstract

(57)【要約】【目的】連続音声認識のためのアクセント句境界を従
来に比較してより小さい誤り率で検出することができ、
しかも検出のための処理時間を大幅に短縮することがで
きるアクセント句境界検出装置を提供する。【構成】学習用発声音声に基づいて検出されたポーズ
とピッチパターンに基づいて当該音声をアクセント成分
とフレーズ成分のパラメータによって表されたアクセン
トモデルにモデル化してアクセントモデルパターンを検
出する。検出されたアクセントモデルパターンをピッチ
パターンに変換した後クラスタンリングして各クラスタ
に属するアクセントモデルパターンの平均を計算するこ
とにより各クラスタの参照用の複数のテンプレートを計
算する。検出用発声音声に基づいて検出されたポーズと
ピッチパターンに基づいてピッチパターンと参照用テン
プレートとの間の距離が小さくなるように整合して各テ
ンプレートの接続境界に基づいてアクセント句境界を検
出する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、連続音声認識のための
アクセント句境界検出装置に関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】従来の
音声認識装置では、ポーズを挿入して離散的に発声する
ことによって認識対象となる区間を短くしていたが、自
由発話の連続音声認識装置では、認識対象区間が長くな
りすぎて、認識処理の負荷が大きくなってしまうという
問題点があった。

【０００３】この問題点を解決するために、次の従来技
術の文献において、ピッチパターンとテンプレートとの
連続整合による不特定話者連続音声のアクセント句境界
検出法を提案している。「中井満ほか，”ピッチパター
ンのクラスタリングに基づく不特定話者連続音声の句境
界検出”，電子情報通信学会論文誌（Ａ），Ｖｏｌ．Ｊ
７７−Ａ，Ｎｏ．２，ｐｐ２０６−２１４，１９９４年
２月（以下、文献１という。）」

【０００４】アクセント句に相当するピッチパターン
（アクセントパターン）をクラスタリング分類すると、
そのクラスタの代表パターン（テンプレート）の形状
は、不特定の話者に対してほぼ同様の形になるが、ピッ
チの高さ（又は最低基本周波数の高さ）に関しては話者
への依存が強い。そこで、文献１では、高さを固定した
従来のＦ₀テンプレートをＡ型とし、ピッチの高さ方向
にバイアスを与えることのできる新たなＦ₀テンプレー
トをＲ型として提案している。Ｒ型はアクセントパター
ンを句の開始からの相対的なパターンとして把えること
により、Ａ型と同様の学習アルゴリズムで実現してい
る。アクセント句境界検出においても、高さ方向のバイ
アスの値をＯｎｅ−ＳｔａｇｅＤＰ探索の中で動的に
変化させることが可能である。

【０００５】この文献１のアクセント句境界検出法で検
出すると、不特定話者に対する句境界検出率は上昇する
が、テンプレートの自由度が高くなったことに起因する
挿入誤りが増加する。また、テンプレートの長さが固定
長であること、かつパターンの形状の著しい非線形伸縮
を抑制するために設定したＤＰパスの傾斜が１／２乃至
２の範囲であることにより、整合不可能なアクセント句
が生じ、そのアクセント句が必然的に挿入又は脱落して
エラーになるという問題点があった。

【０００６】上記の問題点を解決するために、次の文献
において改良されたアクセント句境界検出法が提案され
ている。「M. Nakaiほか，“Accent Phrase Segmentati
on by Finding N-best Sequencesof Pitch Pattern Tem
plates”，ＩＣＳＬＰ−９４，１９９４年９月（以下、
文献２という。）」

【０００７】上記文献１のテンプレートの長さによる問
題は、テンプレートの長さが固定長ではあるが、複数の
時間長のテンプレートを準備することにより、脱落誤り
についてはある程度回避できるようになった。また、最
良の候補のみの１−ｂｅｓｔ句境界候補では境界推定が
不安定であることや、確率的なテンプレート接続制御を
行なったときに最適解が保証されないという問題があ
り、複数Ｎ個の最良の候補を検出するＮ−ｂｅｓｔ句境
界検出に拡張した。この結果、下位の候補からより精度
の良い句境界候補が得られた。また、Ｎ個の複数候補に
よる境界信頼度の推定も可能になる。しかしながら、依
然としてテンプレートの自由度が高いことによる挿入誤
りが比較的高いという問題は残る。また、Ｎ−ｂｅｓｔ
の探索による処理時間の増加が問題となるという問題点
があった。

【０００８】本発明の目的は以上の問題点を解決し、連
続音声認識のためのアクセント句境界を従来に比較して
より小さい誤り率で検出することができ、しかも検出の
ための処理時間を大幅に短縮することができる連続音声
認識のためのアクセント句境界検出装置を提供すること
にある。

【０００９】

【課題を解決するための手段】本発明に係る請求項１記
載の連続音声認識のためのアクセント句境界検出装置
は、入力される発声音声に基づいて上記発声音声におけ
るポーズを検出するとともに、ピッチ周波数の時間的に
連続的なピッチパターンを検出する特徴抽出手段と、入
力される学習用発声音声に基づいて上記特徴抽出手段に
よって検出されたポーズとピッチパターンに基づいて、
上記学習用発声音声をアクセント成分とフレーズ成分の
パラメータによって表された所定のアクセントモデルに
モデル化してアクセントモデルパターンを検出するモデ
ル処理手段と、上記モデル処理手段によって検出された
アクセントモデルパターンをピッチパターンに変換した
後クラスタリングして各クラスタに属するアクセントモ
デルパターンの平均を計算することにより、経過時間に
対するピッチパターンで表された各クラスタの参照用の
複数のテンプレートを計算するクラスタリング処理手段
と、入力される検出用発声音声に基づいて上記特徴抽出
手段によって検出されたポーズとピッチパターンに基づ
いて、上記ピッチパターンと上記参照用の複数のテンプ
レートとの間の距離が小さくなるように整合することに
より、上記各テンプレートの接続境界に基づいてアクセ
ント句境界を検出して出力する照合手段とを備えたこと
を特徴とする。

【００１０】また、請求項２記載のアクセント句境界検
出装置は、請求項１記載のアクセント句境界検出装置に
おいて、上記照合手段は、上記参照用の複数のテンプレ
ートを用いて上記各テンプレートの接続境界に相当する
入力された発声音声上の時刻をアクセント句境界として
検出することを特徴とする。さらに、請求項３記載のア
クセント句境界検出装置は、請求項１又は２記載のアク
セント句境界検出装置において、上記照合手段は、Ｏｎ
ｅＳｔａｇｅＤＰ法を用いて、上記ピッチパターン
と上記参照用の複数のテンプレートとの間で、傾きが１
である線形整合で整合処理することを特徴とする。また
さらに、請求項４記載のアクセント句境界検出装置は、
請求項３記載のアクセント句境界検出装置において、上
記照合手段は、テンプレートが構成するクラスタに属す
るアクセントモデルパターンに基づいて、上記整合処理
における上記テンプレートに終端領域を設定することを
特徴とする。さらに、請求項５記載のアクセント句境界
検出装置は、請求項３又は４記載のアクセント句境界検
出装置において、上記照合手段は、上記整合処理におい
て、上記参照用の複数のテンプレートの中で、テンプレ
ートからテンプレートへの遷移に関するバイグラム確率
に基づいて、２つのテンプレートの接続コストを表し、
上記接続コストが小さくなるようにアクセント句境界を
検出することを特徴とする。

【００１１】また、請求項６記載のアクセント句境界検
出装置は、請求項１乃至５のうちの１つに記載のアクセ
ント句境界検出装置において、上記特徴抽出手段は、入
力される発声音声のパワーが所定のしきい値以下である
ことが所定の時間以上続いたときポーズとして検出する
ことを特徴とする。さらに、請求項７記載のアクセント
句境界検出装置は、請求項１乃至６のうちの１つに記載
のアクセント句境界検出装置において、上記アクセント
モデルは、特定のアクセント句のアクセント指令と、上
記特定のアクセント句の１つ前のアクセント句の直前に
存在するフレーズ指令と上記特定のアクセント句の直前
に存在するアクセント句のフレーズ指令と、上記特定の
アクセント句内のアクセント指令の直後に存在するフレ
ーズ指令とのそれぞれの大きさと時間的なタイミングの
データを含むことを特徴とする。

【００１２】

【作用】請求項１記載のアクセント句境界検出装置にお
いては、上記特徴抽出手段は、入力される発声音声に基
づいて上記発声音声におけるポーズを検出するととも
に、ピッチ周波数の時間的に連続的なピッチパターンを
検出する。上記モデル処理手段は、入力される学習用発
声音声に基づいて上記特徴抽出手段によって検出された
ポーズとピッチパターンに基づいて、上記学習用発声音
声中の視察で与えられたアクセント句をアクセント成分
とフレーズ成分のパラメータによって表された所定のア
クセントモデルにモデル化してアクセントモデルパター
ンを検出し、上記クラスタリング処理手段は、上記モデ
ル処理手段によって検出されたアクセントモデルパター
ンをピッチパターンに変換した後クラスタリングして各
クラスタに属するアクセントモデルパターンの平均を計
算することにより、経過時間に対するピッチパターンで
表された各クラスタの参照用の複数のテンプレートを計
算する。さらに、上記照合手段は、入力される検出用発
声音声に基づいて上記特徴抽出手段によって検出された
ポーズとピッチパターンに基づいて、上記ピッチパター
ンと上記参照用の複数のテンプレートとの間の距離が小
さくなるように整合することにより、上記各テンプレー
トの接続境界に基づいてアクセント句境界を検出して出
力する

【００１３】また、請求項２記載のアクセント句境界検
出装置においては、上記照合手段は、好ましくは、上記
参照用の複数のテンプレートを用いて上記各テンプレー
トの接続境界に相当する入力された発声音声上の時刻を
アクセント句境界として検出する。さらに、請求項３記
載のアクセント句境界検出装置においては、上記照合手
段は、好ましくは、ＯｎｅＳｔａｇｅＤＰ法を用い
て、上記ピッチパターンと上記参照用の複数のテンプレ
ートとの間で、傾きが１である線形整合で整合処理す
る。またさらに、請求項４記載のアクセント句境界検出
装置においては、上記照合手段は、好ましくは、テンプ
レートが構成するクラスタに属するアクセントモデルパ
ターンに基づいて、上記整合処理における上記テンプレ
ートに終端領域を設定する。さらに、請求項５記載のア
クセント句境界検出装置においては、上記照合手段は、
好ましくは、上記整合処理において、上記参照用の複数
のテンプレートの中で、テンプレートからテンプレート
への遷移に関するバイグラム確率に基づいて、２つのテ
ンプレートの接続コストを表し、上記接続コストが小さ
くなるようにアクセント句境界を検出する。

【００１４】また、請求項６記載のアクセント句境界検
出装置においては、上記特徴抽出手段は、好ましくは、
入力される発声音声のパワーが所定のしきい値以下であ
ることが所定の時間以上続いたときポーズとして検出す
る。さらに、請求項７記載のアクセント句境界検出装置
においては、上記アクセントモデルは、好ましくは、特
定のアクセント句のアクセント指令と、上記特定のアク
セント句の１つ前のアクセント句の直前に存在するフレ
ーズ指令と上記特定のアクセント句の直前に存在するア
クセント句のフレーズ指令と、上記特定のアクセント句
内のアクセント指令の直後に存在するフレーズ指令との
それぞれの大きさと時間的なタイミングのデータを含
む。

【００１５】

【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図１に本発明に係る一実施例である連
続音声認識のためのアクセント句境界検出装置を示す。
このアクセント境界検出装置は、（ａ）マイクロホン１
を介して入力される発声音声に基づいて上記発声音声に
おけるポーズを検出するとともに、ピッチ周波数の時間
的に連続的なパターンであるピッチパターンを検出する
特徴抽出部２と、（ｂ）入力される学習用発声音声に基
づいて上記特徴抽出部２によって検出されたポーズとピ
ッチパターンに基づいて、上記学習用発声音声をアクセ
ント成分とフレーズ成分のパラメータによって表された
所定のアクセントモデルにモデル化してアクセントモデ
ルパターンを検出するアクセントモデル処理部１１と、
（ｃ）上記アクセントモデル処理部１１によって検出さ
れたアクセントモデルパターンをピッチパターンに変換
した後クラスタリングして各クラスタに属するアクセン
トモデルパターンの平均を計算することにより、経過時
間に対するピッチパターンで表された各クラスタの参照
用の複数のテンプレートを計算するクラスタリング処理
部１２と、（ｄ）入力される検出用発声音声に基づいて
上記特徴抽出部２によって検出されたポーズとピッチパ
ターンに基づいて、上記ピッチパターンと上記参照用の
複数のテンプレートとの間の距離が小さくなるように整
合することにより、上記各テンプレートの接続境界に基
づいてアクセント句境界を検出して出力するＯｎｅＳｔ
ａｇｅＤＰ照合部４とを備える。

【００１６】図１において、話者音声はマイクロホン１
に入力されて音声信号に変換された後、特徴抽出部２に
入力され、特徴抽出部２は、アナログ音声信号からディ
ジタル音声信号にＡ／Ｄ変換した後、ポーズを検出する
とともにピッチ周波数Ｆ₀（以下、ピッチという。）を
検出する。次いで、検出されたピッチとポーズの情報デ
ータはバッファメモリ３に一時的に格納された後に、Ｏ
ｎｅＳｔａｇｅＤＰ照合部（以下、照合部とい
う。）４と、アクセントモデル化処理部１１に入力され
る。バッファメモリ３に格納される情報は、時間的に連
続した情報データであり、それぞれピッチの連続量のパ
ターンであるピッチパターンとポーズデータである。な
お、ポーズとは発声音声における韻律節と韻律節との間
の無音区間をいう。

【００１７】この装置では、ピッチパターンに基づいて
アクセントモデル化処理とクラスタリング処理を実行し
てアクセントモデルテンプレートを生成する学習モード
と、学習モードで得られたアクセントモデルテンプレー
トを参照して、連続的に発声されて入力される話者音声
に基づいて、連続音声認識のためのアクセント句境界を
検出する検出モードとを備える。

【００１８】特徴抽出部２においては、ポーズは、入力
される音声信号のパワーを検出し、検出したパワーを所
定のしきい値とを比較して、そのパワーがそのしきい値
以下でありかつそれが所定の時間（好ましくは、３０ミ
リ秒）以上だけ継続するときにポーズと判断する。ま
た、特徴抽出部２で認識される入力音声文データはポー
ズ毎に分割されて、バッファメモリ３を介して照合部４
に、アクセント句境界検出の処理のために送られる。ポ
ーズによる認識対象区間の分割は、最良のＮ個の候補で
あるＮ−ｂｅｓｔ候補の探索に拡張したときに効果が表
れ、ポーズ検出を行わない場合に比較して、アクセント
句境界候補の検出精度が確実に向上する。また、ピッチ
の抽出には基本的には公知のｌａｇ−ｗｉｎｄｏｗ法
（嵯峨山茂樹ほか，“ラグ窓を用いたピッチの抽出の一
方法”，昭和５３年度電子通信学会総合全国大会講演
集，１２３５，ｐｐ．５−２６３，１９７８年３月参
照。）を用いる。

【００１９】この装置の特徴は参照用のテンプレートと
して、後述するようにモデル化されたアクセント成分及
びフレーズ成分のパラメータを使用していることであ
る。入力音声の全区間に対応するパラメータを抽出する
ために、平井俊男ほかによって提案された方法（平井俊
雄ほか，“統計的手法による基本周波数パターンの制
御”，平成５年秋季音響学会講演論文集Ｉ，２−８−
３，ｐｐ．２２５−２２６，１９９３年１０月参照。
（以下、文献３という。））を、アクセントモデル処理
部１１のために用いる。ここで特筆することは、この装
置においてモデルパラメータはテンプレートの学習時に
しか使用されないので、完全に自動化されたモデルパラ
メータの抽出アルゴリズムは必要としないということで
ある。従って、この装置の学習モードのときには、半自
動的に抽出されたモデルパラメータと視察で与えられた
アクセント句を照らし合わせてアクセントパターンをモ
デル化し、クラスタリングの手法を用いて複数のテンプ
レートを作成することができる。

【００２０】この装置の検出モードには、照合部４は、
入力された連続音声のピッチパターンに対してテンプレ
ートによるＯｎｅＳｔａｇｅＤＰ（Dynamic Progra
mming）整合処理を行い、入力音声区間全体における最
小二乗誤差基準による最適テンプレート系列を求める。
そして、得られたテンプレート系列の接続境界に対応す
る箇所を未知の入力音声のアクセント句境界として検出
する。

【００２１】特徴抽出部２における入力パワーｐ_nの計
算は次の数１を用いて行う。

【００２２】

【数１】

【００２３】ここで、Ｎは入力フレーム数であり、ｘ_i
は入力された音声信号であり、ｒはパワーの有効範囲で
あり、Ｈ（ｎ，ｊ）はスムージング窓又はハミング窓で
ある。本実施例においては、１フレームは１０ミリ秒で
あり、ｒ＝１５ミリ秒であり、ハミング窓長は１００ミ
リ秒に設定している。また、特徴抽出部２におけるしき
い値ｐｔｈは次の数２と数３とによって定義される数４
によって計算される。

【００２４】

【数２】ｐ_high＝min（βmax_nｐ_n＋(1−β）min_nｐ_n,Ｅ
(ｐ_n)＋σ(ｐ_n)）

【数３】ｐ_low＝max（(1−β)max_nｐ_n＋βmin_nｐ_n,Ｅ
(ｐ_n)−σ(ｐ_n)）

【数４】ｐｔｈ＝α・Ｅ(ｐ_n＞ｐ_high)＋(1−α)・Ｅ
(ｐ_n＜ｐ_low)

【００２５】ここで、「ｍａｘ_nｐ_n」は、ｎを変化した
ときのｐ_nで最大の値を示す一方、「ｍｉｎ_nｐ_n」は、
ｎを変化したときのｐ_nで最小の値を示す。また、ｍｉ
ｎ（・）は複数の引数のうちの最小値を選択する関数で
あり、ｍａｘ（・）は複数の引数のうちの最大値を選択
する関数であり、以下同様である。さらに、Ｅ(ｐ_n)は
ｐ_n（１＜ｎ＜Ｎ）の平均値であり、σ(ｐ_n)はｐ_n（１
＜ｎ＜Ｎ）の標準偏差である。本実施例においては、α
＝０．１５、β＝０．１０に設定した。この実施例の装
置では、入力は１文章毎に行ない、Ｎは入力の全フレー
ム数としているが、リアルタイム処理のためには、上記
しきい値を固定してもよい。さらに、特徴抽出部２にお
けるピッチ抽出は、前述のように、公知のｌａｇ−ｗｉ
ｎｄｏｗ法を用いてピッチ抽出を行なう。ただし、この
とき自己相関関数から得られるピークの高さをピッチの
信頼度として付与する。

【００２６】次に、テンプレートパラメータの学習につ
いて述べる。一般に、ピッチパターンは文頭から文末に
向かって緩やかに下降するフレーズ成分と、局所的に起
伏するアクセント成分との和で表現されることが知られ
ている。このアクセントモデルの対数ピッチ基本周波数
ｌｎＦ₀は時刻ｔの関数として次の数５で与えられる。

【００２７】

【数５】

【００２８】ここで、Ｆ_minは声帯振動が可能な最低周
波数であり、ＩとＪはそれぞれ１文中でのフレーズ指令
数及びアクセント指令数であり、ＡｐｉとＡａｊはｉ番
目のフレーズ指令及びｊ番目のアクセント指令の大きさ
であり、Ｔ０ｉはｉ番目のフレーズ指令の開始点、Ｔ１
ｊとＴ２ｊはそれぞれｊ番目のアクセント指令の開始点
及び終了点である。またＧｐｉ（ｔ）とＧａｊ（ｔ）は
それぞれ、フレーズ制御機構のインパルス応答関数及び
アクセント制御機構のステップ応答関数であり、これら
の応答関数Ｇｐｉ（ｔ）とＧａｊ（ｔ）は、αｉとβｊ
をそれぞれの固有角周波数とすれば、次の数６と数７と
によって表される。

【００２９】

【数６】Ｇｐｉ（ｔ）＝ αｉ・ｔ・ｅ^-αit

【数７】Ｇａｊ（ｔ）＝min［１−（１＋βｊ・ｔ）ｅ
^-βjt，θ］

【００３０】ここで、これらの応答関数Ｇｐｉ（ｔ）と
Ｇａｊ（ｔ）は、ｔ≦０ではともに０であり、θは応答
関数Ｇａｊ（ｔ）の上限値（約０．９）である。本実施
例において、アクセントモデル処理部１１は、これらの
アクセント成分及びフレーズ成分のパラメータを用い
て、１つのアクセント句に対し、図２のようなモデル化
を行なう。図２における各パラメータは次の通りであ
る。（ａ）当該アクセント指令： τｂ：アクセントパターンの継続時間長。Ａａ１：アクセント指令の大きさ（又は振幅）。ｔａ１：アクセン指令のオンのタイミング。 τａ１：アクセント指令の継続時間長。（ｂ）先行フレーズ指令：Ａｐ０：大きさ。ｔｐ０：生起のタイミング。（ｃ）当該フレーズ指令Ａｐ１：大きさ。ｔｐ１：生起のタイミング。（ｄ）後続フレーズ指令：Ａｐ２：大きさ。ｔｐ２：生起のタイミング。

【００３１】すなわち、上記アクセントモデルは、特定
のアクセント句のアクセント指令と、上記特定のアクセ
ント句の１つ前のアクセント句の直前に存在するフレー
ズ指令と上記特定のアクセント句の直前に存在するアク
セント句のフレーズ指令と、上記特定のアクセント句内
のアクセント指令の直後に存在するフレーズ指令とのそ
れぞれの大きさと時間的なタイミングのデータを含む。

【００３２】本実施例においては、アクセント指令、フ
レーズ指令、フレーズは以下のように定義される。すな
わち、複数の語にわたるゆるやかな抑揚を生成するイン
パルス状の指令又は指令をフレーズ指令、語アクセント
を表す局所的な起伏を生成するステップ状の指令をアク
セント指令と呼ぶ。さらには、それぞれの指令によって
生成されるピッチパターンの成分をフレーズ成分、アク
セント成分と定義する。

【００３３】本実施例においては、今着目している当該
アクセント句に影響を及ぼすパラメータはそのアクセン
ト句内に発生している各指令と直前のフレーズ指令、及
び１つ前のアクセント句の直前のフレーズ指令のみを考
えている。すなわち、図２にある指令はｐ０，ｐ１，ｐ
２，ａ１の４つであり、フレーズ指令ｐｉについては大
きさと時刻のパラメータが、アクセント指令ａ１につい
ては大きさと開始時刻と継続時間のパラータがある。従
って、ここでは、今着目している当該アクセント句に影
響を及ぼすパラメータはそのアクセント句内に発生して
いる各指令（ａ１，ｐ２）と直前のフレーズ指令（ｐ
１）、および１つ前のアクセント句の直前のフレーズ指
令（ｐ０）のみを考えている。実際には１つ前のアクセ
ント成分も少なからず影響しているのであるが、アクセ
ント指令は正と負のステップ応答によって打ち消し合
い、後続のアクセント句にあまり影響を与えないことか
ら、ここでは考慮しない。また、アクセント句内で後続
のアクセント指令が開始することがあるが、後述のテン
プレートの性質上、無視することにする。さらに、本実
施例においては、パラメータαｉとβｊについてはそれ
ぞれ３．０，２０．０として固定した。これらの値は話
者や発話様式の違いによる差が一般に他のパラメータに
比べて小さく、ましてや、詳細後述するシミュレーショ
ンで扱うデータベースに関してはほとんど差が見られな
いと予想されるからである。

【００３４】図３は、「あらゆる現実を、すべて自分の
方へねじまげたのだ」という１文章中の５つのアクセン
ト句についてモデルパターンを表現したものであり、図
３において、（ａ）は図１の装置に入力される音声信号
の信号波形を示すタイミングチャートであり、（ｂ）は
上記（ａ）の音声信号の信号波形に対応し、図１の装置
で検出されるピッチパターンのタイミングチャートであ
り、（ｃ）は上記（ａ）の音声信号の信号波形に対応
し、図１の装置で検出されるモデルパラメータのタイミ
ングチャートであり、（ｄ）は上記（ａ）の音声信号の
信号波形に対応し、図１の装置で検出されるアクセント
フレーズモデルである。

【００３５】図３（ａ）の音声信号の波形を区切ってい
る縦線は視察によって付与したアクセント句境界であっ
て、ポーズ（図においてｐａｕと示す。）を除く５つの
区間がアクセント句として切り出されている。この入力
音声のピッチパターンにフィッティングの良いモデルの
パラメータは文献３の平井ほかの方法で推定可能であっ
て、推定検出されたモデルパラメータを図３（ｃ）に示
す。個々のアクセント句のピッチパターンをモデルのパ
ラメータで正確に表現する場合には発声開始から当該ア
クセントまでの全ての指令のパラメータを必要とする
が、後続のアクセント句になるほど次元が大きくなる。
そこで、本実施例においては、１つのアクセント句に対
しては図２に示された限定区間のパラメータのみで表現
する。これは、アクセント句毎にパラメータからピッチ
パターンを再生成したときの誤差ができるだけ小さくな
るようなセットを選んで決定する。そして、５つのアク
セント句をそれぞれモデルパラメータで表現したものが
図３（ｄ）に、５つのアクセントフレーズモデル１０１
乃至１０５で図示されているものである。

【００３６】アクセントフレーズモデルの検出において
は、アクセント指令については当該アクセント句の要素
をそのまま取り出し、フレーズ指令については先行と当
該の２つのアクセント句に影響を及ぼす２つの要素、も
しくは、当該アクセント句内で後続のフレーズ指令が発
生した場合には、それを含めて３つの要素を抽出してい
る。ただし、先行アクセント句に影響を及ぼすフレーズ
指令とは１つ前のアクセント句の開始直前の指令であっ
て、指令が無い場合には無くても構わず、２つも３つも
前のアクセント句まで逆昇ることはしない。また、図３
のように途中でポーズが検出されれば、その次のアクセ
ント句を先頭アクセント句として処理する。

【００３７】すなわち、アクセントモデル処理部１１
は、バッファメモリ３から出力されるピッチパターンの
データに基づいて上述のように、アクセントモデルのモ
デル化を実行し、すなわちピッチパターンモデルのパラ
メータ推定を行い、図３（ｃ）に示すモデルパラメータ
を検出した後、視察で与えたアクセント句の区間に基づ
いて、図３（ｄ）に示すようなアクセントフレーズモデ
ル１０１乃至１０５を検出して、当該モデルをアクセン
トモデルパターンとしてアクセントモデルパターンメモ
リ２０に格納する。さらに、クラスタリング処理部１２
は、アクセントモデルパターンメモリ２０に格納された
アクセントモデルパターンを一度アクセントパターンに
変換して公知のＬＢＧ法（Y.Linde et al.,“An Algori
thm for Vector Quantizer Design",IEEE Transactions
Communications,Vol.COM-28,1,pp.85-95,１９８０年
１月参照。）によるクラスタリング処理を行なった後、
各クラスタに属しているアクセントモデルパラメータの
平均を計算して、テンプレートにしている。平均を計算
する際に注意すべきことは、アクセント句の数とフレー
ズ指令の数が一致しないということである。つまり、モ
デル表記上のフレーズ指令ｉ（Ｐｉ）の大きさＡｐｉ
（ｉ＝０，１，２）が０のときには、タイミングｔｐｉ
の値は特定されない。これについては、大きさＡｐｉは
クラスタのメンバー数の平均値を計算するとともに、タ
イミングｔｐｉはクラスタのメンバー中のＰｉの個数の
平均値を計算することにする。例えば、図３の場合、ア
クセントの数は５である。ここで、５つのアクセントを
先頭から順に１，２，３，４，５としたとき、各指令の
有無について表にすると、表１のようになる。

【００３８】

【表１】

【００３９】当該アクセント句で当該フレーズ（ｐ１）
であったものは先行アクセント句では後続フレーズ（ｐ
２）であり、後続アクセント句では先行フレーズ（ｐ
０）としてみなされます。表１から明らかなように、先
行フレーズ指令ｐ０のフレーズ数と、当該フレーズ指令
ｐ１のフレーズ数と、後続フレーズ指令ｐ２のフレーズ
数はそれぞれ、３、４、１となる。

【００４０】このとき大きさＡｐ０，Ａｐ１，Ａｐ２は
アクセント数５で割って平均値を計算し、タイミングｔ
ｐ０，ｔｐ１，ｔｐ２はそれぞれのフレーズ数３、４、
１で割って位置を決定する。この方法ではクラスタ数の
小さい時にはフレーズの有無による分類が不十分で、平
均をとったためにフレーズ指令が小さくなったテンプレ
ートが続出するであろうが、クラスタ数が増すにつれて
解消されると予想される。また、クラスタリングの手法
は従来のものを使い、ピッチ周波数Ｆ₀表現の領域で計
算しているため、実際のピッチ周波数Ｆ₀のクラスタ重
心とモデルテンプレートのパラメータで生成されるＦ₀
パターンはおそらく大きく異なると推定される。

【００４１】本実施例においては、上述のクラスタリン
グ方法を用いているが、本発明はこれに限らず、クラス
タを生成した後にパラメータ重心を計算し、再び重心パ
ターンに変換して再度クラスタリングするというように
パラメータとピッチ周波数Ｆ₀間の変換を密にした方法
を用いてもよい。この変形例の方法では、同様に、ＬＢ
Ｇ法を用いる。これは初期値クラスタを１つとし、逐次
２、４、８とステップアップしてクラスタ分割する方法
である。本実施例では、学習データとしてアクセントモ
デルのパラメータで生成されるＦ₀パターンを用いる。
これらのＦ₀パターンとクラスタの重心パターンとの距
離は、後述の数１２で定義される。各ステップにおいて
は公知のｋ−ｍｅａｎｓ法により、（１）重心パターン
との距離計算に基づく学習データの分類処理と、（２）
分類された学習データによる重心パターンの再計算処理
とを繰り返し、重心パターンが所定の収束条件まで収束
するまで再分類を繰り返す。収束したならば、それぞれ
のクラスタに属しているアクセントモデルのパラメータ
の平均を計算してテンプレートのパラメータに設定す
る。このテンプレートのパラメータから数５でＦ₀パタ
ーンを生成し、クラスタを分割して次のステップに進
む。最終的に得られるものは各ステップ毎のテンプレー
トのパラメータである。

【００４２】図４は、テンプレート数が４であるときの
クラスタリング処理の結果の一例を示す。横軸は時間
で、０がアクセント句の開始時間を示す。縦軸は指令の
大きさである。この例では、大別して、アクセント指令
がアクセント句内で発生しているものと、アクセント句
の前に発生しているものの２種類、直前のフレーズ指令
が大きいものと小さいものの２種類、それぞれの組み合
わせで合計４種類のアクセントモデルテンプレートを得
ることができる。クラスタリング処理部１２によって得
られた代表アクセントモデルパターンは、参照用アクセ
ントモデルテンプレートとしてアクセントモデルテンプ
レートメモリ２１に格納される。

【００４３】さらに、上記クラスタリング処理部１２に
おいて用いる距離尺度について説明する。異なるアクセ
ントパターン間の距離を定義するために、ここでは２つ
の距離尺度を定義する。１つはパターンの形状に関する
距離であり、もう１つは長さに関する距離で、アクセン
トパターン間の距離はこれらの距離の和で定義する。い
ま、ここに学習アクセントパターンの集合Ｐのうちｊ番
目のアクセントパターンが次の数８のような時系列のベ
クトルで表されるものとする。

【００４４】

【数８】Ｐ_j＝(ｐ_j1,…,ｐ_ji,…,ｐ_jLj)

【００４５】ここで、ｐ_jiはｊ番目のアクセントのｉフ
レームにおける対数ピッチ値である。パターンの形状に
関する距離を最小二乗誤差基準で簡単に定義するために
等しい長さに線形伸縮したパターンＰｈ_jは次の数９で
表される。

【００４６】

【数９】Ｐｈ_j＝(ｐh_j1,…,ｐh_ji,…,ｐh_jL)

【００４７】このとき、２つのパターンＰｈ_jとＰｈ_k間
の距離は次の数１０で定義される。

【００４８】

【数１０】

【００４９】ここで、ａはバイアスであり、従来の方法
におけるＲ型テプレートであれば、ａ＝ｐｈ_j1−ｐｈ_k1
であるが、本実施例のアクセントモデルにおいては、相
対的なピッチではなく、ピッチの高さそのものを使用す
るので、ａ＝０である。一方、長さに関する距離は次の
数１１で定義される。

【００５０】

【数１１】Ｄ_L(Ｐh_j,Ｐh_k)＝(Ｌ_j−Ｌ_k)²

【００５１】これらの２つの距離尺度を使って、２つの
パターンを次の数１２で定義する。

【００５２】

【数１２】Ｄ_λ(Ｐh_j,Ｐh_k)＝(1−λ)Ｄ_S(Ｐh_j,Ｐh_k)＋
λγＤ_L(Ｐh_j,Ｐh_k)

【００５３】ここでλは距離Ｄ_Lに対する重み係数であ
り、γは距離Ｄ_Lの正規化係数であり、次の数１３で表
される。

【００５４】

【数１３】

【００５５】ここで、ＰｂはＰｈの平均（クラスタ数１
の場合の重心）である。

【００５６】さらに、検出モードにおける照合部４によ
って実行されるアクセント句境界の自動検出処理につい
て述べる。まず、図６及び図７を参照してアクセント句
境界検出処理の流れを簡単に説明する。まず、入力音声
信号（図６及び図７の（ａ））からピッチ抽出を行な
い、ピッチパターン（図６及び図７の（ｃ））を推定す
る。このとき同時に自己相関関数のピークの高さ（図６
及び図７の（ｂ））を記憶装置に記憶してピッチの信頼
度として利用する。図５は学習モードの処理によって得
られた８つのアクセントモデルテンプレートのうちの前
半４つであり、これらとピッチパターンとをＤＰ整合法
により時間的に連続に整合することにより、アクセント
句境界候補（図６及び図７の（ｄ））が検出される。図
５に示すように、照合部４は、参照用の複数のテンプレ
ートを用いて上記ピッチパターンと上記参照用の複数の
テンプレートとの間の距離が小さくなるように整合する
ことにより、上記各テンプレートの接続境界に基づいて
アクセント句境界を検出して出力する。

【００５７】なお、図６及び図７において、（ａ）の音
声信号の波形を分割している線は視察によって与えたア
クセント句境界であり、波形の上の文字列は音韻ラベル
である。また横軸の目盛は分析の１０フレーム単位で刻
まれていて、１目盛は１００ミリ秒（１フレーム＝１０
ミリ秒に換算する。）である。図６及び図７の（ｄ）に
おける横棒それぞれが１つのテンプレートと整合してい
ることを表し、線上に添えられたＲで始まる文字が図５
のアクセントモデルテンプレートと対応している。時間
軸方向に見て、アクセントモデルテンプレートとの整合
処理が行なわれていない区間は、ポーズ（ｐａｕ）検出
によって予め除去された区間であって、Ｎ−ｂｅｓｔ候
補検出はポーズの前後で別々に処理される。

【００５８】次いで、照合部４におけるアクセントモデ
ルテンプレートの連続整合処理について述べる。アクセ
ントモデルテンプレートの連続整合処理は、基本的に
は、バッファメモリ３から照合部４に入力されるＦ₀パ
ターンと、学習モードで検出されてアクセントモデルテ
ンプレートメモリ２１に格納されたアクセントモデルテ
ンプレートから生成されるＦ₀パターンに関するＯｎｅ
ＳｔａｇｅＤＰの処理（この処理方法は、例えば、
Hermann Ney et al.,"The Use of a One-Stage Dynamic
Programming Algorithm for Connected Word Recognit
ion".Vol.ASSP-32,2,pp.263-271,１９８４年４年参
照。）である。ここで、パターン間の距離は全て対数尺
度を用いて二乗誤差基準でＤＰ整合する。

【００５９】図８は、従来のＦ₀テンプレートによる整
合パスと、本実施例の方法におけるアクセントモデルテ
ンプーレートによる整合パスを比較したものである。横
軸は未知入力音声のピッチ分析フレームであり、縦軸は
テンプレートのフレームであって、どちらも１フレーム
＝１０ミリ秒である。公知のＯｎｅＳｔａｇｅＤＰ
法ではすべての格子上の点に対してその時刻までの累積
距離を計算する。黒で塗り潰した点までの累積距離を計
算するとき、従来のＦ₀テンプレート（図８の（ａ））
では実線で黒までに至る４種類の経路が必要であり、傾
きにして１／２から２までの非線形整合が必要である。
これは、Ｆ₀テンプレートがピッチパターンの生成モデ
ルに基づいてなく、固有の長さを有するテンプレートで
あることに起因する。しかしながら、本実施例のアクセ
ントモデルテンプレート（図８の（ｂ））ではアクセン
トモデルを仮定しているため、非線形な整合はしないと
いう拘束条件を設定することができる。

【００６０】すなわち、従来のＦ₀テンプレートでは、
図８（ａ）のようなパスを与えていたことに対して、本
実施例のアクセントモデルテンプレートでは、図８
（ｂ）のような非線形の伸縮を許さないパス制限を与え
る。これはアクセントモデルで生成されるＦ₀パターン
上のあらゆる時間におけるピッチ周波数Ｆ₀の値が、各
指令の大きさと指令発生からの経過時間によって一意に
定まるためであり、不規則な変化を考慮する必要がない
からである。また、上述のように数６及び数７における
固有角周波数α及βの値を固定にしているため、各指令
によるピッチ成分の増加速度及び減衰速度も等しく、傾
きが１、すなわち４５゜の１つの経路だけを考えれば良
い。このとき問題になるのは、アクセントモデルテンプ
レートの終端条件である。従来のＦ₀テンプレートと同
様に、アクセントモデルテンプレートの最終端フレーム
だけでしか、次のテンプレートに遷移できないのであれ
ば、テンプレート系列のパターン長と入力パターン長が
一致することは極めて稀である。従って、テンプレート
の終端に幅を設けて遷移をある程度自由にする必要があ
る。本実施例においては、終端条件として次のような範
囲を設定する。

【００６１】（ａ）テンプレート終端の開始点：以下の
全ての条件を見たすとき：（ａ−１）テンプレートが構成するクラスタに属するア
クセントパターンの最小の長さ。（ａ−２）テンプレートが構成するクラスタに属するア
クセントパターンの平均の長さ／２（これは、Ｆ₀テン
プレートが１／２乃至２の傾斜で伸縮していることに起
因する。）。（ａ−３）テンプレートのアクセント指令の終わる時間
（これは、アクセント指令が終了する前に新たなアクセ
ント句が始まることは無いことに起因する。）。（ｂ）テンプレート終端の終了点：テンプレートが構成
するクラスタに属するアクセントパターンの最大の長
さ。上記開始点と終了点によって決定されるこの範囲におい
てテンプレートは終端することが可能であり、次のテン
プレートの先頭フレームに接続することができる。

【００６２】図９は図８のパス制限によるテンプレート
と入力ピッチパターンの整合の一例を示す。縦軸、横軸
は図８と同じである。傾き１の線形パスなので、イメー
ジとしてはテンプレートから生成するＦ₀パターンとピ
ッチパターンの始点を合わせて対比して処理することに
なる。すなわち、照合部４は、ピッチパターンと複数の
アクセントモデルテンプレートとのＯｎｅＳｔａｇｅ
ＤＰ法を用いた整合において、傾きが１の線形パスを
用いた整合処理である。

【００６３】ここで、説明を簡単にするため、テンプレ
ート数が１の場合で説明する。まず、テンプレートの開
始点と、ピッチパターンの開始点のフレームを合わせ、
開始フレームでの対数ピッチ値の差の二乗が累積距離の
初期値になる。以降、ピッチパターンとテンプレートと
がともに、１フレームずつずらしながら対数ピッチ値の
差の二乗を累積してゆく。そのときの経路を格子上で表
したものが、４５゜の実線になる。また、アクセントモ
デルから生成されるピッチ周波数Ｆ₀の値は半無限遠ま
で範囲があり得るので、テンプレートとの整合終了のタ
イミング（つまり、アクセント句の区間の決定のタイミ
ング）を与える必要がある。その基準として、テンプレ
ートのクラスタを構成するアクセントパターンの最小
長、平均長の１／２、アクセント指令の終了するタイミ
ングの３つを与え、いずれの長さ及び時刻を超えた時点
からテンプレートが終端可能となる。また、テンプレー
トの長さの上限はアクセントパターンの最大長とする。
図９ではこの区間を矢印で示す。入力ピッチパターンの
上の白丸の点が最短の場合であり、このとき、次のフレ
ームをテンプレートの開始フレームに揃えて、第２アク
セント句の検出のための整合が始まる。すなわち、照合
部４は、テンプレートが構成するクラスタに属するアク
セントモデルパターンに基づいて、上記整合処理におけ
る上記テンプレートに終端領域を設定する。

【００６４】さらに、遷移確率による接続コストについ
て述べる。モデルテンプレートはフレーズ指令の特徴に
よって、発声の開始時に現れるパターンと他のアクセン
ト句の後に現れるパターンとに比較的顕著な差がみられ
る。接続コストはアクセント句境界の挿入誤りの抑制に
有効である。接続コストを与えない場合、ピッチ推定エ
ラー等に起因するピッチパターンの不連続点での大きな
整合歪み（二乗誤差）を回避しようとして、他のテンプ
レートに遷移するケースがしばしば本発明者のシミュレ
ーションにおいて観測される。これらについてはピッチ
の信頼度による重みをかけることで対処するが、これだ
けでは十分な効果が得られない。従って、接続の頻度を
減少させるようなコストが必要になる。接続コストとし
て、学習データにおけるテンプレートの遷移確率を使用
する。これは、不規則なテンプレート系列が生成されな
いように制御するためである。

【００６５】図１０は、アクセントモデルテンプレート
間の遷移頻度についてまとめたものである。縦軸が遷移
前の状態、横軸が遷移後の状態であり、遷移頻度は四角
の面積に比例している。ポーズについては、アクセント
モデルテンプレートが用意されているわけではなく、単
にテンプレートの遷移の初期状態と終了状態として図示
している。ポーズ検出によって分割されたアクセント句
境界の検出の対象はおよそ平均して２乃至３個程度のア
クセント句で構成されているので統計的にポーズの出現
頻度が多くなる。この図１０から推測できるテンプレー
トの系列は始めにＲ２，Ｒ４，Ｒ５，Ｒ６のいずれかの
パターンが現われて、それにＲ０，Ｒ１のパターンが続
き、ポーズになるといったものである。複数のアクセン
トモデルテンプレートのうちの１つのテンプレートから
もう１つのテンプレートへのバイグラムの情報を用いれ
ば、アクセント句境界検出の誤りが抑制できると考えら
れる。距離計算は全て対数値の加算によって行なってい
るので、このテンプレートのバイグラムによる接続コス
トを、−（スケール）・ｌｏｇ₁₀（遷移確率）で与え
る。ここで、スケールはバイグラムの制約の強さを表わ
す変数である。本実施例では、照合部４は、上記整合処
理において、上記参照用の複数のテンプレートの中で、
テンプレートからテンプレートへの遷移に関するバイグ
ラム確率に基づいて、２つのテンプレートの接続コスト
を表し、上記接続コストが小さくなるようにアクセント
句境界を検出する。

【００６６】現在、終端可能範囲のいずれの点からも等
しいコストで遷移が可能なため、接続コストを与えた場
合には可能な限り接続回数を少なくしようとする傾向が
あるし、逆に接続コストを与えない場合にはしばしば終
端して新しいテンプレートへと接続しようとする傾向が
ある。これらの問題を解決するためには、アクセントパ
ターンの平均長に対する正規分布的な確率によって遷移
をコントロールするなどの方法が考えられる。

【００６７】さらに、照合部４によって実行されるアク
セント句境界検出処理のフローについて、図１３を参照
して説明する。この処理で用いるパラメータを以下に定
義する。（ａ）未知の入力パターンのフレーム：ｉ＝１，…，
Ｎ。（ｂ）モデルテンプレートのテンプレート番号：ｋ＝
１，…，Ｋ。（ｃ）モデルテンプレートｋのフレーム番号：ｊ＝１，
…，Ｊ_ｋ。（ｄ）（ｉ，ｊ，ｋ）における累積距離：Ｄ（ｉ，ｊ，
ｋ）。この（ｉ，ｊ，ｋ）における累積距離とは、Ｏｎ
ｅＳｔａｇｅＤＰ上の入力音声フレームｉの時刻に
おいてテンプレートｋのｊフレームと整合していると仮
定した場合の、その時刻までの対数ピッチによる最小二
乗誤差である。ただし、それを好ましくは、Ｎ−ｂｅｓ
ｔ候補を記憶しているが、当該処理では最良の１個のみ
の１−ｂｅｓｔの例で記述している。（ｅ）（ｉ，ｊ，ｋ）における高さ方向の対数移動幅：
Ｏ（ｉ，ｊ，ｋ）。（ｆ）（ｉ，ｊ，ｋ）におけるフレーム間距離：ｄ
（ｉ，ｊ，ｋ，Ｏ）。（ｇ）対数ピッチ周波数値：Ｐ（ｉ）。（ｈ）モデルテンプレート番号ｋにおけるフレームｊの
対数ピッチ周波数値：Ｔ_k（ｊ）。（ｉ）入力フレームｉにおけるピッチ周波数の信頼度：
ｒ（ｉ）。（ｊ）フレーム間距離：次の数１４で表される。

【数１４】ｄ（ｉ，ｊ，ｋ，Ｏ）＝ｒ（ｉ）（Ｐ（ｉ）
−（Ｔ_k（ｊ）＋Ｏ））^２。（ｋ）バイアスの上限：Ｂ。（ｌ）テンプレートｋ’からｋへの接続コスト：ｂｉｇ
ｒａｍ（ｋ’，ｋ）。

【００６８】数５におけるＦ_minの値は話者に依存して
さまざまな値をとるが、アクセントモデルテンプレート
のＦ_minの値は学習話者のもので固定されている。この
ため、従来の方法におけるＲ型（高さ方向に移動可能
な）テンプレートの方法と同様にテンプレートに若干の
上下移動を与えることにする。バイアスＢはその時の上
限である。

【００６９】図１３に示すように、アクセント句境界検
出処理では、ステップＳ１において初期化処理を実行す
る。具体的には以下の通りである。（Ｉ）ステップＳ１０１：パラメータｋを１からＫまで
１ずつインクリメントしてステップＳ１０２乃至Ｓ１０
３を実行する。（II）ステップＳ１０２：数１５を実行する。

【数１５】Ｄ（１，１，ｋ）＝０（III）ステップＳ１０３：パラメータｊを２からＪ_kま
で１ずつインクリメントして数１６を実行する。

【数１６】Ｄ（１，ｊ，ｋ）＝∞

【００７０】次いで、ステップＳ２では、累積距離Ｄ
（ｉ，ｊ，ｋ）と対数移動幅Ｏ（ｉ，ｊ，ｋ）とを計算
する処理を実行する。具体的には以下の通りである。（IV）ステップＳ２０１：パラメータｉを２からＮまで
１ずつインクリメントしてステップＳ２０２乃至Ｓ２０
５を実行する。（Ｖ）ステップＳ２０２：パラメータｋを１からＫまで
１ずつインクリメントしてステップＳ２０３乃至２０５
を実行する。（VI）ステップＳ２０３：次の数１７乃至数１９を実行
する。

【００７１】

【数１７】

【００７２】ここで、関数ａｒｇｍｉｎは、引数を最小
にするようなパラメータｊ’，ｋ’の値を関数値として
計算する。なお、ｊ’はテンプレートｋ’における終端
可能範囲である。

【００７３】

【数１８】Ｏ（ｉ，１，ｋ）＝ｍｉｎ［Ｐ（ｉ）−Ｔ_k
（１），Ｂ］

【数１９】Ｄ（ｉ，１，ｋ）＝Ｄ（ｉ−１,ｊ＊,ｋ＊）
＋ｄ（ｉ,１,ｋ,Ｏ（ｉ,１,ｋ））＋bigram（ｋ',ｋ）

【００７４】ここで、ｂｉｇｒａｍ（ｋ',ｋ）はテンプ
レートｋ’とテンプレートｋとの間のバイグラム値であ
る。（VII）ステップＳ２０４：パラメータｊを２からＪ_kま
で１ずつインクリメントしてステップＳ２０５を実行す
る。（VIII）次の数２０及び数２１を実行する。

【００７５】

【数２０】Ｄ（ｉ，ｊ，ｋ）＝Ｄ（ｉ−１,ｊ−１,ｋ）
＋ｄ（ｉ,ｊ,ｋ,Ｏ（ｉ−１,ｊ−１,ｋ））

【数２１】Ｏ（ｉ，ｊ，ｋ）＝Ｏ（ｉ−１，ｊ−１，ｋ）

【００７６】さらに、ステップＳ３では、テンプレート
の履歴をトレースバックして、テンプレートの接続境界
をアクセント句境界として検出する。すなわち、入力音
声の終端までの整合が終ったときに得られる整合テンプ
レート履歴がテンプレート数Ｋと、テンプレートｋの終
端可能区間幅Ｗｋと、Ｎ−ｂｅｓｔ候補数Ｎであれば、
次の数２２で表される個数が存在する。

【００７７】

【数２２】

【００７８】このうち累積距離の小さいものから順にＮ
−ｂｅｓｔの候補を選択し、それぞれのテンプレートの
履歴を遡って、すなわちトレースバックしてテンプレー
トの接続境界を句境界として検出する。実際には、公知
のＮ−ｂｅｓｔ法（例えば、R.Schwartz et al.,“The
N-best Algorithm: an efficient and extract procedu
re for finding the N most likely sentence hypothes
es",In ICASSP-90,pp.81-84,１９９０年参照。）を用い
て、Ｎ位までの候補を記憶している。

【００７９】ただし、ここでいうＮ−ｂｅｓｔの基準は
テンプレートの系列に対してである。実際には異なるテ
ンプレート系列であっても、境界候補としては全く同等
な候補となる場合もあり得るし、またテンプレート系列
と最適に整合しなければならないという条件を除けば、
同一系列に対しても複数の候補が存在する。従って句境
界候補としてはＮ−ｂｅｓｔではないが、この条件によ
ってＯｎｅＳｔａｇｅＤＰ上での実装が容易にな
り、高速に複数Ｎ候補を検出できることが可能となる。

【００８０】なお、「トレースバック」とはＯｎｅＳ
ｔａｇｅＤＰの性質によるもので、メモリの節約のた
め履歴は直前のンプレートとの接続境界のみしか記憶し
ていないからである。また、Ｎ−ｂｅｓｔの基準はテン
プレートの履歴が異なるものうち、累積距離最小を基準
としてＮ個選択したものである。ここでいうテンプレー
トの履歴とは、テンプレートの接続時刻を指すのではな
く、どのテンプレートと接続したかというテンプレート
の並びを指す。従って、図６及び図７に示したようなア
クセント句境界検出の例では、１位Ｒ２−Ｒ２−Ｒ１、
２位Ｒ２−Ｒ０−Ｒ２−Ｒ１のように１つの系列には１
通りの検出結果しか存在しない。

【００８１】本発明者は、図１のアクセント句境界検出
装置の性能を検証するために、以下のようにシミュレー
ションを行った。ここで、連続音声のデータベースとし
ては、本出願人が所有の日本語連続音声データベースを
用いてアクセント句境界の検出シミュレーションを行っ
た。ＭＨＴ、ＭＳＨ、ＭＴＫの３名について、本実施例
のピッチパターンモデルのパラメータが与えられてい
る。ただし、それぞれ５０３文章中の２００文程度であ
り、発話内容については特に統一されていない。学習デ
ータとしては、男性話者のＭＨＴ、ＭＳＨ、ＭＴＫの発
話音声Ｎｏ．５１乃至５０３のうち、アクセントモデル
パラメータが与えられている資料を学習に用いる。ま
た、シミュレーションデータとしては、男性話者のＭＹ
Ｉ、ＭＨＯ、並びに女性話者のＦＫＮ、ＦＫＳの発話音
声Ｎｏ．１乃至５０をアクセント句境界検出の対象と
し、話者性と発声内容とともにオープンシミュレーショ
ンとした。

【００８２】まず、シミュレーションに使用したパラメ
ータを表２及び表３に示す。

【００８３】

【表２】特徴抽出部２のピッチ抽出処理 ──────────────────────────────── ＦＦＴ５１２ポイント（４２．７ミリ秒）分析シフト１２０ポイント（１０．０ミリ秒）ピッチ抽出時の探索範囲７０乃至３００Ｈｚ抽出法ｌａｇ−ｗｉｎｄｏｗ法（自動抽出） ────────────────────────────────

【００８４】

【表３】照合部４の句境界検出処理 ───────────────────── モデルテンプレート数８個Ｎ−ｂｅｓｔ候補数１０位バイアスの上限６０Ｈｚバイグラムの強さ（スケール）０．１ ─────────────────────

【００８５】まず、アクセント句境界検出評価基準につ
いて説明する。まず、本実施例におけるアクセント句境
界とはアクセント句とアクセント句の境界である。ポー
ズとアクセント句の境界はポーズ境界として定義する。
ただし、ポーズ検出処理において検出されなかった文中
のポーズは句境界として扱う。このとき、（ａ）未検出ポーズ時間が長く、ポーズの両端がアクセ
ント句境界として検出された場合は２つの句境界に対し
て２つ正解検出されたものとする。（ｂ）未検出ポーズ時間が短く、ポーズ間、もしくはそ
の周辺に１つのアクセント句境界が検出された場合は
１つの句境界に対して１つ正解検出されたものとする。

【００８６】また、句境界検出の結果は、次の数２３及
び数２４とによって評価する。

【００８７】

【数２３】句境界検出率＝（正解検出数）／（視察によ
る句境界の総数）

【数２４】句境界挿入誤り率＝（不正解検出数）／（視
察による句境界の総数）

【００８８】ここで、正解検出句境界とは視察によるア
クセント句境界の前後１００ミリ秒内に自動検出された
ものを指す。また、Ｎ−ｂｅｓｔ候補に対しては、ｎ位
候補までの平均句境界検出率、ｎ位候補までの平均句境
界挿入誤り率、ｎ位候補までの累積句境界検出率、及び
ｎ位候補中の最大句境界検出率を挙げた候補についての
句境界検出率と句境界挿入誤り率を評価する。

【００８９】従来のＦ₀テンプレートによる句境界検出
法を用いた話者ＭＹＩのシミュレーション結果を表４に
示す。なお、これまで複数のピッチ候補を抽出してその
中からＦ₀パターンの連続性を保証するようなピッチを
選択し、１００％の信頼度を与えてきたが、本報告では
ピッチ候補は１つとし、ピッチ抽出時の自己相関関数の
ピークの高さを信頼度として与える。

【００９０】

【表４】Ｆ₀テンプレートによる句境界検出精度（話者ＭＹＩ） ─────────────────────────────────── ＭＹＩ句境界検出率（％）句境界挿入誤り率（％） ─────────────────────────────────── 候補数最大検出率候補（平均）［累積］最大検出率候補（平均） ─────────────────────────────────── １７１．４（７１．４）［７１．４］１０２．３（１０２．３）３８０．５（７２．６）［８１．０］８０．５（９８．６）５８６．０（７２．８）［８６．５］７１．０（９８．８）１０８９．６（７２．３）［９１．２］６５．８（１００．１） ───────────────────────────────────

【００９１】本発明に係る実施例のアクセントモデルテ
ンプレートを使用して以下の３種類のシミュレーション
を行った。（ａ）バイグラム（ｂｉｇｒａｍ）をテンプレートの接
続コストとして使用しないシミュレーションとして、Ｆ
₀テンプレートを使用した従来の句境界検出法と比較の
ためのシミュレーションを行った。その結果を表５に示
す。（ｂ）バイグラム（ｂｉｇｒａｍ）の代わりに等確率で
テンプレートが接続すると仮定したシミュレーションを
行った。その結果を表６に示す。（ｃ）バイグラム（ｂｉｇｒａｍ）をテンプレートの接
続コストとして与えたシミュレーションを行った。その
結果を表７に示す。

【００９２】

【表５】モデルテンプレートによる句境界検出精度（話者ＭＹＩ） ─────────────────────────────────── ＭＹＩ句境界検出率（％）句境界挿入誤り率（％） ─────────────────────────────────── 候補数最大検出率候補（平均）［累積］最大検出率候補（平均） ─────────────────────────────────── １８２．５（８２．５）［８２．５］７７．１（７７．１）３９０．１（８１．９）［９０．２］６４．１（８３．５）５９３．３（８１．０）［９３．８］５９．８（８８．９）１０９６．４（８１．７）［９７．４］４９．３（９５．１） ───────────────────────────────────

【００９３】

【表６】 ─────────────────────────────────── ＭＹＩ句境界検出率（％）句境界挿入誤り率（％） ─────────────────────────────────── 候補数最大検出率候補（平均）［累積］最大検出率候補（平均） ─────────────────────────────────── ─────────────────────────────────── １６１．９（６１．９）［６１．９］４２．２（４２．２）３８０．１（６３．５）［８３．５］３４．４（５２．２）５８５．９（６４．６）［９０．０］３１．８（５７．３）１０９２．３（６６．６）［９６．１］２８．１（６４．８） ───────────────────────────────────

【００９４】

【表７】モデルテンプレート（Ｂｉｇｒａｍ）による句境界検出精度（話者ＭＹＩ） ─────────────────────────────────── ＭＹＩ句境界検出率（％）句境界挿入誤り率（％） ─────────────────────────────────── 候補数最大検出率候補（平均）［累積］最大検出率候補（平均） ─────────────────────────────────── １５９．４（５９．４）［５９．４］４１．０（４１．０）３７６．５（６１．０）［８１．２］３０．０（４５．６）５８１．２（６２．１）［８７．１］２８．４（５２．０）１０９１．４（６４．９）［９４．７］２５．５（５９．４） ───────────────────────────────────

【００９５】上記のシミュレーションの結果について以
下に考察する。図１１及び図１２はそれぞれ話者ＭＹＩ
についての従来のＦ₀テンプレートとモデルテンプレー
トによる句境界検出率と句境界挿入誤り率の比較であ
る。黒く塗り潰してプロットしたものはＮ位候補を個別
に評価したもののうち、最大の検出率を挙げた候補につ
いてであり、白抜きでプロットしたものはＮ位候補まで
の累積である。図１１及び図１２から明らかなように、
いずれの候補数においても従来のＦ₀テンプレートに比
べて、モデルテンプレートによる句境界検出率は７％以
上増加している。また、どちらのテンプレートにおいて
も累積検出率に着目した場合、最大句境界検出率とあま
り大きな差がないことがわかる。累積検出率とは平たく
言えば１位候補で検出されなかった句境界が下位候補で
検出されていれば、加算していくといったものである
が、単一候補による最大句境界検出率と複数候補からな
る累積句境界検出率にあまり差がないというのは、挿入
誤りが関与しているからであると考えられる。

【００９６】従来のパターン連続整合法では、アクセン
ト句のＦ₀パターンをクラスタリングすることによりア
クセントＦ₀テンプレートを作成し、アクセント句境界
検出を行なっていた。しかしながら、アクセントモデル
を仮定していないため単なるアクセントパターン認識の
範疇に止まっていた。これに対して、本発明では、上述
のアクセントモデルを使用してアクセントモデルテンプ
レートによるアクセント句境界検出装置を開示してい
る。これによりテンプレートの整合規則がアクセントモ
デルによって図られ、処理速度は従来の方法に比較して
１／７乃至１／８になった。

【００９７】以上説明したように、本発明に係る実施例
によれば、連続音声認識のためのアクセント句境界を従
来に比較してより小さい誤り率で検出することができ、
しかも検出のための処理時間を大幅に短縮することがで
きる。

【００９８】

【発明の効果】以上詳述したように本発明によれば、入
力される発声音声に基づいて上記発声音声におけるポー
ズを検出するとともに、ピッチ周波数の時間的に連続的
なピッチパターンを検出する特徴抽出手段と、入力され
る学習用発声音声に基づいて上記特徴抽出手段によって
検出されたポーズとピッチパターンに基づいて、上記学
習用発声音声をアクセント成分とフレーズ成分のパラメ
ータによって表された所定のアクセントモデルにモデル
化してアクセントモデルパターンを検出するモデル処理
手段と、上記モデル処理手段によって検出されたアクセ
ントモデルパターンをピッチパターンに変換した後クラ
スタンリングして各クラスタに属するアクセントモデル
パターンの平均を計算することにより、経過時間に対す
るピッチパターンで表された各クラスタの参照用の複数
のテンプレートを計算するクラスタンリング処理手段
と、入力される検出用発声音声に基づいて上記特徴抽出
手段によって検出されたポーズとピッチパターンに基づ
いて、上記ピッチパターンと上記参照用の複数のテンプ
レートとの間の距離が小さくなるように整合することに
より、上記各テンプレートの接続境界に基づいてアクセ
ント句境界を検出して出力する照合手段とを備える。従
って、連続音声認識のためのアクセント句境界を従来に
比較してより小さい誤り率で検出することができ、しか
も検出のための処理時間を大幅に短縮することができ
る。

【図面の簡単な説明】

【図１】本発明に係る一実施例である連続音声認識の
ためのアクセント句境界検出装置のブロック図である。

【図２】図１の装置で用いるアクセントモデルの各パ
ラメータを示すタイミングチャートである。

【図３】（ａ）は図１の装置に入力される音声信号の
信号波形を示すタイミングチャートであり、（ｂ）は上
記（ａ）の音声信号の信号波形に対応し、図１の装置で
検出されるピッチパターンのタイミングチャートであ
り、（ｃ）は上記（ａ）の音声信号の信号波形に対応
し、図１の装置で検出されるモデルパラメータのタイミ
ングチャートであり、（ｄ）は上記（ａ）の音声信号の
信号波形に対応し、図１の装置で検出されるアクセント
フレーズモデルである。

【図４】図１のクラスタリング処理部１２によって処
理結果であるアクセントモデルの例を示す図である。

【図５】図１の装置で用いるアクセントモデルテンプ
レートの一例を示すタイミングチャートである。

【図６】（ａ）は図１の装置に入力される音声信号の
信号波形の第１の部分を示すタイミングチャートであ
り、（ｂ）は上記（ａ）の音声信号の信号波形に対応
し、図１の装置で検出されるピークの高さのタイミング
チャートであり、（ｃ）は上記（ａ）の音声信号の信号
波形に対応し、図１の装置で検出されるピッチパターン
のタイミングチャートであり、（ｄ）は上記（ａ）の音
声信号の信号波形に対応し、図１の装置で検出されるア
クセント句境界候補である。

【図７】（ａ）は図１の装置に入力される音声信号の
信号波形の第２の部分を示すタイミングチャートであ
り、（ｂ）は上記（ａ）の音声信号の信号波形に対応
し、図１の装置で検出されるピークの高さのタイミング
チャートであり、（ｃ）は上記（ａ）の音声信号の信号
波形に対応し、図１の装置で検出されるピッチパターン
のタイミングチャートであり、（ｄ）は上記（ａ）の音
声信号の信号波形に対応し、図１の装置で検出されるア
クセント句境界候補である。

【図８】（ａ）は図１の装置で用いるＦ₀テンプレー
トの一例を示す図であり、（ｂ）は図１の装置で用いる
モデルテンプレートの一例を示す図である。

【図９】図１の装置で用いるアクセントモデルテンプ
レートの整合パスに関する制約を示す図である。

【図１０】図１の装置で用いるテンプレート間の遷移
頻度を示す図である。

【図１１】図１の装置で実行されたシミュレーション
結果の一例である候補数に対する句境界検出率の関係を
示すグラフである。

【図１２】図１の装置で実行されたシミュレーション
結果の一例である候補数に対する句境界挿入誤り率の関
係を示すグラフである。

【図１３】図１のＯｎｅＳｔａｇｅＤＰ照合部４
によって実行される句境界検出処理のフローチャートで
ある。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３…バッファメモリ、４…ＯｎｅＳｔａｇｅＤＰ照合部、１１…アクセントモデル化処理部、１２…クラスタリング処理部、２０…アクセントモデルパターンメモリ、２１…アクセントモデルテンプレートメモリ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者匂坂芳典京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内

Claims

【特許請求の範囲】

【請求項１】入力される発声音声に基づいて上記発声
音声におけるポーズを検出するとともに、ピッチ周波数
の時間的に連続的なピッチパターンを検出する特徴抽出
手段と、入力される学習用発声音声に基づいて上記特徴抽出手段
によって検出されたポーズとピッチパターンに基づい
て、上記学習用発声音声をアクセント成分とフレーズ成
分のパラメータによって表された所定のアクセントモデ
ルにモデル化してアクセントモデルパターンを検出する
モデル処理手段と、上記モデル処理手段によって検出されたアクセントモデ
ルパターンをピッチパターンに変換した後クラスタリン
グして各クラスタに属するアクセントモデルパターンの
平均を計算することにより、経過時間に対するピッチパ
ターンで表された各クラスタの参照用の複数のテンプレ
ートを計算するクラスタリング処理手段と、入力される検出用発声音声に基づいて上記特徴抽出手段
によって検出されたポーズとピッチパターンに基づい
て、上記ピッチパターンと上記参照用の複数のテンプレ
ートとの間の距離が小さくなるように整合することによ
り、上記各テンプレートの接続境界に基づいてアクセン
ト句境界を検出して出力する照合手段とを備えたことを
特徴とする連続音声認識のためのアクセント句境界検出
装置。
【請求項２】上記照合手段は、上記参照用の複数のテ
ンプレートを用いて上記各テンプレートの接続境界に相
当する入力された発声音声上の時刻をアクセント句境界
として検出することを特徴とする請求項１記載のアクセ
ント句境界検出装置。
【請求項３】上記照合手段は、ＯｎｅＳｔａｇｅ
ＤＰ法を用いて、上記ピッチパターンと上記参照用の複
数のテンプレートとの間で、傾きが１である線形整合で
整合処理することを特徴とする請求項１又は２記載のア
クセント句境界検出装置。
【請求項４】上記照合手段は、テンプレートが構成す
るクラスタに属するアクセントモデルパターンに基づい
て、上記整合処理における上記テンプレートに終端領域
を設定することを特徴とする請求項３記載のアクセント
句境界検出装置。
【請求項５】上記照合手段は、上記整合処理におい
て、上記参照用の複数のテンプレートの中で、テンプレ
ートからテンプレートへの遷移に関するバイグラム確率
に基づいて、２つのテンプレートの接続コストを表し、
上記接続コストが小さくなるようにアクセント句境界を
検出することを特徴とする請求項３又は４記載のアクセ
ント句境界検出装置。
【請求項６】上記特徴抽出手段は、入力される発声音
声のパワーが所定のしきい値以下であることが所定の時
間以上続いたときポーズとして検出することを特徴とす
る請求項１乃至５のうちの１つに記載のアクセント句境
界検出装置。
【請求項７】上記アクセントモデルは、特定のアクセ
ント句のアクセント指令と、上記特定のアクセント句の
１つ前のアクセント句の直前に存在するフレーズ指令と
上記特定のアクセント句の直前に存在するアクセント句
のフレーズ指令と、上記特定のアクセント句内のアクセ
ント指令の直後に存在するフレーズ指令とのそれぞれの
大きさと時間的なタイミングのデータを含むことを特徴
とする請求項１乃至６のうちの１つに記載のアクセント
句境界検出装置。