JPH0466999A

JPH0466999A - 文節境界検出装置

Info

Publication number: JPH0466999A
Application number: JP2179216A
Authority: JP
Inventors: Shin Kamiya; 伸神谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1990-07-04
Filing date: 1990-07-04
Publication date: 1992-03-03

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】【産業上の利用分野】

二の発明は、連続音声認識装置等に用いられる文節境界
検出装置に関する。

【従来の技術】

従来、連続音声認識装置において、連続発声され１こ音
声を認識する場合には次のようにして文節境界位置を検
出している。すなわち、パワー変化およびピッチ周波数
変化の韻律情報を表す特徴パラメータを用い几条件式を
求める。そして、入力された音声信号かみ抽出されたパ
ワーおよびピッチ周波数の値を上記条件式に代入して得
られｆコ値と閾値との比較結果から文節境界位置を検出
するのである。

【発明が解決しようとする課題】

しかしながら、上述のような韻律情報に基ついて文節境
界を検出する方法においては、韻律情報には不確定な要
素が多い等の理白から定式化が困難である。したかって
、韻律情報を表す特徴パラメータを用いた条件式を求め
るためには十分な経験が必要であり、誰でも簡単に文節
境界検出用の条件式を求めることができないという問題
がある。また、音声処理に韻律情報を用いる場合には、標準語に
おける韻律情報を用いる二とが多い。ところカミ話者に
は標準語を話せる人と話せない人とがあり、地域間差や
話者間差が大きい。したかって、連続発声され几音声を
韻律情報に基づいて認識する場合には、認識率の向上に
限度か有るという問題かある。そこで、この発明の目的は、韻律情報における地域間差
や話者間差に拘わりなく、誰でも簡単な処理で文節境界
を検出できる文節境界検出装置を提供することにある。

【課題を解決するための手段】

上記目的を達成するため、第１の発明は、入力音声信号
から抽出された韻律情報を表す特徴パラメータに基づい
て文節境界を検出する文節境界検出装置において、第１
の所定数のフレームにおける入力音声信号から抽出され
た上記特徴パラメータを表す信号が入力され、この入力
された特徴パラメータに基づいて、上記第１の所定数の
フレームにおける中心フレームか文節境界である信頼度
（文節境界信頼度）を表す文節境界検出信号を所定の手
順によって出力するニューラルネットワークを備えたこ
とを特徴としている。まｆ二、第２の発明は、第１の発明の文節境界検出装置
において、上記ニューラルネットワークは上記第１の所
定数のフレームにおける中心フレームか標準語で話され
たフレームである信頼度（標準語信頼度）を表す標準語
識別信号を所定の手順によって出力することを特徴とし
ている。また、第３の発明は、第２の発明の文節境界検出装置に
おいて、上記ニューラルネットワークからの上記標準語
識別信号に基つく標準語信頼度を格納するメモリと、上
記メモリから第２の所定数分のフレームの標準語信頼度
を読み出して、この読み出した標準語信頼度の平均値を
算出する平均値算出部を備えて、上記ニューラルネット
ワークは上記平均値算出部によって算出された上記第２
の所定数分のフレームの標準語信頼度の平均値を取り込
み、この取り込んだ上記平均値と上記韻律情報を表す特
徴パラメータとに基づいて、上記文節境界信頼度を表す
文節境界検出信号および標準語信頼度を表す標準語識別
信号を所定の手順によって出力することを特徴としてい
る。

【作用】

第１の発明では、第１の所定数のフレームにお１する入
力音声信号から抽出された韻律情報の特徴パラメータを
表す信号がニューラルネットワークに入力される。そう
すると、このニューラルネットワークからは、入力され
た上記特徴パラメータに基づいて、上記第１の所定数の
フレームにおける中心フレームか文節境界である信頼度
（文節境界信頼度）を表す文節境界検出信号か所定の手
順によって出力される。その結果、上記ニューラルネッ
トワークから出力される文節境界検出信号から得られる
文節境界信頼度に基づいて、文節境界位置が検出される
。すなわち、上記ニューラルネットワークに上記韻律情報
の特徴パラメータを表す信号を入力するだけで、文節境
界位置か自動的に検出されるのである。まに、第２の発明では、上記第１の発明における上記ニ
ューラルネットワークによって、入力された上記第１の
所定数のフレームにおける韻律情報を表す特徴パラメー
タに基づいて、上記第１の所定数のフレームにおける中
心フレームか標準語で話されたフレームである信頼度（
標準語信頼度）を表す標準語識別信号か所定の手順によ
って出力される。しにがって、上記ニューラルネットワ
ークから出力される標準語識別信号から得られる標準語
信頼度に基ついて、当該中心フレームに係る発声が標準
語である度合いが得られる。また、第３の発明では、上記第２の発明における上記ニ
ューラルネットワークからの上記標準語識別信号に基づ
く標準語信頼度がメモリに格納される。そうすると、上
記メモリに格納された第２の所定数分のフレームの標準
語信頼度が平均値算出部によって読み出されて平均値が
算出される。そして、算出された上記標準語信頼度の平均値か上記ニ
ューラルネットワークに取り込まれ、この取り込まれた
上記平均値と上記韻律情報を表す特徴パラメータとに基
づいて、上記文節境界信頼度を表す文節境界検出信号お
よび標準語信頼度を表す標準語識別信号か所定の手順に
よって出力される。したかって、入力音声信号から抽出されｆこ韻律情報を
表す特徴パラメータに含まれる地域間差や話者開蓋が標
準語信頼度によって正規化されて、文節境界信頼度が求
められる。

【実施例】

以下、この発明を図示の実施例により詳細に説明する。第１図はこの発明の文節境界検出装置における一実施例
のブロック図である。第１図において、入力された音声
信号は音声分析部１において例えばサンプリング周期１
２ＫＨｚでＡ／Ｄ変換され、更にフレーム（ｌフレーム
は１６ｍ５程度）毎にパワーおよびピッチ周波数の韻律
情報を表す特徴パラメータが算出される。こうして抽出
された２種の特徴パラメータは遅延部２によって第１の
所定数のフレームに相当する時間だけ遅延されて二二一
うルネノトワーク３に入力される。そうすると、このニューラルネットワーク３によって、
入力された２種の特徴パラメータと直前の第２の所定数
分のフレームから後に詳述するようにして求められる当
該話者の発声が標準語である信頼度（以下、標準語信頼
度と言う）とに基づいて、文節境界の候補が後に詳述す
るようにして各フレーム毎に検出される。そして、文節
境界である信頼度（以下、文節境界信頼度と言う）を表
す文節境界検出信号が検出結果として出力される。した
かって、この文節境界検出信号から得られる文節境界信
頼度に基づいて、文節境界位置を検出てきるのである。さらに、このニューラルネットワーク３において、入力
された上記２種の特徴パラメータと上記標準語信頼度と
に基づいて当該フレームが標準語であるかが識別され、
各フレーム毎の標準語信頼度を表す標準語識別信号が識
別結果として出力される。こうして、ニューラルネットワーク３から出力され几各
フレーム毎の標準語信頼度を表す標準語識別信号は平均
値算出部４に入力される。平均値算出部４はニューラル
ネットワーク３から入力された標準語信頼度をメモリ５
に格納すると共に、メモリ５に格納された標準語信頼度
の中から上記第２の所定数分のフレームに係る標準語信
頼度を読み出してその平均値を算出する。こうして算出
された標準語信頼度の平均値を表す信号か平均値算出部
４からニューラルネットワーク３に対して出力される。そして、平均値算出部４から出力された標準語信頼度の
平均値を表す信号は、上述のようにニューラルネットワ
ーク３に入力されて、次のフレームにおける文節境界信
頼度および標準語信頼度を求める際の入力データとなる
のである。すなわち、ニューラルネットワーク３は上記２種の特徴
パラメータと標準語信頼度とに基づいて、各フレーム毎
の文節境界信頼度を求めるのである。こうすることによって、話者の音声から抽出された韻律
情報を表す特徴パラメータに基づいてのみならず、その
話者の発声が標準語である度合いに基づいて文節境界を
検出てきるのである。以下、上記ニューラルネットワーク３および遅延部２に
ついて詳細？こ説明する。第２図は遅延部２のブロック図およびニューラルネット
ワーク３の構造の概念図と、それらの接続関係を示す図
であるっニューラルネットワーク３は、入力層３１．中
間層３２および出力層３３の３層構造を有する３層パー
セプトロン型ニューラルネットワークである。二〇二ュ
ーラルネソトワーク３の入力層３１には（２Ｎ−１例え
は、Ｎ−１０）個のユニットを配し、中間層３２には６
個のユニットを配し、出力層３３には２個のユニットを
配している。上記入力層３Ｉの（２Ｎ−１）個の各ユニットと中間層
３２の総てのユニットとはシナプス結合によって結合さ
れており、中間層３２の６個の各ユニットと出力層３３
の総てのユニットともシナプス結合によって結合されて
いる。上記入力層３１の２Ｎ個のユニット３５．・・・、４０
はＮ個ずつ２つのグループに分けられる。そして、一方
のクループのユニット３５．３６．・−１３７には、音
声分析部１からのパワーを表す信号を入力する。また、
他方のクループのユニット３８３９、・、４０には、音
声分析部ｌかろのピッチ周波数を表す信号を入力する。その際に、上記両クループのユニットのうちユニット３
５．３８には音声分析部１からのパワーを表す信号ある
いはピッチ周波数を表す信号を直接入力し、ユニット３
６３９には音声分析部１からのパワーを表す信号あるい
はピッチ周波数を表す信号を遅延部２における１個の遅
延素子２ＩによってＩフレームに相当する時間だけ遅延
させて入力する。以下同様にして、ユニット３７．４０
には音声分析部１からのパワーを表す信号あるいはピッ
チ周波数を表す信号を（Ｎ−１）個の遅延素子２１によ
って（Ｎ−１）フレームに相当する時間たけ遅延させて
入力する。こうすることによって、遅延部２に音声分析部１からの
連続したＮフレーム（例えば、ｌＯフレーム）分のパワ
ーを表す信号およびピッチ周波数を表す信号を入力した
際に、Ｎフレーム目の特徴パラメータが遅延部２に人力
され７３時点で上記Ｎフレーム分のパワーを表す信号お
よびピッチ周波数を表す信号か同時にニューラルネット
ワーク３の入力層３１に入力されることになるのである
。さらに、上記ニューラルネットワーク３の入力層３１に
おける残りのユニット４１には、上述のように平均値算
出部４からの標準語信頼度の平均値を表す信号か入力さ
れる。まｆこ、出力層３３の２個のユニット４２．４３のうち
、ユニット４２には“文節境界”を割り付ける一方、ユ
ニット４３には”標準語”を割り付ける。すなわち、ユニット４２から出力される信号は文節境界
信頼度を表す上記文節境界検出信号であり、ユニット４
３から出力される信号は標準語信頼度を表す上記標準語
識別信号である。上記ニューラルネットワーク３の学習は、次のように誤
差逆伝播法によって実施する。すなわち、まず多数話者
の音声信号から、第３図に示すようにＮフレーム分のパ
ワーおよびピッチ周波数の２種の特徴パラメータの時系
列を得て、これを学習データとする。ま１こ、上記Ｎフ
レーム分の学習データの中心フレームが文節境界フレー
ムであるかとうかを視察によって求める一方、当該Ｎフ
レーム分の学習データに係る話者の発声が標準語である
かとうかを求めておく。そして、学習の際には、上記連続したＮフレーふ分の２
種の特徴パラメータから成る学習データを、上述のよう
にしてニューラルネットワーク３における入力層３１の
２Ｎ個の各ユニット３５４０に入力する。その際に、第
１図におｌする平均値算出部４かるニューラルイ、ソト
ワーク３への信号ラインに設けられｆニスイッチ６を“
開“にして、学習時においてはニューラルネットワーク
３の出力値がフィードバックされないようにする。そして、入力層３１のユニット４１には、当該学習デー
タに係る話者の発声が標準語である場合には値“じを表
す信号を入力する一方、標準語てない場合には値“０”
を表す信号を入力する。さらに、入力したＮフレーム分の学習データの中心フレ
ームが文節境界フレームである場合には文節境界フレー
ムであることを表す教師データ”ビを出力層３３のユニ
ット４２に入力し、文節境界フレームでない場合には文
節境界フレームでないことを表す教師データ“０”を入
力する。一方、上記中心フレームが標準語であるフレー
ム（以下、標準語フレームと言う）である場合には標準
語フレームであることを表す教師データ“ビを出力層３
３のユニット４３に入力し、標準語フレームでない場合
には標準語フレームでないことを表す教師データ“０”
を入力するのである。こうして、誤差逆伝播法による学
習が実施される。尚、第３図においては、分かり易くするために各学習デ
ータの時系列をアナログ的に表現し、各フレームの間隔
は実際より可なり誇張して表現している。すなわち、この学習においては、ニューラルネットワー
ク３の入力層３１にＮフレーム分の韻律情報を表す特徴
パラメータと標準語信頼度が入力された場合に、このＮ
フレームの中心フレームにおける文節境界信頼度および
標準語信頼度を出力するように学習するのである。そう
すると、ニューラルネットワーク３の出力層３３におけ
るユニ、ソト４２，４３からの出力値が教師データと同
じになるように各ノナブス結合に付加された重みの値を
設定し直してニューラルネットワーク３の構造を決定す
るのである。こうして学習されたニューラル不・ノドワーク３によっ
て人力音声信号の文節境界フレームを検出する際には、
平均値算出部４からニューラル不・ノドワーク３への信
号ラインに設けられ１ニスイノチロを”閉”にして、平
均値算出部４からの枕準語信頼度の平均値を表す信号か
ニューラル不・ノドワーク３の入力層３１におけるユニ
ット４１に入力されるようにしておく。音声分析部ｌによって抽出されたノくワーおよびピッチ
周波数の２種のパラメータの時系列を遅延部２に入力す
る。そうすると、遅延部２に入力された２種のパラメー
タの時系列は、上述のようにＮフレーム単位でニューラ
ルネットワーク３の入力層３１の各ユニット３５．・、
４０に順次時間を繰り下げて入力される。さらに、ユニ
ット４１には、平均値算出部４から出力されるＴフレー
ム（例えば、３０フレーム）分の最新の標準語信頼度の
平均値を表す信号が入力される。この場合、上記標準語信頼度の平均値の初期値として例
えば“０５”をメモリ５に格納しておく。そして、上記初期値“０．５”を表す信号に基ついてニ
ューラルネットワーク３の出力層３３′：″）ユニット
４３から最初の標準語信頼度を表す標準語識別信号が出
力されと、その標準語識別信号に基つく標準語信頼度の
値をメモリ５に追加する。そして、この新たに追加され
た標準語信頼度の値と上記初期値との平均値を次回のフ
レームに係る処理の際の入力データとするのである。以
下、同様にして出力層３３のユニット４３から標準語信
頼度を表す標準語識別信号が出力される毎に、その標準
語信頼度の値をメモリ５に追加して行き、メモリ５に格
納された（標準語信頼度十初期値）の数がＴフレームに
なった以降は最新のＴ個の標準語信頼度の値をメモリ５
に格納しておくようにするのであ上述のように、平均値
算出部４からの標準語信頼度の平均値を表す信号かユニ
ット４１に入力されると、ニューラルネットワーク３の
各ユニットは学習によって設定され几重みの値に基つく
出力値をンナプス結合によって接続された上層のユニッ
トに出力する。その結果、出力層３３のユニット４２は
、入力されたＮフレームの中心フレームか文節境界であ
る信頼度に応しに“ビ〜”Ｏ”の値を表す文節境界検出
信号を出力する。一方、ユニット４３は、人力されたＮ
フレームの中心フレームか標準語である信頼度に応し几
“ビ〜“０”の値を表す標準語識別信号を出力するので
ある。すなわち、ニューラルネットワーク３におけるユニット
４２からの出力信号に基づいて人力音声信号の文節境界
を検出できるのである。その際に、ユニット４３からの
標準語信頼度の平均値をニューラルネットワーク３の人
力層３１にフィードバックして、次の文節境界検出の際
に標準語信頼度を加味して文節境界検出処理を実行する
ようにしている。したかって、ユニット４２からの文節
境界信頼度を表す信号に基づく文節境界検出は、アクセ
ントパターンやイントネーンヨンパターン等を表す韻律
情報における地域間差や話者開蓋を標準語信頼度によっ
て正規化して、正しく文節境界を検出てきるのである。このことは、次に様に考えることかできる。すなわち、
上述のように、ニューラルネットワーク３の入力層３１
に話者の発声か標準語である度合いを表す値を入力する
ユニット４１を設け、学習に際して話者の今市が標準語
である場合にはユニット４１に“ビを入力する一方、話
者の発声が標準語でない場合には“０”を人力するよう
にしている。したかって、学習済みのニューラルネットワーク３の中
には、標準語の韻律情報に基づいて文節境界信頼度を求
めるネットワークと標準語以外の韻律情報に基づいて文
節境界信頼度を求めるネットワークとが形成されると考
えられる。そして、文節境界検出時においては、人力層
３１のユニット４１にフィードバックされる当該話者の
標準語信頼度の平均値に応じて標準語の韻律情報に基づ
くネットワークまたは標準語以外の韻律情報に基つくネ
ットワークのいずれかによって求められた出力値に、上
記標準語信頼度の平均値に応した重み付けが成されｆこ
値かニューラルネットワーク３から出力されるのである
。上述のように、本実施例の文節境界検出装置においては
、音声分析部Ｉによって抽出したべ力音声信号のパワー
およびピッチ周波数の韻律情報を表す特徴パラメータの
連続したＮフレーム分をニューラルネットワーク３９入
力層３１におけるユニット３５．・、４０に入力する。また、ニューラルネットワーク３の入力層３１のユニッ
ト４１には直前のＴフレームにおける標準語信頼度の平
均値を人力する。そうすると、ニューラルネットワーク
３は、入力されたＮフレーム分の特徴パラメータと直前
のＴフレームにおける標準語信頼度の平均値に基づいて
、上記Ｎフレームの中心フレームが文節境界である信頼
度を表す文節境界検出信号を出力層３３のユニット４２
から出力する。一方、上記中心フレームが標準語である
信頼度を表す標準語識別信号を出力層３３のユニット４
３から出力する。その際に、上記出力層３３のユニット４３から出力され
た最新のＴフレーム分の標準語信頼度の平均値を平均値
算出部４て算出してニューラルネットワーク３の入力層
３１におけるユニット４１にフィードバックするように
している。すなわち、ニューラルネットワーク３によっ
て実施されろ上記中心フレームに係る文節境界信頼度を
表す文節境界検出信号の生成は、現在入力され１ニＮフ
レ一ム分の２種の特徴パラメータと直前におけるＴフレ
ーム分の標準語信頼度の平均値に基づいて実施されるの
である。こうすることによって、上記Ｎフレーム分の韻
律情報を表す特徴パラメータに基づいて求められた中心
フレームにおける文節境界信頼度に含まれる地域間差や
話者開蓋が当該話者の標準語信頼度によって正規化され
るのである。また、本実施例においては、ニューラルネットワーク３
の入力層３１にパワーとピッチ周波数の特徴パラメータ
と直面のＴフレームにおける標準語信頼度の平均値とを
入力するという非常に簡単な処理によって、文節境界フ
レームである信頼度を自動的に求めることかできる。したかって、本実施例によれば、入力音声信号から抽出
さイー１ニバワーやピッチ周波数等の韻律情報を表す特
徴パラメータに基ついて文節境界を検出する際に、その
韻律情報に含まイーる地域間差や話者開蓋に拘わりなく
、誰でら簡単な処理で文節境界を検出てきるのである。上記実施例においては、特徴パラメータとしてパワーお
よびピッチ周波数を用いてし１ろか、この発明はこれら
に限定されるものではない。要は、韻律情報を表す特徴
パラメータであればよい。上記実施例におけるニューラルネットワーク３の入力層
あるいは中間層のユニット数は、入力する特徴パラメー
タの種類数、フレーム数および識別精度等によって適宜
に変更しても何等差し支えない。上記遅延部２の構成は本実施例に限定されるものてはな
い。上記実施例において用いられるニューラルネットワーク
３として、３層バーセブトロン型ニューラルネットワー
クを用いているが、４層以上のパーセブトロン型ニュー
ラルネットワークであっても構わない。

【発明の効果】

以上より明らかなように、第１の発明の文節境界検出装
置：よ、第１′：）所定数のフレームにおける入力音声
信号から抽出されＲ韻律情報を表す特徴パラメータに基
ついて、上記第１の所定数のフレームにおける中心フレ
ームか文節境界である信頼度（文節境界信頼度）を表す
文節境界検出信号をニューラルネットワークから出力す
るので、上記文節境界検出信号から得られる文節境界信
頼度に基づいて文節境界位置を検出てきる。したかって、この発明によれば、上記ニューラルネット
ワークに上記特徴パラメータを入力するだけの簡単な処
理で、文節境界位置を自動的に検出てきる。また、第２の発明の文節境界検出装置は、第１の発明に
おける上記ニューラルネットワークによって、上記第１
の所定数のフレームにおける中心フレームか標準語で話
されたフレームである信頼度（標準語信頼度）を表す標
準語識別信号を出力するようにし１こので、上記第１の
所定数のフレームにおける中心フレームが標準語である
明合いを簡単な処理で自動的に知ることかできる。ま几、第３の発明の文節境界検出装置は、第２の発明に
おける上記ニューラルネットワークからの標準語信頼度
を順次メモリに格納し、上記メモリから第２の所定数分
のフレームの標準語信頼度の平均値を平均値算出部によ
って算出し、上記ニューラルネットワークは算出された
上記平均値と上記韻律情報を表す特徴パラメータとに基
づいて上記文節境界検出信号および標準語識別信号を出
力するので、上記特徴パラメータに含まれる地域間差や
話者開蓋を上記標準語信頼度によって正規化して文節境
界位置を検出できる。したかって、この発明によれば、韻律情報における地域
間差や話者開蓋に拘わりなく、誰でも簡単な処理で文節
境界を検出てきる。

【図面の簡単な説明】

第１図はこの発明の文節境界検出装置における一実施例
のブロック図、第２図は第１図における遅延部とニュー
ラルネットワークの詳細図、第３図は第２図におけるニ
ューラルネットワークの学習に用いる学習データと教師
データの一例を示す図である。 ■・・音声分析部、　　　　　　２・遅延部、３　ニュ
ーラルネットワーク、４・・平均値算出部、　　　　　　５・・・メモリ、２
１・・遅延素子、　　　　　　３１・・入力層、３２・
・中間層、　　　　　　　３３・・出力層、３５〜４３
・・・ユニット。第１図第２図

Claims

【特許請求の範囲】

（１）入力音声信号から抽出された韻律情報を表す特徴
パラメータに基づいて文節境界を検出する文節境界検出
装置において、第１の所定数のフレームにおける入力音声信号から抽出
された上記特徴パラメータを表す信号が入力され、この
入力された特徴パラメータに基づいて、上記第１の所定
数のフレームにおける中心フレームが文節境界である信
頼度すなわち文節境界信頼度を表す文節境界検出信号を
所定の手順によって出力するニューラルネットワークを
備えたことを特徴とする文節境界検出装置。
（２）請求項１に記載の文節境界検出装置において、上記ニューラルネットワークは上記第１の所定数のフレ
ームにおける中心フレームが標準語で話されたフレーム
である信頼度すなわち標準語信頼度を表す標準語識別信
号を所定の手順によつて出力することを特徴とする文節
境界検出装置。
（３）請求項２に記載の文節境界検出装置において、上記ニューラルネットワークからの上記標準語識別信号
に基づく標準語信頼度を格納するメモリと、上記メモリから第２の所定数分のフレームの標準語信頼
度を読み出して、この読み出した標準語信頼度の平均値
を算出する平均値算出部を備えて、上記ニューラルネッ
トワークは上記平均値算出部によって算出された上記第
２の所定数分のフレームの標準語信頼度の平均値を取り
込み、この取り込んだ上記平均値と上記韻律情報を表す
特徴パラメータとに基づいて、上記文節境界信頼度を表
す文節境界検出信号および標準語信頼度を表す標準語識
別信号を所定の手順によって出力することを特徴とする
文節境界検出装置。