JPS62231300A

JPS62231300A - 音声の処理単位への自動区分と処理の方法

Info

Publication number: JPS62231300A
Application number: JP61073646A
Authority: JP
Inventors: 中津井　護
Original assignee: RADIO RES LAB; YUSEISHO DENPA KENKYUSHO
Current assignee: RADIO RES LAB; YUSEISHO DENPA KENKYUSHO
Priority date: 1986-03-31
Filing date: 1986-03-31
Publication date: 1987-10-09

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（１）発明の属する技術分野の説明本発明は、音声の認識１合成、蓄積、伝送などを目的と
した情報処理において、汎用性の高い処理単位への自動
区分方法と区分された単位の処理方法に関するものであ
る。

（２）従来の技術の説明本発明の処理単位に類似した単位としては、Ｐｅｔ、ｅ
ｒｓｏｎらの提案したＤｙａｄ、斉藤らの提案した母音
・子音・母音連鎖、　Ｄｉｘｓｏｎらの提案したＤ　ｉ
　ｐｈｏｎｅ、蒔付らの提案したＤｅｍｉｓｙｌｌａｈ
ｌｅなどがあり、いずれも子音と母音の間の過渡部を単
位内に保存するものであることは周知の事実である。し
かし、これらはいずれも音声合成の単位として提案され
たものであるため、単位への自動区分の必要性は必ずし
もなく、またその手順が定量的に明示されていないので
、そのまま音声の認識や伝送などには適用できない。

本発明で用いるスペクトル変動量の概念は、すでに嵯峨
山らによって音声の動的尺度として提案され、白木らは
極低ビットレートの音声伝送方式において変動量の極大
時点を区分境界として採用している。白木らの区分方法
では、区分された単位が音声の効率的伝送に適すること
を第一とし、単位の言語的内容との対応関係は問題にし
ていない。したがって、その単位は、音声伝送以外の処
理には適用できない。

（３）発明の目的本発明の目的は、区分された処理単位とその言語的内容
との対応関係を重視し、音声の認識、合成、蓄積、伝送
などに適用し得る汎用性の高い処理単位を得るとともに
、区分に用いる特徴量を整合等のその後の処理にも活用
することにある。

（４）発明の構成及び作用の説明前記の目的を達成するために、本発明では、スペクトル
変動量の極小時点を区分境界することで、境界付近の定
常部において、単位の接続等の処理を容易にするととも
に、聴覚的に最も重要なスペクトル変動量の極大時点を
含む過渡部を単位内に保存することで、区分された処理
単位が言語的内容と一貫した関係を保つようその汎用性
を高くしている。

本発明の構成及び作用を第１図を用いて説明する。第１
図においてｌは特微量抽出部、２は特徴量系列メモリ、
３は区分された処理単位の特徴量時系列メモリ、４は整
合部、５は標準バタンの特徴量及びその時系列メモリ、
６はスペクトル変動量算出部、７は区分及び整合の制御
部である入力音声は１で短時間間隔（以下フレームと呼
ぶ）ごとの特徴量に変換され、その時系列は２に記録さ
れるとともに、複数フレーム分の特徴量時系列より６に
おいてスペクトル変動量が算出され、その極小時点を基
に区分境界が決定されてメモリ２から区分された処理単
位の特徴量時系列はメモリ３に移される。

標準バタン作成時には、メモリ３の内容をそのままメモ
リ５に登録するかあるいは予めメモリ５に登録されてい
る標準バタンとメモリ３の内容との整合部４を用いた整
合結果に基づいてメモリ５の標準バタンの修正・更新を
行う。このときメモＩＪ　５の内容にスペクトル変動量
が加えられる。

さらに、メモリ５の内容とメモリ３の内容の整合を行う
場合に、両者のスペクトル変動量の極大時点又はその近
傍を一致させるとともに、スペクトル変動量に応じた整
合重みづけを使用する。

標準バタン作成時以外の処理においては、メモリ３に区
分された処理単位の特徴量の時系列を得る段階までは前
記の標準バタン作成時と同じであるが、その後まず、区
分境界に該当するメモリ３内の特徴量とメモリ５内に予
め用意された複数標準特徴量（以下単一フレーム標準バ
タンと呼ぶ）とを４によって整合した結果に基づいて、
整合すべきメモリδ内の標準バタンを限定してそれと、
メモリ３内の区分された処理単位との整合を行い、整合
部４から整合結果を出力する。この出力は、音声認識の
場合には処理単位の認識結果に当たり、音声の伝送若し
くは蓄積の場合には伝送若しくは蓄積すべきラベルに当
たる。

（５）効果の説明本発明の効果を検討するために実施した予備的実験の結
果（中津井、田中“スペクトル変化に着目した音声の音
節的単位への区分”１日本音響学会・昭和６０年度秋季
研究発表会・講演論文集、３７〜３８ページ所’！１１
）のあらましを以下に説明する。

フレーム周期を１ＯＩＩｌｓとし、特徴量としてはフレ
ームごとの線形予測係数（以下ＬＰＧと略す）、対数電
力、零交叉数などを用いた。あるフレームの前後７フレ
ームにわたるＬＰＣケプストラム係数の各次数ごとの回
帰直線を重み付き最小自乗近似で求め、直線の勾配の全
次数についての自乗平均平方根を算出して当該フレーム
のスペクトル変動量をした。

スペクトル変動量の極小時点を基本的な区分境界とし、
語頭９語尾等について池の特ｒａ量を補助的に用いて、
日本の都市名６０単語について自動区分実験を実施した
ところ、音声学的な観察によって期待される総区分数４
５５のうち９４％以上を正しく区分し、さらに改善でき
る見通しを得た。また１０単語中の区分境界のうち母音
に相当する４０の境界部と予め用意した母音の単一フレ
ーム標準バタンとを整合させたところ、３６の母音が第
−位として正しく同定され、残る４母音も第三位として
同定された。さらに、前述の１０単語から区分された処
理単位と別途用意された単音節標準バタンから前述の母
音同定結果に基づいて限定したものとの整合を試みたと
ころ、単語中の音節に相当する処理ＩＬ位と単独発声か
ら作成した単音節標準バタンとの差異にもかかわらず良
い成積を示した。以上の実験結果は区分方法と整合方法
の有効性を示している。

以上のように、本発明によれは、安定で信頼性の高い自
動区分が可能であり、さらにその後の処理も効率良〈実
施できるので、本発明は音声の認識９合成、伝送、蓄積
等その応用範囲は広い。

【図面の簡単な説明】

第１図は本発明の構成及び作用を示すブロック図である
。図において、ｌ・・・・・・特＠量抽出部、２・・・・
・・特徴量時系列メモリ、３・・・・・・区分された処
理単位の特徴量時系列メモリ、４・・・・・・整合部、
５・・・・・・標準バタンの特徴量及びその時系列メモ
リ、６・・・・・・スペクトル変動量算出部、７・・・
・・・区分及び整合の制御部である。

Claims

【特許請求の範囲】音声信号の短時間間隔ごとの特徴量の時系列を求め、（
イ）該特徴量の時系列を音声の言語的内容と対応づけら
れる処理単位に時間区分する過程、（ロ）区分された処
理単位を分類して音声処理単位の標準パタンを作成する
過程、（ハ）該標準パタンを用いて音声を合する過程、
（ニ）前記過程（イ）で区分された処理単位を該標準パ
タンを参照することによって認識する過程、並びに（ホ
）該標準パタンを参照して前記過程（イ）で区分された
処理単位にラベルづけを行い、該ラベルを蓄積若しくは
伝送した後に、該ラベルに対応づけられる該標準パタン
から前記過程（ハ）によって音声を得る音声の蓄積若し
くは伝送の過程において、（１）音声スペクトルの巨視
的な時間変化を表わす変動量の極小時点を主要な区分境
界とすることにより処理単位を得ることを特徴とする自
動区分方法。（２）該区分境界の特徴量と予め用意した複数の標準特
徴量との整合結果に基づいて、特許請求範囲三項及び四
項に記載の整合の対象となるべき標準パタンを限定する
ことを特徴とする処理方法。（３）入力音声より得た該処理単位と予め用意した複数
の該処理単位の標準パタンとを、各々の該変動量の極大
時点又はその近傍を一致させて整合することを特徴とす
る処理方法。（４）前項三記載の整合において、該変動量に応じた整
合重みづけを使用することを特徴とする処理方法。