JPH08320695A

JPH08320695A - 標準音声信号発生方法およびこの方法を実施する装置

Info

Publication number: JPH08320695A
Application number: JP7126588A
Authority: JP
Inventors: Toshiaki Watanabe; 俊朗渡辺
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1995-05-25
Filing date: 1995-05-25
Publication date: 1996-12-03

Abstract

(57)【要約】【目的】規則合成音声の基本性能を主観的に評価する
場合に使用される標準音声信号発生方法および装置を提
供する。【構成】予め計算され記憶されている低域通過フィル
タ係数を使用して原音声データの周波数帯域を制限し、
帯域制限された音声データを一旦記憶し、これを複数サ
ンプルより成るフレームを単位として読みだして予め計
算され記憶されるシンク関数を使用して任意の倍率で補
間処理するアップサンプリング処理を施し、先のフレー
ムのフレーム長を１周期とする任意の信号の振幅に比例
して補間された音声データの各サンプルをシフトする位
相変調処理を施し、位相変調処理された音声データに先
の倍率で間引くダウンサンプリング処理を施す標準音声
信号発生方法および装置。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、標準音声信号発生方
法に関し、特に、与えられた文字情報から音声を規則に
より合成して出力する装置の出力音声である規則合成音
声の基本性能を主観的に評価する場合に使用される標準
音声信号発生方法およびこの方法を実施する装置に関す
る。

【０００２】

【従来の技術】従来例を図を参照して説明する。近年、
開発が進められている音声の符号化復号化装置（以下、
コーデック、と称す）により出力された音声である符号
化音声の品質は、最終的には主観評価試験により評価さ
れ、評価値例えば平均オピニオン値により表現される。
よく管理された実験条件下においても平均オピニオン値
にはかなりの変動があるので、人工的な歪をコーデック
への入力音声信号（以下、原音声、と称す）に加えるこ
とにより歪量を変えた複数個の標準音声信号を作成し、
これら標準音声信号を符号化音声と同じ枠組みに入力し
て主観評価し、主観評価値が等しくなる標準音声信号の
歪量により符号化音声の品質を表現する手法が一般に採
用されている。被験者の評価判断に対する負荷を少なく
し、再現性の良い評価を得るには、符号化音声の歪特性
に近い音声を標準音声信号として使用することが重要と
なる。

【０００３】符号化音声の評価に使用される代表的な標
準音声信号は「振幅相関雑音付加音声（ＭＮＲ信号）」
であり、原音声のパワーに比例してパワーが変化する白
色雑音を原音声に付加することにより生成される。主観
実験の結果に基づいて、先ず振幅相関雑音付加音声の平
均オピニオン値（ＭＯＳ）と原音声対振幅相関雑音比の
デシベル表現であるＱ値との間の関係を求めておき、符
号化音声のＭＯＳが等しくなるＱ値（オピニオン等価Ｑ
値）により符号化音声の品質を表現する。オピニオン等
価Ｑ値の決定法を図２に示す。この様な手法で求められ
た主観評価値は比較的安定しており、通信網の設計に利
用されている。この種の標準音声信号は符号化音声を対
象として提案されたものであるので、原音声の振幅周波
数特性のみに主眼が置かれてこれについて歪を加えるも
のであって、時間特性については何らの考慮も払われて
いない。

【０００４】なお、振幅相関雑音の発生方法について
は、ITU-T,“Modulated noise reference unit (MNRU)
”(Recommendation P.81, BLUE BOOK Vol.V,pp.198-20
3)を参考されたい。

【０００５】

【発明が解決しようとする課題】ところで、規則合成音
声は文字情報に基づいて生成されるものであるので、コ
ーデックにおける原音声に相当するものは存在しない。
このために、人間が自然に発声する音声と比較して、ア
クセントおよびイントネーションの如き振幅周波数特性
についてのみならず、音韻の長さ、テンポ、リズムとい
う時間特性についても品質劣化が生じる可能性が高い。
この様な規則合成音声を評価する場合に、上述した振幅
相関雑音に代表される標準音声信号を使用すると、この
標準音声信号と規則合成音声の間に振幅周波数特性につ
いてのみならず、特に時間特性も大きく異なるところか
ら、被験者の評価に対する負担が大きくなり、主観評価
値の信頼性が低下する可能性がある。

【０００６】この発明は、音声のアナログ−ディジタル
変換において一般に使用されるサンプリング速度でサン
プリングされた音声データを使用して、従来の標準音声
信号発生方法において考慮されていなかった振幅周波数
特性および時間特性の双方を同時に変化させて規則合成
音声に近い特性を有する標準音声信号を発生する標準音
声信号発生方法およびこの方法を実施する装置を提供す
るものである。

【０００７】

【課題を解決するための手段】原音声データをシンク関
数を使用して任意の倍率で補間処理するアップサンプリ
ング処理を施し、アップサンプリング処理された音声デ
ータの各サンプルをシフトする位相変調処理を施し、位
相変調処理された音声データに先の倍率で間引くダウン
サンプリング処理を施す標準音声信号発生方法を構成し
た。

【０００８】そして、予め計算され記憶されている低域
通過フィルタ係数を使用して原音声データの周波数帯域
を制限し、帯域制限された音声データを一旦記憶し、こ
れを複数サンプルより成るフレームを単位として読みだ
して予め計算され記憶されるシンク関数を使用して任意
の倍率で補間処理するアップサンプリング処理し、先の
フレームのフレーム長を１周期とする任意の信号の振幅
に比例して補間された音声データの各サンプルをシフト
する位相変調処理を施し、位相変調処理された音声デー
タに先の倍率で間引くダウンサンプリング処理を施す標
準音声信号発生方法を構成した。

【０００９】また、低域通過フィルタ係数記憶部２ａを
具備し、入力される音声データの高域周波数成分を低域
通過フィルタ係数記憶部２ａに記憶されるフィルタ係数
を使用して阻止する低域通過フィルタ部２を具備し、低
域通過フィルタ部２から出力される音声データを一旦記
憶する音声波形記憶部３を具備し、シンク関数記憶部４
ａを具備し、音声波形記憶部３から音声データを複数サ
ンプルより成るフレームを単位として読みだし、シンク
関数記憶部４ａに記憶されるシンク関数を使用して任意
の倍率で補間するアップサンプリング処理部４を具備
し、フレームのフレーム長を１周期とする任意の信号の
振幅に比例して補間された音声データの各サンプルをシ
フトする位相変調部５を具備し、位相変調部５で位相変
調された音声データをアップサンプリング処理部４の倍
率と同一の倍率で間引くダウンサンプリング処理部６を
具備する標準音声信号発生装置を構成した。

【００１０】

【実施例】この発明の実施例を図１を参照して説明す
る。図１はこの発明の標準音声信号発生方法およびこの
方法を実施する標準音声信号発生装置の実施例を説明す
るブロック図である。アナログ音声信号を例えばサンプ
リング速度８ｋＨｚによりサンプリングして生成され
た、周波数帯域４ｋＨｚである入力音声データが入力端
子１を介して入力される。入力端子１を介して入力され
る入力音声データは、低域通過フィルタ係数記憶部２ａ
に予め計算され記憶されているフィルタ係数と、低域通
過フィルタ２において畳み込み演算処理されて音声波形
記憶部３に記憶される。入力音声データは、以上の処理
により、４ｋＨｚの周波数帯域が例えば３ｋＨｚに帯域
制限された。この処理は後で説明される位相変調処理に
よる周波数帯域の上限を最大周波数成分である４ｋＨｚ
に設定する場合に意味を持つ。

【００１１】４はアップサンプリング処理部である。ア
ップサンプリング処理部４においては、音声波形記憶部
３に記憶される帯域制限された帯域制限データが指定さ
れるフレーム長に相当する複数のサンプル毎に読み出さ
れ、予め計算され、シンク関数記憶部４ａに記憶されて
いるシンク関数と畳み込み演算処理されて、各サンプル
間が補間される。補間の倍率は、後で説明される位相変
調処理における変調精度に影響を与える。例えば、補間
の倍率＝１６とすれば、帯域制限データの各サンプルは
１６倍にアップサンプリングされて出力される。

【００１２】理想低域通過フィルタを構成するシンク関
数は式（１）により定義される。ＳＩＮＣ｛（ｎ＋Ｎ）・Ｍ＋ｍ｝＝ｓｉｎ｛（ｎ＋ｍ／Ｍ）π｝／（ｎ＋ｍ／Ｍ）π （１）式（１）において、Ｎはシンク関数の半周期を示し、例
えば、Ｎ＝８とすることができる。ｎはシンク関数の周
期（−Ｎ〜Ｎ）内において変化する整数値である。Ｍは
先の補間の倍率を示し、Ｍ＝１６とすることができる。
ｍはシンク関数の周期内の整数値（−Ｎ〜Ｎ）に対して
０〜（Ｍ−１）の範囲で変化する整数値である。この実
施例における補間の倍率を考慮したときのシンク関数の
周期は２×８×１６＝２５６サンプルとなる。なお、式
（１）により計算されるシンク関数は両側で尾を引く特
性になるので、これらを除いた第（Ｎ×Ｍ＋１）番目の
サンプルから第（Ｎ×Ｍ＋Ｍ×Ｌ）番目のサンプルが有
効範囲となる。但し、Ｌはフレーム長である。

【００１３】更に、シンク関数の周期の両端における歪
を小さくするには、シンク関数の周期を窓長とするハミ
ング窓その他の窓関数が乗算され、乗算結果はシンク関
数記憶部４ａに記憶される。ハミング窓関数ｗ（ｉ）は
式（２）により示される。ｗ（ｉ）＝０．５４−０．４６ｃｏｓ｛２π・ｉ／（２・Ｎ・Ｍ）｝（２）式（２）において、ｉはシンク関数の周期内（０〜２・
Ｎ・Ｍ）で変化する整数値、Ｎはシンク関数の半周期、
Ｍは補間の倍率をそれぞれ示す。図３はシンク関数にハ
ミング窓を掛けた特性を示す。

【００１４】位相変調部５における変調信号として、例
えば、先に指定されたフレーム長Ｌと補間の倍率Ｍの積
を周期、最大振幅を変調度Δθとする正弦波を想定する
と、第ｉ番目のサンプルのシフト量ｋは式（３）により
計算される。ｋ＝Δθ・ｓｉｎ（２π・Ｆｍ・ｉ）（３）式（３）において、Ｆｍは変調周波数で１／（Ｌ・Ｍ）
と表わされる。上述の処理の結果、位相変調前の信号の
第（ｉ＋ｋ）番目のサンプル値が、位相変調後の信号第
ｉ番目のサンプル値となる。図４は位相変調部５の入力
信号（ａ）が変調信号（ｂ）により出力信号（ｃ）に変
換される様子を示す図である。簡単のために、入力信号
（ａ）は音声信号の代りに単一周波数のみを成分とする
正弦波としている。式（３）により計算される各サンプ
ルのシフト量から出力信号（ｃ）はフレームの中央にお
いて疎、即ち低周波となり、両端において密、即ち高周
波となることがわかる。ダウンサンプリング処理部６に
おいては、位相変調部５から出力される信号を間引きの
倍率＝１６で間引くことにより元のサンプリング速度８
ｋＨｚに戻される。

【００１５】この発明の標準音声信号発生方法は、以上
の通り、予め計算され記憶されている低域通過フィルタ
係数を使用して原音声データの周波数帯域を制限するフ
ィルタ処理を施し、フィルタ処理された音声データを一
旦記憶し、これを複数サンプルから成るフレームを単位
として読みだし、予め計算され記憶されているシンク関
数を使用して任意の倍率で補間するアップサンプリング
処理を施し、フレーム長を１周期とする任意の信号の振
幅に比例して補間された音声データの各サンプルをシフ
トする位相変調処理を施し、位相変調された音声データ
を先の倍率で間引くことにより元のサンプリング速度に
戻すダウンサンプリング処理を行ない、フレーム長と位
相変調処理における変調度とを可変とするものである。

【００１６】この標準音声信号発生方法は、所望の振幅
周波数特性および時間特性に対する精度に応じた補間の
倍率を設定することができるシンク関数による理想的な
アップサンプリング処理を実施している。これにより、
位相変調された音声データの有効周波数帯域を４ｋＨｚ
と設定すれば、入力信号としてはサンプリング速度８ｋ
Ｈｚでサンプリングされた音声データを使用すれば充分
である。また、補間された音声データを位相変調してい
る。これにより、実際の規則合成音声に近い時間特性お
よび振幅周波数特性を有する標準音声信号を発生させる
ことができ、音声のアナログ−ディジタル変換における
一般的なサンプリング速度でサンプリングされた音声デ
ータを使用して規則合成音声に近い特性を有する標準音
声信号を生成することができる。

【００１７】この発明によれば、フレーム長Ｌと変調度
Δθとを指定することにより、自然に発声された入力音
声信号から、早口或は言い淀み、ピッチの高低その他の
規則合成音声の品質に関する特徴に近い音声への変換を
系統的に実施することができるという効果が生ずる。な
お、この実施例は、位相変調部５において変調信号とし
て正弦波を使用したが、三角波その他任意の波形を信号
として使用することができる。

【００１８】

【発明の効果】以上の通りであって、この発明は、入力
音声信号に対してシンク関数を使用したアップサンプリ
ングを行なっており、非常に高いサンプリング速度でサ
ンプリングした場合と同等の時間特性と振幅周波数特性
を得ることができる。また、位相変調を導入することに
より、入力音声信号を規則合成音声の特性に近い音声に
変換することができ、人間の感覚量との間の対応が良く
なる。従って、この発明は、これを規則合成音声を主観
的に評価する場合に使用して、安定な信頼性の高い評価
値を得ることができる。

【図面の簡単な説明】

【図１】実施例を説明するブロック図。

【図２】符号化音声の主観品質を求める手法を説明する
図。

【図３】シンク関数にハミング窓を乗算した特性を示す
図。

【図４】位相変調部の入力信号が変調信号により出力信
号に変換される様子を示す図。

【符号の説明】

１入力端子２低域通過フィルタ部２ａ低域通過フィルタ係数記憶部３音声波形記憶部４アップサンプリング処理部４ａシンク関数記憶部５位相変調部６ダウンサンプリング処理部７出力端子

Claims

【特許請求の範囲】

【請求項１】原音声データをシンク関数を使用して任
意の倍率で補間処理するアップサンプリング処理を施
し、アップサンプリング処理された音声データの各サン
プルをシフトする位相変調処理を施し、位相変調処理さ
れた音声データに先の倍率で間引くダウンサンプリング
処理を施すことを特徴とする標準音声信号発生方法。
【請求項２】予め計算され記憶されている低域通過フ
ィルタ係数を使用して原音声データの周波数帯域を制限
し、帯域制限された音声データを一旦記憶し、これを複
数サンプルより成るフレームを単位として読みだして予
め計算され記憶されるシンク関数を使用して任意の倍率
で補間処理するアップサンプリング処理を施し、先のフ
レームのフレーム長を１周期とする任意の信号の振幅に
比例して補間された音声データの各サンプルをシフトす
る位相変調処理を施し、位相変調処理された音声データ
に先の倍率で間引くダウンサンプリング処理を施すこと
を特徴とする標準音声信号発生方法。
【請求項３】低域通過フィルタ係数記憶部を具備し、入力される音声データの高域周波数成分を低域通過フィ
ルタ係数記憶部に記憶されるフィルタ係数を使用して阻
止する低域通過フィルタ部を具備し、低域通過フィルタ部から出力される音声データを一旦記
憶する音声波形記憶部を具備し、シンク関数記憶部を具備し、音声波形記憶部から音声データを複数サンプルより成る
フレームを単位として読みだし、シンク関数記憶部に記
憶されるシンク関数を使用して任意の倍率で補間するア
ップサンプリング処理部を具備し、フレームのフレーム長を１周期とする任意の信号の振幅
に比例して補間された音声データの各サンプルをシフト
する位相変調部を具備し、位相変調部で位相変調された音声データをアップサンプ
リング処理部の倍率と同一の倍率で間引くダウンサンプ
リング処理部を具備する、ことを特徴とする標準音声信号発生装置。