JPH08320695A - 標準音声信号発生方法およびこの方法を実施する装置 - Google Patents

標準音声信号発生方法およびこの方法を実施する装置

Info

Publication number
JPH08320695A
JPH08320695A JP7126588A JP12658895A JPH08320695A JP H08320695 A JPH08320695 A JP H08320695A JP 7126588 A JP7126588 A JP 7126588A JP 12658895 A JP12658895 A JP 12658895A JP H08320695 A JPH08320695 A JP H08320695A
Authority
JP
Japan
Prior art keywords
audio data
voice
stored
pass filter
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7126588A
Other languages
English (en)
Inventor
Toshiaki Watanabe
俊朗 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7126588A priority Critical patent/JPH08320695A/ja
Publication of JPH08320695A publication Critical patent/JPH08320695A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 規則合成音声の基本性能を主観的に評価する
場合に使用される標準音声信号発生方法および装置を提
供する。 【構成】 予め計算され記憶されている低域通過フィル
タ係数を使用して原音声データの周波数帯域を制限し、
帯域制限された音声データを一旦記憶し、これを複数サ
ンプルより成るフレームを単位として読みだして予め計
算され記憶されるシンク関数を使用して任意の倍率で補
間処理するアップサンプリング処理を施し、先のフレー
ムのフレーム長を1周期とする任意の信号の振幅に比例
して補間された音声データの各サンプルをシフトする位
相変調処理を施し、位相変調処理された音声データに先
の倍率で間引くダウンサンプリング処理を施す標準音声
信号発生方法および装置。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、標準音声信号発生方
法に関し、特に、与えられた文字情報から音声を規則に
より合成して出力する装置の出力音声である規則合成音
声の基本性能を主観的に評価する場合に使用される標準
音声信号発生方法およびこの方法を実施する装置に関す
る。
【0002】
【従来の技術】従来例を図を参照して説明する。近年、
開発が進められている音声の符号化復号化装置(以下、
コーデック、と称す)により出力された音声である符号
化音声の品質は、最終的には主観評価試験により評価さ
れ、評価値例えば平均オピニオン値により表現される。
よく管理された実験条件下においても平均オピニオン値
にはかなりの変動があるので、人工的な歪をコーデック
への入力音声信号(以下、原音声、と称す)に加えるこ
とにより歪量を変えた複数個の標準音声信号を作成し、
これら標準音声信号を符号化音声と同じ枠組みに入力し
て主観評価し、主観評価値が等しくなる標準音声信号の
歪量により符号化音声の品質を表現する手法が一般に採
用されている。被験者の評価判断に対する負荷を少なく
し、再現性の良い評価を得るには、符号化音声の歪特性
に近い音声を標準音声信号として使用することが重要と
なる。
【0003】符号化音声の評価に使用される代表的な標
準音声信号は「振幅相関雑音付加音声(MNR信号)」
であり、原音声のパワーに比例してパワーが変化する白
色雑音を原音声に付加することにより生成される。主観
実験の結果に基づいて、先ず振幅相関雑音付加音声の平
均オピニオン値(MOS)と原音声対振幅相関雑音比の
デシベル表現であるQ値との間の関係を求めておき、符
号化音声のMOSが等しくなるQ値(オピニオン等価Q
値)により符号化音声の品質を表現する。オピニオン等
価Q値の決定法を図2に示す。この様な手法で求められ
た主観評価値は比較的安定しており、通信網の設計に利
用されている。この種の標準音声信号は符号化音声を対
象として提案されたものであるので、原音声の振幅周波
数特性のみに主眼が置かれてこれについて歪を加えるも
のであって、時間特性については何らの考慮も払われて
いない。
【0004】なお、振幅相関雑音の発生方法について
は、ITU-T,“Modulated noise reference unit (MNRU)
”(Recommendation P.81, BLUE BOOK Vol.V,pp.198-20
3)を参考されたい。
【0005】
【発明が解決しようとする課題】ところで、規則合成音
声は文字情報に基づいて生成されるものであるので、コ
ーデックにおける原音声に相当するものは存在しない。
このために、人間が自然に発声する音声と比較して、ア
クセントおよびイントネーションの如き振幅周波数特性
についてのみならず、音韻の長さ、テンポ、リズムとい
う時間特性についても品質劣化が生じる可能性が高い。
この様な規則合成音声を評価する場合に、上述した振幅
相関雑音に代表される標準音声信号を使用すると、この
標準音声信号と規則合成音声の間に振幅周波数特性につ
いてのみならず、特に時間特性も大きく異なるところか
ら、被験者の評価に対する負担が大きくなり、主観評価
値の信頼性が低下する可能性がある。
【0006】この発明は、音声のアナログ−ディジタル
変換において一般に使用されるサンプリング速度でサン
プリングされた音声データを使用して、従来の標準音声
信号発生方法において考慮されていなかった振幅周波数
特性および時間特性の双方を同時に変化させて規則合成
音声に近い特性を有する標準音声信号を発生する標準音
声信号発生方法およびこの方法を実施する装置を提供す
るものである。
【0007】
【課題を解決するための手段】原音声データをシンク関
数を使用して任意の倍率で補間処理するアップサンプリ
ング処理を施し、アップサンプリング処理された音声デ
ータの各サンプルをシフトする位相変調処理を施し、位
相変調処理された音声データに先の倍率で間引くダウン
サンプリング処理を施す標準音声信号発生方法を構成し
た。
【0008】そして、予め計算され記憶されている低域
通過フィルタ係数を使用して原音声データの周波数帯域
を制限し、帯域制限された音声データを一旦記憶し、こ
れを複数サンプルより成るフレームを単位として読みだ
して予め計算され記憶されるシンク関数を使用して任意
の倍率で補間処理するアップサンプリング処理し、先の
フレームのフレーム長を1周期とする任意の信号の振幅
に比例して補間された音声データの各サンプルをシフト
する位相変調処理を施し、位相変調処理された音声デー
タに先の倍率で間引くダウンサンプリング処理を施す標
準音声信号発生方法を構成した。
【0009】また、低域通過フィルタ係数記憶部2aを
具備し、入力される音声データの高域周波数成分を低域
通過フィルタ係数記憶部2aに記憶されるフィルタ係数
を使用して阻止する低域通過フィルタ部2を具備し、低
域通過フィルタ部2から出力される音声データを一旦記
憶する音声波形記憶部3を具備し、シンク関数記憶部4
aを具備し、音声波形記憶部3から音声データを複数サ
ンプルより成るフレームを単位として読みだし、シンク
関数記憶部4aに記憶されるシンク関数を使用して任意
の倍率で補間するアップサンプリング処理部4を具備
し、フレームのフレーム長を1周期とする任意の信号の
振幅に比例して補間された音声データの各サンプルをシ
フトする位相変調部5を具備し、位相変調部5で位相変
調された音声データをアップサンプリング処理部4の倍
率と同一の倍率で間引くダウンサンプリング処理部6を
具備する標準音声信号発生装置を構成した。
【0010】
【実施例】この発明の実施例を図1を参照して説明す
る。図1はこの発明の標準音声信号発生方法およびこの
方法を実施する標準音声信号発生装置の実施例を説明す
るブロック図である。アナログ音声信号を例えばサンプ
リング速度8kHzによりサンプリングして生成され
た、周波数帯域4kHzである入力音声データが入力端
子1を介して入力される。入力端子1を介して入力され
る入力音声データは、低域通過フィルタ係数記憶部2a
に予め計算され記憶されているフィルタ係数と、低域通
過フィルタ2において畳み込み演算処理されて音声波形
記憶部3に記憶される。入力音声データは、以上の処理
により、4kHzの周波数帯域が例えば3kHzに帯域
制限された。この処理は後で説明される位相変調処理に
よる周波数帯域の上限を最大周波数成分である4kHz
に設定する場合に意味を持つ。
【0011】4はアップサンプリング処理部である。ア
ップサンプリング処理部4においては、音声波形記憶部
3に記憶される帯域制限された帯域制限データが指定さ
れるフレーム長に相当する複数のサンプル毎に読み出さ
れ、予め計算され、シンク関数記憶部4aに記憶されて
いるシンク関数と畳み込み演算処理されて、各サンプル
間が補間される。補間の倍率は、後で説明される位相変
調処理における変調精度に影響を与える。例えば、補間
の倍率=16とすれば、帯域制限データの各サンプルは
16倍にアップサンプリングされて出力される。
【0012】理想低域通過フィルタを構成するシンク関
数は式(1)により定義される。 SINC{(n+N)・M+m} =sin{(n+m/M)π}/(n+m/M)π (1) 式(1)において、Nはシンク関数の半周期を示し、例
えば、N=8とすることができる。nはシンク関数の周
期(−N〜N)内において変化する整数値である。Mは
先の補間の倍率を示し、M=16とすることができる。
mはシンク関数の周期内の整数値(−N〜N)に対して
0〜(M−1)の範囲で変化する整数値である。この実
施例における補間の倍率を考慮したときのシンク関数の
周期は2×8×16=256サンプルとなる。なお、式
(1)により計算されるシンク関数は両側で尾を引く特
性になるので、これらを除いた第(N×M+1)番目の
サンプルから第(N×M+M×L)番目のサンプルが有
効範囲となる。但し、Lはフレーム長である。
【0013】更に、シンク関数の周期の両端における歪
を小さくするには、シンク関数の周期を窓長とするハミ
ング窓その他の窓関数が乗算され、乗算結果はシンク関
数記憶部4aに記憶される。ハミング窓関数w(i)は
式(2)により示される。 w(i)=0.54−0.46cos{2π・i/(2・N・M)} (2) 式(2)において、iはシンク関数の周期内(0〜2・
N・M)で変化する整数値、Nはシンク関数の半周期、
Mは補間の倍率をそれぞれ示す。図3はシンク関数にハ
ミング窓を掛けた特性を示す。
【0014】位相変調部5における変調信号として、例
えば、先に指定されたフレーム長Lと補間の倍率Mの積
を周期、最大振幅を変調度Δθとする正弦波を想定する
と、第i番目のサンプルのシフト量kは式(3)により
計算される。 k=Δθ・sin(2π・Fm・i) (3) 式(3)において、Fmは変調周波数で1/(L・ M)
と表わされる。上述の処理の結果、位相変調前の信号の
第(i+k)番目のサンプル値が、位相変調後の信号第
i番目のサンプル値となる。図4は位相変調部5の入力
信号(a)が変調信号(b)により出力信号(c)に変
換される様子を示す図である。簡単のために、入力信号
(a)は音声信号の代りに単一周波数のみを成分とする
正弦波としている。式(3)により計算される各サンプ
ルのシフト量から出力信号(c)はフレームの中央にお
いて疎、即ち低周波となり、両端において密、即ち高周
波となることがわかる。ダウンサンプリング処理部6に
おいては、位相変調部5から出力される信号を間引きの
倍率=16で間引くことにより元のサンプリング速度8
kHzに戻される。
【0015】この発明の標準音声信号発生方法は、以上
の通り、予め計算され記憶されている低域通過フィルタ
係数を使用して原音声データの周波数帯域を制限するフ
ィルタ処理を施し、フィルタ処理された音声データを一
旦記憶し、これを複数サンプルから成るフレームを単位
として読みだし、予め計算され記憶されているシンク関
数を使用して任意の倍率で補間するアップサンプリング
処理を施し、フレーム長を1周期とする任意の信号の振
幅に比例して補間された音声データの各サンプルをシフ
トする位相変調処理を施し、位相変調された音声データ
を先の倍率で間引くことにより元のサンプリング速度に
戻すダウンサンプリング処理を行ない、フレーム長と位
相変調処理における変調度とを可変とするものである。
【0016】この標準音声信号発生方法は、所望の振幅
周波数特性および時間特性に対する精度に応じた補間の
倍率を設定することができるシンク関数による理想的な
アップサンプリング処理を実施している。これにより、
位相変調された音声データの有効周波数帯域を4kHz
と設定すれば、入力信号としてはサンプリング速度8k
Hzでサンプリングされた音声データを使用すれば充分
である。また、補間された音声データを位相変調してい
る。これにより、実際の規則合成音声に近い時間特性お
よび振幅周波数特性を有する標準音声信号を発生させる
ことができ、音声のアナログ−ディジタル変換における
一般的なサンプリング速度でサンプリングされた音声デ
ータを使用して規則合成音声に近い特性を有する標準音
声信号を生成することができる。
【0017】この発明によれば、フレーム長Lと変調度
Δθとを指定することにより、自然に発声された入力音
声信号から、早口或は言い淀み、ピッチの高低その他の
規則合成音声の品質に関する特徴に近い音声への変換を
系統的に実施することができるという効果が生ずる。な
お、この実施例は、位相変調部5において変調信号とし
て正弦波を使用したが、三角波その他任意の波形を信号
として使用することができる。
【0018】
【発明の効果】以上の通りであって、この発明は、入力
音声信号に対してシンク関数を使用したアップサンプリ
ングを行なっており、非常に高いサンプリング速度でサ
ンプリングした場合と同等の時間特性と振幅周波数特性
を得ることができる。また、位相変調を導入することに
より、入力音声信号を規則合成音声の特性に近い音声に
変換することができ、人間の感覚量との間の対応が良く
なる。従って、この発明は、これを規則合成音声を主観
的に評価する場合に使用して、安定な信頼性の高い評価
値を得ることができる。
【図面の簡単な説明】
【図1】実施例を説明するブロック図。
【図2】符号化音声の主観品質を求める手法を説明する
図。
【図3】シンク関数にハミング窓を乗算した特性を示す
図。
【図4】位相変調部の入力信号が変調信号により出力信
号に変換される様子を示す図。
【符号の説明】
1 入力端子 2 低域通過フィルタ部 2a 低域通過フィルタ係数記憶部 3 音声波形記憶部 4 アップサンプリング処理部 4a シンク関数記憶部 5 位相変調部 6 ダウンサンプリング処理部 7 出力端子

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 原音声データをシンク関数を使用して任
    意の倍率で補間処理するアップサンプリング処理を施
    し、アップサンプリング処理された音声データの各サン
    プルをシフトする位相変調処理を施し、位相変調処理さ
    れた音声データに先の倍率で間引くダウンサンプリング
    処理を施すことを特徴とする標準音声信号発生方法。
  2. 【請求項2】 予め計算され記憶されている低域通過フ
    ィルタ係数を使用して原音声データの周波数帯域を制限
    し、帯域制限された音声データを一旦記憶し、これを複
    数サンプルより成るフレームを単位として読みだして予
    め計算され記憶されるシンク関数を使用して任意の倍率
    で補間処理するアップサンプリング処理を施し、先のフ
    レームのフレーム長を1周期とする任意の信号の振幅に
    比例して補間された音声データの各サンプルをシフトす
    る位相変調処理を施し、位相変調処理された音声データ
    に先の倍率で間引くダウンサンプリング処理を施すこと
    を特徴とする標準音声信号発生方法。
  3. 【請求項3】 低域通過フィルタ係数記憶部を具備し、 入力される音声データの高域周波数成分を低域通過フィ
    ルタ係数記憶部に記憶されるフィルタ係数を使用して阻
    止する低域通過フィルタ部を具備し、 低域通過フィルタ部から出力される音声データを一旦記
    憶する音声波形記憶部を具備し、 シンク関数記憶部を具備し、 音声波形記憶部から音声データを複数サンプルより成る
    フレームを単位として読みだし、シンク関数記憶部に記
    憶されるシンク関数を使用して任意の倍率で補間するア
    ップサンプリング処理部を具備し、 フレームのフレーム長を1周期とする任意の信号の振幅
    に比例して補間された音声データの各サンプルをシフト
    する位相変調部を具備し、 位相変調部で位相変調された音声データをアップサンプ
    リング処理部の倍率と同一の倍率で間引くダウンサンプ
    リング処理部を具備する、 ことを特徴とする標準音声信号発生装置。
JP7126588A 1995-05-25 1995-05-25 標準音声信号発生方法およびこの方法を実施する装置 Pending JPH08320695A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7126588A JPH08320695A (ja) 1995-05-25 1995-05-25 標準音声信号発生方法およびこの方法を実施する装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7126588A JPH08320695A (ja) 1995-05-25 1995-05-25 標準音声信号発生方法およびこの方法を実施する装置

Publications (1)

Publication Number Publication Date
JPH08320695A true JPH08320695A (ja) 1996-12-03

Family

ID=14938901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7126588A Pending JPH08320695A (ja) 1995-05-25 1995-05-25 標準音声信号発生方法およびこの方法を実施する装置

Country Status (1)

Country Link
JP (1) JPH08320695A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009518666A (ja) * 2005-12-02 2009-05-07 クゥアルコム・インコーポレイテッド 周波数ドメイン波形アラインメントのためのシステム、方法、および装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009518666A (ja) * 2005-12-02 2009-05-07 クゥアルコム・インコーポレイテッド 周波数ドメイン波形アラインメントのためのシステム、方法、および装置
US8145477B2 (en) 2005-12-02 2012-03-27 Sharath Manjunath Systems, methods, and apparatus for computationally efficient, iterative alignment of speech waveforms

Similar Documents

Publication Publication Date Title
US5903866A (en) Waveform interpolation speech coding using splines
EP0698876B1 (en) Method of decoding encoded speech signals
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
US5953696A (en) Detecting transients to emphasize formant peaks
CA1065490A (en) Emphasis controlled speech synthesizer
US20020133334A1 (en) Time scale modification of digitally sampled waveforms in the time domain
EP0865029A1 (en) Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
JP3430985B2 (ja) 合成音生成装置
JP3297751B2 (ja) データ数変換方法、符号化装置及び復号化装置
JPH08320695A (ja) 標準音声信号発生方法およびこの方法を実施する装置
JP2002049397A (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
RU2813317C1 (ru) Усовершенствованное гармоническое преобразование на основе блока поддиапазонов
JPH0651800A (ja) データ数変換方法
JP4170459B2 (ja) 波形信号の時間軸圧縮伸長装置
KR100417092B1 (ko) 음성합성 방법
JP2004294969A (ja) 音声信号圧縮装置、音声信号圧縮方法及びプログラム
RU2772356C2 (ru) Усовершенствованное гармоническое преобразование на основе блока поддиапазонов
RU2789688C1 (ru) Усовершенствованное гармоническое преобразование на основе блока поддиапазонов
RU2800676C1 (ru) Усовершенствованное гармоническое преобразование на основе блока поддиапазонов
JP4226164B2 (ja) 波形信号の時間軸圧縮伸長装置
JPS5925239B2 (ja) パラメ−タ補間方式
JP2003216189A (ja) 符号化装置及び復号装置
US5832436A (en) System architecture and method for linear interpolation implementation
JP2000099094A (ja) 時系列信号処理装置
WO1991017541A1 (fr) Procede et dispositif de codage bas debit de la parole