WO2003005342A1

WO2003005342A1 - Procede et appareil de couplage de signaux

Info

Publication number: WO2003005342A1
Application number: PCT/JP2002/006479
Authority: WO
Inventors: Yasushi Sato; Patrick Davin
Original assignee: Kabushiki Kaisha Kenwood; Advanced Telecommunications Research Institute International
Priority date: 2001-07-02
Filing date: 2002-06-27
Publication date: 2003-01-16
Also published as: DE02738817T1; EP1403851A4; EP1403851A1; US20040015359A1; EP1403851B1; JP2003015681A; JP3901475B2; DE60233658D1; US7739112B2

Description

明細書信号を結合する方法及び装置技術分野

本発明は、波形を表す信号を結合して合成波形信号を生成するための信号結合方法および信号結合装置に関し、特に、複数の音声波形信号を結合するために好適な方法および装置を提供するものである。

背景技術

近年、音声合成の技術により合成された音声が広く利用されている。具体的には、たとえば、テキスト読み上げソフトウェアや、電話番号案内や、株式案内、旅行案内、店舗案内、交通情報など、多くの場面で利用されている。

音声合成の手法には、大別して、規則合成方式と、形編集方式とがある。

規則合成方式は、音声を合成する対象のテキストについて形態素解析を行い、解析の結果に基づき、テキストに音韻論的処理を施すことにより音声を生成する手法である。この規則合成方式では、音声合成に用いるテキス卜の内容についての制約が少なく、多様な内容のテキストを音声合成に用いることができる。しかし、この規則合成方式では、波形編集方式に比べ、出力される音声の品質が劣っている。

一方、波形編集方式は、人間が実際に発話した音声を録音して、録音した音声を分割して得られる構成部分をつなぎ合わせることにより - 目的とする音声を得る手法である。波形編集方式は、音声の品質の点で規則合成方式より優れている。しかしこの波形編集方式では、録音された音声から取り出すことのできない部分を含む音声は合成できない。このため、録音された音声を分割する単位が大きいほど、合成する音声についての制約が多くなる。このため、波形編集方式では、録音された音声を個々の母音や子音のレベルにまで細分化することによより、多様な音声を合成できるようにする手法も提案されている。しかし、録音した音声の構成部分をつなぎ合わせる接続部分の波形は、たとえば第 6図（ a ) に示すように不連続となり、これがノイズの発生源になる。そして、録音された音声を細分化する単位が小さい場合、接続部分が不連続であることにより生じるこのノイズが目立つようになり、合成音声の品質の低下を招く。

このノイズを軽減する手法としては、たとえば、第 6図（b ) に示すように、不連続な接続部分を直線で接続し改善する手法が考えられる。しかし、この接続された部分は高調波成分を発生することとなり、この高調波成分もノイズとなる。

また、接続部分が不連続であることにより生じるノィズを軽減する手法としては M D S (Minimum Distance Search) 方式がある。 M D S方式は、第 6図（C ) に示すように、 2個の波形をつなぎ合わせる際、前に来る波形のうちなるベく後端に近い部分と、後ろに来る波形のうちなるべく前端に近い部分とから、瞬時値と接線の勾配とが互いにほぼ一致する点を 1個ずつ探し出して、これらの点同士を接続するという手法である。

しかし、 M D S方式では、波形相互の接続部分が、つなぎ合わされる各波形の端ではないことが通常である。このため、つなぎ合わされる波形の一部は通常切り捨てられることになり、この結果、合成音声が不自然なものとなる。

本発明は上記実状に鑑みてなされたものであり、ノイズが少なく、しかも自然な合成音声を生成できる信号結合方法及び信号結合装置を提供することを目的とする。

発明の開示

上記目的を達成するために、本発明の信号結合方法は、複数の波形信号を結合して、合成波形信号を生成するために、該複数の波形信号を所定の順序で互いに結合するステツプと、該結合された複数の波形信号の各結合部分を含む所定の時間期間だけ該結合された複数の波形信号をフィルタリングするステップとを基本的に含んでいる。そして、好ましくは、該所定の時間期間は、各波形信号の時間長の 1 / 1 0以下に設定される。本発明のある局面においては、信号結合方法は、複数の波形信号を所定の順序で互いに結合するステップと、該複数の波形信号の各々の周波数スぺクトルの上限周波数を決定するステツプと、 '該決定された上限周波数に基づいた所定のライル夕特性にて、各波形信号の少なくとも結合部分をフィルタリングするステップとを含んでいる。ここで、該フィルタリングは、ローパスフィルタリングであり、そして該所定のフィルタリング特性は、該ローパスフィルタリングのカットオフ周波数である。さらに、該ローパスフィルタリングのカツトオフ周波数が、該波形信号の結合部分の前後 2つの波形信号のそれぞれのスぺクトル上限周波数のうち高いほうの上限周波数に設定されるようになっている。なお、該各波形信号の周波数スペクトルの上限周波数は、典型的には、フーリエ変換によるスペクトル分析により求められるが、この上限周波数を、ハイパスフィルタを利用して、高域周波数成分の平均振幅レベルに基づいて求めるようにしてもよい。

本発明は、このような構成を採用するため、波形信号の結合部分が不連続的に変化することにより発生する高調波成分を、波形信号の結合部の前後の波形信号のスぺクトルに適応したフィル夕特性を有するフィルタにより効果的に除去できる。このため、合成波形信号のノィズ感が著しく低減されることとなる。

さらに別の局面によれば、本発明の方法は、複数の入力波形信号を互いに結合して合成波形信号を生成し、該合成波形信号内で互いに隣接する一対の波形信号のスぺクトルの上限の周波数に基づいて、当該一対の波形信号の結合部分をフィルタリングする帯域幅を決定し、該合成波形信号のうち、該一対の波形信号の結合部分を、決定された帯域幅にてフィルタリングする、各信号処理ステップを含む信号結合方法として把握されるものである。

このような信号結合方法により結合される一対の波形信号の結合部分は、これらの入力波形信号の高域成分のスぺクトルに基づいて決まる帯域幅でフィルタリングされるので、合成波形信号から、高調波成分に起因するノイズを除去することが可能となる。また、このような信号結合方法では、入力波形信号の端が切り捨てられることがないので、入力波形信号が音声の波形を表す場合、自然な合成音声が生成される'こととなる。 '

上記本発明の信号結合方法と同様、本発明の信号結合装置は、複数の波形信号を結合して合成波形信号を生成するために、該複数の波形信号を所定の順序で互いに結合する手段と、該結合された複数の波形信号の各結合部分を含む所定の時間期間だけ該結合された複数波形信号をろ波するフィル夕とを基本的に含んでいる。ある局面において、本発明の信号結合装置は、該複数の波形信号を所定の順序で互いに結合する所定の順序で互いに結合する手段と、該複数の波形信号の各々の周波数スぺクトルの上限周波数を決定する手段と、該決定された上限周波数に基づいた所定のフィルタ特性にて各波形信号の少なくとも結合部分をろ波するフィル夕と、を含んでいる。そして、該フィルタは、ローパスフィルタであり、そして該所定のフィルタ特性は、該ロ —パスフィル夕リングのカットオフ周波数である。また、該ロ一パスフィルタリングのカツ卜オフ周波数は、該波形信号の結合部分の前後 2つの波形信号のそれぞれのスぺクトル上限周波数のうち高い方の上限周波数に設定されるようになっている。なお、本発明の上限周波数決定手段は、フ一リェ変換器もしくはハイパスフィルタを利用したスぺクトル分析器を含んでいる。

さらに、別の局面によれば、本発明の信号結合器は、複数の入力波形信号を互いに結合して合成波形信号を生成する結合手段と、該合成波形信号内で互いに隣接する一対の波形信号のスぺクトルの上限の周波数に基づいて当該一対の波形信号の結合部分をフィル夕リングする帯域幅を決定する帯域幅決定手段と、該合成波形信号のうち、該一対の波形信号の結合部分を、該帯域幅決定手段により決定された帯域幅にてフィルタリングするフィルタリング手段とを含む信号結合装置として把握される。

このような信号結合装置により結合される 2個の入力信号の結合部分は、これらの入力波形信号のスぺクトルの上限の周波数で決まる帯域幅でフィルタリングされるので、合成波形信号は、高調波成分に起因するノ'ィズが低減されたものとなる。また、このような信号結合装置によれば、入力信号の端を切り捨てることがないので、入力波形信号が音声の波形を表す場合、自然な合成音声が生成されることとなる。前記帯域幅決定手段は、たとえば、前記一対の波形信号をそれぞれフーリエ変換する手段を備え、フーリエ変換の結果に基づいて、当該 2個の入力信号のスぺクトルの上限の周波数を特定するように構成される。あるいは、これと代替の構成として、ハイパスフィルタを利用して、該一対の波形信号の各々の高周波信号成分をろ波するようにし、ハイパスフィルタの出力の平均振幅レベルに基づいて、当該一対の波形信号のスぺクトル上限周波数を特定するようにしてもよい。さらに、好適には、該帯域幅決定手段は、入力波形信号となり得る複数の候補のスぺクトルの上限の周波数を候補別に示すテーブルを記憶するテーブル記憶手段を備え、該帯域幅決定手段は、一対の波形信号を識別する識別データを外部より取得して、取得された識別データにより識別されるそれぞれの入力波形信号のスぺクトルの上限の周波数を該テーブルから読み出し、読み出された各周波数のうちの最高値を、当該一対の波形信号のスぺクトルの上限の周波数として特定する、よう構成される。

図面の簡単な説明

第 1図は、この発明の実施の形態に係る音声合成装置を示す図である。

第 2図は、この発明の実施の形態に係る音声合成装置の内部構成を示すブロック図である。

第 3図（a ) は、入力端 I N— Aに供給された信号のスペクトルを表すグラフであり、第 3図（b ) は、入力端 I N— Bに供給された信号のスペクトルを表すグラフであり、そして第 3図（ c ) は、ローパスフィルタの周波数特性を表すグラフである。

第 4図（ a ) は、入力端 I N— Aに供給された波形信号を表すダラフであり、第 4図（b ) は、入力端 I N— Bに供給された波形信号を表すグラフで'あり、第 4図（c ) は、加算部が出力する信号を表すグラフであり、そして第 4図（d ) は、口一パスフィルタが出力する信号を表すグラフである図である。

第 5図は、第 2図の音声合成装置の変形例の内部構成を示すプロック図である。

第 6図（ a ) は、つなぎ合わされる信号が不連続になる様子を表す図であり、第 6図（b ) は、不連続部分を直線で接続する従来の手法を表す図であり、そして第 6図（c ) は、 M D S方式により信号をつなぎ合わせた様子を表す図である。

発明の実施の形態

以下、図面を参照して、この発明の実施の形態を、音声合成装置を例として説明する。

この発明の実施の形態に係る音声合成装置 1 0は第 1図に示すように、予め録音した音声を個々の母音や子音のレベルに細分化することによって得られる波形信号が入力端 I N— A及び I N— Bから供給され、その供給された波形信号を合成した合成音声信号が出力端 O U T から出力される基本構成から成っている。

この音声合成装置 1 0は、具体的な内部構成を第 2図に示すように、入力端 I N— Aに連なった遅延部 1 A及びフーリェ変換部 2 Aと、入力端 I N— Bに連なった遅延部 1 B及びフーリェ変換部及び 2 Bと、加算部 3と、フィルタ特性決定部 4と、ローパスフィルタ 5 (以降、 L P Fと略記）とから構成されている。

遅延部 1 A及び 1 Bは、互いに実質的に同一の構成を有しており、それぞれ、たとえばシフトレジス夕等の遅延回路等から構成されている。遅延部 1 Aは入力端 I N— Aに接続されており、遅延部 1 Bは入力端 I N— Bに接続されている。

遅延部 1 Aは、入力端 I N— Aより信号を供給されると、この信号を一定時間遅延させて加算部 3に供給する。遅延部 1 Bは、入力端 I N— Bより信号を供給されると、この信号を一定時間遅延させて加算部 3に供給する。 '

なお、遅延部 1 A及び 1 Bが各自に供給された信号を遅延させる時間長は、実質的に同一である。この時間長は、フィルタ特性決定部 4 が L P F 5へと後述の制御信号を供給するタイミングが後述する通りとなるよう選ばれている。

フ一リエ変換部 2 A及び 2 Bは、互いに実質的に同一の構成を有しており、それぞれ、デジタル信号処理装置（D S P ： Digital Signal Processor) や C P U ( Central Processing Unit) 等から構成されている。フーリエ変換部 2 Aは入力端 I N— Aに接続されており、フーリェ変換部 2 Bは入力端 I N— Bに接続されている。従って、フーリエ変換部 2 A及び遅延部 1 Aには、入力端 I N— Aから同一の信号が実質的に同時に供給される。また、フーリエ変換部 2 B及び遅延部 1 B には、入力端 I N— Bから同一の信号が実質的に同時に供給される。フーリエ変換部 2 Aは、入力端 I N— Aより波形を表す信号を供給されると、高速フーリエ変換の手法（あるいは、信号をフーリエ変換した結果を表すデータを生成する他の任意の手法）により、この信号が表す波形のスぺクトルを表すスぺクトルデータを生成し、フィルタ特性決定部 4へ供給する。フーリエ変換部 2 Bも同じく、入力端 I N — Bより波形を表す信号を供給されると、フ一リェ変換部 2 Aと実質的に同一の動作を行い、この信号が表す波形のスぺクトルを表すスぺクトルデータを生成して、フィルタ特性決定部 4へ供給する。

加算部 3は、加算回路等より構成されている。この加算部 3は、遅延部 1 Aより供給される信号の値と遅延部 1 Bより供給される信号の値の和を表す信号を生成して、 L P F 5へ供給する。フィル夕特性決定部 4は、 D S Pや C PUより構成されており、このフィルタ特性決定部 4は、フーリエ変換部 2 A及び 2 Bよりそれぞれスぺクトルデータを供給されると、これらのスぺクトルデータに基づいて、 L P F 5のカットオフ周波数（具体的には、たとえば L P F 5の利得が高周波側でピークより 3デシベル低下する周波数）を決定し、決定した力ットオフ周波数を'示す制御信号を生成して L P F 5に供給する。

具体的には、フィルタ特性決定部 4は、たとえば第 3図（ a) に示すように、フ一リエ変換部 2 Aより供給されたスぺク卜ルデ一夕が示すスぺクトル S aの強度が高周波側でピークより 2 0デシベル減衰する周波数を、このスペクトル S aの上限 f aと特定する。また、フィルタ特性決定部 4は、たとえば第 3図（b) に示すように、フ一リエ変換部 2 Bから供給されたスぺクトルデータが示すスぺクトル S bの強度が高周波側でピークより 2 0デシベル減衰する周波数を、このスベクトル S bの上限 f bとして特定する。そして、特定した 2個の周波数 f a及び f bのうち高い方の値を、 L P F 5のカツトオフ周波数と決定する。なお、第 3図（c) は、 f aく： f bである場合の L P F 5の周波数特性（ただし、制御信号が L P F 5に供給されている間の周波数特性）を示すグラフである。

L P F 5は、たとえば、 F I R (Finite Inpulse Response) 型のディジタルフィルタ等より構成されている。 L P F 5は加算部より供給される信号を、フィル夕特性決定部 4からの制御信号の有無及びその制御信号が示す周波数に基づいてフィルタリングして出力する。

具体的には、 L P F 5は、たとえば、フィルタ特性決定部 4から制御信号が供給されている間は、加算部 3より供給された信号が表す波形のうち、この制御信号が示す周波数をカツトオフ周波数とするような 5 1 2次の口一パスフィルタを通過する成分を表す信号を生成し、その生成した信号を、フィルタリングの結果を表す信号として出力端 OUTより出力する。一方、 L P F 5は、制御信号を供給されていない間は、加算部 3より供給された信号を実質的にフィル夕リングすることなくそのまま出力端 OUTより出力する。

この音声合成装置に音声の合成を行わせるには、入力端 I N— A及び I N— Bに、波形信号を交互に供給する。すなわち、たとえば第 4 図（a) 及び（b) に示すように、 n番目（nは任意の正の奇数）の波形信号 s (n) を入力端 I N— Aに供給したとすると、 n番目の波形信号が終端に達するのと実質的に同時に、入力端 I N— Bに、（n + 1 ) 番目の波形信号 s (n + 1 ) の供給を開始する、というようにして、波形信号を順次供給する。

入力端 I N— Aに n番目の波形信号が供給され、入力端 I N— Bに (n + 1 ) 番目の波形信号が供給されると、 n番目の波形信号は遅延部 1 Aにより遅延を受け、また、（n + 1 ) 番目の波形信号は遅延部 1 Bにより遅延を受けた上で、加算部 3に供給される。遅延部 1 A及び 1 Bが信号を遅延させる時間長（第 4図（ c) で「 t 0」として示す時間長）は互いに実質的に等しいので、加算部 3からは、第 4図（c ) に示すように、 n番目の波形.信号と（n + 1 ) 番目の波形信号とが実質的に隙間なく連続して L P F 5に供給される。

一方、 n番目の波形信号はフーリエ変換部 2 Aにも供給され、（n + 1 ) 番目の波形信号はフーリエ変換部 2 Bにも供給される。すると、フーリエ変換部 2 Aは、 n番目の波形信号が表す波形のスぺクトルを表すスぺクトルデータを生成し、フィル夕特性決定部 4へと供給する。また、フーリエ変換部 2 Bは、（n + 1 ) 番目の波形信号が表す波形のスぺクトルを表すスぺクトルデータを生成し、フィル夕特性決定部 4 へと供給する。

フィルタ特性決定部 4は、 n番目及び（n + 1 ) 番目の波形信号のスぺクトルを表す 2個のスぺク卜ルデ一夕を供給されると、これらのスぺクトルデータが示す各々のスぺクトルの強度が高周波側で平均値より 2 0デシベル減衰する周波数を特定する。そして、特定した 2個の周波数のうち高い方の値を、 L P F 5のカツトオフ周波数と決定し、決定したカツトオフ周波数を示す制御信号を L P F 5に供給する。

n番目及び（n + 1 ) 番目の波形信号に基づいて決定されたカットオフ周波数を示す制御信号は、第 4図（d) にタイミングを示すように、加算部 3が出力する信号が n番目の波形信号から（n + 1 ) 番目の波形信号へと切り替わる時点 ' (第 4図（d) で「T (η)」として示す時点）を含む期間、フィルタ特性決定部 4から L P F 5へと供給される。（なお、理解を容易にするため、本明細書及び図面においては、 L P F 5自身による信号伝搬の遅延時間は無視できる程度に短いものとする。）

なお、この音声合成装置が出力する音声信号が表す音声の劣化を防ぐために、制御信号の供給開始から波形信号が切り替わる時点までの時間長は、 n番目の波形信号の時間長（第 4図（ a) で「L (n)」として示す時間長）の 1 0分の 1以下とすることが望ましい。また、波形信号が切り替わる時点から制御信号の供給終了までの時間長は、（n + 1 ) 目の波形信号の時間長（第 4図（b) で「L (n + l )」として示す時間長）の 1 0分の 1以下とすることが望ましい。

そして、 L P F 5は、

(A) (n— 1 ) 番目及び n番目の波形信号に基づいて決定された周波数を示す制御信号の供給が終了してから、 n番目及び（n + 1 ) 番目の波形信号に基づいて決定された周波数を示す制御信号が供給されるまでの期間（第 4図（d) で「 t 1」として示す期間）は、 n番目の波形信号を、実質的にフィル夕リングすることなく出力端 OUT から出力し、

(B) n番目及び（n + 1 ) 番目の波形信号に基づいて決定された周波数を示す制御信号が供給されている期間（第 4図（d) で「 t 2」として示す期間）は、この周波数をカットオフ周波数とする 5 1 2次のローパスフィルタを通過する成分を表す信号を生成して出力端 OU Tより出力し、 -ll- CC) n番目及び（n + 1) 番目の波形信号に基づいて決定された周波数を示す制御信号の供給が終了してから、（n + 1 ) 番目及び（n + 2) 番目の波形信号に基づいて決定された周波数を示す制御信号が供給されるまでの期間（第 4図（d) で「 t 3」として示す期間）は、 (n + 1 ) 番目の波形信号を、実質的にフィルタリングすることなく出力端 OUTから出力する。 '

L P F 5が上述した通りにフィルタリングを行う結果、 n番目及び (n + 1 ) 番目の波形信号が、不要な高調波成分を生じることなく、また、各波形に元来含まれていた周波数成分を実質的に損なうことなく、互いに結合される。従って、結合された波形信号が表す音声は、ノイズが少なく、また、自然な合成音声が発声される。

なお、この音声合成装置の構成は上述のものに限られない。

たとえば、 L P F 5のフィルタ段数は任意であり、また、フーリエ変換部 2 A及び 2 Bが供給するスぺクトルデータが示すスぺクトルの上限の周波数の定義の仕方や、 L P F 5のカツトオフ周波数の定義の仕方も、上述の定義に限らず任意である。

また、遅延部 1 A、遅延部 1 B、フーリエ変換部 2 A、フーリエ変換部 2 B、加算部 3、フィルタ特性決定部 4及び L P F 5の機能の全部又は一部を、単一の D S Pや C P Uが行ってもよい。

また、この音声合成装置は、入力端 I N— A及び I N— Bに代えて、波形信号が記録された記録媒体（たとえば、フレキシブルディスクや、 MO (Magneto-Optical Disk) など）から波形信号を読み出して遅延部 1 A及び 1 Bやフーリェ変換部 2 A及び 2 Bに供給する記録媒体ドライブ装置（たとえば、フレキシブルディスクドライブや、 M〇ドライブなど）を備えていてもよい。

また、この音声合成装置は、出力端 OUTに代えて、 L P F 5が生成した信号を記録媒体に書き込む記録媒体ドライブ装置を備えていてもよい。

なお、同一の記録媒体ドライブ装置が、記録媒体からの波形信号を読み出す機能と L P F 5が生成した信号を記録媒体に書き込む機能とを両方行うようにしてもよい。

なお、入力端 I N— A又は I N— Bに供給される波形信号は、無音状態を表すものであっても差し支えない。有音状態を表す波形信号と無音状態を表す波形信号とが結合されることにより、有音状態を表す信号の端を含む部分（具体的には、たとえば、音声の始まりや終わり、あるいは息継ぎ部分など）がノイズを発生することが避けられ、またこの部分が自然な音声として聞こえるものとなる。

また、この発明の音声合成装置においては必ずしもフ一リェ変換部 2 A及び 2 Bを必要とせず、その代わりに、例えば入力端 I N— A及び I N— Bに供給される波形信号の候補を識別する識別データとこの候補のスぺクトルの上限の周波数を示す周波数データとを互いに対応付けて格納記憶するテーブルを備える手法が考えられる。

この手法の場合、入力端 I N— A及び I N— Bに供給された波形信号を識別する識別デ一夕を別途外部より取得し、その取得した識別デ一夕に対応付けられた周波数デー夕をテーブルから読み出してフィル夕特性決定部 4に供給し、フィルタ特性決定部 4は、その周波数デ一夕が示す周波数のうち高い方の値を、 L P F 5のカツトオフ周波数と決定する。

また、第 5図に示すように、この音声合成装置は、フ一リエ変換部 2 A及び 2 Bに代えてハイパスフィルタ（H P F ) 6 A及び 6 Bを備えていてもよい。

H P F 6 A及び 6 Bは、互いに実質的に同一の構成を有しており、それぞれ、たとえば I I R (Infinite Inpulse Response) 型のディジタルフィルタ等より構成されている。

H P F 6 Aは入力端 I N— Aに接続されており、 H P F 6 Bは入力端 I N— Bに接続されていて、 H P F 6 A及び遅延部 1 Aには、入力端 I N— Aから同一の信号が実質的に同時に供給され、 H P F 6 B及び遅延部 1 Bには、入力端 I N— Bから同一の信号が実質的に同時に供給される。

H P F 6 Aは、入力端 I N— Aより波形を表す信号を供給されると、この信号のうち所定の力ットオフ周波数以下の成分を実質的に遮断し、他の成分フィルタ特性決定部 4へと供給する。 HP F 6 Bは、入力端 I N— Bより供給された信号のうち所定のカツトオフ周波数以下の成分を実質的に遮断し、他の成分フィルタ特性决定部 4へと供給する。なお、 H P F 6 A及び 6 Bのカットオフ周波数は、互いに実質的に等しいものとする。

この音声合成装置がフーリェ変換部 2 A及び 2 Bに代えて HP F 6 A及び 6 Bを備えている場合、フィルタ特性決定部 4は、 HP F 6 A 及び 6 Bよりそれぞれ供給された波形信号の成分に基づいて（具体的には、たとえば HP F 6 Aが供給した成分の平均振幅レベル及び HP F 6 Bが供給した成分の平均振幅レベルのうち大きい方の値に基づいて）、 L P F 5のカットオフ周波数を決定するものとする。

この音声合成装置がフーリエ変換部 2 A及び 2 Bに代えて HP F 6 A及び 6 Bを備えていれば、複雑なフーリェ変換の処理が省略されるので、この音声合成装置の処理をより高速にすることが可能になる。以上、この発明の実施の形態を説明したが、この発明にかかる信号結合装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。

例えば、パーソナルコンピュータに上述の遅延部 1 A (又は HP F 6 A)、遅延部 I B (又は） HP F 6 B、フーリエ変換部 2 A、フーリェ変換部 2 B、加算部 3、フィルタ特性決定部 4及び L P F 5の動作を実行させるためのプログラムを格納した媒体（C D - ROM, MO, フレキシブルディスク等) から該プログラムをインストールすることにより、上述の処理を実行する音声合成装置を構成することができる。また、例えば、通信回線の掲示板（B B S) に当該プログラムを掲示し、これを通信回線を介して配信してもよく、また、当該プログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調して当該プログラムを復元するようにしてもよい。

そして、当該プログラムを起動し、 O Sの制御下に、他のアプリケ

—ションプログラムと同様に実行することにより、上述の処理を実行することができる。

なお、 0 Sが処理の一部を分担する場合、あるは、 O Sが本願発明の 1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。

産業上の利用可能性

本発明は、上述のような構成を採用するため、音声波形信号の結合部分が不連続に変化することにより発生する高調波成分が効果的に除去されることとなる。このため、合成音声信号のノイズ感が著しく低減され、極めて自然な合成音声が生成できる。

Claims

請求の範囲

1 . 複数の波形信号を結合して、合成波形信号を生成するための信号結合方法であって、

該複数の波形信号を所定の順序で相互に結合するステップと、該結合ざれた複数の波形信号の各結合部分を含む所定の時間期間だけ、該結合された複数の波形信号をフィル夕リングするステップとを含むことを特徴とする信号結合方法。

2 . 請求項 1に記載の信号結合方法において、

該所定の時間期間が、各波形信号の時間長の 1 / 1 0以下である信号結合方法。

3 . 複数の波形信号を結合して、合成波形信号を生成するための信号結合方法であって、

該複数の波形信号を所定の順序で相互に結合するステップと、該複数の波形信号の各々の周波数スぺクトルの上限周波数を決定するステップと、

該決定された上限周波数に基づいた所定のフィル夕特性にて、各波形信号の少なくとも結合部分をフィルタリングするステップとを含むことを特徴とする信号結合方法。

4 . 請求項 3に記載の信号結合方法において、

該フィルタリングが、ローパスフィルタリングであり、そして該所定のフィル夕特性が、該ローパスフィルタリングの力ットオフ周波数である信号結合方法。

5 . 請求項 4に記載の信号結合方法において、

該ロ一パスフィルタリングのカツトオフ周波数が、該結合部分の前後 2つの波形信号のそれぞれのスぺクトル上限周波数のうち高い方の上限周波数に設定されるものである方法。

6 . 請求項 3又は 4に記載の信号結合方法において、

該各波形信号の周波数スぺクトルの上限周波数が、フーリエ変換によるスぺクトル分析により求められる信号結合方法。

7 . 請求項 3又は 4に記載の信号結合方法において、

該各波形信号の周波数スぺクトルの上限周波数が、結合された波形信号をハイパスフィルタリングして得られる信号の平均振幅レベルに基づいて求められる信号結合方法。

8 . 複数の入力波形信号を互いに結合して合成波形信号を生成し、該合成波形信号内で互いに隣接する一対の波形信号のスぺクトルの上限の周波数に基づいて、フィルタリング帯域幅を決定し、

該出力波形信号のうち、該一対の波形信号の結合部分を、該決定された帯域幅にてフィルタリングする、各信号処理ステップを含むことを特徴とする信号結合方法。

9 . 複数の波形信号を結合して、合成波形信号を生成する信号結合装置であって、

該複数の波形信号を所定の順序で相互に結合する手段と、

該結合された複数の波形信号の各結合部分を含む所定の時間期間だけ、該結合された複数の波形信号をろ波するフィル夕とを含むことを特徴とする信号結合装置。

1 0 . 請求項 9に記載の信号結合装置において、

該所定の時間期間が、各波形信号の時間長の 1 / 1 0以下である信号結合装置。

1 1 . 複数の波形信号を互いに結合して、合成波形信号を生成するための信号結合装置であって、

該複数の波形信号を所定の順序で相互に結合する手段と、

該複数の波形信号の各々の周波数スぺクトルの上限周波数を決定する手段と、

該決定された上限周波数に基づいた所定のフィルタ特性にて、各波形信号の少なくとも結合部分をろ波するフィルタとを含むことを特徴とする信号結合装置。

1 2 . 請求項 1 1に記載の信号結合装置において、該フィル夕が、口一パスフィル夕であり、そして該所定のフィルタ特性が、該ロ一パスフィルタリングのカツトオフ周波数である信号結合装置。

1 3 . 請求項 1 2に記載の信号結合方法において、

該ローパスフィルタリングのカツ卜オフ周波数が、該結合部分の前後 2つの波形信号の'それぞれのスぺクトル上限周波数のうち高い方の上限周波数に設定されるものである信号結合装置。 ·

1 4 . 請求項 1 1又は 1 2に記載の信号結合装置において、

該上限周波数を決定する手段が、フーリエ変換によるスぺクトル分析器を含む信号結合装置。

1 5 . 請求項 1 1又は 1 2に記載の信号結合装置において、

該上限周波数を決定する手段が、ハイパスフィル夕を含む信号結合

1 6 . 複数の入力波形信号を互いに結合して合成波形信号を生成する結合手段と、

該合成波形信号内で互いに隣接する一対の波形信号のスぺクトルの上限の周波数に基づいて、フィル夕リング帯域幅を決定する帯域幅決定手段と、

該出力信号のうち、該一対の波形信号の結合部分を、該帯域幅決定手段により決定された帯域幅にてフィルタリングするフィルタリング手段とを含むことを特徴とする信号結合装置。

1 7 . 請求項 1 6に記載の信号結合装置において、

該帯域幅決定手段が、該一対の波形信号の各々をフーリェ変換する手段を含み、フーリエ変換の結果に基づいて、当該一対の波形信号のスぺクトルの上限の周波数を特定するように動作する信号結合装置。

1 8 . 請求項 1 6に記載の信号結合装置において、

該帯域幅決定手段が、該一対の波形信号の各々の高周波信号をろ波するハイパスフィルタを含み、ハイパスフィル夕の出力の平均振幅レベルに基づいて、当該一対の波形信号のスぺクトルの上限周波数を特定するように動作する信号結合装置。

1 9 . 請求項 1 6に記載の信号結合装置において、

帯域幅決定手段が、入力波形信号となり得る複数の候補のスぺクトルの上限の周波数を候補別に示すテーブルを記憶するテーブル記憶手段を備え、

帯域幅決定手段は、該一対の波形信号を識別する識別データを外部より取得して、取得された識別データにより識別されるそれぞれの波形信号のスぺクトルの上限の周波数を該テーブルから読み出し、読み出された各周波数のうちの最高値を、当該一対の波形信号のスぺクトルの上限の周波数として特定するようになっている信号結合装置。

2 0 . コンピュータを、

複数の入力波形信号を互いに結合して合成波形信号を生成する結合手段、

前記合成波形信号内で互いに隣接する一対の波形信号のスぺクトルの上限の周波数に基づいて、フィルタリング帯域幅を決定する帯域幅決定手段、並びに

該出力波形信号のうち、前記該一対の波形信号の結合部分を、該帯域幅決定手段により決定された帯域幅にてフィルタリングするフィル夕リング手段、

として機能させるためのプログラム。