JP2006243473A

JP2006243473A - 音声素片生成装置

Info

Publication number: JP2006243473A
Application number: JP2005060495A
Authority: JP
Inventors: Kazuhiro Miki; 一浩三木; Toshio Akaha; 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2005-03-04
Filing date: 2005-03-04
Publication date: 2006-09-14
Anticipated expiration: 2025-03-04
Also published as: JP4526979B2

Abstract

【課題】低演算速度および小容量のメモリで高音質の音声素片を生成する。
【解決手段】音素片データ選択部１は、入力されたパラメータに適した音素片データを選択する。音素片生成部２は、上記選択された音素片データを展開して時間波形を生成する。音素片非周期化部３は、上記生成された音素片に対して非周期化を行う。音声素片生成部４は、上記非周期化された音素片を接続して音声素片を生成する。こうすることにより、生成される音声素片中に同一音素片の繰り返し部分が発生するような場合でも非周期化される。したがって、人間の聴覚で感知できるレベルの周期音が無くなり、高音質の音声素片が生成される。
【選択図】図１

Description

この発明は、音素片を変形および接続して音声素片を生成する音声素片生成装置に関する。

現在、情報家電機器や携帯電話等の様々な情報機器に関して多様化が進んでおり、その操作インタフェースの一つとして音声合成が利用されている。また、ウェアラブルコンピュータ等の超小型機器の出力手段として、音声出力が画面表示と共に利用されている。これらの様々な機器において音声出力を利用する場合には、低スペック(低処理速度や小メモリ)であり且つ高音質である合成音声の生成が重要である。

このような低スペック音声合成を実現する方法として、特開平１０‐１７１４８４号公報(特許文献１)に開示された「音声合成方法および装置」がある。この特許文献１においては、音素片のクラスタリングによって音素片の冗長性を削減することでメモリ容量の削減を行っている。

しかしながら、上記特許文献１では、音素片のクラスタリングによってメモリ容量を削減しているために、音素片の少なさから、連続する音素片間の微細な変動に対応できず、同じ音素片の繰り返しが発生する可能性がある。そして、無声子音等においてその繰り返しが起こった場合には、繰り返し周期の周波数成分が発生し、音質の劣化を引き起こすという問題がある。
特開平１０‐１７１４８４号公報

そこで、この発明の課題は、低演算速度および小容量のメモリで高音質の音声素片を生成することができる音声素片生成装置を提供することにある。

上記課題を解決するため、この発明の音声素片生成装置は、
複数の音素片データが登録されたデータベースと、
入力されたパラメータに基づいて、上記パラメータに適合する音素片データを上記データベースから選択する音素片データ選択部と、
上記選択された音素片データから音素片を生成する音素片生成部と、
上記音素片を接続して音声素片を生成する音声素片生成部と、
上記生成される音声素片が非周期性波形を呈するように、上記音素片生成部によって生成された音素片を変形して上記音声素片生成部に送出する音素片非周期化部と
を備えたことを特徴としている。

上記構成によれば、上記音素片非周期化部によって、最終的に生成される音声素片が非周期性波形を呈するように、上記音素片生成部で生成された音素片を変形するようにしている。したがって、上記音声素片生成部によって生成される音声素片に生ずる周期性を抑制することができる。すなわち、この発明によれば、メモリ容量の削減を図るために、音素片のクラスタリングによって音素片の冗長性を削減し、音素片が少なくなった場合であっても、少ない処理量で同一音素片の繰り返しによる周期雑音を軽減することができ、高音質の音を生成することができる。

また、１実施の形態の音声素片生成装置では、
上記音素片非周期化部は、
符号反転指令を生成する符号反転指令生成部と、
上記符号反転指令生成部からの上記符号反転指令に従って、上記音素片生成部によって生成された音素片の符号を反転してなる符号反転音素片を生成する音素片符号反転部と
を含んでいる。

この実施の形態によれば、上記符号反転指令生成部によってランダムな符号反転指令を生成すれば、上記音声素片生成部によって生成される音声素片の各音素片に対する符号の反転がランダムに行われる。こうして、生成される音声素片が非周期化されるのである。

また、１実施の形態の音声素片生成装置では、
上記音素片非周期化部は、
時間反転指令を生成する時間反転指令生成部と、
上記時間反転指令生成部からの上記時間反転指令に従って、上記音素片生成部によって生成された音素片の時間軸に対する配列順序を反転してなる時間反転音素片を生成する音素片時間反転部と
を含んでいる。

この実施の形態によれば、上記時間反転指令生成部によってランダムな時間反転指令を生成すれば、上記音声素片生成部によって生成される音声素片の各音素片について、その時間軸に対する配列順序の反転がランダムに行われる。こうして、生成される音声素片が非周期化されるのである。

また、１実施の形態の音声素片生成装置では、
上記音素片非周期化部は、
上記音素片生成部から受け取った音素片が先行の音素片と同一の音素片にならないように、上記受け取った音素片に対して符号の反転および時間軸に対する配列順序の反転のうちの少なくとも一方を行わせるための時間・符号反転指令を生成する時間・符号反転指令生成部と、
上記時間・符号反転指令生成部からの上記時間・符号反転指令に従って、上記受け取った音素片に対して符号の反転および時間軸に対する配列順序の反転のうちの少なくとも一方を行って、時間・符号反転音素片を生成する音素片時間・符号反転部と
を含んでいる。

この実施の形態によれば、上記時間・符号反転指令生成部によってランダムな時間・符号反転指令を生成すれば、上記音声素片生成部によって生成される音声素片における各音素片について、その符号の反転および時間軸に対する配列順序の反転のうちの少なくとも一方がランダムに行われる。こうして、生成される音声素片が非周期化されるのである。

また、１実施の形態の音声素片生成装置では、
上記各反転指令生成部は、乱数に基づいて上記各反転指令を生成する。

この実施の形態によれば、上記各反転指令生成部は、乱数に基づいて簡単にランダムな上記各反転指令を生成することができる。

また、１実施の形態の音声素片生成装置では、
上記音素片非周期化部は、上記生成された音素片を接続する際における接続開始個所を指定する接続個所指定部を含み、
上記音声素片生成部は、上記指定された接続開始個所に従って、上記生成された音素片における上記接続開始個所を先頭として先行の音素片に接続する。

この実施の形態によれば、上記接続個所指定部によってランダムに接続開始個所を指定すれば、上記音声素片生成部によって生成される音声素片における各音素片は、その先行の音素片に対する接続開始個所がランダムに変更されている。こうして、生成される音声素片が非周期化されるのである。

また、１実施の形態の音声素片生成装置では、
上記音声素片生成部は、上記指定された接続開始個所に従って、上記生成された音素片の時間軸に対する配列順序を上記接続開始個所を先頭とする配列順序に変更して、上記生成された音素片を再生成する音素片再生成部を含んでいる。

この実施の形態によれば、上記生成された音素片の時間軸に対する配列順序を上記接続開始個所を先頭とする配列順序に変更して再生成するので、先行の音素片に対する接続開始個所のランダム変更が、確実に行われる。

また、１実施の形態の音声素片生成装置では、
上記接続箇所指定部は、乱数に基づいて上記接続開始箇所を指定する。

この実施の形態によれば、上記接続箇所指定部は、乱数に基づいて簡単にランダムな接続開始個所の指定を行うことができる。

また、１実施の形態の音声素片生成装置では、
上記音声素片生成部によって生成された音声素片が周期性を有しているか否かを判定すると共に、周期性を有している場合には当該音声素片を上記音素片非周期化部に戻して当該音声素片を構成する音素片の変形を行わせる一方、周期性を有していない場合には当該音声素片を出力する周期性判定部を備えている。

この実施の形態によれば、上記周期性判定部によって、上記音声素片生成部で生成された音声素片の周期性が無くなるまで、上記音素片非周期化部による音素片の変形を繰り返すようにしている。したがって、上記音声素片生成部によって生成される音声素片に生ずる周期性をさらに抑制することができる。

また、この発明の音声素片生成装置は、
複数の音素片データが登録されたデータベースと、
入力されたパラメータに基づいて、上記１つのパラメータに適合する複数の音素片データを上記データベースから選択する複数音素片データ選択部と、
上記選択された複数の音素片データから音素片を生成する音素片生成部と、
上記音素片生成部によって生成された複数の音素片のうち、音声素片の生成に利用される利用音素片を選択する利用音素片選択部と、
上記生成された複数の音素片のうち、上記利用音素片選択部によって選択された音素片を接続して上記音声素片を生成する音声素片生成部と
を備えたことを特長としている。

上記構成によれば、上記利用音素片選択部によって、上記複数音素片データ選択部で選択された複数の音素片データに基づく複数の音素片のうち、音声素片の生成に利用される利用音素片を選択するようにしている。したがって、上記利用音素片の選択をランダムに行えば、上記音声素片生成部によって生成される音声素片に生ずる周期性を抑制することができる。すなわち、この発明によれば、メモリ容量の削減を図るために、音素片のクラスタリングによって音素片の冗長性を削減し、音素片が少なくなった場合であっても、少ない処理量で同一音素片の繰り返しによる周期雑音を軽減することができ、高音質の音を生成することができる。

また、１実施の形態の音声素片生成装置では、
上記利用音素片選択部は、乱数に基づいて上記利用音素片を選択する。

この実施の形態によれば、上記利用音素片選択部は、乱数に基づいて簡単に利用音素片をランダムに選択することができる。

また、この発明の音声素片生成方法は、
入力されたパラメータに基づいて、上記パラメータに適合する音素片データをデータベースから選択する音素片データ選択ステップと、
上記選択された音素片データから音素片を生成する音素片生成ステップと、
上記音素片を接続してなる音声素片が非周期性波形を呈するように、上記生成された音素片を変形する音素片非周期化ステップと、
上記変形された音素片を接続して音声素片を生成する音声素片生成ステップと、
を備えたことを特長としている。

上記構成によれば、最終的に生成される音声素片が非周期性波形を呈するように、入力パラメータに基づいて生成された音素片を変形するようにしている。したがって、上記音声素片に生ずる周期性を抑制することができる。すなわち、この発明によれば、メモリ容量の削減を図るために、音素片のクラスタリングによって音素片の冗長性を削減し、音素片が少なくなった場合であっても、少ない処理量で同一音素片の繰り返しによる周期雑音を軽減することができ、高音質の音を生成することができる。

また、この発明の音声素片生成プログラムは、
コンピュータを、
この発明の音声素片生成装置における音素片データ選択部,音素片生成部,音素片非周期化部および音声素片生成部
として機能させることを特徴としている。

また、この発明のプログラム記録媒体は、
この発明の音声素片生成プログラムが記録されたことを特徴としている。

上記各構成によれば、最終的に生成される音声素片に生ずる周期性を抑制することができる。すなわち、この発明によれば、メモリ容量の削減を図るために、音素片のクラスタリングによって素片の冗長性を削減し、音素片が少なくなった場合であっても、少ない処理量で同一音素片の繰り返しによる周期雑音を軽減することができ、高音質の音を生成することができる。

以上より明らかなように、この発明によれば、入力されたパラメータに基づいて選択・生成された音素片を接続してなる音声素片に生ずる周期性を抑制することができる。したがって、メモリ容量の削減を図るために音素片が少なくなった場合であっても、少ない処理量で同一音素片の繰り返しによる周期雑音を軽減して、高音質の音を生成することができる。すなわち、この発明によれば、高音質の音を生成することができる低スペック音声合成装置を実現することが可能になる。

以下、この発明を図示の実施の形態により詳細に説明する。

最初に、音声素片,音素片および音素片データの意味を定めておく。上記「音声素片」は、合成音声生成時に利用される音声波形の一部分を示しており、子音を「Ｃ」、母音を「Ｖ」として、ＣＶやＶＣＶ等の形態でよく用いられる。また、上記「音素片」は、音声素片の「Ｃ」および「Ｖ」を生成する元の波形のことであり、有声音および無声音等の情報に応じて、１ピッチ分の波形や予め指定された長さの音声波形が用いられる。また、上記「音素片データ」は、上記音素片そのもののデータや上記音素片を圧縮した形態のデータであり、音素片を生成する元となるデータのことを示している。

・第１実施の形態
図１は、本実施の形態の音声素片生成装置におけるブロック図である。図中の「パラメータ」は音素片データを指定するものであり、例えば、音素片データデータベース５中の音素片データを直接指定するポインタや、スペクトル情報やこのスペクトル情報をモデル化した場合の係数等、どのようなパラメータを用いても差し支えない。

図１において、音素片データ選択部１は、入力されたパラメータを用いて、与えられたパラメータに適合する音素片データを、音素片データデータベース５から選択する。その際に、上記パラメータが上記スペクトル情報のように、音素片データデータベース５中の音素片データそのものを指定するポインタ等ではない場合には、上記パラメータと音素片データデータベース５中の各音素片データとに対して評価関数等の予め指定された評価基準による比較を行い、最適な音素片データを選択する。ここでは、音素片データ選択部１の動作を説明するため、図２に示すように、上記「パラメータ」は、音素片データデータベース５中の「音素片/ＳＨ/の１番目」を指定する情報６であるとする。この場合、音素片データ選択部１は、音素片データデータベース５に格納された音素片データ「/ＳＨ１/〜/ＳＨ３２/」のうち、パラメータ６によって直接指定された音素片データ「/ＳＨ１/」７を直接選択し、選択された音素片データ「/ＳＨ１/」７を音素片生成部２に送出する。

上記音素片生成部２は、上記音素片データ選択部１によって選択された音素片データ７のフォーマットに応じて、入力された音素片データ７を展開して所定時間の音声波形である時間波形を生成する。音素片データ７の種類としては、音素片の時間波形そのもののデータや、音素片の時間波形を圧縮した適応差分ＰＣＭ(ＡＤＰＣＭ)等の様々な圧縮を加えたデータや、線形予測分析(ＬＰＣ)係数等のように元の波形の情報をモデル化したデータ等があり、元の音素片の波形を表現可能なあらゆる方法を用いて作成することができる。

一例として、上記音素片データが、ＡＤＰＣＭでコード化されて音素片データデータベース５に保存されている場合を考える。この場合、音素片データ選択部１によって選択された音素片データ７に含まれるＡＤＰＣＭコードをデコードすることによって、目的とする音素片の時間波形を生成することができる。

音声素片生成部４は、上記音素片生成部２によって生成された音素片を接続することによって、連結された音素片の連なりである音声素片を生成する。その場合、目的の時間長の音声素片は、上述した処理を目的の時間長になるまで繰り返すことによって生成されるのである。

図３は、生成される上記音声素片の概念図である。ここで、８０msecの時間長の音声素片「/ＳＨ/」を生成する場合を考える。音素片データ選択部１に入力される音素片/ＳＨ/のパラメータ系列に従って、上述の処理を行って時間長が５msecの時間波形でなる各音素片が生成される。こうして生成された音素片が次々と結合され、「ＳＨ」の音素片系列８でなる音声素片が生成される。ここで、上記特許文献１のように、音声素片のクラスタリングによって音素片の冗長性を削減することでメモリ容量の削減を行った場合は、音素片の種類の少なさ等の影響によって、図３において矢印９で示すような同一音素片(ＳＨ１)の繰り返しが発生する。その場合、生成される音声素片/ＳＨ/中の同一音素片繰り返し部分９では５msecの周期性を有する音が発生し、音質の劣化を招くことになる。

図４は、サンプリング周期８ＫＨz、音素片の長さ５msecの条件で、繰り返しが発生している部分を周波数解析したものである。図４により、２００Ｈz毎の周波数成分が強く現れていることが分かる。その結果、生成される音声素片には２００Ｈz毎の周波数で生成される周期性音が生成され、音質の劣化が起こることになる。

本実施の形態においては、上述のような症状を改善するために、音素片生成部２によって生成された音素片に対して非周期化を行って音声素片生成部４に送出する音素片非周期化部３を有している。この音素片非周期化部３において、下記の各方法を用いることによって周期性音を低減するのである。

［音素片時間波形の符号反転］
図５は、上記音素片生成部２によって生成された音素片に対して、音素片時間波形の符号反転波形を用いて非周期化処理を行う音素片非周期化部３の内部構成を示すブロック図である。

図５において、符号反転指令生成部１１は、入力音素片に対して符号反転を行うか否かの指令を生成する。例えば、符号を反転する場合には「１」を生成し、反転しない場合には「０」を生成して、入力音素片と共に次段の符号反転判断部１２に出力するのである。その場合、符号反転指令生成部１１は、０か１の乱数を既知のアルゴリズムによって生成することによって、符号反転指令を生成することが可能である。あるいは、符号反転指令データ記憶部１４に、予めランダムに設定されたＮ個の符号反転指令データを記憶しておく。そして、指令を行う毎に、読み出し位置をインクリメントして符号反転指令データ記憶部１４にアクセスして符号反転指令データを読み出すことにより、ランダムな符号反転指令を生成することが可能である。このように、符号反転指令データ記憶部１４を用いて符号反転指令を生成する場合には、毎回乱数を生成する場合に比べて高速な反転指令生成が可能となる。

上記符号反転判断部１２は、上記符号反転指令生成部１１から送出されてくる符号反転指令に従って、符号反転指令が真(「１」)の場合には入力音素片に対して符号反転を行うと判断し、入力音素片を音素片符号反転部１３に出力する。これに対し、符号反転指令が偽(「０」)の場合には入力音素片に対して符号反転を行わないと判断し、入力音素片を直接音声素片生成部４に出力する。

さらに、上記符号反転判断部１２には、外部から、符号反転するか否かを直接指令する外部指令が入力されるようになっている。そして、上記外部指令が入力された場合には、上記外部指令を優先して、上記判断処理を実行するようになっている。一例として、外部の処理速度を制御する装置から、符号反転処理を行っていては音声素片の生成処理が間に合わないため、符号反転処理は行わない旨を指示する外部指令が符号反転判断部１２に入力される場合がある。その場合には、その外部指令に基づく判断を優先し、音声素片生成部４に対して入力音素片を送出して符号反転処理は行わないようにする。以上のように、符号反転判断部１２は、符号反転処理を行うか否かの総合的な判断を行うのである。

上記音素片符号反転部１３は、入力された音素片の符号を反転する処理を行い、符号が反転された音素片を音声素片生成部４に出力する。

上記音声素片生成部４は、上記符号反転判断部１２から送出された上記符号反転が行われない入力音素片、および、音素片符号反転部１３から送出された上記符号反転が行われた入力音素片を接続することによって、非周期音声素片を生成する。

以上の処理によって、例えば、５msecの音素片/ＳＨ1/が繰り返されて生成される２０msecの音声素片/ＳＨ1,ＳＨ1,ＳＨ1,ＳＨ1/が、符号反転指令/反転,反転,非反転,反転/により、/ＳＨ1',ＳＨ1',ＳＨ1,ＳＨ1'/に非周期化されることによって、周波数特性を保持したまま５msec(２００Ｈz)の周期性成分が抑制されるのである。

ここで、上記音素片/ＳＨ'/における「’」は、本例の場合には、音素片/ＳＨ/に対して符号反転処理が行われた後の音素片であることを示す記号である。また、「’」が複数回繰り返されて付加された音素片「/ＳＨ''/,/ＳＨ'''/,…」等は、繰り返して符号反転処理が行われたことを示しているのではなく、音素片/ＳＨ/に対して符号反転処理以外の特定の処理を行った結果得られる音素片を表している。すなわち、本実施の形態中における音素片/ＳＨ'/,/ＳＨ''/,/ＳＨ'''/は、夫々音素片/ＳＨ/に対して互いに異なる処理を行った結果得られる音素片を示している。

以上のごとく、上記音素片非周期化部３は、ランダムな符号反転指令を生成し、この生成された符号反転指令が「１」の場合には、入力音素片に対して符号反転処理を行うようにしている。したがって、生成された音声素片中に同一音素片の繰り返し部分９が発生するような場合でも、同一音素片の繰り返し部分９中の音素片がランダムに符号反転されるので、当該音声素片が非周期化されるのである。

［音素片時間波形の時間反転］
図６は、上記音素片生成部２によって生成された音素片に対して、音素片時間波形の時間反転波形を用いて非周期化処理を行う音素片非周期化部３の図５とは異なる内部構成を示すブロック図である。

図６において、時間反転指令生成部１５は、入力音素片に対して時間反転を行うか否かの指令を生成する。例えば、時間反転を行う場合には「１」を生成し、時間反転を行わない場合には「０」を生成して、入力音素片と共に次段の時間反転判断部１６に出力するのである。その場合に、時間反転指令生成部１５は、０か１の乱数を既知のアルゴリズムによって生成することによって、時間反転指令を生成することが可能である。あるいは、時間反転指令データ記憶部１８に、予めランダムに設定されたＮ個の時間反転指令データを記憶しておく。そして、指令を行う毎に、読み出し位置をインクリメントして時間反転指令データ記憶部１８にアクセスして時間反転指令データを読み出すことにより、ランダムな時間反転指令を生成することが可能である。このように、時間反転指令データ記憶部１８を用いて時間反転指令を生成する場合には、毎回乱数を生成する場合に比べて高速な反転指令生成が可能となる。

上記時間反転判断部１６は、上記時間反転指令生成部１５から送出されてくる時間反転指令に従って、時間反転指令が真(「１」)の場合には入力音素片に対して時間反転を行うと判断し、入力音素片を音素片時間反転部１７に出力する。これに対し、時間反転指令が偽(「０」)の場合には入力音素片に対して時間反転を行わないと判断し、入力音素片を直接音声素片生成部４に出力する。

さらに、上記時間反転判断部１６には、外部から、時間反転するか否かを直接指令する外部指令が入力されるようになっている。そして、上記外部指令が入力された場合には、上記外部指令を優先して、上記判断処理を実行するようになっている。一例として、外部の処理速度を制御する装置から、時間反転処理を行っていては音声素片の生成処理が間に合わないため、時間反転処理は行わない旨を指示する外部指令が時間反転判断部１６に入力される場合がある。その場合には、その外部指令に基づく判断を優先し、音声素片生成部４に対して入力音素片を送出して時間反転処理は行わないようにする。以上のように、時間反転判断部１６は、時間反転処理を行うか否かの総合的な判断を行うのである。

上記音素片時間反転部１７は、入力された音素片の時間を反転する処理を行い、時間が反転された音素片を音声素片生成部４に出力する。ここで、上記音素片の「時間反転」とは、該当する音素片の音素片データを、通常は時間軸に対して先頭から順にメモリに書き込むのを逆方向から上記メモリに書き込む処理である。そして、音声素片生成部４に出力する際には、上記メモリに書き込んだ順に音素片データを読み出すのである。尚、この時間反転処理は、上記メモリに書き込むだけの処理であるため、上記符号反転を行う場合に比べて高速処理が可能である。

上記音声素片生成部４は、上記時間反転判断部１６から送出された上記時間反転が行われない入力音素片、および、音素片時間反転部１７から送出された上記時間反転が行われた入力音素片を接続することによって、非周期音声素片を生成する。

以上の処理によって、例えば、５msecの音素片/ＳＨ1/が繰り返されて生成される２０msecの音声素片/ＳＨ1,ＳＨ1,ＳＨ1,ＳＨ1/が、時間反転指令/反転,反転,非反転,反転/により、/ＳＨ1',ＳＨ1',ＳＨ1,ＳＨ1'/に非周期化されることによって、周波数特性を保持したまま５msec(２００Ｈz)の周期性成分が抑制されるのである。

以上のごとく、上記音素片非周期化部３は、ランダムな時間反転指令を生成し、この生成された時間反転指令が「１」の場合には、入力音素片に対して時間軸において逆方向からメモリに音素片データを書き込む時間反転処理を行うようにしている。したがって、生成された音声素片中に同一音素片の繰り返し部分９が発生するような場合でも、同一音素片の繰り返し部分９中の音素片がランダムに時間反転されるので、当該音声素片が非周期化されるのである。

［音素片時間波形の符号反転および時間反転］
図７は、上記音素片生成部２によって生成された音素片に対して、音素片時間波形の時間・符号反転波形を用いて非周期化処理を行う音素片非周期化部３の図５および図６とは異なる内部構成を示すブロック図である。

図７において、時間・符号反転指令生成部２１は、入力音素片に対して時間反転および符号反転の夫々を行うか否かの指令を生成する。例えば、時間および符号を個別に反転する場合には時間反転および符号反転の夫々に「１」を生成し、反転しない場合には「０」を生成して、入力音素片と共に次段の時間・符号反転判断部２２に出力するのである。その場合、時間・符号反転指令生成部２１は、０か１の乱数を既知のアルゴリズムによって時間反転用および符号反転用に生成することによって、時間反転指令および符号反転指令の夫々を生成することが可能である。

あるいは、符号反転指令データ記憶部２４および時間反転指令データ記憶部２５に、予めランダムに設定されたＮ個の符号反転指令データおよびＮ個の時間反転指令データを記憶しておく。そして、指令を行う毎に、読み出し位置をインクリメントして符号反転指令データ記憶部２４および時間反転指令データ記憶部２５の夫々にアクセスして符号反転指令データおよび時間反転指令データの夫々を読み出すことにより、ランダムな時間反転指令および符号反転指令を生成することが可能である。このように、符号反転指令データ記憶部２４および時間反転指令データ記憶部２５を用いて上記時間反転指令および符号反転指令を生成する場合には、毎回乱数を生成する場合に比べて高速な反転指令生成が可能となる。

尚、上記時間・符号反転指令生成部２１からの時間反転指令および符号反転指令が連続して同じ組み合わせになった場合、すなわち同じ音素片が繰り返される場合には、時間反転指令および符号反転指令のうちの何れか一方の反転指令のみをインクリメントする等によって、同じ組み合わせが続かないように制御することによって、より非周期性の高い音声素片が生成可能な指令を出力することができる。

上記時間・符号反転判断部２２で、上記時間・符号反転指令生成部２１から送出されてくる時間反転指令および符号反転指令に従って、時間反転指令および符号反転指令のうちの少なくとも一方が真(「１」)の場合には入力音素片に対して時間反転および符号反転のうちの少なくとも一方を行うと判断し、入力音素片を音素片時間・符号反転部２３に出力する。これに対し、時間反転指令および符号反転指令の何れもが偽(「０」)の場合には入力音素片に対して時間反転および符号反転の何れも行わないと判断し、入力音素片を直接音声素片生成部４に出力する。

さらに、上記符号反転判断部１２には、外部から、時間反転および符号反転を行うか否かを直接指令する外部指令が入力されるようになっている。そして、上記外部指令が入力された場合には、上記外部指令を優先して、上記判断処理を実行するようになっている。一例として、外部の処理速度を制御する装置から、時間反転処理および符号反転処理を行っていては音声素片の生成処理が間に合わないため、時間反転処理および符号反転処理は行わない旨を指示する外部指令が時間・符号反転判断部２２に入力される場合がある。その場合には、その外部指令に基づく判断を優先し、音声素片生成部４に対して入力音素片を送出して時間反転処理および符号反転処理は行わないようにする。以上のように、時間・符号反転判断部２２は、時間反転処理および符号反転処理を行うか否かの総合的な判断を行うのである。

上記音素片時間・符号反転部２３は、入力された音素片の時間および符号を反転する処理を行い、時間および符号のうちの少なくとも一方が反転された音素片を音声素片生成部４に出力する。

上記音声素片生成部４は、上記時間・符号反転判断部２２から送出された時間反転および符号反転が行われない入力音素片、および、音素片時間・符号反転部２３から送出された時間反転および符号反転のうちの少なくとも一方が行われた入力音素片を接続することによって、非周期音声素片を生成する。

以上の処理によって、例えば、５msecの音素片/ＳＨ1/が繰り返されて生成される２０msecの音声素片/ＳＨ1,ＳＨ1,ＳＨ1,ＳＨ1/が、(時間,符号)反転指令/(時間非反転,符号非反転),(時間反転,符号非反転),(時間非反転,符号反転),(時間反転,符号反転)/によって、/ＳＨ1,ＳＨ1',ＳＨ1'',ＳＨ1'''/に非周期化されることにより、周波数特性を保持したまま５msec（２００Ｈz)の繰り返しの無い音声素片を生成することができ、非常に非周期性の高い音声素片を高速に生成できるのである。

尚、この場合、音素片/ＳＨ1'/は、音素片/ＳＨ/に対して時間反転処理のみを行った結果得られる音素片を表している。また、音素片/ＳＨ1''/は、音素片/ＳＨ/に対して符号反転処理のみを行った結果得られる音素片を表している。また、音素片/ＳＨ1'''/は、音素片/ＳＨ/に対して時間反転処理と符号反転処理との両方を行った結果得られる音素片を表している。

以上のごとく、上記音素片非周期化部３は、ランダムな時間反転指令と符号反転指令とを生成し、この生成された時間反転指令および符号反転指令のうちの何れか一方が「１」の場合には、入力音素片に対して時間反転処理および符号反転処理のうちの何れか一方を行うようにしている。したがって、生成された音声素片中に同一音素片の繰り返し部分９が発生するような場合でも、同一音素片の繰り返し部分９中の音素片がランダムに時間反転および符号反転のうちの少なくとも一方が行われるので、当該音声素片が非周期化されるのである。

［音素片時間波形の接続開始位置変更］
図８は、上記音素片生成部２によって生成された音素片に対して、音声素片生成時における音素片時間波形の接続開始個所をランダムに指定することによって、非周期化処理を行う音素非周期化処理部３の図５〜図７とは異なる内部構成を示すブロック図である。

図８において、接続個所指定部２６は、音声素片生成時において音素片を接続するに際して、接続の開始を対象音素片の何れの位置から行うのかの指定を生成する。例えば、音素片のデータ数がデータ０からデータＮのＮ個である場合には「０」〜「Ｎ」の数を生成して、入力音素片と共に次段の音声素片生成部４に出力するのである。その場合、接続個所指定部２６は、０〜Ｎの乱数を既知のアルゴリズムによって生成することによって適当な接続開始位置(データ番号)を生成し、接続個所指定を生成することが可能である。あるいは、接続個所指定データ記憶部２７に、予めランダムに設定されたＮ個の接続個所指定データ(データ番号)を記憶しておく。そして、指定を行う毎に、読み出し位置をインクリメントして接続個所指定データ記憶部２７にアクセスして接続個所指定データを読み出すことにより、ランダムな接続個所指定を生成することが可能である。このように、接続個所指定データ記憶部２７を用いて接続個所指定を生成する場合には、毎回乱数を生成する場合に比べて高速な接続個所指定生成が可能となる。

上記音声素片生成部４は、上記接続個所指定部２６から送出された接続個所指定に従って各音素片の接続個所を変更・設定し、この設定された接続箇所で各音素片を接続することによって、非周期音声素片を生成する。ここで、図９に示すように、接続個所指定部２６からの接続個所指定２８が「１５」であるとする。この場合、音声素片生成部４は、データ０からデータＮのＮ個の音素片データでなる対象音素片２９のうちの１５番目のデータ(●)から、既に形成されている音素片系列３０に対して接続が開始される。そして、Ｎ番目のデータ(△)まで接続された後は、引き続き０番目のデータ(○)から１４番目のデータ(▲)までを接続する。こうして、非周期性音声素片が生成されるのである。

以上の処理によって、例えば、５msecの音素片/ＳＨ1/が繰り返されて生成される２０msecの音声素片/ＳＨ1,ＳＨ1,ＳＨ1,ＳＨ1/が、接続個所指定/０,１３,１５,４３/によって、/ＳＨ1,ＳＨ1',ＳＨ1'',ＳＨ1'''/に非周期化されることによって、周波数特性を保持したまま５msec(２００Ｈz)の周期性成分が抑制されるのである。

以上のごとく、上記音素片非周期化部３は、ランダムな「０」〜「Ｎ」の数でなる接続個所指定「ｎ」を生成し、音声素片生成部４は、音素片系列３０に対して音素片２９を接続する際に、対象音素片２９のｎ番目のデータを接続開始位置として、対象音素片２９をデータｎ→データＮ＋データ０→データ(ｎ−１)の順に接続するようにしている。したがって、生成された音声素片中に同一音素片の繰り返し部分９が発生するような場合でも、同一音素片の繰り返し部分９中の音素片の接続開始位置がランダムに設定されるので、当該音声素片が非周期化されるのである。

尚、上記符号反転波形を用いて非周期化処理を行う音素片非周期化部３、時間反転波形を用いて非周期化処理を行う音素片非周期化部３、時間・符号反転波形を用いて非周期化処理を行う音素片非周期化部３においては、夫々反転部１３,１７,２３とは別に反転判断部１２,１６,２２を有して、反転処理を行わないと判断した場合には入力音素片を直接音声素片生成部４に出力するようにしている。

しかしながら、この発明はこれに限定されるものではなく、夫々の反転部１３,１７,２３に反転判断部１２,１６,２２の機能を持たせて、各反転部１３,１７,２３は、反転処理を行うと判断した場合には入力音素片に対して反転処理を行って音声素片生成部４に出力する一方、反転処理を行わないと判断した場合には入力音素片をそのまま音声素片生成部４に出力するように構成することも可能である。

また、上記音素片時間波形の接続開始個所をランダムに変更して非周期音声素片を生成する音声素片生成部４においては、音素片系列３０に対して入力音素片の接続順序を変えながら直接接続するようにしている。しかしながら、この発明はこれに限定されるものではなく、一端、入力音素片の配列順序を上記続開始個所を先頭とする配列順序に配列し直してバッファ等に保存し、上記バッファ等から読み出した順序で音素片系列３０に接続するようにしても差し支えない。

・第２実施の形態
上記第１実施の形態においては、１つのパラメータから１つ音素片データを選択し、選択された音素片に対して非周期化処理を施して周期性成分が抑制された音声素片を生成している。これに対して、本実施の形態においては、１つのパラメータから２つの音素片データを選択して音声素片の生成に用いることによって、少量のメモリ増加でより非周期性の高い音声素片を生成するのである。

図１０は、本実施の形態の音声素片生成装置におけるブロック図である。複数音素片データ選択部３１は、入力されたパラメータに関連した２つの音素片データを、音素片データデータベース３５から選択する。ここで、上記「パラメータ」は、上記第１実施の形態の場合と同じであるが、パラメータが指定する音素片は１つである必要はなく、２つ以上の音素片を指定することによって、複数の音素片データを選択することができる。その場合、入力された１つのパラメータが２つ以上の音素片を指定するポインタ等の場合には、複数音素片データ選択部３１は、上記第１実施の形態の音素片データ選択部１と同様の動作によって各入力パラメータに対応する２つの音素片データを選択する。

また、入力された１つのパラメータが１つの音素片に対応付けられている場合には、予め指定された評価基準によって音素片データデータベース３５中の各音素片データに対して評価を行い、評価スコアの高い順に複数の音素片データを選択することによって複数の音素片データを選択することができる。例えば、図１０では、入力パラメータに対して評価スコアの高い音素片データ１および音素片データ２が選択されて、音素片生成部３２に送出される。

上記音素片生成部３２は、上記複数音素片データ選択部３１によって選択された２つの音素片データ１および音素片データ２の夫々に、上記第１実施の形態の音素片生成部２と同様の処理を行って、２つの音素片１(時間波形)および音素片２(時間波形)を生成する。

利用音素片選択部３３は、生成された２つの音素片のうち何れの音素片を用いるかを選択する。例えば、１か２の乱数を既知のアルゴリズムによって生成し、「１」が生成された場合には音素片１を次段の音声素片生成部３４に送出する一方、「２」が生成された場合には音素片２を音声素片生成部３４に送出する。あるいは、利用音素片指令データ記憶部３６に、予めランダムに配列された利用音素片指令(音素片番号「１」および「２」)を記憶しておく。そして、利用音素片の選択を行う毎に、読み出し位置をインクリメントして利用音素片指令データ記憶部３６にアクセスして利用音素片指令(音素片番号)を読み出すことによって、ランダムな利用音素片の選択を行うことが可能である。このように、利用音素片指令データ記憶部３６を用いて利用音素片を選択する場合には、毎回乱数を生成する場合に比べて高速な利用音素片選択が可能となる。

上記音声素片生成部３４は、上記利用音素片選択部３３から送出された音素片を接続することによって、非周期音声素片を生成する。

本実施の形態においては、上記音素片生成部３２によって２つの音素片が生成されるため、生成された音素片を格納するメモリ容量は増えることになる。しかしながら、上述のようにして生成された非周期音声素片は、上記第１実施の形態のごとく、複数回繰り返される同じ音素片に対して非周期化処理を施す場合に比べて、より非周期性の高い音声素片を生成することができるのである。

尚、本実施の形態においては、上記音素片生成部３２によって２つの音素片を生成するようにしているが、メモリ容量に余裕がある場合には、３つ以上の音素片を生成するようにしても構わない。但し、上記評価スコアの高い順に音素片を選択する場合には、単純に生成する音素片数を増やすと評価スコアの低いものが含まれて音質の劣化が生ずるので、最適音素片数を見極める必要がある。

・第３実施の形態
上記第１実施の形態および第２実施の形態における各非周期化方法は、夫々単独で用いた場合には、高速に非周期化された音声素片を生成することができる。しかしながら、処理能力やメモリ容量に余裕がある場合には、各非周期化方法を、単独ではなく組み合わせて用いることが可能になる。

そこで、本実施の形態においては、上記第１実施の形態および第２実施の形態における各非周期化方法を組み合わせて用いるのである。すなわち、例えば、時間反転処理を行った音素片における接続個所を変更・設定する。複数の音素片を選択し、夫々の音素片に時間反転処理,符号反転処理あるいは接続個所の変更・設定処理等の各種処理を行うのである。こうすることによって、さらに非周期性の高い音声素片を生成することができるのである。

本実施の形態においては、非周期化処理に時間が掛かるが、各非周期化方法を組み合わせれば組み合わせるほど非周期性は高くなるので、スペックに応じて複数の非周期化方法を適当に組み合わせることによって、各スペックに応じた非周期化手段を設計することができる。

本実施の形態によれば、図４に示すような周期性の強い波形が、例えば上記第１実施の形態における「符号反転」と「時間反転」とを組み合わせることによって、図１１に示すように、明らかに２００Ｈz毎の周期性が軽減される。この結果、人間の聴覚で感知できるレベルの周期音が無くなり、高音質の音声素片を生成することができるのである。尚、非周期化方法の組み合わせは「符号反転」および「時間反転」に限らず、何れの組み合わせであっても図１１に示すような結果が得られることは言うまでもない。

・第４実施の形態
図１２は、本実施の形態の音声素片生成装置におけるブロック図である。本実施の形態においては、上記第１実施の形態の場合と基本的構成は同様であり、生成された非周期音声素片に対してその周期性を判定する周期性判定部４５を有する点が異なる。音素片データ選択部４１,音素片生成部４２,音素片非周期化部４３,音声素片生成部４４および音素片データデータベース４６は、上記第１実施の形態における音素片データ選択部１,音素片生成部２,音素片非周期化部３,音声素片生成部４および音素片データデータベース５と同様であり、詳細な説明は省略する。以下においては、周期性判定部４５の構成・動作について詳細に述べる。

上記周期性判定部４５は、上記音声素片生成部４４によって生成された非周期音声素片に対してその非周期性を判定する。そして、上記生成された音声素片に周期性が存在すると判断した場合には、上記生成された音声素片を音素片非周期化部４３に戻すのである。尚、周期性判定部４５による非周期性の判定は、予め作成された周期性を判断するための評価関数等を用いて行う。

音素片の繰り返しによって発生する周期性は、各音素片の長さにより決まる。例えば、音素片の長さが５msecの場合には、２００Ｈz毎に現れる。したがって、５msecの音素片を接続して音声素片を生成する場合の周期性は、２００Ｈzの倍数の成分(ゲイン)がどの程度強いかを調べることで判定することができる。図１３は、周期性を有する音声素片に対して周波数解析を行った結果である。各音素片の長さは５msecであるため２００Ｈz刻みで強い周期性が発生している。

この場合、上記周波数特性を示す波形における（２００×ｎ(正の整数)）Ｈzの前後１０Ｈz内に現れるピークの周波数と隣接する２つのピークの周波数との両中点間の範囲を「Ｌ」とし、その範囲Ｌ内における最大値をＬmaxとする一方、最小値をＬminとして、両値の差分(Ｌmax−Ｌmin)を算出する。この操作を全てのピークに対して行い、全差分値の平均値および総和等を評価値として利用し、予め定められた閾値と上記評価値との比較を行うことによって、周期性を有するか否かを判断することができる。

また、他の非周期性判定の方法としては、１回目の周波数解析を行って得られた図１３に示すような周波数解析結果の波形に対して再度周波数解析を行った後に、上述と同様の方法によって周波数２００Ｈz毎に現れるピークの周期性を評価する等、様々な方法がある。

上記周期性判定部４５は、上述したような各種の方法を利用して、音声素片生成部４４からの音声素片に対して周期性の判定を行い、その結果周期性が無いと判断した場合にはその音声素片(非周期音声素片)を出力する。一方、周期性があると判断した場合には、当該音声素片を音素片非周期化部４３に戻して再度非周期化処理を行わせ、生成された音声素片に対して再度周期性を判定する。以上の処理を周期性が無くなるまで繰り返すのである。

したがって、本実施の形態においては、処理時間は掛かるが、上記第２実施の形態および第３実施の形態の場合に比してメモリ容量の節約を図って、非周期性の音声素片を確実に生成することができるのである。

尚、上記各実施の形態においては、各部の動作を、無声子音/ＳＨ/を例に挙げて説明しているが、有性音の場合にも無声化が起こることは多々存在する。音声合成装置やテキスト音声合成装置や音声圧縮装置に関して、各装置が所持している有声無声の判定基準に従って非周期音声が必要な場合を決定し、この決定にしたがって上記各実施の形態における音声素片生成装置の使用・不使用を選択することによって、効率よく非周期音声素片を生成することが可能になる。したがって、無声子音/ＳＨ/を例に挙げて行った動作説明は、この発明の音声素片生成装置の動作範囲を指定するものではない。

この発明の音声素片生成装置におけるブロック図である。図１における音素片データ選択部の動作を説明するための図である。生成される音声素片の概念を示す図である。長さ５msecの音素片で生成された周期性を有する音声素片に対する周波数解析結果を示す図である。図１における音素片非周期化部の内部構成を示すブロック図である。上記音素片非周期化部における図５とは異なるブロック図である。上記音素片非周期化部における図５及び図６とは異なるブロック図である。上記音素片非周期化部における図５〜図７とは異なるブロック図である。音声素片を生成する際における音素片の接続個所変更の説明図である。図１とは異なる音声素片生成装置におけるブロック図である。非周期化された音声素片に対する周波数解析結果を示す図である。図１及び図１０とは異なる音声素片生成装置におけるブロック図である。図１２における周期性判定部による周期性判定の説明図である。

符号の説明

１,４１…音素片データ選択部、
２,３２,４２…音素片生成部、
３,４３…音素片非周期化部、
４,３４,４４…音声素片生成部、
５,３５,４６…音素片データデータベース、
６…パラメータ、
７…音素片データ、
８,３０…音素片系列、
９…同一音素片繰り返し部分、
１１…符号反転指令生成部、
１２…符号反転判断部、
１３…音素片符号反転部、
１４,２４…符号反転指令データ記憶部、
１５…時間反転指令生成部、
１６…時間反転判断部、
１７…音素片時間反転部、
１８,２５…時間反転指令データ記憶部、
２１…時間・符号反転指令生成部、
２２…時間・符号反転判断部、
２３…音素片時間・符号反転部、
２６…接続個所指定部、
２７…接続個所指定データ記憶部、
２８…接続個所指定、
２９…音素片、
３１…複数音素片データ選択部、
３３…利用音素片選択部、
３６…利用音素片指令データ記憶部。

Claims

複数の音素片データが登録されたデータベースと、
入力されたパラメータに基づいて、上記パラメータに適合する音素片データを上記データベースから選択する音素片データ選択部と、
上記選択された音素片データから音素片を生成する音素片生成部と、
上記音素片を接続して音声素片を生成する音声素片生成部と、
上記生成される音声素片が非周期性波形を呈するように、上記音素片生成部によって生成された音素片を変形して上記音声素片生成部に送出する音素片非周期化部と
を備えたことを特長とする音声素片生成装置。
請求項１に記載の音声素片生成装置において、
上記音素片非周期化部は、
符号反転指令を生成する符号反転指令生成部と、
上記符号反転指令生成部からの上記符号反転指令に従って、上記音素片生成部によって生成された音素片の符号を反転してなる符号反転音素片を生成する音素片符号反転部と
を含んでいることを特長とする音声素片生成装置。
請求項１に記載の音声素片生成装置において、
上記音素片非周期化部は、
時間反転指令を生成する時間反転指令生成部と、
上記時間反転指令生成部からの上記時間反転指令に従って、上記音素片生成部によって生成された音素片の時間軸に対する配列順序を反転してなる時間反転音素片を生成する音素片時間反転部と
を含んでいることを特長とする音声素片生成装置。
請求項１に記載の音声素片生成装置において、
上記音素片非周期化部は、
上記音素片生成部から受け取った音素片が先行の音素片と同一の音素片にならないように、上記受け取った音素片に対して符号の反転および時間軸に対する配列順序の反転のうちの少なくとも一方を行わせるための時間・符号反転指令を生成する時間・符号反転指令生成部と、
上記時間・符号反転指令生成部からの上記時間・符号反転指令に従って、上記受け取った音素片に対して符号の反転および時間軸に対する配列順序の反転のうちの少なくとも一方を行って、時間・符号反転音素片を生成する音素片時間・符号反転部と
を含んでいることを特長とする音声素片生成装置。
請求項２乃至請求項４の何れか一つに記載の音声素片生成装置において、
上記各反転指令生成部は、乱数に基づいて上記各反転指令を生成するようになっていることを特長とする音声素片生成装置。
請求項１に記載の音声素片生成装置において、
上記音素片非周期化部は、上記生成された音素片を接続する際における接続開始個所を指定する接続個所指定部を含み、
上記音声素片生成部は、上記指定された接続開始個所に従って、上記生成された音素片における上記接続開始個所を先頭として先行の音素片に接続するようになっている
ことを特長とする音声素片生成装置。
請求項６に記載の音声素片生成装置において、
上記音声素片生成部は、上記指定された接続開始個所に従って、上記生成された音素片の時間軸に対する配列順序を上記接続開始個所を先頭とする配列順序に変更して、上記生成された音素片を再生成する音素片再生成部を含んでいる
ことを特長とする音声素片生成装置。
請求項６あるいは請求項７に記載の音声素片生成装置において、
上記接続箇所指定部は、乱数に基づいて上記接続開始箇所を指定するようになっていることを特長とする音声素片生成装置。
請求項１に記載の音声素片生成装置において、
上記音声素片生成部によって生成された音声素片が周期性を有しているか否かを判定すると共に、周期性を有している場合には当該音声素片を上記音素片非周期化部に戻して当該音声素片を構成する音素片の変形を行わせる一方、周期性を有していない場合には当該音声素片を出力する周期性判定部を備えたことを特長とする音声素片生成装置。
複数の音素片データが登録されたデータベースと、
入力されたパラメータに基づいて、上記１つのパラメータに適合する複数の音素片データを上記データベースから選択する複数音素片データ選択部と、
上記選択された複数の音素片データから音素片を生成する音素片生成部と、
上記音素片生成部によって生成された複数の音素片のうち、音声素片の生成に利用される利用音素片を選択する利用音素片選択部と、
上記生成された複数の音素片のうち、上記利用音素片選択部によって選択された音素片を接続して上記音声素片を生成する音声素片生成部と
を備えたことを特長とする音声素片生成装置。
請求項１０に記載の音声素片生成装置において、
上記利用音素片選択部は、乱数に基づいて上記利用音素片を選択するようになっていることを特長とする音声素片生成装置。
入力されたパラメータに基づいて、上記パラメータに適合する音素片データをデータベースから選択する音素片データ選択ステップと、
上記選択された音素片データから音素片を生成する音素片生成ステップと、
上記音素片を接続してなる音声素片が非周期性波形を呈するように、上記生成された音素片を変形する音素片非周期化ステップと、
上記変形された音素片を接続して音声素片を生成する音声素片生成ステップと、
を備えたことを特長とする音声素片生成方法。
コンピュータを、
請求項１における音素片データ選択部,音素片生成部,音素片非周期化部および音声素片生成部
として機能させることを特徴とする音声素片生成プログラム。
請求項１３に記載の音声素片生成プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。