JP2000214873A - 音声ピッチマ―ク付与方法及び装置 - Google Patents
音声ピッチマ―ク付与方法及び装置Info
- Publication number
- JP2000214873A JP2000214873A JP1828999A JP1828999A JP2000214873A JP 2000214873 A JP2000214873 A JP 2000214873A JP 1828999 A JP1828999 A JP 1828999A JP 1828999 A JP1828999 A JP 1828999A JP 2000214873 A JP2000214873 A JP 2000214873A
- Authority
- JP
- Japan
- Prior art keywords
- pitch mark
- pitch
- crossing point
- zero
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
(57)【要約】
【課題】 合成音声のピッチ制御や発声速度の制御にお
ける品質劣化を防止する。 【解決手段】 仮ピッチマーク抽出部201は与えられ
たローカルピーク位置と入力音声のディジタルデータと
に基づき、各ローカルピーク位置の時系列的に直前の負
から正へ移行するときの零交叉点を、仮のピッチマーク
位置として求める。それを、各ローカルピーク位置及び
ディジタルデータと共にピッチマーク探索区間設定部2
02に出力する。設定部202は各ローカルピーク位置
から仮のピッチマーク位置への移動量を各仮のピッチマ
ーク位置に対して計算する。ピッチマーク探索部203
によるピッチマーク位置探索区間を決定する。探索区間
とディジタルデータとを探索部203に出力する。探索
部203はピッチマーク位置、即ち、探索区間の中心位
置の最近傍にある負から正へ移行するときの零交叉位置
を探索する。零交叉位置が無いとき、中心位置をピッチ
マーク位置にする。探索処理を全部のローカルピーク位
置について実行する。ピッチマーク位置をピッチマーク
位置検証部204に出力する。
ける品質劣化を防止する。 【解決手段】 仮ピッチマーク抽出部201は与えられ
たローカルピーク位置と入力音声のディジタルデータと
に基づき、各ローカルピーク位置の時系列的に直前の負
から正へ移行するときの零交叉点を、仮のピッチマーク
位置として求める。それを、各ローカルピーク位置及び
ディジタルデータと共にピッチマーク探索区間設定部2
02に出力する。設定部202は各ローカルピーク位置
から仮のピッチマーク位置への移動量を各仮のピッチマ
ーク位置に対して計算する。ピッチマーク探索部203
によるピッチマーク位置探索区間を決定する。探索区間
とディジタルデータとを探索部203に出力する。探索
部203はピッチマーク位置、即ち、探索区間の中心位
置の最近傍にある負から正へ移行するときの零交叉位置
を探索する。零交叉位置が無いとき、中心位置をピッチ
マーク位置にする。探索処理を全部のローカルピーク位
置について実行する。ピッチマーク位置をピッチマーク
位置検証部204に出力する。
Description
【0001】
【発明の属する技術分野】本発明は、合成音声の聞こえ
具合に関わる物理量を制御するためのピッチマークを、
入力音声波形に自動的に付与する方法又は装置の改良に
関するものである。
具合に関わる物理量を制御するためのピッチマークを、
入力音声波形に自動的に付与する方法又は装置の改良に
関するものである。
【0002】
【従来の技術】従来、音声合成の技術分野では、音声波
形のパワーを用いて1ピッチ区間を検出し、その1ピッ
チ区間内の極大値(ローカルピーク)をピッチマーク位
置とする。ピッチマークとは、音声波形の有声音区間に
おける1周期毎の位置を表現する情報のことである。ピ
ッチマーク位置決定の手法の詳細は、小山、村上による
「音声波形のローカルピーク抽出とピッチ制御への応
用」(平成3年10月日本音響学会講演論文集1、2―
6―1)に記述されている。
形のパワーを用いて1ピッチ区間を検出し、その1ピッ
チ区間内の極大値(ローカルピーク)をピッチマーク位
置とする。ピッチマークとは、音声波形の有声音区間に
おける1周期毎の位置を表現する情報のことである。ピ
ッチマーク位置決定の手法の詳細は、小山、村上による
「音声波形のローカルピーク抽出とピッチ制御への応
用」(平成3年10月日本音響学会講演論文集1、2―
6―1)に記述されている。
【0003】
【発明が解決しようとする課題】ところで、上述したピ
ッチマークは、音声合成技術により生成される音声(合
成音声)の声の高さや発声速度を制御する際に用いられ
るものであるため、ピッチマークの付与を可能な限り高
精度で行う必要がある。しかし、上記手法においては、
入力音声波形の各ピッチ区間内の極大値、つまり、ロー
カルピークの位置をピッチマーク位置としていたため、
同一の音韻内においてさえも、入力音声波形に含まれる
高調波成分の微妙な相違により図1に示すようにピッチ
周期(つまり、ピッチマーク位置)に微妙な揺れを生じ
ていた。そのため、この微妙な揺れが、ピッチマーク付
与の精度を低下させることになり、その精度低下が、合
成音声のピッチ制御や発声速度の制御における品質劣化
の原因になっていた。
ッチマークは、音声合成技術により生成される音声(合
成音声)の声の高さや発声速度を制御する際に用いられ
るものであるため、ピッチマークの付与を可能な限り高
精度で行う必要がある。しかし、上記手法においては、
入力音声波形の各ピッチ区間内の極大値、つまり、ロー
カルピークの位置をピッチマーク位置としていたため、
同一の音韻内においてさえも、入力音声波形に含まれる
高調波成分の微妙な相違により図1に示すようにピッチ
周期(つまり、ピッチマーク位置)に微妙な揺れを生じ
ていた。そのため、この微妙な揺れが、ピッチマーク付
与の精度を低下させることになり、その精度低下が、合
成音声のピッチ制御や発声速度の制御における品質劣化
の原因になっていた。
【0004】従って本発明の目的は、音声波形へのピッ
チマーク付与の精度を高めることにより、合成音声のピ
ッチ制御や発声速度の制御における品質劣化を防止する
ようにすることにある。
チマーク付与の精度を高めることにより、合成音声のピ
ッチ制御や発声速度の制御における品質劣化を防止する
ようにすることにある。
【0005】
【課題を解決するための手段】本発明の第1の側面に従
う音声ピッチマーク付与装置は、合成音声の聞こえ具合
に関わる物理量を制御するためのピッチマークを、入力
音声波形に自動的に付与するもので、入力音声波形にお
ける各々の極大値近傍の零交叉点又はその近傍の零点
に、ピッチマーク位置を設定する手段を備える。
う音声ピッチマーク付与装置は、合成音声の聞こえ具合
に関わる物理量を制御するためのピッチマークを、入力
音声波形に自動的に付与するもので、入力音声波形にお
ける各々の極大値近傍の零交叉点又はその近傍の零点
に、ピッチマーク位置を設定する手段を備える。
【0006】上記構成によれば、入力音声波形における
各々の極大値近傍の零交叉点又はその近傍の零点に、ピ
ッチマーク位置を設定することとしたので、ピッチマー
ク位置を入力音声波形における各ピッチ区間の極大値
(ローカルピーク位置)に設定した場合よりも、ピッチ
周期の微妙な揺れの影響を受け難い。よって、音声波形
へのピッチマーク付与の精度を高めることができる。
各々の極大値近傍の零交叉点又はその近傍の零点に、ピ
ッチマーク位置を設定することとしたので、ピッチマー
ク位置を入力音声波形における各ピッチ区間の極大値
(ローカルピーク位置)に設定した場合よりも、ピッチ
周期の微妙な揺れの影響を受け難い。よって、音声波形
へのピッチマーク付与の精度を高めることができる。
【0007】本発明の第1の側面に係る好適な実施形態
では、上述した零交叉点が、時系列的に各極大値よりも
前にある、入力音声波形が負から正へ移行するときの零
交叉点になっている。
では、上述した零交叉点が、時系列的に各極大値よりも
前にある、入力音声波形が負から正へ移行するときの零
交叉点になっている。
【0008】本発明の第2の側面に従う音声ピッチマー
ク付与装置は、合成音声の聞こえ具合に関わる物理量を
制御するためのピッチマークを、入力音声波形に自動的
に付与する装置において、入力音声波形における各々の
極大値近傍の零交叉点を、仮のピッチマーク位置に選定
する手段と、各極大値からそれに対応する仮のピッチマ
ーク位置までの移動量に基づき、入力音声波形における
実のピッチマーク位置を探索するための区間を決定する
手段と、その区間中に、入力音声波形の零交叉点がある
ときはその零交叉点を、零交叉点がないときは上記区間
の中心位置を、夫々実のピッチマーク位置に選定する手
段とを備える。
ク付与装置は、合成音声の聞こえ具合に関わる物理量を
制御するためのピッチマークを、入力音声波形に自動的
に付与する装置において、入力音声波形における各々の
極大値近傍の零交叉点を、仮のピッチマーク位置に選定
する手段と、各極大値からそれに対応する仮のピッチマ
ーク位置までの移動量に基づき、入力音声波形における
実のピッチマーク位置を探索するための区間を決定する
手段と、その区間中に、入力音声波形の零交叉点がある
ときはその零交叉点を、零交叉点がないときは上記区間
の中心位置を、夫々実のピッチマーク位置に選定する手
段とを備える。
【0009】本発明の第2の側面に係る好適な実施形態
では、上述した零交叉点が、上記区間の中心位置の最近
傍にあり且つ時系列的に各極大値よりも前にある、入力
音声波形が負から正へ移行するときの零交叉点になって
いる。
では、上述した零交叉点が、上記区間の中心位置の最近
傍にあり且つ時系列的に各極大値よりも前にある、入力
音声波形が負から正へ移行するときの零交叉点になって
いる。
【0010】また、上記実施形態では、隣接する実のピ
ッチマーク位置同士の間隔が、所定値以下のときに、時
系列的に前の実のピッチマーク位置を、各実のピッチマ
ーク位置間の中点に選定すると共に、時系列的に後の実
のピッチマーク位置を削除する手段を更に備える。
ッチマーク位置同士の間隔が、所定値以下のときに、時
系列的に前の実のピッチマーク位置を、各実のピッチマ
ーク位置間の中点に選定すると共に、時系列的に後の実
のピッチマーク位置を削除する手段を更に備える。
【0011】本発明の第3の側面に従う音声ピッチマー
ク付与方法は、合成音声の聞こえ具合に関わる物理量を
制御するためのピッチマークを、入力音声波形に自動的
に付与するもので、入力音声波形における各々の極大値
近傍の零交叉点又はその近傍の零点に、ピッチマーク位
置を設定する過程を備える。
ク付与方法は、合成音声の聞こえ具合に関わる物理量を
制御するためのピッチマークを、入力音声波形に自動的
に付与するもので、入力音声波形における各々の極大値
近傍の零交叉点又はその近傍の零点に、ピッチマーク位
置を設定する過程を備える。
【0012】本発明の第3の側面に係る好適な実施形態
では、上述した零交叉点が、時系列的に各極大値よりも
前にある、入力音声波形が負から正へ移行するときの零
交叉点になっている。
では、上述した零交叉点が、時系列的に各極大値よりも
前にある、入力音声波形が負から正へ移行するときの零
交叉点になっている。
【0013】本発明の第4の側面に従う音声ピッチマー
ク付与方法は、合成音声の聞こえ具合に関わる物理量を
制御するためのピッチマークを、入力音声波形に自動的
に付与するもので、入力音声波形における各々の極大値
近傍の零交叉点を、仮のピッチマーク位置に選定する第
1の過程と、各極大値からそれに対応する仮のピッチマ
ーク位置までの移動量に基づき、入力音声波形における
実のピッチマーク位置を探索するための区間を決定する
第2の過程と、その区間中に、入力音声波形の零交叉点
があるときはその零交叉点を、零交叉点がないときは上
記区間の中心位置を、夫々実のピッチマーク位置に選定
する第3の過程とを備える。
ク付与方法は、合成音声の聞こえ具合に関わる物理量を
制御するためのピッチマークを、入力音声波形に自動的
に付与するもので、入力音声波形における各々の極大値
近傍の零交叉点を、仮のピッチマーク位置に選定する第
1の過程と、各極大値からそれに対応する仮のピッチマ
ーク位置までの移動量に基づき、入力音声波形における
実のピッチマーク位置を探索するための区間を決定する
第2の過程と、その区間中に、入力音声波形の零交叉点
があるときはその零交叉点を、零交叉点がないときは上
記区間の中心位置を、夫々実のピッチマーク位置に選定
する第3の過程とを備える。
【0014】本発明の第4の側面に係る好適な実施形態
では、上述した零交叉点が、上記区間の中心位置の最近
傍にあり且つ時系列的に各極大値よりも前にある、入力
音声波形が負から正へ移行するときの零交叉点になって
いる。
では、上述した零交叉点が、上記区間の中心位置の最近
傍にあり且つ時系列的に各極大値よりも前にある、入力
音声波形が負から正へ移行するときの零交叉点になって
いる。
【0015】
【発明の実施の形態】以下、本発明の実施の形態を、図
面により詳細に説明する。
面により詳細に説明する。
【0016】図2は、本発明の一実施形態に係る音声ピ
ッチマーク付与装置が備える処理装置の構成を示す機能
ブロック図である。
ッチマーク付与装置が備える処理装置の構成を示す機能
ブロック図である。
【0017】上記装置は、音声入力部(入力部)や、入
力音声からピッチマーク位置データを抽出するための、
CPUやメモリ等から構成される処理装置や、抽出した
ピッチマーク位置データを格納するための外部記憶装置
や、抽出したピッチマーク位置データの出力部を備え
る。
力音声からピッチマーク位置データを抽出するための、
CPUやメモリ等から構成される処理装置や、抽出した
ピッチマーク位置データを格納するための外部記憶装置
や、抽出したピッチマーク位置データの出力部を備え
る。
【0018】処理装置が備える諸機能は、図2に示すよ
うに、入力部101に接続する前処理部102と、ロー
カルピーク位置抽出部(抽出部)103と、出力部10
5に接続するピッチマーク付与部(付与部)104とに
よって表わされる。
うに、入力部101に接続する前処理部102と、ロー
カルピーク位置抽出部(抽出部)103と、出力部10
5に接続するピッチマーク付与部(付与部)104とに
よって表わされる。
【0019】前処理部102は、低域通過フィルタと、
アナログ/ディジタル変換器(A/D変換器)(いずれ
も図示しない)とを備える。前処理部102は、入力部
101に入力された音声信号を読み込み、その音声信号
を低域通過フィルタを通じてA/D変換器でディジタル
データに変換した後、そのディジタルデータを抽出部1
03に出力する。
アナログ/ディジタル変換器(A/D変換器)(いずれ
も図示しない)とを備える。前処理部102は、入力部
101に入力された音声信号を読み込み、その音声信号
を低域通過フィルタを通じてA/D変換器でディジタル
データに変換した後、そのディジタルデータを抽出部1
03に出力する。
【0020】抽出部103は、前処理部102から出力
される上記ディジタルデータに基づき、上記入力音声の
波形のローカルピーク位置を抽出する。そして、そのロ
ーカルピーク位置と上記ディジタルデータとを、付与部
104に出力する。
される上記ディジタルデータに基づき、上記入力音声の
波形のローカルピーク位置を抽出する。そして、そのロ
ーカルピーク位置と上記ディジタルデータとを、付与部
104に出力する。
【0021】付与部104は、抽出部103より出力さ
れる上記ローカルピーク位置から、その近傍の零交叉位
置を抽出し、その零交叉位置に基づいて、ピッチマーク
位置を抽出し、そのピッチマーク位置と上記ディジタル
データとを、出力部105を通じて出力する。
れる上記ローカルピーク位置から、その近傍の零交叉位
置を抽出し、その零交叉位置に基づいて、ピッチマーク
位置を抽出し、そのピッチマーク位置と上記ディジタル
データとを、出力部105を通じて出力する。
【0022】図3は、付与部104の構成を示す機能ブ
ロック図である。
ロック図である。
【0023】付与部104が備える諸機能は、図3に示
すように、仮ピッチマーク抽出部(抽出部)201と、
ピッチマーク探索区間設定部(設定部)202と、ピッ
チマーク探索部(探索部)203と、ピッチマーク位置
検証部(検証部)204とによって表わされる。
すように、仮ピッチマーク抽出部(抽出部)201と、
ピッチマーク探索区間設定部(設定部)202と、ピッ
チマーク探索部(探索部)203と、ピッチマーク位置
検証部(検証部)204とによって表わされる。
【0024】抽出部201は、抽出部103からのロー
カルピーク位置と上記ディジタルデータとに基づき、各
々のローカルピーク位置の時系列的に直前の零交叉点で
あって、負から正へ移行するときの零交叉点を、仮のピ
ッチマーク位置として求める。その仮のピッチマーク位
置は、上記各々のローカルピーク位置及び上記ディジタ
ルデータと共に抽出部201から設定部202に出力さ
れる。
カルピーク位置と上記ディジタルデータとに基づき、各
々のローカルピーク位置の時系列的に直前の零交叉点で
あって、負から正へ移行するときの零交叉点を、仮のピ
ッチマーク位置として求める。その仮のピッチマーク位
置は、上記各々のローカルピーク位置及び上記ディジタ
ルデータと共に抽出部201から設定部202に出力さ
れる。
【0025】設定部202は、抽出部201より与えら
れる仮のピッチマーク位置及び各々のローカルピーク位
置を読み込む。設定部202は、まず、各々のローカル
ピーク位置から仮のピッチマーク位置への移動量を、各
々の仮のピッチマーク位置に対して計算する。
れる仮のピッチマーク位置及び各々のローカルピーク位
置を読み込む。設定部202は、まず、各々のローカル
ピーク位置から仮のピッチマーク位置への移動量を、各
々の仮のピッチマーク位置に対して計算する。
【0026】ここで、時系列的に先頭からn番目のロー
カルピーク位置をP(n)とし、同じく時系列的に先頭
からn番目の仮のピッチマーク位置をm(n)とすれ
ば、P(n)及びm(n)の値は、夫々ディジタル化さ
れた音声データのサンプリング位置を表わすことにな
る。次に、P(n)(つまり、n番目のローカルピーク
位置)からm(n)(つまり、n番目の仮のピッチマー
ク位置)への移動量をE(n)とすれば、E(n)は下
記の(1)式で定義される E(n)=P(n)
−m(n)…………(1)。
カルピーク位置をP(n)とし、同じく時系列的に先頭
からn番目の仮のピッチマーク位置をm(n)とすれ
ば、P(n)及びm(n)の値は、夫々ディジタル化さ
れた音声データのサンプリング位置を表わすことにな
る。次に、P(n)(つまり、n番目のローカルピーク
位置)からm(n)(つまり、n番目の仮のピッチマー
ク位置)への移動量をE(n)とすれば、E(n)は下
記の(1)式で定義される E(n)=P(n)
−m(n)…………(1)。
【0027】(1)式で求められる移動量E(n)を用
いて、探索部203によるピッチマーク位置探索区間
(探索区間)を決定する。つまり、探索区間はP
(n)、即ち、先頭からn番目のローカルピーク位置に
おいて、下記の(2)式で定義される探索区間の中心位
置C(n)を求めることによって決定される。
いて、探索部203によるピッチマーク位置探索区間
(探索区間)を決定する。つまり、探索区間はP
(n)、即ち、先頭からn番目のローカルピーク位置に
おいて、下記の(2)式で定義される探索区間の中心位
置C(n)を求めることによって決定される。
【0028】
【数1】 (2)式において、Nは予め与えられている定数であ
る。(2)式で求められるC(n)を中心とする、予め
設定された定数Sの区間を、探索区間にする。上記区間
を、全部のローカルピーク位置について計算する。この
ようにして決定した探索区間と、上記ディジタルデータ
とが、設定部202から探索部203に出力される。
る。(2)式で求められるC(n)を中心とする、予め
設定された定数Sの区間を、探索区間にする。上記区間
を、全部のローカルピーク位置について計算する。この
ようにして決定した探索区間と、上記ディジタルデータ
とが、設定部202から探索部203に出力される。
【0029】探索部203は、設定部202で決定され
た探索区間内で、ピッチマーク位置を探索する。ピッチ
マーク位置は、上記探索区間の中心位置の最近傍にある
負から正へ移行するときの零交叉位置とする。探索区間
内に零交叉位置が無い場合には、その探索区間の中心位
置をピッチマーク位置にする。この探索処理を、全部の
ローカルピーク位置について実行する。このようにして
得られたピッチマーク位置は、探索部203から検証部
204に出力される。
た探索区間内で、ピッチマーク位置を探索する。ピッチ
マーク位置は、上記探索区間の中心位置の最近傍にある
負から正へ移行するときの零交叉位置とする。探索区間
内に零交叉位置が無い場合には、その探索区間の中心位
置をピッチマーク位置にする。この探索処理を、全部の
ローカルピーク位置について実行する。このようにして
得られたピッチマーク位置は、探索部203から検証部
204に出力される。
【0030】検証部204は、探索部203で抽出され
た各々のピッチマーク位置に対し、予め設定された定数
Tよりも近接したピッチマークを排除する処理を実行す
る。ここで、探索部203が決めたピッチマーク位置を
M(n)とすれば、M(n+1)−M(n)の値が定数
Tよりも小さい場合には、上記n番目のピッチマーク位
置を、M(n)から、n番目のピッチマーク位置と(n
+1)番目のピッチマーク位置との間の中心である{M
(n+1)−M(n)}/2に変更する。そして、上記
(n+1)番目のピッチマーク位置であるM(n+1)
を削除する。上記のようにして削除されたピッチマーク
位置がある場合には、削除対象になったピッチマーク位
置よりも時系列的に後のピッチマーク位置を前に詰める
処理を行う。時系列的に先頭のピッチマーク位置から時
系列的に最後のピッチマーク位置まで検証を実行し、こ
の検証によって得られた結果を、最終的なピッチマーク
位置にする。上記検証の結果は、検証部204から出力
部105を通じて出力される。
た各々のピッチマーク位置に対し、予め設定された定数
Tよりも近接したピッチマークを排除する処理を実行す
る。ここで、探索部203が決めたピッチマーク位置を
M(n)とすれば、M(n+1)−M(n)の値が定数
Tよりも小さい場合には、上記n番目のピッチマーク位
置を、M(n)から、n番目のピッチマーク位置と(n
+1)番目のピッチマーク位置との間の中心である{M
(n+1)−M(n)}/2に変更する。そして、上記
(n+1)番目のピッチマーク位置であるM(n+1)
を削除する。上記のようにして削除されたピッチマーク
位置がある場合には、削除対象になったピッチマーク位
置よりも時系列的に後のピッチマーク位置を前に詰める
処理を行う。時系列的に先頭のピッチマーク位置から時
系列的に最後のピッチマーク位置まで検証を実行し、こ
の検証によって得られた結果を、最終的なピッチマーク
位置にする。上記検証の結果は、検証部204から出力
部105を通じて出力される。
【0031】図4は、抽出部201において求められる
仮のピッチマーク位置の一例を示す音声波形図である。
仮のピッチマーク位置の一例を示す音声波形図である。
【0032】抽出部201では、図4に示すように、自
動的に求められたピッチマーク位置301に対し、その
直前の零交叉位置(負から正へ移行するときの零交叉位
置)302を、仮のピッチマーク位置にする。この仮の
ピッチマーク位置302が、抽出部201から設定部2
02に出力される。
動的に求められたピッチマーク位置301に対し、その
直前の零交叉位置(負から正へ移行するときの零交叉位
置)302を、仮のピッチマーク位置にする。この仮の
ピッチマーク位置302が、抽出部201から設定部2
02に出力される。
【0033】図5は、時系列的に先頭からn番目のロー
カルピーク位置P(n)及び仮のピッチマーク位置m
(n)を示す音声波形図である。
カルピーク位置P(n)及び仮のピッチマーク位置m
(n)を示す音声波形図である。
【0034】図5を参照すれば、上記P(n)及びm
(n)の値が、上述したように夫々ディジタル化された
音声データのサンプリング位置を表わすことが明らかで
ある。また、設定部202によって計算されるP(n)
からm(n)への移動量E(n)についても、上記
(1)式で表わされることも明らかである。
(n)の値が、上述したように夫々ディジタル化された
音声データのサンプリング位置を表わすことが明らかで
ある。また、設定部202によって計算されるP(n)
からm(n)への移動量E(n)についても、上記
(1)式で表わされることも明らかである。
【0035】図6は、設定部202で決定された、探索
部203による探索区間を示す音声波形図である。
部203による探索区間を示す音声波形図である。
【0036】図6において、探索区間(つまり、ピッチ
マーク位置探索区間)501は、上記(1)式で求まる
移動量E(n)を用いて決定される。
マーク位置探索区間)501は、上記(1)式で求まる
移動量E(n)を用いて決定される。
【0037】何故なら、探索区間501は、注目するn
番目のローカルピーク位置において上記(2)式により
定義される探索区間の中心位置C(n)を求めることに
よって決定されるが、(2)式の右辺を構成する分子
は、移動量E(i)のi=n−Nからi=n+Nまでの
加算値として表わされているからである。即ち、上記C
(n)を中心とする幅S(既述のように、Sは予め決め
られた定数である)を有する区間が、探索区間501に
なる。
番目のローカルピーク位置において上記(2)式により
定義される探索区間の中心位置C(n)を求めることに
よって決定されるが、(2)式の右辺を構成する分子
は、移動量E(i)のi=n−Nからi=n+Nまでの
加算値として表わされているからである。即ち、上記C
(n)を中心とする幅S(既述のように、Sは予め決め
られた定数である)を有する区間が、探索区間501に
なる。
【0038】図7は、抽出した各々のピッチマーク位置
に対し、予め設定した定数Tよりも近接したピッチマー
クを排除する処理を実行する前の状態を示す音声波形
図、図8は、上記定数Tよりも近接したピッチマークを
排除する処理を実行した後の状態を示す音声波形図であ
る。
に対し、予め設定した定数Tよりも近接したピッチマー
クを排除する処理を実行する前の状態を示す音声波形
図、図8は、上記定数Tよりも近接したピッチマークを
排除する処理を実行した後の状態を示す音声波形図であ
る。
【0039】図7において、探索部203が抽出した時
系列的に先頭からi番目のピッチマーク位置をM(i)
とすれば、時系列的に先頭から(i+1)番目のピッチ
マーク位置はM(i+1)で表わされる。ここで、検証
部204において、上述したようにM(i+1)とM
(i)との間の距離M(i+1)−M(i)と上記定数
Tとを比較し、M(i+1)−M(i)<Tか否かをチ
ェックする。
系列的に先頭からi番目のピッチマーク位置をM(i)
とすれば、時系列的に先頭から(i+1)番目のピッチ
マーク位置はM(i+1)で表わされる。ここで、検証
部204において、上述したようにM(i+1)とM
(i)との間の距離M(i+1)−M(i)と上記定数
Tとを比較し、M(i+1)−M(i)<Tか否かをチ
ェックする。
【0040】そのチェックの結果、M(i+1)−M
(i)<Tであれば、図8に示すように、上記i番目の
ピッチマーク位置を、M(i)から{M(i+1)−M
(i)}/2に変更する処理が行われると共に、上記
(i+1)番目のピッチマーク位置であるM(i+1)
を削除する処理も行われる。
(i)<Tであれば、図8に示すように、上記i番目の
ピッチマーク位置を、M(i)から{M(i+1)−M
(i)}/2に変更する処理が行われると共に、上記
(i+1)番目のピッチマーク位置であるM(i+1)
を削除する処理も行われる。
【0041】上述した図4乃至図8での処理が実行され
ることによって、図9に示すようなピッチマークの自動
抽出結果、つまり、入力音声波形の負から正へ移行する
ときの零交叉位置をピッチマーク位置にすることができ
る。
ることによって、図9に示すようなピッチマークの自動
抽出結果、つまり、入力音声波形の負から正へ移行する
ときの零交叉位置をピッチマーク位置にすることができ
る。
【0042】以上説明したように、本発明の一実施形態
によれば、入力音声波形の負から正へ移行するときの零
交叉位置をピッチマーク位置にすることとしたので、ピ
ッチマーク位置の抽出における揺れを吸収することがで
きる。そのため、従来技術に係るローカルピーク位置を
ピッチマーク位置にする場合に比較して、安定したピッ
チマーク位置を自動的に付与することが可能になった。
によれば、入力音声波形の負から正へ移行するときの零
交叉位置をピッチマーク位置にすることとしたので、ピ
ッチマーク位置の抽出における揺れを吸収することがで
きる。そのため、従来技術に係るローカルピーク位置を
ピッチマーク位置にする場合に比較して、安定したピッ
チマーク位置を自動的に付与することが可能になった。
【0043】なお、上述した内容は、あくまで本発明の
一実施形態に関するものであって、本発明が上記内容の
みに限定されることを意味するものでないのは勿論であ
る。
一実施形態に関するものであって、本発明が上記内容の
みに限定されることを意味するものでないのは勿論であ
る。
【0044】
【発明の効果】以上説明したように、本発明によれば、
音声波形へのピッチマーク付与の精度を高めることによ
り、合成音声のピッチ制御や発声速度の制御における品
質劣化を防止するようにすることができる。
音声波形へのピッチマーク付与の精度を高めることによ
り、合成音声のピッチ制御や発声速度の制御における品
質劣化を防止するようにすることができる。
【図1】従来技術に係るピッチマークの自動抽出結果を
示す音声波形図。
示す音声波形図。
【図2】本発明の一実施形態に係る音声ピッチマーク付
与装置が備える処理装置の構成を示す機能ブロック図。
与装置が備える処理装置の構成を示す機能ブロック図。
【図3】ピッチマーク付与部の構成を示す機能ブロック
図。
図。
【図4】仮ピッチマーク抽出部において求められる仮の
ピッチマーク位置の一例を示す音声波形図。
ピッチマーク位置の一例を示す音声波形図。
【図5】時系列的に先頭からn番目のローカルピーク位
置及び仮のピッチマーク位置を示す音声波形図。
置及び仮のピッチマーク位置を示す音声波形図。
【図6】ピッチマーク探索区間設定部により設定される
ピッチマーク位置探索区間を示す音声波形図。
ピッチマーク位置探索区間を示す音声波形図。
【図7】抽出した各々のピッチマーク位置に対し、予め
設定した定数よりも近接したピッチマークを排除する処
理を実行する前の状態を示す音声波形図。
設定した定数よりも近接したピッチマークを排除する処
理を実行する前の状態を示す音声波形図。
【図8】抽出した各々のピッチマーク位置に対し、予め
設定した定数よりも近接したピッチマークを排除する処
理を実行した後の状態を示す音声波形図。
設定した定数よりも近接したピッチマークを排除する処
理を実行した後の状態を示す音声波形図。
【図9】本発明の一実施形態に係るピッチマークの自動
抽出結果を示す音声波形図。
抽出結果を示す音声波形図。
101 音声入力部(入力部) 102 前処理部 103 ローカルピーク位置抽出部(抽出部) 104 ピッチマーク付与部(付与部) 105 出力部 201 仮ピッチマーク抽出部(抽出部) 202 ピッチマーク探索区間設定部(設定部) 203 ピッチマーク探索部(探索部) 204 ピッチマーク位置検証部(検証部)
Claims (9)
- 【請求項1】 合成音声の聞こえ具合に関わる物理量を
制御するためのピッチマークを、入力音声波形に自動的
に付与する装置において、 前記入力音声波形における各々の極大値近傍の零交叉点
又はその近傍の零点に、前記ピッチマーク位置を設定す
る手段を備えることを特徴とする音声ピッチマーク付与
装置。 - 【請求項2】 請求項1記載の音声ピッチマーク付与装
置において、 前記零交叉点が、時系列的に前記各極大値よりも前にあ
る、前記入力音声波形が負から正へ移行するときの零交
叉点であることを特徴とする音声ピッチマーク付与装
置。 - 【請求項3】 合成音声の聞こえ具合に関わる物理量を
制御するためのピッチマークを、入力音声波形に自動的
に付与する装置において、 前記入力音声波形における各々の極大値近傍の零交叉点
を、仮のピッチマーク位置に選定する手段と、 前記各極大値からそれに対応する前記仮のピッチマーク
位置までの移動量に基づき、前記入力音声波形における
実のピッチマーク位置を探索するための区間を決定する
手段と、 前記区間中に、前記入力音声波形の零交叉点があるとき
はその零交叉点を、前記零交叉点がないときは前記区間
の中心位置を、夫々実のピッチマーク位置に選定する手
段と、 を備えることを特徴とする音声ピッチマーク付与装置。 - 【請求項4】 請求項3記載の音声ピッチマーク付与装
置において、 前記零交叉点が、前記区間の中心位置の最近傍にあり且
つ時系列的に前記各極大値よりも前にある、前記入力音
声波形が負から正へ移行するときの零交叉点であること
を特徴とする音声ピッチマーク付与装置。 - 【請求項5】 請求項3記載の音声ピッチマーク付与装
置において、 前記隣接する実のピッチマーク位置同士の間隔が、所定
値以下のときに、時系列的に前の実のピッチマーク位置
を、前記各実のピッチマーク位置間の中点に選定すると
共に、時系列的に後の実のピッチマーク位置を削除する
手段を更に備えることを特徴とする音声ピッチマーク付
与装置。 - 【請求項6】 合成音声の聞こえ具合に関わる物理量を
制御するためのピッチマークを、入力音声波形に自動的
に付与する方法において、 前記入力音声波形における各々の極大値近傍の零交叉点
又はその近傍の零点に、前記ピッチマーク位置を設定す
る過程を備えることを特徴とする音声ピッチマーク付与
方法。 - 【請求項7】 請求項6記載の音声ピッチマーク付与方
法において、 前記零交叉点が、時系列的に前記各極大値よりも前にあ
る、前記入力音声波形が負から正へ移行するときの零交
叉点であることを特徴とする音声ピッチマーク付与方
法。 - 【請求項8】 合成音声の聞こえ具合に関わる物理量を
制御するためのピッチマークを、入力音声波形に自動的
に付与する方法において、 前記入力音声波形における各々の極大値近傍の零交叉点
を、仮のピッチマーク位置に選定する第1の過程と、 前記各極大値からそれに対応する前記仮のピッチマーク
位置までの移動量に基づき、前記入力音声波形における
実のピッチマーク位置を探索するための区間を決定する
第2の過程と、 前記区間中に、前記入力音声波形の零交叉点があるとき
はその零交叉点を、前記零交叉点がないときは前記区間
の中心位置を、夫々実のピッチマーク位置に選定する第
3の過程と、 を備えることを特徴とする音声ピッチマーク付与方法。 - 【請求項9】 請求項8記載の音声ピッチマーク付与方
法において、 前記零交叉点が、前記区間の中心位置の最近傍にあり且
つ時系列的に前記各極大値よりも前にある、前記入力音
声波形が負から正へ移行するときの零交叉点であること
を特徴とする音声ピッチマーク付与方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1828999A JP2000214873A (ja) | 1999-01-27 | 1999-01-27 | 音声ピッチマ―ク付与方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1828999A JP2000214873A (ja) | 1999-01-27 | 1999-01-27 | 音声ピッチマ―ク付与方法及び装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000214873A true JP2000214873A (ja) | 2000-08-04 |
Family
ID=11967475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1828999A Pending JP2000214873A (ja) | 1999-01-27 | 1999-01-27 | 音声ピッチマ―ク付与方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000214873A (ja) |
-
1999
- 1999-01-27 JP JP1828999A patent/JP2000214873A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6349277B1 (en) | Method and system for analyzing voices | |
EP1922720B1 (en) | System and method for synchronizing sound and manually transcribed text | |
US11410637B2 (en) | Voice synthesis method, voice synthesis device, and storage medium | |
CN111681637A (zh) | 歌曲合成方法、装置、设备及存储介质 | |
KR101521451B1 (ko) | 표시 제어 장치 및 방법 | |
JPH06266390A (ja) | 波形編集型音声合成装置 | |
CN112750421B (zh) | 一种歌声合成方法、装置及可读存储介质 | |
JPH0561496A (ja) | 音声認識装置 | |
JPH0895589A (ja) | 音声合成方法及びシステム | |
US5452398A (en) | Speech analysis method and device for suppyling data to synthesize speech with diminished spectral distortion at the time of pitch change | |
JP3576800B2 (ja) | 音声分析方法、及びプログラム記録媒体 | |
KR102072627B1 (ko) | 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법 | |
US20150112687A1 (en) | Method for rerecording audio materials and device for implementation thereof | |
CN110782866A (zh) | 一种演唱声音转换器 | |
JP2000214873A (ja) | 音声ピッチマ―ク付与方法及び装置 | |
CN112750420B (zh) | 一种歌声合成方法、装置及设备 | |
CN112750422B (zh) | 一种歌声合成方法、装置及设备 | |
JPH11305794A (ja) | ピッチ検出装置及び情報媒体 | |
JPH0766272B2 (ja) | 音声セグメンテ−ション装置 | |
CN112185338B (zh) | 音频处理方法、装置、可读存储介质和电子设备 | |
KR100359988B1 (ko) | 실시간 화속 변환 장치 | |
JPS63281199A (ja) | 音声セグメンテ−ション装置 | |
JPH064090A (ja) | テキスト音声変換方法および装置 | |
JP3292218B2 (ja) | 音声メッセージ作成装置 | |
CN111462776A (zh) | 一种歌曲寻点方法及其终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD05 | Notification of revocation of power of attorney |
Effective date: 20040903 Free format text: JAPANESE INTERMEDIATE CODE: A7425 |