JP2013156544A - 発声区間特定装置、音声パラメータ生成装置、及びプログラム - Google Patents
発声区間特定装置、音声パラメータ生成装置、及びプログラム Download PDFInfo
- Publication number
- JP2013156544A JP2013156544A JP2012018609A JP2012018609A JP2013156544A JP 2013156544 A JP2013156544 A JP 2013156544A JP 2012018609 A JP2012018609 A JP 2012018609A JP 2012018609 A JP2012018609 A JP 2012018609A JP 2013156544 A JP2013156544 A JP 2013156544A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- time
- voice
- syllable
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
【解決手段】発声区間推定処理では、音声波形データの発声内容に含まれる音節それぞれに対応して発声されたと推定される区間(以下、発声区間と称す)に各種情報を対応付けた音節データを生成する。具体的には、時間窓ごとに算出したパワーを時間軸に沿って配置することで音声パワー推移を導出する(S230)。その音声パワー推移に従って特定した発声開始時刻及び発声終了時刻のうち、順に連続する発声開始時刻と発声終了時刻とのペアによって規定される区間それぞれを発声区間として特定する(S260)。その各発声区間に、当該発声区間に対応し、かつ歌詞を形態素解析することなどで導出した音符音節組それぞれを対応づけることで、音節データを生成する(S270)。
【選択図】図3
Description
そこで、本発明は、多量の音声データについて、各音声データを発声区間ごとに切り分け可能とすることを目的とする。
このため、本発明の発声区間特定装置によれば、当該音節データに含まれる発声区間での音声データから音声パラメータを生成する際に、信頼度の高い音節の内容を当該音声パラメータに付加することができ、ひいては、音声合成に必要な音声パラメータに多様な情報を付加することができる。この結果、本発明の発声区間特定装置によれば、音声合成の際に、その音声合成を利用する人物が望む音声を実現しやすくできる。
そして、本発明における音高特定手段は、音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出した周波数スペクトルの自己相関値が最大となる周波数に対応する音高を、発声音高として特定しても良い(請求項4)。
ところで、本発明における音符歌声統合手段は、音声パワー推移における各時刻でのパワーと、当該時刻に対応する発声区間と、当該発声区間に対応する音符音節組とを対応付けることで、音節データを生成しても良い(請求項5)。
なお、本発明における発声区間特定手段は、音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを発声開始時刻とし、極小となるタイミングそれぞれを発声終了時刻として、発声区間それぞれを特定しても良い(請求項7)。
ところで、本発明の適用対象は、音声パラメータ生成装置であっても良い。ただし、本発明が適用される音声パラメータ生成装置は、請求項1に記載された発声区間特定装置と、パラメータ導出手段とを備えている必要がある。なお、ここで言うパラメータ導出手段とは、発声区間特定装置における音符歌声統合手段で生成された音節データにおける発声区間での音声データから、予め規定された少なくとも一つの特徴量である音声パラメータを導出する手段である(請求項8)。
本発明のプログラムが、このようになされていれば、例えば、DVD−ROM、CD−ROM、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項1に記載された発声区間特定装置として機能させることができる。
〈音声合成システムについて〉
図1は、本発明が適用された音声合成システムの概略構成を示す図である。
〈MIDI格納サーバについて〉
まず、MIDI格納サーバ25は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、通信網を介して、音声入力装置10に接続されている。
〈音声入力装置の構成について〉
次に、音声入力装置10について説明する。
また、制御部20は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するROM21と、処理プログラムやデータを一時的に格納するRAM22と、ROM21やRAM22に記憶された処理プログラムに従って各処理(各種演算)を実行するCPU23とを少なくとも有した周知のコンピュータを中心に構成されている。
〈情報処理装置の構成について〉
次に、情報処理装置30について説明する。
このうち、通信部31は、通信網(例えば、公衆無線通信網やネットワーク回線)を介して外部との間で通信を行う。入力受付部32は、外部からの操作に従って情報や指令の入力を受け付ける入力機器(例えば、キーボードやポインティングデバイス)である。表示部33は、画像を表示する表示装置(例えば、液晶ディスプレイやCRT等)である。
〈音声パラメータ登録処理について〉
次に、情報処理装置30が実行する音声パラメータ登録処理について説明する。
〈発声区間推定処理について〉
次に、音声パラメータ登録処理におけるS140にて起動される発声区間推定処理について説明する。
そして、S220にて抽出した歌声波形におけるパワーの時間推移(以下、音声パワー推移と称す)を導出する(S230)。具体的に、本実施形態のS230では、歌声波形に対し時間軸に沿って連続するように規定された時間窓iごとにパワーを算出し、その算出したパワーを時間軸に沿って配置することで、図8(A)に示すような音声パワー推移を導出する。
〈音声出力端末の構成について〉
次に、音声出力端末について説明する(図1参照)。
〈音声合成処理について〉
次に、音声出力端末60の制御部67が実行する音声合成処理について説明する。
図10に示すように、音声合成処理は、起動されると、まず、情報受付部61を介して入力された情報(以下、入力情報と称す)を取得する(S510)。このS510にて取得する入力情報とは、例えば、合成音として出力する音声の内容(文言)を表す出力文言や、合成音として出力する音の性質を表す出力性質情報を含むものである。なお、ここで言う音の性質(即ち、出力性質情報)とは、発声者の性別、発声者の年齢といった、発声者の声の特徴を含むものである。
その後、本音声合成処理を終了する。
[実施形態の効果]
以上説明したように、本実施形態の発声区間推定処理によれば、発声された音声波形が時間軸に沿って推移しながら、その音声パワーが変化するタイミングに基づいて、発声開始時刻及び発声終了時刻、ひいては発声区間を自動的に特定することができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
また、上記実施形態では、音声入力装置10として、カラオケ装置を想定したが、音声入力装置10として想定する装置は、カラオケ装置に限るものではなく、例えば、周知の携帯端末(携帯電話や携帯情報端末)や、周知の情報処理装置(いわゆるパーソナルコンピュータ)を想定しても良い。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
Claims (9)
- 一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手段と、
少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手段と、
前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
前記音声データ取得手段で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手段と、
前記パワー推移導出手段で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手段と、
前記内容情報取得手段で取得した特定内容情報、前記タイミング情報取得手段で取得した発声タイミング情報、及び前記楽譜データ取得手段で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手段と、
前記発声区間特定手段にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手段で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する音符歌声統合手段と
を備えることを特徴とする発声区間特定装置。 - 少なくとも、前記音声データ取得手段で取得した音声データに基づいて、前記音声波形における音高が時間軸に沿って推移した音高時間推移を導出する音高推移導出手段と、
前記音高推移導出手段で導出された音高時間推移において、前記発声区間特定手段で特定された発声区間それぞれでの音高を発声音高として特定する音高特定手段と
を備え、
前記音符歌声統合手段は、
前記音高特定手段で特定された各発声音高と、当該発声音高に対応する前記発声区間と、当該発声区間に対応する前記音符音節組とを対応付けることで、前記音節データを生成する
ことを特徴とする請求項1に記載の発声区間特定装置。 - 前記音高特定手段は、
前記音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出した周波数スペクトルの自己相関値に、前記楽曲楽譜データによって表される出力音のうち、当該単位時間に対応する出力音の音高に対応する周波数ほど大きな重みとなるように周波数軸に沿って重みが規定された重み関数を乗じた結果が最大となる周波数に対応する音高を、前記発声音高として特定する
ことを特徴とする請求項2に記載の発声区間特定装置。 - 前記音高特定手段は、
前記音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出した周波数スペクトルの自己相関値が最大となる周波数に対応する音高を、前記発声音高として特定する
ことを特徴とする請求項2に記載の発声区間特定装置。 - 前記音符歌声統合手段は、
前記パワー推移導出手段で導出された音声パワー推移における各時刻でのパワーと、当該時刻に対応する前記発声区間と、当該発声区間に対応する前記音符音節組とを対応付けることで、前記音節データを生成する
ことを特徴とする請求項1から請求項4のいずれか一項に記載の発声区間特定装置。 - 前記発声区間特定手段は、
前記音声パワー推移の時間進行において、前記パワーが予め規定された規定閾値以上となるタイミングそれぞれを前記発声開始時刻とし、前記パワーが前記規定閾値以下となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
ことを特徴とする請求項1から請求項5のいずれか一項に記載の発声区間特定装置。 - 前記発声区間特定手段は、
前記音声パワー推移を時間微分した結果、極大となるタイミングそれぞれを前記発声開始時刻とし、極小となるタイミングそれぞれを前記発声終了時刻として、前記発声区間それぞれを特定する
ことを特徴とする請求項1から請求項5のいずれか一項に記載の発声区間特定装置。 - 一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手段と、
少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手段と、
前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
前記音声データ取得手段で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手段と、
前記パワー推移導出手段で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手段と、
前記内容情報取得手段で取得した特定内容情報、前記タイミング情報取得手段で取得した発声タイミング情報、及び前記楽譜データ取得手段で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手段と、
前記発声区間特定手段にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手段で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する音符歌声統合手段と、
前記音符歌声統合手段で生成された音節データにおける発声区間での前記音声データから、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と
を備えることを特徴とする音声パラメータ生成装置。 - 一つの楽曲である対象楽曲において発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手順と、
前記内容情報取得手順で取得した発声内容情報である特定内容情報によって表される文字の発声開始タイミングを規定する発声タイミング情報を取得するタイミング情報取得手順と、
少なくとも前記対象楽曲における歌唱旋律の楽譜を表し、当該歌唱旋律を構成する個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽曲楽譜データを取得する楽譜データ取得手順と、
前記特定内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手順と、
前記音声データ取得手順で取得した音声データに基づいて、当該音声データにおいて時間軸に沿って連続するように規定された単位時間ごとに算出したパワーの時間推移を表す音声パワー推移を導出するパワー推移導出手順と、
前記パワー推移導出手順で導出した音声パワー推移が時間軸に沿って変化する時刻を、発声開始時刻及び発声終了時刻として特定し、前記発声開始時刻、前記発声終了時刻の順に連続する当該発声開始時刻と当該発声終了時刻とのペアによって規定される発声区間それぞれを特定する発声区間特定手順と、
前記内容情報取得手順で取得した特定内容情報、前記タイミング情報取得手順で取得した発声タイミング情報、及び前記楽譜データ取得手順で取得した楽曲楽譜データに基づいて、前記特定内容情報によって表される文字列の音節ごとに、当該音節に対応する文字の前記発声開始タイミングとの時間差分が最小となる前記演奏開始タイミングを有した前記出力音を特定すると共に、当該出力音と当該音節の内容とを対応付けた音符音節組それぞれを生成する音符歌詞対応付手順と、
前記発声区間特定手順にて特定された発声区間ごとに、当該発声区間を規定する発声開始時刻との時間差分が最小となる前記演奏開始タイミングを有し、かつ前記音符歌詞対応付手順で生成された音符音節組を特定し、少なくとも、当該発声区間と当該音符音節組とを対応付けた音節データを生成する音符歌声統合手順と
をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012018609A JP5810947B2 (ja) | 2012-01-31 | 2012-01-31 | 発声区間特定装置、音声パラメータ生成装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012018609A JP5810947B2 (ja) | 2012-01-31 | 2012-01-31 | 発声区間特定装置、音声パラメータ生成装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013156544A true JP2013156544A (ja) | 2013-08-15 |
JP5810947B2 JP5810947B2 (ja) | 2015-11-11 |
Family
ID=49051747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012018609A Active JP5810947B2 (ja) | 2012-01-31 | 2012-01-31 | 発声区間特定装置、音声パラメータ生成装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5810947B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017067903A (ja) * | 2015-09-29 | 2017-04-06 | ヤマハ株式会社 | 音響解析装置 |
WO2023058172A1 (ja) * | 2021-10-06 | 2023-04-13 | ヤマハ株式会社 | 音制御装置およびその制御方法、電子楽器、プログラム |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6264197A (ja) * | 1985-09-13 | 1987-03-23 | Matsushita Electric Ind Co Ltd | ハウリング検出装置 |
JPH0289099A (ja) * | 1988-09-26 | 1990-03-29 | Sharp Corp | 音声認識装置 |
JPH07261779A (ja) * | 1994-03-25 | 1995-10-13 | Toppan Printing Co Ltd | 音節認識装置 |
JPH11202877A (ja) * | 1998-01-08 | 1999-07-30 | Ricoh Co Ltd | 音楽演奏装置 |
JP2008020621A (ja) * | 2006-07-12 | 2008-01-31 | Yamaha Corp | コンテンツオーサリングシステム |
JP2008026622A (ja) * | 2006-07-21 | 2008-02-07 | Yamaha Corp | 評価装置 |
JP2008134606A (ja) * | 2006-10-24 | 2008-06-12 | Kyoto Univ | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 |
JP2009217141A (ja) * | 2008-03-12 | 2009-09-24 | Yamaha Corp | 音声合成装置 |
JP2010009034A (ja) * | 2008-05-28 | 2010-01-14 | National Institute Of Advanced Industrial & Technology | 歌声合成パラメータデータ推定システム |
JP2011065043A (ja) * | 2009-09-18 | 2011-03-31 | Brother Industries Ltd | 音高推定装置、プログラム |
-
2012
- 2012-01-31 JP JP2012018609A patent/JP5810947B2/ja active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6264197A (ja) * | 1985-09-13 | 1987-03-23 | Matsushita Electric Ind Co Ltd | ハウリング検出装置 |
JPH0289099A (ja) * | 1988-09-26 | 1990-03-29 | Sharp Corp | 音声認識装置 |
JPH07261779A (ja) * | 1994-03-25 | 1995-10-13 | Toppan Printing Co Ltd | 音節認識装置 |
JPH11202877A (ja) * | 1998-01-08 | 1999-07-30 | Ricoh Co Ltd | 音楽演奏装置 |
JP2008020621A (ja) * | 2006-07-12 | 2008-01-31 | Yamaha Corp | コンテンツオーサリングシステム |
JP2008026622A (ja) * | 2006-07-21 | 2008-02-07 | Yamaha Corp | 評価装置 |
JP2008134606A (ja) * | 2006-10-24 | 2008-06-12 | Kyoto Univ | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 |
JP2009217141A (ja) * | 2008-03-12 | 2009-09-24 | Yamaha Corp | 音声合成装置 |
JP2010009034A (ja) * | 2008-05-28 | 2010-01-14 | National Institute Of Advanced Industrial & Technology | 歌声合成パラメータデータ推定システム |
JP2011065043A (ja) * | 2009-09-18 | 2011-03-31 | Brother Industries Ltd | 音高推定装置、プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017067903A (ja) * | 2015-09-29 | 2017-04-06 | ヤマハ株式会社 | 音響解析装置 |
WO2023058172A1 (ja) * | 2021-10-06 | 2023-04-13 | ヤマハ株式会社 | 音制御装置およびその制御方法、電子楽器、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5810947B2 (ja) | 2015-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2733696B1 (en) | Voice synthesizing method and voice synthesizing apparatus | |
JP6060867B2 (ja) | 情報処理装置,データ生成方法,及びプログラム | |
JP5598516B2 (ja) | カラオケ用音声合成システム,及びパラメータ抽出装置 | |
JP6252420B2 (ja) | 音声合成装置、及び音声合成システム | |
JP5810947B2 (ja) | 発声区間特定装置、音声パラメータ生成装置、及びプログラム | |
JP5292702B2 (ja) | 楽音信号生成装置及びカラオケ装置 | |
TW201027514A (en) | Singing synthesis systems and related synthesis methods | |
JP6098422B2 (ja) | 情報処理装置、及びプログラム | |
JP2017181793A (ja) | 音響処理装置、及びプログラム | |
JP5782972B2 (ja) | 情報処理システム,プログラム | |
JP2013210501A (ja) | 素片登録装置,音声合成装置,及びプログラム | |
JP6075314B2 (ja) | プログラム,情報処理装置,及び評価方法 | |
JP6075313B2 (ja) | プログラム,情報処理装置,及び評価データ生成方法 | |
JP5413380B2 (ja) | 楽曲データ修正装置 | |
JP6406182B2 (ja) | カラオケ装置、及びカラオケシステム | |
JP5953743B2 (ja) | 音声合成装置及びプログラム | |
JP6365483B2 (ja) | カラオケ装置,カラオケシステム,及びプログラム | |
JP5983670B2 (ja) | プログラム、情報処理装置、及びデータ生成方法 | |
JP6090043B2 (ja) | 情報処理装置、及びプログラム | |
JP6011506B2 (ja) | 情報処理装置,データ生成方法,及びプログラム | |
JP6260499B2 (ja) | 音声合成システム、及び音声合成装置 | |
JP5845857B2 (ja) | パラメータ抽出装置、音声合成システム | |
US20210366455A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium | |
JP5549651B2 (ja) | 歌詞出力データ修正装置,及びプログラム | |
JP6281447B2 (ja) | 音声合成装置,及び音声合成システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140314 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141209 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150818 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5810947 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |