JP6191094B2 - 音声素片切出装置 - Google Patents
音声素片切出装置 Download PDFInfo
- Publication number
- JP6191094B2 JP6191094B2 JP2012109824A JP2012109824A JP6191094B2 JP 6191094 B2 JP6191094 B2 JP 6191094B2 JP 2012109824 A JP2012109824 A JP 2012109824A JP 2012109824 A JP2012109824 A JP 2012109824A JP 6191094 B2 JP6191094 B2 JP 6191094B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- phoneme
- data
- specified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
本発明は上述の背景に鑑みてなされたものであり、音声素片を作業者の所望する態様で切り出す際の作業負荷を軽減することのできる技術を提供することを目的とする。
図1は、本発明の第1の実施形態に係る音声合成システム1の構成の一例を示すブロック図である。音声合成システム1は、文字列及び音符列を含む楽譜データに基づいて音声を合成し、合成した音声を出力する音声合成装置100と、音声合成装置100が音声合成処理を行う際に用いる音声素片データベースを生成する音声素片切出装置200とを備えている。音声合成装置100と音声素片切出装置200とは、有線LAN(Local Area Network)等により有線接続されていてもよく、また、無線LAN等の無線通信により無線接続されていてもよい。
次に、本実施形態に係る音声合成システム1の動作を説明する。
2−1.音声素片データベースの生成動作
まず、音声素片切出装置200の波形取得部211が音声波形を取得する。次いで、前処理部212が取得された音声波形に対して各種の前処理を行う。特徴パラメータ抽出部213は、前処理が施された音声波形を解析し、音声の特徴量を表す特徴パラメータを特定する。特徴パラメータ抽出部213によって特徴パラメータが特定されると、音声認識部214は、特定された特徴パラメータに基づいて、音響モデルM1や言語モデルM2を参照して音声認識処理を行い、音声波形に対応する音素の列と各音素の区切り位置とを特定する。
次いで、音声合成装置100が行う音声合成動作について説明する。音声処理部13の素片取得部131は、データ取得部12から供給される歌詞データに対応した音声素片データを音声素片データベース21から順次に読み出して音声合成部132に出力する。ここでは、歌詞データによって文字「さ(sa)」が指定された場合を想定する。この場合、素片取得部131は、音声素片[#_s]、[s_a]および[a_#]の各々に対応する音声素片データを音声素片データベース21から読み出してこの順番にて音声合成部132に出力する。
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。
音声素片データの態様は上記実施形態に示したものに限られない。例えば、各音声素片のフレームFごとのスペクトル包絡(スペクトルエンベロープ)を示すデータを音声素片データとしてもよいし、各音声素片の時間軸上における波形を示すデータを音声素片データとしてもよい。また、音声素片の波形をSMS(Spectral Modeling Synthesis)技術によって調和成分(Deterministic Component)と非調和成分(Stochastic Component)とに区分し、この各成分を示すデータを音声素片データとしてもよい。この場合には、調和成分と非調和成分の双方について音声合成部132による処理が実行されるとともに、この処理後の調和成分と非調和成分とが音声合成部132の後段の加算部によって加算されることになる。また、各音声素片をフレームFに区分したうえで各フレームFのスペクトル包絡に関する複数の特徴量(例えばスペクトル包絡のピークの周波数やゲイン、またはスペクトル包絡の全体の傾きなど)を抽出しておき、これらの特徴量を表す複数のパラメータのセットを音声素片データとしてもよい。このように、本発明において音声素片を保持する形態の如何は不問である。
上記実施形態においては、歌唱音声を合成するための装置に本発明を適用した場合を例示したが、これ以外の装置にも本発明を適用できることはもちろんである。例えば、各種の文書を示す文書データ(例えばテキストファイル)に基づいて当該文書の文字列を読み上げる装置にも本発明は適用される。すなわち、テキストファイルに含まれる文字コードに基づいて素片取得部131が音声素片データを音声素片データベース21から読み出し、この音声素片データに基づいて音声が合成される構成としてもよい。
上述の実施形態において、区切り位置の学習を行うか否かを利用者が選択できるようにしてもよい。この場合は、例えば、学習を行うか否かを選択するためのフラグを記憶部220の予め定められた記憶領域に記憶しておく構成とし、利用者が操作部230を用いて学習を行うか否かを選択し、選択結果に応じてフラグの値を変更するようにしてもよい。この場合は、学習部217は、フラグの値を参照して学習処理を行うか否かを判定し、学習処理を行うと判定された場合に、変更された区切り位置に対応する特徴パラメータを用いて音響モデルM1を更新するようにすればよい。
上述の実施形態において、学習部217が、音響モデルM1のパラメータの変更態様を、音素種別(例えば、母音、子音、等)毎に異ならせてもよい。すなわち、学習部217は、音声認識部214により特定された音素の種別に対応する変更態様で、音声認識部214により特定された音素に対応するパラメータの値を変更してもよい。具体的には、例えば、学習部217が、音声認識部214により特定された音素が母音である場合には、特定パラメータと音響モデルM1のパラメータとの中央値を新たなパラメータ値とする一方、音声認識部214により特定された音素が子音である場合には、特定パラメータとの差分が予め定められた閾値以下となるように音響モデルM1記憶されているパラメータの値を修正するようにしてもよい。このように音素の種別毎に学習態様を異ならせることで、各音素の種別に適した学習処理を行うことができる。
上述の実施形態において、学習部217に代えて、図11に示すような、切り出し位置学習モデルM3を設ける構成としてもよい。図11は、音声素片切出装置の機能的構成の一例を示すブロック図であり、上述した実施形態において図7に示したブロック図に対応するものである。図11に示す構成が上述した図7に示す構成と異なる点は、学習部217に代えて切り出し位置モデルM3を備えている点である。切り出し位置学習モデルM3には、区切り位置変更部215によって変更された切り出し位置に基づく各種のデータ(パラメータ)が記憶される。区切り位置変更部215は、利用者によって変更された区切り位置に従って音声認識処理において参照される各種のデータを生成し、生成したデータを切り出し位置学習モデルM3に蓄積していく。認識演算部2141は、音響モデルM1、言語モデルM2、切り出し位置学習モデルM3を参照して、音声波形に含まれる音素の列と各音素の区切り位置とを特定する。この場合、図8や図9のような画面に、言語モデルM1による(通常の)区切り位置と言語モデルM3による学習された区切り位置との両方を同時にユーザに提示し、ユーザがどのような学習を行ったかを確認・把握することができる。
音声素片切出装置200のハードウェア構成は、図5で説明したものに限定されない。図7に示される機能を実装できるものであれば、音声素片切出装置200はどのようなハードウェア構成であってもよい。例えば、音声素片切出装置200は、図7に示される機能要素の各々に対応する専用のハードウェア(回路)を有していてもよい。また、例えば、図7に示す認識演算部2141が、DSPなどの音声処理に専用されるハードウェアによって実現されてもよい。
上述の実施形態では、特徴パラメータ抽出部213が抽出する音声の特徴量としてMFCC係数を用いたが、抽出される音声の特徴量はこれに限らない。音声の特徴は、音声認識処理を行う際に用いられることによって音素や各音素の区切り位置を特定し得るものであればどのようなものであってもよい。
また、上述の実施形態では、出力部216は、音声認識部214によって特定された音素列と音声波形から切り出した音声素片とを出力したが、出力部216が出力する情報はこれに限らない。例えば、出力部216は、音声素片を出力せずに、利用者によって修正された区切り位置を示す情報を出力してもよい。出力部216は、音声認識部214によって特定された音素に対応する音声素片(音声波形)を切り出すための情報を出力するものであればどのようなものであってもよい。
上述の実施形態では、音響モデルM1と言語モデルM2とを音声素片切出装置200の内部に設けられた記憶部220に記憶しておく構成としたが、音響モデルや言語モデルは音声素片切出装置の外部の装置に記憶される構成であってもよい。例えば、通信ネットワークを介して接続されたサーバ装置に音響モデルや言語モデルを記憶しておく構成とし、音声素片装置がサーバ装置に問い合わせることによって音声認識処理を行うようにしてもよい。
また、上述の実施形態では、図2に示す各部がバス70によって接続されている構成について説明したが、バス70に代えて通信ネットワークで各部が接続される構成であってもよい。
本発明は、音声素片切出装置以外にも、これらを実現するための方法や、コンピュータに音声素片切出機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。
Claims (3)
- 音声波形を解析し、解析結果に応じて該音声波形の表す音声に含まれる音素と各音素の区切り位置とを特定する音声認識部と、
前記音声認識部によって特定された音素毎の区切り位置を、利用者によって操作される操作部から出力される情報に従って変更する区切り位置変更部と、
前記区切り位置変更部によって変更された区切り位置に従って、前記音声認識部により特定される音素の区切り位置が前記区切り位置変更部により変更された区切り位置に近づくように、前記音声認識部における前記区切り位置の特定態様を変更する学習部と、
前記音声認識部によって特定された音素又は音素連鎖と該特定された音素又は音素連鎖に対応する音声波形を切り出すための情報を出力する出力部と
を具備し、
前記音声認識部は、音声の特徴量を表すパラメータを音素毎に記憶するパラメータ記憶部に記憶されたパラメータを用いて、該音声波形の表す音声に含まれる音素と各音素の区切り位置とを特定し、
前記学習部は、前記区切り位置変更部により変更された区切り位置に対応する音声波形の音声の特徴量を特定し、前記記憶されたパラメータの値を、前記特定された特徴量を表すパラメータの値との差分が予め定められた閾値となる値、前記特定された特徴量を表すパラメータの値と前記記憶されたパラメータの値との中間値、又は、複数の前記特定された特徴量を表すパラメータの値と当該記憶されたパラメータの値の平均値に変更し、
前記学習部は、前記音素又は音素連鎖の先頭部分の切り出し位置に対応するパラメータの値と、前記音素又は音素連鎖の終わり部分の切り出し位置に対応するパラメータの値とを、それぞれ異なる変更態様で変更する
ことを特徴とする音声素片切出装置。 - 前記学習部は、前記音声認識部により特定された音素の種別に対応する変更態様で、該特定された音素に対応する前記パラメータの値を変更する
ことを特徴とする請求項1に記載の音声素片切出装置。 - 前記学習部は、前記音声認識部により特定された音素の種別を特定し、特定した種別の音素のそれぞれについて、各音素に対応する前記パラメータの値を変更する
ことを特徴とする請求項1又は2に記載の音声素片切出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012109824A JP6191094B2 (ja) | 2012-05-11 | 2012-05-11 | 音声素片切出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012109824A JP6191094B2 (ja) | 2012-05-11 | 2012-05-11 | 音声素片切出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013238664A JP2013238664A (ja) | 2013-11-28 |
JP6191094B2 true JP6191094B2 (ja) | 2017-09-06 |
Family
ID=49763747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012109824A Expired - Fee Related JP6191094B2 (ja) | 2012-05-11 | 2012-05-11 | 音声素片切出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6191094B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7246851B2 (ja) * | 2017-11-20 | 2023-03-28 | ユニ・チャーム株式会社 | プログラム、育児支援方法、及び、育児支援システム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000047683A (ja) * | 1998-07-30 | 2000-02-18 | Matsushita Electric Ind Co Ltd | セグメンテーション補助装置及び媒体 |
JP2001306087A (ja) * | 2000-04-26 | 2001-11-02 | Ricoh Co Ltd | 音声データベース作成装置および音声データベース作成方法および記録媒体 |
JP2002140095A (ja) * | 2000-11-02 | 2002-05-17 | Ricoh Co Ltd | 音声データベース作成支援システム |
-
2012
- 2012-05-11 JP JP2012109824A patent/JP6191094B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013238664A (ja) | 2013-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468870B2 (en) | Electronic musical instrument, electronic musical instrument control method, and storage medium | |
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
JP5024711B2 (ja) | 歌声合成パラメータデータ推定システム | |
US8898062B2 (en) | Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program | |
US20190392799A1 (en) | Electronic musical instrument, electronic musical instrument control method, and storage medium | |
JP2008545995A (ja) | ハイブリッド音声合成装置、方法および用途 | |
JP2015034920A (ja) | 音声解析装置 | |
JP6561499B2 (ja) | 音声合成装置および音声合成方法 | |
US11495206B2 (en) | Voice synthesis method, voice synthesis apparatus, and recording medium | |
JP7036141B2 (ja) | 電子楽器、方法及びプログラム | |
JP2012083722A (ja) | 音声処理装置 | |
JP2006030575A (ja) | 音声合成装置およびプログラム | |
CN109416911B (zh) | 声音合成装置及声音合成方法 | |
US11854521B2 (en) | Electronic musical instruments, method and storage media | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
WO2019181767A1 (ja) | 音処理方法、音処理装置およびプログラム | |
JP6060520B2 (ja) | 音声合成装置 | |
JP6756151B2 (ja) | 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法 | |
JP2017045073A (ja) | 音声合成方法および音声合成装置 | |
JP6044284B2 (ja) | 音声合成装置 | |
JP6191094B2 (ja) | 音声素片切出装置 | |
JP5573529B2 (ja) | 音声処理装置およびプログラム | |
JP2013195928A (ja) | 音声素片切出装置 | |
JP4353174B2 (ja) | 音声合成装置 | |
JP6056190B2 (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150421 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170724 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6191094 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |