JP5049310B2 - 音声学習・合成システム及び音声学習・合成方法 - Google Patents
音声学習・合成システム及び音声学習・合成方法 Download PDFInfo
- Publication number
- JP5049310B2 JP5049310B2 JP2009083164A JP2009083164A JP5049310B2 JP 5049310 B2 JP5049310 B2 JP 5049310B2 JP 2009083164 A JP2009083164 A JP 2009083164A JP 2009083164 A JP2009083164 A JP 2009083164A JP 5049310 B2 JP5049310 B2 JP 5049310B2
- Authority
- JP
- Japan
- Prior art keywords
- user terminal
- server
- speech
- synthesis
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Description
まず、第1の課題は音声の学習にかかる処理量の多さである。一般に学習に関わる処理の計算量は大きく、必要なメモリ量も多い。音声合成の利用分野の一つとして、電話等の端末での音声サービスへの応用が考えられるが、例えば最新の携帯端末であってもこうした学習に必要なほどの計算能力や計算リソースを有しておらず、端末側で学習や合成処理を完結させることは困難となっている。
できる。
よって、これら1)〜3)の効果により、前述の第3の課題を解決することができる。
図1はこの発明による音声学習・合成システムの一実施例の全体構成を示したものであり、ユーザ端末100とサーバ200とがネットワーク10を介して相互に接続されており、この例ではこれらユーザ端末100とサーバ200とによって音声学習・合成システムが構成される。
ユーザ端末100はこの例では特徴量分析部110とテキスト前処理部120とDB要求部130と波形生成部140と入力部150と出力部160とネットワークインターフェース170と制御部180を備えている。学習用の音声データ及びテキストは入力部150から入力される。
テキスト前処理部120は入力されたテキストの種別に応じてテキストの前処理を行い、文字コードの変換やメールやHTMLテキストから音声合成の対象にならないタグやヘッダ等を除去する処理を行う。
波形生成部140で生成された合成音声は出力部160から出力される。なお、制御部180はユーザ端末100の動作を全体的に制御し、ネットワークインターフェース170はネットワーク10との接続を担い、サーバ200との通信を可能とする。
サーバ200はDB生成部210と中間情報生成部220とネットワークインターフェース230と制御部240を備えている。ネットワークインターフェース230はユーザ端末100との通信を行う。制御部240はサーバ200の動作を全体的に制御する。
図4は上記のような構成を有するユーザ端末100及びサーバ200よりなる音声学習・合成システムの処理手順を示したものであり、以下、処理手順及び各処理の詳細を説明する。
学習用音声データがユーザ端末100に入力される(ステップS11)。ユーザ端末100は入力された音声データから特徴量の分析・抽出を行う(ステップS12)。特徴量としては例えばスペクトル、基本周波数(F0)、音素の継続時間長がある。
スペクトルの分析方法には様々の方法があり、例えば古典的にはFFTによる周波数分析やLPC分析法によるスペクトル推定法がある。また、正弦波重畳モデルベースの推定法(亀岡他,“正弦波重畳モデルのパラメータ最適化アルゴリズムの導出”,信学技報,Vol.106,EA2000-97,pp.49-54,2006)、STRAIGHT分析法(H.Kawahara et al,“Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous- frequency-based F0 extraction:Possible role of a reptitive structure in sounds”,Speech Communication,Vol.27,No.3-4,pp.187-207,1999)等の方法が提案されている。
音素の継続時間長の推定法としては、HMMを用いた音素セグメンテーション(Ljolje A.,and Riley M.D.,“Automatic Segmentation and Labeling of Speech”,Proc. of ICASSP’91,pp.473-476,1991)が代表的な方法である。但し、どのような特徴量を分析するかは合成方法に依存し、決定され、合成時にF0や音素継続時間長のデータを必要としない場合はF0や音素継続時間を分析しなくてもよい。
音源DBの生成方法としては様々な方法が存在するが、例えば素片ベースの場合、閉ループ方式(籠嶋他,“閉ループ学習に基づく最適な音声素片の解析的生成”,信学論,J83-D-II,No.6,pp.1405-1411,2000)のように、素片データベースのような形態が典型的であり、HMMのような統計モデルに基づく場合は、HMMに基づく話者モデル作成方法(前述の非特許文献1参照)が代表的な方法である。
テキストがユーザ端末100に入力される(ステップS21)。ユーザ端末100は入力されたテキストの前処理を行い(ステップS22)、前処理を行ったテキストをサーバ200に送信する(ステップS23)。サーバ200は受信したテキストを解析して(ステップS24)、読み情報とアクセント等の韻律情報を決定する。
文献1:特許第3379643号公報「形態素解析方法および形態素解析プログラムを
記録した記録媒体」
文献2:特許第3518340号公報「読み韻律情報設定方法及び装置及び読み韻律情
報設定プログラムを格納した記憶媒体」
中間情報生成は韻律パラメータ生成ステップと合成パラメータ生成ステップに大別される。
形態素情報、読み、韻律情報に基づいて各種韻律パラメータを求める。ここで、韻律パラメータとしてはF0や音素継続時間長、パワー等があるが、それらを求める方式は従来から存在し、例えば下記文献3に記載されている方法によって音源DBに含まれるF0データに基づいてピッチ(基本周波数)を求めることが可能であり、音素継続時間長についても例えば下記文献4に記載されている方法で音源DBに含まれる継続時間長データに基づいて求めることが可能である。
文献3:特許第3240691号公報「音声認識方法」
文献4:M.D.Riley,“Tree-based modeling for speech synthesis”In G.Bailly,C.Benoit,and T.R.Sawallis,editors,Talking Machines:Theories,Models,and Designs,pp.265-273,Elsevier,1992
なお、古典的な点ピッチモデルや拍の等特性の継続時間モデルのように、完全に規則でF0や音素継続時間を決定するような方式を利用する場合は音源DBは必要としない。
前述の韻律パラメータを用いて合成に必要な情報を生成する。具体的にどのような情報を生成するかは合成方法に依存する。
b−1)素片接続型の場合
上記のとおり求められた読み情報や韻律パラメータに適合する最適な素片の組み合わせとなる素片系列を音源DBに基づいて決定する。例えば、下記文献5に記載されている方法のようにして合成単位の系列は決定できる。
文献5:特許第3515406号公報「音声合成方法及び装置」
例えば前述の吉村らの論文(非特許文献1)の方法のとおり、上記の読み情報と韻律パラメータから決定木を用いて最適なコンテキスト依存型HMMモデルを選択する。
ユーザ端末100の波形生成部140はインデックス情報に基づいて順次、モデルデータを音源DBから読み出し、前述の吉村らの論文のとおり、モデルからスペクトル特徴量の系列を生成した後、上記のとおりスペクトル特徴量から音声波形を生成する。
Claims (4)
- 入力された音声データを学習し、その学習に基づき、入力されたテキストに対して合成音声を生成する音声学習・合成システムであって、
上記音声データ及び上記テキストが入力されるユーザ端末と、そのユーザ端末とネットワークを介して接続されたサーバとよりなり、
上記ユーザ端末は、上記音声データから、スペクトル、基本周波数(F0)、音素の継続時間長を含む特徴量を分析・抽出する特徴量分析部と、中間情報から上記合成音声を生成する波形生成部とを備え、
上記サーバは、上記特徴量を用いて音源DBを生成するDB生成部と、上記テキストを解析して求めた韻律パラメータ、および当該韻律パラメータを用いて生成された合成に必要な合成パラメータからなる上記中間情報を生成する中間情報生成部とを備え、
上記特徴量及び上記テキストが上記ユーザ端末から上記サーバに送信され、
上記中間情報が上記サーバから上記ユーザ端末に送信される構成とされていることを特徴とする音声学習・合成システム。 - 請求項1記載の音声学習・合成システムにおいて、
上記ユーザ端末は、上記中間情報として素片インデックス情報を受信する場合には、上記音源DBの送信を上記サーバに要求するDB要求部を備え、
上記サーバは上記要求に基づき、上記ユーザ端末に上記音源DBを送信する構成とされ、
上記合成パラメータは、上記音源DBのインデックス情報である
ことを特徴とする音声学習・合成システム。 - 入力された音声データを学習し、その学習に基づき、入力されたテキストに対して合成音声を生成する音声学習・合成方法であって、
ネットワークを介して接続されたユーザ端末とサーバとを備え、
上記学習は、
上記ユーザ端末が入力された音声データから、スペクトル、基本周波数(F0)、音素の継続時間長を含む特徴量を分析・抽出する過程と、
その特徴量を上記ユーザ端末が上記サーバに送信する過程と、
上記サーバが受信した特徴量を用いて音源DBを生成する過程とよりなり、
上記合成は、
上記ユーザ端末が入力されたテキストを上記サーバに送信する過程と、
上記サーバが受信したテキストを解析して求めた韻律パラメータ、および当該韻律パラメータを用いて生成された合成に必要な合成パラメータから中間情報を生成する過程と、
その中間情報を上記サーバが上記ユーザ端末に送信する過程と、
上記ユーザ端末が受信した中間情報から合成音声を生成する過程とよりなることを特徴とする音声学習・合成方法。 - 請求項3記載の音声学習・合成方法において、
上記ユーザ端末が、上記中間情報として素片インデックス情報を受信する場合には、上記音源DBの送信を上記サーバに要求する過程と、
上記要求に基づき、上記サーバが上記ユーザ端末に上記音源DBを送信する過程とを含み、
上記合成パラメータは、上記音源DBのインデックス情報である
ことを特徴とする音声学習・合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009083164A JP5049310B2 (ja) | 2009-03-30 | 2009-03-30 | 音声学習・合成システム及び音声学習・合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009083164A JP5049310B2 (ja) | 2009-03-30 | 2009-03-30 | 音声学習・合成システム及び音声学習・合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010237307A JP2010237307A (ja) | 2010-10-21 |
JP5049310B2 true JP5049310B2 (ja) | 2012-10-17 |
Family
ID=43091703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009083164A Active JP5049310B2 (ja) | 2009-03-30 | 2009-03-30 | 音声学習・合成システム及び音声学習・合成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5049310B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014021136A (ja) * | 2012-07-12 | 2014-02-03 | Yahoo Japan Corp | 音声合成システム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03112225A (ja) * | 1989-09-26 | 1991-05-13 | Nec Corp | 音声伝送装置 |
JP3446764B2 (ja) * | 1991-11-12 | 2003-09-16 | 富士通株式会社 | 音声合成システム及び音声合成サーバ |
JP3805065B2 (ja) * | 1997-05-22 | 2006-08-02 | 富士通テン株式会社 | 車載用音声合成装置 |
JP2000151827A (ja) * | 1998-11-12 | 2000-05-30 | Matsushita Electric Ind Co Ltd | 電話音声認識システム |
JP2000356995A (ja) * | 1999-04-16 | 2000-12-26 | Matsushita Electric Ind Co Ltd | 音声通信システム |
JP2002196780A (ja) * | 2000-12-26 | 2002-07-12 | Advanced Telecommunication Research Institute International | 通信システム |
JP2002358092A (ja) * | 2001-06-01 | 2002-12-13 | Sony Corp | 音声合成システム |
JP3589216B2 (ja) * | 2001-11-02 | 2004-11-17 | 日本電気株式会社 | 音声合成システム及び音声合成方法 |
JP3806030B2 (ja) * | 2001-12-28 | 2006-08-09 | キヤノン電子株式会社 | 情報処理装置及び方法 |
JP2003241788A (ja) * | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
JP2006018133A (ja) * | 2004-07-05 | 2006-01-19 | Hitachi Ltd | 分散型音声合成システム、端末装置及びコンピュータ・プログラム |
JP4653572B2 (ja) * | 2005-06-17 | 2011-03-16 | 日本電信電話株式会社 | クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム |
JP4539537B2 (ja) * | 2005-11-17 | 2010-09-08 | 沖電気工業株式会社 | 音声合成装置,音声合成方法,およびコンピュータプログラム |
-
2009
- 2009-03-30 JP JP2009083164A patent/JP5049310B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010237307A (ja) | 2010-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10553201B2 (en) | Method and apparatus for speech synthesis | |
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
JP5598998B2 (ja) | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 | |
CN111899719A (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN111402843B (zh) | 说唱音乐生成方法、装置、可读介质及电子设备 | |
CN101872615A (zh) | 用于分布式文本到话音合成以及可理解性的系统和方法 | |
CN108831437A (zh) | 一种歌声生成方法、装置、终端和存储介质 | |
CN111161695B (zh) | 歌曲生成方法和装置 | |
US20230206897A1 (en) | Electronic apparatus and method for controlling thereof | |
CN109754783A (zh) | 用于确定音频语句的边界的方法和装置 | |
US20140236597A1 (en) | System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
CN113658577B (zh) | 一种语音合成模型训练方法、音频生成方法、设备及介质 | |
CN116129863A (zh) | 语音合成模型的训练方法、语音合成方法及相关装置 | |
Panda et al. | An efficient model for text-to-speech synthesis in Indian languages | |
CN113327576B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN112185340B (zh) | 语音合成方法、语音合成装置、存储介质与电子设备 | |
CN111862933A (zh) | 用于生成合成语音的方法、装置、设备和介质 | |
JP5049310B2 (ja) | 音声学習・合成システム及び音声学習・合成方法 | |
CN113299271B (zh) | 语音合成方法、语音交互方法、装置及设备 | |
CN112837688B (zh) | 语音转写方法、装置、相关系统及设备 | |
CN113948062A (zh) | 数据转换方法及计算机存储介质 | |
CN114333758A (zh) | 语音合成方法、装置、计算机设备、存储介质和产品 | |
KR101611224B1 (ko) | 오디오 인터페이스 | |
CN112562733A (zh) | 媒体数据处理方法及装置、存储介质、计算机设备 | |
KR102376552B1 (ko) | 음성 합성 장치 및 음성 합성 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110715 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120410 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120710 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120720 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5049310 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |