JP2018155774A - 音声合成装置、音声合成方法およびプログラム - Google Patents
音声合成装置、音声合成方法およびプログラム Download PDFInfo
- Publication number
- JP2018155774A JP2018155774A JP2017049801A JP2017049801A JP2018155774A JP 2018155774 A JP2018155774 A JP 2018155774A JP 2017049801 A JP2017049801 A JP 2017049801A JP 2017049801 A JP2017049801 A JP 2017049801A JP 2018155774 A JP2018155774 A JP 2018155774A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speaker parameter
- parameter value
- registration
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 32
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 32
- 238000009826 distribution Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 description 28
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 27
- 238000010586 diagram Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 13
- 238000012790 confirmation Methods 0.000 description 10
- 238000003066 decision tree Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0283—Price estimation or determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
【解決手段】実施形態の音声合成装置は、音声合成部と、話者パラメータ記憶部と、利用可否判定部と、話者パラメータ制御部と、を備える。音声合成部は、話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能である。話者パラメータ記憶部は、登録済み話者パラメータ値を記憶する。利用可否判定部は、入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定する。話者パラメータ制御部は、前記利用可否判定部により利用不可と判定された話者パラメータ値の利用を禁止または制限する。
【選択図】図1
Description
図1は、第1実施形態に係る音声合成装置の機能的な構成例を示すブロック図である。図1に示すように、本実施形態の音声合成装置は、音声合成部10と、音声合成モデル記憶部20と、表示・入力制御部30と、話者パラメータ制御部40と、話者パラメータ記憶部50と、利用可否判定部60とを備える。
次に、第2実施形態について説明する。上述の第1実施形態においては、音声合成装置とは別の装置を用いて話者パラメータ値の登録を行うことを前提としていたが、話者パラメータ値の設定や利用を行う音声合成装置を用いて話者パラメータ値の登録を行うこともできれば、利用者の使い勝手が向上する。そこで、本実施形態では、話者パラメータを登録する機能を音声合成装置に持たせるようにしている。
Diff(Pin,P(j))≦(THRE(j)+THREin) ・・・(2)
Diff(Pin,P(j))≦THRE(j)・・・(3)
Diff(Pin subset,P(j))>(THRE(j)+THREin)(j=0,1,・・・,C−1) ・・・(4)
そして、利用可否判定部60は、この調整された話者パラメータ値Pin subsetを話者パラメータ制御部40に渡すとともに、この調整された話者パラメータ値Pin subsetを登録するか否かの問い合わせを話者パラメータ制御部40に要請する。この要請に応じて、話者パラメータ制御部40は、調整されたパラメータ値Pin subsetを登録するか否かを利用者に問い合わせることを表示・入力制御部30に指示し、表示・入力制御部30が提供するユーザインタフェースを通じて、利用者に対する問い合わせが行われる。そして、利用者から調整された話者パラメータ値Pin subsetの登録要請があると、話者パラメータ制御部40が調整された話者パラメータ値Pin subsetの登録を話者パラメータ登録部70に指示する。
Diff(Pin,P(j))>(THRE(j)+THREin subset)(j=0,1,・・・,C−1) ・・・(5)
この場合、利用可否判定部60は、この代替案THREin subsetを話者パラメータ制御部40に渡すとともに、登録範囲を狭くして話者パラメータ値Pinを登録するか否かの問い合わせを話者パラメータ制御部40に要請する。この要請に応じて、話者パラメータ制御部40は、登録範囲を狭くして話者パラメータ値Pinを登録するかを利用者に問い合わせることを表示・入力制御部30に指示し、表示・入力制御部30が提供するユーザインタフェースを通じて、利用者に対する問い合わせが行われる。そして、利用者から登録範囲を狭くした話者パラメータ値Pinの登録要請があると、話者パラメータ制御部40が、登録範囲を狭くした話者パラメータ値Pinの登録を話者パラメータ登録部70に指示する。
Diff(Pin,P(j))≦Dadj ・・・(6)
次に、第3実施形態について説明する。上述の第1実施形態においては、話者パラメータ値そのものを用いて入力された話者パラメータ値と登録済み話者パラメータ値との差異を求めたが、この場合、音声合成モデルの更新などによって、話者パラメータの定義や値の種類が変わった場合、変更前後での話者パラメータ値の比較ができず、変更前に登録された話者パラメータ値が変更後には使えなくなってしまう。そこで、本実施形態では、入力された話者パラメータ値と登録済み話者パラメータ値との差異を求める際に、その値そのものを使うのではなく、比較する話者パラメータ値のそれぞれを、共通する別のパラメータ空間に写像して、そのパラメータ空間において差異を算出する。
Diff(P1 SA,P2 SB)=DiffSX(mapSA→SX(P1 SA),mapSB→SX(P2 SB)) ・・・(7)
ただし、DiffSXはパラメータ空間SXに写像された話者パラメータ間での差異を表す。
上述の各実施形態の音声合成装置は、例えば、汎用のコンピュータを基本ハードウェアとして用いて実現することが可能である。すなわち、上述の各実施形態の音声合成装置の各部の機能は、汎用のコンピュータに搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声合成装置は、上記のプログラムをコンピュータにあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。
11 選択部
12 加算部
20 音声合成モデル記憶部
30 表示・入力制御部
40 話者パラメータ制御部
50 話者パラメータ記憶部
60 利用可否判定部
70 話者パラメータ登録部
80 課金処理部
Claims (15)
- 話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能な音声合成部と、
登録済み話者パラメータ値を記憶する話者パラメータ記憶部と、
入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定する利用可否判定部と、
前記利用可否判定部により利用不可と判定された話者パラメータ値の利用を禁止または制限する話者パラメータ制御部と、
を備える音声合成装置。 - ベースとなる話者性をモデル化したベースモデルと、話者性の各要素の特徴をモデル化した話者性制御モデルと、を含む音声合成モデルを記憶する音声合成モデル記憶部をさらに備え、
前記音声合成部は、前記ベースモデルと前記話者性制御モデルから複数の統計量を選択する選択部と、指定された話者パラメータ値に従って、前記統計量を重み付き加算する加算部とを含み、前記加算部によって重み付き加算された統計量を用いて前記合成音の音声波形を生成する
請求項1に記載の音声合成装置。 - 前記利用可否判定部は、入力された話者パラメータ値と登録済み話者パラメータ値との差異を所定の関数によって算出し、算出した差異が、登録済み話者パラメータ値の登録範囲を示す第1閾値以下である場合に、入力された話者パラメータ値を利用不可と判定する
請求項1または2に記載の音声合成装置。 - 前記話者パラメータ記憶部は、登録済み話者パラメータ値に固有の前記第1閾値をさらに記憶する
請求項3に記載の音声合成装置。 - 前記利用可否判定部は、入力された話者パラメータ値と登録済み話者パラメータ値のそれぞれを共通の話者パラメータ空間に写像し、該話者パラメータ空間上で入力された話者パラメータ値と登録済み話者パラメータ値との差異を算出する
請求項3または4に記載の音声合成装置。 - 入力された話者パラメータ値を前記話者パラメータ記憶部に登録する話者パラメータ登録部をさらに備え、
前記話者パラメータ制御部は、利用者からの登録要請に基づき、前記話者パラメータ登録部に対して話者パラメータ値の登録指示を出す
請求項1乃至5のいずれか一項に記載の音声合成装置。 - 前記利用可否判定部は、入力された話者パラメータ値の登録可否をさらに判定し、
前記話者パラメータ制御部は、前記利用可否判定部により登録可と判定された場合に、前記話者パラメータ登録部に対して、入力された話者パラメータ値の登録指示を出す
請求項6に記載の音声合成装置。 - 前記利用可否判定部は、入力された話者パラメータ値と登録済み話者パラメータ値との差異を所定の関数によって算出し、算出した差異が、登録済み話者パラメータ値の登録範囲を示す第1閾値に対し、入力された話者パラメータ値の登録範囲を示す第2閾値を加算して得られた第3閾値以下である場合に、入力された話者パラメータ値を登録不可と判定する
請求項7に記載の音声合成装置。 - 前記利用可否判定部は、入力された話者パラメータ値との差異が前記第1閾値を超えるが前記第3閾値以下となるような登録済み話者パラメータ値があった場合、前記差異が前記第3閾値を超えるように調整された話者パラメータ値を登録するか否かを利用者に問い合わせ、
前記パラメータ制御部は、利用者から前記調整された話者パラメータ値の登録要請があった場合に、前記話者パラメータ登録部に対して、前記調整された話者パラメータ値の登録指示を出す
請求項8に記載の音声合成装置。 - 前記利用可否判定部は、入力された話者パラメータ値との差異が前記第1閾値を超えるが前記第3閾値以下となるような登録済み話者パラメータ値があった場合、前記差異が前記第3閾値を超えるように、入力された話者パラメータ値の登録範囲を狭くして登録するか否かを利用者に問い合わせ、
前記パラメータ制御部は、利用者から登録範囲を狭くした話者パラメータの登録要請があった場合に、前記話者パラメータ登録部に対して、登録範囲を狭くした話者パラメータ値の登録指示を出す
請求項8に記載の音声合成装置。 - 前記利用可否判定部は、さらに、話者パラメータ値を登録する場合の登録料を算出し、
話者パラメータ値が前記話者パラメータ記憶部に登録された場合に、前記登録料に基づいた課金処理を行う課金処理部をさらに備える
請求項6乃至10のいずれか一項に記載の音声合成装置。 - 前記利用可否判定部は、登録する話者パラメータ値と、登録済み話者パラメータ値の分布との関係に基づいて、前記登録料を算出する
請求項11に記載の音声合成装置。 - 前記話者パラメータ記憶部は、登録済み話者パラメータ値の所有者の情報と利用条件に関わる情報の少なくとも一方をさらに記憶する
請求項1乃至12のいずれか一項に記載の音声合成装置。 - 話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能な音声合成装置において実行される音声合成方法であって、
入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定するステップと、
利用不可と判定された話者パラメータ値の利用を禁止または制限するステップと、
を含む音声合成方法。 - コンピュータを、話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能な音声合成装置として機能させるためのプログラムであって、
前記コンピュータに、
入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定するステップと、
利用不可と判定された話者パラメータ値の利用を禁止または制限するステップと、
を実行させるプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017049801A JP2018155774A (ja) | 2017-03-15 | 2017-03-15 | 音声合成装置、音声合成方法およびプログラム |
CN201780088311.XA CN110431621A (zh) | 2017-03-15 | 2017-09-26 | 声音合成装置、声音合成方法及程序 |
PCT/JP2017/034648 WO2018168032A1 (ja) | 2017-03-15 | 2017-09-26 | 音声合成装置、音声合成方法およびプログラム |
US16/561,584 US20200066250A1 (en) | 2017-03-15 | 2019-09-05 | Speech synthesis device, speech synthesis method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017049801A JP2018155774A (ja) | 2017-03-15 | 2017-03-15 | 音声合成装置、音声合成方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018155774A true JP2018155774A (ja) | 2018-10-04 |
Family
ID=63522880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017049801A Pending JP2018155774A (ja) | 2017-03-15 | 2017-03-15 | 音声合成装置、音声合成方法およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200066250A1 (ja) |
JP (1) | JP2018155774A (ja) |
CN (1) | CN110431621A (ja) |
WO (1) | WO2018168032A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200119217A (ko) * | 2019-04-09 | 2020-10-19 | 네오사피엔스 주식회사 | 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템 |
KR102663669B1 (ko) * | 2019-11-01 | 2024-05-08 | 엘지전자 주식회사 | 소음 환경에서의 음성 합성 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0863188A (ja) * | 1994-08-18 | 1996-03-08 | Nec Corp | 音声合成装置 |
JP2004295379A (ja) * | 2003-03-26 | 2004-10-21 | Seiko Epson Corp | データ提供システム及びデータ提供方法並びにデータ提供プログラム |
JP2013109274A (ja) * | 2011-11-24 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 目標話者学習方法、その装置及びプログラム |
JP2013214063A (ja) * | 2012-03-30 | 2013-10-17 | Toshiba Corp | テキスト読み上げシステム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
CN106067996B (zh) * | 2015-04-24 | 2019-09-17 | 松下知识产权经营株式会社 | 语音再现方法、语音对话装置 |
-
2017
- 2017-03-15 JP JP2017049801A patent/JP2018155774A/ja active Pending
- 2017-09-26 CN CN201780088311.XA patent/CN110431621A/zh active Pending
- 2017-09-26 WO PCT/JP2017/034648 patent/WO2018168032A1/ja active Application Filing
-
2019
- 2019-09-05 US US16/561,584 patent/US20200066250A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0863188A (ja) * | 1994-08-18 | 1996-03-08 | Nec Corp | 音声合成装置 |
JP2004295379A (ja) * | 2003-03-26 | 2004-10-21 | Seiko Epson Corp | データ提供システム及びデータ提供方法並びにデータ提供プログラム |
JP2013109274A (ja) * | 2011-11-24 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 目標話者学習方法、その装置及びプログラム |
JP2013214063A (ja) * | 2012-03-30 | 2013-10-17 | Toshiba Corp | テキスト読み上げシステム |
Also Published As
Publication number | Publication date |
---|---|
WO2018168032A1 (ja) | 2018-09-20 |
US20200066250A1 (en) | 2020-02-27 |
CN110431621A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10861476B2 (en) | System and method for building a voice database | |
JP6246777B2 (ja) | 音声合成方法、装置及びプログラム | |
US9905219B2 (en) | Speech synthesis apparatus, method, and computer-readable medium that generates synthesized speech having prosodic feature | |
US20100250257A1 (en) | Voice quality edit device and voice quality edit method | |
WO2020145353A1 (ja) | コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法 | |
KR20220115157A (ko) | 사용자의 발성을 분석하는 방법 및 이를 수행하는 장치 | |
CN105957515A (zh) | 声音合成方法、声音合成装置和存储声音合成程序的介质 | |
US10872597B2 (en) | Speech synthesis dictionary delivery device, speech synthesis system, and program storage medium | |
US11289066B2 (en) | Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning | |
JP2017220238A (ja) | 質問応答システムにおける回答の提供方法及び装置 | |
WO2018168032A1 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP7069819B2 (ja) | コード特定方法、コード特定装置およびプログラム | |
Li et al. | A perceptual dissimilarities based nonlinear sound quality model for range hood noise | |
WO2019181767A1 (ja) | 音処理方法、音処理装置およびプログラム | |
JP6271748B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
US10978076B2 (en) | Speaker retrieval device, speaker retrieval method, and computer program product | |
Gabrielli et al. | End-to-end learning for physics-based acoustic modeling | |
JP7125608B2 (ja) | 音響モデル学習装置、音声合成装置、及びプログラム | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
Gabrielli et al. | A multi-stage algorithm for acoustic physical model parameters estimation | |
CN114822497A (zh) | 语音合成模型的训练及语音合成方法、装置、设备和介质 | |
JP7214841B2 (ja) | 閾値調整装置、閾値調整方法および記録媒体 | |
US11640819B2 (en) | Information processing apparatus and update method | |
JP7339151B2 (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
JP6902759B2 (ja) | 音響モデル学習装置、音声合成装置、方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20170904 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20170905 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20190903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190903 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200124 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20200615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201117 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210713 |