JP2015041081A5 - - Google Patents

Download PDF

Info

Publication number
JP2015041081A5
JP2015041081A5 JP2013173634A JP2013173634A JP2015041081A5 JP 2015041081 A5 JP2015041081 A5 JP 2015041081A5 JP 2013173634 A JP2013173634 A JP 2013173634A JP 2013173634 A JP2013173634 A JP 2013173634A JP 2015041081 A5 JP2015041081 A5 JP 2015041081A5
Authority
JP
Japan
Prior art keywords
pattern
component
generation
model
time change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013173634A
Other languages
English (en)
Other versions
JP5807921B2 (ja
JP2015041081A (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from JP2013173634A external-priority patent/JP5807921B2/ja
Priority to JP2013173634A priority Critical patent/JP5807921B2/ja
Priority to EP14837587.6A priority patent/EP3038103A4/en
Priority to CN201480045803.7A priority patent/CN105474307A/zh
Priority to US14/911,189 priority patent/US20160189705A1/en
Priority to PCT/JP2014/071392 priority patent/WO2015025788A1/ja
Priority to KR1020167001355A priority patent/KR20160045673A/ko
Publication of JP2015041081A publication Critical patent/JP2015041081A/ja
Publication of JP2015041081A5 publication Critical patent/JP2015041081A5/ja
Publication of JP5807921B2 publication Critical patent/JP5807921B2/ja
Application granted granted Critical
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (6)

  1. 音声データ信号からF0パターンを抽出するF0パターン抽出手段と、
    抽出されたF0パターンにフィットするF0パターンをフレーズ成分とアクセント成分との重畳により表すために、フレーズ成分を表すターゲットパラメータと、アクセント成分を表すターゲットパラメータとを推定するパラメータ推定手段と、
    前記パラメータ推定手段により推定されたターゲットパラメータにしたがって、前記抽出されたF0パターンにフィットするF0パターンを生成するF0パターン生成手段と、
    複数の音声データから、前記F0パターン抽出手段、前記パラメータ推定手段、及び前記F0パターン生成手段により生成された連続的なF0パターンを学習データとして、F0生成モデルの学習を行なうモデル学習手段とを含む、F0パターン生成のためのモデル学習装置。
  2. 音声データ信号からF0パターンを抽出するF0パターン抽出手段と、
    抽出されたF0パターンにフィットするF0パターンからフレーズ成分の時間変化パターンと、アクセント成分の時間変化パターンとを分離するための分離手段と、
    複数の音声データから前記F0パターン抽出手段及び前記分離手段によって得られた前記フレーズ成分の時間変化パターンと、前記アクセント成分の時間変化パターンとをそれぞれ学習データとして、フレーズ成分生成用の第1の生成モデルと、アクセント成分生成用の第2の生成モデルとの学習を行なうモデル学習手段とを含む、F0パターン生成のためのモデル学習装置。
  3. 前記モデル学習手段は、前記フレーズ成分の時間変化パターン及び前記アクセント成分の時間変化パターンから得られる、時間情報を共有したマルチストリーム形式の学習データにより、前記第1及び第2の生成モデルの学習を行う手段を含む、請求項2に記載のモデル学習装置。
  4. 前記分離手段は、前記F0パターン抽出手段により抽出されたF0パターンにフィットするF0パターンからフレーズ成分の時間変化パターンと、アクセント成分の時間変化パターンと、マイクロ・プロソディ成分の時間変化パターンとに分離するための手段を含み、
    前記モデル学習装置は、複数の音声データから前記F0パターン抽出手段及び前記分離手段によって得られた前記フレーズ成分の時間変化パターンと、前記アクセント成分の時間変化パターンと、前記マイクロ・プロディ成分の時間変化パターンとをそれぞれ用いて、前記第1の生成モデル、前記第2の生成モデル、及びマイクロ・プロソディ成分のための第3の生成モデルの学習を行なうためのモデル学習手段とを含む、請求項2に記載のF0パターン生成のためのモデル学習装置。
  5. F0パターンのフレーズ成分生成用の第1の生成モデルと、F0パターンのアクセント成分生成用の第2の生成モデルと、F0パターンのマイクロ・プロソディ成分の生成用の第3の生成モデルとのパラメータを記憶するモデル記憶手段と、
    音声合成の対象となるテキストの入力を受けてテキスト解析し、音声合成用の制御記号列を出力するテキスト解析手段と、
    前記テキスト解析手段の出力する制御記号列を前記第1の生成モデルと照合することにより、F0パターンのフレーズ成分を生成するフレーズ成分生成手段と、
    前記テキスト解析手段の出力する制御記号列を前記第2の生成モデルと照合することにより、F0パターンのアクセント成分を生成するアクセント成分生成手段と、
    前記テキスト解析手段の出力する制御記号列を前記第3の生成モデルと照合することにより、F0パターンのマイクロ・プロソディ成分を生成するマイクロ・プロソディ成分生成手段と、
    前記フレーズ成分生成手段により生成されたフレーズ成分前記アクセント成分生成手段により生成されたアクセント成分、及び前記マイクロ・プロソディ成分生成手段により生成されたマイクロ・プロソディ成分を合成することにより、F0パターンを生成するF0パターン生成手段とを含む、定量的F0パターン生成装置。
  6. コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項5のいずれかに記載の全ての手段として機能させる、コンピュータプログラム。
JP2013173634A 2013-08-23 2013-08-23 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム Expired - Fee Related JP5807921B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2013173634A JP5807921B2 (ja) 2013-08-23 2013-08-23 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
PCT/JP2014/071392 WO2015025788A1 (ja) 2013-08-23 2014-08-13 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
CN201480045803.7A CN105474307A (zh) 2013-08-23 2014-08-13 定量的f0轮廓生成装置及方法、以及用于生成f0轮廓的模型学习装置及方法
US14/911,189 US20160189705A1 (en) 2013-08-23 2014-08-13 Quantitative f0 contour generating device and method, and model learning device and method for f0 contour generation
EP14837587.6A EP3038103A4 (en) 2013-08-23 2014-08-13 Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern
KR1020167001355A KR20160045673A (ko) 2013-08-23 2014-08-13 정량적 f0 패턴 생성 장치 및 방법, 그리고 f0 패턴 생성을 위한 모델 학습 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013173634A JP5807921B2 (ja) 2013-08-23 2013-08-23 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015155708A Division JP6137708B2 (ja) 2015-08-06 2015-08-06 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2015041081A JP2015041081A (ja) 2015-03-02
JP2015041081A5 true JP2015041081A5 (ja) 2015-06-18
JP5807921B2 JP5807921B2 (ja) 2015-11-10

Family

ID=52483564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013173634A Expired - Fee Related JP5807921B2 (ja) 2013-08-23 2013-08-23 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム

Country Status (6)

Country Link
US (1) US20160189705A1 (ja)
EP (1) EP3038103A4 (ja)
JP (1) JP5807921B2 (ja)
KR (1) KR20160045673A (ja)
CN (1) CN105474307A (ja)
WO (1) WO2015025788A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6468519B2 (ja) * 2016-02-23 2019-02-13 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
JP6472005B2 (ja) * 2016-02-23 2019-02-20 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
JP6468518B2 (ja) * 2016-02-23 2019-02-13 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
JP6876641B2 (ja) * 2018-02-20 2021-05-26 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
CN112530213B (zh) * 2020-12-25 2022-06-03 方湘 一种汉语音调学习方法及系统

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
JP3077981B2 (ja) * 1988-10-22 2000-08-21 博也 藤崎 基本周波数パタン生成装置
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus
JPH06332490A (ja) * 1993-05-20 1994-12-02 Meidensha Corp 音声合成装置のアクセント成分基本テーブルの作成方法
JP2880433B2 (ja) * 1995-09-20 1999-04-12 株式会社エイ・ティ・アール音声翻訳通信研究所 音声合成装置
JPH09198073A (ja) * 1996-01-11 1997-07-31 Secom Co Ltd 音声合成装置
WO2000058943A1 (fr) * 1999-03-25 2000-10-05 Matsushita Electric Industrial Co., Ltd. Systeme et procede de synthese de la parole
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
KR20010089811A (ko) * 1999-11-11 2001-10-08 요트.게.아. 롤페즈 음성 인식 시스템
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US6856958B2 (en) * 2000-09-05 2005-02-15 Lucent Technologies Inc. Methods and apparatus for text to speech processing using language independent prosody markup
CN1187693C (zh) * 2000-09-30 2005-02-02 英特尔公司 以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统
US7263488B2 (en) * 2000-12-04 2007-08-28 Microsoft Corporation Method and apparatus for identifying prosodic word boundaries
US6845358B2 (en) * 2001-01-05 2005-01-18 Matsushita Electric Industrial Co., Ltd. Prosody template matching for text-to-speech systems
US7200558B2 (en) * 2001-03-08 2007-04-03 Matsushita Electric Industrial Co., Ltd. Prosody generating device, prosody generating method, and program
US7035794B2 (en) * 2001-03-30 2006-04-25 Intel Corporation Compressing and using a concatenative speech database in text-to-speech systems
US20030055640A1 (en) * 2001-05-01 2003-03-20 Ramot University Authority For Applied Research & Industrial Development Ltd. System and method for parameter estimation for pattern recognition
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
CN1234109C (zh) * 2001-08-22 2005-12-28 国际商业机器公司 语调生成方法、语音合成装置、语音合成方法及语音服务器
US7136802B2 (en) * 2002-01-16 2006-11-14 Intel Corporation Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
US20030191645A1 (en) * 2002-04-05 2003-10-09 Guojun Zhou Statistical pronunciation model for text to speech
US7136818B1 (en) * 2002-05-16 2006-11-14 At&T Corp. System and method of providing conversational visual prosody for talking heads
US7219059B2 (en) * 2002-07-03 2007-05-15 Lucent Technologies Inc. Automatic pronunciation scoring for language learning
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7467087B1 (en) * 2002-10-10 2008-12-16 Gillick Laurence S Training and using pronunciation guessers in speech recognition
US8768701B2 (en) * 2003-01-24 2014-07-01 Nuance Communications, Inc. Prosodic mimic method and apparatus
US20050086052A1 (en) * 2003-10-16 2005-04-21 Hsuan-Huei Shih Humming transcription system and methodology
US7315811B2 (en) * 2003-12-31 2008-01-01 Dictaphone Corporation System and method for accented modification of a language model
US20050187772A1 (en) * 2004-02-25 2005-08-25 Fuji Xerox Co., Ltd. Systems and methods for synthesizing speech using discourse function level prosodic features
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
US20060259303A1 (en) * 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis
WO2006123539A1 (ja) * 2005-05-18 2006-11-23 Matsushita Electric Industrial Co., Ltd. 音声合成装置
CN1945693B (zh) * 2005-10-09 2010-10-13 株式会社东芝 训练韵律统计模型、韵律切分和语音合成的方法及装置
JP4559950B2 (ja) * 2005-10-20 2010-10-13 株式会社東芝 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
JP4787769B2 (ja) * 2007-02-07 2011-10-05 日本電信電話株式会社 F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
JP4455610B2 (ja) * 2007-03-28 2010-04-21 株式会社東芝 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US7996214B2 (en) * 2007-11-01 2011-08-09 At&T Intellectual Property I, L.P. System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework
JP5025550B2 (ja) * 2008-04-01 2012-09-12 株式会社東芝 音声処理装置、音声処理方法及びプログラム
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US8571849B2 (en) * 2008-09-30 2013-10-29 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information
US8321225B1 (en) * 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
US8296141B2 (en) * 2008-11-19 2012-10-23 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
JP5293460B2 (ja) * 2009-07-02 2013-09-18 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
JP5747562B2 (ja) * 2010-10-28 2015-07-15 ヤマハ株式会社 音響処理装置
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
US9087519B2 (en) * 2011-03-25 2015-07-21 Educational Testing Service Computer-implemented systems and methods for evaluating prosodic features of speech
WO2012164835A1 (ja) * 2011-05-30 2012-12-06 日本電気株式会社 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
US9135231B1 (en) * 2012-10-04 2015-09-15 Google Inc. Training punctuation models
US9224387B1 (en) * 2012-12-04 2015-12-29 Amazon Technologies, Inc. Targeted detection of regions in speech processing data streams
US9495955B1 (en) * 2013-01-02 2016-11-15 Amazon Technologies, Inc. Acoustic model training
US9292489B1 (en) * 2013-01-16 2016-03-22 Google Inc. Sub-lexical language models with word level pronunciation lexicons
US9761247B2 (en) * 2013-01-31 2017-09-12 Microsoft Technology Licensing, Llc Prosodic and lexical addressee detection

Similar Documents

Publication Publication Date Title
JP2015041081A5 (ja)
JP2012226744A5 (ja)
EP3048607A3 (en) Automatic transcription of musical content and real-time musical accompaniment
JP2017016131A (ja) 音声認識装置及び方法と電子装置
EP3828719A3 (en) Method and apparatus for generating model for representing heterogeneous graph node, electronic device, storage medium, and computer program product
JP2020038699A5 (ja)
WO2014174497A3 (en) Apparatus and method for providing musical content based on graphical user inputs
JP2015092654A5 (ja)
JP2019502981A5 (ja)
EP2860672A3 (en) Scalable cross domain recommendation system
JP2013175108A5 (ja)
JP2014515833A5 (ja)
JP2014202857A5 (ja)
JP2015096105A5 (ja)
JP2016071029A5 (ja)
JP2014066779A5 (ja)
EP2988105A3 (de) Vorrichtung und verfahren zur automatischen erkennung und klassifizierung von hörbaren akustischen signalen in einem überwachungsbereich
JP2016046538A5 (ja)
JP2015109649A5 (ja) 生成装置、再生装置、生成方法および再生方法
JP2013243637A5 (ja)
JP2019028106A5 (ja) 情報処理方法、情報処理装置およびプログラム
WO2015083091A3 (en) Classifying human crowd noise data
JP2016047207A5 (ja)
JP2014135543A5 (ja) 予定に係る音声メモ蓄積方法
EP2851809A3 (en) Machine translation apparatus and method