JP5277634B2 - 音声合成装置、音声合成方法及びプログラム - Google Patents
音声合成装置、音声合成方法及びプログラム Download PDFInfo
- Publication number
- JP5277634B2 JP5277634B2 JP2007557805A JP2007557805A JP5277634B2 JP 5277634 B2 JP5277634 B2 JP 5277634B2 JP 2007557805 A JP2007557805 A JP 2007557805A JP 2007557805 A JP2007557805 A JP 2007557805A JP 5277634 B2 JP5277634 B2 JP 5277634B2
- Authority
- JP
- Japan
- Prior art keywords
- music
- unit
- speech
- utterance format
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001308 synthesis method Methods 0.000 title claims description 10
- 230000015572 biosynthetic process Effects 0.000 title description 8
- 238000003786 synthesis reaction Methods 0.000 title description 8
- 238000000034 method Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 238000013459 approach Methods 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 238000013500 data storage Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/075—Musical metadata derived from musical analysis or for use in electrophonic musical instruments
- G10H2240/081—Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
12 単位波形選択部
13 波形生成部
151〜15N 韻律生成規則記憶部
161〜16N 単位波形データ記憶部
17 合成音声パワー調整部
18 合成音声パワー計算部
19 音楽信号パワー計算部
21 音楽ジャンル推定部
23、27 発話形式選択部
24、28 発話形式情報記憶部
31 音楽属性情報検索部
32 音楽属性情報記憶部
35 音楽再生部
36 再生音楽情報取得部
37 音楽データ記憶部
続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。図1は、本発明の第1の実施形態に係る音声合成装置の構成を表したブロック図である。図1を参照すると、本実施形態に係る音声合成装置は、韻律生成部11と、単位波形選択部12と、波形生成部13と、韻律生成規則記憶部151から15Nと、単位波形データ記憶部161から16Nと、音楽ジャンル推定部21と、発話形式選択部23と、発話形式情報記憶部24とを備えて構成されている。
上記第1、第2の実施形態では、入力音楽のジャンルを推定するものとしているが、近年の探索・照合手法を用いると、より精緻に入力音楽を分析することも可能である。以下、上記について改良を加えた本発明の第3の実施形態について図面を参照して詳細に説明する。図7は、本発明の第3の実施形態に係る音声合成装置の構成を表したブロック図である。
図9は、本発明の第4の実施形態に係る音声合成装置の構成を表したブロック図である。図9を参照すると、本実施形態に係る音声合成装置は、上記第1の実施形態に係る音声合成装置(図1参照)に対して、音楽再生部35、音楽データ記憶部37を追加するとともに、音楽ジャンル推定部21に代えて再生音楽情報取得部36を配設した構成となっている。
Claims (12)
- 入力された音楽信号が属する音楽ジャンルを推定する音楽ジャンル推定部と、
前記推定された音楽ジャンルに適合する発話形式を選択する発話形式選択部と、
前記発話形式に対応したパラメータに基づいて、合成音声を生成する音声合成部と、
前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整する合成音声パワー調整部と、
を有すること、
を特徴とする音声合成装置。 - 前記音声合成部が、
前記発話形式に従って韻律情報を生成する韻律生成部と、
前記発話形式に従って単位波形を選択する単位波形選択部と、を有すること、
を特徴とする請求項1に記載の音声合成装置。 - 前記音声合成部が、
発話形式毎の韻律生成規則を記憶する韻律生成規則記憶部と、
発話形式毎に単位波形を記憶する単位波形記憶部と、
前記発話形式に従って選択した韻律生成規則を参照して、発音記号列から韻律情報を生成する韻律生成部と、
単位波形記憶部に記憶された単位波形の中から前記発音記号列と前記韻律情報に応じた単位波形を選択する単位波形選択部と、
前記韻律情報に従って前記単位波形を合成し合成音声波形を生成する波形生成部と、を有すること、
を特徴とする請求項1に記載の音声合成装置。 - さらに、音楽とその属性を関連付けて記憶する音楽属性情報記憶部を備え、
前記音楽ジャンル推定部は、
前記音楽属性情報記憶部から、前記音楽信号から抽出した特徴量に類似する特徴量を有する音楽を検索し、前記検索された音楽の属性を、前記音楽信号の音楽ジャンルとして推定すること、
を特徴とする請求項1乃至3いずれか一に記載の音声合成装置。 - 音声合成装置を用いて合成音声を生成する音声合成方法であって、
前記音声合成装置が、入力された音楽信号が属する音楽ジャンルを推定するステップと、
前記推定された音楽ジャンルに適合する発話形式を選択するステップと、
前記音声合成装置が、前記発話形式に対応したパラメータに基づいて、合成音声を生成するステップと、
前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整するステップと、
を含むこと、
を特徴とする音声合成方法。 - 更に、
前記音声合成装置が前記発話形式に従って韻律情報を生成するステップと、
前記音声合成装置が前記発話形式に従って単位波形を選択するステップと、を含み、
前記音声合成装置が、前記韻律情報と前記単位波形とを用いて、音声を合成すること、
を特徴とする請求項5に記載の音声合成方法。 - 前記音声合成装置が、前記発話形式に従って音声を合成するステップが、
前記音声合成装置が、韻律生成規則記憶部に記憶された韻律生成規則の中から前記発話形式に応じて選択した韻律生成規則を参照して、発音記号列から韻律情報を生成するステップと、
前記音声合成装置が、前記発話形式毎に用意された単位波形の中から、前記発音記号列と前記韻律情報に応じた単位波形を選択するステップと、
前記音声合成装置が、前記韻律情報に従って前記単位波形を合成し合成音声波形を生成するステップと、を含んで構成されること、
を特徴とする請求項5に記載の音声合成方法。 - 前記音楽信号の音楽ジャンルの推定は、
前記音声合成装置が、音楽とその属性を関連付けて記憶する音楽属性情報記憶部から前記音楽信号から抽出した特徴量に類似する特徴量を有する音楽を検索することによって行われること、
を特徴とする請求項5乃至7いずれか一に記載の音声合成方法。 - 音声合成装置を構成するコンピュータに実行させるプログラムであって、
入力された音楽信号が属する音楽ジャンルを推定する処理と、
前記推定された音楽ジャンルに適合する発話形式を選択する処理と、
前記発話形式に対応したパラメータに基づいて、合成音声を生成する処理と、
前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整する処理と、
を前記コンピュータに実行させるプログラム。 - 前記発話形式に従って韻律情報を生成する処理と、
前記発話形式に従って単位波形を選択する処理と、を経て、
前記韻律情報と前記単位波形とを用いて、音声を合成する処理が行われること、
を特徴とする請求項9に記載のプログラム。 - 前記コンピュータに接続された韻律生成規則記憶部に記憶された韻律生成規則の中から前記発話形式に応じて選択した韻律生成規則を参照して、発音記号列から韻律情報を生成する処理と、
前記コンピュータに接続された単位波形記憶部に、前記発話形式毎に用意された単位波形の中から、前記発音記号列と前記韻律情報に応じた単位波形を選択する処理と、を経て、
前記韻律情報に従って前記単位波形を合成し、音声を合成する処理が行われること、
を特徴とする請求項9に記載のプログラム。 - 前記音声合成装置が、音楽とその属性を関連付けて記憶する音楽属性情報記憶部から前記音楽信号から抽出した特徴量に類似する特徴量を有する音楽を検索することによって、前記音楽信号の音楽ジャンルを推定すること、
を特徴とする請求項9乃至11いずれか一に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007557805A JP5277634B2 (ja) | 2006-02-08 | 2007-02-01 | 音声合成装置、音声合成方法及びプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006031442 | 2006-02-08 | ||
JP2006031442 | 2006-02-08 | ||
PCT/JP2007/051669 WO2007091475A1 (ja) | 2006-02-08 | 2007-02-01 | 音声合成装置、音声合成方法及びプログラム |
JP2007557805A JP5277634B2 (ja) | 2006-02-08 | 2007-02-01 | 音声合成装置、音声合成方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007091475A1 JPWO2007091475A1 (ja) | 2009-07-02 |
JP5277634B2 true JP5277634B2 (ja) | 2013-08-28 |
Family
ID=38345078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007557805A Expired - Fee Related JP5277634B2 (ja) | 2006-02-08 | 2007-02-01 | 音声合成装置、音声合成方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US8209180B2 (ja) |
JP (1) | JP5277634B2 (ja) |
CN (1) | CN101379549B (ja) |
WO (1) | WO2007091475A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009139022A1 (ja) * | 2008-05-15 | 2009-11-19 | パイオニア株式会社 | 音声出力装置およびプログラム |
US20130030789A1 (en) * | 2011-07-29 | 2013-01-31 | Reginald Dalce | Universal Language Translator |
US9959342B2 (en) * | 2016-06-28 | 2018-05-01 | Microsoft Technology Licensing, Llc | Audio augmented reality system |
US20210287655A1 (en) * | 2016-08-09 | 2021-09-16 | Sony Corporation | Information processing apparatus and information processing method |
EP3627496A4 (en) | 2017-05-16 | 2020-05-27 | Sony Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
EP3506255A1 (en) * | 2017-12-28 | 2019-07-03 | Spotify AB | Voice feedback for user interface of media playback device |
JP7128222B2 (ja) * | 2019-10-28 | 2022-08-30 | ネイバー コーポレーション | 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム |
CN112735454A (zh) * | 2020-12-30 | 2021-04-30 | 北京大米科技有限公司 | 音频处理方法、装置、电子设备和可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05307395A (ja) * | 1992-04-30 | 1993-11-19 | Sony Corp | 音声合成装置 |
JPH08328576A (ja) * | 1995-05-30 | 1996-12-13 | Nec Corp | 音声案内装置 |
JPH1020885A (ja) * | 1996-07-01 | 1998-01-23 | Fujitsu Ltd | 音声合成装置 |
JPH1115488A (ja) * | 1997-06-24 | 1999-01-22 | Hitachi Ltd | 合成音声評価・合成装置 |
JP2001309498A (ja) * | 2000-04-25 | 2001-11-02 | Alpine Electronics Inc | 音声制御装置 |
JP2004361874A (ja) * | 2003-06-09 | 2004-12-24 | Sanyo Electric Co Ltd | 音楽再生装置 |
JP2007086316A (ja) * | 2005-09-21 | 2007-04-05 | Mitsubishi Electric Corp | 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3070127B2 (ja) * | 1991-05-07 | 2000-07-24 | 株式会社明電舎 | 音声合成装置のアクセント成分制御方式 |
CN1028572C (zh) * | 1991-11-05 | 1995-05-24 | 湘潭市新产品开发研究所 | 声控自动伴奏机 |
JPH0837700A (ja) * | 1994-07-21 | 1996-02-06 | Kenwood Corp | 音場補正回路 |
JP3578598B2 (ja) | 1997-06-23 | 2004-10-20 | 株式会社リコー | 音声合成装置 |
JPH11161298A (ja) | 1997-11-28 | 1999-06-18 | Toshiba Corp | 音声合成方法及び装置 |
CA2328353A1 (en) * | 1998-04-14 | 1999-10-21 | Hearing Enhancement Company, Llc | User adjustable volume control that accommodates hearing |
US6446040B1 (en) * | 1998-06-17 | 2002-09-03 | Yahoo! Inc. | Intelligent text-to-speech synthesis |
JP2000105595A (ja) * | 1998-09-30 | 2000-04-11 | Victor Co Of Japan Ltd | 歌唱装置及び記録媒体 |
US6990453B2 (en) * | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US6731307B1 (en) * | 2000-10-30 | 2004-05-04 | Koninklije Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality |
US6915261B2 (en) * | 2001-03-16 | 2005-07-05 | Intel Corporation | Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs |
US7203647B2 (en) * | 2001-08-21 | 2007-04-10 | Canon Kabushiki Kaisha | Speech output apparatus, speech output method, and program |
JP2003058198A (ja) * | 2001-08-21 | 2003-02-28 | Canon Inc | 音声出力装置、音声出力方法、及び、プログラム |
JP2004205605A (ja) * | 2002-12-24 | 2004-07-22 | Yamaha Corp | 音声および楽曲再生装置およびシーケンスデータフォーマット |
JP4225167B2 (ja) * | 2003-08-29 | 2009-02-18 | ブラザー工業株式会社 | 音声合成装置、音声合成方法、及び音声合成プログラム |
US9042921B2 (en) * | 2005-09-21 | 2015-05-26 | Buckyball Mobile Inc. | Association of context data with a voice-message component |
US7684991B2 (en) * | 2006-01-05 | 2010-03-23 | Alpine Electronics, Inc. | Digital audio file search method and apparatus using text-to-speech processing |
-
2007
- 2007-02-01 WO PCT/JP2007/051669 patent/WO2007091475A1/ja active Search and Examination
- 2007-02-01 US US12/223,707 patent/US8209180B2/en active Active
- 2007-02-01 CN CN2007800048865A patent/CN101379549B/zh not_active Expired - Fee Related
- 2007-02-01 JP JP2007557805A patent/JP5277634B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05307395A (ja) * | 1992-04-30 | 1993-11-19 | Sony Corp | 音声合成装置 |
JPH08328576A (ja) * | 1995-05-30 | 1996-12-13 | Nec Corp | 音声案内装置 |
JPH1020885A (ja) * | 1996-07-01 | 1998-01-23 | Fujitsu Ltd | 音声合成装置 |
JPH1115488A (ja) * | 1997-06-24 | 1999-01-22 | Hitachi Ltd | 合成音声評価・合成装置 |
JP2001309498A (ja) * | 2000-04-25 | 2001-11-02 | Alpine Electronics Inc | 音声制御装置 |
JP2004361874A (ja) * | 2003-06-09 | 2004-12-24 | Sanyo Electric Co Ltd | 音楽再生装置 |
JP2007086316A (ja) * | 2005-09-21 | 2007-04-05 | Mitsubishi Electric Corp | 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN101379549B (zh) | 2011-11-23 |
WO2007091475A1 (ja) | 2007-08-16 |
CN101379549A (zh) | 2009-03-04 |
JPWO2007091475A1 (ja) | 2009-07-02 |
US20100145706A1 (en) | 2010-06-10 |
US8209180B2 (en) | 2012-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5277634B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
KR101274961B1 (ko) | 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템 | |
JP5143569B2 (ja) | 音響的特徴の同期化された修正のための方法及び装置 | |
US20060165240A1 (en) | Methods and apparatus for use in sound modification | |
US7613612B2 (en) | Voice synthesizer of multi sounds | |
CN105957515B (zh) | 声音合成方法、声音合成装置和存储声音合成程序的介质 | |
JP2016157136A (ja) | デジタル音声信号からハプティック・イベントを自動生成するシステム及び方法 | |
JP2008517315A (ja) | メディアコンテンツ項目のカテゴリに関してユーザに通知するためのデータ処理装置及び方法 | |
WO2008106698A1 (en) | Method for processing audio data into a condensed version | |
CN110211556B (zh) | 音乐文件的处理方法、装置、终端及存储介质 | |
CN101111884B (zh) | 用于声学特征的同步修改的方法和装置 | |
WO2018230670A1 (ja) | 歌唱音声の出力方法及び音声応答システム | |
US6915261B2 (en) | Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs | |
US20200105244A1 (en) | Singing voice synthesis method and singing voice synthesis system | |
JP2010014913A (ja) | 声質変換音声生成装置および声質変換音声生成システム | |
WO2014142200A1 (ja) | 音声処理装置 | |
JP2008216486A (ja) | 音楽再生システム | |
Puckette | Low-dimensional parameter mapping using spectral envelopes. | |
CN113781989A (zh) | 一种音频的动画播放、节奏卡点识别方法及相关装置 | |
CN113936629A (zh) | 音乐文件处理方法和装置、音乐演唱设备 | |
JP2016071187A (ja) | 音声合成装置、及び音声合成システム | |
Jayasinghe | Machine Singing Generation Through Deep Learning | |
JP2014157325A (ja) | 音響処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130423 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130506 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5277634 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |