JP5320363B2 - 音声編集方法、装置及び音声合成方法 - Google Patents
音声編集方法、装置及び音声合成方法 Download PDFInfo
- Publication number
- JP5320363B2 JP5320363B2 JP2010202448A JP2010202448A JP5320363B2 JP 5320363 B2 JP5320363 B2 JP 5320363B2 JP 2010202448 A JP2010202448 A JP 2010202448A JP 2010202448 A JP2010202448 A JP 2010202448A JP 5320363 B2 JP5320363 B2 JP 5320363B2
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- information
- speech
- sound
- sound piece
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 23
- 238000001308 synthesis method Methods 0.000 title description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002940 repellent Effects 0.000 description 1
- 239000005871 repellent Substances 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephone Function (AREA)
Description
第1の実施の形態に係る音声編集装置1は、規則合成方式により、ユーザが入力したテキストから音韻情報、韻律情報、及び音声波形を作成する。音声波形を、音声波形の素片である音片波形に分割する。全ての音片波形の中で、波形が一致又は類似する音片波形を探索して、それらを代表する代表音片波形を選択しておく。このような代表音片波形を、音声を合成して出力する音声合成装置等に用いる。
本実施の形態で、探索部14は、波形が一致又は類似する音片波形を探索したが、本例において、探索部14は、韻律情報が一致又は類似する音片波形を探索する。
本変形例において、探索部14は、音韻情報が一致する音片波形を探索する。
上述した変形例では、生成部12が生成した音声波形を分割部13が音片波形に分割したが、これに限定されない。例えば以下のようにしてもよい。
第2の実施の形態に係る音声編集装置(不図示)は、最も厳しい条件(条件1)を用いて、特徴が一致又は類似する音片波形を探索する。探索後に残った音片波形のデータ量の合計が所定値以下となれば、音片波形を記憶部50に記憶させる。所定の所定値以下とならなければ、次に厳しい条件(条件2)を用いて特徴が一致又は類似する音片波形を探索する。これを繰り返し、記憶部50に記憶させる音片波形のデータ量を制限する。本実施の形態では、探索部14の処理が第1の実施の形態と異なる。
第3の実施の形態に係る音声合成装置3は、上述した実施の形態において、記憶部50に記憶された音片波形を用いて、音声を合成する音声合成装置である。
3 音声合成装置
11、31 入力部
12 生成部
13 分割部
14 探索部
32 合成部
33 出力部
50 記憶部
Claims (8)
- 入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、
前記音声情報から規則音声合成を用いて音声波形を生成し、
前記音韻情報に基づいて前記音声波形を複数の音片波形に分割し、
複数の前記音片波形の中で、波形がそれぞれ一致又は類似する2つ以上の前記音片波形を探索し、
探索した2つ以上の音片波形から代表音片波形を選択し、
前記代表音片波形を記憶部に記憶する、
音声編集方法。 - 入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、
前記音声情報から規則音声合成を用いて音声波形を生成し、
前記音韻情報に基づいて前記音声波形を複数の音片波形に分割し、
複数の前記音片波形の中で、対応する前記音韻情報がそれぞれ一致し、かつ、対応する前記韻律情報がそれぞれ一致又は類似する2つ以上の前記音片波形を探索し、
探索した2つ以上の前記音片波形から代表音片波形を選択し、
前記代表音片波形を記憶部に記憶する、
音声編集方法。 - 前記音片波形に分割する際には、
前記音韻情報により、無声音区間またはポーズ区間と判定され、かつ前記音声波形の振幅の絶対値が所定の閾値未満となる時刻で、前記音声情報を複数の前記音片波形に分割する、請求項1または請求項2記載の音声編集方法。 - 入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、
前記音韻情報に基づいて前記音声情報を複数の音片情報に分割し、
複数の前記音片情報の中で、前記音韻情報がそれぞれ一致し、かつ、前記韻律情報がそれぞれ一致又は類似する2つ以上の前記音片情報を探索し、
探索した2つ以上の前記音片情報を代表する代表音片情報を生成し、
前記代表音片情報に対応する代表音片波形を、規則音声合成を用いて生成し、
前記代表音片波形を記憶部に記憶する、
音声編集方法。 - 前記代表音片情報を生成する際には、
探索した2つ以上の前記音片情報の前記韻律情報を平均化することにより前記代表音片情報の前記韻律情報を生成する、
請求項4記載の音声編集方法。 - 入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、前記音声情報から規則音声合成を用いて音声波形を生成する生成部と、
前記音韻情報に基づいて前記音声波形を複数の音片波形に分割する分割部と、
複数の前記音片波形の中で、波形がそれぞれ一致又は類似する2つ以上の前記音片波形を探索し、探索した2つ以上の音片波形から代表音片波形を選択し、前記代表音片波形を記憶部に記憶する探索部と
を備える、音声編集装置。 - 入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、前記音声情報から規則音声合成を用いて音声波形を生成する生成部と、
前記音韻情報に基づいて前記音声波形を複数の音片波形に分割する分割部と、
複数の前記音片波形の中で、対応する前記音韻情報がそれぞれ一致し、かつ、対応する前記韻律情報がそれぞれ一致又は類似する2つ以上の前記音片波形を探索し、探索した2つ以上の前記音片波形から代表音片波形を選択し、前記代表音片波形を記憶部に記憶する探索部と
を備える、音声編集装置。 - 入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成する生成部と、
前記音韻情報に基づいて前記音声情報を複数の音片情報に分割する分割部と、
複数の前記音片情報の中で、前記音韻情報がそれぞれ一致し、かつ、前記韻律情報がそれぞれ一致又は類似する2つ以上の前記音片情報を探索し、探索した2つ以上の前記音片情報を代表する代表音片情報を生成し、前記代表音片情報に対応する代表音片波形を、規則音声合成を用いて生成し、前記代表音片波形を記憶部に記憶する探索部と
を備える、音声編集装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010202448A JP5320363B2 (ja) | 2010-03-26 | 2010-09-09 | 音声編集方法、装置及び音声合成方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010073694 | 2010-03-26 | ||
JP2010073694 | 2010-03-26 | ||
JP2010202448A JP5320363B2 (ja) | 2010-03-26 | 2010-09-09 | 音声編集方法、装置及び音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011221486A JP2011221486A (ja) | 2011-11-04 |
JP5320363B2 true JP5320363B2 (ja) | 2013-10-23 |
Family
ID=44657386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010202448A Active JP5320363B2 (ja) | 2010-03-26 | 2010-09-09 | 音声編集方法、装置及び音声合成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8868422B2 (ja) |
JP (1) | JP5320363B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120173242A1 (en) * | 2010-12-30 | 2012-07-05 | Samsung Electronics Co., Ltd. | System and method for exchange of scribble data between gsm devices along with voice |
JP5743625B2 (ja) * | 2011-03-17 | 2015-07-01 | 株式会社東芝 | 音声合成編集装置および音声合成編集方法 |
JP5840075B2 (ja) * | 2012-06-01 | 2016-01-06 | 日本電信電話株式会社 | 音声波形データベース生成装置、方法、プログラム |
CN104240703B (zh) * | 2014-08-21 | 2018-03-06 | 广州三星通信技术研究有限公司 | 语音信息处理方法和装置 |
US11150871B2 (en) * | 2017-08-18 | 2021-10-19 | Colossio, Inc. | Information density of documents |
CN109788308B (zh) * | 2019-02-01 | 2022-07-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 音视频处理方法、装置、电子设备及存储介质 |
US11302300B2 (en) * | 2019-11-19 | 2022-04-12 | Applications Technology (Apptek), Llc | Method and apparatus for forced duration in neural speech synthesis |
KR102222597B1 (ko) * | 2020-02-03 | 2021-03-05 | (주)라이언로켓 | 콜미 서비스를 위한 음성 합성 장치 및 방법 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07210184A (ja) * | 1994-01-24 | 1995-08-11 | Matsushita Electric Ind Co Ltd | 音声編集合成装置 |
JPH08263520A (ja) * | 1995-03-24 | 1996-10-11 | N T T Data Tsushin Kk | 音声ファイル構成方式及び方法 |
JP3378448B2 (ja) * | 1996-09-20 | 2003-02-17 | 株式会社エヌ・ティ・ティ・データ | 音声素片選択方法,音声合成装置,及び命令記憶媒体 |
JP3349905B2 (ja) * | 1996-12-10 | 2002-11-25 | 松下電器産業株式会社 | 音声合成方法および装置 |
CN1168068C (zh) * | 1999-03-25 | 2004-09-22 | 松下电器产业株式会社 | 语音合成系统与语音合成方法 |
US6496801B1 (en) * | 1999-11-02 | 2002-12-17 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words |
JP4454780B2 (ja) * | 2000-03-31 | 2010-04-21 | キヤノン株式会社 | 音声情報処理装置とその方法と記憶媒体 |
US6847931B2 (en) * | 2002-01-29 | 2005-01-25 | Lessac Technology, Inc. | Expressive parsing in computerized conversion of text to speech |
US6856958B2 (en) * | 2000-09-05 | 2005-02-15 | Lucent Technologies Inc. | Methods and apparatus for text to speech processing using language independent prosody markup |
JP3981619B2 (ja) * | 2002-10-15 | 2007-09-26 | 日本電信電話株式会社 | 収録リスト取得装置と音声素片データベース作成装置、及びそれらの装置プログラム |
US6961704B1 (en) * | 2003-01-31 | 2005-11-01 | Speechworks International, Inc. | Linguistic prosodic model-based text to speech |
DE04735990T1 (de) * | 2003-06-05 | 2006-10-05 | Kabushiki Kaisha Kenwood, Hachiouji | Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm |
US20050119890A1 (en) * | 2003-11-28 | 2005-06-02 | Yoshifumi Hirose | Speech synthesis apparatus and speech synthesis method |
JP4328698B2 (ja) * | 2004-09-15 | 2009-09-09 | キヤノン株式会社 | 素片セット作成方法および装置 |
JP4551803B2 (ja) * | 2005-03-29 | 2010-09-29 | 株式会社東芝 | 音声合成装置及びそのプログラム |
JP4469883B2 (ja) * | 2007-08-17 | 2010-06-02 | 株式会社東芝 | 音声合成方法及びその装置 |
JP2009271190A (ja) * | 2008-05-01 | 2009-11-19 | Mitsubishi Electric Corp | 音声素片辞書作成装置及び音声合成装置 |
-
2010
- 2010-09-09 JP JP2010202448A patent/JP5320363B2/ja active Active
- 2010-09-13 US US12/880,796 patent/US8868422B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20110238420A1 (en) | 2011-09-29 |
JP2011221486A (ja) | 2011-11-04 |
US8868422B2 (en) | 2014-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5320363B2 (ja) | 音声編集方法、装置及び音声合成方法 | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US7991616B2 (en) | Speech synthesizer | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
CN101131818A (zh) | 语音合成装置与方法 | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
CN114678001A (zh) | 语音合成方法和语音合成装置 | |
JP5930738B2 (ja) | 音声合成装置及び音声合成方法 | |
JP4533255B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JPH08263095A (ja) | 音声素片選択方法および音声合成装置 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP3109778B2 (ja) | 音声規則合成装置 | |
JP2001100776A (ja) | 音声合成装置 | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JP4287664B2 (ja) | 音声合成装置 | |
JP4414864B2 (ja) | 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体 | |
Cabral et al. | The ADAPT entry to the Blizzard Challenge 2016 | |
Dong et al. | A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese. | |
JP3378448B2 (ja) | 音声素片選択方法,音声合成装置,及び命令記憶媒体 | |
JP2000056788A (ja) | 音声合成装置の韻律制御方法 | |
JP2003108170A (ja) | 音声合成学習方法および音声合成学習装置 | |
JP2003108180A (ja) | 音声合成方法および音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110916 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20111125 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20111205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120921 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130712 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5320363 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |