JP6519097B2 - 音声合成装置、方法、およびプログラム - Google Patents
音声合成装置、方法、およびプログラム Download PDFInfo
- Publication number
- JP6519097B2 JP6519097B2 JP2014026973A JP2014026973A JP6519097B2 JP 6519097 B2 JP6519097 B2 JP 6519097B2 JP 2014026973 A JP2014026973 A JP 2014026973A JP 2014026973 A JP2014026973 A JP 2014026973A JP 6519097 B2 JP6519097 B2 JP 6519097B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- speech
- segment
- string
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(付記1)
入力テキストデータから生成された連続する音素セグメントの列に基づき、音声コーパスから複数の音声素片の列を選択し、当該選択された複数の音声素片の列を接続することにより合成音声を出力する音声合成装置において、
前記選択される音声素片の列の候補に対応する音素列であって、当該音素列が、前記連続する音素セグメントの列の少なくとも一部と一致すると共に、当該連続する音素セグメントの列に対して連続性を満たし、かつ当該音素列が当該音素セグメントの列全体を分割する数が少なくなるように、前記音声コーパスから前記音声素片の列の候補を探索する最小分割パス探索部と、
探索された前記連続する音声素片の列の候補の組合せの中から、前記連続する音素セグメントの列に最も合致する音声素片の列の候補の組を選択する音声素片列選択部と、
を備えることを特徴とする音声合成装置。
(付記2)
前記連続性を満たすことは、前記音声素片の列の候補の前または後ろに接続する音声素片の音素が前記音素セグメントの列の前または後ろに接続する音素セグメントの音素に一致し、前記音声素片の列の候補の韻律情報と前記連続する音素セグメントの列の韻律情報の音響的特徴の差が所定の閾値に比較して小さいことであることを特徴とする付記1に記載の音声合成装置。
(付記3)
前記最小分割パス探索部は、音素の数が大きい順の前記音素列ごとに、前記連続性を満たす前記音声素片の列の候補の数が所定の閾値以上となったら当該音素列に対応する前記音声素片の列の候補の探索を打ち切ることを特徴とする付記1または2のいずれかに記載の音声合成装置。
(付記4)
前記最小分割パス探索部は、前記音声素片の列の候補の組合せの中で、前記音素セグメントの列全体を分割する数が最小のものから順に所定数までに対応する組合せのみを探索することを特徴とする付記1ないし3のいずれかに記載の音声合成装置。
(付記5)
音素列ごとに、当該音素列を含む前記音声コーパス内の音声素片の列へのインデックスを登録した連続音素列テーブルをさらに備え、
前記最小分割パス探索部は、前記音素列ごとに、当該音素列に対応する前記音声素片の列の候補を、前記連続音素列テーブルを参照することにより探索することを特徴とする付記1ないし4のいずれかに記載の音声合成装置。
(付記6)
前記音声素片列選択部は、前記音素セグメントの列を分割する数が最小となる前記音声素片の列の候補の組合せにおいて、当該組合せを構成する前記音声素片の列の候補に対応する韻律情報と前記連続する音素セグメントの列に対応する韻律情報との差に基づいて算出される韻律コストと、前記音声素片の列の候補の前または後ろに接続する前記音声素片の列の候補の接続部の音響パラメータの不連続性の大きさに基づいて算出される接続コストとに基づいて、探索された前記音声素片の列の候補の組合せの中から前記連続する音素セグメントの列に最も合致する音声素片の列の候補の組を選択することを特徴とする付記1ないし5のいずれかに記載の音声合成装置。
(付記7)
前記音素列を構成する音素は無音を示す情報を含むことを特徴とする付記1ないし6のいずれかに記載の音声合成装置。
(付記8)
入力テキストデータから生成された連続する音声セグメントの列に基づいて、音声コーパスから複数の音声素片の列を選択し、当該選択された複数の音声素片を接続することにより合成音声を出力する音声合成装置に用いられる音声合成方法であって、前記音声合成装置は、
前記選択される音声素片の列の候補に対応する音素列であって、当該音素列が、前記連続する音素セグメントの列の少なくとも一部と一致すると共に、当該連続する音素セグメントの列に対して連続性を満たし、かつ当該音素列が当該音素セグメントの列全体を分割する数が少なくなるように、前記音声コーパスから音声素片の列の候補を探索し、
探索された前記音声素片の列の候補の組合せの中から、前記連続する音素セグメントの列に最も合致する音声素片の列の候補の組を選択する、音声合成方法。
(付記9)
入力テキストデータから生成された連続する音声セグメントの列に基づき、音声コーパスから複数の音声素片の列を選択し、当該選択された複数の音声素片の列を接続することにより合成音声を出力するコンピュータに、
前記選択される音声素片の列の候補に対応する音素列であって、当該音素列が、前記連続する音素セグメントの列の少なくとも一部と一致すると共に、当該連続する音素セグメントの列に対して連続性を満たし、かつ当該音素列が当該音素セグメントの列全体を分割する数が少なくなるように、前記音声コーパスから前記音声素片の列の候補を探索する最小分割パス探索処理と、
探索された前記音声素片の列の候補の組合せの中から、前記連続する音素セグメントの列に最も合致する音声素片の列の候補の組を選択する音声素片列選択処理と、
を実行させるための音声合成プログラム。
102 形態素解析部
103 韻律予測部
104 韻律辞書
105 波形選択部
106 音声辞書
107 波形合成部
201 セグメントデータ列
202 セグメント入力部
203 素片列選定部
203a 最小分割パス探索部
203b 音声素片列選択部
204 評価部
204a 連続性評価部
204b コスト評価部
205 素片列候補データ
301 入力テキストデータ
302 音素列
303、304、305 音素列候補
501 CPU
502 ROM(リードオンリーメモリ)
503 RAM(ランダムアクセスメモリ)
504 入力装置
505 出力装置
506 外部記憶装置
507 可搬記録媒体駆動装置
508 通信インタフェース
509 バス
510 可搬記録媒体
Claims (9)
- 入力テキストデータから生成された連続する音素セグメントの列に基づき、音声コーパスから複数の音声素片の列を選択し、前記選択された複数の音声素片の列を接続することにより合成音声を出力する音声合成装置において、
前記選択される音声素片の列の候補に対応する音素列である音素列候補が、前記連続する音素セグメントの列の少なくとも一部と一致すると共に、前記連続する音素セグメントの列に対して連続性を満たし、かつ前記音素列候補が前記音素セグメントの列全体を分割する数が少なくなるように、前記音声コーパスから前記音声素片の列の候補を探索する最小分割パス探索部と、
探索された前記連続する音声素片の列の候補の組合せの中から、前記組み合わせに対応する前記音素列候補の組合せが前記連続する音素セグメントの列に最も合致する音声素片の列の候補の組を選択する音声素片列選択部と、
を備え、
前記最小分割パス探索部は、前記音素列候補の前または後ろに音素を加えた音素列に対応する音声素片の列の候補が前記音声コーパス中に存在することを条件として前記連続性を満たすと判断し、前記連続性を満たすと判断された前記音素列候補が前記音素セグメントの列全体を分割する数が少なくなるように、前記音声コーパスから前記音声素片の列の候補を探索する
ことを特徴とする音声合成装置。 - 前記音声素片の列の候補の前または後ろに接続する音声素片の音素が前記音素セグメントの列の前または後ろに接続する音素セグメントの音素に一致し、かつ前記音声素片の列の候補の韻律情報と前記連続する音素セグメントの列の韻律情報の音響的特徴の差が所定の閾値に比較して小さいことを条件として前記連続性を満たしていると判断する連続性評価部を更に備え、
前記最小分割パス探索部は、前記音素列候補の前または後ろに音素を加えた音素列であって、前記連続性評価部により前記連続性を満たしていると判断される音素列に対応する音声素片の列の候補が前記音声コーパス中に存在しない場合には、音素列が前記音素セグメントの列全体を分割する数が最小分割数よりも多くなるような音素列を前記音素列候補として選択する
ことを特徴とする請求項1に記載の音声合成装置。 - 前記最小分割パス探索部は、音素の数が大きい順の前記音素列ごとに、前記連続性を満たす前記音声素片の列の候補の数が所定の閾値以上となったら当該音素列に対応する前記音声素片の列の候補の探索を打ち切ることを特徴とする請求項1または2のいずれかに記載の音声合成装置。
- 前記最小分割パス探索部は、前記音声素片の列の候補の組合せの中で、前記音素セグメントの列全体を分割する数が最小のものから順に所定数までに対応する組合せのみを探索することを特徴とする請求項1ないし3のいずれかに記載の音声合成装置。
- 音素列ごとに、当該音素列を含む前記音声コーパス内の音声素片の列へのインデックスを登録した連続音素列テーブルをさらに備え、
前記最小分割パス探索部は、前記音素列ごとに、当該音素列に対応する前記連続する音声素片の列の候補を、前記連続音素列テーブルを参照することにより探索することを特徴とする請求項1ないし4のいずれかに記載の音声合成装置。 - 前記音声素片列選択部は、前記音素セグメントの列を分割する数が最小となる前記音声素片の列の候補の組合せにおいて、当該組合せを構成する前記音声素片の列の候補に対応する韻律情報と前記連続する音素セグメントの列に対応する韻律情報との差に基づいて算出される韻律コストと、前記音声素片の列の候補の前または後ろに接続する前記音声素片の列の候補の接続部の音響パラメータの不連続性の大きさに基づいて算出される接続コストとを算出し、探索された前記音声素片の列の候補の組合せの中から、前記韻律コストと前記接続コストの重み付き加重和が最も小さくなる組合せを、前記音素セグメントの列に最も合致する音声素片の列の候補の組として選択することを特徴とする請求項1ないし5のいずれかに記載の音声合成装置。
- 前記音素列を構成する音素は無音を示す情報を含むことを特徴とする請求項1ないし6のいずれかに記載の音声合成装置。
- 入力テキストデータから生成された連続する音声セグメントの列に基づき、音声コーパスから複数の音声素片の列を選択し、当該選択された複数の音声素片を接続することにより合成音声を出力する音声合成装置に用いられる音声合成方法であって、前記音声合成装置は、
前記選択される音声素片の列の候補に対応する音素列である音素列候補が、前記連続する音素セグメントの列の少なくとも一部と一致すると共に、前記連続する音素セグメントの列に対して連続性を満たし、かつ前記音素列候補が前記音素セグメントの列全体を分割する数が少なくなるように、前記音声コーパスから音声素片の列の候補を探索し、
探索された前記音声素片の列の候補の組合せの中から、前記組み合わせに対応する前記音素列候補の組合せが前記連続する音素セグメントの列に最も合致する音声素片の列の候補の組を選択し、
前記音声素片の列の候補を探索する場合に、前記音素列候補の前または後ろに音素を加えた音素列に対応する音声素片の列の候補が前記音声コーパス中に存在することを条件として前記連続性を満たすと判断し、前記連続性を満たすと判断された前記音素列候補が前記音素セグメントの列全体を分割する数が少なくなるように、前記音声コーパスから前記音声素片の列の候補を探索することを特徴とする音声合成方法。 - 入力テキストデータから生成された連続する音声セグメントの列に基づき、音声コーパスから複数の音声素片の列を選択し、当該選択された複数の音声素片の列を接続することにより合成音声を出力するコンピュータに、
前記選択される音声素片の列の候補に対応する音素列である音素列候補が、前記連続する音素セグメントの列の少なくとも一部と一致すると共に、前記連続する音素セグメントの列に対して連続性を満たし、かつ前記音素列候補が前記音素セグメントの列全体を分割する数が少なくなるように、前記音声コーパスから前記音声素片の列の候補を探索する最小分割パス探索処理と、
探索された前記音声素片の列の候補の組合せの中から、前記組み合わせに対応する前記音素列候補の組合せが前記連続する音素セグメントの列に最も合致する音声素片の列の候補の組を選択する音声素片列選択処理と、
を実行させ、
前記最小分割パス探索処理は、前記音素列候補の前または後ろに音素を加えた音素列に対応する音声素片の列の候補が前記音声コーパス中に存在することを条件として前記連続性を満たすと判断し、前記連続性を満たすと判断された前記音素列候補が前記音素セグメントの列全体を分割する数が少なくなるように、前記音声コーパスから前記音声素片の列の候補を探索することを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014026973A JP6519097B2 (ja) | 2014-02-14 | 2014-02-14 | 音声合成装置、方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014026973A JP6519097B2 (ja) | 2014-02-14 | 2014-02-14 | 音声合成装置、方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015152790A JP2015152790A (ja) | 2015-08-24 |
JP6519097B2 true JP6519097B2 (ja) | 2019-05-29 |
Family
ID=53895091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014026973A Active JP6519097B2 (ja) | 2014-02-14 | 2014-02-14 | 音声合成装置、方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6519097B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3346671B2 (ja) * | 1995-03-20 | 2002-11-18 | 株式会社エヌ・ティ・ティ・データ | 音声素片選択方法および音声合成装置 |
JP3583852B2 (ja) * | 1995-05-25 | 2004-11-04 | 三洋電機株式会社 | 音声合成装置 |
JP2001117577A (ja) * | 1999-10-19 | 2001-04-27 | Victor Co Of Japan Ltd | 音声合成装置 |
JP3463804B2 (ja) * | 2000-10-05 | 2003-11-05 | 株式会社コナミコンピュータエンタテインメント東京 | 音声合成装置並びに方法及び情報記憶媒体 |
JP4586386B2 (ja) * | 2004-03-16 | 2010-11-24 | 株式会社国際電気通信基礎技術研究所 | 素片接続型音声合成装置及び方法 |
-
2014
- 2014-02-14 JP JP2014026973A patent/JP6519097B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015152790A (ja) | 2015-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11205444B2 (en) | Utilizing bi-directional recurrent encoders with multi-hop attention for speech emotion recognition | |
US10878803B2 (en) | Speech conversion method, computer device, and storage medium | |
RU2421827C2 (ru) | Способ синтеза речи | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
CN105654940B (zh) | 一种语音合成方法和装置 | |
JP5434587B2 (ja) | 音声合成装置及び方法とプログラム | |
JP5320363B2 (ja) | 音声編集方法、装置及び音声合成方法 | |
WO2014183411A1 (en) | Method, apparatus and speech synthesis system for classifying unvoiced and voiced sound | |
JP6520108B2 (ja) | 音声合成装置、方法、およびプログラム | |
JPWO2016103652A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
KR100542757B1 (ko) | 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 | |
JP4532862B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP6519097B2 (ja) | 音声合成装置、方法、およびプログラム | |
JP2016065900A (ja) | 音声合成装置、方法、およびプログラム | |
JP2012237925A (ja) | 音声合成装置とその方法とプログラム | |
JP6674876B2 (ja) | 補正装置、補正方法及び補正プログラム | |
JP5294700B2 (ja) | 音声認識及び合成システム、プログラム及び方法 | |
JP5020763B2 (ja) | 音声合成のための決定木を生成する装置、方法及びプログラム | |
KR101227716B1 (ko) | 음성 합성 장치, 음성 합성 방법 및 음성 합성 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 | |
JP4424023B2 (ja) | 素片接続型音声合成装置 | |
JP4882569B2 (ja) | 音声合成装置、方法及びプログラム | |
Lazaridis et al. | Comparative evaluation of phone duration models for Greek emotional speech | |
JP6519096B2 (ja) | 音声合成装置、方法、およびプログラム | |
US20140343934A1 (en) | Method, Apparatus, and Speech Synthesis System for Classifying Unvoiced and Voiced Sound |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180313 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180828 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190408 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6519097 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |