JP2007249023A - 音声合成装置及び音声合成方法 - Google Patents

音声合成装置及び音声合成方法 Download PDF

Info

Publication number
JP2007249023A
JP2007249023A JP2006075059A JP2006075059A JP2007249023A JP 2007249023 A JP2007249023 A JP 2007249023A JP 2006075059 A JP2006075059 A JP 2006075059A JP 2006075059 A JP2006075059 A JP 2006075059A JP 2007249023 A JP2007249023 A JP 2007249023A
Authority
JP
Japan
Prior art keywords
information
language
speech synthesis
speech
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006075059A
Other languages
English (en)
Inventor
Yasuo Okuya
泰夫 奥谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2006075059A priority Critical patent/JP2007249023A/ja
Publication of JP2007249023A publication Critical patent/JP2007249023A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 複数の辞書を搭載した電子辞書では辞書ごとに簡易発音記号が割当てられている。簡易発音記号と辞書識別情報(言語識別情報)から詳細発音記号を推定し、高品質な合成音声を生成することを目的とする。
【解決手段】 音声合成対象語句の簡易発音情報と、音声合成対象語句に対する言語情報とに基づいて詳細発音情報を生成し、生成した詳細発音情報を用いて音声合成を行う。
【選択図】 図2

Description

本発明は、発音情報から音声を合成する音声合成方法に関する。
英和、仏和などの辞書には見出しに対する発音記号が付与されている。通常この発音記号には、国際音標記号であるIPA(INTERNATIONAL PHONETIC ALPHABET、非特許文献1)を簡略化した辞書独自の発音記号体系が用いられる。この簡略化の過程において、音声学的には区別すべき情報(音声合成には必要な情報)が音韻学的に不要である(語の意味を調べることが主目的の辞書という意味で不要)という理由により縮退されることがある。また、記号に対する親密度の観点からIPAの定める発音記号をアルファベットで代用することがある。このように発音記号には様々な粒度の記述レベルが考えられる。以下、異なる記述レベルの発音記号が存在する場合に、より詳細な発音記号を詳細発音記号と呼び、簡略化、簡素化された発音記号を簡易発音記号と呼ぶことにする。
図4は、発音記号の簡略化の例を示したものである。英語の音素/r/は、詳細発音記号では
Figure 2007249023
であるが、一般の辞書では簡略化されて[r]と表記されることが多い。また、フランス語の音素/r/の詳細発音記号が
Figure 2007249023
であるのに対し、簡易発音記号は英語の場合と同様に[r]となっている。
一方、電子辞書を内蔵し発音機能を備えた電子翻訳器(特許文献1)が提案されている。この電子翻訳器は、電子辞書中に記載されている簡易発音記号から合成音声を生成する音声合成手段を有する。
また、近年、複数の辞書(英和、和英、仏和、和仏、独和など)を搭載した電子辞書が市販されている。各辞書は通常独立して作成されるため、発音記号体系は言語ごとまたは辞書ごとに異なっている。
特開平04−218871号公報 "Handbook of the International Phonetic Association",CAMBRIDGE UNIVERSITY PRESS
複数の辞書特に複数の言語辞書を搭載した電子辞書に、特許文献1記載の音声合成手段を適用する場合、言語毎に本来異なるべき発音記号が簡略化のため区別できないために、生成した合成音声にはその言語音としての自然性が欠如してしまうという課題がある。
本発明は上記問題点に鑑みてなされたものであり、簡易発音記号と言語情報を基に詳細発音記号を生成し、詳細発音記号から合成音声を生成することにより、その言語音としての自然性を持つ合成音声を生成する音声合成方法を提供することを目的とする。
上記目的を達成するための本発明に係る音声合成装置は、音声合成対象語句の簡易発音情報を保持する保持手段と、音声合成対象語句に対する言語情報を保持する言語情報保持手段と、前記簡易発音情報及び前記言語情報に基づいて詳細発音情報を生成する生成手段と、前記生成手段で生成した詳細発音情報を用いて音声を合成する音声合成手段とを備えることを特徴とする。
また、上記目的を達成するための本発明に係る音声合成装置は、音声合成対象語句の簡易発音情報を含む言語辞書と、該言語辞書に対する言語情報を保持する保持手段と、前記言語情報及び前記簡易発音情報に基づいて詳細発音情報を生成する生成手段と、前記生成手段で生成した詳細発音情報を用いて音声を合成する音声合成手段とを備えることを特徴とする。
本発明によれば、合成音声の品質を向上することが可能となる。
以下、図面を参照して、本発明の好適な実施形態を詳細に説明する。
図1は、実施例1における音声合成装置のハードウエア構成を示すブロック図である。本実施例では、発音記号列を入力とする音声合成装置を実現する場合について説明するが、本発明は専用の音声合成装置であっても、また電子辞書のような他の形態の装置であってもよい。
図1において、101は制御メモリ(ROM)、102は中央処理装置、103はメモリ(RAM)、104は外部記憶装置、105は入力装置、106は表示装置、107はバス、108は音声出力装置である。本実施形態の音声合成装置を実現するための制御プログラムやその制御プログラムで用いるデータは、制御メモリ101に記憶される。これらの制御プログラムやデータは、中央処理装置102の制御のもと、バス107を通じて適宜メモリ103に取り込まれ、中央処理装置102によって実行される。
図2は、実施例1における音声合成装置のモジュール構成を示すブロック図である。
辞書201は、簡易発音情報と言語情報を含む辞書データである。本実施例では、言語情報として辞書識別情報を含むものとする。辞書引き処理部202は、音声合成対象語句をキーに辞書201を検索する。簡易発音情報保持部203は、簡易発音情報を保持する。言語情報保持部204は言語情報を保持する。詳細発音情報生成部205は、簡易発音情報保持部203が保持する簡易発音情報と、言語情報保持部204が保持する言語情報から、詳細発音情報を生成する。詳細発音情報保持部206は、詳細発音情報を保持する。音声合成部207は、詳細発音情報保持部206が保持する詳細発音情報を入力とし、それを合成音声に変換する。発音情報変換規則208は、言語情報を基に簡易発音情報から詳細発音情報を生成するための変換規則である。
図3は、実施例1における音声合成装置における音声合成処理の流れを示すフローチャートである。該フローチャートを実行するための制御プログラムは制御メモリ101に格納されている。本実施例では辞書201に簡易発音情報と言語情報が含まれているものとして説明するが、これに限定されるものではなく、辞書201とは別に保持してもよい。
ステップS301では、辞書引き処理部202が辞書201を検索し、音声合成対象語句に該当する簡易発音情報と言語情報を取得し、それぞれ簡易発音情報保持部203と言語情報保持部204に保持してステップS302に移る。
ステップS302では、詳細発音情報生成部205が、簡易発音情報保持部203が保持する簡易発音情報と言語情報保持部204が保持する言語情報を入力とし、これらに基づいて、変換規則保持部208が保持する変換規則にしたがって詳細発音情報を生成する。そして、生成した詳細発音情報を詳細発音情報保持部206に保持してステップS303に移る。
ステップS303では、音声合成部207が、詳細発音情報保持部206が保持する詳細発音情報を合成音声に変換して処理を終了する。
図5は、実施例1における変換規則保持部208が保持する変換規則を表形式で表現した場合の発音記号の変換規則である。縦軸は各辞書で定義されている音素、横軸は言語情報に含まれる辞書識別情報である。例えば、辞書識別情報が辞書1で、かつ、簡易発音記号が[r]の場合は、詳細発音記号
Figure 2007249023
に変換される。
このような構成とすることで、詳細発音情報をもとに合成音声が生成されるため、簡易発音記号をもとに合成音声を生成するよりも品質を向上することができる。
実施例1では、言語情報として辞書識別情報を含む場合について説明したが、本発明はこれに限定されるものではなく、言語識別情報を含むよう構成してもよい。この場合、図5に示した辞書識別情報のかわりに言語識別情報がインデックスとなる。
実施例1では、音声合成部207への入力が詳細発音情報である場合について説明したが、これに限定されるものではなく、言語情報をさらに入力してもよいものとする。特に、言語情報が言語識別情報を含む場合は、その情報を基に合成素片や韻律パラメータなどを言語固有のものに切り替えることが可能となる。
実施例1では、変換規則を音素の1対1の置換で表現した場合について説明したが、これに限定されるものではなく、前後の音素環境に応じて変換規則を記述してもよい。
図6は、日本語の母音「イ」や「ウ」が無声音等に挟まれた場合に無声化する現象を表した規則であるが、こういった情報を用いて変換するよう構成してもよい。
実施例1では、言語情報が辞書1つに対して1つ割当てられる辞書識別情報を含む場合について説明したが、これに限定されるものではなく、言語情報として辞書中の語句に対して1つ割当てられる情報を言語情報とする場合もよいものとする。
図7は、言語情報として語句の構成要素情報を含む場合の変換規則の例及び規則の適用例である。変換規則1は、1つ前の簡易発音記号が「お」、「こ」、「そ」、「と」、「の」、「ほ」のいずれかで、かつ、当該簡易発音記号が「う」で、かつ、それらの発音記号が同一構成要素内である場合は、詳細発音記号[o]に変換する。一方、変換規則2は、1つ前の簡易発音記号が「お」、「こ」、「そ」、「と」、「の」、「ほ」のいずれかで、かつ、当該簡易発音記号が「う」で、かつ、それらの発音記号が同一構成要素内でない場合は、詳細発音記号
Figure 2007249023
に変換する。
なお、本発明の目的は次のようにしても達成される。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行する。このようにしても目的が達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、本発明に係る実施の形態は、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、本発明に係る実施形態の機能は次のようにしても実現される。即ち、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。そして、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行う。この処理により前述した実施形態の機能が実現されることは言うまでもない。
実施例1における音声合成装置のハードウエア構成を示すブロック図である。 実施例1における音声合成装置のモジュール構成を示すブロック図である。 実施例1における音声合成装置の処理の流れを示すフローチャートである。 発音記号の簡略化の例を示した表である。 実施例1における変換規則として発音記号の置換を表形式で表現した例である。 実施例4における変換規則として前後の音素環境を利用した変換規則の例である。 実施例5における変換規則として語句の構成要素を利用した変換規則の例である。
符号の説明
101 制御メモリ(ROM)
102 中央処理装置
103 メモリ(RAM)
104 外部記憶装置
105 入力装置
106 表示装置
107 バス
108 音声出力装置
201 辞書
202 辞書引き処理部
203 簡易発音情報保持部
204 言語情報保持部
205 詳細発音情報生成部
206 詳細発音情報保持部
207 声合成部
208 変換規則保持部

Claims (10)

  1. 音声合成対象語句の簡易発音情報を保持する保持手段と、
    音声合成対象語句に対する言語情報を保持する言語情報保持手段と、
    前記簡易発音情報及び前記言語情報に基づいて詳細発音情報を生成する生成手段と、
    前記生成手段で生成した詳細発音情報を用いて音声を合成する音声合成手段と、
    を備えることを特徴とする音声合成装置。
  2. 前記音声合成対象語句に対する言語情報は、音声合成対象語句の集合に対する言語情報であることを特徴とする請求項1記載の音声合成装置。
  3. 前記言語情報保持手段が保持する言語情報が言語識別情報、辞書識別情報又は音声合成対象語句の構成要素の少なくともいずれかを含むことを特徴とする請求項1記載の音声合成装置。
  4. 音声合成対象語句の簡易発音情報を含む言語辞書と、該言語辞書に対する言語情報を保持する保持手段と、
    前記言語情報及び前記簡易発音情報に基づいて詳細発音情報を生成する生成手段と、
    前記生成手段で生成した詳細発音情報を用いて音声を合成する音声合成手段と、
    を備えることを特徴とする音声合成装置。
  5. 請求項1乃至4記載の音声合成装置を搭載した電子辞書。
  6. 音声合成対象語句の簡易発音情報と、音声合成対象語句に対する言語情報とを保持する保持手段から、言語情報と簡易発音情報を取得する取得工程と、
    前記取得工程で取得した前記言語情報と前記簡易発音情報に基づいて詳細発音情報を生成する生成工程と、
    前記生成工程で生成された詳細発音情報を用いて音声を合成する音声合成工程と、
    を備えることを特徴とする音声合成方法。
  7. 前記音声合成対象語句に対する言語情報は、音声合成対象語句の集合に対する言語情報であることを特徴とする請求項6記載の音声合成方法。
  8. 前記保持手段が保持する言語情報が言語識別情報、辞書識別情報又は語句の構成要素の少なくともいずれかを含むことを特徴とする請求項6記載の音声合成方法。
  9. 音声合成対象語句の簡易発音情報を含む言語辞書と、該言語辞書に対する言語情報を保持する保持手段から、言語情報と簡易発音情報とを取得する取得工程と、
    前記取得工程で取得した言語情報及び簡易発音情報に基づいて詳細発音情報を生成する生成工程と、
    前記生成工程で生成された詳細発音情報を用いて音声を合成する音声合成工程と、
    を備えることを特徴とする音声合成方法。
  10. 請求項6乃至9記載の音声合成方法をコンピュータに実行させるための制御プログラム。
JP2006075059A 2006-03-17 2006-03-17 音声合成装置及び音声合成方法 Withdrawn JP2007249023A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006075059A JP2007249023A (ja) 2006-03-17 2006-03-17 音声合成装置及び音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006075059A JP2007249023A (ja) 2006-03-17 2006-03-17 音声合成装置及び音声合成方法

Publications (1)

Publication Number Publication Date
JP2007249023A true JP2007249023A (ja) 2007-09-27

Family

ID=38593361

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006075059A Withdrawn JP2007249023A (ja) 2006-03-17 2006-03-17 音声合成装置及び音声合成方法

Country Status (1)

Country Link
JP (1) JP2007249023A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011175074A (ja) * 2010-02-24 2011-09-08 Kyushu Institute Of Technology 音声合成装置及び方法、並びに音声合成プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011175074A (ja) * 2010-02-24 2011-09-08 Kyushu Institute Of Technology 音声合成装置及び方法、並びに音声合成プログラム

Similar Documents

Publication Publication Date Title
JP2022153569A (ja) 多言語テキスト音声合成方法
US8990089B2 (en) Text to speech synthesis for texts with foreign language inclusions
US20160140953A1 (en) Speech synthesis apparatus and control method thereof
JP2008185805A (ja) 高品質の合成音声を生成する技術
JP6453631B2 (ja) 認識システム、認識方法およびプログラム
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP7110055B2 (ja) 音声合成システム、及び音声合成装置
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
Lobanov et al. Language-and speaker specific implementation of intonation contours in multilingual TTS synthesis
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
JP2007249023A (ja) 音声合成装置及び音声合成方法
JP6411015B2 (ja) 音声合成装置、音声合成方法、およびプログラム
JP6232724B2 (ja) 音声合成装置及び言語辞書登録方法
JP2002123281A (ja) 音声合成装置
JP6142632B2 (ja) 単語辞書登録用コンピュータプログラム、音声合成装置及び単語辞書登録登録方法
JPH05134691A (ja) 音声合成方法および装置
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP4208819B2 (ja) 音声合成辞書登録方法および装置
JP2007127994A (ja) 音声合成方法及び音声合成装置並びにプログラム
JP2006243104A (ja) 音声合成方法
US20210142784A1 (en) Speech synthesis system, method and non-transitory computer readable medium
JP2006047866A (ja) 電子辞書装置およびその制御方法
Singh et al. Punjabi text-to-speech synthesis system
JP2009098292A (ja) 音声記号列生成方法、音声合成方法及び音声合成装置
JP2004301968A (ja) 発話処理装置、発話処理方法及び発話処理用プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090602