JP2009098328A - 音声合成装置及び方法 - Google Patents

音声合成装置及び方法 Download PDF

Info

Publication number
JP2009098328A
JP2009098328A JP2007268728A JP2007268728A JP2009098328A JP 2009098328 A JP2009098328 A JP 2009098328A JP 2007268728 A JP2007268728 A JP 2007268728A JP 2007268728 A JP2007268728 A JP 2007268728A JP 2009098328 A JP2009098328 A JP 2009098328A
Authority
JP
Japan
Prior art keywords
notation
roman
language
text
predetermined language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007268728A
Other languages
English (en)
Inventor
Yoshinori Kishibe
祥典 岸部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2007268728A priority Critical patent/JP2009098328A/ja
Publication of JP2009098328A publication Critical patent/JP2009098328A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】既存のデータを有効利用して安価であるにも拘わらず適切な音声出力を行わせる。
【解決手段】アルファベットで構成される所定言語のテキストデータ、所定言語の音素データと表記を互いに関連付けた言語データテーブル、ローマ字の音素に対応する表記と所定言語の表記を互いに関連付けたローマ字データテーブル13を記憶する記憶手段5と、所定言語のテキストデータからローマ字を検出するローマ字検出手段と、ローマ字検出手段により、所定言語のテキストデータからローマ字が検出されれば、ローマ字データテーブル13に基づいて、所定言語の表記を抽出し、ローマ字の該当部分を置き換える表記変換手段と、表記変換手段により、テキストデータから検出されたローマ字を所定言語の表記に置き換えた後、言語データテーブルに基づいて音声出力する音声出力手段3とを備えた構成とする。
【選択図】図1

Description

本発明は、音声合成装置及び方法、特に、日本語以外の他言語を適切に音声出力させることのできる音声合成装置及び方法に関するものである。
従来、音声合成装置として、読上げ目的テキストと同一の用途カテゴリの音源作成用テキストを朗読したときの収録音声データから作成された音源を用いて音声が合成される(例えば、読上げ目的テキスト(すなわち読上げ対象テキスト)がニュース文である場合には、ニューステキストを人間が読み上げたときの収録音声を基に作成した音源を用いて音声が合成される)ようにしたものが公知である(例えば、特許文献1参照)。
また、他の音声合成装置として、単語の語源に関わる属性である単語の語種(和語、漢語、外来語)と、単語の語種毎に異なる長音の音韻記号とを予め定義しておき、音韻記号列に長音が存在する場合、長音を単語の語種に応じて異なる音韻記号に変換して音声合成を行うようにしたものが公知である(例えば、特許文献2参照)。
特開2000−181476号公報 特開2005−70611号公報
しかしながら、前記いずれの音声合成装置であっても、膨大な数のデータベースを用意する必要がある。また、細分化されたデータベースを利用するために処理時間がかかるという問題がある。このため、装置自体が高価なものとなる。
そこで、本発明は、既存のデータを有効利用して安価であるにも拘わらず適切な音声出力を行わせることのできる音声合成装置及び方法を提供することを課題とする。
本発明は、前記課題を解決するための手段として、
音声合成装置を、
アルファベットで構成される所定言語の音素データと表記を互いに関連付けた言語データテーブル、及び、ローマ字の音素に対応する表記と前記所定言語の表記を互いに関連付けたローマ字データテーブルを記憶する記憶手段と、
前記記憶手段に記憶した、所定言語のテキストデータからローマ字を検出するローマ字検出手段と、
前記ローマ字検出手段により、前記所定言語のテキストデータからローマ字が検出されれば、前記ローマ字データテーブルに基づいて、所定言語の表記を抽出し、前記ローマ字の該当部分を置き換える表記変換手段と、
前記表記変換手段により、テキストデータから検出されたローマ字を所定言語の表記に置き換えた後、前記言語データテーブルに基づいて音声出力する音声出力手段と、
を備えた構成としたものである。
この構成により、言語データテーブルではローマ字テキストの音声出力が不適切になる場合、表記変換手段により、ローマ字データテーブルに基づいて、所定言語の表記を抽出し、予めローマ字の該当部分を置き換えておくことができる。そして、所定言語の表記に置き換えられたローマ字テキストを含めて、所定言語のテキストデータを、既存の所定言語データテーブルを利用して適切に音声出力させることが可能となる。つまり、言語データベース以外に、新たに音素データを追加する必要がなく、記憶容量を抑制することができ、複雑な処理が必要となることもない。
前記ローマ字検出手段は、先頭文字が大文字で、かつ、ローマ字表記のみで構成されている場合、ローマ字テキストであると判断するようにすればよい。
前記記憶手段は、ローマ字テキストと属性データを互いに関連付けて記憶し、
前記ローマ字検出手段は、前記属性データに基づいて、英文テキストデータに含まれるローマ字テキストを判断するようにしてもよい。
前記表記変換手段は、前記ローマ字検出手段によって、前記言語のテキストデータを構成する各単語のうち、ローマ字テキストであると判断された単語について、先頭文字から最も長い表記で、前記ローマ字データテーブルで合致するローマ字表記があるか否かを判断し、あると判断すれば、対応する所定言語の表記に変換し、ないと判断すれば、順次、先頭文字の次の文字から最も長い表記で、合致するローマ字表記があるか否かを判断するのが好ましい。
この構成により、ユーザの誤入力等で、所定言語のテキストデータに含まれるローマ字テキストに不適切な箇所がある場合であっても、音声出力させることが可能となる。
前記所定言語のテキストデータの単語を抽出する単語抽出手段と、
前記単語抽出手段によって抽出た単語の音声出力を、前記言語データテーブルに従って変更する音声出力変更手段と、
をさらに備えるのが好ましい。
この構成により、テキストデータ中に音声出力が不適切となる単語が含まれていたとしても、単語特定手段によってその単語を特定し、音声出力変更手段により適切な音声が得られるものに変更することができる。
前記音声出力変更手段は、
音声を入力するための音声入力手段と、
前記音声入力手段によって入力された音声に基づいて、前記言語データテーブルを参照し、該当する音素を抽出して前記単語に当てはめる音素変換手段と、
から構成するのが好ましい。
この構成により、単語特定手段によって単語を特定した状態で、音声入力手段により音声で入力するだけで、音素変換手段により、言語データテーブルから自動的に該当する音素を抽出して、簡単に前記単語の音声出力を適切なものとすることができる。
また、本発明は、前記課題を解決するための手段として、
音声合成方法を、
アルファベットで構成される所定言語のテキストデータからローマ字を検出するローマ字検出ステップと、
前記ローマ字検出ステップにより、前記所定言語のテキストデータからローマ字が検出されれば、ローマ字の音素に対応する表記と前記所定言語の表記を互いに関連付けたローマ字データテーブルに基づいて、所定言語の表記を抽出し、前記ローマ字の該当部分を置き換える表記変換ステップと、
前記表記変換ステップにより、テキストデータから検出されたローマ字を所定言語の表記に置き換えた後、アルファベットで構成される所定言語の音素データと表記を互いに関連付けた言語データテーブルに基づいて音声出力する音声出力ステップと、
を含むようにしたものである。
本発明によれば、所定言語のテキストデータ中にローマ字が含まれている場合、ローマ字の音素に対応する表記を、適切な音声出力が得られる所定言語の音素に対応する表記に変換しているので、既存の言語データテーブルを有効利用して安価かつ迅速に音声出力を行わせることが可能となる。
以下、本発明に係る実施形態を添付図面に従って説明する。
図1は、本実施形態に係る音声合成装置の構成を示すブロック図である。この音声合成装置は、表示部1、入力部2、音声出力部3、制御ユニット4などを備える。
表示部1は、液晶パネル、EL(electro-luminescence)パネルなど、種々のものが含まれる。表示部1はタッチパネルで構成するのが好ましい。
入力部2は、各種キーなどのほか、前記タッチパネルで構成してもよい。また、入力部2には、マイクなどの音声入力部を含めてもよい。
音声出力部3は、スピーカなどで構成すればよい。
制御ユニット4は、ROM5(Read Only Memory)、RAM6(Random Access Memory)、CPU7(Central Processing Unit)などを備える。
ROM5には、制御プログラム8、各種データベース9が記憶されている。制御プログラム8には、メインルーチンである音声合成プログラム10のほか、そのサブルーチンである表記変換プログラム11が含まれる。データベース9には、他言語の一例としての英語データテーブル12のほか、ローマ字データテーブル13などが含まれる。但し、英語データテーブル12に限らず、フランス語やイタリア語など、アルファベットで構成可能であり、文中にローマ字を含めることのできる日本語以外の他のいずれの言語に関するデータテーブルを含めることができる。なお、以下の説明では、英語に関するものについてのみ言及する。
英語データテーブル12では、英語の表記と、その音素とが互いに関連付けて登録されている。そして、この英語データテーブル12を利用して従来公知のTTS(Text to Speech)エンジンにより英文を音声出力できるようになっている。また、ローマ字データテーブル13では、図4に示すように、ローマ字の表記と、その音素に対応する英語の表記とが互いに関連付けて登録されている。但し、登録されているのは、ローマ字の表記をそのまま英語データテーブル12に従って対応する音素に変換して音声出力した場合に不適切な発音となる場合である。例えば、「a」には「ah」、「ki」には[key」、「si、shi」には「she」をそれぞれ関連付けて登録することにより、音声出力させた場合、日本語として適切なものに近い発音が得られるように変換している。このように、既存の英語データテーブル12を有効利用することにより、新たにローマ字に対する音素データを追加する必要がなく、メモリ容量を節約することができる。
RAM6には、入力テキスト記憶領域14、変換テキスト記憶領域15、音声データ記憶領域16などが確保されている。
CPU7は、前記入力部2からの入力信号に基づいて、後述するようにして制御プログラム8を実行し、前記表示部1や前記音声出力部3を駆動制御する。
次に、前記音声合成装置の動作について、図2のフローチャートに従って説明する。
まず、RAM6の変換テキスト記憶領域15を初期化する(ステップS1)。そして、RAM6の入力テキスト記憶領域14に格納されている英文テキストから最初の単語を抽出する(ステップS2:単語抽出手段)。単語であるか否かは、例えば、英文の場合、各単語間に設けられているスペースで判断し、スペースで区切られたものを単語として抽出すればよい。入力テキスト記憶領域14には、入力部2から入力された英文が格納される。入力部2から入力する英文テキストは、キーボード入力、音声入力、あるいは、翻訳機の場合には、和文テキストからの翻訳テキストなどが該当する。
ここで、入力テキスト記憶領域14に格納されている英文テキストから単語を抽出できたか否かを判断する(ステップS3)。単語が抽出できれば(ステップS3:YES)、その単語がローマ字テキストであるか否かを判断する(ステップS4:ローマ字検出手段)。例えば、先頭のアルファベットが大文字であり、かつ、ローマ字表記である(構成するアルファベットの組合せが、例えば、ヘボン式で表記されるローマ字表記のみで構成される)場合に、ローマ字テキストであると判断する。この場合、先頭が大文字で、予めローマ字表記で登録した単語(例えば、人名、地名等の固有名詞)であれば、ローマ字テキストであると判断するようにしてもよい。また、先頭が大文字で、予め登録した辞書データ(英単語に関するもの)に含まれない単語をローマ字テキストであると判断するようにしてもよい。また、入力テキスト記憶領域14に格納する際、ローマ字テキストで構成された単語に属性データを関連付けて登録することにより、この属性データに基づいてローマ字表記であると判断できるようにしてもよい。後者の場合、例えば、入力テキスト記憶領域14に格納される英文テキストを表示部1に表示させ、ユーザによりローマ字表記となっている単語を指定させることにより属性データを関連付けできるようにすればよい。
抽出した単語がローマ字テキストでなければ(ステップS4:NO)、抽出した単語を変換テキスト領域に格納する(ステップS5)。一方、抽出した単語がローマ字テキストであれば(ステップS4:YES)、ローマ字テキストのローマ字表記を、図3のフローチャートに従って英語表記に変換する(ステップS6)。
図3では、抽出した単語を変換対象とし(ステップS11)、ローマ字データテーブル13に基づいて、変換対象の先頭文字から最も長い表記で一致するものを検索する(ステップS12)。そして、一致する表記があれば(ステップS13:YES)、そのローマ字表記に対応する英語表記が同じであれば、そのまま、変換されていれば、変換後の英語表記を変換テキスト記憶領域15に格納する(ステップS14:表記変換手段)。また、一致した表記を除いた残る表記を、新たに変換対象とする(ステップS15)。残る表記がなければ(ステップS16:NO)、変換対象の全ての文字についての英語表記が変換テキスト記憶領域15に格納されたことになるので、音声合成処理のメインルーチン(ステップS7)に復帰する。なお、前記ステップS12で、先頭文字から最も長い表記で一致するか否かを判断するようにしたのは、例えば、ローマ字表記「n(ん)」の英語表記は「n/nn」であるので、ローマ字表記「nna」の場合、「んな」であるのか、あるいは、「んあ」であるのかを区別できなくなることを防止するためである。
一方、一致する表記がなければ(ステップS13:NO)、変換対象の先頭文字を除いた部分(2文字目以降)を変換対象とする(ステップS17)。これは、キーボード入力、音声入力などにより誤入力された場合を考慮したものである。先頭文字を除いて変換し、後述する音声合成処理を行うことにより、本来の音声出力は得ることはできないものの、比較的近い音声を出力させることが期待できる。但し、前記ステップS13で、一致する表記がないと判断された場合、ステップS17のような処理を実行することなく、エラーを報知するように構成することも可能である。
このようにして、図3の英語表記変換処理(ステップS6)で、抽出した単語について、変換処理が完了し、変換テキスト領域に格納されれば、図2のフローチャートに戻って次の単語を抽出する(ステップS7)。そして、次の単語が抽出できれば(ステップS3:YES)、前記ステップS4〜S7の処理を繰り返し、抽出できなければ(ステップS3:NO)、変換テキスト領域に単語が格納されているか否かを判断する(ステップS8)。変換テキスト領域に単語が格納されていない場合(ステップS8:NO)、すなわち、前記ステップS3で、初期状態であるにも拘わらず入力テキスト記憶領域14から単語を抽出できない場合、処理を終了する。変換テキスト領域に単語が格納されている場合(ステップS8:YES)、前記英語データテーブル12に基づいて、各単語を発音記号に変換する、いわゆる音声合成を行い(ステップS9:音声出力変更手段)、得られた音声データを音声データ記憶領域16に格納する。そして、音声データ記憶領域16に格納した音声データに基づいて音声出力部3より音声を出力させる(ステップS10)。
本実施形態に係る音声合成装置のブロック図である。 図1の制御ユニットにより実行する音声合成処理を示すフローチャートである。 図2の英語表記変換処理を示すフローチャートである。 図1のローマ字データテーブルの内容を示す図表である。
符号の説明
1…表示部
2…入力部
3…音声出力部(音声出力手段)
4…制御ユニット
5…ROM(記憶手段)
6…RAM
7…CPU
8…制御プログラム
9…データベース
10…音声合成プログラム
11…表記変換プログラム
12…英語データテーブル
13…ローマ字データテーブル
14…入力テキスト記憶領域
15…変換テキスト記憶領域
16…音声データ記憶領域

Claims (7)

  1. アルファベットで構成される所定言語の音素データと表記を互いに関連付けた言語データテーブル、及び、ローマ字の音素に対応する表記と前記所定言語の表記を互いに関連付けたローマ字データテーブルを記憶する記憶手段と、
    前記記憶手段に記憶した、所定言語のテキストデータからローマ字を検出するローマ字検出手段と、
    前記ローマ字検出手段により、前記所定言語のテキストデータからローマ字が検出されれば、前記ローマ字データテーブルに基づいて、所定言語の表記を抽出し、前記ローマ字の該当部分を置き換える表記変換手段と、
    前記表記変換手段により、テキストデータから検出されたローマ字を所定言語の表記に置き換えた後、前記言語データテーブルに基づいて音声出力する音声出力手段と、
    を備えたことを特徴とする音声合成装置。
  2. 前記ローマ字検出手段は、先頭文字が大文字で、かつ、ローマ字表記のみで構成されている場合、ローマ字テキストであると判断することを特徴とする請求項1に記載の音声合成装置。
  3. 前記記憶手段は、ローマ字テキストと属性データを互いに関連付けて記憶し、
    前記ローマ字検出手段は、前記属性データに基づいて、所定言語のテキストデータに含まれるローマ字テキストを判断することを特徴とする請求項1に記載の音声合成装置。
  4. 前記表記変換手段は、前記ローマ字検出手段によって、前記所定言語のテキストデータを構成する各単語のうち、ローマ字テキストであると判断された単語について、先頭文字から最も長い表記で、前記ローマ字データテーブルで合致するローマ字表記があるか否かを判断し、あると判断すれば、対応する所定言語の表記に変換し、ないと判断すれば、順次、先頭文字の次の文字から最も長い表記で、合致するローマ字表記があるか否かを判断することを特徴とする請求項1から3のいずれか1項に記載の音声合成装置。
  5. 前記所定言語のテキストデータの単語を抽出する単語抽出手段と、
    前記単語抽出手段によって抽出た単語の音声出力を、前記言語データテーブルに従って変更する音声出力変更手段と、
    をさらに備えたことを特徴とする請求項1から4のいずれか1項に記載の音声合成装置。
  6. 前記音声出力変更手段は、
    音声を入力するための音声入力手段と、
    前記音声入力手段によって入力された音声に基づいて、前記言語データテーブルを参照し、該当する音素を抽出して前記単語に当てはめる音素変換手段と、
    からなることを特徴とする請求項5に記載の音声合成装置。
  7. アルファベットで構成される所定言語のテキストデータからローマ字を検出するローマ字検出ステップと、
    前記ローマ字検出ステップにより、前記所定言語のテキストデータからローマ字が検出されれば、ローマ字の音素に対応する表記と前記所定言語の表記を互いに関連付けたローマ字データテーブルに基づいて、所定言語の表記を抽出し、前記ローマ字の該当部分を置き換える表記変換ステップと、
    前記表記変換ステップにより、テキストデータから検出されたローマ字を所定言語の表記に置き換えた後、アルファベットで構成される所定言語の音素データと表記を互いに関連付けた言語データテーブルに基づいて音声出力する音声出力ステップと、
    を含むことを特徴とする音声合成方法。
JP2007268728A 2007-10-16 2007-10-16 音声合成装置及び方法 Pending JP2009098328A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007268728A JP2009098328A (ja) 2007-10-16 2007-10-16 音声合成装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007268728A JP2009098328A (ja) 2007-10-16 2007-10-16 音声合成装置及び方法

Publications (1)

Publication Number Publication Date
JP2009098328A true JP2009098328A (ja) 2009-05-07

Family

ID=40701416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007268728A Pending JP2009098328A (ja) 2007-10-16 2007-10-16 音声合成装置及び方法

Country Status (1)

Country Link
JP (1) JP2009098328A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118720A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 言語処理装置、音声合成装置、言語処理方法及び言語処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118720A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 言語処理装置、音声合成装置、言語処理方法及び言語処理プログラム

Similar Documents

Publication Publication Date Title
JP6069211B2 (ja) テキスト変換及び表現システム
US20070255567A1 (en) System and method for generating a pronunciation dictionary
JP2002014954A (ja) 中国語入力変換処理装置、中国語入力変換処理方法及び記録媒体
JP2008165443A (ja) 文字入力装置
JP5119671B2 (ja) 音声出力装置及び音声出力プログラム
US8165879B2 (en) Voice output device and voice output program
JP2007317163A (ja) 電子辞書及び検索方法
JPWO2008018287A1 (ja) 検索装置及び検索データベース生成装置
JP2004326367A (ja) テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
JPH06282290A (ja) 自然言語処理装置およびその方法
JP2009098328A (ja) 音声合成装置及び方法
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP2002207728A (ja) 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
JP2007086404A (ja) 音声合成装置
JPH0969109A (ja) 文書検索方法及び文書検索装置
JP3284976B2 (ja) 音声合成装置及びコンピュータ可読記録媒体
JP5125404B2 (ja) 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JP2010040045A (ja) 情報表示制御装置および情報表示制御プログラム
JPH10198664A (ja) 日本語入力システム及び日本語入力プログラムを記録した媒体
JP2008250090A (ja) 発音学習支援装置及び発音学習支援プログラム
JP2010009294A (ja) 電子機器および電子機器の表示方法
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
JP2007072786A (ja) 情報表示制御装置および情報表示制御プログラム
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JPH0350668A (ja) 文字処理装置