JP2007086404A - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP2007086404A
JP2007086404A JP2005275086A JP2005275086A JP2007086404A JP 2007086404 A JP2007086404 A JP 2007086404A JP 2005275086 A JP2005275086 A JP 2005275086A JP 2005275086 A JP2005275086 A JP 2005275086A JP 2007086404 A JP2007086404 A JP 2007086404A
Authority
JP
Japan
Prior art keywords
speech
user
reading
dictionary database
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005275086A
Other languages
English (en)
Inventor
Yoshihiko Okada
世志彦 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Embedded Products Ltd
Original Assignee
NEC Embedded Products Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Embedded Products Ltd filed Critical NEC Embedded Products Ltd
Priority to JP2005275086A priority Critical patent/JP2007086404A/ja
Publication of JP2007086404A publication Critical patent/JP2007086404A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】簡単に辞書登録を行なうことができる音声合成装置を提供する。
【解決手段】音声合成エンジン21は、辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声をスピーカ25から出力する。候補選択部41は、マイク35から入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する。音声合成ユーザ辞書登録部42は、前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録する。これにより、音声合成装置1に上記のテキストデータが与えられたとき、音声合成エンジン21は、辞書データベースを参照して、上記のテキストデータを正しく読み上げることができる。音声合成装置1によれば、ユーザは、テキストデータの読み上げが間違えている場合、正しい読みをマイク35により入力するだけでよい。
【選択図】図1

Description

本発明は、音声合成処理を実行する音声合成装置に関する。
音声合成処理を実行する装置が開発されている。音声合成(Text To Speech)処理とは、文が記載されたテキストデータを音声に変換し、その音声をスピーカから出力させる処理である。このような音声合成処理は、電子メールの読み上げなど一意でないテキストデータを音声に変換するときに、非常に役に立つ。しかしながら、音声合成処理では、テキストデータの読み上げが間違えている場合も少なくない。そのために、テキストデータの異なる読みを訂正する音声合成装置が開発されている。
音声合成処理を実行する音声合成装置を考えてみる。音声合成装置は、コンピュータに設けられ、音声合成エンジンと、辞書データベースと、スピーカとを備えている。辞書データベースは、複数の単語が登録されたメイン辞書データベースと、ユーザ辞書データベースとを含んでいる。複数の単語は、それぞれ、複数の語句と複数の読みと複数のアクセントとを含んでいる。
語句群を表すテキストデータが音声合成装置に与えられたとき、音声合成エンジンは、テキストデータが表す語句群を読み上げる。即ち、音声合成エンジンは、辞書データベースを参照して、テキストデータが表す語句群から読み群を生成する。また、音声合成エンジンは、複数のアクセントのうちの、上記読み群に対応する発音用アクセントを決定する。音声合成エンジンは、上記読み群を音声に変換し、上記の発音用アクセントを用いて、その音声をスピーカから出力する。ここで、テキストデータの読み上げが間違えているものとする。この場合、ユーザは、テキストデータを正しく読み上げさせるために、入力装置を用いて、辞書登録を行なう。即ち、ユーザは、入力装置(キーボード、ポインティングデバイス)を用いて、テキストデータの異なる読みに対応する語句と、正しい読みと、アクセントとを入力し、ユーザ辞書データベースに登録する。これにより、音声合成装置に上記のテキストデータが与えられたとき、音声合成エンジンは、テキストデータを正しく読み上げることができる。
しかしながら、そのような音声合成装置では、簡単に辞書登録を行なうことができない。例えば、ユーザは、コンピュータに不慣れであるものとする。この場合、ユーザが辞書登録を行なうときに入力装置を用いるため、その作業が煩雑になってしまう。例えば、ユーザは、目や手が不自由であるものとする。この場合、ユーザが入力装置を用いて辞書登録を行なうことは困難である。
音声合成処理に関連する技術として、特開平5−143637号公報に韻律記号生成装置が開示されている(特許文献1参照)。韻律記号生成装置は、文字列の解析結果に基づいて韻律記号を生成する装置であり、未登録語検出手段と、未登録語提示手段と、語登録手段とを有していることを特徴としている。未登録語検出手段は、韻律記号を生成する際の解析対象となる文字列中に辞書登録されていない語があるか否かを調べ、辞書登録されていない語があるときにこれを未登録語として検出する。未登録語提示手段は、未登録語が検出されたときに該未登録語を操作者に提示する。語登録手段は、韻律記号を生成するための文字列解析に先立って所定の語を辞書に登録可能にする。この韻律記号生成装置では、語句群を表すテキストデータから読み群を生成する際に、辞書に登録されていない未登録語(語句)がテキストデータに含まれている場合、ユーザに辞書登録の入力を促している。
特開平5−233625号公報に文章読み上げ装置が開示されている(特許文献2参照)。文章読み上げ装置は、音声合成装置と、処理装置と、表記文字列、品詞、発音およびアクセント等からなる辞書を貯蔵した記憶装置と、任意の文章を入力するための入力装置を備え、前記辞書を参照して入力された文章から文章を構成する単語の発音およびアクセントを含む単語情報を得、前記単語情報を基に文章の音声出力を行う装置である。文章読み上げ装置では、処理装置に第1の手段と、第2の手段とを設けたことを特徴としている。前記第1の手段は、前記単語情報に含まれるアクセントが、アクセントが辞書に未登録であることを表わすあらかじめ決められた値をとる場合に、前記アクセントを前記単語情報より推定し、前記推定したアクセントと単語情報を基に文章の音声出力を行う。前記第2の手段は、前記入力された文章を構成する語句を示す範囲指定情報と前記範囲指定情報で示される語句を音声出力する場合のアクセントを前記入力装置から入力し、前記語句を構成する単語の単語情報が、前記アクセント未登録値をアクセントとして有する場合、前記入力されたアクセントと前記語句を構成する単語の単語情報から、前記アクセントが未登録である単語のアクセントを復元し、前記復元したアクセントを前記アクセント未登録値の代わりに前記辞書に登録する。この文章読み上げ装置では、アクセント未登録語のアクセントを推定することにより、アクセントにおける辞書登録を容易に行なっている。
特開平5−143637号公報 特開平5−233625号公報
本発明の課題は、簡単に辞書登録を行なうことができる音声合成装置を提供することにある。
本発明の他の課題は、テキストデータを正しく読み上げることができる音声合成装置を提供することにある。
以下に、[発明を実施するための最良の形態]で使用する番号・符号を用いて、課題を解決するための手段を説明する。これらの番号・符号は、[特許請求の範囲]の記載と[発明を実施するための最良の形態]の記載との対応関係を明らかにするために付加されたものであるが、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。
本発明の音声合成装置(1)は、例えば電子メールやインターネットを利用することができるコンピュータに適用される。コンピュータは、格納部(図示しない)と、制御部(図示しない)と、スピーカ(25)と、マイク(35)とを具備している。前記格納部には、複数の語句を複数の読みに対応付ける辞書データベースと、コンピュータプログラムとが格納されている。前記制御部は、前記コンピュータプログラムを実行する。
前記制御部は、音声合成エンジン(21)と、選択部(41)と、ユーザ辞書登録部(42)とを具備している。
前記音声合成エンジン(21)は、前記辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声をスピーカ(25)から出力する。
前記選択部(41)は、マイク(35)から入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する。
前記ユーザ辞書登録部(42)は、前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録する。
これにより、本発明の音声合成装置(1)に上記のテキストデータが与えられたとき、音声合成エンジン(21)は、辞書データベース{メイン辞書データベース(26)、ユーザ辞書データベース(27)}を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。
また、本発明の音声合成装置(1)によれば、ユーザは、テキストデータの読み上げが間違えている場合、テキストデータの異なる読みに対応する部分に対して、正しい読みをマイク(35)により入力するだけでよい。このため、本発明の音声合成装置(1)は、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。したがって、コンピュータに不慣れなユーザでも簡単に辞書登録を行なうことができる。また、目や手が不自由なユーザでも簡単に辞書登録を行なうことができる。
本発明の音声合成装置(1)は、更に、音声認識エンジン(31)を具備している。前記音声認識エンジン(31)は、前記正しい読みとして前記マイク(35)からユーザの音声を入力し、前記ユーザの音声から複数の読み候補を生成する。
前記音声合成エンジン(21)は、前記テキストデータが表す語句群から複数の誤り候補を生成する。前記複数の誤り候補は、複数の読み方がある語句や、前記辞書データベースに登録されていない語句を含んでいる。
前記選択部(41)は、前記複数の誤り候補の中から、前記複数の読み候補のうちの1つに対応する誤り候補を前記部分として選択する。
このように、本発明の音声合成装置(1)では、テキストデータの異なる読みに対してユーザが正しい読みをマイク(35)により入力したとき、テキストデータの異なる読みに対応する部分を自動的に選択し、その部分に対して自動的に辞書登録を行なう。このため、本発明の音声合成装置(1)は、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。
本発明の音声合成装置(1)において、前記辞書データベースは、前記複数の語句と前記複数の読みと複数アクセントとが対応付けられて登録されたメイン辞書データベース(26)と、ユーザ辞書データベース(27)とを含んでいる。
前記音声合成エンジン(21)は、前記複数アクセントのうちの、前記読み群に対応する発音用アクセントを用いて、前記音声をスピーカ(25)から出力する。
前記ユーザ辞書登録部(42)は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記ユーザ辞書データベース(27)に登録する。
このように、本発明の音声合成装置(1)では、テキストデータの異なる読みに対してユーザが正しい読みをマイク(35)により入力したとき、テキストデータの異なる読みに対応する部分と、正しい読みと、ユーザの音声によるアクセントとを対応付けて辞書登録する。通常、アクセントについて入力装置を用いて辞書登録を行なうことは、ユーザ自身の癖や方言などにより、それほど容易な作業ではない。本発明の音声合成装置(1)では、ユーザの音声によりアクセントをそのまま辞書登録するため、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。
また、本発明の音声合成装置(1)では、必須の単語(語句、読み、アクセント)をメイン辞書データベース(26)に予め辞書登録しておき、メイン辞書データベース(26)に登録されていない単語(複数の語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント)をユーザ辞書データベース(27)に辞書登録することが好ましい。これにより、本発明の音声合成装置(1)に上記のテキストデータが与えられたとき、音声合成エンジン(21)は、辞書データベース{メイン辞書データベース(26)、ユーザ辞書データベース(27)}を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。
本発明の音声合成装置(1)において、前記辞書データベースは、カテゴリ付ユーザ辞書データベース(54)を更に含んでいる。
前記テキストデータは、カテゴリを表す情報を含んでいる。
カテゴリ登録指示が発生した場合、以下の動作を行なう。
この場合、前記ユーザ辞書登録部(42)は、前記カテゴリと、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記カテゴリ付ユーザ辞書データベース(54)に登録する。
例えば、テキストデータが、記事を表すWebページである場合、その記事に記載されたカテゴリを表す情報として「スポーツ」「政治」「音楽」…を比較的容易に取得することができる。本発明の音声合成装置(1)では、カテゴリを表す情報がテキストデータに含まれる場合、カテゴリと、メイン辞書データベース(26)に登録されていない単語(複数の語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント)とを対応付けてカテゴリ付ユーザ辞書データベース(54)に辞書登録することが好ましい。これにより、本発明の音声合成装置(1)に上記のテキストデータが与えられたとき、音声合成エンジン(21)は、辞書データベース{メイン辞書データベース(26)、カテゴリ付ユーザ辞書データベース(54)}を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。このため、本発明の音声合成装置(1)は、ユーザ辞書データベース(27)を参照する場合に比べて、読み誤りを更に低減することができる。
本発明の音声合成装置(1)において、前記辞書データベースは、共起情報付ユーザ辞書データベース(64)を更に含んでいる。
共起情報登録指示が発生した場合、以下の動作を行なう。
この場合、前記音声認識エンジン(31)は、前記テキストデータの前記部分に連結する連結部分の読みとして前記マイク(35)からユーザの音声である連結音声を入力し、前記連結音声から複数の連結読み候補を生成する。
前記音声合成エンジン(21)は、前記テキストデータから前記連結部分に対応する複数の共起候補を生成する。
前記選択部(41)は、前記複数の共起候補の中から、前記複数の連結読み候補のうちの1つに対応する共起候補を前記連結部分として選択する。
前記ユーザ辞書登録部(42)は、第1単語と、第2単語と、第1単語と第2単語とを対応付ける共起情報とを前記共起情報付ユーザ辞書データベース(64)に登録する。
前記第1単語は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを含み、前記第2単語は、前記複数の語句のうちの前記連結部分と、前記連結部分の読みと、前記連結音声によるアクセントとを含んでいる。
例えば、音声合成により固有名詞(人名など)を読み上げる場合、同じ語句でも違う読み方をする場合が多々あり、これを区別して読み上げさせるのは難しい。固有名詞が人名である場合、フルネームで辞書登録したほうが好ましい。この場合、本発明の音声合成装置(1)では、第1単語(複数の語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント)と、第2単語(複数の語句のうちの上記連結部分と、上記連結部分の読みと、上記連結音声によるアクセント)と、第1単語と第2単語とを対応付ける共起情報とを共起情報付ユーザ辞書データベース(64)に辞書登録することが好ましい。これにより、本発明の音声合成装置(1)に上記のテキストデータが与えられたとき、音声合成エンジン(21)は、辞書データベース{メイン辞書データベース(26)、共起情報付ユーザ辞書データベース(64)}を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。このため、本発明の音声合成装置(1)は、ユーザ辞書データベース(27)を参照する場合に比べて、読み誤りを更に低減することができる。
本発明の音声合成装置は、簡単に辞書登録を行なうことができる。
本発明の音声合成装置は、テキストデータを正しく読み上げることができる。
以下に添付図面を参照して、本発明の音声合成装置について詳細に説明する。
(第1実施形態)
図1は、本発明の第1実施形態による音声合成装置の構成を示すブロック図である。第1実施形態による音声合成装置1は、例えば電子メールやインターネットを利用することができるコンピュータに適用される。コンピュータは、コンピュータプログラムが格納された格納部(図示しない)と、コンピュータプログラムを実行する制御部(図示しない)とを具備している。
音声合成装置1は、コンピュータに設けられたスピーカ25、マイク35を具備している。
音声合成装置1は、更に、コンピュータプログラムである文抽出部12、音声合成エンジン21、音声認識エンジン31、候補選択部41、合成音声ユーザ辞書登録部42を具備している。
音声合成エンジン21は、音声合成部22、構文解析部23、誤り候補生成部24を含んでいる。音声合成部22は、音声合成エンジン21の本体部であり、音声合成部22を音声合成エンジン21と称することもある。
音声認識エンジン31は、音声認識部32、読み候補生成部33、アクセント抽出部34を含んでいる。音声認識部32は、音声認識エンジン31の本体部であり、音声認識部32を音声認識エンジン31と称することもある。
音声合成装置1は、更に、コンピュータの格納部に格納された文書データベース11、音声合成辞書データベース、音声認識辞書データベース36を具備している。
音声合成辞書データベースは、音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27を含んでいる。
例えば、図2に示されるように、音声合成メイン辞書データベース26には、複数の単語が予め登録されている。複数の単語は、それぞれ、複数の語句と複数の読みと複数のアクセントとを含んでいる。図3に示されるように、音声合成ユーザ辞書データベース27には、音声合成メイン辞書データベース26に登録されていない単語が登録される。
図4に示されるように、音声認識辞書データベース36には、複数の照合用音声と複数の照合用読みとが予め登録されている。複数の照合用音声は、マイク35から入力される音声を照合するためのデータである。
文書データベース11には、図5に示されるように、電子メールあるいはインターネットのWebページで例示される文書を表すテキストデータが格納されている。例えば、そのテキストデータには、「7回裏に岡田秀喜が打点をあげた。」という文が記載されている。
文抽出部12は、内蔵メモリ(図示しない)を備えている。ユーザの読上指示に応じて、文抽出部12は、文書データベース11に格納されたテキストデータを読み出して、内蔵メモリに格納する。あるいは、コンピュータが電子メール、Webページを表すテキストデータを取得して文書データベース11に格納したときに、文抽出部12は、文書データベース11に格納されたテキストデータを自動的に読み出して、内蔵メモリに格納する。
音声合成エンジン21の構文解析部23は、文抽出部12の内蔵メモリからテキストデータを読み出し、そのテキストデータに記載された文を解析する。このとき、構文解析部23は、漢字、ひらがな、カタカナ、数字(回数や量を表す数字を含む)の並びにより、テキストデータ「7回裏に岡田秀喜が打点をあげた。」は、語句群として「7回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」を表していることを認識する。
構文解析部23は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、テキストデータが表す語句群「7回裏に岡田秀喜が打点をあげた。」から、読みを表す読み群「ななかいうらにおかだひでよしがだてんをあげた」を生成する。また、構文解析部23は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、複数のアクセントのうちの、上記読み群に対応する発音用アクセントを決定する。
音声合成エンジン21の音声合成部22は、読み群が表す読み「ななかいうらにおかだひでよしがだてんをあげた」を音声に変換する。音声合成部22は、上記の発音用アクセントを用いて、その音声をスピーカ25から出力する。
テキストデータ「7回裏に岡田秀喜が打点をあげた。」に対する本来の読みは、「ななかいうらにおかだひできがだてんをあげた」である。即ち、「秀喜」に対する読みは「ひでよし」ではなく「ひでき」である。ユーザは、テキストデータの異なる読み「ひでよし」に対応する部分「秀喜」を正しい読み「ひでき」に訂正するために、マイク35を用いてユーザの音声「ひでき」を入力する。
音声認識エンジン31の音声認識部32は、正しい読み「ひでき」としてマイク35からユーザの音声「ひでき」を入力する。候補選択部41は、マイク35から入力される正しい読み「ひでき」に基づいてテキストデータ80から異なる読み「ひでよし」に対応する部分「秀喜」を選択する。これについて具体的に説明する。
音声認識エンジン31は、内蔵メモリ(図示しない)を更に備えている。音声認識エンジン31の音声認識部32は、マイク35からユーザの音声「ひでき」を入力し、データとして内蔵メモリに格納する。音声認識エンジン31の読み候補生成部33は、音声認識辞書データベース36を参照して、内蔵メモリに格納されたユーザの音声「ひでき」から複数の読み候補を生成する。即ち、複数の照合用音声の中から、ユーザの音声「ひでき」に最も近い順に、複数の読み候補「ひでき」「ひでし」「いでき」「いでし」…を生成する。
音声合成エンジン21の誤り候補生成部24は、テキストデータ「7回裏に岡田秀喜が打点をあげた。」が表す上記の語句群「7回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」から、複数の誤り候補を生成する。即ち、候補選択部41は、語句群「7回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」の中から、複数の読み方がある語句「秀喜」「打点」や、上記の音声合成辞書データベース26、27に登録されていない語句を誤り候補として選択する。
候補選択部41は、複数の誤り候補「秀喜」「打点」…と複数の読み候補「ひでき」「ひでし」「いでき」「いでし」…とを比較する。比較の結果、候補選択部41は、複数の誤り候補「秀喜」「打点」…の中から、複数の読み候補「ひでき」「ひでし」「いでき」「いでし」…のうちの1つの読み候補「ひでき」に対応する誤り候補「秀喜」を選択する。即ち、候補選択部41は、上記の音声合成辞書データベース26、27を参照して、読み候補「ひでき」から漢字「秀樹」「英樹」「英輝」「秀喜」「日出貴」…に変換する。候補選択部41は、複数の誤り候補「秀喜」「打点」…の中から、漢字「秀樹」「英樹」「英輝」「秀喜」「日出貴」…の1つに対応(一致)する誤り候補「秀喜」を選択する。このように、正しい読み「ひでき」に対応する誤り候補「秀喜」をテキストデータから選択する。この選択された誤り候補「秀喜」は、異なる読み「ひでよし」に対応する部分である。
候補選択部41は、比較の結果として、音声合成メイン辞書データベース26に格納された複数の語句のうちの、上記部分である語句「秀喜」を読み出し、上記語句「秀喜」と上記正しい読み「ひでき」とを音声合成ユーザ辞書登録部42に通知する。
同時に、音声認識エンジン31のアクセント抽出部34は、内蔵メモリに格納されたユーザの音声「ひでき」を読み出し、その音声「ひでき」からアクセントを抽出し、音声合成ユーザ辞書登録部42に通知する。
音声合成ユーザ辞書登録部42は、上記語句「秀喜」と上記正しい読み「ひでき」と上記アクセントとを対応付けて音声合成ユーザ辞書データベース27に登録する。
これにより、文書データベース11に上記のテキストデータが格納されたとき、音声合成エンジン21は、上記のテキストデータが表す語句群を正しく読み上げることができる。即ち、音声合成エンジン21は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、テキストデータが表す語句群「7回裏に岡田秀喜が打点をあげた。」から、読み群「ななかいうらにおかだひできがだてんをあげた」を生成する。また、上記読み群に対応する発音用アクセントを決定する。音声合成エンジン21は、読み群「ななかいうらにおかだひできがだてんをあげた」を音声に変換し、上記の発音用アクセントを用いて、その音声をスピーカ25から出力する。
次に、図6を参照して、本発明の第1実施形態による音声合成装置1の動作(音声合成方法・音声合成処理)について説明する。
ここで、文書データベース11には、インターネットのWebページを表すテキストデータが格納されている。このテキストデータには、複数の文が記載されている。また、音声合成装置1は、コンピュータがテキストデータを取得して文書データベース11に格納したときに、テキストデータに記載された文を音声に変換するものとする。
文抽出部12は、文書データベース11に格納されたテキストデータを読み出して、文抽出部12の内蔵メモリに格納する(ステップS1)。
音声合成エンジン21の構文解析部23は、文抽出部12の内蔵メモリからテキストデータに記載された「。」や改行などの文の区切りにより、複数の文を認識する。構文解析部23は、変数Nを1(N=1)とし、複数の文のうちの、第1番目の文を読み出す(ステップS2)。
構文解析部23は、上記文を解析する。このとき、構文解析部23は、漢字、ひらがな、カタカナ、数字の並びにより、上記文が表す語句群を認識する(ステップS3)。構文解析部23は、音声合成メイン辞書データベース26と音声合成ユーザ辞書データベース27とを参照する(ステップS4、S5)。このとき、構文解析部23は、上記文が表す語句群から、読み群を生成し、上記読み群に対応する発音用アクセントを決定する(ステップS6)。
音声合成エンジン21の音声合成部22は、上記文が表す語句群を読み上げる。即ち、読み群が表す読みを音声に変換し、上記の発音用アクセントを用いて、その音声をスピーカ25から出力する(ステップS7)。音声合成部22が上記の音声をスピーカ25から出力している間に、ユーザがマイク35を使用していない場合(ステップS8−NO、S9)、構文解析部23は、変数Nをインクリメント(N=N+1)し、次の文を読み出す(ステップS10−YES、S11)。次の文がない場合(ステップS10−NO)、音声合成装置1は音声合成処理を終了する。
一方、音声合成部22が上記の音声をスピーカ25から出力している間に、ユーザがマイク35を使用する(ステップS8−YES)。即ち、ユーザは、上記文から異なる読みに対応する部分を正しい読みに訂正するために、マイク35を用いてユーザの音声を入力する。このとき、音声認識エンジン31の音声認識部32は、マイク35からユーザの音声を入力し、音声認識エンジン31の内蔵メモリに格納する(ステップS12)。音声認識エンジン31の読み候補生成部33は、音声認識辞書データベース36を参照して、内蔵メモリに格納されたユーザの音声から複数の読み候補を生成する(ステップS13)。
音声合成エンジン21の音声合成部22は、変数Iを1(I=1)とし、文抽出部12の内蔵メモリから上記文を再度読み出す(ステップS14)。音声合成エンジン21の構文解析部23は、上記文を解析して、上記文が表す語句群を認識する(ステップS15)。音声合成エンジン21の誤り候補生成部24は、上記文が表す上記の語句群から、複数の読み方がある語句や上記の音声合成辞書データベース26、27に登録されていない語句を含む複数の誤り候補を生成する(ステップS16)。候補選択部41は、複数の誤り候補と複数の読み候補とを比較する(ステップS17)。
比較の結果、候補選択部41は、複数の誤り候補の中から、複数の読み候補のうちの1つの読み候補に対応する誤り候補を選択することができない(ステップS18−NO)。
このとき、変数Iが変数Nよりも小さい場合(ステップS19−NO)、音声合成装置1は、1つ前の文に対してステップS15〜S19を実行する。
また、変数Iが変数Nである場合、あるいは、変数Iが変数Nよりも小さいが、1つ前の文がない場合(ステップS19−YES)、ステップS14により読み出された文を文抽出部12の内蔵メモリから抽出する。即ち、音声合成エンジン21の音声合成部22は、文抽出部12の内蔵メモリから上記文を再度読み出す(ステップS23)。その後、音声合成装置1は、その上記文に対して上記のステップS3以降を実行する。
一方、比較の結果、候補選択部41は、複数の誤り候補の中から、複数の読み候補のうちの1つの読み候補に対応する誤り候補を選択する。このとき、候補選択部41は、比較の結果として、音声合成メイン辞書データベース26に格納された複数の語句のうちの、上記誤り候補である語句を読み出し、上記読み出された語句と上記正しい読みとを音声合成ユーザ辞書登録部42に通知する(ステップS18−YES)。
同時に、音声認識エンジン31のアクセント抽出部34は、内蔵メモリに格納されたユーザの音声を読み出し、その音声からアクセントを抽出し、音声合成ユーザ辞書登録部42に通知する(ステップS21)。
音声合成ユーザ辞書登録部42は、候補選択部41から通知された語句、正しい読みと、アクセント抽出部34から通知されたアクセントとを対応付けて音声合成ユーザ辞書データベース27に登録する(ステップS22)。
その後、音声合成装置1は、その上記文に対して上記のステップS23以降を実行する。
上述のように、本発明の音声合成装置1では、音声合成エンジン21は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、テキストデータが表す語句群から読み群を生成し、上記読み群を音声に変換し、上記音声をスピーカ25から出力する。候補選択部41は、マイク35から入力される正しい読みに基づいて異なる読みに対応する部分を上記テキストデータから選択する。音声合成ユーザ辞書登録部42は、上記複数の語句のうちの上記部分を上記正しい読みに対応付けて音声合成ユーザ辞書データベース27に登録する。これにより、本発明の音声合成装置1に上記のテキストデータが与えられたとき、音声合成エンジン21は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。
また、本発明の音声合成装置1によれば、ユーザは、テキストデータの読み上げが間違えている場合、テキストデータの異なる読みに対応する部分に対して、正しい読みをマイク35により入力するだけでよい。このため、本発明の音声合成装置1は、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。したがって、コンピュータに不慣れなユーザでも簡単に辞書登録を行なうことができる。また、目や手が不自由なユーザでも簡単に辞書登録を行なうことができる。
上述のように、本発明の音声合成装置1では、音声認識エンジン31は、上記正しい読みとしてマイク35からユーザの音声を入力し、上記ユーザの音声から複数の読み候補を生成する。音声合成エンジン21は、上記テキストデータから複数の誤り候補を生成する。候補選択部41は、複数の誤り候補の中から、複数の読み候補のうちの1つに対応する誤り候補を上記部分として選択する。このように、本発明の音声合成装置1では、テキストデータの異なる読みに対してユーザが正しい読みをマイク35により入力したとき、テキストデータの異なる読みに対応する部分を自動的に選択し、その部分に対して自動的に辞書登録を行なう。このため、本発明の音声合成装置1は、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。
上述のように、本発明の音声合成装置1では、音声合成エンジン21は、複数アクセントのうちの、上記読み群に対応する発音用アクセントを用いて、上記音声をスピーカ25から出力する。音声合成ユーザ辞書登録部42は、複数の語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセントとを対応付けて音声合成ユーザ辞書データベース27に登録する。このように、本発明の音声合成装置1では、テキストデータの異なる読みに対してユーザが正しい読みをマイク35により入力したとき、テキストデータの異なる読みに対応する部分と、正しい読みと、ユーザの音声によるアクセントとを対応付けて辞書登録する。通常、アクセントについて入力装置を用いて辞書登録を行なうことは、ユーザ自身の癖や方言などにより、それほど容易な作業ではない。本発明の音声合成装置1では、ユーザの音声によりアクセントをそのまま辞書登録するため、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。
また、本発明の音声合成装置1では、必須の単語(語句、読み、アクセント)を音声合成メイン辞書データベース26に予め辞書登録しておき、音声合成メイン辞書データベース26に登録されていない単語(複数語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント)を音声合成ユーザ辞書データベース27に辞書登録することが好ましい。これにより、本発明の音声合成装置1に上記のテキストデータが与えられたとき、音声合成エンジン21は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。
(第2実施形態)
本発明の第2実施形態による音声合成装置1について説明する。第2実施形態では、第1実施形態と異なる点のみ説明する。第2実施形態では、カテゴリ付辞書登録処理と、共起辞書登録処理とを実現する。
カテゴリ付辞書登録処理では、音声合成により固有名詞(人名など)を読み上げる場合、同じ語句でも違う読み方をする場合が多々あり、これを区別して読み上げさせるのは難しい。読み上げる文書が、例えば、テキストデータが、記事を表すWebページである場合、その記事に記載されたカテゴリを表す情報として「スポーツ」「政治」「音楽」…を比較的容易に取得することができる。この場合、音声合成装置1に音声合成辞書データベースの1つとしてカテゴリ付き辞書データベースを設け、辞書登録の際に、カテゴリと、語句と正しい読みとアクセントとを含む単語とを対応付けてカテゴリ付辞書に登録することにより、読み誤りを更に低減することができる。
共起辞書登録処理では、例えば、音声合成により固有名詞(人名など)を読み上げる場合、同じ語句でも違う読み方をする場合が多々あり、これを区別して読み上げさせるのは難しい。固有名詞が人名である場合、フルネームで辞書登録したほうが好ましい。この場合、音声合成装置1に音声合成辞書データベースの1つとして共起情報付き辞書を設け、辞書登録の際に、その語句とその語句に連結する連結語句とを組み合わせる共起情報と、語句と正しい読みとアクセントとを含む単語と、連結語句(共起語)とその読みとそのアクセントとを含む単語とを対応付けて共起情報付辞書に登録することにより、読み誤りを更に低減することができる。
まず、カテゴリ付辞書への登録について説明する。
図7に示されるように、音声合成装置1は、更に、コンピュータに設けられたカテゴリ登録トリガ用スイッチ51を具備している。
音声合成装置1は、更に、コンピュータプログラムであるカテゴリ抽出部52を具備している。
音声合成装置1は、更に、コンピュータの格納部に格納されたカテゴリ抽出情報データベース53を具備している。カテゴリ抽出情報データベース53には、複数の参照用カテゴリ「スポーツ」「政治」「音楽」…が登録されている。
コンピュータの格納部に格納された上記の音声合成辞書データベースは、更に、音声合成カテゴリ付きユーザ辞書データベース54を含んでいる。
テキストデータには、カテゴリ「スポーツ」を表す情報が記載されていて、「7回裏に岡田秀喜が打点をあげた。」という文が記載されているものとする。このテキストデータに対して、音声合成エンジン21の音声合成部22が音声「ななかいうらにおかだひでよしがだてんをあげた」をスピーカ25から出力した場合を考える。
この場合、ユーザは、テキストデータの異なる読み「ひでよし」に対応する部分「秀喜」を正しい読み「ひでき」に訂正するために、マイク35を用いてユーザの音声「ひでき」を入力する。このとき、ユーザは、上記部分である語句「秀喜」と正しい読み「ひでき」とアクセントとを含む単語と、カテゴリとを対応付けるために、カテゴリ登録トリガ用スイッチ51を操作する。
カテゴリ抽出部52は、カテゴリ登録トリガ用スイッチ51が操作されたことを表すカテゴリ登録指示を音声合成ユーザ辞書登録部42に通知する。図8に示されるように、まず、音声合成ユーザ辞書登録部42は、このカテゴリ登録指示に応じて、語句「秀喜」と正しい読み「ひでき」とアクセントとを含む単語を音声合成カテゴリ付きユーザ辞書データベース54に登録する。カテゴリ抽出部52は、文抽出部12の内蔵メモリからテキストデータを読み出し、テキストデータに記載されたカテゴリ「スポーツ」を抽出する。即ち、カテゴリ抽出情報データベース53を参照して、複数の参照用カテゴリ「スポーツ」「政治」「音楽」…の中から、テキストデータに記載されたカテゴリに一致する参照用カテゴリ「スポーツ」を選択する。カテゴリ抽出部52は、上記のカテゴリ「スポーツ」を音声合成ユーザ辞書登録部42に通知する。図8に示されるように、音声合成ユーザ辞書登録部42は、上記のカテゴリ登録指示に応じて、上記のカテゴリ「スポーツ」を、語句「秀喜」と正しい読み「ひでき」とアクセントとを含む単語に対応付けて音声合成カテゴリ付きユーザ辞書データベース54に登録する。
次に、共起辞書への登録について説明する。
図7に示されるように、音声合成装置1は、更に、コンピュータに設けられた共起情報登録トリガ用スイッチ61を具備している。
音声合成装置1は、更に、コンピュータプログラムである共起情報抽出部62を具備している。
コンピュータの格納部に格納された上記の音声合成辞書データベースは、更に、音声合成共起情報付きユーザ辞書データベース64を含んでいる。
テキストデータには、カテゴリ「スポーツ」を表す情報が記載されていて、「7回裏に岡田秀喜が打点をあげた。」という文が記載されているものとする。このテキストデータに対して、音声合成エンジン21の音声合成部22が音声「ななかいうらにおかだひでよしがだてんをあげた」をスピーカ25から出力した場合を考える。
この場合、ユーザは、テキストデータの異なる読み「ひでよし」に対応する部分「秀喜」を正しい読み「ひでき」に訂正するために、マイク35を用いてユーザの音声「ひでき」を入力する。このとき、ユーザは、上記部分である語句「秀喜」と正しい読み「ひでき」とアクセントとを含む単語と、連結語句「岡田」とその読み「おかだ」とそのアクセントとを含む単語とを対応付けるために、共起情報登録トリガ用スイッチ61を操作し、マイク35を用いてユーザの音声である連結音声「おかだ」を入力する。
共起情報抽出部62は、共起情報登録トリガ用スイッチ61が操作されたことを表す共起情報登録指示を音声合成ユーザ辞書登録部42に通知する。図9に示されるように、音声合成ユーザ辞書登録部42は、この共起情報登録指示に応じて、上記語句「秀喜」と正しい読み「ひでき」とアクセントとを含む第1単語とを音声合成共起情報付きユーザ辞書データベース64に登録する。同時に、後述する第1共起情報を第1単語に対応付けて音声合成共起情報付きユーザ辞書データベース64に登録する。
また、共起情報抽出部62は、共起情報登録指示を音声認識エンジン31、音声合成エンジン21、候補選択部41に通知する。
音声認識エンジン31の音声認識部32は、共起情報登録指示に応じて、テキストデータの上記部分「秀喜」に連結する連結部分「岡田」の読みとしてマイク35から上記の連結音声「おかだ」を入力し、データとして内蔵メモリに格納する。音声認識エンジン31の読み候補生成部33は、音声認識辞書データベース36を参照して、内蔵メモリに格納された連結音声「おかだ」から複数の連結読み候補を生成する。即ち、複数の照合用音声の中から、連結音声「おかだ」に最も近い順に、複数の連結読み候補「おかだ」…を生成する。
音声合成エンジン21の誤り候補生成部24は、共起情報登録指示に応じて、テキストデータ「7回裏に岡田秀喜が打点をあげた。」が表す語句群「7回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」から、上記の連結部分に対応する複数の共起候補を生成する。即ち、候補選択部41は、語句群「7回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」の中から、語句「秀喜」に連結する語句「岡田」「が」を共起候補として選択する。
候補選択部41は、共起情報登録指示に応じて、複数の共起候補「岡田」「が」と複数の連結読み候補「おかだ」…とを比較する。比較の結果、候補選択部41は、複数の共起候補「岡田」「が」の中から、複数の連結読み候補「おかだ」…のうちの1つの読み候補「おかだ」に対応する共起候補「岡田」を選択する。即ち、候補選択部41は、上記の音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、連結読み候補「おかだ」から漢字「岡田」…に変換する。候補選択部41は、複数の共起候補「岡田」「が」の中から、漢字「岡田」…の1つに対応(一致)する共起候補「岡田」を選択する。このように、正しい読み「ひでき」に対応する共起候補「岡田」を選択する。
候補選択部41は、比較の結果として、音声合成メイン辞書データベース26に格納された複数の語句のうちの、上記部分に連結する連結部分である連結語句「岡田」を読み出し、上記連結語句「岡田」とその読み「おかだ」とを音声合成ユーザ辞書登録部42に通知する。
同時に、音声認識エンジン31のアクセント抽出部34は、共起情報登録指示に応じて、内蔵メモリに格納された連結音声「おかだ」を読み出し、その音声「おかだ」からアクセントを抽出し、音声合成ユーザ辞書登録部42に通知する。
音声合成ユーザ辞書登録部42は、共起情報登録指示に応じて、連結語句「岡田」とその読み「おかだ」とそのアクセントとを含む第2単語を音声合成共起情報付きユーザ辞書データベース64に登録する。同時に、後述する第2共起情報を第2単語に対応付けて音声合成共起情報付きユーザ辞書データベース64に登録する。第1共起情報と第2共起情報は、第1単語と第2単語とを対応付ける共起情報である。上述のように、連結語句「岡田」は、テキストデータの上記部分「秀喜」の1つ前に連結する連結部分である。このため、音声合成ユーザ辞書登録部42は、語句「岡田」、「秀喜」がこの順で音声合成共起情報付きユーザ辞書データベース64に登録されるように、第2共起情報、第1共起情報にそれぞれ語句の並びの順番を表す順番情報“1−1”、“1−2”を付加しておく。
次に、図10を参照して、本発明の第2実施形態による音声合成装置1の動作(音声合成方法・音声合成処理)について説明する。
ここで、第1実施形態と同様に、文書データベース11には、インターネットのWebページを表すテキストデータが格納されている。このテキストデータには、複数の文が記載されている。また、音声合成装置1は、コンピュータがテキストデータを取得して文書データベース11に格納したときに、テキストデータに記載された文を音声に変換するものとする。
第2実施形態による音声合成装置1の動作は、第1実施形態に対してステップS22が異なる。音声合成装置1は、ステップS22を実行するとき、トリガとしてカテゴリ登録トリガ用スイッチ51や共起情報登録トリガ用スイッチ61が操作されたか否かを確認し(ステップS31)、ユーザ辞書登録処理、カテゴリ付辞書登録処理、共起辞書登録処理のいずれかが実行される。
ここで、音声合成ユーザ辞書登録部42は、カテゴリ登録指示、共起情報登録指示を受け付けない。この場合、音声合成ユーザ辞書登録部42は、カテゴリ登録トリガ用スイッチ51、共起情報登録トリガ用スイッチ61が操作されていないことを認識し(ステップS31−トリガなし)、ユーザ辞書登録処理が実行される。
このユーザ辞書登録処理では、第1実施形態と同様に、音声合成ユーザ辞書登録部42は、候補選択部41から通知された語句、正しい読みと、アクセント抽出部34から通知されたアクセントとを対応付けて音声合成ユーザ辞書データベース27に登録する(ステップS32)。
ユーザは、マイク35を用いてユーザの音声を入力し(ステップS8−YES)、カテゴリ登録トリガ用スイッチ51を操作する。カテゴリ抽出部52は、カテゴリ登録トリガ用スイッチ51が操作されたことを表すカテゴリ登録指示を出力し、音声合成ユーザ辞書登録部42は、カテゴリ登録指示を受け付ける。この場合、音声合成ユーザ辞書登録部42は、カテゴリ登録トリガ用スイッチ51が操作されたことを認識し、カテゴリ付辞書登録処理が実行される。
このカテゴリ付辞書登録処理では、音声合成ユーザ辞書登録部42は、カテゴリ登録指示に応じて、候補選択部41から通知された語句、正しい読みと、アクセント抽出部34から通知されたアクセントとを対応付けて音声合成ユーザ辞書データベース27に登録する(ステップS31−カテゴリトリガあり)。
カテゴリ抽出部52は、文抽出部12の内蔵メモリからテキストデータを読み出し(ステップS41)、カテゴリ抽出情報データベース53を参照して、テキストデータに記載されたカテゴリを抽出する(ステップS42、S43)。カテゴリ抽出部52は、このカテゴリを音声合成ユーザ辞書登録部42に通知する。音声合成ユーザ辞書登録部42は、上記のカテゴリ登録指示に応じて、上記のカテゴリを、上記の語句と正しい読みとアクセントとを含む単語に対応付けて音声合成カテゴリ付きユーザ辞書データベース54に登録する(ステップS44)。
ユーザは、マイク35を用いてユーザの音声を入力した後(ステップS8−YES)、共起情報登録トリガ用スイッチ61を操作し、マイク35を用いてユーザの音声である連結音声を入力する。共起情報抽出部62は、共起情報登録トリガ用スイッチ61が操作されたことを表す共起情報登録指示を出力し、音声合成ユーザ辞書登録部42は、この共起情報登録指示を受け付ける。この場合、音声合成ユーザ辞書登録部42は、共起情報登録トリガ用スイッチ61が操作されたことを認識し、共起辞書登録処理が実行される。
この共起辞書登録処理では、音声合成ユーザ辞書登録部42は、共起情報登録指示に応じて、候補選択部41から通知された語句、正しい読みと、アクセント抽出部34から通知されたアクセントとを含む単語を第1単語として音声合成ユーザ辞書データベース27に登録する。同時に、音声合成ユーザ辞書登録部42は、第1共起情報を第1単語に対応付けて音声合成ユーザ辞書データベース27に登録する(ステップS31−共起語トリガあり)。
音声認識エンジン31の音声認識部32は、共起情報登録指示に応じて、テキストデータに記載された上記文の上記部分に連結する連結部分の読みとしてマイク35から上記の連結音声を入力し、データとして内蔵メモリに格納する(ステップS51)。音声認識エンジン31の読み候補生成部33は、音声認識辞書データベース36を参照して、内蔵メモリに格納された連結音声から複数の連結読み候補を生成する(ステップS52)。
音声合成エンジン21の誤り候補生成部24は、共起情報登録指示に応じて、上記文が表す語句群から、上記の連結部分に対応する複数の共起候補を生成する(ステップS53)。
候補選択部41は、共起情報登録指示に応じて、複数の共起候補と複数の連結読み候補とを比較する(ステップS54)。
比較の結果、候補選択部41は、複数の共起候補の中から、複数の連結読み候補のうちの1つの読み候補に対応する共起候補を選択する。このとき、候補選択部41は、比較の結果として、音声合成メイン辞書データベース26に格納された複数の語句のうちの、上記部分に連結する連結部分である連結語句を読み出し、上記連結語句とその読みとを音声合成ユーザ辞書登録部42に通知する。同時に、音声認識エンジン31のアクセント抽出部34は、共起情報登録指示に応じて、内蔵メモリに格納された連結音声を読み出し、その音声からアクセントを抽出し、音声合成ユーザ辞書登録部42に通知する(ステップS55)。
音声合成ユーザ辞書登録部42は、共起情報登録指示に応じて、候補選択部41から通知された連結語句とその読みと、アクセント抽出部34から通知されたアクセントとを含む単語を第2単語として音声合成ユーザ辞書データベース27に登録する。同時に、音声合成ユーザ辞書登録部42は、第2共起情報を第2単語に対応付けて音声合成ユーザ辞書データベース27に登録する。このとき、音声合成ユーザ辞書登録部42は、第2共起情報、第1共起情報にそれぞれ語句の並びの順番を表す順番情報“1−1”、“1−2”を付加する(ステップS56)。
上述のように、例えば、テキストデータが、記事を表すWebページである場合、その記事に記載されたカテゴリを表す情報として「スポーツ」「政治」「音楽」…を比較的容易に取得することができる。本発明の音声合成装置1では、カテゴリを表す情報がテキストデータに含まれる場合、カテゴリと、音声合成メイン辞書データベース26に登録されていない単語(複数語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント)とを対応付けて音声合成カテゴリ付ユーザ辞書データベース54に辞書登録することが好ましい。これにより、本発明の音声合成装置1に上記のテキストデータが与えられたとき、音声合成エンジン21は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成カテゴリ付ユーザ辞書データベース54)を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。このため、本発明の音声合成装置1は、音声合成ユーザ辞書データベース27を参照する場合に比べて、読み誤りを更に低減することができる。
上述のように、例えば、音声合成により固有名詞(人名など)を読み上げる場合、同じ語句でも違う読み方をする場合が多々あり、これを区別して読み上げさせるのは難しい。固有名詞が人名である場合、フルネームで辞書登録したほうが好ましい。この場合、本発明の音声合成装置1では、第1単語(複数語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント)と、第2単語(複数語句のうちの上記連結部分と、上記連結部分の読みと、上記連結音声によるアクセント)と、第1単語と第2単語とを対応付ける共起情報とを共起情報付ユーザ辞書データベース64に辞書登録することが好ましい。これにより、本発明の音声合成装置1に上記のテキストデータが与えられたとき、音声合成エンジン21は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成共起情報付ユーザ辞書データベース64)を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。このため、本発明の音声合成装置1は、音声合成ユーザ辞書データベース27を参照する場合に比べて、読み誤りを更に低減することができる。
図1は、本発明の音声合成装置1の構成を示すブロック図である。(第1実施形態) 図2は、本発明の音声合成装置1の音声合成メイン辞書データベース26を示している。(第1実施形態) 図3は、本発明の音声合成装置1の音声合成ユーザ辞書データベース27を示している。(第1実施形態) 図4は、本発明の音声合成装置1の音声認識辞書データベース36を示している。(第1実施形態) 図5は、本発明の音声合成装置1の動作を説明するための図である。(第1実施形態、第2実施形態) 図6は、本発明の音声合成装置1の動作を示すフローチャートである。(第1実施形態、第2実施形態) 図7は、本発明の音声合成装置1の構成を示すブロック図である。(第2実施形態) 図8は、本発明の音声合成装置1の音声合成カテゴリ付きユーザ辞書データベース54を示している。(第2実施形態) 図9は、本発明の音声合成装置1の音声合成共起情報付きユーザ辞書データベース64を示している。(第2実施形態) 図10は、本発明の音声合成装置1の動作を示すフローチャートである。(第2実施形態)
符号の説明
1 音声合成装置
11 文書データベース
12 文抽出部
21 音声合成エンジン
22 音声合成部
23 構文解析部
24 誤り候補生成部
25 スピーカ
26 音声合成メイン辞書データベース
27 音声合成ユーザ辞書データベース
31 音声認識エンジン
32 音声認識部
33 読み候補生成部
34 アクセント抽出部
35 マイク
36 音声認識辞書データベース
41 候補選択部
42 合成音声ユーザ辞書登録部
51 カテゴリ登録トリガ用スイッチ
52 カテゴリ抽出部
53 カテゴリ抽出情報データベース
54 音声合成カテゴリ付きユーザ辞書データベース
61 共起情報登録トリガ用スイッチ
62 共起情報抽出部
64 音声合成共起情報付きユーザ辞書データベース

Claims (16)

  1. 複数の語句を複数の読みに対応付ける辞書データベースと、
    前記辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声をスピーカから出力する音声合成エンジンと、
    マイクから入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する選択部と、
    前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録するユーザ辞書登録部と
    を具備する音声合成装置。
  2. 請求項1に記載の音声合成装置において、
    更に、
    前記正しい読みとして前記マイクからユーザの音声を入力し、前記ユーザの音声から複数の読み候補を生成する音声認識エンジンを具備し、
    前記音声合成エンジンは、前記テキストデータが表す語句群から複数の誤り候補を生成し、
    前記複数の誤り候補は、複数の読み方がある語句、前記辞書データベースに登録されていない語句を含み、
    前記選択部は、前記複数の誤り候補の中から、前記複数の読み候補のうちの1つに対応する誤り候補を前記部分として選択する
    音声合成装置。
  3. 請求項1又は2のいずれかに記載の音声合成装置において、
    前記辞書データベースは、
    前記複数の語句と前記複数の読みと複数アクセントとが対応付けられて登録されたメイン辞書データベースと、
    ユーザ辞書データベースとを含み、
    前記音声合成エンジンは、前記複数アクセントのうちの、前記読み群に対応する発音用アクセントを用いて、前記音声をスピーカから出力し、
    前記ユーザ辞書登録部は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記ユーザ辞書データベースに登録する
    音声合成装置。
  4. 請求項3に記載の音声合成装置において、
    前記辞書データベースは、
    カテゴリ付ユーザ辞書データベースを更に含み、
    前記テキストデータは、カテゴリを表す情報を含み、
    前記ユーザ辞書登録部は、カテゴリ登録指示に応じて、前記カテゴリと、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記カテゴリ付ユーザ辞書データベースに登録する
    音声合成装置。
  5. 請求項3又は4に記載の音声合成装置において、
    前記辞書データベースは、
    共起情報付ユーザ辞書データベースを更に含み、
    共起情報登録指示に応じて、
    前記音声認識エンジンは、前記テキストデータの前記部分に連結する連結部分の読みとして前記マイクからユーザの音声である連結音声を入力し、前記連結音声から複数の連結読み候補を生成し、
    前記音声合成エンジンは、前記テキストデータから前記連結部分に対応する複数の共起候補を生成し、
    前記選択部は、前記複数の共起候補の中から、前記複数の連結読み候補のうちの1つに対応する共起候補を前記連結部分として選択し、
    前記ユーザ辞書登録部は、第1単語と、第2単語と、第1単語と第2単語とを対応付ける共起情報とを前記共起情報付ユーザ辞書データベースに登録し、
    前記第1単語は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを含み、前記第2単語は、前記複数の語句のうちの前記連結部分と、前記連結部分の読みと、前記連結音声によるアクセントとを含む
    音声合成装置。
  6. 複数の語句を複数の読みに対応付ける辞書データベースを具備するコンピュータに適用される音声合成方法であって、
    前記辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声をスピーカから出力する音声合成ステップと、
    マイクから入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する選択ステップと、
    前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録するユーザ辞書登録ステップと
    を具備する音声合成方法。
  7. 請求項6に記載の音声合成方法において、
    更に、
    前記正しい読みとして前記マイクからユーザの音声を入力し、前記ユーザの音声から複数の読み候補を生成する音声認識ステップを具備し、
    前記音声合成ステップは、前記テキストデータが表す語句群から複数の誤り候補を生成するステップを更に含み、
    前記複数の誤り候補は、複数の読み方がある語句、前記辞書データベースに登録されていない語句を含み、
    前記選択ステップは、前記複数の誤り候補の中から、前記複数の読み候補のうちの1つに対応する誤り候補を前記部分として選択するステップ
    を更に含む音声合成方法。
  8. 請求項6又は7に記載の音声合成方法において、
    前記辞書データベースは、
    前記複数の語句と前記複数の読みと複数アクセントとが対応付けられて登録されたメイン辞書データベースと、
    ユーザ辞書データベースとを含み、
    前記音声合成エンジンは、前記複数アクセントのうちの、前記読み群に対応する発音用アクセントを用いて、前記音声をスピーカから出力し、
    前記ユーザ辞書登録ステップは、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記ユーザ辞書データベースに登録するステップ
    を更に含む音声合成方法。
  9. 請求項8に記載の音声合成方法において、
    前記辞書データベースは、
    カテゴリ付ユーザ辞書データベースを更に含み、
    前記テキストデータは、カテゴリを表す情報を含み、
    前記ユーザ辞書登録ステップは、カテゴリ登録指示に応じて、前記カテゴリと、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記カテゴリ付ユーザ辞書データベースに登録するステップ
    を更に含む音声合成方法。
  10. 請求項8又は9に記載の音声合成方法において、
    前記辞書データベースは、
    共起情報付ユーザ辞書データベースを更に含み、
    共起情報登録指示に応じて、
    前記音声認識ステップは、前記テキストデータの前記部分に連結する連結部分の読みとして前記マイクからユーザの音声である連結音声を入力し、前記連結音声から複数の連結読み候補を生成するステップを更に含み、
    前記音声合成ステップは、前記テキストデータから前記連結部分に対応する複数の共起候補を生成するステップを更に含み、
    前記選択ステップは、前記複数の共起候補の中から、前記複数の連結読み候補のうちの1つに対応する共起候補を前記連結部分として選択するステップを更に含み、
    前記ユーザ辞書登録ステップは、第1単語と、第2単語と、第1単語と第2単語とを対応付ける共起情報とを前記共起情報付ユーザ辞書データベースに登録するステップを更に含み、
    前記第1単語は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを含み、前記第2単語は、前記複数の語句のうちの前記連結部分と、前記連結部分の読みと、前記連結音声によるアクセントとを含む
    音声合成方法。
  11. 請求項6〜10のいずれかに記載された音声合成方法の各ステップをコンピュータに実行させるコンピュータプログラム。
  12. 複数の語句を複数の読みに対応付ける辞書データベースと、コンピュータプログラムとが格納された格納部と、
    前記コンピュータプログラムを実行する制御部と、
    スピーカと、
    マイクとを具備し、
    前記制御部は、
    前記辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声を前記スピーカから出力する音声合成エンジンと、
    前記マイクから入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する選択部と、
    前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録するユーザ辞書登録部と
    を具備するコンピュータ。
  13. 請求項12に記載のコンピュータにおいて、
    更に、
    前記正しい読みとして前記マイクからユーザの音声を入力し、前記ユーザの音声から複数の読み候補を生成する音声認識エンジンを具備し、
    前記音声合成エンジンは、前記テキストデータが表す語句群から複数の誤り候補を生成し、
    前記複数の誤り候補は、複数の読み方がある語句、前記辞書データベースに登録されていない語句を含み、
    前記選択部は、前記複数の誤り候補の中から、前記複数の読み候補のうちの1つに対応する誤り候補を前記部分として選択する
    コンピュータ。
  14. 請求項12又は13に記載のコンピュータにおいて、
    前記辞書データベースは、
    前記複数の語句と前記複数の読みと複数アクセントとが対応付けられて登録されたメイン辞書データベースと、
    ユーザ辞書データベースとを含み、
    前記音声合成エンジンは、前記複数アクセントのうちの、前記読み群に対応する発音用アクセントを用いて、前記音声をスピーカから出力し、
    前記ユーザ辞書登録部は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記ユーザ辞書データベースに登録する
    コンピュータ。
  15. 請求項14に記載のコンピュータにおいて、
    前記辞書データベースは、
    カテゴリ付ユーザ辞書データベースを更に含み、
    前記テキストデータは、カテゴリを表す情報を含み、
    前記ユーザ辞書登録部は、カテゴリ登録指示に応じて、前記カテゴリと、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記カテゴリ付ユーザ辞書データベースに登録する
    コンピュータ。
  16. 請求項14又は15に記載のコンピュータにおいて、
    前記辞書データベースは、
    共起情報付ユーザ辞書データベースを更に含み、
    共起情報登録指示に応じて、
    前記音声認識エンジンは、前記テキストデータの前記部分に連結する連結部分の読みとして前記マイクからユーザの音声である連結音声を入力し、前記連結音声から複数の連結読み候補を生成し、
    前記音声合成エンジンは、前記テキストデータから前記連結部分に対応する複数の共起候補を生成し、
    前記選択部は、前記複数の共起候補の中から、前記複数の連結読み候補のうちの1つに対応する共起候補を前記連結部分として選択し、
    前記ユーザ辞書登録部は、第1単語と、第2単語と、第1単語と第2単語とを対応付ける共起情報とを前記共起情報付ユーザ辞書データベースに登録し、
    前記第1単語は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを含み、前記第2単語は、前記複数の語句のうちの前記連結部分と、前記連結部分の読みと、前記連結音声によるアクセントとを含む
    コンピュータ。
JP2005275086A 2005-09-22 2005-09-22 音声合成装置 Withdrawn JP2007086404A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005275086A JP2007086404A (ja) 2005-09-22 2005-09-22 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005275086A JP2007086404A (ja) 2005-09-22 2005-09-22 音声合成装置

Publications (1)

Publication Number Publication Date
JP2007086404A true JP2007086404A (ja) 2007-04-05

Family

ID=37973448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005275086A Withdrawn JP2007086404A (ja) 2005-09-22 2005-09-22 音声合成装置

Country Status (1)

Country Link
JP (1) JP2007086404A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007248886A (ja) * 2006-03-16 2007-09-27 Mitsubishi Electric Corp 読み修正装置
WO2012172596A1 (ja) * 2011-06-14 2012-12-20 三菱電機株式会社 発音情報生成装置、車載情報装置およびデータベース生成方法
JP2014085652A (ja) * 2012-10-26 2014-05-12 Toshiba Corp 対話システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007248886A (ja) * 2006-03-16 2007-09-27 Mitsubishi Electric Corp 読み修正装置
JP4704254B2 (ja) * 2006-03-16 2011-06-15 三菱電機株式会社 読み修正装置
WO2012172596A1 (ja) * 2011-06-14 2012-12-20 三菱電機株式会社 発音情報生成装置、車載情報装置およびデータベース生成方法
JP2014085652A (ja) * 2012-10-26 2014-05-12 Toshiba Corp 対話システム

Similar Documents

Publication Publication Date Title
JP4267101B2 (ja) 音声識別装置、発音矯正装置およびこれらの方法
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US7711562B1 (en) System and method for testing a TTS voice
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US7693716B1 (en) System and method of developing a TTS voice
US7630898B1 (en) System and method for preparing a pronunciation dictionary for a text-to-speech voice
US20070255567A1 (en) System and method for generating a pronunciation dictionary
US20090204401A1 (en) Speech processing system, speech processing method, and speech processing program
US7742921B1 (en) System and method for correcting errors when generating a TTS voice
CN102640107A (zh) 信息处理装置
US7742919B1 (en) System and method for repairing a TTS voice database
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP4738847B2 (ja) データ検索装置および方法
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
JP2007086404A (ja) 音声合成装置
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
JP2009271117A (ja) 音声検索装置および音声検索方法
JP2000056795A (ja) 音声認識装置
JP3589972B2 (ja) 音声合成装置
JP2003162524A (ja) 言語処理装置
JP3378547B2 (ja) 音声認識方法及び装置
JP3865149B2 (ja) 音声認識装置および方法、辞書作成装置および情報記憶媒体
JP3881155B2 (ja) 音声認識方法及び装置
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081202