JP2009098292A - 音声記号列生成方法、音声合成方法及び音声合成装置 - Google Patents
音声記号列生成方法、音声合成方法及び音声合成装置 Download PDFInfo
- Publication number
- JP2009098292A JP2009098292A JP2007268207A JP2007268207A JP2009098292A JP 2009098292 A JP2009098292 A JP 2009098292A JP 2007268207 A JP2007268207 A JP 2007268207A JP 2007268207 A JP2007268207 A JP 2007268207A JP 2009098292 A JP2009098292 A JP 2009098292A
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- devoicing
- morpheme
- speech
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】形態素を反映して、自然な合成音声の生成に適した音声記号列生成方法、音声合成方法及び音声合成装置を提供する。
【解決手段】入力される漢字かな混じり文は、形態素解析部5により形態素に分割され、形態素を構成する文字の読みの情報に対して無声化検定部7は、母音の無声化音節の検定を形態素の区切りの情報を利用して行う。検定を形態素の区切りの情報を利用して無声化音節を決定することにより、自然な合成音声の生成を可能にする。
【選択図】図1
【解決手段】入力される漢字かな混じり文は、形態素解析部5により形態素に分割され、形態素を構成する文字の読みの情報に対して無声化検定部7は、母音の無声化音節の検定を形態素の区切りの情報を利用して行う。検定を形態素の区切りの情報を利用して無声化音節を決定することにより、自然な合成音声の生成を可能にする。
【選択図】図1
Description
本発明は、文字コード列から合成音声のための音声記号列を生成する音声記号列生成方法、音声合成方法及び音声合成装置に関する。
現在、漢字かな混じり文を解析し、その漢字かな混じり文が示す音声情報を規則合成法により音声合成して出力する音声合成ソフトが種々開発されている。そして、この種の音声合成ソフトは、カーナビゲーションシステム、電子辞書などに幅広く利用され始めている。
この種の規則合成法を採用した音声合成ソフトは、漢字かな混じり文を言語解析して、読みの情報に韻律情報(アクセントやポーズの情報)を付与して音声記号に変換する。そして、その音声記号に基づいて合成音声を生成する。
一方、日本語の標準的な話し方では、前後の音の関係によっては特定の音節において母音を発声しない母音の無声化が行われる。この母音の無声化を行う無声化音節を正しく検定(決定)しないと不自然な合成音声となってしまう。
この種の規則合成法を採用した音声合成ソフトは、漢字かな混じり文を言語解析して、読みの情報に韻律情報(アクセントやポーズの情報)を付与して音声記号に変換する。そして、その音声記号に基づいて合成音声を生成する。
一方、日本語の標準的な話し方では、前後の音の関係によっては特定の音節において母音を発声しない母音の無声化が行われる。この母音の無声化を行う無声化音節を正しく検定(決定)しないと不自然な合成音声となってしまう。
そのため、通常は、音声記号を生成する際に母音を無声化させる音節を決定している。具体的には、基本規則(或いは標準規則)に従って、母音の無声化対象音節とそれに後続する音節との関係によって、前者の音節を無声化させる。
この規則を適用すると無声化音節が連続する場合があり、その場合には合成音声が聞きづらい音声となってしまうことがあった。
従来は、規則を利用して母音の無声化が2つ連続する場合は、前の音節を無声化、後ろの音節を有声化させ、3つ連続する場合は、真中の音節を有声化させ、それ以外の両端の音節を無声化させるなどして対応してきた。しかしながら、この方法では文字の並び、特に形態素の区切りを考慮していないため、必ずしも自然な合成音声を生成できるとは限らなかった。
この規則を適用すると無声化音節が連続する場合があり、その場合には合成音声が聞きづらい音声となってしまうことがあった。
従来は、規則を利用して母音の無声化が2つ連続する場合は、前の音節を無声化、後ろの音節を有声化させ、3つ連続する場合は、真中の音節を有声化させ、それ以外の両端の音節を無声化させるなどして対応してきた。しかしながら、この方法では文字の並び、特に形態素の区切りを考慮していないため、必ずしも自然な合成音声を生成できるとは限らなかった。
一方、特許文献1には、アクセント核のある音節(読み)を無声化させる音節とするか否かを、識別アルゴリズムを用いて判定する方法を開示している。
この従来例は、アクセント核の有る音節を無声化させるか否かを判定するものであり、アクセント核が存在しない音節については無声化するか否かが触れられていない。
このため、アクセント核の存在の有無にかかわらず、形態素を反映した自然な合成音声を生成可能とするものが望まれる。
特開2005−292696号公報
この従来例は、アクセント核の有る音節を無声化させるか否かを判定するものであり、アクセント核が存在しない音節については無声化するか否かが触れられていない。
このため、アクセント核の存在の有無にかかわらず、形態素を反映した自然な合成音声を生成可能とするものが望まれる。
本発明は、上述した点に鑑みてなされたもので、形態素を反映して、自然な合成音声の生成を行うのに適した音声記号列生成方法、音声合成方法及び音声合成装置を提供することを目的とする。
本発明の一実施形態に係る音声記号列生成方法は、入力される漢字かな混じり文を形態素に分割し、読みの情報に変換するための解析を行う形態素解析ステップと、前記形態素解析ステップにより生成された読みの情報に基づいて前記形態素を構成する文字の読みの情報に対して母音の無声化音節を検定する際に、前記形態素の区切りの情報を利用して行う無声化音節検定ステップと、前記無声化音節検定ステップの出力情報に基づいて前記漢字かな混じり文に対応する音声合成のための音声記号列を生成する音声記号列生成ステップと、を具備することを特徴とする。
本発明の一実施形態に係る音声合成方法は、入力される漢字かな混じり文を形態素に分割し、読みの情報に変換するための解析を行う形態素解析ステップと、前記形態素解析ステップにより生成された読みの情報に基づいて前記形態素を構成する文字の読みの情報に対して母音の無声化音節の検定を、前記形態素の区切りの情報を利用して行う無声化音節検定ステップと、前記無声化音節検定ステップの出力情報に基づいて前記漢字かな混じり文に対応する音声合成を行う音声合成ステップと、を具備することを特徴とする。
本発明の一実施形態に係る音声合成装置は、入力される漢字かな混じり文を形態素に分割し、読みの情報に変換するための解析を行う形態素解析手段と、前記形態素解析手段により生成された読みの情報に基づいて前記形態素を構成する文字の読みの情報に対して母音の無声化音節の検定を、前記形態素の区切りの情報を利用して行う無声化音節検定手段と、前記無声化音節検定手段の出力情報に基づいて前記漢字かな混じり文に対応する音声合成を行う音声合成手段と、を具備することを特徴とする。
本発明によれば、形態素の区切りの情報を利用した無声化音節の検定が可能になり、形態素を反映した自然な合成音声の生成に適する。
以下、図面を参照して本発明の実施形態を説明する。
図1は本発明の一実施形態に係る音声合成装置1の概略構成を示すブロック図である。 図1に示す音声合成装置1は、音声合成の対象とする漢字かな混じり文の文字コード列の入力を司る入力部2を有する。
また、この音声合成装置1は、入力部2を介して入力された漢字かな混じり文の文字コード列に対して、形態素の解析等を行い、音声記号列を生成する言語解析ブロック3を有する。なお、入力部2とこの言語解析ブロック3とにより音声記号列生成手段を形成する。
図1は本発明の一実施形態に係る音声合成装置1の概略構成を示すブロック図である。 図1に示す音声合成装置1は、音声合成の対象とする漢字かな混じり文の文字コード列の入力を司る入力部2を有する。
また、この音声合成装置1は、入力部2を介して入力された漢字かな混じり文の文字コード列に対して、形態素の解析等を行い、音声記号列を生成する言語解析ブロック3を有する。なお、入力部2とこの言語解析ブロック3とにより音声記号列生成手段を形成する。
上記言語解析ブロック3は、音声合成の対象となる単語や句等についてのアクセント型、読み、品詞情報等が予め登録されている言語解析辞書4と、入力部2から入力された文字コード列を、この言語解析辞書4を用いて形態素単位に分割し、読みの情報に変換する処理を行う形態素解析部5とを有する。
なお、形態素は、意味を持つ最小の言語単位であり、単独で1語になる自由形態素と、常に自由形態素に付いて生じる拘束形態素とがある。
また、この言語解析ブロック3は、形態素解析部5により形態素単位に分割された複数アクセント型をアクセント句単位に結合するためのアクセント結合部6と、形態素解析部5により形態素単位に分割されたその形態素の区切りの情報を用いて、無声化される音節としての無声化音節を決定(又は検定)する無声化検定部7と、この無声化検定部7からの出力結果(情報)に従って音声合成するための音声記号列を生成する音声記号列生成部8とを有する。
なお、形態素は、意味を持つ最小の言語単位であり、単独で1語になる自由形態素と、常に自由形態素に付いて生じる拘束形態素とがある。
また、この言語解析ブロック3は、形態素解析部5により形態素単位に分割された複数アクセント型をアクセント句単位に結合するためのアクセント結合部6と、形態素解析部5により形態素単位に分割されたその形態素の区切りの情報を用いて、無声化される音節としての無声化音節を決定(又は検定)する無声化検定部7と、この無声化検定部7からの出力結果(情報)に従って音声合成するための音声記号列を生成する音声記号列生成部8とを有する。
また音声合成装置1は、音声記号列生成部8で求められた音声記号列から合成された音声信号としての合成音声信号を生成する音声合成部9と、この音声合成部9により生成された合成音声信号が入力されることによりその合成音声を音声として出力するスピーカ10とを有する。
上記無声化検定部7は、形態素解析部5から入力される読み(音節)に対して、図1の符号7a〜7eで示す5つの機能を主に用いて、無声化音節にするか否かを決定する。 具体的には、図3を参照して後述するように基本規則適用機能7aにより、無声化音節の候補となる無声化候補音節に対して、基本規則を適用して無声化候補音節の第1候補を決定する。
上記無声化検定部7は、形態素解析部5から入力される読み(音節)に対して、図1の符号7a〜7eで示す5つの機能を主に用いて、無声化音節にするか否かを決定する。 具体的には、図3を参照して後述するように基本規則適用機能7aにより、無声化音節の候補となる無声化候補音節に対して、基本規則を適用して無声化候補音節の第1候補を決定する。
また、この第1候補に対して、候補連続判定機能7bにより、その第1候補(以下の第2候補の場合もある)が連続しているか否かを判定する。そして、連続していない場合には、最終的な無声化音節として決定し、連続している場合には次の判定を行う。
連続していると判定された第1候補に対して、区切り位置判定機能7cにより、形態素の区切り位置を含むか否かの判定を行う。
形態素の区切り位置を含むと判定された第1候補に対しては、無声化/有声化処理機能7dにより、区切り位置の直後の音節を無声化、区切り位置の直前の音節を有声化して第2の候補に絞り込む。
また、形態素の区切り位置を含まないと判定された第1候補に対しては、連続規則適用機能7eにより、連続する個数に応じて無声化するものと有声化するものとを決定して、最終的な無声化音節を決定する。
連続していると判定された第1候補に対して、区切り位置判定機能7cにより、形態素の区切り位置を含むか否かの判定を行う。
形態素の区切り位置を含むと判定された第1候補に対しては、無声化/有声化処理機能7dにより、区切り位置の直後の音節を無声化、区切り位置の直前の音節を有声化して第2の候補に絞り込む。
また、形態素の区切り位置を含まないと判定された第1候補に対しては、連続規則適用機能7eにより、連続する個数に応じて無声化するものと有声化するものとを決定して、最終的な無声化音節を決定する。
上記第2の候補に対して、基本規則適用機能7aや候補連続判定機能7bを再帰的に適用することによって、最終的な無声化音節(及び有声化音節)を決定する。
次に、図1に示すこの音声合成装置1による音声合成方法の全体の動作を図2を参照して説明する。図2は、音声合成装置1による音声合成方法の処理手順のフローチャートを示す。
音声合成装置1の電源が投入されて音声合成方法がスタートすると、最初のステップS1において入力部2には、音声合成の対象とする漢字かな混じり文の文字コード列が入力される。この漢字かな混じり文の文字コード列は、入力部2から言語解析ブロック3を構成する形態素解析部5に送られる。
次に、図1に示すこの音声合成装置1による音声合成方法の全体の動作を図2を参照して説明する。図2は、音声合成装置1による音声合成方法の処理手順のフローチャートを示す。
音声合成装置1の電源が投入されて音声合成方法がスタートすると、最初のステップS1において入力部2には、音声合成の対象とする漢字かな混じり文の文字コード列が入力される。この漢字かな混じり文の文字コード列は、入力部2から言語解析ブロック3を構成する形態素解析部5に送られる。
ステップS2に示すようにこの形態素解析部5は、入力部2を経て入力された文字コード列と言語解析辞書4とを照合し、文字コード列から生成される音声合成する際の構成要素となる単語や句等の形態素単位に分解する。
例えば、「福祉機構」なる漢字かな混じり文の文字コード列が入力部2に入力された場合について説明する。この場合には、形態素解析部5は、入力された「福祉機構」を、言語解析辞書4と照合し、この言語解析辞書4に予め登録されている形態素単位の情報との照合結果により「福祉」及び「機構」の2つの形態素に分割する。
また、ステップS3に示すように形態素解析部5は、音声合成する際の対象となる単語や句等の形態素についてのアクセント型、読み、品詞情報を求め、その品詞情報に従うアクセント型の決定、および漢字かな混じり文の読みの形式への変換を行う。
例えば、「福祉機構」なる漢字かな混じり文の文字コード列が入力部2に入力された場合について説明する。この場合には、形態素解析部5は、入力された「福祉機構」を、言語解析辞書4と照合し、この言語解析辞書4に予め登録されている形態素単位の情報との照合結果により「福祉」及び「機構」の2つの形態素に分割する。
また、ステップS3に示すように形態素解析部5は、音声合成する際の対象となる単語や句等の形態素についてのアクセント型、読み、品詞情報を求め、その品詞情報に従うアクセント型の決定、および漢字かな混じり文の読みの形式への変換を行う。
上記の具体例の場合には、読みの情報「ふくし」「きこう」やアクセント位置の情報(「ふくし」に対して2型、「きこう」に対して0型)を求める。なお、アクセント型における0型は、アクセントが無い型である。
形態素解析部5によって生成された読みの情報は、アクセント結合部6と無声化検定部7に送られる。
ステップS4に示すようにアクセント結合部6は、形態素単位に分かれた単語を所定の規則に従ってアクセント句単位に結合し、アクセント句に対するアクセント型を決定する。
上記の具体例の場合には、アクセント結合部6では、2つに分割された「ふくし」「きこう」を「ふくしきこう」と1つのアクセント句に結合する。
形態素解析部5によって生成された読みの情報は、アクセント結合部6と無声化検定部7に送られる。
ステップS4に示すようにアクセント結合部6は、形態素単位に分かれた単語を所定の規則に従ってアクセント句単位に結合し、アクセント句に対するアクセント型を決定する。
上記の具体例の場合には、アクセント結合部6では、2つに分割された「ふくし」「きこう」を「ふくしきこう」と1つのアクセント句に結合する。
このとき、アクセント結合規則を利用して「き」にアクセント位置を置くようにアクセント型は4と決定する。決定されたアクセント型の情報は、無声化検定部7に送られる。 ステップS5に示すように無声化検定部7は、形態素解析部5から与えられる形態素の区切り(位置)、アクセント結合部6から与えられるアクセント型の情報を元にして、無声化音節を決定(検定)する処理を行う。無声化検定部7により有声化及び無声化が決定された音節の情報は、音声記号列生成部8に送られる。
上記の具体例の場合には、後述するように無声化検定部7は、「ふくしきこう」に対して、形態素の区切りの情報を用いて、最終的に「ふくしきこう」の無声化音節は、「ふ」「き」と決定する。
ステップS6に示すように音声記号列生成部8は、無声化検定部7から出力される無声化音節の情報や、読みの情報、アクセント句の情報を元にして音声記号列(音韻情報をカタカナで表し、ポーズ長やアクセント位置などの韻律情報を記号を使用して表す)を生成する。
上記の具体例の場合には、後述するように無声化検定部7は、「ふくしきこう」に対して、形態素の区切りの情報を用いて、最終的に「ふくしきこう」の無声化音節は、「ふ」「き」と決定する。
ステップS6に示すように音声記号列生成部8は、無声化検定部7から出力される無声化音節の情報や、読みの情報、アクセント句の情報を元にして音声記号列(音韻情報をカタカナで表し、ポーズ長やアクセント位置などの韻律情報を記号を使用して表す)を生成する。
上記の具体例の場合、音声記号列生成部8は、無声化音節の情報やアクセント型の情報から音声記号列「フ#クシキ#^コー」(^はアクセント核の位置、#は、直前の音節が無声化音節であることを表す。)を生成する。
生成された音声記号列は、音声合成部9に送られる。
ステップS7に示すように音声合成部9は、音声記号列生成部8から出力される音声記号列を元にして音声合成部9内に予め用意されている音声波形やパラメータを使用して合成音声信号を生成する。
この合成音声信号は、図示しないD/A変換器によりアナログ信号に変換されて、スピーカ10に入力され、スピーカ10から合成音声が発せられる。
このようにして、入力部2により入力された漢字かな混じり文から音声が生成されスピーカ10から出力される。
生成された音声記号列は、音声合成部9に送られる。
ステップS7に示すように音声合成部9は、音声記号列生成部8から出力される音声記号列を元にして音声合成部9内に予め用意されている音声波形やパラメータを使用して合成音声信号を生成する。
この合成音声信号は、図示しないD/A変換器によりアナログ信号に変換されて、スピーカ10に入力され、スピーカ10から合成音声が発せられる。
このようにして、入力部2により入力された漢字かな混じり文から音声が生成されスピーカ10から出力される。
次に図3を参照して、無声化検定部7の処理内容を説明する。図3は、図2のステップS5の処理の詳細、つまり無声化検定部7の処理手順のフローチャートを示す。
この処理内容の具体例としては、上述した「福祉機構」なる漢字かな混じり文の場合で説明する。
上述したように無声化検定部7には、「ふくしきこう」、アクセント型4、形態素の区切りは「し」「き」の間、という情報が入力される。
そして、図3のステップS11に示すようにこの無声化検定部7における基本規則適用機能7aにより、無声化音節の候補となる無声化候補音節に対して、基本規則を適用して無声化音節の第1候補を決定する。
この処理内容の具体例としては、上述した「福祉機構」なる漢字かな混じり文の場合で説明する。
上述したように無声化検定部7には、「ふくしきこう」、アクセント型4、形態素の区切りは「し」「き」の間、という情報が入力される。
そして、図3のステップS11に示すようにこの無声化検定部7における基本規則適用機能7aにより、無声化音節の候補となる無声化候補音節に対して、基本規則を適用して無声化音節の第1候補を決定する。
図4は、無声化候補音節を無声化する基本規則の一例を示す。図4に示すように、この基本規則は、無声化候補文字+(その後に続く)無声化後方文字の関係が成り立つときのみ、無声化候補文字の母音を無声化させる。
無声化候補文字としては、か行の「き」、「く」、さ行の「し」、「す」、は行の「ふ」、…等がある。そして、その無声化候補音節を無声化する無声化後方文字としてはか行、さ行、…となる。
具体的には、無声化候補文字+無声化後方文字として「しき」の場合、「し」+「か行」となるため「し」が無声化される。
図4の基本規則を「ふくしきこう」の読みの音節に適用すると、「ふ」「く」「し」「き」が無声化候補音節の第1候補となる。
無声化候補文字としては、か行の「き」、「く」、さ行の「し」、「す」、は行の「ふ」、…等がある。そして、その無声化候補音節を無声化する無声化後方文字としてはか行、さ行、…となる。
具体的には、無声化候補文字+無声化後方文字として「しき」の場合、「し」+「か行」となるため「し」が無声化される。
図4の基本規則を「ふくしきこう」の読みの音節に適用すると、「ふ」「く」「し」「き」が無声化候補音節の第1候補となる。
次にステップS12において、無声化検定部7における候補連続判定機能7bにより、無声化候補音節の第1候補(つまり「ふ」「く」「し」「き」)が連続しているか否かを判定する。この第1候補の場合には、連続していると判定されて、ステップS13に進む。
ステップS13において、区切り位置判定機能7cは、連続していると判定された第1候補に対して、形態素の区切り位置を含む(跨ぐ)か否かの判定を行う。具体例の場合には、形態素の区切りの位置が「し」と「き」の間であることから区切り位置判定機能7cは、形態素の区切り位置を含むと判定する。
そして、次のステップS14に進む。ステップS14においては、無声化/有声化処理機能7dでにより、形態素区切りの直後の音節を無声化、直前の音節を有声化させる処理を行う。これにより、具体例の場合には、「し」が有声化されるため、無声化候補音節(の第2候補)は「ふ」「く」「き」となる。
ステップS13において、区切り位置判定機能7cは、連続していると判定された第1候補に対して、形態素の区切り位置を含む(跨ぐ)か否かの判定を行う。具体例の場合には、形態素の区切りの位置が「し」と「き」の間であることから区切り位置判定機能7cは、形態素の区切り位置を含むと判定する。
そして、次のステップS14に進む。ステップS14においては、無声化/有声化処理機能7dでにより、形態素区切りの直後の音節を無声化、直前の音節を有声化させる処理を行う。これにより、具体例の場合には、「し」が有声化されるため、無声化候補音節(の第2候補)は「ふ」「く」「き」となる。
そして、次の処理としてステップS12に戻る。そして、ステップS12において、連続する無声化候補音節が連続しているかの判定が行われる。この場合には、「ふ」と「く」が連続していることから連続していると判定される。なお、「き」は、連続していないと判定され、この「き」は無声化音節として決定される。
次のステップS13において、「ふ」と「く」に対して形態素の区切りを含んでいるかの判定が行われ、「ふ」と「く」は形態素の区切りでないため、形態素の区切りを含んでいないと判定される。この判定結果の場合には、ステップS15に進む。
このステップS15において、連続規則適用機能7eにより、所定の連続規則が適用される。この連続規則は、無声化候補音節が2つ連続する場合には、前の音節を無声化、後ろの音節を有声化させる。
次のステップS13において、「ふ」と「く」に対して形態素の区切りを含んでいるかの判定が行われ、「ふ」と「く」は形態素の区切りでないため、形態素の区切りを含んでいないと判定される。この判定結果の場合には、ステップS15に進む。
このステップS15において、連続規則適用機能7eにより、所定の連続規則が適用される。この連続規則は、無声化候補音節が2つ連続する場合には、前の音節を無声化、後ろの音節を有声化させる。
この連続規則を適用すると、「ふ」「く」の無声化候補音節の内、「ふ」が無声化音節と決定される。結果として「ふくしきこう」の読みに対する無声化音節は、「ふ」「き」と決定される。そして、この決定された無声化音節の情報は、音声記号列生成部8に出力される。
音声記号列生成部8は、この無声化音節の情報と、アクセント結合部6により決定されたアクセント型の情報から音声記号列「フ#クシキ#^コー」を生成する。
この音声記号列は、音声合成部9に出力され、合成音声信号が生成され、スピーカ10から音声出力される。
上述したように本実施形態に係る音声合成装置1によれば、形態素の区切り情報を使用することによって高精度の無声化音節の検定を行うことができるため、自然な合成音声の生成が可能になる。
音声記号列生成部8は、この無声化音節の情報と、アクセント結合部6により決定されたアクセント型の情報から音声記号列「フ#クシキ#^コー」を生成する。
この音声記号列は、音声合成部9に出力され、合成音声信号が生成され、スピーカ10から音声出力される。
上述したように本実施形態に係る音声合成装置1によれば、形態素の区切り情報を使用することによって高精度の無声化音節の検定を行うことができるため、自然な合成音声の生成が可能になる。
なお、上述した実施形態では、無声化音節を「#」、アクセント記号を「^」、音韻の情報を「カタカナ」としているが、他の記号を用いても良いことは明らかである。
また、「基本規則」や「連続規則」についても一例を用いて説明したものであり、他の方法を採用しても良い。
図5は変形例に係る音声合成装置1Bを示す。この音声合成装置1Bは、図1の音声合成装置1を変形した構成となっている。
この音声合成装置1Bは、入力部2と言語解析ブロック3とを含む音声記号列生成装置11と、この音声記号列生成装置11により生成された音声記号列を一時記憶するメモリ12と、このメモリ12から音声記号列を読み出して音声合成を行う音声合成部9及びスピーカ10とを有する。
また、「基本規則」や「連続規則」についても一例を用いて説明したものであり、他の方法を採用しても良い。
図5は変形例に係る音声合成装置1Bを示す。この音声合成装置1Bは、図1の音声合成装置1を変形した構成となっている。
この音声合成装置1Bは、入力部2と言語解析ブロック3とを含む音声記号列生成装置11と、この音声記号列生成装置11により生成された音声記号列を一時記憶するメモリ12と、このメモリ12から音声記号列を読み出して音声合成を行う音声合成部9及びスピーカ10とを有する。
図5の構成例では、音声記号列生成装置11と、メモリ12及び音声合成部9は、例えばバス13に接続されている。なお、メモリ12を音声記号列生成装置11の内部に設けるようにしても良い。
また、バス13には、生成された音声記号列を音声合成部9に転送したり、この音声合成装置1Bの外部に転送する制御等を行うCPU14と、図示しない外部装置とのデータの入出力や転送を行う際のインタフェースとなる例えばUSBインタフェース15とが接続されている。
本変形例においては、音声記号列生成装置11により生成された音声記号列は、一旦メモリ12に保持される。そして、ユーザなどによる指示操作に応じてメモリ12に保持された音声記号列を音声合成部9を経てスピーカ10から音声出力する。
また、CPU14は、漢字かな混じり文(或いは文字コード列)を外部装置からUSBインタフェース15を介して音声記号列生成装置11に取り込む制御を行う。
また、バス13には、生成された音声記号列を音声合成部9に転送したり、この音声合成装置1Bの外部に転送する制御等を行うCPU14と、図示しない外部装置とのデータの入出力や転送を行う際のインタフェースとなる例えばUSBインタフェース15とが接続されている。
本変形例においては、音声記号列生成装置11により生成された音声記号列は、一旦メモリ12に保持される。そして、ユーザなどによる指示操作に応じてメモリ12に保持された音声記号列を音声合成部9を経てスピーカ10から音声出力する。
また、CPU14は、漢字かな混じり文(或いは文字コード列)を外部装置からUSBインタフェース15を介して音声記号列生成装置11に取り込む制御を行う。
そして、CPU14は、音声記号列生成装置11により生成された音声記号列をメモリ12に格納する。そして、CPU14は、メモリ12をバッファとしてUSBインタフェース15を介して外部装置に音声記号列の情報(データ)を転送する制御を行う。
本変形例の音声合成装置1Bによれば、外部からの漢字かな混じり文(或いは文字コード列)の入力に対しても適用することが可能となる。その他は、上述した音声合成装置1の場合と同様の効果を有する。
また、音声合成装置1Bにおけるメモリ12を、音声記号列生成装置11或いは言語解析ブロック3の処理に利用し、処理したデータ、或いは処理するデータを一時記憶(格納)するのに利用しても良い。
また、本発明は、その要旨を逸脱しない範囲で上述した実施形態等を種々変形して実施する場合の装置、方法を含む。
本変形例の音声合成装置1Bによれば、外部からの漢字かな混じり文(或いは文字コード列)の入力に対しても適用することが可能となる。その他は、上述した音声合成装置1の場合と同様の効果を有する。
また、音声合成装置1Bにおけるメモリ12を、音声記号列生成装置11或いは言語解析ブロック3の処理に利用し、処理したデータ、或いは処理するデータを一時記憶(格納)するのに利用しても良い。
また、本発明は、その要旨を逸脱しない範囲で上述した実施形態等を種々変形して実施する場合の装置、方法を含む。
1…入力部、2…形態素解析部、3…言語解析辞書、4…アクセント結合部、5…無声化検定部、6…音声記号列生成部、7…音声合成部、11…音声記号列生成装置
Claims (5)
- 入力される漢字かな混じり文を形態素に分割し、読みの情報に変換するための解析を行う形態素解析ステップと、
前記形態素解析ステップにより生成された読みの情報に基づいて前記形態素を構成する文字の読みの情報に対して母音の無声化音節の検定を、前記形態素の区切りの情報を利用して行う無声化音節検定ステップと、
前記無声化音節検定ステップの出力情報に基づいて前記漢字かな混じり文に対応する音声合成のための音声記号列を生成する音声記号列生成ステップと、
を具備することを特徴とする音声記号列生成方法。 - 前記無声化音節検定ステップは、無声化音節の候補となる無声化候補音節と、その後方音節との関係で無声化候補音節が連続する場合において、その連続する無声化候補音節が形態素の区切り位置にまたがる場合に、区切りの直後に位置する音節を無声化させる無声化ステップと、区切りの直前に位置する音節を有声化させる有声化ステップとを備えることを特徴とする請求項1に記載の音声記号列生成方法。
- 入力される漢字かな混じり文を形態素に分割し、読みの情報に変換するための解析を行う形態素解析ステップと、
前記形態素解析ステップにより生成された読みの情報に基づいて前記形態素を構成する文字の読みの情報に対して母音の無声化音節の検定を、前記形態素の区切りの情報を利用して行う無声化音節検定ステップと、
前記無声化音節検定ステップの出力情報に基づいて前記漢字かな混じり文に対応する音声合成を行う音声合成ステップと、
を具備することを特徴とする音声合成方法。 - 前記無声化音節検定ステップは、無声化音節の候補となる無声化候補音節と、その後方音節との関係で無声化候補音節が連続する場合において、その連続する無声化候補音節が形態素の区切り位置にまたがる場合に、区切りの直後に位置する音節を無声化させる無声化ステップと、区切りの直前に位置する音節を有声化させる有声化ステップとを備えることを特徴とする請求項3に記載の音声合成方法。
- 入力される漢字かな混じり文を形態素に分割し、読みの情報に変換するための解析を行う形態素解析手段と、
前記形態素解析手段により生成された読みの情報に基づいて前記形態素を構成する文字の読みの情報に対して母音の無声化音節の検定を、前記形態素の区切りの情報を利用して行う無声化音節検定手段と、
前記無声化音節検定手段の出力情報に基づいて前記漢字かな混じり文に対応する音声合成を行う音声合成手段と、
を具備することを特徴とする音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007268207A JP2009098292A (ja) | 2007-10-15 | 2007-10-15 | 音声記号列生成方法、音声合成方法及び音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007268207A JP2009098292A (ja) | 2007-10-15 | 2007-10-15 | 音声記号列生成方法、音声合成方法及び音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009098292A true JP2009098292A (ja) | 2009-05-07 |
Family
ID=40701388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007268207A Pending JP2009098292A (ja) | 2007-10-15 | 2007-10-15 | 音声記号列生成方法、音声合成方法及び音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009098292A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022141710A1 (zh) * | 2020-12-28 | 2022-07-07 | 科大讯飞股份有限公司 | 一种语音合成方法、装置、设备及存储介质 |
-
2007
- 2007-10-15 JP JP2007268207A patent/JP2009098292A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022141710A1 (zh) * | 2020-12-28 | 2022-07-07 | 科大讯飞股份有限公司 | 一种语音合成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022153569A (ja) | 多言語テキスト音声合成方法 | |
Klatt | The Klattalk text-to-speech conversion system | |
US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
EP0688011B1 (en) | Audio output unit and method thereof | |
Macchi | Issues in text-to-speech synthesis | |
JP5198046B2 (ja) | 音声処理装置及びそのプログラム | |
KR20080045413A (ko) | 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템 | |
Kayte et al. | A text-to-speech synthesis for Marathi language using festival and Festvox | |
JPH06282290A (ja) | 自然言語処理装置およびその方法 | |
JP2009098292A (ja) | 音声記号列生成方法、音声合成方法及び音声合成装置 | |
JP3446342B2 (ja) | 自然言語処理方法および音声合成装置 | |
JP2006030384A (ja) | テキスト音声合成装置及びテキスト音声合成方法 | |
JP2002123281A (ja) | 音声合成装置 | |
JP3058439B2 (ja) | 規則音声合成装置 | |
JPH08160983A (ja) | 音声合成装置 | |
JP3414326B2 (ja) | 音声合成用辞書登録装置及び方法 | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
JPS62119591A (ja) | 文章読上げ装置 | |
JP2003005776A (ja) | 音声合成装置 | |
Evans et al. | An approach to producing new languages for talking applications for use by blind people | |
JP2888847B2 (ja) | 文章読み上げ装置とその方法及び言語処理装置とその方法 | |
JPH04350699A (ja) | テキスト音声合成装置 | |
Ahmad et al. | A flexible architecture for Urdu phonemes-based concatenative speech synthesis | |
Nazemi et al. | Multilingual Text to Speech in embedded systems using RC8660 |