JP2009098292A

JP2009098292A - 音声記号列生成方法、音声合成方法及び音声合成装置

Info

Publication number: JP2009098292A
Application number: JP2007268207A
Authority: JP
Inventors: Yoshiyuki Hara; 義幸原
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-10-15
Filing date: 2007-10-15
Publication date: 2009-05-07

Abstract

【課題】形態素を反映して、自然な合成音声の生成に適した音声記号列生成方法、音声合成方法及び音声合成装置を提供する。
【解決手段】入力される漢字かな混じり文は、形態素解析部５により形態素に分割され、形態素を構成する文字の読みの情報に対して無声化検定部７は、母音の無声化音節の検定を形態素の区切りの情報を利用して行う。検定を形態素の区切りの情報を利用して無声化音節を決定することにより、自然な合成音声の生成を可能にする。
【選択図】図１

Description

本発明は、文字コード列から合成音声のための音声記号列を生成する音声記号列生成方法、音声合成方法及び音声合成装置に関する。

現在、漢字かな混じり文を解析し、その漢字かな混じり文が示す音声情報を規則合成法により音声合成して出力する音声合成ソフトが種々開発されている。そして、この種の音声合成ソフトは、カーナビゲーションシステム、電子辞書などに幅広く利用され始めている。
この種の規則合成法を採用した音声合成ソフトは、漢字かな混じり文を言語解析して、読みの情報に韻律情報（アクセントやポーズの情報）を付与して音声記号に変換する。そして、その音声記号に基づいて合成音声を生成する。
一方、日本語の標準的な話し方では、前後の音の関係によっては特定の音節において母音を発声しない母音の無声化が行われる。この母音の無声化を行う無声化音節を正しく検定（決定）しないと不自然な合成音声となってしまう。

そのため、通常は、音声記号を生成する際に母音を無声化させる音節を決定している。具体的には、基本規則（或いは標準規則）に従って、母音の無声化対象音節とそれに後続する音節との関係によって、前者の音節を無声化させる。
この規則を適用すると無声化音節が連続する場合があり、その場合には合成音声が聞きづらい音声となってしまうことがあった。
従来は、規則を利用して母音の無声化が２つ連続する場合は、前の音節を無声化、後ろの音節を有声化させ、３つ連続する場合は、真中の音節を有声化させ、それ以外の両端の音節を無声化させるなどして対応してきた。しかしながら、この方法では文字の並び、特に形態素の区切りを考慮していないため、必ずしも自然な合成音声を生成できるとは限らなかった。

一方、特許文献１には、アクセント核のある音節（読み）を無声化させる音節とするか否かを、識別アルゴリズムを用いて判定する方法を開示している。
この従来例は、アクセント核の有る音節を無声化させるか否かを判定するものであり、アクセント核が存在しない音節については無声化するか否かが触れられていない。
このため、アクセント核の存在の有無にかかわらず、形態素を反映した自然な合成音声を生成可能とするものが望まれる。
特開２００５−２９２６９６号公報

本発明は、上述した点に鑑みてなされたもので、形態素を反映して、自然な合成音声の生成を行うのに適した音声記号列生成方法、音声合成方法及び音声合成装置を提供することを目的とする。

本発明の一実施形態に係る音声記号列生成方法は、入力される漢字かな混じり文を形態素に分割し、読みの情報に変換するための解析を行う形態素解析ステップと、前記形態素解析ステップにより生成された読みの情報に基づいて前記形態素を構成する文字の読みの情報に対して母音の無声化音節を検定する際に、前記形態素の区切りの情報を利用して行う無声化音節検定ステップと、前記無声化音節検定ステップの出力情報に基づいて前記漢字かな混じり文に対応する音声合成のための音声記号列を生成する音声記号列生成ステップと、を具備することを特徴とする。

本発明の一実施形態に係る音声合成方法は、入力される漢字かな混じり文を形態素に分割し、読みの情報に変換するための解析を行う形態素解析ステップと、前記形態素解析ステップにより生成された読みの情報に基づいて前記形態素を構成する文字の読みの情報に対して母音の無声化音節の検定を、前記形態素の区切りの情報を利用して行う無声化音節検定ステップと、前記無声化音節検定ステップの出力情報に基づいて前記漢字かな混じり文に対応する音声合成を行う音声合成ステップと、を具備することを特徴とする。

本発明の一実施形態に係る音声合成装置は、入力される漢字かな混じり文を形態素に分割し、読みの情報に変換するための解析を行う形態素解析手段と、前記形態素解析手段により生成された読みの情報に基づいて前記形態素を構成する文字の読みの情報に対して母音の無声化音節の検定を、前記形態素の区切りの情報を利用して行う無声化音節検定手段と、前記無声化音節検定手段の出力情報に基づいて前記漢字かな混じり文に対応する音声合成を行う音声合成手段と、を具備することを特徴とする。

本発明によれば、形態素の区切りの情報を利用した無声化音節の検定が可能になり、形態素を反映した自然な合成音声の生成に適する。

以下、図面を参照して本発明の実施形態を説明する。
図１は本発明の一実施形態に係る音声合成装置１の概略構成を示すブロック図である。図１に示す音声合成装置１は、音声合成の対象とする漢字かな混じり文の文字コード列の入力を司る入力部２を有する。
また、この音声合成装置１は、入力部２を介して入力された漢字かな混じり文の文字コード列に対して、形態素の解析等を行い、音声記号列を生成する言語解析ブロック３を有する。なお、入力部２とこの言語解析ブロック３とにより音声記号列生成手段を形成する。

上記言語解析ブロック３は、音声合成の対象となる単語や句等についてのアクセント型、読み、品詞情報等が予め登録されている言語解析辞書４と、入力部２から入力された文字コード列を、この言語解析辞書４を用いて形態素単位に分割し、読みの情報に変換する処理を行う形態素解析部５とを有する。
なお、形態素は、意味を持つ最小の言語単位であり、単独で１語になる自由形態素と、常に自由形態素に付いて生じる拘束形態素とがある。
また、この言語解析ブロック３は、形態素解析部５により形態素単位に分割された複数アクセント型をアクセント句単位に結合するためのアクセント結合部６と、形態素解析部５により形態素単位に分割されたその形態素の区切りの情報を用いて、無声化される音節としての無声化音節を決定（又は検定）する無声化検定部７と、この無声化検定部７からの出力結果（情報）に従って音声合成するための音声記号列を生成する音声記号列生成部８とを有する。

また音声合成装置１は、音声記号列生成部８で求められた音声記号列から合成された音声信号としての合成音声信号を生成する音声合成部９と、この音声合成部９により生成された合成音声信号が入力されることによりその合成音声を音声として出力するスピーカ１０とを有する。
上記無声化検定部７は、形態素解析部５から入力される読み（音節）に対して、図１の符号７ａ〜７ｅで示す５つの機能を主に用いて、無声化音節にするか否かを決定する。具体的には、図３を参照して後述するように基本規則適用機能７ａにより、無声化音節の候補となる無声化候補音節に対して、基本規則を適用して無声化候補音節の第１候補を決定する。

また、この第１候補に対して、候補連続判定機能７ｂにより、その第１候補（以下の第２候補の場合もある）が連続しているか否かを判定する。そして、連続していない場合には、最終的な無声化音節として決定し、連続している場合には次の判定を行う。
連続していると判定された第１候補に対して、区切り位置判定機能７ｃにより、形態素の区切り位置を含むか否かの判定を行う。
形態素の区切り位置を含むと判定された第１候補に対しては、無声化／有声化処理機能７ｄにより、区切り位置の直後の音節を無声化、区切り位置の直前の音節を有声化して第２の候補に絞り込む。
また、形態素の区切り位置を含まないと判定された第１候補に対しては、連続規則適用機能７ｅにより、連続する個数に応じて無声化するものと有声化するものとを決定して、最終的な無声化音節を決定する。

上記第２の候補に対して、基本規則適用機能７ａや候補連続判定機能７ｂを再帰的に適用することによって、最終的な無声化音節（及び有声化音節）を決定する。
次に、図１に示すこの音声合成装置１による音声合成方法の全体の動作を図２を参照して説明する。図２は、音声合成装置１による音声合成方法の処理手順のフローチャートを示す。
音声合成装置１の電源が投入されて音声合成方法がスタートすると、最初のステップＳ１において入力部２には、音声合成の対象とする漢字かな混じり文の文字コード列が入力される。この漢字かな混じり文の文字コード列は、入力部２から言語解析ブロック３を構成する形態素解析部５に送られる。

ステップＳ２に示すようにこの形態素解析部５は、入力部２を経て入力された文字コード列と言語解析辞書４とを照合し、文字コード列から生成される音声合成する際の構成要素となる単語や句等の形態素単位に分解する。
例えば、「福祉機構」なる漢字かな混じり文の文字コード列が入力部２に入力された場合について説明する。この場合には、形態素解析部５は、入力された「福祉機構」を、言語解析辞書４と照合し、この言語解析辞書４に予め登録されている形態素単位の情報との照合結果により「福祉」及び「機構」の２つの形態素に分割する。
また、ステップＳ３に示すように形態素解析部５は、音声合成する際の対象となる単語や句等の形態素についてのアクセント型、読み、品詞情報を求め、その品詞情報に従うアクセント型の決定、および漢字かな混じり文の読みの形式への変換を行う。

上記の具体例の場合には、読みの情報「ふくし」「きこう」やアクセント位置の情報（「ふくし」に対して２型、「きこう」に対して０型）を求める。なお、アクセント型における０型は、アクセントが無い型である。
形態素解析部５によって生成された読みの情報は、アクセント結合部６と無声化検定部７に送られる。
ステップＳ４に示すようにアクセント結合部６は、形態素単位に分かれた単語を所定の規則に従ってアクセント句単位に結合し、アクセント句に対するアクセント型を決定する。
上記の具体例の場合には、アクセント結合部６では、２つに分割された「ふくし」「きこう」を「ふくしきこう」と１つのアクセント句に結合する。

このとき、アクセント結合規則を利用して「き」にアクセント位置を置くようにアクセント型は４と決定する。決定されたアクセント型の情報は、無声化検定部７に送られる。ステップＳ５に示すように無声化検定部７は、形態素解析部５から与えられる形態素の区切り（位置）、アクセント結合部６から与えられるアクセント型の情報を元にして、無声化音節を決定（検定）する処理を行う。無声化検定部７により有声化及び無声化が決定された音節の情報は、音声記号列生成部８に送られる。
上記の具体例の場合には、後述するように無声化検定部７は、「ふくしきこう」に対して、形態素の区切りの情報を用いて、最終的に「ふくしきこう」の無声化音節は、「ふ」「き」と決定する。
ステップＳ６に示すように音声記号列生成部８は、無声化検定部７から出力される無声化音節の情報や、読みの情報、アクセント句の情報を元にして音声記号列（音韻情報をカタカナで表し、ポーズ長やアクセント位置などの韻律情報を記号を使用して表す）を生成する。

上記の具体例の場合、音声記号列生成部８は、無声化音節の情報やアクセント型の情報から音声記号列「フ＃クシキ＃＾コー」（＾はアクセント核の位置、＃は、直前の音節が無声化音節であることを表す。）を生成する。
生成された音声記号列は、音声合成部９に送られる。
ステップＳ７に示すように音声合成部９は、音声記号列生成部８から出力される音声記号列を元にして音声合成部９内に予め用意されている音声波形やパラメータを使用して合成音声信号を生成する。
この合成音声信号は、図示しないＤ／Ａ変換器によりアナログ信号に変換されて、スピーカ１０に入力され、スピーカ１０から合成音声が発せられる。
このようにして、入力部２により入力された漢字かな混じり文から音声が生成されスピーカ１０から出力される。

次に図３を参照して、無声化検定部７の処理内容を説明する。図３は、図２のステップＳ５の処理の詳細、つまり無声化検定部７の処理手順のフローチャートを示す。
この処理内容の具体例としては、上述した「福祉機構」なる漢字かな混じり文の場合で説明する。
上述したように無声化検定部７には、「ふくしきこう」、アクセント型４、形態素の区切りは「し」「き」の間、という情報が入力される。
そして、図３のステップＳ１１に示すようにこの無声化検定部７における基本規則適用機能７ａにより、無声化音節の候補となる無声化候補音節に対して、基本規則を適用して無声化音節の第１候補を決定する。

図４は、無声化候補音節を無声化する基本規則の一例を示す。図４に示すように、この基本規則は、無声化候補文字＋（その後に続く）無声化後方文字の関係が成り立つときのみ、無声化候補文字の母音を無声化させる。
無声化候補文字としては、か行の「き」、「く」、さ行の「し」、「す」、は行の「ふ」、…等がある。そして、その無声化候補音節を無声化する無声化後方文字としてはか行、さ行、…となる。
具体的には、無声化候補文字＋無声化後方文字として「しき」の場合、「し」＋「か行」となるため「し」が無声化される。
図４の基本規則を「ふくしきこう」の読みの音節に適用すると、「ふ」「く」「し」「き」が無声化候補音節の第１候補となる。

次にステップＳ１２において、無声化検定部７における候補連続判定機能７ｂにより、無声化候補音節の第１候補（つまり「ふ」「く」「し」「き」）が連続しているか否かを判定する。この第１候補の場合には、連続していると判定されて、ステップＳ１３に進む。
ステップＳ１３において、区切り位置判定機能７ｃは、連続していると判定された第１候補に対して、形態素の区切り位置を含む（跨ぐ）か否かの判定を行う。具体例の場合には、形態素の区切りの位置が「し」と「き」の間であることから区切り位置判定機能７ｃは、形態素の区切り位置を含むと判定する。
そして、次のステップＳ１４に進む。ステップＳ１４においては、無声化／有声化処理機能７ｄでにより、形態素区切りの直後の音節を無声化、直前の音節を有声化させる処理を行う。これにより、具体例の場合には、「し」が有声化されるため、無声化候補音節（の第２候補）は「ふ」「く」「き」となる。

そして、次の処理としてステップＳ１２に戻る。そして、ステップＳ１２において、連続する無声化候補音節が連続しているかの判定が行われる。この場合には、「ふ」と「く」が連続していることから連続していると判定される。なお、「き」は、連続していないと判定され、この「き」は無声化音節として決定される。
次のステップＳ１３において、「ふ」と「く」に対して形態素の区切りを含んでいるかの判定が行われ、「ふ」と「く」は形態素の区切りでないため、形態素の区切りを含んでいないと判定される。この判定結果の場合には、ステップＳ１５に進む。
このステップＳ１５において、連続規則適用機能７ｅにより、所定の連続規則が適用される。この連続規則は、無声化候補音節が２つ連続する場合には、前の音節を無声化、後ろの音節を有声化させる。

この連続規則を適用すると、「ふ」「く」の無声化候補音節の内、「ふ」が無声化音節と決定される。結果として「ふくしきこう」の読みに対する無声化音節は、「ふ」「き」と決定される。そして、この決定された無声化音節の情報は、音声記号列生成部８に出力される。
音声記号列生成部８は、この無声化音節の情報と、アクセント結合部６により決定されたアクセント型の情報から音声記号列「フ＃クシキ＃＾コー」を生成する。
この音声記号列は、音声合成部９に出力され、合成音声信号が生成され、スピーカ１０から音声出力される。
上述したように本実施形態に係る音声合成装置１によれば、形態素の区切り情報を使用することによって高精度の無声化音節の検定を行うことができるため、自然な合成音声の生成が可能になる。

なお、上述した実施形態では、無声化音節を「＃」、アクセント記号を「＾」、音韻の情報を「カタカナ」としているが、他の記号を用いても良いことは明らかである。
また、「基本規則」や「連続規則」についても一例を用いて説明したものであり、他の方法を採用しても良い。
図５は変形例に係る音声合成装置１Ｂを示す。この音声合成装置１Ｂは、図１の音声合成装置１を変形した構成となっている。
この音声合成装置１Ｂは、入力部２と言語解析ブロック３とを含む音声記号列生成装置１１と、この音声記号列生成装置１１により生成された音声記号列を一時記憶するメモリ１２と、このメモリ１２から音声記号列を読み出して音声合成を行う音声合成部９及びスピーカ１０とを有する。

図５の構成例では、音声記号列生成装置１１と、メモリ１２及び音声合成部９は、例えばバス１３に接続されている。なお、メモリ１２を音声記号列生成装置１１の内部に設けるようにしても良い。
また、バス１３には、生成された音声記号列を音声合成部９に転送したり、この音声合成装置１Ｂの外部に転送する制御等を行うＣＰＵ１４と、図示しない外部装置とのデータの入出力や転送を行う際のインタフェースとなる例えばＵＳＢインタフェース１５とが接続されている。
本変形例においては、音声記号列生成装置１１により生成された音声記号列は、一旦メモリ１２に保持される。そして、ユーザなどによる指示操作に応じてメモリ１２に保持された音声記号列を音声合成部９を経てスピーカ１０から音声出力する。
また、ＣＰＵ１４は、漢字かな混じり文（或いは文字コード列）を外部装置からＵＳＢインタフェース１５を介して音声記号列生成装置１１に取り込む制御を行う。

そして、ＣＰＵ１４は、音声記号列生成装置１１により生成された音声記号列をメモリ１２に格納する。そして、ＣＰＵ１４は、メモリ１２をバッファとしてＵＳＢインタフェース１５を介して外部装置に音声記号列の情報（データ）を転送する制御を行う。
本変形例の音声合成装置１Ｂによれば、外部からの漢字かな混じり文（或いは文字コード列）の入力に対しても適用することが可能となる。その他は、上述した音声合成装置１の場合と同様の効果を有する。
また、音声合成装置１Ｂにおけるメモリ１２を、音声記号列生成装置１１或いは言語解析ブロック３の処理に利用し、処理したデータ、或いは処理するデータを一時記憶（格納）するのに利用しても良い。
また、本発明は、その要旨を逸脱しない範囲で上述した実施形態等を種々変形して実施する場合の装置、方法を含む。

本発明の一実施形態に係る音声合成装置の構成を示すブロック図。音声合成方法の処理内容を示すフローチャート。無声化検定部の処理内容を示すフローチャート。無声化候補音節を無声化する基本規則の一例を示す図。変形例に係る音声記号列生成装置を備えた音声合成装置の構成を示すブロック図。

符号の説明

１…入力部、２…形態素解析部、３…言語解析辞書、４…アクセント結合部、５…無声化検定部、６…音声記号列生成部、７…音声合成部、１１…音声記号列生成装置

Claims

入力される漢字かな混じり文を形態素に分割し、読みの情報に変換するための解析を行う形態素解析ステップと、
前記形態素解析ステップにより生成された読みの情報に基づいて前記形態素を構成する文字の読みの情報に対して母音の無声化音節の検定を、前記形態素の区切りの情報を利用して行う無声化音節検定ステップと、
前記無声化音節検定ステップの出力情報に基づいて前記漢字かな混じり文に対応する音声合成のための音声記号列を生成する音声記号列生成ステップと、
を具備することを特徴とする音声記号列生成方法。
前記無声化音節検定ステップは、無声化音節の候補となる無声化候補音節と、その後方音節との関係で無声化候補音節が連続する場合において、その連続する無声化候補音節が形態素の区切り位置にまたがる場合に、区切りの直後に位置する音節を無声化させる無声化ステップと、区切りの直前に位置する音節を有声化させる有声化ステップとを備えることを特徴とする請求項１に記載の音声記号列生成方法。
入力される漢字かな混じり文を形態素に分割し、読みの情報に変換するための解析を行う形態素解析ステップと、
前記形態素解析ステップにより生成された読みの情報に基づいて前記形態素を構成する文字の読みの情報に対して母音の無声化音節の検定を、前記形態素の区切りの情報を利用して行う無声化音節検定ステップと、
前記無声化音節検定ステップの出力情報に基づいて前記漢字かな混じり文に対応する音声合成を行う音声合成ステップと、
を具備することを特徴とする音声合成方法。
前記無声化音節検定ステップは、無声化音節の候補となる無声化候補音節と、その後方音節との関係で無声化候補音節が連続する場合において、その連続する無声化候補音節が形態素の区切り位置にまたがる場合に、区切りの直後に位置する音節を無声化させる無声化ステップと、区切りの直前に位置する音節を有声化させる有声化ステップとを備えることを特徴とする請求項３に記載の音声合成方法。
入力される漢字かな混じり文を形態素に分割し、読みの情報に変換するための解析を行う形態素解析手段と、
前記形態素解析手段により生成された読みの情報に基づいて前記形態素を構成する文字の読みの情報に対して母音の無声化音節の検定を、前記形態素の区切りの情報を利用して行う無声化音節検定手段と、
前記無声化音節検定手段の出力情報に基づいて前記漢字かな混じり文に対応する音声合成を行う音声合成手段と、
を具備することを特徴とする音声合成装置。