JP2005215411A

JP2005215411A - 音声合成装置および音声合成方法

Info

Publication number: JP2005215411A
Application number: JP2004022977A
Authority: JP
Inventors: Yoichi Nomoto; 洋一野本; Hideaki Morita; 英明森田; Tomoki Kubota; 智氣窪田; Hidefumi Okabe; 英文岡部
Original assignee: Equos Research Co Ltd
Current assignee: Equos Research Co Ltd
Priority date: 2004-01-30
Filing date: 2004-01-30
Publication date: 2005-08-11

Abstract

【課題】膨大な音声データを要することなく、聴き心地の良好な音声を合成し得る音声合成装置および音声合成方法を提供する。
【解決手段】音声合成装置では、入力されたテキストデータを解析して助詞を検出し（Ｓ１０１）、テキストデータにおいて検出された当該助詞の付く単語のモーラ数・アクセント型に対応する助詞の助詞音声データを決定すると（Ｓ１０５）、この決定された助詞の助詞音声データを音声データベースから選択し（Ｓ１０７）、この選択された助詞の助詞音声データを含むテキストデータに対応する音声データをにより構成し音声出力装置により出力する（Ｓ１０９）。これにより、助詞の直前に付く単語のモーラ数・アクセント型に対応する助詞の助詞音声データを決定し、これを「助詞の直前に付く単語のモーラ数・アクセント型により分類された助詞の助詞音声データを記憶する音声データベース」から選択する。
【選択図】図３

Description

本発明は、音声合成装置および音声合成方法に関するものである。

従来の音声合成装置として、例えば、下記、特許文献１に開示される「音声合成方法および装置」がある。この開示技術では、単語や文節や文を想起して単音節を連続的に発声した音声から韻律成分を抽出してテンプレートとして事前に格納しておき、合成しようとする音声中の単語とモーラ数およびアクセント型が同じテンプレートを選択し、このテンプレートのリズムパターン、ピッチ周波数パターン、パワーパターンに合わせて合成音声を作成するように構成している。これによりテンプレートの韻律に合うように音声素片を修正し接続して音声合成をするので、より自然な韻律の音声を合成できるとしている。

このように従来の音声合成装置では、入力テキストに対してテキスト解析およびアクセント解析を行ったうえで、音声素片（以下「音素」という。）単位で音声データを割り当てたり、音声波形単位で音声波形データを割り当てて音声合成を行っている。
特開平１１−８５１９２号公報（第２頁〜第７頁、図１〜５）

しかしながら、上述したような従来の音声合成装置によると、音声合成を行う単位を音素単位や音声波形単位としている。そのため、人の発話音声と比較すると、出力された合成音声には不自然さが残ってしまうことから、これにより作成された台詞（例えば、ナビゲーション装置の音声ガイダンス）の聴き心地も悪化するという技術的な課題がある。

また、音声合成を行う単位を音素単位や音声波形単位とするのではなく、例えば、単語単位で録音された音声データを割り当てることにより、多様化したあらゆる台詞のバリエーションに対しても、人の発話音声のような自然なアクセントをもたせることが理論的には可能であると考えられる。ところが、膨大な音声データをデータベース等に蓄積しなければ実現できないという課題がある。

さらに、通常、同じ助詞にも３段階以上の音調（音の高低）が存在する。そのため、このような単語単位で録音された名詞等の音声データに、助詞の音声データを合成しようとした場合、助詞の直前に付く単語のアクセントに最適な音調を助詞に設定するには、同一の助詞について３段階以上の予め用意された音調の異なる音声データの中から、利用者が手動により適宜選択するといった煩雑な操作が必要となる。

また、このような助詞とその直前の単語とを組み合わせた発話音声を録音して音声データとした場合には、前述の、多様化したあらゆる台詞のバリエーションに対して対応する場合と同様に、膨大な音声データをデータベース等に蓄積しなければ実現できないという課題が発生する。

本発明は、上述した課題を解決するためになされたものであり、その目的とするところは、膨大な音声データを要することなく、聴き心地の良好な音声を合成し得る音声合成装置および音声合成方法を提供することにある。

上記目的を達成するため、特許請求の範囲に記載された請求項１の音声合成装置では、助詞の直前に付く単語のモーラ数およびアクセント型により分類された前記助詞の音声データを記憶する助詞音声データ記憶手段と、入力されたテキストデータを解析し助詞を検出する助詞検出手段と、前記テキストデータにおいて、前記検出された助詞の直前に付く単語のモーラ数およびアクセント型に対応する前記助詞の音声データを決定する助詞決定手段と、前記決定された助詞の音声データを前記助詞音声データ記憶手段から選択する助詞音声データ選択手段と、前記選択された助詞の音声データを含む前記テキストデータに対応する音声データを構成し出力する音声データ出力手段と、を備えることを技術的特徴とする。

また、特許請求の範囲に記載された請求項２の音声合成装置では、請求項１において、人の音声を音声データとして取得する音声データ取得手段と、前記取得された音声データを解析し当該音声データから、助詞の音声データおよびこの助詞の直前に付く単語の音声データを抽出する助詞音声データ抽出手段と、前記抽出した助詞の直前に付く単語の音声データに基づいて当該単語のモーラ数およびアクセント型を解析するモーラ数アクセント型解析手段と、前記解析した助詞の直前に付く単語のモーラ数およびアクセント型に基づいて前記助詞の音声データを分類することにより助詞の音声データを生成する助詞音声データ生成手段と、を備える音声データ生成装置により、前記生成した助詞の音声データを前記音声合成装置の助詞音声データ記憶手段に記憶させることを技術的特徴とする。

上記目的を達成するため、特許請求の範囲に記載された請求項３の音声合成方法では、入力されたテキストデータを解析し助詞を検出する助詞検出ステップと、前記テキストデータにおいて、前記検出された助詞の直前に付く単語のモーラ数およびアクセント型に対応する前記助詞の音声データを決定する助詞決定ステップと、前記決定された助詞の音声データを、助詞の直前に付く単語のモーラ数およびアクセント型により分類された前記助詞の音声データを記憶する助詞音声データ記憶手段から選択する助詞音声データ選択ステップと、前記選択された助詞の音声データを含む前記テキストデータに対応する音声データを構成し出力する音声データ出力ステップと、を備えることを技術的特徴とする。

また、特許請求の範囲に記載された請求項４の音声合成方法では、請求項３において、人の音声を音声データとして取得する音声データ取得ステップと、前記取得された音声データを解析し当該音声データから、助詞の音声データおよびこの助詞の直前に付く単語の音声データを抽出する助詞音声データ抽出ステップと、前記抽出した助詞の直前に付く単語の音声データに基づいて当該単語のモーラ数およびアクセント型を解析するモーラ数アクセント型解析ステップと、前記解析した助詞の直前に付く単語のモーラ数およびアクセント型に基づいて前記助詞の音声データを分類することにより助詞の音声データを生成する助詞音声データ生成ステップと、を含む音声データ生成方法により、前記生成した助詞の音声データを前記音声合成方法の助詞音声データ記憶手段に記憶させることを技術的特徴とする。

請求項１の発明では、助詞音声データ記憶手段により、助詞の直前に付く単語のモーラ数およびアクセント型により分類された助詞の音声データを記憶する。そして、入力されたテキストデータを助詞検出手段により解析し助詞を検出し、テキストデータにおいて検出された助詞の直前に付く単語のモーラ数およびアクセント型に対応する助詞の音声データを助詞決定手段により決定すると、この決定された助詞の音声データを助詞音声データ記憶手段から助詞音声データ選択手段により選択し、この選択された助詞の音声データを含むテキストデータに対応する音声データを音声データ出力手段により構成し出力する。

また、請求項３の発明では、入力されたテキストデータを助詞検出ステップにより解析し助詞を検出し、テキストデータにおいて検出された助詞の直前に付く単語のモーラ数およびアクセント型に対応する助詞の音声データを助詞決定ステップにより決定すると、この決定された助詞の音声データを助詞の直前に付く単語のモーラ数およびアクセント型により分類された助詞の音声データを記憶する助詞音声データ記憶手段から助詞音声データ選択ステップにより選択し、この選択された助詞の音声データを含むテキストデータに対応する音声データを音声データ出力ステップにより構成し出力する。

これにより、請求項１および請求項３の発明では、助詞の直前に付く単語のモーラ数およびアクセント型に対応する助詞の音声データを決定して、この決定された助詞の音声データを、助詞の直前に付く単語のモーラ数およびアクセント型により分類された助詞の音声データを記憶する助詞音声データ記憶手段から選択するので、このように選択された助詞の音声データを含むことで、聴き心地の良好な音声を合成することができる。

また、助詞は、その種類（格助詞、副助詞、係助詞、終助詞、間投助詞、接続助詞）の全てに対応したとしても、「は」、「が」、「の」、「を」、「に」等々、数十種類に限られていることから、助詞の直前に付く単語のモーラ数およびアクセント型により分類された助詞の音声データを助詞音声データ記憶手段に記憶しても、それほどデータ量にはならない。その一方で、名詞等の助詞以外の単語は、その種類も数十万種類というように、助詞に比べて桁違いに多いことから、これらの単語とその後に付く助詞との組み合わせを当該助詞の音調に合わせて録音し音声データ化した場合には、膨大なデータ量にならざるを得ない。したがって、膨大な音声データを要することなく、聴き心地の良好な音声を合成することができる。

請求項２の発明では、音声データ取得手段により人の音声を音声データとして取得し、助詞音声データ抽出手段により、取得された音声データを解析し当該音声データから助詞の音声データおよびこの助詞の直前に付く単語の音声データを抽出し、モーラ数アクセント型解析手段により、抽出した助詞の直前に付く単語の音声データに基づいて当該単語のモーラ数およびアクセント型を解析し、この解析した助詞の直前に付く単語のモーラ数およびアクセント型に基づいて助詞の音声データを分類することにより助詞の音声データを生成する。そして、この生成した助詞の音声データを請求項１に記載の音声合成装置の助詞音声データ記憶手段に記憶させる。

また、請求項４の発明では、音声データ取得ステップにより人の音声を音声データとして取得し、助詞音声データ抽出ステップにより、取得された音声データを解析し当該音声データから助詞の音声データおよびこの助詞の直前に付く単語の音声データを抽出し、モーラ数アクセント型解析ステップにより、抽出した助詞の直前に付く単語の音声データに基づいて当該単語のモーラ数およびアクセント型を解析し、この解析した助詞の直前に付く単語のモーラ数およびアクセント型に基づいて助詞の音声データを分類することにより助詞の音声データを生成する。そして、この生成した助詞の音声データを請求項３に記載の音声合成方法の助詞音声データ記憶手段に記憶させる。

これにより、請求項２および請求項４の発明では、人の音声データを解析した助詞の直前に付く単語のモーラ数およびアクセント型に基づいて、当該人の音声データから抽出された助詞の音声データを分類することにより助詞の音声データを生成する。そして、この生成された助詞の音声データを助詞音声データ記憶手段に記憶させる。したがって、これにより助詞音声データ記憶手段に記憶されている助詞の音声データは、助詞の直前に付く単語のモーラ数およびアクセント型に基づいて分類されているので、請求項１の音声合成装置および請求項３の音声合成方法において利用可能な助詞音声データ記憶手段を実現することができ、ひいては聴き心地の良好な音声の合成に資することができる。

以下、本発明の音声合成装置および音声合成方法の実施形態について図を参照して説明する。まず、本実施形態に係る音声合成装置２０の構成を図１に基づいて説明する。
図１に示すように、音声合成装置２０は、主に、ＣＰＵ２１、メモリ２２、辞書データベース２３、台詞データベース２４、音声データベース２５、入出力インタフェース２６、入力装置２７、表示装置２８、音声入力装置３１、音声出力装置３３、通信装置３５等から構成されており、例えば、パーソナルコンピュータをベースにしている。この音声合成装置２０は、入力されたテキストに対応する音声を合成して出力する音声合成機能のほかに、入力された音声データから助詞に相当する音声データ（以下「助詞音声データ」という）を抽出して音声データベース２５に記憶する助詞音声データ生成機能も有するものである。以下、音声合成機能を実現するためのＣＰＵ２１による制御処理を「音声合成処理」と称し、また助詞音声データ生成機能を実現するためのＣＰＵ２１による制御処理を「助詞音声データ生成処理」と称する。

ＣＰＵ２１は、音声合成装置２０を制御する中央演算処理装置で、システムバスを介してメモリ２２、辞書データベース２３、台詞データベース２４、音声データベース２５、入出力インタフェース２６等と接続されている。ＣＰＵ２１を制御するシステムプログラム２２ａはメモリ２２に格納されており、ＣＰＵ２１がこれを実行することによりメモリ２２の管理や辞書データベース２３等へのアクセス制御等といった基本システムの制御が行われている。また、このメモリ２２には、このほかに音声合成処理を可能にする各種制御プログラム２２ｂ、２２ｃ、２２ｄ、２２ｅ、２２ｆ、２２ｇや、助詞音声データ生成処理を可能にする２２ｐ、２２ｑ、２２ｒ等も格納されている。ＣＰＵ２１はこれらのプログラムをメモリ２２から読み出して逐次実行することにより、後述する音声合成処理を可能にしている。なお、このＣＰＵ２１は、特許請求の範囲に記載の「助詞検出手段」、「助詞決定手段」、「助詞音声データ選択手段」、「音声データ出力手段」、「音声データ取得手段」、「助詞音声データ抽出手段」、「モーラ数アクセント型解析手段」および「助詞音声データ生成手段」に相当し得るものである。

メモリ２２は、システムバスに接続されている記憶装置であり、ＣＰＵ２１が使用する主記憶空間を構成するものである。このメモリ２２には、システムプログラム２２ａを始めとして入力制御プログラム２２ｂ、テキスト解析プログラム２２ｃ、アクセント解析プログラム２２ｄ、助詞決定プログラム２２ｅ、音声データ取得プログラム２２ｆ、出力制御プログラム２２ｇ、音声データ採取プログラム２２ｐ、音声データ抽出プログラム２２ｑ、アクセント型別音声データ生成プログラム２２ｒ等が予め書き込まれている。

辞書データベース２３は、ＣＰＵ２１が使用する補助記憶空間を構成するハードディスク、ＤＶＤ（Digital Versatile Disc）、ＣＤ−ＲＯＭ、不揮発性半導体メモリ（ＥＥＰＲＯＭ等）等で、システムバスを介してＣＰＵ２１に接続されている。この辞書データベース２３には、テキスト解析辞書２３ａやアクセント解析辞書２３ｂが格納されている。

テキスト解析辞書２３ａは、入力装置２７等から入力されたテキスト（文字列のこと）データを形態素解析するときに参照される辞書で、単語や文法に関する情報によって構成されている。なお、このテキスト解析辞書２３ａは、後述する助詞音声データ生成処理によるテキスト解析プログラム２２ｃとともに特許請求の範囲に記載の「助詞検出手段」および「モーラ数アクセント型解析手段」に相当し得るものである。

一方、アクセント解析辞書２３ｂは、後述するように、形態素解析された単語等についてアクセント解析するときに参照される辞書で、テキスト単語アクセント辞書からなる。これは単語のアクセントに関する情報によって構成されている。なお、このアクセント解析辞書２３ｂは、後述する助詞音声データ生成処理によるアクセント解析プログラム２２ｄとともに特許請求の範囲に記載の「モーラ数アクセント型解析手段」に相当し得るものである。

台詞データベース２４も、辞書データベース２３と同様に、ハードディスク、ＤＶＤ等からなり、システムバスを介してＣＰＵ２１に接続され、ＣＰＵ２１が使用する補助記憶空間を構成している。この台詞データベース２４には、台詞データ２４ａが格納されており、その構成例が図２(A) に示されているので、ここでは図２を参照して説明する。

図２(A) に示すように、台詞データ２４ａは、アクセント解析された単語について名詞、動詞、助動詞等の助詞以外の音声データ（以下「名詞等音声データ」という。）２５ａ等を検索する際等に参照されるもので、例えば、表記文字、読み、音声コード、種別、○Ｍ△型、コメントにより分類された項目をもっている。例えば『今日』という漢字２文字を表すテキストデータに対応するものとして、表記文字「今日」、読み「キョウ」、音声コード「１０」、種別「名詞」、○Ｍ△型「２Ｍ１」のものと、表記文字「今日」、読み「コンニチ」、音声コード「１１」、種別「名詞」、○Ｍ△型「４Ｍ１」のものとが登録されている。なお、「○Ｍ△型」とは、モーラ数およびアクセント型のことで、○モーラ△型と称されることもある。また、図２では○Ｍ△型を「○Ｍ△」と略記する。また、以下、「モーラ数およびアクセント型」を「モーラ数・アクセント型」と表記する。

音声データベース２５も、辞書データベース２３と同様に、ハードディスク、ＤＶＤ等からなり、システムバスを介してＣＰＵ２１に接続され、ＣＰＵ２１が使用する補助記憶空間を構成している。この音声データベース２５には、名詞等音声データ２５ａや助詞の音声データ（以下「助詞音声データ」という。）２５ｂが格納されており、その構成例が図２(B) 、図２(C) に示されているので、引き続き図２を参照して説明する。なお、この音声データベース２５は、特許請求の範囲に記載の「助詞音声データ記憶手段」に相当し得るものである。

図２(B) に示すように、名詞等音声データ２５ａは、人の発話音声（人が発声した単語の音声）の録音データから、名詞、動詞、助動詞等の助詞を除いた単語の読みに相当する音声データを抽出したもので、実際の音声波形に対応して量子化等された波形データが格納されている。この名詞等音声データ２５ａは、アクセント解析された単語について名詞等音声データ２５ａを検索する際等に参照されるため、音声コードをキーとして前述した台詞データベース２４の台詞データ２４ａに関連付けられている。そのため、各名詞等音声データ２５ａには、音声コードが付与されており、例えば、前述の『今日』に対応するものとしては、音声コード「１０」、「１１」が付けられている。

一方、助詞音声データ２５ｂは、前述の録音データから、助詞の読みに相当する音声データを抽出したもので、名詞等音声データ２５ａと同様、波形データが格納されている。この助詞音声データ２５ｂは、後述するように、「助詞音声データ生成処理」等により生成されるもので、同一の助詞について３段階以上の音調の異なる音声データが含まれている。そのため、助詞音声データ２５ｂには、○Ｍ△型、表記、読み等が付与され、表記および読みが同じ助詞であっても、○Ｍ△型の違いによって選択可能に構成されている。

即ち、同じ助詞であっても、その助詞が付く単語（入力テキストにおいて当該助詞の直前に付く単語のことで、以下「前語」という。）のモーラ数・アクセント型の違いにより、当該助詞の音調（音の高低）が異なる。その一方で、当該前語の読み等にかかわりなく、その単語のモーラ数・アクセント型に基づいて当該助詞の音調を決定できるため、本実施形態ではこの性質に着目して図２(C) に示すように、助詞音声データ２５ｂを構成している。なお、この助詞音声データ２５ｂの詳細については図３に図示される「音声合成処理」の流れや、図５に図示される「助詞音声データ生成処理」の流れを説明するときに詳述する。

図１に戻って、入出力インタフェース２６は、入力装置２７、表示装置２８、音声入力装置３１、音声出力装置３３、通信装置３５等の入出力装置とＣＰＵ２１等とのデータのやり取りを仲介する装置で、システムバスに接続されている。

入力装置２７は、音声合成装置２０に対する操作コマンドや前述したテキストデータ等を入力し得るもので、例えば、キーボードやペン入力デバイスあるいはマウス等のポインティングデバイス等がこれに相当する。表示装置２８は、音声合成装置２０に入力した操作コマンドに対する応答表示や前述したテキストデータのエコーバック表示等を出力し得るもので、例えば、ＣＲＴ表示装置、液晶ディスプレィ装置等がこれに相当する。

音声入力装置３１は、音声合成装置２０の利用者の発話音声を集音しアナログデータとして音声合成装置２０に入力し得るもので、例えば、マイクロフォンがこれに相当する。また集音したアナログデータをＡＤ変換してディジタル化された音声データを出力するものや、ディジタル化された音声データと併せて、発話音声に対応したテキストデータを音声認識処理を介して出力するものもある。なお、この音声入力装置３１は、特許請求の範囲に記載の「音声データ取得手段」に相当し得るものである。また、音声入力装置３１により音声認識処理を行う場合や、音声入力装置３１から入力された音声データに基づいて別途用意された音声認識プログラム等によりＣＰＵ２１による音声認識処理を行う場合には、入力装置２７によりテキストデータの入力は不要となる。

音声出力装置３３は、後述する音声合成処理により合成された音声を出力し得るもので、例えば、ＤＡ変換器を備えたオーディオアンプとスピーカとを組み合わせた音響装置がこれに相当する。なお、この音声出力装置３３は特許請求の範囲に記載の「音声データ出力手段」に相当し得るものである。

通信装置３５は、他の情報端末装置（例えばパーソナルコンピュータ）との間で有線通信回線によるデータの送受信を行うための有線データ通信機器で、例えば、公衆回線に対応した公衆回線モデムや所定のネットワーク形態に対応したＬＡＮアダプタ等がこれに相当する。なお、通信装置３５は、有線通信に限られず、無線通信回線に対応した無線データ通信機器（携帯電話、ＰＨＳや無線ＬＡＮ等）であっても良い。

ここで、メモリ２２に格納されている、入力制御プログラム２２ｂ、テキスト解析プログラム２２ｃ、アクセント解析プログラム２２ｄ、助詞決定プログラム２２ｅ、音声データ取得プログラム２２ｆ、出力制御プログラム２２ｇ、音声データ採取プログラム２２ｐ、音声データ抽出プログラム２２ｑ、アクセント型別音声データ生成プログラム２２ｒの概要を説明する。

なお、これらの各プログラムのうち、入力制御プログラム２２ｂ、テキスト解析プログラム２２ｃ、アクセント解析プログラム２２ｄ、助詞決定プログラム２２ｅ、音声データ取得プログラム２２ｆ、出力制御プログラム２２ｇは、図３に示す「音声データ生成処理」を実現するためのものである。また、入力制御プログラム２２ｂ、テキスト解析プログラム２２ｃ、アクセント解析プログラム２２ｄ、出力制御プログラム２２ｇ、音声データ採取プログラム２２ｐ、音声データ抽出プログラム２２ｑ、アクセント型別音声データ生成プログラム２２ｒは、図５に示す「助詞音声データ生成処理」を実現するためのものである。

入力制御プログラム２２ｂは、入力装置２７等を介して利用者により入力されたテキストデータをテキスト解析プログラム２２ｃに、また音声入力装置３１等を介して利用者により入力された音声データ２５αを音声データ採取プログラム２２ｐに、受け渡す処理等を行うプログラムで、主に、入力装置２７、音声入力装置３１や通信装置３５等の低速データ入力装置とＣＰＵ２１との間のデータの受渡機能を有する。なお、音声入力装置３１に音声認識機能があり入力された音声データ２５αをテキストデータに変換可能な場合には、当該テキストデータは入力制御プログラム２２ｂを介してテキスト解析プログラム２２ｃに受け渡される。

テキスト解析プログラム２２ｃは、入力装置２７等により入力されたテキストデータの形態素解析を行うプログラムで、具体的には、入力されたテキストデータを辞書データベース２３のテキスト解析辞書２３ａに基づいて形態素解析することによって、単語ごとの、読み、モーラ数や文法情報等を与える機能を有する。このテキスト解析プログラム２２ｃは、特許請求の範囲に記載の「助詞検出手段」および「モーラ数アクセント型解析手段」に相当し得るものである。なお、助詞や助動詞は、単語とは区別して「接辞」として分類されることもあるが、本実施形態では、助詞や助動詞も「単語」の概念に含めている。

アクセント解析プログラム２２ｄは、テキスト解析プログラム２２ｃにより解析された入力テキスト中の単語に対しアクセント解析を行うプログラムで、具体的には、当該単語をアクセント解析辞書２３ｂのテキスト単語アクセント辞書に基づいてアクセント解析し単語単位のアクセント型を求める機能を有する。このアクセント解析プログラム２２ｄは、特許請求の範囲に記載の「モーラ数アクセント型解析手段」に相当し得るものである。

助詞決定プログラム２２ｅは、入力されたテキストデータにおいて、テキスト解析プログラム２２ｃにより検出された前語のモーラ数・アクセント型に対応する当該助詞の助詞音声データ２５ｂを決定するプログラムで、具体的には、図２(C) に示す音声データベース２５の助詞音声データ２５ｂから選択すべきものを、当該前語のモーラ数・アクセント型（○Ｍ△型）に基づいて決定する機能を有する。この助詞決定プログラム２２ｅは、特許請求の範囲に記載の「助詞決定手段」に相当し得るものである。

音声データ取得プログラム２２ｆは、テキスト解析プログラム２２ｃにより形態素解析された形態素（単語）に対応する名詞等音声データ２５ａを音声データベース２５から検索して取得したり、また助詞決定プログラム２２ｅにより決定された助詞音声データ２５ｂを音声データベース２５から検索して取得するプログラムで、特許請求の範囲に記載の「助詞音声データ選択手段」に相当し得るものである。

具体的には、名詞等音声データ２５ａについては、形態素（単語）に該当する表記文字とその読みを台詞データベース２４の台詞データ２４ａから検索し、ヒットした台詞データ２４ａの音声コードに基づいて音声データベース２５から取得する。例えば、前述の『今日』に対応するもので、その読みが「キョウ」の場合、その音声コードは「１０」になるので、当該音声コード「１０」に該当する音声データ２５ａを音声データベース２５から取得する（図２(A) 、図２(B) 参照）。

一方、助詞音声データ２５ｂについては、助詞のモーラ数・アクセント型、表記および読みから検索しヒットした助詞音声データ２５ｂを音声データベース２５から取得する。例えば、入力テキストが『今日は、…』である場合には、助詞「は」が付く単語「今日」は２モーラ１型（２Ｍ１）で、当該助詞の表記「は」とその読み「ワ」とから、助詞音声データ２５ｂ-2が検索されるので、これを音声データベース２５から取得する（図２(C) 参照）。

出力制御プログラム２２ｇは、入力テキストに対応する音声データを名詞等音声データ２５ａや助詞音声データ２５ｂをにより構成して表示装置２８や音声出力装置３３等に受け渡す処理等を行うプログラムで、主に、表示装置２８、音声出力装置３３や通信装置３５等の低速データ出力装置とＣＰＵ２１との間のデータの受渡機能を有する。なお、この出力制御プログラム２２ｈは、特許請求の範囲に記載の「音声データ出力手段」に相当し得るものである。

音声データ採取プログラム２２ｐは、音声入力装置３１等から入力制御プログラム２２ｂを介して入力された人の音声を、音声データ２５αとして取得するプログラムで、特許請求の範囲に記載の「音声データ取得手段」に相当し得るものである。これにより取得された音声データ２５αは、音声データ抽出プログラム２２ｑに受け渡される。また、この音声データ採取プログラム２２ｐは、音声データ２５αに対する読みが音声入力装置３１等によって認識されず、当該読みがテキストデータとして出力されない場合には、利用者に対し入力装置２７による当該音声データ２５αの読みを入力する必要のある旨を表示装置２８に出力する機能も有する。

音声データ抽出プログラム２２ｑは、音声データ採取プログラム２２ｐにより取得された音声データ２５αを解析し当該音声データ２５αから、当該助詞の助詞音声データ２５ｂおよびこの助詞の前語の名詞等音声データ２５ａを抽出するプログラムで、特許請求の範囲に記載の「助詞音声データ抽出手段」に相当し得るものである。

アクセント型別音声データ生成プログラム２２ｒは、テキスト解析プログラム２２ｃおよびアクセント解析プログラム２２ｄにより解析された前語のモーラ数・アクセント型に基づいて当該助詞の助詞音声データ２５ｂを分類することによりアクセント型別の助詞音声データ２５ｂを生成するプログラムである。このアクセント型別音声データ生成プログラム２２ｒは、特許請求の範囲に記載の「助詞音声データ生成手段」に相当し得るものである。

続いて、音声合成装置２０による音声合成処理の流れ等を図３および図４に基づいて説明する。なお、この音声合成処理は、例えば、入力装置２７から入力テキストの内容を音声合成する旨の命令入力があった等の所定の起動条件が整った場合に、図略のメインプログラムにより起動されるもので、また以下説明する各処理は、前述した入力制御プログラム２２ｂ、テキスト解析プログラム２２ｃ、アクセント解析プログラム２２ｄ、助詞決定プログラム２２ｅ、音声データ取得プログラム２２ｆ、出力制御プログラム２２ｇをそれぞれＣＰＵ２１が実行することによって処理されるものである。

図３に示すように、音声合成装置２０による音声合成処理では、所定の初期化処理の後、まずステップＳ１０１によりテキスト解析処理が行われる。この処理は、入力装置２７や音声入力装置３１等によって入力されたテキストデータを各単語ごとに分解して解析し、助詞を検出するもので、テキスト解析プログラム２２ｃの実行により行われる。このステップＳ１０１は、特許請求の範囲に記載の「助詞検出ステップ」に相当し得るものである。具体的には、『今日は、…』というテキストデータが入力された場合の処理を例に、図４を参照して説明した方がわかり易いので、ここからは、図４も参照しながら当該音声合成処理の流れを説明する。なお、『今日は、…』の「…」部分は、任意の文章が当てはまる旨を示しており、本実施形態では、助詞の「は」とその前語の名詞「今日」を題材に説明する意を間接的に表現している。

図４に示すように、『今日は、…』というテキストデータが入力されると、ステップＳ１０１により辞書データベース２３のテキスト解析辞書２３ａに基づいて形態素を解析する処理が行われる。これにより、『今日は、…』というテキストデータは、『今日』、『は』、『…』という単語の集まりとして解析され、さらに「は」という係助詞の存在と、その前語として「今日」が検出される。これにより、単語ごとの、読み、モーラ数や文法情報等が与えられる。図４の例では、「今日」は読みが「キョウ」でモーラ数が２の名詞、また「は」は読みが「ワ」でモーラ数が１の助詞、等々の情報が付与される。

次のステップＳ１０３では、アクセント解析処理が行われる。この処理は、ステップＳ１０１により解析された単語のアクセント型を解析するもので、アクセント解析プログラム２２ｄの実行により行われる。具体的には、アクセント解析辞書２３ｂのテキスト単語アクセント辞書に基づいて当該単語のアクセント型を解析する。図４の例では、「今日」という名詞は２モーラ１型で、「は」という助詞はアクセント型がないこと、等々が解析される。

続くステップＳ１０５では、助詞決定処理が行われる。この処理は、前語のモーラ数・アクセント型に対応する助詞の助詞音声データ２５ｂを決定するもので、助詞決定プログラム２２ｅの実行により行われる。このステップＳ１０５は、特許請求の範囲に記載の「助詞決定ステップ」に相当し得るものである。図４に示す例では、助詞「は」の前語である「今日」は、そのモーラ数・アクセント型が２Ｍ１型になることから、図２(C) に示すように同一の助詞「は」の助詞音声データ２５ｂ-1、２５ｂ-2、２５ｂ-3、…から、前語が２モーラ１型である場合に適合する助詞音声データ２５ｂ-2が決定される。

次のステップＳ１０７では、助詞音声データ選択処理が行われる。この処理は、ステップＳ１０５により決定された助詞の助詞音声データ２５ｂ-2を音声データベース２５から選択するもので、音声データ取得プログラム２２ｆの実行により行われる。このステップＳ１０７は、特許請求の範囲に記載の「助詞音声データ選択」に相当し得るものである。図４に示す例では、音声データベース２５の助詞音声データ２５ｂのうち、網掛けされた助詞音声データ２５ｂ-2が選択されている。

ステップＳ１０９では、音声データ出力処理が行われる。この処理は、ステップＳ１０７により選択された助詞の助詞音声データ２５ｂ-2を含む入力テキストデータに対応する音声データを構成し音声出力装置３３により出力させるもので、出力制御プログラム２２ｇの実行により行われる。このステップＳ１０９は、特許請求の範囲に記載の「音声データ出力ステップ」に相当し得るものである。図４に示す例では、ステップＳ１０７によって、前語である「今日」のモーラ数・アクセント型（２モーラ１型）に適合した助詞「は」として、２モーラ１型の名詞の後の助詞「は」の助詞音声データ２５ｂ-2が選択されているので、これを含めて『今日は、…』という入力テキストデータに対応する音声データを構成する。これにより、音声出力装置３３から当該音声データが出力されるので、聴き心地の良好な音声を合成することができる。

このように、音声合成装置２０による音声合成処理では、入力されたテキストデータをテキスト解析プログラム２２ｃ（Ｓ１０１）により解析し助詞を検出し、テキストデータにおいて検出された前語のモーラ数・アクセント型に対応する助詞の助詞音声データ２５ｂを助詞決定プログラム２２ｅ（Ｓ１０５）により決定すると、この決定された助詞の助詞音声データ２５ｂを音声データベース２５から音声データ取得プログラム２２ｆ（Ｓ１０７）により選択し、この選択された助詞の助詞音声データ２５ｂを含むテキストデータに対応する音声データを出力制御プログラム２２ｇ（Ｓ１０９）により構成し音声出力装置３３により出力する。これにより、助詞の直前に付く前語のモーラ数・アクセント型に対応する助詞の助詞音声データ２５ｂを決定し、これを「前語のモーラ数・アクセント型により分類された助詞の助詞音声データ２５ｂを記憶する音声データベース２５」から選択するので、前語のモーラ数・アクセント型によって当該助詞の音調が異なるという日本語の性質に適した助詞音声データ２５ｂを選択することができる。したがって、このような助詞音声データ２５ｂを含むことで、聴き心地の良好な音声を合成することができる。

また、助詞は、その種類（格助詞、副助詞、係助詞、終助詞、間投助詞、接続助詞）の全てに対応したとしても、「は」、「が」、「の」、「を」、「に」等々、数十種類に限られていることから、前語のモーラ数・アクセント型により分類された助詞の助詞音声データ２５ｂを音声データベース２５に記憶しても、それほどデータ量にはならない。その一方で、名詞等の助詞以外の単語は、その種類も数十万種類というように、助詞に比べて桁違いに多いことから、これらの単語とその後に付く助詞との組み合わせ（例えば「今日は」）を当該助詞の音調に合わせて録音し音声データ化した場合には、膨大なデータ量にならざるを得ない。したがって、音声合成装置２０による音声合成処理（図３）によると、膨大な音声データを要することなく、聴き心地の良好な音声を合成することができる。

次に、音声合成装置２０による助詞音声データ生成処理の流れ等を図５および図６に基づいて説明する。なお、この助詞音声データ生成処理は、例えば、入力装置２７から助詞音声データを生成する旨の命令入力があった等の所定の起動条件が整った場合に、図略のメインプログラムにより起動されるもので、また以下説明する各処理は、前述した入力制御プログラム２２ｂ、テキスト解析プログラム２２ｃ、アクセント解析プログラム２２ｄ、出力制御プログラム２２ｇ、音声データ採取プログラム２２ｐ、音声データ抽出プログラム２２ｑ、アクセント型別音声データ生成プログラム２２ｒをそれぞれＣＰＵ２１が実行することによって処理されるものである。

図５に示すように、音声合成装置２０による助詞音声データ生成処理では、所定の初期化処理の後、まずステップＳ５０１により音声データ取得処理が行われる。この処理は、音声入力装置３１等から入力制御プログラム２２ｂを介して入力された人の音声を音声データ２５αとして取得するもので、音声データ採取プログラム２２ｐの実行により行われる。このステップＳ５０１は、特許請求の範囲に記載の「音声データ取得ステップ」に相当し得るものである。

具体的には、図６に示すように、２モーラ１型の「秋」という名詞に助詞「が」を付けた『秋が』（アキガ）、また「秋」に助詞「の」を付けた『秋の』（アキノ）、さらに「秋」に助詞「は」を付けた『秋は』（アキワ）…、というように、「前語＋助詞」の組み合わせにおいて、モーラ数・アクセント型のわかっている前語を固定し、これに付く助詞を「が」、「の」、「は」…に取り替えていくような録音用の台詞を予め用意しておく。そして、この録音用の台詞を表示装置２８に出力して、それを話者に読ませて発音させることによって、特定のモーラ数・アクセント型の前語に付いた場合の助詞の音調（音の高低）を得ることができる。また前語のモーラ数・アクセント型を他のものに変えた場合も、同様に、これに付く助詞を「が」、「の」、「は」…に取り替えていくような録音用の台詞を用意することで、例えば、他のモーラ数・アクセント型の名詞「味」（２モーラ０型）、「麻」（２モーラ２型）についても、『味が』（アジガ）、『味の』（アジノ）、『味は』（アジワ）…、『麻が』（アサガ）、『麻の』（アサノ）、『麻は』（アサワ）…、というように、他のモーラ数・アクセント型の前語に付いた場合の助詞の音調（音の高低）を得ることができる。これにより、所定のモーラ数・アクセント型の名詞に、各助詞（「が」、「の」、「は」、「を」…）を付けた文節を当該モーラ数・アクセント型の録音語として音声データ２５αを取得することができる。

なお、本実施形態では、録音用の台詞を予め用意しておき、それを表示装置２８に表示させて話者に読ませる方法を採用したが、例えば、人の日常会話等から、発話音声を無作為に録音して、音声認識装置によりその録音データから会話内容のテキストデータを解析することによって「録音用の台詞」を不要にする構成を採っても良い。これにより、予め録音用の台詞を用意する手間が省け、また人による自然な日常会話から音声データ２５αを採取することができるので、より自然な発話音声を容易に得ることができる。

続くステップＳ５０３では、ステップＳ５０１により取得された音声データαを解析し当該音声データ２５αから、当該助詞の助詞音声データ２５ｂおよびこの助詞の前語の名詞等音声データ２５ａを抽出する処理が行われる。この処理は、音声データ抽出プログラム２２ｑの実行により行われるもので、特許請求の範囲に記載の「助詞音声データ抽出ステップ」に相当し得るものである。図６に示す例では、ステップＳ５０１により、『秋が』（アキガ）、『秋の』（アキノ）、『秋は』（アキワ）…が録音され取得されているので、これから助詞の助詞音声データ２５ｂとその前語の名詞等音声データ２５ａとが抽出される。これにより、『秋が』は「秋」と「が」に、『秋の』は「秋」と「の」に、『秋は』は「秋」と「は」に、それぞれ分解され、前語部分の名詞等音声データ２５ａと助詞部分の助詞音声データ２５ｂとがそれぞれ抽出される。

次のステップＳ５０５では、モーラ数・アクセント型解析処理が行われる。この処理はステップＳ５０３により抽出した前語の名詞等音声データ２５ａに基づいて当該単語のモーラ数・アクセント型を解析する処理が行われる。この処理は、テキスト解析プログラム２２ｃおよびアクセント解析プログラム２２ｄの実行により行われるもので、特許請求の範囲に記載の「モーラ数アクセント型解析ステップ」に相当し得るものである。図６に示す例では、前語の「アキ」は、その録音用の台詞データあるいは音声認識装置により認識されて出力されるテキストデータから、「秋」であることがわかる。そのため、当該前語「秋」のモーラ数・アクセント型は、テキスト解析辞書２３ａやアクセント解析辞書２３ｂから、２モーラ１型であることが判明する。

続くステップＳ５０７では、ステップＳ５０５により解析された前語のモーラ数・アクセント型に基づいて当該前語に付く助詞の助詞音声データ２５ｂを分類することによりアクセント型別の助詞音声データ２５ｂ-1、２５ｂ-2等を生成する処理が行われる。この処理は、アクセント型別音声データ生成プログラム２２ｒの実行により行われるもので、特許請求の範囲に記載の「助詞音声データ生成ステップ」に相当し得るものである。図６に示す例では、「秋」のように前語が２モーラ１型である場合には、当該前語（２モーラ１型）に付く助詞として、他のモーラ数・アクセント型の前語に付く助詞とは分類することによりアクセント型別の助詞音声データ２５ｂ-1、２５ｂ-2等が生成される（図６に示すアクセント型別助詞音声データの生成）。これにより、例えば、同じ助詞「が」であっても、２モーラ０型の前語（例えば「味」）に付く助詞「が」と、２モーラ１型の前語（例えば「秋」）に付く助詞「が」と、２モーラ２型の前語（例えば「麻」）に付く助詞「が」と、ではそれぞれ異なった助詞音声データ２５ｂ-1、２５ｂ-2等として生成される。これは、同じ助詞であっても、前語のモーラ数・アクセント型によって当該助詞の音調（音の高低）が異なるという日本語の性質に着目して分類したものである。

続くステップＳ５０９では、ステップＳ５０７により生成されたアクセント型別の助詞音声データ２５ｂ-1、２５ｂ-2等を音声データベース２５に記憶させる処理が行われる。この処理は、出力制御プログラム２２ｇの実行により行われるもので、特許請求の範囲に記載の「生成した助詞の音声データを助詞音声データ記憶手段に記憶させること」に相当し得るものである。これにより、図２(C) に示すように、音声データベース２５に記憶された助詞音声データ２５ｂは、例えば、助詞「は」の場合、この「は」が付く前語のモーラ数・アクセント型の違いによって、２モーラ０型のときの助詞音声データ２５ｂ-1、２モーラ１型の助詞音声データ２５ｂ-2、２モーラ２型の助詞音声データ２５ｂ-3、…というようにそれぞれ異なった助詞音声データ２５ｂとして記憶される。したがって、前述した入力テキスト『今日は、…』の例では、助詞「は」の付く前語「今日」のモーラ数・アクセント型が２モーラ１型（２Ｍ１）、当該助詞の表記「は」およびその読み「ワ」から、助詞音声データ２５ｂ-2を検索することができるので、前語のモーラ数・アクセント型によって当該助詞の音調が異なるという日本語の性質に適した助詞音声データ２５ｂを得ることが可能となる。

このように、音声合成装置２０による助詞音声データ生成処理では、音声データ採取プログラム２２ｐ（Ｓ５０１）により人の音声を音声データ２５αとして取得し、音声データ抽出プログラム２２ｑ（Ｓ５０３）により、取得された音声データ２５αを解析し当該音声データ２５αから助詞の助詞音声データ２５ｂおよび前語の名詞等音声データ２５ａを抽出し、テキスト解析プログラム２２ｃおよびアクセント解析プログラム２２ｄ（Ｓ５０５）により、抽出した前語の名詞等音声データ２５ａに基づいて当該前語のモーラ数・アクセント型を解析し、アクセント型別音声データ生成プログラム２２ｒ（Ｓ５０７）により、この解析した前語のモーラ数・アクセント型に基づいて助詞の助詞音声データ２５ｂを分類することでアクセント型別の助詞音声データ２５ｂ-1、２５ｂ-2等を生成する。そして、この生成したアクセント型別の助詞音声データ２５ｂ-1、２５ｂ-2等を音声データベース２５に記憶させる。これにより、音声データベース２５に記憶されている助詞音声データ２５ｂは、助詞の前語のモーラ数・アクセント型に基づいて助詞音声データ２５ｂ-1、２５ｂ-2等に分類されているので、音声合成装置２０において利用可能な音声データベース２５を実現することができる。したがって、音声合成装置２０による聴き心地の良好な音声の合成に資することができる。

本発明の一実施形態に係る音声合成装置の構成例を示すブロック図である。図２(A) は、図１に示す台詞データベースの台詞データの構成例、図２(B) は、図１に示す音声データベースの名詞等音声データの構成例、図２(C) は、図１に示す音声データベースの助詞音声データの構成例、をそれぞれ示す説明図である。本実施形態に係る音声合成装置による音声合成処理の流れを示すフローチャートである。『今日は、・・・』というテキストデータが入力された場合の音声合成処理の例を示す説明図である。本実施形態に係る音声合成装置による助詞音声データ生成処理の流れを示すフローチャートである。図５に示す助詞音声データ生成処理の概念を表す説明図である。

符号の説明

２０…音声合成装置
２１…ＣＰＵ（助詞検出手段、助詞決定手段、助詞音声データ選択手段、音声データ出力手段、音声データ取得手段、助詞音声データ抽出手段、モーラ数アクセント型解析手段、助詞音声データ生成手段）
２２…メモリ
２２ａ…システムプログラム
２２ｂ…入力制御プログラム
２２ｃ…テキスト解析プログラム（助詞検出手段、モーラ数アクセント型解析手段）
２２ｄ…アクセント解析プログラム（モーラ数アクセント型解析手段）
２２ｅ…助詞決定プログラム（助詞決定手段）
２２ｆ…音声データ取得プログラム（助詞音声データ選択手段）
２２ｇ…出力制御プログラム（音声データ出力手段）
２２ｐ…音声データ採取プログラム（音声データ取得手段）
２２ｑ…音声データ抽出プログラム（助詞音声データ抽出手段）
２２ｒ…アクセント型別音声データ生成プログラム（助詞音声データ生成手段）
２３…辞書データベース
２３ａ…テキスト解析辞書（助詞検出手段、モーラ数アクセント型解析手段）
２３ｂ…アクセント解析辞書（モーラ数アクセント型解析手段）
２４…台詞データベース
２４ａ…台詞データ
２５…音声データベース（助詞音声データ記憶手段）
２５ａ…名詞等音声データ（音声データ）
２５ｂ…助詞音声データ（助詞の音声データ）
２５ｂ-1、２５ｂ-2、２５ｂ-3…アクセント型別の助詞音声データ(生成した助詞の音声データ)
２５α…音声データ（人の音声データ）
２７…入力装置
２８…表示装置
３１…音声入力装置（音声データ取得手段）
３３…音声出力装置（音声データ出力手段）
Ｓ１０１（助詞検出ステップ）
Ｓ１０５（助詞決定ステップ）
Ｓ１０７（助詞音声データ選択ステップ）
Ｓ１０９（音声データ出力ステップ）
Ｓ５０１（音声データ取得ステップ）
Ｓ５０３（助詞音声データ抽出ステップ）
Ｓ５０５（モーラ数アクセント型解析ステップ）
Ｓ５０７（助詞音声データ生成ステップ）

Claims

助詞の直前に付く単語のモーラ数およびアクセント型により分類された前記助詞の音声データを記憶する助詞音声データ記憶手段と、
入力されたテキストデータを解析し助詞を検出する助詞検出手段と、
前記テキストデータにおいて、前記検出された助詞の直前に付く単語のモーラ数およびアクセント型に対応する前記助詞の音声データを決定する助詞決定手段と、
前記決定された助詞の音声データを前記助詞音声データ記憶手段から選択する助詞音声データ選択手段と、
前記選択された助詞の音声データを含む前記テキストデータに対応する音声データを構成し出力する音声データ出力手段と、
を備えることを特徴とする音声合成装置。
人の音声を音声データとして取得する音声データ取得手段と、
前記取得された音声データを解析し当該音声データから、助詞の音声データおよびこの助詞の直前に付く単語の音声データを抽出する助詞音声データ抽出手段と、
前記抽出した助詞の直前に付く単語の音声データに基づいて当該単語のモーラ数およびアクセント型を解析するモーラ数アクセント型解析手段と、
前記解析した助詞の直前に付く単語のモーラ数およびアクセント型に基づいて前記助詞の音声データを分類することにより助詞の音声データを生成する助詞音声データ生成手段と、を備える音声データ生成装置により、
前記生成した助詞の音声データを前記音声合成装置の助詞音声データ記憶手段に記憶させることを特徴とする請求項１記載の音声合成装置。
入力されたテキストデータを解析し助詞を検出する助詞検出ステップと、
前記テキストデータにおいて、前記検出された助詞の直前に付く単語のモーラ数およびアクセント型に対応する前記助詞の音声データを決定する助詞決定ステップと、
前記決定された助詞の音声データを、助詞の直前に付く単語のモーラ数およびアクセント型により分類された前記助詞の音声データを記憶する助詞音声データ記憶手段から選択する助詞音声データ選択ステップと、
前記選択された助詞の音声データを含む前記テキストデータに対応する音声データを構成し出力する音声データ出力ステップと、
を備えることを特徴とする音声合成装置。
人の音声を音声データとして取得する音声データ取得ステップと、
前記取得された音声データを解析し当該音声データから、助詞の音声データおよびこの助詞の直前に付く単語の音声データを抽出する助詞音声データ抽出ステップと、
前記抽出した助詞の直前に付く単語の音声データに基づいて当該単語のモーラ数およびアクセント型を解析するモーラ数アクセント型解析ステップと、
前記解析した助詞の直前に付く単語のモーラ数およびアクセント型に基づいて前記助詞の音声データを分類することにより助詞の音声データを生成する助詞音声データ生成ステップと、を含む音声データ生成方法により、
前記生成した助詞の音声データを前記音声合成方法の助詞音声データ記憶手段に記憶させることを特徴とする請求項３記載の音声合成方法。