JP4884212B2

JP4884212B2 - 音声合成装置

Info

Publication number: JP4884212B2
Application number: JP2006511572A
Authority: JP
Inventors: 大介吉田
Original assignee: AI Inc
Current assignee: AI Inc
Priority date: 2004-03-29
Filing date: 2005-03-29
Publication date: 2012-02-29
Anticipated expiration: 2025-03-29
Also published as: WO2005093713A1; JPWO2005093713A1; US20070203703A1

Description

本発明は、音声合成装置に関し、詳しくは、事前に収録された所定文章の音声データを所定の音声単位で複数蓄積した音声データベースを搭載し、任意のテキストデータに対して前記音声データベースに基づきコーパスベース音声合成を行うための、他の機器に組込み搭載される組込みマイコンからなる音声合成装置に係わる。

従来、音声合成技術として、駅の案内放送等に利用されるような、予め、使用される所定の単語やフレーズを音源として収録しておき、これらを組み合わせることで、機械による文章の音声出力を行う録音編集方式と、電話の自動案内等に利用されるような、事前に一文字ずつ音声波形に近い音データを蓄積し、これらの音データを信号処理により単音接続し、肉声の音声波形に近い音として出力する規則合成方式があった。

ここで、録音編集方式では、事前に収録された決められたフレーズによる録音データの組み合わせのみが可能であることから、合成可能な文章数が限定されてしまい、また、新たな文章を追加して合成させたいときには、この追加文章に使用される単語やフレーズの音源の再録音が必要となるために、再録音のための費用がかかるという問題があり、随時様々な文章を読上げさせるには、読上げ対応能力の低いものとなっていた。

一方、規則合成方式では、文脈や単語の差異を無視して、信号処理による音データを一文字ずつ対応させた繋ぎ合わせによって、それぞれ単音を順次連続されることで、肉声の音声波形に近い音を合成するようにしているために、出力される音は、機械的な音となってしまい、音質の低下は避けられず、その機械的な音は、自然な発声とは程遠いために聞いていて違和感の残るものとなっていた。

そこで、近年、人の肉声を文章として数多く収録したものが事前にデータベース化されて、これら膨大な音声データのデータベース（コーパス）を音源として音声を合成する、例えば、以下に示す特許文献１及び２に開示されたコーパスベース音声合成技術が知られている。

特許第２８９４４４７号公報特許第２９７５５８６号公報

これら特許文献１及び２に開示されたコーパスベース音声合成技術では、データベース中に収録された多くの文章から必要な音素を抽出し、それら音素の組み合わせにより数多くの文章の合成が可能であることから、出力可能な合成文章数は膨大なものとなり、また、人間の肉声を音源に採用しているため、機械音による合成音声と比べて、より人間の肉声に近い自然な音声を出力することができる。

さらに、これら特許文献１あるいは特許文献２に開示されたコーパスベース音声合成技術によれば、新たに文章を追加して合成させる場合においても、既に収録されている音源中の音素を利用して合成が可能なために、データベースの追加録音も不要であり、したがって、追加コストはかからないことから、現在、コールセンター等への導入が進められている。

しかしながら、従来のコーパスベース音声合成技術では、任意の文章の合成に対応させるために、多数の音素を含む文章を収録するそのデータベースは膨大なものとなってしまい、装置の大型化が避けられず、例えば、コールセンター等に導入される場合には、業務内容対応用や、カタログ請求対応用、担当部署対応用等の、応対内容ごとのそれぞれ専用のデータベースを構築する必要があった。

また、装置が大型なものとなるために、小型製品の、例えば、聴覚障害者用の福祉関連機器や、玩具、家電等に内蔵することは困難なものであり、その用途は、例えば、コールセンター等に限定されてしまい、その導入は大規模な設備を備えた企業等のみに限定されたものとなっていた。

ここにおいて、本発明の解決すべき主要な目的は、次のとおりである。

即ち、本発明の第１の目的は、コーパスベース音声合成を行う装置を小型化して、他の機器に組込み搭載可能な音声合成装置を提供せんとするものである。

本発明の第２の目的は、コーパスベース音声合成に採用される音声データベースを、用途ごとに選択収録された音声データを収録してそれぞれ着脱可能な音声合成装置を提供せんとするものである。

本発明の他の目的は、明細書、図面、特に、特許請求の範囲の各請求項の記載から、自ずと明らかになろう。

本発明装置においては、他の機器に組込み搭載される組込みマイコンからなる音声合成装置であって、テキストデータ中の任意の文章を解析し、当該文章に対応する表音記号データを生成するテキスト解析部と、アクセントと抑揚について事前に設定された韻律知識ベースに従い、当該テキスト解析部で解析した文章の表音記号データのそれぞれに対応するアクセントと抑揚を示す韻律パラメータを生成する韻律予測部と、当該音声合成装置の用途に応じた所要の音声単位のみを有するよう事前に選択収録された所定の音声データのみを複数蓄積する音声データベースに基づき、当該韻律予測部にて生成した韻律パラメータのそれぞれに最も近い所定の音声単位部分を有した音声データのそれぞれから、該当する当該所定の音声単位部分の音声素片波形データの全てを抽出する音声単位抽出部と、当該音声単位抽出部にて抽出した音声素片波形データ群を、文章順に、当該音声素片波形データ群の示す音声波形が連続となるよう順次波形接続することで合成音声データを生成する波形接続部と、を具備させる、という特徴的構成手段を講じる。

さらに、具体的詳細に述べると、当該課題の解決では、本発明が次に列挙する上位概念から下位概念に亙る新規な特徴的構成手段を採用することにより、前記目的を達成するよう為される。

即ち、本発明装置の第１の特徴は、所定文章を人間の肉声にて録音し音声文章化したものを収録し当該音声文章をデジタルデータとして変換したものである音声データの中から利用者の利用用途に応じた所定の音声単位毎に音声素片波形データとして抽出可能に複数を選択蓄積した音声データベースを搭載することにより、任意のテキストデータに対して前記音声データベースを利用してコーパスベース音声合成を行うための音声合成装置であって、シリアルデータからテキストデータを取得するデータ入力部と、当該テキストデータ中の前記任意の文章に対応する音を母音と子音で示す表音記号を表音記号データとして生成処理するテキスト解析部と、事前に設定された文脈に基づく語句の韻律の規則性をアルゴリズム化した韻律知識ベースに従って、解析された当該テキストデータ中の任意の文章の文脈から前記表音記号データのそれぞれに対応する前記韻律を決定し、当該韻律を示す韻律パラメータを生成する韻律予測部と、当該音声合成装置の用途に応じた所要の前記音声単位のみを有するよう事前に選択収録された所定の前記音声データのみを複数蓄積する前記音声データベースに基づき、当該韻律予測部にて生成した前記韻律パラメータのそれぞれに最も近い前記所定の音声単位部分を有した前記音声データのそれぞれから、該当する当該所定の音声単位部分の前記音声素片波形データの全てを抽出する音声単位抽出部と、当該音声単位抽出部にて抽出した前記音声素片波形データ群を、前記文章順に、当該音声素片波形データ群の示す音声波形が連続となるよう順次波形接続することで合成音声データを生成する波形接続部と、当該合成音声データをアナログ音声に変換出力する音声変換処理部と、当該音声変換処理部に前置した、前記データ入力部により前記任意の文章とともに取得した速度のパラメータを前記波形接続部より生成された前記音声合成データに反映させ、当該合成音声データの読み上げ速度を調整する話速変換部と、を具備し、前記音声データベースは、前記音声合成装置に着脱可能なメモリカード上に構築され、当該音声合成装置に当該メモリカードが装着されたときに、前記音声単位抽出部から読み取り可能とし、前記データ入力部は、当該音声合成装置が組込み搭載された他の機器と接続されて、当該機器からテキストデータであるシリアルデータを受信するとともに、前記波形接続部及び前記音声変換処理部は、抽出選択されて組込みマイコンに搭載され、当該組込みマイコンが、前記データ入力部、前記テキスト解析部、前記韻律予測部、前記音声単位抽出部及び前記話速変換部を備えた他の機器にネットワーク接続または組込み搭載されるよう構成される、音声合成装置の構成採用にある。

本発明装置の第２の特徴は、上記本発明装置の第１の特徴における前記所定の音声単位が、音素、単語、フレーズ、シラブルのうち１以上である、音声合成装置の構成採用にある。

本発明によれば、従来、大型化が避けられなかったコーパスベース音声技術を採用した音声合成装置を組込みマイコンにて構成し、従来と比較して大幅に小型化することが可能となり、他の機器に組込み可能となることから、例えば、福祉関連機器に組み込まれることで音声伝達を可能とするコミュニケーションツールとして活用することができ、キャラクターの声を出力可能な人形等の玩具や、音声による情報伝達が可能な家電等、さまざまな製品に活用することが可能となる。特に、サーバ、パソコンなどを使わずに音声合成が可能となる。

また、音声データベースを着脱可能なメモリカード上に構築し用途に応じて交換可能にしたことで、音声合成装置の小型化が可能となると共に、用途に合った音声データを収録することで、音声合成の読み正解率やアクセント正解率の向上させてより自然な音声を出力させることが可能になり、また、出力する声質をユーザの好みのものに切り替えることが可能となる。

さらに、ネットワークを利用して音声合成を行う場合、従来音声の送信には中高速回線を利用していたが、本発明では、テキストデータを受信側装置で受信して音声に変換すればよいため、低速回線を利用した音声放送が可能となり、また、プッシュ型のサービスに適用された場合、テキストデータのみを配信することで受信側装置にて音声として出力させることができ、省力化や、防災無線等の緊急を要する場合にも迅速なサービスの提供が可能となる。

本発明の一形態例に係る音声合成装置の機能構成図である。同上した音声合成装置に話速変換部を機能追加した音声合成装置の機能構成図である。同上した音声合成装置のハードウェア構成例を示す模式図である。同上した音声合成装置のデータ構成を説明するための図であり、同図（ａ）はテキストデータを、同図（ｂ）は表音記号データを、同図（ｃ）は韻律知識ベースを、同図（ｄ）は韻律パラメータを、同図（ｅ）は音声データベースを説明するための図である。本発明の機能構成例２に係る音声合成装置の機能構成図である。本発明の機能構成例３に係る音声合成装置の機能構成図である。本発明の形態例に係る音声合成装置をパーソナルコンピュータに搭載させたハードウェア構成例を示す模式図である。

α、α１…音声合成装置
α２、α３…組込みマイコン
β、β２、β３…パーソナルコンピュータ
γ…音声合成システム
１…音声データベース
２…テキスト解析部
３…韻律予測部
３Ａ…韻律知識ベース
４…音声単位抽出部
５…波形接続部
６…データ入力部
７…音声変換処理部
８…話速変換部
１１…ＣＰＵ
１２…ＲＯＭ
１３…ＲＡＭ
１４…メモリカード
１５…シリアルインタフェース
１６…Ｄ／Ａコンバータ
２１…入力手段
２２…スピーカ

以下、本発明の実施の形態につき、添付図面を参照しつつ、音声合成装置の形態例を説明する。

（形態例）
まず、図１は、本発明の一形態例に係る音声合成装置の機能構成図である。

同図に示すように、本形態例にかかる音声合成装置αは、事前に収録された所定文章の音声データを、例えば、音素や単語、フレーズ、シラブル等の所定の音声単位毎に音声素片波形データとして抽出可能に複数蓄積した音声データベース１を搭載し、任意のテキストデータに対して音声データベース１に基づきコーパスベース音声合成を行うための装置であり、少なくともテキスト解析部２と、韻律予測部３と、音声単位抽出部４と、波形接続部５からなり、必要に応じ他の機器に組込み搭載される組込みマイコンとして構成する。

なお、上記機能部全てをマイコンが具備するよう限定される必要はなく、使用用途及びその規模に応じて複数の所定機能部をマイコンに具備させ、その他の各機能部をパーソナルコンピュータに実行させるなどして構成することもできる。

ここで、音声データベース１は、コーパスベース音声合成を行うためのコーパスであって、音声合成装置αの用途に応じた所定の音声単位のみを有するように事前に選択収録された所定の音声データのみを複数蓄積し、音声合成装置αの用途に応じて細分化されて構築される。

一方、テキスト解析部２は、入力されたテキストデータ中の任意の文章を解析し、この文章に対応する表音記号データを生成可能に構成されて、韻律予測部３は内部に、表音記号データのアクセントと抑揚についての認識規則について事前に設定された韻律知識ベース３Ａを搭載し、この韻律知識ベース３Ａに従い、テキスト解析部２が生成した表音記号データのそれぞれに対応するアクセントと抑揚を示す韻律パラメータを生成するよう構成される。

他方、音声単位抽出部４は、韻律予測部３にて生成された韻律パラメータのそれぞれに最も近いアクセントと抑揚を備えた音素を含む音声データを、例えば、人間の聴覚特性に近づけた評価関数等を用いて、音声データベース１から抽出し、ここで抽出した音声データのそれぞれから、この韻律パラメータに該当する音素等の所定の音声単位の音声素片波形データのみを抽出するよう構成される。

さらに、波形接続部５は、音声単位抽出部４にて抽出した複数の音声素片波形データ群を、文章順に、この音声素片波形データ群の音声波形が滑らかで自然な音声となるよう、連続させて順次波形接続を行うことで、自然な韻律の合成音声データを生成するよう構成される。

なお、音声合成装置αの組込みマイコン上に、さらに、音声合成装置αが組込み搭載される他の機器と接続されて、この機器中の、例えば、キーボードやマウス等の入力手段や、ネットワークを介して送受信されたデータを記録する記録媒体等からシリアルデータを受信し、このシリアルデータからテキストデータを取得してテキスト解析部２に入力可能に構成されたデータ入力部６を具備するようにしても構わない。

このデータ入力部６を具備することにより、音声合成装置αは、事前に設定されたテキストデータの音声合成のみならず、例えば、音声合成装置αのユーザにより入力された任意の文章の音声合成が可能となり、ユーザからの任意のテキストデータの入力に対応可能となるとともに、所望の文章を随時受付けて即座に合成音声として出力する等のリアルタイム性を確保することが可能となる。

また、音声合成装置αの組込みマイコン上に、波形接続部５にて生成した合成音声データをアナログ変換し、このアナログ変換した合成音声データを別途接続されたスピーカ等にアナログ出力することで、合成音声データを音声出力する音声変換処理部７を具備するようにしても構わない。

なお、音声合成装置αが組み込まれる他の機器に、データ入力部６と音声変換処理部７とに代わる同様の機能を備えたインタフェースやコンバータ等が搭載された場合、音声合成装置αは、音声合成装置α内にデータ入力部６と音声変換処理部７とを搭載させずに、テキストデータを取得可能とするとともに、合成音声データを音声出力することが可能となるようにしても構わない。

さらに、図２は図１の音声合成装置αに合成音声の読み上げ速度の調節機能を加えた構成図である。

同図に示すように、音声合成装置α１が組込み搭載される他の機器からテキストデータとともに入力された速度パラメータを、波形接続部５により生成された合成音声データに反映させ、合成音声の読み上げ速度を調節する話速変換部８を音声合成装置α１のマイコン上に具備してもよい。

次に、図３は、本形態例に示した音声合成装置αのハードウェア構成例を示す模式図である。

同図に示すように、音声合成装置αは、音声合成装置αにおける各機能部をそれぞれ一連に制御するＣＰＵ（Central Processing Unit）１１と、ＣＰＵ１１からアクセス可能なＲＯＭ（Read Only Memory）１２と、ＲＡＭ（Randam Access Memory）１３とを搭載して構成されて、例えば、ＲＯＭ１２にリアルタイムＯＳ（Operating
System）と、テキスト解析部２、韻律予測部３、音声単位抽出部４、波形接続部５の各機能を音声合成装置αのＣＰＵ１１に実行させるための処理プログラム等が記録されるとよい。

さらに、音声合成装置αは、例えば、フラッシュメモリ等で構成されて音声合成装置αに着脱可能なメモリカード１４を着脱可能に構成されて、このメモリカード１４に音声データベース１を構築することにより、音声合成装置αが組み込まれる機器の用途や、音声合成装置αを利用するユーザの好みにより、所要のメモリカード１４への差換えが可能になり、装着されたメモリカード１４内の音声データベース１に基づき音声単位抽出部４が機能するように構成されるとよい。

また、データ入力部６として機能するシリアルインタフェース１５や、音声変換処理部７として機能するＤ／Ａコンバータ１６（Ｄ／Ａ：Digital to Analog）を搭載するようにしても構わない。

続いて、図４は、本形態例に示した音声合成装置αのデータ構成を説明するための図であり、同図（ａ）はテキストデータを、同図（ｂ）は表音記号データを、同図（ｃ）は韻律知識ベースを、同図（ｄ）は韻律パラメータを、同図（ｅ）は音声データベースを説明するための図であり、アクセントや抑揚については説明のために模式的に示している。

同図（ａ）に示すように、テキスト解析部２に入力されるテキストデータは、例えば、データ入力部６にて取得したシリアルデータ中の「橋を渡る」のような任意の文章であり、ここで、このテキストデータは、かな・漢字等の混合であっても構わず、音声にすることが可能なものであれば、そのテキストデータに使用される文字は限定されるものではない。

なお、テキストデータは、テキスト形式のデータファイルに限らず、ＨＴＭＬ（Hyper Text Markup Language）形式のデータファイルからＨＴＭＬタグを取り除いて抽出されたものでも構わず、インターネット上のホームページや、電子メール、あるいは、キーボードやマウス等の入力手段によってユーザから直接入力されて生成されたテキストデータであっても構わない。

一方、同図（ｂ）に示すように、テキスト解析部２で生成する表音記号データは、例えば、テキストデータの音を母音と子音で示すような表音記号を採用して、同図（ａ）にて示したテキストデータに基づき生成される表音記号データは、例えば、「ha shi wo wa ta ru」となる。

また、韻律知識ベース３Ａは、表音記号データのアクセントや抑揚等を決定するために韻律予測部３にて利用される予め設定された規則であって、例えば、同図（ｂ）に示した表音記号データの「ha shi」について、日本語の「橋」、「端」、「箸」、…のいずれに対応するものであるかを文脈から決定し、これら表音記号データのアクセントや抑揚について決定可能なアルゴリズムを備える。

そこで、韻律予測部３は、例えば、韻律知識ベース３Ａに基づき「橋」に対応する表音記号データ中の「ha shi」について所定の音声単位毎の、ここでは、「ha」と「shi」に対してそれぞれ韻律パラメータを生成可能に構成されて、韻律知識ベース３Ａに従い、表音記号データの全てについて、アクセントや抑揚、さらには、音声と音声との間、音声のリズム、スピード等を決定することができる。

なお、ここでは、アクセントと抑揚を説明のために模式的に、表音記号に重ねて下線や上線等で示して説明するものの、音声合成装置α内にてアクセントや抑揚等の音声に必要な情報を識別可能に記録されれば、どのような形態であっても構わない。

他方、同図（ｄ）に示すように、韻律予測部３にて同図（ｃ）で説明した韻律知識ベース３Ａに従い生成される韻律パラメータは、各表音記号に対応させてテキストデータの文脈に合った、例えば、アクセント、抑揚及び音声間の間についてそれぞれパラメータとして示すものであり、図に示した「wo」と「wa」のアクセントを示す下線間の切れ目は、その表音記号間に所定間隔の間を示すものである。

続いて、同図（ｅ）に示すように、音声単位抽出部４からアクセスされる音声データベース１は、予め複数の所定文章の肉声がそのアクセントと抑揚等の韻律知識ベース３Ａに対応させた音声データとともに、例えば、音素等の所定の音声単位毎に音声素片波形データとして抽出可能に蓄積されて、ここでは、「春が来た」，「使用する」，「映画を見る」，「私は」，…等の音声データが蓄積されていることを示している。

したがって、音声単位抽出部４は、韻律予測部３から同図（ｄ）に示すような韻律パラメータを受信したときには、この韻律パラメータが示すそれぞれ固有のアクセントと抑揚を有した「ha」，「shi」，「wo」，「wa」，「ta」，「ru」のそれぞれと、表音記号が対応するとともに最も近いアクセントと抑揚を有した音声データを音声データベース１から検索する。

引続き、音声単位抽出部４は、ここで抽出した「春が来た」，「使用する」，「映画を見る」，「私は」，…等の音声データから、韻律パラメータに合致する「ha」，「shi」，「wo」，「wa」，「ta」，「ru」の音声素片波形データのみを切り取り、抽出するようにすることで、波形接続部５にてこの音声素片波形データを滑らかに接続して、合成音声データを生成することが可能となる。

なお、ここでは、所定の音声単位の一例として音素を採用した場合について説明したが、入力されたテキストデータ中に事前に音声データベース１中に蓄積された単語やフレーズを含む場合には、所定の音声単位をこの単語やフレーズとすることで、音声単位抽出部４において、音声データベース１中に蓄積された単語やフレーズ等を分割せずにそのまま抽出することが可能であり、この単語あるいはフレーズをそのまま、あるいは、組み合わせて出力することで、より自然な音声を合成することが可能となる。

続いて、実施例として図１、２の機能構成図及び図５、６に示す本発明における合成音声装置αの実施構成図を用いて機能構成例を説明する。

（構成例１）
まず、構成例１としては上記形態例にて説明した、図１の機能構成図に示す各機能部１〜７全てをマイコンに組込んだ音声合成装置αを機能構成例１とする。

この場合、全機能部１〜７は一個のケース内に一体装備され、他の設備、機器等に機能を分散しなくても単体のみで音声の合成が実行可能な音声合成装置αであり、シリアルデータ入力からアナログ出力までの一連の機能部１〜７を一個体のケースで実行させることを可能とする。

また、上記全機能部がケース単体で実行可能であればその機能構成は限定されず、例えば、同一ケース内に音声変換出力部７、データ入力部６として図示しないスピーカやデータ入力装置等を組込み搭載してもよい。

（構成例２）
さらに、構成例１の音声合成装置αに合成音声の読み上げ速度調節機能である話速変換部８を付加し、構成例１と同様に図２に記載される全機能部１〜８を一個のケースに一体装備した音声合成装置α２を機能構成例２とする。

ここで話速変換部８は、合成音声データに速度パラメータを反映させることにより合成音声の速度調節を行う。この場合、データ入力部にはシリアルデータとして、テキストデータとともに速度パラメータを入力する。

速度パラメータはデータ入力部６から波形接続部５までの機能部を各変換データ及びパラメータに付加された状態で受け渡され、話速変換部８ではじめて認識される。話速変換部８は、波形接続部５から速度パラメータとともに受け取った合成音声データに対し速度パラメータの値をあてはめ、合成音声の読み上げ速度の変更を行う。

構成例２は話速変換を行うことにより、利用状況に応じて速度の変更を行い利用者に対し正確に合成音声を伝達することを目的としており、例えば、読み上げ速度を通常よりも遅く設定することにより、聞き取り易くして緊急時など冷静な判断能力が欠如しがちな状態において効果的である。

（構成例３）
次に図５は、図１に示す音声合成装置αにおける波形接続部５、音声変換処理部７を抽出選択し組込みマイコンα２に搭載し、他の各機能部を別途設置したパーソナルコンピュータに組み込むことにより一連の音声合成処理を実行する音声合成システムγの構成例を示す機能構成図である。

同図に示すように、本構成例３にかかる音声合成システムγは、組込みマイコンα２として火災、地震などの災害時等に入力されたテキストデータを合成音声に変換し緊急警報として使用する場合に用いられる出力端末を目的とする音声合成システムの一例である。

図５に示すように、音声合成システムγは、波形接続部５、音声変換処理部７を具備する組込みマイコンα２と、図１に図示する上記以外の各機能部である音声データベース１とデータ入力部６から音声単位抽出部４までの各機能部を具備したパーソナルコンピュータ等のマシンとをネットワーク接続して使用する。

組込みマイコンα２は単体としてネットワークに接続するか、又は、他の機器に組込みマイコンα２を組込み搭載して利用するとよい。

上記ネットワークの接続方法は、一般的に家庭内や小規模な設備などでも容易に接続可能なインターネット回線や電話回線などが候補として挙げられるが、他に無線、専用回線など、別途設置してある設備とのデータの通信が可能なものであれば、その接続手段は限定されない。

図１に示す音声合成装置αに記載される各機能部の中で、負荷が高くデータ処理時間を要するデータ入力部６から音声単位抽出部４までの機能を、別途設置する高速処理可能な大容量のパーソナルコンピュータβ２のマシンに実行させ、ネットワークを介して組込みマイコンα２がパーソナルコンピュータβ２から受信した音声素片波形データを合成音声データへの変換処理のみを実行することにより、緊急を要する状態においても高速な音声合成処理が可能となるという優れた効果を奏する。

本構成例２は緊急警報用ばかりでなく案内、連絡用として利用してもよく、また構成例２で示す話速変換部８を本構成例に具備させることにより、状況に応じて読み上げ速度の変更を行うことも可能である。

（構成例４）
次に、図６は、図５と同様に図１に示す音声合成装置αの機能部１と３〜５、７を一部抽出選択した組込みマイコンα３の機能構成図である。

同図に示すように、本構成例４にかかる組込みマイコンα３は、データ入力部６及びテキスト解析部２を組み込んだ任意のパーソナルコンピュータβ３にから表音記号データを取得可能な構成にし、音声データベース１と、合成音声として出力する韻律予測部３から音声変換処理部７までの一連の機能部とを組み込んだマイコンである。なお、パーソナルコンピュータβ３は初期設定後は切り離される。

組込みマイコンα３は、玩具のような小型の装置等その他の機器に搭載されることを目的とし、搭載する装置の例としては、玩具、携帯電話、補聴器等の福祉関連機器その他が挙げられる。

これらの装置は、利用者に対し合成音声の提供を実現するものであるが、入力されるシリアルデータの内容はある程度定まっているため、予めテキスト解析を行うことにより処理効率の向上を図ることができる。

また、これらは上述したような小型装置のみに限定されず、例えば自動販売機や、カーナビゲーションシステム、無人受付設備など、出力される合成音声の内容が限定されている装置に利用すれば、新たに大きな設備を設置することなく、組込みマイコンα３を追加搭載させるだけで合成音声機能をこれらの装置に組み込むことが可能となる。

続いて、図７は、本形態例に示した音声合成装置αを、他の機器としてのパーソナルコンピュータβに搭載させたハードウェア構成例を示す模式図である。

同図に示すように、音声合成装置αは、別途配置された任意のパーソナルコンピュータβに搭載されて接続された場合、例えば、パーソナルコンピュータβに搭載された入力手段２１からデータ入力部６にてシリアルデータを受信可能に構成される一方、音声合成装置αにてシリアルデータに基づき生成した合成音声データを、音声変換処理部７から別途パーソナルコンピュータβに内蔵された音声出力可能なスピーカ２２にアナログ出力することで、このスピーカ２２にて音声出力させることが可能となる。

このとき、音声合成装置αは、この音声合成装置α内に、事前に音声データベース１を記録するメモリカード１４が装着されるとよく、メモリカード１４は、音声合成装置αに事前に固定的かつ専用に搭載されたものであっても、パーソナルコンピュータβを利用するユーザにより任意に他のメモリカード１４と差換え可能とするようにしても構わない。

以上、本発明の実施の形態につき、その音声合成装置αの一形態例及び機能構成例を挙げて説明したが、本発明は、必ずしも上述した手段にのみ限定されるものではなく、前述した効果を有する範囲内において、適宜、変更実施することが可能なものである。

また、音声合成装置αを、別途構成された他の音声認識装置と接続することにより、自然な発声の対話を可能とする対話型の音声合成装置を構築することも可能である。

Claims

所定文章を人間の肉声にて録音し音声文章化したものを収録し当該音声文章をデジタルデータとして変換したものである音声データの中から利用者の利用用途に応じた所定の音声単位毎に音声素片波形データとして抽出可能に複数を選択蓄積した音声データベースを搭載することにより、任意のテキストデータに対して前記音声データベースを利用してコーパスベース音声合成を行うための音声合成装置であって、
シリアルデータからテキストデータを取得するデータ入力部と、
当該テキストデータ中の前記任意の文章に対応する音を母音と子音で示す表音記号を表音記号データとして生成処理するテキスト解析部と、
事前に設定された文脈に基づく語句の韻律の規則性をアルゴリズム化した韻律知識ベースに従って、解析された当該テキストデータ中の任意の文章の文脈から前記表音記号データのそれぞれに対応する前記韻律を決定し、当該韻律を示す韻律パラメータを生成する韻律予測部と、
当該音声合成装置の用途に応じた所要の前記音声単位のみを有するよう事前に選択収録された所定の前記音声データのみを複数蓄積する前記音声データベースに基づき、当該韻律予測部にて生成した前記韻律パラメータのそれぞれに最も近い前記所定の音声単位部分を有した前記音声データのそれぞれから、該当する当該所定の音声単位部分の前記音声素片波形データの全てを抽出する音声単位抽出部と、
当該音声単位抽出部にて抽出した前記音声素片波形データ群を、前記文章順に、当該音声素片波形データ群の示す音声波形が連続となるよう順次波形接続することで合成音声データを生成する波形接続部と、
当該合成音声データをアナログ音声に変換出力する音声変換処理部と、
当該音声変換処理部に前置した、前記データ入力部により前記任意の文章とともに取得した速度のパラメータを前記波形接続部より生成された前記音声合成データに反映させ、当該合成音声データの読み上げ速度を調整する話速変換部と、を具備し、
前記音声データベースは、前記音声合成装置に着脱可能なメモリカード上に構築され、当該音声合成装置に当該メモリカードが装着されたときに、前記音声単位抽出部から読み取り可能とし、
前記データ入力部は、当該音声合成装置が組込み搭載された他の機器と接続されて、当該機器からテキストデータであるシリアルデータを受信するとともに、
前記波形接続部及び前記音声変換処理部は、抽出選択されて組込みマイコンに搭載され、当該組込みマイコンが、前記データ入力部、前記テキスト解析部、前記韻律予測部、前記音声単位抽出部及び前記話速変換部を備えた他の機器にネットワーク接続または組込み搭載されるよう、構成される、
ことを特徴とする音声合成装置。
前記所定の音声単位は、
音素、単語、フレーズ、シラブルのうち１以上である、
ことを特徴とする請求項１に記載の音声合成装置。