JP4884212B2 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP4884212B2
JP4884212B2 JP2006511572A JP2006511572A JP4884212B2 JP 4884212 B2 JP4884212 B2 JP 4884212B2 JP 2006511572 A JP2006511572 A JP 2006511572A JP 2006511572 A JP2006511572 A JP 2006511572A JP 4884212 B2 JP4884212 B2 JP 4884212B2
Authority
JP
Japan
Prior art keywords
speech
unit
data
voice
synthesizer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006511572A
Other languages
English (en)
Other versions
JPWO2005093713A1 (ja
Inventor
大介 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Inc
Original Assignee
AI Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Inc filed Critical AI Inc
Priority to JP2006511572A priority Critical patent/JP4884212B2/ja
Publication of JPWO2005093713A1 publication Critical patent/JPWO2005093713A1/ja
Application granted granted Critical
Publication of JP4884212B2 publication Critical patent/JP4884212B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Description

本発明は、音声合成装置に関し、詳しくは、事前に収録された所定文章の音声データを所定の音声単位で複数蓄積した音声データベースを搭載し、任意のテキストデータに対して前記音声データベースに基づきコーパスベース音声合成を行うための、他の機器に組込み搭載される組込みマイコンからなる音声合成装置に係わる。
従来、音声合成技術として、駅の案内放送等に利用されるような、予め、使用される所定の単語やフレーズを音源として収録しておき、これらを組み合わせることで、機械による文章の音声出力を行う録音編集方式と、電話の自動案内等に利用されるような、事前に一文字ずつ音声波形に近い音データを蓄積し、これらの音データを信号処理により単音接続し、肉声の音声波形に近い音として出力する規則合成方式があった。
ここで、録音編集方式では、事前に収録された決められたフレーズによる録音データの組み合わせのみが可能であることから、合成可能な文章数が限定されてしまい、また、新たな文章を追加して合成させたいときには、この追加文章に使用される単語やフレーズの音源の再録音が必要となるために、再録音のための費用がかかるという問題があり、随時様々な文章を読上げさせるには、読上げ対応能力の低いものとなっていた。
一方、規則合成方式では、文脈や単語の差異を無視して、信号処理による音データを一文字ずつ対応させた繋ぎ合わせによって、それぞれ単音を順次連続されることで、肉声の音声波形に近い音を合成するようにしているために、出力される音は、機械的な音となってしまい、音質の低下は避けられず、その機械的な音は、自然な発声とは程遠いために聞いていて違和感の残るものとなっていた。
そこで、近年、人の肉声を文章として数多く収録したものが事前にデータベース化されて、これら膨大な音声データのデータベース(コーパス)を音源として音声を合成する、例えば、以下に示す特許文献1及び2に開示されたコーパスベース音声合成技術が知られている。
特許第2894447号公報 特許第2975586号公報
これら特許文献1及び2に開示されたコーパスベース音声合成技術では、データベース中に収録された多くの文章から必要な音素を抽出し、それら音素の組み合わせにより数多くの文章の合成が可能であることから、出力可能な合成文章数は膨大なものとなり、また、人間の肉声を音源に採用しているため、機械音による合成音声と比べて、より人間の肉声に近い自然な音声を出力することができる。
さらに、これら特許文献1あるいは特許文献2に開示されたコーパスベース音声合成技術によれば、新たに文章を追加して合成させる場合においても、既に収録されている音源中の音素を利用して合成が可能なために、データベースの追加録音も不要であり、したがって、追加コストはかからないことから、現在、コールセンター等への導入が進められている。
しかしながら、従来のコーパスベース音声合成技術では、任意の文章の合成に対応させるために、多数の音素を含む文章を収録するそのデータベースは膨大なものとなってしまい、装置の大型化が避けられず、例えば、コールセンター等に導入される場合には、業務内容対応用や、カタログ請求対応用、担当部署対応用等の、応対内容ごとのそれぞれ専用のデータベースを構築する必要があった。
また、装置が大型なものとなるために、小型製品の、例えば、聴覚障害者用の福祉関連機器や、玩具、家電等に内蔵することは困難なものであり、その用途は、例えば、コールセンター等に限定されてしまい、その導入は大規模な設備を備えた企業等のみに限定されたものとなっていた。
ここにおいて、本発明の解決すべき主要な目的は、次のとおりである。
即ち、本発明の第1の目的は、コーパスベース音声合成を行う装置を小型化して、他の機器に組込み搭載可能な音声合成装置を提供せんとするものである。
本発明の第2の目的は、コーパスベース音声合成に採用される音声データベースを、用途ごとに選択収録された音声データを収録してそれぞれ着脱可能な音声合成装置を提供せんとするものである。
本発明の他の目的は、明細書、図面、特に、特許請求の範囲の各請求項の記載から、自ずと明らかになろう。
本発明装置においては、他の機器に組込み搭載される組込みマイコンからなる音声合成装置であって、テキストデータ中の任意の文章を解析し、当該文章に対応する表音記号データを生成するテキスト解析部と、アクセントと抑揚について事前に設定された韻律知識ベースに従い、当該テキスト解析部で解析した文章の表音記号データのそれぞれに対応するアクセントと抑揚を示す韻律パラメータを生成する韻律予測部と、当該音声合成装置の用途に応じた所要の音声単位のみを有するよう事前に選択収録された所定の音声データのみを複数蓄積する音声データベースに基づき、当該韻律予測部にて生成した韻律パラメータのそれぞれに最も近い所定の音声単位部分を有した音声データのそれぞれから、該当する当該所定の音声単位部分の音声素片波形データの全てを抽出する音声単位抽出部と、当該音声単位抽出部にて抽出した音声素片波形データ群を、文章順に、当該音声素片波形データ群の示す音声波形が連続となるよう順次波形接続することで合成音声データを生成する波形接続部と、を具備させる、という特徴的構成手段を講じる。
さらに、具体的詳細に述べると、当該課題の解決では、本発明が次に列挙する上位概念から下位概念に亙る新規な特徴的構成手段を採用することにより、前記目的を達成するよう為される。
即ち、本発明装置の第1の特徴は、所定文章を人間の肉声にて録音し音声文章化したものを収録し当該音声文章をデジタルデータとして変換したものである音声データの中から利用者の利用用途に応じた所定の音声単位毎に音声素片波形データとして抽出可能に複数を選択蓄積した音声データベースを搭載することにより、任意のテキストデータに対して前記音声データベースを利用してコーパスベース音声合成を行うための音声合成装置であって、シリアルデータからテキストデータを取得するデータ入力部と、当該テキストデータ中の前記任意の文章に対応する音を母音と子音で示す表音記号を表音記号データとして生成処理するテキスト解析部と、事前に設定された文脈に基づく語句の韻律の規則性をアルゴリズム化した韻律知識ベースに従って、解析された当該テキストデータ中の任意の文章の文脈から前記表音記号データのそれぞれに対応する前記韻律を決定し、当該韻律を示す韻律パラメータを生成する韻律予測部と、当該音声合成装置の用途に応じた所要の前記音声単位のみを有するよう事前に選択収録された所定の前記音声データのみを複数蓄積する前記音声データベースに基づき、当該韻律予測部にて生成した前記韻律パラメータのそれぞれに最も近い前記所定の音声単位部分を有した前記音声データのそれぞれから、該当する当該所定の音声単位部分の前記音声素片波形データの全てを抽出する音声単位抽出部と、当該音声単位抽出部にて抽出した前記音声素片波形データ群を、前記文章順に、当該音声素片波形データ群の示す音声波形が連続となるよう順次波形接続することで合成音声データを生成する波形接続部と、当該合成音声データをアナログ音声に変換出力する音声変換処理部と、当該音声変換処理部に前置した、前記データ入力部により前記任意の文章とともに取得した速度のパラメータを前記波形接続部より生成された前記音声合成データに反映させ、当該合成音声データの読み上げ速度を調整する話速変換部と、を具備し、前記音声データベース、前記音声合成装置に着脱可能なメモリカード上に構築され、当該音声合成装置に当該メモリカードが装着されたときに、前記音声単位抽出部から読み取り可能と、前記データ入力部は、当該音声合成装置が組込み搭載された他の機器と接続されて、当該機器からテキストデータであるシリアルデータを受信するとともに前記波形接続部及び前記音声変換処理部は、抽出選択されて組込みマイコンに搭載され、当該組込みマイコンが、前記データ入力部、前記テキスト解析部、前記韻律予測部、前記音声単位抽出部及び前記話速変換部を備えた他の機器にネットワーク接続または組込み搭載されるよう構成される、音声合成装置の構成採用にある。
本発明装置の第2の特徴は、上記本発明装置の第1の特徴における前記所定の音声単位が、音素、単語、フレーズ、シラブルのうち1以上である、音声合成装置の構成採用にある。
本発明によれば、従来、大型化が避けられなかったコーパスベース音声技術を採用した音声合成装置を組込みマイコンにて構成し、従来と比較して大幅に小型化することが可能となり、他の機器に組込み可能となることから、例えば、福祉関連機器に組み込まれることで音声伝達を可能とするコミュニケーションツールとして活用することができ、キャラクターの声を出力可能な人形等の玩具や、音声による情報伝達が可能な家電等、さまざまな製品に活用することが可能となる。特に、サーバ、パソコンなどを使わずに音声合成が可能となる。
また、音声データベースを着脱可能なメモリカード上に構築し用途に応じて交換可能にしたことで、音声合成装置の小型化が可能となると共に、用途に合った音声データを収録することで、音声合成の読み正解率やアクセント正解率の向上させてより自然な音声を出力させることが可能になり、また、出力する声質をユーザの好みのものに切り替えることが可能となる。
さらに、ネットワークを利用して音声合成を行う場合、従来音声の送信には中高速回線を利用していたが、本発明では、テキストデータを受信側装置で受信して音声に変換すればよいため、低速回線を利用した音声放送が可能となり、また、プッシュ型のサービスに適用された場合、テキストデータのみを配信することで受信側装置にて音声として出力させることができ、省力化や、防災無線等の緊急を要する場合にも迅速なサービスの提供が可能となる。
本発明の一形態例に係る音声合成装置の機能構成図である。 同上した音声合成装置に話速変換部を機能追加した音声合成装置の機能構成図である。 同上した音声合成装置のハードウェア構成例を示す模式図である。 同上した音声合成装置のデータ構成を説明するための図であり、同図(a)はテキストデータを、同図(b)は表音記号データを、同図(c)は韻律知識ベースを、同図(d)は韻律パラメータを、同図(e)は音声データベースを説明するための図である。 本発明の機能構成例2に係る音声合成装置の機能構成図である。 本発明の機能構成例3に係る音声合成装置の機能構成図である。 本発明の形態例に係る音声合成装置をパーソナルコンピュータに搭載させたハードウェア構成例を示す模式図である。
α、α1…音声合成装置
α2、α3…組込みマイコン
β、β2、β3…パーソナルコンピュータ
γ…音声合成システム
1…音声データベース
2…テキスト解析部
3…韻律予測部
3A…韻律知識ベース
4…音声単位抽出部
5…波形接続部
6…データ入力部
7…音声変換処理部
8…話速変換部
11…CPU
12…ROM
13…RAM
14…メモリカード
15…シリアルインタフェース
16…D/Aコンバータ
21…入力手段
22…スピーカ
以下、本発明の実施の形態につき、添付図面を参照しつつ、音声合成装置の形態例を説明する。
(形態例)
まず、図1は、本発明の一形態例に係る音声合成装置の機能構成図である。
同図に示すように、本形態例にかかる音声合成装置αは、事前に収録された所定文章の音声データを、例えば、音素や単語、フレーズ、シラブル等の所定の音声単位毎に音声素片波形データとして抽出可能に複数蓄積した音声データベース1を搭載し、任意のテキストデータに対して音声データベース1に基づきコーパスベース音声合成を行うための装置であり、少なくともテキスト解析部2と、韻律予測部3と、音声単位抽出部4と、波形接続部5からなり、必要に応じ他の機器に組込み搭載される組込みマイコンとして構成する。
なお、上記機能部全てをマイコンが具備するよう限定される必要はなく、使用用途及びその規模に応じて複数の所定機能部をマイコンに具備させ、その他の各機能部をパーソナルコンピュータに実行させるなどして構成することもできる。
ここで、音声データベース1は、コーパスベース音声合成を行うためのコーパスであって、音声合成装置αの用途に応じた所定の音声単位のみを有するように事前に選択収録された所定の音声データのみを複数蓄積し、音声合成装置αの用途に応じて細分化されて構築される。
一方、テキスト解析部2は、入力されたテキストデータ中の任意の文章を解析し、この文章に対応する表音記号データを生成可能に構成されて、韻律予測部3は内部に、表音記号データのアクセントと抑揚についての認識規則について事前に設定された韻律知識ベース3Aを搭載し、この韻律知識ベース3Aに従い、テキスト解析部2が生成した表音記号データのそれぞれに対応するアクセントと抑揚を示す韻律パラメータを生成するよう構成される。
他方、音声単位抽出部4は、韻律予測部3にて生成された韻律パラメータのそれぞれに最も近いアクセントと抑揚を備えた音素を含む音声データを、例えば、人間の聴覚特性に近づけた評価関数等を用いて、音声データベース1から抽出し、ここで抽出した音声データのそれぞれから、この韻律パラメータに該当する音素等の所定の音声単位の音声素片波形データのみを抽出するよう構成される。
さらに、波形接続部5は、音声単位抽出部4にて抽出した複数の音声素片波形データ群を、文章順に、この音声素片波形データ群の音声波形が滑らかで自然な音声となるよう、連続させて順次波形接続を行うことで、自然な韻律の合成音声データを生成するよう構成される。
なお、音声合成装置αの組込みマイコン上に、さらに、音声合成装置αが組込み搭載される他の機器と接続されて、この機器中の、例えば、キーボードやマウス等の入力手段や、ネットワークを介して送受信されたデータを記録する記録媒体等からシリアルデータを受信し、このシリアルデータからテキストデータを取得してテキスト解析部2に入力可能に構成されたデータ入力部6を具備するようにしても構わない。
このデータ入力部6を具備することにより、音声合成装置αは、事前に設定されたテキストデータの音声合成のみならず、例えば、音声合成装置αのユーザにより入力された任意の文章の音声合成が可能となり、ユーザからの任意のテキストデータの入力に対応可能となるとともに、所望の文章を随時受付けて即座に合成音声として出力する等のリアルタイム性を確保することが可能となる。
また、音声合成装置αの組込みマイコン上に、波形接続部5にて生成した合成音声データをアナログ変換し、このアナログ変換した合成音声データを別途接続されたスピーカ等にアナログ出力することで、合成音声データを音声出力する音声変換処理部7を具備するようにしても構わない。
なお、音声合成装置αが組み込まれる他の機器に、データ入力部6と音声変換処理部7とに代わる同様の機能を備えたインタフェースやコンバータ等が搭載された場合、音声合成装置αは、音声合成装置α内にデータ入力部6と音声変換処理部7とを搭載させずに、テキストデータを取得可能とするとともに、合成音声データを音声出力することが可能となるようにしても構わない。
さらに、図2は図1の音声合成装置αに合成音声の読み上げ速度の調節機能を加えた構成図である。
同図に示すように、音声合成装置α1が組込み搭載される他の機器からテキストデータとともに入力された速度パラメータを、波形接続部5により生成された合成音声データに反映させ、合成音声の読み上げ速度を調節する話速変換部8を音声合成装置α1のマイコン上に具備してもよい。
次に、図3は、本形態例に示した音声合成装置αのハードウェア構成例を示す模式図である。
同図に示すように、音声合成装置αは、音声合成装置αにおける各機能部をそれぞれ一連に制御するCPU(Central Processing Unit)11と、CPU11からアクセス可能なROM(Read Only Memory)12と、RAM(Randam Access Memory)13とを搭載して構成されて、例えば、ROM12にリアルタイムOS(Operating
System)と、テキスト解析部2、韻律予測部3、音声単位抽出部4、波形接続部5の各機能を音声合成装置αのCPU11に実行させるための処理プログラム等が記録されるとよい。
さらに、音声合成装置αは、例えば、フラッシュメモリ等で構成されて音声合成装置αに着脱可能なメモリカード14を着脱可能に構成されて、このメモリカード14に音声データベース1を構築することにより、音声合成装置αが組み込まれる機器の用途や、音声合成装置αを利用するユーザの好みにより、所要のメモリカード14への差換えが可能になり、装着されたメモリカード14内の音声データベース1に基づき音声単位抽出部4が機能するように構成されるとよい。
また、データ入力部6として機能するシリアルインタフェース15や、音声変換処理部7として機能するD/Aコンバータ16(D/A:Digital to Analog)を搭載するようにしても構わない。
続いて、図4は、本形態例に示した音声合成装置αのデータ構成を説明するための図であり、同図(a)はテキストデータを、同図(b)は表音記号データを、同図(c)は韻律知識ベースを、同図(d)は韻律パラメータを、同図(e)は音声データベースを説明するための図であり、アクセントや抑揚については説明のために模式的に示している。
同図(a)に示すように、テキスト解析部2に入力されるテキストデータは、例えば、データ入力部6にて取得したシリアルデータ中の「橋を渡る」のような任意の文章であり、ここで、このテキストデータは、かな・漢字等の混合であっても構わず、音声にすることが可能なものであれば、そのテキストデータに使用される文字は限定されるものではない。
なお、テキストデータは、テキスト形式のデータファイルに限らず、HTML(Hyper Text Markup Language)形式のデータファイルからHTMLタグを取り除いて抽出されたものでも構わず、インターネット上のホームページや、電子メール、あるいは、キーボードやマウス等の入力手段によってユーザから直接入力されて生成されたテキストデータであっても構わない。
一方、同図(b)に示すように、テキスト解析部2で生成する表音記号データは、例えば、テキストデータの音を母音と子音で示すような表音記号を採用して、同図(a)にて示したテキストデータに基づき生成される表音記号データは、例えば、「ha shi wo wa ta ru」となる。
また、韻律知識ベース3Aは、表音記号データのアクセントや抑揚等を決定するために韻律予測部3にて利用される予め設定された規則であって、例えば、同図(b)に示した表音記号データの「ha shi」について、日本語の「橋」、「端」、「箸」、…のいずれに対応するものであるかを文脈から決定し、これら表音記号データのアクセントや抑揚について決定可能なアルゴリズムを備える。
そこで、韻律予測部3は、例えば、韻律知識ベース3Aに基づき「橋」に対応する表音記号データ中の「ha shi」について所定の音声単位毎の、ここでは、「ha」と「shi」に対してそれぞれ韻律パラメータを生成可能に構成されて、韻律知識ベース3Aに従い、表音記号データの全てについて、アクセントや抑揚、さらには、音声と音声との間、音声のリズム、スピード等を決定することができる。
なお、ここでは、アクセントと抑揚を説明のために模式的に、表音記号に重ねて下線や上線等で示して説明するものの、音声合成装置α内にてアクセントや抑揚等の音声に必要な情報を識別可能に記録されれば、どのような形態であっても構わない。
他方、同図(d)に示すように、韻律予測部3にて同図(c)で説明した韻律知識ベース3Aに従い生成される韻律パラメータは、各表音記号に対応させてテキストデータの文脈に合った、例えば、アクセント、抑揚及び音声間の間についてそれぞれパラメータとして示すものであり、図に示した「wo」と「wa」のアクセントを示す下線間の切れ目は、その表音記号間に所定間隔の間を示すものである。
続いて、同図(e)に示すように、音声単位抽出部4からアクセスされる音声データベース1は、予め複数の所定文章の肉声がそのアクセントと抑揚等の韻律知識ベース3Aに対応させた音声データとともに、例えば、音素等の所定の音声単位毎に音声素片波形データとして抽出可能に蓄積されて、ここでは、「春が来た」,「使用する」,「映画を見る」,「私は」,…等の音声データが蓄積されていることを示している。
したがって、音声単位抽出部4は、韻律予測部3から同図(d)に示すような韻律パラメータを受信したときには、この韻律パラメータが示すそれぞれ固有のアクセントと抑揚を有した「ha」,「shi」,「wo」,「wa」,「ta」,「ru」のそれぞれと、表音記号が対応するとともに最も近いアクセントと抑揚を有した音声データを音声データベース1から検索する。
引続き、音声単位抽出部4は、ここで抽出した「春が来た」,「使用する」,「映画を見る」,「私は」,…等の音声データから、韻律パラメータに合致する「ha」,「shi」,「wo」,「wa」,「ta」,「ru」の音声素片波形データのみを切り取り、抽出するようにすることで、波形接続部5にてこの音声素片波形データを滑らかに接続して、合成音声データを生成することが可能となる。
なお、ここでは、所定の音声単位の一例として音素を採用した場合について説明したが、入力されたテキストデータ中に事前に音声データベース1中に蓄積された単語やフレーズを含む場合には、所定の音声単位をこの単語やフレーズとすることで、音声単位抽出部4において、音声データベース1中に蓄積された単語やフレーズ等を分割せずにそのまま抽出することが可能であり、この単語あるいはフレーズをそのまま、あるいは、組み合わせて出力することで、より自然な音声を合成することが可能となる。
続いて、実施例として図1、2の機能構成図及び図5、6に示す本発明における合成音声装置αの実施構成図を用いて機能構成例を説明する。
(構成例1)
まず、構成例1としては上記形態例にて説明した、図1の機能構成図に示す各機能部1〜7全てをマイコンに組込んだ音声合成装置αを機能構成例1とする。
この場合、全機能部1〜7は一個のケース内に一体装備され、他の設備、機器等に機能を分散しなくても単体のみで音声の合成が実行可能な音声合成装置αであり、シリアルデータ入力からアナログ出力までの一連の機能部1〜7を一個体のケースで実行させることを可能とする。
また、上記全機能部がケース単体で実行可能であればその機能構成は限定されず、例えば、同一ケース内に音声変換出力部7、データ入力部6として図示しないスピーカやデータ入力装置等を組込み搭載してもよい。
(構成例2)
さらに、構成例1の音声合成装置αに合成音声の読み上げ速度調節機能である話速変換部8を付加し、構成例1と同様に図2に記載される全機能部1〜8を一個のケースに一体装備した音声合成装置α2を機能構成例2とする。
ここで話速変換部8は、合成音声データに速度パラメータを反映させることにより合成音声の速度調節を行う。この場合、データ入力部にはシリアルデータとして、テキストデータとともに速度パラメータを入力する。
速度パラメータはデータ入力部6から波形接続部5までの機能部を各変換データ及びパラメータに付加された状態で受け渡され、話速変換部8ではじめて認識される。話速変換部8は、波形接続部5から速度パラメータとともに受け取った合成音声データに対し速度パラメータの値をあてはめ、合成音声の読み上げ速度の変更を行う。
構成例2は話速変換を行うことにより、利用状況に応じて速度の変更を行い利用者に対し正確に合成音声を伝達することを目的としており、例えば、読み上げ速度を通常よりも遅く設定することにより、聞き取り易くして緊急時など冷静な判断能力が欠如しがちな状態において効果的である。
(構成例3)
次に図5は、図1に示す音声合成装置αにおける波形接続部5、音声変換処理部7を抽出選択し組込みマイコンα2に搭載し、他の各機能部を別途設置したパーソナルコンピュータに組み込むことにより一連の音声合成処理を実行する音声合成システムγの構成例を示す機能構成図である。
同図に示すように、本構成例3にかかる音声合成システムγは、組込みマイコンα2として火災、地震などの災害時等に入力されたテキストデータを合成音声に変換し緊急警報として使用する場合に用いられる出力端末を目的とする音声合成システムの一例である。
図5に示すように、音声合成システムγは、波形接続部5、音声変換処理部7を具備する組込みマイコンα2と、図1に図示する上記以外の各機能部である音声データベース1とデータ入力部6から音声単位抽出部4までの各機能部を具備したパーソナルコンピュータ等のマシンとをネットワーク接続して使用する。
組込みマイコンα2は単体としてネットワークに接続するか、又は、他の機器に組込みマイコンα2を組込み搭載して利用するとよい。
上記ネットワークの接続方法は、一般的に家庭内や小規模な設備などでも容易に接続可能なインターネット回線や電話回線などが候補として挙げられるが、他に無線、専用回線など、別途設置してある設備とのデータの通信が可能なものであれば、その接続手段は限定されない。
図1に示す音声合成装置αに記載される各機能部の中で、負荷が高くデータ処理時間を要するデータ入力部6から音声単位抽出部4までの機能を、別途設置する高速処理可能な大容量のパーソナルコンピュータβ2のマシンに実行させ、ネットワークを介して組込みマイコンα2がパーソナルコンピュータβ2から受信した音声素片波形データを合成音声データへの変換処理のみを実行することにより、緊急を要する状態においても高速な音声合成処理が可能となるという優れた効果を奏する。
本構成例2は緊急警報用ばかりでなく案内、連絡用として利用してもよく、また構成例2で示す話速変換部8を本構成例に具備させることにより、状況に応じて読み上げ速度の変更を行うことも可能である。
(構成例4)
次に、図6は、図5と同様に図1に示す音声合成装置αの機能部1と3〜5、7を一部抽出選択した組込みマイコンα3の機能構成図である。
同図に示すように、本構成例4にかかる組込みマイコンα3は、データ入力部6及びテキスト解析部2を組み込んだ任意のパーソナルコンピュータβ3にから表音記号データを取得可能な構成にし、音声データベース1と、合成音声として出力する韻律予測部3から音声変換処理部7までの一連の機能部とを組み込んだマイコンである。なお、パーソナルコンピュータβ3は初期設定後は切り離される。
組込みマイコンα3は、玩具のような小型の装置等その他の機器に搭載されることを目的とし、搭載する装置の例としては、玩具、携帯電話、補聴器等の福祉関連機器その他が挙げられる。
これらの装置は、利用者に対し合成音声の提供を実現するものであるが、入力されるシリアルデータの内容はある程度定まっているため、予めテキスト解析を行うことにより処理効率の向上を図ることができる。
また、これらは上述したような小型装置のみに限定されず、例えば自動販売機や、カーナビゲーションシステム、無人受付設備など、出力される合成音声の内容が限定されている装置に利用すれば、新たに大きな設備を設置することなく、組込みマイコンα3を追加搭載させるだけで合成音声機能をこれらの装置に組み込むことが可能となる。
続いて、図7は、本形態例に示した音声合成装置αを、他の機器としてのパーソナルコンピュータβに搭載させたハードウェア構成例を示す模式図である。
同図に示すように、音声合成装置αは、別途配置された任意のパーソナルコンピュータβに搭載されて接続された場合、例えば、パーソナルコンピュータβに搭載された入力手段21からデータ入力部6にてシリアルデータを受信可能に構成される一方、音声合成装置αにてシリアルデータに基づき生成した合成音声データを、音声変換処理部7から別途パーソナルコンピュータβに内蔵された音声出力可能なスピーカ22にアナログ出力することで、このスピーカ22にて音声出力させることが可能となる。
このとき、音声合成装置αは、この音声合成装置α内に、事前に音声データベース1を記録するメモリカード14が装着されるとよく、メモリカード14は、音声合成装置αに事前に固定的かつ専用に搭載されたものであっても、パーソナルコンピュータβを利用するユーザにより任意に他のメモリカード14と差換え可能とするようにしても構わない。
以上、本発明の実施の形態につき、その音声合成装置αの一形態例及び機能構成例を挙げて説明したが、本発明は、必ずしも上述した手段にのみ限定されるものではなく、前述した効果を有する範囲内において、適宜、変更実施することが可能なものである。
また、音声合成装置αを、別途構成された他の音声認識装置と接続することにより、自然な発声の対話を可能とする対話型の音声合成装置を構築することも可能である。

Claims (2)

  1. 所定文章を人間の肉声にて録音し音声文章化したものを収録し当該音声文章をデジタルデータとして変換したものである音声データの中から利用者の利用用途に応じた所定の音声単位毎に音声素片波形データとして抽出可能に複数を選択蓄積した音声データベースを搭載することにより、任意のテキストデータに対して前記音声データベースを利用してコーパスベース音声合成を行うための音声合成装置であって、
    シリアルデータからテキストデータを取得するデータ入力部と、
    当該テキストデータ中の前記任意の文章に対応する音を母音と子音で示す表音記号を表音記号データとして生成処理するテキスト解析部と、
    事前に設定された文脈に基づく語句の韻律の規則性をアルゴリズム化した韻律知識ベースに従って、解析された当該テキストデータ中の任意の文章の文脈から前記表音記号データのそれぞれに対応する前記韻律を決定し、当該韻律を示す韻律パラメータを生成する韻律予測部と、
    当該音声合成装置の用途に応じた所要の前記音声単位のみを有するよう事前に選択収録された所定の前記音声データのみを複数蓄積する前記音声データベースに基づき、当該韻律予測部にて生成した前記韻律パラメータのそれぞれに最も近い前記所定の音声単位部分を有した前記音声データのそれぞれから、該当する当該所定の音声単位部分の前記音声素片波形データの全てを抽出する音声単位抽出部と、
    当該音声単位抽出部にて抽出した前記音声素片波形データ群を、前記文章順に、当該音声素片波形データ群の示す音声波形が連続となるよう順次波形接続することで合成音声データを生成する波形接続部と、
    当該合成音声データをアナログ音声に変換出力する音声変換処理部と、
    当該音声変換処理部に前置した、前記データ入力部により前記任意の文章とともに取得した速度のパラメータを前記波形接続部より生成された前記音声合成データに反映させ、当該合成音声データの読み上げ速度を調整する話速変換部と、を具備し、
    前記音声データベース、前記音声合成装置に着脱可能なメモリカード上に構築され、当該音声合成装置に当該メモリカードが装着されたときに、前記音声単位抽出部から読み取り可能と
    前記データ入力部は、当該音声合成装置が組込み搭載された他の機器と接続されて、当該機器からテキストデータであるシリアルデータを受信するとともに
    前記波形接続部及び前記音声変換処理部は、抽出選択されて組込みマイコンに搭載され、当該組込みマイコンが、前記データ入力部、前記テキスト解析部、前記韻律予測部、前記音声単位抽出部及び前記話速変換部を備えた他の機器にネットワーク接続または組込み搭載されるよう、構成される、
    ことを特徴とする音声合成装置。
  2. 前記所定の音声単位は、
    音素、単語、フレーズ、シラブルのうち1以上である、
    ことを特徴とする請求項1に記載の音声合成装置。
JP2006511572A 2004-03-29 2005-03-29 音声合成装置 Expired - Fee Related JP4884212B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006511572A JP4884212B2 (ja) 2004-03-29 2005-03-29 音声合成装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004094071 2004-03-29
JP2004094071 2004-03-29
PCT/JP2005/005815 WO2005093713A1 (ja) 2004-03-29 2005-03-29 音声合成装置
JP2006511572A JP4884212B2 (ja) 2004-03-29 2005-03-29 音声合成装置

Publications (2)

Publication Number Publication Date
JPWO2005093713A1 JPWO2005093713A1 (ja) 2008-07-31
JP4884212B2 true JP4884212B2 (ja) 2012-02-29

Family

ID=35056415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006511572A Expired - Fee Related JP4884212B2 (ja) 2004-03-29 2005-03-29 音声合成装置

Country Status (3)

Country Link
US (1) US20070203703A1 (ja)
JP (1) JP4884212B2 (ja)
WO (1) WO2005093713A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203705A1 (en) * 2005-12-30 2007-08-30 Inci Ozkaragoz Database storing syllables and sound units for use in text to speech synthesis system
JP2007240988A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、データベース、音声合成方法及びプログラム
JP2007240987A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2007240989A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2007240990A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
US8510113B1 (en) * 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8175879B2 (en) * 2007-08-08 2012-05-08 Lessac Technologies, Inc. System-effected text annotation for expressive prosody in speech synthesis and recognition
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
TWI413105B (zh) 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法
US10469623B2 (en) * 2012-01-26 2019-11-05 ZOOM International a.s. Phrase labeling within spoken audio recordings
JP6214435B2 (ja) * 2014-03-12 2017-10-18 東京テレメッセージ株式会社 地域に設置された複数の屋外拡声器により音声メッセージを同報するシステムにおける聴き取りやすさの改善
US10192541B2 (en) * 2014-06-05 2019-01-29 Nuance Communications, Inc. Systems and methods for generating speech of multiple styles from text
JP6695069B2 (ja) * 2016-05-31 2020-05-20 パナソニックIpマネジメント株式会社 電話装置
CN110782871B (zh) 2019-10-30 2020-10-30 百度在线网络技术(北京)有限公司 一种韵律停顿预测方法、装置以及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
JP2000231395A (ja) * 1999-02-08 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及び装置
JP2001296878A (ja) * 2000-04-14 2001-10-26 Fujitsu Ltd 音声合成用辞書作成装置及び方法
JP2002328694A (ja) * 2001-03-02 2002-11-15 Matsushita Electric Ind Co Ltd 携帯端末装置及び読み上げシステム
JP2003036089A (ja) * 2001-07-24 2003-02-07 Matsushita Electric Ind Co Ltd テキスト音声合成方法とテキスト音声合成装置
JP2003114692A (ja) * 2001-10-05 2003-04-18 Toyota Motor Corp 音源データの提供システム、端末、玩具、提供方法、プログラム、および媒体
JP2003186489A (ja) * 2001-12-14 2003-07-04 Omron Corp 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
WO2003065349A2 (en) * 2002-01-29 2003-08-07 Lessac Technology, Inc. Text to speech
JP2003223181A (ja) * 2002-01-29 2003-08-08 Yamaha Corp 文字−音声変換装置およびそれを用いた携帯端末装置
JP2003271200A (ja) * 2002-03-18 2003-09-25 Matsushita Electric Ind Co Ltd 音声合成方法および音声合成装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1138989A (ja) * 1997-07-14 1999-02-12 Toshiba Corp 音声合成装置及び方法
JP3450237B2 (ja) * 1999-10-06 2003-09-22 株式会社アルカディア 音声合成装置および方法
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US20020156630A1 (en) * 2001-03-02 2002-10-24 Kazunori Hayashi Reading system and information terminal

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
JP2000231395A (ja) * 1999-02-08 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及び装置
JP2001296878A (ja) * 2000-04-14 2001-10-26 Fujitsu Ltd 音声合成用辞書作成装置及び方法
JP2002328694A (ja) * 2001-03-02 2002-11-15 Matsushita Electric Ind Co Ltd 携帯端末装置及び読み上げシステム
JP2003036089A (ja) * 2001-07-24 2003-02-07 Matsushita Electric Ind Co Ltd テキスト音声合成方法とテキスト音声合成装置
JP2003114692A (ja) * 2001-10-05 2003-04-18 Toyota Motor Corp 音源データの提供システム、端末、玩具、提供方法、プログラム、および媒体
JP2003186489A (ja) * 2001-12-14 2003-07-04 Omron Corp 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
WO2003065349A2 (en) * 2002-01-29 2003-08-07 Lessac Technology, Inc. Text to speech
JP2003223181A (ja) * 2002-01-29 2003-08-08 Yamaha Corp 文字−音声変換装置およびそれを用いた携帯端末装置
JP2005516262A (ja) * 2002-01-29 2005-06-02 レサック テクノロジー インコーポレイテッド 音声合成
JP2003271200A (ja) * 2002-03-18 2003-09-25 Matsushita Electric Ind Co Ltd 音声合成方法および音声合成装置

Also Published As

Publication number Publication date
WO2005093713A1 (ja) 2005-10-06
JPWO2005093713A1 (ja) 2008-07-31
US20070203703A1 (en) 2007-08-30

Similar Documents

Publication Publication Date Title
JP4884212B2 (ja) 音声合成装置
CN105788589B (zh) 一种音频数据的处理方法及装置
Theune et al. Generating expressive speech for storytelling applications
US5774854A (en) Text to speech system
Kuligowska et al. Speech synthesis systems: disadvantages and limitations
EP2704092A2 (en) System for creating musical content using a client terminal
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
JP5507260B2 (ja) 発話音声プロンプトを作成するシステム及び技法
CN101156196A (zh) 混合语音合成器、方法和使用
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
US20230148275A1 (en) Speech synthesis device and speech synthesis method
Campbell Evaluation of speech synthesis: from reading machines to talking machines
EP1271469A1 (en) Method for generating personality patterns and for synthesizing speech
Ni et al. Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin
Damper Speech technology—implications for biomedical engineering
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
Shiga et al. Multilingual speech synthesis system
Henton Challenges and rewards in using parametric or concatenative speech synthesis
JPH1152987A (ja) 話者適応機能を持つ音声合成装置
JP2003029774A (ja) 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
JPH0950286A (ja) 音声合成装置及びこれに使用する記録媒体
Narendra et al. Development of Bengali screen reader using Festival speech synthesizer
Bharadwaj et al. Analysis of Prosodic features for the degree of emotions of an Assamese Emotional Speech
JP4056647B2 (ja) 波形接続型音声合成装置および方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100405

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101221

AA91 Notification that invitation to amend document was cancelled

Free format text: JAPANESE INTERMEDIATE CODE: A971091

Effective date: 20110118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110128

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110502

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees