JP2004170983A

JP2004170983A - 付加情報提供機能付きのテキスト／音声変換装置及びその方法

Info

Publication number: JP2004170983A
Application number: JP2003387094A
Authority: JP
Inventors: 勝寧 ▲鄭▼; Seung-Nyang Chung; 貞美 ▲曹▼; Jeong-Mi Cho
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-11-15
Filing date: 2003-11-17
Publication date: 2004-06-17
Also published as: US20040107102A1; EP1473707A1; KR100463655B1; DE60305645T2; DE60305645D1; EP1473707B1; KR20040042719A

Abstract

【課題】テキスト/音声変換装置から出力される合成音の中で特定の品詞及び使用者にとって認識し難いと予想される単語を使用者に付加情報として提供すること。
【解決手段】テキスト/音声変換装置から得られる言語分析データ及び音声合成結果分析データを用いて、入力されるテキストから強調単語を選択し、選択された強調単語を、入力されるテキストの文型情報及び所定のレイアウト様式に応じて構造化して提供する。
また、前記選択された強調単語を所定のレイアウト様式に適用して構造化して提供してもよい。
【選択図】図２

Description

本発明は、付加情報提供機能付きのテキスト/音声変換装置及びその方法に関し、より詳しくは、テキストを音声に変換するテキスト/音声変換装置(Text-to-Speech Conversion System:以下、TTSと称する)の言語分析及び音声合成過程で得られた言語分析データ及び音声合成結果分析データを用いて、入力されるテキストの中で特定の品詞や使用者にとって認識し難いと予想される単語を使用者に付加情報として提供する付加情報提供機能付きのテキスト/音声変換装置及びその方法に関する。

一般に、音声合成技術は、テキストが入力されると、入力されたテキストを言語解析し、音声に合成する処理過程を経て、テキストを自然な合成音に変換して出力するもので、ＴＴＳにより行われる。
以下、一般的なＴＴＳの概略構成及びその動作処理過程について、図１を参照しながら韓国語テキストを音声合成するシステムを挙げて説明する。

先ず、前処理部２で辞書型の数字/略語/記号ＤＢ１を用いて、入力されるテキストを分析し、ハングル以外の文字をハングルに変換する前処理過程を行い、形態素解析部４では、辞書型の形態素ＤＢ３を用いて、前処理された文章の形態素を分析し、この文章をそれぞれの形態素に応じて、名詞、形容詞、副詞、及び助詞などの品詞に区分する。

構文解析部５では、入力された文章の構文を分析し、文字/音韻変換部７では、記号や特殊文字に対する発音規則データが格納された辞書型の例外発音ＤＢ６を用いて、分析された構文の文字を音韻に変換する。
音声合成データ生成部８では、文字/音韻変換部７で変換された音韻に対する韻律、合成単位及び文字、単語、文章の区切り情報及び各音声データの持続時間情報を生成し、基本周波数制御部１０では、合成する音声の基本周波数を設定し制御する。
また、合成音生成部１１では、多数の合成音データの格納された合成単位ＤＢ１２から得られる音声合成単位や上述の構成要素から生成される音声合成データ、持続時間情報、及び基本周波数に基づいて音声合成を行う。

このようなＴＴＳは、合成音に基づき、提供されるテキスト情報を使用者が容易に認識できるようにすることを目的としているが、音声は、本質的に時間と共に流れる情報であるので、一度出力された音声は、再び確認しにくいという時間的な制約がある。
また、使用者が合成音として与えられる情報を認識するためには、出力される合成音に対し持続的に注意を集中し、合成音の内容を理解する努力を続けなければならない煩わしさがあった。

一方、データベース化された文字認識及び合成データを用いて、入力されるテキストに近似した自然な合成音を生成する試みが継続されていたが、依然としてテキスト/音声合成が不完全なままで、使用者がＴＴＳから提供される情報を認識できなかったり、まちがえて理解したりするという問題点があった。
従って、ＴＴＳから提供される合成音による円滑なコミュニケーションのためには、補助手段が要求されている実情である。

このような従来の技術の問題点を解決するために、既に提案されている韓国特許公開公報第２００２−００１１６９１号(発明の名称:対話内容のグラフィック表現方法及び装置)においては、対話内容中の目的物をグラフィックデータベースから抽出し、抽出された目的物の動作、位置、状態などを画面に出力することにより、対話の効率性を向上できるシステムが提案されている。

また、特開平７-３３４５０７(発明の名称:テキストからの人体動作音声生成システム)及び特開平１１-２７２３８３(発明の名称:動作同期型音声言語表現生成方法及び装置及び動作同期型音声言語表現生成プログラムを格納した記憶媒体)においては、テキストから動作を示す単語を抽出して、合成音と共に動作映像を出力するか、音声言語から動作を伴う文字列が検出されると、合成音と共に伴われる動作映像を出力する方法を提供している。

さらに、韓国特許公開公報第２００１-０００２７３９号(発明の名称:音声認識機を用いた自動キャプション挿入装置及び方法)は、プログラムのサウンドトラックから再生/出力される台詞音声信号を認識して、キャプションデータを発生し、そのキャプションデータを元の音声出力時点と合致させて出力するシステムを提供している。
韓国特許公開公報第２００２−００１１６９１号特開平７-３３４５０７号公報特開平１１-２７２３８３号公報韓国特許公開公報第２００１-０００２７３９号

しかし、前記した従来に示す技術では、以下に示すような問題点が存在していた。
特許文献１で示すようなシステムは、日常生活で使われている数多い目的物に該当する単語を表現するためには、膨大な容量のグラフィックデータベースが要求され、目的物に該当する単語毎に一々グラフィックデータベースに該当するグラフィック情報を検索しなければならないという不便があった。

また、特許文献２，３で示すような方法においても、各テキスト及び文字列毎に該当する動作を表わす動作映像を格納した膨大な容量のデータベースを備える必要があり、各テキストまたは文字列を検出する毎に、データベースから該当する動作映像を検索しなければならないという不便があった。

さらに、特許文献４に示すようなシステムは、サウンドトラックから再生/出力される台詞音声信号に対するキャップションデータのみをディスプレイするものであり、提供される情報を使用者がより効率良く認識及び理解できる手段は提示されていない。

本発明は、上記問題点に鑑みなされたものであり、ＴＴＳの言語分析及び音声合成過程で得られた言語分析データ及び音声合成結果分析データを用いて、特定の品詞の単語や使用者にとって認識し難いと予想される単語を強調単語として提供することにより、ＴＴＳによる円滑なコミュニケーションを目的とする。
また、本発明は、強調単語を構造的に配置して、合成音と共に提供することにより、構造的に表わされた強調単語から使用者が直観的に情報内容を認識できるようにして、ＴＴＳの情報伝達力を高くし、信頼度を向上することを他の目的とする。

上記の目的を達成するために、本発明に係る付加情報提供機能付きのテキスト/音声変換装置においては、テキストデータを形態素及び構文解析し、それにより得られる音声合成分析データを用いて、テキストデータを音声に合成して出力する音声合成モジュールと、音声合成モジュールから得られる音声合成分析データに基づいて、テキストデータから特定の品詞の単語を強調単語として選択する強調単語選択モジュールと、選択された強調単語を前記合成音と同期させてディスプレイするディスプレイモジュールとを備えることを特徴とする。

本発明による他の実施の形態の付加情報提供機能付きのテキスト/音声変換装置においては、音声合成モジュールから得られる音声合成分析データを用いて、テキストデータの情報類型を決定し、文型情報を生成する情報類型決定モジュールと、選択された強調単語を生成された文型情報に従って再配置し、合成音と同期させてディスプレイするディスプレイモジュールとを備えることを特徴とする。

本発明によるさらに他の実施の形態の付加情報提供機能付きのテキスト/音声変換装置においては、選択された強調単語を所定のレイアウト様式に適用して構造化する構造化モジュールをさらに備えることを特徴とする。

また、前記強調単語は、追加的に音声合成モジュールから得られる音声合成分析データを用いて、テキストデータの単語のうち、所定のしきい値未満のマッチング率を有する合成音の歪みにより使用者にとって認識し難いと予想される単語をさらに含み、選択された強調単語のうち、所定のしきい値未満の強調頻度を有する単語に選別されることを特徴とする。

さらに、上記の目的を達成するために、本発明に係る付加情報提供機能付きのテキスト/音声変換方法においては、テキストデータを形態素及び構文を解析し、これにより得られる音声合成分析データを用いて、テキストデータを音声に合成して出力する音声合成ステップと、音声合成分析データを用いてテキストデータのうち、特定の品詞の単語を強調単語として選択する強調単語選択ステップと、選択された強調単語を合成音と同期させてディスプレイするディスプレイステップとを含むことを特徴とする。

本発明による他の実施の形態の付加情報提供機能付きのテキスト/音声変換方法においては、音声合成ステップで得られた音声合成分析データに基づいて、テキストデータの情報類型を決定し、文型情報を生成する文型情報生成ステップと、選択された強調単語を文型情報に従い、再配置し、合成音と同期させてディスプレイするディスプレイステップとを含むことを特徴とする。

本発明によるさらに他の実施の形態の付加情報提供機能付きのテキスト/音声変換方法においては、選択された強調単語を所定のレイアウト様式に適用して構造化する構造化ステップをさらに含むことを特徴とする。つまり、前記した強調単語選択ステップの後で、ディスプレイステップの直前、あるいは、前記した文型情報生成ステップの後で、ディスプレイステップの直前に構造化ステップを含むこととした。

また、前記強調単語は、追加的に音声合成分析データを用いて、所定のしきい値未満のマッチング率を有する合成音歪みにより使用者にとって認識し難いと予想される単語をさらに含み、選択された強調単語のうち、所定のしきい値未満の強調頻度を有する単語に選別されることを特徴とする。

上述した本発明によると、使用者にとって認識し難い単語を視覚的に確認できるようにして、音声が有する時間的、認知的な制限を低減できるという効果がある。
また、本発明によると、構造的にディスプレイされる付加情報を通して、合成音に提供される情報の内容を使用者がより直観的に理解することが可能となり、これによりＴＴＳの情報伝達力及び信頼性の向上を期待できる。
さらに、このような効果によりテキスト/音声変換装置の作業効率性を極大化することができる。

以下、本発明の好ましい実施の形態を、添付図面に基づいて詳しく説明する。
図２を参照して、本発明に係るテキスト/音声変換装置においては、音声合成モジュール１００と、強調単語選択モジュール３００と、ディスプレイモジュール９００とに大別され、本発明による他の実施の形態を具現するために、情報類型決定モジュール５００と、構造化モジュール７００とをさらに備えている。

図２に示される各モジュールに包含されるヒストリ(History)ＤＢ３１０、ドメイン(Domain)ＤＢ５１０、及びメタ(Meta)ＤＢ７３０は、本発明に係る付加情報生成装置に備えられるデータベース(図示せず)に構築されるものであるが、本発明の詳細な説明のために、それぞれ分離して示している。

音声合成モジュール１００は、テキストデータを形態素及び構文を解析し、これにより得られる言語分析データ及び音声合成結果分析データを用い、入力されたテキストデータを音声に合成して出力するものであり、形態素解析部１１０、構文解析部１３０、音声合成部１５０、合成音発生部１７０、及びスピーカー(ＳＰ)１９０から構成される。

形態素解析部１１０では、入力されたテキストデータの形態素を分析し、各形態素に応じて品詞(例えば、名詞、代名詞、助詞、接続詞、感嘆詞、形容詞、及び副詞など)を付け、構文解析部１３０では、入力されたテキストデータの構文構造を分析する。
また、音声合成部１５０では、形態素解析部１１０及び構文解析部１３０の形態素と構文の解析過程で得られる言語分析データを用いて音声合成を行い、それぞれの音素に該当する合成音データを合成単位ＤＢ１２（図１参照）から選択して組み合わせる。

音声合成部１５０のそれぞれの音素を組み合わせる過程で各音素に対するタイミング情報が生成され、生成されたタイミング情報に基づいて、音声合成モジュール１００では、音声合成時に、その開始点を基準にして幾らかの時間(一般に、１/１０００秒単位)が経過した後に、いかなる音素が発声されるかを予め予測できるように、各音素に対する時間テーブルが提供される。

即ち、音声合成モジュール１００からの合成音出力時に、発声開始時点を知らせると共に、タイミングをカウントして、特定の単語(音素の組合わせ)が発声されるときに提供されるタイミング情報に基づき、特定の単語が発声される瞬間を他のモジュールでも予測できるようにする。
また、合成音発生部１７０では、音声合成部１５０から得られる音声合成結果分析データをスピーカー１９０に出力可能に信号処理し、合成音として出力する。

以下、形態素解析部１１０及び構文解析部１３０での形態素及び構文の解析過程で得られる形態素及び構文の解析データからなる言語分析データと、音声合成部１５０での音声合成過程で得られる合成音とからなる音声合成結果分析データを音声合成分析データとして定義する。

強調単語選択モジュール３００では、音声合成モジュール１００から得られる音声合成分析データに基づき、入力されるテキストデータから強調単語(例えば、キーワード)を選択し、図２に示すように、ヒストリＤＢ３１０、強調単語選択部３３０、及びヒストリマネージャ(History Manager)３５０から構成される。
ヒストリＤＢ３１０は、音声合成モジュール１００から入力されるテキストデータのうち、頻繁に使われるか、または強調される単語の強調頻度情報を格納する。

さらに、入力されるテキストデータに該当する情報類型の分野において、頻繁に使われる単語または頻繁に強調される単語などの強調頻度情報を格納する。
強調単語選択部３３０は、音声合成モジュール１００から得られる音声合成分析データを用いて、特定の品詞に該当するか、または合成音歪みが予期される(即ち、合成音により予測される出力値と実際の出力値との間の差により算出されるマッチング率が低い)単語を強調単語として検出する。また、ヒストリマネージャ３５０を介して選別される強調する必要がない単語を参照しながら強調単語を選択する。

特定の品詞とは、強調単語を選択するために指定される所定の品詞をいうものであり、例えば、固有名詞、外来語、数字が強調単語として選択された品詞であるとすれば、強調単語選択部３３０では、音声合成データを用いて、形態素単位でそれぞれ分割された各単語のうち、指定された品詞に該当する単語をそれぞれ検出する。

また、合成音マッチング率は、下記の式（１）により算出される各音片間のマッチング率の平均から決定されるものであり、マッチング率の平均値が所定のしきい値よりも低いと、合成音の歪みが予想され、平均値が所定のしきい値よりも高いと、合成音の歪みが少ない。

ΣＱ（ｓiｚｅｏｆ（Ｅｎｔｒｙ）・｜予測値−実際値｜・Ｃ）／Ｎ式（１）
(Ｃ＝マッチング値(ｃｏｎｎｅｃｔｉｖｉｔｙ)，Ｎ＝標準値(ｎｏｒｍａｌｉｚａｔｉｏｎ))

上記の式（１）のｓｉｚｅｏｆ(Ｅｎｔｒｙ)は、選択された音片の合成単位ＤＢ内における母集団の大きさを示し、Ｃは、音片間の連結情報を示し、予測値は、音素の長さ、大きさ、及び高さに対する予測値を示し、実際値は、選択された音片の実際値を示す。
ヒストリマネージャ３５０は、ヒストリＤＢ３１０に格納された強調頻度情報に基づいて、強調単語選択部３３０から選択された強調単語のうち、強調頻度がしきい値以上の値を有する単語を強調する必要のない単語として選別する。

前記しきい値は、入力されるテキストの中でよく使われているか、強調されていて、使用者が単語を容易に認識できるほどの数値を示すものであり、例えば、５回などの数値に設定される。
情報類型決定モジュール５００では、音声合成モジュール１００から得られる音声合成分析データを用いて、入力されるテキストデータの情報類型を決定し、文型情報を生成し、図２に示すように、ドメインＤＢ５１０、意味解析部５３０、文型情報生成部５５０から構成される。

本発明にいては、情報類型は、入力されるテキストから提供される情報が示す類型の分野(以下、ドメインと称す)を示し、文型情報は、選択された強調単語を、入力されるテキストの情報類型に最も適切にディスプレイするための実際の情報の一般的な構成を示すものである。
例えば、「The Nasdaq composite index closed down 40.30 to 1,356.95.」のような証券市場に関わるテキストが入力されると、入力されたテキストの情報類型は、証券市況であり、文型情報は、入力されるテキストの情報類型である証券市況における実際の情報に該当する名詞句(INDEX)及び数値(VALUE)の一般的な構成であるINDEX VALUE類型となる。

ドメインＤＢ５１０には、情報類型別に区分された情報抽出のための文法規則、用語及び熟語情報がドメイン情報として格納される。
ここで、文法規則は、入力されるテキストの構文構造から情報に該当する項目を抽出できるように、各ドメインの情報構造を文法(grammar)化したものである。

例えば、前記例文に使用される文法規則は、証券市況の情報類型で使われている一般の文章構造である「INDEX close (or end) VALUE to VALUE」の中で使用者にとって重要な株価数値のみを提供する文法として、次のように定義することができる。
- NP｛INDEX｝VP｛Verb(close)PP｛*｝PP｛to VALUE｝｝→INDEX VALUE
- NP｛INDEX｝VP｛Verb(end)PP｛*｝PP｛to VALUE｝｝→INDEX VALUE

また、用語及び熟語情報は、特定のドメインにおいてよく使われているか、または強調されている単語、及び一つの意味単位(Chunk)に区分可能な熟語(例えば、前記例文中のThe Nasdaq composite index)であり、特定のドメインにおいて略称形としてよく使われている用語(例えば、前記例文中の「The Nasdaq composite index」は、NASDAQに略称されて使われる)などの情報を示すものである。

意味解析部５３０は、音声合成モジュール１００から得られる音声合成分析データの他に、さらにテキストデータに対する意味情報を得るための意味解析が要求される場合、別途に備えられる所定の意味解析手段である。
文型情報生成部５５０は、音声合成モジュール１００から得られる音声合成分析データ及びドメインＤＢ５１０に格納されたドメイン情報に基づき、入力されるテキストデータから実際の情報に該当する代表単語を選択し、情報類型を決定して文型情報を生成する。

構造化モジュール７００では、文型情報生成部５５０から得られる文型情報に従い、選択された強調単語を再配置し、所定のレイアウト様式に適用させ、図２に示されるように、文型情報適用部７１０、メタＤＢ７３０、及び情報構造化部７５０から構成される。
文型情報適用部７１０は、情報類型決定モジュール５００から生成される文型情報が存在するか否かを判別し、文型情報が存在すると、強調単語選択モジュール３００から選択された強調単語を文型情報に適用させた後、情報構造化部７５０に出力し、文型情報が存在しないと、文型情報が適用されていない強調文字のみを情報構造化部７５０に出力する。

メタＤＢ７３０は、情報類型に従い、選択された強調単語を構造的にディスプレイするためのレイアウト(例えば、表)、及び付加的にディスプレイする内容（例えば、「：」コロン、「；」セミコロンなど）をメタ情報として格納する。
また、各メタ情報を合成音と共に、適宜にディスプレイするためのメタ情報のタイミング情報も格納される。

情報構造化部７５０は、入力されるテキストに対する情報類型、強調単語、及び音声合成モジュール１００から得られる各強調単語のタイミング情報を用いて、メタＤＢ７３０から該当する情報類型のメタ情報を検出し、検出されたメタ情報に強調単語及びタイミング情報をタギング(tagging)してディスプレイモジュール９００に出力する。

例えば、前記例文のような証券市況の情報類型において、実際の情報であるINDEX及びVALUEを表形式のレイアウトとしてディスプレイするように設定していると、音声合成モジュール１００から得られるINDEX情報及びVALUE情報に対するタイミング情報(SYNC="12345"、SYNC="12438")をタグ付け（ｔａｇｇｉｎｇ）する。
このような過程により指定されたレイアウト様式にタイミング情報と共に構造化された強調単語は、次の通りである。

<INDEXVALUE ITEM="1">
<INDEX SYNC="12345">INDEX(NASDAQ) </INDEX>
<VALUE SYNC="12438">VALUE(1,356.95)</VALUE>
</INDEXVALUE>

ディスプレイモジュール９００では、構造化された強調単語をタイミング情報に従い、合成音と共に同期化させてディスプレイし、図示したように、同期化部９１０、映像信号処理部９３０、及び表示部９５０から構成される。
同期化部９１０では、メタ情報及び強調単語の各タイミング情報を抽出し、音声合成モジュール１００のスピーカー１９０を介して出力される合成音や強調単語及びメタ情報が適宜にディスプレイされるように同期化させる。

映像信号処理部９３０は、構造化された強調単語を同期化部９１０から得られるタイミング情報に従い、映像信号に処理して表示部９５０に出力する。
表示部９５０は、映像信号処理部９３０から出力されるディスプレイ情報に従い、強調単語を視覚的にディスプレイする。
例えば、前記構造化モジュール７００から出力される構造化された前記例文は、次のように、表示部９５０を介してディスプレイされる。
[NASDAQ ｜ 1,356.95]（例えば、図９（ｃ）参照）

以下、本発明に係る付加情報生成機能付きのテキスト/音声変換方法について、図面を参照しながら詳しく説明する。
図３は、本発明による実施の形態１に従う付加情報提供機能付きのテキスト/音声変換方法の動作過程を示すフローチャートである。

先ず、音声合成モジュール１００では、入力されるテキストを、形態素解析部１１０及び構文解析部１３０を介して形態素及び構文の解析過程を行い、形態素及び構文の解析過程を経て得られる音声合成分析データに基づき、入力されるテキストデータを音声に合成する(Ｓ１０)。

音声合成モジュール１００を介して合成音が生成されると、強調単語選択モジュール３００の強調単語選択部３３０では、音声合成モジュール１００から得られる音声合成分析データに基づき、特定の品詞及び使用者にとって認識し難いと予想される単語を強調単語として選択する(Ｓ３０)。
強調単語選択部３３０を介して強調単語が選択されると、選択された強調単語及び音声合成モジュール１００から得られるタイミング情報を用いて、強調単語を同期化させる(Ｓ５０)。

ディスプレイモジュール９００では、タイミング情報と共に構造化された強調単語からタイミング情報を抽出し、音声合成モジュール１００のスピーカー１９０に出力される合成音と適宜に同期化させて表示部９５０にディスプレイする(Ｓ９０)。
さらに、追加的にメタＤＢ７３０から所定のレイアウト様式に該当するメタ情報を検出し、選択された強調単語を検出されたメタ情報に適用して構造化する(Ｓ７０)。

図４は、強調単語を選択するステップＳ３０をより詳しく示すものであり、図示したように、強調単語選択部３３０では、音声合成モジュール１００から得られる音声合成分析データを検出する(Ｓ３１)。
その後、検出された音声合成分析データに基づき、音声合成モジュール１００の形態素解析部１１０で行われる形態素解析過程によって形態素区切りとなった各単語の品詞が特定の品詞に該当するか否かを判断し、指定された特定の品詞に該当する単語を強調単語として選択する(Ｓ３２)。

さらに、強調単語によっても使用者にとって認識し難いと予想される単語を提供するために、検出された音声合成分析データを用いて、各単語の合成音マッチング率を調べ(Ｓ３３)、その結果、合成音歪みが予想される単語（マッチング率がしきい値未満の単語）を検出して強調単語として選択する(Ｓ３４)。

ここで、合成音マッチング率を調べるときには、式（１）により、検出された音声合成分析データに基づき、各単語の音片別に予測される合成音出力値(予測値)と実際に出力される合成音の出力値(実際値)との差によりマッチング率を算出し、算出されたマッチング率の平均を基準にして平均値がしきい値未満の値を有する単語を調べる。

ここで、しきい値とは、使用者が認識できない合成音のマッチング率の平均値を示すものであり、例えば、５０%などの数値に設定される。
そして、このような過程によって選択された強調単語から使用者が容易に認識できる単語を強調する必要のない単語として選別するために、強調単語選択部３３０では、検出された強調単語のうち、ヒストリマネージャ３５０を介して強調する必要がない単語（強調頻度がしきい値未満の単語）を選別する(Ｓ３５)。

即ち、ヒストリマネージャ３５０では、ヒストリＤＢ３１０に格納された音声合成モジュール１００から得られる強調頻度情報に基づき、強調単語選択部３３０を介して検出された強調すべき単語のうち、強調頻度がしきい値を超過し、使用者にとって認識できない可能性が低い単語を選別する。
ヒストリマネージャ３５０での強調する必要のない単語を選別する過程によって、強調単語選択部３３０では、入力されるテキストから特定の品詞や使用者にとって認識し難いと予想される単語（強調する単語）を強調単語として選択する(Ｓ３６)。

図５は、本発明の他の実施の形態に従う付加情報提供機能付きのテキスト/音声変換方法の音声発生過程を示すものであり、図５に基づき、図３及び図４を参照しながら本発明の他の実施の形態について説明すると、次の通りである。
先ず、音声合成モジュール１００を介して、入力されるテキストを音声に変換し(Ｓ１００、図３のＳ１０を参照)、強調単語選択部３３０では、音声合成モジュール１００から得られる音声合成分析データを用いて、強調単語を選択する(Ｓ２００、図３、図４のステップＳ３０を参照)。

また、情報類型決定モジュール５００の文型情報生成部５５０では、音声合成モジュール１００から得られる音声合成分析データ及びドメインＤＢ５３０から抽出されるドメイン情報を用いて、入力されるテキストの情報類型を決定し、文型情報を生成する(Ｓ３００)。
その後、構造化モジュール７００の文型情報適用部７１０では、選択の強調単語が適用される文型情報が、情報類型決定モジュール５００から生成されたかどうかによって、文型情報に適用可能であるか否かを判別する(Ｓ４００)。

その判別結果に従い、文型情報に適用可能であれば、選択された強調単語を文型情報に適用して再配置する(Ｓ５００)。
このように、文型情報が適用されたか、または適用されていない強調単語を音声合成モジュール１００から得られるタイミング情報を用いて、同期化させる(Ｓ６００、図３のステップＳ５０を参照)。
ディスプレイモジュール９００では、タイミング情報と共に、構造化された強調単語からタイミング情報を抽出し、音声合成モジュール１００のスピーカー１９０に出力される合成音と適宜に同期化させて表示部９５０にディスプレイする(Ｓ８００、図３のステップＳ９０を参照)。

さらに、追加的に構造化モジュール７００の情報構造化部７５０では、メタ情報ＤＢ７３０から該当する情報類型のメタ情報を検出し、文型情報が適用されたか、または適用されていない強調単語を所定のレイアウト様式に構造化させる(Ｓ７００、図３のＳ７０を参照)。

図６は、図５の情報類型を決定し、文型情報を生成するステップＳ３００を詳しく示すものであり、添付図面を参照しながら実施例を詳細に説明する。
先ず、情報類型決定モジュール５００の文型情報生成部５５０では、音声合成モジュール１００から音声合成分析データを抽出し、入力されるテキストの意味構造に対する情報が追加的に要求されると、意味解析部５３０を介してテキストの意味構造を解析し、入力されるテキストの意味構造情報を抽出する(Ｓ３０１)。

その後、抽出された音声合成分析データや意味構造情報及びドメインＤＢ５１０に基づき、入力されるテキストの各単語を実際の意味単位に区切る(Ｓ３０２)。
入力されるテキストを意味単位(Chunk)に区切り、それぞれ区切られた各意味単位を表わす代表意味を決定し、決定された意味情報を各意味単位にタグ付けし（ｔａｇｇｉｎｇ）(Ｓ３０３)、ドメインＤＢ５１０に基づいて各意味単位の代表単語を選択する(Ｓ３０４)。

例えば、例文として証券市況の情報類型に該当する文章において、「/The Nasdaq composite index/close/down/40.30/to/1,356．95/」に各意味単位に区切られた場合、それぞれの意味単位を示すことのできる情報を意味情報として、次のように定義することができる。
- The Nasdaq composite index : INDEX，
- close : close，
- down : down，
- to : to,
- number class(40.30, 1,356.95) : VALUE．

このように定義された意味情報を、意味単位に区切られた入力テキストにタギングすると、次の通りである。
/INDEX/close/down/VALUE/to/VALUE．
また、各意味単位に区切られた入力テキストにおいて、各意味単位の代表単語をドメインＤＢ５１０に格納された用語及び熟語情報に基づいて選択すると、次のように決定される。
/NASDAQ/close/down/40.30/to/1,356.95/

このような過程により、選択される代表単語のうち、実際の情報として使用者に提供される単語が選択される。
前記代表単語の選択後、文型情報生成部５５０では、ドメインＤＢ５１０から入力されるテキストの構文及び意味構造に適用可能な文法規則を検出し、検出された文法規則に従って情報類型及び実際の情報として表現する代表単語を選択する(Ｓ３０５)。

例えば、前記のドメインＤＢ５１０に格納される文法規則に対する説明の中で前記例文に対する情報類型決定過程に基づき、決定された情報類型の文法規則として提供された文法のうち、「NP｛INDEX｝VP｛Verb(close)PP｛*｝PP｛to VALUE｝｝→INDEX VALUE」に入力されるテキストの構文構造が一致することが検出された場合、検出された文法規則に、意味単位に区切られたテキストを適用すると、次の通りである。

INFO[The Nasdaq composite index/INDEX]closed down 40.30 to INFO[1,356.95/VALUE].
このように、文法規則が適用される過程において、入力されるテキストの情報類型が決定され、実際の情報として表現する代表単語[(INDEX,VALUE)]が選択される。
情報類型が決定され、実際の情報として表現される代表単語が選択されると、選択された代表単語を決定された情報類型に最も適宜にディスプレイするための文型情報を生成する(Ｓ３０６)。

例えば、前記例文において生成される文型情報は、「INDEX VALUE」型である。
図７は、図５の文型情報を適用するステップＳ５００を詳しく示すものであり、以下、添付図面を参照しながら実施例について詳細に説明する。
先ず、強調単語選択モジュール３００から選択された強調単語が生成された文型情報に合致するか否かを判断するために、選択された強調単語が、文型情報生成部５５０で生成された文型情報から選択され、実際の情報として表現される代表単語に含まれているか否かを判別する(Ｓ５０１)。

判別の結果、選択された強調単語が代表単語に含まれていないと、文型情報生成過程で決定された情報類型の構文構造に従い、選択された強調単語を再配置し(Ｓ５０２)、代表単語に含まれていると、強調単語を文型情報において対応する代表単語にそれぞれタギングして再配置する(Ｓ５０３)。
以上のような本発明に係る付加情報提供機能付きのテキスト/音声変換装置及び方法を移動通信端末に適用して具現する実施例について、添付図面に基づいて説明する。

（実施例１）
例えば、下記のようなテキストが入力され、強調単語選択モジュール３００を介して強調単語を選択し、選択された強調単語のみをディスプレイする場合について説明する。
「ＧＥ百色家電は、両開きドアの冷蔵庫である「ＧＥプロファイルアティカ」を市販すると９日明らかにした。」

このようなテキストが入力されると、音声合成モジュール１００では、入力されるテキストを音声合成するために、形態素解析部１１０を介し、各形態素に応じて名詞、形容詞、副詞、及び助詞などの品詞に区分するが、区分結果を示すと、次の通りである。

「ＧＥ/外来語+百色/名詞+家電/名詞+は/助詞+両開きドア/名詞+冷蔵庫/名詞+である/述語+ＧＥ/外来語+プロファイル/名詞+アティカ/固有名詞+を/助詞+市販する/述語+と/連結語尾+９/数詞+日/名詞+明らかにし/述語+た/語末語尾」

このように、形態素解析部１１０を介して形態素の解析を行った後、構文解析部１３０では、入力されるテキストデータの構文構造を解析し、これに基づいて、音声合成部１５０では、音声合成を行うことにより、音声合成分析データが生成される。
強調単語選択モジュール３００の強調単語選択部３３０では、音声合成モジュール１００から得られる音声合成分析データを用いて、入力されるテキストデータから形態素に区切られた単語のうち、予め指定された特定の品詞に該当する単語を検出する。

本実施例において、特定の品詞として、固有名詞、外来語、及び数字が指定されると、強調単語選択部３３０では、入力されるテキストから「ＧＥ/アティカ/９日」を指定された特定の品詞に該当する単語として検出する。
追加的に、使用者にとって認識し難いと予想される単語を強調単語として選択しようとする場合は、強調単語選択部３３０では、入力されるテキストデータ単語の合成音マッチング率を式（１）により調べる。

合成音マッチング率を調べた結果、図８に示すように、両開きドアのマッチング率が２０％に算出されると、設定されたしきい値の数値が５０％の場合、算出されたマッチング率がしきい値よりも低いので、両開きドアは、合成音の歪みが予想される単語として検出される。

このような過程により、特定の品詞に該当し、合成音歪みが予想されて強調すべき単語として「ＧＥ/アティカ/９日/両開きドア」が検出される。
追加的に、選択された強調単語のうち、入力されるテキストの中でよく使われているか、または強調されている所定のしきい値以上の強調頻度を有する単語を強調する必要のない単語として選別しようとすれば、強調単語選択部３３０では、ヒストリマネージャ３５０を介して検出された強調単語のうち、強調頻度がしきい値を超過する単語を選別する。

本実施例において、選択された強調単語が共にしきい値未満の強調頻度を有すると、最終的に強調すべき単語として「ＧＥ/アティカ/9日/両開きドア」が選択される。
構造化モジュール７００では、選択された強調単語を音声合成モジュール１００から得られるタイミング情報と共に構造化し、ディスプレイモジュール９００では、構造化された強調単語からタイミング情報を抽出し、音声合成モジュール１００から出力される合成音と共に強調単語を表示部９５０にディスプレイする。
即ち、図９（ａ）に示すように、表示部９５０に強調単語がディスプレイされる。
追加的に、メタＤＢ７３０から所定のレイアウト様式を検出し、検出されたレイアウト様式に適用させて選択された強調単語をディスプレイすることができる。

（実施例２）
例えば、下記のようなテキストが入力され、強調単語選択モジュール３００を介して強調単語を選択し、選択された強調単語を文型情報に適用して再配置した後、ディスプレイする場合を例示して説明する。
以下に、選択された強調単語が情報類型の決定過程において選択された実際の情報の代表単語に該当することを前提し、強調単語を選択する過程を省き、強調単語を文型情報に適用してディスプレイする過程のみを説明する。

「今日は、北東ないし南東風が吹き、雲が多く、午後一時にわか雨のところがあり、朝に霧が立ち込めるところがありそうです。」
先ず、情報類型決定モジュール５００では、音声合成モジュール１００から得られる音声合成分析データとドメインＤＢ５１０から検出されるドメイン情報に基づき、入力されるテキストの単語を実際の意味単位に区切るが、この結果を例示すると、次の通りである。
/今日は/北東ないし南東風が/吹き/雲が/多く/午後一時/にわか雨/が降る/ことろが/あり/朝に/霧が/立ち込める/ことろが/ありそうです。/

入力されるテキストを実際の意味単位に区切り、それぞれ区切られた各意味単位の代表意味を決定し、決定された代表意味を各意味単位にタギングするが、この結果を例示すると、次の通りである。
/DATE/WIND/吹き/CLOUD/多く/DATE/SHOWER/降る/LOC/あり/DATE/FOG/立ち込める/LOC/ありそうです。/

また、各意味単位に区切られた入力テキストから各意味単位の代表単語をドメインＤＢ５１０に格納された用語及び熟語情報に基づいて選択すると、次のように決定される。
/今日/北東ないし南東風/吹く/雲/多い/午後一時/にわか雨/降る/ところ/ある/朝/霧/立ち込める/ところ/ある。/

このような過程によって選択される代表単語のうち、実際の情報として使用者に提供される単語が選択されるが、文型情報生成部５５０では、ドメインＤＢ５１０から入力されるテキストデータの構文及び意味構造に適用可能な文法規則を検出する。
本実施例において提供されるテキストに該当する文法規則として、下記のような文法規則が天気予報の情報類型から検出されると、入力されるテキストの情報類型は、天気予報に決定される。

- 副詞語｛DATE｝主語｛WIND｝吹く→DATE WIND
- 副詞語｛DATE｝主語｛SHOWER｝降る→DATE SHOWER
- 副詞語｛DATE｝主語｛FOG｝立ち込める→DATE FOG
情報類型が決定されると、入力されるテキストデータを検出された文法規則に適用するが、この結果を例示すると次の通りである。

INFO[今日/DATE]はINFO[北東ないし南東風/WIND]が吹きINFO[雲/CLOUD]が多くINFO[午後一時/DATE]INFO[にわか雨/SHOWER]が降るところがあり、INFO[朝/DATE]にINFO[霧/FOG]が立ち込めるところがありそうです。
このように、文法規則が適用される過程で入力されるテキストの情報類型が決定され、実際の情報として表現する代表単語(今日/DATE、北東ないし南東風/WIND、雲/CLOUD、午後一時/DATE、にわか雨/SHOWER、朝/DATE、霧/FOG)が選択される。
情報類型が決定され、実際の情報として表現される代表単語が選択されると、選択された代表単語を決定された情報類型に最も適宜にディスプレイするための文型情報を生成する。

例えば、前記例文において生成される文型情報は、「DATE WEATHER」型である。
このような過程によって文型情報が生成されると、文型情報適用部９１０では、選択された強調単語を生成された文型情報に適用して再配置する。
本実施例においては、選択された強調単語が文型情報に基づき、実際の情報として表現される代表単語に選択された単語と合致する場合、文型情報に強調単語及び音声合成モジュール１００から得られる各強調単語のタイミング情報をタグ付け（ｔａｇｇｉｎｇ）して構造化する。
構造化された強調単語は、次の通りである。

<DATE WEATHER ITEM="3">
<DATE VALUE="0" SYNC="1035">今日</DATE>
<WEATHER EVAL="CLOUD" SYNC="1497">北東ないし南東風、雲</WEATHER>
:
</DATEWEATHER>

ディスプレイモジュール９００は、構造化された強調単語をタイミング情報に応じて、合成音と共に同期化させてディスプレイする。
このとき、ディスプレイ結果は、図９（ｂ）に示す通りである。

（実施例３）
例えば、下記のようなテキストが入力され、強調単語選択モジュール３００を介して強調単語を選択し、選択された強調単語を文型情報に適用し、メタ情報と共に構造化してディスプレイする場合を例示して説明する。

以下には、選択された強調単語が情報類型決定過程で選択された実際の情報の代表単語に該当することを前提として、強調単語を選択する過程を省き、強調単語を文型情報及びメタ情報に適用してディスプレイする過程についてのみ説明する。

「今日の総合株価指数は、先週末に比べ8.88ポイント上がった717.35ポイント、コスダック指数は、0.97ポイント上昇した72.99ポイントを記録しました。」
音声合成モジュール１００では、入力されるテキストを形態素及び構文解析し、音声に合成する。

強調単語選択モジュール３００では、強調単語選択部３３０を介して、入力されるテキストの中で強調する単語を選択し、情報類型決定モジュール５００では、ドメインＤＢ５１０を介して、入力されるテキストの情報類型を決定し、文型情報を生成する。
ここで、入力されるテキストに対する情報類型決定過程をより詳しく説明すると、音声合成モジュール（ＴＴＳ）１００から得られる形態素構文情報及びドメインＤＢ５１０の意味単位ＤＢを用いて、入力されるテキストの単語を実際の意味単位に区切るが、この結果を例示すると、次の通りである。

「/今日/総合株価指数は/先週末に比べ/8.88ポイント/上がった/717.35ポイント/、/コスダック指数は/0.97ポイント/上昇した/72.99ポイントを/記録しました。/」
入力テキストを実際の意味単位に区切り、その後、ドメインＤＢ５１０に基づいて、意味単位に区切られた入力テキストの中で代表意味を決定し、決定された代表意味を各意味単位に区切る（タギング）するが、この代表意味をタギングした結果を例示すると、次の通りである。
「/DATE/INDEX/DATE/VALUE/上がった/VALUE/、/INDEX/VALUE/上昇した/VALUE/記録する/」

また、入力テキストの各意味単位の代表単語を選択するが、選択された代表単語が適用された結果を例示すると、次の通りである。
「今日/総合株価指数/先週末/8.88ポイント/上がった/717.35ポイント/、/コスダック指数/0.97/上昇/72.99ポイント/記録/」

また、ドメインＤＢ５１０において、入力されるテキストの構文構造及び意味構造が適用される文法規則を抽出し、抽出された文法規則を各意味単位に区切られた入力テキストに適用して、入力されるテキストの中で実際の情報に該当する部分のみをディスプレイする。
即ち、入力されるテキストの構文構造が証券市況の情報類型において提供される下記のような文法規則に合致すると、入力されるテキストの情報類型は、証券市況であると決定される。

- 副詞語｛DATE｝主語｛INDEX｝連体修飾節補語｛VALUE｝→DATE INDEX VALUE
- 主語｛INDEX｝連体修飾節目的語｛VALUE｝記録する。→INDEX VALUE
このように検出された文法規則を、入力テキストに適用すると、次の通りである。
「INFO[今日/DATE]INFO[総合株価指数/INDEX]は、先週末8.88ポイント上がったINFO[717.35ポイント/VALUE]、INFO[コスダック指数/INDEX]は、0.97ポイント上昇したINFO[72.99ポイント/DATE]記録しました。」

この結果、実際の情報としてディスプレイされる代表単語(今日/DATE、総合株価指数/INDEX、コスダック指数/INDEX、72.00ポイント/VALUE)を選択し、代表単語を決定された情報類型に最も適宜にディスプレイするための文型情報としてINDEX VALUE型が生成される。

このような過程によって文型情報が生成されると、構造化モジュール７００の文型情報適用部７１０で文型情報が存在するか否かを判別した結果、強調単語選択モジュール３００で選択された強調単語が適用される文型情報が存在するため、選択された強調単語が情報類型決定モジュール５００で生成された文型情報に適用可能であるか否かを判別する。

もし、強調単語選択モジュール３００で選択された強調単語が情報類型決定モジュール５００で実際の情報としてディスプレイされる代表単語に選択された単語に含まれると、文型情報適用部７１０では、強調単語を生成された文型情報にタギングさせる。
しかし、選択された強調単語が情報類型決定モジュール５００において代表単語として選択された単語に含まれていないと、その強調単語を決定された情報類型の構文構造に従って再配置する。

このように、文型情報に強調単語をタギングするか、または構文構造に従って情報単語を再配置すると、情報構造化部７５０では、強調単語を決定された情報類型に従ってレイアウトするためのメタ情報をメタＤＢ７３０から抽出し、抽出されたメタ情報に強調単語をタギングする。

強調単語をメタ情報にタギングする過程において、各強調単語に指定される当該の合成音とタイミング情報が共に設定される。
例えば、証券市場関連情報類型の場合、情報を、DATEをTITLEとし、INDEX及びVALUEがテーブル構造として各項目別に共に提供すると、テーブル形式に表れるレイアウト様式がメタＤＢ７３０から抽出され、抽出されたレイアウトに強調単語及びタイミング情報が下記のように入力される。

<TITLE SYNC="510">今日</TITLE>
<INDEXVALUE ITEM="2">
<INDEX SYNC="1351">総合株価指数</INDEX>
<VALUE SYNC="INHERIT">717.35ポイント</VALUE>
:
</INDEXVALUE>

この結果、選択された強調単語は、合成音出力時に当該の合成音と共に、図９（ｃ）に示すように、総合株価指数の項目に該当するVALUEが「INHERIT」タグによってINDEXと共に示される方式でディスプレイされる。なお、実施例３では、例文中「コスダック」として説明したが、「ナスダック」など他の名称としても構わないことはもちろんである。
以上のような本発明は、添付図面に基づく実施の形態によるものであり、これに限定されるものでなく、このような本発明の基本的な技術的思想を逸脱しない範囲内で、当業界の通常の知識を有する者にとっては、他の多くの変更が可能であろう。また、本発明は、添付の特許請求の範囲に基づいて解析されるべきであることは言うまでもない。

従来のＴＴＳ装置の概略的な構成及びその動作処理過程を示す図である。本発明に係る付加情報提供機能付きのテキスト/音声変換装置の概略的な構成を説明するためのブロック図である。本発明の実施の形態に従う付加情報提供機能付きのテキスト/音声変換方法の動作過程を説明するための動作フローチャートである。図３のＳ３０ステップを説明するための動作フローチャートである。本発明の他の実施の形態に従う付加情報提供機能付きのテキスト/音声変換方法の動作過程を説明するための動作フローチャートである。図５のステップＳ３００を説明するための動作フローチャートである。図４のステップＳ５００を説明するための動作フローチャートである。本発明の他の実施の形態に従うマッチング率算出結果を示す図である。（ａ）〜（ｃ）は、本発明の各実施の形態に従い、最終的に付加情報がディスプレイされた様子を示す図である。

符号の説明

１００音声合成モジュール
１１０形態素解析部
１３０構文解析部
１５０音声合成部
１７０合成音発生部
１９０スピーカー(SP)
３００強調単語選択モジュール
３１０ヒストリ(History)ＤＢ
３３０強調単語選択部
３５０ヒストリマネージャ(History manager)
５００情報類型決定モジュール
５１０ドメイン(Domain)ＤＢ
５３０意味解析部
５５０文型情報生成部
７００構造化モジュール
７１０文型情報適用部
７３０メタ(meta)ＤＢ
７５０情報構造化部
９００ディスプレイモジュール
９１０同期化部
９３０映像信号処理部
９５０表示部

Claims

テキストデータを形態素及び構文解析し、これにより得られる音声合成分析データを用いて、前記テキストデータを音声に合成して出力する音声合成モジュールと、
前記音声合成モジュールから得られる前記音声合成分析データを用いて、前記テキストデータの中で特定の品詞の単語を強調単語として選択する強調単語選択モジュールと、
前記選択された強調単語を前記合成音と同期させて、ディスプレイするディスプレイモジュールとを備えることを特徴とする付加情報提供機能付きのテキスト/音声変換装置。
テキストデータを形態素及び構文解析し、これにより得られる音声合成分析データを用いて、前記テキストデータを音声に合成して出力する音声合成モジュールと、
前記音声合成モジュールから得られる前記音声合成分析データを用いて、前記テキストデータの中で特定の品詞の単語を強調単語として選択する強調単語選択モジュールと、
前記音声合成モジュールから得られる前記音声合成分析データを用いて、前記テキストデータの情報類型を決定し、文型情報を生成する情報類型決定モジュールと、
前記選択された強調単語を、前記生成された文型情報に従って再配置し、前記合成音と同期させてディスプレイするディスプレイモジュールとを備えることを特徴とする付加情報提供機能付きのテキスト/音声変換装置。
前記選択された強調単語を所定のレイアウト様式に適用して構造化する構造化モジュールをさらに備えることを特徴とする請求項１または請求項２に記載の付加情報提供機能付きのテキスト/音声変換装置。
前記強調単語は、前記音声合成モジュールから得られる音声合成分析データを用いて、前記テキストデータの単語の中で合成音歪みが予想される単語を含むことを特徴とする請求項１または請求項２に記載の付加情報提供機能付きのテキスト/音声変換装置。
前記強調単語は、前記選択された強調単語の中、前記音声合成モジュールから得られる前記テキストデータの各単語に対する強調頻度情報を用いて、所定のしきい値未満の強調頻度を有する単語に選別されることを特徴とする請求項１または請求項２に記載の付加情報提供機能付きのテキスト/音声変換装置。
前記情報類型決定モジュールは、情報類型別に区分された様々な分野の構文構造、文法規則、用語及び熟語情報がドメイン情報として格納されるドメインＤＢと、
前記音声合成モジュールから得られる音声合成分析データを用いて、前記ドメインＤＢから前記テキストデータに該当するドメイン情報を検出して情報類型を決定し、文型情報を生成する文型情報生成部と、を備えることを特徴とする請求項２に記載の付加情報提供機能付きのテキスト/音声変換装置。
前記構造化モジュールは、情報類型に従い、選択された強調単語を構造的にディスプレイするためのレイアウト及び付加的に表示する内容がメタ情報として格納されるメタＤＢと、
前記強調単語選択モジュールで選択された強調単語を前記文型情報に従い再配置する文型情報適用部と、
前記決定された情報類型に該当するメタ情報を前記メタＤＢから検出し、検出されたメタ情報に前記再配置された強調単語を適用させる情報構造化部とを備えることを特徴とする請求項３に記載の付加情報提供機能付きのテキスト/音声変換装置。
前記合成音歪みが予想される単語は、各音片の合成音出力予測値と、実際値との差として決定されるマッチング率が所定のしきい値未満の単語であることを特徴とする請求項４に記載の付加情報提供機能付きのテキスト/音声変換装置。
前記出力予測値と実際値との差は、下記式
ΣＱ（ｓiｚｅｏｆ（Ｅｎｔｒｙ）・｜予測値−実際値｜・Ｃ）／Ｎ
[ここで、Ｃはマッチング値(ｃｏｎｎｅｃｔｉｖｉｔｙ)であり，Ｎは標準値(ｎｏｒｍａｌｉｚａｔｉｏｎ)である]
により算出されることを特徴とする請求項８に記載の付加情報提供機能付きのテキスト/音声変換装置。
テキストデータを形態素及び構文解析し、これにより得られる音声合成分析データを用いて、前記テキストデータを音声に合成して出力する音声合成ステップと、
前記音声合成分析データを用いて、前記テキストデータの中で特定の品詞の単語を強調単語として選択する強調単語選択ステップと、
前記選択された強調単語を前記合成音と同期させてディスプレイするディスプレイステップとを含むことを特徴とする付加情報提供機能付きのテキスト/音声変換方法。
テキストデータを形態素及び構文解析し、これにより得られる音声合成分析データを用いて、前記テキストデータを音声に合成して出力する音声合成ステップと、
前記音声合成分析データを用いて、前記テキストデータの中で特定の品詞の単語を強調単語として選択する強調単語選択ステップと、
前記音声合成ステップで得られる音声合成分析データを用いて、前記テキストデータの情報類型を決定し、文型情報を生成する文型情報生成ステップと、
前記選択された強調単語を前記文型情報に従って再配置し、前記合成音と同期させてディスプレイするディスプレイステップとを含むことを特徴とする付加情報提供機能付きのテキスト/音声変換方法。
前記選択された強調単語を所定のレイアウト様式に適用して構造化する構造化ステップをさらに含むことを特徴とする請求項１０または請求項１１に記載の付加情報提供機能付きのテキスト/音声変換方法。
前記強調単語選択ステップは、前記音声合成ステップから得られる音声合成分析データを用いて、前記テキストデータの単語の中で合成音歪みが予想される単語を選択するステップをさらに含むことを特徴とする請求項１０または請求項１１に記載の付加情報提供機能付きのテキスト/音声変換方法。
前記強調単語選択ステップは、前記選択された強調単語を、前記音声合成ステップから得られる前記テキストデータの各単語に対する強調頻度情報を用いて、所定のしきい値未満の強調頻度を有する単語に選別することを特徴とする請求項１０または請求項１１に記載の付加情報提供機能付きのテキスト/音声変換方法。
前記文型情報生成ステップは、ドメインＤＢ及び前記音声合成ステップで得られる音声合成分析データに基づいて、前記テキストデータを意味単位に区切るステップと、
前記区切られた各意味単位の代表意味を決定し、各意味単位にタギングし、各意味単位の中で代表単語を選択するステップと、
前記テキストの構文形式に合致する文法規則を前記ドメインＤＢから検出し、検出された文法規則を前記テキストデータに適用して実際の情報を決定するステップと、
前記決定された実際の情報に基づき、前記テキストデータの情報類型を決定して文型情報を生成するステップとを含むことを特徴とする請求項１１に記載の付加情報提供機能付きのテキスト/音声変換方法。
前記構造化ステップは、前記選択された強調単語が前記生成された文型情報の情報類型に適用されるか否かを判別するステップと、
前記判別結果に従って前記強調単語を文型情報にタギングするか、または決定された情報類型に従って再配置するステップと、
前記再配置された強調単語をメタＤＢから検出される前記情報類型に該当するメタ情報に適用して構造化するステップとを含むことを特徴とする請求項１２に記載の付加情報提供機能付きのテキスト/音声変換方法。
前記合成音歪みが予想される単語は、各音片の合成音出力予測値と実際値との差として決定されるマッチング率が所定のしきい値未満の単語であることを特徴とする請求項１３に記載の付加情報提供機能付きのテキスト/音声変換方法。
前記ドメインＤＢは、情報類型別に区分された様々な分野の構文構造、文法規則、用語及び熟語情報がドメイン情報として格納されていることを特徴とする請求項１５に記載の付加情報提供機能付きのテキスト/音声変換方法。
前記メタＤＢは、情報類型に従い、選択された強調単語を構造的にディスプレイするためのレイアウト及び付加的に表示する内容がメタ情報として格納されることを特徴とする請求項１８に記載の付加情報提供機能付きのテキスト/音声変換方法。