JP2004170983A - 付加情報提供機能付きのテキスト/音声変換装置及びその方法 - Google Patents

付加情報提供機能付きのテキスト/音声変換装置及びその方法 Download PDF

Info

Publication number
JP2004170983A
JP2004170983A JP2003387094A JP2003387094A JP2004170983A JP 2004170983 A JP2004170983 A JP 2004170983A JP 2003387094 A JP2003387094 A JP 2003387094A JP 2003387094 A JP2003387094 A JP 2003387094A JP 2004170983 A JP2004170983 A JP 2004170983A
Authority
JP
Japan
Prior art keywords
word
information
speech
text
emphasized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2003387094A
Other languages
English (en)
Inventor
勝寧 ▲鄭▼
Seung-Nyang Chung
貞美 ▲曹▼
Jeong-Mi Cho
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2004170983A publication Critical patent/JP2004170983A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 テキスト/音声変換装置から出力される合成音の中で特定の品詞及び使用者にとって認識し難いと予想される単語を使用者に付加情報として提供すること。
【解決手段】 テキスト/音声変換装置から得られる言語分析データ及び音声合成結果分析データを用いて、入力されるテキストから強調単語を選択し、選択された強調単語を、入力されるテキストの文型情報及び所定のレイアウト様式に応じて構造化して提供する。
また、前記選択された強調単語を所定のレイアウト様式に適用して構造化して提供してもよい。
【選択図】 図2

Description

本発明は、付加情報提供機能付きのテキスト/音声変換装置及びその方法に関し、より詳しくは、テキストを音声に変換するテキスト/音声変換装置(Text-to-Speech Conversion System:以下、TTSと称する)の言語分析及び音声合成過程で得られた言語分析データ及び音声合成結果分析データを用いて、入力されるテキストの中で特定の品詞や使用者にとって認識し難いと予想される単語を使用者に付加情報として提供する付加情報提供機能付きのテキスト/音声変換装置及びその方法に関する。
一般に、音声合成技術は、テキストが入力されると、入力されたテキストを言語解析し、音声に合成する処理過程を経て、テキストを自然な合成音に変換して出力するもので、TTSにより行われる。
以下、一般的なTTSの概略構成及びその動作処理過程について、図1を参照しながら韓国語テキストを音声合成するシステムを挙げて説明する。
先ず、前処理部2で辞書型の数字/略語/記号DB1を用いて、入力されるテキストを分析し、ハングル以外の文字をハングルに変換する前処理過程を行い、形態素解析部4では、辞書型の形態素DB3を用いて、前処理された文章の形態素を分析し、この文章をそれぞれの形態素に応じて、名詞、形容詞、副詞、及び助詞などの品詞に区分する。
構文解析部5では、入力された文章の構文を分析し、文字/音韻変換部7では、記号や特殊文字に対する発音規則データが格納された辞書型の例外発音DB6を用いて、分析された構文の文字を音韻に変換する。
音声合成データ生成部8では、文字/音韻変換部7で変換された音韻に対する韻律、合成単位及び文字、単語、文章の区切り情報及び各音声データの持続時間情報を生成し、基本周波数制御部10では、合成する音声の基本周波数を設定し制御する。
また、合成音生成部11では、多数の合成音データの格納された合成単位DB12から得られる音声合成単位や上述の構成要素から生成される音声合成データ、持続時間情報、及び基本周波数に基づいて音声合成を行う。
このようなTTSは、合成音に基づき、提供されるテキスト情報を使用者が容易に認識できるようにすることを目的としているが、音声は、本質的に時間と共に流れる情報であるので、一度出力された音声は、再び確認しにくいという時間的な制約がある。
また、使用者が合成音として与えられる情報を認識するためには、出力される合成音に対し持続的に注意を集中し、合成音の内容を理解する努力を続けなければならない煩わしさがあった。
一方、データベース化された文字認識及び合成データを用いて、入力されるテキストに近似した自然な合成音を生成する試みが継続されていたが、依然としてテキスト/音声合成が不完全なままで、使用者がTTSから提供される情報を認識できなかったり、まちがえて理解したりするという問題点があった。
従って、TTSから提供される合成音による円滑なコミュニケーションのためには、補助手段が要求されている実情である。
このような従来の技術の問題点を解決するために、既に提案されている韓国特許公開公報第2002−0011691号(発明の名称:対話内容のグラフィック表現方法及び装置)においては、対話内容中の目的物をグラフィックデータベースから抽出し、抽出された目的物の動作、位置、状態などを画面に出力することにより、対話の効率性を向上できるシステムが提案されている。
また、特開平7-334507(発明の名称:テキストからの人体動作音声生成システム)及び特開平11-272383(発明の名称:動作同期型音声言語表現生成方法及び装置及び動作同期型音声言語表現生成プログラムを格納した記憶媒体)においては、テキストから動作を示す単語を抽出して、合成音と共に動作映像を出力するか、音声言語から動作を伴う文字列が検出されると、合成音と共に伴われる動作映像を出力する方法を提供している。
さらに、韓国特許公開公報第2001-0002739号(発明の名称:音声認識機を用いた自動キャプション挿入装置及び方法)は、プログラムのサウンドトラックから再生/出力される台詞音声信号を認識して、キャプションデータを発生し、そのキャプションデータを元の音声出力時点と合致させて出力するシステムを提供している。
韓国特許公開公報第2002−0011691号 特開平7-334507号公報 特開平11-272383号公報 韓国特許公開公報第2001-0002739号
しかし、前記した従来に示す技術では、以下に示すような問題点が存在していた。
特許文献1で示すようなシステムは、日常生活で使われている数多い目的物に該当する単語を表現するためには、膨大な容量のグラフィックデータベースが要求され、目的物に該当する単語毎に一々グラフィックデータベースに該当するグラフィック情報を検索しなければならないという不便があった。
また、特許文献2,3で示すような方法においても、各テキスト及び文字列毎に該当する動作を表わす動作映像を格納した膨大な容量のデータベースを備える必要があり、各テキストまたは文字列を検出する毎に、データベースから該当する動作映像を検索しなければならないという不便があった。
さらに、特許文献4に示すようなシステムは、サウンドトラックから再生/出力される台詞音声信号に対するキャップションデータのみをディスプレイするものであり、提供される情報を使用者がより効率良く認識及び理解できる手段は提示されていない。
本発明は、上記問題点に鑑みなされたものであり、TTSの言語分析及び音声合成過程で得られた言語分析データ及び音声合成結果分析データを用いて、特定の品詞の単語や使用者にとって認識し難いと予想される単語を強調単語として提供することにより、TTSによる円滑なコミュニケーションを目的とする。
また、本発明は、強調単語を構造的に配置して、合成音と共に提供することにより、構造的に表わされた強調単語から使用者が直観的に情報内容を認識できるようにして、TTSの情報伝達力を高くし、信頼度を向上することを他の目的とする。
上記の目的を達成するために、本発明に係る付加情報提供機能付きのテキスト/音声変換装置においては、テキストデータを形態素及び構文解析し、それにより得られる音声合成分析データを用いて、テキストデータを音声に合成して出力する音声合成モジュールと、音声合成モジュールから得られる音声合成分析データに基づいて、テキストデータから特定の品詞の単語を強調単語として選択する強調単語選択モジュールと、選択された強調単語を前記合成音と同期させてディスプレイするディスプレイモジュールとを備えることを特徴とする。
本発明による他の実施の形態の付加情報提供機能付きのテキスト/音声変換装置においては、音声合成モジュールから得られる音声合成分析データを用いて、テキストデータの情報類型を決定し、文型情報を生成する情報類型決定モジュールと、選択された強調単語を生成された文型情報に従って再配置し、合成音と同期させてディスプレイするディスプレイモジュールとを備えることを特徴とする。
本発明によるさらに他の実施の形態の付加情報提供機能付きのテキスト/音声変換装置においては、選択された強調単語を所定のレイアウト様式に適用して構造化する構造化モジュールをさらに備えることを特徴とする。
また、前記強調単語は、追加的に音声合成モジュールから得られる音声合成分析データを用いて、テキストデータの単語のうち、所定のしきい値未満のマッチング率を有する合成音の歪みにより使用者にとって認識し難いと予想される単語をさらに含み、選択された強調単語のうち、所定のしきい値未満の強調頻度を有する単語に選別されることを特徴とする。
さらに、上記の目的を達成するために、本発明に係る付加情報提供機能付きのテキスト/音声変換方法においては、テキストデータを形態素及び構文を解析し、これにより得られる音声合成分析データを用いて、テキストデータを音声に合成して出力する音声合成ステップと、音声合成分析データを用いてテキストデータのうち、特定の品詞の単語を強調単語として選択する強調単語選択ステップと、選択された強調単語を合成音と同期させてディスプレイするディスプレイステップとを含むことを特徴とする。
本発明による他の実施の形態の付加情報提供機能付きのテキスト/音声変換方法においては、音声合成ステップで得られた音声合成分析データに基づいて、テキストデータの情報類型を決定し、文型情報を生成する文型情報生成ステップと、選択された強調単語を文型情報に従い、再配置し、合成音と同期させてディスプレイするディスプレイステップとを含むことを特徴とする。
本発明によるさらに他の実施の形態の付加情報提供機能付きのテキスト/音声変換方法においては、選択された強調単語を所定のレイアウト様式に適用して構造化する構造化ステップをさらに含むことを特徴とする。つまり、前記した強調単語選択ステップの後で、ディスプレイステップの直前、あるいは、前記した文型情報生成ステップの後で、ディスプレイステップの直前に構造化ステップを含むこととした。
また、前記強調単語は、追加的に音声合成分析データを用いて、所定のしきい値未満のマッチング率を有する合成音歪みにより使用者にとって認識し難いと予想される単語をさらに含み、選択された強調単語のうち、所定のしきい値未満の強調頻度を有する単語に選別されることを特徴とする。
上述した本発明によると、使用者にとって認識し難い単語を視覚的に確認できるようにして、音声が有する時間的、認知的な制限を低減できるという効果がある。
また、本発明によると、構造的にディスプレイされる付加情報を通して、合成音に提供される情報の内容を使用者がより直観的に理解することが可能となり、これによりTTSの情報伝達力及び信頼性の向上を期待できる。
さらに、このような効果によりテキスト/音声変換装置の作業効率性を極大化することができる。
以下、本発明の好ましい実施の形態を、添付図面に基づいて詳しく説明する。
図2を参照して、本発明に係るテキスト/音声変換装置においては、音声合成モジュール100と、強調単語選択モジュール300と、ディスプレイモジュール900とに大別され、本発明による他の実施の形態を具現するために、情報類型決定モジュール500と、構造化モジュール700とをさらに備えている。
図2に示される各モジュールに包含されるヒストリ(History)DB310、ドメイン(Domain)DB510、及びメタ(Meta)DB730は、本発明に係る付加情報生成装置に備えられるデータベース(図示せず)に構築されるものであるが、本発明の詳細な説明のために、それぞれ分離して示している。
音声合成モジュール100は、テキストデータを形態素及び構文を解析し、これにより得られる言語分析データ及び音声合成結果分析データを用い、入力されたテキストデータを音声に合成して出力するものであり、形態素解析部110、構文解析部130、音声合成部150、合成音発生部170、及びスピーカー(SP)190から構成される。
形態素解析部110では、入力されたテキストデータの形態素を分析し、各形態素に応じて品詞(例えば、名詞、代名詞、助詞、接続詞、感嘆詞、形容詞、及び副詞など)を付け、構文解析部130では、入力されたテキストデータの構文構造を分析する。
また、音声合成部150では、形態素解析部110及び構文解析部130の形態素と構文の解析過程で得られる言語分析データを用いて音声合成を行い、それぞれの音素に該当する合成音データを合成単位DB12(図1参照)から選択して組み合わせる。
音声合成部150のそれぞれの音素を組み合わせる過程で各音素に対するタイミング情報が生成され、生成されたタイミング情報に基づいて、音声合成モジュール100では、音声合成時に、その開始点を基準にして幾らかの時間(一般に、1/1000秒単位)が経過した後に、いかなる音素が発声されるかを予め予測できるように、各音素に対する時間テーブルが提供される。
即ち、音声合成モジュール100からの合成音出力時に、発声開始時点を知らせると共に、タイミングをカウントして、特定の単語(音素の組合わせ)が発声されるときに提供されるタイミング情報に基づき、特定の単語が発声される瞬間を他のモジュールでも予測できるようにする。
また、合成音発生部170では、音声合成部150から得られる音声合成結果分析データをスピーカー190に出力可能に信号処理し、合成音として出力する。
以下、形態素解析部110及び構文解析部130での形態素及び構文の解析過程で得られる形態素及び構文の解析データからなる言語分析データと、音声合成部150での音声合成過程で得られる合成音とからなる音声合成結果分析データを音声合成分析データとして定義する。
強調単語選択モジュール300では、音声合成モジュール100から得られる音声合成分析データに基づき、入力されるテキストデータから強調単語(例えば、キーワード)を選択し、図2に示すように、ヒストリDB310、強調単語選択部330、及びヒストリマネージャ(History Manager)350から構成される。
ヒストリDB310は、音声合成モジュール100から入力されるテキストデータのうち、頻繁に使われるか、または強調される単語の強調頻度情報を格納する。
さらに、入力されるテキストデータに該当する情報類型の分野において、頻繁に使われる単語または頻繁に強調される単語などの強調頻度情報を格納する。
強調単語選択部330は、音声合成モジュール100から得られる音声合成分析データを用いて、特定の品詞に該当するか、または合成音歪みが予期される(即ち、合成音により予測される出力値と実際の出力値との間の差により算出されるマッチング率が低い)単語を強調単語として検出する。また、ヒストリマネージャ350を介して選別される強調する必要がない単語を参照しながら強調単語を選択する。
特定の品詞とは、強調単語を選択するために指定される所定の品詞をいうものであり、例えば、固有名詞、外来語、数字が強調単語として選択された品詞であるとすれば、強調単語選択部330では、音声合成データを用いて、形態素単位でそれぞれ分割された各単語のうち、指定された品詞に該当する単語をそれぞれ検出する。
また、合成音マッチング率は、下記の式(1)により算出される各音片間のマッチング率の平均から決定されるものであり、マッチング率の平均値が所定のしきい値よりも低いと、合成音の歪みが予想され、平均値が所定のしきい値よりも高いと、合成音の歪みが少ない。

ΣQ(sizeof(Entry)・|予測値−実際値|・C)/N 式(1)
(C=マッチング値(connectivity),N=標準値(normalization))
上記の式(1)のsizeof(Entry)は、選択された音片の合成単位DB内における母集団の大きさを示し、Cは、音片間の連結情報を示し、予測値は、音素の長さ、大きさ、及び高さに対する予測値を示し、実際値は、選択された音片の実際値を示す。
ヒストリマネージャ350は、ヒストリDB310に格納された強調頻度情報に基づいて、強調単語選択部330から選択された強調単語のうち、強調頻度がしきい値以上の値を有する単語を強調する必要のない単語として選別する。
前記しきい値は、入力されるテキストの中でよく使われているか、強調されていて、使用者が単語を容易に認識できるほどの数値を示すものであり、例えば、5回などの数値に設定される。
情報類型決定モジュール500では、音声合成モジュール100から得られる音声合成分析データを用いて、入力されるテキストデータの情報類型を決定し、文型情報を生成し、図2に示すように、ドメインDB510、意味解析部530、文型情報生成部550から構成される。
本発明にいては、情報類型は、入力されるテキストから提供される情報が示す類型の分野(以下、ドメインと称す)を示し、文型情報は、選択された強調単語を、入力されるテキストの情報類型に最も適切にディスプレイするための実際の情報の一般的な構成を示すものである。
例えば、「The Nasdaq composite index closed down 40.30 to 1,356.95.」のような証券市場に関わるテキストが入力されると、入力されたテキストの情報類型は、証券市況であり、文型情報は、入力されるテキストの情報類型である証券市況における実際の情報に該当する名詞句(INDEX)及び数値(VALUE)の一般的な構成であるINDEX VALUE類型となる。
ドメインDB510には、情報類型別に区分された情報抽出のための文法規則、用語及び熟語情報がドメイン情報として格納される。
ここで、文法規則は、入力されるテキストの構文構造から情報に該当する項目を抽出できるように、各ドメインの情報構造を文法(grammar)化したものである。
例えば、前記例文に使用される文法規則は、証券市況の情報類型で使われている一般の文章構造である「INDEX close (or end) VALUE to VALUE」の中で使用者にとって重要な株価数値のみを提供する文法として、次のように定義することができる。
- NP{INDEX}VP{Verb(close)PP{*}PP{to VALUE}}→INDEX VALUE
- NP{INDEX}VP{Verb(end)PP{*}PP{to VALUE}}→INDEX VALUE
また、用語及び熟語情報は、特定のドメインにおいてよく使われているか、または強調されている単語、及び一つの意味単位(Chunk)に区分可能な熟語(例えば、前記例文中のThe Nasdaq composite index)であり、特定のドメインにおいて略称形としてよく使われている用語(例えば、前記例文中の「The Nasdaq composite index」は、NASDAQに略称されて使われる)などの情報を示すものである。
意味解析部530は、音声合成モジュール100から得られる音声合成分析データの他に、さらにテキストデータに対する意味情報を得るための意味解析が要求される場合、別途に備えられる所定の意味解析手段である。
文型情報生成部550は、音声合成モジュール100から得られる音声合成分析データ及びドメインDB510に格納されたドメイン情報に基づき、入力されるテキストデータから実際の情報に該当する代表単語を選択し、情報類型を決定して文型情報を生成する。
構造化モジュール700では、文型情報生成部550から得られる文型情報に従い、選択された強調単語を再配置し、所定のレイアウト様式に適用させ、図2に示されるように、文型情報適用部710、メタDB730、及び情報構造化部750から構成される。
文型情報適用部710は、情報類型決定モジュール500から生成される文型情報が存在するか否かを判別し、文型情報が存在すると、強調単語選択モジュール300から選択された強調単語を文型情報に適用させた後、情報構造化部750に出力し、文型情報が存在しないと、文型情報が適用されていない強調文字のみを情報構造化部750に出力する。
メタDB730は、情報類型に従い、選択された強調単語を構造的にディスプレイするためのレイアウト(例えば、表)、及び付加的にディスプレイする内容(例えば、「:」コロン、「;」セミコロンなど)をメタ情報として格納する。
また、各メタ情報を合成音と共に、適宜にディスプレイするためのメタ情報のタイミング情報も格納される。
情報構造化部750は、入力されるテキストに対する情報類型、強調単語、及び音声合成モジュール100から得られる各強調単語のタイミング情報を用いて、メタDB730から該当する情報類型のメタ情報を検出し、検出されたメタ情報に強調単語及びタイミング情報をタギング(tagging)してディスプレイモジュール900に出力する。
例えば、前記例文のような証券市況の情報類型において、実際の情報であるINDEX及びVALUEを表形式のレイアウトとしてディスプレイするように設定していると、音声合成モジュール100から得られるINDEX情報及びVALUE情報に対するタイミング情報(SYNC="12345"、SYNC="12438")をタグ付け(tagging)する。
このような過程により指定されたレイアウト様式にタイミング情報と共に構造化された強調単語は、次の通りである。
<INDEXVALUE ITEM="1">
<INDEX SYNC="12345">INDEX(NASDAQ) </INDEX>
<VALUE SYNC="12438">VALUE(1,356.95)</VALUE>
</INDEXVALUE>
ディスプレイモジュール900では、構造化された強調単語をタイミング情報に従い、合成音と共に同期化させてディスプレイし、図示したように、同期化部910、映像信号処理部930、及び表示部950から構成される。
同期化部910では、メタ情報及び強調単語の各タイミング情報を抽出し、音声合成モジュール100のスピーカー190を介して出力される合成音や強調単語及びメタ情報が適宜にディスプレイされるように同期化させる。
映像信号処理部930は、構造化された強調単語を同期化部910から得られるタイミング情報に従い、映像信号に処理して表示部950に出力する。
表示部950は、映像信号処理部930から出力されるディスプレイ情報に従い、強調単語を視覚的にディスプレイする。
例えば、前記構造化モジュール700から出力される構造化された前記例文は、次のように、表示部950を介してディスプレイされる。
[NASDAQ | 1,356.95](例えば、図9(c)参照)
以下、本発明に係る付加情報生成機能付きのテキスト/音声変換方法について、図面を参照しながら詳しく説明する。
図3は、本発明による実施の形態1に従う付加情報提供機能付きのテキスト/音声変換方法の動作過程を示すフローチャートである。
先ず、音声合成モジュール100では、入力されるテキストを、形態素解析部110及び構文解析部130を介して形態素及び構文の解析過程を行い、形態素及び構文の解析過程を経て得られる音声合成分析データに基づき、入力されるテキストデータを音声に合成する(S10)。
音声合成モジュール100を介して合成音が生成されると、強調単語選択モジュール300の強調単語選択部330では、音声合成モジュール100から得られる音声合成分析データに基づき、特定の品詞及び使用者にとって認識し難いと予想される単語を強調単語として選択する(S30)。
強調単語選択部330を介して強調単語が選択されると、選択された強調単語及び音声合成モジュール100から得られるタイミング情報を用いて、強調単語を同期化させる(S50)。
ディスプレイモジュール900では、タイミング情報と共に構造化された強調単語からタイミング情報を抽出し、音声合成モジュール100のスピーカー190に出力される合成音と適宜に同期化させて表示部950にディスプレイする(S90)。
さらに、追加的にメタDB730から所定のレイアウト様式に該当するメタ情報を検出し、選択された強調単語を検出されたメタ情報に適用して構造化する(S70)。
図4は、強調単語を選択するステップS30をより詳しく示すものであり、図示したように、強調単語選択部330では、音声合成モジュール100から得られる音声合成分析データを検出する(S31)。
その後、検出された音声合成分析データに基づき、音声合成モジュール100の形態素解析部110で行われる形態素解析過程によって形態素区切りとなった各単語の品詞が特定の品詞に該当するか否かを判断し、指定された特定の品詞に該当する単語を強調単語として選択する(S32)。
さらに、強調単語によっても使用者にとって認識し難いと予想される単語を提供するために、検出された音声合成分析データを用いて、各単語の合成音マッチング率を調べ(S33)、その結果、合成音歪みが予想される単語(マッチング率がしきい値未満の単語)を検出して強調単語として選択する(S34)。
ここで、合成音マッチング率を調べるときには、式(1)により、検出された音声合成分析データに基づき、各単語の音片別に予測される合成音出力値(予測値)と実際に出力される合成音の出力値(実際値)との差によりマッチング率を算出し、算出されたマッチング率の平均を基準にして平均値がしきい値未満の値を有する単語を調べる。
ここで、しきい値とは、使用者が認識できない合成音のマッチング率の平均値を示すものであり、例えば、50%などの数値に設定される。
そして、このような過程によって選択された強調単語から使用者が容易に認識できる単語を強調する必要のない単語として選別するために、強調単語選択部330では、検出された強調単語のうち、ヒストリマネージャ350を介して強調する必要がない単語(強調頻度がしきい値未満の単語)を選別する(S35)。
即ち、ヒストリマネージャ350では、ヒストリDB310に格納された音声合成モジュール100から得られる強調頻度情報に基づき、強調単語選択部330を介して検出された強調すべき単語のうち、強調頻度がしきい値を超過し、使用者にとって認識できない可能性が低い単語を選別する。
ヒストリマネージャ350での強調する必要のない単語を選別する過程によって、強調単語選択部330では、入力されるテキストから特定の品詞や使用者にとって認識し難いと予想される単語(強調する単語)を強調単語として選択する(S36)。
図5は、本発明の他の実施の形態に従う付加情報提供機能付きのテキスト/音声変換方法の音声発生過程を示すものであり、図5に基づき、図3及び図4を参照しながら本発明の他の実施の形態について説明すると、次の通りである。
先ず、音声合成モジュール100を介して、入力されるテキストを音声に変換し(S100、図3のS10を参照)、強調単語選択部330では、音声合成モジュール100から得られる音声合成分析データを用いて、強調単語を選択する(S200、図3、図4のステップS30を参照)。
また、情報類型決定モジュール500の文型情報生成部550では、音声合成モジュール100から得られる音声合成分析データ及びドメインDB530から抽出されるドメイン情報を用いて、入力されるテキストの情報類型を決定し、文型情報を生成する(S300)。
その後、構造化モジュール700の文型情報適用部710では、選択の強調単語が適用される文型情報が、情報類型決定モジュール500から生成されたかどうかによって、文型情報に適用可能であるか否かを判別する(S400)。
その判別結果に従い、文型情報に適用可能であれば、選択された強調単語を文型情報に適用して再配置する(S500)。
このように、文型情報が適用されたか、または適用されていない強調単語を音声合成モジュール100から得られるタイミング情報を用いて、同期化させる(S600、図3のステップS50を参照)。
ディスプレイモジュール900では、タイミング情報と共に、構造化された強調単語からタイミング情報を抽出し、音声合成モジュール100のスピーカー190に出力される合成音と適宜に同期化させて表示部950にディスプレイする(S800、図3のステップS90を参照)。
さらに、追加的に構造化モジュール700の情報構造化部750では、メタ情報DB730から該当する情報類型のメタ情報を検出し、文型情報が適用されたか、または適用されていない強調単語を所定のレイアウト様式に構造化させる(S700、図3のS70を参照)。
図6は、図5の情報類型を決定し、文型情報を生成するステップS300を詳しく示すものであり、添付図面を参照しながら実施例を詳細に説明する。
先ず、情報類型決定モジュール500の文型情報生成部550では、音声合成モジュール100から音声合成分析データを抽出し、入力されるテキストの意味構造に対する情報が追加的に要求されると、意味解析部530を介してテキストの意味構造を解析し、入力されるテキストの意味構造情報を抽出する(S301)。
その後、抽出された音声合成分析データや意味構造情報及びドメインDB510に基づき、入力されるテキストの各単語を実際の意味単位に区切る(S302)。
入力されるテキストを意味単位(Chunk)に区切り、それぞれ区切られた各意味単位を表わす代表意味を決定し、決定された意味情報を各意味単位にタグ付けし(tagging)(S303)、ドメインDB510に基づいて各意味単位の代表単語を選択する(S304)。
例えば、例文として証券市況の情報類型に該当する文章において、「/The Nasdaq composite index/close/down/40.30/to/1,356.95/」に各意味単位に区切られた場合、それぞれの意味単位を示すことのできる情報を意味情報として、次のように定義することができる。
- The Nasdaq composite index : INDEX,
- close : close,
- down : down,
- to : to,
- number class(40.30, 1,356.95) : VALUE.
このように定義された意味情報を、意味単位に区切られた入力テキストにタギングすると、次の通りである。
/INDEX/close/down/VALUE/to/VALUE.
また、各意味単位に区切られた入力テキストにおいて、各意味単位の代表単語をドメインDB510に格納された用語及び熟語情報に基づいて選択すると、次のように決定される。
/NASDAQ/close/down/40.30/to/1,356.95/
このような過程により、選択される代表単語のうち、実際の情報として使用者に提供される単語が選択される。
前記代表単語の選択後、文型情報生成部550では、ドメインDB510から入力されるテキストの構文及び意味構造に適用可能な文法規則を検出し、検出された文法規則に従って情報類型及び実際の情報として表現する代表単語を選択する(S305)。
例えば、前記のドメインDB510に格納される文法規則に対する説明の中で前記例文に対する情報類型決定過程に基づき、決定された情報類型の文法規則として提供された文法のうち、「NP{INDEX}VP{Verb(close)PP{*}PP{to VALUE}}→INDEX VALUE」に入力されるテキストの構文構造が一致することが検出された場合、検出された文法規則に、意味単位に区切られたテキストを適用すると、次の通りである。
INFO[The Nasdaq composite index/INDEX]closed down 40.30 to INFO[1,356.95/VALUE].
このように、文法規則が適用される過程において、入力されるテキストの情報類型が決定され、実際の情報として表現する代表単語[(INDEX,VALUE)]が選択される。
情報類型が決定され、実際の情報として表現される代表単語が選択されると、選択された代表単語を決定された情報類型に最も適宜にディスプレイするための文型情報を生成する(S306)。
例えば、前記例文において生成される文型情報は、「INDEX VALUE」型である。
図7は、図5の文型情報を適用するステップS500を詳しく示すものであり、以下、添付図面を参照しながら実施例について詳細に説明する。
先ず、強調単語選択モジュール300から選択された強調単語が生成された文型情報に合致するか否かを判断するために、選択された強調単語が、文型情報生成部550で生成された文型情報から選択され、実際の情報として表現される代表単語に含まれているか否かを判別する(S501)。
判別の結果、選択された強調単語が代表単語に含まれていないと、文型情報生成過程で決定された情報類型の構文構造に従い、選択された強調単語を再配置し(S502)、代表単語に含まれていると、強調単語を文型情報において対応する代表単語にそれぞれタギングして再配置する(S503)。
以上のような本発明に係る付加情報提供機能付きのテキスト/音声変換装置及び方法を移動通信端末に適用して具現する実施例について、添付図面に基づいて説明する。
(実施例1)
例えば、下記のようなテキストが入力され、強調単語選択モジュール300を介して強調単語を選択し、選択された強調単語のみをディスプレイする場合について説明する。
「GE百色家電は、両開きドアの冷蔵庫である「GEプロファイルアティカ」を市販すると9日明らかにした。」
このようなテキストが入力されると、音声合成モジュール100では、入力されるテキストを音声合成するために、形態素解析部110を介し、各形態素に応じて名詞、形容詞、副詞、及び助詞などの品詞に区分するが、区分結果を示すと、次の通りである。
「GE/外来語+百色/名詞+家電/名詞+は/助詞+両開きドア/名詞+冷蔵庫/名詞+である/述語+GE/外来語+プロファイル/名詞+アティカ/固有名詞+を/助詞+市販する/述語+と/連結語尾+9/数詞+日/名詞+明らかにし/述語+た/語末語尾」
このように、形態素解析部110を介して形態素の解析を行った後、構文解析部130では、入力されるテキストデータの構文構造を解析し、これに基づいて、音声合成部150では、音声合成を行うことにより、音声合成分析データが生成される。
強調単語選択モジュール300の強調単語選択部330では、音声合成モジュール100から得られる音声合成分析データを用いて、入力されるテキストデータから形態素に区切られた単語のうち、予め指定された特定の品詞に該当する単語を検出する。
本実施例において、特定の品詞として、固有名詞、外来語、及び数字が指定されると、強調単語選択部330では、入力されるテキストから「GE/アティカ/9日」を指定された特定の品詞に該当する単語として検出する。
追加的に、使用者にとって認識し難いと予想される単語を強調単語として選択しようとする場合は、強調単語選択部330では、入力されるテキストデータ単語の合成音マッチング率を式(1)により調べる。
合成音マッチング率を調べた結果、図8に示すように、両開きドアのマッチング率が20%に算出されると、設定されたしきい値の数値が50%の場合、算出されたマッチング率がしきい値よりも低いので、両開きドアは、合成音の歪みが予想される単語として検出される。
このような過程により、特定の品詞に該当し、合成音歪みが予想されて強調すべき単語として「GE/アティカ/9日/両開きドア」が検出される。
追加的に、選択された強調単語のうち、入力されるテキストの中でよく使われているか、または強調されている所定のしきい値以上の強調頻度を有する単語を強調する必要のない単語として選別しようとすれば、強調単語選択部330では、ヒストリマネージャ350を介して検出された強調単語のうち、強調頻度がしきい値を超過する単語を選別する。
本実施例において、選択された強調単語が共にしきい値未満の強調頻度を有すると、最終的に強調すべき単語として「GE/アティカ/9日/両開きドア」が選択される。
構造化モジュール700では、選択された強調単語を音声合成モジュール100から得られるタイミング情報と共に構造化し、ディスプレイモジュール900では、構造化された強調単語からタイミング情報を抽出し、音声合成モジュール100から出力される合成音と共に強調単語を表示部950にディスプレイする。
即ち、図9(a)に示すように、表示部950に強調単語がディスプレイされる。
追加的に、メタDB730から所定のレイアウト様式を検出し、検出されたレイアウト様式に適用させて選択された強調単語をディスプレイすることができる。
(実施例2)
例えば、下記のようなテキストが入力され、強調単語選択モジュール300を介して強調単語を選択し、選択された強調単語を文型情報に適用して再配置した後、ディスプレイする場合を例示して説明する。
以下に、選択された強調単語が情報類型の決定過程において選択された実際の情報の代表単語に該当することを前提し、強調単語を選択する過程を省き、強調単語を文型情報に適用してディスプレイする過程のみを説明する。
「今日は、北東ないし南東風が吹き、雲が多く、午後一時にわか雨のところがあり、朝に霧が立ち込めるところがありそうです。」
先ず、情報類型決定モジュール500では、音声合成モジュール100から得られる音声合成分析データとドメインDB510から検出されるドメイン情報に基づき、入力されるテキストの単語を実際の意味単位に区切るが、この結果を例示すると、次の通りである。
/今日は/北東ないし南東風が/吹き/雲が/多く/午後一時/にわか雨/が降る/ことろが/あり/朝に/霧が/立ち込める/ことろが/ありそうです。/
入力されるテキストを実際の意味単位に区切り、それぞれ区切られた各意味単位の代表意味を決定し、決定された代表意味を各意味単位にタギングするが、この結果を例示すると、次の通りである。
/DATE/WIND/吹き/CLOUD/多く/DATE/SHOWER/降る/LOC/あり/DATE/FOG/立ち込める/LOC/ありそうです。/
また、各意味単位に区切られた入力テキストから各意味単位の代表単語をドメインDB510に格納された用語及び熟語情報に基づいて選択すると、次のように決定される。
/今日/北東ないし南東風/吹く/雲/多い/午後一時/にわか雨/降る/ところ/ある/朝/霧/立ち込める/ところ/ある。/
このような過程によって選択される代表単語のうち、実際の情報として使用者に提供される単語が選択されるが、文型情報生成部550では、ドメインDB510から入力されるテキストデータの構文及び意味構造に適用可能な文法規則を検出する。
本実施例において提供されるテキストに該当する文法規則として、下記のような文法規則が天気予報の情報類型から検出されると、入力されるテキストの情報類型は、天気予報に決定される。
- 副詞語{DATE}主語{WIND}吹く→DATE WIND
- 副詞語{DATE}主語{SHOWER}降る→DATE SHOWER
- 副詞語{DATE}主語{FOG}立ち込める→DATE FOG
情報類型が決定されると、入力されるテキストデータを検出された文法規則に適用するが、この結果を例示すると次の通りである。
INFO[今日/DATE]はINFO[北東ないし南東風/WIND]が吹きINFO[雲/CLOUD]が多くINFO[午後一時/DATE]INFO[にわか雨/SHOWER]が降るところがあり、INFO[朝/DATE]にINFO[霧/FOG]が立ち込めるところがありそうです。
このように、文法規則が適用される過程で入力されるテキストの情報類型が決定され、実際の情報として表現する代表単語(今日/DATE、北東ないし南東風/WIND、雲/CLOUD、午後一時/DATE、にわか雨/SHOWER、朝/DATE、霧/FOG)が選択される。
情報類型が決定され、実際の情報として表現される代表単語が選択されると、選択された代表単語を決定された情報類型に最も適宜にディスプレイするための文型情報を生成する。
例えば、前記例文において生成される文型情報は、「DATE WEATHER」型である。
このような過程によって文型情報が生成されると、文型情報適用部910では、選択された強調単語を生成された文型情報に適用して再配置する。
本実施例においては、選択された強調単語が文型情報に基づき、実際の情報として表現される代表単語に選択された単語と合致する場合、文型情報に強調単語及び音声合成モジュール100から得られる各強調単語のタイミング情報をタグ付け(tagging)して構造化する。
構造化された強調単語は、次の通りである。
<DATE WEATHER ITEM="3">
<DATE VALUE="0" SYNC="1035">今日</DATE>
<WEATHER EVAL="CLOUD" SYNC="1497">北東ないし南東風、雲</WEATHER>
:
</DATEWEATHER>
ディスプレイモジュール900は、構造化された強調単語をタイミング情報に応じて、合成音と共に同期化させてディスプレイする。
このとき、ディスプレイ結果は、図9(b)に示す通りである。
(実施例3)
例えば、下記のようなテキストが入力され、強調単語選択モジュール300を介して強調単語を選択し、選択された強調単語を文型情報に適用し、メタ情報と共に構造化してディスプレイする場合を例示して説明する。
以下には、選択された強調単語が情報類型決定過程で選択された実際の情報の代表単語に該当することを前提として、強調単語を選択する過程を省き、強調単語を文型情報及びメタ情報に適用してディスプレイする過程についてのみ説明する。
「今日の総合株価指数は、先週末に比べ8.88ポイント上がった717.35ポイント、コスダック指数は、0.97ポイント上昇した72.99ポイントを記録しました。」
音声合成モジュール100では、入力されるテキストを形態素及び構文解析し、音声に合成する。
強調単語選択モジュール300では、強調単語選択部330を介して、入力されるテキストの中で強調する単語を選択し、情報類型決定モジュール500では、ドメインDB510を介して、入力されるテキストの情報類型を決定し、文型情報を生成する。
ここで、入力されるテキストに対する情報類型決定過程をより詳しく説明すると、音声合成モジュール(TTS)100から得られる形態素構文情報及びドメインDB510の意味単位DBを用いて、入力されるテキストの単語を実際の意味単位に区切るが、この結果を例示すると、次の通りである。
「/今日/総合株価指数は/先週末に比べ/8.88ポイント/上がった/717.35ポイント/、/コスダック指数は/0.97ポイント/上昇した/72.99ポイントを/記録しました。/」
入力テキストを実際の意味単位に区切り、その後、ドメインDB510に基づいて、意味単位に区切られた入力テキストの中で代表意味を決定し、決定された代表意味を各意味単位に区切る(タギング)するが、この代表意味をタギングした結果を例示すると、次の通りである。
「/DATE/INDEX/DATE/VALUE/上がった/VALUE/、/INDEX/VALUE/上昇した/VALUE/記録する/」
また、入力テキストの各意味単位の代表単語を選択するが、選択された代表単語が適用された結果を例示すると、次の通りである。
「今日/総合株価指数/先週末/8.88ポイント/上がった/717.35ポイント/、/コスダック指数/0.97/上昇/72.99ポイント/記録/」
また、ドメインDB510において、入力されるテキストの構文構造及び意味構造が適用される文法規則を抽出し、抽出された文法規則を各意味単位に区切られた入力テキストに適用して、入力されるテキストの中で実際の情報に該当する部分のみをディスプレイする。
即ち、入力されるテキストの構文構造が証券市況の情報類型において提供される下記のような文法規則に合致すると、入力されるテキストの情報類型は、証券市況であると決定される。
- 副詞語{DATE}主語{INDEX}連体修飾節 補語{VALUE}→DATE INDEX VALUE
- 主語{INDEX}連体修飾節 目的語 {VALUE}記録する。→INDEX VALUE
このように検出された文法規則を、入力テキストに適用すると、次の通りである。
「INFO[今日/DATE]INFO[総合株価指数/INDEX]は、先週末8.88ポイント上がったINFO[717.35ポイント/VALUE]、INFO[コスダック指数/INDEX]は、0.97ポイント上昇したINFO[72.99ポイント/DATE]記録しました。」
この結果、実際の情報としてディスプレイされる代表単語(今日/DATE、総合株価指数/INDEX、コスダック指数/INDEX、72.00ポイント/VALUE)を選択し、代表単語を決定された情報類型に最も適宜にディスプレイするための文型情報としてINDEX VALUE型が生成される。
このような過程によって文型情報が生成されると、構造化モジュール700の文型情報適用部710で文型情報が存在するか否かを判別した結果、強調単語選択モジュール300で選択された強調単語が適用される文型情報が存在するため、選択された強調単語が情報類型決定モジュール500で生成された文型情報に適用可能であるか否かを判別する。
もし、強調単語選択モジュール300で選択された強調単語が情報類型決定モジュール500で実際の情報としてディスプレイされる代表単語に選択された単語に含まれると、文型情報適用部710では、強調単語を生成された文型情報にタギングさせる。
しかし、選択された強調単語が情報類型決定モジュール500において代表単語として選択された単語に含まれていないと、その強調単語を決定された情報類型の構文構造に従って再配置する。
このように、文型情報に強調単語をタギングするか、または構文構造に従って情報単語を再配置すると、情報構造化部750では、強調単語を決定された情報類型に従ってレイアウトするためのメタ情報をメタDB730から抽出し、抽出されたメタ情報に強調単語をタギングする。
強調単語をメタ情報にタギングする過程において、各強調単語に指定される当該の合成音とタイミング情報が共に設定される。
例えば、証券市場関連情報類型の場合、情報を、DATEをTITLEとし、INDEX及びVALUEがテーブル構造として各項目別に共に提供すると、テーブル形式に表れるレイアウト様式がメタDB730から抽出され、抽出されたレイアウトに強調単語及びタイミング情報が下記のように入力される。
<TITLE SYNC="510">今日</TITLE>
<INDEXVALUE ITEM="2">
<INDEX SYNC="1351">総合株価指数</INDEX>
<VALUE SYNC="INHERIT">717.35ポイント</VALUE>
:
</INDEXVALUE>
この結果、選択された強調単語は、合成音出力時に当該の合成音と共に、図9(c)に示すように、総合株価指数の項目に該当するVALUEが「INHERIT」タグによってINDEXと共に示される方式でディスプレイされる。なお、実施例3では、例文中「コスダック」として説明したが、「ナスダック」など他の名称としても構わないことはもちろんである。
以上のような本発明は、添付図面に基づく実施の形態によるものであり、これに限定されるものでなく、このような本発明の基本的な技術的思想を逸脱しない範囲内で、当業界の通常の知識を有する者にとっては、他の多くの変更が可能であろう。また、本発明は、添付の特許請求の範囲に基づいて解析されるべきであることは言うまでもない。
従来のTTS装置の概略的な構成及びその動作処理過程を示す図である。 本発明に係る付加情報提供機能付きのテキスト/音声変換装置の概略的な構成を説明するためのブロック図である。 本発明の実施の形態に従う付加情報提供機能付きのテキスト/音声変換方法の動作過程を説明するための動作フローチャートである。 図3のS30ステップを説明するための動作フローチャートである。 本発明の他の実施の形態に従う付加情報提供機能付きのテキスト/音声変換方法の動作過程を説明するための動作フローチャートである。 図5のステップS300を説明するための動作フローチャートである。 図4のステップS500を説明するための動作フローチャートである。 本発明の他の実施の形態に従うマッチング率算出結果を示す図である。 (a)〜(c)は、本発明の各実施の形態に従い、最終的に付加情報がディスプレイされた様子を示す図である。
符号の説明
100 音声合成モジュール
110 形態素解析部
130 構文解析部
150 音声合成部
170 合成音発生部
190 スピーカー(SP)
300 強調単語選択モジュール
310 ヒストリ(History)DB
330 強調単語選択部
350 ヒストリマネージャ(History manager)
500 情報類型決定モジュール
510 ドメイン(Domain)DB
530 意味解析部
550 文型情報生成部
700 構造化モジュール
710 文型情報適用部
730 メタ(meta)DB
750 情報構造化部
900 ディスプレイモジュール
910 同期化部
930 映像信号処理部
950 表示部

Claims (19)

  1. テキストデータを形態素及び構文解析し、これにより得られる音声合成分析データを用いて、前記テキストデータを音声に合成して出力する音声合成モジュールと、
    前記音声合成モジュールから得られる前記音声合成分析データを用いて、前記テキストデータの中で特定の品詞の単語を強調単語として選択する強調単語選択モジュールと、
    前記選択された強調単語を前記合成音と同期させて、ディスプレイするディスプレイモジュールとを備えることを特徴とする付加情報提供機能付きのテキスト/音声変換装置。
  2. テキストデータを形態素及び構文解析し、これにより得られる音声合成分析データを用いて、前記テキストデータを音声に合成して出力する音声合成モジュールと、
    前記音声合成モジュールから得られる前記音声合成分析データを用いて、前記テキストデータの中で特定の品詞の単語を強調単語として選択する強調単語選択モジュールと、
    前記音声合成モジュールから得られる前記音声合成分析データを用いて、前記テキストデータの情報類型を決定し、文型情報を生成する情報類型決定モジュールと、
    前記選択された強調単語を、前記生成された文型情報に従って再配置し、前記合成音と同期させてディスプレイするディスプレイモジュールとを備えることを特徴とする付加情報提供機能付きのテキスト/音声変換装置。
  3. 前記選択された強調単語を所定のレイアウト様式に適用して構造化する構造化モジュールをさらに備えることを特徴とする請求項1または請求項2に記載の付加情報提供機能付きのテキスト/音声変換装置。
  4. 前記強調単語は、前記音声合成モジュールから得られる音声合成分析データを用いて、前記テキストデータの単語の中で合成音歪みが予想される単語を含むことを特徴とする請求項1または請求項2に記載の付加情報提供機能付きのテキスト/音声変換装置。
  5. 前記強調単語は、前記選択された強調単語の中、前記音声合成モジュールから得られる前記テキストデータの各単語に対する強調頻度情報を用いて、所定のしきい値未満の強調頻度を有する単語に選別されることを特徴とする請求項1または請求項2に記載の付加情報提供機能付きのテキスト/音声変換装置。
  6. 前記情報類型決定モジュールは、情報類型別に区分された様々な分野の構文構造、文法規則、用語及び熟語情報がドメイン情報として格納されるドメインDBと、
    前記音声合成モジュールから得られる音声合成分析データを用いて、前記ドメインDBから前記テキストデータに該当するドメイン情報を検出して情報類型を決定し、文型情報を生成する文型情報生成部と、を備えることを特徴とする請求項2に記載の付加情報提供機能付きのテキスト/音声変換装置。
  7. 前記構造化モジュールは、情報類型に従い、選択された強調単語を構造的にディスプレイするためのレイアウト及び付加的に表示する内容がメタ情報として格納されるメタDBと、
    前記強調単語選択モジュールで選択された強調単語を前記文型情報に従い再配置する文型情報適用部と、
    前記決定された情報類型に該当するメタ情報を前記メタDBから検出し、検出されたメタ情報に前記再配置された強調単語を適用させる情報構造化部とを備えることを特徴とする請求項3に記載の付加情報提供機能付きのテキスト/音声変換装置。
  8. 前記合成音歪みが予想される単語は、各音片の合成音出力予測値と、実際値との差として決定されるマッチング率が所定のしきい値未満の単語であることを特徴とする請求項4に記載の付加情報提供機能付きのテキスト/音声変換装置。
  9. 前記出力予測値と実際値との差は、下記式
    ΣQ(sizeof(Entry)・|予測値−実際値|・C)/N
    [ここで、Cはマッチング値(connectivity)であり,Nは標準値(normalization)である]
    により算出されることを特徴とする請求項8に記載の付加情報提供機能付きのテキスト/音声変換装置。
  10. テキストデータを形態素及び構文解析し、これにより得られる音声合成分析データを用いて、前記テキストデータを音声に合成して出力する音声合成ステップと、
    前記音声合成分析データを用いて、前記テキストデータの中で特定の品詞の単語を強調単語として選択する強調単語選択ステップと、
    前記選択された強調単語を前記合成音と同期させてディスプレイするディスプレイステップとを含むことを特徴とする付加情報提供機能付きのテキスト/音声変換方法。
  11. テキストデータを形態素及び構文解析し、これにより得られる音声合成分析データを用いて、前記テキストデータを音声に合成して出力する音声合成ステップと、
    前記音声合成分析データを用いて、前記テキストデータの中で特定の品詞の単語を強調単語として選択する強調単語選択ステップと、
    前記音声合成ステップで得られる音声合成分析データを用いて、前記テキストデータの情報類型を決定し、文型情報を生成する文型情報生成ステップと、
    前記選択された強調単語を前記文型情報に従って再配置し、前記合成音と同期させてディスプレイするディスプレイステップとを含むことを特徴とする付加情報提供機能付きのテキスト/音声変換方法。
  12. 前記選択された強調単語を所定のレイアウト様式に適用して構造化する構造化ステップをさらに含むことを特徴とする請求項10または請求項11に記載の付加情報提供機能付きのテキスト/音声変換方法。
  13. 前記強調単語選択ステップは、前記音声合成ステップから得られる音声合成分析データを用いて、前記テキストデータの単語の中で合成音歪みが予想される単語を選択するステップをさらに含むことを特徴とする請求項10または請求項11に記載の付加情報提供機能付きのテキスト/音声変換方法。
  14. 前記強調単語選択ステップは、前記選択された強調単語を、前記音声合成ステップから得られる前記テキストデータの各単語に対する強調頻度情報を用いて、所定のしきい値未満の強調頻度を有する単語に選別することを特徴とする請求項10または請求項11に記載の付加情報提供機能付きのテキスト/音声変換方法。
  15. 前記文型情報生成ステップは、ドメインDB及び前記音声合成ステップで得られる音声合成分析データに基づいて、前記テキストデータを意味単位に区切るステップと、
    前記区切られた各意味単位の代表意味を決定し、各意味単位にタギングし、各意味単位の中で代表単語を選択するステップと、
    前記テキストの構文形式に合致する文法規則を前記ドメインDBから検出し、検出された文法規則を前記テキストデータに適用して実際の情報を決定するステップと、
    前記決定された実際の情報に基づき、前記テキストデータの情報類型を決定して文型情報を生成するステップとを含むことを特徴とする請求項11に記載の付加情報提供機能付きのテキスト/音声変換方法。
  16. 前記構造化ステップは、前記選択された強調単語が前記生成された文型情報の情報類型に適用されるか否かを判別するステップと、
    前記判別結果に従って前記強調単語を文型情報にタギングするか、または決定された情報類型に従って再配置するステップと、
    前記再配置された強調単語をメタDBから検出される前記情報類型に該当するメタ情報に適用して構造化するステップとを含むことを特徴とする請求項12に記載の付加情報提供機能付きのテキスト/音声変換方法。
  17. 前記合成音歪みが予想される単語は、各音片の合成音出力予測値と実際値との差として決定されるマッチング率が所定のしきい値未満の単語であることを特徴とする請求項13に記載の付加情報提供機能付きのテキスト/音声変換方法。
  18. 前記ドメインDBは、情報類型別に区分された様々な分野の構文構造、文法規則、用語及び熟語情報がドメイン情報として格納されていることを特徴とする請求項15に記載の付加情報提供機能付きのテキスト/音声変換方法。
  19. 前記メタDBは、情報類型に従い、選択された強調単語を構造的にディスプレイするためのレイアウト及び付加的に表示する内容がメタ情報として格納されることを特徴とする請求項18に記載の付加情報提供機能付きのテキスト/音声変換方法。

JP2003387094A 2002-11-15 2003-11-17 付加情報提供機能付きのテキスト/音声変換装置及びその方法 Ceased JP2004170983A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0071306A KR100463655B1 (ko) 2002-11-15 2002-11-15 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법

Publications (1)

Publication Number Publication Date
JP2004170983A true JP2004170983A (ja) 2004-06-17

Family

ID=36590828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003387094A Ceased JP2004170983A (ja) 2002-11-15 2003-11-17 付加情報提供機能付きのテキスト/音声変換装置及びその方法

Country Status (5)

Country Link
US (1) US20040107102A1 (ja)
EP (1) EP1473707B1 (ja)
JP (1) JP2004170983A (ja)
KR (1) KR100463655B1 (ja)
DE (1) DE60305645T2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199410A (ja) * 2006-01-26 2007-08-09 Internatl Business Mach Corp <Ibm> テキストに付与する発音情報の編集を支援するシステム
US8676578B2 (en) 2010-09-28 2014-03-18 Kabushiki Kaisha Toshiba Meeting support apparatus, method and program
JP2014163978A (ja) * 2013-02-21 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 強調位置予測装置、その方法、およびプログラム
JP2016029413A (ja) * 2014-07-25 2016-03-03 日本電信電話株式会社 強調位置予測装置、強調位置予測方法及びプログラム
WO2017179262A1 (ja) * 2016-04-12 2017-10-19 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005010691A (ja) * 2003-06-20 2005-01-13 P To Pa:Kk 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
US7207004B1 (en) * 2004-07-23 2007-04-17 Harrity Paul A Correction of misspelled words
US20060136212A1 (en) * 2004-12-22 2006-06-22 Motorola, Inc. Method and apparatus for improving text-to-speech performance
US20070260460A1 (en) * 2006-05-05 2007-11-08 Hyatt Edward C Method and system for announcing audio and video content to a user of a mobile radio terminal
US20080243510A1 (en) * 2007-03-28 2008-10-02 Smith Lawrence C Overlapping screen reading of non-sequential text
US8136034B2 (en) 2007-12-18 2012-03-13 Aaron Stanton System and method for analyzing and categorizing text
KR20090085376A (ko) * 2008-02-04 2009-08-07 삼성전자주식회사 문자 메시지의 음성 합성을 이용한 서비스 방법 및 장치
CN101605307A (zh) * 2008-06-12 2009-12-16 深圳富泰宏精密工业有限公司 文本短信语音播放系统及方法
JP5535241B2 (ja) * 2009-12-28 2014-07-02 三菱電機株式会社 音声信号復元装置および音声信号復元方法
US20110184738A1 (en) * 2010-01-25 2011-07-28 Kalisky Dror Navigation and orientation tools for speech synthesis
CN102324191B (zh) * 2011-09-28 2015-01-07 Tcl集团股份有限公司 一种有声读物逐字同步显示方法及系统
US9575961B2 (en) * 2014-08-28 2017-02-21 Northern Light Group, Llc Systems and methods for analyzing document coverage
KR20160056551A (ko) * 2014-11-12 2016-05-20 삼성전자주식회사 잠금 해제 수행 방법 및 사용자 단말
JP6369311B2 (ja) * 2014-12-05 2018-08-08 三菱電機株式会社 音声合成装置および音声合成方法
US11544306B2 (en) 2015-09-22 2023-01-03 Northern Light Group, Llc System and method for concept-based search summaries
US11886477B2 (en) 2015-09-22 2024-01-30 Northern Light Group, Llc System and method for quote-based search summaries
US11226946B2 (en) 2016-04-13 2022-01-18 Northern Light Group, Llc Systems and methods for automatically determining a performance index

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2996978B2 (ja) * 1988-06-24 2000-01-11 株式会社リコー テキスト音声合成装置
EP0542628B1 (en) * 1991-11-12 2001-10-10 Fujitsu Limited Speech synthesis system
JPH05224689A (ja) * 1992-02-13 1993-09-03 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置
JPH064090A (ja) * 1992-06-17 1994-01-14 Nippon Telegr & Teleph Corp <Ntt> テキスト音声変換方法および装置
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US5949961A (en) * 1995-07-19 1999-09-07 International Business Machines Corporation Word syllabification in speech synthesis system
US5680628A (en) * 1995-07-19 1997-10-21 Inso Corporation Method and apparatus for automated search and retrieval process
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
JP3001047B2 (ja) * 1997-04-17 2000-01-17 日本電気株式会社 文書要約装置
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
JP2000112845A (ja) * 1998-10-02 2000-04-21 Nec Software Kobe Ltd 音声通知付電子メールシステム
ATE298453T1 (de) * 1998-11-13 2005-07-15 Lernout & Hauspie Speechprod Sprachsynthese durch verkettung von sprachwellenformen
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
AU2931600A (en) * 1999-03-15 2000-10-04 British Telecommunications Public Limited Company Speech synthesis
KR20010002739A (ko) * 1999-06-17 2001-01-15 구자홍 음성인식기를 이용한 자동 캡션 삽입 장치 및 방법
JP3314058B2 (ja) * 1999-08-30 2002-08-12 キヤノン株式会社 音声合成方法及び装置
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US7334050B2 (en) * 2000-06-07 2008-02-19 Nvidia International, Inc. Voice applications and voice-based interface
JP3589972B2 (ja) * 2000-10-12 2004-11-17 沖電気工業株式会社 音声合成装置
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US7062437B2 (en) * 2001-02-13 2006-06-13 International Business Machines Corporation Audio renderings for expressing non-audio nuances
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method
JP2003016008A (ja) * 2001-07-03 2003-01-17 Sony Corp 情報処理装置および情報処理方法、並びにプログラム
US6985865B1 (en) * 2001-09-26 2006-01-10 Sprint Spectrum L.P. Method and system for enhanced response to voice commands in a voice command platform
US7028038B1 (en) * 2002-07-03 2006-04-11 Mayo Foundation For Medical Education And Research Method for generating training data for medical text abbreviation and acronym normalization
US7236923B1 (en) * 2002-08-07 2007-06-26 Itt Manufacturing Enterprises, Inc. Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7558732B2 (en) * 2002-09-23 2009-07-07 Infineon Technologies Ag Method and system for computer-aided speech synthesis

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199410A (ja) * 2006-01-26 2007-08-09 Internatl Business Mach Corp <Ibm> テキストに付与する発音情報の編集を支援するシステム
US8676578B2 (en) 2010-09-28 2014-03-18 Kabushiki Kaisha Toshiba Meeting support apparatus, method and program
JP2014163978A (ja) * 2013-02-21 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 強調位置予測装置、その方法、およびプログラム
JP2016029413A (ja) * 2014-07-25 2016-03-03 日本電信電話株式会社 強調位置予測装置、強調位置予測方法及びプログラム
WO2017179262A1 (ja) * 2016-04-12 2017-10-19 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN108885594A (zh) * 2016-04-12 2018-11-23 索尼公司 信息处理装置、信息处理方法和程序
JPWO2017179262A1 (ja) * 2016-04-12 2019-02-14 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US11100944B2 (en) 2016-04-12 2021-08-24 Sony Corporation Information processing apparatus, information processing method, and program

Also Published As

Publication number Publication date
US20040107102A1 (en) 2004-06-03
EP1473707A1 (en) 2004-11-03
KR100463655B1 (ko) 2004-12-29
DE60305645T2 (de) 2007-05-03
DE60305645D1 (de) 2006-07-06
EP1473707B1 (en) 2006-05-31
KR20040042719A (ko) 2004-05-20

Similar Documents

Publication Publication Date Title
JP2004170983A (ja) 付加情報提供機能付きのテキスト/音声変換装置及びその方法
US8027837B2 (en) Using non-speech sounds during text-to-speech synthesis
JP4678193B2 (ja) 音声データ認識装置、ノート表示装置、音声データ認識プログラム、及びノート表示プログラム
US7200558B2 (en) Prosody generating device, prosody generating method, and program
EP1463031A1 (en) Front-end architecture for a multi-lingual text-to-speech system
US20030191645A1 (en) Statistical pronunciation model for text to speech
US20100066742A1 (en) Stylized prosody for speech synthesis-based applications
Blache et al. Creating and exploiting multimodal annotated corpora: the ToMA project
CN112466279B (zh) 一种英语口语发音自动纠正方法和装置
KR100897149B1 (ko) 텍스트 분석 기반의 입 모양 동기화 장치 및 방법
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
JP3071804B2 (ja) 音声合成装置
KR102086601B1 (ko) 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템
EP0982684A1 (en) Moving picture generating device and image control network learning device
Kolář Automatic segmentation of speech into sentence-like units
JP2008257116A (ja) 音声合成システム
JP3060276B2 (ja) 音声合成装置
JPH03167666A (ja) 情報案内・提供方法
Sloan et al. Incorporating prosodic events in text-to-speech synthesis
Khamdamov et al. Syllable-Based Reading Model for Uzbek Language Speech Synthesizers
JP2005181998A (ja) 音声合成装置および音声合成方法
Mahar et al. WordNet based Sindhi text to speech synthesis system
US8635071B2 (en) Apparatus, medium, and method for generating record sentence for corpus and apparatus, medium, and method for building corpus using the same
JPH08185197A (ja) 日本語解析装置、及び日本語テキスト音声合成装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061011

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070111

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070405

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070417

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070515

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070911

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070925

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20071214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090501

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20091027