JP2004170983A - 付加情報提供機能付きのテキスト/音声変換装置及びその方法 - Google Patents
付加情報提供機能付きのテキスト/音声変換装置及びその方法 Download PDFInfo
- Publication number
- JP2004170983A JP2004170983A JP2003387094A JP2003387094A JP2004170983A JP 2004170983 A JP2004170983 A JP 2004170983A JP 2003387094 A JP2003387094 A JP 2003387094A JP 2003387094 A JP2003387094 A JP 2003387094A JP 2004170983 A JP2004170983 A JP 2004170983A
- Authority
- JP
- Japan
- Prior art keywords
- word
- information
- speech
- text
- emphasized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims description 63
- 238000006243 chemical reaction Methods 0.000 title claims description 35
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 127
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 127
- 238000004458 analytical method Methods 0.000 claims description 80
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 15
- 239000002131 composite material Substances 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000000877 morphologic effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 239000002245 particle Substances 0.000 description 5
- 241000220317 Rosa Species 0.000 description 4
- 238000007664 blowing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000003595 mist Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【解決手段】 テキスト/音声変換装置から得られる言語分析データ及び音声合成結果分析データを用いて、入力されるテキストから強調単語を選択し、選択された強調単語を、入力されるテキストの文型情報及び所定のレイアウト様式に応じて構造化して提供する。
また、前記選択された強調単語を所定のレイアウト様式に適用して構造化して提供してもよい。
【選択図】 図2
Description
以下、一般的なTTSの概略構成及びその動作処理過程について、図1を参照しながら韓国語テキストを音声合成するシステムを挙げて説明する。
音声合成データ生成部8では、文字/音韻変換部7で変換された音韻に対する韻律、合成単位及び文字、単語、文章の区切り情報及び各音声データの持続時間情報を生成し、基本周波数制御部10では、合成する音声の基本周波数を設定し制御する。
また、合成音生成部11では、多数の合成音データの格納された合成単位DB12から得られる音声合成単位や上述の構成要素から生成される音声合成データ、持続時間情報、及び基本周波数に基づいて音声合成を行う。
また、使用者が合成音として与えられる情報を認識するためには、出力される合成音に対し持続的に注意を集中し、合成音の内容を理解する努力を続けなければならない煩わしさがあった。
従って、TTSから提供される合成音による円滑なコミュニケーションのためには、補助手段が要求されている実情である。
特許文献1で示すようなシステムは、日常生活で使われている数多い目的物に該当する単語を表現するためには、膨大な容量のグラフィックデータベースが要求され、目的物に該当する単語毎に一々グラフィックデータベースに該当するグラフィック情報を検索しなければならないという不便があった。
また、本発明は、強調単語を構造的に配置して、合成音と共に提供することにより、構造的に表わされた強調単語から使用者が直観的に情報内容を認識できるようにして、TTSの情報伝達力を高くし、信頼度を向上することを他の目的とする。
また、本発明によると、構造的にディスプレイされる付加情報を通して、合成音に提供される情報の内容を使用者がより直観的に理解することが可能となり、これによりTTSの情報伝達力及び信頼性の向上を期待できる。
さらに、このような効果によりテキスト/音声変換装置の作業効率性を極大化することができる。
図2を参照して、本発明に係るテキスト/音声変換装置においては、音声合成モジュール100と、強調単語選択モジュール300と、ディスプレイモジュール900とに大別され、本発明による他の実施の形態を具現するために、情報類型決定モジュール500と、構造化モジュール700とをさらに備えている。
また、音声合成部150では、形態素解析部110及び構文解析部130の形態素と構文の解析過程で得られる言語分析データを用いて音声合成を行い、それぞれの音素に該当する合成音データを合成単位DB12(図1参照)から選択して組み合わせる。
また、合成音発生部170では、音声合成部150から得られる音声合成結果分析データをスピーカー190に出力可能に信号処理し、合成音として出力する。
ヒストリDB310は、音声合成モジュール100から入力されるテキストデータのうち、頻繁に使われるか、または強調される単語の強調頻度情報を格納する。
強調単語選択部330は、音声合成モジュール100から得られる音声合成分析データを用いて、特定の品詞に該当するか、または合成音歪みが予期される(即ち、合成音により予測される出力値と実際の出力値との間の差により算出されるマッチング率が低い)単語を強調単語として検出する。また、ヒストリマネージャ350を介して選別される強調する必要がない単語を参照しながら強調単語を選択する。
ΣQ(sizeof(Entry)・|予測値−実際値|・C)/N 式(1)
(C=マッチング値(connectivity),N=標準値(normalization))
ヒストリマネージャ350は、ヒストリDB310に格納された強調頻度情報に基づいて、強調単語選択部330から選択された強調単語のうち、強調頻度がしきい値以上の値を有する単語を強調する必要のない単語として選別する。
情報類型決定モジュール500では、音声合成モジュール100から得られる音声合成分析データを用いて、入力されるテキストデータの情報類型を決定し、文型情報を生成し、図2に示すように、ドメインDB510、意味解析部530、文型情報生成部550から構成される。
例えば、「The Nasdaq composite index closed down 40.30 to 1,356.95.」のような証券市場に関わるテキストが入力されると、入力されたテキストの情報類型は、証券市況であり、文型情報は、入力されるテキストの情報類型である証券市況における実際の情報に該当する名詞句(INDEX)及び数値(VALUE)の一般的な構成であるINDEX VALUE類型となる。
ここで、文法規則は、入力されるテキストの構文構造から情報に該当する項目を抽出できるように、各ドメインの情報構造を文法(grammar)化したものである。
- NP{INDEX}VP{Verb(close)PP{*}PP{to VALUE}}→INDEX VALUE
- NP{INDEX}VP{Verb(end)PP{*}PP{to VALUE}}→INDEX VALUE
文型情報生成部550は、音声合成モジュール100から得られる音声合成分析データ及びドメインDB510に格納されたドメイン情報に基づき、入力されるテキストデータから実際の情報に該当する代表単語を選択し、情報類型を決定して文型情報を生成する。
文型情報適用部710は、情報類型決定モジュール500から生成される文型情報が存在するか否かを判別し、文型情報が存在すると、強調単語選択モジュール300から選択された強調単語を文型情報に適用させた後、情報構造化部750に出力し、文型情報が存在しないと、文型情報が適用されていない強調文字のみを情報構造化部750に出力する。
また、各メタ情報を合成音と共に、適宜にディスプレイするためのメタ情報のタイミング情報も格納される。
このような過程により指定されたレイアウト様式にタイミング情報と共に構造化された強調単語は、次の通りである。
<INDEX SYNC="12345">INDEX(NASDAQ) </INDEX>
<VALUE SYNC="12438">VALUE(1,356.95)</VALUE>
</INDEXVALUE>
同期化部910では、メタ情報及び強調単語の各タイミング情報を抽出し、音声合成モジュール100のスピーカー190を介して出力される合成音や強調単語及びメタ情報が適宜にディスプレイされるように同期化させる。
表示部950は、映像信号処理部930から出力されるディスプレイ情報に従い、強調単語を視覚的にディスプレイする。
例えば、前記構造化モジュール700から出力される構造化された前記例文は、次のように、表示部950を介してディスプレイされる。
[NASDAQ | 1,356.95](例えば、図9(c)参照)
図3は、本発明による実施の形態1に従う付加情報提供機能付きのテキスト/音声変換方法の動作過程を示すフローチャートである。
強調単語選択部330を介して強調単語が選択されると、選択された強調単語及び音声合成モジュール100から得られるタイミング情報を用いて、強調単語を同期化させる(S50)。
さらに、追加的にメタDB730から所定のレイアウト様式に該当するメタ情報を検出し、選択された強調単語を検出されたメタ情報に適用して構造化する(S70)。
その後、検出された音声合成分析データに基づき、音声合成モジュール100の形態素解析部110で行われる形態素解析過程によって形態素区切りとなった各単語の品詞が特定の品詞に該当するか否かを判断し、指定された特定の品詞に該当する単語を強調単語として選択する(S32)。
そして、このような過程によって選択された強調単語から使用者が容易に認識できる単語を強調する必要のない単語として選別するために、強調単語選択部330では、検出された強調単語のうち、ヒストリマネージャ350を介して強調する必要がない単語(強調頻度がしきい値未満の単語)を選別する(S35)。
ヒストリマネージャ350での強調する必要のない単語を選別する過程によって、強調単語選択部330では、入力されるテキストから特定の品詞や使用者にとって認識し難いと予想される単語(強調する単語)を強調単語として選択する(S36)。
先ず、音声合成モジュール100を介して、入力されるテキストを音声に変換し(S100、図3のS10を参照)、強調単語選択部330では、音声合成モジュール100から得られる音声合成分析データを用いて、強調単語を選択する(S200、図3、図4のステップS30を参照)。
その後、構造化モジュール700の文型情報適用部710では、選択の強調単語が適用される文型情報が、情報類型決定モジュール500から生成されたかどうかによって、文型情報に適用可能であるか否かを判別する(S400)。
このように、文型情報が適用されたか、または適用されていない強調単語を音声合成モジュール100から得られるタイミング情報を用いて、同期化させる(S600、図3のステップS50を参照)。
ディスプレイモジュール900では、タイミング情報と共に、構造化された強調単語からタイミング情報を抽出し、音声合成モジュール100のスピーカー190に出力される合成音と適宜に同期化させて表示部950にディスプレイする(S800、図3のステップS90を参照)。
先ず、情報類型決定モジュール500の文型情報生成部550では、音声合成モジュール100から音声合成分析データを抽出し、入力されるテキストの意味構造に対する情報が追加的に要求されると、意味解析部530を介してテキストの意味構造を解析し、入力されるテキストの意味構造情報を抽出する(S301)。
入力されるテキストを意味単位(Chunk)に区切り、それぞれ区切られた各意味単位を表わす代表意味を決定し、決定された意味情報を各意味単位にタグ付けし(tagging)(S303)、ドメインDB510に基づいて各意味単位の代表単語を選択する(S304)。
- The Nasdaq composite index : INDEX,
- close : close,
- down : down,
- to : to,
- number class(40.30, 1,356.95) : VALUE.
/INDEX/close/down/VALUE/to/VALUE.
また、各意味単位に区切られた入力テキストにおいて、各意味単位の代表単語をドメインDB510に格納された用語及び熟語情報に基づいて選択すると、次のように決定される。
/NASDAQ/close/down/40.30/to/1,356.95/
前記代表単語の選択後、文型情報生成部550では、ドメインDB510から入力されるテキストの構文及び意味構造に適用可能な文法規則を検出し、検出された文法規則に従って情報類型及び実際の情報として表現する代表単語を選択する(S305)。
このように、文法規則が適用される過程において、入力されるテキストの情報類型が決定され、実際の情報として表現する代表単語[(INDEX,VALUE)]が選択される。
情報類型が決定され、実際の情報として表現される代表単語が選択されると、選択された代表単語を決定された情報類型に最も適宜にディスプレイするための文型情報を生成する(S306)。
図7は、図5の文型情報を適用するステップS500を詳しく示すものであり、以下、添付図面を参照しながら実施例について詳細に説明する。
先ず、強調単語選択モジュール300から選択された強調単語が生成された文型情報に合致するか否かを判断するために、選択された強調単語が、文型情報生成部550で生成された文型情報から選択され、実際の情報として表現される代表単語に含まれているか否かを判別する(S501)。
以上のような本発明に係る付加情報提供機能付きのテキスト/音声変換装置及び方法を移動通信端末に適用して具現する実施例について、添付図面に基づいて説明する。
例えば、下記のようなテキストが入力され、強調単語選択モジュール300を介して強調単語を選択し、選択された強調単語のみをディスプレイする場合について説明する。
「GE百色家電は、両開きドアの冷蔵庫である「GEプロファイルアティカ」を市販すると9日明らかにした。」
強調単語選択モジュール300の強調単語選択部330では、音声合成モジュール100から得られる音声合成分析データを用いて、入力されるテキストデータから形態素に区切られた単語のうち、予め指定された特定の品詞に該当する単語を検出する。
追加的に、使用者にとって認識し難いと予想される単語を強調単語として選択しようとする場合は、強調単語選択部330では、入力されるテキストデータ単語の合成音マッチング率を式(1)により調べる。
追加的に、選択された強調単語のうち、入力されるテキストの中でよく使われているか、または強調されている所定のしきい値以上の強調頻度を有する単語を強調する必要のない単語として選別しようとすれば、強調単語選択部330では、ヒストリマネージャ350を介して検出された強調単語のうち、強調頻度がしきい値を超過する単語を選別する。
構造化モジュール700では、選択された強調単語を音声合成モジュール100から得られるタイミング情報と共に構造化し、ディスプレイモジュール900では、構造化された強調単語からタイミング情報を抽出し、音声合成モジュール100から出力される合成音と共に強調単語を表示部950にディスプレイする。
即ち、図9(a)に示すように、表示部950に強調単語がディスプレイされる。
追加的に、メタDB730から所定のレイアウト様式を検出し、検出されたレイアウト様式に適用させて選択された強調単語をディスプレイすることができる。
例えば、下記のようなテキストが入力され、強調単語選択モジュール300を介して強調単語を選択し、選択された強調単語を文型情報に適用して再配置した後、ディスプレイする場合を例示して説明する。
以下に、選択された強調単語が情報類型の決定過程において選択された実際の情報の代表単語に該当することを前提し、強調単語を選択する過程を省き、強調単語を文型情報に適用してディスプレイする過程のみを説明する。
先ず、情報類型決定モジュール500では、音声合成モジュール100から得られる音声合成分析データとドメインDB510から検出されるドメイン情報に基づき、入力されるテキストの単語を実際の意味単位に区切るが、この結果を例示すると、次の通りである。
/今日は/北東ないし南東風が/吹き/雲が/多く/午後一時/にわか雨/が降る/ことろが/あり/朝に/霧が/立ち込める/ことろが/ありそうです。/
/DATE/WIND/吹き/CLOUD/多く/DATE/SHOWER/降る/LOC/あり/DATE/FOG/立ち込める/LOC/ありそうです。/
/今日/北東ないし南東風/吹く/雲/多い/午後一時/にわか雨/降る/ところ/ある/朝/霧/立ち込める/ところ/ある。/
本実施例において提供されるテキストに該当する文法規則として、下記のような文法規則が天気予報の情報類型から検出されると、入力されるテキストの情報類型は、天気予報に決定される。
- 副詞語{DATE}主語{SHOWER}降る→DATE SHOWER
- 副詞語{DATE}主語{FOG}立ち込める→DATE FOG
情報類型が決定されると、入力されるテキストデータを検出された文法規則に適用するが、この結果を例示すると次の通りである。
このように、文法規則が適用される過程で入力されるテキストの情報類型が決定され、実際の情報として表現する代表単語(今日/DATE、北東ないし南東風/WIND、雲/CLOUD、午後一時/DATE、にわか雨/SHOWER、朝/DATE、霧/FOG)が選択される。
情報類型が決定され、実際の情報として表現される代表単語が選択されると、選択された代表単語を決定された情報類型に最も適宜にディスプレイするための文型情報を生成する。
このような過程によって文型情報が生成されると、文型情報適用部910では、選択された強調単語を生成された文型情報に適用して再配置する。
本実施例においては、選択された強調単語が文型情報に基づき、実際の情報として表現される代表単語に選択された単語と合致する場合、文型情報に強調単語及び音声合成モジュール100から得られる各強調単語のタイミング情報をタグ付け(tagging)して構造化する。
構造化された強調単語は、次の通りである。
<DATE VALUE="0" SYNC="1035">今日</DATE>
<WEATHER EVAL="CLOUD" SYNC="1497">北東ないし南東風、雲</WEATHER>
:
</DATEWEATHER>
このとき、ディスプレイ結果は、図9(b)に示す通りである。
例えば、下記のようなテキストが入力され、強調単語選択モジュール300を介して強調単語を選択し、選択された強調単語を文型情報に適用し、メタ情報と共に構造化してディスプレイする場合を例示して説明する。
音声合成モジュール100では、入力されるテキストを形態素及び構文解析し、音声に合成する。
ここで、入力されるテキストに対する情報類型決定過程をより詳しく説明すると、音声合成モジュール(TTS)100から得られる形態素構文情報及びドメインDB510の意味単位DBを用いて、入力されるテキストの単語を実際の意味単位に区切るが、この結果を例示すると、次の通りである。
入力テキストを実際の意味単位に区切り、その後、ドメインDB510に基づいて、意味単位に区切られた入力テキストの中で代表意味を決定し、決定された代表意味を各意味単位に区切る(タギング)するが、この代表意味をタギングした結果を例示すると、次の通りである。
「/DATE/INDEX/DATE/VALUE/上がった/VALUE/、/INDEX/VALUE/上昇した/VALUE/記録する/」
「今日/総合株価指数/先週末/8.88ポイント/上がった/717.35ポイント/、/コスダック指数/0.97/上昇/72.99ポイント/記録/」
即ち、入力されるテキストの構文構造が証券市況の情報類型において提供される下記のような文法規則に合致すると、入力されるテキストの情報類型は、証券市況であると決定される。
- 主語{INDEX}連体修飾節 目的語 {VALUE}記録する。→INDEX VALUE
このように検出された文法規則を、入力テキストに適用すると、次の通りである。
「INFO[今日/DATE]INFO[総合株価指数/INDEX]は、先週末8.88ポイント上がったINFO[717.35ポイント/VALUE]、INFO[コスダック指数/INDEX]は、0.97ポイント上昇したINFO[72.99ポイント/DATE]記録しました。」
しかし、選択された強調単語が情報類型決定モジュール500において代表単語として選択された単語に含まれていないと、その強調単語を決定された情報類型の構文構造に従って再配置する。
例えば、証券市場関連情報類型の場合、情報を、DATEをTITLEとし、INDEX及びVALUEがテーブル構造として各項目別に共に提供すると、テーブル形式に表れるレイアウト様式がメタDB730から抽出され、抽出されたレイアウトに強調単語及びタイミング情報が下記のように入力される。
<INDEXVALUE ITEM="2">
<INDEX SYNC="1351">総合株価指数</INDEX>
<VALUE SYNC="INHERIT">717.35ポイント</VALUE>
:
</INDEXVALUE>
以上のような本発明は、添付図面に基づく実施の形態によるものであり、これに限定されるものでなく、このような本発明の基本的な技術的思想を逸脱しない範囲内で、当業界の通常の知識を有する者にとっては、他の多くの変更が可能であろう。また、本発明は、添付の特許請求の範囲に基づいて解析されるべきであることは言うまでもない。
110 形態素解析部
130 構文解析部
150 音声合成部
170 合成音発生部
190 スピーカー(SP)
300 強調単語選択モジュール
310 ヒストリ(History)DB
330 強調単語選択部
350 ヒストリマネージャ(History manager)
500 情報類型決定モジュール
510 ドメイン(Domain)DB
530 意味解析部
550 文型情報生成部
700 構造化モジュール
710 文型情報適用部
730 メタ(meta)DB
750 情報構造化部
900 ディスプレイモジュール
910 同期化部
930 映像信号処理部
950 表示部
Claims (19)
- テキストデータを形態素及び構文解析し、これにより得られる音声合成分析データを用いて、前記テキストデータを音声に合成して出力する音声合成モジュールと、
前記音声合成モジュールから得られる前記音声合成分析データを用いて、前記テキストデータの中で特定の品詞の単語を強調単語として選択する強調単語選択モジュールと、
前記選択された強調単語を前記合成音と同期させて、ディスプレイするディスプレイモジュールとを備えることを特徴とする付加情報提供機能付きのテキスト/音声変換装置。 - テキストデータを形態素及び構文解析し、これにより得られる音声合成分析データを用いて、前記テキストデータを音声に合成して出力する音声合成モジュールと、
前記音声合成モジュールから得られる前記音声合成分析データを用いて、前記テキストデータの中で特定の品詞の単語を強調単語として選択する強調単語選択モジュールと、
前記音声合成モジュールから得られる前記音声合成分析データを用いて、前記テキストデータの情報類型を決定し、文型情報を生成する情報類型決定モジュールと、
前記選択された強調単語を、前記生成された文型情報に従って再配置し、前記合成音と同期させてディスプレイするディスプレイモジュールとを備えることを特徴とする付加情報提供機能付きのテキスト/音声変換装置。 - 前記選択された強調単語を所定のレイアウト様式に適用して構造化する構造化モジュールをさらに備えることを特徴とする請求項1または請求項2に記載の付加情報提供機能付きのテキスト/音声変換装置。
- 前記強調単語は、前記音声合成モジュールから得られる音声合成分析データを用いて、前記テキストデータの単語の中で合成音歪みが予想される単語を含むことを特徴とする請求項1または請求項2に記載の付加情報提供機能付きのテキスト/音声変換装置。
- 前記強調単語は、前記選択された強調単語の中、前記音声合成モジュールから得られる前記テキストデータの各単語に対する強調頻度情報を用いて、所定のしきい値未満の強調頻度を有する単語に選別されることを特徴とする請求項1または請求項2に記載の付加情報提供機能付きのテキスト/音声変換装置。
- 前記情報類型決定モジュールは、情報類型別に区分された様々な分野の構文構造、文法規則、用語及び熟語情報がドメイン情報として格納されるドメインDBと、
前記音声合成モジュールから得られる音声合成分析データを用いて、前記ドメインDBから前記テキストデータに該当するドメイン情報を検出して情報類型を決定し、文型情報を生成する文型情報生成部と、を備えることを特徴とする請求項2に記載の付加情報提供機能付きのテキスト/音声変換装置。 - 前記構造化モジュールは、情報類型に従い、選択された強調単語を構造的にディスプレイするためのレイアウト及び付加的に表示する内容がメタ情報として格納されるメタDBと、
前記強調単語選択モジュールで選択された強調単語を前記文型情報に従い再配置する文型情報適用部と、
前記決定された情報類型に該当するメタ情報を前記メタDBから検出し、検出されたメタ情報に前記再配置された強調単語を適用させる情報構造化部とを備えることを特徴とする請求項3に記載の付加情報提供機能付きのテキスト/音声変換装置。 - 前記合成音歪みが予想される単語は、各音片の合成音出力予測値と、実際値との差として決定されるマッチング率が所定のしきい値未満の単語であることを特徴とする請求項4に記載の付加情報提供機能付きのテキスト/音声変換装置。
- 前記出力予測値と実際値との差は、下記式
ΣQ(sizeof(Entry)・|予測値−実際値|・C)/N
[ここで、Cはマッチング値(connectivity)であり,Nは標準値(normalization)である]
により算出されることを特徴とする請求項8に記載の付加情報提供機能付きのテキスト/音声変換装置。 - テキストデータを形態素及び構文解析し、これにより得られる音声合成分析データを用いて、前記テキストデータを音声に合成して出力する音声合成ステップと、
前記音声合成分析データを用いて、前記テキストデータの中で特定の品詞の単語を強調単語として選択する強調単語選択ステップと、
前記選択された強調単語を前記合成音と同期させてディスプレイするディスプレイステップとを含むことを特徴とする付加情報提供機能付きのテキスト/音声変換方法。 - テキストデータを形態素及び構文解析し、これにより得られる音声合成分析データを用いて、前記テキストデータを音声に合成して出力する音声合成ステップと、
前記音声合成分析データを用いて、前記テキストデータの中で特定の品詞の単語を強調単語として選択する強調単語選択ステップと、
前記音声合成ステップで得られる音声合成分析データを用いて、前記テキストデータの情報類型を決定し、文型情報を生成する文型情報生成ステップと、
前記選択された強調単語を前記文型情報に従って再配置し、前記合成音と同期させてディスプレイするディスプレイステップとを含むことを特徴とする付加情報提供機能付きのテキスト/音声変換方法。 - 前記選択された強調単語を所定のレイアウト様式に適用して構造化する構造化ステップをさらに含むことを特徴とする請求項10または請求項11に記載の付加情報提供機能付きのテキスト/音声変換方法。
- 前記強調単語選択ステップは、前記音声合成ステップから得られる音声合成分析データを用いて、前記テキストデータの単語の中で合成音歪みが予想される単語を選択するステップをさらに含むことを特徴とする請求項10または請求項11に記載の付加情報提供機能付きのテキスト/音声変換方法。
- 前記強調単語選択ステップは、前記選択された強調単語を、前記音声合成ステップから得られる前記テキストデータの各単語に対する強調頻度情報を用いて、所定のしきい値未満の強調頻度を有する単語に選別することを特徴とする請求項10または請求項11に記載の付加情報提供機能付きのテキスト/音声変換方法。
- 前記文型情報生成ステップは、ドメインDB及び前記音声合成ステップで得られる音声合成分析データに基づいて、前記テキストデータを意味単位に区切るステップと、
前記区切られた各意味単位の代表意味を決定し、各意味単位にタギングし、各意味単位の中で代表単語を選択するステップと、
前記テキストの構文形式に合致する文法規則を前記ドメインDBから検出し、検出された文法規則を前記テキストデータに適用して実際の情報を決定するステップと、
前記決定された実際の情報に基づき、前記テキストデータの情報類型を決定して文型情報を生成するステップとを含むことを特徴とする請求項11に記載の付加情報提供機能付きのテキスト/音声変換方法。 - 前記構造化ステップは、前記選択された強調単語が前記生成された文型情報の情報類型に適用されるか否かを判別するステップと、
前記判別結果に従って前記強調単語を文型情報にタギングするか、または決定された情報類型に従って再配置するステップと、
前記再配置された強調単語をメタDBから検出される前記情報類型に該当するメタ情報に適用して構造化するステップとを含むことを特徴とする請求項12に記載の付加情報提供機能付きのテキスト/音声変換方法。 - 前記合成音歪みが予想される単語は、各音片の合成音出力予測値と実際値との差として決定されるマッチング率が所定のしきい値未満の単語であることを特徴とする請求項13に記載の付加情報提供機能付きのテキスト/音声変換方法。
- 前記ドメインDBは、情報類型別に区分された様々な分野の構文構造、文法規則、用語及び熟語情報がドメイン情報として格納されていることを特徴とする請求項15に記載の付加情報提供機能付きのテキスト/音声変換方法。
- 前記メタDBは、情報類型に従い、選択された強調単語を構造的にディスプレイするためのレイアウト及び付加的に表示する内容がメタ情報として格納されることを特徴とする請求項18に記載の付加情報提供機能付きのテキスト/音声変換方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0071306A KR100463655B1 (ko) | 2002-11-15 | 2002-11-15 | 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004170983A true JP2004170983A (ja) | 2004-06-17 |
Family
ID=36590828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003387094A Ceased JP2004170983A (ja) | 2002-11-15 | 2003-11-17 | 付加情報提供機能付きのテキスト/音声変換装置及びその方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20040107102A1 (ja) |
EP (1) | EP1473707B1 (ja) |
JP (1) | JP2004170983A (ja) |
KR (1) | KR100463655B1 (ja) |
DE (1) | DE60305645T2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007199410A (ja) * | 2006-01-26 | 2007-08-09 | Internatl Business Mach Corp <Ibm> | テキストに付与する発音情報の編集を支援するシステム |
US8676578B2 (en) | 2010-09-28 | 2014-03-18 | Kabushiki Kaisha Toshiba | Meeting support apparatus, method and program |
JP2014163978A (ja) * | 2013-02-21 | 2014-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 強調位置予測装置、その方法、およびプログラム |
JP2016029413A (ja) * | 2014-07-25 | 2016-03-03 | 日本電信電話株式会社 | 強調位置予測装置、強調位置予測方法及びプログラム |
WO2017179262A1 (ja) * | 2016-04-12 | 2017-10-19 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005010691A (ja) * | 2003-06-20 | 2005-01-13 | P To Pa:Kk | 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム |
US7207004B1 (en) * | 2004-07-23 | 2007-04-17 | Harrity Paul A | Correction of misspelled words |
US20060136212A1 (en) * | 2004-12-22 | 2006-06-22 | Motorola, Inc. | Method and apparatus for improving text-to-speech performance |
US20070260460A1 (en) * | 2006-05-05 | 2007-11-08 | Hyatt Edward C | Method and system for announcing audio and video content to a user of a mobile radio terminal |
US20080243510A1 (en) * | 2007-03-28 | 2008-10-02 | Smith Lawrence C | Overlapping screen reading of non-sequential text |
US8136034B2 (en) | 2007-12-18 | 2012-03-13 | Aaron Stanton | System and method for analyzing and categorizing text |
KR20090085376A (ko) * | 2008-02-04 | 2009-08-07 | 삼성전자주식회사 | 문자 메시지의 음성 합성을 이용한 서비스 방법 및 장치 |
CN101605307A (zh) * | 2008-06-12 | 2009-12-16 | 深圳富泰宏精密工业有限公司 | 文本短信语音播放系统及方法 |
JP5535241B2 (ja) * | 2009-12-28 | 2014-07-02 | 三菱電機株式会社 | 音声信号復元装置および音声信号復元方法 |
US20110184738A1 (en) * | 2010-01-25 | 2011-07-28 | Kalisky Dror | Navigation and orientation tools for speech synthesis |
CN102324191B (zh) * | 2011-09-28 | 2015-01-07 | Tcl集团股份有限公司 | 一种有声读物逐字同步显示方法及系统 |
US9575961B2 (en) * | 2014-08-28 | 2017-02-21 | Northern Light Group, Llc | Systems and methods for analyzing document coverage |
KR20160056551A (ko) * | 2014-11-12 | 2016-05-20 | 삼성전자주식회사 | 잠금 해제 수행 방법 및 사용자 단말 |
JP6369311B2 (ja) * | 2014-12-05 | 2018-08-08 | 三菱電機株式会社 | 音声合成装置および音声合成方法 |
US11544306B2 (en) | 2015-09-22 | 2023-01-03 | Northern Light Group, Llc | System and method for concept-based search summaries |
US11886477B2 (en) | 2015-09-22 | 2024-01-30 | Northern Light Group, Llc | System and method for quote-based search summaries |
US11226946B2 (en) | 2016-04-13 | 2022-01-18 | Northern Light Group, Llc | Systems and methods for automatically determining a performance index |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2996978B2 (ja) * | 1988-06-24 | 2000-01-11 | 株式会社リコー | テキスト音声合成装置 |
EP0542628B1 (en) * | 1991-11-12 | 2001-10-10 | Fujitsu Limited | Speech synthesis system |
JPH05224689A (ja) * | 1992-02-13 | 1993-09-03 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置 |
JPH064090A (ja) * | 1992-06-17 | 1994-01-14 | Nippon Telegr & Teleph Corp <Ntt> | テキスト音声変換方法および装置 |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5634084A (en) * | 1995-01-20 | 1997-05-27 | Centigram Communications Corporation | Abbreviation and acronym/initialism expansion procedures for a text to speech reader |
US5949961A (en) * | 1995-07-19 | 1999-09-07 | International Business Machines Corporation | Word syllabification in speech synthesis system |
US5680628A (en) * | 1995-07-19 | 1997-10-21 | Inso Corporation | Method and apparatus for automated search and retrieval process |
US5924068A (en) * | 1997-02-04 | 1999-07-13 | Matsushita Electric Industrial Co. Ltd. | Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion |
JP3001047B2 (ja) * | 1997-04-17 | 2000-01-17 | 日本電気株式会社 | 文書要約装置 |
JP3587048B2 (ja) * | 1998-03-02 | 2004-11-10 | 株式会社日立製作所 | 韻律制御方法及び音声合成装置 |
GB9806085D0 (en) * | 1998-03-23 | 1998-05-20 | Xerox Corp | Text summarisation using light syntactic parsing |
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
US6490563B2 (en) * | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
JP2000112845A (ja) * | 1998-10-02 | 2000-04-21 | Nec Software Kobe Ltd | 音声通知付電子メールシステム |
ATE298453T1 (de) * | 1998-11-13 | 2005-07-15 | Lernout & Hauspie Speechprod | Sprachsynthese durch verkettung von sprachwellenformen |
JP2000206982A (ja) * | 1999-01-12 | 2000-07-28 | Toshiba Corp | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 |
US6185533B1 (en) * | 1999-03-15 | 2001-02-06 | Matsushita Electric Industrial Co., Ltd. | Generation and synthesis of prosody templates |
AU2931600A (en) * | 1999-03-15 | 2000-10-04 | British Telecommunications Public Limited Company | Speech synthesis |
KR20010002739A (ko) * | 1999-06-17 | 2001-01-15 | 구자홍 | 음성인식기를 이용한 자동 캡션 삽입 장치 및 방법 |
JP3314058B2 (ja) * | 1999-08-30 | 2002-08-12 | キヤノン株式会社 | 音声合成方法及び装置 |
US6865533B2 (en) * | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
US7334050B2 (en) * | 2000-06-07 | 2008-02-19 | Nvidia International, Inc. | Voice applications and voice-based interface |
JP3589972B2 (ja) * | 2000-10-12 | 2004-11-17 | 沖電気工業株式会社 | 音声合成装置 |
US6990450B2 (en) * | 2000-10-19 | 2006-01-24 | Qwest Communications International Inc. | System and method for converting text-to-voice |
US7062437B2 (en) * | 2001-02-13 | 2006-06-13 | International Business Machines Corporation | Audio renderings for expressing non-audio nuances |
GB2376394B (en) * | 2001-06-04 | 2005-10-26 | Hewlett Packard Co | Speech synthesis apparatus and selection method |
JP2003016008A (ja) * | 2001-07-03 | 2003-01-17 | Sony Corp | 情報処理装置および情報処理方法、並びにプログラム |
US6985865B1 (en) * | 2001-09-26 | 2006-01-10 | Sprint Spectrum L.P. | Method and system for enhanced response to voice commands in a voice command platform |
US7028038B1 (en) * | 2002-07-03 | 2006-04-11 | Mayo Foundation For Medical Education And Research | Method for generating training data for medical text abbreviation and acronym normalization |
US7236923B1 (en) * | 2002-08-07 | 2007-06-26 | Itt Manufacturing Enterprises, Inc. | Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
US7558732B2 (en) * | 2002-09-23 | 2009-07-07 | Infineon Technologies Ag | Method and system for computer-aided speech synthesis |
-
2002
- 2002-11-15 KR KR10-2002-0071306A patent/KR100463655B1/ko not_active IP Right Cessation
-
2003
- 2003-11-11 EP EP03257090A patent/EP1473707B1/en not_active Expired - Fee Related
- 2003-11-11 DE DE60305645T patent/DE60305645T2/de not_active Expired - Fee Related
- 2003-11-12 US US10/704,597 patent/US20040107102A1/en not_active Abandoned
- 2003-11-17 JP JP2003387094A patent/JP2004170983A/ja not_active Ceased
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007199410A (ja) * | 2006-01-26 | 2007-08-09 | Internatl Business Mach Corp <Ibm> | テキストに付与する発音情報の編集を支援するシステム |
US8676578B2 (en) | 2010-09-28 | 2014-03-18 | Kabushiki Kaisha Toshiba | Meeting support apparatus, method and program |
JP2014163978A (ja) * | 2013-02-21 | 2014-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 強調位置予測装置、その方法、およびプログラム |
JP2016029413A (ja) * | 2014-07-25 | 2016-03-03 | 日本電信電話株式会社 | 強調位置予測装置、強調位置予測方法及びプログラム |
WO2017179262A1 (ja) * | 2016-04-12 | 2017-10-19 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN108885594A (zh) * | 2016-04-12 | 2018-11-23 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
JPWO2017179262A1 (ja) * | 2016-04-12 | 2019-02-14 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US11100944B2 (en) | 2016-04-12 | 2021-08-24 | Sony Corporation | Information processing apparatus, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
US20040107102A1 (en) | 2004-06-03 |
EP1473707A1 (en) | 2004-11-03 |
KR100463655B1 (ko) | 2004-12-29 |
DE60305645T2 (de) | 2007-05-03 |
DE60305645D1 (de) | 2006-07-06 |
EP1473707B1 (en) | 2006-05-31 |
KR20040042719A (ko) | 2004-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004170983A (ja) | 付加情報提供機能付きのテキスト/音声変換装置及びその方法 | |
US8027837B2 (en) | Using non-speech sounds during text-to-speech synthesis | |
JP4678193B2 (ja) | 音声データ認識装置、ノート表示装置、音声データ認識プログラム、及びノート表示プログラム | |
US7200558B2 (en) | Prosody generating device, prosody generating method, and program | |
EP1463031A1 (en) | Front-end architecture for a multi-lingual text-to-speech system | |
US20030191645A1 (en) | Statistical pronunciation model for text to speech | |
US20100066742A1 (en) | Stylized prosody for speech synthesis-based applications | |
Blache et al. | Creating and exploiting multimodal annotated corpora: the ToMA project | |
CN112466279B (zh) | 一种英语口语发音自动纠正方法和装置 | |
KR100897149B1 (ko) | 텍스트 분석 기반의 입 모양 동기화 장치 및 방법 | |
US11176943B2 (en) | Voice recognition device, voice recognition method, and computer program product | |
KR101097186B1 (ko) | 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법 | |
JP3071804B2 (ja) | 音声合成装置 | |
KR102086601B1 (ko) | 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템 | |
EP0982684A1 (en) | Moving picture generating device and image control network learning device | |
Kolář | Automatic segmentation of speech into sentence-like units | |
JP2008257116A (ja) | 音声合成システム | |
JP3060276B2 (ja) | 音声合成装置 | |
JPH03167666A (ja) | 情報案内・提供方法 | |
Sloan et al. | Incorporating prosodic events in text-to-speech synthesis | |
Khamdamov et al. | Syllable-Based Reading Model for Uzbek Language Speech Synthesizers | |
JP2005181998A (ja) | 音声合成装置および音声合成方法 | |
Mahar et al. | WordNet based Sindhi text to speech synthesis system | |
US8635071B2 (en) | Apparatus, medium, and method for generating record sentence for corpus and apparatus, medium, and method for building corpus using the same | |
JPH08185197A (ja) | 日本語解析装置、及び日本語テキスト音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061011 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070111 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070405 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070417 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070419 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070515 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070911 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070925 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20071214 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090501 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20091027 |