JP2003005773A - マルチメディアデータにおけるデータ流のアップグレード方法 - Google Patents

マルチメディアデータにおけるデータ流のアップグレード方法

Info

Publication number
JP2003005773A
JP2003005773A JP2002002690A JP2002002690A JP2003005773A JP 2003005773 A JP2003005773 A JP 2003005773A JP 2002002690 A JP2002002690 A JP 2002002690A JP 2002002690 A JP2002002690 A JP 2002002690A JP 2003005773 A JP2003005773 A JP 2003005773A
Authority
JP
Japan
Prior art keywords
phonetic
text
word
description
text description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002002690A
Other languages
English (en)
Inventor
Andreas Engelsberg
エンゲルスベルク アンドレアス
Holger Kussmann
クスマン ホルガー
Michael Wollborn
ヴォルボルン ミヒャエル
Sven Mecke
メッケ スヴェン
Andre Mengel
メンゲル アンドレ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of JP2003005773A publication Critical patent/JP2003005773A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 テキスト記述フィーチャを有するマルチメデ
ィアデータのデータ流のアップグレード方法、すなわち
高レベルなテキスト式マルチメディア記述方式における
特定部分およびワードのより効率的な音声表記の方法の
提供。 【解決手段】 データ流がテキスト記述に加えて一群の
音声変換ヒントを含み、この音声変換ヒントがテキスト
記述の部分またはワードの音声表記を定める。 【効果】 テキスト記述の音声表記が一度定められるだ
けで、それ以降同じワードの現れる都度音声表記の繰り
返される必要がなく、記述テキストの音声表記は個々に
取り扱われ、記述テキストの記憶と伝送に要されるデー
タ量が減少される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキスト記述フィ
ーチャを有するマルチメディアデータのデータ流のアッ
プグレード方法に関する。
【0002】
【従来の技術】音声合成装置などを使用する場合におけ
るテキストの厳密な発音記述に、ワールドワイドウェブ
協会(W3C)は現在いわゆる「音声合成マークアップ言
語」(SSML:http://www.w3.org/TR/speech-synthesis)
を指定している。本明細書では、xml(可拡張マークア
ップ言語)要素によりテキスト要素の厳密な発音を定め
る。テキストの音声表記には国際音声記号(IPA)が使
用される。
【0003】
【発明が解決しようとする課題】従来技術においてはこ
の(IPA)音素子を高レベルマルチメディア記述方式と
共に使用することにより、コンテント開発者は記述テキ
ストの音声表記を厳密に定めることができる。しかし、
記述テキストの異なる箇所に同じワードが繰り返し現れ
る場合、音声記述がその都度挿入(それから記憶および
伝送)されなければならない。
【0004】
【課題を解決するための手段】請求項1記載のステップ
とこれに相当するサブクレームにより、高レベルなテキ
スト式マルチメディア記述方式における特定部分および
ワードのより効率的な音声表記が可能になる。
【0005】本発明はテキスト記述に加えて一群の音声
変換ヒントを有し、これにより上記目標を達成する。こ
れらの音声変換ヒントはテキスト記述の特定部分または
ワードの音声表記を定める。この音声表記により、音声
認識または音声システムのテキストなどのアプリケーシ
ョンは、自動書き換えが使用不能であるような特別な場
合にも対応でき、さらには自動書き換えのプロセスを完
全に省くこともできる。本発明の第2の利点は音声変換
ヒント値の効率的な2進符号化であり、これにより音声
変換ヒントを有する個々の記述データの低帯域幅伝送ま
たは記憶をおこなうことができる。
【0006】
【発明の実施の形態】従来の方法では高レベルマルチメ
ディア記述のための記述テキストの特定部分またはワー
ドの音声表記が可能であるものの、同じテキスト部分ま
たはワードの現れる度に音声表記が指定されなければな
らず、例えば同記述テキスト内に同じワードが繰り返し
現れる場合、音声表記はその都度実行される。本発明の
利点は、高レベルフィーチャマルチメディア記述方式の
いかなる記述テキストにおいても、特定部分またはワー
ドの音声表記を指定できる点である。従来技術とは異な
り、本発明はテキストの全部または一部において有効な
ワードの音声表記を指定し、しかも記述テキストにおい
て同じワードが現れる度にこの音声表記を繰り返す必要
がない。この目標の達成のために、記述方式が一群の音
声変換ヒントを含み、これらの変換ヒントが記述テキス
トのそれぞれのワードの発音を一義的に定める。音声変
換ヒントは、これらのヒントがどのレベルの記述方式に
含まれるかにより、記述テキストの全部もしくはその一
部において有効となる。これにより、一群のワードの音
声表記(伝送または記憶)を一度指定するだけで、これ
以降同じワードが音声表記の有効な箇所に現れた場合、
これらの語も有効となる。これにより記述テキストは音
声表記を列に並べることなく個々に取り扱うことがで
き、記述の構文解析が容易になる。さらにテキストを変
換ヒントから切り離して作成することが出来るため、記
述テキストのオーサリングも容易になる。最後に、記述
テキストの記憶または伝送に必要なデータ量も減少す
る。
【0007】
【実施例】本発明の詳細を検討するに先立ち、M-PEG7に
使用されるいくつかの語の定義する。
【0008】現在開発中のM-PEG7規格のコンテキストで
は、記述構造のテキスト表示が、マルチメディア環境に
おける視聴覚データコンテントの記述に使用される。こ
のタスクには可拡張マークアップ言語(XML)が使用さ
れ、DおよびDSはいわゆる記述定義言語(DDL)によって
指定される。本明細書のコンテキストにおいては、以下
の定義が適用される。
【0009】●「データ」:記憶、符号化、表示、伝
送、媒体、または技術に関係なく、MPEG-7を使用して記
述される視聴覚情報である。
【0010】●「フィーチャ」:何らかの意味を伴い、
それによりデータを特徴付ける性質である。
【0011】●「記述子」(D):上記フィーチャの表
示である。記述子はフィーチャ表示のシンタックスなら
びに意義を定める。
【0012】●「記述子値」(DV):実際のデータを表
すデータセット(またはサブセット)の記述子を具体化
したものである。
【0013】●「記述方式」(DS):記述方式はその要
素間の関係構造と意義とを定め、これらは例えば記述子
(D)と記述方式(DS)の両方である。
【0014】●「記述」:記述は、データを表す記述方
式(構造)と記述子値(表示)とよりなる。
【0015】●「符号化記述」:符号化記述は、圧縮効
率、エラー許容、ランダムアクセスなどの必要条件を満
たすために符号化された記述である。
【0016】●「記述定義言語」(DDL):記述定義言
語は、新しい記述方式と記述子の生成を可能にする言語
である。既存の記述方式の拡張および変更もこの言語に
より可能である。
【0017】記述の最低レベルは記述子であり、データ
の1つまたは複数のフィーチャを定義し、個々のDVと共
に特定のデータの記述に使用される。次に高いレベルは
記述方式であり、これには少なくとも2つまたはそれ以
上の要素とその関係が含まれ、ここでの要素は記述子か
記述方式のどちらかである。最高レベルは記述定義言語
(DDL)であり、2つの目的に使用される。第1に、静
止記述子および記述方式のテキスト表示はDDLを使用し
て書かれる。第2に、DDLは静止DおよびDSを使用する活
動DSの定義に使用される。
【0018】MPEG-7記述の場合、データは2種類に区別
される。第1に、低レベルフィーチャはデータのプロパ
ティを表わし、このプロパティとは例えば主要色、写像
もしくは画像シーケンスの形状または構造である。通常
これらのフィーチャはデータより自動的に取り出され
る。一方、MPEG-7は高レベルフィーチャを表わすのにも
用いられ、これらのフィーチャとは例えば映画の題名、
歌の著者、またはこれらのデータの完全なメディアレビ
ューである。これらのフィーチャは通常自動的に取り出
されることはなく、データの生成中または生成後に手動
か半自動で添削される。ここまで、高レベルフィーチャ
は特定の言語または類語辞書を参考にテキスト形式のみ
で記述される。以下は高レベルフィーチャのテキスト記
述の一例である。
【0019】 <CreationInformation> <Creation> <Title type="original"> <TitleText xml:lang="en">Music</TitleText> </Title> <Creator> <Role CSName="MPEG roles CS" CSTermID="47"> <Label xml:lang="en">presenter</Label> </Role> <Individual> <Name>Madonna</Name> </Individual> </Creator> </Creation> <MediaReview> <Reviewer> <FirstName>Alan</FirstName> <GivenName>Bangs</GivenName> </Reviewer> <RatingCriterion> <CriterionName>Overall</CriterionName> <WorstRating>1</WorstRating> <BestRating>1</BestRating> </RatingCriterion> <RatingValue>10</RatingValue> <FreeTextReview> This is again an excellent piece of music from our well- known superstar, without the necessity for more than 180 bpm in order to make people feel excited. It comes along with harmonic yet clearly defined transitions between pieces of rap-like vocals, well known for e.g. from the Kraut-Rappers "Die fantastischen 4" and their former chart runner-up "MfG", and on the other hand peaceful sounding instrumental sections. Therefore this song deserves a clear 10+ rating. </FreeTextReview> </MediaReview> </CreationInformation> 上の例ではXML言語を記述に使用している。カッコ内
(<...>)のテキストはXMLタグと称され、記述方式の
要素を指定する。タグ内のテキストは記述のデータ値で
ある。上の例は、アメリカの有名な歌手マドンナのオー
ディオトラック"Music"の題名、プレゼンタ、および短
いメディアレビューを記述する。見てのとおり、情報は
すべてテキスト形式になっており、特定の言語("de"=
ドイツ語、"en"=英語)または類語辞典によるものであ
る。データの記述テキストは、言語、コンテキスト、ま
たはアプリケーション分野の慣例により原則として異な
る方法で発音できるが、ここまでに指定されたテキスト
記述はその発音の相違に関わらず同一のものである。
【0020】音声合成装置などを使用する場合のテキス
トの厳密な発音記述に、ワールドワイドウェブ協会(W3
C)は現在いわゆる「音声合成マークアップ言語」(SSM
L:http://www.w3.org/TR/speech-synthesis)を指定し
ている。本明細書では、xml(可拡張マークアップ言
語)要素がテキスト要素の厳密な発音を定める。ここで
は音声素子が定義され、これによりテキスト部分の音声
表記は以下のように定められる。
【0021】 <phoneme ph="tümûto&#28A;"> tomato </phoneme> <! -- This is an example of IPA using character entities --> <phoneme ph="tuemuto"> tomato </phoneme> <! -- This example uses the Unicode IPA characters. --> <! -- Note: this will not display correctly on most browsers -- > 見ての通り、音声表記には国際音声記号(IPA)が使用
されている。この音声素子を高レベルマルチメディア記
述方式と共に使用することにより、コンテント開発者は
テキスト記述の音声表記を厳密に定めることができる。
しかし同記述テキスト内に同じワードが繰り返し現れる
場合、音声表記(記憶および伝送)はその都度実行され
なければならない。
【0022】本発明の趣旨は音声変換ヒントと称される
新しいDSを定義することであり、このDSがワードの発音
に関する追加情報を提供する。この情報を含まない現行
のテキストデータ型はM-PEG7マルチメディア記述方式C
Dの場合に、以下のように定義される。
【0023】 <! -- ############################################################ --> <! -- Definition of Textual Datatype --> <! -- ############################################################ --> <ComplexType name ="TextualType"> <simpleContent> <extension base="string"> <attribute ref="xml:lang" use="optional"/> </extension> </simpleContent> </complexType> テキストデータ型には、テキスト情報のためのストリン
グと、テキストの言語のための任意属性とが含まれる。
テキストデータ型の例における複数または全ての語の発
音に関する追加の情報は、新たに定義された音声記述ヒ
ント型の例より付与される。この新しいタイプの定義の
2つの方法は以下のサブセクションの通りである。
【0024】音声変換ヒント型の最初の実現は、以下の
定義に従う。
【0025】 <complexType name="PhoneticTranslationHintsType"> <sequence maxOccurs="unbounded"> <element name="Word"> <complexType> <simpleContent> <extension base="string"> <attribute name="phonetic translation" type="string" use="required"/> </extension> </simpleContent> </complexType> </element> </sequence> </complexType> 新しく定義された音声変換ヒント型の意義は、以下の表
のとおりである。
【0026】
【表1】
【0027】この新たに作成された型は、ワードとその
適切な発音との関係を明確に定める。以下は前述のテキ
ストを参考にした音声変換ヒントの一例である。
【0028】 <PhoneticTranslationHints> <Word phonetic translation="b˜pÓmi&#28A;n&#043">bpm</Word> <Word phonetic translation="krŴrpeĢ">Kraut- Rappers</Word> <Word phonetic translation="emefg">MFG</Word> : </PhoneticTranslationHints> この音声変換ヒント型の場合には、アプリケーションは
この時点で前述の<FreeTextReview>タグ内のテキスト
中の複数または全ての語の厳密な音声表記を把握してい
る。
【0029】音声変換ヒント型の実現の第2の例は、以
下の定義に従う。
【0030】 <complexType name="PhoneticTranslationHintsType"> <sequence maxOccurs="unbounced"> <element name="Word" type="string"/> <element name="PhoneticTranslation"/> </sequence> </complexType> 新たに定義された音声変換ヒント型の意義は前セクショ
ンの第1のバージョンと同じであり、以下の表のとおり
である。
【0031】
【表2】
【0032】以下は前述のテキストを参考にした、音声
変換ヒントの第2のバージョンの一例である。
【0033】 <PhoneticTranslationHints> <Word>bpm</Word> <phonetic translation>b˜pÓmi&#28A;n&#043</phonetic tran slation> <Word>Kraut-Rappers</Word> <phonetic translation> krŴrpeĢ</phonetic translation> <Word>MFG</Word> <phonetic translation> emefg</phonetic translation> : </PhoneticTranslationHints> この音声変換ヒント型の新しい定義により、この型の例
は<Word>および<PhoneticTranslation>のタグを有
し、これらのタグは常に互いに対応してテキストおよび
その対応の音声表記を記述するユニットを成す。
【0034】上述の音声変換ヒントDSに使用される音素
は通常、UNICODE表記を用いて印刷可能な文字としても
記述できる。しかし使用される音素の数が限られるた
め、さらに効率的な記憶と伝送のためには音素の統計を
考慮に入れる二進固定長符号表示または可変長符号表記
が音素に使用される。
【0035】追加の音声表記情報は、TTS機能または音
声認識などの多くのアプリケーションに必要となる。マ
ルチメディアを使用しての音声対話はいずれも実際には
1つの言語(通常ユーザの母国語)でおこなわれ、HMI
(既知のボキャブラリ)はこの言語に基づく。しかしユ
ーザの使用するまたはユーザに対して表示されるワード
は他言語のものを含み、TTSシステムまたは音声認識は
これらのワードの正確な発音を把握していないこともあ
る。ここに提唱される音声記述の使用はこの問題を解決
し、HMIをより正確かつ自然にする。
【0036】ユーザにコンテントの提供をおこなうマル
チメディアシステムは、このような音声情報を要する。
コンテントに関する追加のテキスト情報はいずれも、特
別な発音の情報を要する技術用語、名称、または他の語
を含み、TTSによりユーザへの表示が可能である。この
ことはニュース、電子メール、またはユーザに対し読ま
れる他情報に関しても同様である。
【0037】特にCD、CD-ROM、DVD、MP3、MD、および他
の映像または音楽記憶媒体には、多くの映像や音楽が題
名、役者の名前、アーティストの名前、ジャンルなどと
共に含まれる。TTSシステムはこのようなワード全ての
発音を把握しておらず、音声認識もこれらのワードを認
識できない。例えばユーザがポップ音楽を聴きたくて、
マルチメディアシステムが演奏可能なポップ音楽のリス
トをTTSを介して示す場合、当該システムはCDの題名、
アーティストの名前、または歌の題名を追加の音声情報
無しには発音できない。
【0038】マルチメディアシステムが(テキスト/音
声インターフェース(TTS)を介して)入手可能な映像
または音楽ジャンルのリストを示す場合、当該システム
は音声表記情報を要する。このことはテキスト記述内の
対応要素を音声認識により正確に照合する際にも同様で
ある。
【0039】ラジオ(FM、DAB、DVB、RDMなど)はこの
ようなアプリケーションの別例である。ユーザがラジオ
を聴きたくて、システムが演奏可能な番組のリストを示
す場合、当該システムはこれらのプログラムを発音でき
ない。その理由はラジオ番組は通常、"BBC"や"WDR"、ま
たは"Antenne Bayen"のような普通の語、または"N-Joy"
のようにこれらの混合語を題名として用いるためであ
る。
【0040】電話アプリケーションの多くは電話帳を有
する。この場合にも、システムは音声表記情報無しには
名前の発音が分からず、従ってTTSを介して名前を表記
することができない。
【0041】いかなる機能またはアプリケーションにお
いても、TTSを介してユーザへ情報を表示する場合、ま
たは音声認識を使用する場合、幾つかの語の音声表記が
必要となる。
【0042】また、記号に対してこの記号を表す参照符
を送信することも可能である。
【0043】上述変換ヒントをテキスト記述の対応要素
と共に、テキスト/音声インターフェース、音声認識装
置、ナビゲーションシステム、オーディオ放送機器、通
話アプリケーションなどのアプリケーションに組み込む
ことができ、これらのアプリケーションはテキスト記述
を音声表記情報と共に、情報の検索またはフィルタリン
グに使用する。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ホルガー クスマン ドイツ連邦共和国 ギーゼン シュタイン シュトラーセ 4 (72)発明者 ミヒャエル ヴォルボルン ドイツ連邦共和国 ハノーファー ザント シュタインヴェーク 10 (72)発明者 スヴェン メッケ ドイツ連邦共和国 ヒルデスハイム アン デア インネルステ アウ 8 (72)発明者 アンドレ メンゲル ドイツ連邦共和国 ヒルデスハイム ジー トルングスヴェーク 11 ツェー Fターム(参考) 5D045 AB02

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 テキスト記述フィーチャを有するマルチ
    メディアデータのデータ流のアップグレード方法におい
    て、データ流がテキスト記述に加えて一群の音声変換ヒ
    ントを含み、この音声変換ヒントによりテキスト記述部
    またはワードの音声表記が定められることを特徴とする
    方法。
  2. 【請求項2】 音声変換ヒントの後に、ワードと当該対
    応の音声表記とが続くことを特徴とする、請求項1記載
    の方法。
  3. 【請求項3】 ワードの音声表記を伴う音声変換ヒント
    がテキスト記述の全部または一部において有効であり、
    当該テキスト記述において表記の付与された同ワードの
    現れる都度に音声表記を繰り返す必要のないことを特徴
    とする、請求項1または2記載の方法。
  4. 【請求項4】 音声変換ヒントが、MPEG(例:MPEG-7)
    データ流中にテキスト型記述子を伴って組み込まれるこ
    とを特徴とする、請求項1から3までのいずれか1項記
    載の方法。
  5. 【請求項5】 音声表記情報の表示のために、所定の符
    号形式(例:IPA(国際音声記号)またはSAMPA)の記号に
    よって参照符が作成されることを特徴とする、請求項1
    から4までのいずれか1項記載の方法。
  6. 【請求項6】 音声変換ヒントに使用される音素の数が
    制限されている、請求項1から5までのいずれか1項記
    載の方法。
  7. 【請求項7】 二進固定長符号表示または可変長符号表
    示を音素に使用する、請求項6記載の方法。
  8. 【請求項8】 音素の統計を考慮に入れて当該音素の符
    号化をおこなう、請求項7記載の方法。
  9. 【請求項9】 テキスト記述の対応要素のより正確な照
    合のために、音声認識システムが変換ヒントを記憶す
    る、請求項1から8までのいずれか1項記載の方法。
  10. 【請求項10】 変換ヒントをテキスト記述の対応要素
    と共に、テキスト/音声インターフェース、音声認識装
    置、ナビゲーションシステム、オーディオ放送機器、通
    話アプリケーションなどのアプリケーションに組み込む
    ことができ、これらのアプリケーションはテキスト記述
    を音声表記情報と共に、情報の検索またはフィルタリン
    グに使用することを特徴とする、請求項1から8までの
    いずれか1項記載の方法。
JP2002002690A 2001-01-09 2002-01-09 マルチメディアデータにおけるデータ流のアップグレード方法 Pending JP2003005773A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01100500A EP1221692A1 (en) 2001-01-09 2001-01-09 Method for upgrading a data stream of multimedia data
EP01100500.6 2001-01-09

Publications (1)

Publication Number Publication Date
JP2003005773A true JP2003005773A (ja) 2003-01-08

Family

ID=8176173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002002690A Pending JP2003005773A (ja) 2001-01-09 2002-01-09 マルチメディアデータにおけるデータ流のアップグレード方法

Country Status (3)

Country Link
US (1) US7092873B2 (ja)
EP (1) EP1221692A1 (ja)
JP (1) JP2003005773A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013190595A (ja) * 2012-03-14 2013-09-26 Yamaha Corp 歌唱合成用シーケンスデータ編集装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8285537B2 (en) * 2003-01-31 2012-10-09 Comverse, Inc. Recognition of proper nouns using native-language pronunciation
US20050043067A1 (en) * 2003-08-21 2005-02-24 Odell Thomas W. Voice recognition in a vehicle radio system
EP1693829B1 (en) * 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
KR100739726B1 (ko) * 2005-08-30 2007-07-13 삼성전자주식회사 문자열 매칭 방법 및 시스템과 그 방법을 기록한 컴퓨터판독 가능한 기록매체
US8600753B1 (en) * 2005-12-30 2013-12-03 At&T Intellectual Property Ii, L.P. Method and apparatus for combining text to speech and recorded prompts
KR101265263B1 (ko) * 2006-01-02 2013-05-16 삼성전자주식회사 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체
EP2219117A1 (en) * 2009-02-13 2010-08-18 Siemens Aktiengesellschaft A processing module, a device, and a method for processing of XML data

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0542628B1 (en) * 1991-11-12 2001-10-10 Fujitsu Limited Speech synthesis system
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
EP1138038B1 (en) * 1998-11-13 2005-06-22 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
DE19855137A1 (de) * 1998-11-30 2000-05-31 Honeywell Ag Verfahren zur Konvertierung von Daten
US6593936B1 (en) * 1999-02-01 2003-07-15 At&T Corp. Synthetic audiovisual description scheme, method and system for MPEG-7
US6600814B1 (en) * 1999-09-27 2003-07-29 Unisys Corporation Method, apparatus, and computer program product for reducing the load on a text-to-speech converter in a messaging system capable of text-to-speech conversion of e-mail documents

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013190595A (ja) * 2012-03-14 2013-09-26 Yamaha Corp 歌唱合成用シーケンスデータ編集装置

Also Published As

Publication number Publication date
EP1221692A1 (en) 2002-07-10
US7092873B2 (en) 2006-08-15
US20020128813A1 (en) 2002-09-12

Similar Documents

Publication Publication Date Title
US7117231B2 (en) Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data
US8249857B2 (en) Multilingual administration of enterprise data with user selected target language translation
Calhoun et al. The NXT-format Switchboard Corpus: a rich resource for investigating the syntax, semantics, pragmatics and prosody of dialogue
US8249858B2 (en) Multilingual administration of enterprise data with default target languages
US9318100B2 (en) Supplementing audio recorded in a media file
US7954044B2 (en) Method and apparatus for linking representation and realization data
US9153233B2 (en) Voice-controlled selection of media files utilizing phonetic data
US9361299B2 (en) RSS content administration for rendering RSS content on a digital audio player
US8849895B2 (en) Associating user selected content management directives with user selected ratings
US8719028B2 (en) Information processing apparatus and text-to-speech method
CN102754159A (zh) 指示音频对象的部分的元数据时间标记信息
US20070214148A1 (en) Invoking content management directives
US20080027726A1 (en) Text to audio mapping, and animation of the text
US20130080384A1 (en) Systems and methods for extracting and processing intelligent structured data from media files
JP2002006879A (ja) マークアップ言語を用いた自然言語伝達方法および装置
JP2003005773A (ja) マルチメディアデータにおけるデータ流のアップグレード方法
WO2001084539A1 (en) Voice commands depend on semantics of content information
Trancoso et al. The LECTRA corpus œ classroom lecture transcriptions in European Portuguese
US20070280438A1 (en) Method and apparatus for converting a daisy format file into a digital streaming media file
CN113851140A (zh) 语音转换相关方法、系统及装置
Xydas et al. Augmented auditory representation of e-texts for text-to-speech systems
Lindsay et al. Representation and linking mechanisms for audio in MPEG-7
Gut et al. Querying Annotated Speech Corpora
KR20180103273A (ko) 음성 합성 장치 및 음성 합성 방법
Van der Westhuizen Language modelling for code-switched automatic speech recognition in five South African languages

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070907

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080514

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080529

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080718

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091102

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091106

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091202

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091211

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100104

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100107