JP2003005773A

JP2003005773A - マルチメディアデータにおけるデータ流のアップグレード方法

Info

Publication number: JP2003005773A
Application number: JP2002002690A
Authority: JP
Inventors: Andreas Engelsberg; エンゲルスベルクアンドレアス; Holger Kussmann; クスマンホルガー; Michael Wollborn; ヴォルボルンミヒャエル; Sven Mecke; メッケスヴェン; Andre Mengel; メンゲルアンドレ
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2001-01-09
Filing date: 2002-01-09
Publication date: 2003-01-08
Also published as: EP1221692A1; US7092873B2; US20020128813A1

Abstract

(57)【要約】【課題】テキスト記述フィーチャを有するマルチメデ
ィアデータのデータ流のアップグレード方法、すなわち
高レベルなテキスト式マルチメディア記述方式における
特定部分およびワードのより効率的な音声表記の方法の
提供。【解決手段】データ流がテキスト記述に加えて一群の
音声変換ヒントを含み、この音声変換ヒントがテキスト
記述の部分またはワードの音声表記を定める。【効果】テキスト記述の音声表記が一度定められるだ
けで、それ以降同じワードの現れる都度音声表記の繰り
返される必要がなく、記述テキストの音声表記は個々に
取り扱われ、記述テキストの記憶と伝送に要されるデー
タ量が減少される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキスト記述フィ
ーチャを有するマルチメディアデータのデータ流のアッ
プグレード方法に関する。

【０００２】

【従来の技術】音声合成装置などを使用する場合におけ
るテキストの厳密な発音記述に、ワールドワイドウェブ
協会（W3C）は現在いわゆる「音声合成マークアップ言
語」（SSML:http://www.w3.org/TR/speech-synthesis）
を指定している。本明細書では、xml（可拡張マークア
ップ言語）要素によりテキスト要素の厳密な発音を定め
る。テキストの音声表記には国際音声記号（IPA）が使
用される。

【０００３】

【発明が解決しようとする課題】従来技術においてはこ
の（IPA）音素子を高レベルマルチメディア記述方式と
共に使用することにより、コンテント開発者は記述テキ
ストの音声表記を厳密に定めることができる。しかし、
記述テキストの異なる箇所に同じワードが繰り返し現れ
る場合、音声記述がその都度挿入（それから記憶および
伝送）されなければならない。

【０００４】

【課題を解決するための手段】請求項１記載のステップ
とこれに相当するサブクレームにより、高レベルなテキ
スト式マルチメディア記述方式における特定部分および
ワードのより効率的な音声表記が可能になる。

【０００５】本発明はテキスト記述に加えて一群の音声
変換ヒントを有し、これにより上記目標を達成する。こ
れらの音声変換ヒントはテキスト記述の特定部分または
ワードの音声表記を定める。この音声表記により、音声
認識または音声システムのテキストなどのアプリケーシ
ョンは、自動書き換えが使用不能であるような特別な場
合にも対応でき、さらには自動書き換えのプロセスを完
全に省くこともできる。本発明の第２の利点は音声変換
ヒント値の効率的な２進符号化であり、これにより音声
変換ヒントを有する個々の記述データの低帯域幅伝送ま
たは記憶をおこなうことができる。

【０００６】

【発明の実施の形態】従来の方法では高レベルマルチメ
ディア記述のための記述テキストの特定部分またはワー
ドの音声表記が可能であるものの、同じテキスト部分ま
たはワードの現れる度に音声表記が指定されなければな
らず、例えば同記述テキスト内に同じワードが繰り返し
現れる場合、音声表記はその都度実行される。本発明の
利点は、高レベルフィーチャマルチメディア記述方式の
いかなる記述テキストにおいても、特定部分またはワー
ドの音声表記を指定できる点である。従来技術とは異な
り、本発明はテキストの全部または一部において有効な
ワードの音声表記を指定し、しかも記述テキストにおい
て同じワードが現れる度にこの音声表記を繰り返す必要
がない。この目標の達成のために、記述方式が一群の音
声変換ヒントを含み、これらの変換ヒントが記述テキス
トのそれぞれのワードの発音を一義的に定める。音声変
換ヒントは、これらのヒントがどのレベルの記述方式に
含まれるかにより、記述テキストの全部もしくはその一
部において有効となる。これにより、一群のワードの音
声表記（伝送または記憶）を一度指定するだけで、これ
以降同じワードが音声表記の有効な箇所に現れた場合、
これらの語も有効となる。これにより記述テキストは音
声表記を列に並べることなく個々に取り扱うことがで
き、記述の構文解析が容易になる。さらにテキストを変
換ヒントから切り離して作成することが出来るため、記
述テキストのオーサリングも容易になる。最後に、記述
テキストの記憶または伝送に必要なデータ量も減少す
る。

【０００７】

【実施例】本発明の詳細を検討するに先立ち、M-PEG7に
使用されるいくつかの語の定義する。

【０００８】現在開発中のM-PEG7規格のコンテキストで
は、記述構造のテキスト表示が、マルチメディア環境に
おける視聴覚データコンテントの記述に使用される。こ
のタスクには可拡張マークアップ言語（XML）が使用さ
れ、DおよびDSはいわゆる記述定義言語（DDL）によって
指定される。本明細書のコンテキストにおいては、以下
の定義が適用される。

【０００９】●「データ」：記憶、符号化、表示、伝
送、媒体、または技術に関係なく、MPEG-7を使用して記
述される視聴覚情報である。

【００１０】●「フィーチャ」：何らかの意味を伴い、
それによりデータを特徴付ける性質である。

【００１１】●「記述子」（D）：上記フィーチャの表
示である。記述子はフィーチャ表示のシンタックスなら
びに意義を定める。

【００１２】●「記述子値」（DV）：実際のデータを表
すデータセット（またはサブセット）の記述子を具体化
したものである。

【００１３】●「記述方式」（DS）：記述方式はその要
素間の関係構造と意義とを定め、これらは例えば記述子
（D）と記述方式（DS）の両方である。

【００１４】●「記述」：記述は、データを表す記述方
式（構造）と記述子値（表示）とよりなる。

【００１５】●「符号化記述」：符号化記述は、圧縮効
率、エラー許容、ランダムアクセスなどの必要条件を満
たすために符号化された記述である。

【００１６】●「記述定義言語」（DDL）：記述定義言
語は、新しい記述方式と記述子の生成を可能にする言語
である。既存の記述方式の拡張および変更もこの言語に
より可能である。

【００１７】記述の最低レベルは記述子であり、データ
の１つまたは複数のフィーチャを定義し、個々のDVと共
に特定のデータの記述に使用される。次に高いレベルは
記述方式であり、これには少なくとも２つまたはそれ以
上の要素とその関係が含まれ、ここでの要素は記述子か
記述方式のどちらかである。最高レベルは記述定義言語
（DDL）であり、２つの目的に使用される。第１に、静
止記述子および記述方式のテキスト表示はDDLを使用し
て書かれる。第２に、DDLは静止DおよびDSを使用する活
動DSの定義に使用される。

【００１８】MPEG-7記述の場合、データは２種類に区別
される。第１に、低レベルフィーチャはデータのプロパ
ティを表わし、このプロパティとは例えば主要色、写像
もしくは画像シーケンスの形状または構造である。通常
これらのフィーチャはデータより自動的に取り出され
る。一方、MPEG-7は高レベルフィーチャを表わすのにも
用いられ、これらのフィーチャとは例えば映画の題名、
歌の著者、またはこれらのデータの完全なメディアレビ
ューである。これらのフィーチャは通常自動的に取り出
されることはなく、データの生成中または生成後に手動
か半自動で添削される。ここまで、高レベルフィーチャ
は特定の言語または類語辞書を参考にテキスト形式のみ
で記述される。以下は高レベルフィーチャのテキスト記
述の一例である。

【００１９】＜CreationInformation＞＜Creation＞＜Title type="original"＞＜TitleText xml:lang="en"＞Music＜/TitleText＞＜/Title＞＜Creator＞＜Role CSName="MPEG roles CS" CSTermID="47"＞＜Label xml:lang="en"＞presenter＜/Label＞＜/Role＞＜Individual＞＜Name＞Madonna＜/Name＞＜/Individual＞＜/Creator＞＜/Creation＞＜MediaReview＞＜Reviewer＞＜FirstName＞Alan＜/FirstName＞＜GivenName＞Bangs＜/GivenName＞＜/Reviewer＞＜RatingCriterion＞＜CriterionName＞Overall＜/CriterionName＞＜WorstRating＞1＜/WorstRating＞＜BestRating＞1＜/BestRating＞＜/RatingCriterion＞＜RatingValue＞10＜/RatingValue＞＜FreeTextReview＞ This is again an excellent piece of music from our well- known superstar, without the necessity for more than 180 bpm in order to make people feel excited. It comes along with harmonic yet clearly defined transitions between pieces of rap-like vocals, well known for e.g. from the Kraut-Rappers "Die fantastischen 4" and their former chart runner-up "MfG", and on the other hand peaceful sounding instrumental sections. Therefore this song deserves a clear 10+ rating. ＜/FreeTextReview＞＜/MediaReview＞＜/CreationInformation＞上の例ではXML言語を記述に使用している。カッコ内
（＜...＞）のテキストはXMLタグと称され、記述方式の
要素を指定する。タグ内のテキストは記述のデータ値で
ある。上の例は、アメリカの有名な歌手マドンナのオー
ディオトラック"Music"の題名、プレゼンタ、および短
いメディアレビューを記述する。見てのとおり、情報は
すべてテキスト形式になっており、特定の言語（"de"=
ドイツ語、"en"＝英語）または類語辞典によるものであ
る。データの記述テキストは、言語、コンテキスト、ま
たはアプリケーション分野の慣例により原則として異な
る方法で発音できるが、ここまでに指定されたテキスト
記述はその発音の相違に関わらず同一のものである。

【００２０】音声合成装置などを使用する場合のテキス
トの厳密な発音記述に、ワールドワイドウェブ協会（W3
C）は現在いわゆる「音声合成マークアップ言語」（SSM
L:http://www.w3.org/TR/speech-synthesis）を指定し
ている。本明細書では、xml（可拡張マークアップ言
語）要素がテキスト要素の厳密な発音を定める。ここで
は音声素子が定義され、これによりテキスト部分の音声
表記は以下のように定められる。

【００２１】＜phoneme ph="tümûto&#28A;"＞ tomato ＜/phoneme＞＜! -- This is an example of IPA using character entities --＞＜phoneme ph="tuemuto"＞ tomato ＜/phoneme＞＜! -- This example uses the Unicode IPA characters. --＞＜! -- Note: this will not display correctly on most browsers -- ＞見ての通り、音声表記には国際音声記号（IPA）が使用
されている。この音声素子を高レベルマルチメディア記
述方式と共に使用することにより、コンテント開発者は
テキスト記述の音声表記を厳密に定めることができる。
しかし同記述テキスト内に同じワードが繰り返し現れる
場合、音声表記（記憶および伝送）はその都度実行され
なければならない。

【００２２】本発明の趣旨は音声変換ヒントと称される
新しいDSを定義することであり、このDSがワードの発音
に関する追加情報を提供する。この情報を含まない現行
のテキストデータ型はM-PEG７マルチメディア記述方式C
Dの場合に、以下のように定義される。

【００２３】＜! -- ############################################################ --＞＜! -- Definition of Textual Datatype --＞＜! -- ############################################################ --＞＜ComplexType name ="TextualType"＞＜simpleContent＞＜extension base="string"＞＜attribute ref="xml:lang" use="optional"/＞＜/extension＞＜/simpleContent＞＜/complexType＞テキストデータ型には、テキスト情報のためのストリン
グと、テキストの言語のための任意属性とが含まれる。
テキストデータ型の例における複数または全ての語の発
音に関する追加の情報は、新たに定義された音声記述ヒ
ント型の例より付与される。この新しいタイプの定義の
２つの方法は以下のサブセクションの通りである。

【００２４】音声変換ヒント型の最初の実現は、以下の
定義に従う。

【００２５】＜complexType name="PhoneticTranslationHintsType"＞＜sequence maxOccurs="unbounded"＞＜element name="Word"＞＜complexType＞＜simpleContent＞＜extension base="string"＞＜attribute name="phonetic translation" type="string" use="required"/＞＜/extension＞＜/simpleContent＞＜/complexType＞＜/element＞＜/sequence＞＜/complexType＞新しく定義された音声変換ヒント型の意義は、以下の表
のとおりである。

【００２６】

【表１】

【００２７】この新たに作成された型は、ワードとその
適切な発音との関係を明確に定める。以下は前述のテキ
ストを参考にした音声変換ヒントの一例である。

【００２８】＜PhoneticTranslationHints＞＜Word phonetic translation="bpÓmi&#28A;n&#043"＞bpm＜/Word＞＜Word phonetic translation="krŴrpeĢ"＞Kraut- Rappers＜/Word＞＜Word phonetic translation="emefg"＞MFG＜/Word＞ : ＜/PhoneticTranslationHints＞この音声変換ヒント型の場合には、アプリケーションは
この時点で前述の＜FreeTextReview＞タグ内のテキスト
中の複数または全ての語の厳密な音声表記を把握してい
る。

【００２９】音声変換ヒント型の実現の第２の例は、以
下の定義に従う。

【００３０】＜complexType name="PhoneticTranslationHintsType"＞＜sequence maxOccurs="unbounced"＞＜element name="Word" type="string"/＞＜element name="PhoneticTranslation"/＞＜/sequence＞＜/complexType＞新たに定義された音声変換ヒント型の意義は前セクショ
ンの第１のバージョンと同じであり、以下の表のとおり
である。

【００３１】

【表２】

【００３２】以下は前述のテキストを参考にした、音声
変換ヒントの第２のバージョンの一例である。

【００３３】＜PhoneticTranslationHints＞＜Word＞bpm＜/Word＞＜phonetic translation＞bpÓmi&#28A;n&#043＜/phonetic tran slation＞＜Word＞Kraut-Rappers＜/Word＞＜phonetic translation＞ krŴrpeĢ＜/phonetic translation＞＜Word＞MFG＜/Word＞＜phonetic translation＞ emefg＜/phonetic translation＞ : ＜/PhoneticTranslationHints＞この音声変換ヒント型の新しい定義により、この型の例
は＜Word＞および＜PhoneticTranslation＞のタグを有
し、これらのタグは常に互いに対応してテキストおよび
その対応の音声表記を記述するユニットを成す。

【００３４】上述の音声変換ヒントDSに使用される音素
は通常、UNICODE表記を用いて印刷可能な文字としても
記述できる。しかし使用される音素の数が限られるた
め、さらに効率的な記憶と伝送のためには音素の統計を
考慮に入れる二進固定長符号表示または可変長符号表記
が音素に使用される。

【００３５】追加の音声表記情報は、TTS機能または音
声認識などの多くのアプリケーションに必要となる。マ
ルチメディアを使用しての音声対話はいずれも実際には
１つの言語（通常ユーザの母国語）でおこなわれ、HMI
（既知のボキャブラリ）はこの言語に基づく。しかしユ
ーザの使用するまたはユーザに対して表示されるワード
は他言語のものを含み、TTSシステムまたは音声認識は
これらのワードの正確な発音を把握していないこともあ
る。ここに提唱される音声記述の使用はこの問題を解決
し、HMIをより正確かつ自然にする。

【００３６】ユーザにコンテントの提供をおこなうマル
チメディアシステムは、このような音声情報を要する。
コンテントに関する追加のテキスト情報はいずれも、特
別な発音の情報を要する技術用語、名称、または他の語
を含み、TTSによりユーザへの表示が可能である。この
ことはニュース、電子メール、またはユーザに対し読ま
れる他情報に関しても同様である。

【００３７】特にCD、CD-ROM、DVD、MP3、MD、および他
の映像または音楽記憶媒体には、多くの映像や音楽が題
名、役者の名前、アーティストの名前、ジャンルなどと
共に含まれる。TTSシステムはこのようなワード全ての
発音を把握しておらず、音声認識もこれらのワードを認
識できない。例えばユーザがポップ音楽を聴きたくて、
マルチメディアシステムが演奏可能なポップ音楽のリス
トをTTSを介して示す場合、当該システムはCDの題名、
アーティストの名前、または歌の題名を追加の音声情報
無しには発音できない。

【００３８】マルチメディアシステムが（テキスト/音
声インターフェース（TTS）を介して）入手可能な映像
または音楽ジャンルのリストを示す場合、当該システム
は音声表記情報を要する。このことはテキスト記述内の
対応要素を音声認識により正確に照合する際にも同様で
ある。

【００３９】ラジオ（FM、DAB、DVB、RDMなど）はこの
ようなアプリケーションの別例である。ユーザがラジオ
を聴きたくて、システムが演奏可能な番組のリストを示
す場合、当該システムはこれらのプログラムを発音でき
ない。その理由はラジオ番組は通常、"BBC"や"WDR"、ま
たは"Antenne Bayen"のような普通の語、または"N-Joy"
のようにこれらの混合語を題名として用いるためであ
る。

【００４０】電話アプリケーションの多くは電話帳を有
する。この場合にも、システムは音声表記情報無しには
名前の発音が分からず、従ってTTSを介して名前を表記
することができない。

【００４１】いかなる機能またはアプリケーションにお
いても、TTSを介してユーザへ情報を表示する場合、ま
たは音声認識を使用する場合、幾つかの語の音声表記が
必要となる。

【００４２】また、記号に対してこの記号を表す参照符
を送信することも可能である。

【００４３】上述変換ヒントをテキスト記述の対応要素
と共に、テキスト/音声インターフェース、音声認識装
置、ナビゲーションシステム、オーディオ放送機器、通
話アプリケーションなどのアプリケーションに組み込む
ことができ、これらのアプリケーションはテキスト記述
を音声表記情報と共に、情報の検索またはフィルタリン
グに使用する。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ホルガークスマンドイツ連邦共和国ギーゼンシュタインシュトラーセ４ (72)発明者ミヒャエルヴォルボルンドイツ連邦共和国ハノーファーザントシュタインヴェーク 10 (72)発明者スヴェンメッケドイツ連邦共和国ヒルデスハイムアンデアインネルステアウ８ (72)発明者アンドレメンゲルドイツ連邦共和国ヒルデスハイムジートルングスヴェーク 11 ツェーＦターム(参考） 5D045 AB02

Claims

【特許請求の範囲】

【請求項１】テキスト記述フィーチャを有するマルチ
メディアデータのデータ流のアップグレード方法におい
て、データ流がテキスト記述に加えて一群の音声変換ヒ
ントを含み、この音声変換ヒントによりテキスト記述部
またはワードの音声表記が定められることを特徴とする
方法。
【請求項２】音声変換ヒントの後に、ワードと当該対
応の音声表記とが続くことを特徴とする、請求項１記載
の方法。
【請求項３】ワードの音声表記を伴う音声変換ヒント
がテキスト記述の全部または一部において有効であり、
当該テキスト記述において表記の付与された同ワードの
現れる都度に音声表記を繰り返す必要のないことを特徴
とする、請求項１または２記載の方法。
【請求項４】音声変換ヒントが、MPEG（例：MPEG-7）
データ流中にテキスト型記述子を伴って組み込まれるこ
とを特徴とする、請求項１から３までのいずれか１項記
載の方法。
【請求項５】音声表記情報の表示のために、所定の符
号形式（例：IPA(国際音声記号)またはSAMPA）の記号に
よって参照符が作成されることを特徴とする、請求項１
から４までのいずれか１項記載の方法。
【請求項６】音声変換ヒントに使用される音素の数が
制限されている、請求項１から５までのいずれか１項記
載の方法。
【請求項７】二進固定長符号表示または可変長符号表
示を音素に使用する、請求項６記載の方法。
【請求項８】音素の統計を考慮に入れて当該音素の符
号化をおこなう、請求項７記載の方法。
【請求項９】テキスト記述の対応要素のより正確な照
合のために、音声認識システムが変換ヒントを記憶す
る、請求項１から８までのいずれか１項記載の方法。
【請求項１０】変換ヒントをテキスト記述の対応要素
と共に、テキスト/音声インターフェース、音声認識装
置、ナビゲーションシステム、オーディオ放送機器、通
話アプリケーションなどのアプリケーションに組み込む
ことができ、これらのアプリケーションはテキスト記述
を音声表記情報と共に、情報の検索またはフィルタリン
グに使用することを特徴とする、請求項１から８までの
いずれか１項記載の方法。