JP2007199480A

JP2007199480A - プログラム及びサーバ

Info

Publication number: JP2007199480A
Application number: JP2006018940A
Authority: JP
Inventors: Kenji Nagamatsu; 健司永松
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-01-27
Filing date: 2006-01-27
Publication date: 2007-08-09

Abstract

【課題】複数の送信側から送信された難読語に対して最も適切な読みを選択することができる装置を提供する。
【解決手段】通信回線を介してサーバに接続され、前記サーバから送信されたデータを再生する端末であって、前記通信回線に接続され、前記サーバから送信されたデータを受信する受信部と、前記受信されたデータを再生するときに、再生するデータを選択するための選択情報を用いて前記データを再生する再生部と、前記受信されたデータに付加されている選択情報を抽出する抽出部と、を備え、前記再生部は、前記受信されたデータを再生するときに、前記抽出された選択情報の中から信頼度が高い変換情報を選択し、前記選択された変換情報を用いて前記データを選択する。
【選択図】図１

Description

本発明は、音声合成による読み上げを目的とする読み上げテキストを送信するサーバ、読み上げテキストを受信して再生する端末、及び、これらの方法に関するものである。

与えられたテキストデータを音声合成装置を利用して読み上げるシステムが知られている。このようなシステムでは、テキストデータを提供する提供システムが、送信された読み上げ対象となるテキストデータを、読み上げを実行する端末に送信し、その端末が受信したテキストデータを音声合成装置を利用して読み上げる。この提供システムと端末とは、同じコンピュータ内に存在していてもよいし、ネットワークを介して離れた場所に存在していてもよい。

読み上げ対象のテキストデータにはさまざまな文章が含まれる。特に漢字かな混じりの文章では、提供システムは、漢字かな混じりのテキストデータとその読みとを組み合わせたデータを送信する。

しかし、提供システムと端末とが異なるシステムとして構成されている場合は、次のような問題が生じる。すなわち、提供システムから送信された漢字かな混じりのテキストデータに含まれるすべての語句に対して、端末の音声合成装置が読みやアクセントを正確に解析できるとは限らない。従って、送信された漢字かな混じりテキストを間違って読み上げることもある。

従来、このような問題に対処するために、いくつかの方法が考えられている。例えば、日本語解析部は、表記に関する形態情報（品詞）、読み情報、アクセント情報等があらかじめ登録された単語辞書と、特定読み対応テーブルを参照して日本語解析を行なう。この際、日本語解析部は、制御部を介して与えられた文書から、特定の文字列と同文字列に対する読みの指定を抽出して、特定読み対応テーブルに登録する。音声データ生成部、音声合成装置は、日本語解析部による解析結果に基づいて、音声発声装置から文書に応じた音声を発声させる音声合成端末（特許文献１参照）が知られている。

より具体的には、読み出し対象テキストに「東海林（しょうじ）」のように漢字文字列とその読みを示す仮名文字列を併記する。また、「＠東海林：ショ’ージ：名詞：」のように、表記文字列とその読み情報及び品詞情報を指定するための特別な表現を併記してもよい。

この従来技術によると、読み出し対象テキストを受信した端末は、「東海林」という単語が辞書に登録されていない場合は、単語「東海林」に対して、新たに「ショージ」という読みと「名詞」という品詞情報とを登録する。このようにすることによって、端末は、登録された語句を利用して、送信された読み出し対象テキストを正しく読み上げることが可能となる。さらに、端末は、一度、単語を登録すると、それ以降は、別に送られた読み出し対象テキストの中に「東海林」という文字列があった場合にも、正しく「ショージ」という読みを解析することが可能となる。

また、音声合成管理サーバは、音声合成端末から読み誤りが生じた文章データを受信した場合に、音声合成端末が有する単語辞書と同一の端末単語辞書を用いて言語処理を行うとともに、大規模なサーバ単語辞書を用いて言語処理を行い、端末単語辞書を用いた言語処理の結果とサーバ単語辞書を用いた言語処理の結果とを比較して読み誤りを解消するために必要な端末単語辞書の更新の内容を更新単語データとして音声合成端末に送信する。音声合成端末は、受信した更新単語データを用いて端末単語辞書の更新を行う音声合成端末（特許文献２参照）が知られている。

この従来技術によると、端末は、その単語情報を自分の辞書データに登録することで、それ以降、読み上げテキスト内にその単語が含まれていても、読み誤ることがなくなる。

これら特許文献１や特許文献２の手法を用いることによって、読み出し対象テキスト内に、端末側の辞書データでは解析できない語句があった場合にも、テキスト送信側又はテキスト解析サーバ側から新規登録用の単語情報を送信することによって、端末側の辞書データを更新する。これにより、以降の解析では読み誤ることがなくなる。
特開平０５−１８９１９４号公報特開２００４−３５４４７２号公報

前記従来技術のような方法を用いることによって、端末側は、語句の読み誤りに対処することができる。

しかし、前記特許文献２に記載の発明では、特別なテキスト解析サーバを用意しておく必要がある。また、端末側で読み誤りが生じた場合は、そのテキストについての情報をテキスト解析サーバに問い合わせる必要があり、端末とサーバとの間で通信処理が余計に発生し、処理効率が大幅に低下してしまう問題がある。

また、特許文献１に記載の発明では、送信側と端末側との間で、どのような語句が読めて、どのような語句は読めないのかについて共通した情報を持っておく必要がある。しかし、一般的なテキスト読み上げシステムは、テキスト送信側と読み上げ端末側とは独立している。具体的には、さまざまなサイトから読み上げテキストが提供され、また、その読み上げテキストを利用して読み上げ処理を行う端末にもさまざまな種類のものがある。そして、テキスト提供側と読み上げ端末側とは、お互いが独立して機能している。

すなわち、テキスト提供側と読み上げ端末側とが、共通の情報を持っていない場合がある。従って、テキスト送信側では、どの語句に対して読み情報を付記して送ればよいのかがわからない。また、読み上げ端末側は、ある単語に対して複数のサイトから複数の読みが付されたデータを受け取った場合に、どのサイトから指定された読み情報が最も正かを判断することが難しい。

本願発明では、このような問題を鑑みてなされたものであり、テキスト送信側と読み上げ端末側との間で、語句とその語句の読みについて共通の情報を持っていない場合であっても、さまざまなテキスト送信側から送られてきた複数の単語読み情報の間で最も信頼できる情報を端末側が決定し、その最も信頼できる情報で新規単語を登録できる読み上げ装置を提供することを課題とする。また、そのような読み上げテキスト送受信装置、及び読み上げテキスト送受信方式を提供することを課題とする。

この課題を解決するために、本発明による一実施形態では、通信回線を介してサーバに接続され、前記サーバから送信されたデータを再生する端末であって、前記通信回線に接続され、前記サーバから送信されたデータを受信する受信部と、前記受信されたデータを再生するときに、再生するデータを選択するための選択情報を用いて前記データを再生する再生部と、前記受信されたデータに付加されている選択情報を抽出する抽出部と、を備え、前記再生部は、前記受信されたデータを再生するときに、前記抽出された選択情報の中から信頼度が高い変換情報を選択し、前記選択された変換情報を用いて前記データを選択することを特徴とする。

本発明によると、テキスト送信側（サーバ）から読み上げテキスト端末側（音声再生装置）に読み上げテキストを送信するときに、テキストに含まれる文字列（例えば難読語）に、読み・アクセント情報を付加するとともに、その読み・アクセントに対する信頼度を付加して、送信する。このようにすることによって、端末側は、異なる複数の送信側から送られてきた読み・アクセント情報の中で、最も信頼しうる情報を選択し、その情報を登録して利用することができる。

また、送信側が音声データを含む映像コンテンツを送信し、受信側端末が、この音声データを認識して文字情報として利用するシステムにおいては、受信側の端末は、送信側から映像コンテンツと共に送信されたキーワードと、その読み情報及び信頼度と、を利用することで、複数の送信側から送信されたキーワードの信頼度から最も適切なものを選択することができる。

以下、本発明の実施の形態について図面を参照して説明する。

本発明による実施の形態は、情報サービスを提供する送信側と、情報の提供を受ける受信側（例えばカーナビゲーションやテレビ受信機等）とによって構成されるシステムである。これら送信側の装置と受信側の装置とはネットワーク等によって接続可能に構成されている。送信側としては、例えばサービスプロバイダや新聞社、テレビ局のほか、個人ＷＷＷサイトなどもありえる。また、送信側が単一の場合もありうるし、複数の送信者から配信情報を受け取る場合もありえる。

具体的な例としてニューステキストの配信システムを考えると、送信側には複数の新聞社、テレビ・ラジオ局、個人のニュース提供サイトなどがあり、それらから同一内容の事案に関して、複数のニューステキストが配信される。その場合、同じ文字列（例えば、事案に関係する人名・地名など）に対して、それぞれの送信者毎に異なる読み情報が指定される可能性がありえる。

このシステムにおいて、送信側は、受信側に情報サービスを提供する。この情報は、例えばテキストデータ等の文字情報であってもよいし、音声や動画等の映像コンテンツであってもよい。受信側の装置は、この情報サービスを受信し、それを再生する。

このとき受信側の装置は、受け取った情報に関して、文字情報と音声情報とを相互に変換することによって、より濃密なサービスを享受することができる。

具体的には、受信側の装置は、受信した情報が文字情報であった場合は、その文字情報を音声情報に変換して、ユーザに再生することができる。

また、受信した情報が映像情報であった場合は、その映像情報の音声丈夫を文字情報に変換して、画面に表示することができる（これは一般にクローズドキャプションと呼ばれる）。

また、受信側の装置は、受信した情報が映像情報であった場合は、その映像情報を蓄積しておき、ユーザの音声によって、映像情報の内容を検索することも可能となる。具体的には、ユーザの発声した音声キーワードを文字情報として認識し、認識した文字情報と受信した映像情報に含まれる情報とを比較して検索を実行する。

このようなシステムにおいて、送信側の装置から送信される情報に、音声情報と文字情報とを変換することが難しい単語等が含まれる場合がある。

例えば、文字情報内に、不自然な文章や人名等の難読語等が含まれている場合は、通常の音声合成エンジンでは音声合成をすることが難しい。

そこで、前述した従来の技術のように、送信側の装置が、これら難読語等の音声変換しにくい文字列の読み情報を付加して、情報を送信する手法が考えられる。

しかしながら、このような方法では、複数の異なる送信側の装置から、複数の異なる読み情報が送信される場合がある。例えば、異なる新聞社から同一の文字列に対して異なる読み情報が付加された場合である。この場合は、受信側の装置において、一つの文字列に対して複数の読みが同時に存在することとなり、音声合成が困難となる。

そこで、以下に説明する実施の形態で明らかになるように、送信側の装置が、文字列の読み情報に対して信頼度というデータを付加する。

この信頼度というデータは、ある文字列に対して指定された読み情報がどの程度確からしいかを送信側が指定するデータである。例えば、この信頼度データには、確率値を使用することが可能である。信頼度０．８という場合、ある文字列に対して指定された読みが、確率０．８で確からしいと送信側が判断したということを示す。この値の算出には、例えば、統計処理を用いてもよい。具体的には、ＷＷＷで代表されるテキストデータの中から無作為サンプリングを行い、その文字列が指定された読みで読まれる頻度を測定すれば、この確率による信頼度データを求めることができる。また、人間の判断に基づいて１００分率（％）により、信頼度データを指定することも可能である。この場合は、ある文字列が指定された読みで読まれると判断した人が１００人中何人いたかという値を使用すればよい。

このような信頼度データを付与することで、同じ文字列に対して異なる読みが指定されたとしても、その信頼度を比較することで、より確からしい読みデータを選択することが可能となる。例えば、新聞社からこの信頼度付きの読み情報が配信されるという場合を考えると、記事を書いた人間が変わればその信頼度の値は変化しうる。また、時間が経過することで、同じ単語の読みが変化していくという場合も多い。このような場合に、信頼度という比較可能なデータを付与しておくことで、複数の読みのどれが最も確からしいかを自動的に判定することが可能となる。

さらには、送信側が複数存在する場合、複数の新聞社から、又は他のより信用の低い送信者から、同じ文字列に対して異なる読み情報が送信されてくる場合がありえる。このような場合、付与されている信頼度データを比較することで、最も確からしい読み情報を選択することが可能となる。ただし、このためには、複数の送信者間で同じ基準による信頼度の計算が行われていることが望ましい。しかし、このような正規化が困難な場合であっても、後に説明するように、それぞれの送信者に対して、受信側が設定した送信者信頼度を乗ずることによって、受信側の選好を勘案しつつ、複数の送信者から送られた信頼度データを比較することが可能となる。

以上、述べたように、信頼度データを付与して読み情報を送信することで、送信側では、複数の読み情報設定者間での、又は時間をおいて設定された複数の読み情報間での比較基準を提供することが可能となる。同時に、受信側では、複数の送信者側から指定された信頼度データを比較して、最も確からしい読み情報の利用が可能となる。

まず、第１の実施の形態について説明する。

図１は、本発明の第１の実施の形態の読み上げテキスト送受信システムの構成ブロック図である。

読み上げテキスト送受信システムは、読み上げ対象テキストを送信する読み上げテキスト送信装置１０と、送信された読み上げテキストを受信し、音声合成装置によって読み上げる読み上げテキスト受信装置２０と、を含む。また、この読み上げテキスト送信装置１０と読み上げテキスト受信装置２０とは、通信回線１６０によって接続されている。読み上げテキスト送信装置１０と読み上げテキスト受信装置２０とは、この通信回線１６０を介して読み上げテキストデータを送受信する。

読み上げテキスト送信装置１０は、読み上げテキスト記憶部１００と、難読語読み・アクセント記憶部１１０と、信頼度データ記憶部１２０と、読み・アクセント情報埋め込み部１３０と、信頼度データ付加部１４０と、読み上げテキスト送信部１５０とを含む。

読み上げテキスト受信装置２０は、読み上げテキスト受信部１７０と、信頼度データ抽出部１８０と、読み・アクセント情報抽出部１９０と、音声合成用辞書データ記憶部２００と、テキスト音声合成部２１０と、信頼度付きユーザ辞書記憶部２２０と、信頼度による単語登録部２３０とを含む。

次に、読み上げテキスト送信装置１０の構成を説明する。

読み上げテキスト記憶部１００は、読み上げテキスト送信装置１０が読み上げテキスト受信装置２０に送信する読み上げ対象のテキストデータを一つ又は複数個格納する記憶装置である。読み上げテキスト記憶部１００は、例えば、ハードディスク装置やメモリによって構成される。読み上げ対象のテキストデータは、例えばＪＩＳやＳｈｉｆｔＪＩＳコード等で記述されている。読み上げテキスト記憶部１００は、このデータを、直接、又はデータベースプログラムなどを介して格納する。

難読語読み・アクセント記憶部１１０は、難読語の読み・アクセント情報を格納する記憶装置である。難読語の読み・アクセント情報とは、読み上げテキスト記憶部１００に記録されている読み上げテキストデータに現れうる難読語候補について、それらの読みやアクセント情報である。難語読み・アクセント記憶部１１０は、例えば、ハードディスク装置やメモリによって構成される。難読語の読み・アクセント情報は、例えば、難読語それぞれについて、表記文字列、読み、アクセント及び品詞等の付随データを格納したレコード形式である。

信頼度データ記憶部１２０は、信頼度データを格納する記憶装置である。信頼度データとは、難読語読み・アクセント記憶部１１０に記録されている難読語それぞれについて、その読みやアクセントがどの程度信頼できるかを示す数値である。信頼度データ記憶部１２０は、例えば、難読語読み・アクセント記憶部１１０に記録されている難読語の読み・アクセント情報それぞれについての信頼度の数値を百分率（％）を用いて格納する。なお、信頼度の数値は％ではなく、任意の数値であってもよい。ただし、他の読み上げテキスト送信装置１０から送られた信頼度との間での比較ができるように、なんらかの正規化が必要である。

読み・アクセント情報埋め込み部１３０は、読み上げ対象テキストデータに含まれる難読語に読み・アクセント情報を埋め込む処理を実行する。より具体的には、読み・アクセント情報埋め込み部１３０は、読み上げテキスト記憶部１００から受け取った読み上げ対象テキストデータに含まれる難読語を、難読語読み・アクセント記憶部１１０の難読語データを参照して抽出する。そして、抽出した難読語それぞれについて、難読語読み・アクセント記憶部１１０を検索し、対応する読み・アクセント情報を付加する。

情報を付加する形式にはいろいろな手法がある。例えば、読み上げテキストデータの該当語句の直後に括弧つきで読み情報とアクセント情報を記述する。

また、表記の範囲を限定した上で、読み・アクセント情報に加えて、品詞情報を付加する形式としてもよい。

信頼度データ付加部１４０は、読み上げテキストデータの難読語それぞれに信頼度データを付加する。より具体的には、読み・アクセント情報埋め込み部１３０から、難読語の読み・アクセント情報が付加された読み上げテキストデータを受け取る。そして、このテキストデータに含まれる難読語について、読み・アクセント情報の信頼度データを信頼度データ記憶部１２０から取得する。そして、それぞれの難読語に取得した信頼度データを付加する。

この信頼度データを付加する形式にはいろいろな手法がある。例えば、読み・アクセント情報埋め込み部１３０によって付加された読み・アクセント情報の直後に、括弧付きで信頼度データを併記してもよい。

読み上げテキスト送信部１５０は、難読語の読み・アクセント情報及びその信頼度データが付加された読み上げテキストデータを、通信回線１６０を通して、読み上げテキスト受信装置２０に送信する。この読み上げテキスト送信部１５０は、例えばインターネットモデム装置によって構成される。なお、携帯電話における無線通信装置やＣＡＴＶモデム装置などの通信機器を利用することによって読み上げテキストデータを送信してもよい。すなわち、通信回線に応じて適切な機器を用いればよい。

図２は、読み上げテキスト記憶部１００に格納されている読み上げテキストデータの一例の説明図である。

読み上げテキストデータは、一般的な漢字かな混じりのテキストデータとして格納されている。

図３Ａは、難読語読み・アクセント記憶部１１０に格納されている。難読語読み・アクセント情報の一例の説明図である。

難読語読み・アクセント情報は、前述のように難読語それぞれについて、表記文字列、読み、アクセント及び品詞等の付随データを格納したレコード形式である。

難読語読み・アクセント情報は、ＩＤ１１０１、表記１１０２、読み１１０３、アクセント１１０４及び品詞１１０５の各フィールドを含む。

具体的には、ＩＤ１１０１が「１」である難読語は、表記１１０２が「東海林」であり、その読み１１０３が「ショージ」であり、そのアクセント１１０４は「１型」であり、その品詞１１０５は、「苗字」であることが示されている。

図３Ｂは、難読語読み・アクセント記憶部１１０に格納されている。難読語読み・アクセント情報の他の例の説明図である。

本実施の形態では、漢字かな混じり文章ではなく、英文や他の言語にも応用できる。

例えば、図３Ｂに示すように、英語における難読文字を、その表記及び読み・アクセントとし他データとしてもよい。なお、読み／アクセント情報は、発音記号等を用いてもよい。

図４は、信頼度データ記憶部１２０に格納されている信頼度データの一例の説明図である。

信頼度データは、前述のように、難読語それぞれについて、その読みやアクセントがどの程度信頼できるかを示す数値である。

信頼度データは、ＩＤ１２０１、表記１２０２及び信頼度１２０４の各フィールドを含む。

具体的には、ＩＤ１２０１が「１」である難読語は、表記１２０２が「東海林」であり、その信頼度１２０３が「９０％」であることが示されている。

なお、難読語読み・アクセント情報（図３Ａ）と信頼度データ（図４）とは、同一の表記に対して同一のＩＤを用いることによって、いずれか一方の表記フィールドを省略することもできる。

図５は、読みアクセント情報埋め込み部１３０及び信頼度データ付加部１４０によって、難読語読み・アクセント情報及び信頼度データが付加された読み上げテキストデータの一例の説明図である。

この図４に示す例は、前述の図２に示す読み上げテキストデータに対し、図３Ａの難読語読み・アクセント情報及び図４の信頼度データが付加されたデータである。

より具体的には、読み上げテキストデータに含まれる難読語を「［」及び「］」によって区切り、この区切りの中に、難読語、読み、アクセント、付随データ（品詞）及び信頼度を「；」によって区切った形で付加されたものである。

なお、区切りを示す記号は「［」や「；」でなくてもよい。例えば「東海林（ショ’ージ）（９０）一郎さんが…」のような形式でもよい。

次に、読み上げテキスト受信装置２０の構成を説明する。

読み上げテキスト受信部１７０は、通信回線１６０を通して送信側装置から送信された読み上げテキストデータを受信する。この読み上げテキスト受信部１７０は、例えばインターネットモデム装置によって構成される。なお、携帯電話における無線通信装置やＣＡＴＶモデム装置などの通信機器を利用することによって読み上げテキストデータを受信してもよい。すなわち、通信回線に応じて適切な機器を用いればよい
読み上げテキスト受信装置１７０は、受信した読み上げテキストデータを、信頼度データ抽出部１８０と読み・アクセント情報抽出部１９０とに出力する。

信頼度データ抽出部１８０は、受け取った読み上げテキストデータから、信頼度が付与された難読語及びその信頼度データを抽出する。そして、抽出した難読語及びその信頼度データを信頼度による単語登録部２３０に出力する。

読み・アクセント情報抽出部１９０は、受け取った読み上げテキストデータから、読み・アクセント情報が付与された難読語及びその読み・アクセント情報を抽出する。そして、抽出した難読語及びその読み・アクセント情報を信頼度による単語登録部２３０に出力する。

音声合成用辞書データ記憶部２００は、テキスト音声合成部２１０が音声合成のために利用する音声合成用の単語辞書や音声辞書をあらかじめ格納しておく。音声合成用辞書データ記憶部２００は、例えば、ハードディスク装置やメモリによって構成される。

テキスト音声合成部２１０は、音声合成用辞書データ記憶部２００に格納されている音声合成用データを参照して、受け取った読み上げテキストデータを、音声データに変換する。

テキストデータを音声データに変換する処理には音声合成技術が利用できる。信頼度付きユーザ辞書記憶部２２０は、信頼度による単語登録部２３０によって、難読語の読み・アクセント情報及び信頼度が格納される。

信頼度による単語登録部２３０は、信頼度データ抽出部１８０によって抽出された難読語及びその信頼度データと、読み・アクセント情報抽出部１９０によって抽出された難読語及びその読み・アクセント情報とを受け取る。そして、信頼度付きユーザ辞書記憶部２２０を参照して、同じ表記の難読語について、既に格納されているものよりも信頼度の値が高い読み・アクセント情報である場合は、その読み・アクセント情報を、既に格納されている新しい読み・アクセント情報と置き換えて格納する。なお、その難読語について、読み・アクセント情報が格納されていない場合は、新規に格納する。

図６は、信頼度データ抽出部１８０によって抽出された信頼度データの一例の説明図である。

読み上げテキスト送信装置１０によって送信された読み上げテキストデータ（図５）を受け取った信頼度データ抽出部は、読み上げテキストデータに含まれる表記文字列及び信頼度を抽出して、抽出したデータを信頼度による単語登録部２３０に出力する。

次に、前述のように構成された読み上げテキスト送受信システムの動作を具体的に説明する。

図７は、読み・アクセント情報抽出部１９０によって抽出された読み・アクセント情報の一例の説明図である。

読み上げテキスト送信装置１０によって送信された読み上げテキストデータ（図５）を受け取った読み・アクセント情報抽出部１９０は、読み上げテキストデータに含まれる表記文字列、読み・アクセント及び品詞を抽出して、抽出したデータを信頼度による単語登録部２３０に出力する。

まず、読み上げテキスト送信装置１０の動作を説明する。

図８は、読み・アクセント情報埋め込み部１３０の処理のフローチャートである。

読み・アクセント情報埋め込み部１３０は、管理者の操作等によって読み上げテキスト記憶部１００に格納されている読み上げ対象のテキストデータを特定されると、本フローチャートの処理を開始する。

まず、読み・アクセント情報埋め込み部１３０は、文字の位置を特定するための変数ｐを１に設定することによって初期化する（Ｓ３００）。

次に、読み・アクセント情報埋め込み部１３０は、入力テキストのｐ文字目から始まる文字列（単語）が、難読語読み・アクセント記憶部１１０に格納されているかを検索する（Ｓ３１０）。そして、検索の結果、その単語が難読語読み・アクセント記憶部１１０に格納されている難読語であるか否かを判定する（Ｓ３２０）。

読み・アクセント情報埋め込み部１３０は、難読語として格納されていると判定した場合は、その難読語を、読み・アクセント付き文字列によって置換する（Ｓ３３０）。

難読語の文字列を置換した後、読み・アクセント情報埋め込み部１３０は、その置換された読み・アクセント付き文字列の直後の位置に変数ｐを設定する（Ｓ３４０）。

一方、難読語として格納されていないと判定した場合は、その位置の文字に対する処理をすることなく、変数ｐに１を加算して、ステップＳ３６０に移行する（Ｓ３５０）。

次に、読み・アクセント情報埋め込み部１３０は、現在の変数ｐ番目の文字が読み上げテキストデータの末尾であるか否かを判定する（Ｓ３６０）。変数ｐ番目の文字が読み上げテキストデータの末尾に達していないと判定した場合、ステップＳ３１０に戻り、その文字位置での難読語を検索する。変数ｐ番目の文字が読み上げテキストデータの末尾に達したと判定した場合は、処理を終了する。

このような処理によって、読み・アクセント情報埋め込み部１３０は、読み上げテキストデータに含まれる難読語に対して読み・アクセントデータを埋め込んだ読み上げテキストデータが生成される。

次に、このアクセント情報埋め込み部１３０の処理を具体的に説明する。ここでは、読み・アクセント情報埋め込み部１３０に入力される入力テキストが図２に示す内容であり、難読語読み・アクセント記憶部１１０に記憶された内容が、図３Ａに示す内容である場合を説明する。

まず、読み・アクセント情報埋め込み部１３０は、入力テキストの文字位置ｐを順次検索する。文字位置ｐが１５になるまでは難読語が含まれていないので、図8のフローチャートのステップＳ３２０においてＮＯに移行し、文字位置変数ｐに１を加算して検索をする。そして、文字位置ｐが１５となったときに、難読語読み・アクセント記憶部１１０に記憶されている「東海林」という難読語を検索し、ステップＳ３３０に移行する。

そして、読み・アクセント情報埋め込み部１３０は、前述のように、難読語「東海林」に対して、難易語読み・アクセント情報を埋め込む。すなわち、読み・アクセント付き文字列である「［東海林；ショ’ージ；苗字］」という文字列が生成され、元の「東海林」が置換される。

この結果、入力テキストは「本日、東京・国分寺市に在住の［東海林；ショ’ージ；苗字］一郎さんが、新種の苧環を公開しました。」という内容に変更される。

続いて、読み・アクセント情報埋め込み部１３０は、置換した文字列直後の位置である２９を文字位置変数ｐに設定する。

その後、読み・アクセント情報埋め込み部１３０は、同様に検索を続け、文字位置ｐが３８となったときに難読語「苧環」を検索する。これに対して、読み・アクセント情報埋め込み部１３０は、同様に「［苧環；オダマキ；名詞］」という文字列を生成し、元の「苧環」が置換される。

この結果、入力テキストは「本日、東京・国分寺市に在住の［東海林；ショ’ージ；苗字］一郎さんが、新種の［苧環；オダマキ；名詞］を公開しました。」という内容に変更される。

その後は、読み・アクセント情報埋め込み部１３０は、同様に検索を続け、文字位置ｐが５８になったときに、入力テキストの最後の文字に到達するので、この読み・アクセント情報埋め込み処理を完了する。

図９は、信頼度データ付加部１４０の処理のフローチャートである。

信頼度データ付加部１４０は、読み・アクセント情報埋め込み部１３０によって生成された読み上げテキストデータを受け取ると、本フローチャートの処理を開始する。まず、信頼度データ付加部１４０は、文字の位置を特定するための変数ｐを１に設定することによって初期化する（Ｓ４００）。

次に、信頼度データ付加部１４０は、受け取った読み上げテキストデータの中の変数ｐ番目の文字が「［」であるか否かを判定する（Ｓ４１０）。

変数ｐ番目の文字が「［」でないと判定した場合は、信頼度データ付加部１４０は、ステップＳ４２０において変数ｐに１を加算した後、ステップＳ４９０に移行する。

一方、変数ｐ番目の文字が「［」であると判定した場合は、信頼度データ付加部１４０は、まず、変数ｐに１を加算する（Ｓ４３０）。

次に、信頼度データ付加部１４０は、変数ｐ番目の文字から始まる文字列が信頼度データ記憶部１２０に格納されているかを検索する（Ｓ４４０）。そして、検索の結果、変数ｐ番目の文字から始まる文字列が信頼度データ記憶部１２０に格納されているか否かを判定する（Ｓ４５０）。

文字列が格納されていないと判定した場合は、ステップＳ４８０に移行する。

文字列が格納されていると判定した場合は、信頼度データ付加部１４０は、変数ｐを文字「］」の直前の位置に設定する（Ｓ４６０）。そして、信頼度データ記憶部１２０に格納されている信頼度値を、文字「］」の直前に挿入して（Ｓ４７０）、ステップＳ４８０に移行する。

ステップＳ４８０では、信頼度データ付加部１４０は、変数ｐを、文字「］」の直後の位置に設定する。

次に、信頼度データ付加部１４０は、現在の変数ｐ番目の文字が読み上げテキストデータの末尾であるか否かを判定する（Ｓ４９０）。変数ｐ番目の文字が読み上げテキストデータの末尾に達していないと判定した場合、ステップＳ４１０に戻り、その文字位置で文字「［」を検索する。変数ｐ番目の文字が読み上げテキストデータの末尾に達したと判定した場合は、処理を終了する。

以上の処理によって、難読語の読み・アクセントデータを埋め込んだ読み上げテキストデータに対して、その難読語の信頼度データを付加した読み上げテキストデータが生成される。

次に、この信頼度データ付加部１４０の処理を具体的に説明する。

まず、信頼度データ付加部１４０は、入力テキストの文字位置ｐを順次検索する。文字位置ｐが１５になるまでは「［」が含まれていないので図９のフローチャートのステップＳ４１０においてＮＯに移行し、文字位置変数ｐに１を加算して検索をする。そして、文字位置ｐが１５となったときに、「［」を検索し、ステップＳ４３０に移行して、文字位置ｐに１を加算して文字位置ｐが１６に設定される。

次に、信頼度データ付加部１４０は、ステップＳ４４０において、入力テキストの１６文字目から始まる文字列「東海林」が、信頼度データ記憶部１２０に格納されている文字列として検索される。このとき、信頼度データ付加部１４０は、信頼度データ記憶部１２０の内容（図４）を参照して、文字列「東海林」に対して信頼度データ「９０」という信頼度を取得する。

次に、ステップＳ４６０において、信頼度データ付加部１４０は、文字位置ｐに、「］」の直前の位置である２８を設定する。続いて、ステップＳ４７０において、信頼度データ付加部１４０は、検索された信頼度値９０を文字位置ｐに挿入する。

この結果、入力テキストは「本日、東京・国分寺市に在住の［東海林；ショ’ージ；苗字；９０］一郎さんが、新種の［苧環；オダマキ；名詞］を公開しました。」という内容に変更される。

そして、信頼度データ付加部１４０は、ステップＳ４８０において、文字位置ｐに、「］」の直前の位置である３２を設定する。

その後、信頼度データ付加部１４０は、同様に検索を続け、文字位置ｐが４１となったときに、「［」を検索し、文字列「苧環」が、信頼度データ記憶部１２０に格納されている文字列として検索される。そして、この文字列「苧環」に対して信頼度データ「９５」を挿入する
この結果、最終的に、信頼度データ付加部１４０によって、図５に示す読み上げテキストデータが生成される。

以上、読み・アクセント、信頼度情報の埋め込み形式が［東海林；ショ’ージ；苗字；９０］のような形式だった場合についてのフローチャートで説明した。もし、埋め込み形式が異なる場合には、このフローチャートは若干変更にはなるが、処理の流れ自体は同様なので説明は省略する。

なお、前述したように、読み上げテキスト送信装置１０において、難読語読み・アクセント記憶部１１０及び信頼度データ記憶部１２０、並びに、読み・アクセント情報埋め込み部１３０及び信頼度データ付加部１４０は、それぞれが分離した個別の機能部として処理を実行する。これは、信頼度データの付与を予定していない従来の読み上げテキスト送受信システムに、これら新たな部位を追加することによって、本実施の形態の機能を実現することができることを想定している。

なお、難読語読み・アクセント記憶部１１０と信頼度データ記憶部１２０を一つの記憶部として実装してもよいし、読み・アクセント情報埋め込み部１３０と信頼度データ付加部１４０とを一つの処理部として実装してもよい。

次に、読み上げテキスト受信側装置２０の処理について説明する。

読み上げテキスト送信装置２０において、前述のように読み・アクセント情報及び信頼度情報が付加された読み上げテキストデータは、読み上げテキスト送信部１５０によって送信される。送信された読み上げテキストデータは、通信回線１６０を介して、読み上げテキスト受信部１７０が受け取る。

読み上げテキスト受信部１７０が受信した読み上げテキストデータは、前述の図５のような形式である。読み上げテキスト受信部１７０は、受信した読み上げテキストデータを、信頼度データ抽出部１８０及び読み・アクセント情報抽出部１９０に出力する。

図１０は、信頼度データ抽出部１８０の処理のフローチャートである。

信頼度データ抽出部１８０は、読み上げテキスト受信部１７０から読み上げテキストデータを受け取ると、本フローチャートの処理を開始する。

まず、信頼度データ抽出部１８０は、文字の位置を特定するための変数ｐを１に設定することによって初期化する（Ｓ５００）。

次に、信頼度データ抽出部１８０は、読み上げテキストデータのｐ文字目から始まる文字が「［」であるか否かを判定する（Ｓ５１０）。文字が「［」でなければステップＳ５２０に移行して、変数ｐに１を加算した後、ステップＳ５７０に移行する。

一方、読み上げテキストデータのｐ文字目から始まる文字が「［」である場合は、ステップＳ５３０に移行する。ステップＳ５３０では、信頼度データ抽出部１８０は、次に、文字「］」又は３番目の「；」が現れるまで変数ｐに１を加算して、文字位置を移動する。

そして、文字「］」又は３番目の「；」が見つかった場合は、ステップＳ５５０に移行し、信頼度データ抽出部１８０は、文字位置ｐ、すなわち「［」又は３番目の「；」の直後にある信頼度の値を取り出す。その後、ステップＳ５６０に移行する。

一方、文字「］」又は３番目の「；」が見つかった場合は、ステップＳ５５０の処理を実行することなく、ステップＳ５６０に移行する。

ステップＳ５６０では、信頼度データ抽出部１８０は、文字「］」の直後の文字位置に変数ｐを設定する。

次に、信頼度データ抽出部１８０は、変数ｐの文字位置が読み上げテキストの末尾に達したか、すなわち、変数ｐが読み上げテキストデータの長さに等しいか否かを判定する（Ｓ５７０）。達していない場合はステップＳ５１０に戻り、処理を繰り返す。変数ｐ番目の文字が読み上げテキストデータの末尾に達したと判定した場合は、処理を終了する。

この処理を行った結果、信頼度データ抽出部１７０の出力として図６とほぼ同様の難読語とその信頼度の組が得られる。

なお、読み・アクセント情報抽出部１９０も、信頼度データ抽出部１８０とほぼ同様の処理を実行する。具体的には、前述の図１０のフローチャートとほぼ同一であるため、その説明は省略する。読み・アクセント情報抽出部１９０の処理の結果、図７とほぼ同様の難読語とその読み・アクセント情報の組が得られる。

なお、信頼度データ抽出部１７０及び読み・アクセント情報抽出部１９０の二つの処理は、同時に実行してもよいし、どちらかを先に実行したり、これらの二つの処理を一つの処理として実施してもよい。

次に、信頼度による単語登録部２３０の処理の流れについて説明する。

図１１は、信頼度による単語登録部２３０の処理のフローチャートである。

ここでは、信頼度データ抽出部１８０と読み・アクセント情報抽出部１９０から図１２に示す難読語の読み・アクセント情報と信頼度データが抽出されている場合について説明する。

信頼度による単語登録部２３０は、信頼度データ抽出部１８０によって抽出された信頼度データと、読み・アクセント情報抽出部１９０によって抽出された読み・アクセント情報とを受け取ると、本フローチャートの処理を開始する。

まず、信頼度による単語登録部２３０は、受け取った読み・アクセント情報及び信頼度データの組（以降、レコードと呼ぶ）を一つ取り出す（Ｓ６００）。例えば、「東海林、ショ’ージ、苗字、９０％」というレコードが取り出される。

このとき、信頼度による単語登録部２３０は、取り出すべきレコードが存在するか否かを判定する（Ｓ６１０）。取り出すべきレコードが存在しない、すなわち、すべての読み・アクセント情報及び信頼度データに対する処理が終了したと判定した場合は、信頼度による単語登録部２３０は、処理を終了する。

取り出すべきレコードが存在すると判定した場合は、信頼度による単語登録部２３０はユーザ辞書記憶部２２０を検索し、取り出したレコードの表記文字列が、ユーザ辞書記憶部２２０に記録されているユーザ辞書に含まれているか否かを検索する（Ｓ６２０）。

表記文字列がユーザ辞書に含まれていないと判定した場合は、信頼度による単語登録部２３０は、取り出したレコード「東海林、ショ’ージ、苗字、９０％」を新たにユーザ辞書に登録する（Ｓ６４０）。その後、ステップＳ６００に戻り、次のレコードの処理を実行する。

表記文字列がユーザ辞書に含まれていると判定した場合は、信頼度による単語登録部２３０は、その表記文字列の信頼度の値よりも、ユーザ辞書に登録されている読み・アクセント情報の信頼度の値の方が高いか否かを判定する（Ｓ６４０）。

なお、本実施形態では、単純に信頼度が高いか否かのみを比較するが、例えば、読み上げテキストデータを送信してきたサイトに全体に対する信頼度値を別途保持しておき、その値との積によって、最終的な信頼度を比較してもよい。

この結果、ユーザ辞書に登録されている読み・アクセント情報の信頼度の値が、その表記文字列の信頼度の値よりも高いと判定した場合は、信頼度による単語登録部２３０は、その表記文字列に対する処理を行うことなく、ステップＳ６００に戻り、次のレコードの処理を実行する。

一方、その表記文字列の信頼度が、ユーザ辞書に登録されている読み・アクセント情報の信頼度よりも高いと判定した場合は、信頼度による単語登録部２３０は、信頼度付きユーザ辞書記憶部２２０に記録されているユーザ辞書データの、当該表記を持つレコードに対して、今回、読み上げテキストから抽出された読み・アクセント情報及び信頼度データを登録する。例えば、表記文字列「東海林」に対して「東海林、ショ’ージ、苗字、９０％」を登録する。

以上の処理によって、信頼度付きユーザ辞書記憶部２２０のユーザ辞書に新たに読み・アクセント情報及び信頼度データが登録され、また、既に登録されている読み・アクセント情報に対して、さらに信頼度が高い信頼度データを受け取った場合は、その信頼度データによって、既に登録されている信頼度値を更新する。

次に、この信頼度による単語登録部２３０の処理と具体的に説明する。ここでは、信頼度付きユーザ辞書記憶部２２０に、既に、図１３に示すユーザ辞書データが格納されており、また、信頼度データ抽出部１８０及び読み・アクセント情報抽出部１９０が、図１２に示す難読語の読み・アクセント情報及び信頼度データを抽出した場合について具体的に説明する。

信頼度による単語登録部２３０は、受け取ったレコードの第一番目のレコードの処理を実行する。まず、この一番目のレコードの表記文字列「東海林」をユーザ辞書から検索する。この表記文字列はユーザ辞書には未登録であるため、新たに「東海林」という表記文字列と、その読み・アクセント情報及び信頼度データを登録する。

次に、信頼度による単語登録部２３０は、受け取ったレコードの二番目のレコードの処理を実行する。そして、この二番目のレコードの表記文字列「苧環」をユーザ辞書から検索する。この結果、ユーザ辞書には、既に「苧環、オダ’マキ、名詞、８０％」というレコードが登録されていると判定する。

そして、信頼度による単語登録部２３０は、既に登録されている信頼度データの信頼度値を参照して、処理中のレコードの信頼度値とユーザ辞書に登録されている信頼度値とを比較する。この比較の結果、読み上げテキストから抽出された処理中のレコードの信頼度データの信頼度値が高いと判定する。そのため、信頼度による単語登録部２３０は、ユーザ辞書の信頼度データを、新たな信頼度データに更新する。この結果、既に登録されている「苧環、オダ’マキ、名詞、８０％」というユーザ辞書のレコードは、「苧環、オダマキ、名詞、９５％」というレコードに置き換えられる。

結果として、信頼度付ユーザ辞書記憶部２２０にあらかじめ登録されているユーザ辞書（図１３）が、信頼度による単語登録部２３０の処理によって、図１４に示すような内容に変更される。

このように、信頼度による単語登録部２３０によって、端末側装置が保持するユーザ辞書のデータは、常に、より信頼度が高い情報によって更新される。これによって、テキスト音声合成部２１０が読み上げテキストを正しく読み上げる精度を向上することができる。

図１１の処理例においては、同一の表記が存在した場合には、より信頼度の高い読み情報で置換するという実施形態を示した。これは、通常の音声合成処理においては、ある文字列に対応する読み情報は１対１で定まる場合が多く、他のより信頼度の低い読み情報を残しておく必要がないからである。しかし、信頼度は低くても異なる読み情報を残しておいた方がよい場合も存在する。例えば、同じ表記を前後の文脈情報によって読み分ける機能を持つ音声合成処理の場合、前後の文脈情報（例えば、前後にどのような形態素があるか）によって、より信頼度の低い読み情報が、読み分け処理によって、優先されるという場合も考えられる。そのような機能を持つ音声合成処理を利用している場合は、より信頼度の高い読み情報で置換するよりは、信頼度順でソートして、複数の読み情報を保存しておくという形態を採った方がよい。

以上のように、本発明の第１の実施形態では、読み上げテキスト送信装置１０から読み上げ受信装置２０に読み上げテキストを送信するときに、読み上げテキストに含まれる難読語に対して読み・アクセント情報を付加するとともに、その読み・アクセントに対する信頼度を付加して送信する。また、読み上げテキスト受信装置２０は、受け取った読み上げテキストに付加されている読み・アクセント情報及び信頼度データをユーザ辞書として登録し、既にユーザ辞書に登録されているものよりも信頼度が高ければ信頼度データを更新する。このようにすることによって、読み上げテキスト受信装置２０は、異なる複数の読み上げテキスト送信装置１０から送られてくる読み・アクセント情報のうち、最も信頼しうる情報を選択して登録し、その情報を利用することができる。

その結果として、利用者に特別な操作を強いることなく、読み上げテキストに含まれる難読語に対して、常に最も信頼度の高い読み・アクセント情報を利用して音声合成による読み上げを提供することが可能となる。

次に、本発明の第２の実施の形態を説明する。

本発明の第２の実施の形態は、映像コンテンツに含まれる音声データのキーワードを検索するために、キーワードに対応する信頼度を利用する。

具体的な例として番組映像の配信システムを考えると、送信側（複数のテレビ局、レコード会社、ゲーム会社、個人の映像提供サイトなど）からさまざまな映像データが配信され、受信側ではそれらの映像データを蓄積し、ユーザが見たい映像を検索して再生するというシステムとなる。この場合、ユーザが見たい映像を検索する手段として、例えば、映像内に含まれる言葉を指定して検索するという処理は有用である。例えば、多くのニュース映像の中から「さくら」というキーワードを含む映像を検索することで、桜に関する映像部分を素早く閲覧できるようになる。

このようなシステムにおいて、受信側ですべての映像データに対して音声認識を行い、発声されたキーワードを抽出しておくという処理は現実的ではない。それよりも、映像データの配信側で、例えば、その映像の話者用の音声認識データを用いて、より高精度にキーワードを抽出しておくことで、より有用なキーワード情報を提供することができるためである。

こうして配信される映像データにキーワード情報が付与されているという状況を考えると、第１の実施の形態と同様に、同じキーワードに対してどの映像データが最も適切かを選択しなければならなくなる。これは、同じ「さくら」というキーワードを持つ映像データが複数の送信側から送られてくる状況は十分にありえるからである。

このように、第２の実施の形態では、あるキーワードに対して指定された映像データがどの程度適切かを示すデータとして、信頼度情報を利用する。この信頼度情報が付与されることで、受信側では、あるキーワードに対して最も適切な映像データを選択することが可能となる。

本実施形態における信頼度データの具体例としては、例えば、人間の判断による１００分率（％）の値を用いることができる。ある映像コンテンツのある時刻から始まるシーンに対して、１００人中８０人が「さくら」というキーワードを付与することが適切だと判断した場合に、その時刻のシーンに対して信頼度８０を付与するという方法である。

または、音声認識処理を用いて、映像内の音声データからキーワード情報を自動抽出するという手法もある。これには、ディクテーション認識と呼ばれる広く公知の音声認識技術を用いることで実現することが可能である。音声認識処理で抽出されたキーワードに対しては、その音声認識処理における認識スコアを、本願で開示するところの信頼度データとして利用することが可能である。音声認識処理では一般的に、音声の特徴量をもとに、その時刻の音声があるキーワード（文字列）である認識スコア（確からしさ）を計算する。そして、最もスコアの高い（確からしい）キーワードが認識語句として出力される。つまり、この認識スコアは、映像データのその時刻の音声に、そのキーワードが含まれている信頼度を示しているため、本願における信頼度データとして利用可能となる。

本実施形態では、映像コンテンツ送信装置１５００と映像コンテンツ受信装置２０００とからなるシステムにおいて、映像コンテンツ送信装置１５００は、映像コンテンツを送信するときに、その映像コンテンツの音声データに含まれるキーワードと、その読み及びその信頼度とを映像コンテンツ受信装置２０００に送信する。映像コンテンツ受信装置２０００は、受信した映像コンテンツを一時的に格納しておく。そして、ユーザからキーワードによる指示があったときに、そのキーワードに対応する音声データのある映像コンテンツを検索して、それを再生する。このとき、映像コンテンツ受信装置２０００は、ユーザの指示したキーワードを、映像コンテンツの音声データに含まれるキーワードの信頼度に応じて、最も適切なものを選択する。

図１５は、本発明の第２の実施の形態の音声認識システムの構成ブロック図である。

この音声認識システムは、映像コンテンツを送信する映像コンテンツ送信装置１５００と、送信された映像コンテンツを受信し、この映像コンテンツを再生すると共に、映像コンテンツに含まれる音声データを認識する映像コンテンツ受信装置２０００とを含む。また、この映像コンテンツ送信装置１５００と映像コンテンツ受信装置２０００とは、通信回線１５８０によって接続されている。映像コンテンツ送信装置１５００と映像コンテンツ受信装置２０００とは、この通信回線１５８０を介して映像コンテンツデータを送受信する。

映像コンテンツ送信装置１５００は、映像コンテンツ記憶部１５１０と、キーワード音声認識部１５２０と、話者別音声認識用データ記憶部１５３０と、映像キーワード記憶部１５４０と、信頼度データ記憶部１５５０と、信頼度データ付加部１５６０と、映像複合コンテンツ送信部１５７０とを含む。

映像コンテンツ受信装置２０００は、映像複合コンテンツ受信部１５９０と、信頼度データ抽出部１６００と、映像キーワード抽出部１６１０と、映像コンテンツ抽出部１６２０と、映像コンテンツ記憶部１６３０と、信頼度によるキーワード登録部１６４０と、信頼度付きキーワード記憶部１６５０と、音声認識用データ変換手段１６６０と、音声認識用データ記憶部１６７０と、音声認識手段１６８０と、映像コンテンツ選択手段１６９０と、映像コンテンツ再生手段１７００とを含む。

次に、映像コンテンツ送信装置１５００の構成を説明する。

映像コンテンツ記憶部１５１０は、映像コンテンツ送信装置１５００が映像コンテンツ受信装置２０００に送信する映像コンテンツデータを一つ又は複数個格納する記憶装置である。映像コンテンツ記憶部１５１０は、例えば、ハードディスク装置やメモリによって構成される。映像コンテンツデータは、例えばＭＰＥＧ等によってエンコードされている映像データと共に、その映像の識別子、タイトル、話者、時間、ジャンル等の映像コンテンツ情報を含む。映像コンテンツ記憶部１５１０は、このデータを、直接、又はデータベースプログラムなどを介して格納する。

キーワード音声認識部１５２０は、映像コンテンツに含まれる音声データから、映像キーワード記憶部１５４０に記録されている情報を用いて、キーワードを認識する。キーワード音声認識部１５２０は、ワードスポッティングと呼ばれる技術を用いて、長い音声データの中から特定の単語の出現位置を検出することができる。また、キーワード音声認識部１５２０は、話者別音声認識用データ記憶部１５３０に記録されている話者別音声認識用データを用いて、キーワードを認識する。この音声データの話者に対応するデータによって、キーワードの認識の精度を向上できる。

話者別音声認識用データ記憶部１５３０は、映像コンテンツに含まれる音声データの話者に対応した認識用のデータを格納する記憶装置である。話者別音声認識用データ記憶部１５３０は、例えば、ハードディスク装置やメモリによって構成される。

映像キーワード記憶部１５４０は、キーワードを格納する記憶装置である。映像キーワード記憶部１５４０は、例えば、ハードディスク装置やメモリによって構成される。キーワードとは、前述の第１の実施の形態の難読語に対応するものであり、映像コンテンツ送信側の事業者が、映像コンテンツに含まれる音声データのうち、音声認識が困難であると想定される単語等を、あらかじめ登録しておく。映像コンテンツ送信装置１５００において、キーワード音声認識部が、映像コンテンツに含まれる音声データのキーワードに対応する音声を認識する。

信頼度データ記憶部１５５０は、信頼度データを格納する記憶装置である。信頼度データ記憶部１５５０は、例えば、ハードディスク装置やメモリによって構成される。信頼度データとは、前述の第１の実施の形態と同様に、映像キーワード記憶部１５４０に格納されているキーワードそれぞれについて、キーワードがそのデータのキーワードとしてどれだけどの程度信頼できるかを示す数値である。上述のように、この信頼度データには、人間の判断に基づく１００分率（％）で指定することも可能であり、統計処理に基づく何らかの確率値を利用してもよい。ただし、他の映像コンテンツ送信装置１５００から送られた信頼度との間での比較ができるように、また他の送信側から送られた映像データに付与された信頼度との間で比較ができるように、なんらかの正規化が必要である。映像に付される音声情報から音声認識によって自動抽出されたキーワードを用いる本実施形態においては、この信頼度データはその音声認識処理の認識スコアに依存することになる。信頼度データにこの認識スコアを利用することで、同じ精度の音声認識処理であれば、信頼度データ間の比較を行うことの妥当性が保証される。

信頼度データ付加部１５６０は、映像コンテンツに含まれる音声データのキーワードそれぞれに信頼度データを付加する。より具体的には、映像コンテンツ記憶部１５１０から、映像コンテンツデータを受け取る。そして、この映像コンテンツの音声データに含まれるキーワードについて、信頼度データ記憶部１５５０から取得する。そして、それぞれのキーワードに、取得した信頼度データを付加する。

映像コンテンツに信頼度データを付加する形式にはいろいろな手法がある。例えば、映像コンテンツ情報に、キーワードと、そのキーワードの出現する時刻と、そのキーワードの信頼度と、を一覧として記録する。

映像複合コンテンツ送信部１５７０は、信頼度データが付加された映像コンテンツデータを、通信回線１５８０を介して、映像コンテンツ受信装置２０００に送信する。映像複合コンテンツ送信部１５７０は、例えばインターネットモデム装置によって構成される。なお、携帯電話における無線通信装置やＣＡＴＶモデム装置などの通信機器を利用することによって読み上げテキストデータを送信してもよい。すなわち、通信回線に応じて適切な機器を用いればよい。

図１６は、映像コンテンツ記憶部１５１０に格納されている映像コンテンツデータの一例の説明図である。

映像コンテンツデータは、ＩＤ１５１１、映像１５１２、タイトル１５１３、話者・時間１５１４及びジャンル１５１５の各フィールドを含む。

ＩＤ１５１１は、映像コンテンツデータ毎に付される識別子である。映像１５１２は、映像コンテンツそのもののデータである。なお映像１５１２は、映像コンテンツを示すポインタであってもよい。タイトル１５１３は、映像コンテンツに付されるタイトルである。話者・時間１５１４は、映像コンテンツの含まれる音声データの話者及びその話者の発生している時刻情報である。ジャンル１５１５は、映像コンテンツ毎の特徴を示すジャンルである。

図１７は、話者別音声認識用データ記憶部１５３０に格納されている話者別音声認識用データの一例の説明図である。

話者別音声認識用データは、ＩＤ１５３１、話者１５３２及び音声認識用データ１５３３の各フィールドを含む。

ＩＤ１５３１は、話者別音声認識用データ毎に付される識別子である。話者１５３２は、映像コンテンツに含まれる音声データにおいて発声している話者を特定するための情報である。音声認識用データ１５３３は、キーワード音声認識部１５２０において、音声データを認識するときに用いられる話者毎の音声認識用データである。

図１８は、映像キーワード記憶部１５４０に格納されているキーワードの一例の説明図である。

前述のように、映像コンテンツ送信側の事業者が、映像コンテンツに含まれる音声データのうち、ユーザによって利用されると想定される単語等を、キーワードとしてあらかじめ登録しておく。

キーワードは、ＩＤ１５４１、キーワード１５４２、映像ＩＤ１５４３及び出現時刻１５４４の各フィールドを含む。

ＩＤ１５４１は、キーワード毎に付される識別子である。キーワード１５４２は、音声データから認識するキーワードである。映像ＩＤ１５４３は、キーワードを含む音声データを含む映像コンテンツのＩＤである。出現時刻は、映像コンテンツの中でそのキーワードが出現する時刻である。

図１９は、信頼度データ記憶部１５５０に格納されている信頼度データの一例の説明図である。

信頼度データは、ＩＤ１５５１、キーワード１５５２及び信頼度１５５３の各フィールドを含む。

ＩＤ１５５１は、信頼度データ毎に付される識別子である。キーワード１５５２は、キーワードを示す。信頼度１５５３は、そのキーワードに付された信頼度データの値である。

次に、前述のように構成された映像コンテンツ送受信システムの動作を具体的に説明する。

映像コンテンツ送信装置１５００の動作は、前述した第１の実施の形態の読み上げテキスト送信装置１０とほぼ同様である。

まず、キーワード音声認識部１５２０は、話者別音声認識用データ記憶部１５３０に格納されている話者別音声認識用データを利用して、映像コンテンツに含まれる音声データから、映像キーワード記憶部１５４０に格納されているキーワードに対応する音声を認識する。そして、映像コンテンツ情報に、認識されたキーワードとその出現時刻と認識されたキーワードの総数とを付加し、映像コンテンツ記憶部１５１０に格納する。

次に、信頼度データ付加部１５６０は、映像コンテンツに付加されたキーワード情報に、信頼度データを付加する。具体的には、映像コンテンツデータの映像コンテンツ情報に付加されているキーワードを参照する。そして、信頼度データ記憶部１５５０を参照して、キーワードに対応する信頼度データを取得して、映像コンテンツ情報の対応するキーワードの箇所に付加する。

ここで付与する信頼度データには、そのキーワードに対する認識スコアを利用することが可能である。音声認識処理では一般的に、音声の特徴量をもとに、その時刻の音声があるキーワード（文字列）である認識スコア（確からしさ）を計算し、最もスコアの高い（確からしい）キーワードがその時刻での認識語句として出力される。その認識スコア（信頼度データ）の意味は、映像データのその時刻において、そのキーワードが音声認識された際の音響的な確からしさを示す。

図２０は、信頼度データ付加部１５６０によってキーワードの信頼度データが付加された映像コンテンツデータの一例の説明図である。

この映像コンテンツデータは、前述のＩＤ１５１１、映像１５１２、タイトル１５１３及びジャンル１５１４に加え、キーワードの総数（ＫＷ数）１５１６、キーワード１５１７、出現時刻１５１８及び信頼度１５１９の各フィールドが付加されている。なお、キーワードが一つ以上存在する場合は、キーワード１５１７、出現時刻１５１８及び信頼度１５１９のフィールドの組が、そのキーワードの数だけ付加される。

映像コンテンツ送信装置１５００は、このようにして生成された映像コンテンツデータを、映像複合コンテンツ送信部１５７０によって、通信回線１５８０を介して、映像コンテンツ受信装置２０００に送信する。

次に、映像コンテンツ受信装置２０００の動作を説明する。

まず、映像コンテンツ送信装置によって送信された映像コンテンツデータは、通信回線を介して、映像コンテンツ受信装置２０００の複合映像コンテンツ受信部１５９０が受け取る。複合映像コンテンツ受信部１５９０は、受信した映像コンテンツデータに含まれるＩＤ１５１１を、映像コンテンツ受信装置２０００内で一意の識別子である映像ＩＤに変換する。そして、この映像コンテンツデータを、信頼度データ抽出部１６００、映像キーワード抽出部１６１０及び映像コンテンツ抽出部１６２０に出力する。

信頼度データ抽出部１６００は、受け取った映像コンテンツデータから、キーワード及びその信頼度データを抽出する。具体的には、受け取った映像コンテンツデータのコンテンツ情報から、キーワード、信頼度及び映像ＩＤを抽出して、これらを一覧として信頼度によるキーワード登録部に出力する。

図２１は、信頼度データ抽出部１６００によって処理された結果、出力されるデータの一例の説明図である。

このデータは、ＩＤ１６０１、キーワード１６０２、信頼度１６０３及び映像ＩＤ１６０４の各フィールドを含む。ＩＤ１６０１は、キーワード１０６２に格納されているキーワードの識別子である。信頼度１６０３は、キーワードに対応する信頼度である。映像ＩＤ１６０４は、映像コンテンツ受信装置２０００内で一意の識別子である。

映像キーワード抽出部１６１０は、受け取った映像コンテンツデータから、キーワード及びその出現位置を抽出する。具体的には、受け取った映像コンテンツデータのコンテンツ情報から、キーワード及びその出現位置を抽出して、これらを一覧として信頼度によるキーワード登録部１６４０に出力する。

図２２は、映像キーワード抽出部１６１０によって処理された結果、出力されるデータの一例の説明図である。

このデータは、ＩＤ１６１１、キーワード１６１２、出現位置１６１３及び映像ＩＤ１６０４の各フィールドを含む。ＩＤ１６１１は、キーワード１６１２に格納されているキーワードの識別子である。出現位置１６１３は、そのキーワードが映像コンテンツ中に出現する位置の情報である。映像ＩＤ１６１４は、映像コンテンツ受信装置２０００内で一意の識別子である。

なお、信頼度データ抽出部１６００及び映像キーワード抽出部１６００の二つの処理は、同時に実行してもよいし、どちらかを先に実行したり、これらの二つの処理を一つの処理として実施してもよい。

映像コンテンツ抽出部１６２０は、受け取った映像コンテンツデータから、映像コンテンツを抽出する。具体的には、受け取った映像コンテンツデータから、映像コンテンツ及び映像ＩＤを抽出して、これらを映像コンテンツ記憶部に格納する。

図２３は、映像コンテンツ抽出部１６２０によって処理された結果、映像コンテンツ記憶部に格納されるデータの一例の説明図である。

このデータは、ＩＤ１６２１、映像ＩＤ１６２２及び映像データ１６２３の各フィールドを含む。ＩＤ１６２１は、その映像コンテンツの識別子である。映像ＩＤ１６２２は、映像コンテンツ受信装置２０００内で一意の識別子である。映像データ１６２３は、映像コンテンツに含まれる映像データの内容であり、例えばＭＰＥＧ形式のデータが格納される。

信頼度によるキーワード登録部１６４０は、信頼度データ抽出部１６００によって抽出された信頼度データと、映像キーワード抽出部１６１０によって抽出された映像キーワードとを受け取って、これらをキーワードデータとして、信頼度付きキーワード記憶部１６５０に格納する。

送信側からは、映像データに複数のキーワード情報が指定される形で配信されてくる。これに対して、受信側では、あるキーワードに対応する映像データを検索する必要がある。そのため、映像データに複数のキーワード情報が対応するというデータ構造から、キーワード情報に複数の映像データが対応するというデータ構造に変換しておいた方が、より高速に検索できるようになり望ましい。そこで、信頼度によるキーワード登録部１６４０では、あるキーワード情報に対してどのような映像データが関連付けられているかを登録する。

図２４は、信頼度によるキーワード登録部１６４０の処理のフローチャートである。

信頼度によるキーワード登録部１６４０は、信頼度データ抽出部１６００によって抽出された信頼度データと、キーワード抽出部１６１０によって抽出されたキーワードとを受け取ると、本フローチャートの処理を開始する。

まず、信頼度によるキーワード登録部１６４０は、受け取ったキーワード及び信頼度データの組（以降、レコードと呼ぶ）を一つ取り出す（Ｓ２４００）。

このとき、信頼度によるキーワード登録部１６４０は、取り出すべきレコードが存在するか否かを判定する（Ｓ２４１０）。取り出すべきレコードが存在しない、すなわち、すべてのキーワード及び信頼度データに対する処理が終了したと判定した場合は、信頼度によるキーワード登録部１６４０は、処理を終了する。

取り出すべきレコードが存在すると判定した場合は、信頼度によるキーワード登録部１６４０は信頼度付きキーワード記憶部１６５０を検索し、取り出したレコードのキーワードが、信頼度付きキーワード記憶部１６５０に記録されているキーワードデータに含まれているか否かを検索する（Ｓ２４２０）。

キーワードがキーワードデータに含まれていないと判定した場合は、信頼度によるキーワード登録部１６４０は、取り出したレコードのキーワードを新たにキーワードデータに追加して、そのレコードを登録する（Ｓ２４４０）。その後、ステップＳ２４００に戻り、次のレコードの処理を実行する。

キーワードがキーワードデータに含まれていると判定した場合は、信頼度によるキーワード登録部１６４０は、まず、キーワードを参照するために時刻情報を示すインデックスｐを１に設定することによってｐを初期化する（Ｓ２４５０）。そして、キーワードデータにおいて、このｐに対応する時刻の位置にあるキーワードの信頼度の値が、レコードのキーワードの信頼度の値よりも小さいか否かを判定する（Ｓ２４６０）。

なお、本実施形態では、単純に信頼度の値が高いか低いかのみを比較するが、例えば、映像コンテンツを送信したサイトに全体に対する信頼度値を別途保持しておき、その値との積によって、最終的な信頼度を比較してもよい。

この結果、キーワードデータに登録されているキーワードの信頼度の値が、低いと判定した場合は、信頼度によるキーワード登録部１６４０は、その出現時刻ｐに対応する箇所に、レコード、すなわちキーワード及び信頼度データを挿入する。このとき、既にそのキーワードのレコード、すなわち、信頼度、映像ＩＤ及び出現時刻が格納されている場合は、その直後の位置にレコードを挿入する。その後、ステップＳ２４００に戻り、次のレコードの処理を実行する。

一方、キーワードデータに登録されているキーワードの信頼度の値が、低いと判定した場合は、信頼度によるキーワード登録部１６４０は、まず、ｐに１を加算して（Ｓ２４７０）、その時刻ｐが存在するか否か、すなわち、その映像コンテンツの末尾に達したか否かを判定する（Ｓ２４８０）。その時刻が存在しないと判定した場合は、信頼度によるキーワード登録部１６４０は、ステップＳ２４００に戻り、次のレコードの処理を実行する。時刻ｐが存在すると判定した場合は、信頼度によるキーワード登録部１６４０は、は、ステップＳ２４６０に戻り、その時刻ｐについての処理を実行する。

以上の処理によって、信頼度によるキーワード登録部１６４０は、信頼度付きキーワード記憶部１６５０のキーワードデータに、新たにキーワード及びその信頼度データが登録され、また、既に登録されているキーワードに対して、さらに信頼度が高い信頼度データを受け取った場合は、その信頼度データによって、既に登録されている信頼度値を更新する。

図２５は、信頼度付きキーワード記憶部１６５０に格納されているキーワードデータの一例の説明図である。

キーワードデータは、キーワード毎に、信頼度、映像ＩＤ及び出現時刻を一つの組（これを出現データと呼ぶ）として、すべての出現時刻についてにまとめたデータである。なお、出現データは、信頼度の高い順に並べられている。

例えば、「トクバン」というキーワードは、出現数が２である。その一方は、映像ＩＤ「１」の出現時刻「２６分２９秒」に出現し、その信頼度は「８５％」であることが示されている。他方は、映像ＩＤ「８９」の出現時刻「１３分５１秒」に出現し、その信頼度は「８０％」であることが示されている。

音声認識用データ変換部１６６０は、信頼度付きキーワード記憶部１６５０に格納されているキーワードデータから、音声認識部１６８０によって用いられる音声認識用データを生成する。そして、生成した音声認識用データを、音声認識用データ記憶部１６７０に格納する。

この音声認識用データは、音声認識文法を標準規格ＳＲＧＦ（ＡＢＮＦ）方式（Speech Recognition Grammar Format/Augumented Backus-Naur Format）によって記述される。

図２６は、音声認識用データの一例の説明図である。

$fillerに、ユーザが音声コマンドを発する契機となるような語句を定義し、$commandに、信頼度付きキーワード記憶部１６５０に格納さているキーワードすべてを定義する。これらキーワードは、「|」で区切って文字列を結合る。

この音声認識用データを用いることによって、例えば、「えーと、ものまね」、「あー、せんきょ」などの構造の音声が認識できる。

なお、ＳＲＧＦ方式以外の記述方式を用いてもよい。

音声認識部１６８０は、ユーザが発声した音声を、キーワードとして認識する。

音声認識部１６８０は、Ｊｕｌｉｕｓ等の既存の音声認識エンジンを利用することによって、音声を文字列データとして認識する。

音声認識部１６８０は、音声が入力されると、音声認識用データ記憶部１６７０に格納されている音声認識用データを参照して、記述された文法構造の音声を認識し、どの音声コマンドが発声されたかを判断し、その結果を映像コンテンツ選択部１６９０に出力する。

例えば、ユーザから「えー、とくばん」という音声が入力されたときは、音声認識部１６８０は、文字列「トクバン」をキーワードとして出力する。なお、複数の文字列の候補を、それぞれの確率を付して出力してもよい。

映像コンテンツ選択部１６９０は、音声認識部１６８０が認識したキーワードから、そのキーワードに該当する映像コンテンツを選択する。

図２８は、映像コンテンツ選択部１６９０の処理のフローチャートである。

映像コンテンツ選択部１６９０は、音声認識部１６８０によって認識された音声認識結果を受け取ると、本フローチャートの処理を開始する（Ｓ２７００）。

まず、映像コンテンツ選択部１６９０は、キーワード検索のためのインデックスｐを１に設定することによって初期化する。

次に、映像コンテンツ選択部１６９０は、信頼度付きキーワード記憶部１６５０に格納されているキーワードデータから、ＩＤがｐのレコードを検索する（Ｓ２７００）。そして、この検索の結果、該当するレコードが見つかったか否かを判定する（Ｓ２７２０）。該当するレコードが見つからなければ、映像コンテンツ選択部１６９０は、処理を終了する。

該当するレコードが見つかった場合は、映像コンテンツ選択部１６９０は、検索されたレコードのキーワードと、音声認識部の認識結果とを比較する（Ｓ２７４０）。そして、この比較の結果、検索されたレコードのキーワードと音声認識部の認識結果とが一致したか否かを判定する（Ｓ２７５０）。

一致しないと判定した場合は、映像コンテンツ選択部１６９０は、インデックスｐに１を加算して（Ｓ２７６０）、ステップＳ２７２０に戻り、該当位置のレコードを検索する。

一致したと判定した場合は、映像コンテンツ選択部１６９０は、検索されたレコードの含まれている出現データのうち、一番目のデータ、すなわち最も信頼度の高い出現データを取得する。そして、その映像ＩＤと出現時刻とを、映像コンテンツ再生部１７００に出力する。

この処理の結果、映像コンテンツ選択部１６９０は、ユーザの発声した音声の認識結果であるキーワードに対応する映像ＩＤと出現時刻とを、映像コンテンツ再生部１７００に出力する。

映像コンテンツ再生部１７００は、映像コンテンツ選択部１６９０から出力された映像ＩＤと出現時刻とを取得すると、該当する映像データを映像コンテンツ記憶部１６３０から取得し、その出現時刻時点からの映像データを再生する。

以上のように、本発明の第２の実施形態では、映像コンテンツ送信装置１５００から映像コンテンツ受信装置２０００に映像コンテンツを送信するときに、映像コンテンツに含まれる特定の発声に対応するキーワードを付加するとともに、そのキーワードに対する信頼度を付加して送信する。また、映像コンテンツ受信装置２０００は、受け取った映像コンテンツに付加されているキーワード及び信頼度データをキーワードデータとして登録し、また、既にキーワードデータに登録されているものよりも信頼度が高ければ信頼度データを更新する。そして、映像コンテンツ受信装置２０００は、ユーザが発声した音声をキーワードとして認識し、そのキーワードに対応する映像コンテンツを選択するときに、信頼度の最も高い映像データを選択して再生する。このようにすることによって、映像コンテンツ受信装置２０００は、異なる複数の映像コンテンツ送信装置１５００から送られてくる、キーワードを含んだ映像データのうち、最も信頼しうる情報を選択して、その情報を利用することができる。

その結果として、利用者に特別な操作を強いることなく、映像コンテンツに含まれるキーワードに対して、常に最も信頼度の高いキーワードを選択することが可能となる。

なお、信頼度以外にも、映像コンテンツ送信装置１５００のサービス業者を示す情報を付加して送信し、ユーザがそのサービス業者を選択できるような仕組みを設けてもよい。

本発明の第１の実施の形態の読み上げテキスト送受信システムの構成ブロック図である。本発明の第１の実施の形態の読み上げテキストデータの一例の説明図である。本発明の第１の実施の形態の難読語読み・アクセント情報の一例の説明図である。本発明の第１の実施の形態の難読語読み・アクセント情報の他の例の説明図である。本発明の第１の実施の形態の信頼度データの一例の説明図である。本発明の第１の実施の形態の読み上げテキストデータの一例の説明図である。本発明の第１の実施の形態の抽出された信頼度データの一例の説明図である。本発明の第１の実施の形態の抽出された読み・アクセント情報の一例の説明図である。本発明の第１の実施の形態の読み・アクセント情報埋め込み部の処理のフローチャートである。本発明の第１の実施の形態の信頼度データ付加部の処理のフローチャートである。本発明の第１の実施の形態の信頼度データ抽出部の処理のフローチャートである。本発明の第１の実施の形態の信頼度による単語登録部の処理のフローチャートである。本発明の第１の実施の形態のユーザ辞書データの一例の説明図である。本発明の第１の実施の形態の抽出されたデータの一例の説明図である。本発明の第１の実施の形態の変更されたユーザ辞書データの一例の説明図である。本発明の第２の実施の形態の音声認識システムの構成ブロック図である。本発明の第２の実施の形態の映像コンテンツデータの一例の説明図である。本発明の第２の実施の形態の話者別音声認識用データの一例の説明図である。本発明の第２の実施の形態のキーワードの一例の説明図である。本発明の第２の実施の形態の信頼度データの一例の説明図である。本発明の第２の実施の形態の信頼度データが付加された映像コンテンツデータの一例の説明図である。本発明の第２の実施の形態の信頼度データ抽出部が出力するデータの一例の説明図である。本発明の第２の実施の形態の映像キーワード抽出部が出力されるデータの一例の説明図である。本発明の第２の実施の形態の映像コンテンツ抽出部が映像コンテンツ記憶部に格納するデータの一例の説明図である。本発明の第２の実施の形態の信頼度によるキーワード登録部の処理のフローチャートである。本発明の第２の実施の形態のキーワードデータの一例の説明図である。本発明の第２の実施の形態の音声認識用データの一例の説明図である。本発明の第２の実施の形態の映像コンテンツ選択部の処理のフローチャートである。

符号の説明

１０読み上げテキスト送信装置
２０読み上げテキスト受信装置
１００読み上げテキスト記憶部
１１０難読語読み・アクセント記憶部
１２０信頼度データ記憶部
１３０読み・アクセント情報埋め込み部
１４０信頼度データ付加部
１５０読み上げテキスト送信部
１６０通信回線
１７０読み上げテキスト受信部
１８０信頼度データ抽出部
１９０読み・アクセント情報抽出部
２００音声合成用辞書データ記憶部
２１０テキスト音声合成部
２２０信頼度付きユーザ辞書記憶部
２３０信頼度による単語登録部
１５００映像コンテンツ送信装置
２０００映像コンテンツ受信装置
１５８０通信回線
１５１０映像コンテンツ記憶部
１５２０キーワード音声認識部
１５３０話者別音声認識用データ記憶部
１５４０映像キーワード記憶部
１５５０信頼度データ記憶部
１５６０信頼度データ付加部
１５７０映像複合コンテンツ送信部
１５９０映像複合コンテンツ受信部
１６００信頼度データ抽出部１６００
１６１０映像キーワード抽出部
１６２０映像コンテンツ抽出部
１６３０映像コンテンツ記憶部
１６４０信頼度によるキーワード登録部
１６５０信頼度付きキーワード記憶部
１６６０音声認識用データ変換手段
１６７０音声認識用データ記憶部
１６８０音声認識手段
１６９０映像コンテンツ選択手段
１７００映像コンテンツ再生手段

Claims

通信回線を介して接続されるサーバから送信されたデータを受信し、
前記受信されたデータに付加され、音声を合成するための情報である音声合成情報を抽出し、
前記受信されたデータから前記音声合成情報に対応付けられる該音声合成情報の信頼度を抽出し、
あらかじめ格納されている前記抽出されたデータの音声合成情報に対応付けられている信頼度と前記抽出された信頼度とを比較し、
信頼度が高い音声合成情報を選択し、前記選択された音声合成情報を用いて前記受信されたデータを音声合成して、当該データの音声を再生することを特徴とする音声の合成プログラム。
前記音声合成情報は、前記データに含まれる所定の文字列及び前記文字列の読み、アクセントの情報を含み、
前記信頼度は、前記文字列の各々に対応していることを特徴とする請求項１に記載の音声の合成プログラム。
前記文字列、前記抽出された音声合成情報及びその信頼度を記憶部に登録するときに、当該登録されるべき文字列が既に記憶されている場合は、当該文字列に関する前記抽出された音声合成情報に対応する信頼度の値と、既に記憶されている当該文字列に関する音声合成情報に対応する信頼度の値とを比較し、
前記比較の結果、前記既に記憶されている信頼度の値が低い場合は、当該文字列に関して、前記抽出した音声合成情報及びその信頼度を登録し、
前記受信されたデータを再生するときに、前記記憶部に記憶された音声合成情報を用いて再生することを特徴とする請求項２に記載の音声の合成プログラム。
通信回線を介して接続されるサーバから送信されたデータを受信し、
ユーザから入力されたコマンドをキーワードとして認識し、
前記受信されたデータに付加されているキーワードを抽出し、
前記受信されたデータから、前記抽出したキーワードに付加されている該キーワードの該データのキーワードとしての信頼度を抽出し、
前記抽出されたキーワードから前記入力されたキーワードを検索し、該検索されたキーワードに対応するデータを選択し、
前記検索されたデータを再生するものであって、
前記データの選択は、前記検索されたキーワードに対応するデータのうち当該信頼度が高いものを選択することを特徴とするデータ処理プログラム。
前記信頼度は、前記キーワードを生成する際の音声認識の信頼度によって決定されたものであることを特徴とする請求項４記載のデータ処理プログラム。
前記キーワード毎に、該キーワードに対応付けられるデータをその信頼度と共に該キーワードと対応付けて記録し、
該キーワードが入力された場合には、該信頼度の高い順に前記データを選択し、前記選択されたデータを再生することを特徴とする請求項５に記載のデータ処理プログラム。
データを音声合成して再生する端末に通信回線を介して接続されたサーバであって、
前記端末に送信するデータを格納するデータ格納部と、
設定された単語の音声合成情報をあらかじめ格納する音声合成情報格納部と、
設定された前記音声合成情報の信頼度をあらかじめ格納する信頼度格納部と、
前記端末に送信するデータ中の前記単語に前記合成情報を付加する音声合成情報付加部と
前記音声合成情報が付加されたデータに関し、前記音声合成情報に対応する信頼度を付加する信頼度付加部と、
前記音声合成情報及び前記信頼度が付加されたデータを前記端末に送信する送信部と、
を備え、
前記音声合成情報付加部は、前記データのうち、前記音声合成情報を付加すべき箇所を検索して、当該箇所に音声合成情報を付加し、
前記信頼度付加部は、前記付加された音声合成情報を検索して、当該音声合成情報に対応する信頼度を付加することを特徴とするサーバ。
データを音声合成して再生する端末に通信回線を介して接続されたサーバであって、
前記端末に送信するデータを格納するデータ格納部と、
前記データに含まれる音声の話者の情報を格納する話者情報格納部と、
設定されたキーワードをあらかじめ格納するキーワード格納部と、
設定された前記キーワードの該キーワードとしての信頼度をあらかじめ格納する信頼度格納部と、
前記データに含まれるキーワードに対応する音声を認識するキーワード認識部と、
前記端末に送信するデータに前記キーワードを付加するキーワード付加部と
前記キーワード情報が付加されたデータに関し、前記キーワードに対応する信頼度を付加する信頼度付加部と、
前記キーワード及び前記信頼度が付加されたデータを前記端末に送信する送信部と、
を備え、
前記キーワード認識部は、前記話者の情報と前記キーワードとから、前記データに含まれるキーワードに対応する音声を認識し、
前記キーワード付加部は、前記認識された音声のうち、前記キーワードを付加すべき箇所を検索して、当該箇所にキーワードを付加し、
前記信頼度付加部は、前記付加されたキーワードを検索して、当該キーワード情報に対応する信頼度を付加することを特徴とするサーバ。