JP2007199480A - プログラム及びサーバ - Google Patents

プログラム及びサーバ Download PDF

Info

Publication number
JP2007199480A
JP2007199480A JP2006018940A JP2006018940A JP2007199480A JP 2007199480 A JP2007199480 A JP 2007199480A JP 2006018940 A JP2006018940 A JP 2006018940A JP 2006018940 A JP2006018940 A JP 2006018940A JP 2007199480 A JP2007199480 A JP 2007199480A
Authority
JP
Japan
Prior art keywords
data
reliability
keyword
information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006018940A
Other languages
English (en)
Inventor
Kenji Nagamatsu
健司 永松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006018940A priority Critical patent/JP2007199480A/ja
Publication of JP2007199480A publication Critical patent/JP2007199480A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】複数の送信側から送信された難読語に対して最も適切な読みを選択することができる装置を提供する。
【解決手段】通信回線を介してサーバに接続され、前記サーバから送信されたデータを再生する端末であって、前記通信回線に接続され、前記サーバから送信されたデータを受信する受信部と、前記受信されたデータを再生するときに、再生するデータを選択するための選択情報を用いて前記データを再生する再生部と、前記受信されたデータに付加されている選択情報を抽出する抽出部と、を備え、前記再生部は、前記受信されたデータを再生するときに、前記抽出された選択情報の中から信頼度が高い変換情報を選択し、前記選択された変換情報を用いて前記データを選択する。
【選択図】図1

Description

本発明は、音声合成による読み上げを目的とする読み上げテキストを送信するサーバ、読み上げテキストを受信して再生する端末、及び、これらの方法に関するものである。
与えられたテキストデータを音声合成装置を利用して読み上げるシステムが知られている。このようなシステムでは、テキストデータを提供する提供システムが、送信された読み上げ対象となるテキストデータを、読み上げを実行する端末に送信し、その端末が受信したテキストデータを音声合成装置を利用して読み上げる。この提供システムと端末とは、同じコンピュータ内に存在していてもよいし、ネットワークを介して離れた場所に存在していてもよい。
読み上げ対象のテキストデータにはさまざまな文章が含まれる。特に漢字かな混じりの文章では、提供システムは、漢字かな混じりのテキストデータとその読みとを組み合わせたデータを送信する。
しかし、提供システムと端末とが異なるシステムとして構成されている場合は、次のような問題が生じる。すなわち、提供システムから送信された漢字かな混じりのテキストデータに含まれるすべての語句に対して、端末の音声合成装置が読みやアクセントを正確に解析できるとは限らない。従って、送信された漢字かな混じりテキストを間違って読み上げることもある。
従来、このような問題に対処するために、いくつかの方法が考えられている。例えば、日本語解析部は、表記に関する形態情報(品詞)、読み情報、アクセント情報等があらかじめ登録された単語辞書と、特定読み対応テーブルを参照して日本語解析を行なう。この際、日本語解析部は、制御部を介して与えられた文書から、特定の文字列と同文字列に対する読みの指定を抽出して、特定読み対応テーブルに登録する。音声データ生成部、音声合成装置は、日本語解析部による解析結果に基づいて、音声発声装置から文書に応じた音声を発声させる音声合成端末(特許文献1参照)が知られている。
より具体的には、読み出し対象テキストに「東海林(しょうじ)」のように漢字文字列とその読みを示す仮名文字列を併記する。また、「@東海林:ショ’ージ:名詞:」のように、表記文字列とその読み情報及び品詞情報を指定するための特別な表現を併記してもよい。
この従来技術によると、読み出し対象テキストを受信した端末は、「東海林」という単語が辞書に登録されていない場合は、単語「東海林」に対して、新たに「ショージ」という読みと「名詞」という品詞情報とを登録する。このようにすることによって、端末は、登録された語句を利用して、送信された読み出し対象テキストを正しく読み上げることが可能となる。さらに、端末は、一度、単語を登録すると、それ以降は、別に送られた読み出し対象テキストの中に「東海林」という文字列があった場合にも、正しく「ショージ」という読みを解析することが可能となる。
また、音声合成管理サーバは、音声合成端末から読み誤りが生じた文章データを受信した場合に、音声合成端末が有する単語辞書と同一の端末単語辞書を用いて言語処理を行うとともに、大規模なサーバ単語辞書を用いて言語処理を行い、端末単語辞書を用いた言語処理の結果とサーバ単語辞書を用いた言語処理の結果とを比較して読み誤りを解消するために必要な端末単語辞書の更新の内容を更新単語データとして音声合成端末に送信する。音声合成端末は、受信した更新単語データを用いて端末単語辞書の更新を行う音声合成端末(特許文献2参照)が知られている。
この従来技術によると、端末は、その単語情報を自分の辞書データに登録することで、それ以降、読み上げテキスト内にその単語が含まれていても、読み誤ることがなくなる。
これら特許文献1や特許文献2の手法を用いることによって、読み出し対象テキスト内に、端末側の辞書データでは解析できない語句があった場合にも、テキスト送信側又はテキスト解析サーバ側から新規登録用の単語情報を送信することによって、端末側の辞書データを更新する。これにより、以降の解析では読み誤ることがなくなる。
特開平05−189194号公報 特開2004−354472号公報
前記従来技術のような方法を用いることによって、端末側は、語句の読み誤りに対処することができる。
しかし、前記特許文献2に記載の発明では、特別なテキスト解析サーバを用意しておく必要がある。また、端末側で読み誤りが生じた場合は、そのテキストについての情報をテキスト解析サーバに問い合わせる必要があり、端末とサーバとの間で通信処理が余計に発生し、処理効率が大幅に低下してしまう問題がある。
また、特許文献1に記載の発明では、送信側と端末側との間で、どのような語句が読めて、どのような語句は読めないのかについて共通した情報を持っておく必要がある。しかし、一般的なテキスト読み上げシステムは、テキスト送信側と読み上げ端末側とは独立している。具体的には、さまざまなサイトから読み上げテキストが提供され、また、その読み上げテキストを利用して読み上げ処理を行う端末にもさまざまな種類のものがある。そして、テキスト提供側と読み上げ端末側とは、お互いが独立して機能している。
すなわち、テキスト提供側と読み上げ端末側とが、共通の情報を持っていない場合がある。従って、テキスト送信側では、どの語句に対して読み情報を付記して送ればよいのかがわからない。また、読み上げ端末側は、ある単語に対して複数のサイトから複数の読みが付されたデータを受け取った場合に、どのサイトから指定された読み情報が最も正かを判断することが難しい。
本願発明では、このような問題を鑑みてなされたものであり、テキスト送信側と読み上げ端末側との間で、語句とその語句の読みについて共通の情報を持っていない場合であっても、さまざまなテキスト送信側から送られてきた複数の単語読み情報の間で最も信頼できる情報を端末側が決定し、その最も信頼できる情報で新規単語を登録できる読み上げ装置を提供することを課題とする。また、そのような読み上げテキスト送受信装置、及び読み上げテキスト送受信方式を提供することを課題とする。
この課題を解決するために、本発明による一実施形態では、通信回線を介してサーバに接続され、前記サーバから送信されたデータを再生する端末であって、前記通信回線に接続され、前記サーバから送信されたデータを受信する受信部と、前記受信されたデータを再生するときに、再生するデータを選択するための選択情報を用いて前記データを再生する再生部と、前記受信されたデータに付加されている選択情報を抽出する抽出部と、を備え、前記再生部は、前記受信されたデータを再生するときに、前記抽出された選択情報の中から信頼度が高い変換情報を選択し、前記選択された変換情報を用いて前記データを選択することを特徴とする。
本発明によると、テキスト送信側(サーバ)から読み上げテキスト端末側(音声再生装置)に読み上げテキストを送信するときに、テキストに含まれる文字列(例えば難読語)に、読み・アクセント情報を付加するとともに、その読み・アクセントに対する信頼度を付加して、送信する。このようにすることによって、端末側は、異なる複数の送信側から送られてきた読み・アクセント情報の中で、最も信頼しうる情報を選択し、その情報を登録して利用することができる。
また、送信側が音声データを含む映像コンテンツを送信し、受信側端末が、この音声データを認識して文字情報として利用するシステムにおいては、受信側の端末は、送信側から映像コンテンツと共に送信されたキーワードと、その読み情報及び信頼度と、を利用することで、複数の送信側から送信されたキーワードの信頼度から最も適切なものを選択することができる。
以下、本発明の実施の形態について図面を参照して説明する。
本発明による実施の形態は、情報サービスを提供する送信側と、情報の提供を受ける受信側(例えばカーナビゲーションやテレビ受信機等)とによって構成されるシステムである。これら送信側の装置と受信側の装置とはネットワーク等によって接続可能に構成されている。送信側としては、例えばサービスプロバイダや新聞社、テレビ局のほか、個人WWWサイトなどもありえる。また、送信側が単一の場合もありうるし、複数の送信者から配信情報を受け取る場合もありえる。
具体的な例としてニューステキストの配信システムを考えると、送信側には複数の新聞社、テレビ・ラジオ局、個人のニュース提供サイトなどがあり、それらから同一内容の事案に関して、複数のニューステキストが配信される。その場合、同じ文字列(例えば、事案に関係する人名・地名など)に対して、それぞれの送信者毎に異なる読み情報が指定される可能性がありえる。
このシステムにおいて、送信側は、受信側に情報サービスを提供する。この情報は、例えばテキストデータ等の文字情報であってもよいし、音声や動画等の映像コンテンツであってもよい。受信側の装置は、この情報サービスを受信し、それを再生する。
このとき受信側の装置は、受け取った情報に関して、文字情報と音声情報とを相互に変換することによって、より濃密なサービスを享受することができる。
具体的には、受信側の装置は、受信した情報が文字情報であった場合は、その文字情報を音声情報に変換して、ユーザに再生することができる。
また、受信した情報が映像情報であった場合は、その映像情報の音声丈夫を文字情報に変換して、画面に表示することができる(これは一般にクローズドキャプションと呼ばれる)。
また、受信側の装置は、受信した情報が映像情報であった場合は、その映像情報を蓄積しておき、ユーザの音声によって、映像情報の内容を検索することも可能となる。具体的には、ユーザの発声した音声キーワードを文字情報として認識し、認識した文字情報と受信した映像情報に含まれる情報とを比較して検索を実行する。
このようなシステムにおいて、送信側の装置から送信される情報に、音声情報と文字情報とを変換することが難しい単語等が含まれる場合がある。
例えば、文字情報内に、不自然な文章や人名等の難読語等が含まれている場合は、通常の音声合成エンジンでは音声合成をすることが難しい。
そこで、前述した従来の技術のように、送信側の装置が、これら難読語等の音声変換しにくい文字列の読み情報を付加して、情報を送信する手法が考えられる。
しかしながら、このような方法では、複数の異なる送信側の装置から、複数の異なる読み情報が送信される場合がある。例えば、異なる新聞社から同一の文字列に対して異なる読み情報が付加された場合である。この場合は、受信側の装置において、一つの文字列に対して複数の読みが同時に存在することとなり、音声合成が困難となる。
そこで、以下に説明する実施の形態で明らかになるように、送信側の装置が、文字列の読み情報に対して信頼度というデータを付加する。
この信頼度というデータは、ある文字列に対して指定された読み情報がどの程度確からしいかを送信側が指定するデータである。例えば、この信頼度データには、確率値を使用することが可能である。信頼度0.8という場合、ある文字列に対して指定された読みが、確率0.8で確からしいと送信側が判断したということを示す。この値の算出には、例えば、統計処理を用いてもよい。具体的には、WWWで代表されるテキストデータの中から無作為サンプリングを行い、その文字列が指定された読みで読まれる頻度を測定すれば、この確率による信頼度データを求めることができる。また、人間の判断に基づいて100分率(%)により、信頼度データを指定することも可能である。この場合は、ある文字列が指定された読みで読まれると判断した人が100人中何人いたかという値を使用すればよい。
このような信頼度データを付与することで、同じ文字列に対して異なる読みが指定されたとしても、その信頼度を比較することで、より確からしい読みデータを選択することが可能となる。例えば、新聞社からこの信頼度付きの読み情報が配信されるという場合を考えると、記事を書いた人間が変わればその信頼度の値は変化しうる。また、時間が経過することで、同じ単語の読みが変化していくという場合も多い。このような場合に、信頼度という比較可能なデータを付与しておくことで、複数の読みのどれが最も確からしいかを自動的に判定することが可能となる。
さらには、送信側が複数存在する場合、複数の新聞社から、又は他のより信用の低い送信者から、同じ文字列に対して異なる読み情報が送信されてくる場合がありえる。このような場合、付与されている信頼度データを比較することで、最も確からしい読み情報を選択することが可能となる。ただし、このためには、複数の送信者間で同じ基準による信頼度の計算が行われていることが望ましい。しかし、このような正規化が困難な場合であっても、後に説明するように、それぞれの送信者に対して、受信側が設定した送信者信頼度を乗ずることによって、受信側の選好を勘案しつつ、複数の送信者から送られた信頼度データを比較することが可能となる。
以上、述べたように、信頼度データを付与して読み情報を送信することで、送信側では、複数の読み情報設定者間での、又は時間をおいて設定された複数の読み情報間での比較基準を提供することが可能となる。同時に、受信側では、複数の送信者側から指定された信頼度データを比較して、最も確からしい読み情報の利用が可能となる。
まず、第1の実施の形態について説明する。
図1は、本発明の第1の実施の形態の読み上げテキスト送受信システムの構成ブロック図である。
読み上げテキスト送受信システムは、読み上げ対象テキストを送信する読み上げテキスト送信装置10と、送信された読み上げテキストを受信し、音声合成装置によって読み上げる読み上げテキスト受信装置20と、を含む。また、この読み上げテキスト送信装置10と読み上げテキスト受信装置20とは、通信回線160によって接続されている。読み上げテキスト送信装置10と読み上げテキスト受信装置20とは、この通信回線160を介して読み上げテキストデータを送受信する。
読み上げテキスト送信装置10は、読み上げテキスト記憶部100と、難読語読み・アクセント記憶部110と、信頼度データ記憶部120と、読み・アクセント情報埋め込み部130と、信頼度データ付加部140と、読み上げテキスト送信部150とを含む。
読み上げテキスト受信装置20は、読み上げテキスト受信部170と、信頼度データ抽出部180と、読み・アクセント情報抽出部190と、音声合成用辞書データ記憶部200と、テキスト音声合成部210と、信頼度付きユーザ辞書記憶部220と、信頼度による単語登録部230とを含む。
次に、読み上げテキスト送信装置10の構成を説明する。
読み上げテキスト記憶部100は、読み上げテキスト送信装置10が読み上げテキスト受信装置20に送信する読み上げ対象のテキストデータを一つ又は複数個格納する記憶装置である。読み上げテキスト記憶部100は、例えば、ハードディスク装置やメモリによって構成される。読み上げ対象のテキストデータは、例えばJISやShift JISコード等で記述されている。読み上げテキスト記憶部100は、このデータを、直接、又はデータベースプログラムなどを介して格納する。
難読語読み・アクセント記憶部110は、難読語の読み・アクセント情報を格納する記憶装置である。難読語の読み・アクセント情報とは、読み上げテキスト記憶部100に記録されている読み上げテキストデータに現れうる難読語候補について、それらの読みやアクセント情報である。難語読み・アクセント記憶部110は、例えば、ハードディスク装置やメモリによって構成される。難読語の読み・アクセント情報は、例えば、難読語それぞれについて、表記文字列、読み、アクセント及び品詞等の付随データを格納したレコード形式である。
信頼度データ記憶部120は、信頼度データを格納する記憶装置である。信頼度データとは、難読語読み・アクセント記憶部110に記録されている難読語それぞれについて、その読みやアクセントがどの程度信頼できるかを示す数値である。信頼度データ記憶部120は、例えば、難読語読み・アクセント記憶部110に記録されている難読語の読み・アクセント情報それぞれについての信頼度の数値を百分率(%)を用いて格納する。なお、信頼度の数値は%ではなく、任意の数値であってもよい。ただし、他の読み上げテキスト送信装置10から送られた信頼度との間での比較ができるように、なんらかの正規化が必要である。
読み・アクセント情報埋め込み部130は、読み上げ対象テキストデータに含まれる難読語に読み・アクセント情報を埋め込む処理を実行する。より具体的には、読み・アクセント情報埋め込み部130は、読み上げテキスト記憶部100から受け取った読み上げ対象テキストデータに含まれる難読語を、難読語読み・アクセント記憶部110の難読語データを参照して抽出する。そして、抽出した難読語それぞれについて、難読語読み・アクセント記憶部110を検索し、対応する読み・アクセント情報を付加する。
情報を付加する形式にはいろいろな手法がある。例えば、読み上げテキストデータの該当語句の直後に括弧つきで読み情報とアクセント情報を記述する。
また、表記の範囲を限定した上で、読み・アクセント情報に加えて、品詞情報を付加する形式としてもよい。
信頼度データ付加部140は、読み上げテキストデータの難読語それぞれに信頼度データを付加する。より具体的には、読み・アクセント情報埋め込み部130から、難読語の読み・アクセント情報が付加された読み上げテキストデータを受け取る。そして、このテキストデータに含まれる難読語について、読み・アクセント情報の信頼度データを信頼度データ記憶部120から取得する。そして、それぞれの難読語に取得した信頼度データを付加する。
この信頼度データを付加する形式にはいろいろな手法がある。例えば、読み・アクセント情報埋め込み部130によって付加された読み・アクセント情報の直後に、括弧付きで信頼度データを併記してもよい。
読み上げテキスト送信部150は、難読語の読み・アクセント情報及びその信頼度データが付加された読み上げテキストデータを、通信回線160を通して、読み上げテキスト受信装置20に送信する。この読み上げテキスト送信部150は、例えばインターネットモデム装置によって構成される。なお、携帯電話における無線通信装置やCATVモデム装置などの通信機器を利用することによって読み上げテキストデータを送信してもよい。すなわち、通信回線に応じて適切な機器を用いればよい。
図2は、読み上げテキスト記憶部100に格納されている読み上げテキストデータの一例の説明図である。
読み上げテキストデータは、一般的な漢字かな混じりのテキストデータとして格納されている。
図3Aは、難読語読み・アクセント記憶部110に格納されている。難読語読み・アクセント情報の一例の説明図である。
難読語読み・アクセント情報は、前述のように難読語それぞれについて、表記文字列、読み、アクセント及び品詞等の付随データを格納したレコード形式である。
難読語読み・アクセント情報は、ID1101、表記1102、読み1103、アクセント1104及び品詞1105の各フィールドを含む。
具体的には、ID1101が「1」である難読語は、表記1102が「東海林」であり、その読み1103が「ショージ」であり、そのアクセント1104は「1型」であり、その品詞1105は、「苗字」であることが示されている。
図3Bは、難読語読み・アクセント記憶部110に格納されている。難読語読み・アクセント情報の他の例の説明図である。
本実施の形態では、漢字かな混じり文章ではなく、英文や他の言語にも応用できる。
例えば、図3Bに示すように、英語における難読文字を、その表記及び読み・アクセントとし他データとしてもよい。なお、読み/アクセント情報は、発音記号等を用いてもよい。
図4は、信頼度データ記憶部120に格納されている信頼度データの一例の説明図である。
信頼度データは、前述のように、難読語それぞれについて、その読みやアクセントがどの程度信頼できるかを示す数値である。
信頼度データは、ID1201、表記1202及び信頼度1204の各フィールドを含む。
具体的には、ID1201が「1」である難読語は、表記1202が「東海林」であり、その信頼度1203が「90%」であることが示されている。
なお、難読語読み・アクセント情報(図3A)と信頼度データ(図4)とは、同一の表記に対して同一のIDを用いることによって、いずれか一方の表記フィールドを省略することもできる。
図5は、読みアクセント情報埋め込み部130及び信頼度データ付加部140によって、難読語読み・アクセント情報及び信頼度データが付加された読み上げテキストデータの一例の説明図である。
この図4に示す例は、前述の図2に示す読み上げテキストデータに対し、図3Aの難読語読み・アクセント情報及び図4の信頼度データが付加されたデータである。
より具体的には、読み上げテキストデータに含まれる難読語を「[」及び「]」によって区切り、この区切りの中に、難読語、読み、アクセント、付随データ(品詞)及び信頼度を「;」によって区切った形で付加されたものである。
なお、区切りを示す記号は「[」や「;」でなくてもよい。例えば「東海林(ショ’ージ)(90)一郎さんが…」のような形式でもよい。
次に、読み上げテキスト受信装置20の構成を説明する。
読み上げテキスト受信部170は、通信回線160を通して送信側装置から送信された読み上げテキストデータを受信する。この読み上げテキスト受信部170は、例えばインターネットモデム装置によって構成される。なお、携帯電話における無線通信装置やCATVモデム装置などの通信機器を利用することによって読み上げテキストデータを受信してもよい。すなわち、通信回線に応じて適切な機器を用いればよい
読み上げテキスト受信装置170は、受信した読み上げテキストデータを、信頼度データ抽出部180と読み・アクセント情報抽出部190とに出力する。
信頼度データ抽出部180は、受け取った読み上げテキストデータから、信頼度が付与された難読語及びその信頼度データを抽出する。そして、抽出した難読語及びその信頼度データを信頼度による単語登録部230に出力する。
読み・アクセント情報抽出部190は、受け取った読み上げテキストデータから、読み・アクセント情報が付与された難読語及びその読み・アクセント情報を抽出する。そして、抽出した難読語及びその読み・アクセント情報を信頼度による単語登録部230に出力する。
音声合成用辞書データ記憶部200は、テキスト音声合成部210が音声合成のために利用する音声合成用の単語辞書や音声辞書をあらかじめ格納しておく。音声合成用辞書データ記憶部200は、例えば、ハードディスク装置やメモリによって構成される。
テキスト音声合成部210は、音声合成用辞書データ記憶部200に格納されている音声合成用データを参照して、受け取った読み上げテキストデータを、音声データに変換する。
テキストデータを音声データに変換する処理には音声合成技術が利用できる。 信頼度付きユーザ辞書記憶部220は、信頼度による単語登録部230によって、難読語の読み・アクセント情報及び信頼度が格納される。
信頼度による単語登録部230は、信頼度データ抽出部180によって抽出された難読語及びその信頼度データと、読み・アクセント情報抽出部190によって抽出された難読語及びその読み・アクセント情報とを受け取る。そして、信頼度付きユーザ辞書記憶部220を参照して、同じ表記の難読語について、既に格納されているものよりも信頼度の値が高い読み・アクセント情報である場合は、その読み・アクセント情報を、既に格納されている新しい読み・アクセント情報と置き換えて格納する。なお、その難読語について、読み・アクセント情報が格納されていない場合は、新規に格納する。
図6は、信頼度データ抽出部180によって抽出された信頼度データの一例の説明図である。
読み上げテキスト送信装置10によって送信された読み上げテキストデータ(図5)を受け取った信頼度データ抽出部は、読み上げテキストデータに含まれる表記文字列及び信頼度を抽出して、抽出したデータを信頼度による単語登録部230に出力する。
次に、前述のように構成された読み上げテキスト送受信システムの動作を具体的に説明する。
図7は、読み・アクセント情報抽出部190によって抽出された読み・アクセント情報の一例の説明図である。
読み上げテキスト送信装置10によって送信された読み上げテキストデータ(図5)を受け取った読み・アクセント情報抽出部190は、読み上げテキストデータに含まれる表記文字列、読み・アクセント及び品詞を抽出して、抽出したデータを信頼度による単語登録部230に出力する。
次に、前述のように構成された読み上げテキスト送受信システムの動作を具体的に説明する。
まず、読み上げテキスト送信装置10の動作を説明する。
図8は、読み・アクセント情報埋め込み部130の処理のフローチャートである。
読み・アクセント情報埋め込み部130は、管理者の操作等によって読み上げテキスト記憶部100に格納されている読み上げ対象のテキストデータを特定されると、本フローチャートの処理を開始する。
まず、読み・アクセント情報埋め込み部130は、文字の位置を特定するための変数pを1に設定することによって初期化する(S300)。
次に、読み・アクセント情報埋め込み部130は、入力テキストのp文字目から始まる文字列(単語)が、難読語読み・アクセント記憶部110に格納されているかを検索する(S310)。そして、検索の結果、その単語が難読語読み・アクセント記憶部110に格納されている難読語であるか否かを判定する(S320)。
読み・アクセント情報埋め込み部130は、難読語として格納されていると判定した場合は、その難読語を、読み・アクセント付き文字列によって置換する(S330)。
難読語の文字列を置換した後、読み・アクセント情報埋め込み部130は、その置換された読み・アクセント付き文字列の直後の位置に変数pを設定する(S340)。
一方、難読語として格納されていないと判定した場合は、その位置の文字に対する処理をすることなく、変数pに1を加算して、ステップS360に移行する(S350)。
次に、読み・アクセント情報埋め込み部130は、現在の変数p番目の文字が読み上げテキストデータの末尾であるか否かを判定する(S360)。変数p番目の文字が読み上げテキストデータの末尾に達していないと判定した場合、ステップS310に戻り、その文字位置での難読語を検索する。変数p番目の文字が読み上げテキストデータの末尾に達したと判定した場合は、処理を終了する。
このような処理によって、読み・アクセント情報埋め込み部130は、読み上げテキストデータに含まれる難読語に対して読み・アクセントデータを埋め込んだ読み上げテキストデータが生成される。
次に、このアクセント情報埋め込み部130の処理を具体的に説明する。ここでは、読み・アクセント情報埋め込み部130に入力される入力テキストが図2に示す内容であり、難読語読み・アクセント記憶部110に記憶された内容が、図3Aに示す内容である場合を説明する。
まず、読み・アクセント情報埋め込み部130は、入力テキストの文字位置pを順次検索する。文字位置pが15になるまでは難読語が含まれていないので、図8のフローチャートのステップS320においてNOに移行し、文字位置変数pに1を加算して検索をする。そして、文字位置pが15となったときに、難読語読み・アクセント記憶部110に記憶されている「東海林」という難読語を検索し、ステップS330に移行する。
そして、読み・アクセント情報埋め込み部130は、前述のように、難読語「東海林」に対して、難易語読み・アクセント情報を埋め込む。すなわち、読み・アクセント付き文字列である「[東海林;ショ’ージ;苗字]」という文字列が生成され、元の「東海林」が置換される。
この結果、入力テキストは「本日、東京・国分寺市に在住の[東海林;ショ’ージ;苗字]一郎さんが、新種の苧環を公開しました。」という内容に変更される。
続いて、読み・アクセント情報埋め込み部130は、置換した文字列直後の位置である29を文字位置変数pに設定する。
その後、読み・アクセント情報埋め込み部130は、同様に検索を続け、文字位置pが38となったときに難読語「苧環」を検索する。これに対して、読み・アクセント情報埋め込み部130は、同様に「[苧環;オダマキ;名詞]」という文字列を生成し、元の「苧環」が置換される。
この結果、入力テキストは「本日、東京・国分寺市に在住の[東海林;ショ’ージ;苗字]一郎さんが、新種の[苧環;オダマキ;名詞]を公開しました。」という内容に変更される。
その後は、読み・アクセント情報埋め込み部130は、同様に検索を続け、文字位置pが58になったときに、入力テキストの最後の文字に到達するので、この読み・アクセント情報埋め込み処理を完了する。
図9は、信頼度データ付加部140の処理のフローチャートである。
信頼度データ付加部140は、読み・アクセント情報埋め込み部130によって生成された読み上げテキストデータを受け取ると、本フローチャートの処理を開始する。まず、信頼度データ付加部140は、文字の位置を特定するための変数pを1に設定することによって初期化する(S400)。
次に、信頼度データ付加部140は、受け取った読み上げテキストデータの中の変数p番目の文字が「[」であるか否かを判定する(S410)。
変数p番目の文字が「[」でないと判定した場合は、信頼度データ付加部140は、ステップS420において変数pに1を加算した後、ステップS490に移行する。
一方、変数p番目の文字が「[」であると判定した場合は、信頼度データ付加部140は、まず、変数pに1を加算する(S430)。
次に、信頼度データ付加部140は、変数p番目の文字から始まる文字列が信頼度データ記憶部120に格納されているかを検索する(S440)。そして、検索の結果、変数p番目の文字から始まる文字列が信頼度データ記憶部120に格納されているか否かを判定する(S450)。
文字列が格納されていないと判定した場合は、ステップS480に移行する。
文字列が格納されていると判定した場合は、信頼度データ付加部140は、変数pを文字「]」の直前の位置に設定する(S460)。そして、信頼度データ記憶部120に格納されている信頼度値を、文字「]」の直前に挿入して(S470)、ステップS480に移行する。
ステップS480では、信頼度データ付加部140は、変数pを、文字「]」の直後の位置に設定する。
次に、信頼度データ付加部140は、現在の変数p番目の文字が読み上げテキストデータの末尾であるか否かを判定する(S490)。変数p番目の文字が読み上げテキストデータの末尾に達していないと判定した場合、ステップS410に戻り、その文字位置で文字「[」を検索する。変数p番目の文字が読み上げテキストデータの末尾に達したと判定した場合は、処理を終了する。
以上の処理によって、難読語の読み・アクセントデータを埋め込んだ読み上げテキストデータに対して、その難読語の信頼度データを付加した読み上げテキストデータが生成される。
次に、この信頼度データ付加部140の処理を具体的に説明する。
まず、信頼度データ付加部140は、入力テキストの文字位置pを順次検索する。文字位置pが15になるまでは「[」が含まれていないので図9のフローチャートのステップS410においてNOに移行し、文字位置変数pに1を加算して検索をする。そして、文字位置pが15となったときに、「[」を検索し、ステップS430に移行して、文字位置pに1を加算して文字位置pが16に設定される。
次に、信頼度データ付加部140は、ステップS440において、入力テキストの16文字目から始まる文字列「東海林」が、信頼度データ記憶部120に格納されている文字列として検索される。このとき、信頼度データ付加部140は、信頼度データ記憶部120の内容(図4)を参照して、文字列「東海林」に対して信頼度データ「90」という信頼度を取得する。
次に、ステップS460において、信頼度データ付加部140は、文字位置pに、「]」の直前の位置である28を設定する。続いて、ステップS470において、信頼度データ付加部140は、検索された信頼度値90を文字位置pに挿入する。
この結果、入力テキストは「本日、東京・国分寺市に在住の[東海林;ショ’ージ;苗字;90]一郎さんが、新種の[苧環;オダマキ;名詞]を公開しました。」という内容に変更される。
そして、信頼度データ付加部140は、ステップS480において、文字位置pに、「]」の直前の位置である32を設定する。
その後、信頼度データ付加部140は、同様に検索を続け、文字位置pが41となったときに、「[」を検索し、文字列「苧環」が、信頼度データ記憶部120に格納されている文字列として検索される。そして、この文字列「苧環」に対して信頼度データ「95」を挿入する
この結果、最終的に、信頼度データ付加部140によって、図5に示す読み上げテキストデータが生成される。
以上、読み・アクセント、信頼度情報の埋め込み形式が[東海林;ショ’ージ;苗字;90]のような形式だった場合についてのフローチャートで説明した。もし、埋め込み形式が異なる場合には、このフローチャートは若干変更にはなるが、処理の流れ自体は同様なので説明は省略する。
なお、前述したように、読み上げテキスト送信装置10において、難読語読み・アクセント記憶部110及び信頼度データ記憶部120、並びに、読み・アクセント情報埋め込み部130及び信頼度データ付加部140は、それぞれが分離した個別の機能部として処理を実行する。これは、信頼度データの付与を予定していない従来の読み上げテキスト送受信システムに、これら新たな部位を追加することによって、本実施の形態の機能を実現することができることを想定している。
なお、難読語読み・アクセント記憶部110と信頼度データ記憶部120を一つの記憶部として実装してもよいし、読み・アクセント情報埋め込み部130と信頼度データ付加部140とを一つの処理部として実装してもよい。
次に、読み上げテキスト受信側装置20の処理について説明する。
読み上げテキスト送信装置20において、前述のように読み・アクセント情報及び信頼度情報が付加された読み上げテキストデータは、読み上げテキスト送信部150によって送信される。送信された読み上げテキストデータは、通信回線160を介して、読み上げテキスト受信部170が受け取る。
読み上げテキスト受信部170が受信した読み上げテキストデータは、前述の図5のような形式である。読み上げテキスト受信部170は、受信した読み上げテキストデータを、信頼度データ抽出部180及び読み・アクセント情報抽出部190に出力する。
図10は、信頼度データ抽出部180の処理のフローチャートである。
信頼度データ抽出部180は、読み上げテキスト受信部170から読み上げテキストデータを受け取ると、本フローチャートの処理を開始する。
まず、信頼度データ抽出部180は、文字の位置を特定するための変数pを1に設定することによって初期化する(S500)。
次に、信頼度データ抽出部180は、読み上げテキストデータのp文字目から始まる文字が「[」であるか否かを判定する(S510)。文字が「[」でなければステップS520に移行して、変数pに1を加算した後、ステップS570に移行する。
一方、読み上げテキストデータのp文字目から始まる文字が「[」である場合は、ステップS530に移行する。ステップS530では、信頼度データ抽出部180は、次に、文字「]」又は3番目の「;」が現れるまで変数pに1を加算して、文字位置を移動する。
そして、文字「]」又は3番目の「;」が見つかった場合は、ステップS550に移行し、信頼度データ抽出部180は、文字位置p、すなわち「[」又は3番目の「;」の直後にある信頼度の値を取り出す。その後、ステップS560に移行する。
一方、文字「]」又は3番目の「;」が見つかった場合は、ステップS550の処理を実行することなく、ステップS560に移行する。
ステップS560では、信頼度データ抽出部180は、文字「]」の直後の文字位置に変数pを設定する。
次に、信頼度データ抽出部180は、変数pの文字位置が読み上げテキストの末尾に達したか、すなわち、変数pが読み上げテキストデータの長さに等しいか否かを判定する(S570)。達していない場合はステップS510に戻り、処理を繰り返す。変数p番目の文字が読み上げテキストデータの末尾に達したと判定した場合は、処理を終了する。
この処理を行った結果、信頼度データ抽出部170の出力として図6とほぼ同様の難読語とその信頼度の組が得られる。
なお、読み・アクセント情報抽出部190も、信頼度データ抽出部180とほぼ同様の処理を実行する。具体的には、前述の図10のフローチャートとほぼ同一であるため、その説明は省略する。読み・アクセント情報抽出部190の処理の結果、図7とほぼ同様の難読語とその読み・アクセント情報の組が得られる。
なお、信頼度データ抽出部170及び読み・アクセント情報抽出部190の二つの処理は、同時に実行してもよいし、どちらかを先に実行したり、これらの二つの処理を一つの処理として実施してもよい。
次に、信頼度による単語登録部230の処理の流れについて説明する。
図11は、信頼度による単語登録部230の処理のフローチャートである。
ここでは、信頼度データ抽出部180と読み・アクセント情報抽出部190から図12に示す難読語の読み・アクセント情報と信頼度データが抽出されている場合について説明する。
信頼度による単語登録部230は、信頼度データ抽出部180によって抽出された信頼度データと、読み・アクセント情報抽出部190によって抽出された読み・アクセント情報とを受け取ると、本フローチャートの処理を開始する。
まず、信頼度による単語登録部230は、受け取った読み・アクセント情報及び信頼度データの組(以降、レコードと呼ぶ)を一つ取り出す(S600)。例えば、「東海林、ショ’ージ、苗字、90%」というレコードが取り出される。
このとき、信頼度による単語登録部230は、取り出すべきレコードが存在するか否かを判定する(S610)。取り出すべきレコードが存在しない、すなわち、すべての読み・アクセント情報及び信頼度データに対する処理が終了したと判定した場合は、信頼度による単語登録部230は、処理を終了する。
取り出すべきレコードが存在すると判定した場合は、信頼度による単語登録部230はユーザ辞書記憶部220を検索し、取り出したレコードの表記文字列が、ユーザ辞書記憶部220に記録されているユーザ辞書に含まれているか否かを検索する(S620)。
表記文字列がユーザ辞書に含まれていないと判定した場合は、信頼度による単語登録部230は、取り出したレコード「東海林、ショ’ージ、苗字、90%」を新たにユーザ辞書に登録する(S640)。その後、ステップS600に戻り、次のレコードの処理を実行する。
表記文字列がユーザ辞書に含まれていると判定した場合は、信頼度による単語登録部230は、その表記文字列の信頼度の値よりも、ユーザ辞書に登録されている読み・アクセント情報の信頼度の値の方が高いか否かを判定する(S640)。
なお、本実施形態では、単純に信頼度が高いか否かのみを比較するが、例えば、読み上げテキストデータを送信してきたサイトに全体に対する信頼度値を別途保持しておき、その値との積によって、最終的な信頼度を比較してもよい。
この結果、ユーザ辞書に登録されている読み・アクセント情報の信頼度の値が、その表記文字列の信頼度の値よりも高いと判定した場合は、信頼度による単語登録部230は、その表記文字列に対する処理を行うことなく、ステップS600に戻り、次のレコードの処理を実行する。
一方、その表記文字列の信頼度が、ユーザ辞書に登録されている読み・アクセント情報の信頼度よりも高いと判定した場合は、信頼度による単語登録部230は、信頼度付きユーザ辞書記憶部220に記録されているユーザ辞書データの、当該表記を持つレコードに対して、今回、読み上げテキストから抽出された読み・アクセント情報及び信頼度データを登録する。例えば、表記文字列「東海林」に対して「東海林、ショ’ージ、苗字、90%」を登録する。
以上の処理によって、信頼度付きユーザ辞書記憶部220のユーザ辞書に新たに読み・アクセント情報及び信頼度データが登録され、また、既に登録されている読み・アクセント情報に対して、さらに信頼度が高い信頼度データを受け取った場合は、その信頼度データによって、既に登録されている信頼度値を更新する。
次に、この信頼度による単語登録部230の処理と具体的に説明する。ここでは、信頼度付きユーザ辞書記憶部220に、既に、図13に示すユーザ辞書データが格納されており、また、信頼度データ抽出部180及び読み・アクセント情報抽出部190が、図12に示す難読語の読み・アクセント情報及び信頼度データを抽出した場合について具体的に説明する。
信頼度による単語登録部230は、受け取ったレコードの第一番目のレコードの処理を実行する。まず、この一番目のレコードの表記文字列「東海林」をユーザ辞書から検索する。この表記文字列はユーザ辞書には未登録であるため、新たに「東海林」という表記文字列と、その読み・アクセント情報及び信頼度データを登録する。
次に、信頼度による単語登録部230は、受け取ったレコードの二番目のレコードの処理を実行する。そして、この二番目のレコードの表記文字列「苧環」をユーザ辞書から検索する。この結果、ユーザ辞書には、既に「苧環、オダ’マキ、名詞、80%」というレコードが登録されていると判定する。
そして、信頼度による単語登録部230は、既に登録されている信頼度データの信頼度値を参照して、処理中のレコードの信頼度値とユーザ辞書に登録されている信頼度値とを比較する。この比較の結果、読み上げテキストから抽出された処理中のレコードの信頼度データの信頼度値が高いと判定する。そのため、信頼度による単語登録部230は、ユーザ辞書の信頼度データを、新たな信頼度データに更新する。この結果、既に登録されている「苧環、オダ’マキ、名詞、80%」というユーザ辞書のレコードは、「苧環、オダマキ、名詞、95%」というレコードに置き換えられる。
結果として、信頼度付ユーザ辞書記憶部220にあらかじめ登録されているユーザ辞書(図13)が、信頼度による単語登録部230の処理によって、図14に示すような内容に変更される。
このように、信頼度による単語登録部230によって、端末側装置が保持するユーザ辞書のデータは、常に、より信頼度が高い情報によって更新される。これによって、テキスト音声合成部210が読み上げテキストを正しく読み上げる精度を向上することができる。
図11の処理例においては、同一の表記が存在した場合には、より信頼度の高い読み情報で置換するという実施形態を示した。これは、通常の音声合成処理においては、ある文字列に対応する読み情報は1対1で定まる場合が多く、他のより信頼度の低い読み情報を残しておく必要がないからである。しかし、信頼度は低くても異なる読み情報を残しておいた方がよい場合も存在する。例えば、同じ表記を前後の文脈情報によって読み分ける機能を持つ音声合成処理の場合、前後の文脈情報(例えば、前後にどのような形態素があるか)によって、より信頼度の低い読み情報が、読み分け処理によって、優先されるという場合も考えられる。そのような機能を持つ音声合成処理を利用している場合は、より信頼度の高い読み情報で置換するよりは、信頼度順でソートして、複数の読み情報を保存しておくという形態を採った方がよい。
以上のように、本発明の第1の実施形態では、読み上げテキスト送信装置10から読み上げ受信装置20に読み上げテキストを送信するときに、読み上げテキストに含まれる難読語に対して読み・アクセント情報を付加するとともに、その読み・アクセントに対する信頼度を付加して送信する。また、読み上げテキスト受信装置20は、受け取った読み上げテキストに付加されている読み・アクセント情報及び信頼度データをユーザ辞書として登録し、既にユーザ辞書に登録されているものよりも信頼度が高ければ信頼度データを更新する。このようにすることによって、読み上げテキスト受信装置20は、異なる複数の読み上げテキスト送信装置10から送られてくる読み・アクセント情報のうち、最も信頼しうる情報を選択して登録し、その情報を利用することができる。
その結果として、利用者に特別な操作を強いることなく、読み上げテキストに含まれる難読語に対して、常に最も信頼度の高い読み・アクセント情報を利用して音声合成による読み上げを提供することが可能となる。
次に、本発明の第2の実施の形態を説明する。
本発明の第2の実施の形態は、映像コンテンツに含まれる音声データのキーワードを検索するために、キーワードに対応する信頼度を利用する。
具体的な例として番組映像の配信システムを考えると、送信側(複数のテレビ局、レコード会社、ゲーム会社、個人の映像提供サイトなど)からさまざまな映像データが配信され、受信側ではそれらの映像データを蓄積し、ユーザが見たい映像を検索して再生するというシステムとなる。この場合、ユーザが見たい映像を検索する手段として、例えば、映像内に含まれる言葉を指定して検索するという処理は有用である。例えば、多くのニュース映像の中から「さくら」というキーワードを含む映像を検索することで、桜に関する映像部分を素早く閲覧できるようになる。
このようなシステムにおいて、受信側ですべての映像データに対して音声認識を行い、発声されたキーワードを抽出しておくという処理は現実的ではない。それよりも、映像データの配信側で、例えば、その映像の話者用の音声認識データを用いて、より高精度にキーワードを抽出しておくことで、より有用なキーワード情報を提供することができるためである。
こうして配信される映像データにキーワード情報が付与されているという状況を考えると、第1の実施の形態と同様に、同じキーワードに対してどの映像データが最も適切かを選択しなければならなくなる。これは、同じ「さくら」というキーワードを持つ映像データが複数の送信側から送られてくる状況は十分にありえるからである。
このように、第2の実施の形態では、あるキーワードに対して指定された映像データがどの程度適切かを示すデータとして、信頼度情報を利用する。この信頼度情報が付与されることで、受信側では、あるキーワードに対して最も適切な映像データを選択することが可能となる。
本実施形態における信頼度データの具体例としては、例えば、人間の判断による100分率(%)の値を用いることができる。ある映像コンテンツのある時刻から始まるシーンに対して、100人中80人が「さくら」というキーワードを付与することが適切だと判断した場合に、その時刻のシーンに対して信頼度80を付与するという方法である。
または、音声認識処理を用いて、映像内の音声データからキーワード情報を自動抽出するという手法もある。これには、ディクテーション認識と呼ばれる広く公知の音声認識技術を用いることで実現することが可能である。音声認識処理で抽出されたキーワードに対しては、その音声認識処理における認識スコアを、本願で開示するところの信頼度データとして利用することが可能である。音声認識処理では一般的に、音声の特徴量をもとに、その時刻の音声があるキーワード(文字列)である認識スコア(確からしさ)を計算する。そして、最もスコアの高い(確からしい)キーワードが認識語句として出力される。つまり、この認識スコアは、映像データのその時刻の音声に、そのキーワードが含まれている信頼度を示しているため、本願における信頼度データとして利用可能となる。
本実施形態では、映像コンテンツ送信装置1500と映像コンテンツ受信装置2000とからなるシステムにおいて、映像コンテンツ送信装置1500は、映像コンテンツを送信するときに、その映像コンテンツの音声データに含まれるキーワードと、その読み及びその信頼度とを映像コンテンツ受信装置2000に送信する。映像コンテンツ受信装置2000は、受信した映像コンテンツを一時的に格納しておく。そして、ユーザからキーワードによる指示があったときに、そのキーワードに対応する音声データのある映像コンテンツを検索して、それを再生する。このとき、映像コンテンツ受信装置2000は、ユーザの指示したキーワードを、映像コンテンツの音声データに含まれるキーワードの信頼度に応じて、最も適切なものを選択する。
図15は、本発明の第2の実施の形態の音声認識システムの構成ブロック図である。
この音声認識システムは、映像コンテンツを送信する映像コンテンツ送信装置1500と、送信された映像コンテンツを受信し、この映像コンテンツを再生すると共に、映像コンテンツに含まれる音声データを認識する映像コンテンツ受信装置2000とを含む。また、この映像コンテンツ送信装置1500と映像コンテンツ受信装置2000とは、通信回線1580によって接続されている。映像コンテンツ送信装置1500と映像コンテンツ受信装置2000とは、この通信回線1580を介して映像コンテンツデータを送受信する。
映像コンテンツ送信装置1500は、映像コンテンツ記憶部1510と、キーワード音声認識部1520と、話者別音声認識用データ記憶部1530と、映像キーワード記憶部1540と、信頼度データ記憶部1550と、信頼度データ付加部1560と、映像複合コンテンツ送信部1570とを含む。
映像コンテンツ受信装置2000は、映像複合コンテンツ受信部1590と、信頼度データ抽出部1600と、映像キーワード抽出部1610と、映像コンテンツ抽出部1620と、映像コンテンツ記憶部1630と、信頼度によるキーワード登録部1640と、信頼度付きキーワード記憶部1650と、音声認識用データ変換手段1660と、音声認識用データ記憶部1670と、音声認識手段1680と、映像コンテンツ選択手段1690と、映像コンテンツ再生手段1700とを含む。
次に、映像コンテンツ送信装置1500の構成を説明する。
映像コンテンツ記憶部1510は、映像コンテンツ送信装置1500が映像コンテンツ受信装置2000に送信する映像コンテンツデータを一つ又は複数個格納する記憶装置である。映像コンテンツ記憶部1510は、例えば、ハードディスク装置やメモリによって構成される。映像コンテンツデータは、例えばMPEG等によってエンコードされている映像データと共に、その映像の識別子、タイトル、話者、時間、ジャンル等の映像コンテンツ情報を含む。映像コンテンツ記憶部1510は、このデータを、直接、又はデータベースプログラムなどを介して格納する。
キーワード音声認識部1520は、映像コンテンツに含まれる音声データから、映像キーワード記憶部1540に記録されている情報を用いて、キーワードを認識する。キーワード音声認識部1520は、ワードスポッティングと呼ばれる技術を用いて、長い音声データの中から特定の単語の出現位置を検出することができる。また、キーワード音声認識部1520は、話者別音声認識用データ記憶部1530に記録されている話者別音声認識用データを用いて、キーワードを認識する。この音声データの話者に対応するデータによって、キーワードの認識の精度を向上できる。
話者別音声認識用データ記憶部1530は、映像コンテンツに含まれる音声データの話者に対応した認識用のデータを格納する記憶装置である。話者別音声認識用データ記憶部1530は、例えば、ハードディスク装置やメモリによって構成される。
映像キーワード記憶部1540は、キーワードを格納する記憶装置である。映像キーワード記憶部1540は、例えば、ハードディスク装置やメモリによって構成される。キーワードとは、前述の第1の実施の形態の難読語に対応するものであり、映像コンテンツ送信側の事業者が、映像コンテンツに含まれる音声データのうち、音声認識が困難であると想定される単語等を、あらかじめ登録しておく。映像コンテンツ送信装置1500において、キーワード音声認識部が、映像コンテンツに含まれる音声データのキーワードに対応する音声を認識する。
信頼度データ記憶部1550は、信頼度データを格納する記憶装置である。信頼度データ記憶部1550は、例えば、ハードディスク装置やメモリによって構成される。信頼度データとは、前述の第1の実施の形態と同様に、映像キーワード記憶部1540に格納されているキーワードそれぞれについて、キーワードがそのデータのキーワードとしてどれだけどの程度信頼できるかを示す数値である。上述のように、この信頼度データには、人間の判断に基づく100分率(%)で指定することも可能であり、統計処理に基づく何らかの確率値を利用してもよい。ただし、他の映像コンテンツ送信装置1500から送られた信頼度との間での比較ができるように、また他の送信側から送られた映像データに付与された信頼度との間で比較ができるように、なんらかの正規化が必要である。映像に付される音声情報から音声認識によって自動抽出されたキーワードを用いる本実施形態においては、この信頼度データはその音声認識処理の認識スコアに依存することになる。信頼度データにこの認識スコアを利用することで、同じ精度の音声認識処理であれば、信頼度データ間の比較を行うことの妥当性が保証される。
信頼度データ付加部1560は、映像コンテンツに含まれる音声データのキーワードそれぞれに信頼度データを付加する。より具体的には、映像コンテンツ記憶部1510から、映像コンテンツデータを受け取る。そして、この映像コンテンツの音声データに含まれるキーワードについて、信頼度データ記憶部1550から取得する。そして、それぞれのキーワードに、取得した信頼度データを付加する。
映像コンテンツに信頼度データを付加する形式にはいろいろな手法がある。例えば、映像コンテンツ情報に、キーワードと、そのキーワードの出現する時刻と、そのキーワードの信頼度と、を一覧として記録する。
映像複合コンテンツ送信部1570は、信頼度データが付加された映像コンテンツデータを、通信回線1580を介して、映像コンテンツ受信装置2000に送信する。映像複合コンテンツ送信部1570は、例えばインターネットモデム装置によって構成される。なお、携帯電話における無線通信装置やCATVモデム装置などの通信機器を利用することによって読み上げテキストデータを送信してもよい。すなわち、通信回線に応じて適切な機器を用いればよい。
図16は、映像コンテンツ記憶部1510に格納されている映像コンテンツデータの一例の説明図である。
映像コンテンツデータは、ID1511、映像1512、タイトル1513、話者・時間1514及びジャンル1515の各フィールドを含む。
ID1511は、映像コンテンツデータ毎に付される識別子である。映像1512は、映像コンテンツそのもののデータである。なお映像1512は、映像コンテンツを示すポインタであってもよい。タイトル1513は、映像コンテンツに付されるタイトルである。話者・時間1514は、映像コンテンツの含まれる音声データの話者及びその話者の発生している時刻情報である。ジャンル1515は、映像コンテンツ毎の特徴を示すジャンルである。
図17は、話者別音声認識用データ記憶部1530に格納されている話者別音声認識用データの一例の説明図である。
話者別音声認識用データは、ID1531、話者1532及び音声認識用データ1533の各フィールドを含む。
ID1531は、話者別音声認識用データ毎に付される識別子である。話者1532は、映像コンテンツに含まれる音声データにおいて発声している話者を特定するための情報である。音声認識用データ1533は、キーワード音声認識部1520において、音声データを認識するときに用いられる話者毎の音声認識用データである。
図18は、映像キーワード記憶部1540に格納されているキーワードの一例の説明図である。
前述のように、映像コンテンツ送信側の事業者が、映像コンテンツに含まれる音声データのうち、ユーザによって利用されると想定される単語等を、キーワードとしてあらかじめ登録しておく。
キーワードは、ID1541、キーワード1542、映像ID1543及び出現時刻1544の各フィールドを含む。
ID1541は、キーワード毎に付される識別子である。キーワード1542は、音声データから認識するキーワードである。映像ID1543は、キーワードを含む音声データを含む映像コンテンツのIDである。出現時刻は、映像コンテンツの中でそのキーワードが出現する時刻である。
図19は、信頼度データ記憶部1550に格納されている信頼度データの一例の説明図である。
信頼度データは、ID1551、キーワード1552及び信頼度1553の各フィールドを含む。
ID1551は、信頼度データ毎に付される識別子である。キーワード1552は、キーワードを示す。信頼度1553は、そのキーワードに付された信頼度データの値である。
次に、前述のように構成された映像コンテンツ送受信システムの動作を具体的に説明する。
映像コンテンツ送信装置1500の動作は、前述した第1の実施の形態の読み上げテキスト送信装置10とほぼ同様である。
まず、キーワード音声認識部1520は、話者別音声認識用データ記憶部1530に格納されている話者別音声認識用データを利用して、映像コンテンツに含まれる音声データから、映像キーワード記憶部1540に格納されているキーワードに対応する音声を認識する。そして、映像コンテンツ情報に、認識されたキーワードとその出現時刻と認識されたキーワードの総数とを付加し、映像コンテンツ記憶部1510に格納する。
次に、信頼度データ付加部1560は、映像コンテンツに付加されたキーワード情報に、信頼度データを付加する。具体的には、映像コンテンツデータの映像コンテンツ情報に付加されているキーワードを参照する。そして、信頼度データ記憶部1550を参照して、キーワードに対応する信頼度データを取得して、映像コンテンツ情報の対応するキーワードの箇所に付加する。
ここで付与する信頼度データには、そのキーワードに対する認識スコアを利用することが可能である。音声認識処理では一般的に、音声の特徴量をもとに、その時刻の音声があるキーワード(文字列)である認識スコア(確からしさ)を計算し、最もスコアの高い(確からしい)キーワードがその時刻での認識語句として出力される。その認識スコア(信頼度データ)の意味は、映像データのその時刻において、そのキーワードが音声認識された際の音響的な確からしさを示す。
図20は、信頼度データ付加部1560によってキーワードの信頼度データが付加された映像コンテンツデータの一例の説明図である。
この映像コンテンツデータは、前述のID1511、映像1512、タイトル1513及びジャンル1514に加え、キーワードの総数(KW数)1516、キーワード1517、出現時刻1518及び信頼度1519の各フィールドが付加されている。なお、キーワードが一つ以上存在する場合は、キーワード1517、出現時刻1518及び信頼度1519のフィールドの組が、そのキーワードの数だけ付加される。
映像コンテンツ送信装置1500は、このようにして生成された映像コンテンツデータを、映像複合コンテンツ送信部1570によって、通信回線1580を介して、映像コンテンツ受信装置2000に送信する。
次に、映像コンテンツ受信装置2000の動作を説明する。
まず、映像コンテンツ送信装置によって送信された映像コンテンツデータは、通信回線を介して、映像コンテンツ受信装置2000の複合映像コンテンツ受信部1590が受け取る。複合映像コンテンツ受信部1590は、受信した映像コンテンツデータに含まれるID1511を、映像コンテンツ受信装置2000内で一意の識別子である映像IDに変換する。そして、この映像コンテンツデータを、信頼度データ抽出部1600、映像キーワード抽出部1610及び映像コンテンツ抽出部1620に出力する。
信頼度データ抽出部1600は、受け取った映像コンテンツデータから、キーワード及びその信頼度データを抽出する。具体的には、受け取った映像コンテンツデータのコンテンツ情報から、キーワード、信頼度及び映像IDを抽出して、これらを一覧として信頼度によるキーワード登録部に出力する。
図21は、信頼度データ抽出部1600によって処理された結果、出力されるデータの一例の説明図である。
このデータは、ID1601、キーワード1602、信頼度1603及び映像ID1604の各フィールドを含む。ID1601は、キーワード1062に格納されているキーワードの識別子である。信頼度1603は、キーワードに対応する信頼度である。映像ID1604は、映像コンテンツ受信装置2000内で一意の識別子である。
映像キーワード抽出部1610は、受け取った映像コンテンツデータから、キーワード及びその出現位置を抽出する。具体的には、受け取った映像コンテンツデータのコンテンツ情報から、キーワード及びその出現位置を抽出して、これらを一覧として信頼度によるキーワード登録部1640に出力する。
図22は、映像キーワード抽出部1610によって処理された結果、出力されるデータの一例の説明図である。
このデータは、ID1611、キーワード1612、出現位置1613及び映像ID1604の各フィールドを含む。ID1611は、キーワード1612に格納されているキーワードの識別子である。出現位置1613は、そのキーワードが映像コンテンツ中に出現する位置の情報である。映像ID1614は、映像コンテンツ受信装置2000内で一意の識別子である。
なお、信頼度データ抽出部1600及び映像キーワード抽出部1600の二つの処理は、同時に実行してもよいし、どちらかを先に実行したり、これらの二つの処理を一つの処理として実施してもよい。
映像コンテンツ抽出部1620は、受け取った映像コンテンツデータから、映像コンテンツを抽出する。具体的には、受け取った映像コンテンツデータから、映像コンテンツ及び映像IDを抽出して、これらを映像コンテンツ記憶部に格納する。
図23は、映像コンテンツ抽出部1620によって処理された結果、映像コンテンツ記憶部に格納されるデータの一例の説明図である。
このデータは、ID1621、映像ID1622及び映像データ1623の各フィールドを含む。ID1621は、その映像コンテンツの識別子である。映像ID1622は、映像コンテンツ受信装置2000内で一意の識別子である。映像データ1623は、映像コンテンツに含まれる映像データの内容であり、例えばMPEG形式のデータが格納される。
信頼度によるキーワード登録部1640は、信頼度データ抽出部1600によって抽出された信頼度データと、映像キーワード抽出部1610によって抽出された映像キーワードとを受け取って、これらをキーワードデータとして、信頼度付きキーワード記憶部1650に格納する。
送信側からは、映像データに複数のキーワード情報が指定される形で配信されてくる。これに対して、受信側では、あるキーワードに対応する映像データを検索する必要がある。そのため、映像データに複数のキーワード情報が対応するというデータ構造から、キーワード情報に複数の映像データが対応するというデータ構造に変換しておいた方が、より高速に検索できるようになり望ましい。そこで、信頼度によるキーワード登録部1640では、あるキーワード情報に対してどのような映像データが関連付けられているかを登録する。
図24は、信頼度によるキーワード登録部1640の処理のフローチャートである。
信頼度によるキーワード登録部1640は、信頼度データ抽出部1600によって抽出された信頼度データと、キーワード抽出部1610によって抽出されたキーワードとを受け取ると、本フローチャートの処理を開始する。
まず、信頼度によるキーワード登録部1640は、受け取ったキーワード及び信頼度データの組(以降、レコードと呼ぶ)を一つ取り出す(S2400)。
このとき、信頼度によるキーワード登録部1640は、取り出すべきレコードが存在するか否かを判定する(S2410)。取り出すべきレコードが存在しない、すなわち、すべてのキーワード及び信頼度データに対する処理が終了したと判定した場合は、信頼度によるキーワード登録部1640は、処理を終了する。
取り出すべきレコードが存在すると判定した場合は、信頼度によるキーワード登録部1640は信頼度付きキーワード記憶部1650を検索し、取り出したレコードのキーワードが、信頼度付きキーワード記憶部1650に記録されているキーワードデータに含まれているか否かを検索する(S2420)。
キーワードがキーワードデータに含まれていないと判定した場合は、信頼度によるキーワード登録部1640は、取り出したレコードのキーワードを新たにキーワードデータに追加して、そのレコードを登録する(S2440)。その後、ステップS2400に戻り、次のレコードの処理を実行する。
キーワードがキーワードデータに含まれていると判定した場合は、信頼度によるキーワード登録部1640は、まず、キーワードを参照するために時刻情報を示すインデックスpを1に設定することによってpを初期化する(S2450)。そして、キーワードデータにおいて、このpに対応する時刻の位置にあるキーワードの信頼度の値が、レコードのキーワードの信頼度の値よりも小さいか否かを判定する(S2460)。
なお、本実施形態では、単純に信頼度の値が高いか低いかのみを比較するが、例えば、映像コンテンツを送信したサイトに全体に対する信頼度値を別途保持しておき、その値との積によって、最終的な信頼度を比較してもよい。
この結果、キーワードデータに登録されているキーワードの信頼度の値が、低いと判定した場合は、信頼度によるキーワード登録部1640は、その出現時刻pに対応する箇所に、レコード、すなわちキーワード及び信頼度データを挿入する。このとき、既にそのキーワードのレコード、すなわち、信頼度、映像ID及び出現時刻が格納されている場合は、その直後の位置にレコードを挿入する。その後、ステップS2400に戻り、次のレコードの処理を実行する。
一方、キーワードデータに登録されているキーワードの信頼度の値が、低いと判定した場合は、信頼度によるキーワード登録部1640は、まず、pに1を加算して(S2470)、その時刻pが存在するか否か、すなわち、その映像コンテンツの末尾に達したか否かを判定する(S2480)。その時刻が存在しないと判定した場合は、信頼度によるキーワード登録部1640は、ステップS2400に戻り、次のレコードの処理を実行する。時刻pが存在すると判定した場合は、信頼度によるキーワード登録部1640は、は、ステップS2460に戻り、その時刻pについての処理を実行する。
以上の処理によって、信頼度によるキーワード登録部1640は、信頼度付きキーワード記憶部1650のキーワードデータに、新たにキーワード及びその信頼度データが登録され、また、既に登録されているキーワードに対して、さらに信頼度が高い信頼度データを受け取った場合は、その信頼度データによって、既に登録されている信頼度値を更新する。
図25は、信頼度付きキーワード記憶部1650に格納されているキーワードデータの一例の説明図である。
キーワードデータは、キーワード毎に、信頼度、映像ID及び出現時刻を一つの組(これを出現データと呼ぶ)として、すべての出現時刻についてにまとめたデータである。なお、出現データは、信頼度の高い順に並べられている。
例えば、「トクバン」というキーワードは、出現数が2である。その一方は、映像ID「1」の出現時刻「26分29秒」に出現し、その信頼度は「85%」であることが示されている。他方は、映像ID「89」の出現時刻「13分51秒」に出現し、その信頼度は「80%」であることが示されている。
音声認識用データ変換部1660は、信頼度付きキーワード記憶部1650に格納されているキーワードデータから、音声認識部1680によって用いられる音声認識用データを生成する。そして、生成した音声認識用データを、音声認識用データ記憶部1670に格納する。
この音声認識用データは、音声認識文法を標準規格SRGF(ABNF)方式(Speech Recognition Grammar Format/Augumented Backus-Naur Format)によって記述される。
図26は、音声認識用データの一例の説明図である。
$fillerに、ユーザが音声コマンドを発する契機となるような語句を定義し、$commandに、信頼度付きキーワード記憶部1650に格納さているキーワードすべてを定義する。これらキーワードは、「|」で区切って文字列を結合る。
この音声認識用データを用いることによって、例えば、「えーと、ものまね」、「あー、せんきょ」などの構造の音声が認識できる。
なお、SRGF方式以外の記述方式を用いてもよい。
音声認識部1680は、ユーザが発声した音声を、キーワードとして認識する。
音声認識部1680は、Julius等の既存の音声認識エンジンを利用することによって、音声を文字列データとして認識する。
音声認識部1680は、音声が入力されると、音声認識用データ記憶部1670に格納されている音声認識用データを参照して、記述された文法構造の音声を認識し、どの音声コマンドが発声されたかを判断し、その結果を映像コンテンツ選択部1690に出力する。
例えば、ユーザから「えー、とくばん」という音声が入力されたときは、音声認識部1680は、文字列「トクバン」をキーワードとして出力する。なお、複数の文字列の候補を、それぞれの確率を付して出力してもよい。
映像コンテンツ選択部1690は、音声認識部1680が認識したキーワードから、そのキーワードに該当する映像コンテンツを選択する。
図28は、映像コンテンツ選択部1690の処理のフローチャートである。
映像コンテンツ選択部1690は、音声認識部1680によって認識された音声認識結果を受け取ると、本フローチャートの処理を開始する(S2700)。
まず、映像コンテンツ選択部1690は、キーワード検索のためのインデックスpを1に設定することによって初期化する。
次に、映像コンテンツ選択部1690は、信頼度付きキーワード記憶部1650に格納されているキーワードデータから、IDがpのレコードを検索する(S2700)。そして、この検索の結果、該当するレコードが見つかったか否かを判定する(S2720)。該当するレコードが見つからなければ、映像コンテンツ選択部1690は、処理を終了する。
該当するレコードが見つかった場合は、映像コンテンツ選択部1690は、検索されたレコードのキーワードと、音声認識部の認識結果とを比較する(S2740)。そして、この比較の結果、検索されたレコードのキーワードと音声認識部の認識結果とが一致したか否かを判定する(S2750)。
一致しないと判定した場合は、映像コンテンツ選択部1690は、インデックスpに1を加算して(S2760)、ステップS2720に戻り、該当位置のレコードを検索する。
一致したと判定した場合は、映像コンテンツ選択部1690は、検索されたレコードの含まれている出現データのうち、一番目のデータ、すなわち最も信頼度の高い出現データを取得する。そして、その映像IDと出現時刻とを、映像コンテンツ再生部1700に出力する。
この処理の結果、映像コンテンツ選択部1690は、ユーザの発声した音声の認識結果であるキーワードに対応する映像IDと出現時刻とを、映像コンテンツ再生部1700に出力する。
映像コンテンツ再生部1700は、映像コンテンツ選択部1690から出力された映像IDと出現時刻とを取得すると、該当する映像データを映像コンテンツ記憶部1630から取得し、その出現時刻時点からの映像データを再生する。
以上のように、本発明の第2の実施形態では、映像コンテンツ送信装置1500から映像コンテンツ受信装置2000に映像コンテンツを送信するときに、映像コンテンツに含まれる特定の発声に対応するキーワードを付加するとともに、そのキーワードに対する信頼度を付加して送信する。また、映像コンテンツ受信装置2000は、受け取った映像コンテンツに付加されているキーワード及び信頼度データをキーワードデータとして登録し、また、既にキーワードデータに登録されているものよりも信頼度が高ければ信頼度データを更新する。そして、映像コンテンツ受信装置2000は、ユーザが発声した音声をキーワードとして認識し、そのキーワードに対応する映像コンテンツを選択するときに、信頼度の最も高い映像データを選択して再生する。このようにすることによって、映像コンテンツ受信装置2000は、異なる複数の映像コンテンツ送信装置1500から送られてくる、キーワードを含んだ映像データのうち、最も信頼しうる情報を選択して、その情報を利用することができる。
その結果として、利用者に特別な操作を強いることなく、映像コンテンツに含まれるキーワードに対して、常に最も信頼度の高いキーワードを選択することが可能となる。
なお、信頼度以外にも、映像コンテンツ送信装置1500のサービス業者を示す情報を付加して送信し、ユーザがそのサービス業者を選択できるような仕組みを設けてもよい。
本発明の第1の実施の形態の読み上げテキスト送受信システムの構成ブロック図である。 本発明の第1の実施の形態の読み上げテキストデータの一例の説明図である。 本発明の第1の実施の形態の難読語読み・アクセント情報の一例の説明図である。 本発明の第1の実施の形態の難読語読み・アクセント情報の他の例の説明図である。 本発明の第1の実施の形態の信頼度データの一例の説明図である。 本発明の第1の実施の形態の読み上げテキストデータの一例の説明図である。 本発明の第1の実施の形態の抽出された信頼度データの一例の説明図である。 本発明の第1の実施の形態の抽出された読み・アクセント情報の一例の説明図である。 本発明の第1の実施の形態の読み・アクセント情報埋め込み部の処理のフローチャートである。 本発明の第1の実施の形態の信頼度データ付加部の処理のフローチャートである。 本発明の第1の実施の形態の信頼度データ抽出部の処理のフローチャートである。 本発明の第1の実施の形態の信頼度による単語登録部の処理のフローチャートである。 本発明の第1の実施の形態のユーザ辞書データの一例の説明図である。 本発明の第1の実施の形態の抽出されたデータの一例の説明図である。 本発明の第1の実施の形態の変更されたユーザ辞書データの一例の説明図である。 本発明の第2の実施の形態の音声認識システムの構成ブロック図である。 本発明の第2の実施の形態の映像コンテンツデータの一例の説明図である。 本発明の第2の実施の形態の話者別音声認識用データの一例の説明図である。 本発明の第2の実施の形態のキーワードの一例の説明図である。 本発明の第2の実施の形態の信頼度データの一例の説明図である。 本発明の第2の実施の形態の信頼度データが付加された映像コンテンツデータの一例の説明図である。 本発明の第2の実施の形態の信頼度データ抽出部が出力するデータの一例の説明図である。 本発明の第2の実施の形態の映像キーワード抽出部が出力されるデータの一例の説明図である。 本発明の第2の実施の形態の映像コンテンツ抽出部が映像コンテンツ記憶部に格納するデータの一例の説明図である。 本発明の第2の実施の形態の信頼度によるキーワード登録部の処理のフローチャートである。 本発明の第2の実施の形態のキーワードデータの一例の説明図である。 本発明の第2の実施の形態の音声認識用データの一例の説明図である。 本発明の第2の実施の形態の映像コンテンツ選択部の処理のフローチャートである。
符号の説明
10 読み上げテキスト送信装置
20 読み上げテキスト受信装置
100 読み上げテキスト記憶部
110 難読語読み・アクセント記憶部
120 信頼度データ記憶部
130 読み・アクセント情報埋め込み部
140 信頼度データ付加部
150 読み上げテキスト送信部
160 通信回線
170 読み上げテキスト受信部
180 信頼度データ抽出部
190 読み・アクセント情報抽出部
200 音声合成用辞書データ記憶部
210 テキスト音声合成部
220 信頼度付きユーザ辞書記憶部
230 信頼度による単語登録部
1500 映像コンテンツ送信装置
2000 映像コンテンツ受信装置
1580 通信回線
1510 映像コンテンツ記憶部
1520 キーワード音声認識部
1530 話者別音声認識用データ記憶部
1540 映像キーワード記憶部
1550 信頼度データ記憶部
1560 信頼度データ付加部
1570 映像複合コンテンツ送信部
1590 映像複合コンテンツ受信部
1600 信頼度データ抽出部1600
1610 映像キーワード抽出部
1620 映像コンテンツ抽出部
1630 映像コンテンツ記憶部
1640 信頼度によるキーワード登録部
1650 信頼度付きキーワード記憶部
1660 音声認識用データ変換手段
1670 音声認識用データ記憶部
1680 音声認識手段
1690 映像コンテンツ選択手段
1700 映像コンテンツ再生手段

Claims (8)

  1. 通信回線を介して接続されるサーバから送信されたデータを受信し、
    前記受信されたデータに付加され、音声を合成するための情報である音声合成情報を抽出し、
    前記受信されたデータから前記音声合成情報に対応付けられる該音声合成情報の信頼度を抽出し、
    あらかじめ格納されている前記抽出されたデータの音声合成情報に対応付けられている信頼度と前記抽出された信頼度とを比較し、
    信頼度が高い音声合成情報を選択し、前記選択された音声合成情報を用いて前記受信されたデータを音声合成して、当該データの音声を再生することを特徴とする音声の合成プログラム。
  2. 前記音声合成情報は、前記データに含まれる所定の文字列及び前記文字列の読み、アクセントの情報を含み、
    前記信頼度は、前記文字列の各々に対応していることを特徴とする請求項1に記載の音声の合成プログラム。
  3. 前記文字列、前記抽出された音声合成情報及びその信頼度を記憶部に登録するときに、当該登録されるべき文字列が既に記憶されている場合は、当該文字列に関する前記抽出された音声合成情報に対応する信頼度の値と、既に記憶されている当該文字列に関する音声合成情報に対応する信頼度の値とを比較し、
    前記比較の結果、前記既に記憶されている信頼度の値が低い場合は、当該文字列に関して、前記抽出した音声合成情報及びその信頼度を登録し、
    前記受信されたデータを再生するときに、前記記憶部に記憶された音声合成情報を用いて再生することを特徴とする請求項2に記載の音声の合成プログラム。
  4. 通信回線を介して接続されるサーバから送信されたデータを受信し、
    ユーザから入力されたコマンドをキーワードとして認識し、
    前記受信されたデータに付加されているキーワードを抽出し、
    前記受信されたデータから、前記抽出したキーワードに付加されている該キーワードの該データのキーワードとしての信頼度を抽出し、
    前記抽出されたキーワードから前記入力されたキーワードを検索し、該検索されたキーワードに対応するデータを選択し、
    前記検索されたデータを再生するものであって、
    前記データの選択は、前記検索されたキーワードに対応するデータのうち当該信頼度が高いものを選択することを特徴とするデータ処理プログラム。
  5. 前記信頼度は、前記キーワードを生成する際の音声認識の信頼度によって決定されたものであることを特徴とする請求項4記載のデータ処理プログラム。
  6. 前記キーワード毎に、該キーワードに対応付けられるデータをその信頼度と共に該キーワードと対応付けて記録し、
    該キーワードが入力された場合には、該信頼度の高い順に前記データを選択し、前記選択されたデータを再生することを特徴とする請求項5に記載のデータ処理プログラム。
  7. データを音声合成して再生する端末に通信回線を介して接続されたサーバであって、
    前記端末に送信するデータを格納するデータ格納部と、
    設定された単語の音声合成情報をあらかじめ格納する音声合成情報格納部と、
    設定された前記音声合成情報の信頼度をあらかじめ格納する信頼度格納部と、
    前記端末に送信するデータ中の前記単語に前記合成情報を付加する音声合成情報付加部と
    前記音声合成情報が付加されたデータに関し、前記音声合成情報に対応する信頼度を付加する信頼度付加部と、
    前記音声合成情報及び前記信頼度が付加されたデータを前記端末に送信する送信部と、
    を備え、
    前記音声合成情報付加部は、前記データのうち、前記音声合成情報を付加すべき箇所を検索して、当該箇所に音声合成情報を付加し、
    前記信頼度付加部は、前記付加された音声合成情報を検索して、当該音声合成情報に対応する信頼度を付加することを特徴とするサーバ。
  8. データを音声合成して再生する端末に通信回線を介して接続されたサーバであって、
    前記端末に送信するデータを格納するデータ格納部と、
    前記データに含まれる音声の話者の情報を格納する話者情報格納部と、
    設定されたキーワードをあらかじめ格納するキーワード格納部と、
    設定された前記キーワードの該キーワードとしての信頼度をあらかじめ格納する信頼度格納部と、
    前記データに含まれるキーワードに対応する音声を認識するキーワード認識部と、
    前記端末に送信するデータに前記キーワードを付加するキーワード付加部と
    前記キーワード情報が付加されたデータに関し、前記キーワードに対応する信頼度を付加する信頼度付加部と、
    前記キーワード及び前記信頼度が付加されたデータを前記端末に送信する送信部と、
    を備え、
    前記キーワード認識部は、前記話者の情報と前記キーワードとから、前記データに含まれるキーワードに対応する音声を認識し、
    前記キーワード付加部は、前記認識された音声のうち、前記キーワードを付加すべき箇所を検索して、当該箇所にキーワードを付加し、
    前記信頼度付加部は、前記付加されたキーワードを検索して、当該キーワード情報に対応する信頼度を付加することを特徴とするサーバ。
JP2006018940A 2006-01-27 2006-01-27 プログラム及びサーバ Pending JP2007199480A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006018940A JP2007199480A (ja) 2006-01-27 2006-01-27 プログラム及びサーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006018940A JP2007199480A (ja) 2006-01-27 2006-01-27 プログラム及びサーバ

Publications (1)

Publication Number Publication Date
JP2007199480A true JP2007199480A (ja) 2007-08-09

Family

ID=38454143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006018940A Pending JP2007199480A (ja) 2006-01-27 2006-01-27 プログラム及びサーバ

Country Status (1)

Country Link
JP (1) JP2007199480A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090100A (ja) * 2009-10-21 2011-05-06 National Institute Of Information & Communication Technology 音声翻訳システム、制御装置、音声認識装置、翻訳装置、および音声合成装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090100A (ja) * 2009-10-21 2011-05-06 National Institute Of Information & Communication Technology 音声翻訳システム、制御装置、音声認識装置、翻訳装置、および音声合成装置
US8954335B2 (en) 2009-10-21 2015-02-10 National Institute Of Information And Communications Technology Speech translation system, control device, and control method

Similar Documents

Publication Publication Date Title
US10410627B2 (en) Automatic language model update
US8015005B2 (en) Method and apparatus for voice searching for stored content using uniterm discovery
US8712776B2 (en) Systems and methods for selective text to speech synthesis
JP4459267B2 (ja) 辞書データ生成装置及び電子機器
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US8386265B2 (en) Language translation with emotion metadata
US7680853B2 (en) Clickable snippets in audio/video search results
US8949133B2 (en) Information retrieving apparatus
US20100082344A1 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US20100082327A1 (en) Systems and methods for mapping phonemes for text to speech synthesis
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
US20100082346A1 (en) Systems and methods for text to speech synthesis
TW200922223A (en) Voice chat system, information processing apparatus, speech recognition method, keyword detection method, and recording medium
JP4869268B2 (ja) 音響モデル学習装置およびプログラム
AU2005200340A1 (en) Database annotation and retrieval
JP2009522845A (ja) サーチ可能なマルチメディア・ストリーム
JP4987682B2 (ja) 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
US11714973B2 (en) Methods and systems for control of content in an alternate language or accent
JP2002041081A (ja) 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
KR100929688B1 (ko) 음성 데이터를 이용하여 멀티미디어 데이터 파일의 인덱싱정보를 생성하는 시스템 및 방법과 멀티미디어 데이터파일의 인덱싱 정보를 검색하는 시스템 및 방법
JP6322125B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
CN110992984A (zh) 音频处理方法及装置、存储介质
JP2006526207A (ja) メディアオブジェクト検索方法
JP2007199480A (ja) プログラム及びサーバ