JP4675691B2 - コンテンツ情報提供装置 - Google Patents

コンテンツ情報提供装置 Download PDF

Info

Publication number
JP4675691B2
JP4675691B2 JP2005180872A JP2005180872A JP4675691B2 JP 4675691 B2 JP4675691 B2 JP 4675691B2 JP 2005180872 A JP2005180872 A JP 2005180872A JP 2005180872 A JP2005180872 A JP 2005180872A JP 4675691 B2 JP4675691 B2 JP 4675691B2
Authority
JP
Japan
Prior art keywords
vocabulary
content information
speech recognition
voice
display form
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005180872A
Other languages
English (en)
Other versions
JP2007004280A (ja
Inventor
充 海老原
玲子 岡田
裕太 川名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2005180872A priority Critical patent/JP4675691B2/ja
Publication of JP2007004280A publication Critical patent/JP2007004280A/ja
Application granted granted Critical
Publication of JP4675691B2 publication Critical patent/JP4675691B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、例えば音声操作によってコンテンツ情報をユーザに提供するコンテンツ情報提供装置に関し、特に、音声操作時における認識対象語彙の判別を容易ならしめる技術に関する。
従来、音声操作によってコンテンツ情報を表示させて閲覧することができる装置が知られている。このような装置として、例えば、特許文献1は、マークアップ言語で記述されたデータを閲覧する際に、利用者の音声によって閲覧の操作を支援するデータ閲覧支援装置を開示している。このデータ閲覧支援装置は、マークアップ言語で記述されたデータの中から、リンク先を示すリンク情報を検索するリンク情報検索手段と、リンク情報に同一画面のデータ内で識別可能なマーカ文字を付加してマーカ文字付データを生成するマーカ文字付加手段と、マーカ文字付データを解析して閲覧可能な表示データを生成する表示データ生成手段と、利用者の音声を認識する音声認識手段と、認識結果がマーカ文字に対応する場合に、そのマーカ文字に関連するリンク先から、データを取得するリンク先切り替え部とを備えている。このデータ閲覧支援装置によれば、Webページやデータ放送を閲覧(視聴)する際に、利用者の音声によって、Web画面やデジタルTV画面の閲覧の操作を支援し、リンク先への画面遷移を行うことができる。
また、特許文献2は、ML(Markup Language)で記述されたファイルを表示および操作するコンテンツ操作表示装置を開示している。このコンテンツ操作表示装置においては、コンテンツ取得解析部は、HTML(Hyper Text Markup Language)ファイルからアンカーを示す文字列およびそのリンク先情報を抽出し、認識対象データリスト管理部へ送信する。音声認識処理部はユーザが発声した音声信号を入力し、その音声信号から所定の認識文字列データを認識対象データリスト管理部に登録されている認識データリストより検出し、それに対応するリンク先文字列とともに、コンテンツ操作部へ送信する。コンテンツ操作部はリンク先文字列で指定されたコンテンツの取得、解析、表示命令をコンテンツ取得解析部に対して送信する。この動作を繰り返すことにより、音声信号によりブラウザ機能を操作することが可能となる。
特開2004−334409号公報 特開2004−70731号公報
しかしながら、上述した特許文献1に開示されたデータ閲覧支援装置では、コンテンツ内の操作対象であるリンク情報にマーカ文字(例えば番号)を付加し、そのマーカ文字の発声に応答して音声認識を行ってリンク情報を特定するように構成されているが、マーカ文字自体の表示形態は一定であるので、何れのマーカ文字が現在認識可能であるかの判別が難しいという問題がある。
また、特許文献2に開示されたコンテンツ操作表示装置では、どの部分が現在認識可能であるかを指定できないため、ユーザにとって何が認識可能かを判断できず、操作性に劣るという問題がある。
この発明は、上述した問題を解消するためになされたものであり、ユーザに提示されたコンテンツ情報中の認識対象語彙を容易に判別することができる、操作性に優れたコンテンツ情報提供装置を提供することを目的とする。
この発明に係るコンテンツ情報提供装置は、発話された語彙を入力して音声データに変換する音声入力手段と、音声入力手段から受け取った音声データに基づいて発話された語彙を認識する音声認識手段と、外部からコンテンツ情報を取得するコンテンツ情報取得手段と、コンテンツ情報取得手段から送られてくるコンテンツ情報から音声認識の対象とする音声認識対象語彙を抽出する音声認識語彙抽出手段と、コンテンツ情報取得手段から送られてくるコンテンツ情報のうちの、音声認識語彙抽出手段で抽出された音声認識対象語彙に対応する音声認識対象語彙の表示形態を変更する処理を施す語彙表示形態変更手段と、語彙表示形態変更手段から送られてくる表示形態が変更された音声認識対象語彙を含むコンテンツ情報に基づきコンテンツを表示するコンテンツ情報表示手段と、音声認識用の複数の辞書とを備え、コンテンツ情報取得手段は、さらに、音声認識手段で認識された語彙に一致する音声認識対象語彙をコンテンツ情報から選択し、該選択した音声認識対象語彙に基づき新たなコンテンツ情報を取得し、語彙表示形態変更手段は、アクティブな辞書が変化した場合に、先にアクティブにされていた辞書に基づいて表示形態が変更された音声認識対象語彙が、現在アクティブにされている辞書に基づいて表示形態を変更させるべき音声認識対象語彙と異なれば、現在アクティブにされている辞書に基づいて音声認識対象語彙の表示形態を変更するように構成されている。
この発明に係るコンテンツ情報提供装置によれば、外部から取得したコンテンツ情報に含まれる音声認識対象語彙の表示形態を変更して表示するように構成したので、ユーザは、コンテンツ情報中の認識対象語彙を容易に判別することができ、操作性を向上させることができる。また、ユーザは、過去に使用していた辞書から現在使用している辞書への変化を知ることができるので、ユーザは、認識可能な語彙である音声認識対象語彙が変化しても戸惑うことがない。また、音声認識対象語彙の変更が視覚的に理解しやすくなるので、ユーザは、現在音声認識が可能な語彙を容易に理解できる。
以下、この発明の実施の形態を、図面を参照しながら詳細に説明する
実施の形態1.
図1は、この発明の実施の形態1に係るコンテンツ情報提供装置の構成を示すブロック図である。このコンテンツ情報提供装置は、コンテンツ情報取得手段11、辞書12、音声認識語彙抽出手段13、語彙情報形態変更手段14、コンテンツ情報表示手段15、音声入力手段16および音声認識手段17から構成されている。
コンテンツ情報取得手段11は、例えば音声ブラウザから構成されており、音声認識手段17から送られてくる認識結果を表す語彙に基づき、ネットワーク10を介してHTML(HyperText Markup Language)やXML(eXtensible Markup Language)形式で記述されたコンテンツ情報を取得する。ネットワーク10としては、例えばインターネットや携帯電話などの公衆回線を使用することができる。このコンテンツ情報取得手段11で取得されたコンテンツ情報は、音声認識語彙抽出手段13および語彙表示形態変更手段14に送られる。
辞書12は、例えばディスク装置に形成されており、音声認識に用いられるデータ、つまり、音声を表す音声データと語彙との対応関係を記述したデータを格納している。この辞書12は、音声認識語彙抽出手段13および音声認識手段17から参照される。
音声認識語彙抽出手段13は、辞書12を参照して、コンテンツ情報取得手段11から送られてくるコンテンツ情報に含まれる、音声認識の対象とする語彙である音声認識対象語彙を抽出する。この音声認識語彙抽出手段13で抽出された音声認識対象語彙は、語彙情報形態変更手段14に送られる。
語彙表示形態変更手段14は、コンテンツ情報取得手段11から送られてくるコンテンツ情報のうちの、音声認識語彙抽出手段13から送られてくる音声認識対象語彙に一致する語彙を音声認識対象語彙と判断し、その表示形態を変更する処理を実行する。表示形態の変更は、音声認識対象語彙の色、字体(フォント・形状)、大きさ、輝度(明度・濃度)および点滅周期の少なくとも1つを変更する処理、音声認識対象語彙の強調処理(太字・アンダーライン・斜字など)ならびに音声認識対象語彙にルビを付与する処理の少なくとも1つの処理によって行われる。
図2は、コンテンツ情報中の音声認識対象語彙の表示形態が変更された例を示す。この例では、音声認識対象語彙が太字に変更され、さらにアンダーラインが施されている。このような表示形態の変更は、HTMLのタグを追加し、または変更することによって実現される。この語彙情報形態変更手段14において表示形態が変更された音声認識対象語彙を含むコンテンツ情報は、変更コンテンツ情報としてコンテンツ情報表示手段15に送られる。
コンテンツ情報表示手段15は、例えばディスプレイ装置から構成されており、語彙表示形態変更手段14から送られてきた変更コンテンツ情報をブラウザの画像として表示する。したがって、ブラウザの画像では、音声認識対象語彙の表示形態が変更されたコンテンツが表示されてユーザに提示される。音声入力手段16は、例えばマイクロフォンから構成されており、発話された語彙を音声データに変換して音声認識手段17に送る。例えば、ユーザがブラウザの画像を参照し、この画像に表示されたコンテンツの太字とアンダーラインが施された部分を確認してその読みを発話すると、発話された音声が音声データに変換されて音声認識手段17に送られる。
音声認識手段17は、辞書12を参照して、音声認識を実行し、この音声認識の結果をコンテンツ情報取得手段11に送る。具体的には、音声認識手段17は、音声入力手段16から送られてきた音声データに対応する語彙を辞書12から検索し、この検索された語彙を音声認識の結果としてコンテンツ情報取得手段11に送る。
次に、上記のように構成される、この発明の実施の形態1に係るコンテンツ情報提供装置の動作を、図3に示すフローチャートを参照しながら説明する。
まず、ネットワーク10からコンテンツ情報が取得される(ステップST11)。すなわち、コンテンツ情報取得手段11は、音声認識手段17から送られてくる認識結果を表す語彙に基づき、ネットワーク10からコンテンツ情報を取得し、音声認識語彙抽出手段13および語彙表示形態変更手段14に送る。なお、初回のコンテンツ情報の取得時は、音声認識手段17から送られてくる認識結果に拘わらず、あらかじめ定められた特定のコンテンツ情報が取得される。
次いで、辞書12を参照してコンテンツ情報内から音声認識対象語彙が抽出される(ステップST12)。すなわち、音声認識語彙抽出手段13は、辞書12を参照して、コンテンツ情報取得手段11から送られてくるコンテンツ情報の中から音声認識対象語彙を抽出し、語彙情報形態変更手段14に送る。
次いで、音声認識対象語彙の表示形態が変更される(ステップST13)。すなわち、語彙表示形態変更手段14は、コンテンツ情報取得手段11から送られてくるコンテンツ情報のうちの、音声認識語彙抽出手段13から送られてくる音声認識対象語彙に一致する語彙を音声認識語彙と判断し、その表示形態を変更する処理を行う。これにより、例えば図2に示すような、音声認識対象語彙が太字に変更され、且つアンダーラインが施された変更コンテンツ情報が作成される。この作成された変更コンテンツ情報は、コンテンツ情報表示手段15に送られる。
次いで、変更コンテンツ情報が提示される(ステップST14)。すなわち、コンテンツ情報表示手段は、語彙情報形態変更手段14から受け取った変更コンテンツ情報をブラウザの画像として表示することによりユーザに提示する。この変更コンテンツ情報に基づき表示されたブラウザの画像を見ることにより、ユーザは、コンテンツ内の音声認識可能な語彙を理解することができる。
この状態において、ユーザがブラウザの画像に表示された音声認識対象語彙の1つを発話すると、変更コンテンツに対するユーザの音声が受理される(ステップST15)。すなわち、音声入力手段16は、ユーザによって発話された語彙を音声データに変換し、音声認識手段17に送る。音声認識手段17は、辞書12を参照して、音声入力手段16から送られてきた音声データに対して音声認識処理を実行し、認識結果として得られた語彙をコンテンツ情報取得手段11に送る。
次いで、音声認識結果をキーにコンテンツ内のリンクに遷移する(ステップST16)。すなわち、コンテンツ情報取得手段11は、音声認識手段17から送られてくる、音声認識の結果としての語彙をキーとしてコンテンツ上の一致する語彙を選択し、選択された語彙のタグに記述されているリンク先に遷移する。その後、シーケンスはステップST11に戻る。これにより、リンク先の新たなコンテンツ情報が取得される。
以上説明したように、この発明の実施の形態1に係るコンテンツ情報提供装置によれば、コンテンツの画面の音声認識対象語彙を他の語彙と異なる表示形態に変更して表示するように構成したので、ユーザは、音声認識対象語彙、つまり音声認識で操作することが可能な語彙であることを視覚的且つ直感的に理解することができる。また、音声認識対象語彙にルビを振る構成によれば、ユーザによる誤った発話を防止できる。
実施の形態2.
この発明の実施の形態2に係るコンテンツ情報提供装置は、実施の形態1に係るコンテンツ情報提供装置において行われる音声認識対象語彙の表示形態の変更に加え、該音声認識対象語彙の先頭に、例えば記号や数字といった簡単な語彙から成るボイスマークを付加するようにしたものである。ボイスマークは、以下に続く語彙が音声認識対象である旨を表す。
図4は、この発明の実施の形態2に係るコンテンツ情報提供装置の構成を示すブロック図である。このコンテンツ情報提供装置は、実施の形態1に係るコンテンツ情報提供装置の構成にボイスマーク付加手段18が追加されるとともに、音声認識語彙抽出手段13および語彙情報形態変更手段14の機能が変更されることにより構成されている。以下、実施の形態1に係るコンテンツ情報提供装置と異なる部分を中心に説明する。
音声認識語彙抽出手段13は、辞書12を参照して、コンテンツ情報取得手段11から送られてくるコンテンツ情報の中から、音声認識の対象とする語彙である音声認識対象語彙を抽出する。この音声認識語彙抽出手段13において抽出された音声認識対象語彙は、語彙情報形態変更手段14およびボイスマーク付加手段18に送られる。ボイスマーク付加手段18は、以下に続く語彙が音声認識対象語彙であることを明示するために、音声認識語彙抽出手段13から送られてくる音声認識対象語彙の先頭にボイスマークを付加する。このボイスマーク付加手段18においてボイスマークが付加された音声認識対象語彙は語彙表示形態変更手段14に送られる。
語彙情報形態変更手段14は、コンテンツ情報取得手段11から送られてくるコンテンツ情報のうちの、音声認識語彙抽出手段13から送られてくる音声認識対象語彙に一致する語彙を音声認識対象語彙と判断し、その表示形態を変更する処理を実行するとともに、ボイスマーク付加手段18から送られてくるボイスマークが付加された音声認識対象語彙に一致する語彙を、ボイスマークを付加すべき音声認識対象語彙と判断し、その音声認識対象語彙の先頭にボイスマークを付加(挿入)する処理を実行する。
ボイスマークの付加は、音声認識対象語彙の前にボイスマークの画像タグを挿入することにより実現することができる。なお、表示形態の変更は、上述した実施の形態1の場合と同様に、音声認識対象語彙の色、字体(フォント・形状)、大きさ、輝度(明度・濃度)および点滅周期の少なくとも1つを変更する処理、音声認識対象語彙の強調処理(太字・アンダーライン・斜字など)ならびに音声認識対象語彙にルビを付与する処理の少なくとも1つの処理によって行われる。この語彙情報形態変更手段14において表示形態が変更され、且つボイスマークが付加された音声認識対象語彙を含むコンテンツ情報は、変更コンテンツ情報としてコンテンツ情報表示手段15に送られる。
次に、上記のように構成される、この発明の実施の形態1に係るコンテンツ情報提供装置の動作を、図6に示すフローチャートを参照しながら説明する。なお、上述した実施の形態1に係るコンテンツ情報提供装置と同一の処理ステップには、実施の形態1と同一の符号を付して説明を簡略化する。
まず、ネットワーク10からコンテンツ情報が取得される(ステップST11)。次いで、辞書12を参照してコンテンツ情報内から音声認識対象語彙が抽出される(ステップST12)。次いで、音声認識対象語彙の表示形態の変更(ステップST13)および音声認識対象語彙に対するボイスマークの付加が実行される(ステップST17)。
すなわち、語彙情報形態変更手段14は、コンテンツ情報取得手段11から送られてくるコンテンツ情報のうちの、音声認識語彙抽出手段13から送られてくる音声認識対象語彙に一致する語彙を音声認識対象語彙と判断し、その表示形態を変更する処理を実行するとともに、ボイスマーク付加手段18から送られてくるボイスマークが付加された音声認識対象語彙に一致する語彙を、ボイスマークを付加すべき音声認識対象語彙と判断し、その音声認識対象語彙の先頭にボイスマークを付加(挿入)する処理を実行する。これにより、例えば図5に示すような、音声認識対象語彙が太字に変更され、且つアンダーラインが施されるとともに、その音声認識対象語彙の前にボイスマークが付加された変更コンテンツ情報が作成される。この作成された変更コンテンツ情報は、コンテンツ情報表示手段15に送られる。
次いで、変更コンテンツ情報が提示される(ステップST14)。この状態において、ユーザがブラウザの画像に表示された音声認識対象語彙の1つを発話すると、変更コンテンツに対するユーザの音声が受理される(ステップST15)。次いで、音声認識結果をキーにコンテンツ内のリンクに遷移する(ステップST16)。その後、シーケンスはステップST11に戻り、リンク先の新たなコンテンツ情報が取得される。
以上説明したように、この発明の実施の形態2に係るコンテンツ情報提供装置によれば、コンテンツの画面の音声認識対象語彙を他の語彙と異なる表示形態に変更するとともに、音声認識対象語彙の前にボイスマークを付加して表示するように構成したので、ユーザは、音声認識対象語彙、つまり音声認識で操作できる語彙であることを、上述した実施の形態1に係るコンテンツ情報提供装置よりもさらに明確に理解することができる。
なお、上述した実施の形態2に係るコンテンツ情報提供装置では、ユーザが、ブラウザの画像に表示された音声認識対象語彙を発話することにより、その音声認識対象語彙に対応する新たなコンテンツ情報をネットワークから取得するように構成したが、ユーザはボイスマーク付加手段18によって付加されたボイスマークの読みを発話し、音声認識手段17は、この発話に応じて音声入力手段16から送られてくる音声データに基づいて、発話されたボイスマークの読みを認識し、さらに、あらかじめ用意されたボイスマークの読みと語彙とを対応付けたテーブルを参照することにより、ボイスマークの読みに対応する語彙を出力するように構成できる。この構成によれば、ボイスマークとして使用される数字や記号といった簡単な語彙が音声認識対象とされるので、ユーザは、音声認識対象語彙の箇所を理解しやすくなるとともに、音声認識手段17による認識率を向上させることができる。
実施の形態3.
この発明の実施の形態3に係るコンテンツ情報提供装置は、実施の形態2に係るコンテンツ情報提供装置における辞書を複数の辞書によって構成し、アクティブ(認識処理が可能な状態)な辞書の変更に応じて音声認識対象語彙の表示形態を変更するようにしたものである。
図7は、この発明の実施の形態3に係るコンテンツ情報提供装置の構成を示すブロック図である。このコンテンツ情報提供装置は、実施の形態2に係るコンテンツ情報提供装置の辞書12の代わりに、音声認識用の第1辞書12a、第2辞書12bおよび第3辞書12cが設けられるとともに、音声認識語彙抽出手段13、語彙情報形態変更手段14および音声認識手段17の機能が変更されることにより構成されている。以下、実施の形態2に係るコンテンツ情報提供装置と異なる部分を中心に説明する。
このコンテンツ情報提供装置では、第1辞書12a、第2辞書12bおよび第3辞書12cの中の1つがアクティブにされる、つまり認識処理が可能な状態にされる。そして、アクティブにされた辞書が、音声認識語彙抽出手段13および音声認識手段17によって参照される。各辞書の内容は、取り扱う語彙の種類が異なることを除けば、実施の形態1に係るコンテンツ情報提供装置を構成する辞書12と同じである。
音声認識語彙抽出手段13は、第1辞書12a、第2辞書12bおよび第3辞書12cの中で現在どの辞書がアクティブであるかを確認し、アクティブな辞書を参照して、コンテンツ情報取得手段11から送られてくるコンテンツ情報に含まれる音声認識対象語彙を抽出し、語彙情報形態変更手段14およびボイスマーク付加手段18に送る。
音声認識手段17は、第1辞書12a、第2辞書12bおよび第3辞書12cの中から現在アクティブな辞書を選択し、この選択されたアクティブな辞書を参照して、音声認識を実行し、この音声認識の結果をコンテンツ情報取得手段11に送る。具体的には、音声認識手段17は、音声入力手段16から送られてきた音声データに対応する語彙をアクティブな辞書から検索し、この検索された語彙を音声認識の結果としてコンテンツ情報取得手段11に送る。
語彙表示形態変更手段14は、アクティブな辞書が変化した場合に、音声認識語彙抽出手段13から送られてくる音声認識対象語彙の変化の前後における差異を調べ、差異が生じた場合は、現在アクティブな辞書を参照して抽出される音声認識対象語彙の表示形態を変更する。例えば、ある辞書を参照して図5に示すような音声認識対象語彙が表示されている状態からアクティブな辞書が変化した場合、図8に示すように、現在アクティブな辞書を参照して抽出された音声認識対象語彙は、例えばネガとポジを反転させて強調表示される。
以上説明したように、この発明の実施の形態3に係るコンテンツ情報提供装置によれば、ユーザは、過去に使用していた辞書から現在使用している辞書への変化を知ることができるので、ユーザは、認識可能な語彙である音声認識対象語彙が変化しても戸惑うことがない。また、音声認識対象語彙の変更が視覚的に理解しやすくなるので、ユーザは、現在音声認識が可能な語彙を容易に理解できる。
実施の形態4.
この発明の実施の形態4に係るコンテンツ情報提供装置は、実施の形態2に係るコンテンツ情報提供装置において、音声の認識率または認識頻度に応じて音声認識対象語彙の表示形態を変更するようにしたものである。
図9は、この発明の実施の形態4に係るコンテンツ情報提供装置の構成を示すブロック図である。このコンテンツ情報提供装置は、実施の形態2に係るコンテンツ情報提供装置において、音声認識手段17から語彙表示形態変更手段14への経路が追加されるとともに、語彙情報形態変更手段14および音声認識手段17の機能が変更されることにより構成されている。以下、実施の形態2に係るコンテンツ情報提供装置と異なる部分を中心に説明する。
音声認識手段17は、実施の形態1と同様に、辞書12を参照して、音声認識を実行し、この音声認識の結果をコンテンツ情報取得手段11に送る他に、音声認識が成功したかどうかを表す音声認識成否情報を語彙表示形態変更手段14に送る。
語彙表示形態変更手段14は、音声認識手段17から音声認識成否情報を受け取り、語彙毎の認識頻度を集計する。そして、認識頻度毎に語彙の表示形態の変更方法を変える。例えば、語彙表示形態変更手段14は、音声認識対象語彙のうち、認識頻度が0の語彙は黒太字、認識頻度が1の語彙は青太字、認識頻度が2〜10の語彙は緑太字、認識頻度が10〜50の語彙は赤太字、認識頻度が50〜100の語彙は大フォントの赤太字、認識頻度が100以上の語彙は大フォントの赤太字を点滅表示させるなどの処理を行う。
以上説明したように、この発明の実施の形態4に係るコンテンツ情報提供装置によれば、ユーザが過去に好んで使用した音声認識対象語彙が強調表示されるので、ユーザの嗜好に応じたコンテンツ表示が可能となる。すなわち、ユーザは、より認識したいと思う語彙、または認識しやすい語彙の提示をわかりやすい状態で受けることができるので、音声認識に対して多くの心理的負荷を感じることなく音声操作を行うことができる。
なお、語彙表示形態変更手段14は、音声認識後におけるユーザからのリジェクト指令も記録することにより音声認識手段17から音声認識成否情報を受け取った回数に対する外部からリジェクト指令を受け取らなかった回数の割合を認識率と見なしてこれを算出し、この算出した認識率に応じて表示形態の変更方法を変えるように構成することもできる。この構成によれば、認識率に応じてコンテンツの表示内容が変更されるので、ユーザは、認識しやすい語彙をより認知しやすくなる。
実施の形態5.
この発明の実施の形態5に係るコンテンツ情報提供装置は、実施の形態2に係るコンテンツ情報提供装置において、ユーザ情報として登録されている音声認識成否情報に応じて音声認識対象語彙の表示形態を変更するようにしたものである。
図10は、この発明の実施の形態5に係るコンテンツ情報提供装置の構成を示すブロック図である。このコンテンツ情報提供装置は、実施の形態2に係るコンテンツ情報提供装置に登録ユーザ情報メモリ19が追加されるとともに、語彙情報形態変更手段14および音声認識手段17の機能が変更されることにより構成されている。以下、実施の形態2に係るコンテンツ情報提供装置と異なる部分を中心に説明する。
音声認識手段17は、実施の形態1と同様に、辞書12を参照して、音声認識を実行し、この音声認識の結果をコンテンツ情報取得手段11に送る他に、音声認識の成否を表す音声認識成否情報を登録ユーザ情報メモリ19に送る。登録ユーザ情報メモリ19は、外部からユーザ指定情報によって指定されたユーザ毎に、音声認識手段17からの音声認識成否情報を記憶する。この登録ユーザ情報メモリ19の内容は語彙表示形態変更手段14によって参照される。
語彙表示形態変更手段14は、登録ユーザ情報メモリ19から現在発話しているユーザの音声認識成否情報を読み出し、上述した実施の形態4に係るコンテンツ情報提供装置と同様に、音声認識成否情報に含まれる認識頻度および/または認識率を計算する。そして、この計算結果により得られた認識頻度および/または認識率に応じて音声認識対象語彙の表示形態の変更方法を変える。
以上説明したように、この発明の実施の形態5に係るコンテンツ情報提供装置によれば、ユーザ別に、各ユーザがより認識したいと思う語彙または各ユーザが認識しやすい語彙を、よりわかりやすく提示することが可能となり、ユーザの音声認識装置への習熟度や、話者別の認識傾向を考慮したコンテンツ情報の提示が可能となる。
この発明の実施の形態1に係るコンテンツ情報提供装置の構成を示すブロック図である。 この発明の実施の形態1に係るコンテンツ情報提供装置においてコンテンツ情報中の音声認識対象語彙の表示形態が変更された例を示す図である。 この発明の実施の形態1に係るコンテンツ情報提供装置の動作を示すフローチャートである。 この発明の実施の形態2に係るコンテンツ情報提供装置の構成を示すブロック図である。 この発明の実施の形態2に係るコンテンツ情報提供装置においてコンテンツ情報中の音声認識対象語彙の表示形態が変更された例を示す図である。 この発明の実施の形態2に係るコンテンツ情報提供装置の動作を示すフローチャートである。 この発明の実施の形態3に係るコンテンツ情報提供装置の構成を示すブロック図である。 この発明の実施の形態3に係るコンテンツ情報提供装置においてコンテンツ情報中の音声認識対象語彙の表示形態が変更された例を示す図である。 この発明の実施の形態4に係るコンテンツ情報提供装置の構成を示すブロック図である。 この発明の実施の形態5に係るコンテンツ情報提供装置の構成を示すブロック図である。
符号の説明
11 コンテンツ情報取得手段、12 辞書、12a〜12c 第1〜第3辞書、13 音声認識語彙抽出手段、14 語彙表示形態変更手段、15 コンテンツ情報表示手段、16 音声入力手段、17 音声認識手段、18 ボイスマーク付加手段、19 登録ユーザ情報メモリ。

Claims (7)

  1. 発話された語彙を入力して音声データに変換する音声入力手段と、
    前記音声入力手段から受け取った音声データに基づいて発話された語彙を認識する音声認識手段と、
    外部からコンテンツ情報を取得するコンテンツ情報取得手段と、
    前記コンテンツ情報取得手段から送られてくるコンテンツ情報から音声認識の対象とする音声認識対象語彙を抽出する音声認識語彙抽出手段と、
    前記コンテンツ情報取得手段から送られてくるコンテンツ情報のうちの、前記音声認識語彙抽出手段で抽出された音声認識対象語彙に対応する音声認識対象語彙の表示形態を変更する処理を施す語彙表示形態変更手段と、
    語彙表示形態変更手段から送られてくる表示形態が変更された音声認識対象語彙を含むコンテンツ情報に基づきコンテンツを表示するコンテンツ情報表示手段と
    音声認識用の複数の辞書とを備え、
    前記コンテンツ情報取得手段は、さらに、前記音声認識手段で認識された語彙に一致する音声認識対象語彙をコンテンツ情報から選択し、該選択した音声認識対象語彙に基づき新たなコンテンツ情報を取得し、
    前記語彙表示形態変更手段は、
    アクティブな辞書が変化した場合に、先にアクティブにされていた辞書に基づいて表示形態が変更された音声認識対象語彙が、現在アクティブにされている辞書に基づいて表示形態を変更させるべき音声認識対象語彙と異なれば、現在アクティブにされている辞書に基づいて音声認識対象語彙の表示形態を変更する
    ことを特徴とするコンテンツ情報提供装置。
  2. 音声認識語彙抽出手段で抽出された音声認識対象語彙の先頭に、以下に続く語彙が音声認識対象である旨を表すボイスマークを付加するボイスマーク付加手段を備え、
    語彙表示形態変更手段は、コンテンツ情報取得手段で取得されたコンテンツ情報のうちの、音声認識語彙抽出手段で抽出された音声認識対象語彙に対応する音声認識対象語彙の表示形態を変更する処理を施し、且つ前記ボイスマーク付加手段から送られてくる音声認識対象語彙に付加されたボイスマークを前記表示形態が変更された音声認識対象語彙の先頭に付加する処理を施す
    ことを特徴とする請求項1記載のコンテンツ情報提供装置。
  3. 音声認識手段は、音声入力手段から受け取った音声データに基づいて、発話されたボイスマークの読みを認識し、該認識した読みに対応する語彙を出力する
    ことを特徴とする請求項2記載のコンテンツ情報提供装置。
  4. 語彙表示形態変更手段は、
    音声認識対象語彙の色、字体、大きさ、輝度および点滅周期の少なくとも1つを変更する処理、音声認識対象語彙の強調処理ならびに音声認識対象語彙にルビを付与する処理の少なくとも1つの処理を行う
    ことを特徴とする請求項1から請求項3のうちのいずれか1項記載のコンテンツ情報提供装置。
  5. 音声認識手段は、音声入力手段から受け取った音声データに基づく音声認識の成否を表す音声認識成否情報を出力し、
    語彙表示形態変更手段は、
    前記音声認識手段から受け取った音声認識成否情報に基づき認識率を算出し、該算出した認識率に応じて、コンテンツ情報取得手段から送られてくるコンテンツ情報に含まれる音声認識対象語彙の表示形態を変更する処理を施す
    ことを特徴とする請求項1から請求項3のうちのいずれか1項記載のコンテンツ情報提供装置。
  6. 音声認識手段は、音声入力手段から受け取った音声データに基づく音声認識の成否を表す音声認識成否情報を出力し、
    語彙表示形態変更手段は、
    前記音声認識手段から受け取った音声認識成否情報に基づき音声認識が成功した認識頻度を算出し、該算出した認識頻度に応じて、コンテンツ情報取得手段から送られてくるコンテンツ情報に含まれる音声認識対象語彙の表示形態を変更する処理を施す
    ことを特徴とする請求項1から請求項3のうちのいずれか1項記載のコンテンツ情報提供装置。
  7. 音声認識手段から受け取った音声認識成否情報をユーザ毎に記憶する登録ユーザ情報メモリを備え、
    語彙表示形態変更手段は、
    前記登録ユーザ情報メモリから読み出した音声認識成否情報に応じて、コンテンツ情報取得手段から送られてくるコンテンツ情報に含まれる音声認識対象語彙の表示形態を変更する処理を施す
    ことを特徴とする請求項または請求項6記載のコンテンツ情報提供装置。
JP2005180872A 2005-06-21 2005-06-21 コンテンツ情報提供装置 Expired - Fee Related JP4675691B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005180872A JP4675691B2 (ja) 2005-06-21 2005-06-21 コンテンツ情報提供装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005180872A JP4675691B2 (ja) 2005-06-21 2005-06-21 コンテンツ情報提供装置

Publications (2)

Publication Number Publication Date
JP2007004280A JP2007004280A (ja) 2007-01-11
JP4675691B2 true JP4675691B2 (ja) 2011-04-27

Family

ID=37689872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005180872A Expired - Fee Related JP4675691B2 (ja) 2005-06-21 2005-06-21 コンテンツ情報提供装置

Country Status (1)

Country Link
JP (1) JP4675691B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265279A (ja) 2008-04-23 2009-11-12 Sony Ericsson Mobilecommunications Japan Inc 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム
KR101897492B1 (ko) * 2011-06-07 2018-09-13 삼성전자주식회사 디스플레이 장치 및 이의 하이퍼링크 실행 방법 및 음성 인식 방법
US9183832B2 (en) * 2011-06-07 2015-11-10 Samsung Electronics Co., Ltd. Display apparatus and method for executing link and method for recognizing voice thereof
JP6229287B2 (ja) * 2013-04-03 2017-11-15 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
WO2016084129A1 (ja) 2014-11-25 2016-06-02 三菱電機株式会社 情報提供システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695828A (ja) * 1992-09-14 1994-04-08 Toshiba Corp 音声入力システム
JPH1125098A (ja) * 1997-06-24 1999-01-29 Internatl Business Mach Corp <Ibm> 情報処理装置、リンク先ファイルの取得方法および記憶媒体
JP2001109611A (ja) * 1999-10-07 2001-04-20 Nippon Telegr & Teleph Corp <Ntt> 音声入力支援装置、音声入力支援方法及び音声入力支援プログラムを記憶した記憶媒体
JP2003271195A (ja) * 2002-03-14 2003-09-25 Omron Corp 対話システムおよび対話制御装置
JP2004334409A (ja) * 2003-05-02 2004-11-25 Nippon Hoso Kyokai <Nhk> データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695828A (ja) * 1992-09-14 1994-04-08 Toshiba Corp 音声入力システム
JPH1125098A (ja) * 1997-06-24 1999-01-29 Internatl Business Mach Corp <Ibm> 情報処理装置、リンク先ファイルの取得方法および記憶媒体
JP2001109611A (ja) * 1999-10-07 2001-04-20 Nippon Telegr & Teleph Corp <Ntt> 音声入力支援装置、音声入力支援方法及び音声入力支援プログラムを記憶した記憶媒体
JP2003271195A (ja) * 2002-03-14 2003-09-25 Omron Corp 対話システムおよび対話制御装置
JP2004334409A (ja) * 2003-05-02 2004-11-25 Nippon Hoso Kyokai <Nhk> データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム

Also Published As

Publication number Publication date
JP2007004280A (ja) 2007-01-11

Similar Documents

Publication Publication Date Title
KR101897492B1 (ko) 디스플레이 장치 및 이의 하이퍼링크 실행 방법 및 음성 인식 방법
JP2006244296A (ja) 読み上げ用ファイル作成装置、リンク読み上げ装置、及びプログラム
US20150179173A1 (en) Communication support apparatus, communication support method, and computer program product
US6286014B1 (en) Method and apparatus for acquiring a file to be linked
JPH1078952A (ja) 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
JP2002125047A5 (ja)
JP4675691B2 (ja) コンテンツ情報提供装置
JP2009145965A (ja) ブラウザプログラムおよび情報処理装置
EP2682931B1 (en) Method and apparatus for recording and playing user voice in mobile terminal
CN110781649A (zh) 一种字幕编辑方法、装置及计算机存储介质、电子设备
JP4100243B2 (ja) 映像情報を用いた音声認識装置及び方法
JP4157418B2 (ja) データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム
JP7200533B2 (ja) 情報処理装置およびプログラム
JP5591428B2 (ja) 自動記録装置
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
JP6022138B2 (ja) 情報提供システム
JPH07181992A (ja) 文書読上げ装置及び方法
US7353175B2 (en) Apparatus, method, and program for speech synthesis with capability of providing word meaning immediately upon request by a user
JP2016212374A (ja) 音声出力装置、音声出力方法、およびプログラム
JP2003345486A (ja) ユーザ補助装置、ユーザ補助方法、ユーザ補助プログラムおよびユーザ補助プログラムを記録した記録媒体
JPH10326178A (ja) 情報処理装置及びプログラム記憶媒体
CN110782899A (zh) 信息处理装置、存储介质及信息处理方法
JP2011198322A (ja) 遠隔支援装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070720

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071005

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110126

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4675691

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees