JP6073540B2

JP6073540B2 - 情報提供システム

Info

Publication number: JP6073540B2
Application number: JP2016561111A
Authority: JP
Inventors: 直哉馬場; 友紀古本; 匠武井; 辰彦斉藤; 政信大沢
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-11-25
Filing date: 2014-11-25
Publication date: 2017-02-01
Anticipated expiration: 2034-11-25
Also published as: DE112014007207T5; US20170309269A1; CN107004404B; DE112014007207B4; JPWO2016084129A1; CN107004404A; WO2016084129A1

Description

この発明は、テキストを読み上げることによりユーザに情報を提供する情報提供システムに関するものである。

従来、Ｗｅｂ等の情報源からテキストを取得しユーザに提示する情報提供装置の中には、提示したテキストに含まれるキーワードをユーザが発話することで、当該キーワードを音声認識し、当該キーワードに対応する情報をさらに取得し提示するものがある。
このような音声認識を利用した情報提供装置では、テキスト中のどの語が音声認識対象であるかをユーザに明示する必要がある。

そこで、音声認識対象語をユーザに明示する手段として、特許文献１には、Ｗｅｂから取得するハイパーテキスト情報のうち、リンク先ファイルの説明文の少なくとも一部（音声認識対象となる語）を強調して画面に表示することが記載されている。同様に、特許文献２には、外部から取得したコンテンツ情報のうち、音声認識対象となる語の表示形態を変更して画面に表示することが記載されている。

特開平１１−２５０９８号公報特開２００７−４２８０号公報

車載機器のような画面が小さい装置では、テキストを画面に表示するのではなく、読み上げることによってユーザに提示する場合がある。その場合、上記特許文献１，２のような方法を適用できない。
また、画面が小さいと表示可能な文字数にも限りがあるので、テキストを画面に表示するとしても、テキストすべてを表示できない場合がある。その場合、上記特許文献１，２のような方法では、文字数制限により音声認識対象語が画面に表示されず、音声認識対象語をユーザに明示できない可能性がある。

この発明は、上記のような課題を解決するためになされたもので、読み上げ用のテキストを画面に表示しない、あるいは画面に表示可能な文字数が限られている場合でも、当該テキストに含まれる音声認識対象語をユーザに明示することを目的とする。

この発明に係る情報提供システムは、テキストに含まれる単語または単語列のうち、当該単語または単語列に関する情報を情報源から取得できるものを音声認識対象語として抽出する抽出部と、テキストを読み上げる音声の合成に用いる情報および抽出部が抽出した音声認識対象語を出力する合成制御部と、合成制御部から受け取った情報を用いてテキストを読み上げる音声合成部と、音声合成部が音声認識対象語を読み上げるタイミングに合わせて、合成制御部から受け取った音声認識対象語を表示するよう表示部に指示する表示指示部とを備えるものである。

この発明によれば、テキストを読み上げる際、音声認識対象語を読み上げるタイミングで表示するようにしたので、読み上げ用のテキストを画面に表示しない、あるいは画面に表示可能な文字数が限られている場合でも、当該テキストに含まれる音声認識対象語をユーザに明示することができる。

この発明の実施の形態１に係る情報提供システムとその周辺機器の概略を説明する図である。実施の形態１のディスプレイの表示例を示す図である。実施の形態１に係る情報提供システムとその周辺機器の主なハードウエア構成を示す概略図である。実施の形態１に係る情報提供システムの構成例を示すブロック図である。実施の形態１に係る情報提供システムの情報処理制御部の動作を示すフローチャートである。実施の形態１においてユーザが音声認識対象語を発話した場合の情報提供システムの動作の一例を示すフローチャートである。この発明の実施の形態２に係る情報提供システムの構成例を示すブロック図である。実施の形態２に係る情報提供システムの情報処理制御部の動作を示すフローチャートである。この発明の実施の形態３に係る情報提供システムの構成例を示すブロック図である。実施の形態３に係る情報提供システムの情報処理制御部の動作を示すフローチャートである。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
なお、以下の実施の形態では、この発明に係る情報提供システムを車両等の移動体用のナビゲーション装置に適用した場合を例に挙げて説明するが、ナビゲーション装置の他、ＰＣ（パーソナルコンピュータ）、タブレットＰＣ、およびスマートフォン等の携帯情報端末に適用してもよい。

実施の形態１．
図１は、この発明の実施の形態１に係る情報提供システム１とその周辺機器の概略を説明する図である。
情報提供システム１は、ネットワーク２を介してＷｅｂサーバ３などの外部情報源から読み上げテキストを取得し、取得した読み上げテキストを音声出力するよう、スピーカ５に対して指示する。加えて、情報提供システム１は、読み上げテキストを表示するよう、ディスプレイ（表示部）４に対して指示してもよい。

また、情報提供システム１は、読み上げテキストに含まれる音声認識対象となる単語または単語列を読み上げるタイミングで、当該単語または単語列をディスプレイ４に表示するよう指示する。以下では、単語または単語列を「単語列等」と呼び、音声認識対象となる単語列等を「音声認識対象語」と呼ぶ。

ユーザにより音声認識対象語が発話されると、情報提供システム１は、マイク６を介して発話音声を取得して認識し、認識した単語列等に関連する情報を音声出力するよう、スピーカ５に対して指示する。以下では、単語列等に関連する情報を「付加情報」と呼ぶ。

図２は、ディスプレイ４の表示例である。ここでは、読み上げテキストを「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」とし、音声認識対象語を「首相」「消費税」「デフレ」として説明する。
ディスプレイ４の表示領域Ａには、自車位置および地図などを示すナビゲーション画面が表示されているため、読み上げテキストを表示するための表示領域Ｂが狭い。そのため、読み上げテキスト全文を表示領域Ｂに一度に表示できない。そこで、情報提供システム１は、読み上げテキストの一部のみを表示させ、全文は音声出力させる。
あるいは、表示領域Ｂを確保できない場合、情報提供システム１は、読み上げテキストを表示せず、音声出力するだけでもよい。

情報提供システム１は、音声認識対象語である「首相」「消費税」「デフレ」を、それぞれの読み上げのタイミングでディスプレイ４の表示領域Ｃ１，Ｃ２，Ｃ３に表示させる。そして、ユーザにより例えば「消費税」と発話されると、情報提供システム１は、「消費税」に関する付加情報（例えば、「消費税」の意味または詳細説明等）を、スピーカ５から音声出力する等してユーザに提示する。なお、この例では、３つの表示領域を用意したが、表示領域は３つに限定しなくてもよい。

図３は、実施の形態１における情報提供システム１とその周辺機器の主なハードウエア構成を示す概略図である。バスには、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０２、ＲＡＭ（ＲａｎｄａｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３、入力装置１０４、通信装置１０５、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０６、出力装置１０７が接続されている。

ＣＰＵ１０１は、ＲＯＭ１０２またはＨＤＤ１０６に記憶された各種プログラムを読みだして実行することにより、各ハードウエアと協働して情報提供システム１の各種機能を実現する。ＣＰＵ１０１が実現する情報提供システム１の各種機能については、後述の図４を用いて説明する。
ＲＡＭ１０３は、プログラム実行時に使用するメモリである。
入力装置１０４は、ユーザ入力を受け付けるものであり、マイク、リモートコントローラ等の操作デバイス、またはタッチセンサ等である。図１では、入力装置１０４の例として、マイク６を図示している。
通信装置１０５は、ネットワーク２を介して通信するものである。
ＨＤＤ１０６は、外部記憶装置の一例である。外部記憶装置としては、ＨＤＤの他に、ＣＤもしくはＤＶＤ、またはＵＳＢメモリおよびＳＤカード等のフラッシュメモリを採用したストレージ等が含まれる。
出力装置１０７は、情報をユーザに提示するものであり、スピーカ、液晶ディスプレイ、または有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）等である。図１では、出力装置１０７の例として、ディスプレイ４およびスピーカ５を図示している。

図４は、実施の形態１に係る情報提供システム１の構成例を示すブロック図である。
この情報提供システム１は、取得部１０、抽出部１２、合成制御部１３、音声合成部１４、表示指示部１５、辞書生成部１６、認識辞書１７および音声認識部１８を備えている。これらの機能は、ＣＰＵ１０１がプログラムを実行することにより実現される。
抽出部１２、合成制御部１３、音声合成部１４および表示指示部１５は、情報処理制御部１１を構成している。

なお、情報提供システム１を構成する取得部１０、抽出部１２、合成制御部１３、音声合成部１４、表示指示部１５、辞書生成部１６、認識辞書１７および音声認識部１８は、図４のように１つの装置内に集約されていてもよいし、あるいは、ネットワーク上のサーバ、スマートフォン等の携帯情報端末および車載器に分散されていてもよい。

取得部１０は、ネットワーク２を介してＷｅｂサーバ３から、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）またはＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）形式で記述されたコンテンツを取得する。そして、取得部１０は、取得したコンテンツを解析し、ユーザに提示すべき読み上げテキストを取得する。
なお、ネットワーク２としては、例えば、インターネットおよび携帯電話等の公衆回線を使用することができる。

抽出部１２は、取得部１０により取得された読み上げテキストを解析して単語列等に分割する。分割の方法は、例えば形態素解析のような公知の技術を用いればよいため、説明を省略する。なお、分割の単位は形態素に限定されるものではない。

また、抽出部１２は、分割した単語列等の中から音声認識対象語を抽出する。音声認識対象語は、読み上げテキストに含まれる単語列等であって、当該単語列等に関する付加情報（例えば、単語列等の意味または詳細説明）を情報源から取得できるものである。
なお、付加情報の情報源は、ネットワーク２上のＷｅｂサーバ３のような外部情報源であってもよいし、情報提供システム１が備えるデータベース（図示せず）等であってもよい。抽出部１２は、取得部１０を介してネットワーク２上の外部情報源に接続してもよいし、取得部１０を介さず直接接続してもよい。

さらに、抽出部１２は、読み上げテキストの先頭から、当該読み上げテキストにおけるそれぞれの音声認識対象語までのモーラ数を決定する。
上記の「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」という読み上げテキストの場合、読み上げテキストの先頭からのモーラ数は、「首相」が「１」、「消費税」が「４」、「デフレ」が「３３」となる。

合成制御部１３は、読み上げテキストの全文に対して音声合成の際に必要なアクセント等の情報（以下、「アクセント情報」と記載する）を決定する。そして、合成制御部１３は、決定したアクセント情報を、音声合成部１４に対して出力する。
なお、アクセント情報の決定方法については公知の技術を用いればよいため説明を省略する。

また、合成制御部１３は、抽出部１２により決定された音声認識対象語ごとに、読み上げテキストの先頭から音声認識対象語までのモーラ数に基づいて読み上げ開始時間を算出する。例えば、合成制御部１３で１モーラあたりの読み上げ速度が既定されており、音声認識対象語までのモーラ数を当該速度で割ることにより、当該音声認識対象語の読み上げ開始時間を算出する。そして、合成制御部１３は、読み上げテキストのアクセント情報を音声合成部１４へ出力開始した時点から計時し、推測した読み上げ開始時間になったら、音声認識対象語を表示指示部１５に対して出力する。音声認識対象語を読み上げるタイミングに合わせて、当該音声認識対象語を表示することが可能である。
なお、音声合成部１４へ出力開始した時点から計時としたが、後述するように、音声合成部１４が合成音声を出力するようスピーカ５に対して指示した時点から計時するとしてもよい。

音声合成部１４は、合成制御部１３から出力されたアクセント情報に基づいて合成音声を生成し、合成音声を出力するようスピーカ５に対して指示する。
なお、音声合成の方法については公知の技術を用いればよいため説明を省略する。

表示指示部１５は、合成制御部１３から出力された音声認識対象語を表示するよう、ディスプレイ４に対して指示する。

辞書生成部１６は、抽出部１２により抽出された音声認識対象語を用いて、認識辞書１７を生成する。

音声認識部１８は、マイク６により集音された音声を、認識辞書１７を参照して認識し、認識結果文字列を出力する。
なお、音声認識の方法については公知の技術を用いればよいため説明を省略する。

次に、図５および図６に示すフローチャートと具体例を用いて、実施の形態１の情報提供システム１の動作を説明する。

初めに、図５のフローチャートを用いて、情報処理制御部１１の動作を説明する。
ここでは、読み上げテキストを「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」とし、音声認識対象語を「首相」「消費税」「デフレ」として説明する。

まず、抽出部１２は、上述の読み上げテキストを単語列等の単位に分割する（ステップＳＴ００１）。ここでは、抽出部１２が形態素解析を行って、上述した読み上げテキストを「／首相／、／消費税／増税／判断／、／有識者／議論／を／開始／方針／『／デフレ／脱却／が／困難／なら／考慮／』／」に分割する。
続いて、抽出部１２は、分割した単語列等から音声認識対象語「首相」「消費税」「デフレ」を抽出する（ステップＳＴ００２）。

ここで、辞書生成部１６は、抽出部１２により抽出された３つの音声認識対象語「首相」「消費税」「デフレ」に基づいて、認識辞書１７を生成する（ステップＳＴ００３）。

続いて、合成制御部１３は、読み上げテキストの先頭から音声認識対象語「首相」までのモーラ数と読み上げ速度を用いて、読み上げテキストを読み上げる際の「首相」の読み上げ開始時間を算出する（ステップＳＴ００４）。合成制御部１３は同様に、音声認識対象語「消費税」「デフレ」までのモーラ数に基づいて読み上げ開始時間をそれぞれ算出する。
また、合成制御部１３は、読み上げテキストの音声合成に必要なアクセント情報を生成する（ステップＳＴ００５）。

以下で説明するステップＳＴ００６のフローと、ステップＳＴ００７〜ＳＴ００９のフローは、並列に実行される。
合成制御部１３が、読み上げテキストのアクセント情報を音声合成部１４へ出力し、音声合成部１４が、読み上げテキストの合成音声を生成してスピーカ５に出力し、読み上げを開始する（ステップＳＴ００６）。

ステップＳＴ００６と並行して、合成制御部１３は、読み上げテキストの先頭からのモーラ数が小さい音声認識対象語から順に、読み上げ開始時間が経過したか否かを判定する（ステップＳＴ００７）。合成制御部１３は、読み上げテキストの先頭からのモーラ数が一番小さい音声認識対象語「首相」の読み上げ開始時間になると（ステップＳＴ００７“ＹＥＳ”）、当該音声認識対象語「首相」を表示指示部１５に出力する（ステップＳＴ００８）。表示指示部１５は、ディスプレイ４に指示して、音声認識対象語「首相」を表示させる。

続いて、合成制御部１３は、３つの音声認識対象語をすべて表示したか否かを判定する（ステップＳＴ００９）。現段階では音声認識対象語「消費税」「デフレ」が残っているので（ステップＳＴ００９“ＮＯ”）、合成制御部１３は、ステップＳＴ００７〜ＳＴ００９をもう２回繰り返す。合成制御部１３は、音声認識対象語をすべて表示し終えると（ステップＳＴ００９“ＹＥＳ”）、一連の処理を終了する。

これにより、図２において、読み上げテキスト「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」の「首相」が読み上げられるタイミングで、表示領域Ｃ１に「首相」が表示され、「消費税」が読み上げられるタイミングで表示領域Ｃ２に「消費税」が表示され、「デフレ」が読み上げられるタイミングで表示領域Ｃ３に「デフレ」が表示される。
ユーザは、表示領域Ｃ１〜Ｃ３に表示された音声認識対象語を発話することで、その語に関連する付加情報の提供を受けることができる。付加情報の提供については図６で詳述する。

なお、表示指示部１５は、音声認識対象語をディスプレイ４に表示する際、強調表示するよう指示してもよい。音声認識対象語の強調表示は、目立つ字体にする、文字を大きくする、目立つ文字色にする、表示領域Ｃ１〜Ｃ３を点滅させる、文字に記号（例えば、“”）を付加するといった方法がある。また、音声認識対象語の表示前後で、表示領域Ｃ１〜Ｃ３の色（つまり、背景色）を変更する、輝度を変更するといった方法でもよい。これらの強調表示を組み合わせてもよい。

さらに、表示指示部１５は、音声認識対象語をディスプレイ４に表示する際、表示領域Ｃ１〜Ｃ３を、音声認識対象語を選択するソフトウエアキーとするよう指示してもよい。ソフトウエアキーは、ユーザが入力装置１０４を用いて選択操作可能なものであればよく、例えば、タッチセンサによって選択可能なタッチボタン、または操作デバイスによって選択可能なボタン等とする。

次に、図６のフローチャートを用いて、音声認識対象語をユーザが発話した場合の情報提供システム１の動作を説明する。
音声認識部１８は、ユーザが発話した音声をマイク６を介して取得し、認識辞書１７を参照して認識し、認識結果文字列を出力する（ステップＳＴ１０１）。続いて、取得部１０は、音声認識部１８が出力した認識結果文字列に関連する付加情報を、ネットワーク２を介してＷｅｂサーバ３等から取得する（ステップＳＴ１０２）。そして、合成制御部１３は、取得部１０により取得された情報の音声合成に必要なアクセント情報を決定し、音声合成部１４に出力する（ステップＳＴ１０３）。最後に、音声合成部１４は、合成制御部１３が出力したアクセント情報に基づいて合成音声を生成し、スピーカ５に対して出力するよう指示する（ステップＳＴ１０４）。

なお、図６では、ユーザにより音声認識対象語が発話された場合に情報提供システム１がその語に関連する付加情報を取得して音声出力する構成にしたが、これに限定されるものではなく、例えば、認識した単語列等が施設のブランド名であればそのブランド名の周辺検索を実行して検索結果を表示する等の所定の動作を行う構成にしてもよい。付加情報は、Ｗｅｂサーバ３等の外部情報源から取得してもよいし、情報提供システム１が内蔵するデータベース等から取得してもよい。
また、ユーザの発話後に取得部１０が付加情報を取得する構成にしたが、これに限定されるものではなく、例えば、抽出部１２が読み上げテキストから音声認識対象語を抽出する際に付加情報の有無を判断するだけでなく付加情報を取得して蓄積しておく構成にしてもよい。

以上より、実施の形態１によれば、情報提供システム１は、読み上げテキストに含まれる単語列等のうち、当該単語列等に関する付加情報を情報源から取得できるものを音声認識対象語として抽出する抽出部１２と、読み上げテキストを読み上げる音声の合成に用いるアクセント情報および抽出部１２が抽出した音声認識対象語を出力する合成制御部１３と、合成制御部１３から受け取ったアクセント情報を用いて読み上げテキストを読み上げる音声合成部１４と、音声合成部１４が音声認識対象語を読み上げるタイミングに合わせて、合成制御部１３から受け取った音声認識対象語を表示するようディスプレイ４に指示する表示指示部１５とを備える構成にした。表示指示部１５は、音声合成部１４が音声認識対象語を読み上げるタイミングに合わせて合成制御部１３から当該音声認識対象語を受け取るので、受け取った当該音声認識対象語をディスプレイ４に表示させる。これにより、テキストを読み上げる際、音声認識対象語を読み上げるタイミングで表示するようになるので、読み上げテキストを画面に表示しない、あるいは画面に表示可能な文字数が限られている場合でも、当該テキストに含まれる音声認識対象語をユーザに明示することができる。

また、実施の形態１によれば、表示指示部１５は、音声認識対象語を強調表示するようディスプレイ４に指示する構成にした。そのため、ユーザは、音声認識対象語が表示されたことに気付きやすくなる。

また、実施の形態１によれば、表示指示部１５は、ディスプレイ４が音声認識対象語を表示する領域を、当該音声認識対象語を選択するソフトウエアキーとするよう指示する構成にした。そのため、ユーザは、状況に応じて、音声操作とソフトウエアキー操作とを使い分けることができるようになり、利便性が向上する。

実施の形態２．
図７は、この発明の実施の形態２に係る情報提供システム１の構成例を示すブロック図である。図７において、図４と同一または相当の部分については同一の符号を付し説明を省略する。
実施の形態２の情報提供システム１は、音声認識対象語を記憶する記憶部２０を備えている。また、実施の形態２の情報処理制御部２１は、上記実施の形態１の情報処理制御部１１とは一部動作が異なるため、以下で説明する。

抽出部２２は、上記実施の形態１と同様、取得部１０により取得された読み上げテキストを解析して単語列等に分割する。
実施の形態２の抽出部２２は、分割した単語列等の中から音声認識対象語を抽出し、抽出した音声認識対象語を記憶部２０に記憶させる。

合成制御部２３は、上記実施の形態１と同様、取得部１０により取得された読み上げテキストを解析して単語列等に分割する。また、合成制御部２３は、分割した単語列等ごとに音声合成の際に必要なアクセント情報を決定する。そして、合成制御部２３は、決定したアクセント情報を、読み上げテキストの先頭から単語列等の単位で、音声合成部２４に対して出力する。
実施の形態２の合成制御部２３は、アクセント情報を音声合成部２４に出力すると同時に、当該アクセント情報に対応する単語列等を表示指示部２５に対して出力する。

音声合成部２４は、上記実施の形態１と同様、合成制御部２３から出力されたアクセント情報に基づいて合成音声を生成し、スピーカ５に対して合成音声を出力するよう指示する。

実施の形態２の表示指示部２５は、合成制御部２３から出力された単語列等が記憶部２０に存在するか否かを判定する。つまり、合成制御部２３から出力された単語列等が音声認識対象語であるか否かを判定する。表示指示部２５は、合成制御部２３から出力された単語列等が記憶部２０に存在する場合、当該単語列等、つまり音声認識対象語を表示するようディスプレイ４に対して指示する。

なお、図７では、合成制御部２３は、取得部１０から読み上げテキストを取得して単語列等に分割したが、分割済みの単語列等を抽出部２２から取得してもよい。

また、表示指示部２５が記憶部２０を参照して単語列等が音声認識対象語であるか否かを判定したが、合成制御部２３がその判定を行ってもよい。その場合、合成制御部２３は、アクセント情報を音声合成部２４へ出力する際に当該アクセント情報に対応する単語列等が記憶部２０に存在するか否かを判定し、記憶部２０に存在する単語列等を表示指示部２５に対して出力し、存在しない単語列等は出力しない。表示指示部２５は、合成制御部２３から出力された単語列等を表示するようディスプレイ４へ指示するのみとなる。

また、上記実施の形態１と同様に、表示指示部２５は、音声認識対象語をディスプレイ４に表示する際、強調表示するよう指示してもよい。さらに、表示指示部２５は、音声認識対象語を表示する表示領域Ｃ１〜Ｃ３（図２に示す）を、音声認識対象語を選択するソフトウエアキーとするよう指示してもよい。

次に、図８のフローチャートを用いて、情報処理制御部２１の動作を説明する。
ここでは、読み上げテキストを「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」とし、音声認識対象語を「首相」「消費税」「デフレ」として説明する。

まず、抽出部２２は、上述の読み上げテキストを単語列等の単位に分割し（ステップＳＴ２０１）、分割した単語列等から音声認識対象語を抽出する（ステップＳＴ２０２）。
ここで、辞書生成部１６は、抽出部２２により抽出された上述の３つの音声認識対象語に基づいて、認識辞書１７を生成する（ステップＳＴ２０３）。
また、抽出部２２は、抽出した３つの音声認識対象語を記憶部２０に記憶させる（ステップＳＴ２０４）。

続いて、合成制御部２３は、上述の読み上げテキストを単語列等の単位に分割し、音声合成に必要なアクセント情報を決定する（ステップＳＴ２０５）。そして、合成制御部２３は、分割した単語列等の先頭（ここでは、「首相」）から順に、単語列等の単位で、アクセント情報と単語列等を音声合成部２４と表示指示部２５へ出力する（ステップＳＴ２０６）。

音声合成部２４は、合成制御部２３から出力された単語列等の単位のアクセント情報に基づいて、単語列等の合成音声を生成してスピーカ５に出力し、読み上げる（ステップＳＴ２０７）。

ステップＳＴ２０７と並行して、表示指示部２５は、合成制御部２３から出力された単語列等が記憶部２０に記憶されている音声認識対象語に一致するか否かを判定する（ステップＳＴ２０８）。表示指示部２５は、合成制御部２３から出力された単語列等と記憶部２０の音声認識対象語とが一致している場合には（ステップＳＴ２０８“ＹＥＳ”）、当該単語列等を表示するようディスプレイ４に対して指示する（ステップＳＴ２０９）。一方、合成制御部２３から出力された単語列等と記憶部２０の音声認識対象語とが一致しない場合には（ステップＳＴ２０８“ＮＯ”）、音声合成部２４はステップＳＴ２０９をスキップする。

読み上げテキストの先頭の単語列等「首相」は音声認識対象語であるので、この語が読み上げられると同時に、ディスプレイ４の表示領域Ｃ１（図２に示す）に表示される。

続いて、合成制御部２３は、読み上げテキストのすべての単語列等を出力したか否かを判定する（ステップＳＴ２１０）。現段階では先頭の単語列等しか出力し終えていないので（ステップＳＴ２１０“ＮＯ”）、合成制御部２３は、ステップＳＴ２０６へ戻る。合成制御部２３は、読み上げテキストの先頭の単語列等から最後の単語列等まで出力し終えると（ステップＳＴ２１０“ＹＥＳ”）、一連の処理を終了する。

これにより、図２に示すように、読み上げテキスト「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」の中の「首相」「消費税」「デフレ」が読み上げられるタイミングで、表示領域Ｃ１〜Ｃ３に「首相」「消費税」「デフレ」が表示される。
ユーザは、表示領域Ｃ１〜Ｃ３に表示された音声認識対象語を発話することで、その語に関連する付加情報の提供を受けることができる。

以上より、実施の形態２によれば、情報提供システム１は、読み上げテキストに含まれる単語列等のうち、当該単語列等に関する付加情報を情報源から取得できるものを音声認識対象語として抽出する抽出部２２と、読み上げテキストを読み上げる音声の合成に用いるアクセント情報および抽出部２２が抽出した音声認識対象語を出力する合成制御部２３と、合成制御部２３から受け取ったアクセント情報を用いて読み上げテキストを読み上げる音声合成部２４と、音声合成部２４が音声認識対象語を読み上げるタイミングに合わせて、合成制御部２３から受け取った音声認識対象語を表示するようディスプレイ４に指示する表示指示部２５とを備える構成にした。表示指示部２５は、音声合成部２４が単語列等を読み上げるタイミングに合わせて合成制御部２３から当該単語列等を受け取り、受け取った当該単語列等が音声認識対象語である場合にディスプレイ４に表示させる。これにより、テキストを読み上げる際、音声認識対象語を読み上げるタイミングで表示するようになるので、読み上げテキストを画面に表示しない、あるいは画面に表示可能な文字数が限られている場合でも、当該テキストに含まれる音声認識対象語をユーザに明示することができる。

実施の形態３．
図９は、この発明の実施の形態３に係る情報提供システム１の構成例を示すブロック図である。図９において、図４および図７と同一または相当の部分については同一の符号を付し説明を省略する。
実施の形態３の情報提供システム１は、音声認識対象語を記憶する記憶部３０を備えている。また、実施の形態３の情報処理制御部３１は、読み上げテキストを読み上げる際に音声認識対象語とそれ以外の単語列等とを区別するために、読み上げ方法変更部３６を備えている。
実施の形態３の情報処理制御部３１は、読み上げ方法変更部３６を備えたことにより、上記実施の形態２の情報処理制御部２１とは一部動作が異なるため、以下で説明する。

抽出部３２は、上記実施の形態２と同様、取得部１０により取得された読み上げテキストを解析して単語列等に分割し、分割した単語列等の中から音声認識対象語を抽出して記憶部３０に記憶させる。

合成制御部３３は、上記実施の形態２と同様、取得部１０により取得された読み上げテキストを解析して単語列等に分割し、単語列等の単位でアクセント情報を決定する。
実施の形態３の合成制御部３３は、単語列等が記憶部３０に存在するか否かを判定する。つまり、当該単語列等が音声認識対象語であるか否かを判定する。そして、合成制御部３３は、決定したアクセント情報を、読み上げテキストの先頭から単語列等の単位で、音声合成部３４に対して出力する。その際、合成制御部３３は、出力するアクセント情報に対応する単語列等が音声認識対象語であれば、当該単語列等の読み上げ方法を変更するよう読み上げ方法変更部３６に指示する。さらに、合成制御部３３は、出力するアクセント情報に対応する単語列等が音声認識対象語であれば、当該単語列等を表示指示部３５に対して出力する。

読み上げ方法変更部３６は、合成制御部３３により単語列等の読み上げ方法を変更するよう指示があった場合のみ、読み上げ方法を変更するようアクセント情報を再決定する。読み上げ方法の変更は、読み上げるピッチ（声の高さ）の変更、読み上げる速度の変更、読み上げ前後のポーズの有無の変更、読み上げる音量の変更、および読み上げ中の効果音の有無の変更のうちの少なくとも１つの方法により行う。
ユーザが音声認識対象語とそれ以外の単語列等とを聞き分けやすいように、音声認識対象語を読み上げるピッチを高くしたり、音声認識対象語の前後にポーズを入れたり、音声認識対象語を読み上げる音量を大きくしたり、音声認識対象語の読み上げ中に効果音を付加したりすることが好ましい。

音声合成部３４は、読み上げ方法変更部３６から出力されたアクセント情報に基づいて合成音声を生成し、スピーカ５に対して合成音声を出力するよう指示する。

表示指示部３５は、合成制御部３３から出力された単語列等を表示するよう、ディスプレイ４に対して指示する。実施の形態３では、合成制御部３３から表示指示部３５に出力される単語列等はすべて音声認識対象語である。

なお、図９では、合成制御部３３は、取得部１０から読み上げテキストを取得して単語列等に分割したが、分割済みの単語列等を抽出部３２から取得してもよい。

また、上記実施の形態１と同様に、表示指示部３５は、音声認識対象語をディスプレイ４に表示する際、強調表示するよう指示してもよい。さらに、表示指示部３５は、音声認識対象語を表示する表示領域Ｃ１〜Ｃ３（図２に示す）を、音声認識対象語を選択するソフトウエアキーとするよう指示してもよい。

次に、図１０のフローチャートを用いて、情報処理制御部３１の動作を説明する。
ここでは、読み上げテキストを「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」とし、音声認識対象語を「首相」「消費税」「デフレ」として説明する。

まず、抽出部３２は、上述の読み上げテキストを単語列等の単位に分割し（ステップＳＴ３０１）、分割した単語列等から音声認識対象語を抽出する（ステップＳＴ３０２）。
ここで、辞書生成部１６は、抽出部３２により抽出された上述の３つの音声認識対象語に基づいて、認識辞書１７を生成する（ステップＳＴ３０３）。
また、抽出部３２は、抽出した３つの音声認識対象語を記憶部３０に記憶させる（ステップＳＴ３０４）。

続いて、合成制御部３３は、上述の読み上げテキストを単語列等の単位に分割し、音声合成に必要なアクセント情報を決定する（ステップＳＴ３０５）。そして、合成制御部３３は、分割した単語列等の先頭（ここでは、「首相」）から順に単語列等の単位で、アクセント情報を読み上げ方法変更部３６へ出力する際、当該単語列等が記憶部３０に記憶されているか否か、つまり音声認識対象語か否かを判定する（ステップＳＴ３０６）。

出力する単語列等が音声認識対象語である場合（ステップＳＴ３０６“ＹＥＳ”）、合成制御部３３は、当該単語列等のアクセント情報と読み上げ変更指示を、読み上げ方法変更部３６に対して出力する（ステップＳＴ３０７）。
読み上げ方法変更部３６は、合成制御部３３から出力された読み上げ変更指示に従って、音声認識対象語のアクセント情報を再決定し、音声合成部３４に対して出力する（ステップＳＴ３０８）。
音声合成部３４は、読み上げ方法変更部３６により再決定されたアクセント情報に基づいて、音声認識対象語の合成音声を生成してスピーカ５に出力し、読み上げる（ステップＳＴ３０９）。

ステップＳＴ３０７〜ＳＴ３０９と並行して、合成制御部３３は、読み上げ方法変更部３６に出力したアクセント情報に対応する音声認識対象語を表示指示部３５に対して出力する（ステップＳＴ３１０）。表示指示部３５は、合成制御部３３から出力された音声認識対象語を表示するようディスプレイ４に対して指示する。

読み上げテキストの先頭の単語列等「首相」は音声認識対象語であるので、読み上げ方法が変わると同時に、ディスプレイ４の表示領域Ｃ１（図２に示す）に表示される。

一方、出力する単語列等が音声認識対象語でない場合（ステップＳＴ３０６“ＮＯ”）、合成制御部３３は、当該単語列等のアクセント情報を読み上げ方法変更部３６に対して出力する（ステップＳＴ３１１）。合成制御部３３から表示指示部３５への出力はない。
読み上げ方法変更部３６は、合成制御部３３から出力された単語列等のアクセント情報をそのまま音声合成部３４へ出力し、音声合成部３４が、そのアクセント情報に基づいて単語列等の合成音声を生成してスピーカ５に出力し、読み上げる（ステップＳＴ３１２）。

続いて、合成制御部３３は、読み上げテキストの先頭の単語列等から最後の単語列等まで、すべての単語列等を出力したか否かを判定する（ステップＳＴ３１３）。合成制御部３３は、読み上げテキストのすべての単語列等を出力し終えていない場合（ステップＳＴ３１３“ＮＯ”）、ステップＳＴ３０６へ戻り、出力し終えた場合（ステップＳＴ３１３“ＹＥＳ”）、一連の処理を終了する。

これにより、図２に示すように、読み上げテキスト「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」の中の「首相」「消費税」「デフレ」が読み上げられるタイミングで、読み上げ方法が変わると共に表示領域Ｃ１〜Ｃ３に「首相」「消費税」「デフレ」が表示される。
ユーザは、読み上げ方法が変更された、あるいは表示領域Ｃ１〜Ｃ３に表示された音声認識対象語を発話することで、その語に関連する付加情報の提供を受けることができる。

以上より、実施の形態３によれば、情報提供システム１は、読み上げテキストに含まれる単語列等のうち、当該単語列等に関する付加情報を情報源から取得できるものを音声認識対象語として抽出する抽出部３２と、読み上げテキストを読み上げる音声の合成に用いるアクセント情報および抽出部３２が抽出した音声認識対象語を出力する合成制御部３３と、合成制御部３３から受け取ったアクセント情報を用いて読み上げテキストを読み上げる音声合成部３４と、音声合成部３４が音声認識対象語を読み上げるタイミングに合わせて、合成制御部３３から受け取った音声認識対象語を表示するようディスプレイ４に指示する表示指示部３５とを備える構成にした。表示指示部３５は、音声合成部３４が音声認識対象語を読み上げるタイミングに合わせて合成制御部３３から当該音声認識対象語を受け取るので、受け取った当該音声認識対象語をディスプレイ４に表示させる。これにより、テキストを読み上げる際、音声認識対象語を読み上げるタイミングで表示するようになるので、読み上げテキストを画面に表示しない、あるいは画面に表示可能な文字数が限られている場合でも、当該テキストに含まれる音声認識対象語をユーザに明示することができる。

また、実施の形態３によれば、情報提供システム１は、音声合成部３４が読み上げる方法を読み上げテキストのうちの音声認識対象語とそれ以外とで変更する読み上げ方法変更部３６を備える構成にした。これにより、ユーザは、運転負荷が高い場合等、画面を見る余裕がない状況下でも音声認識対象語を把握できるため、利便性が向上する。
なお、読み上げ方法変更部３６は、上記実施の形態１，２の情報提供システム１に追加することが可能である。

上記実施の形態１〜３では、情報提供システム１を、日本語の読み上げテキストに合わせた構成にしたが、日本語以外の言語に合わせた構成にしてもよい。

なお、この発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。

この発明に係る情報提供システムは、テキストを読み上げる際、音声認識対象語を読み上げるタイミングに合わせて音声認識対象語を表示するようにしたので、画面に表示可能な文字数が限られている車載機器および携帯情報端末などに用いるのに適している。

１情報提供システム、２ネットワーク、３Ｗｅｂサーバ（情報源）、４ディスプレイ（表示部）、５スピーカ、６マイク、１０取得部、１１，２１，３１情報処理制御部、１２，２２，３２抽出部、１３，２３，３３合成制御部、１４，２４，３４音声合成部、１５，２５，３５表示指示部、１６辞書生成部、１７認識辞書、１８音声認識部、２０，３０記憶部、３６読み上げ方法変更部、１０１ＣＰＵ、１０２ＲＯＭ、１０３ＲＡＭ、１０４入力装置、１０５通信装置、１０６ＨＤＤ、１０７出力装置。

Claims

テキストに含まれる単語または単語列のうち、当該単語または単語列に関する情報を情報源から取得できるものを音声認識対象語として抽出する抽出部と、
前記テキストを読み上げる音声の合成に用いる情報および前記抽出部が抽出した前記音声認識対象語を出力する合成制御部と、
前記合成制御部から受け取った前記情報を用いて前記テキストを読み上げる音声合成部と、
前記音声合成部が前記音声認識対象語を読み上げるタイミングに合わせて、前記合成制御部から受け取った前記音声認識対象語を表示するよう表示部に指示する表示指示部とを備える情報提供システム。
前記表示指示部は、前記音声認識対象語を強調表示するよう前記表示部に指示することを特徴とする請求項１記載の情報提供システム。
前記強調表示は、字体、文字の大きさ、文字色、背景色、輝度、点滅、および記号の付加のうちの少なくとも１つにより行われることを特徴とする請求項２記載の情報提供システム。
前記音声合成部の読み上げ方法を前記テキストのうちの前記音声認識対象語とそれ以外とで変更する読み上げ方法変更部を備えることを特徴とする請求項１記載の情報提供システム。
前記読み上げ方法の変更は、読み上げるピッチの変更、読み上げる速度の変更、読み上げ前後のポーズの有無の変更、読み上げる音量の変更、および読み上げ中の効果音の有無の変更のうちの少なくとも１つであることを特徴とする請求項４記載の情報提供システム。
前記表示指示部は、前記表示部が前記音声認識対象語を表示する領域を、当該音声認識対象語を選択するソフトウエアキーとするよう指示することを特徴とする請求項１記載の情報提供システム。