JP2013080362A

JP2013080362A - 対話型情報発信装置、対話型情報発信方法、及びプログラム

Info

Publication number: JP2013080362A
Application number: JP2011219837A
Authority: JP
Inventors: Narihisa Nomoto; 済央野本; Yusuke Ijima; 勇祐井島; Osamu Yoshioka; 理吉岡; Katsuhiko Ogawa; 克彦小川
Original assignee: Nippon Telegraph and Telephone Corp; Keio University
Current assignee: Nippon Telegraph and Telephone Corp; Keio University
Priority date: 2011-10-04
Filing date: 2011-10-04
Publication date: 2013-05-02
Anticipated expiration: 2031-10-04
Also published as: JP5689774B2

Abstract

【課題】できるだけ不快な印象を与えることなく、音声によって不特定多数の人間に効果的に情報を与える。
【解決手段】対話を行う複数の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報から特定の対話情報を抽出し、複数の話者に対応する複数の音声出力部で、特定の対話情報に含まれる発話情報が表す発話内容の音声を出力する。話者に対応する前記音声出力部は、それぞれ、音声出力部に対応する前記話者の発話内容の音声を出力する。
【選択図】図１

Description

本発明は、情報発信技術において、公共の場においても効果的な音声発信を行うための技術に関する。

近年、デジタルサイネージ(Digital-Signage)と呼ばれる電子看板システムが注目を浴びている（例えば、特許文献１参照）。デジタルサイネージとは表示と通信にデジタル技術を活用して平面ディスプレイやプロジェクタなどにより映像や情報を表示する広告媒体である。通信ネットワークを介していることで、従来のポスターなどといった広告媒体と比べ情報の更新が容易になる。これによりリアルタイムな情報発信が可能になる。また設置された場所や時間などに合わせて特定層に向けて情報発信することも容易に実現される。

デジタルサイネージは主としてディスプレイ上に映し出された文字や動画など映像情報により情報提示を行う。しかし、映像による情報提示は、ディスプレイに意識して注視してもらわねば情報を伝えられないという問題があった。そこで音声による情報提示が考えられる。音声によるサイネージでは、サイネージに意識を向けていない不特定多数の人間に一斉に情報を発信することが可能である。

特開２００５−１０９６５号公報

しかしながら、従来方法では、できるだけ不快な印象を与えることなく、音声によって不特定多数の人間に効果的に情報を与えることが困難であった。
例えば、公共の場で音声を流すと、その音声が騒音と感じられ、耳触りで不快な印象を与えてしまう。また情報を望んでいない人間に対して一方的に情報発信を行うと、その場合も騒音に感じられたり不快な印象を与えたりする。さらに音声は映像ほど人に与える印象は大きくないため、単純に音声を再生するだけでは意識が向かずに聞き流されてしまう可能性がある。音声は揮発性な情報媒体であるため、一度聞き逃してしまうと遡って情報を得ることが難しいため、この問題はより一層重要である。

本発明はこのような問題に鑑みてなされたものであり、できるだけ不快な印象を与えることなく、音声によって不特定多数の人間に効果的に情報を与えることが可能な技術を提供することを目的とする。

本発明では、対話を行う複数の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報から特定の対話情報を抽出し、複数の話者に対応する複数の音声出力部から、当該特定の対話情報に含まれる発話情報が表す発話内容の音声を出力する。話者に対応する音声出力部は、それぞれ、音声出力部に対応する話者の発話内容の音声を出力する。

本発明では、できるだけ不快な印象を与えることなく、音声によって不特定多数の人間に効果的に情報を与えることができる。

図１は、第１〜３実施形態の対話型情報発信装置の構成を説明するためのブロック図である。図２は、第４実施形態の対話型情報発信装置の構成を説明するためのブロック図である。図３は、第１〜４実施形態の対話型情報発信方法を説明するためのフローチャートである。

以下、図面を参照して本発明の実施形態を説明する。
〔概要〕
実施形態の概要と特徴を説明する。
実施形態の対話型情報発信装置は、対話を行う複数の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報を格納する記憶部と、記憶部から特定の対話情報を抽出する対話情報抽出部と、複数の話者に対応し、特定の対話情報に含まれる発話情報が表す発話内容の音声を出力する複数の音声出力部とを有する。話者に対応する音声出力部は、それぞれ、音声出力部に対応する話者の発話内容の音声を出力する。

この実施形態の対話型情報発信装置は、ターゲット（人）に向けて話しかけるように強制的に情報を与えるのではなく、複数の音声出力部間で擬似的な対話を行い、音声出力部間の対話音声をターゲットに受聴してもらうことで受動的に情報を与える。ターゲットは音声出力部間で交わされる擬似的な対話に対して自ら聞き耳を立てることで情報を得る。これにより、ターゲットは強制的な情報提示を受けずに済む。また対話音声は一方通行の音声と比べて、周囲の環境に溶け込みやすいため、人に与える不快感を軽減させることが可能である（例えば、参考文献１「Andrew Monk, Jenni Carroll, Sarah Parker and Mark Blythe, “Why are mobile phones annoying?”, Behaviour & Information Technology, January-February 2004, Volume 23, No 1, 33-41.」参照）

さらに対話型情報発信装置が、外部音声の入力を受け付け、当該外部音声を表す外部音声情報を得る音声入力部と、外部音声情報をテキスト情報に変換する音声認識部と、テキスト情報から特定のキーワードを抽出するキーワード抽出部とを有し、対話情報抽出部が特定のキーワードを用いて記憶部に格納された複数種類の対話情報を検索し、特定のキーワードに対応する対話情報を特定の対話情報として抽出してもよい。
ターゲットの興味や関心内容を得る情報源として、ターゲットが話した内容(発話内容)が考えられる。ターゲットの発話内容には、ターゲットが現在知りたい情報や関心のある情報が含まれていると考えられる。例えば、音声出力部の近くで話されたターゲットの発話内容（外部音声）を表す外部音声情報を取得し、それをテキスト情報に変換し、そこから特定のキーワードを抽出し、抽出した特定のキーワードに対応する対話情報を選択することで、抽出された話題に合った情報を発信でき、ターゲットにより適した情報を提供できる。

また対話型情報発信装置が、抽出された特定の対話情報に含まれる発話情報が表す発話内容の音声を、抽出された特定のキーワードに応じて特定される方法で生成して出力してもよい。これにより、ターゲットや場所などの環境に応じて適切な口調、話し方、音質の音声をターゲットに提供できる。

また対話型情報発信装置の記憶部に格納された対話情報が、ネットワークに接続された複数の端末装置から送信された複数の対話発話内容を表すテキスト情報を含むＣＧＭ（Consumer Generated Media）情報を格納するＣＧＭサーバ装置から抽出されたＣＧＭ情報であり、ＣＧＭ情報から抽出されたテキスト情報が表す発話内容の音声が出力されてもよい。このようにＣＧＭ情報を情報リソースにすることで、対話型情報発信装置の記憶部に格納された対話情報の更新が容易になり、リアルタイムな情報提供が可能となる。

〔第１実施形態〕
次に第１実施形態を説明する。本形態では、対話型情報発信装置が二人の話者による対話内容を出力する例を示す。
＜構成＞
図１に例示するように、本形態の対話型情報発信装置１は、対話を行う二人の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報を格納する記憶部１１と、記憶部１１から特定の対話情報を抽出する対話情報抽出部１２と、対話情報が含む各発話情報に対応する話者を識別する話者識別処理部１４と、当該特定の対話情報に含まれる発話情報が表す発話内容の音声を出力する二つの音声出力部１３−１，２とを有する。

記憶部１１は、例えばハードディスク装置や半導体メモリ等の公知の記憶装置である。本形態の記憶部１１には、事前に人手で作成された対話情報が格納される。
対話情報の例は、二人の話者Ａ，Ｂによって事前に実際に行われた対話音声を録音して得られた音声情報であり、話者Ａの発話内容を表す発話情報である音声情報と、話者Ｂの発話内容を表す発話情報である音声情報とを含む。対話情報が含む各発話情報に対し、それが話者Ａの発話内容を表すのか話者Ｂの発話内容を表すのかを識別するための話者情報が対応付けられてもよい。例えば、対話音声がステレオ録音され、１ｃｈに話者Ａの発話内容を表す発話情報である音声情報を収録し、２ｃｈに話者Ｂの発話内容を表す発話情報である音声情報を収録したものを対話情報としてもよい。或いは、例えば対話音声をモノラル録音して得られる音声情報のように、話者情報が付されていない対話情報が用いられてもよい。

対話情報抽出部１２及び話者識別処理部１４は、例えば所定のプログラムがコンピュータで実行されることで構成される処理部や集積回路等である。

音声出力部１３−１，２は、例えば音声情報に対応する音声を出力する既存のスピーカ等である。本形態の音声出力部１３−１，２は、二人の話者Ａ，Ｂにそれぞれ対応する。すなわち、音声出力部１３−１からは話者Ａの発話内容の音声が出力され、音声出力部１３−２からは話者Ｂの発話内容の音声が出力される。音声出力部１３−１，２はそのまま公共の場等に配置されてもよいが、マネキンや人形といった人物や生物を表すような物体に取り付けられてもよい。例えば、二体のマネキンのうち一方に音声出力部１３−１が取り付けられ、他方に音声出力部１３−２が取り付けられてもよい。人形等に音声出力部１３−１，２を取り付けることで視覚的な効果も加わり情報伝達効率の向上が期待できる。また既存のショップにあるマネキンに音声出力部１３−１，２を取り付けるとともに、マネキンが着用している洋服やアイテムなどについての対話情報を記憶部１１に格納しておいてもよい。これにより、音声出力部１３−１，２からマネキンが着用している洋服やアイテムなどについての対話音声が出力され、宣伝効果の向上が期待できる。

詳細な説明は省略するが、対話型情報発信装置１は図示していない制御部のもと各処理を実行し、各処理部で得られた情報は必要に応じて図示していないメモリに格納され、別の処理に利用される。

＜対話型情報発信方法＞
図３を参照して本形態の対話型情報発信方法を説明する。
対話情報抽出部１２は、定期的又は所定の契機で、記憶部１１から特定の対話情報を抽出する（ステップＳ１４）。所定の契機としては、音声出力部１３−１，２の近傍にターゲットが接近したことがセンサ等によって検出されたこと、音声出力部１３−１，２の周辺環境の変化が検出されたこと、設定時刻に達したことなどを例示できる。また、記憶部１１に一つの対話情報のみが格納されているのであれば、抽出される特定の対話情報はその記憶部１１に格納された対話情報である。一方、記憶部１１に複数種類の対話情報が格納されているのであれば、抽出される特定の対話情報はそれら複数種類の対話情報から選択された対話情報である。例えば、複数種類の対話情報から所定の順序で特定の対話情報が選択されてもよいし、時刻や音声出力部１３−１，２の位置等の外部環境に応じて特定の対話情報が選択されてもよい。

抽出された特定の対話情報は話者識別処理部１４に入力される。話者識別処理部１４は、当該特定の対話情報に含まれる各発話情報に対応する話者を識別する（ステップＳ１５）。例えば、抽出された特定の対話情報に含まれる各発話情報に対して上述の話者情報が対応付けられているのであれば、話者識別処理部１４は、当該話者情報に基づいて当該特定の対話情報に含まれる各発話情報に対応する話者を識別する。一方、抽出された特定の対話情報に含まれる各発話情報に対して話者情報が対応付けられていないのであれば、話者識別処理部１４は、公知の話者識別技術を用いて当該特定の対話情報に含まれる各発話情報に対応する話者を識別する。話者識別処理部１４は、例えば、当該特定の対話情報に含まれる各発話情報が表す音声の特徴パラメータ（例えばケプストラム、ピッチなど）の分布を求め、特徴パラメータの分布の類似度によって、各発話情報が話者Ａに対応するのか話者Ｂに対応するのかを識別する。或いは、予め話者Ａ，Ｂの音声から作成した話者Ａ，Ｂの音声のモデルを作成しておき、話者識別処理部１４が特定の対話情報に含まれる各発話情報が表す音声の特徴パラメータと当該モデルとの類似度から、発話情報が話者Ａに対応するのか話者Ｂに対応するのかを識別してもよい。公知の話者識別技術は、例えば参考文献２「松井和子，古井貞煕，“ＶＱひずみ,離散連続HMMによるテキスト独立形話者認識法の比較検討”，電子情報通信学会論文誌，pp. 601-606, 1994.」等に記載されている

抽出された特定の対話情報に含まれる各発話情報のうち話者Ａに対応する発話情報（音声情報）は音声出力部１３−１に送られ、音声出力部１３−１は送られた発話情報に対応する音声を出力する。抽出された特定の対話情報に含まれる各発話情報のうち話者Ｂに対応する発話情報（音声情報）は音声出力部１３−２に送られ、音声出力部１３−２は送られた発話情報に対応する音声を出力する（ステップＳ１６）。

〔第２実施形態〕
次に第２実施形態を説明する。本形態は第１実施形態の変形例であり、音声合成技術を併用したものである。音声合成技術はテキスト情報を入力として音声を自動で生成する技術である。本形態の対話情報はテキスト情報であり、音声合成技術を用いて対話情報に含まれる発話情報から音声を合成する。この場合には話者毎に声質や話し方などを変えることも可能である。その場合は、事前に話者毎のモデルや音声素片を用意しておく。合成音声技術を用いることで、予め対話情報に対応する音声を収録しておくことなく、テキスト情報である対話情報を用意しておくだけで自由に対話音声を生成することができる。ターゲットや情報提供場所などの条件に合わせて、適切な口調や声などを自由に生成することも可能になる。以下では、第１実施形態との相違点を中心に説明し、第１実施形態と共通する事項については、第１実施形態と同じ参照番号を用いて説明を省略する。

＜構成＞
図１に例示するように、本形態の対話型情報発信装置２は、対話を行う二人の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報を格納する記憶部２１と、記憶部２１から特定の対話情報を抽出する対話情報抽出部２２と、対話情報が含む各発話情報に対応する話者を識別する話者識別処理部２４と、当該特定の対話情報に含まれる発話情報に対応する音声を合成する合成音声生成部２５と、当該特定の対話情報に含まれる発話情報が表す発話内容の音声を出力する二つの音声出力部１３−１，２とを有する。

記憶部２１は、例えばハードディスク装置や半導体メモリ等の公知の記憶装置である。本形態の記憶部２１には、事前に人手で作成されたテキスト情報である対話情報が格納される。
本形態の対話情報の例は、二人の話者Ａ，Ｂによってなされる対話を記述したテキスト情報であり、話者Ａの発話内容を表すテキスト情報である発話情報と話者Ｂの発話内容を表すテキスト情報である発話情報とを含む。対話情報が含む各発話情報に対し、それが話者Ａの発話内容を表すのか話者Ｂの発話内容を表すのかを識別するための話者情報が対応付けられている。ターゲットや情報提供場所などの条件に合わせて合成音声の口調や声などを設定する場合には、どのような条件の場合にどのような口調や声などを設定するのかを表すタグが対話情報に対応付けられてもよい。

対話情報抽出部２２、話者識別処理部２４及び合成音声生成部２５は、例えば所定のプログラムがコンピュータで実行されることで構成される処理部や集積回路等である。

詳細な説明は省略するが、対話型情報発信装置２は図示していない制御部のもと各処理を実行し、各処理部で得られた情報は必要に応じて図示していないメモリに格納され、別の処理に利用される。

＜対話型情報発信方法＞
図３を参照して本形態の対話型情報発信方法を説明する。
対話情報抽出部２２は、定期的又は所定の契機で、記憶部２１から特定の対話情報を抽出する（ステップＳ２４）。この所定の契機の例は第１実施形態と同様である。

抽出された特定の対話情報は話者識別処理部２４に入力される。話者識別処理部２４は、当該特定の対話情報に含まれる各発話情報に対応する話者を識別する（ステップＳ２５）。本形態の話者識別処理部２４は、抽出された特定の対話情報に含まれる各発話情報に対応付けられた話者情報に基づいて当該特定の対話情報に含まれる各発話情報に対応する話者を識別する。

抽出された特定の対話情報に含まれる各発話情報は合成音声生成部２５に入力される。合成音声生成部２５は、テキスト情報である各発話情報に対する合成音声生成処理を行い、話者Ａに対応する音声を表す音声情報と話者Ｂに対応する音声を表す音声情報とを生成する。合成音声生成方法には公知の方法を用いればよい。合成音声生成方法の具体例としては、予め録音しておいた音声素片から基本周期ごとに１周期波形を切り出し、テキストの解析結果から生成された基本周波数パターンに合わせて、その波形を再配列する方法（参考文献３「M. Moulines 等“Pitch-synchronous waveform, processing techniques for text-to-speech synthesis using diphones" Speech Communication, vol. 9, pp.453-467(1990-12)」等参照）や、各話者の音声素片自体を大容量の記憶装置に蓄積し、入力された発話情報に応じて音声素片を適切に選択し、接続・変形することで音声を合成する方法（参考文献４「特許第２７６１５５２号明細書」等参照）を例示できる。また、どのような条件の場合にどのような口調や声などを設定するのかを表すタグが対話情報に対応付けられているのであれば、合成音声生成部２５が、抽出された特定の対話情報に含まれる各発話情報に対応付けられたタグを参照し、音声出力部１３−１，２の設置場所等の条件に対応する合成音声生成方法やモデルや音声素片等を特定してもよい。

合成音声生成部２５で生成された話者Ａに対応する音声を表す音声情報は音声出力部１３−１に送られ、音声出力部１３−１は送られた音声情報に対応する音声を出力する。合成音声生成部２５で生成された話者Ｂに対応する音声を表す音声情報は音声出力部１３−２に送られ、音声出力部１３−２は送られた音声情報に対応する音声を出力する（ステップＳ１８）。

〔第３実施形態〕
次に第３実施形態を説明する。本形態は第１実施形態の変形例であり、さらに音声認識技術を併用したものである。すなわち、本形態では、音声出力部１３−１，２の近くで話されたターゲット同士の発話内容に含まれる話題(キーワード)を音声認識技術により自動で抽出し、抽出された話題にあった情報を発信することで、ターゲットにより適した情報を発信する。以下では、第１実施形態との相違点を中心に説明し、第１実施形態と共通する事項については、第１実施形態と同じ参照番号を用いて説明を省略する。

＜構成＞
図１に例示するように、本形態の対話型情報発信装置３は、対話を行う二人の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報を格納する記憶部１１と、記憶部１１から特定の対話情報を抽出する対話情報抽出部３２と、対話情報が含む各発話情報に対応する話者を識別する話者識別処理部１４と、外部音声の入力を受け付け、当該外部音声を表す外部音声情報を得る音声入力部３８と、外部音声情報をテキスト情報に変換する音声認識部３６と、当該テキスト情報から特定のキーワードを抽出するキーワード抽出部３７と、抽出された特定の対話情報に含まれる発話情報が表す発話内容の音声を出力する二つの音声出力部１３−１，２を有する。

対話情報抽出部３２、音声認識部３６及びキーワード抽出部３７は、例えば所定のプログラムがコンピュータで実行されることで構成される処理部や集積回路等である。音声入力部３８は既存のマイクロホン等である。音声入力部３８は音声出力部１３−１，２の近傍に設置され、例えば、音声出力部１３−１，２の間に設置される。

＜対話型情報発信方法＞
図３を参照して本形態の対話型情報発信方法を説明する。
音声入力部３８は、外部音声の入力を受け付け、当該外部音声を表す外部音声情報を得る（ステップＳ３１）。外部音声情報は音声認識部３６に入力され、音声認識部３６は公知の音声認識技術を用い、当該外部音声情報をテキスト情報に変換する（ステップＳ３２）。音声認識技術としては、例えば参考文献５「政瀧浩和，柴田大輔，中澤裕一，小橋川哲，小川厚徳，大附克年，“顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」”，NTT技術ジャーナル，2006.11，pp.15-18.」や参考文献６「中川聖一，“確率モデルによる音声認識”，電子情報通信学会，1988，pp.7-144.」に開示されたものを例示できる。

外部音声情報に対応するテキスト情報はキーワード抽出部３７に送られる。キーワード抽出部３７は、公知のワードスポッティング技術等を用い、当該外部音声情報に対応するテキスト情報から特定のキーワードを抽出する（ステップＳ３３）。例えばキーワード抽出部３７は、入力されたテキスト情報を構成するキーワードと予め設定された音韻・文字・単語・文節等の認識対象語彙との類似度を評価関数等によって評価し、認識対象語彙との類似度が所定の基準を満たすキーワードを抽出する。ワードスポッティング技術の具体例としては、例えば参考文献７「特開平５−２１６４９３号公報」や参考文献８「特開平６−１１８９９０」等を例示できる。

キーワード抽出部３７で抽出された特定のキーワードは対話情報抽出部３２に送られる。対話情報抽出部３２は、当該特定のキーワードを用いて記憶部１１に格納された複数種類の対話情報を検索し、当該特定のキーワードに対応する対話情報を特定の対話情報として抽出する（ステップＳ３４）。例えば、記憶部１１に格納された複数種類の対話情報には、それぞれに対応するキーワードが対応付けられているものとする。対話情報抽出部３２は、例えば、キーワード抽出部３７で抽出された特定のキーワードと一致するキーワードに対応付けられている対話情報を抽出する。或いは話情報抽出部３２は、例えば、キーワード抽出部３７で抽出された特定のキーワードとの類似度が所定の基準を満たすキーワードに対応付けられている対話情報を抽出する。類似度が所定の基準を満たすキーワードとは、例えば、類似度が最も高いキーワードや、類似度が閾値以上となるキーワードなどである。

その後の処理は第１実施形態と同じである。

〔第３実施形態の変形例１〕
第２実施形態のように音声合成技術を併用するとともに、第３実施形態のように声認識技術を併用し、キーワード抽出部３７で抽出された特定のキーワードに応じて合成音声生成方法が選択されてもよい。以下では、第１〜３実施形態との相違点を中心に説明し、第１〜３実施形態と共通する事項については、第１〜３実施形態と同じ参照番号を用いて説明を省略する。

＜構成＞
図１に例示するように、第３実施形態の変形例１の対話型情報発信装置３’は、記憶部２１と、対話情報抽出部２２と、話者識別処理部２４と、対話情報抽出部３２と、音声入力部３８と、音声認識部３６と、キーワード抽出部３７と、合成音声生成部３５と、音声出力部１３−１，２とを有する。

＜対話型情報発信方法＞
図３を参照して本変形例の対話型情報発信方法を説明する。
まず第３実施形態で説明したステップＳ３１〜Ｓ３３の処理が実行される。

キーワード抽出部３７で抽出された特定のキーワードは対話情報抽出部３２に送られる。対話情報抽出部３２は、当該特定のキーワードを用いて記憶部２１に格納された複数種類の対話情報を検索し、当該特定のキーワードに対応する対話情報を特定の対話情報として抽出する（ステップＳ３４’）。対話情報抽出部３２’は、例えば、キーワード抽出部３７で抽出された特定のキーワードと一致するキーワードを含む対話情報を抽出する。或いは話情報抽出部３２は、例えば、キーワード抽出部３７で抽出された特定のキーワードとの類似度が所定の基準を満たすキーワードを含む対話情報を抽出する。その後、第２実施形態で説明したステップＳ２４の処理が実行される。

ステップＳ２４で抽出された特定の対話情報に含まれる各発話情報は合成音声生成部３５に入力される。さらに合成音声生成部３５には、キーワード抽出部３７で抽出された特定のキーワードが入力される。合成音声生成部３５は、当該特定の対話情報に含まれる発話情報が表す発話内容の音声を、当該特定のキーワードに応じて特定される方法で合成する（ステップＳ３７）。例えば、合成音声生成に用いられるモデルや音声素片（例えば、女性の声を合成するためのモデル、老人の声を合成するためのモデル、男性の声を合成するための音声素片等）が予め定められたキーワードに対応付けられている。合成音声生成部３５は、例えば、キーワード抽出部３７で抽出された特定のキーワードと一致するキーワードに対応付けられたモデルや音声素片等を用いて合成音声処理を行い、特定の対話情報に含まれる発話情報が表す発話内容の音声を合成する。或いは合成音声生成部３５は、例えば、キーワード抽出部３７で抽出された特定のキーワードとの類似度が所定の基準を満たすキーワードに対応付けられたモデルや音声素片等を用いて合成音声処理を行い、特定の対話情報に含まれる発話情報が表す発話内容の音声を合成する。これにより、ターゲットにより適した声質や話し方で情報を提供できる。

その後、第２実施形態で説明したステップＳ１８の処理が実行される。

〔第４実施形態〕
第４実施形態は、第２実施形態及び第３実施形態の変形例１の変形例であり、記憶部に格納される対話情報の情報ソースとして、twitterのようなＣＧＭで得られた対話型のＣＧＭ情報を用いる例である。ＣＧＭ情報を情報リソースにすることで対話情報の更新がスムースでき、常にリアルタイムな情報を提供できる。以下では、twitterのようなＣＧＭの形態を想定した例を説明する。

＜構成＞
図１に例示するように、本形態の対話型情報発信装置４は、ＣＧＭ情報をＣＧＭサーバ装置１１０から抽出するＣＧＭ情報抽出部４８と、ＣＧＭ情報を格納する記憶部４１と、記憶部４１から特定のＣＧＭ情報を抽出する対話情報抽出部４２と、ＣＧＭ情報が含む各発話情報に対応する話者を識別する話者識別処理部４４と、対話情報抽出部４２で抽出された特定のＣＧＭ情報から対話内容であるテキスト情報を抽出するテキスト抽出部４９と、音声出力部１３−１，２を有する。

ＣＧＭサーバ装置１１０は、インターネット等のネットワークに接続され、当該ネットワークに接続された複数の端末装置１２０−１〜Ｎ（Ｎは２以上の整数）から送信された対話型のＣＧＭ情報を格納する装置である。このようなＣＧＭ情報は、ネットワーク上で対話を行う二人の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報である。このような対話情報の例は、twitterでのtweet（つぶやき）とそれに対する返事からなる情報であり、tweetやそれに対する返事が各話者の発話情報となる。

対話情報抽出部４２、ＣＧＭ情報抽出部４８及びテキスト抽出部４９は、例えば所定のプログラムがコンピュータで実行されることで構成される処理部や集積回路等である。

＜更新処理＞
本形態の対話型情報発信装置４のＣＧＭ情報抽出部４８は、定期的又は所定の契機でＣＧＭサーバ装置１１０にアクセスし、ＣＧＭサーバ装置１１０からＣＧＭ情報を取得する。取得されたＣＧＭ情報は対話情報として記憶部４１に格納される。これにより、記憶部４１に格納された対話情報（ＣＧＭ情報）が自動更新される。

＜対話型情報発信方法＞
図３を参照して本変形例の対話型情報発信方法を説明する。
対話情報抽出部４２は、定期的又は所定の契機で、記憶部４１から特定のＣＧＭ情報を抽出する（ステップＳ４４）。この所定の契機の例は第１実施形態と同様である。

抽出された特定のＣＧＭ情報は話者識別処理部２４に入力される。話者識別処理部２４は、当該特定のＣＧＭ情報に含まれる各発話情報に対応する話者を識別する（ステップＳ４５）。本形態の話者識別処理部４４は、抽出された特定のＣＧＭ情報から話者を識別できる。

さらに抽出された特定のＣＧＭ情報及びそれに含まれる各発話情報に対応する話者を識別するための情報はテキスト抽出部４９に送られる。テキスト抽出部４９は、ＣＧＭ情報から各話者に対応する発話情報を抽出し、それらと話者を識別するための情報とを合成音声生成部２５に送る（ステップＳ４６）。

その後、第２実施形態で説明したステップＳ２７，Ｓ１８の処理が実行される。

〔第４実施形態の変形例１〕
第４実施形態の変形例１として、さらに第３実施形態や第３実施形態の変形例１のように、取得された外部音声情報を用いてキーワードを抽出し、それに基づいて特定のＣＧＭ情報を抽出したり、合成音声を生成するためのモデルや音声素片を選択したりしてもよい。

〔その他の変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上記の実施形態では二人による対話音声が出力される例を示したが、三人以上による対話音声が出力されてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１〜４対話型情報発信装置

Claims

対話を行う複数の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報を格納する記憶部と、
前記記憶部から特定の対話情報を抽出する対話情報抽出部と、
前記複数の話者に対応し、前記特定の対話情報に含まれる前記発話情報が表す発話内容の音声を出力する複数の音声出力部と、を有し、
前記話者に対応する前記音声出力部は、それぞれ、前記音声出力部に対応する前記話者の発話内容の音声を出力する、
ことを特徴とする対話型情報発信装置。
請求項１の対話型情報発信装置であって、
外部音声の入力を受け付け、当該外部音声を表す外部音声情報を得る音声入力部と、
前記外部音声情報をテキスト情報に変換する音声認識部と、
前記テキスト情報から特定のキーワードを抽出するキーワード抽出部と、を有し、
前記記憶部は、複数種類の前記対話情報を格納し、
前記対話情報抽出部は、前記特定のキーワードを用いて複数種類の前記対話情報を検索し、前記特定のキーワードに対応する対話情報を前記特定の対話情報として抽出する、
ことを特徴とする対話型情報発信装置。
請求項１又は２の対話型情報発信装置であって、
外部音声の入力を受け付け、当該外部音声を表す外部音声情報を得る音声入力部と、
前記外部音声情報をテキスト情報に変換する音声認識部と、
前記テキスト情報から特定のキーワードを抽出するキーワード抽出部と、
前記特定の対話情報に含まれる前記発話情報が表す発話内容の音声を、前記特定のキーワードに応じて特定される方法で生成する合成音声生成部と、を有し、
前記音声出力部は、前記合成音声生成部で生成された音声を出力する、
ことを特徴とする対話型情報発信装置。
請求項１から４の何れかの対話型情報発信装置であって、
前記記憶部に格納された前記対話情報は、ネットワークに接続された複数の端末装置から送信された複数の対話発話内容を表すテキスト情報を含むＣＧＭ情報を格納するＣＧＭサーバ装置から抽出されたＣＧＭ情報であり、
前記特定の対話情報に含まれる前記発話情報は、前記ＣＧＭ情報から抽出された前記テキスト情報である、
ことを特徴とする対話型情報発信装置。
対話情報抽出部で、対話を行う複数の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報から、特定の対話情報を抽出する対話情報抽出ステップと、
前記複数の話者に対応する複数の音声出力部で、前記特定の対話情報に含まれる前記発話情報が表す発話内容の音声を出力する音声出力ステップと、を有し、
前記話者に対応する前記音声出力部は、それぞれ、前記音声出力部に対応する前記話者の発話内容の音声を出力する、
ことを特徴とする対話型情報発信方法。
請求項５の対話型情報発信方法であって、
音声入力部で、外部音声の入力を受け付け、当該外部音声を表す外部音声情報を得る音声入力ステップと、
音声認識部で、前記外部音声情報をテキスト情報に変換する音声認識ステップと、
キーワード抽出部で、前記テキスト情報から特定のキーワードを抽出するキーワード抽出ステップと、を有し、
前記対話情報抽出ステップは、
前記特定のキーワードを用いて複数種類の前記対話情報を検索し、前記特定のキーワードに対応する対話情報を前記特定の対話情報として抽出するステップである、
ことを特徴とする対話型情報発信方法。
請求項１から４の何れかの対話型情報発信装置としてコンピュータを機能させるためのプログラム。