JP7166139B2

JP7166139B2 - 情報処理システムおよびプログラム

Info

Publication number: JP7166139B2
Application number: JP2018199348A
Authority: JP
Inventors: 彩乃山口; 登宮本; 朋佳大橋; 遥香松本; 宏樹杉浦
Original assignee: Tokyo Gas Co Ltd
Current assignee: Tokyo Gas Co Ltd
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2022-11-07
Anticipated expiration: 2038-10-23
Also published as: JP2020068436A

Description

本発明は、情報処理システムおよびプログラムに関する。

特許文献１には、話題の遷移を起こすと判断された場合、現在話している話題と、メモリに記憶されている話題となる候補との関連度の計算が、関連度テーブルを参照して行われ、そして、最も値の大きかった話題を、遷移先の話題として選択する処理が開示されている。
特許文献２には、セグメンテーション部で、複数の話者の会話を撮影記録した会話映像を会話音声部分に基づいて話者毎に分割し、重要語抽出部で、議事録から話題毎の重要語を抽出する処理が開示されている。

特開２００１－１８８７８４号公報特開２００４－２３６６１号公報

撮影した写真や動画などをアルバムやクラウドで管理する場合、ユーザは、通常、自身でこのアルバムやクラウドにアクセスして、この写真や動画を参照する。
本発明の目的は、ユーザによる過去の映像へのアクセスをより簡易に行えるようにすることにある。

本発明が適用される情報処理システムは、取得された発話から、予め定められた条件を満たす発話内容を検出する検出手段と、検出された発話内容と当該発話内容が発話された際に得られた映像情報とを対応付けて記憶する記憶手段と、新たになされた発話に含まれる発話内容が前記記憶手段に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶手段から取得して出力する映像情報出力手段と、を備える情報処理システムである。
ここで、前記検出手段は、取得された前記発話から、予め定められた回数を超えて発話された発話内容を検出し、前記記憶手段は、前記予め定められた回数を超えて発話された発話内容と、当該発話内容が発話された際に得られた前記映像情報とを対応付けて記憶することを特徴とすることができる。
また、前記検出手段は、取得された前記発話から、予め定められた時間内に前記予め定められた回数を超えて発話された発話内容を検出し、前記記憶手段は、前記予め定められた時間内に前記予め定められた回数を超えて発話された発話内容と、当該発話内容が発話された際に得られた前記映像情報とを対応付けて記憶することを特徴とすることができる。
また、前記記憶手段は、前記予め定められた回数を超え複数回発話された前記発話内容と前記映像情報とを対応付けて記憶するにあたり、当該複数回の発話のうちの最初の発話がなされたときよりも前から撮影が開始された動画と当該発話内容とを対応付けて記憶することを特徴とすることができる。
また、前記記憶手段は、前記予め定められた回数を超えて発話された発話内容と、当該発話内容が発話された際に得られた静止画像とを対応付けて記憶することを特徴とすることができる。

また、前記記憶手段は、前記予め定められた回数を超え複数回発話された前記発話内容と前記静止画像とを対応付けて記憶するにあたり、当該複数回の発話のうちの最新の発話の際に得られた当該静止画像と、当該発話内容とを対応付けて記憶することを特徴とすることができる。
また、新たになされた前記発話に含まれる発話内容の発話回数に関する情報を出力する回数情報出力手段をさらに備えることを特徴とすることができる。
また、前記回数情報出力手段は、新たになされた前記発話にて、同じ発話内容が予め定められた回数を超えて発話された場合に、当該同じ発話内容の発話回数に関する情報を出力することを特徴とすることができる。
また、前記回数情報出力手段は、新たになされた前記発話にて、前記同じ発話内容が予め定められた時間内に予め定められた回数を超えて発話された場合に、当該同じ発話内容の発話回数に関する情報を出力することを特徴とすることができる。
また、前記検出手段は、取得された発話から、固有名詞を検出し、前記記憶手段は、検出された固有名詞と当該固有名詞が発話された際に得られた映像情報とを対応付けて記憶することを特徴とすることができる。
また、前記検出手段は、取得された前記発話から、地名を示す固有名詞を検出し、前記記憶手段は、地名を示す固有名詞と当該固有名詞が発話された際に得られた映像情報とを対応付けて記憶することを特徴とすることができる。
また、前記映像情報は、撮影装置により取得され、前記地名を示す固有名詞が発話された際における、前記撮影装置の位置を把握する位置把握手段を更に備え、前記記憶手段は、前記地名を示す固有名詞により特定される位置と、前記位置把握手段により把握される前記位置とが一致する場合に、当該地名を示す固有名詞と当該固有名詞が発話された際に得られた前記映像情報とを対応付けて記憶することを特徴とすることができる。

また、本発明をプログラムとして捉えた場合、本発明が適用されるプログラムは、取得された発話から、予め定められた条件を満たす発話内容を検出する検出機能と、検出された発話内容と当該発話内容が発話された際に得られた映像情報とを対応付けて記憶する記憶機能と、新たになされた発話に含まれる発話内容が前記記憶機能に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶機能から取得して出力する映像情報出力機能と、をコンピュータに実現させるためのプログラムである。
また、本発明を他の観点から捉えると、本発明が適用される情報処理システムは、取得された発話から、時期を示す発話内容を検出する検出手段と、検出された前記発話内容により特定される時期に得られた映像情報と、当該発話内容とを対応付けて記憶する記憶手段と、新たになされた発話に含まれる発話内容が前記記憶手段に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶手段から取得して出力する映像情報出力手段と、を備える情報処理システムである。
また、本発明をプログラムとして捉えた場合、本発明が適用されるプログラムは、取得された発話から、時期を示す発話内容を検出する検出機能と、検出された前記発話内容により特定される時期に得られた映像情報と、当該発話内容とを対応付けて記憶する記憶機能と、新たになされた発話に含まれる発話内容が前記記憶機能に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶機能から取得して出力する映像情報出力機能と、をコンピュータに実現させるためのプログラムである。

本発明によれば、ユーザによる過去の映像へのアクセスをより簡易に行えるようにすることができる。

情報処理システムの全体構成を示した図である。室内機器を説明する図である。管理サーバのハードウエアの構成を示した図である。管理サーバのＣＰＵ等により実現される機能部を示した図である。ビデオカメラから管理サーバへ送信される情報を示した図である。情報処理システムにて実行される処理の一例を示した図である。ビデオカメラによる撮影後の処理であって、ユーザが自宅にいる際の処理の流れの一例を示した図である。回数情報出力部による処理の流れを示した図である。

以下、添付図面を参照して、本発明の実施の形態について説明する。
図１は、情報処理システム１の全体構成を示した図である。
情報処理システム１には、情報処理装置の一例としての管理サーバ３００が設けられている。さらに、情報処理システム１には、ユーザによる持ち運びが可能な撮影装置の一例としてのビデオカメラ５００が複数設けられている。

さらに、本実施形態の情報処理システム１では、各家庭に設置された室内機器２００が設けられている。
本実施形態では、ビデオカメラ５００、室内機器２００は、インターネットなどの通信回線４００を通じて管理サーバ３００に接続される。

ビデオカメラ５００は、ＧＰＳ（Global Positioning System）（不図示）を備え、自身の位置の情報（位置情報）を取得できるようになっている。
また、ビデオカメラ５００には、ユーザの発話についての情報（発話情報）を取得するためのマイク（発話情報取得部）５１０、ＣＣＤなどの撮像素子およびレンズなどにより構成された映像取得部５２０が設けられている。

図２（室内機器２００を説明する図）に示すように、本実施形態の室内機器２００は、いわゆるロボットを模した機器であり、符号２Ａで示すように、人の顔を模した部分を有する。
より具体的には、室内機器２００には、液晶ディスプレイなどにより構成された表示装置２０１が設けられており、本実施形態では、この表示装置２０１に、人の顔に相当する画像が表示されることで、人の顔を模した部分が表示される。
なお、表示装置２０１に情報が表示される際には、人の顔を模した部分は非表示となる。

さらに、室内機器２００には、この室内機器２００が設置される居室内の音（居室内におけるユーザの発話）を取得する音取得手段の一例としてのマイク２０５Ｍが設けられている。さらに、室内機器２００には、音を発生するスピーカ２５０Ｐが設けられている。

さらに、本実施形態の室内機器２００は、表示装置２０１を下方から支持する胴体部分２０２、および、この胴体部分２０２に取り付けられた腕部分２０３を有する。
さらに、この腕部分２０３を動かすためのモータ（不図示）が、胴体部分２０２の内部に設けられている。また、胴体部分２０２には、互いに異なる色の光を出射する複数の光源２０４が設けられている。

図３は、管理サーバ３００のハードウエアの構成を示した図である。
管理サーバ３００は、コンピュータ装置により構成され、管理サーバ３００には、ＣＰＵ（Central Processing Unit）３０１、ＲＡＭ（Random Access Memory）３０２、ＲＯＭ（Read Only Memory）３０３が設けられている。また、ハードディスク装置などにより構成される記憶装置３０４が設けられている。さらに、管理サーバ３００には、外部との通信を行うための通信インタフェース（通信Ｉ／Ｆ）３０５が設けられている。

ＣＰＵ３０１によって実行されるプログラムは、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどのコンピュータが読取可能な記録媒体に記憶した状態で、管理サーバ３００へ提供しうる。
また、ＣＰＵ３０１によって実行されるプログラムは、インターネットなどの通信手段を用いて管理サーバ３００へダウンロードしてもよい。

図４は、管理サーバ３００のＣＰＵ３０１等により実現される機能部を示した図である。
図４に示すように、管理サーバ３００は、検出部３２１、記憶部３２２、映像情報出力部３２３、回数情報出力部３２４、位置把握部３２５、固有名詞データベース３２６を備える。

ここで、検出部３２１、映像情報出力部３２３、回数情報出力部３２４、位置把握部３２５は、管理サーバ３００のＣＰＵ３０１が、記憶装置３０４等に格納されているプログラムを実行することで実現される。
また、記憶部３２２は、記憶装置３０４および記憶装置３０４等に格納されているプログラムを実行するＣＰＵ３０１により実現される。
また、固有名詞データベース３２６は、記憶装置３０４により実現され、固有名詞データベース３２６には、地名などの多数の固有名詞が予め登録されている。

検出手段の一例としての検出部３２１は、ビデオカメラ５００にて得られた発話（ユーザの発話情報、ユーザの音声情報）から、予め定められた条件を満たす発話内容を検出する。
記憶手段の一例としての記憶部３２２は、検出部３２１により検出された発話内容とこの発話内容が発話された際にビデオカメラ５００により得られた映像情報とを対応付けて記憶する。
映像情報出力手段の一例としての映像情報出力部３２３は、ユーザにより新たになされた発話に含まれる発話内容が記憶部３２２に記憶されている場合に、この発話内容に対応付けて記憶されている映像情報を記憶部３２２から取得して出力する。

映像情報出力部３２３について詳細に説明する。
本実施形態では、ユーザが自宅にて新たな発話を行うと、この新たな発話が室内機器２００のマイク２０５Ｍ（図２参照）により取得され、管理サーバ３００へ送信される。
そして、本実施形態では、映像情報出力部３２３が、室内機器２００から送信されてきたこの発話を取得する。次いで、映像情報出力部３２３は、この発話に含まれる発話内容が記憶部３２２に記憶されている場合には、この発話内容に対応付けて記憶されている映像情報を記憶部３２２から取得し、さらに、取得したこの映像情報を室内機器２００へ出力する。
これにより、本実施形態では、室内機器２００に、過去の映像情報が表示される。付言すると、ユーザの自宅における発話に応じて、このユーザの室内機器２００に、このユーザの発話に対応した、過去の映像が表示される。

回数情報出力手段の一例としての回数情報出力部３２４（図４参照）は、ユーザによりなされた上記の新たな発話に含まれる発話内容の発話回数に関する情報を出力する。
より具体的には、回数情報出力部３２４は、上記の新たな発話にて、ユーザが、同じ発話内容を予め定められた回数を超えて発話した場合に、この同じ発話内容の発話回数に関する情報を、室内機器２００へ出力する。これにより、本実施形態では、室内機器２００を通じて、発話回数に関する情報がユーザに通知される。

位置把握手段の一例としての位置把握部３２５は、ビデオカメラ５００により得られた映像情報および発話情報の双方に対して関連付けている位置情報（ビデオカメラ５００のＧＰＳにより得られた位置情報）を取得して、ビデオカメラ５００の位置を把握する。
より具体的には、本実施形態では、ビデオカメラ５００に設けられたＧＰＳにより得られた位置情報が、このビデオカメラ５００により得られた映像情報、発話情報に関連付けられたうえで、この映像情報、発話情報とともに管理サーバ３００へ送信される。
管理サーバ３００の位置把握部３２５は、映像情報、発話情報に関連付けられているこの位置情報に基づき、ビデオカメラ５００の位置を把握する。

図５は、ビデオカメラ５００から管理サーバ３００へ送信される情報を示した図である。
本実施形態では、ビデオカメラ５００から管理サーバ３００へ送信される情報には、発話情報、映像情報、位置情報が含まれる。
ここで、この図では、図中矢印Ｔで示す方向が時間の経過方向を示しており、図中右にいくほど、新しい発話情報、映像情報、位置情報となり、図中左に行くほど古い発話情報、映像情報、位置情報となる。ここで、発話情報、映像情報、および、位置情報は、互いに関連付けられた状態で、ビデオカメラ５００から管理サーバ３００へ送信される。

図６は、情報処理システム１にて実行される処理の一例を示した図である。
本実施形態では、まず、ビデオカメラ５００がユーザにより操作されることで、このビデオカメラ５００にて、発話情報（ユーザの音声情報）、映像情報、位置情報が取得される（ステップＳ１０１）。
次いで、この発話情報、映像情報、位置情報が、管理サーバ３００に送信され、管理サーバ３００が、この発話情報、映像情報、位置情報を取得する（ステップＳ１０２）。

次いで、本実施形態では、管理サーバ３００の検出部３２１が、取得された発話情報（発話）に、予め定められた条件を満たす発話内容があるか否かを判断し、ある場合には、この予め定められた条件を満たす発話内容を検出する（ステップＳ１０３）。
次いで、本実施形態では、予め定められた条件を満たす発話内容が検出された場合、記憶部３２２が、検出された発話内容と、この発話内容が発話された際に得られた映像情報とを対応付けて記憶する（ステップＳ１０４）。

より具体的には、本実施形態では、例えば、図５の符号５Ａで示す箇所（時点）にて、予め定められた条件を満たす発話内容が検出された場合、検出されたこの発話内容と、この発話内容が発話された際に得られた映像情報（符号５Ｂで示す箇所（時点）における映像情報）とを対応付けて記憶する。
これにより、本実施形態では、ユーザによりなされた発話の内容と、この発話がなされた際にビデオカメラ５００により得られた映像とが対応付いた状態で、記憶部３２２により記憶される。

ここで、本実施形態では、上記の通り、検出部３２１は、取得された発話から、予め定められた条件を満たす発話内容を検出する。
具体的には、例えば、検出部３２１は、取得された発話から、予め定められた回数を超えて発話された発話内容を検出する。
より具体的には、例えば、検出部３２１は、同じ文言が、３回など、予め定められた回数を超えて発話された場合に、この文言を、予め定められた条件を満たす発話内容として検出する。そして、この場合、記憶部３２２が、予め定められた回数を超えて発話されたこの文言と、この文言が発話された際に得られた映像情報とを対応付けて記憶する。

ここで、この場合の映像情報としては（同じ発話内容が複数回発話された場合のこの発話内容に対応付ける映像情報としては）、例えば、複数回のこの発話うちの、最初になされた発話がなされたときよりも前から撮影が開始された動画とする。
付言すると、本実施形態では、上記のとおり、予め定められた回数を超え複数回発話された文言と映像情報とを対応付けて記憶するが、この場合、この複数回のこの発話のうちの最初の発話がなされたときよりも前から撮影が開始された動画と、この文言（発話内容）とを対応付けて記憶する。

図５を参照して具体的に説明すると、例えば、図５に示すように、ユーザが、「京都」という文言を３回発話した場合、本実施形態では、記憶部３２２は、映像情報の中から、この「京都」という文言に対応付ける映像情報を抽出する。
そして、記憶部３２２は、抽出したこの映像情報を、「京都」という文言に対応付けたうえで、この文言と映像情報とを記憶する。

具体的には、この場合、記憶部３２２は、動画のうち、例えば、最初（１回目）の「京都」という発話がなされたときより前から撮影が開始された動画（符号５Ｃで示す部分の動画）と、この「京都」という文言とを対応付けて記憶する
より具体的には、本例では、記憶部３２２は、動画のうち、最初（１回目）の「京都」という発話がなされたときより前から撮影が開始され且つ最後（３回目）の「京都」という発話がなされたときよりも後まで撮影された動画と、この「京都」という文言とを対応付けて記憶する。
これにより、本実施形態では、後に、ユーザが自宅で映像情報を見る際に（詳細は後述）、所要時間が長い動画が表示されるようになる。

なお、上記では、発話内容が予め定められた回数を超えて発話された場合に、この発話内容と映像情報とを対応付けて記憶する場合を説明したが、これは一例である。
これ以外に、例えば、予め定められた回数を超えてなされる上記の発話が、予め定められた時間（例えば、１時間）内にあった場合に（予め定められた時間内に所定回数を超える発話があった場合に）、この発話の内容と、映像情報とを対応付けて記憶するようにしてもよい。

なお、上記の複数回の発話（予め定められた回数を超えてなされる上記の発話）は、同一のユーザによってなされる場合に限らず、異なる複数のユーザによりなされる場合もあり、本実施形態では、異なる複数のユーザによって、同じ発話内容が複数回発話された場合も、上記のように、発話内容と映像情報とを対応付けて記憶する。
付言すると、異なる複数のユーザにより複数回の発話がなされた場合も、この発話の内容と、映像情報とを対応付けて記憶する。

また、その他に、予め定められた回数を超えて発話された発話内容と、この発話内容が発話された際に得られた映像情報とを対応付けて記憶するにあたっては、この発話内容と、この発話内容が発話された際に得られた静止画像とを対応付けて記憶するようにしてもよい。この場合、上記のように、動画を保存する場合に比べ、映像情報の記憶に要する記憶領域の削減を図れる。
なお、本実施形態では、ビデオカメラ５００により映像情報が取得され、この映像情報は、基本的に動画となる。静止画像の取得にあたっては、この動画から一部の画像を得ることで、静止画像を取得する。

また、発話内容と静止画像とを対応付けて記憶するにあたっては、例えば、上記の複数回の発話の含まれる一部の発話の際に得られた静止画像と、発話内容とを対応付けて記憶する。
より具体的には、例えば、上記の複数回の発話のうちの最新の発話の際に得られた静止画像と、発話内容とを対応付けて記憶する。
図５を参照して具体的に説明すると、例えば、符号５Ｘで示す発話の際に得られた静止画像（符号５Ｄで示すタイミングのときの静止画像）と、この発話の内容とを対応付けて記憶する。

なお、その他には、上記の複数回の発話の各々のときに得られた静止画像の全てと、発話内容とを対応付けて記憶してもよい。この場合、複数の静止画像と発話内容とが対応付けられるようになる。

また、その他に、検出部３２１は、予め定められた条件を満たす発話内容として、固有名詞を検出してもよい。付言すると、検出部３２１は、取得された発話から、固有名詞を検出してもよい。より具体的には、検出部３２１は、例えば、地名を示す固有名詞を検出する。
この場合、記憶部３２２は、検出された固有名詞と、この固有名詞が発話された際に得られた映像情報とを対応付けて記憶することになる。

より具体的には、検出部３２１は、固有名詞を検出するにあたっては、取得された発話に、固有名詞データベース３２６（図４参照）に格納されている固有名詞に該当する固有名詞が含まれているかを判断し、含まれている場合には、この発話内容（固有名詞）を検出する。
そして、記憶部３２２が、検出されたこの固有名詞と、この固有名詞が発話された際に得られた映像情報とを対応付けて記憶する。

なお、記憶部３２２は、固有名詞と映像情報の記憶を一律に行うのではなく、特定の条件が満たされる場合に、固有名詞と映像情報の記憶を行ってもよい。
具体的には、例えば、記憶部３２２は、地名を示す固有名詞により特定される位置（ユーザの発言に基づき特定される位置）と、この地名を示す固有名詞が発話された際におけるビデオカメラ５００の位置とが一致する場合に、この地名を示す固有名詞と映像情報とを対応付けて記憶するようにしてもよい。

より具体的には、記憶部３２２は、例えば、地名を示す固有名詞により特定される位置と、この地名を示す固有名詞が発話された際における映像情報を取得したビデオカメラ５００の位置（位置把握部３２５により把握されたビデオカメラ５００の位置）とが一致する場合に、地名を示すこの固有名詞と、この固有名詞が発話された際に得られた映像情報とを対応付けて記憶するようにしてもよい。

より具体的には、図５にて示す例では、例えば、符号５Ｅで示すタイミングで、ユーザが、「京都」という地名を示す固有名詞の発話を行っているが、この発話の際における、ビデオカメラ５００の位置が、同じく京都である場合に、この「京都」という固有名詞と、この固有名詞が発話された際に得られた映像情報（このビデオカメラ５００により得られた映像情報）（符号５Ｆで示すタイミングのときに得られた映像情報）とを対応付けて記憶するようにしてもよい。

この場合は、ユーザが、上記の地名を示す固有名詞を発話した際に、この固有名詞により特定される位置と同じ位置にて、ビデオカメラ５００による撮影が行われ、さらに、この撮影により得られた映像情報と、地名を示す固有名詞とが対応付いた状態で記憶されるようになる。
ここで、地名を示す固有名詞が発話されたにも関わらず、その時の撮影場所が、この地名が示す場所とは異なることも起こりうる。
このような場合に、上記のように、ビデオカメラ５００の位置情報を考慮に入れて記憶処理を行うようにすると、地名を示す固有名詞により特定される位置以外にて得られた映像情報は、この固有名詞に対応付けられないようになる。

図７は、ビデオカメラ５００による撮影後の処理であって、ユーザが自宅にいる際の処理の流れの一例を示した図である。
本実施形態では、ユーザの自宅における発話が、室内機器２００に設けられたマイク２０５Ｍ（図２参照）によって取得される（ステップＳ２０１）。そして、本実施形態では、この発話についての情報が、順次、管理サーバ３００に送信される（ステップＳ２０２）。付言すると、新たな発話がユーザによりなされる度に、この新たになされた発話についての情報が管理サーバ３００に送信される。

そして、本実施形態では、管理サーバ３００に、新たになされたこの発話についての情報が送信される度に、映像情報出力部３２３が、新たになされたこの発話に含まれる発話内容が、記憶部３２２に記憶されているか否かを判断する（ステップＳ２０３）。
そして、本実施形態では、映像情報出力部３２３は、新たになされた発話に含まれる発話内容が記憶部３２２に記憶されている場合、この発話内容に対応付けて記憶されている映像情報を記憶部３２２から取得して、室内機器２００へ出力する（ステップＳ２０４）。

これにより、本実施形態では、自宅にいるユーザによりなされた発話に対応した映像情報が、この自宅の室内機器２００に表示されるようになる。
ここで、本実施形態では、この映像情報が動画である場合、室内機器２００には動画が表示され、映像情報が静止画である場合、室内機器２００には静止画が表示される。

ここで、過去の映像情報の参照は、例えば、ユーザ自身が、アルバムやクラウドにアクセスすることで行えるが、この場合は、ユーザの自発的な動作が必要となり手間を要する。
これに対して、本実施形態では、ユーザは、自身の発言により、過去の映像情報を参照できるようになり、ユーザは、より簡易に過去の映像情報を参照できるようになる。

図８は、回数情報出力部３２４による処理の流れを示した図である。
本実施形態では、管理サーバ３００に、新たになされた発話（ユーザの自宅にて新たになされた発話）についての情報が送信されると、回数情報出力部３２４も、この発話情報を取得する（ステップＳ３０１）。
そして、回数情報出力部３２４は、新たになされた発話に含まれる発話内容の発話回数に関する情報を出力する（ステップＳ３０２）。より具体的には、回数情報出力部３２４は、新たになされた発話にて、同じ発話内容が予め定められた回数を超えて発話された場合に、この同じ発話内容の発話回数に関する情報を出力する。

より具体的には、回数情報出力部３２４は、新たになされた発話にて、同じ発話内容が、予め定められた時間内に予め定められた回数を超えて発話された場合に、この同じ発話内容の発話回数に関する情報を出力する。
例えば、ユーザが、新たになされた発話にて、１時間以内に、同じ発話内容を５回発話した場合に、回数情報出力部３２４は、この同じ発話内容の発話回数に関する情報（５回という情報）を、室内機器２００へ出力する。

これにより、室内機器２００では、例えば、「その話は、５回目です」などのメッセージが、音声として出力されたり、表示装置２０１に表示されたりする。
ここで、高齢者などの対象者が、気づかずに、同じ内容の発話を繰り返し行うことがあり、この場合に、上記の回数に関するメッセージを通知すると、この対象者に、話が繰り返されていることを通知できるようになる。

付言すると、本実施形態では、新たになされた発話についての情報は、映像情報出力部３２３および回数情報出力部３２４に出力される。
そして、映像情報出力部３２３は、新たになされた発話についての情報に基づき、上記のように、過去の映像情報を取得し出力する。また、回数情報出力部３２４は、新たになされた発話についての情報に基づき、上記のように発話の回数に関する情報を出力する。

（その他）
その他の処理として、例えば、取得された発話から、時期を示す発話内容を検出するようにしてもよい。
そして、時期を示す発話内容が検出された場合、記憶部３２２は、検出されたこの発話内容により特定される時期に得られた映像情報と、この発話内容とを対応付けて記憶する。

例えば、ユーザが、「去年の秋、京都に行った」と発話した場合を想定する。
この場合、この他の処理では、まず、取得されたこの発話から、時期を示す発話内容である「去年の秋」という発話内容が検出される。
次いで、この他の処理では、記憶部３２２が、記憶装置３０４（図３参照）に保存されている過去の映像情報から、この「去年の秋」のときに得られた映像情報を抽出する。
そして、記憶部３２２は、抽出したこの映像情報と、検出された上記の発話内容である「去年の秋」とを対応付けて記憶する。

付言すると、本実施形態では、ビデオカメラ５００により得られた映像情報等の各種の情報は、記憶装置３０４により記憶され保存されている。
記憶部３２２は、時期を示す発話内容である「去年の秋」が検出されると、記憶装置３０４に保存されている過去の映像情報から、この「去年の秋」のときに得られた映像情報を抽出する。そして、記憶部３２２は、抽出したこの映像情報と、検出された発話内容である「去年の秋」とを対応付けて記憶する。

そして、この他の処理では、その後になされる、新たな発話に、「去年の秋」という文言が含まれていると、この「去年の秋」という文言に対応付けられている映像情報が記憶部３２２から取得され、この映像情報が、室内機器２００に出力される。これにより、この場合も、過去の映像情報が、室内機器２００に表示される。
図６等にて示した処理では、検出された発話内容と、この発話内容が発話された際に得られた映像情報とを対応付けて記憶する場合を説明したが、これに限らず、発話内容が発話されたときよりも前に得られた映像情報と、発話内容とを対応付けて記憶するようにしてもよい。

１…情報処理システム、３２１…検出部、３２２…記憶部、３２３…映像情報出力部、３２４…回数情報出力部、３２５…位置把握部、５００…ビデオカメラ

Claims

取得された発話から、予め定められた条件を満たす発話内容を検出する検出手段と、
検出された発話内容と当該発話内容が発話された際に得られた映像情報とを対応付けて記憶する記憶手段と、
新たになされた発話に含まれる発話内容が前記記憶手段に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶手段から取得して出力する映像情報出力手段と、
を備え、
前記検出手段は、取得された前記発話から、予め定められた時間内に予め定められた回数を超えて発話された発話内容を検出し、
前記記憶手段は、前記予め定められた時間内に前記予め定められた回数を超えて発話された発話内容と、当該発話内容が発話された際に得られた前記映像情報とを対応付けて記憶する、
情報処理システム。
取得された発話から、予め定められた条件を満たす発話内容を検出する検出手段と、
検出された発話内容と当該発話内容が発話された際に得られた映像情報とを対応付けて記憶する記憶手段と、
新たになされた発話に含まれる発話内容が前記記憶手段に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶手段から取得して出力する映像情報出力手段と、
を備え、
前記検出手段は、取得された前記発話から、予め定められた回数を超えて発話された発話内容を検出し、
前記記憶手段は、前記予め定められた回数を超えて発話された発話内容と、当該発話内容が発話された際に得られた前記映像情報とを対応付けて記憶するとともに、当該予め定められた回数を超え複数回発話された当該発話内容と当該映像情報とを対応付けて記憶するにあたり、当該複数回の発話のうちの最初の発話がなされたときよりも前から撮影が開始された動画と当該発話内容とを対応付けて記憶する、
情報処理システム。
取得された発話から、予め定められた条件を満たす発話内容を検出する検出手段と、
検出された発話内容と当該発話内容が発話された際に得られた映像情報とを対応付けて記憶する記憶手段と、
新たになされた発話に含まれる発話内容が前記記憶手段に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶手段から取得して出力する映像情報出力手段と、
を備え、
前記検出手段は、取得された前記発話から、予め定められた回数を超えて発話された発話内容を検出し、
前記記憶手段は、前記予め定められた回数を超えて発話された発話内容と、当該発話内容が発話された際に得られた静止画像とを対応付けて記憶するとともに、当該予め定められた回数を超え複数回発話された当該発話内容と当該静止画像とを対応付けて記憶するにあたり、当該複数回の発話のうちの最新の発話の際に得られた当該静止画像と、当該発話内容とを対応付けて記憶する、
情報処理システム。
取得された発話から、予め定められた条件を満たす発話内容を検出する検出手段と、
検出された発話内容と当該発話内容が発話された際に得られた映像情報とを対応付けて記憶する記憶手段と、
新たになされた発話に含まれる発話内容が前記記憶手段に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶手段から取得して出力する映像情報出力手段と、
新たになされた前記発話に含まれる発話内容の発話回数に関する情報を出力する回数情報出力手段と、
を備え、
前記回数情報出力手段は、新たになされた前記発話にて、同じ発話内容が予め定められた時間内に予め定められた回数を超えて発話された場合に、当該同じ発話内容の発話回数に関する情報を出力する、
情報処理システム。
取得された発話から、地名を示す固有名詞を検出する検出手段と、
検出された、前記地名を示す固有名詞と、当該固有名詞が発話された際に得られた映像情報であって撮影装置により取得された映像情報とを対応付けて記憶する記憶手段と、
新たになされた発話に含まれる発話内容が前記記憶手段に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶手段から取得して出力する映像情報出力手段と、
前記地名を示す固有名詞が発話された際における、前記撮影装置の位置を把握する位置把握手段と、
を備え、
前記記憶手段は、前記地名を示す固有名詞により特定される位置と、前記位置把握手段により把握される前記位置とが一致する場合に、当該地名を示す固有名詞と当該固有名詞が発話された際に得られた前記映像情報とを対応付けて記憶する、
情報処理システム。
取得された発話から、予め定められた条件を満たす発話内容を検出する検出機能と、
検出された発話内容と当該発話内容が発話された際に得られた映像情報とを対応付けて記憶する記憶機能と、
新たになされた発話に含まれる発話内容が前記記憶機能に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶機能から取得して出力する映像情報出力機能と、
をコンピュータに実現させるためのプログラムであり、
前記検出機能は、取得された前記発話から、予め定められた時間内に予め定められた回数を超えて発話された発話内容を検出し、
前記記憶機能は、前記予め定められた時間内に前記予め定められた回数を超えて発話された発話内容と、当該発話内容が発話された際に得られた前記映像情報とを対応付けて記憶する、
プログラム。
取得された発話から、予め定められた条件を満たす発話内容を検出する検出機能と、
検出された発話内容と当該発話内容が発話された際に得られた映像情報とを対応付けて記憶する記憶機能と、
新たになされた発話に含まれる発話内容が前記記憶機能に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶機能から取得して出力する映像情報出力機能と、
をコンピュータに実現させるためのプログラムであり、
前記検出機能は、取得された前記発話から、予め定められた回数を超えて発話された発話内容を検出し、
前記記憶機能は、前記予め定められた回数を超えて発話された発話内容と、当該発話内容が発話された際に得られた前記映像情報とを対応付けて記憶するとともに、当該予め定められた回数を超え複数回発話された当該発話内容と当該映像情報とを対応付けて記憶するにあたり、当該複数回の発話のうちの最初の発話がなされたときよりも前から撮影が開始された動画と当該発話内容とを対応付けて記憶する、
プログラム。
取得された発話から、予め定められた条件を満たす発話内容を検出する検出機能と、
検出された発話内容と当該発話内容が発話された際に得られた映像情報とを対応付けて記憶する記憶機能と、
新たになされた発話に含まれる発話内容が前記記憶機能に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶機能から取得して出力する映像情報出力機能と、
をコンピュータに実現させるためのプログラムであり、
前記検出機能は、取得された前記発話から、予め定められた回数を超えて発話された発話内容を検出し、
前記記憶機能は、前記予め定められた回数を超えて発話された発話内容と、当該発話内容が発話された際に得られた静止画像とを対応付けて記憶するとともに、当該予め定められた回数を超え複数回発話された当該発話内容と当該静止画像とを対応付けて記憶するにあたり、当該複数回の発話のうちの最新の発話の際に得られた当該静止画像と、当該発話内容とを対応付けて記憶する、
プログラム。
取得された発話から、予め定められた条件を満たす発話内容を検出する検出機能と、
検出された発話内容と当該発話内容が発話された際に得られた映像情報とを対応付けて記憶する記憶機能と、
新たになされた発話に含まれる発話内容が前記記憶機能に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶機能から取得して出力する映像情報出力機能と、
新たになされた前記発話に含まれる発話内容の発話回数に関する情報を出力する回数情報出力機能と、
をコンピュータに実現させるためのプログラムであり、
前記回数情報出力機能は、新たになされた前記発話にて、同じ発話内容が予め定められた時間内に予め定められた回数を超えて発話された場合に、当該同じ発話内容の発話回数に関する情報を出力する、
プログラム。
取得された発話から、地名を示す固有名詞を検出する検出機能と、
検出された、前記地名を示す固有名詞と、当該固有名詞が発話された際に得られた映像情報であって撮影装置により取得された映像情報とを対応付けて記憶する記憶機能と、
新たになされた発話に含まれる発話内容が前記記憶機能に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶機能から取得して出力する映像情報出力機能と、
前記地名を示す固有名詞が発話された際における、前記撮影装置の位置を把握する位置把握機能と、
をコンピュータに実現させるためのプログラムであり、
前記記憶機能は、前記地名を示す固有名詞により特定される位置と、前記位置把握機能により把握される前記位置とが一致する場合に、当該地名を示す固有名詞と当該固有名詞が発話された際に得られた前記映像情報とを対応付けて記憶する、
プログラム。
取得された発話から、時期を示す発話内容を検出する検出手段と、
検出された前記発話内容により特定される時期に得られた映像情報と、当該発話内容とを対応付けて記憶する記憶手段と、
新たになされた発話に含まれる発話内容が前記記憶手段に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶手段から取得して出力する映像情報出力手段と、
を備える情報処理システム。
取得された発話から、時期を示す発話内容を検出する検出機能と、
検出された前記発話内容により特定される時期に得られた映像情報と、当該発話内容とを対応付けて記憶する記憶機能と、
新たになされた発話に含まれる発話内容が前記記憶機能に記憶されている場合に、当該発話内容に対応付けて記憶されている映像情報を当該記憶機能から取得して出力する映像情報出力機能と、
をコンピュータに実現させるためのプログラム。