JP2019068300A

JP2019068300A - ダイジェストデータ生成装置、ダイジェストデータ再生装置、ダイジェストデータ生成システム、ダイジェストデータ生成方法及びプログラム

Info

Publication number: JP2019068300A
Application number: JP2017192842A
Authority: JP
Inventors: 佑一加耒; Yuichi Kaku; 洋樹棟朝; Hiroki Muneasa
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2017-10-02
Filing date: 2017-10-02
Publication date: 2019-04-25
Anticipated expiration: 2037-10-02
Also published as: JP7061860B2

Abstract

【課題】音声データと画像データとを含むコンテンツデータに対して、所定の時間ごとに重要度を判定し、重要度に応じて前記画像データを削除したダイジェストデータを生成する装置を提供する。【解決手段】音声データと会議画像データとを含むコンテンツデータを記憶し、会議の参加者から入力される感情タグに基づいて、コンテンツデータの各所定の時間の区間に対し特徴量を決定し、当該特徴量から重要度を決定する。また、重要度に基づき、重要でない区間の会議画像データを削除することによって、コンテンツデータからダイジェストデータを生成する。【選択図】図２３

Description

本発明は、ダイジェストデータ生成装置等に関する。

従来から、会議や研修といった多人数による会合の音声や映像を記録し、あとから振り返られるようにするための会議システムが使用されている。

記録された音声データや映像データといった会議データを確認するには、一般的には、会議の開始から順次再生することによって行われる。しかし、会議においては、会議の参加者が議論について話している場面がある一方で、無言となっている場面もある。したがって、会議の記録内容を効率的に確認するには、会議について議論をしている場面のように、会議において重要な場面を特定して、その場面に限って確認できることが望ましい。

そこで、会議において重要と考えられる部分を特定する技術が提案されている。例えば、重要であると判断した発言があったとき、あるいは後で確認すべき有効な発言があったとき等に、しおり挿入を指示することで、後で再生したい発言にインデックスを付与できる発明が開示されている（例えば、特許文献１参照）。

また、映像データから会議の進行に沿った時系列としての特徴量を抽出し、当該特徴量に基づいて、絶対評価値として、会議の進行に沿った時系列としての盛り上がり度を算出し、参加者の性格と参加場所、発言のコンテンツ、会話関係を考慮した相対的な盛り上がり度を推定する会議分析装置に関する発明が開示されている（例えば、特許文献２参照）。

また、撮影した画像を時系列に関連付けて記憶できるシステムが知られている。例えば、会議中の様子を音声データとして併せてサンプリング時間毎に静止画像を記憶する。これにより、会議を振り替えるとき、音声と併せて画像でも会議の様子を確認することが可能となる。

特開２００５−１０９９２８号公報特開２０１６−０１２２１６号公報

ここで、会議を振り替えりやすくするために、会議で重要だと思われる場面を直接指示する方法は、その指示によって会話を妨げてしまう恐れや、会話に集中するあまり指示をし忘れる問題があった。

また、会議データを記憶するときに、細かいサンプリング時間で撮影することで詳細な状況の記憶をすることができるが、情報量が多くなり重要な場面の特定が難しくなるという問題があった。

特に、情報量が多くなると、会議データの記憶量が大きくなってしまう。そうすることで、記憶領域の空き容量が不足してしまったり、ネットワーク経由で受信する場合に、大きな通信帯域を確保しなければならなかったりするという問題が生じていた。

本発明の目的は、上記の課題を解決することであり、音声データと画像データとを含むコンテンツデータに対して、所定の時間の区間ごとに重要度を判定し、重要度に応じて前記画像データを削除したダイジェストデータを生成する装置を提供することである。

上述した課題を解決するために、本発明のダイジェストデータ生成装置は、
画像データを取得する画像データ取得手段と、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして記憶する記憶手段と、
前記コンテンツデータに対して所定時間長の区間毎に特徴量を決定する特徴量決定手段と、
前記特徴量から、前記区間毎の重要度を判定する重要度判定手段と、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成手段と、
を備えることを特徴とする。

本発明のダイジェストデータ生成装置は、
画像データを取得する画像データ取得手段と、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして記憶する記憶手段と、
前記コンテンツデータに対して、複数の異なる特徴に基づき、特徴毎に所定時間長の区間毎の特徴量を決定する特徴量決定手段と、
前記特徴毎に決定した前記区間毎の特徴量に基づき前記区間毎の重要度を判定する重要度判定手段と、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成手段と、
を備えることを特徴とする。

本発明のダイジェストデータ生成システムは、
サーバ装置に端末装置が接続されたダイジェストデータ生成システムであって、
前記端末装置は、
画像データを取得する画像データ取得手段と、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして前記サーバ装置に送信するコンテンツデータ送信手段と、
を備え
前記サーバ装置は、
前記端末装置から前記コンテンツデータを受信するコンテンツデータ受信手段と、
前記コンテンツデータに対して所定時間長の区間毎に特徴量を決定する特徴量決定手段と、
前記特徴量から、前記区間毎の重要度を判定する重要度判定手段と、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成手段と、
前記ダイジェストデータを前記端末装置に送信するダイジェストデータ送信手段と、
を備えることを特徴とする。

本発明のダイジェストデータ生成システムは、
サーバ装置に端末装置が接続されたダイジェストデータ生成システムであって、
前記端末装置は、
画像データを取得する画像データ取得手段と、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして前記サーバ装置に送信するコンテンツデータ送信手段と、
を備え
前記サーバ装置は、
前記端末装置から前記コンテンツデータを受信するコンテンツデータ受信手段と、
前記コンテンツデータに対して、複数の異なる特徴に基づき、特徴毎に所定時間長の区間毎の特徴量を決定する特徴量決定手段と、
前記特徴毎に決定した前記区間毎の特徴量に基づき前記区間毎の重要度を判定する重要度判定手段と、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成手段と、
前記ダイジェストデータを前記端末装置に送信するダイジェストデータ送信手段と、
を備えることを特徴とする。

本発明のダイジェストデータ生成方法は、
画像データを取得する画像データ取得ステップと、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして記憶する記憶ステップと、
前記コンテンツデータに対して所定時間長の区間毎に特徴量を決定する特徴量決定ステップと、
前記特徴量から、前記区間毎の重要度を判定する重要度判定ステップと、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成ステップと、
を含むことを特徴とする。

本発明のダイジェストデータ生成方法は、
画像データを取得する画像データ取得ステップと、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして記憶する記憶ステップと、
前記コンテンツデータに対して、複数の異なる特徴に基づき、特徴毎に所定時間長の区間毎の特徴量を決定する特徴量決定ステップと、
前記特徴毎に決定した前記区間毎の特徴量に基づき前記区間毎の重要度を判定する重要度判定ステップと、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成ステップと、
を含むことを特徴とする。

本発明のプログラムは、
コンピュータに、
画像データを取得する画像データ取得機能と、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして記憶する記憶機能と、
前記コンテンツデータに対して所定時間長の区間毎に特徴量を決定する特徴量決定機能と、
前記特徴量から、前記区間毎の重要度を判定する重要度判定機能と、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成機能と、
を実行させることを特徴とする。

本発明のプログラムは、
コンピュータに、
画像データを取得する画像データ取得機能と、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして記憶する記憶機能と、
前記コンテンツデータに対して、複数の異なる特徴に基づき、特徴毎に所定時間長の区間毎の特徴量を決定する特徴量決定機能と、
前記特徴毎に決定した前記区間毎の特徴量に基づき前記区間毎の重要度を判定する重要度判定機能と、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成機能と、
を実行させることを特徴とする。

本発明によれば、音声データと会議画像データとを含むコンテンツデータを記憶し、コンテンツデータの各所定の時間の区間に対し特徴量を決定し、当該特徴量から重要度を決定する。また、重要度に基づき、重要でない区間のコンテンツデータに含まれる画像データを削除することによって、コンテンツデータからダイジェストデータを生成することとなる。これによって、重要度に応じて記憶される情報量が変化するため、重要の場面の特定を容易にし、また、必要な記憶容量や通信帯域を抑えることが可能となる。

第１実施形態における会議支援システムの全体構成を説明するための図である。第１実施形態における表示装置の機能構成を説明するための図である。第１実施形態における会議データのデータ構成の一例を示した図である。第１実施形態における評価情報のデータ構成の一例を示した図である。第１実施形態におけるブックマーク情報のデータ構成の一例を示した図である。第１実施形態における重要度テーブルのデータ構成の一例を示した図である。第１実施形態におけるメイン処理を説明するための動作フローである。第１実施形態における参加者評価信号送信処理を説明するための動作フローである。第１実施形態における携帯端末装置の動作例を説明するための図である。第１実施形態における重要度決定処理を説明するための動作フローである。第１実施形態における重要度決定処理の動作例を説明するための図である。第１実施形態における最適化処理を説明するための動作フローである。第１実施形態における最適化処理の動作例を説明するための図である。第１実施形態におけるダイジェストデータ再生処理を説明するための動作フローである。第１実施形態におけるダイジェストデータ再生処理の動作例を説明するための図である。第２実施形態におけるダイジェストデータ再生処理を説明するための動作フローである。第２実施形態における再生区間絞込み処理を説明するための動作フローである。第２実施形態における再生区間抽出の動作例を説明するための図である。第２実施形態におけるダイジェストデータ再生処理の動作例を説明するための図である。第２実施形態におけるダイジェストデータ再生処理の動作例を説明するための図である。第３実施形態における重要度決定処理を説明するための動作フローである。第３実施形態における重要度決定処理の動作例を説明するための図である。第３実施形態における複数の特徴量を用いる場合の動作例を説明するための図である。第３実施形態におけるダイジェストデータ再生処理の動作例を説明するための図である。第４実施形態におけるダイジェストデータ再生処理の動作例を説明するための図である。第６実施形態における会議支援システムの全体構成を説明するための図である。第８実施形態における会議支援システムの全体構成を説明するための図である。

以下、本発明の実施の形態について、図面を参照して説明する。なお、本実施形態では、一例として、本発明におけるダイジェストデータ生成装置を有する表示装置を含めた、会議支援システムについて説明する。

［１．第１実施形態］
［１．１全体構成］
まず、本実施形態の会議支援システム１の全体構成について、図１に基づいて説明する。図１に示すように、会議支援システム１には、表示装置１０に、携帯端末装置２０がＮＷ（ネットワーク）及びＡＰ（アクセスポイント）を介して接続されている。携帯端末装置２０は、１つ接続されてもよいし、複数接続されてもよい。また、図１においては、携帯端末装置２０は、表示装置１０と同一ネットワークで接続されていることとして示しているが、別のネットワークを介して接続されていてもよい。また、有線接続されていてもよい。

さらに、表示装置１０にはボタン型ビーコン装置３０が１又は複数接続されてもよい。図１においては、ボタン型ビーコン装置３０は、表示装置１０と近距離間の通信手段によって接続されていることとして表示されているが、ネットワークで接続されていてもよい。また、ボタン型入力装置として有線接続されていてもよい。

［１．２機能構成］
表示装置１０の機能構成について、図２に基づいて説明する。表示装置１０は、制御部１１０と、記憶部１２０と、音声入出力部１４０と、映像入力部１５０と、通信部１６０と、操作部１７０と、表示部１８０とを備えて構成されている。

制御部１１０は、表示装置１０の全体を制御するための機能部である。制御部１１０は、記憶部１２０に記憶されている各種プログラムを読み出して実行することにより各種機能を実現しており、例えばＣＰＵ（Central Processing Unit）等により構成されている。

記憶部１２０は、表示装置１０の動作に必要な各種プログラムや、各種データが記憶されている機能部である。記憶部１２０は、例えば、半導体メモリや、ＨＤＤ（Hard Disk Drive）等により構成されている。

ここで記憶部１２０には、会議データ１２２と、評価情報１３２と、ブックマーク情報１３４と、重要度テーブル１３６と、ダイジェストデータ１３８とが記憶されている。ここで、会議データ１２２とは、会議に関する基本的な属性と、会議を記録したコンテンツデータとを、会議ごとに記憶したものである。本実施形態では、会議に関する基本的な属性を、会議の基本情報１２４として記憶する。また、コンテンツデータとして、音声データ１２６と、撮像データ１２８と、画面データ１３０とを記憶する。なお本実施形態においては、コンテンツデータとしては、音声データと画像データとを記憶することとして説明するが、動画データやその他の会議に関するデータを含めてもよい。

会議データ１２２に記憶されているデータについて、図３を参照して説明する。基本情報１２４は、会議に関する基本的な情報である。例えば、会議名（例えば「２０１７０４０３＿定例会議１」）と、会議の開始日時（例えば「２０１７年４月３日１０：００：００」）と、会議参加者（例えば「参加者Ａ、参加者Ｂ、参加者Ｃ」）といった会議の基本情報が記憶されている。これ以外にも、例えば会議場所や議題等といった、会議に関する情報を記憶してもよい。

音声データ１２６は、音声入出力部１４０に音声を入力し、出力された音声データを記憶したものである。音声データは、表示装置１０で再生・出力できる形式であればよく、例えば、ＭＰ３（MPEG Audio Layer-3）やＡＡＣ（Advanced Audio Coding）、ＷＡＶ等の音声符号化器により符号化された情報であるのが一般的である。

撮像データ１２８は、映像入力部１５０によって撮影され、出力された画像データを記憶したもので、例えば会議室内の様子を撮影した静止画データである。撮像データは、表示装置１０で表示できる形式であればよく、例えば、ＪＰＧ、ＧＩＦ、ＰＮＧ等の静止画データである。また、撮影の頻度は、１秒間に１枚や、１分に１２枚といったように、時間とその時間内に撮影する枚数とを設定すればよい。この撮影の頻度は、予め設定された間隔であってもよいし、利用者に設定された間隔であってもよい。

画面データ１３０は、会議において表示した画面をキャプチャし、画像データとして記憶させたものである。例えば、表示装置１０の表示部１８０に会議の資料を映し出して、表示部１８０を定期的にキャプチャすればよい。画像データは、表示装置１０で処理できる形式であればよく、例えば、ＪＰＧ、ＧＩＦ、ＰＮＧ等の静止画データであってよい。また、撮影の頻度は、１秒間に１枚や、１分に１２枚といったように、時間とその時間内に撮影する枚数とを設定すればよい。この撮影の頻度は、予め設定された間隔であってもよいし、利用者に設定された間隔であってもよい。

評価情報１３２について、図４を参照して説明する。評価情報１３２は、会議中に、会議参加者により入力された評価を記憶したものである。評価情報１３２には、会議名（例えば「２０１７０４０３＿定例会議１」）と、入力がされた日時を表す評価日時（例えば「２０１７／４／３１０：０４：２３」）と、入力された評価内容を表す感情タグ（例えば「ポジティブ」）とが記憶されている。

会議参加者が入力した評価内容については、例えば後述する携帯端末装置２０で動作するアプリケーションの操作によって表示装置１０へ入力される。また、感情タグは、ポジティブとネガティブ以外にあってもよく、例えば、「驚き」や「疑問を抱いた」といった評価を用いてもよい。

ブックマーク情報１３４について、図５を参照して説明する。ブックマーク情報１３４は、会議参加者が入力したブックマークの時点が記憶されており、例えば、会議を振り返る場合に、振り返る必要がある時点であると考えた時点を記憶する。ブックマーク情報１３４には、会議名（例えば「２０１７０４０３＿定例会議１」）と、ブックマーク日時（例えば「２０１７／４／３１０：０４：３４」）とが記憶されている。

ブックマーク情報の入力については、例えば、後述する携帯端末装置２０で動作するアプリケーションの操作によって表示装置１０へ入力される。

重要度テーブル１３６について、図６を参照して説明する。重要度テーブル１３６とは、所定の時間長の区間（例えば「１分」）ごとの重要度を記憶したものである。重要度テーブル１３６は、会議名（例えば「２０１７０４０３＿定例会議１」）と、区間を識別する区間番号（例えば「１」）と、区間開始日時（例えば「２０１７／４／３１０：００：００」）と、区間終了日時（例えば、「２０１７／４／３１０：０１：００」）と、区間の重要度（例えば「１」）とが記憶されている。

ここで重要度とは、会議における各区間が、当該会議においてどれくらい重要であるかを数値により表現したものである。本実施形態では、最も重要である区間の重要度を「４」とし、最も重要でない区間の重要度を「１」として、４段階で表現している。図６の例では、重要度が「４」である区間５４は重要な区間であり、重要度が「３」である区間５はそれに続くとしている。これらの区間は重要であることを表している。一方で、区間１から４や、区間６、区間５３、区間５５は重要度が「１」であるため、これらの区間は重要ではないことを表している。

なお、本実施形態においては、重要度を数値として表現しているが、例えば最大を１００パーセントとし表現するように、割合で重要度合いを細かく設定しても良い。数値以外にも、例えば「高」「中」「低」といった階級で表してもよいし、重要であるかないかといったフラグで表現してもよい。

ダイジェストデータ１３８は、重要度に基づいて、会議データ１２２から重要でない場面のデータを削除したデータである。ダイジェストデータ１３８には、会議データ１２２と同様に、会議の基本情報と、音声データと、撮像データと、画面データとが記憶される。ここで、会議データ１２２の撮像データ１２８や画面データ１３０の一部又は全てが、ダイジェストデータ１３８の撮像データ又は画面データに含まれていなくてよい。

音声入出力部１４０は、音声の入出力が可能な機能部である。入力された音声を処理して各機能部に音声データとして出力したり、音声データに基づいて音声を出力したりする。具体的には、マイクやスピーカやヘッドフォンによって構成されてもよいし、他の端末装置のマイクやスピーカを利用してもよい。

映像入力部１５０は、外部の映像を入力し映像データを生成する機能部である。例えば、カメラ等によって構成される。

通信部１６０は、携帯端末装置２０やボタン型ビーコン装置３０と通信を行うための機能部である。例えば、有線ＬＡＮにより通信可能な機能部であったり、無線ＬＡＮにより通信可能な機能部であったり、Ｂｌｕｅｔｏｏｔｈ（登録商標）といった近距離無線通信を行う機能部であったりする。ＬＡＮによる通信方式としては、Ｅｔｈｅｒｎｅｔ（登録商標）やＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎであってもよいし、ＬＴＥ（登録商標）通信網やＷｉＭＡＸ（登録商標）のような通信網であってもよい。

操作部１７０は、表示装置１０に指示を与えたり、データを入力したりするための機能部である。例えば、キーボードやマウスによって構成されている。

表示部１８０は、表示装置１０の利用者の操作のために必要な画面や、会議データを表示するための機能部である。例えば、ＬＣＤ（liquid crystal display）や、有機ＥＬディスプレイ、プロジェクタ等により構成されている。また、操作部１７０と一体に形成されたタッチパネルであってもよい。

［１．３処理の流れ］
つづいて、本実施形態における処理の流れについて説明する。

［１．３．１メイン処理］
図７は、表示装置１０のメイン処理について説明するフローチャートである。まず、利用者が操作部１７０を用いて、何らかの操作があったかどうかを判定する（ステップＳ１００２）。利用者の操作はキーボードによる入力操作であってもよいし、表示部１８０にメニューを表示し、マウスの操作による選択操作であってもよい。

何らかの操作が行われた場合、ステップＳ１００２で行われた操作が会議データ記憶操作であるかを判定する（ステップＳ１００２；Ｙｅｓ→ステップＳ１００４）。会議データ記憶操作であれば、利用者に会議の基本情報を入力させ、会議データの記憶を開始する（ステップＳ１００４；Ｙｅｓ→ステップＳ１００６）。

会議の基本情報として、例えば、会議名の入力を行う。この場合、会議参加者が操作部１７０を用いて会議名を入力してもよいし、予め表示装置１０に記憶させた定型文を選ばせてもよい。定型文としては、「定例会議」「緊急会議」等が考えられる。また、同名の別の会議を識別するために、日時や通し番号を加えたものを会議名として用いてもよい。例えば、定型文として「定例会議」を選択したときの会議名として「定例会議0001」としてもよい。

また、会議データの記憶の開始とは、具体的には音声入出力部１４０から入力される音声に基づく音声データ１２６の記憶する処理と、所定の間隔で撮像データ１２８及び会議画面のキャプチャ画像データである画面データ１３０とを記憶する処理とを開始することをいう。なお、本実施形態において記憶する撮像データと画面データとを含めたもの又はどちらか一方を会議画像データという。

ここで、会議画像データを所定の間隔で記憶する処理については、例えば周期的にカウンタを増加させるタイマを用意し、所定のカウント数に到達した場合に会議画像データを記憶するとともに、カウンタをリセットしてもよい。この場合、タイマが動作する周期が１秒とし、所定のカウント数を１５とすれば、１５秒ごと１枚の会議画像データが記憶されることとなる。

会議データの記憶がされている間は、感情タグを受信したかを判定する（ステップＳ１００８）。会議参加者が入力した感情タグを受信した場合は、会議名と、受信した日時と、受信した感情タグとを、評価情報１３２として記憶する（ステップＳ１００８；Ｙｅｓ→ステップＳ１０１０）。

また、ブックマーク情報を受信したかを判定する（ステップＳ１０１２）。ブックマーク情報を受信した場合は、会議名と、受信した日時とをブックマーク情報１３４として記憶する（ステップＳ１０１２；Ｙｅｓ→ステップＳ１０１４）。なお、本実施形態において、携帯端末装置２０から表示装置１０へ送信されるブックマーク情報は、ブックマークボタンが押されたという情報が含まれていればよい。

本実施形態では、感情タグを受信したこと及びブックマーク情報を受信したことは、携帯端末装置２０を操作することで送信される感情タグ及びブックマーク情報が、ネットワークを介して表示装置１０の通信部１６０で受信したかにより判定する。なお、携帯端末装置２０から表示装置１０へ送信される感情タグ及びブックマーク情報を、参加者評価信号（評価信号）という。

携帯端末装置２０から参加者評価信号を送信する方法について、図８を用いて説明する。はじめに、会議参加者は参加者評価信号を送信するためのアプリケーションを起動する（ステップＳ１０５２）。当該アプリケーションの動作例については後述する。

つづいて、アプリケーションの表示画面に配置されたボタンの選択操作があったかを判定する（ステップＳ１０５４）。ボタンの選択操作があった場合は（ステップＳ１０５４；Ｙｅｓ）、つづいて、どのボタンが選択されたかを判定する。

まず、ポジティブの感情タグを送信するためのボタンが選択されたかを判定する（ステップＳ１０５６）。当該ボタンが選択された場合は、ポジティブの感情タグを携帯端末装置２０から表示装置１０へ送信する（ステップＳ１０５６；Ｙｅｓ→ステップＳ１０５８）。送信後は、ステップＳ１０５４へ戻る。

つづいて、ネガティブの感情タグを送信するためのボタンが選択されたかを判定する（ステップＳ１０６０）。当該ボタンが選択された場合は、ネガティブの感情タグを携帯端末装置２０から表示装置１０へ送信する（ステップＳ１０６０；Ｙｅｓ→ステップＳ１０６２）。送信後は、ステップＳ１０５４へ戻る。

つづいて、ブックマーク情報を送信するためのボタンが選択されたかを判定する（ステップＳ１０６４）。当該ボタンが選択された場合は、ブックマーク情報を携帯端末装置２０から表示装置１０へ送信する（ステップＳ１０６４；Ｙｅｓ→ステップＳ１０６６）。送信後は、ステップＳ１０５４へ戻る。

なお、参加者評価信号には、感情タグ又はブックマーク情報以外に、送信日時の情報を含めてもよい。参加者評価信号に送信日時を含める場合には、評価情報１３２の評価日時又はブックマーク情報１３４のブックマーク日時として、表示装置１０の受信日時の代わりに、参加者評価信号に含まれる日時を記憶すればよい。

つづいて、アプリケーションの終了操作があったかを判定する（ステップＳ１０６８）。アプリケーションの終了操作があった場合は（ステップＳ１０６８；Ｙｅｓ）、参加者評価信号送信を送信するためのアプリケーションを終了する。終了操作としては、アプリケーションを終了する操作であったり、携帯端末装置２０の電源を切る操作であったりする。

参加者評価信号を送信するためのアプリケーションの動作例を、図９を参照して説明する。アプリケーションの表示画面Ｗ１００には、ポジティブの感情タグを送信するためのＬｉｋｅボタン（いいねボタン）Ｅ１００と、ネガティブの感情タグを送信するためのＨｍｍボタン（う〜んボタン）Ｅ１０２と、ブックマーク情報を送信するためのＢｏｏｋｍａｒｋボタンＥ１０４とが表示されている。会議参加者は、会議データが録音されている最中に、任意のタイミングでＬｉｋｅボタンと、Ｈｍｍボタンと、Ｂｏｏｋｍａｒｋボタンとをタッチすることができる。これらのボタンが会議参加者によってタッチされたときに、タッチされたボタンに応じて、携帯端末装置２０は、表示装置１０に、参加者評価信号を送信する。

なお、参加者評価信号の送信は、ボタン型ビーコン装置３０の操作によって送信してもよく、ボタンの押し方によって送信する参加者評価信号を変えてもよい。例えば、シングルクリックと、ダブルクリックと、長押しとが判定できるボタン型ビーコン端末、または、ボタン型入力端末であれば、シングルクリックでポジティブの感情タグを送信し、ダブルクリックでネガティブの感情タグを送信し、長押しでブックマーク情報を送信してもよい。

図７に戻って、つづいて、会議が終了したことを判定する（ステップＳ１０１６）。会議が終了したことは、例えば表示装置１０の表示部１８０に会議の終了を指示するためのボタンを表示し、会議参加者によって操作部１７０から入力される当該ボタン操作があったことによって判定してもよい。また、所定の時間が経過したときに、会議が終了したと判定してもよい。会議が終了していない場合は、ステップＳ１００８へ戻る（ステップＳ１０１２；Ｎｏ）。

会議が終了した場合は（ステップＳ１０１６；Ｙｅｓ）、会議データの記憶を停止する（ステップＳ１０１８）。すなわち、音声入出力部から入力される音声の記憶を停止し、会議画像データを所定の間隔で記憶する処理を停止する。

つづいて、重要度決定処理を行い（ステップＳ１０２０）、最適化処理を行う（ステップＳ１０２２）。重要度決定処理及び最適化処理の詳細については後述する。

つづいて、ステップＳ１００２でされた利用者の操作が、ダイジェストデータ再生操作であったかを判定する（ステップＳ１０２４）。ダイジェストデータ再生操作であった場合は、後述するダイジェストデータ再生処理を行う（ステップＳ１０２４；Ｙｅｓ→ステップＳ１０２６）。

つづいて、ステップＳ１００２でされた利用者の操作が、終了操作であったかを判定する（ステップＳ１０２８）。終了操作としては、電源ＯＦＦの操作であったり、プログラムを終了する操作であったりする。終了操作であった場合は、メイン処理を終了する（ステップＳ１０２８；Ｙｅｓ）。終了操作でなかった場合は、ステップＳ１００２へ戻る（ステップＳ１０２８；Ｎｏ）。

［１．３．２重要度決定処理］
つづいて、重要度決定処理について図１０を参照して説明する。重要度決定処理は、会議データの記憶を停止した後、評価情報１３２に記憶された感情タグに基づき、区間ごとに会議の重要度を算出する処理である。

まず、重要度決定処理の対象となる会議について、区間ごとに、区間内の感情タグに基づく特徴量を決定する（ステップＳ１１０２）。特徴量とは、評価情報や、音声データや、会議画像データといった会議データに関するデータにおいて、特定の特性に注目したときに、その特性を数値として表したものである。本実施形態においては、評価情報１３２に記憶されている評価日時と感情タグとから、区間ごとに、区間内に含まれる感情タグを用いて、特徴量を算出する。

感情タグに基づく特徴量の算出方法（決定方法）としては、以下のものを採用することができる。

（方法１）
どの区間にどの感情タグが集中したかの割合を特徴量とする方法である。具体的には、以下の手順によって算出する。なお、この特徴量をネガポジ度ということにする。
（１）ポジティブの全体平均値を、処理対象の会議の会議中に受信したポジティブの感情タグの総数を、当該会議の区間の数で除した値と定義する。
（２）ネガティブの全体平均値を、処理対象の会議の会議中に受信したネガティブの感情タグの総数を、当該会議の区間の数で除した値と定義する。
（３）区間ごとに区間値を求める。ここで区間値は、注目している区間に含まれるポジティブの感情タグの数とポジティブの全体平均値とを乗じた値から、当該区間に含まれるネガティブの感情タグの数とネガティブの全体平均値とを乗じた値を減じたものと定義する。ただし、０を下回った場合は、その区間の区間値は０とする。
（４）（３）で求めた区間値のうち、最大のものを、最大区間値と定義する。
（５）注目している区間のネガポジ度は、当該区間の区間値を、最大区間値で除した値に１００を乗じたもとする。

（方法２）
どの区間に感情タグの入力が集中したかの割合を特徴量として用いる方法である。体的には、以下の手順によって算出する。
（１）全体平均値として、処理対象の会議の会議中に送信された感情タグの総数を、当該会議の区間の数で除した値と定義する。
（２）区間ごとに区間値を求める。ここで区間値は、注目している区間に含まれる感情タグの数と全体平均値とを乗じた値と定義する。
（３）（２）で求めた区間値のうち、最大のものを、最大区間値と定義する。
（４）注目している区間の特徴量は、当該区間の区間値を、最大区間値で除した値に１００を乗じたもとする。

（方法３）
どの区間にポジティブの感情タグの入力が集中したかの割合を特徴量として用いる方法である。以下の手順によって算出する。
（１）全体平均値として、処理対象の会議の会議中に送信されたポジティブの感情タグの総数を、当該会議の区間の数で除した値と定義する。
（２）区間ごとに区間値を求める。ここで区間値は、注目している区間に含まれるポジティブの感情タグの数と全体平均値とを乗じた値と定義する。
（３）（２）で求めた区間値のうち、最大のものを、最大区間値と定義する。
（４）注目している区間の特徴量は、当該区間の区間値を、最大区間値で除した値に１００を乗じたもとする。

なお、上記に列挙した方法以外で特徴量を決定してもよいことは勿論である。たとえば、方法３において、ネガティブの感情タグを用いて算出した値を特徴量としてもよい。また、区間内に含まれる感情のタグのうち、ポジティブの感情のタグの数や、ネガティブの感情タグの数を特徴量としてもよいし、ポジティブの感情のタグの数からネガティブの感情のタグの数を引いたものを特徴量としてもよい。

つづいて、区間ごとに特徴量から重要度を決定する（ステップＳ１１０４）。決定の方法としては、例えば、ステップＳ１１０２で算出した特徴量がどの数値範囲に含まれるかによって決めればよい。すなわち、特徴量が高い区間に「４」、次に高い区間に「３」といったように重要度を決定する。なお、数値範囲については、予め定めたものを用いてもよいし、利用者が定めてもよい。また、数値範囲の設定は、記憶部１２０に記憶されていてもよい。

つづいて、重要度決定の対象としている会議の会議名と、区間番号と、区間の開始日時と、区間の終了日時と、ステップＳ１１０４で決定した区間の重要度とを、重要度テーブル１３６に記憶して（ステップＳ１１０６）、重要度決定処理は終了する。

重要度決定処理の動作例を、図１１を参照して説明する。図１１（ａ）は、区間番号と、区間開始日時と、区間終了日時と、ポジティブの感情タグの数と、ネガティブの感情タグの数と、ネガポジ度と、重要度とを示したものである。また、図１１（ｂ）はネガポジ度と重要度との対応表である。この例では、ネガポジ度が図１１（ｂ）の表のどの数値範囲に含まれるかによって、重要度を決定する。

図１１（ａ）のネガポジ度は、先述した特徴量の算出方法のうち、方法１に記載した方法によって求められる特徴量である。図１１（ａ）の例では、ポジティブの全体平均値は、会議全体のポジティブの数である５０から区間の数である５を除した１０となる。また、ネガティブの全体平均値は「３」であり、区間値の最大は区間番号が「３」である区間の１９４である。また、例えば、区間番号が「１」である区間のネガポジ度は、当該区間の区間値である５０から１９４を除して１００を掛けることにより、約２５．７７という値が算出される。

つづいて、ネガポジ度と、図１１（ｂ）に示した表とから、区間ごとに重要度を決定する。例えば、区間番号が「２」である区間のネガポジ度は７２．６８…であり、この値はネガポジ度が６０以上７５未満の範囲に含まれるため、当該区間の重要度は「３」と決定する。

［１．３．３最適化処理］
つづいて、最適化処理について図１２を参照して説明する。最適化処理とは、会議データ１２２から、会議画像データを区間の重要度に応じて削除したダイジェストデータ１３８を作成し、記憶する処理である。

はじめに、最適化処理の対象とする会議の先頭区間の重要度を、重要度テーブル１３６から読み出す（ステップＳ１１５２）。

つづいて、読み出した重要度に応じて、区間内の会議画像データのうち、削除対象の会議画像データを決定する（ステップＳ１１５４）。すなわち、最適化処理の対象とする会議データから、注目している区間に含まれる会議画像データのうち、どの会議画像データを削除するかを、当該注目している区間の重要度に応じて決定する。

削除対象とする会議画像データの決定や、削除する会議画像データの割合は、いずれか妥当な方法で決定する。例えば、削除する会議画像データの割合として、重要度が「４」であれば０％、「３」であれば５０％、「２」であれば７５％、「１」であれば１００％といったように決定すればよい。

上記の処理を全ての区間で行うため、対象とする会議の全ての区間の重要度を読み出したかを判定する（ステップＳ１１５６）。全て読み出していれない場合は、次の区間の重要度を読み出し（ステップＳ１１５６；Ｎｏ→ステップＳ１１５８）、ステップＳ１１５４へ戻る。

最適化処理の動作例について、図１３を参照して説明する。図１３は、重要度を縦軸に、経過時間を横軸にとったグラフと、経過時間に対応して記憶されている会議画像データＧ１００とを並べたものである。また、最適化処理を行った後の会議画像データを、経過時間に対応させて示したものを会議画像データＧ１０２として示したものである。

図１３の例では、区間としてｔ０からｔ１と、ｔ１からｔ２と、ｔ２からｔ３と、ｔ３からｔ４との４つの区間が含まれることを示す。また、区間ごとに、会議画像データが、４枚記憶されていることを示す。

ここで、削除する会議画像データの割合を、重要度が「４」であれば０％、「３」であれば５０％、「２」であれば７５％、「１」であれば１００％とする。このとき、ｔ０からｔ１の区間は重要度が１なので、この区間に含まれる全ての会議画像データを削除する。本実施形態においては、最適化の対象となる会議画像データは区間の開始時点の会議データとするが、区間の終わりの会議画像データであってもよい。また、ｔ１からｔ２の区間は重要度が４なので、この区間に含まれる会議画像データは削除しない。ｔ２からｔ３の区間は重要度が３なので、この区間に含まれる会議画像データの５０％を削除する。ここでは、区間の４分の１の時点と、区間の４分の３の時点における２枚の会議画像データを削除する。ｔ３からｔ４の区間は重要度が２なので、この区間に含まれる会議画像データの７５％を削除する。

以上により、会議画像データＧ１０２において、網点で示した時点の会議画像データが削除対象となり、網点で示していない時点の会議画像データが、後述するダイジェストデータの記憶処理において、ダイジェストデータに含まれる会議画像データとして記憶されることとなる。

なお、本実施形態ではステップＳ１１０６で重要度を重要度テーブル１３６に記憶し、ステップＳ１１５２で改めて重要度を読み出すものとして説明しているが、ステップＳ１１０４で重要度を決定したら、つづいて当該重要度に応じて会議画像データの削除を行ってもよい。

図１２に戻って、全ての区間の重要度を読み出した場合は、つづいてダイジェストデータを記憶する（ステップＳ１１５６；Ｙｅｓ→ステップＳ１１６０）。すなわち、会議データ１２２の基本情報１２４と、音声データ１２６と、ステップＳ１１５４において削除対象とされなかった撮像データ１２８と、画面データ１３０とを、ダイジェストデータ１３８として記憶する。

これにより、会議データ１２２よりもデータ量の少ないダイジェストデータ１３８が記憶されることとなる。なお、ダイジェストデータ１３８を記憶したあとに、元となった会議データ１２２を削除してもよい。ダイジェストデータ１３８のみを残すことにより、表示装置１０が保存するデータ量を小さくすることができる。

［１．３．４ダイジェストデータ再生処理］
つづいて、ダイジェストデータ再生処理について図１４を参照して説明する。

はじめに、記憶部１２０に記憶されているダイジェストデータ１３８を一覧表示する（ステップＳ１２０２）。一覧表示については、例えばダイジェストデータ１３８に含まれる基本情報の会議名をリストとして表示してもよいし、それ以外の基本情報や、会議画像データの一部を表示してもよい。

つづいて、利用者によってダイジェストデータ１３８が選択されたら（ステップＳ１２０４；Ｙｅｓ）、ポジティブの感情タグの数と、ネガティブの感情タグの数とに基づくネガポジグラフを表示し（ステップＳ１２０６）、ネガポジグラフ上にブックマーク情報を表示する（ステップＳ１２０８）。

ネガポジグラフは、ステップＳ１１０２で求めたネガポジ度を表示してもよいし、重要度テーブル１３６に記憶されている重要度を表示してもよい。また、会議の全区間における特徴量の変化を表示してもよいし、再生時点の前後における特徴量の変化を拡大して表示してもよいし、その両方を表示してもよい。すなわち、特徴量や重要度の変化を、再生時点に対応させて、適切に表示すればよい。

また、ブックマーク情報の表示は、ステップＳ１２０６で表示したネガポジグラフの対応する位置に、グラフに重ねて表示させてもよいし、ネガポジグラフとは別の領域にリストとして表示してもよい。

つづいて、ステップＳ１２０４で選択されたダイジェストデータ１３８に含まれる音声データの再生を開始する（ステップＳ１２１０）。また、再生時点に応じてネガポジグラフの表示を更新する（ステップＳ１２１２）。例えば、ネガポジグラフ上に再生位置を示す表示をしている場合は、当該再生位置を示す表示を適切な位置、大きさにするように更新する。また、ネガポジグラフが、再生時点の前後を拡大するように表示されている場合は、再生時点の変化に応じて、拡大する範囲を変える。

つづいて、再生時点における会議画像データが記憶されていれば、会議画像データを表示する（ステップＳ１２１４；Ｙｅｓ→ステップＳ１２１６）。会議画像データの表示については、例えば、会議の開始日時と音声の再生時点とから、再生時点に対応する実際の会議の時刻を求め、当該時刻より前に記憶した会議画像データのうち最新のものを表示すればよい。

つづいて、利用者がシークバー又はステップＳ１２０６で表示したネガポジグラフを選択したかを判定する（ステップＳ１２１８）。シークバー又はネガポジグラフが選択された場合は、選択された位置に再生時点を移動する（ステップＳ１２１８；Ｙｅｓ→ステップＳ１２２０）。その後、ステップＳ１２１２へ戻ることによって、移動時点におけるネガポジグラフ及び会議画像データが表示される。

つづいて、ダイジェストデータ再生処理を終了する操作を行ったかを判定する（ステップＳ１２２２）。終了操作がされた場合は、ダイジェスト表示処理を終了する（ステップＳ１２２２；Ｙｅｓ）。終了操作がされなかった場合は（ステップＳ１２２２；Ｎｏ）、ステップＳ１２１２へ戻り、ダイジェストデータ１３８の再生を続ける。

ダイジェストデータ再生処理の動作例を、図１５を参照して説明する。表示画面Ｗ１１０には、ダイジェストデータ１３８を選択するリストＥ１１０と、再生時点における実際の会議の時刻を表示するラベルＥ１１２と、ネガポジ度に基づいたネガポジグラフＥ１１４と、シークバーＥ１１８と、画面データ１３０を表示する領域Ｅ１２０と、撮像データ１２８を表示する領域Ｅ１２２と、会議の基本情報を表示する領域Ｅ１２４と、音声の再生を指示するボタンＥ１２６と、音声の再生の停止を指示するボタンＥ１２８とが表示されている。また、ブックマーク情報は、Ｅ１１６に示しているように、ネガポジグラフＥ１１４の上に重ねて表示している。

なお、この例では、会議の開始日時は「２０１７年４月３日の１０時００分００秒」であり、会議の長さは「５４分３０秒」であり、再生時点は「１０時６分４５秒」の時点である。したがって、実際の会議の時刻を表示するラベルＥ１１２には、「１０時６分４５秒」が表示されている。

また、１つの区間の長さは１分として、ネガポジグラフＥ１１４には、縦軸は各区間のポジティブの感情タグの数とネガティブの感情タグの数とを二軸でとり、横軸として実際の会議の時刻を表示している。例えば、「１０時０１分００秒」の時点に打たれている点は、「１０時００分００秒」から「１０時０１分００秒」までの１分間の間に入力された、ポジティブの感情タグの数又はネガティブの感情タグの数を合計したものである。

このようにすることで、利用者は会議参加者の反応があった部分を確認しながらダイジェストデータを再生することが可能となり、一方で、重要度に基づいて会議画像データを削除するため、ダイジェストデータのデータ量を削減することができる。

［２．第２実施形態］
つづいて、第２実施形態について説明する。第２実施形態は、ダイジェストデータ再生処理において、ダイジェストデータ全体ではなく、重要度が高い部分に限って再生する実施形態である。なお、第２実施形態は、第１実施形態と同一の機能構成である。また、処理についてはほぼ同じであるため、その説明を省略し、第１実施形態と異なる内容を中心に説明する。

本実施形態は、第１実施形態の図１４の処理を、図１６の処理に置き換えた実施形態である。ステップＳ１２０４でダイジェストデータ１３８を選択した後に、再生区間絞込み処理を行う（ステップＳ２００２）。再生区間絞込み処理については後述する。また、利用者の操作が再生区間絞込み操作であった場合は、ステップＳ２００２へ戻る（ステップＳ２００４；Ｙｅｓ）。

ここで、再生区間とは、本実施形態において再生する対象とする区間をいい、再生区間絞込みとは、ダイジェストデータ１３８の区間のうち利用者によって指定された条件に合致する区間を抽出し、再生区間とすることをいう。本実施形態における絞込み方法は、重要度を指定する方法と、再生時間を指定する方法とのいずれかを、利用者が指定できることとする。

再生区間絞込み処理について図１７を参照して説明する。はじめに、絞込み方法が重要度を指定する方法であるかを判定する（ステップＳ２０５２）。

絞込み方法が重要度を指定する方法であれば、利用者に抽出対象とする重要度の閾値を選択させる（ステップＳ２０５２；Ｙｅｓ→ステップＳ２０５４）。つづいて、重要度の閾値が指定されたら、指定された重要度の閾値に基づいて、再生対象の区間として抽出する（ステップＳ２０５６）。例えば、ダイジェストデータ１３８のうち重要度が指定した重要度以上の区間を抽出してもよいし、ダイジェストデータ１３８のうち指定した重要度に満たない区間を再生対象から除外することによって抽出してもよい。

つづいて、抽出された区間を再生対象の区間とし（ステップＳ２０７０）、再生区間絞込み処理を終了する。

絞込み方法が再生時間の指定であった場合は、利用者に再生時間を指定させる（ステップＳ２０５２；Ｎｏ→ステップＳ２０５８）。つづいて、指定された再生時間に基づき、再生対象の区間を抽出する。

再生時間に基づく再生対象の区間の抽出は、はじめに、重要度が最も高い区間を抽出する（ステップＳ２０６０）。つづいて、抽出した区間の長さが、ステップＳ２０５８で指定された再生時間と一致するかを判定する（ステップＳ２０６２）。一致すれば抽出した区間を再生対象の区間として、再生区間絞込み処理を終了する（ステップＳ２０６２；Ｙｅｓ→ステップＳ２０７０）。

抽出した区間の長さと、ステップＳ２０５８で指定された再生時間と一致しなかった場合は、当該抽出した区間の長さが再生時間を超えるかを判定する（ステップＳ２０６４）。再生時間を超えないのであれば（ステップＳ２０６４；Ｎｏ）、さらに重要度が１段階低い区間を含めて抽出し（ステップＳ２０６８）、さらに再生時間に収まるかを判定する（ステップＳ２０６２）。

再生時間を超える場合は（ステップＳ２０６４；Ｙｅｓ）、再生時間に収まるように抽出した区間を絞込む（ステップＳ２０６６）。この場合の再生時間に収まるように抽出した区間を絞込む例としては、再生時間に収まった重要度までを再生対象の区間として抽出してもよいし、特徴量に基づいて再生時間に収まるように、特徴量の大きさから順に優先的に再生対象の区間に含めてもよい。

再生区間絞込みの動作例を、図１８を参照して説明する。図１８（ａ）は、ポジティブの感情タグのみを用いて重要度を決定した場合の重要度と、ネガティブの感情タグのみを用いて重要度を決定した場合の重要度とを、二軸グラフ（例えば、上側をポジティブの感情タグ、下側をネガティブの感情タグ）で表したものである。例えば、「１０時０１分００秒」の時点に打たれている点は、「１０時００分００秒」から「１０時０１分００秒」までの区間のポジティブの感情タグ及びネガティブの感情タグを用いて算出したそれぞれの重要度が、ともに１であることを表している。

また、ｔ１とｔ２との間にブックマーク情報ｂ１が、ｔ４とｔ５との間にブックマーク情報ｂ２が、ｔ７とｔ８との間にブックマーク情報ｂ３が、それぞれ記憶されていることを表している。

例えば、重要度が２以上の区間のみを再生することとした場合、図１８（ａ）において矩形で囲んだ箇所は、重要度が「２」に満たない区間、すなわち重要度が「１」である区間が続いている部分である。この部分は、ダイジェストデータ１３８を振り返る際に、振り返る必要性がないとして、再生区間には含めない。

この結果、図１８（ｂ）に示すように、ダイジェストデータ１３８から、区間ｔ１とｔ２の間と、区間ｔ３とｔ４の間と、区間ｔ５とｔ６の間と、区間ｔ７からｔ８の間と、区間ｔ９からｔ１０の間とが再生対象の区間として抽出される。なお、ブックマーク情報ｂ２が存在する区間ｔ４とｔ５の間は再生区間には含まれないため、ダイジェストデータ１３８を再生する際には、当該ブックマーク情報が表示されなくてもよい。

なお、本実施形態では、重要度が「２」以上となるに隣接する区間における重要度「１」の区間は、再生区間に含むこととする。例えば、「１０：０４：００」は、ポジティブの感情タグ／ネガティブの感情タグの重要度が「１」以外であることから、その前後の時間についても再生対象区間として含まれている。

本実施形態におけるダイジェストデータ再生処理の動作例を、図１９を参照して説明する。表示画面Ｗ２００には、表示画面Ｗ１１０に表示した各要素に加えて、再生対象の区間の絞込みを設定するための領域Ｅ２００が表示されている。また、グラフＥ１１４に代えて、再生対象の区間を画面全体に引き伸ばし、連続している区間との境目を示す境界線の表示を加えたグラフＥ２０２を表示する。

なお、グラフＥ２０２は、再生時点の前後に対応する区間を拡大表示するなど、他の適切な形式で特徴量や重要度を表示しても構わない。さらに、表示画面Ｗ２００に代えて、図２０に示す表示画面Ｗ２１０を表示してもよい。表示画面Ｗ２１０には、会議画像データを表示する領域Ｅ２１０と、再生及び停止を切り替えるボタンＥ２１２と、シークバーＥ２１４と、再生時点における実際の会議の時刻を表示するラベルＥ２１６とが表示されている。

ここで、会議画像データは撮像データ又は画面データの両方を表示してもよいし、どちらか片方を表示してもよい。また、シークバーには連続している区間との境目を示す境界線を表示してもよい。

このようにすることで、ダイジェストデータ１３８のうち重要度の高い区間を絞り込み、当該区間に限って再生することで、利用者はダイジェストデータ１３８を効率よく振り返ることができる。また、再生できる区間が限られることにより、利用者が選択可能な再生時点も限定されることから、操作性の向上も期待できる。さらに、表示画面Ｗ２１０のように、表示画面上に表示する要素を限定することで、解像度が低い表示装置においても、利便性を保ったまま、会議の振り返りを行うことができる。

また、本実施形態を応用して、再生区間を絞り込んだ後のダイジェストデータをまとめて、１つの動画ファイルとしてダウンロードできるようにしてもよい。このようにすることで、動画を再生できる端末であれば、ダイジェストデータ１３８を再生することが可能となる。この場合、動画ファイルの再生時間を実際の会議よりも短くするために、音声データ１２６から再生対象でない区間の音声データを削除し、短くした音声データと、対応する会議画像データとから、動画を構成すればよい。

［３．第３実施形態］
つづいて、第３実施形態について説明する。第３実施形態は、第１実施形態と構成は同じであるが、重要度の決定に、感情タグから求められる特徴量と平均音量値との２つの特徴量を用いる実施形態である。なお、第３実施形態は、第１実施形態と同一の機能構成であり、処理についてもほぼ同一であるため、その説明を省略し、第１実施形態と異なる内容を中心に説明する。また、ステップＳ１１０２で算出する特徴量をネガポジ度であるとして説明する。

本実施形態は、第１実施形態の図１０の処理を、図２１の処理に置き換えた実施形態である。はじめに、重要度決定処理の対象となる会議について、区間ごとに、区間内の感情タグに基づき、第１の特徴量としてネガポジ度を算出する（ステップＳ１１０２）。つづいて、ネガポジ度から重要度判定値を決定する（ステップＳ３００２）。ここで、重要度判定値とは、複数の異なる特徴量を扱う場合に、それぞれの特徴量が取りうる値の範囲を吸収して、均一化した値として表した値である。

つづいて、第２の特徴量として区間ごとの平均音量値を算出する（ステップＳ３００４）。平均音量値としては、音声データ１２６の着目している区間について、当該区間の音量の平均値を用いてもよい。つづいて、平均音量値から重要度判定値を決定する（ステップＳ３００６）。

つづいて、ステップＳ３００２及びステップＳ３００６で算出した重要度判定値から区間ごとの重要度を決定し、重要度テーブル１３６に記憶する（ステップＳ３００８）。重要度の決定の方法としては、例えば、重要度判定値を加算した値に基づいて重要度を決定してもよい。この場合には、それぞれの重要度判定値に重み付けをしてもよい。また、ネガポジ度の重要度判定値と、平均音量値の重要度判定値とのいずれか大きい値に基づいて重要度を決定してもよい。

本実施形態における重要度決定処理の動作例について、図２２と図２３とを参照して説明する。図２２（ａ）は、区間番号と、区間開始日時と、区間終了日時と、第１の特徴量であるネガポジ度と、第２の特徴量である平均音量値とを表した表である。また、図２２（ｂ）は重要度判定値と第１及び第２の特徴量との対応を、図２２（ｃ）は重要度判定値の合計値と重要度との対応を、それぞれ表で示している。

図２２（ｄ）は、区間ごとの第１及び第２の特徴量と、それぞれの重要度判定値と、それぞれの重要度判定値の合計値と、重要度とを表した表である。例えば、区間番号「２」である区間では、第１の特徴量であるネガポジ度は「８０」なので、図２２（ｂ）の表からネガポジ度の重要度判定値を「５」とする。また、第２の特徴量である平均音量値は「７５ｄＢ」なので、図２２（ｂ）の表から平均音量値の重要度判定値を「５」とする。また、それぞれの重要度判定値を合計すると「１０」となるため、図２２（ｃ）より、当該区間の重要度を「４」と決定している。

図２３は、図２２（ａ）で示した第１の特徴量であるネガポジ度と、図２２（ｂ）で示した第２の特徴量である平均音量とをグラフで表し、最適化処理を行ったあとの状態の会議画像データＧ１０４を表した図である。例えば、ｔ１からｔ２の区間では、音量もネガポジ度も高いため、重要度を「４」とし、会議画像データは全て記憶される。一方で、ｔ３からｔ４の区間では、ネガポジ度は低くなり、音量がｔ１からｔ２の区間と比べて半分程度となっている。したがって、重要度を「２」と決定し、ｔ３からｔ４の区間に含まれる会議画像データが４枚のうち１枚が記憶される。

このように複数の特徴量から重要度を算出することで、会議において重要な区間を総合的に決定することができる。例えば、会議においては、会議参加者が会話に集中することで、携帯端末装置２０の操作をし忘れることが想定される。その場合であっても、平均音量値に基づく特徴量が大きければ、その区間は重要であると判断されることが期待できる。

また、本実施形態におけるダイジェストデータ再生処理の動作例を図２４に示す。ダイジェストデータ再生処理の処理内容は、第１実施形態のダイジェストデータ再生処理とほぼ同様であるが、ステップＳ１２０６において、ネガポジグラフの代わりに、特徴量であるネガポジ度と平均音量値とから判定された重要度判定値に基づくグラフを表示してもよい。例えば、グラフの上半分にネガポジ度に基づく重要度判定値を、グラフの下半分に平均音量値に基づく重要度判定値を表示する。また、それぞれの特徴量を表示してもよい。

ネガポジ度と平均音量値とに基づく特徴を表示することで、注目している区間が重要である理由が、会議参加者の評価に起因するのか、音量に起因するのか、又はその両方に起因するのかを判別することができる。こうすることで、利用者がそれぞれの特徴量の変化を確認しながら、重要な場面を振り返ることが可能となる。

なお、本実施形態では、ネガポジ度と平均音量値とを用いて重要度を決定したが、これ以外の特徴量を用いても構わないのは勿論である。例えば、会議画像データの変化量を特徴量として用いてもよい。これは、画像の変化量が多い場面は活発な動きをしていて、場の状況が変化しているため、重要であると考えるものである。また、特徴量は、区間内の会議画像データについて、１ピクセルあたりの画素値の変化量の平均を用いてもよい。

［４．第４実施形態］
つづいて、第４実施形態について説明する。第４実施形態は、第２実施形態と構成は同じであるが、再生区間を抽出する際に、重要度が高い区間の前後を含めて抽出する実施形態である。なお、第４実施形態は、第２実施形態と同一の機能構成である。また、処理については第２実施形態とほぼ同様であるため、その説明を省略し、第２実施形態と異なる内容を中心に説明する。

本実施形態においては、ステップＳ２０５６及びＳ２０６０において、重要度の高い区間の前に３区間、後に１区間を加えた区間を、重要度の高い区間として抽出する。これによって、重要度の高い区間の前後関係を含めて再生することができる。

本実施形態の動作例を、図２５を参照して説明する。表示画面Ｗ４００の構成は、図１９のＷ２００と変わらないが、再生区間を重要度の高い区間と当該区間の前後の区間とを含めた区間とし、グラフＥ４００においては、抽出された区間を結合して表示している。

重要度の高い区間の前後に含める区間の長さは、例えば、本実施形態の「前に３区間、後に１区間」といったように予め決めてもよいし、音声データや会議画像データの特徴量の変化が所定の閾値以下になるまでといったように動的に決めてもよい。

このようにすることで、重要度が高い区間に至る前後関係を含めて振り返ることができるため、会議をより明確に振り返ることができる効果が期待できる。

［５．第５実施形態］
つづいて、第５実施形態について説明する。第５実施形態は、第１実施形態と構成は同じであるが、音声データを解析して、話者の数や、話者といった会議環境情報を考慮して重要度を決定する実施形態である。

例えば、話者が１人である区間は、音量が小さくなるため、音量平均値という特徴量は小さい値となる。ここで、話者が１人である区間が続く場合は、当該区間を重要な区間であるとして平均音量値を補正してもよいし、会議環境情報に関する特徴量を設けて重要度の判定に用いてもよい。

このようにすることで、会議環境情報に応じて重要度を決めることができる。例えば、１人で発言している区間は、発表をしている区間と考え、重要な区間であるとすることができる。この場合、再生区間絞込み処理を行うと、発表をしている区間と、それに対する反応をしている区間とが、抽出できることが期待できる。

［６．第６実施形態］
つづいて、第６実施形態について説明する。第６実施形態は、生体情報を考慮して重要度を決定する実施形態である。生体情報とは、例えば会議参加者の脳波、心拍数、呼吸数等が挙げられる。

第６実施形態は、第１実施形態の図１の全体構成を、図２６の全体構成に置き換えた実施形態である。図２６に示すように、会議支援システム１には、表示装置１０に、携帯端末装置２０とボタン型ビーコン装置３０とが複数接続されている。また、表示装置１０に、生体情報計測装置４０が複数接続されている。図２６においては、生体情報計測装置４０は、表示装置１０と同一ネットワークで接続されていることとして表示されているが、別のネットワークを介して接続されていてもよい。また、有線接続されていてもよい。

生体情報計測装置４０は、当該装置を装着した者の生体情報を計測することができる装置であるものとする。例えばスマートウォッチや、ヘッドセット型の脳波測定器であってもよい。

生体情報の測定結果は、会議データの記憶中に表示装置１０に随時送信してもよいし、会議を行っている最中は生体情報の記憶を行い、会議終了後にデータを表示装置１０へ送信してもよい。

生体情報から重要度を決定するには、生体情報から重要度を直接決定してもよい。また、生体情報から重要度判定値を求め、当該重要度判定値と他の重要度判定値とから、重要度を決定してもよい。

このようにすることで、会議参加者による評価や、発言といった、能動的な動作による特徴量に加えて、会議参加者の生体情報を考慮した特徴量を用いて、重要度を総合的に決定できることが期待できる。

［７．第７実施形態］
つづいて、第７実施形態について説明する。第７実施形態は、重要度を平均音量値に基づいて決定する実施形態である。

具体的には、例えば、図１０の重要度決定処理において、区間ごとに感情タグに基づく特徴量を算出する処理を行うかわりに、区間ごとの平均音量値を求め、その平均音量値に基づいて重要度を決定すればよい。もしくは、図２１の重要度決定処理において、感情タグの特徴量から決定される重要度判定値の重みを０として、重要度を決定してもよい。

このようにすることで、携帯端末装置２０やボタン型ビーコン装置３０を使用できない場合であっても、会議データのみから、ダイジェストデータを作成することができる。

［８．第８実施形態］
つづいて、第８実施形態について説明する。第８実施形態は、会議データを記憶する装置と、ダイジェストデータを作成し、記憶する装置とを別にした、クライアントサーバ方式による実施形態である。

第８実施形態は、第１実施形態の図１の全体構成を、図２７の全体構成に置き換えた実施形態である。ここで、表示装置１０と、サーバ装置５０とは、ネットワークを介して接続されている。図２７では、表示装置１０と、サーバ装置５０とが同一のネットワーク内に存在するものとして表現しているが、それぞれの装置が別のネットワークに存在してもよい。

メイン処理について、図７を参照して、クライアント側である表示装置１０とサーバ装置５０との動作を説明する。例えば、ステップＳ１００６において、会議の基本情報を表示装置１０に入力されたら、入力された情報を表示装置１０に記憶し、また、サーバ装置５０に送信する。送信されたデータをサーバ装置５０が受信することで、サーバ装置５０は会議が開始されたことを検知できる。

つづいて、表示装置１０が定期的に記憶する会議画像データや、ステップＳ１００８やステップＳ１０１２において表示装置１０が受信する参加者評価信号を、会議名とともにサーバ装置５０に送信する。サーバ装置５０は受信した会議画像データや参加者評価信号を、会議名と紐付けて記憶する。

また、ステップＳ１０１８において、表示装置１０で会議データの記憶を停止させたら、音声データを会議名とともにサーバ装置５０へ送信する。サーバ装置５０は受信した音声データを会議名と紐付けて記憶したら、ステップＳ１０２０の重要度決定処理と、ステップＳ１０１２の最適化処理とを行う。

さらに、ステップＳ１０２４において、表示装置１０でダイジェストデータの再生を行う場合は、表示装置１０は、サーバ装置５０が記憶しているダイジェストデータを取得すればよい。

上述したように、メイン処理の一部をサーバ装置５０が行うことで、表示装置１０は会議データの記憶及びサーバ装置５０への送信と、参加者評価信号の受信及びサーバ装置５０への送信とを行えばよいこととなる。これによって、表示装置１０が性能の低い装置であっても、ダイジェストデータの作成及び閲覧が可能となる。

また、最適化処理により、サーバ装置５０から表示装置１０へ送信される会議画像データのデータ量が、元の会議データと比較して削減されるため、効率的にダイジェストデータを閲覧することができる。

［９．変形例］
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成は実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も特許請求の範囲に含まれる。

上述した実施形態は、説明の都合上、各実施形態を分けて説明しているが、可能な範囲で組み合わせて実行することが可能である。例えば、第１実施例と第２実施例を組み合わせて、会議全体を再生する表示画面Ｗ１１０と、当該表示画面Ｗ２００とを切り替えるためのボタンを表示されていてもよい。

なお、上述した実施形態は、会議を対象として説明をしているが、会議以外に応用してもよいことは勿論である。例えば、研修や授業といった会議に似た環境に応用することをはじめ、音声データと映像データをともに扱う分野（例えばスポーツを記録したデータ等）に応用してもよい。

また、上述した実施形態は、会議画像データとして撮像データと画面データと含むと説明しているが、どちらか一方のみを用いる実施形態であってもよいし、会議画像データを用いない実施形態であってもよい。また、複数のカメラを用いて撮像データの種類を増やしてもよいし、複数の画面をキャプチャして、画面データの種類を増やしたりしてもよい。ダイジェスト再生画面においては、会議データとして記憶している会議画像データの種類の数だけ、会議画像データを表示する領域を設ければよい。

また、実施形態において各装置で動作するプログラムは、上述した実施形態の機能を実現するように、ＣＰＵ等を制御するプログラム（コンピュータを機能させるプログラム）である。そして、これら装置で取り扱われる情報は、その処理時に一時的に一時記憶装置（例えば、ＲＡＭ）に蓄積され、その後、ＨＤＤやＳＳＤ（solid state drive）等の記憶装置に格納され、必要に応じてＣＰＵによって読み出し、修正・書き込みが行なわれる。

また、市場に流通させる場合には、可搬型の記録媒体にプログラムを格納して流通させたり、インターネット等のネットワークを介して接続されたサーバコンピュータに転送したりすることができる。この場合、サーバコンピュータの記憶装置も本発明に含まれるのは勿論である。

１０表示装置
１１０制御部
１２０記憶部
１２２会議データ
１２４基本情報
１２６音声データ
１２８撮像データ
１３０画面データ
１３２評価情報
１３４ブックマーク情報
１３６重要度テーブル
１３８ダイジェストデータ
１４０音声入出力部
１５０映像入力部
１６０通信部
１７０操作部
１８０表示部
２０携帯端末装置
３０ボタン型ビーコン装置

Claims

画像データを取得する画像データ取得手段と、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして記憶する記憶手段と、
前記コンテンツデータに対して所定時間長の区間毎に特徴量を決定する特徴量決定手段と、
前記区間毎の特徴量から、前記区間毎の重要度を判定する重要度判定手段と、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成手段と、
を備えることを特徴とするダイジェストデータ生成装置。
前記特徴量決定手段は、前記音声データの音量に基づいて前記特徴量を決定することを特徴とする請求項１に記載のダイジェストデータ生成装置。
評価信号を取得する評価信号取得手段を更に備え、
前記特徴量決定手段は、前記評価信号に基づいて前記特徴量を決定することを特徴とする請求項１又は２に記載のダイジェストデータ生成装置。
前記評価信号は、ポジティブな感情及び／又はネガティブな感情を示す評価であることを特徴とする請求項３に記載のダイジェストデータ生成装置。
画像データを取得する画像データ取得手段と、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして記憶する記憶手段と、
前記コンテンツデータに対して、複数の異なる特徴に基づき、特徴毎に所定時間長の区間毎の特徴量を決定する特徴量決定手段と、
前記特徴毎に決定した前記区間毎の特徴量に基づき前記区間毎の重要度を判定する重要度判定手段と、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成手段と、
を備えることを特徴とするダイジェストデータ生成装置。
評価信号を取得する評価信号取得手段を更に備え、
前記特徴量決定手段は、前記音声データの音量に基づく特徴量を第１特徴量とし、前記評価信号に基づく特徴量を第２特徴量とすることを特徴とする請求項５に記載のダイジェストデータ生成装置。
画像を撮像する撮像手段を更に備え、
前記画像データ取得手段は、前記撮像手段により時系列的に撮像された画像を画像データとして取得することを特徴とする請求項１から６の何れか一項に記載のダイジェストデータ生成装置。
前記ダイジェストデータ生成手段は、前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データ及び前記音声データを削除したダイジェストデータを生成することを特徴とする請求項１から７の何れか一項に記載のダイジェストデータ生成装置。
前記ダイジェストデータ生成手段は、前記コンテンツデータから、前記区間毎に判定された重要度に基づいて、前記画像データ及び前記音声データを削除したダイジェストデータから動画データを生成することを特徴とする請求項１から８の何れか一項に記載のダイジェストデータ生成装置。
前記請求項１から９の何れか一項に記載のダイジェストデータ生成装置において生成されたダイジェストデータを再生するダイジェストデータ再生装置において、
ダイジェストデータに含まれる音声データの再生時点を選択する再生時点選択手段と、
前記再生時点に対応して、前記特徴量の時系列の変化を表すグラフを表示するグラフ表示手段と、
を備えたことを特徴とするダイジェストデータ再生装置。
前記再生時点選択手段は、前記重要度判定手段により判定された前記区間毎の重要度に基づいて、選択可能な再生時点を限定することを特徴とする請求項１０に記載のダイジェストデータ再生装置。
サーバ装置に端末装置が接続されたダイジェストデータ生成システムであって、
前記端末装置は、
画像データを取得する画像データ取得手段と、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして前記サーバ装置に送信するコンテンツデータ送信手段と、
を備え
前記サーバ装置は、
前記端末装置から前記コンテンツデータを受信するコンテンツデータ受信手段と、
前記コンテンツデータに対して所定時間長の区間毎に特徴量を決定する特徴量決定手段と、
前記区間毎の特徴量から、前記区間毎の重要度を判定する重要度判定手段と、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成手段と、
前記ダイジェストデータを前記端末装置に送信するダイジェストデータ送信手段と、
を備えることを特徴とするダイジェストデータ生成システム。
サーバ装置に端末装置が接続されたダイジェストデータ生成システムであって、
前記端末装置は、
画像データを取得する画像データ取得手段と、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして前記サーバ装置に送信するコンテンツデータ送信手段と、
を備え
前記サーバ装置は、
前記端末装置から前記コンテンツデータを受信するコンテンツデータ受信手段と、
前記コンテンツデータに対して、複数の異なる特徴に基づき、特徴毎に所定時間長の区間毎の特徴量を決定する特徴量決定手段と、
前記特徴毎に決定した前記区間毎の特徴量に基づき前記区間毎の重要度を判定する重要度判定手段と、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成手段と、
前記ダイジェストデータを前記端末装置に送信するダイジェストデータ送信手段と、
を備えることを特徴とするダイジェストデータ生成システム。
画像データを取得する画像データ取得ステップと、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして記憶する記憶ステップと、
前記コンテンツデータに対して所定時間長の区間毎に特徴量を決定する特徴量決定ステップと、
前記区間毎の特徴量から、前記区間毎の重要度を判定する重要度判定ステップと、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成ステップと、
を含むことを特徴とするダイジェストデータ生成方法。
画像データを取得する画像データ取得ステップと、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして記憶する記憶ステップと、
前記コンテンツデータに対して、複数の異なる特徴に基づき、特徴毎に所定時間長の区間毎の特徴量を決定する特徴量決定ステップと、
前記特徴毎に決定した前記区間毎の特徴量に基づき前記区間毎の重要度を判定する重要度判定ステップと、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成ステップと、
を含むことを特徴とするダイジェストデータ生成方法。
コンピュータに、
画像データを取得する画像データ取得機能と、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして記憶する記憶機能と、
前記コンテンツデータに対して所定時間長の区間毎に特徴量を決定する特徴量決定機能と、
前記区間毎の特徴量から、前記区間毎の重要度を判定する重要度判定機能と、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成機能と、
を実行させるプログラム。
コンピュータに、
画像データを取得する画像データ取得機能と、
音声データと、音声データに対応して定期的に取得された画像データとをコンテンツデータとして記憶する記憶機能と、
前記コンテンツデータに対して、複数の異なる特徴に基づき、特徴毎に所定時間長の区間毎の特徴量を決定する特徴量決定機能と、
前記特徴毎に決定した前記区間毎の特徴量に基づき前記区間毎の重要度を判定する重要度判定機能と、
前記コンテンツデータから、前記区間毎に判定された重要度に応じて、前記画像データを削除したダイジェストデータを生成するダイジェストデータ生成機能と、
を実行させるプログラム。