JP2019101754A

JP2019101754A - 要約装置及びその制御方法、要約システム、プログラム

Info

Publication number: JP2019101754A
Application number: JP2017232087A
Authority: JP
Inventors: 元気池田; Motoki Ikeda
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2019-06-24
Also published as: US11281707B2; US20190171760A1

Abstract

【課題】音声と画像の双方から要約を得る要約装置、その制御方法、要約システム及びプログラムを提供する。【解決手段】会議システム１００（要約システム）において、会議装置１０１は、音声データを含む音声情報テーブル、画像データを含む画像情報テーブル等を生成する。会議サーバ１０２は、音声情報テーブルの音声データをテキスト化して発話テーブルを生成し、画像情報テーブルの画像データをテキスト化して記入テーブルを生成する。そして会議サーバ１０２は、発話テーブル、記入テーブルを統合して会議テキストテーブルを生成し、さらに会議テキストテーブルを要約して、要約テーブルを生成し、要約テーブル等に基づいて議事録を生成する。【選択図】図１

Description

本発明は、議事録生成等のための要約情報を得る要約装置等に関する。

従来、議事録を生成するシステムが知られている。特許文献１は、人の発話を音声認識してテキスト化し、要約することで、議事録を生成する。また特許文献１は、映像に含まれる文字を画像認識してテキスト化し、要約することで、議事録を生成する。特許文献１の技術によれば、人の発話から得たテキスト（以降「発話テキスト」と呼称する）のみを要約して議事録を作成することができる。さらに特許文献１は、映像に含まれる文字を画像認識してテキスト化し、要約するので、例えばユーザが記入した文字から得たテキスト（以降「記入テキスト」と呼称する）のみを要約して議事録を作成することもできる。

特許第５１０４７６２号公報

しかしながら、発話テキストと記入テキストのどちらか一方のみから作成した議事録では、情報の欠落が生じる可能性がある。例えば、ユーザは、記入媒体に記入した内容を必ずしも発話しない場合があるし、発話した内容を必ずしも記入しない場合がある。

より具体的には、会議における議論の中で、ポイントとなる発話があった時に、記入媒体には、発話をそのまま記入せずに、より適切・簡潔な表現に置き換えて記入することがある。あるいは、前回の会議で洗い出した論点等、既知の事柄を書き出した場合、それらを全て読み上げて発話せずに、指し示しながら「この点については〜」などのように発話する場合がある。また、一般にユーザは、記入媒体にはポイントを記入して可視化するので、それらポイントを導き出すまでの経過や背景は発話にしか現れず、記入媒体には記入されない場合がある。

このように、発話テキストと記入テキストのいずれか一方のみを要約して議事録を作成した場合、重要な情報の欠落が生じるおそれがあり、好ましい議事録を生成できない場合があった。

本発明は、音声と画像の双方から要約を得ることを目的とする。

上記目的を達成するために本発明は、音声データをテキスト化して第１のテキスト情報を生成する第１の生成手段と、画像データをテキスト化して第２のテキスト情報を生成する第２の生成手段と、前記第１の生成手段により生成された第１のテキスト情報と前記第２の生成手段により生成された第２のテキスト情報とを統合して、少なくとも１つのテキストから成る統合テキスト情報を生成する統合手段と、前記統合手段により統合された統合テキスト情報を要約して要約情報を生成する要約手段と、を有することを特徴とする。

本発明によれば、音声と画像の双方から要約を得ることができる。

要約装置を含む会議システムの全体構成図である。会議装置、会議サーバのハードウェア構成例を示すブロック図である。会議装置の表示デバイスに表示される画面の遷移図である。音声情報テーブル、画像情報テーブル、アジェンダ情報テーブルの構成例を示す図である。会議情報記録処理のフローチャートである。発話テーブル、記入テーブル、会議テキストテーブルを示す図である。要約テーブルを示す図である。議事録生成処理のフローチャートである。議事録の一例を示す図である。要約テキスト生成処理のフローチャートである。会議システムの全体構成図である。表示画像テーブル、電子記入画像テーブルを示す図である。会議情報記録処理のフローチャートである。議事録生成処理のフローチャートである。会議情報生成処理のフローチャートである。

以下、図面を参照して本発明の実施の形態を説明する。

（第１の実施の形態）
図１は、本発明の第１の実施の形態に係る要約装置を含む会議システムの全体構成図である。この会議システム１００（要約システム）は、会議装置１０１と、要約装置としての会議サーバ１０２とを有する。会議装置１０１と会議サーバ１０２とはネットワーク１０３を介して接続されている。会議装置１０１は、会議サーバ１０２と通信可能な端末装置である。

会議装置１０１は、会議室などの会議開催場所に配置され、例えば会議テーブルの上に置かれる。会議装置１０１は、音声や画像など複数の種類のデータ（以降「会議情報」と呼称する）を記録する。会議装置１０１は、会議情報（図４で後述）を会議サーバ１０２に送信する。なお、図１において、会議システム１００は、会議装置１０１と会議サーバ１０２をそれぞれ１台ずつ備えるが、会議装置１０１及び会議サーバ１０２のいずれかまたは双方を複数備えてもよい。会議装置１０１は、例えばオフィスや所定の会場等において開催される会議を記録する。しかし、本発明で対象とする会議は、複数の人物の視認や発声行動を伴う集まりであればよく、オフィスや所定の会場等において開催される会議に限定されず、例えば、面接や取り調べ等であってもよい。

会議サーバ１０２は、一般的なＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）やクラウドサーバであり、会議装置１０１から会議情報を受信し、これを解析・加工して議事録（図９で後述）を作成する。会議サーバ１０２は、会議情報に含まれる音声データを音声認識してテキストを生成する。会議サーバ１０２はまた、会議情報に含まれる画像データを文字認識（画像認識）してテキストを生成する。会議サーバ１０２は、これらテキストを含む情報より議事録を作成し、作成した議事録を配信する。

図２（ａ）、（ｂ）はそれぞれ、会議装置１０１、会議サーバ１０２のハードウェア構成例を示すブロック図である。会議装置１０１は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、ストレージ２０５、入力デバイス２０６、表示デバイス２０７、外部インターフェース２０８、カメラデバイス２０９、マイクデバイス２１０を備える。これら各部は、データバス２０３を介して相互にデータを送受信することができる。ＣＰＵは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略称である。ＲＡＭは、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略称である。ＲＯＭは、ＲｅａｄＯｎｌｙＭｅｍｏｒｙの略称である。

ＣＰＵ２０１は、この会議装置１０１全体を制御するためのコントローラである。ＣＰＵ２０１は、不揮発メモリであるＲＯＭ２０２に格納されているブートプログラムによりＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）を起動する。ＣＰＵ２０１は、このＯＳの上で、ストレージ２０５に記録されているコントローラプログラムを実行する。コントローラプログラムは、会議装置１０１全体を制御するプログラムである。ＣＰＵ２０１は、データバス２０３を介して各部を制御する。ＲＡＭ２０４は、ＣＰＵ２０１のメインメモリやワークエリア等の一時記憶領域として動作する。ストレージ２０５は、読み出しと書き込みが可能な不揮発メモリであり、前述のコントローラプログラムを保存する。また、会議装置１０１は、会議情報を会議サーバ１０２へ送信するまでの間、ストレージ２０５に会議情報を保存する。

入力デバイス２０６は、タッチパネルやハードキー、マウスなどから構成さる入力装置である。入力デバイス２０６は、ユーザの操作指示を受け付けるとそれをＣＰＵ２０１に伝達する。表示デバイス２０７は、ＬＣＤなどの表示装置であり、ＣＰＵ２０１が生成した表示画像データを画面上に表示する。ＣＰＵ２０１は、入力デバイス２０６から受信した指示情報と、表示デバイス２０７に表示させている表示画像データとに基づいて、操作を判定する。その判定結果に応じて、ＣＰＵ２０１は、会議装置１０１を制御するとともに、操作内容に応じて新たな表示画像データを生成し、表示デバイス２０７に表示させる。外部インターフェース２０８は、ＬＡＮや電話回線、赤外線といった近接無線などのネットワークを介して、別体の外部機器（不図示）と各種データの送受信を行う。カメラデバイス２０９は、いわゆるデジタルカメラまたはビデオカメラ等の撮像装置であり、動画や画像を撮影することができる。マイクデバイス２１０は、入力された音声をデジタル信号化し、例えばＷＡＶなどの音声データとして取得する。

会議サーバ１０２は、ＣＰＵ２５１、ＲＯＭ２５２、ＲＡＭ２５４、ストレージ２５５、入力デバイス２５６、表示デバイス２５７、外部インターフェース２５８を備える。各部は、データバス２５３を介して相互にデータを送受信することができる。ＣＰＵ２５１は、会議サーバ１０２全体を制御するためのコントローラである。ＣＰＵ２５１は、不揮発メモリであるＲＯＭ２５２に格納されているブートプログラムによりＯＳを起動する。ＣＰＵ２５１は、このＯＳの上で、ストレージ２５５に記憶されている会議サーバプログラムを実行する。ＣＰＵ２５１がこの会議サーバプログラムを実行することより、会議サーバ１０２の各処理を実現する。ＣＰＵ２５１は、データバス２５３を介して各部を制御する。ＲＡＭ２５４は、ＣＰＵ２５１のメインメモリやワークエリア等の一時記憶領域として動作する。ストレージ２５５は、読み出しと書き込みが可能な不揮発メモリであり、前述の会議サーバプログラムを保存する。外部インターフェース２５８、入力デバイス２５６および表示デバイス２５７の構成はそれぞれ、会議装置１０１の外部インターフェース２０８、入力デバイス２０６および表示デバイス２０７（図２（ａ））と同様である。

次に、会議システム１００が提示し、ユーザが参照・操作するユーザインターフェースについて説明する。図３（ａ）〜（ｅ）は、会議装置１０１の表示デバイス２０７に表示される画面の遷移図である。

まず、図３（ａ）に示す画面３００は、会議開始前に表示される画面である。ユーザは、会議装置１０１に会議の開始を指示するために、入力デバイス２０６を介して「開始」ボタン３０１を指示する。ＣＰＵ２０１は、「開始」ボタン３０１への指示を受け付けると、表示デバイス２０７に、図３（ｂ）に示す画面３１０を表示させる。そして、ＣＰＵ２０１は、会議情報の記録を開始する。画面３１０は、会議中に表示される画面である。ユーザは、会議装置１０１に撮影要求を指示するために、入力デバイス２０６を介して「撮影」ボタン３１１を指示する。ＣＰＵ２０１は、「撮影」ボタン３１１への指示を受け付けると、表示デバイス２０７に、図３（ｃ）に示す画面３２０を表示させる。

「アジェンダ」ボタン３１２は、ユーザが会議装置１０１にアジェンダ（議題）の変更（開始や終了）を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「アジェンダ」ボタン３１２への指示を受け付けると、表示デバイス２０７に、図３（ｄ）に示す画面３３０を表示させる。「終了」ボタン３１３は、ユーザが会議装置１０１に会議の終了を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「終了」ボタン３１３への指示を受け付けると、表示デバイス２０７に、図３（ｅ）に示す画面３４０を表示させる。

図３（ｃ）に示す画面３２０は、撮影をする際に表示する画面である。画面３２０には、カメラデバイス２０９により得られる被写体の映像が表示される。ユーザは、当該映像を見ながら、文字を記入したホワイトボードや紙が、会議装置１０１の撮影画角に収まるよう調整することができる。ＣＰＵ２０１は、入力デバイス２０６を介して画面３２０の任意箇所への指示を受け付けると、カメラデバイス２０９により被写体を撮影して画像データを取得する。「ＯＫ」ボタン３２１は、ユーザが会議装置１０１に撮影終了を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「ＯＫ」ボタン３２１への指示を受け付けると、表示デバイス２０７に、画面３１０（図３（ｂ））を表示させる。

画面３３０（図３（ｄ））は、アジェンダの変更を指示する際に表示される画面である。テキストフィールド３３１は、ユーザが会議装置１０１にアジェンダ名を登録するためのものである。ユーザは入力デバイス２０６を介して、テキストフィールド３３１に、所望のアジェンダ名を入力することができる。「開始」ボタン３３２は、ユーザが会議装置１０１に、新しいアジェンダの開始を指示するためのものである。「終了」ボタン３３３は、ユーザが会議装置１０１に、現在のアジェンダの終了を指示するためのものである。なお、終了されたアジェンダは、そのアジェンダ名がテキストエリア３３４にリスト表示される。「ＯＫ」ボタン３３５は、ユーザが会議装置１０１に、アジェンダ変更の終了を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「ＯＫ」ボタン３３５への指示を受け付けると、表示デバイス２０７に、画面３１０（図３（ｂ））を表示させる。

図３（ｅ）に示す画面３４０は、会議を終了する際に表示される画面である。テキストフィールド３４１は、ユーザが会議装置１０１に、会議システム１００が作成する議事録の送信先を指定するためのものである。ユーザは入力デバイス２０６を介して、テキストフィールド３４１に所望の送信先を入力することができる。送信先としては例えば、メールアドレスが採用されるが、それに限定されない。「ＯＫ」ボタン３４２は、ユーザが会議装置１０１に、会議終了の確定を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「ＯＫ」ボタン３４２への指示を受け付けると、表示デバイス２０７に画面３００（図３（ａ））を表示させる。そして会議装置１０１は、会議情報の記録を終了し、会議情報を会議サーバ１０２へ送信する。その後、会議サーバ１０２は、受信した会議情報を解析・加工して議事録を生成し、送信先に送信する。

次に、会議装置１０１によってストレージ２０５に記録される会議情報について説明する。図４（ａ）、（ｂ）、（ｃ）はそれぞれ、音声情報テーブル４００、画像情報テーブル４１０、アジェンダ情報テーブル４２０の構成例を示す図である。これらのテーブルで会議情報が構成される。音声情報テーブル４００（図４（ａ））は、会議装置１０１が録音して得る音声に関する情報（以降「音声情報」と呼称する）を記録するデータテーブルである。会議装置１０１は、会議中の会話を録音して音声データを取得し、記録する。録音開始時刻列４０１には、録音開始時刻（会議開始時刻）が記録され、録音終了時刻列４０２には、録音終了時刻（会議終了時刻）が記録される。音声データ列４０３には、ストレージ２０５に記録された音声データのファイル名が記録される。

画像情報テーブル４１０（図４（ｂ））は、会議装置１０１が撮影して得る画像に関する情報（以降「画像情報」と呼称する）を記録するデータテーブルである。会議装置１０１は、被写体を撮影して画像データを取得し、それをファイルとしてストレージ２０５に記録する。撮影時刻列４１１には、撮影時刻が記録され、画像データ列４１２には、ストレージ２０５に記録した画像データのファイル名が記録される。アジェンダ情報テーブル４２０（図４（ｃ））は、会議装置１０１が記録するアジェンダに関する情報（以降「アジェンダ情報」と呼称する）を記録するデータテーブルである。アジェンダ開始時刻列４２１にはアジェンダの開始時刻が記録され、アジェンダ終了時刻列４２２にはアジェンダの終了時刻が記録され、アジェンダ名列４２３にはアジェンダ名が記録される。

次に、会議装置１０１による会議情報記録処理について説明する。図５（ａ）、（ｂ）は、会議情報記録処理のフローチャートである。この処理は、ＣＰＵ２０１が、ストレージ２０５に記録されているコントローラプログラムを読み出してＲＡＭ２０４に展開して実行することで実現される。この処理は、ユーザが、会議装置１０１の電源キー（不図示）を操作して電源をＯＮ（オン）にすると開始される。この処理が開始されると、ＣＰＵ２０１は、画面３００用の表示画像データを生成して表示デバイス２０７に画面３００（図３（ａ））を表示させる。

まずＣＰＵ２０１は、ステップＳ５０１において、「開始」ボタン３０１への指示による会議開始指示が成されたか否かを判別する。そして会議開始指示が成されていない場合は、ＣＰＵ２０１は、ステップＳ５１７において、会議装置１０１の電源キー（不図示）への指示による電源オフ指示が成されたか否かを判別する。そしてＣＰＵ２０１は、電源オフ指示が成されない場合は処理をステップＳ５０１に戻す一方、電源オフ指示が成されると、図５の処理を終了させる。ステップＳ５０１で、会議開始指示が成された場合は、ＣＰＵ２０１は、ステップＳ５０２において、画面３１０用の表示画像データを生成して表示デバイス２０７に画面３１０（図３（ｂ））を表示させると共に、マイクデバイス２１０により会話の録音を開始する。これにより、ＣＰＵ２０１は音声データの取得を開始する。ここでＣＰＵ２０１は、音声情報テーブル４００（図４（ａ））の録音開始時刻列４０１に、録音開始時刻として現在時刻を記録する。またＣＰＵ２０１は、取得した音声データを、ファイルとしてストレージ２０５に記録し始める。ＣＰＵ２０１は、当該音声データのファイル名を、音声情報テーブル４００の音声データ列４０３に記録する。なお、録音開始時刻は会議開始時刻に相当する。

次にＣＰＵ２０１は、ステップＳ５０３において、「撮影」ボタン３１１への指示による撮影要求指示が成されたか否かを判別する。従って、音声の取得中に、表示画面により、画像データを取得するための指示をユーザから受け付けることが可能である。そして撮影要求指示が成されていない場合は、ＣＰＵ２０１は、処理をステップＳ５０７に進める。一方、撮影要求指示が成された場合は、ＣＰＵ２０１は、ステップＳ５０４において、画面３２０用の表示画像データを生成して表示デバイス２０７に画面３２０（図３（ｃ））を表示させると共に、撮影指示が成されたか否かを判別する。ここでは、ＣＰＵ２０１は、入力デバイス２０６を介して画面３２０の任意箇所への指示が成された場合に、撮影指示が成されたと判別する。撮影指示が成された場合は、ステップＳ５０５に進み、ＣＰＵ２０１は、カメラデバイス２０９により被写体の撮影を開始して画像データを取得する。さらにＣＰＵ２０１は、画像情報テーブル４１０（図４（ｂ））にレコードを追加する。その際、ＣＰＵ２０１は、撮影時刻列４１１に撮影時刻として現在時刻を記録する。また、ＣＰＵ２０１は、画像データを、ファイルとしてストレージ２０５に記録する。ＣＰＵ２０１は、当該画像データのファイル名を、画像情報テーブル４１０の画像データ列４１２に記録する。ＣＰＵ２０１は、ステップＳ５０６において、「ＯＫ」ボタン３２１への指示による撮影終了指示が成されたか否かを判別する。ＣＰＵ２０１は、撮影終了指示が成されていない場合は、処理をステップＳ５０４に戻す。一方、撮影終了指示が成された場合は、ＣＰＵ２０１は、処理をステップＳ５０３に戻し、その際、画面３１０用の表示画像データを生成して表示デバイス２０７に画面３１０（図３（ｂ））を表示させる。また、ＣＰＵ２０１は、画面３２０を表示させた後、いずれかの箇所への指示が所定時間継続して無かった場合も、撮影終了と判定し、表示デバイス２０７に画面３１０を表示させる。

ステップＳ５０７において、ＣＰＵ２０１は、「アジェンダ」ボタン３１２（図３（ｂ））の指示によるアジェンダ変更指示が成されたか否かを判別する。そして、アジェンダ変更指示が成されていない場合は、ＣＰＵ２０１は、処理をステップＳ５１３に進める。一方、アジェンダ変更指示が成された場合は、ＣＰＵ２０１は、ステップＳ５０８において、画面３３０の表示画像データを生成して表示デバイス２０７に画面３３０（図３（ｄ））を表示させる。

ステップＳ５０８では、ＣＰＵ２０１は、「開始」ボタン３３２への指示によるアジェンダ開始指示が成されたか否かを判別する。そしてＣＰＵ２０１は、アジェンダ開始指示が成された場合は、ステップＳ５０９において、新しいアジェンダを開始する。すなわちＣＰＵ２０１は、アジェンダ情報テーブル４２０（図４（ｃ））にレコードを追加し、アジェンダ開始時刻列４２１に、アジェンダ開始時刻として現在時刻を記録する。ステップＳ５０９の後、処理はステップＳ５０８に戻る。一方、ステップＳ５０８で、アジェンダ開始指示が成されていない場合は、ＣＰＵ２０１は処理をステップＳ５１０に進める。なお、ステップＳ５０９で開始されていて且つ、ステップＳ５１１で終了されていないアジェンダが存在する場合は、ステップＳ５０８でＮＯと判別される。

ステップＳ５１０において、ＣＰＵ２０１は、「終了」ボタン３３３への指示によるアジェンダ終了指示が成されたか否かを判別する。そしてＣＰＵ２０１は、アジェンダ終了指示が成されていない場合は、処理をステップＳ５１２に進める。なお、ステップＳ５０９で開始がされていて且つ、ステップＳ５１１で終了されていないアジェンダが存在しない場合には、ステップＳ５１２ではＮＯと判別される。一方、アジェンダ終了指示が成された場合は、ＣＰＵ２０１は、ステップＳ５１１において、現在のアジェンダを終了する。すなわちＣＰＵ２０１は、アジェンダ情報テーブル４２０（図４（ｃ））のアジェンダ終了時刻列４２２に、アジェンダ終了時刻として現在時刻を記録する。また、ＣＰＵ２０１は、テキストフィールド３３１に入力されたアジェンダ名を、アジェンダ名列４２３に記録する。

ステップＳ５１２において、ＣＰＵ２０１は、「ＯＫ」ボタン３３５への指示によるアジェンダ変更終了指示が成されたか否を判別する。そしてＣＰＵ２０１は、アジェンダ変更終了指示が成されない場合は、処理をステップＳ５０８に戻す。一方、アジェンダ変更終了指示が成された場合は、ＣＰＵ２０１は、ステップＳ５０３に処理を戻す。その際ＣＰＵ２０１は、画面３１０用の表示画像データを生成して表示デバイス２０７に画面３１０（図３（ｂ））を表示させる。

なお、アジェンダ開始後、終了指示がないまま「ＯＫ」ボタン３３５（図３（ｄ））が指示された場合でも、ステップＳ５０３で撮影要求があれば撮影が可能となる。その後、「アジェンダ」ボタン３１２（図３（ｂ））の指示を経て、「終了」ボタン３３３（図３（ｄ））が指示され、さらに「ＯＫ」ボタン３３５が指示されたとき、アジェンダ終了時刻列４２２にアジェンダ終了時刻が記録される。

ステップＳ５１３において、ＣＰＵ２０１は、「終了」ボタン３１３への指示による会議終了指示が成されたか否かを判別する。そして会議終了指示が成されていない場合は、ＣＰＵ２０１は、処理をステップＳ５０３に戻す。一方、会議終了指示が成された場合は、ＣＰＵ２０１は、ステップＳ５１４において、画面３４０用の表示画像データを生成して表示デバイス２０７に画面３４０（図３（ｅ））を表示させると共に、マイクデバイス２１０による会議の録音を終了する。その際、ＣＰＵ２０１は、音声情報テーブル４００（図４（ａ））の録音終了時刻列４０２に、録音終了時刻として現在時刻を記録する。なおこのとき、ＣＰＵ２０１は、アジェンダ情報テーブル４２０（図４（ｃ））において、アジェンダ終了時刻列４２２に終了時刻が記録されていないレコードがあれば、アジェンダ終了時刻として現在時刻をアジェンダ終了時刻列４２２に記録する。さらに、ＣＰＵ２０１は、テキストフィールド３３１に入力されたアジェンダ名がない場合は、デフォルトのアジェンダ名をアジェンダ名列４２３に記録する。あるいは、これらの入力をユーザに促して入力させてもよい。

次に、ＣＰＵ２０１は、ステップＳ５１５において、会議終了確定指示が成されたか否かを判別する。すなわち、ＣＰＵ２０１は、テキストフィールド３４１に送信先が入力され且つ「ＯＫ」ボタン３４２への指示が成されていれば、会議終了確定指示が成されたと判別する。しかし、テキストフィールド３４１に送信先が入力されていないか、「ＯＫ」ボタン３４２への指示がなされていないと、ＣＰＵ２０１は会議終了確定指示が成されていないと判別する。ＣＰＵ２０１は、会議終了確定指示が成されるまで待ち、会議終了確定指示が成されると、処理をステップＳ５１６に進める。なお、テキストフィールド３４１に入力された送信先は、会議情報の一部として記録される。

ステップＳ５１６において、ＣＰＵ２０１は、以上の処理によりストレージ２０５に記録した会議情報を、外部インターフェース２０８を介して会議サーバ１０２へ送信して、処理をステップＳ５０１に戻す。その際、ＣＰＵ２０１は、画面３００用の表示画像データを生成して表示デバイス２０７に画面３００（図３（ａ））を表示させる。なお、ＣＰＵ２０１は、送信後の会議情報をストレージ２０５から削除してもよい。

なお、画面３００（図３（ａ））の「開始」ボタン３０１への指示から画面３３０（図３（ｄ））の「開始」ボタン３３２への指示までの期間、および、「終了」ボタン３３３への指示から「終了」ボタン３１３への指示までの期間でも、録音や撮影が行われ得る。さらには、「終了」ボタン３３３への指示から次の「開始」ボタン３３２への指示までの期間でも、録音や撮影が行われ得る。これらの期間は、アジェンダ情報テーブル４２０の生成対象とならず、従って議事録元情報や議事録の作成の対象とならない。

しかし、これらの期間も議事録元情報や議事録の作成の対象となるように構成してもよい。その場合、画面３３０（図３（ｄ））の「開始」ボタン３３２で開始されないアジェンダのアジェンダ名は無名としてもよいし、デフォルトで定めてもよい。例えば、「開始」ボタン３０１への指示から画面３３０（図３（ｄ））の「開始」ボタン３３２への指示までの期間について例示する。ＣＰＵ２０１は、「開始」ボタン３０１への指示がされた時刻を第１のアジェンダのアジェンダ開始時刻列４２１とする。そしてＣＰＵ２０１は、その後に「開始」ボタン３３２がオンされた時点の時刻を、第１のアジェンダのアジェンダ終了時刻列４２２とし且つ次の（第２の）アジェンダのアジェンダ開始時刻列４２１とする。また、ステップＳ５１６を処理する段階で、テキストフィールド３３１に入力されたアジェンダ名がない場合は、ＣＰＵ２０１は、デフォルトのアジェンダ名をアジェンダ名列４２３に記録してもよいし、アジェンダ名をユーザに入力させてもよい。

次に、会議サーバ１０２が、会議装置１０１から受信した会議情報を解析・加工して生成する議事録元情報について説明する。図６（ａ）〜（ｃ）、図７は、会議サーバ１０２がストレージ２５５に記録する議事録元情報の構成例を示す図である。議事録元情報には、発話テーブル６００（図６（ａ））、記入テーブル６１０（図６（ｂ））、会議テキストテーブル６２０（図６（ｃ））、及び、要約テーブル７００（図７）がある。

まず、図６（ａ）に示す発話テーブル６００（第１のテキスト情報）は、会議情報に含まれる音声データに対する音声認識結果に関する情報（以降「発話情報」と呼称する）を記録するデータテーブルである。ＣＰＵ２５１は、音声データを解析してユーザの発話を特定し、発話毎にレコードを生成する。発話時刻列６０１には、発話が発生した時刻（以降「発話時刻」と呼称する）が記録される。発話テキスト列６０２には、発話を音声認識して得た発話テキストが記録される。発話や発話時刻の特定については後述する。

図６（ｂ）に示す記入テーブル６１０（第２のテキスト情報）は、会議情報に含まれる画像データに対する文字認識結果に関する情報（以降「記入情報」と呼称する）を記録するデータテーブルである。ＣＰＵ２５１は、画像データを解析してユーザによる記入を特定し、記入毎にレコードを生成する。記入時刻列６１１には、記入が発生した時刻（以降「記入時刻」と呼称する）が記録される。記入テキスト列６１２には、画像データを文字認識して得た記入テキストが記録される。記入や記入時刻の特定については後述する。

図６（ｃ）に示す会議テキストテーブル６２０（統合テキスト情報）は、会議において発生したテキスト（以降「会議テキスト」と呼称する）に関する情報（以降「会議テキスト情報」と呼称する）を記録するデータテーブルである。ＣＰＵ２５１は、発話情報と記入情報とを統合して会議テキスト情報を生成する。発生時刻列６２１には、会議テキスト情報が発生した時刻として、発話時刻列６０１または記入時刻列６１１の時刻が記録される。会議テキスト列６２２には、会議テキストとして、発話テキスト列６０２または記入テキスト列６１２のテキストが記録される。区分列６２３には、それに対応するレコードが、会議テキストの元となったテキスト（統合前のテキスト）が発話情報であったか記入情報であったかを示す情報が記録される。例えば、区分列６２３には、統合前のテキストが発話情報であった場合には０が記録され、記入情報であった場合には１が記録される。要点列６２４には、それに対応するレコードの会議テキスト列６２２の会議テキストが要点であるか否かを示す情報が記録される。ここで、要点とは、決定した事項や、発生したアクションアイテムなど、その会議の主要な内容を示すものである。要点の判定方法については後述する。要点列６２４には、会議テキストが要点である場合には１が記録され、そうでない場合には０が記録される。なお、ＣＰＵ２５１は、会議テキストテーブル６２０のレコードを、発生時刻列６２１の値で昇順に（発生した順に）ソートする。

要約テーブル７００（図７）は、会議テキストを要約した情報（以降「要約情報」と呼称する）を記録するデータテーブルである。ＣＰＵ２５１は、会議テキストテーブル６２０の会議テキスト列６２２の会議テキストをアジェンダ毎に要約して要約テキストを生成し、それを要約テーブル７００に記録する。アジェンダ名列７０１には、アジェンダ名が記録される。要約テキスト列７０２（要約情報）には、生成された要約テキストが記録される。

次に、会議サーバ１０２が、議事録元情報（図６、図７）の生成を経て議事録（図９）を生成する処理について説明する。図８は議事録生成処理のフローチャートである。この処理は、ＣＰＵ２５１が、ストレージ２５５に記録されている会議サーバプログラムを読み出してＲＡＭ２５４に展開して実行することで実現される。この処理は、会議サーバ１０２が起動されると開始される。この処理において、ＣＰＵ２５１は、本発明における第１の生成手段、第２の生成手段、統合手段、要約手段としての役割を果たす。

まず、ＣＰＵ２５１は、ステップＳ８０１において、外部インターフェース２５８を介して会議装置１０１から会議情報（図４（ａ）〜（ｃ））を受信したか否かを判別する。そしてＣＰＵ２５１は、会議情報を受信していない場合は、処理をステップＳ８０９に進める一方、会議情報を受信している場合は、ステップＳ８０２において、受信した会議情報に含まれる音声データに対して音声認識を行い、発話テキストを得る。ここでＣＰＵ２５１は、音声データを先頭から走査して次の処理を行う。まずＣＰＵ２５１は、音声データ中の無音区間を検出する。無音区間は、例えば、音声データの音圧が閾値以下の状態が一定時間継続されたことに基づいて検出可能である。ＣＰＵ２５１は、ある無音区間と次の無音区間の間の区間を発話区間とし、個々の発話区間について音声認識を行って発話テキストを得る。またＣＰＵ２５１は、会議情報の音声情報テーブル４００の録音開始時刻列４０１の録音開始時刻と、各発話区間の音声データの先頭からの経過位置とから、各発話区間の発話時刻を算出する。ＣＰＵ２５１は、このようにして得た発話区間毎に発話テーブル６００にレコードを生成（追加）する。そしてＣＰＵ２５１は、該当する発話時刻と発話テキストとを、それぞれ発話時刻列６０１と発話テキスト列６０２とに記録する。

次に、ステップＳ８０３において、ＣＰＵ２５１は、受信した会議情報に含まれる画像データに対して文字認識を行い、記入テキストを得る。ここでＣＰＵ２５１は、会議情報に含まれる画像情報テーブル４１０のレコードを順に走査して、次の処理を行う。まずＣＰＵ２５１は、画像情報テーブル４１０のレコードを、撮影時刻列４１１の値で昇順に（撮影した順に）ソートする。ＣＰＵ２５１は、現在参照しているレコードの画像データ列４１２が示す画像データと、それより１つ前のレコードの画像データ列４１２が示す画像データとの画像差分を求める。この画像差分は、１つ前のレコードに該当する撮影から現在参照しているレコードに該当する撮影までの間にユーザが記入した文字が含まれる部分画像であると見なすことができる。ＣＰＵ２５１は、当該部分画像に対して文字認識を行い、記入テキストを得る。またＣＰＵ２５１は、現在参照しているレコードの撮影時刻列４１１の撮影時刻を、当該画像差分が発生した時刻、すなわちユーザによる記入の記入時刻とする。ＣＰＵ２５１は、このようにして得た画像差分（記入）毎に記入テーブル６１０にレコードを生成（追加）する。そしてＣＰＵ２５１は、該当する記入時刻と記入テキストとを、それぞれ記入時刻列６１１と記入テキスト列６１２とに記録する。

ステップＳ８０４において、ＣＰＵ２５１は、発話テキストと記入テキストとを統合して会議テキストを得る。すなわちＣＰＵ２５１は、ステップＳ８０２で生成した発話テーブル６００とステップＳ８０３で生成した記入テーブル６１０とを統合して、会議テキストテーブル６２０（図６（ｃ））を生成する。ここでＣＰＵ２５１は、次の処理を行う。まずＣＰＵ２５１は、発話テーブル６００に含まれるレコードの数だけ会議テキストテーブル６２０にレコードを追加する。このときＣＰＵ２５１は、発話時刻列６０１の発話時刻を会議テキストが発生した時刻として発生時刻列６２１に記録し、発話テキスト列６０２の発話テキストを会議テキストとして会議テキスト列６２２に記録する。ＣＰＵ２５１は、区分列６２３には、元のデータが発話情報であったことを示す０を記録する。ＣＰＵ２５１はさらに、記入テーブル６１０に含まれるレコードの数だけ会議テキストテーブル６２０にレコードを追加する。このときＣＰＵ２５１は、記入時刻列６１１の記入時刻を会議テキストが発生した時刻として発生時刻列６２１に記録し、記入テキスト列６１２の記入テキストを会議テキストとして会議テキスト列６２２に記録する。ＣＰＵ２５１は、区分列６２３には、元のデータが記入情報であったことを示す１を記録する。ＣＰＵ２５１は、以上追加したレコードを発生時刻列６２１の値で昇順に（発生した順に）ソートする。

ステップＳ８０５において、ＣＰＵ２５１は、ステップＳ８０４で生成した会議テキストから要点を抽出する。ここではまず、ＣＰＵ２５１は、ステップＳ８０４において会議テキストテーブル６２０に追加したレコードの各々について、会議テキスト列６２２の会議テキストが要点であるか否かを判定する。例えばＣＰＵ２５１は、会議テキストが、予め決定された特定のキーワードを含むならば要点であると判定する。ＣＰＵ２５１は、会議テキストが要点である場合には、要点列６２４に１を記録し、そうでない場合は要点列６２４に０を記録する。

ステップＳ８０６において、ＣＰＵ２５１は、ステップＳ８０４で生成した会議テキストを要約する。ＣＰＵ２５１は、会議情報のアジェンダ情報テーブル４２０のレコードを順に走査して、次の処理を行う。まずＣＰＵ２５１は、アジェンダ情報テーブル４２０（図４（ｃ））のレコードを、アジェンダ開始時刻列４２１の値で昇順に（アジェンダの開始順に）ソートする。ＣＰＵ２５１は、現在参照しているレコードのアジェンダ開始時刻列４２１のアジェンダ開始時刻から、アジェンダ終了時刻列４２２のアジェンダ終了時刻までの期間を得る。すなわち、アジェンダの各々には期間が対応付けられている。そしてＣＰＵ２５１は、会議テキストテーブル６２０から、発生時刻列６２１の値が当該期間に該当するレコード群を抽出する。ＣＰＵ２５１は、抽出したレコード群の会議テキスト列６２２の会議テキストを要約して要約テキストを生成する。要約テキストを生成する処理については図１０（ａ）で後述する。そしてＣＰＵ２５１は、要約テーブル７００にレコードを追加して、生成した要約テキストを要約テキスト列７０２に記録する。またＣＰＵ２５１は、現在参照しているアジェンダ情報テーブル４２０のレコードのアジェンダ名列４２３のアジェンダ名を、要約テーブル７００に追加したレコードのアジェンダ名列７０１に記録する。

ステップＳ８０７において、ＣＰＵ２５１は、上記のようにして得た議事録元情報および会議情報をもとに、図９に示す議事録を生成する。図９は議事録９００の一例を示す図である。議事録９００は、議事を示す議事テキストデータ９１０と、画像データ群９２０とから成る。議事テキストデータ９１０は、会議開催時間９１１、要点一覧９１２、アジェンダ名９１３、９１５、要約テキスト９１４、９１６を含む。

ＣＰＵ２５１は、音声情報テーブル４００の録音開始時刻列４０１の録音開始時刻（会議開始時刻）と、録音終了時刻列４０２の録音終了時刻（会議終了時刻）とから会議開催時間９１１を生成する。要点一覧９１２は、会議テキストテーブル６２０のレコードであって、要点列６２４が１（要点）であるレコードの会議テキスト列６２２の会議テキストの一覧である。各アジェンダ名９１３、９１５は、要約テーブル７００のアジェンダ名列７０１から取得される。要約テキスト９１４、９１６は、各アジェンダ名９１３、９１５に対応する会議テキストの要約テキストであり、要約テーブル７００の要約テキスト列７０２から取得される。画像データ群９２０は、会議情報に含まれる画像データを含む。

ステップＳ８０８において、ＣＰＵ２５１は、議事録を、会議情報に含まれる送信先に送信し、処理をステップＳ８０１に戻す。議事録の送信方法としては例えば、電子メールによる送信が採用される。ＣＰＵ２５１は、電子メール本文に議事テキストデータ９１０を入力し、貼付ファイルに画像データ群９２０を入力して、電子メールを送信する。

ステップＳ８０９において、ＣＰＵ２５１は、終了指示が成されたか否かを判別する。ユーザは、例えば外部インターフェース２５８を介して、別体のＰＣから会議サーバ１０２の終了指示を成すことができる。ＣＰＵ２５１は、終了指示が成されていない場合は、処理をステップＳ８０１に戻す一方、終了指示が成された場合は、図８の処理を終了させる。

ステップＳ８０６における会議テキストの要約について図１０（ａ）で詳細に説明する。図１０（ａ）は、要約テキスト生成処理のフローチャートである。この要約テキスト生成処理は、ステップＳ８０６における、会議テキストを要約する処理の一部に該当する。この処理にあたって、会議テキストテーブル６２０における複数のレコードが入力されてくる。

ＣＰＵ２５１は、ステップＳ１００１において、入力されたレコード全てを参照し、会議テキスト列６２２の会議テキストに出現する単語それぞれについて、その重要度を算出する。ＣＰＵ２５１は、例えば、各単語の出現頻度に基づいて各単語の重要度を算出する。出現頻度が高い単語ほど重要度を高いとし、重要度は例えば値で表現される。ＣＰＵ２５１は、ステップＳ１００２において、入力された各レコードの会議テキスト列６２２の会議テキストについて、それぞれの重要度を算出する。ＣＰＵ２５１は、ステップＳ１００１で算出した各単語の重要度を参照し、それぞれの会議テキストに含まれる各単語の重要度の合計値を算出することで、各会議テキストの重要度の値を算出する。ＣＰＵ２５１は、ステップＳ１００３において、重要度が所定の閾値以上の会議テキストを、重要度の高い会議テキストとして抽出する。これにより、会議テキストテーブル６２０に含まれる各単語の出現頻度に基づいて、抽出する会議テキストが決定され、該決定された会議テキストが抽出される。そしてＣＰＵ２５１は、抽出した会議テキストから要約テーブル７００（図７）における要約テキストを得る。

なお、ステップＳ８０６における会議テキストの要約の手法は図１０（ａ）で説明したものに限定されない。例えば、会議において、ユーザは、ホワイトボードなどの記入媒体に、論点や重要な意見を記入する場合がある。これらの内容は通常、議事として重要なので、記入媒体から得た記入テキストを要約テキストに優先的に反映するようにしてもよい。例えば、ステップＳ１００３において、ＣＰＵ２５１は、入力されたレコードの区分列６２３の値を確認する。そしてその値が１（元が記入情報）ならば、ＣＰＵ２５１は、重要度が閾値以上か否かに関わらず、当該レコードの会議テキスト列６２２の会議テキストを要約テキストの一部として抽出するようにしてもよい。

なお、記入テキストを要約テキストに優先的に反映させる処理の例として、図１０（ａ）に代えて図１０（ｂ）に示す要約テキスト生成処理を実行してもよい。図１０（ｂ）は、要約テキスト生成処理の別の例を示したフローチャートである。図１０（ａ）の処理時と同様に、図１０（ｂ）の処理にあたって、会議テキストテーブル６２０における複数のレコードが入力されてくる。

ＣＰＵ２５１は、ステップＳ１０１１において、入力されたレコードのうち、区分レコードが１（元が記入情報）のレコードを参照して、会議テキスト列６２２の会議テキストに含まれる単語のリスト（以降「記入単語リスト」と呼称する）を作成する。ＣＰＵ２５１は、ステップＳ１０１２、Ｓ１０１３において、図１０（ａ）のステップＳ１００１、Ｓ１００２と同様の処理を実行する。

ＣＰＵ２５１は、ステップＳ１０１４において、ステップＳ１０１１で作成した記入単語リストを参照して、ステップＳ１０１３で算出した会議テキストの重要度を更新する。すなわち、ＣＰＵ２５１は、入力された各レコードの会議テキスト列６２２の会議テキストについて、記入単語リストの単語を含む場合には、当該会議テキストの重要度にバイアス（重み付け）を加え、例えば重要度の値を大きくする。その際ＣＰＵ２５１は、記入単語リストの単語を含む数に応じて重み付けを大きくしてもよい。ＣＰＵ２５１は、ステップＳ１０１５において、ステップＳ１００３と同様の処理を実行する。

なお、ＣＰＵ２５１は、ステップＳ１０１４において、対象の会議テキストが記入単語リストの単語を含む場合には、重要度の最大値を付与し、ステップＳ１００３では当該会議テキストが要約テキストの一部として必ず抽出されるようにしてもよい。この場合、会議テキストのうち、記入テキストから生成されたテキストについては全て抽出される。

なお、ＣＰＵ２５１は、ステップＳ８０６で会議テキストを要約して要約テーブル７００を生成する際、会議テキストテーブル６２０の会議テキスト列６２２の会議テキストから、予め定めた所定の単語を含む会議テキストを全て抽出してもよい。

本実施の形態によれば、会議サーバ１０２は、音声データをテキスト化して発話テーブル６００を生成し、画像データをテキスト化して記入テーブル６１０を生成する。そして会議サーバ１０２は、発話テーブル６００、記入テーブル６１０を統合して会議テキストテーブル６２０を生成する。さらに会議サーバ１０２は、会議テキストテーブル６２０を要約して、要約テーブル７００を生成し、要約テーブル７００等に基づいて議事録を生成する。これにより、音声データ及び画像データの双方に基づく要約を行えるので、音声と画像の双方から要約を得ることができる。この要約に基づいて議事録が生成されるので、情報の欠落を低減した議事録を生成することができる。

なお、ＣＰＵ２５１は、議事録元情報（図６、図７）を表示デバイス２５７に表示させてもよい。さらには、表示させた議事録元情報から、ユーザの指示により各レコードを変更、例えば各レコードの内容を編集したりレコードを追加または削除したりできるように構成してもよい。

（第２の実施の形態）
本発明の第２の実施の形態では、会議に使用する電子資料等の表示内容をさらに用いて議事録を作成する例について説明する。図１１〜図１３をさらに加えて本実施の形態を説明する。

図１１は、本実施の形態に係る会議システムの全体構成図である。この会議システム１１００は、会議装置１０１及び会議サーバ１０２のほか、ＰＣ１１０１、電子ホワイトボード１１０２を含む。これらはネットワーク１０３を介して互いに接続されている。会議装置１０１、会議サーバ１０２、ネットワーク１０３の構成は第１の実施の形態で説明したのと同様である。

ＰＣ１１０１は、一般的な据置のＰＣ（パーソナルコンピュータ）やノートＰＣであり、アプリケーションプログラムを実行し、会議で参照する電子資料をディスプレイに表示することができる。なお、ＰＣ１１０１にプロジェクタを接続して表示内容をプロジェクタに投影してもよい。ＰＣ１１０１は、ユーザの指示等に応じて表示内容を更新すると、表示画像データを会議装置１０１に送信する。電子ホワイトボード１１０２には、ユーザがスタイラスペン等を用いて電子的に文字を記入することができる。電子ホワイトボード１１０２は、ユーザにより記入されると、記入内容を含む表示画像データを会議装置１０１に送信する。

ＰＣ１１０１のハードウェア構成は会議サーバ１０２と基本的に同様である。ＰＣ１１０１において、ストレージ１２５５には、電子資料およびそれを表示するためのアプリケーションプログラムが記録されている。また、ストレージ１２５５には、ユーザにテキストを入力させ、電子資料を作成するためのアプリケーションプログラムが記録されている。ＣＰＵ１２５１は、ＯＳ上でアプリケーションプログラムを実行することで電子資料を解釈し、これを表示するための表示画像データを生成する。そしてＣＰＵ１２５１は、表示画像データを表示デバイス１２５７に表示させる。

電子ホワイトボード１１０２のハードウェア構成は会議サーバ１０２と同様であるが、入力デバイス２２５６はタッチパネルを具備する。これにより、ユーザは、別体のスタイラスペン等を用いて文字を電子的に記入することができる。電子ホワイトボード１１０２において、ストレージ２２５５には、電子ホワイトボードとしての機能を提供する電子ホワイトボードプログラムが記録されている。ＣＰＵ２２５１は、ＯＳ上で電子ホワイトボードプログラムを実行することで、入力デバイス２２５６を介してユーザによる記入内容を取得し、記入内容に応じた表示画像データを生成する。そしてＣＰＵ２２５１は、表示画像データを表示デバイス２２５７に表示させる。

次に、会議装置１０１によって記録される会議情報について説明する。図１２（ａ）、（ｂ）は、会議装置１０１がストレージ２０５に記録する会議情報（第３のテキスト情報）の構成例を示す図である。図１２（ａ）、（ｂ）は、それぞれ、表示画像テーブル１２００、電子記入画像テーブル１２１０を示す。本実施の形態においては、会議装置１０１は、会議情報として、音声情報テーブル４００、画像情報テーブル４１０、アジェンダ情報テーブル４２０に加えて、表示画像テーブル１２００、電子記入画像テーブル１２１０を記録する。

表示画像テーブル１２００は、ＰＣ１１０１が表示した表示画像データに関する情報（以降「表示画像情報」と呼称する）を記録するデータテーブルである。会議装置１０１は、外部インターフェース２０８を介して、ＰＣ１１０１から表示画像データを受信し、それをストレージ２０５にファイルとして記録する。会議装置１０１は、表示時刻列１２０１には、表示画像データの受信時刻を表示時刻として記録し、表示画像データ列１２０２には、ストレージ２０５に記録した表示画像データのファイル名を記録する。

電子記入画像テーブル１２１０は、ユーザによる記入内容を含む電子ホワイトボード１１０２の表示画像データ（以降「電子記入画像データ」と呼称する）に関する情報（以降「電子記入画像情報」と呼称する）を記録するデータテーブルである。会議装置１０１は、外部インターフェース２０８を介して、電子ホワイトボード１１０２から表示画像データ（電子記入画像データ）を受信し、それをストレージ２０５にファイルとして記録する。会議装置１０１は、記入時刻列１２１１には、電子記入画像データの受信時刻を記入時刻として記録し、電子記入画像データ列１２１２には、ストレージ２０５に記録した電子記入画像データのファイル名を記録する。

次に、会議装置１０１の会議情報の記録処理について説明する。図１３は、会議情報記録処理のフローチャートである。この処理は、ＣＰＵ２０１が、ストレージ２０５に記録されているコントローラプログラムを読み出してＲＡＭ２０４に展開して実行することで実現される。この処理は、ユーザが、会議装置１０１の電源キー（不図示）を操作して電源をＯＮ（オン）にすると開始される。この処理が開始されると、ＣＰＵ２０１は、画面３００（図３（ａ））用の表示画像データを生成して表示デバイス２０７に画面３００を表示させる。

まず、ステップＳ５０１の処理は図５（ａ）で説明したのと同様である。ステップＳ５０１での判別の結果、会議開始指示が成されていない場合は、ＣＰＵ２０１は、ステップＳ５１７において、会議装置１０１の電源キー（不図示）への指示による電源オフ指示が成されたか否かを判別する。そしてＣＰＵ２０１は、電源オフ指示が成されない場合は処理をステップＳ５０１に戻す一方、電源オフ指示が成されると、図１３（ａ）の処理を終了させる。ステップＳ５０１で、会議開始指示が成された場合は、ＣＰＵ２０１は、図５（ｂ）のステップＳ５０２〜Ｓ５１６と同様の処理と、図１３（ｂ）のステップＳ１３０１〜Ｓ１３０５の処理とを並列に（並行して）実行する。ステップＳ５１６の後、ＣＰＵ２０１は、処理を図１３（ａ）のステップＳ５０１に戻す。

ステップＳ１３０１において、ＣＰＵ２０１は、外部インターフェース２０８を介してＰＣ１１０１から表示画像データを受信したか否かを判別する。そしてＣＰＵ２０１は、表示画像データを受信していない場合は、処理をステップＳ１３０３へ進める一方、表示画像データを受信した場合は、ステップＳ１３０２を実行してから処理をステップＳ１３０３へ進める。ステップＳ１３０２において、ＣＰＵ２０１は、受信した表示画像データをストレージ２０５にファイルとして記録する。すなわち、ＣＰＵ２０１は、表示画像テーブル１２００（図１２（ａ））にレコードを追加し、表示時刻列１２０１に表示時刻として現在時刻を記録すると共に、表示画像データのファイル名を表示画像データ列１２０２に記録する。

ステップＳ１３０３において、ＣＰＵ２０１は、外部インターフェース２０８を介して電子ホワイトボード１１０２から電子記入画像データを受信したか否かを判別する。そしてＣＰＵ２０１は、電子記入画像データを受信していない場合は、処理をステップＳ１３０５に進める一方、電子記入画像データを受信した場合は、ステップＳ１３０４を実行してから処理をステップＳ１３０５へ進める。

ステップＳ１３０４において、ＣＰＵ２０１は、受信した電子記入画像データをストレージ２０５にファイルとして記録する。すなわち、ＣＰＵ２０１は、電子記入画像テーブル１２１０（図１２（ｂ））にレコードを追加し、記入時刻列１２１１に記入時刻として現在時刻を記録すると共に、電子記入画像データのファイル名を、電子記入画像データ列１２１２に記録する。

ステップＳ１３０５において、ＣＰＵ２０１は、図５（ｂ）のステップＳ５１３と同様に、会議終了指示が成されたか否かを判別する。そして、ＣＰＵ２０１は、会議終了指示が成されていない場合は、処理をステップＳ１３０１に戻す一方、会議終了指示が成された場合は、処理を図１３（ａ）のステップＳ５０１に戻す。なお、表示画像情報および電子記入画像情報は会議情報の一部として記録されるので、図５（ｂ）のステップＳ５１６で会議サーバ１０２に送信する会議情報にこれらは含まれる。

次に、会議サーバ１０２が議事録を生成する処理について説明する。本実施の形態における会議サーバ１０２による議事録生成処理は、図８で説明したものと基本的に同様であるので、主に差異を説明する。

ステップＳ８０３においては、ＣＰＵ２５１は、受信した会議情報に含まれる画像データに加えて、電子記入画像データに対しても文字認識を行い、記入テキストを得る。加えて、ＣＰＵ２５１は、会議情報に含まれる電子記入画像テーブル１２１０のレコードを順に走査して、次の処理を行う。まずＣＰＵ２５１は、電子記入画像テーブル１２１０のレコードを、記入時刻列１２１１の値で昇順に（記入された順に）ソートする。ＣＰＵ２５１は、現在参照しているレコードの電子記入画像データ列１２１２が示す電子記入画像データと、それより１つ前のレコードの電子記入画像データ列１２１２が示す電子記入画像データとの画像差分を求める。この画像差分は、１つ前のレコードに該当する記入から現在参照しているレコードに該当する記入までの間にユーザが記入した文字が含まれた部分画像であると見なすことができる。ＣＰＵ２５１は、当該部分画像に対して文字認識を行い、記入テキストを得る。またＣＰＵ２５１は、現在参照しているレコードの記入時刻列１２１１の記入時刻を、当該画像差分が発生した時刻、すなわちユーザによる記入時刻とする。ＣＰＵ２５１は、このようにして得た画像差分（記入）毎に記入テーブル６１０にレコードを生成（追加）する。そしてＣＰＵ２５１は、該当する記入時刻と記入テキストとを、それぞれ記入時刻列６１１と記入テキスト列６１２とに記録する。

ステップＳ８０７において議事録を生成する際、ＣＰＵ２５１は、画像データ群９２０に、会議情報に含まれる画像データに加えて、表示画像データを含める。

本実施の形態によれば、会議で参照した電子資料の内容を画像として議事録に含めることができる。また、電子ホワイトボード等による電子的な記入内容からも記入テキストを生成し、発話テキストと統合して議事録を生成することができる。よって、音声と画像の双方から要約を得て、情報の欠落を低減した議事録を生成することに関し、第１の実施の形態と同様の効果を奏することができる。

なお、本実施の形態では、電子ホワイトボード１１０２への記入内容は、画像データ（電子記入画像データ）として会議装置１０１が受信した。しかし、電子ホワイトボード１１０２が、記入のストロークを認識して記入内容をテキストデータ化し、それを会議装置１０１が受信して会議情報に含めるようにしてもよい。会議サーバ１０２は、受信したテキストデータを記入テキストとして会議テキストテーブル６２０に入力することができる。

なお、ＰＣ１１０１の表示画像データや電子ホワイトボード１１０２の電子記入画像データを、会議装置１０１が受信して会議サーバ１０２に送信した。しかし、これらのデータを、ＰＣ１１０１や電子ホワイトボード１１０２が直接に会議サーバ１０２に送信する構成としてもよい。

なお、議事録生成処理におけるステップＳ８０３において、ＣＰＵ２５１は、ＰＣ１１０１からの表示画像データに対して文字認識を行い、その結果得られたテキストを会議テキストとして会議テキストテーブル６２０に入力してもよい。この場合、ＣＰＵ２５１は、当該会議テキストを記録するレコードの区分列６２３（図６（ｃ））には０を記録する。従って、ＰＣ１１０１からの表示画像データに基づく会議テキストが、発話テキストと同等に扱われる。

なお、ＰＣ１１０１で表示される電子資料の種類に応じて、ＰＣ１１０１からの表示画像データに基づく会議テキストを、記入テキストまたは発話テキストのいずれかとして扱うようにしてもよい。例えば、パワーポイント（登録商標）等の電子資料を発話テキストとして扱い、ワード（登録商標）等の電子資料を記入テキストとして扱うようにしてもよい。

なお、会議装置１０１とは別の端末装置として、ＰＣ１１０１及び電子ホワイトボード１１０２を例示したが、電子的にデータを入力し、入力したデータを会議装置１０１へ送信する装置であればよい。

（第３の実施の形態）
本発明の第３の実施の形態では、会議の様子等を撮影して得た動画データから議事録を生成する例について説明する。本実施の形態では、会議サーバ１０２は、別体の機器から動画データを受信し、受信した動画データから会議情報を生成する。従って、会議装置１０１を設けることは必須でない。動画データを会議サーバ１０２へ送信する機器は、会議装置１０１であってもよいし、他の機器であってもよい。ここでは、動画データの送信元は別体の機器であるとして説明する。

本実施の形態における動画データは会議等を撮影したものであり、被写体にホワイトボードなどの記入媒体を含んだ映像データと、ユーザの発話を記録した音声データと、アジェンダの変更を示すチャプターデータとを含むものとする。会議サーバ１０２は、受信した動画データを解析・加工し、図４（ａ）〜（ｃ）に示す会議情報を生成し、ストレージ２５５に記憶する。そして会議サーバ１０２は、生成した会議情報から、図６（ａ）〜（ｃ）、図７に示す議事録元情報の生成を経て、議事録（図９）を作成する。以下、図１４、図１５で、議事録の生成について説明する。

図１４は、議事録生成処理のフローチャートである。この処理は、ＣＰＵ２５１が、ストレージ２５５に記録されている会議サーバプログラムを読み出してＲＡＭ２５４に展開して実行することで実現される。この処理は、会議サーバ１０２が起動されると開始される。

ＣＰＵ２５１は、ステップＳ１４０１において、別体の機器から外部インターフェース２５８を介して動画データを受信したか否かを判別する。そしてＣＰＵ２５１は、動画データを受信していない場合は、ステップＳ８０９において、終了指示が成されたか否かを判別する。ＣＰＵ２５１は、終了指示が成されていない場合は、処理をステップＳ１４０１に戻す一方、終了指示が成された場合は、図１４の処理を終了させる。一方、動画データを受信した場合は、ＣＰＵ２５１は、ステップＳ１４０２において、受信した動画データから会議情報を生成する会議情報生成処理（図１５）を実行する。

図１５は、ステップＳ１４０２で実行される、会議サーバ１０２による会議情報生成処理のフローチャートである。ＣＰＵ２５１は、ステップＳ１５０１において、動画データから音声情報テーブル４００（図４（ａ））を生成する。まずＣＰＵ２５１は、動画データから音声データを抽出してストレージ２５５にファイルとして記録する。そしてＣＰＵ２５１は、当該音声データのファイル名を、音声情報テーブル４００の音声データ列４０３に記録する。またＣＰＵ２５１は、動画データのタイムスタンプとその長さとから、録音開始時刻と録音終了時刻とを算出し、これらを、音声情報テーブル４００の録音開始時刻列４０１と録音終了時刻列４０２とに、それぞれ記憶する。

ＣＰＵ２５１は、ステップＳ１５０２において、動画データから画像情報テーブル４１０（図４（ｂ））を生成する。まずＣＰＵ２５１は、動画データに含まれる映像データを先頭から走査してフレーム画像を抽出していく。ＣＰＵ２５１は、抽出したフレーム画像毎に、画像情報テーブル４１０にレコードを追加していく。ＣＰＵ２５１は、抽出したフレーム画像を、画像データのファイルとしてストレージ２５５に記憶する。そしてＣＰＵ２５１は、当該画像データのファイル名を、追加したレコードの画像データ列４１２に記録する。またＣＰＵ２５１は、動画データのタイムスタンプと、抽出したフレーム画像の動画データにおける位置とから、当該フレーム画像が撮影された時刻を算出する。そしてＣＰＵ２５１は、算出した時刻を、追加したレコードの撮影時刻列４１１に記憶する。なお、映像データに含まれるすべてのフレーム画像を抽出の対象とするのではなく、予め決定した時間間隔ごとにフレーム画像を抽出するようにしてもよい。

ＣＰＵ２５１は、ステップＳ１５０３において、動画データからアジェンダ情報テーブル４２０（図４（ｃ））の情報を生成する。まずＣＰＵ２５１は、動画データに含まれるチャプターデータを読み出す。チャプターデータにはチャプター名とチャプターの開始時刻および終了時刻が含まれる。ＣＰＵ２５１は、チャプターごとにアジェンダ情報テーブル４２０にレコードを追加する。そしてＣＰＵ２５１は、アジェンダ名列４２３にチャプター名を記録する。チャプターデータの開始時刻および終了時刻は、動画データの先頭からの経過位置を示すため、ＣＰＵ２５１は、動画データのタイムスタンプと照らし合わせて、チャプターの実時間としての開始時刻と終了時刻を算出する。そしてＣＰＵ２５１は、アジェンダ情報テーブル４２０のアジェンダ開始時刻列４２１とアジェンダ終了時刻列４２２とに、算出した開始時刻と終了時刻とを、それぞれ記憶する。その後ＣＰＵ２５１は、図１５の処理を終了させる。

図１４のステップＳ１４０２の後、ＣＰＵ２５１は、図８で説明したのと同様にステップＳ８０２〜Ｓ８０８の処理を実行する。すなわちＣＰＵ２５１は、図１５の処理で生成した会議情報から、発話テーブル６００（図６（ａ））、記入テーブル６１０（図６（ｂ））を生成し、これらを統合して会議テキストテーブル６２０（図６（ｃ））を生成する。そしてＣＰＵ２５１は、会議テキストテーブル６２０を要約して要約テーブル７００（図７）を生成し、要約テーブル７００等に基づいて議事録を生成する。ステップＳ８０８の後、ＣＰＵ２５１は、処理をステップＳ１４０１に戻す。

このように、会議サーバ１０２は、撮影機能を有する任意の機器によって会議の様子を撮影して得た動画データから、発話テキストと記入テキストを得て、これらを統合して要約し、議事録を生成することができる。

本実施の形態によれば、動画データから取得される音声データ及び画像データの双方に基づいて要約テーブル７００が生成され、要約テーブル７００等に基づいて議事録が生成される。よって、音声と画像の双方から要約を得て、情報の欠落を低減した議事録を生成することに関し、第１の実施の形態と同様の効果を奏することができる。

なお、本実施の形態において、別体の機器から会議装置１０１が動画データを受信し、受信した動画データから会議装置１０１が会議情報を生成してもよい。その後は第１の実施の形態と同様に、会議装置１０１が会議情報を会議サーバ１０２へ送信し、会議サーバ１０２は、受信した会議情報に基づき、図８の処理を実行する。

なお、上記各実施の形態において、会議装置１０１と会議サーバ１０２とを独立した装置としたが、両装置の機能を備えた単一の装置を本発明における要約装置として構成してもよい。あるいは、会議サーバ１０２を、音声データを取得する音声取得機能と画像データを取得する画像取得機能のいずれかまたは双方をさらに有した装置とし、これを本発明の要約装置としてもよい。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。上述の実施形態の一部を適宜組み合わせてもよい。

１０１会議装置
１０２会議サーバ
２５１ＣＰＵ
６００発話テーブル
６１０記入テーブル
６２０会議テキストテーブル
７００要約テーブル

Claims

音声データをテキスト化して第１のテキスト情報を生成する第１の生成手段と、
画像データをテキスト化して第２のテキスト情報を生成する第２の生成手段と、
前記第１の生成手段により生成された第１のテキスト情報と前記第２の生成手段により生成された第２のテキスト情報とを統合して、少なくとも１つのテキストから成る統合テキスト情報を生成する統合手段と、
前記統合手段により統合された統合テキスト情報を要約して要約情報を生成する要約手段と、を有することを特徴とする要約装置。
前記要約手段は、前記統合テキスト情報のうち抽出するテキストを決定し、該決定したテキストを前記統合テキスト情報から抽出することで前記要約情報を生成することを特徴とする請求項１に記載の要約装置。
前記要約手段は、前記統合テキスト情報に含まれる各単語の出現頻度に基づいて、抽出するテキストを決定し、該決定したテキストを前記統合テキスト情報から抽出することを特徴とする請求項２に記載の要約装置。
前記要約手段は、前記統合テキスト情報のうち、前記第２のテキスト情報から生成したテキストについては全て抽出することを特徴とする請求項２に記載の要約装置。
前記要約手段は、前記統合テキスト情報から、所定の単語を含むテキストを抽出することを特徴とする請求項２に記載の要約装置。
前記要約手段は、前記統合テキスト情報のうち、前記第２のテキスト情報に含まれる単語を含むテキストに重み付けをして、抽出するテキストを決定し、該決定したテキストを前記統合テキスト情報から抽出することを特徴とする請求項２に記載の要約装置。
前記要約手段は、議題ごとに前記統合テキスト情報を要約することを特徴とする請求項１〜６のいずれか１項に記載の要約装置。
前記議題の各々には期間が対応付けられており、
前記統合テキスト情報に含まれるテキストの各々には発生時刻が対応付けられており、
前記要約手段は、前記各議題に対応する期間に発生したテキストが、当該議題に対応するよう、前記要約情報を生成することを特徴とする請求項７に記載の要約装置。
前記統合テキスト情報から議事録を作成する作成手段を有することを特徴とする請求項１〜８のいずれか１項に記載の要約装置。
前記第１の生成手段は、前記音声データを音声認識することによって前記第１のテキスト情報を生成することを特徴とする請求項１〜９のいずれか１項に記載の要約装置。
前記第２の生成手段は、前記画像データに含まれる文字を画像認識することによって前記第２のテキスト情報を生成することを特徴とする請求項１〜１０のいずれか１項に記載の要約装置。
電子的に入力されたデータをテキスト化して第３のテキスト情報を生成する第３の生成手段を有し、
前記統合手段は、前記第１のテキスト情報と前記第２のテキスト情報と前記第３の生成手段により生成された第３のテキスト情報とを統合して前記統合テキスト情報を生成することを特徴とする請求項１〜１１のいずれか１項に記載の要約装置。
ユーザの発話から前記音声データを取得する音声取得手段を有することを特徴とする請求項１〜１２のいずれか１項に記載の要約装置。
ユーザが記入した文字を撮影して前記画像データを取得する画像取得手段を有することを特徴とする請求項１〜１３のいずれか１項に記載の要約装置。
前記音声データ及び前記画像データは、動画データから取得されることを特徴とする請求項１〜１１のいずれか１項に記載の要約装置。
請求項１〜１２のいずれか１項に記載の要約装置と、前記要約装置と通信可能な端末装置とを有する要約システムであって、
前記端末装置は、
ユーザの発話から音声データを取得する音声取得手段と、
ユーザが記入した文字を撮影して画像データを取得する画像取得手段と、
前記音声取得手段により取得された音声データ及び前記画像取得手段により取得された画像データを前記要約装置へ送信する送信手段と、を有し、
前記要約装置は、前記送信手段により送信された音声データ及び画像データを受信する受信手段を有することを特徴とする要約システム。
前記端末装置は、前記音声取得手段による音声データの取得中に、表示画面により、前記画像取得手段により画像データを取得するための指示をユーザから受け付けることを特徴とする請求項１６に記載の要約システム。
前記端末装置とは別の端末装置を有し、
前記別の端末装置は、電子的にデータを入力し、入力したデータを前記端末装置へ送信し、
前記端末装置は、前記別の端末装置から送信されたデータを受信し、
前記端末装置の前記送信手段は、前記受信されたデータ、前記音声データ及び前記画像データを、前記要約装置へ送信することを特徴とする請求項１６または１７に記載の要約システム。
要約装置の制御方法であって、
音声データをテキスト化して第１のテキスト情報を生成する第１の生成ステップと、
画像データをテキスト化して第２のテキスト情報を生成する第２の生成ステップと、
前記第１の生成ステップにより生成された第１のテキスト情報と前記第２の生成ステップにより生成された第２のテキスト情報とを統合して、少なくとも１つのテキストから成る統合テキスト情報を生成する統合ステップと、
前記統合ステップにより統合された統合テキスト情報を要約して要約情報を生成する要約ステップと、を有することを特徴とする要約装置の制御方法。
請求項１９に記載の要約装置の制御方法をコンピュータに実行させることを特徴とするプログラム。