JP2020052511A

JP2020052511A - 要約生成装置、要約生成方法、及びプログラム

Info

Publication number: JP2020052511A
Application number: JP2018178642A
Authority: JP
Inventors: 剛大石; Takeshi Oishi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2020-04-02

Abstract

【課題】会議において取得される発話テキストや記入テキストから議事録を作成する際に、一つの基準に基づいて要約を行う場合には、重要な文言を抽出できずに、好ましい議事録が得られない場合がある。また、会議から取得される発話テキストと記入テキストの間には密接な関係が存在するところ、これらを切り分けて文章を評価した場合、重要な文言を漏らすおそれがある。【解決手段】本発明の要約生成装置は、音声データから、発話特徴を付与した発話テキストを生成し、画像データから、記入テキストを付与した記入テキストを生成する。そして、発話テキストと記入テキストを対応付けて会話テキストを生成する。さらに、発話特徴や記入特徴により重み付けを重要度に基づいて会議テキストを要約して、議事録を作成する。【選択図】図８

Description

本発明は、議事録生成等のために要約を生成する要約生成装置に関する。

従来、会議中に発せられた人の発話から議事録を生成するシステムが知られている。特許文献１には、人の発話を音声認識してテキスト化し、要約することで、議事録を生成するシステムが開示されている。また、特許文献１のシステムでは、映像に含まれる文字を画像認識してテキスト化し、要約することで、議事録を生成する。
特許文献１のシステムによれば、人の発話から得られたテキスト（以下、「発話テキスト」という）のみを要約して議事録を作成することができる。また、特許文献１のシステムでは、映像に含まれる文字を画像認識してテキスト化し、要約するので、例えば、ユーザが記入した文字から得られたテキスト（以下、「記入テキスト」という）のみを要約して議事録を作成することもできる。

また、特許文献２には、音声データ中から特徴的なパターンを取得して、そのパターンと時系列的に一致する音声データから得られた発話テキストを用いて要約を生成する装置が開示されている。

特許第５１０４７６２号公報特開２００６−５８５６７号公報

しかしながら、特許文献１のように発話テキストや記入テキストの内容に基づいて作成した議事録では、会議中の発言や記入に含まれるユーザの意図をくみ取ることができない。ここでいうユーザの意図とは、ユーザがホワイトボード中への文字を記入した際に色文字を用いたことや、発話した際の声のめりはり、などである。
一方、特許文献２のようにテキストに付随する特徴に基づいて作成した議事録では、ユーザの意図を拾うことはできるが、内容的に重要な文言を漏らすおそれがある。

このように、会議において取得される発話テキストや記入テキストから議事録を作成する際に、一つの基準に基づいて要約を行う場合には、重要な文言を抽出できずに、好ましい議事録が得られない場合がある。また、会議から取得される発話テキストと記入テキストの間には密接な関係が存在するところ、これらを切り分けて文章を評価した場合、同様に、重要な文言を漏らすおそれがある。

そこで、会議中に発生する情報から議事録の作成に必要な文章を抽出するためには、以下の２つの特徴を共に考慮することが重要となる。すなわち、１つは、発話テキスト及び記入テキストが意味する文章の内容であり、もう１つは、発話テキスト及び記入テキストの生成元である音声データ及び画像データに付随するユーザの意図である。

そこで、本発明は、会議中に発生する音声データと画像データとから、より適切な議事録を作成することを目的とする。

本発明は、音声データから第１のテキスト情報を生成する第１の生成手段と、画像データから第２のテキスト情報を生成する第２の生成手段と、前記音声データから第１の特徴情報を取得する第１の取得手段と、前記第１のテキスト情報に前記第１の特徴情報を付与する第１の付与手段と、前記画像データから第２の特徴情報を取得する第２の取得手段と、前記第２のテキスト情報に前記第２の特徴情報を付与する第２の付与手段と、前記第１のテキスト情報と前記第２のテキスト情報とを対応付ける第１の対応付け手段と、前記第１のテキスト情報と前記第２のテキスト情報とを統合して、第３のテキスト情報を生成する第３の生成手段と、前記第１の特徴情報及び前記第２の特徴情報を用いて、前記第３のテキスト情報の重要度を決定する決定手段と、前記重要度に基づいて前記第３のテキスト情報から要約を生成する第４の生成手段と、を有することを特徴とする要約生成装置である。

本発明によれば、音声データと画像データから得られる複数の特徴を考慮して要約を生成するため、重要なテキストについて漏れの少ない議事録を作成することができる。

会議システムの全体構成図である。会議装置及び会議サーバのハードウェア構成例である。会議装置の表示デバイスに表示される画面の遷移例である。音声情報テーブル、画像情報テーブル、アジェンダ情報テーブルの一例である。会議情報記録処理のフローチャートである。発話テーブル、記入テーブルの一例である。会議テキストテーブルの一例である。要約テーブルの一例である。議事録生成処理のフローチャートである。議事録の一例である。発話特徴取得処理のフローチャートである。発話特徴パターンテーブルの一例である。記入特徴抽出処理のフローチャートである。記入特徴パターンテーブルの一例である。テキスト対応付け処理のフローチャートである。要約テキスト生成処理のフローチャートである。

以下、図面を参照して本発明の実施の形態を説明する。
図１は、本発明の実施形態に係る要約装置を含む会議システムの全体構成図である。
会議システム１００（要約システム）は、会議装置１０１と、要約装置としての会議サーバ１０２とを有する。会議装置１０１と会議サーバ１０２とは、ネットワーク１０３を介して接続されている。

会議装置１０１は、会議サーバ１０２と通信可能な端末装置である。会議装置１０１は、会議室などの会議開催場所に配置され、例えば、会議テーブルの上に置かれる。会議装置１０１は、図４で後述するように、音声や画像など複数の種類のデータ（以下、「会議情報」という）を記録する。会議装置１０１は、会議情報を会議サーバ１０２に送信する。
そして、会議装置１０１は、例えばオフィスや所定の会場等において開催される会議中に生成される会議情報を記録する。

なお、本発明で対象とする会議は、複数の人物の視認や発声行動を伴う集まりであればよく、オフィスや所定の会場等において開催される会議に限定されず、例えば、面接や取り調べ等であってもよい。
また、図１の会議システム１００においては、会議装置１０１と会議サーバ１０２は、それぞれ、１台ずつが図示されているが、会議装置１０１及び会議サーバ１０２のいずれかまたは双方を複数備えてもよい。

会議サーバ１０２は、一般的なＰＣ（Personal Computer）やクラウドサーバなどから構成される。会議サーバ１０２は、会議装置１０１から会議情報を受信し、受信した会議情報を解析・加工して議事録（図９で後述）を作成する。
会議サーバ１０２は、会議情報に含まれる音声データを音声認識してテキストを生成する。また、会議サーバ１０２は、会議情報に含まれる画像データを文字認識（画像認識）してテキストを生成する。会議サーバ１０２は、これらテキストを含む情報に基づいて議事録を作成し、作成した議事録を配信する。

図２（ａ）及び（ｂ）は、それぞれ、会議装置１０１及び会議サーバ１０２のハードウェア構成例を示すブロック図である。
図２（ａ）に示される会議装置１０１は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、ストレージ２０５、入力デバイス２０６、表示デバイス２０７、外部インターフェース２０８、カメラデバイス２０９、マイクデバイス２１０を備える。これら各デバイスは、データバス２０３を介して相互にデータを送受信することができる。なお、ＣＰＵは、Central Processing Unitの略称である。ＲＡＭは、Random Access Memoryの略称である。ＲＯＭは、Read Only Memoryの略称である。

ＣＰＵ２０１は、会議装置１０１全体を制御するためのコントローラである。ＣＰＵ２０１は、不揮発メモリであるＲＯＭ２０２に格納されているブートプログラムによりＯＳ（Operating System）を起動する。ＣＰＵ２０１は、ＯＳの上で、ストレージ２０５に記録されているコントローラプログラムを実行する。コントローラプログラムは、会議装置１０１全体を制御するプログラムである。ＣＰＵ２０１は、データバス２０３を介して各デバイスを制御する。

ＲＡＭ２０４は、ＣＰＵ２０１のメインメモリやワークエリア等の一時記憶領域として動作する。
ストレージ２０５は、読み出しと書き込みが可能な不揮発メモリであり、前述のコントローラプログラムを保存する。また、会議装置１０１は、会議情報を会議サーバ１０２へ送信するまでの間、会議情報をストレージ２０５に保存する。

入力デバイス２０６は、タッチパネルやハードキー、マウスなどから構成される入力装置である。入力デバイス２０６は、ユーザの操作指示を受け付けると、操作内容をＣＰＵ２０１に伝達する。
表示デバイス２０７は、ＬＣＤなどの表示装置であり、ＣＰＵ２０１が生成した表示画像データを画面上に表示する。ＣＰＵ２０１は、入力デバイス２０６から受信した指示情報と、表示デバイス２０７に表示させている表示画像データとに基づいて、操作内容を判定する。その判定結果に応じて、ＣＰＵ２０１は、会議装置１０１を制御するとともに、操作内容に応じて新たな表示画像データを生成し、表示デバイス２０７に表示させる。

外部インターフェース２０８は、ＬＡＮや電話回線、赤外線といった近接無線などのネットワークを介して、別体の外部機器（不図示）と各種データの送受信を行う。
カメラデバイス２０９は、いわゆるデジタルカメラまたはビデオカメラ等の撮像装置であり、動画や画像を撮影することができる。
マイクデバイス２１０は、入力された音声をデジタル信号化し、例えばＷＡＶなどの音声データとして取得する。

図２（ｂ）に示される会議サーバ１０２は、ＣＰＵ２５１、ＲＯＭ２５２、ＲＡＭ２５４、ストレージ２５５、入力デバイス２５６、表示デバイス２５７、外部インターフェース２５８を備える。各デバイスは、データバス２５３を介して相互にデータを送受信することができる。

ＣＰＵ２５１は、会議サーバ１０２全体を制御するためのコントローラである。ＣＰＵ２５１は、不揮発メモリであるＲＯＭ２５２に格納されているブートプログラムによりＯＳを起動する。ＣＰＵ２５１は、ＯＳの上で、ストレージ２５５に記憶されている会議サーバプログラムを実行する。ＣＰＵ２５１は、会議サーバプログラムを実行することより、会議サーバ１０２の各処理を実現する。ＣＰＵ２５１は、データバス２５３を介して各部を制御する。

ＲＡＭ２５４は、ＣＰＵ２５１のメインメモリやワークエリア等の一時記憶領域として動作する。
ストレージ２５５は、読み出しと書き込みが可能な不揮発メモリであり、前述の会議サーバプログラムを保存する。
外部インターフェース２５８、入力デバイス２５６及び表示デバイス２５７の構成はそれぞれ、会議装置１０１の外部インターフェース２０８、入力デバイス２０６及び表示デバイス２０７（図２（ａ））と同様である。

次に、図３を用いて、会議システム１００が提示し、ユーザが参照・操作するユーザインターフェースについて説明する。図３（ａ）〜（ｅ）は、会議装置１０１の表示デバイス２０７に表示される画面の遷移例である。

図３（ａ）に示す画面３００は、会議開始前に表示される画面である。
ユーザは、会議装置１０１に会議の開始を指示するために、入力デバイス２０６を介して「開始」ボタン３０１へ指示をする。ＣＰＵ２０１は、「開始」ボタン３０１への指示を受け付けると、表示デバイス２０７に画面３１０（図３（ｂ））を表示させる。そして、ＣＰＵ２０１は、音声データと画像データの記録を開始する。

図３（ｂ）に示す画面３１０は、会議中に表示される画面である。
「撮影」ボタン３１１は、ユーザが会議装置１０１に撮影要求を指示するためのものである。ユーザは、入力デバイス２０６を介して「撮影」ボタン３１１へ指示をする。ＣＰＵ２０１は、「撮影」ボタン３１１への指示を受け付けると、表示デバイス２０７に画面３２０（図３（ｃ））を表示させる。

「アジェンダ」ボタン３１２は、ユーザが会議装置１０１にアジェンダ（議題）の変更（開始や終了）を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「アジェンダ」ボタン３１２への指示を受け付けると、表示デバイス２０７に画面３３０（図３（ｄ））を表示させる。

「終了」ボタン３１３は、ユーザが会議装置１０１に会議の終了を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「終了」ボタン３１３への指示を受け付けると、表示デバイス２０７に画面３４０（図３（ｅ））を表示させる。

図３（ｃ）に示す画面３２０は、撮影をする際に表示される画面である。
画面３２０には、カメラデバイス２０９により得られる被写体の映像が表示される。ユーザは、映像を見ながら、文字を記入したホワイトボードや紙が、会議装置１０１の撮影画角に収まるよう調整することができる。ＣＰＵ２０１は、入力デバイス２０６を介して画面３２０の任意箇所への指示を受け付けると、カメラデバイス２０９が被写体を撮影して画像データを取得する。

「ＯＫ」ボタン３２１は、ユーザが会議装置１０１に撮影終了を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「ＯＫ」ボタン３２１への指示を受け付けると、表示デバイス２０７に画面３１０（図３（ｂ））を表示させる。

図３（ｄ）に示す画面３３０は、アジェンダの変更を指示する際に表示される画面である。
テキストフィールド３３１は、ユーザが会議装置１０１にアジェンダ名を登録するためのものである。ユーザは入力デバイス２０６を介して、テキストフィールド３３１に、所望のアジェンダ名を入力することができる。

「開始」ボタン３３２は、ユーザが会議装置１０１に、新しいアジェンダの開始を指示するためのものである。
「終了」ボタン３３３は、ユーザが会議装置１０１に、現在のアジェンダの終了を指示するためのものである。なお、終了したアジェンダについては、そのアジェンダ名がテキストエリア３３４にリスト表示される。

「ＯＫ」ボタン３３５は、ユーザが会議装置１０１に、アジェンダ変更の終了を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「ＯＫ」ボタン３３５への指示を受け付けると、表示デバイス２０７に画面３１０（図３（ｂ））を表示させる。

図３（ｅ）に示す画面３４０は、会議を終了する際に表示される画面である。
テキストフィールド３４１は、ユーザが会議装置１０１に、会議システム１００が作成する議事録の送信先を指定するためのものである。ユーザは、入力デバイス２０６を介して、テキストフィールド３４１に所望の送信先を入力することができる。送信先としては、例えば、メールアドレスが採用されるが、それには限定されない。

「ＯＫ」ボタン３４２は、ユーザが会議装置１０１に、会議終了の確定を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「ＯＫ」ボタン３４２への指示を受け付けると、表示デバイス２０７に画面３００（図３（ａ））を表示させる。そして、会議装置１０１は、会議情報の記録を終了し、会議情報を会議サーバ１０２へ送信する。その後、会議サーバ１０２は、受信した会議情報を解析・加工して議事録を生成し、送信先に送信する。

次に、図４を用いて、会議装置１０１によってストレージ２０５に記録される会議情報について説明する。図４（ａ）、（ｂ）、（ｃ）は、それぞれ、音声情報テーブル４００、画像情報テーブル４１０、アジェンダ情報テーブル４２０の構成例である。会議情報は、これらのテーブルから構成される。

図４（ａ）に示す音声情報テーブル４００は、会議装置１０１が録音して取得する音声に関する情報（以下、「音声情報」という）を記録するデータテーブルである。会議装置１０１は、会議中の音声情報を録音して音声データを取得し、音声データをファイルとしてストレージ２０５に記録する。
録音開始時刻列４０１には、録音開始時刻（会議開始時刻）が記録される。録音終了時刻列４０２には、録音終了時刻（会議終了時刻）が記録される。音声データ列４０３には、ストレージ２０５に記録された音声データのファイル名が記録される。

図４（ｂ）に示す画像情報テーブル４１０は、会議装置１０１が撮影して取得する画像に関する情報（以下、「画像情報」という）を記録するデータテーブルである。会議装置１０１は、画像情報を撮影して画像データを取得し、画像データをファイルとしてストレージ２０５に記録する。
撮影時刻列４１１には、撮影時刻が記録される。画像データ列４１２には、ストレージ２０５に記録した画像データのファイル名が記録される。

図４（ｃ）に示すアジェンダ情報テーブル４２０は、会議装置１０１が記録するアジェンダに関する情報（以下、「アジェンダ情報」という）を記録するデータテーブルである。
アジェンダ開始時刻列４２１には、アジェンダの開始時刻が記録される。アジェンダ終了時刻列４２２には、アジェンダの終了時刻が記録される。アジェンダ名列４２３には、アジェンダ名が記録される。

次に、図５を用いて、会議装置１０１による会議情報を記録する処理（会議情報記録処理）について説明する。図５（ａ）、（ｂ）は、会議情報記録処理のフローチャートである。
会議情報記録処理は、ＣＰＵ２０１が、ストレージ２０５に記録されているコントローラプログラムを読み出してＲＡＭ２０４に展開して実行することで実現される。会議情報記録処理は、ユーザが、会議装置１０１の電源キー（不図示）を操作して電源をＯＮ（オン）にすると開始される。会議情報記録処理が開始されると、ＣＰＵ２０１は、画面３００用の表示画像データを生成して、表示デバイス２０７に画面３００（図３（ａ））を表示させる。

まず、ステップＳ５０１において、ＣＰＵ２０１は、「開始」ボタン３０１への指示による会議開始指示がなされたか否かを判別する。
会議開始指示がなされていない場合、ステップＳ５１７において、ＣＰＵ２０１は、会議装置１０１の電源キー（不図示）への指示による電源オフ指示がなされたか否かを判別する。そして、ＣＰＵ２０１は、電源オフ指示がなされない場合は、処理をステップＳ５０１に戻す。
一方、電源オフ指示がなされた場合、ＣＰＵ２０１は、図５のフローチャートの会議情報記録処理を終了する。

ステップＳ５０１で、会議開始指示がなされた場合、ステップＳ５０２において、ＣＰＵ２０１は、画面３１０用の表示画像データを生成して、表示デバイス２０７に画面３１０（図３（ｂ））を表示させる。それと共に、ＣＰＵ２０１は、マイクデバイス２１０により会話の録音を開始する。これにより、ＣＰＵ２０１は音声データの取得を開始する。
ここで、ＣＰＵ２０１は、音声情報テーブル４００（図４（ａ））の録音開始時刻列４０１に、録音開始時刻として現在時刻を記録する。また、ＣＰＵ２０１は、取得した音声データを、ファイルとしてストレージ２０５に記録し始める。ＣＰＵ２０１は、記録した音声データのファイル名を、音声情報テーブル４００の音声データ列４０３に記録する。なお、録音開始時刻は会議開始時刻に相当する。

次に、ステップＳ５０３において、ＣＰＵ２０１は、「撮影」ボタン３１１への指示による撮影要求指示がなされたか否かを判別する。すなわち、音声の取得中に、表示画面を通して、画像データを取得するための指示をユーザから受け付けることが可能である。
撮影要求指示がなされていない場合、ＣＰＵ２０１は処理をステップＳ５０７に進める。
一方、撮影要求指示がなされた場合、ＣＰＵ２０１は処理をステップＳ５０４に進める。

ステップＳ５０４において、ＣＰＵ２０１は、画面３２０用の表示画像データを生成して、表示デバイス２０７に画面３２０（図３（ｃ））を表示させると共に、撮影指示がなされたか否かを判別する。
ここでは、入力デバイス２０６を介して画面３２０の任意箇所への指示がなされた場合、ＣＰＵ２０１は、撮影指示がなされたと判別する。一方、画面３２０へのいずれかの箇所への指示が所定時間継続してなかった場合、ＣＰＵ２０１は、撮影指示がなされないと判別する。
撮影指示がなされない場合、ＣＰＵ２０１は処理をステップＳ５０６に進める。
一方、撮影指示がなされた場合、ＣＰＵ２０１は、ステップＳ５０５を実行してから、処理をステップＳ５０６に進める。

ステップＳ５０５において、ＣＰＵ２０１は、カメラデバイス２０９により被写体の撮影を開始して、画像データを取得する。さらに、ＣＰＵ２０１は、画像情報テーブル４１０（図４（ｂ））にレコード（画像レコード）を追加する。その際、ＣＰＵ２０１は、撮影時刻列４１１に撮影時刻として現在時刻を記録する。また、ＣＰＵ２０１は、画像データを、ファイルとしてストレージ２０５に記録する。ＣＰＵ２０１は、画像データのファイル名を、画像情報テーブル４１０の画像データ列４１２に記録する。

ステップＳ５０６において、ＣＰＵ２０１は、画面３２０（図３（ｃ））上で「ＯＫ」ボタン３２１への指示による撮影終了指示がなされたか否かを判別する。
撮影終了指示がなされていない場合、ＣＰＵ２０１は処理をステップＳ５０４に戻す。
一方、撮影終了指示がなされた場合、ＣＰＵ２０１は処理をステップＳ５０３に戻す。そして、画面３１０用の表示画像データを生成して、表示デバイス２０７に画面３１０（図３（ｂ））を表示させる。

ステップＳ５０７において、ＣＰＵ２０１は、「アジェンダ」ボタン３１２（図３（ｂ））の指示によるアジェンダ変更指示がなされたか否かを判別する。
アジェンダ変更指示がなされていない場合、ＣＰＵ２０１は、処理をステップＳ５１３に進める。
一方、アジェンダ変更指示がなされた場合、ＣＰＵ２０１は、ステップＳ５０８において、画面３３０の表示画像データを生成して、表示デバイス２０７に画面３３０（図３（ｄ））を表示させる。

ステップＳ５０８において、ＣＰＵ２０１は、画面３３０（図３（ｄ））上で「開始」ボタン３３２への指示によるアジェンダ開始指示がなされたか否かを判別する。
アジェンダ開始指示がなされた場合は、ステップＳ５０９において、ＣＰＵ２０１は、新しいアジェンダを開始する。すなわち、ＣＰＵ２０１は、アジェンダ情報テーブル４２０（図４（ｃ））にレコード（アジェンダレコード）を追加し、アジェンダ開始時刻列４２１にアジェンダ開始時刻として現在時刻を記録する。そして、ステップＳ５０９の後、ＣＰＵ２０１は処理をステップＳ５０８に戻す。
一方、ステップＳ５０８でアジェンダ開始指示がなされていない場合、ＣＰＵ２０１は処理をステップＳ５１０に進める。なお、ステップＳ５０９の処理が開始されていて、かつ、ステップＳ５１１の処理が終了していないアジェンダが存在する場合は、ステップＳ５０８ではＮＯと判別される。

ステップＳ５１０において、ＣＰＵ２０１は、画面３３０（図３（ｄ））上で「終了」ボタン３３３への指示によるアジェンダ終了指示がなされたか否かを判別する。
アジェンダ終了指示がなされていない場合、ＣＰＵ２０１は処理をステップＳ５１２に進める。なお、ステップＳ５０９の処理が開始されていて、かつ、ステップＳ５１１の処理が終了していないアジェンダが存在しない場合には、ステップＳ５１０ではＮＯと判別される。
一方、アジェンダ終了指示がなされた場合、ステップＳ５１１において、ＣＰＵ２０１は現在のアジェンダを終了する。すなわち、ＣＰＵ２０１は、アジェンダ情報テーブル４２０（図４（ｃ））のアジェンダ終了時刻列４２２に、アジェンダ終了時刻として現在時刻を記録する。また、ＣＰＵ２０１は、画面３３０（図３（ｄ））上でテキストフィールド３３１に入力されたアジェンダ名をアジェンダ名列４２３に記録する。

ステップＳ５１２において、ＣＰＵ２０１は、画面３３０（図３（ｄ））上で「ＯＫ」ボタン３３５への指示によるアジェンダ変更終了指示がなされたか否を判別する。
アジェンダ変更終了指示がなされない場合は、ＣＰＵ２０１は処理をステップＳ５０８に戻す。
一方、アジェンダ変更終了指示がなされた場合は、ＣＰＵ２０１は処理をステップＳ５０３に処理を戻す。その際、ＣＰＵ２０１は、画面３１０用の表示画像データを生成して、表示デバイス２０７に画面３１０（図３（ｂ））を表示させる。

なお、アジェンダ開始後、終了指示がないまま「ＯＫ」ボタン３３５（図３（ｄ））が指示された場合でも、ステップＳ５０３で撮影要求があれば、撮影が可能となる。その場合、「アジェンダ」ボタン３１２（図３（ｂ））の指示を経て、「終了」ボタン３３３（図３（ｄ））が指示され、さらに「ＯＫ」ボタン３３５が指示されたとき、アジェンダ終了時刻列４２２にアジェンダ終了時刻が記録される。

ステップＳ５０７でアジェンダ変更指示がなされていない場合、ステップＳ５１３において、ＣＰＵ２０１は、画面３３０（図３（ｄ））上で「終了」ボタン３１３への指示による会議終了指示がなされたか否かを判別する。
会議終了指示がなされていない場合、ＣＰＵ２０１は処理をステップＳ５０３に戻す。
一方、会議終了指示がなされた場合、ステップＳ５１４において、ＣＰＵ２０１は、画面３４０用の表示画像データを生成して、表示デバイス２０７に画面３４０（図３（ｅ））を表示させると共に、マイクデバイス２１０による会議の録音を終了する。その際、ＣＰＵ２０１は、音声情報テーブル４００（図４（ａ））の録音終了時刻列４０２に、録音終了時刻として現在時刻を記録する。

なお、アジェンダ情報テーブル４２０（図４（ｃ））において、アジェンダ終了時刻列４２２に終了時刻が記録されていないアジェンダレコードがあれば、ＣＰＵ２０１は、アジェンダ終了時刻として現在時刻をアジェンダ終了時刻列４２２に記録する。また、ＣＰＵ２０１は、画面３３０（図３（ｄ））上のテキストフィールド３３１に入力されたアジェンダ名がない場合は、デフォルトのアジェンダ名をアジェンダ名列４２３に記録する。あるいは、これらの入力をユーザに促して入力させてもよい。

次に、ステップＳ５１５において、ＣＰＵ２０１は、会議終了確定指示がなされたか否かを判別する。すなわち、画面３３０（図３（ｅ））上のテキストフィールド３４１に送信先が入力され、かつ、「ＯＫ」ボタン３４２への指示がなされていた場合、ＣＰＵ２０１は、会議終了確定指示がなされたと判別する。
一方、テキストフィールド３４１に送信先が入力されていないか、「ＯＫ」ボタン３４２への指示がなされていない場合、ＣＰＵ２０１は、会議終了確定指示がなされていないと判別する。
ＣＰＵ２０１は、会議終了確定指示がなされるまで待ち、会議終了確定指示がなされると、処理をステップＳ５１６に進める。なお、テキストフィールド３４１に入力された送信先は、会議情報の一部として記録される。

ステップＳ５１６において、ＣＰＵ２０１は、以上の処理によりストレージ２０５に記録した会議情報を、外部インターフェース２０８を介して会議サーバ１０２へ送信する。そして、処理をステップＳ５０１に戻す。その際、ＣＰＵ２０１は、画面３００用の表示画像データを生成して、表示デバイス２０７に画面３００（図３（ａ））を表示させる。なお、ＣＰＵ２０１は、会議サーバ１０２へ送信した後、会議情報をストレージ２０５から削除してもよい。

なお、画面３００（図３（ａ））の「開始」ボタン３０１への指示から画面３３０（図３（ｄ））の「開始」ボタン３３２への指示までの期間においても、録音や撮影が行われ得る。また、画面３３０（図３（ｄ））の「終了」ボタン３３３への指示から画面３１０（図３（ｂ））の「終了」ボタン３１３への指示までの期間においても、録音や撮影が行われ得る。さらに、「終了」ボタン３３３への指示から次の「開始」ボタン３３２への指示までの期間においても、録音や撮影が行われ得る。
ただし、これらの期間においては、アジェンダ情報テーブル４２０の生成対象とならず、したがって、議事録元情報や議事録の作成の対象とならない。
しかし、これらの期間においても議事録元情報や議事録の作成の対象となるように構成してもよい。その場合、画面３３０（図３（ｄ））の「開始」ボタン３３２で開始されないアジェンダのアジェンダ名は無名としてもよいし、デフォルトで定めてもよい。

ここで、画面３００（図３（ａ））の「開始」ボタン３０１への指示から画面３３０（図３（ｄ））の「開始」ボタン３３２への指示までの期間を例にして説明する。ＣＰＵ２０１は、「開始」ボタン３０１への指示がされた時刻を第１のアジェンダのアジェンダ開始時刻列４２１とする。そして、ＣＰＵ２０１は、その後に「開始」ボタン３３２がオンされた時点の時刻を、第１のアジェンダのアジェンダ終了時刻列４２２とし、かつ、次の（第２の）アジェンダのアジェンダ開始時刻列４２１とする。また、ステップＳ５１６を処理する時点で、テキストフィールド３３１に入力されたアジェンダ名がない場合は、ＣＰＵ２０１は、デフォルトのアジェンダ名をアジェンダ名列４２３に記録してもよいし、アジェンダ名をユーザに入力させてもよい。

次に、図６及び図７を用いて、会議サーバ１０２が会議装置１０１から受信した会議情報を解析・加工して生成する議事録元情報について説明する。図６Ａ（ａ）、（ｂ）、図６Ｂ、図７は、会議サーバ１０２がストレージ２５５に記録する議事録元情報の構成例を示している。ここに示されるように、議事録元情報は、発話テーブル６００（図６Ａ（ａ））、記入テーブル６１０（図６Ａ（ｂ））、会議テキストテーブル６２０（図６Ｂ）、及び、要約テーブル７００（図７）から構成される。

図６Ａ（ａ）に示す発話テーブル６００は、会議情報に含まれる音声データに対する音声認識結果に関する情報（以下、「発話情報」という）を記録するデータテーブルである。
ＣＰＵ２５１は、音声データを解析してユーザの発話を特定し、発話毎にレコード（発話レコード）を生成する。

発話ＩＤ列６０１には、発話レコードが生成された順番にＩＤ番号が記録される。
発話時刻列６０２には、発話が発生した時刻（以下、「発話時刻」という）が記録される。
発話テキスト列６０３には、発話を音声認識して得られた発話テキストが記録される。
発話特徴列６０４には、音声データを解析して得られた特徴情報（以下、「発話特徴」という）が記録される。
対応記入ＩＤ列６０５には、対応する記入テキストの記入ＩＤが記録される。
なお、発話や発話時刻及び発話特徴の特定、対応記入ＩＤの取得については後述する。

図６Ａ（ｂ）に示す記入テーブル６１０は、会議情報に含まれる画像データに対する文字認識結果に関する情報（以下、「記入情報」という）を記録するデータテーブルである。
ＣＰＵ２５１は、画像データを解析してユーザによる記入を特定し、記入毎にレコード（記入レコード）を生成する。

記入ＩＤ列６１１には、記入レコードが生成された順番にＩＤ番号が記録される。
記入時刻列６１２には、記入が発生した時刻（以下、「記入時刻」という）が記録される。
記入テキスト列６１３には、画像データを文字認識して得られた記入テキストが記録される。
記入特徴列６１４には、画像データを解析して得られた特徴情報（以下、「記入特徴」という）が記録される。
対応発話ＩＤ列６１５には、対応する発話テキストの発話ＩＤが記録される。
なお、記入や記入時刻及び記入特徴の特定、対応発話ＩＤの取得については後述する。

図６Ｂに示す会議テキストテーブル６２０（統合テキスト情報）は、会議において発生したテキスト（発話テキスト及び記入テキスト。以下、併せて「会議テキスト」という）に関する情報（以下、「会議テキスト情報」という）を記録するデータテーブルである。
ＣＰＵ２５１は、発話情報（図６Ａ（ａ））と記入情報（図６Ａ（ａ））とを統合して会議テキスト情報を生成する。

会議ＩＤ列６２１には、生成順番に応じてＩＤ番号が記録される。
発生時刻列６２２には、会議テキスト情報が発生した時刻として、発話時刻列６０２または記入時刻列６１２の時刻が記録される。
会議テキスト列６２３には、会議テキストとして、発話テキスト列６０３または記入テキスト列６１３のテキストが記録される。

区分列６２４には、それに対応するレコード（会議レコード）の会議テキストの元となったテキスト（統合前のテキスト）が発話レコードであったか記入レコードであったかを示す情報が記録される。例えば、区分列６２４には、統合前のテキストが発話レコードであった場合には「０」が記録され、記入レコードであった場合には「１」が記録される。
要点列６２５には、それに対応する会議レコードの会議テキスト列６２３の会議テキストが要点であるか否かを示す情報が記録される。ここで、要点とは、会議中に決定した事項や、会議中に発生したアクションアイテムなど、会議の主要な内容を示すものである。要点の判定方法については後述する。要点列６２５には、会議テキストが要点である場合には「１」が記録され、要点でない場合には「０」が記録される。

発話特徴列６２６には、発話テーブル６００中の発話特徴が記録される。記入特徴列６２７には、記入テーブル６１０中の記入特徴が記録される。
発話特徴列６２６に記録される発話特徴は、会議テキスト列６２３に記録された会議テキストに対応する発話テーブル６００中の発話特徴には限られない。すなわち、発話特徴列６２６に記録される発話特徴は、対応記入ＩＤ６０５で対応づけられた記入テキストに付与された記入特徴も含む。
同様に、記入特徴列６２７に記録される記入特徴は、会議テキスト列６２３に記録された会議テキストに対応する記入テーブル６１０中の記入特徴には限られない。すなわち、記入特徴列６２７に記録される記入特徴は、対応発話ＩＤ６１５で対応づけられた発話テキストに付与された発話特徴も含む。
なお、ＣＰＵ２５１は、会議テキストテーブル６２０の会議レコードを、発生時刻列６２２の値で昇順に（発生した順に）ソートする。

図７に示す要約テーブル７００は、会議テキスト（図６Ｂ）を要約した情報（以下、「要約情報」という）を記録するデータテーブルである。
ＣＰＵ２５１は、図６Ｂに示す会議テキストテーブル６２０の会議テキスト列６２３の会議テキストをアジェンダ毎に要約して要約テキストを生成し、それを要約テーブル７００に記録する。
アジェンダ名列７０１には、アジェンダ名が記録される。要約テキスト列７０２（要約情報）には、生成された要約テキストが記録される。

次に、図８を用いて、会議サーバ１０２が、議事録元情報（図６、図７）の生成を経て議事録（図９）を生成する処理（議事録生成処理）について説明する。
図８は議事録生成処理のフローチャートである。議事録生成処理は、ＣＰＵ２５１が、ストレージ２５５に記録されている会議サーバプログラムを読み出してＲＡＭ２５４に展開して実行することで実現される。議事録生成処理は、会議サーバ１０２が起動されると開始される。

まず、ステップＳ８０１において、ＣＰＵ２５１は、外部インターフェース２５８を介して会議装置１０１から会議情報（図４（ａ）〜（ｃ））を受信したか否かを判別する。
会議情報を受信していない場合、ＣＰＵ２５１は処理をステップＳ８１２に進める。
一方、会議情報を受信している場合、ＣＰＵ２５１は処理をステップＳ８０２に進める。

ステップＳ８０２において、ＣＰＵ２５１は、受信した会議情報に含まれる音声データに対して音声認識を行い、発話テキストを得る（発話テキスト生成処理）。ここで、ＣＰＵ２５１は、音声データを先頭から走査して、次の処理を行う。

まず、ＣＰＵ２５１は、音声データ中の無音区間を検出する。無音区間は、例えば、音声データの音圧が閾値以下の状態が一定時間継続されたことに基づいて検出可能である。次に、ＣＰＵ２５１は、ある無音区間と次の無音区間の間の区間を発話区間とし、個々の発話区間について音声認識を行って発話テキストを得る。また、ＣＰＵ２５１は、会議情報の音声情報テーブル４００（図４（ａ））の録音開始時刻列４０１の録音開始時刻と、各発話区間の音声データの先頭からの経過位置とから、各発話区間の発話時刻を算出する。
ＣＰＵ２５１は、このようにして得た発話区間毎に発話テーブル６００（図６Ａ（ａ））に発話レコードを生成（追加）する。そして、ＣＰＵ２５１は、該当する発話時刻と発話テキストを、それぞれ、発話テーブル６００の発話時刻列６０２と発話テキスト列６０３に記録する。

次に、ステップＳ８０３において、ＣＰＵ２５１は、受信した会議情報に含まれる画像データに対して文字認識を行い、記入テキストを得る（記入テキスト生成処理）。ここでＣＰＵ２５１は、会議情報に含まれる画像情報テーブル４１０（図４（ｂ））の画像レコードを順に走査して、次の処理を行う。

まず、ＣＰＵ２５１は、画像情報テーブル４１０の画像レコードを、撮影時刻列４１１の値で昇順に（撮影した順に）ソートする。そして、ＣＰＵ２５１は、現在参照している画像レコードの画像データ列４１２が示す画像データと、それより１つ前の画像レコードの画像データ列４１２が示す画像データとの画像差分を求める。画像差分は、１つ前の画像レコードに該当する撮影から現在参照している画像レコードに該当する撮影までの間にユーザが記入した文字が含まれる部分画像であるとみなすことができる。
次に、ＣＰＵ２５１は、部分画像に対して文字認識を行い、記入テキストを得る。また、ＣＰＵ２５１は、現在参照している画像レコードの撮影時刻列４１１の撮影時刻を、画像差分が発生した時刻、すなわちユーザによる記入の記入時刻とする。
ＣＰＵ２５１は、このようにして得た画像差分毎に記入テーブル６１０（図６Ａ（ｂ））に記入レコードを生成（追加）する。そして、ＣＰＵ２５１は、該当する記入時刻と記入テキストを、それぞれ、記入テーブルの記入時刻列６１２と記入テキスト列６１３に記録する。

ステップＳ８０４において、ＣＰＵ２５１は、受信した会議情報に含まれる音声データに対して解析を行い、発話特徴を得る。発話特徴を取得する処理（発話特徴取得処理）については、図１０で後述する。

ステップＳ８０５において、ＣＰＵ２５１は、受信した会議情報に含まれる画像データに対して解析を行い、記入特徴を得る。記入特徴を取得する処理（記入特徴取得処理）については、図１１で後述する。

ステップＳ８０６において、ＣＰＵ２５１は、発話テーブル６００と記入テーブル６１０に含まれる発話テキスト及び記入テキスト間の対応情報を得る。発話テキストと記入テキストとを対応付ける処理（テキスト対応付け処理）については、図１２で後述する。

ステップＳ８０７において、ＣＰＵ２５１は、発話テキストと記入テキストとを統合して会議テキストを得る。すなわち、ＣＰＵ２５１は、ステップＳ８０２で生成した発話テーブル６００（図６Ａ（ａ））とステップＳ８０３で生成した記入テーブル６１０（図６Ａ（ｂ））とを統合して、会議テキストテーブル６２０（図６Ｂ）を生成する。ここで、ＣＰＵ２５１は、次の処理を行う。

まず、ＣＰＵ２５１は、発話テーブル６００に含まれる発話レコードの数だけ会議テキストテーブル６２０に会議レコードを生成（追加）する。このとき、ＣＰＵ２５１は、発話時刻列６０２の発話時刻を会議テキストが発生した時刻として発生時刻列６２２に記録し、発話テキスト列６０３の発話テキストを会議テキストとして会議テキスト列６２３に記録する。また、ＣＰＵ２５１は、区分列６２４に、元のデータが発話情報であったことを示す「０」を記録し、発話特徴列６２６に、発話特徴列６０４の発話特徴を記録する。さらに、ＣＰＵ２５１は、ステップＳ８０６で取得した対応情報に基づいて、会議テキスト列６２３に入力された発話テキストに対応する記入テキストが付与された記入特徴を記入特徴列６２７に記録する。

また、ＣＰＵ２５１は、記入テーブル６１０に含まれる記入レコードの数だけ会議テキストテーブル６２０に会議レコードを生成（追加）する。このとき、ＣＰＵ２５１は、記入時刻列６１２の記入時刻を会議テキストが発生した時刻として発生時刻列６２２に記録し、記入テキスト列６１３の記入テキストを会議テキストとして会議テキスト列６２３に記録する。また、ＣＰＵ２５１は、区分列６２４に、元のデータが記入情報であったことを示す「１」を記録し、記入特徴列６２７に、記入特徴列６１４の記入特徴を記録する。さらに、ＣＰＵ２５１は、ステップＳ８０６で取得した対応情報に基づいて、会議テキスト列６２３に入力された記入テキストに対応する発話テキストに付与された発話特徴を発話特徴列６２６に記録する。
ＣＰＵ２５１は、以上のように生成（追加）した会議レコードを発生時刻列６２２の値で昇順に（発生した順に）ソートする。

ステップＳ８０８において、ＣＰＵ２５１は、ステップＳ８０７で生成した会議テキストから要点を抽出する。まず、ＣＰＵ２５１は、ステップＳ８０７において会議テキストテーブル６２０に追加した会議レコードの各々について、会議テキスト列６２３の会議テキストが要点であるか否かを判定する。例えば、ＣＰＵ２５１は、会議テキストが、予め決定された特定のキーワードを含むならば要点であると判定する。ＣＰＵ２５１は、会議テキストが要点である場合は要点列６２５に「１」を記録し、要点でない場合は要点列６２５に「０」を記録する。

ステップＳ８０９において、ＣＰＵ２５１は、ステップＳ８０７で生成した会議テキストを要約する（要約生成処理）。ＣＰＵ２５１は、会議情報のアジェンダ情報テーブル４２０のレコードを順に走査して、次の処理を行う。

まず、ＣＰＵ２５１は、アジェンダ情報テーブル４２０（図４（ｃ））のアジェンダレコードを、アジェンダ開始時刻列４２１の値で昇順に（アジェンダの開始順に）ソートする。次に、ＣＰＵ２５１は、現在参照しているアジェンダレコードのアジェンダ開始時刻列４２１のアジェンダ開始時刻からアジェンダ終了時刻列４２２のアジェンダ終了時刻までの期間（アジェンダ期間）を取得する。すなわち、アジェンダの各々にはアジェンダ期間が対応付けられる。
そして、ＣＰＵ２５１は、会議テキストテーブル６２０から、発生時刻列６２２の値が取得したアジェンダ期間に該当する会議レコード群を抽出する。ＣＰＵ２５１は、抽出した会議レコード群の会議テキスト列６２３の会議テキストを要約して、要約テキストを生成する。要約テキストを生成する処理（要約テキスト生成処理）については図１３で後述する。

そして、ＣＰＵ２５１は、要約テーブル７００（図７）に要約レコードを追加して、生成した要約テキストを要約テキスト列７０２に記録する。また、ＣＰＵ２５１は、現在参照しているアジェンダ情報テーブル４２０のアジェンダレコードのアジェンダ名列４２３のアジェンダ名を、要約テーブル７００に追加した要約レコードのアジェンダ名列７０１に記録する。

ステップＳ８１０において、ＣＰＵ２５１は、上記のようにして得た議事録元情報及び会議情報に基づいて、図９に示す議事録を生成する。
図９は、議事録９００の一例を示している。議事録９００は、議事を示す議事テキストデータ９１０と、画像データ群９２０とからなる。議事テキストデータ９１０は、会議開催時間９１１、要点一覧９１２、アジェンダ名９１３、９１５、要約テキスト９１４、９１６を含む。

ここで、ＣＰＵ２５１は、音声情報テーブル４００（図４（ａ））の録音開始時刻列４０１の録音開始時刻（会議開始時刻）と、録音終了時刻列４０２の録音終了時刻（会議終了時刻）とから、会議開催時間９１１を生成する。
要点一覧９１２は、会議テキストテーブル６２０（図６Ｂ）の会議レコードであって、要点列６２５が「１」（要点）であるレコードの会議テキスト列６２３の会議テキストの一覧である。
各アジェンダ名９１３、９１５は、要約テーブル７００（図７）のアジェンダ名列７０１から取得される。
要約テキスト９１４、９１６は、各アジェンダ名９１３、９１５に対応する会議テキストの要約テキストであり、要約テーブル７００の要約テキスト列７０２から取得される。
画像データ群９２０は、会議情報に含まれる画像データを含む。

ステップＳ８１１において、ＣＰＵ２５１は、ステップＳ８１０で生成した議事録を、会議情報に含まれる送信先に送信する。議事録の送信方法としては、例えば、電子メールによる送信が採用される。ＣＰＵ２５１は、電子メール本文に議事テキストデータ９１０を入力し、添付ファイルに画像データ群９２０を入力して、電子メールを送信する。
ステップＳ８１１の処理が終了すると、ＣＰＵ２５１は処理をステップＳ８０１に戻す。

ステップＳ８０１において会議情報を受信していない場合、ステップＳ８１２において、ＣＰＵ２５１は、終了指示がなされたか否かを判別する。ユーザは、例えば、外部インターフェース２５８を介して、別体のＰＣから会議サーバ１０２の終了指示をすることができる。
終了指示がなされていない場合、ＣＰＵ２５１は処理をステップＳ８０１に戻す。
一方、終了指示がなされた場合、ＣＰＵ２５１は図８のフローチャートの議事録生成処理を終了する。

ここで、図１０を用いて、図８のフローチャートのステップＳ８０４における発話特徴取得処理について、詳細に説明する。図１０Ａは、発話特徴取得処理のフローチャートである。ＣＰＵ２５１は、受信した会議情報に含まれる音声データを取得し、先頭から走査して、発話特徴取得処理を行う。

まず、ステップＳ１００１において、ＣＰＵ２５１は、後述する発話特徴パターンの検出に必要な情報の前処理を行う。前処理としては、例えば、音声データをデジタル変換して得られる時系列の音量データに対しての音量平均値の計算と、音声データをフーリエ変換し時系列の周波数データを取得する処理などが挙げられる。なお、ここで行われる前処理及びその手法は、想定する発話特徴パターンに応じて適宜変更することができる。

次に、ステップＳ１００２において、ＣＰＵ２５１は、走査対象となっている音声データ中に発話特徴パターンが含まれているかに基づいて発話特徴を検出する。ここで、発話特徴パターンとは、重要なテキストが発生する際に音声データ中に現れる特徴的な要素をパターン化したものである。

ここで、図１０Ｂを用いて、発話特徴パターンとその検出方法について説明する。
図１０Ｂは、発話特徴パターンをテーブル化したもの（発話特徴パターンテーブル１０１０）である。

発話特徴ＩＤ列１０１１には、各発話特徴を一意に特定するための符号が記録される。
発話特徴名列１０１２には、各発話特徴を表す名称が記録される。
発話特徴パターンの特定方法列１０１３には、各発話特徴を決定する際の基準（パターン）が記録される。
スコア列１０１４には、後述するテキストの重要度を算出する際に用いられる値が記録される。

例えば、発話特徴ＩＤが「１」であるレコード１０１６では、ある区間内において入力された音量データの音量の平均値を一定以上上回る音量の音声データがどの程度存在するかにより、発話特徴を決定することが示されている。具体的には、ある区間内の音声データ中に平均値を一定以上上回る区間が一定以上継続した場合に、「声量大」という発話特徴がＲＡＭ２５４に保存される。

このように、ステップＳ１００２では、走査対象の音声データに対して、発話特徴パターンテーブル１０１０中の各発話特徴パターンの判定処理が順次行われる。
なお、発話特徴パターンは、特徴的な発話を表すようなパターンであればよく、図１０Ｂに示す発話特徴パターンテーブル１０１０に記載されたものに限られない。また、一つの走査区間に対して検出される特徴パターンは一つに限られず、該当する特徴パターンを複数検出してもよい。また、ステップＳ１００１の前処理において、音声データと同様の時系列を持つデータ（例えば、時系列の周波数データ）が存在する場合は、音声データと共に発話特徴パターンを検出するために走査対象としてもよい。

ステップＳ１００３において、ＣＰＵ２５１は、ステップＳ１００２において発話特徴パターンが検出されたか否かを判定する。
発話特徴パターンが検出されている場合、ＣＰＵ２５１は処理をステップＳ１００４に進める。
一方、発話特徴パターンが検出されていない場合、ＣＰＵ２５１は処理をステップＳ１００５に進める。

ステップＳ１００４において、ＣＰＵ２５１は、ステップＳ１００２で抽出した発話特徴を、発話テーブル６００（図６Ａ（ａ））の中の対応する発話テキストへ付与する。
ここでは、抽出された発話特徴の開始された時刻と発話時刻列６０２中の各要素とを比較し、一番時刻が近いものを対応する発話テキストとして判定する。その後、発話テーブル６００中の対応する発話特徴列６０４にステップＳ１００２で検出した発話特徴を記録する。
なお、発話テキストへの発話特徴の付与は、上記の方法に限られず、発話特徴が発生している区間と発話テキストを取得した区間の重複率などに基づいて決定してもよい。

ステップＳ１００５において、ＣＰＵ２５１は、音声データをすべて走査したか否かを判定する。
まだ音声データをすべて走査していないと判定した場合、ＣＰＵ２５１は処理をステップＳ１００２に戻す。
一方、すべての走査を終了したと判定した場合、ＣＰＵ２５１は図１０Ａのフローチャートの発話特徴取得処理を終了する。

次に、図１１を用いて、図８のフローチャートのステップＳ８０５における記入特徴取得処理について、詳細に説明する。図１１Ａは、記入特徴取得処理のフローチャートである。ＣＰＵ２５１は、受信した会議情報に含まれる画像データから記入特徴取得処理を行う。

まず、ステップＳ１１０１において、ＣＰＵ２５１は、画像情報テーブル４１０（図４（ｂ））の画像レコードを、撮影時刻列４１１にある撮影時刻の順で昇順（撮影順）にソートする。
次に、ステップＳ１１０２において、ＣＰＵ２５１は、走査対象となる画像レコードの画像データを画像データ列４１２から取得する。

ステップＳ１１０３において、ＣＰＵ２５１は、現在参照している画像レコードの画像データ列４１２が示す画像データと、それより１つ前の画像レコードの画像データ列４１２が示す画像データとの画像差分を求める。
図１１に示す例では、図１１Ａ（１）に示される画像データ１１１０と、図１１Ａ（２）に示される画像データ１１２０とから、図１１Ａ（３）に示されるような画像差分１１３０が求められる。
この画像差分は、１つ前の画像レコードに該当する撮影から現在参照している画像レコードに該当する撮影までの間にユーザが記入した文字（文字列１１４１及び文字列１１４２）が含まれる部分画像であるとみなすことができる。なお、ステップＳ８０３において文字認識を行う際に画像差分を生成する場合は、それを用いることでステップＳ１１０２及びステップＳ１１０３を省略してもよい。

ステップＳ１１０４において、ＣＰＵ２５１は、ステップＳ１１０３で取得した画像差分に対して記入領域の検出を行う。記入領域とは、部分画像中に含まれる文字列または図形を包含するような領域である。
図１１の例では、図１１Ａ（３）に示される画像差分に対して、図１１Ａ（４）に示される領域１１４１、領域１１４２のような各矩形領域が、それぞれ、記入領域として検出される。
領域１１４１は文字列１１３１を、領域１１４２は文字列１１３２を、それぞれ、対象とした領域であり、この領域を切り出した画像を対象として記入特徴の検出を行う。
なお、記入領域の取得手段としては、例えば、対象画像を二値化した上で画素の密集度などに基づいて領域を取得する手段などの技術を用いることができる。このような記入領域の取得手段は公知の技術であるため、ここでは詳細な説明は省略する。なお、記入領域を取得するにあたり、上記の要件を満たす領域が取得できる手段であれば、使用する手段は限定されない。

ステップＳ１１０５において、ＣＰＵ２５１は、ステップＳ１１０４で取得した記入領域に対して、後述する記入特徴パターンの検出に必要な情報の前処理を行う。ここでは、前処理として、画像データ中の含まれる文字の色とサイズの平均値の計算を行う。

ステップＳ１１０６において、ＣＰＵ２５１は、ステップＳ１１０４で取得した記入領域に対して、記入特徴パターンが含まれているかに基づいて記入特徴を検出する。ここで、記入特徴パターンとは、重要なテキストが発生する際に画像データ中に現れる特徴的な要素をパターン化したものである。

ここで、図１１Ｂを用いて、記入特徴パターンとその検出方法について説明する。
図１１Ｂは、記入特徴のパターンをテーブル化したもの（記入特徴パターンテーブル１１５０）である。

記入特徴ＩＤ列１１５１には、各記入特徴を一意に特定するための符号が記録される。
記入特徴名列１１５２には、各記入特徴を表す名称が記録される。
記入特徴パターンの特定方法列１１５３には、各記入特徴を決定する際の基準（パターン）が記録される。
スコア列１１５４には、後述するテキストの重要度を算出する際に用いられる値が記録される。

例えば、記入特徴ＩＤが「１」であるレコード１１５６では、ステップＳ１１０５で取得した文字サイズの平均値に基づいて文字サイズの比較を行うことが示されている。文字サイズは、文字認識を行った際に得られる情報を用いたり、ステップＳ１１０４で取得した記入領域のサイズを代替的に用いたりすることで取得することができる。そして、文字サイズが平均値より一定以上大きい場合、「文字サイズ大」という記入特徴がＲＡＭ２５４に保存される。

このように、ステップＳ１１０６では、記入領域に対して、記入特徴パターンテーブル１１５０中の各記入特徴パターンの判定処理が順次行われる。
なお、記入特徴パターンは、特徴的な記入を表すようなパターンであればよく、記入特徴パターンテーブル１１５０に記載されたものに限られない。また、一つのテキストに対して検出される特徴パターンは一つに限られず、該当する特徴パターンを複数検出してもよい。

ステップＳ１１０７において、ＣＰＵ２５１は、ステップＳ１１０６で検出されたすべての記入特徴が処理されたか否かを判定する。
すべて処理したと判定した場合、ＣＰＵ２５１は処理をステップＳ１１０９に進める。
一方、まだ処理していない特徴があると判定した場合、ＣＰＵ２５１は処理をステップＳ１１０８に進める。

ステップＳ１１０８において、ＣＰＵ２５１は、ステップＳ１１０６で検出された記入特徴を、記入テーブル６１０（図６Ａ（ｂ））の対応する記入テキストに付与する。記入テキストへの記入特徴の付与は、特徴検出を行った文字領域に対して文字認識を実行することによって得られるテキストと、記入テーブル６１０中に保持されている記入テキストに対して、類似度を判定することによりを行うことができる。そして、ＣＰＵ２０１は、類似度が最も高い記入テキストを対応する記入テキストであると判定する。その後、記入テーブル６１０中の記入特徴列６１４にステップＳ１１０６で検出した記入特徴を記録する。
なお、ステップＳ８０３における文字認識の際に領域の分割を行う場合は、同領域から生成されるテキストを対象とすることが可能であるため、本ステップを省略してもよい。

ステップＳ１１０９において、ＣＰＵ２５１は、画像データをすべて走査したか否かを判定する。
まだ画像データをすべて走査していないと判定した場合、ＣＰＵ２５１は処理をステップＳ１１０２に進める。
一方、すべての走査を終了したと判定した場合、ＣＰＵ２５１は、図１１Ａのフローチャートの記入特徴取得処理を終了する。

次に、図１２を用いて、図８のフローチャートのステップＳ８０６において、発話テキストと記入テキストとの間の対応付けをする処理（テキスト対応付け処理）について、詳細に説明する。図１２は、テキスト対応付け処理のフローチャートである。ＣＰＵ２５１は、発話情報に含まれる発話テキストと記入情報に含まれる記入テキストとの間の対応付けを行う。

まず、ステップＳ１２０１において、ＣＰＵ２５１は、発話テーブル６００（図６Ａ（ａ））中の発話レコードから発話時刻順に発話テキストを取得する。
次に、ステップＳ１２０２において、ＣＰＵ２５１は、記入テーブル６１０（図６Ａ（ｂ））中の記入レコードから記入時刻順に記入テキストを取得する。

ステップＳ１２０３において、ＣＰＵ２５１は、ステップＳ１２０１及びＳ１２０２で取得した、発話テキスト及び記入テキスト間の類似度を算出する。類似度の計算手段は、例えば、テキスト内の単語や文字を直接評価する手段（レーベンシュタイン距離など）などの技術を用いることができる。また、テキストをベクトルとして分散表現し、距離計算を行うことによる評価手段（Bag-of-wordsやdoc2vecなど）などの技術を用いることもできる。このような類似度の計算手段は公知の技術であるため、ここでは詳細な説明は詳細する。なお、類似度を計算するにあたり、テキストの類似度を数値評価できるものであれば、使用する手段は限定されない。

ステップＳ１２０４において、ＣＰＵ２５１は、記入テーブル６１０中の記入テキストをすべて走査したか否かを判定する。
すべて走査したと判定した場合、ＣＰＵ２５１は処理をステップＳ１２０５に進める。
一方、まだ走査していない記入テキストがあると判定した場合、ＣＰＵ２５１は処理をステップＳ１２０２に戻す。そして、次の記入テキストを取得し、類似度の算出を継続する。

ステップＳ１２０５において、ＣＰＵ２５１は、ステップＳ１２０３で算出した、発話テキストに対する各記入テキストの類似度のうち、最大の類似度を有する記入テキストを選択して、その類似度があらかじめ定められた閾値以上であるか否かを判定する。
閾値以上であると判定した場合、ＣＰＵ２５１は、その記入テキストを発話テキストに関係のある記入テキストであると判断し、処理をステップＳ１２０６に進める。
一方、閾値以下であると判定した場合、ＣＰＵ２５１は処理をステップＳ１２０７に進める。

ステップＳ１２０６において、ＣＰＵ２５１は、発話テキストと記入テキストとの対応関係を、発話テーブル６００中の対応記入ＩＤ列６０５及び記入テーブル６１０中の対応発話ＩＤ列６１５に、それぞれ、記録する。
なお、ここでは類似度が最大のもののみを選択したが、すべての記入テキストを対象として、類似度が閾値以上である複数の記入テキストに対して対応付けを行い、発話テーブル６００及び記入テーブル６１０中に記録してもよい。

ステップＳ１２０７において、ＣＰＵ２５１は、発話テーブル６００中の発話テキストをすべて走査したか否かを判定する。
すべて走査したと判定した場合、ＣＰＵ２５１は図１２のフローチャートのテキスト対応付け処理を終了する。
一方、まだ走査していない発話テキストがあると判定した場合、ＣＰＵ２５１は処理をステップＳ１２０１に戻す。そして、次の発話テキストを取得してテキスト対応付け処理を継続する。

なお、図１２のフローチャートにおいては、記入テーブル６１０中のすべての記入テキストをテキスト対応付け処理の対象としたが、発話時刻列６０２及び記入時刻列６１２に基づいて発生時刻が近いもののみに限定するなど、対応付け範囲を変更してもよい。
また、図１２のフローチャートにおいては、発話テキスト毎に記入テキストを対応付けていったが、記入テキスト毎に発話テキストを対応付けていってもよい。すなわち、発話テキストと記入テキストの一方を他方に対応付けていけばよい。

最後に、図１３を用いて、図８のフローチャートのステップＳ８０９における要約テキスト生成処理について、詳細に説明する。図１３は、要約テキスト生成処理のフローチャートである。要約テキスト生成処理は、ステップＳ８０９における、会議テキストを要約する処理の一部に該当する。要約テキスト生成処理にあたって、ＣＰＵ２５１には会議テキストテーブル６２０（図６Ｂ）における複数の会議レコードが入力されてくる。

まず、ステップＳ１３０１において、ＣＰＵ２５１は、入力された会議レコードのすべてを参照し、会議テキスト列６２３の会議テキストに出現する単語の各々について、その重要度を算出する。
ここでは、ＣＰＵ２５１は、例えば、各単語の出現頻度に基づいて各単語の重要度を算出する。この場合、ＣＰＵ２５１は、出現頻度が高い単語ほど重要度が高いと判断し、重要度を数値として表現する。なお、テキスト評価の手法は上記に限られず、テキストを数値的に評価することが可能であれば、任意の手法を採用することができる。

ステップＳ１３０２において、ＣＰＵ２５１は、入力された各会議レコードの会議テキスト列６２３の会議テキストについて、それぞれの重要度を算出する。
ここで、ＣＰＵ２５１は、ステップＳ１３０１で算出した各単語の重要度に基づいて、各会議テキストに含まれる各単語の重要度の合計値を算出することにより、各会議テキストの重要度（単語合計重要度）の値を算出する。

ステップＳ１３０３において、ＣＰＵ２５１は、会議テキストテーブル６２０中の会議テキスト列６２３に含まれる会議テキストの最終的な重要度（会議テキスト重要度）を決定する。
ここで、会議テキスト重要度（Ｉ）は、下記の評価式によって求められる。
Ｉ＝α×Ｔｅ + β×Ｓｅ + γ×Ｒｅ

ここで、Ｔｅは、Ｓ１３０２において算出された単語合計重要度である。Ｓｅは、発話特徴パターンテーブル１０１０中のスコア列１０１４で予め設定された値（発話特徴重要度）である。Ｒｅは、記入特徴パターンテーブル１１５０中のスコア列１１０４で予め設定された値（記入特徴重要度）である。
また、α、β、γは、それぞれ、テキスト重要度、発話特徴重要度、記入特徴重要度に対応する重みである。

これらの重みを重視したい項目に合わせて調整することにより、議事録中に抽出するテキストの傾向を変更することが可能である。例えば、会議において、ユーザは、ホワイトボードなどの記入媒体に、会議における論点や重要な意見を記入する場合がある。これらの記入された内容は通常、議事として重要であるため、そこに付与された特徴情報は高く評価されるべきである。そこで、評価式中の記入特徴重要度の重みγをα、βに比べて高く設定することで、記入媒体から得られた記入テキストを要約テキストに優先的に反映することが可能となる。
なお、最終テキスト重要度Ｉを決定する評価式は、上述した式に限られず、趣旨を逸脱しない範囲において適宜変更してもよい。例えば、テキストの種別（発話テキストであるか記入テキストであるか）に応じて各重要度の重みを変更するような評価式が考えられる。

ステップＳ１３０４において、ＣＰＵ２５１は、重要度が所定の閾値以上である会議テキストを、重要度の高い会議テキストとして抽出する。これにより、会議テキストテーブル６２０に含まれる各単語の出現頻度及び特徴の有無に基づいて、抽出する会議テキストが決定され、決定された会議テキストが抽出される。これにより、ＣＰＵ２５１は、抽出した会議テキストから、要約テーブル７００（図７）に記録される要約テキストを生成することができる。

以上のとおり、本実施形態において、会議サーバ１０２は、音声データをテキスト化して、発話テキストを含む発話テーブル６００を生成する。また、検出された発話特徴を対応する発話テキストに付与する。同様に、会議サーバ１０２は、画像データをテキスト化して、記入テキストを含む記入テーブル６１０を生成する。また、検出された記入特徴を対応する記入テキストに付与する。
次に、会議サーバ１０２は、発話テキストと記入テキストとの間の類似度を算出することにより、発話テキストと記入テキストを対応付ける。そして、会議サーバ１０２は、発話テーブル６００と記入テーブル６１０を統合して、発話テキストと記入テキストを併せた会議テキストを含む会議テキストテーブル６２０を生成する。
さらに、会議サーバ１０２は、会議テキストに含まれる単語について、発話特徴や記入特徴により重み付けをした算出した重要度に基づいて会議テキストテーブル６２０を要約して、要約テーブル７００を生成する。最後に会議サーバ１０２は、要約テーブル７００に基づいて議事録を生成する。

このように、本実施形態では、発話テキストに発話特徴を付与し、また、記入テキストに記入特徴を付与した上で、発話テキストと記入テキストを対応付けて会議テキストを作成してから、各特徴による重み付けを考慮して要約を作成する。
これにより、複数の異なる特徴を組み合わせた重要度に基づいて要約を生成することができるため、より適切な議事録を作成することができる。

本実施形態の奏する効果を、図６の事例を用いて具体的に説明する。
記入テーブル（図６Ａ（ｂ））中の記入ＩＤが「１」である記入レコード６１６には、ステップＳ８０５において検出された「下線」という記入特徴が付与されている。また、記入レコード６１６の対応発話ＩＤには、ステップＳ８０６のテキスト対応付け処理において、発話テーブル６００中の発話ＩＤが「２」である発話レコード６０６と対応があると判定されたことが記録されている。
この場合、会議テキストテーブル（図６Ｂ）には、ステップＳ８０７において、発話レコード６０６に対応して、「下線」という記入特徴が記録された会議レコード６２８（会議ＩＤが「２」）が生成される。
これにより、ステップＳ８０９において会議テキストを要約するときに、会議レコード６２８については、「下線」という記入特徴が持つ重要度が加算され、要約に含められるテキストとして選択される可能性が高くなる。

上記の事例のように、ユーザが会議中に記入したテキストに下線を引いた場合は、例えば、このテキストが会議の結論に対する理由や根拠となっているなど、このテキストが重要であるとユーザが判断していたと考えられる。このため、本実施形態では、そのように重要であると考えられる記入テキストが生成された場合、その記入テキストの重要度を上げる処理を行う。同様に、発話テキストについても、重要であると考えられる場合、その重要度を上げる処理を行う。
これにより、本実施形態では、音声データ及び画像データの双方から得られたテキスト及び特徴を考慮した評価を行い、その評価に基づいた要約を行うため、要約や議事録を生成する際に、ユーザにとって重要な情報の欠落を低減させることができる。

なお、ＣＰＵ２５１は、議事録元情報（図６、図７）を会議サーバ１０２の表示デバイス２５７に表示させてもよい。さらには、表示させた議事録元情報から、ユーザの指示により各レコードを変更、例えば、内容を編集したりレコードを追加または削除したり、できるように構成してもよい。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。すなわち、上述の実施形態及びその変形例を組み合わせた構成もすべて本発明に含まれるものである。

６００発話テーブル
６１０記入テーブル
６２０会議テキストテーブル
７００要約テーブル

Claims

音声データから第１のテキスト情報を生成する第１の生成手段と、
画像データから第２のテキスト情報を生成する第２の生成手段と、
前記音声データから第１の特徴情報を取得する第１の取得手段と、
前記第１のテキスト情報に前記第１の特徴情報を付与する第１の付与手段と、
前記画像データから第２の特徴情報を取得する第２の取得手段と、
前記第２のテキスト情報に前記第２の特徴情報を付与する第２の付与手段と、
前記第１のテキスト情報と前記第２のテキスト情報とを対応付ける第１の対応付け手段と、
前記第１のテキスト情報と前記第２のテキスト情報とを統合して、第３のテキスト情報を生成する第３の生成手段と、
前記第１の特徴情報及び前記第２の特徴情報を用いて、前記第３のテキスト情報の重要度を決定する決定手段と、
前記重要度に基づいて前記第３のテキスト情報から要約を生成する第４の生成手段と、を有する
ことを特徴とする要約生成装置。
前記第１の付与手段により前記第１の特徴情報が付与された前記第１のテキスト情報、前記第２の付与手段により前記第２の特徴情報が付与された前記第２のテキスト情報、前記第１の対応付け手段により対応付けられた前記第１のテキスト情報と前記第２のテキスト情報に基づいて、前記第１のテキスト情報に前記第２の特徴情報を付与する第３の付与手段、及び、前記第２のテキスト情報に前記第１の特徴情報を付与する第４の付与手段を有する
ことを特徴とする請求項１に記載の要約生成装置。
前記決定手段は、前記第１の特徴情報に第１の重みを設定し、前記第２の特徴情報の第２の重みを設定することにより、前記第３のテキスト情報の重要度を決定する
ことを特徴とする請求項１又は２に記載の要約生成装置。
前記第２の重みが前記第１の重みより高く設定される
ことを特徴とする請求項３に記載の要約生成装置。
前記決定手段は、
前記第３のテキスト情報に含まれる単語の重要度を合計した合計値から前記第３のテキスト情報の重要度を決定する
ことを特徴とする請求項１乃至４のいずれか１項に記載の要約生成装置。
前記第１の特徴情報及び前記第２の特徴情報がそれぞれ複数あり、前記複数の第１の特徴情報及び第２の特徴情報のそれぞれに対して、前記重要度を算出する際に用いられるスコアが定められている
ことを特徴とする請求項３又は５のいずれか１項に記載の要約生成装置。
前記第１の対応付け手段は、前記第１のテキスト情報と前記第２のテキスト情報との類似度に基づいて、前記第１のテキスト情報と前記第２のテキスト情報とを対応付ける
ことを特徴とする請求項１乃至６のいずれか１項に記載の要約生成装置。
前記第１の対応付け手段は、前記第１のテキスト情報と前記第２のテキスト情報のそれぞれに含まれる単語を用いて前記類似度を算出する
ことを特徴とする請求項７に記載の要約生成装置。
前記第１の対応付け手段は、前記第１又は第２のテキスト情報の一方に対して、前記類似度が最大となる前記第１又は第２のテキスト情報の他方を前記一方に対応付ける
ことを特徴とする請求項７又は８に記載の要約生成装置。
前記第１の対応付け手段は、前記第１又は第２のテキスト情報の一方に対して、前記類似度があらかじめ定められた閾値以上となる前記第１又は第２のテキスト情報の他方を前記一方に対応付ける
ことを特徴とする請求項７又は８に記載の要約生成装置。
音声データから第１のテキスト情報を生成する第１の生成工程と、
画像データから第２のテキスト情報を生成する第２の生成工程と、
前記音声データから第１の特徴情報を取得する第１の取得工程と、
前記第１のテキスト情報に前記第１の特徴情報を付与する第１の付与工程と、
前記画像データから第２の特徴情報を取得する第２の取得工程と、
前記第２のテキスト情報に前記第２の特徴情報を付与する第２の付与工程と、
前記第１のテキスト情報と前記第２のテキスト情報とを対応付ける第１の対応付け工程と、
前記第１のテキスト情報と前記第２のテキスト情報とを統合して、第３のテキスト情報を生成する第３の生成工程と、
前記第１の特徴情報及び前記第２の特徴情報を用いて、前記第３のテキスト情報の重要度を決定する決定工程と、
前記重要度に基づいて前記第３のテキスト情報から要約を生成する第４の生成工程と、を有する
ことを特徴とする要約生成方法。
請求項１１の要約生成方法をコンピュータにより実行させるためのプログラム。