JP2019101754A - 要約装置及びその制御方法、要約システム、プログラム - Google Patents

要約装置及びその制御方法、要約システム、プログラム Download PDF

Info

Publication number
JP2019101754A
JP2019101754A JP2017232087A JP2017232087A JP2019101754A JP 2019101754 A JP2019101754 A JP 2019101754A JP 2017232087 A JP2017232087 A JP 2017232087A JP 2017232087 A JP2017232087 A JP 2017232087A JP 2019101754 A JP2019101754 A JP 2019101754A
Authority
JP
Japan
Prior art keywords
text
conference
cpu
text information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017232087A
Other languages
English (en)
Inventor
元気 池田
Motoki Ikeda
元気 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017232087A priority Critical patent/JP2019101754A/ja
Priority to US16/199,591 priority patent/US11281707B2/en
Publication of JP2019101754A publication Critical patent/JP2019101754A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声と画像の双方から要約を得る要約装置、その制御方法、要約システム及びプログラムを提供する。【解決手段】会議システム100(要約システム)において、会議装置101は、音声データを含む音声情報テーブル、画像データを含む画像情報テーブル等を生成する。会議サーバ102は、音声情報テーブルの音声データをテキスト化して発話テーブルを生成し、画像情報テーブルの画像データをテキスト化して記入テーブルを生成する。そして会議サーバ102は、発話テーブル、記入テーブルを統合して会議テキストテーブルを生成し、さらに会議テキストテーブルを要約して、要約テーブルを生成し、要約テーブル等に基づいて議事録を生成する。【選択図】図1

Description

本発明は、議事録生成等のための要約情報を得る要約装置等に関する。
従来、議事録を生成するシステムが知られている。特許文献1は、人の発話を音声認識してテキスト化し、要約することで、議事録を生成する。また特許文献1は、映像に含まれる文字を画像認識してテキスト化し、要約することで、議事録を生成する。特許文献1の技術によれば、人の発話から得たテキスト(以降「発話テキスト」と呼称する)のみを要約して議事録を作成することができる。さらに特許文献1は、映像に含まれる文字を画像認識してテキスト化し、要約するので、例えばユーザが記入した文字から得たテキスト(以降「記入テキスト」と呼称する)のみを要約して議事録を作成することもできる。
特許第5104762号公報
しかしながら、発話テキストと記入テキストのどちらか一方のみから作成した議事録では、情報の欠落が生じる可能性がある。例えば、ユーザは、記入媒体に記入した内容を必ずしも発話しない場合があるし、発話した内容を必ずしも記入しない場合がある。
より具体的には、会議における議論の中で、ポイントとなる発話があった時に、記入媒体には、発話をそのまま記入せずに、より適切・簡潔な表現に置き換えて記入することがある。あるいは、前回の会議で洗い出した論点等、既知の事柄を書き出した場合、それらを全て読み上げて発話せずに、指し示しながら「この点については〜」などのように発話する場合がある。また、一般にユーザは、記入媒体にはポイントを記入して可視化するので、それらポイントを導き出すまでの経過や背景は発話にしか現れず、記入媒体には記入されない場合がある。
このように、発話テキストと記入テキストのいずれか一方のみを要約して議事録を作成した場合、重要な情報の欠落が生じるおそれがあり、好ましい議事録を生成できない場合があった。
本発明は、音声と画像の双方から要約を得ることを目的とする。
上記目的を達成するために本発明は、音声データをテキスト化して第1のテキスト情報を生成する第1の生成手段と、画像データをテキスト化して第2のテキスト情報を生成する第2の生成手段と、前記第1の生成手段により生成された第1のテキスト情報と前記第2の生成手段により生成された第2のテキスト情報とを統合して、少なくとも1つのテキストから成る統合テキスト情報を生成する統合手段と、前記統合手段により統合された統合テキスト情報を要約して要約情報を生成する要約手段と、を有することを特徴とする。
本発明によれば、音声と画像の双方から要約を得ることができる。
要約装置を含む会議システムの全体構成図である。 会議装置、会議サーバのハードウェア構成例を示すブロック図である。 会議装置の表示デバイスに表示される画面の遷移図である。 音声情報テーブル、画像情報テーブル、アジェンダ情報テーブルの構成例を示す図である。 会議情報記録処理のフローチャートである。 発話テーブル、記入テーブル、会議テキストテーブルを示す図である。 要約テーブルを示す図である。 議事録生成処理のフローチャートである。 議事録の一例を示す図である。 要約テキスト生成処理のフローチャートである。 会議システムの全体構成図である。 表示画像テーブル、電子記入画像テーブルを示す図である。 会議情報記録処理のフローチャートである。 議事録生成処理のフローチャートである。 会議情報生成処理のフローチャートである。
以下、図面を参照して本発明の実施の形態を説明する。
(第1の実施の形態)
図1は、本発明の第1の実施の形態に係る要約装置を含む会議システムの全体構成図である。この会議システム100(要約システム)は、会議装置101と、要約装置としての会議サーバ102とを有する。会議装置101と会議サーバ102とはネットワーク103を介して接続されている。会議装置101は、会議サーバ102と通信可能な端末装置である。
会議装置101は、会議室などの会議開催場所に配置され、例えば会議テーブルの上に置かれる。会議装置101は、音声や画像など複数の種類のデータ(以降「会議情報」と呼称する)を記録する。会議装置101は、会議情報(図4で後述)を会議サーバ102に送信する。なお、図1において、会議システム100は、会議装置101と会議サーバ102をそれぞれ1台ずつ備えるが、会議装置101及び会議サーバ102のいずれかまたは双方を複数備えてもよい。会議装置101は、例えばオフィスや所定の会場等において開催される会議を記録する。しかし、本発明で対象とする会議は、複数の人物の視認や発声行動を伴う集まりであればよく、オフィスや所定の会場等において開催される会議に限定されず、例えば、面接や取り調べ等であってもよい。
会議サーバ102は、一般的なPC(Personal Computer)やクラウドサーバであり、会議装置101から会議情報を受信し、これを解析・加工して議事録(図9で後述)を作成する。会議サーバ102は、会議情報に含まれる音声データを音声認識してテキストを生成する。会議サーバ102はまた、会議情報に含まれる画像データを文字認識(画像認識)してテキストを生成する。会議サーバ102は、これらテキストを含む情報より議事録を作成し、作成した議事録を配信する。
図2(a)、(b)はそれぞれ、会議装置101、会議サーバ102のハードウェア構成例を示すブロック図である。会議装置101は、CPU201、ROM202、RAM204、ストレージ205、入力デバイス206、表示デバイス207、外部インターフェース208、カメラデバイス209、マイクデバイス210を備える。これら各部は、データバス203を介して相互にデータを送受信することができる。CPUは、Central Processing Unitの略称である。RAMは、Random Access Memoryの略称である。ROMは、Read Only Memoryの略称である。
CPU201は、この会議装置101全体を制御するためのコントローラである。CPU201は、不揮発メモリであるROM202に格納されているブートプログラムによりOS(Operating System)を起動する。CPU201は、このOSの上で、ストレージ205に記録されているコントローラプログラムを実行する。コントローラプログラムは、会議装置101全体を制御するプログラムである。CPU201は、データバス203を介して各部を制御する。RAM204は、CPU201のメインメモリやワークエリア等の一時記憶領域として動作する。ストレージ205は、読み出しと書き込みが可能な不揮発メモリであり、前述のコントローラプログラムを保存する。また、会議装置101は、会議情報を会議サーバ102へ送信するまでの間、ストレージ205に会議情報を保存する。
入力デバイス206は、タッチパネルやハードキー、マウスなどから構成さる入力装置である。入力デバイス206は、ユーザの操作指示を受け付けるとそれをCPU201に伝達する。表示デバイス207は、LCDなどの表示装置であり、CPU201が生成した表示画像データを画面上に表示する。CPU201は、入力デバイス206から受信した指示情報と、表示デバイス207に表示させている表示画像データとに基づいて、操作を判定する。その判定結果に応じて、CPU201は、会議装置101を制御するとともに、操作内容に応じて新たな表示画像データを生成し、表示デバイス207に表示させる。外部インターフェース208は、LANや電話回線、赤外線といった近接無線などのネットワークを介して、別体の外部機器(不図示)と各種データの送受信を行う。カメラデバイス209は、いわゆるデジタルカメラまたはビデオカメラ等の撮像装置であり、動画や画像を撮影することができる。マイクデバイス210は、入力された音声をデジタル信号化し、例えばWAVなどの音声データとして取得する。
会議サーバ102は、CPU251、ROM252、RAM254、ストレージ255、入力デバイス256、表示デバイス257、外部インターフェース258を備える。各部は、データバス253を介して相互にデータを送受信することができる。CPU251は、会議サーバ102全体を制御するためのコントローラである。CPU251は、不揮発メモリであるROM252に格納されているブートプログラムによりOSを起動する。CPU251は、このOSの上で、ストレージ255に記憶されている会議サーバプログラムを実行する。CPU251がこの会議サーバプログラムを実行することより、会議サーバ102の各処理を実現する。CPU251は、データバス253を介して各部を制御する。RAM254は、CPU251のメインメモリやワークエリア等の一時記憶領域として動作する。ストレージ255は、読み出しと書き込みが可能な不揮発メモリであり、前述の会議サーバプログラムを保存する。外部インターフェース258、入力デバイス256および表示デバイス257の構成はそれぞれ、会議装置101の外部インターフェース208、入力デバイス206および表示デバイス207(図2(a))と同様である。
次に、会議システム100が提示し、ユーザが参照・操作するユーザインターフェースについて説明する。図3(a)〜(e)は、会議装置101の表示デバイス207に表示される画面の遷移図である。
まず、図3(a)に示す画面300は、会議開始前に表示される画面である。ユーザは、会議装置101に会議の開始を指示するために、入力デバイス206を介して「開始」ボタン301を指示する。CPU201は、「開始」ボタン301への指示を受け付けると、表示デバイス207に、図3(b)に示す画面310を表示させる。そして、CPU201は、会議情報の記録を開始する。画面310は、会議中に表示される画面である。ユーザは、会議装置101に撮影要求を指示するために、入力デバイス206を介して「撮影」ボタン311を指示する。CPU201は、「撮影」ボタン311への指示を受け付けると、表示デバイス207に、図3(c)に示す画面320を表示させる。
「アジェンダ」ボタン312は、ユーザが会議装置101にアジェンダ(議題)の変更(開始や終了)を指示するためのものである。CPU201は、入力デバイス206を介して「アジェンダ」ボタン312への指示を受け付けると、表示デバイス207に、図3(d)に示す画面330を表示させる。「終了」ボタン313は、ユーザが会議装置101に会議の終了を指示するためのものである。CPU201は、入力デバイス206を介して「終了」ボタン313への指示を受け付けると、表示デバイス207に、図3(e)に示す画面340を表示させる。
図3(c)に示す画面320は、撮影をする際に表示する画面である。画面320には、カメラデバイス209により得られる被写体の映像が表示される。ユーザは、当該映像を見ながら、文字を記入したホワイトボードや紙が、会議装置101の撮影画角に収まるよう調整することができる。CPU201は、入力デバイス206を介して画面320の任意箇所への指示を受け付けると、カメラデバイス209により被写体を撮影して画像データを取得する。「OK」ボタン321は、ユーザが会議装置101に撮影終了を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン321への指示を受け付けると、表示デバイス207に、画面310(図3(b))を表示させる。
画面330(図3(d))は、アジェンダの変更を指示する際に表示される画面である。テキストフィールド331は、ユーザが会議装置101にアジェンダ名を登録するためのものである。ユーザは入力デバイス206を介して、テキストフィールド331に、所望のアジェンダ名を入力することができる。「開始」ボタン332は、ユーザが会議装置101に、新しいアジェンダの開始を指示するためのものである。「終了」ボタン333は、ユーザが会議装置101に、現在のアジェンダの終了を指示するためのものである。なお、終了されたアジェンダは、そのアジェンダ名がテキストエリア334にリスト表示される。「OK」ボタン335は、ユーザが会議装置101に、アジェンダ変更の終了を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン335への指示を受け付けると、表示デバイス207に、画面310(図3(b))を表示させる。
図3(e)に示す画面340は、会議を終了する際に表示される画面である。テキストフィールド341は、ユーザが会議装置101に、会議システム100が作成する議事録の送信先を指定するためのものである。ユーザは入力デバイス206を介して、テキストフィールド341に所望の送信先を入力することができる。送信先としては例えば、メールアドレスが採用されるが、それに限定されない。「OK」ボタン342は、ユーザが会議装置101に、会議終了の確定を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン342への指示を受け付けると、表示デバイス207に画面300(図3(a))を表示させる。そして会議装置101は、会議情報の記録を終了し、会議情報を会議サーバ102へ送信する。その後、会議サーバ102は、受信した会議情報を解析・加工して議事録を生成し、送信先に送信する。
次に、会議装置101によってストレージ205に記録される会議情報について説明する。図4(a)、(b)、(c)はそれぞれ、音声情報テーブル400、画像情報テーブル410、アジェンダ情報テーブル420の構成例を示す図である。これらのテーブルで会議情報が構成される。音声情報テーブル400(図4(a))は、会議装置101が録音して得る音声に関する情報(以降「音声情報」と呼称する)を記録するデータテーブルである。会議装置101は、会議中の会話を録音して音声データを取得し、記録する。録音開始時刻列401には、録音開始時刻(会議開始時刻)が記録され、録音終了時刻列402には、録音終了時刻(会議終了時刻)が記録される。音声データ列403には、ストレージ205に記録された音声データのファイル名が記録される。
画像情報テーブル410(図4(b))は、会議装置101が撮影して得る画像に関する情報(以降「画像情報」と呼称する)を記録するデータテーブルである。会議装置101は、被写体を撮影して画像データを取得し、それをファイルとしてストレージ205に記録する。撮影時刻列411には、撮影時刻が記録され、画像データ列412には、ストレージ205に記録した画像データのファイル名が記録される。アジェンダ情報テーブル420(図4(c))は、会議装置101が記録するアジェンダに関する情報(以降「アジェンダ情報」と呼称する)を記録するデータテーブルである。アジェンダ開始時刻列421にはアジェンダの開始時刻が記録され、アジェンダ終了時刻列422にはアジェンダの終了時刻が記録され、アジェンダ名列423にはアジェンダ名が記録される。
次に、会議装置101による会議情報記録処理について説明する。図5(a)、(b)は、会議情報記録処理のフローチャートである。この処理は、CPU201が、ストレージ205に記録されているコントローラプログラムを読み出してRAM204に展開して実行することで実現される。この処理は、ユーザが、会議装置101の電源キー(不図示)を操作して電源をON(オン)にすると開始される。この処理が開始されると、CPU201は、画面300用の表示画像データを生成して表示デバイス207に画面300(図3(a))を表示させる。
まずCPU201は、ステップS501において、「開始」ボタン301への指示による会議開始指示が成されたか否かを判別する。そして会議開始指示が成されていない場合は、CPU201は、ステップS517において、会議装置101の電源キー(不図示)への指示による電源オフ指示が成されたか否かを判別する。そしてCPU201は、電源オフ指示が成されない場合は処理をステップS501に戻す一方、電源オフ指示が成されると、図5の処理を終了させる。ステップS501で、会議開始指示が成された場合は、CPU201は、ステップS502において、画面310用の表示画像データを生成して表示デバイス207に画面310(図3(b))を表示させると共に、マイクデバイス210により会話の録音を開始する。これにより、CPU201は音声データの取得を開始する。ここでCPU201は、音声情報テーブル400(図4(a))の録音開始時刻列401に、録音開始時刻として現在時刻を記録する。またCPU201は、取得した音声データを、ファイルとしてストレージ205に記録し始める。CPU201は、当該音声データのファイル名を、音声情報テーブル400の音声データ列403に記録する。なお、録音開始時刻は会議開始時刻に相当する。
次にCPU201は、ステップS503において、「撮影」ボタン311への指示による撮影要求指示が成されたか否かを判別する。従って、音声の取得中に、表示画面により、画像データを取得するための指示をユーザから受け付けることが可能である。そして撮影要求指示が成されていない場合は、CPU201は、処理をステップS507に進める。一方、撮影要求指示が成された場合は、CPU201は、ステップS504において、画面320用の表示画像データを生成して表示デバイス207に画面320(図3(c))を表示させると共に、撮影指示が成されたか否かを判別する。ここでは、CPU201は、入力デバイス206を介して画面320の任意箇所への指示が成された場合に、撮影指示が成されたと判別する。撮影指示が成された場合は、ステップS505に進み、CPU201は、カメラデバイス209により被写体の撮影を開始して画像データを取得する。さらにCPU201は、画像情報テーブル410(図4(b))にレコードを追加する。その際、CPU201は、撮影時刻列411に撮影時刻として現在時刻を記録する。また、CPU201は、画像データを、ファイルとしてストレージ205に記録する。CPU201は、当該画像データのファイル名を、画像情報テーブル410の画像データ列412に記録する。CPU201は、ステップS506において、「OK」ボタン321への指示による撮影終了指示が成されたか否かを判別する。CPU201は、撮影終了指示が成されていない場合は、処理をステップS504に戻す。一方、撮影終了指示が成された場合は、CPU201は、処理をステップS503に戻し、その際、画面310用の表示画像データを生成して表示デバイス207に画面310(図3(b))を表示させる。また、CPU201は、画面320を表示させた後、いずれかの箇所への指示が所定時間継続して無かった場合も、撮影終了と判定し、表示デバイス207に画面310を表示させる。
ステップS507において、CPU201は、「アジェンダ」ボタン312(図3(b))の指示によるアジェンダ変更指示が成されたか否かを判別する。そして、アジェンダ変更指示が成されていない場合は、CPU201は、処理をステップS513に進める。一方、アジェンダ変更指示が成された場合は、CPU201は、ステップS508において、画面330の表示画像データを生成して表示デバイス207に画面330(図3(d))を表示させる。
ステップS508では、CPU201は、「開始」ボタン332への指示によるアジェンダ開始指示が成されたか否かを判別する。そしてCPU201は、アジェンダ開始指示が成された場合は、ステップS509において、新しいアジェンダを開始する。すなわちCPU201は、アジェンダ情報テーブル420(図4(c))にレコードを追加し、アジェンダ開始時刻列421に、アジェンダ開始時刻として現在時刻を記録する。ステップS509の後、処理はステップS508に戻る。一方、ステップS508で、アジェンダ開始指示が成されていない場合は、CPU201は処理をステップS510に進める。なお、ステップS509で開始されていて且つ、ステップS511で終了されていないアジェンダが存在する場合は、ステップS508でNOと判別される。
ステップS510において、CPU201は、「終了」ボタン333への指示によるアジェンダ終了指示が成されたか否かを判別する。そしてCPU201は、アジェンダ終了指示が成されていない場合は、処理をステップS512に進める。なお、ステップS509で開始がされていて且つ、ステップS511で終了されていないアジェンダが存在しない場合には、ステップS512ではNOと判別される。一方、アジェンダ終了指示が成された場合は、CPU201は、ステップS511において、現在のアジェンダを終了する。すなわちCPU201は、アジェンダ情報テーブル420(図4(c))のアジェンダ終了時刻列422に、アジェンダ終了時刻として現在時刻を記録する。また、CPU201は、テキストフィールド331に入力されたアジェンダ名を、アジェンダ名列423に記録する。
ステップS512において、CPU201は、「OK」ボタン335への指示によるアジェンダ変更終了指示が成されたか否を判別する。そしてCPU201は、アジェンダ変更終了指示が成されない場合は、処理をステップS508に戻す。一方、アジェンダ変更終了指示が成された場合は、CPU201は、ステップS503に処理を戻す。その際CPU201は、画面310用の表示画像データを生成して表示デバイス207に画面310(図3(b))を表示させる。
なお、アジェンダ開始後、終了指示がないまま「OK」ボタン335(図3(d))が指示された場合でも、ステップS503で撮影要求があれば撮影が可能となる。その後、「アジェンダ」ボタン312(図3(b))の指示を経て、「終了」ボタン333(図3(d))が指示され、さらに「OK」ボタン335が指示されたとき、アジェンダ終了時刻列422にアジェンダ終了時刻が記録される。
ステップS513において、CPU201は、「終了」ボタン313への指示による会議終了指示が成されたか否かを判別する。そして会議終了指示が成されていない場合は、CPU201は、処理をステップS503に戻す。一方、会議終了指示が成された場合は、CPU201は、ステップS514において、画面340用の表示画像データを生成して表示デバイス207に画面340(図3(e))を表示させると共に、マイクデバイス210による会議の録音を終了する。その際、CPU201は、音声情報テーブル400(図4(a))の録音終了時刻列402に、録音終了時刻として現在時刻を記録する。なおこのとき、CPU201は、アジェンダ情報テーブル420(図4(c))において、アジェンダ終了時刻列422に終了時刻が記録されていないレコードがあれば、アジェンダ終了時刻として現在時刻をアジェンダ終了時刻列422に記録する。さらに、CPU201は、テキストフィールド331に入力されたアジェンダ名がない場合は、デフォルトのアジェンダ名をアジェンダ名列423に記録する。あるいは、これらの入力をユーザに促して入力させてもよい。
次に、CPU201は、ステップS515において、会議終了確定指示が成されたか否かを判別する。すなわち、CPU201は、テキストフィールド341に送信先が入力され且つ「OK」ボタン342への指示が成されていれば、会議終了確定指示が成されたと判別する。しかし、テキストフィールド341に送信先が入力されていないか、「OK」ボタン342への指示がなされていないと、CPU201は会議終了確定指示が成されていないと判別する。CPU201は、会議終了確定指示が成されるまで待ち、会議終了確定指示が成されると、処理をステップS516に進める。なお、テキストフィールド341に入力された送信先は、会議情報の一部として記録される。
ステップS516において、CPU201は、以上の処理によりストレージ205に記録した会議情報を、外部インターフェース208を介して会議サーバ102へ送信して、処理をステップS501に戻す。その際、CPU201は、画面300用の表示画像データを生成して表示デバイス207に画面300(図3(a))を表示させる。なお、CPU201は、送信後の会議情報をストレージ205から削除してもよい。
なお、画面300(図3(a))の「開始」ボタン301への指示から画面330(図3(d))の「開始」ボタン332への指示までの期間、および、「終了」ボタン333への指示から「終了」ボタン313への指示までの期間でも、録音や撮影が行われ得る。さらには、「終了」ボタン333への指示から次の「開始」ボタン332への指示までの期間でも、録音や撮影が行われ得る。これらの期間は、アジェンダ情報テーブル420の生成対象とならず、従って議事録元情報や議事録の作成の対象とならない。
しかし、これらの期間も議事録元情報や議事録の作成の対象となるように構成してもよい。その場合、画面330(図3(d))の「開始」ボタン332で開始されないアジェンダのアジェンダ名は無名としてもよいし、デフォルトで定めてもよい。例えば、「開始」ボタン301への指示から画面330(図3(d))の「開始」ボタン332への指示までの期間について例示する。CPU201は、「開始」ボタン301への指示がされた時刻を第1のアジェンダのアジェンダ開始時刻列421とする。そしてCPU201は、その後に「開始」ボタン332がオンされた時点の時刻を、第1のアジェンダのアジェンダ終了時刻列422とし且つ次の(第2の)アジェンダのアジェンダ開始時刻列421とする。また、ステップS516を処理する段階で、テキストフィールド331に入力されたアジェンダ名がない場合は、CPU201は、デフォルトのアジェンダ名をアジェンダ名列423に記録してもよいし、アジェンダ名をユーザに入力させてもよい。
次に、会議サーバ102が、会議装置101から受信した会議情報を解析・加工して生成する議事録元情報について説明する。図6(a)〜(c)、図7は、会議サーバ102がストレージ255に記録する議事録元情報の構成例を示す図である。議事録元情報には、発話テーブル600(図6(a))、記入テーブル610(図6(b))、会議テキストテーブル620(図6(c))、及び、要約テーブル700(図7)がある。
まず、図6(a)に示す発話テーブル600(第1のテキスト情報)は、会議情報に含まれる音声データに対する音声認識結果に関する情報(以降「発話情報」と呼称する)を記録するデータテーブルである。CPU251は、音声データを解析してユーザの発話を特定し、発話毎にレコードを生成する。発話時刻列601には、発話が発生した時刻(以降「発話時刻」と呼称する)が記録される。発話テキスト列602には、発話を音声認識して得た発話テキストが記録される。発話や発話時刻の特定については後述する。
図6(b)に示す記入テーブル610(第2のテキスト情報)は、会議情報に含まれる画像データに対する文字認識結果に関する情報(以降「記入情報」と呼称する)を記録するデータテーブルである。CPU251は、画像データを解析してユーザによる記入を特定し、記入毎にレコードを生成する。記入時刻列611には、記入が発生した時刻(以降「記入時刻」と呼称する)が記録される。記入テキスト列612には、画像データを文字認識して得た記入テキストが記録される。記入や記入時刻の特定については後述する。
図6(c)に示す会議テキストテーブル620(統合テキスト情報)は、会議において発生したテキスト(以降「会議テキスト」と呼称する)に関する情報(以降「会議テキスト情報」と呼称する)を記録するデータテーブルである。CPU251は、発話情報と記入情報とを統合して会議テキスト情報を生成する。発生時刻列621には、会議テキスト情報が発生した時刻として、発話時刻列601または記入時刻列611の時刻が記録される。会議テキスト列622には、会議テキストとして、発話テキスト列602または記入テキスト列612のテキストが記録される。区分列623には、それに対応するレコードが、会議テキストの元となったテキスト(統合前のテキスト)が発話情報であったか記入情報であったかを示す情報が記録される。例えば、区分列623には、統合前のテキストが発話情報であった場合には0が記録され、記入情報であった場合には1が記録される。要点列624には、それに対応するレコードの会議テキスト列622の会議テキストが要点であるか否かを示す情報が記録される。ここで、要点とは、決定した事項や、発生したアクションアイテムなど、その会議の主要な内容を示すものである。要点の判定方法については後述する。要点列624には、会議テキストが要点である場合には1が記録され、そうでない場合には0が記録される。なお、CPU251は、会議テキストテーブル620のレコードを、発生時刻列621の値で昇順に(発生した順に)ソートする。
要約テーブル700(図7)は、会議テキストを要約した情報(以降「要約情報」と呼称する)を記録するデータテーブルである。CPU251は、会議テキストテーブル620の会議テキスト列622の会議テキストをアジェンダ毎に要約して要約テキストを生成し、それを要約テーブル700に記録する。アジェンダ名列701には、アジェンダ名が記録される。要約テキスト列702(要約情報)には、生成された要約テキストが記録される。
次に、会議サーバ102が、議事録元情報(図6、図7)の生成を経て議事録(図9)を生成する処理について説明する。図8は議事録生成処理のフローチャートである。この処理は、CPU251が、ストレージ255に記録されている会議サーバプログラムを読み出してRAM254に展開して実行することで実現される。この処理は、会議サーバ102が起動されると開始される。この処理において、CPU251は、本発明における第1の生成手段、第2の生成手段、統合手段、要約手段としての役割を果たす。
まず、CPU251は、ステップS801において、外部インターフェース258を介して会議装置101から会議情報(図4(a)〜(c))を受信したか否かを判別する。そしてCPU251は、会議情報を受信していない場合は、処理をステップS809に進める一方、会議情報を受信している場合は、ステップS802において、受信した会議情報に含まれる音声データに対して音声認識を行い、発話テキストを得る。ここでCPU251は、音声データを先頭から走査して次の処理を行う。まずCPU251は、音声データ中の無音区間を検出する。無音区間は、例えば、音声データの音圧が閾値以下の状態が一定時間継続されたことに基づいて検出可能である。CPU251は、ある無音区間と次の無音区間の間の区間を発話区間とし、個々の発話区間について音声認識を行って発話テキストを得る。またCPU251は、会議情報の音声情報テーブル400の録音開始時刻列401の録音開始時刻と、各発話区間の音声データの先頭からの経過位置とから、各発話区間の発話時刻を算出する。CPU251は、このようにして得た発話区間毎に発話テーブル600にレコードを生成(追加)する。そしてCPU251は、該当する発話時刻と発話テキストとを、それぞれ発話時刻列601と発話テキスト列602とに記録する。
次に、ステップS803において、CPU251は、受信した会議情報に含まれる画像データに対して文字認識を行い、記入テキストを得る。ここでCPU251は、会議情報に含まれる画像情報テーブル410のレコードを順に走査して、次の処理を行う。まずCPU251は、画像情報テーブル410のレコードを、撮影時刻列411の値で昇順に(撮影した順に)ソートする。CPU251は、現在参照しているレコードの画像データ列412が示す画像データと、それより1つ前のレコードの画像データ列412が示す画像データとの画像差分を求める。この画像差分は、1つ前のレコードに該当する撮影から現在参照しているレコードに該当する撮影までの間にユーザが記入した文字が含まれる部分画像であると見なすことができる。CPU251は、当該部分画像に対して文字認識を行い、記入テキストを得る。またCPU251は、現在参照しているレコードの撮影時刻列411の撮影時刻を、当該画像差分が発生した時刻、すなわちユーザによる記入の記入時刻とする。CPU251は、このようにして得た画像差分(記入)毎に記入テーブル610にレコードを生成(追加)する。そしてCPU251は、該当する記入時刻と記入テキストとを、それぞれ記入時刻列611と記入テキスト列612とに記録する。
ステップS804において、CPU251は、発話テキストと記入テキストとを統合して会議テキストを得る。すなわちCPU251は、ステップS802で生成した発話テーブル600とステップS803で生成した記入テーブル610とを統合して、会議テキストテーブル620(図6(c))を生成する。ここでCPU251は、次の処理を行う。まずCPU251は、発話テーブル600に含まれるレコードの数だけ会議テキストテーブル620にレコードを追加する。このときCPU251は、発話時刻列601の発話時刻を会議テキストが発生した時刻として発生時刻列621に記録し、発話テキスト列602の発話テキストを会議テキストとして会議テキスト列622に記録する。CPU251は、区分列623には、元のデータが発話情報であったことを示す0を記録する。CPU251はさらに、記入テーブル610に含まれるレコードの数だけ会議テキストテーブル620にレコードを追加する。このときCPU251は、記入時刻列611の記入時刻を会議テキストが発生した時刻として発生時刻列621に記録し、記入テキスト列612の記入テキストを会議テキストとして会議テキスト列622に記録する。CPU251は、区分列623には、元のデータが記入情報であったことを示す1を記録する。CPU251は、以上追加したレコードを発生時刻列621の値で昇順に(発生した順に)ソートする。
ステップS805において、CPU251は、ステップS804で生成した会議テキストから要点を抽出する。ここではまず、CPU251は、ステップS804において会議テキストテーブル620に追加したレコードの各々について、会議テキスト列622の会議テキストが要点であるか否かを判定する。例えばCPU251は、会議テキストが、予め決定された特定のキーワードを含むならば要点であると判定する。CPU251は、会議テキストが要点である場合には、要点列624に1を記録し、そうでない場合は要点列624に0を記録する。
ステップS806において、CPU251は、ステップS804で生成した会議テキストを要約する。CPU251は、会議情報のアジェンダ情報テーブル420のレコードを順に走査して、次の処理を行う。まずCPU251は、アジェンダ情報テーブル420(図4(c))のレコードを、アジェンダ開始時刻列421の値で昇順に(アジェンダの開始順に)ソートする。CPU251は、現在参照しているレコードのアジェンダ開始時刻列421のアジェンダ開始時刻から、アジェンダ終了時刻列422のアジェンダ終了時刻までの期間を得る。すなわち、アジェンダの各々には期間が対応付けられている。そしてCPU251は、会議テキストテーブル620から、発生時刻列621の値が当該期間に該当するレコード群を抽出する。CPU251は、抽出したレコード群の会議テキスト列622の会議テキストを要約して要約テキストを生成する。要約テキストを生成する処理については図10(a)で後述する。そしてCPU251は、要約テーブル700にレコードを追加して、生成した要約テキストを要約テキスト列702に記録する。またCPU251は、現在参照しているアジェンダ情報テーブル420のレコードのアジェンダ名列423のアジェンダ名を、要約テーブル700に追加したレコードのアジェンダ名列701に記録する。
ステップS807において、CPU251は、上記のようにして得た議事録元情報および会議情報をもとに、図9に示す議事録を生成する。図9は議事録900の一例を示す図である。議事録900は、議事を示す議事テキストデータ910と、画像データ群920とから成る。議事テキストデータ910は、会議開催時間911、要点一覧912、アジェンダ名913、915、要約テキスト914、916を含む。
CPU251は、音声情報テーブル400の録音開始時刻列401の録音開始時刻(会議開始時刻)と、録音終了時刻列402の録音終了時刻(会議終了時刻)とから会議開催時間911を生成する。要点一覧912は、会議テキストテーブル620のレコードであって、要点列624が1(要点)であるレコードの会議テキスト列622の会議テキストの一覧である。各アジェンダ名913、915は、要約テーブル700のアジェンダ名列701から取得される。要約テキスト914、916は、各アジェンダ名913、915に対応する会議テキストの要約テキストであり、要約テーブル700の要約テキスト列702から取得される。画像データ群920は、会議情報に含まれる画像データを含む。
ステップS808において、CPU251は、議事録を、会議情報に含まれる送信先に送信し、処理をステップS801に戻す。議事録の送信方法としては例えば、電子メールによる送信が採用される。CPU251は、電子メール本文に議事テキストデータ910を入力し、貼付ファイルに画像データ群920を入力して、電子メールを送信する。
ステップS809において、CPU251は、終了指示が成されたか否かを判別する。ユーザは、例えば外部インターフェース258を介して、別体のPCから会議サーバ102の終了指示を成すことができる。CPU251は、終了指示が成されていない場合は、処理をステップS801に戻す一方、終了指示が成された場合は、図8の処理を終了させる。
ステップS806における会議テキストの要約について図10(a)で詳細に説明する。図10(a)は、要約テキスト生成処理のフローチャートである。この要約テキスト生成処理は、ステップS806における、会議テキストを要約する処理の一部に該当する。この処理にあたって、会議テキストテーブル620における複数のレコードが入力されてくる。
CPU251は、ステップS1001において、入力されたレコード全てを参照し、会議テキスト列622の会議テキストに出現する単語それぞれについて、その重要度を算出する。CPU251は、例えば、各単語の出現頻度に基づいて各単語の重要度を算出する。出現頻度が高い単語ほど重要度を高いとし、重要度は例えば値で表現される。CPU251は、ステップS1002において、入力された各レコードの会議テキスト列622の会議テキストについて、それぞれの重要度を算出する。CPU251は、ステップS1001で算出した各単語の重要度を参照し、それぞれの会議テキストに含まれる各単語の重要度の合計値を算出することで、各会議テキストの重要度の値を算出する。CPU251は、ステップS1003において、重要度が所定の閾値以上の会議テキストを、重要度の高い会議テキストとして抽出する。これにより、会議テキストテーブル620に含まれる各単語の出現頻度に基づいて、抽出する会議テキストが決定され、該決定された会議テキストが抽出される。そしてCPU251は、抽出した会議テキストから要約テーブル700(図7)における要約テキストを得る。
なお、ステップS806における会議テキストの要約の手法は図10(a)で説明したものに限定されない。例えば、会議において、ユーザは、ホワイトボードなどの記入媒体に、論点や重要な意見を記入する場合がある。これらの内容は通常、議事として重要なので、記入媒体から得た記入テキストを要約テキストに優先的に反映するようにしてもよい。例えば、ステップS1003において、CPU251は、入力されたレコードの区分列623の値を確認する。そしてその値が1(元が記入情報)ならば、CPU251は、重要度が閾値以上か否かに関わらず、当該レコードの会議テキスト列622の会議テキストを要約テキストの一部として抽出するようにしてもよい。
なお、記入テキストを要約テキストに優先的に反映させる処理の例として、図10(a)に代えて図10(b)に示す要約テキスト生成処理を実行してもよい。図10(b)は、要約テキスト生成処理の別の例を示したフローチャートである。図10(a)の処理時と同様に、図10(b)の処理にあたって、会議テキストテーブル620における複数のレコードが入力されてくる。
CPU251は、ステップS1011において、入力されたレコードのうち、区分レコードが1(元が記入情報)のレコードを参照して、会議テキスト列622の会議テキストに含まれる単語のリスト(以降「記入単語リスト」と呼称する)を作成する。CPU251は、ステップS1012、S1013において、図10(a)のステップS1001、S1002と同様の処理を実行する。
CPU251は、ステップS1014において、ステップS1011で作成した記入単語リストを参照して、ステップS1013で算出した会議テキストの重要度を更新する。すなわち、CPU251は、入力された各レコードの会議テキスト列622の会議テキストについて、記入単語リストの単語を含む場合には、当該会議テキストの重要度にバイアス(重み付け)を加え、例えば重要度の値を大きくする。その際CPU251は、記入単語リストの単語を含む数に応じて重み付けを大きくしてもよい。CPU251は、ステップS1015において、ステップS1003と同様の処理を実行する。
なお、CPU251は、ステップS1014において、対象の会議テキストが記入単語リストの単語を含む場合には、重要度の最大値を付与し、ステップS1003では当該会議テキストが要約テキストの一部として必ず抽出されるようにしてもよい。この場合、会議テキストのうち、記入テキストから生成されたテキストについては全て抽出される。
なお、CPU251は、ステップS806で会議テキストを要約して要約テーブル700を生成する際、会議テキストテーブル620の会議テキスト列622の会議テキストから、予め定めた所定の単語を含む会議テキストを全て抽出してもよい。
本実施の形態によれば、会議サーバ102は、音声データをテキスト化して発話テーブル600を生成し、画像データをテキスト化して記入テーブル610を生成する。そして会議サーバ102は、発話テーブル600、記入テーブル610を統合して会議テキストテーブル620を生成する。さらに会議サーバ102は、会議テキストテーブル620を要約して、要約テーブル700を生成し、要約テーブル700等に基づいて議事録を生成する。これにより、音声データ及び画像データの双方に基づく要約を行えるので、音声と画像の双方から要約を得ることができる。この要約に基づいて議事録が生成されるので、情報の欠落を低減した議事録を生成することができる。
なお、CPU251は、議事録元情報(図6、図7)を表示デバイス257に表示させてもよい。さらには、表示させた議事録元情報から、ユーザの指示により各レコードを変更、例えば各レコードの内容を編集したりレコードを追加または削除したりできるように構成してもよい。
(第2の実施の形態)
本発明の第2の実施の形態では、会議に使用する電子資料等の表示内容をさらに用いて議事録を作成する例について説明する。図11〜図13をさらに加えて本実施の形態を説明する。
図11は、本実施の形態に係る会議システムの全体構成図である。この会議システム1100は、会議装置101及び会議サーバ102のほか、PC1101、電子ホワイトボード1102を含む。これらはネットワーク103を介して互いに接続されている。会議装置101、会議サーバ102、ネットワーク103の構成は第1の実施の形態で説明したのと同様である。
PC1101は、一般的な据置のPC(パーソナルコンピュータ)やノートPCであり、アプリケーションプログラムを実行し、会議で参照する電子資料をディスプレイに表示することができる。なお、PC1101にプロジェクタを接続して表示内容をプロジェクタに投影してもよい。PC1101は、ユーザの指示等に応じて表示内容を更新すると、表示画像データを会議装置101に送信する。電子ホワイトボード1102には、ユーザがスタイラスペン等を用いて電子的に文字を記入することができる。電子ホワイトボード1102は、ユーザにより記入されると、記入内容を含む表示画像データを会議装置101に送信する。
PC1101のハードウェア構成は会議サーバ102と基本的に同様である。PC1101において、ストレージ1255には、電子資料およびそれを表示するためのアプリケーションプログラムが記録されている。また、ストレージ1255には、ユーザにテキストを入力させ、電子資料を作成するためのアプリケーションプログラムが記録されている。CPU1251は、OS上でアプリケーションプログラムを実行することで電子資料を解釈し、これを表示するための表示画像データを生成する。そしてCPU1251は、表示画像データを表示デバイス1257に表示させる。
電子ホワイトボード1102のハードウェア構成は会議サーバ102と同様であるが、入力デバイス2256はタッチパネルを具備する。これにより、ユーザは、別体のスタイラスペン等を用いて文字を電子的に記入することができる。電子ホワイトボード1102において、ストレージ2255には、電子ホワイトボードとしての機能を提供する電子ホワイトボードプログラムが記録されている。CPU2251は、OS上で電子ホワイトボードプログラムを実行することで、入力デバイス2256を介してユーザによる記入内容を取得し、記入内容に応じた表示画像データを生成する。そしてCPU2251は、表示画像データを表示デバイス2257に表示させる。
次に、会議装置101によって記録される会議情報について説明する。図12(a)、(b)は、会議装置101がストレージ205に記録する会議情報(第3のテキスト情報)の構成例を示す図である。図12(a)、(b)は、それぞれ、表示画像テーブル1200、電子記入画像テーブル1210を示す。本実施の形態においては、会議装置101は、会議情報として、音声情報テーブル400、画像情報テーブル410、アジェンダ情報テーブル420に加えて、表示画像テーブル1200、電子記入画像テーブル1210を記録する。
表示画像テーブル1200は、PC1101が表示した表示画像データに関する情報(以降「表示画像情報」と呼称する)を記録するデータテーブルである。会議装置101は、外部インターフェース208を介して、PC1101から表示画像データを受信し、それをストレージ205にファイルとして記録する。会議装置101は、表示時刻列1201には、表示画像データの受信時刻を表示時刻として記録し、表示画像データ列1202には、ストレージ205に記録した表示画像データのファイル名を記録する。
電子記入画像テーブル1210は、ユーザによる記入内容を含む電子ホワイトボード1102の表示画像データ(以降「電子記入画像データ」と呼称する)に関する情報(以降「電子記入画像情報」と呼称する)を記録するデータテーブルである。会議装置101は、外部インターフェース208を介して、電子ホワイトボード1102から表示画像データ(電子記入画像データ)を受信し、それをストレージ205にファイルとして記録する。会議装置101は、記入時刻列1211には、電子記入画像データの受信時刻を記入時刻として記録し、電子記入画像データ列1212には、ストレージ205に記録した電子記入画像データのファイル名を記録する。
次に、会議装置101の会議情報の記録処理について説明する。図13は、会議情報記録処理のフローチャートである。この処理は、CPU201が、ストレージ205に記録されているコントローラプログラムを読み出してRAM204に展開して実行することで実現される。この処理は、ユーザが、会議装置101の電源キー(不図示)を操作して電源をON(オン)にすると開始される。この処理が開始されると、CPU201は、画面300(図3(a))用の表示画像データを生成して表示デバイス207に画面300を表示させる。
まず、ステップS501の処理は図5(a)で説明したのと同様である。ステップS501での判別の結果、会議開始指示が成されていない場合は、CPU201は、ステップS517において、会議装置101の電源キー(不図示)への指示による電源オフ指示が成されたか否かを判別する。そしてCPU201は、電源オフ指示が成されない場合は処理をステップS501に戻す一方、電源オフ指示が成されると、図13(a)の処理を終了させる。ステップS501で、会議開始指示が成された場合は、CPU201は、図5(b)のステップS502〜S516と同様の処理と、図13(b)のステップS1301〜S1305の処理とを並列に(並行して)実行する。ステップS516の後、CPU201は、処理を図13(a)のステップS501に戻す。
ステップS1301において、CPU201は、外部インターフェース208を介してPC1101から表示画像データを受信したか否かを判別する。そしてCPU201は、表示画像データを受信していない場合は、処理をステップS1303へ進める一方、表示画像データを受信した場合は、ステップS1302を実行してから処理をステップS1303へ進める。ステップS1302において、CPU201は、受信した表示画像データをストレージ205にファイルとして記録する。すなわち、CPU201は、表示画像テーブル1200(図12(a))にレコードを追加し、表示時刻列1201に表示時刻として現在時刻を記録すると共に、表示画像データのファイル名を表示画像データ列1202に記録する。
ステップS1303において、CPU201は、外部インターフェース208を介して電子ホワイトボード1102から電子記入画像データを受信したか否かを判別する。そしてCPU201は、電子記入画像データを受信していない場合は、処理をステップS1305に進める一方、電子記入画像データを受信した場合は、ステップS1304を実行してから処理をステップS1305へ進める。
ステップS1304において、CPU201は、受信した電子記入画像データをストレージ205にファイルとして記録する。すなわち、CPU201は、電子記入画像テーブル1210(図12(b))にレコードを追加し、記入時刻列1211に記入時刻として現在時刻を記録すると共に、電子記入画像データのファイル名を、電子記入画像データ列1212に記録する。
ステップS1305において、CPU201は、図5(b)のステップS513と同様に、会議終了指示が成されたか否かを判別する。そして、CPU201は、会議終了指示が成されていない場合は、処理をステップS1301に戻す一方、会議終了指示が成された場合は、処理を図13(a)のステップS501に戻す。なお、表示画像情報および電子記入画像情報は会議情報の一部として記録されるので、図5(b)のステップS516で会議サーバ102に送信する会議情報にこれらは含まれる。
次に、会議サーバ102が議事録を生成する処理について説明する。本実施の形態における会議サーバ102による議事録生成処理は、図8で説明したものと基本的に同様であるので、主に差異を説明する。
ステップS803においては、CPU251は、受信した会議情報に含まれる画像データに加えて、電子記入画像データに対しても文字認識を行い、記入テキストを得る。加えて、CPU251は、会議情報に含まれる電子記入画像テーブル1210のレコードを順に走査して、次の処理を行う。まずCPU251は、電子記入画像テーブル1210のレコードを、記入時刻列1211の値で昇順に(記入された順に)ソートする。CPU251は、現在参照しているレコードの電子記入画像データ列1212が示す電子記入画像データと、それより1つ前のレコードの電子記入画像データ列1212が示す電子記入画像データとの画像差分を求める。この画像差分は、1つ前のレコードに該当する記入から現在参照しているレコードに該当する記入までの間にユーザが記入した文字が含まれた部分画像であると見なすことができる。CPU251は、当該部分画像に対して文字認識を行い、記入テキストを得る。またCPU251は、現在参照しているレコードの記入時刻列1211の記入時刻を、当該画像差分が発生した時刻、すなわちユーザによる記入時刻とする。CPU251は、このようにして得た画像差分(記入)毎に記入テーブル610にレコードを生成(追加)する。そしてCPU251は、該当する記入時刻と記入テキストとを、それぞれ記入時刻列611と記入テキスト列612とに記録する。
ステップS807において議事録を生成する際、CPU251は、画像データ群920に、会議情報に含まれる画像データに加えて、表示画像データを含める。
本実施の形態によれば、会議で参照した電子資料の内容を画像として議事録に含めることができる。また、電子ホワイトボード等による電子的な記入内容からも記入テキストを生成し、発話テキストと統合して議事録を生成することができる。よって、音声と画像の双方から要約を得て、情報の欠落を低減した議事録を生成することに関し、第1の実施の形態と同様の効果を奏することができる。
なお、本実施の形態では、電子ホワイトボード1102への記入内容は、画像データ(電子記入画像データ)として会議装置101が受信した。しかし、電子ホワイトボード1102が、記入のストロークを認識して記入内容をテキストデータ化し、それを会議装置101が受信して会議情報に含めるようにしてもよい。会議サーバ102は、受信したテキストデータを記入テキストとして会議テキストテーブル620に入力することができる。
なお、PC1101の表示画像データや電子ホワイトボード1102の電子記入画像データを、会議装置101が受信して会議サーバ102に送信した。しかし、これらのデータを、PC1101や電子ホワイトボード1102が直接に会議サーバ102に送信する構成としてもよい。
なお、議事録生成処理におけるステップS803において、CPU251は、PC1101からの表示画像データに対して文字認識を行い、その結果得られたテキストを会議テキストとして会議テキストテーブル620に入力してもよい。この場合、CPU251は、当該会議テキストを記録するレコードの区分列623(図6(c))には0を記録する。従って、PC1101からの表示画像データに基づく会議テキストが、発話テキストと同等に扱われる。
なお、PC1101で表示される電子資料の種類に応じて、PC1101からの表示画像データに基づく会議テキストを、記入テキストまたは発話テキストのいずれかとして扱うようにしてもよい。例えば、パワーポイント(登録商標)等の電子資料を発話テキストとして扱い、ワード(登録商標)等の電子資料を記入テキストとして扱うようにしてもよい。
なお、会議装置101とは別の端末装置として、PC1101及び電子ホワイトボード1102を例示したが、電子的にデータを入力し、入力したデータを会議装置101へ送信する装置であればよい。
(第3の実施の形態)
本発明の第3の実施の形態では、会議の様子等を撮影して得た動画データから議事録を生成する例について説明する。本実施の形態では、会議サーバ102は、別体の機器から動画データを受信し、受信した動画データから会議情報を生成する。従って、会議装置101を設けることは必須でない。動画データを会議サーバ102へ送信する機器は、会議装置101であってもよいし、他の機器であってもよい。ここでは、動画データの送信元は別体の機器であるとして説明する。
本実施の形態における動画データは会議等を撮影したものであり、被写体にホワイトボードなどの記入媒体を含んだ映像データと、ユーザの発話を記録した音声データと、アジェンダの変更を示すチャプターデータとを含むものとする。会議サーバ102は、受信した動画データを解析・加工し、図4(a)〜(c)に示す会議情報を生成し、ストレージ255に記憶する。そして会議サーバ102は、生成した会議情報から、図6(a)〜(c)、図7に示す議事録元情報の生成を経て、議事録(図9)を作成する。以下、図14、図15で、議事録の生成について説明する。
図14は、議事録生成処理のフローチャートである。この処理は、CPU251が、ストレージ255に記録されている会議サーバプログラムを読み出してRAM254に展開して実行することで実現される。この処理は、会議サーバ102が起動されると開始される。
CPU251は、ステップS1401において、別体の機器から外部インターフェース258を介して動画データを受信したか否かを判別する。そしてCPU251は、動画データを受信していない場合は、ステップS809において、終了指示が成されたか否かを判別する。CPU251は、終了指示が成されていない場合は、処理をステップS1401に戻す一方、終了指示が成された場合は、図14の処理を終了させる。一方、動画データを受信した場合は、CPU251は、ステップS1402において、受信した動画データから会議情報を生成する会議情報生成処理(図15)を実行する。
図15は、ステップS1402で実行される、会議サーバ102による会議情報生成処理のフローチャートである。CPU251は、ステップS1501において、動画データから音声情報テーブル400(図4(a))を生成する。まずCPU251は、動画データから音声データを抽出してストレージ255にファイルとして記録する。そしてCPU251は、当該音声データのファイル名を、音声情報テーブル400の音声データ列403に記録する。またCPU251は、動画データのタイムスタンプとその長さとから、録音開始時刻と録音終了時刻とを算出し、これらを、音声情報テーブル400の録音開始時刻列401と録音終了時刻列402とに、それぞれ記憶する。
CPU251は、ステップS1502において、動画データから画像情報テーブル410(図4(b))を生成する。まずCPU251は、動画データに含まれる映像データを先頭から走査してフレーム画像を抽出していく。CPU251は、抽出したフレーム画像毎に、画像情報テーブル410にレコードを追加していく。CPU251は、抽出したフレーム画像を、画像データのファイルとしてストレージ255に記憶する。そしてCPU251は、当該画像データのファイル名を、追加したレコードの画像データ列412に記録する。またCPU251は、動画データのタイムスタンプと、抽出したフレーム画像の動画データにおける位置とから、当該フレーム画像が撮影された時刻を算出する。そしてCPU251は、算出した時刻を、追加したレコードの撮影時刻列411に記憶する。なお、映像データに含まれるすべてのフレーム画像を抽出の対象とするのではなく、予め決定した時間間隔ごとにフレーム画像を抽出するようにしてもよい。
CPU251は、ステップS1503において、動画データからアジェンダ情報テーブル420(図4(c))の情報を生成する。まずCPU251は、動画データに含まれるチャプターデータを読み出す。チャプターデータにはチャプター名とチャプターの開始時刻および終了時刻が含まれる。CPU251は、チャプターごとにアジェンダ情報テーブル420にレコードを追加する。そしてCPU251は、アジェンダ名列423にチャプター名を記録する。チャプターデータの開始時刻および終了時刻は、動画データの先頭からの経過位置を示すため、CPU251は、動画データのタイムスタンプと照らし合わせて、チャプターの実時間としての開始時刻と終了時刻を算出する。そしてCPU251は、アジェンダ情報テーブル420のアジェンダ開始時刻列421とアジェンダ終了時刻列422とに、算出した開始時刻と終了時刻とを、それぞれ記憶する。その後CPU251は、図15の処理を終了させる。
図14のステップS1402の後、CPU251は、図8で説明したのと同様にステップS802〜S808の処理を実行する。すなわちCPU251は、図15の処理で生成した会議情報から、発話テーブル600(図6(a))、記入テーブル610(図6(b))を生成し、これらを統合して会議テキストテーブル620(図6(c))を生成する。そしてCPU251は、会議テキストテーブル620を要約して要約テーブル700(図7)を生成し、要約テーブル700等に基づいて議事録を生成する。ステップS808の後、CPU251は、処理をステップS1401に戻す。
このように、会議サーバ102は、撮影機能を有する任意の機器によって会議の様子を撮影して得た動画データから、発話テキストと記入テキストを得て、これらを統合して要約し、議事録を生成することができる。
本実施の形態によれば、動画データから取得される音声データ及び画像データの双方に基づいて要約テーブル700が生成され、要約テーブル700等に基づいて議事録が生成される。よって、音声と画像の双方から要約を得て、情報の欠落を低減した議事録を生成することに関し、第1の実施の形態と同様の効果を奏することができる。
なお、本実施の形態において、別体の機器から会議装置101が動画データを受信し、受信した動画データから会議装置101が会議情報を生成してもよい。その後は第1の実施の形態と同様に、会議装置101が会議情報を会議サーバ102へ送信し、会議サーバ102は、受信した会議情報に基づき、図8の処理を実行する。
なお、上記各実施の形態において、会議装置101と会議サーバ102とを独立した装置としたが、両装置の機能を備えた単一の装置を本発明における要約装置として構成してもよい。あるいは、会議サーバ102を、音声データを取得する音声取得機能と画像データを取得する画像取得機能のいずれかまたは双方をさらに有した装置とし、これを本発明の要約装置としてもよい。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。上述の実施形態の一部を適宜組み合わせてもよい。
101 会議装置
102 会議サーバ
251 CPU
600 発話テーブル
610 記入テーブル
620 会議テキストテーブル
700 要約テーブル

Claims (20)

  1. 音声データをテキスト化して第1のテキスト情報を生成する第1の生成手段と、
    画像データをテキスト化して第2のテキスト情報を生成する第2の生成手段と、
    前記第1の生成手段により生成された第1のテキスト情報と前記第2の生成手段により生成された第2のテキスト情報とを統合して、少なくとも1つのテキストから成る統合テキスト情報を生成する統合手段と、
    前記統合手段により統合された統合テキスト情報を要約して要約情報を生成する要約手段と、を有することを特徴とする要約装置。
  2. 前記要約手段は、前記統合テキスト情報のうち抽出するテキストを決定し、該決定したテキストを前記統合テキスト情報から抽出することで前記要約情報を生成することを特徴とする請求項1に記載の要約装置。
  3. 前記要約手段は、前記統合テキスト情報に含まれる各単語の出現頻度に基づいて、抽出するテキストを決定し、該決定したテキストを前記統合テキスト情報から抽出することを特徴とする請求項2に記載の要約装置。
  4. 前記要約手段は、前記統合テキスト情報のうち、前記第2のテキスト情報から生成したテキストについては全て抽出することを特徴とする請求項2に記載の要約装置。
  5. 前記要約手段は、前記統合テキスト情報から、所定の単語を含むテキストを抽出することを特徴とする請求項2に記載の要約装置。
  6. 前記要約手段は、前記統合テキスト情報のうち、前記第2のテキスト情報に含まれる単語を含むテキストに重み付けをして、抽出するテキストを決定し、該決定したテキストを前記統合テキスト情報から抽出することを特徴とする請求項2に記載の要約装置。
  7. 前記要約手段は、議題ごとに前記統合テキスト情報を要約することを特徴とする請求項1〜6のいずれか1項に記載の要約装置。
  8. 前記議題の各々には期間が対応付けられており、
    前記統合テキスト情報に含まれるテキストの各々には発生時刻が対応付けられており、
    前記要約手段は、前記各議題に対応する期間に発生したテキストが、当該議題に対応するよう、前記要約情報を生成することを特徴とする請求項7に記載の要約装置。
  9. 前記統合テキスト情報から議事録を作成する作成手段を有することを特徴とする請求項1〜8のいずれか1項に記載の要約装置。
  10. 前記第1の生成手段は、前記音声データを音声認識することによって前記第1のテキスト情報を生成することを特徴とする請求項1〜9のいずれか1項に記載の要約装置。
  11. 前記第2の生成手段は、前記画像データに含まれる文字を画像認識することによって前記第2のテキスト情報を生成することを特徴とする請求項1〜10のいずれか1項に記載の要約装置。
  12. 電子的に入力されたデータをテキスト化して第3のテキスト情報を生成する第3の生成手段を有し、
    前記統合手段は、前記第1のテキスト情報と前記第2のテキスト情報と前記第3の生成手段により生成された第3のテキスト情報とを統合して前記統合テキスト情報を生成することを特徴とする請求項1〜11のいずれか1項に記載の要約装置。
  13. ユーザの発話から前記音声データを取得する音声取得手段を有することを特徴とする請求項1〜12のいずれか1項に記載の要約装置。
  14. ユーザが記入した文字を撮影して前記画像データを取得する画像取得手段を有することを特徴とする請求項1〜13のいずれか1項に記載の要約装置。
  15. 前記音声データ及び前記画像データは、動画データから取得されることを特徴とする請求項1〜11のいずれか1項に記載の要約装置。
  16. 請求項1〜12のいずれか1項に記載の要約装置と、前記要約装置と通信可能な端末装置とを有する要約システムであって、
    前記端末装置は、
    ユーザの発話から音声データを取得する音声取得手段と、
    ユーザが記入した文字を撮影して画像データを取得する画像取得手段と、
    前記音声取得手段により取得された音声データ及び前記画像取得手段により取得された画像データを前記要約装置へ送信する送信手段と、を有し、
    前記要約装置は、前記送信手段により送信された音声データ及び画像データを受信する受信手段を有することを特徴とする要約システム。
  17. 前記端末装置は、前記音声取得手段による音声データの取得中に、表示画面により、前記画像取得手段により画像データを取得するための指示をユーザから受け付けることを特徴とする請求項16に記載の要約システム。
  18. 前記端末装置とは別の端末装置を有し、
    前記別の端末装置は、電子的にデータを入力し、入力したデータを前記端末装置へ送信し、
    前記端末装置は、前記別の端末装置から送信されたデータを受信し、
    前記端末装置の前記送信手段は、前記受信されたデータ、前記音声データ及び前記画像データを、前記要約装置へ送信することを特徴とする請求項16または17に記載の要約システム。
  19. 要約装置の制御方法であって、
    音声データをテキスト化して第1のテキスト情報を生成する第1の生成ステップと、
    画像データをテキスト化して第2のテキスト情報を生成する第2の生成ステップと、
    前記第1の生成ステップにより生成された第1のテキスト情報と前記第2の生成ステップにより生成された第2のテキスト情報とを統合して、少なくとも1つのテキストから成る統合テキスト情報を生成する統合ステップと、
    前記統合ステップにより統合された統合テキスト情報を要約して要約情報を生成する要約ステップと、を有することを特徴とする要約装置の制御方法。
  20. 請求項19に記載の要約装置の制御方法をコンピュータに実行させることを特徴とするプログラム。
JP2017232087A 2017-12-01 2017-12-01 要約装置及びその制御方法、要約システム、プログラム Pending JP2019101754A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017232087A JP2019101754A (ja) 2017-12-01 2017-12-01 要約装置及びその制御方法、要約システム、プログラム
US16/199,591 US11281707B2 (en) 2017-12-01 2018-11-26 System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017232087A JP2019101754A (ja) 2017-12-01 2017-12-01 要約装置及びその制御方法、要約システム、プログラム

Publications (1)

Publication Number Publication Date
JP2019101754A true JP2019101754A (ja) 2019-06-24

Family

ID=66657636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017232087A Pending JP2019101754A (ja) 2017-12-01 2017-12-01 要約装置及びその制御方法、要約システム、プログラム

Country Status (2)

Country Link
US (1) US11281707B2 (ja)
JP (1) JP2019101754A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022165786A (ja) * 2021-04-20 2022-11-01 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
US11630873B2 (en) 2020-12-03 2023-04-18 International Business Machines Corporation Automatic search query for unknown verbal communications

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11018885B2 (en) * 2018-04-19 2021-05-25 Sri International Summarization system
US10915570B2 (en) 2019-03-26 2021-02-09 Sri International Personalized meeting summaries
CN111564157A (zh) * 2020-03-18 2020-08-21 浙江省北大信息技术高等研究院 会议记录优化方法、装置、设备及存储介质
US11294946B2 (en) * 2020-05-15 2022-04-05 Tata Consultancy Services Limited Methods and systems for generating textual summary from tabular data
WO2022198365A1 (zh) * 2021-03-22 2022-09-29 华为技术有限公司 一种语音控制方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100031142A1 (en) 2006-10-23 2010-02-04 Nec Corporation Content summarizing system, method, and program
US8812311B2 (en) * 2008-10-27 2014-08-19 Frank Elmo Weber Character-based automated shot summarization
US9672829B2 (en) * 2015-03-23 2017-06-06 International Business Machines Corporation Extracting and displaying key points of a video conference
JP6841239B2 (ja) * 2016-01-25 2021-03-10 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10409550B2 (en) * 2016-03-04 2019-09-10 Ricoh Company, Ltd. Voice control of interactive whiteboard appliances
US9875225B1 (en) * 2016-08-29 2018-01-23 International Business Machines Corporation System, method and computer program product for creating a summarization from recorded audio of meetings
US20180158159A1 (en) * 2016-12-06 2018-06-07 General Electric Company Systems and methods for improved innovation insights and capture
US20180268817A1 (en) * 2017-03-17 2018-09-20 Ricoh Company, Ltd. Information processing apparatus, information processing method, and computer program product
US10284815B2 (en) * 2017-07-26 2019-05-07 Blue Jeans Network, Inc. System and methods for physical whiteboard collaboration in a video conference

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11630873B2 (en) 2020-12-03 2023-04-18 International Business Machines Corporation Automatic search query for unknown verbal communications
JP2022165786A (ja) * 2021-04-20 2022-11-01 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP7317887B2 (ja) 2021-04-20 2023-07-31 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
US11281707B2 (en) 2022-03-22
US20190171760A1 (en) 2019-06-06

Similar Documents

Publication Publication Date Title
JP2019101754A (ja) 要約装置及びその制御方法、要約システム、プログラム
JP6870242B2 (ja) 会議支援システム、会議支援装置、及び会議支援方法
US8515728B2 (en) Language translation of visual and audio input
CN101998107B (zh) 信息处理装置、会议系统和信息处理方法
JP2008282397A (ja) プレゼンテーションの注釈付きの写しを生成するための方法、情報処理システムおよびコンピュータ・プログラム
JP2007180828A (ja) ネットワーク会議システム、ネットワーク会議方法、及び該方法を実行させるためのプログラム
JP2016046705A (ja) 会議録編集装置、その方法とプログラム、会議録再生装置、および会議システム
US11611600B1 (en) Streaming data processing for hybrid online meetings
JP2017016535A (ja) コメント入力表示システム及び方法並びにコメント入力表示用プログラム
KR101967998B1 (ko) 키 입력에 기초한 움직임 이미지 생성 방법 및 상기 방법을 수행하는 사용자 단말
JP2019105740A (ja) 会議システム、要約装置、会議システムの制御方法、要約装置の制御方法、並びにプログラム
JP2018170602A (ja) 実行装置、情報処理システム、情報処理方法、及びプログラム
JP2019139572A (ja) 会議システム、要約装置、会議システムの制御方法、要約装置の制御方法、並びにプログラム
JP2019152758A (ja) 会議システム、会議システムの制御方法、並びにプログラム
JP2016063477A (ja) 会議システム、情報処理方法、及びプログラム
JP2020052511A (ja) 要約生成装置、要約生成方法、及びプログラム
JP2005345616A (ja) 情報処理装置及び情報処理方法
JP2018093315A (ja) Web会議システム、その制御方法、及びプログラム
JP7196393B2 (ja) 情報提示装置、情報提示システム、情報提示方法およびプログラム
KR102299506B1 (ko) 영상 콘텐츠의 제작 현장에서 사용되는 실시간 제작 관리 시스템 및 실시간 제작 관리를 위한 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체
JP2019138988A (ja) 情報処理システム、情報処理方法、及びプログラム
JP6401488B2 (ja) 外国語会話理解支援装置、外国語会話理解支援方法及びプログラム
JP2021120857A (ja) 情報処理装置、情報処理方法及びプログラム
JP2019139571A (ja) 会議システム、要約装置、会議システムの制御方法、要約装置の制御方法、並びにプログラム
JP7344612B1 (ja) プログラム、会話要約装置、および会話要約方法