JP2020052511A - 要約生成装置、要約生成方法、及びプログラム - Google Patents

要約生成装置、要約生成方法、及びプログラム Download PDF

Info

Publication number
JP2020052511A
JP2020052511A JP2018178642A JP2018178642A JP2020052511A JP 2020052511 A JP2020052511 A JP 2020052511A JP 2018178642 A JP2018178642 A JP 2018178642A JP 2018178642 A JP2018178642 A JP 2018178642A JP 2020052511 A JP2020052511 A JP 2020052511A
Authority
JP
Japan
Prior art keywords
text
information
text information
conference
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018178642A
Other languages
English (en)
Inventor
剛 大石
Takeshi Oishi
剛 大石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018178642A priority Critical patent/JP2020052511A/ja
Publication of JP2020052511A publication Critical patent/JP2020052511A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】会議において取得される発話テキストや記入テキストから議事録を作成する際に、一つの基準に基づいて要約を行う場合には、重要な文言を抽出できずに、好ましい議事録が得られない場合がある。また、会議から取得される発話テキストと記入テキストの間には密接な関係が存在するところ、これらを切り分けて文章を評価した場合、重要な文言を漏らすおそれがある。【解決手段】本発明の要約生成装置は、音声データから、発話特徴を付与した発話テキストを生成し、画像データから、記入テキストを付与した記入テキストを生成する。そして、発話テキストと記入テキストを対応付けて会話テキストを生成する。さらに、発話特徴や記入特徴により重み付けを重要度に基づいて会議テキストを要約して、議事録を作成する。【選択図】図8

Description

本発明は、議事録生成等のために要約を生成する要約生成装置に関する。
従来、会議中に発せられた人の発話から議事録を生成するシステムが知られている。特許文献1には、人の発話を音声認識してテキスト化し、要約することで、議事録を生成するシステムが開示されている。また、特許文献1のシステムでは、映像に含まれる文字を画像認識してテキスト化し、要約することで、議事録を生成する。
特許文献1のシステムによれば、人の発話から得られたテキスト(以下、「発話テキスト」という)のみを要約して議事録を作成することができる。また、特許文献1のシステムでは、映像に含まれる文字を画像認識してテキスト化し、要約するので、例えば、ユーザが記入した文字から得られたテキスト(以下、「記入テキスト」という)のみを要約して議事録を作成することもできる。
また、特許文献2には、音声データ中から特徴的なパターンを取得して、そのパターンと時系列的に一致する音声データから得られた発話テキストを用いて要約を生成する装置が開示されている。
特許第5104762号公報 特開2006−58567号公報
しかしながら、特許文献1のように発話テキストや記入テキストの内容に基づいて作成した議事録では、会議中の発言や記入に含まれるユーザの意図をくみ取ることができない。ここでいうユーザの意図とは、ユーザがホワイトボード中への文字を記入した際に色文字を用いたことや、発話した際の声のめりはり、などである。
一方、特許文献2のようにテキストに付随する特徴に基づいて作成した議事録では、ユーザの意図を拾うことはできるが、内容的に重要な文言を漏らすおそれがある。
このように、会議において取得される発話テキストや記入テキストから議事録を作成する際に、一つの基準に基づいて要約を行う場合には、重要な文言を抽出できずに、好ましい議事録が得られない場合がある。また、会議から取得される発話テキストと記入テキストの間には密接な関係が存在するところ、これらを切り分けて文章を評価した場合、同様に、重要な文言を漏らすおそれがある。
そこで、会議中に発生する情報から議事録の作成に必要な文章を抽出するためには、以下の2つの特徴を共に考慮することが重要となる。すなわち、1つは、発話テキスト及び記入テキストが意味する文章の内容であり、もう1つは、発話テキスト及び記入テキストの生成元である音声データ及び画像データに付随するユーザの意図である。
そこで、本発明は、会議中に発生する音声データと画像データとから、より適切な議事録を作成することを目的とする。
本発明は、音声データから第1のテキスト情報を生成する第1の生成手段と、画像データから第2のテキスト情報を生成する第2の生成手段と、前記音声データから第1の特徴情報を取得する第1の取得手段と、前記第1のテキスト情報に前記第1の特徴情報を付与する第1の付与手段と、前記画像データから第2の特徴情報を取得する第2の取得手段と、前記第2のテキスト情報に前記第2の特徴情報を付与する第2の付与手段と、前記第1のテキスト情報と前記第2のテキスト情報とを対応付ける第1の対応付け手段と、前記第1のテキスト情報と前記第2のテキスト情報とを統合して、第3のテキスト情報を生成する第3の生成手段と、前記第1の特徴情報及び前記第2の特徴情報を用いて、前記第3のテキスト情報の重要度を決定する決定手段と、前記重要度に基づいて前記第3のテキスト情報から要約を生成する第4の生成手段と、を有することを特徴とする要約生成装置である。
本発明によれば、音声データと画像データから得られる複数の特徴を考慮して要約を生成するため、重要なテキストについて漏れの少ない議事録を作成することができる。
会議システムの全体構成図である。 会議装置及び会議サーバのハードウェア構成例である。 会議装置の表示デバイスに表示される画面の遷移例である。 音声情報テーブル、画像情報テーブル、アジェンダ情報テーブルの一例である。 会議情報記録処理のフローチャートである。 発話テーブル、記入テーブルの一例である。 会議テキストテーブルの一例である。 要約テーブルの一例である。 議事録生成処理のフローチャートである。 議事録の一例である。 発話特徴取得処理のフローチャートである。 発話特徴パターンテーブルの一例である。 記入特徴抽出処理のフローチャートである。 記入特徴パターンテーブルの一例である。 テキスト対応付け処理のフローチャートである。 要約テキスト生成処理のフローチャートである。
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本発明の実施形態に係る要約装置を含む会議システムの全体構成図である。
会議システム100(要約システム)は、会議装置101と、要約装置としての会議サーバ102とを有する。会議装置101と会議サーバ102とは、ネットワーク103を介して接続されている。
会議装置101は、会議サーバ102と通信可能な端末装置である。会議装置101は、会議室などの会議開催場所に配置され、例えば、会議テーブルの上に置かれる。会議装置101は、図4で後述するように、音声や画像など複数の種類のデータ(以下、「会議情報」という)を記録する。会議装置101は、会議情報を会議サーバ102に送信する。
そして、会議装置101は、例えばオフィスや所定の会場等において開催される会議中に生成される会議情報を記録する。
なお、本発明で対象とする会議は、複数の人物の視認や発声行動を伴う集まりであればよく、オフィスや所定の会場等において開催される会議に限定されず、例えば、面接や取り調べ等であってもよい。
また、図1の会議システム100においては、会議装置101と会議サーバ102は、それぞれ、1台ずつが図示されているが、会議装置101及び会議サーバ102のいずれかまたは双方を複数備えてもよい。
会議サーバ102は、一般的なPC(Personal Computer)やクラウドサーバなどから構成される。会議サーバ102は、会議装置101から会議情報を受信し、受信した会議情報を解析・加工して議事録(図9で後述)を作成する。
会議サーバ102は、会議情報に含まれる音声データを音声認識してテキストを生成する。また、会議サーバ102は、会議情報に含まれる画像データを文字認識(画像認識)してテキストを生成する。会議サーバ102は、これらテキストを含む情報に基づいて議事録を作成し、作成した議事録を配信する。
図2(a)及び(b)は、それぞれ、会議装置101及び会議サーバ102のハードウェア構成例を示すブロック図である。
図2(a)に示される会議装置101は、CPU201、ROM202、RAM204、ストレージ205、入力デバイス206、表示デバイス207、外部インターフェース208、カメラデバイス209、マイクデバイス210を備える。これら各デバイスは、データバス203を介して相互にデータを送受信することができる。なお、CPUは、Central Processing Unitの略称である。RAMは、Random Access Memoryの略称である。ROMは、Read Only Memoryの略称である。
CPU201は、会議装置101全体を制御するためのコントローラである。CPU201は、不揮発メモリであるROM202に格納されているブートプログラムによりOS(Operating System)を起動する。CPU201は、OSの上で、ストレージ205に記録されているコントローラプログラムを実行する。コントローラプログラムは、会議装置101全体を制御するプログラムである。CPU201は、データバス203を介して各デバイスを制御する。
RAM204は、CPU201のメインメモリやワークエリア等の一時記憶領域として動作する。
ストレージ205は、読み出しと書き込みが可能な不揮発メモリであり、前述のコントローラプログラムを保存する。また、会議装置101は、会議情報を会議サーバ102へ送信するまでの間、会議情報をストレージ205に保存する。
入力デバイス206は、タッチパネルやハードキー、マウスなどから構成される入力装置である。入力デバイス206は、ユーザの操作指示を受け付けると、操作内容をCPU201に伝達する。
表示デバイス207は、LCDなどの表示装置であり、CPU201が生成した表示画像データを画面上に表示する。CPU201は、入力デバイス206から受信した指示情報と、表示デバイス207に表示させている表示画像データとに基づいて、操作内容を判定する。その判定結果に応じて、CPU201は、会議装置101を制御するとともに、操作内容に応じて新たな表示画像データを生成し、表示デバイス207に表示させる。
外部インターフェース208は、LANや電話回線、赤外線といった近接無線などのネットワークを介して、別体の外部機器(不図示)と各種データの送受信を行う。
カメラデバイス209は、いわゆるデジタルカメラまたはビデオカメラ等の撮像装置であり、動画や画像を撮影することができる。
マイクデバイス210は、入力された音声をデジタル信号化し、例えばWAVなどの音声データとして取得する。
図2(b)に示される会議サーバ102は、CPU251、ROM252、RAM254、ストレージ255、入力デバイス256、表示デバイス257、外部インターフェース258を備える。各デバイスは、データバス253を介して相互にデータを送受信することができる。
CPU251は、会議サーバ102全体を制御するためのコントローラである。CPU251は、不揮発メモリであるROM252に格納されているブートプログラムによりOSを起動する。CPU251は、OSの上で、ストレージ255に記憶されている会議サーバプログラムを実行する。CPU251は、会議サーバプログラムを実行することより、会議サーバ102の各処理を実現する。CPU251は、データバス253を介して各部を制御する。
RAM254は、CPU251のメインメモリやワークエリア等の一時記憶領域として動作する。
ストレージ255は、読み出しと書き込みが可能な不揮発メモリであり、前述の会議サーバプログラムを保存する。
外部インターフェース258、入力デバイス256及び表示デバイス257の構成はそれぞれ、会議装置101の外部インターフェース208、入力デバイス206及び表示デバイス207(図2(a))と同様である。
次に、図3を用いて、会議システム100が提示し、ユーザが参照・操作するユーザインターフェースについて説明する。図3(a)〜(e)は、会議装置101の表示デバイス207に表示される画面の遷移例である。
図3(a)に示す画面300は、会議開始前に表示される画面である。
ユーザは、会議装置101に会議の開始を指示するために、入力デバイス206を介して「開始」ボタン301へ指示をする。CPU201は、「開始」ボタン301への指示を受け付けると、表示デバイス207に画面310(図3(b))を表示させる。そして、CPU201は、音声データと画像データの記録を開始する。
図3(b)に示す画面310は、会議中に表示される画面である。
「撮影」ボタン311は、ユーザが会議装置101に撮影要求を指示するためのものである。ユーザは、入力デバイス206を介して「撮影」ボタン311へ指示をする。CPU201は、「撮影」ボタン311への指示を受け付けると、表示デバイス207に画面320(図3(c))を表示させる。
「アジェンダ」ボタン312は、ユーザが会議装置101にアジェンダ(議題)の変更(開始や終了)を指示するためのものである。CPU201は、入力デバイス206を介して「アジェンダ」ボタン312への指示を受け付けると、表示デバイス207に画面330(図3(d))を表示させる。
「終了」ボタン313は、ユーザが会議装置101に会議の終了を指示するためのものである。CPU201は、入力デバイス206を介して「終了」ボタン313への指示を受け付けると、表示デバイス207に画面340(図3(e))を表示させる。
図3(c)に示す画面320は、撮影をする際に表示される画面である。
画面320には、カメラデバイス209により得られる被写体の映像が表示される。ユーザは、映像を見ながら、文字を記入したホワイトボードや紙が、会議装置101の撮影画角に収まるよう調整することができる。CPU201は、入力デバイス206を介して画面320の任意箇所への指示を受け付けると、カメラデバイス209が被写体を撮影して画像データを取得する。
「OK」ボタン321は、ユーザが会議装置101に撮影終了を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン321への指示を受け付けると、表示デバイス207に画面310(図3(b))を表示させる。
図3(d)に示す画面330は、アジェンダの変更を指示する際に表示される画面である。
テキストフィールド331は、ユーザが会議装置101にアジェンダ名を登録するためのものである。ユーザは入力デバイス206を介して、テキストフィールド331に、所望のアジェンダ名を入力することができる。
「開始」ボタン332は、ユーザが会議装置101に、新しいアジェンダの開始を指示するためのものである。
「終了」ボタン333は、ユーザが会議装置101に、現在のアジェンダの終了を指示するためのものである。なお、終了したアジェンダについては、そのアジェンダ名がテキストエリア334にリスト表示される。
「OK」ボタン335は、ユーザが会議装置101に、アジェンダ変更の終了を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン335への指示を受け付けると、表示デバイス207に画面310(図3(b))を表示させる。
図3(e)に示す画面340は、会議を終了する際に表示される画面である。
テキストフィールド341は、ユーザが会議装置101に、会議システム100が作成する議事録の送信先を指定するためのものである。ユーザは、入力デバイス206を介して、テキストフィールド341に所望の送信先を入力することができる。送信先としては、例えば、メールアドレスが採用されるが、それには限定されない。
「OK」ボタン342は、ユーザが会議装置101に、会議終了の確定を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン342への指示を受け付けると、表示デバイス207に画面300(図3(a))を表示させる。そして、会議装置101は、会議情報の記録を終了し、会議情報を会議サーバ102へ送信する。その後、会議サーバ102は、受信した会議情報を解析・加工して議事録を生成し、送信先に送信する。
次に、図4を用いて、会議装置101によってストレージ205に記録される会議情報について説明する。図4(a)、(b)、(c)は、それぞれ、音声情報テーブル400、画像情報テーブル410、アジェンダ情報テーブル420の構成例である。会議情報は、これらのテーブルから構成される。
図4(a)に示す音声情報テーブル400は、会議装置101が録音して取得する音声に関する情報(以下、「音声情報」という)を記録するデータテーブルである。会議装置101は、会議中の音声情報を録音して音声データを取得し、音声データをファイルとしてストレージ205に記録する。
録音開始時刻列401には、録音開始時刻(会議開始時刻)が記録される。録音終了時刻列402には、録音終了時刻(会議終了時刻)が記録される。音声データ列403には、ストレージ205に記録された音声データのファイル名が記録される。
図4(b)に示す画像情報テーブル410は、会議装置101が撮影して取得する画像に関する情報(以下、「画像情報」という)を記録するデータテーブルである。会議装置101は、画像情報を撮影して画像データを取得し、画像データをファイルとしてストレージ205に記録する。
撮影時刻列411には、撮影時刻が記録される。画像データ列412には、ストレージ205に記録した画像データのファイル名が記録される。
図4(c)に示すアジェンダ情報テーブル420は、会議装置101が記録するアジェンダに関する情報(以下、「アジェンダ情報」という)を記録するデータテーブルである。
アジェンダ開始時刻列421には、アジェンダの開始時刻が記録される。アジェンダ終了時刻列422には、アジェンダの終了時刻が記録される。アジェンダ名列423には、アジェンダ名が記録される。
次に、図5を用いて、会議装置101による会議情報を記録する処理(会議情報記録処理)について説明する。図5(a)、(b)は、会議情報記録処理のフローチャートである。
会議情報記録処理は、CPU201が、ストレージ205に記録されているコントローラプログラムを読み出してRAM204に展開して実行することで実現される。会議情報記録処理は、ユーザが、会議装置101の電源キー(不図示)を操作して電源をON(オン)にすると開始される。会議情報記録処理が開始されると、CPU201は、画面300用の表示画像データを生成して、表示デバイス207に画面300(図3(a))を表示させる。
まず、ステップS501において、CPU201は、「開始」ボタン301への指示による会議開始指示がなされたか否かを判別する。
会議開始指示がなされていない場合、ステップS517において、CPU201は、会議装置101の電源キー(不図示)への指示による電源オフ指示がなされたか否かを判別する。そして、CPU201は、電源オフ指示がなされない場合は、処理をステップS501に戻す。
一方、電源オフ指示がなされた場合、CPU201は、図5のフローチャートの会議情報記録処理を終了する。
ステップS501で、会議開始指示がなされた場合、ステップS502において、CPU201は、画面310用の表示画像データを生成して、表示デバイス207に画面310(図3(b))を表示させる。それと共に、CPU201は、マイクデバイス210により会話の録音を開始する。これにより、CPU201は音声データの取得を開始する。
ここで、CPU201は、音声情報テーブル400(図4(a))の録音開始時刻列401に、録音開始時刻として現在時刻を記録する。また、CPU201は、取得した音声データを、ファイルとしてストレージ205に記録し始める。CPU201は、記録した音声データのファイル名を、音声情報テーブル400の音声データ列403に記録する。なお、録音開始時刻は会議開始時刻に相当する。
次に、ステップS503において、CPU201は、「撮影」ボタン311への指示による撮影要求指示がなされたか否かを判別する。すなわち、音声の取得中に、表示画面を通して、画像データを取得するための指示をユーザから受け付けることが可能である。
撮影要求指示がなされていない場合、CPU201は処理をステップS507に進める。
一方、撮影要求指示がなされた場合、CPU201は処理をステップS504に進める。
ステップS504において、CPU201は、画面320用の表示画像データを生成して、表示デバイス207に画面320(図3(c))を表示させると共に、撮影指示がなされたか否かを判別する。
ここでは、入力デバイス206を介して画面320の任意箇所への指示がなされた場合、CPU201は、撮影指示がなされたと判別する。一方、画面320へのいずれかの箇所への指示が所定時間継続してなかった場合、CPU201は、撮影指示がなされないと判別する。
撮影指示がなされない場合、CPU201は処理をステップS506に進める。
一方、撮影指示がなされた場合、CPU201は、ステップS505を実行してから、処理をステップS506に進める。
ステップS505において、CPU201は、カメラデバイス209により被写体の撮影を開始して、画像データを取得する。さらに、CPU201は、画像情報テーブル410(図4(b))にレコード(画像レコード)を追加する。その際、CPU201は、撮影時刻列411に撮影時刻として現在時刻を記録する。また、CPU201は、画像データを、ファイルとしてストレージ205に記録する。CPU201は、画像データのファイル名を、画像情報テーブル410の画像データ列412に記録する。
ステップS506において、CPU201は、画面320(図3(c))上で「OK」ボタン321への指示による撮影終了指示がなされたか否かを判別する。
撮影終了指示がなされていない場合、CPU201は処理をステップS504に戻す。
一方、撮影終了指示がなされた場合、CPU201は処理をステップS503に戻す。そして、画面310用の表示画像データを生成して、表示デバイス207に画面310(図3(b))を表示させる。
ステップS507において、CPU201は、「アジェンダ」ボタン312(図3(b))の指示によるアジェンダ変更指示がなされたか否かを判別する。
アジェンダ変更指示がなされていない場合、CPU201は、処理をステップS513に進める。
一方、アジェンダ変更指示がなされた場合、CPU201は、ステップS508において、画面330の表示画像データを生成して、表示デバイス207に画面330(図3(d))を表示させる。
ステップS508において、CPU201は、画面330(図3(d))上で「開始」ボタン332への指示によるアジェンダ開始指示がなされたか否かを判別する。
アジェンダ開始指示がなされた場合は、ステップS509において、CPU201は、新しいアジェンダを開始する。すなわち、CPU201は、アジェンダ情報テーブル420(図4(c))にレコード(アジェンダレコード)を追加し、アジェンダ開始時刻列421にアジェンダ開始時刻として現在時刻を記録する。そして、ステップS509の後、CPU201は処理をステップS508に戻す。
一方、ステップS508でアジェンダ開始指示がなされていない場合、CPU201は処理をステップS510に進める。なお、ステップS509の処理が開始されていて、かつ、ステップS511の処理が終了していないアジェンダが存在する場合は、ステップS508ではNOと判別される。
ステップS510において、CPU201は、画面330(図3(d))上で「終了」ボタン333への指示によるアジェンダ終了指示がなされたか否かを判別する。
アジェンダ終了指示がなされていない場合、CPU201は処理をステップS512に進める。なお、ステップS509の処理が開始されていて、かつ、ステップS511の処理が終了していないアジェンダが存在しない場合には、ステップS510ではNOと判別される。
一方、アジェンダ終了指示がなされた場合、ステップS511において、CPU201は現在のアジェンダを終了する。すなわち、CPU201は、アジェンダ情報テーブル420(図4(c))のアジェンダ終了時刻列422に、アジェンダ終了時刻として現在時刻を記録する。また、CPU201は、画面330(図3(d))上でテキストフィールド331に入力されたアジェンダ名をアジェンダ名列423に記録する。
ステップS512において、CPU201は、画面330(図3(d))上で「OK」ボタン335への指示によるアジェンダ変更終了指示がなされたか否を判別する。
アジェンダ変更終了指示がなされない場合は、CPU201は処理をステップS508に戻す。
一方、アジェンダ変更終了指示がなされた場合は、CPU201は処理をステップS503に処理を戻す。その際、CPU201は、画面310用の表示画像データを生成して、表示デバイス207に画面310(図3(b))を表示させる。
なお、アジェンダ開始後、終了指示がないまま「OK」ボタン335(図3(d))が指示された場合でも、ステップS503で撮影要求があれば、撮影が可能となる。その場合、「アジェンダ」ボタン312(図3(b))の指示を経て、「終了」ボタン333(図3(d))が指示され、さらに「OK」ボタン335が指示されたとき、アジェンダ終了時刻列422にアジェンダ終了時刻が記録される。
ステップS507でアジェンダ変更指示がなされていない場合、ステップS513において、CPU201は、画面330(図3(d))上で「終了」ボタン313への指示による会議終了指示がなされたか否かを判別する。
会議終了指示がなされていない場合、CPU201は処理をステップS503に戻す。
一方、会議終了指示がなされた場合、ステップS514において、CPU201は、画面340用の表示画像データを生成して、表示デバイス207に画面340(図3(e))を表示させると共に、マイクデバイス210による会議の録音を終了する。その際、CPU201は、音声情報テーブル400(図4(a))の録音終了時刻列402に、録音終了時刻として現在時刻を記録する。
なお、アジェンダ情報テーブル420(図4(c))において、アジェンダ終了時刻列422に終了時刻が記録されていないアジェンダレコードがあれば、CPU201は、アジェンダ終了時刻として現在時刻をアジェンダ終了時刻列422に記録する。また、CPU201は、画面330(図3(d))上のテキストフィールド331に入力されたアジェンダ名がない場合は、デフォルトのアジェンダ名をアジェンダ名列423に記録する。あるいは、これらの入力をユーザに促して入力させてもよい。
次に、ステップS515において、CPU201は、会議終了確定指示がなされたか否かを判別する。すなわち、画面330(図3(e))上のテキストフィールド341に送信先が入力され、かつ、「OK」ボタン342への指示がなされていた場合、CPU201は、会議終了確定指示がなされたと判別する。
一方、テキストフィールド341に送信先が入力されていないか、「OK」ボタン342への指示がなされていない場合、CPU201は、会議終了確定指示がなされていないと判別する。
CPU201は、会議終了確定指示がなされるまで待ち、会議終了確定指示がなされると、処理をステップS516に進める。なお、テキストフィールド341に入力された送信先は、会議情報の一部として記録される。
ステップS516において、CPU201は、以上の処理によりストレージ205に記録した会議情報を、外部インターフェース208を介して会議サーバ102へ送信する。そして、処理をステップS501に戻す。その際、CPU201は、画面300用の表示画像データを生成して、表示デバイス207に画面300(図3(a))を表示させる。なお、CPU201は、会議サーバ102へ送信した後、会議情報をストレージ205から削除してもよい。
なお、画面300(図3(a))の「開始」ボタン301への指示から画面330(図3(d))の「開始」ボタン332への指示までの期間においても、録音や撮影が行われ得る。また、画面330(図3(d))の「終了」ボタン333への指示から画面310(図3(b))の「終了」ボタン313への指示までの期間においても、録音や撮影が行われ得る。さらに、「終了」ボタン333への指示から次の「開始」ボタン332への指示までの期間においても、録音や撮影が行われ得る。
ただし、これらの期間においては、アジェンダ情報テーブル420の生成対象とならず、したがって、議事録元情報や議事録の作成の対象とならない。
しかし、これらの期間においても議事録元情報や議事録の作成の対象となるように構成してもよい。その場合、画面330(図3(d))の「開始」ボタン332で開始されないアジェンダのアジェンダ名は無名としてもよいし、デフォルトで定めてもよい。
ここで、画面300(図3(a))の「開始」ボタン301への指示から画面330(図3(d))の「開始」ボタン332への指示までの期間を例にして説明する。CPU201は、「開始」ボタン301への指示がされた時刻を第1のアジェンダのアジェンダ開始時刻列421とする。そして、CPU201は、その後に「開始」ボタン332がオンされた時点の時刻を、第1のアジェンダのアジェンダ終了時刻列422とし、かつ、次の(第2の)アジェンダのアジェンダ開始時刻列421とする。また、ステップS516を処理する時点で、テキストフィールド331に入力されたアジェンダ名がない場合は、CPU201は、デフォルトのアジェンダ名をアジェンダ名列423に記録してもよいし、アジェンダ名をユーザに入力させてもよい。
次に、図6及び図7を用いて、会議サーバ102が会議装置101から受信した会議情報を解析・加工して生成する議事録元情報について説明する。図6A(a)、(b)、図6B、図7は、会議サーバ102がストレージ255に記録する議事録元情報の構成例を示している。ここに示されるように、議事録元情報は、発話テーブル600(図6A(a))、記入テーブル610(図6A(b))、会議テキストテーブル620(図6B)、及び、要約テーブル700(図7)から構成される。
図6A(a)に示す発話テーブル600は、会議情報に含まれる音声データに対する音声認識結果に関する情報(以下、「発話情報」という)を記録するデータテーブルである。
CPU251は、音声データを解析してユーザの発話を特定し、発話毎にレコード(発話レコード)を生成する。
発話ID列601には、発話レコードが生成された順番にID番号が記録される。
発話時刻列602には、発話が発生した時刻(以下、「発話時刻」という)が記録される。
発話テキスト列603には、発話を音声認識して得られた発話テキストが記録される。
発話特徴列604には、音声データを解析して得られた特徴情報(以下、「発話特徴」という)が記録される。
対応記入ID列605には、対応する記入テキストの記入IDが記録される。
なお、発話や発話時刻及び発話特徴の特定、対応記入IDの取得については後述する。
図6A(b)に示す記入テーブル610は、会議情報に含まれる画像データに対する文字認識結果に関する情報(以下、「記入情報」という)を記録するデータテーブルである。
CPU251は、画像データを解析してユーザによる記入を特定し、記入毎にレコード(記入レコード)を生成する。
記入ID列611には、記入レコードが生成された順番にID番号が記録される。
記入時刻列612には、記入が発生した時刻(以下、「記入時刻」という)が記録される。
記入テキスト列613には、画像データを文字認識して得られた記入テキストが記録される。
記入特徴列614には、画像データを解析して得られた特徴情報(以下、「記入特徴」という)が記録される。
対応発話ID列615には、対応する発話テキストの発話IDが記録される。
なお、記入や記入時刻及び記入特徴の特定、対応発話IDの取得については後述する。
図6Bに示す会議テキストテーブル620(統合テキスト情報)は、会議において発生したテキスト(発話テキスト及び記入テキスト。以下、併せて「会議テキスト」という)に関する情報(以下、「会議テキスト情報」という)を記録するデータテーブルである。
CPU251は、発話情報(図6A(a))と記入情報(図6A(a))とを統合して会議テキスト情報を生成する。
会議ID列621には、生成順番に応じてID番号が記録される。
発生時刻列622には、会議テキスト情報が発生した時刻として、発話時刻列602または記入時刻列612の時刻が記録される。
会議テキスト列623には、会議テキストとして、発話テキスト列603または記入テキスト列613のテキストが記録される。
区分列624には、それに対応するレコード(会議レコード)の会議テキストの元となったテキスト(統合前のテキスト)が発話レコードであったか記入レコードであったかを示す情報が記録される。例えば、区分列624には、統合前のテキストが発話レコードであった場合には「0」が記録され、記入レコードであった場合には「1」が記録される。
要点列625には、それに対応する会議レコードの会議テキスト列623の会議テキストが要点であるか否かを示す情報が記録される。ここで、要点とは、会議中に決定した事項や、会議中に発生したアクションアイテムなど、会議の主要な内容を示すものである。要点の判定方法については後述する。要点列625には、会議テキストが要点である場合には「1」が記録され、要点でない場合には「0」が記録される。
発話特徴列626には、発話テーブル600中の発話特徴が記録される。記入特徴列627には、記入テーブル610中の記入特徴が記録される。
発話特徴列626に記録される発話特徴は、会議テキスト列623に記録された会議テキストに対応する発話テーブル600中の発話特徴には限られない。すなわち、発話特徴列626に記録される発話特徴は、対応記入ID605で対応づけられた記入テキストに付与された記入特徴も含む。
同様に、記入特徴列627に記録される記入特徴は、会議テキスト列623に記録された会議テキストに対応する記入テーブル610中の記入特徴には限られない。すなわち、記入特徴列627に記録される記入特徴は、対応発話ID615で対応づけられた発話テキストに付与された発話特徴も含む。
なお、CPU251は、会議テキストテーブル620の会議レコードを、発生時刻列622の値で昇順に(発生した順に)ソートする。
図7に示す要約テーブル700は、会議テキスト(図6B)を要約した情報(以下、「要約情報」という)を記録するデータテーブルである。
CPU251は、図6Bに示す会議テキストテーブル620の会議テキスト列623の会議テキストをアジェンダ毎に要約して要約テキストを生成し、それを要約テーブル700に記録する。
アジェンダ名列701には、アジェンダ名が記録される。要約テキスト列702(要約情報)には、生成された要約テキストが記録される。
次に、図8を用いて、会議サーバ102が、議事録元情報(図6、図7)の生成を経て議事録(図9)を生成する処理(議事録生成処理)について説明する。
図8は議事録生成処理のフローチャートである。議事録生成処理は、CPU251が、ストレージ255に記録されている会議サーバプログラムを読み出してRAM254に展開して実行することで実現される。議事録生成処理は、会議サーバ102が起動されると開始される。
まず、ステップS801において、CPU251は、外部インターフェース258を介して会議装置101から会議情報(図4(a)〜(c))を受信したか否かを判別する。
会議情報を受信していない場合、CPU251は処理をステップS812に進める。
一方、会議情報を受信している場合、CPU251は処理をステップS802に進める。
ステップS802において、CPU251は、受信した会議情報に含まれる音声データに対して音声認識を行い、発話テキストを得る(発話テキスト生成処理)。ここで、CPU251は、音声データを先頭から走査して、次の処理を行う。
まず、CPU251は、音声データ中の無音区間を検出する。無音区間は、例えば、音声データの音圧が閾値以下の状態が一定時間継続されたことに基づいて検出可能である。次に、CPU251は、ある無音区間と次の無音区間の間の区間を発話区間とし、個々の発話区間について音声認識を行って発話テキストを得る。また、CPU251は、会議情報の音声情報テーブル400(図4(a))の録音開始時刻列401の録音開始時刻と、各発話区間の音声データの先頭からの経過位置とから、各発話区間の発話時刻を算出する。
CPU251は、このようにして得た発話区間毎に発話テーブル600(図6A(a))に発話レコードを生成(追加)する。そして、CPU251は、該当する発話時刻と発話テキストを、それぞれ、発話テーブル600の発話時刻列602と発話テキスト列603に記録する。
次に、ステップS803において、CPU251は、受信した会議情報に含まれる画像データに対して文字認識を行い、記入テキストを得る(記入テキスト生成処理)。ここでCPU251は、会議情報に含まれる画像情報テーブル410(図4(b))の画像レコードを順に走査して、次の処理を行う。
まず、CPU251は、画像情報テーブル410の画像レコードを、撮影時刻列411の値で昇順に(撮影した順に)ソートする。そして、CPU251は、現在参照している画像レコードの画像データ列412が示す画像データと、それより1つ前の画像レコードの画像データ列412が示す画像データとの画像差分を求める。画像差分は、1つ前の画像レコードに該当する撮影から現在参照している画像レコードに該当する撮影までの間にユーザが記入した文字が含まれる部分画像であるとみなすことができる。
次に、CPU251は、部分画像に対して文字認識を行い、記入テキストを得る。また、CPU251は、現在参照している画像レコードの撮影時刻列411の撮影時刻を、画像差分が発生した時刻、すなわちユーザによる記入の記入時刻とする。
CPU251は、このようにして得た画像差分毎に記入テーブル610(図6A(b))に記入レコードを生成(追加)する。そして、CPU251は、該当する記入時刻と記入テキストを、それぞれ、記入テーブルの記入時刻列612と記入テキスト列613に記録する。
ステップS804において、CPU251は、受信した会議情報に含まれる音声データに対して解析を行い、発話特徴を得る。発話特徴を取得する処理(発話特徴取得処理)については、図10で後述する。
ステップS805において、CPU251は、受信した会議情報に含まれる画像データに対して解析を行い、記入特徴を得る。記入特徴を取得する処理(記入特徴取得処理)については、図11で後述する。
ステップS806において、CPU251は、発話テーブル600と記入テーブル610に含まれる発話テキスト及び記入テキスト間の対応情報を得る。発話テキストと記入テキストとを対応付ける処理(テキスト対応付け処理)については、図12で後述する。
ステップS807において、CPU251は、発話テキストと記入テキストとを統合して会議テキストを得る。すなわち、CPU251は、ステップS802で生成した発話テーブル600(図6A(a))とステップS803で生成した記入テーブル610(図6A(b))とを統合して、会議テキストテーブル620(図6B)を生成する。ここで、CPU251は、次の処理を行う。
まず、CPU251は、発話テーブル600に含まれる発話レコードの数だけ会議テキストテーブル620に会議レコードを生成(追加)する。このとき、CPU251は、発話時刻列602の発話時刻を会議テキストが発生した時刻として発生時刻列622に記録し、発話テキスト列603の発話テキストを会議テキストとして会議テキスト列623に記録する。また、CPU251は、区分列624に、元のデータが発話情報であったことを示す「0」を記録し、発話特徴列626に、発話特徴列604の発話特徴を記録する。さらに、CPU251は、ステップS806で取得した対応情報に基づいて、会議テキスト列623に入力された発話テキストに対応する記入テキストが付与された記入特徴を記入特徴列627に記録する。
また、CPU251は、記入テーブル610に含まれる記入レコードの数だけ会議テキストテーブル620に会議レコードを生成(追加)する。このとき、CPU251は、記入時刻列612の記入時刻を会議テキストが発生した時刻として発生時刻列622に記録し、記入テキスト列613の記入テキストを会議テキストとして会議テキスト列623に記録する。また、CPU251は、区分列624に、元のデータが記入情報であったことを示す「1」を記録し、記入特徴列627に、記入特徴列614の記入特徴を記録する。さらに、CPU251は、ステップS806で取得した対応情報に基づいて、会議テキスト列623に入力された記入テキストに対応する発話テキストに付与された発話特徴を発話特徴列626に記録する。
CPU251は、以上のように生成(追加)した会議レコードを発生時刻列622の値で昇順に(発生した順に)ソートする。
ステップS808において、CPU251は、ステップS807で生成した会議テキストから要点を抽出する。まず、CPU251は、ステップS807において会議テキストテーブル620に追加した会議レコードの各々について、会議テキスト列623の会議テキストが要点であるか否かを判定する。例えば、CPU251は、会議テキストが、予め決定された特定のキーワードを含むならば要点であると判定する。CPU251は、会議テキストが要点である場合は要点列625に「1」を記録し、要点でない場合は要点列625に「0」を記録する。
ステップS809において、CPU251は、ステップS807で生成した会議テキストを要約する(要約生成処理)。CPU251は、会議情報のアジェンダ情報テーブル420のレコードを順に走査して、次の処理を行う。
まず、CPU251は、アジェンダ情報テーブル420(図4(c))のアジェンダレコードを、アジェンダ開始時刻列421の値で昇順に(アジェンダの開始順に)ソートする。次に、CPU251は、現在参照しているアジェンダレコードのアジェンダ開始時刻列421のアジェンダ開始時刻からアジェンダ終了時刻列422のアジェンダ終了時刻までの期間(アジェンダ期間)を取得する。すなわち、アジェンダの各々にはアジェンダ期間が対応付けられる。
そして、CPU251は、会議テキストテーブル620から、発生時刻列622の値が取得したアジェンダ期間に該当する会議レコード群を抽出する。CPU251は、抽出した会議レコード群の会議テキスト列623の会議テキストを要約して、要約テキストを生成する。要約テキストを生成する処理(要約テキスト生成処理)については図13で後述する。
そして、CPU251は、要約テーブル700(図7)に要約レコードを追加して、生成した要約テキストを要約テキスト列702に記録する。また、CPU251は、現在参照しているアジェンダ情報テーブル420のアジェンダレコードのアジェンダ名列423のアジェンダ名を、要約テーブル700に追加した要約レコードのアジェンダ名列701に記録する。
ステップS810において、CPU251は、上記のようにして得た議事録元情報及び会議情報に基づいて、図9に示す議事録を生成する。
図9は、議事録900の一例を示している。議事録900は、議事を示す議事テキストデータ910と、画像データ群920とからなる。議事テキストデータ910は、会議開催時間911、要点一覧912、アジェンダ名913、915、要約テキスト914、916を含む。
ここで、CPU251は、音声情報テーブル400(図4(a))の録音開始時刻列401の録音開始時刻(会議開始時刻)と、録音終了時刻列402の録音終了時刻(会議終了時刻)とから、会議開催時間911を生成する。
要点一覧912は、会議テキストテーブル620(図6B)の会議レコードであって、要点列625が「1」(要点)であるレコードの会議テキスト列623の会議テキストの一覧である。
各アジェンダ名913、915は、要約テーブル700(図7)のアジェンダ名列701から取得される。
要約テキスト914、916は、各アジェンダ名913、915に対応する会議テキストの要約テキストであり、要約テーブル700の要約テキスト列702から取得される。
画像データ群920は、会議情報に含まれる画像データを含む。
ステップS811において、CPU251は、ステップS810で生成した議事録を、会議情報に含まれる送信先に送信する。議事録の送信方法としては、例えば、電子メールによる送信が採用される。CPU251は、電子メール本文に議事テキストデータ910を入力し、添付ファイルに画像データ群920を入力して、電子メールを送信する。
ステップS811の処理が終了すると、CPU251は処理をステップS801に戻す。
ステップS801において会議情報を受信していない場合、ステップS812において、CPU251は、終了指示がなされたか否かを判別する。ユーザは、例えば、外部インターフェース258を介して、別体のPCから会議サーバ102の終了指示をすることができる。
終了指示がなされていない場合、CPU251は処理をステップS801に戻す。
一方、終了指示がなされた場合、CPU251は図8のフローチャートの議事録生成処理を終了する。
ここで、図10を用いて、図8のフローチャートのステップS804における発話特徴取得処理について、詳細に説明する。図10Aは、発話特徴取得処理のフローチャートである。CPU251は、受信した会議情報に含まれる音声データを取得し、先頭から走査して、発話特徴取得処理を行う。
まず、ステップS1001において、CPU251は、後述する発話特徴パターンの検出に必要な情報の前処理を行う。前処理としては、例えば、音声データをデジタル変換して得られる時系列の音量データに対しての音量平均値の計算と、音声データをフーリエ変換し時系列の周波数データを取得する処理などが挙げられる。なお、ここで行われる前処理及びその手法は、想定する発話特徴パターンに応じて適宜変更することができる。
次に、ステップS1002において、CPU251は、走査対象となっている音声データ中に発話特徴パターンが含まれているかに基づいて発話特徴を検出する。ここで、発話特徴パターンとは、重要なテキストが発生する際に音声データ中に現れる特徴的な要素をパターン化したものである。
ここで、図10Bを用いて、発話特徴パターンとその検出方法について説明する。
図10Bは、発話特徴パターンをテーブル化したもの(発話特徴パターンテーブル1010)である。
発話特徴ID列1011には、各発話特徴を一意に特定するための符号が記録される。
発話特徴名列1012には、各発話特徴を表す名称が記録される。
発話特徴パターンの特定方法列1013には、各発話特徴を決定する際の基準(パターン)が記録される。
スコア列1014には、後述するテキストの重要度を算出する際に用いられる値が記録される。
例えば、発話特徴IDが「1」であるレコード1016では、ある区間内において入力された音量データの音量の平均値を一定以上上回る音量の音声データがどの程度存在するかにより、発話特徴を決定することが示されている。具体的には、ある区間内の音声データ中に平均値を一定以上上回る区間が一定以上継続した場合に、「声量大」という発話特徴がRAM254に保存される。
このように、ステップS1002では、走査対象の音声データに対して、発話特徴パターンテーブル1010中の各発話特徴パターンの判定処理が順次行われる。
なお、発話特徴パターンは、特徴的な発話を表すようなパターンであればよく、図10Bに示す発話特徴パターンテーブル1010に記載されたものに限られない。また、一つの走査区間に対して検出される特徴パターンは一つに限られず、該当する特徴パターンを複数検出してもよい。また、ステップS1001の前処理において、音声データと同様の時系列を持つデータ(例えば、時系列の周波数データ)が存在する場合は、音声データと共に発話特徴パターンを検出するために走査対象としてもよい。
ステップS1003において、CPU251は、ステップS1002において発話特徴パターンが検出されたか否かを判定する。
発話特徴パターンが検出されている場合、CPU251は処理をステップS1004に進める。
一方、発話特徴パターンが検出されていない場合、CPU251は処理をステップS1005に進める。
ステップS1004において、CPU251は、ステップS1002で抽出した発話特徴を、発話テーブル600(図6A(a))の中の対応する発話テキストへ付与する。
ここでは、抽出された発話特徴の開始された時刻と発話時刻列602中の各要素とを比較し、一番時刻が近いものを対応する発話テキストとして判定する。その後、発話テーブル600中の対応する発話特徴列604にステップS1002で検出した発話特徴を記録する。
なお、発話テキストへの発話特徴の付与は、上記の方法に限られず、発話特徴が発生している区間と発話テキストを取得した区間の重複率などに基づいて決定してもよい。
ステップS1005において、CPU251は、音声データをすべて走査したか否かを判定する。
まだ音声データをすべて走査していないと判定した場合、CPU251は処理をステップS1002に戻す。
一方、すべての走査を終了したと判定した場合、CPU251は図10Aのフローチャートの発話特徴取得処理を終了する。
次に、図11を用いて、図8のフローチャートのステップS805における記入特徴取得処理について、詳細に説明する。図11Aは、記入特徴取得処理のフローチャートである。CPU251は、受信した会議情報に含まれる画像データから記入特徴取得処理を行う。
まず、ステップS1101において、CPU251は、画像情報テーブル410(図4(b))の画像レコードを、撮影時刻列411にある撮影時刻の順で昇順(撮影順)にソートする。
次に、ステップS1102において、CPU251は、走査対象となる画像レコードの画像データを画像データ列412から取得する。
ステップS1103において、CPU251は、現在参照している画像レコードの画像データ列412が示す画像データと、それより1つ前の画像レコードの画像データ列412が示す画像データとの画像差分を求める。
図11に示す例では、図11A(1)に示される画像データ1110と、図11A(2)に示される画像データ1120とから、図11A(3)に示されるような画像差分1130が求められる。
この画像差分は、1つ前の画像レコードに該当する撮影から現在参照している画像レコードに該当する撮影までの間にユーザが記入した文字(文字列1141及び文字列1142)が含まれる部分画像であるとみなすことができる。なお、ステップS803において文字認識を行う際に画像差分を生成する場合は、それを用いることでステップS1102及びステップS1103を省略してもよい。
ステップS1104において、CPU251は、ステップS1103で取得した画像差分に対して記入領域の検出を行う。記入領域とは、部分画像中に含まれる文字列または図形を包含するような領域である。
図11の例では、図11A(3)に示される画像差分に対して、図11A(4)に示される領域1141、領域1142のような各矩形領域が、それぞれ、記入領域として検出される。
領域1141は文字列1131を、領域1142は文字列1132を、それぞれ、対象とした領域であり、この領域を切り出した画像を対象として記入特徴の検出を行う。
なお、記入領域の取得手段としては、例えば、対象画像を二値化した上で画素の密集度などに基づいて領域を取得する手段などの技術を用いることができる。このような記入領域の取得手段は公知の技術であるため、ここでは詳細な説明は省略する。なお、記入領域を取得するにあたり、上記の要件を満たす領域が取得できる手段であれば、使用する手段は限定されない。
ステップS1105において、CPU251は、ステップS1104で取得した記入領域に対して、後述する記入特徴パターンの検出に必要な情報の前処理を行う。ここでは、前処理として、画像データ中の含まれる文字の色とサイズの平均値の計算を行う。
ステップS1106において、CPU251は、ステップS1104で取得した記入領域に対して、記入特徴パターンが含まれているかに基づいて記入特徴を検出する。ここで、記入特徴パターンとは、重要なテキストが発生する際に画像データ中に現れる特徴的な要素をパターン化したものである。
ここで、図11Bを用いて、記入特徴パターンとその検出方法について説明する。
図11Bは、記入特徴のパターンをテーブル化したもの(記入特徴パターンテーブル1150)である。
記入特徴ID列1151には、各記入特徴を一意に特定するための符号が記録される。
記入特徴名列1152には、各記入特徴を表す名称が記録される。
記入特徴パターンの特定方法列1153には、各記入特徴を決定する際の基準(パターン)が記録される。
スコア列1154には、後述するテキストの重要度を算出する際に用いられる値が記録される。
例えば、記入特徴IDが「1」であるレコード1156では、ステップS1105で取得した文字サイズの平均値に基づいて文字サイズの比較を行うことが示されている。文字サイズは、文字認識を行った際に得られる情報を用いたり、ステップS1104で取得した記入領域のサイズを代替的に用いたりすることで取得することができる。そして、文字サイズが平均値より一定以上大きい場合、「文字サイズ大」という記入特徴がRAM254に保存される。
このように、ステップS1106では、記入領域に対して、記入特徴パターンテーブル1150中の各記入特徴パターンの判定処理が順次行われる。
なお、記入特徴パターンは、特徴的な記入を表すようなパターンであればよく、記入特徴パターンテーブル1150に記載されたものに限られない。また、一つのテキストに対して検出される特徴パターンは一つに限られず、該当する特徴パターンを複数検出してもよい。
ステップS1107において、CPU251は、ステップS1106で検出されたすべての記入特徴が処理されたか否かを判定する。
すべて処理したと判定した場合、CPU251は処理をステップS1109に進める。
一方、まだ処理していない特徴があると判定した場合、CPU251は処理をステップS1108に進める。
ステップS1108において、CPU251は、ステップS1106で検出された記入特徴を、記入テーブル610(図6A(b))の対応する記入テキストに付与する。記入テキストへの記入特徴の付与は、特徴検出を行った文字領域に対して文字認識を実行することによって得られるテキストと、記入テーブル610中に保持されている記入テキストに対して、類似度を判定することによりを行うことができる。そして、CPU201は、類似度が最も高い記入テキストを対応する記入テキストであると判定する。その後、記入テーブル610中の記入特徴列614にステップS1106で検出した記入特徴を記録する。
なお、ステップS803における文字認識の際に領域の分割を行う場合は、同領域から生成されるテキストを対象とすることが可能であるため、本ステップを省略してもよい。
ステップS1109において、CPU251は、画像データをすべて走査したか否かを判定する。
まだ画像データをすべて走査していないと判定した場合、CPU251は処理をステップS1102に進める。
一方、すべての走査を終了したと判定した場合、CPU251は、図11Aのフローチャートの記入特徴取得処理を終了する。
次に、図12を用いて、図8のフローチャートのステップS806において、発話テキストと記入テキストとの間の対応付けをする処理(テキスト対応付け処理)について、詳細に説明する。図12は、テキスト対応付け処理のフローチャートである。CPU251は、発話情報に含まれる発話テキストと記入情報に含まれる記入テキストとの間の対応付けを行う。
まず、ステップS1201において、CPU251は、発話テーブル600(図6A(a))中の発話レコードから発話時刻順に発話テキストを取得する。
次に、ステップS1202において、CPU251は、記入テーブル610(図6A(b))中の記入レコードから記入時刻順に記入テキストを取得する。
ステップS1203において、CPU251は、ステップS1201及びS1202で取得した、発話テキスト及び記入テキスト間の類似度を算出する。類似度の計算手段は、例えば、テキスト内の単語や文字を直接評価する手段(レーベンシュタイン距離など)などの技術を用いることができる。また、テキストをベクトルとして分散表現し、距離計算を行うことによる評価手段(Bag-of-wordsやdoc2vecなど)などの技術を用いることもできる。このような類似度の計算手段は公知の技術であるため、ここでは詳細な説明は詳細する。なお、類似度を計算するにあたり、テキストの類似度を数値評価できるものであれば、使用する手段は限定されない。
ステップS1204において、CPU251は、記入テーブル610中の記入テキストをすべて走査したか否かを判定する。
すべて走査したと判定した場合、CPU251は処理をステップS1205に進める。
一方、まだ走査していない記入テキストがあると判定した場合、CPU251は処理をステップS1202に戻す。そして、次の記入テキストを取得し、類似度の算出を継続する。
ステップS1205において、CPU251は、ステップS1203で算出した、発話テキストに対する各記入テキストの類似度のうち、最大の類似度を有する記入テキストを選択して、その類似度があらかじめ定められた閾値以上であるか否かを判定する。
閾値以上であると判定した場合、CPU251は、その記入テキストを発話テキストに関係のある記入テキストであると判断し、処理をステップS1206に進める。
一方、閾値以下であると判定した場合、CPU251は処理をステップS1207に進める。
ステップS1206において、CPU251は、発話テキストと記入テキストとの対応関係を、発話テーブル600中の対応記入ID列605及び記入テーブル610中の対応発話ID列615に、それぞれ、記録する。
なお、ここでは類似度が最大のもののみを選択したが、すべての記入テキストを対象として、類似度が閾値以上である複数の記入テキストに対して対応付けを行い、発話テーブル600及び記入テーブル610中に記録してもよい。
ステップS1207において、CPU251は、発話テーブル600中の発話テキストをすべて走査したか否かを判定する。
すべて走査したと判定した場合、CPU251は図12のフローチャートのテキスト対応付け処理を終了する。
一方、まだ走査していない発話テキストがあると判定した場合、CPU251は処理をステップS1201に戻す。そして、次の発話テキストを取得してテキスト対応付け処理を継続する。
なお、図12のフローチャートにおいては、記入テーブル610中のすべての記入テキストをテキスト対応付け処理の対象としたが、発話時刻列602及び記入時刻列612に基づいて発生時刻が近いもののみに限定するなど、対応付け範囲を変更してもよい。
また、図12のフローチャートにおいては、発話テキスト毎に記入テキストを対応付けていったが、記入テキスト毎に発話テキストを対応付けていってもよい。すなわち、発話テキストと記入テキストの一方を他方に対応付けていけばよい。
最後に、図13を用いて、図8のフローチャートのステップS809における要約テキスト生成処理について、詳細に説明する。図13は、要約テキスト生成処理のフローチャートである。要約テキスト生成処理は、ステップS809における、会議テキストを要約する処理の一部に該当する。要約テキスト生成処理にあたって、CPU251には会議テキストテーブル620(図6B)における複数の会議レコードが入力されてくる。
まず、ステップS1301において、CPU251は、入力された会議レコードのすべてを参照し、会議テキスト列623の会議テキストに出現する単語の各々について、その重要度を算出する。
ここでは、CPU251は、例えば、各単語の出現頻度に基づいて各単語の重要度を算出する。この場合、CPU251は、出現頻度が高い単語ほど重要度が高いと判断し、重要度を数値として表現する。なお、テキスト評価の手法は上記に限られず、テキストを数値的に評価することが可能であれば、任意の手法を採用することができる。
ステップS1302において、CPU251は、入力された各会議レコードの会議テキスト列623の会議テキストについて、それぞれの重要度を算出する。
ここで、CPU251は、ステップS1301で算出した各単語の重要度に基づいて、各会議テキストに含まれる各単語の重要度の合計値を算出することにより、各会議テキストの重要度(単語合計重要度)の値を算出する。
ステップS1303において、CPU251は、会議テキストテーブル620中の会議テキスト列623に含まれる会議テキストの最終的な重要度(会議テキスト重要度)を決定する。
ここで、会議テキスト重要度(I)は、下記の評価式によって求められる。
I=α×Te + β×Se + γ×Re
ここで、Teは、S1302において算出された単語合計重要度である。Seは、発話特徴パターンテーブル1010中のスコア列1014で予め設定された値(発話特徴重要度)である。Reは、記入特徴パターンテーブル1150中のスコア列1104で予め設定された値(記入特徴重要度)である。
また、α、β、γは、それぞれ、テキスト重要度、発話特徴重要度、記入特徴重要度に対応する重みである。
これらの重みを重視したい項目に合わせて調整することにより、議事録中に抽出するテキストの傾向を変更することが可能である。例えば、会議において、ユーザは、ホワイトボードなどの記入媒体に、会議における論点や重要な意見を記入する場合がある。これらの記入された内容は通常、議事として重要であるため、そこに付与された特徴情報は高く評価されるべきである。そこで、評価式中の記入特徴重要度の重みγをα、βに比べて高く設定することで、記入媒体から得られた記入テキストを要約テキストに優先的に反映することが可能となる。
なお、最終テキスト重要度Iを決定する評価式は、上述した式に限られず、趣旨を逸脱しない範囲において適宜変更してもよい。例えば、テキストの種別(発話テキストであるか記入テキストであるか)に応じて各重要度の重みを変更するような評価式が考えられる。
ステップS1304において、CPU251は、重要度が所定の閾値以上である会議テキストを、重要度の高い会議テキストとして抽出する。これにより、会議テキストテーブル620に含まれる各単語の出現頻度及び特徴の有無に基づいて、抽出する会議テキストが決定され、決定された会議テキストが抽出される。これにより、CPU251は、抽出した会議テキストから、要約テーブル700(図7)に記録される要約テキストを生成することができる。
以上のとおり、本実施形態において、会議サーバ102は、音声データをテキスト化して、発話テキストを含む発話テーブル600を生成する。また、検出された発話特徴を対応する発話テキストに付与する。同様に、会議サーバ102は、画像データをテキスト化して、記入テキストを含む記入テーブル610を生成する。また、検出された記入特徴を対応する記入テキストに付与する。
次に、会議サーバ102は、発話テキストと記入テキストとの間の類似度を算出することにより、発話テキストと記入テキストを対応付ける。そして、会議サーバ102は、発話テーブル600と記入テーブル610を統合して、発話テキストと記入テキストを併せた会議テキストを含む会議テキストテーブル620を生成する。
さらに、会議サーバ102は、会議テキストに含まれる単語について、発話特徴や記入特徴により重み付けをした算出した重要度に基づいて会議テキストテーブル620を要約して、要約テーブル700を生成する。最後に会議サーバ102は、要約テーブル700に基づいて議事録を生成する。
このように、本実施形態では、発話テキストに発話特徴を付与し、また、記入テキストに記入特徴を付与した上で、発話テキストと記入テキストを対応付けて会議テキストを作成してから、各特徴による重み付けを考慮して要約を作成する。
これにより、複数の異なる特徴を組み合わせた重要度に基づいて要約を生成することができるため、より適切な議事録を作成することができる。
本実施形態の奏する効果を、図6の事例を用いて具体的に説明する。
記入テーブル(図6A(b))中の記入IDが「1」である記入レコード616には、ステップS805において検出された「下線」という記入特徴が付与されている。また、記入レコード616の対応発話IDには、ステップS806のテキスト対応付け処理において、発話テーブル600中の発話IDが「2」である発話レコード606と対応があると判定されたことが記録されている。
この場合、会議テキストテーブル(図6B)には、ステップS807において、発話レコード606に対応して、「下線」という記入特徴が記録された会議レコード628(会議IDが「2」)が生成される。
これにより、ステップS809において会議テキストを要約するときに、会議レコード628については、「下線」という記入特徴が持つ重要度が加算され、要約に含められるテキストとして選択される可能性が高くなる。
上記の事例のように、ユーザが会議中に記入したテキストに下線を引いた場合は、例えば、このテキストが会議の結論に対する理由や根拠となっているなど、このテキストが重要であるとユーザが判断していたと考えられる。このため、本実施形態では、そのように重要であると考えられる記入テキストが生成された場合、その記入テキストの重要度を上げる処理を行う。同様に、発話テキストについても、重要であると考えられる場合、その重要度を上げる処理を行う。
これにより、本実施形態では、音声データ及び画像データの双方から得られたテキスト及び特徴を考慮した評価を行い、その評価に基づいた要約を行うため、要約や議事録を生成する際に、ユーザにとって重要な情報の欠落を低減させることができる。
なお、CPU251は、議事録元情報(図6、図7)を会議サーバ102の表示デバイス257に表示させてもよい。さらには、表示させた議事録元情報から、ユーザの指示により各レコードを変更、例えば、内容を編集したりレコードを追加または削除したり、できるように構成してもよい。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。すなわち、上述の実施形態及びその変形例を組み合わせた構成もすべて本発明に含まれるものである。
600 発話テーブル
610 記入テーブル
620 会議テキストテーブル
700 要約テーブル

Claims (12)

  1. 音声データから第1のテキスト情報を生成する第1の生成手段と、
    画像データから第2のテキスト情報を生成する第2の生成手段と、
    前記音声データから第1の特徴情報を取得する第1の取得手段と、
    前記第1のテキスト情報に前記第1の特徴情報を付与する第1の付与手段と、
    前記画像データから第2の特徴情報を取得する第2の取得手段と、
    前記第2のテキスト情報に前記第2の特徴情報を付与する第2の付与手段と、
    前記第1のテキスト情報と前記第2のテキスト情報とを対応付ける第1の対応付け手段と、
    前記第1のテキスト情報と前記第2のテキスト情報とを統合して、第3のテキスト情報を生成する第3の生成手段と、
    前記第1の特徴情報及び前記第2の特徴情報を用いて、前記第3のテキスト情報の重要度を決定する決定手段と、
    前記重要度に基づいて前記第3のテキスト情報から要約を生成する第4の生成手段と、を有する
    ことを特徴とする要約生成装置。
  2. 前記第1の付与手段により前記第1の特徴情報が付与された前記第1のテキスト情報、前記第2の付与手段により前記第2の特徴情報が付与された前記第2のテキスト情報、前記第1の対応付け手段により対応付けられた前記第1のテキスト情報と前記第2のテキスト情報に基づいて、前記第1のテキスト情報に前記第2の特徴情報を付与する第3の付与手段、及び、前記第2のテキスト情報に前記第1の特徴情報を付与する第4の付与手段を有する
    ことを特徴とする請求項1に記載の要約生成装置。
  3. 前記決定手段は、前記第1の特徴情報に第1の重みを設定し、前記第2の特徴情報の第2の重みを設定することにより、前記第3のテキスト情報の重要度を決定する
    ことを特徴とする請求項1又は2に記載の要約生成装置。
  4. 前記第2の重みが前記第1の重みより高く設定される
    ことを特徴とする請求項3に記載の要約生成装置。
  5. 前記決定手段は、
    前記第3のテキスト情報に含まれる単語の重要度を合計した合計値から前記第3のテキスト情報の重要度を決定する
    ことを特徴とする請求項1乃至4のいずれか1項に記載の要約生成装置。
  6. 前記第1の特徴情報及び前記第2の特徴情報がそれぞれ複数あり、前記複数の第1の特徴情報及び第2の特徴情報のそれぞれに対して、前記重要度を算出する際に用いられるスコアが定められている
    ことを特徴とする請求項3又は5のいずれか1項に記載の要約生成装置。
  7. 前記第1の対応付け手段は、前記第1のテキスト情報と前記第2のテキスト情報との類似度に基づいて、前記第1のテキスト情報と前記第2のテキスト情報とを対応付ける
    ことを特徴とする請求項1乃至6のいずれか1項に記載の要約生成装置。
  8. 前記第1の対応付け手段は、前記第1のテキスト情報と前記第2のテキスト情報のそれぞれに含まれる単語を用いて前記類似度を算出する
    ことを特徴とする請求項7に記載の要約生成装置。
  9. 前記第1の対応付け手段は、前記第1又は第2のテキスト情報の一方に対して、前記類似度が最大となる前記第1又は第2のテキスト情報の他方を前記一方に対応付ける
    ことを特徴とする請求項7又は8に記載の要約生成装置。
  10. 前記第1の対応付け手段は、前記第1又は第2のテキスト情報の一方に対して、前記類似度があらかじめ定められた閾値以上となる前記第1又は第2のテキスト情報の他方を前記一方に対応付ける
    ことを特徴とする請求項7又は8に記載の要約生成装置。
  11. 音声データから第1のテキスト情報を生成する第1の生成工程と、
    画像データから第2のテキスト情報を生成する第2の生成工程と、
    前記音声データから第1の特徴情報を取得する第1の取得工程と、
    前記第1のテキスト情報に前記第1の特徴情報を付与する第1の付与工程と、
    前記画像データから第2の特徴情報を取得する第2の取得工程と、
    前記第2のテキスト情報に前記第2の特徴情報を付与する第2の付与工程と、
    前記第1のテキスト情報と前記第2のテキスト情報とを対応付ける第1の対応付け工程と、
    前記第1のテキスト情報と前記第2のテキスト情報とを統合して、第3のテキスト情報を生成する第3の生成工程と、
    前記第1の特徴情報及び前記第2の特徴情報を用いて、前記第3のテキスト情報の重要度を決定する決定工程と、
    前記重要度に基づいて前記第3のテキスト情報から要約を生成する第4の生成工程と、を有する
    ことを特徴とする要約生成方法。
  12. 請求項11の要約生成方法をコンピュータにより実行させるためのプログラム。
JP2018178642A 2018-09-25 2018-09-25 要約生成装置、要約生成方法、及びプログラム Pending JP2020052511A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018178642A JP2020052511A (ja) 2018-09-25 2018-09-25 要約生成装置、要約生成方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018178642A JP2020052511A (ja) 2018-09-25 2018-09-25 要約生成装置、要約生成方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2020052511A true JP2020052511A (ja) 2020-04-02

Family

ID=69997134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018178642A Pending JP2020052511A (ja) 2018-09-25 2018-09-25 要約生成装置、要約生成方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2020052511A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022013586A (ja) * 2020-06-30 2022-01-18 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 議事録の生成方法、装置、電子機器、及びコンピュータ可読記憶媒体
JP7516941B2 (ja) 2020-07-17 2024-07-17 富士通株式会社 情報処理プログラム、情報処理装置及び情報処理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022013586A (ja) * 2020-06-30 2022-01-18 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 議事録の生成方法、装置、電子機器、及びコンピュータ可読記憶媒体
US11521603B2 (en) 2020-06-30 2022-12-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Automatically generating conference minutes
JP7516941B2 (ja) 2020-07-17 2024-07-17 富士通株式会社 情報処理プログラム、情報処理装置及び情報処理方法

Similar Documents

Publication Publication Date Title
JP6870242B2 (ja) 会議支援システム、会議支援装置、及び会議支援方法
JP4364251B2 (ja) 対話を検出する装置、方法およびプログラム
US11281707B2 (en) System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information
JP6304941B2 (ja) 会議情報記録システム、情報処理装置、制御方法およびコンピュータプログラム
JP2009540414A (ja) メディア識別
US20210105437A1 (en) Information processing device, information processing method, and storage medium
JP4469867B2 (ja) コミュニケーションの状況を管理する装置、方法およびプログラム
JP2016102920A (ja) 文書記録システム及び文書記録プログラム
JP2017016535A (ja) コメント入力表示システム及び方法並びにコメント入力表示用プログラム
JP2019152758A (ja) 会議システム、会議システムの制御方法、並びにプログラム
JP2020052511A (ja) 要約生成装置、要約生成方法、及びプログラム
JP6801539B2 (ja) 情報処理システム、情報処理装置、情報処理プログラム及び情報処理方法
JP2019139572A (ja) 会議システム、要約装置、会議システムの制御方法、要約装置の制御方法、並びにプログラム
JP2019139571A (ja) 会議システム、要約装置、会議システムの制御方法、要約装置の制御方法、並びにプログラム
JP2010176544A (ja) 会議支援装置
JP2005345616A (ja) 情報処理装置及び情報処理方法
JPH0798734A (ja) 作業状況管理装置
JP2019138988A (ja) 情報処理システム、情報処理方法、及びプログラム
JP7403133B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2019138989A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2019149083A (ja) 議事録生成装置、議事録生成方法、及びプログラム
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2020020946A (ja) 音声認識装置及びその制御方法、並びにプログラム
US20230014604A1 (en) Electronic device for generating mouth shape and method for operating thereof
JP7344612B1 (ja) プログラム、会話要約装置、および会話要約方法