JP2015130176A

JP2015130176A - 会議内容構造化装置及び方法

Info

Publication number: JP2015130176A
Application number: JP2015001541A
Authority: JP
Inventors: 知 ▲ひょん▼ 李; Ji-Hyun Lee; 錫 ▲じん▼ 洪; Seok Jin Hong; 景久禹; Kyoung-Gu Woo; 堯韓盧; Yo Han Roh; 尚賢柳; Sang Hyun Yoo; 昊潼李; Ho Dong Lee
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-01-07
Filing date: 2015-01-07
Publication date: 2015-07-16
Also published as: EP2892051A2; EP2892051B1; US20150194153A1; KR20150081981A; EP2892051A3; CN104765723A

Abstract

【課題】会議内容構造化装置を提供する。【解決手段】会議内容構造化装置は、音声を認識して、音声に対応するテキストを生成する音声認識部と、生成されたテキストを、主題によってクラスタリングし、１つ以上のクラスターを生成するクラスタリング部と、生成された各クラスターの概念を抽出する概念抽出部と、抽出された各概念のレベルを分析するレベル分析部と、分析結果に基づいて、各概念を構造化する構造化部と、を含む。【選択図】図１

Description

本発明は、会議内容構造化装置及び方法と関する。

業務において、会議が占める比重は非常に大きい。創意性が大きく強調及び奨励される競争時代である現在、アイディアは、多様な形態の会議を通じて生まれ、集められ、このような会議を効率的に行うための多様な技法やツールが提案されている。

一方、人間の頭脳は、音声で伝達される情報を理解または分析して、頭脳内で構造化して記憶するが、このような記憶は、反復的な学習や強い刺激ではない場合には、経時的に薄れることが一般的である。特に、予測しにくい内容が多様なレベルで展開されるアイディア会議の場合には、頭脳のみで会議内容と流れとを構造化するのには限界がある。「構造化（ｓｔｒｕｃｔｕｒｉｎｇ）」は、「構成」、「形成」、「構築」等と言及されてもよい。

本発明は、会議内容構造化装置及び方法を提供することである。

本発明の一態様による会議内容構造化装置は、音声を認識して、音声に対応するテキストを生成する音声認識部と、生成されたテキストを、主題によってクラスタリングして、１つ以上のクラスターを生成するクラスタリング部と、生成された各クラスターの概念（ｃｏｎｃｅｐｔ）を抽出する概念抽出部と、抽出された各概念のレベルを分析するレベル分析部と、分析結果に基づいて、前記各概念を構造化する構造化部と、を含みうる。

クラスタリング部は、生成されたテキストからキーワードを抽出し、該抽出されたキーワードに基づいてテキストを、主題によってクラスタリングすることができる。

クラスタリング部は、所定サイスのスライディングウィンドウのテキストに対してクラスタリングすることができる。

概念抽出部は、抽出された概念に基づいて各クラスターを表現する少なくとも１つの文句または文章を生成することができる。

レベル分析部は、あらかじめ構築されたオントロジーに基づいて、各概念のレベルを分析することができる。

構造化部は、上位レベル及び／または下位レベルの概念間の関係が表われるように、レベル別インデントを用いて構造化するインデント方式、または各概念をノードとし、上位レベル及び／または下位レベルの概念間の関係をエッジとするグラフで構造化するグラフ方式を用いて、各概念を構造化することができる。

会議内容構造化装置は、構造化された各概念をディスプレイするディスプレイ部をさらに含みうる。

会議内容構造化装置は、構造を変更するか、構造化された各概念の内容を変更して、構造化された各概念を修正する修正部をさらに含みうる。

会議内容構造化装置は、構造化された各概念を他の装置に伝送する通信部をさらに含みうる。

会議内容構造化装置は、音声の話者を識別する話者識別部をさらに含みうる。

本発明の他の態様による会議内容構造化方法は、音声を認識して、音声に対応するテキストを生成する段階と、生成されたテキストを、主題によってクラスタリングして、１つ以上のクラスターを生成する段階と、生成された各クラスターの概念を抽出する段階と、抽出された各概念のレベルを分析する段階と、分析結果に基づいて抽出された各概念を構造化する段階と、を含みうる。

クラスターを生成する段階は、生成されたテキストからキーワードを抽出する段階と、抽出されたキーワードに基づいてテキストを、主題によってクラスタリングする段階と、を含みうる。

クラスターを生成する段階は、所定サイスのスライディングウィンドウのテキストに対してクラスタリングすることができる。

概念を抽出する段階は、抽出された概念に基づいて生成された各クラスターを表現する少なくとも１つの文句または文章を生成することができる。

概念のレベルを分析する段階は、あらかじめ構築されたオントロジーに基づいて抽出された各概念のレベルを分析することができる。

各概念を構造化する段階は、上位レベル及び／または下位レベルの概念間の関係が表われるように、レベル別インデントを用いて構造化するインデント方式、または前記各概念をノードとし、前記上位レベル及び／または下位レベルの概念間の関係をエッジとするグラフで構造化するグラフ方式を用いて、各概念を構造化することができる。

会議内容構造化方法は、構造化された各概念をディスプレイする段階をさらに含みうる。

会議内容構造化方法は、構造を変更するか、構造化された各概念の内容を変更して、構造化された各概念を修正する段階をさらに含みうる。

会議内容構造化方法は、構造化された各概念を他の装置に伝送する段階をさらに含みうる。

会議内容構造化方法は、音声の話者を識別する段階をさらに含みうる。

会議内容構造化装置の一実施形態を示すブロック図である。制御部の一実施形態を示すブロック図である。制御部の他の実施形態を示すブロック図である。各概念をインデント形態で構造化して視覚化した例を示す図面である。各概念をグラフ形態で構造化して視覚化した例を示す図面である。会議内容構造化方法の一実施形態を示すフローチャートである。会議内容構造化方法の他の実施形態を示すフローチャートである。

次の詳細な説明は、本明細書に記載の方法、装置、及び／またはシステムの包括的な理解を助けるために提供される。しかし、本明細書に記載の方法、装置、及び／またはシステムの多様な変更、修正及び均等物は、当業者に明白である。説明された処理段階及び／または動作の進行は、一例に過ぎず、動作の順序は、本明細書に記載の例に限定されず、特定の順序で必須的に発生する段階及び／または動作を除いては変更されうる。また、当業者に公知の機能及び構造についての説明は、本発明の要旨を不明にする恐れがあるので、省略されうる。

本明細書に説明された特徴は、多様な形態として具現され、本明細書に記載の例に限定されるものと解釈されてはならない。

図１は、会議内容構造化装置１００の一実施形態を示すブロック図である。

図１を参照すれば、一実施形態による会議内容構造化装置１００は、音声入力部１１０、ユーザ入力部１２０、保存部１３０、ディスプレイ部１４０、制御部１５０、及び通信部１６０を含みうる。

音声入力部１１０は、ユーザの音声を入力される装置であって、会議内容構造化装置１００に内蔵されたマイクまたは会議内容構造化装置１００に連結可能な外部マイクなどを含みうる。

ユーザ入力部１２０は、ユーザから多様な操作信号を入力されて会議内容構造化装置１００の動作制御のための入力データを発生させることができる。ユーザ入力部１２０は、例えば、キーパッド（ｋｅｙｐａｄ）、ドームスイッチ（ｄｏｍｅｓｗｉｔｃｈ）、タッチパッド（ｔｏｕｃｈｐａｄ）（定圧／静電）、ジョグホイール（Ｊｏｇｗｈｅｅｌ）、ジョグスイッチ（Ｊｏｇｓｗｉｔｃｈ）、Ｈ／Ｗボタン、及び／または当業者に公知の他の装置などを含みうる。後述するように、タッチパッドがディスプレイ部１４０と相互レイヤ構造を成す場合、これをタッチスクリーンと言う。

保存部１３０は、会議内容構造化装置１００の機能遂行に必要なデータ及び機能遂行中に発生するデータを保存することができる。また、保存部１３０は、会議内容構造化装置１００の機能遂行結果データを保存することができる。保存部１３０は、本願により開示される方法の各ステップを会議内容構造化装置１００に実行させるコンピュータプログラムを保存する。そのようなコンピュータプログラムは、保存部１３０に予め保存されていてもよいし、或いは、必要に応じて通信部１６０を介してダウンロードされてもよい。

保存部１３０は、フラッシュメモリタイプ（ｆｌａｓｈｍｅｍｏｒｙｔｙｐｅ）、ハードディスクタイプ（ｈａｒｄｄｉｓｋｔｙｐｅ）、マルチメディアカードマイクロタイプ（ｍｕｌｔｉｍｅｄｉａｃａｒｄｍｉｃｒｏｔｙｐｅ）、カードタイプのメモリ（例えば、ＳＤまたはＸＤメモリなど）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｏｍｏｒｙ）、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、磁気メモリ、磁気ディスク、光ディスク、及び／または当業者に公知の記録媒体などを含みうる。また、保存部１３０は、別途の外部記録媒体をさらに含みうる。

ディスプレイ部１４０は、会議内容構造化装置１００で処理される情報をディスプレイすることができる。「ディスプレイする」は、「表示する」又は「表現する」等と言及されてもよい。また、後述するように、ディスプレイ部１４０は、会議内容構造化装置１００の機能遂行結果をディスプレイすることができる。

ディスプレイ部１４０は、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、薄膜トランジスタ液晶ディスプレイ（ＴｈｉｎＦｉｌｍＴｒａｎｓｉｓｔｏｒＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、有機発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）、フレキシブルディスプレイ（ＦｌｅｘｉｂｌｅＤｉｓｐｌａｙ）、３次元ディスプレイ（３ＤＤｉｓｐｌａｙ）、及び／または当業者に公知の他の装置などを含みうる。また、ディスプレイ部１４０は、２個以上のディスプレイを含みうる。

一方、ディスプレイ部１４０とタッチパッドが、相互レイヤ構造を成してタッチスクリーンで構成され、この場合、ディスプレイ部１４０は、出力装置以外に入力装置としても使われる。

制御部１５０は、会議内容構造化装置１００の全般的な動作を制御することができる。制御部１５０は、ユーザ入力部１２０から入力される入力信号によって会議内容構造化装置１００の機能を行い、機能遂行状態及び機能遂行結果などの情報をディスプレイ部１４０を通じて表示することができる。

また、制御部１５０は、ユーザが発話した音声を認識して生成されたテキストデータを主題別にクラスタリングし、各クラスターの概念のレベルを分析して構造化することができる。「レベル」は「階層」等と言及されてもよい。制御部１５０は、構造化された各概念をディスプレイ部１４０を通じてディスプレイすることができる。

制御部１５０に関する詳しい説明は、図２及び図３を参照して後述する。

通信部１６０は、無線インターネット、無線イントラネット、無線電話ネットワーク、無線ＬＡＮ、ワイファイ（Ｗｉ−Ｆｉ）ネットワーク、ワイファイダイレクト（Ｗｉ−ＦｉＤｉｒｅｃｔ）ネットワーク、３Ｇ（Ｇｅｎｅｒａｔｉｏｎ）ネットワーク、４Ｇ（Ｇｅｎｅｒａｔｉｏｎ）ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）ネットワーク、ブルートゥース（登録商標：Ｂｌｕｅｔｏｏｔｈ）ネットワーク、赤外線通信（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ：ＩｒＤＡ）ネットワーク、ＲＦＩＤ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ）ネットワーク、ＵＷＢ（ＵｌｔｒａＷｉｄｅＢａｎｄ）ネットワーク、ジグビー（登録商標：Ｚｉｇｂｅｅ）ネットワーク、ＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）ネットワーク、及び／または当業者に公知の他のネットワークのような有線または無線ネットワークを通じて他の装置とデータを送受信することができる。このために、通信部１６０は、移動通信モジュール、無線インターネットモジュール、有線インターネットモジュール、ブルートゥースモジュール、ＮＦＣモジュール、及び／または当業者に公知の他のモジュールなどを含みうるが、これらに限定されるものではない。

この場合、会議内容構造化装置１００は、通信部１６０を通じて個人別インタラクションが可能な他の装置（例えば、タブレットＰＣなど）に機能遂行結果を伝送することによって、機能遂行結果に他の装置とリアルタイムで共有することが可能である。

図２は、制御部１５０の一実施形態を示すブロック図である。

図２を参照すれば、一実施形態による制御部１５０は、音声認識部２１０、クラスタリング部２２０、概念抽出部２３０、レベル分析部２４０、及び構造化部２５０を含みうる。

音声認識部２１０は、音声入力部１１０を通じて入力されたユーザの音声を認識して、ユーザの音声に対応するテキストデータを生成することができる。

さらに具体的に、音声認識部２１０は、ＳＴＴ（ＳｐｅｅｃｈｔｏＴｅｘｔ）エンジンを用いて、ユーザの音声に対応するテキストデータを生成することができる。ＳＴＴエンジンは、従来に開示されている多様なＳＴＴアルゴリズムを用いて入力された音声信号をテキストに変換するためのモジュールである。

例えば、音声認識部２１０は、ユーザの音声内で、ユーザが発話した音声の開始と終了とを検出して、音声区間を判断することができる。さらに具体的に、音声認識部２１０は、入力された音声信号のエネルギーを計算し、該計算されたエネルギーによって音声信号のエネルギーレベルを分類して、動的プログラミングを通じて音声区間を検出することができる。そして、音声認識部２１０は、検出された音声区間内の音声信号で音響モデル（ＡｃｏｕｓｔｉｃＭｏｄｅｌ）に基づいて音声の最小単位である音素を検出して音素データを生成し、該生成された音素データにＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）確率モデルを適用して、ユーザの音声をテキストに変換することができる。しかし、このようなユーザの音声を認識する方法は、一実施形態に過ぎず、他の方法を通じてユーザの音声を認識することができる。

クラスタリング部２２０は、音声認識部２１０から生成されたテキストデータを主題別にクラスタリングすることができる。「主題（ｓｕｂｊｅｃｔ）」は「テーマ」、「題目」等と表現されてもよい。

一実施形態によれば、クラスタリング部２２０は、テキストデータから各文章別に主要キーワードを抽出し、該抽出されたキーワードに基づいて、各文章を類似主題の文章どうしでクラスタリングして、１つ以上のクラスターを生成することができる。この際、クラスタリング部２２０は、多様なキーワード抽出規則を用いてキーワードを抽出することができる。

例えば、クラスタリング部２２０は、各文章を構文分析（ｓｙｎｔａｃｔｉｃａｎａｌｙｓｉｓ）し、分析結果に基づいて名詞を各文章のキーワードとして抽出することができる。

また、クラスタリング部２２０は、出現頻度の高い単語または文句を、各文章のキーワードとして抽出することができる。「文句」は、「語句」、「フレーズ」、「言い回し」、「表現」等と言及されてもよい。出現頻度の高い単語または文句をキーワードとして抽出する場合、クラスタリング部２２０は、キーワード抽出対象文章の以前または以後の文章を参考することもでき、この際、参考する文章は、複数個であり得る。「文章」は１つ以上の文を含む。

しかし、前述した方法は、キーワードを抽出する多様な方法のうち１つを例示したものであり、従来に開示されている多様なキーワード抽出アルゴリズムを利用できる。

また、一実施形態によれば、音声データ及び音声データに基づいて生成されたテキストデータは、ストリームデータであり得るので、クラスタリング部２２０は、テキストデータを所定サイスのスライディングウィンドウ単位で管理することができる。すなわち、クラスタリング部２２０は、所定サイスのスライディングウィンドウに含まれたテキストデータを主題別にクラスタリングすることができる。

概念抽出部２３０は、クラスタリング部２２０から生成されたクラスター別に意味分析（ｓｅｍａｎｔｉｃａｎａｌｙｓｉｓ）を通じて概念を抽出し、該抽出された概念に基づいて各クラスターを表現する１つ以上の文句または文章を生成することができる。「概念（ｃｏｎｃｅｐｔ）」は、「コンセプト」、「観念」等と言及されてもよい。

一実施形態によれば、概念抽出部２３０は、文書要約（ｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎ）技法を用いて、各クラスターを表現する１つ以上の文句または文章を生成することができる。詳しくは、概念抽出部２３０は、クラスター内のテキストでそのクラスターを代表するほどの文章を抽出して再構成する抽出要約（ｅｘｔｒａｃｔｓｕｍｍａｒｉｚａｔｉｏｎ）方式及び抽出したキーワードなどを活用して文章を生成する生成要約（ａｂｓｔｒａｃｔｓｕｍｍａｒｉｚａｔｉｏｎ）方式を含む多様な文書要約技法を用いて、各クラスターを表現する１つ以上の文句または文章を生成することができる。

レベル分析部２４０は、抽出された各概念のレベルを分析することができる。この際、各概念のレベルは、上位レベル及び／または下位レベル概念間の関係を意味する。一例として、概念は、「上位」であるほど一般的又は包括的な内容に対応する。一例として、概念は、「下位」であるほど個別的又は具体的な内容に対応する。

一実施形態によれば、レベル分析部２４０は、概念の階層構造で構成されたオントロジー（ｏｎｔｏｌｏｇｙ）に基づいて、各概念のレベルを分析することができる。この際、オントロジーは、会議内容構造化装置１００にあらかじめ構築されており、会議内容構造化装置１００の外部サーバにあらかじめ構築されている。

オントロジーが会議内容構造化装置１００の外部サーバにあらかじめ構築されている場合、レベル分析部２４０は、通信部１６０を通じて、外部サーバと通信することができる。すなわち、レベル分析部２４０は、通信部１６０を通じて外部サーバに概念のレベル分析を要請し、外部サーバから概念のレベル分析結果を受信することができる。この場合、外部サーバは、概念のレベル分析要請を受信して、あらかじめ構築されたオントロジーに基づいて概念のレベルを分析して、その結果を通信部１６０を通じてレベル分析部２４０に伝送しうる。

構造化部２５０は、レベル分析部２４０の分析結果に基づいて、各概念を構造化することができる。一実施形態によれば、構造化部２５０は、上位レベル及び／または下位レベル概念間の関係が表われるように、各概念を構造化することができる。

例えば、構造化部２５０は、インデント方式、グラフ方式などを用いて各概念を構造化することができる。ここで、インデント方式は、書式ある文字列の形態で文頭とレベル別インデントとを通じて構造化する方式を言い、グラフ方式は、ノードとエッジとを含むグラフを利用して構造化する方式を言う。

これに関する詳しい説明は、図４を参照して後述する。

図３は、制御部１５０の他の実施形態を示すブロック図である。図３を参照すれば、制御部１５０は、話者識別部３１０、修正部３２０をさらに含みうる。ここで、図２に登場する要素と同一の参照符号は、同じ要素を表わすので、その詳細な説明を省略する。

話者識別部３１０は、入力された音声を分析して話者を識別することができる。

一実施形態によれば、話者識別部３１０は、入力された音声から音声特徴を抽出し、該抽出された音声特徴に基づいて入力された音声の話者を識別することができる。

他の実施形態によれば、話者識別部３１０は、あらかじめ生成された話者認識モデルを通じて入力された音声の話者を識別することが可能である。この際、話者認識モデルは、ユーザの音声から抽出された音声特徴を学習させてあらかじめ生成されたモデルであって、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）など多様なモデル生成技法を用いて生成されうる。

一方、図３は、話者識別部３１０及び音声認識部２１０を別個の構成部で区別して別個の機能を行うものと説明したが、これに限定されるものではなく、話者識別部３１０及び音声認識部２１０の機能をいずれも行う１つの構成部で具現されることもある。

修正部３２０は、ユーザの命令に基づいて構造化された各概念を修正することができる。例えば、修正部３２０は、ユーザ入力部１２０を通じて入力されたユーザの命令を受信して、構造を変更するか、各概念の内容を変更して、構造化された各概念を修正することができる。これを通じて、ユーザは、構造化された会議内容を修正することが可能である。

図３または図４に示された、制御部１５０は、プログラムコードの集合及びプログラムコードを実行するマイクロプロセッサとして具現可能である。

図４Ａは、各概念をインデント形態で構造化して視覚化した例を示す図面である。図４Ａを参照すれば、制御部１５０は、各概念のレベル、すなわち、上位レベル及び／または下位レベルの概念間の関係が表われるように、レベル別インデントを用いて各概念を構造化することができる。

この際、書式は、あらかじめ設定され、上位レベル概念は、下位レベル概念に比べて、文字サイズが大きく、濃く表示される。また、ユーザの命令に基づいて各概念を修正できるように、修正位置を表わすフレームカーソル４１０が共に表示される。

しかし、これは、一例に過ぎ、これに限定されるものではない。

図４Ｂは、各概念をグラフ形態で構造化して視覚化した例を示す図面である。図４Ｂを参照すれば、制御部１５０は、各概念のレベル、すなわち、上位レベル及び／または下位レベルの概念間の関係が表われるように、ノードとエッジとで構成されたグラフ形態で各概念を構造化することができる。この際、各ノードは、各概念を表わし、エッジは、上位レベル及び／または下位レベルの概念間の関係を表わすことができる。また、ユーザの命令に基づいて各概念を修正できるように、修正位置を表わすフレームカーソル４１０が共に表示される。

一方、図４Ａ及び図４Ｂを説明するに当って、構造化された各概念を視覚化する時、各概念を修正できるように、修正位置を表わすフレームカーソルが共に表示されるものと説明したが、これに限定されるものではなく、カーソルまたはポインターなどを表示しても良い。

また、フレームカーソルをディスプレイする場合には、フレームカーソルを直線、波線、１点鎖線、２点鎖線など多様な形状及び色彩で表示し、フレームカーソルをハイライトで表示するか、表示されるカーソルが一定周期で徐々に表われて消える形式で表示することもできる。

一方、前述した各概念を修正できるように、修正位置を識別するための方法は、一実施形態に過ぎず、多様な方法を使うことができる。また、前述した方法は、ユーザによって変更されうる。

図５は、会議内容構造化方法の一実施形態を示すフローチャートである。図５を参照すれば、一実施形態による会議内容構造化方法は、ユーザの音声を認識して、ユーザの音声に対応するテキストデータを生成する（５１０）。例えば、会議内容構造化装置１００は、ＳＴＴエンジンを用いて、ユーザの音声に対応するテキストデータを生成することができる。

次いで、生成されたテキストデータを主題別にクラスタリングして、１つ以上のクラスターを生成する（５２０）。例えば、会議内容構造化装置１００は、テキストデータの各文章から主要キーワードを抽出し、該抽出されたキーワードに基づいて、各文章を類似主題の文章どうしでクラスタリングして、１つ以上のクラスターを生成することができる。この際、会議内容構造化装置１００は、図２を参照して前述したように、多様なキーワード抽出規則を用いてテキストデータの各文章からキーワードを抽出することができる。

また、音声データ及び音声データに基づいて生成されたテキストデータは、ストリームデータであり得るので、会議内容構造化装置１００は、テキストデータを所定サイスのスライディングウィンドウ単位で管理することができる。すなわち、会議内容構造化装置１００は、所定サイスのスライディングウィンドウに含まれたテキストデータを主題別にクラスタリングすることができる。

次いで、クラスター別に概念を抽出し、該抽出された概念に基づいて各クラスターを表現する１つ以上の文句または文章を生成する（５３０）。例えば、会議内容構造化装置１００は、意味分析を通じて各クラスターの概念を抽出し、該抽出された概念に基づいて各クラスターを表現する１つ以上の文句または文章を生成することができる。この際、会議内容構造化装置１００は、多様な文書要約技法を利用できる。

次いで、各概念のレベルを分析する（５４０）。例えば、会議内容構造化装置１００は、概念の階層構造で構成されたオントロジーに基づいて、各概念のレベルを分析することができる。

次いで、段階５４０の分析結果に基づいて上位レベル及び／または下位レベルの概念間の関係が表われるように、各概念を構造化することができる。例えば、会議内容構造化装置１００は、インデント方式、グラフ方式などを用いて各概念を構造化することができる。ここで、インデント方式は、図４Ａ、グラフ方式は、図４Ｂを参照して前述した通りである。

図６は、会議内容構造化方法の他の実施形態を示すフローチャートである。図６を参照すれば、他の実施形態による会議内容構造化方法は、入力された音声を分析して入力された音声の話者を識別する段階（５０５）をさらに含みうる。例えば、会議内容構造化装置１００は、ユーザの入力音声から音声特徴を抽出し、該抽出された音声特徴に基づいて入力された音声の話者を識別することができる。

また、会議内容構造化方法は、構造化された各概念をディスプレイする段階（５５２）をさらに含みうる。例えば、会議内容構造化装置１００は、構造化された各概念をディスプレイすることができる。

また、会議内容構造化方法は、構造化された各概念を他の外部装置に伝送する段階（５５４）をさらに含みうる。例えば、会議内容構造化装置１００は、構造化された各概念を他の装置に伝送しうる。これを通じて、会議内容構造化装置１００が、構造化した会議内容を個人別インタラクションが可能な他の装置（例えば、タブレットＰＣなど）とリアルタイムで共有することができる。

また、会議内容構造化方法は、ユーザの命令に基づいて構造化された各概念を修正する段階（５５６）をさらに含みうる。例えば、会議内容構造化装置１００は、構造を変更するか、各概念の内容を変更して、構造化された各概念を修正することができる。

前述した多様なモジュール、要素、及び方法は、１つ以上のハードウェア構成要素、１つ以上のソフトウェア構成要素、または１つ以上のハードウェア構成要素、及び１つ以上のハードウェア構成要素の組合わせで具現可能である。

ハードウェア構成要素は、例えば、１つ以上の動作を物理的に行う物理的装置であり得るが、これに限定されるものではない。ハードウェア構成要素の例は、マイクロホン、増幅器、ローパスフィルター、ハイパスフィルター、バンドパスフィルター、アナログ−デジタルコンバータ、デジタル−アナログコンバータ、及び処理装置を含む。

ソフトウェア構成要素は、例えば、１つ以上の動作を行うためのソフトウェアまたはインストラクションによって制御される処理装置によって具現可能であるが、これに限定されるものではない。１つのソフトウェア構成要素は、１つの処理装置、１つの処理装置によって具現可能な２つ以上のソフトウェア構成要素、２つ以上の処理装置によって具現可能な１つのソフトウェア構成要素、または２つ以上の処理装置によって具現可能な２つ以上のソフトウェア構成要素で具現可能である。

処理装置は、１つ以上の汎用または特殊目的のコンピュータ、例えば、プロセッサ、コントローラとＡＬＵ（ＡｒｉｔｈｍｅｔｉｃＬｏｇｉｃＵｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＰＬＵ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＵｎｉｔ）、マイクロプロセッサ、またはソフトウェアを駆動するか、命令語を実行する任意の他の装置で具現可能である。処理装置は、運用体制（ＯＳ）を駆動し、運用体制で動作する１つ以上のソフトウェアアプリケーションを駆動することができる。処理装置は、ソフトウェアを駆動するか、命令語を実行する時、データに接近し、データを保存、操作、処理、及び生成することができる。説明の便宜上、本明細書で処理装置として使われるが、当業者は、処理装置は複数の処理要素及び複数の処理要素のタイプを含むということを理解できる。例えば、処理装置は、１つ以上のプロセッサ、または１つ以上のプロセッサと１つ以上のコントローラとを含みうる。また、並列プロセッサまたはマルチコアプロセッサのように異なるプロセッシング構成も可能である。

動作Ａを行うソフトウェア構成要素を具現するように構成された処理装置は、動作Ａを行うようにプロセッサを制御するために、ソフトウェアを駆動するか、命令語を実行するようにプログラミングされたプロセッサを含みうる。また、動作Ａ、動作Ｂ、及び動作Ｃを行うソフトウェア構成要素を具現するように構成された処理装置は、多様な構成を有しうる。例えば、処理装置は、動作Ａ、Ｂ、及びＣを行うソフトウェア構成要素を具現するように構成されたプロセッサ；動作Ａを行うソフトウェア構成要素を具現するように構成された第１プロセッサ、及び動作Ｂ及びＣを行うソフトウェア構成要素を具現するように構成された第２プロセッサ；動作Ａ及びＢを行うソフトウェア構成要素を具現するように構成された第１プロセッサ、及び動作Ｃを行うソフトウェア構成要素を具現するように構成された第２プロセッサ；動作Ａを行うソフトウェア構成要素を具現するように構成された第１プロセッサ、動作Ｂを行うソフトウェア構成要素を具現するように構成された第２プロセッサと、動作Ｃを行うソフトウェア構成要素を具現するように構成された第３プロセッサ；動作Ａ、Ｂ、及びＣを行うソフトウェア構成要素を具現するように構成された第１プロセッサと、動作Ａ、Ｂ、及びＣを行うソフトウェア構成要素を具現するように構成された第２プロセッサ；または動作Ａ、Ｂ、及びＣのうち１つ以上を行うように具現された１つ以上のプロセッサの任意の他の構成を有しうる。以上、３種の動作Ａ、Ｂ、及びＣに関する例について説明したが、具現される動作の数は、３種に限定されず、所望の結果を果たすか、所望の作業を行うのに必要な動作の個数は多様である。

ソフトウェア構成要素を具現する処理装置を制御するためのソフトウェアまたは命令語は、個別的または集合的に指示（ｉｎｓｔｒｕｃｔｉｎｇ）するか、１つ以上の所望の動作を行う処理装置を構成するために、コンピュータプログラム、コードセグメント、命令語またはこれらの組合わせを含みうる。ソフトウェアまたは命令語は、コンパイラによって生成されたマシンコード及び／またはインタプリタを用いて処理装置によって実行可能なハイレベルコードのような、処理装置によって直接実行可能なマシンコードを含みうる。ソフトウェアまたは命令語と、任意の関連データ、データファイル及びデータ構造は、機械、構成要素、物理的または仮想的装備、コンピュータ記録媒体または装置、または処理装置によって解釈されるか、解釈されうる命令語またはデータを提供することができる伝播された信号波形（ｐｒｏｐａｇａｔｅｄｓｉｇｎａｌｗａｖｅ）のうち、任意の類型で永久的または一時的に具現可能である。ソフトウェアまたは命令語と、任意の関連データ、データファイル、データ構造は、また分散された方式で保存及び実行されるようにネットワークで連結されたコンピュータシステム（ｎｅｔｗｏｒｋ−ｃｏｕｐｌｅｄｃｏｍｐｕｔｅｒｓｙｓｔｅｍｓ）に分散されうる。

例えば、ソフトウェアまたは命令語と、任意の関連データ、データファイル、データ構造は、１つ以上の非一時的なコンピュータ可読記録媒体（ｎｏｎ−ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒ−ｒｅａｄａｂｌｅｓｔｏｒａｇｅｍｅｄｉａ）に記録、保存または固定されうる。非一時的なコンピュータ可読記録媒体は、ソフトウェアまたは命令語と、任意の関連データ、データファイル、データ構造をコンピュータシステムまたは処理装置が読み取り可能に保存することができる任意のデータ保存装置であり得る。例えば、非一時的なコンピュータ可読記録媒体は、ＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ−ＡｃｃｅｓｓＭｅｍｏｒｙ）、ＦｌａｓｈＭｅｍｏｒｙ、ＣＤ−ＲＯＭｓ、ＣＤ−Ｒｓ、ＣＤ＋Ｒｓ、ＣＤ−ＲＷｓ、ＣＤ＋ＲＷｓ、ＤＶＤ−ＲＯＭｓ、ＤＶＤ−Ｒｓ、ＤＶＤ＋Ｒｓ、ＤＶＤ−ＲＷｓ、ＤＶＤ＋ＲＷｓ、ＤＶＤ−ＲＡＭｓ、ＢＤ−ＲＯＭｓ、ＢＤ−Ｒｓ、ＢＤ−ＲＬＴＨｓ、ＢＤ−Ｒｅｓ、磁気テープ、フロッピー（登録商標）ディスク、磁気光学データ保存装置（Ｍａｇｎｅｔｏ−ＯｐｔｉｃａｌＤａｔａＳｔｏｒａｇｅＤｅｖｉｃｅｓ）、光データ保存装置、ハードディスク、ＳＳＤ（Ｓｏｌｉｄ−ＳｔａｔｅＤｉｓｋｓ）、または当業者に周知の任意の他の非一時的なコンピュータ可読記録媒体を含みうる。

本明細書に開示された実施形態を具現するための機能的なプログラム、コード、及びコードセグメントは、本明細書から提供される図面及びそれに対応する説明に基づいて、当該技術分野で熟練されたプログラマーによって容易に構成することができる。

非限定的な例示として、本明細書で説明される装置は、携帯電話、スマートフォン、ウェアラブルスマート装置（例えば、指輪、時計、メガネ、腕輪、足首ブラケット（ａｎｋｌｅｂｒａｃｋｅｔ）、ベルト、ネックレス、イヤリング、へアバンド、ヘルメット、衣服に含まれた装置など）、パソコン（ＰＣ）、タブレットＰＣ（タブレット）、ファブリック、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、デジタルカメラ、携帯用ゲーム機、ＭＰ３プレーヤー、携帯用／個人用マルチメディアプレーヤー（ＰＭＰ）、携帯用電子ブック、ＵＭＰＣ（Ｕｌｔｒａ−ＭｏｂｉｌｅＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、携帯用ラップトップＰＣ、ＧＰＳナビゲーションのようなモバイル装置と、ＨＤＴＶ（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＴｅｌｅＶｉｓｉｏｎ）、光ディスクプレーヤー、ＤＶＤプレーヤー、ブルーレイプレーヤー、セットアップボックスのような装置、または本明細書で説明されたものと一致する無線通信またはネットワーク通信が可能な任意の他の装置に適用可能である。非限定的な例で、ウェアラブル装置は、メガネや腕輪のようにユーザの身体に自己装着が可能である。さらに他の非限定的な例で、ウェアラブル装置は、アームバンドを使ってスマートフォンまたはタブレットをユーザの腕に付着するか、紐を用いてウェアラブル装置をユーザの首にかけることができるなど付着装置を通じてユーザの身体に装着されうる。

本発明は、具体的な実施形態を含むが、特許請求の範囲及び均等範囲を外れずに、形態及び細部事項での多様な変更が、本実施形態で実施可能であるということは当業者に明白である。本明細書で説明される実施形態は、限定的な観点ではなく、説明的な観点で考慮されなければならない。各実施形態での特徴または態様についての説明は、類似した特徴または態様の他の例に適用可能であると見なされなければならない。説明された技術が、他の順序で行われる場合、及び／または説明されたシステム、構造、装置、または回路の構成要素が異なる方式で組合わせられるか、他の構成要素またはそれらの等価物によって置き換えまたは補充される場合に、同じ結果が得られる。したがって、発明の範囲は、詳細な説明ではない、特許請求の範囲及びその均等物によって定義され、特許請求の範囲及びその均等物の範囲内でのあらゆる変形は、本発明に含まれると解釈されねばならない。

１００会議内容構造化装置
１１０音声入力部
１２０ユーザ入力部
１３０保存部
１４０ディスプレイ部
１５０制御部
１６０通信部

Claims

音声を認識し、前記音声に対応するテキストを生成する音声認識部と、
生成されたテキストを、主題によってクラスタリングすることにより、１つ以上のクラスターを生成するクラスタリング部と、
生成された各クラスターの概念を抽出する概念抽出部と、
抽出された各概念のレベルを分析するレベル分析部と、
分析結果に基づいて、前記各概念を構造化する構造化部と、
を含む会議内容構造化装置。
前記クラスタリング部は、前記生成されたテキストからキーワードを抽出し、該抽出されたキーワードに基づいて、前記テキストを、主題によってクラスタリングする請求項１に記載の会議内容構造化装置。
前記クラスタリング部は、所定サイスのスライディングウィンドウのテキストに対してクラスタリングする請求項１又は２に記載の会議内容構造化装置。
前記概念抽出部は、前記抽出された概念に基づいて各クラスターを表現する少なくとも１つのフレーズまたは文を生成する請求項１〜３のうち何れか一項に記載の会議内容構造化装置。
前記レベル分析部は、あらかじめ構築されたオントロジーに基づいて、前記各概念のレベルを分析する請求項１〜４のうち何れか一項に記載の会議内容構造化装置。
前記構造化部は、上位レベル及び／または下位レベルの概念間の関係が表われるように、レベル別インデントを用いて構造化するインデント方式、または前記各概念をノードとし、前記上位レベル及び／または下位レベルの概念間の関係をエッジとするグラフで構造化するグラフ方式を用いて、前記各概念を構造化する請求項１〜５のうち何れか一項に記載の会議内容構造化装置。
前記構造化された各概念を表示するディスプレイ部をさらに含む請求項１〜６のうち何れか一項に記載の会議内容構造化装置。
構造を変更することにより又は構造化された各概念の内容を変更することにより、構造化された各概念を修正する修正部をさらに含む請求項１〜７のうち何れか一項に記載の会議内容構造化装置。
前記構造化された各概念を他の装置に伝送する通信部をさらに含む請求項１〜８のうち何れか一項に記載の会議内容構造化装置。
前記音声の話者を識別する話者識別部をさらに含む請求項１〜９のうち何れか一項に記載の会議内容構造化装置。
音声を認識し、前記音声に対応するテキストを生成する段階と、
生成されたテキストを、主題によってクラスタリングすることにより、１つ以上のクラスターを生成する段階と、
前記生成された各クラスターの概念を抽出する段階と、
抽出された各概念のレベルを分析する段階と、
分析結果に基づいて、前記抽出された各概念を構造化する段階と、
を含む会議内容構造化方法。
前記クラスターを生成する段階は、
前記生成されたテキストからキーワードを抽出する段階と、
抽出されたキーワードに基づいて、前記テキストを、主題によってクラスタリングする段階と、
を含む請求項１１に記載の会議内容構造化方法。
前記クラスターを生成する段階は、所定サイスのスライディングウィンドウのテキストに対してクラスタリングする請求項１１又は１２に記載の会議内容構造化方法。
前記概念を抽出する段階は、前記抽出された概念に基づいて生成された各クラスターを表現する少なくとも１つのフレーズまたは文を生成する請求項１１〜１３のうち何れか一項に記載の会議内容構造化方法。
前記概念のレベルを分析する段階は、あらかじめ構築されたオントロジーに基づいて、前記抽出された各概念のレベルを分析する請求項１１〜１４のうち何れか一項に記載の会議内容構造化方法。
前記各概念を構造化する段階は、上位レベル及び／または下位レベルの概念間の関係が表われるように、レベル別インデントを用いて構造化するインデント方式、または前記各概念をノードとし、前記上位レベル及び／または下位レベルの概念間の関係をエッジとするグラフで構造化するグラフ方式を用いて、前記各概念を構造化する請求項１１〜１５のうち何れか一項に記載の会議内容構造化方法。
前記構造化された各概念を表示する段階をさらに含む請求項１１〜１６のうち何れか一項に記載の会議内容構造化方法。
構造を変更することにより又は構造化された各概念の内容を変更することにより、構造化された各概念を修正する段階をさらに含む請求項１１〜１７のうち何れか一項に記載の会議内容構造化方法。
前記構造化された各概念を他の装置に伝送する段階をさらに含む請求項１１〜１８のうち何れか一項に記載の会議内容構造化方法。
前記音声の話者を識別する段階をさらに含む請求項１１〜１９のうち何れか一項に記載の会議内容構造化方法。
請求項１１〜２０のうちの何れか一項に記載の会議内容構造化方法を会議内容構造化装置に実行させるコンピュータプログラム。