JP2020126631A - 文書に対してイベントのラベル付けを行う装置及び方法、並びに記録媒体 - Google Patents
文書に対してイベントのラベル付けを行う装置及び方法、並びに記録媒体 Download PDFInfo
- Publication number
- JP2020126631A JP2020126631A JP2020008295A JP2020008295A JP2020126631A JP 2020126631 A JP2020126631 A JP 2020126631A JP 2020008295 A JP2020008295 A JP 2020008295A JP 2020008295 A JP2020008295 A JP 2020008295A JP 2020126631 A JP2020126631 A JP 2020126631A
- Authority
- JP
- Japan
- Prior art keywords
- sentences
- sentence
- keyword
- clustering
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 description 9
- 241001653634 Russula vesca Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009916 joint effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】文書に対してイベントのラベル付けを行う装置、方法及び記録媒体を提供する。
【解決手段】装置100は、各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出部102と、指定カテゴリに属する文書から、指定カテゴリについて抽出された任意のキーワードを含む複数の文を抽出する文抽出部104と、抽出された複数の文間の類似度に基づいて、複数の文をクラスタリングするクラスタリング部106と、各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された所定数の文においてイベント情報のラベル付けを行う選択部108と、各クラスタリング後の文グループについて、選択された所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチング部110と、を含む。
【選択図】図1
【解決手段】装置100は、各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出部102と、指定カテゴリに属する文書から、指定カテゴリについて抽出された任意のキーワードを含む複数の文を抽出する文抽出部104と、抽出された複数の文間の類似度に基づいて、複数の文をクラスタリングするクラスタリング部106と、各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された所定数の文においてイベント情報のラベル付けを行う選択部108と、各クラスタリング後の文グループについて、選択された所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチング部110と、を含む。
【選択図】図1
Description
本開示は、情報抽出及び自然言語処理の分野に関し、具体的には、文書に対してイベントのラベル付けを行う装置及び方法、並びにコンピュータ読み取り可能な記録媒体に関する。
イベントは、特定の時点又は期間に、特定の地域範囲内で、1つ又は複数のキャラクタが関与する1つ又は複数の動作により構成された事件又は状態の変更を意味する。本明細書では、イベントは、文書の構成要素である。文書におけるイベントに対する認識は、文書の内容を理解するために重要である。
テキストにおけるイベントに対する認識は、イベントの記述段落の認識、イベントのトリガ単語の認識、及びイベント要素の認識を含む。イベント認識は、イベントに基づいてコーパスをラベル付けする必要があり、コーパスの規模及びカバーされるイベントの種類はイベント認識の性能に影響する重要な要因である。しかし、文書に含まれるイベントが多様であり、イベントの表現もよく変わるため、手動のラベル付けは、全ての種類のイベントをカバーすることができず、ラベル付けの全体的な規模を拡大しにくい。コーパスの不足は、文書のイベントに対する認識の性能の向上を制限している。
以下は、本開示の態様を基本的に理解させるために、本開示の簡単な概要を説明する。なお、この簡単な概要は、本開示を網羅的な概要ではなく、本開示のポイント又は重要な部分を意図的に特定するものではなく、本開示の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
上記の問題点を鑑み、本開示は、従来技術の1つ又は複数の欠点を解決することができる、文書に対してイベントのラベル付けを行う装置及び方法、並びにコンピュータ読み取り可能な記録媒体を提供することを目的とする。
本開示の1つの態様では、文書に対してイベントのラベル付けを行う装置であって、少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出部と、前記少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、前記指定カテゴリについて抽出された前記少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する文抽出部であって、前記少なくとも1つのキーワードのうちの各キーワードはイベントのトリガ単語として用いられ、前記複数の文のうちの各文はイベント言及として用いられる、文抽出部と、前記指定カテゴリに属する文書について抽出された前記複数の文間の類似度に基づいて、前記複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成するクラスタリング部と、各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された前記所定数の文においてイベント情報のラベル付けを行う選択部と、各クラスタリング後の文グループについて、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチング部と、を含む、装置を提供する。
本開示のもう1つの態様では、文書に対してイベントのラベル付けを行う方法であって、少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出ステップと、前記少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、前記指定カテゴリについて抽出された前記少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する文抽出ステップであって、前記少なくとも1つのキーワードのうちの各キーワードはイベントのトリガワードとして用いられ、前記複数の文のうちの各文はイベント言及として用いられる、文抽出ステップと、前記指定カテゴリに属する文書について抽出された前記複数の文の類似度に基づいて、前記複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成するクラスタリングステップと、各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された前記所定数の文においてイベント情報のラベル付けを行う選択ステップと、各クラスタリング後の文グループについて、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチングステップと、を含む、方法を提供する。
本開示のもう1つの態様では、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記プログラムは、コンピュータに、少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出ステップと、前記少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、前記指定カテゴリについて抽出された前記少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する文抽出ステップであって、前記少なくとも1つのキーワードのうちの各キーワードはイベントのトリガワードとして用いられ、前記複数の文のうちの各文はイベント言及として用いられる、文抽出ステップと、前記指定カテゴリに属する文書について抽出された前記複数の文の類似度に基づいて、前記複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成するクラスタリングステップと、各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された前記所定数の文においてイベント情報のラベル付けを行う選択ステップと、各クラスタリング後の文グループについて、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチングステップと、を実行させる、記録媒体を提供する。
本開示の他の態様では、上記本開示の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラムプロダクトをさらに提供する。
以下は、本開示の実施例の他の態様を説明し、特に本開示の好ましい実施例を詳細に説明するが、本開示はこれらの実施例に限定されない。
本開示の原理及び利点を理解させるために、図面を参照しながら本開示の各実施例を説明する。全ての図面において、同一又は類似の符号で同一又は類似の構成部を示している。ここで説明される図面は、好ましい実施例を例示するためのものであり、全ての可能な実施例ではなく、本開示の範囲を限定するものではない。
本開示の実施例に係る文書に対してイベントのラベル付けを行う装置の機能的構成の例を示すブロック図である。
本開示の実施例に係る第1グループのクラスタリング結果における第1文と第2文との位置合わせ結果の例を示す図である。
本開示の実施例に係る文書に対してイベントのラベル付けを行う方法の流れの例を示すフローチャートである。
本開示の実施例に適用可能なパーソナルコンピュータの例示的な構成を示すブロック図である。
以下、図面を参照しながら本開示の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。
なお、本開示を明確にするために、図面には本開示に密に関連する装置の構成要件又は処理のステップのみが示され、本開示と関係のない細部が省略されている。
以下は、図面を参照しながら、本開示の実施例を詳細に説明する。
まず、図1を参照しながら、本開示の実施例に係る文書に対してイベントのラベル付けを行う装置100を説明する。図1は本開示の実施例に係る文書に対してイベントのラベル付けを行う装置100の機能的構成の例を示すブロック図である。図1に示すように、本開示の実施例に係る文書に対してイベントのラベル付けを行う装置100は、キーワード抽出部102、文抽出部104、クラスタリング部106、選択部108、及びマッチング部110を含む。
キーワード抽出部102は、少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出してもよい。
具体的には、文書は、中国語、英語、日本語などの言語の文書であってもよく、同一のカテゴリに属する文書が類似の構造を有すればよい。具体的には、同一のカテゴリに属する文書は、大量の同一のイベントを含む。
例えば、文書は裁判文書であってもよいが、これに限定されない。一例として、中国語の裁判文書では、イベントは文書の構成要素であり、当事者により陳述された主な内容は判決の基礎となる。しかし、裁判文書におけるイベントは多様であり、社会生活の略全ての分野に関連する。コーパスの不足は、裁判文書のイベントに対する認識の性能の向上を制限している。
好ましくは、該少なくとも2つのカテゴリのうちの各カテゴリに属する文書は、裁判文書の事由に基づいて文書を分類して取得される。
同一の事由に属する裁判文書は大量の同一のイベントを含むため、事由に基づいて文書を分類することで、異なるカテゴリを有する文書を区別することができる。具体的には、例えば文書の名称又は要約から事由を取得してもよい。一例として、事由に基づいて裁判文書を分類し、同一の事由に属する裁判文書を同一の種類に分けてもよい。
民事訴訟における婚姻家族紛争を一例にすると、婚姻家族紛争の事由は、離婚紛争、婚姻無効紛争、婚姻契約財産紛争などを含む。同一の事由を有する文書を同一のカテゴリに分類すると、婚姻家族紛争の裁判文書は19個のカテゴリに分類される。
好ましくは、キーワード抽出部102は、話題単語モデル(topic word model)により、各カテゴリに属する文書から該少なくとも1つのキーワードを抽出してもよい。
例えば、話題単語モデルは、LDA(Latent Dirichlet Allocation)文書本体モデルであってもよいが、これに限定されない。
好ましくは、キーワード抽出部102は、話題単語モデルにより各カテゴリに属する文書を比較し、各カテゴリに属する文書から該少なくとも1つのキーワードを抽出してもよい。よって、少なくとも2つのカテゴリの文書が必要である。
上記の婚姻家族紛争の裁判文書の19個のカテゴリを一例にすると、話題単語モデルを用いて各カテゴリに属する裁判文書を比較し、各カテゴリのキーワードの集合を取得してもよい。一例として、離婚紛争に含まれるキーワードは、「浮気」、「性格の不一致」、「家庭内暴力」などを含んでもよい。
なお、話題単語モデルに加えて、ニューラルネットワーク構造を用いて各カテゴリのキーワードの集合を抽出してもよい。また、他の方法を用いて各カテゴリのキーワードの集合を抽出してもよいが、ここでその説明を省略する。
文抽出部104は、該少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、指定カテゴリについて抽出された該少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出してもよい。ここで、該少なくとも1つのキーワードのうちの各キーワードはイベントのトリガ単語として用いられ、複数の文のうちの各文はイベント言及として用いられる。
キーワードをイベントのトリガ単語として用い、複数の文のうちの各文をイベント言及として用いることで、テキストにおける主要なイベントを認識することができる。
好ましくは、指定カテゴリは、該少なくとも2つのカテゴリの全てのカテゴリを含む。具体的には、該少なくとも2つのカテゴリのうちの各カテゴリの文書から、該カテゴリについて抽出された該少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する。しかし、当業者が理解できるように、該少なくとも2つのカテゴリのうちの指定された1つ又は複数のカテゴリの文書から、該カテゴリについて抽出された該少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出し、該複数の文について後続処理を行ってもよい。
クラスタリング部106は、指定カテゴリに属する文書について抽出された複数の文間の類似度に基づいて、複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成してもよい。
上述したように、同一のカテゴリに属する文書は大量の同一のイベントを含むため、クラスタリング後の文グループは、同一のイベントを記述する大量の文を含む。
好ましくは、本開示の実施例に係る文書に対してイベントのラベル付けを行う装置100は、一般化部をさらに含む。該一般化部は、指定カテゴリの文書について抽出された複数の文における名称エンティティをタイプ名称に置き換え、複数の文に対して一般化処理を行ってもよい。また、クラスタリング部106は、一般化処理後の複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成してもよい。
一例として、一般化部は、指定カテゴリの文書について抽出された複数の文における例えば人名、地名、時間などの名称エンティティを識別し、人名、地名及び時間などの名称エンティティをタイプ名称であるperson、place及びtimeにそれぞれ一般化し、文に対して一般化処理を行ってもよい。
好ましくは、クラスタリング部106は、複数の文の文ベクトル間の類似度に基づいて、複数の文をクラスタリングしてもよい。ここで、文ベクトルは、単語ベクトルに基づいて計算される。
具体的には、クラスタリング部106は以下のように各文をベクトル化してもよい。まず、各文を単語に分割し、そして、単語の単語ベクトルを加算して平均値を求めて、該文の文ベクトルを取得する。クラスタリング部106は、複数の文の文ベクトル間の類似度を計算し、複数の文をクラスタリングする。
なお、文ベクトル間の類似度以外の類似度を用いて複数の文をクラスタリングしてもよいが、ここでその説明を省略する。
上述した離婚紛争に関して、キーワード「浮気」を一例にすると、文書から以下の文を抽出し、文をクラスタリングした後に以下の2つのグループのクラスタリング結果(各グループは3つの文を含む)を取得してもよい。
(第1グループのクラスタリング結果)
1.1:「本裁判所は、既存の証拠に基づいて、原告が被告により主張された浮気をしたことを証明できないと認定している。」
1.2:「本事件において、原告は被告が浮気をしたことを理由として被告との離婚を請求したが、原告が浮気をしたことを証明できる証拠はない。」
1.3:「両当事者は相手が浮気をしたと疑っているが、それを十分に証明できる証拠はない。」
(第2グループのクラスタリング結果)
2.1:「原告は、被告が浮気をしたことによる夫婦間の性格の不一致を理由として、夫婦共同財産を被告に少なく分割すべきであると主張した。」
2.2:「原告の張氏は、被告の石氏が浮気をしたと主張し、法廷においてそれを裏付ける14枚の写真を提出した。」
2.3:「夫婦関係にも関わらず、被告は原告の世話をしておらず、医療費を支払わず、且つ浮気をした。」
裁判文書では、上述したように、裁判文書のうちの同一の事由を有する裁判文書は大量の同一のイベントを含むため、クラスタリング後の文グループは同一のイベントを記述する文を含む。
1.1:「本裁判所は、既存の証拠に基づいて、原告が被告により主張された浮気をしたことを証明できないと認定している。」
1.2:「本事件において、原告は被告が浮気をしたことを理由として被告との離婚を請求したが、原告が浮気をしたことを証明できる証拠はない。」
1.3:「両当事者は相手が浮気をしたと疑っているが、それを十分に証明できる証拠はない。」
(第2グループのクラスタリング結果)
2.1:「原告は、被告が浮気をしたことによる夫婦間の性格の不一致を理由として、夫婦共同財産を被告に少なく分割すべきであると主張した。」
2.2:「原告の張氏は、被告の石氏が浮気をしたと主張し、法廷においてそれを裏付ける14枚の写真を提出した。」
2.3:「夫婦関係にも関わらず、被告は原告の世話をしておらず、医療費を支払わず、且つ浮気をした。」
裁判文書では、上述したように、裁判文書のうちの同一の事由を有する裁判文書は大量の同一のイベントを含むため、クラスタリング後の文グループは同一のイベントを記述する文を含む。
選択部108は、各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された所定数の文においてイベント情報のラベル付けを行ってもよい。
具体的には、選択部108は、各クラスタリング後の文グループから所定数の文を該文グループの代表的な文例としてそれぞれ選択し、イベントのラベル付けを行い、即ちイベント要素、要素役割及びイベントタイプのラベル付けを行ってもよい。一例として、選択部108は、各クラスタリング後のそれぞれの文グループから、所定数の文を該文グループの代表的な文例としてランダムに選択してもよい。ここで、当業者は経験に応じて該所定数を予め設定してもよい。
上記の2つのグループのクラスタリング結果について、例えば各文グループにおける1番目の文を該文グループの代表的な文例を選択し、イベントのラベル付けを行ってもよい。
例えば、手動のラベル付けにより、第1グループのクラスタリング結果における1番目の文のイベント要素は以下のようにラベル付けされてもよい。
<主語>本裁判所</主語>は、<根拠>既存の証拠に基づいて</根拠>、<事情>原告が被告により主張された浮気をしたこと</事情>を<結論>証明できない</結論>と認定している。
このように、選択部108は、選択された所定数の文においてイベント情報のラベル付けを行えばよく、即ち必要な手動のラベル付けは僅かである。
マッチング部110は、各クラスタリング後の文グループについて、選択された所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行う。
例えば、マッチング部110は選択された所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文に自動的にマッチングしてもよいが、これに限定されない。
選択された所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングすることで、該文グループにおける全ての文に対してイベント情報のラベル付けを行うことができる。これによって、僅かな手動のラベル付けにより大量のイベントがラベル付けされたコーパスを取得することができると共に、コーパスは裁判文書に記述された大部分の主要なイベントをカバーすることができる。
好ましくは、マッチング部110は、各クラスタリング後の文グループについて、文の位置合わせにより、選択された所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングしてもよい。
具体的に、マッチング部110は、代表的な例文と、代表的な例文の属する文グループにおける他の全ての文とを2つの文からなる文ペアにそれぞれ組み合わせ、文の成分の位置合わせを行ってもよい。位置合わせの結果により、代表的な文例においてラベル付けされたイベント情報を、該代表的な例文の属する文グループにおける他の全ての文にマッピングし、それを他の文のイベントのラベルとする。
上記の第1グループのクラスタリング結果を一例にして、図2を参照しながら第1文と第2文との位置合わせ結果を説明する。図2は本開示の実施例に係る第1グループのクラスタリング結果における第1文と第2文との位置合わせ結果の例を示す図である。図2に示すように、キーワードを用いて第1文及び第2文に対して位置合わせを行い、例えば、第1文における「本裁判所」と第2文における「本事件」とに対して位置合わせを行い、第1文における「証拠」と第2文における「証拠」とに対して位置合わせを行い、第1文における「できない」と第2文における「ない」とに対して位置合わせを行い、第1文における「証明」と第2文における「証明」とに対して位置合わせを行い、第1文における「原告」と第2文における「原告」とに対して位置合わせを行い、第1文における「被告」と第2文における「被告」とに対して位置合わせを行い、第1文における「浮気」と第2文における「浮気」とに対して位置合わせを行う。
文の位置合わせの方法を用いて、代表的な文例のラベル付けの結果を該代表的な例文の属する文グループにおける他の文にマッピングすることで、大量のイベントがラベル付けされたコーパスを容易に取得することができる。
例えば、上記の第1グループのクラスタリング結果における第1文のイベントのラベル付け結果に基づいて、位置合わせを行うことが可能な最も長い連続的なユニットをラベル付けのマッピング原則として、第1グループのクラスタリング結果における第2文の以下のラベル付け結果を取得してもよい。
<主語>本事件</主語>において、</事情>原告は被告が浮気をしたこと</事情>を理由として被告との離婚を請求したが、原告が浮気をしたことを<結論>証明できる証拠はない</結論>。
なお、文の位置合わせにより選択された所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングするという方法に加えて、他のマッチング方法を用いてもよいが、ここでその説明を省略する。
以上は、離婚紛争についてキーワード「浮気」を一例にして文のクラスタリングを説明した。上述したように、離婚紛争に含まれるキーワードは、「浮気」、「性格の不一致」、「家庭内暴力」などを含んでもよい。離婚紛争にキーワード「浮気」が含まれていない場合、キーワード「性格の不一致」又は「家庭内暴力」を用いて文をクラスタリングしてもよい。1つの文が「浮気」のクラスタリング結果のグループ及び「性格の不一致」のクラスタリング結果のグループの両方に含まれている場合、マッチング部110による上記2つのクラスタリング結果のグループにおける該文のラベル付け結果の任意の1つを該文のイベントラベルとして選択してもよいし、マッチング部110による上記2つのクラスタリング結果のグループにおける該文のラベル付け結果の組み合わせを該文のイベントラベルとして選択してもよい。なお、少なくとも2つのキーワードを用いて文をクラスタリングしてもよいが、ここでその説明を省略する。
さらに、上記の例では、各文グループにおける1つの文を該文グループの代表的な文例として選択してイベントのラベル付けを行うが、各文グループにおける2つ以上の文を該文グループの代表的な文例として選択してイベントのラベル付けを行ってもよい。2つ以上の文を文グループの代表的な文例として選択する場合、例えば選択された2つ以上の文に対して手動のラベル付けをそれぞれ行い、そして、選択された2つ以上の文の手動のラベル付け結果を組み合わせてもよく、マッチング部110は選択された2つ以上の文の組み合わせ後のイベントのラベル付け情報を該文グループにおける他の全ての文にマッチングしてもよいが、これに限定されない。
以上のことから、本開示の実施例に係る文書に対してイベントのラベル付けを行う装置100では、同一のカテゴリに属する文書に大量の同一のイベントが含まれるという特性を用いて、同一のイベントを記述した文をクラスタリングした後に、クラスタにおける少数の文をラベル付けすることで、該クラスタにおける全ての文のイベントのラベルを取得することができる。これによって、僅かな手動のラベル付けにより大量のイベントがラベル付けされたコーパスを取得することができると共に、コーパスは同一のカテゴリの文書に記述された大部分の主要なイベントをカバーすることができる。よって、文書のイベントのラベル付けのコーパスを拡張することができ、文書に対するイベント認識の精度及び効率を向上させることができる。
より具体的には、文書が裁判文書である例では、本開示の実施例に係る文書に対してイベントのラベル付けを行う装置100は、裁判文書のうちの同一の事由を有する裁判文書に大量の同一のイベントが含まれるという特性を用いることで、僅かな手動のラベル付けにより大量のイベントがラベル付けされたコーパスを取得することができると共に、コーパスは同一の事由を有する裁判文書に記述された大部分の主要なイベントをカバーすることができる。よって、裁判文書のイベントのラベル付けのコーパスを拡張することができ、裁判文書に対するイベント認識の精度及び効率を向上させることができる。
上記の文書に対してイベントのラベル付けを行う装置と同様に、本開示は文書に対してイベントのラベル付けを行う方法300の実施例をさらに提供する。
図3は本開示の実施例に係る文書に対してイベントのラベル付けを行う方法300の流れの例を示すフローチャートである。
図3に示すように、本開示の実施例に係る文書に対してイベントのラベル付けを行う方法300は、キーワード抽出ステップS302、文抽出ステップS304、クラスタリングステップS306、選択ステップS308、及びマッチングステップS310を含む。
キーワード抽出ステップS302において、少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出する。
具体的には、文書は、中国語、英語、日本語などの言語の文書であってもよく、同一のカテゴリに属する文書が類似の構造を有すればよい。具体的には、同一のカテゴリに属する文書は、大量の同一のイベントを含む。
例えば、文書は裁判文書であってもよいが、これに限定されない。
好ましくは、該少なくとも2つのカテゴリのうちの各カテゴリに属する文書は、裁判文書の事由に基づいて文書を分類して取得される。
同一の事由に属する裁判文書は大量の同一のイベントを含むため、事由に基づいて文書を分類することで、異なるカテゴリを有する文書を区別することができる。具体的には、例えば文書の名称又は要約から事由を取得してもよい。一例として、事由に基づいて裁判文書を分類し、同一の事由に属する裁判文書を同一の種類に分けてもよい。
好ましくは、キーワード抽出ステップS302において、話題単語モデルにより、各カテゴリに属する文書から該少なくとも1つのキーワードを抽出してもよい。
好ましくは、キーワード抽出ステップS302において、話題単語モデルにより各カテゴリに属する文書を比較し、各カテゴリに属する文書から該少なくとも1つのキーワードを抽出してもよい。よって、少なくとも2つのカテゴリの文書が必要である。
なお、話題単語モデルに加えて、ニューラルネットワーク構造を用いて各カテゴリのキーワードの集合を抽出してもよい。また、他の方法を用いて各カテゴリのキーワードの集合を抽出してもよいが、ここでその説明を省略する。
文抽出ステップS304において、該少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、指定カテゴリについて抽出された該少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出してもよい。ここで、該少なくとも1つのキーワードのうちの各キーワードはイベントのトリガ単語として用いられ、複数の文のうちの各文はイベント言及として用いられる。
キーワードをイベントのトリガ単語として用い、複数の文のうちの各文をイベント言及として用いることで、テキストにおける主要なイベントを認識することができる。
好ましくは、指定カテゴリは、該少なくとも2つのカテゴリの全てのカテゴリを含む。具体的には、該少なくとも2つのカテゴリのうちの各カテゴリの文書から、該カテゴリについて抽出された該少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する。しかし、当業者が理解できるように、該少なくとも2つのカテゴリのうちの指定された1つ又は複数のカテゴリの文書から、該カテゴリについて抽出された該少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出し、該複数の文について後続処理を行ってもよい。
クラスタリングステップS306において、指定カテゴリに属する文書について抽出された複数の文間の類似度に基づいて、複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成してもよい。
上述したように、同一のカテゴリに属する文書は大量の同一のイベントを含むため、クラスタリング後の文グループは、同一のイベントを記述する大量の文を含む。
裁判文書の場合は、裁判文書のうちの同一の事由を有する裁判文書は大量の同一のイベントを含むため、クラスタリング後の文グループは、同一のイベントを記述する大量の文を含む。
好ましくは、本開示の実施例に係る文書に対してイベントのラベル付けを行う方法300は、一般化ステップをさらに含む。該一般化ステップにおいて、指定カテゴリの文書について抽出された複数の文における名称エンティティをタイプ名称に置き換え、複数の文に対して一般化処理を行ってもよい。また、クラスタリングステップS306は、一般化処理後の複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成してもよい。
一例として、一般化ステップにおいて、指定カテゴリの文書について抽出された複数の文における例えば人名、地名、時間などの名称エンティティを識別し、人名、地名及び時間などの名称エンティティをタイプ名称であるperson、place及びtimeにそれぞれ一般化し、文に対して一般化処理を行ってもよい。
好ましくは、クラスタリングステップS306において、複数の文の文ベクトル間の類似度に基づいて、複数の文をクラスタリングしてもよい。ここで、文ベクトルは、単語ベクトルに基づいて計算される。
具体的には、クラスタリングステップS306において、以下のように各文をベクトル化してもよい。まず、各文を単語に分割し、そして、単語の単語ベクトルを加算して平均値を求めて、該文の文ベクトルを取得する。クラスタリングステップS306は、複数の文の文ベクトル間の類似度を計算し、複数の文をクラスタリングする。
なお、文ベクトル間の類似度以外の類似度を用いて複数の文をクラスタリングしてもよいが、ここでその説明を省略する。
選択ステップS308において、各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された所定数の文においてイベント情報のラベル付けを行ってもよい。
具体的には、選択ステップS308において、各クラスタリング後の文グループから所定数の文を該文グループの代表的な文例としてそれぞれ選択し、イベントのラベル付けを行い、即ちイベント要素、要素役割及びイベントタイプのラベル付けを行ってもよい。一例として、選択ステップS308は、各クラスタリング後のそれぞれの文グループから、所定数の文を該文グループの代表的な文例としてランダムに選択してもよい。ここで、当業者は経験に応じて該所定数を予め設定してもよい。
このように、選択ステップS308において、選択された所定数の文においてイベント情報のラベル付けを行えばよく、即ち必要な手動のラベル付けは僅かである。
マッチングステップS310において、各クラスタリング後の文グループについて、選択された所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行う。
選択された所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングすることで、該文グループにおける全ての文に対してイベント情報のラベル付けを行うことができる。これによって、僅かな手動のラベル付けにより大量のイベントがラベル付けされたコーパスを取得することができると共に、コーパスは裁判文書に記述された大部分の主要なイベントをカバーすることができる。
好ましくは、マッチングステップS310において、各クラスタリング後の文グループについて、文の位置合わせにより、選択された所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングしてもよい。
具体的に、マッチングステップS310は、代表的な例文と、代表的な例文の属する文グループにおける他の全ての文とを2つの文からなる文ペアにそれぞれ組み合わせ、文の成分の位置合わせを行ってもよい。位置合わせの結果により、代表的な文例においてラベル付けされたイベント情報を、該代表的な例文の属する文グループにおける他の全ての文にマッピングし、それを他の文のイベントのラベルとする。
文の位置合わせの方法を用いて、代表的な文例のラベル付けの結果を該代表的な例文の属する文グループにおける他の文にマッピングすることで、大量のイベントがラベル付けされたコーパスを容易に取得することができる。
なお、文の位置合わせにより選択された所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングするという方法に加えて、他のマッチング方法を用いてもよいが、ここでその説明を省略する。
以上のことから、本開示の実施例に係る文書に対してイベントのラベル付けを行う方法300では、同一のカテゴリに属する文書に大量の同一のイベントが含まれるという特性を用いて、同一のイベントを記述した文をクラスタリングした後に、クラスタにおける少数の文をラベル付けすることで、該クラスタにおける全ての文のイベントのラベルを取得することができる。これによって、僅かな手動のラベル付けにより大量のイベントがラベル付けされたコーパスを取得することができると共に、コーパスは同一のカテゴリの文書に記述された大部分の主要なイベントをカバーすることができる。よって、文書のイベントのラベル付けのコーパスを拡張することができ、文書に対するイベント認識の精度及び効率を向上させることができる。
より具体的には、文書が裁判文書である例では、本開示の実施例に係る文書に対してイベントのラベル付けを行う方法300は、裁判文書のうちの同一の事由を有する裁判文書に大量の同一のイベントが含まれるという特性を用いることで、僅かな手動のラベル付けにより大量のイベントがラベル付けされたコーパスを取得することができると共に、コーパスは同一の事由を有する裁判文書に記述された大部分の主要なイベントをカバーすることができる。よって、裁判文書のイベントのラベル付けのコーパスを拡張することができ、裁判文書に対するイベント認識の精度及び効率を向上させることができる。
なお、以上は本開示の実施例に係る分類モデルの訓練装置及び方法、並びに分類モデルを用いる分類装置及び方法の機能的構成及び動作を説明しているが、該機能的構成及び動作は単なる例示的なものであり、本開示を限定するものではない。当業者は、本開示の原理に従って上記実施例を修正してもよく、例えば各実施例における機能的モジュールを追加、削除又は組み合わせてもよく、これらの修正は本開示の範囲に含まれるものである。
また、ここの装置の実施例は上記方法の実施例に対応するため、装置の実施例に詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
また、本開示は記憶媒体及びプログラムプロダクトをさらに提供する。本開示の実施例に係る記憶媒体及びプログラムプロダクトにおける機器が実行可能な命令は上記方法を実行してもよく、ここで詳細に説明されていない内容は、上記方法の実施例の対応説明を参照してもよく、ここでその説明を省略する。
それに応じて、本開示は、機器が実行可能な命令を含むプログラムプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含むが、これらに限定されない。
なお、上記処理及び装置はソフトウェア及び/又はファームウェアにより実現されてもよい。ソフトウェア及び/又はファームウェアにより実施されている場合、記憶媒体又はネットワークから専用のハードウェア構成を有するコンピュータ、例えば図4示されている汎用パーソナルコンピュータ400に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。
図4において、中央処理部(CPU)401は、読み出し専用メモリ(ROM)402に記憶されているプログラム、又は記憶部408からランダムアクセスメモリ(RAM)403にロードされたプログラムにより各種の処理を実行する。RAM403には、必要に応じて、CPU401が各種の処理を実行するに必要なデータが記憶されている。
CPU401、ROM402、及びRAM403は、バス404を介して互いに接続されている。入力/出力インターフェース405もバス404に接続されている。
入力部406(キーボード、マウスなどを含む)、出力部707(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部408(例えばハードディスクなどを含む)、通信部409(例えばネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース405に接続されている。通信部409は、ネットワーク、例えばインターネットを介して通信処理を実行する。
必要に応じて、ドライバ410は、入力/出力インターフェース405に接続されてもよい。取り外し可能な媒体411は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライバ410にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部408にインストールされている。
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体411を介してソフトウェアを構成するプログラムをインストールする。
なお、これらの記憶媒体は、図4に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体411に限定されない。取り外し可能な媒体411は、例えば磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク−読み出し専用メモリ(CD−ROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM402、記憶部408に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
以上は図面を参照しながら本開示の好ましい実施例を説明しているが、上記実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本開示に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本開示の保護範囲に含まれるものである。
例えば、上記実施例の1つのユニットに含まれる機能は別々の装置により実現されてもよい。また、上記実施例の複数のユニットにより実現される複数の機能は別々の装置によりそれぞれ実現されてもよい。さらに、以上の機能の1つは複数のユニットにより実現されてもよい。なお、これらの構成は本開示の範囲内のものである。
また、本開示の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本開示の技術的な範囲を限定するものではない。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
文書に対してイベントのラベル付けを行う装置であって、
少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出部と、
前記少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、前記指定カテゴリについて抽出された前記少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する文抽出部であって、前記少なくとも1つのキーワードのうちの各キーワードはイベントのトリガ単語として用いられ、前記複数の文のうちの各文はイベント言及として用いられる、文抽出部と、
前記指定カテゴリに属する文書について抽出された前記複数の文間の類似度に基づいて、前記複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成するクラスタリング部と、
各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された前記所定数の文においてイベント情報のラベル付けを行う選択部と、
各クラスタリング後の文グループについて、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチング部と、を含む、装置。
(付記2)
前記指定カテゴリの文書について抽出された前記複数の文における名称エンティティをタイプ名称に置き換え、前記複数の文に対して一般化処理を行う一般化部、をさらに含み、
前記クラスタリング部は、一般化処理後の前記複数の文をクラスタリングし、前記複数のクラスタリング後の文グループを形成する、付記1に記載の装置。
(付記3)
前記クラスタリング部は、前記複数の文の文ベクトル間の類似度に基づいて、前記複数の文をクラスタリングし、
前記文ベクトルは、単語ベクトルに基づいて計算される、付記1に記載の装置。
(付記4)
前記マッチング部は、各クラスタリング後の文グループについて、文の位置合わせにより、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングする、付記1に記載の装置。
(付記5)
前記文書は、裁判文書である、付記1に記載の装置。
(付記6)
前記少なくとも2つのカテゴリのうちの各カテゴリに属する文書は、前記裁判文書の事由に基づいて前記文書を分類して取得される、付記5に記載の装置。
(付記7)
前記キーワード抽出部は、話題単語モデルにより、各カテゴリに属する文書から前記少なくとも1つのキーワードを抽出する、付記1に記載の装置。
(付記8)
前記キーワード抽出部は、前記話題単語モデルにより各カテゴリに属する文書を比較し、各カテゴリに属する文書から前記少なくとも1つのキーワードを抽出する、付記7に記載の装置。
(付記9)
前記指定カテゴリは、前記少なくとも2つのカテゴリの全てのカテゴリを含む、付記1に記載の装置。
(付記10)
文書に対してイベントのラベル付けを行う方法であって、
少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出ステップと、
前記少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、前記指定カテゴリについて抽出された前記少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する文抽出ステップであって、前記少なくとも1つのキーワードのうちの各キーワードはイベントのトリガワードとして用いられ、前記複数の文のうちの各文はイベント言及として用いられる、文抽出ステップと、
前記指定カテゴリに属する文書について抽出された前記複数の文の類似度に基づいて、前記複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成するクラスタリングステップと、
各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された前記所定数の文においてイベント情報のラベル付けを行う選択ステップと、
各クラスタリング後の文グループについて、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチングステップと、を含む、方法。
(付記11)
前記指定カテゴリの文書について抽出された前記複数の文における名称エンティティをタイプ名称に置き換え、前記複数の文に対して一般化処理を行う一般化ステップ、をさらに含み、
前記クラスタリングステップにおいて、一般化処理後の前記複数の文をクラスタリングし、前記複数のクラスタリング後の文グループを形成する、付記10に記載の方法。
(付記12)
前記クラスタリングステップにおいて、前記複数の文の文ベクトル間の類似度に基づいて、前記複数の文をクラスタリングし、
前記文ベクトルは、単語ベクトルに基づいて計算される、付記10に記載の方法。
(付記13)
前記マッチングステップにおいて、各クラスタリング後の文グループについて、文の位置合わせにより、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングする、付記10に記載の方法。
(付記14)
前記文書は、裁判文書である、付記10に記載の方法。
(付記15)
前記少なくとも2つのカテゴリのうちの各カテゴリに属する文書は、前記裁判文書の事由に基づいて前記文書を分類して取得される、付記14に記載の方法。
(付記16)
前記キーワード抽出ステップにおいて、話題単語モデルにより、各カテゴリに属する文書から前記少なくとも1つのキーワードを抽出する、付記10に記載の方法。
(付記17)
前記キーワード抽出ステップにおいて、前記話題単語モデルにより各カテゴリに属する文書を比較し、各カテゴリに属する文書から前記少なくとも1つのキーワードを抽出する、付記16に記載の方法。
(付記18)
前記指定カテゴリは、前記少なくとも2つのカテゴリの全てのカテゴリを含む、付記10に記載の方法。
(付記19)
プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記プログラムは、コンピュータに、
少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出ステップと、
前記少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、前記指定カテゴリについて抽出された前記少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する文抽出ステップであって、前記少なくとも1つのキーワードのうちの各キーワードはイベントのトリガワードとして用いられ、前記複数の文のうちの各文はイベント言及として用いられる、文抽出ステップと、
前記指定カテゴリに属する文書について抽出された前記複数の文の類似度に基づいて、前記複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成するクラスタリングステップと、
各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された前記所定数の文においてイベント情報のラベル付けを行う選択ステップと、
各クラスタリング後の文グループについて、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチングステップと、を実行させる、記録媒体。
(付記1)
文書に対してイベントのラベル付けを行う装置であって、
少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出部と、
前記少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、前記指定カテゴリについて抽出された前記少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する文抽出部であって、前記少なくとも1つのキーワードのうちの各キーワードはイベントのトリガ単語として用いられ、前記複数の文のうちの各文はイベント言及として用いられる、文抽出部と、
前記指定カテゴリに属する文書について抽出された前記複数の文間の類似度に基づいて、前記複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成するクラスタリング部と、
各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された前記所定数の文においてイベント情報のラベル付けを行う選択部と、
各クラスタリング後の文グループについて、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチング部と、を含む、装置。
(付記2)
前記指定カテゴリの文書について抽出された前記複数の文における名称エンティティをタイプ名称に置き換え、前記複数の文に対して一般化処理を行う一般化部、をさらに含み、
前記クラスタリング部は、一般化処理後の前記複数の文をクラスタリングし、前記複数のクラスタリング後の文グループを形成する、付記1に記載の装置。
(付記3)
前記クラスタリング部は、前記複数の文の文ベクトル間の類似度に基づいて、前記複数の文をクラスタリングし、
前記文ベクトルは、単語ベクトルに基づいて計算される、付記1に記載の装置。
(付記4)
前記マッチング部は、各クラスタリング後の文グループについて、文の位置合わせにより、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングする、付記1に記載の装置。
(付記5)
前記文書は、裁判文書である、付記1に記載の装置。
(付記6)
前記少なくとも2つのカテゴリのうちの各カテゴリに属する文書は、前記裁判文書の事由に基づいて前記文書を分類して取得される、付記5に記載の装置。
(付記7)
前記キーワード抽出部は、話題単語モデルにより、各カテゴリに属する文書から前記少なくとも1つのキーワードを抽出する、付記1に記載の装置。
(付記8)
前記キーワード抽出部は、前記話題単語モデルにより各カテゴリに属する文書を比較し、各カテゴリに属する文書から前記少なくとも1つのキーワードを抽出する、付記7に記載の装置。
(付記9)
前記指定カテゴリは、前記少なくとも2つのカテゴリの全てのカテゴリを含む、付記1に記載の装置。
(付記10)
文書に対してイベントのラベル付けを行う方法であって、
少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出ステップと、
前記少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、前記指定カテゴリについて抽出された前記少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する文抽出ステップであって、前記少なくとも1つのキーワードのうちの各キーワードはイベントのトリガワードとして用いられ、前記複数の文のうちの各文はイベント言及として用いられる、文抽出ステップと、
前記指定カテゴリに属する文書について抽出された前記複数の文の類似度に基づいて、前記複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成するクラスタリングステップと、
各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された前記所定数の文においてイベント情報のラベル付けを行う選択ステップと、
各クラスタリング後の文グループについて、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチングステップと、を含む、方法。
(付記11)
前記指定カテゴリの文書について抽出された前記複数の文における名称エンティティをタイプ名称に置き換え、前記複数の文に対して一般化処理を行う一般化ステップ、をさらに含み、
前記クラスタリングステップにおいて、一般化処理後の前記複数の文をクラスタリングし、前記複数のクラスタリング後の文グループを形成する、付記10に記載の方法。
(付記12)
前記クラスタリングステップにおいて、前記複数の文の文ベクトル間の類似度に基づいて、前記複数の文をクラスタリングし、
前記文ベクトルは、単語ベクトルに基づいて計算される、付記10に記載の方法。
(付記13)
前記マッチングステップにおいて、各クラスタリング後の文グループについて、文の位置合わせにより、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングする、付記10に記載の方法。
(付記14)
前記文書は、裁判文書である、付記10に記載の方法。
(付記15)
前記少なくとも2つのカテゴリのうちの各カテゴリに属する文書は、前記裁判文書の事由に基づいて前記文書を分類して取得される、付記14に記載の方法。
(付記16)
前記キーワード抽出ステップにおいて、話題単語モデルにより、各カテゴリに属する文書から前記少なくとも1つのキーワードを抽出する、付記10に記載の方法。
(付記17)
前記キーワード抽出ステップにおいて、前記話題単語モデルにより各カテゴリに属する文書を比較し、各カテゴリに属する文書から前記少なくとも1つのキーワードを抽出する、付記16に記載の方法。
(付記18)
前記指定カテゴリは、前記少なくとも2つのカテゴリの全てのカテゴリを含む、付記10に記載の方法。
(付記19)
プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記プログラムは、コンピュータに、
少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出ステップと、
前記少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、前記指定カテゴリについて抽出された前記少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する文抽出ステップであって、前記少なくとも1つのキーワードのうちの各キーワードはイベントのトリガワードとして用いられ、前記複数の文のうちの各文はイベント言及として用いられる、文抽出ステップと、
前記指定カテゴリに属する文書について抽出された前記複数の文の類似度に基づいて、前記複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成するクラスタリングステップと、
各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された前記所定数の文においてイベント情報のラベル付けを行う選択ステップと、
各クラスタリング後の文グループについて、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチングステップと、を実行させる、記録媒体。
Claims (10)
- 文書に対してイベントのラベル付けを行う装置であって、
少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出部と、
前記少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、前記指定カテゴリについて抽出された前記少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する文抽出部であって、前記少なくとも1つのキーワードのうちの各キーワードはイベントのトリガ単語として用いられ、前記複数の文のうちの各文はイベント言及として用いられる、文抽出部と、
前記指定カテゴリに属する文書について抽出された前記複数の文間の類似度に基づいて、前記複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成するクラスタリング部と、
各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された前記所定数の文においてイベント情報のラベル付けを行う選択部と、
各クラスタリング後の文グループについて、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチング部と、を含む、装置。 - 前記指定カテゴリの文書について抽出された前記複数の文における名称エンティティをタイプ名称に置き換え、前記複数の文に対して一般化処理を行う一般化部、をさらに含み、
前記クラスタリング部は、一般化処理後の前記複数の文をクラスタリングし、前記複数のクラスタリング後の文グループを形成する、請求項1に記載の装置。 - 前記クラスタリング部は、前記複数の文の文ベクトル間の類似度に基づいて、前記複数の文をクラスタリングし、
前記文ベクトルは、単語ベクトルに基づいて計算される、請求項1に記載の装置。 - 前記マッチング部は、各クラスタリング後の文グループについて、文の位置合わせにより、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングする、請求項1に記載の装置。
- 前記文書は、裁判文書である、請求項1に記載の装置。
- 前記少なくとも2つのカテゴリのうちの各カテゴリに属する文書は、前記裁判文書の事由に基づいて前記文書を分類して取得される、請求項5に記載の装置。
- 前記キーワード抽出部は、話題単語モデルにより、各カテゴリに属する文書から前記少なくとも1つのキーワードを抽出する、請求項1に記載の装置。
- 前記キーワード抽出部は、前記話題単語モデルにより各カテゴリに属する文書を比較し、各カテゴリに属する文書から前記少なくとも1つのキーワードを抽出する、請求項7に記載の装置。
- 文書に対してイベントのラベル付けを行う方法であって、
少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出ステップと、
前記少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、前記指定カテゴリについて抽出された前記少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する文抽出ステップであって、前記少なくとも1つのキーワードのうちの各キーワードはイベントのトリガワードとして用いられ、前記複数の文のうちの各文はイベント言及として用いられる、文抽出ステップと、
前記指定カテゴリに属する文書について抽出された前記複数の文の類似度に基づいて、前記複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成するクラスタリングステップと、
各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された前記所定数の文においてイベント情報のラベル付けを行う選択ステップと、
各クラスタリング後の文グループについて、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチングステップと、を含む、方法。 - プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記プログラムは、コンピュータに、
少なくとも2つのカテゴリのうちの各カテゴリに属する文書から少なくとも1つのキーワードをそれぞれ抽出するキーワード抽出ステップと、
前記少なくとも2つのカテゴリのうちの指定カテゴリに属する文書から、前記指定カテゴリについて抽出された前記少なくとも1つのキーワードのうちの任意のキーワードを含む複数の文を抽出する文抽出ステップであって、前記少なくとも1つのキーワードのうちの各キーワードはイベントのトリガワードとして用いられ、前記複数の文のうちの各文はイベント言及として用いられる、文抽出ステップと、
前記指定カテゴリに属する文書について抽出された前記複数の文の類似度に基づいて、前記複数の文をクラスタリングし、複数のクラスタリング後の文グループを形成するクラスタリングステップと、
各クラスタリング後の文グループから所定数の文をそれぞれ選択し、選択された前記所定数の文においてイベント情報のラベル付けを行う選択ステップと、
各クラスタリング後の文グループについて、選択された前記所定数の文においてラベル付けされたイベント情報を該文グループにおける他の全ての文にマッチングし、該文グループにおける全ての文に対してイベント情報のラベル付けを行うマッチングステップと、を実行させる、記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910107264.XA CN111538832A (zh) | 2019-02-02 | 2019-02-02 | 用于对文书进行事件标注的装置和方法及记录介质 |
CN201910107264.X | 2019-02-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020126631A true JP2020126631A (ja) | 2020-08-20 |
Family
ID=71976653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020008295A Pending JP2020126631A (ja) | 2019-02-02 | 2020-01-22 | 文書に対してイベントのラベル付けを行う装置及び方法、並びに記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2020126631A (ja) |
CN (1) | CN111538832A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651211A (zh) * | 2020-12-11 | 2021-04-13 | 北京大米科技有限公司 | 标签信息确定方法、装置、服务器及存储介质 |
CN114637829A (zh) * | 2022-02-21 | 2022-06-17 | 阿里巴巴(中国)有限公司 | 记录文本处理方法、装置及计算机可读存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314519B (zh) * | 2011-10-11 | 2012-12-19 | 中国软件与技术服务股份有限公司 | 一种基于公安领域知识本体模型的信息搜索方法 |
CN108268431B (zh) * | 2016-12-30 | 2019-12-03 | 北京国双科技有限公司 | 段落向量化的方法和装置 |
CN108073569B (zh) * | 2017-06-21 | 2021-08-27 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN108197163B (zh) * | 2017-12-14 | 2021-08-10 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN108304386A (zh) * | 2018-03-05 | 2018-07-20 | 上海思贤信息技术股份有限公司 | 一种基于逻辑规则推断法律文书判决结果的方法及装置 |
CN108984518A (zh) * | 2018-06-11 | 2018-12-11 | 人民法院信息技术服务中心 | 一种面向裁判文书的文本分类方法 |
CN109145097A (zh) * | 2018-06-11 | 2019-01-04 | 人民法院信息技术服务中心 | 一种基于信息提取的裁判文书分类方法 |
-
2019
- 2019-02-02 CN CN201910107264.XA patent/CN111538832A/zh active Pending
-
2020
- 2020-01-22 JP JP2020008295A patent/JP2020126631A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CN111538832A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177569B (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
US11017178B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
US10191974B2 (en) | Method and system for high performance integration, processing and searching of structured and unstructured data | |
Zhang et al. | Do users rate or review? Boost phrase-level sentiment labeling with review-level sentiment classification | |
WO2021068339A1 (zh) | 文本分类方法、装置及计算机可读存储介质 | |
US20200081899A1 (en) | Automated database schema matching | |
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
US9754021B2 (en) | Method for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon | |
US9323794B2 (en) | Method and system for high performance pattern indexing | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
TWI554896B (zh) | Information Classification Method and Information Classification System Based on Product Identification | |
Long et al. | Gradual: Graph-based dual-modal representation for image-text matching | |
Yu et al. | Open relation extraction and grounding | |
US20240028650A1 (en) | Method, apparatus, and computer-readable medium for determining a data domain associated with data | |
JP2020126631A (ja) | 文書に対してイベントのラベル付けを行う装置及び方法、並びに記録媒体 | |
Chan et al. | Rapid customization for event extraction | |
US10504002B2 (en) | Systems and methods for clustering of near-duplicate images in very large image collections | |
CN114997288A (zh) | 一种设计资源关联方法 | |
US11650996B1 (en) | Determining query intent and complexity using machine learning | |
Wibawa et al. | Generating Javanese Stopwords List using K-means Clustering Algorithm. | |
JP6409071B2 (ja) | 文の並び替え方法および計算機 | |
Fan et al. | Constructing phrase-level semantic labels to form multi-grained supervision for image-text retrieval | |
Hu et al. | Enhancing semi-supervised document clustering with feature supervision | |
Hao et al. | Product named entity recognition for Chinese query questions based on a skip-chain CRF model | |
CN112529743B (zh) | 合同要素抽取方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220908 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240305 |