JP2020091857A - 電子文書の分類 - Google Patents
電子文書の分類 Download PDFInfo
- Publication number
- JP2020091857A JP2020091857A JP2019211523A JP2019211523A JP2020091857A JP 2020091857 A JP2020091857 A JP 2020091857A JP 2019211523 A JP2019211523 A JP 2019211523A JP 2019211523 A JP2019211523 A JP 2019211523A JP 2020091857 A JP2020091857 A JP 2020091857A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- term
- topics
- vector
- electronic document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 277
- 238000010801 machine learning Methods 0.000 claims abstract description 31
- 238000007670 refining Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 234
- 238000000605 extraction Methods 0.000 claims description 61
- 238000012790 confirmation Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 description 220
- 238000012545 processing Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 11
- 238000013500 data storage Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000007792 addition Methods 0.000 description 7
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
(付記1)
複数の電子文書を取得することと、
各トピックが少なくとも1つの電子文書と関連付けられるように前記複数の電子文書と関連付けられた複数のトピックを取得することと、
前記複数のトピックの中の第1トピックと前記複数のトピックの中の第2トピックとの間の類似を決定することであり、前記第1トピックは、前記複数の電子文書の中の第1組に関連し、前記決定することと、
前記第1トピックと前記第2トピックとの間の前記類似に基づいて前記複数のトピックを精緻化することであり、該精緻化することは、前記複数の電子文書の中の前記第1組を前記第2トピックと関連付け、前記第1トピックを前記複数のトピックから除くことを含む、前記精緻化することと、
前記精緻化された複数のトピックの夫々と関連付けられた前記複数の電子文書の中の少なくとも1つの電子文書に機械学習を適用することによって、前記精緻化された複数のトピックに従って電子文書を分類するよう構成された文書分類器モデルを構築することと、
電子文書を取得することと、
前記文書分類器モデルを用いて、前記取得された電子文書を前記精緻化された複数のトピックの中の1トピックに分類することと
を有する方法。
(付記2)
前記第1トピックは、前記複数の電子文書の中の第1電子文書から取得された第1用語に関連し、
前記第2トピックは、前記複数の電子文書の中の第2電子文書から取得された第2用語に関連し、該第2用語は、前記第1トピックと関連せず、
前記複数のトピックを精緻化することは、
前記第1用語及び前記第2用語を含む用語群を取得することと、
前記用語群に基づく第3トピックを前記精緻化された複数のトピックに加えることであり、前記第3トピックは、前記第1電子文書及び前記第2電子文書に関連する、前記加えることと
を更に含む、
付記1に記載の方法。
(付記3)
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
前記第1タームベクトルを前記第2タームベクトルと比較することと、
前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
を有する、
付記1に記載の方法。
(付記4)
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
第1の複数の用語と前記第1トピックとの間の複数の関連付けを表す第1トピックベクトルを取得することと、
第2の複数の用語と前記第2トピックとの間の複数の関連付けを表す第2トピックベクトルを取得することと、
前記第1トピックベクトルを前記第2トピックベクトルと比較することと、
前記第1トピックベクトルと前記第2トピックベクトルとの間の前記比較により、前記第1トピックベクトルと前記第2トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
を有する、
付記1に記載の方法。
(付記5)
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
前記第1タームベクトルを前記第2タームベクトルと比較することと
を更に有し、
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに更に基づく、
付記4に記載の方法。
(付記6)
前記文書分類器モデルを構築するために、前記第2トピックに関連する前記複数の電子文書の中の他の電子文書を選択することを更に有し、
前記他の電子文書は、該他の電子文書と前記第2トピックとの間の関連付けの程度が閾値を超えることに基づいて選択される、
付記1に記載の方法。
(付記7)
前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することを更に有する、
付記1に記載の方法。
(付記8)
トピック抽出モデルを用いて前記複数の電子文書を解析して、前記複数のトピックを取得し、前記複数の電子文書を前記複数のトピックと関連付けることを更に有し、
前記解析することは、トピックが前記トピック抽出モデルへ供給することなしに実行される、
付記1に記載の方法。
(付記9)
ディスプレイでの提示のために前記精緻化された複数のトピックの中の前記第2トピックを供給することと、
前記第2トピックに関する確認を取得することと、
前記第2トピックを含めるように前記トピック抽出モデルを更新することと、
前記第2トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
を更に有する付記8に記載の方法。
(付記10)
前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することと、
前記取得された電子文書に関するフィードバックを取得することと、
前記フィードバックに基づいて第3トピックを特定することと、
前記フィードバックに基づいて、前記第3トピックを含めるように前記トピック抽出モデルを更新することと、
前記第3トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
を更に有する付記8に記載の方法。
(付記11)
1以上の命令を記憶するよう構成される少なくとも1つの非一時的なコンピュータ可読媒体であって、
前記命令は、少なくとも1つのプロセッサによって実行されるときに、システムに、
複数の電子文書を取得することと、
各トピックが少なくとも1つの電子文書と関連付けられるように前記複数の電子文書と関連付けられた複数のトピックを取得することと、
前記複数のトピックの中の第1トピックと前記複数のトピックの中の第2トピックとの間の類似を決定することであり、前記第1トピックは、前記複数の電子文書の中の第1組に関連し、前記決定することと、
前記第1トピックと前記第2トピックとの間の前記類似に基づいて前記複数のトピックを精緻化することであり、該精緻化することは、前記複数の電子文書の中の前記第1組を前記第2トピックと関連付け、前記第1トピックを前記複数のトピックから除くことを含む、前記精緻化することと、
前記精緻化された複数のトピックの夫々と関連付けられた前記複数の電子文書の中の少なくとも1つの電子文書に機械学習を適用することによって、前記精緻化された複数のトピックに従って電子文書を分類するよう構成された文書分類器モデルを構築することと、
電子文書を取得することと、
前記文書分類器モデルを用いて、前記取得された電子文書を前記精緻化された複数のトピックの中の1トピックに分類することと
を有する動作を実行させる、
非一時的なコンピュータ可読媒体。
(付記12)
前記第1トピックは、前記複数の電子文書の中の第1電子文書から取得された第1用語に関連し、
前記第2トピックは、前記複数の電子文書の中の第2電子文書から取得された第2用語に関連し、該第2用語は、前記第1トピックと関連せず、
前記複数のトピックを精緻化することは、
前記第1用語及び前記第2用語を含む用語群を取得することと、
前記用語群に基づく第3トピックを前記精緻化された複数のトピックに加えることであり、前記第3トピックは、前記第1電子文書及び前記第2電子文書に関連する、前記加えることと
を更に含む、
付記11に記載の非一時的なコンピュータ可読媒体。
(付記13)
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
前記第1タームベクトルを前記第2タームベクトルと比較することと、
前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
を有する、
付記11に記載の非一時的なコンピュータ可読媒体。
(付記14)
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
第1の複数の用語と前記第1トピックとの間の複数の関連付けを表す第1トピックベクトルを取得することと、
第2の複数の用語と前記第2トピックとの間の複数の関連付けを表す第2トピックベクトルを取得することと、
前記第1トピックベクトルを前記第2トピックベクトルと比較することと、
前記第1トピックベクトルと前記第2トピックベクトルとの間の前記比較により、前記第1トピックベクトルと前記第2トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
を有する、
付記11に記載の非一時的なコンピュータ可読媒体。
(付記15)
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
前記第1タームベクトルを前記第2タームベクトルと比較することと
を更に有し、
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに更に基づく、
付記14に記載の非一時的なコンピュータ可読媒体。
(付記16)
前記動作は、前記文書分類器モデルを構築するために、前記第2トピックに関連する前記複数の電子文書の中の他の電子文書を選択することを更に有し、
前記他の電子文書は、該他の電子文書と前記第2トピックとの間の関連付けの程度が閾値を超えることに基づいて選択される、
付記11に記載の非一時的なコンピュータ可読媒体。
(付記17)
前記動作は、前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することを更に有する、
付記11に記載の非一時的なコンピュータ可読媒体。
(付記18)
前記動作は、トピック抽出モデルを用いて前記複数の電子文書を解析して、前記複数のトピックを取得し、前記複数の電子文書を前記複数のトピックと関連付けることを更に有し、
前記解析することは、トピックが前記トピック抽出モデルへ供給することなしに実行される、
付記11に記載の非一時的なコンピュータ可読媒体。
(付記19)
前記動作は、
ディスプレイでの提示のために前記精緻化された複数のトピックの中の前記第2トピックを供給することと、
前記第2トピックに関する確認を取得することと、
前記第2トピックを含めるように前記トピック抽出モデルを更新することと、
前記第2トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
を更に有する、
付記18に記載の非一時的なコンピュータ可読媒体。
(付記20)
前記動作は、
前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することと、
前記取得された電子文書に関するフィードバックを取得することと、
前記フィードバックに基づいて第3トピックを特定することと、
前記フィードバックに基づいて、前記第3トピックを含めるように前記トピック抽出モデルを更新することと、
前記第3トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
を更に有する、
付記18に記載の非一時的なコンピュータ可読媒体。
108,138 電子文書
110 トピック抽出プロセス
112,312 トピック
120,200 パーソナルカテゴリ生成プロセス
122 パーソナルカテゴリ
124 トピック表示プロセス
128 確認されたトピック
130 機械学習プロセス
132 文書分類器モデル
140 文書分類プロセス
142,442 分類された電子文書
300 2つのトピックの間の類似を決定するプロセス
314 用語
320 トピックベクトル生成プロセス
322 トピックベクトル
330 タームベクトル生成プロセス
332 タームベクトル
340 トピックベクトル比較プロセス
342 トピックベクトル類似スコア
350 タームベクトル比較プロセス
352 タームベクトル類似スコア
360 スコア結合プロセス
362 結合類似スコア
400 電子文書を表示するプロセス
450 文書順位付けプロセス
452 順位付けされた電子文書
460 インターフェイス
462 モデルアップデート
464 電子文書表示プロセス
466 フィードバック処理プロセス
500 電子文書の内容を解析する方法
600 コンピュータシステム
602 プロセッサ
604 メモリ
606 データストレージ
608 通信ユニット
Claims (20)
- 複数の電子文書を取得することと、
各トピックが少なくとも1つの電子文書と関連付けられるように前記複数の電子文書と関連付けられた複数のトピックを取得することと、
前記複数のトピックの中の第1トピックと前記複数のトピックの中の第2トピックとの間の類似を決定することであり、前記第1トピックは、前記複数の電子文書の中の第1組に関連し、前記決定することと、
前記第1トピックと前記第2トピックとの間の前記類似に基づいて前記複数のトピックを精緻化することであり、該精緻化することは、前記複数の電子文書の中の前記第1組を前記第2トピックと関連付け、前記第1トピックを前記複数のトピックから除くことを含む、前記精緻化することと、
前記精緻化された複数のトピックの夫々と関連付けられた前記複数の電子文書の中の少なくとも1つの電子文書に機械学習を適用することによって、前記精緻化された複数のトピックに従って電子文書を分類するよう構成された文書分類器モデルを構築することと、
電子文書を取得することと、
前記文書分類器モデルを用いて、前記取得された電子文書を前記精緻化された複数のトピックの中の1トピックに分類することと
を有する方法。 - 前記第1トピックは、前記複数の電子文書の中の第1電子文書から取得された第1用語に関連し、
前記第2トピックは、前記複数の電子文書の中の第2電子文書から取得された第2用語に関連し、該第2用語は、前記第1トピックと関連せず、
前記複数のトピックを精緻化することは、
前記第1用語及び前記第2用語を含む用語群を取得することと、
前記用語群に基づく第3トピックを前記精緻化された複数のトピックに加えることであり、前記第3トピックは、前記第1電子文書及び前記第2電子文書に関連する、前記加えることと
を更に含む、
請求項1に記載の方法。 - 前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
前記第1タームベクトルを前記第2タームベクトルと比較することと、
前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
を有する、
請求項1に記載の方法。 - 前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
第1の複数の用語と前記第1トピックとの間の複数の関連付けを表す第1トピックベクトルを取得することと、
第2の複数の用語と前記第2トピックとの間の複数の関連付けを表す第2トピックベクトルを取得することと、
前記第1トピックベクトルを前記第2トピックベクトルと比較することと、
前記第1トピックベクトルと前記第2トピックベクトルとの間の前記比較により、前記第1トピックベクトルと前記第2トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
を有する、
請求項1に記載の方法。 - 前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
前記第1タームベクトルを前記第2タームベクトルと比較することと
を更に有し、
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに更に基づく、
請求項4に記載の方法。 - 前記文書分類器モデルを構築するために、前記第2トピックに関連する前記複数の電子文書の中の他の電子文書を選択することを更に有し、
前記他の電子文書は、該他の電子文書と前記第2トピックとの間の関連付けの程度が閾値を超えることに基づいて選択される、
請求項1に記載の方法。 - 前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することを更に有する、
請求項1に記載の方法。 - トピック抽出モデルを用いて前記複数の電子文書を解析して、前記複数のトピックを取得し、前記複数の電子文書を前記複数のトピックと関連付けることを更に有し、
前記解析することは、トピックが前記トピック抽出モデルへ供給することなしに実行される、
請求項1に記載の方法。 - ディスプレイでの提示のために前記精緻化された複数のトピックの中の前記第2トピックを供給することと、
前記第2トピックに関する確認を取得することと、
前記第2トピックを含めるように前記トピック抽出モデルを更新することと、
前記第2トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
を更に有する請求項8に記載の方法。 - 前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することと、
前記取得された電子文書に関するフィードバックを取得することと、
前記フィードバックに基づいて第3トピックを特定することと、
前記フィードバックに基づいて、前記第3トピックを含めるように前記トピック抽出モデルを更新することと、
前記第3トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
を更に有する請求項8に記載の方法。 - 1以上の命令を記憶するよう構成される少なくとも1つの非一時的なコンピュータ可読媒体であって、
前記命令は、少なくとも1つのプロセッサによって実行されるときに、システムに、
複数の電子文書を取得することと、
各トピックが少なくとも1つの電子文書と関連付けられるように前記複数の電子文書と関連付けられた複数のトピックを取得することと、
前記複数のトピックの中の第1トピックと前記複数のトピックの中の第2トピックとの間の類似を決定することであり、前記第1トピックは、前記複数の電子文書の中の第1組に関連し、前記決定することと、
前記第1トピックと前記第2トピックとの間の前記類似に基づいて前記複数のトピックを精緻化することであり、該精緻化することは、前記複数の電子文書の中の前記第1組を前記第2トピックと関連付け、前記第1トピックを前記複数のトピックから除くことを含む、前記精緻化することと、
前記精緻化された複数のトピックの夫々と関連付けられた前記複数の電子文書の中の少なくとも1つの電子文書に機械学習を適用することによって、前記精緻化された複数のトピックに従って電子文書を分類するよう構成された文書分類器モデルを構築することと、
電子文書を取得することと、
前記文書分類器モデルを用いて、前記取得された電子文書を前記精緻化された複数のトピックの中の1トピックに分類することと
を有する動作を実行させる、
非一時的なコンピュータ可読媒体。 - 前記第1トピックは、前記複数の電子文書の中の第1電子文書から取得された第1用語に関連し、
前記第2トピックは、前記複数の電子文書の中の第2電子文書から取得された第2用語に関連し、該第2用語は、前記第1トピックと関連せず、
前記複数のトピックを精緻化することは、
前記第1用語及び前記第2用語を含む用語群を取得することと、
前記用語群に基づく第3トピックを前記精緻化された複数のトピックに加えることであり、前記第3トピックは、前記第1電子文書及び前記第2電子文書に関連する、前記加えることと
を更に含む、
請求項11に記載の非一時的なコンピュータ可読媒体。 - 前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
前記第1タームベクトルを前記第2タームベクトルと比較することと、
前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
を有する、
請求項11に記載の非一時的なコンピュータ可読媒体。 - 前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
第1の複数の用語と前記第1トピックとの間の複数の関連付けを表す第1トピックベクトルを取得することと、
第2の複数の用語と前記第2トピックとの間の複数の関連付けを表す第2トピックベクトルを取得することと、
前記第1トピックベクトルを前記第2トピックベクトルと比較することと、
前記第1トピックベクトルと前記第2トピックベクトルとの間の前記比較により、前記第1トピックベクトルと前記第2トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
を有する、
請求項11に記載の非一時的なコンピュータ可読媒体。 - 前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
前記第1タームベクトルを前記第2タームベクトルと比較することと
を更に有し、
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに更に基づく、
請求項14に記載の非一時的なコンピュータ可読媒体。 - 前記動作は、前記文書分類器モデルを構築するために、前記第2トピックに関連する前記複数の電子文書の中の他の電子文書を選択することを更に有し、
前記他の電子文書は、該他の電子文書と前記第2トピックとの間の関連付けの程度が閾値を超えることに基づいて選択される、
請求項11に記載の非一時的なコンピュータ可読媒体。 - 前記動作は、前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することを更に有する、
請求項11に記載の非一時的なコンピュータ可読媒体。 - 前記動作は、トピック抽出モデルを用いて前記複数の電子文書を解析して、前記複数のトピックを取得し、前記複数の電子文書を前記複数のトピックと関連付けることを更に有し、
前記解析することは、トピックが前記トピック抽出モデルへ供給することなしに実行される、
請求項11に記載の非一時的なコンピュータ可読媒体。 - 前記動作は、
ディスプレイでの提示のために前記精緻化された複数のトピックの中の前記第2トピックを供給することと、
前記第2トピックに関する確認を取得することと、
前記第2トピックを含めるように前記トピック抽出モデルを更新することと、
前記第2トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
を更に有する、
請求項18に記載の非一時的なコンピュータ可読媒体。 - 前記動作は、
前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することと、
前記取得された電子文書に関するフィードバックを取得することと、
前記フィードバックに基づいて第3トピックを特定することと、
前記フィードバックに基づいて、前記第3トピックを含めるように前記トピック抽出モデルを更新することと、
前記第3トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
を更に有する、
請求項18に記載の非一時的なコンピュータ可読媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/208321 | 2018-12-03 | ||
US16/208,321 US11416534B2 (en) | 2018-12-03 | 2018-12-03 | Classification of electronic documents |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020091857A true JP2020091857A (ja) | 2020-06-11 |
JP7484141B2 JP7484141B2 (ja) | 2024-05-16 |
Family
ID=70850248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019211523A Active JP7484141B2 (ja) | 2018-12-03 | 2019-11-22 | 電子文書の分類 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11416534B2 (ja) |
JP (1) | JP7484141B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022002088A (ja) * | 2020-06-19 | 2022-01-06 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11734360B2 (en) * | 2019-12-18 | 2023-08-22 | Catachi Co. | Methods and systems for facilitating classification of documents |
US20210209500A1 (en) * | 2020-01-03 | 2021-07-08 | International Business Machines Corporation | Building a complementary model for aggregating topics from textual content |
US20220058496A1 (en) * | 2020-08-20 | 2022-02-24 | Nationstar Mortgage LLC, d/b/a/ Mr. Cooper | Systems and methods for machine learning-based document classification |
US11803574B2 (en) * | 2021-05-13 | 2023-10-31 | Microsoft Technology Licensing, Llc | Clustering approach for auto generation and classification of regional sports |
US20240248901A1 (en) * | 2023-01-23 | 2024-07-25 | Microsoft Technology Licensing, Llc | Method and system of using domain specific knowledge in retrieving multimodal assets |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330966A (ja) * | 2002-05-13 | 2003-11-21 | Nippon Telegr & Teleph Corp <Ntt> | 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体 |
JP2008203933A (ja) * | 2007-02-16 | 2008-09-04 | Dainippon Printing Co Ltd | カテゴリ作成方法および装置、文書分類方法および装置 |
JP2011170786A (ja) * | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
JP2017073137A (ja) * | 2015-10-09 | 2017-04-13 | 富士通株式会社 | 記述的なトピックラベルの生成 |
US20170154280A1 (en) * | 2015-12-01 | 2017-06-01 | International Business Machines Corporation | Incremental Generation of Models with Dynamic Clustering |
US20170278016A1 (en) * | 2014-09-29 | 2017-09-28 | Tongji University | Clustering Coefficient-based Adaptive Clustering Method and System |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4972349A (en) * | 1986-12-04 | 1990-11-20 | Kleinberger Paul J | Information retrieval system and method |
JP2004164036A (ja) * | 2002-11-08 | 2004-06-10 | Hewlett Packard Co <Hp> | 文書の共通性評価方法 |
US8548995B1 (en) * | 2003-09-10 | 2013-10-01 | Google Inc. | Ranking of documents based on analysis of related documents |
WO2009038788A1 (en) * | 2007-09-21 | 2009-03-26 | Noblis, Inc. | Method and system for active learning screening process with dynamic information modeling |
US9110984B1 (en) * | 2011-12-27 | 2015-08-18 | Google Inc. | Methods and systems for constructing a taxonomy based on hierarchical clustering |
-
2018
- 2018-12-03 US US16/208,321 patent/US11416534B2/en active Active
-
2019
- 2019-11-22 JP JP2019211523A patent/JP7484141B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330966A (ja) * | 2002-05-13 | 2003-11-21 | Nippon Telegr & Teleph Corp <Ntt> | 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体 |
JP2008203933A (ja) * | 2007-02-16 | 2008-09-04 | Dainippon Printing Co Ltd | カテゴリ作成方法および装置、文書分類方法および装置 |
JP2011170786A (ja) * | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
US20170278016A1 (en) * | 2014-09-29 | 2017-09-28 | Tongji University | Clustering Coefficient-based Adaptive Clustering Method and System |
JP2017073137A (ja) * | 2015-10-09 | 2017-04-13 | 富士通株式会社 | 記述的なトピックラベルの生成 |
US20170154280A1 (en) * | 2015-12-01 | 2017-06-01 | International Business Machines Corporation | Incremental Generation of Models with Dynamic Clustering |
Non-Patent Citations (1)
Title |
---|
芹澤 翠、小林 一郎: "潜在トピックの類似度に基づくトピック追跡への取り組み", 2011年度人工知能学会全国大会(第25回)論文集 [CD−ROM], JPN6023031686, 1 June 2011 (2011-06-01), pages 1 - 4, ISSN: 0005118487 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022002088A (ja) * | 2020-06-19 | 2022-01-06 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体 |
JP7179123B2 (ja) | 2020-06-19 | 2022-11-28 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
US11416534B2 (en) | 2022-08-16 |
JP7484141B2 (ja) | 2024-05-16 |
US20200175052A1 (en) | 2020-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7484141B2 (ja) | 電子文書の分類 | |
Allahyari et al. | Automatic topic labeling using ontology-based topic models | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
US9390086B2 (en) | Classification system with methodology for efficient verification | |
US10366093B2 (en) | Query result bottom retrieval method and apparatus | |
WO2016179938A1 (zh) | 题目推荐方法和题目推荐装置 | |
CN109408743B (zh) | 文本链接嵌入方法 | |
KR102685008B1 (ko) | 검색 모델의 훈련 방법, 목표 대상의 검색 방법 및 그 장치 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
Jotheeswaran et al. | OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE. | |
CN111813930B (zh) | 相似文档检索方法及装置 | |
US20200192921A1 (en) | Suggesting text in an electronic document | |
US11227183B1 (en) | Section segmentation based information retrieval with entity expansion | |
US20170185672A1 (en) | Rank aggregation based on a markov model | |
Xu et al. | Improve biomedical information retrieval using modified learning to rank methods | |
Koutsomitropoulos et al. | Semantic classification and indexing of open educational resources with word embeddings and ontologies | |
AbdElminaam et al. | DeepCorrect: Building an efficient framework for auto correction for subjective questions using GRU_LSTM deep learning | |
CN110347821A (zh) | 一种文本类别标注的方法、电子设备和可读存储介质 | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
Tran et al. | A named entity recognition approach for tweet streams using active learning | |
CN113779981A (zh) | 一种基于指针网络和知识图谱的推荐方法及装置 | |
Srivastava et al. | Redundancy and coverage aware enriched dragonfly-FL single document summarization | |
Tang et al. | Labeled phrase latent Dirichlet allocation | |
Kuttiyapillai et al. | Improved text analysis approach for predicting effects of nutrient on human health using machine learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220708 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7484141 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |