JP2020091857A

JP2020091857A - 電子文書の分類

Info

Publication number: JP2020091857A
Application number: JP2019211523A
Authority: JP
Inventors: ワン・ジュヌ; Ju-Nu Wang; 内野　寛治; Kanji Uchino; 寛治内野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-12-03
Filing date: 2019-11-22
Publication date: 2020-06-11
Anticipated expiration: 2039-11-22
Also published as: US11416534B2; JP7484141B2; US20200175052A1

Abstract

【課題】電子文書を分類する方法等を提供する。【解決手段】方法は、複数の電子文書及び電子文書と関連付けられた複数のトピックを取得することを含んでよい。方法は、第１トピックと第２トピックとの間の類似を決定することを更に含んでよい。第１トピックは第１組の電子文書に関連し得る。方法は、第１組の電子文書を第２トピックと関連付け、第１トピックを複数のトピックから除くことによって、第１トピックと第２トピックとの間の類似に基づき複数のトピックを精緻化することを更に含んでよい。方法は、精緻化されたトピックの夫々と関連付けられた少なくとも１つの電子文書に機械学習を適用することによって、文書分類器モデルを構築することを更に含んでよい。方法は、電子文書を取得し、その電子文書を、文書分類器モデルを用いて、精緻化されたトピックの中の１トピックに分類することを更に含んでよい。【選択図】図１

Description

本開示で説明される実施形態は、電子文書を分類することに関係がある。

企業及び公共機関は、“.txt”、“.doc”、“.pdf”、及び“.html”を含む形式をとる電子文書のような、多数の電子文書を生成、受信、及び保持する。それらの電子文書は、とりわけ、企業及び公共機関のユーザが見るために検索され得る。幾度も、電子文書は、電子文書が含む題材に基づいて分類されていない。

電子文書を分類する方法は、複数の電子文書及び電子文書と関連付けられた複数のトピックを取得することを含んでよい。複数のトピックは、各トピックが少なくとも１つの電子文書と関連付けられ得且つ各電子文書が少なくとも１つのトピックと関連付けられ得るように複数の文書と関連付けられ得る。方法は、複数のトピックの中の第１トピックと複数のトピックの中の第２トピックとの間の類似を決定することを更に含んでよい。第１トピックは、複数の電子文書の中の第１組の電子文書に関連し得る。方法は、第１トピックと第２トピックとの間の類似に基づき複数のトピックを精緻化することを更に含んでよい。精緻化することは、第１組の電子文書を第２トピックと関連付け、第１トピックを複数のトピックから除くことを含んでよい。方法は、精緻化されたトピックの夫々と関連付けられた複数の電子文書の中の少なくとも１つの電子文書に機械学習を適用することによって、文書分類器モデルを構築することを更に含んでよい。文書分類器モデルは、精緻化されたトピックに従って電子文書を分類するよう構成され得る。方法は、複数の電子文書の中にない電子文書を取得し、その電子文書を、文書分類器モデルを用いて、精緻化されたトピックの中の１トピックに分類することを更に含んでよい。

実施形態の目的及び／又は利点は、特許請求の範囲で特に指し示されている要素、特徴、及び組み合わせに少なくともよって、実現又は達成されるだろう。

上記の概要及び以下の詳細な説明は、例及び説明として与えられており、請求されている本開示の限定ではない。

例となる実施形態は、添付の図面の使用を通じて、更なる特定及び詳細をもって記載及び説明される。

電子文書の内容を解析するプロセスの例のブロック図である。パーソナルカテゴリを生成するプロセスの例のフローチャートである。２つのトピックの間の類似を決定するプロセスの例のブロック図である。電子文書の内容に従ってその電子文書を表示するプロセスの例のブロック図である。電子文書の内容を解析する方法の例のフローチャートである。電子文書の内容を解析するよう構成され得るコンピュータシステムの例のブロック図である。

本開示で記載される方法及びシステムは、文書の内容に従う文書分類に関係がある。文書分類は、多数の電子文書から特定の目的に関する文書を識別することを助けるために使用されてよい。例えば、ユーザは、語「bug」を含む電子文書を検索し得る。文書分類は、昆虫に関係がある電子文書と、ソフトウェア開発に関係がある電子文書とを区別するために使用され得る。

他の例として、文書分類は、ユーザの特定された関心に基づき、ユーザに提示すべき電子文書を識別するために使用されてよい。例えば、ユーザが特定の国の経済に関心を持っているが、その国のスポーツチームには関心がない場合に、文書分類は、ユーザへの提示のために、その特定の国のスポーツチームは除いて、その特定の国の経済に関係がある国際ニュースフィードから電子文書を識別するために使用され得る。

いくつかの事例で、文書分類は、文書の分類の前に選択される予め決められたカテゴリを用いて実行されてよい。予め決められたカテゴリは、生成するのに大きな労力を要することがある。いくつかの事例で、関連するカテゴリを識別することは、カテゴリの専門家又は分類の特定の目的を必要とすることがある。例えば、関連するカテゴリを識別することは、「生成モデル」（Generative Model）と「識別モデル」（Discriminative Model）との間に関連する差があるかどうかを判定するために、分類の特定の目的に基づく判断を必要とし得る。

予め決められたカテゴリが生成するのに大きな労力を要する１つの理由は、予め決められたカテゴリが、分類されている電子文書の集合に基づき異なることがあるからである。例えば、一般ニュース記事、例えば、“washingtonpost.com”からの記事、の集合に対する予め決められたカテゴリは、工業技術に関係がある学術記事、例えば、電気電子技術者協会（ＩＥＥＥ）からの出版物、の集合に対する予め決められたカテゴリとは異なることがある。

更に、多数の予め決められたカテゴリは、分類の実用性を高め得る一方で、それはまた、関連するカテゴリを識別する複雑さも増大させる可能性がある。例えば、工業技術出版物を分類するための１０のカテゴリを識別することは、１０００のカテゴリを識別することよりも簡単であるかもしれない。しかし、１０００のカテゴリに従って工業技術出版物を分類することは、より有用であり得る。

本開示の方法及びシステムは、電子文書に関する予め決められたカテゴリによらずにそれらの電子文書を分類することに関係があり得る。いくつかの実施形態では、電子文書内のトピックを発見するために、トピックモデルが使用されてよい。トピックモデルは、電子文書に含まれているトピックを自動的に発見するための教師なし（unsupervised）又は半教師あり（semi-supervised）機械学習モデルを含んでよい。

いくつかの実施形態では、トピックを発見した後に、発見されたトピックは、パーソナルカテゴリを生成するために精緻化されてよい。例えば、識別されたトピックを精緻化することは、類似したトピックを結合すること、トピックを除くこと、及び／又は新しいトピックを加えることを含んでよい。結果として、電子文書の夫々は、パーソナルカテゴリの中の少なくとも１カテゴリと関連付けられ得る。電子文書は、電子文書の主題、テーマ、要旨、論点、及び／又は内容の核心を記述するパーソナルカテゴリに基づき、パーソナルカテゴリと関連付けられ得る。他の結果として、パーソナルカテゴリは、分類の特定の目的に関連するトピックを含め、分類の特定の目的に無関係であるか又は重複すると特定され得るトピックを除いてよい。本開示で、語「パーソナルカテゴリ」は、分類の特定のカスタマイズされた目的に関するカテゴリを指すことができ、そのようなものとして、語「パーソナルカテゴリ」は、必ずしも人に言及するわけではない。

いくつかの実施形態で、ユーザは、識別されたトピック及び／又はパーソナルカテゴリに関するフィードバックを与えてよい。このフィードバックは、本開示では、トピックフィードバックと呼ばれ得る。そのような及び他の実施形態で、トピックフィードバックは、精緻化されたトピック及び／又はトピックモデルを更新するために使用されてよい。

いくつかの実施形態で、パーソナルカテゴリ及びそれらの関連する電子文書を訓練データとして取得した後、文書分類器モデルは、電子文書及びパーソナルカテゴリに機械学習を適用することによって訓練されてよい。文書分類器モデルは、パーソナルカテゴリに従って他の電子文書を分類するために使用されてよい。分類された電子文書は、それらの電子文書の分類に基づいてユーザに提示されてよい。

いくつかの実施形態で、ユーザは、分類された電子文書及び／又は他の電子文書の分類に関するフィードバックを与えてよい。このフィードバックは、本開示では、文書フィードバックと呼ばれ得る。そのような又は他の実施形態で、文書フィードバックは、パーソナルカテゴリ、トピックモデル、及び／又は文書分類器モデルを更新するために使用されてよい。

本開示の方法及びシステムは、電子文書を分類するための予め決められたカテゴリ（又は分類法）によらずにそれらの電子文書を分類することをコンピュータに可能にし得るので、本開示の方法及びシステムは、コンピュータ関連技術の改善に関係があり得る。電子文書の分類のための従前のシステムは、予め決められたカテゴリを使用した。その上、本開示の方法及びシステムは、コンピュータが、トピックをカテゴリにマッピングし、トピックを比較し、類似したトピックをマージすることによって、カテゴリを増加的に取得することを可能にし得るので、本開示は、コンピュータ関連技術の改善に関係があり得る。その上、本開示の方法及びシステムは、カテゴリへの文書の分類を改善し得るカテゴリを生成するようにトピックをより効率的且つ効果的に精緻化することをコンピュータに可能にし得るので、本開示の方法及びシステムは、コンピュータ自体の機能の改善に関係があり得る。例えば、本開示の方法及びシステムのいくつかは、トピックを入力として（予め決められていてもいなくてもよい。）使用し、トピックを比較するよう構成されてよい。類似したトピックは結合されてよい。結合の結果が、分類の特定の目的により関連し得るパーソナルカテゴリであることができる。よって、パーソナルカテゴリに基づく分類は、分類の特定の目的により関連する結果をもたらし得る。

図１は、本開示で記載される少なくとも１つの実施形態に従って電子文書の内容を解析する、例となるプロセス１００のブロック図である。いくつかの実施形態で、プロセス１００は、トピック抽出プロセス１１０、パーソナルカテゴリ生成プロセス１２０、機械学習プロセス１３０、及び文書分類プロセス１４０を含んでよい。概して、プロセス１００は、電子文書１０８のトピック１１２を識別し、トピック１１２を精緻化してパーソナルカテゴリ１２２を生成し、パーソナルカテゴリ１２２に従って電子文書１３８を分類するために使用されてよい。

いくつかの実施形態で、プロセス１００は、電子文書１０８を取得することを含んでよい。電子文書１０８は、文書項目の中でもとりわけ、テキスト、画像、グラフ、挿絵、図表を含んでよい。代替的に、又は追加的に、電子文書１０８は、何らかの適切な形式、例えば、特に、“.txt”、“.doc”、“.pdf”、及び“.html”をとり得る。電子文書１０８は、何らかのソース、例えば、数あるソースの中でも特に、ニュース記事、雑誌記事、学術論文、学術記事、電子ブック、及びウェブページからであってよい。

概して、トピック抽出プロセス１１０は、電子文書１０８が対象とするトピックを決定するよう構成されてよい。追加的に、又は代替的に、トピック抽出プロセス１１０は、電子文書１０８をトピック１１２と関連付けるよう構成されてよい。いくつかの実施形態で、トピック抽出プロセス１１０は、機械学習モデルを用いて実行されてよい。一例として、機械学習モデルは、「トピックモデル」と当該技術で呼ばれ得るトピック抽出モデルを含んでよい。

これら及び他の実施形態で、電子文書１０８は、トピック抽出プロセス１１０の間に解析されてよい。電子文書１０８の解析に基づいて、電子文書１０８主題、テーマ、要旨、論点、及び／又は内容の核心が決定されてよい。例えば、電子文書１０８主題、テーマ、要旨、論点、及び／又は内容の核心は、電子文書１０８に含まれている用語に基づいて決定されてよい。電子文書１０８主題、テーマ、要旨、論点、及び／又は内容の核心に基づいて、トピック１１２が決定されてよい。結果として、トピックは、電子文書１０８が対象とする主題について記載し得る。

トピック１１２は、電子文書１０８の主題に基づき、任意数の主題を含んでも、あるいは、任意数の主題に関係があってもよい。追加的に、又は代替的に、トピック１１２は、トピックの所望数の指示に基づいてもよい。例えば、ユーザは、トピックの所望数を示してよい。トピック抽出プロセス１１０は、トピック１１２がトピックの所望数に等しい数のトピックを含むようにトピック１１２を生成するよう構成されてよい。追加的に、又は代替的に、トピックの所望数は、品質メトリックに基づいて自動的に決定されてもよい。

いくつかの実施形態で、トピック１１２の夫々は、１つ以上の電子文書１０８と関連付けられてよい。例えば、トピック１１２の１つは、その１つのトピックに関連する主題、テーマ、要旨、論点、及び／又は内容の核心を含む可能性又はそれらを含む部分を有している電子文書１０８と関連付けられてよい。代替的に、又は追加的に、電子文書１０８の夫々が１つ以上のトピック１１２と関連付けられてもよい。例えば、電子文書１０８の１つは、トピック１１２の複数と関連付けられてよい。いくつかの実施形態で、電子文書１０８のいくつかは、トピック１１２のいずれかとも関連付けられなくてもよい。例えば、電子文書１０８が、他の電子文書のいずれとも閾程度の共通性を有さない１つの電子文書を含む場合に、その１つの電子文書は、トピック１１２のいずれとも関連付けられなくてよい。追加的に、又は代替的に、その１つの電子文書は、雑トピックと関連付けられてもよい。

いくつかの実施形態で、特定のトピック１１２と関連付けられた電子文書１０８どうしの共通性は、特定のトピック１１２と関連付けられたそれらの電子文書１０８が１つ以上の同じ用語に関連する可能性があることであってよい。本開示で使用される語「用語」は、１つ以上の単語又は複数の語、例えば、語句又は連字を含んでよい。

いくつかの実施形態で、トピック１１２は、それらと関連付けられた１つ以上の電子文書１０８についての適切性スコア及び／又は適切性ランクを含んでよい。電子文書１０８の夫々は、それらの電子文書１０８が関連付けられているトピック１１２の夫々についての適切性スコア及び／又は適切性ランクを有してよい。これら及び他の実施形態で、適切性スコア及び／又は適切性ランクは、第１電子文書が第１トピックによって記述される主題に関連する程度を示し得る。よって、適切性スコア及び／又は適切性ランクが高い電子文書ほど、その関連付けられたトピックで記述されている主題に関連する可能性が高くなる。追加的に、又は代替的に、特定の電子文書１０８の適切性スコア及び／又は適切性ランクは、その特定の電子文書１０８が１つ以上のトピック１１２に関連するパーセンテージを反映し得る。例えば、特定の電子文書１０８は、第１トピックと６０％関連し、第２トピックと４０％関連し得る。

いくつかの実施形態では、図１のトピック抽出プロセス１１０が、電子文書１０８及びトピック１１２について適切性スコア及び／又は適切性ランクを生成してよい。適切性スコア及び／又は適切性ランクは、電子文書１０８内の用語の存在に基づいてよい。

いくつかの実施形態で、プロセス１００は、パーソナルカテゴリ生成プロセス１２０を含んでよい。概して、パーソナルカテゴリ生成プロセス１２０は、パーソナルカテゴリ１２２を生成するようにトピック１１２を精緻化するよう構成されてよい。パーソナルカテゴリ生成プロセス１２０は、トピックを除くこと、トピックを結合すること、及び／又は新しいトピックを加えることによってトピック１１２を精緻化するよう構成されてよい。いくつかの実施形態で、パーソナルカテゴリ生成プロセス１２０はまた、パーソナルカテゴリ１２２を、分類の特定の目的に“関係がある”又は“無関係である”と指定することによって、トピック１１２を精緻化するよう構成されてもよい。

いくつかの実施形態で、パーソナルカテゴリ生成プロセス１２０は、分類の特定の目的にとって重複しているか又は別なふうに不要である可能性がある１つ以上のトピック１１２を除くことを含んでよい。追加的に、又は代替的に、パーソナルカテゴリ生成プロセス１２０は、分類の特定の目的に関係があり得る新しいトピックを加えることを含んでよい。追加的に、又は代替的に、パーソナルカテゴリ生成プロセス１２０は、２つ以上のトピック１１２を単一のトピック１１２にまとめることを含んでよい。追加的に、又は代替的に、パーソナルカテゴリ生成プロセス１２０は、１つ以上のトピック１１２と１つ以上の用語との間の関連付けを変更することを含んでよい。追加的に、又は代替的に、パーソナルカテゴリ生成プロセス１２０は、１つ以上のトピック１１２と１つ以上の電子文書１０８との間の関連付けを変更することを含んでよい。追加的に、又は代替的に、パーソナルカテゴリ生成プロセス１２０は、１つ以上のトピック１１２を“関係あり”又は“関係なし”と指定することを含んでよい。トピックが“関係あり”又は“関係なし”と指定されるかどうかは、特定のユーザの関心及び／又は分類の特定の目的に関係があってよい。例えば、「フランスの経済」の特定のトピックは“関係あり”と指定され得る一方で、「フランスワールドカップ」の他のトピックは、分類に特定の目的が世界市場に関係があることに基づいて、“関係なし”と指定され得る。パーソナルカテゴリ１２２は、パーソナルカテゴリ生成プロセス１２０の追加、置換、及び／又は結合の全てを反映し得る。

いくつかの実施形態で、パーソナルカテゴリ生成プロセス１２０は、１つ以上のトピック１１２を表示するよう構成され得るトピック表示プロセス１２４を含んでよい。トピック表示プロセス１２４は、特定のトピック１１２、特定のトピック１１２に関連した１つ以上の用語、及び／又は特定のトピック１１２と関連付けられた１つ以上の電子文書１０８の部分又は全てを表示するよう構成されてよい。トピック１１２は、例えば、グラフィカルユーザインターフェイス（ＧＵＩ）で表示されてよい。

いくつかの実施形態で、パーソナルカテゴリ生成プロセス１２０は、トピック１１２に関するトピックフィードバックを取得するよう構成され得るフィードバック処理プロセス１２６を含んでよい。フィードバック処理プロセス１２６は、ＧＵＩを使用するよう構成されてよい。いくつかの実施形態で、フィードバック処理プロセス１２６で使用されるＧＵＩはまた、トピック表示プロセス１２４の間に使用されてもよい。例えば、１つ以上のトピック１１２がＧＵＩでトピック表示プロセス１２４によって表示されてよい。ユーザは、ＧＵＩで表示されているトピック１１２に関するトピックフィードバックを与えてよい。フィードバック処理プロセス１２６は、トピックフィードバックを受け取って処理してよい。

いくつかの実施形態で、フィードバック処理プロセス１２６は、トピックフィードバックに基づいて、確認されたトピック１２８を生成してよい。フィードバック処理プロセス１２６は、確認されたトピック１２８をトピック抽出プロセス１１０へ供給してよい。トピック抽出プロセス１１０は、確認されたトピック１２８を使用してトピック１１２を更新するよう構成されてよい。例えば、トピック１１２は、トピック表示プロセス１２４での提示のために供給されてよい。トピック１１２の確認は、例えば、トピック表示プロセス１２４を見ているユーザから、フィードバック処理プロセス１２６によって受け取られてよい。フィードバック処理プロセス１２６は、確認されたトピック１２８を生成してよい。確認されたトピック１２８は、トピック抽出プロセス１１０へ供給されてよい。トピック抽出プロセス１１０は、トピック１１２及び／又はトピック抽出モデルを更新するよう構成されてよい。トピック１１２及び／又はトピック抽出モデルの一方又は両方は、将来の使用のために記憶されてよい。例えば、トピック抽出プロセス１１０は、既存のトピック、例えば、トピック１１２及び／又は確認されたトピック１２８を使用して、トピック抽出モデルを更新してよい。その後に、プロセス１００の続いて起こる繰り返しにおいて、更新されたトピック抽出モデルが、追加のトピック１１２を取得するために使用されてよい。

確認されたトピック１２８は、パーソナルカテゴリ生成プロセス１２０の間に又はそれと関連してトピック１１２に対して行われた如何なる変更も含んでよい。追加的に、又は代替的に、確認されたトピック１２８は、パーソナルカテゴリ１２２及び／又はトピック１１２とパーソナルカテゴリ１２２との間のあらゆる違いを含んでよい。例えば、確認されたトピック１２８は、１つ以上のトピック１１２の確認を含んでよい。確認されたトピック１２８は、“関係あり”又は“関係なし”としての１つ以上のトピック１１２の指定を含んでよい。追加的に、又は代替的に、確認されたトピック１２８は、１つ以上のトピック１１２の拒否を含んでよい。これは、１つ以上のトピック１１２が他のトピック１１２を考慮して重複している又は不必要であることに基づいてよい。追加的に、又は代替的に、確認されたトピック１２８は、特定のトピック１１２に関連した１つ以上の用語が他のトピック１１２と関連付けられるべきか、あるいは、その特定のトピック１１２から切り離されるべきかという指示を含んでよい。同様に、パーソナルカテゴリ１２２は、用語とパーソナルカテゴリ１２２との間の関連付けの変更を反映してよい。追加的に、又は代替的に、確認されたトピック１２８は、特定のトピック１１２及び／又は用語と関連付けられている１つ以上の電子文書１０８が他のトピック１１２と関連付けられるべきか、あるいは、その特定のトピック１１２及び／又は用語から切り離されるべきかという指示を含んでよい。

パーソナルカテゴリ生成プロセス１２０の動作の一例として、トピック表示プロセス１２４は特定のトピック１１２を表示してよい。トピック表示プロセス１２４は、更に、特定のトピック１１２に関連した１つ以上の用語及び／又は特定のトピック１１２と関連付けられている１つ以上の電子文書１０８を表示してよい。ユーザは、特定のトピック１１２がユーザに関係があることを示してよい。パーソナルカテゴリ生成プロセス１２０は、パーソナルカテゴリ１２２において特定のトピック１１２を“関係あり”と指定してよい。追加的に、又は代替的に、指示が、フィードバック処理プロセス１２６によって受け取られてもよい。フィードバック処理プロセス１２６は、確認されたトピック１２８に“関係あり”としての指定を含めるよう構成されてよい。フィードバック処理プロセス１２６は、確認されたトピック１２８をトピック抽出プロセス１１０へ供給するよう構成されてよい。トピック抽出プロセス１１０は、確認されたトピック１２８に基づいてトピック１１２を更新するよう構成されてよい。よって、トピック抽出プロセス１１０は、特定のトピック１１２を“関係あり”と指定するよう構成されてよい。

他の例として、ユーザは、２つのトピックが結合されるべきであることを示してよい。例えば、ユーザは、「人工知能」のトピックと「パターン認識」のトピックとが結合されるべきであることを示してよい。ユーザは、分類の特定の目的に基づいて、トピックが結合されるべきであると決定してよい。２つのトピックの結合は、特定のトピック１１２からの用語及び／又は電子文書１０８の全てを他のトピック１１２と関連付けることを含んでよい。追加的に、又は代替的に、特定のトピック１１２からの用語及び／又は電子文書１０８の全てを他のトピック１１２に関連付けた後、特定のトピック１１２はトピック１１２及び／又はパーソナルカテゴリから除かれてよい。特定のトピック１１２の除去は、特定のトピック１１２にこれまで関連付けられていた用語及び／又は電子文書１０８の全てを含む他のトピックを考慮してその特定のトピック１１２が重複していることに基づいてよい。他の例として、トピック表示プロセス１２４は、特定のトピック１１２及び特定のトピック１１２に関連した用語を表示してよい。ユーザは、特定のトピック１１２に関連した用語の１つ以上が、これまでトピック１１２に含まれていなかった新しいトピックと関連付けられ得ることを示してよい。新しいトピックは、既存のトピックからの用語の選択及び選択された用語を新しいトピックと関連付けることに基づいて、パーソナルカテゴリ１２２及び／又は確認されたトピック１２８に含まれるように生成されてよい。他の例として、トピック表示プロセス１２４は、２つのトピック１１２及び２つのトピック１１２に関連した用語を表示してよい。ユーザは、２つのトピック１１２の夫々からの１つの用語が新しいトピックと関連付けられ得ることを示してよい。追加的に、又は代替的に、新しい用語が入力されてもよい。入力された用語は、パーソナルカテゴリ１２２及び／又は確認されたトピック１２８に含まれるように既存のトピック１１２又は新しいトピックと関連付けられてよい。

他の例として、トピック表示プロセス１２４は、特定のトピック１１２及び特定のトピック１１２に関連した用語を表示してよい。ユーザは、用語の１つ以上が特定のトピック１１２と関連付けられ得ないこと、又は用語が特定のトピック１１２に代えて他のトピックと関連付けられ得ることを示してよい。追加的に、又は代替的に、ユーザは、特定の電子文書１０８が特定の用語及び／又は特定のトピックと関連付けられ得ないことを示してよい。

パーソナルカテゴリ生成プロセス１２０に含まれ得る動作の例は、図２に含まれている。図２は、本開示で記載されている少なくとも１つの実施形態に従ってパーソナルカテゴリを生成するための、例となるプロセス２００のフローチャートである。プロセス２００の動作のうちの１つ以上は、図１のパーソナルカテゴリ生成プロセス１２０、トピック表示プロセス１２４、及びフィードバック処理プロセス１２６によって実行されてよい。プロセス２００の動作は、図１のパーソナルカテゴリ１２２及び／又は確認されたトピック１２８を生成するために使用されてよい。たとえ別個のブロックにより表されているとしても、プロセス２００のブロックのうちの１つ以上に関連したステップ及び動作は、所望の実施に応じて、更なるブロックに分けられても、より少ないブロックへとまとめられても、あるいは削除されてもよい。

プロセス２００はブロック２１０から開始してよい。ブロック２１０で、トピックが取得されてよい。トピックは、例えば、トピック抽出プロセスから、取得されてよい。図１のトピック１１２の１つが、ブロック２１０で取得されるトピックの例であってよい。

ブロック２１５で、トピックを対象カテゴリ候補として受け入れるべきかどうかに関して決定が行われてよい。例えば、トピックはユーザに提示されてよい。ユーザは、トピックを対象カテゴリ候補として受け入れるべきか否かに関する指示を入力してよい。ユーザは、カテゴリ化の特定の目的に基づいて、トピックを対象カテゴリ候補として受け入れるべきかどうかを決定してよい。

ブロック２１５でトピックが対象カテゴリ候補として受け入れられる場合に、プロセス２００はブロック２２０へ進んでよい。ブロック２２０で、トピックは、対象カテゴリ候補として指定されてよい。

ブロック２２５で、対象カテゴリ候補をパーソナルカテゴリとして受け入れるべきかどうかに関して決定が行われてよい。例えば、対象カテゴリ候補はユーザに提示されてよい。ユーザは、対象カテゴリ候補をパーソナルカテゴリとして受け入れるべきかどうかに関する指示を入力してよい。ユーザは、カテゴリ化の特定の目的に基づいて、対象カテゴリ候補をパーソナルカテゴリとして受け入れるべきかどうかを決定してよい。対象カテゴリ候補をパーソナルカテゴリとして受け入れるべきかどうかの決定は、対象カテゴリ候補の承認をそのまま含んでよい。対象カテゴリ候補をパーソナルカテゴリとして受け入れるべきでないとの指示は、対象カテゴリ候補を精緻化又は調整するための指示又は命令であってよい。例えば、ユーザは、ユーザが対象カテゴリ候補を精緻化したいかどうかに関する質問によりプロンプトされてよい。ユーザが対象カテゴリ候補を精緻化したい場合には、ユーザは、対象カテゴリ候補を受け入れていない。図１のパーソナルカテゴリ１２２のうちの１つは、パーソナルカテゴリとして受け入れられた対象カテゴリ候補の例であってよい。

ブロック２２５で対象カテゴリ候補がパーソナルカテゴリとして受け入れられない場合には、プロセス２００はブロック２３０へ進んでよい。ブロック２３０で、対象カテゴリ候補の用語が取得されてよい。用語は、対象カテゴリ候補と関連し得る。例えば、用語は、対象カテゴリ候補に関連する多数の用語から選択されてよい。

ブロック２３５で、用語をパーソナルカテゴリのためのシードとして受け入れるべきかどうかに関して決定が行われてよい。例えば、用語はユーザに提示されてよい。ユーザは、用語をパーソナルカテゴリのためのシードとして受け入れるべきかどうかに関する指示を入力してよい。ユーザは、カテゴリ化の特定の目的に基づいて、用語をパーソナルカテゴリのためのシードとして受け入れるべきかどうかを決定してよい。

ブロック２３５で用語がパーソナルカテゴリのためのシードとして受け入れられない場合には、プロセス２００はブロック２４０へ進んでよい。その上、ブロック２１５でトピックが対象カテゴリ候補として受け入れられなかった場合には、プロセスはブロック２４０へ続いてよい。ブロック２４０で、用語が取得されてよい。用語はユーザから取得されてよい。ブロック２４０に到達するために、ユーザは、ブロック２１５でトピックを対象カテゴリ候補として受け入れないか、あるいは、ユーザは、ブロック２３５で用語をパーソナルカテゴリのためのシードとして受け入れない。ブロック２１０のトピックを受け入れなかったユーザ、及びブロック２３０の用語を受け入れなかったユーザは、用語を与えるようにプロンプトされてよい。いくつかの実施形態で、ユーザは、対象カテゴリ候補又は他のトピックと関連付けられ得る１つ以上の用語を与えられてよい。ユーザは、提示されている用語を選択するか、又は用語を入力してよい。

プロセス２００はブロック２４０からブロック２５０へ続いてよい。また、ブロック２３５で用語が受け入れられる場合に、プロセス２００はブロック２５０へ続いてよい。ブロック２５０で、入力された用語は、パーソナルカテゴリのためのシードとして指定されてよい。パーソナルカテゴリのためのシードとして指定される用語は、ブロック２３５で受け入れられた用語、又はブロック２４０で取得された用語のいずれか一方であってよい。

ブロック２６０で、パーソナルカテゴリがシードから生成されてよい。図１のパーソナルカテゴリ１２２のうちの１つは、シードに基づいて生成されるパーソナルカテゴリの例であってよい。

いくつかの実施形態で、パーソナルカテゴリは、任意数のシードに基づいてよい。例えば、１よりも多い用語が、ブロック２３０及びブロック２４０のいずれか一方又は両方から取得されてよい。更に、パーソナルカテゴリは、用語を足すこと又は減じることによって、調整されてもよい。

図１に戻ると、パーソナルカテゴリ生成プロセス１２０は、トピック１１２を精緻化することに関係し得るステップを更に含んでもよい。例えば、パーソナルカテゴリ生成プロセス１２０は、２つ以上のトピック１１２を比較して、それら２つ以上のトピック１１２の間の類似を決定するよう構成されてよい。２つ以上のトピック１１２の間の類似は、２つ以上のトピック１１２を結合するために使用されてよい。例えば、パーソナルカテゴリ生成プロセス１２０は、第１トピックを第２トピックと比較して、第１トピックと第２トピックとの間の類似を決定するよう構成されてよい。パーソナルカテゴリ生成プロセス１２０は、第１トピックに関連した１つ以上の電子文書及び／又は用語を第２トピックと関連付けるよう構成されてよい。その上、パーソナルカテゴリ生成プロセス１２０は、１つ以上の電子文書及び／又は用語を第１トピックから切り離すよう構成されてよい。追加的に、又は代替的に、パーソナルカテゴリ生成プロセス１２０は、パーソナルカテゴリ１２２から第１トピックを除くよう構成されてよい。如何にしてパーソナルカテゴリ生成プロセス１２０が２つ以上のトピック１１２を比較し得るかの例として、パーソナルカテゴリ生成プロセス１２０は、図３に表される方法３００を実行してよい。

図３は、本開示で記載されている少なくとも１つの実施形態に従って２つのトピックの間の類似を決定するための、例となるプロセス３００のブロック図である。いくつかの実施形態で、プロセス３００は、トピックベクトル生成プロセス３２０、トピックベクトル比較プロセス３４０、タームベクトル生成プロセス３３０、タームベクトル比較プロセス３５０、及びスコア結合プロセス３６０を含んでよい。概して、プロセス３００は、２つのトピック３１２を比較して、２つのトピック３１２の間の類似に基づいて結合類似スコア３６２を生成するよう構成されてよい。図３のトピック３１２は、図１のトピック１１２及び／又は図２のトピックと同じか又は類似してよい。図３の用語３１４は、図２の用語と同じか又は類似してよい。

２つのトピック、すなわち、第１トピック３１２Ａ及び第２トピック３１２Ｂ（夫々トピック３１２と呼ばれるか、且つ／あるいは個別的にトピック３１２と呼ばれる。）が、図３では表されている。２つのトピックベクトル生成プロセス３２０、すなわち、第１トピックベクトル生成プロセス３２０Ａ及び第２トピックベクトル生成プロセス３２０Ｂ（集合的にトピックベクトル生成プロセス３２０と呼ばれるか、且つ／あるいは個別的にトピックベクトル生成プロセス３２０と呼ばれる。）も、図３に表されている。２つのトピックベクトル３２２、すなわち、第１トピックベクトル３２２Ａ及び第２トピックベクトル３２２Ｂ（集合的にトピックベクトル３２２と呼ばれるか、且つ／あるいは個別的にトピックベクトル３２２と呼ばれる。）が、図３には表されている。用語の２つのグループ、すなわち、第１用語３１４Ａ及び第２用語３１４Ｂ（集合的に用語３１４と呼ばれるか、且つ／あるいは個別的に用語３１４と呼ばれる。）が、図３には表されている。２つのタームベクトル生成プロセス３３０、すなわち、第１タームベクトル生成プロセス３３０Ａ及び第２タームベクトル生成プロセス３３０Ｂ（集合的にタームベクトル生成プロセス３３０と呼ばれるか、且つ／あるいは個別的にタームベクトル生成プロセス３３０と呼ばれる。）が、図３には表されている。タームベクトルの２つのグループ、すなわち、第１タームベクトル３３２Ａ及び第２タームベクトル３３２Ｂ（集合的にタームベクトル３３２と呼ばれるか、且つ／あるいは個別的にタームベクトル３３２と呼ばれる。）が、図３には表されている。別々のブロックとしてのトピックベクトル生成プロセス３２０及びタームベクトル生成プロセス３３０の例示は、単なる一例にすぎない。同じトピックベクトル生成プロセス３２０及び／又はタームベクトル生成プロセス３３０が、トピックベクトル３２２及びタームベクトル３３２を夫々生成するために任意数のトピック及び／又は用語に対して使用されてよい。

トピックベクトル生成プロセス３２０は、トピック３１２に基づいてトピックベクトル３２２を生成するよう構成されてよい。トピックベクトル３２２は、如何なる適切な手段、例えば、トピックモード推定プロセス、も用いて生成されてよい。いくつかの実施形態で、トピックベクトル３２２は、トピック３１２に基づく数の多次元ベクトルを含んでよい。例えば、第１トピックベクトル３２２Ａは、第１トピック３１２Ａに基づく数の多次元ベクトルを含んでよい。同様に、第２トピックベクトル３２２Ｂは、第２トピック３１２Ｂに基づいてよい。トピックベクトル３２２は、キーワード−トピック分布を含んでよい。トピックベクトル３２２は、１つ以上の用語がトピックに関連し得る１つ以上の確率を含んでよい。いくつかの実施形態で、トピックベクトル３２２は、１万以上の次元を含んでよい。トピックベクトル３２２は、トピック３１２に関連した用語に基づいてよい。追加的に、又は代替的に、トピックベクトル３２２は、トピック３１２に関連付けられている電子文書に基づいてよい。

トピックベクトル比較プロセス３４０は、２つ以上のトピックベクトル３２２を比較して、トピックベクトル類似スコア３４２を生成するよう構成されてよい。トピックベクトル比較プロセス３４０は、２つ以上のトピックベクトル３２２の間の類似を決定するために２つ以上のトピックベクトル３２２の数学的比較を含んでよい。比較の結果は数値結果であってよい。数値結果はトピックベクトル類似スコア３４２に含まれてよい。トピックベクトル類似スコア３４２は、２つ以上のトピックベクトル３２２の間の類似を表し得る。トピックベクトル類似スコア３４２は、単一の数又は多次元ベクトルの数を含むようにスケーリング又は平均化されてよい。

タームベクトル生成プロセス３３０は、トピック３１２の１つ以上の用語３１４に基づいてタームベクトル３３２を生成するよう構成されてよい。トピック３１２に関連した用語３１４の夫々についてタームベクトル３３２が存在してよい。そのようなものとして、特定のトピックは１よりも多い用語に関連し得るので、特定のトピック、例えば、第１トピック３１２Ａは、１よりも多い第１タームベクトル３３２Ａに関連し得る。

いくつかの実施形態で、タームベクトル３３２は、トピック３１２の用語３１４のうちの１つ以上に基づく数の多次元ベクトルを含んでよい。例えば、第１タームベクトル３３２Ａは、第１トピック３１２Ａの第１用語３１４Ａのうちの１つ以上に基づく数の多次元ベクトルを含んでよい。同様に、第２タームベクトル３３２Ｂは、第２トピック３１２Ｂの１つ以上の第２用語３１４Ｂに基づいてよい。いくつかの実施形態で、タームベクトル３３２は、単語埋め込み（word-embedding）ベクトルを含んでよい。タームベクトル３３２は、言語モデリング又は特徴学習技術を通じて生成されてよい。いくつかの実施形態で、タームベクトル３３２は、事前学習済み（pre-trained）単語埋め込みベクトルであってよい。追加的に、又は代替的に、タームベクトル３３２は、ドメイン特化（domain-specific）単語埋め込みベクトルを含んでよい。例えば、タームベクトル３３２は、分類の特定の目的及び／又は電子文書のソースに関するデータから生成されてよい。いくつかの実施形態で、タームベクトル３３２の夫々は、百以上の次元を含んでよい。タームベクトル３３２は、用語３１４に関連した電子文書に基づいてよい。

タームベクトル比較プロセス３５０は、２つ以上のタームベクトル３３２を比較して、タームベクトル類似スコア３５２を生成するよう構成されてよい。例えば、タームベクトル比較プロセス３５０は、第１トピック３１２Ａに関連した１つ以上の第１タームベクトル３３２Ａを、第２トピック３１２Ｂに関連した１つ以上の第２タームベクトル３３２Ｂと比較するよう構成されてよい。タームベクトル比較プロセス３５０は、２つ以上のタームベクトル３３２の間の類似を決定するために２つ以上のタームベクトル３３２の数学的比較を含んでよい。数学的比較の結果は数値結果であってよい。数値結果はタームベクトル類似スコア３５２に含まれてよい。タームベクトル類似スコア３５２は、２つ以上のタームベクトル３３２の間の類似を表し得る。タームベクトル類似スコア３５２は、単一の数又は多次元ベクトルの数を含むようにスケーリング又は平均化されてよい。

スコア結合プロセス３６０は、２つ以上の類似スコアを結合して、結合類似スコア３６２を生成するよう構成されてよい。例えば、スコア結合プロセス３６０は、トピックベクトル類似スコア３４２とタームベクトル類似スコア３５２とを結合して、結合類似スコア３６２を生成するよう構成されてよい。他の例として、スコア結合プロセス３６０は、２つ以上の第１タームベクトル３３２Ａと２つ以上のタームベクトル３３２Ｂとのタームベクトル比較プロセス３５０の出力に基づく２つ以上のタームベクトル類似スコア３５２を結合するよう構成されてよい。

いくつかの実施形態で、スコア結合プロセス３６０は、結合類似スコア３６２を生成するためにトピックベクトル類似スコア３４２及び／又はタームベクトル類似スコア３５２に対して数学的演算を実行してよい。例えば、スコア結合プロセス３６０は、平均及び／又は加重平均を実行するよう構成されてよい。追加的に、又は代替的、スコア結合プロセス３６０は、結合類似スコア３６２を生成するためにベクトル計算又は線形代数を実行するよう構成されてよい。

本開示の適用範囲から逸脱することなしに、プロセス３００に対して変更、追加、又は削除が行われてよい。例えば、いくつかの実施形態で、トピックベクトル生成プロセス３２０及びトピックベクトル比較プロセス３４０は省略されてもよい。このような又は他の実施形態で、トピックベクトル類似スコア３４２は、プロセス３００から省略されるか、あるいは、他の比較に基づいてよい。このような又は他の実施形態で、結合類似スコア３６２は、タームベクトル類似スコア３５２に基づいてよい。他の例として、タームベクトル生成プロセス３３０及びタームベクトル比較プロセス３５０は、プロセス３００から省略されてもよい。このような又は他の実施形態で、タームベクトル類似スコア３５２は、プロセス３００から省略されるか、あるいは、他の比較に基づいてよい。このような又は他の実施形態で、結合類似スコア３６２は、トピックベクトル類似スコア３４２に基づいてよい。更に、動作の順序は、種々の実施に従って様々であってよい。

これより図１に戻ると、いくつかの実施形態で、パーソナルカテゴリ生成プロセス１２０は、２つのトピックの間の決定された類似に基づいてそれら２つのトピックを結合してよい。図３の結合類似スコア３６２は、２つのトピックの間の類似の指示であってよい。例えば、２つのトピックは、２つのトピックの結合類似スコア３６２が閾値を超えるときに類似であると決定されてよい。追加的に、又は代替的に、２つのトピックは、２つのトピックのトピックベクトル類似スコア３４２及び／又は２つのトピックのタームベクトル類似スコア３５２が閾値を超えるときに類似であると決定されてよい。いくつかの実施形態で、トピックベクトル類似スコア３４２、タームベクトル類似スコア３５２、及び結合類似スコア３６２の夫々について独立した閾値及び基準が存在してよい。例えば、タームベクトル類似スコア３５２が第１閾値を超える場合に、しかし、トピックベクトル類似スコア３４２も第２閾値を超える場合にのみ、２つのトピックは類似であると決定されてよい。上記の閾値のいずれか又は全ては、ユーザによって選択又は入力されても、あるいは、機械学習によって生成されてもよい。

いくつかの実施形態で、パーソナルカテゴリ生成プロセス１２０はパーソナルカテゴリ１２２を生成してよい。パーソナルカテゴリ１２２は、上記のトピック１１２と同じか又は実質的に類似してよい。しかし、パーソナルカテゴリ１２２は、パーソナルカテゴリ生成プロセス１２０の結果として、トピック１１２よりも分類の特定の目的により関連し得る。追加的に、又は代替的に、パーソナルカテゴリ１２２には、重複するトピックがより少なくなる。パーソナルカテゴリ１２２は、パーソナルカテゴリ生成プロセス１２０の間に行われたトピック１１２の任意の追加、置換、及び／又は結合を反映し得る。上述されたように、トピック１１２に関して、パーソナルカテゴリ１２２は、各パーソナルカテゴリ１２２に関連した各電子文書１０８が、電子文書１０８がパーソナルカテゴリ１２２によって記述される主題に関連する程度を示す適切性スコア及び／又は適切性ランクを含み得るように、適切性スコア及び／又は適切性ランクを含んでよい。

いくつかの実施形態で、機械学習プロセス１３０は、パーソナルカテゴリ１２２に基づいて文書分類器モデル１３２を生成するよう構成されてよい。機械学習プロセス１３０は、パーソナルカテゴリ１２２の夫々と関連付けられた電子文書１０８の特性を“学習”するために機械学習を電子文書１０８に適用することによって、文書分類器モデル１３２を構築するよう構成されてよい。機械学習プロセス１３０は、文書分類器モデル１３２を訓練するために、電子文書１０８及びそれらの関連するパーソナルカテゴリ１２２を訓練データとして使用してよい。機械学習プロセス１３０は、任意の適切な機械学習法、例えば、特に、サポートベクトルマシン、又はロジスティック回帰を使用して、文書分類器モデル１３２を生成するよう構成されてよい。

いくつかの実施形態で、機械学習プロセス１３０は、文書分類器モデル１３２を生成するために、電子文書１０８のサブセット及びそれらの関連する精緻化されたトピック１２２を訓練データとして使用してよい。訓練データとして使用され得る電子文書１０８のサブセットは、パーソナルカテゴリ１２２に基づいてよい。例えば、パーソナルカテゴリ１２２の夫々について、最も高い適切性スコアを有している電子文書１０８のサブセットが、機械学習プロセス１３０のための訓練データに含まれてよい。例えば、パーソナルカテゴリ１２２が１０個のトピックと１５００個の電子文書１０８を含んでいる場合に、最も高い適切性スコアを有しているパーソナルカテゴリ１２２の夫々からの１００個の電子文書１０８が、文書分類器モデル１３２の生成のための訓練データとして使用されてよい。よって、電子文書１０８のいくつかは、文書分類器モデル１３２を生成するために使用されないことがある。代替的に、又は追加的に、電子文書１０８の１つ以上は、１０個のパーソナルカテゴリ１２２のうちの２つ以上についての適切性スコアにおいて上位１００個の文書に順位付けされることがある。このような及び他の実施形態で、その１つ以上の電子文書１０８は、文書分類器モデル１３２を生成するために複数回使用され得る。他の例として、パーソナルカテゴリ１２２の夫々について、閾値を超える適切性スコア及び／又は適切性ランクを有している電子文書１０８のサブセットが、機械学習プロセス１３０のための訓練データに含まれてよい。閾値は、ユーザによって又は機械学習プロセスによって選択されてよい。

文書分類プロセス１４０は、文書分類器モデル１３２を用いて電子文書１３８を分類するよう構成されてよい。例えば、文書分類プロセス１４０は、文書分類器モデル１３２の生成中に“学習”された１つ以上の特性に従って、電子文書１３８をパーソナルカテゴリ１２２に分類するよう構成されてよい。

いくつかの実施形態で、電子文書１３８は、電子文書１０８に関して上述された電子文書であってよい。しかし、電子文書１３８は、電子文書１０８と同じであってもなくてもよい。いくつかの実施形態で、電子文書１３８は、電子文書１０８に含まれていた１つ以上の電子文書を含んでもよい。このような又は他の実施形態で、電子文書１３８は、電子文書１０８に含まれていなかった電子文書を含んでもよい。例えば、電子文書１３８は、１つ以上の新たに公開された電子文書を含んでよい。

いくつかの実施形態で、文書分類プロセス１４０は、分類された電子文書１４２を生成するよう構成されてよい。分類された電子文書１４２は、電子文書１３８が文書分類プロセス１４０によって分類された後の電子文書１３８を含んでよい。例えば、分類された電子文書１４２は、分類された電子文書１４２が関連する可能性があるトピック又は主題の指示を含むように編成、タグ付け、ラベル付け、又は別なことが行われてよい。例えば、文書分類プロセス１４０は、電子文書１３８の中の各電子文書を、文書分類器モデル１３２を用いて、パーソナルカテゴリ１２２によって記述された１つ以上の主題に分類するよう構成されてよい。

本開示の適用範囲から逸脱することなしに、プロセス１００に対して変更、追加、又は削除が行われてよい。例えば、いくつかの実施形態で、電子文書１３８及び分類された電子文書１４２は、ただ１つの電子文書しか含まなくてよい。他の例として、フィードバック処理プロセス１２６及び／又は確認されたトピック１２８は、省略されてよい。更に、動作の順序は、種々の実施に従って様々であってよい。

図４は、本開示で記載されている少なくとも１つの実施形態に従って、電子文書の内容に従って電子文書を表示するための、例となるプロセス４００のブロック図である。プロセス４００は、文書順位付けプロセス４５０、電子文書表示プロセス４６４、及びフィードバック処理プロセス４６６を含んでよい。概して、プロセス４００は、分類された電子文書４４２を順位付けし、順位付けされた電子文書４５２を表示するよう構成されてよい。

プロセス４００は、分類された電子文書４４２を取得することを含んでよい。分類された電子文書４４２は、図１の分類された電子文書１４２と同じか又は類似してよい。

文書順位付けプロセス４５０は、分類された電子文書４４２を採点又は順位付けして、順位付けされた電子文書４５２を生成するよう構成されてよい。文書順位付けプロセス４５０は、ユーザが分類された電子文書４４２に関心を持ち得る確率に従って、分類された電子文書４４２を採点又は順位付けするよう構成されてよい。追加的に、又は代替的に、文書順位付けプロセス４５０は、分類された電子文書４４２が分類の特定の目的に関連する確率に従って、分類された電子文書４４２を採点又は順位付けするよう構成されてよい。

これら及び他の実施形態で、文書順位付けプロセス４５０は、ユーザ、ユーザの関心、及び／又は分類の特定の目的に関する情報を記憶してよい。例えば、文書順位付けプロセス４５０は、ユーザによって選択された及び／又は読まれた電子文書に関する情報を記憶してよい。追加的に、又は代替的に、文書順位付けプロセス４５０は、ユーザによって選択されたトピックに関する情報を記憶してよい。追加的に、又は代替的に、文書順位付けプロセス４５０は、“関係あり”又は“関係なし”と指定された文書に関する情報を記憶してよい。例えば、ユーザは、図１のパーソナルカテゴリ生成プロセス１２０の間に又はそれと関連して分類の特定の目的に関連するトピックを選択してよい。いくつかの実施形態で、文書順位付けプロセス４５０は、ユーザ、ユーザの関心、及び／又は分類の特定の目的に関して記憶された情報を使用して、ユーザが分類された電子文書４４２に関心を持ち得る確率、又は分類された電子文書４４２が分類の特定の目的に関連する確率に従って、分類された電子文書４４２を採点又は順位付けしてよい。

追加的に、又は代替的に、順位付けされた電子文書４５２の順位付けは、分類された電子文書４４２の分類の確実性に基づいてよい。例えば、分類された電子文書４４２は、分類された電子文書４４２の分類の確実性の指示を含んでよい。分類された電子文書４４２がそれらの分類において高い確実性を有するほど、より高い点数又は順位が得られる。

追加的に、又は代替的に、文書順位付けプロセス４５０は、分類された電子文書４４２にフィルタをかけて、分類された電子文書４４２のうちの１つ以上を、順位付けされた電子文書４５２から除いてよい。それにより、除かれた電子文書は表示されない。例えば、上述されたように、ユーザは、図１のパーソナルカテゴリ生成プロセス１２０の間に又はそれに関連して特定のトピックが“無関係である”ことを示してよい。文書順位付けプロセス４５０は、特定のトピックと関連付けられた分類された電子文書４４２を、順位付けされた電子文書４５２から除いてよく、それにより、特定のトピックと関連付けられた分類された電子文書４４２は表示されない。

順位付けされた電子文書４５２は、分類された電子文書４４２の中の１つ以上と、順位付けされた電子文書４５２に関連した１つ以上の点数及び／又は順位を含んでよい。いくつかの実施形態で、順位付けされた電子文書４５２は、分類された電子文書４４２の中の全ての電子文書を含んでよい。代替的に、又は追加的に、順位付けされた電子文書４５２は、分類された電子文書４４２の中の１つ以上を除外してよい。除外された分類された電子文書４４２は、特定のトピックが無関係であるとの指示に基づき除外されてよい。

いくつかの実施形態で、電子文書表示プロセス４６４は、順位付けされた電子文書４５２を表示するよう構成されてよい。例えば、電子文書表示プロセス４６４は、順位付けされた電子文書４５２の中の１つ以上のタイトル又は抜粋を最初に表示するよう構成されてよい。このような及び他の実施形態で、電子文書表示プロセス４６４は、順位付けされた電子文書４５２の中の特定の電子文書のタイトルをユーザが選択する場合に、その特定の電子文書の全文を表示するよう構成されてよい。

いくつかの実施形態で、電子文書表示プロセス４６４は、インターフェイス４６０、例えばＧＵＩで、表示されてよい。電子文書表示プロセス４６４は、点数及び／又は順位に従った順序で、順位付けされた電子文書４５２を表示するよう構成されてよい。

追加的に、又は代替的に、電子文書表示プロセス４６４は、グループ分けにおいて、例えばトピックに従って、順位付けされた電子文書４５２を表示するよう構成されてよい。いくつかの実施形態で、電子文書表示プロセス４６４は、トピックの組の中の各トピックについて、特定の数の電子文書を表示するよう構成されてよい。例えば、電子文書表示プロセス４６４は、４つのトピックの夫々において、上位３つの文書を表示してよい。いくつかの実施形態において、電子文書表示プロセス４６４は、関係ありと指定されたトピックと関連付けられていない電子文書より前に、“関係あり”と指定されたトピックと関連付けられた電子文書を表示するよう構成されてよい。

いくつかの実施形態で、フィードバック処理プロセス４６６は、表示されている順位付けされた電子文書４５２の中の１つ以上に関する文書フィードバックを取得するよう構成されてよい。電子文書表示プロセス４６４は、インターフェイス４６０を使用するよう構成されてよい。いくつかの実施形態で、文書フィードバックは、表示されている順位付けされた電子文書４５２の中の特定の電子文書が表示されるべきであるとのユーザ選択を含んでよい。追加的に、又は代替的に、文書フィードバックは、特定の電子文書が“関係がある”又は“無関係である”とのユーザからの指示を含んでよい。追加的に、又は代替的に、文書フィードバックは、特定の電子文書が特定のトピックに関連しないとのユーザからの指示を含んでよい。

いくつかの実施形態で、フィードバック処理プロセス４６６は、表示されている順位付けされた電子文書４５２の中の１つ以上の電子文書のトピックに関するトピックフィードバックを取得するよう構成されてよい。トピックフィードバックは、他のトピックと関連付けられる電子文書をユーザが選択することよりも頻繁に、特定のトピックと関連付けられる電子文書をユーザが選択することを含んでよい。トピックフィードバックは、トピックが“関係がある”又は“無関係である”との指示を含んでよい。トピックフィードバックは、特定のトピックが他のトピックよりも“関連する”との指示を更に含んでもよい。

いくつかの実施形態で、フィードバック処理プロセス４６６は、文書フィードバック及び／又はトピックフィードバックに基づいてモデルアップデート４６２を生成するよう構成されてよい。モデルアップデート４６２は、文書フィードバック及び／又はトピックフィードバックを含んでよい。モデルアップデート４６２は、特定のトピックが文書順位付けプロセス４５０において優先権を与えられるべきであるとの指示を含んでよい。代替的に、又は追加的に、モデルアップデート４６２は、特定のトピックが除去されて、表示されるべきではないとの指示を含んでよい。

いくつかの実施形態で、モデルアップデート４６２は、文書順位付けプロセス４５０へ供給されてよい。文書順位付けプロセス４５０は、モデルアップデート４６２に基づいてユーザ及び／又はユーザの関心に関する情報を更新してよい。追加的に、又は代替的に、文書順位付けプロセス４５０は、モデルアップデート４６２に基づいて、何が分類の特定の目的に“関連”し得るかに関する情報を更新してよい。

追加的に、又は代替的に、モデルアップデート４６２は、図１のトピック抽出プロセス１１０へ供給されてよい。トピック抽出プロセス１１０は、モデルアップデート４６２に基づいてトピック１１２及び／又はトピック抽出モデルを更新するよう構成されてよい。トピック１１２及び／又はトピック抽出モデルの一方又は両方は、プロセス１００の更なる繰り返しのために保持及び使用されてよい。例えば、トピック抽出プロセス１１０は、モデルアップデート４６２に含まれているトピックフィードバックに基づいて、１つ以上のトピック１１２を検証するよう構成されてよい。例えば、特定の電子文書が“関係がある”とユーザが示す場合に、トピック抽出プロセス１１０は、プロセス１００の将来の繰り返しのために、その特定の電子文書と関連付けられた１つ以上のトピックを優先するよう構成されてよい。

追加的に、又は代替的に、モデルアップデート４６２は、図１の機械学習プロセス１３０へ供給されてよい。機械学習プロセス１３０は、モデルアップデート４６２に基づいて文書分類器モデル１３２を更新するよう構成されてよい。文書分類器モデル１３２は、プロセス１００の更なる繰り返しのために保持及び使用されてよい。例えば、機械学習プロセス１３０は、モデルアップデート４６２に含まれている文書フィードバックに基づいて、機械学習プロセス１３０の訓練データにおいて、特定のトピックと関連付けられている特定の電子文書を包含又は除外するよう構成されてよい。例えば、特定の電子文書がトピックの例であるとユーザが示す場合に、機械学習プロセス１３０は、文書分類器モデル１３２の訓練においてその特定の電子文書を使用するよう構成されてよい。

本開示の適用範囲から逸脱することなしに、プロセス４００に対して変更、追加、削除が行われてよい。例えば、文書順位付けプロセス４５０は省略されてよい。このような又は他の実施形態で、分類された電子文書４４２の夫々は、順位付けを考慮せずに表示されてよい。他の例として、フィードバック処理プロセス４６６は省略されてよい。更に、動作の順序は、種々の実施に従って様々であってよい。

図５は、本開示で記載されている少なくとも１つの実施形態に従って、電子文書の内容を解析するよう構成された、例となる方法５００のフローチャートである。方法５００は、如何なる適切なシステム、装置、又はデバイスによっても実行されてよい。例えば、図６のコンピュータシステム６００が、方法５００に関連した動作のうちの１つ以上を実行してよい。たとえ別個のブロックで表されているとしても、方法５００のブロックの中の１つ以上に関連したステップ及び動作は、所望の実施に応じて、更なるブロックに分けられても、より少ないブロックへとまとめられても、あるいは削除されてもよい。

方法５００はブロック５１０から開始してよい。ブロック５１０で、複数の電子文書が取得されてよい。ブロック５１０の電子文書は、図１の電子文書１０８及び／又は図２の電子文書と同じか又は類似してよい。

ブロック５２０で、複数の電子文書と関連付けられた複数のトピックが取得されてよい。複数のトピックは、各トピックが少なくとも１つの電子文書と関連付けられるようにされてよい。追加的に、又は代替的に、複数のトピックは、各電子文書が少なくとも１つのトピックと関連付けられるようにされてもよい。ブロック５２０で、トピックは電子文書と関連付けられてよい。例えば、図１のトピック抽出プロセス１１０と同じか又は類似したプロセスが、複数のトピックを複数の電子文書と関連付けるよう構成されてよい。ブロック５２０のトピックは、図１のトピック１１２及び／又は図２のトピックと同じか又は類似してよい。

いくつかの実施形態で、複数のトピックは、図１のトピック抽出プロセス１１０と同じか又は類似したプロセスを通じて、トピック抽出モデルを用いて複数の電子文書を解析することによって、取得されてよい。追加的に、又は代替的に、複数の電子文書は、トピック抽出モデルを用いて複数の電子文書を解析することによって、複数のトピックと関連付けられてよい。このような及び他の実施形態で、複数のトピックは、トピック抽出モデルへ供給されなくてもよく、複数の電子文書に基づいて生成されてよい。代替的に、又は追加的に、トピックは供給されてもよい。このような及び他の実施形態で、供給され得るトピックは、ユーザからのフィードバックに基づいてよい。一例として、図１の確認されたトピック１２８及び／又は図４のモデルアップデート４６２が、供給されるトピックであってよい。

ブロック５３０で、複数のトピックの中の第１トピックと複数のトピックの中の第２トピックとの間で、類似が決定されてよい。類似は、図１のパーソナルカテゴリ生成プロセス１２０及び／又は図３のプロセス３００と同じか又は類似したプロセスを通じて、決定されてよい。第１トピックは、複数の電子文書の中の第１組の電子文書と関連付けられてよい。いくつかの実施形態で、第１トピックと第２トピックとの間の類似を決定することは、第１トピックに関連した第１用語を表す数の第１タームベクトルを取得することを含んでよい。このような及び他の実施形態で、類似を決定することは、第２トピックに関連した第２用語を表す数の第２タームベクトルを取得し、第１タームベクトルを第２タームベクトルと比較することを更に含んでよい。代替的に、又は追加的に、類似を決定することは、第１タームベクトルと第２タームベクトルとの間の比較により、第１タームベクトルと第２タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、第１トピックと第２トピックとの間の類似を決定することを更に含んでよい。

いくつかの実施形態で、第１トピックと第２トピックとの間の類似を決定することは、第１用語と第１トピックとの間の複数の関連付けを表す第１トピックベクトルを取得することを含んでよい。このような及び他の実施形態で、類似を決定することは、第２用語と第２トピックとの間の複数の関連付けを表す第２トピックベクトルを取得することを更に含んでよく、類似を決定することは、第１トピックベクトルを第２トピックベクトルと比較することを更に含んでよい。このような及び他の実施形態で、類似を決定することは、第１トピックベクトルと第２トピックベクトルとの間の比較により、第１トピックベクトルと第２トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、第１トピックと第２トピックとの間の類似を決定することを更に含んでよい。

ブロック５４０で、複数のトピックは、第１トピックと第２トピックとの間の類似に基づいて精緻化されてよい。ブロック５４０の複数のトピックの精緻化は、ブロック５４２及びブロック５４４を含んでよい。

ブロック５４２で、第１組の電子文書は、第２トピックと関連付けられてよい。いくつかの実施形態で、第１組の電子文書は、第１トピックから切り離されてよい。

ブロック５４４で、第１トピックが複数のトピックから除かれてよい。第１トピックの除去後、残りのトピックは、精緻化されたトピックと呼ばれ得る。いくつかの実施形態で、精緻化されたトピックは、図１のパーソナルカテゴリ１２２と同じか又は類似してよい。

ブロック５５０で、文書分類器モデルが構築されてよい。文書分類器モデルは、精緻化されたトピックの中の第２トピックと関連付けられた少なくとも１つの電子文書に機械学習を適用することによって、構築されてよい。いくつかの実施形態で、文書分類器モデルは、図１の文書分類器モデル１３２と同じか又は類似してよい。いくつかの実施形態で、文書分類器モデルの構築のプロセスは、図１の機械学習プロセス１３０と同じか又は類似してよい。いくつかの実施形態で、文書分類器モデルは、精緻化されたトピックの中の各トピックと関連付けられている少なくとも１つの電子文書に機械学習を適用することによって、構築されてよい。

いくつかの実施形態で、第２トピックに関連付けられている他の電子文書が、文書分類器モデルを構築するために選択されてよい。他の電子文書は、他の電子文書と第２トピックとの間の関連付けの程度が閾値を超えることに基づいて、選択されてよい。いくつかの実施形態で、精緻化されたトピックの中の各トピックと関連付けられている１つの更なる電子文書が、文書分類器モデルを構築するために選択されてよい。更なる電子文書の選択は、更なる電子文書と更なる電子文書が関連付けられている精緻化されたトピックとの間の関連付けの程度が閾値を超えることに基づいてよい。

ブロック５６０で、電子文書が取得されてよい。電子文書は、ブロック５１０で取得された複数の電子文書に含まれても含まれなくてもよい。いくつかの実施形態で、取得された電子文書は、図１の電子文書１３８と同じか又は類似してよい。

ブロック５７０で、電子文書は、文書分類器モデルを用いて、精緻化されたトピックの中のあるトピックに分類されてよい。ブロック５７０に続いて、電子文書は、電子文書の分類に基づくディスプレイでの提示のために、供給されてよい。例えば、電子文書は、同じトピックに従って分類されている他の電子文書とともに表示されてよい。

本開示の適用範囲から逸脱することなしに、方法５００に対して変更、追加、又は削除が行われてよい。例えば、ブロック５４４は省略されてよい。更に、動作の順序は、種々の実施に従って様々であってよい。

当業者に明らかなように、プロセス１００、プロセス３００、プロセス４００、及び方法５００、並びに本明細書で開示されている他のプロセス及び方法について、プロセス及び方法で実行される機能は、別の順序で実施されてもよい。更に、説明されているステップ及び動作は単に例として与えられており、ステップ及び動作のいくつかは、開示されている実施形態の本質から外れることなしに、任意であっても、より少ないステップ及び動作へとまとめられても、あるいは更なるステップ及び動作に拡張されてもよい。

例えば、方法５００は、第１用語及び第２用語を含む用語群を取得すること更に含んでもよい。第１用語は、第１トピックに関連してよく、複数の電子文書の中の第１電子文書から取得されてよい。第２用語は、第２トピックに関連してよく、複数の電子文書の中の第２電子文書から取得されてよい。方法５００は、精緻化されたトピックに対して第３トピックを加えることを更に含んでもよい。第３トピックは、用語群に基づいてよい。第３トピックは、第１電子文書及び第２電子文書と関連付けられてよい。

他の例として、方法５００は、ディスプレイでの提示のために、精緻化されたトピックの中の第２トピックを供給することを更に含んでもよい。方法５００は、第２トピックに関する確認を取得することを更に含んでもよい。上記のトピックフィードバックは、確認の一例であってよい。方法５００は、第２トピックを含めるようにトピック抽出モデルを更新し、第２トピックを含む更新されたトピック抽出モデルを用いて複数の電子文書を解析して、第２の複数のトピックを取得することを更に含んでもよい。

他の例として、方法５００は、電子文書の分類に基づくディスプレイでの提示のために電子文書を供給し、電子文書に関連するフィードバックを取得することを更に含んでもよい。上記の文書フィードバックは、電子文書に関するフィードバックの一例であってよい。方法５００は、フィードバックに基づいて第３トピックを識別することを更に含んでもよい。方法５００は、フィードバックに基づいて第３トピックを含めるようにトピック抽出モデルを更新し、第３トピックを含む更新されたトピック抽出モデルを用いて複数の電子文書を解析して、第２の複数のトピックを取得することを更に含んでもよい。

図６は、例となるコンピュータシステム６００のブロック図である。コンピュータシステム６００は、本開示で記載されている少なくとも１つの実施形態に従ってよい。図６に表されているように、コンピュータシステム６００は、プロセッサ６０２、メモリ６０４、データストレージ６０６、及び通信ユニット６０８を含んでよい。

一般に、プロセッサ６０２は、様々なコンピュータハードウェア又はソフトウェアモジュールを含む如何なる適切な特別目的又は汎用のコンピュータ、コンピューティングエンティティ、又はプロセッシングデバイスも含んでよく、如何なる適用可能なコンピュータ可読記憶媒体でも記憶される命令を実行するよう構成されてよい。例えば、プロセッサ６０２は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィードルプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラム命令を解釈及び／又は実行するよう及び／又はデータを処理するよう構成された何らかの他のデジタル若しくはアナログ回路を含んでよい。たとえ図６において単一のプロセッサとして表されているとしても、プロセッサ６０２は、本明細書で記載されている任意数の動作を個別的に又は集合的に実行するよう構成される任意数のネットワーク又は物理位置にわたって分配された任意数のプロセッサを含んでよい。いくつかの実施形態で、プロセッサ６０２は、メモリ６０４、データストレージ６０６、又はメモリ６０４及びデータストレージ６０６に記憶されているプログラム命令を解釈及び／又は実行してよく、且つ／あるいは、記憶されているデータを処理してよい。いくつかの実施形態で、プロセッサ６０２は、データストレージ６０６からプログラム命令をフェッチし、プログラム命令をメモリ６０４にロードしてよい。プログラム命令がメモリ６０４内にロードされた後、プロセッサ６０２は、図１のプロセス１００、図３のプロセス３００、図４のプロセス４００、及び／又は図５のプロセス５００に関して記載された１つ以上の動作を実行する命令のような、プログラム命令を実行してよい。

メモリ６０４及びデータストレージ６０６は、コンピュータ実行可能命令を搬送又は記憶するためのコンピュータ可読記憶媒体又は１つ以上のコンピュータ可読記憶媒体を含んでよい。そのようなコンピュータ可読記憶媒体は、プロセッサ６０２のような汎用又は特別目的のコンピュータによってアクセスされ得る如何なる利用可能な媒体であってもよい。一例として、限定なしに、そのようなコンピュータ可読記憶媒体には、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、電気的消去可能なプログラム可能リードオンリーメモリ（ＥＥＰＲＯＭ）、コンパクトディスク・リードオンリーメモリ（ＣＤ−ＲＯＭ）若しくは他の光ディスクストレージ、磁気ディスクストレージ若しくは他の磁気記憶デバイス、フラッシュメモリデバイス（例えば、ソリッドステートメモリデバイス）、又はコンピュータ実行可能命令若しくはデータ構造の形で所望のプログラムコードを搬送若しくは記憶するために使用され得且つ汎用若しくは特別目的のコンピュータによってアクセスされ得る何らかの他の記憶媒体を含む非一時的なコンピュータ可読記憶媒体が含まれてよい。上記の組み合わせも、コンピュータ可読記憶媒体の範囲の中に含まれてよい。コンピュータ実行可能命令は、例えば、プロセッサ６０２に特定の動作又は動作群を実行させるよう構成された命令及びデータを含んでよい。

通信ユニット６０８は、電子文書、トピック及び／又はフィードバックを受けるよう、且つ、電子文書、トピック及び／又はフィードバックをデータストレージ６０６へ供給するよう構成されてよい。通信ユニット６０８は、記録、データセット及び／又は仮説上のデータセットを受けるよう、且つ、記録、データセット及び／又は仮説上のデータセットをデータストレージ６０６へ供給するよう構成されてよい。通信ユニット６０８は、コンピュータシステム６００とネットワークとの間の通信を可能にするよう又は助けるよう構成された如何なるデバイス、システム、コンポーネント、又はコンポーネントの集合も含んでよい。例えば、通信ユニット６０８は、制限なしに、モデム、ネットワークカード（無線若しくは有線）、赤外線通信デバイス、光通信デバイス、無線通信デバイス（例えば、アンテナ）、及び／又はチップセット（例えば、ブルートゥース（登録商標）デバイス、８０２．１６デバイス（例えば、メトロポリタンエリアネットワーク（ＭＡＮ））、Ｗｉ−Ｆｉデバイス、Ｗｉ−ＭＡＸデバイス、セルラー通信設備、など）、及び／又は同様ものを含んでよい。通信ユニット６０８は、ほんの数例を挙げれば、セルラーネットワーク、Ｗｉ−Ｆｉネットワーク、ＭＡＮ、光ネットワーク、などのような何らかのネットワーク、及び／又は遠隔のデバイスを含む、本開示で記載されている任意の他のデバイスとデータが交換されることを可能にし得る。

本開示の適用範囲から逸脱することなしに、コンピュータシステム６００に対して変更、追加、又は削除が行われてよい。例えば、データストレージ６０６は、複数の場所に位置し、ネットワークを通じてプロセッサ６０２によってアクセスされてよい。

上述されたように、本明細書で記載されている実施形態は、以下で更に詳細に説明される様々なコンピュータハードウェア又はソフトウェアモジュールを含む特別目的又は汎用のコンピュータ（例えば、図６のプロセッサ）の使用を含んでよい。更に、上述されたように、本明細書で記載されている実施形態は、コンピュータ実行可能な命令又はデータ構造を搬送又は記憶するコンピュータ可読媒体（例えば、図６のメモリ６０４）を用いて実施されてよい。

いくつかの実施形態で、本明細書で記載されている種々のコンポーネント、モジュール、エンジン、及びサービスは、コンピュータシステムで（例えば、別個のスレッドとして）実行するオブジェクト又はプロセスとして実施されてよい。本明細書で記載されているシステム及び方法のいくつかは、（汎用ハードウェアによって記憶及び／又は実行される）ソフトウェアで実施されるものとして概して記載されるが、一方、特定のハードウェア実施又はソフトウェアと特定のハードウェア実施との組み合わせも可能であり、考えられている。

当たり前のこととして、図面に表されている様々な特徴は、実寸通りでないことがある。本開示で提示されている実例は、何らかの特定の装置（例えば、デバイス、システム、など）又は方法の実際の図であるよう意図されず、本開示の様々な実施形態について記載するために用いられる理想的な表現にすぎない。従って、様々な特徴の寸法は、明りょうさのために任意に拡大又は縮小されることがある。その上、図面のいくつかは、明りょうさのために簡単にされることがある。よって、図面は、所与の装置（例えば、デバイス）の構成要素の全部又は特定の方法の全部の動作を表さないことがある。

本明細書で、特に添付の特許請求の範囲（例えば、添付の特許請求の本文）で使用される語は、一般的に、“非限定的な（open）”用語として意図されている（例えば、語「含んでいる（including）」は、“〜を含んでいるが、〜に制限されない”との意に解釈されるべきであり、語「備えている（having）」は、「少なくとも〜を備えている」との意に解釈されるべきであり、語「含む（includes）」は、“〜を含むが、〜に制限されない”との意に解釈されるべきである、など。）。

更に、導入されたクレーム記載（introduced claim recitation）において特定の数が意図される場合、そのような意図は当該クレーム中に明確に記載され、そのような記載がない場合は、そのような意図も存在しない。例えば、理解を促すために、後続の添付された特許請求の範囲では、「少なくとも１つの（at least one）」及び「１つ以上の（one or more）」といった導入句を使用し、クレーム記載を導入することがある。しかし、このような句を使用するからといって、「a」又は「an」といった不定冠詞によりクレーム記載を導入した場合に、たとえ同一のクレーム内に、「１つ以上の」又は「少なくとも１つの」といった導入句と「a」又は「an」といった不定冠詞との両方が含まれるとしても、当該導入されたクレーム記載を含む特定のクレームが、当該記載事項を１しか含まない例に限定されるということが示唆されると解釈されるべきではない（例えば、「a」及び／又は「an」は、「少なくとも１つの」又は「１つ以上の」を意味すると解釈されるべきである。）。定冠詞を使用してクレーム記載を導入する場合にも同様のことが当てはまる。

更には、導入されたクレーム記載において特定の数が明示されている場合であっても、そのような記載は、通常、少なくとも記載された数を意味するように解釈されるべきであることは、当業者には理解されるであろう（例えば、他に修飾語のない、単なる「２つの記載事項」という記載がある場合、この記載は、少なくとも２つの記載事項、又は２つ以上の記載事項を意味する。）。更に、「Ａ、Ｂ及びＣなどのうち少なくとも１つ」又は「Ａ、Ｂ及びＣなどのうちの１つ以上」に類する表記が使用される場合、一般的に、そのような構造は、Ａのみ、Ｂのみ、Ｃのみ、ＡとＢの両方、ＡとＣの両方、ＢとＣの両方、及び／又はＡとＢとＣの全て、などを含むよう意図される。例えば、語「及び／又は（and/or）」の使用は、このように解釈されるよう意図される。

更に、２つ以上の選択可能な用語を表す如何なる離接語及び／又は離接句も、明細書、特許請求の範囲、又は図面のいずれであろうと、それら用語のうちの１つ、それらの用語のうちのいずれか、あるいは、それらの用語の両方を含む可能性を意図すると理解されるべきである。例えば、「Ａ又はＢ」という句は、「Ａ又はＢ」、あるいは、「Ａ及びＢ」の可能性を含むことが理解されるべきである。

加えて、語「第１（first）」、「第２（second）」、「第３（third）」などの使用は、要素の特定の順序又は数を示すために本願で必ずしも使用されているわけではない。一般に、語「第１」、「第２」、「第３」などは、異なる要素どうしを総称的な識別子として区別するために使用される。語「第１」、「第２」、「第３」などが特定の順序を示すとの明示がない限りは、それらの語が特定の順序を示すと理解されるべきではない。更には、語「第１」、「第２」、「第３」などが要素の特定の数を示すとの明示がない限りは、それらの語が要素の特定の数を示すと理解されるべきではない。例えば、第１のウィジェットは、第１の側面を有するものとして記載されることがあり、第２のウィジェットは、第２の側面を有するものとして記載されることがある。第２のウィジェットに対する語「第２の側面」の使用は、第２のウィジェットのその側面を第１のウィジェットの「第１の側面」と区別するためであって、第２のウィジェットが２つの側面を有していることを示すためではない。

ここで挙げられている全ての例及び条件付き言語は、当該技術の促進に本発明者によって寄与される概念及び本発明を読者が理解するのを助ける教育上の目的を意図され、そのような具体的に挙げられている例及び条件に制限されないと解釈されるべきである。本開示の実施形態が詳細に記載されてきたが、様々な変更、置換、及び代替が、本開示の主旨及び適用範囲から逸脱することなしに行われてよい。

上記の実施形態に加えて、以下の付記を開示する。
（付記１）
複数の電子文書を取得することと、
各トピックが少なくとも１つの電子文書と関連付けられるように前記複数の電子文書と関連付けられた複数のトピックを取得することと、
前記複数のトピックの中の第１トピックと前記複数のトピックの中の第２トピックとの間の類似を決定することであり、前記第１トピックは、前記複数の電子文書の中の第１組に関連し、前記決定することと、
前記第１トピックと前記第２トピックとの間の前記類似に基づいて前記複数のトピックを精緻化することであり、該精緻化することは、前記複数の電子文書の中の前記第１組を前記第２トピックと関連付け、前記第１トピックを前記複数のトピックから除くことを含む、前記精緻化することと、
前記精緻化された複数のトピックの夫々と関連付けられた前記複数の電子文書の中の少なくとも１つの電子文書に機械学習を適用することによって、前記精緻化された複数のトピックに従って電子文書を分類するよう構成された文書分類器モデルを構築することと、
電子文書を取得することと、
前記文書分類器モデルを用いて、前記取得された電子文書を前記精緻化された複数のトピックの中の１トピックに分類することと
を有する方法。
（付記２）
前記第１トピックは、前記複数の電子文書の中の第１電子文書から取得された第１用語に関連し、
前記第２トピックは、前記複数の電子文書の中の第２電子文書から取得された第２用語に関連し、該第２用語は、前記第１トピックと関連せず、
前記複数のトピックを精緻化することは、
前記第１用語及び前記第２用語を含む用語群を取得することと、
前記用語群に基づく第３トピックを前記精緻化された複数のトピックに加えることであり、前記第３トピックは、前記第１電子文書及び前記第２電子文書に関連する、前記加えることと
を更に含む、
付記１に記載の方法。
（付記３）
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、
前記第１トピックに関連する第１用語を表す数の第１タームベクトルを取得することと、
前記第２トピックに関連する第２用語を表す数の第２タームベクトルを取得することと、
前記第１タームベクトルを前記第２タームベクトルと比較することと、
前記第１タームベクトルと前記第２タームベクトルとの間の前記比較により、前記第１タームベクトルと前記第２タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第１トピックと前記第２トピックとの間の前記類似を決定することと
を有する、
付記１に記載の方法。
（付記４）
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、
第１の複数の用語と前記第１トピックとの間の複数の関連付けを表す第１トピックベクトルを取得することと、
第２の複数の用語と前記第２トピックとの間の複数の関連付けを表す第２トピックベクトルを取得することと、
前記第１トピックベクトルを前記第２トピックベクトルと比較することと、
前記第１トピックベクトルと前記第２トピックベクトルとの間の前記比較により、前記第１トピックベクトルと前記第２トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第１トピックと前記第２トピックとの間の前記類似を決定することと
を有する、
付記１に記載の方法。
（付記５）
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、
前記第１トピックに関連する第１用語を表す数の第１タームベクトルを取得することと、
前記第２トピックに関連する第２用語を表す数の第２タームベクトルを取得することと、
前記第１タームベクトルを前記第２タームベクトルと比較することと
を更に有し、
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、前記第１タームベクトルと前記第２タームベクトルとの間の前記比較により、前記第１タームベクトルと前記第２タームベクトルとの間の類似が閾値を超えることが示されることに更に基づく、
付記４に記載の方法。
（付記６）
前記文書分類器モデルを構築するために、前記第２トピックに関連する前記複数の電子文書の中の他の電子文書を選択することを更に有し、
前記他の電子文書は、該他の電子文書と前記第２トピックとの間の関連付けの程度が閾値を超えることに基づいて選択される、
付記１に記載の方法。
（付記７）
前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することを更に有する、
付記１に記載の方法。
（付記８）
トピック抽出モデルを用いて前記複数の電子文書を解析して、前記複数のトピックを取得し、前記複数の電子文書を前記複数のトピックと関連付けることを更に有し、
前記解析することは、トピックが前記トピック抽出モデルへ供給することなしに実行される、
付記１に記載の方法。
（付記９）
ディスプレイでの提示のために前記精緻化された複数のトピックの中の前記第２トピックを供給することと、
前記第２トピックに関する確認を取得することと、
前記第２トピックを含めるように前記トピック抽出モデルを更新することと、
前記第２トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第２の複数のトピックを取得することと
を更に有する付記８に記載の方法。
（付記１０）
前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することと、
前記取得された電子文書に関するフィードバックを取得することと、
前記フィードバックに基づいて第３トピックを特定することと、
前記フィードバックに基づいて、前記第３トピックを含めるように前記トピック抽出モデルを更新することと、
前記第３トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第２の複数のトピックを取得することと
を更に有する付記８に記載の方法。
（付記１１）
１以上の命令を記憶するよう構成される少なくとも１つの非一時的なコンピュータ可読媒体であって、
前記命令は、少なくとも１つのプロセッサによって実行されるときに、システムに、
複数の電子文書を取得することと、
各トピックが少なくとも１つの電子文書と関連付けられるように前記複数の電子文書と関連付けられた複数のトピックを取得することと、
前記複数のトピックの中の第１トピックと前記複数のトピックの中の第２トピックとの間の類似を決定することであり、前記第１トピックは、前記複数の電子文書の中の第１組に関連し、前記決定することと、
前記第１トピックと前記第２トピックとの間の前記類似に基づいて前記複数のトピックを精緻化することであり、該精緻化することは、前記複数の電子文書の中の前記第１組を前記第２トピックと関連付け、前記第１トピックを前記複数のトピックから除くことを含む、前記精緻化することと、
前記精緻化された複数のトピックの夫々と関連付けられた前記複数の電子文書の中の少なくとも１つの電子文書に機械学習を適用することによって、前記精緻化された複数のトピックに従って電子文書を分類するよう構成された文書分類器モデルを構築することと、
電子文書を取得することと、
前記文書分類器モデルを用いて、前記取得された電子文書を前記精緻化された複数のトピックの中の１トピックに分類することと
を有する動作を実行させる、
非一時的なコンピュータ可読媒体。
（付記１２）
前記第１トピックは、前記複数の電子文書の中の第１電子文書から取得された第１用語に関連し、
前記第２トピックは、前記複数の電子文書の中の第２電子文書から取得された第２用語に関連し、該第２用語は、前記第１トピックと関連せず、
前記複数のトピックを精緻化することは、
前記第１用語及び前記第２用語を含む用語群を取得することと、
前記用語群に基づく第３トピックを前記精緻化された複数のトピックに加えることであり、前記第３トピックは、前記第１電子文書及び前記第２電子文書に関連する、前記加えることと
を更に含む、
付記１１に記載の非一時的なコンピュータ可読媒体。
（付記１３）
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、
前記第１トピックに関連する第１用語を表す数の第１タームベクトルを取得することと、
前記第２トピックに関連する第２用語を表す数の第２タームベクトルを取得することと、
前記第１タームベクトルを前記第２タームベクトルと比較することと、
前記第１タームベクトルと前記第２タームベクトルとの間の前記比較により、前記第１タームベクトルと前記第２タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第１トピックと前記第２トピックとの間の前記類似を決定することと
を有する、
付記１１に記載の非一時的なコンピュータ可読媒体。
（付記１４）
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、
第１の複数の用語と前記第１トピックとの間の複数の関連付けを表す第１トピックベクトルを取得することと、
第２の複数の用語と前記第２トピックとの間の複数の関連付けを表す第２トピックベクトルを取得することと、
前記第１トピックベクトルを前記第２トピックベクトルと比較することと、
前記第１トピックベクトルと前記第２トピックベクトルとの間の前記比較により、前記第１トピックベクトルと前記第２トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第１トピックと前記第２トピックとの間の前記類似を決定することと
を有する、
付記１１に記載の非一時的なコンピュータ可読媒体。
（付記１５）
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、
前記第１トピックに関連する第１用語を表す数の第１タームベクトルを取得することと、
前記第２トピックに関連する第２用語を表す数の第２タームベクトルを取得することと、
前記第１タームベクトルを前記第２タームベクトルと比較することと
を更に有し、
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、前記第１タームベクトルと前記第２タームベクトルとの間の前記比較により、前記第１タームベクトルと前記第２タームベクトルとの間の類似が閾値を超えることが示されることに更に基づく、
付記１４に記載の非一時的なコンピュータ可読媒体。
（付記１６）
前記動作は、前記文書分類器モデルを構築するために、前記第２トピックに関連する前記複数の電子文書の中の他の電子文書を選択することを更に有し、
前記他の電子文書は、該他の電子文書と前記第２トピックとの間の関連付けの程度が閾値を超えることに基づいて選択される、
付記１１に記載の非一時的なコンピュータ可読媒体。
（付記１７）
前記動作は、前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することを更に有する、
付記１１に記載の非一時的なコンピュータ可読媒体。
（付記１８）
前記動作は、トピック抽出モデルを用いて前記複数の電子文書を解析して、前記複数のトピックを取得し、前記複数の電子文書を前記複数のトピックと関連付けることを更に有し、
前記解析することは、トピックが前記トピック抽出モデルへ供給することなしに実行される、
付記１１に記載の非一時的なコンピュータ可読媒体。
（付記１９）
前記動作は、
ディスプレイでの提示のために前記精緻化された複数のトピックの中の前記第２トピックを供給することと、
前記第２トピックに関する確認を取得することと、
前記第２トピックを含めるように前記トピック抽出モデルを更新することと、
前記第２トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第２の複数のトピックを取得することと
を更に有する、
付記１８に記載の非一時的なコンピュータ可読媒体。
（付記２０）
前記動作は、
前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することと、
前記取得された電子文書に関するフィードバックを取得することと、
前記フィードバックに基づいて第３トピックを特定することと、
前記フィードバックに基づいて、前記第３トピックを含めるように前記トピック抽出モデルを更新することと、
前記第３トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第２の複数のトピックを取得することと
を更に有する、
付記１８に記載の非一時的なコンピュータ可読媒体。

１００電子文書の内容を解析するプロセス
１０８，１３８電子文書
１１０トピック抽出プロセス
１１２，３１２トピック
１２０，２００パーソナルカテゴリ生成プロセス
１２２パーソナルカテゴリ
１２４トピック表示プロセス
１２８確認されたトピック
１３０機械学習プロセス
１３２文書分類器モデル
１４０文書分類プロセス
１４２，４４２分類された電子文書
３００２つのトピックの間の類似を決定するプロセス
３１４用語
３２０トピックベクトル生成プロセス
３２２トピックベクトル
３３０タームベクトル生成プロセス
３３２タームベクトル
３４０トピックベクトル比較プロセス
３４２トピックベクトル類似スコア
３５０タームベクトル比較プロセス
３５２タームベクトル類似スコア
３６０スコア結合プロセス
３６２結合類似スコア
４００電子文書を表示するプロセス
４５０文書順位付けプロセス
４５２順位付けされた電子文書
４６０インターフェイス
４６２モデルアップデート
４６４電子文書表示プロセス
４６６フィードバック処理プロセス
５００電子文書の内容を解析する方法
６００コンピュータシステム
６０２プロセッサ
６０４メモリ
６０６データストレージ
６０８通信ユニット

Claims

複数の電子文書を取得することと、
各トピックが少なくとも１つの電子文書と関連付けられるように前記複数の電子文書と関連付けられた複数のトピックを取得することと、
前記複数のトピックの中の第１トピックと前記複数のトピックの中の第２トピックとの間の類似を決定することであり、前記第１トピックは、前記複数の電子文書の中の第１組に関連し、前記決定することと、
前記第１トピックと前記第２トピックとの間の前記類似に基づいて前記複数のトピックを精緻化することであり、該精緻化することは、前記複数の電子文書の中の前記第１組を前記第２トピックと関連付け、前記第１トピックを前記複数のトピックから除くことを含む、前記精緻化することと、
前記精緻化された複数のトピックの夫々と関連付けられた前記複数の電子文書の中の少なくとも１つの電子文書に機械学習を適用することによって、前記精緻化された複数のトピックに従って電子文書を分類するよう構成された文書分類器モデルを構築することと、
電子文書を取得することと、
前記文書分類器モデルを用いて、前記取得された電子文書を前記精緻化された複数のトピックの中の１トピックに分類することと
を有する方法。
前記第１トピックは、前記複数の電子文書の中の第１電子文書から取得された第１用語に関連し、
前記第２トピックは、前記複数の電子文書の中の第２電子文書から取得された第２用語に関連し、該第２用語は、前記第１トピックと関連せず、
前記複数のトピックを精緻化することは、
前記第１用語及び前記第２用語を含む用語群を取得することと、
前記用語群に基づく第３トピックを前記精緻化された複数のトピックに加えることであり、前記第３トピックは、前記第１電子文書及び前記第２電子文書に関連する、前記加えることと
を更に含む、
請求項１に記載の方法。
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、
前記第１トピックに関連する第１用語を表す数の第１タームベクトルを取得することと、
前記第２トピックに関連する第２用語を表す数の第２タームベクトルを取得することと、
前記第１タームベクトルを前記第２タームベクトルと比較することと、
前記第１タームベクトルと前記第２タームベクトルとの間の前記比較により、前記第１タームベクトルと前記第２タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第１トピックと前記第２トピックとの間の前記類似を決定することと
を有する、
請求項１に記載の方法。
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、
第１の複数の用語と前記第１トピックとの間の複数の関連付けを表す第１トピックベクトルを取得することと、
第２の複数の用語と前記第２トピックとの間の複数の関連付けを表す第２トピックベクトルを取得することと、
前記第１トピックベクトルを前記第２トピックベクトルと比較することと、
前記第１トピックベクトルと前記第２トピックベクトルとの間の前記比較により、前記第１トピックベクトルと前記第２トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第１トピックと前記第２トピックとの間の前記類似を決定することと
を有する、
請求項１に記載の方法。
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、
前記第１トピックに関連する第１用語を表す数の第１タームベクトルを取得することと、
前記第２トピックに関連する第２用語を表す数の第２タームベクトルを取得することと、
前記第１タームベクトルを前記第２タームベクトルと比較することと
を更に有し、
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、前記第１タームベクトルと前記第２タームベクトルとの間の前記比較により、前記第１タームベクトルと前記第２タームベクトルとの間の類似が閾値を超えることが示されることに更に基づく、
請求項４に記載の方法。
前記文書分類器モデルを構築するために、前記第２トピックに関連する前記複数の電子文書の中の他の電子文書を選択することを更に有し、
前記他の電子文書は、該他の電子文書と前記第２トピックとの間の関連付けの程度が閾値を超えることに基づいて選択される、
請求項１に記載の方法。
前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することを更に有する、
請求項１に記載の方法。
トピック抽出モデルを用いて前記複数の電子文書を解析して、前記複数のトピックを取得し、前記複数の電子文書を前記複数のトピックと関連付けることを更に有し、
前記解析することは、トピックが前記トピック抽出モデルへ供給することなしに実行される、
請求項１に記載の方法。
ディスプレイでの提示のために前記精緻化された複数のトピックの中の前記第２トピックを供給することと、
前記第２トピックに関する確認を取得することと、
前記第２トピックを含めるように前記トピック抽出モデルを更新することと、
前記第２トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第２の複数のトピックを取得することと
を更に有する請求項８に記載の方法。
前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することと、
前記取得された電子文書に関するフィードバックを取得することと、
前記フィードバックに基づいて第３トピックを特定することと、
前記フィードバックに基づいて、前記第３トピックを含めるように前記トピック抽出モデルを更新することと、
前記第３トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第２の複数のトピックを取得することと
を更に有する請求項８に記載の方法。
１以上の命令を記憶するよう構成される少なくとも１つの非一時的なコンピュータ可読媒体であって、
前記命令は、少なくとも１つのプロセッサによって実行されるときに、システムに、
複数の電子文書を取得することと、
各トピックが少なくとも１つの電子文書と関連付けられるように前記複数の電子文書と関連付けられた複数のトピックを取得することと、
前記複数のトピックの中の第１トピックと前記複数のトピックの中の第２トピックとの間の類似を決定することであり、前記第１トピックは、前記複数の電子文書の中の第１組に関連し、前記決定することと、
前記第１トピックと前記第２トピックとの間の前記類似に基づいて前記複数のトピックを精緻化することであり、該精緻化することは、前記複数の電子文書の中の前記第１組を前記第２トピックと関連付け、前記第１トピックを前記複数のトピックから除くことを含む、前記精緻化することと、
前記精緻化された複数のトピックの夫々と関連付けられた前記複数の電子文書の中の少なくとも１つの電子文書に機械学習を適用することによって、前記精緻化された複数のトピックに従って電子文書を分類するよう構成された文書分類器モデルを構築することと、
電子文書を取得することと、
前記文書分類器モデルを用いて、前記取得された電子文書を前記精緻化された複数のトピックの中の１トピックに分類することと
を有する動作を実行させる、
非一時的なコンピュータ可読媒体。
前記第１トピックは、前記複数の電子文書の中の第１電子文書から取得された第１用語に関連し、
前記第２トピックは、前記複数の電子文書の中の第２電子文書から取得された第２用語に関連し、該第２用語は、前記第１トピックと関連せず、
前記複数のトピックを精緻化することは、
前記第１用語及び前記第２用語を含む用語群を取得することと、
前記用語群に基づく第３トピックを前記精緻化された複数のトピックに加えることであり、前記第３トピックは、前記第１電子文書及び前記第２電子文書に関連する、前記加えることと
を更に含む、
請求項１１に記載の非一時的なコンピュータ可読媒体。
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、
前記第１トピックに関連する第１用語を表す数の第１タームベクトルを取得することと、
前記第２トピックに関連する第２用語を表す数の第２タームベクトルを取得することと、
前記第１タームベクトルを前記第２タームベクトルと比較することと、
前記第１タームベクトルと前記第２タームベクトルとの間の前記比較により、前記第１タームベクトルと前記第２タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第１トピックと前記第２トピックとの間の前記類似を決定することと
を有する、
請求項１１に記載の非一時的なコンピュータ可読媒体。
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、
第１の複数の用語と前記第１トピックとの間の複数の関連付けを表す第１トピックベクトルを取得することと、
第２の複数の用語と前記第２トピックとの間の複数の関連付けを表す第２トピックベクトルを取得することと、
前記第１トピックベクトルを前記第２トピックベクトルと比較することと、
前記第１トピックベクトルと前記第２トピックベクトルとの間の前記比較により、前記第１トピックベクトルと前記第２トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第１トピックと前記第２トピックとの間の前記類似を決定することと
を有する、
請求項１１に記載の非一時的なコンピュータ可読媒体。
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、
前記第１トピックに関連する第１用語を表す数の第１タームベクトルを取得することと、
前記第２トピックに関連する第２用語を表す数の第２タームベクトルを取得することと、
前記第１タームベクトルを前記第２タームベクトルと比較することと
を更に有し、
前記第１トピックと前記第２トピックとの間の前記類似を決定することは、前記第１タームベクトルと前記第２タームベクトルとの間の前記比較により、前記第１タームベクトルと前記第２タームベクトルとの間の類似が閾値を超えることが示されることに更に基づく、
請求項１４に記載の非一時的なコンピュータ可読媒体。
前記動作は、前記文書分類器モデルを構築するために、前記第２トピックに関連する前記複数の電子文書の中の他の電子文書を選択することを更に有し、
前記他の電子文書は、該他の電子文書と前記第２トピックとの間の関連付けの程度が閾値を超えることに基づいて選択される、
請求項１１に記載の非一時的なコンピュータ可読媒体。
前記動作は、前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することを更に有する、
請求項１１に記載の非一時的なコンピュータ可読媒体。
前記動作は、トピック抽出モデルを用いて前記複数の電子文書を解析して、前記複数のトピックを取得し、前記複数の電子文書を前記複数のトピックと関連付けることを更に有し、
前記解析することは、トピックが前記トピック抽出モデルへ供給することなしに実行される、
請求項１１に記載の非一時的なコンピュータ可読媒体。
前記動作は、
ディスプレイでの提示のために前記精緻化された複数のトピックの中の前記第２トピックを供給することと、
前記第２トピックに関する確認を取得することと、
前記第２トピックを含めるように前記トピック抽出モデルを更新することと、
前記第２トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第２の複数のトピックを取得することと
を更に有する、
請求項１８に記載の非一時的なコンピュータ可読媒体。
前記動作は、
前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することと、
前記取得された電子文書に関するフィードバックを取得することと、
前記フィードバックに基づいて第３トピックを特定することと、
前記フィードバックに基づいて、前記第３トピックを含めるように前記トピック抽出モデルを更新することと、
前記第３トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第２の複数のトピックを取得することと
を更に有する、
請求項１８に記載の非一時的なコンピュータ可読媒体。