JP2020091857A - 電子文書の分類 - Google Patents

電子文書の分類 Download PDF

Info

Publication number
JP2020091857A
JP2020091857A JP2019211523A JP2019211523A JP2020091857A JP 2020091857 A JP2020091857 A JP 2020091857A JP 2019211523 A JP2019211523 A JP 2019211523A JP 2019211523 A JP2019211523 A JP 2019211523A JP 2020091857 A JP2020091857 A JP 2020091857A
Authority
JP
Japan
Prior art keywords
topic
term
topics
vector
electronic document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019211523A
Other languages
English (en)
Other versions
JP7484141B2 (ja
Inventor
ワン・ジュヌ
Ju-Nu Wang
内野 寛治
Kanji Uchino
寛治 内野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2020091857A publication Critical patent/JP2020091857A/ja
Application granted granted Critical
Publication of JP7484141B2 publication Critical patent/JP7484141B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】電子文書を分類する方法等を提供する。【解決手段】方法は、複数の電子文書及び電子文書と関連付けられた複数のトピックを取得することを含んでよい。方法は、第1トピックと第2トピックとの間の類似を決定することを更に含んでよい。第1トピックは第1組の電子文書に関連し得る。方法は、第1組の電子文書を第2トピックと関連付け、第1トピックを複数のトピックから除くことによって、第1トピックと第2トピックとの間の類似に基づき複数のトピックを精緻化することを更に含んでよい。方法は、精緻化されたトピックの夫々と関連付けられた少なくとも1つの電子文書に機械学習を適用することによって、文書分類器モデルを構築することを更に含んでよい。方法は、電子文書を取得し、その電子文書を、文書分類器モデルを用いて、精緻化されたトピックの中の1トピックに分類することを更に含んでよい。【選択図】図1

Description

本開示で説明される実施形態は、電子文書を分類することに関係がある。
企業及び公共機関は、“.txt”、“.doc”、“.pdf”、及び“.html”を含む形式をとる電子文書のような、多数の電子文書を生成、受信、及び保持する。それらの電子文書は、とりわけ、企業及び公共機関のユーザが見るために検索され得る。幾度も、電子文書は、電子文書が含む題材に基づいて分類されていない。
電子文書を分類する方法は、複数の電子文書及び電子文書と関連付けられた複数のトピックを取得することを含んでよい。複数のトピックは、各トピックが少なくとも1つの電子文書と関連付けられ得且つ各電子文書が少なくとも1つのトピックと関連付けられ得るように複数の文書と関連付けられ得る。方法は、複数のトピックの中の第1トピックと複数のトピックの中の第2トピックとの間の類似を決定することを更に含んでよい。第1トピックは、複数の電子文書の中の第1組の電子文書に関連し得る。方法は、第1トピックと第2トピックとの間の類似に基づき複数のトピックを精緻化することを更に含んでよい。精緻化することは、第1組の電子文書を第2トピックと関連付け、第1トピックを複数のトピックから除くことを含んでよい。方法は、精緻化されたトピックの夫々と関連付けられた複数の電子文書の中の少なくとも1つの電子文書に機械学習を適用することによって、文書分類器モデルを構築することを更に含んでよい。文書分類器モデルは、精緻化されたトピックに従って電子文書を分類するよう構成され得る。方法は、複数の電子文書の中にない電子文書を取得し、その電子文書を、文書分類器モデルを用いて、精緻化されたトピックの中の1トピックに分類することを更に含んでよい。
実施形態の目的及び/又は利点は、特許請求の範囲で特に指し示されている要素、特徴、及び組み合わせに少なくともよって、実現又は達成されるだろう。
上記の概要及び以下の詳細な説明は、例及び説明として与えられており、請求されている本開示の限定ではない。
例となる実施形態は、添付の図面の使用を通じて、更なる特定及び詳細をもって記載及び説明される。
電子文書の内容を解析するプロセスの例のブロック図である。 パーソナルカテゴリを生成するプロセスの例のフローチャートである。 2つのトピックの間の類似を決定するプロセスの例のブロック図である。 電子文書の内容に従ってその電子文書を表示するプロセスの例のブロック図である。 電子文書の内容を解析する方法の例のフローチャートである。 電子文書の内容を解析するよう構成され得るコンピュータシステムの例のブロック図である。
本開示で記載される方法及びシステムは、文書の内容に従う文書分類に関係がある。文書分類は、多数の電子文書から特定の目的に関する文書を識別することを助けるために使用されてよい。例えば、ユーザは、語「bug」を含む電子文書を検索し得る。文書分類は、昆虫に関係がある電子文書と、ソフトウェア開発に関係がある電子文書とを区別するために使用され得る。
他の例として、文書分類は、ユーザの特定された関心に基づき、ユーザに提示すべき電子文書を識別するために使用されてよい。例えば、ユーザが特定の国の経済に関心を持っているが、その国のスポーツチームには関心がない場合に、文書分類は、ユーザへの提示のために、その特定の国のスポーツチームは除いて、その特定の国の経済に関係がある国際ニュースフィードから電子文書を識別するために使用され得る。
いくつかの事例で、文書分類は、文書の分類の前に選択される予め決められたカテゴリを用いて実行されてよい。予め決められたカテゴリは、生成するのに大きな労力を要することがある。いくつかの事例で、関連するカテゴリを識別することは、カテゴリの専門家又は分類の特定の目的を必要とすることがある。例えば、関連するカテゴリを識別することは、「生成モデル」(Generative Model)と「識別モデル」(Discriminative Model)との間に関連する差があるかどうかを判定するために、分類の特定の目的に基づく判断を必要とし得る。
予め決められたカテゴリが生成するのに大きな労力を要する1つの理由は、予め決められたカテゴリが、分類されている電子文書の集合に基づき異なることがあるからである。例えば、一般ニュース記事、例えば、“washingtonpost.com”からの記事、の集合に対する予め決められたカテゴリは、工業技術に関係がある学術記事、例えば、電気電子技術者協会(IEEE)からの出版物、の集合に対する予め決められたカテゴリとは異なることがある。
更に、多数の予め決められたカテゴリは、分類の実用性を高め得る一方で、それはまた、関連するカテゴリを識別する複雑さも増大させる可能性がある。例えば、工業技術出版物を分類するための10のカテゴリを識別することは、1000のカテゴリを識別することよりも簡単であるかもしれない。しかし、1000のカテゴリに従って工業技術出版物を分類することは、より有用であり得る。
本開示の方法及びシステムは、電子文書に関する予め決められたカテゴリによらずにそれらの電子文書を分類することに関係があり得る。いくつかの実施形態では、電子文書内のトピックを発見するために、トピックモデルが使用されてよい。トピックモデルは、電子文書に含まれているトピックを自動的に発見するための教師なし(unsupervised)又は半教師あり(semi-supervised)機械学習モデルを含んでよい。
いくつかの実施形態では、トピックを発見した後に、発見されたトピックは、パーソナルカテゴリを生成するために精緻化されてよい。例えば、識別されたトピックを精緻化することは、類似したトピックを結合すること、トピックを除くこと、及び/又は新しいトピックを加えることを含んでよい。結果として、電子文書の夫々は、パーソナルカテゴリの中の少なくとも1カテゴリと関連付けられ得る。電子文書は、電子文書の主題、テーマ、要旨、論点、及び/又は内容の核心を記述するパーソナルカテゴリに基づき、パーソナルカテゴリと関連付けられ得る。他の結果として、パーソナルカテゴリは、分類の特定の目的に関連するトピックを含め、分類の特定の目的に無関係であるか又は重複すると特定され得るトピックを除いてよい。本開示で、語「パーソナルカテゴリ」は、分類の特定のカスタマイズされた目的に関するカテゴリを指すことができ、そのようなものとして、語「パーソナルカテゴリ」は、必ずしも人に言及するわけではない。
いくつかの実施形態で、ユーザは、識別されたトピック及び/又はパーソナルカテゴリに関するフィードバックを与えてよい。このフィードバックは、本開示では、トピックフィードバックと呼ばれ得る。そのような及び他の実施形態で、トピックフィードバックは、精緻化されたトピック及び/又はトピックモデルを更新するために使用されてよい。
いくつかの実施形態で、パーソナルカテゴリ及びそれらの関連する電子文書を訓練データとして取得した後、文書分類器モデルは、電子文書及びパーソナルカテゴリに機械学習を適用することによって訓練されてよい。文書分類器モデルは、パーソナルカテゴリに従って他の電子文書を分類するために使用されてよい。分類された電子文書は、それらの電子文書の分類に基づいてユーザに提示されてよい。
いくつかの実施形態で、ユーザは、分類された電子文書及び/又は他の電子文書の分類に関するフィードバックを与えてよい。このフィードバックは、本開示では、文書フィードバックと呼ばれ得る。そのような又は他の実施形態で、文書フィードバックは、パーソナルカテゴリ、トピックモデル、及び/又は文書分類器モデルを更新するために使用されてよい。
本開示の方法及びシステムは、電子文書を分類するための予め決められたカテゴリ(又は分類法)によらずにそれらの電子文書を分類することをコンピュータに可能にし得るので、本開示の方法及びシステムは、コンピュータ関連技術の改善に関係があり得る。電子文書の分類のための従前のシステムは、予め決められたカテゴリを使用した。その上、本開示の方法及びシステムは、コンピュータが、トピックをカテゴリにマッピングし、トピックを比較し、類似したトピックをマージすることによって、カテゴリを増加的に取得することを可能にし得るので、本開示は、コンピュータ関連技術の改善に関係があり得る。その上、本開示の方法及びシステムは、カテゴリへの文書の分類を改善し得るカテゴリを生成するようにトピックをより効率的且つ効果的に精緻化することをコンピュータに可能にし得るので、本開示の方法及びシステムは、コンピュータ自体の機能の改善に関係があり得る。例えば、本開示の方法及びシステムのいくつかは、トピックを入力として(予め決められていてもいなくてもよい。)使用し、トピックを比較するよう構成されてよい。類似したトピックは結合されてよい。結合の結果が、分類の特定の目的により関連し得るパーソナルカテゴリであることができる。よって、パーソナルカテゴリに基づく分類は、分類の特定の目的により関連する結果をもたらし得る。
図1は、本開示で記載される少なくとも1つの実施形態に従って電子文書の内容を解析する、例となるプロセス100のブロック図である。いくつかの実施形態で、プロセス100は、トピック抽出プロセス110、パーソナルカテゴリ生成プロセス120、機械学習プロセス130、及び文書分類プロセス140を含んでよい。概して、プロセス100は、電子文書108のトピック112を識別し、トピック112を精緻化してパーソナルカテゴリ122を生成し、パーソナルカテゴリ122に従って電子文書138を分類するために使用されてよい。
いくつかの実施形態で、プロセス100は、電子文書108を取得することを含んでよい。電子文書108は、文書項目の中でもとりわけ、テキスト、画像、グラフ、挿絵、図表を含んでよい。代替的に、又は追加的に、電子文書108は、何らかの適切な形式、例えば、特に、“.txt”、“.doc”、“.pdf”、及び“.html”をとり得る。電子文書108は、何らかのソース、例えば、数あるソースの中でも特に、ニュース記事、雑誌記事、学術論文、学術記事、電子ブック、及びウェブページからであってよい。
概して、トピック抽出プロセス110は、電子文書108が対象とするトピックを決定するよう構成されてよい。追加的に、又は代替的に、トピック抽出プロセス110は、電子文書108をトピック112と関連付けるよう構成されてよい。いくつかの実施形態で、トピック抽出プロセス110は、機械学習モデルを用いて実行されてよい。一例として、機械学習モデルは、「トピックモデル」と当該技術で呼ばれ得るトピック抽出モデルを含んでよい。
これら及び他の実施形態で、電子文書108は、トピック抽出プロセス110の間に解析されてよい。電子文書108の解析に基づいて、電子文書108主題、テーマ、要旨、論点、及び/又は内容の核心が決定されてよい。例えば、電子文書108主題、テーマ、要旨、論点、及び/又は内容の核心は、電子文書108に含まれている用語に基づいて決定されてよい。電子文書108主題、テーマ、要旨、論点、及び/又は内容の核心に基づいて、トピック112が決定されてよい。結果として、トピックは、電子文書108が対象とする主題について記載し得る。
トピック112は、電子文書108の主題に基づき、任意数の主題を含んでも、あるいは、任意数の主題に関係があってもよい。追加的に、又は代替的に、トピック112は、トピックの所望数の指示に基づいてもよい。例えば、ユーザは、トピックの所望数を示してよい。トピック抽出プロセス110は、トピック112がトピックの所望数に等しい数のトピックを含むようにトピック112を生成するよう構成されてよい。追加的に、又は代替的に、トピックの所望数は、品質メトリックに基づいて自動的に決定されてもよい。
いくつかの実施形態で、トピック112の夫々は、1つ以上の電子文書108と関連付けられてよい。例えば、トピック112の1つは、その1つのトピックに関連する主題、テーマ、要旨、論点、及び/又は内容の核心を含む可能性又はそれらを含む部分を有している電子文書108と関連付けられてよい。代替的に、又は追加的に、電子文書108の夫々が1つ以上のトピック112と関連付けられてもよい。例えば、電子文書108の1つは、トピック112の複数と関連付けられてよい。いくつかの実施形態で、電子文書108のいくつかは、トピック112のいずれかとも関連付けられなくてもよい。例えば、電子文書108が、他の電子文書のいずれとも閾程度の共通性を有さない1つの電子文書を含む場合に、その1つの電子文書は、トピック112のいずれとも関連付けられなくてよい。追加的に、又は代替的に、その1つの電子文書は、雑トピックと関連付けられてもよい。
いくつかの実施形態で、特定のトピック112と関連付けられた電子文書108どうしの共通性は、特定のトピック112と関連付けられたそれらの電子文書108が1つ以上の同じ用語に関連する可能性があることであってよい。本開示で使用される語「用語」は、1つ以上の単語又は複数の語、例えば、語句又は連字を含んでよい。
いくつかの実施形態で、トピック112は、それらと関連付けられた1つ以上の電子文書108についての適切性スコア及び/又は適切性ランクを含んでよい。電子文書108の夫々は、それらの電子文書108が関連付けられているトピック112の夫々についての適切性スコア及び/又は適切性ランクを有してよい。これら及び他の実施形態で、適切性スコア及び/又は適切性ランクは、第1電子文書が第1トピックによって記述される主題に関連する程度を示し得る。よって、適切性スコア及び/又は適切性ランクが高い電子文書ほど、その関連付けられたトピックで記述されている主題に関連する可能性が高くなる。追加的に、又は代替的に、特定の電子文書108の適切性スコア及び/又は適切性ランクは、その特定の電子文書108が1つ以上のトピック112に関連するパーセンテージを反映し得る。例えば、特定の電子文書108は、第1トピックと60%関連し、第2トピックと40%関連し得る。
いくつかの実施形態では、図1のトピック抽出プロセス110が、電子文書108及びトピック112について適切性スコア及び/又は適切性ランクを生成してよい。適切性スコア及び/又は適切性ランクは、電子文書108内の用語の存在に基づいてよい。
いくつかの実施形態で、プロセス100は、パーソナルカテゴリ生成プロセス120を含んでよい。概して、パーソナルカテゴリ生成プロセス120は、パーソナルカテゴリ122を生成するようにトピック112を精緻化するよう構成されてよい。パーソナルカテゴリ生成プロセス120は、トピックを除くこと、トピックを結合すること、及び/又は新しいトピックを加えることによってトピック112を精緻化するよう構成されてよい。いくつかの実施形態で、パーソナルカテゴリ生成プロセス120はまた、パーソナルカテゴリ122を、分類の特定の目的に“関係がある”又は“無関係である”と指定することによって、トピック112を精緻化するよう構成されてもよい。
いくつかの実施形態で、パーソナルカテゴリ生成プロセス120は、分類の特定の目的にとって重複しているか又は別なふうに不要である可能性がある1つ以上のトピック112を除くことを含んでよい。追加的に、又は代替的に、パーソナルカテゴリ生成プロセス120は、分類の特定の目的に関係があり得る新しいトピックを加えることを含んでよい。追加的に、又は代替的に、パーソナルカテゴリ生成プロセス120は、2つ以上のトピック112を単一のトピック112にまとめることを含んでよい。追加的に、又は代替的に、パーソナルカテゴリ生成プロセス120は、1つ以上のトピック112と1つ以上の用語との間の関連付けを変更することを含んでよい。追加的に、又は代替的に、パーソナルカテゴリ生成プロセス120は、1つ以上のトピック112と1つ以上の電子文書108との間の関連付けを変更することを含んでよい。追加的に、又は代替的に、パーソナルカテゴリ生成プロセス120は、1つ以上のトピック112を“関係あり”又は“関係なし”と指定することを含んでよい。トピックが“関係あり”又は“関係なし”と指定されるかどうかは、特定のユーザの関心及び/又は分類の特定の目的に関係があってよい。例えば、「フランスの経済」の特定のトピックは“関係あり”と指定され得る一方で、「フランスワールドカップ」の他のトピックは、分類に特定の目的が世界市場に関係があることに基づいて、“関係なし”と指定され得る。パーソナルカテゴリ122は、パーソナルカテゴリ生成プロセス120の追加、置換、及び/又は結合の全てを反映し得る。
いくつかの実施形態で、パーソナルカテゴリ生成プロセス120は、1つ以上のトピック112を表示するよう構成され得るトピック表示プロセス124を含んでよい。トピック表示プロセス124は、特定のトピック112、特定のトピック112に関連した1つ以上の用語、及び/又は特定のトピック112と関連付けられた1つ以上の電子文書108の部分又は全てを表示するよう構成されてよい。トピック112は、例えば、グラフィカルユーザインターフェイス(GUI)で表示されてよい。
いくつかの実施形態で、パーソナルカテゴリ生成プロセス120は、トピック112に関するトピックフィードバックを取得するよう構成され得るフィードバック処理プロセス126を含んでよい。フィードバック処理プロセス126は、GUIを使用するよう構成されてよい。いくつかの実施形態で、フィードバック処理プロセス126で使用されるGUIはまた、トピック表示プロセス124の間に使用されてもよい。例えば、1つ以上のトピック112がGUIでトピック表示プロセス124によって表示されてよい。ユーザは、GUIで表示されているトピック112に関するトピックフィードバックを与えてよい。フィードバック処理プロセス126は、トピックフィードバックを受け取って処理してよい。
いくつかの実施形態で、フィードバック処理プロセス126は、トピックフィードバックに基づいて、確認されたトピック128を生成してよい。フィードバック処理プロセス126は、確認されたトピック128をトピック抽出プロセス110へ供給してよい。トピック抽出プロセス110は、確認されたトピック128を使用してトピック112を更新するよう構成されてよい。例えば、トピック112は、トピック表示プロセス124での提示のために供給されてよい。トピック112の確認は、例えば、トピック表示プロセス124を見ているユーザから、フィードバック処理プロセス126によって受け取られてよい。フィードバック処理プロセス126は、確認されたトピック128を生成してよい。確認されたトピック128は、トピック抽出プロセス110へ供給されてよい。トピック抽出プロセス110は、トピック112及び/又はトピック抽出モデルを更新するよう構成されてよい。トピック112及び/又はトピック抽出モデルの一方又は両方は、将来の使用のために記憶されてよい。例えば、トピック抽出プロセス110は、既存のトピック、例えば、トピック112及び/又は確認されたトピック128を使用して、トピック抽出モデルを更新してよい。その後に、プロセス100の続いて起こる繰り返しにおいて、更新されたトピック抽出モデルが、追加のトピック112を取得するために使用されてよい。
確認されたトピック128は、パーソナルカテゴリ生成プロセス120の間に又はそれと関連してトピック112に対して行われた如何なる変更も含んでよい。追加的に、又は代替的に、確認されたトピック128は、パーソナルカテゴリ122及び/又はトピック112とパーソナルカテゴリ122との間のあらゆる違いを含んでよい。例えば、確認されたトピック128は、1つ以上のトピック112の確認を含んでよい。確認されたトピック128は、“関係あり”又は“関係なし”としての1つ以上のトピック112の指定を含んでよい。追加的に、又は代替的に、確認されたトピック128は、1つ以上のトピック112の拒否を含んでよい。これは、1つ以上のトピック112が他のトピック112を考慮して重複している又は不必要であることに基づいてよい。追加的に、又は代替的に、確認されたトピック128は、特定のトピック112に関連した1つ以上の用語が他のトピック112と関連付けられるべきか、あるいは、その特定のトピック112から切り離されるべきかという指示を含んでよい。同様に、パーソナルカテゴリ122は、用語とパーソナルカテゴリ122との間の関連付けの変更を反映してよい。追加的に、又は代替的に、確認されたトピック128は、特定のトピック112及び/又は用語と関連付けられている1つ以上の電子文書108が他のトピック112と関連付けられるべきか、あるいは、その特定のトピック112及び/又は用語から切り離されるべきかという指示を含んでよい。
パーソナルカテゴリ生成プロセス120の動作の一例として、トピック表示プロセス124は特定のトピック112を表示してよい。トピック表示プロセス124は、更に、特定のトピック112に関連した1つ以上の用語及び/又は特定のトピック112と関連付けられている1つ以上の電子文書108を表示してよい。ユーザは、特定のトピック112がユーザに関係があることを示してよい。パーソナルカテゴリ生成プロセス120は、パーソナルカテゴリ122において特定のトピック112を“関係あり”と指定してよい。追加的に、又は代替的に、指示が、フィードバック処理プロセス126によって受け取られてもよい。フィードバック処理プロセス126は、確認されたトピック128に“関係あり”としての指定を含めるよう構成されてよい。フィードバック処理プロセス126は、確認されたトピック128をトピック抽出プロセス110へ供給するよう構成されてよい。トピック抽出プロセス110は、確認されたトピック128に基づいてトピック112を更新するよう構成されてよい。よって、トピック抽出プロセス110は、特定のトピック112を“関係あり”と指定するよう構成されてよい。
他の例として、ユーザは、2つのトピックが結合されるべきであることを示してよい。例えば、ユーザは、「人工知能」のトピックと「パターン認識」のトピックとが結合されるべきであることを示してよい。ユーザは、分類の特定の目的に基づいて、トピックが結合されるべきであると決定してよい。2つのトピックの結合は、特定のトピック112からの用語及び/又は電子文書108の全てを他のトピック112と関連付けることを含んでよい。追加的に、又は代替的に、特定のトピック112からの用語及び/又は電子文書108の全てを他のトピック112に関連付けた後、特定のトピック112はトピック112及び/又はパーソナルカテゴリから除かれてよい。特定のトピック112の除去は、特定のトピック112にこれまで関連付けられていた用語及び/又は電子文書108の全てを含む他のトピックを考慮してその特定のトピック112が重複していることに基づいてよい。他の例として、トピック表示プロセス124は、特定のトピック112及び特定のトピック112に関連した用語を表示してよい。ユーザは、特定のトピック112に関連した用語の1つ以上が、これまでトピック112に含まれていなかった新しいトピックと関連付けられ得ることを示してよい。新しいトピックは、既存のトピックからの用語の選択及び選択された用語を新しいトピックと関連付けることに基づいて、パーソナルカテゴリ122及び/又は確認されたトピック128に含まれるように生成されてよい。他の例として、トピック表示プロセス124は、2つのトピック112及び2つのトピック112に関連した用語を表示してよい。ユーザは、2つのトピック112の夫々からの1つの用語が新しいトピックと関連付けられ得ることを示してよい。追加的に、又は代替的に、新しい用語が入力されてもよい。入力された用語は、パーソナルカテゴリ122及び/又は確認されたトピック128に含まれるように既存のトピック112又は新しいトピックと関連付けられてよい。
他の例として、トピック表示プロセス124は、特定のトピック112及び特定のトピック112に関連した用語を表示してよい。ユーザは、用語の1つ以上が特定のトピック112と関連付けられ得ないこと、又は用語が特定のトピック112に代えて他のトピックと関連付けられ得ることを示してよい。追加的に、又は代替的に、ユーザは、特定の電子文書108が特定の用語及び/又は特定のトピックと関連付けられ得ないことを示してよい。
パーソナルカテゴリ生成プロセス120に含まれ得る動作の例は、図2に含まれている。図2は、本開示で記載されている少なくとも1つの実施形態に従ってパーソナルカテゴリを生成するための、例となるプロセス200のフローチャートである。プロセス200の動作のうちの1つ以上は、図1のパーソナルカテゴリ生成プロセス120、トピック表示プロセス124、及びフィードバック処理プロセス126によって実行されてよい。プロセス200の動作は、図1のパーソナルカテゴリ122及び/又は確認されたトピック128を生成するために使用されてよい。たとえ別個のブロックにより表されているとしても、プロセス200のブロックのうちの1つ以上に関連したステップ及び動作は、所望の実施に応じて、更なるブロックに分けられても、より少ないブロックへとまとめられても、あるいは削除されてもよい。
プロセス200はブロック210から開始してよい。ブロック210で、トピックが取得されてよい。トピックは、例えば、トピック抽出プロセスから、取得されてよい。図1のトピック112の1つが、ブロック210で取得されるトピックの例であってよい。
ブロック215で、トピックを対象カテゴリ候補として受け入れるべきかどうかに関して決定が行われてよい。例えば、トピックはユーザに提示されてよい。ユーザは、トピックを対象カテゴリ候補として受け入れるべきか否かに関する指示を入力してよい。ユーザは、カテゴリ化の特定の目的に基づいて、トピックを対象カテゴリ候補として受け入れるべきかどうかを決定してよい。
ブロック215でトピックが対象カテゴリ候補として受け入れられる場合に、プロセス200はブロック220へ進んでよい。ブロック220で、トピックは、対象カテゴリ候補として指定されてよい。
ブロック225で、対象カテゴリ候補をパーソナルカテゴリとして受け入れるべきかどうかに関して決定が行われてよい。例えば、対象カテゴリ候補はユーザに提示されてよい。ユーザは、対象カテゴリ候補をパーソナルカテゴリとして受け入れるべきかどうかに関する指示を入力してよい。ユーザは、カテゴリ化の特定の目的に基づいて、対象カテゴリ候補をパーソナルカテゴリとして受け入れるべきかどうかを決定してよい。対象カテゴリ候補をパーソナルカテゴリとして受け入れるべきかどうかの決定は、対象カテゴリ候補の承認をそのまま含んでよい。対象カテゴリ候補をパーソナルカテゴリとして受け入れるべきでないとの指示は、対象カテゴリ候補を精緻化又は調整するための指示又は命令であってよい。例えば、ユーザは、ユーザが対象カテゴリ候補を精緻化したいかどうかに関する質問によりプロンプトされてよい。ユーザが対象カテゴリ候補を精緻化したい場合には、ユーザは、対象カテゴリ候補を受け入れていない。図1のパーソナルカテゴリ122のうちの1つは、パーソナルカテゴリとして受け入れられた対象カテゴリ候補の例であってよい。
ブロック225で対象カテゴリ候補がパーソナルカテゴリとして受け入れられない場合には、プロセス200はブロック230へ進んでよい。ブロック230で、対象カテゴリ候補の用語が取得されてよい。用語は、対象カテゴリ候補と関連し得る。例えば、用語は、対象カテゴリ候補に関連する多数の用語から選択されてよい。
ブロック235で、用語をパーソナルカテゴリのためのシードとして受け入れるべきかどうかに関して決定が行われてよい。例えば、用語はユーザに提示されてよい。ユーザは、用語をパーソナルカテゴリのためのシードとして受け入れるべきかどうかに関する指示を入力してよい。ユーザは、カテゴリ化の特定の目的に基づいて、用語をパーソナルカテゴリのためのシードとして受け入れるべきかどうかを決定してよい。
ブロック235で用語がパーソナルカテゴリのためのシードとして受け入れられない場合には、プロセス200はブロック240へ進んでよい。その上、ブロック215でトピックが対象カテゴリ候補として受け入れられなかった場合には、プロセスはブロック240へ続いてよい。ブロック240で、用語が取得されてよい。用語はユーザから取得されてよい。ブロック240に到達するために、ユーザは、ブロック215でトピックを対象カテゴリ候補として受け入れないか、あるいは、ユーザは、ブロック235で用語をパーソナルカテゴリのためのシードとして受け入れない。ブロック210のトピックを受け入れなかったユーザ、及びブロック230の用語を受け入れなかったユーザは、用語を与えるようにプロンプトされてよい。いくつかの実施形態で、ユーザは、対象カテゴリ候補又は他のトピックと関連付けられ得る1つ以上の用語を与えられてよい。ユーザは、提示されている用語を選択するか、又は用語を入力してよい。
プロセス200はブロック240からブロック250へ続いてよい。また、ブロック235で用語が受け入れられる場合に、プロセス200はブロック250へ続いてよい。ブロック250で、入力された用語は、パーソナルカテゴリのためのシードとして指定されてよい。パーソナルカテゴリのためのシードとして指定される用語は、ブロック235で受け入れられた用語、又はブロック240で取得された用語のいずれか一方であってよい。
ブロック260で、パーソナルカテゴリがシードから生成されてよい。図1のパーソナルカテゴリ122のうちの1つは、シードに基づいて生成されるパーソナルカテゴリの例であってよい。
いくつかの実施形態で、パーソナルカテゴリは、任意数のシードに基づいてよい。例えば、1よりも多い用語が、ブロック230及びブロック240のいずれか一方又は両方から取得されてよい。更に、パーソナルカテゴリは、用語を足すこと又は減じることによって、調整されてもよい。
図1に戻ると、パーソナルカテゴリ生成プロセス120は、トピック112を精緻化することに関係し得るステップを更に含んでもよい。例えば、パーソナルカテゴリ生成プロセス120は、2つ以上のトピック112を比較して、それら2つ以上のトピック112の間の類似を決定するよう構成されてよい。2つ以上のトピック112の間の類似は、2つ以上のトピック112を結合するために使用されてよい。例えば、パーソナルカテゴリ生成プロセス120は、第1トピックを第2トピックと比較して、第1トピックと第2トピックとの間の類似を決定するよう構成されてよい。パーソナルカテゴリ生成プロセス120は、第1トピックに関連した1つ以上の電子文書及び/又は用語を第2トピックと関連付けるよう構成されてよい。その上、パーソナルカテゴリ生成プロセス120は、1つ以上の電子文書及び/又は用語を第1トピックから切り離すよう構成されてよい。追加的に、又は代替的に、パーソナルカテゴリ生成プロセス120は、パーソナルカテゴリ122から第1トピックを除くよう構成されてよい。如何にしてパーソナルカテゴリ生成プロセス120が2つ以上のトピック112を比較し得るかの例として、パーソナルカテゴリ生成プロセス120は、図3に表される方法300を実行してよい。
図3は、本開示で記載されている少なくとも1つの実施形態に従って2つのトピックの間の類似を決定するための、例となるプロセス300のブロック図である。いくつかの実施形態で、プロセス300は、トピックベクトル生成プロセス320、トピックベクトル比較プロセス340、タームベクトル生成プロセス330、タームベクトル比較プロセス350、及びスコア結合プロセス360を含んでよい。概して、プロセス300は、2つのトピック312を比較して、2つのトピック312の間の類似に基づいて結合類似スコア362を生成するよう構成されてよい。図3のトピック312は、図1のトピック112及び/又は図2のトピックと同じか又は類似してよい。図3の用語314は、図2の用語と同じか又は類似してよい。
2つのトピック、すなわち、第1トピック312A及び第2トピック312B(夫々トピック312と呼ばれるか、且つ/あるいは個別的にトピック312と呼ばれる。)が、図3では表されている。2つのトピックベクトル生成プロセス320、すなわち、第1トピックベクトル生成プロセス320A及び第2トピックベクトル生成プロセス320B(集合的にトピックベクトル生成プロセス320と呼ばれるか、且つ/あるいは個別的にトピックベクトル生成プロセス320と呼ばれる。)も、図3に表されている。2つのトピックベクトル322、すなわち、第1トピックベクトル322A及び第2トピックベクトル322B(集合的にトピックベクトル322と呼ばれるか、且つ/あるいは個別的にトピックベクトル322と呼ばれる。)が、図3には表されている。用語の2つのグループ、すなわち、第1用語314A及び第2用語314B(集合的に用語314と呼ばれるか、且つ/あるいは個別的に用語314と呼ばれる。)が、図3には表されている。2つのタームベクトル生成プロセス330、すなわち、第1タームベクトル生成プロセス330A及び第2タームベクトル生成プロセス330B(集合的にタームベクトル生成プロセス330と呼ばれるか、且つ/あるいは個別的にタームベクトル生成プロセス330と呼ばれる。)が、図3には表されている。タームベクトルの2つのグループ、すなわち、第1タームベクトル332A及び第2タームベクトル332B(集合的にタームベクトル332と呼ばれるか、且つ/あるいは個別的にタームベクトル332と呼ばれる。)が、図3には表されている。別々のブロックとしてのトピックベクトル生成プロセス320及びタームベクトル生成プロセス330の例示は、単なる一例にすぎない。同じトピックベクトル生成プロセス320及び/又はタームベクトル生成プロセス330が、トピックベクトル322及びタームベクトル332を夫々生成するために任意数のトピック及び/又は用語に対して使用されてよい。
トピックベクトル生成プロセス320は、トピック312に基づいてトピックベクトル322を生成するよう構成されてよい。トピックベクトル322は、如何なる適切な手段、例えば、トピックモード推定プロセス、も用いて生成されてよい。いくつかの実施形態で、トピックベクトル322は、トピック312に基づく数の多次元ベクトルを含んでよい。例えば、第1トピックベクトル322Aは、第1トピック312Aに基づく数の多次元ベクトルを含んでよい。同様に、第2トピックベクトル322Bは、第2トピック312Bに基づいてよい。トピックベクトル322は、キーワード−トピック分布を含んでよい。トピックベクトル322は、1つ以上の用語がトピックに関連し得る1つ以上の確率を含んでよい。いくつかの実施形態で、トピックベクトル322は、1万以上の次元を含んでよい。トピックベクトル322は、トピック312に関連した用語に基づいてよい。追加的に、又は代替的に、トピックベクトル322は、トピック312に関連付けられている電子文書に基づいてよい。
トピックベクトル比較プロセス340は、2つ以上のトピックベクトル322を比較して、トピックベクトル類似スコア342を生成するよう構成されてよい。トピックベクトル比較プロセス340は、2つ以上のトピックベクトル322の間の類似を決定するために2つ以上のトピックベクトル322の数学的比較を含んでよい。比較の結果は数値結果であってよい。数値結果はトピックベクトル類似スコア342に含まれてよい。トピックベクトル類似スコア342は、2つ以上のトピックベクトル322の間の類似を表し得る。トピックベクトル類似スコア342は、単一の数又は多次元ベクトルの数を含むようにスケーリング又は平均化されてよい。
タームベクトル生成プロセス330は、トピック312の1つ以上の用語314に基づいてタームベクトル332を生成するよう構成されてよい。トピック312に関連した用語314の夫々についてタームベクトル332が存在してよい。そのようなものとして、特定のトピックは1よりも多い用語に関連し得るので、特定のトピック、例えば、第1トピック312Aは、1よりも多い第1タームベクトル332Aに関連し得る。
いくつかの実施形態で、タームベクトル332は、トピック312の用語314のうちの1つ以上に基づく数の多次元ベクトルを含んでよい。例えば、第1タームベクトル332Aは、第1トピック312Aの第1用語314Aのうちの1つ以上に基づく数の多次元ベクトルを含んでよい。同様に、第2タームベクトル332Bは、第2トピック312Bの1つ以上の第2用語314Bに基づいてよい。いくつかの実施形態で、タームベクトル332は、単語埋め込み(word-embedding)ベクトルを含んでよい。タームベクトル332は、言語モデリング又は特徴学習技術を通じて生成されてよい。いくつかの実施形態で、タームベクトル332は、事前学習済み(pre-trained)単語埋め込みベクトルであってよい。追加的に、又は代替的に、タームベクトル332は、ドメイン特化(domain-specific)単語埋め込みベクトルを含んでよい。例えば、タームベクトル332は、分類の特定の目的及び/又は電子文書のソースに関するデータから生成されてよい。いくつかの実施形態で、タームベクトル332の夫々は、百以上の次元を含んでよい。タームベクトル332は、用語314に関連した電子文書に基づいてよい。
タームベクトル比較プロセス350は、2つ以上のタームベクトル332を比較して、タームベクトル類似スコア352を生成するよう構成されてよい。例えば、タームベクトル比較プロセス350は、第1トピック312Aに関連した1つ以上の第1タームベクトル332Aを、第2トピック312Bに関連した1つ以上の第2タームベクトル332Bと比較するよう構成されてよい。タームベクトル比較プロセス350は、2つ以上のタームベクトル332の間の類似を決定するために2つ以上のタームベクトル332の数学的比較を含んでよい。数学的比較の結果は数値結果であってよい。数値結果はタームベクトル類似スコア352に含まれてよい。タームベクトル類似スコア352は、2つ以上のタームベクトル332の間の類似を表し得る。タームベクトル類似スコア352は、単一の数又は多次元ベクトルの数を含むようにスケーリング又は平均化されてよい。
スコア結合プロセス360は、2つ以上の類似スコアを結合して、結合類似スコア362を生成するよう構成されてよい。例えば、スコア結合プロセス360は、トピックベクトル類似スコア342とタームベクトル類似スコア352とを結合して、結合類似スコア362を生成するよう構成されてよい。他の例として、スコア結合プロセス360は、2つ以上の第1タームベクトル332Aと2つ以上のタームベクトル332Bとのタームベクトル比較プロセス350の出力に基づく2つ以上のタームベクトル類似スコア352を結合するよう構成されてよい。
いくつかの実施形態で、スコア結合プロセス360は、結合類似スコア362を生成するためにトピックベクトル類似スコア342及び/又はタームベクトル類似スコア352に対して数学的演算を実行してよい。例えば、スコア結合プロセス360は、平均及び/又は加重平均を実行するよう構成されてよい。追加的に、又は代替的、スコア結合プロセス360は、結合類似スコア362を生成するためにベクトル計算又は線形代数を実行するよう構成されてよい。
本開示の適用範囲から逸脱することなしに、プロセス300に対して変更、追加、又は削除が行われてよい。例えば、いくつかの実施形態で、トピックベクトル生成プロセス320及びトピックベクトル比較プロセス340は省略されてもよい。このような又は他の実施形態で、トピックベクトル類似スコア342は、プロセス300から省略されるか、あるいは、他の比較に基づいてよい。このような又は他の実施形態で、結合類似スコア362は、タームベクトル類似スコア352に基づいてよい。他の例として、タームベクトル生成プロセス330及びタームベクトル比較プロセス350は、プロセス300から省略されてもよい。このような又は他の実施形態で、タームベクトル類似スコア352は、プロセス300から省略されるか、あるいは、他の比較に基づいてよい。このような又は他の実施形態で、結合類似スコア362は、トピックベクトル類似スコア342に基づいてよい。更に、動作の順序は、種々の実施に従って様々であってよい。
これより図1に戻ると、いくつかの実施形態で、パーソナルカテゴリ生成プロセス120は、2つのトピックの間の決定された類似に基づいてそれら2つのトピックを結合してよい。図3の結合類似スコア362は、2つのトピックの間の類似の指示であってよい。例えば、2つのトピックは、2つのトピックの結合類似スコア362が閾値を超えるときに類似であると決定されてよい。追加的に、又は代替的に、2つのトピックは、2つのトピックのトピックベクトル類似スコア342及び/又は2つのトピックのタームベクトル類似スコア352が閾値を超えるときに類似であると決定されてよい。いくつかの実施形態で、トピックベクトル類似スコア342、タームベクトル類似スコア352、及び結合類似スコア362の夫々について独立した閾値及び基準が存在してよい。例えば、タームベクトル類似スコア352が第1閾値を超える場合に、しかし、トピックベクトル類似スコア342も第2閾値を超える場合にのみ、2つのトピックは類似であると決定されてよい。上記の閾値のいずれか又は全ては、ユーザによって選択又は入力されても、あるいは、機械学習によって生成されてもよい。
いくつかの実施形態で、パーソナルカテゴリ生成プロセス120はパーソナルカテゴリ122を生成してよい。パーソナルカテゴリ122は、上記のトピック112と同じか又は実質的に類似してよい。しかし、パーソナルカテゴリ122は、パーソナルカテゴリ生成プロセス120の結果として、トピック112よりも分類の特定の目的により関連し得る。追加的に、又は代替的に、パーソナルカテゴリ122には、重複するトピックがより少なくなる。パーソナルカテゴリ122は、パーソナルカテゴリ生成プロセス120の間に行われたトピック112の任意の追加、置換、及び/又は結合を反映し得る。上述されたように、トピック112に関して、パーソナルカテゴリ122は、各パーソナルカテゴリ122に関連した各電子文書108が、電子文書108がパーソナルカテゴリ122によって記述される主題に関連する程度を示す適切性スコア及び/又は適切性ランクを含み得るように、適切性スコア及び/又は適切性ランクを含んでよい。
いくつかの実施形態で、機械学習プロセス130は、パーソナルカテゴリ122に基づいて文書分類器モデル132を生成するよう構成されてよい。機械学習プロセス130は、パーソナルカテゴリ122の夫々と関連付けられた電子文書108の特性を“学習”するために機械学習を電子文書108に適用することによって、文書分類器モデル132を構築するよう構成されてよい。機械学習プロセス130は、文書分類器モデル132を訓練するために、電子文書108及びそれらの関連するパーソナルカテゴリ122を訓練データとして使用してよい。機械学習プロセス130は、任意の適切な機械学習法、例えば、特に、サポートベクトルマシン、又はロジスティック回帰を使用して、文書分類器モデル132を生成するよう構成されてよい。
いくつかの実施形態で、機械学習プロセス130は、文書分類器モデル132を生成するために、電子文書108のサブセット及びそれらの関連する精緻化されたトピック122を訓練データとして使用してよい。訓練データとして使用され得る電子文書108のサブセットは、パーソナルカテゴリ122に基づいてよい。例えば、パーソナルカテゴリ122の夫々について、最も高い適切性スコアを有している電子文書108のサブセットが、機械学習プロセス130のための訓練データに含まれてよい。例えば、パーソナルカテゴリ122が10個のトピックと1500個の電子文書108を含んでいる場合に、最も高い適切性スコアを有しているパーソナルカテゴリ122の夫々からの100個の電子文書108が、文書分類器モデル132の生成のための訓練データとして使用されてよい。よって、電子文書108のいくつかは、文書分類器モデル132を生成するために使用されないことがある。代替的に、又は追加的に、電子文書108の1つ以上は、10個のパーソナルカテゴリ122のうちの2つ以上についての適切性スコアにおいて上位100個の文書に順位付けされることがある。このような及び他の実施形態で、その1つ以上の電子文書108は、文書分類器モデル132を生成するために複数回使用され得る。他の例として、パーソナルカテゴリ122の夫々について、閾値を超える適切性スコア及び/又は適切性ランクを有している電子文書108のサブセットが、機械学習プロセス130のための訓練データに含まれてよい。閾値は、ユーザによって又は機械学習プロセスによって選択されてよい。
文書分類プロセス140は、文書分類器モデル132を用いて電子文書138を分類するよう構成されてよい。例えば、文書分類プロセス140は、文書分類器モデル132の生成中に“学習”された1つ以上の特性に従って、電子文書138をパーソナルカテゴリ122に分類するよう構成されてよい。
いくつかの実施形態で、電子文書138は、電子文書108に関して上述された電子文書であってよい。しかし、電子文書138は、電子文書108と同じであってもなくてもよい。いくつかの実施形態で、電子文書138は、電子文書108に含まれていた1つ以上の電子文書を含んでもよい。このような又は他の実施形態で、電子文書138は、電子文書108に含まれていなかった電子文書を含んでもよい。例えば、電子文書138は、1つ以上の新たに公開された電子文書を含んでよい。
いくつかの実施形態で、文書分類プロセス140は、分類された電子文書142を生成するよう構成されてよい。分類された電子文書142は、電子文書138が文書分類プロセス140によって分類された後の電子文書138を含んでよい。例えば、分類された電子文書142は、分類された電子文書142が関連する可能性があるトピック又は主題の指示を含むように編成、タグ付け、ラベル付け、又は別なことが行われてよい。例えば、文書分類プロセス140は、電子文書138の中の各電子文書を、文書分類器モデル132を用いて、パーソナルカテゴリ122によって記述された1つ以上の主題に分類するよう構成されてよい。
本開示の適用範囲から逸脱することなしに、プロセス100に対して変更、追加、又は削除が行われてよい。例えば、いくつかの実施形態で、電子文書138及び分類された電子文書142は、ただ1つの電子文書しか含まなくてよい。他の例として、フィードバック処理プロセス126及び/又は確認されたトピック128は、省略されてよい。更に、動作の順序は、種々の実施に従って様々であってよい。
図4は、本開示で記載されている少なくとも1つの実施形態に従って、電子文書の内容に従って電子文書を表示するための、例となるプロセス400のブロック図である。プロセス400は、文書順位付けプロセス450、電子文書表示プロセス464、及びフィードバック処理プロセス466を含んでよい。概して、プロセス400は、分類された電子文書442を順位付けし、順位付けされた電子文書452を表示するよう構成されてよい。
プロセス400は、分類された電子文書442を取得することを含んでよい。分類された電子文書442は、図1の分類された電子文書142と同じか又は類似してよい。
文書順位付けプロセス450は、分類された電子文書442を採点又は順位付けして、順位付けされた電子文書452を生成するよう構成されてよい。文書順位付けプロセス450は、ユーザが分類された電子文書442に関心を持ち得る確率に従って、分類された電子文書442を採点又は順位付けするよう構成されてよい。追加的に、又は代替的に、文書順位付けプロセス450は、分類された電子文書442が分類の特定の目的に関連する確率に従って、分類された電子文書442を採点又は順位付けするよう構成されてよい。
これら及び他の実施形態で、文書順位付けプロセス450は、ユーザ、ユーザの関心、及び/又は分類の特定の目的に関する情報を記憶してよい。例えば、文書順位付けプロセス450は、ユーザによって選択された及び/又は読まれた電子文書に関する情報を記憶してよい。追加的に、又は代替的に、文書順位付けプロセス450は、ユーザによって選択されたトピックに関する情報を記憶してよい。追加的に、又は代替的に、文書順位付けプロセス450は、“関係あり”又は“関係なし”と指定された文書に関する情報を記憶してよい。例えば、ユーザは、図1のパーソナルカテゴリ生成プロセス120の間に又はそれと関連して分類の特定の目的に関連するトピックを選択してよい。いくつかの実施形態で、文書順位付けプロセス450は、ユーザ、ユーザの関心、及び/又は分類の特定の目的に関して記憶された情報を使用して、ユーザが分類された電子文書442に関心を持ち得る確率、又は分類された電子文書442が分類の特定の目的に関連する確率に従って、分類された電子文書442を採点又は順位付けしてよい。
追加的に、又は代替的に、順位付けされた電子文書452の順位付けは、分類された電子文書442の分類の確実性に基づいてよい。例えば、分類された電子文書442は、分類された電子文書442の分類の確実性の指示を含んでよい。分類された電子文書442がそれらの分類において高い確実性を有するほど、より高い点数又は順位が得られる。
追加的に、又は代替的に、文書順位付けプロセス450は、分類された電子文書442にフィルタをかけて、分類された電子文書442のうちの1つ以上を、順位付けされた電子文書452から除いてよい。それにより、除かれた電子文書は表示されない。例えば、上述されたように、ユーザは、図1のパーソナルカテゴリ生成プロセス120の間に又はそれに関連して特定のトピックが“無関係である”ことを示してよい。文書順位付けプロセス450は、特定のトピックと関連付けられた分類された電子文書442を、順位付けされた電子文書452から除いてよく、それにより、特定のトピックと関連付けられた分類された電子文書442は表示されない。
順位付けされた電子文書452は、分類された電子文書442の中の1つ以上と、順位付けされた電子文書452に関連した1つ以上の点数及び/又は順位を含んでよい。いくつかの実施形態で、順位付けされた電子文書452は、分類された電子文書442の中の全ての電子文書を含んでよい。代替的に、又は追加的に、順位付けされた電子文書452は、分類された電子文書442の中の1つ以上を除外してよい。除外された分類された電子文書442は、特定のトピックが無関係であるとの指示に基づき除外されてよい。
いくつかの実施形態で、電子文書表示プロセス464は、順位付けされた電子文書452を表示するよう構成されてよい。例えば、電子文書表示プロセス464は、順位付けされた電子文書452の中の1つ以上のタイトル又は抜粋を最初に表示するよう構成されてよい。このような及び他の実施形態で、電子文書表示プロセス464は、順位付けされた電子文書452の中の特定の電子文書のタイトルをユーザが選択する場合に、その特定の電子文書の全文を表示するよう構成されてよい。
いくつかの実施形態で、電子文書表示プロセス464は、インターフェイス460、例えばGUIで、表示されてよい。電子文書表示プロセス464は、点数及び/又は順位に従った順序で、順位付けされた電子文書452を表示するよう構成されてよい。
追加的に、又は代替的に、電子文書表示プロセス464は、グループ分けにおいて、例えばトピックに従って、順位付けされた電子文書452を表示するよう構成されてよい。いくつかの実施形態で、電子文書表示プロセス464は、トピックの組の中の各トピックについて、特定の数の電子文書を表示するよう構成されてよい。例えば、電子文書表示プロセス464は、4つのトピックの夫々において、上位3つの文書を表示してよい。いくつかの実施形態において、電子文書表示プロセス464は、関係ありと指定されたトピックと関連付けられていない電子文書より前に、“関係あり”と指定されたトピックと関連付けられた電子文書を表示するよう構成されてよい。
いくつかの実施形態で、フィードバック処理プロセス466は、表示されている順位付けされた電子文書452の中の1つ以上に関する文書フィードバックを取得するよう構成されてよい。電子文書表示プロセス464は、インターフェイス460を使用するよう構成されてよい。いくつかの実施形態で、文書フィードバックは、表示されている順位付けされた電子文書452の中の特定の電子文書が表示されるべきであるとのユーザ選択を含んでよい。追加的に、又は代替的に、文書フィードバックは、特定の電子文書が“関係がある”又は“無関係である”とのユーザからの指示を含んでよい。追加的に、又は代替的に、文書フィードバックは、特定の電子文書が特定のトピックに関連しないとのユーザからの指示を含んでよい。
いくつかの実施形態で、フィードバック処理プロセス466は、表示されている順位付けされた電子文書452の中の1つ以上の電子文書のトピックに関するトピックフィードバックを取得するよう構成されてよい。トピックフィードバックは、他のトピックと関連付けられる電子文書をユーザが選択することよりも頻繁に、特定のトピックと関連付けられる電子文書をユーザが選択することを含んでよい。トピックフィードバックは、トピックが“関係がある”又は“無関係である”との指示を含んでよい。トピックフィードバックは、特定のトピックが他のトピックよりも“関連する”との指示を更に含んでもよい。
いくつかの実施形態で、フィードバック処理プロセス466は、文書フィードバック及び/又はトピックフィードバックに基づいてモデルアップデート462を生成するよう構成されてよい。モデルアップデート462は、文書フィードバック及び/又はトピックフィードバックを含んでよい。モデルアップデート462は、特定のトピックが文書順位付けプロセス450において優先権を与えられるべきであるとの指示を含んでよい。代替的に、又は追加的に、モデルアップデート462は、特定のトピックが除去されて、表示されるべきではないとの指示を含んでよい。
いくつかの実施形態で、モデルアップデート462は、文書順位付けプロセス450へ供給されてよい。文書順位付けプロセス450は、モデルアップデート462に基づいてユーザ及び/又はユーザの関心に関する情報を更新してよい。追加的に、又は代替的に、文書順位付けプロセス450は、モデルアップデート462に基づいて、何が分類の特定の目的に“関連”し得るかに関する情報を更新してよい。
追加的に、又は代替的に、モデルアップデート462は、図1のトピック抽出プロセス110へ供給されてよい。トピック抽出プロセス110は、モデルアップデート462に基づいてトピック112及び/又はトピック抽出モデルを更新するよう構成されてよい。トピック112及び/又はトピック抽出モデルの一方又は両方は、プロセス100の更なる繰り返しのために保持及び使用されてよい。例えば、トピック抽出プロセス110は、モデルアップデート462に含まれているトピックフィードバックに基づいて、1つ以上のトピック112を検証するよう構成されてよい。例えば、特定の電子文書が“関係がある”とユーザが示す場合に、トピック抽出プロセス110は、プロセス100の将来の繰り返しのために、その特定の電子文書と関連付けられた1つ以上のトピックを優先するよう構成されてよい。
追加的に、又は代替的に、モデルアップデート462は、図1の機械学習プロセス130へ供給されてよい。機械学習プロセス130は、モデルアップデート462に基づいて文書分類器モデル132を更新するよう構成されてよい。文書分類器モデル132は、プロセス100の更なる繰り返しのために保持及び使用されてよい。例えば、機械学習プロセス130は、モデルアップデート462に含まれている文書フィードバックに基づいて、機械学習プロセス130の訓練データにおいて、特定のトピックと関連付けられている特定の電子文書を包含又は除外するよう構成されてよい。例えば、特定の電子文書がトピックの例であるとユーザが示す場合に、機械学習プロセス130は、文書分類器モデル132の訓練においてその特定の電子文書を使用するよう構成されてよい。
本開示の適用範囲から逸脱することなしに、プロセス400に対して変更、追加、削除が行われてよい。例えば、文書順位付けプロセス450は省略されてよい。このような又は他の実施形態で、分類された電子文書442の夫々は、順位付けを考慮せずに表示されてよい。他の例として、フィードバック処理プロセス466は省略されてよい。更に、動作の順序は、種々の実施に従って様々であってよい。
図5は、本開示で記載されている少なくとも1つの実施形態に従って、電子文書の内容を解析するよう構成された、例となる方法500のフローチャートである。方法500は、如何なる適切なシステム、装置、又はデバイスによっても実行されてよい。例えば、図6のコンピュータシステム600が、方法500に関連した動作のうちの1つ以上を実行してよい。たとえ別個のブロックで表されているとしても、方法500のブロックの中の1つ以上に関連したステップ及び動作は、所望の実施に応じて、更なるブロックに分けられても、より少ないブロックへとまとめられても、あるいは削除されてもよい。
方法500はブロック510から開始してよい。ブロック510で、複数の電子文書が取得されてよい。ブロック510の電子文書は、図1の電子文書108及び/又は図2の電子文書と同じか又は類似してよい。
ブロック520で、複数の電子文書と関連付けられた複数のトピックが取得されてよい。複数のトピックは、各トピックが少なくとも1つの電子文書と関連付けられるようにされてよい。追加的に、又は代替的に、複数のトピックは、各電子文書が少なくとも1つのトピックと関連付けられるようにされてもよい。ブロック520で、トピックは電子文書と関連付けられてよい。例えば、図1のトピック抽出プロセス110と同じか又は類似したプロセスが、複数のトピックを複数の電子文書と関連付けるよう構成されてよい。ブロック520のトピックは、図1のトピック112及び/又は図2のトピックと同じか又は類似してよい。
いくつかの実施形態で、複数のトピックは、図1のトピック抽出プロセス110と同じか又は類似したプロセスを通じて、トピック抽出モデルを用いて複数の電子文書を解析することによって、取得されてよい。追加的に、又は代替的に、複数の電子文書は、トピック抽出モデルを用いて複数の電子文書を解析することによって、複数のトピックと関連付けられてよい。このような及び他の実施形態で、複数のトピックは、トピック抽出モデルへ供給されなくてもよく、複数の電子文書に基づいて生成されてよい。代替的に、又は追加的に、トピックは供給されてもよい。このような及び他の実施形態で、供給され得るトピックは、ユーザからのフィードバックに基づいてよい。一例として、図1の確認されたトピック128及び/又は図4のモデルアップデート462が、供給されるトピックであってよい。
ブロック530で、複数のトピックの中の第1トピックと複数のトピックの中の第2トピックとの間で、類似が決定されてよい。類似は、図1のパーソナルカテゴリ生成プロセス120及び/又は図3のプロセス300と同じか又は類似したプロセスを通じて、決定されてよい。第1トピックは、複数の電子文書の中の第1組の電子文書と関連付けられてよい。いくつかの実施形態で、第1トピックと第2トピックとの間の類似を決定することは、第1トピックに関連した第1用語を表す数の第1タームベクトルを取得することを含んでよい。このような及び他の実施形態で、類似を決定することは、第2トピックに関連した第2用語を表す数の第2タームベクトルを取得し、第1タームベクトルを第2タームベクトルと比較することを更に含んでよい。代替的に、又は追加的に、類似を決定することは、第1タームベクトルと第2タームベクトルとの間の比較により、第1タームベクトルと第2タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、第1トピックと第2トピックとの間の類似を決定することを更に含んでよい。
いくつかの実施形態で、第1トピックと第2トピックとの間の類似を決定することは、第1用語と第1トピックとの間の複数の関連付けを表す第1トピックベクトルを取得することを含んでよい。このような及び他の実施形態で、類似を決定することは、第2用語と第2トピックとの間の複数の関連付けを表す第2トピックベクトルを取得することを更に含んでよく、類似を決定することは、第1トピックベクトルを第2トピックベクトルと比較することを更に含んでよい。このような及び他の実施形態で、類似を決定することは、第1トピックベクトルと第2トピックベクトルとの間の比較により、第1トピックベクトルと第2トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、第1トピックと第2トピックとの間の類似を決定することを更に含んでよい。
ブロック540で、複数のトピックは、第1トピックと第2トピックとの間の類似に基づいて精緻化されてよい。ブロック540の複数のトピックの精緻化は、ブロック542及びブロック544を含んでよい。
ブロック542で、第1組の電子文書は、第2トピックと関連付けられてよい。いくつかの実施形態で、第1組の電子文書は、第1トピックから切り離されてよい。
ブロック544で、第1トピックが複数のトピックから除かれてよい。第1トピックの除去後、残りのトピックは、精緻化されたトピックと呼ばれ得る。いくつかの実施形態で、精緻化されたトピックは、図1のパーソナルカテゴリ122と同じか又は類似してよい。
ブロック550で、文書分類器モデルが構築されてよい。文書分類器モデルは、精緻化されたトピックの中の第2トピックと関連付けられた少なくとも1つの電子文書に機械学習を適用することによって、構築されてよい。いくつかの実施形態で、文書分類器モデルは、図1の文書分類器モデル132と同じか又は類似してよい。いくつかの実施形態で、文書分類器モデルの構築のプロセスは、図1の機械学習プロセス130と同じか又は類似してよい。いくつかの実施形態で、文書分類器モデルは、精緻化されたトピックの中の各トピックと関連付けられている少なくとも1つの電子文書に機械学習を適用することによって、構築されてよい。
いくつかの実施形態で、第2トピックに関連付けられている他の電子文書が、文書分類器モデルを構築するために選択されてよい。他の電子文書は、他の電子文書と第2トピックとの間の関連付けの程度が閾値を超えることに基づいて、選択されてよい。いくつかの実施形態で、精緻化されたトピックの中の各トピックと関連付けられている1つの更なる電子文書が、文書分類器モデルを構築するために選択されてよい。更なる電子文書の選択は、更なる電子文書と更なる電子文書が関連付けられている精緻化されたトピックとの間の関連付けの程度が閾値を超えることに基づいてよい。
ブロック560で、電子文書が取得されてよい。電子文書は、ブロック510で取得された複数の電子文書に含まれても含まれなくてもよい。いくつかの実施形態で、取得された電子文書は、図1の電子文書138と同じか又は類似してよい。
ブロック570で、電子文書は、文書分類器モデルを用いて、精緻化されたトピックの中のあるトピックに分類されてよい。ブロック570に続いて、電子文書は、電子文書の分類に基づくディスプレイでの提示のために、供給されてよい。例えば、電子文書は、同じトピックに従って分類されている他の電子文書とともに表示されてよい。
本開示の適用範囲から逸脱することなしに、方法500に対して変更、追加、又は削除が行われてよい。例えば、ブロック544は省略されてよい。更に、動作の順序は、種々の実施に従って様々であってよい。
当業者に明らかなように、プロセス100、プロセス300、プロセス400、及び方法500、並びに本明細書で開示されている他のプロセス及び方法について、プロセス及び方法で実行される機能は、別の順序で実施されてもよい。更に、説明されているステップ及び動作は単に例として与えられており、ステップ及び動作のいくつかは、開示されている実施形態の本質から外れることなしに、任意であっても、より少ないステップ及び動作へとまとめられても、あるいは更なるステップ及び動作に拡張されてもよい。
例えば、方法500は、第1用語及び第2用語を含む用語群を取得すること更に含んでもよい。第1用語は、第1トピックに関連してよく、複数の電子文書の中の第1電子文書から取得されてよい。第2用語は、第2トピックに関連してよく、複数の電子文書の中の第2電子文書から取得されてよい。方法500は、精緻化されたトピックに対して第3トピックを加えることを更に含んでもよい。第3トピックは、用語群に基づいてよい。第3トピックは、第1電子文書及び第2電子文書と関連付けられてよい。
他の例として、方法500は、ディスプレイでの提示のために、精緻化されたトピックの中の第2トピックを供給することを更に含んでもよい。方法500は、第2トピックに関する確認を取得することを更に含んでもよい。上記のトピックフィードバックは、確認の一例であってよい。方法500は、第2トピックを含めるようにトピック抽出モデルを更新し、第2トピックを含む更新されたトピック抽出モデルを用いて複数の電子文書を解析して、第2の複数のトピックを取得することを更に含んでもよい。
他の例として、方法500は、電子文書の分類に基づくディスプレイでの提示のために電子文書を供給し、電子文書に関連するフィードバックを取得することを更に含んでもよい。上記の文書フィードバックは、電子文書に関するフィードバックの一例であってよい。方法500は、フィードバックに基づいて第3トピックを識別することを更に含んでもよい。方法500は、フィードバックに基づいて第3トピックを含めるようにトピック抽出モデルを更新し、第3トピックを含む更新されたトピック抽出モデルを用いて複数の電子文書を解析して、第2の複数のトピックを取得することを更に含んでもよい。
図6は、例となるコンピュータシステム600のブロック図である。コンピュータシステム600は、本開示で記載されている少なくとも1つの実施形態に従ってよい。図6に表されているように、コンピュータシステム600は、プロセッサ602、メモリ604、データストレージ606、及び通信ユニット608を含んでよい。
一般に、プロセッサ602は、様々なコンピュータハードウェア又はソフトウェアモジュールを含む如何なる適切な特別目的又は汎用のコンピュータ、コンピューティングエンティティ、又はプロセッシングデバイスも含んでよく、如何なる適用可能なコンピュータ可読記憶媒体でも記憶される命令を実行するよう構成されてよい。例えば、プロセッサ602は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィードルプログラマブルゲートアレイ(FPGA)、又はプログラム命令を解釈及び/又は実行するよう及び/又はデータを処理するよう構成された何らかの他のデジタル若しくはアナログ回路を含んでよい。たとえ図6において単一のプロセッサとして表されているとしても、プロセッサ602は、本明細書で記載されている任意数の動作を個別的に又は集合的に実行するよう構成される任意数のネットワーク又は物理位置にわたって分配された任意数のプロセッサを含んでよい。いくつかの実施形態で、プロセッサ602は、メモリ604、データストレージ606、又はメモリ604及びデータストレージ606に記憶されているプログラム命令を解釈及び/又は実行してよく、且つ/あるいは、記憶されているデータを処理してよい。いくつかの実施形態で、プロセッサ602は、データストレージ606からプログラム命令をフェッチし、プログラム命令をメモリ604にロードしてよい。プログラム命令がメモリ604内にロードされた後、プロセッサ602は、図1のプロセス100、図3のプロセス300、図4のプロセス400、及び/又は図5のプロセス500に関して記載された1つ以上の動作を実行する命令のような、プログラム命令を実行してよい。
メモリ604及びデータストレージ606は、コンピュータ実行可能命令を搬送又は記憶するためのコンピュータ可読記憶媒体又は1つ以上のコンピュータ可読記憶媒体を含んでよい。そのようなコンピュータ可読記憶媒体は、プロセッサ602のような汎用又は特別目的のコンピュータによってアクセスされ得る如何なる利用可能な媒体であってもよい。一例として、限定なしに、そのようなコンピュータ可読記憶媒体には、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的消去可能なプログラム可能リードオンリーメモリ(EEPROM)、コンパクトディスク・リードオンリーメモリ(CD−ROM)若しくは他の光ディスクストレージ、磁気ディスクストレージ若しくは他の磁気記憶デバイス、フラッシュメモリデバイス(例えば、ソリッドステートメモリデバイス)、又はコンピュータ実行可能命令若しくはデータ構造の形で所望のプログラムコードを搬送若しくは記憶するために使用され得且つ汎用若しくは特別目的のコンピュータによってアクセスされ得る何らかの他の記憶媒体を含む非一時的なコンピュータ可読記憶媒体が含まれてよい。上記の組み合わせも、コンピュータ可読記憶媒体の範囲の中に含まれてよい。コンピュータ実行可能命令は、例えば、プロセッサ602に特定の動作又は動作群を実行させるよう構成された命令及びデータを含んでよい。
通信ユニット608は、電子文書、トピック及び/又はフィードバックを受けるよう、且つ、電子文書、トピック及び/又はフィードバックをデータストレージ606へ供給するよう構成されてよい。通信ユニット608は、記録、データセット及び/又は仮説上のデータセットを受けるよう、且つ、記録、データセット及び/又は仮説上のデータセットをデータストレージ606へ供給するよう構成されてよい。通信ユニット608は、コンピュータシステム600とネットワークとの間の通信を可能にするよう又は助けるよう構成された如何なるデバイス、システム、コンポーネント、又はコンポーネントの集合も含んでよい。例えば、通信ユニット608は、制限なしに、モデム、ネットワークカード(無線若しくは有線)、赤外線通信デバイス、光通信デバイス、無線通信デバイス(例えば、アンテナ)、及び/又はチップセット(例えば、ブルートゥース(登録商標)デバイス、802.16デバイス(例えば、メトロポリタンエリアネットワーク(MAN))、Wi−Fiデバイス、Wi−MAXデバイス、セルラー通信設備、など)、及び/又は同様ものを含んでよい。通信ユニット608は、ほんの数例を挙げれば、セルラーネットワーク、Wi−Fiネットワーク、MAN、光ネットワーク、などのような何らかのネットワーク、及び/又は遠隔のデバイスを含む、本開示で記載されている任意の他のデバイスとデータが交換されることを可能にし得る。
本開示の適用範囲から逸脱することなしに、コンピュータシステム600に対して変更、追加、又は削除が行われてよい。例えば、データストレージ606は、複数の場所に位置し、ネットワークを通じてプロセッサ602によってアクセスされてよい。
上述されたように、本明細書で記載されている実施形態は、以下で更に詳細に説明される様々なコンピュータハードウェア又はソフトウェアモジュールを含む特別目的又は汎用のコンピュータ(例えば、図6のプロセッサ)の使用を含んでよい。更に、上述されたように、本明細書で記載されている実施形態は、コンピュータ実行可能な命令又はデータ構造を搬送又は記憶するコンピュータ可読媒体(例えば、図6のメモリ604)を用いて実施されてよい。
いくつかの実施形態で、本明細書で記載されている種々のコンポーネント、モジュール、エンジン、及びサービスは、コンピュータシステムで(例えば、別個のスレッドとして)実行するオブジェクト又はプロセスとして実施されてよい。本明細書で記載されているシステム及び方法のいくつかは、(汎用ハードウェアによって記憶及び/又は実行される)ソフトウェアで実施されるものとして概して記載されるが、一方、特定のハードウェア実施又はソフトウェアと特定のハードウェア実施との組み合わせも可能であり、考えられている。
当たり前のこととして、図面に表されている様々な特徴は、実寸通りでないことがある。本開示で提示されている実例は、何らかの特定の装置(例えば、デバイス、システム、など)又は方法の実際の図であるよう意図されず、本開示の様々な実施形態について記載するために用いられる理想的な表現にすぎない。従って、様々な特徴の寸法は、明りょうさのために任意に拡大又は縮小されることがある。その上、図面のいくつかは、明りょうさのために簡単にされることがある。よって、図面は、所与の装置(例えば、デバイス)の構成要素の全部又は特定の方法の全部の動作を表さないことがある。
本明細書で、特に添付の特許請求の範囲(例えば、添付の特許請求の本文)で使用される語は、一般的に、“非限定的な(open)”用語として意図されている(例えば、語「含んでいる(including)」は、“〜を含んでいるが、〜に制限されない”との意に解釈されるべきであり、語「備えている(having)」は、「少なくとも〜を備えている」との意に解釈されるべきであり、語「含む(includes)」は、“〜を含むが、〜に制限されない”との意に解釈されるべきである、など。)。
更に、導入されたクレーム記載(introduced claim recitation)において特定の数が意図される場合、そのような意図は当該クレーム中に明確に記載され、そのような記載がない場合は、そのような意図も存在しない。例えば、理解を促すために、後続の添付された特許請求の範囲では、「少なくとも1つの(at least one)」及び「1つ以上の(one or more)」といった導入句を使用し、クレーム記載を導入することがある。しかし、このような句を使用するからといって、「a」又は「an」といった不定冠詞によりクレーム記載を導入した場合に、たとえ同一のクレーム内に、「1つ以上の」又は「少なくとも1つの」といった導入句と「a」又は「an」といった不定冠詞との両方が含まれるとしても、当該導入されたクレーム記載を含む特定のクレームが、当該記載事項を1しか含まない例に限定されるということが示唆されると解釈されるべきではない(例えば、「a」及び/又は「an」は、「少なくとも1つの」又は「1つ以上の」を意味すると解釈されるべきである。)。定冠詞を使用してクレーム記載を導入する場合にも同様のことが当てはまる。
更には、導入されたクレーム記載において特定の数が明示されている場合であっても、そのような記載は、通常、少なくとも記載された数を意味するように解釈されるべきであることは、当業者には理解されるであろう(例えば、他に修飾語のない、単なる「2つの記載事項」という記載がある場合、この記載は、少なくとも2つの記載事項、又は2つ以上の記載事項を意味する。)。更に、「A、B及びCなどのうち少なくとも1つ」又は「A、B及びCなどのうちの1つ以上」に類する表記が使用される場合、一般的に、そのような構造は、Aのみ、Bのみ、Cのみ、AとBの両方、AとCの両方、BとCの両方、及び/又はAとBとCの全て、などを含むよう意図される。例えば、語「及び/又は(and/or)」の使用は、このように解釈されるよう意図される。
更に、2つ以上の選択可能な用語を表す如何なる離接語及び/又は離接句も、明細書、特許請求の範囲、又は図面のいずれであろうと、それら用語のうちの1つ、それらの用語のうちのいずれか、あるいは、それらの用語の両方を含む可能性を意図すると理解されるべきである。例えば、「A又はB」という句は、「A又はB」、あるいは、「A及びB」の可能性を含むことが理解されるべきである。
加えて、語「第1(first)」、「第2(second)」、「第3(third)」などの使用は、要素の特定の順序又は数を示すために本願で必ずしも使用されているわけではない。一般に、語「第1」、「第2」、「第3」などは、異なる要素どうしを総称的な識別子として区別するために使用される。語「第1」、「第2」、「第3」などが特定の順序を示すとの明示がない限りは、それらの語が特定の順序を示すと理解されるべきではない。更には、語「第1」、「第2」、「第3」などが要素の特定の数を示すとの明示がない限りは、それらの語が要素の特定の数を示すと理解されるべきではない。例えば、第1のウィジェットは、第1の側面を有するものとして記載されることがあり、第2のウィジェットは、第2の側面を有するものとして記載されることがある。第2のウィジェットに対する語「第2の側面」の使用は、第2のウィジェットのその側面を第1のウィジェットの「第1の側面」と区別するためであって、第2のウィジェットが2つの側面を有していることを示すためではない。
ここで挙げられている全ての例及び条件付き言語は、当該技術の促進に本発明者によって寄与される概念及び本発明を読者が理解するのを助ける教育上の目的を意図され、そのような具体的に挙げられている例及び条件に制限されないと解釈されるべきである。本開示の実施形態が詳細に記載されてきたが、様々な変更、置換、及び代替が、本開示の主旨及び適用範囲から逸脱することなしに行われてよい。
上記の実施形態に加えて、以下の付記を開示する。
(付記1)
複数の電子文書を取得することと、
各トピックが少なくとも1つの電子文書と関連付けられるように前記複数の電子文書と関連付けられた複数のトピックを取得することと、
前記複数のトピックの中の第1トピックと前記複数のトピックの中の第2トピックとの間の類似を決定することであり、前記第1トピックは、前記複数の電子文書の中の第1組に関連し、前記決定することと、
前記第1トピックと前記第2トピックとの間の前記類似に基づいて前記複数のトピックを精緻化することであり、該精緻化することは、前記複数の電子文書の中の前記第1組を前記第2トピックと関連付け、前記第1トピックを前記複数のトピックから除くことを含む、前記精緻化することと、
前記精緻化された複数のトピックの夫々と関連付けられた前記複数の電子文書の中の少なくとも1つの電子文書に機械学習を適用することによって、前記精緻化された複数のトピックに従って電子文書を分類するよう構成された文書分類器モデルを構築することと、
電子文書を取得することと、
前記文書分類器モデルを用いて、前記取得された電子文書を前記精緻化された複数のトピックの中の1トピックに分類することと
を有する方法。
(付記2)
前記第1トピックは、前記複数の電子文書の中の第1電子文書から取得された第1用語に関連し、
前記第2トピックは、前記複数の電子文書の中の第2電子文書から取得された第2用語に関連し、該第2用語は、前記第1トピックと関連せず、
前記複数のトピックを精緻化することは、
前記第1用語及び前記第2用語を含む用語群を取得することと、
前記用語群に基づく第3トピックを前記精緻化された複数のトピックに加えることであり、前記第3トピックは、前記第1電子文書及び前記第2電子文書に関連する、前記加えることと
を更に含む、
付記1に記載の方法。
(付記3)
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
前記第1タームベクトルを前記第2タームベクトルと比較することと、
前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
を有する、
付記1に記載の方法。
(付記4)
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
第1の複数の用語と前記第1トピックとの間の複数の関連付けを表す第1トピックベクトルを取得することと、
第2の複数の用語と前記第2トピックとの間の複数の関連付けを表す第2トピックベクトルを取得することと、
前記第1トピックベクトルを前記第2トピックベクトルと比較することと、
前記第1トピックベクトルと前記第2トピックベクトルとの間の前記比較により、前記第1トピックベクトルと前記第2トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
を有する、
付記1に記載の方法。
(付記5)
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
前記第1タームベクトルを前記第2タームベクトルと比較することと
を更に有し、
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに更に基づく、
付記4に記載の方法。
(付記6)
前記文書分類器モデルを構築するために、前記第2トピックに関連する前記複数の電子文書の中の他の電子文書を選択することを更に有し、
前記他の電子文書は、該他の電子文書と前記第2トピックとの間の関連付けの程度が閾値を超えることに基づいて選択される、
付記1に記載の方法。
(付記7)
前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することを更に有する、
付記1に記載の方法。
(付記8)
トピック抽出モデルを用いて前記複数の電子文書を解析して、前記複数のトピックを取得し、前記複数の電子文書を前記複数のトピックと関連付けることを更に有し、
前記解析することは、トピックが前記トピック抽出モデルへ供給することなしに実行される、
付記1に記載の方法。
(付記9)
ディスプレイでの提示のために前記精緻化された複数のトピックの中の前記第2トピックを供給することと、
前記第2トピックに関する確認を取得することと、
前記第2トピックを含めるように前記トピック抽出モデルを更新することと、
前記第2トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
を更に有する付記8に記載の方法。
(付記10)
前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することと、
前記取得された電子文書に関するフィードバックを取得することと、
前記フィードバックに基づいて第3トピックを特定することと、
前記フィードバックに基づいて、前記第3トピックを含めるように前記トピック抽出モデルを更新することと、
前記第3トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
を更に有する付記8に記載の方法。
(付記11)
1以上の命令を記憶するよう構成される少なくとも1つの非一時的なコンピュータ可読媒体であって、
前記命令は、少なくとも1つのプロセッサによって実行されるときに、システムに、
複数の電子文書を取得することと、
各トピックが少なくとも1つの電子文書と関連付けられるように前記複数の電子文書と関連付けられた複数のトピックを取得することと、
前記複数のトピックの中の第1トピックと前記複数のトピックの中の第2トピックとの間の類似を決定することであり、前記第1トピックは、前記複数の電子文書の中の第1組に関連し、前記決定することと、
前記第1トピックと前記第2トピックとの間の前記類似に基づいて前記複数のトピックを精緻化することであり、該精緻化することは、前記複数の電子文書の中の前記第1組を前記第2トピックと関連付け、前記第1トピックを前記複数のトピックから除くことを含む、前記精緻化することと、
前記精緻化された複数のトピックの夫々と関連付けられた前記複数の電子文書の中の少なくとも1つの電子文書に機械学習を適用することによって、前記精緻化された複数のトピックに従って電子文書を分類するよう構成された文書分類器モデルを構築することと、
電子文書を取得することと、
前記文書分類器モデルを用いて、前記取得された電子文書を前記精緻化された複数のトピックの中の1トピックに分類することと
を有する動作を実行させる、
非一時的なコンピュータ可読媒体。
(付記12)
前記第1トピックは、前記複数の電子文書の中の第1電子文書から取得された第1用語に関連し、
前記第2トピックは、前記複数の電子文書の中の第2電子文書から取得された第2用語に関連し、該第2用語は、前記第1トピックと関連せず、
前記複数のトピックを精緻化することは、
前記第1用語及び前記第2用語を含む用語群を取得することと、
前記用語群に基づく第3トピックを前記精緻化された複数のトピックに加えることであり、前記第3トピックは、前記第1電子文書及び前記第2電子文書に関連する、前記加えることと
を更に含む、
付記11に記載の非一時的なコンピュータ可読媒体。
(付記13)
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
前記第1タームベクトルを前記第2タームベクトルと比較することと、
前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
を有する、
付記11に記載の非一時的なコンピュータ可読媒体。
(付記14)
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
第1の複数の用語と前記第1トピックとの間の複数の関連付けを表す第1トピックベクトルを取得することと、
第2の複数の用語と前記第2トピックとの間の複数の関連付けを表す第2トピックベクトルを取得することと、
前記第1トピックベクトルを前記第2トピックベクトルと比較することと、
前記第1トピックベクトルと前記第2トピックベクトルとの間の前記比較により、前記第1トピックベクトルと前記第2トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
を有する、
付記11に記載の非一時的なコンピュータ可読媒体。
(付記15)
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
前記第1タームベクトルを前記第2タームベクトルと比較することと
を更に有し、
前記第1トピックと前記第2トピックとの間の前記類似を決定することは、前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに更に基づく、
付記14に記載の非一時的なコンピュータ可読媒体。
(付記16)
前記動作は、前記文書分類器モデルを構築するために、前記第2トピックに関連する前記複数の電子文書の中の他の電子文書を選択することを更に有し、
前記他の電子文書は、該他の電子文書と前記第2トピックとの間の関連付けの程度が閾値を超えることに基づいて選択される、
付記11に記載の非一時的なコンピュータ可読媒体。
(付記17)
前記動作は、前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することを更に有する、
付記11に記載の非一時的なコンピュータ可読媒体。
(付記18)
前記動作は、トピック抽出モデルを用いて前記複数の電子文書を解析して、前記複数のトピックを取得し、前記複数の電子文書を前記複数のトピックと関連付けることを更に有し、
前記解析することは、トピックが前記トピック抽出モデルへ供給することなしに実行される、
付記11に記載の非一時的なコンピュータ可読媒体。
(付記19)
前記動作は、
ディスプレイでの提示のために前記精緻化された複数のトピックの中の前記第2トピックを供給することと、
前記第2トピックに関する確認を取得することと、
前記第2トピックを含めるように前記トピック抽出モデルを更新することと、
前記第2トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
を更に有する、
付記18に記載の非一時的なコンピュータ可読媒体。
(付記20)
前記動作は、
前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することと、
前記取得された電子文書に関するフィードバックを取得することと、
前記フィードバックに基づいて第3トピックを特定することと、
前記フィードバックに基づいて、前記第3トピックを含めるように前記トピック抽出モデルを更新することと、
前記第3トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
を更に有する、
付記18に記載の非一時的なコンピュータ可読媒体。
100 電子文書の内容を解析するプロセス
108,138 電子文書
110 トピック抽出プロセス
112,312 トピック
120,200 パーソナルカテゴリ生成プロセス
122 パーソナルカテゴリ
124 トピック表示プロセス
128 確認されたトピック
130 機械学習プロセス
132 文書分類器モデル
140 文書分類プロセス
142,442 分類された電子文書
300 2つのトピックの間の類似を決定するプロセス
314 用語
320 トピックベクトル生成プロセス
322 トピックベクトル
330 タームベクトル生成プロセス
332 タームベクトル
340 トピックベクトル比較プロセス
342 トピックベクトル類似スコア
350 タームベクトル比較プロセス
352 タームベクトル類似スコア
360 スコア結合プロセス
362 結合類似スコア
400 電子文書を表示するプロセス
450 文書順位付けプロセス
452 順位付けされた電子文書
460 インターフェイス
462 モデルアップデート
464 電子文書表示プロセス
466 フィードバック処理プロセス
500 電子文書の内容を解析する方法
600 コンピュータシステム
602 プロセッサ
604 メモリ
606 データストレージ
608 通信ユニット

Claims (20)

  1. 複数の電子文書を取得することと、
    各トピックが少なくとも1つの電子文書と関連付けられるように前記複数の電子文書と関連付けられた複数のトピックを取得することと、
    前記複数のトピックの中の第1トピックと前記複数のトピックの中の第2トピックとの間の類似を決定することであり、前記第1トピックは、前記複数の電子文書の中の第1組に関連し、前記決定することと、
    前記第1トピックと前記第2トピックとの間の前記類似に基づいて前記複数のトピックを精緻化することであり、該精緻化することは、前記複数の電子文書の中の前記第1組を前記第2トピックと関連付け、前記第1トピックを前記複数のトピックから除くことを含む、前記精緻化することと、
    前記精緻化された複数のトピックの夫々と関連付けられた前記複数の電子文書の中の少なくとも1つの電子文書に機械学習を適用することによって、前記精緻化された複数のトピックに従って電子文書を分類するよう構成された文書分類器モデルを構築することと、
    電子文書を取得することと、
    前記文書分類器モデルを用いて、前記取得された電子文書を前記精緻化された複数のトピックの中の1トピックに分類することと
    を有する方法。
  2. 前記第1トピックは、前記複数の電子文書の中の第1電子文書から取得された第1用語に関連し、
    前記第2トピックは、前記複数の電子文書の中の第2電子文書から取得された第2用語に関連し、該第2用語は、前記第1トピックと関連せず、
    前記複数のトピックを精緻化することは、
    前記第1用語及び前記第2用語を含む用語群を取得することと、
    前記用語群に基づく第3トピックを前記精緻化された複数のトピックに加えることであり、前記第3トピックは、前記第1電子文書及び前記第2電子文書に関連する、前記加えることと
    を更に含む、
    請求項1に記載の方法。
  3. 前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
    前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
    前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
    前記第1タームベクトルを前記第2タームベクトルと比較することと、
    前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
    を有する、
    請求項1に記載の方法。
  4. 前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
    第1の複数の用語と前記第1トピックとの間の複数の関連付けを表す第1トピックベクトルを取得することと、
    第2の複数の用語と前記第2トピックとの間の複数の関連付けを表す第2トピックベクトルを取得することと、
    前記第1トピックベクトルを前記第2トピックベクトルと比較することと、
    前記第1トピックベクトルと前記第2トピックベクトルとの間の前記比較により、前記第1トピックベクトルと前記第2トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
    を有する、
    請求項1に記載の方法。
  5. 前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
    前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
    前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
    前記第1タームベクトルを前記第2タームベクトルと比較することと
    を更に有し、
    前記第1トピックと前記第2トピックとの間の前記類似を決定することは、前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに更に基づく、
    請求項4に記載の方法。
  6. 前記文書分類器モデルを構築するために、前記第2トピックに関連する前記複数の電子文書の中の他の電子文書を選択することを更に有し、
    前記他の電子文書は、該他の電子文書と前記第2トピックとの間の関連付けの程度が閾値を超えることに基づいて選択される、
    請求項1に記載の方法。
  7. 前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することを更に有する、
    請求項1に記載の方法。
  8. トピック抽出モデルを用いて前記複数の電子文書を解析して、前記複数のトピックを取得し、前記複数の電子文書を前記複数のトピックと関連付けることを更に有し、
    前記解析することは、トピックが前記トピック抽出モデルへ供給することなしに実行される、
    請求項1に記載の方法。
  9. ディスプレイでの提示のために前記精緻化された複数のトピックの中の前記第2トピックを供給することと、
    前記第2トピックに関する確認を取得することと、
    前記第2トピックを含めるように前記トピック抽出モデルを更新することと、
    前記第2トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
    を更に有する請求項8に記載の方法。
  10. 前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することと、
    前記取得された電子文書に関するフィードバックを取得することと、
    前記フィードバックに基づいて第3トピックを特定することと、
    前記フィードバックに基づいて、前記第3トピックを含めるように前記トピック抽出モデルを更新することと、
    前記第3トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
    を更に有する請求項8に記載の方法。
  11. 1以上の命令を記憶するよう構成される少なくとも1つの非一時的なコンピュータ可読媒体であって、
    前記命令は、少なくとも1つのプロセッサによって実行されるときに、システムに、
    複数の電子文書を取得することと、
    各トピックが少なくとも1つの電子文書と関連付けられるように前記複数の電子文書と関連付けられた複数のトピックを取得することと、
    前記複数のトピックの中の第1トピックと前記複数のトピックの中の第2トピックとの間の類似を決定することであり、前記第1トピックは、前記複数の電子文書の中の第1組に関連し、前記決定することと、
    前記第1トピックと前記第2トピックとの間の前記類似に基づいて前記複数のトピックを精緻化することであり、該精緻化することは、前記複数の電子文書の中の前記第1組を前記第2トピックと関連付け、前記第1トピックを前記複数のトピックから除くことを含む、前記精緻化することと、
    前記精緻化された複数のトピックの夫々と関連付けられた前記複数の電子文書の中の少なくとも1つの電子文書に機械学習を適用することによって、前記精緻化された複数のトピックに従って電子文書を分類するよう構成された文書分類器モデルを構築することと、
    電子文書を取得することと、
    前記文書分類器モデルを用いて、前記取得された電子文書を前記精緻化された複数のトピックの中の1トピックに分類することと
    を有する動作を実行させる、
    非一時的なコンピュータ可読媒体。
  12. 前記第1トピックは、前記複数の電子文書の中の第1電子文書から取得された第1用語に関連し、
    前記第2トピックは、前記複数の電子文書の中の第2電子文書から取得された第2用語に関連し、該第2用語は、前記第1トピックと関連せず、
    前記複数のトピックを精緻化することは、
    前記第1用語及び前記第2用語を含む用語群を取得することと、
    前記用語群に基づく第3トピックを前記精緻化された複数のトピックに加えることであり、前記第3トピックは、前記第1電子文書及び前記第2電子文書に関連する、前記加えることと
    を更に含む、
    請求項11に記載の非一時的なコンピュータ可読媒体。
  13. 前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
    前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
    前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
    前記第1タームベクトルを前記第2タームベクトルと比較することと、
    前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
    を有する、
    請求項11に記載の非一時的なコンピュータ可読媒体。
  14. 前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
    第1の複数の用語と前記第1トピックとの間の複数の関連付けを表す第1トピックベクトルを取得することと、
    第2の複数の用語と前記第2トピックとの間の複数の関連付けを表す第2トピックベクトルを取得することと、
    前記第1トピックベクトルを前記第2トピックベクトルと比較することと、
    前記第1トピックベクトルと前記第2トピックベクトルとの間の前記比較により、前記第1トピックベクトルと前記第2トピックベクトルとの間の類似が閾値を超えることが示されることに基づいて、前記第1トピックと前記第2トピックとの間の前記類似を決定することと
    を有する、
    請求項11に記載の非一時的なコンピュータ可読媒体。
  15. 前記第1トピックと前記第2トピックとの間の前記類似を決定することは、
    前記第1トピックに関連する第1用語を表す数の第1タームベクトルを取得することと、
    前記第2トピックに関連する第2用語を表す数の第2タームベクトルを取得することと、
    前記第1タームベクトルを前記第2タームベクトルと比較することと
    を更に有し、
    前記第1トピックと前記第2トピックとの間の前記類似を決定することは、前記第1タームベクトルと前記第2タームベクトルとの間の前記比較により、前記第1タームベクトルと前記第2タームベクトルとの間の類似が閾値を超えることが示されることに更に基づく、
    請求項14に記載の非一時的なコンピュータ可読媒体。
  16. 前記動作は、前記文書分類器モデルを構築するために、前記第2トピックに関連する前記複数の電子文書の中の他の電子文書を選択することを更に有し、
    前記他の電子文書は、該他の電子文書と前記第2トピックとの間の関連付けの程度が閾値を超えることに基づいて選択される、
    請求項11に記載の非一時的なコンピュータ可読媒体。
  17. 前記動作は、前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することを更に有する、
    請求項11に記載の非一時的なコンピュータ可読媒体。
  18. 前記動作は、トピック抽出モデルを用いて前記複数の電子文書を解析して、前記複数のトピックを取得し、前記複数の電子文書を前記複数のトピックと関連付けることを更に有し、
    前記解析することは、トピックが前記トピック抽出モデルへ供給することなしに実行される、
    請求項11に記載の非一時的なコンピュータ可読媒体。
  19. 前記動作は、
    ディスプレイでの提示のために前記精緻化された複数のトピックの中の前記第2トピックを供給することと、
    前記第2トピックに関する確認を取得することと、
    前記第2トピックを含めるように前記トピック抽出モデルを更新することと、
    前記第2トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
    を更に有する、
    請求項18に記載の非一時的なコンピュータ可読媒体。
  20. 前記動作は、
    前記取得された電子文書の前記分類に基づいて、ディスプレイでの提示のために前記取得された電子文書を供給することと、
    前記取得された電子文書に関するフィードバックを取得することと、
    前記フィードバックに基づいて第3トピックを特定することと、
    前記フィードバックに基づいて、前記第3トピックを含めるように前記トピック抽出モデルを更新することと、
    前記第3トピックを含む前記更新されたトピック抽出モデルを用いて前記複数の電子文書を解析して、第2の複数のトピックを取得することと
    を更に有する、
    請求項18に記載の非一時的なコンピュータ可読媒体。
JP2019211523A 2018-12-03 2019-11-22 電子文書の分類 Active JP7484141B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/208321 2018-12-03
US16/208,321 US11416534B2 (en) 2018-12-03 2018-12-03 Classification of electronic documents

Publications (2)

Publication Number Publication Date
JP2020091857A true JP2020091857A (ja) 2020-06-11
JP7484141B2 JP7484141B2 (ja) 2024-05-16

Family

ID=70850248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019211523A Active JP7484141B2 (ja) 2018-12-03 2019-11-22 電子文書の分類

Country Status (2)

Country Link
US (1) US11416534B2 (ja)
JP (1) JP7484141B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022002088A (ja) * 2020-06-19 2022-01-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11734360B2 (en) * 2019-12-18 2023-08-22 Catachi Co. Methods and systems for facilitating classification of documents
US20210209500A1 (en) * 2020-01-03 2021-07-08 International Business Machines Corporation Building a complementary model for aggregating topics from textual content
US20220058496A1 (en) * 2020-08-20 2022-02-24 Nationstar Mortgage LLC, d/b/a/ Mr. Cooper Systems and methods for machine learning-based document classification
US11803574B2 (en) * 2021-05-13 2023-10-31 Microsoft Technology Licensing, Llc Clustering approach for auto generation and classification of regional sports
US20240248901A1 (en) * 2023-01-23 2024-07-25 Microsoft Technology Licensing, Llc Method and system of using domain specific knowledge in retrieving multimodal assets

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003330966A (ja) * 2002-05-13 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体
JP2008203933A (ja) * 2007-02-16 2008-09-04 Dainippon Printing Co Ltd カテゴリ作成方法および装置、文書分類方法および装置
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2017073137A (ja) * 2015-10-09 2017-04-13 富士通株式会社 記述的なトピックラベルの生成
US20170154280A1 (en) * 2015-12-01 2017-06-01 International Business Machines Corporation Incremental Generation of Models with Dynamic Clustering
US20170278016A1 (en) * 2014-09-29 2017-09-28 Tongji University Clustering Coefficient-based Adaptive Clustering Method and System

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4972349A (en) * 1986-12-04 1990-11-20 Kleinberger Paul J Information retrieval system and method
JP2004164036A (ja) * 2002-11-08 2004-06-10 Hewlett Packard Co <Hp> 文書の共通性評価方法
US8548995B1 (en) * 2003-09-10 2013-10-01 Google Inc. Ranking of documents based on analysis of related documents
WO2009038788A1 (en) * 2007-09-21 2009-03-26 Noblis, Inc. Method and system for active learning screening process with dynamic information modeling
US9110984B1 (en) * 2011-12-27 2015-08-18 Google Inc. Methods and systems for constructing a taxonomy based on hierarchical clustering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003330966A (ja) * 2002-05-13 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体
JP2008203933A (ja) * 2007-02-16 2008-09-04 Dainippon Printing Co Ltd カテゴリ作成方法および装置、文書分類方法および装置
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
US20170278016A1 (en) * 2014-09-29 2017-09-28 Tongji University Clustering Coefficient-based Adaptive Clustering Method and System
JP2017073137A (ja) * 2015-10-09 2017-04-13 富士通株式会社 記述的なトピックラベルの生成
US20170154280A1 (en) * 2015-12-01 2017-06-01 International Business Machines Corporation Incremental Generation of Models with Dynamic Clustering

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
芹澤 翠、小林 一郎: "潜在トピックの類似度に基づくトピック追跡への取り組み", 2011年度人工知能学会全国大会(第25回)論文集 [CD−ROM], JPN6023031686, 1 June 2011 (2011-06-01), pages 1 - 4, ISSN: 0005118487 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022002088A (ja) * 2020-06-19 2022-01-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
JP7179123B2 (ja) 2020-06-19 2022-11-28 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体

Also Published As

Publication number Publication date
US11416534B2 (en) 2022-08-16
JP7484141B2 (ja) 2024-05-16
US20200175052A1 (en) 2020-06-04

Similar Documents

Publication Publication Date Title
JP7484141B2 (ja) 電子文書の分類
Allahyari et al. Automatic topic labeling using ontology-based topic models
CN106709040B (zh) 一种应用搜索方法和服务器
US9390086B2 (en) Classification system with methodology for efficient verification
US10366093B2 (en) Query result bottom retrieval method and apparatus
WO2016179938A1 (zh) 题目推荐方法和题目推荐装置
CN109408743B (zh) 文本链接嵌入方法
KR102685008B1 (ko) 검색 모델의 훈련 방법, 목표 대상의 검색 방법 및 그 장치
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
Jotheeswaran et al. OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE.
CN111813930B (zh) 相似文档检索方法及装置
US20200192921A1 (en) Suggesting text in an electronic document
US11227183B1 (en) Section segmentation based information retrieval with entity expansion
US20170185672A1 (en) Rank aggregation based on a markov model
Xu et al. Improve biomedical information retrieval using modified learning to rank methods
Koutsomitropoulos et al. Semantic classification and indexing of open educational resources with word embeddings and ontologies
AbdElminaam et al. DeepCorrect: Building an efficient framework for auto correction for subjective questions using GRU_LSTM deep learning
CN110347821A (zh) 一种文本类别标注的方法、电子设备和可读存储介质
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
Tran et al. A named entity recognition approach for tweet streams using active learning
CN113779981A (zh) 一种基于指针网络和知识图谱的推荐方法及装置
Srivastava et al. Redundancy and coverage aware enriched dragonfly-FL single document summarization
Tang et al. Labeled phrase latent Dirichlet allocation
Kuttiyapillai et al. Improved text analysis approach for predicting effects of nutrient on human health using machine learning techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240415

R150 Certificate of patent or registration of utility model

Ref document number: 7484141

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150