JP5563836B2 - ソーシャルインデクシングのためにデフォルト階層訓練を提供するためのシステム及び方法 - Google Patents

ソーシャルインデクシングのためにデフォルト階層訓練を提供するためのシステム及び方法 Download PDF

Info

Publication number
JP5563836B2
JP5563836B2 JP2010010997A JP2010010997A JP5563836B2 JP 5563836 B2 JP5563836 B2 JP 5563836B2 JP 2010010997 A JP2010010997 A JP 2010010997A JP 2010010997 A JP2010010997 A JP 2010010997A JP 5563836 B2 JP5563836 B2 JP 5563836B2
Authority
JP
Japan
Prior art keywords
topic
label
tree
pattern
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010010997A
Other languages
English (en)
Other versions
JP2010176665A (ja
Inventor
ジェイ.ステフィク マーク
ミッタル サンジェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2010176665A publication Critical patent/JP2010176665A/ja
Application granted granted Critical
Publication of JP5563836B2 publication Critical patent/JP5563836B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Description

本発明は、一般に、ディジタル情報検索と意味付け(センスメイキング)に係り、より詳細には、ソーシャルインデクシング(社会索引付け)のためにデフォルト(初期設定)階層訓練を提供するためのシステム及び方法を提供する。
世界的な「“Web”(ウェブ)」は、新しい情報が連続的に公開されるオープンエンド(無制限)なリポジトリ(保存場所)である。ウェブ情報は、著者、編集者、共同製作者、及び、例えば、「“Web log”(ウェブログ)」又は「“Blog”(ブログ)」を介してコメントする外部の寄稿者を含む様々な情報源から発信される。このような多様性は、潜在的に広大なトピック(表題)インデックスを示唆し、これらのインデックスは、根底にある情報と同様に、絶え間なく、成長し変化する。
ソーシャルインデクシングシステムは、情報を提供し、それらのユーザによって構築されたインデックスのトピック別分類に応じたエバーグリーンな(常に新しい)情報を編成するサービスを検索する。例えば、その全体を参照することによって本明細書中に組み込まれている2008年8月12日付けで同一出願人により係属出願中の特許文献1に開示されているように、ウェブなどの無制限な情報源をエバーグリーンなソーシャルインデックス(社会索引)としてトピック別に編成することで、情報の発見や検索が容易になる。
ソーシャルインデックスは、エバーグリーン情報をトピック別に編成する。ユーザは、ソーシャルインデックスのためにトピックを定義し、トピックを階層的に編成する。次に、ユーザは、システムと対話して、ロバスト(堅牢)なモデルを構築し、Id(アィディー(識別情報))として記載されている、例えば、用例ベース訓練(example−based training)を使って、ソーシャルインデックスのトピックにあてはまる記事を分類する。この訓練を介して、システムは、ポジティブな用例記事にうまく整合するが、ネガティブな用例記事には整合しない有限状態パターンを生成することによって細粒度トピックモデルを構築する。
更に、システムは、例えば、その全体が参照することによって本明細書中に組み込まれている、2009年1月15日付けで同一出願人により係属出願中の特許文献2に開示されているように、特徴的単語の母集サイズに基づいて粗粒度トピックモデルを構築することができる。粗粒度トピックモデルは、記事が大まかにトピックに関連しているかあるかどうかを認識するために使用される。細粒度トピックモデルに整合するが、ポジティブな訓練例の記事の基準とはかけ離れている統計的単語の用法は、「ノイズ(雑)」記事として認識される。粗粒度トピックモデルは、その全体が参照することによって本明細書中に組み込まれている2008年11月14日付けで同一出願人により係属仮出願中の特許文献3に開示されているように、「ニアミス」、即ち、単語用法が訓練例に類似しているが、例えば、好ましい細粒度トピックモデルのいずれにも整合してない記事を示唆する。
大抵の場合、ソーシャルインデクシングの成功のカギは、新しいインデックスの作成の容易さによるが、インデックストピックの用例ベース訓練を介してインデックスを構築する場合は特に、新しいユーザにとってインデックス作成が最も難関となる。用例ベース手法は、インデックスに対してぴったり合ったトピックモデルを生成し、潜在的に複雑なクエリ(照会)を書き込むスキルの習得をユーザに要求せずに、パターンを作成することができる。また、用例ベース訓練は、トピックモデルを調整するために有効なフィードバックを提供する。しかしながら、用例ベース訓練はやはり相当な作業量と理解力を必要とする。初期段階として、新しいユーザは、各トピックを作成し、名前を付け、そのトピックをトピックツリーに入れる必要がある。訓練には更に多くの作業が必要となる。ユーザは、トピック毎にポジティブな用用例記事を識別し、このポジティブな用用例記事を用いてインデックスを訓練する必要がある。訓練に続いて、システムは、トピック毎に、整合記事、それらの得点、更に、「ニアミス」候補を報告する。ニアミスの一つ以上がトピックにあてはまる場合、ユーザは、それらの記事をポジティブな訓練例の集合に加算することができる。しかも、システムが、一つ以上のトピックに関連していない記事を整合トピックとして報告してきた場合、ユーザは、これらの記事をネガティブな訓練例として追加し得る。
以上のルーチンを経てから、やっと、ユーザは、トピックを調整する無制限な繰り返し処理に取り掛かる。トピックモデルから満足のいく結果を得るまで、ポジティブ及びネガティブな訓練例を加算するいくらかの周期が必要とされる場合もある。それらの作業努力の結果を直ぐに求めたがる新しいユーザにとって、用例ベース訓練に掛かる手間や労力が作業意欲を減退させる要因となっている。
米国特許公開第2009−0099996A1号 米国特許出願第12/354,681号 米国特許仮出願第61/115,024号
トピックモデルは、ユーザに訓練例を提供することを要求することなく、作成される。トピックモデルは、個別のトピックラベルとツリー内部におけるそれらの場所との両方を用いて階層的トピックツリーに基づいて構築される。記事のランダム(任意)サンプルは、インデックスのための所与の情報源から作成され、候補となるトピックモデル、即ち、パターンが生成される。パターンは、ラベルについての発見的規則の集合、単語とラベルの特殊性、及びトピックツリーによって表現される関係性によって格付けされる。得られるトピックモデルは、デフォルト訓練で使用される制約がはっきり特定されていないため、用例ベース訓練に比べると、精度も正確性も高くない。しかしながら、この手法によって作業量がかなり削減される。ユーザは、インデックストピックを特定するために常にトピックツリーを作成する必要があるが、用例を提供するための余分な作業が不要となり、原案となるインデックスを得ることができる。
本発明の一つの態様は、ソーシャルインデクシングのためのデフォルト階層訓練を提供するシステム及び方法を提供する。ソーシャルインデクシングのためのディジタル情報の記事が保持される。トピックの階層的構造ツリーが特定される。各トピックは一つ以上の単語を有するラベルを含む。トピックツリーのリテラル(文字)構造に本来備わっている制約が識別される。トピックツリーのトピック毎に、ラベルの少なくとも一つのラベルを構成する単語から導出された少なくとも一つの用語を含むトピックモデルが生成される。制約に照らして、トピックツリーに対するトピックモデルが評価される。トピックモデルのうち、制約を最大限満足させるトピックモデルが識別される。
デフォルトソーシャルインデックスの生成は、用例ベース訓練のみが提供されている場合より、新しいユーザの迅速なスタートを可能とし、ソーシャルインデックス内のトピック境界の微調整が必要とされる場合、後から用例ベース訓練へ切替えるための良好な基準を提供する。システムは、発見的な基準及びバイアスに対して他の候補パターンを生成し評価することによって、トピックラベルを単に連結させて発見する場合より、良好な回答を生み出すことができる。
本発明を実施するための最良の方法を例示することによって、以下にその詳細が説明される実施の形態によって、更に他の実施の形態が適用できることは、当業者に容易に理解されよう。明確であるように、本発明の精神とその範囲を逸脱しない限りにおいて、本発明に基づいて他のさまざまな実施の形態のみならず、場合によってはその細部の様々な具体的な部分の変更が可能であることが理解されよう。従って、添付されている図面と発明を実施するための形態は、本来、例示することのみを目的としており、本発明を限定するものではないことも理解されよう。
ディジタル情報のための例示的な環境を示すブロック図である。 図1の環境に使用される基本的な構成要素を示す機能ブロック図である。 ソーシャルインデクシングのための単なるデフォルト階層訓練の故障モードを例示している画面図である。 ソーシャルインデクシングのための単なるデフォルト階層訓練の故障モードを例示している画面図である。 ソーシャルインデクシングのための単なるデフォルト階層訓練の故障モードを例示している画面図である。 本発明の一実施の形態によるソーシャルインデクシングのためのデフォルト階層訓練を提供する方法を示すフローチャートである。 図6の方法によって使用されるデフォルト候補パターン得点を計算するためのルーチンを示すフローチャートである。 図7のルーチンによって使用される記事整合を評価するためのルーチンを示すフローチャートである。 図7のルーチンによって使用される構造的複雑度を評価するためのルーチンを示すフローチャートである。 図7のルーチンによって使用されるラベルを評価するためのルーチンを示すフローチャートである。 図7のルーチンによって使用されるハードな制約を評価するためのルーチンを示すフローチャートである。 図7のルーチンによって使用されるソフトな制約を評価するためのルーチンを示すフローチャートである。 ソーシャルインデクシングのためのデフォルト階層訓練の結果を例示している画面図である。 ソーシャルインデクシングのためのデフォルト階層訓練の結果を例示している画面図である。
用語集
以下の用語は、明細書全体にわたって使用され、特に注釈がなければ、以下に記載の意味を含む。
・ コーパス: 記事、ドキュメント、ウェブページ、電子ブック、又は印刷材料として入手できる他のディジタル情報(など大量の言語データ)の集まり又は集合。
・ ドキュメント(文書): コーパス内の個々の記事。ドキュメントは、書籍の章又は節、又はより大きな著作品の細目を含む。文書は様々なトピックのいくつかの引用頁を含み得る。
・ 引用頁: 頁番号などのインデックスが引用するドキュメント内の場所。引用頁は、単頁又は頁集合であってよい。引用頁において、サブトピックは、索引付けのための細粒度トピックモデルによって拡張され、頁集合は、細粒度トピックモデルに整合する全頁を含む。各引用頁は、頁全体よりはるかに小さく、例えば、細粒度トピックモデルと整合する段落などをいう。
・ 主題領域(サブジェクトエリア): エバーグリーンインデックスとこれと等価のインデックスを含むソーシャルインデックスにおけるトピックとサブトピックの集合である。
・ トピック(表題): ソーシャルインデックス内の単一エントリ。エバーグリーンインデックスにおいて、トピックは、コーパス内のドキュメントに整合するように用いられる細粒度トピックモデル、例えば、パターンを伴う。また、トピックは粗粒度トピックモデルを伴う。
・ サブトピック: ソーシャルインデックス内のトピック下に階層的に例挙される単一エントリ。エバーグリーンインデックスにおいて、サブトピックは細粒度トピックモデルを伴う。
・ 細粒度トピックモデル: 細粒度トピックモデルは、有限状態計算に基づいており、記事が特定のトピックの範囲内に入っているかを判断するために使用される。各保存された細粒度トピックモデルは、有限状態パターンであり、クエリ(照会)に類似している。細粒度トピックモデルは、ポジティブな訓練例及びネガティブな訓練例に照らして、有限状態マシンを訓練することによって作成される。
・ 粗粒度トピックモデル: 粗粒度トピックモデルは、特徴的単語に基づき、どのトピックが照会に整合するかを判断する時に使用される。各保存された粗粒度トピックモデルは、トピックに対して重要な特徴的単語の集合であり、各特徴的単語の重要度を示すスコア(得点)である。この粗粒度トピックモデルは、ポジティブな訓練例、及びインデックス内の全てのトピックに関連している記事の基準(ベースライン)サンプルから生成される。基準サンプルは、基準単語の出現頻度を確立する。ポジティブな訓練例の単語の出現頻度と基準サンプルの単語の出現頻度が比較される。粗粒度トピックモデルはトピックのサブインデックス生成に使用される他に、広告指標化、ノイジー記事の検出、ニアミス(極めて類似している記事)の検出、及び他の目的に使用され得る。
・ 共同体: オンラインの特定の主題領域で、関心ある主要トピックを共有し、そのインタラクション(対話)の少なくとも一部に対して、コンピュータネットワークが介在している。主題領域の定義付けは多岐にわたり、ヨットレース、有機園芸などの趣味的分野から、歯科医又は内科医などの職業的関心、又は、後発性糖尿病のケアなどの医学的関心に及ぶ。
・ 拡張(オーグメント)共同体: 主題領域上にソーシャルインデックスを有する共同体。拡張共同体は、ソーシャルインデックスによって既に引用されている主題領域内でドキュメントを読み出し、あるいは、投票にかけて、参加する。
・ エバーグリーンインデックス: エバーグリーンインデックスは、コーパスに対して「常に新しい状態を維持する」ソーシャルインデックスである。実施例としては、ソーシャルインデクシングシステムは、コーパスの新しいドキュメントを識別するために、RSS(アールエスエス:RDF(リソース記述枠組みの略)サイトサマリー)形式のフィード又はクロールウェブサイトをポーリング(調査)する。
・ ソーシャルインデクシング(社会索引付け)システム: ソーシャルインデックス(社会索引)を用いたオンライン情報交換。このシステムは、拡張共同体間の情報交換を容易にし、状態インジケータを提供し、関心が持たれる文書を一つの拡張共同体から他の拡張共同体へ渡すことを可能にする。拡張共同体の相互接続された集合は、共同体のソーシャルネットワークを形成する。
・ 情報ダイエット(絞込み): 情報ダイエットは、ユーザが「消費する」即ち「関心ある主題を越えて読む」情報を特徴付ける。例えば、ユーザの情報消費動作において、ユーザは、選挙関連ニュースに25%、ローカルニュースに15%、芸能関連トピックに10%、健康増進関連トピックの新しい情報に10%、特定の職業関連に20%、経済発展に10%、エコロジーや新しいエネルギ資源の開発に10%、その時間を費やしている。ソーシャルインデクシングシステムが付与されれば、ユーザは、自分の情報ダイエットにおいてユーザが興味をもつ選別された拡張共同体への参加やモニタリングを行うことができる。
ラベル: トピックの階層インデックスからのトピックラベル
複製トピックラベル: 階層インデックス内の一つ以上のトピック上で使用されるトピックラベル
共通の先祖: トピックツリーにおいて二つのトピックが与えられた場合、共通の先祖が両トピックの先祖であるトピック。
単語: トピックラベル内に出現する語幹語。
複製単語: 任意の形態において一つ以上のトピックラベルに出現する単語。
局所的トピック単語: 所与のトピックに対するトピックのラベル内に出現する単語。
親単語: トピック親のラベル内に出現する単語。
用語(項): デフォルト(初期設定)トピックモデルとして機能するパターンにおいて出現する単語、n−グラム法(出現頻度統計)、又は単語群。各用語における単語は、ラベル内の単語の語幹化されたバージョンから得られる。
好ましいパターン: トピックラベルに出現する同一単語を使用する論理積又はn−グラム法のパターン。例えば、トピックラベルが「“Onset Venture”」である場合、好ましいパターンは、あらゆる停止単語を飛び越した、n−グラム法の「“{Onset Venture}”」、又は、論理積の「“[Onset Venture]”」である。トピックラベルが、例えば、単一単語「“Mayfield”」である場合、好ましいパターンは、語幹化形式における単一単語である。
複雑度(又は簡単度)得点: デフォルト候補パターンの構造を反映する得点。
有効パターン: ハードな制約を満足させるパターン
ディジタル情報インフラストラクチャは、公共のデータネットワーク、例えば、インターネット、独立型コンピュータシステム、及び電子的に記録された情報の無制限なリポジトリを含む。図1は、ディジタル情報に対する例示的環境10を示すブロック図であり、環境10は、ソーシャルインデクシング活動を支援するソーシャルインデクシングシステム11を含む。インターネットなどのディジタルデータ通信ネットワーク16は、ディジタル情報を交換するためのインフラストラクチャを提供する。他のネットワークインフラストラクチャ、例えば、非公共の法人企業ネットワークも利用可能である。ネットワーク16は、それぞれがディジタル情報を供給し消費する多様な分散した情報源及び消費者に対して相互接続性をもたらす。著者、編集者、共同制作者、及び外部寄稿者などが、ネットワーク16に、記事、ウェブページなどを次から次へと公開し、ウェブサーバ14a、ニュースアグリゲータ(収集)サーバ14b、投票によるニュースサーバ14c、及び情報源として作用する他のデータリポジトリを介して、分散したデータコーパスとして保持される。これらのソースは、ウェブコンテンツ15a、ニュースコンテンツ15b、共同体の投票にかけて「選ばれた」又は「吟味された」コンテンツ15c、及び他の情報を、パソコン等のユーザ装置13a〜cのみならず、すべてが情報消費者として機能する他のサーバを介してネットワーク16にアクセスするユーザへ、供給する。サーバ及び他の非利用者(ノンユーザ)装置情報の消費者も同様に、コーパス内の情報を探索、検索、及び利用することができるが、ここでは、より簡単化するためにユーザ装置のみを取り上げて説明する。
一般に、各ユーザ装置13a〜cは、サーバ14a〜cとインターフェースして、情報交換及び検索することを支援するウェブブラウザ(“Web Browser”)又は同様のアプリケーションを実行する、ウェブ対応装置である。ユーザ装置13a〜cとサーバ14a〜cは共に、中央処理装置、メモリ、入力/出力ポート、ネットワークインターフェース、非揮発性記憶装置などの汎用のプログラマブル計算装置において従来の技術において知られている構成要素を含が、他の構成要素が使用されてもよい。更に、サーバ14a〜cに代えて又はこれに加えて他の情報源も利用可能であり、ユーザ装置13a〜cに代えて又はこれに加えて他の情報消費者も利用可能である。
ソーシャルインデクシングシステム11は、例えば、その全体が参照することによって本明細書中に組み込まれている2008年8月12日付けで同一出願人により係属出願中の米国特許公開第2009−0099996A1号に開示されているように、ソーシャルインデクシングを介してエバーグリーンインデックス下でトピック別に編成される記事を供給する。ソーシャルインデクシングシステム11は、例えば、その全体が参照することによって本明細書中に組み込まれている、2009年1月27日付けで同一出願人により係属出願中の米国特許出願第12/360,834号に記載されているように、ユーザの最新情報への要求に応じて、どのトピックが最も「熱い」のか、どのトピックが「冷めた」のかを判断する。最後に、ソーシャルインデクシングシステム11は、例えば、その全体が参照することによって本明細書中に組み込まれている2009年1月27日付けで同一出願人により係属出願中の米国特許出願第12/360,823号に記載されているように、記事を、時間によって仕分けされ時間領域によってフィルタリング(選別)される関連度帯域によってグループ化して表示する。
ユーザの観点からすると、ディジタル情報検索のための環境10は、単一情報ポータルとして出現するが、実際には、分離されているが、統合されたサービスの集合である。図2は、図1の環境10において使用される基本的な構成要素20を示す機能ブロック図である。ディジタル情報の発見、探査、方向付け、検索等の他の関連するディジタル情報動作を提供するために更なる構成要素が必要とされる場合もある。
構成要素20は、情報収集部21、ソーシャルインデクシング22、及びユーザサービス23から成る三つの基本機能モジュールへ大まかにグループ化され得る。他の機能モジュールも使用可能である。更に、機能モジュールは、同一の又は別個の計算プラットフォーム上で実施され得る。情報収集部21は、電子的に記憶された情報の分散型コーパスを集合的に形成する、ウェブサーバ14a、ニュース収集サーバ14b、投票によるニュースサーバ14cを含む無制限な情報ソースから、ウェブコンテンツ15a、ニュースコンテンツ15b、及び「吟味された」コンテンツ15cなどの着信コンテンツ24を得る。着信コンテンツ24は、コーパスからの新しいディジタル情報を収穫するために記憶媒体収集装置によって収集される。着信コンテンツ24は、一般に、構造リポジトリに記憶されるか、又は、実際の複写を保持する代わりに、着信コンテンツのハイパーリンク又は引用を保存することによって、間接的に記憶される。
着信コンテンツ24は、もともと情報が記憶されていた表現とは異なる複数の表現において記憶され得る。異なる表現が、タイトルの表示、記事要旨の提示、トピック別分類の追跡、及び、細粒度トピックモデルの導出及び使用を容易にするために使用され得る。記事における単語も、ステム(語幹化)され、トークン(文字列分割)形式、マイナス句読点、大文字などにおいて保存され得る。さらに、ソーシャルインデクシングシステム11によって作成される細粒度トピックモデルは、単語の大部分が廃棄され、主に単語の出現頻度が保持される着信コンテンツ24のかなり抽象的なバージョンを表現する。
着信コンテンツ24は、好ましくは、記憶装置25内で保持されるトピックインデックス29の下で編成される。トピックインデックス29は、全ての情報を網羅するトピックインデックスの大きい集合26の一部であってもよい。その全体が参照することによって本明細書中に組み込まれている2008年8月12日付けで同一出願人により係属出願中の米国特許公開第2009−0099996A1号に開示されているように、トピックインデックス29は、ソーシャルインデックス22を介して構築されるエバーグリーンインデックスであってもよい。エバーグリーンインデックスは、新しい情報がインデックス内のトピックの一つ以上にあてはまるか否かを試験するために用いられる有限状態パターンなどの細粒度トピックモデルを含む。ソーシャルインデクシング22は、教師有りマシン学習をブートストラップ訓練材料に適用して、トピックインデックス29のトピック及びサブトピックごとに細粒度トピックモデルを作成する。或いは、以下の詳細な説明は、図3を参照して開始されるが、ソーシャルインデックス22は、個々のトピックラベルとツリー内でのラベル場所の両方を用いて、階層的トピックツリーに基づいて、自己案内方式のトピックモデルを形成するために、デフォルト訓練を実行する。デフォルト訓練が実行されると、予め選択されている主題領域のトピックとして新しい情報を自動的に分類するために、インデックス外挿として、エバーグリーンインデックスが使用される。
ユーザサービス23は、ユーザがトピックインデックスの集合26と着信コンテンツ24にアクセスし、トピックインデックスの集合26又は単一のトピックインデックス29に対して照会検索を実行し、次に、検索結果、トピックインデックス、及び焦点が絞られたサブインデックスにアクセスできるように、ユーザ27a〜bに、フロントエンドを提供する。また更なる実施の形態において、各トピックインデックス29は、「“augmented”:拡張された」共同体として知られるユーザの共同体につながっている。拡張共同体は、中心となる主題領域において進行中の興味を持っている。この共同体は、情報が割り当てられたトピックにおいて「投票」28をかけて引用された情報を「吟味」する。
最も基本的な形態において、デフォルトソーシャルインデックスは、各トピックラベルから単語を抽出し、停止単語を削除した単語の論理積をトピックモデル又はパターンとして作成することによって、形成される。しかしながら、この手法には欠点がある。図3〜図5は、ソーシャルインデクシングのための単なるデフォルト階級的訓練の故障モード41、51、61を例示した画面図40、50、60である。
まず、図3を参照すると、“2008 Presidential election”のインデックスに対するトピック階層の一部が記述されている。トピック43のうちの一つは、“housing crisis”であり、“policy issues>economy>housing crisis.”にあてはまる階級的インデックス44内で編成されている。トピック−ラベル−単語−抽出−そして−論理積(単なるデフォルト訓練)の手法を適用すれば、得られるパターンは、用語が語幹化された単に“[hous crisi]”となり、どの整合記事も単語“house”と“crisis”の両方を含むことを必要とする論理積である。比較すると、このトピックに対する用例ベース訓練によって、結果的に、“(mortgage{hous crisi})”というパターンが得られる。このパターンは、単一用語“mortgage”とニ単語n−グラム法の“housing crisis”の論理和である。このパターンは、単語“mortgage”か、n−グラム法の“housing crisis”のいずれかを含む任意の記事に整合する。これらの対照的な例によって、解を求める際に、用例ベース訓練がどのようにしてより多数の情報源を活用するかが示されている。用例ベース訓練を介して作成された候補パターンは、トピックのタイトルには存在せず、ポジティブな訓練例として与えられた記事の特徴的単語から引き出される単語“mortgage”を使用する。
このインデックスにおける資源からの記事に対して、単なるデフォルト訓練と用例ベース訓練パターンの確実性のあるジョブを実行した。単なるデフォルトパターンは、正確な記事のうちの多数を発見したが、“crisis faced by the House of Representatives”についての記事とも整合したが、“mortgage meltdown”についてのいくつかの記事を見落とした。対照的に、用例ベース訓練パターンは、このような制限がないため、より多くのポジティブ及びネガティブな例を付与されることによって、だんだんと進化して、より多くの複雑なトピック境界を認識するまでに達した。
他のケースにおいて、単なるデフォルトパターンは大きく失敗している。次に、図4を参照すると、“Chinese NBA players”52に対する訓練インデックスが記述されている。この訓練インデックスは、選手の名前53で編成されている。各選手の下に、更なるトピックが並べて追加され得る。サブトピック“pre−season game”54a〜cが3人の選手全員に対して示されている。ここで、単なるデフォルト訓練は、同じ名前を有するサブトピックの全てに対して同一のパターン“[pre−season game]”を作成し、3人の選手全員にする非公式の試合について記事と全く同じ集合を生成する。
単なるデフォルト訓練装置の単なる変化は、トピック階層から引き出される先祖トピックから用語を含むことによってモデルの特殊性を高めることができる。例えば、訓練装置は、三つの複製ラベルのサブトピックの一番目に、パターン“[Sun Yue pre season game]”を生成することができた。この変化によって、トピックに対するデフォルトパターンの制約がトピックツリーの他のノードとの関係から生じることを示唆している。しかしながら、親単語を含む変化には問題がある。論理積としての単語の数が増えるにつれて、整合記事の数は必然的に減少する。例えば、単語“Yue”を含むが、単語“Sun”を含まないSun Yue(サンユー)の非公式試合についての記事は、デフォルトパターンでは見落とされている。
更に他の変化は、親トピックからの単語の全てではないがいくつかを含むことである。最後に、図5を参照すると、Venture Capital Firm(ベンチャー投資会社)62についてのインデックスから抽出されたトピックツリーが図示されている。多くのベンチャー投資会社は、その名において “Venture”及び“Capital”などの同一単語を使用している。候補パターンとしてどの単語を使用するかを評価するためには更なる情報が必要とされる。情報源の一つは、情報源から検索された記事の集合である。ある程度までは、より多くの記事と整合するトピックに対するパターンは、より少ない記事と整合するパターンより、好ましい。しかしながら、それだけではこの規則は失敗する。例えば、“2008 Presidential election”のソーシャルインデックスにおいて、単語“2008”は殆ど全ての記事に整合するであろう。結果的に、高頻度で出現する単語を追加したとしても、トピックモデルにおけるパターンの識別力を高めるわけではない。訓練用記事の略正規の数が存在しているはずであるが、その数はシャープカットオフ(不変)ではない。
要するに、候補パターンはトピックラベルに出現する用語から生成され得る。単純な論理積が有効なインデックスがいくつかあるが、それだけでは、
●トピックラベルが複製された時、先祖ノードからの単語及び制約を考慮に入れる必要がある場合、
●複製ラベルを有する共通の先祖ノードからの単語が互いに識別されない場合、
●ツリー内の先祖ノードの全てからの全単語を使用することによって過剰に制限された論理積が生じた場合、
●パターンに含むように更なる単語を選択する時、単語の出現頻度に関する情報を考慮に入れる必要がある場合、
この手法は、失敗につながる。
デフォルト階層訓練は、デフォルトインデックスを生成する単なるデフォルト訓練の欠点を克服する。このデフォルト階層訓練は、多くの場合、主要事項を編成するために全体的に満足できる。図6は、本発明の一実施形態によるソーシャルインデクシングのためにデフォルト階層訓練を提供するための方法70を示すフローチャートである。この方法は、例えば、サーバなどの汎用プログラミングコンピュータによって実行される一連の処理又は方法のステップとして実行される。
ソーシャルインデックスは、指定されアクセスされる必要がある(ステップ71)。ソーシャルインデックスは、インデックストピックを指定するために階層的構造トピックツリーとしてユーザによって作成されてよいし、又は、いくつかの他のインデックスソースから発信されてもよい。トピックツリーは、そのうちのいくつかが全体的に又は部分的に複製され得るトピックラベルを含む。ソーシャルインデックスにおける各トピックラベルは、繰り返し処理され(ステップ72〜74)、各繰り返し期間中、デフォルト候補パターンが生成される(ステップ73)。各デフォルト候補パターンは、
● 単一単語パターン、
● 完成したトピックラベルから作成されたn−グラム法、又は
● 単一単語、n−グラム法、又は論理和から作成された三項から成る論理積
を含むことができる。
論理積に加えて又は論理積に代わって、論理和又はシーケンス(列)などの他のパターンが含まれてもよい。単語を、一回より多く使用するようなデフォルト候補パターンは削除される。更に、デフォルト候補パターンを生成する場合、トピックのラベル、トピックの親ラベル、又はトピックの任意の他の先祖のラベルに出現する単語が使用される。インデックスの他のラベルにおいて出現する単語はデフォルト候補パターン評価期間に判断される。
各デフォルト候補パターンは、繰り返し処理され(ステップ75〜77)、以下の更なる説明が、図7を参照して開始されるように、各繰り返し中、このパターンの得点が計算される(ステップ76)。しかし、推定される制約を、記事に対して整合されるパターンとして、変換する得点処理を以下に要約する:
● 最初に、デフォルト候補パターンが、0〜80点の範囲の記事得点に基づいて、得点が割り当てられる。
● 記事得点の半分の最小値と複雑度得点が加算される。
● デフォルト候補パターンがトピックの好ましいパターンに一致した場合、記事得点の半分の最小値と10点が得点に加算される。
● デフォルト候補パターンがハードな規則を破った場合、パターンは100点のペナルティを課す。
● 候補がソフトな規則を破った場合、パターンは、一反則当たり20点のペナルティを課す。
各デフォルト候補パターンに割り当てられる点数の変化は、得点処理に対してさほど影響しない。
最終的には、パターンはこれらの得点に基づいて格付けされ、最高得点のパターンが、デフォルト階層インデックスに対して選択される(ステップ78)。
デフォルトパターンを評価する際にいくつかの要因が考えられる。図7は、図6の方法に使用するためのデフォルト候補パターンを計算するためのルーチン80を示すフローチャートである。一実施形態において、デフォルト候補パターンのための得点が計算され、最高得点を有するパターンが選択される。他の基準化も適用可能であるが、パターンの総得点は100点満点を意図して判断される。デフォルト候補パターンが記事の「正しい数」と整合していれば、80点程度まで取得できる。更に、パターンが「正しい」構造を有していれば、10点程度まで取得でき、「正しい」方法でトピックラベルに類似していれば、10点まで取得できる。
いくつかの要因が採点法に寄与する。要因は、パターン評価における要因として、記事整合、構造的簡単度、及びラベルボーナスを判断するために、パーセンテージ又は他の測定基準で定量化される。一般的なケースでは、おおよその有効パーセンテージによって定量化される。
○ 70%: 図8を参照して以下に更に記載されているように、記事整合(ステップ81)。理想的な比率に最も近似している記事のパーセンテージに比例して整合するトピックモデルが有利であると認められる。
○ 10%: 図9を参照して以下に更に記載されているように、構造的簡単度(ステップ82)。特定の種類の構造的複雑度によってトピックモデルの識別能力が高められ、有利であると認められる。
○ 20%: 図10を参照して以下に更に記載されているように、ラベルボーナス(ステップ83)。ボーナスラベルを含むトピックモデルは同等の得点の他のトピックモデルと同点決勝を行う。
更に、単一単語パターンは複数の単語パターンより多い記事を整合させる傾向がある。結果的に、デフォルト候補パターン得点は、単一単語パターンに起因する高い記事カウントの利点を削減するように調整される。これによって、トピックが二つ以上の単語を有する単語ラベルを有し、提示されたデフォルト候補パターンに含まれる単語数が、単語ラベルに含まれる単語よりも少ない場合(ステップ84)、記事得点が半減されるペナルティが課される(ステップ85)。
図11及び図12のそれぞれを参照して、以下に更に記載されているように、デフォルト候補パターンが、ハードな制約(ステップ87)とソフトな制約か(ステップ88)に照らして検討される。ハードな制約は不変規則を表し、ソフトな制約は許容規則である。ハードな制約が破られた場合、トピックモデルによって獲得された得点に厳しいペナルティが課されるか又は不利とされる。これに対して、ソフトな制約が破られた場合は得点を下げられるだけである。ハードな制約の違反又はソフト制約の多過ぎる違反の拒絶パターンの得点は、ゼロ未満(マイナス)となる。評価後(ステップ81〜87)、得られた得点を戻す(ステップ88)。
デフォルト候補パターンを評価する際の最大唯一の要因は、パターンが整合する記事の数であり、総得点の70%まで寄与する。但し、記事の整合の判断を採点法において好適とされる大多数の役割に割り当てる他の手法が用いられてもよい。図8は、図7のルーチン80に使用する記事整合を評価するためのルーチン90を示すフローチャートである。理想的なインデックスにおいて、各トピックは、同一レベルの等しく割り当てられた記事に整合する。しかしながら、あるトピックが他のトピックよりも常に重要であるので、このような整合は実際には殆ど結果を出さない。ハードな制約(「有効」パターン)を満足させるデフォルト候補パターンの大部分は、ごく一部の記事に整合するが、大部分のパターンはどの記事とも整合しない。更に、有効候補の中では、大部分の記事に整合するパターンが一般に好ましいとされる。
より多くの記事に整合するパターンがより少ない記事に整合する記事よりも一般的に有利と判断されるが、デフォルト候補パターンが多過ぎる記事と整合する場合もある。テスト記事の約20%より多く整合しているような過剰に存在するパターンは、通常、識別性が低すぎて、利用不可能である。この結果、デフォルト候補パターン評価は、突然の不連続に遮断することなく、「理想的な最大値」まで大部分の記事に整合するパターンが好ましいとされる。
● 記事の20%未満が整合する候補(ステップ91)には、記事の理想数を少数表示した得点が割り当てられる(ステップ92)。
● 記事の20〜40%より多くが整合する候補(ステップ93)には、整合した記事の数が40%に近似するにつれてゼロまで減少する得点が割当てられる(ステップ94)。
● 記事整合>記事の40%が整合する候補(ステップ95)は多過ぎると判断され、得点ゼロが割当てられる(ステップ96)。
記事整合評価(ステップ91〜96)に続いて、得られた得点を戻す(ステップ97)。
構造の複雑度の得点はデフォルト候補パターン評価において第2の要因であり、総得点の約20%まで貢献する。但し、構造的複雑度の想定を採点法における好適な少数派の役割に割り当てる他の手法が使用されてもよい。図9は、図7のルーチン80に使用するための構造的複雑度を評価するためのルーチン100を示すフローチャートである。複雑度の得点を計算する際に三つの要因が判断される。
○ n−グラム法の数(ステップ101)。一般に、n−グラム法は、高い識別パターン要素であり、デフォルト候補パターンは、パターンに含まれるn−グラム法の数との関連において、報酬を受ける(ステップ102)。
○ 非複製単語の数(ステップ103)。非複製単語は、複製単語より識別性が高い。いくつかの非複製単語を有するパターンは、より少ない又は非複製単語を全く含まないパターンよりも識別性が高い傾向がある。非複製単語の数が計算される(ステップ104)。
○ グループ数(ステップ105)。単語のグループは、用語の論理積と論理和である(ステップ106)。
三つの要因を考慮した(ステップ101〜106)後、デフォルト候補パターンに対する全体的な得点が調整される(ステップ107)。複雑度(又は簡単度)得点は以下の等式において求められる:
score=(6×numNgrams)−(numGroups+2)×numNonDupWords−numDupWords (1)
式中、numNgramsはn−グラム法の数であり、numGroupsは単語群の数であり、numNonDupWordsは非複製単語の数であり、numDupWordsは複製単語の数である。しかしながら、得点の全体的な影響力を制限するために、以下の規則が得点調整に適用される。即ち、
○ 得点は10より大きくならないし、或いは、−10未満に満たない。
○ 候補の為の総得点において簡単度得点は記事得点の50%以上にならない。
採点法の他の公式化も可能である。構造的複雑度の整合評価(ステップ101〜107)の後、得られた得点を戻す(ステップ108)。
いろいろなデフォルト候補パターンが同一得点で終了することもある。2つの代表的なケースとしては、
○ 略同じ得点を有する多数のパターンがある。完成したパターンのうち、パターンの一つは「ボーナス」ラベルを有している。
○ 候補者は、いずれの記事にも整合しない。
従って、これらの両ケースにおいて合理的な推測をするために、ボーナスラベルを有するパターンにボーナス得点が報酬として与えられ、これが、総得点の20%までに寄与する。但し、ボーナスラベルに対する信用度(クレジット)を、採点法の好適な少数派の役割に、割り当てる他の手法が使用されてもよい。図10は、図7のルーチン80に使用されるラベルを評価するためのルーチン110を示すフローチャートである。各デフォルト候補パターンは繰り返し処理され(ステップ111〜114)、各繰り返しの間、ボーナスラベルに対してパターンが評価されるが、このパターンは、トピックラベル内の単語の全てを含むパターンである(ステップ112)。
これらの場合において、合理的な推測を行うために、システムは、ボーナスラベルを有するデフォルト候補パターンにボーナス報酬を与える。ボーナスが以下のようにして与えられる(ステップ113)。即ち、
○ 単一単語パターンに整合する:15点
○ 全てのボーナス単語との論理積:15点
○ 順番に出現する全てのボーナス単語にn−グラム法を適用:20点
この採点法は、単一単語のみを有するラベルもあるが、複数の単語を有するラベルもあることを認識している。更に、n−グラム法は、複数単語のラベルとして同一の単語を含むパターンの中の論理積より特定化されており、採点法は、大部分の特定のラベル単語パターンのバイアスを紹介する。例えば、トピックラベル「“Mountain View”」に対して、この採点法は、論理積「“[mountain view]”」よりもn−グラム法の「“{mountain view}”」が好ましいとされる。n−グラム法は、山と景色を意味する記事とは整合しない。更なる例として、論理積「“[Portola valley]”」よりもn−グラム法の「“{Portola valley}”」が好ましいとされる。後者の論理積は、{“Portola school,”}などの単語の一部又は適切な名詞としてPortolaを用いるSanFrancisco Bay Areaの他の町について記事に整合し、さらに単語valleyも示唆している。
構造的複雑度整合評価(ステップ111〜114)の後、得られた得点を戻す(ステップ115)。
「ハード」な制約は有効パターンのゲートキーパー(門番)を示す。図11は、図7のルーチン80に使用するハードな制約を評価するためのルーチン120を示すフローチャートである。ハードな制約は以下のことを要求する。即ち、
● 複製された単一単語のパターンが特定のトピックに当てはまる記事を選択するための識別力を有していないので、トピックラベルが複製されている場合、パターンは単一用語(項)であってはならない(ステップ121)。
● パターンは局所的トピック用語を含む必要がある(ステップ123)。トピックのラベル内の単語は識別しやすい。
● トピックラベルが複製される場合(ステップ125)、パターンは親単語を含む必要がある(ステップ126)。複数のトピックが同一ラベルを有している場合、トピック同士を識別するためにラベル自体を使用することができない。
デフォルト候補パターンがハードな制約規則を破った場合、このパターンをハードな制約規則を守っているパターンと区別するために、このパターンは100点のペナルティなどの得点ペナルティが課せられる(ステップ122、124、127のそれぞれ)。ハードな制約評価(ステップ121〜127)の後、得られた得点を戻す(ステップ128)。
ソフトな制約はハードな制約よりも弱い好みを示す。図12は、図7のルーチン80に使用されるソフトな制約を評価するためのルーチン130を示すフローチャートである。ソフトな制約は、以下のことを要求する。即ち、
● 候補は、少なくとも一つの非複製の局所的トピック単語を含むべきである(ステップ131)。非複製単語は、複製単語より識別能力が高い。
● 複製トピックラベルに対する候補(ステップ133)は、非複製の親単語を含むべきである(ステップ134)。親からの非複製単語は、複製単語より識別能力が高い。
● 複製されたトピックラベル(ステップ133)に対する候補は、共通の先祖からの単語を含むべきではない(ステップ136)。同一ラベルを有するトピックの共通の先祖からの単語は、トピック同士を識別することができない。
デフォルト候補パターンがソフトな候補規則のいずれかを破った場合、パターンは、破られたソフトな制約全てに対して20点のペナルティなどのペナルティが課せられる(ステップ132、135、137)。ソフトな制約評価の後(ステップ131〜137)、得られた得点を戻す(ステップ138)。
デフォルト階層訓練方法によって、ユーザに任意の訓練例を提供するように要求せずに、所与のインデックスにおけるトピック毎に、トピックモデルが作成される。図13〜図14は、例として、ソーシャルインデクシングのためのデフォルト階層訓練141、151の結果を示す画面図140及び150である。最初に、図4を参照すると、複製ラベルを有する場合の例が示されている。ラベル「”pre−season games”」が3人のバスケットボール選手のそれぞれに対して繰り返されている。「Yao Ming」が出場する非公式試合に対して、デフォルト階層訓練によって選択された好ましいパターンは、用語“game”とn−グラム法の「“ yao ming”」が論理積である、「“[game{yao ming}]”」である。次に、図5を参照すると、ラベルにおいて複製化された単語を分解する例が示されている。トピック「”Sequoia Capital”」が、好ましいパターンとして選択されている単一用語「”Sequoia”」によって訓練されている。複製単語「“ Capital”」が回避されている。この例におけるトレードオフ(交換)の大部分は、単一性得点と整合記事上のパフォーマンスの間で行われる。
ソーシャルインデックスは、ユーザに、用例ベース訓練を行うことを要求せずに作成される。デフォルト階層訓練を提供するためのシステム及び方法は、選択された情報からのドラフト(原案となる)インデックスと、このインデックスの為のトピックの階層を生成する。結果的に、ユーザは迅速に結果を得ることができる。
訓練例がない状態で、性能に対するゴールド基準はない。一実施形態において、他よりも重要と判断される制約もある。制約は「ソフト」と「ハード」な制約に分類される。採点方法は、ハードナ制約の違反に対して最もきびしいペナルティを課す。しかしながら、得点でパターンに単にペナルティを与えるよりも、ハードな制約を守らないデフォルト候補パターンを単純に規則から外すなどの他の手法も可能である。更に、用例ベース訓練におけるように、デフォルト階層訓練方法は、整合記事を計算し、そのパターンの複雑度を判断する。パターンの複雑度は、制約違反の次に重要であると判断される。採点法は記事の整合の計数に基づいて行われる。
おそらく、デフォルト階層訓練にとって最も重要である特殊な要素は、トピックツリーにおける他のノードとの関係性を考えることである。例えば、
● トピック別階層。親と先祖のノードについて考慮すること。
● 複製されたトピックラベル。パターンを評価する際に、複製されたラベルを含むケースを特に考慮すること。
● 複製単語。パターンに含むために単語を選択するときに、一つより多いラベルに出現する単語について特別に配慮すること。他の配慮も適用可能である。
更に他の実施の形態において、デフォルト階層訓練に対するマシン学習方法は、正確であるとして証明された回答と一緒に、数千ものインデックストピックを収集することによって作成され得る。モデリング手法を適用することによって、システム検索は、訓練ケースの大部分に一致する様々な特性に対する最良の重み付けを検索する。
更に他の実施の形態において、トピックラベルにおいて発見された単語の意味の完全なセマンチック(意味論的)モデルがデフォルトパターン訓練装置内に組み込まれてもよく、ユーザがトピックインデックスを構築するときのユーザの意思決定に役立つことによって最適なデフォルトパターンの発見が容易になる。
本発明を特にその実施形態に関して図示及び説明してきたが、当業者には理解されるように、本発明の精神及び範囲から逸脱しない限り、この形式及び細部に上述及びその他の変更を加えてもよい。
10: 環境
11: ソーシャルインデクシングシステム
13a、13b、13c: ユーザ ユーザ ユーザ
14a: ウェブサーバ
15a: ウェブコンテンツ
14b: ニュース収集サーバ
15b: ニュースコンテンツ
14c: 投票によるニュースサーバ
15c: 「吟味された」コンテンツ
16: ネットワーク

Claims (2)

  1. ソーシャルインデクシングのためのデフォルト階層訓練を提供するためのコンピュータ実施方法であって、
    ソーシャルインデクシングのためのディジタル情報の記事を保持し、
    各々が一つ以上の単語を有するラベルを含む、トピックの階層的構造化されたツリーであるトピックツリーを指定し、
    前記トピックツリーの文字構造に本来備わっている制約を識別する共に、不変規則を含むように前記制約を定義し、
    前記不変規則が、
    前記トピックツリー内で複製されたラベルから構成された単一用語を含む一つのトピックモデルを形成すること、
    前記トピックモデルが属するトピックに対するラベルからの用語を全く含まない一つのトピックモデルを形成すること、及び、
    前記ラベルが前記トピックツリー内で複製される時、前記トピックモデルが属する前記トピックに対する親トピックのラベルからの用語を全く含まないトピックモデルを形成すること
    の一つ以上を含み、
    前記トピックツリーのトピック毎に、前記ラベルの少なくとも一つ内の前記単語を含む少なくとも一つの用語を含むと共に有限状態パターンであるトピックモデルを作成し、
    前記制約に照らして、前記トピックツリーに対する前記トピックモデルを評価する共に、前記不変規則の一つ以上を破るトピックモデルを不利とし、
    前記トピックモデルの中から、前記制約を最高に満たすトピックモデルを識別する、
    コンピュータ実施方法。
  2. 許可規則を含むように前記制約を定義し、前記許可規則の一つ以上を破るトピックモデルはカウントしないことを更に含み、
    前記許可規則は、
    前記トピックツリー内の他のラベルに複製されない前記トピックモデルが属する前記トピックのための、前記ラベルからの用語を含まない1つのトピックモデルを形成すること、
    前記ラベルが前記トピックツリー内の他のラベルに複製されるとき、前記トピックモデルが属する前記トピックのための親トピックの前記ラベルからの非複製用語を含まない1つのトピックモデルを形成すること、及び
    前記ラベルが前記トピックツリー内の他のラベルに複製されるとき、前記トピックモデルが属する前記トピックのための共通の先祖トピックのラベルからの用語を含む1つのトピックモデルを形成すること
    の一つ以上を含む、請求項1に記載の方法。
JP2010010997A 2009-01-27 2010-01-21 ソーシャルインデクシングのためにデフォルト階層訓練を提供するためのシステム及び方法 Expired - Fee Related JP5563836B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/360,825 US8356044B2 (en) 2009-01-27 2009-01-27 System and method for providing default hierarchical training for social indexing
US12/360,825 2009-01-27

Publications (2)

Publication Number Publication Date
JP2010176665A JP2010176665A (ja) 2010-08-12
JP5563836B2 true JP5563836B2 (ja) 2014-07-30

Family

ID=42242208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010010997A Expired - Fee Related JP5563836B2 (ja) 2009-01-27 2010-01-21 ソーシャルインデクシングのためにデフォルト階層訓練を提供するためのシステム及び方法

Country Status (3)

Country Link
US (1) US8356044B2 (ja)
EP (1) EP2211280B1 (ja)
JP (1) JP5563836B2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5689361B2 (ja) 2011-05-20 2015-03-25 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation グラフデータの一部を準同型写像の像であるデータ構造に変換する方法、プログラム、および、システム
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
JP5032645B2 (ja) * 2010-11-04 2012-09-26 株式会社東芝 ニュース情報分析装置
EP2645272A1 (en) * 2012-03-28 2013-10-02 Lockeed Martin Corporation Identifying cultural background from text
US9436382B2 (en) 2012-09-18 2016-09-06 Adobe Systems Incorporated Natural language image editing
US9588964B2 (en) * 2012-09-18 2017-03-07 Adobe Systems Incorporated Natural language vocabulary generation and usage
US9141335B2 (en) 2012-09-18 2015-09-22 Adobe Systems Incorporated Natural language image tags
US10656808B2 (en) 2012-09-18 2020-05-19 Adobe Inc. Natural language and user interface controls
US9412366B2 (en) 2012-09-18 2016-08-09 Adobe Systems Incorporated Natural language image spatial and tonal localization
US10204026B2 (en) 2013-03-15 2019-02-12 Uda, Llc Realtime data stream cluster summarization and labeling system
US10430111B2 (en) 2013-03-15 2019-10-01 Uda, Llc Optimization for real-time, parallel execution of models for extracting high-value information from data streams
US9600550B2 (en) 2013-03-15 2017-03-21 Uda, Llc Optimization for real-time, parallel execution of models for extracting high-value information from data streams
US10599697B2 (en) 2013-03-15 2020-03-24 Uda, Llc Automatic topic discovery in streams of unstructured data
US10698935B2 (en) 2013-03-15 2020-06-30 Uda, Llc Optimization for real-time, parallel execution of models for extracting high-value information from data streams
US10191927B2 (en) * 2014-04-02 2019-01-29 Facebook, Inc. Selecting previously-presented content items for presentation to users of a social networking system
WO2015161129A1 (en) * 2014-04-16 2015-10-22 Akuda Labs Llc Automatic topic discovery in streams of unstructured data
CN105159882A (zh) * 2015-09-16 2015-12-16 中国地质大学(北京) 一种确定微博热门话题的方法及装置
US11477302B2 (en) * 2016-07-06 2022-10-18 Palo Alto Research Center Incorporated Computer-implemented system and method for distributed activity detection
US10963501B1 (en) * 2017-04-29 2021-03-30 Veritas Technologies Llc Systems and methods for generating a topic tree for digital information
EP3788512A4 (en) 2017-12-30 2022-03-09 Target Brands, Inc. HIERARCHICAL, PARALLEL MODELS FOR REAL-TIME EXTRACTING HIGH VALUE INFORMATION FROM DATA STREAMS AND THE ASSOCIATED CREATION SYSTEM AND METHOD
WO2022238873A1 (en) * 2021-05-10 2022-11-17 Skupin Andre Knowledge space analytics

Family Cites Families (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369763A (en) * 1989-02-01 1994-11-29 Kansas State University Research Foundation Data storage and retrieval system with improved data base structure
US5257939A (en) * 1992-10-13 1993-11-02 Robinson Don T Cultural knowledge board game
US5724567A (en) * 1994-04-25 1998-03-03 Apple Computer, Inc. System for directing relevance-ranked data objects to computer users
US5659766A (en) * 1994-09-16 1997-08-19 Xerox Corporation Method and apparatus for inferring the topical content of a document based upon its lexical content without supervision
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US5671342A (en) * 1994-11-30 1997-09-23 Intel Corporation Method and apparatus for displaying information relating to a story and a story indicator in a computer system
US5530852A (en) * 1994-12-20 1996-06-25 Sun Microsystems, Inc. Method for extracting profiles and topics from a first file written in a first markup language and generating files in different markup languages containing the profiles and topics for use in accessing data described by the profiles and topics
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5907836A (en) * 1995-07-31 1999-05-25 Kabushiki Kaisha Toshiba Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
US6021403A (en) * 1996-07-19 2000-02-01 Microsoft Corporation Intelligent user assistance facility
US5907677A (en) * 1996-08-23 1999-05-25 Ecall Inc. Method for establishing anonymous communication links
EP0848347A1 (en) * 1996-12-11 1998-06-17 Sony Corporation Method of extracting features characterising objects
US6285987B1 (en) * 1997-01-22 2001-09-04 Engage, Inc. Internet advertising system
JP4208288B2 (ja) * 1997-06-06 2009-01-14 パナソニック株式会社 検索メニュー作成装置、検索メニュー作成方法及び検索メニュー作成プログラムを記録した記録媒体
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6292830B1 (en) * 1997-08-08 2001-09-18 Iterations Llc System for optimizing interaction among agents acting on multiple levels
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6598045B2 (en) * 1998-04-07 2003-07-22 Intel Corporation System and method for piecemeal relevance evaluation
US7275061B1 (en) * 2000-04-13 2007-09-25 Indraweb.Com, Inc. Systems and methods for employing an orthogonal corpus for document indexing
US6269361B1 (en) * 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6981040B1 (en) * 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
US6397211B1 (en) * 2000-01-03 2002-05-28 International Business Machines Corporation System and method for identifying useless documents
JP3562572B2 (ja) * 2000-05-02 2004-09-08 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡
US7062485B1 (en) * 2000-09-01 2006-06-13 Huaichuan Hubert Jin Method and apparatus for score normalization for information retrieval applications
US7185065B1 (en) * 2000-10-11 2007-02-27 Buzzmetrics Ltd System and method for scoring electronic messages
US7200606B2 (en) * 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality
JP2002157262A (ja) * 2000-11-20 2002-05-31 Hitachi Ltd 分類ルール定義支援方法
US6772120B1 (en) * 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US7685224B2 (en) * 2001-01-11 2010-03-23 Truelocal Inc. Method for providing an attribute bounded network of computers
US20020161838A1 (en) * 2001-04-27 2002-10-31 Pickover Cilfford A. Method and apparatus for targeting information
US7092888B1 (en) * 2001-10-26 2006-08-15 Verizon Corporate Services Group Inc. Unsupervised training in natural language call routing
US7716161B2 (en) * 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
US7752072B2 (en) * 2002-07-16 2010-07-06 Google Inc. Method and system for providing advertising through content specific nodes over the internet
US20050226511A1 (en) 2002-08-26 2005-10-13 Short Gordon K Apparatus and method for organizing and presenting content
US7320000B2 (en) * 2002-12-04 2008-01-15 International Business Machines Corporation Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy
CA2419883A1 (en) * 2003-02-26 2004-08-26 Ibm Canada Limited - Ibm Canada Limitee Discriminatory replay of log files during table space recovery in a database management system
US7467202B2 (en) * 2003-09-10 2008-12-16 Fidelis Security Systems High-performance network content analysis platform
GB0322600D0 (en) * 2003-09-26 2003-10-29 Univ Ulster Thematic retrieval in heterogeneous data repositories
JP2005158010A (ja) * 2003-10-31 2005-06-16 Hewlett-Packard Development Co Lp 分類評価装置・方法及びプログラム
EP1687737A2 (en) * 2003-11-21 2006-08-09 Philips Intellectual Property & Standards GmbH Text segmentation and topic annotation for document structuring
US20070244690A1 (en) * 2003-11-21 2007-10-18 Koninklijke Philips Electronic, N.V. Clustering of Text for Structuring of Text Documents and Training of Language Models
WO2005050474A2 (en) * 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
WO2005050621A2 (en) * 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Topic specific models for text formatting and speech recognition
US7293019B2 (en) * 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US7426557B2 (en) * 2004-05-14 2008-09-16 International Business Machines Corporation System, method, and service for inducing a pattern of communication among various parties
US7281022B2 (en) * 2004-05-15 2007-10-09 International Business Machines Corporation System, method, and service for segmenting a topic into chatter and subtopics
JP2005352878A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 文書検索システム、検索サーバ、及び検索クライアント
US7567959B2 (en) * 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7496567B1 (en) * 2004-10-01 2009-02-24 Terril John Steichen System and method for document categorization
US20060167930A1 (en) * 2004-10-08 2006-07-27 George Witwer Self-organized concept search and data storage method
US7548917B2 (en) * 2005-05-06 2009-06-16 Nelson Information Systems, Inc. Database and index organization for enhanced document retrieval
US20070050356A1 (en) * 2005-08-23 2007-03-01 Amadio William J Query construction for semantic topic indexes derived by non-negative matrix factorization
US7707206B2 (en) * 2005-09-21 2010-04-27 Praxeon, Inc. Document processing
US9069847B2 (en) 2005-10-21 2015-06-30 Battelle Memorial Institute Data visualization methods, data visualization devices, data visualization apparatuses, and articles of manufacture
US7890502B2 (en) * 2005-11-14 2011-02-15 Microsoft Corporation Hierarchy-based propagation of contribution of documents
US20070156622A1 (en) * 2006-01-05 2007-07-05 Akkiraju Rama K Method and system to compose software applications by combining planning with semantic reasoning
JP2009528639A (ja) * 2006-02-28 2009-08-06 バズロジック, インコーポレイテッド ソーシャルメディアにおける会話を分析するためのソーシャル分析システムおよび方法
US8326686B2 (en) * 2006-03-30 2012-12-04 Google Inc. Automatically generating ads and ad-serving index
US7890485B2 (en) * 2006-04-13 2011-02-15 Tony Malandain Knowledge management tool
US7809723B2 (en) * 2006-06-26 2010-10-05 Microsoft Corporation Distributed hierarchical text classification framework
WO2008021906A2 (en) * 2006-08-08 2008-02-21 Google Inc. Interest targeting
US20080126319A1 (en) * 2006-08-25 2008-05-29 Ohad Lisral Bukai Automated short free-text scoring method and system
US20080065600A1 (en) * 2006-09-12 2008-03-13 Harold Batteram Method and apparatus for providing search results from content on a computer network
US7921092B2 (en) * 2006-12-04 2011-04-05 Yahoo! Inc. Topic-focused search result summaries
WO2008120030A1 (en) * 2007-04-02 2008-10-09 Sobha Renaissance Information Latent metonymical analysis and indexing [lmai]
US8165985B2 (en) * 2007-10-12 2012-04-24 Palo Alto Research Center Incorporated System and method for performing discovery of digital information in a subject area
US8073682B2 (en) * 2007-10-12 2011-12-06 Palo Alto Research Center Incorporated System and method for prospecting digital information
JP5343861B2 (ja) * 2007-12-27 2013-11-13 日本電気株式会社 テキスト分割装置とテキスト分割方法およびプログラム
US20100042589A1 (en) * 2008-08-15 2010-02-18 Smyros Athena A Systems and methods for topical searching
US8209616B2 (en) * 2008-08-28 2012-06-26 Palo Alto Research Center Incorporated System and method for interfacing a web browser widget with social indexing
US20100057577A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
US9317599B2 (en) * 2008-09-19 2016-04-19 Nokia Technologies Oy Method, apparatus and computer program product for providing relevance indication
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US11502408B2 (en) 2019-04-25 2022-11-15 Sharp Kabushiki Kaisha Scanned antenna and liquid crystal device

Also Published As

Publication number Publication date
US20100191773A1 (en) 2010-07-29
JP2010176665A (ja) 2010-08-12
US8356044B2 (en) 2013-01-15
EP2211280B1 (en) 2016-11-16
EP2211280A2 (en) 2010-07-28
EP2211280A3 (en) 2011-02-02

Similar Documents

Publication Publication Date Title
JP5563836B2 (ja) ソーシャルインデクシングのためにデフォルト階層訓練を提供するためのシステム及び方法
US9483532B1 (en) Text processing system and methods for automated topic discovery, content tagging, categorization, and search
EP2159715B1 (en) System and method for providing a topic-directed search
Hotho et al. Information retrieval in folksonomies: Search and ranking
US9460195B1 (en) System and methods for determining term importance, search relevance, and content summarization
Balog et al. Overview of the TREC 2010 Entity Track.
Bar-Ilan Informetrics at the beginning of the 21st century—A review
Krestel et al. Latent dirichlet allocation for tag recommendation
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
JP2010176666A (ja) ソーシャルインデックスにおける熱いトピック及び冷めたトピックを検出することによりユーザの関心を管理するためのシステム及び方法
US20110270830A1 (en) System And Method For Providing Multi-Core And Multi-Level Topical Organization In Social Indexes
Demartini et al. Why finding entities in Wikipedia is difficult, sometimes
US8498983B1 (en) Assisting search with semantic context and automated search options
Bellot et al. INEX Tweet Contextualization task: Evaluation, results and lesson learned
Shani et al. Mining recommendations from the web
Li et al. Labeling clusters from both linguistic and statistical perspectives: A hybrid approach
Azarafza et al. Textrank-based microblogs keyword extraction method for Persian language
Gamon et al. Understanding document aboutness-step one: Identifying salient entities
Mohammed et al. Contextual information search based on ontological user profile
Jabeen et al. Quality-protected folksonomy maintenance approaches: a brief survey
Jiang et al. Context comparison of bursty events in web search and online media
Siemiński Fast algorithm for assessing semantic similarity of texts
Lahiri Keywords at work: investigating keyword extraction in social media applications
Ghada et al. An automatic filtering method for field association words by deleting unnecessary words
Makawana et al. A novel network-based paragraph filtering technique for legal document similarity analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140312

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140520

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140613

R150 Certificate of patent or registration of utility model

Ref document number: 5563836

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees