JP2011238221A - パッセージシーケンスの再使用を介して文書の展開を推測することによる文書類似性の測定 - Google Patents

パッセージシーケンスの再使用を介して文書の展開を推測することによる文書類似性の測定 Download PDF

Info

Publication number
JP2011238221A
JP2011238221A JP2011099059A JP2011099059A JP2011238221A JP 2011238221 A JP2011238221 A JP 2011238221A JP 2011099059 A JP2011099059 A JP 2011099059A JP 2011099059 A JP2011099059 A JP 2011099059A JP 2011238221 A JP2011238221 A JP 2011238221A
Authority
JP
Japan
Prior art keywords
document
passage
hmm
state
passages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011099059A
Other languages
English (en)
Other versions
JP5819629B2 (ja
Inventor
Brdiczka Oliver
オリヴァー・ブルディクスカ
Chu Maurice
モーリス・チュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2011238221A publication Critical patent/JP2011238221A/ja
Application granted granted Critical
Publication of JP5819629B2 publication Critical patent/JP5819629B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】パッセージシーケンスの再使用を介して文書の展開を推測することによる文書類似性の測定ができる方法を提供する。
【解決手段】動作の間、パッセージの第1の集合を含む文書コレクションを選択し、パッセージの第1の集合を基礎としてパッセージシーケンスモデルを構築し、パッセージの第2の集合を含む新しい文書を受信し、かつ構築されたパッセージシーケンスモデルを基礎として文書のコレクションに対して新しい文書に関連づけられる動作シーケンスを決定する。
【選択図】図3

Description

本開示は、概して文書類似性の分析に関する。より具体的には、本開示は、パッセージシーケンスの再使用を介して文書の展開を推測することによる文書類似性の測定に関する。
本発明の一実施形態は、文書類似性を推定するためのシステムを提供する。動作の間、本システムは、パッセージの第1の集合を含む文書コレクションを選択し、パッセージの第1の集合を基礎としてパッセージシーケンスモデルを構築し、パッセージの第2の集合を含む新しい文書を受信し、かつ構築されたパッセージシーケンスモデルを基礎として文書のコレクションに対して新しい文書に関連づけられる動作シーケンスを決定する。
この実施形態の一変形例では、本システムはさらに、決定される動作シーケンスを基礎として、新しい文書と文書コレクション内の少なくとも1つの文書との間の類似性を推定する。
この実施形態の一変形例では、パッセージシーケンスモデルは隠れマルコフモデル(HMM)である。さらに、本システムはパッセージの第1の集合のフィンガープリントを生成し、少なくとも1つのフィンガープリントはHMMの1つの状態に対応する。
さらなる変形例では、本システムは、HMMの状態間の遷移確率を決定する。
さらなる変形例では、遷移確率は、パッセージの第1の集合に関連づけられる連続的関係を基礎として決定される。
さらなる変形例では、本システムはパッセージの第2の集合のフィンガープリントを生成し、パッセージの第2の集合のこのフィンガープリントはHMMの観測シーケンスに対応する。
さらなる変形例では、本システムは、パッセージの第2の集合のフィンガープリントをパッセージの第1の集合のフィンガープリントと比較することによってパッセージの類似性を計算する。
さらなる変形例では、本システムは、計算されたパッセージの類似性を基礎として、HMMの放出確率を決定する。
さらなる変形例では、本システムは、HMMに属する他の状態の最大放出確率を基礎として、新しいパッセージの生成に対応する追加的状態の放出確率を設定する。
さらなる変形例では、パッセージの第1の集合のフィンガープリントは視覚的な2次元フィンガープリントを含む。
この実施形態の一変形例において、動作シーケンスを決定することは、HMMにビタビアルゴリズムを適用することを含む。
例示的な隠れマルコフモデル(HMM)の全体構造を示す図である(先行技術)。 3つの隠れ状態と4つの観測とを有する定常HMMの例示的事例の確率的パラメータを示す図である(先行技術)。 本発明の一実施形態による文書−パッセージHMM構築システムを示す図である。 本発明の一実施形態による、文書コレクションの文書パッセージを基礎としてHMMを構築するプロセスを示すフローチャートである。 本発明の一実施形態による、プレゼンテーションの個々のスライドを基礎とする例示的なHMMを示す図である。 本発明の一実施形態による、2文書(A及びB)間の類似性を計算するプロセスを示すフローチャートである。 本発明の一実施形態による、文書類似性を推定するための例示的なコンピュータシステムを示す。
諸図を通じて、類似の参照数字は同じ図エレメントを指す。
本発明の実施形態は、所定の文書が生成されると実行される動作シーケンスを検出することによって文書類似性を推定するためのシステムを提供する。動作の間、本システムは、幾つかのパッセージを含む文書コレクションを選択し、かつパッセージの発生を基礎として文書コレクションの隠れマルコフモデル(HMM)を構築する。新しい文書は、HMMの観測可能な出力シーケンスとして見られることが可能である。システムは次に、ビタビアルゴリズムを用いて、新しい文書を生成するための最も可能性の高い動作シーケンスを計算する。システムはさらに、この動作シーケンスを基礎として、古い文書のうちの1つまたはそれ以上に対する新しい文書の類似性を推定する。
本発明の実施形態では、文書は文書パッセージのシーケンスとして見られる。文書パッセージはより小さい文書単位であり、これらのより小さい文書単位のシーケンスが文書を構成する。例えば、テキストレポートの場合、文書パッセージは個々の段落である可能性があり、かつレポートは段落のシーケンスと見なされる可能性がある。または、スライドを含むプレゼンテーションの場合、文書パッセージは個々のスライドである可能性があり、よってプレゼンテーションはスライドのシーケンスと見なされる可能性がある。既存の文書からの個々のパッセージまたはパッセージシーケンスは、新しい文書を生成する際にユーザによって再使用されてもよい。例えば、ユーザは、既存の文書からのパッセージまたはパッセージの修正版をコピーして新しい文書へ貼り付けてもよく、ユーザは既存の文書から1つまたは複数のパッセージを削除し及び/または既存の文書へ新しいパッセージを挿入してもよく、またはユーザは複数の既存文書からのパッセージを結合して新しい文書を生成してもよい。新しい文書を生成するためにユーザにより実行される可能性のある動作を調べることにより、本システムは、この文書と大規模な文書コレクション内の複数の文書との比較を可能にし、かつ大規模なコレクションにおいて文書がどのように生成されて経時的に展開してきたかについて仮説を提供する。
次に、各文書パッセージまたはそのフィンガープリントは状態として見られることが可能であり、かつ文書コレクションに関して隠れマルコフモデル(HMM)を構築することができる。HMMは、モデリングされているシステムが、状態が観測されていないマルコフ過程であると想定される統計的モデルである。通常のマルコフモデルでは、観測者は状態を直に目にすることができ、よって、状態遷移確率が唯一のパラメータである。HMMでは、状態を直に目にすることはできないが、状態に依存する出力は見える。各状態は、可能な出力トークンに渡る確率分布を有する。従って、HMMによって生成されるトークンのシーケンスは、状態のシーケンスに関する何らかの情報を与える。HMMのパラメータ、及び特定の出力シーケンスを所与とすれば、その出力シーケンスを生成した可能性が最も高い状態シーケンスを発見することができる。「隠れ」とは、モデルのパラメータではなく、モデルが通過する状態シーケンスを指すことに留意されたい。
図1Aは、例示的な隠れマルコフモデル(HMM)の全体構造を示す図を提示している(先行技術)。楕円102等の各楕円形は、幾つかの値のうちの任意のものをとることができる確率変数を表す。確率変数x(t)は、時間tにおける隠れ状態である。確率変数y(t)は、時間tにおける観測である。矢印104等の図内の矢印は、条件付き依存を示す。図1Bは、3つの隠れ状態と4つの観測とを有する定常HMMの例示的事例の確率的パラメータを示す図を提示している(先行技術)。図1Bにおいて、X1、X2及びX3は隠れ状態(図1Aにおけるx(t))の確率変数xの可能な値であり、Y1、Y2、Y3及びY4は観測確率変数y(図1Aにおけるy(t))の可能な値を表し、a11,...,a33は隠れ状態間の状態遷移確率であり、かつb11,...,b34は出力(または放出)確率である。より一般的には、非定常HMMは、時間tに依存する状態遷移確率a及び放出確率bを包含する。
図2は、本発明の一実施形態による文書−パッセージ−HMM−構築システムを示す図を提示している。文書−パッセージHMM構築システム200は、文書選択機構202と、パッセージ抽出機構204と、フィンガープリンティング機構206と、状態確率設定機構208と、遷移確率設定機構210と、文書受信機構212と、パッセージ類似性計算器214と、放出確率設定機構216とを含む。
動作の間、文書選択機構202は、HMMを構築するための文書コレクションを選択する。文書コレクションは、ユーザによって手動で選択されることが可能であり、または文書コレクションは、システムによりユーザが規定する基準を用いて自動的に選択されることも可能である。例えば、文書コレクションは、指定されたフォルダ内の全ファイルを含むことができ、またはこれは、ハードドライブからの全てのMicrosoft(登録商標)WordまたはPowerPoint(登録商標)(ワシントン州レドモンド所在のMicrosoft社の登録商標)ファイルを含むことができる。さらに、本システムは、同じ著者を有するファイル、類似の名前を有するファイルまたは所定の時間期間中にタイムスタンプを付されているファイルを選択することができる。文書タイプは、テキスト、記号、図面及び/またはこれらの任意の組合せを含む任意のタイプであることが可能である。コレクション内の選択される文書も、プレーンテキスト、Microsoft(登録商標)Word(ワシントン州レドモンド所在のMicrosoft社の登録商標)、ハイパーテキストマークアップ言語(HTML)、ポータブルドキュメントフォーマット(PDF)、他等の任意タイプのファイルフォーマットを有することが可能である。
文書コレクションは、文書のより小さい単位である文書パッセージを抽出するように構成されるパッセージ抽出機構204へ送られる。ある実施形態では、文書パッセージは、PowerPoint(登録商標)(ワシントン州レドモンド所在のMicrosoft社の登録商標)プレゼンテーションの個々のスライド、Microsoft(登録商標)Word(ワシントン州レドモンド所在のMicrosoft社の登録商標)ファイルの個々の段落及び/またはオブジェクト指向コンピュータプログラムの個々の機能を含むことが可能である。
抽出された文書パッセージは、次に、パッセージのフィンガープリントを生成するように構成されるフィンガープリンティング機構206へ送られる。ある実施形態では、各パッセージについてテキストベースのフィンガープリントが生成される。また、視覚的な2次元(2D)フィンガープリントもパッセージ毎に生成されることが可能である。視覚的な2Dフィンガープリントを生成するために、システムは、所定の文書の視覚的な2Dパターンを同定する。各文書パッセージのフィンガープリントは、構築されたHMMの1つの状態に対応する。大規模な文書コレクションを表現するHMMのスケールを制御するために、文書のフィンガープリントはより小さい表現集合を形成するためにクラスタ化されることが可能であり、各クラスタは1つの状態に対応する。文書フィンガープリントのクラスタ化には、機械学習等の教師なしクラスタリング方法を使用することができる。
構築されたHMMに関する状態の初期確率は、状態確率設定機構208によって設定される。状態の初期確率は、状態アピアランスの尤度を規定する。文書パッセージの完全な、順序づけされたマッチングが必要とされるかどうかに依存して、状態確率設定機構208は、状態の初期確率(状態アピアランスの尤度)を適宜設定することができる。ある実施形態では、状態の初期確率は、文書パッセージの文書における出現順序を基礎として、減少する釣鐘曲線に従って設定されることが可能である。このような場合、システムは、コレクション内の各文書の第1のパッセージはどれも同じ初期確率を有することを想定している。さらなる実施形態では、システムは文書パッセージの順序を無視し、よって状態確率設定機構208は全ての状態(パッセージ)に渡って一様の初期確率を設定する。
HMMの状態間の遷移確率aij(図1に示すa12等)は、遷移確率設定機構210によって設定される。ある実施形態では、遷移確率は釣鐘曲線になるように設定される。所定のパッセージ状態の場合、曲線のピークは、遷移が、パッセージからその直後の文書パッセージへの遷移に一致するときに発生する。あるパッセージから次の他のパッセージへの遷移確率は、パッセージ間距離が増大するにつれて指数関数的に減少する。例えば、文書の第1のパッセージからその直後のパッセージ(即ち、文書の第2のパッセージ)への遷移確率は、0.8等の比較的大きい値に設定される可能性があるが、同じ第1のパッセージから文書の第3のパッセージへの遷移確率は、0.2等の遙かに低い数字に設定される可能性がある。曲線は、それが減少している限り、他の形状も可能である。ある実施形態では、遷移確率は、2パッセージ間の距離が増大するにつれて線形的に減少する。
状態間の遷移確率の設定に際して、遷移確率設定機構210はパッセージの文書関連性も考慮する。同じ文書関連性を共有する(同じ文書内に出現することを意味する)パッセージについて、遷移確率設定機構210は、これらの間の遷移確率を、異なる文書関連性を有するパッセージを包含する全ての遷移の確率より僅かに高くなるように設定する。
(パッセージ距離及び文書関連性を基礎として)遷移確率を非一様に設定することにより、システムは文書パッセージの連続性、及び1つの文書からの幾つかのパッセージを再使用する尤度は比較的高い可能性があるという事実を明らかにする。遷移確率がゼロに設定されれば発生する可能性がある所定の状態遷移の除外を防止するために、システムは、ラプラススムージング等の平滑化技術を用いてゼロ確率の発生を回避する。ある実施形態では、遷移確率設定機構210は、予め決められたしきい値より低い全ての遷移確率をしきい値に設定する。その一方で、可能性の高い状態遷移の確率は、全ての遷移確率の合計がなお1に等しいことを保証するために僅かに削ぎ落とされる。さらなる実施形態では、平滑化アルゴリズムによって使用されるしきい値はユーザ設定が可能である。遷移確率の設定に際しては、全ての状態に渡る遷移確率の合計は1に等しい、という制約が充足されなければならないことに留意されたい。
文書受信機構212は、考慮する新しい文書を受信し、かつこの新しい文書を文書パッセージ抽出のためにパッセージ抽出機構204へ送る。新しい文書からの抽出されたパッセージはフィンガープリンティング機構206へ送られ、パッセージのフィンガープリントが生成される。新しい文書の文書パッセージフィンガープリントは、構築されたHMMによって生成された観測シーケンスと見なすことができる。
文書パッセージは、新しい文書において再使用される前に修正を施される場合があることから、システムは、放出確率を決定するために、新しい文書からのパッセージを既知のパッセージと比較する必要がある。このようなタスクは、パッセージ類似性計算器214によって達成されることが可能である。パッセージ類似性計算器214は、新しい文書からのパッセージと既知のHMM状態に対応するパッセージとの間の類似性を計算する。ある実施形態では、類似性は、視覚的またはテキストベースのフィンガープリントの比較を基礎として計算される。新しい文書内のパッセージと既知の文書コレクション内の任意パッセージとの間の類似性が予め規定されたしきい値より少なければ、このようなパッセージは新しいパッセージと見なされる。即ち、新しい文書からのパッセージが前述の文書コレクションにおける任意のパッセージにほとんど似ていなければ、システムはこのパッセージを新たに生成されたパッセージとして扱うことができる。
計算された類似性は、次に、HMM状態の放出確率(図1に示すb)を設定する放出確率設定機構216へ送られる。状態jの放出確率は、b(k)として定義されることが可能である。但し、kは観測である。ある実施形態では、放出確率設定機構216は放出確率を、文書フィンガープリント比較プロセスによって取得される正規化された類似性スコア(パッセージ類似性計算器214の正規化された出力)として設定する。故に、各状態の放出確率分布は、状態を表す文書パッセージ(状態j)と新しい文書の全文書パッセージ(観測k)との間の正規化された類似性スコア分布に一致する。新しい文書パッセージに対応する新しい状態rの放出確率は、b(k)=1−
Figure 2011238221


[b(k)]に設定できることに留意されたい。即ち、新しい状態rの放出確率は、HMMの状態の何れによっても(状態rを除く)観測が生成されていない残りの確率に設定される。遷移確率の場合と同様に、放出確率の設定に際しても、観測された全ての状態に渡る放出確率の合計は1に等しい、という制約が充足されなければならないことに留意されたい。
図3は、本発明の一実施形態による、文書コレクションの文書パッセージを基礎としてHMMを構築するプロセスを示すフローチャートを提示している。動作の間、システムは文書コレクションを選択する(オペレーション302)。このようなコレクション内の文書は、レポート、プレゼンテーション及びコンピュータプログラム等の任意のタイプであることが可能である。システムは次に、コレクションから文書パッセージを抽出する(オペレーション304)。文書パッセージは、文書のサブユニットである。文書がレポートであれば、パッセージは個々の段落である可能性があり、文書がプレゼンテーションであれば、パッセージは個々のスライドである可能性がある。システムは、抽出された文書パッセージのフィンガープリントを生成し(オペレーション306)、かつこのフィンガープリントまたはフィンガープリントのクラスタを構築されたHMMの状態として設定する(オペレーション308)。システムは次に、個々の状態の初期確率を設定し(オペレーション310)、かつ状態間の遷移確率を設定する(オペレーション312)。
続いて、システムは新しい文書を受信し(オペレーション314)、かつ新しい文書からパッセージを抽出する(オペレーション316)。システムは、新しい文書からの抽出されたパッセージにフィンガープリントを付し(オペレーション318)、かつ新しい文書のこのフィンガープリントを構築されたHMMにより出力されている観測シーケンスとして設定する(オペレーション320)。新しい文書のフィンガープリントは先行する文書コレクションのフィンガープリントと比較され、パッセージの類似性が計算される(オペレーション322)。ある実施形態では、パッセージの類似性は、文書コンテンツ内で視覚的な2Dパターンを同定する単純な1対1の視覚的/テキストベースのフィンガープリント比較を基礎として計算される。HMMの構築を完了するために、システムは、計算された類似性を基礎として放出確率を設定する(オペレーション324)。文書コレクション内の任意のパッセージに対する新しい文書内のパッセージの類似性がしきい値より少なければ、このパッセージは新しい状態と見なされる。新しい文書に対応する放出確率は、HMMの状態の何れによっても(新しい状態を除く)観測が生成されていない残りの確率として設定される。
図4は、本発明の一実施形態による、プレゼンテーションの個々のスライドを基礎とする例示的なHMMを示す図を提示している。HMM400は、プレゼンテーションコレクション402と、新しいプレゼンテーション404とを含む。プレゼンテーションコレクション402は、各々が1つのHMM状態に対応するスライド406−412等の幾つかのスライドを含む。新しいプレゼンテーション404も、観測シーケンスに対応するスライド414−418等の幾つかのスライドを含む。さらに、HMM400は、プレゼンテーションコレクション402に包含されない追加の状態に対応する新しいパッセージ状態420も含む。
単純化を期して、プレゼンテーションコレクション402内の全スライドの初期確率は一様に設定される。HMM400の遷移確率は、スライド間の距離を基礎として釣鐘曲線に設定される。例えば、スライド406からその直後のスライド408への遷移の確率は0.8等の比較的高い数字に設定されるが、スライド406から、スライド406の直近ではないスライド410及び412への遷移の確率は、各々0.1及び0.05等の遙かに低い数字に設定される。同様に、スライド408からスライド410及び412への遷移確率は各々0.8及び0.1に設定される。他の全ての状態から新しいパッセージ状態420への遷移確率は、同じ低い数字に設定されることが可能である。
視覚的/テキストベースの2Dフィンガープリント比較の結果を基礎として、新しいプレゼンテーション404内のスライド414はスライド406に80%類似し、かつ新しいプレゼンテーション404内のスライド416はスライド410に80%類似する。新しいプレゼンテーション404内の残りのスライドであるスライド418は、類似性の計算を基礎としてスコアが極めて低く、よって新しいスライドと見なされる。従って、スライド406からスライド414、及びスライド410からスライド416への放出確率は、正規化された類似性スコアとして設定される。スライド414への最大類似性スコア(放出確率)は0.8であることから、新しいパッセージ状態420から新しい文書404内のスライド414への放出確率は1−0.8=0.2として設定される。合計制約が充足される限り、正規化された類似性スコアを基礎として他の放出確率(図示されていない)も設定されることが可能である。
HMMの基本的な問題点は、所定の観測シーケンスを生成する最適な状態シーケンスを決定することを含む。HMM状態が文書パッセージを表すコンテキストでは、このような問題点は、所定の新しい文書(観測シーケンス)に関して、システムが、既知の文書コレクションからその新しい文書を生成するためにユーザが実行した挿入、削除及び再配列等の最も可能性の高い動作シーケンスを決定できることを意味する。このような情報は、文書がどのようにして生成され、かつ大規模な文書コレクションにおいて経時的にどのように展開してきたかに関する仮説を提供する。
ある実施形態では、システムは、ビタビアルゴリズム等の動的なプログラミングアルゴリズムを用いて最も可能性の高い状態シーケンスを決定する。ビタビアルゴリズムは、HMMの所定の観測シーケンスの唯一最良の状態シーケンスを発見するために使用されることが可能である。動作の間、本アルゴリズムは観察される状態への全ての可能経路を調査し、最も可能性の高いものだけを保持する。
図4に示す例では、ビタビアルゴリズムの実行後、システムは、観測されるシーケンス(新しい文書404)の状態シーケンスとして可能性の高いものが状態406、状態410及び新しいパッセージ状態420であると決定する。従って、プレゼンテーションコレクション402から新しいプレゼンテーション404を生成するために、ユーザはスライド406を再使用し、スライド408を削除し、スライド410を再使用し、スライド412を削除しかつ新しいスライドを追加する可能性が最も高い。
ビタビアルゴリズムに加えて、フォワードバックワードアルゴリズム等の、状態シーケンスを決定するための他のアルゴリズムも使用されることが可能である。フォワードバックワードアルゴリズムは、文書組換えの直接的比較のみが要求される(例えば、2文書のどちらが文書コレクションから生成されている可能性が高いかを決定する)場合に特に有益であるが、その理由は、フォワードバックワードアルゴリズムが可能性のある全ての組換え経路を考慮することにある。
新しい文書について最も可能性の高い状態シーケンスが決定されると、システムは、新しい文書がどのように生成されるかを基礎として新しい文書と文書コレクション内の文書との間の類似性も決定することができる。例えば、図4に示す例では、新しい文書404は文書コレクション402からの2つのスライドを再使用している。このような情報は、新しい文書404と文書コレクション402内の文書との間の類似性を決定するために使用されることが可能である。文書A及び文書B間の1対1の類似性は、定義によって非対称であることに留意されたい。例えば、文書Bから文書Aを生成するためにユーザによって実行される動作(または生成コスト)は、文書Aから文書Bを生成するために実行される動作とは異なる。文書A及びB間の1対1の類似性に関して対称測度を取得するために、システムは、BからAがどのようにして生成されるか、及びAからBがどのように生成されるかに基づいて計算される類似性を平均することによって生成コストを平均化することができる。
図5は、本発明の一実施形態による、2文書(A及びB)間の類似性を計算するプロセスを示すフローチャートを提示している。動作の間、システムは、文書Aからのパッセージを状態として使用しかつ文書Bからのパッセージを観測シーケンスとして使用してHMMを構築する(オペレーション502)。HMMを構築するために使用されるシステム及びプロセスは、図2及び図3に示すものに類似している。システムは次に、ビタビアルゴリズムを用いて、文書Aから文書Bを生成するための最も可能性の高いシーケンスを決定し(オペレーション504)、かつ適宜B対A類似性を計算する(オペレーション506)。続いて、システムは、文書Bからのパッセージを状態として、かつ文書Aからのパッセージを観測シーケンスとして使用して異なるHMMを構築する(オペレーション508)。システムは、新しいHMMに対してビタビアルゴリズムを実行し、文書Bから文書Aを生成するための最も可能性の高いシーケンスを決定し(オペレーション510)、かつ適宜A対B類似性を計算する(オペレーション512)。この後、システムはA対B、及びB対A類似性を平均して、文書A及び文書B間の最終的な類似性を求める(オペレーション514)。
文書類似性の決定に加えて、文書の最も可能性の高い状態シーケンスを発見するこの能力は、文書コレクションにおける文書の系図を推測するためにも使用されることが可能である。このような情報は、データ系統システムへ入力として提供されることが可能であり、これは、文書により使用されるソースマテリアルを基礎として文書の完全性を評価するために使用されることが可能である。
図6は、本発明の一実施形態による、文書類似性を推定するための例示的なコンピュータシステムを示す。ある実施形態では、コンピュータ及び通信システム600は、プロセッサ602と、メモリ604と、記憶装置606とを含む。記憶装置606は、文書類似性推定アプリケーション608、並びにアプリケーション610及び612等の他のアプリケーションを格納する。動作の間、文書類似性推定アプリケーション608は記憶装置606からメモリ604へロードされ、次いでプロセッサ602によって実行される。このプログラムを実行する一方で、プロセッサ602は前述の機能を実行する。コンピュータ及び通信システム600は、任意選択のディスプレイ614、キーボード616及びポインティングデバイス618へ結合される。

Claims (4)

  1. パッセージの第1の集合を含む文書のコレクションを選択することと、
    前記パッセージの第1の集合を基礎としてパッセージシーケンスモデルを構築することと、
    パッセージの第2の集合を含む新しい文書を受信することと、
    前記構築されたパッセージシーケンスモデルを基礎として、前記文書のコレクションに対して前記新しい文書に関連づけられる動作シーケンスを決定することを含む方法。
  2. 前記決定される動作シーケンスを基礎として、前記新しい文書と前記コレクション内の少なくとも1つの文書との間の類似性を推定することをさらに含む、請求項1に記載の方法。
  3. 前記パッセージシーケンスモデルは隠れマルコフモデル(HMM)であり、かつ前記方法は、前記パッセージの第1の集合のフィンガープリントを生成することをさらに含み、少なくとも1つのフィンガープリントはHMMの1つの状態に対応する、請求項1に記載の方法。
  4. 前記HMMの状態間の遷移確率を決定することをさらに含む、請求項3に記載の方法。
JP2011099059A 2010-05-05 2011-04-27 パッセージシーケンスの再使用を介して文書の展開を推測することによる文書類似性の測定 Active JP5819629B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/774,426 2010-05-05
US12/774,426 US8086548B2 (en) 2010-05-05 2010-05-05 Measuring document similarity by inferring evolution of documents through reuse of passage sequences

Publications (2)

Publication Number Publication Date
JP2011238221A true JP2011238221A (ja) 2011-11-24
JP5819629B2 JP5819629B2 (ja) 2015-11-24

Family

ID=44262593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011099059A Active JP5819629B2 (ja) 2010-05-05 2011-04-27 パッセージシーケンスの再使用を介して文書の展開を推測することによる文書類似性の測定

Country Status (4)

Country Link
US (1) US8086548B2 (ja)
EP (1) EP2385471A1 (ja)
JP (1) JP5819629B2 (ja)
KR (1) KR101711839B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046048A (ja) * 2017-08-31 2019-03-22 富士通株式会社 特定プログラム、特定方法および情報処理装置
JP6777266B1 (ja) * 2019-09-18 2020-10-28 三菱電機株式会社 作業要素分析装置及び作業要素分析方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8527436B2 (en) * 2010-08-30 2013-09-03 Stratify, Inc. Automated parsing of e-mail messages
US9262390B2 (en) 2010-09-02 2016-02-16 Lexis Nexis, A Division Of Reed Elsevier Inc. Methods and systems for annotating electronic documents
US9449024B2 (en) * 2010-11-19 2016-09-20 Microsoft Technology Licensing, Llc File kinship for multimedia data tracking
US9256697B2 (en) * 2012-05-11 2016-02-09 Microsoft Technology Licensing, Llc Bidirectional mapping between applications and network content
KR101429621B1 (ko) * 2012-10-04 2014-08-13 한양대학교 에리카산학협력단 중복 뉴스 결합 시스템 및 중복 뉴스 결합 방법
CN103530421B (zh) * 2012-11-02 2017-01-04 中国人民解放军国防科学技术大学 基于微博的事件相似性度量方法及系统
US9965521B1 (en) * 2014-02-05 2018-05-08 Google Llc Determining a transition probability from one or more past activity indications to one or more subsequent activity indications
US20160110315A1 (en) * 2014-10-20 2016-04-21 Xerox Corporation Methods and systems for digitizing a document
EP3215943B1 (en) 2014-11-03 2021-04-21 Vectra AI, Inc. A system for implementing threat detection using threat and risk assessment of asset-actor interactions
US10033752B2 (en) 2014-11-03 2018-07-24 Vectra Networks, Inc. System for implementing threat detection using daily network traffic community outliers
CN113268959B (zh) * 2021-05-25 2024-05-03 北京北大方正电子有限公司 文档处理方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000003362A (ja) * 1998-06-16 2000-01-07 Dainippon Printing Co Ltd 文書解析システム及び記録媒体
JP2000322450A (ja) * 1999-03-11 2000-11-24 Fuji Xerox Co Ltd ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータシステム
JP2009181170A (ja) * 2008-01-29 2009-08-13 Fujitsu Ltd 作業手順書作成支援システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6363381B1 (en) * 1998-11-03 2002-03-26 Ricoh Co., Ltd. Compressed document matching
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US6542635B1 (en) * 1999-09-08 2003-04-01 Lucent Technologies Inc. Method for document comparison and classification using document image layout
US6772120B1 (en) * 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
EP2067102A2 (en) * 2006-09-15 2009-06-10 Exbiblio B.V. Capture and display of annotations in paper and electronic documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000003362A (ja) * 1998-06-16 2000-01-07 Dainippon Printing Co Ltd 文書解析システム及び記録媒体
JP2000322450A (ja) * 1999-03-11 2000-11-24 Fuji Xerox Co Ltd ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータシステム
JP2009181170A (ja) * 2008-01-29 2009-08-13 Fujitsu Ltd 作業手順書作成支援システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200900204007; 但馬 康宏、外5名: 'HMMとテキスト分類器による対話の段落分割' 情報処理学会論文誌 論文誌トランザクション 平成20年度▲2▼ , 20090415, 70〜79, 社団法人情報処理学会 *
JPN6015006202; 但馬 康宏、外5名: 'HMMとテキスト分類器による対話の段落分割' 情報処理学会論文誌 論文誌トランザクション 平成20年度▲2▼ , 20090415, 70〜79, 社団法人情報処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046048A (ja) * 2017-08-31 2019-03-22 富士通株式会社 特定プログラム、特定方法および情報処理装置
JP6777266B1 (ja) * 2019-09-18 2020-10-28 三菱電機株式会社 作業要素分析装置及び作業要素分析方法
WO2021053738A1 (ja) * 2019-09-18 2021-03-25 三菱電機株式会社 作業要素分析装置及び作業要素分析方法

Also Published As

Publication number Publication date
US20110276523A1 (en) 2011-11-10
KR101711839B1 (ko) 2017-03-13
EP2385471A1 (en) 2011-11-09
US8086548B2 (en) 2011-12-27
KR20110122789A (ko) 2011-11-11
JP5819629B2 (ja) 2015-11-24

Similar Documents

Publication Publication Date Title
JP5819629B2 (ja) パッセージシーケンスの再使用を介して文書の展開を推測することによる文書類似性の測定
JP6972265B2 (ja) ポインタセンチネル混合アーキテクチャ
US10146765B2 (en) System and method for inputting text into electronic devices
CN106484777B (zh) 一种多媒体数据处理方法以及装置
CN104574192A (zh) 在多个社交网络中识别同一用户的方法及装置
CN104539514A (zh) 消息过滤方法和装置
CN111161804B (zh) 一种用于物种基因组学数据库的查询方法及系统
US20160092597A1 (en) Method, controller, program and data storage system for performing reconciliation processing
KR101852527B1 (ko) 기계학습 기반의 동적 시뮬레이션 파라미터 교정 방법
CN108509793A (zh) 一种基于用户行为日志数据的用户异常行为检测方法及装置
CN113268403B (zh) 时间序列的分析预测方法、装置、设备及存储介质
CN104573031B (zh) 一种微博突发事件检测方法
WO2014020834A1 (ja) 単語潜在トピック推定装置および単語潜在トピック推定方法
JP5591772B2 (ja) 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム
CN105320525A (zh) 一种面向移动应用软件的修改影响分析方法
CN100541491C (zh) 文档信息处理装置、文档信息处理方法和计算机可读介质
CN111667018A (zh) 一种对象聚类的方法、装置、计算机可读介质及电子设备
CN103744830A (zh) 基于语义分析的excel文档中身份信息的识别方法
CN113297854A (zh) 文本到知识图谱实体的映射方法、装置、设备及存储介质
CN113836005A (zh) 一种虚拟用户的生成方法、装置、电子设备和存储介质
CN113935387A (zh) 文本相似度的确定方法、装置和计算机可读存储介质
CN111897618A (zh) 一种ui界面的确定方法、装置及存储介质
JP2007011571A (ja) 情報処理装置、およびプログラム
CN110929033A (zh) 长文本分类方法、装置、计算机设备及存储介质
Wang et al. M-estimator for estimating the Burr type III parameters with outliers

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130516

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151001

R150 Certificate of patent or registration of utility model

Ref document number: 5819629

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250