JP2009509259A5 - - Google Patents

Download PDF

Info

Publication number
JP2009509259A5
JP2009509259A5 JP2008531744A JP2008531744A JP2009509259A5 JP 2009509259 A5 JP2009509259 A5 JP 2009509259A5 JP 2008531744 A JP2008531744 A JP 2008531744A JP 2008531744 A JP2008531744 A JP 2008531744A JP 2009509259 A5 JP2009509259 A5 JP 2009509259A5
Authority
JP
Japan
Prior art keywords
documents
function
document
correlation
electronic documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008531744A
Other languages
English (en)
Other versions
JP2009509259A (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/FR2006/050856 external-priority patent/WO2007034096A1/fr
Publication of JP2009509259A publication Critical patent/JP2009509259A/ja
Publication of JP2009509259A5 publication Critical patent/JP2009509259A5/ja
Pending legal-status Critical Current

Links

Description

この目的のため、本発明の課題は、第1の実施形態によると、一組の電子文書を並べ替える方法であって:
−前記一組の電子文書のうち各一対の文書{u、v}間に存在するハイパーテキストリンク又は共引用を数える段階と、
−前記数える段階の完了時に得られるリンク数に依存する文書u及びv間の相関割合ω(u、v)を、前記一組の電子文書のうち各一対の文書{u、v}に関して決定する段階と、
−Rが一組の実数でdが正の整数である一組のR球体(sphere)上に位置する関連点X(u)を、前記一組の電子文書のうち文書u毎に決定する段階であって、前記一組の電子文書のうち少なくとも一つの文書u1に関して、関連点X(u1)及びX(u2)間の空間は、u2が文書u1及びu2間に相関がある文書の場合、文書u1及びu2間の相関割合が高くなるにつれ、さらに低くなる、段階と、
−前記球体上で決定された点の関数として前記一組の電子文書のうち少なくとも一部を並べ替える段階とを具備する。
決定された関数Xによって、少なくとも一つの文書uに関して、vが文書u及びv間に相関がある文書である場合における2点X(u)及びX(v)間の空間は、さらに低く、相関の割合が比較的高い。
Figure 2009509259
値X(u)は、Y(U)=0の場合にXi―1(u)に等しい。
球体を用いて点の位置を決定する事実は、得られた点に関して単に定めることを可能にし、故に関連する文書を定めることを可能にし、互いに関連するこれらの点の位置を定めることを可能にするという点で独創的である。特に、この表示モードにおいて、もう一方に関して好ましい点が無い。結果として、2点間の関連位置、故にこれら2点間の距離を用いて、これら2点に関連付けられた2つの文書間の相関割合を表示することができる。故に、得られた表示は、対象となる文書間の相関又はリンクを反映する。
球体、例えば3次元空間の球体上で一組の文書の表示を採用する事実は、任意種類の並べ替え動作をさらに予想することができ、その動作は、選択、評価、フィルタリング、分類、及び非常に単純な動作であり、なぜなら各文書は、N次元の空間におけるn組の座標によって(例えば、3次元空間における3つの座標によって)のみ表示されるからである。
代替又は組合せとして、ページは、グループで並べ替えられ、各グループは、一組のページに相当し、一組のページの関数Xによる投射は、空間R球体の所定の空間領域に位置する。この変形において、空間領域に対するこの球体の区分が定められ、文書は、区分の空間領域のうち一つにおけるその投射の会員に従って評価されるのが好ましい。
また、本発明による方法を用いて、“スパム”の存在を検出することができ、即ち互いを示すページを検出することができ、なぜなら球体S上の全てのこれらページの投射は、互いに実質的に近接するからである。
ステップS120において、初期投射関数Xが決定される。初期関数Xは、球体S上でランダム値をとるのが好ましい。その後反復処理は、現在の関数X=Xに適用される。
決定された投射関数Xによって、球体S上の点X(u)の位置は、文書u及び他の文書間のリンクに依存する。特に、2点間の距離は、これら2点に相当する文書間の相関割合を示す。
特定の実施形態によると、方法はさらに、
−前記球体上に前記一組の電子文書を投射するための初期関数Xを定める段階と、
−前記球体上に前記一組の電子文書を投射するための関数Xを決定する段階であって、前記投射関数Xは、少なくとも一つの反復で初期関数Xに基づいて得られ、各反復は、Xi―1(u)だけでなくXi―1(v)の値と前記一組の電子文書に属する任意の文書vに関する文書u及びv間の相関割合ω(u、v)とに依存する所定の基準を最適化することを可能にする値X(u)にXi―1(u)の値を、前記一組の電子文書のうち少なくとも一つの文書uに関して置換することによって、先の反復で得られた関数Xi−1に基づいて関数Xを決定することにある、段階とを具備する。
図1に戻ると、以下のステップS120からS135は、一組の文書Vと一組R(Rのdデカルト乗であって、Rは、一組の実数を意味し、dは、正の整数である)の球体Sとの間を投射するための関数Xを決定することである。dは、2又は3に等しく選択されるのが好ましい。
Figure 2009509259
及び、一組Vのうち文書uの数に依存しうる閾値を固定することによって実行可能であり、それ以下であると反復処理が停止する。
この第1の変形は、球体上における一群の点の検出を可能にするので、対応する一群の文書を決定することができる。
例えばこの区画は、球体の、立方体の内部量、あるいはR球体S上に定義された表面にすることができる。いくつかの所定の区画にこの動作を反復することによって、一組の文書の分離又は区分を構成することができる。
本発明による方法の変形において、関数Xの図形表示、即ち前記球体の表示及び前記球体に適した点X(u)の表示が生成される。そのような図形表示を生成する事実は、一組の関連文書をユーザが選択するのを容易にすることができる。この表示は、例えば2次元の地図表示(cartographic representation)の形式で行われ、各文書は、この文書に関して決定された関数Xの値に相当する図形によって区画される。

Claims (10)

  1. 一組の電子文書を並べ替える方法であって:
    −前記一組の電子文書のうち各一対の文書{u、v}間に存在するハイパーテキストリンク又は共引用を数える段階と、
    −前記数える段階の完了時に得られるリンク数に依存する文書u及びv間の相関割合ω(u、v)を、前記一組の電子文書のうち各一対の文書{u、v}に関して決定する段階(S110)と、
    −Rが一組の実数でdが正の整数である一組のR球体上に位置する関連点X(u)を、前記一組の電子文書のうち文書u毎に決定する段階(S120、S125、S130、S135)であって、前記一組の電子文書のうち少なくとも一つの文書u1に関して、関連点X(u1)及びX(u2)間の空間は、u2が文書u1及びu2間に相関がある文書の場合、文書u1及びu2間の相関割合が高くなるにつれ、さらに低くなる、段階と、
    −前記球体上で決定された点の関数として前記一組の電子文書のうち少なくとも一部を並べ替える段階(S140)と
    を具備することを特徴とする方法。
  2. 前記文書のうち少なくとも一つは、少なくとも一つの他の文書への少なくとも一つのハイパーテキストリンクを具備し、
    ハイパーテキストリンクの数及び/又は共引用リンクの数の関数として決定される2つの文書u及びv間の相関割合は、このリンク数が多くなるにつれ、さらに高くなる相関割合を文書u及びv間に提供し、相関の不在は、リンクの不在に相当することを特徴とする請求項1に記載の方法。
  3. 2文書u及びv間の相関割合は、文書u及びvの意味的内容の近接の程度に依存し、
    相関割合は、前記程度が低くなるにつれ、さらに高くなり、
    相関の不在は、所定の閾より低い程度に相当することを特徴とする請求項1又は2に記載の方法。
  4. −前記球体上に前記一組の電子文書を投射するための初期関数Xを定める段階(S120)と、
    −前記球体上に前記一組の電子文書を投射するための関数Xを決定する段階(S125、S130、S135)であって、前記投射関数Xは、少なくとも一つの反復で初期関数Xに基づいて得られ、各反復は、Xi―1(u)だけでなくXi―1(v)の値と前記一組の電子文書に属する任意の文書vに関する文書u及びv間の相関割合ω(u、v)とに依存する所定の基準を最適化することを可能にする値X(u)にXi―1(u)の値を、前記一組の電子文書のうち少なくとも一つの文書uに関して置換することによって、先の反復で得られた関数Xi−1に基づいて関数Xを決定することにある、段階と
    を具備することを特徴とする請求項1又は2に記載の方法。
  5. 前記所定の基準の最適化は、
    Figure 2009509259
    に等しく量Δ(u)の値を文書uに関して最大にすることにあり、
    ここで、δ(u、v)=1−ω(u、v)、0≦ω(u、v)≦1、文書u及びv間の相関の不在においてω(u、v)=0であり、
    値X(u)は、X(u)=−Y(U)/‖Y(U)‖であり、
    ここで、
    Figure 2009509259
    値X(u)は、Y(U)=0の場合にXi―1(u)に等しいことを特徴とする請求項3又は4に記載の方法。
  6. 前記球体と前記球体上に位置する点X(u)との図形表示を生成する段階をさらに具備することを特徴とする請求項1から5のうち何れか1項に記載の方法。
  7. 端末上に前記図形表示を表示する過程と、
    前記図形表示のうち少なくとも一部の図形表示に適切な図形選択ツールを端末のユーザに提供する過程と、
    前記ユーザによって選択された前記少なくとも一部を定めるデータを得る過程と、
    前記データの関数として前記一組の文書の並べ替えを実行する過程と
    からなる段階をさらに具備することを特徴とする請求項6に記載の方法。
  8. プログラムであって、前記プログラムがコンピュータシステムによって実行される時、請求項1から7のうち何れか1項に記載の方法を実行するためのコンピュータシステムによって読取可能な媒体上に記録されたプログラムコード命令を具備することを特徴とするプログラム。
  9. 請求項1から7のうち何れか1項に記載の方法からなる段階を実行するためのデータ処理手段を具備するデータ処理装置。
  10. 前記プログラムがコンピュータシステムによって実行される時、請求項1から7のうち何れか1項に記載の方法を実行するためのプログラムコード命令を含むプログラムを具備する、コンピュータシステムによって読取可能な記録媒体。
JP2008531744A 2005-09-20 2006-09-07 一組の電子文書を並べ替える方法 Pending JP2009509259A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0552826 2005-09-20
PCT/FR2006/050856 WO2007034096A1 (fr) 2005-09-20 2006-09-07 Procede de tri d'un ensemble de documents electroniques

Publications (2)

Publication Number Publication Date
JP2009509259A JP2009509259A (ja) 2009-03-05
JP2009509259A5 true JP2009509259A5 (ja) 2012-06-28

Family

ID=36481229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008531744A Pending JP2009509259A (ja) 2005-09-20 2006-09-07 一組の電子文書を並べ替える方法

Country Status (5)

Country Link
US (1) US7827173B2 (ja)
EP (1) EP1938219A1 (ja)
JP (1) JP2009509259A (ja)
CN (1) CN101268465B (ja)
WO (1) WO2007034096A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4518168B2 (ja) * 2008-03-21 2010-08-04 富士ゼロックス株式会社 関連文書提示システム及びプログラム
WO2010078859A1 (de) * 2009-01-08 2010-07-15 Beel Joeran Verfahren und system zum ermitteln einer ähnlichkeit von dokumenten
CN101937436B (zh) * 2009-06-29 2013-09-25 华为技术有限公司 一种文本分类方法及装置
US9313284B2 (en) * 2013-03-14 2016-04-12 International Business Machines Corporation Smart posting with data analytics and semantic analysis to improve a message posted to a social media service
DK3436392T3 (da) 2016-03-31 2021-05-25 Nhlo Holding B V Indretning med en drejelig arm og en konfigurerbar fjeder
CN112528016B (zh) * 2020-11-19 2024-05-07 重庆兆光科技股份有限公司 一种基于低维球面投影的文本分类方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5808615A (en) * 1996-05-01 1998-09-15 Electronic Data Systems Corporation Process and system for mapping the relationship of the content of a collection of documents
US6453246B1 (en) * 1996-11-04 2002-09-17 3-Dimensional Pharmaceuticals, Inc. System, method, and computer program product for representing proximity data in a multi-dimensional space
US5987470A (en) * 1997-08-21 1999-11-16 Sandia Corporation Method of data mining including determining multidimensional coordinates of each item using a predetermined scalar similarity value for each item pair
US6289342B1 (en) * 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
GB9811874D0 (en) * 1998-06-02 1998-07-29 Univ Brunel Information management system
JP2000076267A (ja) * 1998-08-31 2000-03-14 Sharp Corp 情報検索方法、情報検索装置、及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
JP3604069B2 (ja) * 1999-05-19 2004-12-22 日本電信電話株式会社 文書間関連度計算装置、その方法およびその記録媒体
US6633868B1 (en) * 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
JP4005798B2 (ja) * 2001-12-05 2007-11-14 日本電信電話株式会社 文書間関連度計算装置並びに記録媒体及びソフトウェア
US7194465B1 (en) * 2002-03-28 2007-03-20 Business Objects, S.A. Apparatus and method for identifying patterns in a multi-dimensional database
JP3904548B2 (ja) * 2003-10-30 2007-04-11 チームラボ株式会社 関連度の表示装置、表示方法、ならびに、プログラム
JP2005301786A (ja) * 2004-04-14 2005-10-27 Internatl Business Mach Corp <Ibm> 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法

Similar Documents

Publication Publication Date Title
Sutton Introduction to k nearest neighbour classification and condensed nearest neighbour data reduction
CN108304861B (zh) 生成自动车辆泄漏探测的训练数据
US8019742B1 (en) Identifying related queries
JP2009509259A5 (ja)
CN113642659B (zh) 一种训练样本集生成的方法、装置、电子设备及存储介质
JP5493597B2 (ja) 検索方法及び検索システム
JP2016506000A (ja) 画像をサイズ変更するためのシステム及び方法
CN109685204B (zh) 图像处理方法及装置、存储介质及电子设备
CN109919209A (zh) 一种领域自适应深度学习方法及可读存储介质
CN111931801B (zh) 一种基于路径多样性与一致性的动态路由网络学习方法
CN113468946A (zh) 用于交通灯检测的语义一致的增强训练数据
US8726185B1 (en) Method and apparatus for rendering overlapped objects
JP2009509259A (ja) 一組の電子文書を並べ替える方法
CN112766348A (zh) 一种基于对抗神经网络生成样本数据的方法以及装置
CN106126670B (zh) 运营数据排序处理方法及装置
CN111209573B (zh) 一种基于鼠标位移轨迹的访问请求安全感知方法
JP6778625B2 (ja) 画像検索システム、画像検索方法及び画像検索プログラム
JP2012043437A (ja) 画像処理方法及び画像処理装置
CN111539922B (zh) 基于多任务网络的单目深度估计与表面法向量估计方法
Nabata et al. Efficient divide-and-conquer ray tracing using ray sampling
CN112163623B (zh) 一种基于密度子图估计的快速聚类方法、计算机设备及存储介质
CN115205496A (zh) 一种数字孪生模型轻量化方法及系统
JP3360469B2 (ja) 画像処理装置
CN106127404A (zh) 一种评价方法、电子设备及电子装置
CN105260425A (zh) 基于云盘的文件显示方法及装置