JP5353173B2 - 文書の具体性の決定 - Google Patents
文書の具体性の決定 Download PDFInfo
- Publication number
- JP5353173B2 JP5353173B2 JP2008259634A JP2008259634A JP5353173B2 JP 5353173 B2 JP5353173 B2 JP 5353173B2 JP 2008259634 A JP2008259634 A JP 2008259634A JP 2008259634 A JP2008259634 A JP 2008259634A JP 5353173 B2 JP5353173 B2 JP 5353173B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- similarity
- determining
- themes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
[関連出願]
本願は、デイビッド・マービットらにより2007年10月5日に出願された米国仮出願第60/977,781号、発明の名称「文書のテーマ及び具体性の決定及び応用」、代理人管理第073338.0548号の米国特許法第119条(e)項の利益を主張するものである。
1. ドメイン内の文書の収集実施形態では、文書はタームの集まり(collection of terms)である。文書とは、例えば新約聖書などの可読テキストである。文書は、必ずしも物語形式のテキストでなくてもよく、例えば画像コンテンツを個別かつ集合的に記述する一組のユーザ入力タグであってもよい。文書の集まりを「ドメイン・コーパス(domain corpus)」と呼ぶ。
1. 基本類似性
a) タームAとタームBとの間の基本類似性を、そのタームAまたはBのいずれかを含むコンテキスト数に対する、タームA及びBを両方とも含むコンテキスト数の比として定義する。
タームAとタームBとの間の有向類似性(DAff)を、コンテキスト中にタームAが出現することを条件として、タームBが出現する条件付き確率として定義してもよい。
タームAとタームBとの間の差分有向類似性(DiffDAff)は、タームAとBとの間の有向類似性から、コーパスにおけるタームBの一般性(common-ness)を示すファクタを引いたものとして定義してもよい。コーパスにおけるタームBの一般性は、そのコーパス中の他のタームに対するタームBの基本類似性または有向類似性の統計値である。一実施形態では、コーパスにおけるタームBの一般性(common-ness)は、タームBの平均類似性(AA)である。その場合、差分有向類似性の定義は次のようになる:
ある実施形態では、ワードのサブセット(subset)と辞書Dとが与えられた時に、その逆インデックスIIから有向類似性を計算することができる。ここで、インデックスIIは例えばワードwiとwjのエントリーI(wi)とI(wj)を含む。一般的に、逆インデックス(inverted index)は、ターム(term)からその位置へのマッピング、すなわちそのタームが現れる共起コンテキスト(co-occurrence contexts)へのマッピングを格納したインデックスデータ構造である。D中のワードwiとwjの各ペアに対して、II中のエントリーI(wi)、I(wj)の結合部分中の値を、I(wi)中の値の数で割った値としてDA(i,j)を定義する。一般的に、DA(i,j)はDA(j,i)と必ずしも等しくはない。その結果は任意の適切な方法で格納する。例えば、行ごとに、すなわちD(1,i)を格納し、次にD(2,j)を格納し、以下同様に格納する。各行iに対して、|I(wi)|を格納し、その後にwjとの結合部分(conjunction)の濃度を格納する。
差分類似性は様々な応用ができる。一例では、人の名前の間の差分類似性を用いて社会的ネットワークを研究できる。他の例では、言語要素間の差分類似性を用いて自然言語処理を研究できる。他の例では、製品間の差分類似性を用いてマーケティングを研究できる。
上記の例では、クラスタSはシード・ワードwqで始まる。カレント・ワード(current word)wxは、カレント・アイテレーション(current iteration)において集合Wのワードと比較される、クラスタSのワードを表す。カレント・ワードは、最初にシード・ワードwqに設定される。
(付記1) 有体媒体に記憶されたレコードにアクセスする段階であって、前記レコードは複数の文書の複数のクラスタを記録し、文書は複数のワードを含み、クラスタは前記複数のワードのうちの充分類似した複数のワードを含む段階と、
前記複数の文書の少なくとも一部のうちの各文書のテーマ数を決定(establish)する段階と、
各文書のテーマ数が少なければ前記各文書はより具体的であり、前記各文書のテーマ数が多ければ前記各文書はより具体的でないと決定することにより、前記テーマ数により前記各文書の具体性を決定する段階とを含む方法。
(付記2) 前記複数の文書の前記少なくとも一部のうちの各文書のテーマ数を決定する段階は、さらに、
前記各文書のクラスタ数を決定する段階と、
前記クラスタ数から前記各文書のテーマ数を計算する段階とを含む、付記1に記載の方法。
(付記3) 前記複数の文書の前記少なくとも一部のうちの各文書のテーマ数を決定する段階は、さらに、
テーマ数を決定する深さを特定する段階と、
特定した深さに対してテーマ数を決定する段階とを含む、付記1に記載の方法。
(付記4) 前記複数の文書の前記少なくとも一部のうちの各文書のテーマ数を決定する段階は、さらに、
前記各文書から複数のキーワードを選択する段階と、
前記キーワードに関係するテーマ候補を特定する段階と、
前記テーマ候補が前記文書と一致したとき、前記テーマ候補を前記文書のテーマと決定する段階とを含む、付記1に記載の方法。
(付記5) 文書の具体性要求を含む検索クエリを受け取り、
前記検索クエリと前記文書具体性要求とを満たす前記複数の文書のうちの文書を検索することにより、具体性分析を行う、付記1に記載の方法。
(付記6) 前記複数の文書の各文書の具体性のグラフィカル表示を行うことにより、具体性分析を行う、前記グラフィカル表示はグラフィカルインジケータとグラフィカルな修正とグラフとよりなる集合から選択した要素を含む、付記1に記載の方法。
(付記7) 検索クエリを受け取り、
前記検索クエリを満たす一組の文書を検索し、
前記一組の文書の具体性により前記一組の文書をソートすることにより、具体性分析を行う、付記1に記載の方法。
(付記8) 前記複数の文書はユーザに関連し、
前記テーマ数により前記各文書の具体性を決定する段階は、前記複数の文書からユーザのユーザ具体性を決定する段階をさらに含む、付記1に記載の方法。
(付記9) 前記複数の文書はユーザに関連し、
前記テーマ数により前記各文書の具体性を決定する段階は、前記複数の文書からユーザのユーザ具体性を決定する段階をさらに含み、
前記ユーザ具体性により前記ユーザに対して一以上の文書を選択する段階をさらに含む、付記1に記載の方法。
(付記10) 前記複数の文書はユーザに関連し、
前記テーマ数により前記各文書の具体性を決定する段階は、前記複数の文書からユーザのユーザ具体性を決定する段階をさらに含み、
前記ユーザの前記ユーザ具体性を監視する段階をさらに含む、付記1に記載の方法。
(付記11) 前記複数の文書はコーパスに関連づけられ、
前記テーマ数により前記各文書の具体性を決定する段階は、前記複数の文書からコーパスのコーパス具体性を決定する段階をさらに含む、付記1に記載の方法。
(付記12) 実行したとき、
有体媒体に記憶されたレコードにアクセスする段階であって、前記レコードは複数の文書の複数のクラスタを記録し、文書は複数のワードを含み、クラスタは前記複数のワードのうちの充分類似した複数のワードを含む段階と、
前記複数の文書の少なくとも一部のうちの各文書のテーマ数を決定(establish)する段階と、
各文書のテーマ数が少なければ前記各文書はより具体的であり、前記各文書のテーマ数が多ければ前記各文書はより具体的でないと決定することにより、前記テーマ数により前記各文書の具体性を決定する段階と
を実行するソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体。
(付記13) 前記各文書のクラスタ数を決定し、
前記クラスタ数から前記各文書のテーマ数を計算することにより、
前記複数の文書の前記少なくとも一部のうちの各文書のテーマ数を決定する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記14) テーマ数を決定する深さを特定し、
特定した深さに対してテーマ数を決定することにより、
前記複数の文書の前記少なくとも一部のうちの各文書のテーマ数を決定する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記15) 前記各文書から複数のキーワードを選択し、
前記キーワードに関係するテーマ候補を特定し、
前記テーマ候補が前記文書と一致したとき、前記テーマ候補を前記文書のテーマと決定することにより、
前記複数の文書の前記少なくとも一部のうちの各文書のテーマ数を決定する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記16) 文書の具体性要求を含む検索クエリを受け取り、
前記検索クエリと前記文書具体性要求とを満たす前記複数の文書のうちの文書を検索することにより、
具体性分析を行う、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記17) 前記複数の文書の各文書の具体性のグラフィカル表示を行うことにより、具体性分析を行う、前記グラフィカル表示はグラフィカルインジケータとグラフィカルな修正とグラフとよりなる集合から選択した要素を含む、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記18) 検索クエリを受け取り、
前記検索クエリを満たす一組の文書を検索し、
前記一組の文書の具体性により前記一組の文書をソートすることにより、
具体性分析を行う、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記19) 前記複数の文書はユーザに関連し、
前記コンピュータ読み取り可能有体媒体は、前記複数の文書からユーザのユーザ具体性を決定することにより、前記テーマ数により前記各文書の具体性を決定する、付記1に記載の方法。
(付記20) 前記複数の文書はユーザに関連し、
前記コンピュータ読み取り可能有体媒体は、さらに、
前記複数の文書からユーザのユーザ具体性を決定することにより、前記テーマ数により前記各文書の具体性を決定し、
さらに、前記ユーザ具体性により前記ユーザに対して一以上の文書を選択する、付記1に記載の方法。
(付記21) 前記複数の文書はユーザに関連し、
前記コンピュータ読み取り可能有体媒体は、さらに、
前記複数の文書からユーザのユーザ具体性を決定することにより、前記テーマ数により前記各文書の具体性を決定し、
前記ユーザの前記ユーザ具体性を監視する、
付記1に記載の方法。
(付記22) 前記複数の文書はコーパスに関連づけられ、
前記コンピュータ読み取り可能有体媒体は、さらに、
前記複数の文書からコーパスのコーパス具体性を決定することにより、前記テーマ数により前記各文書の具体性を決定する、
付記1に記載の方法。
20 クライアント
22 サーバ
24 メモリ
30 類似性モジュール
31 クラスタリングモジュール
32 オントロジ特性モジュール
34 類似性計算器
38 オントロジ生成器
42 類似性マトリクス生成器
46 類似性グラフ生成器
48 ワード推奨器
50 ページ
54 レコード
58 インデックス
62 逆インデックス
66 オントロジ
67 クラスタ
210 クラスタリングエンジン
214 クラスタ分析器
230 深さエンジン
240 テーマエンジン
244 具体性エンジン
250 オントロジ特性アプリケーションエンジン
Claims (12)
- 有体媒体に記憶されたレコードにアクセスする段階であって、前記レコードは複数の文書の複数のクラスタを記録し、文書は複数のワードを含み、クラスタは前記複数のワードのうちの充分類似した複数のワードを含む段階と、
前記複数の文書の少なくとも一部のうちの各文書のテーマ数を決定(establish)する段階と、
各文書のテーマ数が少なければ前記各文書はより具体的であり、前記各文書のテーマ数が多ければ前記各文書はより具体的でないと決定することにより、前記テーマ数により前記各文書の具体性を決定する段階とを含む、コンピュータが実行する方法。 - 前記複数の文書の前記少なくとも一部のうちの各文書のテーマ数を決定する段階は、さらに、
前記各文書のクラスタ数を決定する段階と、
前記クラスタ数から前記各文書のテーマ数を計算する段階とを含む、請求項1に記載の方法。 - 前記複数の文書の前記少なくとも一部のうちの各文書のテーマ数を決定する段階は、さらに、
テーマ数を決定する深さを特定する段階と、
特定した深さに対してテーマ数を決定する段階とを含む、請求項1に記載の方法。 - 前記複数の文書の前記少なくとも一部のうちの各文書のテーマ数を決定する段階は、さらに、
前記各文書から複数のキーワードを選択する段階と、
前記キーワードに関係するテーマ候補を特定する段階と、
前記テーマ候補が前記文書と一致したとき、前記テーマ候補を前記文書のテーマと決定する段階とを含む、請求項1に記載の方法。 - 文書の具体性要求を含む検索クエリを受け取り、
前記検索クエリと前記文書具体性要求とを満たす前記複数の文書のうちの文書を検索することにより、具体性分析を行う段階をさらに含む、請求項1に記載の方法。 - 前記複数の文書の各文書の具体性のグラフィカル表示を行うことにより、具体性分析を行う段階をさらに含み、
前記グラフィカル表示はグラフィカルインジケータとグラフィカルな修正とグラフとよりなる集合から選択した要素を含む、請求項1に記載の方法。 - 検索クエリを受け取り、
前記検索クエリを満たす一組の文書を検索し、
前記一組の文書の具体性により前記一組の文書をソートすることにより、
具体性分析を行う段階をさらに含む、請求項1に記載の方法。 - 前記複数の文書はユーザに関連し、
前記テーマ数により前記各文書の具体性を決定する段階は、前記複数の文書からユーザのユーザ具体性を決定する段階をさらに含む、請求項1に記載の方法。 - 前記複数の文書はユーザに関連し、
前記テーマ数により前記各文書の具体性を決定する段階は、前記複数の文書からユーザのユーザ具体性を決定する段階をさらに含み、
前記ユーザ具体性により前記ユーザに対して一以上の文書を選択する段階をさらに含む、請求項1に記載の方法。 - 前記複数の文書はユーザに関連し、
前記テーマ数により前記各文書の具体性を決定する段階は、前記複数の文書からユーザのユーザ具体性を決定する段階をさらに含み、
前記ユーザの前記ユーザ具体性を監視する段階をさらに含む、請求項1に記載の方法。 - 前記複数の文書はコーパスに関連づけられ、
前記テーマ数により前記各文書の具体性を決定する段階は、前記複数の文書からコーパスのコーパス具体性を決定する段階をさらに含む、請求項1に記載の方法。 - コンピュータに、
有体媒体に記憶されたレコードにアクセスする段階であって、前記レコードは複数の文書の複数のクラスタを記録し、文書は複数のワードを含み、クラスタは前記複数のワードのうちの充分類似した複数のワードを含む段階と、
前記複数の文書の少なくとも一部のうちの各文書のテーマ数を決定(establish)する段階と、
各文書のテーマ数が少なければ前記各文書はより具体的であり、前記各文書のテーマ数が多ければ前記各文書はより具体的でないと決定することにより、前記テーマ数により前記各文書の具体性を決定する段階と
を実行させるプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US97778107P | 2007-10-05 | 2007-10-05 | |
US60/977,781 | 2007-10-05 | ||
US12/243,099 US8543380B2 (en) | 2007-10-05 | 2008-10-01 | Determining a document specificity |
US12/243,099 | 2008-10-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009093654A JP2009093654A (ja) | 2009-04-30 |
JP5353173B2 true JP5353173B2 (ja) | 2013-11-27 |
Family
ID=40282367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008259634A Active JP5353173B2 (ja) | 2007-10-05 | 2008-10-06 | 文書の具体性の決定 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8543380B2 (ja) |
EP (1) | EP2045733A3 (ja) |
JP (1) | JP5353173B2 (ja) |
CN (1) | CN101404016A (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100031198A1 (en) * | 2008-07-30 | 2010-02-04 | Michael Zimmerman | Data-Oriented User Interface for Mobile Device |
US9183535B2 (en) * | 2008-07-30 | 2015-11-10 | Aro, Inc. | Social network model for semantic processing |
US20100174998A1 (en) * | 2009-01-06 | 2010-07-08 | Kiha Software Inc. | Calendaring Location-Based Events and Associated Travel |
US8131735B2 (en) * | 2009-07-02 | 2012-03-06 | Battelle Memorial Institute | Rapid automatic keyword extraction for information retrieval and analysis |
US9235563B2 (en) | 2009-07-02 | 2016-01-12 | Battelle Memorial Institute | Systems and processes for identifying features and determining feature associations in groups of documents |
US8352469B2 (en) * | 2009-07-02 | 2013-01-08 | Battelle Memorial Institute | Automatic generation of stop word lists for information retrieval and analysis |
US9069862B1 (en) | 2010-10-14 | 2015-06-30 | Aro, Inc. | Object-based relationship search using a plurality of sub-queries |
EP2423866A1 (en) * | 2010-08-30 | 2012-02-29 | ETH Zurich | Method and devices for targeted distribution of data |
US8429099B1 (en) | 2010-10-14 | 2013-04-23 | Aro, Inc. | Dynamic gazetteers for entity recognition and fact association |
US8719214B2 (en) * | 2011-09-23 | 2014-05-06 | Fujitsu Limited | Combining medical binary decision diagrams for analysis optimization |
US8983947B2 (en) * | 2011-09-30 | 2015-03-17 | Jive Software, Inc. | Augmenting search with association information |
US8782058B2 (en) * | 2011-10-12 | 2014-07-15 | Desire2Learn Incorporated | Search index dictionary |
CN103874994B (zh) * | 2011-10-14 | 2017-09-08 | 雅虎控股公司 | 用于自动概括电子文档的内容的方法和装置 |
EP2595065B1 (en) | 2011-11-15 | 2019-08-14 | Kairos Future Group AB | Categorizing data sets |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
CN102780647A (zh) * | 2012-07-21 | 2012-11-14 | 上海量明科技发展有限公司 | 通过即时通信工具实现思维图功能的方法、客户端及系统 |
CN104850311B (zh) * | 2015-05-26 | 2018-05-01 | 中山大学 | 一种移动应用版本更新的图形化说明生成方法及系统 |
CN106327469B (zh) * | 2015-06-29 | 2019-06-18 | 北京航空航天大学 | 一种语义标签引导的视频对象分割方法 |
US10474672B2 (en) * | 2015-08-25 | 2019-11-12 | Schlafender Hase GmbH Software & Communications | Method for comparing text files with differently arranged text sections in documents |
US10255270B2 (en) | 2015-08-28 | 2019-04-09 | Freedom Solutions Group, Llc | Automated document analysis comprising company name recognition |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5210869A (en) * | 1990-05-24 | 1993-05-11 | International Business Machines Corporation | Method and system for automated transmission of failure of delivery message in a data processing system |
US6298174B1 (en) * | 1996-08-12 | 2001-10-02 | Battelle Memorial Institute | Three-dimensional display of document set |
US6996572B1 (en) | 1997-10-08 | 2006-02-07 | International Business Machines Corporation | Method and system for filtering of information entities |
US6185592B1 (en) * | 1997-11-18 | 2001-02-06 | Apple Computer, Inc. | Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds |
US6446061B1 (en) * | 1998-07-31 | 2002-09-03 | International Business Machines Corporation | Taxonomy generation for document collections |
US6513027B1 (en) * | 1999-03-16 | 2003-01-28 | Oracle Corporation | Automated category discovery for a terminological knowledge base |
US6701305B1 (en) * | 1999-06-09 | 2004-03-02 | The Boeing Company | Methods, apparatus and computer program products for information retrieval and document classification utilizing a multidimensional subspace |
US6587848B1 (en) | 2000-03-08 | 2003-07-01 | International Business Machines Corporation | Methods and apparatus for performing an affinity based similarity search |
US6687696B2 (en) * | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
US20020026385A1 (en) * | 2000-08-31 | 2002-02-28 | Mccloskey John M. | System and methods for generating an electronic purchase order for a part using a display of computer-aided design (CAD) drawing and related article and media |
JP2002183117A (ja) * | 2000-12-13 | 2002-06-28 | Just Syst Corp | 文書校正支援装置、文書校正支援方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7162526B2 (en) * | 2001-01-31 | 2007-01-09 | International Business Machines Corporation | Apparatus and methods for filtering content based on accessibility to a user |
US6993712B2 (en) * | 2001-09-28 | 2006-01-31 | Siebel Systems, Inc. | System and method for facilitating user interaction in a browser environment |
US7644102B2 (en) | 2001-10-19 | 2010-01-05 | Xerox Corporation | Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
US7145692B2 (en) * | 2002-02-07 | 2006-12-05 | Hewlett-Packard Development Company, L.P. | System and method for facilitating color adjustment of imaging data |
US7158983B2 (en) * | 2002-09-23 | 2007-01-02 | Battelle Memorial Institute | Text analysis technique |
US20080177994A1 (en) * | 2003-01-12 | 2008-07-24 | Yaron Mayer | System and method for improving the efficiency, comfort, and/or reliability in Operating Systems, such as for example Windows |
US7610313B2 (en) * | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
EP1665092A4 (en) | 2003-08-21 | 2006-11-22 | Idilia Inc | INTERNET SEARCH USING SEMANTIC DISAMBIGUING AND EXPANSION |
US7346494B2 (en) * | 2003-10-31 | 2008-03-18 | International Business Machines Corporation | Document summarization based on topicality and specificity |
US7664735B2 (en) * | 2004-04-30 | 2010-02-16 | Microsoft Corporation | Method and system for ranking documents of a search result to improve diversity and information richness |
US7617176B2 (en) * | 2004-07-13 | 2009-11-10 | Microsoft Corporation | Query-based snippet clustering for search result grouping |
US7548917B2 (en) * | 2005-05-06 | 2009-06-16 | Nelson Information Systems, Inc. | Database and index organization for enhanced document retrieval |
JP2007122510A (ja) * | 2005-10-28 | 2007-05-17 | Toyota Central Res & Dev Lab Inc | 提示装置及び提示プログラム |
US7831597B2 (en) * | 2005-11-18 | 2010-11-09 | The Boeing Company | Text summarization method and apparatus using a multidimensional subspace |
US8037004B2 (en) * | 2007-06-11 | 2011-10-11 | Oracle International Corporation | Computer-implemented methods and systems for identifying and reporting deviations from standards and policies for contracts, agreements and other business documents |
US20090094209A1 (en) * | 2007-10-05 | 2009-04-09 | Fujitsu Limited | Determining The Depths Of Words And Documents |
-
2008
- 2008-10-01 US US12/243,099 patent/US8543380B2/en active Active
- 2008-10-02 EP EP08165779A patent/EP2045733A3/en not_active Withdrawn
- 2008-10-06 CN CNA2008101661788A patent/CN101404016A/zh active Pending
- 2008-10-06 JP JP2008259634A patent/JP5353173B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP2045733A2 (en) | 2009-04-08 |
US20090094021A1 (en) | 2009-04-09 |
EP2045733A3 (en) | 2009-07-22 |
US8543380B2 (en) | 2013-09-24 |
JP2009093654A (ja) | 2009-04-30 |
CN101404016A (zh) | 2009-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5353173B2 (ja) | 文書の具体性の決定 | |
JP5332477B2 (ja) | ターム階層の自動生成 | |
JP5391634B2 (ja) | 文書の段落分析によるその文書のタグの選択 | |
JP5423030B2 (ja) | ワードセットに関係するワードの決定 | |
JP5391633B2 (ja) | オントロジー空間を規定するタームの推奨 | |
JP5391632B2 (ja) | ワードと文書の深さの決定 | |
US9317593B2 (en) | Modeling topics using statistical distributions | |
JP2009093653A (ja) | ユーザ入力に応じた検索空間の絞り込み | |
Deveaud et al. | Accurate and effective latent concept modeling for ad hoc information retrieval | |
US8108392B2 (en) | Identifying clusters of words according to word affinities | |
Kaptein et al. | Exploiting the category structure of Wikipedia for entity ranking | |
Wang et al. | Answer selection and expert finding in community question answering services: A question answering promoter | |
Lee et al. | Reducing noises for recall-oriented patent retrieval | |
Moradi | Small-world networks for summarization of biomedical articles | |
EP2090992A2 (en) | Determining words related to a given set of words | |
Jain et al. | A theoretical study of text document clustering | |
Chen et al. | USING GOOGLE'S KEYWORD RELATION IN MULTI-DOMAIN DOCUMENT CLASSIFICATION | |
Chen et al. | Discrimination of person names based on contexts co-occurrence | |
EP2045736A1 (en) | Identifying clusters of words according to word affinities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130319 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130730 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130812 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5353173 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |