JP2004362563A - 非構造化情報管理および自動テキスト分析を実行するためのシステム、方法、およびコンピュータ・プログラム記録媒体 - Google Patents
非構造化情報管理および自動テキスト分析を実行するためのシステム、方法、およびコンピュータ・プログラム記録媒体 Download PDFInfo
- Publication number
- JP2004362563A JP2004362563A JP2004155234A JP2004155234A JP2004362563A JP 2004362563 A JP2004362563 A JP 2004362563A JP 2004155234 A JP2004155234 A JP 2004155234A JP 2004155234 A JP2004155234 A JP 2004155234A JP 2004362563 A JP2004362563 A JP 2004362563A
- Authority
- JP
- Japan
- Prior art keywords
- document
- wand
- query
- data
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】 UIMSは、情報ソースの幅広いアレイに関する非構造化情報の効果的な管理および交換のためのミドルウェアとして提供することができる。このアーキテクチャは一般に、検索エンジンと、データ記憶域と、パイプライン化した文書アノテータを含む分析エンジンと、様々なアダプタとを含む。この検索技法は2レベル検索技法を利用する。検索照会は、それぞれが関連重み値を有する複数の検索部分式からなる検索演算子を含む。検索エンジンは、しきい重み値合計を超える重み値合計を有する1つまたは複数の文書を返す。検索演算子は、加重AND(WAND)として機能するブール述部として実現される。
【選択図】 図1
Description
式中、xiはXiの標識変数(indicator variable)であり、Xiが真であればxi=1であり、そうでなければxi=0である。
I.はじめに
II.アーキテクチャの機能概要
文書レベル分析
集合レベル分析
セマンティック検索アクセス
構造知識アクセス
III.アーキテクチャ・コンポーネントの概要
検索エンジン
文書ストア
分析エンジン
IV.システム・インターフェース
V.2レベル検索
VI.例示的な実施形態および考慮事項
本明細書に開示されているUIMAは、好ましくは構造化情報と非構造化情報の組み合わせに関する検索と分析を統合するアプリケーションを開発するためのハードウェアとソフトウェアの組み合わせとして実施される。「構造化情報」は、その意図された意味があいまいではなく、そのデータの構造またはフォーマットで明示的に表現される情報として本明細書で定義する。適切な例の1つはデータベース・テーブルである。「非構造化情報」は、その意図された意味がその形式によって暗示されるにすぎない情報として本明細書で定義する。非構造化情報の適切な例の1つは自然言語で書かれた文書である。
上記は一実施形態にすぎず、紹介にすぎないことに留意されたい。したがって、図1、図2、および図3に開示したUIMA100のコンポーネントの諸態様は様々になる可能性がある。たとえば、TAE130は、音声またはビデオなどのテキスト以外のデータの分析用の適切なエンジンを含むことができる。
文書レベル分析は、テキスト分析エンジン(TAE)130というコンポーネント処理要素によって実行される。これらは、汎用分析エンジンの拡張機能であり、テキスト用に専門化されている。TAE130の諸態様は、2000年にCunningham他によってGATEアーキテクチャとして開示された処理リソース(Processing Resources)に類似しているものと見なすこともできる。UIMA100では、TAE130は好ましくは、サブコンポーネント・エンジンまたはコンポーネント・エンジンから構成可能な再帰的構造であり、各エンジンはアプリケーションの分析のそれぞれ異なる段階を実行する。
好ましくは、文書はアプリケーション170によって収集され、図1に示す集合190などの集合に構成される。好ましくは、UIMA100は、CPM150の一部を形成する集合リーダ(Collection Reader)・インターフェースを含む。集合リーダの実現例は、集合要素190、集合メタデータ、および要素メタデータへのアクセスを可能にする。UIMA100の実現例としては、集合リーダ・インターフェースと協力し、複数の集合およびその要素を管理する文書/集合/メタデータ・ストア(Document, Collection and Meta-data Store)120を含む。しかし、それ自体の集合を管理したいと希望するアプリケーション170は、集合データへのアクセスを必要とするUIMA100のコンポーネントに対し、集合リーダの実現例を提供することができる。
本明細書で使用する「セマンティック検索」は、文書または集合レベル分析によって発見され、注釈として表現されるセマンティック・コンテンツに基づいて文書を突き止める機能を示している。セマンティック検索をサポートするために、UIMA100は検索エンジンの索引付けインターフェースと照会インターフェースとを含む。
分析エンジン130がそれぞれの機能を実行するときに、多様な構造化情報ソース180を調べることができる。再利用性を高め、統合を容易にするために、UIMA100は知識ソース・アダプタ(KSA)インターフェース140を含む。
III.A.検索エンジン110
検索エンジン110は索引付けおよび照会処理を担当する。検索エンジン110は、検索アプリケーションとは区別される。検索アプリケーションは、検索エンジン110を使用して、たとえばページ・ランキングおよびプレゼンテーション機能を追加して基本検索アプリケーションを提供することになる。
図17はトークン1510、1520、1530とスパン1550、1560、1570に関する逆ファイルの表現を示しており、図18はスパン・オカレンスの代替表現を示す図である。図18では、オカレンス1610は、開始位置および終了位置1620または開始位置および長さ1630を有するものとして定義される。スパン1650は、少なくとも開始トークン1660と終了トークン1670を有するものとして定義され、これらのトークンはさらに位置について指定される。
一般に、1組のトークン位置は単調である。しかし、上記の説明に基づいて、1組のトークン位置は連続的または非連続的のうちの一方にすることができ、1つのトークンまたは1組のトークンに対して少なくとも2つの注釈が及ぶことができる。
異なるTAE130が同じ文書(複数も可)の種々のトークン化を生成できることを確認すると、UIMA準拠の検索エンジン110は、好ましくは、同じ文書についての種々のトークン化または種々の索引付けユニット・セットをサポートする。このような種々のトークン化の結果、1つの文書について異なる「ビュー」が発生する可能性がある。文書190Aの種々のトークン化に基づくかまたはそれから導出されたビューの一例は図22に示されており、同図では、第1の代替表現2010および第2の代替表現2020の結果、ビュー2050、2060、2070、2080として示す複数のビューが得られる可能性がある。
ストア(または文書ストア)120は、文書および文書メタデータ用の主たる記憶メカニズムである。好ましくは(制限する意図ではなく)、ストア120はウェブ・ファウンテン(WF)モデルを使用し、文書メタデータを文書に関連するキー値対として記憶しアクセスできるようにする単純APIを想定する。
このセクションでは、TAE130の諸態様の概要を示し、次にTAE130用の他の動作原理について検討する。
共通分析システム(CAS)210は、分析構造にアクセスして修正するためにすべてのアノテータ220が使用する共通機能として提供される。したがって、CAS210は、アノテータ220間の調整を可能にし、種々のアプリケーション170および種々のタイプのアーキテクチャ(たとえば、疎結合対密結合)内でのアノテータ220の再利用を容易にする。もう一度、図16を参照すると、CAS210は、図13に示すタイプ・システム1110を介して様々なアノテータ410〜445の動作、すなわち、ワークフローを抑制するものと見なすことができる。
コンポーネントの再利用を奨励し可能にすることは、所望の効率を達成し、クロスグループ・コラボレーションに備えるものである。TAE130用のフレームワークの3つの特性がこの目標に対処する。これらの特性は、再帰的構造(recursive structure)と、データ主導(data-driven)と、自己記述性(self-descriptive)である。それぞれについて説明する。
UIMA100では、様々な開発役割が識別され、考慮されている。種々の開発者スキル・セットをサポートする複数の独立インターフェース・セットが含まれている。
人間言語技術(Human Language Technologies:HLT)アプリケーションは、様々な要件を他のタイプのアプリケーションと共用することができる。たとえば、このアプリケーションはスケーラビリティ、セキュリティ、およびトランザクションを必要とする可能性がある。アプリケーション・サーバなどの既存のミドルウェアはこれらの要求のうちの多くを満たすことができる。これに対して、HLTアプリケーションは、デスクトップ・コンピュータまたはPDA上に配備できるように小さいフットプリントを持つ必要がある場合もあれば、それ自体のミドルウェアを使用する他のアプリケーション内に埋込み可能である必要がある場合もある。
次に、UIMA100の最上位レベルのコンポーネント間の様々なインターフェースについて説明する。図26は図1と同様の図を示しているが、図26はUIMA100のインターフェースの諸態様をさらに含み、これらはひとまとめにしてテキスト・インテリジェンス・システム108として示されている。アプリケーション170と検索エンジン110との間のインターフェース115の諸態様のより詳細な様子は図27に示されている。他のインターフェースと、そのインターフェースによって運搬されるデータ・フローも示されている。たとえば、アプリケーション170と文書ストア120との間のインターフェース125と、アプリケーション170とTAE130との間のインターフェース135と、アプリケーション170と知識アクセス(構造化情報)180との間のインターフェース185と、アプリケーション170と、知識ディレクトリ・サービス106およびテキスト分析ディレクトリ・サービス107を含むディレクトリ・サービス105との間のインターフェース175が存在する。
好ましくは、UIMA100は、2レベル評価プロセスまたはモデルを使用する検索技法によって支援される。このプロセスについて例示的に説明するが、このプロセスは本明細書において本発明を制限するものと解釈すべきではない。
本明細書に開示されている2レベル手法では、Weak(AND)またはWeighted(AND)を表し、便宜上、WANDとして参照されるブール述部を使用する。WANDは、引き数として、ブール変数X1、X2、・・・、Xkのリストと、関連する正の(positive)重みw1、w2、・・・、wkのリストと、しきい値θとを取る。定義によれば、
である場合に、(WAND)(X1, w1, ...Xk,wk, θ)は真になる。ここで式中のxiはXiの標識変数であり、Xiが真であればxi=1であり、そうでなければxi=0である。
1.正規のAND(X,Y,Z)はWAND(3,X,1,Y,1,Z,1)とまったく同じである。2つの反復子1125は、まったく同じジャンプを行って、まったく同じ位置のリストにより内部でジッピングすることになる。
2.正規のOR(X,Y,Z)はWAND(1,X,1,Y,1,Z,1)とまったく同じである。2つの反復子は、まったく同じジャンプを行って、まったく同じ位置のリストにより内部でジッピングすることになる。
3.あらゆる文書が一致しなければならないという表現であるフィルタ式Fを使用する場合、これはWAND(large_number+threshold,F,large_number,pat1,w1,...)として実現することができる。
文書の最終スコアは、その照会に対する文書のテキスト類似性に基づくテキスト・スコアを含む。この最終スコアには、ウェブ・ページの接続性、科学資料の引用カウント、Eコマース品目の目録などの他の照会独立(照会非依存)要因を含むが、解説を簡単にするために、このような照会独立要因はまったくないと想定する。さらに、付加的スコアリング・モデルが存在すると想定する。すなわち、各文書のテキスト・スコアは、その文書に属するすべての照会用語の寄与率(contribution)を合計することによって決定される。したがって、照会qに関する文書dのテキスト・スコアは以下のようになる。
(WAND)述部は、完全評価のための候補文書を反復して見つけるために使用することができる。WAND反復子は、この述部を満足する文書を素早く見つけることができるプロシージャを提供する。
1.DID<curDocであるすべての文書はすでに候補と見なされている。
2.どの用語tについても、tを含み、DID<posting[t].DIDである文書はすでに候補と見なされている。
ユーザが所与の照会について上位n個のスコアリング文書を検索したいと希望すると想定する。このアルゴリズムは、上位n個の結果を追跡するためにサイズnのヒープを維持する。WAND反復子のinit()関数を呼び出した後、このアルゴリズムは新しい候補文書を検索するためにnext()関数を呼び出す。WAND反復子によって新しい候補が返されると、この文書はシステムのスコアリング・モデルを使用して完全に評価され、その結果、この文書に関する精密なスコアが生成される。このヒープが一杯ではない場合、候補文書はこのヒープに挿入される。このヒープが一杯であって、新しいスコアがヒープ内の最小スコアより大きい場合、新しい文書はヒープ内に挿入され、最小スコアを備えた文書を置換する。
WAND反復子では、各照会用語tがいずれかの文書スコアに対するその寄与率に関する上界UBtに関連付けられることを要求している。文書スコアに関する上界は、その文書が含むすべての用語の上界を合計することによって計算されることを想起されたい。したがって、その用語上界が正確である場合、すなわち、∀t, UBt > αtmaxd w(t,d)である場合、ある文書のスコアに関する上界も正確であり、すなわち、その最終スコアより大きくなる。この場合、アルゴリズムがいずれかの段階でのしきい値をこれまでに見られた最小文書スコアに設定すると想定すると、この2レベル・プロセスが正しいランキングおよび正確な文書スコアを返すことが保証される。
前述の通り、照会用語に関する上界は、その逆文書頻度(idf)に基づいて推定される。単純用語のidfは、そのポスティング・リストの長さから容易に決定することができる。そのように索引に明示的に記憶されない複合用語のidfは好ましくは、そのポスティング・リストが照会評価中に動的に作成されてから推定される。次に、2通りのタイプの複合用語のidfを推定するためのプロシージャについて説明する。このプロシージャは、他のタイプの複合用語に拡張することができる。
フレーズは、通常、引用符で囲まれた照会用語のシーケンス、たとえば、「John Quincy Adams」である。文書は、フレーズ照会に現れるのと同じ順序でフレーズ内のすべての用語を含む場合にのみ、この照会を満足する。動的フレーズ評価をサポートするために、個々の用語のポスティングが文書内の用語のオフセットも含むことに留意されたい。そのうえ、フレーズ評価は、索引にストップワードを記憶することを必要とする。
字句類似性(Lexical affinity:LA)は、小さいサイズのウィンドウ内で互いにきわめて接近して見つかった用語である。LA用語のポスティング反復子は、両方のLA用語のポスティング反復子を入力として受け取り、きわめて接近して両方の用語を含む文書のみを返す。LA(t1,t2)の文書頻度を推定するために、LAのポスティング・リストがその個々の用語のポスティング・リストのサブシーケンスであるという事実が利用される。これまでに詳しく検討したその用語の部分ポスティング・リスト内でのLAの出現の回数がカウントされ、ポスティング・リスト全体に外挿される。
以下に示すのは、現在好ましい2レベル照会評価プロセスを評価するために実行された実験から得られた結果の説明である。これらの実験にはJava(R)検索エンジンを使用した。169万ページのHTMLページからなる10GBのデータを含む文書の集合に索引を付けた。短い照会と長い照会の両方を実現した。この照会は集合内のトピックから構築した。短い照会の構築のためのトピック・タイトル(照会当たり平均2.46ワード)を使用し、タイトルは長い照会の構築のためのトピック説明(照会当たり平均7.0ワード)と連結した。加えて、結果セットのサイズ(ヒープ・サイズ)を変数として使用した。ヒープが大きくなるほど、結果セットを入手するために必要な評価の数が増加する。
第1の実験では、しきい値パラメータFの関数として完全評価の数を測定した。Fをゼロに設定すると、少なくとも1つの照会用語を含むすべての文書を返す。次に、返された候補文書のセットをすべて完全に評価する。この技法を使用して基本実行を確立したが、その場合、平均して、長い照会当たり335500個の文書を評価し、短い照会当たり135000個の文書を評価することを条件とする。図32は、長い照会と短い照会について、ヒープ・サイズが100および1000の場合のしきい係数Fの関数として完全評価の数を示している。図32は、すべての実行について、Fが増加するにつれて、評価の数が必要な文書の数(ヒープ・サイズ)に素早く収束することを示している。そのうえ、Fの関数としての平均照会時間を測定し、これが完全評価の数に高度に相関することを示した(すべての実行について相関は0.98より高い)。たとえば、長い照会で、ヒープ・サイズが100で、F=0の場合、基本実行の照会当たりの平均時間は8.41秒である。この時間は、F値が大きい場合に0.4秒まで減少する。基本実行はプルーニングがまったく行われていない極端なケースであることに留意されたい。しきい値は実際には、何らかの負のエラーが発生する前に高い値に設定することができる。これらの実験に基づいて、しきい値が約0.8である場合、その結果、完全評価の数が大幅に切り詰められ、結果リストに対する影響はまったくないことが分かる。
図35〜37はUIMA100の例示的な一実施形態の例証を示しており、薬品発見のための生命科学アプリケーション170に関連して示されている。この非制限的な例では、それによってUIMA100が動作可能な多くのコンポーネントおよびインターフェースのうちの一部を示している。
110 セマンティック検索エンジン
120 文書/集合/メタデータ・ストア
130 テキスト分析エンジン(TAE)
140 構造化知識ソース・アダプタ
150 集合処理マネージャ(CPM)
160 集合分析エンジン
170 アプリケーション・ロジック
180 構造化情報
190 文書の集合(非構造化情報)
190A 文書
195 関連知識
Claims (32)
- 記憶データを処理するためのデータ処理システムにおいて、
データ単位の集合を記憶するためのデータ記憶域と、
前記データ記憶域に結合され、前記データ記憶域からの少なくとも1つのデータ単位を検索するための照会に応答する検索エンジンとを含み、
前記照会がそれぞれが関連重み値を有する複数の検索部分式からなる検索演算子を含み、前記検索エンジンがしきい重み値合計を超える重み値合計を有するデータ単位を返す、データ処理システム。 - 前記データ単位が文書である、請求項1に記載のデータ処理システム。
- 前記重み値およびしきい重み値のうちの少なくとも1つが検索中に可変である、請求項1に記載のデータ処理システム。
- 前記検索演算子が加重AND関数を含み、前記しきい重み値を変化させることにより、前記加重AND関数の演算が実質的な論理OR関数から実質的な論理AND関数に変化する、請求項1に記載のデータ処理システム。
- 前記データ処理システムが、文書データのトークン化から導出された注釈と、それぞれの注釈のオカレンスを含むリストと、それぞれの注釈のリストされた各オカレンスごとに、前記それぞれの注釈が及ぶ複数のトークン位置を含むセットとを記憶するための逆ファイル・システムを含む、請求項2に記載のデータ処理システム。
- xiが任意の単調増加関数となって前記しきい値より大きくなることを要求することにより、前記WANDが一般化される、請求項7に記載のデータ処理システム。
- 任意の単調ブール公式が真になることを要求することにより、前記WANDが一般化される、請求項7に記載のデータ処理システム。
- しきい重みをw0、WANDへの引き数となるパターンをpat_iとするとき、WAND(w0,pat1,w1,pat2,w2,...)を含む照会が、一致したパターンpat1、pat2、・・・に関する重みの合計がw0より大きくなるように、pat1、pat2、・・・に十分一致する少なくとも1つの文書を返す、請求項6に記載のデータ処理システム。
- 前記単調ブール公式が明示的に示されないが、ブラック・ボックス計算によって示される、請求項9に記載のデータ処理システム。
- 前記pat_iが前記文書のコンテンツの任意のブール関数を表現し、返された文書は、関数pat1、pat2、・・・に関する重みの合計がw0より大きくなるように、pat1、pat2、・・・を十分満足する、請求項10に記載のデータ処理システム。
- 前記データ記憶域内の前記文書が、前記データ記憶域内の前記文書の特定の順序付けに関して逆ファイルとして表現される、請求項6に記載のデータ処理システム。
- 文書内の用語のオカレンスに関する少なくとも1つの反復子をさらに含む、請求項6に記載のデータ処理システム。
- どの文書が特定のプロパティを満足するかを示すための少なくとも1つの反復子をさらに含む、請求項6に記載のデータ処理システム。
- 前記WANDが、前記ブール述部X_1、X_2、・・・をそれぞれ満足する文書について少なくとも1つの反復子を使用し、WAND演算子が、どの文書が前記WAND述部を満足するかを示すための反復子を作成する、請求項6に記載のデータ処理システム。
- 前記WAND演算子が、前記WAND述部を満足しないことがまだ分かっていない第1の可能な文書を表現する現行文書変数を維持し、前記WAND述部が現行文書変数で満足されない場合に複数の反復子のうちのどの反復子を進めるかをプロシージャが示す、請求項17に記載のデータ処理システム。
- コンピュータ可読媒体上で実施され、少なくとも1つのアプリケーションと協力してテキスト・インテリジェンス・システムの動作を指示するためのプログラム・コードを含むコンピュータ・プログラム記録媒体において、
データ単位の集合を記憶するためのコンピュータ・プログラム・セグメントと、
少なくとも1つの記憶データ単位を検索するための照会に応答する検索エンジンを実現するコンピュータ・プログラム・セグメントとを含み、
前記照会がそれぞれが関連重み値を有する複数の検索部分式からなる検索演算子を含み、前記検索エンジンがしきい重み値合計を超える重み値合計を有するデータ単位を返す、コンピュータ・プログラム記録媒体。 - 前記データ単位が文書である、請求項19に記載のコンピュータ・プログラム記録媒体。
- 前記重み値およびしきい重み値のうちの少なくとも1つが検索中に可変である、請求項19に記載のコンピュータ・プログラム記録媒体。
- 前記検索演算子が加重AND関数を含み、前記しきい重み値を変化させることにより、前記加重AND関数の演算が実質的な論理OR関数から実質的な論理AND関数に変化する、請求項19に記載のコンピュータ・プログラム記録媒体。
- 文書データのトークン化から導出された注釈と、それぞれの注釈のオカレンスを含むリストと、それぞれの注釈のリストされた各オカレンスごとに、前記それぞれの注釈が及ぶ複数のトークン位置を含むセットとを記憶するための逆ファイル・システムを実現するためのコンピュータ・プログラム・セグメントをさらに含む、請求項19に記載のコンピュータ・プログラム記録媒体。
- xiが任意の単調増加関数が前記しきい値より大きくなることを要求することにより、前記WANDが一般化される、請求項24に記載のコンピュータ・プログラム記録媒体。
- 任意の単調ブール公式が真になることを要求することにより、前記WANDが一般化される、請求項24に記載のコンピュータ・プログラム記録媒体。
- しきい重みをw0、WANDへの引き数となるパターンをpat_iとするとき、WAND(w0,pat1,w1,pat2,w2,...)を含む照会が、一致したパターンpat1、pat2、・・・に関する重みの合計がw0より大きくなるように、pat1、pat2、・・・に十分一致する少なくとも1つの文書データ単位を返す、請求項24に記載のコンピュータ・プログラム記録媒体。
- 前記pat_iが前記文書のコンテンツの任意のブール関数を表現し、返された文書データ単位は、関数pat1、pat2、・・・に関する重みの合計がw0より大きくなるように、pat1、pat2、・・・を十分満足する、請求項28に記載のコンピュータ・プログラム記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/449,265 US7146361B2 (en) | 2003-05-30 | 2003-05-30 | System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND) |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004362563A true JP2004362563A (ja) | 2004-12-24 |
Family
ID=33451728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004155234A Pending JP2004362563A (ja) | 2003-05-30 | 2004-05-25 | 非構造化情報管理および自動テキスト分析を実行するためのシステム、方法、およびコンピュータ・プログラム記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (3) | US7146361B2 (ja) |
JP (1) | JP2004362563A (ja) |
CN (1) | CN1297935C (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8224772B2 (en) | 2006-12-08 | 2012-07-17 | Nec Corporation | Data management apparatus, method and program |
JP2016024619A (ja) * | 2014-07-18 | 2016-02-08 | 富士通株式会社 | 情報処理方法、情報処理装置および情報処理プログラム |
Families Citing this family (204)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7035864B1 (en) | 2000-05-18 | 2006-04-25 | Endeca Technologies, Inc. | Hierarchical data-driven navigation system and method for information retrieval |
US7617184B2 (en) * | 2000-05-18 | 2009-11-10 | Endeca Technologies, Inc. | Scalable hierarchical data-driven navigation system and method for information retrieval |
US6556991B1 (en) * | 2000-09-01 | 2003-04-29 | E-Centives, Inc. | Item name normalization |
US20040117366A1 (en) * | 2002-12-12 | 2004-06-17 | Ferrari Adam J. | Method and system for interpreting multiple-term queries |
US7146361B2 (en) * | 2003-05-30 | 2006-12-05 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND) |
US7610313B2 (en) | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
US7505964B2 (en) | 2003-09-12 | 2009-03-17 | Google Inc. | Methods and systems for improving a search ranking using related queries |
US7346839B2 (en) | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US7797316B2 (en) | 2003-09-30 | 2010-09-14 | Google Inc. | Systems and methods for determining document freshness |
US7293005B2 (en) | 2004-01-26 | 2007-11-06 | International Business Machines Corporation | Pipelined architecture for global analysis and index building |
US8296304B2 (en) | 2004-01-26 | 2012-10-23 | International Business Machines Corporation | Method, system, and program for handling redirects in a search engine |
US7499913B2 (en) | 2004-01-26 | 2009-03-03 | International Business Machines Corporation | Method for handling anchor text |
US7424467B2 (en) | 2004-01-26 | 2008-09-09 | International Business Machines Corporation | Architecture for an indexer with fixed width sort and variable width sort |
US7191175B2 (en) | 2004-02-13 | 2007-03-13 | Attenex Corporation | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
US7836083B2 (en) * | 2004-02-20 | 2010-11-16 | Factiva, Inc. | Intelligent search and retrieval system and method |
US7565368B2 (en) * | 2004-05-04 | 2009-07-21 | Next It Corporation | Data disambiguation systems and methods |
US7698333B2 (en) | 2004-07-22 | 2010-04-13 | Factiva, Inc. | Intelligent query system and method using phrase-code frequency-inverse phrase-code document frequency module |
US7702618B1 (en) | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
US7711679B2 (en) | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
US7567959B2 (en) * | 2004-07-26 | 2009-07-28 | Google Inc. | Multiple index based information retrieval system |
US7461064B2 (en) | 2004-09-24 | 2008-12-02 | International Buiness Machines Corporation | Method for searching documents for ranges of numeric values |
US7496567B1 (en) * | 2004-10-01 | 2009-02-24 | Terril John Steichen | System and method for document categorization |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
EP1825395A4 (en) * | 2004-10-25 | 2010-07-07 | Yuanhua Tang | FULL TEXT INTERROGATION AND RESEARCH SYSTEMS AND METHODS OF USE |
US7418445B1 (en) * | 2004-11-08 | 2008-08-26 | Unisys Corporation | Method for reducing the scope of the K node construction lock |
US7404151B2 (en) | 2005-01-26 | 2008-07-22 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
US7356777B2 (en) | 2005-01-26 | 2008-04-08 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
US7650320B2 (en) * | 2005-02-24 | 2010-01-19 | Nahava Inc. | Method and system for efficient indexed storage for unstructured content |
US7788293B2 (en) * | 2005-03-02 | 2010-08-31 | Google Inc. | Generating structured information |
US7533088B2 (en) * | 2005-05-04 | 2009-05-12 | Microsoft Corporation | Database reverse query matching |
US7467155B2 (en) * | 2005-07-12 | 2008-12-16 | Sand Technology Systems International, Inc. | Method and apparatus for representation of unstructured data |
US8417693B2 (en) | 2005-07-14 | 2013-04-09 | International Business Machines Corporation | Enforcing native access control to indexed documents |
US20070022108A1 (en) * | 2005-07-22 | 2007-01-25 | Nec Corporation | Predicate-logic retrieval system |
US8019752B2 (en) * | 2005-11-10 | 2011-09-13 | Endeca Technologies, Inc. | System and method for information retrieval from object collections with complex interrelationships |
US9495349B2 (en) * | 2005-11-17 | 2016-11-15 | International Business Machines Corporation | System and method for using text analytics to identify a set of related documents from a source document |
CA2540058A1 (en) * | 2005-12-06 | 2007-06-08 | Emeka Akaezuwa | Portable search engine |
US7487174B2 (en) * | 2006-01-17 | 2009-02-03 | International Business Machines Corporation | Method for storing text annotations with associated type information in a structured data store |
US20070179940A1 (en) * | 2006-01-27 | 2007-08-02 | Robinson Eric M | System and method for formulating data search queries |
US20070208722A1 (en) * | 2006-03-02 | 2007-09-06 | International Business Machines Corporation | Apparatus and method for modification of a saved database query based on a change in the meaning of a query value over time |
US20070233679A1 (en) * | 2006-04-03 | 2007-10-04 | Microsoft Corporation | Learning a document ranking function using query-level error measurements |
EP2013778A1 (en) * | 2006-04-19 | 2009-01-14 | Raython Company | Multilingual data querying |
US7853555B2 (en) * | 2006-04-19 | 2010-12-14 | Raytheon Company | Enhancing multilingual data querying |
US7991608B2 (en) | 2006-04-19 | 2011-08-02 | Raytheon Company | Multilingual data querying |
US8171462B2 (en) * | 2006-04-21 | 2012-05-01 | Microsoft Corporation | User declarative language for formatted data processing |
US7827155B2 (en) * | 2006-04-21 | 2010-11-02 | Microsoft Corporation | System for processing formatted data |
US8549492B2 (en) | 2006-04-21 | 2013-10-01 | Microsoft Corporation | Machine declarative language for formatted data processing |
US7711546B2 (en) | 2006-04-21 | 2010-05-04 | Microsoft Corporation | User interface for machine aided authoring and translation |
US20070271231A1 (en) * | 2006-05-22 | 2007-11-22 | Jimmy Jong-Yuan Lin | Search method on the Internet |
WO2007149216A2 (en) * | 2006-06-21 | 2007-12-27 | Information Extraction Systems | An apparatus, system and method for developing tools to process natural language text |
US20080019281A1 (en) * | 2006-07-21 | 2008-01-24 | Microsoft Corporation | Reuse of available source data and localizations |
US7593934B2 (en) * | 2006-07-28 | 2009-09-22 | Microsoft Corporation | Learning a document ranking using a loss function with a rank pair or a query parameter |
US7610315B2 (en) * | 2006-09-06 | 2009-10-27 | Adobe Systems Incorporated | System and method of determining and recommending a document control policy for a document |
US9892111B2 (en) | 2006-10-10 | 2018-02-13 | Abbyy Production Llc | Method and device to estimate similarity between documents having multiple segments |
US9495358B2 (en) | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
US9075864B2 (en) | 2006-10-10 | 2015-07-07 | Abbyy Infopoisk Llc | Method and system for semantic searching using syntactic and semantic analysis |
US9069750B2 (en) | 2006-10-10 | 2015-06-30 | Abbyy Infopoisk Llc | Method and system for semantic searching of natural language texts |
US9189482B2 (en) | 2012-10-10 | 2015-11-17 | Abbyy Infopoisk Llc | Similar document search |
US9098489B2 (en) | 2006-10-10 | 2015-08-04 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US9110975B1 (en) | 2006-11-02 | 2015-08-18 | Google Inc. | Search result inputs using variant generalized queries |
US8661029B1 (en) | 2006-11-02 | 2014-02-25 | Google Inc. | Modifying search result ranking based on implicit user feedback |
US8488839B2 (en) * | 2006-11-20 | 2013-07-16 | Videosurf, Inc. | Computer program and apparatus for motion-based object extraction and tracking in video |
US20080120290A1 (en) * | 2006-11-20 | 2008-05-22 | Rexee, Inc. | Apparatus for Performing a Weight-Based Search |
US8379915B2 (en) * | 2006-11-20 | 2013-02-19 | Videosurf, Inc. | Method of performing motion-based object extraction and tracking in video |
US20080120291A1 (en) * | 2006-11-20 | 2008-05-22 | Rexee, Inc. | Computer Program Implementing A Weight-Based Search |
US8059915B2 (en) * | 2006-11-20 | 2011-11-15 | Videosurf, Inc. | Apparatus for and method of robust motion estimation using line averages |
US20080120328A1 (en) * | 2006-11-20 | 2008-05-22 | Rexee, Inc. | Method of Performing a Weight-Based Search |
US7698259B2 (en) * | 2006-11-22 | 2010-04-13 | Sap Ag | Semantic search in a database |
US8399573B2 (en) * | 2006-11-22 | 2013-03-19 | Sabic Innovative Plastics Ip B.V. | Polymer blend compositions |
US8676802B2 (en) | 2006-11-30 | 2014-03-18 | Oracle Otc Subsidiary Llc | Method and system for information retrieval with clustering |
US8631005B2 (en) * | 2006-12-28 | 2014-01-14 | Ebay Inc. | Header-token driven automatic text segmentation |
US20080162526A1 (en) * | 2006-12-28 | 2008-07-03 | Uma Kant Singh | Method and system for managing unstructured data in a structured data environment |
US8938463B1 (en) * | 2007-03-12 | 2015-01-20 | Google Inc. | Modifying search result ranking based on implicit user feedback and a model of presentation bias |
US8694374B1 (en) | 2007-03-14 | 2014-04-08 | Google Inc. | Detecting click spam |
US9092510B1 (en) | 2007-04-30 | 2015-07-28 | Google Inc. | Modifying search result ranking based on a temporal element of user feedback |
US8359309B1 (en) | 2007-05-23 | 2013-01-22 | Google Inc. | Modifying search result ranking based on corpus search statistics |
US7903899B2 (en) * | 2007-05-23 | 2011-03-08 | Videosurf, Inc. | Method of geometric coarsening and segmenting of still images |
US7920748B2 (en) * | 2007-05-23 | 2011-04-05 | Videosurf, Inc. | Apparatus and software for geometric coarsening and segmenting of still images |
US8122032B2 (en) * | 2007-07-20 | 2012-02-21 | Google Inc. | Identifying and linking similar passages in a digital text corpus |
US9323827B2 (en) * | 2007-07-20 | 2016-04-26 | Google Inc. | Identifying key terms related to similar passages |
US8694511B1 (en) | 2007-08-20 | 2014-04-08 | Google Inc. | Modifying search result ranking based on populations |
US7877344B2 (en) * | 2007-10-10 | 2011-01-25 | Northern Light Group, Llc | Method and apparatus for extracting meaning from documents using a meaning taxonomy comprising syntactic structures |
US8909655B1 (en) | 2007-10-11 | 2014-12-09 | Google Inc. | Time based ranking |
US7856434B2 (en) | 2007-11-12 | 2010-12-21 | Endeca Technologies, Inc. | System and method for filtering rules for manipulating search results in a hierarchical search and navigation system |
CN101861722A (zh) * | 2007-11-16 | 2010-10-13 | 法国电信公司 | 用于对分组进行归类的方法和装置 |
US7895232B2 (en) * | 2007-12-25 | 2011-02-22 | International Business Machines Corporation | Object-oriented twig query evaluation |
US9746985B1 (en) | 2008-02-25 | 2017-08-29 | Georgetown University | System and method for detecting, collecting, analyzing, and communicating event-related information |
US8881040B2 (en) | 2008-08-28 | 2014-11-04 | Georgetown University | System and method for detecting, collecting, analyzing, and communicating event-related information |
US9529974B2 (en) | 2008-02-25 | 2016-12-27 | Georgetown University | System and method for detecting, collecting, analyzing, and communicating event-related information |
US9489495B2 (en) | 2008-02-25 | 2016-11-08 | Georgetown University | System and method for detecting, collecting, analyzing, and communicating event-related information |
US20090265607A1 (en) * | 2008-04-17 | 2009-10-22 | Razoss Ltd. | Method, system and computer readable product for management, personalization and sharing of web content |
US8364660B2 (en) * | 2008-07-11 | 2013-01-29 | Videosurf, Inc. | Apparatus and software system for and method of performing a visual-relevance-rank subsequent search |
WO2010006334A1 (en) | 2008-07-11 | 2010-01-14 | Videosurf, Inc. | Apparatus and software system for and method of performing a visual-relevance-rank subsequent search |
US8462394B2 (en) * | 2008-08-05 | 2013-06-11 | Xerox Corporation | Document type classification for scanned bitmaps |
US8965881B2 (en) * | 2008-08-15 | 2015-02-24 | Athena A. Smyros | Systems and methods for searching an index |
US8214734B2 (en) * | 2008-10-09 | 2012-07-03 | International Business Machines Corporation | Credibility of text analysis engine performance evaluation by rating reference content |
US8037053B2 (en) * | 2008-10-31 | 2011-10-11 | Yahoo! Inc. | System and method for generating an online summary of a collection of documents |
US8396865B1 (en) | 2008-12-10 | 2013-03-12 | Google Inc. | Sharing search engine relevance data between corpora |
US8346701B2 (en) * | 2009-01-23 | 2013-01-01 | Microsoft Corporation | Answer ranking in community question-answering sites |
EP2394228A4 (en) * | 2009-03-10 | 2013-01-23 | Ebrary Inc | METHOD AND APPARATUS FOR REAL-TIME TEXT ANALYSIS AND NAVIGATION IN TEXT |
US8433559B2 (en) * | 2009-03-24 | 2013-04-30 | Microsoft Corporation | Text analysis using phrase definitions and containers |
US9009146B1 (en) | 2009-04-08 | 2015-04-14 | Google Inc. | Ranking search results based on similar queries |
CN101876981B (zh) * | 2009-04-29 | 2015-09-23 | 阿里巴巴集团控股有限公司 | 一种构建知识库的方法及装置 |
US20110004588A1 (en) * | 2009-05-11 | 2011-01-06 | iMedix Inc. | Method for enhancing the performance of a medical search engine based on semantic analysis and user feedback |
US8533213B2 (en) * | 2009-06-17 | 2013-09-10 | Sap Portals Israel Ltd. | Apparatus and method for integrating applications into a computerized environment |
US9342607B2 (en) | 2009-06-19 | 2016-05-17 | International Business Machines Corporation | Dynamic inference graph |
US10726083B2 (en) | 2010-10-30 | 2020-07-28 | International Business Machines Corporation | Search query transformations |
US10007705B2 (en) | 2010-10-30 | 2018-06-26 | International Business Machines Corporation | Display of boosted slashtag results |
US8661404B2 (en) * | 2009-07-15 | 2014-02-25 | Infosys Limited | Method for improving execution efficiency of a software package customization |
US20110016107A1 (en) * | 2009-07-19 | 2011-01-20 | Harumi Kuno | Execution of query plans for database query within environments of databases |
US8447760B1 (en) | 2009-07-20 | 2013-05-21 | Google Inc. | Generating a related set of documents for an initial set of documents |
US8572084B2 (en) | 2009-07-28 | 2013-10-29 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor |
CA2772082C (en) | 2009-08-24 | 2019-01-15 | William C. Knight | Generating a reference set for use during document review |
US8498974B1 (en) | 2009-08-31 | 2013-07-30 | Google Inc. | Refining search results |
CN102023989B (zh) * | 2009-09-23 | 2012-10-10 | 阿里巴巴集团控股有限公司 | 一种信息检索方法及其系统 |
US8972391B1 (en) | 2009-10-02 | 2015-03-03 | Google Inc. | Recent interest based relevance scoring |
US8874555B1 (en) | 2009-11-20 | 2014-10-28 | Google Inc. | Modifying scoring data based on historical changes |
US8775160B1 (en) | 2009-12-17 | 2014-07-08 | Shopzilla, Inc. | Usage based query response |
US8428933B1 (en) | 2009-12-17 | 2013-04-23 | Shopzilla, Inc. | Usage based query response |
US8244706B2 (en) * | 2009-12-18 | 2012-08-14 | International Business Machines Corporation | Method and apparatus for semantic just-in-time-information-retrieval |
US8615514B1 (en) | 2010-02-03 | 2013-12-24 | Google Inc. | Evaluating website properties by partitioning user feedback |
US8924379B1 (en) | 2010-03-05 | 2014-12-30 | Google Inc. | Temporal-based score adjustments |
US8959093B1 (en) | 2010-03-15 | 2015-02-17 | Google Inc. | Ranking search results based on anchors |
US8838587B1 (en) | 2010-04-19 | 2014-09-16 | Google Inc. | Propagating query classifications |
US9858338B2 (en) * | 2010-04-30 | 2018-01-02 | International Business Machines Corporation | Managed document research domains |
US9508011B2 (en) | 2010-05-10 | 2016-11-29 | Videosurf, Inc. | Video visual and audio query |
US9623119B1 (en) | 2010-06-29 | 2017-04-18 | Google Inc. | Accentuating search results |
US8832083B1 (en) | 2010-07-23 | 2014-09-09 | Google Inc. | Combining user feedback |
US9262390B2 (en) * | 2010-09-02 | 2016-02-16 | Lexis Nexis, A Division Of Reed Elsevier Inc. | Methods and systems for annotating electronic documents |
US8417710B2 (en) | 2010-09-20 | 2013-04-09 | International Business Machines Corporation | Public relations and reputation mining via semantic analytics |
US9069842B2 (en) * | 2010-09-28 | 2015-06-30 | The Mitre Corporation | Accessing documents using predictive word sequences |
CN103339597B (zh) * | 2010-10-30 | 2017-02-15 | 国际商业机器公司 | 转换搜索引擎查询 |
US9251123B2 (en) | 2010-11-29 | 2016-02-02 | Hewlett-Packard Development Company, L.P. | Systems and methods for converting a PDF file |
US9002867B1 (en) | 2010-12-30 | 2015-04-07 | Google Inc. | Modifying ranking data based on document changes |
US9959326B2 (en) * | 2011-03-23 | 2018-05-01 | International Business Machines Corporation | Annotating schema elements based on associating data instances with knowledge base entities |
US20140222773A1 (en) * | 2011-06-15 | 2014-08-07 | Trinity College Dublin | A network system for generating application specific hypermedia content from multiple sources |
US9218390B2 (en) | 2011-07-29 | 2015-12-22 | Yellowpages.Com Llc | Query parser derivation computing device and method for making a query parser for parsing unstructured search queries |
CN102622920B (zh) * | 2011-10-19 | 2014-12-10 | 北京中科希望软件股份有限公司 | 一种基于技能学习的智能解答方法与系统 |
US9122673B2 (en) * | 2012-03-07 | 2015-09-01 | International Business Machines Corporation | Domain specific natural language normalization |
US8996532B2 (en) * | 2012-05-21 | 2015-03-31 | International Business Machines Corporation | Determining a cause of an incident based on text analytics of documents |
US9678948B2 (en) | 2012-06-26 | 2017-06-13 | International Business Machines Corporation | Real-time message sentiment awareness |
CN102779186B (zh) * | 2012-06-29 | 2014-12-24 | 浙江大学 | 一种非结构化数据管理的全过程建模方法 |
US9104656B2 (en) | 2012-07-03 | 2015-08-11 | International Business Machines Corporation | Using lexical analysis and parsing in genome research |
US9424233B2 (en) | 2012-07-20 | 2016-08-23 | Veveo, Inc. | Method of and system for inferring user intent in search input in a conversational interaction system |
US8983991B2 (en) * | 2012-07-27 | 2015-03-17 | Facebook, Inc. | Generating logical expressions for search queries |
US9262511B2 (en) * | 2012-07-30 | 2016-02-16 | Red Lambda, Inc. | System and method for indexing streams containing unstructured text data |
BR112015005059A2 (pt) * | 2012-09-07 | 2017-07-04 | American Chemical Soc | avaliador de composição automatizado |
CN102890714B (zh) * | 2012-09-24 | 2015-04-15 | 华为技术有限公司 | 数据索引方法及装置 |
US9753986B2 (en) | 2012-12-17 | 2017-09-05 | International Business Machines Corporation | Multi-dimensional feature merging for supporting evidence in a question and answering system |
US9460083B2 (en) | 2012-12-27 | 2016-10-04 | International Business Machines Corporation | Interactive dashboard based on real-time sentiment analysis for synchronous communication |
US9690775B2 (en) | 2012-12-27 | 2017-06-27 | International Business Machines Corporation | Real-time sentiment analysis for synchronous communication |
CN104035927B (zh) * | 2013-03-05 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 一种基于用户行为的搜索方法及系统 |
US9183499B1 (en) | 2013-04-19 | 2015-11-10 | Google Inc. | Evaluating quality based on neighbor features |
DK2994908T3 (da) * | 2013-05-07 | 2019-09-23 | Veveo Inc | Grænseflade til inkrementel taleinput med realtidsfeedback |
US20150006514A1 (en) * | 2013-06-28 | 2015-01-01 | Jiun Hung | Method and Computer System for Searching Intended Path |
US9984066B2 (en) * | 2013-12-19 | 2018-05-29 | Arturo Geigel | Method and system of extracting patent features for comparison and to determine similarities, novelty and obviousness |
US9589277B2 (en) | 2013-12-31 | 2017-03-07 | Microsoft Technology Licensing, Llc | Search service advertisement selection |
US9426258B1 (en) * | 2014-02-03 | 2016-08-23 | Emc Corporation | Expression based declarative data service execution chaining |
US10380253B2 (en) * | 2014-03-04 | 2019-08-13 | International Business Machines Corporation | Natural language processing with dynamic pipelines |
US9734046B2 (en) * | 2014-04-01 | 2017-08-15 | International Business Machines Corporation | Recording, replaying and modifying an unstructured information management architecture (UIMA) pipeline |
US9280340B2 (en) | 2014-04-01 | 2016-03-08 | International Business Machines Corporation | Dynamically building an unstructured information management architecture (UIMA) pipeline |
JP6444494B2 (ja) | 2014-05-23 | 2018-12-26 | データロボット, インコーポレイテッド | 予測データ分析のためのシステムおよび技術 |
US10558924B2 (en) | 2014-05-23 | 2020-02-11 | DataRobot, Inc. | Systems for second-order predictive data analytics, and related methods and apparatus |
WO2015183246A1 (en) * | 2014-05-28 | 2015-12-03 | Hewlett-Packard Development Company, L.P. | Data extraction based on multiple meta-algorithmic patterns |
US20150378985A1 (en) * | 2014-06-26 | 2015-12-31 | Dhanyamraju S U M Prasad | Method and system for providing semantics based technical support |
CN104199803B (zh) * | 2014-07-21 | 2017-10-13 | 安徽华贞信息科技有限公司 | 一种基于组合理论的文本信息处理系统及方法 |
US9880997B2 (en) * | 2014-07-23 | 2018-01-30 | Accenture Global Services Limited | Inferring type classifications from natural language text |
US9575961B2 (en) | 2014-08-28 | 2017-02-21 | Northern Light Group, Llc | Systems and methods for analyzing document coverage |
US9881166B2 (en) * | 2015-04-16 | 2018-01-30 | International Business Machines Corporation | Multi-focused fine-grained security framework |
US11886477B2 (en) | 2015-09-22 | 2024-01-30 | Northern Light Group, Llc | System and method for quote-based search summaries |
US11544306B2 (en) | 2015-09-22 | 2023-01-03 | Northern Light Group, Llc | System and method for concept-based search summaries |
US9916296B2 (en) * | 2015-09-24 | 2018-03-13 | International Business Machines Corporation | Expanding entity and relationship patterns to a collection of document annotators using run traces |
CN105512232B (zh) * | 2015-11-30 | 2020-02-28 | 北京金山安全软件有限公司 | 数据存储方法及装置 |
CN105512230B (zh) * | 2015-11-30 | 2020-05-22 | 北京金山安全软件有限公司 | 数据存储方法及装置 |
US10515424B2 (en) * | 2016-02-12 | 2019-12-24 | Microsoft Technology Licensing, Llc | Machine learned query generation on inverted indices |
US10678827B2 (en) * | 2016-02-26 | 2020-06-09 | Workday, Inc. | Systematic mass normalization of international titles |
US11226946B2 (en) | 2016-04-13 | 2022-01-18 | Northern Light Group, Llc | Systems and methods for automatically determining a performance index |
US10878190B2 (en) | 2016-04-26 | 2020-12-29 | International Business Machines Corporation | Structured dictionary population utilizing text analytics of unstructured language dictionary text |
WO2017210618A1 (en) | 2016-06-02 | 2017-12-07 | Fti Consulting, Inc. | Analyzing clusters of coded documents |
US10459959B2 (en) * | 2016-11-07 | 2019-10-29 | Oath Inc. | Top-k query processing with conditional skips |
US10387900B2 (en) | 2017-04-17 | 2019-08-20 | DataRobot, Inc. | Methods and apparatus for self-adaptive time series forecasting engine |
US10209985B2 (en) * | 2017-05-25 | 2019-02-19 | Sap Se | Descriptor-transformer framework in an integration platform |
CN108416124B (zh) * | 2018-02-13 | 2022-03-25 | 西安理工大学 | 一种基于谓词逻辑的规范重构表示方法 |
US11734285B2 (en) * | 2018-03-22 | 2023-08-22 | Verizon Patent And Licensing Inc. | System and method for top-k searching using parallel processing |
CN110390094B (zh) * | 2018-04-20 | 2023-05-23 | 伊姆西Ip控股有限责任公司 | 对文档进行分类的方法、电子设备和计算机程序产品 |
US11074517B2 (en) * | 2018-05-25 | 2021-07-27 | International Business Machines Corporation | Predicting keywords in an application |
CN110555070B (zh) * | 2018-06-01 | 2021-10-22 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
US10949219B2 (en) | 2018-06-15 | 2021-03-16 | Sap Se | Containerized runtime environments |
WO2019241630A1 (en) * | 2018-06-15 | 2019-12-19 | Deep Insight Solutions, Inc. | Systems and methods for an artificial intelligence data fusion platform |
US10747506B2 (en) * | 2018-06-15 | 2020-08-18 | Sap Se | Customizing operator nodes for graphical representations of data processing pipelines |
US11275485B2 (en) | 2018-06-15 | 2022-03-15 | Sap Se | Data processing pipeline engine |
US10866831B2 (en) | 2018-06-15 | 2020-12-15 | Sap Se | Distributed execution of data processing pipelines |
US10733034B2 (en) | 2018-06-15 | 2020-08-04 | Sap Se | Trace messaging for distributed execution of data processing pipelines |
US11163833B2 (en) | 2018-09-06 | 2021-11-02 | International Business Machines Corporation | Discovering and displaying business artifact and term relationships |
CN109492100B (zh) * | 2018-10-31 | 2021-07-30 | 武汉雨滴科技有限公司 | 一种非结构信息处理与资源管理系统 |
US11461672B2 (en) * | 2019-02-08 | 2022-10-04 | International Business Machines Corporation | Plug-and-ingest framework for question answering systems |
CN109858165A (zh) * | 2019-02-12 | 2019-06-07 | 安徽工程大学 | 一种二级圆柱齿轮减速器设计方法 |
US10963490B2 (en) * | 2019-02-27 | 2021-03-30 | International Business Machines Corporation | Text extraction and processing |
CN110347785A (zh) * | 2019-05-30 | 2019-10-18 | 平安科技(深圳)有限公司 | 非结构化文书搜索方法、装置、计算机设备和存储介质 |
EP3754445A1 (en) * | 2019-06-17 | 2020-12-23 | Siemens Aktiengesellschaft | Computer-assisted configuration of a technical system |
US11176158B2 (en) * | 2019-07-31 | 2021-11-16 | International Business Machines Corporation | Intelligent use of extraction techniques |
US11709877B2 (en) * | 2020-01-20 | 2023-07-25 | International Business Machines Corporation | Systems and methods for targeted annotation of data |
CN111680508B (zh) * | 2020-06-08 | 2023-05-26 | 北京百度网讯科技有限公司 | 文本的处理方法和装置 |
US11410447B2 (en) | 2020-06-19 | 2022-08-09 | Bank Of America Corporation | Information security assessment translation engine |
US11574131B2 (en) * | 2021-05-21 | 2023-02-07 | Google Llc | Machine-learned language models which generate intermediate textual analysis in service of contextual text generation |
Family Cites Families (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US378A (en) * | 1837-09-08 | Ho t-aijr strcjve | ||
US5778A (en) * | 1848-09-19 | Window-sash fasteneb | ||
JPS6270974A (ja) | 1985-09-24 | 1987-04-01 | Nec Corp | テキスト・サ−チ・エンジンとその制御方式 |
JP2943447B2 (ja) * | 1991-01-30 | 1999-08-30 | 三菱電機株式会社 | テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置 |
JPH0823869B2 (ja) | 1992-08-21 | 1996-03-06 | 日本電気株式会社 | データベース類似検索方法 |
US5715445A (en) * | 1994-09-02 | 1998-02-03 | Wolfe; Mark A. | Document retrieval system employing a preloading procedure |
US5577241A (en) * | 1994-12-07 | 1996-11-19 | Excite, Inc. | Information retrieval system and method with implementation extensible query architecture |
US6470306B1 (en) * | 1996-04-23 | 2002-10-22 | Logovista Corporation | Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens |
US5778378A (en) | 1996-04-30 | 1998-07-07 | International Business Machines Corporation | Object oriented information retrieval framework mechanism |
US5970490A (en) * | 1996-11-05 | 1999-10-19 | Xerox Corporation | Integration platform for heterogeneous databases |
US5987446A (en) * | 1996-11-12 | 1999-11-16 | U.S. West, Inc. | Searching large collections of text using multiple search engines concurrently |
US5966126A (en) * | 1996-12-23 | 1999-10-12 | Szabo; Andrew J. | Graphic user interface for database system |
KR100224379B1 (ko) * | 1997-05-29 | 1999-10-15 | 박호군 | 공정 제어 알고리즘 생성 방법 |
US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US6105023A (en) * | 1997-08-18 | 2000-08-15 | Dataware Technologies, Inc. | System and method for filtering a document stream |
US6081774A (en) * | 1997-08-22 | 2000-06-27 | Novell, Inc. | Natural language information retrieval system and method |
US5983267A (en) * | 1997-09-23 | 1999-11-09 | Information Architects Corporation | System for indexing and displaying requested data having heterogeneous content and representation |
EP1025517A1 (en) * | 1997-10-27 | 2000-08-09 | Massachusetts Institute Of Technology | Image search and retrieval system |
JP3586549B2 (ja) | 1997-12-08 | 2004-11-10 | 株式会社日立製作所 | 画像検索方法およびその装置 |
JPH11232303A (ja) | 1998-02-19 | 1999-08-27 | Fuji Xerox Co Ltd | テキスト検索装置 |
US6236987B1 (en) * | 1998-04-03 | 2001-05-22 | Damon Horowitz | Dynamic content organization in information retrieval systems |
US6553385B2 (en) * | 1998-09-01 | 2003-04-22 | International Business Machines Corporation | Architecture of a framework for information extraction from natural language documents |
US6453312B1 (en) * | 1998-10-14 | 2002-09-17 | Unisys Corporation | System and method for developing a selectably-expandable concept-based search |
US6523028B1 (en) * | 1998-12-03 | 2003-02-18 | Lockhead Martin Corporation | Method and system for universal querying of distributed databases |
US6731788B1 (en) * | 1999-01-28 | 2004-05-04 | Koninklijke Philips Electronics N.V. | Symbol Classification with shape features applied to neural network |
US6574657B1 (en) * | 1999-05-03 | 2003-06-03 | Symantec Corporation | Methods and apparatuses for file synchronization and updating using a signature list |
GB2352915A (en) * | 1999-08-06 | 2001-02-07 | Television Monitoring Services | A method of retrieving text data from a broadcast image |
US6507846B1 (en) * | 1999-11-09 | 2003-01-14 | Joint Technology Corporation | Indexing databases for efficient relational querying |
US6772141B1 (en) * | 1999-12-14 | 2004-08-03 | Novell, Inc. | Method and apparatus for organizing and using indexes utilizing a search decision table |
US6424975B1 (en) * | 2000-01-07 | 2002-07-23 | Trg Products, Inc. | FAT file system in palm OS computer |
US6542889B1 (en) * | 2000-01-28 | 2003-04-01 | International Business Machines Corporation | Methods and apparatus for similarity text search based on conceptual indexing |
US6910029B1 (en) * | 2000-02-22 | 2005-06-21 | International Business Machines Corporation | System for weighted indexing of hierarchical documents |
US6643650B1 (en) * | 2000-05-09 | 2003-11-04 | Sun Microsystems, Inc. | Mechanism and apparatus for using messages to look up documents stored in spaces in a distributed computing environment |
US6738759B1 (en) * | 2000-07-07 | 2004-05-18 | Infoglide Corporation, Inc. | System and method for performing similarity searching using pointer optimization |
US6621930B1 (en) * | 2000-08-09 | 2003-09-16 | Elron Software, Inc. | Automatic categorization of documents based on textual content |
US7130848B2 (en) * | 2000-08-09 | 2006-10-31 | Gary Martin Oosta | Methods for document indexing and analysis |
US6718323B2 (en) * | 2000-08-09 | 2004-04-06 | Hewlett-Packard Development Company, L.P. | Automatic method for quantifying the relevance of intra-document search results |
WO2002046916A2 (en) * | 2000-10-20 | 2002-06-13 | Polexis, Inc. | Extensible information system (xis) |
JP3934325B2 (ja) * | 2000-10-31 | 2007-06-20 | 株式会社日立製作所 | 文書検索方法、文書検索装置及び文書検索プログラムの記憶媒体 |
US20020091671A1 (en) * | 2000-11-23 | 2002-07-11 | Andreas Prokoph | Method and system for data retrieval in large collections of data |
US6804677B2 (en) * | 2001-02-26 | 2004-10-12 | Ori Software Development Ltd. | Encoding semi-structured data for efficient search and browsing |
US6697798B2 (en) * | 2001-04-24 | 2004-02-24 | Takahiro Nakamura | Retrieval system of secondary data added documents in database, and program |
AU2003205166A1 (en) * | 2002-01-14 | 2003-07-30 | Jerzy Lewak | Identifier vocabulary data access method and system |
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
US6763354B2 (en) * | 2002-05-10 | 2004-07-13 | Agentarts, Inc. | Mining emergent weighted association rules utilizing backlinking reinforcement analysis |
US20040024756A1 (en) * | 2002-08-05 | 2004-02-05 | John Terrell Rickard | Search engine for non-textual data |
US6968338B1 (en) * | 2002-08-29 | 2005-11-22 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Extensible database framework for management of unstructured and semi-structured documents |
US20040049505A1 (en) * | 2002-09-11 | 2004-03-11 | Kelly Pennock | Textual on-line analytical processing method and system |
US7313754B2 (en) * | 2003-03-14 | 2007-12-25 | Texterity, Inc. | Method and expert system for deducing document structure in document conversion |
US20040194009A1 (en) * | 2003-03-27 | 2004-09-30 | Lacomb Christina | Automated understanding, extraction and structured reformatting of information in electronic files |
US20040243556A1 (en) * | 2003-05-30 | 2004-12-02 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, and including a document common analysis system (CAS) |
US7146361B2 (en) * | 2003-05-30 | 2006-12-05 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND) |
US8868405B2 (en) * | 2004-01-27 | 2014-10-21 | Hewlett-Packard Development Company, L. P. | System and method for comparative analysis of textual documents |
US7240176B2 (en) * | 2004-05-01 | 2007-07-03 | Intel Corporation | Apparatus and methods for placing a managed heap |
-
2003
- 2003-05-30 US US10/449,265 patent/US7146361B2/en not_active Expired - Lifetime
-
2004
- 2004-05-25 JP JP2004155234A patent/JP2004362563A/ja active Pending
- 2004-05-25 CN CNB2004100458995A patent/CN1297935C/zh not_active Expired - Lifetime
-
2006
- 2006-11-30 US US11/607,080 patent/US7512602B2/en not_active Expired - Lifetime
-
2008
- 2008-06-13 US US12/138,857 patent/US8280903B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8224772B2 (en) | 2006-12-08 | 2012-07-17 | Nec Corporation | Data management apparatus, method and program |
JP2016024619A (ja) * | 2014-07-18 | 2016-02-08 | 富士通株式会社 | 情報処理方法、情報処理装置および情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
US7146361B2 (en) | 2006-12-05 |
US20090222441A1 (en) | 2009-09-03 |
CN1573744A (zh) | 2005-02-02 |
US8280903B2 (en) | 2012-10-02 |
US7512602B2 (en) | 2009-03-31 |
US20040243557A1 (en) | 2004-12-02 |
CN1297935C (zh) | 2007-01-31 |
US20070112763A1 (en) | 2007-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7139752B2 (en) | System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations | |
US7512602B2 (en) | System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a weighted and (WAND) | |
Asim et al. | A survey of ontology learning techniques and applications | |
US20040243556A1 (en) | System, method and computer program product for performing unstructured information management and automatic text analysis, and including a document common analysis system (CAS) | |
US20040243554A1 (en) | System, method and computer program product for performing unstructured information management and automatic text analysis | |
US20040243560A1 (en) | System, method and computer program product for performing unstructured information management and automatic text analysis, including an annotation inverted file system facilitating indexing and searching | |
Wong et al. | Ontology learning from text: A look back and into the future | |
McBride | Jena: Implementing the rdf model and syntax specification | |
Kowalski | Information retrieval architecture and algorithms | |
Kiyavitskaya et al. | Cerno: Light-weight tool support for semantic annotation of textual documents | |
Abulaish et al. | A concept-driven biomedical knowledge extraction and visualization framework for conceptualization of text corpora | |
Rodrigues et al. | Advanced applications of natural language processing for performing information extraction | |
Siefkes et al. | An overview and classification of adaptive approaches to information extraction | |
Nielsen et al. | An architecture for complex clinical question answering | |
Rugaber et al. | Knowledge extraction and annotation for cross-domain textual case-based reasoning in biologically inspired design | |
Halioui et al. | Bioinformatic workflow extraction from scientific texts based on word sense disambiguation | |
Rao et al. | Enhancing multi-document summarization using concepts | |
Li et al. | Natural language interfaces to databases | |
Klieber et al. | Knowledge discovery using the KnowMiner framework | |
Shi et al. | Ontology-based code snippets management in a cloud environment | |
Tiwari et al. | Mold-a framework for entity extraction and summarization | |
Cotter et al. | Pro Full-Text Search in SQL Server 2008 | |
QasemiZadeh | Towards technology structure mining from text by linguistics analysis | |
Canim et al. | A knowledge and reasoning toolkit for cognitive applications | |
Marjalaakso | Implementing Semantic Search to a Case Management System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070814 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070814 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20070814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070815 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071226 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071226 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080206 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20101005 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20101005 |