JP5202524B2 - 多段アプローチを使用した事実の抽出の最適化 - Google Patents

多段アプローチを使用した事実の抽出の最適化 Download PDF

Info

Publication number
JP5202524B2
JP5202524B2 JP2009522777A JP2009522777A JP5202524B2 JP 5202524 B2 JP5202524 B2 JP 5202524B2 JP 2009522777 A JP2009522777 A JP 2009522777A JP 2009522777 A JP2009522777 A JP 2009522777A JP 5202524 B2 JP5202524 B2 JP 5202524B2
Authority
JP
Japan
Prior art keywords
fact
description
factual
search term
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009522777A
Other languages
English (en)
Other versions
JP2009545808A5 (ja
JP2009545808A (ja
Inventor
アザム サリハ
ウィリアム ハンフリーズ ケビン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2009545808A publication Critical patent/JP2009545808A/ja
Publication of JP2009545808A5 publication Critical patent/JP2009545808A5/ja
Application granted granted Critical
Publication of JP5202524B2 publication Critical patent/JP5202524B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、多段アプローチを使用した事実の抽出の最適化に関する。
電子文書は、事実と意見の混合体を含む。読者は、事実に興味があるだけのこともあれば、事実を識別したいだけの時もある。例えば、情報を求めてオンライン検索しているユーザは、できるだけ早く、効率的に特定の主題についての事実が欲しいと思っている。けれども、使用する検索用語に関連するウェッブページ、又は他の電子文書のリストを提示するためには、ユーザは個別にウェッブページ、又は他の電子文書の各々を調べて、事実と意見、又は主題となる情報を区別することが必要になる。
事実の抽出をしようとする試みがなされてきたが、サーバコンピュータがいくら速くても、正確な事実の抽出には時間がかかり、効率の悪いプロセスになってしまう。そのような事実を抽出する試みは、一般に言語分析を電子文書の内容全体に適用して電子文書に含まれる可能性がある事実を抽出する。事実の抽出を何百何千という電子文書に適用した場合、結果が得られるまでにかかる時間は受け入れられるものではないかもしれない。
多段アプローチを使用することによる事実抽出を最適化する実施形態を提供する。電子文書を読み取り、事実単語表を使用して事実を含んでいそうな事実の記述を見つけて、電子文書の文章内の用語と合わせて事実の記述のセットを入手する。文書全体の解析ではなく、その事実の記述セットの近くで、例えば統語論の成分、及び/又は意味論のような言語成分を決定することを含む解析をさらに行う。従って、関係する電子文書毎に文書全体を、複雑に辞書的、又統語的に解析するのを避けることにより時間が節約できる。
この要約は、以下の発明を実施するための最良の形態で詳述する概念の選択を、簡単な形式で紹介するためのものである。この要約は、発明の主題の主要な特徴、又は本質的な特徴を識別するためのものではなく、又は発明の主題の範囲を決定するための支援として使用するためのものでもない。
実施形態を実装するためのコンピュータシステムの一例を示す図である。 検索前に抽出された事実の提示も含む検索の操作フローの一例を示す図である。 検索中に抽出された事実の提示も含む検索の操作フローの一例を示す図である。 事実の抽出の多段ステップの操作フローの一例を示す図である。 事実の抽出の多段ステップの更に詳細な操作フローの一例を示す図である。 検索により発見された電子文書から得られた事実の提示を含む検索結果を提供する画像表示の一例を示す図である。
実施形態は、関係する文書全体の複雑な解析をしないようにするために多段ステージを使用する事実抽出を提供する。文書の事実の記述は、初期段階において事実−単語表に関連して認識される。これらの事実の記述は、会話の部分、名詞か動詞かどちらかでタグ付けされる。そしてこれらの事実の記述に関して、その後の段階でさらに詳細な解析が行うことが可能で、その際関連する文書全体にわたってそのような詳細な解析を回避している。事実の記述の各々のための言語成分が決定され、除外とスコアを使用して、事実になりそうにない事実の記述を除去する。除外してスコアをつけてから、残りの事実の記述が事実として提示される。
図1は、実施形態の作動環境を提供するコンピュータシステム100の一例を示す。ここに示すコンピュータシステム100は、マスストレージ112、メモリ104、ディスプレイアダプタ108、そしてキーボード、キーパッド、マウス等の1つ又は複数の入力装置110を含む様々なコンポーネントと同様プロセッサを備えた、標準の汎用のプログラム可能なコンピュータシステム100である。プロセッサ102は、データ信号バス106を介してコンポーネントの各々と通信する。
コンピュータシステム100は、データネットワークを介してコンピュータシステム100と他のコンピュータシステムが通信できるようにする例えば有線、又は無線接続のようなネットワークインタフェース124を備える。あるいは又、コンピュータシステム100は、1つ又は複数の実施形態を実装する有線のアプリケーションに特化した装置であってもよい。
図1の例では、プロセッサ102は、オペレーティングシステム114の形式でマスストレージ112内に記憶されている命令を実装している。この例でのオペレーティングシステム114は、コンピュータシステム100のコンポーネントを利用するためにその上に実装されている様々なアプリケーションの基盤を提供する。特定の状況に関連する電子文書を見つけるために、コンピュータシステム100は、検索エンジン118、又は類似のアプリケーションを実装している。例えば、検索エンジン118は、コンピュータシステム100のユーザから入力装置110を介して直接入力された検索用語を受信可能であり、又ネットワークインタフェース122を介して受信したリモートコンピュータのユーザにより提出された検索用語を受信することもできる。
検索、及び/又は事実の抽出は、ウェッブページ、標準のワープロ文書、スプレッドシート等のような原文情報を含む1つ、又は複数の電子文書のセットに関連して発生する場合がある。これらの電子文書は、電子文書セット116としてローカルに保存される。電子文書セット126を含むネットワークベースのストレージ124のようなローカルでない場所でも、これらの電子文書は保存されることもある。ネットワークベースのストレージ124は、ローカルネットワークストレージ、インターネットのオンラインストレージの場所等を表す。ネットワークベースのストレージ124は、ネットワークインタフェース122を介してアクセスが可能である。
その上、これらの実施形態は、電子文書116,126から事実を抽出するために、プロセッサ102による実装のための論理を提供する。事実抽出ツール120は、オペレーティングシステム114のコンポーネント、検索エンジン118又は他のアプリケーションのコンポーネントとして、又は自身の独立した結果を生成することができるスタンドアローンのアプリケーションとしてのどちらかでローカルのストレージ装置112上に存在することができる。事実の抽出ツール120の実施形態により行われる論理操作は、図2から図5に関連して以下で議論する。
図1のコンピュータシステム100は、様々なコンピュータが読取り可能な媒体を備える。そのようなコンピュータが読取り可能な媒体は、コンピュータシステムを操作するための、又本明細書で議論される実施形態を実装するための命令を含む。コンピュータが読取り可能な媒体は、コンピュータ100がアクセス可能であり、揮発性と不揮発性媒体、可搬と非可般媒体の両方を含む入手可能な媒体であれば何でも良い。制限するものでなく一例として、コンピュータが読取り可能な媒体は、コンピュータストレージ媒体と通信媒体から成る。
コンピュータストレージ媒体は、コンピュータが読取り可能な命令、データ構造、プログラムモジュール、又は他のデータのような情報を保存するための如何なる方法や技術にでも実装される揮発性及び不揮発性、可搬型及び非可搬型媒体を含む。コンピュータストレージ媒体は、これに限らないが、RAM、ROM、EEPROM,フラッシュメモリ又は他のメモリ技術、CD−ROM,DVD又は他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又は他の磁気ストレージ装置、又は必要な情報を記憶するのに使用可能な、又はコンピュータシステム100がアクセス可能な他のどんな媒体でも含む。
通信媒体は、普通、コンピュータが読取り可能な命令、データ構造、プログラムモジュール、又は搬送波、又は他の輸送機構のような変調されたデータ信号内の他のデータを具体化しており、どのような情報配信媒体も含む。「変調されたデータ信号」という用語は、信号中の情報を符号化する様に設定、又は変更された一つ、又は複数のその特徴を備えた信号を意味する。制限するものでなく一例として、通信媒体は、有線ネットワーク、又は直結接続のような有線媒体、及び音響、高周波、赤外、又他の無線媒体のような無線媒体を含む。上記をどれでも組み合わせたものも、コンピュータが読取り可能な媒体の範囲内に含まれる。
図2は、事実の抽出ツール120に関連して検索エンジン118により行われる論理操作の一例を示す。この例では、検索する電子文書内に存在する事実のライブラリを生成するために、検索する前に事実の抽出ツール120が利用される。このようにして、事実を抽出するのに処理時間はかからないが、その代わりにこれらの事実は既に抽出されていて、入力された検索用語に基いて事実のライブラリから引き出されている。
論理操作は、電子文書の集合が得られるか、又はそうでなければアクセスが達成される集合操作202で開始される。例えば、最終的に検索される電子文書は、ローカルストレージに記憶されるか、オンラインアクセスを介して入手できる。事実の抽出ツール120は、次いで、これらの電子文書の各々に作用して、電子文書内にある事実の全てを抽出しようとする。事実抽出ツール120は、対応する電子文書に関連して保存され、将来検索する際のアクセスに利用可能な事実のライブラリを生成することができる。例えば、表1は関連するそのようなライブラリを示す。
Figure 0005202524
図2の操作フローについて続けると、関連する電子文書を見つけるために、特にこれらの電子文書から関連する事実を見つけるために検索しようとするユーザは、用語操作206で検索用語を検索エンジン118に入力する。この例では、次いで、検索エンジン118が検索用語を探して電子文書を検索して、文書操作208で一致する文書を見つけ出す。検索エンジンは又、検索用語と一致する電子文書から検索用語と一致する以前に抽出した事実を見つけ出し、関連する文書、又はその文書へのリンクを、関連する事実と共に表示操作210で表示する。例えば、ある検索用語はwww.sample1.comで見つけることができるかもしれないし、www.sample1.comへのリンクが事実Aと事実Bと一緒に表示されるように、その検索用語は、又事実Aと事実Bと一致することが見つけられるかもしれない。従って、ユーザは入力した検索用語に関する事実を迅速に提供される。そのような画像表示の一例を、以下図6に関連して議論する。
勿論、検索するのは電子文書そのものというよりもむしろ、過去に抽出した事実の検索だけにするという選択もできる。更に、事実を含んでいる電子文書が検索用語と一致するか否かにかかわらず、環境によっては、過去に抽出した事実が検索用語と一致する場合もある。
図3は、事実の抽出ツール120に関連して、検索エンジン118により行われる論理操作の別の例を示す。この例では、検索によって事実が見つけられるので、電子文書中に存在する事実を見つけるため、検索中に事実の抽出ツール120を利用している。このようにして、事実の抽出の事前検索は必要ないし、事実のライブラリを記憶する必要もない。そのようなシナリオでは、事実の抽出ツールは文書の断片、又は概要をスキャンして迅速な結果を提供するか、又は文書全体も又スキャンされて、可能性がある事実全てを抽出する。
ユーザが検索用語を検索エンジン118に入力する用語操作302にて論理操作が開始される。この例では、次いで、検索エンジン118は検索用語を探して電子文書を検索して、文書操作304にて一致する文書を見つける。次いで、検索用語に関連するこれらの文書から事実を抽出するために、検索によって見つけられた電子文書を解析するために、抽出操作306にて抽出ツール120が利用される。抽出操作306の結果は、表1に示すように電子文書と事実の間の関係の一時的なセットを生成することがあるが、将来発生するこれら検索用語の検索を予想して、比較的長期間に亘り記憶される可能性がある。次いで、抽出操作306で事実の抽出ツール120により返された関連する事実と一緒に、表示操作308にて検索エンジンは、関連する文書、又は関連する文書へのリンクを表示する。
図4は、事実抽出ツール120の実施形態が利用する多段アプローチを示す。最初は、事実の抽出ツール120は、認識操作402にて関係する電子文書からの事実の記述のセットを認識しようと試みる。ここで、図5を参照して下記で詳細に議論する事実−単語表への一致を見つけることに基いて、事実になりそうな記述をテキスト中で見つけることを目標とする。マッチングプロセスを迅速に行うことにより、事実を見つける際に無視すべき電子文書の多くが事実の抽出処理から削除できるし、その際精密度を上げるために使用されるそれに続く段階での効率を向上させることができる。
解析する文書のための事実の記述のセットを識別してから、次いで、抽出操作404でこの事実の記述のセットについて事実の抽出が行われる。ここで、文書全体ではなくむしろこの事実の記述のセットについてのみ更に詳細な解析が行われるので、十分な精度が実現される一方、満足できる効率が維持できる。抽出操作の解析は、事実の記述の言語成分の決定に基づく意思決定を含む。このような言語成分は、統語論の成分と、意味論等を具備する。
図5は、認識の詳細と図4の抽出操作の一例を示す。論理操作は、事実の抽出ツール120が電子文書をスキャンして、事実−単語表と一致する単語や句を見つけるスキャニング操作502で開始される。事実−単語表は、例えばある意見と反対の事実を表現する際に使われやすいと知られている単語や句のリストである。表2に簡単な例を示す。最適な処理性能を提供するためには、タグ操作504に関連して下記で議論される最適な会話の部分(POS)タグに、表の単語は関連することに注意が必要である。
Figure 0005202524
意見というよりも、事実を示唆している単語を決定するために、調査が行われている。例えば、事実を紹介する単語のクラスは、動詞の分類とその辞書的な機能に関する検索と作用を使用して得ることができる。これを実施する材料として使用することができる関連文献2つを示す。
(1)Mel’cuk(1996) 辞書機能:辞書での語彙関係を記述するためのツール In L.Wanner(ed.):辞書編集での辞書機能と自然言語処理、アムステルダム/フィラデルフィア:Benjamins,37−102.
(2)Fontenelle,T.(1997):「辞書の見出し語で重要な辞書機能を発見すること」in Cowie, AP.(ed.) 述語:理論、解析、応用、Oxford University Press,Oxford.
こうして、そのような検索を基礎として、非事実ではなくむしろ事実の表現を示唆するこれらの動詞、又は他の単語を含むように表2に示すような事実−単語リストが構築される。例えば、「発明された」又は「雇われた」という用語は、事実の表現を示唆するが、「できる」又は「不平を言う」という用語は示唆しない。事実−単語表の特殊例を、この明細書の最後にある付録Aに示す。この特殊例は、電子文書内で事実の記述を発見するために使用可能な事実−単語である動詞の網羅的でないリストである。
事実−単語表を電子文書に適用する際か、POSタグが既に事実−単語表内の単語と結び付けられているような事実−単語表の適用と平行するかどちらかで、タグ操作504にて事実の記述の各々の各単語の会話部分(POS)がタグ付けされている。このタグ付け操作504は、スキャン操作502と平行して、又は引続いて発生する可能性があるが、名詞句のような統語上の句は、事実のイベント内に含まれるエンティティになると知られていると理解されているので、動詞タグよりも名詞タグの方を支持することによるというように、複数のPOSタグを有する単語を明確に選択させることを含む。未知の、又事前にタグが付いていない単語はどれでも、この理由により名詞に戻ることがある。名詞に関しては、動詞よりも形容詞の方が同様に好まれるので(例えば、動詞としての「計画された」よりも形容詞としての「計画された」)、形容詞は事実のイベント内に含まれるエンティティとして知られる名詞句の一部であるので、形容詞と動詞のタグ両方を有する単語は形容詞に戻る。POSタグと事実−単語表の単語の関係を生成する場合、例えばこの表を作成する時に、このような明確化する選択が既に適用されている可能性があるので、例えば「計画された」が結び付けられるのは、表中の形容詞のPOSタグであり、動詞のPOSタグではない。
事実の記述が見つけられ、事実の記述の単語がPOSでタグ付けされると、次いで、事実抽出の精度を向上するために更に徹底した解析が行われるが、文書全体のこのような徹底した処理が必要になるわけではない。識別操作506では、名詞句や動詞句のような統語上の句が識別される。統語句は、従来の文法規則や簡単な言語解析を利用して識別できる。近傍にある、即ち文書中で事実の記述のセットに対して非常に局所的であるこれらの統語句が識別され、もし事実記述がそれに関連した統語句を有していなければ、対応する文章がそれ以降の考慮から除外される。こうして、事実の記述の近傍にあるこれらの統語句にのみ焦点を合せることにより、プロセスは文章全体の全ての言語成分は見ないようにしている。
更に、識別操作506では、隣り合う統語句を有する事実の記述の言語成分は、事実の記述内で識別されたパターンに基いて、対応する文章内で統語句が果たす役割を評価することにより、さらに決定される。こうして、解析しようとする現在の事実の記述を含む文内で、統語句が主語、又は目的語の役割をするか否かが、事実の記述の単語パターンから決定される。
事実の記述の言語成分が決定されると、即ち統語句とその役割が識別されれば、事実の記述のこれらの名詞句に対して除外規則が適用できて、除外操作508で事実の表現にはなりそうにないものが更に除去される。除外規則は、目的語としての統語句、主語としての統語句、又はその役割にはかかわらない統語句に基いて適用することができる。更にこの特定の実施形態では、個々の単語、統語句、又は文章全体に適用される除外規則は同じ結果に至るが、それは文章全体が事実の記述になることから除外することになる。適用可能な除外規則の一例を表3に示す。
Figure 0005202524
除外規則を適用するに際してか、又は除外規則を適用するのに平行してかのどちらかに、スコアリング操作510でスコアリング規則が適用される。様々な特徴夫々のために主語と目的語の名詞の両方にスコアリング規則は重みを与え、候補となる事実の記述のスコアの合計は、個々の特徴の重みに、一致する事実−単語の確実性スコアを合計したものになる。個々の特徴の重みは、事実を表示する場合は正であり、非事実を表示する場合は負となる。特徴と関連するスコアリング規則の例を下記表4に示す。特徴スコアは、人間の判断を使用して人手により割当てるか、自動的に習得される。
Figure 0005202524
事実の記述に対するスコアの合計を予め定義した閾値と比較して、クエリー操作512でスコアの合計が閾値を超えるか否かを判定する。閾値を超えなければ、対応する事実の記述は捨ててよい。閾値を超えれば、事実の記述、完全な文章、及び/又は完全なパラグラフ、又は他の文書部分は、表示操作514にて事実として表示される。この表示は、事実を表示すること、事実をライブラリに記憶すること等を含む。
スコアリング規則と閾値比較を利用する場合は、特徴及び/又は閾値に割り当てられる重みは、事実の抽出への全体的なアプローチを操作しないで、操作することができる。このようにして、処理ステップは同じままにして、事実の抽出と表示の精度を制御することができる。
図6は、検索の実施により得られるスクリーンショット600の一例を示す。検索用語を検索フィールド602に入力して検索を行なった。この検索用語は、インターネットで利用可能な様々なウェブサイトのリンク604に一致させた。ユーザは、普通のやりかたで電子文書にたどりつくことができる。
また、検索用語についての事実610,612,614をセクション608に表示する。また、見つけた電子文書のどれかに行かなくても、又事実を読み取って意見と区別する必要なしに、ユーザは検索の主題についての事実を迅速に見極めることができる。この特定の例では、ユーザが事実の出所に関する情報さらに与えること、及び/又はその事実が発見された背景(例えば、関連する事実、他の事実の日付等)を示すことを選択できるように、事実610,612,614はハイパーリンクを含む。
スクリーンショット600は、事実がユーザに対してどのように提示されるかの一例にすぎないということは認識されよう。図示したように、別の欄で表示するよりも、抽出元の電子文書のサブエレメントとして事実はリスト化されている。又、検索結果のページに事実をリスト化する代わりに、又はそれに加えて、特定の電子文書から抽出された事実が、ユーザがその電子文書自体を見た際に、欄又は他の場所にリスト化される。更に、表示するために事実を文書から分離する代わりに、又はそれに加えて、表示用に選択された時に、検索結果内の文書604のリスト内と、完全な電子文書内の両方で、事実を電子文書内で強調表示することができる。更にもう1つの選択肢として、選択可能なリンクだけで事実を表示して元の文書を得るようにして、その場合抽出された事実だけが検索され文書検索を完全に避けるというように検索結果とは別に事実を表示することができる。
又、抽出した事実の提示はスクリーンショット600内に示すように、ローカルユーザのための検索や事実の抽出を実装しているローカルコンピュータへの表示として提供されることは認識される。あるいは、スクリーンショット600内に示すように、抽出された事実の提示は、インターネットベースの検索エンジンの場合のように、ローカルコンピュータがリモートコンピュータの代わりに検索や事実の抽出を行うことを要求するリモートコンピュータへの表示として提供される。
従って、事実は効率的かつ正確に、ユーザに提示するために文書から抽出される。多段アプローチにより、事実の記述が発見された文章全体を詳細に解析しなくてもよいのと同様に、文書全体の詳細な解析をせずに効率を上げることができる。処理の初期段階で文書中に発見された事実の記述に関する更なる解析を利用することにより、正確さが維持される。
様々な実施形態を参照しながら、本発明を特に示して記述しているが、本発明の精神と範囲から外れることなく、形式や詳細について様々な他の変更がなされるということを、当業者は理解している。例えば、後で他の除外規則を適用する期間中よりも、事実の記述のために構文解析する際、文章の句読法に基づいた除外規則のような、事実の記述の言語的な成分に特化しないある除外規則を適用することができる。
付録A−事実単語
abase advance appear avoid
abate advertise appease awake
abort aerate apply award
abrade afford argue back
abridge aggravate arouse bail
absorb agree arrange bank
abstract aid arrest bar
accelerate aim arrive barbarize
accent air ask bare
accept allay assemble base
accredit alleviate assert batter
achieve alter asseverate beach
act amend assign beam
add amplify assuage bear
address amuse assure become
adduce animate attach befog
adjust announce attack befuddle
administer answer attenuate beget
admit antedate avert begin
begrime buy compromise damage
belch bypass conceal damp
belie canvass concede dance
bend cap conceive dangle
benumb capitalize conciliate darken
bequeath carry conclude darn
bestow cast conduct dash
betray castigate confess deaden
better castrate confide deal
bind catch confirm debase
blackleg chafe confound debauch
blanket change confuse debunk
bleach channel congeal decay
blemish chafe connect decide
blend check conserve declare
blight chill consolidate deepen
blister chime constitute deface
block chip constrain defeat
blockade chock constrict defend
blow choke continue deflate
blunder choose contort deflect
blunt churn contact deform
blur cipher control defrost
blurt circulate convert delay
bob circumvent convey delegate
bog claim cook deliver
boil clash cool demise
bolster clean cordon demonstrate
boost cleanse correct dent
bowdlerize clear corrode deny
bowl climb corrupt deplete
brace clinch counter depreciate
brand clip countersink depress
brave clog cover deprive
break close crack depute
brief clot crank derange
brighten cloud cash describe
bring cockle craze desecrate
broadcast coin create design
bruise collapse cripple designate
buckle collect crop desolate
build colour cross despoil
bull comfort crumble destroy
bunch commission crush detail
bundle commit cry detect
bung communicate curb deteriorate
burlesque compare curdle determine
burn complete curtail develop
burst compound cushion die
bury compress cut differentiate
diffuse earth exhale foil
dilute ease exhibit fold
dim eat exist follow
diminish educate expand force
direct effect expedite forge
dirty elevate explain forgive
disable elicit expose form
disappear elude expound foster
discharge emancipate express foul
discipline embellish extend found
disclose embitter extinguish frame
discolor embody extort fray
disconnect emit extract free
discontinue emphasize fabricate freeze
discover enable face frustrate
discuss encourage fade furl
disfigure end fail furnish
disguise endorse fake furrow
dislocate endow fall fuse
dislodge enforce falsify gain
dismantle engage familiarize gallop
dismount enhance fasten garble
disorder enjoin father gash
dispatch enlarge fatten generate
dispense enliven feature gerrymander
disperse ennoble feed get
display enrich ferry give
dispute enroll fertilize gladden
disrupt enshrine festoon glorify
distil entail fiddle gloss
distinguish entangle fight glut
distort enthrone fill go
disturb entrust filter govern
divert enunciate finalize grade
divide epitomize find graduate
dock equalize finish grant
doctor erect fire grate
dodge escalate fit graze
double establish fix ground
douse evade flag group
draft evaporate flash grow
dramatize evince flaunt guide
draw evoke flay halt
dredge exacerbate float halve
dress exact flood hamper
drive exaggerate floodlight handle
drop examine flourish happen
drown exasperate flush harass
duff exceed fly harbour
dull excite fog harden
harm instigate link navigate
harmonize instill listen neaten
harry institute litter nick
hasten integrate live nip
hatch intend liven notch
head intensify load notice
heal interpolate lock nourish
hear interrupt loose nurse
heat intimate loosen obfuscate
heighten introduce lose obscure
help invert lower obstruct
hide invigorate lump obtain
hit invite magnify occupy
hoard invoke maintain occur
hoist involve make offend
hold issue manage offer
hope jab mangle open
hound jam manipulate operate
hurt jettison manufacture oppose
identify jingle mark order
illuminate join marshal originate
imagine jumble mask outline
impair jump match overcharge
impart justify matter overdo
impeach keep maul overflow
impede kick measure overturn
imperil kill meet overwork
implant kindle mellow pacify
improve knock melt pack
inaugurate lacerate mend pad
increase ladder mention panic
indent lance mildew paralyze
indenture land mind pare
indicate laugh misrepresent parley
induce launch miss parole
induct lay mist parry
infect layer mitigate part
infiltrate lead modify partition
infix leave mollify pass
inflame lend moot patch
inflate lengthen mould pay
inflict lessen move peal
influence let muddle peddle
inform level muddy peg
infuse liberate muffle penalize
initial lie muss perform
initiate light muster perish
injure lighten mute persecute
insert limit mutilate pervert
inspire line narrow phrase
pick prove refuse rock
pillow provide regard roll
pique provoke register rotate
pit prune regulate rouse
placard publicize rehabilitate row
place publish rehearse ruffle
plan pull reinforce ruin
plant pulp reissue rumple
play punch reject run
pluck puncture rekindle rush
plug punish relate rustle
plunge punt relax sail
point purge release salvage
poison push relieve sap
pole put reline save
polish qualify remould scald
poll quarter remove scold
pool quench rend score
pop question renew scotch
pose quicken renovate scratch
position quieten reopen scream
post quilt repair scuff
pound race replace scupper
preach raise report scuttle
precipitate ransack republish seal
predate rap require sear
prefer rationalize rerun seat
prejudice rattle reseat secure
preoccupy re-engage resist see
prepare re-establish rest sell
present re-form restart send
preserve read restore serve
prettify rear restrain set
prevent reawaken result settle
prick recall resurrect server
prime receive retail shake
proclaim reclaim retain shame
procure recline retire sharpen
produce recognize retract shatter
profess recommend retrench sheathe
programme reconcile retrieve shed
promote reconsider return shelter
promulgate record reveal shield
prop recruit reverse shift
propagandize reduce revive shine
propel refer rewind shingle
profound refine right shirk
prosecute reflect ring shoot
protect refloat rise shorten
protest reform roast shout
show spoil subvert trample
shrink sponsor succeed transfer
shut sport suffer transplant
sift spot suggest trap
sign spout suit travel
signal sprain summarize treat
signalize spray supplement trigger
signify spread supply trim
simmer spring support truss
sing square suppose try
singe squash suppress tumble
sink squeeze surface turn
sit stack surrender twang
site staff survive twiddle
situate stain suspend twirl
skirt stalemate sustain twist
slacken stall sweep unblock
slake stamp sweeten unburden
slash stand swell unclog
sleep star swing undo
slice starch swish unfasten
slip start taint unfix
slow staunch tarnish unfold
smear stay task unhinge
smile steady teach unhitch
smudge steer tear unite
snag stem telephone unloose
snap step temper unravel
snarl stick tend unsaddle
snuff stiffen thank unseat
sober still thaw unsex
soften stir thin unstop
soil stoke thrill untangle
solace stop throw untwist
solidify store thrust uphold
soothe straighten thump upset
sort strain thwart urge
sound strand tidy use
sour strengthen tighten validate
sow stress toll vandalize
spare stretch tootle veer
spark strike topple veil
speak strip torment ventilate
speck strum torture vocalize
speed study total voice
spill stuff touch vote
spin stultify toughen vulgarize
splinter stunt tousle waft
spilt subdue tow waggle
splodge subscribe train wake
walk wear wilt work
wangle weave win worry
warm weep wind wreak
warn weld wing wreck
warp whet wipe wrest
warrant whirl wire wring
wash whitewash wish wrinkle
watch widen withdraw write
weaken wield wither yield
wean wiggle withhold

Claims (20)

  1. 電子リソース内で意見と事実との区別をプロセッサにより実施するコンピュータ実装方法であって、
    検索用語を受け取ること、
    前記検索用語に一致する関連する電子リソースを発見すること、
    前記検索用語に一致する単語を含む前記関連する電子リソースのリスト及び前記リスト内の前記電子リソースの断片を表示すること、
    前記検索用語と、事実の表現を示唆するように判定された動詞のリストを含むように構成された事実−単語表に一致する1以上の動詞とからなる文書の事実の記述を発見するために、関連する電子リソースをスキャンすること、
    前記関連する電子リソースの部分であって、前記検索用語と前記事実−単語表の単語と一致しない単語を含む部分を事実の抽出処理から、削除すること、
    前記関連する電子リソースの部分を削除することの後に、前記事実の記述の言語成分を識別するために、前記発見した事実の記述を調査すること、
    前記識別した言語成分に基づいた事実として事実の記述を提示するか否かを決定すること、
    前記検索用語と、前記検索用語に関連する事実であると判定された事実の記述とを含む文書の少なくとも一部を表現すること
    から成ることを特徴とする方法。
  2. 前記識別した言語成分に基づいた事実として事実の記述を提示するか否かを決定することは、
    ある事実の記述を考慮からはずすために、前記事実の記述の前記言語成分に関する除外規則を適用すること、
    前記事実の記述にスコアをつけること、
    考慮するために残っている事実の記述の各々の前記スコアを閾値と比較すること、
    前記閾値を超えるスコアを有する事実の記述の各々に対して、事実として前記事実の記述を含む文章の少なくとも一部を提示すること
    から成ることを特徴とする請求項1に記載の方法。
  3. 更に会話の部分と共に前記事実の記載の単語にタグを付けることから成ることを特徴とする請求項2に記載の方法。
  4. 会話の部分と共に前記事実の記載の単語にタグを付けることは、単語が動詞か名詞のいずれかであるとき、名詞タグを適用することから成ることを特徴とする請求項3に記載の方法。
  5. 前記除外規則を適用することは、主語の役目を有する統語上の句のための規則の第1のセットを適用することと、目的語の役目を有する統語上の句のための規則の第2のセットを適用することから成ることを特徴とする請求項4に記載の方法。
  6. 規則の前記第1のセットを適用することは、主語又は目的語の意見又は偏った修飾語句を有する名詞句を除外することから成ることを特徴とする請求項5に記載の方法。
  7. 規則の前記第2のセットを適用することは、
    固有名詞でない限定記述を含む主語名詞句を除外すること、
    代名詞を含む名詞句を除外すること、文書の冒頭に現れない主語名詞句を除外することから成ることを特徴とする請求項5に記載の方法。
  8. 前記名詞句の役目に関係なく、更に規則の第3のセットを適用することから成ることを特徴とする請求項5に記載の方法。
  9. 規則の前記第3のセットを適用することは、前記文章の句読点が疑問符である事実の記述を除外することと、ストップワードを含む句を有する文章を除外することから成ることを特徴とする請求項8に記載の方法。
  10. 前記事実の記述にスコアを付けることは、前記除外規則の適用後、又は適用中のどちらかに考慮するために残っているこれらの事実の記述だけにスコアを付けることから成ることを特徴とする請求項2に記載の方法。
  11. コンピュータストレージ媒体であって、
    検索用語を受け取ること、
    前記検索用語に一致する関連する電子リソースを発見すること、
    前記検索用語に一致する単語を含む前記関連する電子リソースのリスト及び前記リスト内の前記電子リソースの断片を表示すること、
    前記検索用語と、事実の表現を示唆するように判定された動詞のリストを含むように構成された事実−単語表の単語に一致する1以上の動詞とからなる文書の事実の記述を発見するために、複数の関連する電子文書を構文解析すること、
    前記関連する電子リソースの部分であって、前記検索用語と前記事実−単語表の単語と一致しない単語を含む部分を事実の抽出処理から、削除すること、
    前記関連する電子文書の部分を削除することの後に、前記事実の記述の言語成分を識別するために、前記発見した事実の記述を調査すること、
    前記言語成分に関する候補となる事実の記述に除外規則を適用することにより、前記識別した言語成分に基づいた前記検索用語に関連する事実として事実の記述を提示するか否かを決定すること、
    一致する事実−単語表に基づき、かつ、主語と目的語の個々の重みに基づき、候補となる事実の記述をスコアリングすること、
    前記除外規則および事実の記述のスコアリングに従って、前記候補となる事実の記述を考慮からはずすこと、
    前記検索用語と、前記検索用語に関連する事実であると判定された事実の記述とを含む文書の少なくとも一部を表現すること
    から成ることを特徴とする行為を、プロセッサに実行させる実行可能プログラム命令を含むコンピュータストレージ媒体。
  12. 前記行為は、さらに電子文書の集合を検索して、前記検索用語を含むこれらの文書を発見することにより前記複数の文書を得ることから成り、
    前記集合は、前記複数の電子文書を解析する前に前記検索用語を含むこれらの文書を発見するために検索されること
    を特徴とする請求項11に記載のコンピュータストレージ媒体。
  13. 前記行為は、さらに前記電子文書を入手して前記検索用語を受け取る前に事実の記述を提示すること、又前記電子文書と事実の記述を検索して、これらの電子文書と前記検索用語に関連する対応する事実の記述を見つけることから成ることを特徴とする請求項11に記載のコンピュータストレージ媒体。
  14. 前記行為は、さらに考慮するために残っている事実の記述の各々の前記スコアを閾値に対して比較すること、
    前記検索用語を含み、前記閾値を超えるスコアを有する電子文書から取られた事実の記述の各々に対して、前記検索用語に関連する事実として前記事実の記述を含む前記文章の少なくとも一部を提示することから成ることを特徴とする請求項11に記載のコンピュータストレージ媒体。
  15. 前記事実の記述にスコアを付けることは、前記除外規則を適用した後に考慮するために残っているこれらの事実の記述にだけスコアをつけること
    から成ることを特徴とする請求項14に記載のコンピュータストレージ媒体。
  16. 本文情報から成る複数の電子リソースを含むストレージと、
    プロセッサとから成るコンピュータシステムであって、
    前記プロセッサは、検索用語を受け取り、前記検索用語と一致する関連する電子リソースを発見し、前記検索用語に一致する単語を含む前記関連する電子リソースのリスト及び前記リスト内の前記電子リソースの断片を表示し、電子文書のセットから前記検索用語に関する事実を提示するための要求を受け取り、前記検索用語と、事実の表現を示唆するように判定された動詞のリストを含むように構成された事実−単語表の単語に一致する1以上の動詞とからなる文書の事実の記述を発見するために、前記関連する電子文書を構文解析し、前記関連する電子リソースの部分であって、前記検索用語と前記事実−単語表の単語と一致しない単語を含む部分を事実の抽出処理から、削除すること、前記関連する電子文書の部分を削除した後に、前記事実の記述の言語成分を識別するために、前記発見した事実の記述を調査し、前記識別した言語成分に基づいた事実として事実の記述を提示するか否かを決定し、前記事実として提示されると判定された事実の記述と、前記検索用語に関連する事実の記述とを含む文書の少なくとも一部を表現する
    ことを特徴とするコンピュータシステム。
  17. 表示装置を更に備え、前記表示装置上に前記文章の少なくとも前記部分を表示することにより、前記プロセッサが前記文章の少なくとも前記部分を提示することを特徴とする請求項16に記載のコンピュータシステム。
  18. ネットワークインタフェースを更に備え、前記ネットワークインタフェースを介してこれらの部分を他のコンピュータに出力することにより、前記プロセッサが前記文章の少なくとも前記部分を提示することを特徴とする請求項16に記載のコンピュータシステム。
  19. ネットワークインタフェースを更に備え、前記ストレージは前記ネットワークインタフェースを介して前記プロセッサによりアクセス可能なことを特徴とする請求項16に記載のコンピュータシステム。
  20. 前記事実の記述の前記言語成分に関連して除外規則を適用して前記事実の記述の一部を考慮から外すこと、
    前記事実の記述にスコアを付けること、
    閾値に対して考慮するために残存する事実の記述の各々のスコアを比較すること、
    前記検索用語を含み、前記閾値を超えるスコアを有する事実の記述の各々に対して、前記検索用語に関連する事実として前記事実の記述を含む前記文章の少なくとも前記部分を提示すること、
    により、事実として事実の記述を提示するか否かを前記プロセッサが決定することを特徴とする請求項16に記載のコンピュータシステム。
JP2009522777A 2006-07-31 2007-07-20 多段アプローチを使用した事実の抽出の最適化 Active JP5202524B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/496,650 US7668791B2 (en) 2006-07-31 2006-07-31 Distinguishing facts from opinions using a multi-stage approach
US11/496,650 2006-07-31
PCT/US2007/016435 WO2008016491A1 (en) 2006-07-31 2007-07-20 Optimization of fact extraction using a multi-stage approach

Publications (3)

Publication Number Publication Date
JP2009545808A JP2009545808A (ja) 2009-12-24
JP2009545808A5 JP2009545808A5 (ja) 2010-09-09
JP5202524B2 true JP5202524B2 (ja) 2013-06-05

Family

ID=38987573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009522777A Active JP5202524B2 (ja) 2006-07-31 2007-07-20 多段アプローチを使用した事実の抽出の最適化

Country Status (10)

Country Link
US (1) US7668791B2 (ja)
EP (1) EP2050019A4 (ja)
JP (1) JP5202524B2 (ja)
AU (1) AU2007281638B2 (ja)
BR (1) BRPI0714311A2 (ja)
MX (1) MX2009000588A (ja)
NO (1) NO20085387L (ja)
RU (1) RU2451999C2 (ja)
TW (1) TWI431493B (ja)
WO (1) WO2008016491A1 (ja)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269875B1 (en) * 2003-11-19 2007-09-18 David Brian Grimes Cleaning apparatus
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US8671341B1 (en) * 2007-01-05 2014-03-11 Linguastat, Inc. Systems and methods for identifying claims associated with electronic text
US8190628B1 (en) * 2007-11-30 2012-05-29 Google Inc. Phrase generation
TWI544349B (zh) 2008-06-13 2016-08-01 尼爾 揚 可分類與可更新之編譯及封存平台以及其使用
US20110231387A1 (en) * 2010-03-22 2011-09-22 Yahoo! Inc. Engaging content provision
US8719692B2 (en) * 2011-03-11 2014-05-06 Microsoft Corporation Validation, rejection, and modification of automatically generated document annotations
US8812301B2 (en) * 2011-09-26 2014-08-19 Xerox Corporation Linguistically-adapted structural query annotation
CN102929934A (zh) * 2012-09-25 2013-02-13 东莞宇龙通信科技有限公司 照片信息显示的方法及移动终端
US10922326B2 (en) * 2012-11-27 2021-02-16 Google Llc Triggering knowledge panels
US10289653B2 (en) 2013-03-15 2019-05-14 International Business Machines Corporation Adapting tabular data for narration
USD805535S1 (en) 2013-06-04 2017-12-19 Abbyy Production Llc Display screen or portion thereof with a transitional graphical user interface
USD802609S1 (en) 2013-06-04 2017-11-14 Abbyy Production Llc Display screen with graphical user interface
US9164977B2 (en) 2013-06-24 2015-10-20 International Business Machines Corporation Error correction in tables using discovered functional dependencies
US9600461B2 (en) 2013-07-01 2017-03-21 International Business Machines Corporation Discovering relationships in tabular data
US9830314B2 (en) 2013-11-18 2017-11-28 International Business Machines Corporation Error correction in tables using a question and answer system
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
RU2665239C2 (ru) 2014-01-15 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое извлечение именованных сущностей из текста
US10331782B2 (en) 2014-11-19 2019-06-25 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for automatic identification of potential material facts in documents
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
RU2592396C1 (ru) 2015-02-03 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система для машинного извлечения и интерпретации текстовой информации
RU2610241C2 (ru) 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US10095740B2 (en) * 2015-08-25 2018-10-09 International Business Machines Corporation Selective fact generation from table data in a cognitive system
CN105260091B (zh) * 2015-09-07 2019-06-21 努比亚技术有限公司 照片处理方法及装置
US10776587B2 (en) * 2016-07-11 2020-09-15 International Business Machines Corporation Claim generation
RU2637992C1 (ru) * 2016-08-25 2017-12-08 Общество с ограниченной ответственностью "Аби Продакшн" Способ извлечения фактов из текстов на естественном языке
CN106648390B (zh) * 2016-12-05 2018-12-21 网易(杭州)网络有限公司 一种控制指令生成方法、装置及移动终端
CN106649786B (zh) * 2016-12-28 2020-04-07 北京百度网讯科技有限公司 基于深度问答的答案检索方法及装置
CN106924963B (zh) * 2017-04-26 2023-06-27 温州大学 一种视力听力康复训练娱乐打靶机
CN108038263A (zh) * 2017-11-15 2018-05-15 南京邮电大学 考虑性能相关结构不确定的芯片多元参数成品率预测方法
CN108257380B (zh) * 2017-12-05 2020-11-10 北京掌行通信息技术有限公司 一种基于路况信息检测拥堵事件的方法及系统
US10303771B1 (en) * 2018-02-14 2019-05-28 Capital One Services, Llc Utilizing machine learning models to identify insights in a document
CN109344993B (zh) * 2018-08-23 2021-08-24 江西省水利科学研究院 一种基于条件概率分布的河道洪峰水位预报方法
CN111026597B (zh) * 2019-01-31 2023-12-26 安天科技集团股份有限公司 一种芯片隐藏存储空间的检测方法、装置及存储介质
CN110007589B (zh) * 2019-02-26 2021-05-18 湖南盛世威得科技有限公司 一种具有火灾自动求救功能的智能手表
CN110057634B (zh) * 2019-04-11 2021-09-07 东北石油大学 一种制造岩心裂缝的装置及方法
CN111858225A (zh) * 2019-04-28 2020-10-30 中国移动通信集团上海有限公司 延时预测方法、装置、设备及计算机存储介质
CN111090785A (zh) * 2019-06-10 2020-05-01 工盒(嘉兴)网络技术有限公司 一种紧固云系统
CN110597108B (zh) * 2019-08-23 2021-12-21 广州电力设计院有限公司 电缆隧道区域控制系统、控制方法、装置及计算机设备
CN110737010B (zh) * 2019-09-19 2021-11-16 西安空间无线电技术研究所 一种基于低轨通信卫星的安全定位授时信号生成系统
CN111078849B (zh) * 2019-12-02 2023-07-25 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111126057B (zh) * 2019-12-09 2023-08-01 航天科工网络信息发展有限公司 一种分级神经网络的案件情节精准量刑系统
DE102020103941A1 (de) * 2020-02-14 2021-08-19 Grimme Landmaschinenfabrik Gmbh & Co. Kg Verfahren zum Betrieb einer Maschine zum Ernten und/oder Trennen von Hackfrüchten, zugehörige Maschine und zugehöriges Computerprogrammprodukt
CN111526397A (zh) * 2020-03-30 2020-08-11 深圳市懿美莱科技有限公司 一种智能家庭网络播放器
JP2021164005A (ja) * 2020-03-30 2021-10-11 Kddi株式会社 画像復号装置、画像復号方法及びプログラム
CN111836065B (zh) * 2020-07-14 2022-04-29 北京场景互娱传媒科技有限公司 一种直播商标自动隐藏的智能方法
CN111882828B (zh) * 2020-07-22 2021-08-20 淮北智淮科技有限公司 一种防滑坡预警装置及其使用方法
CN112182895B (zh) * 2020-10-10 2022-08-23 中际联合(天津)科技有限公司 一种风机塔筒爬梯及防坠落布置方案图的自动分析方法
CN112890771B (zh) * 2021-01-14 2022-08-26 四川写正智能科技有限公司 一种基于毫米波雷达传感器监测睡眠状态的儿童手表
US11687539B2 (en) 2021-03-17 2023-06-27 International Business Machines Corporation Automatic neutral point of view content generation
US11972210B2 (en) * 2021-05-13 2024-04-30 Motorola Solutions, Inc. System and method for predicting a penal code and modifying an annotation based on the prediction
CN115191786B (zh) * 2022-08-04 2023-12-19 慕思健康睡眠股份有限公司 一种控制方法、装置、设备和存储介质
CN115432851B (zh) * 2022-08-23 2023-06-23 长兴瑷晟环保装备有限公司 一种高效混凝水力空化一体机
CN118278385B (zh) * 2024-05-29 2024-09-17 暗物智能科技(广州)有限公司 一种基于篇章卷面分析的测试方法、装置及可读存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5519608A (en) 1993-06-24 1996-05-21 Xerox Corporation Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation
JPH0756933A (ja) 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
US5331556A (en) 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
US5715468A (en) 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
JP2000029902A (ja) * 1998-07-15 2000-01-28 Nec Corp 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体
US6167370A (en) 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6741986B2 (en) 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US6665661B1 (en) 2000-09-29 2003-12-16 Battelle Memorial Institute System and method for use in text analysis of documents and records
JP4630480B2 (ja) * 2001-03-19 2011-02-09 株式会社東芝 要約抽出プログラム、文書分析支援プログラム、要約抽出方法、文書分析支援方法、文書分析支援システム
JP2001357064A (ja) * 2001-04-09 2001-12-26 Toshiba Corp 情報共有支援システム
US9009590B2 (en) 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US7526425B2 (en) 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
WO2003027894A1 (en) 2001-09-26 2003-04-03 The Trustees Of Columbia University In The City Of New York System and method of generating dictionary entries
US7426509B2 (en) * 2002-11-15 2008-09-16 Justsystems Evans Research, Inc. Method and apparatus for document filtering using ensemble filters
WO2004072780A2 (en) 2003-02-05 2004-08-26 Verint Systems, Inc. Method for automatic and semi-automatic classification and clustering of non-deterministic texts
RU2236699C1 (ru) * 2003-02-25 2004-09-20 Открытое акционерное общество "Телепортал. Ру" Способ поиска и выборки информации с повышенной релевантностью
KR100515641B1 (ko) * 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
US7496500B2 (en) 2004-03-01 2009-02-24 Microsoft Corporation Systems and methods that determine intent of data and respond to the data based on the intent
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US20070027860A1 (en) * 2005-07-28 2007-02-01 International Business Machines Corporation Method and apparatus for eliminating partitions of a database table from a join query using implicit limitations on a partition key value
US7376551B2 (en) 2005-08-01 2008-05-20 Microsoft Corporation Definition extraction

Also Published As

Publication number Publication date
US7668791B2 (en) 2010-02-23
EP2050019A1 (en) 2009-04-22
AU2007281638A1 (en) 2008-02-07
MX2009000588A (es) 2009-01-27
BRPI0714311A2 (pt) 2013-04-24
TWI431493B (zh) 2014-03-21
TW200817947A (en) 2008-04-16
NO20085387L (no) 2009-01-19
US20080027888A1 (en) 2008-01-31
EP2050019A4 (en) 2012-03-21
AU2007281638B2 (en) 2011-10-06
WO2008016491A1 (en) 2008-02-07
RU2451999C2 (ru) 2012-05-27
RU2009103145A (ru) 2010-08-10
JP2009545808A (ja) 2009-12-24

Similar Documents

Publication Publication Date Title
JP5202524B2 (ja) 多段アプローチを使用した事実の抽出の最適化
Foraker et al. The role of prominence in pronoun resolution: Active versus passive representations
Newman et al. Refining targeted syntactic evaluation of language models
JP2009545808A5 (ja)
Poesio et al. Identifying concept attributes using a classifier
Oostdijk et al. N-gram-based recognition of threatening tweets
Frisson et al. Phonological and orthographic overlap effects in fast and masked priming
Kockelman The anthropology of intensity: Language, culture, and environment
Joanis Automatic verb classification using a general feature space
Sotudeh et al. Comparing discrimination powers of text and citation-based context types
Hudson The Empire in the epitome: Florus and the conquest of historiography
Considine Current projects in historical lexicography
Sundström How not to write a thesis or dissertation: a guide to success through failure
Forgács Grammaticalisation and preverbs
Smith et al. The semantics of winning and losing1
Hu et al. Inflation Metaphor in Contemporary American English.
Mapunda “Simba yagongwa”: metaphors in soccer reporting headlines in Tanzania’s Uhuru Swahili daily
Shao et al. The blurring of the boundaries: changes in verb/noun heterosemy in Recent English
Klein Corpus Development Methodologies in Service of a Microtheory of Metaphor
Kostusiak et al. Media Language of Modern Football: Dynamic and Communicative-Intentional Dimensions
Kamp Statistical modeling at the syntax-semantics interface: exploiting automatically induced lexical classes evaluated through variational Bayesian inference
Schafroth Verb Formation by Means of Suffixes in the Romance Languages
Cha et al. SentenceLDA: Discriminative and Robust Document Representation with Sentence Level Topic Model
Wehrle Frenzy: Babe Ruth's Much Ballyhooed Premier Season with the New York Yankees
Nadler-Akirav The Literary-Historical Approach of Yefet Ben ‘Eli the Karaite in His Commentary of the Book of Amos

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100720

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130212

R150 Certificate of patent or registration of utility model

Ref document number: 5202524

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160222

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250