JP2007537515A - 情報を取り出すためのシステムと方法および情報を保存するためのシステムと方法 - Google Patents

情報を取り出すためのシステムと方法および情報を保存するためのシステムと方法 Download PDF

Info

Publication number
JP2007537515A
JP2007537515A JP2007511779A JP2007511779A JP2007537515A JP 2007537515 A JP2007537515 A JP 2007537515A JP 2007511779 A JP2007511779 A JP 2007511779A JP 2007511779 A JP2007511779 A JP 2007511779A JP 2007537515 A JP2007537515 A JP 2007537515A
Authority
JP
Japan
Prior art keywords
record
statement
information
language statement
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007511779A
Other languages
English (en)
Inventor
ロジャーズ,ロバート,ジョン
Original Assignee
ロジャーズ,ロバート,ジョン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2004902570A external-priority patent/AU2004902570A0/en
Application filed by ロジャーズ,ロバート,ジョン filed Critical ロジャーズ,ロバート,ジョン
Publication of JP2007537515A publication Critical patent/JP2007537515A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

情報を取り出すためのシステムであって、このシステムは、ステートメントを取得するために配置される入力手段と、ステートメントの構成要素に基づいて第1のレコードを選択し、第1のレコードを参照する第2のレコードを選択し、第2のレコードを調べて、第3のレコードを識別し、かつ第3のレコードを用いて情報を取り出す、ために配置される処理手段と、を備える。
【選択図】図1

Description

本発明は、概ね情報を取り出すためのシステムと方法および情報を保存するためのシステムと方法に関するものである。本発明は、特定の、しかし、決して唯一のものではない、コンピュータシステム内に保存された情報を管理するアプリケーションを有する。
現在の情報管理システムは、事前に決められた情報構造に基づいて情報を管理(例えば、情報の取り出しまたは保存)するように設計されている。事前に決められた情報構造は多くの異なったフィールドを備え、それは情報の特定の形式を代表するために使用される。例えば、1つのフィールドが、人の電話番号を保存するために使用することができるのに対して、別のフィールドは人の住所を保存するために使用することができる。事前に決められた情報構造を使用することに関連する問題は、フィールドが特定の形式の情報を代表することに割り当てられていない限り、その事前に決められた情報構造内に、容易にその特定の形式の情報を保存することが困難な可能性がある、ということである。例えば、人の連絡先(例えば電話番号および住所)を管理するように設計されている既存のシステムは、概ね、人の医療の詳細を保存する能力を持たない。これは、主として人の連絡先を管理するように設計されたシステムに使用される事前に決められた情報構造が、医療記録を保存するために割り当てられたフィールドを持たないという事実による。
事前に決められた情報構造を使用することと関連する上記の問題に対処するために、2つの可能なオプションがある。第1のオプションは、事前に決められたデータ構造が必要なフィールドを備えるように修正された情報管理システムを持つことである。第2のオプションは、既存の情報管理システムを、必要情報を管理することができる新しいシステムに置き換えることである。残念なことに、それらに多大なコストを伴う恐れがあり、かつ、システムダウンタイムが生じるという結果になる恐れがあるので、これらの2つのオプションは一般に望ましくない。
本発明の第1の態様に従って、情報を取り出すためのシステムが提供され、このシステムは、ステートメントを取得するために配置される入力手段と、ステートメントの構成要素に基づいて第1のレコードを選択し、第1のレコードを参照する第2のレコードを選択し、第2のレコードを調べて、第3のレコードを識別し、かつ第3のレコードを用いて情報を取り出す、ために配置される処理手段と、を備える。
好ましくは、処理手段は、構成要素に対応する情報を備える第4のレコードを検出し、第4のレコードの識別子を取得し、かつ第1のレコードが識別子を備えるかどうか判定する、ことによって第1のレコードを選択するために配置され、それが識別子を備えると判定された場合に、第1のレコードが選択される。
好ましくは、処理手段は、第3のレコードを調べて、少なくとも一つの第5のレコードを識別し、かつこの少なくとも一つの第5のレコードから情報を取得すること、によって情報を取り出すために配置される。
好ましくは、入力手段は、自然言語ステートメントを受け取るために配置されるインタフェースと、自然言語ステートメントの構文解析に基づいて中間言語ステートメントを作成するために配置される構文解析プログラムと、を備え、処理手段は、ステートメントとして中間言語ステートメントを使用するために配置される。
好ましくは、第3のレコードは、第1のレコードと関連づけられる。
好ましくは、第1、第2、第3、第4、および、第5のレコードは、単一表内に含まれる。
本発明の第2の態様に従って、情報を保存するためのシステムが提供され、このシステムは、ステートメントを取得するために配置される入力手段と、ステートメントの構成要素に基づいて識別される第1のレコードを作成し、第1のレコードを参照し、かつ第3のレコードを識別するために調べることができる第2のレコードを作成し、かつ情報を取り出すために使用されるように、第3のレコードを配置する、ために配置される処理手段と、を備える。
好ましくは、処理手段は、構成要素に対応する情報を備える第4のレコードを作成し、第4のレコードの識別子を取得し、かつ識別子を備えるように第1のレコードを設定する、ことによって第1のレコードを作成するために配置される。
好ましくは、処理手段は、少なくとも一つの第5のレコードを識別するために調べることができるように、第3のレコードを配置するために配置され、処理手段は、情報を備えるように、第5のレコードを作成するために配置される。
好ましくは、入力手段は、自然言語ステートメントを受け取るために配置されるインタフェースと、自然言語ステートメントの構文解析に基づいて中間言語ステートメントを作成するために配置される構文解析プログラムと、を備え、処理手段は、ステートメントとして中間言語ステートメントを使用するために配置される。
好ましくは、第3のレコードは、第1のレコードと関連づけられる。
好ましくは、第1、第2、第3、第4、および、第5のレコードは、単一表内に含まれる。
本発明の第3の態様に従って、情報を取り出す方法が提供され、この方法は次の諸ステップ、すなわち、ステートメントを取得するステップと、ステートメントの構成要素に基づいて第1のレコードを選択するステップと、第1のレコードを参照する第2のレコードを選択するステップと、第2のレコードを調べて第3のレコードを識別するステップと、第3のレコードを用いて情報を取り出すステップと、を備える。
好ましくは、第1のレコードを選択するステップは、次の諸ステップ、すなわち、構成要素に対応する情報を備える第4のレコードを検出するステップと、第4のレコードの識別子を取得するステップと、第1のレコードが識別子を備えるかどうか判定するステップと、を備え、それが識別子を備えると判定された場合に、第1のレコードが選択される。
好ましくは、情報を取り出すステップは、第3のレコードを調べて少なくとも一つの第5のレコードを識別するステップと、この少なくとも一つの第5のレコードから情報を取得するステップと、を備える。
好ましくは、ステートメントを取得するステップは、自然言語ステートメントを受け取るステップと、自然言語ステートメントの構文解析に基づいて中間言語ステートメントを作成するステップと、ステートメントとして中間言語ステートメントを使用するステップと、を備える。
好ましくは、第3のレコードは、第1のレコードと関連づけられる。
好ましくは、第1、第2、第3、第4、および、第5のレコードは、単一表内に含まれる。
本発明の第4の態様に従って、情報を保存する方法が提供され、この方法は次の諸ステップ、すなわち、ステートメントを取得するステップと、ステートメントの構成要素に基づいて識別することができる第1のレコードを作成するステップと、第1のレコードを参照し、かつ第3のレコードを識別するために調べることができる第2のレコードを作成するステップと、情報を取り出すために使用されるように、第3のレコードを配置するステップと、を備える。
好ましくは、第1のレコードを作成するステップは、構成要素に対応する情報を備える第4のレコードを作成するステップと、第4のレコードの識別子を取得するステップと、それが識別子を備えるように第1のレコードを設定するステップと、を備える。
好ましくは、第3のレコードを配置するステップは、次の諸ステップ、すなわち、それが少なくとも一つの第5のレコードを識別するように、第3のレコードを配置するステップと、それが情報を備えるように、第5のレコードを配置するステップと、を備える。
好ましくは、ステートメントを取得するステップは、自然言語ステートメントを受け取るステップと、自然言語ステートメントの構文解析に基づいて中間言語ステートメントを作成するステップと、ステートメントとして中間言語ステートメントを使用するステップと、を備える。
好ましくは、第3のレコードは、第1のレコードと関連づけられる。
好ましくは、第1、第2、第3、第4、および、第5のレコードは、単一表内に含まれる。
本発明の第5の態様に従って、コンピュータに、本発明の第3のまたは第4の態様に従う方法を実施させるための少なくとも一つの命令を備えるコンピュータプログラムが、提供される。
本発明の第6の態様に従って、本発明の第5の態様に従うコンピュータプログラムを備える計算機可読の媒体が、提供される。
図1は、本発明の一実施態様を例示する。この実施態様は、Microsoft Windowsオペレーティングシステムをインストールされているパーソナルコンピュータ1を備える。このオペレーティングシステムに加えて、このパーソナルコンピュータ1は、情報を管理するためにコンピュータ1のユーザーによって使用される情報管理ソフトウェアが、インストールされている。この情報管理ソフトウェアは、例えば一群の人々の連絡先詳細または一組の医療記録などの多様な範囲の情報を管理するために使用することができるようなものである。
この情報管理ソフトウェアはグラフィカルユーザーインタフェース(GUI)の形でインタフェース3を表示するように使用可能な第1のモジュールを備え、それは図2内に例示されている。インタフェース3はダイアログボックス5を備え、ユーザーはコンピュータ1に接続されたキーボード7を使用して、自然言語ステートメントで、それを入力することができる。この情報管理ソフトウェアは、様々な言語で自然言語ステートメントを受け取る能力を持つようなものである。自然言語ステートメントの実例は、「私の自動車登録は、2005年4月15日に予定されている」または、「私の自動車更新は、いつ予定されているか?」であってもよい。本発明の実施態様の独特の側面の一つは、ユーザーが自然言語ステートメントを使用して情報を管理することができる点であり、それは、使いやすい利点を提供し、かつ情報を管理するために特別なコンピュータ言語を学ばなければならないという望ましくない要求を回避する。
この情報管理ソフトウェアは、インタフェース3によって受け取られる自然言語ステートメントを解析するための構文解析プログラムとして機能するように使用可能な第2のモジュールを備える。構文解析プログラムは、基本的に、自然言語ステートメントの構文解析から、中間言語ステートメントを作成するように使用可能である。中間言語ステートメントを作成するために、構文解析プログラムは、自然言語ステートメントを、主語、および、述語に解析することができ、主語および目的語内の名詞および性質形容詞、同じく動詞、およびそれが意味する関係の形式を識別する。
自然言語ステートメントを解析することができることに加えて、第2のモジュールは、入力(自然言語ステートメント)が中間言語ステートメントに正確に変換されるように、自然言語ステートメント内のパターンを認識し、かつ、データの形式を推論するためにそのパターンを使用する能力を持つ。この情報管理ソフトウェアは、パターン定義が知識ベース(それは、明細書の以下の段落内に、更に詳細に記述されている)内に保存されるようなものである。知識ベース上のパターン定義は、追加されることができ、または旧パターン定義は編集され、または削除することができる。第2のモジュールは、以下の制御パターンを処理するように使用可能であり、
・オプション−以下のパターンはオプションである。ターゲット内に現れない場合、パターンマッチはフェイルとならない(入力は一致する)。
・複数−以下のパターンはターゲット内に複数回発生することができる。不一致が見つかるまで、各々の反復ごとに一致し続ける。オプションのパターンが複数パターンに先行しない限り、複数パターンの少なくとも一つの出現がターゲット内になければならない。
第2のモジュールのパターンマッチング能力もまた、それがパターン内に埋め込まれたパターンを処理することができるようなものであり、親パターンは子パターンを持つことができる。例えば、ステートメントのパターンが「主語述語」として定められる場合、第2のモジュールは、それが更なるパターン知識項目を持たない知識オブジェクトを検出するまで、それが「主語」および「述語」知識項目内の更なるパターン知識項目を探すようなものである。知識項目および知識オブジェクトの概念は、明細書の以下の段落内に、詳細に記述される。第2のモジュールのパターンマッチング能力もまた、それが親パターンに対して複数の子パターンを処理することができるようなものである。例えば、自然言語ステートメントが、「文」であるとみなされる場合、文パターンは、以下の子パターンを持つことができる。
・命令
・ステートメント
・質問
中間言語は、一組の演算子を備える(演算子として使用される実際のシンボルは、これらのステートメントを解読する必要がある解釈プログラムソフトウェアに関してのみ重要である)。実施態様に使用されるいくつかのシンボルは、次の通りである。
= Is(である)
& 非排他的な特性を持つ(それが存在しない場合、新しいインスタンスを作成する)。この特性の他のいかなるインスタンスも無効にしない。
. 排他的な特性を持つ(それが存在しない場合、新しいインスタンスを作成する)。この特性の他のいかなるインスタンスも無効にする。
> アクション
( ) 属性を囲うために使用される。
: 属性内の概念と値を分離する
, 属性を分離する。
/ パス内の目的語から主語を分離する。
! Not(〜ない)
* 新しいインスタンスまたは概念。完全な一致が存在しない場合、新しい知識項目を作成する。
? パスの終わりに配置される場合、ステートメントではなく質問を示す
〜n 知識ベースの値フィールド内に使用される。1つまたは複数の知識オブジェクトIDがASCIIデータ列内にコード化される場合、各々の知識オブジェクトIDに先行する。「n」は、知識オブジェクトIDにおける桁数を示すために使用される。これは、一例としてだけである。テキストまたは他のデータ列内の知識オブジェクトIDをコード化するための、他のいくつかのオプションは、定義済みの上記の拡張文字によって識別された、固定長フィールド、ASCIIフィールドまたは固定長2進数データフィールドを使用することができる。
中間言語ステートメントに使用される実際の単語が、人間の言語からのものであってもよく、または、例えばパターンマスクまたは数学的計算式などの象徴的な情報であってもよい。中間言語ステートメントの実例は、Jack.hair/(色:黒、長さ:短い)、
これはフランス語でもまったく同様に機能し、Jacques.cheveux/ (色:黒、長さ:短い)中間言語ステートメントのこの実例は「ジャックは、短い黒毛を持つ」の行に沿った英語文から翻訳される。
第1のモジュールおよび第2のモジュールに加えて、情報管理ソフトウェアは、情報を管理する、すなわち例えば、情報を保存・取り出しする役割を果たす第3のモジュールを備える。情報を管理するために、第3のモジュールは、基本的に情報を管理するための第2のモジュールによって作成される中間言語ステートメントを使用する。第3のモジュールがどのように中間言語ステートメントを使用するか記述する前に、情報が保存される方法を記述することが賢明である。
本実施態様において、コンピュータ1は情報を保存するための基本的な機能として、Microsoft Accessリレーショナルデータベースをロードされている。コンピュータ1は、情報を保存するための基本的な機能として、代替データベースを使用するように配置することができることは、当業者によって理解されよう。第3のモジュールはそれが表を使用するようなものであり、以下に、図3に示される知識ベースを参照する。知識ベースは可変数のレコードを備え、以下に知識項目として参照される。知識項目は、事実上図3に示される表内の行である。一まとまりの関連した知識項目は、知識オブジェクトを表現する。図3から分かるように、知識項目の各々は多くのフィールドを含む。以下は、各々のフィールド内に含まれる情報に関する記述を提供する。
ID−各々の知識項目を識別する一意のフィールド。
概念−このフィールドが、概念または一つの知識のインスタンスであるどうか識別するオプションのフィールド。同じ情報が別々の知識項目としてコード化することができるので、これはオプションであるが、知識項目のフィールド内にそれを記録することはよりすばやく、および、より簡潔である。
関係−この知識項目とそれが帰属する知識オブジェクトとの間の関係を示す。関係の例は、「ある」、「持つ」、および、「する」である。「する」は、各種の動作(動詞)と関連づけられることができる。このフィールドは、また、関係の時制(過去、現在または未来)をコード化する。
否定−「ない」、「持たない」、および、「しない」式の関係を作成するために、関係フィールドを否定する。
Parent_Id−知識オブジェクトを形成するために知識項目を互いにリンクする。同じParent_Idを共有している全ての知識項目は、密接に関連しており、および、単一知識オブジェクトを備える。
Concept_Id−知識ベース内の別の知識項目に対するポインタ。このフィールドは、現在の知識項目の概念知識オブジェクトを示すために使用される。(例えば、知識オブジェクトが「色」に対して前もって定められ、かつ現在の知識項目が「赤」に対する知識オブジェクトの一部である場合。関係が「ある」で、Concept_Idが「色」の知識オブジェクトを指す場合、現在の知識項目は、「赤は、色である」と述べる)。
Value_Id−知識ベース内の別の知識項目に対するポインタ。このフィールドは、現在の知識項目の値知識オブジェクトを示すために使用される。(例えば、知識オブジェクトが「赤」として前もって定められ、および、別の知識オブジェクトが「色」として前もって定められる場合を想定する。現在の知識項目は、「ジャックの毛」に対する知識オブジェクトの一部である。関係が「持つ」であり、および、Concept_Idが「色」の知識オブジェクトを指し、かつ値ldが「赤」の知識オブジェクトを指す場合、現在の知識項目は、「ジャックは、赤毛を持つ」を述べる。
・値−いかなる2進データをも含む。それは、単一Value_Idフィールドによって示されることができない情報をコード化するためにある。例は、テキスト、コード化されたValue_Idのパターン、および、他のデータ、オーディオまたはビデオデータ、であってもよい。
・有効性−知識項目内に保存される情報がもはや有効でなく、過去の情報目的のために保存される場合にクリアすることができるフラグ(ブーリアン式のフィールド)。
情報管理ソフトウェアがどのように情報が保存されることを可能にするかについて例示するために、ジャックと呼ばれる人が短い黒毛を持つ、という事実の情報を保存することを望むユーザーの実例を考える。こうするために、ユーザーは単にダイアログボックス5内に「ジャックは、短い黒毛を持つ」とタイプすることができる。第2のモジュールは、以下の中間言語ステートメントに、この自然言語ステートメントを変換する。Jack.hair/(色:黒、長さ:短い)。図4内に示される表を参照して、中間言語ステートメントは、次いで第3のモジュールに引き継がれ、それは、値フィールド内に単語「ジャック」、「ある」の関係、および、B3のCIdを持つ知識項目を含む全ての知識オブジェクトを検出することを試みる(B3は、英語の名前の概念に対する知識オブジェクトである)。B1の知識オブジェクトは、これらの状態を満足しており、したがって、英語の名前ジャックに対する知識オブジェクトである。単語「ジャック」に対する知識オブジェクトを検出して、次のステップは、ジャック自身に対する知識オブジェクトを見つけることである。これは、「持つ」の関係、B3(英語の名前)のCId、および、B1のVId、を持つ全ての知識オブジェクトを検出することによってなされる。A1の知識オブジェクトが、これらの条件を満足しており、したがって、この知識オブジェクトは「英語の名前ジャックを持つ」と想定することができる。それは、ジャック自身に対する知識オブジェクト(JackKO)である。基準を満たす複数の知識オブジェクトがある場合、解釈プログラムは、続ける前に、詳細情報を促す必要がある。
唯一の(または正しく識別された)ジャック知識オブジェクト(A1)が知識ベースの中で検出された後で、第3のモジュールは、この知識オブジェクトIDを保存し、かつ中間言語ステートメント内の次の単語−「毛」に移り、そして、検索プロセスを繰り返す。これは、「ある」の関係、B2(英語の単語)のCId、および、「毛」のVIdの全ての知識オブジェクトを検出することを伴う。C1が、結果である。第3のモジュールは、次いで、「持つ」の関係、B2(英語の単語)のCId、および、C1のVIdの知識オブジェクトを検出するために進む。A3が、結果である。それは、毛の概念に対する知識オブジェクト(HairKO)である。
中間言語ステートメントから最初の2つの知識オブジェクトを識別して、「Jack.hair」は「A1.A3」によって置換することができる。次のステップは、中間言語ステートメントのこの部分が分析することができるかどうかを判定することである。「.」演算子は、「持つ」関係を意味し、それで、第3のモジュールは、知識オブジェクトA1が「持つ」の関係、および、A3のCIdを有する知識項目を含むかどうか、確認しなければならない。これは、知識オブジェクトA1の行3で見つかる。この知識項目は「ジャックは、毛を持つ」という知識を示す。それが存在しなかった場合、知識ベースは前もってジャックが毛を持つという情報を持たず、および、したがって、このデータを有する新しい知識項目を作成する。
ジャックの毛に関する、追加の情報(色、および、長さ)を保存するために、知識オブジェクトが、必要とされる。知識項目3のVId(A2)は、この情報を含む知識オブジェクトを指す。知識項目3が前のステップ内に存在しなかった場合、それは、知識オブジェクトA2もまた存在しなかったことを意味し、したがって、第3のモジュールは、知識オブジェクトA2(Jack.HairKO)を作成する必要があり、知識項目3のVIdフィールド内に、そのID(A2)を配置する必要がある。知識オブジェクトA3に中間言語ステートメント「Jacks.hair」の第1の部分を分析して、第3のモジュールは、単語対「色:黒」に対する中間言語ステートメントに移動する。「ある」の関係、B2(英語の単語)のCId、および、「色」のVIdを有する知識オブジェクトが、次いで検出される。C2の選択という結果になる。
第3のモジュールは、次いで「持つ」の関係、B2(英語の単語)のCId、および、C2のVIdの知識オブジェクトを検出する。C3が、結果である。それは、色の概念に対する知識オブジェクト(ColourKO)である。それに続いて、第3のモジュールは、「ある」の関係、B2(英語の単語)のCId、および、「黒」のVIdの知識オブジェクトを検出することを試みる。C4が、結果である。最後に、第3のモジュールは、「持つ」の関係、B2(英語の語)のCId、および、C4のVIdの知識オブジェクトを検出する。B4が、結果である。それは、黒の概念に対する知識オブジェクト(BlackKO)である。
これらの知識オブジェクトを検出し、第3のモジュールは、C3(ColourJCO)のCId、および、B4(BlackKO)のVIdとともに「持つ」の関係を持つ知識オブジェクトに対するA2(Jack.HairKO)を検索する。この知識項目が見つかる場合、それはその知識ベースがすでに、ジャックの毛は黒であるとわかっていることを示し、何のアクションもとられない。C3(ColourKO)のCId、および、B4(BlackKO)と等しくないVIdとともに「持つ」の関係を持つ知識項目が見つかる場合、この知識項目は無効にされ(IsValidは偽に設定される)、および、C3(ColourKO)のCId、および、B4(BlackKO)のVIdとともに「持つ」の関係を持つ新しい知識項目が作成される。このプロセスは、ジャックの毛色を、それが以前どんな色であろうと黒に変更した。しかし、何の知識項目も見つからない場合、C3(ColourKO)のCId、および、B4(BlackKO)のVIdとともに「持つ」の関係を持つ新しい知識項目が、作成される。このプロセスは、ジャックの毛色を黒として記録する。情報管理ソフトウェアによって保存される情報の配置が、図7内に示される。
中間言語ステートメントの色部分を分析して、第3のモジュールは、単語対「長さ:短い」に対する中間言語ステートメントに移り、ステートメントの最終的部分を分析するために、上で概説されたものに類似したステップを実行する。
情報を保存するときに情報管理ソフトウェアが実行する様々なステップが、図5のフローチャート内に示されている。
情報管理ソフトウェアがどのように情報を取り出すかについて例示するために、以下の実例を考える。ジャックがどんな色の毛を持つかについて知ることを望むユーザーは、次の自然言語ステートメント「ジャックは何色の毛を持つか?」をダイアログボックス5に入力することができる。第2のモジュールにこのステートメントを渡すと、中間言語ステートメント「Jack.Hair.Colour?」になる。この中間言語ステートメントを使用して、第3のモジュールは、基本的に知識オブジェクトA1.A3を識別するための以前の記述されたステップに従う。一旦、これらの知識オブジェクトが識別されると、第3のモジュールは毛(A3)が色の概念を持つかどうか判定するために進む。こうするために、第3のモジュールは、「ある」の関係、B2(英語の単語)のCId、および、色のVidを持つ知識オブジェクトを検出することを試みる。結果は、C2である。ここで、第3のソフトウェアモジュールは、「持つ」の関係、B2(英語の単語)のCId、および、C2のVIdの知識オブジェクトを検出するために進む。これは、C3が識別されるという結果になる。
ここで、第3の処理手段は、ジャックに関する情報が、A1内に含まれ、ジャック(A1)の毛に関する情報が、A3の概念に対応し、ジャックの毛の色に関する情報が、C3の概念に対応する、ということを知る。したがって、ジャックの毛の色を取り出すために、第3のモジュールはA3のCIdに対応するA1のVIdフィールドに向かい、それはA2という結果になる。第3のモジュールは次いでA2、特にC3のCIdに対応するA2のVIdフィールド、を調べる。そして、それはB4である。B4のVIdフィールドがC4(英語の単語)を参照するので、第3のモジュールはC4の値フィールドを調べることによってジャックの毛の色を取得する。そして、それは「黒」である。
情報フィールド内の単語黒は次いでインタフェース3へ戻され、それはダイアログボックス5内に単語黒を表示する。したがって、ユーザーが情報を取り出すことを可能にする。
情報を取り出すときに、情報管理ソフトウェアによって実行される様々なステップが、図6のフローチャート内に示される。
インタフェース3が代替実施態様において異なる形態をとることができることは、当業者によって理解されよう。例えば、1つの代替実施態様において、インタフェースがテキスト駆動されたインタフェースの代わりに音声インタフェースの形とすることができる。代わりに、ステートメントを含むソフトウェアベースの機能(ルーチン)コールの形のインタフェースとすることができる。当業者はまた、本発明の実施態様を使用して保存される情報は、さまざまな異なる情報とすることができることを理解するであろう。例えば、情報はアプリケーションの起動または停止に使用するテキスト行とすることができる。このシナリオにおいて、ダイアログボックス5に情報を出力する代わりに、情報は関連するアプリケーションを自動的に起動するように処理することができる。
代替実施態様がソフトウェアの代わりに専用ハードウエアを使用して実装することができる、本発明のいくつかの構成要素は、当業者によって理解されよう。
この明細書の全体にわたって単語「レコード」は、表内の単一行として表すことができる単一知識項目、または表内の複数行によって表すことができる一まとまりの知識項目から成る知識オブジェクトを指す。
当業者は、本願明細書に記述された本発明は、特に記述されたもの以外の変更および修正の余地があることを理解されよう。本発明は、本発明の範囲内に含まれる全てのこの種の変更および修正を含むことが理解されるべきである。
本発明の範囲内に含まれることができる他のいかなる実施態様にも関わらず、添付の図を参照して、本発明の実施態様は、実例としてのみ、次に記述される。
本発明の一実施態様の例示。 図1内に例示される本発明の実施態様に使用されるグラフィカルユーザーインタフェースの例示。 図1内に示される本発明の実施態様によって維持される表の例示。 図1内に示される本発明の実施態様によって情報が保存される方法の実例の例示。 図1内に示される本発明の実施態様によって情報が保存される方法の実例の例示。 図1内に示される本発明の実施態様によって情報が保存される方法の実例の例示。 情報を保存する時に図1のシステムによって実行される様々なステップのフローチャート。 情報を取り出す時に図1のシステムによって実行されるステップのフローチャート。 図1のシステムによって保存される情報の配置の例示。

Claims (26)

  1. 情報を取り出すためのシステムであって、前記システムは、ステートメントを取得するために配置される入力手段と、前記ステートメントの構成要素に基づいて第1のレコードを選択し、前記第1のレコードを参照する第2のレコードを選択し、前記第2のレコードを調べて、第3のレコードを識別し、かつ、前記第3のレコードを用いて前記情報を取り出す、ために配置される処理手段と、を備えるシステム。
  2. 前記処理手段は、前記構成要素に対応する情報を備える第4のレコードを検出し、前記第4のレコードの識別子を取得し、かつ前記第1のレコードが前記識別子を備えるかどうか判定する、ことによって前記第1のレコードを選択するために配置され、それが前記識別子を備えると判定された場合、前記第1のレコードが選択される、ことを特徴とする請求項1に記載のシステム。
  3. 前記処理手段は、前記第3のレコードを調べて、少なくとも一つの第5のレコードを識別し、かつ前記少なくとも一つの第5のレコードから前記情報を取得する、ことによって前記情報を取り出すために配置される、ことを特徴とする請求項1または2に記載のシステム。
  4. 前記第3のレコードは、前記第1のレコードと関連づけられる、ことを特徴とする先行する請求項のいずれかに記載のシステム。
  5. 前記入力手段は、自然言語ステートメントを受け取るために配置されるインタフェースと、前記自然言語ステートメントの構文解析に基づいて中間言語ステートメントを作成するために配置される構文解析プログラムと、を備え、前記処理手段は、前記ステートメントとして前記中間言語ステートメントを使用するために配置される、ことを特徴とする先行する請求項のいずれかに記載のシステム。
  6. 前記第1、第2、第3、第4および第5のレコードは、単一表内に含まれる、ことを特徴とする先行する請求項のいずれかに記載のシステム。
  7. 情報を保存するためのシステムであって、前記システムは、ステートメントを取得するために配置される入力手段と、中間言語ステートメントの構成要素に基づいて識別されることができる第1のレコードを作成し、前記第1のレコードを参照し、かつ第3のレコードを識別するために調べられることができる第2のレコードを作成し、かつそれが前記情報を取り出すために使用されることができるように、前記第3のレコードを配置する、ために配置される処理手段と、を備えるシステム。
  8. 前記処理手段は、前記構成要素に対応する情報を備える第4のレコードを作成し、前記第4のレコードの識別子を取得し、かつ、それが前記識別子を備えるように前記第1のレコードを設定する、ことによって前記第1のレコードを作成するために配置される、ことを特徴とする請求項7に記載のシステム。
  9. 前記処理手段は、少なくとも一つの第5のレコードを識別するために調べることができるように、前記第3のレコードを配置するように配置され、前記処理手段は、それが前記情報を備えるように、前記第5のレコードを作成するために使用可能である、ことを特徴とする請求項7または8に記載のシステム。
  10. 前記入力手段は、自然言語ステートメントを受け取るために配置されるインタフェースと、前記自然言語ステートメントの構文解析に基づいて中間言語ステートメントを作成するために配置される構文解析プログラムと、を備え、前記処理手段は、前記ステートメントとして前記中間言語ステートメントを使用するように配置される、ことを特徴とする請求項7ないし9のいずれかに記載のシステム。
  11. 前記第3のレコードは、前記第1のレコードと関連づけられる、ことを特徴とする請求項7ないし10のいずれかに記載のシステム。
  12. 前記第1、第2、第3、第4および第5のレコードは、単一表内に含まれる、ことを特徴とする請求項7ないし11のいずれかに記載のシステム。
  13. 情報を取り出す方法であって、前記方法は、次の諸ステップ、すなわち、
    ステートメントを取得するステップと、
    前記ステートメントの構成要素に基づいて第1のレコードを選択するステップと、
    前記第1のレコードを参照する第2のレコードを選択するステップと、
    前記第2のレコードを調べて第3のレコードを識別するステップと、
    前記第3のレコードを用いて前記情報を取り出すステップと、
    を備える方法。
  14. 前記第1のレコードを選択する前記ステップは、次の諸ステップ、すなわち、
    前記構成要素に対応する情報を備える第4のレコードを検出するステップと、
    前記第4のレコードの識別子を取得するステップと、
    前記第1のレコードが前記識別子を備えるかどうか判定するステップと、
    を備え、それが前記識別子を備えると判定された場合、前記第1のレコードが選択される、ことを特徴とする請求項13に記載の方法。
  15. 前記情報を取り出す前記ステップは、前記第3のレコードを調べて少なくとも一つの第5のレコードを識別するステップと、前記少なくとも一つの第5のレコードから前記情報を取得するステップと、を備える、ことを特徴とする請求項13または14に記載の方法。
  16. 前記ステートメントを取得する前記ステップは、
    自然言語ステートメントを受け取るステップと、
    前記自然言語ステートメントの構文解析に基づいて中間言語ステートメントを作成するステップと、
    前記ステートメントとして前記中間言語ステートメントを使用するステップと、
    を備える、ことを特徴とする請求項13ないし15のいずれかに記載の方法。
  17. 前記第3のレコードは、前記第1のレコードと関連づけられる、ことを特徴とする請求項13ないし16のいずれかに記載の方法。
  18. 前記第1、第2、第3、第4および第5のレコードは、単一表内に含まれる、ことを特徴とする請求項13ないし17のいずれかに記載の方法。
  19. 情報を保存する方法であって、前記方法は、次の諸ステップ、すなわち、
    ステートメントを取得するステップと、
    前記ステートメントの構成要素に基づいて識別されることができる第1のレコードを作成するステップと、
    前記第1のレコードを参照し、かつ第3のレコードを識別するために調べられることができる、第2のレコードを作成するステップと、
    前記情報を取り出すために使用されることができるように、前記第3のレコードを配置するステップと、
    を備える方法。
  20. 前記第1のレコードを作成する前記ステップは、
    前記構成要素に対応する情報を備える第4のレコードを作成するステップと、
    前記第4のレコードの識別子を取得するステップと、
    それが前記識別子を備えるように前記第1のレコードを設定するステップと、
    を備える、ことを特徴とする請求項19に記載の方法。
  21. 前記第3のレコードを配置する前記ステップは、次の諸ステップ、すなわち、
    それが少なくとも一つの第5のレコードを識別するように、前記第3のレコードを配置するステップと、
    それが前記情報を備えるように、前記第5のレコードを配置するステップと、
    を備える、ことを特徴とする請求項19または20に記載の方法。
  22. 前記ステートメントを取得する前記ステップは、
    自然言語ステートメントを受け取るステップと、
    前記自然言語ステートメントの構文解析に基づいて中間言語ステートメントを作成するステップと、
    前記ステートメントとして前記中間言語ステートメントを使用するステップと、
    を備える、ことを特徴とする請求項19ないし21のいずれかに記載の方法。
  23. 前記第3のレコードは、前記第1のレコードと関連づけられる、ことを特徴とする請求項19ないし22のいずれかに記載の方法。
  24. 前記第1、第2、第3、第4および第5のレコードは、単一表内に含まれる、ことを特徴とする請求項19ないし23のいずれかに記載の方法。
  25. コンピュータに、請求項13ないし23のいずれかに従う前記方法を実施させるための、少なくとも一つの命令を備えるコンピュータプログラム。
  26. 請求項21に記載の前記コンピュータプログラムを備えるコンピュータ読取可能媒体。
JP2007511779A 2004-05-13 2005-05-13 情報を取り出すためのシステムと方法および情報を保存するためのシステムと方法 Pending JP2007537515A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AU2004902570A AU2004902570A0 (en) 2004-05-13 A system and method for retrieving information and a system and method for storing information
PCT/AU2005/000695 WO2005111860A1 (en) 2004-05-13 2005-05-13 A system and method for retrieving information and a system and method for storing information

Publications (1)

Publication Number Publication Date
JP2007537515A true JP2007537515A (ja) 2007-12-20

Family

ID=35394334

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007511779A Pending JP2007537515A (ja) 2004-05-13 2005-05-13 情報を取り出すためのシステムと方法および情報を保存するためのシステムと方法

Country Status (6)

Country Link
US (1) US7752196B2 (ja)
JP (1) JP2007537515A (ja)
CN (1) CN1950819B (ja)
AU (1) AU2005243114B2 (ja)
GB (1) GB2430058A (ja)
WO (1) WO2005111860A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8321914B2 (en) * 2008-01-21 2012-11-27 International Business Machines Corporation System and method for verifying an attribute in records for procurement application
US8224797B2 (en) * 2008-03-04 2012-07-17 International Business Machines Corporation System and method for validating data record
US20100305969A1 (en) * 2009-05-28 2010-12-02 3M Innovative Properties Company Systems and methods for generating subsets of electronic healthcare-related documents
US10586616B2 (en) 2009-05-28 2020-03-10 3M Innovative Properties Company Systems and methods for generating subsets of electronic healthcare-related documents
US8600772B2 (en) * 2009-05-28 2013-12-03 3M Innovative Properties Company Systems and methods for interfacing with healthcare organization coding system
US8510328B1 (en) * 2011-08-13 2013-08-13 Charles Malcolm Hatton Implementing symbolic word and synonym English language sentence processing on computers to improve user automation
JP5567749B2 (ja) * 2012-02-15 2014-08-06 楽天株式会社 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
US9424257B1 (en) * 2012-08-31 2016-08-23 Keysight Technologies, Inc. Compiler and operating system adapted for generating programs for decoding communication packets utilizing a protocol stack
US10042921B2 (en) * 2015-09-18 2018-08-07 International Business Machines Corporation Robust and readily domain-adaptable natural language interface to databases
US10698978B1 (en) * 2017-03-27 2020-06-30 Charles Malcolm Hatton System of english language sentences and words stored in spreadsheet cells that read those cells and use selected sentences that analyze columns of text and compare cell values to read other cells in one or more spreadsheets

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0489861B1 (en) * 1989-09-01 1997-07-09 Amdahl Corporation Operating system and data base
JP2710548B2 (ja) * 1993-03-17 1998-02-10 インターナショナル・ビジネス・マシーンズ・コーポレイション データを検索する方法およびブール代数文表現と図形表現を互いに変換する方法
US5682539A (en) * 1994-09-29 1997-10-28 Conrad; Donovan Anticipated meaning natural language interface
US6078925A (en) * 1995-05-01 2000-06-20 International Business Machines Corporation Computer program product for database relational extenders
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5717914A (en) * 1995-09-15 1998-02-10 Infonautics Corporation Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query
US6052693A (en) * 1996-07-02 2000-04-18 Harlequin Group Plc System for assembling large databases through information extracted from text sources
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
WO2000005663A2 (en) * 1998-07-24 2000-02-03 Jarg Corporation Distributed computer database system and method for performing object search
GB2341250A (en) * 1998-09-04 2000-03-08 Balaena Limited Database structure avoids duplication of stored data
US6654731B1 (en) * 1999-03-01 2003-11-25 Oracle Corporation Automated integration of terminological information into a knowledge base
US20020010574A1 (en) * 2000-04-20 2002-01-24 Valery Tsourikov Natural language processing and query driven information retrieval
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
WO2002001401A1 (en) * 2000-06-26 2002-01-03 Onerealm Inc. Method and apparatus for normalizing and converting structured content
US8396859B2 (en) * 2000-06-26 2013-03-12 Oracle International Corporation Subject matter context search engine
US6732097B1 (en) * 2000-08-11 2004-05-04 Attensity Corporation Relational text index creation and searching
JP3842577B2 (ja) * 2001-03-30 2006-11-08 株式会社東芝 構造化文書検索方法および構造化文書検索装置およびプログラム
US6961723B2 (en) * 2001-05-04 2005-11-01 Sun Microsystems, Inc. System and method for determining relevancy of query responses in a distributed network search mechanism
US20030084066A1 (en) * 2001-10-31 2003-05-01 Waterman Scott A. Device and method for assisting knowledge engineer in associating intelligence with content
WO2003107141A2 (en) * 2002-06-17 2003-12-24 Beingmeta, Inc. Para-linguistic expansion
US7305129B2 (en) * 2003-01-29 2007-12-04 Microsoft Corporation Methods and apparatus for populating electronic forms from scanned documents
US20040167875A1 (en) * 2003-02-20 2004-08-26 Eriks Sneiders Information processing method and system
US7364432B2 (en) * 2004-03-31 2008-04-29 Drb Lit Ltd. Methods of selecting Lock-In Training courses and sessions
US8401841B2 (en) * 2006-08-31 2013-03-19 Orcatec Llc Retrieval of documents using language models

Also Published As

Publication number Publication date
GB2430058A (en) 2007-03-14
AU2005243114B2 (en) 2011-02-24
US20070233660A1 (en) 2007-10-04
US7752196B2 (en) 2010-07-06
AU2005243114A1 (en) 2005-11-24
GB0623430D0 (en) 2007-01-03
CN1950819B (zh) 2012-07-18
CN1950819A (zh) 2007-04-18
WO2005111860A1 (en) 2005-11-24

Similar Documents

Publication Publication Date Title
JP2007537515A (ja) 情報を取り出すためのシステムと方法および情報を保存するためのシステムと方法
US9971967B2 (en) Generating a superset of question/answer action paths based on dynamically generated type sets
US9594747B2 (en) Generation of a semantic model from textual listings
CN111079043B (zh) 一种关键内容定位方法
US20180075025A1 (en) Converting data into natural language form
US8630841B2 (en) Regular expression word verification
US9626622B2 (en) Training a question/answer system using answer keys based on forum content
US10437890B2 (en) Enhanced document input parsing
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
US20070118519A1 (en) Question answering system, data search method, and computer program
US20180293302A1 (en) Natural question generation from query data using natural language processing system
KR20190060725A (ko) Sql 검토 방법, 장치, 서버 및 저장 매체
US8533174B2 (en) Multi-entity-centric integrated search system and method
AU2019279987B2 (en) Automated document analysis comprising company name recognition
KR20160018588A (ko) 이벤트 저장소의 구축 방법 및 장치
US20070245198A1 (en) Method and apparatus for interactive generation of device response templates and analysis
CN116209997A (zh) 用于对软件漏洞进分类的系统和方法
CN112347767A (zh) 一种文本处理方法、装置及设备
CN113065018A (zh) 一种音视频的索引库创建和检索方法、装置及电子设备
KR20110102358A (ko) 오역의 검출을 지원하는 장치 및 방법
CN111158973B (zh) 一种web应用动态演化监测方法
CN115185980B (zh) 医院病案数据检索方法、装置、设备及存储介质
JP2009048455A (ja) 節間関係推定装置およびコンピュータプログラム
US20180293508A1 (en) Training question dataset generation from query data
JP6680472B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム