JP2005509205A - 機械で読み取り可能な熟語を使用してデータを記憶するためのシステムと方法 - Google Patents

機械で読み取り可能な熟語を使用してデータを記憶するためのシステムと方法 Download PDF

Info

Publication number
JP2005509205A
JP2005509205A JP2002582390A JP2002582390A JP2005509205A JP 2005509205 A JP2005509205 A JP 2005509205A JP 2002582390 A JP2002582390 A JP 2002582390A JP 2002582390 A JP2002582390 A JP 2002582390A JP 2005509205 A JP2005509205 A JP 2005509205A
Authority
JP
Japan
Prior art keywords
root
word
roots
field
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002582390A
Other languages
English (en)
Inventor
ハミルトン ハービー、ジョージ
エリザベス ハービー、スザン
Original Assignee
ハミルトン ハービー、ジョージ
エリザベス ハービー、スザン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ハミルトン ハービー、ジョージ, エリザベス ハービー、スザン filed Critical ハミルトン ハービー、ジョージ
Publication of JP2005509205A publication Critical patent/JP2005509205A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

全ての概念(図2)を表現する熟語を構成する単語(図1)を記憶して、処理するためのシステムと方法に関し、単語は多くのフィールド(図3)に分けられる。単語の意味に関して各々のフィールドは意味を有する。フィールド(図3)は、各フィールドの意味が機械で認識できるように記憶されてまた処理される。各々のフィールドの意味は、各々の単語の意味を解釈するために処理される。機械で記憶され処理された単語で構成された熟語は、特に人口知能、自然言語処理、およびデータベース処理の分野で役立つ。

Description

本発明は一般に、機械で読み取ることができ且つマシン操作可能な形態をした非数値データの記憶および処理に関する。より詳しくは、本発明は単語の意味が機械で処理され且つ記憶される形態で、全ての概念を示す熟語を記憶し処理するシステムを含む。
本発明は複数の単語を容易に機械で記憶し処理できるように、全ての概念を示すように構成された熟語を構成する単語を記憶し且つ処理するシステム及び方法を提供する。その場合にそれら複数の単語は、各単語の意味について各々意味のある多くのフィールドに分割される。そしてそれらのフィールドは、各々のフィールドの意味が機械で認識できる形態で記憶され且つ処理される。各々のフィールドの意味は、各々の単語の意味を解釈するために処理される。機械で記憶され処理された複数の単語で構成した熟語は、例えば人工知能、自然言語処理およびデータベース処理の分野で特に有用である。
各単語には、一組の語根(ルート)セットから選択された複数の語根(ルート)が含まれている。つまり各々の語根は順番に複数のフィールドに分割されて、語根に関するツリー状の分類法になるように最上位フィールドから最下位フィールドまでに分類される。単語の各フィールドは、その単語の特性が示されている。最上位フィールドは、その語根のための「クラス」と言われる1つのフィールドを提供する。続いて、さらに低位の重要性を有するフィールドは、その語根をより低位のフィールドである「サブクラス」に分割し、それらのサブクラスはより重要なクラスのさらに厳密な小グループである。続いて最下位のフィールドは、サブクラスの小グループである「カテゴリ」となる。このカテゴリは、通常語根のセットにおいて利用できる最も厳密な定義である。そして各「クラス」、「サブクラス」、そして「カテゴリ」は定義のレベル内で独自の値を有する。すなわち語根の中の各フィールドが、上記の語根分類法における各レベルを示す。換言すると各フィールドの価値が、語根の意味の一部となる。このように全ての概念の全集合が、最も厳密な分類レベルの多くの小さなグループに分割される。
各語根(ルート)は単語を形成するために結合される。単語を形成するための各語根はその単語の特性を示す。それらの語根の意味が集まって、その単語の意味を示すことになる。単語を表現する語根(ルート)は、ツリー状の分類法の類似レベルの類似した分野を含んでいる。従って全ての語根(ルート)は、類似した方法で処理することが出来て、かつ同時平行して処理することが出来る。
全ての概念で最も普遍的な特性は、「存在」として理解される。このために、全ての「クラス」は、この「存在」の小グループと理解される。「存在」の第1の小グループは、存在自体であり、これは他の小グループとは区別されて特異である。同様に、各クラスの一部には、そのクラスと同一名称のサブクラスおよび他の特異な小グループとを有している。この構成は「カテゴリ」についても同様であり、各サブクラスの最初のカテゴリは、そのサブクラスと同一の名称が与えられている。このように第1のカテゴリは「存在」であり、それは「存在」サブクラスの小グループであり、さらに「存在」クラスの小グループでもある。
単語には、また、語根(ルート)でない1又は複数のフィールドを含むことができる。例えば、フィールドはビットで構成されることができ、各々のビットでその単語の特定の語根の否定を示すことが出来る。
コンピュータにより容易に記憶できまた処理できる一連のフィールドによって全ての概念が表現できるという点で、上記の特性を有する熟語は用途が広い。各々のフィールドには概念に対する意味が提供されて、そのフィールドは概念に意味を提供するために処理され、また操作される。単語の各々の語根(ルート)の意味は、概してお互いに独立しており、従って独立に処理される。語根のこの独立処理により、速く処理できるようになり、また単語の定義を微妙に処理することが出来る。
上記の特性により熟語は、特にコンピュータによる記憶と処理を行う上で役に立つようになる。各々の単語は、プロセッサ・レジスタ内のビット数により容易に表現することが出来る。上記の形態で表現された単語の意味を認識するようにプログラムされたコンピュータでは、その単語の意味を素早く決定でき、かつ複数の語根が組み合わせ方で様々なニュアンスを決定することが可能である。
直接物理的世界に関連があるが、既存の人間の言語から独立しているコンピュータにより、この熟語を用いることにより複数の概念を記憶することが出来る。しかしながらコンピュータで処理するためには、必ずしも完全な熟語分類法は必要ではない。コンピュータが処理するタスクで必要とする定義の特定のレベルで、特定の語根(ルート)が与えられていればよい。コンピュータは、新たな語根(ルート)に出会ったり、新規の語根を使用する必要性を決定するので、コンピュータには特定な語根には意味が与えられる。この用途が広い熟語によって、有機的に結合させることでコンピュータは能率的に考えを処理することが出来るようになる。
本発明の好ましい実施例では、データはコンピュータによって単語として記憶される。単語の構成要素は、特にコンピュータが単語の実際の意味に基づいてその単語を処理し記憶できるように設計されている。各単語は概念を示す。単語は機械で読み取り、処理し、そして記憶できるようにデジタル形式で表されている。本実施例において単語は、熟語を構成する単語を処理するために用いるコンピュータのプロセッサ・レジスタに含まれるビット数と同じ数のビット数で表現されている。
本発明における単語の一例は図1に示されている。単語10は、長さ64ビットであって、従って特に64ビット・プロセッサを利用するために設計される。単語は幾つかの語根(ルート)20を含む。語根は、語根がビット構成で1対1の関係を有する分類法で定義された一つのセットから選択される。語根(ルート)はツリー状の分類法のレベルを示している複数のフィールド30に分割される。
語根(ルート)を定めるために用いる分類法は図2に示されている。本発明の分類法においては、最も普遍的な概念(「存在」であるとみなされて)は、クラスの中では最高レベルで分類される。その分類法は、元々ロジェの類語辞書において使用されるツリー状の分類システムと類似し、ツリー状に構成されている。その分類法には、いくつかの重要性のレベルが含まれている。例えば分類法には3つのレベルがあり、これらは「クラス」、「サブクラス」、そして「カテゴリ」である。実施例ではこの分類法は、1つの語根(ルート)中に3ビット表現のフィールドにより表現されている8個のクラスを含んでいる。これらのクラスは、存在に関する最も一般概念の一般抽象的な小グループである。各々のクラスは、更に「サブクラス」の小グループに分けられる。図示した例では、各「クラス」は4つの「サブクラス」に分割されている。各々のサブクラスは、さらに「カテゴリ」の小グループに分けられる。図示の例において、各々のサブクラスは、8つのカテゴリに分けられる。
1つのレベルからの次へのレベルへの分岐数が固定しているという点で、図示した分類法はロジェのシステムとは異なる。各々のクラスは、4つのサブクラスに分けられる。そして各々のサブクラスは、8つのカテゴリに分けられる。従って全ての概念は、いずれか一つのカテゴリに入ることになる。各々の概念が各々のレベルで1つの小グループに分類されるのを確実にするために、各部ではそれより高いレベルの小グループと類似している1つの広い小グループを有している。たとえば、「存在」が概念で最も普遍的概念であるので、他のクラスに入らない概念は全てこの「存在」のクラスに分類される。「存在」というクラスの下に、「関係」、「命令」および「数量」のサブクラスに入らない「存在」クラスの全ての概念を含む「存在」というサブクラスが設けられている。これと同様の方法で、「生命」クラスには「生命」サブクラスがあり、その「生命」サブクラスには「生命」カテゴリや「人間」サブクラスには「人間」カテゴリが各々設けられている。このようにこのシステムの下では、あらゆる概念には、1つのクラス、サブクラス、およびカテゴリが割り振られている。
各々の語根(ルート)は、上述の分類法の各々のレベルに対応する1つのフィールドを含んでいる。図示の例において、3ビットの最上位のフィールドが、語根のクラスを示し、次に2ビットのフィールドがサブクラスを示し、3ビットの最下位のフィールドが、語根のカテゴリを各々示している。実施例の各々の語根(ルート)は、このように8ビットで表現される。これらの3つのフィールドは、各々の語根(ルート)に共通である。各々のフィールドの値は直接、語根(ルート)の意味に関係する。例えば最上位フィールドの3の値を有する全ての語根は、「生命」クラス内の概念である。同様に、サブクラスの1の値を有する概念の全ては、「人間」サブクラスの内の概念である。
上記した分類法は、本発明によりさまざまな方法で変更することができる。例えば3つのレベルを示すツリー(クラス、サブクラスおよびカテゴリ)は、それ以上あるいはそれ以下のレベルにすることが出来る。またこの分類法の各々のレベルでは、所定の小グループより多い場合も、少ない場合もあり得る。しかしながら語根およびビット構造間の1対1の関係に合わせて、分類法の1つのレベルにおける各々の小グループは、二乗数で表される個数の下位レベルの小グループに分割される。
語根(ルート)の個数は、このツリー状の分類法を使用して決められる。語根は、単語を定めるために結合される。各々の単語は、所定の語根数を含む。図1に示す例では、各々の単語は5つの語根(ルート)を含んでいる。各々の語根は、単語の特性を示しており、所定の数値が割り振られている。図示の例において、第1の語根である基部(BASE)は、上記した分類法からその単語の文脈背景を示す。この基部は、単語の文脈背景の本質である。実際には、基部の語根(ルート)は、ロジェの類語辞書と同様の分類法を参照して単語を探し、単語のクラス、サブクラスおよびカテゴリを見つけるように決定される。第2の語根(ルート)は、代替(ALT)と称される。この第2の語根は、その単語の基本的な他の構成要素であり、上記の基部を補充するものである。実際には、この代替語根(ルート)は、辞書で単語を調べ、定義の主要語を見つけて、そしてその主要語を分類参照して調べることにより決定される。
残りの二次的な語根(ルート)は、その他の特性を定めるために用いられる。その内の1つの語根(SRC)は、単語の語源または原因を示す。また別の語根(DST)は、宛先または目的を示す。残りの語根(MOD)は、単語の様式または方法を示す。各々の語根は、単にツリー状の分類法を使用することによっては達成することができない巧妙かつ微妙な方法で、単語に付加的な意味を与えるためのものである。このようにツリー状の分類法によって、複数のフィールド値と特定の意味を結ぶ基本的な関係を示すことが出来る。しかしながら、上記分類法の各々のカテゴリが多くの意味を有するために、その意味は比較的広い。従って語根をこの多次元方法で組み合すことによって、各々のフィールドの各々の値は、多くの意味を有するようになる。各々の語根が、各々の語の意味を限定し、また各々の語根は同様の方法でかつ平行に処理されて、単語の意味が引き出される。
図3には数多くの例示的な単語が列挙されている。例えば、「電子工学教師」は図3に示すように、基部の語根(ルート)で教示、代替の語根で労働者、宛先または目的の語根で電子工学、様式または方法の語根でコミュニケーション、語原または原因の語根で知識、の各々で表現される。図3には他の多くの単語が表現されている。この複数の例の中では、代替の語根という最も重要なフィールドを単に注目することによって、最後の「教育経験」という単語を除く全ての単語が、「生命」クラスに属していることが判る点に留意する必要がある。さらに代替の語根(ルート)を見れば全部「労働者」であるので、例示された最初の6つの単語が密接に関連することが判る。このように各々のフィールドは、単語に意味を提供することができる。もしフィールドに意味を必要としない場合には、最も一般的な概念である「存在」の値がフィールドにおいて使われる。コンピュータは、いかなるフィールド、又はフィールドのいかなる組み合せで与えられる意味に基づいて、各単語を処理し記憶することが可能である。
特に分類に影響され易い単語のために、ある語根(ルート)は、個別規則に従うことができる。例えば「猫」はALTの語根では動物として表現される。上記で述べたプロセスを用いて、基部の語根も、また動物である。しかしこの組み合せが情報をほとんど提供せず、全ての動物が類似するために、基部の語根は個別規則に従うことができる。個別規則によって、無脊椎動物に通常「空間」を示すクラス値が割り振られる。脊椎動物に通常「物理」を示すクラス値が割り振られる。冷血脊椎動物に通常「地理学」を示すサブクラス値が割り振られる。その一方で、温血脊椎動物に「重量」を示すサブクラス値が割り当てられる。魚は「湖」のカテゴリ値が割り振られる。両生類は「沼地」のカテゴリ値が割り振られる。爬虫類は「大地」のカテゴリ値が割り振られる。鳥は希少性のカテゴリ値が割り振られる。そして哺乳類は「記録密度」のカテゴリ値が割り振られる。コンピュータが個別規則の下でフィールド値から容易に意味を決定できる点で、個別規則に従う語根(ルート)は有用である。このように単語が、語根により示される標準の特性よりもむしろ更なる分類により定義付けできる所で、これらの個別規則が使用される。この分類法が関係を提供し続けることができるために、個別規則はまたこの分類法と同時に選択される。例えば、魚は「湖」のカテゴリ値が割り振られており、両生類が「沼地」のカテゴリ値が割り振られている。この個別規則は、上記ツリー状の分類法の構成に合致しなければならない。この個別規則は、単に語根のフィールドの値に変更した意味を示すだけである。個別規則はこのように、各語根(ルート)を形成するフィールドであるクラス、サブクラスおよびカテゴリを、変更した方法で使用する。
ある語根(ルート)を個別規則に従わせることに加えて、二次的な語根が、若干の代替値または代替値とベース値の組み合せのための代用特性を定めることができる。この例では、代替語根(ルート)が動物を示す値を有するときに、二次的な語根が代用特性を定める。この例では、代替語根が動物を表現する値を持つ時に、この二次的な語根が代用特性を示す。語源又は原因の語源(source root)は、動物が生きることを指し示す。様式又は方法の語源(mode root)は、動物が何を食べるかについて指し示す。宛先又は目的の語源(destination root)は、人間に対する動物の値を指し示す。例えば、「ネコ」は大地を表現する語源又は原因の語源(source root)値、動物を表現する様式又は方法の語源(mode root)の値、および付随物(個別規則によるそれは、ペットを示すために用いる)に関する宛先又は目的の語源(destination root)の値を各々有している。
各々の単語は、複数の単語に意味を与える語根(ルート)から成る。単語は、また、語根の意味を補充するか又は変える他のインジケータを含むことができる。図1の実施例において、単語は64のビットを含む。この実施例の単語も、6つの否定ビット(NEG)40を含む。これらのインジケータは、各語根が否定的あるいは反対の意味に理解されるか否かを示すために用いられる。必要な所で、単語中で他のビットが個別規則によって使用される。図示の例において、「ネコ」は5つの語根(ルート)を有する。代替値は、それが動物であり、基部語根が個別規則に従い、そして二次的な語根が代替意味を有することを示している。基部値は、哺乳類を示す。二次的な語根はそれが、大地住居の、肉食の、ペットであることを示している。その場合は、5つの語根では、ネコおよびイヌを区別しない。従って個別規則によって、3つの更なるビットが、肉食のペットのタイプを示すために用いられる。一般(未知であるか他のもの)のためにはゼロの値、ネコのためには1の値、イヌのためには2の値、等が割り振りされる。残りの8ビットが必要な場合、更に単語を定義付けるために用いられる。この例では、他のビットは、ネコの重量または種類を示すために用いることができる。
また単語には、単語の更なる意味でなく、むしろ単語が使われる方法を暗示する暗示語根(ルート)50を含むことが出来る。この暗示語根50は、使用のニュアンスを示し、単語がいつ使用するのが適切かを指し示す。暗示語根50は、人間の言語なしでは役に立たない。すなわちユーモア、怒り、および丁寧であるか侮辱的であるの試み、のようなものを理解する能力をコンピュータに与えるために、この暗示語根の値が使用される。この暗示の値は、人間の言語が類似した意味を有するときに、どの人間の言語が選択されるのかを指し示す。例えば、暗示語根の値は、単語が俗語であるか、低俗であるか、あるいは正式であるか、または技術的であるかを指し示す。そしてこのように、げっぷの概念を与えられると、コンピュータは「げっぷ」、「おくび」、又は「噴出し」の英語の選択をすることが出来るようになる。英語の翻訳において考慮される適当な暗示語根の値を使えば、「げっぷ」が粗い使用法、「おくび」および「噴出し」は医学用語として用いられる。同様に、コンピュータの操作者は、「あなたは、旧式なプロセッサおよび不良のメモリーを有しています」、又は「あなたは、のろまでバブルな脳である」とコンピュータに言うことができる。暗示語根(ルート)のアプリケーションでは、コンピュータは後者の文章の無礼さを識別できるが、その前者の文章の無礼さは識別することは出来ない。
本発明に係る熟語は、コンピュータにより容易に処理され記憶される。前述したように、コンピュータは各々の語を形成しているビット数を受けるレジスタを有するプロセッサを持たなければならない。このようにプロセッサに一致する単語は、単一の処理サイクルで効率的に処理され、結果として効率的な文章処理が可能となる。また単語は、1処理サイクルで単語全体を伝送するデータバスを介して、記憶装置または他のデータ保持媒体に送ることができる。熟語は、デジタル形式であり、かつプロセッサのレジスタのビット数と同一長の複数の単語で形成されている。各々の語は、類似したフォームを有している。好ましい実施態様において各単語は、5つの8ビット長の定義語根(ルート)と、1つの8ビット長の暗示語根と、6つの1ビット長の否定インジケータ、および更に10ビット長の他のインジケータを含んでいる。これらの語を処理するために、コンピュータは比較的単純なアルゴリズムを使用する。上述の実施態様において、コンピュータはプロセッサ中のレジスタに単語を構成するビットの全てを受け取る。
プロセッサは、単語の各々のフィールドを構成するビットを認識するようにプログラムされている。コンピュータは、まず最初に代替語根(ルート)を処理する。各々の語根は、同様の方法で処理される。そしてその代替語根の最上位フィールドの値が決定される。これはその語根に幅広い意味を与えるためである。最下位フィールドに向かって、他のフィールドの値も決定される。このようにして各々の値は、語根をさらに限定した意味を提供する。コンピュータは、各々のフィールド値の意味を認識できるように、語根(ルート)分類法についてプログラムされている。またコンピュータは、コンピュータが使用するいかなる単語にも加えられる個別規則を認識するアルゴリズムについてもプログラムされている。しかしながら、これらの個別規則に関係なく、各々の語根は同じ構成のフィールドを含んでいる。コンピュータは同じプロセスを使用して、各々の語根のフィールドを識別することが出来る。コンピュータは、まず最初に代替語根の意味を決定するようにプログラムされている。基部語根の意味は、代替語根についての個別規則を考慮に入れて決定される。二次的な語根の意味は、個別規則または基部および代替語根に基づく代用定義を考慮に入れて決定される。それからコンピュータは、付加的なインジケータに基づき語根の意味に対する調整や補足条件を認識する。
コンピュータは、類似したアルゴリズムを用いて単語を形成し記憶する。コンピュータは単語を記憶し記憶するために、まず代替語根(ルート)を決定する。単語の定義に関する基本要素は、語根分類法を見てその代替語根を決定する。そして代替語根のクラス、サブクラスおよびカテゴリのためのフィールド値が決定される。代替語根が個別規則に従う値である旨が示されていない限り、他のフィールドの値は標準的な語根分類法を参照することで決定される。基部語根は語根分類法の単語の基本的文脈に基づいて、類似した方法で決定される。他の語根の値についても、語根分類法で判別できるように、それらの語根特性に基づき決定される。コンピュータは、必要に応じて代替語根または基部語根の値に基づいて、標準的な語根分類法の代わりに特定の個別規則に従うようにプログラムされている。フィールド値は、単語の定義に関する特徴を語根で記載した語根分類法から選択される。特定の個別規則を使用するためか、又は基部および代替語根値に基づく代用特性を定めるために、プロセスは変えられる。処理後の単語は、コンピュータが従来技術により処理しまた記憶できるデジタル情報である。コンピュータは、本発明により処理された単語を、通常の読み取り可能な媒体すなわちメモリーやディスクあるいはテープのような磁気媒体等の電子媒体へ記憶することが出来るようになる。
本発明の他の実施態様、用途および利点は、開示された明細書および実施により、当業者レベルで明らかである。本明細書および実施例は、単なる例示に過ぎない。また本発明の有効範囲は、以下の請求項により記載されている。
本発明の熟語を構成する単語を示す。 本発明の語根(ルート)分類法を示す。 本発明により表現された語根(ルート)レベルで、単語を図式化したものである。

Claims (28)

  1. 下記の各ステップを含むデータ表現方法において:
    各語根(ルート)がツリー構造をした複数レベルで表現された複数の共通フィールドを含み、特定語根中の各特定フィールドが一つの値を有し、この値が前記特定フィールドで表現されたツリー構造の一つのレベルにおける前記特定の語根の意味に対応する場合に、予め定義づけられたツリー構造に基づき、複数の語根セットの各語根を所定の値で表現するステップと;
    前記複数の語根における各語根が、単語により表現されたデータ概念の特徴に対応する場合に、該単語を形成する語根セットから選択された複数の語根をグループ化して前記データ概念を表現するステップと;そして
    前記単語を記憶するステップ;とで構成されたことを特徴とするデータ表現方法。
  2. 前記各単語は、単語を処理するためにコンピュータの処理レジスタに格納できるビット数と同じビット数を含み、かつ前記複数の共通フィールドの各フィールドは少なくとも1つのビットに関連することを特徴とする請求項1記載のデータ表現方法。
  3. ツリー構造の各レベルでのフィールドの値は、該ツリー構造の一つ高位に位置するレベルの値が有する意味を示していることを特徴とする請求項1記載のデータ表現方法。
  4. ある複数の語根(ルート)は、より基本語根に割り振られた値に基づいて個別規則化されており、該個別規則化された語根は予め定めた個別規則に基づいたフィールド値が与えられていることを特徴とする請求項1記載のデータ表現方法。
  5. ある複数の語根(ルート)により示された特性は、より基本語根に割り振られた値に基づいて定義されることを特徴とする請求項1記載のデータ表現方法。
  6. 前記単語には、特定の語根(ルート)に関連する否定ビットを含み、該否定ビットに割り振られた値は、該特定語根の意味がツリー構造をした分類法での値で表現された意味とは反対の意味であることを示すことを特徴とする請求項1記載のデータ表現方法。
  7. 前記単語には、単語がどのように使われるかについて指し示す暗示語根(ルート)を含むことを特徴とする請求項1記載のデータ表現方法。
  8. 下記の各ステップを含む全ての概念を表現する表現方法において;
    各複数の語根(ルート)中の各語根が特定概念の特徴を表現する場合に、複数の語根で各特定概念を表現するステップと;
    複数のフィールドにおける各フィールドが、予め定義されたツリー構造での重要性のレベルで前記表現された語根(ルート)の意味を表現し、前記予め定義されたツリー構造での最重要レベルは知識を、思考に関する複数の抽象的小グループに分割し、前記予め定義されたツリー構造での下位重要レベルは各上位の思考に関する小グループを、複数の思考に関する小グループに分割し、さらに複数のフィールドにおける最重要フィールドが、前記ツリー構造の最上位の複数の抽象的小グループ内での一つの小グループを表現し、複数のフィールドにおける下位重要フィールドが、前記ツリー構造の下位の複数の抽象的小グループ内での一つの小グループを表現する場合に、複数のフィールドで各語根(ルート)を表現するステップ;とで構成されたことを特徴とする全ての概念を表現する表現方法。
  9. 各フィールドには少なくとも1つのビットを含み、前記単語には単語を処理するためにコンピュータの処理レジスタに格納できるビット数と同じビット数を含むことを特徴とする請求項8記載の全ての概念を表現する表現方法。
  10. 複数の語根(ルート)の中のある語根は、複数の語根中の少なくとも一つのフィールドの内容に基づいて個別規則化されていることを特徴とする請求項8記載の全ての概念を表現する表現方法。
  11. 複数の語根(ルート)中のある語根により表現された特性は、前記複数の他の少なくとも一つの語根のフィールドの内容で定義付けされていることを特徴とする請求項8記載の全ての概念を表現する表現方法。
  12. 特定の語根(ルート)により示される意味が否定的に解釈されるべきか否かを表現するステップを、更に含むことを特徴とする請求項8記載の全ての概念を表現する表現方法。
  13. 前記各特定概念を表現するステップには、該特定概念の暗示を表現する語根(ルート)で該特定概念を表現するステップを、更に含むことを特徴とする請求項8記載の全ての概念を表現する表現方法。
  14. 読み取り可能媒体に記憶でき、かつ概念が表現されるデータ構造において:
    読み取り可能な値を収納するフィールドである場合に、該複数のフィールドと;
    一定の複数フィールドを含む語根(ルート)であり、各語根は最重要フィールドと下位重要フィールドを含み、最重要フィールドでは読み取り可能な値が一般的抽象概念を表現し、下位重要フィールドでは読み取り可能な値が前記最重要フィールドで表現された前記一般的抽象概念を限定する概念を表現し、各語根が語根中の各フィールドの値により指定された概念を表現している場合に、該複数の語根と;
    複数の語根の各語根により各概念が表現されており、各語根が単語の異なる特徴を表現している場合に、上記複数の語根を含む一つの単語;とで構成されたことを特徴とするデータ構造。
  15. 前記複数の語根(ルート)は、語根の予め定められたセットから選択されるように構成されたことを特徴とする請求項14記載のデータ構造。
  16. 語根(ルート)の前記予め定められたセットはツリー構造に基づいて構成されており、該ツリー構造では、最重要フィールドの読み取り可能な値がツリー構造の最高位の一般的抽象概念を表現し、下位重要フィールドの読み取り可能な値がツリー構造の下位レベルの概念を表現するように構成されたことを特徴とする請求項14記載のデータ構造。
  17. 前記単語は、該単語がどのように使用されるかの方法を表現する語根(ルート)を更に含むように構成されたことを特徴とする請求項14記載のデータ構造。
  18. マシン語の熟語から所定の意味を決定するためのコンピュータ装置において:
    ビット表示のデータを同時に受けるためのレジスタを有したプロセッサであり、該プロセッサはレジスタで受けられる単語を処理するようにプログラムされており、該単語は特殊概念を表現しており、また該単語は複数の語根(ルート)を含んでおり、単語の中の各語根は該単語で表現した概念の特徴を定義付けており、該語根は複数のフィールドを含んでおり、全語根中の第1フィールドは前記特徴を含む一般的抽象思想のクラスを表現しており、全語根中の第2フィールドは前記特徴を含むクラス内の思想的小グループを表現しており、各フィールドはレジスタで受けた単語を形成するビット表示のデータで表現されており、前記プロセッサが各フィールド内のビット表示のデータの値を決定しかつ各フィールドの該値と該フィールドの意味が関連付けられてプログラムされている場合に、該プロセッサを含むように構成されたことを特徴とするコンピュータ装置。
  19. 前記レジスタが、各々の単語の全てのフィールド内のデータを構成するビット数と同一のビット数を同時に受けることができるように構成されたことを特徴とする請求項18記載のコンピュータ装置。
  20. 特定の語根(ルート)内のフィールドの値が、同じ単語の他の語根の所定のフィールドで参照されるように構成されたことを特徴とする請求項18記載のコンピュータ装置。
  21. マシン語の熟語から所定の意味を決定するためのコンピュータ装置において:
    概念を各々示すデジタルデータ表示の単語を受け取る手段と;
    複数のフィールドの値が、前記概念の複数の語根(ルート)内の各語根の思想に関する一般的抽象的なクラスを表現しており、更にその後に続く複数のフィールドの値が、前記複数の語根内の各語根の思想に関する一般的抽象的なクラスのサブクラスを表現しており、前記複数の語根の各語根は、前記単語により表現された概念の特徴を表現しており、各単語は少なくとも一つのフィールドの値で表現される意味に基づき処理される場合に、単語の各々に含まれる各々の複数のフィールドの各フィールド内の値を決定することによって単語を処理する手段;とで構成されたことを特徴とするコンピュータ装置。
  22. 前記各単語は、デジタルデータについて固定ビット数を有し、前記処理手段には、単語を構成する各ビットを受け容れるレジスタを有するプロセッサを含むように構成されたことを特徴とする請求項21記載のコンピュータ装置。
  23. 前記処理手段には、単語がどの様に使用されるかを表現する語根(ルート)中にある付加的な複数のフィールド内の値を決定するプロセッサを含むように構成されたことを特徴とする請求項21記載のコンピュータ装置。
  24. データを記憶する方法において:
    分類法の上位レベルが複数のクラスに分かれており、分類法の下位レベルが複数のサブクラスに分かれており、該分類法の各レベルは各語根(ルート)内のフィールドで表現されている場合に、語根のためのツリー構造をした分類法を形成するステップと;
    各語根が単語を形成しかつ該単語の特徴を表現している場合に、各単語を形成する複数の語根を結合するステップと;そして
    前記単語を記憶するステップ;とで構成されたことを特徴とするデータ記憶方法。
  25. 語根(ルート)のための分類法は所定の個別規則を含み、この個別規則により語根を形成するフィールドで表現されるクラスおよびサブクラスが、単語を形成する一つの語根と結合した他の語根内の複数のフィールドに基づいて変更されるように構成されたことを特徴とする請求項24記載のデータ記憶方法。
  26. 単語を形成するために結合した少なくとも一つの語根(ルート)により表現された特徴が、同じ単語を形成するために結合した他の語根に参照されるように構成されたことを特徴とする請求項24記載のデータ記憶方法。
  27. 前記結合のステップには、否定ビットで各語根(ルート)が否定的に解釈されるか否かを示す場合に、単語を形成する複数の語根と一連の否定ビットが結合することを含むように構成されたことを特徴とする請求項24記載のデータ記憶方法。
  28. 前記結合のステップには、単語がどの様に使用されるかを表現する一つの語根(ルート)と前記複数の語根とが結合するステップを含むように構成されたことを特徴とする請求項24記載のデータ記憶方法。
JP2002582390A 2001-04-17 2002-04-17 機械で読み取り可能な熟語を使用してデータを記憶するためのシステムと方法 Pending JP2005509205A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/835,400 US7516063B1 (en) 2001-04-17 2001-04-17 System and method for storing data using a machine readable vocabulary
PCT/US2002/011943 WO2002084518A1 (en) 2001-04-17 2002-04-17 System and method for storing data using a machine readable vocabulary

Publications (1)

Publication Number Publication Date
JP2005509205A true JP2005509205A (ja) 2005-04-07

Family

ID=25269416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002582390A Pending JP2005509205A (ja) 2001-04-17 2002-04-17 機械で読み取り可能な熟語を使用してデータを記憶するためのシステムと方法

Country Status (5)

Country Link
US (1) US7516063B1 (ja)
EP (1) EP1390867A1 (ja)
JP (1) JP2005509205A (ja)
CA (1) CA2443576A1 (ja)
WO (1) WO2002084518A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219190A (ja) * 2006-02-17 2007-08-30 Murata Mach Ltd 音声認識装置と認識方法及びそのプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4473702B2 (ja) * 2004-11-02 2010-06-02 株式会社東芝 機械翻訳システム、機械翻訳方法及びプログラム
US10733223B2 (en) * 2008-01-08 2020-08-04 International Business Machines Corporation Term-driven records file plan and thesaurus design
JP5819860B2 (ja) * 2010-02-12 2015-11-24 グーグル・インコーポレーテッド 複合語分割

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4384329A (en) * 1980-12-19 1983-05-17 International Business Machines Corporation Retrieval of related linked linguistic expressions including synonyms and antonyms
US5754847A (en) * 1987-05-26 1998-05-19 Xerox Corporation Word/number and number/word mapping
US5056021A (en) 1989-06-08 1991-10-08 Carolyn Ausborn Method and apparatus for abstracting concepts from natural language
US6101490A (en) 1991-07-19 2000-08-08 Hatton; Charles Malcolm Computer system program for creating new ideas and solving problems
US5737732A (en) * 1992-07-06 1998-04-07 1St Desk Systems, Inc. Enhanced metatree data structure for storage indexing and retrieval of information
US5873056A (en) 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5838965A (en) * 1994-11-10 1998-11-17 Cadis, Inc. Object oriented database management system
US5794050A (en) 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US5708822A (en) 1995-05-31 1998-01-13 Oracle Corporation Methods and apparatus for thematic parsing of discourse
US6026388A (en) 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5778157A (en) 1996-06-17 1998-07-07 Yy Software Corporation System and method for expert system analysis using quiescent and parallel reasoning and set structured knowledge representation
US6622142B1 (en) * 1999-04-13 2003-09-16 Staktek Group, L.P. Database utilities
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US6332143B1 (en) 1999-08-11 2001-12-18 Roedy Black Publishing Inc. System for connotative analysis of discourse

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219190A (ja) * 2006-02-17 2007-08-30 Murata Mach Ltd 音声認識装置と認識方法及びそのプログラム

Also Published As

Publication number Publication date
CA2443576A1 (en) 2002-10-24
WO2002084518A1 (en) 2002-10-24
US7516063B1 (en) 2009-04-07
EP1390867A1 (en) 2004-02-25

Similar Documents

Publication Publication Date Title
List et al. Sequence comparison in computational historical linguistics
Anderson et al. The influence of family groups on inferences made with the program Structure
Hayes et al. Evaluation of three strategies using DNA markers for traceability in aquaculture species
CN110223742A (zh) 中文电子病历数据的临床表现信息抽取方法和设备
EP0964344A2 (en) Method of and apparatus for forming an index, use of an index and a storage medium
Baronchelli et al. The biological origin of linguistic diversity
CN105975458B (zh) 一种基于细粒度依存关系的中文长句相似度计算方法
CN105938495A (zh) 实体关系识别方法及装置
CN107609644A (zh) 用于状态机中的数据分析的方法及系统
CN102214232A (zh) 一种文本数据相似度的计算方法及装置
da Silva Júnior et al. A roadmap toward the automatic composition of systematic literature reviews
CA2836220A1 (en) Methods and systems for matching records and normalizing names
CN111159412A (zh) 分类方法、装置、电子设备及可读存储介质
Paraskevopoulou et al. Differential response to heat stress among evolutionary lineages of an aquatic invertebrate species complex
CN115344504B (zh) 基于需求规格说明书的软件测试用例自动生成方法及工具
US20090234852A1 (en) Sub-linear approximate string match
Winkler et al. Sectioned or whole otoliths? A global review of hard structure preparation techniques used in ageing sparid fishes
CN106815265A (zh) 裁判文书的搜索方法及装置
JP2005509205A (ja) 機械で読み取り可能な熟語を使用してデータを記憶するためのシステムと方法
Dowling et al. Population structure in the Roundtail Chub (Gila robusta complex) of the Gila River basin as determined by microsatellites: evolutionary and conservation implications
Omar Feature selection in text clustering applications of literary texts: A hybrid of term weighting methods
Östergren et al. Close relatives in population samples: evaluation of the consequences for genetic stock identification
Nédellec et al. WTO, an ontology for wheat traits and phenotypes in scientific publications
Jónsson et al. The effect of growth rate on otolith-based discrimination of cod (Gadus morhua) ecotypes
Lloréns et al. Automatic generation of domain representations using thesaurus structures

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070406

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070703

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070711

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071012