JP2003517686A - 情報コード化および検索システムとその方法 - Google Patents

情報コード化および検索システムとその方法

Info

Publication number
JP2003517686A
JP2003517686A JP2001546007A JP2001546007A JP2003517686A JP 2003517686 A JP2003517686 A JP 2003517686A JP 2001546007 A JP2001546007 A JP 2001546007A JP 2001546007 A JP2001546007 A JP 2001546007A JP 2003517686 A JP2003517686 A JP 2003517686A
Authority
JP
Japan
Prior art keywords
word
code
information
input
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001546007A
Other languages
English (en)
Inventor
キム、シハン
Original Assignee
キム、シハン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR20000069722A external-priority patent/KR100389166B1/ko
Application filed by キム、シハン filed Critical キム、シハン
Publication of JP2003517686A publication Critical patent/JP2003517686A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/381Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using identifiers, e.g. barcodes, RFIDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 本発明はコード化された情報を用いた検索エンジンシステムおよび同システムを用いた検索方法に関する。前記システムは、入力単語を入力する入力部;情報が基本単語に細分化されて単語コードにコード化されて貯蔵されているデータベース;および前記入力部また利用者情報入力装置を通じて入力された入力単語を基本単語の単語コードにコード化し、前記データベースに貯蔵された情報を検索してコード化された入力単語の単語コードに該当する情報を探す中央処理装置を含む。

Description

【発明の詳細な説明】
【0001】 [技術分野] 本発明は情報コード化および検索システムに関し、より詳しくは情報の概念を
基本単語と細分化して単語コードにコード化し、その単語コードを用いてそれに
該当する情報を検索する情報コード化および検索システムとその方法に関する。
【0002】 [背景技術] 最近にはインターネットを通ずる情報交換が急に増加されており、これにした
がってインターネットで求める情報を迅速、正確に探すことができる多様な検索
エンジンなどが開発されている。
【0003】 しかしながら、従来の検索エンジンなどは利用者により入力される単語と一致
する情報のみを検索するので、インターネット利用者が検索しようとする情報と
一致する単語を知らない場合には、求める情報を容易に探すことができない場合
が時々発生して利用者が求める情報を迅速、正確に探すことができない問題点が
ある。
【0004】 したがって、インターネット利用の急な増加にしたがって利用者が求める情報
を迅速、正確に探すことができる検索エンジンの開発が要求されている。
【0005】 本発明は前記のような従来の問題点を解決するためのもので、利用者が求める
情報を迅速、正確に探すことができる情報コード化および検索システムを提供す
ることにその目的がある。
【0006】 [発明の開示] 前記目的を達成するための本発明にしたがう情報コード化および検索システム
は、 入力単語を入力する入力部; 情報が基本単語に細分化されて単語コードにコード化されて貯蔵されているデー
タベース;および 前記入力部または利用者情報入力装置を通じて入力された入力単語を基本単語の
単語コードにコード化し、前記データベースに貯蔵された情報を検索してコード
化された入力単語の単語コードに該当する情報を探す中央処理装置を含んで構成
される。
【0007】 前記データベースには多数のコンピュータープログラムを駆動させる命令語お
よび各プログラムを記述した単語らが貯蔵され、前記中央処理装置は入力単語を
基本単語の単語コードにコード化し、前記データベースを検索してコード化され
た入力単語の単語コードに該当する命令語を選び、選ばれた命令語に該当するプ
ログラムを自動で遂行することができる。
【0008】 前記中央処理装置は入力部を通じて入力された入力単語を基本単語の単語コー
ドにコード化してデータベースに貯蔵することができる。
【0009】 前記中央処理装置は入力単語が基本単語のみからなる場合には基本単語の単語
コードにコード化し、入力単語が複合単語からなる場合にはその複合単語を基本
単語に細分化した後、基本単語の単語コードにコード化する。
【0010】 本発明では前記利用者情報入力装置に、入力単語を入力する利用者入力部、前
記入力単語を基本単語の単語コードにコード化して前記中央処理装置に伝送する
利用者処理装置および前記コード化のための単語コードリストが貯蔵されている
利用者データベースを設置している。この時、前記中央処理装置は別途のコード
化作業なく利用者処理装置から伝送された基本単語コードに該当する情報を探す
【0011】 本発明のシステムは、情報を表示するディスプレイ部および利用者システムま
た他のサーバーと連結されるインタフェース部をさらに含む。
【0012】 本発明は、情報を基本単語に細分化して基本単語の単語コードにコード化して
データベースに貯蔵する段階;入力単語を基本単語の単語コードにコード化する
段階;およびデータベースに貯蔵された情報を検索して入力単語の単語コードに
該当する情報を探す段階を含む情報コード化および検索方法を提供する。
【0013】 前記入力単語が基本単語のみからなる場合には基本単語の単語コードにコード
化し、入力単語が複合単語からなる場合にはその複合単語を基本単語に細分化し
た後、基本単語の単語コードにコード化する。
【0014】 前記コード化段階で、基本単語になることができる単語の中で互いに類似また
同一な意味がある単語らは一つだけ選ぶ。また、入力単語を説明する単語の中で
意味を有する重要な単語のみを選択してコード化する。そして、基本単語のコー
ド桁を一定に維持しながらコード化し、単語コード内に基本単語の機能とか品詞
などにしたがってコード配置順序を定めてコード化することができる。
【0015】 前記入力単語が外国語である場合には、その外国語と同一な意味を有する該当
韓国語と同一な単語コードにコード化する。
【0016】 前記入力単語が文章である場合には、文章を構成する各単語の役割にしたがっ
て役割コードを付与して該当単語の役割を容易に分かるようにコード化すること
ができる。
【0017】 また、前記入力単語が文章である場合には、前記入力単語を基本単語に細分化
して単語コードにコード化する段階;および前記データベースを検索してコード
化された単語コードと一致する単語コードを有する情報を探す段階を含む。
【0018】 前記データベースに入力単語の単語コードと一致する単語コードがない場合に
は、入力単語の名詞、動詞、形容詞に該当する単語コードと一致する名詞、動詞
、形容詞を有する情報を探す段階;および前記情報がない場合に品詞に関係なく
入力単語の名詞、動詞、形容詞に該当する単語コードと一致する単語コードを有
する情報を探す段階を含む。
【0019】 前記品詞に関係なく入力単語の名詞、動詞、形容詞に該当する単語コードと一
致する単語コードを有する情報がない場合には、入力単語の主単語コードと一致
する主単語コードを有する情報の中で構成単語コードが一番多く一致する情報を
探す段階をさらに含む。
【0020】 前記入力単語が二つ以上の意味を有する重意語である場合には、各々の意味を
説明する単語コードを比べ、その中で一つの単語コードを選んでコード化する。
【0021】 また、前記重意語の構成単語コードと他の単語の構成単語コードを比べて重意
語の二つ以上の単語コードの中で一つの単語コードを選び、選ばれた単語コード
で重意語をコード化する。
【0022】 前記重意語のコード化は、前記入力単語を二つ以上の意味を有する重意語と一
つの意味を有する一般単語と区分する段階;前記一般単語を単語コードにコード
化する段階;および前記重意語を複数個の重意語単語コードにコード化し、各重
意語の単語コードとそれ以外の単語コードとの一致度を判断し、一致度が高い重
意語の単語コードを選び、前記重意語を選ばれた重意語の単語コードにコード化
する段階を含む。
【0023】 前記重意語が二つ以上である場合には、各重意語に対して順序を付与し、順序
が付与された重意語の各々の単語コードにも順序を付与し、重意語が有すること
ができる全ての単語コードの組合わせを通じて複数個の単語コードセットを作る
段階;および前記各セットの内で構成単語コードを比べて一番多く一致する構成
単語コードを有する単語コードセットを選び、前記重意語を前記選ばれた単語コ
ードセットとコード化する段階を含む。
【0024】 また、各重意語が有する各々の単語コードを他の重意語および一般単語の単語
コードと比べ、一致度が高い重意語単語コードを選び、前記重意語を選ばれた重
意語単語コードとコード化することもできる。
【0025】 前記重意語単語コードの構成単語コードを比べる時には、重意語の単語コード
の構成単語コードを比べ、比較対象である構成単語コードには単語が属する領域
を表わすコードも含まれる。
【0026】 前記検索段階は、情報を検索しようとする利用者に検索語を入力するためのメ
ニューを提供する段階;前記利用者が入力する検索語を基本単語の単語コードに
コード化する段階;前記コード化された単語コードを利用して前記データベース
を検索する段階;および前記検索された単語コードに該当する情報を利用者に提
供する段階を含む。
【0027】 前記検索語の単語コードがデータベースにない場合には、検索語を説明するメ
ッセージ入力を要求する段階;前記検索語を説明するメッセージが入力されると
検索語を説明する単語を基本単語と細分化し、主単語コードと構成単語コードを
含む単語コードにコード化する段階;および前記コード化された単語コードを用
いて前記データベースを検索する段階をさらに含む。
【0028】 前記コード化された単語コードを用いて検索する段階は、前記検索語の主単語
コードと一致する主単語コードを有する単語コードを検索する段階;前記主単語
コードが一致する単語コードの中で、前記検索語の構成単語コードと一致する構
成単語コードを有する単語コードを検索する段階;前記検索語の構成単語コード
と一致する構成単語コードを有する単語コードの中で検索語の主単語コードと構
成単語コード以外のコードが一番多く一致する単語コードを選んでそれに該当す
る情報を利用者に提供する段階を含む。
【0029】 前記検索段階では、検索しようとする情報と検索対象となる情報を構成してい
る構成要素単語コードの種類と頻度数を調査して類似な情報を検索することがで
きる。
【0030】 前記類似情報の検索において、基本単語に番号を付与して各基本単語をベクト
ル空間での座表軸に表わし、基本単語の頻度数を各座表軸の目盛りで表わして各
々の情報をベクトル空間での位置値として表わして検索することができる。
【0031】 以下、本発明を添付された図面を参照してより具体的に説明する。
【0032】 [発明を実施するための最良の形態] 図1は本発明にしたがう情報コード化および検索システムのブロック図である
【0033】 図1に表わすように、本発明にしたがう情報コード化および検索システム10
(以下、‘システム’という)は、多数の情報を表わす入力単語を入力する入力
部11、情報の概念が基本単語に細分化されて単語コードにコード化されて貯蔵
されているデータベース13および利用者情報入力装置30を通じて入力された
入力単語(また“検索語”という)を基本単語の単語コードにコード化し、前記
データベース13に貯蔵されたコード化された多数の情報を検索して入力単語の
単語コードに該当する情報を探す中央処理装置12を含む。
【0034】 また、本発明のシステム10は、情報を表示するディスプレイ部14および利
用者情報入力装置30また他のサーバーとのデータ送受信のために前記中央処理
装置12の制御にしたがって動作するインタフェース部15をさらに含む。
【0035】 このような本発明のシステム10で、入力部11を通じて入力される多数の情
報は中央処理装置12により基本単語に細分化されて所定の規則にしたがって基
本単語の単語コードにコード化されてデータベース13に貯蔵される。利用者情
報入力装置30を通じて入力された入力単語の単語コードをもとにしてデータベ
ースに貯蔵された情報の中から入力単語に該当する情報を検索してその結果を利
用者情報入力装置30に提供したりディスプレイ部14に表示するものである。
【0036】 前記データベース13は、インターネットサイトおよびシステム操作に必要な
データを貯蔵する操作データベース131と、情報の概念が基本単語に細分化さ
れて単語コードにコード化されて貯蔵されている単語データベース132とから
なる。
【0037】 また、前記中央処理装置12は、操作データベース131に貯蔵されたデータ
をもとにしてウェブサイトおよびシステムを操作するウェブサイト運営部121
と、情報の概念を基本単語に細分化して単語コードにコード化して単語データベ
ース132に貯蔵し、入力単語を基本単語に細分化して単語コードにコード化す
るデータ処理部122およびデータ処理部122でコード化された単語コードを
もとにして前記単語データベース132から入力単語に該当する情報を検索する
データ検索部123とからなる。
【0038】 本発明にしたがうシステム10に接続できる利用者情報入力装置30としては
、コンピューターが利用されることができる。
【0039】 つぎに前記のような本発明のシステムをもとにして遂行される情報コード化方
法および検索方法においてのコード化規則に対して説明する。
【0040】 1)本発明では情報の概念を表わす単語らを基本単語と複合単語とに分類し、こ
こで複合単語は1つより多い基本単語を含む。 通常的に単語はある概念とか物の形状などを現わす。少なくとも2つの異なる
単語で表わされる概念や、物事が多数存在する。
【0041】 たとえば、“手”という単語は“指または掌部分”を表わし、“高官”という
単語は“高い官職にある人”という他の単語におきかえることができる。
【0042】 本発明では基本的に情報の概念を表わす全ての単語らを基本骨格となる単語、
すなわち、他の単語の説明に用いられる基本単語と複合単語に分けられる。複合
単語は多数の基本単語に分けられる。したがって、本発明では情報を表わす全て
の単語らを少なくとも一つ以上の基本単語で表わすことができる。
【0043】 このような論理は人間の理解体系に根拠を於いている。すなわち、本発明は人
間は既に知っている単語と概念を組み合わせて新しい単語とか概念を理解すると
いう原理に基づいて、全ての単語に対する根本となる基本単語を作って全ての単
語をこのような基本単語で表わす単語コード体系を完成したものである。
【0044】 ここで、基本単語は言語表現において、基本骨格になる単語から選ぶことが望
ましい。したがって、複合単語の特徴をもっていても言語表現で骨格となること
ができるなら基本単語として選ぶことができる。たとえば、“官”という単語は
国家事務に関することを意味するので、“官”は複合単語となるが、官は、また
他の単語を説明する単語として用いられるので、骨格になる基本単語となり得る
【0045】 2)形状などを象徴的に表わす単語は基本単語として用いられる。 たとえば、“手”という単語は“指と掌部分”を表わすことができるが、その
ままでもだれでも手の形状を分かるので前記のようにその意味を説明しなくても
基本単語としてそのまま用いて一つのコードとしてコード化することができる。
【0046】 3)固有名詞とか物などを称する名詞は基本単語となることができるし、他の基
本単語でも表わすことができる。 たとえば、“白亜館”という単語はほぼ固有名詞として用いられるので、基本
単語として一つのコード“whh”と表わすことができる。また、“白亜館”は基
本単語からなる“アメリカの大統領が住む家”と表わして“アメリカ(usa)大
統領(president)が(subject)住む(live)(adjective)家(house)⇒usa-
pre-su-liv-adj-hou”とコード化できる。したがって、“白亜館”は二つのコー
ド“whh”と“usa-pre-su-liv-adj-hou”としてコード化できる。もう1つの例
として、“エリザベス・テーラー”は、エリ(eli)にコード化することができ
る。また、有名な(fam)、女優(act)、米国の(usa)、と表わすこともでき
る。したがって、“エリザベス・テーラー”は“eli”とも“fam-act-usa”とも
コード化することができる。このように本発明では基本単語も他の基本単語とし
て表わすことができる。
【0047】 4)同一な意味を有する基本単語らは一つのみを選んで同一なコードでコード化
することができ、または、互いに区分されるように別々にコード化することがで
きる。 たとえば、韓国語の“マル”という単語と“言語”という単語は、同じ意味を
持つので、“lan”という同一コードにコード化することができ、また互いに区
別されるように“マル”は“lan-01”として、“言語”は“lan-02”としてコー
ド化できる。
【0048】 5)各単語らはその単語の品詞を分かるようにコード化する。 基本単語は各単語の基本形を原則として選ばれ、その基本形が変化される時に
変化形を分かるようにコード化する。たとえば、形容詞形であると“adj”に、
名詞形であると“nou”などの別途のコードを付与する。
【0049】 本発明では言語が違っても意味が同一な場合には同一単語コードを用いるが、
英語と韓国語で選ばれる基本単語の品詞が互いに違う場合もあるので、単語コー
ドの後ろに基本単語が名詞である場合には“n”表示をし、動詞である場合には
“v”を表示する。
【0050】 たとえば、韓国語の“愛”は名詞形のみであるので、基本単語のコードは“lo
v-n”であり、そのまま“lov”という単語コードを有することができるが、英語
の“love”は名詞としても動詞としても使用されるので、“lov-n”、“lov-v”
というコードを各々用いてその単語の品詞を分かるようにする。
【0051】 6)コード化時に、設定された順序にしたがってコードを配列する。 たとえば、修飾を受ける単語の位置を定め、修飾を受ける単語に該当するコー
ドを一番最後に配置する。
【0052】 7)外国語である場合にも前記記述した方法を同一に適用する。 韓国語での基本単語は英語でも基本単語としてコードも同一に付与する。たと
えば、韓国語の“言語”は英語の“ランゲージ(language)”に該当され、“言
語”が基本単語である場合には“ランゲージ”も基本単語となる。そして“言語
”のコードが“lan”であれば、“ランゲージ”も“lan”にコード化される。
【0053】 8)該当分野別に基本単語を適切に選ぶことができるし、該当単語が属する分野
が分かるようコード化する。 前記記述した本発明にしたがう情報コード化および検索方法で、基本単語を選
ぶの場合、たとえば、“液晶表示装置”である場合、これらは基本単語として表
わすことが容易ではないが、“液晶表示装置”が新たな技術分野になれるので、
“液晶”と“表示装置”を各々基本単語として用いることができる。
【0054】 したがって、各基本単語のコードごとに該当分野を表わすようにそれぞれのコ
ードを付与することができる。たとえば、“液晶表示装置(liquid crystal dis
play)”を“lic dis”とコード化した場合に“液晶表示装置”という分野に属
する能動素子(active matrix)は“lic dis act ma”とコード化して能動素子
が属する分野を容易に分かるようにする。
【0055】 9)ある単語が二つ以上の意味(重意語)を有する場合には、その単語は、二つ
以上のコードにコード化される。 たとえば、韓国語の“顔”という単語は人の体の一部である顔(face)を表わ
す意味と、化粧(make up)を表わす意味を有する。したがって、各々の意味が
区別されるように人の体を表わす時は“fac”のコードで表わし、化粧を表わす
時は“mup”のコードで各々表わすことができる。
【0056】 10)程度を表わす基本単語はその程度が分かるようにコード化することができる
。 たとえば、“赤い(rad)”という意味を表わす単語は“赤い”、“真っ赤に
”“真紅の”“赤くなる”などがあり、この単語らは赤いという程度を別々に表
わしている。この単語らは全部“赤い”という意味を有するので、“red”とい
うコードを有することができるし、赤い程度を数値1〜10に表わすと、“真っ
赤に”は“red(10)-adv”に、“真紅の”は“red(8)-adj”に、“赤い”は“red
(3)-adj”に、“赤くなる”は“red(1)-adj”にコード化することができる。
【0057】 前記規則にしたがってコード化されることができる基本単語らのコードらは互
いに区別されるべきである。本発明では前記規則らを選択的に組合わせて情報の
概念をコード化する。また、基本単語らを適切な個数内に設定して情報をコード
化する。この場合、基本単語と設定された数字が少ない場合には複合単語があん
まり多い基本単語と細分化されるので、コード化に所要される時間の増加および
メモリの貯蔵領域が増加される。
【0058】 したがって、基本単語を適正な数に設定して効率的なコード化作業になるよう
にすることが大切であり、本発明で基本単語は、つぎの通り選定されることがで
きる。
【0059】 第一に、使用頻度が多い単語の中で意味が同一なものを最初に選択する。この
時、品詞が違っても意味が同一であると一つのみを基本単語に選択する。たとえ
ば、単語“痛み(pain)”が基本単語に選定されるとその変化形である“痛い(
painful)”とか類似な意味を有する“苦痛(suffering)”は基本単語から除外
される。
【0060】 第二に、基本単語は原則的に名詞、動詞また形容詞である。
【0061】 第三に、単語の中で他の単語らを説明するために用いられる単語を基本単語に
選定する。
【0062】 第四に、基本単語の性格はないが社会でほぼ基本単語のように用いられる単語
も基本単語に選定する。
【0063】 たとえば、インターネット、電話、通信、コンピューター、遺伝子、バイオ、
プログラム、ゲーム、プロ、スポーツ、映画、俳優、スター、新聞、テレビ、カ
ーセット、CD、人間、大統領、株式などは基本単語に選定することができる。
【0064】 一方、単語の説明内容を全部単語コードとして表表わするものは、一つの単語
に対応する単語コードの長さがとても長くなるので一つの単語に対応する単語コ
ードの桁数(長さ)は縮める必要がある。つぎに単語コードの長さを縮める方法
に対して説明する。
【0065】 A)基本単語の単語コードの桁を一定に維持しながら最小化する。 本発明では単語コードの桁数を2とし、この際、単語コードに用いられる文字
は英語のアルファベットのみならずアラビア数字、そして特定記号、たとえば“
$、#、%、/、&、+”などを用いることができる。これにしたがって単語コ
ードの桁は多様にコード化することができる。
【0066】 英語のアルファベットのみを用いる時には総576個の基本単語のみコードと
して表わすことができるので、アラビア数字とか特定記号を追加に用いて2桁の
コードを用いてより多い基本単語を表わすことができる。
【0067】 たとえば、基本単語である痛さ(pain)、酸いもの(acid)、向う(across)
の単語は各々“p1”、“a2”、“#c”などにコード化されることができる。
【0068】 一方、アスキーコードを考慮した単語コード8ビットを基本とする255個の
文字の中で、前記の“アルファベット小文字、アラビア数字、$、#、%、/、
&、+”を除外した余りの文字も単語コードとして活用することができる。この
時、前記アルファベット文字は2つの桁で基本単語を表わし、余りの文字は1つ
の桁で基本単語を表わして単語コードの桁をより減少させることもできる。
【0069】 すなわち、基本単語の数が1140個であり、基本単語のコードの桁が2桁で
ある時、アルファベット小文字、アラビア数字および“$、#、%、/、&、+
”の記号で表わすことができる種類は1600個である。したがって、前記文字
以外に215個の単語を用いて基本単語を表わすことができる。
【0070】 より詳しくは、215個の文字は一つの桁で基本単語を表わし、他の40個の
文字は二つの桁で基本単語を表わすので、余りの40個の文字は二つの桁に基本
単語を表わすので、全体的な単語コードの桁は少なくなる。したがって、記憶装
置の記憶容量を減少させることができる。
【0071】 B)1つの単語を記述する多数の単語らをコード化する場合に単語コード内に配
置順序を定める。 本発明ではある単語を説明する多数の単語らをコード化する場合に主題語にな
る単語を主単語といい、余りの単語らを構成単語という。便宜上、ある単語を説
明する多数の単語らを説明文という場合、その説明文を構成する各々の単語らは
つぎのような順序で配置される。
【0072】 品詞を表わすコード−主単語コード−修飾語とか動詞的機能をする構成単語コ
ード−主単語が存在する領域を表わすコードまた副詞句。
【0073】 ここで、構成単語の中で修飾語とか動詞的機能をする構成単語コードは任意に
選択することができる。このように単語コードの順序が配置されるので、ある単
語を説明する多数の単語らに対する各々の品詞は表示する必要がない。
【0074】 たとえば、白亜館を単語コードで表わすために、白亜館を説明する“アメリカ
(usa)大統領(pre)が(su)住む(liv)(adj)家(hou)”という説明文を
コード化すると、白亜館という単語は“usa-pre-su-liv-adj--hou”とコード化
される。これを前記規則(A〜B)にしたがって簡略化して再配置すると、白亜
館の簡単な単語コードは“nholipr-ius”になる。ここで、“n”は品詞(白亜
館の品詞)を表わすコード、“ho”は主単語コード、“li”および“pr”は修飾
語とか動詞的機能をする構成単語コードとして“住む”と“大統領”を表わし、
“−”は主単語が存在する領域である副詞句を表わすコード、“us”はアメリカ
を表わすコード、“i”は“〜内に”という場所を表わすために用いられたコー
ドである。このように単語コードの長さを縮めて簡単にコード化することができ
る。
【0075】 また、主単語コードを修飾する単語コードと動詞的機能をする構成単語コード
の区別をために主単語コードの後に別途の“=”を配置して以後に配置されるコ
ードが動詞的機能をする構成単語コードであることをわかるようにすることがで
きる。
【0076】 このように単語コードの内に配置順序を定めるので、単語コードの内で各コー
ドの役割が分かり、各コードの役割を表示するためのコードが省略されて単語コ
ードの長さを縮める。
【0077】 C)多数の単語らをコード化する場合に重要単語のみ選択的にコード化すること
ができる。 ある単語を説明するコード数を減少させるために、説明文でその意味を表わす
のに直接な影響を及ぼす重要単語のみを選択してコード化することができる。重
要単語は名詞、動詞、形容詞などに限定されるが、これらも重要単語の選定で除
外されることもできる。
【0078】 たとえば、“白亜館”が意味するものは“アメリカの大統領が住む家”である
。ここで、“アメリカ”、“大統領”、“家”はその意味に直接な影響を及ぼす
重要単語であるが、“住む”という単語は省略してもその意味を分かることがで
きるので、“住む”に該当する単語コードを省略して“アメリカの大統領が住む
家”をコード化することができる。
【0079】 他の例として、“エンジン”は“スチーム、電気、石油などで動力を作る動く
部品を有する機械類”を意味する。この説明文を構成する単語らは全部が基本単
語ではないので、これを基本単語に代えてコード化すると、その大きさがとても
長くなる。この説明文では“動力(po)”、“機械(ma)”、“スチーム(st)
”、“電気(el)”、“作る(mk)”、“油(ol)”が重要単語と選別されるこ
とができるし、これをもとにしてコード化するとエンジンの簡単な単語コードは
“nmamkpo-fstelol”になり、ここで“−”は領域を表わし、“f”は“〜から
”を表わすコードである。このように重要単語のみを選別してコード化するとそ
の大きさを減少させながら充分に意味を伝達することができる。
【0080】 このような重要単語の選別は機械的アルゴリズムより人の判断によって行なわ
れることが望ましい。
【0081】 D)単語と単語の間を連結させる論理的関係を表わす“または(or)”、“そし
て(and)”を“o”と“a”とコード化してフレーズや単語が連結される関係
を表示することもできる。 たとえば、前記“nmamkpo-fstelol”で、スチム(st)、電気(el)、油(ol
)の三つの単語がor論理を用いて連結されることが分かる。
【0082】 E)単語が該当する分野別で基本単語を適切に選択することができるし、コード
化時に該当単語が属する分野が分かるようにする。 このためには各分野別にコードを付与し、その分野を表わすコードは単語の最
前に位置させる。たとえば、ある単語が半導体とか医学分野の単語である場合に
は、該当単語の単語コードの前に“se”とか“me”のようなコードを付与する。
【0083】 前記のように分野を表わすコードを単語コードに付与すると、検索しようとす
る単語が属する領域を判断することができる。すなわち、単語コードに付与され
ている分野を表わすコードと同一な領域で情報を検索できるようになる。
【0084】 たとえば、医学分野に属する“弁膜”という単語は“心臓(ha)で(-i、in)
血(bl)の流れ(fl)を調節(co)する器官(or)”のような基本単語と説明
されることができる。したがって、“弁膜”という単語を基本単語とコード化す
ると“menor=coblfl-iha”になり、ここで、“me”は医学分野を表わすコード
、“n”は該当単語の品詞が名詞であることを表わし、“or”は主単語である“
器官を表わすコード、“=”は後ろに羅列される単語が動詞的な機能をする構成
単語コードであることを表わす。
【0085】 また、領域とか分野を表わす単語コードの一番目のアルファベットは品詞を表
わすアルファベットn,v,a,dであってはならない。これは検索時にコード
の一番目のアルファベットを用いて入力される単語をある領域に限定させる必要
があるかの可否を判断するためのものである。
【0086】 F)基本単語を違う基本単語からなるコードで表わすことができる。 たとえば、“冷たい(cold)”という単語は基本単語であり、これは“cl”と
いう一つのコードで表わすことができる。しかしながら、単語検索とか類似な単
語の活用を容易にするために“冷たい”という単語をその意味を説明する基本単
語で表表わすると、“普通(us)より(t)低い(lo)温度(te)状態”とでき
るし、これをコード化すると“atelo-tus”になる。
【0087】 したがって、“冷たい”という単語は“cl”という基本単語コードとその記述
文コードである“atelo-tus”というコードで表わすことができる。このように
基本単語はそれ自体のコードと共にその意味を説明する説明文コードを有するこ
とができる。したがって、検索時にはこの二つのコードが生成される。たとえば
、“冷たい”という単語が検索語で入力されると、“cl”と“atelo-tus”の二
つの単語コードが生成されて二つの単語コードと一致する情報を検索するように
なる。
【0088】 本発明では情報の概念のコード化され、貯蔵される基本単語らが選定される。
表1に選定された基本単語のリストを示した。本発明で選定された各基本単語ら
は意味を記号的に表わし、英語であらわされるいる。しかしながら、本発明はこ
れに限定されず、任意の言語を用いて基本単語を選定することができる。
【0089】 前記基本単語リストに添付された単語は全部一つの意味のみ表わす。
【0090】 本発明では前記基本単語を単語コードにコード化する方法により文章をコード
化できる。つぎに文章をコード化する方法を例をあげて説明する。
【0091】 本発明では入力単語を基本単語に細分化して各基本単語をアルファベットとか
アラビア数字などからなる単語コードにコード化する。前記入力単語は一つの単
語、句または節であることが可能である。入力単語を基本単語としてコード化し
たものを単語コードと呼び、単語コードを構成する2桁のコードを構成単語コー
ドという。本発明では入力単語が文章である場合、入力単語を構成する各単語に
役割コードを付与する。
【0092】 たとえば、“2000年代にはエンジン技術が日毎に電子化されている”とい
う文章をコード化すると、“2000年代にはエンジン(nmamkpo-fstelolor)
技術(nkn-iscinan)が日毎に電子(nel)化されて(vbc)いる”とコード化す
ることができる。この文章の主語は“技術”であり、“エンジン”は修飾語であ
り、叙述役割をする単語は“電子化”である。この際、主語の役割コードを“S
”、修飾語の役割コードを“A”、叙述語の役割コードを“V”、副詞句コード
を“T”として文章での役割を表わすコードを該当単語に付与できる。
【0093】 ここで、“エンジン”は、“スチーム、電気あるいは、石油などを用いて動力
を作る可動部分をもつ機械”を意味する。エンジンを説明する説明文を構成する
すべての単語が基本単語ではないので、これらの単語を基本単語に変換してから
コード化するべきである。そうしないと、変換されたコードが長すぎることにな
る。したがって、説明文の中のパワー(po)、機械(ma)、スチーム(st)、電
気(el)、発生(ge)および石油(ol)が重要単語として選ばれる。このように
して、単純化されたエンジンの単語コードは“nmamkpo-ustelol”となる。コー
ド“−”は領域を示し、“f”は“使用”(using)のコードである。上述のよ
うに重要単語のみが選択されてコード化されるとコードの長さが短縮されるが、
エンジンの意味はすべて表現されている。
【0094】 そして、“技術”は“科学(sc、science)と(a、and)工業(in、industry
)での知識(kn、know)”という基本単語として表わすことができるので、前記
のようなコード化規則によれば“nkn-iscinan”という単語コードとして表わす
ことができる。単語コード“n”は“技術”の品詞が名詞であることを表わし、
コード“an”は“sc”と“in”が互いに論理積の連結関係を有することを表わす
【0095】 このように表現される単語コードに各(単語の該当文章で遂行される役割を現
わす)役割コードを付与すると、“2000年(nyrT)代にはエンジン(nmamkp
o-fstelolorA)技術(nkn-iscinanS)が日毎に電子(nelV)化されて(vbcV)い
る”と表わすことができる。ここで、役割コードは本来の単語コードと区別する
ために大文字を用いた。
【0096】 他の例で“アメリカにいるクリトン大統領(npr)は白亜館(nhoofpr-ius)で
目が回るほど忙しく住んで(vli)いる”という文章の場合、“クリトン”は固
有名詞(C)で、“大統領”は主語(S)で、“白亜館で”は場所を表わす副詞
句(P)で、“住んで”は叙述(V)を表わす単語で、“アメリカに”も場所を
表わす副詞句(P)である。このような文章に役割を付与してコード化すると“
usPClinton(C)nprS nhoofpr-iusP vliV.”とコード化することができる。
【0097】 このように本発明での文章のコード化は文章内で意味を有する重要単語のみを
選定して役割コードを付与してコード化するものである。この場合には文章で用
いる終止符のようなものをそのまま用いて文章と文章の間を区別できるようにす
る。
【0098】 参考に、クリトンは固有名詞であるので、固有名詞を表わすコード“C”を付
与し、固有名詞は単語コードに変換されない。
【0099】 一方、文章の中での単語らの役割(品詞)は、従来の言語学にもとづくさまざ
まな方法で分析することができる。
【0100】 また、単語の役割は、従来の言語処理プログラムのような計算機プログラムを
用いて自動的に分析できる。実際に文章内の各単語の役割分析に関する理論は翻
訳プログラムなどに用いられている。
【0101】 そして、場所を表わす副詞句とか時間を表わす副詞句などは該当単語に付随し
て隣接する助詞を分析して分かる。たとえば、白亜館は場所を現わす名詞であり
、これらの名詞が“〜で”(“at”)などのような助詞とともに用いられると、
場所を表わす副詞句になる。また、2000年、2時などのような時間を表わす
名詞においても“〜に”(“at”)のような助詞が付くと時間を表わす副詞句に
なる。このような単語の種類と単語と共に用いられた助詞の種類にしたがって場
所とか時間などを表わす副詞句の区別ができる。勿論、英語では“in”などのよ
うな前置詞が用いられる時を場所とか時間を表わす副詞句と区別することができ
る。
【0102】 このように、文章の全体を現わす概念を用いて情報を検索することができる。
すなわち、このようにして情報検索の精度を高めることができる。
【0103】 つぎに、前記本発明の特徴にしたがう情報コード化および検索方法に対して具
体的な実施例をあげてより詳しく説明する。
【0104】 本発明の第1実施例にしたがう情報コード化および検索方法は多数の基本単語
からなる単語コードに関する。
【0105】 たとえば、“特殊文字”という単語はその自体のみでは意味が分からないので
、“普通と違う言語とか言葉を表わす符号”という基本単語として表わすことが
できる。したがって、前記コード化方法を用いて“普通(com)(as)と違う(d
if)(adj)言語(lan)とか(or)言葉(lan)(obj)を表わす(rep)(adj)
符号(sym)=com-as-dif-adj--lan-or-wor-obj-rep-adj--sym”とコード化する
ことができる。
【0106】 ここで、“特殊文字”の代表的な意味は“符号”という言葉に含蓄されている
ので“符号”が主要単語である。このように、コードのなかで一番核心的な基本
単語はコードの最後に位置される。コードの最後に位置するコード主要単語であ
り、主単語コードを除外した余りのコードを構成単語コードと命名する。しかし
ながら、単語コードの中で、単語の品詞を表わすコード“obj”、“adj”とか接
続詞を表わす“or”、“and”などは構成単語コードに含まれない。すなわち、
ある単語の単語コードが“(1)-adj-(2)-(3)-(4)”である場合に主単語コードは
“(4)”になり、構成単語コードは“(1)、(2)、(3)”になる。
【0107】 このように第1実施例では全ての情報の概念が前記情報コード化方法により基
本単語に細分化されて単語コードとコード化され、単語データベース132(図
1)に貯蔵される。本発明の実施例にしたがう情報コード化方法は多様な文章を
コード化する翻訳などのプログラムを応用して用いることができる。
【0108】 図2に本発明の第1実施例にしたがう情報コード化および貯蔵方法の流れを図
示した。
【0109】 本実施例では単語の分類作業により基本単語らを選定し、選定された基本単語
らを前述した方法によりコード化して単語データベース132に貯蔵するもので
ある。説明の便宜のために選定された基本単語らの単語コードが記録されている
単語コードリスト(表1)を作成した。前記単語データベース132には全ての
単語の中で、基本単語に選定されない単語らの意味を説明する単語らが記録され
ている単語リストも貯蔵されており、これをもとにして他の単語らをコード化す
る。
【0110】 図2に図示された通り、本発明のシステム10の入力部11などを通じて貯蔵
しようとする情報を表わす単語(以下、入力単語という)を入力すると、中央処
理装置12は単語データベース132に貯蔵されている単語コードリストを検索
して入力単語が設定された基本単語であるか否かを判断する(S100〜S11
0)。入力単語が基本単語である場合には中央処理装置12のデータ処理部12
2が入力単語を単語コードにコード化して単語データベース132に貯蔵する(
S120)。たとえば、手という単語を入力した場合、手は基本単語であるので
、単語コードリストをもとにして手という入力単語を該当する単語コードにコー
ド化する。
【0111】 一方、入力単語が基本単語ではない場合には、単語データベース132に貯蔵
されている単語リストをもとにして入力単語の意味を説明する単語らにしたがっ
て入力単語をコード化する。すなわち、データ処理部122は入力単語の意味を
説明する単語らが全部基本単語である場合には、単語コードリストをもとにして
各単語らをコード化して入力単語を単語コードとして貯蔵する(S130〜S1
40)。
【0112】 前記入力単語の意味を説明する単語らが全部が基本単語ではなく複合単語を含
む場合には、複合単語を基本単語に細分化して全部を基本単語に構成した後、全
ての基本単語を単語コードリストをもとにコード化する(S150〜S190)
【0113】 一方、多数の複合単語らを基本単語と細分化する過程で、互いに同一な意味を
有する基本単語らの有無を判断し、ある場合には同一な意味を有する基本単語の
中の一つを選択する(S200〜S210)。
【0114】 このように入力単語を説明する多数の複合単語らを各々基本単語らと細分化し
た後、データ処理部122は各基本単語らを単語コードリストをもとにしてコー
ド化して単語データベース132に貯蔵するものである(S220)。
【0115】 たとえば、白亜館という単語をコード化して貯蔵しようとする場合、白亜館の
意味はアメリカの大統領が住む官邸である。この意味を表わす単語らは“アメリ
カの大統領”という基本単語と“官邸”という複合単語を含んでいる。この場合
、“官邸”は“高い地位の官吏が住む家”という基本単語に細分することができ
るので、入力単語は“アメリカの大統領および高い地位の官吏が住む家”の基本
単語らで表わすことができる。
【0116】 この際、アメリカの大統領には既に高い地位の官吏という意味も含まれている
ので、“高い地位の官吏”を省略して入力単語を“アメリカの大統領が住む家”
と表わすことができる。したがって、入力単語白亜館は“アメリカの大統領が住
む家”に該当するコード、たとえば“usa-pre-su-liv-adj--hou”とコード化さ
れて単語データベース132に貯蔵される。
【0117】 つぎに、このように貯蔵されているデータをもとにして求める情報を検索する
検索方法について説明する。図3aおよび図3bに本発明の第1実施例にしたが
う情報検索方法の流れを図示した。
【0118】 図3aに図示した通り、入力部11または利用者情報入力装置30を介在した
インターフェース部15を通じて検索しようとする検索語が入力されると、中央
処理装置12のデータ処理部122は検索語を前記単語データベース132への
貯蔵時と同一な規則にしたがってコード化する。たとえば、白亜館という検索語
が入力された場合には単語データベース132に貯蔵されているデータをもとに
して“usa-pre-su-liv-adj--hou”にコード化し、データ検索部123がコード
化された検索語をもとにして単語データベース132を検索する(S300〜S
320)。
【0119】 コード化された検索語と一致する単語コードが単語データベース132に存在
する場合には、中央処理装置12のデータ検索部123はディスプレイ部14を
通じて検索語と一致する単語コードに該当する単語すなわち、情報を表示する(
S330〜S340)。
【0120】 一方、コード化された検索語と一致する単語コードが単語データベース132
にない場合には、ディスプレイ部14また利用者情報入力装置に検索語を説明す
る単語の入力を要求するメッセッジを表示する。これにしたがって入力部11ま
たインターフェース部15を通じて検索語を説明する多数の単語らが入力される
と、中央処理装置12のデータ処理部122は前記コード化方法により入力され
る単語らを基本単語に細分化した後、コード化する(S350〜S360)。こ
の時、コード化された単語らは前記主単語コードと構成単語コードを含む単語コ
ードを含んでいる。
【0121】 つぎに、コード化された単語をもとにして単語データベース132を検索する
。データ検索部123は単語データベース132を検索して検索語単語コードの
主単語コードと同一な主単語コードを有する情報、すなわち単語コードを探す(
S370)。主単語コードが一致する単語コードが存在しない場合には、さらに
ディスプレイ部14を通じて新しい検索語入力を要求するメッセージを表示する
(S380〜S390)。
【0122】 一方、検索語単語コードの主単語コードと一致する単語コードが単語データベ
ース132に存在する場合には、主単語コードが一致する単語コード(以下、第
1単語コードという)の中で、検索語単語コードの全ての構成単語コードと一致
する構成単語コードを有する単語コード(以下、第2単語コードという)がある
かを検索する(S400)。
【0123】 検索語単語コードの構成単語コードと全部一致する構成単語コードを有する単
語コードが存在する場合には、第2単語コードの中で検索語単語コードから、主
単語コードと構成単語コードを除外した残りの、たとえば単語の品詞コードが一
番多く一致する単語コードを選択する(S410)。そして、選択された単語コ
ードに該当する単語、すなわち情報をディスプレイ部14を通じて表示する(S
420)。
【0124】 一方、第1単語コードの中で、検索語単語コードの構成単語コードが全部一致
する単語コードがない場合には図3bに図示された情報検索を実施する。図3b
では情報検索の効率性を高めるために、多数の基本単語で表現される検索語単語
コードの中に単語と単語の間の論理関係、すなわちオアとアンドに該当するコー
ドが含まれているかにしたがってつぎの通り検索を遂行する。
【0125】 第1単語コードの中で、各々の構成単語コードが検索語単語コードの構成単語
コートと全部一致する単語コードがない場合には、先に第1単語コードの中、単
語と単語の間の論理的関係を表わす論理積アンドコードを含んでいることを検索
し、論理積アンドを含んでいる場合にはアンドで連結された構成単語コードが検
索語単語コードの構成単語コードと一致するものを選択し、選択された単語コー
ドに該当する情報をディスプレイ部14を通じて表示する(S430〜S450
)。
【0126】 一方、第1単語コードの中で、論理積アンドを含んでいるものがない場合には
、さらに単語と単語の間の論理合関係を表わすオアコードを含んでいるものを検
索し、論理和オアを含んでいる場合には論理和オアと連結された構成単語コード
が検索語構成単語コードと少なくとも一つ以上一致するものを選択し、選択され
た単語コードに該当する情報をディスプレイ部14を通じて表示する(S460
〜S480)。
【0127】 前記段階(S430、S460)に記述した条件を満足する単語コードがない
場合には、単語と単語の間にアンドコードを含む第1単語コードの中でアンドと
連結された構成単語コードが検索語構成単語コードと一番多く一致するものを選
択し、選択された単語コードに該当する情報を表示する(S490〜S500)
【0128】 ここで、アンドコードで連結された構成単語の数は、検索語の主単語コードと
構成単語コードを全部含んでいてもよい。たとえば、検索語の単語コードが“(
1)−(2)−(3)”であり、(1)、(2)が構成単語コードであり(3)
が主単語コードであると、“(5)−(6)−(1)−(2)−(3)”の単語
コードを有する、すなわち、検索語の主単語コードと構成単語コードを有してい
る情報を選択することも含む。
【0129】 しかしながら、第1単語コードの中で、単語と単語の間にアンドまたオアコー
ドを含むものがない場合には、構成単語コードが検索語単語コードの構成単語コ
ードと一番多く一致するものを選択し、選択された単語コードに該当する情報を
ディスプレイ部14を通じて表示する(S510〜S520)。
【0130】 前述した通り、検索語の単語コードを主単語コードと構成単語コードに分けて
検索するので、より正確に求める情報を検索することができる。
【0131】 つぎには、本発明の第2実施例にしたがう情報コード化および検索方法に対し
て説明する。
【0132】 本発明にしたがう第2実施例では、入力される検索用の文章の入力単語の個数
によって異なった方法で入力単語がコード化され、貯蔵されるものに関する。こ
の第2実施例で本発明にしたがう情報コード化および検索システムの構成は前記
第1実施例と同一であるので、システム構成の説明は省略する。
【0133】 第2実施例では、入力単語の個数にしたがってコード化する方法を変え、入力
単語が一つである場合には前記第1実施例と同一に一つの入力単語が基本単語で
あるか否かによりコード化する。すなわち、基本単語である場合には単語コード
リストをもとにしてコード化し、基本単語ではない場合にはその入力単語を説明
する複数の単語をもとにしてコード化する。
【0134】 しかしながら、入力単語が二つである場合には、各入力単語を順序の通りコー
ド化し、各単語が区分されるように別途の記号、たとえば“:”を用いてコード
化する。
【0135】 たとえば、入力単語が“慶尚道官邸”である場合に、“慶尚道”のコードが“
kyu”であり、“官邸”の単語コードが“hig-adj-sit-in-be-adj-off---su-liv-
adj--hou”であるときに、入力単語“慶尚道官邸”は“kyu:hig-adj-sit-in-be
-adj-off---su-liv-adj--hou”とコード化される。
【0136】 入力単語が二つ以上である文章からなる場合にも、前記と同一に各単語らを単
語コードリストをもとにしてコード化して各単語の間を“:”を用いて区分する
。この時、入力文章が否定文である場合には、否定文であるものを表わす“(−
)”などの記号を用いてコード化する。また、たとえば、入力文章が過去である
場合には“pa”というコードを、現在である場合には“pr”というコードを、未
来である場合には“fuというコードを別途に追加してその文章の時制を分かるよ
うにする。”
【0137】 また、入力単語の順序は任意の言語を基準にする。また、入力単語が文章を構
成する場合には、単語コードの順序を考慮すべきである。
【0138】 第2実施例でも各々の入力単語らが基本単語であるか否かを判断し、第1実施
例のように、複合単語らを含む場合には複合単語らを基本単語に細分化させた後
にコード化する。
【0139】 図4に本発明の第2実施例にしたがう情報検索方法の流れ図が示されている。
【0140】 図4で、入力部11またはインターフェース部15を通じて検索しようとする
検索語が入力されると、中央処理装置12は検索語が一つであるかを判断する(
S600〜S610)。一つである場合には検索語が基本単語であるかを判断す
る(S620)。検索語が基本単語である場合には、検索語を該当単語コードに
コード化し、単語データベース132を検索して検索語の単語コードと一致する
コードを有する単語を探す(S630)。
【0141】 しかしながら、検索語が一つであり基本単語ではない場合には、検索語を基本
単語に細分化してコード化した後に、この単語らをもとにして単語データベース
132を検索する(S640〜S650)。また、検索語と同一なコードを有す
る資料がない場合には、第1実施例のように検索語を主単語コードと構成単語コ
ードに分けた後に、主単語コードが同じな単語をまず探してその後に、その単語
の中で構成単語コードが検索語の構成単語コードと一番多く一致する単語コード
を有する単語を探す(S670)。
【0142】 一方、段階(S610)で入力された検索語が1つより多い場合には、まず検
索語が文章であるか否かを判断し(S680)、検索語が文章である場合には、
前述したように検索語を基本単語に細分化してコード化する(以下、前記検索語
との区別のために文章である検索語を“文章検索語”という)。
【0143】 つぎに、コード化された文章検索語をもとにして単語データベース132を検
索して文章検索語の単語コードと同じなコードを探す(S690〜S700)。
単語データベースに一致する単語コードがない場合には、文章検索語内での各単
語の品詞別に検索する。すなわち、動詞は動詞同士、形容詞は形容詞同士、名詞
は名詞同士、比較をする。本実施例では前記第1実施例に記述した通り、コード
化時に文章内での品詞が形容詞である場合には“adj”、名詞である場合には“n
ou”などの品詞を示すコードが付与されるので、コード化された文章検索語で各
単語の品詞を容易に区別することができる。
【0144】 したがって、文章検索語と同じ品詞に該当する単語コードがない場合には単語
の品詞を考慮せずに文章検索語の品詞と一致する単語コードを探す(S710〜
S720)。
【0145】 すなわち、“愛”の単語コードが“lov”であり、“愛する”の単語コードが
“lov-ver”であるとき、品詞を考慮せずに“lov”と“lov-ver”を同じ単語コ
ードと判断して単語データベースを検索する。
【0146】 一方、単語の品詞を考慮しないにもかからわず、文章検索語と一致する単語コ
ードを有する情報がない場合には、第1実施例のように、文章検索語の主単語コ
ードが一致する文章の中で構成単語コードが一番多く一致する文章を探す(S7
30)。ここで、文章検索語と一致する否定文がある場合には、その否定文を検
索する。
【0147】 一方、段階(S680)で検索語が一つ以上であるが文章になっていない場合
には、検索語を基本単語にコード化した後、コード化された検索語と一致する単
語コードを有する情報を検索し(S740〜S750)、一致する単語コードを
有する情報がない場合には、検索語の主単語コードが同一なコードを有する情報
の中で構成単語コードが一番多く一致する情報を探して提供する(S760)。
【0148】 前述した方法は、外国語検索時にも同一に適用されることができる。入力単語
、すなわち検索語が一つとか二つ以上でも文章にならない場合には、同一な単語
コードを探し、同一な単語コードがない場合には、主単語コードと構成単語コー
ドを用いて構成単語コードが一番多く一致するものを探す。また、検索語が文章
になる場合には、まず文章になる構成要素である単語が全部同一な単語コードを
探し、つぎに単語の品詞別に意味が同一な単語を有する単語コードを探し、また
品詞を考慮しなくて意味が同一な単語を有する単語コードを探す。
【0149】 前記本発明の第1および第2実施例にしたがう情報検索方法をもとにして、コ
ンピューターの各種プログラムを駆動させるための命令語らを本発明にしたがう
情報コード化方法によりコード化して単語データベースに貯蔵することができる
。前記命令語が検索語として入力されると前記検索動作を遂行して、入力された
命令語と一致する単語コードを探すことができる。探した単語コードに該当する
プログラムを自動に実行することができる。
【0150】 このようにプログラムが自動に実行されるようにシステムを具現する時、利用
者は該当プログラムを駆動させる命令語のかわりに遂行させようとするプログラ
ムを表わす多数の単語を入力する。その多数の単語をコード化した後、単語デー
タベースに貯蔵されている各プログラムに該当するコードの中で入力された単語
コードと一致するものを探し、そのコードに該当するプログラムを自動に実行す
ることができる。
【0151】 図5に、本発明の第3実施例にしたがう、情報コード化および検索方法を用い
てコンピュータープログラムを自動に実行する過程が順次的に図示されている。
【0152】 図5に図示されるように、コンピュータープログラム命令語を前記方式にした
がってコード化して、命令語データベースに貯蔵される。利用者が実行命令語を
入力して実行させようとするプログラム種類を選択すると(S800〜S810
)、入力命令語を前記のようにコード化し、このコード化された実行命令語をも
とにして命令語データベースを検索して実行命令語と一番一致するプログラム命
令語を選択する(S820)。つぎに、選択された命令語を表示して利用者が実
行させようとする命令語を確認して、利用者が実行させようとする命令語である
場合にはこの命令語に該当するプログラムを実行させる(S830〜S850)
。選択された命令語が利用者が実行させようとする命令語ではない場合には命令
語の再入力を要求する(S860)。
【0153】 一方、利用者が実行させようとするプログラム種類を選択しない場合には、前
記段階(S820)と同一に、コード化された実行命令語をもとにして命令語デ
ータベースを検索して一致するプログラム命令語を選択し(S870)、選択さ
れた命令語が利用者が実行させようとするものであるかを確認する(S880)
。該当命令語に対応されているプログラムが多数個存在する場合には、さらに命
令語にしたがって実行されるプログラムを利用者が選択するようにした後(S8
90)、利用者が選択した実行命令語にしたがってプログラムを実行する(S9
00)。また、利用者が選択したプログラムがない場合には、さらに検索語を再
入力する(S910)。
【0154】 前記実施例にしたがう本発明のシステム10は図1の通り、インターネット2
0に連結されて情報検索サービスを提供するウェブサイトとして運営されること
ができる。この場合に、利用者が情報入力装置30を用いてインターネット20
を通じてウェブサイトと接続すると、前記システム10は前記のように情報検索
動作を遂行し、検索された情報をインターネット20を通じて利用者情報入力装
置30に提供するものである。
【0155】 また、本発明では利用者情報入力装置30にも処理装置およびデータベースを
設置して利用者が直接コード化することができるので、検索の正確性と検索速度
をより向上させることができる。この時、前記システム10の中央処理装置12
は別途のコード化作業なしに前記データベースにあるコード化された多数の情報
を検索して単語コードに該当する情報を探す。
【0156】 図6に利用者情報入力装置30にデータベースおよび処理装置が構築されてい
る本発明の第4実施例にしたがうシステム10の構成が図示されている。
【0157】 図6に図示されるように、第4実施例にしたがうシステム10は第1実施例と
同一であり、ただ、利用者情報入力装置30に入力された検索語を基本単語の単
語コードにコード化してシステム10の中央処理装置12に伝送する利用者処理
装置32およびコード化のための単語コードリストが貯蔵されている利用者デー
タベース31および入力部33がさらに含まれている。
【0158】 図7に図6のシステム10をもとにして構成される本発明の第4実施例にした
がう情報検索方法の流れ図が示されている。
【0159】 利用者が情報入力装置30の入力部33を通じて検索語を入力すると、利用者
処理装置32は入力された検索語に該当する単語コードが利用者データベース3
1にあるかを判断し(S1000〜S1100)、その単語コードが利用者デー
タベース31にあり、かつその単語コードが1つである場合には、検索語を第1
実施例のようにコード化した後にインターネット20を通じてシステム10に伝
送する(S1200〜S1400)。これにしたがってシステム10の中央処理
装置12は別途のコード化作業なしに伝送される単語コードをもとにして単語デ
ータベース132を検索して検索語に該当する情報を探して利用者情報入力装置
30に提供する。
【0160】 一方、入力された検索語が2つ以上の意味を有してその単語コードが2つ以上
である場合(重意語)には、入力単語が意味することを画面上に表示して利用者
が選択できる(S1500〜S1600)。検索語を選択された意味に該当する
コードに変換した後、インターネット20を通じてシステム10に伝送する(S
1700〜S1800)。
【0161】 また、入力された検索語が利用者データベース31にない場合には、利用者処
理装置32は検索語を綴字分析して入力された検索語に一番近い綴字を有する単
語を利用者データベース31から探す(S1900)。そして、検索された単語
を画面上に表示して利用者が探そうとする情報に関する単語であるかを確認でき
る(S2000)。検索された単語が確認されると前記段階(S1200)に記
述されたように、検索された単語に該当する単語コードが一つまた一つ以上であ
ることを判断してコード化した後、その単語コードをインターネット20を通じ
てシステム10に電送する。
【0162】 しかしながら、検索された単語が利用者が探そうとする単語ではない場合には
、利用者に検索語の再入力を要求するメッセージを画面上に表示し(S2100
)、これにしたがって新しい検索語が入力されると前記段階を反復的に遂行する
(S1100〜S2000)。
【0163】 このように利用者情報入力装置30にコード化のための利用者データベース3
1と利用者処理装置32が備えられているので、検索速度がより向上されるもの
である。
【0164】 また、利用者が入力した検索語が利用者データベース31にない場合には、シ
ステム10の単語データベース132を通じて単語コードとコード化したり、検
索語を説明する単語(図2、順序図参照)をさらに入力して単語データベース1
32を検索して単語コードとコード化する二つの方法で検索動作を遂行すること
もできる。
【0165】 そして、利用者情報入力装置30から伝送された単語コードがシステム10の
単語データベース132に貯蔵されない場合には、システム10は情報入力装置
30に検索語の再入力を要求するメッセージを伝送し、これにしたがって情報入
力装置30は検索語再入力を要求するメッセージを画面上に表示して利用者が検
索語を再入力するようにすることができる。
【0166】 前記本発明の実施例らは入力単語をその意味により検索しているが、必要によ
り入力単語をそのまま用いて情報を検索することもできる。
【0167】 たとえば、芸能人らの情報がある“スター天国”というウェブサイトを検索す
る場合には、“スター”という単語と“天国”という単語が有する意味で検索す
るよりも単語それ自体で検索するほうが便利であるので、利用者が単語検索また
単語コード検索のいずかれを選択するようにすることもできる。
【0168】 また、単語コード検索を選択する場合には、入力単語が意味することを基本単
語で表わして、その後にこれを単語コードに変換する。この際、利用者の画面に
入力単語を表わした基本単語を表示して利用者が基本単語を選択し、選択された
基本単語の単語コードで情報を検索するように検索領域を設定することもできる
【0169】 また、前記実施例で、利用者が探そうとする情報を各分野別に情報領域と細部
領域が互いに連関されている樹形図を提示して利用者が単語を入力しなくても樹
形図に表示される情報領域と細部領域を選択して検索することができる。
【0170】 図8に本発明の第5実施例にしたがう情報検索方法が順次的に図示されている
【0171】 図8に図示されたように、入力部11またはインターフェース部15を通じて
検索語が入力されると、データ処理部122はまず入力された検索語を前記コー
ド化規則にしたがって単語コードとコード化した後に(S920〜S930)、
単語データベース132を検索して検索語の主単語コードと一致する主単語コー
ドを有する情報を探す。つぎにこのような情報がある場合には、検索語の構成単
語コードと一番多く一致する構成単語コードを有する情報を探す(S940〜S
950)。
【0172】 一方、検索語の主単語コードと一致する主単語コードを有する情報がない場合
には、検索語の構成単語コードを全部含むかあるいは一致する単語コードを有す
る情報を探す(S960〜S970)。この際、検索語が一つまた二つ以上の単
語また文章になっていても同一な方法に情報を検索し、ここで構成要素単語コー
ドは検索語の主単語コードと構成単語コードを全部含む。
【0173】 そして、検索の正確のために検索語の構成要素単語コードを全部含んだり一致
する単語コードを有する情報の中で、構成要素単語コードの内で役割が一番多く
一致する単語コードを有する情報を選択する。
【0174】 たとえば、検索語の構成要素単語コードが“(1)(2)(3)(4)(5)
:(6)(7)(8)(9):(10)(11)(12)(13)(14)”で
あるとき、このような構成要素単語コードを全部含む情報の中で単語コードの内
での役割が一番多く一致する情報を探す。一方、検索語の構成要素単語コードを
全部含んだり一致する単語コードを有する情報がない場合には、検索語の構成要
素単語コードと一番多く一致する構成要素単語コードを有する情報を探す(S9
80)。したがって、検索語の主単語コードと一致する情報がない場合にも、前
述したように検索動作を遂行することによって、求める情報を探すことができる
【0175】 また、図8に図示した検索方法で、前記段階(S940)と段階(S950)
は省略して検索を実施することもできる。この方法では検索語が単語コードに変
換された後に、検索語の構成要素単語コードを全部含んだり一致する情報がある
かを判断する段階(S960)を遂行するようになる。
【0176】 ここで、構成要素単語コードの役割というのは、単語コード内で修飾の役割を
したり動詞的機能を有する単語または副詞句などがこれに該当され、単語コード
内での構成要素の位置が役割と関係されると言えるので、本発明では同一な構成
要素単語コードで位置が同一であると、役割も同一であると判断する。
【0177】 図8での検索原理は、検索語が文章である場合にも同様に適用されることがで
きるし、文章になる検索語内の各構成要素単語コードと同一であるか、または一
番多く一致する情報を検索する。また、検索語が文章であり、その文章の単語コ
ードに役割コードが付与されている時は、役割コードと単語コードを考慮して同
一であるか、または一番多く一致する情報を検索する。すなわち、各単語コード
に文章内での役割を表わす役割コードがあり、役割コードが一致しながら単語コ
ードが一番多く一致する情報を検索することが優先順位が一番高く、2番には主
単語の単語コードと一致しながら他の単語の単語コードと一番多く一致する情報
を検索し、3番目には役割コードを考慮せずに構成要素単語コードが一番多く一
致する情報を検索する。
【0178】 検索語として入力された単語に重意語(二つ以上の意味が存在して一つの単語
に単語コードが二つ以上ある単語)があると、重意語を単語コードにコード化す
るためのアルゴリズムが要る。つぎには重意語を単語コードにコード化する方法
に対して説明する。
【0179】 たとえば、韓国語の“ヌン”には、“目”と“雪”の二つの意味が存在して単
語コードが二つになる。このように一つの単語が二つ以上の単語コードを有する
重意語であると、重意語を単語コードにコード化するための新たな方法が必要に
なる。
【0180】 本発明では重意語の二つ以上の単語コードの中で重意語の構成要素単語コード
と他の単語の構成要素単語コードを比較して一つの単語コードを選択し、選択さ
れた単語コードに重意語をコード化する。ここで、重意語を他の単語の構成要素
単語コードと比較する時、比較対象である他の単語の範囲は、同一の文章内ある
いは検索語である場合には一つの論理を構成する検索語内における同一または類
似な単語である。
【0181】 たとえば、“化学物質メタン分子の大きさ”という文章を単語コードにコード
化する場合、まず“メタン(methane)は化学物質の一つの種類として固有名詞
であるので、化学(chemistry)分野を表わす単語コード“ct”を付与して固有
名詞を表わすコード“C”を付与すると、“メタン”の単語コードは“ctmethan
e(C)”になる。そして、“大きさ(size)”の単語コードは“sz”になる。
【0182】 “分子”の単語は化学分野で用いられる意味と数学分野で用いられる意味が各
々存在するので、“分子”は単語コードが二つ存在するようになる。すなわち、
化学分野で“分子”の意味は“化学(chemistry、ct)で物質を形成する粒子で
あって原子から構成される”である。これらの単語の中で属性(基本)単語を抽
出すると、“化学(chemistry、ct)、物質(material、mt)、形成(form、fm
)、粒子(small(sl)、basic(bs)、material(mt))、原子(atom、ao)”
であるので、単語コードは“ctmtmtbssl=fm-fao”である。
【0183】 また、数学分野で“分子”の意味は“数学(mathemathics、mm)で全体(whol
e、wl)数(number、nb)を分ける(divide、dd)部分(part、pt)”になる。
そして、この中で属性基本単語は“数学(mathemathics、mm)、全体(whole、w
l)、数(number、nb)、分ける(divide、dd)、部分(part、pt)”であるの
で、数学分野で用いられる“分子”の単語コードは“mmpt=ddnbwl”になる。
【0184】 したがって、前記文章“化学物質メタン分子の大きさ”のコード化できる単語
コードはつぎの二つをあげることができるし、その中で一つを選択すべきである
。 1.“ct mt ct methane(C)ctmtmtbssl=fm-fao sz” 2.“ct mt ct methane(C)mmpt=ddnbwl sz”
【0185】 本発明では重意語の単語コードの構成要素単語コードと他の単語の構成要素単
語コードを比較して重意語の2つ以上の単語コードの中で一つの単語コードを選
択し、選択された単語コードに重意語をコード化する。
【0186】 すなわち、前記1番では“分子”の化学分野を表わす領域コード“ct”が“メ
タン”の単語コードにも存在し、“分子”の構成要素単語コード“mt”が“物質
”の単語コードにも存在するが、2番では“分子”の構成要素単語コードの中で
重意語ではない他の単語の構成要素単語コードと一致する構成要素単語コードが
存在しないので、1番が選択されて、““分子”がctmtmtbssl=fm-fao sz”に
コード化される。
【0187】 他の例として、貯蔵された情報あるいは検索語が“アボガドロ(Avogadro)(
固有名詞、C)が説明した(explain、ep)分子”であると、“分子”が重意語
に該当するので、下記のように二つの場合になる。 Avogadro(C)ep ctmtmtbssl=fm-fao Avogadro(C)ep mmpt=ddnbwl
【0188】 この場合には前記二つの全部に、重意語の構成要素単語コードと他の単語の構
成要素単語コードが互いに一致しないので、重意語である“分子”の(特性を表
わす)特性単語コードを比較する。本発明では一つの単語は一つの単語コードで
表わすことを原則としているが、一つの単語を文章で説明する必要がある場合に
は、その単語の特性を説明する複数の単語が用いられる。この場合には、単語は
その単語の標識(tag)と表わされる。化学分野で用いられる“分子”の特性は
“物質を構成する粒子として、原子の化学結合により作られ、イタリアの(Ital
ian)化学者アボガドロが導入した”のように表現される。
【0189】 ここで“結合(Combination)”はjoin(jn) together(tt)”の意味である
ので、“結合”の単語コードは“jntt”である。“化学者(chemist)”の単語
の意味は“化学分野で働く人(person(pr) who work chemistry(ct))”で
あるので、単語コードは“prct”になる。導入(introduction)の意味は“はじ
めて周知のものとする(make(mk) known(kn) first(fs))”であるので、
単語コードは“mkknfs”になる。また、これらの単語コードとして“物質(mate
rial、mt)、構成する(compose=form、fm)、化学(chemistry、ct)、粒子(
material basic small、mtbssl)、原子(atom、ao)”がある。したがって、“
分子”を標識(tag)である特性単語で表わすと“ma fm mtbssl、mk ao ct intt
、Italian(C)prct Avogadro(C)mkknfi”のようにコード化される。
【0190】 この時、化学分野で用いられる“分子”の特性単語の中で“アボガドロ”とい
う固有名詞が存在するので、“アボガドロが説明した分子”は化学分野で用いる
単語とみなされる。
【0191】 このように、本発明では重意語の構成要素単語コードを他の単語の構成要素単
語コードと比較することにおいて、重意語の単語コード以外に重意語の特性単語
コードを構成する構成要素単語コードも比較対象になる。
【0192】 ここで、“化学分野”、“数学分野”などの、各単語が属する領域を意味する
コードを重意語の構成要素単語コードに含ませることもできる。
【0193】 図9a〜図9eには、本発明の第1実施例にしたがって重意語を単語コードに
コード化する方法の流れ図が示されている。
【0194】 図9a〜図9bに図示されているように、(コード化されて)単語データベー
ス132に貯蔵されるべき情報あるいは利用者情報入力装置30を通じて入力さ
れる検索語を単語コードにコード化するために入力単語を設定する(S3100
)。
【0195】 入力単語に二つ以上の単語コードを有する単語、すなわち重意語が存在するか
を判断する(S3110)。前記判断は、システム10の中央処理装置12が単
語データベース132に貯蔵された単語コードをもとにして、入力単語を単語デ
ータベース132で検索して一つの単語に二つの単語コードがあると、該当単語
を重意語であると判断するものである。
【0196】 つぎに、入力単語に二つ以上の単語コードを有する単語がないと、第1実施例
のように入力単語を全部単語コードとコード化し(S3150)、入力単語に二
つ以上の単語コードを有する単語があると、入力単語の中で一つの単語コードを
有する単語のみを単語コードにコード化する(S3120)。たとえば、入力単
語が“化学物質メタン分子の大きさ”であると、その中で重意語ではない単語は
“化学、物質、メタン、大きさ”であるので、まずこれらの単語を単語コードに
コード化する。
【0197】 つぎに、二つ以上の単語コードを有する単語が一つであるか否か判断し(S3
130)、1つであると重意語が有する単語コードに1からnまでの順序を付与
する(S3140)。前記例で、二つ以上の単語コードを有する単語は“分子”
であって1つであり、“分子”の単語コードは二つであるので、“ctmtmtbssl=
fm-fao”の単語コードには1番を付与し、“mmpt=ddnbwl”の単語コードには2
番を付与する。このように重意語の単語コードが4つであると、各々の単語コー
ドに1、2、3、4のように順序を付与する。
【0198】 つぎに、重意語の第1単語コードから第n単語コードまでプログラム上にルー
プ(loop)を形成して各単語コードの構成要素単語コードと他の単語の構成要素
単語コードを比較して一致する構成要素単語コード数をknとする(S3200
〜S3220)。
【0199】 前記例で、重意語である“分子”の第1単語コードは“ctmtmtbssl=fm-fao”
であり、第2単語コードは“mmpt=ddnbwl”である。まず、第1単語コードの構
成要素単語コードと他の単語の構成要素単語コードを比較すると、他の単語の構
成要素単語コードは“ct mt ct methane(C)”であり、この中で“ct”は二回
一致して“mt”は一回一致する。したがって、一致する構成要素単語コードの数
は3であるので、k1=3になる。一方、第2単語コードの構成要素単語コード
と他の単語の構成要素単語コードの中では一致する構成要素単語コードが存在し
ないので、k2=0になる。
【0200】 このように重意語の単語コード数にしたがってnの値が決定され、n番目まで
の単語コードの構成要素単語コードと他の単語の構成要素単語コードを互いに比
較して一致する構成要素単語コードの数にしたがってknの値が定まると、k1
からknの中で一番大きい値を有するkxが選択される(S3230)。選択さ
れたkxと順序が同一である単語コードを選択し、重意語を選択された単語コー
ドとコード化する(S3240〜S3250)。
【0201】 前記例でk1=3であり、k2=0であるので、k1が選択され、選択された
k1と順序が同一した単語コード、すなわち第1単語コードが選択される。した
がって、“分子”の第1単語コードである“ctmtmtbssl=fm-fao”が選択されて
重意語である“分子”の単語コードを“ctmtmtbssl=fm-fao”とコード化する。
そして、段階(S3120)でコード化された残りの単語らと合わせると、入力
単語が全部単語コードにコード化されるものである(S3260)。すなわち、
前記例で入力単語“化学物質メタン分子の大きさ”は“ctmethane(C)mtctmtm
tbssl=fm-fao sz”という単語コードにコード化される。
【0202】 図9cは図9aで重意語が二つ以上である場合の流れ図を示している。
【0203】 重意語が二つ以上である場合には、各々の重意語に対して1からjまで順序を
付与し、順序が付与された1からjまでの各々の単語の単語コードに1からnま
で順序を付与する(S3300〜S3310)。
【0204】 前記段階を入力単語が“重意語1(単語コード三つ)、一般単語1、重意語2
(単語コード二つ)、重意語3(単語コード四つ)、一般単語2”のような形態
を有する場合を例にあげて説明する。
【0205】 重意語が三つであると、各々の重意語に第1番から第3番までの順序を付与し
、各々の重意語は単語コードが二つ以上であるので、各々の単語コードに第1番
から第n番までの順序を付与する。すなわち、重意語1の単語コードが(1)(
2)(10)(20)(20)、(22)(23)(24)(25)、(30)
(35)(36)(38)(40)(41)の三つであると、(1)(2)(1
0)(20)(20)は第1単語コードに、(22)(23)(24)(25)
は第2単語コードに、(30)(35)(36)(38)(40)(41)は第
3単語コードに各々の順序を付与する。
【0206】 前記重意語1の(1)(2)(10)(20)(20)の単語コードで、各々
の括弧は一つの構成要素単語コードを意味し、括弧内の数字は構成要素単語コー
ドを表わす基本単語を互いに区別するために導入した便宜上の例である。
【0207】 同様に、第2重意語と第3重意語の単語コードにも各々第n番の単語コードの
ように順序が付与されて他の単語コードと区別される。このように各々の重意語
と各々の単語コードに順序が付与されると、全ての単語コードは第j番目重意語
の第n番目単語コードのように、単語コードの間に互いを区別することができる
識別符号が付与される。
【0208】 つぎに、第1番から第j番までの重意語を順に選択し、各々の重意語について
第1番単語コードから第n番単語コードまで順に選択して、各々の重意語の数と
各々の単語コードの数をもとにして作ることができる場合の数の組合わせを作る
。前記数の組合わせにより、入力単語が単語コードにコード化されることができ
る単語コードセットを全部羅列し、各々の単語コードセットに第1番から第k番
まで順序を定める(S3320〜S3340)。
【0209】 前記例で作られる単語コードの数の組合の種類は24個になるので、入力単語
がコード化されることができる単語コードのセットはつぎのような形態の24個
になる。 1)重意語1第1単語コード、一般単語1、重意語2第1単語コード、重意語3
第1単語コード、一般単語2 2)重意語1第1単語コード、一般単語1、重意語2第1単語コード、重意語3
第2単語コード、一般単語2 3)重意語1第1単語コード、一般単語1、重意語2第1単語コード、重意語3
第3単語コード、一般単語2 4)重意語1第1単語コード、一般単語1、重意語2第1単語コード、重意語3
第4単語コード、一般単語2 ..... 22)重意語1第3単語コード、一般単語1、重意語2第2単語コード、重意語
3第2単語コード、一般単語2 23)重意語1第3単語コード、一般単語1、重意語2第2単語コード、重意語
3第3単語コード、一般単語2 24)重意語1第3単語コード、一般単語1、重意語2第2単語コード、重意語
3第4単語コード、一般単語2
【0210】 つぎに、第1番から第k番まで各々の場合で、構成要素単語コードを互いに比
較して一致する構成要素単語コードの数を把握し、第1番から第k番までのうち
一致する構成要素単語コード数が一番多い場合を選択する(S3350〜S33
60)。
【0211】 前記例で24個セットの各々に番号kを順序に付与し、各々セット内で構成要
素単語コードの数が一番多く一致する番号を選択する。
【0212】 たとえば、23)番の単語コードが(20)(27)(28)(29)、(2
0)(31)(11)(37)、(40)(41)(31)(99)、(11)
(55)(1)、(11)(60)とすると、(20)の構成要素単語コードが
二回、(31)の構成要素単語コードが二回、(11)の構成要素単語コードが
三回一致する。したがって、これらを全部加えると7になり、結果的に23)番
の一致する構成要素単語コード数は7になる。同様な方法により、第1)番から
第24)番までの全部について一致する構成要素単語コードの数を把握する。こ
こで、第11)番の一致する構成要素単語コードの数を全部加えた値が11で一
番大きいとすると、第11)番の設定された単語コードセットが選択されて入力
単語は第11)番の単語コードにコード化される。
【0213】 前記のように一致する構成要素単語コードを全部加えた値が一番大きい場合が
選択されると、入力単語は選択された場合の単語コードにコード化される(S3
370)。
【0214】 図9cの流れ図での数の組合を作るためのプログラム上のループを図9dに図
示した。ここではj個の重意語があり、各重意語がn個の単語コードを有する場
合を示した。
【0215】 図9dで、第1重意語の第1単語コードから第n単語コードまでに形成される
ループが一番外側のループを形成し、第j重意語の第1単語コードから第n単語
コードまでに形成されるループが一番内側のループを形成する(S3400〜S
3430)。
【0216】 たとえば、入力単語の中で重意語が五個あると、ループは五個存在し、第1重
意語の単語コードが三個存在すると、一番外側に存在する第1重意語のループは
第1単語コードから第3単語コードまで3回遂行される。また、第5重意語の単
語コードが四個存在すると、一番内側に存在する第5重意語のループは第1単語
コードから第4単語コードまで四回遂行される。したがって、入力単語がコード
化されることができる単語コードの場合の数kはつぎの通りである。 k=(第1重意語単語コード数)×(第2重意語単語コード数)×.... ×(第j−1重意語単語コード数)×(第j重意語単語コード数)
【0217】 図9eは、重意語が二つ以上である場合に入力単語をコード化する他の実施例
の方法の流れ図を示している。
【0218】 各々の重意語に第1番から第j番までの番号を付与し、各々の重意語の単語コ
ードに第1番から第n番までの順序を付与する(S3500〜S3510)。
【0219】 つぎに、第1重意語の第1単語コードから第j重意語の第n単語コードまで各
々の単語コードの構成要素単語コードと他の単語の構成要素単語コードを比較し
て一致する構成要素単語コードの数を把握する。すなわち、第j重意語の第n単
語コードの構成要素単語コードが他の単語の構成要素単語コードと一致する数字
をkjnに対応させる(S3520〜S3560)。
【0220】 たとえば、入力単語の第3重意語の単語コードが三つであると、第3重意語の
第1単語コードから第3単語コードまで各々の単語コードの構成要素単語コード
と他の構成要素単語コードを比較した後、一致する構成要素単語コード数を把握
する。もし、第3重意語の第1単語コードで一致する構成要素単語コードの数が
3であり、第3重意語の第2単語コードで一致する構成要素単語コードの数が4
であると、k31=3であり、k32=4になる。
【0221】 kj1からkjnの中で一番大きい数を有するkjxを選択し、第j重意語を
第x単語コードにコード化する(S3570〜S3580)。
【0222】 たとえば、三つの単語コードを有する第3重意語の第1単語コードの構成要素
単語コードが他の単語の構成要素単語コードと一致する数を3とし、第3重意語
の第2単語コードの構成要素単語コードが他の単語の構成要素単語コードと一致
する数を4とし、第3重意語の第3単語コードの構成要素単語コードが他の単語
の構成要素単語コードと一致する数を5とすると、第3重意語は第3重意語の第
3単語コードにコード化される。
【0223】 ここで、他の単語の構成要素単語コードと比較するというのは、他の重意語お
よび他の一般単語の全ての構成要素単語コードと比較するという意味である。す
なわち、第3重意語の第1単語コードと他の単語の単語コードを比較する時、他
の単語が重意語であると、他の単語の重意語が有する単語コードの構成要素単語
コードと全部比較するものである。
【0224】 このような方法を反復遂行して重意語を単語コードとコード化して入力単語は
全部単語コードとコード化される(S3590)。
【0225】 一方、重意語の各単語コードを構成要素単語コードと比較する時、一致する構
成要素単語コードが存在しない場合または、一致する構成要素単語コードの数が
同一な単語コードが二つ以上ある時には、より拡張された比較をすべきである。
拡張された構成要素単語コードの比較は重意語の特性単語(特性をあらわす文章
)の構成要素単語コードを比較をするものである。
【0226】 たとえば、“分子”を化学分野で用いられる特性単語で表わすと、“物質を構
成する粒子として原子の化学結合により作られ、イタリアの化学者アボガドロが
導入した”である。
【0227】 したがって、この特性単語を単語コードで表わすと、“ma fm mtbssl、mk aoA
ctA intt、Italian(C) prct Avogadro(C) mkknfi。”になる。そして、
この特性単語の構成要素単語コードと他の単語の構成要素単語コードを比較して
一致する数を把握する。ここで、特性単語の構成要素単語コードと他の単語の構
成要素単語コードとを比較して重意語を単語コードにコード化する方法は、前述
した重意語の単語コードの構成要素単語コードを比較して重意語を単語コードに
コード化する方法と同一なアルゴリズムによる。
【0228】 また、このような構成要素単語コードを比較する時、比較する構成要素単語コ
ードには該当単語が属する領域を表わす単語も含む。前記領域を表わす単語コー
ドの例として化学(chemistry、ct)分野の領域を表わす“ct”コードをあげる
ことができる。
【0229】 このように、検索する入力単語が単語コードにコード化されるとき、最も類似
した情報を検索しなければならない。したがって、探そうとする情報とどの程度
類似しているかを決める必要がある。
【0230】 情報が類似しているか否かの判断は、各情報をベクトル空間に表わし、ベクト
ル空間での位置として判断することができる。すなわち、ベクトル空間で互いに
角度が近いほど類似な情報になる。
【0231】 基本単語の分析をするためにはまず、言語学的な分析をすべきである。情報を
形成する各単語の形態を分析して各単語の基本形を抽出した後、その基本形によ
って該当単語を単語コードにコード化するものである。そして、情報を形成する
単語が単語コードにコード化される場合、該当情報を形成している構成要素単語
コードの種類と頻度数を分析することができる。
【0232】 すなわち、基本単語の数が1400個であると、各基本単語に第1番から第1
400番までの番号を付与して構成要素単語コードの種類と頻度数を分析すると
、分析対象情報に各々の基本単語が何回用いられているかが分かる。
【0233】 たとえば、基本単語の頻度数を調査してベクトル空間での位置に変換させる。
すなわち、各々の基本単語を仮想ベクトル空間で一つの軸とすれば、基本単語が
1400個であるので分析のためのベクトル空間の座標軸の数字は1400個に
なり、各軸の目盛りは各軸に該当する基本単語の頻度数になる。
【0234】 すなわち、第1基本単語の使用頻度数が0であると、1400個の軸を有する
仮想ベクトル空間で第1番軸の目盛りは0になる。また、第20番目の基本単語
の使用頻度数が5であると、第20番軸の目盛りは5になる。
【0235】 このような方法により、ベクトル空間で分析対象情報Aの値が設定されること
ができ、前記情報Aのベクトル空間での位置をつぎのように表表わすることがで
きる。 (1,0)…(20,5)…(25,7)…(30,12)…(1200,
0)…(1300,3)…(1400,0)
【0236】 ここで、括弧内の1番目の数字は座標軸の順序であり、括弧内の2番目の数字
は該当座標軸の目盛りになる。また、このようなベクトル空間での位置表示を一
般化して表わすとつぎの通りである。 (1,V1),(2,V2),(3,V3),(4,V4),(5,V5)
....(1396,V1396),(1397,V1397),(1398,
V1398),(1399,V1399),(1400,V1400)。
【0237】 このように各情報をベクトル空間での位置として表わすことができ、ベクトル
空間での互いに角度が情報の類似性を示すことになる。
【0238】 以上、前述した通り、本発明を望ましい実施例を通じて説明したが、これは本
発明の説明の便宜のためのものであって、本発明は添付した特許請求の範囲内で
多様な変更および実施ができる。
【0239】
【表1】 [産業上利用可能性] 以上のように、本発明の情報コード化および検索システムは、情報の概念を基
本単語に細分化して基本単語の単語コードにコード化し、その単語コードを用い
てそれに該当する情報を検索することにより、求める情報をより正確で迅速に検
索することができる。
【0240】 また、本発明のコード化および検索方法によると、コンピューターの任意のプ
ログラムを実行しようとする場合に、単語コードによりそれに該当する命令語を
選択することができるので、命令語が不正確な場合にも選択された命令語に該当
するプログラムを正確に自動に駆動させることができる。更に外国語の場合にも
同一、また類似な意味を有する利用者の使用言語の単語コードにコード化して検
索するので、利用者の使用言語を用いて外国語資料を容易に検索することができ
る。
【図面の簡単な説明】
【図1】 本発明にしたがう情報コード化および検索システムのブロック図である。
【図2】 本発明の第1実施例の情報コード化および貯蔵方法の順序図である。
【図3a】 本発明の第1実施例の情報コード化および検索方法の順序図である。
【図3b】 本発明の第1実施例の情報コード化および検索方法の順序図である。
【図4】 本発明の第2実施例の情報コード化および検索方法の順序図である。
【図5】 本発明の第3実施例の情報コード化および検索方法の順序図である。
【図6】 本発明の第4実施例の情報コード化および検索システムの構造図である。
【図7】 本発明の第4実施例の情報コード化および検索方法の順序図である。
【図8】 本発明の第5実施例の情報コード化および検索方法の順序図である。
【図9a】 本発明の第1実施例にしたがう重意語をコード化する方法を表わす順序図であ
る。
【図9b】 本発明の第1実施例にしたがう重意語をコード化する方法を表わす順序図であ
る。
【図9c】 本発明の第1実施例にしたがう重意語をコード化する方法を表わす順序図であ
る。
【図9d】 本発明の第1実施例にしたがう重意語をコード化する方法を表わす順序図であ
る。
【図9e】 本発明の第1実施例にしたがう重意語をコード化する方法を表わす順序図であ
る。
───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号 2000/69722 (32)優先日 平成12年11月22日(2000.11.22) (33)優先権主張国 韓国(KR) (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE,TR),OA(BF ,BJ,CF,CG,CI,CM,GA,GN,GW, ML,MR,NE,SN,TD,TG),AP(GH,G M,KE,LS,MW,MZ,SD,SL,SZ,TZ ,UG,ZW),EA(AM,AZ,BY,KG,KZ, MD,RU,TJ,TM),AE,AG,AL,AM, AT,AU,AZ,BA,BB,BG,BR,BY,B Z,CA,CH,CN,CR,CU,CZ,DE,DK ,DM,DZ,EE,ES,FI,GB,GD,GE, GH,GM,HR,HU,ID,IL,IN,IS,J P,KE,KG,KP,KZ,LC,LK,LR,LS ,LT,LU,LV,MA,MD,MG,MK,MN, MW,MX,MZ,NO,NZ,PL,PT,RO,R U,SD,SE,SG,SI,SK,SL,TJ,TM ,TR,TT,TZ,UA,UG,US,UZ,VN, YU,ZA,ZW

Claims (30)

    【特許請求の範囲】
  1. 【請求項1】 入力単語を入力する入力部; 情報が基本単語に細分化されて単語コードにコード化されて貯蔵されているデー
    タベース;および 前記入力部または利用者情報入力装置を通じて入力された入力単語を基本単語の
    単語コードにコード化し、前記データベースに貯蔵された情報を検索してコード
    化された入力単語の単語コードに該当する情報を探す中央処理装置を含む情報コ
    ード化および検索システム。
  2. 【請求項2】 前記データベースは多数のコンピュータープログラムを駆動
    させる命令語および各プログラムの特徴を表わす単語が基本単語に細分化されて
    単語コードにコード化されて貯蔵され、前記中央処理装置は入力単語を基本単語
    の単語コードにコード化し、前記データベースを検索してコード化された入力単
    語の単語コードに該当する命令語を選び、選ばれた命令語に該当するプログラム
    を自動的に遂行することを特徴とする請求項1記載の情報コード化および検索シ
    ステム。
  3. 【請求項3】 前記中央処理装置は入力部を通じて入力された入力単語を基
    本単語の単語コードにコード化してデータベースに貯蔵することを特徴とする請
    求項1記載の情報コード化および検索システム。
  4. 【請求項4】 前記中央処理装置は入力単語が基本単語のみからなる場合に
    は、入力単語を基本単語の単語コードにコード化し、入力単語が複合単語を含む
    場合にはその複合単語を基本単語に細分化した後、基本単語の単語コードにコー
    ド化することを特徴とする請求項1記載の情報コード化および検索システム。
  5. 【請求項5】 前記利用者情報入力装置は入力単語を入力する利用者入力部
    、前記入力単語を基本単語の単語コードにコード化して前記中央処理装置に伝送
    する利用者処理装置および前記コード化のための単語リストが貯蔵されている利
    用者データベースを含むことを特徴とする請求項1記載の情報コード化および検
    索システム。
  6. 【請求項6】 前記中央処理装置は別途のコード化作業なしに前記データベ
    ースを検索して入力単語の単語コードに該当する情報を探すことを特徴とする請
    求項5記載の情報コード化および検索システム。
  7. 【請求項7】 情報を表示するディスプレイ部および利用者入力装置また他
    のサーバーと連結されるインタフェース部をさらに含むことを特徴とする請求項
    1記載の情報コード化および検索システム。
  8. 【請求項8】 情報が基本単語に細分化されて単語コードにコード化されて
    貯蔵されているデータベースおよび入力部また利用者情報入力装置を通じて入力
    された入力単語を基本単語の単語コードにコード化し、前記データベースに貯蔵
    された情報を検索してコード化された入力単語の単語コードに該当する情報を探
    す中央処理装置を有する情報コード化および検索システムにおいて、 情報を基本単語に細分化して基本単語の単語コードにコード化してデータベース
    に貯蔵する段階; 入力単語を基本単語の単語コードにコード化する段階;および データベースに貯蔵された情報を検索してコード化された入力単語の単語コード
    に該当する情報を探す段階とを含むことを特徴とする情報コード化および検索方
    法。
  9. 【請求項9】 前記入力単語が基本単語のみからなる場合には、基本単語の
    単語コードにコード化し、入力単語が複合単語を含む場合にはその複合単語を基
    本単語に細分化した後、基本単語の単語コードにコード化することを特徴とする
    請求項8記載の情報コード化および検索方法。
  10. 【請求項10】 前記入力単語が外国語である場合には、その外国語と同一
    な意味を有する利用者の使用言語と同一な単語コードにコード化することを特徴
    とする請求項8記載の情報コード化および検索方法。
  11. 【請求項11】 前記コード化段階で、入力単語を説明する単語の中で意味
    を有する重要な単語のみを選んでコード化することを特徴とする請求項8記載の
    情報コード化および検索方法。
  12. 【請求項12】 前記コード化段階で、基本単語になることができる単語の
    中で互いに類似また同一な意味がある単語は一つだけ選んでコード化することを
    特徴とする請求項8記載の情報コード化および検索方法。
  13. 【請求項13】 前記コード化段階で、基本単語のコード桁数を一定に維持
    しながらコード化することを特徴とする請求項8記載の情報コード化および検索
    方法。
  14. 【請求項14】 前記コード化段階で、単語コード内に基本単語の機能や品
    詞などにしたがってコード配置順序を定めてコード化することを特徴とする請求
    項8記載の情報コード化および検索方法。
  15. 【請求項15】 前記入力単語が文章である場合には、文章を構成する各単
    語の役割にしたがって役割コードを付与してコード化することを特徴とする請求
    項8記載の情報コード化および検索方法。
  16. 【請求項16】 前記入力単語が文章である場合には、前記入力単語を基本
    単語に細分化して単語コードにコード化する段階;および前記データベースを検
    索してコード化された単語コードと一致する単語コードを有する情報を探す段階
    とを含むことを特徴とする請求項8記載の情報コード化および検索方法。
  17. 【請求項17】 前記データベースに入力単語の単語コードと一致する単語
    コードがない場合には、入力単語の名詞、動詞、形容詞に該当する単語コードと
    一致する名詞、動詞、形容詞を有する情報を探す段階;および前記情報がない場
    合に品詞に関係なしに入力単語の名詞、動詞、形容詞に該当する単語コードと一
    致する単語コードを有する情報を探す段階とを含むことを特徴とする請求項16
    記載の情報コード化および検索方法。
  18. 【請求項18】 前記品詞に関係なしに入力単語の名詞、動詞、形容詞に該
    当する単語コードと一致する単語コードを有する情報がない場合には、入力単語
    の主単語コードと一致する主単語コードを有する情報の中で構成単語コードが一
    番多く一致する情報を探す段階とをさらに含むことを特徴とする請求項17記載
    の情報コード化および検索方法。
  19. 【請求項19】 前記入力単語が二つ以上の意味を有する重意語である場合
    には、各々の意味を説明する単語コードを比べ、その中で一つの単語コードを選
    んでコード化することを特徴とする請求項8記載の情報コード化および検索方法
  20. 【請求項20】 前記重意語の構成単語コードと他の単語の構成単語コード
    を比べて重意語の二つ以上の単語コードの中で一つの単語コードを選び、選ばれ
    た単語コードで重意語をコード化することを特徴とする請求項19記載の情報コ
    ード化および検索方法。
  21. 【請求項21】 前記入力単語を二つ以上の意味を有する重意語と一つの意
    味を有する一般単語と区分する段階;前記一般単語を単語コードにコード化する
    段階;および前記重意語を複数個の重意語単語コードにコード化し、各重意語の
    単語コードとその以外の単語コードとの一致度を判断し、一致度が高い重意語の
    単語コードを選び、前記重意語を選ばれた重意語の単語コードにコード化する段
    階とを含むことを特徴とする請求項19記載の情報コード化および検索方法。
  22. 【請求項22】 前記重意語が二つ以上である場合には、各重意語に対して
    順序を付与し、順序が付与された重意語の各々の単語コードにも順序を付与し、
    重意語が有することができる全ての単語コードの組合わせを通じて複数個の単語
    コードセットを作る段階;および前記各セットの内で構成単語コードを比べて一
    番多く一致する構成要素単語コードを有する単語コードセットを選び、前記重意
    語を前記選ばれた単語コードセットにコード化する段階とを含むことを特徴とす
    る請求項19記載の情報コード化および検索方法。
  23. 【請求項23】 前記重意語が二つ以上である場合には、各重意語が有する
    各々の単語コードを他の重意語および一般単語の単語コードと比べ、一致度が高
    い重意語単語コードを選び、前記重意語を選ばれた重意語単語コードにコード化
    することを特徴とする請求項19記載の情報コード化および検索方法。
  24. 【請求項24】 前記重意語単語コードの構成要素単語コードを比べる時、
    重意語の特性単語コードの構成要素単語コードも比べ、比較対象である構成要素
    単語コードには単語が属する領域を表わすコードも含まれることを特徴とする請
    求項23記載の情報コード化および検索方法。
  25. 【請求項25】 前記検索段階は、情報を検索しようとする利用者に検索語
    を入力するためのメニューを提供する段階;前記利用者が入力する検索語を基本
    単語の単語コードにコード化する段階;前記コード化された単語コードを利用し
    て前記データベースを検索する段階;および前記検索された単語コードに該当す
    る情報を利用者に提供する段階とを含むことを特徴とする請求項8記載の情報コ
    ード化および検索方法。
  26. 【請求項26】 前記検索語の単語コードがデータベースにない場合には、
    検索語を説明するメッセージ入力を要求する段階;前記検索語を説明するメッセ
    ージが入力されると検索語を説明する単語を基本単語に細分化し、主単語コード
    と構成単語コードを含む単語コードにコード化する段階;および前記コード化さ
    れた単語コードを用いて前記データベースを検索する段階をさらに含むことを特
    徴とする請求項25記載の情報コード化および検索方法。
  27. 【請求項27】 前記コード化された単語コードを用いて検索する段階が、
    前記検索語の主単語コードと一致する主単語コードを有する単語コードを検索す
    る段階;前記主単語コードが一致する単語コードの中で、前記検索語の構成単語
    コードと一致する構成単語コードを有する単語コードを検索する段階;前記検索
    語の構成単語コードと一致する構成単語コードを有する単語コードの中で検索語
    の主単語コードと構成単語コード以外のコードが一番多く一致する単語コードを
    選んでそれに該当する情報を利用者に提供する段階を含むことを特徴とする請求
    項25記載の情報コード化および検索方法。
  28. 【請求項28】 前記コード化された単語コードを用いて前記データベース
    を検索する段階が、検索語の構成単語コードと同一であるか、または一番多く一
    致する情報を検索することを特徴とする請求項25記載の情報コード化および検
    索方法。
  29. 【請求項29】 前記検索段階で、検索しようとする情報と検索対象となる
    情報を構成している構成単語コードの種類と頻度数を調査して最も類似した情報
    を検索することを特徴とする請求項8記載の情報コード化および検索方法。
  30. 【請求項30】 前記類似情報の検索において、前記基本単語に番号を付与
    して各基本単語をベクトル空間での座表軸に表わし、基本単語の頻度数を各座表
    軸の目盛りで表わして各々の情報をベクトル空間での位置値として表わすことを
    特徴とする請求項29記載の情報コード化および検索方法。
JP2001546007A 1999-12-17 2000-12-14 情報コード化および検索システムとその方法 Pending JP2003517686A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
KR19990058696 1999-12-17
KR1999/58696 1999-12-17
KR20000016986 2000-03-31
KR2000/16986 2000-03-31
KR2000/69722 2000-11-22
KR20000069722A KR100389166B1 (ko) 2000-11-22 2000-11-22 정보 검색 시스템과 그 방법
PCT/KR2000/001460 WO2001044986A1 (en) 1999-12-17 2000-12-14 Information coding and retrieval system and method thereof

Publications (1)

Publication Number Publication Date
JP2003517686A true JP2003517686A (ja) 2003-05-27

Family

ID=27350114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001546007A Pending JP2003517686A (ja) 1999-12-17 2000-12-14 情報コード化および検索システムとその方法

Country Status (5)

Country Link
US (2) US6775663B1 (ja)
EP (1) EP1238349A4 (ja)
JP (1) JP2003517686A (ja)
AU (1) AU2029601A (ja)
WO (1) WO2001044986A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101834188B1 (ko) * 2013-12-18 2018-03-05 주식회사 케이티 콘텐츠 정보 공유 방법, 컴퓨팅 장치 및 컴퓨터 판독 가능 매체
WO2019003516A1 (ja) * 2017-06-30 2019-01-03 富士通株式会社 語義特定プログラム、情報生成プログラム、語義特定方法、情報生成方法、語義特定装置および情報生成装置

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003517686A (ja) * 1999-12-17 2003-05-27 キム、シハン 情報コード化および検索システムとその方法
US20030225751A1 (en) * 2000-07-06 2003-12-04 Kim Si Han Information searching system and method thereof
US7620683B2 (en) * 2001-05-18 2009-11-17 Kabushiki Kaisha Square Enix Terminal device, information viewing method, information viewing method of information server system, and recording medium
DE10200704A1 (de) * 2001-08-24 2003-03-20 Jong Won Park Elektronisches Wörterbuchsystem mit Baumstruktur und dessen Ausgabe
US7634930B2 (en) 2002-01-03 2009-12-22 Strattec Security Corporation Lock apparatus and method
TW564532B (en) * 2002-09-19 2003-12-01 Advanced Semiconductor Eng Online IC package search system
WO2005059678A2 (en) * 2003-12-11 2005-06-30 Chau Minh Vuong System and method for providing identification and search information
US7865519B2 (en) * 2004-11-17 2011-01-04 Sap Aktiengesellschaft Using a controlled vocabulary library to generate business data component names
US7856597B2 (en) * 2006-06-01 2010-12-21 Sap Ag Adding tag name to collection
US20080183822A1 (en) * 2007-01-25 2008-07-31 Yigang Cai Excluding a group member from receiving an electronic message addressed to a group alias address
US8661048B2 (en) * 2007-03-05 2014-02-25 DNA: SI Labs, Inc. Crime investigation tool and method utilizing DNA evidence
US20080307071A1 (en) * 2007-06-05 2008-12-11 Oracle International Corporation Retrieving specific hierarchical information using web services
US8571850B2 (en) * 2007-09-13 2013-10-29 Microsoft Corporation Dual cross-media relevance model for image annotation
US8457416B2 (en) * 2007-09-13 2013-06-04 Microsoft Corporation Estimating word correlations from images
US8290989B2 (en) * 2008-11-12 2012-10-16 Sap Ag Data model optimization
US8452794B2 (en) * 2009-02-11 2013-05-28 Microsoft Corporation Visual and textual query suggestion
FR2959046B1 (fr) * 2010-04-19 2012-06-15 Michelin Soc Tech Methode de controle de l'aspect de la surface d'un pneumatique
US8903713B2 (en) * 2011-11-19 2014-12-02 Richard L. Peterson Method and apparatus for automatically analyzing natural language to extract useful information
CN103455160B (zh) * 2012-05-29 2017-07-28 阿里巴巴集团控股有限公司 一种根据地理位置推荐候选词的方法和装置
US10303746B1 (en) 2012-12-21 2019-05-28 CRLK, Inc. Method for coding a vanity message for display
US11010535B1 (en) 2012-12-21 2021-05-18 Crkl, Inc. Method for coding a vanity message for display
CN104267843B (zh) * 2014-09-11 2017-05-17 北京矩道优达网络科技有限公司 基于手持设备端的用于代码设计的智能化输入系统与方法
US20170061018A1 (en) * 2015-01-02 2017-03-02 Timothy Reynard Isaac MetaSpace: augmented data propagation through speech communication
WO2018066083A1 (ja) * 2016-10-04 2018-04-12 富士通株式会社 学習プログラム、情報処理装置および学習方法
JP6737117B2 (ja) * 2016-10-07 2020-08-05 富士通株式会社 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置
US20180249211A1 (en) 2017-02-28 2018-08-30 The Nielsen Company (Us), Llc Methods and apparatus to estimate population reach from marginal ratings
US10602224B2 (en) 2017-02-28 2020-03-24 The Nielsen Company (Us), Llc Methods and apparatus to determine synthetic respondent level data
US10728614B2 (en) 2017-02-28 2020-07-28 The Nielsen Company (Us), Llc Methods and apparatus to replicate panelists using a local minimum solution of an integer least squares problem
US10681414B2 (en) 2017-02-28 2020-06-09 The Nielsen Company (Us), Llc Methods and apparatus to estimate population reach from different marginal rating unions
US10382818B2 (en) 2017-06-27 2019-08-13 The Nielson Company (Us), Llc Methods and apparatus to determine synthetic respondent level data using constrained Markov chains
CN109030137B (zh) * 2018-06-28 2021-07-06 中国石油大学(华东) 一种模拟冻土地层水泥环固结的实验装置及方法
CN109992677B (zh) * 2019-03-14 2021-07-20 浙江大学 基于Valence-Arousal情感空间的图像-音乐匹配系统
US10856027B2 (en) 2019-03-15 2020-12-01 The Nielsen Company (Us), Llc Methods and apparatus to estimate population reach from different marginal rating unions
US11216834B2 (en) 2019-03-15 2022-01-04 The Nielsen Company (Us), Llc Methods and apparatus to estimate population reach from different marginal ratings and/or unions of marginal ratings based on impression data
CN110018968B (zh) * 2019-03-29 2021-07-16 联想(北京)有限公司 一种数据读取方法、电子设备及计算机存储介质
CN112714048B (zh) * 2019-10-24 2024-01-12 博西华电器(江苏)有限公司 智能设备及控制方法、云平台、智能家居系统、存储介质
US11741485B2 (en) 2019-11-06 2023-08-29 The Nielsen Company (Us), Llc Methods and apparatus to estimate de-duplicated unknown total audience sizes based on partial information of known audiences
US11783354B2 (en) 2020-08-21 2023-10-10 The Nielsen Company (Us), Llc Methods and apparatus to estimate census level audience sizes, impression counts, and duration data
US11481802B2 (en) 2020-08-31 2022-10-25 The Nielsen Company (Us), Llc Methods and apparatus for audience and impression deduplication
US11941646B2 (en) 2020-09-11 2024-03-26 The Nielsen Company (Us), Llc Methods and apparatus to estimate population reach from marginals
US11553226B2 (en) 2020-11-16 2023-01-10 The Nielsen Company (Us), Llc Methods and apparatus to estimate population reach from marginal ratings with missing information
WO2022170204A1 (en) 2021-02-08 2022-08-11 The Nielsen Company (Us), Llc Methods and apparatus to perform computer-based monitoring of audiences of network-based media by using information theory to estimate intermediate level unions
CN117356401B (zh) * 2023-11-27 2024-05-14 铜仁学院 一种折叠式遮阳与可拆卸微灌耦合育苗装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110395A (ja) * 1997-09-30 1999-04-23 Toshiba Corp 類似文書検索装置および類似文書検索方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61220027A (ja) * 1985-03-27 1986-09-30 Hitachi Ltd 文書ファイリングシステム及び情報記憶検索システム
JP2993673B2 (ja) 1989-01-27 1999-12-20 株式会社日立製作所 電子ファイル装置
US5317507A (en) * 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US6002753A (en) * 1994-10-05 1999-12-14 Siemens Business Communication Systems, Inc. Method and apparatus for interfacing computers to exchange telephone call business information
AU6849196A (en) * 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
KR100206125B1 (ko) 1996-06-12 1999-07-01 윤종용 음성지원기능을 갖는 가요반주기 및 그 구현방법
KR980005511A (ko) 1996-06-26 1998-03-30 김광호 콘택홀 형성 방법
US6415319B1 (en) * 1997-02-07 2002-07-02 Sun Microsystems, Inc. Intelligent network browser using incremental conceptual indexer
JPH10232878A (ja) * 1997-02-19 1998-09-02 Hitachi Ltd ドキュメント管理方法および装置
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6363373B1 (en) * 1998-10-01 2002-03-26 Microsoft Corporation Method and apparatus for concept searching using a Boolean or keyword search engine
KR20000039700A (ko) * 1998-12-15 2000-07-05 이계철 정보 검색 엔진을 위한 색인어 고정 길이 축약 방법
AUPQ138199A0 (en) * 1999-07-02 1999-07-29 Telstra R & D Management Pty Ltd A search system
JP2003517686A (ja) * 1999-12-17 2003-05-27 キム、シハン 情報コード化および検索システムとその方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110395A (ja) * 1997-09-30 1999-04-23 Toshiba Corp 類似文書検索装置および類似文書検索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101834188B1 (ko) * 2013-12-18 2018-03-05 주식회사 케이티 콘텐츠 정보 공유 방법, 컴퓨팅 장치 및 컴퓨터 판독 가능 매체
WO2019003516A1 (ja) * 2017-06-30 2019-01-03 富士通株式会社 語義特定プログラム、情報生成プログラム、語義特定方法、情報生成方法、語義特定装置および情報生成装置

Also Published As

Publication number Publication date
EP1238349A4 (en) 2005-01-19
US7069265B2 (en) 2006-06-27
EP1238349A1 (en) 2002-09-11
WO2001044986A1 (en) 2001-06-21
AU2029601A (en) 2001-06-25
US6775663B1 (en) 2004-08-10
US20040267733A1 (en) 2004-12-30

Similar Documents

Publication Publication Date Title
JP2003517686A (ja) 情報コード化および検索システムとその方法
TW421764B (en) Input character string estimation and identification apparatus
US6662152B2 (en) Information retrieval apparatus and information retrieval method
Juhasz et al. Tangible words are recognized faster: The grounding of meaning in sensory and perceptual systems
US20120290561A1 (en) Information processing apparatus, information processing method, program, and information processing system
US10552467B2 (en) System and method for language sensitive contextual searching
Espinoza et al. Enriching an ontology with multilingual information
JPWO2005101235A1 (ja) 対話支援装置
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN111401066A (zh) 基于人工智能的词分类模型训练方法、词处理方法及装置
Kanapala et al. Passage-based text summarization for legal information retrieval
Lemmenmeier-Batinić Lexical Explorer: extending access to the Database for Spoken German for user-specific purposes
JP2009064213A (ja) 目的指向書籍推薦システム
Chen et al. Automatic SNOMED CT coding of Chinese clinical terms via attention-based semantic matching
JP4783563B2 (ja) インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置
Hardie Using the spoken BNC2014 in CQPweb
KR100372299B1 (ko) 정보 저장 및 검색 시스템과 그 방법
KR20220015129A (ko) 대화 형식 기반의 도서 추천 서비스 제공 방법 및 그를 위한 장치
Dekova The Ontology of Bulgarian Dialects–architecture and information retrieval
Hao et al. QSem: A novel question representation framework for question matching over accumulated question–answer data
KR100389166B1 (ko) 정보 검색 시스템과 그 방법
JP2001022782A (ja) ガイドidを持たないメッセージの詳細説明の検索・表示方法
Srinivasan Text mining: A field of opportunities.
KR100378642B1 (ko) 정보 검색 시스템과 그 방법
Akrivousis et al. Text classification is keyphrase explainable! Exploring local interpretability of transformer models with keyphrase extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071127

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100727

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101022

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101029

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101217

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101227

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110405