JPH04237369A - データベース作成方法 - Google Patents

データベース作成方法

Info

Publication number
JPH04237369A
JPH04237369A JP3005293A JP529391A JPH04237369A JP H04237369 A JPH04237369 A JP H04237369A JP 3005293 A JP3005293 A JP 3005293A JP 529391 A JP529391 A JP 529391A JP H04237369 A JPH04237369 A JP H04237369A
Authority
JP
Japan
Prior art keywords
document
database
words
data base
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3005293A
Other languages
English (en)
Inventor
Hironobu Fukunaga
福永 博信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP3005293A priority Critical patent/JPH04237369A/ja
Publication of JPH04237369A publication Critical patent/JPH04237369A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はデータベース作成方法に
関し、特に、大量の情報を蓄積し、要求に応じて適当な
情報を適当な形態で利用者に提供するためのデータベー
スを作成する方法に関する。
【0002】
【従来の技術】従来、文書から構築され、収録した内容
の形態が文書である文書蓄積型データベースは、文書に
番号付けやキーワードを付与する程度の加工を施すこと
はあるが、その形態は基本的には文書をそのまま蓄積し
たものである。一方、文書蓄積型以外のデータベース、
例えば、内容が表の形態である関係データベースは、そ
の設計から作成まで人間の手で行われている。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うな文書蓄積型データベース(収録した内容の形態が文
書であるデータベース)は、文書から容易に構築できる
が、文書のままでは取り扱いが難しいため、利用する際
には文書を検索して提示する程度の低度な利用しか行わ
れていないという問題がある。
【0004】一方、関係データベース(内容が表の形態
であるデータベース)などの非文書蓄積型のデータベー
スは、その記載内容で整頓したり、特定の条件を満たす
ものだけを取り出したりといった高度な利用が行われて
いる反面、その構築に際しては、設計から作成まで人間
の能力に委ねられており、大規模で十分良く設計された
ものを構築するのは困難であるという問題がある。
【0005】そこで、本発明は、このような事情に鑑み
てなされたもので、前述の課題を解消し、文書を加工す
るだけで、文書蓄積型データベースのように容易に構築
することができ、かつ、関係データベースのように高度
な利用を可能にすることができるデータベース作成方法
を提供することを目的とするものである。
【0006】
【課題を解決するための手段】前記目的を達成する本発
明の知識構造作成方法は、文書蓄積型データベースのよ
うに文書を加工するだけで構築でき、かつ、関係データ
ベースのように高度な利用を可能にすることができるデ
ータベース作成方法であって、図1に示すように、自然
言語で実現された文書を読み込む文書読込段階Aと、読
み込まれた文書中の自然言語を解析して単語を抽出する
解析段階Bと、語彙の体系を収録したシソーラス辞書に
より、解析段階Bにおいて抽出された単語を区分し群を
形成する区分段階Cと、解析段階Bと区分段階Cにより
抽出され、区分された単語を用い、文法的性質と区分情
報を伴った単語の知識の枠組である知識構造に従ってデ
ータベースを作成する生成段階Dとによって達成される
【0007】
【作用】本発明に係るデータベース作成方法においては
、まず、読み込まれたテキストベース中の文章が解析さ
れ、単語が抽出される。そして、抽出された単語はシソ
ーラス辞書を使って整理され、区分されて群が形成され
る。次に、区分された単語は、文法的性質と区分情報を
伴った単語の知識の枠組である知識構造(世界モデル)
に従ってデータベースが作成される。
【0008】従来のデータベースは、それが文書蓄積型
データベースである場合には、構築は容易だが利用は検
索に限られ、関係データベースである場合には、高度な
利用が期待できるが、設計と情報の蓄積が困難であり、
大規模なものの構築は特に困難であった。ところが、本
発明による構築法により、大規模でよく設計された非文
書蓄積型データベースを文書から構築することを可能に
なる。また、この部分を計算機に支援させることにより
、大規模データベースの自動的な構築の実現を達成する
ことができる。
【0009】
【実施例】以下添付図面を用いて本発明の実施例を詳細
に説明する。
【0010】図2は本発明の知識構造作成方法を実現す
る装置の構成例を示すものである。図2において、1は
知識構造を作成する元となる、知識源である自然言語で
記述された文書(テキストベース)、2は文書を読み込
むための文書読込装置、3は読み込んだ文章の文法的構
造を決定して単語等の最小単位を抽出する文書解析装置
、4は抽出された個々の単語を区分する単語区分装置、
5は単語区分装置が単語を区分するために参照する、言
葉の同義や上位下位関係の体系を収録したシソーラス辞
書(類語辞書)、6はデータベース作成のための枠組で
ある知識構造、7は単語区分装置4により区分され、文
法的性質と区分情報を伴った単語から知識構造6に従っ
てデータベースを生成するデータベース生成装置、8は
生成されたデータベースを記憶するデータベース記憶装
置である。以上のように構成される本発明の知識構造作
成方法を実現する装置を、例えば計算機を使用して実現
する場合は、2、5、6、8はメモリあるいはファイル
上に格納されたデータ、3、4、7は計算機のサブルー
チンの形で実現される。
【0011】図3は図2の装置の動作手順を示すフロー
チャートである。ステップ301ではテキストベースの
読み込みが行われる。このテキストベースの例を、図4
に示す。(1)は『T社は新型エンジンを開発したと発
表した。』という内容であり、(2)は『低燃費の自動
車を開発したH社は、新工場をN市に建設する。』とい
うである。
【0012】ステップ302はステップ301で読み込
んだテキストベースの解析が行われる。このステップ3
02は、自然言語の文章を解析して文章から意味的な単
位へ分割し、それら分割された単位毎あるいは単位相互
の文法的性質や意味的性質を解析して出力するステップ
であり、計算機プログラムおよび辞書群の組合せ等で実
現される。このステップ302における具体的な解析と
しては、例えば、次の(a)〜(d)などの自然言語解
析処理の適当な組合せである。
【0013】(a)形態素解析(単語への分割および品
詞づけ) (b)係り受け解析(単語の修飾関係の解析)(c)構
文解析(文の構造的成り立ちの解析)(d)意味解析(
文の意味的な成り立ちの解析)そして、このステップ3
02において、図4(1),(2)の文を解析した場合
に得られる結果の例を図5に示す。
【0014】この図5に示すように、図4(1),(2
)の各文は、単語(T社、新型、エンジン、開発、発表
、低燃費、自動車、…など)、分類(会社名、修飾語、
名詞、動詞、地名、…など)、および関係(<開発>の
動作主、<開発>の対象、<開発>の内容、…など)に
分けられる。
【0015】ステップ303はステップ302で解析さ
れた個々の単語を、シソーラス辞書を参照して区分する
ステップであり、計算機プログラム等で実現される。こ
のステップでは、単語が表している概念の上位概念を図
2に示すシソーラス辞書5から取り出すことによって区
分を行う。シソーラス辞書5は、言葉の同義や上位下位
関係の体系を収録した類語辞書であり、その内容の例を
図6に示す。このシソーラス辞書5はメモリファイルに
格納される。ステップ302で解析された単語は、この
ステップ303において、シソーラス辞書5によって、
例えば、図7に示すように区分される。
【0016】ステップ304は、ステップ302で解析
され、ステップ303で区分された単語、即ち、文法的
性質と区分情報を伴った単語から、図2に示すデータベ
ースに蓄積する知識の枠組を収録した知識構造7を用い
てデータベースを生成するステップであり、計算機プロ
グラム等で実現される。このステップでは、解析ステッ
プ302および区分ステップ303の結果から知識構造
7の枠組に従ってデータベースを生成していく。この知
識構造7の内容例を図8に示す。
【0017】例えば、図4の文書(1)からデータベー
スを生成する例を説明すると、図5に示した解析結果、
図7に示した区分結果、および図8に示した知識構造か
ら動作である「開発」、〈自動車メーカー〉であって〈
開発〉の動作主である「T社」、〈製品〉であって〈開
発〉の対象である「エンジン」、〈製品〉の修飾語であ
る「新型」を取り出し、それぞれ、〈開発〉、〈自動車
メーカー〉、〈製品〉および〈特徴〉の枠に収める。同
様に図4の文書(2)からは、〈開発〉に「開発」、〈
自動車メーカー〉に「H社」、〈製品〉に「自動車」、
〈特徴〉に「低燃費」の枠に収める。
【0018】以上のように、データベースはステップ3
02、303、304を経て作成され、作成されたデー
タベースはメモリファイル上に格納される。例えば、図
9は図4の文書、図6のシソーラス辞書および図8の知
識構造をもとに作ったデータベースの例であり、「開発
」の項からは、「T社」−「エンジン」−「新型」、「
H社」−「自動車」−「低燃費」を取り出すことができ
る。
【0019】このように、本発明の方法では、文書を加
工するだけで、文書蓄積型データベースのように容易に
構築することができ、かつ、関係データベースのように
高度な利用を可能にすることができる。
【0020】
【発明の効果】以上説明したように、本発明によれば、
文書を加工するだけで、文書蓄積型データベースのよう
に容易に構築することができ、かつ、関係データベース
のように高度な利用を可能にすることができるという効
果がある。
【図面の簡単な説明】
【図1】本発明の知識構造作成方法の原理構成図である
【図2】本発明の知識構造作成方法を実施する装置の一
例の構成図である。
【図3】図2の装置の動作を示すフローチャート図であ
る。
【図4】本発明における知識構造を作成する元となる文
書の例を示す図である。
【図5】図4の文書を解析した結果の例である。
【図6】図2のシソーラス辞書の内容例である。
【図7】解析後の単語に区分を実行した結果の例である
【図8】知識構造の内容の一例である。
【図9】本発明のデータベース作成方法により作成され
たデータベース例である。
【符号の説明】
1  文書 2  文書読込装置 3  文書解析装置 4  単語区分装置 5  シソーラス辞書 6  データベース生成装置 7  知識構造 8  データベース記憶装置

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  文書蓄積型データベースのように文書
    を加工するだけで構築でき、かつ、関係データベースの
    ように高度な利用を可能にすることができるデータベー
    ス作成方法であって、自然言語で実現された文書を読み
    込む文書読込段階と、読み込まれた文書中の自然言語を
    解析して単語を抽出する解析段階と、語彙の体系を収録
    したシソーラス辞書により、前記解析段階において抽出
    された単語を区分し群を形成する区分段階と、前記解析
    段階と区分段階により抽出され、区分された単語を用い
    、文法的性質と区分情報を伴った単語の知識の枠組であ
    る知識構造に従ってデータベースを作成する生成段階と
    、を備えることを特徴とするデータベース作成方法。
JP3005293A 1991-01-21 1991-01-21 データベース作成方法 Pending JPH04237369A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3005293A JPH04237369A (ja) 1991-01-21 1991-01-21 データベース作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3005293A JPH04237369A (ja) 1991-01-21 1991-01-21 データベース作成方法

Publications (1)

Publication Number Publication Date
JPH04237369A true JPH04237369A (ja) 1992-08-25

Family

ID=11607202

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3005293A Pending JPH04237369A (ja) 1991-01-21 1991-01-21 データベース作成方法

Country Status (1)

Country Link
JP (1) JPH04237369A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06195379A (ja) * 1992-09-11 1994-07-15 Nec Corp 事例ベース及びその入力・蓄積装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06195379A (ja) * 1992-09-11 1994-07-15 Nec Corp 事例ベース及びその入力・蓄積装置

Similar Documents

Publication Publication Date Title
Kowalski et al. Information storage and retrieval systems: theory and implementation
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
US6415283B1 (en) Methods and apparatus for determining focal points of clusters in a tree structure
US11055295B1 (en) Method and apparatus for determining search result demographics
JP2015045833A (ja) 発話文生成装置とその方法とプログラム
Kovaliuk et al. Semantic analysis and natural language text search for internet portal
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
KR102390009B1 (ko) Ai기반 구문분석 연구노트 생성 시스템
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム
Revanth et al. Nl2sql: Natural language to sql query translator
JPH04237369A (ja) データベース作成方法
CA2363017C (en) Multi-document summarization system and method
JP2002183175A (ja) テキストマイニング方法
Uma et al. A survey paper on text mining techniques
JPH1021266A (ja) 情報検索方法および装置
JP2003288332A (ja) 構造化文書作成支援方法及び構造化文書作成支援システム
Vieira et al. Digital Humanities and Portuguese Processing: a research pathway
Sadek et al. Building a causation annotated corpus: the Salford Arabic Causal Bank-proclitics
TWI813028B (zh) 文字資料之篩選關聯方法及系統
Muthusamy Processing the Textual Information Using Open Natural Language Processing
JP2005092616A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Yang English Translation Intelligent Recognition System based on Automatic Generation Algorithm
Gao et al. Data Generation Method and Training Mode of Relationship Extraction Based on Neural Network
Siefkes Learning to Extract Information for the Semantic Web.
Nijholt Linguistic engineering: a survey