JPH0756937A - 単語抽出システム - Google Patents

単語抽出システム

Info

Publication number
JPH0756937A
JPH0756937A JP5199406A JP19940693A JPH0756937A JP H0756937 A JPH0756937 A JP H0756937A JP 5199406 A JP5199406 A JP 5199406A JP 19940693 A JP19940693 A JP 19940693A JP H0756937 A JPH0756937 A JP H0756937A
Authority
JP
Japan
Prior art keywords
connection
word
dictionary
search
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5199406A
Other languages
English (en)
Other versions
JP2596325B2 (ja
Inventor
Takeshi Nishimura
健士 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5199406A priority Critical patent/JP2596325B2/ja
Publication of JPH0756937A publication Critical patent/JPH0756937A/ja
Application granted granted Critical
Publication of JP2596325B2 publication Critical patent/JP2596325B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】接続検定に基く単語抽出システムで、名詞抽出
部分と複合語分割部分とを融合、単語知識の統合管理と
解析エンジン部分の処理量削減とを実現する。 【構成】自然言語辞書1は、各単語の接続属性を格納す
る。接続辞書2は、ある2つの単語が文中で隣接可能か
どうかを示す表を格納する。接続辞書編集手段8は、接
続辞書2を編集する。抽出対象文格納手段3は、抽出対
象文を格納する。接続検定手段4は、自然言語辞書1と
接続辞書2との情報を参照し、抽出対象文格納手段3中
の文に対する接続検定を行い、その結果の文節切り情報
を接続関係格納手段5に格納する。探索範囲設定手段9
は、抽出対象となる単語の接続情報を単語探索手段6に
対して設定する。単語探索手段6は、設定された接続情
報をもとに接続関係格納手段5の文節切り情報から単語
を抽出する。単語表示手段7は、それらの単語を画面に
表示する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、単語抽出システムに関
し、特に、対象文中の各単語間の接続の種類により、抽
出単語の制御を行う単語抽出システムに関する。
【0002】
【従来の技術】従来の単語抽出システムは、情報検索シ
ステムで文書にキーワードを付与するために用いられて
おり、日本語解析を行って名詞を抽出し、不要語処理を
行った後に、複合語の分割を行う手法が知られている。
【0003】この手法の参考文献としては、例えば、木
本著「統合型大規模テキストデータベースへの自動索引
とその評価」,情報処理学会,研究会報告,データベー
ス,90−9,1992年がある。
【0004】
【発明が解決しようとする課題】上述した従来の単語抽
出システムは、日本語解析でデータを取出す部分および
複合語の分割部分を有し、同類の処理を2段階に分けて
行っているために、単語に関する知識が分割されて管理
がしずらく、解析エンジン部分の処理が増大するという
欠点を有している。
【0005】本発明の目的は、接続検定に基く単語抽出
システムにおいて、名詞抽出部分と複合語分割部分とを
融合させることにより、単語知識の統合管理と解析エン
ジン部分の処理量の削減とを実現する単語抽出システム
を提供することにある。
【0006】
【課題を解決するための手段】第1の発明の単語抽出シ
ステムは、自然言語文からの単語を抽出する単語抽出シ
ステムにおいて、(A)単語の接続の種類に対応した複
数の要素に対する各々の要素値を保持する接続辞書と、
(B)前記接続辞書の編集を行う接続辞書編集手段と、
(C)各単語の接続属性を格納する自然言語辞書と、
(D)単語の抽出を行う抽出対象文を格納する抽出対象
文格納手段と、(E)前記接続辞書の要素値が非零であ
る場合を接続可として、前記抽出対象文格納手段に格納
された抽出対象文の接続検定を行う接続検定手段と、
(F)前記接続検定手段の接続検定結果である文節切り
情報を保持する接続関係格納手段と、(G)接続の種類
に応じて探索開始点および探索終了点を定めて、前記接
続関係格納手段の文節切り情報に対して、単語の探索を
行う単語探索手段と、(H)前記単語探索手段によって
探索された単語を表示する単語表示手段と、を備えて構
成されている。
【0007】また、第2の発明の単語抽出システムは、
自然言語文から単語を抽出する単語抽出システムにおい
て、(A)各単語の接続属性を格納する自然言語辞書
と、(B)単語の接続の種類に対応した複数の要素に対
する各々の要素値を保持する接続辞書と、(C)前記接
続辞書の編集を行う接続辞書編集手段と、(D)単語の
抽出を行う抽出対象文を格納する抽出対象文格納手段
と、(E)前記接続辞書の要素値が特定値を示すときに
接続可として、前記抽出対象文格納手段に格納された抽
出対象文の接続検定を行う接続検定手段と、(F)前記
接続検定手段の接続検定結果である文節切り情報を保持
する接続関係格納手段と、(G)抽出対象となる単語の
接続情報を設定する探索範囲設定手段と、(H)前記探
索範囲設定手段で設定された接続情報に応じて、探索開
始点および探索終了点を定め、前記接続関係格納手段の
文節切り情報に対して、単語の探索を行う単語探索手段
と、(I)前記単語探索手段によって探索された単語を
表示する単語表示手段と、を備えて構成されている。
【0008】さらに、第3の発明の単語抽出システム
は、自然言語文からの単語を抽出する単語抽出システム
において、(A)単語の接続の種類に対応した複数の要
素に対する各々の要素値を保持する接続辞書と、(B)
前記接続辞書の編集を行う接続辞書編集手段と、(C)
各単語の接続属性を格納する自然言語辞書と、(D)単
語の抽出を行う抽出対象文を格納する抽出対象文格納手
段と、(E)前記接続辞書の要素値が特定値を示すとき
に接続可として、前記抽出対象文格納手段に格納された
抽出対象文の接続検定を行う接続検定手段と、(F)前
記接続検定手段の接続検定結果である文節切り情報を保
持する接続関係格納手段と、(G)接続の種類に応じて
探索開始点および探索終了点を定めて、前記接続関係格
納手段の文節切り情報に対して、単語の探索を行うとと
もに、その探索結果を表示する単語探索手段と、を備え
て構成されている。
【0009】
【実施例】次に、本発明の実施例について、図面を参照
して説明する。図1は、本発明の単語抽出システムの一
実施例を示すブロック図である。図1に示すように、自
然言語辞書1は、各単語の接続属性を格納している。ま
た、接続辞書2は、単語の接続の種類に対応した複数の
要素として、ある2つの単語についてそれらが文中で隣
接可能かどうかを示す表を格納している。そして、接続
辞書編集手段8は、接続辞書2の編集を行っている。一
方、抽出対象文格納手段3は、単語の抽出の対象となる
抽出対象文を格納している。
【0010】そこで、接続検定手段4は、自然言語辞書
1と接続辞書2との情報を参照し、抽出対象文格納手段
3の中の文に対する接続検定を行って、接続検定結果で
ある文節切り情報を接続関係格納手段5に送出して格納
している。さらに、探索範囲設定手段9は、抽出対象と
なる単語の接続情報を単語探索手段6に対して設定して
いる。そして、単語探索手段6は、設定された接続情報
をもとにして接続関係格納手段5にある文節切り情報か
ら単語を抽出して、単語送出手段7に送出するので、単
語表示手段7は、それらの単語を画面に表示している。
【0011】図2は、図1の自然言語辞書1の内容の一
例を示す図である。図2に示すように、各単語の情報
は、以下の3項目から構成されている。すなわち、見出
しは、文中での単語の文字列を示している。また、前方
接続属性は、その単語の左側にどのような単語を接続可
能かを特徴付ける属性である。一方、後方接続属性は、
その単語の右側にどのような単語が接続可能かを特徴付
ける属性である。
【0012】図3は、図1の接続辞書2の内容の一例を
示す図である。図3に示すように、第1フィールドは、
左側の単語の後方接続属性を示し、第2フィールドは、
右側の単語の前方接続属性を示し、第3フィールド以降
は、接続の可否を表す2値の表である。例えば、最初の
レコードは、後方接続属性が普通名詞である単語と、前
方接続属性が普通名詞である単語とを、文節境界として
接続可能であり、かつ名詞境界として接続可能であるこ
とを示している。
【0013】また、接続辞書編集手段8は、「文節境
界」や「名詞境界」などの接続の種類に関して、新たな
種類を付加したり、既にある種類を削除したり、接続の
可否を表す“1”や“0”の値を変更したりしている。
そこで、接続辞書2をテキストファイルにすれば、接続
辞書編集手段8は、既存の文書編集システムによって、
実現可能である。また、接続検定手段4は、接続辞書2
を参照したときに、一つのフィールドにでも“1”があ
れば、関係するの2単語は、接続可能として処理してい
る。
【0014】図4は、図1の接続関係格納手段5に格納
された文節切り情報の一例を示す図である。図4に示す
ように、接続検定手段4は、対象文の「副校長佐藤氏の
話」にある部分文字列の「副校長」を2通りに分割して
いる。そこで、単語探索手段6は、このようなネットワ
ーク構造上の弧上を移動し、単語を連結して行くことに
より、単語を抽出している。その際に、探索開始ノード
と終端ノードとの設定を変えることにより、種々の観点
からの単語の抽出が可能となる。
【0015】例えば、探索開始ノードを「文末もしくは
文節境界」とし、探索終了ノードを「文頭もしくは文節
境界」として、後方から前方への探索を行うと、ノード
47からノード46までで「話」が、ノード46からノ
ード43までで「佐藤氏の」が、ノード43からノード
41までで「副校長」が、それぞれ抽出される。
【0016】また、探索開始ノードを「文末もしくは名
詞境界もしくは接尾辞境界」とし、探索終了ノードを
「文頭もしくは名詞境界もしくは接頭辞境界」とし、後
方から前方への探索を行うと、ノード47からノード4
6までで「話」が、ノード45からノード41までで
は、全てのパスを探索して重複を省くことによって、
「副校長佐藤氏」、「副校長佐藤」、「副校長」、「校
長佐藤氏」、「校長佐藤」、「校長」、「佐藤氏」、
「佐藤」が、それぞれ名詞として成立することが可能な
組合せとして抽出される。
【0017】さらに、上例の探索開始ノードから「接尾
辞境界」を除くとともに、探索終了ノードから「接頭辞
境界」を除くと、複合語の内部の分解を行わない長い単
位での名詞のみを抽出する。
【0018】
【発明の効果】以上説明したように、本発明の単語抽出
システムは、利用者が接続辞書を自由に編集することに
より、種々の観点から単語抽出を行うことができるとい
う効果を有している。
【0019】また、従来技術の形態素解析や自動索引生
成では、文節切り結果に確らしさの考えを導入して解を
絞ることが多いけれども、本発明の単語抽出システムで
は、単語の抽出にネットワーク上の探索という一般的な
技術を用いているので、弧上を移動する際に文字列の長
さや単語の品質の種別により重み付けを行えば、同様の
処理も容易に実現可能であるという効果がある。
【図面の簡単な説明】
【図1】本発明の単語抽出システムの一実施例を示すブ
ロック図である。
【図2】図1の自然言語辞書1の内容の一例を示す図で
ある。
【図3】図1の接続辞書2の内容の一例を示す図であ
る。
【図4】図1の接続関係格納手段5に格納された文節切
り情報の一例を示す図である。
【符号の説明】
1 自然言語辞書 2 接続辞書 3 抽出対象文格納手段 4 接続検定手段 5 接続関係格納手段 6 単語探索手段 7 単語表示手段 8 接続辞書編集手段 9 探索範囲設定手段

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 自然言語文から単語を抽出する単語抽出
    システムにおいて、(A)単語の接続の種類に対応した
    複数の要素に対する各々の要素値を保持する接続辞書
    と、(B)前記接続辞書の編集を行う接続辞書編集手段
    と、(C)各単語の接続属性を格納する自然言語辞書
    と、(D)単語の抽出を行う抽出対象文を格納する抽出
    対象文格納手段と、(E)前記接続辞書の要素値が非零
    である場合を接続可として、前記抽出対象文格納手段に
    格納された抽出対象文の接続検定を行う接続検定手段
    と、(F)前記接続検定手段の接続検定結果である文節
    切り情報を保持する接続関係格納手段と、(G)接続の
    種類に応じて探索開始点および探索終了点を定めて、前
    記接続関係格納手段の文節切り情報に対して、単語の探
    索を行う単語探索手段と、(H)前記単語探索手段によ
    って探索された単語を表示する単語表示手段と、を備え
    ることを特徴とする単語抽出システム。
  2. 【請求項2】 自然言語文から単語を抽出する単語抽出
    システムにおいて、(A)各単語の接続属性を格納する
    自然言語辞書と、(B)単語の接続の種類に対応した複
    数の要素に対する各々の要素値を保持する接続辞書と、
    (C)前記接続辞書の編集を行う接続辞書編集手段と、
    (D)単語の抽出を行う抽出対象文を格納する抽出対象
    文格納手段と、(E)前記接続辞書の要素値が特定値を
    示すときに接続可として、前記抽出対象文格納手段に格
    納された抽出対象文の接続検定を行う接続検定手段と、
    (F)前記接続検定手段の接続検定結果である文節切り
    情報を保持する接続関係格納手段と、(G)抽出対象と
    なる単語の接続情報を設定する探索範囲設定手段と、
    (H)前記探索範囲設定手段で設定された接続情報に応
    じて、探索開始点および探索終了点を定め、前記接続関
    係格納手段の文節切り情報に対して、単語の探索を行う
    単語探索手段と、(I)前記単語探索手段によって探索
    された単語を表示する単語表示手段と、を備えることを
    特徴とする単語抽出システム。
  3. 【請求項3】 自然言語文から単語を抽出する単語抽出
    システムにおいて、(A)単語の接続の種類に対応した
    複数の要素に対する各々の要素値を保持する接続辞書
    と、(B)前記接続辞書の編集を行う接続辞書編集手段
    と、(C)各単語の接続属性を格納する自然言語辞書
    と、(D)単語の抽出を行う抽出対象文を格納する抽出
    対象文格納手段と、(E)前記接続辞書の要素値が特定
    値を示すときに接続可として、前記抽出対象文格納手段
    に格納された抽出対象文の接続検定を行う接続検定手段
    と、(F)前記接続検定手段の接続検定結果である文節
    切り情報を保持する接続関係格納手段と、(G)接続の
    種類に応じて探索開始点および探索終了点を定めて、前
    記接続関係格納手段の文節切り情報に対して、単語の探
    索を行うとともに、その探索結果を表示する単語探索手
    段と、を備えることを特徴とする単語抽出システム。
JP5199406A 1993-08-11 1993-08-11 単語抽出システム Expired - Lifetime JP2596325B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5199406A JP2596325B2 (ja) 1993-08-11 1993-08-11 単語抽出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5199406A JP2596325B2 (ja) 1993-08-11 1993-08-11 単語抽出システム

Publications (2)

Publication Number Publication Date
JPH0756937A true JPH0756937A (ja) 1995-03-03
JP2596325B2 JP2596325B2 (ja) 1997-04-02

Family

ID=16407269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5199406A Expired - Lifetime JP2596325B2 (ja) 1993-08-11 1993-08-11 単語抽出システム

Country Status (1)

Country Link
JP (1) JP2596325B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305730A (ja) * 1995-05-01 1996-11-22 Xerox Corp 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101664623B1 (ko) * 2014-12-15 2016-10-10 현대자동차주식회사 Cfrp 플레이트 및 그 제조방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305730A (ja) * 1995-05-01 1996-11-22 Xerox Corp 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法

Also Published As

Publication number Publication date
JP2596325B2 (ja) 1997-04-02

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
US5778400A (en) Apparatus and method for storing, searching for and retrieving text of a structured document provided with tags
JP2005251115A (ja) 連想検索システムおよび連想検索方法
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3594701B2 (ja) キーセンテンス抽出装置
US11301441B2 (en) Information processing system and information processing method
CN111753042A (zh) 一种基于人工智能辅助写作系统
JP3612769B2 (ja) 情報検索装置および情報検索方法
JPH08161343A (ja) 関連語辞書作成装置
JP3497243B2 (ja) 文書検索方法及び装置
JP2596325B2 (ja) 単語抽出システム
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JPH0944523A (ja) 関連語提示装置
JP5733285B2 (ja) 検索装置、検索方法及びプログラム
JP2004534980A (ja) 計算ユニットにおけるテキスト処理方法及び計算ユニット
CN110909128A (zh) 一种利用词根表进行数据查询的方法、设备、及存储介质
JP2004334602A (ja) 文書検索装置、文書検索処理プログラム及び記録媒体
KR100374114B1 (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JPH10340271A (ja) 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体
JP2004318328A (ja) 情報検索方法
JP2002149648A (ja) 統合検索方法及び装置及び統合検索プログラムを格納した記憶媒体
JPH07334526A (ja) 辞書検索表示装置
JPH09138801A (ja) 文字列抽出方法とシステム
JPH09212523A (ja) 全文検索方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19961112