JPH0877204A - 関連語辞書作成支援装置 - Google Patents

関連語辞書作成支援装置

Info

Publication number
JPH0877204A
JPH0877204A JP6238581A JP23858194A JPH0877204A JP H0877204 A JPH0877204 A JP H0877204A JP 6238581 A JP6238581 A JP 6238581A JP 23858194 A JP23858194 A JP 23858194A JP H0877204 A JPH0877204 A JP H0877204A
Authority
JP
Japan
Prior art keywords
related word
character
character string
word information
punctuation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6238581A
Other languages
English (en)
Inventor
Shinji Kawamoto
真司 川本
Makoto Ando
誠 安藤
Hiroko Matsuo
裕子 松尾
Hiroshi Yamaguchi
浩 山口
Kazuo Aihara
一雄 相原
Tatsuomi Kita
辰臣 喜多
Akio Yamashita
明男 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP6238581A priority Critical patent/JPH0877204A/ja
Publication of JPH0877204A publication Critical patent/JPH0877204A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 関連語情報を効率的にかつ迅速に収集するこ
とができる関連語辞書作成支援装置を提供する。 【構成】関連語辞書作成支援装置は、文書を読み込む入
力部10と、前記文書を構成する文字列から、文字列ど
うしを関連させる役割を持つ特定の文字あるいは文字列
を検出する区切り文字(特定文字)検出部121と、そ
の区切り文字文字検出部121により検出された特定の
文字あるいは文字列によって関連させてある複数の文字
列を、前記文書の文字列中から、取り出す文字列抽出部
122と、関連語情報を保持する関連語辞書記憶部17
と、文字列抽出部122によって取り出された複数の文
字列を関連語として前記関連語辞書記憶部17に登録す
る関連語辞書登録部14とを有する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、単語間の関連語情報を
保持する関連語辞書の作成を支援する関連語辞書作成支
援装置に関する。
【0002】
【従来の技術】キーワードの同義語や類義語、上位概念
語などといった関連語情報は、文書の検索時において検
索精度を向上させるために有用な情報のひとつである。
これらの関連語情報を収集した関連語辞書というものが
あるが、従来、この関連語辞書の作成はオペレータが関
連語情報を見つけ出し登録するといった手法で行うのが
一般的であった。しかし、人手による情報収集では効率
が悪く、十分な情報が集めきれないうえ、オペレータの
見落としなどといった精度上の問題もあった。
【0003】一方、計算機システムを用いて関連語情報
の自動抽出を行って、関連語情報の収集の効率や精度を
改善する方法も考えられている。例えば、計算機システ
ムを用いて文書を意味解析し、関連語情報を文書内から
自動的に抽出するという方法がある(例えば、特開平4
−123264号公報)。
【0004】
【発明が解決しようとする課題】上述のような、従来の
関連語情報の作成支援方法では、複雑な構文の文章や未
登録語を多く含む文章の解析処理に時間がかかる等の問
題があった。また、解析の精度が現状の技術では自動抽
出に十分とは言えないことや、解析用辞書の保守が関連
語情報の抽出に先立って必要であり、実用に供するまで
に抽出システムの保守が必要という問題もあった。更
に、この関連語情報は利用者の観点、利用分野、利用方
法によって異なることが多いため、汎用的なものだけで
は不十分で、利用の分野、方法に応じた関連語情報を容
易に作成したいという要望もあった。
【0005】本発明は、関連語情報を効率的にかつ迅速
に収集することができる関連語辞書作成支援装置を提供
することを目的とする。
【0006】
【課題を解決するための手段】本発明(請求項1)は、
文書を読み込む入力手段(10)と、前記文書を構成す
る文字列から、文字列どうしを関連させる役割を持つ特
定の文字あるいは文字列を検出する特定文字検出手段
(121)と、前記特定文字検出手段により検出された
特定の文字あるいは文字列によって関連させてある複数
の文字列を、前記文書の文字列中から、取り出す文字列
抽出手段(122)と、関連語情報を保持する関連語情
報記憶手段(17)と、前記文字列抽出手段によって取
り出された複数の文字列を関連語情報として前記関連語
情報記憶手段に登録する関連語情報登録手段(14)と
を有する。
【0007】また、本発明(請求項2)は、上記の構成
(請求項1)に加えて、前記文字列抽出手段により抽出
した文字列を前記関連語情報記憶手段に関連語情報とし
て登録するか否かを判定する関連語登録判定手段(1
5)を設け、前記関連語情報登録手段は、前記関連語登
録判定手段より登録指示された抽出文字列のみを関連語
として登録するようにした。
【0008】
【作用】関連語は文書上である特定の文字や文字列(言
葉)を介して関連づけられることが多い。その特定の文
字としては例えば『 ( 』、『 { 』、『 :
』、『 ・ 』などの記号類があり、特定の言葉(文
字列)としては例えば『または』『あるいは』などがあ
る。本発明(請求項1、請求項2)はこのことに着目し
てなされたものであり、特定の文字または文字列(以
下、これらを特定文字という)を検出し、その特定文字
により関連づけられている文字列、例えば特定文字の前
後の言葉、を関連語情報として自動抽出するようにした
ものである。まず、入力手段により、関連語を抽出する
ための対象文書を読み込む。特定文字検出手段は、前記
対象文書から特定文字を検出する。また、文字列抽出手
段は、特定文字検出手段により検出された特定文字を基
に、それによって関連付けられている複数の文字列を、
前記対象文書から、取り出す。関連語情報登録手段は、
文字列抽出手段によって取り出された複数の文字列を関
連語情報として関連語情報記憶手段に登録する。
【0009】本発明(請求項2)においては、上述の特
定文字に着目して抽出した関連語候補情報に対して、関
連語情報登録判定手段により登録すべきか否かを判定す
ることにより、登録すべき関連語情報を決定する。
【0010】
【実施例】図1は本発明の実施例の関連語辞書作成支援
装置の概略の構成を示すブロック図である。この関連語
辞書作成支援装置は、文書を読み込む入力部10、入力
文字列に対して形態素解析処理を行う形態素解析部1
1、入力文字列中から区切り文字を検出する区切り文字
検出部121や入力文字列中から任意の文字列を抽出す
る文字列抽出部122等から構成される文字列処理部1
2、関連語データに関する処理部の制御を行う関連語デ
ータ制御部13、関連語辞書に関連語データを登録する
関連語辞書登録部14、関連語辞書に登録するか否かを
判定する関連語辞書登録判定部15、関連語辞書に登録
するか否かをユーザが指示するための選択登録指示手段
151、関連語候補データを一時的に格納する関連語デ
ータ記憶バッファ16、関連語データを記憶する関連語
辞書17、関連語データ等の情報を表示する表示部18
である。
【0011】次に、実施例の基本的な登録処理内容を示
す図2のフローチャートを参照しながら、実際の処理動
作について説明する。まず入力部10より入力対象文書
を読み込み(ステップ201)、形態素解析部11によ
り複数の文字列に分割する(ステップ202)。形態素
解析の方法については多くの公知例があり、それらから
任意の方法を用いればよい。また、日本語のローマ字表
記のように単語に分かち書きされている場合には、形態
素解析による文字列への分割処理は省略することができ
る。次に分割された文字列中から区切り文字検出部12
1によりカッコなどの区切り文字あるいは区切り文字列
を検出する(ステップ203)。入力文字列中に区切り
文字が存在した場合、文字列抽出部122により区切り
文字あるいは区切り文字列の前後の文字列を抽出し、関
連語候補データとして関連語データ記憶バッファ16に
一時的に格納する(ステップ205)。次に関連語辞書
登録判定部15により関連語データ記憶バッファ16内
の関連語候補データを関連語として関連語辞書17に登
録するか否かを判定し(ステップ206)、登録すると
判定された場合は関連語辞書17に登録する(ステップ
208)。この一連の処理を入力文書内の文字列に対し
て行うことにより関連語情報を収集する。
【0012】次に具体的な例を挙げて説明する。例え
ば、図3に示すような文書が入力された場合の処理につ
いて考える。まず、形態素解析部11により図4に示す
ように形態素解析される。このとき表記だけでなく品詞
情報も検出されるが、検出された単語のうち単語辞書に
ない語は一時的に「未登録」として扱い、直後の単語か
ら品詞を推定する。もし推定できない場合は品詞を「名
詞」とする等の処理を行う。次に区切り文字検出部12
1により区切り文字を検出する。なお、区切り文字検出
部は『 ( 』、『 { 』、『 : 』、『 ・ 』
などの記号類だけでなく『または』『あるいは』などの
文字列も区切り文字として検出できる。また、図5に示
したような区切り文字設定テーブルを用いて、使用する
区切り文字を設定できるように構成することにより、ユ
ーザ単位の区切り文字の設定、変更等の操作も可能であ
る。これによれば、ユーザの観点や、利用分野、利用方
法などに応じた適切な関連語情報を作成することができ
る。この図3に示す例では『 ( 』が文書内の3か所
から検出され、文字列抽出部122によりその前後の文
字列、すなわち、[2月3日]−−[金]、[商品企画
部]−−[商企部]、[中央営業部]−−[中営部]、
の3組が抽出される。この抽出された文字列対は関連語
候補データとして関連語データ記憶バッファ16に格納
される。図6に関連語データ記憶バッファ16内のデー
タの概念図を示す。このデータは同図に示すようにデー
タIDと、区切り文字により関連する2つの関連語の候
補データからなっている。このようにして抽出された関
連語候補データは関連語辞書登録判定部15に送られ、
登録するか否かを判定される。ここでの登録判定処理は
各単語の持つ品詞等から機械的に行うこともできるが、
表示部に判定対象の関連語候補データを表示し、関連語
辞書選択登録指示手段151により関連語辞書登録判定
部150に対してユーザが対話的に指示を出すことによ
り、必要な情報だけ選択的に登録することも可能であ
り、利用者の観点や、利用分野、利用方法などに応じた
適切な関連語情報を作成することができる。次にこの登
録判定処理で登録すると判定された関連語データは関連
語辞書登録部14に送られ、関連語辞書17に登録され
る。図7に関連語辞書内のデータの概念図を示す。この
例では3組の関連語候補データのうち、[商品企画部]
−−[商企部]と[中央営業部]−−[中営部]の2組
の関連語候補データが関連語として関連語辞書に登録さ
れたことになる。この登録の際に、同義語、類義語、上
位概念語など関連のタイプを分類して登録することによ
り、この情報を用いてシソーラスを構築することも可能
となる。
【0013】
【発明の効果】以上説明したように、本発明(請求項1
および請求項2)によれば、対象文書から特定文字を検
出し、これを基に自動的に関連語情報を抽出するように
したので、これまでオペレータが文書から目視で関連語
情報を抽出し、手作業で登録し関連語辞書を作成してい
た作業が効率化され、より多くの情報の収集が可能とな
る。また、本発明では、従来の関連語の自動抽出方法の
ような複雑な意味解析処理やそのための解析辞書の作成
の準備などの時間を要する処理や作業が必要でないの
で、従来の自動抽出方法に比べても、はるかに効率的に
関連語の自動作成をすることができる。
【0014】また、本発明(請求項2)によれば、特定
文字に着目して抽出した関連語情報に対して、関連語情
報登録判定手段により登録すべきか否かの判定をするの
で、関連語としての精度を向上させることができる。
【図面の簡単な説明】
【図1】 本発明の実施例の関連語辞書作成支援装置の
構成を示す図
【図2】 実施例の装置の基本処理動作の流れを示すフ
ローチャート
【図3】 入力文字列の具体例を示す図
【図4】 入力文字列に対して形態素解析処理を行った
処理結果の例を示す図
【図5】 区切り文字設定テーブルの例を示す図
【図6】 関連語データ記憶バッファ内のデータの概念
【図7】 関連語辞書内のデータの概念図。
【符号の説明】
10…入力部、11…形態素解析部、12…文字列処理
部、121…区切り文字検出部、122…文字列抽出
部、13…関連語データ制御部、14…関連語辞書登録
部、15…関連語辞書登録判定部、16…関連語データ
記憶バッファ、17…関連語辞書、18…表示部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松尾 裕子 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&Dビジネスパークビル 富 士ゼロックス株式会社内 (72)発明者 山口 浩 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&Dビジネスパークビル 富 士ゼロックス株式会社内 (72)発明者 相原 一雄 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&Dビジネスパークビル 富 士ゼロックス株式会社内 (72)発明者 喜多 辰臣 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&Dビジネスパークビル 富 士ゼロックス株式会社内 (72)発明者 山下 明男 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&Dビジネスパークビル 富 士ゼロックス株式会社内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 文書を読み込む入力手段と、 前記文書を構成する文字列から、文字列どうしを関連付
    ける特定の文字あるいは文字列を検出する特定文字検出
    手段と、 前記特定文字検出手段により検出された特定の文字ある
    いは文字列に応じて決まる関連のある複数の文字列を抽
    出する文字列抽出手段と、 関連語情報を保持する関連語情報記憶手段と、 前記文字列抽出手段によって抽出された複数の文字列を
    関連語情報として関連語情報記憶手段に登録する関連語
    登録手段とを有する関連語辞書作成支援装置。
  2. 【請求項2】 前記文字列抽出手段により抽出した文字
    列を前記関連語情報記憶手段に関連語情報として登録す
    るか否かを判定する関連語登録判定手段を有し、前記関
    連語登録手段は、前記関連語登録判定手段より登録指示
    された抽出文字列のみを前記関連語情報記憶手段に関連
    語として登録する機能を有する請求項1記載の関連語辞
    書作成支援装置。
JP6238581A 1994-09-07 1994-09-07 関連語辞書作成支援装置 Pending JPH0877204A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6238581A JPH0877204A (ja) 1994-09-07 1994-09-07 関連語辞書作成支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6238581A JPH0877204A (ja) 1994-09-07 1994-09-07 関連語辞書作成支援装置

Publications (1)

Publication Number Publication Date
JPH0877204A true JPH0877204A (ja) 1996-03-22

Family

ID=17032341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6238581A Pending JPH0877204A (ja) 1994-09-07 1994-09-07 関連語辞書作成支援装置

Country Status (1)

Country Link
JP (1) JPH0877204A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319767A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 類義語辞書登録方法
JP2018007236A (ja) * 2016-06-22 2018-01-11 富士通株式会社 圧縮プログラム、復元プログラム、圧縮方法、復元方法、および情報処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319767A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 類義語辞書登録方法
JP2018007236A (ja) * 2016-06-22 2018-01-11 富士通株式会社 圧縮プログラム、復元プログラム、圧縮方法、復元方法、および情報処理装置

Similar Documents

Publication Publication Date Title
US7587420B2 (en) System and method for question answering document retrieval
JPH07282063A (ja) 機械翻訳装置
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
EP0839357A1 (en) Method and apparatus for automated search and retrieval processing
JPH08255163A (ja) 文書検索装置
JPH08161343A (ja) 関連語辞書作成装置
JPH0652221A (ja) 固有名詞の自動抽出方式
JPH08166959A (ja) 画像処理方法
JPH0877204A (ja) 関連語辞書作成支援装置
JPH1139313A (ja) 文書自動分類システム、文書分類向け知識ベース生成方法及びそのプログラムを記録した記録媒体
JPS61248160A (ja) 文書情報登録方式
JP2002140338A (ja) 辞書構築支援装置および辞書構築支援方法
JPH05128159A (ja) キーワード抽出方法及び装置
JPH06223113A (ja) 電子ファイリング装置
JP2004062262A (ja) 未知語を自動的に辞書へ登録する方法
JPH08115340A (ja) 文書検索装置およびそれに用いるインデックスファイルの作成装置
JPH08305695A (ja) 文書処理装置
JPH03123971A (ja) 索引付け支援装置
JP3041002B2 (ja) 仮名漢字変換方法及び仮名漢字変換装置
JP2971295B2 (ja) 文書作成装置
JP2003263458A (ja) テキスト分析方法及び装置
JPH09269952A (ja) 文書検索装置及びその方法
KR100248388B1 (ko) 언어분석에 기반한 전자사전 서비스 방법 및 그 시스템
JP2982076B2 (ja) 文章処理装置および方法
JPH07219952A (ja) 日本語文章処理装置