JPH09146958A - 語彙対応辞書作成装置および語彙対応辞書作成方法 - Google Patents

語彙対応辞書作成装置および語彙対応辞書作成方法

Info

Publication number
JPH09146958A
JPH09146958A JP7307277A JP30727795A JPH09146958A JP H09146958 A JPH09146958 A JP H09146958A JP 7307277 A JP7307277 A JP 7307277A JP 30727795 A JP30727795 A JP 30727795A JP H09146958 A JPH09146958 A JP H09146958A
Authority
JP
Japan
Prior art keywords
data
noun
expression data
input data
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7307277A
Other languages
English (en)
Inventor
Yasuo Tanosaki
康 雄 田野崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP7307277A priority Critical patent/JPH09146958A/ja
Publication of JPH09146958A publication Critical patent/JPH09146958A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 最新の情報から最新の類語辞書を作成する。 【解決手段】 入力データを入力する入力手段11と、
この入力手段11が入力した入力データを格納する入力
データ格納手段19と、この入力データ格納手段19に
格納した入力データに含まれる言い換え表現データおよ
び被言い換え表現データを抽出する抽出手段19と、こ
の抽出手段19が抽出した言い換え表現データを被言い
換え表現データに対応付けて格納する言い換え表現デー
タ格納手段21とを備える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は語彙対応辞書作成装置
および語彙対応辞書作成方法に係り、特に、入力データ
に含まれている言い換え表現データおよび被言い換え表
現データにより語彙対応辞書を作成するようにした語彙
対応辞書作成装置および語彙対応辞書作成方法に関す
る。
【0002】
【従来の技術および発明が解決しようとする課題】一般
に文書作成装置には類語辞書、シソーラス等が備えら
れ、曖昧文書の検索を行うようにしている。
【0003】しかし、この検索を行うときには曖昧文書
の整理に時間がかかり迅速な文書の作成がでいないと言
う問題があった。
【0004】そのうえ、変化、変動が激しい社会分野、
経済分野、進歩が著しい先端技術分野等に関する文書に
あっては変化、変動等に充分に対応する語辞書等が作成
できていない言う問題があった。
【0005】そこで本発明は最新の社会情報、経済情
報、技術情報等から曖昧文書に対応する語彙対応辞書等
を作成するようにした語彙対応辞書作成装置および語彙
対応辞書作成方法を提供することを目的とするものであ
る。
【0006】
【課題を解決するための手段】本発明は入力データを入
力する入力手段と、この入力手段が入力した入力データ
を格納する入力データ格納手段と、この入力データ格納
手段に格納した入力データに含まれる言い換え表現デー
タおよび被言い換え表現データを抽出する抽出手段と、
この抽出手段が抽出した言い換え表現データを被言い換
え表現データに対応付けて格納する言い換え表現データ
格納手段とを備えたことを特徴とする語彙対応辞書作成
装置を提供するものである。
【0007】また、本発明の入力データ格納手段に格納
した入力データを形態素解析する形態素解析手段と、こ
の形態素解析手段が形態素解析した解析データに名詞お
よびその名詞を言い換え表現する文字列を含むとき、そ
の文字列を名詞の言い換え表現データ候補として抽出す
る候補抽出手段と、この候補抽出手段が抽出した言い換
え表現データ候補に名詞句があるとき、この名詞句を言
い換え表現データとして抽出する言い換え表現抽出手段
とを備えたことを特徴とする語彙対応辞書作成装置を提
供するものである。
【0008】さらに、本発明の入力データ格納手段に格
納した入力データの構文を解析する構文解析手段と、こ
の構文解析手段が解析した解析データに修飾語が付せら
れる名詞を含むときこの名詞を言い換え表現データの上
位語データとして格納する上位語データ格納手段とを備
えたことを特徴とする語彙対応辞書作成装置を提供する
ものである。
【0009】さらに、本発明の構文解析手段が解析した
解析データに修飾語がない名詞であるときこの名詞を言
い換え表現データの同義語データとして格納する同義語
データ格納手段を備えたことを特徴とする語彙対応辞書
作成装置を提供するものである。
【0010】またさらに、本発明は入力データを入力
し、この入力データを格納し、この格納した入力データ
に含まれる言い換え表現データおよび被言い換え表現デ
ータを抽出し、この抽出した言い換え表現データを被言
い換え表現データに対応付けて格納することを特徴とす
る語彙対応辞書作成方法を提供するものである。
【0011】さらに、本発明は入力データを形態素解析
し、この形態素解析した解析データに名詞およびその名
詞を言い換え表現する文字列を含むとき、その文字列を
名詞の言い換え表現データ候補として抽出し、この抽出
した言い換え表現データ候補に名詞句があるとき、この
名詞句を言い換え表現データとして抽出することを特徴
とする語彙対応辞書作成方法を提供するものである。
【0012】
【発明の実施の形態】以下、本発明語彙対応辞書作成装
置および語彙対応辞書作成方法の実施の形態を添付図面
について説明する。
【0013】図1に示すように本発明語彙対応辞書作成
装置10にはキーボード、マウス等の入力部11が備え
られ、新聞、社会・経済誌、学会誌等の最新情報から取
出された入力データを入力する。
【0014】この入力部11にはCPU 等を備えた主制御
部12が接続され、入力データ等を演算処理して各部に
送出する。
【0015】この主制御部12には形態素解析部13、
構文解析部14、言い換え表現抽出部15、言い換え表
現解析部16、同義語データ格納部17、上位・下位デ
ータ格納部18、入力データ格納バッファ19、形態素
解析結果格納バッファ20、語彙対応テーブル格納バッ
ファ21および出力部、例えば、表示部22等が接続さ
れている。
【0016】形態素解析部13は入力データを品詞、記
号等に形態素毎に解析し、構文解析部14は入力データ
を修飾語、被修飾語等に構文解析する。
【0017】また、言い換え表現抽出部15は入力デー
タに含まれている言い換え語を抽出し、言い換え表現解
析部16は入力データに含まれている言い換え語の修飾
語、被修飾語等を解析する。
【0018】さらに、同義語データ格納部17は同義語
データを格納しあるいは読み出し、上位・下位データ格
納部18は上位概念データあるいは下位概念データを格
納しあるいは読み出す。
【0019】さらにまた、入力データ格納バッファ19
は入力データを格納し、形態素解析結果格納バッファ2
0は形態素の解析結果を格納し、語彙対応テーブル格納
バッファ21は語彙対応データを格納する。
【0020】さらに、出力部、例えば、表示部22は前
記各部が解析、抽出、格納したデータを読み込み表示す
るようになっている。
【0021】このように構成した語彙対応辞書作成装置
10を用いて最新情報から語彙対応辞書を作成する場合
につき図2のフロチャート、図3、図4等の説明図を参
照しながら説明する。
【0022】図3に示すように電子学会誌等から最新の
技術情報『A社はDVD(デジタルビデオディスク)に
関する…』を取出し、これを入力データとして入力部1
1から入力する。この入力データを主制御部12を介し
て入力データ格納バッファ19に送りこれを格納する
(S1)。この入力データ格納バッファ19に格納した入
力データを主制御部12の制御により形態素解析部13
に送る。形態素解析部13が入力データを受けると、図
4に示すように、この入力データの形態素毎に品詞、記
号等に解析し、その解析データを形態素解析結果格納バ
ッファ20に格納する(S2)。
【0023】これらの解析データを形態素解析結果格納
バッファ20に格納すると主制御部12の制御により言
い換え表現抽出部15を駆動する。この言い換え表現抽
出部15の駆動のより解析データ中に名詞『A社』、
『DVD』、『デジタル』、『ビデオ』、『ディスク』
…とこの名詞に続く丸括弧( )に囲まれた文字列『デ
ジタルビデオディスク』…があるか否かを調べ、名詞
『DVD』を被言い換え表現データとして、また、この
名詞『DVD』に続く文字列『デジタルビデオディス
ク』を名詞『DVD』の言い換え表現データとして抽出
する(S3)。
【0024】つぎに構文解析部13および言い換え表現
解析部16を駆動し、言い換え表現データ『デジタルビ
デオディスク』の修飾語、被修飾語等の文法的な解析を
行う(S4)。
【0025】この解析で言い換え表現データの末尾が名
詞であるか否かを判断し(S5)、名詞である場合にはさ
らに言い換え表現データが名詞のみからなるか、修飾語
があるか否かを判断する(S6)。末尾に名詞がない場合
には処理を中断する。
【0026】この判断では末尾が名詞『ディスク』であ
り、言い換え表現データが『デジタル』、『ビデオ』、
『ディスク』の名詞のみである。
【0027】そのため、図5に示すように、被言い換え
表現データ『DVD』、末尾が名詞『ディスク』を含む
言い換え表現データ『デジタルビデオディスク』を『D
VD』の同義語データとして同義語データ格納部17に
送り図5に示す形式で語彙対応テーブル格納バッファ2
1に格納する(S7)。
【0028】すべてが名詞でなけれ第2の実施の形態に
示すようにそれを上位・下位データ格納部18に送り後
述するように格納する(S8)。
【0029】このような方法により最新の情報から作成
した被言い換え表現データ、言い換え表現データを語彙
対応テーブル格納バッファ21の語彙対応テーブルに順
次書き込む(S9)。この書き込みは入力データの末尾に
至るまで行われ、末尾に至ったら語彙対応テーブル格納
バッファ21に格納して確定する(S10 )、(S11 )。
【0030】また、図6に示すような最新の技術情報
『B氏はアロマロカリス(古生代に水中に生息した生
物)の…』を入力データとして入力部11から入力す
る。この入力データを入力データ格納バッファ19に格
納し(S1)、これを図7に示すように形態素解析部13
により解析し入力データの品詞、記号等に分類しそれを
形態素解析結果格納バッファ20に格納する(S2)。
【0031】この形態素解析結果格納バッファ20に解
析データを言い換え表現抽出部15により解析データ中
に名詞『アロマロカリス』とこの名詞『アロマロカリ
ス』に続く文字列を調べて括弧記号を参照して言い換え
表現データ『古生代に水中に生息した生物』を抽出する
(S3)。
【0032】また、構文解析部14および言い換え表現
解析部16を駆動し言い換え表現データ『古生代に水中
に生息した生物』の文法的な解析を行い(S4)、言い換
え表現データの末尾に名詞があるか否か(S5)、その言
い換え表現データが名詞のみかあるいは修飾語を含むか
否かを判断する(S6)。
【0033】この解析によりすべてが名詞であれば上述
したように同義語データ格納部17に格納する(S7)。
また、『古生代に』、『水中に』、『生息した』等のよ
うな語句によって修飾語される名詞であればこれを被言
い換え表現データ『アロマロカリス』の上位語として上
位・下位データ格納部18に送り付属する各修飾語とと
もに図9に示す形式でに語彙対応テーブル格納バッファ
21中に格納する(S8)。
【0034】このような方法により作成した最新の情報
とその言い換え表現を語彙対応テーブル格納バッファ2
1の語彙対応テーブルに順次書き込む(S9)。この書き
込みは入力データの末尾に至るまで行われ、末尾に至っ
たら語彙対応テーブル格納バッファ21に格納して終了
する(S10 )、(S11 )。
【0035】このような方法により最新の情報から頻繁
に使用される曖昧語、日常良く使用される曖昧語、すな
わち、被言い換え表現データおよびこれに対応する言い
換え表現データを順次取り込み語彙対応辞書を迅速に作
成する。
【0036】このような語彙対応辞書利用することによ
り類語を最新の情報まで取り込むことができる。
【0037】なお、上記実施の形態では言い換え表現デ
ータを丸括弧( )に囲まれた文字列としたがこれに代
わりコロン『:』、セミコロン『;』により表示する文
字列等を用いるようにしてもよい。
【0038】
【発明の効果】本発明は入力データを入力する入力手段
と、この入力手段が入力した入力データを格納する入力
データ格納手段と、この入力データ格納手段に格納した
入力データに含まれる言い換え表現データおよび被言い
換え表現データを抽出する抽出手段と、この抽出手段が
抽出した言い換え表現データを被言い換え表現データに
対応付けて格納する言い換え表現データ格納手段とを備
えたから最新の情報等に対する同義語辞書・シソーラス
の作成が迅速にできるとともに曖昧語に対する文書作成
を容易に行うことができる。
【0039】また、本発明は前記入力データ格納手段に
格納した入力データを形態素解析する形態素解析手段
と、この形態素解析手段が形態素解析した解析データに
名詞およびその名詞を言い換え表現する文字列を含むと
き、その文字列を名詞の言い換え表現データ候補として
抽出する候補抽出手段と、この候補抽出手段が抽出した
言い換え表現データ候補に名詞句があるとき、この名詞
句を言い換え表現データとして抽出する言い換え表現抽
出手段とを備えたから最新の情報を形態素解析により容
易に作成することができる。
【0040】さらに、本発明は前記入力データ格納手段
に格納した入力データの構文を解析する構文解析手段
と、この構文解析手段が解析した解析データに修飾語が
付せられる名詞を含むときこの名詞を言い換え表現デー
タの上位語データとして格納する上位語データ格納手段
とを備えたから語彙対応辞書の分類精度を高め迅速に文
書を作成を行うことができる。
【0041】さらに、本発明は前記構文解析手段が解析
した解析データに修飾語がない名詞であるときこの名詞
を言い換え表現データの同義語データとして格納する同
義語データ格納手段を備えたから語彙対応辞書の分類精
度を高め迅速に文書を作成を行うことができる。
【0042】さらにまた、本発明は入力データを入力
し、この入力データを格納し、この格納した入力データ
に含まれる言い換え表現データおよび被言い換え表現デ
ータを抽出し、この抽出した言い換え表現データを被言
い換え表現データに対応付けて格納するようにしたから
最新の情報等に対する語彙対応辞書の作成が迅速にでき
るとともに曖昧語に対する文書作成を容易に行うことが
できる。
【0043】さらに、本発明は入力データを形態素解析
し、この形態素解析した解析データに名詞およびその名
詞を言い換え表現する文字列を含むとき、その文字列を
名詞の言い換え表現データ候補として抽出し、この抽出
した言い換え表現データ候補に名詞句があるとき、この
名詞句を言い換え表現データとして抽出する最新の情報
が形態素解析から容易に作成することができる。
【図面の簡単な説明】
【図1】本発明語彙対応辞書作成装置の概要を示すブロ
ック図。
【図2】図1の作動を示すフロチャート。
【図3】入力データの一例を示す説明図。
【図4】図3の入力データを形態素解析した場合の説明
図。
【図5】図3の語彙対応テーブル格納バッファの1の格
納例を示す説明図。
【図6】入力データの他の一例を示す説明図。
【図7】図6の入力データの形態素解析した場合の説明
図。
【図8】図6の構文を解析した場合の説明図。
【図9】図6の語彙対応テーブル格納バッファの他の格
納例を示す説明図。
【符号の説明】
10 語彙対応辞書作成装置 11 入力部 12 主制御部 13 形態素解析部 14 構文解析部 15 言い換え表現抽出部 16 言い換え表現解析部 17 同義語データ格納部 18 上位・下位データ格納部 19 入力データ格納バッファ 20 形態素解析結果格納バッファ 21 語彙対応テーブル格納バッファ 22 出力部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】入力データを入力する入力手段と、 この入力手段が入力した入力データを格納する入力デー
    タ格納手段と、 この入力データ格納手段に格納した入力データに含まれ
    る言い換え表現データおよび被言い換え表現データを抽
    出する抽出手段と、 この抽出手段が抽出した言い換え表現データを被言い換
    え表現データに対応付けて格納する言い換え表現データ
    格納手段と、 を備えたことを特徴とする語彙対応辞書作成装置。
  2. 【請求項2】前記入力データ格納手段に格納した入力デ
    ータを形態素解析する形態素解析手段と、 この形態素解析手段が形態素解析した解析データに名詞
    およびその名詞を言い換え表現する文字列を含むとき、
    その文字列を名詞の言い換え表現データ候補として抽出
    する候補抽出手段と、 この候補抽出手段が抽出した言い換え表現データ候補に
    名詞句があるとき、この名詞句を言い換え表現データと
    して抽出する言い換え表現抽出手段と、 を備えたことを特徴とする請求項1に記載の語彙対応辞
    書作成装置。
  3. 【請求項3】前記入力データ格納手段に格納した入力デ
    ータの構文を解析する構文解析手段と、 この構文解析手段が解析した解析データに修飾語が付せ
    られる名詞を含むときこの名詞を言い換え表現データの
    上位語データとして格納する上位語データ格納手段と、 を備えたことを特徴とする請求項1または2に記載の語
    彙対応辞書作成装置。
  4. 【請求項4】前記構文解析手段が解析した解析データに
    修飾語がない名詞であるときこの名詞を言い換え表現デ
    ータの同義語データとして格納する同義語データ格納手
    段を備えたことを特徴とする請求項1、2または3に記
    載の語彙対応辞書作成装置。
  5. 【請求項5】入力データを入力し、 この入力データを格納し、 この格納した入力データに含まれる言い換え表現データ
    および被言い換え表現データを抽出し、 この抽出した言い換え表現データを被言い換え表現デー
    タに対応付けて格納する、 ことを特徴とする語彙対応辞書作成方法。
  6. 【請求項6】入力データを形態素解析し、 この形態素解析した解析データに名詞およびその名詞を
    言い換え表現する文字列を含むとき、その文字列を名詞
    の言い換え表現データ候補として抽出し、 この抽出した言い換え表現データ候補に名詞句があると
    き、この名詞句を言い換え表現データとして抽出する、 ことを特徴とする請求項5に記載の語彙対応辞書作成方
    法。
JP7307277A 1995-11-27 1995-11-27 語彙対応辞書作成装置および語彙対応辞書作成方法 Pending JPH09146958A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7307277A JPH09146958A (ja) 1995-11-27 1995-11-27 語彙対応辞書作成装置および語彙対応辞書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7307277A JPH09146958A (ja) 1995-11-27 1995-11-27 語彙対応辞書作成装置および語彙対応辞書作成方法

Publications (1)

Publication Number Publication Date
JPH09146958A true JPH09146958A (ja) 1997-06-06

Family

ID=17967197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7307277A Pending JPH09146958A (ja) 1995-11-27 1995-11-27 語彙対応辞書作成装置および語彙対応辞書作成方法

Country Status (1)

Country Link
JP (1) JPH09146958A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190044A (ja) * 2005-01-05 2006-07-20 Ricoh Co Ltd 関連文字列生成装置、プログラム、及び記憶媒体
JP2010267047A (ja) * 2009-05-14 2010-11-25 Ntt Data Corp 類義語辞書構築装置及び方法、コンピュータプログラム
CN108292306A (zh) * 2015-11-25 2018-07-17 皇家飞利浦有限公司 电子临床自由文本的阅读者驱动的释义

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190044A (ja) * 2005-01-05 2006-07-20 Ricoh Co Ltd 関連文字列生成装置、プログラム、及び記憶媒体
JP2010267047A (ja) * 2009-05-14 2010-11-25 Ntt Data Corp 類義語辞書構築装置及び方法、コンピュータプログラム
CN108292306A (zh) * 2015-11-25 2018-07-17 皇家飞利浦有限公司 电子临床自由文本的阅读者驱动的释义

Similar Documents

Publication Publication Date Title
JP3220560B2 (ja) 機械翻訳装置
Bowker Computer-aided translation technology: A practical introduction
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
US8594992B2 (en) Method and system for using alignment means in matching translation
KR900009120B1 (ko) 기계번역장치
KR20040070168A (ko) 번역 방법, 번역문의 출력방법, 기억 매체, 프로그램 및컴퓨터 장치
US20040254783A1 (en) Third language text generating algorithm by multi-lingual text inputting and device and program therefor
Kunchukuttan et al. Machine Translation and Transliteration involving Related, Low-resource Languages
JPH09146958A (ja) 語彙対応辞書作成装置および語彙対応辞書作成方法
JPH05197744A (ja) 外国語ワードプロセッサ
JP2838984B2 (ja) 汎用参照装置
JP2003006191A (ja) 外国語文書作成支援装置及び外国語文書作成支援方法並びにプログラム記録媒体
JP4054353B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JPH06259423A (ja) 要約自動作成方式
JP2650099B2 (ja) ドキュメント抽出装置
JP2521435B2 (ja) 日本語生成装置
JPH0561902A (ja) 機械翻訳システム
JP2000029882A (ja) 要約文作成装置
Szpektor et al. Cross lingual and semantic retrieval for cultural heritage appreciation
JP3313810B2 (ja) アスペクト処理装置
JPH09185629A (ja) 機械翻訳方法
JP3098076B2 (ja) 機械翻訳装置
JP2924955B2 (ja) 翻訳方法および翻訳装置
JPH0973454A (ja) 文書作成装置及び文書作成方法
JPH0340067A (ja) 文章検索方式