JPH05113997A - 辞書データ収集装置 - Google Patents

辞書データ収集装置

Info

Publication number
JPH05113997A
JPH05113997A JP3172294A JP17229491A JPH05113997A JP H05113997 A JPH05113997 A JP H05113997A JP 3172294 A JP3172294 A JP 3172294A JP 17229491 A JP17229491 A JP 17229491A JP H05113997 A JPH05113997 A JP H05113997A
Authority
JP
Japan
Prior art keywords
word
pattern
original
data
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3172294A
Other languages
English (en)
Inventor
Yukio Yamamoto
由紀雄 山本
Masaki Matsudaira
正樹 松平
Hitoshi Sakamoto
仁 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3172294A priority Critical patent/JPH05113997A/ja
Publication of JPH05113997A publication Critical patent/JPH05113997A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 機械翻訳装置や翻訳用辞書などは一切使用せ
ず、非常に簡単な方式で、入力原語文のみ、入力既存の
語彙データのみ、又は入力原語文と入力既存の語彙デー
タの、いずれかから、その原語と所定の関係にある語を
迅速に収集する辞書データ収集装置を提供する。 【構成】 入力日本語文は、語分割部1で字種に応じて
分割されて、パターン検索部3に供給される。抽出パタ
ーン格納部2には、原語と、その原語と所定の関係にあ
る語とから成る語パターンであって、語パターン抽出の
ための抽出パターンが複数格納されており、パターン検
索部3は入力の語に一致する抽出パターンを取り出し
て、テーブル出力編集部4に出力する。テーブル編集部
4は抽出パターンと一致する語をパターンごとに分類
し、しかも各語の出現頻度などを検出して編集する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、例えば日本語の文章
や既存の語彙データなどから、原語−訳語、原語−略
語、原語−同義語の対などを自動的に収集する装置に関
する。
【0002】
【従来の技術】従来、機械翻訳などの自然言語処理に用
いる辞書の開発は、以前は自動的に行う手段がなかった
ために、人手によって膨大なデータを収集処理して、入
力しなければならなかった。
【0003】このような非効率的な方法に対して、特開
昭62−297972号公報によれば、機械翻訳手段を
用いることによって、その機能が果たす作用によって翻
訳された出力表現と入力表現の対応する部分を抽出し
て、表現間の対訳関係を抽出することによって自動的に
翻訳に利用できる翻訳辞書を生成する方式が提案されて
いる。
【0004】
【発明が解決しようとする課題】しかしながら、以上の
様な方式では、機械翻訳手段(例えば、機械翻訳装置や
プログラム及び翻訳用の辞書など)を準備する必要があ
り、入力表現と出力表現の比較を行うための複雑な手段
が必要となる問題があった。
【0005】また以上の様な方式では、機械翻訳手段内
の辞書の情報の組合わせ以上の情報は得られないという
問題があった。
【0006】この発明は、以上の課題に鑑み為されたも
のであり、その目的とするところは、機械翻訳装置や翻
訳用辞書などは一切使用せず、非常に簡単な装置で、入
力原語文のみ、入力既存の語彙データのみ、又は入力原
語文及び入力既存の語彙データに、いずれかから、ある
原語と、その原語と所定の関係にある語とを迅速に、し
かも自動的に収集する辞書データ収集装置を提供するこ
とである。
【0007】
【課題を解決するための手段】この発明は、以上の目的
を達成するために、第1の発明においては、入力原語文
から原語と、その原語と所定の関係にある語とを収集す
る辞書データ収集装置において、以下の特徴的な各手段
を備えて改良した。
【0008】つまり、入力した前記原語文を字種の違い
によって各語に分割して出力する語分割手段と、ある原
語と、その原語と所定の関係にある語とから成る語パタ
ーンであって、前記語分割手段から供給される各語か
ら、所望の語パターンを抽出するために予め用意されて
いる抽出パターンを複数格納する原語文用抽出パターン
格納手段と、前記語分割手段から供給される各語から、
前記抽出パターン格納手段に格納されている抽出パター
ンと一致する語パターンを検索して出力する原語文用パ
ターン検索手段とを備えて成ることを特徴とする。
【0009】また第2の発明においては、入力既存の語
彙データから原語と、その原語と所定の関係にある語と
を収集する辞書データ収集装置において、以下の特徴的
な各手段を備えて改良した。
【0010】つまり、ある原語と、その原語と所定の関
係にある語とから成る語パターンであって、前記入力語
彙データから、所望の語パターンを抽出するために予め
用意されている抽出パターンを複数格納する語彙データ
用抽出パターン格納手段と、前記入力語彙データから、
前記抽出パターン格納手段に格納されている抽出パター
ンと一致する語パターンを検索して出力する語彙データ
用パターン検索手段とを備えて成ることを特徴とする。
【0011】また第3の発明においては、入力原語文及
び入力既存の語彙データから原語と、その原語と所定の
関係にある語とを収集する辞書データ収集装置におい
て、以下の特徴的な各手段を備えて改良した。
【0012】つまり、原語と、その原語と所定の関係に
ある語とから成る語パターンであって、前記語分割手段
から供給される各語から、所望の語パターンを抽出する
ために予め用意されている抽出パターンを複数格納する
原語文用抽出パターン格納手段と、原語と、その原語と
所定の関係にある語とから成る語パターンであって、前
記入力語彙データから、所望の語パターンを抽出するた
めに予め用意されている抽出パターンを複数格納する語
彙データ用抽出パターン格納手段と、前記語分割手段か
ら供給される各語から、前記原語文用抽出パターン格納
手段に格納されている抽出パターンと一致する第1の語
パターンを検索し、更に前記語彙データから、前記語彙
データ用抽出パターン格納手段に格納されている抽出パ
ターンと一致する第2の語パターンを検索して、前記第
1及び第2の語パターンから原語と、その原語と所定の
関係にある語を抽出して出力するパターン抽出手段とを
備えて成ることを特徴とする。
【0013】
【作用】この第1の発明によれば、機械翻訳装置や翻訳
用辞書などを使用せずに、簡単な構成で、入力原語文か
ら原語と、その所定の関係にある語(例えば原語と略語
の対、原語と訳語の対、原語と同義語の対など)を自動
的に収集することができる。
【0014】またこの第2の発明によれば、機械翻訳装
置や翻訳用辞書などを使用せずに、簡単な構成で、入力
既存の語彙データから原語と、その所定の関係にある語
(例えば原語と略語の対、原語と訳語の対、原語と同義
語の対など)を自動的に収集することができる。
【0015】またこの第3の発明によれば、機械翻訳装
置や翻訳用辞書などを使用せずに、簡単な構成で、入力
原語文及び入力既存の語彙データから原語と、その所定
の関係にある語(例えば原語と略語の対、原語と訳語の
対、原語と同義語の対など)を自動的に収集することが
できる。
【0016】
【実施例】次にこの発明に係る辞書データ収集装置の好
適な実施例を図面を用いて説明する。
【0017】この辞書データ収集装置は、ハードウエア
的には一般のコンピュータシステム(例えばワークステ
ーションなど)と同様な構成で実現できる。即ちCP
U、主記憶装置、補助記憶装置、キーボード、CRTデ
ィスプレイ、プリンタ、OCR等から構成される。この
実施例ではこれ以上のハードウエアについての説明は省
略する。
【0018】第1実施例 第1実施例の説明を図面を用いて説明する。
【0019】この第1実施例は、日本語の例文を入力と
し、出力として原語−略語、原語−訳語を迅速に収集す
ることを目的とする。
【0020】この第1実施例の機能的構成を図1に示
す。
【0021】図1は、原文入力部10と、語分割部1
と、抽出パターン格納部2と、パターン検索部3と、テ
ーブル編集部4と、テーブル出力部20とで構成されて
いる。次に前記各構成部の機能を説明する。
【0022】原文入力部10は、キーボードやOCRな
どを用いて読み込んだ日本文の原文をメモリなどに格納
し、1文づつ語分割部1に供給する。
【0023】図1において前記語分割部1は、入力され
た日本文を字種(英字、ひらがな、カタカナなど)の違
いによって分割するものである。語分割用の辞書は必要
ない。
【0024】抽出パターン格納部2は、抽出したいパタ
ーンを格納する。
【0025】パターン検索部3は、語分割部1から供給
され、しかも抽出パターン格納部2に格納されている抽
出パターンと一致するものを取り出してテーブル編集部
4に供給する。
【0026】テーブル編集部4は、パターン検索部3か
らの結果に対して編集(例えば、並べ換えや、出現頻度
のカウントなど)を行い、この結果をテーブル出力部2
0に供給する。
【0027】テーブル出力部20は、テーブル編集部4
から出力された図5に示すようなテーブルを外部のCR
Tディスプレイやプリンタに出力する。
【0028】次に図1の動作を説明する。
【0029】原文入力部10から、語分割部1に供給さ
れる文の例を次のような文とする。 例文・・・「・・・AI(人工知能)の応用・・・」 この場合は、語分割部1からの出力は、図2に示すよう
に(1)〜(7)に分割され出力される。
【0030】抽出パターン格納部2は、図3に示すよう
なパターンP1〜P6・・・を格納している。図3中の
文字列1、2の必須文字はとは、文字列1、2中に必ず
必要な字種であり、任意文字とは、文字列1、2中にあ
ってもなくてもよい字種を意味する。
【0031】例えばパターンNoがP3のものは、1文
字以上の英大文字(文字列1)と、「(」(区切りマー
カ)と1文字以上の漢字(文字列2)と「)」(区切り
マーカ)が続いているというパターンを表している。こ
のパターンに一致するのが、前記例文中の「AI(人工
知能)」に当たる。
【0032】またパターンNoがP1のものは、1文字
以上の英大文字(文字列1)と「(」(区切りマーカ)
と英大文字、英小文字、アンダーバー、ブランクのいず
れかの連続(文字列2、但し、英大文字、アンダーバ
ー、ブランクはなくてもよい)と「)」(区切りマー
カ)が続いているというパターンを表している。このパ
ターンの例として、例えば「LAN(略語)(Local Ar
eaNetwork)(原語)」を挙げることができる。
【0033】これらのパターンは、使用者が目的や入力
する文章の違いに応じて変更することが可能であり、区
切りマーカも「(」』、「)」のみでなく、例え
ば「〔」、「〕」や、「《」、「》」
や、「『」、「』」などであってもよい。
【0034】パターン検索部3は、語分割部1からの出
力より、抽出パターン格納部2に格納されているパター
ンに一致しているものを取り出すものである。前記例文
において、パターン検索部3からの出力の例を図4に示
す。図4からわかるように前記例文の下線部が、図3の
パターンNoP3に一致しているので、このP3が出力
されている。
【0035】テーブル編集部4は、パターン検索部3か
らの結果を編集して出力する。即ち、パターン検索部3
からの結果を、パターンごとに振り分けて、更に並べ換
えなどを行って出現頻度と共に出力する。
【0036】図5にテーブル編集部4からの出力の例を
示す。ここで前記入力例文中の「AI(人工知能)」と
いう表現から、英語の略語である「AI」(文字列1)
と日本語訳語の「人工知能」(文字列2)という語の対
が抽出できたことがわかる。また入力例文が、例えば
「・・・LAN(Local Area Network)の応用・・・」
である場合は、パターン検索部3からP1がテーブル編
集部4に出力され、このテーブル編集部4から例文中の
「LAN(Local Area Network)」から、略語「LA
N」と、原語「Local Area Network」の対が出力され
る。
【0037】以上の第1実施例によれば、非常に簡単な
構成で、日本語の文書から、原語−訳語、原語−略語の
対などを自動的に収集することができる。
【0038】またこのようにして収集されたデータは、
出現頻度に基づき専門用語を抽出するなどして、機械翻
訳用辞書の開発・改良に役立てることができる。
【0039】更に例えば新しく登場した専門用語など
は、原語ないし略語が括弧()内に記載されている場合
が多いため、この第1実施例の装置によれば、新出用語
をもれなく収集することができる。
【0040】第2実施例 次にこの発明に係る辞書データ収集装置の好適な第2実
施例を図面を用いて説明する。
【0041】この第2実施例は、入力として日本語の例
文のみ、既存の語彙データのみ、又は日本語の例文及び
既存の語彙データの、いずれかから、原語−訳語、原語
−略語、原語−同義語などの辞書データを迅速に収集す
ることを目的とする。
【0042】この第2実施例の機能的構成を図6に示
す。
【0043】図6は、原文入力部10と、語分割部1
と、パターン検索部3と、日本語文用抽出パターン格納
部5と、語彙(一定の範囲に使われる語及びそれを集め
たもの)データ入力部30と、パターン付与部6と、語
彙データ用抽出パターン格納部7と、原語−略語抽出部
8と、原語−訳語抽出部9と、原語−同義語抽出部10
と、出力部40とで構成されている。
【0044】語分割部1に日本語文が入力され、パター
ン付与部6に既存の語彙データ(後述)が入力される。
入力については、日本語文のみ、既存の語彙データの
み、又は日本語文と既存の語彙データの両方の、いずれ
の場合でも有効である。
【0045】原語−略語抽出部8からは、原語と略語の
対(例えば、前記第1実施例と同様な対)が出力され、
同様に原語−訳語抽出部9からは原語と訳語の対(例え
ば、前記第1実施例と同様な対)が出力され、原語−同
義語抽出部10からは原語と同義語の対(例えば、国際
標準機構と国際標準化機構などの対)が出力される。次
は図6の前記各構成部の機能を説明する。
【0046】原文入力部10は、キーボードやOCRな
どを用いて読み込んだ日本文の原文をメモリなどに格納
し、1文づつ語分割部1に供給する。
【0047】語分割部1は、入力された日本語文を字種
(英字、ひらがな、カタカナなど)の違いによって分割
するものである。語分割用の辞書は必要としない。
【0048】日本語文用抽出パターン格納部5は、入力
された日本語文から単語のペアを認識するためのパター
ンをするものであり、語彙データ用抽出パターン格納部
7は、入力された既存の語彙データの各々を区別するた
めのパターンを格納する。
【0049】パターン検索部3は、語分割部1の出力か
ら日本語文用抽出パターン格納部5に格納されている抽
出パターンと一致するものを取り出すものである。
【0050】語彙データ入力部30は、キーボードやO
CRなどを用いて読み込んだ既存の用語集、略語集、対
訳データなどをメモリなどに格納し、1データづつパタ
ーン付与部6に供給する。
【0051】パターン付与部6は、既存の語彙データが
入力される。この語彙データとしては、用語集(「A
I」と「人工知能」の対など)、略語集(「FA」と
「factryautomation 」の対など)、対訳データ(日本
語と英語の単語の対など)を扱うことができる。図8に
語彙データの形式を示す。またこのパターン付与部6
は、入力された各データに対して語彙データ用抽出パタ
ーン格納部7に格納されている抽出パターンの番号を付
与するものである。
【0052】原語−略語抽出部8は、パターン検索部2
及びパターン付与部6からの出力を受け取り、原語−略
語の対を出力し、原語−訳語抽出部9は、同様に原語−
訳語の対を出力し、原語−同義語抽出部10は、同様に
原語−同義語の対を出力するものである。
【0053】出力部40は、原語−略語の対、原語−訳
語の対、原語−同義語の対などを外部のCRTディスプ
レイやプリンタに出力する。
【0054】次に図6の動作を説明する。
【0055】原文入力部10から語分割部1に供給され
る日本語文に次のような表現を含む文が含まれていると
する。
【0056】(例文)・・・OSI(Open System Inte
rconnection )の採用は・・・ ・・・OSI(開放型システム間相互接続)の規格に・
・・ この場合は、語分割部1の出力は図7に示すようにな
る。
【0057】日本語文用抽出パターン格納部5には、図
9に示すようなパターンが格納されている。図中の文字
列1、2の必須文字とは文字列1、2内に必ず必要な字
種であり、任意文字列とは文字列1、2内にあってもよ
い字種を意味する。
【0058】例えば、パターンNoがP1のものは、1
文字以上の英大文字(文字列1)と「(」(区切りマー
カ)と英大文字、英小文字、アンダーバー、ブランクの
いずれかの連続(文字列2、但し英大文字、アンダーバ
ー、ブランクはなくてもよい)と「)」(区切りマー
カ)が続いているというパターンを表している。OSI
(Open System Interconnection )は、このP1パター
ンに一致する。
【0059】またパターンNoがP5のものは、1文字
以上の英大文字(文字列1)と、「(」(区切りマー
カ)と、漢字、カタカナのいずれかの連続(文字列2)
と「)」(区切りマーカ)が続いているというパターン
を表している。OSI(開放型システム間相互接続)
は、このP5パターンに一致する。
【0060】パターン検索部3は、語分割部1からの出
力から、日本語文用抽出パターン格納部5に格納されて
いるパターンに一致しているものを取り出す。パターン
検索部3からの出力を図11に示す。
【0061】またパターン付与部6に供給されたデータ
に、図8に示すデータがあるとする。語彙データ用抽出
パターン格納部7には、図10に示すようなパターンが
格納されている。入力されたデータが略語集のデータで
あれば、パターンNoはP1となるが、用語集データの
パターンNoはP3〜P5に分かれており、対訳データ
のパターンNoはK1〜K3に分かれている。尚パター
ン番号は、図9及び図10において共通的に定義されて
いる。
【0062】原語−略語抽出部8、原語−訳語抽出部
9、原語−同義語抽出部10における処理を図16〜図
18の処理フローチャートを用いて説明する。
【0063】図16は、原語−略語抽出部8の処理フロ
ーチャートを示す。
【0064】図16において、パターン検索部3と、パ
ターン付与部6からのデータを受け取る(S110
1)。次にバッファを空にする(S1102)。次にデ
ータの終りか否かを判断する(S1103)。ここでデ
ータの終りでないと判断されると次に、1データを読み
込む(S1104)。次に図9におけるパターンNo=
P1であるか否かを判断する(S1105)。ここでパ
ターンNoがP1であるならば次に、文字列1、文字列
2の順に出力する(S1106)。次は再び前記S11
03に戻り、処理を繰り返す。しかしながら、前記S1
105において、パターンNoがP1でなければ、次に
図9におけるパターンNo=P2であるか否かを判断す
る(S1107)。ここでパターンNoがP2であるな
らば次に、文字列2、文字列1の順番に出力する(S1
108)。次は再び前記S1103に戻り、処理を繰り
返す。しかしながら、前記S1107において、パター
ンNoがP2でなければ次に、パターンNoが、P3、
P4、P5、K1、K2、K3のいずれであるか否かを
判断する(S1109)。いずれにも該当しなければ、
次は再び前記S1103に戻り処理を繰り返す。しかし
ながら、前記S1109において、P3、P4、P5、
K1、K2、K3のいずれかに該当する場合は、次に文
字列1と文字列2を入れ換える(S1110)。次にデ
ータをバッファに追加する(S1111)。次は再び前
記1103に戻り、処理繰り返す。
【0065】しかしながら、前記S1103において、
データの終わりと判断されると、次はバッファ内のデー
タを文字列1、文字列2の順番にソート(並び替え)す
る(S1112)。次にバッファ内で文字列1が同一の
連続した2データがあるか否かを判断する(S111
3)。ここでなければ、処理を終了する。しかしなが
ら、あれば次に第1データと、第2データのパターンが
(P3、K1)か、(P4、K2)か、(P5、K3)
のいずれであるか否かを判断する(S1114)。いず
れにも該当しなければ、第1データを削除する(S11
17)。しかしながら、(P3、K1)か、(P4、K
2)か、(P5、K3)のいずれかに該当する場合は、
第1データ、第2データ各々の文字列2を出力する(S
1115)。次は第1データと、第2データを削除する
(S1116)。次は再び前記S1113に戻り、処理
を繰り返す。
【0066】例えば図11に示す検索部2からの2つの
データ(パターンNoがP1、P5)出力の内、第1の
データはパターンNoがP1となっている。このデータ
は図16(原語−略語抽出部8)のフローチャートのS
1106によって、略語「OSI」と原語「Open Syste
m Interconnection 」の対が出力される。また図11に
おいて、図10の例に示すような語が入力された場合
は、前記S1114の判断で、パターン(P3、K1)
の場合は、例えば「AI」と「Artifical Intelligenc
e」の対が出力され、またパターン(P4、K2)の場
合は、例えば「OA」と「Office Automation 」の対が
出力され、またパターン(P5、K3)の場合は、例え
ば「OSI」と「Open SystemInterconnection 」の対
が出力される。
【0067】原語−略語抽出部8からの出力の例を図1
3に示す。
【0068】図17は原語−訳語抽出部9の処理フロー
チャートである。
【0069】図17において、パターン検索部2、パタ
ーン付与部6からのデータを受け取る(S1201)。
次はバッファを空にする(S1202)。次はデータの
終わりか否かを判断する(S1203)。ここで終わり
でないと判断されると次は、1データ読み込む(S12
04)。次はパターンNoがK1、K2、K3のいずれ
かに該当するか否かを判断する(S1205)。ここで
該当すると判断されると次は、文字列2、文字列1の順
番に出力する(S1206)。しなかながら、前記S1
205において、K1、K2、K3のいずれにも該当し
ない場合は、次にパターンNoがP1、P3、P4、P
5のいずれに該当するか否かを判断する(S120
7)。ここで、いずれにも該当しない場合は、再び前記
S1203に戻り、処理を繰り返す。しかしながら、P
1、P3、P4、P5のいずれかに該当する場合は、次
にデータをバッファに追加する(S1208)。次は再
び前記S1203に戻り、処理を繰り返す。
【0070】前記S1203において、データの終わり
であると判断されると、次はバッファ内のデータを文字
列1、文字列2の順にソートする(S1209)。次は
バッファ内で文字列1が同一の連続した2データがある
か否かを判断する(S1210)。ここでないと判断さ
れると、ここで処理を終了する。
【0071】しかしながらあると判断されると、次は第
1データ、第2データのパターンが(P1、P3)か、
(P1、P4)か、(P1、P5)のいずれに該当する
か否かを判断する(S1211)。ここでいずれかに該
当する場合は、次に第2データの文字列2、第1データ
の文字列2を出力する(S1212)。次に第1デー
タ、第2データの削除を行う(S1213)。次は再び
前記S1210に戻り、処理を繰り返す。しかしなが
ら、前記S1211において、(P1、P3)か、(P
1、P4)か、(P1、P5)のいずれにも該当しない
場合は、次に第1データを削除する(S1214)。次
は再び前記S1210に戻り、処理を繰り返す。
【0072】また例えば図11(パターン検索部2から
の出力)の2つのデータ(パターンNoがP1、P5)
は、図17(原語−訳語抽出部9)のフローチャートの
S1208によって、バッファ内に格納され、その後S
1212より、原語「開放型システム間相互接続」と訳
語「Open System Interconnection 」の対として出力さ
れる。
【0073】原語−訳語抽出部9からの出力の例を図1
4に示す。
【0074】図18は原語−同義語抽出部10の処理フ
ローチャートである。
【0075】図18において、パターン検索部2、パタ
ーン付与部6からのデータを受け取る(S1301)。
次はバッファを空にする(S1302)。次はデータの
終わりであるか否かを判断する(S1303)。ここで
終わりでないと判断されると、次は1データを読み込む
(S1304)。次はパターンNoがP3、P4、P5
のいずれに該当するか否かを判断する(S1305)。
ここでいずれかに該当すると判断されると、次はデータ
をバッファに追加する(S1306)。次は再び前記S
1303に戻り、処理を繰り返す。しかしながら、前記
S1305において、いずれの前記パターンにも該当し
ないと判断されると、次は再び前記S1303に戻り、
処理を繰り返す。
【0076】また前記S1303において、データの終
わりであると判断されると、次はバッファ内のデータを
文字列1、文字列2の順番にソートする(S130
7)。次はバッファ内で文字列1が同一の連続した複数
データがあるか否かを判断する(S1308)。ここで
複数データがあると判断されると、次はそれらの複数個
のデータの各々の文字列2を出力する(S1309)。
次は上記複数個のデータを削除する(S1310)。次
は再び前記S1308に戻り、処理を繰り返す。また前
記S1308において、複数データがないと判断される
と、ここでこの処理を終了する。
【0077】例えば図12(パターン付与部6からの出
力)に示す2つのデータ(パターンNoがP3の「IS
O」(文字列1)、「国際標準機構」(文字列2)と、
パターンNoがP3の「ISO」(文字列1)、「国際
標準化機構」(文字列2))は図18(原語−同義語抽
出部10)のフローチャートのS1306によってバッ
ファ内に格納され、その後S1309によって、「国際
標準化機構」と「国際標準機構」の2語は同異義語とし
て出力される。
【0078】原語−同義語抽出部10からの出力の例を
図15に示す。
【0079】以上のようにして原語−略語抽出部8、原
語−訳語抽出部9、原語−同義語抽出部10は処理を行
い出力データを出力部40に出力する。
【0080】以上のようにして前記例文の入力から、
「開放型システム間相互接続」(原語)と「Open Syste
m Interconnection」(訳語)の対が抽出できたことが
図14からわかり、「OSI」(略語)と「Open Syste
m Interconnection 」(原語)の対が抽出できたことが
図13からわかる。
【0081】また図8に示した語彙データより、同義語
の対(「国際標準化機構」と「国際標準機構」)が抽出
できたことがわかる。
【0082】以上の第2実施例によれば、非常に簡単な
構成で、入力日本語文章のみ、既存の語彙データのみ、
又は前記両方の、いずれかから、原語−訳語、原語−略
語、原語−同義語などの対を自動的に収集することがで
きる。
【0083】入力データが日本語文のみの時は、辞書デ
ータの収集ができ、入力データが語彙データのみの時
は、辞書データのマージ(併合)などができ、また入力
データが日本語文と語彙データ両方の時は、語彙データ
の拡張などを行うことができる。
【0084】以上の第2実施例において、図9に示す日
本語文用抽出パターンと、図10に示す語彙データ用抽
出パターン(パターンNoと区切りマーカと文字列の必
須文字、任意文字の組み合わせ)は、前述した実施例に
限定されるものではなく、入力される文章の違いに応じ
て最適なパターンを設定することが可能である。
【0085】また同様に、原語−略語抽出部8、原語−
訳語抽出部9、原語−同義語抽出部10での処理におい
て、使用しているパターンNoも、この実施例のものに
限定されるものではない。
【0086】また以上の実施例においては、日本語文の
入力を対象としたが、他の言語、例えば英文の場合であ
っても適用できる。
【0087】
【発明の効果】以上述べたようにこの発明によれば、機
械翻訳装置や翻訳用辞書などは一切使用せず、非常に簡
単な装置で、第1の発明によれば、入力原語文から原語
と、その所定の関係にある語を自動的に収集することが
でき、また第2の発明によれば、入力既存の語彙データ
から原語と、その所定の関係にある語を自動的に迅速に
収集することができ、また第3の発明によれば、入力原
語文及び入力既存の語彙データから原語と、その所定の
関係にある語を自動的に迅速に収集することができる。
【0088】従ってこれらの語の対は、辞書データなど
として利用することができる。
【図面の簡単な説明】
【図1】この第1実施例に係る辞書データ収集装置を実
現する機能ブロック図である。
【図2】図1に係る語分割処理の結果を表す説明図であ
る。
【図3】図1に係る抽出パターンの説明図である。
【図4】図1に係るパターン検索部2からの出力の説明
図である。
【図5】図1に係るテーブル編集部4からの出力の説明
図である。
【図6】この第2実施例に係る辞書データ収集装置を実
現する機能ブロック図である。
【図7】図6に係る語分割処理の結果を表す説明図であ
る。
【図8】図6に係る語彙データの形式を表す説明図であ
る。
【図9】図6に係る日本語文用抽出パターンの説明図で
ある。
【図10】図6に係る語彙データ用抽出パターンの説明
図である。
【図11】図6に係るパターン検索部2からの出力の説
明図である。
【図12】図6に係るパターン付与部6からの出力の説
明図である。
【図13】図6に係る原語−略語抽出部8からの出力の
説明図である。
【図14】図6に係る原語−訳語抽出部9からの出力の
説明図である。
【図15】図6に係る原語−同義語抽出部10からの出
力の説明図である。
【図16】図6に係る原語ー略語抽出部8における処理
フローチャートである。
【図17】図6に係る原語−訳語抽出部9における処理
フローチャートである。
【図18】図6に係る原語−同義語抽出部10における
処理フローチャートである。
【符号の説明】
1…語分割部、2…抽出パターン格納部、3…パターン
検索部、4…テーブル編集部、3…パターン検索部、5
…日本語文用抽出パターン格納部、6…パターン付与
部、7…語彙データ用抽出パターン格納部、8…原語−
略語抽出部、9…原語−訳語抽出部、10…原語−同義
語抽出部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力原語文から原語と、その原語と所定
    の関係にある語とを収集する辞書データ収集装置におい
    て、 入力した前記原語文を字種の違いによって各語に分割し
    て出力する語分割手段と、 原語と、その原語と所定の関係にある語とから成る語パ
    ターンであって、前記語分割手段から供給される各語か
    ら、所望の語パターンを抽出するために予め用意されて
    いる抽出パターンを複数格納する原語文用抽出パターン
    格納手段と、 前記語分割手段から供給される各語から、前記抽出パタ
    ーン格納手段に格納されている抽出パターンと一致する
    語パターンを検索して出力する原語文用パターン検索手
    段とを備えて成ることを特徴とする辞書データ収集装
    置。
  2. 【請求項2】 入力既存の語彙データから原語と、その
    原語と所定の関係にある語とを収集する辞書データ収集
    装置において、 原語と、その原語と所定の関係にある語とから成る語パ
    ターンであって、前記入力語彙データから、所望の語パ
    ターンを抽出するために予め用意されている抽出パター
    ンを複数格納する語彙データ用抽出パターン格納手段
    と、 前記入力語彙データから、前記抽出パターン格納手段に
    格納されている抽出パターンと一致する語パターンを検
    索して出力する語彙データ用パターン検索手段とを備え
    て成ることを特徴とする辞書データ収集装置。
  3. 【請求項3】 入力原語文及び入力既存の語彙データか
    ら原語と、その原語と所定の関係にある語とを収集する
    辞書データ収集装置において、 入力した前記原語文を字種の違いによって各語に分割し
    て出力する語分割手段と、 原語と、その原語と所定の関係にある語とから成る語パ
    ターンであって、前記語分割手段から供給される各語か
    ら、所望の語パターンを抽出するために予め用意されて
    いる抽出パターンを複数格納する原語文用抽出パターン
    格納手段と、 原語と、その原語と所定の関係にある語とから成る語パ
    ターンであって、前記入力語彙データから、所望の語パ
    ターンを抽出するために予め用意されている抽出パター
    ンを複数格納する語彙データ用抽出パターン格納手段
    と、 前記語分割手段から供給される各語から、前記原語文用
    抽出パターン格納手段に格納されている抽出パターンと
    一致する第1の語パターンを検索し、更に前記語彙デー
    タから、前記語彙データ用抽出パターン格納手段に格納
    されている抽出パターンと一致する第2の語パターンを
    検索して、前記第1及び第2の語パターンから原語と、
    その原語と所定の関係にある語を抽出して出力するパタ
    ーン抽出手段とを備えて成ることを特徴とする辞書デー
    タ収集装置。
JP3172294A 1991-07-12 1991-07-12 辞書データ収集装置 Pending JPH05113997A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3172294A JPH05113997A (ja) 1991-07-12 1991-07-12 辞書データ収集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3172294A JPH05113997A (ja) 1991-07-12 1991-07-12 辞書データ収集装置

Publications (1)

Publication Number Publication Date
JPH05113997A true JPH05113997A (ja) 1993-05-07

Family

ID=15939264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3172294A Pending JPH05113997A (ja) 1991-07-12 1991-07-12 辞書データ収集装置

Country Status (1)

Country Link
JP (1) JPH05113997A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005814A (ja) * 1999-04-23 2001-01-12 Sharp Corp 辞書作成装置、辞書作成方法、辞書作成プログラムを記録したコンピュータで読取可能な記録媒体および翻訳装置
JP2007073054A (ja) * 2005-09-08 2007-03-22 Fujitsu Ltd 対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置
JP2010055235A (ja) * 2008-08-27 2010-03-11 Fujitsu Ltd 翻訳支援プログラム、及び該システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005814A (ja) * 1999-04-23 2001-01-12 Sharp Corp 辞書作成装置、辞書作成方法、辞書作成プログラムを記録したコンピュータで読取可能な記録媒体および翻訳装置
JP2007073054A (ja) * 2005-09-08 2007-03-22 Fujitsu Ltd 対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置
JP2010055235A (ja) * 2008-08-27 2010-03-11 Fujitsu Ltd 翻訳支援プログラム、及び該システム

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US8090571B2 (en) Method and system for building and contracting a linguistic dictionary
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH09190449A (ja) 索引自動生成方法とその利用方法
JP2002189747A (ja) 文書情報の検索方法
JPH0567144A (ja) 前編集支援方法およびその装置
EP0310049B1 (en) Document generator and correction support device
JP2633824B2 (ja) 仮名漢字変換装置
JPH05113997A (ja) 辞書データ収集装置
JPH07182333A (ja) 日本語処理装置
EP1080424A1 (en) A method and arrangement for translation of information
JPS61248160A (ja) 文書情報登録方式
JPH0652151A (ja) 共起学習装置及びこれを用いたかな漢字変換装置
JPH04330565A (ja) 自然言語処理システム
JPH04673A (ja) 連語登録方法および装置
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH0635971A (ja) 文書検索装置
JPH04211868A (ja) Cd―romデータの検索用キーワードの作成方法
JPH0954781A (ja) 文書検索システム
JPH08263508A (ja) 文書検索方法
JP3447955B2 (ja) 機械翻訳システム及び機械翻訳方法
JPH03130873A (ja) テキストベースの検索方式
JPS6366665A (ja) 文書解析整形装置