JPH0765008A - 用語登録制御方法及び同装置 - Google Patents
用語登録制御方法及び同装置Info
- Publication number
- JPH0765008A JPH0765008A JP5207544A JP20754493A JPH0765008A JP H0765008 A JPH0765008 A JP H0765008A JP 5207544 A JP5207544 A JP 5207544A JP 20754493 A JP20754493 A JP 20754493A JP H0765008 A JPH0765008 A JP H0765008A
- Authority
- JP
- Japan
- Prior art keywords
- information
- registration
- dictionary
- term
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【構成】 登録指示のあった登録対象語の構語要素につ
いて用語辞書を検索し(3e)、検索成功したものが存
在し(3f)、かつ検索成功しなかったものが存在する
とき(3g)、その検索成功しなかった構語要素を用語
辞書に登録する(3h,3i)。これにより、複合語登
録の際に、ユーザは、これ全体の登録指定操作を行うだ
けで、複合語全体とその構語要素となる短単位語部分ま
で自動登録される。 【効果】 ユーザの操作負担軽減を図ることができる。
いて用語辞書を検索し(3e)、検索成功したものが存
在し(3f)、かつ検索成功しなかったものが存在する
とき(3g)、その検索成功しなかった構語要素を用語
辞書に登録する(3h,3i)。これにより、複合語登
録の際に、ユーザは、これ全体の登録指定操作を行うだ
けで、複合語全体とその構語要素となる短単位語部分ま
で自動登録される。 【効果】 ユーザの操作負担軽減を図ることができる。
Description
【0001】
【産業上の利用分野】本発明は言語処理システムにおけ
る用語辞書への用語登録制御方法及び同装置に関する。
る用語辞書への用語登録制御方法及び同装置に関する。
【0002】
【従来の技術】仮名漢字変換による文書入力装置や機械
翻訳装置などが実用化されて以来、今日では広く使われ
るようになった。このような言語処理システムでは電子
化辞書に記憶された情報に基づいて日本語文の仮名表記
から漢字混じり表記に変換したり異なる言語の文に変換
しているが、よりユーザの意図に合った変換を実現する
ため一般にメーカ提供の辞書情報にユーザ固有の情報を
追加登録できるような構造になっている。
翻訳装置などが実用化されて以来、今日では広く使われ
るようになった。このような言語処理システムでは電子
化辞書に記憶された情報に基づいて日本語文の仮名表記
から漢字混じり表記に変換したり異なる言語の文に変換
しているが、よりユーザの意図に合った変換を実現する
ため一般にメーカ提供の辞書情報にユーザ固有の情報を
追加登録できるような構造になっている。
【0003】固有名詞や新しい用語などを登録するため
に、基本的には入力側の用語の見出しと出力させる情報
を個々に対応させて指定することによりユーザ辞書の作
成あるいは既存の辞書への追加登録を行っていた。
に、基本的には入力側の用語の見出しと出力させる情報
を個々に対応させて指定することによりユーザ辞書の作
成あるいは既存の辞書への追加登録を行っていた。
【0004】
【発明が解決しようとする課題】ユーザ登録しようとす
る用語が複合語を形成している場合で、その複合語の中
の短単位語についても登録しておくことがある。そうし
ておけばその短単位語自体の出力も可能であり、あるい
はその短単位語を含む別の複合語が出現したときも各単
語の組み合わせとして解析し出力することができるから
である。初めに複合語の中の未登録の短単位語について
だけ登録しておけばこのように組み合わせて出力するこ
とは可能であるが、単語の組み合わせの出力が必ずしも
複合語全体の望ましい表記や訳語の結果とは限らず、よ
り確実に変換させるには複合語の中のどの部分が未登録
であるかを調べなければならないという手間がかかり、
それらの操作が簡素ではなかった。
る用語が複合語を形成している場合で、その複合語の中
の短単位語についても登録しておくことがある。そうし
ておけばその短単位語自体の出力も可能であり、あるい
はその短単位語を含む別の複合語が出現したときも各単
語の組み合わせとして解析し出力することができるから
である。初めに複合語の中の未登録の短単位語について
だけ登録しておけばこのように組み合わせて出力するこ
とは可能であるが、単語の組み合わせの出力が必ずしも
複合語全体の望ましい表記や訳語の結果とは限らず、よ
り確実に変換させるには複合語の中のどの部分が未登録
であるかを調べなければならないという手間がかかり、
それらの操作が簡素ではなかった。
【0005】本発明はこのような事情を考慮してなされ
たもので、その目的とするところは、複合語全体を登録
指示したとき、複合語からなる登録対象語情報の登録に
加えて、この登録対象語を構成する構語要素であるか短
単位語部分のうち未登録の短単位語部分も自動登録させ
ることによりユーザの操作を軽減する用語辞書への用語
登録制御方法及び同装置を提供することを目的とする。
たもので、その目的とするところは、複合語全体を登録
指示したとき、複合語からなる登録対象語情報の登録に
加えて、この登録対象語を構成する構語要素であるか短
単位語部分のうち未登録の短単位語部分も自動登録させ
ることによりユーザの操作を軽減する用語辞書への用語
登録制御方法及び同装置を提供することを目的とする。
【0006】
【課題を解決するための手段】本発明の用語登録制御方
法は、用語情報変換時の検索用語である見出し情報と該
見出し情報の変換語である出力情報とが登録される用語
辞書への用語登録処理方法において、登録対象語につい
ての前記見出し情報及び前記出力情報を前記用語辞書へ
登録するステップと、前記登録対象語の一部を構成する
2以上の構語要素の前記見出し情報及び前記出力情報に
ついて前記用語辞書を検索し、前記2以上の構語要素の
中に検索が成功したものと失敗したものとの両者が存在
するとき、検索に失敗したものの前記見出し情報及び前
記出力情報を前記用語辞書に登録するステップと、を含
んでいることを特徴とする。
法は、用語情報変換時の検索用語である見出し情報と該
見出し情報の変換語である出力情報とが登録される用語
辞書への用語登録処理方法において、登録対象語につい
ての前記見出し情報及び前記出力情報を前記用語辞書へ
登録するステップと、前記登録対象語の一部を構成する
2以上の構語要素の前記見出し情報及び前記出力情報に
ついて前記用語辞書を検索し、前記2以上の構語要素の
中に検索が成功したものと失敗したものとの両者が存在
するとき、検索に失敗したものの前記見出し情報及び前
記出力情報を前記用語辞書に登録するステップと、を含
んでいることを特徴とする。
【0007】また、本発明の用語登録制御装置は、用語
情報変換時の検索用語である見出し情報と該見出し情報
の変換語である出力情報とが登録される用語辞書への用
語登録制御装置において、第1登録対象語の前記見出し
情報及び前記出力情報を前記用語辞書に登録する第1の
登録処理手段と、前記第1登録対象語の一部を構成する
2以上の構語要素の前記見出し情報及び前記出力情報に
ついて前記用語辞書を検索する辞書検索手段と、前記辞
書検索手段による検索結果において前記2以上の構語要
素の中に検索が成功したものと失敗したものとの両者が
存在するか否かを確認する検索結果確認手段と、該検索
結果確認手段による確認の結果、前記両者が存在すると
き、前記検索を失敗した構語要素を第2登録対象語とし
て決定し、その前記見出し情報及び前記出力情報を前記
用語辞書に登録する第2の登録処理手段と、を備えてい
ることを特徴とする。
情報変換時の検索用語である見出し情報と該見出し情報
の変換語である出力情報とが登録される用語辞書への用
語登録制御装置において、第1登録対象語の前記見出し
情報及び前記出力情報を前記用語辞書に登録する第1の
登録処理手段と、前記第1登録対象語の一部を構成する
2以上の構語要素の前記見出し情報及び前記出力情報に
ついて前記用語辞書を検索する辞書検索手段と、前記辞
書検索手段による検索結果において前記2以上の構語要
素の中に検索が成功したものと失敗したものとの両者が
存在するか否かを確認する検索結果確認手段と、該検索
結果確認手段による確認の結果、前記両者が存在すると
き、前記検索を失敗した構語要素を第2登録対象語とし
て決定し、その前記見出し情報及び前記出力情報を前記
用語辞書に登録する第2の登録処理手段と、を備えてい
ることを特徴とする。
【0008】また、用語辞書は、見出し情報として第1
の表記情報を、出力情報として第2の表記情報をそれぞ
れ記憶する表記変換用の辞書であることを特徴とする。
の表記情報を、出力情報として第2の表記情報をそれぞ
れ記憶する表記変換用の辞書であることを特徴とする。
【0009】また、辞書検索手段は、用語辞書の中で見
出し情報及び出力情報において第1登録対象語と単語単
位で部分一致するものを既登録の構語要素として切出
し、該第1登録対象語から該既登録の構語要素を除いた
ものを未登録の構語要素として切出す構成とすることが
できる。
出し情報及び出力情報において第1登録対象語と単語単
位で部分一致するものを既登録の構語要素として切出
し、該第1登録対象語から該既登録の構語要素を除いた
ものを未登録の構語要素として切出す構成とすることが
できる。
【0010】あるいは、辞書検索手段は、用語辞書の中
で見出し情報及び出力情報において第1登録対象語と文
字単位で部分一致するもののうち最長のものを既登録の
構語要素として切出し、該第1登録対象語から該既登録
の構語要素を差し引いたものを未登録の構語要素として
切出す構成としてもよい。
で見出し情報及び出力情報において第1登録対象語と文
字単位で部分一致するもののうち最長のものを既登録の
構語要素として切出し、該第1登録対象語から該既登録
の構語要素を差し引いたものを未登録の構語要素として
切出す構成としてもよい。
【0011】第2の登録処理手段は、検索を失敗した構
語要素がその見出し情報及び出力情報の両方において検
索を成功した構語要素との第1登録対象語語順関係とし
て正いいか否かを確認し、正しい場合に該検索を失敗し
た構語要素を第2登録対象語として決定するのが望まし
い。
語要素がその見出し情報及び出力情報の両方において検
索を成功した構語要素との第1登録対象語語順関係とし
て正いいか否かを確認し、正しい場合に該検索を失敗し
た構語要素を第2登録対象語として決定するのが望まし
い。
【0012】また、第2の登録処理手段は、第2登録対
象語を表示する表示手段と、前記検出登録対象語につい
ての登録指示を入力するための入力手段と、前記登録指
示に応答して登録処理を実行する登録実行手段と、を備
えてる構成としてもよい。
象語を表示する表示手段と、前記検出登録対象語につい
ての登録指示を入力するための入力手段と、前記登録指
示に応答して登録処理を実行する登録実行手段と、を備
えてる構成としてもよい。
【0013】用語辞書としては、見出し情報として言語
情報を、出力情報として訳語情報をそれぞれ記憶する言
語変換用の辞書や、見出し情報として第1の表記変換用
の辞書などが対象として考えられるが、これらに限定さ
れることはない。
情報を、出力情報として訳語情報をそれぞれ記憶する言
語変換用の辞書や、見出し情報として第1の表記変換用
の辞書などが対象として考えられるが、これらに限定さ
れることはない。
【0014】
【作用】本発明によれば、指定された登録対象語の2以
上の構語要素について用語辞書を検索した結果、一致し
たものと不一致のものとの両者が存在するとき、登録対
象語を複合語として扱い、不一致となった構語要素を未
登録の短単位語として登録するようになっているため、
ユーザは複合語全体の登録指定を行うだけでその複合語
全体のみならず、これを構成する小単位の語ももらさず
登録され、ユーザの操作は著しく軽減されることとな
る。
上の構語要素について用語辞書を検索した結果、一致し
たものと不一致のものとの両者が存在するとき、登録対
象語を複合語として扱い、不一致となった構語要素を未
登録の短単位語として登録するようになっているため、
ユーザは複合語全体の登録指定を行うだけでその複合語
全体のみならず、これを構成する小単位の語ももらさず
登録され、ユーザの操作は著しく軽減されることとな
る。
【0015】具体的に言えば、登録指定のあった見出し
部分に対して、辞書を検索して見出し部分を短単位に分
割する部分単語を検出し検索できなかった部分を短単位
の未登録見出しとし、また登録指示のあった出力情報部
分から検出した部分単語に対応する出力情報部分を登録
支持のあった出力情報全体から差し引くことによって残
りの部分をその未登録見出しに対応した出力部分とする
ことができる。したがって、ユーザが複合語の登録と未
登録の短単位部分の登録を行ったのと同様の動作を1度
の操作で行うことが可能となるのである。
部分に対して、辞書を検索して見出し部分を短単位に分
割する部分単語を検出し検索できなかった部分を短単位
の未登録見出しとし、また登録指示のあった出力情報部
分から検出した部分単語に対応する出力情報部分を登録
支持のあった出力情報全体から差し引くことによって残
りの部分をその未登録見出しに対応した出力部分とする
ことができる。したがって、ユーザが複合語の登録と未
登録の短単位部分の登録を行ったのと同様の動作を1度
の操作で行うことが可能となるのである。
【0016】また、実際の応用システムにおいては、日
本語の表記のように一般に単語間の区切りを示さない場
合は単語の検索結果に曖昧な結果が生ずるが、例えばよ
り長く辞書見出しおよび出力情報に一致する候補を優先
させるなどによってより確かな単語分割ができる。ある
いはことなる言語間の対訳情報の変換に利用する場合
は、言語によっては修飾関係にある単語の語順が入れ代
わることがあり、あらかじめ語順の規則を決めておくこ
とにより、見出し語と出力情報との対応部分を決定して
未登録の短単位部分を求めることができる。
本語の表記のように一般に単語間の区切りを示さない場
合は単語の検索結果に曖昧な結果が生ずるが、例えばよ
り長く辞書見出しおよび出力情報に一致する候補を優先
させるなどによってより確かな単語分割ができる。ある
いはことなる言語間の対訳情報の変換に利用する場合
は、言語によっては修飾関係にある単語の語順が入れ代
わることがあり、あらかじめ語順の規則を決めておくこ
とにより、見出し語と出力情報との対応部分を決定して
未登録の短単位部分を求めることができる。
【0017】
【実施例】以下、図面を参照して本発明の一実施例につ
き説明する。図1は実施例装置の概略構成図である。こ
の図において、1は用語登録データや各種制御情報など
を入力する入力部、2は装置全体の動作を包括的に制御
する制御部である。上記入力部1は、文字やコマンドを
入力するためのキーボード、タブレット、マウス等から
なる。登録制御部3は、新たな用語辞書データを登録す
るための制御を行う部分であり、制御部2から渡される
文字列データに対して、辞書検索部4を使用して登録対
象データを求め、辞書登録部6を使用して登録手続きを
行う。また、登録データの表示や手続き結果のメッセー
ジあるいは、登録の際の操作者の確認を得るためのメッ
セージなどを出力部7を使用して表示出力する。
き説明する。図1は実施例装置の概略構成図である。こ
の図において、1は用語登録データや各種制御情報など
を入力する入力部、2は装置全体の動作を包括的に制御
する制御部である。上記入力部1は、文字やコマンドを
入力するためのキーボード、タブレット、マウス等から
なる。登録制御部3は、新たな用語辞書データを登録す
るための制御を行う部分であり、制御部2から渡される
文字列データに対して、辞書検索部4を使用して登録対
象データを求め、辞書登録部6を使用して登録手続きを
行う。また、登録データの表示や手続き結果のメッセー
ジあるいは、登録の際の操作者の確認を得るためのメッ
セージなどを出力部7を使用して表示出力する。
【0018】5はあらかじめ登録されている基本語とユ
ーザ登録語とを備えた用語辞書である。基本語部分と、
ユーザ登録語部分を分けた構造の場合も基本語部分の間
にユーザ登録語部分を挿入して形成する場合でも特に区
別はしない。用語辞書5は、例えば図2に示すような構
成であり、検索キーとなる見出しに対して出力情報が記
述されている一般的なものである。出力情報の中の出力
見出しは、例えば翻訳システムでは訳語情報であり、仮
名漢字変換システムでは漢字混じり表記の情報である。
付加情報は検索に際しての条件判断のための分類情報な
どであり、簡易な装置では省略したものでもよい。
ーザ登録語とを備えた用語辞書である。基本語部分と、
ユーザ登録語部分を分けた構造の場合も基本語部分の間
にユーザ登録語部分を挿入して形成する場合でも特に区
別はしない。用語辞書5は、例えば図2に示すような構
成であり、検索キーとなる見出しに対して出力情報が記
述されている一般的なものである。出力情報の中の出力
見出しは、例えば翻訳システムでは訳語情報であり、仮
名漢字変換システムでは漢字混じり表記の情報である。
付加情報は検索に際しての条件判断のための分類情報な
どであり、簡易な装置では省略したものでもよい。
【0019】7は表示などの出力を行う出力部、8は本
用語辞書登録を応用して行う応用処理部である。例えば
仮名表記から漢字混じり表記に変換する仮名漢字変換や
異なる言語に変換する機械翻訳などの機能に当たる。
用語辞書登録を応用して行う応用処理部である。例えば
仮名表記から漢字混じり表記に変換する仮名漢字変換や
異なる言語に変換する機械翻訳などの機能に当たる。
【0020】制御部2には、入力部1や応用処理部8か
ら受けた指示情報や登録情報のデータおよび登録制御部
や応用処理部8に送る各種のデータを一時的に保持する
バッファを有している。
ら受けた指示情報や登録情報のデータおよび登録制御部
や応用処理部8に送る各種のデータを一時的に保持する
バッファを有している。
【0021】登録制御部3では、指定された方法により
辞書検索を実施した検索結果から複合語を分割し未登録
の短単位部分を決定したり、また出力部7にメッセージ
などを出力し入力部1から確認の指示を得るための処理
機械を有している。
辞書検索を実施した検索結果から複合語を分割し未登録
の短単位部分を決定したり、また出力部7にメッセージ
などを出力し入力部1から確認の指示を得るための処理
機械を有している。
【0022】図3の処理フローを参照しながら、本実施
例装置の概略動作を説明する。なお、この図3では、制
御部2の処理(2a,2b)と登録制御部3の処理(3
a〜3i)と応用処理部8の処理(8a)とをリンクさ
せた形態で示している。まず、制御部2が入力部1から
指示入力情報を取り込むと(2a)その指示入力を判定
する(2b)。その結果、辞書登録でない場合、制御部
2が応用処理部8へ翻訳や仮名漢字変換などの応用処理
を指示し、見出しデータを渡す。これにより、応用処理
部8にて所定の処理が実行される(8a)。2bでの判
定の結果、辞書登録である場合には、制御部2が登録制
御部3へその旨を指示する。すると、以降の処理は登録
制御部3が担りようになる。この登録制御部3は、ま
ず、入力部1から登録データを読み込む(3a)。登録
データは、例えば機械翻訳のためのデータであれば、見
出しが言語、出力情報は訳語に当たり、仮名漢字変換の
ためのデータであれば、見出しが仮名表記、出力情報が
漢字混じりに表記に当たる。
例装置の概略動作を説明する。なお、この図3では、制
御部2の処理(2a,2b)と登録制御部3の処理(3
a〜3i)と応用処理部8の処理(8a)とをリンクさ
せた形態で示している。まず、制御部2が入力部1から
指示入力情報を取り込むと(2a)その指示入力を判定
する(2b)。その結果、辞書登録でない場合、制御部
2が応用処理部8へ翻訳や仮名漢字変換などの応用処理
を指示し、見出しデータを渡す。これにより、応用処理
部8にて所定の処理が実行される(8a)。2bでの判
定の結果、辞書登録である場合には、制御部2が登録制
御部3へその旨を指示する。すると、以降の処理は登録
制御部3が担りようになる。この登録制御部3は、ま
ず、入力部1から登録データを読み込む(3a)。登録
データは、例えば機械翻訳のためのデータであれば、見
出しが言語、出力情報は訳語に当たり、仮名漢字変換の
ためのデータであれば、見出しが仮名表記、出力情報が
漢字混じりに表記に当たる。
【0023】そして、登録制御部3は当該登録データを
キーにした辞書検索指示を辞書検索部4に対して行う
(3b)。すると、辞書検索部4が用語辞書5の中に当
該登録データと完全に一致するものが在るか否かの確認
を行い、その結果を登録制御部3に渡す。登録制御部3
は、その検索結果に基いて登録データ全体が辞書に存在
するかを調べ、もし既に存在していれば以下の登録動作
はされない(3c)。
キーにした辞書検索指示を辞書検索部4に対して行う
(3b)。すると、辞書検索部4が用語辞書5の中に当
該登録データと完全に一致するものが在るか否かの確認
を行い、その結果を登録制御部3に渡す。登録制御部3
は、その検索結果に基いて登録データ全体が辞書に存在
するかを調べ、もし既に存在していれば以下の登録動作
はされない(3c)。
【0024】登録データ全体が未登録であれば、登録制
御部3は、その登録データをユーザ登録する(3d)。
すなわち、登録制御部3は、辞書登録部6に対し、登録
データ全体の登録指示を出し、辞書登録部6がその指示
に応答して用語辞書5への登録処理を実行することとな
る。
御部3は、その登録データをユーザ登録する(3d)。
すなわち、登録制御部3は、辞書登録部6に対し、登録
データ全体の登録指示を出し、辞書登録部6がその指示
に応答して用語辞書5への登録処理を実行することとな
る。
【0025】続いて、登録制御部3は辞書検索部4へ短
単位語の登録判定のための部分検索指示を出す(3
e)。すると、辞書検索部4がその部分検索処理を実行
する。部分検索の具体的な方法は、例えば登録データの
語頭からあるいは語尾側から順次短単位の見出しを辞書
検索することにより切り出していく。この切り出しは見
出し部分と出力情報部分に双方に対して対応を取りなが
ら行っていく。もし辞書検索で見付からない部分は未登
録部分としておき、続く部分に対して同様に切り出して
いく。また、見出しが辞書に複数存在している場合は、
対応する出力見出しが登録データ部分に一致するものを
選ぶ。その際、辞書検索された出力情報にある付加情報
を参照して、例えば活用形を変化させたり、英単語の複
数変化要素のSを付加させるなどの変形を行ってより広
範囲に単語の照合を実施するものであってもよい。登録
データにおいて短単位語の境界が曖昧であるときは、辞
書検索の長さを様々に変化させて行い、より長く一致す
るものを優先的に選択するなどの方法をとる。
単位語の登録判定のための部分検索指示を出す(3
e)。すると、辞書検索部4がその部分検索処理を実行
する。部分検索の具体的な方法は、例えば登録データの
語頭からあるいは語尾側から順次短単位の見出しを辞書
検索することにより切り出していく。この切り出しは見
出し部分と出力情報部分に双方に対して対応を取りなが
ら行っていく。もし辞書検索で見付からない部分は未登
録部分としておき、続く部分に対して同様に切り出して
いく。また、見出しが辞書に複数存在している場合は、
対応する出力見出しが登録データ部分に一致するものを
選ぶ。その際、辞書検索された出力情報にある付加情報
を参照して、例えば活用形を変化させたり、英単語の複
数変化要素のSを付加させるなどの変形を行ってより広
範囲に単語の照合を実施するものであってもよい。登録
データにおいて短単位語の境界が曖昧であるときは、辞
書検索の長さを様々に変化させて行い、より長く一致す
るものを優先的に選択するなどの方法をとる。
【0026】辞書検索部4は、このようにして部分検索
を試み、その結果を登録制御部3に渡す。すると、登録
制御部3は、少なくとも1語以上の短単位語が存在し
(3f)、しかも検索できない不一致部分がある場合に
(3g)、始めに指定された複合語の登録データから検
索成功した部分単語情報を差し引いて残った部分を別途
小単位の見出しと出力見出しとの対応付けを行う(3
h)。この対応付けにおいては、あらかじめ指定されて
いる語の順序関係を考慮して組み合わせることとす。例
えば、複合語のデータから検索成功した部分単語情報す
なわち見出しと出力見出しの対応を差し引いた結果、未
登録の見出し候補として残った部分と差し引かれた部分
との順序関係と、同様未登録の出力見出し候補として残
った部分と差し引かれた部分との順序関係とが同一ある
いは反転関係として指定通りであれば登録の候補とし、
そうでなければ棄却するようにする。仮名漢字変換の辞
書などではこれら同一順序になり、またある種の言語間
の機械翻訳辞書では語の修飾のための順序が互いに逆の
並びになるので、の条件に会わなければ誤った登録を行
う可能性があるからである。
を試み、その結果を登録制御部3に渡す。すると、登録
制御部3は、少なくとも1語以上の短単位語が存在し
(3f)、しかも検索できない不一致部分がある場合に
(3g)、始めに指定された複合語の登録データから検
索成功した部分単語情報を差し引いて残った部分を別途
小単位の見出しと出力見出しとの対応付けを行う(3
h)。この対応付けにおいては、あらかじめ指定されて
いる語の順序関係を考慮して組み合わせることとす。例
えば、複合語のデータから検索成功した部分単語情報す
なわち見出しと出力見出しの対応を差し引いた結果、未
登録の見出し候補として残った部分と差し引かれた部分
との順序関係と、同様未登録の出力見出し候補として残
った部分と差し引かれた部分との順序関係とが同一ある
いは反転関係として指定通りであれば登録の候補とし、
そうでなければ棄却するようにする。仮名漢字変換の辞
書などではこれら同一順序になり、またある種の言語間
の機械翻訳辞書では語の修飾のための順序が互いに逆の
並びになるので、の条件に会わなければ誤った登録を行
う可能性があるからである。
【0027】その後、登録制御部3は、対応付けたデー
タの登録指示を辞書登録部6に与え、この辞書登録部6
により用語辞書5への登録処理を実行する(3i)。
タの登録指示を辞書登録部6に与え、この辞書登録部6
により用語辞書5への登録処理を実行する(3i)。
【0028】次に具体例をあげて本実施例装置の実際の
動作を説明する。
動作を説明する。
【0029】図4は英語と日本語の簡単な機械翻訳辞書
の一部の例を示したもので、図5はこの装置に新たに登
録するデータの例を示したものである。図5の言語“ra
dioactive element ”は登録見出しに当たり、訳語“放
射性元素”は登録する出力見出しに当たる。ここで、
“radioactive element ”なる見出しが辞書に存在しな
いか、あるいは、もし見出しにあっても、対応する出力
見出しが一致しない場合は辞書未登録と判断し(3b,
3c)、まず、これら全体を辞書に登録する(3d)と
共に、次に、この登録語全体を構成する短単位語の分割
処理を試みる(3e)。はじめに“radioactive ”が辞
書に存在しないとき、この部分を未登録の短単位見出し
候補とし、続く“element ”を検定する。まず、辞書か
ら出力見出しに“要素”をもつ項目を検索するが登録指
定の訳語に部分一致しないので却下され、次の“元素”
を出力見出しにもつ項目を検索する。この場合は登録指
定の訳語に部分一致しているので、部分検索が成功した
ことになる。次に短単位語の登録候補となる見出しと出
力見出しとの対応付けを調べる。登録要求の言語におい
ては検索成功した“element ”を引き去って“radioact
ive ”を生成し、訳語においては検索成功した“元素”
を引き去って“放射性”を生成する。そして、これら
“radioactive ”及び“放射性”について辞書を検索し
たとき不一致となるため、それらが登録候補になる。
の一部の例を示したもので、図5はこの装置に新たに登
録するデータの例を示したものである。図5の言語“ra
dioactive element ”は登録見出しに当たり、訳語“放
射性元素”は登録する出力見出しに当たる。ここで、
“radioactive element ”なる見出しが辞書に存在しな
いか、あるいは、もし見出しにあっても、対応する出力
見出しが一致しない場合は辞書未登録と判断し(3b,
3c)、まず、これら全体を辞書に登録する(3d)と
共に、次に、この登録語全体を構成する短単位語の分割
処理を試みる(3e)。はじめに“radioactive ”が辞
書に存在しないとき、この部分を未登録の短単位見出し
候補とし、続く“element ”を検定する。まず、辞書か
ら出力見出しに“要素”をもつ項目を検索するが登録指
定の訳語に部分一致しないので却下され、次の“元素”
を出力見出しにもつ項目を検索する。この場合は登録指
定の訳語に部分一致しているので、部分検索が成功した
ことになる。次に短単位語の登録候補となる見出しと出
力見出しとの対応付けを調べる。登録要求の言語におい
ては検索成功した“element ”を引き去って“radioact
ive ”を生成し、訳語においては検索成功した“元素”
を引き去って“放射性”を生成する。そして、これら
“radioactive ”及び“放射性”について辞書を検索し
たとき不一致となるため、それらが登録候補になる。
【0030】このようにして検索の結果が出ると、ここ
では、3f,3g共にyとなるため、見出し候補及び出
力見出し候補の対応付けを行う(3h)。すなわち、英
語と日本語では互に同一の語順にあるとすると、見出し
候補と出力見出し候補とも引き去った語の前方に位置し
ているので、正しい対応関係にあると判断し、これらの
対応を短単位の登録データとし追加登録するものとして
決定する。
では、3f,3g共にyとなるため、見出し候補及び出
力見出し候補の対応付けを行う(3h)。すなわち、英
語と日本語では互に同一の語順にあるとすると、見出し
候補と出力見出し候補とも引き去った語の前方に位置し
ているので、正しい対応関係にあると判断し、これらの
対応を短単位の登録データとし追加登録するものとして
決定する。
【0031】また、言語対が例えばフランス語と日本語
のように修飾語の順序が逆になり得る場合は、例えば登
録の言語が“element radioactif”のように表記されて
いても未登録部分である“radioactif”と“放射性”と
が正しい対応関係であると判断することができる。
のように修飾語の順序が逆になり得る場合は、例えば登
録の言語が“element radioactif”のように表記されて
いても未登録部分である“radioactif”と“放射性”と
が正しい対応関係であると判断することができる。
【0032】図6は仮名漢字変換辞書の例である。ここ
で例えば、“見出し:せいはんいったい、出力見出し:
製版一体”なる登録要求があったときの動作は以下のよ
うになる。登録要求全体のデータに対する登録(3b〜
3d)は上記の場合と同様であるが、見出し、出力見出
しとも単語区切りの情報がないので、部分一致の短単位
語の注出(3e)は様々の可能性を試みることになる。
まず、見出しの先頭文字で始まる単語を辞書から探しだ
すと、“せい”と“せいはん”が存在することが分か
る。“せい”に対しては出力見出しの“製”も登録要求
データの先頭文字に一致しているが、付加情報として接
尾であることが示されているので、一般に接尾で始まる
ことばは不適格という条件で判断すると、この候補は棄
却される。次に、“せいはん”については出力見出しの
“製版”が登録要求データ中で一致しないのでこれも棄
却する。続いて“いは…”や“はん…”などの切り出し
を試みながら“いったい”を検索すると出力見出しの
“一体”が登録要求データの中の“一体”に一致してい
るので検索成功となる。その結果、辞書に部分一致した
を“いったい”を登録要求の見出しから差し引き、同様
に“一体”を登録要求の出力見出しから差し引くと“せ
いはん”と対応する“製版”とが取り出される。
で例えば、“見出し:せいはんいったい、出力見出し:
製版一体”なる登録要求があったときの動作は以下のよ
うになる。登録要求全体のデータに対する登録(3b〜
3d)は上記の場合と同様であるが、見出し、出力見出
しとも単語区切りの情報がないので、部分一致の短単位
語の注出(3e)は様々の可能性を試みることになる。
まず、見出しの先頭文字で始まる単語を辞書から探しだ
すと、“せい”と“せいはん”が存在することが分か
る。“せい”に対しては出力見出しの“製”も登録要求
データの先頭文字に一致しているが、付加情報として接
尾であることが示されているので、一般に接尾で始まる
ことばは不適格という条件で判断すると、この候補は棄
却される。次に、“せいはん”については出力見出しの
“製版”が登録要求データ中で一致しないのでこれも棄
却する。続いて“いは…”や“はん…”などの切り出し
を試みながら“いったい”を検索すると出力見出しの
“一体”が登録要求データの中の“一体”に一致してい
るので検索成功となる。その結果、辞書に部分一致した
を“いったい”を登録要求の見出しから差し引き、同様
に“一体”を登録要求の出力見出しから差し引くと“せ
いはん”と対応する“製版”とが取り出される。
【0033】そして、見出し情報と出力見出し情報との
対応付け(3h)において、“いったい”“一体”とは
いずれも位置関係が満足されるので、これらの対応を小
単位の登録候補として決定する。
対応付け(3h)において、“いったい”“一体”とは
いずれも位置関係が満足されるので、これらの対応を小
単位の登録候補として決定する。
【0034】ここで上記のようにして抽出された登録候
補をいったん表示するなどして、操作者の確認を得た上
で実際の登録処理を行う方法もある。その場合はもし抽
出結果が曖昧であり望ましくないとき棄却し、あるいは
複数の切り出しがある場合にそれぞれを表示して適切な
候補を選択させるなど行うことができる。
補をいったん表示するなどして、操作者の確認を得た上
で実際の登録処理を行う方法もある。その場合はもし抽
出結果が曖昧であり望ましくないとき棄却し、あるいは
複数の切り出しがある場合にそれぞれを表示して適切な
候補を選択させるなど行うことができる。
【0035】なお、本発明は上述した実施例に限定され
るものである。
るものである。
【0036】例えば、入力部1としては、キーボードの
ような操作者の指示入力を受けるものに限らず、予めフ
ァイル装置やデータバッファに記憶されている多数の登
録データを順に対象として上述した登録処理を行うこと
も可能である。
ような操作者の指示入力を受けるものに限らず、予めフ
ァイル装置やデータバッファに記憶されている多数の登
録データを順に対象として上述した登録処理を行うこと
も可能である。
【0037】また、例えば機械翻訳辞書の場合、見出し
に対応して出力見出しが何もない項目を記述しておくこ
とも可能である。英語における前置詞や冠詞など直接日
本語に対応する語がない場合に簡易に対訳を得るためで
ある。例えば、“synthesisrule”の対訳として“規則
合成”という表現を登録したときに、“rule”に対して
は“規則”が対応し、“by”に対する訳語はないものと
し、“synthesis ”に対応して“合成”を選んで登録す
ることができる。この時は、例えば“by”の付加情報と
して“語順を反対にする”というような処理規則を記述
しておけば言語と訳語の短単位語同士が反転した順序に
なっていても正しく対応付けることができる。
に対応して出力見出しが何もない項目を記述しておくこ
とも可能である。英語における前置詞や冠詞など直接日
本語に対応する語がない場合に簡易に対訳を得るためで
ある。例えば、“synthesisrule”の対訳として“規則
合成”という表現を登録したときに、“rule”に対して
は“規則”が対応し、“by”に対する訳語はないものと
し、“synthesis ”に対応して“合成”を選んで登録す
ることができる。この時は、例えば“by”の付加情報と
して“語順を反対にする”というような処理規則を記述
しておけば言語と訳語の短単位語同士が反転した順序に
なっていても正しく対応付けることができる。
【0038】また、上記の例では2単語の複合語であっ
たが、3単語やそれ以上の複合した表現でも同様の登録
を行うことができる。すなわち、一般のn語構成の表現
から1つずつ順に短単位の辞書登録語を差し引いて得ら
れる(n−1)以下の複合語についてもその内容が未登
録であれば登録候補として順に1単位に至る様々な単語
組み合わせの形態を同様に登録候補として求めることが
できる。その他、本発明はその趣旨を逸脱しない範囲で
種々変形して実施することができる。
たが、3単語やそれ以上の複合した表現でも同様の登録
を行うことができる。すなわち、一般のn語構成の表現
から1つずつ順に短単位の辞書登録語を差し引いて得ら
れる(n−1)以下の複合語についてもその内容が未登
録であれば登録候補として順に1単位に至る様々な単語
組み合わせの形態を同様に登録候補として求めることが
できる。その他、本発明はその趣旨を逸脱しない範囲で
種々変形して実施することができる。
【0039】
【発明の効果】以上説明したように本発明によれば、仮
名漢字変換や機械翻訳などの辞書に新たに用語を登録す
る場合に、操作者が指定した登録情報に加えてまだ辞書
未登録である部分表現の情報を、基の登録情報から切り
出して辞書登録することができる。すなわち操作者が辞
書未登録の部分表現を見付けて登録指示を行う手間を省
くことができ、実用上多大な効果が奏せられる。
名漢字変換や機械翻訳などの辞書に新たに用語を登録す
る場合に、操作者が指定した登録情報に加えてまだ辞書
未登録である部分表現の情報を、基の登録情報から切り
出して辞書登録することができる。すなわち操作者が辞
書未登録の部分表現を見付けて登録指示を行う手間を省
くことができ、実用上多大な効果が奏せられる。
【図1】本発明の一実施例に係る用語辞書登録装置の概
略構成を示すブロック図。
略構成を示すブロック図。
【図2】図1に示す用語辞書例の概略構成を示す図。
【図3】図1に示す装置の主要部の処理内容を示すフロ
ーチャート。
ーチャート。
【図4】図2に示す用語辞書を機械翻訳辞書としたとき
の一具体例を示す図。
の一具体例を示す図。
【図5】機械翻訳辞書における登録データの一具体例を
示す図。
示す図。
【図6】図2に示す用語辞書を仮名漢字変換辞書とした
ときの一具体例を示す図。
ときの一具体例を示す図。
1 入力部 2 制御部 3 登録制御部 4 辞書検索部 5 用語辞書 6 辞書登録部 7 出力部 8 応用処理部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 7315−5L G06F 15/20 522 L 8125−5L 15/38 E
Claims (8)
- 【請求項1】用語情報変換時の検索用語である見出し情
報と該見出し情報の変換語である出力情報とが登録され
る用語辞書への用語登録制御方法において、 登録対象語についての前記見出し情報及び前記出力情報
を前記用語辞書へ登録するステップと、 前記登録対象語の一部を構成する2以上の構語要素の前
記見出し情報及び前記出力情報について前記用語辞書を
検索し、前記2以上の構語要素の中に検索が成功したも
のと失敗したものとの両者が存在するとき、検索に失敗
したものの前記見出し情報及び前記出力情報を前記用語
辞書に登録するステップと、 を含んでいることを特徴とする用語登録制御方法。 - 【請求項2】用語情報変換時の検索用語である見出し情
報と該見出し情報の変換語である出力情報とが登録され
る用語辞書への用語登録制御装置において、 第1登録対象語の前記見出し情報及び前記出力情報を前
記用語辞書に登録する第1の登録処理手段と、 前記第1登録対象語の一部を構成する2以上の構語要素
の前記見出し情報及び前記出力情報について前記用語辞
書を検索する辞書検索手段と、 前記辞書検索手段による検索結果において前記2以上の
構語要素の中に検索が成功したものと失敗したものとの
両者が存在するか否かを確認する検索結果確認手段と、 該検索結果確認手段による確認の結果、前記両者が存在
するとき、前記検索を失敗した構語要素を第2登録対象
語として決定し、その前記見出し情報及び前記出力情報
を前記用語辞書に登録する第2の登録処理手段と、 を備えていることを特徴とする用語辞書への用語登録制
御装置。 - 【請求項3】用語辞書は、見出し情報として第1の表記
情報を、出力情報として第2の表記情報をそれぞれ記憶
する表記変換用の辞書であることを特徴とする請求項2
記載の用語登録制御装置。 - 【請求項4】用語辞書は、見出し情報として言語情報
を、出力情報として訳語情報をそれぞれ記憶する言語変
換用の辞書であることを特徴とする請求項2記載の用語
登録制御装置。 - 【請求項5】辞書検索手段は、 用語辞書の中で見出し情報及び出力情報において第1登
録対象語と単語単位で部分一致するものを既登録の構語
要素として切出し、該第1登録対象語から該既登録の構
語要素を除いたものを未登録の構語要素として切出す、 ことを特徴とする請求項2〜4のうちいずれか1項記載
の用語登録制御装置。 - 【請求項6】辞書検索手段は、 用語辞書の中で見出し情報及び出力情報において第1登
録対象語と文字単位で部分一致するもののうち最長のも
のを既登録の構語要素として切出し、該第1登録対象語
から該既登録の構語要素を差し引いたものを未登録の構
語要素として切出すことを特徴とする請求項2〜4のう
ちいずれか1項記載の用語登録制御装置。 - 【請求項7】第2の登録処理手段は、 検索を失敗した構語要素がその見出し情報及び出力情報
の両方において検索を成功した構語要素との第1登録対
象語語順関係として正いいか否かを確認し、正しい場合
に該検索を失敗した構号要素を第2登録対象語として決
定することを特徴とする請求項2〜6のうちいずれか1
項記載の用語登録制御装置。 - 【請求項8】第2の登録処理手段は、 第2登録対象語を表示する表示手段と、 前記検出登録対象語についての登録指示を入力するため
の入力手段と、 前記登録指示に応答して登録処理を実行する登録実行手
段と、 を備えていることを特徴とする請求項2〜7のうちいず
れか1項記載の用語登録制御装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5207544A JPH0765008A (ja) | 1993-08-23 | 1993-08-23 | 用語登録制御方法及び同装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5207544A JPH0765008A (ja) | 1993-08-23 | 1993-08-23 | 用語登録制御方法及び同装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0765008A true JPH0765008A (ja) | 1995-03-10 |
Family
ID=16541491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5207544A Pending JPH0765008A (ja) | 1993-08-23 | 1993-08-23 | 用語登録制御方法及び同装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0765008A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008305410A (ja) * | 2008-06-09 | 2008-12-18 | Sharp Corp | ネットワーク接続装置、サーバ装置、端末装置、システム、文字入力方法、送信方法、プログラムおよびコンピュータ読み取り可能な記録媒体 |
JP2012208753A (ja) * | 2011-03-30 | 2012-10-25 | Tokyo Electric Power Co Inc:The | 情報処理装置、データベース更新方法およびデータベース更新用プログラム |
JP2012208754A (ja) * | 2011-03-30 | 2012-10-25 | Tokyo Electric Power Co Inc:The | 情報処理装置、データベース更新方法およびデータベース更新用プログラム |
JP2016031572A (ja) * | 2014-07-28 | 2016-03-07 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム |
-
1993
- 1993-08-23 JP JP5207544A patent/JPH0765008A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008305410A (ja) * | 2008-06-09 | 2008-12-18 | Sharp Corp | ネットワーク接続装置、サーバ装置、端末装置、システム、文字入力方法、送信方法、プログラムおよびコンピュータ読み取り可能な記録媒体 |
JP2012208753A (ja) * | 2011-03-30 | 2012-10-25 | Tokyo Electric Power Co Inc:The | 情報処理装置、データベース更新方法およびデータベース更新用プログラム |
JP2012208754A (ja) * | 2011-03-30 | 2012-10-25 | Tokyo Electric Power Co Inc:The | 情報処理装置、データベース更新方法およびデータベース更新用プログラム |
JP2016031572A (ja) * | 2014-07-28 | 2016-03-07 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム |
US10198426B2 (en) | 2014-07-28 | 2019-02-05 | International Business Machines Corporation | Method, system, and computer program product for dividing a term with appropriate granularity |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH07282063A (ja) | 機械翻訳装置 | |
JPH03185561A (ja) | 欧文単語入力方法 | |
JPS63305463A (ja) | 自然言語処理方式 | |
JPH09198395A (ja) | 文書検索装置 | |
JPH0765008A (ja) | 用語登録制御方法及び同装置 | |
JPH11328166A (ja) | 文字入力装置及び文字入力処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPS6118074A (ja) | プレ・エデイツト方式 | |
JPH0343662B2 (ja) | ||
JP2621999B2 (ja) | 文書処理装置 | |
JP3394856B2 (ja) | 翻訳方法及び機械翻訳装置 | |
JP3278889B2 (ja) | 機械翻訳装置 | |
JP2570681B2 (ja) | ワード・プロセッサ | |
JPH0612453A (ja) | 未知語抽出登録装置 | |
JPH0561902A (ja) | 機械翻訳システム | |
JPS62203266A (ja) | 機械翻訳システム | |
JP3244286B2 (ja) | 翻訳処理装置 | |
JP2806352B2 (ja) | 機械翻訳用辞書メンテナンス装置 | |
JPH08221443A (ja) | 漢字を含むテキストの検索方法及び装置 | |
JPH11203281A (ja) | 電子辞書検索装置及び電子辞書検索装置制御プログラムを記憶した媒体 | |
JPS6395573A (ja) | 日本語文形態素解析における未知語処理方法 | |
JPH10171804A (ja) | 機械翻訳装置 | |
JPS63136264A (ja) | 機械翻訳装置 | |
JPH06243164A (ja) | 機械翻訳における文字検索装置 | |
JPS6366663A (ja) | 文書構造管理方式 | |
JPS62271058A (ja) | 機械翻訳システム |