JPH04130578A

JPH04130578A - 未登録語検索方法および装置

Info

Publication number: JPH04130578A
Application number: JP2253896A
Authority: JP
Inventors: Toshiya Yamazaki; 利哉山嵜
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1990-09-20
Filing date: 1990-09-20
Publication date: 1992-05-01

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概　要〕辞書に記載されていない未登録語を省略語とみなし省略
前の元の形を推定する方法および装置に関し、未登録語を所定の文字数よりなる部分文字列に分割し、
辞書や文、書中から省略前の元の形を検索する方法およ
び装置を提供することを目的とし、辞書に登録されてい
ない未登録語と認定された単語を略称とみなし、この単
語を構成する文字が、その構成される順序で含まれる単
語１語句を検索することにより省略前の元の形を推定す
るよう構成し、また単語および複数の単語からなる語句
を蓄積した単語・語句辞書と、この単語・語句辞書に登
録されていない未登録語が入力されるとこの未登録語を
略称とみなし、未登録語を構成する文字がその構成され
る順序で含まれる単語１語句を検索することにより省略
前の元の形を推定する検索部と、この検索部の推定した
単語１語句を出方する出力部とを備えるよう構成する。

また、文書中に記載された未登録語においてこの未登録
語が記載された文を含みその文より前方の文を検索し、
この未登録語の省略前の形を示す語または語句を見出す
よう構成する。

〔産業上の利用分野〕

本発明は、辞書に記載されていない未登録語を省略語と
みなし省略前の元の形を推定する方法および装置に関す
る。

機械翻訳技術などにおいては、未登録語と判定された場
合、これを省略語とみなし省略前の元の形を推定するこ
とにより正解を得る場合が多い。

また人間が利用する形態の辞書検索においては、未登録
語であっても、これを略称とみなし、省略前の元の形を
推定することにより、人間の単語に対する理解を増進す
ることができる。

〔従来の技術〕

言葉というものは人類発生の時から使用され発展してき
たものであり、理論的に扱えない範囲を多く含んでいる
。しかし部分的には理論的に扱えるものもあり、辞書に
登録されていない未登録語についても、その解明にいく
つかの方法が提案される。特開昭６０−１１２１７４号
公報には、仮名漢字変換装置における略称変換方式につ
いて、略称語の入力仮名文字列を前、後段に分割し、そ
れぞれを含む見出し語を辞書メモリから検索して、対応
する変換語から対応する漢字を読み出して変換語を得る
技術が開示されている。また特開昭６０−１１２１７５
号公報には、辞書メモリに、見出し語に対応する変換語
に関連して接続可能な漢字等を示す付加情報を設け、入
力仮名文字列を前後に分割して対応する漢字について含
むか否かを判定することにより略称語を元の形に変換す
る技術が開示されている。

〔発明が解決しようとする課題〕

言語は前述のように必ずしも理論的に構成されていない
ため、未登録語の正しい解を得る方法としてこの方法の
みでよいというような方法はありえない、それ故多くの
方法を考え、できるだけ効率よく、正しい解を得る方法
を見出してゆかなければならない。

この一つの試みとして未登録語を略称とみなし、所定の
アルゴリズムを設けて検索範囲を限定するとともに検索
に対して幾多の制約を設けることにより推定候補を減少
させる方法を提案するものであり、本発明は、未登録語を所定の文字数よりなる部分文字列
に分割し、辞書や文書中から省略前の元の形を検索する
方法および装置を捷供することを目的とする。

〔課題を解決するための手段〕

第１図は本発明の原理図である。同図において１は単語
および複数の単語からなる語句を蓄積した単語・語句辞
書であり、２はこの単語・語句辞書１に登録されていな
い未登録語が入力されると、これを略称とみなし、この
未登録語を構成する文字が、その構成される順序で含ま
れる語または語句を単語・語句辞書１から検索して省略
前の元の形を推定する検索部であり、３はこの検索部２
の検索結果を出力する出力部である。第２図は第１図に
示す装置の辞書機能を拡大したもので、文書の形態素解
析、構文解析を行う構成要素解析部５と、この構成要素
解析部５の出力から文書中の検索範囲の文字列を名詞ま
たは名詞句単位に切り出す語句切り出し部６を設け、こ
の語句切り出し部６の出力を検索部２の検索候補の語ま
たは語句とする。また、未登録語がカタカナ語である場
合は、この未登録語を所定の数の文字からなる部分文字
列に分け、この部分文字列が未登録語を構成する順に現
れる語又は語句を検索する。この際部分文字列の先頭文
字が検索対象の語又は語句の文字と一致し、この部分文
字列の２文字以降の文字と対応する検索対象の語または
語句の文字列にｒ　−４またはｒツ１があった場合、二
〇ｒ、またはｒッ」の存在を無視して文字の一致を確か
め検索してゆくとよい、また、単語・語句辞書１を検索
する際に（未登録語長）Ｘ２−１以上の語長をもつ単語
１語句に限定して検索するとよい、また欧米系の言語な
どのように１つの単語が他の単語と離れて表記される言
語においては、未登録語の各文字は単語列の各単語の頭
文字が各単語の現れる順に並んだものとして元の単語列
を検索するとよい、この際、冠詞、前置詞、接続詞など
の付属詞が含まれるときは、これを無視して検索すると
よい、また単語・語句辞書１は、ひらがな、漢字などの
字種ごと、または文字数ごと、または語句を構成する単
語数ごと、またはこれらの組み合わせごとに分割して構
成するとよい、または単語・語句辞書１を、字種ごと、
または文字数ごと、または語句を構成する単語数ごと、
またはこれらの組み合わせごとにインデックスを設けた
インデックス構成とするとよい、また、文書中に記載さ
れた未登録語があまり一般的でない場合、その元の形を
定義として表示している場合があるので、この未登録語
が記載されている文を含みその文より前方の文書を検索
するとよい。

〔作　用〕

上記構成により、未登録語が入力されると検索部２は、
この未登録語を構成する文字が、この構成される順に含
まれる単語１語句を単語・語句辞書１から検索し省略前
の元の形を推定して出力部３から出力する０文書中から
の未登録語が入力される場合、構成要素解析部５で文書
の形態素解析や構文解析を行い、この結果から語句切り
出し部６は文書中の検索範囲の文字列を名詞または名詞
句単位に切り出して省略前の元の形の語又は語句候補を
作成することによ゛す、単語・語句辞書ｌの機能を補強
することができる。また、未登録語がカタカナの場合、
元の語や語句を構成する単位の頭の１文字や２文字をと
って省略することが多いのて、所定の数の文字よりなる
部分文字列単位に元の語又は語句の候補を検索してゆく
と正解を得る確率が高い、この際カタカナは外国語を表
す表音文字として使用されることが多く、ｒ、やｒフｊ
は省略語を作るときに除去される場合が多い、それ故’
　　Ｊ、’７Ｊを除去して検索を行った方が正解を得る
確率が高い。また省略語はその言葉通り元の語や語句を
短くしたものである。この際元の語と同しような長さの
ものでは省略語とする意味がない、そこで元の語のほぼ
半分以下ぐらいに短縮される場合が多いので（未登録語
長）×２−１以上の語長に正解が含まれる確率が高い。

また、欧米語などのように単語が独立して表示される場
合、未登録語は単語列の各単語の頭文字をとった場合が
多いので、この頭文字を有する語句を検索することによ
り正解を得る確率が高い。この際この単語列には冠詞、
前置詞、接続詞等の付属詞が入る場合があるが、これら
の頭文字は無視して省略語を作ることが多いので検索に
あたってはこれらの付属詞を無視すると正解を得る確率
が高くなる。

単語・語句辞書１を構成するに当たっては、般の辞書の
ように、あいうえお順に並べるよりも、ひらがな、カタ
カナ、漢字などの字種ごと、または文字数ごと、または
１つの見出しを構成する語句の単語数ごと、またはこれ
らの組み合わせ、例えば漢字を例にとると、１字のもの
ごと、２字のものごと−に分割して辞書を構成すること
により検索を高速に行うことができる。また、あいうえ
お順に並んだ辞書であっても、字種ごと、文字数ごと、
１つの見出しを構成する語句の単語数ごと、またはこれ
らの組み合わせに分割してインデックスを設けることに
より、上記の辞書と同し効果を有する。また、あまり一
般的でない未登録語の場合、その未登録語が初めて使用
される時に省略前の元の形を併記して説明している場合
が多いので、その未登録語が記載されている文を含みそ
の文より前方の文書を検索すると、この説明個所を検索
できる確率が高い。

〔実　施　例〕

以下、本発明の実施例を図面を参照して説明する。

第３図は未登録語検索の基本的アルゴリズムを示す、未
登録語が入力されると（ステップ１１）、ステップ１２
で検索は終了したかチエツクするが、当然終了していな
いので省略前の元の形の候補語句を取り出しくステップ
１３）、正しい語句か検索しくステップ１４）、正しい
ものであれば出力部３より出力しくステップ１５）、正
しいものでなければステシブ１２に戻って再度検索を行
う。第４図は第３図のステップ１３で行う候補語句取り
出しの詳細を示すフロー図である。同図において、候補
語句の取り出しは単語・語句辞書１や第２図に示す文書
４から構成要素解析部５を介し語句切り出し部６より取
り出す（ステップ１３１）。そして省略語句の長さに制
限があるときは、このチエツクを行い（ステップ１３２
）、該当するもののみ候補語句として検索部２に出力す
る。第５Ａ図は第３図のステップ１４で行う検索の基本
アルゴリズムを示すフロー図である。ステップ１４１は
未登録語を構成する全ての文字の検索が終わったか否か
チエツクし、終わってなければ次の文字を取り上げる（
ステップ１４２）、そして未登録語を構成するある文字
が候補語句の文字と一致しており、このある文字の次の
文字が、この候補語句の前記ある文字が一致した文字よ
り後の文字と一致するか否かを調べ（ステップ１４３）
、一致していればステップ１４１に戻り、一致しなけれ
ばこの候補語句は正解でないものとする。

次に具体的な未登録語を用いて説明する。

第６図は、通常の辞書検索によって未登録語と認定され
たｒｔ機労連Ｊという単語を略称とみなし、ｒｌｌ、、
ｒ機Ｊ、ｒ労Ｊ＋　　ｒ連」と−文字ごとに分割し、辞
書検索を行う場合を示す。検索のアルゴリズムは第５Ａ
図に示す基本アルゴリズムを適用する。この検索の結果
、前述の４文字をこの順に含む、ｒ全日本電機機器労働
組合連合会」という正式名称を含む辞書内容を検索し、
出力する。

第５Ｂ図は、カタカナ語の検索アルゴリズムを示すフロ
ー図である。カタカナ語検索は、未登録語の検索が終わ
ったか否かチエツクしくステップ１４４）、この場合初
めてであるのでまず、未登録語を１字又は複数の文字ご
との部分文字列に分割しくステップ１４５）、各部分文
字列が候補語句の部分文字列に適合するか否か検索して
ゆ（（ステップ１４６）、第７図はカタカナ語の具体例
を示す。

まず、未登録語ｒトラボン１をｒトラＪ、　　ｒポＪ、
ｒン」という文字列に分割してみるとｒトライフォーポ
イント」、「トランスポーチ−ジョン１も正解となる。

次に未登録語ｒトラポン１を部分文字列ｒトラＪ＋　　
ｒボン１の２つの組に分割し、それぞれの部分文字列が
順に現れるような辞書検索を行う。

このように分割文字数にも制限を加えるとｒトライフォ
ーポイント」や、ｒトランスポーチ−ジョン１などの単
語は正解とならず、正解として「トランスポンダ１を得
ることができる。故に分割の仕方によって出力に優先順
位をつけるとよいことがわかる。カタカナ語の場合、省
略時に、元の語句を構成する部分文字列の類１文字か２
文字を並べることが多いので、未登録語の分割は、２文
字ごとに部分文字列に分割すると正解を得る確率が高く
なる。

第５Ｃ図は、同じくカタカナ語の検索で、候補語句とｒ
、やｒツ」の文字部分のみが一致しない場合の検索アル
ゴリズムを示す。まず、検索が終わっていないか否かチ
エツクしくステップ１４７）、次に未登録語を例えば数
文字づつの部分文字列に分割しくステップ１４８）、こ
の部分文字列の先頭文字が一致しくステップ１４９）、
この部分文字列の２文字以降が候補語又は語句のｒ、や
ｒツ１を無視した場合一致したとき（ステップ１５０）
、正解として検索を続ける。カタカナ語では省略時に長
音や促音を飛ばすことがあるので上記アルゴリズムのよ
うに検索するとよい場合が多い。

第８図は、未登録語をパソコンとして第５Ｃ図のアルゴ
リズムで検索した場合を示す。第５Ｂ図に示したアルゴ
リズムでは、パソコンショップ。

パソコンソフトだけが正解となるが、第５Ｃ図のアルゴ
リズムを採用し長音を無視して検索することによりパー
ソナルコンピュータも得ることができる。

第５Ｄ図は、欧米言語の検索アルゴリズムを示す、欧米
系言語の場合、単語は１つづつ独立して表され単語列が
１つの名詞句を構成し、各単語の頭文字を並べて略称と
する場合が多い。この場合、第９図に示すように省略の
仕方が語呂合わせとなり第３語のＰを除いてＲＡＳ　Ｔ
　Ｃとしているが、このような場合よりも第１Ｏ図に示
すように各単語の頭文字を並べて、ＵＮＥＳＣＯという
ようにする場合が多い、なおこのようなときでも冠詞、
前置詞、接続詞などは除かれる場合が多いので、これら
は無視して検索を行うとよい、第５Ｄ図において検索が
終わりかチエツクしくステップ１５１）、未登録語の次
の文字を比較の対象としくステップ１５２）、現在比較
対象としている未登録文字の前の未登録文字が候補語句
の単語の頭文字と一致した場合、この単語より後方（ま
たは次）の単語の頭文字と現在比較対象としている未登
録文字が一致したか否かチエツクしくステップ１５３）
、−敗した場合はステップ１５１に戻り検索を続は正解
に達するようにする。

第１１図は、未登録語長から省略前の元の語長の範囲を
限定して検索範囲を少なくする場合で、第４図のステッ
プ１３２の例を示す、略称を作る場合、元の語句の構成
語の一つ一つを少しづつ省略する場合が多い、ことに漢
字語の場合には２文字の単語の連続による複合語が多く
、その場合には各単語の先頭１文字をつなげて略称を作
成する傾向がある。このようにすると略称は元の文字数
の半分程度になる。これは漢字の読みから見ると３，４
文字の読みで、２文字取るような読み方となる場合が多
い、このような傾向はカタカナ語においてもみられる。

そこで未登録語の部分文字列が全て一致した場合でも（
未登録語長）Ｘ２−１文字よりも短い語句は、元の語句
ではないという限定を設けることにより推定速度および
精度を向上することができる。第１１図に示すようにイ
ンテリの元の語句候補としてインテリアは第５Ｂ図に示
したアルゴリズムでは正解となるが、４Ｘ２−１−７文
字以上と限定することによりインテリゲンツィア、イン
テリジェンスを正解どして検索することができる。

第１２図は、単語・語句辞書１にインデックスを設は検
索範囲を限定する例を示したものである。

辞書のカタカナの語句を文字の数ごとにインデックスを
付け、未登録語がパソコンの場合、第１１図で説明した
元の語句の長さ制限を利用して７文字以上のみ検索する
場合を示す。なお欧米語インデックスの場合はカタカナ
語の場合のｒ文字単語ｊをｒ単語語句Ｊとする。

第１３図は、未登録語の省略前の元の言葉が文書の内で
説明されている例を示す。

一般的でない略称を用いる場合、文書中でその略称を最
初に使用する位置で元の形が定義されている場合が多い
、このようなとき未登録語を見出とした文を含んでそれ
より前の文書を検索すると定義を容易に見出すことがで
きる。第１３図に示すようにｒ富士通が新しく発売した
パソコン（パーソナルコンピュータ）−」などのように
略称の直後、同一文章中に元の形を示すことが多い。ま
た、以降はｒ−０このパソコンは従″来の製品より−１
等と使われるため、未登録語が出現した文を含むその文
書の前方を参照すればよい。また機械翻訳などでは最初
に出現した時の検索結果を保持しておけば２度目以降の
出現では検索の必要がないので高速に処理ができる。

以上説明したように、未登録語を略称とみなし元の語又
は語句を検索する場合、どのような検索アルゴリズムを
用いるかによって迅速に正解を得る場合もあるが、誤っ
たものを検索してしまう場合もある。故に本発明は単独
で使用したのでは効果があがらない場合もあるので、例
えば、言語理解装置の前処理として用いると本発明が十
分生かされる。例えば「パソコン１という未登録語をそ
のままにして先の解析（例えば意味解析）を行った場合
、「パソコン１という言葉は最後まで未知のものとして
処理されるが、本発明を用いることにより、ｒパソコン
１はｒパーソナルコンピュータｊ、ｒパソコンショップ
１．ｒパソコンソフト１などと推定できれば、この後の
処理で「パソコン１の正解は１パーソナルコンピユータ
１である可能性が一番高いと推定ができる。例えば、ｒ
富士通が開発した新しいパソコンは、３２ｂｉｔ　ＣＰ
Ｕを用いたものである。Ｊという場合、開発したのはｒ
店ｊではないし、’３２ｂｉｔ　ＣＰ　Ｕを用いるもの
１はｒソフトＪでもないことがらｒパーソナルコンピュ
ータ１と判断できる。

次に第２図に示した構成要素解析部５と語句切り出し部
６による候補語句の切り出しの一例を説明する。例えば
文書中にｒ−・全日本電機機器労働組合連合会等による
−１という語句があった場合、字種のみで判断するとｒ
全日本電機機器労働組合連合等１という文字列が一つの
語句とされるおそれがあるが、構成要素解析部５で形態
素解析を行うことによりｒ等１というのは接尾辞のよう
なものであると判断され、ｒ全日本電機機器労働組合連
合会１を推定候補として語句切り出し部６より出力する
ことができる。このように漢字語の場合は形態素解析や
構文解析を行った方がよい推定候補を得ることが多い。

［発明の効果］以上の説明から明らかなように、本発明は、未登録語を
略称とみなし、未登録語の各文字を、この未登録語を構
成する文字順に含む語や語句から省略前の元の形を検索
することを基本とし、未登録語の特徴に応じた検索アル
ゴリズムを用いることにより精度よく、また迅速に正解
に達する方法および装置を提供する。

【図面の簡単な説明】

第１図、第２図は本発明の原理図、第３図、第４図、第
５Ａ図は語句検索のアルゴリズムを示す図、第５Ｂ図、
第５Ｃ図はカタカナ梧の検索アルゴリズムを示す図、第
５Ｄ図は欧米系言語の検索アルゴリズムを示す図、第６
図〜第１１図は未登録語の具体例から省略前の元の形を
検索する例を示す図、第１２図は辞書にインデックスを
設は検索範囲制限のある場合の検索を示す図、第１３図
は文書中に未登録語の定義がある場合を示す図である。図において、１−・−単語・語句辞書、　２−・−検索部、３・−出
力部、　　　　　　４・−・文゛書、５・−構成要素解
析部、・・語句切り出し部。

Claims

【特許請求の範囲】１）辞書に登録されていない未登録語と認定された単語
を略称とみなし、この単語を構成する文字が、その構成
される順序で含まれる単語、語句を検索することにより
省略前の元の形を推定することを特徴とする未登録語検
索方法。２）単語および複数の単語からなる語句を蓄積した単語
・語句辞書（１）と、この単語・語句辞書（１）に登録
されていない未登録語が入力されるとこの未登録語を略
称とみなし、未登録語を構成する文字がその構成される
順序で含まれる単語、語句を検索することにより省略前
の元の形を推定する検索部（２）と、この検索部（２）
の推定した単語、語句を出力する出力部（３）とを備え
たことを特徴とする未登録語検索装置。３）文書の形態素解析、構文解析を行う構成要素解析部
（５）と、この構成要素解析部（５）の出力から文書中
の検索範囲の文字列を名詞または名詞句単位に切り出す
語句切り出し部（６）とを備え、この語句切り出し部（
６）の出力を前記検索部（２）の検索候補の語または語
句として検索を行う請求項２記載の未登録語検索装置。４）未登録語がカタカナ語である場合、前記検索部（２
）は、この未登録語を所定の数の文字よりなる部分文字
列に分割し、この部分文字列が前記未登録語を構成する
順に現れる単語、語句を検索することを特徴とする請求
項２または３記載の未登録語検索装置。５）前記部分文字列の先頭文字が検索対象の語又は語句
の文字と一致し、前記部分文字列の２番目以降の文字と
対応する前記検索対象の語又は語句の文字列に「−」ま
たは「ッ」があった場合、この「−」または「ッ」の存
在を無視して文字の一致を確かめ検索することを特徴と
する請求項４記載の未登録語検索装置。６）前記単語・語句辞書（１）を検索する際に、（未登
録語長）×２−１以上の語長を持つ単語、語句に限定し
て検索することを特徴とする請求項２〜５のいずれかに
記載の未登録語検索装置。７）１つの単語がそれぞれ単独に表記される言語におい
て、前記検索部（２）は、未登録語の各文字は、単語列
の各単語の頭文字が各単語の現れる順に並んだものとし
て、元の単語列を検索することを特徴とする請求項２ま
たは３記載の未登録語検索装置。８）前記単語列に冠詞、前置詞、接続詞などの付属詞が
含まれるときは、これを無視して検索することを特徴と
する請求項７記載の未登録語検索装置。９）前記単語・語句辞書（１）を、字種ごと、または文
字数ごと、または１つの見出しを構成する語句の単語数
ごと、またはこれらの組み合わせに分割して辞書構成し
たことを特徴とする請求項２〜８のいずれかに記載の未
登録語検索装置。１０）前記単語、語句辞書（１）を、字種ごと、または
文字数ごと、または１つの見出しを構成する語句の単語
数ごと、またはこれらの組み合わせに分割して、インデ
ックス構成としたことを特徴とする請求項２〜８のいず
れかに記載の未登録語検索装置。１１）文書中に記載された未登録語においてこの未登録
語が記載された文を含みその文より前方の文を検索し、
この未登録語の省略前の形を示す語または語句を見出す
ことを特徴とする未登録語検索方法。