JPH11282841A

JPH11282841A - 言語解析装置および言語解析プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JPH11282841A
Application number: JP10103923A
Authority: JP
Inventors: Ikuaki Kobayashi; 生明小林
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 1998-03-30
Filing date: 1998-03-30
Publication date: 1999-10-15

Abstract

(57)【要約】【課題】英語の文章を解析する場合に、文章の末尾の
ピリオド「．」と、省略形等のピリオドを区別し、文末
の判定の精度を上げること。【解決手段】英文を入力し（Ｓ２１）文章をスペース
で区切り（Ｓ２２）、その後それらの単語を辞書検索す
る（Ｓ２３）。「Ｍｔ．」のように省略形でピリオドを
有するものはここで検索され文末でない定義を与える。
検索に失敗したもの（Ｓ２４：ＮＯ）については末尾に
特殊な記号等が付加されていれば（Ｓ２５）それらを取
り除き（Ｓ２６）、再び検索する（Ｓ２３）。このとき
取り除かれたものが上記「．」、「！」や「？」であれ
ば英文の文章末尾と判定する（Ｓ２８：ＹＥＳ）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、言語解析装置およ
び言語解析プログラムを記録したコンピュータ読み取り
可能な記録媒体に関し、詳しくは、これらにおける文章
の末尾か否かを判別する技術に関するものである。

【０００２】

【従来の技術】従来より、機械翻訳装置などで翻訳をす
る場合、まず原言語の言語解析をする必要から言語解析
装置を用いて、自動化された言語解析がおこなわれてき
た。一般に言語解析装置においての言語解析は、一文の
単位で解析することが前提とされているため、言語解析
をする場合にはまず複数の文章から一文を切り出す必要
がある。ここで、英文をはじめとする多くの言語は、ピ
リオド、エクスクラメーションマーク、クエスチョンマ
ークにより文章の末尾を表わす。従って、文末にピリオ
ド等が打たれることを考えれば、ピリオド等がある部分
を文章の末尾と識別することも考えられる。文末が判明
すれば、一文の切り出しが可能となり、一文単位での言
語解析をすることが可能となる。

【０００３】ところが、ピリオドは、必ずしも文末を表
わすとは限らず省略形や小数点やその他の記号として用
いられることがあり、文中のピリオドが、文章末尾を表
わしているピリオドなのか、何かの省略を意味している
ものなのか、あるいは小数点なのか区別することが困難
であった。従って単にピリオドがある場所を文末と判定
すれば、言語解析をする際に文章の切れ目を誤って認識
してしまい、その後の翻訳等の操作を誤ってしまうとい
う問題があった。

【０００４】そのため、文末を正しく認識して一文を正
しく切り出すために、文章の切れ目を明らかにするよう
なあらかじめピリオドとは異なるマークを人間の操作に
より付加し、その位置を文章末尾として識別するような
ものが提案されていた。

【０００５】

【発明が解決しようとする課題】しかしながら、いちい
ち文末に、文末を表わすマークなどを付加するのは煩雑
であり、特に大量に文章を分析したりする場合に、人間
の判断により文末を表わすマークを付加するのは著しく
作業効率を低下させることになるという問題があった。

【０００６】そこで、本発明においては、上記課題を解
決するため、人間が予め別途文末を表わすマークを付加
するような煩雑な作業をせず、それでいて、正しく文末
を判定して一文の切り出しが正確に出来るような言語解
析装置及び言語解析プログラムを記録したコンピュータ
読み取り可能な記録媒体を提供することを目的とする。

【０００７】

【課題を解決するための手段】この目的を達成するため
に請求項１に記載の言語解析装置は、文章を入力するた
めの入力手段と、その入力手段により入力された文章を
記憶する記憶手段と、その記憶手段に記憶された文章を
スペース部分で区切り、所定の文字列に分割するスペー
ス分割手段と、省略形を含む単語及びそれらの品詞等の
情報を記憶した単語辞書と、前記スペース分割手段によ
り分割された文字列をそれぞれの前記単語辞書を参照し
て辞書検索する辞書検索手段と、前記辞書検索手段によ
り検索できなかった文字列が、分割可能な所定の記号を
含むか否かを判定する判定手段と、前記判定手段により
分割可能な所定の記号を含むと判定されたとき前記スペ
ース分割手段により分割された文字列を再分割する再分
割手段と、前記再分割された文字列を前記辞書検索手段
により辞書検索する部分辞書検索手段とを備えたことを
特徴とする。

【０００８】上記の構成を有する本発明の言語解析装置
によれば、入力手段により入力された文章を記憶手段に
より記憶し、スペース分割手段によりこの記憶された文
章をスペース単位の文字列に区切る。そして辞書検索手
段により単語及びそれら品詞等の情報を記憶した単語辞
書を参照しながら、分割されたそれぞれの文字列に単語
が存在するかを辞書検索する。この辞書にはピリオドを
伴う短縮形などが含まれているため、ピリオドがもしあ
っても、このような短縮形であれば短縮形のためのピリ
オドと認識され、文末と誤って判断することはなくな
る。さらに、辞書検索により検索できなかった文字列
は、次に判定手段によりスペース分割された文字列の中
にさらに分割できる記号等がないかを判定される。判定
手段により分割可能な記号などが存在するため、さらに
分割できると判定されたとき、部分検索手段により、ス
ペース分割手段により分割された文字列をさらに分割し
て、記号を取り除き、記号を取り除いた残りの部分を１
単語として前記辞書検索手段により辞書検索をするた
め、このような記号を伴った文字列も正しく認識する事
が可能になる。

【０００９】請求項２に記載の言語解析装置は、請求項
１に記載の言語解析装置の構成に加え、前記辞書検索手
段による辞書検索ができない文字列であって、前記判定
手段により前記単語辞書中に分割可能な所定の記号を含
むと判定され、かつ当該記号がその文字列の末尾に位置
するピリオド、エクスクラメーションマーク、クエスチ
ョンマークであるとき、その記号位置が文末尾と判定す
る末尾判定手段を備えたことを特徴とする。

【００１０】上記の構成を有する本発明の言語解析装置
は、スペースで分割された文字列が辞書検索で検索され
ず、判定手段により分割可能な記号が見つかった場合、
その記号が、ピリオド等文末を表わす記号であり、かつ
スペースにより分割された文字列の末尾に位置すると
き、そのピリオド等の位置が文章末尾と判定される。

【００１１】請求項３に記載の記録媒体では、言語解析
装置のための言語解析プログラムを記録したコンピュー
タ読み取り可能な記録媒体であって、コンピュータに、
文章を入力する入力の手順と、その入力の手順により入
力された文章を記憶する記憶の手順と、その記憶の手順
で記憶された文章をスペース部分で区切り、所定の文字
列に分割するスペース分割の手順と、前記スペース分割
の手順により分割されたそれぞれの文字列を、省略形を
含む単語及びそれらの品詞等の情報を記憶した単語辞書
を参照して辞書検索する辞書検索の手順と、前記辞書検
索の手順により検索できなかった文字列が、分割可能な
所定の記号を含むか否かを判定する判定の手順と、前記
判定の手順により分割可能な所定の記号を含むと判定さ
れたとき前記スペース分割の手順により分割された文字
列を再分割する再分割の手順と、前記再分割された文字
列を前記辞書検索の手順により辞書検索する部分辞書検
索の手順とを実行させるためのプログラムを備えたこと
を特徴とする。

【００１２】上記の構成を有する本発明の記録媒体によ
れば、コンピュータに入力の手順により入力された文章
を記憶の手順により記憶させ、スペース分割の手順によ
りこの記憶された文章をスペース単位の文字列に区切ら
せる。そして辞書検索の手順により単語及びそれら品詞
等の情報を記憶した単語辞書を参照しながら、分割され
たそれぞれの文字列に単語が存在するかを辞書検索させ
る。この辞書にはピリオドを伴う短縮形などが含まれて
いるため、ピリオドがもしあっても、このような短縮形
であれば短縮形のためのピリオドと認識され、文末と誤
って判断されることはなくなる。さらに、辞書検索によ
り検索できなかった文字列は、次に判定の手順によりス
ペース分割された文字列の中にさらに分割できる記号等
がないかを判定させる。判定の手順により分割可能な記
号などが存在するため、さらに分割できると判定された
とき、部分検索の手順により、スペース分割の手順によ
り分割された文字列をさらに分割して、記号を取り除
き、記号を取り除いた残りの部分を１単語として前記辞
書検索の手順により辞書検索させるため、このような記
号を伴った文字列も正しく認識する事が可能になる。

【００１３】請求項４に記載の記録媒体では、請求項３
に記載の言語解析プログラムを記録したコンピュータ読
み取り可能な記録媒体の構成に加え、前記コンピュータ
に、前記辞書検索の手順による辞書検索ができない文字
列であって、前記判定の手順により前記単語辞書中に分
割可能な所定の記号を含むと判定され、かつ当該記号が
その文字列の末尾に位置するピリオド、エクスクラメー
ションマーク、クエスチョンマークであるとき、その記
号位置が文末尾と判定する末尾判定の手順を実行させる
プログラムを更に備えたことを特徴とする。

【００１４】上記の構成を有する本発明の記録媒体は、
コンピュータに、スペースで分割された文字列が辞書検
索で検索されず、判定の手順により分割可能な記号が見
つかった場合、その記号が、ピリオド等文末を表わす記
号であり、かつスペースにより分割された文字列の末尾
に位置するとき、そのピリオド等の位置が文章末尾と判
定させる手順を実行させる。

【００１５】

【発明の実施の形態】以下、本発明を一の実施の形態に
より図面を参照して説明する。本実施の形態の言語解析
装置は、コンピュータを備え、コンピュータ読み取り可
能な記録媒体に記録された言語解析プログラムにより、
ピリオド等を手掛かりに文末の判定を行うものである。
従って、ピリオド等を文末の表示に用いる言語であれば
適用可能であるが、ここでは英語を一例として言語解析
する場合について説明する。

【００１６】まず、言語解析装置および言語解析プログ
ラムを格納した記録媒体の概略を図１に示すブロック図
を用いて説明する。

【００１７】図１に示すように本実施の形態の言語解析
装置はデータバス６０を介して入力手段に相当する入力
装置２０と、読み出し専用の記憶装置であるＲＯＭ４０
と、読み書き可能な記憶装置であるＲＡＭ５０と、外部
記憶装置７０と、Ｉ／Ｏポート８０と、文章等を表示さ
せる表示装置３０と、出力装置９０と、それらを制御す
るＣＰＵ１０とからなっている。

【００１８】入力装置２０はキーボードとマウスからな
るもので、解析すべき英文をキー入力するものである。

【００１９】データバス６０は、本実施の形態を構成す
る各機器等の情報のやり取りを可能にするもので、例え
ばＣＰＵ１０は、このデータバス６０を介して、ＲＡＭ
５０やＲＯＭ４０にアクセスする。

【００２０】ＲＯＭ４０には、単語辞書に相当する英単
語辞書４１、スペース分割手段に相当するスペース分割
プログラム４２、辞書検索手段に相当する辞書検索プロ
グラム４３、判定手段と再分割手段に相当する単語分割
処理プログラム４４、および末尾判定手段に相当する文
末判定処理プログラム４５及び上記プログラムを実行し
たり、これらのプログラムを調整する制御プログラム４
６とがそれぞれ格納されている。

【００２１】英単語辞書４１は、図３に示すように、英
単語を記憶しており、各英単語の原形及びその活用形も
記憶されている。また、ピリオド（．）やエクスクラメ
ーションマーク（！）、クエスチョンマーク（？）、ハ
イフン（−）やコロン（：）などの記述用の記号なども
記憶している。また、「Ｍｒ．」や「Ｍｔ．」のような
ピリオドを伴った短縮形も記憶している。

【００２２】さらに、夫々の単語についての品詞の情報
やその他の情報、例えば他の単語・記号との接続が可能
かどうかなどの情報、例えば数字のように小数点として
ピリオドを伴うかどうかもここに記憶される。

【００２３】スペース分割プログラム４２は、コンピュ
ータにスペース分割の手順を実行させるプログラムで、
英文テキスト記憶領域５１に記憶された文字列を、まず
先頭から検索し、スペースがあればこのスペースにフラ
グを立てて、先頭の文字からスペースの前の文字までの
文字列を切り出す。これは、英単語辞書４１を検索して
単語か否かが判断される仮の単語としての文字列であ
り、ここで抽出された文字列が辞書検索の対象として検
索される。辞書検索が終了すればまた、後述のように検
索済みの文字列の末尾にポインタが置かれ、このポイン
タの後ろのスペースの直後の文字から、次のスペースの
直前の文字までの文字列を、次の辞書検索の対象たる文
字列として抽出する。同様の手順により、順次入力され
た文字列について、スペースごとに分割して行く。

【００２４】辞書検索プログラム４３は、辞書検索のた
めの手順をコンピュータに実行させるプログラムであ
り、スペース分割プログラム４２により、所定の単位に
切り出されて抽出された文字列と、英単語辞書４１に格
納された単語情報とを照合して、一致すれば既知の単語
として判断する。このスペースで区切られた所定の文字
列を仮想の単語として辞書検索することにより、検索に
より参照される文字列の長さがこの検索対象の文字列と
同一の長さのものに限定され、短時間で辞書検索をする
ことが可能となる。

【００２５】なお、後述の再分割された文字列について
の部分辞書検索も、この辞書検索プログラムにより同様
な処理がなされる。

【００２６】単語分割処理プログラム４４は、コンピュ
ータに辞書検索により未知語とされた文字列の単語分割
処理の手順を実行させるプログラムである。大きく分け
れば、文字列の分割が可能かどうか判断する判定の手順
と、分割が可能な場合にこれを再分割する手順からな
る。

【００２７】先ずスペースで区切られた文字列に対して
辞書検索プログラム４３による辞書検索が失敗したと
き、この文字列は取り敢えず未知語とされる。しかし、
ピリオドを始めとして、各種の記号と一体になった文字
列、例えば文末の「ｈｉｇｈ．」のように、ピリオドと
その他の文字列とが一体になったままで検索すれば、当
然辞書には「ｈｉｇｈ．」という形では格納されておら
ず、スペース単位で区切られたままでは、「ｈｉｇｈ」
という単語は検索対象外とされるので検索されることは
ない。また「．」の部分も同様にスペースで区切られた
だけでは、辞書検索ができない。しかし、「ｈｉｇ
ｈ」、「．」の夫々の文字列は辞書検索が可能であるた
め、単語分割をする必要がある。この場合、最長一致法
のように、スペースで区切られた文字列を最長の長さか
ら一文字ずつ減らしながら辞書検索することも考えられ
るが、この解析処理は複雑で時間がかかるため、短時間
に簡単に処理することができない。そこで、本実施の形
態では、スペースで分割された文字列から、ほとんど確
実に分割できる記号、例えば「．」「？」「！」のよう
な文末を表わす記号が文字列末尾に存在するような場合
のみを分割可能としている。そのため迅速な処理が可能
になっている。もちろん「−」「：」「”」のような記
号も検索するようにして、このような記号を位置或いは
数を問わず含むような文字列であれば分割が可能と判定
するようにしてもよい。この場合には、処理時間の短縮
よりも、より正確な言語分析を必要とする場合に好まし
い。

【００２８】そして、これらの記号をスペースで区切ら
れて生成された文字列から分離することで、上記のよう
な「ｈｉｇｈ」のような単語の辞書検索処理を可能とす
ることができる。このような記号は数が限定されている
ため、これらを検索しても短時間で処理可能で、また既
にスペースで区切られた文字列は検索が終了しており、
ここで検索が成功した文字列に関しては処理する必要が
既にないため、この再分割される対象文字列は一般には
多くない。

【００２９】なお、「３．１４」や「１３：３０」のよ
うな文字列も先に示したように「３」と「．」と「１
４」や「１３」と「：」と「３０」に分割するようにす
れば、さらにもれなく辞書検索をすることが可能にな
り、言語解析をより正確にすることが出来る。

【００３０】文末判定処理プログラム４５は、文章の末
尾判定の手順をコンピュータに実行させるプログラムで
ある。上記のようにスペースで区切られた文字列が、記
号を含む場合には判定手段により分割可能と判定され、
文字列から記号が分離されて文字列が再分割される。こ
の時、分割された各部分のうち最後の部分が、「ピリオ
ド（．）」「エクスクラメーションマーク（！）」又は
「クエスチョンマーク（？）」のように文末を示すため
に用いられる記号に該当するかどうかを判断させ、該当
した場合には文末と判断するものである。なお、英文テ
キスト記憶領域５１に記憶された文章の末尾の文字列の
場合にも、次の処理対象がなくなるため、当然に文末と
判断される。

【００３１】制御プログラム４６は、入出力の制御をは
じめ、それぞれのプログラムの受け渡しや調整を行い、
各プログラムが一体となり言語解析プログラムとして機
能するようにしたものである。

【００３２】ＲＡＭ５０には、記憶手段に相当する英文
テキスト記憶領域５１、英単語位置記憶領域５２、単語
情報記憶領域５３及び作業領域５４の夫々の記憶領域が
確保されている。

【００３３】英文テキスト記憶領域５１は、入力手段、
ここではキーボード、マウスからなる入力装置２０から
入力された文字等からなる文章を、テキストデータにし
て記憶させるＲＡＭ５０に確保された記憶バッファであ
り、ここに記憶された文字列が先頭から分割され順次検
索される上記のような処理に供されるものである。

【００３４】また、英単語位置記憶領域５２は、スペー
スの位置と、さらに再分割されたときの単語の末尾の位
置をポインタとして記憶するＲＡＭ５０のエリアであ
る。

【００３５】単語情報記憶領域５３は、スペース分割さ
れ、単語分割処理された単位で、辞書検索及び部分辞書
検索された結果、英単語辞書４１から得られた品詞及び
その他の情報がもとの単語に付加されて保存される。

【００３６】外部記憶装置７０は、本実施の形態ではハ
ードディスクドライブを用いており、言語解析処理の対
象にする文章や、言語解析処理の終了した文章などを蓄
積しておくことができる。

【００３７】Ｉ／Ｏポート８０は、他のコンピュータ
や、電話回線、その他の回線、赤外線などで情報の入出
力ができるものであり、言語解析処理の対象や結果物を
入出力する場合に使用できる。

【００３８】表示装置３０は、ＣＲＴから構成され、入
力結果や解析中の処理状況や解析結果が表示されるもの
である。

【００３９】出力装置９０は、本実施の形態では、プリ
ンタを用い言語解析された結果をハードコピーする場合
などに用いられる。

【００４０】次に図２を参照して本実施の形態の言語解
析装置の解析処理の流れを説明する。

【００４１】まず、システムを起動させると、ＲＯＭ４
０から制御プログラム４６が立ち上がりＲＡＭ５０の作
業領域５４、ＲＡＭ５０の英文テキスト記憶領域５１、
英単語位置記憶領域５２、単語情報記憶領域５３の各記
憶領域が確保され、入力装置２０からの入力が可能とな
り、処理が可能となる（開始）。入力装置２０より入力
された文字データが、テキストデータに変換され、英文
文字列が文章テキスト記憶領域５１にテキストデータと
して記憶される（ステップ２１（以下ステップを単にＳ
と略記する。）。ここで、実施例として、「Ｍｔ．Ｆ
ｕｊｉｉｓｈｉｇｈ．」という文字列が入力された場
合を併せて説明する。

【００４２】次に、スペース毎に分割するためスペース
分割処理を行う（Ｓ２２）。ここではスペース分割プロ
グラム４２により英文テキスト記憶領域５１に記憶され
た文章について、その先頭の文字からスペースを検索し
て、スペースを見つけたらその位置までの文字列を抽出
する。本実施例では、始めに文字列「Ｍｔ．」が抽出さ
れることになる。

【００４３】次にそのスペース単位で分割された文字列
についての辞書検索処理をする（Ｓ２３）。辞書検索の
際参照される英単語辞書４１は、その内容を図式化して
示すと図３のようなものである。図３に示すように、そ
れぞれの単語の見出し、品詞及びその他のその単語の情
報が英単語辞書４１に記憶されている。Ｓ２３では辞書
検索プログラム４３により英単語辞書４１中にスペース
分割プログラム４２により抽出された文字列と同じ見出
しを持った項目があるかを検索する。実施例では、Ｓ２
２で抽出された「Ｍｔ．」が検索される。この場合、
「Ｍｔ．」は、３つの文字からなる文字列であるため、
参照されるのは英単語辞書４１のうち３つの文字列のも
のさえ検索すれば足りる。この辞書検索処理の検索対象
であるスペース分割された文字列と同じ単語が存在すれ
ば検索成功（Ｓ２４：ＹＥＳ）で、その単語についての
単語情報の登録がされる（Ｓ２７）。辞書検索により検
索対象であるスペース分割された文字列と同一の単語が
発見できなければ失敗と判定され（Ｓ２４：ＮＯ）、分
割できれば（Ｓ２５：ＹＥＳ）再分割処理がされる（Ｓ
２６）。実施例では、スペース分割された文字列である
「Ｍｔ．」は、図３に示すように英単語辞書４１に存在
しているので検索が成功し単語情報の登録（Ｓ２７）に
進む。

【００４４】単語情報の登録（Ｓ２７）は、図４に示す
ように検索が成功することによって英単語辞書４１に格
納されている情報が読み出されて獲得され、入力順に単
語情報記憶領域５３に単語の情報が記憶され登録される
仕組みになっている。実施例では、文字列「Ｍｔ．」
は、単語「Ｍｔ．」としての情報（品詞Ｐｒｅｆｉｘ
等）が単語情報記憶領域５３に記憶されることになる。

【００４５】そして、検索された単語の末尾の位置が英
単語位置記憶領域５２に格納される。これは次の単語を
スペース分割（Ｓ２２）する開始位置を示すためのポイ
ンタになる。

【００４６】単語情報の登録（Ｓ２７）が終了すると、
検索された単語が英文テキスト記憶領域５１に記憶され
ている文章中の分割された最後の文字列であるかどうか
判定され、最後の文字列であれば、当然これに続く文字
列は存在せず解析は続行できないので文末判定処理プロ
グラム４５により文章末尾と判定され（Ｓ２８：ＹＥ
Ｓ）、本実施の形態の言語解析処理は終了する（終
了）。

【００４７】また、英文テキスト記憶領域５１に未検索
の文字列がまだ残存している場合は、文章の末尾とは判
断されず（Ｓ２８：ＮＯ）、英文テキスト記憶領域５１
の文字列を呼び出し、英単語位置記憶領域５２に記憶さ
れたポインタにしたがって検索済みの文字列の最後の場
所から次のスペース分割の開始の文字を決定し（Ｓ２
９）、この文字から次のスペースの前の文字までの文字
列を、次の検索対象とする文字列としてスペース分割処
理する（Ｓ２２）。実施例では「Ｍｔ．」に続く「Ｆｕ
ｊｉｉｓｈｉｇｈ．」が存在するので文章の末尾で
はないと判定され（Ｓ２８：ＮＯ）、再び先に記憶して
おいた英単語位置記憶領域５２を参照し、最初の文字で
ある「Ｆ」から最初のスペースの前の文字である「ｉ」
までの文字列「Ｆｕｊｉ」をスペース分割して抽出し
（Ｓ２２）、次の辞書検索対象文字列としてして辞書検
索する（Ｓ２３）。

【００４８】もし、この辞書検索（Ｓ２３）で検索対象
である文字列と同一見出しの英単語が見つからなければ
検索は失敗と判定され（Ｓ２４：ＮＯ）、その文字列が
さらに分割可能かどうかチェックされる（Ｓ２５）。こ
の分割可能かの判定は、本実施の形態では、検索対象の
文字列のなかに「．」、「！」、「？」等の一般に分割
可能な特殊な記号があるかどうかが調べられ、そうであ
ればあれば分割可能と判定され（Ｓ２５：ＹＥＳ）さら
に分割される（Ｓ２６）。もし、すべてアルファベット
からなる文字列のように、所定の記号を含んでいない場
合は分割できないものと判断され（Ｓ２５：ＮＯ）、未
知語として検索処理が打ち切られ、未知語として単語情
報の登録処理がなされ、検索処理済のポインタがつけら
れる（Ｓ２７）。ここで、文章末尾と判断されなければ
（Ｓ２８：ＮＯ）、ポインタにしたがって次のスペース
分割の位置が決定され（Ｓ２９）、英文テキスト記憶領
域５１に記憶された文章のうち、まだ検索されてない文
字列から次の文字列のスペース分割処理がなされる（Ｓ
２２）。

【００４９】実施例では、「Ｆｕｊｉ」が２番目の検索
対象文字列として抽出されるが（Ｓ２２）、「Ｆｕｊ
ｉ」は、本実施の形態では固有名詞のため英単語辞書４
１には存在しないものとすると、辞書検索が失敗し（Ｓ
２４：ＮＯ）、分割可能かどうか判定される（Ｓ２
５）。ここで「Ｆｕｊｉ」は、全て通常のアルファベッ
ト文字で構成されている単語であるため分割が可能では
ない文字と判定され（Ｓ２５：ＮＯ）、検索ができない
未知語として扱われ、未知語を表わす情報「ＮＯＮＥ」
が格納される（図４、Ｓ２７）。

【００５０】一方、Ｓ２５の分割が可能かの判定
で、「．」、「！」、「？」のような分割が可能とされ
る所定の記号が文字列末尾に発見されたとき、分割が可
能と判断され（Ｓ２５：ＹＥＳ）、再分割処理がおこな
われる（Ｓ２６）。再分割処理は、スペース単位で分割
処理された（Ｓ２２）文字列末尾から、「．」、
「！」、「？」のような分割が可能とされる所定の記号
を取り除き、残余の文字列を、新たに辞書検索の対象に
なる文字列とするものである。

【００５１】ここで、再分割により分離された（Ｓ２
６）文字列は、英単語辞書４１を参照して、同一の見出
しをもつ単語が存在するか検索される（Ｓ２３）。ここ
での処理は、スペース単位で分割された文字列の検索と
同一の処理がなされる。

【００５２】従って、検索に成功すれば（Ｓ２４：ＹＥ
Ｓ）、単語情報の登録（Ｓ２７）がおこなわれる。但
し、英単語位置記憶領域５２には、検索された文字列で
はなく分離されたピリオド等の記号の位置にポインタが
置かれることになる。

【００５３】また、ピリオド等の単語情報の登録（Ｓ２
７）は、再分割処理（Ｓ２６）の中で行われる。

【００５４】そして、「．」、「！」、「？」のような
記号は一般に文末を表わす記号であるとともに、実際に
スペース分割処理により分割された文字列の末尾にあれ
ば、省略形や小数点でなく、文章末尾を表わすものとし
て考えることができるため文末判定処理プログラム４５
により文章末尾と判断されることになり（Ｓ２８：ＹＥ
Ｓ），たとえ英文テキスト記憶領域５１に文字列が残存
していたとしても、この文章に対する言語解析処理を終
了する（終了）。

【００５５】実施例においては、たとえば「ｈｉｇ
ｈ．」の部分で所定の記号が判定手段により発見され
（Ｓ２５）、分割可能と判断され（Ｓ２５：ＹＥＳ）単
語分割処理に進む（Ｓ２６）。ここでは単語分割処理プ
ログラム４４により末尾の特殊な文字を取り除く。つま
り、上記「ｈｉｇｈ」であれば末尾の「．」を取り除い
た「ｈｉｇｈ」を辞書検索処理に渡す。辞書検索処理
（Ｓ２３）では、分割された単語「ｈｉｇｈ」の辞書検
索をおこない、図３の英単語辞書４１からその単語を検
索する（Ｓ２３）。検索に成功すれば（Ｓ２４：ＹＥ
Ｓ）その単語の単語情報をを図４で示す単語情報記憶領
域５３に登録する（Ｓ２７）仕組みとなっている。

【００５６】そして「．」が文字列の末尾のあるため文
末判定処理プログラム４５により文章末尾と判定され
（Ｓ２８：ＹＥＳ）英文テキスト記憶領域５１に残余の
文字列があったとしても「Ｍｔ. Ｆｕｊｉｉｓｈ
ｉｇｈ．」に対する処理は終了する（終了）。

【００５７】この実施例のように「Ｍｔ．」、「Ｍ
ｒ．」等の末尾にピリオドを伴う単語を英単語辞書４１
にあらかじめ登録しておけば「Ｍｔ．」や「Ｍｒ．」を
文章の末尾としてとらえる誤りをなくすことができる。

【００５８】尚、本発明は以上詳述した実施の形態に限
定されるものではなく、その要旨を逸脱しない範囲にお
いて、種々の変更を加えることができる。

【００５９】例えば、本実施の形態では英文を例として
記述したが、例えばドイツ語、フランス語等ピリオド等
で文末を示す他の言語においても、同様に文章の区切り
と単語の一部を区別するのが困難なものに対して解析す
る場合に有効である。

【００６０】また、本実施の形態では、入力手段は、キ
ーボードとマウスからなる入力装置２０によったが、要
は解析の対象である文章が読み込まれればよく、他の入
力手段、例えば無線または有線によりＩ／Ｏポート８０
を介して読み込まれるものや、フロッピーディスクドラ
イブやハードディスクドライブなどからなる内蔵または
外部記憶装置７０を介して記録媒体により入力されるも
のや、音声によって認識するようなものであってもよ
い。

【００６１】さらに、本実施の形態の言語解析装置は、
英単語辞書４１と、スペース分割プログラム４２と、辞
書検索プログラム４３と、単語分割処理プログラム４４
と、文末判定処理プログラム４５、制御プログラム４６
がＲＯＭ４０に予め格納されたものであるが、本発明は
必ずしもこれに限定されるものではない。例えば、これ
らのプログラムは、それぞれ明確に区別されて格納され
る必要はなく、要は夫々の機能を有する部分が存在すれ
ば十分で、これらのプログラムが混在しているような形
式であっても差し支えない。

【００６２】また、プログラムや辞書が格納される記憶
媒体は必ずしもＲＯＭによるものでなくてもよく、要は
これらのプログラムがコンピュータが読み出し可能に格
納さえされれば十分で、フロッピーディスクやＣＤ−Ｒ
ＯＭ等のコンピュータ読み取り可能な記録媒体に格納し
たものを読み取り装置により読み取ることによって動作
させることもできる。また、有線若しくは無線回線を使
用して外部情報処理装置からプログラムを読み込んで動
作させることもできる。この場合、前記フロッピーディ
スクやＣＤ−ＲＯＭ、或いは、コンピュータに内蔵又は
外付けされたハードディスクや、さらに外部情報処理装
置の当該プログラムを格納したメモリが本発明の記録媒
体を構成することになる。

【００６３】つまり、本実施の形態のようにＲＯＭ４０
にプログラムを格納した言語解析装置の専用機ばかりで
なく、何らかの記録媒体に本実施の形態のＲＯＭ４０の
内容が格納されていれば、この記録媒体を汎用コンピュ
ータに読み取らせることにより本発明の実施が可能にな
る。

【００６４】表示手段も、ＣＲＴに限らず液晶ディスプ
レーはもちろん、要は内容が表示可能であれば如何なる
形式のものであってもよく、出力手段も出力が可能であ
ればプリンタによるものに限定されず、たとえばＩ／Ｏ
ポート８０を介して有線若しくは無線回線によるものや
音声出力、記録媒体を介して出力されるものであっても
よい。

【００６５】

【発明の効果】以上説明したことから明かなように、請
求項１に記載の言語解析装置によれば、スペース分割手
段により文章をスペース単位の文字列に区切り、辞書検
索手段により単語及びそれら品詞等の情報を記憶した単
語辞書を参照しながら、分割されたそれぞれの文字列に
単語が存在するかを辞書検索するため、参照する辞書の
範囲をスペース分割された文字列と同じ長さの単語のみ
を検索すればよく、短時間に検索処理ができるという効
果がある。

【００６６】また、この辞書にはピリオドを伴う短縮形
などが含まれているため、ピリオドがもしあっても、辞
書に格納された短縮形であれば短縮形のためのピリオド
と認識され、文末のためのピリオドと誤って判断される
ことはなくなるという効果がある。

【００６７】さらに、スペース分割されて辞書検索によ
り検索できなかった文字列は、次に判定手段によりスペ
ース分割された文字列の中にさらに分割できる記号等が
ないかを判定され、分割できると判定されたときは、さ
らに分割した部分を１単語として辞書検索手段により辞
書検索をするため、このような記号を伴った文字列も正
しく認識する事が可能になるという効果がある。

【００６８】請求項２に記載の言語解析装置は、請求項
１に記載の言語解析装置の効果に加え、スペースで分割
された文字列が辞書検索で検索されず、判定手段により
分割可能な記号が見つかった場合、その記号が、ピリオ
ド等文末を表わす記号であり、かつスペースにより分割
された文字列の末尾に位置するとき、そのピリオド等の
位置が文章末尾と判定されるため、文末のより正確な認
識が可能となるという効果がある。

【００６９】請求項３に記載のコンピュータ読み取り可
能な記録媒体によれば、コンピュータに、スペース分割
の手順により文章をスペース単位の文字列に区切り、辞
書検索の手順により単語及びそれら品詞等の情報を記憶
した単語辞書を参照しながら、分割されたそれぞれの文
字列に単語が存在するかを辞書検索させるため、参照す
る辞書の範囲をスペース分割された文字列と同じ長さの
単語のみを検索すればよく、短時間に検索処理ができる
という効果がある。

【００７０】また、この辞書にはピリオドを伴う短縮形
などが含まれているため、ピリオドがもしあっても、辞
書に格納された短縮形であれば短縮形のためのピリオド
と認識され、文末のためのピリオドと誤って判断される
ことはなくなるという効果がある。

【００７１】さらに、スペース分割されて辞書検索によ
り検索できなかった文字列は、次に判定手段によりスペ
ース分割された文字列の中にさらに分割できる記号等が
ないかを判定され、分割できると判定されたときは、さ
らに分割した部分を１単語として辞書検索の手順により
辞書検索をするため、このような記号を伴った文字列も
正しく認識させることが可能になるという効果がある。

【００７２】請求項４に記載のコンピュータ読み取り可
能な記録媒体は、請求項１に記載のコンピュータ読み取
り可能な記録媒体の効果に加え、スペースで分割された
文字列が辞書検索で検索されず、判定の手順により分割
可能な記号が見つかった場合、その記号が、ピリオド等
文末を表わす記号であり、かつスペースにより分割され
た文字列の末尾に位置するとき、そのピリオド等の位置
が文章末尾と判定されるため、文末のより正確な認識が
可能となるという効果がある。

【図面の簡単な説明】

【図１】本実施の形態の言語解析装置の概略を表わすブ
ロック図である。

【図２】本実施の形態の言語解析装置の動作を表わすフ
ローチャートである。

【図３】本実施の形態の言語解析装置の英単語辞書の一
例を表す図である。

【図４】本実施の形態の言語解析装置の記録媒体の単語
情報記憶領域の一例を表す図である。

【符号の説明】

１０ＣＰＵ２０入力装置３０表示装置４０ＲＯＭ４１英単語辞書４２スペース分割プログラム４３辞書検索プログラム４４単語分割処理プログラム４５文末判定処理プログラム４６制御プログラム５０ＲＡＭ５１英文テキスト記憶領域５２英単語位置記憶領域５３単語情報記憶領域５４作業領域６０データバス７０外部記憶装置８０Ｉ／Ｏポート９０出力装置

Claims

【特許請求の範囲】

【請求項１】文章を入力するための入力手段と、その入力手段により入力された文章を記憶する記憶手段
と、その記憶手段に記憶された文章をスペース部分で区切
り、所定の文字列に分割するスペース分割手段と、省略形を含む単語及びそれらの品詞等の情報を記憶した
単語辞書と、前記スペース分割手段により分割された文字列をそれぞ
れの前記単語辞書を参照して辞書検索する辞書検索手段
と、前記辞書検索手段により検索できなかった文字列が、分
割可能な所定の記号を含むか否かを判定する判定手段
と、前記判定手段により分割可能な所定の記号を含むと判定
されたとき前記スペース分割手段により分割された文字
列を再分割する再分割手段と、前記再分割された文字列を前記辞書検索手段により辞書
検索する部分辞書検索手段とを備えたことを特徴とする
言語解析装置。
【請求項２】前記辞書検索手段による辞書検索ができ
ない文字列であって、前記判定手段により前記単語辞
書中に分割可能な所定の記号を含むと判定され、かつ当該記号がその文字列の末尾に位置するピリオド、
エクスクラメーションマーク、クエスチョンマークであ
るとき、その記号位置が文末尾と判定する末尾判定手段
を備えた言語解析装置。
【請求項３】言語解析装置のための言語解析プログラ
ムを記録した記録媒体であって、コンピュータに、文章を入力する入力の手順と、その入力の手順により入力された文章を記憶する記憶の
手順と、その記憶の手順で記憶された文章をスペース部分で区切
り、所定の文字列に分割するスペース分割の手順と、前記スペース分割の手順により分割されたそれぞれの文
字列を、省略形を含む単語及びそれらの品詞等の情報を
記憶した単語辞書を参照して辞書検索する辞書検索の手
順と、前記辞書検索の手順により検索できなかった文字列が、
分割可能な所定の記号を含むか否かを判定する判定の手
順と、前記判定の手順により分割可能な所定の記号を含むと判
定されたとき前記スペース分割の手順により分割された
文字列を再分割する再分割の手順と、前記再分割された文字列を前記辞書検索の手順により辞
書検索する部分辞書検索の手順とを実行させるためのプ
ログラムを備えたことを特徴とする言語解析プログラム
を記録したコンピュータ読み取り可能な記録媒体。
【請求項４】前記コンピュータに、前記辞書検索の手順による辞書検索ができない文字列で
あって、前記判定の手順により前記単語辞書中に分割可能な所定
の記号を含むと判定され、かつ当該記号がその文字列の末尾に位置するピリオド、
エクスクラメーションマーク、クエスチョンマークであ
るとき、その記号位置が文末尾と判定する末尾判定の手
順を実行させるプログラムを更に備えたことを特徴とす
る請求項３に記載の言語解析プログラムを記録したコン
ピュータ読み取り可能な記録媒体。