JPH11282841A - 言語解析装置および言語解析プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

言語解析装置および言語解析プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JPH11282841A
JPH11282841A JP10103923A JP10392398A JPH11282841A JP H11282841 A JPH11282841 A JP H11282841A JP 10103923 A JP10103923 A JP 10103923A JP 10392398 A JP10392398 A JP 10392398A JP H11282841 A JPH11282841 A JP H11282841A
Authority
JP
Japan
Prior art keywords
character string
divided
sentence
procedure
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10103923A
Other languages
English (en)
Inventor
Ikuaki Kobayashi
生明 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP10103923A priority Critical patent/JPH11282841A/ja
Publication of JPH11282841A publication Critical patent/JPH11282841A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 英語の文章を解析する場合に、文章の末尾の
ピリオド「.」と、省略形等のピリオドを区別し、文末
の判定の精度を上げること。 【解決手段】 英文を入力し(S21)文章をスペース
で区切り(S22)、その後それらの単語を辞書検索す
る(S23)。「Mt.」のように省略形でピリオドを
有するものはここで検索され文末でない定義を与える。
検索に失敗したもの(S24:NO)については末尾に
特殊な記号等が付加されていれば(S25)それらを取
り除き(S26)、再び検索する(S23)。このとき
取り除かれたものが上記「.」、「!」や「?」であれ
ば英文の文章末尾と判定する(S28:YES)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、言語解析装置およ
び言語解析プログラムを記録したコンピュータ読み取り
可能な記録媒体に関し、詳しくは、これらにおける文章
の末尾か否かを判別する技術に関するものである。
【0002】
【従来の技術】従来より、機械翻訳装置などで翻訳をす
る場合、まず原言語の言語解析をする必要から言語解析
装置を用いて、自動化された言語解析がおこなわれてき
た。一般に言語解析装置においての言語解析は、一文の
単位で解析することが前提とされているため、言語解析
をする場合にはまず複数の文章から一文を切り出す必要
がある。ここで、英文をはじめとする多くの言語は、ピ
リオド、エクスクラメーションマーク、クエスチョンマ
ークにより文章の末尾を表わす。従って、文末にピリオ
ド等が打たれることを考えれば、ピリオド等がある部分
を文章の末尾と識別することも考えられる。文末が判明
すれば、一文の切り出しが可能となり、一文単位での言
語解析をすることが可能となる。
【0003】ところが、ピリオドは、必ずしも文末を表
わすとは限らず省略形や小数点やその他の記号として用
いられることがあり、文中のピリオドが、文章末尾を表
わしているピリオドなのか、何かの省略を意味している
ものなのか、あるいは小数点なのか区別することが困難
であった。従って単にピリオドがある場所を文末と判定
すれば、言語解析をする際に文章の切れ目を誤って認識
してしまい、その後の翻訳等の操作を誤ってしまうとい
う問題があった。
【0004】そのため、文末を正しく認識して一文を正
しく切り出すために、文章の切れ目を明らかにするよう
なあらかじめピリオドとは異なるマークを人間の操作に
より付加し、その位置を文章末尾として識別するような
ものが提案されていた。
【0005】
【発明が解決しようとする課題】しかしながら、いちい
ち文末に、文末を表わすマークなどを付加するのは煩雑
であり、特に大量に文章を分析したりする場合に、人間
の判断により文末を表わすマークを付加するのは著しく
作業効率を低下させることになるという問題があった。
【0006】そこで、本発明においては、上記課題を解
決するため、人間が予め別途文末を表わすマークを付加
するような煩雑な作業をせず、それでいて、正しく文末
を判定して一文の切り出しが正確に出来るような言語解
析装置及び言語解析プログラムを記録したコンピュータ
読み取り可能な記録媒体を提供することを目的とする。
【0007】
【課題を解決するための手段】この目的を達成するため
に請求項1に記載の言語解析装置は、文章を入力するた
めの入力手段と、その入力手段により入力された文章を
記憶する記憶手段と、その記憶手段に記憶された文章を
スペース部分で区切り、所定の文字列に分割するスペー
ス分割手段と、省略形を含む単語及びそれらの品詞等の
情報を記憶した単語辞書と、前記スペース分割手段によ
り分割された文字列をそれぞれの前記単語辞書を参照し
て辞書検索する辞書検索手段と、前記辞書検索手段によ
り検索できなかった文字列が、分割可能な所定の記号を
含むか否かを判定する判定手段と、前記判定手段により
分割可能な所定の記号を含むと判定されたとき前記スペ
ース分割手段により分割された文字列を再分割する再分
割手段と、前記再分割された文字列を前記辞書検索手段
により辞書検索する部分辞書検索手段とを備えたことを
特徴とする。
【0008】上記の構成を有する本発明の言語解析装置
によれば、入力手段により入力された文章を記憶手段に
より記憶し、スペース分割手段によりこの記憶された文
章をスペース単位の文字列に区切る。そして辞書検索手
段により単語及びそれら品詞等の情報を記憶した単語辞
書を参照しながら、分割されたそれぞれの文字列に単語
が存在するかを辞書検索する。この辞書にはピリオドを
伴う短縮形などが含まれているため、ピリオドがもしあ
っても、このような短縮形であれば短縮形のためのピリ
オドと認識され、文末と誤って判断することはなくな
る。さらに、辞書検索により検索できなかった文字列
は、次に判定手段によりスペース分割された文字列の中
にさらに分割できる記号等がないかを判定される。判定
手段により分割可能な記号などが存在するため、さらに
分割できると判定されたとき、部分検索手段により、ス
ペース分割手段により分割された文字列をさらに分割し
て、記号を取り除き、記号を取り除いた残りの部分を1
単語として前記辞書検索手段により辞書検索をするた
め、このような記号を伴った文字列も正しく認識する事
が可能になる。
【0009】請求項2に記載の言語解析装置は、請求項
1に記載の言語解析装置の構成に加え、前記辞書検索手
段による辞書検索ができない文字列であって、前記判定
手段により前記単語辞書中に分割可能な所定の記号を含
むと判定され、かつ当該記号がその文字列の末尾に位置
するピリオド、エクスクラメーションマーク、クエスチ
ョンマークであるとき、その記号位置が文末尾と判定す
る末尾判定手段を備えたことを特徴とする。
【0010】上記の構成を有する本発明の言語解析装置
は、スペースで分割された文字列が辞書検索で検索され
ず、判定手段により分割可能な記号が見つかった場合、
その記号が、ピリオド等文末を表わす記号であり、かつ
スペースにより分割された文字列の末尾に位置すると
き、そのピリオド等の位置が文章末尾と判定される。
【0011】請求項3に記載の記録媒体では、言語解析
装置のための言語解析プログラムを記録したコンピュー
タ読み取り可能な記録媒体であって、コンピュータに、
文章を入力する入力の手順と、その入力の手順により入
力された文章を記憶する記憶の手順と、その記憶の手順
で記憶された文章をスペース部分で区切り、所定の文字
列に分割するスペース分割の手順と、前記スペース分割
の手順により分割されたそれぞれの文字列を、省略形を
含む単語及びそれらの品詞等の情報を記憶した単語辞書
を参照して辞書検索する辞書検索の手順と、前記辞書検
索の手順により検索できなかった文字列が、分割可能な
所定の記号を含むか否かを判定する判定の手順と、前記
判定の手順により分割可能な所定の記号を含むと判定さ
れたとき前記スペース分割の手順により分割された文字
列を再分割する再分割の手順と、前記再分割された文字
列を前記辞書検索の手順により辞書検索する部分辞書検
索の手順とを実行させるためのプログラムを備えたこと
を特徴とする。
【0012】上記の構成を有する本発明の記録媒体によ
れば、コンピュータに入力の手順により入力された文章
を記憶の手順により記憶させ、スペース分割の手順によ
りこの記憶された文章をスペース単位の文字列に区切ら
せる。そして辞書検索の手順により単語及びそれら品詞
等の情報を記憶した単語辞書を参照しながら、分割され
たそれぞれの文字列に単語が存在するかを辞書検索させ
る。この辞書にはピリオドを伴う短縮形などが含まれて
いるため、ピリオドがもしあっても、このような短縮形
であれば短縮形のためのピリオドと認識され、文末と誤
って判断されることはなくなる。さらに、辞書検索によ
り検索できなかった文字列は、次に判定の手順によりス
ペース分割された文字列の中にさらに分割できる記号等
がないかを判定させる。判定の手順により分割可能な記
号などが存在するため、さらに分割できると判定された
とき、部分検索の手順により、スペース分割の手順によ
り分割された文字列をさらに分割して、記号を取り除
き、記号を取り除いた残りの部分を1単語として前記辞
書検索の手順により辞書検索させるため、このような記
号を伴った文字列も正しく認識する事が可能になる。
【0013】請求項4に記載の記録媒体では、請求項3
に記載の言語解析プログラムを記録したコンピュータ読
み取り可能な記録媒体の構成に加え、前記コンピュータ
に、前記辞書検索の手順による辞書検索ができない文字
列であって、前記判定の手順により前記単語辞書中に分
割可能な所定の記号を含むと判定され、かつ当該記号が
その文字列の末尾に位置するピリオド、エクスクラメー
ションマーク、クエスチョンマークであるとき、その記
号位置が文末尾と判定する末尾判定の手順を実行させる
プログラムを更に備えたことを特徴とする。
【0014】上記の構成を有する本発明の記録媒体は、
コンピュータに、スペースで分割された文字列が辞書検
索で検索されず、判定の手順により分割可能な記号が見
つかった場合、その記号が、ピリオド等文末を表わす記
号であり、かつスペースにより分割された文字列の末尾
に位置するとき、そのピリオド等の位置が文章末尾と判
定させる手順を実行させる。
【0015】
【発明の実施の形態】以下、本発明を一の実施の形態に
より図面を参照して説明する。本実施の形態の言語解析
装置は、コンピュータを備え、コンピュータ読み取り可
能な記録媒体に記録された言語解析プログラムにより、
ピリオド等を手掛かりに文末の判定を行うものである。
従って、ピリオド等を文末の表示に用いる言語であれば
適用可能であるが、ここでは英語を一例として言語解析
する場合について説明する。
【0016】まず、言語解析装置および言語解析プログ
ラムを格納した記録媒体の概略を図1に示すブロック図
を用いて説明する。
【0017】図1に示すように本実施の形態の言語解析
装置はデータバス60を介して入力手段に相当する入力
装置20と、読み出し専用の記憶装置であるROM40
と、読み書き可能な記憶装置であるRAM50と、外部
記憶装置70と、I/Oポート80と、文章等を表示さ
せる表示装置30と、出力装置90と、それらを制御す
るCPU10とからなっている。
【0018】入力装置20はキーボードとマウスからな
るもので、解析すべき英文をキー入力するものである。
【0019】データバス60は、本実施の形態を構成す
る各機器等の情報のやり取りを可能にするもので、例え
ばCPU10は、このデータバス60を介して、RAM
50やROM40にアクセスする。
【0020】ROM40には、単語辞書に相当する英単
語辞書41、スペース分割手段に相当するスペース分割
プログラム42、辞書検索手段に相当する辞書検索プロ
グラム43、判定手段と再分割手段に相当する単語分割
処理プログラム44、および末尾判定手段に相当する文
末判定処理プログラム45及び上記プログラムを実行し
たり、これらのプログラムを調整する制御プログラム4
6とがそれぞれ格納されている。
【0021】英単語辞書41は、図3に示すように、英
単語を記憶しており、各英単語の原形及びその活用形も
記憶されている。また、ピリオド(.)やエクスクラメ
ーションマーク(!)、クエスチョンマーク(?)、ハ
イフン(−)やコロン(:)などの記述用の記号なども
記憶している。また、「Mr.」や「Mt.」のような
ピリオドを伴った短縮形も記憶している。
【0022】さらに、夫々の単語についての品詞の情報
やその他の情報、例えば他の単語・記号との接続が可能
かどうかなどの情報、例えば数字のように小数点として
ピリオドを伴うかどうかもここに記憶される。
【0023】スペース分割プログラム42は、コンピュ
ータにスペース分割の手順を実行させるプログラムで、
英文テキスト記憶領域51に記憶された文字列を、まず
先頭から検索し、スペースがあればこのスペースにフラ
グを立てて、先頭の文字からスペースの前の文字までの
文字列を切り出す。これは、英単語辞書41を検索して
単語か否かが判断される仮の単語としての文字列であ
り、ここで抽出された文字列が辞書検索の対象として検
索される。辞書検索が終了すればまた、後述のように検
索済みの文字列の末尾にポインタが置かれ、このポイン
タの後ろのスペースの直後の文字から、次のスペースの
直前の文字までの文字列を、次の辞書検索の対象たる文
字列として抽出する。同様の手順により、順次入力され
た文字列について、スペースごとに分割して行く。
【0024】辞書検索プログラム43は、辞書検索のた
めの手順をコンピュータに実行させるプログラムであ
り、スペース分割プログラム42により、所定の単位に
切り出されて抽出された文字列と、英単語辞書41に格
納された単語情報とを照合して、一致すれば既知の単語
として判断する。このスペースで区切られた所定の文字
列を仮想の単語として辞書検索することにより、検索に
より参照される文字列の長さがこの検索対象の文字列と
同一の長さのものに限定され、短時間で辞書検索をする
ことが可能となる。
【0025】なお、後述の再分割された文字列について
の部分辞書検索も、この辞書検索プログラムにより同様
な処理がなされる。
【0026】単語分割処理プログラム44は、コンピュ
ータに辞書検索により未知語とされた文字列の単語分割
処理の手順を実行させるプログラムである。大きく分け
れば、文字列の分割が可能かどうか判断する判定の手順
と、分割が可能な場合にこれを再分割する手順からな
る。
【0027】先ずスペースで区切られた文字列に対して
辞書検索プログラム43による辞書検索が失敗したと
き、この文字列は取り敢えず未知語とされる。しかし、
ピリオドを始めとして、各種の記号と一体になった文字
列、例えば文末の「high.」のように、ピリオドと
その他の文字列とが一体になったままで検索すれば、当
然辞書には「high.」という形では格納されておら
ず、スペース単位で区切られたままでは、「high」
という単語は検索対象外とされるので検索されることは
ない。また「.」の部分も同様にスペースで区切られた
だけでは、辞書検索ができない。しかし、「hig
h」、「.」の夫々の文字列は辞書検索が可能であるた
め、単語分割をする必要がある。この場合、最長一致法
のように、スペースで区切られた文字列を最長の長さか
ら一文字ずつ減らしながら辞書検索することも考えられ
るが、この解析処理は複雑で時間がかかるため、短時間
に簡単に処理することができない。そこで、本実施の形
態では、スペースで分割された文字列から、ほとんど確
実に分割できる記号、例えば「.」「?」「!」のよう
な文末を表わす記号が文字列末尾に存在するような場合
のみを分割可能としている。そのため迅速な処理が可能
になっている。もちろん「−」「:」「”」のような記
号も検索するようにして、このような記号を位置或いは
数を問わず含むような文字列であれば分割が可能と判定
するようにしてもよい。この場合には、処理時間の短縮
よりも、より正確な言語分析を必要とする場合に好まし
い。
【0028】そして、これらの記号をスペースで区切ら
れて生成された文字列から分離することで、上記のよう
な「high」のような単語の辞書検索処理を可能とす
ることができる。このような記号は数が限定されている
ため、これらを検索しても短時間で処理可能で、また既
にスペースで区切られた文字列は検索が終了しており、
ここで検索が成功した文字列に関しては処理する必要が
既にないため、この再分割される対象文字列は一般には
多くない。
【0029】なお、「3.14」や「13:30」のよ
うな文字列も先に示したように「3」と「.」と「1
4」や「13」と「:」と「30」に分割するようにす
れば、さらにもれなく辞書検索をすることが可能にな
り、言語解析をより正確にすることが出来る。
【0030】文末判定処理プログラム45は、文章の末
尾判定の手順をコンピュータに実行させるプログラムで
ある。上記のようにスペースで区切られた文字列が、記
号を含む場合には判定手段により分割可能と判定され、
文字列から記号が分離されて文字列が再分割される。こ
の時、分割された各部分のうち最後の部分が、「ピリオ
ド(.)」「エクスクラメーションマーク(!)」又は
「クエスチョンマーク(?)」のように文末を示すため
に用いられる記号に該当するかどうかを判断させ、該当
した場合には文末と判断するものである。なお、英文テ
キスト記憶領域51に記憶された文章の末尾の文字列の
場合にも、次の処理対象がなくなるため、当然に文末と
判断される。
【0031】制御プログラム46は、入出力の制御をは
じめ、それぞれのプログラムの受け渡しや調整を行い、
各プログラムが一体となり言語解析プログラムとして機
能するようにしたものである。
【0032】RAM50には、記憶手段に相当する英文
テキスト記憶領域51、英単語位置記憶領域52、単語
情報記憶領域53及び作業領域54の夫々の記憶領域が
確保されている。
【0033】英文テキスト記憶領域51は、入力手段、
ここではキーボード、マウスからなる入力装置20から
入力された文字等からなる文章を、テキストデータにし
て記憶させるRAM50に確保された記憶バッファであ
り、ここに記憶された文字列が先頭から分割され順次検
索される上記のような処理に供されるものである。
【0034】また、英単語位置記憶領域52は、スペー
スの位置と、さらに再分割されたときの単語の末尾の位
置をポインタとして記憶するRAM50のエリアであ
る。
【0035】単語情報記憶領域53は、スペース分割さ
れ、単語分割処理された単位で、辞書検索及び部分辞書
検索された結果、英単語辞書41から得られた品詞及び
その他の情報がもとの単語に付加されて保存される。
【0036】外部記憶装置70は、本実施の形態ではハ
ードディスクドライブを用いており、言語解析処理の対
象にする文章や、言語解析処理の終了した文章などを蓄
積しておくことができる。
【0037】I/Oポート80は、他のコンピュータ
や、電話回線、その他の回線、赤外線などで情報の入出
力ができるものであり、言語解析処理の対象や結果物を
入出力する場合に使用できる。
【0038】表示装置30は、CRTから構成され、入
力結果や解析中の処理状況や解析結果が表示されるもの
である。
【0039】出力装置90は、本実施の形態では、プリ
ンタを用い言語解析された結果をハードコピーする場合
などに用いられる。
【0040】次に図2を参照して本実施の形態の言語解
析装置の解析処理の流れを説明する。
【0041】まず、システムを起動させると、ROM4
0から制御プログラム46が立ち上がりRAM50の作
業領域54、RAM50の英文テキスト記憶領域51、
英単語位置記憶領域52、単語情報記憶領域53の各記
憶領域が確保され、入力装置20からの入力が可能とな
り、処理が可能となる(開始)。入力装置20より入力
された文字データが、テキストデータに変換され、英文
文字列が文章テキスト記憶領域51にテキストデータと
して記憶される(ステップ21(以下ステップを単にS
と略記する。)。ここで、実施例として、「Mt. F
uji ishigh.」という文字列が入力された場
合を併せて説明する。
【0042】次に、スペース毎に分割するためスペース
分割処理を行う(S22)。ここではスペース分割プロ
グラム42により英文テキスト記憶領域51に記憶され
た文章について、その先頭の文字からスペースを検索し
て、スペースを見つけたらその位置までの文字列を抽出
する。本実施例では、始めに文字列「Mt.」が抽出さ
れることになる。
【0043】次にそのスペース単位で分割された文字列
についての辞書検索処理をする(S23)。辞書検索の
際参照される英単語辞書41は、その内容を図式化して
示すと図3のようなものである。図3に示すように、そ
れぞれの単語の見出し、品詞及びその他のその単語の情
報が英単語辞書41に記憶されている。S23では辞書
検索プログラム43により英単語辞書41中にスペース
分割プログラム42により抽出された文字列と同じ見出
しを持った項目があるかを検索する。実施例では、S2
2で抽出された「Mt.」が検索される。この場合、
「Mt.」は、3つの文字からなる文字列であるため、
参照されるのは英単語辞書41のうち3つの文字列のも
のさえ検索すれば足りる。この辞書検索処理の検索対象
であるスペース分割された文字列と同じ単語が存在すれ
ば検索成功(S24:YES)で、その単語についての
単語情報の登録がされる(S27)。辞書検索により検
索対象であるスペース分割された文字列と同一の単語が
発見できなければ失敗と判定され(S24:NO)、分
割できれば(S25:YES)再分割処理がされる(S
26)。実施例では、スペース分割された文字列である
「Mt.」は、図3に示すように英単語辞書41に存在
しているので検索が成功し単語情報の登録(S27)に
進む。
【0044】単語情報の登録(S27)は、図4に示す
ように検索が成功することによって英単語辞書41に格
納されている情報が読み出されて獲得され、入力順に単
語情報記憶領域53に単語の情報が記憶され登録される
仕組みになっている。実施例では、文字列「Mt.」
は、単語「Mt.」としての情報(品詞Prefix
等)が単語情報記憶領域53に記憶されることになる。
【0045】そして、検索された単語の末尾の位置が英
単語位置記憶領域52に格納される。これは次の単語を
スペース分割(S22)する開始位置を示すためのポイ
ンタになる。
【0046】単語情報の登録(S27)が終了すると、
検索された単語が英文テキスト記憶領域51に記憶され
ている文章中の分割された最後の文字列であるかどうか
判定され、最後の文字列であれば、当然これに続く文字
列は存在せず解析は続行できないので文末判定処理プロ
グラム45により文章末尾と判定され(S28:YE
S)、本実施の形態の言語解析処理は終了する(終
了)。
【0047】また、英文テキスト記憶領域51に未検索
の文字列がまだ残存している場合は、文章の末尾とは判
断されず(S28:NO)、英文テキスト記憶領域51
の文字列を呼び出し、英単語位置記憶領域52に記憶さ
れたポインタにしたがって検索済みの文字列の最後の場
所から次のスペース分割の開始の文字を決定し(S2
9)、この文字から次のスペースの前の文字までの文字
列を、次の検索対象とする文字列としてスペース分割処
理する(S22)。実施例では「Mt.」に続く「Fu
ji is high.」が存在するので文章の末尾で
はないと判定され(S28:NO)、再び先に記憶して
おいた英単語位置記憶領域52を参照し、最初の文字で
ある「F」から最初のスペースの前の文字である「i」
までの文字列「Fuji」をスペース分割して抽出し
(S22)、次の辞書検索対象文字列としてして辞書検
索する(S23)。
【0048】もし、この辞書検索(S23)で検索対象
である文字列と同一見出しの英単語が見つからなければ
検索は失敗と判定され(S24:NO)、その文字列が
さらに分割可能かどうかチェックされる(S25)。こ
の分割可能かの判定は、本実施の形態では、検索対象の
文字列のなかに「.」、「!」、「?」等の一般に分割
可能な特殊な記号があるかどうかが調べられ、そうであ
ればあれば分割可能と判定され(S25:YES)さら
に分割される(S26)。もし、すべてアルファベット
からなる文字列のように、所定の記号を含んでいない場
合は分割できないものと判断され(S25:NO)、未
知語として検索処理が打ち切られ、未知語として単語情
報の登録処理がなされ、検索処理済のポインタがつけら
れる(S27)。ここで、文章末尾と判断されなければ
(S28:NO)、ポインタにしたがって次のスペース
分割の位置が決定され(S29)、英文テキスト記憶領
域51に記憶された文章のうち、まだ検索されてない文
字列から次の文字列のスペース分割処理がなされる(S
22)。
【0049】実施例では、「Fuji」が2番目の検索
対象文字列として抽出されるが(S22)、「Fuj
i」は、本実施の形態では固有名詞のため英単語辞書4
1には存在しないものとすると、辞書検索が失敗し(S
24:NO)、分割可能かどうか判定される(S2
5)。ここで「Fuji」は、全て通常のアルファベッ
ト文字で構成されている単語であるため分割が可能では
ない文字と判定され(S25:NO)、検索ができない
未知語として扱われ、未知語を表わす情報「NONE」
が格納される(図4、S27)。
【0050】一方、S25の分割が可能かの判定
で、「.」、「!」、「?」のような分割が可能とされ
る所定の記号が文字列末尾に発見されたとき、分割が可
能と判断され(S25:YES)、再分割処理がおこな
われる(S26)。再分割処理は、スペース単位で分割
処理された(S22)文字列末尾から、「.」、
「!」、「?」のような分割が可能とされる所定の記号
を取り除き、残余の文字列を、新たに辞書検索の対象に
なる文字列とするものである。
【0051】ここで、再分割により分離された(S2
6)文字列は、英単語辞書41を参照して、同一の見出
しをもつ単語が存在するか検索される(S23)。ここ
での処理は、スペース単位で分割された文字列の検索と
同一の処理がなされる。
【0052】従って、検索に成功すれば(S24:YE
S)、単語情報の登録(S27)がおこなわれる。但
し、英単語位置記憶領域52には、検索された文字列で
はなく分離されたピリオド等の記号の位置にポインタが
置かれることになる。
【0053】また、ピリオド等の単語情報の登録(S2
7)は、再分割処理(S26)の中で行われる。
【0054】そして、「.」、「!」、「?」のような
記号は一般に文末を表わす記号であるとともに、実際に
スペース分割処理により分割された文字列の末尾にあれ
ば、省略形や小数点でなく、文章末尾を表わすものとし
て考えることができるため文末判定処理プログラム45
により文章末尾と判断されることになり(S28:YE
S),たとえ英文テキスト記憶領域51に文字列が残存
していたとしても、この文章に対する言語解析処理を終
了する(終了)。
【0055】実施例においては、たとえば「hig
h.」の部分で所定の記号が判定手段により発見され
(S25)、分割可能と判断され(S25:YES)単
語分割処理に進む(S26)。ここでは単語分割処理プ
ログラム44により末尾の特殊な文字を取り除く。つま
り、上記「high」であれば末尾の「.」を取り除い
た「high」を辞書検索処理に渡す。辞書検索処理
(S23)では、分割された単語「high」の辞書検
索をおこない、図3の英単語辞書41からその単語を検
索する(S23)。検索に成功すれば(S24:YE
S)その単語の単語情報をを図4で示す単語情報記憶領
域53に登録する(S27)仕組みとなっている。
【0056】そして「.」が文字列の末尾のあるため文
末判定処理プログラム45により文章末尾と判定され
(S28:YES)英文テキスト記憶領域51に残余の
文字列があったとしても「Mt. Fuji is h
igh.」に対する処理は終了する(終了)。
【0057】この実施例のように「Mt.」、「M
r.」等の末尾にピリオドを伴う単語を英単語辞書41
にあらかじめ登録しておけば「Mt.」や「Mr.」を
文章の末尾としてとらえる誤りをなくすことができる。
【0058】尚、本発明は以上詳述した実施の形態に限
定されるものではなく、その要旨を逸脱しない範囲にお
いて、種々の変更を加えることができる。
【0059】例えば、本実施の形態では英文を例として
記述したが、例えばドイツ語、フランス語等ピリオド等
で文末を示す他の言語においても、同様に文章の区切り
と単語の一部を区別するのが困難なものに対して解析す
る場合に有効である。
【0060】また、本実施の形態では、入力手段は、キ
ーボードとマウスからなる入力装置20によったが、要
は解析の対象である文章が読み込まれればよく、他の入
力手段、例えば無線または有線によりI/Oポート80
を介して読み込まれるものや、フロッピーディスクドラ
イブやハードディスクドライブなどからなる内蔵または
外部記憶装置70を介して記録媒体により入力されるも
のや、音声によって認識するようなものであってもよ
い。
【0061】さらに、本実施の形態の言語解析装置は、
英単語辞書41と、スペース分割プログラム42と、辞
書検索プログラム43と、単語分割処理プログラム44
と、文末判定処理プログラム45、制御プログラム46
がROM40に予め格納されたものであるが、本発明は
必ずしもこれに限定されるものではない。例えば、これ
らのプログラムは、それぞれ明確に区別されて格納され
る必要はなく、要は夫々の機能を有する部分が存在すれ
ば十分で、これらのプログラムが混在しているような形
式であっても差し支えない。
【0062】また、プログラムや辞書が格納される記憶
媒体は必ずしもROMによるものでなくてもよく、要は
これらのプログラムがコンピュータが読み出し可能に格
納さえされれば十分で、フロッピーディスクやCD−R
OM等のコンピュータ読み取り可能な記録媒体に格納し
たものを読み取り装置により読み取ることによって動作
させることもできる。また、有線若しくは無線回線を使
用して外部情報処理装置からプログラムを読み込んで動
作させることもできる。この場合、前記フロッピーディ
スクやCD−ROM、或いは、コンピュータに内蔵又は
外付けされたハードディスクや、さらに外部情報処理装
置の当該プログラムを格納したメモリが本発明の記録媒
体を構成することになる。
【0063】つまり、本実施の形態のようにROM40
にプログラムを格納した言語解析装置の専用機ばかりで
なく、何らかの記録媒体に本実施の形態のROM40の
内容が格納されていれば、この記録媒体を汎用コンピュ
ータに読み取らせることにより本発明の実施が可能にな
る。
【0064】表示手段も、CRTに限らず液晶ディスプ
レーはもちろん、要は内容が表示可能であれば如何なる
形式のものであってもよく、出力手段も出力が可能であ
ればプリンタによるものに限定されず、たとえばI/O
ポート80を介して有線若しくは無線回線によるものや
音声出力、記録媒体を介して出力されるものであっても
よい。
【0065】
【発明の効果】以上説明したことから明かなように、請
求項1に記載の言語解析装置によれば、スペース分割手
段により文章をスペース単位の文字列に区切り、辞書検
索手段により単語及びそれら品詞等の情報を記憶した単
語辞書を参照しながら、分割されたそれぞれの文字列に
単語が存在するかを辞書検索するため、参照する辞書の
範囲をスペース分割された文字列と同じ長さの単語のみ
を検索すればよく、短時間に検索処理ができるという効
果がある。
【0066】また、この辞書にはピリオドを伴う短縮形
などが含まれているため、ピリオドがもしあっても、辞
書に格納された短縮形であれば短縮形のためのピリオド
と認識され、文末のためのピリオドと誤って判断される
ことはなくなるという効果がある。
【0067】さらに、スペース分割されて辞書検索によ
り検索できなかった文字列は、次に判定手段によりスペ
ース分割された文字列の中にさらに分割できる記号等が
ないかを判定され、分割できると判定されたときは、さ
らに分割した部分を1単語として辞書検索手段により辞
書検索をするため、このような記号を伴った文字列も正
しく認識する事が可能になるという効果がある。
【0068】請求項2に記載の言語解析装置は、請求項
1に記載の言語解析装置の効果に加え、スペースで分割
された文字列が辞書検索で検索されず、判定手段により
分割可能な記号が見つかった場合、その記号が、ピリオ
ド等文末を表わす記号であり、かつスペースにより分割
された文字列の末尾に位置するとき、そのピリオド等の
位置が文章末尾と判定されるため、文末のより正確な認
識が可能となるという効果がある。
【0069】請求項3に記載のコンピュータ読み取り可
能な記録媒体によれば、コンピュータに、スペース分割
の手順により文章をスペース単位の文字列に区切り、辞
書検索の手順により単語及びそれら品詞等の情報を記憶
した単語辞書を参照しながら、分割されたそれぞれの文
字列に単語が存在するかを辞書検索させるため、参照す
る辞書の範囲をスペース分割された文字列と同じ長さの
単語のみを検索すればよく、短時間に検索処理ができる
という効果がある。
【0070】また、この辞書にはピリオドを伴う短縮形
などが含まれているため、ピリオドがもしあっても、辞
書に格納された短縮形であれば短縮形のためのピリオド
と認識され、文末のためのピリオドと誤って判断される
ことはなくなるという効果がある。
【0071】さらに、スペース分割されて辞書検索によ
り検索できなかった文字列は、次に判定手段によりスペ
ース分割された文字列の中にさらに分割できる記号等が
ないかを判定され、分割できると判定されたときは、さ
らに分割した部分を1単語として辞書検索の手順により
辞書検索をするため、このような記号を伴った文字列も
正しく認識させることが可能になるという効果がある。
【0072】請求項4に記載のコンピュータ読み取り可
能な記録媒体は、請求項1に記載のコンピュータ読み取
り可能な記録媒体の効果に加え、スペースで分割された
文字列が辞書検索で検索されず、判定の手順により分割
可能な記号が見つかった場合、その記号が、ピリオド等
文末を表わす記号であり、かつスペースにより分割され
た文字列の末尾に位置するとき、そのピリオド等の位置
が文章末尾と判定されるため、文末のより正確な認識が
可能となるという効果がある。
【図面の簡単な説明】
【図1】本実施の形態の言語解析装置の概略を表わすブ
ロック図である。
【図2】本実施の形態の言語解析装置の動作を表わすフ
ローチャートである。
【図3】本実施の形態の言語解析装置の英単語辞書の一
例を表す図である。
【図4】本実施の形態の言語解析装置の記録媒体の単語
情報記憶領域の一例を表す図である。
【符号の説明】
10 CPU 20 入力装置 30 表示装置 40 ROM 41 英単語辞書 42 スペース分割プログラム 43 辞書検索プログラム 44 単語分割処理プログラム 45 文末判定処理プログラム 46 制御プログラム 50 RAM 51 英文テキスト記憶領域 52 英単語位置記憶領域 53 単語情報記憶領域 54 作業領域 60 データバス 70 外部記憶装置 80 I/Oポート 90 出力装置

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文章を入力するための入力手段と、 その入力手段により入力された文章を記憶する記憶手段
    と、 その記憶手段に記憶された文章をスペース部分で区切
    り、所定の文字列に分割するスペース分割手段と、 省略形を含む単語及びそれらの品詞等の情報を記憶した
    単語辞書と、 前記スペース分割手段により分割された文字列をそれぞ
    れの前記単語辞書を参照して辞書検索する辞書検索手段
    と、 前記辞書検索手段により検索できなかった文字列が、分
    割可能な所定の記号を含むか否かを判定する判定手段
    と、 前記判定手段により分割可能な所定の記号を含むと判定
    されたとき前記スペース分割手段により分割された文字
    列を再分割する再分割手段と、 前記再分割された文字列を前記辞書検索手段により辞書
    検索する部分辞書検索手段とを備えたことを特徴とする
    言語解析装置。
  2. 【請求項2】 前記辞書検索手段による辞書検索ができ
    ない文字列であって、 前記判定手段により前記単語辞
    書中に分割可能な所定の記号を含むと判定され、 かつ当該記号がその文字列の末尾に位置するピリオド、
    エクスクラメーションマーク、クエスチョンマークであ
    るとき、その記号位置が文末尾と判定する末尾判定手段
    を備えた言語解析装置。
  3. 【請求項3】 言語解析装置のための言語解析プログラ
    ムを記録した記録媒体であって、 コンピュータに、 文章を入力する入力の手順と、 その入力の手順により入力された文章を記憶する記憶の
    手順と、 その記憶の手順で記憶された文章をスペース部分で区切
    り、所定の文字列に分割するスペース分割の手順と、 前記スペース分割の手順により分割されたそれぞれの文
    字列を、省略形を含む単語及びそれらの品詞等の情報を
    記憶した単語辞書を参照して辞書検索する辞書検索の手
    順と、 前記辞書検索の手順により検索できなかった文字列が、
    分割可能な所定の記号を含むか否かを判定する判定の手
    順と、 前記判定の手順により分割可能な所定の記号を含むと判
    定されたとき前記スペース分割の手順により分割された
    文字列を再分割する再分割の手順と、 前記再分割された文字列を前記辞書検索の手順により辞
    書検索する部分辞書検索の手順とを実行させるためのプ
    ログラムを備えたことを特徴とする言語解析プログラム
    を記録したコンピュータ読み取り可能な記録媒体。
  4. 【請求項4】 前記コンピュータに、 前記辞書検索の手順による辞書検索ができない文字列で
    あって、 前記判定の手順により前記単語辞書中に分割可能な所定
    の記号を含むと判定され、 かつ当該記号がその文字列の末尾に位置するピリオド、
    エクスクラメーションマーク、クエスチョンマークであ
    るとき、その記号位置が文末尾と判定する末尾判定の手
    順を実行させるプログラムを更に備えたことを特徴とす
    る請求項3に記載の言語解析プログラムを記録したコン
    ピュータ読み取り可能な記録媒体。
JP10103923A 1998-03-30 1998-03-30 言語解析装置および言語解析プログラムを記録したコンピュータ読み取り可能な記録媒体 Pending JPH11282841A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10103923A JPH11282841A (ja) 1998-03-30 1998-03-30 言語解析装置および言語解析プログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10103923A JPH11282841A (ja) 1998-03-30 1998-03-30 言語解析装置および言語解析プログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JPH11282841A true JPH11282841A (ja) 1999-10-15

Family

ID=14366957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10103923A Pending JPH11282841A (ja) 1998-03-30 1998-03-30 言語解析装置および言語解析プログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JPH11282841A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257189A (ja) * 2006-03-22 2007-10-04 Casio Comput Co Ltd 辞書検索装置及びその制御プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257189A (ja) * 2006-03-22 2007-10-04 Casio Comput Co Ltd 辞書検索装置及びその制御プログラム

Similar Documents

Publication Publication Date Title
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
US11568150B2 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space
JPS6359660A (ja) 情報処理装置
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
JP7102710B2 (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
JPH11282841A (ja) 言語解析装置および言語解析プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0619962A (ja) テキスト分割装置
JP2004265440A (ja) 未知語登録装置および方法並びに記録媒体
JP2000331023A (ja) 情報検索装置及び情報検索処理プログラムを記憶した記憶媒体
JPH0750486B2 (ja) キ−ワ−ド抽出装置
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム
JP5047209B2 (ja) 変換区切り位置に基づいて誤変換を指摘する誤変換指摘装置及びその方法
KR101663521B1 (ko) 띄어쓰기 교정 방법 및 프로그램
JP2838850B2 (ja) 仮名漢字変換装置
KR101629726B1 (ko) 띄어쓰기 교정 방법 및 프로그램
JP2023146547A (ja) 抽出プログラム、装置、及び方法
JPH11282842A (ja) 日本語解析装置および日本語解析プログラムを記録したコンピュータ読み取り可能な記録媒体
JP5159657B2 (ja) 複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法
JP5937496B2 (ja) 読み仮名誤り検出装置、方法並びにプログラム
JPH0612417A (ja) 符号変換方式
JPH05108703A (ja) 機械翻訳機
JP2001306562A (ja) 機械翻訳装置、その辞書データ改良方法および記録媒体
JPS6029823A (ja) 適応型記号列変換方式
JPH04278664A (ja) 住所解析処理装置
JPS63103393A (ja) 単語認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060307

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060704