JP4061001B2 - 機械翻訳装置 - Google Patents

機械翻訳装置 Download PDF

Info

Publication number
JP4061001B2
JP4061001B2 JP34439099A JP34439099A JP4061001B2 JP 4061001 B2 JP4061001 B2 JP 4061001B2 JP 34439099 A JP34439099 A JP 34439099A JP 34439099 A JP34439099 A JP 34439099A JP 4061001 B2 JP4061001 B2 JP 4061001B2
Authority
JP
Japan
Prior art keywords
morpheme
dictionary
word
mode
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP34439099A
Other languages
English (en)
Other versions
JP2001160049A (ja
Inventor
毅 九津見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP34439099A priority Critical patent/JP4061001B2/ja
Publication of JP2001160049A publication Critical patent/JP2001160049A/ja
Application granted granted Critical
Publication of JP4061001B2 publication Critical patent/JP4061001B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、自動的に辞書引きモードを切り換えることが可能な機械翻訳装置に関する。
【0002】
【従来の技術】
従来、機械翻訳装置として、キーボード等の入力手段から入力されたソース言語を制御手段の制御によって翻訳モジュールに入力し、この翻訳モジュールによって、記憶手段に記憶されている辞書,文法規則および木構造変換規則を用いて上記ソース言語をターゲット言語に翻訳するものがある。
【0003】
上述のような機械翻訳装置の上記翻訳モジュールにおいては、例えば英語を日本語へ翻訳する場合には、先ず、入力英文が単語に分割され、各単語に対する訳語および訳語の品詞等の文法情報が得られる。このような処理は記憶手段に記憶された辞書を引くことによって行われる。
【0004】
上記辞書には、英語単語の見出し,英語単語の品詞,英語単語の文法情報,英語単語の訳語,訳語の品詞および訳語の文法情報等が登録されている。その際に、英語単語の見出しは、通常総て小文字によって登録される。ところが、入力英文においては、通常、文頭に位置する文頭単語の先頭文字は大文字で記述されている。そのために、そのまま辞書引きを行ったのでは文頭単語は辞書に登録されていないと判断されてしまう。そこで、文頭単語に関して辞書を引く場合には、先頭文字が大文字の場合には小文字に変換した後に辞書を引くようにしている。以下、このような辞書引きのモードを標準モードと言う。
【0005】
一方、論文の表題のように文中における大半の単語の先頭文字が大文字である場合や、テレックス文のように大文字ばかりで印字された特殊文の場合には、先頭単語以外の単語にも大文字が存在するので上述のような標準モードでは対処できない。そこで、先頭単語以外の大文字を含む単語を有する文章の場合には、すべての大文字を小文字に変換した後に辞書を引くようにしている。以下、このような辞書引きのモードを大文字モードと言う。
【0006】
但し、例えば、固有名詞扱いされる普通名詞等は、文頭単語以外でも大文字を用いて記載されることが多い。このような場合には、上記辞書引きモードが標準モードの状態であると、文頭以外に現れた大文字を含む単語は辞書に未登録の単語であると見なされて、アルファベットのまま翻訳文中に記述されてしまう。一方、上記辞書引きモードが大文字モードの状態であると、人名や固有名詞における先頭大文字が小文字に変換される。そして、先頭大文字が小文字に変換された人名や固有名詞に相当する単語がたまたま上記辞書に登録されている場合には、その登録単語に基づいて誤った日本語に翻訳されてしまう。
【0007】
このような問題を解決するために、従来より、以下のような機械翻訳装置が提案されている。例えば、特開平03‐216760号公報に開示されている機械翻訳装置では、入力文に応じて辞書引きモードを自動的に設定する機能を備えている。すなわち、この機械翻訳装置においては、形態素解析手段の中に、原文中における総ての単語の文字列中に大文字が存在するか否かを判定する文字判定手段と、上記文字判定手段によって総ての単語の文字列中に大文字が存在することはないと判定された場合に大文字がある単語の割合を算出する割合算出手段と、上記文字判定手段による判定結果および上記割合算出手段による割合値に応じて自動的に辞書引きモードを標準モードと大文字モードとに切り替え設定する辞書引きモード設定手段を有している。
【0008】
そして、翻訳の際に、上記形態素解析部によって辞書引きを行う際に、上記割合算出手段と上記辞書引きモード設定手段の働きによって、上記割合値が所定値(例えば50%)以上の場合には、自動的に辞書引きモードを大文字モードに設定して辞書引きを行うのである。その結果、論文の表題のように入力テキストにおける過半数の単語の先頭文字が大文字である場合には、大文字モードで辞書引きが行われる。したがって、文頭以外の箇所に現れる大文字を有する単語であっても、その大文字を小文字に変えた単語が辞書に登録されていれば形態素解析が行われることになる。一方、入力テキストにおける過半数の単語の先頭文字が小文字である場合には標準モードで辞書引きが行われる。したがって、文中の一部に現れる先頭文字が大文字の人名や固有名詞が、誤って普通名詞のように翻訳されてしまうことを防止できるのである。
【0009】
【発明が解決しようとする課題】
しかしながら、上記特開平03‐216760号公報に開示されている従来の機械翻訳装置においては、以下のような問題がある。すなわち、実際の英語の文章には、過半数の単語の先頭文字が小文字であるような文であっても、文頭以外の単語の先頭文字が大文字であり、且つ、その単語が必ずしも人名や固有名詞でないような文が存在する。そのために、上記機械翻訳装置を用いて、以下に示すような幾つかの英語文の翻訳を実行すると、必ずしも所望通りの翻訳結果が得られずに、翻訳文中にアルファベットのまま記述されるべきではない単語がアルファベットのまま訳出される場合がある。
【0010】
(例1)
入力文 :She answered an advertisement in The Tokyo Times.
翻訳結果:彼女は、Theトウキョウ・タイムズの広告に応募した。
【0011】
この例においては、「Tokyo Times」という固有名詞が存在するとして、この固有名詞が実際の英語文中において「Tokyo Times」,「the Tokyo Times」,「The Tokyo Times」等の幾通りかの表記が存在する場合を考える。そして、それらの表記のうち「Tokyo Times」のみが辞書に登録されている場合には、入力文の辞書引きモードは標準モードとなるから、入力文中の「The」の先頭文字は大文字のまま辞書引きが行われて辞書に登録されていないと見なされる。そして、翻訳結果に示すように、人名でも固有名詞でもない「The」が翻訳文中にアルファベットのまま出力されてしまうことなる。
【0012】
もし、辞書登録によって上述の問題を解決する場合には、「Tokyo Times」,「the Tokyo Times」,「The Tokyo Times」等の見出しを総て辞書に登録しなければならず、辞書作成作業の負担が増してしまうと言う問題がある。
【0013】
(例2)
入力文 :He says,“The computers will be able to be linked to
networks."
翻訳結果:彼は、「Theコンピュータは、ネットワークと連結されることが できるであろう」と言った。
【0014】
この例においては、入力文中に引用箇所があり、引用箇所の内部がひとつの文となっているため、引用箇所における最初の単語の先頭文字が大文字になっている。しかしながら、この単語「The」は入力文全体の先頭単語とは見なされず、先頭以外の単語と見なされることになる。入力文の辞書引きモードは標準モードとなるから、入力文中の「The」は辞書に登録されていないと見なされて、人名でも固有名詞でもない「The」が翻訳文中にアルファベットのまま出力されてしまうことなる。
【0015】
(例3)
入力文 :We do NOT see anything about it.
この例においては、入力文中の単語「NOT」は、強調のために総て大文字で記述されている。英語文においてこのような表現は実際によく用いられるが、この入力文の場合の辞書引きモードは標準モードとなるから、入力文中の「NOT」は辞書に登録されていないと見なされる。その結果、当該入力文は英語として正しくないと見なされて、構文解析が不能になる場合もある。
【0016】
そこで、この発明の目的は、単語単位で辞書引きモードを設定することによって、訳出されるべき単語がソース言語のまま翻訳文中に出現することを防止できる機械翻訳装置を提供することにある。
【0017】
【課題を解決するための手段】
上記目的を達成するため、この発明は、
辞書を引いてソース言語による原文を形態素に分割し、得られた形態素の解析を行う形態素解析手段を有する機械翻訳装置において、
上記形態素解析手段は、
上記原文における2番目以降の形態素において、先頭文字が大文字である形態素の割合に基づき、文全体の辞書引きモードを、文頭形態素の先頭文字を小文字に変換して辞書引きを行う標準モードあるいは総ての大文字を小文字に変換して辞書引きを行う大文字モードの何れかに自動的に切り替え設定する辞書引きモード設定手段と、
辞書引きすべき形態素の特徴が、当該形態素の先頭文字が大文字であるか否かを判定する形態素特徴判定手段と、
上記形態素特徴判定手段の判定結果に基づいて、上記辞書引きすべき形態素独自の局所的辞書引きモードを上記標準モードあるいは大文字モードの何れかに設定する局所辞書引きモード設定手段
を備えて、
上記局所的辞書引きモードが設定された場合には、文全体の辞書引きモードに拘わらず、当該辞書引きすべき形態素の辞書引きを上記局所的辞書引きモードで行う
ことを特徴としている。
【0018】
上記構成によれば、形態素特徴判定手段によって辞書引きすべき当該形態素の特徴が当該形態素の先頭文字が大文字であることを満たすと判定された場合には、局所辞書引きモード設定手段によって当該形態素独自の局所的辞書引きモードが設定される。そして、形態素解析手段によって、当該形態素の辞書引きが、辞書引きモード設定手段で設定された文全体の辞書引きモードに拘わらず上記局所的辞書引きモードで行われる。
【0019】
その結果、文全体の辞書引きモードが標準モードであるにも拘わらず、固有名詞の直前や引用個所の先頭に付けられた先頭文字が大文字の「The」あるいは強調のために総て大文字で記述された「NOT」を、大文字モードで辞書引きすることが可能になる。したがって、これらの大文字を含む単語が辞書にないために原語のまま訳出されることがなくなる。
【0020】
また、この発明の機械翻訳装置は、
上記形態素特徴判定手段は、
上記辞書引きすべき形態素の特徴が、先頭文字が大文字であるという第1条件、または、先頭文字は大文字であって且つ総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致するという第2条件、または、先頭文字は大文字であって且つ総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致するという第3条件、または、総ての文字は大文字であって且つ総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致するという第4条件、または、総ての文字は大文字であって且つ総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致するという第5条件の何れか一つの条件を満たすか否かを判定する
ことが望ましい。
【0021】
上記構成によれば、形態素特徴判定手段によって、辞書引きすべき当該形態素の特徴が上記第1条件〜上記第5条件の何れか1つの条件を満たすと判定された場合には、上記局所辞書引きモード設定手段によって当該形態素独自の局所的辞書引きモードが設定される。こうして、固有名詞の直前や引用個所の先頭に付けられた先頭文字が大文字の「The」あるいは強調するための大文字の「NOT」がより正確に検索される。
【0022】
例えば、当該辞書引きすべき形態素に関する上記条件を、総ての文字は大文字であって、且つ、総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致するという上記第4条件とすれば、上記予め定められた所定の見出しとして、強調のために総て大文字で記述されることが多い単語「NOT」の総ての文字を小文字に変換した文字列「not」を登録しておけば、原文中において辞書引きすべき当該形態素は総て大文字であって、当該形態素の総ての文字を小文字に変換して成る文字列が上記予め定められた所定の見出し「not」に合致すれば、当該形態素である単語「NOT」の局所的辞書引きが「大文字モード」で行われる。
【0023】
さらに、当該辞書引きすべき形態素に関する上記条件を、総ての文字は大文字であり、且つ、総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致するという上記第5条件とすれば、上記予め定められた所定の品詞として、強調のために総て大文字で記述されることが多い単語「NOT」の品詞「副詞」を登録しておけば、原文中において辞書引きすべき当該形態素は総て大文字であって、当該形態素の総ての文字を小文字に変換して辞書引きして得られた品詞が上記予め定められた所定の品詞「副詞」に合致すれば、当該形態素である単語「NOT」の局所的辞書引きが「大文字モード」で行われる。
【0024】
また、この発明の機械翻訳装置は、
上記形態素特徴判定手段は、上記第2条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致するという第6条件を満たすか否かをも判定するようになっている
ことが望ましい。
【0025】
上記構成によれば、上記予め定められた所定の見出しとして、固有名詞の前に付けられることが多い単語「The」の総ての文字を小文字に変換した文字列「the」を登録しておけば、原文中において辞書引きすべき当該形態素に続く連接形態素列「Tokyo Times」が辞書見出しに合致し、当該形態素の総ての文字を小文字に変換して成る文字列が上記予め定められた所定の見出し「the」に合致すれば、当該形態素である単語「The」の局所的辞書引きが「大文字モード」で行われる。
【0026】
また、この発明の機械翻訳装置は、
上記形態素特徴判定手段は、上記第3条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致するという第7条件を満たすか否かをも判定するようになっている
ことが望ましい。
【0027】
上記構成によれば、上記予め定められた所定の品詞として、固有名詞の直前に付けられることが多い単語「The」の品詞「冠詞」を登録しておけば、原文中において辞書引きすべき当該形態素に続く連接形態素列「Tokyo Times」が辞書見出しに合致し、当該形態素における総ての文字を小文字に変換して辞書引きして得られた品詞が上記予め定められた所定の品詞「冠詞」に合致すれば、当該形態素である単語「The」の局所的辞書引きが「大文字モード」で行われる。
【0028】
また、この発明の機械翻訳装置は、
上記形態素特徴判定手段は、上記第1条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素の直前の形態素は引用符号であるという第8条件を満たすか否かをも判定するようになっている
ことが望ましい。
【0029】
上記構成によれば、原文中において辞書引きすべき当該形態素の先頭文字が大文字であり、直前の形態素が引用符号である場合には、上記引用符号の次に位置する当該形態素である先頭文字が大文字である単語「The」の局所的辞書引きが「大文字モード」で行われる。
【0030】
また、この発明の機械翻訳装置は、
上記形態素特徴判定手段は、上記第2条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素の直前の形態素は引用符号であるという第9条件を満たすか否かをも判定するようになっている
ことが望ましい。
【0031】
上記構成によれば、上記予め定められた所定の見出しとして、引用個所の先頭に付けられることが多い単語「The」の総ての文字を小文字に変換して成る文字列「the」を登録しておけば、原文中において辞書引きすべき当該形態素の直前の形態素が引用符号であって、当該形態素の総ての文字を小文字に変換して成る文字列が上記予め定められた所定の見出し「the」に合致すれば、上記引用符号の次の当該形態素である単語「The」の局所的辞書引きが「大文字モード」で行われる。
【0032】
また、この発明の機械翻訳装置は、
上記形態素特徴判定手段は、上記第3条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素の直前の形態素は引用符号であるという第10条件を満たすか否かをも判定するようになっている
ことが望ましい。
【0033】
上記構成によれば、上記予め定められた所定の品詞として、引用個所の先頭に付けられることが多い単語「The」の品詞「冠詞」を登録しておけば、原文中において辞書引きすべき当該形態素の直前の形態素が引用符号であり、当該形態素の総ての文字を小文字に変換して辞書引きして得られた品詞が上記予め定められた所定の品詞「冠詞」に合致すれば、上記引用符号の次の当該形態素である単語「The」の局所的辞書引きが「大文字モード」で行われる
【0034】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。図1は、本実施の形態の機械翻訳装置におけるブロック図である。尚、本機械翻訳装置は、ソース言語は英語であり、ターゲット言語は日本語である。
【0035】
図1において、動作制御手段1は、実際の機器構成においては主としてCPU(中央演算処理装置)で実現される。入力手段2は、実際の機器構成においてはキーボード,マウス,ペン,タブレット,スキャナ,文字認識装置等の入力装置や、通信回線と接続されている通信装置で実現される。出力手段3は、実際の機器構成においてはCRT(陰極線管),LCD(液晶表示装置)等の表示装置や、プリンタ等の印字装置や、通信回線と接続されている通信装置で実現される。
【0036】
翻訳プログラムモジュール4は、実際の機器構成においてはROM(リード・オンリ・メモリ)に格納される。記憶手段5は、翻訳用の辞書,文法規則,その他の翻訳規則等のデータおよび特殊処理見出しリスト,特殊処理品詞リストを格納しており、実際の機器構成においては上記ROMやRAM(ランダム・アクセス・メモリ)で実現される。動作用メインメモリ6は、実際の機器構成においては上記RAMで実現される。7はバスラインである。
【0037】
機械翻訳処理方式の1つとして、構文トランスファー方式がある。これは、入力されたソース言語の文に対して、辞書引き,形態素解析,構文解析…と、解析を進めてソース言語の構文構造を得、次に、この構文構造をターゲット言語の構文構造に変換し、ターゲット言語を生成する方式である。図2は、構文トランスファー方式による機械翻訳処理のフローチャートである。以下、図2におけるステップS1で行われる辞書引き・形態素解析と、ステップS2において行われる構文解析について説明する。
【0038】
(1) 辞書引き・形態素解析
図1に示す記憶手段5の辞書を引き、入力された文章を各形態素列(単語列)に分割する。そして、この各単語に対する品詞等の文法情報および訳語を得、さらに、時制,人称,数等を解析する。
(2) 構文解析
単語間の係り受け等の文章の構造(構造解析木)を決定する。
【0039】
上述のような構文トランスファー方式による機械翻訳処理を実現するために、翻訳プログラムモジュール4は、図1に示すように、形態素解析手段4a,構文解析手段4b,構文変換手段4cおよびターゲット言語生成手段4dを有している。ここで、形態素解析手段4aによって、図2におけるステップS1の辞書引き・形態素解析が実行される。また、構文解析手段4bによって、図2におけるステップS2の構文解析が実行される。また、構文変換手段4cおよびターゲット言語生成手段4dによって、図2におけるステップS3の木変換,ステップS4の格解析・訳語選択,ステップS5の日本語生成が実行されるのである。
【0040】
さらに、上記形態素解析手段4aは、文字列中に大文字があるか否かを判定する文字判定手段4e、大文字がある単語の割合を判定する割合算出手段4f、辞書引きモード設定手段4g、形態素特徴判定手段4hを有している。
【0041】
また、上記動作用メインメモリ6の一部は、翻訳動作の進行に応じて、原文バッファ6a,辞書引きバッファ6b,変換前の構文バッファ6c,変換後の構文バッファ6d,訳文バッファ6e,辞書引きモードフラグバッファ6fおよび大文字フラグバッファ6gに割り当てられる。
【0042】
上記構成を有する機械翻訳装置は次のように動作する。図3は、動作制御手段1の制御の下に、形態素解析手段4aによって実行される辞書引き・形態素解析処理動作のフローチャートである。以下、図3に従って、辞書引き・形態素解析処理動作の全般について説明する。
【0043】
上記入力手段2によって入力された原文が原文バッファ6aに格納され、原文が各単語に分割されて全文の単語数が求められると、辞書引き・形態素解析処理がスタートする。
【0044】
ステップS11で、上記文字判定手段4e,割合算出手段4fおよび辞書引きモード設定手段4gによって、辞書引きモード判定が行われる。そして、判定された辞書引きモードを表わす値(フラグ)が辞書引きモードフラグバッファ6fに格納される。ステップS12で、単語位置変数nに初期値「1」がセットされる。ステップS13で、2番目以降におけるn番目の単語の先頭文字が、大文字であるか否かが判別される。その結果、大文字であればステップS14に進み、大文字でなければステップS18に進む。
【0045】
ステップS14で、上記形態素特徴判定手段4hによって、n番目の単語に関して特徴判定が行われる。ステップS15で、上記ステップS14における判定結果に基づいて、n番目の単語を大文字モードで辞書引きするか否かが判別される。その結果、大文字モードで辞書引きする場合はステップS16に進み、そうでなければステップS17に進む。ステップS16で、n番日の単語が大文字モードで辞書引きされて、得られた辞書データが辞書引きバッファ6bに格納される。そうした後に、ステップS19に進む。ステップS17で、n番目の単語が標準モードで辞書引きされて、得られた辞書データが辞書引きバッファ6bに格納される。そうした後、ステップS19に進む。ステップS18で、n番目の単語が、辞書引きモードフラグバッファ6fの内容に応じた辞書引きモードで辞書引きされる。そして、得られた辞書データが辞書引きバッファ6bに格納される。
【0046】
ステップS19で、上記単語位置変数nが全文単語数よりも小さいか否かが判別される。その結果、小さい場合にはステップS20に進み、そうでなければ辞書引き・形態素解析処理を終了する。ステップS20で、単語位置変数nの内容がインクリメントされる。そうした後に、上記ステップS13に戻って次の単語の処理に移行する。そして、上記ステップS19において、n≧全文単語数であると判別されると辞書引き・形態素解析処理を終了する。こうして、辞書引き・形態素解析処理が終了すると、以後は、上記構文解析処理に移行する。
【0047】
このように、本実施の形態においては、上記ステップS11において入力文全体の辞書引きモードを判定することに加えて、ステップS14において行った先頭文字が大文字である単語の特徴判定結果に基づいて、ステップS16,ステップS17において当該単語独自の辞書引きモードで辞書引きを行うようにしている。したがって、入力文中に、先頭単語以外に、固有名詞の前にある「The」や引用箇所の最初の単語「The」や強調の単語「NOT」のような大文字を含む単語が存在しても、その単語独自の辞書引きモードに基づいて当該単語の辞書引きが行われる。こうして、先頭単語以外に大文字を含む単語が存在する場合に、その単語が訳出されずに英語のまま出力されるのを防止するのである。
【0048】
次に、上記辞書引き・形態素解析処理動作の上記ステップS11において実行される辞書引きモード判定処理について、図4のフローチャートに基づいて詳細に説明する。尚、大文字が存在する単語の割合が50%以上である場合に大文字モードであると判定するように判定の閾値が定められているものとする。
【0049】
英語による入力文
She answered an advertisement in The Tokyo Times.
が各単語に分割されて全文の単語数が求められると、辞書引きモード判定処理動作がスタートする。
【0050】
ステップS21で、上記文字判定手段4eによって、各単語の先頭文字が大文字であるか否かが判別される。尚、上記例文の場合の判別結果は、1,6,7,8番目の単語の先頭文字が「大文字」であると判定される。ステップS22で、上記ステップS21による判定結果に基づいて、総ての単語の先頭文字が大文字であるか否かが判定される。その結果、大文字である場合にはステップS25に進み、そうでなければステップS23に進む。上記例文の場合には先頭文字が小文字である単語も存在するのでステップS23に進むことになる。
【0051】
ステップS23で、上記割合算出手段4fによって、2番目以降の各単語の先頭文字が大文字である割合が算出される。上記例文の場合には、2番目以降の7個の単語のうち先頭文字が大文字である単語が3個であるので、先頭文字が大文字である割合は約42.9%(3/7)となる。ステップS24で、上記ステップS23による算出結果に基づいて、先頭文字が大文字である割合は50%以上であるか否かが判別される。その結果、50%以上であればステップS25に進み、そうでなければステップS26に進む。上記例文の場合には約42.9%であるからステップS26に進むことになる。
【0052】
ステップS25で、上記辞書引きモード設定手段4gによって、辞書引きモードフラグバッファ6fに「大文字モード」を表わす情報(フラグ)が格納される。こうして、入力文全体としての辞書引きモードが大文字モードと設定された後、辞書引きモード判定処理動作を終了する。そして、上記辞書引き・形態素解析処理動作におけるステップS12にリターンする。ステップS26で、辞書引きモード設定手段4gによって、辞書引きモードフラグバッファ6fに、「標準モード」を表わす情報(フラグ)が格納される。こうして、入力文全体としての辞書引きモードが標準モードと設定された後に、辞書引きモード判定処理動作を終了する。そして、上記辞書引き・形態素解析処理動作におけるステップS12にリターンする。
【0053】
以下、上記辞書引き・形態素解析処理動作のステップS14において実行される「n番目の単語に関する特徴判定処理」について、各実施例に従って説明する。
【0054】
<第1実施例>
本実施例においては、英語による入力文
She answered an advertisement in The Tokyo Times.
が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。
【0055】
上記例文は、先頭単語を除いた単語数は7個であり、そのうち先頭文字が大文字の単語は3個である。したがって、上記辞書引きモード判定処理によって、先頭文字が大文字である割合は3/7(約42.9%)であり、50%より低いので入力文全体としての辞書引きモードが標準モードに設定されている。
【0056】
図5は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。以下、上記例文中6番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。上記辞書引き・形態素解析処理動作の上記ステップS13において、6番目の単語「The」の先頭文字が大文字であると判定されると、特徴判定処理動作がスタートする。
【0057】
ステップS31で、n番目にある単語がそのままの形で辞書見出しに合致するか否かが判別される。その結果、合致する場合にはステップS35に進み、合致しない場合にはステップS32に進む。本例の場合には、「The」はそのままの形では辞書見出しに合致しないのでステップS32に進むことになる。ステップS32で、当該単語の先頭文字以外に大文字があるか否かが判別される。その結果、あればステップS35に進み、なければステップS33に進む。本例の場合には、上記文字列「The」における先頭文字以外に大文字は存在しないのでステップS33に進むことになる。
【0058】
ステップS33で、当該単語の単語位置変数nが「全文単語数−2」以下であり、且つ、(n+1)番目の単語の先頭文字が大文字であり、且つ、(n+1)番目の単語以降にある合計2個以上の連接単語列がそのまま辞書見出しに合致するという判定条件を満たすか否かが判別される。その結果、満たす場合にはステップS34に進み、満たさない場合にはステップS35に進む。本例の場合には、単語「The」の単語位置(n=6)は全文単語数(8)より2以上少なく、次の単語「Tokyo」の先頭文字は大文字である。また、次の単語以降の単語列「Tokyo Times」がそのまま熟語として辞書見出しに存在するとする。そうすると、上記判定条件を満たすのでステップS34に進むことになる。
【0059】
ステップS34で、当該単語の先頭文字を小文字に変換した文字列が、記憶手段5の特殊処理見出しリスト中に存在するか否かが判別される。その結果、存在する場合にはステップS36に進み、存在しない場合にはステップS35に進む。この場合、記憶手段5には、図6に示すような特殊処理見出しリストが格納されているものとする。本例の場合には、単語「The」の先頭文字を小文字に変換した文字列「the」が特殊処理見出しリストに存在するので、ステップS36に進むことになる。
【0060】
ステップS35で、上記大文字フラグバッファ6gに「0」が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップS15にリターンする。ステップS36で、大文字フラグバッファ6gに「1」が格納される。そうした後、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップS15にリターンする。
【0061】
本例の場合には、上記ステップS36において大文字フラグバッファ6gに「1」が格納されることになる。したがって、上記辞書引き・形態素解析処理動作の上記ステップS15において「大文字モードで辞書引きするか否か」の判別を行う場合には、大文字フラグバッファ6gの内容に基づいて、「大文字モード」で辞書引きを行うと判別されるのである。こうすることによって、上述したように入力文全体としての辞書引きモードが辞書引きモードフラグバッファ6fに「標準モード」と設定されているにも拘わらず、6番目の単語「The」は大文字モードとして辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ6bの内容は、図7に示すように、6番目の単語「The」の「局所的大文字モード」フィールドにフラグ値が格納され、「the」として辞書引きされた結果がその他のフィールドに格納される。
【0062】
その結果、最終的に出力される翻訳結果は、
彼女は、トウキョウ・タイムズの広告に応募した。
となり、良好な翻訳結果を得ることができるのである。
【0063】
このように、本実施例においては、上記記憶手段5の特殊処理見出しリストとして、固有名詞の前に付けられることが多い「The」の先頭文字を小文字に変更した文字列「the」を登録しておく。そして、特徴判定処理時には、先頭文字が大文字である当該単語に続く単語の先頭文字が大文字であり、当該単語に続く単語以降にそのまま単語見出しに合致する2個以上の連接単語列(固有名詞)が存在する場合には、当該単語の先頭文字を小文字に変更した文字列が特殊処理見出しリストにあるか否かを調べる。そして、ある場合には当該単語は固有名詞の前に付けられた「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【0064】
したがって、本実施例によれば、固有名詞「Tokyo Times」の前に付けられた単語「The」が辞書にないために原語のまま訳出されることを、「the Tokyo Times」および「The Tokyo Times」の見出しを上記辞書に登録することなく、簡単に防止することができるのである。
【0065】
<第2実施例>
本実施例においては、第1実施例と同じ英語による入力文
She answered an advertisement in The Tokyo Times.
が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。尚、本実施例の場合にも、入力文全体としての辞書引きモードとして標準モードが設定される。
【0066】
図8は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。本実施例においても上記例文中6番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。
【0067】
ステップS41〜ステップS43で、第1実施例における特徴判定処理動作のフローチャート(図5)のステップS31〜ステップS33と同様にして、n番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、先頭文字以外に大文字が存在するか否かの判別、上記判定条件を満たすか否かの判別が行われる。その結果、上記6番目の単語「The」の場合はステップS44に進むことになる。
【0068】
ステップS44で、当該単語の先頭文字を小文字に変換した文字列の辞書引きを行う。そして、得られた当該単語の品詞が、記憶手段5の特殊処理品詞リスト中に存在するか否かが判別される。その結果、存在する場合にはステップS46に進み、存在しない場合にはステップS45に進む。この場合、記憶手段5には、図9に示すような特殊処理品詞リストが格納されているものとする。本例の場合においては、単語「The」の先頭文字を小文字に変換した文字列「the」を辞書引きして得られる品詞は「冠詞」であり、特殊処理品詞リストに存在するのでステップS46に進むことになる。
【0069】
ステップS45,ステップS46で、第1実施例における特徴判定処理動作のフローチャートのステップS35,ステップS36と同様にして、大文字フラグバッファ6gに上記ステップS44での判別結果にしたがって「0」(ステップS45)あるいは「1」(ステップS46)が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作のステップS15にリターンする。
【0070】
本例の場合は、上記ステップS46において大文字フラグバッファ6gに「1」が格納されることになる。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、6番目の単語「The」は大文字モードとして辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ6bの内容は、図7に示すようなる。
【0071】
その結果、最終的に出力される翻訳結果は、
彼女は、トウキョウ・タイムズの広告に応募した。
となり、良好な翻訳結果を得ることができるのである。
【0072】
このように、本実施例においては、上記記憶手段5の特殊処理品詞リストとして、固有名詞の前に付けられることが多い品詞「冠詞」を登録しておく。そして、特徴判定処理時には、先頭文字が大文字である当該単語に続く単語の先頭文字が大文字であり、当該単語に続く単語以降にそのまま単語見出しに合致する2個以上の連接単語列(固有名詞)が存在する場合には、当該単語の先頭文字を小文字に変更した文字列の品詞が特殊処理品詞リストにあるか否かを調べる。そして、ある場合には、当該単語は固有名詞の前に付けられた「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【0073】
したがって、本実施例によれば、固有名詞「Tokyo Times」の前に付けられた単語「The」が辞書にないために原語のまま訳出されることを、「the Tokyo Times」および「The Tokyo Times」の見出しを上記辞書に登録することなく、簡単に防止することができるのである。
【0074】
<第3実施例>
本実施例においては、英語による入力文
He says,“The computers will be able to be linked to networks."
が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。
【0075】
上記例文は、先頭単語を除いた単語数は13個(引用符を含む)であり、そのうち先頭文字が大文字の単語は1個である。したがって、上記辞書引きモード判定処理によって、先頭文字が大文字である割合は1/13(約7.7%)であり、50%より低いので入力文全体としての辞書引きモードが標準モードに設定されている。
【0076】
図10は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。以下、上記例文中5番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。上記辞書引き・形態素解析処理動作のステップS13において、5番目の単語「The」の先頭文字が大文字であると判定されると、特徴判定処理動作がスタートする。
【0077】
ステップS51,ステップS52で、第1実施例における特徴判定処理動作のフローチャート(図5)のステップS31,ステップS32と同様にして、n番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、先頭文字以外に大文字が存在するか否かの判別が行われる。その結果、上記5番目の単語「The」の場合はステップS53に進むことになる。
【0078】
ステップS53で、当該単語の単語位置変数nが1より大きく、且つ、(n−1)番目の単語は引用符号であるという判定条件を満たすか否かが判別される。その結果、満たす場合にはステップS55に進み、満たさない場合にはステップS54に進む。本例の場合には、単語「The」の単語位置(n=5)は1より大きく、直前の単語は「引用符号」であるから上記判定条件を満たし、ステップS55に進むことになる。
【0079】
ステップS54,ステップS55で、第1実施例における特徴判定処理動作のフローチャートのステップS35,ステップS36と同様にして、大文字フラグバッファ6gに上記ステップS53での判別結果にしたがって「0」(ステップS54)あるいは「1」(ステップS55)が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作のステップS15にリターンする。
【0080】
本例の場合は、上記ステップS55において大文字フラグバッファ6gに「1」が格納されることになる。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、5番目の単語「The」は大文字モードで辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ6bの内容は、図11に示すように、5番目の単語「The」の「局所的大文字モード」フィールドにフラグ値が格納され、「the」として辞書引きされた結果がその他のフィールドに格納される。
【0081】
その結果、最終的に出力される翻訳結果は、
彼は、「コンピュータは、ネットワークと連結されることができるであろう」と言った。
となり、良好な翻訳結果を得ることができるのである。
【0082】
このように、本実施例においては、上記特徴判定処理時に、先頭文字が大文字である当該単語は2番目以降の単語であり、当該単語の直前の単語が引用符号である場合には、当該単語は引用個所における最初の「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【0083】
したがって、本実施例によれば、入力文中の引用個所における最初にある単語「The」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。
【0084】
<第4実施例>
本実施例においては、第3実施例と同じ英語による入力文
He says,“The computers will be able to be linked to networks."
が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。尚、本実施例の場合にも、入力文全体としての辞書引きモードとして標準モードが設定される。
【0085】
図12は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。本実施例においても上記例文中5番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。
【0086】
ステップS61〜ステップS63で、第3実施例における特徴判定処理動作のフローチャート(図10)のステップS51〜ステップS53と同様にして、n番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、先頭文字以外に大文字が存在するか否かの判別、n>1且つ直前の単語は引用符号か否かの判別が行われる。その結果、上記5番目の単語「The」の場合はステップS64に進むことになる。
【0087】
ステップS64で、当該単語の先頭文字を小文字に変換した文字列が、記憶手段5の特殊処理見出しリスト中に存在するか否かが判別される。その結果、存在する場合にはステップS66に進み、存在しない場合にはステップS65に進む。この場合、記憶手段5には、図6に示すような特殊処理見出しリストが格納されているものとする。本例の場合には、単語「The」の先頭文字を小文字に変換した文字列「the」が特殊処理見出しリストに存在するので、ステップS66に進むことになる。
【0088】
ステップS65,ステップS66で、第1実施例における特徴判定処理動作のフローチャートのステップS35,ステップS36と同様にして、大文字フラグバッファ6gに上記ステップS64での判別結果にしたがって「0」(ステップS65)あるいは「1」(ステップS66)が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作のステップS15にリターンする。
【0089】
本例の場合は、上記ステップS66において大文字フラグバッファ6gに「1」が格納されることになる。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、5番目の単語「The」は大文字モードとして辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ6bの内容は、図11に示すようなる。
【0090】
その結果、最終的に出力される翻訳結果は、
彼は、「コンピュータは、ネットワークと連結されることができるであろう」と 言った。
となり、良好な翻訳結果を得ることができるのである。
【0091】
このように、本実施例においては、上記記憶手段5の特殊処理見出しリストとして、引用個所の最初にあることが多い「The」の先頭文字を小文字に変更した文字列「the」を登録しておく。そして、特徴判定処理時には、先頭文字が大文字である当該単語は2番目以降の単語であり、当該単語の直前の単語が引用符号である場合には、当該単語の先頭文字を小文字に変更した文字列が特殊処理見出しリストにあるか否かを調べる。そして、ある場合には当該単語は引用個所の最初にある「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【0092】
したがって、本実施例によれば、入力文中の引用個所における最初にある単語「The」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。
【0093】
<第5実施例>
本実施例においては、第3実施例および第4実施例と同じ英語による入力文
He says,“The computers will be able to be linked to networks."
が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。尚、本実施例の場合にも、入力文全体としての辞書引きモードとして標準モードが設定される。
【0094】
図13は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。本実施例においても上記例文中5番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。
【0095】
ステップS71〜ステップS73で、第3実施例における特徴判定処理動作のフローチャート(図10)のステップS51〜ステップS53と同様にして、n番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、先頭文字以外に大文字が存在するか否かの判別、n>1且つ直前の単語は引用符号か否かの判別が行われる。その結果、上記5番目の単語「The」の場合はステップS74に進むことになる。
【0096】
ステップS74で、当該単語の先頭文字を小文字に変換した文字列の辞書引きを行う。そして、得られた当該単語の品詞が、記憶手段5の特殊処理品詞リスト中に存在するか否かが判別される。その結果、存在する場合にはステップS76に進み、存在しない場合にはステップS75に進む。この場合、記憶手段5には、図9に示すような特殊処理品詞リストが格納されているものとする。本例の場合は、当該単語「The」の先頭文字を小文字に変換した文字列「the」を辞書引きして得られる品詞は「冠詞」であり、特殊処理品詞リストに存在するのでステップS76に進むことになる。
【0097】
ステップS75,ステップS76で、第1実施例における特徴判定処理動作のフローチャートのステップS35,ステップS36と同様にして、大文字フラグバッファ6gに上記ステップS74での判別結果にしたがって「0」(ステップS75)あるいは「1」(ステップS76)が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作のステップS15にリターンする。
【0098】
本例の場合は、上記ステップS76において大文字フラグバッファ6gに「1」が格納されることになる。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、5番目の単語「The」は大文字モードとして辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ6bの内容は、図11に示すようなる。
【0099】
その結果、最終的に出力される翻訳結果は、
彼は、「コンピュータは、ネットワークと連結されることができるであろう」と 言った。
となり、良好な翻訳結果を得ることができるのである。
【0100】
このように、本実施例においては、上記記憶手段5の特殊処理品詞リストとして、引用個所の最初にあることが多い品詞「冠詞」を登録しておく。そして、特徴判定処理時には、先頭文字が大文字である当該単語は2番目以降の単語であり、当該単語の直前の単語が引用符号である場合には、当該単語の先頭文字を小文字に変更した文字列の品詞が特殊処理品詞リストにあるか否かを調べる。そして、ある場合には当該単語は引用個所の最初にある「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【0101】
したがって、本実施例によれば、入力文中の引用個所における最初にある単語「The」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。
【0102】
<第6実施例>
本実施例においては、英語による入力文
We do NOT see anything about it.
が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。
【0103】
上記例文は、先頭単語を除いた単語数は6個であり、そのうち先頭文字が大文字の単語は1個である。したがって、上記辞書引きモード判定処理によって、先頭文字が大文字である割合は1/6(約16.7%)であり、50%より低いので入力文全体としての辞書引きモードが標準モードに設定されている。
【0104】
図14は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。以下、上記例文中3番目の単語「NOT」に関する特徴判定処理を例に特徴判定処理動作について説明する。上記辞書引き・形態素解析処理動作のステップS13において、3番目の単語「NOT」の先頭文字が大文字であると判定されると、特徴判定処理動作がスタートする。
【0105】
ステップS81で、n番目にある単語がそのままの形で辞書見出しに合致するか否かが判別される。その結果、合致する場合にはステップS85に進み、合致しない場合にはステップS82に進む。本例の場合は、「NOT」はそのままの形では辞書見出しに合致しないのでステップS82に進むことになる。ステップS82で、当該単語の文字は総て大文字であるか否かが判別される。その結果、総て大文字であればステップS83に進み、そうでなければステップS85に進む。本例の場合は、上記文字列「NOT」は総て大文字であるからステップS83に進むことになる。
【0106】
ステップS83で、当該単語の総ての文字を小文字に変換した文字列が、記憶手段5の特殊処理見出しリスト中に存在するか否かが判別される。その結果、存在する場合にはステップS84に進み、存在しない場合にはステップS85に進む。この場合、記憶手段5には、図6に示すような特殊処理見出しリストが格納されているものとする。本例の場合には、単語「NOT」の総ての文字を小文字に変換した文字列「not」が特殊処理見出しリストに存在するので、ステップS84に進むことになる。
【0107】
ステップS84で、当該単語の先頭文字以外の総ての文字を小文字に変換した文字列が、記憶手段5の特殊処理見出しリスト中に存在するか否かが判別される。その結果、存在する場合にはステップS85に進み、存在しない場合にはステップS86に進む。本例の場合においては、単語「NOT」の2文字以降の総ての文字を小文字に変換した文字列「Not」は特殊処理見出しリストに存在しないのでステップS86に進むことになる。
【0108】
ステップS85で、上記大文字フラグバッファ6gに「0」が格納される。そうした後、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップS15にリターンする。ステップS86で、大文字フラグバッファ6gに「1」が格納される。そうした後、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップS15にリターンする。
【0109】
本例の場合には、上記ステップS86において大文字フラグバッファ6gに「1」が格納される。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、3番目の単語「NOT」は大文字モードとして辞書引きされることになる。その結果、当該単語「NOT」は「not」として辞書引きされ、辞書引きバッファ6bの内容は、図15に示すように、3番目の単語「NOT」の「局所的大文字モード」フィールドにフラグ値が格納され、「not」として辞書引きされた結果がその他のフィールドに格納される。
【0110】
その結果、最終的に出力される翻訳結果は、
彼は、それについて何も見ない。
となり、良好な翻訳結果を得ることができるのである。
【0111】
このように、本実施例においては、上記記憶手段5の特殊処理見出しリストとして、強調のために総て大文字で記述されることが多い「NOT」の総ての文字を小文字に変更した文字列「not」を登録しておく。そして、特徴判定処理時には、当該単語は総て大文字である場合には、当該単語の総ての文字を小文字に変更した文字列が特殊処理見出しリストにあるか否かを調べる。そして、ある場合には当該単語は単語「not」を強調するための「NOT」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【0112】
したがって、本実施例によれば、強調するために総て大文字で記述された単語「NOT」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。
【0113】
<第7実施例>
本実施例においては、第6実施例と同じ英語による入力文
We do NOT see anything about it.
が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。尚、本実施例の場合にも、入力文全体としての辞書引きモードとして標準モードが設定される。
【0114】
図16は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。本実施例においても上記例文中3番目の単語「NOT」に関する特徴判定処理を例に特徴判定処理動作について説明する。
【0115】
ステップS91,ステップS92で、第6実施例における特徴判定処理動作のフローチャート(図14)のステップS81,ステップS82と同様にして、n番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、総て大文字か否かの判別が行われる。その結果、上記3番目の単語「NOT」の場合はステップS93に進むことになる。
【0116】
ステップS93で、当該単語の全文字を小文字に変換した文字列の辞書引きを行う。そして、得られた当該単語の品詞が記憶手段5の特殊処理品詞リスト中に存在するか否かが判別される。その結果、存在する場合にはステップS94に進み、存在しない場合にはステップS95に進む。この場合、記憶手段5には、図9に示すような特殊処理品詞リストが格納されているものとする。本例の場合は、単語「NOT」の総ての文字を小文字に変換した文字列「not」を辞書引きして得られる品詞は「副詞」であり、特殊処理品詞リストに存在するのでステップS94に進むことになる。
【0117】
ステップS94で、当該単語における先頭文字以外の総ての文字を小文字に変換した文字列の辞書引きを行う。その結果得られた当該単語の品詞が、記憶手段5の特殊処理品詞リスト中に存在するか否かが判別される。その結果、存在する場合にはステップS95に進み、存在しない場合にはステップS96に進む。本例の場合には、単語「NOT」の先頭文字以外の総ての文字を小文字に変換した文字列「Not」を辞書引きした結果見出しに無いので、ステップS96に進むことになる。
【0118】
ステップS95,ステップS96で、第6実施例における特徴判定処理動作のフローチャート(図14)のステップS85,ステップS86と同様にして、大文字フラグバッファ6gに上記ステップS94での判別結果にしたがって「0」(ステップS95)あるいは「1」(ステップS96)が格納される。そうした後、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップS15にリターンする。
【0119】
本例の場合は、上記ステップS96において大文字フラグバッファ6gに「1」が格納されることになる。したがって、上述のように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、3番目の単語「NOT」は大文字モードとして辞書引きされることになる。その結果、当該単語「NOT」は「not」として辞書引きされ、辞書引きバッファ6bの内容は、図15に示すようなる。
【0120】
その結果、最終的に出力される翻訳結果は、
彼は、それについて何も見ない。
となり、良好な翻訳結果を得ることができるのである。
【0121】
このように、本実施例においては、上記記憶手段5の特殊処理品詞リストとして、強調のために総て大文字で記述されることが多い単語「NOT」の品詞「副詞」を登録しておく。そして、特徴判定処理時には、当該単語は総て大文字である場合には、当該単語の総ての文字を小文字に変更した文字列の品詞が特殊処理冠詞リストにあるか否かを調べる。そして、ある場合には当該単語は強調のために総て大文字で記述された単語「NOT」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【0122】
したがって、本実施例によれば、強調するために総て大文字で記述された単語「NOT」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。
【0123】
【発明の効果】
以上より明らかなように、この発明の機械翻訳装置は、辞書引き・形態素解析を行うに際して、形態素特徴判定手段による辞書引きすべき当該形態素の特徴が当該形態素の先頭文字が大文字であるか否かの判定結果に基づいて、局所辞書引きモード設定手段によって当該形態素独自の局所的辞書引きモードを設定し、当該形態素の辞書引きは、辞書引きモード設定手段によって設定された文全体の辞書引きモードに拘わらず、上記局所的辞書引きモードで行うので、従来のごとく文全体の辞書引きモードのみで辞書引きを行う場合に比して、よりきめ細かな辞書引きモードの切り換えを行うことができる。
【0124】
したがって、ソース言語の文章中において幾通りかの表記法が存在しうる連語や強調語等に関して、その何れの表記法が用いられた場合であっても適切に辞書引きを行うことができ、より適切な訳文を得ることができる。その結果、上記幾通りかの表示方法の総てを辞書に登録しておく必要がなく、辞書データの作成手間を削減することができるのである。
【0125】
また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素の特徴が上記第1条件〜上記第5条件の何れか1つの条件を満たすか否かを判定するように成せば、辞書引きすべき当該形態素の特徴に基づいて、ソース言語の文章中において幾通りかの表記法が存在しうる連語や強調語等を、原文中からより正確に検出することができる。
【0126】
例えば、
(a)当該辞書引きすべき形態素に関する上記第4条件を
・総ての文字は大文字
・総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致する
とすれば、上記予め定められた所定の見出しとして文字列「not」を登録しておけば、強調のために総て大文字で記述された単語「NOT」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。
【0127】
さらに、
(a)当該辞書引きすべき形態素に関する上記第5条件を
・総ての文字は大文字
・総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致する
とすれば、上記予め定められた所定の品詞として品詞「副詞」を登録しておけば、強調のために総て大文字で記述された単語「NOT」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。
【0128】
また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素に隣接した形態素の特徴が特定条件を満たすか否かをも判定するように成すと共に、
(a)当該辞書引きすべき形態素に関する上記第2条件を、
・先頭文字は大文字
・総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致する
とし、
(b)上記隣接した形態素に関する第6条件を、
・当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致する
とすれば、例えば上記予め定められた所定の見出しとして文字列「the」を登録しておけば、固有名詞の前に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。
【0129】
また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素に隣接した形態素の特徴が特定条件を満たすか否かをも判定するように成すと共に、
(a)当該辞書引きすべき形態素に関する上記第3条件を、
・先頭文字は大文字
・総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致する
とし、
(b)上記隣接した形態素に関する第7条件を、
・当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致する
とすれば、例えば、上記予め定められた所定の品詞として品詞「冠詞」を登録しておけば、固有名詞の直前に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。
【0130】
また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素に隣接した形態素の特徴が特定条件を満たすか否かをも判定するように成すと共に、
(a)当該辞書引きすべき形態素に関する上記第1条件を、
・先頭文字は大文字
とし、
(b)上記隣接した形態素に関する第8条件を、
・当該辞書引きすべき形態素の直前の形態素は引用符号である
とすれば、例えば引用個所の先頭に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。
【0131】
また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素に隣接した形態素の特徴が特定条件を満たすか否かをも判定するように成すと共に、
(a)当該辞書引きすべき形態素に関する上記第2条件を、
・先頭文字は大文字
・総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致する
とし、
(b)上記隣接した形態素に関する第9条件を、
・当該辞書引きすべき形態素の直前の形態素は引用符号である
とすれば、例えば上記予め定められた所定の見出しとして文字列「the」を登録しておけば、引用個所の先頭に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。
【0132】
また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素に隣接した形態素の特徴が特定条件を満たすか否かをも判定するように成すと共に、
(a)当該辞書引きすべき形態素に関する上記第3条件を、
・先頭文字は大文字
・総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致する
とし、
(b)上記隣接した形態素に関する第10条件を、
・当該辞書引きすべき形態素の直前の形態素は引用符号である
とすれば、例えば、上記予め定められた所定の品詞として品詞「冠詞」を登録しておけば、引用個所の先頭に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる
【図面の簡単な説明】
【図1】 この発明の機械翻訳装置におけるブロック図である。
【図2】 構文トランスファー方式による機械翻訳処理のフローチャートである。
【図3】 図1における形態素解析手段によって実行される辞書引き・形態素解析処理動作のフローチャートである。
【図4】 図3に示す辞書引き・形態素解析処理において実行される辞書引きモード判定処理動作のフローチャートである。
【図5】 図3に示す辞書引き・形態素解析処理において実行される特徴判定処理動作のフローチャートである。
【図6】 図1における記憶手段に格納された特殊処理見出しリストの一例を示す図である。
【図7】 図5に示す特徴判定処理に基づく辞書引きの結果を示す辞書引きバッファの内容図である。
【図8】 図5とは異なる特徴判定処理動作のフローチャートである。
【図9】 図1における記憶手段に格納された特殊処理品詞リストの一例を示す図である。
【図10】 図5および図8とは異なる特徴判定処理動作のフローチャートである。
【図11】 図10に示す特徴判定処理に基づく辞書引きの結果を示す辞書引きバッファの内容図である。
【図12】 図5,図8および図10とは異なる特徴判定処理動作のフローチャートである。
【図13】 図5,図8,図10および図12とは異なる特徴判定処理動作のフローチャートである。
【図14】 図5,図8,図10,図12および図13とは異なる特徴判定処理動作のフローチャートである。
【図15】 図14に示す特徴判定処理に基づく辞書引きの結果を示す辞書引きバッファの内容図である。
【図16】 図5,図8,図10,図12,図13および図14とは異なる特徴判定処理動作のフローチャートである。
【符号の説明】
1…動作制御手段、
2…入力手段、 3…出力手段、
4…翻訳プログラムモジュール、 4a…形態素解析手段、
4b…構文解析手段、 4c…構文変換手段、
4d…ターゲット言語生成手段、 4e…文字判定手段、
4f…割合算出手段、 4g…辞書引きモード設定手段、
4h…形態素特徴判定手段、 5…記憶手段、
6…動作用メインメモリ、 6a…原文バッファ、
6b…辞書引きバッファ、 6c…変換前の構文バッファ、
6d…変換後の構文バッファ、 6e…訳文バッファ、
6f…辞書引きモードフラグバッファ、
6g…大文字フラグバッファ。

Claims (7)

  1. 辞書を引いてソース言語による原文を形態素に分割し、得られた形態素の解析を行う形態素解析手段を有する機械翻訳装置において、
    上記形態素解析手段は、
    上記原文における2番目以降の形態素において、先頭文字が大文字である形態素の割合に基づき、文全体の辞書引きモードを、文頭形態素の先頭文字を小文字に変換して辞書引きを行う標準モードあるいは総ての大文字を小文字に変換して辞書引きを行う大文字モードの何れかに自動的に切り替え設定する辞書引きモード設定手段と、
    辞書引きすべき形態素の特徴が、当該形態素の先頭文字が大文字であるか否かを判定する形態素特徴判定手段と、
    上記形態素特徴判定手段の判定結果に基づいて、上記辞書引きすべき形態素独自の局所的辞書引きモードを上記標準モードあるいは大文字モードの何れかに設定する局所辞書引きモード設定手段
    を備えて、
    上記局所的辞書引きモードが設定された場合には、文全体の辞書引きモードに拘わらず、当該辞書引きすべき形態素の辞書引きを上記局所的辞書引きモードで行う
    ことを特徴とする機械翻訳装置。
  2. 請求項1に記載の機械翻訳装置において、
    上記形態素特徴判定手段は、
    上記辞書引きすべき形態素の特徴が、先頭文字が大文字であるという第1条件、または、先頭文字は大文字であって且つ総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致するという第2条件、または、先頭文字は大文字であって且つ総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致するという第3条件、または、総ての文字は大文字であって且つ総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致するという第4条件、または、総ての文字は大文字であって且つ総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致するという第5条件の何れか一つの条件を満たすか否かを判定する
    ことを特徴とする機械翻訳装置。
  3. 請求項2に記載の機械翻訳装置において、
    上記形態素特徴判定手段は、上記第2条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致するという第6条件を満たすか否かをも判定するようになっている
    ことを特徴とする機械翻訳装置。
  4. 請求項2に記載の機械翻訳装置において、
    上記形態素特徴判定手段は、上記第3条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致するという第7条件を満たすか否かをも判定するようになっている
    ことを特徴とする機械翻訳装置。
  5. 請求項2に記載の機械翻訳装置において、
    上記形態素特徴判定手段は、上記第1条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素の直前の形態素は引用符号であるという第8条件を満たすか否かをも判定するようになっている
    ことを特徴とする機械翻訳装置。
  6. 請求項2に記載の機械翻訳装置において、
    上記形態素特徴判定手段は、上記第2条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素の直前の形態素は引用符号であるという第9条件を満たすか否かをも判定するようになっている
    ことを特徴とする機械翻訳装置。
  7. 請求項2に記載の機械翻訳装置において、
    上記形態素特徴判定手段は、上記第3条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素の直前の形態素は引用符号であるという第10条件を満たすか否かをも判定するようになっている
    ことを特徴とする機械翻訳装置。
JP34439099A 1999-12-03 1999-12-03 機械翻訳装置 Expired - Fee Related JP4061001B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP34439099A JP4061001B2 (ja) 1999-12-03 1999-12-03 機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34439099A JP4061001B2 (ja) 1999-12-03 1999-12-03 機械翻訳装置

Publications (2)

Publication Number Publication Date
JP2001160049A JP2001160049A (ja) 2001-06-12
JP4061001B2 true JP4061001B2 (ja) 2008-03-12

Family

ID=18368887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34439099A Expired - Fee Related JP4061001B2 (ja) 1999-12-03 1999-12-03 機械翻訳装置

Country Status (1)

Country Link
JP (1) JP4061001B2 (ja)

Also Published As

Publication number Publication date
JP2001160049A (ja) 2001-06-12

Similar Documents

Publication Publication Date Title
Buckwalter Issues in Arabic orthography and morphology analysis
US8726148B1 (en) Method and apparatus for processing text and character data
JP3277123B2 (ja) 中国語テキストを処理するためのシステムおよび方法
JPH0335354A (ja) 機械翻訳装置における略称付き固有名詞処理方法
JP2000200291A (ja) 選択された文字列をテキスト内で自動検出する方法
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JPH0344764A (ja) 機械翻訳装置
JP4061001B2 (ja) 機械翻訳装置
KR100631086B1 (ko) Xml을 이용한 텍스트 정규화 방법 및 장치
JP2621999B2 (ja) 文書処理装置
JP2655922B2 (ja) 機械翻訳装置
JP2915225B2 (ja) 文書作成装置
JP3353873B2 (ja) 機械翻訳装置
JP2000137713A (ja) 機械翻訳装置及び記録媒体
JP3253311B2 (ja) 言語処理装置および言語処理方法
JPH0350668A (ja) 文字処理装置
JPH1166068A (ja) 機械翻訳装置および機械翻訳方法ならびに機械翻訳プログラムを記録した記録媒体
Ojha Computing in Indian Languages for Knowledge Management: Technology Perspectives and Linguistic Issues
JP2005070873A (ja) 電子辞書
JP2004355248A (ja) 電子辞書
JPH01166258A (ja) 機械翻訳装置
JPH06332938A (ja) 自然言語解析装置および機械翻訳装置
JPH10269221A (ja) 未登録語処理方式
Nair Multilingual Computing for Indian Languages-An Overview

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071009

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101228

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111228

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees