JP4061001B2

JP4061001B2 - 機械翻訳装置

Info

Publication number: JP4061001B2
Application number: JP34439099A
Authority: JP
Inventors: 毅九津見
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1999-12-03
Filing date: 1999-12-03
Publication date: 2008-03-12
Anticipated expiration: 2019-12-03
Also published as: JP2001160049A

Description

【０００１】
【発明の属する技術分野】
この発明は、自動的に辞書引きモードを切り換えることが可能な機械翻訳装置に関する。
【０００２】
【従来の技術】
従来、機械翻訳装置として、キーボード等の入力手段から入力されたソース言語を制御手段の制御によって翻訳モジュールに入力し、この翻訳モジュールによって、記憶手段に記憶されている辞書,文法規則および木構造変換規則を用いて上記ソース言語をターゲット言語に翻訳するものがある。
【０００３】
上述のような機械翻訳装置の上記翻訳モジュールにおいては、例えば英語を日本語へ翻訳する場合には、先ず、入力英文が単語に分割され、各単語に対する訳語および訳語の品詞等の文法情報が得られる。このような処理は記憶手段に記憶された辞書を引くことによって行われる。
【０００４】
上記辞書には、英語単語の見出し,英語単語の品詞,英語単語の文法情報,英語単語の訳語,訳語の品詞および訳語の文法情報等が登録されている。その際に、英語単語の見出しは、通常総て小文字によって登録される。ところが、入力英文においては、通常、文頭に位置する文頭単語の先頭文字は大文字で記述されている。そのために、そのまま辞書引きを行ったのでは文頭単語は辞書に登録されていないと判断されてしまう。そこで、文頭単語に関して辞書を引く場合には、先頭文字が大文字の場合には小文字に変換した後に辞書を引くようにしている。以下、このような辞書引きのモードを標準モードと言う。
【０００５】
一方、論文の表題のように文中における大半の単語の先頭文字が大文字である場合や、テレックス文のように大文字ばかりで印字された特殊文の場合には、先頭単語以外の単語にも大文字が存在するので上述のような標準モードでは対処できない。そこで、先頭単語以外の大文字を含む単語を有する文章の場合には、すべての大文字を小文字に変換した後に辞書を引くようにしている。以下、このような辞書引きのモードを大文字モードと言う。
【０００６】
但し、例えば、固有名詞扱いされる普通名詞等は、文頭単語以外でも大文字を用いて記載されることが多い。このような場合には、上記辞書引きモードが標準モードの状態であると、文頭以外に現れた大文字を含む単語は辞書に未登録の単語であると見なされて、アルファベットのまま翻訳文中に記述されてしまう。一方、上記辞書引きモードが大文字モードの状態であると、人名や固有名詞における先頭大文字が小文字に変換される。そして、先頭大文字が小文字に変換された人名や固有名詞に相当する単語がたまたま上記辞書に登録されている場合には、その登録単語に基づいて誤った日本語に翻訳されてしまう。
【０００７】
このような問題を解決するために、従来より、以下のような機械翻訳装置が提案されている。例えば、特開平０３‐２１６７６０号公報に開示されている機械翻訳装置では、入力文に応じて辞書引きモードを自動的に設定する機能を備えている。すなわち、この機械翻訳装置においては、形態素解析手段の中に、原文中における総ての単語の文字列中に大文字が存在するか否かを判定する文字判定手段と、上記文字判定手段によって総ての単語の文字列中に大文字が存在することはないと判定された場合に大文字がある単語の割合を算出する割合算出手段と、上記文字判定手段による判定結果および上記割合算出手段による割合値に応じて自動的に辞書引きモードを標準モードと大文字モードとに切り替え設定する辞書引きモード設定手段を有している。
【０００８】
そして、翻訳の際に、上記形態素解析部によって辞書引きを行う際に、上記割合算出手段と上記辞書引きモード設定手段の働きによって、上記割合値が所定値(例えば５０％)以上の場合には、自動的に辞書引きモードを大文字モードに設定して辞書引きを行うのである。その結果、論文の表題のように入力テキストにおける過半数の単語の先頭文字が大文字である場合には、大文字モードで辞書引きが行われる。したがって、文頭以外の箇所に現れる大文字を有する単語であっても、その大文字を小文字に変えた単語が辞書に登録されていれば形態素解析が行われることになる。一方、入力テキストにおける過半数の単語の先頭文字が小文字である場合には標準モードで辞書引きが行われる。したがって、文中の一部に現れる先頭文字が大文字の人名や固有名詞が、誤って普通名詞のように翻訳されてしまうことを防止できるのである。
【０００９】
【発明が解決しようとする課題】
しかしながら、上記特開平０３‐２１６７６０号公報に開示されている従来の機械翻訳装置においては、以下のような問題がある。すなわち、実際の英語の文章には、過半数の単語の先頭文字が小文字であるような文であっても、文頭以外の単語の先頭文字が大文字であり、且つ、その単語が必ずしも人名や固有名詞でないような文が存在する。そのために、上記機械翻訳装置を用いて、以下に示すような幾つかの英語文の翻訳を実行すると、必ずしも所望通りの翻訳結果が得られずに、翻訳文中にアルファベットのまま記述されるべきではない単語がアルファベットのまま訳出される場合がある。
【００１０】
(例１)
入力文：She answered an advertisement in The Tokyo Times.
翻訳結果：彼女は、Theトウキョウ・タイムズの広告に応募した。
【００１１】
この例においては、「Tokyo Times」という固有名詞が存在するとして、この固有名詞が実際の英語文中において「Tokyo Times」,「the Tokyo Times」,「The Tokyo Times」等の幾通りかの表記が存在する場合を考える。そして、それらの表記のうち「Tokyo Times」のみが辞書に登録されている場合には、入力文の辞書引きモードは標準モードとなるから、入力文中の「The」の先頭文字は大文字のまま辞書引きが行われて辞書に登録されていないと見なされる。そして、翻訳結果に示すように、人名でも固有名詞でもない「The」が翻訳文中にアルファベットのまま出力されてしまうことなる。
【００１２】
もし、辞書登録によって上述の問題を解決する場合には、「Tokyo Times」,「the Tokyo Times」,「The Tokyo Times」等の見出しを総て辞書に登録しなければならず、辞書作成作業の負担が増してしまうと言う問題がある。
【００１３】
(例２)
入力文：He says,“The computers will be able to be linked to
networks."
翻訳結果：彼は、「Theコンピュータは、ネットワークと連結されることができるであろう」と言った。
【００１４】
この例においては、入力文中に引用箇所があり、引用箇所の内部がひとつの文となっているため、引用箇所における最初の単語の先頭文字が大文字になっている。しかしながら、この単語「The」は入力文全体の先頭単語とは見なされず、先頭以外の単語と見なされることになる。入力文の辞書引きモードは標準モードとなるから、入力文中の「The」は辞書に登録されていないと見なされて、人名でも固有名詞でもない「The」が翻訳文中にアルファベットのまま出力されてしまうことなる。
【００１５】
(例３)
入力文：We do NOT see anything about it.
この例においては、入力文中の単語「NOT」は、強調のために総て大文字で記述されている。英語文においてこのような表現は実際によく用いられるが、この入力文の場合の辞書引きモードは標準モードとなるから、入力文中の「NOT」は辞書に登録されていないと見なされる。その結果、当該入力文は英語として正しくないと見なされて、構文解析が不能になる場合もある。
【００１６】
そこで、この発明の目的は、単語単位で辞書引きモードを設定することによって、訳出されるべき単語がソース言語のまま翻訳文中に出現することを防止できる機械翻訳装置を提供することにある。
【００１７】
【課題を解決するための手段】
上記目的を達成するため、この発明は、
辞書を引いてソース言語による原文を形態素に分割し、得られた形態素の解析を行う形態素解析手段を有する機械翻訳装置において、
上記形態素解析手段は、
上記原文における２番目以降の形態素において、先頭文字が大文字である形態素の割合に基づき、文全体の辞書引きモードを、文頭形態素の先頭文字を小文字に変換して辞書引きを行う標準モードあるいは総ての大文字を小文字に変換して辞書引きを行う大文字モードの何れかに自動的に切り替え設定する辞書引きモード設定手段と、
辞書引きすべき形態素の特徴が、当該形態素の先頭文字が大文字であるか否かを判定する形態素特徴判定手段と、
上記形態素特徴判定手段の判定結果に基づいて、上記辞書引きすべき形態素独自の局所的辞書引きモードを上記標準モードあるいは大文字モードの何れかに設定する局所辞書引きモード設定手段
を備えて、
上記局所的辞書引きモードが設定された場合には、文全体の辞書引きモードに拘わらず、当該辞書引きすべき形態素の辞書引きを上記局所的辞書引きモードで行う
ことを特徴としている。
【００１８】
上記構成によれば、形態素特徴判定手段によって辞書引きすべき当該形態素の特徴が当該形態素の先頭文字が大文字であることを満たすと判定された場合には、局所辞書引きモード設定手段によって当該形態素独自の局所的辞書引きモードが設定される。そして、形態素解析手段によって、当該形態素の辞書引きが、辞書引きモード設定手段で設定された文全体の辞書引きモードに拘わらず上記局所的辞書引きモードで行われる。
【００１９】
その結果、文全体の辞書引きモードが標準モードであるにも拘わらず、固有名詞の直前や引用個所の先頭に付けられた先頭文字が大文字の「The」あるいは強調のために総て大文字で記述された「NOT」を、大文字モードで辞書引きすることが可能になる。したがって、これらの大文字を含む単語が辞書にないために原語のまま訳出されることがなくなる。
【００２０】
また、この発明の機械翻訳装置は、
上記形態素特徴判定手段は、
上記辞書引きすべき形態素の特徴が、先頭文字が大文字であるという第１条件、または、先頭文字は大文字であって且つ総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致するという第２条件、または、先頭文字は大文字であって且つ総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致するという第３条件、または、総ての文字は大文字であって且つ総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致するという第４条件、または、総ての文字は大文字であって且つ総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致するという第５条件の何れか一つの条件を満たすか否かを判定する
ことが望ましい。
【００２１】
上記構成によれば、形態素特徴判定手段によって、辞書引きすべき当該形態素の特徴が上記第１条件〜上記第５条件の何れか１つの条件を満たすと判定された場合には、上記局所辞書引きモード設定手段によって当該形態素独自の局所的辞書引きモードが設定される。こうして、固有名詞の直前や引用個所の先頭に付けられた先頭文字が大文字の「The」あるいは強調するための大文字の「NOT」がより正確に検索される。
【００２２】
例えば、当該辞書引きすべき形態素に関する上記条件を、総ての文字は大文字であって、且つ、総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致するという上記第４条件とすれば、上記予め定められた所定の見出しとして、強調のために総て大文字で記述されることが多い単語「NOT」の総ての文字を小文字に変換した文字列「not」を登録しておけば、原文中において辞書引きすべき当該形態素は総て大文字であって、当該形態素の総ての文字を小文字に変換して成る文字列が上記予め定められた所定の見出し「not」に合致すれば、当該形態素である単語「NOT」の局所的辞書引きが「大文字モード」で行われる。
【００２３】
さらに、当該辞書引きすべき形態素に関する上記条件を、総ての文字は大文字であり、且つ、総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致するという上記第５条件とすれば、上記予め定められた所定の品詞として、強調のために総て大文字で記述されることが多い単語「NOT」の品詞「副詞」を登録しておけば、原文中において辞書引きすべき当該形態素は総て大文字であって、当該形態素の総ての文字を小文字に変換して辞書引きして得られた品詞が上記予め定められた所定の品詞「副詞」に合致すれば、当該形態素である単語「NOT」の局所的辞書引きが「大文字モード」で行われる。
【００２４】
また、この発明の機械翻訳装置は、
上記形態素特徴判定手段は、上記第２条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致するという第６条件を満たすか否かをも判定するようになっている
ことが望ましい。
【００２５】
上記構成によれば、上記予め定められた所定の見出しとして、固有名詞の前に付けられることが多い単語「The」の総ての文字を小文字に変換した文字列「the」を登録しておけば、原文中において辞書引きすべき当該形態素に続く連接形態素列「Tokyo Times」が辞書見出しに合致し、当該形態素の総ての文字を小文字に変換して成る文字列が上記予め定められた所定の見出し「the」に合致すれば、当該形態素である単語「The」の局所的辞書引きが「大文字モード」で行われる。
【００２６】
また、この発明の機械翻訳装置は、
上記形態素特徴判定手段は、上記第３条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致するという第７条件を満たすか否かをも判定するようになっている
ことが望ましい。
【００２７】
上記構成によれば、上記予め定められた所定の品詞として、固有名詞の直前に付けられることが多い単語「The」の品詞「冠詞」を登録しておけば、原文中において辞書引きすべき当該形態素に続く連接形態素列「Tokyo Times」が辞書見出しに合致し、当該形態素における総ての文字を小文字に変換して辞書引きして得られた品詞が上記予め定められた所定の品詞「冠詞」に合致すれば、当該形態素である単語「The」の局所的辞書引きが「大文字モード」で行われる。
【００２８】
また、この発明の機械翻訳装置は、
上記形態素特徴判定手段は、上記第１条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素の直前の形態素は引用符号であるという第８条件を満たすか否かをも判定するようになっている
ことが望ましい。
【００２９】
上記構成によれば、原文中において辞書引きすべき当該形態素の先頭文字が大文字であり、直前の形態素が引用符号である場合には、上記引用符号の次に位置する当該形態素である先頭文字が大文字である単語「The」の局所的辞書引きが「大文字モード」で行われる。
【００３０】
また、この発明の機械翻訳装置は、
上記形態素特徴判定手段は、上記第２条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素の直前の形態素は引用符号であるという第９条件を満たすか否かをも判定するようになっている
ことが望ましい。
【００３１】
上記構成によれば、上記予め定められた所定の見出しとして、引用個所の先頭に付けられることが多い単語「The」の総ての文字を小文字に変換して成る文字列「the」を登録しておけば、原文中において辞書引きすべき当該形態素の直前の形態素が引用符号であって、当該形態素の総ての文字を小文字に変換して成る文字列が上記予め定められた所定の見出し「the」に合致すれば、上記引用符号の次の当該形態素である単語「The」の局所的辞書引きが「大文字モード」で行われる。
【００３２】
また、この発明の機械翻訳装置は、
上記形態素特徴判定手段は、上記第３条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素の直前の形態素は引用符号であるという第１０条件を満たすか否かをも判定するようになっている
ことが望ましい。
【００３３】
上記構成によれば、上記予め定められた所定の品詞として、引用個所の先頭に付けられることが多い単語「The」の品詞「冠詞」を登録しておけば、原文中において辞書引きすべき当該形態素の直前の形態素が引用符号であり、当該形態素の総ての文字を小文字に変換して辞書引きして得られた品詞が上記予め定められた所定の品詞「冠詞」に合致すれば、上記引用符号の次の当該形態素である単語「The」の局所的辞書引きが「大文字モード」で行われる。
【００３４】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。図１は、本実施の形態の機械翻訳装置におけるブロック図である。尚、本機械翻訳装置は、ソース言語は英語であり、ターゲット言語は日本語である。
【００３５】
図１において、動作制御手段１は、実際の機器構成においては主としてＣＰＵ(中央演算処理装置)で実現される。入力手段２は、実際の機器構成においてはキーボード,マウス,ペン,タブレット,スキャナ,文字認識装置等の入力装置や、通信回線と接続されている通信装置で実現される。出力手段３は、実際の機器構成においてはＣＲＴ(陰極線管),ＬＣＤ(液晶表示装置)等の表示装置や、プリンタ等の印字装置や、通信回線と接続されている通信装置で実現される。
【００３６】
翻訳プログラムモジュール４は、実際の機器構成においてはＲＯＭ(リード・オンリ・メモリ)に格納される。記憶手段５は、翻訳用の辞書,文法規則,その他の翻訳規則等のデータおよび特殊処理見出しリスト,特殊処理品詞リストを格納しており、実際の機器構成においては上記ＲＯＭやＲＡＭ(ランダム・アクセス・メモリ)で実現される。動作用メインメモリ６は、実際の機器構成においては上記ＲＡＭで実現される。７はバスラインである。
【００３７】
機械翻訳処理方式の１つとして、構文トランスファー方式がある。これは、入力されたソース言語の文に対して、辞書引き,形態素解析,構文解析…と、解析を進めてソース言語の構文構造を得、次に、この構文構造をターゲット言語の構文構造に変換し、ターゲット言語を生成する方式である。図２は、構文トランスファー方式による機械翻訳処理のフローチャートである。以下、図２におけるステップＳ1で行われる辞書引き・形態素解析と、ステップＳ2において行われる構文解析について説明する。
【００３８】
(１) 辞書引き・形態素解析
図１に示す記憶手段５の辞書を引き、入力された文章を各形態素列(単語列)に分割する。そして、この各単語に対する品詞等の文法情報および訳語を得、さらに、時制,人称,数等を解析する。
(２) 構文解析
単語間の係り受け等の文章の構造(構造解析木)を決定する。
【００３９】
上述のような構文トランスファー方式による機械翻訳処理を実現するために、翻訳プログラムモジュール４は、図１に示すように、形態素解析手段４a,構文解析手段４b,構文変換手段４cおよびターゲット言語生成手段４dを有している。ここで、形態素解析手段４aによって、図２におけるステップＳ1の辞書引き・形態素解析が実行される。また、構文解析手段４bによって、図２におけるステップＳ2の構文解析が実行される。また、構文変換手段４cおよびターゲット言語生成手段４dによって、図２におけるステップＳ3の木変換,ステップＳ4の格解析・訳語選択,ステップＳ5の日本語生成が実行されるのである。
【００４０】
さらに、上記形態素解析手段４aは、文字列中に大文字があるか否かを判定する文字判定手段４e、大文字がある単語の割合を判定する割合算出手段４f、辞書引きモード設定手段４g、形態素特徴判定手段４hを有している。
【００４１】
また、上記動作用メインメモリ６の一部は、翻訳動作の進行に応じて、原文バッファ６a,辞書引きバッファ６b,変換前の構文バッファ６c,変換後の構文バッファ６d,訳文バッファ６e,辞書引きモードフラグバッファ６fおよび大文字フラグバッファ６gに割り当てられる。
【００４２】
上記構成を有する機械翻訳装置は次のように動作する。図３は、動作制御手段１の制御の下に、形態素解析手段４aによって実行される辞書引き・形態素解析処理動作のフローチャートである。以下、図３に従って、辞書引き・形態素解析処理動作の全般について説明する。
【００４３】
上記入力手段２によって入力された原文が原文バッファ６aに格納され、原文が各単語に分割されて全文の単語数が求められると、辞書引き・形態素解析処理がスタートする。
【００４４】
ステップＳ11で、上記文字判定手段４e,割合算出手段４fおよび辞書引きモード設定手段４gによって、辞書引きモード判定が行われる。そして、判定された辞書引きモードを表わす値(フラグ)が辞書引きモードフラグバッファ６fに格納される。ステップＳ12で、単語位置変数ｎに初期値「１」がセットされる。ステップＳ13で、２番目以降におけるｎ番目の単語の先頭文字が、大文字であるか否かが判別される。その結果、大文字であればステップＳ14に進み、大文字でなければステップＳ18に進む。
【００４５】
ステップＳ14で、上記形態素特徴判定手段４hによって、ｎ番目の単語に関して特徴判定が行われる。ステップＳ15で、上記ステップＳ14における判定結果に基づいて、ｎ番目の単語を大文字モードで辞書引きするか否かが判別される。その結果、大文字モードで辞書引きする場合はステップＳ16に進み、そうでなければステップＳ17に進む。ステップＳ16で、ｎ番日の単語が大文字モードで辞書引きされて、得られた辞書データが辞書引きバッファ６bに格納される。そうした後に、ステップＳ19に進む。ステップＳ17で、ｎ番目の単語が標準モードで辞書引きされて、得られた辞書データが辞書引きバッファ６bに格納される。そうした後、ステップＳ19に進む。ステップＳ18で、ｎ番目の単語が、辞書引きモードフラグバッファ６fの内容に応じた辞書引きモードで辞書引きされる。そして、得られた辞書データが辞書引きバッファ６bに格納される。
【００４６】
ステップＳ19で、上記単語位置変数ｎが全文単語数よりも小さいか否かが判別される。その結果、小さい場合にはステップＳ20に進み、そうでなければ辞書引き・形態素解析処理を終了する。ステップＳ20で、単語位置変数ｎの内容がインクリメントされる。そうした後に、上記ステップＳ13に戻って次の単語の処理に移行する。そして、上記ステップＳ19において、ｎ≧全文単語数であると判別されると辞書引き・形態素解析処理を終了する。こうして、辞書引き・形態素解析処理が終了すると、以後は、上記構文解析処理に移行する。
【００４７】
このように、本実施の形態においては、上記ステップＳ11において入力文全体の辞書引きモードを判定することに加えて、ステップＳ14において行った先頭文字が大文字である単語の特徴判定結果に基づいて、ステップＳ16,ステップＳ17において当該単語独自の辞書引きモードで辞書引きを行うようにしている。したがって、入力文中に、先頭単語以外に、固有名詞の前にある「The」や引用箇所の最初の単語「The」や強調の単語「NOT」のような大文字を含む単語が存在しても、その単語独自の辞書引きモードに基づいて当該単語の辞書引きが行われる。こうして、先頭単語以外に大文字を含む単語が存在する場合に、その単語が訳出されずに英語のまま出力されるのを防止するのである。
【００４８】
次に、上記辞書引き・形態素解析処理動作の上記ステップＳ11において実行される辞書引きモード判定処理について、図４のフローチャートに基づいて詳細に説明する。尚、大文字が存在する単語の割合が５０％以上である場合に大文字モードであると判定するように判定の閾値が定められているものとする。
【００４９】
英語による入力文
She answered an advertisement in The Tokyo Times.
が各単語に分割されて全文の単語数が求められると、辞書引きモード判定処理動作がスタートする。
【００５０】
ステップＳ21で、上記文字判定手段４eによって、各単語の先頭文字が大文字であるか否かが判別される。尚、上記例文の場合の判別結果は、１,６,７,８番目の単語の先頭文字が「大文字」であると判定される。ステップＳ22で、上記ステップＳ21による判定結果に基づいて、総ての単語の先頭文字が大文字であるか否かが判定される。その結果、大文字である場合にはステップＳ25に進み、そうでなければステップＳ23に進む。上記例文の場合には先頭文字が小文字である単語も存在するのでステップＳ23に進むことになる。
【００５１】
ステップＳ23で、上記割合算出手段４fによって、２番目以降の各単語の先頭文字が大文字である割合が算出される。上記例文の場合には、２番目以降の７個の単語のうち先頭文字が大文字である単語が３個であるので、先頭文字が大文字である割合は約４２.９％(３/７)となる。ステップＳ24で、上記ステップＳ23による算出結果に基づいて、先頭文字が大文字である割合は５０％以上であるか否かが判別される。その結果、５０％以上であればステップＳ25に進み、そうでなければステップＳ26に進む。上記例文の場合には約４２.９％であるからステップＳ26に進むことになる。
【００５２】
ステップＳ25で、上記辞書引きモード設定手段４gによって、辞書引きモードフラグバッファ６fに「大文字モード」を表わす情報(フラグ)が格納される。こうして、入力文全体としての辞書引きモードが大文字モードと設定された後、辞書引きモード判定処理動作を終了する。そして、上記辞書引き・形態素解析処理動作におけるステップＳ12にリターンする。ステップＳ26で、辞書引きモード設定手段４gによって、辞書引きモードフラグバッファ６fに、「標準モード」を表わす情報(フラグ)が格納される。こうして、入力文全体としての辞書引きモードが標準モードと設定された後に、辞書引きモード判定処理動作を終了する。そして、上記辞書引き・形態素解析処理動作におけるステップＳ12にリターンする。
【００５３】
以下、上記辞書引き・形態素解析処理動作のステップＳ14において実行される「ｎ番目の単語に関する特徴判定処理」について、各実施例に従って説明する。
【００５４】
＜第１実施例＞
本実施例においては、英語による入力文
She answered an advertisement in The Tokyo Times.
が入力された場合を例に挙げて、ｎ番目の単語に関する特徴判定処理について説明する。
【００５５】
上記例文は、先頭単語を除いた単語数は７個であり、そのうち先頭文字が大文字の単語は３個である。したがって、上記辞書引きモード判定処理によって、先頭文字が大文字である割合は３/７(約４２.９％)であり、５０％より低いので入力文全体としての辞書引きモードが標準モードに設定されている。
【００５６】
図５は、上記辞書引き・形態素解析処理動作の上記ステップＳ14において実行される特徴判定処理動作のフローチャートである。以下、上記例文中６番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。上記辞書引き・形態素解析処理動作の上記ステップＳ13において、６番目の単語「The」の先頭文字が大文字であると判定されると、特徴判定処理動作がスタートする。
【００５７】
ステップＳ31で、ｎ番目にある単語がそのままの形で辞書見出しに合致するか否かが判別される。その結果、合致する場合にはステップＳ35に進み、合致しない場合にはステップＳ32に進む。本例の場合には、「The」はそのままの形では辞書見出しに合致しないのでステップＳ32に進むことになる。ステップＳ32で、当該単語の先頭文字以外に大文字があるか否かが判別される。その結果、あればステップＳ35に進み、なければステップＳ33に進む。本例の場合には、上記文字列「The」における先頭文字以外に大文字は存在しないのでステップＳ33に進むことになる。
【００５８】
ステップＳ33で、当該単語の単語位置変数ｎが「全文単語数−２」以下であり、且つ、(ｎ＋１)番目の単語の先頭文字が大文字であり、且つ、(ｎ＋１)番目の単語以降にある合計２個以上の連接単語列がそのまま辞書見出しに合致するという判定条件を満たすか否かが判別される。その結果、満たす場合にはステップＳ34に進み、満たさない場合にはステップＳ35に進む。本例の場合には、単語「The」の単語位置(ｎ＝６)は全文単語数(８)より２以上少なく、次の単語「Tokyo」の先頭文字は大文字である。また、次の単語以降の単語列「Tokyo Times」がそのまま熟語として辞書見出しに存在するとする。そうすると、上記判定条件を満たすのでステップＳ34に進むことになる。
【００５９】
ステップＳ34で、当該単語の先頭文字を小文字に変換した文字列が、記憶手段５の特殊処理見出しリスト中に存在するか否かが判別される。その結果、存在する場合にはステップＳ36に進み、存在しない場合にはステップＳ35に進む。この場合、記憶手段５には、図６に示すような特殊処理見出しリストが格納されているものとする。本例の場合には、単語「The」の先頭文字を小文字に変換した文字列「the」が特殊処理見出しリストに存在するので、ステップＳ36に進むことになる。
【００６０】
ステップＳ35で、上記大文字フラグバッファ６gに「０」が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップＳ15にリターンする。ステップＳ36で、大文字フラグバッファ６gに「１」が格納される。そうした後、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップＳ15にリターンする。
【００６１】
本例の場合には、上記ステップＳ36において大文字フラグバッファ６gに「１」が格納されることになる。したがって、上記辞書引き・形態素解析処理動作の上記ステップＳ15において「大文字モードで辞書引きするか否か」の判別を行う場合には、大文字フラグバッファ６gの内容に基づいて、「大文字モード」で辞書引きを行うと判別されるのである。こうすることによって、上述したように入力文全体としての辞書引きモードが辞書引きモードフラグバッファ６fに「標準モード」と設定されているにも拘わらず、６番目の単語「The」は大文字モードとして辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ６bの内容は、図７に示すように、６番目の単語「The」の「局所的大文字モード」フィールドにフラグ値が格納され、「the」として辞書引きされた結果がその他のフィールドに格納される。
【００６２】
その結果、最終的に出力される翻訳結果は、
彼女は、トウキョウ・タイムズの広告に応募した。
となり、良好な翻訳結果を得ることができるのである。
【００６３】
このように、本実施例においては、上記記憶手段５の特殊処理見出しリストとして、固有名詞の前に付けられることが多い「The」の先頭文字を小文字に変更した文字列「the」を登録しておく。そして、特徴判定処理時には、先頭文字が大文字である当該単語に続く単語の先頭文字が大文字であり、当該単語に続く単語以降にそのまま単語見出しに合致する２個以上の連接単語列(固有名詞)が存在する場合には、当該単語の先頭文字を小文字に変更した文字列が特殊処理見出しリストにあるか否かを調べる。そして、ある場合には当該単語は固有名詞の前に付けられた「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【００６４】
したがって、本実施例によれば、固有名詞「Tokyo Times」の前に付けられた単語「The」が辞書にないために原語のまま訳出されることを、「the Tokyo Times」および「The Tokyo Times」の見出しを上記辞書に登録することなく、簡単に防止することができるのである。
【００６５】
＜第２実施例＞
本実施例においては、第１実施例と同じ英語による入力文
She answered an advertisement in The Tokyo Times.
が入力された場合を例に挙げて、ｎ番目の単語に関する特徴判定処理について説明する。尚、本実施例の場合にも、入力文全体としての辞書引きモードとして標準モードが設定される。
【００６６】
図８は、上記辞書引き・形態素解析処理動作の上記ステップＳ14において実行される特徴判定処理動作のフローチャートである。本実施例においても上記例文中６番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。
【００６７】
ステップＳ41〜ステップＳ43で、第１実施例における特徴判定処理動作のフローチャート(図５)のステップＳ31〜ステップＳ33と同様にして、ｎ番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、先頭文字以外に大文字が存在するか否かの判別、上記判定条件を満たすか否かの判別が行われる。その結果、上記６番目の単語「The」の場合はステップＳ44に進むことになる。
【００６８】
ステップＳ44で、当該単語の先頭文字を小文字に変換した文字列の辞書引きを行う。そして、得られた当該単語の品詞が、記憶手段５の特殊処理品詞リスト中に存在するか否かが判別される。その結果、存在する場合にはステップＳ46に進み、存在しない場合にはステップＳ45に進む。この場合、記憶手段５には、図９に示すような特殊処理品詞リストが格納されているものとする。本例の場合においては、単語「The」の先頭文字を小文字に変換した文字列「the」を辞書引きして得られる品詞は「冠詞」であり、特殊処理品詞リストに存在するのでステップＳ46に進むことになる。
【００６９】
ステップＳ45,ステップＳ46で、第１実施例における特徴判定処理動作のフローチャートのステップＳ35,ステップＳ36と同様にして、大文字フラグバッファ６gに上記ステップＳ44での判別結果にしたがって「０」(ステップＳ45)あるいは「１」(ステップＳ46)が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作のステップＳ15にリターンする。
【００７０】
本例の場合は、上記ステップＳ46において大文字フラグバッファ６gに「１」が格納されることになる。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、６番目の単語「The」は大文字モードとして辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ６bの内容は、図７に示すようなる。
【００７１】
その結果、最終的に出力される翻訳結果は、
彼女は、トウキョウ・タイムズの広告に応募した。
となり、良好な翻訳結果を得ることができるのである。
【００７２】
このように、本実施例においては、上記記憶手段５の特殊処理品詞リストとして、固有名詞の前に付けられることが多い品詞「冠詞」を登録しておく。そして、特徴判定処理時には、先頭文字が大文字である当該単語に続く単語の先頭文字が大文字であり、当該単語に続く単語以降にそのまま単語見出しに合致する２個以上の連接単語列(固有名詞)が存在する場合には、当該単語の先頭文字を小文字に変更した文字列の品詞が特殊処理品詞リストにあるか否かを調べる。そして、ある場合には、当該単語は固有名詞の前に付けられた「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【００７３】
したがって、本実施例によれば、固有名詞「Tokyo Times」の前に付けられた単語「The」が辞書にないために原語のまま訳出されることを、「the Tokyo Times」および「The Tokyo Times」の見出しを上記辞書に登録することなく、簡単に防止することができるのである。
【００７４】
＜第３実施例＞
本実施例においては、英語による入力文
He says,“The computers will be able to be linked to networks."
が入力された場合を例に挙げて、ｎ番目の単語に関する特徴判定処理について説明する。
【００７５】
上記例文は、先頭単語を除いた単語数は１３個(引用符を含む)であり、そのうち先頭文字が大文字の単語は１個である。したがって、上記辞書引きモード判定処理によって、先頭文字が大文字である割合は１/１３(約７.７％)であり、５０％より低いので入力文全体としての辞書引きモードが標準モードに設定されている。
【００７６】
図１０は、上記辞書引き・形態素解析処理動作の上記ステップＳ14において実行される特徴判定処理動作のフローチャートである。以下、上記例文中５番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。上記辞書引き・形態素解析処理動作のステップＳ13において、５番目の単語「The」の先頭文字が大文字であると判定されると、特徴判定処理動作がスタートする。
【００７７】
ステップＳ51,ステップＳ52で、第１実施例における特徴判定処理動作のフローチャート(図５)のステップＳ31,ステップＳ32と同様にして、ｎ番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、先頭文字以外に大文字が存在するか否かの判別が行われる。その結果、上記５番目の単語「The」の場合はステップＳ53に進むことになる。
【００７８】
ステップＳ53で、当該単語の単語位置変数ｎが１より大きく、且つ、(ｎ−１)番目の単語は引用符号であるという判定条件を満たすか否かが判別される。その結果、満たす場合にはステップＳ55に進み、満たさない場合にはステップＳ54に進む。本例の場合には、単語「The」の単語位置(ｎ＝５)は１より大きく、直前の単語は「引用符号」であるから上記判定条件を満たし、ステップＳ55に進むことになる。
【００７９】
ステップＳ54,ステップＳ55で、第１実施例における特徴判定処理動作のフローチャートのステップＳ35,ステップＳ36と同様にして、大文字フラグバッファ６gに上記ステップＳ53での判別結果にしたがって「０」(ステップＳ54)あるいは「１」(ステップＳ55)が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作のステップＳ15にリターンする。
【００８０】
本例の場合は、上記ステップＳ55において大文字フラグバッファ６gに「１」が格納されることになる。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、５番目の単語「The」は大文字モードで辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ６bの内容は、図１１に示すように、５番目の単語「The」の「局所的大文字モード」フィールドにフラグ値が格納され、「the」として辞書引きされた結果がその他のフィールドに格納される。
【００８１】
その結果、最終的に出力される翻訳結果は、
彼は、「コンピュータは、ネットワークと連結されることができるであろう」と言った。
となり、良好な翻訳結果を得ることができるのである。
【００８２】
このように、本実施例においては、上記特徴判定処理時に、先頭文字が大文字である当該単語は２番目以降の単語であり、当該単語の直前の単語が引用符号である場合には、当該単語は引用個所における最初の「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【００８３】
したがって、本実施例によれば、入力文中の引用個所における最初にある単語「The」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。
【００８４】
＜第４実施例＞
本実施例においては、第３実施例と同じ英語による入力文
He says,“The computers will be able to be linked to networks."
が入力された場合を例に挙げて、ｎ番目の単語に関する特徴判定処理について説明する。尚、本実施例の場合にも、入力文全体としての辞書引きモードとして標準モードが設定される。
【００８５】
図１２は、上記辞書引き・形態素解析処理動作の上記ステップＳ14において実行される特徴判定処理動作のフローチャートである。本実施例においても上記例文中５番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。
【００８６】
ステップＳ61〜ステップＳ63で、第３実施例における特徴判定処理動作のフローチャート(図１０)のステップＳ51〜ステップＳ53と同様にして、ｎ番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、先頭文字以外に大文字が存在するか否かの判別、ｎ＞１且つ直前の単語は引用符号か否かの判別が行われる。その結果、上記５番目の単語「The」の場合はステップＳ64に進むことになる。
【００８７】
ステップＳ64で、当該単語の先頭文字を小文字に変換した文字列が、記憶手段５の特殊処理見出しリスト中に存在するか否かが判別される。その結果、存在する場合にはステップＳ66に進み、存在しない場合にはステップＳ65に進む。この場合、記憶手段５には、図６に示すような特殊処理見出しリストが格納されているものとする。本例の場合には、単語「The」の先頭文字を小文字に変換した文字列「the」が特殊処理見出しリストに存在するので、ステップＳ66に進むことになる。
【００８８】
ステップＳ65,ステップＳ66で、第１実施例における特徴判定処理動作のフローチャートのステップＳ35,ステップＳ36と同様にして、大文字フラグバッファ６gに上記ステップＳ64での判別結果にしたがって「０」(ステップＳ65)あるいは「１」(ステップＳ66)が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作のステップＳ15にリターンする。
【００８９】
本例の場合は、上記ステップＳ66において大文字フラグバッファ６gに「１」が格納されることになる。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、５番目の単語「The」は大文字モードとして辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ６bの内容は、図１１に示すようなる。
【００９０】
その結果、最終的に出力される翻訳結果は、
彼は、「コンピュータは、ネットワークと連結されることができるであろう」と言った。
となり、良好な翻訳結果を得ることができるのである。
【００９１】
このように、本実施例においては、上記記憶手段５の特殊処理見出しリストとして、引用個所の最初にあることが多い「The」の先頭文字を小文字に変更した文字列「the」を登録しておく。そして、特徴判定処理時には、先頭文字が大文字である当該単語は２番目以降の単語であり、当該単語の直前の単語が引用符号である場合には、当該単語の先頭文字を小文字に変更した文字列が特殊処理見出しリストにあるか否かを調べる。そして、ある場合には当該単語は引用個所の最初にある「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【００９２】
したがって、本実施例によれば、入力文中の引用個所における最初にある単語「The」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。
【００９３】
＜第５実施例＞
本実施例においては、第３実施例および第４実施例と同じ英語による入力文
He says,“The computers will be able to be linked to networks."
が入力された場合を例に挙げて、ｎ番目の単語に関する特徴判定処理について説明する。尚、本実施例の場合にも、入力文全体としての辞書引きモードとして標準モードが設定される。
【００９４】
図１３は、上記辞書引き・形態素解析処理動作の上記ステップＳ14において実行される特徴判定処理動作のフローチャートである。本実施例においても上記例文中５番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。
【００９５】
ステップＳ71〜ステップＳ73で、第３実施例における特徴判定処理動作のフローチャート(図１０)のステップＳ51〜ステップＳ53と同様にして、ｎ番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、先頭文字以外に大文字が存在するか否かの判別、ｎ＞１且つ直前の単語は引用符号か否かの判別が行われる。その結果、上記５番目の単語「The」の場合はステップＳ74に進むことになる。
【００９６】
ステップＳ74で、当該単語の先頭文字を小文字に変換した文字列の辞書引きを行う。そして、得られた当該単語の品詞が、記憶手段５の特殊処理品詞リスト中に存在するか否かが判別される。その結果、存在する場合にはステップＳ76に進み、存在しない場合にはステップＳ75に進む。この場合、記憶手段５には、図９に示すような特殊処理品詞リストが格納されているものとする。本例の場合は、当該単語「The」の先頭文字を小文字に変換した文字列「the」を辞書引きして得られる品詞は「冠詞」であり、特殊処理品詞リストに存在するのでステップＳ76に進むことになる。
【００９７】
ステップＳ75,ステップＳ76で、第１実施例における特徴判定処理動作のフローチャートのステップＳ35,ステップＳ36と同様にして、大文字フラグバッファ６gに上記ステップＳ74での判別結果にしたがって「０」(ステップＳ75)あるいは「１」(ステップＳ76)が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作のステップＳ15にリターンする。
【００９８】
本例の場合は、上記ステップＳ76において大文字フラグバッファ６gに「１」が格納されることになる。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、５番目の単語「The」は大文字モードとして辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ６bの内容は、図１１に示すようなる。
【００９９】
その結果、最終的に出力される翻訳結果は、
彼は、「コンピュータは、ネットワークと連結されることができるであろう」と言った。
となり、良好な翻訳結果を得ることができるのである。
【０１００】
このように、本実施例においては、上記記憶手段５の特殊処理品詞リストとして、引用個所の最初にあることが多い品詞「冠詞」を登録しておく。そして、特徴判定処理時には、先頭文字が大文字である当該単語は２番目以降の単語であり、当該単語の直前の単語が引用符号である場合には、当該単語の先頭文字を小文字に変更した文字列の品詞が特殊処理品詞リストにあるか否かを調べる。そして、ある場合には当該単語は引用個所の最初にある「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【０１０１】
したがって、本実施例によれば、入力文中の引用個所における最初にある単語「The」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。
【０１０２】
＜第６実施例＞
本実施例においては、英語による入力文
We do NOT see anything about it.
が入力された場合を例に挙げて、ｎ番目の単語に関する特徴判定処理について説明する。
【０１０３】
上記例文は、先頭単語を除いた単語数は６個であり、そのうち先頭文字が大文字の単語は１個である。したがって、上記辞書引きモード判定処理によって、先頭文字が大文字である割合は１/６(約１６.７％)であり、５０％より低いので入力文全体としての辞書引きモードが標準モードに設定されている。
【０１０４】
図１４は、上記辞書引き・形態素解析処理動作の上記ステップＳ14において実行される特徴判定処理動作のフローチャートである。以下、上記例文中３番目の単語「NOT」に関する特徴判定処理を例に特徴判定処理動作について説明する。上記辞書引き・形態素解析処理動作のステップＳ13において、３番目の単語「NOT」の先頭文字が大文字であると判定されると、特徴判定処理動作がスタートする。
【０１０５】
ステップＳ81で、ｎ番目にある単語がそのままの形で辞書見出しに合致するか否かが判別される。その結果、合致する場合にはステップＳ85に進み、合致しない場合にはステップＳ82に進む。本例の場合は、「NOT」はそのままの形では辞書見出しに合致しないのでステップＳ82に進むことになる。ステップＳ82で、当該単語の文字は総て大文字であるか否かが判別される。その結果、総て大文字であればステップＳ83に進み、そうでなければステップＳ85に進む。本例の場合は、上記文字列「NOT」は総て大文字であるからステップＳ83に進むことになる。
【０１０６】
ステップＳ83で、当該単語の総ての文字を小文字に変換した文字列が、記憶手段５の特殊処理見出しリスト中に存在するか否かが判別される。その結果、存在する場合にはステップＳ84に進み、存在しない場合にはステップＳ85に進む。この場合、記憶手段５には、図６に示すような特殊処理見出しリストが格納されているものとする。本例の場合には、単語「NOT」の総ての文字を小文字に変換した文字列「not」が特殊処理見出しリストに存在するので、ステップＳ84に進むことになる。
【０１０７】
ステップＳ84で、当該単語の先頭文字以外の総ての文字を小文字に変換した文字列が、記憶手段５の特殊処理見出しリスト中に存在するか否かが判別される。その結果、存在する場合にはステップＳ85に進み、存在しない場合にはステップＳ86に進む。本例の場合においては、単語「NOT」の２文字以降の総ての文字を小文字に変換した文字列「Not」は特殊処理見出しリストに存在しないのでステップＳ86に進むことになる。
【０１０８】
ステップＳ85で、上記大文字フラグバッファ６gに「０」が格納される。そうした後、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップＳ15にリターンする。ステップＳ86で、大文字フラグバッファ６gに「１」が格納される。そうした後、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップＳ15にリターンする。
【０１０９】
本例の場合には、上記ステップＳ86において大文字フラグバッファ６gに「１」が格納される。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、３番目の単語「NOT」は大文字モードとして辞書引きされることになる。その結果、当該単語「NOT」は「not」として辞書引きされ、辞書引きバッファ６bの内容は、図１５に示すように、３番目の単語「NOT」の「局所的大文字モード」フィールドにフラグ値が格納され、「not」として辞書引きされた結果がその他のフィールドに格納される。
【０１１０】
その結果、最終的に出力される翻訳結果は、
彼は、それについて何も見ない。
となり、良好な翻訳結果を得ることができるのである。
【０１１１】
このように、本実施例においては、上記記憶手段５の特殊処理見出しリストとして、強調のために総て大文字で記述されることが多い「NOT」の総ての文字を小文字に変更した文字列「not」を登録しておく。そして、特徴判定処理時には、当該単語は総て大文字である場合には、当該単語の総ての文字を小文字に変更した文字列が特殊処理見出しリストにあるか否かを調べる。そして、ある場合には当該単語は単語「not」を強調するための「NOT」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【０１１２】
したがって、本実施例によれば、強調するために総て大文字で記述された単語「NOT」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。
【０１１３】
＜第７実施例＞
本実施例においては、第６実施例と同じ英語による入力文
We do NOT see anything about it.
が入力された場合を例に挙げて、ｎ番目の単語に関する特徴判定処理について説明する。尚、本実施例の場合にも、入力文全体としての辞書引きモードとして標準モードが設定される。
【０１１４】
図１６は、上記辞書引き・形態素解析処理動作の上記ステップＳ14において実行される特徴判定処理動作のフローチャートである。本実施例においても上記例文中３番目の単語「NOT」に関する特徴判定処理を例に特徴判定処理動作について説明する。
【０１１５】
ステップＳ91,ステップＳ92で、第６実施例における特徴判定処理動作のフローチャート(図１４)のステップＳ81,ステップＳ82と同様にして、ｎ番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、総て大文字か否かの判別が行われる。その結果、上記３番目の単語「NOT」の場合はステップＳ93に進むことになる。
【０１１６】
ステップＳ93で、当該単語の全文字を小文字に変換した文字列の辞書引きを行う。そして、得られた当該単語の品詞が記憶手段５の特殊処理品詞リスト中に存在するか否かが判別される。その結果、存在する場合にはステップＳ94に進み、存在しない場合にはステップＳ95に進む。この場合、記憶手段５には、図９に示すような特殊処理品詞リストが格納されているものとする。本例の場合は、単語「NOT」の総ての文字を小文字に変換した文字列「not」を辞書引きして得られる品詞は「副詞」であり、特殊処理品詞リストに存在するのでステップＳ94に進むことになる。
【０１１７】
ステップＳ94で、当該単語における先頭文字以外の総ての文字を小文字に変換した文字列の辞書引きを行う。その結果得られた当該単語の品詞が、記憶手段５の特殊処理品詞リスト中に存在するか否かが判別される。その結果、存在する場合にはステップＳ95に進み、存在しない場合にはステップＳ96に進む。本例の場合には、単語「NOT」の先頭文字以外の総ての文字を小文字に変換した文字列「Not」を辞書引きした結果見出しに無いので、ステップＳ96に進むことになる。
【０１１８】
ステップＳ95,ステップＳ96で、第６実施例における特徴判定処理動作のフローチャート(図１４)のステップＳ85,ステップＳ86と同様にして、大文字フラグバッファ６gに上記ステップＳ94での判別結果にしたがって「０」(ステップＳ95)あるいは「１」(ステップＳ96)が格納される。そうした後、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップＳ15にリターンする。
【０１１９】
本例の場合は、上記ステップＳ96において大文字フラグバッファ６gに「１」が格納されることになる。したがって、上述のように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、３番目の単語「NOT」は大文字モードとして辞書引きされることになる。その結果、当該単語「NOT」は「not」として辞書引きされ、辞書引きバッファ６bの内容は、図１５に示すようなる。
【０１２０】
その結果、最終的に出力される翻訳結果は、
彼は、それについて何も見ない。
となり、良好な翻訳結果を得ることができるのである。
【０１２１】
このように、本実施例においては、上記記憶手段５の特殊処理品詞リストとして、強調のために総て大文字で記述されることが多い単語「NOT」の品詞「副詞」を登録しておく。そして、特徴判定処理時には、当該単語は総て大文字である場合には、当該単語の総ての文字を小文字に変更した文字列の品詞が特殊処理冠詞リストにあるか否かを調べる。そして、ある場合には当該単語は強調のために総て大文字で記述された単語「NOT」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。
【０１２２】
したがって、本実施例によれば、強調するために総て大文字で記述された単語「NOT」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。
【０１２３】
【発明の効果】
以上より明らかなように、この発明の機械翻訳装置は、辞書引き・形態素解析を行うに際して、形態素特徴判定手段による辞書引きすべき当該形態素の特徴が当該形態素の先頭文字が大文字であるか否かの判定結果に基づいて、局所辞書引きモード設定手段によって当該形態素独自の局所的辞書引きモードを設定し、当該形態素の辞書引きは、辞書引きモード設定手段によって設定された文全体の辞書引きモードに拘わらず、上記局所的辞書引きモードで行うので、従来のごとく文全体の辞書引きモードのみで辞書引きを行う場合に比して、よりきめ細かな辞書引きモードの切り換えを行うことができる。
【０１２４】
したがって、ソース言語の文章中において幾通りかの表記法が存在しうる連語や強調語等に関して、その何れの表記法が用いられた場合であっても適切に辞書引きを行うことができ、より適切な訳文を得ることができる。その結果、上記幾通りかの表示方法の総てを辞書に登録しておく必要がなく、辞書データの作成手間を削減することができるのである。
【０１２５】
また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素の特徴が上記第１条件〜上記第５条件の何れか１つの条件を満たすか否かを判定するように成せば、辞書引きすべき当該形態素の特徴に基づいて、ソース言語の文章中において幾通りかの表記法が存在しうる連語や強調語等を、原文中からより正確に検出することができる。
【０１２６】
例えば、
（ａ）当該辞書引きすべき形態素に関する上記第４条件を
・総ての文字は大文字
・総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致する
とすれば、上記予め定められた所定の見出しとして文字列「not」を登録しておけば、強調のために総て大文字で記述された単語「NOT」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。
【０１２７】
さらに、
（ａ）当該辞書引きすべき形態素に関する上記第５条件を
・総ての文字は大文字
・総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致する
とすれば、上記予め定められた所定の品詞として品詞「副詞」を登録しておけば、強調のために総て大文字で記述された単語「NOT」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。
【０１２８】
また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素に隣接した形態素の特徴が特定条件を満たすか否かをも判定するように成すと共に、
（ａ）当該辞書引きすべき形態素に関する上記第２条件を、
・先頭文字は大文字
・総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致する
とし、
（ｂ）上記隣接した形態素に関する第６条件を、
・当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致する
とすれば、例えば上記予め定められた所定の見出しとして文字列「the」を登録しておけば、固有名詞の前に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。
【０１２９】
また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素に隣接した形態素の特徴が特定条件を満たすか否かをも判定するように成すと共に、
（ａ）当該辞書引きすべき形態素に関する上記第３条件を、
・先頭文字は大文字
・総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致する
とし、
（ｂ）上記隣接した形態素に関する第７条件を、
・当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致する
とすれば、例えば、上記予め定められた所定の品詞として品詞「冠詞」を登録しておけば、固有名詞の直前に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。
【０１３０】
また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素に隣接した形態素の特徴が特定条件を満たすか否かをも判定するように成すと共に、
（ａ）当該辞書引きすべき形態素に関する上記第１条件を、
・先頭文字は大文字
とし、
（ｂ）上記隣接した形態素に関する第８条件を、
・当該辞書引きすべき形態素の直前の形態素は引用符号である
とすれば、例えば引用個所の先頭に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。
【０１３１】
また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素に隣接した形態素の特徴が特定条件を満たすか否かをも判定するように成すと共に、
（ａ）当該辞書引きすべき形態素に関する上記第２条件を、
・先頭文字は大文字
・総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致する
とし、
（ｂ）上記隣接した形態素に関する第９条件を、
・当該辞書引きすべき形態素の直前の形態素は引用符号である
とすれば、例えば上記予め定められた所定の見出しとして文字列「the」を登録しておけば、引用個所の先頭に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。
【０１３２】
また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素に隣接した形態素の特徴が特定条件を満たすか否かをも判定するように成すと共に、
（ａ）当該辞書引きすべき形態素に関する上記第３条件を、
・先頭文字は大文字
・総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致する
とし、
（ｂ）上記隣接した形態素に関する第１０条件を、
・当該辞書引きすべき形態素の直前の形態素は引用符号である
とすれば、例えば、上記予め定められた所定の品詞として品詞「冠詞」を登録しておけば、引用個所の先頭に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。
【図面の簡単な説明】
【図１】この発明の機械翻訳装置におけるブロック図である。
【図２】構文トランスファー方式による機械翻訳処理のフローチャートである。
【図３】図１における形態素解析手段によって実行される辞書引き・形態素解析処理動作のフローチャートである。
【図４】図３に示す辞書引き・形態素解析処理において実行される辞書引きモード判定処理動作のフローチャートである。
【図５】図３に示す辞書引き・形態素解析処理において実行される特徴判定処理動作のフローチャートである。
【図６】図１における記憶手段に格納された特殊処理見出しリストの一例を示す図である。
【図７】図５に示す特徴判定処理に基づく辞書引きの結果を示す辞書引きバッファの内容図である。
【図８】図５とは異なる特徴判定処理動作のフローチャートである。
【図９】図１における記憶手段に格納された特殊処理品詞リストの一例を示す図である。
【図１０】図５および図８とは異なる特徴判定処理動作のフローチャートである。
【図１１】図１０に示す特徴判定処理に基づく辞書引きの結果を示す辞書引きバッファの内容図である。
【図１２】図５,図８および図１０とは異なる特徴判定処理動作のフローチャートである。
【図１３】図５,図８,図１０および図１２とは異なる特徴判定処理動作のフローチャートである。
【図１４】図５,図８,図１０,図１２および図１３とは異なる特徴判定処理動作のフローチャートである。
【図１５】図１４に示す特徴判定処理に基づく辞書引きの結果を示す辞書引きバッファの内容図である。
【図１６】図５,図８,図１０,図１２,図１３および図１４とは異なる特徴判定処理動作のフローチャートである。
【符号の説明】
１…動作制御手段、
２…入力手段、３…出力手段、
４…翻訳プログラムモジュール、４a…形態素解析手段、
４b…構文解析手段、４c…構文変換手段、
４d…ターゲット言語生成手段、４e…文字判定手段、
４f…割合算出手段、４g…辞書引きモード設定手段、
４h…形態素特徴判定手段、５…記憶手段、
６…動作用メインメモリ、６a…原文バッファ、
６b…辞書引きバッファ、６c…変換前の構文バッファ、
６d…変換後の構文バッファ、６e…訳文バッファ、
６f…辞書引きモードフラグバッファ、
６g…大文字フラグバッファ。

Claims

辞書を引いてソース言語による原文を形態素に分割し、得られた形態素の解析を行う形態素解析手段を有する機械翻訳装置において、
上記形態素解析手段は、
上記原文における２番目以降の形態素において、先頭文字が大文字である形態素の割合に基づき、文全体の辞書引きモードを、文頭形態素の先頭文字を小文字に変換して辞書引きを行う標準モードあるいは総ての大文字を小文字に変換して辞書引きを行う大文字モードの何れかに自動的に切り替え設定する辞書引きモード設定手段と、
辞書引きすべき形態素の特徴が、当該形態素の先頭文字が大文字であるか否かを判定する形態素特徴判定手段と、
上記形態素特徴判定手段の判定結果に基づいて、上記辞書引きすべき形態素独自の局所的辞書引きモードを上記標準モードあるいは大文字モードの何れかに設定する局所辞書引きモード設定手段
を備えて、
上記局所的辞書引きモードが設定された場合には、文全体の辞書引きモードに拘わらず、当該辞書引きすべき形態素の辞書引きを上記局所的辞書引きモードで行う
ことを特徴とする機械翻訳装置。
請求項１に記載の機械翻訳装置において、
上記形態素特徴判定手段は、
上記辞書引きすべき形態素の特徴が、先頭文字が大文字であるという第１条件、または、先頭文字は大文字であって且つ総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致するという第２条件、または、先頭文字は大文字であって且つ総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致するという第３条件、または、総ての文字は大文字であって且つ総ての文字を小文字に変換して成る文字列が予め定められた所定の見出しに合致するという第４条件、または、総ての文字は大文字であって且つ総ての文字を小文字に変換して辞書引きして得られた品詞が予め定められた所定の品詞に合致するという第５条件の何れか一つの条件を満たすか否かを判定する
ことを特徴とする機械翻訳装置。
請求項２に記載の機械翻訳装置において、
上記形態素特徴判定手段は、上記第２条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致するという第６条件を満たすか否かをも判定するようになっている
ことを特徴とする機械翻訳装置。
請求項２に記載の機械翻訳装置において、
上記形態素特徴判定手段は、上記第３条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致するという第７条件を満たすか否かをも判定するようになっている
ことを特徴とする機械翻訳装置。
請求項２に記載の機械翻訳装置において、
上記形態素特徴判定手段は、上記第１条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素の直前の形態素は引用符号であるという第８条件を満たすか否かをも判定するようになっている
ことを特徴とする機械翻訳装置。
請求項２に記載の機械翻訳装置において、
上記形態素特徴判定手段は、上記第２条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素の直前の形態素は引用符号であるという第９条件を満たすか否かをも判定するようになっている
ことを特徴とする機械翻訳装置。
請求項２に記載の機械翻訳装置において、
上記形態素特徴判定手段は、上記第３条件を満たすか否かを判定し、且つ、当該辞書引きすべき形態素に隣接した形態素の特徴が、当該辞書引きすべき形態素の直前の形態素は引用符号であるという第１０条件を満たすか否かをも判定するようになっている
ことを特徴とする機械翻訳装置。