JP3924260B2 - 節境界検出装置、機械翻訳装置及びコンピュータプログラム - Google Patents
節境界検出装置、機械翻訳装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP3924260B2 JP3924260B2 JP2003108676A JP2003108676A JP3924260B2 JP 3924260 B2 JP3924260 B2 JP 3924260B2 JP 2003108676 A JP2003108676 A JP 2003108676A JP 2003108676 A JP2003108676 A JP 2003108676A JP 3924260 B2 JP3924260 B2 JP 3924260B2
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- boundary
- pattern
- node
- clause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 79
- 238000013519 translation Methods 0.000 title claims description 51
- 238000004590 computer program Methods 0.000 title claims description 6
- 238000012545 processing Methods 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 36
- 238000004458 analytical method Methods 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 15
- 230000000877 morphologic effect Effects 0.000 claims description 12
- 238000000926 separation method Methods 0.000 claims description 11
- 239000003550 marker Substances 0.000 claims description 8
- 230000000977 initiatory effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000002747 voluntary effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 235000017399 Caesalpinia tinctoria Nutrition 0.000 description 1
- 241000388430 Tara Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
【発明の属する技術分野】
この発明は、自然言語処理を適切に行なえる様にするための前処理を行なう装置に関し、特に、翻訳等の処理が適切に行なえる様に節単位に入力テキストを分離する前処理を行なうための節境界検出装置、そうした節境界検出装置を採用した機械翻訳装置、およびそれらのためのコンピュータプログラムに関する。
【0002】
【従来の技術】
近年、独話(複数の発話のまとまりであって、講演、ニュース等、発話者が1人のもの)を対象とした自然音声コーパスの構築が進んでいる。講演、ニュースまたは学会発表等、1人の話者が話しつづける独話は、対話(複数の発話のまとまりであって、2人の発話者が発話を交換するもの)よりも1文の長さが長くなったり、文の構造が複雑化したりするという特徴を持つ事が知られている。
【0003】
図1に、典型的な独話の例であるテレビジョンのニュース(日本語)、及び典型的な対話の例である旅行会話(対訳形式の日本語部分)での1文あたりの形態素数及び文節数を示す。図1から分かる様に、1文あたりの形態素数及び文節数のいずれにおいても、独話の方が対話よりもはるかに多い。
【0004】
さらに、自発的な発話になるほど、明示的な文末表現の現れにくくなる傾向があり、文の境界を認識する事が困難になる。
【0005】
独話又は対話等の音声認識を行なったり、翻訳を行なったりする自然言語処理技術では、従来、「文」を基本的な処理単位とする場合が大半である。
【0006】
しかし、1文が長く、文末が確定しにくいという性格を持つ独話を自然言語処理の対象とする場合、文が長くなる事によって構文解析のあいまい性が爆発するという問題がある。また、文末がはっきりしないために、自然言語処理の対象となるものがはっきりせず、どこまで入力を待てば処理を始めることができるのかが分からないという問題が発生する。
【0007】
こうした問題は、独話を機械翻訳する場合にも現れる。独話を機械翻訳する場合、発話に追従して翻訳を出力する同時通訳としての運用が望ましい。しかし上記した様に独話では1文が長くなるため、解析が失敗したり、その結果として翻訳が失敗したりするという問題がある。仮に翻訳が成功したとしても、同時通訳としての追従性に欠けるという問題がある。また、文末が確定しにくい場合、どの時点でどの部分を対象に翻訳を開始するかを定めることは難しい。
【0008】
【非特許文献1】
益岡隆志・田窪行則著、「基礎日本語文法‐改訂版‐」、くろしお出版、1992
【発明が解決しようとする課題】
従って、特に独話について、発話の中で各種の処理を漸進的に進めておくために、文とは異なる単位を発話中で随時検出できる様にする事が望ましい。可能であれば、その処理単位は文よりも短いほうが望ましい。
【0009】
文よりも短い処理単位として、述語を中心としたまとまりである「節」を用いる事が望ましいと考えられる。節は、統語的・意味的にまとまった単位であり、翻訳または文の要約等の処理を節単位で行なうと有効であると考えられる。そこで、節境界を自動的に検出する手法が必要となる。
【0010】
節境界を検出する手法としてまず考えられるのは、構文解析器を用いて文を解析した結果から、節境界に相当する位置を特定する方法である。しかし、構文解析器は一般に入力として「文」を要求するものである。そのため、文末が入力されて構文解析が済むまでは、節境界の検出を始める事は難しい。この制約は、同時通訳の様に入力を漸進的に処理していく必要がある場合、望ましくない。漸進的な処理を行なうためには、発話の入力中であっても、局所的な情報のみから節境界の位置を検出できる事が望ましい。また、節境界により分離される節がどの様なものであるかを知る事ができれば、自然言語処理技術にとって有用なだけでなく、言語学的な分析にも応用できるため、より好ましい。
【0011】
従って、本発明の目的は、日本語の発話の中から、局所的な情報のみから節境界を随時検出する事ができる節境界検出装置を提供する事である。
【0013】
この発明のさらに他の目的は、日本語の発話の局所的な情報のみから節境界を検出し、当該節境界により分離される節がどの様な種類の節かを判定する事ができる節境界検出装置を提供する事である。
【0014】
この発明のさらに他の目的は、日本語の発話の中から節を随時検出し、節ごとに自動的に翻訳を行なう事ができる機械翻訳装置を提供する事である。
【0015】
【課題を解決するための手段】
本発明の第1の局面に係る節境界検出装置は、文章に対して形態素解析を行なう事により得られた形態素列から、元の文章の節境界を検出するための節境界検出装置であって、形態素列の中において、所定の形態素の並びのパタンを検出するための検出手段と、パタンが検出された事に応答して、形態素列の中で、検出されたパタン中の形態素の並びと所定の関係にある位置を節の境界に指定する予め定める処理を行なって形態素列を出力するための境界指定手段とを含む。
【0016】
好ましくは、境界指定手段は、パタンが検出された事に応答して、ある位置に節の境界を示す境界マーカを挿入して形態素列を出力するための手段を含む。
【0017】
さらに好ましくは、検出手段は、形態素列の中において、複数個のパタンのうちの任意の一つを検出するための手段を含む。
【0018】
境界指定手段は、任意の一つを検出するための手段により上記パタンのうちの任意の一つが検出された事に応答して、検出されたパタン中の形態素の並びと所定の関係にある位置に、検出されたパタンに対応して予め定められた節境界ラベルを挿入するためのラベル挿入手段を含んでもよい。
【0019】
節境界ラベル又は節境界マーカが挿入される位置は、検出されたパタン中の末尾の形態素の直後でもよい。
【0020】
好ましくは、検出手段は、形態素列を順次読込んでFIFO(First−In First−Out)方式で記憶して出力するための一時記憶手段と、一時記憶手段に記憶された形態素の配列の中に、所定の形態素の並びのパタンがある事を検出するための手段とを含み、境界指定手段は、所定の形態素の並びのパタンがある事が検出された事に応答して、一時記憶手段の所定の形態素の並びのパタンまでを出力する様に一時記憶手段を制御するための手段と、一時記憶手段から出力される所定の形態素の並びのパタンの末尾に、節境界を示すマーカを挿入するための手段とを含んでもよい。
【0021】
さらに好ましくは、検出手段は、形態素列を順次読込んでFIFO方式で記憶して出力するための一時記憶手段と、一時記憶手段に記憶された形態素の配列の中に、複数個の所定の形態素の並びのパタンのうちの任意の一つがある事を検出するための手段とを含み、境界指定手段は、任意の一つのパタンが検出された事に応答して、一時記憶手段中の、検出されたパタンまでをFIFO方式で出力する様に一時記憶手段を制御するための手段と、任意の一つのパタンが検出された事に応答して、一時記憶手段から出力されるパタンの末尾に、検出されたパタンに対応した節境界ラベルを挿入するための手段とを含む。
【0022】
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの節境界検出装置として動作させるものである。
【0023】
本発明の第3の局面に係る機械翻訳装置は、入力される日本語の文章に対して形態素解析処理を行ない、得られる形態素列を出力するための形態素解析手段と、上記したいずれかの節境界検出装置であって、形態素解析手段の出力を入力として受ける様に接続された節境界検出装置と、節境界検出装置から出力される形態素列を、当該形態素列中の節境界によって節に分離するための節分離手段と、節分離手段により分離された形態素列を入力とし、節分離手段から節を受けとった事に応答して、受けた節を翻訳するための機械翻訳手段とを含む。
【0024】
好ましくは、節境界検出装置は出力する形態素列の節境界に節境界マーカを挿入する機能を持ち、節分離手段は、節境界検出装置からの出力をFIFO方式で一時記憶するための記憶手段と、節境界検出装置から節境界マーカが出力された事に応答して、記憶手段に記憶された形態素列を機械翻訳手段に与え、機械翻訳を開始させるための手段とを含む。
【0025】
本発明の第4の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記した機械翻訳装置として動作させるものである。
【0026】
【発明の実施の形態】
[第1の実施の形態]
‐節境界検出の原理‐
構文解析を行なわずに節境界を検出するために、本実施の形態では、入力テキストを形態素解析し、形態素の局所的な連接関係のみを手掛かりとして節境界を検出する。そのために、形態素の局所的な連接関係をパタンに分類し、特定のパタンが検出された場合に節境界を特定するルールを作成し、このルールに従って自動的に節境界を特定する。この節境界検出ルールは、節境界の位置を発見するための形態素列パタンと、節境界の種類をあらわす節境界ラベルの組とからなっている。構文解析は必要としない。
【0027】
‐構成‐
図2に、本実施の形態の節境界検出装置を採用した翻訳装置の機能ブロック図を示す。この実施の形態のシステムは、テキスト処理が可能な既存の言語処理系(具体的にはPerl処理系)を用い、節境界検出ルールをPerlの正規表現置換を用いたスクリプトの形式で実装している。
【0028】
図2を参照して、この翻訳装置30は、ユーザからの起動コマンド32に応答して、日本語の入力テキスト34を英語に機械翻訳し、結果を翻訳出力36として出力するためのものである。翻訳装置30は、入力テキスト34を形態素解析し、形態素列を出力するための形態素解析部54を含む。形態素解析部54としては、既存の形態素解析用プログラムを用いる事ができる。図3に、形態素解析用プログラムとしてよく知られているものの出力形式と出力例とを示す。図3の詳細については後述する。
【0029】
再び図2を参照して、翻訳装置30はさらに、上記した節境界検出ルールをPerlの正規表現命令列からなるスクリプトの形で実装したプログラム52と、形態素解析部54の出力する形態素列に対してプログラム52を適用する事により、節境界ごとに節ラベルが挿入された処理後のテキストを出力するための言語処理系56と、言語処理系56の出力をFIFO方式で一時的に蓄積するバッファ58と、言語処理系56から節ラベルが出力されるごとに、バッファ58に蓄積されたテキストを読出して出力する事により、テキストを節に分離するためのテキスト分離部60と、テキスト分離部60から与えられるテキストを英語に翻訳して翻訳出力36として出力するための機械翻訳部62と、ユーザからの起動コマンド32に応答して入力テキスト34およびプログラム52を読込み、形態素解析部54および言語処理系56等を起動するためのオペレーティングシステム(OS)50とを含む。ここで節の境界を示す情報を「節ラベル」と呼んでいるのは、節の種類を示す情報を含んでいるためである。この節ラベルは、そこに節境界が存在している事を表すものでもあり、節境界を示すマーカとしての役割も果たしている。
【0030】
OS50、言語処理系56を備え、プログラム52を実行する事からも分かる様に、翻訳装置30は実質的にはコンピュータから構成されている。入力テキスト34および翻訳出力36はそれぞれ、標準入力および標準出力を示すが、本実施の形態では入力テキスト34は所定のファイルから与えられ、翻訳出力36も所定のファイルとして出力されるものとする。
【0031】
図3を参照して、形態素解析部54の出力形式80について説明する。形態素解析部54が出力する形態素は、出力形式80に示される様に、形態素の出現形と、その品詞と、その活用形と、出現したときの活用型とからなる。「活用形」とは、動詞、助動詞、形容詞等の活用のしかたの分類を示すものである。例は「五段活用」「下二段活用」の如きものである。活用型とは、出現した形態素が、各活用形の中でどの様な活用をされているかを示すものである。例は「未然形」「連用形」「連体形」等の如きものである。
【0032】
図3に、入力例82として「私は学校へ行きました」という一文を示す。これを形態素解析部54により形態素解析した結果を解析結果84に示す。解析結果84から明らかな様に、形態素解析部54は入力テキスト34を形態素解析し、出力形式80に従った形式の形態素列を出力する機能を持つ。
【0033】
図4に、節境界検出ルールの例を実装したPerlによるコマンドの例を示す。図4を参照して、Perlによる置換コマンドの一般形100は、置換を示すコマンド「s」と、置換の際に検索すべき検索文字列と、検索された文字列を置換すべき文字列と、置換の際のオプション機能を指定するオプション文字列とを「/(スラッシュ)」により区切った形式となっている。検索文字列及び置換文字列には、それぞれ「正規形」と呼ばれる形式を使用する事ができる。Perlに限らず、この様な正規形が使用できる言語処理系は数多く存在する。正規形について必要な場合には以下で説明を加えてあるが、一般的な説明については各言語処理系の解説書等を参照されたい。
【0034】
図4の基本形102により、本実施の形態でPerlにより実装された節境界検出ルールの一般形を示す。基本形102は、一般形100において、検索文字列を形態素列パタン110とし、置換文字列を「$1 ¥/節ラベル¥/」という置換文字列表現112とし、オプションとして「g」を指定したものである。
【0035】
形態素列パタン110は丸カッコで囲まれている。これは置換文字列表現112の中の「$1」に対応する。置換文字列表現112中の「$1」は、この部分を検索文字列中で丸カッコで囲まれた文字列の中で1番目のものと置換する事を示す。検索文字列の中で丸カッコで囲まれた文字列は形態素列パタン110しかないので、$1は形態素列パタン110により置換される。
【0036】
置換文字列表現112の中の「¥」はエスケープ文字であり、この直後の一文字をコマンドの一部ではなく単なる文字として扱う事を示す。この例では、置換文字列が「/」を含んでいるのに対し、この「/」がコマンド中でも使用されているので、置換文字列中のスラッシュを単なる文字列として扱うために「¥」を使用している。節ラベルについては後述する。
【0037】
オプション「g」は、グローバルサーチを示す。すなわち、検索文字列で入力文字列を検索した結果、最初のマッチが見出されたところで検索を終了するのではなく、マッチがいくつ見出されても入力文字列の全体について検索および置換を行なう事を示す。
【0038】
すなわち、基本形102によれば、形態素列パタン110にマッチする形態素列があれば、その形態素列の最後に「/節ラベル/」で示される文字列が挿入される事になる。
【0039】
図4には、具体的な節境界検出ルールの第1の例104も示されている。この例104は、入力される形態素列中に「けれども」という出現形で「助詞‐接続助詞」という品詞を持つものがあれば、その部分を全て「けれども/並列節ケレドモ/」という文字列で置換せよ、というものである。
【0040】
同じく図4には、具体的な節境界検出ルールの第2の例106も示されている。この例106は、入力される形態素列中に「連用タ接続」または「連用形」という活用型の形態素があり、その直後に「たら」という出現形で「助動詞」という品詞を持ち、「特殊・タ」という活用形で「仮定形」という活用型を持つパタンがあれば、それらを全て、その末尾に「/条件節タラ/」という文字列を付加したもので置換せよ、というものである。検索文字列中の「|」は、「または」という意味を表す。
【0041】
本実施の形態では、この様な節境界検出ルールとして361個のルールを用いている。全てのルールは、1個から3個の連接する形態素から構成されるパタンを持つ。入力には読点が含まれていない事を想定し、パタンに読点は含めていない。
【0042】
図5に、本実施の形態で検出される節の種類の一部を示す。本実施の形態では、非特許文献1に記載されている従属節の形態(補足節、副詞節、連体節、および並列節)を増補及び改編して作成したもので、合計144種類の節を用いる。これらの中には、統語的に大きな切れ目になると考えられる主題「は」、談話標識、および感動詞を検出するパタンも含まれている。本明細書では、これらも含めて「節境界」と考える事とする。
【0043】
本実施の形態で用いられている節ラベルは、実際には図5に示したものをさらに細かく分類したものである。例えば、「タメ節」の下位には「タメニ節」「タメニハ節」という節境界が設定してある。これら下位の節境界を合計すると144種類となるという事である。
【0044】
図6に、プログラム52の実際の形式を示す。図6を参照して、プログラム52は、Perlの書式に従ってPerlの処理系へのパスを示す行(1行目)を含む。2行目は、入力されるテキストが存在する限り次の中かっこ「{」および「}」に囲まれた部分の処理を繰返し実行する事を示す命令である。この中かっこの中が、上記した節境界検出ルールの本体である。入力があると、ここに記載された全てのグローバル置換命令を実行し、置換後のテキストを末尾の「print」命令によって標準出力に出力し、次の入力に対する処理に移る。
【0045】
図7に、図2に示す言語処理系56およびプログラム52によって実現される節境界検出処理の実態をフローチャート形式で示す。言語処理系56自体は図7に示すものと異なり汎用的な機能を備えたものであるが、ここではプログラム52を言語処理系56で実行する場合についてのみ、その動きを示す。後述する様に、プログラム52および言語処理系56により実現される処理を専用のプログラムで実装する場合には、その制御構造は例えばこの図7に示されたものの様になる。
【0046】
図7を参照してこの処理は、関連するファイル(入力ファイルおよび出力ファイル等)をオープンするステップ140と、入力テキストファイルの1行目(改行コードまでの文字列)を読込むステップ142と、ステップ142の結果、入力ファイルの末尾(EOF:End Of File)に達したか否かを判定するステップ144とを含む。判定結果がYESであれば制御はステップ162に進み、さもなければ制御はステップ146に進む。なお、複数の入力ファイルに対して連続してこの処理を実行する事もできるが、ここでは説明を簡明にするために一つのファイルに対して処理を行なうものとする。
【0047】
ステップ146では、初期処理を行なう。初期処理では、入力されたテキストに対し、節境界の検出処理を行なう上で妨げとなる様な要素を入力テキストから除去する処理を行なう。
【0048】
続いてステップ148では、1番目の置換コマンドのグローバル検索を行なう。ステップ150では、プログラム52内の全ての置換コマンドを実行したか否かを判定する。全て実行が終わっていれば制御はステップ158に進む。さもなければ制御はステップ152に進む。
【0049】
ステップ152では、検索の結果、置換コマンドの検索文字列の正規表現にマッチした部分があったか否かを判定する。マッチがあれば制御はステップ154に進む。さもなければ制御はステップ150に戻る。
【0050】
ステップ154では、マッチがあった部分を全て置換文字列で置換する処理が行なわれる。全て置換が終わったらステップ156で処理を次の置換コマンドに進めて制御をステップ150に戻す。
【0051】
ステップ150で全ての置換コマンドの実行が完了したと判定された場合、制御はステップ158に進む。ステップ158では、置換処理が完了した1行分のテキストを標準出力に書き出す処理が実行される。続いて入力テキストファイルの次の1行を読込む。制御はこの後ステップ144に戻る。
【0052】
一方、ステップ144で入力ファイルのEOFに到達したと判定された場合、ステップ162で関連のファイルを全てクローズして処理を終了する。
【0053】
‐動作‐
この機械翻訳装置は以下の様に動作する。図2を参照して、ユーザが起動コマンド32を入力したものとする。起動コマンド32は、入力テキスト34とプログラム52とを特定する情報を含む。
【0054】
OS50はこのコマンドに応答して形態素解析部54を起動し、入力テキスト34を開いて形態素解析部54で形態素解析を行なわせる。一方OS50は、起動コマンド32により特定されるプログラム52を記憶装置から読出す。前述の通り、プログラム52の1行目にはこのプログラム52を実行するための言語処理系へのパスが記載されている。OS50はこのパスに従って言語処理系56を起動する。
【0055】
形態素解析部54から出力される形態素列は言語処理系56に与えられる。言語処理系56は、この形態素列に対してプログラム52に含まれる節境界検出ルールを適用し、テキスト中の節境界に節ラベルを挿入する処理を行ない、結果をバッファ58に出力する。
【0056】
テキスト分離部60は、言語処理系56から節ラベルが出力されるごとに、バッファ58に格納されたテキストを読出し、機械翻訳部62に与える。
【0057】
機械翻訳部62は、与えられる節について機械翻訳を行ない、結果を翻訳出力36として出力する。
【0058】
‐処理例‐
図8を参照して、テキスト190に対して節境界検出処理を行なった。その結果を処理後のテキスト192として示す。処理後のテキスト192は、節境界に対応する形態素列パタンが検出された場所に挿入された節ラベルを含んでいる。たとえば「自主避難が呼びかけられている○×町の▽▽地区では」という部分は「自主避難が呼びかけられている」という節と「○×町の▽▽地区では」以下の節とに分離されている。そして、「自主避難が呼びかけられている」という節には「連体節」という節ラベルが付されている。この節ラベルはスラッシュによって本文と区切られて挿入されている。
【0059】
‐性能評価のための実験‐
本実施の形態に係るプログラム52および言語処理系56により実装した節境界検出装置の性能を評価するために、性質の異なる複数のコーパスに対してルールを適用し、その結果を分析した。用意したコーパスの概略の規模を図9に示す。
【0060】
図9に示される様に、コーパスは全部で5つ用意した。そのうち3つは独話コーパスであり、2つは対話コーパスである。
【0061】
第1の独話コーパスは放送でのいわゆる解説番組を書き起こしたものである。第2の独話コーパスはテレビジョン放送でのニュースの原稿コーパスである。第3の独話コーパスは経済系の複数の新聞記事データベースである。一方、第1の対話コーパスは、出願人において準備したバイリンガルの旅行会話を題材とする模擬会話コーパスである。第2の対話コーパスは、海外旅行で用いられる典型的な表現を収集したコーパスである。
【0062】
図9を参照して、1文の長さは第2の独話コーパスが突出して長く、第1および第3の独話コーパスがこれに次ぐ事が分かる。これに比して対話コーパス中の文はいずれも極端に短い事が分かる。
【0063】
これらコーパスに上記した節境界検出処理を行なった。検出された節の数、1文に含まれる平均節数、各節に含まれる平均形態素数と平均文節数とを図10に示す。図10から、節境界検出処理によって検出された一つの節の長さ(形態素数および文節数)は、独話、対話を問わずコーパス間でほとんど差がない事が分かる。
【0064】
‐評価‐
さらに節境界検出装置の性能を評価するため、各コーパスから500文を選択し、人手で節境界の検出と判定とを行ない、正解データを作成した。上記した節境界検出装置による節境界検出処理の結果と正解データとを照合し、適合率と再現率とを求めた。その結果を図11に表形式で示す。
【0065】
図11を参照して、全てのコーパスにおいて、適合率と再現率ともに非常に高く、非常によい精度で節境界が検出されている事が分かる。この様によい精度で節境界を検出し、節ごとに翻訳処理を行なう事で、機械翻訳の精度も高くなり、結果として良好な翻訳を得る事が可能になる。しかも上記した処理では、形態素列が所定の節境界パタンにマッチすれば節境界が検出できる。文末の入力が行なわれなくても漸進的に節の検出を行なう事ができる。そのため、同時翻訳等に適している。
【0066】
‐節境界検出ルールの実際例‐
以下に、実験で実際に使用した節境界検出ルール(Perlの置換コマンド形式)を示す。ここでは、ルールに相当する置換コマンドのみを示し、スクリプトの制御に属する部分は省略してある。また、実際のスクリプトにおいては1行で記載されるべきところを複数行に分けて記載した部分がある。
【0067】
<ルールの開始>
【0068】
【表1】
【0069】
【表2】
【0070】
【表3】
【0071】
【表4】
【0072】
【表5】
【0073】
【表6】
【0074】
【表7】
【0075】
【表8】
【0076】
【表9】
【0077】
【表10】
【0078】
【表11】
【0079】
【表12】
【0080】
【表13】
【0081】
【表14】
【0082】
【表15】
【0083】
【表16】
【0084】
【表17】
【0085】
【表18】
【0086】
【表19】
【0087】
【表20】
【0088】
【表21】
【0089】
【表22】
【0090】
【表23】
【0091】
【表24】
【0092】
【表25】
【0093】
【表26】
【0094】
【表27】
【0095】
【表28】
【0096】
【表29】
【0097】
【表30】
<ルールの終了>
【0098】
なお、本実施の形態では、言語処理系56から節境界ラベルが出力されるごとに、テキスト分離部60がバッファ58から形態素列を読出して機械翻訳部62に与え、それによって機械翻訳部62による機械翻訳がスタートする。しかし本発明はその様な実施の形態に限定されるわけではない。たとえば言語処理系56の出力を全て一旦バッファ58に記憶し、その後にバッファ58の内容を節境界ラベルにより節ごとに分離して機械翻訳部62に与える様にしてもよい。
【0099】
また、本実施の形態では、節境界を示す形態素列のパタンが検出されると、その末尾に節境界ラベルを挿入している。しかし本発明はその様な実施の形態には限定されず、そのパタンと所定の関係にある位置に節境界ラベルを挿入する様にしてもよい。例えば、形態素列のパタン中の末尾以外の部分に節境界ラベルを挿入すべき場合もあるかもしれない。パタンの末尾以外の場所、たとえばその一つ前に節境界ラベルを挿入する様にしてもよい。この場合、節に分離するときには節境界ラベルの次の形態素までを一つの節とすればよい。また、一箇所でなく2箇所以上に節境界ラベルを挿入する様にしてもよい。たとえば節境界に対応するパタンの先頭と末尾とに節境界の開始ラベルと終了ラベルとをそれぞれ挿入する様にしてもよい。
【0100】
さらに、上記した実施の形態では、入力テキスト34の各行について最初にまとめて読込み、節境界検出処理を行なっている。しかし本発明はその様な実施の形態に限定されるわけではない。例えば、形態素を順次一時記憶装置にFIFO方式で記憶し、記憶された形態素列の中に所定のパタンを満足するものがあれば、そこで節境界を検出する様にしてもよい。この場合には、一時記憶装置に記憶された形態素列を当該パタンまで順次出力し、その末尾に当該パタンに対応する節境界ラベルを挿入する様にすればよい。
【0101】
[第2の実施の形態]
上記した第1の実施の形態の翻訳装置30は、節境界を検出するために、予め所定のプログラム言語(Perl)によりプログラムされたプログラム52と、そのプログラム言語の処理系である言語処理系56とを用いている。しかし本発明はその様な実施の形態に限定される訳ではない。汎用の言語処理系を用いる代わりに、専用のプログラムを用いる事もできる。その場合、節境界ルールについては適宜追加、変更または削除が可能となる様に、ルールのみをデータベース化しておく事が考えられる。
【0102】
図12に、この実施の形態に係る節境界検出装置を採用した、コーパスの統計処理装置の機能的ブロック図を示す。この装置は、処理対象のコーパスに対し、前述した節境界検出処理を行ない、その結果として得られた各節の節ラベルの種類を統計処理し、それによってコーパスの性格を調べる事を可能とするものである。
【0103】
図12を参照して、このコーパスの統計処理装置200は、コーパス202を入力として、コーパス202に含まれる各文を節ラベル付の節に分離し、その結果を統計処理する機能を持つ。コーパスの統計処理装置200は、コーパス202を入力とし、その各文を形態素解析して形態素列を出力するための形態素解析部210と、形態素解析部210の出力する形態素列に対して節境界検出処理を行ない、節境界にその直前までの節の種類を表す節ラベルを挿入してテキストとして出力する処理を行なうための節境界検出部212と、節境界検出部212から出力される節境界検出後のテキスト214内の節ラベルに対して統計的処理を行ない、統計出力204を出力するための統計処理部216とを含む。
【0104】
節境界検出部212は、節境界検出ルールをデータベース化したルールデータベース(ルールDB)232と、形態素解析部210から出力される形態素列に対し、ルールDB232に格納されている節境界検出ルールを適用し、実施の形態1の置換命令と同様の処理を行なって、節境界に節ラベルを挿入したテキスト列として出力するための置換処理部230とを含む。
【0105】
置換処理部230としては、実施の形態1のPerl処理系と同様、正規形を処理できる様な性能を持つものが好ましい。その場合、ルールDB232に格納されるルールの検索文字列に相当する部分を正規表現で表現する事ができるので、ルールDB232の容量を小さくし、かつ処理対象をもれなく適切に処理する事が可能となる。
【0106】
置換処理部230もコンピュータとソフトウェアとで実現できる。その場合の置換処理部230を実現するソフトウェアの構成は、図7に示したフローチャートと同様となる。
【0107】
形態素解析部210としては、実施の形態1で用いたプログラム52と同じものを用いる事ができる。また、統計処理部216で行なう統計処理は、目的に応じて適切なものを準備すればよい。たとえば、前述した節ごとの平均形態素数、平均文節数、節の種類の分布等を、テキスト214に含まれる節ラベルに基づいて計算により求める事ができる。
【0108】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内での全ての変更を含む。
【図面の簡単な説明】
【図1】 独話と対話との相違を示すための図である。
【図2】 本発明の第1の実施の形態に係る翻訳装置の機能的ブロック図である。
【図3】 節境界検出ルールの一般形及び例を説明するための図である。
【図4】 節境界検出ルールを実装したPerlのコマンド形式を説明するための図である。
【図5】 第1の実施の形態の節境界検出ルールで検出可能な節の種類を説明するための図である。
【図6】 第1の実施の形態の装置で節境界検出ルールを実装したPerlスクリプトの構成を示す図である。
【図7】 第1の実施の形態の装置のプログラム52および言語処理系56により実現される、節境界検出処理の制御構造を説明するためのフローチャートである。
【図8】 節境界検出処理の結果例を示す図である。
【図9】 第1の実施の形態による節境界検出処理の性能評価に用いたコーパスの概略規模を表形式で示す図である。
【図10】 第1の実施の形態による節境界検出処理の結果を、コーパス別に表形式で示す図である。
【図11】 第1の実施の形態による節境界検出処理の性能評価の結果を表形式で示す図である。
【図12】 本発明の第2の実施の形態に係るコーパスの統計処理装置の機能的ブロック図である。
【符号の説明】
30 翻訳装置、50 オペレーティングシステム(OS)、52 プログラム、54、210 形態素解析部、56 言語処理系、60 テキスト分離部、62 機械翻訳部、200 コーパスの統計処理装置、212 節境界検出部、216 統計処理部、230 置換処理部、232 ルールデータベース(ルールDB)
Claims (6)
- 文章に対して形態素解析を行なう事により得られた形態素列から、元の文章の節境界を検出するための節境界検出装置であって、
前記形態素列の中において、所定の形態素の並びのパタンを検出するための検出手段と、
前記パタンが検出された事に応答して、前記形態素列の中で、検出された前記パタン中の形態素の並びと所定の関係にある位置を節の境界に指定する予め定める処理を行なって前記形態素列を出力するための境界指定手段とを含み、
前記検出手段は、
前記形態素列を順次読込んでFIFO方式で記憶して出力するための一時記憶手段と、
前記一時記憶手段に記憶された形態素の配列の中に、前記所定の形態素の並びのパタンがある事を検出するための手段とを含み、
前記境界指定手段は、前記所定の形態素の並びのパタンがある事が検出された事に応答して、前記一時記憶手段の前記所定の形態素の並びのパタンまでを出力する様に前記一時記憶手段を制御するための手段と、
前記一時記憶手段から出力される前記所定の形態素の並びのパタンの末尾の形態素の直後に、節境界を示すマーカを挿入するための手段とを含む、節境界検出装置。 - 文章に対して形態素解析を行なう事により得られた形態素列から、元の文章の節境界を検出するための節境界検出装置であって、
前記形態素列の中において、所定の形態素の並びのパタンを検出するための検出手段と、
前記パタンが検出された事に応答して、前記形態素列の中で、検出された前記パタン中の形態素の並びと所定の関係にある位置を節の境界に指定する予め定める処理を行なって前記形態素列を出力するための境界指定手段とを含み、
前記検出手段は、
前記形態素列を順次読込んでFIFO方式で記憶して出力するための一時記憶手段と、
前記一時記憶手段に記憶された形態素の配列の中に、複数個の前記所定の形態素の並びのパタンのうちの任意の一つがある事を検出するための手段とを含み、
前記境界指定手段は、前記任意の一つのパタンが検出された事に応答して、前記一時記憶手段中の、前記検出されたパタンまでをFIFO方式で出力する様に前記一時記憶手段を制御するための手段と、
前記任意の一つのパタンが検出された事に応答して、前記一時記憶手段から出力される前記パタンの末尾の形態素の直後に、検出されたパタンに対応した節境界ラベルを挿入するための手段とを含む、節境界検出装置。 - コンピュータにより実行されると、当該コンピュータを、請求項1又は請求項2に記載の節境界検出装置として動作させる、コンピュータプログラム。
- 入力される日本語の文章に対して形態素解析処理を行ない、得られる形態素列を出力するための形態素解析手段と、
請求項1に記載の節境界検出装置であって、前記形態素解析手段の出力を入力として受ける様に接続された節境界検出装置と、
前記節境界検出装置から出力される形態素列を、当該形態素列中の節境界によって節に分離するための節分離手段と、
前記節分離手段により分離された形態素列を入力とし、前記節分離手段から節を受けとった事に応答して、受けた節を翻訳するための機械翻訳手段とを含む、機械翻訳装置。 - 前記節分離手段は、
前記節境界検出装置からの出力をFIFO方式で一時記憶するための記憶手段と、
前記節境界検出装置から境界マーカが出力された事に応答して、前記記憶手段に記憶された形態素列を前記機械翻訳手段に与え、機械翻訳を開始させるための手段とを含む、請求項4に記載の機械翻訳装置。 - コンピュータにより実行されると、当該コンピュータを、請求項4または請求項5に記載の機械翻訳装置として動作させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003108676A JP3924260B2 (ja) | 2003-04-14 | 2003-04-14 | 節境界検出装置、機械翻訳装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003108676A JP3924260B2 (ja) | 2003-04-14 | 2003-04-14 | 節境界検出装置、機械翻訳装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004318300A JP2004318300A (ja) | 2004-11-11 |
JP3924260B2 true JP3924260B2 (ja) | 2007-06-06 |
Family
ID=33470068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003108676A Expired - Fee Related JP3924260B2 (ja) | 2003-04-14 | 2003-04-14 | 節境界検出装置、機械翻訳装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3924260B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024075179A1 (ja) * | 2022-10-04 | 2024-04-11 | ポケトーク株式会社 | 情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法 |
-
2003
- 2003-04-14 JP JP2003108676A patent/JP3924260B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004318300A (ja) | 2004-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100912502B1 (ko) | Pdf 파일을 대상으로 하는 자동 번역 방법 | |
JP4302326B2 (ja) | テキストの自動区分 | |
US6401061B1 (en) | Combinatorial computational technique for transformation phrase text-phrase meaning | |
CN105917327B (zh) | 用于将文本输入到电子设备中的系统和方法 | |
US7756871B2 (en) | Article extraction | |
US9075793B2 (en) | System and method of providing autocomplete recommended word which interoperate with plurality of languages | |
US20020010573A1 (en) | Method and apparatus for converting expression | |
JP2007265458A (ja) | 複数の圧縮オプションを生成する方法およびコンピュータ | |
US6876963B1 (en) | Machine translation method and apparatus capable of automatically switching dictionaries | |
EP0839357A1 (en) | Method and apparatus for automated search and retrieval processing | |
JP3992348B2 (ja) | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 | |
US7328404B2 (en) | Method for predicting the readings of japanese ideographs | |
Gezmu et al. | Portable spelling corrector for a less-resourced language: Amharic | |
JP3924260B2 (ja) | 節境界検出装置、機械翻訳装置及びコンピュータプログラム | |
CN107168950B (zh) | 一种基于双语语义映射的事件短语学习方法及装置 | |
JP2006251843A (ja) | 同義語対抽出装置及びそのためのコンピュータプログラム | |
Salam et al. | Developing the bangladeshi national corpus-a balanced and representative bangla corpus | |
US20120065959A1 (en) | Word graph | |
JP2005284723A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP4431759B2 (ja) | 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム | |
CN109960720B (zh) | 针对半结构化文本的信息抽取方法 | |
Oostdijk | Using the TOSCA analysis system to analyse a software manual corpus | |
JP2010040020A (ja) | キーワード抽出装置、方法及びプログラム | |
KR100617319B1 (ko) | 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법 | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3924260 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110302 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110302 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120302 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120302 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130302 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130302 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140302 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |