JP2004318300A - Clause boundary detecting device, machine translation device and computer program - Google Patents
Clause boundary detecting device, machine translation device and computer program Download PDFInfo
- Publication number
- JP2004318300A JP2004318300A JP2003108676A JP2003108676A JP2004318300A JP 2004318300 A JP2004318300 A JP 2004318300A JP 2003108676 A JP2003108676 A JP 2003108676A JP 2003108676 A JP2003108676 A JP 2003108676A JP 2004318300 A JP2004318300 A JP 2004318300A
- Authority
- JP
- Japan
- Prior art keywords
- boundary
- clause
- node
- pattern
- detecting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims description 44
- 238000004590 computer program Methods 0.000 title claims description 6
- 238000001514 detection method Methods 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 77
- 238000004458 analytical method Methods 0.000 claims abstract description 34
- 230000000877 morphologic effect Effects 0.000 claims description 47
- 238000000034 method Methods 0.000 claims description 24
- 239000003550 marker Substances 0.000 claims description 11
- 238000000926 separation method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002747 voluntary effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、自然言語処理を適切に行なえる様にするための前処理を行なう装置に関し、特に、翻訳等の処理が適切に行なえる様に節単位に入力テキストを分離する前処理を行なうための節境界検出装置、そうした節境界検出装置を採用した機械翻訳装置、およびそれらのためのコンピュータプログラムに関する。
【0002】
【従来の技術】
近年、独話(複数の発話のまとまりであって、講演、ニュース等、発話者が1人のもの)を対象とした自然音声コーパスの構築が進んでいる。講演、ニュースまたは学会発表等、1人の話者が話しつづける独話は、対話(複数の発話のまとまりであって、2人の発話者が発話を交換するもの)よりも1文の長さが長くなったり、文の構造が複雑化したりするという特徴を持つ事が知られている。
【0003】
図1に、典型的な独話の例であるテレビジョンのニュース(日本語)、及び典型的な対話の例である旅行会話(対訳形式の日本語部分)での1文あたりの形態素数及び文節数を示す。図1から分かる様に、1文あたりの形態素数及び文節数のいずれにおいても、独話の方が対話よりもはるかに多い。
【0004】
さらに、自発的な発話になるほど、明示的な文末表現の現れにくくなる傾向があり、文の境界を認識する事が困難になる。
【0005】
独話又は対話等の音声認識を行なったり、翻訳を行なったりする自然言語処理技術では、従来、「文」を基本的な処理単位とする場合が大半である。
【0006】
しかし、1文が長く、文末が確定しにくいという性格を持つ独話を自然言語処理の対象とする場合、文が長くなる事によって構文解析のあいまい性が爆発するという問題がある。また、文末がはっきりしないために、自然言語処理の対象となるものがはっきりせず、どこまで入力を待てば処理を始めることができるのかが分からないという問題が発生する。
【0007】
こうした問題は、独話を機械翻訳する場合にも現れる。独話を機械翻訳する場合、発話に追従して翻訳を出力する同時通訳としての運用が望ましい。しかし上記した様に独話では1文が長くなるため、解析が失敗したり、その結果として翻訳が失敗したりするという問題がある。仮に翻訳が成功したとしても、同時通訳としての追従性に欠けるという問題がある。また、文末が確定しにくい場合、どの時点でどの部分を対象に翻訳を開始するかを定めることは難しい。
【0008】
【非特許文献1】
益岡隆志・田窪行則著、「基礎日本語文法‐改訂版‐」、くろしお出版、1992
【発明が解決しようとする課題】
従って、特に独話について、発話の中で各種の処理を漸進的に進めておくために、文とは異なる単位を発話中で随時検出できる様にする事が望ましい。可能であれば、その処理単位は文よりも短いほうが望ましい。
【0009】
文よりも短い処理単位として、述語を中心としたまとまりである「節」を用いる事が望ましいと考えられる。節は、統語的・意味的にまとまった単位であり、翻訳または文の要約等の処理を節単位で行なうと有効であると考えられる。そこで、節境界を自動的に検出する手法が必要となる。
【0010】
節境界を検出する手法としてまず考えられるのは、構文解析器を用いて文を解析した結果から、節境界に相当する位置を特定する方法である。しかし、構文解析器は一般に入力として「文」を要求するものである。そのため、文末が入力されて構文解析が済むまでは、節境界の検出を始める事は難しい。この制約は、同時通訳の様に入力を漸進的に処理していく必要がある場合、望ましくない。漸進的な処理を行なうためには、発話の入力中であっても、局所的な情報のみから節境界の位置を検出できる事が望ましい。また、節境界により分離される節がどの様なものであるかを知る事ができれば、自然言語処理技術にとって有用なだけでなく、言語学的な分析にも応用できるため、より好ましい。
【0011】
従って、本発明の目的は、日本語の発話の中から、局所的な情報のみから節境界を検出する事ができる節境界検出装置を提供する事である。
【0012】
この発明の他の目的は、日本語の発話の中から、局所的な情報のみから節境界を随時検出する事ができる節境界検出装置を提供する事である。
【0013】
この発明のさらに他の目的は、日本語の発話の局所的な情報のみから節境界を検出し、当該節境界により分離される節がどの様な種類の節かを判定する事ができる節境界検出装置を提供する事である。
【0014】
この発明のさらに他の目的は、日本語の発話の中から節を随時検出し、節ごとに自動的に翻訳を行なう事ができる機械翻訳装置を提供する事である。
【0015】
【課題を解決するための手段】
本発明の第1の局面に係る節境界検出装置は、文章に対して形態素解析を行なう事により得られた形態素列から、元の文章の節境界を検出するための節境界検出装置であって、形態素列の中において、所定の形態素の並びのパタンを検出するための検出手段と、パタンが検出された事に応答して、形態素列の中で、検出されたパタン中の形態素の並びと所定の関係にある位置を節の境界に指定する予め定める処理を行なって形態素列を出力するための境界指定手段とを含む。
【0016】
好ましくは、境界指定手段は、パタンが検出された事に応答して、ある位置に節の境界を示す境界マーカを挿入して形態素列を出力するための手段を含む。
【0017】
さらに好ましくは、検出手段は、形態素列の中において、複数個のパタンのうちの任意の一つを検出するための手段を含む。
【0018】
境界指定手段は、任意の一つを検出するための手段により上記パタンのうちの任意の一つが検出された事に応答して、検出されたパタン中の形態素の並びと所定の関係にある位置に、検出されたパタンに対応して予め定められた節境界ラベルを挿入するためのラベル挿入手段を含んでもよい。
【0019】
節境界ラベル又は節境界マーカが挿入される位置は、検出されたパタン中の末尾の形態素の直後でもよい。
【0020】
好ましくは、検出手段は、形態素列を順次読込んでFIFO(First−In First−Out)方式で記憶して出力するための一時記憶手段と、一時記憶手段に記憶された形態素の配列の中に、所定の形態素の並びのパタンがある事を検出するための手段とを含み、境界指定手段は、所定の形態素の並びのパタンがある事が検出された事に応答して、一時記憶手段の所定の形態素の並びのパタンまでを出力する様に一時記憶手段を制御するための手段と、一時記憶手段から出力される所定の形態素の並びのパタンの末尾に、節境界を示すマーカを挿入するための手段とを含んでもよい。
【0021】
さらに好ましくは、検出手段は、形態素列を順次読込んでFIFO方式で記憶して出力するための一時記憶手段と、一時記憶手段に記憶された形態素の配列の中に、複数個の所定の形態素の並びのパタンのうちの任意の一つがある事を検出するための手段とを含み、境界指定手段は、任意の一つのパタンが検出された事に応答して、一時記憶手段中の、検出されたパタンまでをFIFO方式で出力する様に一時記憶手段を制御するための手段と、任意の一つのパタンが検出された事に応答して、一時記憶手段から出力されるパタンの末尾に、検出されたパタンに対応した節境界ラベルを挿入するための手段とを含む。
【0022】
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの節境界検出装置として動作させるものである。
【0023】
本発明の第3の局面に係る機械翻訳装置は、入力される日本語の文章に対して形態素解析処理を行ない、得られる形態素列を出力するための形態素解析手段と、上記したいずれかの節境界検出装置であって、形態素解析手段の出力を入力として受ける様に接続された節境界検出装置と、節境界検出装置から出力される形態素列を、当該形態素列中の節境界によって節に分離するための節分離手段と、節分離手段により分離された形態素列を入力とし、節分離手段から節を受けとった事に応答して、受けた節を翻訳するための機械翻訳手段とを含む。
【0024】
好ましくは、節境界検出装置は出力する形態素列の節境界に節境界マーカを挿入する機能を持ち、節分離手段は、節境界検出装置からの出力をFIFO方式で一時記憶するための記憶手段と、節境界検出装置から節境界マーカが出力された事に応答して、記憶手段に記憶された形態素列を機械翻訳手段に与え、機械翻訳を開始させるための手段とを含む。
【0025】
本発明の第4の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記した機械翻訳装置として動作させるものである。
【0026】
【発明の実施の形態】
[第1の実施の形態]
‐節境界検出の原理‐
構文解析を行なわずに節境界を検出するために、本実施の形態では、入力テキストを形態素解析し、形態素の局所的な連接関係のみを手掛かりとして節境界を検出する。そのために、形態素の局所的な連接関係をパタンに分類し、特定のパタンが検出された場合に節境界を特定するルールを作成し、このルールに従って自動的に節境界を特定する。この節境界検出ルールは、節境界の位置を発見するための形態素列パタンと、節境界の種類をあらわす節境界ラベルの組とからなっている。構文解析は必要としない。
【0027】
‐構成‐
図2に、本実施の形態の節境界検出装置を採用した翻訳装置の機能ブロック図を示す。この実施の形態のシステムは、テキスト処理が可能な既存の言語処理系(具体的にはPerl処理系)を用い、節境界検出ルールをPerlの正規表現置換を用いたスクリプトの形式で実装している。
【0028】
図2を参照して、この翻訳装置30は、ユーザからの起動コマンド32に応答して、日本語の入力テキスト34を英語に機械翻訳し、結果を翻訳出力36として出力するためのものである。翻訳装置30は、入力テキスト34を形態素解析し、形態素列を出力するための形態素解析部54を含む。形態素解析部54としては、既存の形態素解析用プログラムを用いる事ができる。図3に、形態素解析用プログラムとしてよく知られているものの出力形式と出力例とを示す。図3の詳細については後述する。
【0029】
再び図2を参照して、翻訳装置30はさらに、上記した節境界検出ルールをPerlの正規表現命令列からなるスクリプトの形で実装したプログラム52と、形態素解析部54の出力する形態素列に対してプログラム52を適用する事により、節境界ごとに節ラベルが挿入された処理後のテキストを出力するための言語処理系56と、言語処理系56の出力をFIFO方式で一時的に蓄積するバッファ58と、言語処理系56から節ラベルが出力されるごとに、バッファ58に蓄積されたテキストを読出して出力する事により、テキストを節に分離するためのテキスト分離部60と、テキスト分離部60から与えられるテキストを英語に翻訳して翻訳出力36として出力するための機械翻訳部62と、ユーザからの起動コマンド32に応答して入力テキスト34およびプログラム52を読込み、形態素解析部54および言語処理系56等を起動するためのオペレーティングシステム(OS)50とを含む。ここで節の境界を示す情報を「節ラベル」と呼んでいるのは、節の種類を示す情報を含んでいるためである。この節ラベルは、そこに節境界が存在している事を表すものでもあり、節境界を示すマーカとしての役割も果たしている。
【0030】
OS50、言語処理系56を備え、プログラム52を実行する事からも分かる様に、翻訳装置30は実質的にはコンピュータから構成されている。入力テキスト34および翻訳出力36はそれぞれ、標準入力および標準出力を示すが、本実施の形態では入力テキスト34は所定のファイルから与えられ、翻訳出力36も所定のファイルとして出力されるものとする。
【0031】
図3を参照して、形態素解析部54の出力形式80について説明する。形態素解析部54が出力する形態素は、出力形式80に示される様に、形態素の出現形と、その品詞と、その活用形と、出現したときの活用型とからなる。「活用形」とは、動詞、助動詞、形容詞等の活用のしかたの分類を示すものである。例は「五段活用」「下二段活用」の如きものである。活用型とは、出現した形態素が、各活用形の中でどの様な活用をされているかを示すものである。例は「未然形」「連用形」「連体形」等の如きものである。
【0032】
図3に、入力例82として「私は学校へ行きました」という一文を示す。これを形態素解析部54により形態素解析した結果を解析結果84に示す。解析結果84から明らかな様に、形態素解析部54は入力テキスト34を形態素解析し、出力形式80に従った形式の形態素列を出力する機能を持つ。
【0033】
図4に、節境界検出ルールの例を実装したPerlによるコマンドの例を示す。図4を参照して、Perlによる置換コマンドの一般形100は、置換を示すコマンド「s」と、置換の際に検索すべき検索文字列と、検索された文字列を置換すべき文字列と、置換の際のオプション機能を指定するオプション文字列とを「/(スラッシュ)」により区切った形式となっている。検索文字列及び置換文字列には、それぞれ「正規形」と呼ばれる形式を使用する事ができる。Perlに限らず、この様な正規形が使用できる言語処理系は数多く存在する。正規形について必要な場合には以下で説明を加えてあるが、一般的な説明については各言語処理系の解説書等を参照されたい。
【0034】
図4の基本形102により、本実施の形態でPerlにより実装された節境界検出ルールの一般形を示す。基本形102は、一般形100において、検索文字列を形態素列パタン110とし、置換文字列を「$1 ¥/節ラベル¥/」という置換文字列表現112とし、オプションとして「g」を指定したものである。
【0035】
形態素列パタン110は丸カッコで囲まれている。これは置換文字列表現112の中の「$1」に対応する。置換文字列表現112中の「$1」は、この部分を検索文字列中で丸カッコで囲まれた文字列の中で1番目のものと置換する事を示す。検索文字列の中で丸カッコで囲まれた文字列は形態素列パタン110しかないので、$1は形態素列パタン110により置換される。
【0036】
置換文字列表現112の中の「¥」はエスケープ文字であり、この直後の一文字をコマンドの一部ではなく単なる文字として扱う事を示す。この例では、置換文字列が「/」を含んでいるのに対し、この「/」がコマンド中でも使用されているので、置換文字列中のスラッシュを単なる文字列として扱うために「¥」を使用している。節ラベルについては後述する。
【0037】
オプション「g」は、グローバルサーチを示す。すなわち、検索文字列で入力文字列を検索した結果、最初のマッチが見出されたところで検索を終了するのではなく、マッチがいくつ見出されても入力文字列の全体について検索および置換を行なう事を示す。
【0038】
すなわち、基本形102によれば、形態素列パタン110にマッチする形態素列があれば、その形態素列の最後に「/節ラベル/」で示される文字列が挿入される事になる。
【0039】
図4には、具体的な節境界検出ルールの第1の例104も示されている。この例104は、入力される形態素列中に「けれども」という出現形で「助詞‐接続助詞」という品詞を持つものがあれば、その部分を全て「けれども/並列節ケレドモ/」という文字列で置換せよ、というものである。
【0040】
同じく図4には、具体的な節境界検出ルールの第2の例106も示されている。この例106は、入力される形態素列中に「連用タ接続」または「連用形」という活用型の形態素があり、その直後に「たら」という出現形で「助動詞」という品詞を持ち、「特殊・タ」という活用形で「仮定形」という活用型を持つパタンがあれば、それらを全て、その末尾に「/条件節タラ/」という文字列を付加したもので置換せよ、というものである。検索文字列中の「|」は、「または」という意味を表す。
【0041】
本実施の形態では、この様な節境界検出ルールとして361個のルールを用いている。全てのルールは、1個から3個の連接する形態素から構成されるパタンを持つ。入力には読点が含まれていない事を想定し、パタンに読点は含めていない。
【0042】
図5に、本実施の形態で検出される節の種類の一部を示す。本実施の形態では、非特許文献1に記載されている従属節の形態(補足節、副詞節、連体節、および並列節)を増補及び改編して作成したもので、合計144種類の節を用いる。これらの中には、統語的に大きな切れ目になると考えられる主題「は」、談話標識、および感動詞を検出するパタンも含まれている。本明細書では、これらも含めて「節境界」と考える事とする。
【0043】
本実施の形態で用いられている節ラベルは、実際には図5に示したものをさらに細かく分類したものである。例えば、「タメ節」の下位には「タメニ節」「タメニハ節」という節境界が設定してある。これら下位の節境界を合計すると144種類となるという事である。
【0044】
図6に、プログラム52の実際の形式を示す。図6を参照して、プログラム52は、Perlの書式に従ってPerlの処理系へのパスを示す行(1行目)を含む。2行目は、入力されるテキストが存在する限り次の中かっこ「{」および「}」に囲まれた部分の処理を繰返し実行する事を示す命令である。この中かっこの中が、上記した節境界検出ルールの本体である。入力があると、ここに記載された全てのグローバル置換命令を実行し、置換後のテキストを末尾の「print」命令によって標準出力に出力し、次の入力に対する処理に移る。
【0045】
図7に、図2に示す言語処理系56およびプログラム52によって実現される節境界検出処理の実態をフローチャート形式で示す。言語処理系56自体は図7に示すものと異なり汎用的な機能を備えたものであるが、ここではプログラム52を言語処理系56で実行する場合についてのみ、その動きを示す。後述する様に、プログラム52および言語処理系56により実現される処理を専用のプログラムで実装する場合には、その制御構造は例えばこの図7に示されたものの様になる。
【0046】
図7を参照してこの処理は、関連するファイル(入力ファイルおよび出力ファイル等)をオープンするステップ140と、入力テキストファイルの1行目(改行コードまでの文字列)を読込むステップ142と、ステップ142の結果、入力ファイルの末尾(EOF:End Of File)に達したか否かを判定するステップ144とを含む。判定結果がYESであれば制御はステップ162に進み、さもなければ制御はステップ146に進む。なお、複数の入力ファイルに対して連続してこの処理を実行する事もできるが、ここでは説明を簡明にするために一つのファイルに対して処理を行なうものとする。
【0047】
ステップ146では、初期処理を行なう。初期処理では、入力されたテキストに対し、節境界の検出処理を行なう上で妨げとなる様な要素を入力テキストから除去する処理を行なう。
【0048】
続いてステップ148では、1番目の置換コマンドのグローバル検索を行なう。ステップ150では、プログラム52内の全ての置換コマンドを実行したか否かを判定する。全て実行が終わっていれば制御はステップ158に進む。さもなければ制御はステップ152に進む。
【0049】
ステップ152では、検索の結果、置換コマンドの検索文字列の正規表現にマッチした部分があったか否かを判定する。マッチがあれば制御はステップ154に進む。さもなければ制御はステップ150に戻る。
【0050】
ステップ154では、マッチがあった部分を全て置換文字列で置換する処理が行なわれる。全て置換が終わったらステップ156で処理を次の置換コマンドに進めて制御をステップ150に戻す。
【0051】
ステップ150で全ての置換コマンドの実行が完了したと判定された場合、制御はステップ158に進む。ステップ158では、置換処理が完了した1行分のテキストを標準出力に書き出す処理が実行される。続いて入力テキストファイルの次の1行を読込む。制御はこの後ステップ144に戻る。
【0052】
一方、ステップ144で入力ファイルのEOFに到達したと判定された場合、ステップ162で関連のファイルを全てクローズして処理を終了する。
【0053】
‐動作‐
この機械翻訳装置は以下の様に動作する。図2を参照して、ユーザが起動コマンド32を入力したものとする。起動コマンド32は、入力テキスト34とプログラム52とを特定する情報を含む。
【0054】
OS50はこのコマンドに応答して形態素解析部54を起動し、入力テキスト34を開いて形態素解析部54で形態素解析を行なわせる。一方OS50は、起動コマンド32により特定されるプログラム52を記憶装置から読出す。前述の通り、プログラム52の1行目にはこのプログラム52を実行するための言語処理系へのパスが記載されている。OS50はこのパスに従って言語処理系56を起動する。
【0055】
形態素解析部54から出力される形態素列は言語処理系56に与えられる。言語処理系56は、この形態素列に対してプログラム52に含まれる節境界検出ルールを適用し、テキスト中の節境界に節ラベルを挿入する処理を行ない、結果をバッファ58に出力する。
【0056】
テキスト分離部60は、言語処理系56から節ラベルが出力されるごとに、バッファ58に格納されたテキストを読出し、機械翻訳部62に与える。
【0057】
機械翻訳部62は、与えられる節について機械翻訳を行ない、結果を翻訳出力36として出力する。
【0058】
‐処理例‐
図8を参照して、テキスト190に対して節境界検出処理を行なった。その結果を処理後のテキスト192として示す。処理後のテキスト192は、節境界に対応する形態素列パタンが検出された場所に挿入された節ラベルを含んでいる。たとえば「自主避難が呼びかけられている○×町の▽▽地区では」という部分は「自主避難が呼びかけられている」という節と「○×町の▽▽地区では」以下の節とに分離されている。そして、「自主避難が呼びかけられている」という節には「連体節」という節ラベルが付されている。この節ラベルはスラッシュによって本文と区切られて挿入されている。
【0059】
‐性能評価のための実験‐
本実施の形態に係るプログラム52および言語処理系56により実装した節境界検出装置の性能を評価するために、性質の異なる複数のコーパスに対してルールを適用し、その結果を分析した。用意したコーパスの概略の規模を図9に示す。
【0060】
図9に示される様に、コーパスは全部で5つ用意した。そのうち3つは独話コーパスであり、2つは対話コーパスである。
【0061】
第1の独話コーパスは放送でのいわゆる解説番組を書き起こしたものである。第2の独話コーパスはテレビジョン放送でのニュースの原稿コーパスである。第3の独話コーパスは経済系の複数の新聞記事データベースである。一方、第1の対話コーパスは、出願人において準備したバイリンガルの旅行会話を題材とする模擬会話コーパスである。第2の対話コーパスは、海外旅行で用いられる典型的な表現を収集したコーパスである。
【0062】
図9を参照して、1文の長さは第2の独話コーパスが突出して長く、第1および第3の独話コーパスがこれに次ぐ事が分かる。これに比して対話コーパス中の文はいずれも極端に短い事が分かる。
【0063】
これらコーパスに上記した節境界検出処理を行なった。検出された節の数、1文に含まれる平均節数、各節に含まれる平均形態素数と平均文節数とを図10に示す。図10から、節境界検出処理によって検出された一つの節の長さ(形態素数および文節数)は、独話、対話を問わずコーパス間でほとんど差がない事が分かる。
【0064】
‐評価‐
さらに節境界検出装置の性能を評価するため、各コーパスから500文を選択し、人手で節境界の検出と判定とを行ない、正解データを作成した。上記した節境界検出装置による節境界検出処理の結果と正解データとを照合し、適合率と再現率とを求めた。その結果を図11に表形式で示す。
【0065】
図11を参照して、全てのコーパスにおいて、適合率と再現率ともに非常に高く、非常によい精度で節境界が検出されている事が分かる。この様によい精度で節境界を検出し、節ごとに翻訳処理を行なう事で、機械翻訳の精度も高くなり、結果として良好な翻訳を得る事が可能になる。しかも上記した処理では、形態素列が所定の節境界パタンにマッチすれば節境界が検出できる。文末の入力が行なわれなくても漸進的に節の検出を行なう事ができる。そのため、同時翻訳等に適している。
【0066】
‐節境界検出ルールの実際例‐
以下に、実験で実際に使用した節境界検出ルール(Perlの置換コマンド形式)を示す。ここでは、ルールに相当する置換コマンドのみを示し、スクリプトの制御に属する部分は省略してある。また、実際のスクリプトにおいては1行で記載されるべきところを複数行に分けて記載した部分がある。
【0067】
<ルールの開始>
【0068】
【表1】
【0069】
【表2】
【0070】
【表3】
【0071】
【表4】
【0072】
【表5】
【0073】
【表6】
【0074】
【表7】
【0075】
【表8】
【0076】
【表9】
【0077】
【表10】
【0078】
【表11】
【0079】
【表12】
【0080】
【表13】
【0081】
【表14】
【0082】
【表15】
【0083】
【表16】
【0084】
【表17】
【0085】
【表18】
【0086】
【表19】
【0087】
【表20】
【0088】
【表21】
【0089】
【表22】
【0090】
【表23】
【0091】
【表24】
【0092】
【表25】
【0093】
【表26】
【0094】
【表27】
【0095】
【表28】
【0096】
【表29】
【0097】
【表30】
<ルールの終了>
【0098】
なお、本実施の形態では、言語処理系56から節境界ラベルが出力されるごとに、テキスト分離部60がバッファ58から形態素列を読出して機械翻訳部62に与え、それによって機械翻訳部62による機械翻訳がスタートする。しかし本発明はその様な実施の形態に限定されるわけではない。たとえば言語処理系56の出力を全て一旦バッファ58に記憶し、その後にバッファ58の内容を節境界ラベルにより節ごとに分離して機械翻訳部62に与える様にしてもよい。
【0099】
また、本実施の形態では、節境界を示す形態素列のパタンが検出されると、その末尾に節境界ラベルを挿入している。しかし本発明はその様な実施の形態には限定されず、そのパタンと所定の関係にある位置に節境界ラベルを挿入する様にしてもよい。例えば、形態素列のパタン中の末尾以外の部分に節境界ラベルを挿入すべき場合もあるかもしれない。パタンの末尾以外の場所、たとえばその一つ前に節境界ラベルを挿入する様にしてもよい。この場合、節に分離するときには節境界ラベルの次の形態素までを一つの節とすればよい。また、一箇所でなく2箇所以上に節境界ラベルを挿入する様にしてもよい。たとえば節境界に対応するパタンの先頭と末尾とに節境界の開始ラベルと終了ラベルとをそれぞれ挿入する様にしてもよい。
【0100】
さらに、上記した実施の形態では、入力テキスト34の各行について最初にまとめて読込み、節境界検出処理を行なっている。しかし本発明はその様な実施の形態に限定されるわけではない。例えば、形態素を順次一時記憶装置にFIFO方式で記憶し、記憶された形態素列の中に所定のパタンを満足するものがあれば、そこで節境界を検出する様にしてもよい。この場合には、一時記憶装置に記憶された形態素列を当該パタンまで順次出力し、その末尾に当該パタンに対応する節境界ラベルを挿入する様にすればよい。
【0101】
[第2の実施の形態]
上記した第1の実施の形態の翻訳装置30は、節境界を検出するために、予め所定のプログラム言語(Perl)によりプログラムされたプログラム52と、そのプログラム言語の処理系である言語処理系56とを用いている。しかし本発明はその様な実施の形態に限定される訳ではない。汎用の言語処理系を用いる代わりに、専用のプログラムを用いる事もできる。その場合、節境界ルールについては適宜追加、変更または削除が可能となる様に、ルールのみをデータベース化しておく事が考えられる。
【0102】
図12に、この実施の形態に係る節境界検出装置を採用した、コーパスの統計処理装置の機能的ブロック図を示す。この装置は、処理対象のコーパスに対し、前述した節境界検出処理を行ない、その結果として得られた各節の節ラベルの種類を統計処理し、それによってコーパスの性格を調べる事を可能とするものである。
【0103】
図12を参照して、このコーパスの統計処理装置200は、コーパス202を入力として、コーパス202に含まれる各文を節ラベル付の節に分離し、その結果を統計処理する機能を持つ。コーパスの統計処理装置200は、コーパス202を入力とし、その各文を形態素解析して形態素列を出力するための形態素解析部210と、形態素解析部210の出力する形態素列に対して節境界検出処理を行ない、節境界にその直前までの節の種類を表す節ラベルを挿入してテキストとして出力する処理を行なうための節境界検出部212と、節境界検出部212から出力される節境界検出後のテキスト214内の節ラベルに対して統計的処理を行ない、統計出力204を出力するための統計処理部216とを含む。
【0104】
節境界検出部212は、節境界検出ルールをデータベース化したルールデータベース(ルールDB)232と、形態素解析部210から出力される形態素列に対し、ルールDB232に格納されている節境界検出ルールを適用し、実施の形態1の置換命令と同様の処理を行なって、節境界に節ラベルを挿入したテキスト列として出力するための置換処理部230とを含む。
【0105】
置換処理部230としては、実施の形態1のPerl処理系と同様、正規形を処理できる様な性能を持つものが好ましい。その場合、ルールDB232に格納されるルールの検索文字列に相当する部分を正規表現で表現する事ができるので、ルールDB232の容量を小さくし、かつ処理対象をもれなく適切に処理する事が可能となる。
【0106】
置換処理部230もコンピュータとソフトウェアとで実現できる。その場合の置換処理部230を実現するソフトウェアの構成は、図7に示したフローチャートと同様となる。
【0107】
形態素解析部210としては、実施の形態1で用いたプログラム52と同じものを用いる事ができる。また、統計処理部216で行なう統計処理は、目的に応じて適切なものを準備すればよい。たとえば、前述した節ごとの平均形態素数、平均文節数、節の種類の分布等を、テキスト214に含まれる節ラベルに基づいて計算により求める事ができる。
【0108】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内での全ての変更を含む。
【図面の簡単な説明】
【図1】独話と対話との相違を示すための図である。
【図2】本発明の第1の実施の形態に係る翻訳装置の機能的ブロック図である。
【図3】節境界検出ルールの一般形及び例を説明するための図である。
【図4】節境界検出ルールを実装したPerlのコマンド形式を説明するための図である。
【図5】第1の実施の形態の節境界検出ルールで検出可能な節の種類を説明するための図である。
【図6】第1の実施の形態の装置で節境界検出ルールを実装したPerlスクリプトの構成を示す図である。
【図7】第1の実施の形態の装置のプログラム52および言語処理系56により実現される、節境界検出処理の制御構造を説明するためのフローチャートである。
【図8】節境界検出処理の結果例を示す図である。
【図9】第1の実施の形態による節境界検出処理の性能評価に用いたコーパスの概略規模を表形式で示す図である。
【図10】第1の実施の形態による節境界検出処理の結果を、コーパス別に表形式で示す図である。
【図11】第1の実施の形態による節境界検出処理の性能評価の結果を表形式で示す図である。
【図12】本発明の第2の実施の形態に係るコーパスの統計処理装置の機能的ブロック図である。
【符号の説明】
30 翻訳装置、50 オペレーティングシステム(OS)、52 プログラム、54、210 形態素解析部、56 言語処理系、60 テキスト分離部、62 機械翻訳部、200 コーパスの統計処理装置、212 節境界検出部、216 統計処理部、230 置換処理部、232 ルールデータベース(ルールDB)[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an apparatus for performing preprocessing for appropriately performing natural language processing, and more particularly, to performing preprocessing for separating input text into sections so that processing such as translation can be appropriately performed. The present invention relates to a node boundary detection device, a machine translation device employing such a node boundary detection device, and a computer program for the same.
[0002]
[Prior art]
2. Description of the Related Art In recent years, construction of a natural speech corpus for a single story (a group of a plurality of utterances, such as lectures, news, and the like, having one utterer) has been advanced. A monologue, in which one speaker continues to speak, such as a lecture, news, or conference presentation, is one sentence longer than a dialogue (a group of utterances where two speakers exchange utterances). It is known that it has a feature that the length of a sentence becomes longer and a sentence structure becomes complicated.
[0003]
FIG. 1 shows the number of morphemes and the number of morphemes per sentence in a television news (Japanese) which is a typical example of a monologue, and a travel conversation (a Japanese part in a bilingual form) which is a typical example of a dialogue. Indicates the number of clauses. As can be seen from FIG. 1, in both the number of morphemes and the number of clauses per sentence, there is much more in single talk than in dialogue.
[0004]
Furthermore, the more spontaneous the utterance, the more the explicit end-of-sentence expression tends to appear, making it difficult to recognize the boundaries of sentences.
[0005]
2. Description of the Related Art In natural language processing technology for performing speech recognition such as a monologue or a conversation and performing translation, a "sentence" is generally used as a basic processing unit in most cases.
[0006]
However, in the case where a single sentence is long and the end of the sentence is hard to be determined, so that natural language processing is performed, there is a problem that the ambiguity of syntax analysis explodes due to the long sentence. Further, since the end of the sentence is not clear, the target of the natural language processing is not clear, and there is a problem that it is difficult to know how long the input can wait before the processing can be started.
[0007]
These problems also arise when translating monologue into a machine. When translating a solitary story, it is desirable to operate as a simultaneous interpreter that outputs a translation following the speech. However, as described above, since one sentence becomes longer in a solitary story, there is a problem that the analysis fails and as a result, the translation fails. Even if the translation is successful, there is a problem that it lacks followability as a simultaneous interpreter. If the end of a sentence is difficult to determine, it is difficult to determine at what point in time what translation should be started.
[0008]
[Non-patent document 1]
Takashi Masuoka and Yukinori Takubo, "Basic Japanese Grammar-Revised Edition", Kuroshio Publishing, 1992
[Problems to be solved by the invention]
Therefore, it is desirable that a unit different from a sentence can be detected in the utterance at any time in order to advance various processes in the utterance, especially for a single utterance. If possible, the processing unit should be shorter than the sentence.
[0009]
It is considered desirable to use a "clause", which is a unit around a predicate, as a processing unit shorter than a sentence. A clause is a unit that is syntactically and semantically united, and it is considered effective to perform processing such as translation or summarizing sentences in units of clauses. Therefore, a method of automatically detecting a node boundary is required.
[0010]
The first method for detecting a clause boundary is to identify a position corresponding to a clause boundary from the result of analyzing a sentence using a parser. However, parsers generally require "sentences" as input. Therefore, it is difficult to start detecting a clause boundary until the end of a sentence is input and parsing is completed. This restriction is undesirable when the input needs to be processed progressively, such as simultaneous interpretation. In order to perform gradual processing, it is desirable that the position of a node boundary can be detected only from local information even during the input of an utterance. It is more preferable to be able to know what clauses are separated by clause boundaries, because they are useful not only for natural language processing technology but also for linguistic analysis.
[0011]
Accordingly, an object of the present invention is to provide a node boundary detecting device capable of detecting a node boundary from only local information from Japanese utterances.
[0012]
Another object of the present invention is to provide a node boundary detecting device capable of detecting a node boundary at any time only from local information from Japanese utterances.
[0013]
Still another object of the present invention is to detect a clause boundary from only local information of Japanese utterances and determine what kind of clause is separated by the clause boundary. It is to provide a detection device.
[0014]
Still another object of the present invention is to provide a machine translation apparatus capable of detecting a clause from Japanese utterances as needed and automatically performing translation for each clause.
[0015]
[Means for Solving the Problems]
A clause boundary detection device according to a first aspect of the present invention is a clause boundary detection device for detecting a clause boundary of an original sentence from a morphological sequence obtained by performing a morphological analysis on a sentence. A detecting unit for detecting a pattern of a predetermined morpheme sequence in the morpheme sequence, and a morpheme sequence in the detected pattern in the morpheme sequence in response to the detection of the pattern. Boundary specifying means for performing a predetermined process of specifying a position having a predetermined relationship as a boundary of a node and outputting a morpheme string.
[0016]
Preferably, the boundary specifying means includes a means for outputting a morphological sequence by inserting a boundary marker indicating a boundary of a node at a certain position in response to the detection of the pattern.
[0017]
More preferably, the detecting means includes means for detecting any one of the plurality of patterns in the morphological sequence.
[0018]
In response to the detection of any one of the patterns by the means for detecting any one of the patterns, the boundary designating means determines a position having a predetermined relationship with the arrangement of the morphemes in the detected pattern. In addition, a label insertion unit for inserting a predetermined node boundary label corresponding to the detected pattern may be included.
[0019]
The position where the node boundary label or the node boundary marker is inserted may be immediately after the last morpheme in the detected pattern.
[0020]
Preferably, the detection unit includes a temporary storage unit for sequentially reading the morpheme sequence, storing and outputting the sequence in a FIFO (First-In First-Out) method, and an arrangement of the morphemes stored in the temporary storage unit. Means for detecting the presence of a pattern having a predetermined morpheme sequence. The boundary designating means responds to the detection of the presence of the pattern having a predetermined morpheme sequence, and Means for controlling the temporary storage means so as to output up to the pattern of the morpheme sequence, and inserting a marker indicating a node boundary at the end of the predetermined morpheme sequence pattern output from the temporary storage means. Means may be included.
[0021]
More preferably, the detection means includes a temporary storage means for sequentially reading the morpheme sequence, storing and outputting the same in a FIFO manner, and a plurality of predetermined morphemes in the morpheme array stored in the temporary storage means. Means for detecting the presence of any one of the patterns in the list, wherein the boundary designation means responds to the detection of any one of the patterns in the temporary storage means. Means for controlling the temporary storage means so as to output up to the pattern in the FIFO method, and detecting the end of the pattern output from the temporary storage means in response to detection of any one of the patterns. Means for inserting a section boundary label corresponding to the specified pattern.
[0022]
A computer program according to a second aspect of the present invention, when executed by a computer, causes the computer to operate as any one of the node boundary detection devices described above.
[0023]
A machine translation device according to a third aspect of the present invention performs a morphological analysis process on an input Japanese sentence, and outputs a morphological sequence obtained, and a morphological analysis unit including: A boundary detection device, wherein a node boundary detection device connected to receive an output of the morphological analysis means as an input, and a morpheme sequence output from the node boundary detection device are separated into nodes by the node boundaries in the morpheme sequence. And a machine translation means for translating the received clause in response to receiving a clause from the clause separating means.
[0024]
Preferably, the node boundary detecting device has a function of inserting a node boundary marker at a node boundary of a morpheme string to be output, and the node separating unit includes a storage unit for temporarily storing an output from the node boundary detecting unit in a FIFO method. Means for giving the morpheme sequence stored in the storage means to the machine translation means in response to the output of the clause boundary marker from the clause boundary detection device to start the machine translation.
[0025]
A computer program according to a fourth aspect of the present invention, when executed by a computer, causes the computer to operate as the above-described machine translation device.
[0026]
BEST MODE FOR CARRYING OUT THE INVENTION
[First Embodiment]
-Principle of node boundary detection-
In order to detect a clause boundary without performing a syntax analysis, in the present embodiment, a morphological analysis is performed on an input text, and a clause boundary is detected using only a local connection relation of morphemes as a clue. For this purpose, local connection relations of morphemes are classified into patterns, a rule for specifying a node boundary when a specific pattern is detected is created, and the node boundary is automatically specified according to this rule. This clause boundary detection rule includes a set of a morpheme sequence pattern for finding the position of the clause boundary and a clause boundary label indicating the type of the clause boundary. No parsing is required.
[0027]
-Constitution-
FIG. 2 shows a functional block diagram of a translation device employing the node boundary detection device of the present embodiment. The system of this embodiment uses an existing language processing system capable of text processing (specifically, a Perl processing system), and implements clause boundary detection rules in the form of a script using Perl regular expression replacement. I have.
[0028]
Referring to FIG. 2, in response to a
[0029]
Referring again to FIG. 2,
[0030]
As can be seen from the fact that the
[0031]
The
[0032]
FIG. 3 shows a sentence “I went to school” as an input example 82. The result of morphological analysis of this by the
[0033]
FIG. 4 shows an example of a command by Perl that implements an example of a node boundary detection rule. Referring to FIG. 4, the
[0034]
The
[0035]
The
[0036]
“@” In the replacement
[0037]
Option "g" indicates a global search. That is, as a result of searching the input character string with the search character string, the search is not terminated when the first match is found, but the search and replacement are performed for the entire input character string no matter how many matches are found. Show things.
[0038]
That is, according to the
[0039]
FIG. 4 also shows a first example 104 of a specific node boundary detection rule. In this example 104, if the input morpheme string has a part-of-speech "particle-connected particle" in the appearance form of "kademo", all of the parts are represented by the character string "kade / parallel clause keredomo /". Replace it.
[0040]
FIG. 4 also shows a second example 106 of a specific node boundary detection rule. In this example 106, in the input morpheme sequence, there is an inflected morpheme “continuous connection” or “continuous form”, followed immediately by a part-of-speech “auxiliary verb” in the appearance “tarar”, and If there is a pattern with a utilization form of "assumed form" in the utilization form of "ta", replace all of them with a character string of "/ conditional clause cod /" at the end. “|” In the search character string represents “or”.
[0041]
In the present embodiment, 361 rules are used as such a node boundary detection rule. Every rule has a pattern consisting of one to three connected morphemes. Assuming that readings are not included in the input, the readings are not included in the pattern.
[0042]
FIG. 5 shows some of the types of nodes detected in the present embodiment. In the present embodiment, the forms of the dependent clauses (supplementary clauses, adverbial clauses, adnominal clauses, and parallel clauses) described in Non-Patent Document 1 are created by augmenting and reorganizing them. Used. These include the subject "ha", which is considered to be a syntactically large break, a discourse marker, and a pattern for detecting an inflectional verb. In the present specification, these are considered as “knot boundaries”.
[0043]
The node labels used in the present embodiment are actually obtained by further subdividing the labels shown in FIG. For example, node boundaries of “Tameni clause” and “Tameniha clause” are set below “Tame clause”. The sum of these lower node boundaries is 144 types.
[0044]
FIG. 6 shows the actual format of the
[0045]
FIG. 7 is a flowchart showing the actual state of the clause boundary detection processing realized by the
[0046]
Referring to FIG. 7, this processing includes a
[0047]
In
[0048]
Subsequently, at
[0049]
In
[0050]
In
[0051]
If it is determined in
[0052]
On the other hand, if it is determined in
[0053]
-motion-
This machine translator operates as follows. Referring to FIG. 2, it is assumed that the user has
[0054]
The
[0055]
The morpheme sequence output from the
[0056]
The
[0057]
The
[0058]
-Processing example-
Referring to FIG. 8, a section boundary detection process is performed on
[0059]
-Experiments for performance evaluation-
In order to evaluate the performance of the node boundary detection device implemented by the
[0060]
As shown in FIG. 9, five corpus were prepared in all. Three of them are solitary corpora and two are conversation corpora.
[0061]
The first monolingual corpus is a transcript of a so-called commentary program in broadcasting. The second monopoly corpus is a manuscript corpus of news on television broadcasting. The third monopoly corpus is a database of newspaper articles related to the economy. On the other hand, the first conversation corpus is a simulated conversation corpus prepared on the basis of a bilingual travel conversation prepared by the applicant. The second dialogue corpus is a corpus that collects typical expressions used in overseas travel.
[0062]
Referring to FIG. 9, it can be seen that the length of one sentence is prominently longer in the second monolingual corpus, followed by the first and third monolingual corpora. In contrast, the sentences in the conversation corpus are extremely short.
[0063]
The above-described node boundary detection processing was performed on these corpora. FIG. 10 shows the number of detected clauses, the average number of clauses included in one sentence, the average number of morphemes included in each clause, and the average number of clauses. From FIG. 10, it can be seen that the length of one clause (the number of morphemes and the number of clauses) detected by the clause boundary detection processing has almost no difference between the corpora irrespective of a monologue or a conversation.
[0064]
-Evaluation-
Furthermore, in order to evaluate the performance of the node boundary detecting device, 500 sentences were selected from each corpus, and the node boundaries were detected and determined manually to create correct answer data. The result of the node boundary detection processing by the above-described node boundary detection device was collated with the correct answer data, and the precision and the recall were obtained. The results are shown in table form in FIG.
[0065]
Referring to FIG. 11, it can be seen that in all the corpora, both the precision and the recall are very high, and the node boundaries are detected with very good accuracy. By detecting node boundaries with high accuracy and performing translation processing for each node, the accuracy of machine translation also increases, and as a result, good translation can be obtained. Moreover, in the above-described processing, a node boundary can be detected if the morpheme sequence matches a predetermined node boundary pattern. Even if the end of the sentence is not input, the clause can be detected progressively. Therefore, it is suitable for simultaneous translation and the like.
[0066]
-Practical examples of clause boundary detection rules-
The following is a clause boundary detection rule (Perl replacement command format) actually used in the experiment. Here, only the replacement command corresponding to the rule is shown, and the part belonging to the control of the script is omitted. Further, in an actual script, there is a portion where a portion to be described in one line is described in a plurality of lines.
[0067]
<Start of rule>
[0068]
[Table 1]
[0069]
[Table 2]
[0070]
[Table 3]
[0071]
[Table 4]
[0072]
[Table 5]
[0073]
[Table 6]
[0074]
[Table 7]
[0075]
[Table 8]
[0076]
[Table 9]
[0077]
[Table 10]
[0078]
[Table 11]
[0079]
[Table 12]
[0080]
[Table 13]
[0081]
[Table 14]
[0082]
[Table 15]
[0083]
[Table 16]
[0084]
[Table 17]
[0085]
[Table 18]
[0086]
[Table 19]
[0087]
[Table 20]
[0088]
[Table 21]
[0089]
[Table 22]
[0090]
[Table 23]
[0091]
[Table 24]
[0092]
[Table 25]
[0093]
[Table 26]
[0094]
[Table 27]
[0095]
[Table 28]
[0096]
[Table 29]
[0097]
[Table 30]
<End of rule>
[0098]
In the present embodiment, every time a clause boundary label is output from the
[0099]
Further, in this embodiment, when a pattern of a morpheme string indicating a node boundary is detected, a node boundary label is inserted at the end. However, the present invention is not limited to such an embodiment, and a node boundary label may be inserted at a position having a predetermined relationship with the pattern. For example, there may be a case where a node boundary label should be inserted at a part other than the end in the pattern of the morpheme sequence. A section boundary label may be inserted at a place other than the end of the pattern, for example, just before the end. In this case, when separating into clauses, the section up to the next morpheme of the clause boundary label may be regarded as one clause. Further, the node boundary labels may be inserted at two or more places instead of one place. For example, the start label and end label of the node boundary may be inserted at the beginning and end of the pattern corresponding to the node boundary, respectively.
[0100]
Further, in the above-described embodiment, each line of the
[0101]
[Second embodiment]
In order to detect a clause boundary, the
[0102]
FIG. 12 shows a functional block diagram of a corpus statistical processing device employing the node boundary detecting device according to this embodiment. This apparatus performs the above-described clause boundary detection processing on the corpus to be processed, statistically processes the types of clause labels of each clause obtained as a result, and thereby makes it possible to examine the character of the corpus. Things.
[0103]
Referring to FIG. 12, the corpus
[0104]
The clause
[0105]
As the
[0106]
The
[0107]
As the
[0108]
The embodiment disclosed this time is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is shown by each claim of the claims, taking into account the description of the detailed description of the invention, and all the changes within the meaning and range equivalent to the language described therein are described. Including.
[Brief description of the drawings]
FIG. 1 is a diagram showing the difference between a monologue and a dialogue.
FIG. 2 is a functional block diagram of the translation device according to the first embodiment of the present invention.
FIG. 3 is a diagram for explaining a general form and an example of a node boundary detection rule.
FIG. 4 is a diagram for explaining a command format of Perl in which a node boundary detection rule is implemented.
FIG. 5 is a diagram for explaining types of nodes detectable by a node boundary detection rule according to the first embodiment.
FIG. 6 is a diagram illustrating a configuration of a Perl script in which a node boundary detection rule is implemented in the device according to the first embodiment.
FIG. 7 is a flowchart for explaining a control structure of a clause boundary detection process realized by the
FIG. 8 is a diagram illustrating an example of a result of a node boundary detection process.
FIG. 9 is a diagram showing, in a table form, a schematic size of a corpus used for performance evaluation of the node boundary detection processing according to the first embodiment;
FIG. 10 is a diagram illustrating a result of a node boundary detection process according to the first embodiment in a table format for each corpus.
FIG. 11 is a diagram showing, in a table format, results of performance evaluation of the node boundary detection processing according to the first embodiment;
FIG. 12 is a functional block diagram of a corpus statistical processing device according to a second embodiment of the present invention.
[Explanation of symbols]
Claims (11)
前記形態素列の中において、所定の形態素の並びのパタンを検出するための検出手段と、
前記パタンが検出された事に応答して、前記形態素列の中で、検出された前記パタン中の形態素の並びと所定の関係にある位置を節の境界に指定する予め定める処理を行なって前記形態素列を出力するための境界指定手段とを含む、節境界検出装置。A clause boundary detection device for detecting a clause boundary of an original sentence from a morpheme sequence obtained by performing a morphological analysis on a sentence,
Detecting means for detecting a pattern of a predetermined morpheme sequence in the morpheme sequence;
In response to the detection of the pattern, in the morphological sequence, performing a predetermined process of specifying a position having a predetermined relationship with the arrangement of the morphemes in the detected pattern as a node boundary, A node boundary detection device, comprising: a boundary designation unit for outputting a morpheme sequence.
前記形態素列を順次読込んでFIFO方式で記憶して出力するための一時記憶手段と、
前記一時記憶手段に記憶された形態素の配列の中に、前記所定の形態素の並びのパタンがある事を検出するための手段とを含み、
前記境界指定手段は、前記所定の形態素の並びのパタンがある事が検出された事に応答して、前記一時記憶手段の前記所定の形態素の並びのパタンまでを出力する様に前記一時記憶手段を制御するための手段と、
前記一時記憶手段から出力される前記所定の形態素の並びのパタンの末尾に、節境界を示すマーカを挿入するための手段とを含む、請求項1に記載の節境界検出装置。The detecting means,
A temporary storage unit for sequentially reading the morphological sequence, storing and outputting the morphological sequence in a FIFO manner,
Means for detecting that there is a pattern of the predetermined morphemes in the array of morphemes stored in the temporary storage means,
The boundary specifying unit is configured to output the up to the predetermined morpheme arrangement pattern in the temporary storage unit in response to the detection of the presence of the predetermined morpheme arrangement pattern. Means for controlling
2. The node boundary detecting device according to claim 1, further comprising: a unit for inserting a marker indicating a node boundary at the end of the pattern of the predetermined morpheme sequence output from the temporary storage unit.
前記形態素列を順次読込んでFIFO方式で記憶して出力するための一時記憶手段と、
前記一時記憶手段に記憶された形態素の配列の中に、複数個の前記所定の形態素の並びのパタンのうちの任意の一つがある事を検出するための手段とを含み、
前記境界指定手段は、前記任意の一つのパタンが検出された事に応答して、前記一時記憶手段中の、前記検出されたパタンまでをFIFO方式で出力する様に前記一時記憶手段を制御するための手段と、
前記任意の一つのパタンが検出された事に応答して、前記一時記憶手段から出力される前記パタンの末尾に、検出されたパタンに対応した節境界ラベルを挿入するための手段とを含む、請求項1に記載の節境界検出装置。The detecting means,
A temporary storage unit for sequentially reading the morphological sequence, storing and outputting the morphological sequence in a FIFO manner,
Means for detecting that there is any one of a plurality of patterns of the predetermined morpheme arrangement in the array of morphemes stored in the temporary storage means,
The boundary designation unit controls the temporary storage unit to output up to the detected pattern in the temporary storage unit in a FIFO manner in response to the detection of the arbitrary one pattern. Means for
Means for inserting a node boundary label corresponding to the detected pattern at the end of the pattern output from the temporary storage means, in response to the detection of the arbitrary one pattern, The node boundary detection device according to claim 1.
請求項1〜請求項7のいずれかに記載の節境界検出装置であって、前記形態素解析手段の出力を入力として受ける様に接続された節境界検出装置と、
前記節境界検出装置から出力される形態素列を、当該形態素列中の節境界によって節に分離するための節分離手段と、
前記節分離手段により分離された形態素列を入力とし、前記節分離手段から節を受けとった事に応答して、受けた節を翻訳するための機械翻訳手段とを含む、機械翻訳装置。Morphological analysis means for performing morphological analysis processing on an input Japanese sentence and outputting the obtained morphological sequence,
The node boundary detection device according to any one of claims 1 to 7, wherein the node boundary detection device is connected to receive an output of the morphological analysis unit as an input,
A morpheme sequence output from the clause boundary detection device, a clause separating unit for separating the clause by a clause boundary in the morpheme sequence,
A machine translation device, comprising: a morpheme string separated by the clause separating means as input, and a machine translating means for translating the received clause in response to receiving a clause from the clause separating means.
前記節分離手段は、
前記節境界検出装置からの出力をFIFO方式で一時記憶するための記憶手段と、
前記節境界検出装置から節境界マーカが出力された事に応答して、前記記憶手段に記憶された形態素列を前記機械翻訳手段に与え、機械翻訳を開始させるための手段とを含む、請求項9に記載の機械翻訳装置。The node boundary detection device is a node boundary detection device according to claim 6, and has a function of inserting a node boundary marker at a node boundary of a morpheme sequence to be output,
The node separation means,
Storage means for temporarily storing an output from the node boundary detection device in a FIFO manner;
Means for giving the morphological sequence stored in the storage means to the machine translation means in response to the output of the clause boundary marker from the clause boundary detection device, and for starting machine translation. 10. The machine translation device according to 9.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003108676A JP3924260B2 (en) | 2003-04-14 | 2003-04-14 | Clause boundary detection device, machine translation device, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003108676A JP3924260B2 (en) | 2003-04-14 | 2003-04-14 | Clause boundary detection device, machine translation device, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004318300A true JP2004318300A (en) | 2004-11-11 |
JP3924260B2 JP3924260B2 (en) | 2007-06-06 |
Family
ID=33470068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003108676A Expired - Fee Related JP3924260B2 (en) | 2003-04-14 | 2003-04-14 | Clause boundary detection device, machine translation device, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3924260B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024075179A1 (en) * | 2022-10-04 | 2024-04-11 | ポケトーク株式会社 | Information processing method, program, terminal device, information processing method, and information processing method |
-
2003
- 2003-04-14 JP JP2003108676A patent/JP3924260B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024075179A1 (en) * | 2022-10-04 | 2024-04-11 | ポケトーク株式会社 | Information processing method, program, terminal device, information processing method, and information processing method |
Also Published As
Publication number | Publication date |
---|---|
JP3924260B2 (en) | 2007-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105917327B (en) | System and method for entering text into an electronic device | |
US9075793B2 (en) | System and method of providing autocomplete recommended word which interoperate with plurality of languages | |
US7158930B2 (en) | Method and apparatus for expanding dictionaries during parsing | |
US6876963B1 (en) | Machine translation method and apparatus capable of automatically switching dictionaries | |
KR100999488B1 (en) | Method and apparatus for detecting document plagiarism | |
JP2007265458A (en) | Method and computer for generating a plurality of compression options | |
JPS6299865A (en) | Maintenance system for co-occurrence relation dictionary of natural language | |
JP2006251843A (en) | Synonym pair extracting device, and computer program therefor | |
CN107168950B (en) | Event phrase learning method and device based on bilingual semantic mapping | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
JP2004318300A (en) | Clause boundary detecting device, machine translation device and computer program | |
KR950013128B1 (en) | Apparatus and method of machine translation | |
JP4431759B2 (en) | Unregistered word automatic extraction device and program, and unregistered word automatic registration device and program | |
Obrebski et al. | UAM Text Tools-a flexible NLP architecture. | |
JP2009176148A (en) | Unknown word determining system, method and program | |
Oostdijk | Using the TOSCA analysis system to analyse a software manual corpus | |
JPH0561902A (en) | Mechanical translation system | |
KR20010057781A (en) | Apparatus for analysing multi-word morpheme and method using the same | |
JP2008071001A (en) | Natural language processor and program | |
JP3419748B2 (en) | Dictionary creation device and method, and recording medium recording dictionary creation program | |
Al-Ansary | Building a Computational Lexicon for Arabic | |
Choi et al. | English-to-Korean Web Translator:“FromTo/Web-EK” | |
Schwartz | Corpus-based acquisition of head noun countability features | |
Tanev et al. | LINGUA: a robust architecture for text processing and anaphora resolution in Bulgarian | |
Hatori et al. | Predicting word pronunciation in Japanese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3924260 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110302 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110302 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120302 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120302 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130302 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130302 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140302 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |