JP2007018098A

JP2007018098A - テキスト分割処理装置及びコンピュータプログラム

Info

Publication number: JP2007018098A
Application number: JP2005196629A
Authority: JP
Inventors: Hidenori Kashioka; 秀紀柏岡
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-07-05
Filing date: 2005-07-05
Publication date: 2007-01-25

Abstract

【課題】文境界が不明確で、後の自然言語処理で追従性が要請される形態のテキスト処理において、追従性と適正な自然言語処理を実現するために適切なテキスト分割処理装置を提供する。
【解決手段】所定の分割手段によって分割されたテキストに対し所定の形態素の並びのパタンを検出する形態素解析部５６と、上記検出パタンに応じた節ラベルを付加する言語処理系５８と、言語処理系５８の出力を一時的に蓄積するバッファ６０と、節ラベルの種類が所定の第１の種類の節ラベルで、かつその節ラベルが節中の特定の位置にあれば、所定の第２の種類の節ラベルに修正するテキスト修正部６２と、第１の種類の節ラベル以外の節ラベルが検出されたか、テキスト修正部６２による修正が行なわれたかのいずれかに応答して、バッファ６０に蓄積されたデータを出力するテキスト分離部６４とを含む。
【選択図】図２

Description

この発明は、自然言語処理を適切に行なえる様にするための前処理を行なう装置に関し、特に、翻訳等の処理が適切に行なえる様に、句読点を含まない入力テキストを節単位に分離する前処理を行なうためのテキスト分割処理装置、及びそれらのためのコンピュータプログラムに関する。

近年、独話（複数の発話のまとまりであって、講演、ニュース等、発話者が１人のもの）を対象とした自然音声コーパスの構築が進んでいる。講演、ニュース、又は学会発表等、１人の話者が話しつづける独話は、対話（複数の発話のまとまりであって、２人の発話者が発話を交換するもの）よりも１文の長さが長くなったり、文の構造が複雑化したりするという特徴を持つ事が知られている。

この様に独話においては、文構造の複雑さ、１文の長さという特徴があるために、例えばこれを翻訳するための各種の処理を漸進的に進める事が困難であった。そして、このような困難さがあるために、原発話に追従して訳す必要のある講演等の同時通訳においては、処理単位について考える必要があった。

この困難さを防ぐためには、まず、翻訳のための処理単位をなるべく短くする必要がある。なぜならば、処理単位が長ければ原発話を聞いているだけの時間が長くなり、訳出の追従性が損なわれるからである。一方、処理単位を単に短くすると、適切な対訳に必要な情報が欠落してしまう。そのため、翻訳結果の適切性や正確性が失われてしまう。たとえば、単語を処理単位として翻訳を行なうと、訳語選択の手がかりが失われ、原言語の語順で互いに関連を見出す事が難しい単語列として翻訳結果が出力される。

この様に、処理の追従性のためには処理単位を短くする事が望ましいが、翻訳結果の適切性や正確性のためには処理単位を長くする事が望ましい。そこで、処理の追従性が高い上に正確で適切な処理を可能にする処理単位が必要と考えられる。この単位として、節が有望視されている。節は文法的なまとまりがあり、比較的短い単位であるからである。

正確な節の判定は文章構造の複雑さ等の点から困難ではある。しかし、節末の境界は局所的な形態素列のパタンを用いて比較的容易に判定できる。この点からも、節を処理単位とする事が有利に思われる。

翻訳の処理単位として節を用いるには、節を検出するための手段が必要となる。節検出のための従来の技術としては特許文献１に開示の以下のようなものがある。

図１を参照して、まず、入力された日本語テキスト３０を、文単位による分割処理３２により句点を基準として文単位に分割し、テキスト３４を得る。このテキスト３４を、節境界検出処理３６により節分割し、節分割されたテキスト３８を得る。節分割されたテキスト３８では、節境界の各々に節ラベルが挿入されている。各節ラベルは、当該箇所が節境界である事を示すとともに、その節境界の種類も示している。
特開２００４−３１８３００

しかし、これはあくまで句点を基準にテキスト形式で入力された独話の節境界を検出したものである。実際の音声によって行なわれる講演などの独話においては、発話者は文の切れ目を明確にせずに発話し続ける事が多い。そのため文境界が明確でなく、文単位による分割を元に節境界を検出するという事は、実際の発話の場合には困難である。

また、文単位による節境界検出処理を行なうと、節境界を判定するために一文が終わるまで、つまり、文末が来るまで処理を留保する事になる。この様に、節境界を判定するために文末まで処理を留保しなければならないという事は、実際の音声、たとえば前述した同時通訳の様に追従性が要請される翻訳においては妥当でないと考えられる。

従って、特に独話の節境界検出処理をするためには、そのための入力データとして、発話中に含まれる情報によって得られるものが望ましい。また、その処理単位は文よりも短いものが望ましい。

文よりも短い処理単位としては、短い中断である「ポーズ」により区切られた発話を用いる事が望ましいと考えられる。ポーズは、独話をその構成単位に分割する事のできる音声による情報の一つである。そして、その情報は発話中に含まれているので、ポーズで区切られた発話を翻訳の処理単位として使用する事は特に望ましいと考えられる。

また、ポーズは、文をいくつかの構成要素に分割するものである。従ってポーズによって分割された単位は明らかに文よりも短い単位となるので、翻訳の追従性の要請にも資する。

ポーズにより区切られた発話を「ポーズ単位」として、これを文に代わる新たな処理単位として採用する事が望ましいと考えられる。しかし、文が文章の構成による情報によって得られる単位であるのと違い、ポーズ単位は音声情報によって得られる単位である。この違いが、自然言語を処理する過程でポーズ単位を使うにあたって、問題を生じさせる事がある。すなわち、ポーズ単位で分割すると、ポーズを挟んだ前後でポーズ単位同士の関連性が失われるので、形態素解析結果に誤りが生じる事がある。そして、その形態素解析結果を元に節分割が行なわれるので、節分割結果にも誤りが生じる。

具体的に、前述した特許文献１に記載の技術を単純にポーズ単位に拡張し、所定長以上のポーズで入力テキストを分割した場合について説明する。本願発明者の実験によれば、あるテスト用テキストに対する文単位の処理の場合には節ラベリングにより６６，４５１箇所の節境界が検出され、その精度は９７％であるのに対して、ポーズ単位の処理の場合には７０，６３２箇所の節境界が検出されてしまう。この違いは、形態素解析のためにポーズ単位に分割されたテキストを使うか、文単位に分割されたテキストを使うかという差異によって生じる。このような問題点を解決するためにポーズ単位を処理単位とする場合には、節ラベリングの精度を上げるために適切な修正を行なう事が望ましい。

従って、特に独話の様に、発話者が文と文の境界を明確にせずに発話し、かつ、翻訳等、後の自然言語処理の追従性が要請される形態のテキスト処理において、なるべく追従性を保ちつつ、誤りの少ない自然言語処理を実現するための適切なテキスト分割処理装置を提供する事が本発明の一つの目的である。

本発明の第１の局面に係るテキスト分割処理装置は、テキスト中に含まれるポーズ長情報によりテキストを所定の単位に分割するための分割手段と、分割手段によって分割されたテキストに対し形態素解析を行なって形態素列を出力するための形態素解析手段と、形態素列の中において所定の形態素の並びのパタンを検出するための検出手段と、パタンが検出された事に応答して、形態素列の中で、検出されたパタン中の形態素の並びと所定の関係にある位置に、検出されたパタンに応じた節ラベルを付加するための境界指定手段と、境界指定手段の出力を一時的に蓄積するための蓄積手段と、境界指定手段の出力中に含まれる節ラベルを検出し、その種類を判定するための判定手段と、判定手段により予め定められる第１の種類の節ラベルと判定され、かつ、節中の特定の位置にある節ラベルを、予め定められる第２の種類の節ラベルに修正するための第１の手段と、判定手段により第１の種類の節ラベル以外の節ラベルが検出された事、及び第１の手段による修正が行なわれた事、のいずれかに応答して、蓄積手段に蓄積された形態素列の先頭から節ラベルまでを読出して出力するための出力手段とを含む。

このテキスト分割処理装置によると、言語処理において追従性が高いと考えられるポーズ長情報によってテキストを所定の単位に分割できる上に、第１の種類の節ラベルであると誤って付加された節ラベルが正しい節ラベルである第２の種類の節ラベルに修正される。また、文単位ではなく、それより短くかつ意味的なまとまりのある節単位でテキストの分割が行なわれる。従って、なるべく追従性を保ちつつ、誤りの少ない自然言語処理を実現するための適切なテキスト分割処理装置を提供する事ができる。

好ましくは、第１の手段は、連体節を示す節ラベルが所定の単位の境界位置にある場合に当該節ラベルを文末を示す節ラベルに修正するための修正手段を含む。

このテキスト分割処理装置によると、連体節を示す節ラベルであると誤って付加された節ラベルが文末を示す正しい節ラベルに修正される。また、文単位ではなく、それより短くかつ意味的なまとまりのある節単位でテキストの分割が行なわれる。従って、なるべく追従性を保ちつつ、誤りの少ない自然言語処理を実現するための適切なテキスト分割処理装置を提供する事ができる。

さらに好ましくは、このテキスト分割処理装置は、従属文を示す節ラベルが節中の所定の単位の境界にある場合に当該節ラベルを文末を示す節ラベルに修正するための修正手段を含む。

このテキスト分割処理装置によると、従属文を示す節ラベルであると誤って付加された節ラベルが文末を示す正しい節ラベルに修正される。また、文単位ではなく、それより短くかつ意味的なまとまりのある節単位でテキストの分割が行なわれる。従って、なるべく追従性を保ちつつ、誤りの少ない自然言語処理を実現するための適切なテキスト分割処理装置を提供する事ができる。

さらに好ましくは、このテキスト分割処理装置は、連体節を示す節ラベルが所定の単位の境界位置にある場合に当該節ラベルを文末を示す節ラベルに修正するための第２の手段を含み、出力手段は、判定手段により連体節を示す節ラベルと従属文を示す節ラベル以外の節ラベルが検出された事、第１の手段による修正が行なわれた事、及び第２の手段による修正が行なわれた事、のいずれかに応答して蓄積手段に蓄積された形態素列の先頭から節ラベルまでを読出して出力するための手段を含む。

さらに好ましくは、分割手段は、所定の単位の境界のポーズ位置に、ポーズの長さを示す情報を挿入し、形態素解析手段は、分割手段によって分割された情報に従って、形態素列中のポーズ位置にポーズの長さを示すポーズ長情報を挿入する。テキスト分割処理装置は、形態素列の中に所定のしきい値以上のポーズ長を示すポーズ長情報が検出された事に応答して、当該位置に節ラベルが存在すれば当該節ラベルを文末を示す節ラベルに修正し、当該位置に節ラベルが存在しなければ文末を示す節ラベルを挿入する修正を行なうための第３の手段をさらに含み、出力手段は、判定手段により連体節を示す節ラベルと従属文を示す節ラベル以外の節ラベルが検出された事、第１、第２及び第３の手段のいずれかによる修正が行なわれた事、のいずれかに応答して、蓄積手段に蓄積された形態素列の先頭から節ラベルまでを読出して出力するための手段を含む。

このテキスト分割処理装置によると、誤って何らの節ラベルも付加されていなければ、文末を示す正しい節ラベルが付加され、文末以外を示す節ラベルが誤って付加されていれば、文末を示す正しい節ラベルに修正される。また、文単位ではなく、それより短くかつ意味的なまとまりのある節単位でテキストの分割が行なわれる。従って、なるべく追従性を保ちつつ、誤りの少ない自然言語処理を実現するための適切なテキスト分割処理装置を提供する事ができる。

さらに好ましくは、このテキスト分割手段は、所定の単位の境界のポーズ位置に、ポーズの長さを示す情報を挿入し、形態素解析手段は、分割手段によって分割された情報に従って、形態素列中のポーズ位置にポーズの長さを示すポーズ長情報を挿入する。テキスト分割処理装置は、形態素列の中に所定のしきい値以上のポーズ長を示すポーズ長情報が検出された事に応答して、当該位置に節ラベルが存在すれば当該節ラベルを第２の種類の節ラベルに修正し、当該位置に節ラベルが存在しなければ第２の種類の節ラベルを挿入する修正を行なうための第２の手段をさらに含み、出力手段は、判定手段により第１の種類の節ラベル以外の節ラベルが検出された事、第１の手段による修正が行なわれた事、及び第２の手段による修正が行なわれた事、のいずれかに応答して、蓄積手段に蓄積された形態素列の先頭から節ラベルまでを読出して出力するための手段を含む。

このテキスト分割処理装置によると、言語処理において追従性が高いと考えられるポーズ長情報によってテキストを所定の単位に分割できる上に、節ラベルが付加されていなければ正しい節ラベルである第２の節ラベルが付加され、誤って付加された節ラベルがあれば正しい節ラベルである第２の種類の節ラベルに修正される。また、文単位ではなく、それより短くかつ意味的なまとまりのある節単位でテキストの分割が行なわれる。従って、なるべく追従性を保ちつつ、誤りの少ない自然言語処理を実現するための適切なテキスト分割処理装置を提供する事ができる。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかのテキスト分割処理装置として動作させるものである。従って上述したテキスト分割処理装置と同様の効果を得る事ができる。

以下、図面を参照し発明の実施の形態を説明する。本実施の形態は、日本語音声による独話を機械翻訳するシステムに関するものである。

＜構成＞
図２に、本実施の形態のテキスト分割処理装置を採用した翻訳装置の機能ブロック図を示す。

図２を参照して、この機械翻訳システム４０は、ユーザからの起動コマンド４２に応答して、日本語の音声を機械翻訳し、結果を英語音声として出力するためのものである。機械翻訳システム４０は、日本語の音声信号に対する音声認識を行ない、入力音声に対応する日本語のテキストとして発話の時間情報を付してポーズ単位で出力するための日本語音声認識部５０と、その日本語テキストを形態素解析し、形態素列を出力するための形態素解析部５６とを含む。

図２を参照して、機械翻訳システム４０はさらに、上記した節境界検出ルールをＰｅｒｌの正規表現命令列からなるスクリプトの形で実装したプログラム５４と、形態素解析部５６の出力する形態素列に対してプログラム５４を適用する事により、節境界ごとに節ラベルが挿入された処理後のテキストを出力するための言語処理系５８と、言語処理系５８とテキスト修正部６２からの出力をＦＩＦＯ方式で一時的に蓄積するバッファ６０と、言語処理系５８から節ラベルが出力されるごとに、その節ラベルの修正の必要の有無を判断して修正が必要と判断するとバッファ６０に蓄積されている当該節ラベルを修正するテキスト修正部６２とを含む。テキスト修正部６２は、節ラベルを検出するごとに節分離信号７０を出力する機能も持つ。なお、プログラム５４は上記特許文献１に開示のＰｅｒｌ処理系を用いたものを使用している。

機械翻訳システム４０はさらに、テキスト修正部６２から節境界信号が与えられた事に応答して、バッファ６０の先頭から最初の節ラベルまでのデータを読出して出力する事により、テキストを節に分離するためのテキスト分離部６４と、テキスト分離部６４から与えられるテキストを英語に翻訳して英語テキストとして出力するための機械翻訳部６６と、機械翻訳部６６が出力する英語テキストから英語の音声を合成するための英語音声合成部６８と、ユーザからの起動コマンド４２に応答して入力テキスト及びプログラム５４を読み込み、形態素解析部５６及び言語処理系５８を起動するためのオペレーティングシステム（ＯＳ）５２とを含む。ここで、節の境界を示す情報を「節ラベル」と呼んでいるのは、節の種類を示す情報を含んでいるためである。この節ラベルは、そこに節境界が存在している事を示すものでもあり、節境界を示すマーカとしての役割も果たしている。

ＯＳ５２、言語処理系５８を備え、プログラム５４を実行する事からもわかる様に、機械翻訳システム４０は実質的にはコンピュータから構成されている。

図３を参照して、形態素解析部５６の形態素出力形式８０について説明する。形態素解析部５６が出力する形態素は、形態素出力形式８０に示される様に、形態素の出現形と、その品詞と、その活用形と、出現したときの活用型とからなる。「活用形」とは、動詞、助動詞、形容詞等の活用のしかたの分類を示すものである。例えば「五段活用」「下二段活用」等のようなものである。「活用型」とは、出現した形態素が、各活用形の中でどのような活用をされているかを示すものである。例えば「未然形」「連用形」「連体形」等のようなのものである。なお、図３には示していないが、形態素解析部５６は、各ポーズ単位の末尾の形態素の次にポーズ長を示す情報を挿入して出力する。

図３に、入力例８２として「おもしろいことにこうした両極端が結び付いてきたというわけなんですね」という文を示す。これを形態素解析部５６により形態素解析した結果を形態素列出力例８４に示す。形態素列出力例８４から明らかな様に、形態素解析部５６は入力テキストを形態素解析し、形態素出力形式８０に従った形式の形態素列を出力する機能を持つ。

図４に、本実施の形態で検出される節の種類の一部を示す。図４に示す様に各節ラベルは階層的に分類されている。本実施の形態では、合計１４７種類の節を用いる。これらの中には「主題ハ」や「感動詞」、「談話標識」など、厳密に言えば節境界を示すわけではないものも含まれている。本明細書ではこれらも含めて「節境界」と考える事とする。

本実施の形態で用いられている節ラベルは、実際には図４に示したものをさらに細かく分類したものである。例えば、「理由節」の下にはさらに８種類の下位の節が存在している。１４７種類というのは、これら下位の節をもすべて含めた数である。

図５にテキスト修正部６２のブロック図を示す。

図５を参照して、テキスト修正部６２は、言語処理系５８より入力された形態素列を表わすテキストデータの種類を判定するテキストデータの判定部９０と、判定されたデータが節ラベルであった場合にその節ラベルの種類を判定するための節ラベル判定部９２と、節ラベルが「連体節」であり、かつポーズ単位の末尾であった場合にそれを「文末」に修正するための第１のルール適用部９４と、節ラベルが「従属文」であり、かつポーズ単位の末尾である場合にそれを「文末」に修正するための第２のルール適用部９６と、判定部９０で判定されたデータがポーズ長を示すものである場合にポーズ長の長さがしきい値以上か否かを判定するポーズ長判定部９８と、ポーズ長がしきい値以上であれば節ラベル「文末」を挿入する、又は、既存の節ラベルを「文末」に修正する処理を行なうラベル修正部１００とを含む。第１のルール適用部９４と第２のルール適用部９６とは、ルールを適用した後、節分割すべき事を示す信号を出力する。節ラベル判定部９２は、連体節及び従属文を示す節ラベルを受けると、節分離すべき事を示す信号を出力する。ラベル修正部１００は、ラベルを挿入又は修正した場合、節分離をすべき事を示す信号を出力する。テキスト修正部６２は、節ラベル判定部９２、第１のルール適用部９４、第２のルール適用部９６、及びラベル修正部１００のいずれかから節分離をすべき事を示す信号を受けた事に応答して節分離信号をテキスト分離部６４に与えるための節分離信号出力部１０２をさらに含む。

図６に、第１のルール適用部９４と、第２のルール適用部９６と、ラベル修正部１００によって実現される節ラベル修正処理をフローチャート形式で示す。

図６を参照して、ステップ１１１で入力されてきた節分割処理の済んだ日本語テキストデータ１１０を読み込む。ステップ１１２では、そのデータの種類を判定して、節ラベルデータならばステップ１１４へ進み、ポーズ長データならばステップ１２４へ進み、それ以外のデータならステップ１１１に戻る。

ステップ１１４では、節ラベルの種類を判定する処理を行なう。節ラベルの種類が「連体節」であればステップ１１６に進み、「従属文」であればステップ１２０に進み、それ以外の節ラベルであればステップ１３０に進む。

ステップ１１６では、検出された「連体節」のラベルがポーズ単位の境界にあるか否かを判定する。否であれば、ステップ１１１に戻る。「連体節」のラベルがポーズ単位の境界にあれば、ステップ１１８に進む。

ステップ１１８では、既存の節ラベル「連体節」を節ラベル「文末」に修正する処理を行なう。

ステップ１１８の後、ステップ１３０に進む。

ステップ１２０では、「従属文」のラベルがポーズ単位の境界にあるか否かを判定する。否であれば、ステップ１１１に戻る。「従属文」のラベルがポーズ単位の境界にあれば、ステップ１２２に進む。

ステップ１２２では、既存の節ラベル「従属文」を節ラベル「文末」に修正する処理を行なう。ステップ１２２の後、ステップ１３０に進む。

ステップ１３０では、節分離をすべき事を示す信号をテキスト分離部６４に出力する処理を行なう。

ステップ１２４では、ポーズ長の長さがしきい値以上であるかどうかを判定する。ポーズ長の長さがしきい値以上であれば、ステップ１３２に進む。ポーズ長の長さがしきい値未満であれば、ステップ１１１に戻る。

ステップ１３２では、ポーズ長データの直後に何らかの節ラベルが存在するか否かを判定する。あればステップ１２６に進み、なければステップ１３４に進む。ステップ１２６では節ラベルが「文末」以外かどうかを判定する。ポーズ長データの直後に付された節ラベルが「文末」であれば、ステップ１３０に進む。ポーズ長データの直後に「文末」以外の節ラベルが付されている場合には、ステップ１２８に進む。

ステップ１２８では、既存の節ラベルを「文末」に修正する処理を行なう。この後ステップ１３０に進む。一方、ステップ１３４では、該当箇所に「文末」という節ラベルを挿入し、ステップ１３０に進む。

＜動作＞
この機械翻訳システム４０は以下の様に動作する。

図２を参照してまず、機械翻訳装置４０はユーザからの起動コマンド４２に応答して起動する。

その後、日本語話者が発話すると、図に示さないマイクを通して音声信号に変換された日本語音声が、日本語音声認識部５０で認識されて、ポーズ単位で分割された日本語テキストとして出力される。この日本語テキストに対しＯＳ５２によって起動された形態素解析部５６で形態素解析が行なわれ、形態素データがテキストに付される。形態素データが付されたテキストが同じくＯＳ５２によって起動された言語処理系５８で節に分割され節ラベルが付される。節データが付されたテキストはＦＩＦＯ方式でバッファ６０に一時的に蓄積される。テキストに付された節ラベルが適切でない場合には、テキスト修正部６２が適切な節ラベルに修正する。

図５を参照して、節分割されたテキストが言語処理系５８から入力されると、テキストデータの判定部９０でテキストデータの種類が判定される。テキストデータの種類が節ラベルであると、節ラベル判定部９２で節ラベルの種類が判定される。節ラベルの種類が連体節であり、かつ、その節ラベルがポーズ単位の末尾にあれば第１のルール適用部（ルール１）９４によってバッファ６０中の対応する節ラベル「連体節」が節ラベル「文末」に修正される。第１のルール適用部９４はまた、節分割すべき事を示す信号を節分離信号出力部１０２に送る。

節ラベルの種類が従属文であり、かつ、その節ラベルがポーズ単位の末尾にあれば第２のルール適用部（ルール２）９６によって、バッファ６０中の対応する節ラベル「従属文」が節ラベル「文末」に修正される。第２のルール適用部９６はまた、節分割すべき事を示す信号を節分離信号出力部１０２に送る。

節ラベルの種類が、連体節、従属文以外であれば、節ラベル判定部９２は、節分割すべき事を示す信号を節分離信号出力部１０２に送る。

テキストデータ判定部９０によって判定されたデータがポーズ長データであった場合には、ポーズ長判定部９８によってそのポーズ長の長さがしきい値以上か否かが判定される。ポーズ長の長さがしきい値以上であれば、ラベル修正部１００でそのポーズ長データの直後に何らかの節ラベルが付されているかどうかが判定される。何の節ラベルも付されていない場合にはバッファ６０内の対応するポーズ長データの後に節ラベル「文末」が挿入される。節ラベルが付されているが、それが「文末」以外であれば、節ラベル「文末」に修正される。ラベル修正部１００はまた、節分割すべき事を示す信号を節分離信号出力部１０２に送る。

ポーズ長がしきい値未満であれば、そのデータは以降の節分割の処理には関係しないので、処理は何もされない。

テキストデータが節ラベルデータ、ポーズ長データ以外の場合にも修正処理はされない。

再び図２を参照して、テキスト修正部６２によって節ラベルが検出されると、節分離信号７０が出力され、テキスト分離部６４に送られる。テキスト分離部６４はバッファ６０に蓄積されたテキストを読出して出力する事により、テキストを節に分離する。節で分離された日本語テキストを機械翻訳部６６で英語テキストに翻訳する。この英語テキストに基づき、英語音声合成部６８で英語音声合成が行なわれて英語の音声信号が出力される。この音声信号は図に示さないスピーカによって音声に変換され出力される。

＜修正動作の具体例＞
この機械翻訳装置の修正規則の一つであるルール１による修正の具体例を以下に示す。

図７を参照して、音声による元の文章１４０に対して、ポーズ単位による分割処理１４２と形態素解析・節境界検出処理１４６を行なった後、ルール１による修正処理１５０を行なった。その結果を１５２に示す。

まず、音声上の規則であるポーズによってポーズ単位で分割されたテキスト１４４にはテキスト上の規則である句点による区切りは反映されない。すなわち、「年間千八百人の転職を手がけています」という文章と「再就職の先は〜」以降の文章が一文であると判断する。これに基づいて形態素解析・節境界検出処理１４６を行なうと、本来、文末であるはずの「手がけています」が直後の「再就職の先は」と関連付けられる。その結果、「手がけています」を「再就職」に係る連体節であると誤ってラベリングする（１４８）。

この例の様に、ポーズ単位で分割されたテキストを節境界検出に使用すると、句点による文末の情報が得られないので、複数の文が一文であると判断される。そして、その様に一文であると判断された場合には日本語の独話の文頭は名詞で始められる事が多いので、本来文末と判断されるべき箇所が後の節と関連付けられ、連体節と誤って判断される。

そこで、ポーズ単位の境界にある「連体節」のラベルを「文末」に置き換えるという第１のルール（ルール１）を用いて節ラベルの誤りを修正する事（１５０）により、テキスト１５２に示す様に、正しい節分割が行なわれる。

次に、この機械翻訳装置の修正規則の一つであるルール２の動作の具体例を説明する。

図８を参照して、音声による元の文章１６０に対して、ポーズ単位による分割処理１６２と形態素解析・節境界検出処理１６６を行なった後、ルール２による修正処理１７０を行なった。その結果を１７２に示す。

まず、音声上の規則であるポーズによってポーズ単位で分割されたテキスト１６４にはテキスト上の規則である句点による区切りは反映されない。すなわち、「ここに様々な情報を載せています」という文章と「ですから、〜」以降の文章が一文であると判断される。これに基づいて形態素解析・節境界検出処理１６６を行なうと、本来、文末であるはずの「載せています」が直後の「ですから〜」以降と関連付けられる。その結果、「ここに様々な情報を載せています」が、「ですから〜」以降に従属する従属文であると誤ってラベリングされる（１６８）。

この例の様に、ポーズ単位で分割されたテキストを節境界検出に使用すると、句点による文末の情報が得られないので、複数の文が一文であると判断される。そして、一文と判断される事によって後の節と関連付けて判断されるので「ここに様々な情報を載せています」という部分が談話標識である「ですから」をはさんで以降の部分に従属する従属文であると誤って判断される。

そこで、ポーズ単位の境界にある「従属文」のラベルを「文末」に置き換えるという第２のルール（ルール２）を用いて節ラベルの誤りを修正する事（１７０）により、テキスト１７２に示す様に、正しい節分割が行なわれる。

次に、この機械翻訳装置の動作の具体例を説明する。

図９を参照して、音声による元の文章１８０に対して、ポーズ単位による分割処理１８２と形態素解析・節境界検出処理１８６を行なった後、ポーズ長による修正１９０を行なった。その結果を１９２に示す。

まず、音声上の規則であるポーズによってポーズ単位で分割されたテキスト１８４には、テキスト上の規則である句点による区切りは反映されない。すなわち、「・・・空洞化といわれる問題です」と「国民が全て〜」以降の文章が一文であると判断される。これに基づいて形態素解析・節境界検出処理１８６を行なうと、本来、文末であるはずの「問題です」を直後の「国民が全て加入する」と関連付けられる。その結果、「問題です」と「国民が全て加入する」とが一体とみなされ、次の「国民皆年金」に係る連体節であると誤ってラベリングされる。

この例の様に、ポーズ単位で分割されたテキストを節境界検出に使用すると文末の情報が得られないので、複数の文が一文であると判断される。しかし、日本語の独話においては、文末におけるポーズ長は、その他の文の構成要素の間に存在するポーズよりも比較的長いのが一般的である。

そこで、文末だと推定される程度のポーズ長が存在する場合には、節ラベル「文末」を付する、もしくは既存の節ラベルを「文末」に置き換えるという修正１９０を行なう事により、テキスト１９２に示す様に正しい節分割が行なわれる。

ここで、このポーズ長による修正は、ポーズ長判定部９８でのポーズ長しきい値によってその精度が変化する事を示す。

図１０にしきい値としてのポーズ長（単位１／１０００秒）と文境界判定精度との間の、実験によって得られた関係を示す。図１０を参照して、たとえば、ポーズ長のしきい値が０．５秒〜３．０秒の範囲にある場合には、文境界判定精度は８０％以上となる。また、同じくポーズ長のしきい値が０．７５秒〜１．８秒の範囲にある場合には、文境界判定精度は９０％以上となる。さらに、もっとも精度よく文境界を判定するポーズ長のしきい値は、１．２９秒であり、精度は９３．６％であった。

ただし、この精度は個々の発話者の個性によって若干変動するので、発話者に応じて微調整を行なう事が望ましい。

再び図９を参照して、まず、ポーズ単位による分割処理１８２を行なったテキスト１８４に付された６桁の数字は発話の開始からの秒数（単位は１／１０００秒）を示している。そして、二つの６桁数字からなる組は、各々右側にテキストで示された発話の始点と終点に対応している。つまり、「空洞化と」と発話する間に０．７７２秒（１１４６７１−１１３８９９）の時間が経過した事になる。この事から、発話と発話の間に存在するポーズ長についても同様に減法で求められる。

形態素解析・節境界検出処理１８６を行なったテキスト１８８に各々のポーズ長データについても示す。ここで、ポーズ単位による分割結果１８４に形態素解析・節境界検出処理１８６を行なうと「問題です」とそれ以降の文が一文としてとらえられ、その結果、誤った節分割がされてしまう。

しかしここで、「問題です」と「国民が〜」との間のポーズ長は１．２６５秒であって、本来分割されるべき長さのポーズ長である。そこでポーズ長判定部のしきい値０．７５秒を選べば正しく節分割できる様になる。さらに、何らの節ラベルも付されていないので、ポーズ長による修正１９０により「文末」という節ラベルが付される。その結果、ポーズ長による修正１９０によって、テキスト１９２に見られる様に、「問題です」の直後が文末となるような正しい節分割が行なわれる。

＜性能評価のための実験＞
本実施の形態に係る節境界検出装置をルール１及びルール２により修正する事の有効性を評価するために、異なった単位で分割された２種類のテキストを形態素解析処理した後に節分割処理を行なった結果を図１１に示す。

図１１に示される様に、テキストは文単位で分割されたテキストとポーズ単位で分割されたテキストとである。文単位で分割されたテキストを用いて節分割を行なうと、その節分割の結果は９７％という高い精度を示す。そこで、文単位で分割されたテキストについて節分割をした結果とポーズ単位で分割されたテキストについて節分割をした結果の差異が少なくなるほど、ポーズ単位で分割されたテキストを用いて節分割をする場合の精度が高くなると考えられる。

図１１に示される様に、行２００では文単位の分割では節ラベルが「文末」であるが、ポーズ単位の分割では節ラベルが誤って「連体節」になっているものの出現頻度は７，３６１回である。これにルール１を適用するとその誤りの頻度が０回になる。従って、誤った節ラベル「連体節」を適切な節ラベル「文末」に修正するためにルール１は適している。

同じく図１１に示される様に、行２０２では文単位の分割では節ラベルが「文末」であるが、ポーズ単位の分割では節ラベルが誤って「従属文」になっているものの出現頻度は６，００４回である。これにルール２を適用するとその誤りの頻度が０回になる。従って、誤った節ラベル「従属文」を適切な節ラベル「文末」に修正するためにルール２は適している。

以上の様に、ルール１とルール２を適用する事によって、ポーズ単位で分割されたテキストの節分割結果は文単位で分割されたテキストの節分割結果に近づく。文単位で分割されたテキストの節分割結果は９７％という高い精度を示すので、文単位での処理結果に近づくという事は、同時に適切な節分割結果に近づくという事を示す。そして、翻訳の前処理である節分割処理結果が適切であるという事は、それを用いて行なわれる翻訳結果も適切になる。

従って、翻訳処理の前処理としてポーズ単位によるテキストを用い、それにルール１及びルール２による修正を加える事は、翻訳結果の精度を向上させる有効な方法であると言える。

さらに、図１１の行２００に示される様に、ルール１のみでも「文末」を「連体節」と誤って判断した結果が修正される。また、同じく行２０２に示される様にルール２のみでも「文末」を「従属文」と誤って判断した結果が修正される。この事から、これら二つのルールによる修正は、どちらか一方を適用した場合でも節ラベル付けの誤りが減少し、正確な節分割をするのに有効な手段となりうる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

従来技術による節境界検出処理の流れを示す図である。本発明の一実施の形態に係る翻訳装置の機能的ブロック図である。節境界検出ルールの一般系及び例を説明するための図である。一実施の形態の節境界検出ルールで検出可能な節の種類を説明するための図である。テキスト修正部の詳細を示すブロック図である。テキスト修正部の処理を説明するためのフローチャートである。ルール１による修正の具体例を示す図である。ルール２による修正の具体例を示す図である。ポーズ長による修正の具体例を示す図である。しきい値としてのポーズ長と分境界判定精度の関係を示すグラフである。ルール１、２による修正の性能評価の結果を示す図である。

符号の説明

５６形態素解析部
５８言語処理系
６０バッファ
６２テキスト修正部
６４テキスト分離部
９０テキストデータの判定部
９２節ラベル判定部
９４ルール１
９６ルール２
９８ポーズ長判定部
１００ラベル修正部
１０２節分離信号出力部

Claims

テキスト中に含まれるポーズ長情報によりテキストを所定の単位に分割するための分割手段と、
前記分割手段によって分割された前記テキストに対し形態素解析を行なって形態素列を出力するための形態素解析手段と、
前記形態素列の中において所定の形態素の並びのパタンを検出するための検出手段と、
前記パタンが検出された事に応答して、前記形態素列の中で、検出された前記パタン中の形態素の並びと所定の関係にある位置に、検出されたパタンに応じた節ラベルを付加するための境界指定手段と、
前記境界指定手段の出力を一時的に蓄積するための蓄積手段と、
前記境界指定手段の出力中に含まれる節ラベルを検出し、その種類を判定するための判定手段と、
前記判定手段により予め定められる第１の種類の節ラベルと判定され、かつ、節中の特定の位置にある節ラベルを、予め定められる第２の種類の節ラベルに修正するための第１の手段と、
前記判定手段により前記第１の種類の節ラベル以外の節ラベルが検出された事、及び前記第１の手段による修正が行なわれた事、のいずれかに応答して、前記蓄積手段に蓄積された形態素列の先頭から節ラベルまでを読出して出力するための出力手段とを含む、テキスト分割処理装置。
前記第１の手段は、連体節を示す節ラベルが前記所定の単位の境界位置にある場合に当該節ラベルを文末を示す節ラベルに修正するための修正手段を含む、請求項１に記載のテキスト分割処理装置。
前記第１の手段は、従属文を示す節ラベルが節中の前記所定の単位の境界にある場合に当該節ラベルを文末を示す節ラベルに修正するための修正手段を含む、請求項１に記載のテキスト分割処理装置。
前記分割手段は、前記所定の単位の境界のポーズ位置に、ポーズの長さを示す情報を挿入し、
形態素解析手段は、前記分割手段によって分割された前記情報に従って、前記形態素列中のポーズ位置にポーズの長さを示すポーズ長情報を挿入し、
前記テキスト分割処理装置は、前記形態素列の中に所定のしきい値以上のポーズ長を示すポーズ長情報が検出された事に応答して、当該位置に節ラベルが存在すれば当該節ラベルを前記第２の種類の節ラベルに修正し、当該位置に節ラベルが存在しなければ前記第２の種類の節ラベルを挿入する修正を行なうための第２の手段をさらに含み、
前記出力手段は、前記判定手段により前記第１の種類の節ラベル以外の節ラベルが検出された事、前記第１の手段による修正が行なわれた事、及び前記第２の手段による修正が行なわれた事、のいずれかに応答して、前記蓄積手段に蓄積された形態素列の先頭から節ラベルまでを読出して出力するための手段を含む、請求項１に記載のテキスト分割処理装置。
コンピュータにより実行されると、当該コンピュータを請求項１から請求項４のいずれかに記載のテキスト分割処理装置として動作させる、コンピュータプログラム。