JP2007018098A - テキスト分割処理装置及びコンピュータプログラム - Google Patents

テキスト分割処理装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2007018098A
JP2007018098A JP2005196629A JP2005196629A JP2007018098A JP 2007018098 A JP2007018098 A JP 2007018098A JP 2005196629 A JP2005196629 A JP 2005196629A JP 2005196629 A JP2005196629 A JP 2005196629A JP 2007018098 A JP2007018098 A JP 2007018098A
Authority
JP
Japan
Prior art keywords
label
clause
text
sentence
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005196629A
Other languages
English (en)
Inventor
Hidenori Kashioka
秀紀 柏岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005196629A priority Critical patent/JP2007018098A/ja
Publication of JP2007018098A publication Critical patent/JP2007018098A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 文境界が不明確で、後の自然言語処理で追従性が要請される形態のテキスト処理において、追従性と適正な自然言語処理を実現するために適切なテキスト分割処理装置を提供する。
【解決手段】 所定の分割手段によって分割されたテキストに対し所定の形態素の並びのパタンを検出する形態素解析部56と、上記検出パタンに応じた節ラベルを付加する言語処理系58と、言語処理系58の出力を一時的に蓄積するバッファ60と、節ラベルの種類が所定の第1の種類の節ラベルで、かつその節ラベルが節中の特定の位置にあれば、所定の第2の種類の節ラベルに修正するテキスト修正部62と、第1の種類の節ラベル以外の節ラベルが検出されたか、テキスト修正部62による修正が行なわれたかのいずれかに応答して、バッファ60に蓄積されたデータを出力するテキスト分離部64とを含む。
【選択図】 図2

Description

この発明は、自然言語処理を適切に行なえる様にするための前処理を行なう装置に関し、特に、翻訳等の処理が適切に行なえる様に、句読点を含まない入力テキストを節単位に分離する前処理を行なうためのテキスト分割処理装置、及びそれらのためのコンピュータプログラムに関する。
近年、独話(複数の発話のまとまりであって、講演、ニュース等、発話者が1人のもの)を対象とした自然音声コーパスの構築が進んでいる。講演、ニュース、又は学会発表等、1人の話者が話しつづける独話は、対話(複数の発話のまとまりであって、2人の発話者が発話を交換するもの)よりも1文の長さが長くなったり、文の構造が複雑化したりするという特徴を持つ事が知られている。
この様に独話においては、文構造の複雑さ、1文の長さという特徴があるために、例えばこれを翻訳するための各種の処理を漸進的に進める事が困難であった。そして、このような困難さがあるために、原発話に追従して訳す必要のある講演等の同時通訳においては、処理単位について考える必要があった。
この困難さを防ぐためには、まず、翻訳のための処理単位をなるべく短くする必要がある。なぜならば、処理単位が長ければ原発話を聞いているだけの時間が長くなり、訳出の追従性が損なわれるからである。一方、処理単位を単に短くすると、適切な対訳に必要な情報が欠落してしまう。そのため、翻訳結果の適切性や正確性が失われてしまう。たとえば、単語を処理単位として翻訳を行なうと、訳語選択の手がかりが失われ、原言語の語順で互いに関連を見出す事が難しい単語列として翻訳結果が出力される。
この様に、処理の追従性のためには処理単位を短くする事が望ましいが、翻訳結果の適切性や正確性のためには処理単位を長くする事が望ましい。そこで、処理の追従性が高い上に正確で適切な処理を可能にする処理単位が必要と考えられる。この単位として、節が有望視されている。節は文法的なまとまりがあり、比較的短い単位であるからである。
正確な節の判定は文章構造の複雑さ等の点から困難ではある。しかし、節末の境界は局所的な形態素列のパタンを用いて比較的容易に判定できる。この点からも、節を処理単位とする事が有利に思われる。
翻訳の処理単位として節を用いるには、節を検出するための手段が必要となる。節検出のための従来の技術としては特許文献1に開示の以下のようなものがある。
図1を参照して、まず、入力された日本語テキスト30を、文単位による分割処理32により句点を基準として文単位に分割し、テキスト34を得る。このテキスト34を、節境界検出処理36により節分割し、節分割されたテキスト38を得る。節分割されたテキスト38では、節境界の各々に節ラベルが挿入されている。各節ラベルは、当該箇所が節境界である事を示すとともに、その節境界の種類も示している。
特開2004−318300
しかし、これはあくまで句点を基準にテキスト形式で入力された独話の節境界を検出したものである。実際の音声によって行なわれる講演などの独話においては、発話者は文の切れ目を明確にせずに発話し続ける事が多い。そのため文境界が明確でなく、文単位による分割を元に節境界を検出するという事は、実際の発話の場合には困難である。
また、文単位による節境界検出処理を行なうと、節境界を判定するために一文が終わるまで、つまり、文末が来るまで処理を留保する事になる。この様に、節境界を判定するために文末まで処理を留保しなければならないという事は、実際の音声、たとえば前述した同時通訳の様に追従性が要請される翻訳においては妥当でないと考えられる。
従って、特に独話の節境界検出処理をするためには、そのための入力データとして、発話中に含まれる情報によって得られるものが望ましい。また、その処理単位は文よりも短いものが望ましい。
文よりも短い処理単位としては、短い中断である「ポーズ」により区切られた発話を用いる事が望ましいと考えられる。ポーズは、独話をその構成単位に分割する事のできる音声による情報の一つである。そして、その情報は発話中に含まれているので、ポーズで区切られた発話を翻訳の処理単位として使用する事は特に望ましいと考えられる。
また、ポーズは、文をいくつかの構成要素に分割するものである。従ってポーズによって分割された単位は明らかに文よりも短い単位となるので、翻訳の追従性の要請にも資する。
ポーズにより区切られた発話を「ポーズ単位」として、これを文に代わる新たな処理単位として採用する事が望ましいと考えられる。しかし、文が文章の構成による情報によって得られる単位であるのと違い、ポーズ単位は音声情報によって得られる単位である。この違いが、自然言語を処理する過程でポーズ単位を使うにあたって、問題を生じさせる事がある。すなわち、ポーズ単位で分割すると、ポーズを挟んだ前後でポーズ単位同士の関連性が失われるので、形態素解析結果に誤りが生じる事がある。そして、その形態素解析結果を元に節分割が行なわれるので、節分割結果にも誤りが生じる。
具体的に、前述した特許文献1に記載の技術を単純にポーズ単位に拡張し、所定長以上のポーズで入力テキストを分割した場合について説明する。本願発明者の実験によれば、あるテスト用テキストに対する文単位の処理の場合には節ラベリングにより66,451箇所の節境界が検出され、その精度は97%であるのに対して、ポーズ単位の処理の場合には70,632箇所の節境界が検出されてしまう。この違いは、形態素解析のためにポーズ単位に分割されたテキストを使うか、文単位に分割されたテキストを使うかという差異によって生じる。このような問題点を解決するためにポーズ単位を処理単位とする場合には、節ラベリングの精度を上げるために適切な修正を行なう事が望ましい。
従って、特に独話の様に、発話者が文と文の境界を明確にせずに発話し、かつ、翻訳等、後の自然言語処理の追従性が要請される形態のテキスト処理において、なるべく追従性を保ちつつ、誤りの少ない自然言語処理を実現するための適切なテキスト分割処理装置を提供する事が本発明の一つの目的である。
本発明の第1の局面に係るテキスト分割処理装置は、テキスト中に含まれるポーズ長情報によりテキストを所定の単位に分割するための分割手段と、分割手段によって分割されたテキストに対し形態素解析を行なって形態素列を出力するための形態素解析手段と、形態素列の中において所定の形態素の並びのパタンを検出するための検出手段と、パタンが検出された事に応答して、形態素列の中で、検出されたパタン中の形態素の並びと所定の関係にある位置に、検出されたパタンに応じた節ラベルを付加するための境界指定手段と、境界指定手段の出力を一時的に蓄積するための蓄積手段と、境界指定手段の出力中に含まれる節ラベルを検出し、その種類を判定するための判定手段と、判定手段により予め定められる第1の種類の節ラベルと判定され、かつ、節中の特定の位置にある節ラベルを、予め定められる第2の種類の節ラベルに修正するための第1の手段と、判定手段により第1の種類の節ラベル以外の節ラベルが検出された事、及び第1の手段による修正が行なわれた事、のいずれかに応答して、蓄積手段に蓄積された形態素列の先頭から節ラベルまでを読出して出力するための出力手段とを含む。
このテキスト分割処理装置によると、言語処理において追従性が高いと考えられるポーズ長情報によってテキストを所定の単位に分割できる上に、第1の種類の節ラベルであると誤って付加された節ラベルが正しい節ラベルである第2の種類の節ラベルに修正される。また、文単位ではなく、それより短くかつ意味的なまとまりのある節単位でテキストの分割が行なわれる。従って、なるべく追従性を保ちつつ、誤りの少ない自然言語処理を実現するための適切なテキスト分割処理装置を提供する事ができる。
好ましくは、第1の手段は、連体節を示す節ラベルが所定の単位の境界位置にある場合に当該節ラベルを文末を示す節ラベルに修正するための修正手段を含む。
このテキスト分割処理装置によると、連体節を示す節ラベルであると誤って付加された節ラベルが文末を示す正しい節ラベルに修正される。また、文単位ではなく、それより短くかつ意味的なまとまりのある節単位でテキストの分割が行なわれる。従って、なるべく追従性を保ちつつ、誤りの少ない自然言語処理を実現するための適切なテキスト分割処理装置を提供する事ができる。
さらに好ましくは、このテキスト分割処理装置は、従属文を示す節ラベルが節中の所定の単位の境界にある場合に当該節ラベルを文末を示す節ラベルに修正するための修正手段を含む。
このテキスト分割処理装置によると、従属文を示す節ラベルであると誤って付加された節ラベルが文末を示す正しい節ラベルに修正される。また、文単位ではなく、それより短くかつ意味的なまとまりのある節単位でテキストの分割が行なわれる。従って、なるべく追従性を保ちつつ、誤りの少ない自然言語処理を実現するための適切なテキスト分割処理装置を提供する事ができる。
さらに好ましくは、このテキスト分割処理装置は、連体節を示す節ラベルが所定の単位の境界位置にある場合に当該節ラベルを文末を示す節ラベルに修正するための第2の手段を含み、出力手段は、判定手段により連体節を示す節ラベルと従属文を示す節ラベル以外の節ラベルが検出された事、第1の手段による修正が行なわれた事、及び第2の手段による修正が行なわれた事、のいずれかに応答して蓄積手段に蓄積された形態素列の先頭から節ラベルまでを読出して出力するための手段を含む。
このテキスト分割処理装置によると、連体節を示す節ラベルであると誤って付加された節ラベルが文末を示す正しい節ラベルに修正される。また、文単位ではなく、それより短くかつ意味的なまとまりのある節単位でテキストの分割が行なわれる。従って、なるべく追従性を保ちつつ、誤りの少ない自然言語処理を実現するための適切なテキスト分割処理装置を提供する事ができる。
さらに好ましくは、分割手段は、所定の単位の境界のポーズ位置に、ポーズの長さを示す情報を挿入し、形態素解析手段は、分割手段によって分割された情報に従って、形態素列中のポーズ位置にポーズの長さを示すポーズ長情報を挿入する。テキスト分割処理装置は、形態素列の中に所定のしきい値以上のポーズ長を示すポーズ長情報が検出された事に応答して、当該位置に節ラベルが存在すれば当該節ラベルを文末を示す節ラベルに修正し、当該位置に節ラベルが存在しなければ文末を示す節ラベルを挿入する修正を行なうための第3の手段をさらに含み、出力手段は、判定手段により連体節を示す節ラベルと従属文を示す節ラベル以外の節ラベルが検出された事、第1、第2及び第3の手段のいずれかによる修正が行なわれた事、のいずれかに応答して、蓄積手段に蓄積された形態素列の先頭から節ラベルまでを読出して出力するための手段を含む。
このテキスト分割処理装置によると、誤って何らの節ラベルも付加されていなければ、文末を示す正しい節ラベルが付加され、文末以外を示す節ラベルが誤って付加されていれば、文末を示す正しい節ラベルに修正される。また、文単位ではなく、それより短くかつ意味的なまとまりのある節単位でテキストの分割が行なわれる。従って、なるべく追従性を保ちつつ、誤りの少ない自然言語処理を実現するための適切なテキスト分割処理装置を提供する事ができる。
さらに好ましくは、このテキスト分割手段は、所定の単位の境界のポーズ位置に、ポーズの長さを示す情報を挿入し、形態素解析手段は、分割手段によって分割された情報に従って、形態素列中のポーズ位置にポーズの長さを示すポーズ長情報を挿入する。テキスト分割処理装置は、形態素列の中に所定のしきい値以上のポーズ長を示すポーズ長情報が検出された事に応答して、当該位置に節ラベルが存在すれば当該節ラベルを第2の種類の節ラベルに修正し、当該位置に節ラベルが存在しなければ第2の種類の節ラベルを挿入する修正を行なうための第2の手段をさらに含み、出力手段は、判定手段により第1の種類の節ラベル以外の節ラベルが検出された事、第1の手段による修正が行なわれた事、及び第2の手段による修正が行なわれた事、のいずれかに応答して、蓄積手段に蓄積された形態素列の先頭から節ラベルまでを読出して出力するための手段を含む。
このテキスト分割処理装置によると、言語処理において追従性が高いと考えられるポーズ長情報によってテキストを所定の単位に分割できる上に、節ラベルが付加されていなければ正しい節ラベルである第2の節ラベルが付加され、誤って付加された節ラベルがあれば正しい節ラベルである第2の種類の節ラベルに修正される。また、文単位ではなく、それより短くかつ意味的なまとまりのある節単位でテキストの分割が行なわれる。従って、なるべく追従性を保ちつつ、誤りの少ない自然言語処理を実現するための適切なテキスト分割処理装置を提供する事ができる。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかのテキスト分割処理装置として動作させるものである。従って上述したテキスト分割処理装置と同様の効果を得る事ができる。
以下、図面を参照し発明の実施の形態を説明する。本実施の形態は、日本語音声による独話を機械翻訳するシステムに関するものである。
<構成>
図2に、本実施の形態のテキスト分割処理装置を採用した翻訳装置の機能ブロック図を示す。
図2を参照して、この機械翻訳システム40は、ユーザからの起動コマンド42に応答して、日本語の音声を機械翻訳し、結果を英語音声として出力するためのものである。機械翻訳システム40は、日本語の音声信号に対する音声認識を行ない、入力音声に対応する日本語のテキストとして発話の時間情報を付してポーズ単位で出力するための日本語音声認識部50と、その日本語テキストを形態素解析し、形態素列を出力するための形態素解析部56とを含む。
図2を参照して、機械翻訳システム40はさらに、上記した節境界検出ルールをPerlの正規表現命令列からなるスクリプトの形で実装したプログラム54と、形態素解析部56の出力する形態素列に対してプログラム54を適用する事により、節境界ごとに節ラベルが挿入された処理後のテキストを出力するための言語処理系58と、言語処理系58とテキスト修正部62からの出力をFIFO方式で一時的に蓄積するバッファ60と、言語処理系58から節ラベルが出力されるごとに、その節ラベルの修正の必要の有無を判断して修正が必要と判断するとバッファ60に蓄積されている当該節ラベルを修正するテキスト修正部62とを含む。テキスト修正部62は、節ラベルを検出するごとに節分離信号70を出力する機能も持つ。なお、プログラム54は上記特許文献1に開示のPerl処理系を用いたものを使用している。
機械翻訳システム40はさらに、テキスト修正部62から節境界信号が与えられた事に応答して、バッファ60の先頭から最初の節ラベルまでのデータを読出して出力する事により、テキストを節に分離するためのテキスト分離部64と、テキスト分離部64から与えられるテキストを英語に翻訳して英語テキストとして出力するための機械翻訳部66と、機械翻訳部66が出力する英語テキストから英語の音声を合成するための英語音声合成部68と、ユーザからの起動コマンド42に応答して入力テキスト及びプログラム54を読み込み、形態素解析部56及び言語処理系58を起動するためのオペレーティングシステム(OS)52とを含む。ここで、節の境界を示す情報を「節ラベル」と呼んでいるのは、節の種類を示す情報を含んでいるためである。この節ラベルは、そこに節境界が存在している事を示すものでもあり、節境界を示すマーカとしての役割も果たしている。
OS52、言語処理系58を備え、プログラム54を実行する事からもわかる様に、機械翻訳システム40は実質的にはコンピュータから構成されている。
図3を参照して、形態素解析部56の形態素出力形式80について説明する。形態素解析部56が出力する形態素は、形態素出力形式80に示される様に、形態素の出現形と、その品詞と、その活用形と、出現したときの活用型とからなる。「活用形」とは、動詞、助動詞、形容詞等の活用のしかたの分類を示すものである。例えば「五段活用」「下二段活用」等のようなものである。「活用型」とは、出現した形態素が、各活用形の中でどのような活用をされているかを示すものである。例えば「未然形」「連用形」「連体形」等のようなのものである。なお、図3には示していないが、形態素解析部56は、各ポーズ単位の末尾の形態素の次にポーズ長を示す情報を挿入して出力する。
図3に、入力例82として「おもしろいことにこうした両極端が結び付いてきたというわけなんですね」という文を示す。これを形態素解析部56により形態素解析した結果を形態素列出力例84に示す。形態素列出力例84から明らかな様に、形態素解析部56は入力テキストを形態素解析し、形態素出力形式80に従った形式の形態素列を出力する機能を持つ。
図4に、本実施の形態で検出される節の種類の一部を示す。図4に示す様に各節ラベルは階層的に分類されている。本実施の形態では、合計147種類の節を用いる。これらの中には「主題ハ」や「感動詞」、「談話標識」など、厳密に言えば節境界を示すわけではないものも含まれている。本明細書ではこれらも含めて「節境界」と考える事とする。
本実施の形態で用いられている節ラベルは、実際には図4に示したものをさらに細かく分類したものである。例えば、「理由節」の下にはさらに8種類の下位の節が存在している。147種類というのは、これら下位の節をもすべて含めた数である。
図5にテキスト修正部62のブロック図を示す。
図5を参照して、テキスト修正部62は、言語処理系58より入力された形態素列を表わすテキストデータの種類を判定するテキストデータの判定部90と、判定されたデータが節ラベルであった場合にその節ラベルの種類を判定するための節ラベル判定部92と、節ラベルが「連体節」であり、かつポーズ単位の末尾であった場合にそれを「文末」に修正するための第1のルール適用部94と、節ラベルが「従属文」であり、かつポーズ単位の末尾である場合にそれを「文末」に修正するための第2のルール適用部96と、判定部90で判定されたデータがポーズ長を示すものである場合にポーズ長の長さがしきい値以上か否かを判定するポーズ長判定部98と、ポーズ長がしきい値以上であれば節ラベル「文末」を挿入する、又は、既存の節ラベルを「文末」に修正する処理を行なうラベル修正部100とを含む。第1のルール適用部94と第2のルール適用部96とは、ルールを適用した後、節分割すべき事を示す信号を出力する。節ラベル判定部92は、連体節及び従属文を示す節ラベルを受けると、節分離すべき事を示す信号を出力する。ラベル修正部100は、ラベルを挿入又は修正した場合、節分離をすべき事を示す信号を出力する。テキスト修正部62は、節ラベル判定部92、第1のルール適用部94、第2のルール適用部96、及びラベル修正部100のいずれかから節分離をすべき事を示す信号を受けた事に応答して節分離信号をテキスト分離部64に与えるための節分離信号出力部102をさらに含む。
図6に、第1のルール適用部94と、第2のルール適用部96と、ラベル修正部100によって実現される節ラベル修正処理をフローチャート形式で示す。
図6を参照して、ステップ111で入力されてきた節分割処理の済んだ日本語テキストデータ110を読み込む。ステップ112では、そのデータの種類を判定して、節ラベルデータならばステップ114へ進み、ポーズ長データならばステップ124へ進み、それ以外のデータならステップ111に戻る。
ステップ114では、節ラベルの種類を判定する処理を行なう。節ラベルの種類が「連体節」であればステップ116に進み、「従属文」であればステップ120に進み、それ以外の節ラベルであればステップ130に進む。
ステップ116では、検出された「連体節」のラベルがポーズ単位の境界にあるか否かを判定する。否であれば、ステップ111に戻る。「連体節」のラベルがポーズ単位の境界にあれば、ステップ118に進む。
ステップ118では、既存の節ラベル「連体節」を節ラベル「文末」に修正する処理を行なう。
ステップ118の後、ステップ130に進む。
ステップ120では、「従属文」のラベルがポーズ単位の境界にあるか否かを判定する。否であれば、ステップ111に戻る。「従属文」のラベルがポーズ単位の境界にあれば、ステップ122に進む。
ステップ122では、既存の節ラベル「従属文」を節ラベル「文末」に修正する処理を行なう。ステップ122の後、ステップ130に進む。
ステップ130では、節分離をすべき事を示す信号をテキスト分離部64に出力する処理を行なう。
ステップ124では、ポーズ長の長さがしきい値以上であるかどうかを判定する。ポーズ長の長さがしきい値以上であれば、ステップ132に進む。ポーズ長の長さがしきい値未満であれば、ステップ111に戻る。
ステップ132では、ポーズ長データの直後に何らかの節ラベルが存在するか否かを判定する。あればステップ126に進み、なければステップ134に進む。ステップ126では節ラベルが「文末」以外かどうかを判定する。ポーズ長データの直後に付された節ラベルが「文末」であれば、ステップ130に進む。ポーズ長データの直後に「文末」以外の節ラベルが付されている場合には、ステップ128に進む。
ステップ128では、既存の節ラベルを「文末」に修正する処理を行なう。この後ステップ130に進む。一方、ステップ134では、該当箇所に「文末」という節ラベルを挿入し、ステップ130に進む。
<動作>
この機械翻訳システム40は以下の様に動作する。
図2を参照してまず、機械翻訳装置40はユーザからの起動コマンド42に応答して起動する。
その後、日本語話者が発話すると、図に示さないマイクを通して音声信号に変換された日本語音声が、日本語音声認識部50で認識されて、ポーズ単位で分割された日本語テキストとして出力される。この日本語テキストに対しOS52によって起動された形態素解析部56で形態素解析が行なわれ、形態素データがテキストに付される。形態素データが付されたテキストが同じくOS52によって起動された言語処理系58で節に分割され節ラベルが付される。節データが付されたテキストはFIFO方式でバッファ60に一時的に蓄積される。テキストに付された節ラベルが適切でない場合には、テキスト修正部62が適切な節ラベルに修正する。
図5を参照して、節分割されたテキストが言語処理系58から入力されると、テキストデータの判定部90でテキストデータの種類が判定される。テキストデータの種類が節ラベルであると、節ラベル判定部92で節ラベルの種類が判定される。節ラベルの種類が連体節であり、かつ、その節ラベルがポーズ単位の末尾にあれば第1のルール適用部(ルール1)94によってバッファ60中の対応する節ラベル「連体節」が節ラベル「文末」に修正される。第1のルール適用部94はまた、節分割すべき事を示す信号を節分離信号出力部102に送る。
節ラベルの種類が従属文であり、かつ、その節ラベルがポーズ単位の末尾にあれば第2のルール適用部(ルール2)96によって、バッファ60中の対応する節ラベル「従属文」が節ラベル「文末」に修正される。第2のルール適用部96はまた、節分割すべき事を示す信号を節分離信号出力部102に送る。
節ラベルの種類が、連体節、従属文以外であれば、節ラベル判定部92は、節分割すべき事を示す信号を節分離信号出力部102に送る。
テキストデータ判定部90によって判定されたデータがポーズ長データであった場合には、ポーズ長判定部98によってそのポーズ長の長さがしきい値以上か否かが判定される。ポーズ長の長さがしきい値以上であれば、ラベル修正部100でそのポーズ長データの直後に何らかの節ラベルが付されているかどうかが判定される。何の節ラベルも付されていない場合にはバッファ60内の対応するポーズ長データの後に節ラベル「文末」が挿入される。節ラベルが付されているが、それが「文末」以外であれば、節ラベル「文末」に修正される。ラベル修正部100はまた、節分割すべき事を示す信号を節分離信号出力部102に送る。
ポーズ長がしきい値未満であれば、そのデータは以降の節分割の処理には関係しないので、処理は何もされない。
テキストデータが節ラベルデータ、ポーズ長データ以外の場合にも修正処理はされない。
再び図2を参照して、テキスト修正部62によって節ラベルが検出されると、節分離信号70が出力され、テキスト分離部64に送られる。テキスト分離部64はバッファ60に蓄積されたテキストを読出して出力する事により、テキストを節に分離する。節で分離された日本語テキストを機械翻訳部66で英語テキストに翻訳する。この英語テキストに基づき、英語音声合成部68で英語音声合成が行なわれて英語の音声信号が出力される。この音声信号は図に示さないスピーカによって音声に変換され出力される。
<修正動作の具体例>
この機械翻訳装置の修正規則の一つであるルール1による修正の具体例を以下に示す。
図7を参照して、音声による元の文章140に対して、ポーズ単位による分割処理142と形態素解析・節境界検出処理146を行なった後、ルール1による修正処理150を行なった。その結果を152に示す。
まず、音声上の規則であるポーズによってポーズ単位で分割されたテキスト144にはテキスト上の規則である句点による区切りは反映されない。すなわち、「年間千八百人の転職を手がけています」という文章と「再就職の先は〜」以降の文章が一文であると判断する。これに基づいて形態素解析・節境界検出処理146を行なうと、本来、文末であるはずの「手がけています」が直後の「再就職の先は」と関連付けられる。その結果、「手がけています」を「再就職」に係る連体節であると誤ってラベリングする(148)。
この例の様に、ポーズ単位で分割されたテキストを節境界検出に使用すると、句点による文末の情報が得られないので、複数の文が一文であると判断される。そして、その様に一文であると判断された場合には日本語の独話の文頭は名詞で始められる事が多いので、本来文末と判断されるべき箇所が後の節と関連付けられ、連体節と誤って判断される。
そこで、ポーズ単位の境界にある「連体節」のラベルを「文末」に置き換えるという第1のルール(ルール1)を用いて節ラベルの誤りを修正する事(150)により、テキスト152に示す様に、正しい節分割が行なわれる。
次に、この機械翻訳装置の修正規則の一つであるルール2の動作の具体例を説明する。
図8を参照して、音声による元の文章160に対して、ポーズ単位による分割処理162と形態素解析・節境界検出処理166を行なった後、ルール2による修正処理170を行なった。その結果を172に示す。
まず、音声上の規則であるポーズによってポーズ単位で分割されたテキスト164にはテキスト上の規則である句点による区切りは反映されない。すなわち、「ここに様々な情報を載せています」という文章と「ですから、〜」以降の文章が一文であると判断される。これに基づいて形態素解析・節境界検出処理166を行なうと、本来、文末であるはずの「載せています」が直後の「ですから〜」以降と関連付けられる。その結果、「ここに様々な情報を載せています」が、「ですから〜」以降に従属する従属文であると誤ってラベリングされる(168)。
この例の様に、ポーズ単位で分割されたテキストを節境界検出に使用すると、句点による文末の情報が得られないので、複数の文が一文であると判断される。そして、一文と判断される事によって後の節と関連付けて判断されるので「ここに様々な情報を載せています」という部分が談話標識である「ですから」をはさんで以降の部分に従属する従属文であると誤って判断される。
そこで、ポーズ単位の境界にある「従属文」のラベルを「文末」に置き換えるという第2のルール(ルール2)を用いて節ラベルの誤りを修正する事(170)により、テキスト172に示す様に、正しい節分割が行なわれる。
次に、この機械翻訳装置の動作の具体例を説明する。
図9を参照して、音声による元の文章180に対して、ポーズ単位による分割処理182と形態素解析・節境界検出処理186を行なった後、ポーズ長による修正190を行なった。その結果を192に示す。
まず、音声上の規則であるポーズによってポーズ単位で分割されたテキスト184には、テキスト上の規則である句点による区切りは反映されない。すなわち、「・・・空洞化といわれる問題です」と「国民が全て〜」以降の文章が一文であると判断される。これに基づいて形態素解析・節境界検出処理186を行なうと、本来、文末であるはずの「問題です」を直後の「国民が全て加入する」と関連付けられる。その結果、「問題です」と「国民が全て加入する」とが一体とみなされ、次の「国民皆年金」に係る連体節であると誤ってラベリングされる。
この例の様に、ポーズ単位で分割されたテキストを節境界検出に使用すると文末の情報が得られないので、複数の文が一文であると判断される。しかし、日本語の独話においては、文末におけるポーズ長は、その他の文の構成要素の間に存在するポーズよりも比較的長いのが一般的である。
そこで、文末だと推定される程度のポーズ長が存在する場合には、節ラベル「文末」を付する、もしくは既存の節ラベルを「文末」に置き換えるという修正190を行なう事により、テキスト192に示す様に正しい節分割が行なわれる。
ここで、このポーズ長による修正は、ポーズ長判定部98でのポーズ長しきい値によってその精度が変化する事を示す。
図10にしきい値としてのポーズ長(単位1/1000秒)と文境界判定精度との間の、実験によって得られた関係を示す。図10を参照して、たとえば、ポーズ長のしきい値が0.5秒〜3.0秒の範囲にある場合には、文境界判定精度は80%以上となる。また、同じくポーズ長のしきい値が0.75秒〜1.8秒の範囲にある場合には、文境界判定精度は90%以上となる。さらに、もっとも精度よく文境界を判定するポーズ長のしきい値は、1.29秒であり、精度は93.6%であった。
ただし、この精度は個々の発話者の個性によって若干変動するので、発話者に応じて微調整を行なう事が望ましい。
再び図9を参照して、まず、ポーズ単位による分割処理182を行なったテキスト184に付された6桁の数字は発話の開始からの秒数(単位は1/1000秒)を示している。そして、二つの6桁数字からなる組は、各々右側にテキストで示された発話の始点と終点に対応している。つまり、「空洞化と」と発話する間に0.772秒(114671−113899)の時間が経過した事になる。この事から、発話と発話の間に存在するポーズ長についても同様に減法で求められる。
形態素解析・節境界検出処理186を行なったテキスト188に各々のポーズ長データについても示す。ここで、ポーズ単位による分割結果184に形態素解析・節境界検出処理186を行なうと「問題です」とそれ以降の文が一文としてとらえられ、その結果、誤った節分割がされてしまう。
しかしここで、「問題です」と「国民が〜」との間のポーズ長は1.265秒であって、本来分割されるべき長さのポーズ長である。そこでポーズ長判定部のしきい値0.75秒を選べば正しく節分割できる様になる。さらに、何らの節ラベルも付されていないので、ポーズ長による修正190により「文末」という節ラベルが付される。その結果、ポーズ長による修正190によって、テキスト192に見られる様に、「問題です」の直後が文末となるような正しい節分割が行なわれる。
<性能評価のための実験>
本実施の形態に係る節境界検出装置をルール1及びルール2により修正する事の有効性を評価するために、異なった単位で分割された2種類のテキストを形態素解析処理した後に節分割処理を行なった結果を図11に示す。
図11に示される様に、テキストは文単位で分割されたテキストとポーズ単位で分割されたテキストとである。文単位で分割されたテキストを用いて節分割を行なうと、その節分割の結果は97%という高い精度を示す。そこで、文単位で分割されたテキストについて節分割をした結果とポーズ単位で分割されたテキストについて節分割をした結果の差異が少なくなるほど、ポーズ単位で分割されたテキストを用いて節分割をする場合の精度が高くなると考えられる。
図11に示される様に、行200では文単位の分割では節ラベルが「文末」であるが、ポーズ単位の分割では節ラベルが誤って「連体節」になっているものの出現頻度は7,361回である。これにルール1を適用するとその誤りの頻度が0回になる。従って、誤った節ラベル「連体節」を適切な節ラベル「文末」に修正するためにルール1は適している。
同じく図11に示される様に、行202では文単位の分割では節ラベルが「文末」であるが、ポーズ単位の分割では節ラベルが誤って「従属文」になっているものの出現頻度は6,004回である。これにルール2を適用するとその誤りの頻度が0回になる。従って、誤った節ラベル「従属文」を適切な節ラベル「文末」に修正するためにルール2は適している。
以上の様に、ルール1とルール2を適用する事によって、ポーズ単位で分割されたテキストの節分割結果は文単位で分割されたテキストの節分割結果に近づく。文単位で分割されたテキストの節分割結果は97%という高い精度を示すので、文単位での処理結果に近づくという事は、同時に適切な節分割結果に近づくという事を示す。そして、翻訳の前処理である節分割処理結果が適切であるという事は、それを用いて行なわれる翻訳結果も適切になる。
従って、翻訳処理の前処理としてポーズ単位によるテキストを用い、それにルール1及びルール2による修正を加える事は、翻訳結果の精度を向上させる有効な方法であると言える。
さらに、図11の行200に示される様に、ルール1のみでも「文末」を「連体節」と誤って判断した結果が修正される。また、同じく行202に示される様にルール2のみでも「文末」を「従属文」と誤って判断した結果が修正される。この事から、これら二つのルールによる修正は、どちらか一方を適用した場合でも節ラベル付けの誤りが減少し、正確な節分割をするのに有効な手段となりうる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
従来技術による節境界検出処理の流れを示す図である。 本発明の一実施の形態に係る翻訳装置の機能的ブロック図である。 節境界検出ルールの一般系及び例を説明するための図である。 一実施の形態の節境界検出ルールで検出可能な節の種類を説明するための図である。 テキスト修正部の詳細を示すブロック図である。 テキスト修正部の処理を説明するためのフローチャートである。 ルール1による修正の具体例を示す図である。 ルール2による修正の具体例を示す図である。 ポーズ長による修正の具体例を示す図である。 しきい値としてのポーズ長と分境界判定精度の関係を示すグラフである。 ルール1、2による修正の性能評価の結果を示す図である。
符号の説明
56 形態素解析部
58 言語処理系
60 バッファ
62 テキスト修正部
64 テキスト分離部
90 テキストデータの判定部
92 節ラベル判定部
94 ルール1
96 ルール2
98 ポーズ長判定部
100 ラベル修正部
102 節分離信号出力部

Claims (5)

  1. テキスト中に含まれるポーズ長情報によりテキストを所定の単位に分割するための分割手段と、
    前記分割手段によって分割された前記テキストに対し形態素解析を行なって形態素列を出力するための形態素解析手段と、
    前記形態素列の中において所定の形態素の並びのパタンを検出するための検出手段と、
    前記パタンが検出された事に応答して、前記形態素列の中で、検出された前記パタン中の形態素の並びと所定の関係にある位置に、検出されたパタンに応じた節ラベルを付加するための境界指定手段と、
    前記境界指定手段の出力を一時的に蓄積するための蓄積手段と、
    前記境界指定手段の出力中に含まれる節ラベルを検出し、その種類を判定するための判定手段と、
    前記判定手段により予め定められる第1の種類の節ラベルと判定され、かつ、節中の特定の位置にある節ラベルを、予め定められる第2の種類の節ラベルに修正するための第1の手段と、
    前記判定手段により前記第1の種類の節ラベル以外の節ラベルが検出された事、及び前記第1の手段による修正が行なわれた事、のいずれかに応答して、前記蓄積手段に蓄積された形態素列の先頭から節ラベルまでを読出して出力するための出力手段とを含む、テキスト分割処理装置。
  2. 前記第1の手段は、連体節を示す節ラベルが前記所定の単位の境界位置にある場合に当該節ラベルを文末を示す節ラベルに修正するための修正手段を含む、請求項1に記載のテキスト分割処理装置。
  3. 前記第1の手段は、従属文を示す節ラベルが節中の前記所定の単位の境界にある場合に当該節ラベルを文末を示す節ラベルに修正するための修正手段を含む、請求項1に記載のテキスト分割処理装置。
  4. 前記分割手段は、前記所定の単位の境界のポーズ位置に、ポーズの長さを示す情報を挿入し、
    形態素解析手段は、前記分割手段によって分割された前記情報に従って、前記形態素列中のポーズ位置にポーズの長さを示すポーズ長情報を挿入し、
    前記テキスト分割処理装置は、前記形態素列の中に所定のしきい値以上のポーズ長を示すポーズ長情報が検出された事に応答して、当該位置に節ラベルが存在すれば当該節ラベルを前記第2の種類の節ラベルに修正し、当該位置に節ラベルが存在しなければ前記第2の種類の節ラベルを挿入する修正を行なうための第2の手段をさらに含み、
    前記出力手段は、前記判定手段により前記第1の種類の節ラベル以外の節ラベルが検出された事、前記第1の手段による修正が行なわれた事、及び前記第2の手段による修正が行なわれた事、のいずれかに応答して、前記蓄積手段に蓄積された形態素列の先頭から節ラベルまでを読出して出力するための手段を含む、請求項1に記載のテキスト分割処理装置。
  5. コンピュータにより実行されると、当該コンピュータを請求項1から請求項4のいずれかに記載のテキスト分割処理装置として動作させる、コンピュータプログラム。
JP2005196629A 2005-07-05 2005-07-05 テキスト分割処理装置及びコンピュータプログラム Pending JP2007018098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005196629A JP2007018098A (ja) 2005-07-05 2005-07-05 テキスト分割処理装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005196629A JP2007018098A (ja) 2005-07-05 2005-07-05 テキスト分割処理装置及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2007018098A true JP2007018098A (ja) 2007-01-25

Family

ID=37755236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005196629A Pending JP2007018098A (ja) 2005-07-05 2005-07-05 テキスト分割処理装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2007018098A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014093602A (ja) * 2012-11-01 2014-05-19 Toshiba Corp 画像処理装置、画像処理方法、画像処理プログラム、および立体画像表示装置
JP2016071761A (ja) * 2014-09-30 2016-05-09 株式会社東芝 機械翻訳装置、方法およびプログラム
JP2017085598A (ja) * 2016-12-08 2017-05-18 株式会社東芝 画像処理装置、画像処理方法、画像処理プログラム、および立体画像表示装置
JP2017167805A (ja) * 2016-03-16 2017-09-21 株式会社東芝 表示支援装置、方法およびプログラム
JP2020057401A (ja) * 2016-03-16 2020-04-09 株式会社東芝 表示支援装置、方法およびプログラム
CN112632988A (zh) * 2020-12-29 2021-04-09 文思海辉智科科技有限公司 句段的断句方法、装置和电子设备
WO2024075179A1 (ja) * 2022-10-04 2024-04-11 ポケトーク株式会社 情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014093602A (ja) * 2012-11-01 2014-05-19 Toshiba Corp 画像処理装置、画像処理方法、画像処理プログラム、および立体画像表示装置
US10003782B2 (en) 2012-11-01 2018-06-19 Kabushiki Kaisha Toshiba Image processing device, method, computer-readable medium and 3D image display
JP2016071761A (ja) * 2014-09-30 2016-05-09 株式会社東芝 機械翻訳装置、方法およびプログラム
JP2017167805A (ja) * 2016-03-16 2017-09-21 株式会社東芝 表示支援装置、方法およびプログラム
US10423700B2 (en) 2016-03-16 2019-09-24 Kabushiki Kaisha Toshiba Display assist apparatus, method, and program
JP2020057401A (ja) * 2016-03-16 2020-04-09 株式会社東芝 表示支援装置、方法およびプログラム
JP2017085598A (ja) * 2016-12-08 2017-05-18 株式会社東芝 画像処理装置、画像処理方法、画像処理プログラム、および立体画像表示装置
CN112632988A (zh) * 2020-12-29 2021-04-09 文思海辉智科科技有限公司 句段的断句方法、装置和电子设备
WO2024075179A1 (ja) * 2022-10-04 2024-04-11 ポケトーク株式会社 情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法

Similar Documents

Publication Publication Date Title
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
US11043213B2 (en) System and method for detection and correction of incorrectly pronounced words
US20070198245A1 (en) Apparatus, method, and computer program product for supporting in communication through translation between different languages
US20080077387A1 (en) Machine translation apparatus, method, and computer program product
US9202466B2 (en) Spoken dialog system using prominence
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
US9588967B2 (en) Interpretation apparatus and method
Kirchhoff et al. Cross-dialectal data sharing for acoustic modeling in Arabic speech recognition
WO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
WO2014187096A1 (en) Method and system for adding punctuation to voice files
CA2680304A1 (en) Decoding-time prediction of non-verbalized tokens
JP2007018098A (ja) テキスト分割処理装置及びコンピュータプログラム
US20070179779A1 (en) Language information translating device and method
Lease et al. Recognizing disfluencies in conversational speech
Lu et al. Disfluency detection for spoken learner english
KR101747873B1 (ko) 음성인식을 위한 언어모델 생성 장치 및 방법
Tseng Repairs in Mandarin conversation
Batista et al. Extending automatic transcripts in a unified data representation towards a prosodic-based metadata annotation and evaluation
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
Thu et al. Syllable pronunciation features for myanmar grapheme to phoneme conversion
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
US6772116B2 (en) Method of decoding telegraphic speech
JP2003162524A (ja) 言語処理装置
JP2017215555A (ja) 音声翻訳装置及び音声翻訳システム
US20230004726A1 (en) Conversion table generation device, conversion table generation method, and recording medium