JP2005345846A

JP2005345846A - 入力テキストのポーズ位置予測装置

Info

Publication number: JP2005345846A
Application number: JP2004166732A
Authority: JP
Inventors: Ni Jinfu; ジンフ・ニ; Hisashi Kawai; 恒河井
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-06-04
Filing date: 2004-06-04
Publication date: 2005-12-15

Abstract

【課題】注釈付きの大規模コーパスを用いることなく、入力テキストのポーズ位置を予測可能にする。
【解決手段】ポーズ位置予測装置２０は、入力テキスト２２の各語に対応の品詞（ＰＯＳ）タグでタグ付けし、それぞれのＰＯＳタグが付された語のシーケンス３４を出力する品詞（ＰＯＳ）タグ付けユニット３０と、語のシーケンス３４のＰＯＳを分析し、語のシーケンス３４におけるＰＯＳタグシーケンスのパターンに基づき入力テキストにおけるポーズ位置を予測するためのＰＯＳチャンク化ユニット３２とを含む。
【選択図】図１

Description

この発明はテキスト−トゥ−スピーチ（ｔｅｘｔ−ｔｏ−ｓｐｅｅｃｈ：ＴＴＳ）合成に関し、特に、テキスト−トゥ−スピーチシステムにおけるポーズを予測するための方法と装置とに関する。

テキスト−トゥ−スピーチシステムは、マン−マシンインターフェイスの鍵となる要素の一つである。特に、最近のコーパスベースの音声合成の発展に伴い、合成音声の自然さは格段に向上している。しかし、現在のテキスト−トゥ−スピーチにさらに改善の余地があることは否定できない。

ポーズは、合成音声をより自然にかつ理解しやすくするために重要な要因である。合成音声にますます自然さが求められるようになっているため、テキスト−トゥ−スピーチシステムでポーズを予測するための努力がなされてきた。これには、句切れを割当てること［非特許文献１］、及び、品詞（ｐａｒｔ−ｏｆ−ｓｐｅｅｃｈ：ＰＯＳ）シーケンスから、統計的モデリングを用いて韻律的構造を予測すること［非特許文献２］［非特許文献３］が含まれる。

Ｐ．タイラー及びＡ．Ｗ．ブラック、「品詞シーケンスからの句切れ割当」、コンピュータスピーチ及び言語、第１２巻、１９９８年（P. Taylor and A. W. Black, "Assigning phrase breaks from part-of-speech sequences," Computer Speech and Languages, Vol. 12, 1998）Ｑ．シ、Ｘ．マ、Ｗ．ズ、Ｗ．ジャン、及びＬ．シェン、「統計的韻律構造予測」、ＴＴＳワークショップ２００２予稿集（Q. Shi, X. Ma, W. Zhu, W. Zhang, and L. Shen, "Statistic prosody structure prediction," Proc. TTS Workshop 2002）藤尾茂、匂坂芳典、樋口宜男、「確率文脈自由文法を用いた韻律句境界とポーズ位置の予測」、電子情報通信学会論文誌Ｄ−ＩＩ、Ｖｏｌ．１、Ｊ８０−Ｄ−ＩＩ、Ｎｏ．１、ｐｐ．１８−２５、１９９７年Ｍ．アサハラ及びＹ．マツモト、「高性能品詞タグ付け装置の拡張モデル及びツール」、ＣＯＬＩＮＧ２０００予稿集（M. Asahara and Y. Matsumoto, "Extended models and tools for high-performance part-of-speech tagger," Proc. of COLING 2000） http://cl.aist-nara.ac.jp/thesis/dthesis-tatuo.pdf http://chasen.org/~taku/software/mecab/ http://rocling.iis.sinica.edu.tw http://www.ldc.upenn.edu/Catalog/LDC2001T11.html http://www.icl.pku.edu.cn/research/corpus/addition.htm Ｊ．ニ、及びＨ．カワイ、「合成指向の標準中国語音声コーパス」、日本音響学会周期会合予稿集、３１９−３２０、２００２年（J. Ni and H. Kawai, "A synthesis-oriented Mandarin speech corpus", Proc. Autumn Meeting of the Acoustical Society of Japan, 319-320, 2002）Ｎ．キャンベル、「クロッシングフィート、英語における統語論的フット構造対韻律的フット構造」日本音響学会秋季会合予稿集、２００１年（N. Campbell, "Crossing feet: syntactic versus prosodic foot structure in English," Proc. Autumn Meeting of the Acoustical Society of Japan, 2001）

しかし、統計的手法には難点がある。なぜなら、予期される性能を得るためには、ポーズ予測に関して正しく注釈を付けたデータが必要となるからである。ポーズ予測の課題に対し利用可能な注釈付きの大規模コーパスがないので、学習モデルのチューニングに容易に用いることのできる、柔軟な装置が求められている。

従って、この発明の目的は、ポーズ予測に関して注釈付きの大規模コーパスを用いることなく、入力テキストのポーズ位置を予測するための装置を提供することである。

この発明に従った入力テキストのポーズ位置予測装置は、入力テキストの各単語を対応の品詞（ｐａｒｔ−ｏｆ−ｓｐｅｅｃｈ：ＰＯＳ）タグでタグ付けし、それぞれのＰＯＳタグが付された単語シーケンスを出力するための手段と、単語シーケンスのＰＯＳを分析し、単語シーケンス内のＰＯＳのパターンに基づき入力テキスト内のポーズ位置を予測するための分析手段とを含む。

この装置においては、入力テキストの各単語がＰＯＳタグでタグ付けされ、ＰＯＳタグシーケンスが分析手段によって分析される。ＰＯＳタグシーケンスのパターンに従って、入力テキスト中のポーズ位置または複数のポーズ位置が、人手を介することなく好ましい正確さをもって予測される。この装置は、ポーズ予測に関して注釈付きの大規模コーパスを何ら必要としない。

好ましくは、入力テキストの語は何らかの予め定められた単語分離シンボルによって分離されてはおらず、タグ付け手段は、単語と対応のＰＯＳタグとを各々が含む複数個のエントリを記憶する辞書と、予め選択された言語モデルと、辞書及び言語モデルを参照して、入力テキストを形態素解析するための形態素解析手段とを含む。

文中の単語が何らかの単語分離シンボルによって分離されていない場合、文はまず単語に分離され、形態素解析手段によりＰＯＳタグでタグ付けされる。日本語または中国語等の文を分析することができる。

より好ましくは、分析手段は、単語シーケンスのＰＯＳタグを分析し、ＰＯＳチャンク化規則の第１の組に従って分離された、タグ付け手段によって出力された予め定められたＰＯＳチャンクを含むＰＯＳチャンクシーケンスを出力するための第１パスチャンク化手段と、第１パスチャンク化手段によって出力されたＰＯＳチャンクシーケンスを分析し、第１の組のサブセットである予め選択された第２の組のＰＯＳチャンク化規則に従って、第１パスチャンク化手段によって出力されたＰＯＳチャンクシーケンスを訂正するための第２パスチャンク化手段とを含み、第２の組の規則は、第２の組の規則のいずれかに合致するＰＯＳシーケンスが、第２の組により選択されなかった規則に比してポーズを伴う確率が高いと考えられるように予め選択される。

ＰＯＳチャンク化は２パスの処理で行なわれる。２つのパスで用いられる規則が互いに異なるため、結果は１パスの処理で得られるものより信頼性が高い。

さらに好ましくは、分析手段はさらに、予め選択されたトライグラム規則に従って、第２パスチャンク化手段によって出力されたＰＯＳチャンクをマージするためのＰＯＳチャンクマージ手段を含み、規則の各々は、一組のトライグラムＰＯＳシーケンスと、第２パスチャンク化手段によって出力されたＰＯＳチャンク中の３個のＰＯＳタグシーケンスであってトライグラムＰＯＳシーケンスに一致するものに対して行なわれるべき対応の動作とを特定する。

トライグラム規則がＰＯＳチャンクに適用される。１個または２個のＰＯＳ単位のみからなる短いチャンクを隣接するものとマージすることができる。

第１パスチャンク化手段は、語のシーケンスのＰＯＳタグを形態素解析し、予め定められた第１の組のＰＯＳシーケンスの一つに一致するＰＯＳチャンクの第１のシーケンスを出力するための第１の手段と、２個の連続したＰＯＳチャンクのうちの第１のものの最後のＰＯＳタグと、２個の連続したＰＯＳチャンクのうちの第２のものの最初のＰＯＳタグとが、予め選択された第１のバイグラムマージ規則のいずれか一つに一致するとき、第１の手段によって出力された２個の連続するＰＯＳチャンクをマージするための手段とを含む。

第１の手段によって出力されたＰＯＳチャンクはその後、マージ手段によってマージされる。これによって、第１手段によるＰＯＳチャンク化の誤差が小さくされる。音声においてポーズを予測する際には、過剰マージしても許容されると考えられるので、ＰＯＳチャンク化の誤差を小さくすることが好ましい。

好ましくは、マージする手段は、いずれか２個の連続するＰＯＳチャンクがマージされると第１の値をとり、そうでなければ第１の値と異なる第２の値をとる信号を出力する。ポーズ位置予測装置はさらに、信号の値が第１の値をとったときに、第２パスチャンク化手段をバイパスして第１パスチャンク化手段が出力したＰＯＳチャンクシーケンスをＰＯＳチャンクマージ手段に与えるための手段を含む。

もし第１パスチャンク化手段においてＰＯＳチャンクがいずれもマージされない場合、チャンク化は正しいと考えられ、第２パスチャンク化手段はバイパスされる。

より好ましくは、第２パスチャンク化手段は、単語シーケンスのＰＯＳタグを形態素解析し、予め定められた第２の組のＰＯＳシーケンスの一つに一致するＰＯＳチャンクの第１のシーケンスを出力するための第２の手段と、第２の手段によって出力された２個の連続したＰＯＳチャンクのうちの第１のものの最後のＰＯＳタグと、第２の手段によって出力された２個の連続したＰＯＳチャンクのうちの第２のものの最初のＰＯＳタグとが、予め選択された第２のバイグラムマージ規則のいずれか一つに一致するとき、第２の手段によって出力された２個の連続するＰＯＳチャンクをマージするための手段とを含む。

さらに好ましくは、第１の手段は、各々がＰＯＳエントリと対応の尤度とを含む複数個のエントリを有する辞書に基づき、最尤推定を用いて単語シーケンスのＰＯＳタグを形態素解析し、ＰＯＳシーケンスの第１の組の一つと最も高い尤度で一致するＰＯＳチャンクの第１のシーケンスを出力するための手段を含む。

１．はじめに
この発明は、生のテキストコーパスからＰＯＳチャンク化モデルの教師無し学習を通してポーズ位置を予測するための、品詞（ｐａｒｔ−ｏｆ−ｓｐｅｅｃｈ：ＰＯＳ）チャンク化に基づく方法と装置とに関する。測定されたポーズの５７．７％が２個の句読点の間で起こり、例えばポーズを伴わないカンマは１％しかない、という実験結果から、句読点を伴わないこともあるポーズ位置の予測において、統語的な句構造情報が有用であろうと思われる。

この観点から、本発明者らは２つのポーズ間の句構造（またはＰＯＳシーケンスパターン）を表すためにＰＯＳシーケンス（ＰＯＳチャンク）を導入し、制限付きの統語節からこれらを学習してＰＯＳチャンクのモデルをトレーニングした。ＰＯＳチャンク化は最尤推定によって行なった。

ＰＯＳシーケンスをあたかもテキストのように扱って、最尤推定を行なうツールとして、形態素解析部を用いた。以下の実施の形態は中国語のテキスト−トゥ−スピーチシステムのためのポーズ予測装置に関するものである。

２．統計的形態素解析
日本語と同様に、中国語の文では語と語がスペースで分離されていない。このため、中国語の形態素解析では、入力テキストをトークン化し、入力テキストの語シーケンスＷ＝ｗ１，…，ｗｎについて品詞（ＰＯＳ）タグＴ＝ｔ1，…，ｔｎを見出さなければならない。形態素解析の問題に対する解は、確率を最大にする語シーケンスＴを見出すことである［非特許文献４参照］。

ベイズの確率論の規則を用いると、最も確率の高いシーケンスＴは以下を計算することに相当する。

確率は、最尤推定を用いることにより、注釈付きコーパスから以下のように推定される。

ここでＦ（ｔ_ｉ−１｜ｔ_ｉ）はｔ_ｉ−１に続いてｔ_１が起こる頻度、Ｆ（ｔ_ｉ）はｔ_ｉの頻度、Ｆ（ｗ_ｉ，ｔ_ｉ）はｔ_ｉをもつｗ_ｉの頻度、Ｆ（ｔ_ｉ−１）はｔ_ｉ−１の頻度である。これらのパラメータを用いて、ビタビアルゴリズムを用いて、またはすべての取り得るパスから最小のパスコストを見出すことによって、最も確率の高いタグシーケンスを決定することができる［非特許文献５参照］。

３．実施の形態の概要
この発明の一実施の形態に従った装置は、コスト最小化ベースの形態素解析方法を採用して、入力テキストからそのポーズ位置を予測する。この予測プロセスは論理的には２段階に分けられる。第１段階では、入力テキストはＰＯＳタグ付けと同時にトークン化される。第２段階では、最尤推定と規則ベースの技術を用いることにより、ＰＯＳシーケンスがチャンクに分けられる（以下ＰＯＳチャンク化と称する）。形態素解析装置［非特許文献６］を、ＰＯＳシーケンスがテキストであるかのように最尤推定を行なうツールとして用いる。

図１はこの実施の形態に従った中国語文のためのポーズ位置予測装置２０のブロック図である。ポーズ位置予測装置２０は中国語の入力テキスト２２を受取り（図１は入力テキスト２２の一例を示す。これは、「当ホテルのチェックイン時間は午後１時です。それまではチェックイン手続きができません」という意味である）、ＰＯＳチャンク化により入力テキスト２２のポーズ位置を予測し、ＰＯＳタグの付いた中国語単語のチャンクシーケンス２４を出力する。チャンクシーケンス２４中のチャンクは、入力テキスト２２のポーズに対応するものと考えられる。

図１を参照して、ポーズ位置予測装置２０は、入力テキスト２２を形態素解析し、ＰＯＳタグを付した中国語単語のシーケンス３４を出力するためのＰＯＳタグ付けユニット３０と、ＰＯＳタグを付した単語シーケンス３４を分析し、ポーズが存在すると仮定される境界で互いに分離されたＰＯＳチャンクを含むチャンクシーケンス２４を出力するためのＰＯＳチャンク化ユニット３２とを含む。

ＰＯＳチャンク化ユニット３２によるＰＯＳチャンク化は、形態素解析装置での２パス技術に基づいている。形態素解析装置が必要とする、辞書等のＰＯＳチャンク化モデルは、教師無しで生のテキストコーパスから学習される。注釈つきのコーパスを用いることなく、多数のエントリを限られた数の意味のあるタグにマッピングして適切なｎ−グラムモデルをトレーニングすることは困難である。これに代えて、本件発明者らはＰＯＳチャンク化を行なうために、２−パス技術と結合したある種のマージ処理を導入した。規則ベースのマージ処理を使用する目的は、ＰＯＳチャンク化における教師無し学習とＰＯＳタグ付けの性能の限界の影響を削減するためであり、一方で、２−パス技術によりある程度まで過剰マージを防ぐことができるものと思われる。以下のサブセクションでは、テキストの形態素解析、教師無し学習及びマージ規則を説明し、ＰＯＳチャンク化のｎ−グラムモデルについてはセクション４で論じる。

３．１トークン化及びＰＯＳタグ付け
図２を参照して、図１に示されるＰＯＳタグ付けユニット３０は、機械可読な辞書４０及びＮ−グラムセット（言語モデル）４２と、辞書４０及びＮ−グラムセット４２を用いて入力テキスト２２を形態素解析するための形態素解析装置４４［非特許文献６］とを含む。辞書４０及びＮ−グラムセット４２は、形態素解析装置４４を用いて入力テキスト２２を分析するのに必要とされる。本発明者らは、辞書４０を構築し、３個の注釈付き中国語テキストコーパス、すなわちシニカコーパス［非特許文献７］、ペン中国語ツリーバンク［非特許文献８］、及び北京大学によって構築されたテキストコーパス［非特許文献９］から、Ｎ−グラムセット４２としてバイグラム言語モデルのトレーニングを行なった。この実施の形態ではおよそ５，８３０ｋの単語が用いられた。

この実験では、図３に示すとおり、シニカコーパスで用いられるＰＯＳセットが採用された。その後、他の２個のコーパスに割当てられたＰＯＳタグが、可能な場合にはまずダイレクトマッピングを行ない、さもなければ最尤推定により強制マッピングを行なう、という規則により、シニカＰＯＳセットにマッピングされた。この結果、約１９５ｋのエントリを持つ辞書４０（図２）が構築され、Ｎ−グラムセット４２は３，２０４バイグラムモデルを有することとなった。

シニカコーパス全体に対して行なった（閉じた）テストによれば、トレーニングされた形態素解析装置の再現率はトークン化について９５％であり、トークン化とＰＯＳタグ付けの両者については８９％であった。ＰＯＳチャンク化に関しては、ＰＯＳタグ付けの性能が限られている点を許容できるよう、柔軟な方法が望まれる。

３．２ＰＯＳチャンク化モデルの教師無し学習
図４はブロック図中のＰＯＳチャンク化ユニット３２の構造を示す。図４を参照して、ＰＯＳチャンク化ユニット３２は、ＰＯＳタグ付けユニット３０から受取ったタグ付けされたテキストをＰＯＳチャンク化してＰＯＳチャンクシーケンス６０と、ＰＯＳマージ（後述する）が第１のＰＯＳチャンク化モジュール５０で行なわれたか否かを示す選択信号５６を出力するための、ＰＯＳチャンク化モジュール５０を含む。ＰＯＳマージが行なわれた場合、選択信号５６は第１の値（論理「１」）をとり、そうでなければ第２の値（論理「０」）をとる。

ＰＯＳチャンク化ユニット３２はさらに、第１パスＰＯＳチャンク化モジュール５０でのマージがなかったことを示す選択信号５６に応答して、第１パスＰＯＳチャンク化モジュール５０から出力されたＰＯＳチャンクシーケンス６０に第２のＰＯＳチャンク化を行ない、ＰＯＳチャンクシーケンス６２を出力する第２パスＰＯＳチャンク化モジュール５２と、第１パスＰＯＳチャンク化モジュール５０から出力されたＰＯＳチャンクシーケンス６０または第２パスＰＯＳチャンク化モジュール５２から出力されたＰＯＳチャンクシーケンス６２のいずれかを選択し、ＰＯＳチャンクシーケンス６４を出力するセレクタ５４と、セレクタ５４によって出力されたＰＯＳチャンクシーケンス６４内のＰＯＳチャンクをマージして最終的なチャンクシーケンス２４を出力するためのＰＯＳチャンクマージモジュール５８とを含む。ある意味で、第２パスＰＯＳチャンク化モジュール５２は、第１パスＰＯＳチャンク化モジュール５０で用いられる規則よりも高い確率でポーズを伴うＰＯＳシーケンスを規定する規則の組を用いて、第１パスＰＯＳチャンク化モジュール５０によって出力されたＰＯＳチャンクシーケンスを訂正するということができる。

図５は図４に示された、第１パスＰＯＳチャンク化モジュール５０の詳細な構造を示す。図５を参照して、第１パスＰＯＳチャンク化モジュール５０は、各々がＰＯＳシーケンスとＮ−グラムセット（言語モデル）７２とを含む複数個のエントリを有する機械可読な辞書７０と、ＰＯＳタグ付けされた語シーケンス３４が単語であるかのように、機械可読な辞書７０及びＮ−グラムセット７２を用いてＰＯＳタグ付けされた語シーケンス３４を形態素解析し、ポーズ候補位置で分離されたチャンクを含むＰＯＳチャンクシーケンス７６を出力するための形態素解析装置７４と、機械可読なバイグラムセット（言語モデル）７８と、バイグラムセット７８中の予め選択されたマージ規則を用いて、ＰＯＳチャンクをマージし、形態素解析装置７４のＰＯＳチャンク化誤差を最小にするためのＰＯＳチャンクマージモジュール８０とを含む。ＰＯＳチャンクマージモジュール８０はＰＯＳチャンクがマージされたか否かを示す選択信号５６を出力する。

図６は図４に示された第２パスＰＯＳチャンク化モジュール５２の詳細な構造を示す。図５及び図６を参照して、第２パスＰＯＳチャンク化モジュール５２は構造的には第１パスＰＯＳチャンク化モジュール５０と同様であって、機械可読な辞書９０及びＮ−グラムセット（言語モデル）９２と、ＰＯＳチャンクシーケンス６０を形態素解析してＰＯＳチャンクシーケンス９６を出力するための形態素解析装置９４と、機械可読なバイグラムセット（言語モデル）９８と、バイグラムセット９８中の予め選択されたマージ規則を用いて、ＰＯＳチャンクシーケンス９６をマージし、形態素解析装置９４のＰＯＳチャンク化誤差を最小にするためのＰＯＳチャンクマージモジュール１００とを含む。

図４から図６で見られるように、ポーズ位置の予測はＰＯＳチャンク化に基づいている。ＰＯＳシーケンスを文とみなすことで、シーケンスのＰＯＳチャンク化は、形態素解析技術を用いたテキストのトークン化として取扱うことができる。従って、例えば、形態素解析装置［非特許文献６］に適した辞書７０及び９０を作成し言語モデル７２、７８、９２及び９８をトレーニングする必要がある。

しかし実際には、適切なモデルを信頼性をもってトレーニングするための、チャンク注釈付きの大規模コーパスは利用できない。というのも、良好な注釈付きのＰＯＳコーパスは大規模な音声コーパス上に構築しなければならないからである。この実施の形態では、この問題に対処するために、非常に大規模な生の中国語テキストコーパスから、ベース−ＰＯＳ−チャンク辞書の教師無し学習を適用している。ベース−ＰＯＳ−チャンクとは、ある音声文脈においておそらくポーズを伴うであろうＰＯＳシーケンスを意味する。通常、統語節のほとんどがベース−ＰＯＳ−チャンクを表す。これについてはセクション４で論じる。

図７は教師無し学習により辞書７０及び９０を作成するプロセスを示す。図７を参照して、教師無し学習は３つのステップを含む。第１に、ステップ１４２で、特定の長さの統語節が新聞（数年分）、ラジオ番組からの書き起こし、及び出願人の収集した旅行会話の２００ｋの文からなる非常に大規模なテキストコーパス１４０から抽出される。統語節が選択されるのは以下の条件が満たされたときである。

（１）ある節が、もしあれば、以下の６個の句読点記号「，．；：？！」のいずれかの後に続き、さらにその節の後に同じ６個の句読点記号のいずれかのみが続く場合
（２）節の中に上記した６個の句読点記号がどれも生じない場合
（３）長さが３音節から９音節である場合
第２に、ステップ１４４で、これらの抽出された統語節に対し形態素解析を行なってそれらのＰＯＳタグを得る。統語句から抽出されたＰＯＳシーケンスは図７のベース−ＰＯＳ−チャンク１４６で示されるように、ベース−ＰＯＳ−チャンクであるとみなされる。これらのベース−ＰＯＳ−チャンク１４６を用いて図５に示される辞書を構築する。

この実施の形態では、辞書７０は４７４ｋのエントリを有し、各々のトークンコストはベース−ＰＯＳ−チャンク１４６の集合内におけるエントリの出現頻度に従って推定できる。

第３に、ステップ１４８で、ベース−ＰＯＳ−チャンク１４６のサブセット１５０が以下に特に注目して抽出される。すなわち
（１）ＰＯＳ構造“Ｐ．．．Ｎｇ”及び“Ｐ．．．Ｎｃｄ”の両者を備える前置詞句
（２）“Ｃａｂ”が先頭にくる節
（３）“ＳＨＩ”または“Ｖ−２”が先頭にくる節
（４）“Ｎｇ”または“Ｎｃｄ”で終わる句
（５）“ＤＥ”で終わる句
（６）名詞及び“Ｎａ”、“Ｎｂ”、“Ｎｃ”、“Ｎｄ”、“Ｎｅｑａ”、“Ｎｅｑｂ”、“Ｎｅｓ”、“Ｎｅｐ”、“Ｎｅｕ”、“Ｎｆ”、“Ｎｇ”、“Ｎｈ”、“Ｎｃｄ”からのみ成る数量詞句。

ベース−ＰＯＳ−チャンク１４６のサブセット１５０は図６に示される辞書９０を作成するのに用いられる。この辞書９０はおよそ９２ｋのエントリと対応するトークンコストとを有する。辞書７０に対するベース−ＰＯＳ−チャンク１４６と比較して、辞書９０のものは会話中国語に基づくポーズを伴う確率が高い。

３．３ＰＯＳチャンク化誤りに対する規則ベースのマージ
図５及び図６で見られるように、各パスから出力されたＰＯＳチャンクシーケンス（形態素解析装置７４または９４の出力）に対し、ＰＯＳチャンクマージモジュール８０及び１００によってそれぞれ２セットのバイグラム規則（バイグラムセット７８及び９８）が適用される。マージ規則を決定する基本原則は、過剰マージが許容されるものとし、ＰＯＳチャンク化の誤差を最小にすることである。現在これらの規則は基本的には大規模なテキストを人手により分析して決定されている。

第１パスＰＯＳチャンク化モジュール５０でＰＯＳチャンクがどれもマージされなかった場合、第２パスＰＯＳチャンク化モジュール５２はバイパスされ、第１パスＰＯＳチャンク化モジュール５０の出力ＰＯＳチャンクシーケンスが、以下に説明するとおり、直接、セレクタ５４に与えられる。さもなければ、第１パスＰＯＳチャンク化モジュール５０の出力は第２パスＰＯＳチャンク化モジュール５２に与えられる。この場合、第２パスＰＯＳチャンク化モジュール５２においてＰＯＳチャンク化の第２のパスが行なわれる。出力されるＰＯＳチャンクシーケンスはセレクタ５４に与えられる。セレクタ５４は、信号５６が第１パスＰＯＳチャンク化モジュール５０でのマージがなかったことを示す場合は第１パスＰＯＳチャンク化モジュール５０の出力を選択し、そうでなければ第２パスＰＯＳチャンク化モジュール５２の出力を選択する。セレクタ５４の出力ＰＯＳチャンクシーケンス６４はＰＯＳチャンクマージモジュール５８に与えられる。

図８はＰＯＳチャンクマージモジュール５８の構造を示す。図８を参照して、ＰＯＳチャンクマージモジュール５８は、トライグラムセット（言語モデル）１２０と、セレクタ５４から受取ったＰＯＳチャンク６４をトライグラムセット１２０に従ってマージし、最終的なＰＯＳチャンクシーケンス６２を出力するためのトライグラムベースＰＯＳチャンクマージモジュール１２２とを含む。

バイグラムセット７８及び９８、並びにトライグラムセット１２０内のこれらの規則の例を図９に示す。バイグラムセットでは、各パスからの出力中の２個の近接したＰＯＳチャンクの両者が、ＰＯＳｅｎｄ（第１のチャンクの最後のＰＯＳ）及びＰＯＳｂｅｇ（第２のチャンクの最初のＰＯＳ）対に対応の規則を適用することによってチェックされ、これら２個のチャンクをマージすべきか否かが決定される。例えば、図５に示す例の２個のＰＯＳチャンク“ＮｅｐＮｄＤ”と“ＶＣＶＡＶＣ”とがマージされて図９に示す例の規則に従って“ＮｅｐＮｄＤＶＣＶＡＶＣ”というチャンクが生成され、その後、第２のパスに入る。

２−パスモジュール（ＰＯＳチャンク化ユニット３２）の出力に関連して、１個または２個のＰＯＳ単位のみからなる短いＰＯＳチャンクは、トライグラムセット１２０のトライグラム規則の組を用いて隣接するものとマージ可能である。図８では、ＰＯＳｃｕｒは短いＰＯＳチャンクの最初のＰＯＳを示し、ＰＯＳｐｒｅはそれに先行するチャンクの最後のＰＯＳを示し、ＰＯＳｆｏｗはそれに続くチャンクの最初のＰＯＳを示す。ある演算は、この短いＰＯＳチャンクを「先行するものとマージ」または「後続のものとマージ」すべきことを示す。例えば、トライグラムセット１２０内の規則によれば、“…ＶＣ”“Ｎａ”“Ｐ…”というストリングは“…ＶＣＮａ”“Ｐ…”とマージされるべきであり、一方“…Ｖｃ”“Ｎａ”“ＶＣ…”は“…ＶＣ”“ＮａＶＣ…”とマージされるべきである。最終的な出力で短いＰＯＳの数を減じるために、より多くの種類の規則を用いることが期待される。

４．シミュレーション結果
上述の実施の形態に従い、特に（１）音声中のポーズ位置とテキスト中の句読点との相関、（２）音韻論的句分けと統語的境界との相互依存、及び（３）提案された方法の有効性、を調査するために実験を行なった。実験に用いられた音声サンプルは一人の母語話者［非特許文献１０］が録音した音声コーパスから採用された。この音声コーパスでは、各文は４個の句読点「．；！？」のいずれかで終わる。なお、この明細書で説明される評価実験では、文の最後の句読点及び最後のポーズ／無音声はいずれもカウントされない。

４．１ポーズ間及び句読点間の訂正
実験１は８，８７４個の文（約８．３時間分の音声）について行なわれた。｛，．；：！？＿……／｝（／はポーズカテゴリの句読点を示す）の組に属する２個の句読点間の統語節、及び境界で２個のポーズによって検出される韻律句の長さを、音節数でカウントした。この実験では、２つの典型的なポーズしきい値、すなわち１００ｍｓと３００ｍｓとを用いた。

図１０は韻律句と統語節との長さ分布を示す。図１０から明らかなように、一般に、韻律句の長さは統語節のそれよりも短い。ここでは、測定されたポーズの約５７％が２個の近接した句読点の間で起こっており、韻律句の８６％が３音節から９音節にわたっていた。表１はこれらの音声サンプルから測定されたポーズと選択された句読点との間の相関を示す。

カウントすべき句読点（ＰＵ）は２，５８１個ある。「句読点で」の項は、ポーズを伴う句読点の結果を示す。「句読点間で」の項は、句読点がない位置で起こるポーズを示す。「句読点でポーズなし」の項は、句読点のうちポーズを伴わなかったものがどの程度あるかを示し、ここで、（）^１は一語中のポーズの発生頻度を含み、（）^２はポーズが見出せなかったカンマの発生頻度を示す。

実験結果から、（１）テキスト−トゥ−スピーチシステムでは句読点の他にポーズを予測する方法が望ましいこと、（２）２個の句読点間の統語節はＰＯＳチャンク化に適した重要な構造的情報を提供し、これはテキストからポーズ位置を予測するのに有用であること、が示された。例えば、ポーズを伴わないカンマはわずか１％しかない。この結果は、上で抽出したようなある種の統語節からベース−ＰＯＳ−チャンクが学習できる、という考え方を強く支持するものである。

４．２韻律と統語論との相互依存
テキストパージング技術でどの程度ポーズ位置を予測できるかという疑問が生じる。というのも、韻律が統語情報を担っていることが良く知られているからである。パージングそのものが依然として難しい問題なので、この問題の一局面を、韻律と統語論との相互依存を調査することで検討した。多くの場合、統語論的境界は、非特許文献１１で報告されているように、韻律句には反映されていないようである。図１１に例１６０を示す。図１１において、韻律句は｛｝で示され、統語的境界は［］で示される。この例では、第１の韻律句のみに相互依存／交差（ｃｒｏｓｓ）がある。

実験２は１，０９１個の発話（約３時間の音声）に対して行なわれた。録音用の１，０９１個の文は、ペン中国語ツリーバンク［非特許文献８］から選択された。バンクの統語ツリーはこの実験では統語句の境界を示すのに用いられた。韻律句は単に特定のポーズしきい値、例えば１００ｍｓ及び３００ｍｓで決定された。交差数をパーセンテージでカウントして、韻律と統語の相互依存を表した。韻律句で交差数が０ならば、この韻律句は統語句のサブストリングであることを意味し、一方交差数がｎであれば、これはその韻律句の中にｎ個の対にならない統語的境界があることを意味する。例えば、図１１に示した第１の韻律句では交差は１だけであり、第２の韻律句では交差は０である。表２は実験の結果を示す。約７３％の韻律句で交差は０であった。交差０の韻律句のみが統語構造から予測可能である。

実験結果から、統語構造は韻律句を予測するのに有用であるものの、問題に対処するには不充分であることが示された。その理由は、（１）相互依存が約２７％であること、（２）その一部が（約７３％の精度で）句読点によって容易に検出可能であること、及び（３）最新のテキストパージング性能が限られていること、である。

４．３テキストからのポーズ位置予測シミュレーション
提案された方法の有効性をシミュレーションによって検討した。実験材料は２つのセットを含む。セット１は実験２で用いた１，０９１個の文からなり、セット２は他の４，６４５個の文（約４．６時間の音声）から成る。バイグラムセット７８、バイグラムセット９８及びトライグラムセット１２０として用いるための適切な規則を得るために、セット１内の文を分析し、各段階でのＰＯＳチャンク化の出力に従って、対応のセットに人手で規則を追加していった。

モノグラム及びバイグラムモデルがＰＯＳチャンク化の性能に及ぼす影響を、これらをそれぞれＮ−グラムセット７２及びＮ−グラムセット９２として用いることによって調査した。モノグラムモデルの場合、デフォルトの接続コストが用いられ、これは一貫して１．５×Ｃ_ｍａｘに固定されていた。バイグラムのモデルでは、ペン中国語ツリーバンク［非特許文献８参照］を用いて２ステップのトレーニングが行なわれた。第１のステップでは、可能な場合にはツリーバンクから抽出した統語句のタグで辞書７０及び９０のエントリにタグ付けが行なわれた。特に、非終端ノードの全てで統語句が抽出された。これらの統語句はその後形態素解析装置で分析されてベース−ＰＯＳ−チャンクが得られ、これが統語句のタグとエントリとのギャップを埋めるものとなった。第２のステップでは、バイグラムモデルが統語構造によってトレーニングされた。この結果、６７６個のバイグラムモデルが得られた。ツリーバンクのサイズが小さいので（約１００ｋ語）、辞書７０のエントリのうちタグ付けできたのは３．１％のみであり、辞書９０では５．４％であった。

２個の発話セットのポーズ位置を、１００ｍｓのしきい値で決定した。予測ポーズ位置を以下のように評価した。

再現率（測定されたポーズからのアライメント）＝Ｎ_ｃ／Ｎ_ｍ
適合率（予測されたポーズからのアライメント）＝Ｎ_ｃ／Ｎ_ｐ
適合率（句読点間の予測されたポーズ）＝Ｎ_ｃ ^ｂｐ／Ｎ_ｐ ^ｂｐ
Ｎ_ｃは予測されたポーズ位置の内測定されたポーズ位置と一貫するものの数を示し、Ｎ_ｍは測定されたポーズ位置の数を示し、Ｎｐは予測されたポーズ位置の数を示し、Ｎ_ｐ ^ｂｐは予測されたポーズ位置の内で句読点を伴わないものの数を示し、Ｎ_ｃ ^ｂｐは予測されたポーズ位置の内で句読点を伴わないものであって測定されたポーズ位置と整合するものの数を示す。表３は実験結果を示す。

実験結果から以下のことがわかる。

（１）測定されたポーズ位置の約６１．６％を提案された方法によってリコールすることができ、予測されたポーズ位置の約８３．７％は測定されたポーズ位置と整合している。予測されたポーズ位置の内、句読点を伴わないものに焦点をあてると、精度は約６４．２％である。

（２）データスパースネスの問題と、韻律と統語との相互依存とによりバイグラムのモデルはモノグラムのモデルほど良好に働かなかった。

（３）現在のマージ規則は、一般的なテキストに関しまだ改良の余地がある。これらのマージ規則はセット１の分析から学習されるので、セット２の分析の結果からは１個または２個のトークンのみからなる多くの短いチャンクが生じる。これはセット１とセット２とのＮ_ｐ ^ｂｐ／Ｎ_ｍ、すなわち３１％対５３％、を比較すれば明らかである。

上述の実施の形態では、ＰＯＳチャンク化は中国語のテキストについて行なわれた。しかしながら、この発明は中国語だけでなく、品詞タグでタグ付けが可能ないかなる言語にも適用可能である。もし言語の単語が単語分離シンボルで分離されている場合、例えば英語のようにスペースで分けられている場合には、第１段階の形態素解析は不要である。

上述の実施の形態は単なる例示であって制限的なものと解してはならない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

この発明の一実施の形態に従ったポーズ位置予測装置のブロック図である。図１に示されるＰＯＳタグ付けユニット３０のブロック図である。実施の形態に従った実験で用いられる品詞セットの表である。図１に示されるＰＯＳチャンク化ユニット３２のブロック図である。図４に示されるＰＯＳチャンク化モジュール５０のブロック図である。図４に示されるＰＯＳチャンク化モジュール５２のブロック図である。それぞれ図５及び図６に示される辞書７０及び９０を構築するプロセスを示す図である。図４に示されるＰＯＳチャンクマージモジュール５８のブロック図である。ＰＯＳチャンクマージの規則例を表形式で示す図である。実験に従った韻律句及び統合節の長さ分布を示すグラフである。統語的境界（［］で示す）と交差する韻律句（｛｝で示す）の例を示す図である。

符号の説明

２０ポーズ位置予測装置、２２入力テキスト、２４チャンクシーケンス、３０ＰＯＳタグ付けユニット、３２ＰＯＳチャンク化ユニット、３４ＰＯＳタグ付け語シーケンス、４０、７０、９０辞書、４２、７２、９２Ｎ−グラムセット、４４、７４、９４形態素解析装置、５０第１パスＰＯＳチャンク化モジュール、５２第２パスＰＯＳチャンク化モジュール、５４セレクタ、５６選択信号、５８ＰＯＳチャンクマージモジュール、６０、６２、７６、９６ＰＯＳチャンクシーケンス、７８、９８バイグラムセット、８０、１００ＰＯＳチャンクマージモジュール、１２０トライグラムセット、１２２トライグラムベースＰＯＳチャンクマージモジュール

Claims

入力テキストのポーズ位置予測装置であって、
入力テキストの各単語を対応の品詞（ｐａｒｔ−ｏｆ−ｓｐｅｅｃｈ：ＰＯＳ）タグでタグ付けし、それぞれのＰＯＳタグが付された単語シーケンスを出力するためのタグ付け手段と、
前記単語シーケンスのＰＯＳを分析し、単語シーケンス内のＰＯＳのパターンに基づき前記入力テキスト内のポーズ位置を予測するための手段とを含む、ポーズ位置予測装置。
前記入力テキストの単語は何らかの予め定められた単語分離シンボルによって分離されてはおらず、
前記タグ付け手段は、
単語と対応のＰＯＳタグとを各々が含む複数個のエントリを記憶する辞書と、
予め選択された言語モデルと、
前記辞書及び前記言語モデルを参照して、前記入力テキストを形態素解析するための形態素解析手段とを含む、請求項１に記載のポーズ位置予測装置。
前記分析手段は、
前記単語シーケンスのＰＯＳタグを分析し、予め定められたＰＯＳチャンク化規則の第１の組に従って分離された、前記タグ付け手段によって出力されたＰＯＳチャンクを含むＰＯＳチャンクシーケンスを出力するための第１パスチャンク化手段と、
第１パスチャンク化手段によって出力された前記ＰＯＳチャンクシーケンスを分析し、前記第１の組のサブセットである予め選択された第２の組のＰＯＳチャンク化規則に従って、前記第１パスチャンク化手段によって出力された前記ＰＯＳチャンクシーケンスを訂正するための第２パスチャンク化手段とを含み、
前記第２の組の規則は、前記第２の組の規則のいずれかに合致するＰＯＳシーケンスが、前記第２の組によって選択されなかった規則に比して、ポーズを伴う確率が高いと考えられるように予め選択される、請求項１または請求項２に記載のポーズ位置予測装置。
前記分析手段はさらに、
予め選択されたトライグラム規則に従って、前記第２パスチャンク化手段によって出力された前記ＰＯＳチャンクをマージするためのＰＯＳチャンクマージ手段を含み、当該トライグラム規則の各々は、一組のトライグラムＰＯＳシーケンスと、前記第２パスチャンク化手段によって出力された前記ＰＯＳチャンク中の３個のＰＯＳタグシーケンスであって前記トライグラムＰＯＳシーケンスに一致するものに対して行なわれるべき対応の操作とを特定する、請求項３に記載のポーズ位置予測装置。
前記第１パスチャンク化手段は、
前記単語シーケンスのＰＯＳタグを形態素解析し、予め定められた第１の組のＰＯＳシーケンスの一つに一致するＰＯＳチャンクの第１のシーケンスを出力するための第１の手段と、
２個の連続したＰＯＳチャンクのうちの第１のものの最後のＰＯＳタグと、前記２個の連続したＰＯＳチャンクのうちの第２のものの最初のＰＯＳタグとが、予め選択された第１のバイグラムマージ規則のいずれか一つに一致するとき、前記第１の手段によって出力された前記２個の連続するＰＯＳチャンクをマージするための手段とを含む、請求項３に記載のポーズ位置予測装置。
前記マージするための手段は、２個の連続するＰＯＳチャンクがマージされると第１の値をとり、さもなければ前記第１の値と異なる第２の値をとる信号を出力し、
前記ポーズ位置予測装置はさらに、前記信号の値が前記第１の値をとったときに、第１パスチャンク化手段が出力したＰＯＳチャンクシーケンスを前記第２パスチャンク化手段をバイパスして前記ＰＯＳチャンクマージ手段に与えるための手段を含む、請求項５に記載のポーズ位置予測装置。
前記第２パスチャンク化手段は、
前記単語シーケンスのＰＯＳタグを形態素解析し、予め定められた第２の組のＰＯＳシーケンスの一つに一致する第１のＰＯＳチャンクのシーケンスを出力するための第２の手段と、
前記第２の手段によって出力された２個の連続したＰＯＳチャンクのうちの第１のものの最後のＰＯＳタグと、前記第２の手段によって出力された前記２個の連続したＰＯＳチャンクのうちの第２のものの最初のＰＯＳタグとが、予め選択された第２のバイグラムマージ規則のいずれか一つに一致するとき、前記第２の手段によって出力された２個の連続するＰＯＳチャンクをマージするための手段とを含む、請求項３から請求項６のいずれかに記載のポーズ位置予測装置。
前記第１の手段は、
各々がＰＯＳエントリと対応の尤度とを含む複数個のエントリを有する辞書に基づき、最尤推定を用いて前記単語シーケンスのＰＯＳタグを形態素解析し、前記第１の組のＰＯＳシーケンスの一つと最も高い尤度で一致するＰＯＳチャンクの第１のシーケンスを出力するための手段を含む、請求項５に記載のポーズ位置予測装置。