JP5334716B2

JP5334716B2 - 文字情報提示制御装置及びプログラム

Info

Publication number: JP5334716B2
Application number: JP2009158780A
Authority: JP
Inventors: 真一本間; 崇史深谷
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2009-07-03
Filing date: 2009-07-03
Publication date: 2013-11-06
Anticipated expiration: 2029-07-03
Also published as: JP2011014021A

Description

本発明は、アナウンサー、教師、政治家等の発話者が、文字情報を読みながら発話をする際に、適切な速度及び間（ま）による発話を誘導する技術に関する。

従来、アナウンサー、教師、政治家等の発話者によって適切な速度及び間による発話を実現するために、キューランプを用いた装置が知られている。この装置は、キューランプの光を点灯させることにより、発話タイミングを発話者へ提示するものである。また、手本となる音声を録音しておき、発話者がイヤホン等を用いてその録音した音声を聞くことにより、その録音した音声と同じタイミングで同じ内容を発話する手法も知られている。

また、発話者による発話の進行に際し、必要な情報を発話者へ提示するシステムが知られている。このシステムは、例えば、発話者がプレゼンテーションを行う場合、映像データ、及びその映像データに関する音声メモデータを記憶部に記憶しておき、映像データを表示する切り換えタイミングにて、その映像データに関する音声メモデータを記憶部から読み出して再生するものである。これにより、発話者は、表示されている映像データに関する情報を聞き取ることができるから、発話の進行に際して必要な情報を確実に把握することができる（例えば、特許文献１を参照）。

特開２００６−１１９８７５号公報

前述のキューランプを用いた装置では、文単位に、適切な速度及び間による発話のタイミングを発話者へ提示することができる。しかしながら、キューランプを点灯させる間隔に限界があり、発話者にも点灯を認識する限界があることから、一文よりも短い単位では、適切な速度及び間による発話のタイミングを提示することが困難である。また、録音した音声をイヤホン等で聞きながら発話する手法では、聞きながら発話する必要がある。このため、発話者の負担が大きくなり、言い間違いを誘発したり、不自然な間を誘発したりする要因となっていた。

また、前述の、発話者へ必要な情報を提示するシステムにおいても、情報の提示を受ける発話者の負担が大きくなるから、録音した音声をイヤホン等で聞きながら発話する手法と同様の問題があった。

このように、従来は、発話者が文字情報を読みながら発話をする際に、所定の速度及び間による発話ができるようにタイミング情報を提示する技術は存在するが、発話者に負担をかける等の問題があり、従来の手法では不十分であった。このため、発話者に大きな負荷をかけることなく、適切なタイミングで発話することができるように誘導することが望まれていた。

そこで、本発明はかかる課題を解決するためになされたものであり、その目的は、発話者によって適切な速度及び間による発話ができるように、適切なタイミングで発話のための文字情報を提示することが可能な文字情報提示制御装置及びプログラムを提供することにある。

本発明では、前記課題を解決するために以下の構成に係るものとした。すなわち、本発明は、発話者により発話される原稿の文字情報を表示装置へ提示する文字情報提示制御装置において、前記原稿の音声信号に基づいて、前記原稿の文字情報を構成する単語単位の発話開始時刻を算出し、前記原稿の文字情報を提示するタイミングを示す発話開始時刻及び発話時間長を設定するタイミング設定部と、前記タイミング設定部により設定された発話開始時刻及び発話時間長に基づいて、前記原稿の文字情報を前記表示装置へ提示する文字情報提示部と、を備え、前記タイミング設定部が、前記原稿が読み上げられた際の音声信号に基づいて、前記原稿の文字情報を構成する単語単位の発話開始時刻及び発話時間長を算出し、前記原稿が電子化された際のテキスト情報に基づいて、前記原稿の文字情報を単語に分割し、前記単語単位の発話開始時刻及び発話時間長と前記分割した単語とから、前記原稿の連続した文字情報を所定長に区切った場合の前記区切られた文字情報毎の発話開始時刻及び発話時間長を算出し、前記区切られた文字情報毎の発話開始時刻及び発話時間長をタイミング情報として設定し、前記文字情報提示部が、前記タイミング設定部により設定されたタイミング情報の発話開始時刻及び発話時間長に基づいて、前記タイミング情報に含まれる前記区切られた文字情報を、前記発話者により発話されるタイミングであることを示す形態で前記表示装置へ提示する、ことを特徴とする。

また、本発明は、前記タイミング設定部が、前記音声信号と予め記憶された音声周波数パターンとの間で周波数マッチングを行い、予め記憶された単語の辞書を用いて、単語単位の発話開始時刻及び発話時間長を認識結果として生成する音声認識手段と、単語の形態素解析により、前記テキスト情報を単語及び文節に分割し、前記分割した複数の単語からなる単語情報及び複数の文節からなる文節情報を生成する分割手段と、前記音声認識手段により生成された認識結果に含まれる単語と、前記分割手段により生成された単語情報に含まれる単語とを比較し、一致しないと判定した場合、前記認識結果に含まれる一致しない単語の代わりに前記単語情報に含まれる単語を用いて、単語単位の発話開始時刻及び発話時間長をマッチング結果として生成するマッチング手段と、前記マッチング手段により生成された単語単位の発話開始時刻及び発話時間長のマッチング結果を、前記分割手段により生成された文節情報を用いて、文節単位の発話開始時刻及び発話時間長に変換し、前記文節単位の発話開始時刻及び発話時間長をタイミング情報として生成するタイミング情報生成手段と、を備え、前記文字情報提示部が、前記タイミング情報生成手段により生成されたタイミング情報に含まれる発話開始時刻になると、前記発話開始時刻に対応する文節の文字情報を、前記発話開始時刻に対応する発話時間長の間、前記原稿における他の文字情報とは異なる形態で前記表示装置へ提示する、ことを特徴とする。

また、本発明は、発話者により発話される原稿の文字情報を表示装置へ提示する文字情報提示制御プログラムにおいて、コンピュータを、前記文字情報提示制御装置として機能させることを特徴とする。

以上のように、本発明によれば、発話者は、発話のタイミングで文字情報を容易に認識し、そのタイミングに合わせて発話することができる。したがって、適切な速度及び間による発話を実現することが可能となる。

本発明の実施形態による文字情報提示制御装置の構成を示すブロック図である。タイミング設定部の構成を示すブロック図である。文字情報提示制御装置の処理を説明するフローチャートである。１文のみからなる原稿の例である。原稿のテキスト情報を単語情報及び文節情報に変換した例である。文節情報を文字列として取り扱う例である。単語単位に発話開始時刻及び発話時間長を付与した認識結果の例である。文節単位に発話開始時刻及び発話時間長を付与したタイミング情報の例である。時間尺を１０秒とした場合のタイミング情報の例である。文字情報の提示画面例である。

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明による文字情報提示制御装置は、発話者により発話される文字情報を、発話のための適切なタイミングで表示装置へ出力するものである。例えば、以下の処理により、文節等のまとまった単位で、原稿を構成する連続した文字情報を逐次提示する。
（１）原稿を理想的なタイミングで読み上げたときの音声信号を事前に録音しておき、その音声信号、及び原稿が電子化されたテキスト情報に基づいて、原稿中の単語が発話された時間情報（発話開始時刻及び発話時間長）を生成する。
（２）単語が発話された時間情報及び原稿のテキスト情報に基づいて、文節等のまとまった単位の時間情報（発話開始時刻及び発話時間長）を生成する。
（３）発話者が原稿を発話する際には、文節等のまとまった単位の時間情報によるタイミングにて、その発話タイミングを反映した文字情報と共に、原稿を構成する連続した文字情報を逐次提示する。

また、原稿の発話時間長である時間尺が指定されている場合には、以下の処理を行う。
（４）前記（２）において生成した文節等のまとまった単位の時間情報を、予め指定された時間尺に基づいて変換する。すなわち、発話開始時刻及び発話時間長を、予め指定された時間尺を基準にした比率で伸縮させることにより、新たな時間情報に変換する。
（５）発話者が原稿を発話する際には、前記（４）において生成された、文節等のまとまった単位の新たな時間情報によるタイミングにて、その発話タイミングを反映した文字情報と共に、原稿を構成する連続した文字情報を逐次提示する。

これにより、発話者は、文節等のまとまった単位の発話タイミングが反映された文字情報を、表示装置にて見ることができるから、発話タイミングで発話すべき文字情報を容易に認識し、そのタイミングに合わせて発話することができる。したがって、理想的なタイミングで読み上げた音声信号のタイミングで発話を再現することができるから、適切な速度及び間による発話を実現することが可能となる。

〔文字情報提示制御装置の構成〕
まず、本発明の実施形態による文字情報提示制御装置の構成について説明する。図１は、文字情報提示制御装置１の構成を示すブロック図である。この文字情報提示制御装置１は、タイミング設定部２、タイミング変換部３及び文字情報提示部４を備えている。

タイミング設定部２は、予め準備された原稿を理想的なタイミングで読み上げたときの音声信号を入力する。また、タイミング設定部２は、予め準備された同じ原稿の電子化情報、すなわち、原稿の文字情報がコード化されたテキスト情報を入力する。ここで、原稿を読み上げる読上者は、発話者と同一人物であってもよいし、発話者とは異なる人物であってもよい。また、文字情報提示制御装置１によって、読上者の音声信号と同じタイミングで発話者が発話することになるから、発話者がアナウンサーでない場合や新人のアナウンサーの場合には、読上者は発話訓練を受けた熟練者であることが望ましい。そして、タイミング設定部２は、音声信号及びテキスト情報に基づいて、原稿を構成する文字情報を単語単位（単語毎）及び文節単位（文節毎）に分割し、文節単位の時間情報をタイミング情報として生成する。発話のタイミングを変更しない場合は、テキスト情報を含むタイミング情報を文字情報提示部４に出力し、原稿の発話時間を示す時間尺が予め決められており、発話のタイミングを変更する場合は、テキスト情報を含むタイミング情報をタイミング変換部３に出力する。

タイミング変換部３は、タイミング設定部２からタイミング情報を入力し、実際に発話者が原稿に従って発話する時間（予め決められた時間尺）に基づいて、文節単位の時間情報を変換し、新たなタイミング情報を生成する。そして、タイミング変換部３は、新たなタイミング情報を文字情報提示部４に出力する。

文字情報提示部４は、タイミング設定部２またはタイミング変換部３からタイミング情報（文節単位の時間情報）を入力し、タイミング情報が示す文節単位の発話タイミングを、その文節を構成する文字情報の形態に反映し、文節単位の発話タイミングが反映された文字情報を表示装置（図示せず）へ出力する。

〔タイミング設定部の構成〕
次に、図１に示した文字情報提示制御装置１のタイミング設定部２について詳細に説明する。図２は、タイミング設定部２の構成を示すブロック図である。このタイミング設定部２は、音声認識手段１０、分割手段２０、ＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチング手段３０及びタイミング情報生成手段４０を備えている。前述したとおり、タイミング設定部２は、原稿の音声信号及びテキスト情報を入力し、原稿を構成する文字情報を単語単位及び文節単位に分割し、文節単位の時間情報をタイミング情報として生成し出力する。

音声認識手段１０は、音声分析手段１１、探索手段１２、言語モデル１３、音響モデル１４及び発音辞書１５を備えており、原稿の音声信号を入力し、音声認識手法を用いて、音声信号と予め記憶された音声周波数パターンとの間で周波数マッチングを行い、音声信号から単語を抽出すると共に、その単語に対する発話の時間情報を算出し、単語単位の時間情報を認識結果としてＤＰマッチング手段３０に出力する。音声認識手法は公知の技術を用いる。

分割手段２０は、単語分割手段２１、文節分割手段２２及び日本語辞書２３を備えており、原稿のテキスト情報を入力し、形態素解析手法及び日本語係受け解析手法を用いて、テキスト情報を単語単位に分割して単語情報を生成し、テキスト情報を文節単位に分割して文節情報を生成する。そして、分割手段２０は、単語情報をＤＰマッチング手段３０に出力し、文節情報をタイミング情報生成手段４０に出力する。形態素解析手法及び日本語係受け解析手法は公知の技術を用いる。

ＤＰマッチング手段３０は、音声認識手段１０から認識結果（単語単位の時間情報）を入力すると共に、分割手段２０から単語情報（テキスト情報を単語単位に分割した情報）を入力し、ＤＰマッチング手法を用いて、認識結果の単語列と単語情報の単語列とを比較する。そして、ＤＰマッチング手段３０は、単語列が一致しないと判定した場合、認識結果に含まれる単語に認識誤りがあるとして、正しい単語を単語情報に含まれる単語から特定し、誤りのある認識結果の単語を、特定した正しい単語に入れ替え、入れ替え後の認識結果をマッチング結果としてタイミング情報生成手段４０に出力する。一方、単語列が一致すると判定した場合は、認識結果に含まれる単語に認識誤りがないとして、入力した認識結果をマッチング結果としてタイミング情報生成手段４０に出力する。ＤＰマッチング手法は公知の技術を用いる。

タイミング情報生成手段４０は、ＤＰマッチング手段３０からマッチング結果（単語単位の時間情報）を入力すると共に、分割手段２０から文節情報（テキスト情報を文節単位に分割した情報）を入力し、単語単位の時間情報であるマッチング結果を、文節情報を用いて文節単位の時間情報に変換し、タイミング情報として出力する。この場合、発話のタイミングを変更しない場合は、タイミング情報を文字情報提示部４に出力し、発話のタイミングを変更する場合は、タイミング情報をタイミング変換部３に出力する。単語単位の時間情報であるマッチング結果を、文節単位の時間情報であるタイミング情報に変換する手法については後述する。

〔文字情報提示制御装置の処理〕
次に、図１に示した文字情報提示制御装置１の処理について説明する。図３は、文字情報提示制御装置１の処理を説明するフローチャートである。ステップＳ２０１〜ステップＳ２０９はタイミング設定部２により実行され、ステップＳ２１０はタイミング変換部３により実行され、ステップＳ２１１は文字情報提示部４により実行される。以下、図２及び図３を参照して説明する。

（１．原稿の準備）
まず、発話者により発話される原稿を準備する。原稿は、読上者により読み上げられて音声信号として文字情報提示制御装置１へ入力される。また、原稿は、単語分割及び文節分割等の処理のために予め電子化され、テキスト情報として文字情報提示制御装置１へ入力される。

図４は、１文のみからなる原稿の例である。このような原稿が発話者により発話される。尚、図４では、説明を簡単にするため１文のみからなる原稿の例を示しているが、実際の原稿は複数文により構成される。

（２．原稿の分割）
図３に戻って、タイミング設定部２の分割手段２０が、原稿のテキスト情報を入力すると（ステップＳ２０１）、分割手段２０の単語分割手段２１は、原稿のテキスト情報を単語単位に区切った分割データに変換し、単語情報としてＤＰマッチング手段３０に出力する（ステップＳ２０２）。そして、ステップＳ２０３及びステップＳ２０６へ移行する。具体的には、単語分割手段２１は、形態素解析手法により、日本語辞書２３に登録された単語情報を参照して、入力したテキスト情報を、最小単位の形態素（単語）に分割し、分割した複数の単語からなる単語列を生成する。ここで、日本語辞書２３には、単語毎に、名詞、動詞等の品詞情報が登録されており、少なくとも、原稿のテキスト情報を構成する単語に関する品詞情報が登録されているものとする。単語分割手段２１として、例えば、形態素解析器（「ＣｈａＳｅｎ」、＜http://chasen-legacy.sourceforge.jp/＞を参照）が用いられる。

図５は、原稿のテキスト情報を単語情報及び文節情報に変換した例である。図５では、単語は、空白（スペース）に挟まれており、文節は、＜ｂ＞のマーカーに挟まれている。単語分割手段２１は、形態素解析手法により分割された個々の単語に対し、その前後に空白等の識別情報を挿入し、識別情報を含む単語情報を出力する。

図３に戻って、分割手段２０の文節分割手段２２は、入力した原稿のテキスト情報に対し、文節単位に区切った分割データに変換し、文節情報としてタイミング情報生成手段４０に出力する（ステップＳ２０３）。そして、ステップＳ２０８へ移行する。具体的には、文節分割手段２２は、日本語辞書２３に登録された単語、品詞、文節区切り等の情報を参照して学習されたＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）のパターン認識手法を利用し、入力したテキスト情報を、連続した複数の単語からなる文節に分割し、複数の文節からなる文節列を生成する。文節分割手段２２として、例えば、日本語係受け解析器（「ＣａｂｏＣｈａ」、＜http://chasen.org/~taku/software/cabocha/＞を参照）が用いられる。

また、文節分割手段２２は、図５に示したように、日本語係受け解析手法により分割された個々の文節に対し、その前後にマーカー等の識別情報を挿入し、識別情報を含む文節情報を出力する。

図６は、図５に示した文節情報を文字列単位の情報として取り扱う場合の例である。図６に示すように、文節分割手段２２により生成された１行毎の文節は、この文字列単位の文字情報として、文字情報提示部４において取り扱われる。詳細については後述する。

（３．音声信号の録音）
図３に戻って、タイミング設定部２の音声認識手段１０は、読上者により読み上げられた原稿の音声信号を入力し、図示しない記録部に録音する（ステップＳ２０４）。尚、発話者は、本番時にはこの録音された音声の再現を目指すことになるため、ここでは、理想的な発話となるように丹念に読み上げられた音声信号が入力されることが望ましい。すなわち、理想的な発話を得るため、本番時の発話者とは異なり、発話訓練を受けた発話者（アナウンサー等）が原稿を読み上げることが望ましい。

（４．各単語の時間情報の生成）
まず、音声認識手段１０は、音声分析手段１１によって、外部から入力された音声信号（入力音声）を分析し、その音声信号の特徴量を特徴ベクトルとして抽出する（ステップＳ２０４）。そして、音声認識手段１０は、探索手段１２によって、言語モデル１３から得られる確率値（言語スコア）をもとに、接続される出力系列（単語）の候補を順次リストアップする。また、音声認識手段１０は、探索手段１２によって、リストアップした出力系列の探索候補毎に、発音辞書１５で示される発音に対応する各音素の音響モデル１４における特徴量と、入力音声の特徴量との間の類似度（確率値）を音響スコアとして算出する。また、音声認識手段１０は、探索手段１２によって、音響スコアと言語スコアとの積が最大となる出力系列（単語列）を認識結果として出力する。この認識結果に付随して、各単語が発話された開始点の時刻（発話開始時刻）、及びその単語が発話された時間長（発話時間長）を含む時間情報を生成し、その時間情報を認識結果としてＤＰマッチング手段３０に出力する（ステップＳ２０５）。

図７は、単語単位に発話開始時刻及び発話時間長を付与した認識結果の例である。この認識結果は、米国のＮＩＳＴ（ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｆＳｔａｎｄａｒｄｓａｎｄＴｅｃｈｎｏｌｏｇｙ）のＣＴＭフォーマット（“Sclite Input file formats：trn, txt, stm, ctm”、［online］、インターネット＜ＵＲＬ： ftp://jaguar.ncsl.nist.gov/current_docs/sctk/doc/infmts.htm#ctm_fmt_name_0＞）に準じて表記された例であり、単語単位に、第１及び第２列目の文字列、第３列目の発話開始時刻、第４列目の発話時間長、及び第５列目の単語から構成されている。第１及び第２列目の情報は、ＣＴＭフォーマットに準じて定義されたファイル名及びチャンネル名の文字列である。また、第３列目の発話開始時刻は、入力した原稿の所定時刻を基準にして、第５列目の単語が発話された際の、その単語の先頭における秒単位の時刻（単語の発話開始時刻）である。第４列目の発話時間長は、第５列目の単語が発話された際の、先頭から最後までの間の秒単位の時間である。探索手段１２は、図７に示したような単語単位の時間情報を認識結果として出力する。

尚、通常は、原稿の音声信号から得られる単語列と、原稿のテキスト情報から得られる単語列とが同一になるはずである。これは、音声信号の元となる原稿と、テキスト情報の元となる原稿とが同一だからである。したがって、音声認識手段１０の探索手段１２において抽出される単語列が原稿の単語列であるとして予め設定しておき、探索手段１２は、予め設定された単語列を用いて、単語単位の時間情報を生成するようにしてもよい。また、原稿を読み上げる読上者の発話により、原稿に含まれる単語単位の周波数パターンを音響モデル１４に予め登録するようにしてもよい。このような設定処理及び登録処理（学習）により、音声認識手段１０は、入力した原稿の音声信号に対し、正しい単語列を含む認識結果を、１００％に近い認識精度で生成することができる。これにより、後述するＤＰマッチング手段３０の処理において、一致の判定処理を行う必要がなく、不一致のときの処理も行う必要がないから、処理負荷を低減することができると共に、処理時間を短縮することができる。

ところで、音声認識技術を用いた強制アライメントと呼ばれる手法が知られている。この公知の強制アライメント手法を用いることにより、所定の音声で発話された各単語の時刻情報を得ることができる（例えば、ＳｔｅｖｅＹｏｕｎｇ著、「ＴｈｅＨＴＫＢＯＯＫＦｏｒＨＴＫＶ２．０」、ｐｐ．１９４を参照）。この強制アライメント手法は、文または発話単位で区切られた音声データと、その音声データに対応した単語列とを用いることにより、音声データを構成する各単語の時刻情報を得るものである。したがって、音声データに対応した正しい単語列を、オペレータにより予め準備しておく必要がある。また、強制アライメント手法は、音声データを音素に分解し、音素単位の周波数パターンが登録された音響モデル及び予め準備された正しい単語列を用いて、音素データと正しい単語列との間で周波数パターンのマッチングを行い、マッチングの確率の最も高いタイミングを特定することにより、時刻情報を得るものである。しかし、音声データに対応した正しい単語列を予め準備する作業、及び、音声データを文または発話単位に区切り、正しい単語列に対応させるための作業は手間がかかり困難である。しかも、発話の間（ま）の情報が欠落する問題も生じる。これに対し、前述した音声認識手段１０では、音声データに対応した正しい単語列を予め準備しておく必要がなく、文または発話単位に区切った音声データと正しい単語列との対応付けの作業が必要ないから、このような問題を回避することができる。

図３に戻って、ＤＰマッチング手段３０は、音声認識手段１０の探索手段１２から認識結果を入力すると共に、分割手段２０の単語分割手段２１から単語情報を入力し、ＤＰマッチング手法を用いて、認識結果の単語列と単語情報の単語列とを比較し、単語列が一致するか否かを判定する。単語列が一致すると判定した場合、すなわち、認識結果に誤りがないと判定した場合、認識結果をマッチング結果としてタイミング情報生成手段４０に出力する。一方、単語列が一致しないと判定した場合、すなわち、認識結果に誤りがあると判定した場合、認識結果における誤りのある単語の代わりとなる正しい単語を単語情報から特定し、その正しい単語に入れ替えた認識結果をマッチング結果としてタイミング情報生成手段４０に出力する。このように、ＤＰマッチング手段３０は、原稿を構成する正しい単語に発話開始時刻及び発話時間長が付与されたマッチング結果をタイミング情報生成手段４０に出力する（ステップＳ２０６，Ｓ２０７）。

具体的には、ＤＰマッチング手段３０は、ＤＰマッチング手法を用いて、認識結果の単語列（単語パターン）と単語情報の単語列（単語パターン）との間で、単語間の違いの程度を示す距離を積算し、認識結果の単語パターンと単語情報の単語パターンとの間の距離を算出する。そして、単語パターン間の距離と所定の閾値とを比較し、単語パターン間の距離が所定の閾値以下の場合、単語パターンが一致するから認識結果に誤りがないと判定し、単語パターン間の距離が所定の閾値を越える場合、単語パターンが一致しないから認識結果に誤りがあると判定する。ここで、例えば、２つの単語パターンの長さが異なる等して認識結果に誤りがあると判定したときには、認識結果の単語と単語情報の各単語との間の距離のうち、最小距離をとる単語情報の単語を特定し、認識結果の単語の代わりに、特定した単語を用いるようにする。このように、認識結果の単語列と単語情報の単語列との間で最適な対応付けを行うことにより、認識結果における誤りのある単語の代わりとなる正しい単語を単語情報から特定し、その正しい単語に入れ替えた認識結果をマッチング結果として生成する。ＤＰマッチング手法として、例えば、以下の（１）または（２）の手法が用いられる。
（１）上坂吉則、尾関和彦著、「パターン認識と学習のアルゴリズム」、文一総合出版、ｐｐ．９１−１０８
（２）“ＤＰマッチングとは？”、［online］、インターネット＜ＵＲＬ：http://sail.i.ishikawa-nct.ac.jp/pattern/dp/dp.html＞

ＤＰマッチング手法によって、誤りのある認識結果の単語と単語情報の単語とを必ずしも１対１に対応付けることができない場合があり得る。この場合、マッチング情報における発話開始時刻及び／または発話時間長に誤差が含まれることが想定される。しかし、その誤差が１／１０秒程度であれば、発話者が文字情報を発話する際のタイミングにさほど影響を及ぼすことがない。したがって、誤りのある認識結果の単語と単語情報の単語とを１対１に対応付けることができず、マッチング情報における発話開始時刻及び／または発話時間長に誤差が含まれる場合であっても、その誤差が所定範囲内であれば、文字情報提示制御装置１は、適切なタイミングの文字情報を提供することができ、発話者は、適切な速度及び間による発話を実現することが可能となる。

タイミング情報生成手段４０は、ＤＰマッチング手段３０からマッチング結果を入力すると共に、分割手段２０の文節分割手段２２から文節情報を入力し、マッチング結果が示す単語単位の発話開始時刻及び発話時間長を用いて、文節情報が示す各文節に発話開始時刻及び発話時間長を付与し、タイミング情報を生成する（ステップＳ２０８）。

図８は、文節単位に発話開始時刻及び発話時間長を付与したタイミング情報の例である。このタイミング情報は、図７に示した認識結果と同様の構成をしており、文節単位に、第１及び第２列目の文字列、第３列目の発話開始時刻、第４列目の発話時間長、及び第５列目の文節から構成されている。第１及び第２列目の文字列は、ＣＴＭフォーマットに準じた情報である。また、第３列目の発話開始時刻は、入力した原稿の所定時刻を基準にして、第５列目の文節が発話された際のその文節の先頭における秒単位の時刻（文節の発話開始時刻）である。第４列目の発話時間長は、第５列目の文節が発話された際の、先頭から最終までの間の秒単位の時間である。

タイミング情報生成手段４０は、図７に示した、単語単位に発話開始時刻及び発話時間長を付与した認識結果を用いて、図５及び図６に示した文節単位に、その発話開始時刻及び発話時間長を算出する。タイミング情報生成手段４０は、例えば第２行目の文節「ガソリン税などの」について、図７に示した単語「ガソリン」の発話開始時刻をこの文節の発話開始時刻に設定し、図７に示した単語「ガソリン」「税」「など」「の」の発話時間長を加算し、その加算結果をこの文節の発話時間長に設定する。このように、タイミング情報生成手段４０は、文節情報が示す各文節に発話開始時刻及び発話時間長を付与し、タイミング情報を生成する。

図３に戻って、タイミング情報生成手段４０は、タイミング情報を生成した後、時間尺の指定があるか否かを判定する（ステップＳ２０９）。時間尺は、オペレータの操作により予め指定される。時間尺の指定があると判定した場合（ステップＳ２０９：Ｙ）、すなわち、発話のタイミングを変更すると判定した場合、タイミング情報をタイミング変換部３に出力する。一方、時間尺の指定がないと判定した場合（ステップＳ２０９：Ｎ）、すなわち、発話のタイミングを変更しないと判定した場合、タイミング情報を文字情報提示部４に出力する。

（５．時間尺に指定がある場合のタイミング情報の変換）
タイミング変換部３は、タイミング設定部２のタイミング情報生成手段４０からタイミング情報を入力し、予め指定された時間尺に合うように、タイミング情報に含まれる発話開始時刻及び発話時間長を変換し、変換したタイミング情報を文字情報提示部４に出力する（ステップＳ２１０）。具体的には、タイミング変換部３は、発話者による発話時間が、予め指令された時間尺内に収まるようにするため、タイミング情報における最後の単語の発話開始時刻をｔ_endword、最後の単語の発話時間長をｄ_endwordとした場合、以下の式により、原稿全体が発話されたときの時間長Ｔ_totalを算出する。

予め指定された時間尺をＴ_defとした場合、タイミング変換部３は、タイミング情報に含まれるｗ番目の単語の発話開始時刻ｔ_w及び発話時間長ｄ_wを、以下の式により変換する。

タイミング変換部３は、入力したタイミング情報に含まれるｗ番目の単語の発話開始時刻ｔ_w及び発話時間長ｄ_wを、新たな発話開始時刻ｔ_w’及び発話時間長ｄ_w’に変換し、新たなタイミング情報として文字情報提示部４に出力する。

図９は、時間尺を１０秒とした場合の新たなタイミング情報の例である。この新たなタイミング情報の発話開始時刻及び発話時間長は、前述の変換処理により算出されていることがわかる。

（６．文字情報の提示）
図３に戻って、文字情報提示部４は、タイミング設定部２またはタイミング変換部３からタイミング情報を入力し、タイミング情報が示す文節単位の発話時間及び発話時間長に応じた発話タイミングを、原稿中の文字情報の形態に反映し、原稿を構成する文字情報及び発話タイミングが反映された形態の文字情報を表示装置へ出力する（ステップＳ２１１）。

図１０は、表示装置へ出力される文字情報の提示画面例である。文字情報提示部４は、原稿を構成する文字情報を出力する際に、タイミング情報に含まれる発話開始時刻を開始時刻として、それに対応する発話時間長の間、それに対応する文節にカーソル（下線）を付加して出力する。図１０では、文字情報提示部４は、図８に示したタイミング情報から、第１行目の文節「まず、」の発話タイミングを示す発話開始時刻２．１７秒、及び発話時間長０．７０秒を取得し、原稿の先頭の時刻を基準にして２．１７秒から０．７０秒の間、「まず、」の文節にカーソルを付加して出力する。これにより、文節「まず、」の発話タイミングを、原稿中の文節「まず、」の形態に反映することができる。同様に、文字情報提示部４は、タイミング情報から、第２行目の文節「ガソリン税などの」の発話タイミングを示す発話開始時刻２．８７秒、及び発話時間長１．０５秒を取得し、原稿の先頭の時刻を基準にして２．８７秒から１．０５秒の間、「ガソリン税などの」の文節にカーソルを付加して出力する。これにより、文節「ガソリン税などの」の発話タイミングを、原稿中の文節「ガソリン税などの」の形態に反映することができる。文節「暫定税率を」「維持すると」等についても同様の処理を行う。このようにして、発話タイミングが反映されたカーソルは、文節単位に順番に移動することになる。発話者は、文節単位に移動する文字情報を見て発話することになるから、単語単位に移動する文字情報を見て発話する場合に比べ、発話が容易になり、適切な速度及び間のタイミングの発話を実現しやすくなる。

以上のように、本発明の実施形態による文字情報提示制御装置１によれば、タイミング設定部２の音声認識手段１０は、音声認識手法により原稿の音声信号に基づいて、単語を抽出すると共に、単語単位の発話開始時刻及び発話時間長を含む認識結果を生成し、分割手段２０は、形態素解析手法により原稿のテキスト情報に基づいて、単語列の単語情報を生成し、日本語係受け解析手法により、文節列の文節情報を生成するようにした。そして、ＤＰマッチング手段３０は、ＤＰマッチング手法により認識結果及び単語情報に基づいて、誤りのある認識結果の単語を単語情報に含まれる正しい単語に入れ替えて、単語単位の発話時間及び発話時間長を含むマッチング結果を生成するようにした。そして、タイミング情報生成手段４０は、マッチング結果及び文節情報に基づいて、文節単位の発話開始時刻及び発話時間長を含むタイミング情報を生成するようにした。さらに、文字情報提示部４は、タイミング情報が示す文節単位の発話開始時刻及び発話時間長に基づいて、文節単位の発話タイミングを文字情報の形態に反映し（文字情報にカーソルを付加し）、その文節単位の発話タイミングがカーソルにより反映された文字情報を表示装置へ出力するようにした。

これにより、発話者は、表示装置により、図１０に示したような、文節単位の発話タイミングが反映された文字情報を見ることができる。したがって、発話のタイミングで発話すべき文字情報を容易に認識することができ、発話すべきタイミングを示すカーソルの移動に追従して文字情報を発話することができる。つまり、予め録音された音声信号と同一のタイミングで発話することができるから、適切な速度及び間による発話を行うことが可能となる。この場合、アナウンサーのような発話訓練を受けた熟練の発話者によって読み上げられた原稿の音声信号を用いることにより、発話者は、熟練の発話者による発話を再現することが可能となる。

また、本発明の実施形態による文字情報提示制御装置１によれば、タイミング変換部３が、予め指定された時間尺内に原稿の発話が収まるように、タイミング情報に含まれる発話開始時刻及び発話時間長を変換するようにした。そして、文字情報提示部４が、変換されたタイミング情報に基づいて、文節単位の発話タイミングを文字情報の形態に反映し、その文節単位の発話タイミングが反映された文字情報を表示装置へ出力するようにした。

これにより、発話者は、発話すべきタイミングが反映された文字情報に追従して発話することができ、予め指定された時間尺内に収まるように、適切な速度及び間による発話を行うことが可能となる。したがって、発話者は、予め指定された時間尺内で、原稿の発話を確実に終了させることができる。

尚、図１に示した文字情報提示制御装置１は、例えば、発話者の顔が撮影されないナレーション、ラジオの放送番組、発話者が撮影されるテレビの放送番組等の制作のために用いられる。

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、文字情報提示部４は、図１０に示したように、発話タイミングを文節単位のカーソルに反映し、カーソルを付加した文字情報を提示するようにした。しかし、本発明はこれに限定されるものではなく、発話タイミングを文字情報の色に反映し、発話タイミングを示す色が付加された文字情報を提示するようにしてもよいし、発話タイミングを示すカーソルが付加された文字情報が常に画面中央に位置するように、原稿をスクロールするようにしてもよい。要するに、発話タイミングが反映された形態で文字情報を提示できればよい。

また、前記実施形態では、タイミング設定部２のタイミング情報生成手段４０は、文節単位の発話開始時刻及び発話時間長を含むタイミング情報を生成するようにしたが、文節単位ではない所定単位の文字情報毎にタイミング情報を生成するようにしてもよい。例えば、文節よりも短い文字情報長のタイミング情報を生成するようにしてもよいし、文節よりも長い文字情報長のタイミング情報を生成するようにしてもよい。

尚、文字情報提示制御装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。文字情報提示制御装置１に備えたタイミング設定部２、タイミング変換部３及び文字情報提示部４の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもできる。

１文字情報提示制御装置
２タイミング設定部
３タイミング変換部
４文字情報提示部
１０音声認識手段
１１音声分析手段
１２探索手段
１３言語モデル
１４音響モデル
１５発音辞書
２０分割手段
２１単語分割手段
２２文節分割手段
２３日本語辞書
３０ＤＰマッチング手段
４０タイミング情報生成手段

Claims

発話者により発話される原稿の文字情報を表示装置へ提示する文字情報提示制御装置において、
前記原稿の音声信号に基づいて、前記原稿の文字情報を構成する単語単位の発話開始時刻を算出し、前記原稿の文字情報を提示するタイミングを示す発話開始時刻及び発話時間長を設定するタイミング設定部と、
前記タイミング設定部により設定された発話開始時刻及び発話時間長に基づいて、前記原稿の文字情報を前記表示装置へ提示する文字情報提示部と、
を備え、
前記タイミング設定部は、前記原稿が読み上げられた際の音声信号に基づいて、前記原稿の文字情報を構成する単語単位の発話開始時刻及び発話時間長を算出し、前記原稿が電子化された際のテキスト情報に基づいて、前記原稿の文字情報を単語に分割し、前記単語単位の発話開始時刻及び発話時間長と前記分割した単語とから、前記原稿の連続した文字情報を所定長に区切った場合の前記区切られた文字情報毎の発話開始時刻及び発話時間長を算出し、前記区切られた文字情報毎の発話開始時刻及び発話時間長をタイミング情報として設定し、
前記文字情報提示部は、前記タイミング設定部により設定されたタイミング情報の発話開始時刻及び発話時間長に基づいて、前記タイミング情報に含まれる前記区切られた文字情報を、前記発話者により発話されるタイミングであることを示す形態で前記表示装置へ提示する、ことを特徴とする文字情報提示制御装置。
請求項１に記載の文字情報提示制御装置において、
前記タイミング設定部は、
前記音声信号と予め記憶された音声周波数パターンとの間で周波数マッチングを行い、予め記憶された単語の辞書を用いて、単語単位の発話開始時刻及び発話時間長を認識結果として生成する音声認識手段と、
単語の形態素解析により、前記テキスト情報を単語及び文節に分割し、前記分割した複数の単語からなる単語情報及び複数の文節からなる文節情報を生成する分割手段と、
前記音声認識手段により生成された認識結果に含まれる単語と、前記分割手段により生成された単語情報に含まれる単語とを比較し、一致しないと判定した場合、前記認識結果に含まれる一致しない単語の代わりに前記単語情報に含まれる単語を用いて、単語単位の発話開始時刻及び発話時間長をマッチング結果として生成するマッチング手段と、
前記マッチング手段により生成された単語単位の発話開始時刻及び発話時間長のマッチング結果を、前記分割手段により生成された文節情報を用いて、文節単位の発話開始時刻及び発話時間長に変換し、前記文節単位の発話開始時刻及び発話時間長をタイミング情報として生成するタイミング情報生成手段と、を備え、
前記文字情報提示部は、
前記タイミング情報生成手段により生成されたタイミング情報に含まれる発話開始時刻になると、前記発話開始時刻に対応する文節の文字情報を、前記発話開始時刻に対応する発話時間長の間、前記原稿における他の文字情報とは異なる形態で前記表示装置へ提示する、ことを特徴とする文字情報提示制御装置。
コンピュータを、請求項１または２に記載の文字情報提示制御装置として機能させるための文字情報提示制御プログラム。