JP5334716B2 - 文字情報提示制御装置及びプログラム - Google Patents

文字情報提示制御装置及びプログラム Download PDF

Info

Publication number
JP5334716B2
JP5334716B2 JP2009158780A JP2009158780A JP5334716B2 JP 5334716 B2 JP5334716 B2 JP 5334716B2 JP 2009158780 A JP2009158780 A JP 2009158780A JP 2009158780 A JP2009158780 A JP 2009158780A JP 5334716 B2 JP5334716 B2 JP 5334716B2
Authority
JP
Japan
Prior art keywords
utterance
information
timing
word
character information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009158780A
Other languages
English (en)
Other versions
JP2011014021A (ja
Inventor
真一 本間
崇史 深谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2009158780A priority Critical patent/JP5334716B2/ja
Publication of JP2011014021A publication Critical patent/JP2011014021A/ja
Application granted granted Critical
Publication of JP5334716B2 publication Critical patent/JP5334716B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、アナウンサー、教師、政治家等の発話者が、文字情報を読みながら発話をする際に、適切な速度及び間(ま)による発話を誘導する技術に関する。
従来、アナウンサー、教師、政治家等の発話者によって適切な速度及び間による発話を実現するために、キューランプを用いた装置が知られている。この装置は、キューランプの光を点灯させることにより、発話タイミングを発話者へ提示するものである。また、手本となる音声を録音しておき、発話者がイヤホン等を用いてその録音した音声を聞くことにより、その録音した音声と同じタイミングで同じ内容を発話する手法も知られている。
また、発話者による発話の進行に際し、必要な情報を発話者へ提示するシステムが知られている。このシステムは、例えば、発話者がプレゼンテーションを行う場合、映像データ、及びその映像データに関する音声メモデータを記憶部に記憶しておき、映像データを表示する切り換えタイミングにて、その映像データに関する音声メモデータを記憶部から読み出して再生するものである。これにより、発話者は、表示されている映像データに関する情報を聞き取ることができるから、発話の進行に際して必要な情報を確実に把握することができる(例えば、特許文献1を参照)。
特開2006−119875号公報
前述のキューランプを用いた装置では、文単位に、適切な速度及び間による発話のタイミングを発話者へ提示することができる。しかしながら、キューランプを点灯させる間隔に限界があり、発話者にも点灯を認識する限界があることから、一文よりも短い単位では、適切な速度及び間による発話のタイミングを提示することが困難である。また、録音した音声をイヤホン等で聞きながら発話する手法では、聞きながら発話する必要がある。このため、発話者の負担が大きくなり、言い間違いを誘発したり、不自然な間を誘発したりする要因となっていた。
また、前述の、発話者へ必要な情報を提示するシステムにおいても、情報の提示を受ける発話者の負担が大きくなるから、録音した音声をイヤホン等で聞きながら発話する手法と同様の問題があった。
このように、従来は、発話者が文字情報を読みながら発話をする際に、所定の速度及び間による発話ができるようにタイミング情報を提示する技術は存在するが、発話者に負担をかける等の問題があり、従来の手法では不十分であった。このため、発話者に大きな負荷をかけることなく、適切なタイミングで発話することができるように誘導することが望まれていた。
そこで、本発明はかかる課題を解決するためになされたものであり、その目的は、発話者によって適切な速度及び間による発話ができるように、適切なタイミングで発話のための文字情報を提示することが可能な文字情報提示制御装置及びプログラムを提供することにある。
本発明では、前記課題を解決するために以下の構成に係るものとした。すなわち、本発明は、発話者により発話される原稿の文字情報を表示装置へ提示する文字情報提示制御装置において、前記原稿の音声信号に基づいて、前記原稿の文字情報を構成する単語単位の発話開始時刻を算出し、前記原稿の文字情報を提示するタイミングを示す発話開始時刻及び発話時間長を設定するタイミング設定部と、前記タイミング設定部により設定された発話開始時刻及び発話時間長に基づいて、前記原稿の文字情報を前記表示装置へ提示する文字情報提示部と、を備え、前記タイミング設定部が、前記原稿が読み上げられた際の音声信号に基づいて、前記原稿の文字情報を構成する単語単位の発話開始時刻及び発話時間長を算出し、前記原稿が電子化された際のテキスト情報に基づいて、前記原稿の文字情報を単語に分割し、前記単語単位の発話開始時刻及び発話時間長と前記分割した単語とから、前記原稿の連続した文字情報を所定長に区切った場合の前記区切られた文字情報毎の発話開始時刻及び発話時間長を算出し、前記区切られた文字情報毎の発話開始時刻及び発話時間長をタイミング情報として設定し、前記文字情報提示部が、前記タイミング設定部により設定されたタイミング情報の発話開始時刻及び発話時間長に基づいて、前記タイミング情報に含まれる前記区切られた文字情報を、前記発話者により発話されるタイミングであることを示す形態で前記表示装置へ提示する、ことを特徴とする。
また、本発明は、前記タイミング設定部が、前記音声信号と予め記憶された音声周波数パターンとの間で周波数マッチングを行い、予め記憶された単語の辞書を用いて、単語単位の発話開始時刻及び発話時間長を認識結果として生成する音声認識手段と、単語の形態素解析により、前記テキスト情報を単語及び文節に分割し、前記分割した複数の単語からなる単語情報及び複数の文節からなる文節情報を生成する分割手段と、前記音声認識手段により生成された認識結果に含まれる単語と、前記分割手段により生成された単語情報に含まれる単語とを比較し、一致しないと判定した場合、前記認識結果に含まれる一致しない単語の代わりに前記単語情報に含まれる単語を用いて、単語単位の発話開始時刻及び発話時間長をマッチング結果として生成するマッチング手段と、前記マッチング手段により生成された単語単位の発話開始時刻及び発話時間長のマッチング結果を、前記分割手段により生成された文節情報を用いて、文節単位の発話開始時刻及び発話時間長に変換し、前記文節単位の発話開始時刻及び発話時間長をタイミング情報として生成するタイミング情報生成手段と、を備え、前記文字情報提示部が、前記タイミング情報生成手段により生成されたタイミング情報に含まれる発話開始時刻になると、前記発話開始時刻に対応する文節の文字情報を、前記発話開始時刻に対応する発話時間長の間、前記原稿における他の文字情報とは異なる形態で前記表示装置へ提示する、ことを特徴とする。
また、本発明は、発話者により発話される原稿の文字情報を表示装置へ提示する文字情報提示制御プログラムにおいて、コンピュータを、前記文字情報提示制御装置として機能させることを特徴とする。
以上のように、本発明によれば、発話者は、発話のタイミングで文字情報を容易に認識し、そのタイミングに合わせて発話することができる。したがって、適切な速度及び間による発話を実現することが可能となる。
本発明の実施形態による文字情報提示制御装置の構成を示すブロック図である。 タイミング設定部の構成を示すブロック図である。 文字情報提示制御装置の処理を説明するフローチャートである。 1文のみからなる原稿の例である。 原稿のテキスト情報を単語情報及び文節情報に変換した例である。 文節情報を文字列として取り扱う例である。 単語単位に発話開始時刻及び発話時間長を付与した認識結果の例である。 文節単位に発話開始時刻及び発話時間長を付与したタイミング情報の例である。 時間尺を10秒とした場合のタイミング情報の例である。 文字情報の提示画面例である。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明による文字情報提示制御装置は、発話者により発話される文字情報を、発話のための適切なタイミングで表示装置へ出力するものである。例えば、以下の処理により、文節等のまとまった単位で、原稿を構成する連続した文字情報を逐次提示する。
(1)原稿を理想的なタイミングで読み上げたときの音声信号を事前に録音しておき、その音声信号、及び原稿が電子化されたテキスト情報に基づいて、原稿中の単語が発話された時間情報(発話開始時刻及び発話時間長)を生成する。
(2)単語が発話された時間情報及び原稿のテキスト情報に基づいて、文節等のまとまった単位の時間情報(発話開始時刻及び発話時間長)を生成する。
(3)発話者が原稿を発話する際には、文節等のまとまった単位の時間情報によるタイミングにて、その発話タイミングを反映した文字情報と共に、原稿を構成する連続した文字情報を逐次提示する。
また、原稿の発話時間長である時間尺が指定されている場合には、以下の処理を行う。
(4)前記(2)において生成した文節等のまとまった単位の時間情報を、予め指定された時間尺に基づいて変換する。すなわち、発話開始時刻及び発話時間長を、予め指定された時間尺を基準にした比率で伸縮させることにより、新たな時間情報に変換する。
(5)発話者が原稿を発話する際には、前記(4)において生成された、文節等のまとまった単位の新たな時間情報によるタイミングにて、その発話タイミングを反映した文字情報と共に、原稿を構成する連続した文字情報を逐次提示する。
これにより、発話者は、文節等のまとまった単位の発話タイミングが反映された文字情報を、表示装置にて見ることができるから、発話タイミングで発話すべき文字情報を容易に認識し、そのタイミングに合わせて発話することができる。したがって、理想的なタイミングで読み上げた音声信号のタイミングで発話を再現することができるから、適切な速度及び間による発話を実現することが可能となる。
〔文字情報提示制御装置の構成〕
まず、本発明の実施形態による文字情報提示制御装置の構成について説明する。図1は、文字情報提示制御装置1の構成を示すブロック図である。この文字情報提示制御装置1は、タイミング設定部2、タイミング変換部3及び文字情報提示部4を備えている。
タイミング設定部2は、予め準備された原稿を理想的なタイミングで読み上げたときの音声信号を入力する。また、タイミング設定部2は、予め準備された同じ原稿の電子化情報、すなわち、原稿の文字情報がコード化されたテキスト情報を入力する。ここで、原稿を読み上げる読上者は、発話者と同一人物であってもよいし、発話者とは異なる人物であってもよい。また、文字情報提示制御装置1によって、読上者の音声信号と同じタイミングで発話者が発話することになるから、発話者がアナウンサーでない場合や新人のアナウンサーの場合には、読上者は発話訓練を受けた熟練者であることが望ましい。そして、タイミング設定部2は、音声信号及びテキスト情報に基づいて、原稿を構成する文字情報を単語単位(単語毎)及び文節単位(文節毎)に分割し、文節単位の時間情報をタイミング情報として生成する。発話のタイミングを変更しない場合は、テキスト情報を含むタイミング情報を文字情報提示部4に出力し、原稿の発話時間を示す時間尺が予め決められており、発話のタイミングを変更する場合は、テキスト情報を含むタイミング情報をタイミング変換部3に出力する。
タイミング変換部3は、タイミング設定部2からタイミング情報を入力し、実際に発話者が原稿に従って発話する時間(予め決められた時間尺)に基づいて、文節単位の時間情報を変換し、新たなタイミング情報を生成する。そして、タイミング変換部3は、新たなタイミング情報を文字情報提示部4に出力する。
文字情報提示部4は、タイミング設定部2またはタイミング変換部3からタイミング情報(文節単位の時間情報)を入力し、タイミング情報が示す文節単位の発話タイミングを、その文節を構成する文字情報の形態に反映し、文節単位の発話タイミングが反映された文字情報を表示装置(図示せず)へ出力する。
〔タイミング設定部の構成〕
次に、図1に示した文字情報提示制御装置1のタイミング設定部2について詳細に説明する。図2は、タイミング設定部2の構成を示すブロック図である。このタイミング設定部2は、音声認識手段10、分割手段20、DP(Dynamic Programming)マッチング手段30及びタイミング情報生成手段40を備えている。前述したとおり、タイミング設定部2は、原稿の音声信号及びテキスト情報を入力し、原稿を構成する文字情報を単語単位及び文節単位に分割し、文節単位の時間情報をタイミング情報として生成し出力する。
音声認識手段10は、音声分析手段11、探索手段12、言語モデル13、音響モデル14及び発音辞書15を備えており、原稿の音声信号を入力し、音声認識手法を用いて、音声信号と予め記憶された音声周波数パターンとの間で周波数マッチングを行い、音声信号から単語を抽出すると共に、その単語に対する発話の時間情報を算出し、単語単位の時間情報を認識結果としてDPマッチング手段30に出力する。音声認識手法は公知の技術を用いる。
分割手段20は、単語分割手段21、文節分割手段22及び日本語辞書23を備えており、原稿のテキスト情報を入力し、形態素解析手法及び日本語係受け解析手法を用いて、テキスト情報を単語単位に分割して単語情報を生成し、テキスト情報を文節単位に分割して文節情報を生成する。そして、分割手段20は、単語情報をDPマッチング手段30に出力し、文節情報をタイミング情報生成手段40に出力する。形態素解析手法及び日本語係受け解析手法は公知の技術を用いる。
DPマッチング手段30は、音声認識手段10から認識結果(単語単位の時間情報)を入力すると共に、分割手段20から単語情報(テキスト情報を単語単位に分割した情報)を入力し、DPマッチング手法を用いて、認識結果の単語列と単語情報の単語列とを比較する。そして、DPマッチング手段30は、単語列が一致しないと判定した場合、認識結果に含まれる単語に認識誤りがあるとして、正しい単語を単語情報に含まれる単語から特定し、誤りのある認識結果の単語を、特定した正しい単語に入れ替え、入れ替え後の認識結果をマッチング結果としてタイミング情報生成手段40に出力する。一方、単語列が一致すると判定した場合は、認識結果に含まれる単語に認識誤りがないとして、入力した認識結果をマッチング結果としてタイミング情報生成手段40に出力する。DPマッチング手法は公知の技術を用いる。
タイミング情報生成手段40は、DPマッチング手段30からマッチング結果(単語単位の時間情報)を入力すると共に、分割手段20から文節情報(テキスト情報を文節単位に分割した情報)を入力し、単語単位の時間情報であるマッチング結果を、文節情報を用いて文節単位の時間情報に変換し、タイミング情報として出力する。この場合、発話のタイミングを変更しない場合は、タイミング情報を文字情報提示部4に出力し、発話のタイミングを変更する場合は、タイミング情報をタイミング変換部3に出力する。単語単位の時間情報であるマッチング結果を、文節単位の時間情報であるタイミング情報に変換する手法については後述する。
〔文字情報提示制御装置の処理〕
次に、図1に示した文字情報提示制御装置1の処理について説明する。図3は、文字情報提示制御装置1の処理を説明するフローチャートである。ステップS201〜ステップS209はタイミング設定部2により実行され、ステップS210はタイミング変換部3により実行され、ステップS211は文字情報提示部4により実行される。以下、図2及び図3を参照して説明する。
(1.原稿の準備)
まず、発話者により発話される原稿を準備する。原稿は、読上者により読み上げられて音声信号として文字情報提示制御装置1へ入力される。また、原稿は、単語分割及び文節分割等の処理のために予め電子化され、テキスト情報として文字情報提示制御装置1へ入力される。
図4は、1文のみからなる原稿の例である。このような原稿が発話者により発話される。尚、図4では、説明を簡単にするため1文のみからなる原稿の例を示しているが、実際の原稿は複数文により構成される。
(2.原稿の分割)
図3に戻って、タイミング設定部2の分割手段20が、原稿のテキスト情報を入力すると(ステップS201)、分割手段20の単語分割手段21は、原稿のテキスト情報を単語単位に区切った分割データに変換し、単語情報としてDPマッチング手段30に出力する(ステップS202)。そして、ステップS203及びステップS206へ移行する。具体的には、単語分割手段21は、形態素解析手法により、日本語辞書23に登録された単語情報を参照して、入力したテキスト情報を、最小単位の形態素(単語)に分割し、分割した複数の単語からなる単語列を生成する。ここで、日本語辞書23には、単語毎に、名詞、動詞等の品詞情報が登録されており、少なくとも、原稿のテキスト情報を構成する単語に関する品詞情報が登録されているものとする。単語分割手段21として、例えば、形態素解析器(「ChaSen」、<http://chasen-legacy.sourceforge.jp/>を参照)が用いられる。
図5は、原稿のテキスト情報を単語情報及び文節情報に変換した例である。図5では、単語は、空白(スペース)に挟まれており、文節は、<b>のマーカーに挟まれている。単語分割手段21は、形態素解析手法により分割された個々の単語に対し、その前後に空白等の識別情報を挿入し、識別情報を含む単語情報を出力する。
図3に戻って、分割手段20の文節分割手段22は、入力した原稿のテキスト情報に対し、文節単位に区切った分割データに変換し、文節情報としてタイミング情報生成手段40に出力する(ステップS203)。そして、ステップS208へ移行する。具体的には、文節分割手段22は、日本語辞書23に登録された単語、品詞、文節区切り等の情報を参照して学習されたSVM(Support Vector Machine)のパターン認識手法を利用し、入力したテキスト情報を、連続した複数の単語からなる文節に分割し、複数の文節からなる文節列を生成する。文節分割手段22として、例えば、日本語係受け解析器(「CaboCha」、<http://chasen.org/~taku/software/cabocha/>を参照)が用いられる。
また、文節分割手段22は、図5に示したように、日本語係受け解析手法により分割された個々の文節に対し、その前後にマーカー等の識別情報を挿入し、識別情報を含む文節情報を出力する。
図6は、図5に示した文節情報を文字列単位の情報として取り扱う場合の例である。図6に示すように、文節分割手段22により生成された1行毎の文節は、この文字列単位の文字情報として、文字情報提示部4において取り扱われる。詳細については後述する。
(3.音声信号の録音)
図3に戻って、タイミング設定部2の音声認識手段10は、読上者により読み上げられた原稿の音声信号を入力し、図示しない記録部に録音する(ステップS204)。尚、発話者は、本番時にはこの録音された音声の再現を目指すことになるため、ここでは、理想的な発話となるように丹念に読み上げられた音声信号が入力されることが望ましい。すなわち、理想的な発話を得るため、本番時の発話者とは異なり、発話訓練を受けた発話者(アナウンサー等)が原稿を読み上げることが望ましい。
(4.各単語の時間情報の生成)
まず、音声認識手段10は、音声分析手段11によって、外部から入力された音声信号(入力音声)を分析し、その音声信号の特徴量を特徴ベクトルとして抽出する(ステップS204)。そして、音声認識手段10は、探索手段12によって、言語モデル13から得られる確率値(言語スコア)をもとに、接続される出力系列(単語)の候補を順次リストアップする。また、音声認識手段10は、探索手段12によって、リストアップした出力系列の探索候補毎に、発音辞書15で示される発音に対応する各音素の音響モデル14における特徴量と、入力音声の特徴量との間の類似度(確率値)を音響スコアとして算出する。また、音声認識手段10は、探索手段12によって、音響スコアと言語スコアとの積が最大となる出力系列(単語列)を認識結果として出力する。この認識結果に付随して、各単語が発話された開始点の時刻(発話開始時刻)、及びその単語が発話された時間長(発話時間長)を含む時間情報を生成し、その時間情報を認識結果としてDPマッチング手段30に出力する(ステップS205)。
図7は、単語単位に発話開始時刻及び発話時間長を付与した認識結果の例である。この認識結果は、米国のNIST(National Institute of Standards and Technology)のCTMフォーマット(“Sclite Input file formats:trn, txt, stm, ctm”、[online]、インターネット<URL: ftp://jaguar.ncsl.nist.gov/current_docs/sctk/doc/infmts.htm#ctm_fmt_name_0>)に準じて表記された例であり、単語単位に、第1及び第2列目の文字列、第3列目の発話開始時刻、第4列目の発話時間長、及び第5列目の単語から構成されている。第1及び第2列目の情報は、CTMフォーマットに準じて定義されたファイル名及びチャンネル名の文字列である。また、第3列目の発話開始時刻は、入力した原稿の所定時刻を基準にして、第5列目の単語が発話された際の、その単語の先頭における秒単位の時刻(単語の発話開始時刻)である。第4列目の発話時間長は、第5列目の単語が発話された際の、先頭から最後までの間の秒単位の時間である。探索手段12は、図7に示したような単語単位の時間情報を認識結果として出力する。
尚、通常は、原稿の音声信号から得られる単語列と、原稿のテキスト情報から得られる単語列とが同一になるはずである。これは、音声信号の元となる原稿と、テキスト情報の元となる原稿とが同一だからである。したがって、音声認識手段10の探索手段12において抽出される単語列が原稿の単語列であるとして予め設定しておき、探索手段12は、予め設定された単語列を用いて、単語単位の時間情報を生成するようにしてもよい。また、原稿を読み上げる読上者の発話により、原稿に含まれる単語単位の周波数パターンを音響モデル14に予め登録するようにしてもよい。このような設定処理及び登録処理(学習)により、音声認識手段10は、入力した原稿の音声信号に対し、正しい単語列を含む認識結果を、100%に近い認識精度で生成することができる。これにより、後述するDPマッチング手段30の処理において、一致の判定処理を行う必要がなく、不一致のときの処理も行う必要がないから、処理負荷を低減することができると共に、処理時間を短縮することができる。
ところで、音声認識技術を用いた強制アライメントと呼ばれる手法が知られている。この公知の強制アライメント手法を用いることにより、所定の音声で発話された各単語の時刻情報を得ることができる(例えば、Steve Young著、「The HTK BOOK For HTK V2.0」、pp.194を参照)。この強制アライメント手法は、文または発話単位で区切られた音声データと、その音声データに対応した単語列とを用いることにより、音声データを構成する各単語の時刻情報を得るものである。したがって、音声データに対応した正しい単語列を、オペレータにより予め準備しておく必要がある。また、強制アライメント手法は、音声データを音素に分解し、音素単位の周波数パターンが登録された音響モデル及び予め準備された正しい単語列を用いて、音素データと正しい単語列との間で周波数パターンのマッチングを行い、マッチングの確率の最も高いタイミングを特定することにより、時刻情報を得るものである。しかし、音声データに対応した正しい単語列を予め準備する作業、及び、音声データを文または発話単位に区切り、正しい単語列に対応させるための作業は手間がかかり困難である。しかも、発話の間(ま)の情報が欠落する問題も生じる。これに対し、前述した音声認識手段10では、音声データに対応した正しい単語列を予め準備しておく必要がなく、文または発話単位に区切った音声データと正しい単語列との対応付けの作業が必要ないから、このような問題を回避することができる。
図3に戻って、DPマッチング手段30は、音声認識手段10の探索手段12から認識結果を入力すると共に、分割手段20の単語分割手段21から単語情報を入力し、DPマッチング手法を用いて、認識結果の単語列と単語情報の単語列とを比較し、単語列が一致するか否かを判定する。単語列が一致すると判定した場合、すなわち、認識結果に誤りがないと判定した場合、認識結果をマッチング結果としてタイミング情報生成手段40に出力する。一方、単語列が一致しないと判定した場合、すなわち、認識結果に誤りがあると判定した場合、認識結果における誤りのある単語の代わりとなる正しい単語を単語情報から特定し、その正しい単語に入れ替えた認識結果をマッチング結果としてタイミング情報生成手段40に出力する。このように、DPマッチング手段30は、原稿を構成する正しい単語に発話開始時刻及び発話時間長が付与されたマッチング結果をタイミング情報生成手段40に出力する(ステップS206,S207)。
具体的には、DPマッチング手段30は、DPマッチング手法を用いて、認識結果の単語列(単語パターン)と単語情報の単語列(単語パターン)との間で、単語間の違いの程度を示す距離を積算し、認識結果の単語パターンと単語情報の単語パターンとの間の距離を算出する。そして、単語パターン間の距離と所定の閾値とを比較し、単語パターン間の距離が所定の閾値以下の場合、単語パターンが一致するから認識結果に誤りがないと判定し、単語パターン間の距離が所定の閾値を越える場合、単語パターンが一致しないから認識結果に誤りがあると判定する。ここで、例えば、2つの単語パターンの長さが異なる等して認識結果に誤りがあると判定したときには、認識結果の単語と単語情報の各単語との間の距離のうち、最小距離をとる単語情報の単語を特定し、認識結果の単語の代わりに、特定した単語を用いるようにする。このように、認識結果の単語列と単語情報の単語列との間で最適な対応付けを行うことにより、認識結果における誤りのある単語の代わりとなる正しい単語を単語情報から特定し、その正しい単語に入れ替えた認識結果をマッチング結果として生成する。DPマッチング手法として、例えば、以下の(1)または(2)の手法が用いられる。
(1)上坂吉則、尾関和彦著、「パターン認識と学習のアルゴリズム」、文一総合出版、pp.91−108
(2)“DPマッチングとは?”、[online]、インターネット<URL:http://sail.i.ishikawa-nct.ac.jp/pattern/dp/dp.html>
DPマッチング手法によって、誤りのある認識結果の単語と単語情報の単語とを必ずしも1対1に対応付けることができない場合があり得る。この場合、マッチング情報における発話開始時刻及び/または発話時間長に誤差が含まれることが想定される。しかし、その誤差が1/10秒程度であれば、発話者が文字情報を発話する際のタイミングにさほど影響を及ぼすことがない。したがって、誤りのある認識結果の単語と単語情報の単語とを1対1に対応付けることができず、マッチング情報における発話開始時刻及び/または発話時間長に誤差が含まれる場合であっても、その誤差が所定範囲内であれば、文字情報提示制御装置1は、適切なタイミングの文字情報を提供することができ、発話者は、適切な速度及び間による発話を実現することが可能となる。
タイミング情報生成手段40は、DPマッチング手段30からマッチング結果を入力すると共に、分割手段20の文節分割手段22から文節情報を入力し、マッチング結果が示す単語単位の発話開始時刻及び発話時間長を用いて、文節情報が示す各文節に発話開始時刻及び発話時間長を付与し、タイミング情報を生成する(ステップS208)。
図8は、文節単位に発話開始時刻及び発話時間長を付与したタイミング情報の例である。このタイミング情報は、図7に示した認識結果と同様の構成をしており、文節単位に、第1及び第2列目の文字列、第3列目の発話開始時刻、第4列目の発話時間長、及び第5列目の文節から構成されている。第1及び第2列目の文字列は、CTMフォーマットに準じた情報である。また、第3列目の発話開始時刻は、入力した原稿の所定時刻を基準にして、第5列目の文節が発話された際のその文節の先頭における秒単位の時刻(文節の発話開始時刻)である。第4列目の発話時間長は、第5列目の文節が発話された際の、先頭から最終までの間の秒単位の時間である。
タイミング情報生成手段40は、図7に示した、単語単位に発話開始時刻及び発話時間長を付与した認識結果を用いて、図5及び図6に示した文節単位に、その発話開始時刻及び発話時間長を算出する。タイミング情報生成手段40は、例えば第2行目の文節「ガソリン税などの」について、図7に示した単語「ガソリン」の発話開始時刻をこの文節の発話開始時刻に設定し、図7に示した単語「ガソリン」「税」「など」「の」の発話時間長を加算し、その加算結果をこの文節の発話時間長に設定する。このように、タイミング情報生成手段40は、文節情報が示す各文節に発話開始時刻及び発話時間長を付与し、タイミング情報を生成する。
図3に戻って、タイミング情報生成手段40は、タイミング情報を生成した後、時間尺の指定があるか否かを判定する(ステップS209)。時間尺は、オペレータの操作により予め指定される。時間尺の指定があると判定した場合(ステップS209:Y)、すなわち、発話のタイミングを変更すると判定した場合、タイミング情報をタイミング変換部3に出力する。一方、時間尺の指定がないと判定した場合(ステップS209:N)、すなわち、発話のタイミングを変更しないと判定した場合、タイミング情報を文字情報提示部4に出力する。
(5.時間尺に指定がある場合のタイミング情報の変換)
タイミング変換部3は、タイミング設定部2のタイミング情報生成手段40からタイミング情報を入力し、予め指定された時間尺に合うように、タイミング情報に含まれる発話開始時刻及び発話時間長を変換し、変換したタイミング情報を文字情報提示部4に出力する(ステップS210)。具体的には、タイミング変換部3は、発話者による発話時間が、予め指令された時間尺内に収まるようにするため、タイミング情報における最後の単語の発話開始時刻をtendword、最後の単語の発話時間長をdendwordとした場合、以下の式により、原稿全体が発話されたときの時間長Ttotalを算出する。
Figure 0005334716
予め指定された時間尺をTdefとした場合、タイミング変換部3は、タイミング情報に含まれるw番目の単語の発話開始時刻tw及び発話時間長dwを、以下の式により変換する。
Figure 0005334716
Figure 0005334716
タイミング変換部3は、入力したタイミング情報に含まれるw番目の単語の発話開始時刻tw及び発話時間長dwを、新たな発話開始時刻tw’及び発話時間長dw’に変換し、新たなタイミング情報として文字情報提示部4に出力する。
図9は、時間尺を10秒とした場合の新たなタイミング情報の例である。この新たなタイミング情報の発話開始時刻及び発話時間長は、前述の変換処理により算出されていることがわかる。
(6.文字情報の提示)
図3に戻って、文字情報提示部4は、タイミング設定部2またはタイミング変換部3からタイミング情報を入力し、タイミング情報が示す文節単位の発話時間及び発話時間長に応じた発話タイミングを、原稿中の文字情報の形態に反映し、原稿を構成する文字情報及び発話タイミングが反映された形態の文字情報を表示装置へ出力する(ステップS211)。
図10は、表示装置へ出力される文字情報の提示画面例である。文字情報提示部4は、原稿を構成する文字情報を出力する際に、タイミング情報に含まれる発話開始時刻を開始時刻として、それに対応する発話時間長の間、それに対応する文節にカーソル(下線)を付加して出力する。図10では、文字情報提示部4は、図8に示したタイミング情報から、第1行目の文節「まず、」の発話タイミングを示す発話開始時刻2.17秒、及び発話時間長0.70秒を取得し、原稿の先頭の時刻を基準にして2.17秒から0.70秒の間、「まず、」の文節にカーソルを付加して出力する。これにより、文節「まず、」の発話タイミングを、原稿中の文節「まず、」の形態に反映することができる。同様に、文字情報提示部4は、タイミング情報から、第2行目の文節「ガソリン税などの」の発話タイミングを示す発話開始時刻2.87秒、及び発話時間長1.05秒を取得し、原稿の先頭の時刻を基準にして2.87秒から1.05秒の間、「ガソリン税などの」の文節にカーソルを付加して出力する。これにより、文節「ガソリン税などの」の発話タイミングを、原稿中の文節「ガソリン税などの」の形態に反映することができる。文節「暫定税率を」「維持すると」等についても同様の処理を行う。このようにして、発話タイミングが反映されたカーソルは、文節単位に順番に移動することになる。発話者は、文節単位に移動する文字情報を見て発話することになるから、単語単位に移動する文字情報を見て発話する場合に比べ、発話が容易になり、適切な速度及び間のタイミングの発話を実現しやすくなる。
以上のように、本発明の実施形態による文字情報提示制御装置1によれば、タイミング設定部2の音声認識手段10は、音声認識手法により原稿の音声信号に基づいて、単語を抽出すると共に、単語単位の発話開始時刻及び発話時間長を含む認識結果を生成し、分割手段20は、形態素解析手法により原稿のテキスト情報に基づいて、単語列の単語情報を生成し、日本語係受け解析手法により、文節列の文節情報を生成するようにした。そして、DPマッチング手段30は、DPマッチング手法により認識結果及び単語情報に基づいて、誤りのある認識結果の単語を単語情報に含まれる正しい単語に入れ替えて、単語単位の発話時間及び発話時間長を含むマッチング結果を生成するようにした。そして、タイミング情報生成手段40は、マッチング結果及び文節情報に基づいて、文節単位の発話開始時刻及び発話時間長を含むタイミング情報を生成するようにした。さらに、文字情報提示部4は、タイミング情報が示す文節単位の発話開始時刻及び発話時間長に基づいて、文節単位の発話タイミングを文字情報の形態に反映し(文字情報にカーソルを付加し)、その文節単位の発話タイミングがカーソルにより反映された文字情報を表示装置へ出力するようにした。
これにより、発話者は、表示装置により、図10に示したような、文節単位の発話タイミングが反映された文字情報を見ることができる。したがって、発話のタイミングで発話すべき文字情報を容易に認識することができ、発話すべきタイミングを示すカーソルの移動に追従して文字情報を発話することができる。つまり、予め録音された音声信号と同一のタイミングで発話することができるから、適切な速度及び間による発話を行うことが可能となる。この場合、アナウンサーのような発話訓練を受けた熟練の発話者によって読み上げられた原稿の音声信号を用いることにより、発話者は、熟練の発話者による発話を再現することが可能となる。
また、本発明の実施形態による文字情報提示制御装置1によれば、タイミング変換部3が、予め指定された時間尺内に原稿の発話が収まるように、タイミング情報に含まれる発話開始時刻及び発話時間長を変換するようにした。そして、文字情報提示部4が、変換されたタイミング情報に基づいて、文節単位の発話タイミングを文字情報の形態に反映し、その文節単位の発話タイミングが反映された文字情報を表示装置へ出力するようにした。
これにより、発話者は、発話すべきタイミングが反映された文字情報に追従して発話することができ、予め指定された時間尺内に収まるように、適切な速度及び間による発話を行うことが可能となる。したがって、発話者は、予め指定された時間尺内で、原稿の発話を確実に終了させることができる。
尚、図1に示した文字情報提示制御装置1は、例えば、発話者の顔が撮影されないナレーション、ラジオの放送番組、発話者が撮影されるテレビの放送番組等の制作のために用いられる。
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、文字情報提示部4は、図10に示したように、発話タイミングを文節単位のカーソルに反映し、カーソルを付加した文字情報を提示するようにした。しかし、本発明はこれに限定されるものではなく、発話タイミングを文字情報の色に反映し、発話タイミングを示す色が付加された文字情報を提示するようにしてもよいし、発話タイミングを示すカーソルが付加された文字情報が常に画面中央に位置するように、原稿をスクロールするようにしてもよい。要するに、発話タイミングが反映された形態で文字情報を提示できればよい。
また、前記実施形態では、タイミング設定部2のタイミング情報生成手段40は、文節単位の発話開始時刻及び発話時間長を含むタイミング情報を生成するようにしたが、文節単位ではない所定単位の文字情報毎にタイミング情報を生成するようにしてもよい。例えば、文節よりも短い文字情報長のタイミング情報を生成するようにしてもよいし、文節よりも長い文字情報長のタイミング情報を生成するようにしてもよい。
尚、文字情報提示制御装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。文字情報提示制御装置1に備えたタイミング設定部2、タイミング変換部3及び文字情報提示部4の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもできる。
1 文字情報提示制御装置
2 タイミング設定部
3 タイミング変換部
4 文字情報提示部
10 音声認識手段
11 音声分析手段
12 探索手段
13 言語モデル
14 音響モデル
15 発音辞書
20 分割手段
21 単語分割手段
22 文節分割手段
23 日本語辞書
30 DPマッチング手段
40 タイミング情報生成手段

Claims (3)

  1. 発話者により発話される原稿の文字情報を表示装置へ提示する文字情報提示制御装置において、
    前記原稿の音声信号に基づいて、前記原稿の文字情報を構成する単語単位の発話開始時刻を算出し、前記原稿の文字情報を提示するタイミングを示す発話開始時刻及び発話時間長を設定するタイミング設定部と、
    前記タイミング設定部により設定された発話開始時刻及び発話時間長に基づいて、前記原稿の文字情報を前記表示装置へ提示する文字情報提示部と、
    を備え、
    前記タイミング設定部は、前記原稿が読み上げられた際の音声信号に基づいて、前記原稿の文字情報を構成する単語単位の発話開始時刻及び発話時間長を算出し、前記原稿が電子化された際のテキスト情報に基づいて、前記原稿の文字情報を単語に分割し、前記単語単位の発話開始時刻及び発話時間長と前記分割した単語とから、前記原稿の連続した文字情報を所定長に区切った場合の前記区切られた文字情報毎の発話開始時刻及び発話時間長を算出し、前記区切られた文字情報毎の発話開始時刻及び発話時間長をタイミング情報として設定し、
    前記文字情報提示部は、前記タイミング設定部により設定されたタイミング情報の発話開始時刻及び発話時間長に基づいて、前記タイミング情報に含まれる前記区切られた文字情報を、前記発話者により発話されるタイミングであることを示す形態で前記表示装置へ提示する、ことを特徴とする文字情報提示制御装置。
  2. 請求項に記載の文字情報提示制御装置において、
    前記タイミング設定部は、
    前記音声信号と予め記憶された音声周波数パターンとの間で周波数マッチングを行い、予め記憶された単語の辞書を用いて、単語単位の発話開始時刻及び発話時間長を認識結果として生成する音声認識手段と、
    単語の形態素解析により、前記テキスト情報を単語及び文節に分割し、前記分割した複数の単語からなる単語情報及び複数の文節からなる文節情報を生成する分割手段と、
    前記音声認識手段により生成された認識結果に含まれる単語と、前記分割手段により生成された単語情報に含まれる単語とを比較し、一致しないと判定した場合、前記認識結果に含まれる一致しない単語の代わりに前記単語情報に含まれる単語を用いて、単語単位の発話開始時刻及び発話時間長をマッチング結果として生成するマッチング手段と、
    前記マッチング手段により生成された単語単位の発話開始時刻及び発話時間長のマッチング結果を、前記分割手段により生成された文節情報を用いて、文節単位の発話開始時刻及び発話時間長に変換し、前記文節単位の発話開始時刻及び発話時間長をタイミング情報として生成するタイミング情報生成手段と、を備え、
    前記文字情報提示部は、
    前記タイミング情報生成手段により生成されたタイミング情報に含まれる発話開始時刻になると、前記発話開始時刻に対応する文節の文字情報を、前記発話開始時刻に対応する発話時間長の間、前記原稿における他の文字情報とは異なる形態で前記表示装置へ提示する、ことを特徴とする文字情報提示制御装置。
  3. コンピュータを、請求項1または2に記載の文字情報提示制御装置として機能させるための文字情報提示制御プログラム。
JP2009158780A 2009-07-03 2009-07-03 文字情報提示制御装置及びプログラム Expired - Fee Related JP5334716B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009158780A JP5334716B2 (ja) 2009-07-03 2009-07-03 文字情報提示制御装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009158780A JP5334716B2 (ja) 2009-07-03 2009-07-03 文字情報提示制御装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2011014021A JP2011014021A (ja) 2011-01-20
JP5334716B2 true JP5334716B2 (ja) 2013-11-06

Family

ID=43592818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009158780A Expired - Fee Related JP5334716B2 (ja) 2009-07-03 2009-07-03 文字情報提示制御装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5334716B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102237088B (zh) * 2011-06-17 2013-10-23 盛乐信息技术(上海)有限公司 语音识别多信息文本获取装置及方法
JP2015219735A (ja) * 2014-05-19 2015-12-07 日本電信電話株式会社 文書表示装置、文書表示方法及びプログラム
JP6459818B2 (ja) * 2015-07-22 2019-01-30 ブラザー工業株式会社 テキスト対応付け装置、テキスト対応付け方法、及びプログラム
CN113781988A (zh) * 2021-07-30 2021-12-10 北京达佳互联信息技术有限公司 字幕显示方法、装置、电子设备及计算机可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3298254B2 (ja) * 1993-08-24 2002-07-02 ソニー株式会社 アナウンサー用原稿表示システム
GB9716690D0 (en) * 1997-08-06 1997-10-15 British Broadcasting Corp Spoken text display method and apparatus for use in generating television signals
JP4210723B2 (ja) * 1999-03-17 2009-01-21 独立行政法人情報通信研究機構 自動字幕番組制作システム
JP2001282779A (ja) * 2000-03-30 2001-10-12 Telecommunication Advancement Organization Of Japan 電子化テキスト作成システム
JP2003186491A (ja) * 2001-12-13 2003-07-04 Telecommunication Advancement Organization Of Japan 電子化テキスト作成支援システム
JP2003216200A (ja) * 2002-01-28 2003-07-30 Telecommunication Advancement Organization Of Japan 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム
JP3945778B2 (ja) * 2004-03-12 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 設定装置、プログラム、記録媒体、及び設定方法
JP4459077B2 (ja) * 2005-02-08 2010-04-28 株式会社東芝 ナレーション支援装置、その原稿編集方法およびプログラム
GB2437782B (en) * 2006-04-12 2010-06-23 Sysmedia Ltd Speech driven prompt system

Also Published As

Publication number Publication date
JP2011014021A (ja) 2011-01-20

Similar Documents

Publication Publication Date Title
US7974844B2 (en) Apparatus, method and computer program product for recognizing speech
JP4481035B2 (ja) 単語間音素情報を利用した連続音声認識方法および装置
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
Kasuriya et al. Thai speech corpus for Thai speech recognition
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP2001296880A (ja) 固有名の複数のもっともらしい発音を生成する方法および装置
US8626510B2 (en) Speech synthesizing device, computer program product, and method
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
JPH0922297A (ja) 音声‐テキスト変換のための方法および装置
Mache et al. Review on text-to-speech synthesizer
Ekpenyong et al. Statistical parametric speech synthesis for Ibibio
JPWO2011064829A1 (ja) 情報処理装置
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP4811557B2 (ja) 音声再生装置及び発話支援装置
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
JP2006243673A (ja) データ検索装置および方法
JP5451982B2 (ja) 支援装置、プログラムおよび支援方法
JP2000029492A (ja) 音声翻訳装置、音声翻訳方法、音声認識装置
JP5819147B2 (ja) 音声合成装置、音声合成方法およびプログラム
Aida–Zade et al. The main principles of text-to-speech synthesis system
JP2010169973A (ja) 外国語学習支援システム、及びプログラム
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
JP2021009253A (ja) プログラム、情報処理装置、及び情報処理方法
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
JP2000172289A (ja) 自然言語処理方法,自然言語処理用記録媒体および音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130730

R150 Certificate of patent or registration of utility model

Ref document number: 5334716

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees