JP5751627B2

JP5751627B2 - 音声データ書き起こし用ｗｅｂサイトシステム

Info

Publication number: JP5751627B2
Application number: JP2011165921A
Authority: JP
Inventors: 淳緒方; 後藤　真孝; 真孝後藤
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2011-07-28
Filing date: 2011-07-28
Publication date: 2015-07-22
Anticipated expiration: 2031-07-28
Also published as: JP2013029684A

Description

本発明は、インターネット上の動画コンテンツ中の音声データを複数のユーザが協調してテキストデータに書き起こすために利用される音声データ書き起こし用ＷＥＢサイトシステムに関するものである。

近年、動画コンテンツを多人数へリアルタイムに中継・配信できるライブストリーミングが普及した。しかしその利活用技術はまだ不十分である。ustream（http://www.ustream.tv/）やニコニコ生放送（http://live.nicovideo.jp/）等のＷｅｂサービスによって誰もが手軽に番組を中継・配信可能となり、人気のある番組は数百〜数万人に視聴されている。また、視聴しながら、その内容に関連したテキストをタイプする活動も活発である。ustreamの場合には、twitter（http://twitter.com/）等のマイクロブログと呼ばれる短いテキスト共有によるコミュニケーション用Ｗｅｂサービスが併用されることが多い。またニコニコ生放送の場合には、入力したテキストが動画コンテンツの上を重なり合って流れることでコミュニケーション可能な機能が提供されている。しかし、これらの動画コンテンツは見逃すと後からの迅速な内容把握が難しい。そこで、そのコンテンツ中の音声に時刻同期した書き起こしテキストが作成できれば、見逃した人々にとって読むだけで内容把握ができて役に立つ。その上、視聴した人々にとっても構造化や検索が可能になり、内容を振り返り要約しやすくなって、さらなる利活用が促せる。

このように書き起こしテキストは有用なため、従来、関心の高い動画コンテンツの一部は、ボランティアによって後から人手で書き起こされて公開されていた。しかしながら人で書き起こすと、多大な労力を要する。自動的に書き起こしを生成するために音声認識を用いる試みもある（非特許文献１乃至６）。しかし高い音声認識率を得るには環境を整える必要があり、一般的な動画コンテンツへの適用は難しかった。そうした音声認識において、認識率は今後向上しても１００％にはならない。このような問題の解決策として、不特定多数のユーザに音声認識誤りを訂正してもらうＷｅｂサービスPodCastle（商標）［非特許文献７乃至９：特許文献１］を発明者は提案した。ＷｅｂサービスPodCastleは、２００６年から一般公開している。当初は音声コンテンツのみに対応していたが、２００９年からは動画コンテンツにも対応した［非特許文献１０］。

特開２００８−１５８５１１号公報

Chen, S.S., Eide, E.M., Gales, M.J., Gopinath, R.A., Kanevsky, D. and Olsen,P.A.: Recent Improvements to IBM's Speech Recognition System for Automatic Transcription of Broadcast News, Proc. ICASSP'99, Vol.1, pp.37-40 (1999). Woodland, P.C., Gales, M.J., Pye, D. and Young, S.J.: Broadcast News Transcrip-tion Using HTK, Proc. ICASSP'97, Vol.2, pp.719-722 (1997). Glass, J., Hazen, T.J., Cyphers, S., Malioutov, I., Huynh, D. and Barzilay, R.: Re-cent Progress in the MIT Spoken Lecture Processing Project, Proc. of Interspeech 2007, pp.2553-2556 (2007). Janin, A., Baron, D., Edwards, J., Ellis, D., Gelbart, D., Morgan, N., Peskin, B.,Pfau, T., Shriberg, E., Stolcke, A. and Wooters, C.: The ICSI Meeting Corpus,Proc. ICASSP 2003, Vol.1, pp.364-367 (2003). Metze, F., Waibel, A., Bett, M., Ries, K., Schaaf, T., Schultz, T., Soltau, H., Yu,H. and Zechner, K.: Advances in Automatic Meeting Record Creation and Access,Proc. ICASSP 2001, Vol.1, pp.601-604 (2001). Yu, H., Clark, C., Malkin, R. and Waibel, A.: Experiments in Automatic Meeting Transcription Using JRTk, Proc. ICASSP'98, Vol.2, pp.921-924 (1998). 後藤真孝，緒方淳，江渡浩一郎：PodCastle: ユーザ貢献により性能が向上する音声情報検索システム，人工知能学会論文誌，Vol.25, No.1, pp.104-113 (2010). Goto, M., Ogata, J. and Eto, K.: PodCastle: A Web 2.0 Approach to Speech Recognition Research, Proc. of Interspeech 2007, pp.2397-2400 (2007). Ogata, J. and Goto, M.: PodCastle: Collaborative Training of Acoustic Models on the Basis of Wisdom of Crowds for Podcast Transcription, Proc. of Interspeech 2009, pp.1491-1494 (2009). Goto, M. and Ogata, J.: PodCastle: A Spoken Document Retrieval Service Im-proved by Anonymous User Contributions, Proc. of PACLIC 24, pp.3-11 (2010).

しかし、ＷｅｂサービスPodCastleは、過去の録音・録画のみに対応し、ライブストリーミングのように一時停止をできない動画コンテンツの書き起こしには対応していなかった。仮にPodCastleを高速化してライブストリーミングに対応させようとしても、ユーザが訂正をしている間にコンテンツの内容が先に進み、コンテンツ自体をリアルタイムに楽しめなくなる問題が生じる。

本発明の目的は、ライブストリーミングのように一時停止ができない動画コンテンツまたは音声コンテンツ中の音声を、不特定多数のユーザが協調してリアルタイムに書き起こすことが可能な音声データ書き起こし用ＷＥＢサイトシステムを提供することにある。

本発明は、インターネット上の動画コンテンツまたは音声コンテンツ中の音声データを複数のユーザが協調してテキストデータに書き起こすために利用される音声データ書き起こし用ＷＥＢサイトシステムを対象とする。本発明の音声データ書き起こし用ＷＥＢサイトシステムは、アクセス情報登録部と、音声認識部と、音声データ記憶部と、テキストデータ記憶部と、音声認識結果送信部と、断片テキストデータ記憶部と、判定部と、データ置換部とを備えている。アクセス情報登録部は、動画コンテンツまたは音声コンテンツの少なくともＵＲＬを含むアクセス情報を登録する。音声認識部は、アクセス情報登録部に登録された動画コンテンツまたは音声コンテンツのアクセス情報中で、ユーザ端末装置によりインターネットを介して選択されたアクセス情報に基づいてアクセスした動画コンテンツまたは音声コンテンツ中の音声データを音声認識技術によりテキストデータに変換する。音声データ記憶部は、音声データを、動画コンテンツまたは音声コンテンツの配信時刻と一緒に記憶する。ここで配信時刻とは、動画コンテンツまたは音声コンテンツの配信が開始されてから配信が終了されるまでの連続した時刻である。したがって音声データ中のある音声データ部分の開始時刻と終了時刻については、この記憶されている配信時刻に基づいて決定することができる。音声認識結果記憶部は、音声認識部による音声認識結果をテキストデータとして、動画コンテンツまたは音声コンテンツの配信時刻と一緒に記憶する。したがって音声認識結果中の単語列や各単語の開始時刻及び終了時刻は、音声認識処理で算出される時間情報と配信時刻に基づいて決定することができる。音声認識結果送信部は、音声認識結果記憶部に記憶されているテキストデータをユーザ端末装置に送信する。断片テキストデータ記憶部は、ユーザがユーザ端末装置を用いて、動画コンテンツを見ながらまたは音声コンテンツを聞きながら音声データの一部を断片テキストデータにしたものを、入力時刻と一緒にインターネットを介して送信してきたときに、断片テキストデータを入力時刻と一緒に記憶する。データ変換部は、断片テキストデータ記憶部に記憶された断片テキストデータを断片音声パターンに変換する。ここで「断片音声パターン」とは、断片テキストデータを音声データと部分的に対比可能な音声的なパターンである音響モデルに変換したものである。判定部は、入力時刻から所定の時間間隔遡った所定の時間期間内に配信された期間音声データを音声データ記憶部から取得して、期間音声データ中に断片音声パターンと音響的に適合する音声データ部分があるか否かを判定する。なお判定部が、キーワードスポッティング法により期間音声データ中に断片音声パターンと音響的に適合する音声データ部分があるか否かを判定すると、より高い精度で判定を行うことができる。そしてデータ置換部は、判定部が音響的に適合すると判定した音声パターンとなる音声データ部分に対応する音声認識結果記憶部に記憶されているテキストデータの該当テキストデータ部分を断片テキストデータで置き換える。なお「音響的に適合する」とは、確率モデルで表された典型的な音声パターンと該当する音声データが類似する場合を言う。

本発明は、前提として、ユーザがコンテンツを視聴しながら、同時にtwitter（商標）等でテキストをタイプしてコミュニケーションしていることに注目した。そして本発明では、システムへの参加の敷居を低くするために、各ユーザはユーザ端末装置上で、コンテンツの配信を視聴しながら、自分が聞き取った音声の断片をテキスト入力するだけで、音声データのテキストデータ化に貢献できるようにした。ユーザの一人一人がコンテンツ自体を楽しみながら書き込める量には限界があるが、ユーザからの小さな貢献を、多くのユーザから集めてまとめ上げることで、書き起こしの質を上げることができる。なお、ユーザによる断片的な断片テキストデータの入力は、常に本来の音声の時刻よりも遅れるが、音声認識結果と統合することで、各単語が音声の時刻と同期した状態の書き起こしテキストを生成する点も本発明の特長である。本発明によれば、動画コンテンツまたは音声コンテンツが配信されている過程で、ユーザが断片的に聞き取った音声をユーザ端末装置から断片テキストデータとして音声データ書き起こし用ＷＥＢサイトシステムに入力時刻と一緒に逐次送信する。受信した断片テキストデータは、データ変換部で断片音声パターンに変換される。判定部は、その断片テキストデータの入力時刻から所定の時間間隔遡った所定の時間期間内に配信された期間音声データ中に断片音声パターンと音響的に適合する音声データ部分があるか否かを判定する。そしてデータ置換部は、判定部が音響的に適合すると判定した音声データ部分に対応するテキストデータの該当テキストデータ部分を断片テキストデータで置き換える。したがって本発明によれば複数のユーザが、動画コンテンツを見ながらまたは音声コンテンツを聞きながらコメントを送信することと同様にして聞き取った音声を断片テキストデータとして送信するだけで、音声認識結果が自動的に訂正される。また訂正作業を意識することなく、動画コンテンツまたは音声コンテンツの閲覧を楽しむことができる。

判定部で遡る前述の所定の時間間隔は、ユーザの入力速度に依存して定められることになるが、ユーザの平均的な入力速度を考慮すると、８秒〜１５秒の期間とするのが好ましい。この期間であれば、ユーザから提供された断片コンテンツデータを有効に活用できる。

動画コンテンツまたは音声コンテンツは、ライブストリーミングにより配信されるものであってもよいが、一時停止することができないコンテンツを多くのユーザで視聴する際に、本発明を適用することができるのは勿論である。なおアクセス情報登録部に登録されるアクセス情報は、ライブストリーミングコンテンツのクロールにより集められて登録されたものでも、またはユーザによって登録されたものでもよい。

本発明は、ユーザが利用するインターフェースを提供するために、当然にしてインターフェース表示部を備えている。インターフェース表示部は、アクセス情報登録部に登録されたアクセス情報を選択可能にする選択画面と、テキストデータ記憶部に記憶されているテキストデータに基づくテキストを逐次表示するテキスト画面と、動画コンテンツを逐次表示するコンテンツ表示画面と、テキスト画面に表示されているテキストと時刻同期して、断片テキストデータ記憶部に記憶された複数の断片テキストデータに基づく断片テキストを逐次表示する断片テキスト画面を表示するためのインターフェースをユーザ端末装置の表示画面で見ることができるようにする。音声コンテンツを聞く場合は、音声コンテンツの画面をコンテンツ表示画面に表示する。各画面は、１つの画面中に表示されてもよいし、別々の画面として表示されてもよい。１つの画面で表示される画面の種類が多くなるほど、ユーザの興味を高めることができる。

インターフェース表示部は、ユーザ端末装置の表示画面に、自分が入力した断片テキストと他人が入力した断片テキストとを区別できる表示態様で断片テキスト画面に複数のユーザが入力した複数の断片テキストを表示する機能を備えているのが好ましい。このような機能を設けると、ユーザは自分が入力した断片テキストデータを認識できるので、ユーザに対して断片テキストデータの入力意欲を増進させることができる。

またインターフェース表示部は、テキスト画面に表示されるテキストのためのテキストデータが断片テキストデータにより置き換えられたものであるか否かが区別できる表示態様でテキストをテキスト画面に表示するのが好ましい。このようにすると修正効果を視覚により確認することができるので、多くのユーザに興味を与えることができる。

データ変換部は、断片テキストデータ記憶部に記憶されている断片テキストデータから断片音声パターンに変換するように構成するのが好ましい。このようにすると後の判定部により判定精度を高めることができる。

またデータ変換部は、所定の時間期間内に断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で最も数が多い断片テキストデータを代表として断片音声パターンに変換するようにしてもよい。またデータ変換部は、所定の時間期間内に断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で所定数以上の送信があった断片テキストデータを代表として断片音声パターンに変換するようにしてもよい。このようにすると判定部による判定精度を高めることができ、かつ判定時の処理量を削減することができる。その他判定精度を高めるための任意の工夫をしてもよいのは勿論である。

本発明のシステムを使用したネット構造を模式的に示した図である。本実施の形態の音声データ書き起こし用ＷＥＢサイトシステムの構成を概念的に示すブロック図である。図２のシステムをコンピュータ・サーバを用いて実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。ユーザ端末装置の選択画面の一例を示す図である。ユーザ端末装置の表示画面の一例を示す図である。（Ａ）は音声信号の一例、（Ｂ）は音声の内容の例、（Ｃ）は音声認識結果の例、（Ｄ）は断片テキストデータに基づく断片テキストの例、（Ｅ）は置き換え結果の例を示す図である。断片テキストデータを断片音声パターンに変換する過程を説明するために用いる図である。（Ａ）は時刻を伴った音声信号の一例、（Ｂ）は時刻を伴った音声の内容の例、（Ｃ）はキーワードスポッティング法を利用したアラインメント処理を説明するために用いる図である。断片テキストデータのアラインメント結果と音声認識結果の統合処理を説明するために用いる図である。

以下図面を参照して本発明の音声データ書き起こし用ＷＥＢサイトシステムの実施の形態の一例を詳細に説明する。図１は、本発明のシステムを使用したネット構造を模式的に示した図である。本実施の形態の音声データ書き起こし用ＷＥＢサイトシステム１は、ストリーミング配信サーバ２にインターネット３を介して接続される。また音声データ書き起こし用ＷＥＢサイトシステム１には、インターネット３を介してＰＣや携帯通信端末等の複数のユーザ端末装置と接続される。ユーザは、ユーザ端末装置４から音声データ書き起こし用ＷＥＢサイトシステム１にアクセスして登録されている動画コンテンツまたは音声コンテンツにリンク接続する。

図２は、本実施の形態の音声データ書き起こし用ＷＥＢサイトシステム１の構成を概念的に示すブロック図である。図３は、図２のシステム１をコンピュータ・サーバを用いて実現する場合に用いるプログラムのアルゴリズムの一例を示している。本実施の形態のシステム１は、入出力部１１と、制御部１２と、アクセス情報登録部１３、音声データ記憶部１４、音声認識結果記憶部１５、断片テキストデータ記憶部１６を有するデータ記憶装置１７と、インターフェース表示部１８、音声認識部１９、音声認識結果送信部２０、データ変換部２１、判定部２２及びデータ置換部２３を有する機能実現部２４とから構成される。各構成要素は、ネットワーク２５により接続される。制御部１２及び機能実現部２４は、サーバの中央演算装置により実現され、データ記憶装置はサーバのメモリ装置によって実現される。制御部１２は、機能実現部２４が実行しない他の制御機能を実行する。

アクセス情報登録部１３は、動画コンテンツまたは音声コンテンツの少なくともＵＲＬを含むアクセス情報を登録する。アクセス情報登録部１３に登録されるアクセス情報は、ライブストリーミングコンテンツのクロールにより集められて登録されたものでも、またはユーザによって登録されたものでもよい。図４は、ユーザ端末装置４の表示画面に表示されるアクセス情報の選択画面Ｄ１の一例を示している。図４に示す選択画面Ｄ１には図示していないが、アクセス情報にはコンテンツのＵＲＬ、タイトル、開始時間が含まれている。選択画面Ｄ１の選択ボタンＢ１をクリックすることにより、ユーザ端末装置４は該当コンテンツにリンク接続される。その結果、図５に示すユーザ端末装置４の表示画面Ｄ２のコンテンツ画面ｄ１に例えば選択した動画コンテンツが表示される。

図２のインターフェース表示部１８は、アクセス情報登録部１３に登録されたアクセス情報を選択可能にする選択画面Ｄ１と、動画コンテンツを逐次表示するコンテンツ画面ｄ１と、テキストデータ記憶部に記憶されているテキストデータに基づくテキストを逐次表示するテキスト画面ｄ２と、テキスト画面ｄ２に表示されているテキストと時刻同期して、後述する断片テキストデータ記憶部１６に記憶された複数の断片テキストデータに基づく断片テキストを逐次表示する断片テキスト画面ｄ３を表示するためのインターフェース（図４のＤ１，図５のＤ２）をユーザ端末装置４の表示画面で見ることができるようにする機能を有している。インターフェース表示部１８のその他の機能については、後に説明する。

音声データ記憶部１４は、ユーザが選択したコンテンツの音声データ［例えば図６（Ａ）参照］を、動画コンテンツまたは音声コンテンツの配信時刻と一緒に記憶する。

音声認識部１９は、アクセス情報登録部１３に登録された動画コンテンツまたは音声コンテンツのアクセス情報中で、ユーザ端末装置４によりインターネット３を介して選択されたアクセス情報に基づいてアクセスした動画コンテンツまたは音声コンテンツ中の音声データを音声認識技術によりテキストデータに変換する。なお音声認識技術としては、発明者等が提案したPodCastle音声認識システムを用いることができる。PodCastle音声認識システムについては、例えば、緒方淳及び後藤真孝が発表した「PodCastle: 動的言語モデリングに基づくポッドキャスト音声認識」と題する論文（情処研報音声言語情報処理2010-SLP-84-2 (2010)］に記載されている。なおその他の音声認識システムを用いてもよいのは勿論である。図６（Ｂ）は音声の一例であり、図６（Ｃ）は音声認識結果の一例を示している。現在の技術でも、音声認識の認識率の向上には限界があるため、必ず修正の必要性がある。

音声認識結果記憶部１５は、音声認識部１９による音声認識結果をテキストデータとして、動画コンテンツまたは音声コンテンツの配信時刻と一緒に記憶する。そして音声認識結果送信部２０は、音声認識結果記憶部１５に記憶されているテキストデータをアクセスしているユーザ端末装置４に逐次送信する。送信されたテキストデータに基づいて、図５に示すユーザ端末装置４の表示画面Ｄ２のテキスト画面ｄ２に音声認識により得られたテキストが表示される。音声認識結果送信部２０は、予め定めた時間間隔でテキストデータをユーザ端末装置４に送信する。ユーザ端末装置４では、新たなテキストが追加されるとスクロール表示され、過去のテキストはスクロールバーで遡って閲覧できる。

断片テキストデータ記憶部１６は、ユーザがユーザ端末装置４を用いて、動画コンテンツを見ながらまたは音声コンテンツを聞きながら音声データの一部を断片テキストデータにしたものを、入力時刻と一緒にインターネット３を介して送信してきたときに、断片テキストデータを入力時刻と一緒に記憶する。図６（Ｄ）には、３台のユーザ端末装置４から送信されてきた断片テキストデータをテキスト表示（文字表示）した例を示している。なお図６（Ｄ）には、理解を容易にするために、テキスト表示に入力時刻を並記してある。入力時刻は、ユーザが断片テキストデータを作成してユーザ端末装置４からデータが送信された時刻でも、またユーザ端末装置４から断片テキストデータを受信した時刻のいずれでもよい。各ユーザ端末装置４から送信された断片テキストデータは、所定の規則に従ってインターフェース表示部１８を経由してユーザ端末装置４に送信される。ユーザ端末装置４の表示画面では、図５に示す表示画面Ｄ２の断片テキスト画面ｄ３に表示される。

データ変換部２１は、断片テキストデータ記憶部１６に記憶された断片テキストデータに対して形態素解析を行って、単語に分割しつつ読みを確定し、その読みをもとに断片音声パターンに変換する。ここでは単語分割の際に、不特定多数のユーザによって日々整備され、更新されている「Ｗｅｂキーワード辞書」を活用した形態素解析を行う。これにより、新出語の分割誤りを低減することができ、さらに今回のアラインメントで特に重要な、読み（発音）の情報も獲得することができる。「Ｗｅｂキーワード辞書」を活用した形態素解析については、緒方淳，松原勇介及び後藤真孝が「PodCastle: 集合知に基づくWeb キーワードを考慮した言語モデリング」と題する論文［日本音響学会講演論文集，pp.97-100 (2008)］に詳しく説明されている。概念的に説明すると、図７に示すように「虫の画像」と意味する断片テキストデータを、形態素解析によって「虫」「の」「画像」の3単語に分割し、かつ「ムシノガゾウ」の読み（かな表記）を得る。そしてこの読み（かな表記）を元に、（「ｍ」「ｕ」「ｓｈ」等の全４１種類のＨＭＭからなる音素単位の音響モデルから、該当する音素単位の音響モデルを連結して断片音声パターンを得る。この動作がデータ変換部２１での変換動作である。このように断片テキストデータを音声パターンに変換したものが、断片音声パターンＰＡＰである。

上述のように各断片テキストデータの時刻は不正確なため、最終的な書き起こしを生成するための基本的な方針としては、音声認識結果のテキストデータに対して、ユーザから入力された個々の断片テキストデータを、本来発声された区間に適切に対応付けする（アラインメントする）必要がある。ここで、断片テキストデータが入力されたときに記録される、コンテンツ（音声データ）上での時刻をteとする。その元となる発声の先頭から、断片テキストの入力が完了する時刻tfまでの遅延の上限をTdelayとすると、断片テキストは、teから一定の時間幅（時間間隔）Tdelayだけ遡った音声データ中に含まれるはずである。そこで、その区間内の音声データ中から、断片テキストに該当する区間を探索して見つけ、その区間の書き起こしとして時間的に対応づけていく（割り当てていく）。

この作業は、判定部２２により実行される。判定部２２は、図８（Ａ）に示すように、断片テキストデータの入力時刻（１：１４）から所定の時間間隔Ｔ（１０秒）遡った所定の時間期間Ｔ内に配信された期間音声データＰＡＤを音声データ記憶部１４から取得する。期間音声データＰＡＤの中に断片音声パターンＰＡＰと音響的に適合する音声パターンとなる音声データ部分があるか否かを判定する。本実施の形態では、判定部２２で、音声認識結果のテキストデータに対して断片テキストデータを直接アラインメントするのではなく、元の音声の音声信号である期間音声データＰＡＤに対して図８（Ｃ）に示す断片音声パターンＰＡＰを利用して得た期間音声データの音パターンＡＰを用いて、Viterbiデコーディングを行うことで、断片音声パターンの存在区間（開始時刻、終了時刻）とその音響的スコアを求める。存在区間が該当しない場合や、音響的スコアが予め定めたスコアよりも低い場合には、その断片音声パターンは後述する置き換えには採用しない。このアラインメントでは、前述のように音響モデル（ＨＭＭ：隠れマルコフモデル）を利用して、断片音声パターンＰＡＰが期間音声データＰＡＤ中のどこに含まれるかを見つけ出すために、図８（Ｃ）の音声パターンＡＰを用いる。具体的には、断片テキストデータという認識対象が一つに絞られている状況で、音響モデル（ＨＭＭ）を用いたアラインメントをする。これは、音声データ中からある特定のキーワードが発話された区間（音声パターンとなる部分）を特定するためにキーワードスポッティング法を利用する。具体的には、図８（Ｃ）に示すように、入力された断片テキストデータの音素列に沿って音素ＨＭＭを連結することで、断片テキストデータに相当するキーワードＨＭＭ（断片音声パターン）を作成する。そしてキーワードＨＭＭ（断片音声パターン）の前後に、キーワード以外の音声区間を割り当てるためのガベージモデルをそれぞれ付与することで、上記の音声区間に対する認識ネットワークを前述の期間音声データの音声パターンＡＰとして構成する。ここでガベージモデルとしては、任意の音素のループを用いる。この期間音声データの音声パターンＡＰを用いて期間音声データの音声信号に対してViterbiデコーディングを行うことで、期間音声データ中の断片テキスト（キーワード）の存在区間（開始時刻と終了時刻）を推定する。Viterbiデコーディングでは、キーワードＨＭＭ（断片音声パターン）の前後に、確率モデルであるＨＭＭを連結して表されている音声パターンＡＰと期間音声データとの間で音響的な確率計算を行うことで、音声パターンＡＰ中の断片音声パターンに該当する区間（開始時刻、終了時刻）とその音響的スコアを割り出す。本実施の形態では、このようにキーワードスポッティング法を用いてアラインメントを実行する。

データ置換部２３は、判定部２２が一致または近似すると判定した音声パターン部分に対応する音声認識結果記憶部１５に記憶されているテキストデータの該当テキストデータ部分を断片テキストデータで置き換える。具体的には、上記のＨＭＭに基づくアラインメントによって、各断片テキストデータがコンテンツのテキストデータのどの区間に存在しているかが求まる。逐次入力される断片テキストデータを用いて、図９に例示するように、コンテンツに対する音声認識結果（単語列：テキストデータ）と複数の断片テキストデータとの間で時間的照合を行う。ここで時間的照合とは、音声認識結果のテキストデータ中の該当テキストデータ部分の開始時刻から終了時刻までの時間間隔内に、照合された断片テキストデータが時間的に入り得るかの照合を行うことである。この時間的照合を経て、データの置換を行って単語列を得る。図６（Ｅ）にも、置き換え結果の一例が示されている。なお時間的照合の際、音声認識結果のテキストデータと断片テキストデータのアラインメント結果で、単語境界が異なる場合には、両区間のオーバーラップ率で閾値処理を行えばよい。

ユーザ端末装置４における断片テキストデータの入力とその利用について以下に説明する。ユーザが、ユーザ端末装置において聴き取った音声の断片テキストデータをタイプ入力すると、それが入力された際に記録するコンテンツ上の時刻を伴って、システム１側にネットワークを通じて集められる。視聴を楽しみながら気軽に入力するテキストであるため、入力しやすい名詞、特に固有名詞の１単語か、数単語からなる複合名詞が主な入力対象となり、それらを含むフレーズが中心になると考えられる。コンテンツの書き起こしに高い意欲を持つ一部のユーザは、より多様で長い語句を入力する可能性もある。しかし、入力された断片テキストデータ群は、コンテンツ中の全ての音声区間をカバーするものだとは期待できない。例えば、コンテンツ中に「小笠原っていうのは東京都でありながらですね沖縄以上に南国みたいなところあるわけで」のような発声があった場合、それを不特定多数のユーザが「小笠原」、「東京都でありながら」、「沖縄以上に」、「南国みたいなところ」等のような断片テキストとして入力すると考える。ユーザ間で入力内容に重複も起き、例えば上記の例で、「東京都でありながら」と入力するユーザが数十人いる一方で、「東京都」と入力するユーザも数十人いる可能性がある。ただし、各ユーザは聴き取った後の好きなタイミングで断片テキストデータを入力して送信してくるので、本来の発声のコンテンツ上の時刻（該当する音声区間）には時間的に対応付いていない。つまり、断片テキストデータ入力の際に記録される時刻は、該当する音声区間の時刻から常に遅延（タイムラグ）が生じた状態となる。このような「不完全な」テキストを利用して、本実施の形態では、前述のようにデータ変換部２１によるデータ変換と判定部２２による判定により、最終的にコンテンツ中の全音声区間に対する書き起こしを生成する。

以下図３のアルゴリズムの一例に従って本実施の形態のシステムの動作を説明する。まずステップＳＴ１では、制御部１２がユーザ端末装置４からアクセス情報登録部１３にアクセス情報の登録要求があるか否かを判定する。登録要求があれば、制御部１２はアクセス情報のアクセス情報登録部１３の登録を実行する。アクセス情報登録要求がなければ、ステップＳＴ３へと進む。ステップＳＴ３では、ユーザ端末装置４からアクセス情報の選択要求があるか否かを判定する。選択要求があれば、ステップＳＴ４へと進んで、制御部１２は選択要求に従ってユーザ端末装置４からの選択要求に従ってユーザ端末装置４を選択したストリーミング配信サーバ２にアクセスさせる。ユーザ端末装置４からシステム１にアクセスがあると、制御部１２はインターフェース表示部１８からユーザ端末装置４にインターフェースを送信している。ユーザ端末装置４のストリーミング配信サーバ２へのアクセスが完了すると、ユーザ端末装置４ではコンテンツ（動画、音声）のストリーミングが開始される（ステップＳＴ５）。同時に、システム１では、制御部１２がストリーミングされているコンテンツの配信時刻と一緒に音声データを音声データ記憶部１４に保存する動作を開始する（ステップＳＴ６）。この保存動作は、ストリーミングが実行されている間継続される。

次にステップＳＴ７へと進んで音声認識部１９が音声認識動作を実行する。音声認識は、予め定めた量の音声データが音声データ記憶部１４に保存されると逐次実行される。音声認識結果はステップＳＴ８で、音声認識結果記憶部１５に記憶される。次にステップＳＴ９で音声認識結果送信部２０が、音声認識結果をユーザ端末装置４へと送信する。その結果ユーザ端末装置４ではその表示画面Ｄ２のテキスト画面ｄ２に音声認識結果のテキストデータに基づくテキストが表示される。

次にステップＳＴ１０でユーザ端末装置４からの入力時刻と一緒になった断片テキストデータの入力を確認する。断片テキストデータが入力されると、ステップＳＴ１１で、断片テキストデータが入力時刻と一緒に断片テキストデータ記憶部１６に保存される。なお図３には示していないが、断片テキストデータ記憶部１６に断片テキストデータを保存する際に、断片テキストデータは所定の規則に従ってインターフェース表示部１８を経由してユーザ端末装置４にも送信される。したがってユーザ端末装置４では、表示画面の断片テキスト画面ｄ３に断片テキストデータ記憶部１６に記憶された複数の断片テキストデータに基づく断片テキストを逐次表示する。

次にステップＳＴ１２へと進んで、データ変換部２１が断片テキストデータを断片音声パターンに変換する。その後ステップＳＴ１３へと進んで、判定部２２が断片テキストデータの入力時刻から所定の時間間隔Ｔ遡った所定の時間期間Ｔ内に配信された期間音声データＰＡＤを音声データ記憶部１４から取得して、期間音声データＰＡＤの中に断片音声パターンＰＡＰと音響的に適合する音声パターンとなる音声データ部分があるか否かを判定する。

ステップＳＴ１３で該当する音声パターンとなるデータ部分の存在が判定された場合には、ステップＳＴ１４へと進み、該当する音声データ部分が存在しないことが判定された場合にはステップＳＴ７へと戻る。ステップＳＴ１４では、判定部２２が音響的に適合すると判定した音声データ部分に対応する音声認識結果記憶部１５に記憶されているテキストデータの該当テキストデータ部分を断片テキストデータで置き換える。そしてステップＳＴ１５で、書き起こしの中止の有無を判定し、書き起こしが継続される場合には、ステップＳＴ７へ戻り、書き起こしが中止される場合には、図３のフローチャートのアルゴリズムの動作が中止される。図５に示すように、ユーザ端末装置４の表示画面Ｄ２には、コンテンツ選択ボタンＢ２と、書き起こし開始ボタンＢ３と、書き起こし中止ボタンＢ４とが少なくとも設けられている。コンテンツ選択ボタンＢ２をクリックすると図４の画面Ｄ１が表示される。画面Ｄ１でコンテンツの選択が終了すると、画面Ｄ１は画面Ｄ２へと切り替わる。そして書き起こし開始ボタンＢ３をクリックすると図３のフローチャートに従った書き起こし動作が始まる。また書き起こし中止ボタンＢ４がクリックされると、ステップＳＴ１５における判定で書き起こし動作が中止される。なおストリーミング中において、再度書き起こし開始ボタンＢ３がクリックされると、書き起こし動作は再開される。

なお図３のフローチャートは一例であって、本発明はこのフローチャートに限定されるものではない。

本願明細書では、ustreamのようなライブストリーミングの配信動画中の音声を、不特定多数のユーザが協調してリアルタイムに書き起こすことが可能なシステム「Yourscribe」を提案する。従来、人手による書き起こしは労力が大きく、音声認識での書き起こしは精度が不十分であった。また、その精度不足を不特定多数のユーザによる訂正で補うPodCastle は、リアルタイムでの書き起こしには適していなかった。Yourscribeでは、各ユーザは動画視聴を中断せずに楽しみながら、気が向いたときに聴き取った断片的なテキストを入力するだけでよい。それらを多数のユーザから随時集めた後に、リアルタイムに音声認識した結果と照らし合わせることで、書き起こしテキストに自動的にまとめ上げることができる。これは「音声認識研究２．０」の新たな事例に位置づけられる。

本実施の形態によれば、ライブストリーミングに特化して、動画または音声コンテンツ中の音声を多数のユーザが協調してリアルタイムに書き起こすことが可能になる。ユーザ自身がコンテンツ視聴を楽しみながら貢献できることを重視するため、無理のない範囲で気が向いたときに、聞き取った断片のテキストを書き起こしとして入力できるクライアントインタフェースを提供する。既に普及している視聴中のテキスト入力同様、ユーザは数十秒から数分ごとに好きなタイミングで好きな長さだけ、断片テキストデータを気軽に入力すればよい。本実施の形態のシステム１は、それらを入力時刻情報を伴う形で数百〜数万人分の断片テキストデータを集積することで、一つの書き起こし文章に自動的にまとめ上げる。特に、各断片テキストデータは文の一部で不完全で、入力の時間遅れも不均一であるが、本実施の形態のシステム１では、音声認識をリアルタイムに実行して、その認識結果と断片テキストデータの群を統合していくことで、音声認識結果の修正（音声データの書き起こし）を可能にする。ユーザの一人一人がコンテンツ自体を楽しみながら書き込める量には限界がある。しかし図１のように、複数のユーザ端末装置からの断片テキストデータ集めてまとめ上げることで、修正または書き起こしの質を上げることができる。なお、ユーザによる断片的なテキストの入力は、常に本来の音声の時刻よりも遅れるが、音声認識結果と統合することで、各単語が音声の時刻と同期した状態で音声認識結果を修正して、テキストデータを生成する点も本実施の携帯の特徴である。

なおデータ変換部２１を、所定の時間期間内に断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で最も数が多い断片テキストデータを代表として断片音声パターンに変換するように構成してもよい。またデータ変換部２１を、所定の時間期間内に断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で所定数以上の送信があった断片テキストデータを代表として断片音声パターンに変換するようにしてもよい。このようにすると判定部２２による判定精度を高めることができ、かつ判定時の処理量を削減することができる。その他判定精度を高めるための任意の工夫をしてもよいのは勿論である。

次に、上記実施の形態の基本的な性能及び効果を確認するための簡単な実験を行った結果についして説明する。実験に使用する動画コンテンツとしては、本システムで想定しているライブストリーミングとは異なるが、Ｗｅｂ上でのポピュラーな音声コンテンツであるポッドキャストを利用した。実験で用いた音声データは、Ｗｅｂ上で公開されている３つのポッドキャストＡ，Ｂ，Ｃの各１エピソードである（計４９分３０秒）。これら３つは、音声認識率が大きく異なる音声データとして選んだ。現段階ではまだＷｅｂサービスとして運用できないため、実験用の断片テキストを不特定多数のユーザから集めるのは困難である。そこで本実験では、著者のうちの１人が、コンテンツを視聴しながら多人数によって無理なく入力可能と想定されるような単語やフレーズを、書き起こしの断片テキストとして用意した。用いた断片テキストは、各エピソードともに全体の音声区間の７５％をカバーするデータである（仮名漢字交じりの書き起こしテキストの正解文を人手で用意し、その文字数上での７５％がカバーされる分量に調整した）。これらの断片テキストは、３つのポッドキャスト全体で計１８８６件を用意し、その仮名漢字交じりの書き起こし文字数は、平均７．４１文字、標準偏差３．２６文字であった。

コンテンツ全体に対する音声認識結果のテキスト（単語列）を生成するための音声認識器には、PodCastle音声認識システムを用いた。音響モデルは、ＣＳＪの約６００時間の講演音声データから学習された、状態数３０００，１状態あたり混合ガウス分布数１６のtied-statecross-word triphone モデルである。特徴量には３９次元ＰＬＰ（１２次元ＰＬＰケプストラム係数と正規化パワー、それらのデルタ、デルタデルタ）、そして話者、環境の変動に対処するためにＣＭＬＬＲベースの適応化学習を行っている。適応化学習については、以下の文献に記載されている。

文献：Gales, M. J.F.: Maximal likelihood linear transformations for HMM-Based speech recognition, Computer Speech & Language, Vol.12, pp.75-98 (1998).
言語モデルは、ＷｅｂキーワードベースのＮ−ｇｒａｍであり、Ｗｅｂニューステキスト、ＣＳＪの講演書き起こしを用いて学習したものである。一方、ＨＭＭアラインメント処理には、上記のＣＳＪから学習した混合数３２のmonophoneモデルを用いた。ここでtriphoneではなく、monophoneを利用することで、アラインメント処理における計算コストを大きく削減することができる。

評価尺度としては、最終的に複数の断片テキストデータを統合して生成した修正テキストが、実際の正解文のテキストをどの程度正しく再現できたか、すなわち音声認識性能と同様に単語正解精度を用いた。また、アラインメント処理を行う際の時間幅Tdelayは１０秒とした。

下記の表１に、ベースラインとなる音声認識器による書き起こし生成結果（通常の音声認識結果）と、本実施の形態の断片テキストデータを利用した書き起こし生成結果の、それぞれの単語正解精度を示す。

通常の音声認識結果より、ポッドキャストによって認識性能に大きな違いがあることがわかる。特に、Ｃは芸能人による雑談音声であり、発話速度も比較的速く誤認識が著しい。提案する断片テキストを利用した書き起こし生成手法により、３つ全てのポッドキャストにおいて大きく単語正解精度を改善できていた。認識率５０％以下のような、音声認識が非常に困難なデータに対しての改善率が特に高い結果となった。これによりmonophoneのような簡易な音響モデルであっても、ＨＭＭによるアラインメント処理は有効であり、断片テキストの発声区間をある程度正しく検出できていたことがわかった。

次に、入力される断片テキストのデータ量の違いによる、最終的な書き起こし性能への影響を調べた。ここでは、全体の７５％をカバーする断片テキスト群からランダムに削減することにより、全体の５０％，２５％それぞれをカバーする断片テキスト群を作成した。７５％をカバーするためには、非常に多くのユーザが同時に視聴しながら、ときどき書き起こしている状況が想定されるが、５０％，２５％は、そのユーザ数が減った状況を想定した実験条件である。表２にそれぞれのデータ量の断片テキストを利用したときの単語正解精度を示す。

結果より、比較的少量の断片テキストが入力された場合でも、本手法により、それらを最終的な書き起こしとして有効利用できる可能性があることがわかった。

本発明によれば、複数のユーザが、動画コンテンツを見ながらまたは音声コンテンツを聞きながらコメントを送信することと同様にして聞き取った音声を断片テキストデータとして送信するだけで、音声認識結果が自動的に訂正される。したがって訂正作業を意識することなく、動画コンテンツまたは音声コンテンツの閲覧を楽しみながら、音声データの書き起こしができる利点が得られる。

１音声データ書き起こし用ＷＥＢサイトシステム
２ストリーミング配信サーバ
３インターネット
４ユーザ端末装置
１１入出力部
１２制御部
１３アクセス情報登録部
１４音声データ記憶部
１５音声認識結果記憶部
１６断片テキストデータ記憶部
１７データ記憶装置
１８インターフェース表示部
１９音声認識部
２０音声認識結果送信部
２１データ変換部
２２判定部
２３データ置換部
２４機能実現部
２５ネットワーク
Ｄ１選択画面
Ｄ２表示画面
ｄ１コンテンツ画面
ｄ２テキスト画面
ｄ３断片テキスト画面
ＰＡＰ断片音声パターン
ＰＡＤ期間音声データ
Ｂ１選択ボタン
Ｂ２コンテンツ選択ボタン
Ｂ３書き起こし開始ボタン
Ｂ４書き起こし中止ボタン

Claims

インターネット上の動画コンテンツまたは音声コンテンツ中の音声データを複数のユーザが協調してテキストデータに書き起こすために利用される音声データ書き起こし用ＷＥＢサイトシステムであって、
前記動画コンテンツまたは音声コンテンツの少なくともＵＲＬを含むアクセス情報を登録するアクセス情報登録部と、
前記アクセス情報登録部に登録された前記動画コンテンツまたは音声コンテンツのアクセス情報中で、ユーザ端末装置により前記インターネットを介して選択された前記アクセス情報に基づいてアクセスした前記動画コンテンツまたは音声コンテンツ中の前記音声データを音声認識技術によりテキストデータに変換する音声認識部と、
前記音声データを、前記動画コンテンツまたは音声コンテンツの配信時刻と一緒に記憶する音声データ記憶部と、
前記音声認識部による音声認識結果をテキストデータとして、前記動画または音声コンテンツの前記配信時刻と一緒に記憶する音声認識結果記憶部と、
前記音声認識結果記憶部に記憶されている前記テキストデータを前記ユーザ端末装置に送信する音声認識結果送信部と、
前記ユーザが前記ユーザ端末装置を用いて、前記動画コンテンツを見ながらまたは前記音声コンテンツを聞きながら前記音声データの一部を断片テキストデータにしたものを、入力時刻と一緒に前記インターネットを介して送信してきたときに、前記断片テキストデータを前記入力時刻と一緒に記憶する断片テキストデータ記憶部と、
前記断片テキストデータ記憶部に記憶された前記断片テキストデータを音響モデルとしての断片音声パターンに変換するデータ変換部と、
前記入力時刻から所定の時間間隔遡った所定の時間期間内に配信された期間音声データを前記音声データ記憶部から取得して、前記期間音声データ中に前記断片音声パターンと音響的に適合する音声パターンとなる音声データ部分があるか否かを判定する判定部と、
前記判定部が音響的に適合すると判定した音声パターン部分に対応する前記音声認識結果記憶部に記憶されている前記テキストデータの該当テキストデータ部分を前記断片テキストデータで置き換えるデータ置換部とを備えていることを特徴とする音声データ書き起こし用ＷＥＢサイトシステム。
前記所定の時間間隔が、８秒〜１５秒の期間である請求項１に記載の音声データ書き起こし用ＷＥＢサイトシステム。
前記動画コンテンツまたは音声コンテンツが、ライブストリーミングにより配信されるものであり、
前記アクセス情報登録部に登録されるアクセス情報は、ライブストリーミングコンテンツのクロールにより集められて登録されたものか、またはユーザによって登録されたものである請求項１に記載の音声データ書き起こし用ＷＥＢサイトシステム。
前記アクセス情報登録部に登録された前記アクセス情報を選択可能にする選択画面と、前記音声認識結果記憶部に記憶されている前記テキストデータに基づくテキストを逐次表示するテキスト画面と、前記動画コンテンツを逐次表示するコンテンツ表示画面と、前記テキスト画面に表示されている前記テキストと時刻同期して、前記断片テキストデータ記憶部に記憶された複数の断片テキストデータに基づく断片テキストを逐次表示する断片テキスト画面を表示するためのインターフェースを前記ユーザ端末装置の表示画面で見ることができるようにするインターフェース表示部をさらに備えている請求項１に記載の音声データ書き起こし用ＷＥＢサイトシステム。
前記データ変換部は、前記断片テキストデータ記憶部に記憶されている前記断片テキストデータから単語断片テキストデータのみを分離して、分離した単語断片テキストデータを断片音声パターンに変換する請求項１乃至４のいずれか１項に記載の音声データ書き起こし用ＷＥＢサイトシステム。
前記判定部は、キーワードスポッティング法により前記期間音声データ中に前記断片音声パターンと音響的に適合する音声パターンとなる音声データ部分があるか否かを判定する請求項１または５に記載の音声データ書き起こし用ＷＥＢサイトシステム。
前記インターフェース表示部は、前記ユーザ端末装置の前記表示画面に、自分が入力した断片テキストと他人が入力した断片テキストとを区別できる表示態様で断片テキスト画面に複数のユーザが入力した複数の断片テキストを表示する請求項４に記載の音声データ書き起こし用ＷＥＢサイトシステム。
前記インターフェース表示部は、前記テキスト画面に表示される前記テキストのための前記テキストデータが前記断片テキストデータにより置き換えられたものであるか否かが区別できる表示態様で前記テキストを前記テキスト画面に表示する請求項４に記載の音声データ書き起こし用ＷＥＢサイトシステム。
前記データ変換部は、前記所定の時間期間内に前記断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で最も数が多い断片テキストデータを代表として断片音声パターンに変換する請求項１に記載の音声データ書き起こし用ＷＥＢサイトシステム。
前記データ変換部は、前記所定の時間期間内に前記断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で所定数以上の送信があった断片テキストデータを代表として断片音声パターンに変換する請求項１に記載の音声データ書き起こし用ＷＥＢサイトシステム。