JP5751627B2 - 音声データ書き起こし用webサイトシステム - Google Patents

音声データ書き起こし用webサイトシステム Download PDF

Info

Publication number
JP5751627B2
JP5751627B2 JP2011165921A JP2011165921A JP5751627B2 JP 5751627 B2 JP5751627 B2 JP 5751627B2 JP 2011165921 A JP2011165921 A JP 2011165921A JP 2011165921 A JP2011165921 A JP 2011165921A JP 5751627 B2 JP5751627 B2 JP 5751627B2
Authority
JP
Japan
Prior art keywords
fragment
data
text data
text
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011165921A
Other languages
English (en)
Other versions
JP2013029684A (ja
Inventor
淳 緒方
淳 緒方
後藤 真孝
真孝 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2011165921A priority Critical patent/JP5751627B2/ja
Publication of JP2013029684A publication Critical patent/JP2013029684A/ja
Application granted granted Critical
Publication of JP5751627B2 publication Critical patent/JP5751627B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、インターネット上の動画コンテンツ中の音声データを複数のユーザが協調してテキストデータに書き起こすために利用される音声データ書き起こし用WEBサイトシステムに関するものである。
近年、動画コンテンツを多人数へリアルタイムに中継・配信できるライブストリーミングが普及した。しかしその利活用技術はまだ不十分である。ustream(http://www.ustream.tv/)やニコニコ生放送(http://live.nicovideo.jp/)等のWebサービスによって誰もが手軽に番組を中継・配信可能となり、人気のある番組は数百〜数万人に視聴されている。また、視聴しながら、その内容に関連したテキストをタイプする活動も活発である。ustreamの場合には、twitter(http://twitter.com/)等のマイクロブログと呼ばれる短いテキスト共有によるコミュニケーション用Webサービスが併用されることが多い。またニコニコ生放送の場合には、入力したテキストが動画コンテンツの上を重なり合って流れることでコミュニケーション可能な機能が提供されている。しかし、これらの動画コンテンツは見逃すと後からの迅速な内容把握が難しい。そこで、そのコンテンツ中の音声に時刻同期した書き起こしテキストが作成できれば、見逃した人々にとって読むだけで内容把握ができて役に立つ。その上、視聴した人々にとっても構造化や検索が可能になり、内容を振り返り要約しやすくなって、さらなる利活用が促せる。
このように書き起こしテキストは有用なため、従来、関心の高い動画コンテンツの一部は、ボランティアによって後から人手で書き起こされて公開されていた。しかしながら人で書き起こすと、多大な労力を要する。自動的に書き起こしを生成するために音声認識を用いる試みもある(非特許文献1乃至6)。しかし高い音声認識率を得るには環境を整える必要があり、一般的な動画コンテンツへの適用は難しかった。そうした音声認識において、認識率は今後向上しても100%にはならない。このような問題の解決策として、不特定多数のユーザに音声認識誤りを訂正してもらうWebサービスPodCastle(商標)[非特許文献7乃至9:特許文献1]を発明者は提案した。WebサービスPodCastleは、2006年から一般公開している。当初は音声コンテンツのみに対応していたが、2009年からは動画コンテンツにも対応した[非特許文献10]。
特開2008−158511号公報
Chen, S.S., Eide, E.M., Gales, M.J., Gopinath, R.A., Kanevsky, D. and Olsen,P.A.: Recent Improvements to IBM's Speech Recognition System for Automatic Transcription of Broadcast News, Proc. ICASSP'99, Vol.1, pp.37-40 (1999). Woodland, P.C., Gales, M.J., Pye, D. and Young, S.J.: Broadcast News Transcrip-tion Using HTK, Proc. ICASSP'97, Vol.2, pp.719-722 (1997). Glass, J., Hazen, T.J., Cyphers, S., Malioutov, I., Huynh, D. and Barzilay, R.: Re-cent Progress in the MIT Spoken Lecture Processing Project, Proc. of Interspeech 2007, pp.2553-2556 (2007). Janin, A., Baron, D., Edwards, J., Ellis, D., Gelbart, D., Morgan, N., Peskin, B.,Pfau, T., Shriberg, E., Stolcke, A. and Wooters, C.: The ICSI Meeting Corpus,Proc. ICASSP 2003, Vol.1, pp.364-367 (2003). Metze, F., Waibel, A., Bett, M., Ries, K., Schaaf, T., Schultz, T., Soltau, H., Yu,H. and Zechner, K.: Advances in Automatic Meeting Record Creation and Access,Proc. ICASSP 2001, Vol.1, pp.601-604 (2001). Yu, H., Clark, C., Malkin, R. and Waibel, A.: Experiments in Automatic Meeting Transcription Using JRTk, Proc. ICASSP'98, Vol.2, pp.921-924 (1998). 後藤真孝,緒方淳,江渡浩一郎:PodCastle: ユーザ貢献により性能が向上する音声情報検索システム,人工知能学会論文誌,Vol.25, No.1, pp.104-113 (2010). Goto, M., Ogata, J. and Eto, K.: PodCastle: A Web 2.0 Approach to Speech Recognition Research, Proc. of Interspeech 2007, pp.2397-2400 (2007). Ogata, J. and Goto, M.: PodCastle: Collaborative Training of Acoustic Models on the Basis of Wisdom of Crowds for Podcast Transcription, Proc. of Interspeech 2009, pp.1491-1494 (2009). Goto, M. and Ogata, J.: PodCastle: A Spoken Document Retrieval Service Im-proved by Anonymous User Contributions, Proc. of PACLIC 24, pp.3-11 (2010).
しかし、WebサービスPodCastleは、過去の録音・録画のみに対応し、ライブストリーミングのように一時停止をできない動画コンテンツの書き起こしには対応していなかった。仮にPodCastleを高速化してライブストリーミングに対応させようとしても、ユーザが訂正をしている間にコンテンツの内容が先に進み、コンテンツ自体をリアルタイムに楽しめなくなる問題が生じる。
本発明の目的は、ライブストリーミングのように一時停止ができない動画コンテンツまたは音声コンテンツ中の音声を、不特定多数のユーザが協調してリアルタイムに書き起こすことが可能な音声データ書き起こし用WEBサイトシステムを提供することにある。
本発明は、インターネット上の動画コンテンツまたは音声コンテンツ中の音声データを複数のユーザが協調してテキストデータに書き起こすために利用される音声データ書き起こし用WEBサイトシステムを対象とする。本発明の音声データ書き起こし用WEBサイトシステムは、アクセス情報登録部と、音声認識部と、音声データ記憶部と、テキストデータ記憶部と、音声認識結果送信部と、断片テキストデータ記憶部と、判定部と、データ置換部とを備えている。アクセス情報登録部は、動画コンテンツまたは音声コンテンツの少なくともURLを含むアクセス情報を登録する。音声認識部は、アクセス情報登録部に登録された動画コンテンツまたは音声コンテンツのアクセス情報中で、ユーザ端末装置によりインターネットを介して選択されたアクセス情報に基づいてアクセスした動画コンテンツまたは音声コンテンツ中の音声データを音声認識技術によりテキストデータに変換する。音声データ記憶部は、音声データを、動画コンテンツまたは音声コンテンツの配信時刻と一緒に記憶する。ここで配信時刻とは、動画コンテンツまたは音声コンテンツの配信が開始されてから配信が終了されるまでの連続した時刻である。したがって音声データ中のある音声データ部分の開始時刻と終了時刻については、この記憶されている配信時刻に基づいて決定することができる。音声認識結果記憶部は、音声認識部による音声認識結果をテキストデータとして、動画コンテンツまたは音声コンテンツの配信時刻と一緒に記憶する。したがって音声認識結果中の単語列や各単語の開始時刻及び終了時刻は、音声認識処理で算出される時間情報と配信時刻に基づいて決定することができる。音声認識結果送信部は、音声認識結果記憶部に記憶されているテキストデータをユーザ端末装置に送信する。断片テキストデータ記憶部は、ユーザがユーザ端末装置を用いて、動画コンテンツを見ながらまたは音声コンテンツを聞きながら音声データの一部を断片テキストデータにしたものを、入力時刻と一緒にインターネットを介して送信してきたときに、断片テキストデータを入力時刻と一緒に記憶する。データ変換部は、断片テキストデータ記憶部に記憶された断片テキストデータを断片音声パターンに変換する。ここで「断片音声パターン」とは、断片テキストデータを音声データと部分的に対比可能な音声的なパターンである音響モデルに変換したものである。判定部は、入力時刻から所定の時間間隔遡った所定の時間期間内に配信された期間音声データを音声データ記憶部から取得して、期間音声データ中に断片音声パターンと音響的に適合する音声データ部分があるか否かを判定する。なお判定部が、キーワードスポッティング法により期間音声データ中に断片音声パターンと音響的に適合する音声データ部分があるか否かを判定すると、より高い精度で判定を行うことができる。そしてデータ置換部は、判定部が音響的に適合すると判定した音声パターンとなる音声データ部分に対応する音声認識結果記憶部に記憶されているテキストデータの該当テキストデータ部分を断片テキストデータで置き換える。なお「音響的に適合する」とは、確率モデルで表された典型的な音声パターンと該当する音声データが類似する場合を言う。
本発明は、前提として、ユーザがコンテンツを視聴しながら、同時にtwitter(商標)等でテキストをタイプしてコミュニケーションしていることに注目した。そして本発明では、システムへの参加の敷居を低くするために、各ユーザはユーザ端末装置上で、コンテンツの配信を視聴しながら、自分が聞き取った音声の断片をテキスト入力するだけで、音声データのテキストデータ化に貢献できるようにした。ユーザの一人一人がコンテンツ自体を楽しみながら書き込める量には限界があるが、ユーザからの小さな貢献を、多くのユーザから集めてまとめ上げることで、書き起こしの質を上げることができる。なお、ユーザによる断片的な断片テキストデータの入力は、常に本来の音声の時刻よりも遅れるが、音声認識結果と統合することで、各単語が音声の時刻と同期した状態の書き起こしテキストを生成する点も本発明の特長である。本発明によれば、動画コンテンツまたは音声コンテンツが配信されている過程で、ユーザが断片的に聞き取った音声をユーザ端末装置から断片テキストデータとして音声データ書き起こし用WEBサイトシステムに入力時刻と一緒に逐次送信する。受信した断片テキストデータは、データ変換部で断片音声パターンに変換される。判定部は、その断片テキストデータの入力時刻から所定の時間間隔遡った所定の時間期間内に配信された期間音声データ中に断片音声パターンと音響的に適合する音声データ部分があるか否かを判定する。そしてデータ置換部は、判定部が音響的に適合すると判定した音声データ部分に対応するテキストデータの該当テキストデータ部分を断片テキストデータで置き換える。したがって本発明によれば複数のユーザが、動画コンテンツを見ながらまたは音声コンテンツを聞きながらコメントを送信することと同様にして聞き取った音声を断片テキストデータとして送信するだけで、音声認識結果が自動的に訂正される。また訂正作業を意識することなく、動画コンテンツまたは音声コンテンツの閲覧を楽しむことができる。
判定部で遡る前述の所定の時間間隔は、ユーザの入力速度に依存して定められることになるが、ユーザの平均的な入力速度を考慮すると、8秒〜15秒の期間とするのが好ましい。この期間であれば、ユーザから提供された断片コンテンツデータを有効に活用できる。
動画コンテンツまたは音声コンテンツは、ライブストリーミングにより配信されるものであってもよいが、一時停止することができないコンテンツを多くのユーザで視聴する際に、本発明を適用することができるのは勿論である。なおアクセス情報登録部に登録されるアクセス情報は、ライブストリーミングコンテンツのクロールにより集められて登録されたものでも、またはユーザによって登録されたものでもよい。
本発明は、ユーザが利用するインターフェースを提供するために、当然にしてインターフェース表示部を備えている。インターフェース表示部は、アクセス情報登録部に登録されたアクセス情報を選択可能にする選択画面と、テキストデータ記憶部に記憶されているテキストデータに基づくテキストを逐次表示するテキスト画面と、動画コンテンツを逐次表示するコンテンツ表示画面と、テキスト画面に表示されているテキストと時刻同期して、断片テキストデータ記憶部に記憶された複数の断片テキストデータに基づく断片テキストを逐次表示する断片テキスト画面を表示するためのインターフェースをユーザ端末装置の表示画面で見ることができるようにする。音声コンテンツを聞く場合は、音声コンテンツの画面をコンテンツ表示画面に表示する。各画面は、1つの画面中に表示されてもよいし、別々の画面として表示されてもよい。1つの画面で表示される画面の種類が多くなるほど、ユーザの興味を高めることができる。
インターフェース表示部は、ユーザ端末装置の表示画面に、自分が入力した断片テキストと他人が入力した断片テキストとを区別できる表示態様で断片テキスト画面に複数のユーザが入力した複数の断片テキストを表示する機能を備えているのが好ましい。このような機能を設けると、ユーザは自分が入力した断片テキストデータを認識できるので、ユーザに対して断片テキストデータの入力意欲を増進させることができる。
またインターフェース表示部は、テキスト画面に表示されるテキストのためのテキストデータが断片テキストデータにより置き換えられたものであるか否かが区別できる表示態様でテキストをテキスト画面に表示するのが好ましい。このようにすると修正効果を視覚により確認することができるので、多くのユーザに興味を与えることができる。
データ変換部は、断片テキストデータ記憶部に記憶されている断片テキストデータから断片音声パターンに変換するように構成するのが好ましい。このようにすると後の判定部により判定精度を高めることができる。
またデータ変換部は、所定の時間期間内に断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で最も数が多い断片テキストデータを代表として断片音声パターンに変換するようにしてもよい。またデータ変換部は、所定の時間期間内に断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で所定数以上の送信があった断片テキストデータを代表として断片音声パターンに変換するようにしてもよい。このようにすると判定部による判定精度を高めることができ、かつ判定時の処理量を削減することができる。その他判定精度を高めるための任意の工夫をしてもよいのは勿論である。
本発明のシステムを使用したネット構造を模式的に示した図である。 本実施の形態の音声データ書き起こし用WEBサイトシステムの構成を概念的に示すブロック図である。 図2のシステムをコンピュータ・サーバを用いて実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。 ユーザ端末装置の選択画面の一例を示す図である。 ユーザ端末装置の表示画面の一例を示す図である。 (A)は音声信号の一例、(B)は音声の内容の例、(C)は音声認識結果の例、(D)は断片テキストデータに基づく断片テキストの例、(E)は置き換え結果の例を示す図である。 断片テキストデータを断片音声パターンに変換する過程を説明するために用いる図である。 (A)は時刻を伴った音声信号の一例、(B)は時刻を伴った音声の内容の例、(C)はキーワードスポッティング法を利用したアラインメント処理を説明するために用いる図である。 断片テキストデータのアラインメント結果と音声認識結果の統合処理を説明するために用いる図である。
以下図面を参照して本発明の音声データ書き起こし用WEBサイトシステムの実施の形態の一例を詳細に説明する。図1は、本発明のシステムを使用したネット構造を模式的に示した図である。本実施の形態の音声データ書き起こし用WEBサイトシステム1は、ストリーミング配信サーバ2にインターネット3を介して接続される。また音声データ書き起こし用WEBサイトシステム1には、インターネット3を介してPCや携帯通信端末等の複数のユーザ端末装置と接続される。ユーザは、ユーザ端末装置4から音声データ書き起こし用WEBサイトシステム1にアクセスして登録されている動画コンテンツまたは音声コンテンツにリンク接続する。
図2は、本実施の形態の音声データ書き起こし用WEBサイトシステム1の構成を概念的に示すブロック図である。図3は、図2のシステム1をコンピュータ・サーバを用いて実現する場合に用いるプログラムのアルゴリズムの一例を示している。本実施の形態のシステム1は、入出力部11と、制御部12と、アクセス情報登録部13、音声データ記憶部14、音声認識結果記憶部15、断片テキストデータ記憶部16を有するデータ記憶装置17と、インターフェース表示部18、音声認識部19、音声認識結果送信部20、データ変換部21、判定部22及びデータ置換部23を有する機能実現部24とから構成される。各構成要素は、ネットワーク25により接続される。制御部12及び機能実現部24は、サーバの中央演算装置により実現され、データ記憶装置はサーバのメモリ装置によって実現される。制御部12は、機能実現部24が実行しない他の制御機能を実行する。
アクセス情報登録部13は、動画コンテンツまたは音声コンテンツの少なくともURLを含むアクセス情報を登録する。アクセス情報登録部13に登録されるアクセス情報は、ライブストリーミングコンテンツのクロールにより集められて登録されたものでも、またはユーザによって登録されたものでもよい。図4は、ユーザ端末装置4の表示画面に表示されるアクセス情報の選択画面D1の一例を示している。図4に示す選択画面D1には図示していないが、アクセス情報にはコンテンツのURL、タイトル、開始時間が含まれている。選択画面D1の選択ボタンB1をクリックすることにより、ユーザ端末装置4は該当コンテンツにリンク接続される。その結果、図5に示すユーザ端末装置4の表示画面D2のコンテンツ画面d1に例えば選択した動画コンテンツが表示される。
図2のインターフェース表示部18は、アクセス情報登録部13に登録されたアクセス情報を選択可能にする選択画面D1と、動画コンテンツを逐次表示するコンテンツ画面d1と、テキストデータ記憶部に記憶されているテキストデータに基づくテキストを逐次表示するテキスト画面d2と、テキスト画面d2に表示されているテキストと時刻同期して、後述する断片テキストデータ記憶部16に記憶された複数の断片テキストデータに基づく断片テキストを逐次表示する断片テキスト画面d3を表示するためのインターフェース(図4のD1,図5のD2)をユーザ端末装置4の表示画面で見ることができるようにする機能を有している。インターフェース表示部18のその他の機能については、後に説明する。
音声データ記憶部14は、ユーザが選択したコンテンツの音声データ[例えば図6(A)参照]を、動画コンテンツまたは音声コンテンツの配信時刻と一緒に記憶する。
音声認識部19は、アクセス情報登録部13に登録された動画コンテンツまたは音声コンテンツのアクセス情報中で、ユーザ端末装置4によりインターネット3を介して選択されたアクセス情報に基づいてアクセスした動画コンテンツまたは音声コンテンツ中の音声データを音声認識技術によりテキストデータに変換する。なお音声認識技術としては、発明者等が提案したPodCastle音声認識システムを用いることができる。PodCastle音声認識システムについては、例えば、緒方淳及び後藤真孝が発表した「PodCastle: 動的言語モデリングに基づくポッドキャスト音声認識」と題する論文(情処研報音声言語情報処理2010-SLP-84-2 (2010)]に記載されている。なおその他の音声認識システムを用いてもよいのは勿論である。図6(B)は音声の一例であり、図6(C)は音声認識結果の一例を示している。現在の技術でも、音声認識の認識率の向上には限界があるため、必ず修正の必要性がある。
音声認識結果記憶部15は、音声認識部19による音声認識結果をテキストデータとして、動画コンテンツまたは音声コンテンツの配信時刻と一緒に記憶する。そして音声認識結果送信部20は、音声認識結果記憶部15に記憶されているテキストデータをアクセスしているユーザ端末装置4に逐次送信する。送信されたテキストデータに基づいて、図5に示すユーザ端末装置4の表示画面D2のテキスト画面d2に音声認識により得られたテキストが表示される。音声認識結果送信部20は、予め定めた時間間隔でテキストデータをユーザ端末装置4に送信する。ユーザ端末装置4では、新たなテキストが追加されるとスクロール表示され、過去のテキストはスクロールバーで遡って閲覧できる。
断片テキストデータ記憶部16は、ユーザがユーザ端末装置4を用いて、動画コンテンツを見ながらまたは音声コンテンツを聞きながら音声データの一部を断片テキストデータにしたものを、入力時刻と一緒にインターネット3を介して送信してきたときに、断片テキストデータを入力時刻と一緒に記憶する。図6(D)には、3台のユーザ端末装置4から送信されてきた断片テキストデータをテキスト表示(文字表示)した例を示している。なお図6(D)には、理解を容易にするために、テキスト表示に入力時刻を並記してある。入力時刻は、ユーザが断片テキストデータを作成してユーザ端末装置4からデータが送信された時刻でも、またユーザ端末装置4から断片テキストデータを受信した時刻のいずれでもよい。各ユーザ端末装置4から送信された断片テキストデータは、所定の規則に従ってインターフェース表示部18を経由してユーザ端末装置4に送信される。ユーザ端末装置4の表示画面では、図5に示す表示画面D2の断片テキスト画面d3に表示される。
データ変換部21は、断片テキストデータ記憶部16に記憶された断片テキストデータに対して形態素解析を行って、単語に分割しつつ読みを確定し、その読みをもとに断片音声パターンに変換する。ここでは単語分割の際に、不特定多数のユーザによって日々整備され、更新されている「Webキーワード辞書」を活用した形態素解析を行う。これにより、新出語の分割誤りを低減することができ、さらに今回のアラインメントで特に重要な、読み(発音)の情報も獲得することができる。「Webキーワード辞書」を活用した形態素解析については、緒方淳,松原勇介及び後藤真孝が「PodCastle: 集合知に基づくWeb キーワードを考慮した言語モデリング」と題する論文[日本音響学会講演論文集,pp.97-100 (2008)]に詳しく説明されている。概念的に説明すると、図7に示すように「虫の画像」と意味する断片テキストデータを、形態素解析によって「虫」「の」「画像」の3単語に分割し、かつ「ムシノガゾウ」の読み(かな表記)を得る。そしてこの読み(かな表記)を元に、(「m」「u」「sh」等の全41種類のHMMからなる音素単位の音響モデルから、該当する音素単位の音響モデルを連結して断片音声パターンを得る。この動作がデータ変換部21での変換動作である。このように断片テキストデータを音声パターンに変換したものが、断片音声パターンPAPである。
上述のように各断片テキストデータの時刻は不正確なため、最終的な書き起こしを生成するための基本的な方針としては、音声認識結果のテキストデータに対して、ユーザから入力された個々の断片テキストデータを、本来発声された区間に適切に対応付けする(アラインメントする)必要がある。ここで、断片テキストデータが入力されたときに記録される、コンテンツ(音声データ)上での時刻をteとする。その元となる発声の先頭から、断片テキストの入力が完了する時刻tfまでの遅延の上限をTdelayとすると、断片テキストは、teから一定の時間幅(時間間隔)Tdelayだけ遡った音声データ中に含まれるはずである。そこで、その区間内の音声データ中から、断片テキストに該当する区間を探索して見つけ、その区間の書き起こしとして時間的に対応づけていく(割り当てていく)。
この作業は、判定部22により実行される。判定部22は、図8(A)に示すように、断片テキストデータの入力時刻(1:14)から所定の時間間隔T(10秒)遡った所定の時間期間T内に配信された期間音声データPADを音声データ記憶部14から取得する。期間音声データPADの中に断片音声パターンPAPと音響的に適合する音声パターンとなる音声データ部分があるか否かを判定する。本実施の形態では、判定部22で、音声認識結果のテキストデータに対して断片テキストデータを直接アラインメントするのではなく、元の音声の音声信号である期間音声データPADに対して図8(C)に示す断片音声パターンPAPを利用して得た期間音声データの音パターンAPを用いて、Viterbiデコーディングを行うことで、断片音声パターンの存在区間(開始時刻、終了時刻)とその音響的スコアを求める。存在区間が該当しない場合や、音響的スコアが予め定めたスコアよりも低い場合には、その断片音声パターンは後述する置き換えには採用しない。このアラインメントでは、前述のように音響モデル(HMM:隠れマルコフモデル)を利用して、断片音声パターンPAPが期間音声データPAD中のどこに含まれるかを見つけ出すために、図8(C)の音声パターンAPを用いる。具体的には、断片テキストデータという認識対象が一つに絞られている状況で、音響モデル(HMM)を用いたアラインメントをする。これは、音声データ中からある特定のキーワードが発話された区間(音声パターンとなる部分)を特定するためにキーワードスポッティング法を利用する。具体的には、図8(C)に示すように、入力された断片テキストデータの音素列に沿って音素HMMを連結することで、断片テキストデータに相当するキーワードHMM(断片音声パターン)を作成する。そしてキーワードHMM(断片音声パターン)の前後に、キーワード以外の音声区間を割り当てるためのガベージモデルをそれぞれ付与することで、上記の音声区間に対する認識ネットワークを前述の期間音声データの音声パターンAPとして構成する。ここでガベージモデルとしては、任意の音素のループを用いる。この期間音声データの音声パターンAPを用いて期間音声データの音声信号に対してViterbiデコーディングを行うことで、期間音声データ中の断片テキスト(キーワード)の存在区間(開始時刻と終了時刻)を推定する。Viterbiデコーディングでは、キーワードHMM(断片音声パターン)の前後に、確率モデルであるHMMを連結して表されている音声パターンAPと期間音声データとの間で音響的な確率計算を行うことで、音声パターンAP中の断片音声パターンに該当する区間(開始時刻、終了時刻)とその音響的スコアを割り出す。本実施の形態では、このようにキーワードスポッティング法を用いてアラインメントを実行する。
データ置換部23は、判定部22が一致または近似すると判定した音声パターン部分に対応する音声認識結果記憶部15に記憶されているテキストデータの該当テキストデータ部分を断片テキストデータで置き換える。具体的には、上記のHMMに基づくアラインメントによって、各断片テキストデータがコンテンツのテキストデータのどの区間に存在しているかが求まる。逐次入力される断片テキストデータを用いて、図9に例示するように、コンテンツに対する音声認識結果(単語列:テキストデータ)と複数の断片テキストデータとの間で時間的照合を行う。ここで時間的照合とは、音声認識結果のテキストデータ中の該当テキストデータ部分の開始時刻から終了時刻までの時間間隔内に、照合された断片テキストデータが時間的に入り得るかの照合を行うことである。この時間的照合を経て、データの置換を行って単語列を得る。図6(E)にも、置き換え結果の一例が示されている。なお時間的照合の際、音声認識結果のテキストデータと断片テキストデータのアラインメント結果で、単語境界が異なる場合には、両区間のオーバーラップ率で閾値処理を行えばよい。
ユーザ端末装置4における断片テキストデータの入力とその利用について以下に説明する。ユーザが、ユーザ端末装置において聴き取った音声の断片テキストデータをタイプ入力すると、それが入力された際に記録するコンテンツ上の時刻を伴って、システム1側にネットワークを通じて集められる。視聴を楽しみながら気軽に入力するテキストであるため、入力しやすい名詞、特に固有名詞の1単語か、数単語からなる複合名詞が主な入力対象となり、それらを含むフレーズが中心になると考えられる。コンテンツの書き起こしに高い意欲を持つ一部のユーザは、より多様で長い語句を入力する可能性もある。しかし、入力された断片テキストデータ群は、コンテンツ中の全ての音声区間をカバーするものだとは期待できない。例えば、コンテンツ中に「小笠原っていうのは東京都でありながらですね沖縄以上に南国みたいなところあるわけで」のような発声があった場合、それを不特定多数のユーザが「小笠原」、「東京都でありながら」、「沖縄以上に」、「南国みたいなところ」等のような断片テキストとして入力すると考える。ユーザ間で入力内容に重複も起き、例えば上記の例で、「東京都でありながら」と入力するユーザが数十人いる一方で、「東京都」と入力するユーザも数十人いる可能性がある。ただし、各ユーザは聴き取った後の好きなタイミングで断片テキストデータを入力して送信してくるので、本来の発声のコンテンツ上の時刻(該当する音声区間)には時間的に対応付いていない。つまり、断片テキストデータ入力の際に記録される時刻は、該当する音声区間の時刻から常に遅延(タイムラグ)が生じた状態となる。このような「不完全な」テキストを利用して、本実施の形態では、前述のようにデータ変換部21によるデータ変換と判定部22による判定により、最終的にコンテンツ中の全音声区間に対する書き起こしを生成する。
以下図3のアルゴリズムの一例に従って本実施の形態のシステムの動作を説明する。まずステップST1では、制御部12がユーザ端末装置4からアクセス情報登録部13にアクセス情報の登録要求があるか否かを判定する。登録要求があれば、制御部12はアクセス情報のアクセス情報登録部13の登録を実行する。アクセス情報登録要求がなければ、ステップST3へと進む。ステップST3では、ユーザ端末装置4からアクセス情報の選択要求があるか否かを判定する。選択要求があれば、ステップST4へと進んで、制御部12は選択要求に従ってユーザ端末装置4からの選択要求に従ってユーザ端末装置4を選択したストリーミング配信サーバ2にアクセスさせる。ユーザ端末装置4からシステム1にアクセスがあると、制御部12はインターフェース表示部18からユーザ端末装置4にインターフェースを送信している。ユーザ端末装置4のストリーミング配信サーバ2へのアクセスが完了すると、ユーザ端末装置4ではコンテンツ(動画、音声)のストリーミングが開始される(ステップST5)。同時に、システム1では、制御部12がストリーミングされているコンテンツの配信時刻と一緒に音声データを音声データ記憶部14に保存する動作を開始する(ステップST6)。この保存動作は、ストリーミングが実行されている間継続される。
次にステップST7へと進んで音声認識部19が音声認識動作を実行する。音声認識は、予め定めた量の音声データが音声データ記憶部14に保存されると逐次実行される。音声認識結果はステップST8で、音声認識結果記憶部15に記憶される。次にステップST9で音声認識結果送信部20が、音声認識結果をユーザ端末装置4へと送信する。その結果ユーザ端末装置4ではその表示画面D2のテキスト画面d2に音声認識結果のテキストデータに基づくテキストが表示される。
次にステップST10でユーザ端末装置4からの入力時刻と一緒になった断片テキストデータの入力を確認する。断片テキストデータが入力されると、ステップST11で、断片テキストデータが入力時刻と一緒に断片テキストデータ記憶部16に保存される。なお図3には示していないが、断片テキストデータ記憶部16に断片テキストデータを保存する際に、断片テキストデータは所定の規則に従ってインターフェース表示部18を経由してユーザ端末装置4にも送信される。したがってユーザ端末装置4では、表示画面の断片テキスト画面d3に断片テキストデータ記憶部16に記憶された複数の断片テキストデータに基づく断片テキストを逐次表示する。
次にステップST12へと進んで、データ変換部21が断片テキストデータを断片音声パターンに変換する。その後ステップST13へと進んで、判定部22が断片テキストデータの入力時刻から所定の時間間隔T遡った所定の時間期間T内に配信された期間音声データPADを音声データ記憶部14から取得して、期間音声データPADの中に断片音声パターンPAPと音響的に適合する音声パターンとなる音声データ部分があるか否かを判定する。
ステップST13で該当する音声パターンとなるデータ部分の存在が判定された場合には、ステップST14へと進み、該当する音声データ部分が存在しないことが判定された場合にはステップST7へと戻る。ステップST14では、判定部22が音響的に適合すると判定した音声データ部分に対応する音声認識結果記憶部15に記憶されているテキストデータの該当テキストデータ部分を断片テキストデータで置き換える。そしてステップST15で、書き起こしの中止の有無を判定し、書き起こしが継続される場合には、ステップST7へ戻り、書き起こしが中止される場合には、図3のフローチャートのアルゴリズムの動作が中止される。図5に示すように、ユーザ端末装置4の表示画面D2には、コンテンツ選択ボタンB2と、書き起こし開始ボタンB3と、書き起こし中止ボタンB4とが少なくとも設けられている。コンテンツ選択ボタンB2をクリックすると図4の画面D1が表示される。画面D1でコンテンツの選択が終了すると、画面D1は画面D2へと切り替わる。そして書き起こし開始ボタンB3をクリックすると図3のフローチャートに従った書き起こし動作が始まる。また書き起こし中止ボタンB4がクリックされると、ステップST15における判定で書き起こし動作が中止される。なおストリーミング中において、再度書き起こし開始ボタンB3がクリックされると、書き起こし動作は再開される。
なお図3のフローチャートは一例であって、本発明はこのフローチャートに限定されるものではない。
本願明細書では、ustreamのようなライブストリーミングの配信動画中の音声を、不特定多数のユーザが協調してリアルタイムに書き起こすことが可能なシステム「Yourscribe」を提案する。従来、人手による書き起こしは労力が大きく、音声認識での書き起こしは精度が不十分であった。また、その精度不足を不特定多数のユーザによる訂正で補うPodCastle は、リアルタイムでの書き起こしには適していなかった。Yourscribeでは、各ユーザは動画視聴を中断せずに楽しみながら、気が向いたときに聴き取った断片的なテキストを入力するだけでよい。それらを多数のユーザから随時集めた後に、リアルタイムに音声認識した結果と照らし合わせることで、書き起こしテキストに自動的にまとめ上げることができる。これは「音声認識研究2.0」の新たな事例に位置づけられる。
本実施の形態によれば、ライブストリーミングに特化して、動画または音声コンテンツ中の音声を多数のユーザが協調してリアルタイムに書き起こすことが可能になる。ユーザ自身がコンテンツ視聴を楽しみながら貢献できることを重視するため、無理のない範囲で気が向いたときに、聞き取った断片のテキストを書き起こしとして入力できるクライアントインタフェースを提供する。既に普及している視聴中のテキスト入力同様、ユーザは数十秒から数分ごとに好きなタイミングで好きな長さだけ、断片テキストデータを気軽に入力すればよい。本実施の形態のシステム1は、それらを入力時刻情報を伴う形で数百〜数万人分の断片テキストデータを集積することで、一つの書き起こし文章に自動的にまとめ上げる。特に、各断片テキストデータは文の一部で不完全で、入力の時間遅れも不均一であるが、本実施の形態のシステム1では、音声認識をリアルタイムに実行して、その認識結果と断片テキストデータの群を統合していくことで、音声認識結果の修正(音声データの書き起こし)を可能にする。ユーザの一人一人がコンテンツ自体を楽しみながら書き込める量には限界がある。しかし図1のように、複数のユーザ端末装置からの断片テキストデータ集めてまとめ上げることで、修正または書き起こしの質を上げることができる。なお、ユーザによる断片的なテキストの入力は、常に本来の音声の時刻よりも遅れるが、音声認識結果と統合することで、各単語が音声の時刻と同期した状態で音声認識結果を修正して、テキストデータを生成する点も本実施の携帯の特徴である。
なおデータ変換部21を、所定の時間期間内に断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で最も数が多い断片テキストデータを代表として断片音声パターンに変換するように構成してもよい。またデータ変換部21を、所定の時間期間内に断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で所定数以上の送信があった断片テキストデータを代表として断片音声パターンに変換するようにしてもよい。このようにすると判定部22による判定精度を高めることができ、かつ判定時の処理量を削減することができる。その他判定精度を高めるための任意の工夫をしてもよいのは勿論である。
次に、上記実施の形態の基本的な性能及び効果を確認するための簡単な実験を行った結果についして説明する。実験に使用する動画コンテンツとしては、本システムで想定しているライブストリーミングとは異なるが、Web上でのポピュラーな音声コンテンツであるポッドキャストを利用した。実験で用いた音声データは、Web上で公開されている3つのポッドキャストA,B,Cの各1エピソードである(計49分30秒)。これら3つは、音声認識率が大きく異なる音声データとして選んだ。現段階ではまだWebサービスとして運用できないため、実験用の断片テキストを不特定多数のユーザから集めるのは困難である。そこで本実験では、著者のうちの1人が、コンテンツを視聴しながら多人数によって無理なく入力可能と想定されるような単語やフレーズを、書き起こしの断片テキストとして用意した。用いた断片テキストは、各エピソードともに全体の音声区間の75%をカバーするデータである(仮名漢字交じりの書き起こしテキストの正解文を人手で用意し、その文字数上での75%がカバーされる分量に調整した)。これらの断片テキストは、3つのポッドキャスト全体で計1886件を用意し、その仮名漢字交じりの書き起こし文字数は、平均7.41文字、標準偏差3.26文字であった。
コンテンツ全体に対する音声認識結果のテキスト(単語列)を生成するための音声認識器には、PodCastle音声認識システムを用いた。音響モデルは、CSJの約600時間の講演音声データから学習された、状態数3000,1状態あたり混合ガウス分布数16のtied-statecross-word triphone モデルである。特徴量には39次元PLP(12次元PLPケプストラム係数と正規化パワー、それらのデルタ、デルタデルタ)、そして話者、環境の変動に対処するためにCMLLRベースの適応化学習を行っている。適応化学習については、以下の文献に記載されている。
文献:Gales, M. J.F.: Maximal likelihood linear transformations for HMM-Based speech recognition, Computer Speech & Language, Vol.12, pp.75-98 (1998).
言語モデルは、WebキーワードベースのN−gramであり、Webニューステキスト、CSJの講演書き起こしを用いて学習したものである。一方、HMMアラインメント処理には、上記のCSJから学習した混合数32のmonophoneモデルを用いた。ここでtriphoneではなく、monophoneを利用することで、アラインメント処理における計算コストを大きく削減することができる。
評価尺度としては、最終的に複数の断片テキストデータを統合して生成した修正テキストが、実際の正解文のテキストをどの程度正しく再現できたか、すなわち音声認識性能と同様に単語正解精度を用いた。また、アラインメント処理を行う際の時間幅Tdelayは10秒とした。
下記の表1に、ベースラインとなる音声認識器による書き起こし生成結果(通常の音声認識結果)と、本実施の形態の断片テキストデータを利用した書き起こし生成結果の、それぞれの単語正解精度を示す。
Figure 0005751627
通常の音声認識結果より、ポッドキャストによって認識性能に大きな違いがあることがわかる。特に、Cは芸能人による雑談音声であり、発話速度も比較的速く誤認識が著しい。提案する断片テキストを利用した書き起こし生成手法により、3つ全てのポッドキャストにおいて大きく単語正解精度を改善できていた。認識率50%以下のような、音声認識が非常に困難なデータに対しての改善率が特に高い結果となった。これによりmonophoneのような簡易な音響モデルであっても、HMMによるアラインメント処理は有効であり、断片テキストの発声区間をある程度正しく検出できていたことがわかった。
次に、入力される断片テキストのデータ量の違いによる、最終的な書き起こし性能への影響を調べた。ここでは、全体の75%をカバーする断片テキスト群からランダムに削減することにより、全体の50%,25%それぞれをカバーする断片テキスト群を作成した。75%をカバーするためには、非常に多くのユーザが同時に視聴しながら、ときどき書き起こしている状況が想定されるが、50%,25%は、そのユーザ数が減った状況を想定した実験条件である。表2にそれぞれのデータ量の断片テキストを利用したときの単語正解精度を示す。
Figure 0005751627
結果より、比較的少量の断片テキストが入力された場合でも、本手法により、それらを最終的な書き起こしとして有効利用できる可能性があることがわかった。
本発明によれば、複数のユーザが、動画コンテンツを見ながらまたは音声コンテンツを聞きながらコメントを送信することと同様にして聞き取った音声を断片テキストデータとして送信するだけで、音声認識結果が自動的に訂正される。したがって訂正作業を意識することなく、動画コンテンツまたは音声コンテンツの閲覧を楽しみながら、音声データの書き起こしができる利点が得られる。
1 音声データ書き起こし用WEBサイトシステム
2 ストリーミング配信サーバ
3 インターネット
4 ユーザ端末装置
11 入出力部
12 制御部
13 アクセス情報登録部
14 音声データ記憶部
15 音声認識結果記憶部
16 断片テキストデータ記憶部
17 データ記憶装置
18 インターフェース表示部
19 音声認識部
20 音声認識結果送信部
21 データ変換部
22 判定部
23 データ置換部
24 機能実現部
25 ネットワーク
D1 選択画面
D2 表示画面
d1 コンテンツ画面
d2 テキスト画面
d3 断片テキスト画面
PAP 断片音声パターン
PAD 期間音声データ
B1 選択ボタン
B2 コンテンツ選択ボタン
B3 書き起こし開始ボタン
B4 書き起こし中止ボタン

Claims (10)

  1. インターネット上の動画コンテンツまたは音声コンテンツ中の音声データを複数のユーザが協調してテキストデータに書き起こすために利用される音声データ書き起こし用WEBサイトシステムであって、
    前記動画コンテンツまたは音声コンテンツの少なくともURLを含むアクセス情報を登録するアクセス情報登録部と、
    前記アクセス情報登録部に登録された前記動画コンテンツまたは音声コンテンツのアクセス情報中で、ユーザ端末装置により前記インターネットを介して選択された前記アクセス情報に基づいてアクセスした前記動画コンテンツまたは音声コンテンツ中の前記音声データを音声認識技術によりテキストデータに変換する音声認識部と、
    前記音声データを、前記動画コンテンツまたは音声コンテンツの配信時刻と一緒に記憶する音声データ記憶部と、
    前記音声認識部による音声認識結果をテキストデータとして、前記動画または音声コンテンツの前記配信時刻と一緒に記憶する音声認識結果記憶部と、
    前記音声認識結果記憶部に記憶されている前記テキストデータを前記ユーザ端末装置に送信する音声認識結果送信部と、
    前記ユーザが前記ユーザ端末装置を用いて、前記動画コンテンツを見ながらまたは前記音声コンテンツを聞きながら前記音声データの一部を断片テキストデータにしたものを、入力時刻と一緒に前記インターネットを介して送信してきたときに、前記断片テキストデータを前記入力時刻と一緒に記憶する断片テキストデータ記憶部と、
    前記断片テキストデータ記憶部に記憶された前記断片テキストデータを音響モデルとしての断片音声パターンに変換するデータ変換部と、
    前記入力時刻から所定の時間間隔遡った所定の時間期間内に配信された期間音声データを前記音声データ記憶部から取得して、前記期間音声データ中に前記断片音声パターンと音響的に適合する音声パターンとなる音声データ部分があるか否かを判定する判定部と、
    前記判定部が音響的に適合すると判定した音声パターン部分に対応する前記音声認識結果記憶部に記憶されている前記テキストデータの該当テキストデータ部分を前記断片テキストデータで置き換えるデータ置換部とを備えていることを特徴とする音声データ書き起こし用WEBサイトシステム。
  2. 前記所定の時間間隔が、8秒〜15秒の期間である請求項1に記載の音声データ書き起こし用WEBサイトシステム。
  3. 前記動画コンテンツまたは音声コンテンツが、ライブストリーミングにより配信されるものであり、
    前記アクセス情報登録部に登録されるアクセス情報は、ライブストリーミングコンテンツのクロールにより集められて登録されたものか、またはユーザによって登録されたものである請求項1に記載の音声データ書き起こし用WEBサイトシステム。
  4. 前記アクセス情報登録部に登録された前記アクセス情報を選択可能にする選択画面と、前記音声認識結果記憶部に記憶されている前記テキストデータに基づくテキストを逐次表示するテキスト画面と、前記動画コンテンツを逐次表示するコンテンツ表示画面と、前記テキスト画面に表示されている前記テキストと時刻同期して、前記断片テキストデータ記憶部に記憶された複数の断片テキストデータに基づく断片テキストを逐次表示する断片テキスト画面を表示するためのインターフェースを前記ユーザ端末装置の表示画面で見ることができるようにするインターフェース表示部をさらに備えている請求項1に記載の音声データ書き起こし用WEBサイトシステム。
  5. 前記データ変換部は、前記断片テキストデータ記憶部に記憶されている前記断片テキストデータから単語断片テキストデータのみを分離して、分離した単語断片テキストデータを断片音声パターンに変換する請求項1乃至4のいずれか1項に記載の音声データ書き起こし用WEBサイトシステム。
  6. 前記判定部は、キーワードスポッティング法により前記期間音声データ中に前記断片音声パターンと音響的に適合する音声パターンとなる音声データ部分があるか否かを判定する請求項1または5に記載の音声データ書き起こし用WEBサイトシステム。
  7. 前記インターフェース表示部は、前記ユーザ端末装置の前記表示画面に、自分が入力した断片テキストと他人が入力した断片テキストとを区別できる表示態様で断片テキスト画面に複数のユーザが入力した複数の断片テキストを表示する請求項に記載の音声データ書き起こし用WEBサイトシステム。
  8. 前記インターフェース表示部は、前記テキスト画面に表示される前記テキストのための前記テキストデータが前記断片テキストデータにより置き換えられたものであるか否かが区別できる表示態様で前記テキストを前記テキスト画面に表示する請求項に記載の音声データ書き起こし用WEBサイトシステム。
  9. 前記データ変換部は、前記所定の時間期間内に前記断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で最も数が多い断片テキストデータを代表として断片音声パターンに変換する請求項1に記載の音声データ書き起こし用WEBサイトシステム。
  10. 前記データ変換部は、前記所定の時間期間内に前記断片テキストデータ記憶部に記憶された複数の断片テキストデータの中で所定数以上の送信があった断片テキストデータを代表として断片音声パターンに変換する請求項1に記載の音声データ書き起こし用WEBサイトシステム。
JP2011165921A 2011-07-28 2011-07-28 音声データ書き起こし用webサイトシステム Expired - Fee Related JP5751627B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011165921A JP5751627B2 (ja) 2011-07-28 2011-07-28 音声データ書き起こし用webサイトシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011165921A JP5751627B2 (ja) 2011-07-28 2011-07-28 音声データ書き起こし用webサイトシステム

Publications (2)

Publication Number Publication Date
JP2013029684A JP2013029684A (ja) 2013-02-07
JP5751627B2 true JP5751627B2 (ja) 2015-07-22

Family

ID=47786780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011165921A Expired - Fee Related JP5751627B2 (ja) 2011-07-28 2011-07-28 音声データ書き起こし用webサイトシステム

Country Status (1)

Country Link
JP (1) JP5751627B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6323828B2 (ja) * 2013-12-27 2018-05-16 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 支援装置、情報処理方法、及び、プログラム
JP6242773B2 (ja) 2014-09-16 2017-12-06 株式会社東芝 会議情報蓄積装置、方法およびプログラム
CN108337559A (zh) * 2018-02-06 2018-07-27 杭州政信金服互联网科技有限公司 一种直播文字展示方法及系统
CN113014853B (zh) 2020-04-30 2022-11-11 北京字节跳动网络技术有限公司 互动信息处理方法、装置、电子设备及存储介质
US11552966B2 (en) * 2020-09-25 2023-01-10 International Business Machines Corporation Generating and mutually maturing a knowledge corpus
CN112100433A (zh) * 2020-11-17 2020-12-18 深圳五洲无线股份有限公司 基于可穿戴设备的音频播放方法、装置、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008066166A1 (fr) * 2006-11-30 2008-06-05 National Institute Of Advanced Industrial Science And Technology Système de site web pour recherche de données vocales

Also Published As

Publication number Publication date
JP2013029684A (ja) 2013-02-07

Similar Documents

Publication Publication Date Title
US10410627B2 (en) Automatic language model update
US8386265B2 (en) Language translation with emotion metadata
US9031839B2 (en) Conference transcription based on conference data
CN101382937B (zh) 基于语音识别的多媒体资源处理方法及其在线教学系统
US10147416B2 (en) Text-to-speech processing systems and methods
JP5751627B2 (ja) 音声データ書き起こし用webサイトシステム
US9740686B2 (en) System and method for real-time multimedia reporting
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
Alberti et al. An audio indexing system for election video material
US11093110B1 (en) Messaging feedback mechanism
JP2009522845A (ja) サーチ可能なマルチメディア・ストリーム
Aksënova et al. How might we create better benchmarks for speech recognition?
Lamel et al. Speech processing for audio indexing
Munteanu et al. Web-based language modelling for automatic lecture transcription.
Furui Recent progress in corpus-based spontaneous speech recognition
Mirkin et al. A recorded debating dataset
Nouza et al. Making czech historical radio archive accessible and searchable for wide public
Pražák et al. Live TV subtitling through respeaking with remote cutting-edge technology
KR102261539B1 (ko) 지능형 한국 문화 플랫폼 서비스 제공 시스템
US20140129221A1 (en) Sound recognition device, non-transitory computer readable storage medium stored threreof sound recognition program, and sound recognition method
US11922931B2 (en) Systems and methods for phonetic-based natural language understanding
JP5366050B2 (ja) 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム
Valor Miró et al. Integrating a state-of-the-art ASR system into the Opencast Matterhorn platform
Furui et al. Transcription and distillation of spontaneous speech
WO2021017302A1 (zh) 一种数据提取方法、装置、计算机系统及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150512

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150514

R150 Certificate of patent or registration of utility model

Ref document number: 5751627

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees