JP3945778B2 - 設定装置、プログラム、記録媒体、及び設定方法 - Google Patents

設定装置、プログラム、記録媒体、及び設定方法 Download PDF

Info

Publication number
JP3945778B2
JP3945778B2 JP2004071229A JP2004071229A JP3945778B2 JP 3945778 B2 JP3945778 B2 JP 3945778B2 JP 2004071229 A JP2004071229 A JP 2004071229A JP 2004071229 A JP2004071229 A JP 2004071229A JP 3945778 B2 JP3945778 B2 JP 3945778B2
Authority
JP
Japan
Prior art keywords
character
character string
data
recognition
recognition data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004071229A
Other languages
English (en)
Other versions
JP2005258198A (ja
Inventor
晃太郎 宮本
みどり 東海林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2004071229A priority Critical patent/JP3945778B2/ja
Priority to US11/077,586 priority patent/US20050203750A1/en
Publication of JP2005258198A publication Critical patent/JP2005258198A/ja
Application granted granted Critical
Publication of JP3945778B2 publication Critical patent/JP3945778B2/ja
Priority to US12/131,665 priority patent/US7676373B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、設定装置、プログラム、記録媒体、及び設定方法に関する。特に本発明は、音声に同期して音声の内容を表示する処理を制御する設定装置、プログラム、記録媒体、及び設定方法に関する。
近年、IT機器の性能が飛躍的に向上し、ブロードバンド等のコンピュータネットワークが整備されるのに伴って、動画などのデジタルコンテンツが盛んに配信されるようになってきている。動画は、文字などの静的なコンテンツと比較して多くの利用者にとって分かり易く、かつ説得力が高い。更に、ケーブルテレビ及びCSテレビ等の普及により、テレビ番組のチャンネル数が増加しており、動画コンテンツは様々な分野において更に広く用いられていくことが予想される。
動画により提供される情報をより多くの利用者に適切に提供するには、動画に対応付けて音声の内容を示す字幕を表示することが必要である。更に、2007年には、放送等される全ての動画に字幕を付与することが目標として掲げられている。このため、動画に対して適切な字幕を表示する技術の進歩が社会的に要請されている。
従来、音声を認識して音声の内容を示す文字列を生成する音声認識技術により、字幕を生成する方法が提案されている。しかしながら、音声認識技術は、音声を誤認識して誤った文字列を生成する場合がある。また、句読点又は記号等は、音声として表現されないので、音声認識技術によってこれらの記号を適切に表示させることはできない。このため、音声認識技術をそのまま字幕生成に適用することはできず、音声認識結果を修正して字幕を作成していた(特許文献2参照。)。
他の方法として、動画の音声の台本を、適切な長さの文字列毎に分割して、適切なタイミングで表示する方法が提案されている。しかしながら、高機能な動画編集ソフトウェアを用いた場合であっても、手作業で適切なタイミングを決定するのは困難であった。このため、従来、再生される音声と台本とを比較して、台本中の各文字列を表示すべきタイミングを決定する技術が提案されている(特許文献1及び3参照。)。
非特許文献1については後述する。
特開平10−254478号公報 特開2000−89786号公報 特開平10−136260号公報 「テレビドラマのシナリオと音声トラックの自動対応付け」、谷村正剛ら著、自然言語情報処理26−4、1999年5月28日発行
特許文献1及び3の技術は、まず、音声を分析することにより、音声が所定期間発せられなかった部分を文の切れ目と判断する。そして、音声を分析した結果得られた文の文頭の音素と、台本における各文の文頭に含まれる音素とを比較することにより、音声と台本との対応付けを生成する。これにより、台本中の各文を、その文に一致した音声が発せられる時に表示すべきであることが分かる。
しかしながら、音声が発せられない部分は、文の切れ目とは限らない。例えば、話者は、迷ったり困ったとき、息継ぎをするとき、一瞬考えたとき、又は強調したいとき等、様々な場合に間をおいて話す。従って、この技術により文の切れ目を適切に判断することは難しく、台本中の各文と一致する音声を検出するのは困難である。音声と字幕の表示タイミングが相違すると、例えば、話者が話し始めているにもかかわらず字幕が表示されないという不都合、又は、話者が話し始めていないのにも関わらずクイズの答えなどが先に表示されてしまう不都合が発生してしまう。
更に、この技術は、台本中の各文をそのまま字幕として表示するため、利用者の読みやすさ又は表示装置の画面のサイズ等を考慮して文を分割又は結合することはできない。また、この技術は、音声認識の精度に関わらず同様の字幕を生成するため、音声認識の認識率が将来向上したとしても、字幕の表示精度を向上させることはできない。
そこで本発明は、上記の課題を解決することのできる設定装置、プログラム、記録媒体、及び設定方法を提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の第1の形態においては、内容が予め定められた音声の再生に同期してその内容を表示する表示タイミングを設定する設定装置であって、音声の内容を示す内容データを取得する内容データ取得部と、再生される音声を音声認識した文字データを分割して複数の認識データを生成する音声認識部と、複数の認識データの各々に一致する文字列を内容データから検出する文字列検出部と、文字列検出部により一致する文字列が検出されなかった各認識データについて、当該認識データに含まれる各文字に一致する文字を内容データから検出することにより、当該認識データに一致する文字列を内容データから検出する文字検出部と、前記認識データのうち前記文字検出部により一致する文字が検出されなかった各文字について、当該文字の読みに含まれる音素に一致する音素を、前記内容データの読みの中から検出する音素検出部とを備え、前記文字検出部は、前記認識データのうち前記音素検出部により一致する音素が検出された文字に一致する文字として、前記内容データにおいて当該音素を含む文字を更に検出し、内容データに含まれる文字列の各々を表示させる表示タイミングを、当該文字列に一致する認識データとして音声認識された音声の再生時に設定する表示設定部を更に備える設定装置、当該設定装置を用いた設定方法、コンピュータを当該設定装置として機能させるプログラム、当該プログラムを記録した記録媒体を提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本発明によれば、音声の再生に同期して、その音声の内容を示す文字列を表示することができる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。例えば、明快な方法として全体的にまたは部分的に重み付けなどを利用して幾つかの処理を一括処理させるような手段も想定しうる事はいうまでもない。
図1は、字幕設定装置10の機能ブロック図である。字幕設定装置10は、内容が予め定められた音声を含む動画の再生に同期して、その内容を字幕として表示するタイミングを字幕行表示装置15に設定することを目的とする。字幕設定装置10は、内容データ取得部100と、音声認識部110と、文字列検出部120と、文字検出部130と、読付部140と、音素検出部150と、信頼度算出部160と、信頼度取得部165と、表示設定部170とを備える。
内容データ取得部100は、音声の内容を示す内容データ20を取得する。音声認識部110は、話者により話された音声をマイクなどで取得することにより、再生される音声を音声認識する。音声認識には、既存の多様な技術を適用可能である。そして、音声認識部110は、音声認識した文字データを分割して複数の認識データを生成する。例えば、生成した複数の認識データを、認識データ30−1〜Nとする。ここで、認識データ30−1〜Nの各々は、音声認識された時刻に対応付けられていることが望ましい。音声認識部110は、生成した認識データ30−1〜Nを文字列検出部120に送る。
文字列検出部120は、認識データ30−1〜Nの各々に一致する文字列を内容データ20から検出し、検出結果を信頼度算出部160に送る。文字列検出部120は、文字検出部130から受け取った検出結果に基づいて一致する文字列を検出してもよい。文字検出部130は、文字列検出部120により一致する文字列が検出されなかった各認識データについて、その認識データに含まれる各文字に一致する文字を内容データ20から検出することにより、その認識データに一致する文字列を内容データ20から検出する。また、文字検出部130は、音素検出部150により一致する音素が検出された文字に一致する文字として、内容データ20においてその音素を含む文字を検出してもよい。そして、文字検出部130は、検出結果を文字列検出部120に送る。
読付部140は、内容データ20の読み方の候補である読み候補を複数生成する。更に、読付部140は、これらの読み候補の各々を、その読み候補により読まれる可能性を示す情報に対応付けて生成してもよい。音素検出部150は、認識データ30−1〜Nのうち文字検出部130により一致する文字が検出されなかった各文字を、その文字の読みを含む音素に展開する。例えば、音素検出部150は、漢字をその漢字の読みを示す平仮名に変換してもよい。
そして、音素検出部150は、認識データ30−1〜Nのうち文字検出部130により一致する文字が検出されなかった各文字について、その文字の読みに含まれる音素に一致する音素を、読付部140により生成された複数の読み候補の何れかの中から検出する。更に、音素検出部150は、一致する音素を検出できなかった文字については、その文字に含まれる音素が発せられる時間の長さ等に基づいて、一致する文字を検出してもよい。そして、音素検出部150は、検出結果を文字検出部130に送る。
信頼度算出部160は、認識データ30−1〜Nの各々が文字列に一致する確度である信頼度を、認識データ毎に算出する。ここで、信頼度とは、各認識データが音声認識された時刻に、その認識データに一致する文字列を内容とする音声が再生される確度をいう。例えば、信頼度算出部160は、文字列検出部120のみにより一致する文字列が検出された認識データに対応付けて、文字列検出部120及び文字検出部130により一致する文字列が検出された認識データと比較して、より高い信頼度を算出してもよい。そして、信頼度算出部160は、内容データ20の各文字列に信頼度を対応付けて信頼度取得部165に送る。
信頼度取得部165は、各文字列に対応付けて、その文字列を表示すべき時刻、即ちその文字列に一致する認識データとして音声認識された音声の再生時刻を、文字列検出部120を介して音声認識部110から取得する。更に、信頼度取得部165は、その再生時刻にその文字列を内容とする音声が再生される確度である信頼度を、信頼度算出部160から取得する。
表示設定部170は、内容データ20に含まれる文字列の各々を表示させる表示タイミングを、その文字列に一致する認識データとして音声認識された音声の再生時に設定する。例えば、表示設定部170は、文字列を表示するべき時刻をその文字列に対応付けた表示タイミング情報40を、字幕行表示装置15に出力してもよいし、字幕行表示装置15から参照可能なデータベース等に格納してもよい。更に、表示設定部170は、表示するべき字幕の設定情報を字幕行表示装置15から取得し、取得したその設定情報に基づいて文字列を連結してもよい。設定情報とは、例えば、字幕行表示装置15の表示部において1行に表示可能な文字数、又は、句点若しくは読点において字幕を改行するか否かを示す情報をいう。
図2は、内容データ20の一例を示す。内容データ20は、音声の内容として、漢字、仮名、アルファベット、及び句読点により構成される文字列を含む。内容データ20を用いることにより、音声認識の結果をそのまま表示する技術とは異なり、発音されない記号等も含めて適切な字幕を生成できる。以降、内容データ20が、「近年ITを取り巻く環境は著しく変化いたしております。ここで流れをおさらいします。」という文章である場合について説明する。
図3は、認識データ30−1〜Nの一例を示す。音声認識部110は、認識データ30−1〜Nの各々を、その認識データが認識された認識時刻に対応付けて生成する。ここで、認識時刻とは、例えば、音声の再生開始時から、その認識データとして認識される部分の再生時点までに経過した時間である。一例として、音声認識部110は、認識データ30−1として「金ねうん」の文字列を生成し、認識データ30−1に対応付けて「02.103」の認識時刻を生成する。
図3を図2と比較することにより、音声認識部110が、音声認識の結果、内容データ20とは異なる誤った文字列を生成していることが分かる。本実施例における字幕設定装置10は、音声認識の結果がこのように誤っている場合であっても、適切な表示タイミングを設定することができる。
図4は、表示タイミング情報40の一例を示す。表示設定部170は、表示タイミング情報40として、表示するべき文字列に、その文字列を表示するべき表示時刻を対応付けた情報を生成し、字幕行表示装置15に設定する。ここで、表示時刻とは、音声の再生開始時から文字列を表示すべるべき時刻までの時間である。一例として、表示設定部170は、「近年ITを取り巻く環境は」の文字列を、表示時刻の一例であるタイムスタンプ「02.103」に対応付けた情報を生成する。
ここで、「近年ITを取り巻く環境は」の文字列は、認識データ30−1〜4の組に対応する。このように、表示設定部170は、表示すべき時刻を設定するのみならず、必要に応じて文字列を連結する処理を行う。
図5は、字幕設定装置10が表示タイミングを設定する処理の動作フローを示す。内容データ取得部100は、音声の内容を示す内容データ20を取得する(S500)。ここで、内容データ取得部100は、取得するべき内容データを利用者からの指示に基づいて選択してもよい。音声認識部110は、再生される音声を音声認識し(S510)、音声認識した文字データを分割して認識データ30−1〜Nを生成する(S515)。例えば、音声認識部110は、予め定められた単語数、例えば1から3単語毎に分割してもよいし、予め定められた再生時間、例えば1.5秒毎に分割してもよい。
これに代えて、音声認識部110は、無音状態が所定の長さ、例えば100ミリ秒以上継続した部分を、認識データの境界と判断してもよい。好ましくは、音声認識部110は、文字データを、できるだけ短い意味のまとまり、例えば文より短い単語、句、又は節等の文字列毎に分割する。これにより、タイムスタンプの生成精度を高めることができる。音声認識部110によるこの分割の処理を、細分音声認識行処理と呼ぶ。
また、好ましくは、音声認識部110は、音声認識した認識データ30−1〜Nが、再生される音声の内容と一致する可能性を示す音声認識確信度を、音声認識データ毎に更に生成する。更に、音声認識部110は、音声認識した複数の文字データの中から、分割するべき文字データを、利用者からの指示に基づいて選択してもよい。
続いて、文字列検出部120は、認識データ30−1〜Nの各々に一致する文字列を内容データ20から検出する(S520)。この処理の中で、必要に応じて、文字検出部130は、認識データに含まれる各文字に一致する文字を内容データ20から検出してもよい。また、認識データ30−1〜Nのうち文字検出部130により一致する文字が検出されなかった各文字について、その文字の読みに含まれる音素に一致する音素を内容データ20から検出してもよい。詳細は後述する。
表示設定部170は、文字列検出部120により何れの文字列にも一致しない認識データがあるか否か判断する(S530)。そのような認識データがある場合に(S530:YES)、表示設定部170は、文字列検出部120により内容データ20において一致する文字列が検出されなかったその認識データを、その認識データとして音声認識された音声の再生時に表示させるべく、表示すべき文字列に追加する(S540)。
更に、表示設定部170は、表示するべき字幕の設定情報を字幕行表示装置15から取得し、取得したその設定情報に基づいて文字列を連結する(S550)。表示設定部170は、この連結処理を、字幕表示に先立って予め行ってもよいし、字幕を表示すべき指示を字幕行表示装置15から受けた場合に動的に行ってもよい。これにより、表示設定部170は、字幕行表示装置15の表示部のサイズ等に応じて、適切な字幕を生成することができる。以降、表示設定部170によるこの連結処理を、最適字幕行表示処理と呼ぶ。そして、表示設定部170は、内容データ20に含まれる文字列の各々を表示させる表示タイミングを、その文字列に一致する認識データとして音声認識された音声の再生時に設定する(S560)。
図6は、S520における処理の詳細を示す。文字列検出部120は、まず、認識データ30−1〜Nの各々に含まれる各文字に一致する文字を内容データ20から検出する(S600)。従来、この検出処理として効率的な方法であるDPマッチングが、提案されている(非特許文献1参照。)。文字列検出部120は、例えば、DPマッチングによりこの検出処理を行ってもよいし、他の手法によりこの検出処理を行ってもよい。文字列検出部120は、検出結果として、内容データ20中の文字を順次縦軸に配列し、認識データ30−1〜Nを順次横軸に配置した座標軸において、内容データ20中の各文字と認識データ30−1〜N中の各文字が一致する点を順次経由するグラフである最適マッチング路を生成してもよい。
そして、文字列検出部120は、認識データ30−1〜Nの各々に一致する文字列を再度検出するべく、以下の処理を各認識データについて繰り返す(S610)。本実施例において、文字列検出部120は、複数の認識データに対して、認識された順に、即ち音声として再生された順に、以下の処理を行う。これに代えて、文字列検出部120は、音声認識確信度が高い順に、即ち、音声認識確信度がより高い認識データに対して、その認識データと比較して音声認識確信度が低い認識データに先立って、以下の処理を行ってもよい。
文字列検出部120は、その認識データに一致する文字列を内容データ20から検出する(S620)。続いて、文字列検出部120は、一致する文字列を検出できなかった認識データについて、その認識データに含まれる文字と一致する文字を検出する処理が必要か否か判断する(S630)。処理が必要な場合に(S630:YES)、文字検出部130は、その認識データに含まれる文字に一致する文字を検出する(S640)。なお、このように、一致する文字列が検出できなかったデータあるいは単純に一括した文字列に対して、そのデータに含まれる部分データについて一致する文字を順次再帰的にスケールレベルを遷移させながら検出する処理を、本実施例においては、アップスケーリング処理と呼ぶ。
続いて、信頼度算出部160は、認識データ30−1〜Nの各々が文字列に一致する確度である信頼度を、認識データ毎に算出する(S650)。例えば、信頼度算出部160は、文字列検出部120のみにより一致する文字列が検出された認識データに対応付けて、文字列検出部120及び文字検出部130により一致する文字列が検出された認識データと比較して、より高い信頼度を算出してもよい。
また、信頼度算出部160は、音素検出部150により一致する音素が検出された文字を含む認識データに対応付けて、音素検出部150により一致する音素が検出されることなく文字検出部130により一致する文字が検出された認識データと比較して、より低い信頼度を生成する。即ち、アップスケーリング処理の段階が増加するのに応じてより低い信頼度を生成する。これにより、異なる文字で音素が偶然一致したようなエラーを含み得る認識データに対しては、より低い信頼度を生成することができる。
字幕設定装置10は、以上の処理を各認識データについて繰り返す(S660)。
本図に示すように、文字列検出部120は、各認識データに一致する文字列を内容データ20から検出する処理に先立って、検出精度の高いDPマッチング等により、文字単位の一致を判断する。そして、文字列検出部120は、DPマッチングにより既に一致する文字が検出された認識データについて、その認識データと一致する文字列を内容データ20から再度検出する。これにより、一致する文字を検出する精度を高められると共に、その一致が認識データ単位で判断されるものであるか、又は文字単位で判断されるものであるか判断できる。これに代えて、文字列検出部120は、DPマッチング等の文字単位の一致を判断しなくともよい。
図7は、S620における処理の詳細を示す。文字列検出部120は、まず、検出対象の認識データに一致する文字列を内容データ20から検出する。更に、文字列検出部120は、検出対象の認識データの検出結果のみならず、その前に検出する対象であった認識データ、及び更にその前に検出する対象であった認識データの検出結果に基づいて、更に以下の処理を行う。
本図における丸印は、認識データに一致する文字列が検出されたことを示す。一方、X印は、認識データに一致する文字列が検出されていないことを示す。例えば文字列検出部120は、1つ前の認識データ及び対象の認識データの各々に一致する文字列を検出した場合には、2つ前の認識データの検出結果に関わらず、対象の認識データに一致する文字列を検出したと判断する。
文字列検出部120は、1つ前の認識データに一致する文字列を検出し、かつ対象の認識データに一致する文字列を検出できなかった場合には、2つ前の認識データの検出結果に関わらず、対象の認識データについての処理を保留し、S620の処理を終え、次の認識データについての処理に移る。
1つ前の認識データに一致する文字列が検出できない場合において、文字列検出部120は、以下の処理を行う。
文字列検出部120は、2つ前の認識データ及び対象の認識データの各々に一致する文字列を検出した場合には、当該1つ前の認識データが、2つ前の認識データ及び対象の認識データの各々に一致する各文字列の間の文字列に一致すると判断する。
文字列検出部120は、2つ前の認識データに一致する文字列を検出し、対象の認識データに一致する文字列を検出できない場合に、対象の認識データについての処理を保留し、S620の処理を終え、次の認識データについての処理に移る。但し、対象の認識データが、検出対象の最後の認識データである場合には、文字列検出部120は、1つ前の認識データ及び対象の認識データを連結したデータを対象として、文字検出部130により一致する文字を検出させる。即ちこの場合、S630において、文字列検出部120は、一致する文字を検出する処理が必要と判断する。
文字列検出部120は、2つ前の認識データに一致する文字列を検出できず、対象の認識データに一致する文字列を検出できた場合に、2つ前の認識データ及び1つ前の認識データを連結したデータを対象として、文字検出部130により一致する文字を検出させる。文字検出部130の検出結果に基づく認識データの信頼度が、予め定められた基準信頼度未満であれば、文字列検出部120は、その認識データに対応付けて、その認識データが信頼度の低い旨を示す低信頼データである旨の再評価フラグを付す。本図においてはこのフラグを三角印で表す。
文字列検出部120は、2つ前、1つ前、及び対象の認識データの何れにも一致する文字列を検出できなかった場合に、1つ前、2つ前、及び更にその前の認識データを結合したデータを対象として、文字検出部130により一致する文字を検出させる。
一方、文字列検出部120は、2つ前の認識データに一致する文字列を検出できず、1つ前の認識データに再評価フラグが付されている場合においては、以下の処理を行う。
文字列検出部120は、対象の認識データに一致する文字列を検出した場合に、1つ前の認識データから再評価フラグを取り除くことにより、当該1つ前の認識データに一致する文字列を検出したと判断する。即ち三角印を丸印に変更する。一方、対象の認識データに一致する文字列を検出できなかった場合に、文字列検出部120は、1つ前の認識データから再評価フラグを取り除くことにより、当該1つ前の認識データに一致する文字列を検出できないと判断する。即ち、三角印をバツ印に変更する。
このように、文字列検出部120は、複数の認識データの各々について、その認識データに完全に一致する文字列のみならず、その認識データの前後の認識データが一致した場合に、その認識データについても一致したと判断する。より正確には、文字列検出部120は、第1の認識データに一致する第1の文字列及び第2の認識データに一致する第2の文字列を検出した場合に、第1の認識データに後続しかつ第2の認識データに先行する認識データに一致する文字列として、第1の文字列に後続し第2の文字列に先行する文字列を検出する。即ち、一致とは、完全一致のみならず、前後の認識データが一致したことに基づくこの一致を含む。以降、この一致を、挟み打ち処理による一致と呼ぶ。
これにより、文字又は音素単位の一致を検出する処理をできるだけ減少させて、処理の効率を高めることができる。更に、文字単位の一致を検出する必要がある場合であっても、検出範囲を限定することができるので、効率がよい。
図8は、S640における処理の詳細を示す。文字検出部130は、検出対象の認識データに含まれる各文字について、以下の処理を繰り返す(S800)。まず、文字検出部130は、その文字に一致する文字を内容データ20から検出する(S810)。そして、文字検出部130は、一致する文字を検出できなかった認識データについて、その認識データに含まれる文字に含まれる音素と一致する音素を検出する処理が必要か否か判断する(S820)。
処理が必要な場合に(S820:YES)、音素検出部150は、文字検出部130により一致する文字が検出されなかった各文字について、その文字の読みに含まれる音素に一致する音素を、内容データ20の読みの中から検出する(S830)。文字検出部130は、以上の処理を各文字について繰り返す(S840)。
図9は、S810における第1の処理の詳細を示す。文字検出部130は、検出対象の文字が認識データの末尾の文字でない場合に、本図の処理を行う。まず、文字検出部130は、検出対象の文字に一致する文字を内容データ20から検出する。更に、文字検出部130は、検出対象の文字の検出結果のみならず、その前に検出する対象であった文字、及び、検出対象の認識データ(認識データの組を含む)の先頭の文字の検出結果に基づいて、更に以下の処理を行う。
文字検出部130は、1つ前の文字に一致する文字を検出し、かつ対象の文字に一致する文字を検出した場合には、S810における処理を終了し、次の文字に対する検出処理に移る。一方、文字検出部130は、1つ前の文字に一致する文字を検出し、かつ対象の文字に一致する文字を検出できなかった場合には、対象の文字についての検出処理を保留して、次の文字についての処理に移る。
文字検出部130は、1つ前の文字に一致する文字を検出できなかった場合においては、他の条件に応じて以下の処理を行う。
文字検出部130は、先頭の文字及び対象の文字の各々に一致する文字を検出した場合に、文字の一致を検出すべき対象の認識データ全体が、内容データ20の文字列に一致したと判断する。即ち、文字検出部130は、同一の認識データ内の文字については、複数の文字についても挟み打ち処理による一致の判断を行う。このように、文字の一致とは、文字の完全一致のみならず、前後の文字が一致したことに基づく一致を含む。
一方、文字検出部130は、対象の文字に一致する文字を検出できなかった場合には、対象の文字についての検出処理を保留して、次の文字についての処理に移る。文字検出部130は、先頭の文字に一致する文字を検出できず、対象の文字に一致する文字を検出できた場合には、S810における処理を終了し、次の文字に対する検出処理に移る。
図10は、S810における第2の処理の詳細を示す。文字検出部130は、検出対象の文字が認識データの末尾の文字である場合に、本図の処理を行う。具体的には、文字検出部130は、検出対象の認識データ(認識データの組を含む)の先頭の文字の検出結果、及び、検出対象の次の認識データの文字列検出部120による検出結果に基づいて、以下の処理を行う。
文字検出部130は、先頭の文字に一致する文字を検出し、かつ次の認識データに一致する文字列が検出されている場合に、対象の認識データ全体を一致と判断する。一方、文字検出部130は、先頭の文字に一致する文字を検出し、かつ次の認識データに一致する文字列が検出されていない場合に、先頭の文字に後続する文字列の音素を検出対象として、音素検出部150により一致する音素を検出させる。
文字検出部130は、先頭の文字に一致する文字を検出せず、かつ次の認識データに一致する文字列が検出されている場合に、次の認識データに先行する文字列の音素を検出対象として、音素検出部150により一致する音素を検出させる。一方、文字検出部130は、先頭の文字に一致する文字を検出せず、かつ次の認識データに一致する文字列が検出されていない場合に、文字を検出する対象の認識データ全体を検出対象として、音素検出部150により一致する音素を検出させる。
図11は、S830における第1の処理の詳細を示す。音素検出部150は、検出対象の音素が認識データの末尾の文字でない場合に、本図の処理を行う。まず、音素検出部150は、検出対象の音素に一致する音素を内容データ20の所定の読み候補から検出する。音素検出部150は、一致する音素が検出できなかった場合には、検出対象の音素を読まれる可能性が高い順に複数の読み候補の各々と比較するべく、次に可能性の高い読み候補と比較する。何れの読み候補にも一致しない場合には、音素検出部150は、その音素についての処理を保留して、次の音素の処理に移る。
続いて、検出対象の音素に一致する音素を検出した場合には、音素検出部150は、検出対象の認識データ(認識データの組を含む)の先頭の文字の検出結果、及び、検出対象の1つ前の音素の検出結果に基づいて、以下の処理を行う。
先頭文字に一致する文字が検出されている場合に、文字検出部130は、検出対象の認識データ内において一致する文字が検出されていない各文字について、一致する文字が検出されたと判断する。このように、音素の一致に基づいて、文字についての挟み打ち処理による一致を判断してもよい。一方、音素検出部150は、対象の音素に一致する音素を検出したその他の場合には、対象の音素についての処理を終了して、次の音素についての処理に移る。
図12は、S830における第2の処理の詳細を示す。音素検出部150は、検出対象の音素が認識データの末尾の文字である場合に、本図の処理を行う。具体的には、音素検出部150は、先頭文字に一致する文字の検出結果と、次の認識データに一致する文字列の検出結果、又は、対象の認識データが最後の認識データ(例えば認識データ30−N)であるか否かとに基づいて、以下の処理を行う。
まず、次の認識データに一致する文字列が検出されていない場合と、検出対象の認識データが最後の認識データでない場合とにおいて、音素検出部150は、S830の処理、即ち一致する音素を検出する処理を終了する。この結果、文字列検出部120は、次の認識データについての処理に移る。一方、次の認識データに一致する文字列が検出されている場合、又は、検出対象の認識データが最後の認識データである場合においては、以下の処理を行う。
音素検出部150は、先頭文字に一致する文字が検出されている場合には、検出対象の認識データ内の不一致文字を一致するものと判断する。一方、音素検出部150は、先頭文字に一致する文字が検出されていない場合には、音声の内容に関わらず音声の長さ又は文字の長さに基づいて一致する音素を検出する強制割り振り処理を行う。信頼度算出部160は、この強制割り振り処理により一致する音素が検出された認識データに対応付けて、この強制割り振り処理によらず一致する文字が検出された認識データと比較して、更に低い信頼度を算出する。
図13は、S550における処理の詳細を示す。表示設定部170は、利用者から入力された、表示するべき字幕の設定情報を字幕行表示装置15等から取得する(S1310)。例えば、表示設定部170は、設定情報を示すコマンド等をパースすることにより、設定情報の内容を解析する(S1320)。設定情報とは、字幕行表示装置15の表示部の1行に表示させる文字数であってもよいし、字幕を句読点で改行するか否かの指示であってもよい。
信頼度取得部165は、内容データ20に含まれる複数の文字列の各々に対応付けて、その文字列を表示すべき時刻、及びその時刻にその文字列を内容とする音声が再生される確度である信頼度を、信頼度算出部160から取得する(S1325)表示設定部170は、各認識データと一致する内容データ20内の各文字列について、その文字列が、設定情報の条件を満たすか否か判断する(S1330)。
満たしていない場合に(S1330:NO)。表示設定部170は、複数の文字列を連結する(S1340)。具体的には、表示設定部170は、複数の文字列のうち連続した2つの文字列について、先に表示すべき文字列に対応する信頼度が、後に表示すべき文字列に対応する信頼度より高い場合に、先に表示すべきその文字列の末尾に後に表示すべきその文字列を連結した文字列を、先に表示すべき文字列を表示すべき時刻に表示させる設定を行う。
そして、表示設定部170は、S1330に処理を戻して判断を繰り返す。この結果、表示設定部170は、設定情報の条件を満たすまで、文字列の連結を繰り返す。例えば、表示設定部170は、S1340の処理を行う直前において先に表示すべき文字列に対応する信頼度が、後に表示すべき文字列に後続する後続文字列に対応する信頼度より高い場合に、S1340において連結した文字列の末尾にその後続文字列を更に連結した文字列を、先に表示すべきその文字列を表示すべき時刻に表示させる設定を行ってもよい。
このように、表示設定部170は、表示デバイスの機能・特徴に応じて文字列を連結することにより、最適なユーザビリティ(可用性)を利用者に提供することができる。
以上、図1から図13において説明したように、字幕設定装置10は、音声認識した文字データに対して表示タイミングを設定する場合には、細分認識行処理により文字データを1から3単語程度の長さの認識データ毎に分割して、内容データ20内の文字列との一致を判断する。これに対して、字幕行を表示する場合には、表示部等の特徴に基づいてこれらの認識データを適切に連結する。即ち、表示タイミングの設定と、字幕行生成とでは、異なるサイズのデータを処理対象とする。これにより、双方の処理を効率的に行うことができる。また、字幕設定装置10は、音声認識の結果を用いて表示タイミングの設定を行うので、音声認識技術の進歩に伴い、表示タイミングの設定精度を向上させることができる。

本実施例における字幕設定装置10により行った実験結果を次に示す。本実験において、字幕設定装置10は、アドリブに基づく32行分の音声と、台本の定められた86行分の音声とを入力とする。DPマッチングによって、全ての行の一致が判断された結果、そのうち12%の文においてタイムスタンプに誤りが生じている。そして、文字列検出部120により66行分の文字列が検出され、文字検出部130により36行文の文字が検出された結果、タイムスタンプの誤りは一切生じていない。音素検出部150により6行分の文字の音素が検出された結果、2%の文字においてタイムスタンプに誤りが生じている。更に、音素検出部150により強制割り振りが処理された結果、4%の文字においてタイムスタンプに誤りが生じている。このように、従来効率が高いアルゴリズムとして知られているDPマッチングと比較して、より高い精度で表示タイミングを設定することができる。
また、この実験において、表示設定部170は、文字検出部130により検出した文字を含む文字列のうち2つを、他の文字列に連結して表示させ、音素検出部150により音素が検出された文字を含む文字列のうち3つを、他の文字列に連結して表示させた。更に、強制割り振りにより検出された文字を含む文字列のうち10の文字列を、他の文字列に連結して表示させた。このように、アップスケーリング処理の段階が進むのに応じて低い信頼度を生成することにより、誤っている可能性の高いタイムスタンプを有する文字列を、他の文字列に連結して表示させる。この結果、字幕行の表示タイミングの精度を高めることができる。
図14は、字幕設定装置10として機能するコンピュータのハードウェア構成の一例を示す。字幕設定装置10は、ホストコントローラ1482により相互に接続されるCPU1400、RAM1420、グラフィックコントローラ1475、及び表示装置1480を有するCPU周辺部と、入出力コントローラ1484によりホストコントローラ1482に接続される通信インターフェイス1430、ハードディスクドライブ1440、及びCD−ROMドライブ1460を有する入出力部と、入出力コントローラ1484に接続されるROM1410、フレキシブルディスクドライブ1450、及び入出力チップ1470を有するレガシー入出力部とを備える。
ホストコントローラ1482は、RAM1420と、高い転送レートでRAM1420をアクセスするCPU1400及びグラフィックコントローラ1475とを接続する。CPU1400は、ROM1410及びRAM1420に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1475は、CPU1400等がRAM1420内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1480上に表示させる。これに代えて、グラフィックコントローラ1475は、CPU1400等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1484は、ホストコントローラ1482と、比較的高速な入出力装置である通信インターフェイス1430、ハードディスクドライブ1440、及びCD−ROMドライブ1460を接続する。通信インターフェイス1430は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1440は、字幕設定装置10が使用するプログラム及びデータを格納する。CD−ROMドライブ1460は、CD−ROM1495からプログラム又はデータを読み取り、RAM1420を介して入出力チップ1470に提供する。
また、入出力コントローラ1484には、ROM1410と、フレキシブルディスクドライブ1450や入出力チップ1470等の比較的低速な入出力装置とが接続される。ROM1410は、字幕設定装置10の起動時にCPU1400が実行するブートプログラムや、字幕設定装置10のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1450は、フレキシブルディスク1490からプログラム又はデータを読み取り、RAM1420を介して入出力チップ1470に提供する。入出力チップ1470は、フレキシブルディスク1490や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
字幕設定装置10に提供されるプログラムは、フレキシブルディスク1490、CD−ROM1495、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1470及び/又は入出力コントローラ1484を介して、記録媒体から読み出され字幕設定装置10にインストールされて実行される。
字幕設定装置10にインストールされて実行されるプログラムは、内容データ取得モジュールと、音声認識モジュールと、文字列検出モジュールと、文字検出モジュールと、読付モジュールと、音素検出モジュールと、信頼度算出モジュールと、信頼度取得モジュールと、表示設定モジュールとを含む。各モジュールが字幕設定装置10に働きかけて行わせる動作は、図1から図13において説明した字幕設定装置10における、対応する部材の動作と同一であるから、説明を省略する。
以上に示したプログラム又はモジュールは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1490、CD−ROM1495の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを字幕設定装置10に提供してもよい。
図15は、文字列検出部120による処理の一例を説明する図である。文字列検出部120は、第1の認識データである「取り巻く」及び第3の認識データである「変化いたして」の各々に一致する文字列を内容データ20から検出する。一方、文字列検出部120は、第1及び第3の認識データの間の認識データである「緩急は著しく」に完全に一致する文字列を検出できない。このような場合には、文字列検出部120は、挟み打ち処理により、認識データである「緩急は著しく」に一致する文字列として、内容データ20における「取り巻く」及び「変化いたして」の間の文字列である「環境は著しく」を検出することができる。同様に、文字列検出部120は、認識データである「流れをお洗い」に一致する文字列として、「流れをおさらい」を検出することができる。
図16は、音素検出部150による第1の処理の一例を示す。音素検出部150は、文字検出部130により一致する文字が検出されなかった各文字を、その文字の読みに含まれる音素に展開する。本例において、検出対象の文字が日本語であるので、音素検出部150は、漢字及び仮名の混じった文字列を、その文字列の読みを示す平仮名に展開する。即ち、音素検出部150は、「金ねうん」及び「愛ティーを」を、「きんねうん」及び「あいてぃーを」に展開する。
一方、読付部140は、内容データである「近年ITを」の読み方の候補の1つとして、「きんねんあいてぃーを」を生成する。この結果、文字列検出部120は、内容データにおいて、認識データである「愛ティーを」に一致する文字列として、「愛ティーを」の音素に一致する音素を含む文字列である「ITを」を検出することができる。更に、この検出結果に基づいて、文字列検出部120は、認識データである「金ねうん」に一致する文字列として、「近年」を検出してもよい。
図17は、音素検出部150による第2の処理の一例を示す。音素検出部150は、文字検出部130により一致する文字が検出されなかった各文字を、その文字の読みに含まれる音素に展開する。本例において、検出対象の文字が日本語であるので、音素検出部150は、漢字及び仮名の混じった文字列を、その文字列の読みを示す平仮名に展開する。即ち、音素検出部150は、「逆しすせ」及び「五人を」を、「ぎゃくしすせ」及び「ごにんを」に展開する。なお、本例においては、図16と比較して音声認識処理による認識率が低い。
図16と同様に、読付部140は、内容データである「近年ITを」の読み方の候補の1つとして、「きんねんあいてぃーを」を生成する。しかしながら、音素検出部150は、「ぎゃくしすせ」及び「ごにんを」に音素が一致する文字又は文字列を、「きんねんあいてぃーを」の中から検出することができない。
この場合、音素検出部150は、音声の内容に関わらず音声の長さ又は文字の長さに基づいて一致する音素を検出する強制割り振り処理を行う。例えば、「ぎゃくしすせ」として認識された音声の再生時間と、「ごにんを」として認識された音声の再生時間との比率に基づいて、「ぎゃくしすせ」の音素が、「きんねん」の音素に一致すると判断してもよいし、「ごにんを」の音素が、「あいてぃーを」の音素に一意すると判断してもよい。
図18は、本実施例による処理の概要をまとめた図である。内容データ取得部100は、内容データ20、例えば、「アクセシビリティについて」という文字列を取得する。音声認識部110は、音声認識処理により認識データ30−1〜3、例えば「汗しびれ」、「地位」、及び「について」を生成する。文字列検出部120は、まず、DPマッチングにより、「アクセシビリティについて」及び「汗しびれ地位について」を比較して、認識データ30−1〜3の各々に含まれる各文字に一致する文字を内容データ20から検出する。
この結果、文字列検出部120は、認識データ30−1に一致する文字列として「アクセシビ」を検出し、認識データ30−2に一致する文字列として「リティ」を検出する。この検出結果に基づいてそのまま字幕を作成した場合には、2つの問題がある。1つ目の問題は、「地位」として音声認識された時間に表示するべき文字列が「ティ」であるにも関わらず、「リティ」が表示されてしまうことである。即ち、文字列「リティ」を表示するべき時間を示すタイムスタンプが誤っている。
2つ目の問題は、「アクセシビリティ」という1つの単語が、音声認識処理の辞書などに登録されていないので、2つの文字列「アクセシビ」及び「リティ」に分割されて検出されていることである。これにより、字幕行において「アクセシビ」及び「リティ」の間で改行される恐れがある。
文字列検出部120は、認識データ30−1〜3の各々に一致する文字列を内容データ20から再度検出する。そして、信頼度算出部160は、認識データ30−1〜3の各々が内容データ20における文字列を検出する確度である信頼度を算出する。この結果、信頼度算出部160は、認識データ30−1である「汗しいびれ」に対応付けて、認識データ30−2である「地位」と比較して高い信頼度を算出する。
表示設定部170は、字幕の1行に表示可能な文字数が10文字である旨の設定情報を取得する。この場合、表示設定部170は、「アクセシビ」及び「リティ」を連結して「アクセシビリティ」を生成するが、「アクセシビリティ」を「について」に連結しない。その結果、表示設定部170は、表示タイミング情報40として、「アクセシビリティ」及び「について」の各々を、「41.5」及び「50.5」等の所定の時刻に表示すべき旨の情報を生成することができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
以上に示す実施例によると、以下の各項目に示す設定装置、プログラム、記録媒体、及び設定方法が実現される。
(項目1) 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定装置であって、前記音声の内容を示す内容データを取得する内容データ取得部と、再生される前記音声を音声認識した文字データを分割して複数の認識データを生成する音声認識部と、前記複数の認識データの各々に一致する文字列を前記内容データから検出する文字列検出部と、前記文字列検出部により一致する文字列が検出されなかった各認識データについて、当該認識データに含まれる各文字に一致する文字を前記内容データから検出することにより、当該認識データに一致する文字列を前記内容データから検出する文字検出部と、前記内容データに含まれる文字列の各々を表示させる表示タイミングを、当該文字列に一致する認識データとして音声認識された音声の再生時に設定する表示設定部とを備える設定装置。
(項目2) 前記認識データのうち前記文字検出部により一致する文字が検出されなかった各文字について、当該文字の読みに含まれる音素に一致する音素を、前記内容データの読みの中から検出する音素検出部を更に備え、前記文字検出部は、前記認識データのうち前記音素検出部により一致する音素が検出された文字に一致する文字として、前記内容データにおいて当該音素を含む文字を検出する項目1記載の設定装置。
(項目3) 前記内容データの読み方の候補である読み候補を複数生成する読付部を更に備え、前記音素検出部は、前記認識データのうち前記文字検出部により前記内容データに一致する文字が検出されなかった各文字について、当該文字の読みに含まれる音素に一致する音素を、前記読付部により生成された複数の前記読み候補の何れかの中から検出する項目2記載の設定装置。
(項目4) 前記読付部は、前記内容データにおける複数の前記読み候補の各々を、当該読み候補により読まれる可能性を示す情報に対応付けて生成し、前記音素検出部は、前記認識データに含まれる文字の読みに含まれる音素を、読まれる可能性が高い順に、前記複数の読み候補の各々と比較する項目3記載の設定装置。
(項目5) 前記複数の認識データの各々が文字列に一致する確度である信頼度を算出する信頼度算出部を更に備え、前記文字列検出部は、予め定められた基準信頼度未満の信頼度の認識データである低信頼データについて、当該低信頼データに後続する認識データに一致する文字列を検出できなかった場合に、当該低信頼データに一致する文字列は検出できないと判断する項目1記載の設定装置。
(項目6) 前記複数の認識データの各々が文字列に一致する確度である信頼度を算出する信頼度算出部を更に備え、前記表示設定部は、前記内容データにおける複数の前記文字列のうち連続した2つの文字列について、先に表示すべき文字列に対応する信頼度が、後に表示すべき文字列に対応する信頼度より高い場合に、先に表示すべき前記文字列の末尾に後に表示すべき前記文字列を連結した文字列を、先に表示すべき前記文字列を表示すべき時刻に表示させる設定を行う項目1記載の設定装置。
(項目7) 前記信頼度算出部は、前記文字列検出部により一致する文字列が検出された認識データに対応付けて、前記文字検出部により一致する文字列が検出された認識データと比較して、より高い信頼度を算出する項目6記載の設定装置。
(項目8) 前記認識データのうち前記文字検出部により一致する文字が検出されなかった各文字について、当該文字の読みに含まれる音素に一致する音素を、前記内容データの読みの中から検出する音素検出部を更に備え、前記文字検出部は、前記認識データのうち前記音素検出部により一致する音素が検出された文字に一致する文字として、前記内容データにおいて当該音素を含む文字を検出し、前記信頼度算出部は、前記音素検出部により一致する音素が検出された文字を含む認識データに対応付けて、前記音素検出部により一致する音素が検出されることなく前記文字検出部により一致する文字が検出された認識データと比較して、より低い信頼度を生成する項目6記載の設定装置。
(項目9) 前記音声認識部は、音声認識した前記複数の認識データが、再生される音声の内容と一致する可能性を示す音声認識確信度を、認識データ毎に更に生成し、前記文字列検出部は、音声認識確信度がより高い認識データに一致する文字列を、当該認識データと比較して音声認識確信度が低い認識データに先立って検出し、第1の前記認識データに一致する第1の文字列及び第2の前記認識データに一致する第2の文字列を検出した場合に、前記第1の認識データに後続しかつ前記第2の認識データに先行する認識データに一致する文字列として、前記第1の文字列に後続し前記第2の文字列に先行する文字列を検出する項目1記載の設定装置。
(項目10) 前記表示設定部は、前記文字列検出部により前記内容データにおいて一致する文字列が検出されなかった認識データを、当該認識データとして音声認識された音声の再生時に表示させる設定を行う項目1記載の設定装置。
(項目11) 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定装置であって、再生される前記音声の内容を示す内容データに含まれる複数の文字列の各々に対応付けて、当該文字列を表示すべき時刻、及び、当該時刻に当該文字列を内容とする音声が再生される確度である信頼度を取得する信頼度取得部と、前記複数の文字列のうち連続した2つの文字列について、先に表示すべき文字列に対応する信頼度が、後に表示すべき文字列に対応する信頼度より高い場合に、先に表示すべき前記文字列の末尾に後に表示すべき前記文字列を連結した文字列を、先に表示すべき前記文字列を表示すべき時刻に表示させる設定を行う表示設定部とを備える設定装置。
(項目12) 前記表示設定部は、先に表示すべき前記文字列に対応する信頼度が、後に表示すべき前記文字列に後続する後続文字列に対応する信頼度より高い場合に、連結した前記文字列の末尾に前記後続文字列を更に連結した文字列を、先に表示すべき前記文字列を表示すべき時刻に表示させる設定を行う項目11記載の設定装置。
(項目13) 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定装置として、コンピュータを機能させるプログラムであって、前記コンピュータを、前記音声の内容を示す内容データを取得する内容データ取得部と、再生される前記音声を音声認識した文字データを分割して複数の認識データを生成する音声認識部と、前記複数の認識データの各々に一致する文字列を前記内容データから検出する文字列検出部と、前記文字列検出部により一致する文字列が検出されなかった各認識データについて、当該認識データに含まれる各文字に一致する文字を前記内容データから検出することにより、当該認識データに一致する文字列を前記内容データから検出する文字検出部と、前記内容データに含まれる文字列の各々を表示させる表示タイミングを、当該文字列に一致する認識データとして音声認識された音声の再生時に設定する表示設定部として機能させるプログラム。
(項目14) 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定装置として、コンピュータを機能させるプログラムであって、前記コンピュータを、再生される前記音声の内容を示す内容データに含まれる複数の文字列の各々に対応付けて、当該文字列を表示すべき時刻、及び、当該時刻に当該文字列を内容とする音声が再生される確度である信頼度を取得する信頼度取得部と、前記複数の文字列のうち連続した2つの文字列について、先に表示すべき文字列に対応する信頼度が、後に表示すべき文字列に対応する信頼度より高い場合に、先に表示すべき前記文字列の末尾に後に表示すべき前記文字列を連結した文字列を、先に表示すべき前記文字列を表示すべき時刻に表示させる設定を行う表示設定部として機能させるプログラム。
(項目15) 項目13又は項目14に記載のプログラムを記録した記録媒体。
(項目16) 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定方法であって、コンピュータにより、前記音声の内容を示す内容データを取得する内容データ取得段階と、再生される前記音声を音声認識した文字データを分割して複数の認識データを生成する音声認識段階と、前記複数の認識データの各々に一致する文字列を前記内容データから検出する文字列検出段階と、前記文字列検出段階において一致する文字列が検出されなかった各認識データについて、当該認識データに含まれる各文字に一致する文字を前記内容データから検出することにより、当該認識データに一致する文字列を前記内容データから検出する文字検出段階と、前記内容データに含まれる文字列の各々を表示させる表示タイミングを、当該文字列に一致する認識データとして音声認識された音声の再生時に設定する表示設定段階とを備える設定方法。
(項目17) 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定方法であって、コンピュータにより、再生される前記音声の内容を示す内容データに含まれる複数の文字列の各々に対応付けて、当該文字列を表示すべき時刻、及び、当該時刻に当該文字列を内容とする音声が再生される確度である信頼度を取得する信頼度取得段階と、前記複数の文字列のうち連続した2つの文字列について、先に表示すべき文字列に対応する信頼度が、後に表示すべき文字列に対応する信頼度より高い場合に、先に表示すべき前記文字列の末尾に後に表示すべき前記文字列を連結した文字列を、先に表示すべき前記文字列を表示すべき時刻に表示させる設定を行う表示設定段階とを備える設定方法。
図1は、字幕設定装置10の機能ブロック図である。 図2は、内容データ20の一例を示す。 図3は、認識データ30−1〜Nの一例を示す。 図4は、表示タイミング情報40の一例を示す。 図5は、字幕設定装置10が表示タイミングを設定する処理の動作フローを示す。 図6は、S520における処理の詳細を示す。 図7は、S620における処理の詳細を示す。 図8は、S640における処理の詳細を示す。 図9は、S810における第1の処理の詳細を示す。 図10は、S810における第2の処理の詳細を示す。 図11は、S830における第1の処理の詳細を示す。 図12は、S830における第2の処理の詳細を示す。 図13は、S550における処理の詳細を示す。 図14は、字幕設定装置10として機能するコンピュータのハードウェア構成の一例を示す。 図15は、文字列検出部120による処理の一例を説明する図である。 図16は、音素検出部150による第1の処理の一例を示す。 図17は、音素検出部150による第2の処理の一例を示す。 図18は、本実施例による処理の概要をまとめた図である。
符号の説明
10 字幕設定装置
15 字幕行表示装置
20 内容データ
30 認識データ
40 表示タイミング情報
100 内容データ取得部
110 音声認識部
120 文字列検出部
130 文字検出部
140 読付部
150 音素検出部
160 信頼度算出部
165 信頼度取得部
170 表示設定部

Claims (16)

  1. 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定装置であって、
    前記音声の内容を示す内容データを取得する内容データ取得部と、
    再生される前記音声を音声認識した文字データを分割して複数の認識データを生成する音声認識部と、
    前記複数の認識データの各々に一致する文字列を前記内容データから検出する文字列検出部と、
    前記文字列検出部により一致する文字列が検出されなかった各認識データについて、当該認識データに含まれる各文字に一致する文字を前記内容データから検出することにより、当該認識データに一致する文字列を前記内容データから検出する文字検出部と、
    前記認識データのうち前記文字検出部により一致する文字が検出されなかった各文字について、当該文字の読みに含まれる音素に一致する音素を、前記内容データの読みの中から検出する音素検出部とを備え、
    前記文字検出部は、前記認識データのうち前記音素検出部により一致する音素が検出された文字に一致する文字として、前記内容データにおいて当該音素を含む文字を更に検出し、
    前記内容データに含まれる文字列の各々を表示させる表示タイミングを、当該文字列に一致する認識データとして音声認識された音声の再生時に設定する表示設定部を更に備える設定装置。
  2. 前記内容データの読み方の候補である読み候補を複数生成する読付部を更に備え、
    前記音素検出部は、前記認識データのうち前記文字検出部により前記内容データに一致する文字が検出されなかった各文字について、当該文字の読みに含まれる音素に一致する音素を、前記読付部により生成された複数の前記読み候補の何れかの中から検出する
    請求項1記載の設定装置。
  3. 前記読付部は、前記内容データにおける複数の前記読み候補の各々を、当該読み候補により読まれる可能性を示す情報に対応付けて生成し、
    前記音素検出部は、前記認識データに含まれる文字の読みに含まれる音素を、読まれる可能性が高い順に、前記複数の読み候補の各々と比較する
    請求項2記載の設定装置。
  4. 前記複数の認識データの各々が文字列に一致する確度である信頼度を算出する信頼度算出部を更に備え、
    前記表示設定部は、前記内容データにおける複数の前記文字列のうち連続した2つの文字列について、先に表示すべき文字列に対応する信頼度が、後に表示すべき文字列に対応する信頼度より高い場合に、先に表示すべき前記文字列の末尾に後に表示すべき前記文字列を連結した文字列を、先に表示すべき前記文字列を表示すべき時刻に表示させる設定を行う
    請求項1記載の設定装置。
  5. 前記信頼度算出部は、前記文字列検出部により一致する文字列が検出された認識データに対応付けて、前記文字検出部により一致する文字列が検出された認識データと比較して、より高い信頼度を算出する
    請求項4記載の設定装置。
  6. 前記認識データのうち前記文字検出部により一致する文字が検出されなかった各文字について、当該文字の読みに含まれる音素に一致する音素を、前記内容データの読みの中から検出する音素検出部を更に備え、
    前記文字検出部は、前記認識データのうち前記音素検出部により一致する音素が検出された文字に一致する文字として、前記内容データにおいて当該音素を含む文字を検出し、
    前記信頼度算出部は、前記音素検出部により一致する音素が検出された文字を含む認識データに対応付けて、前記音素検出部により一致する音素が検出されることなく前記文字検出部により一致する文字が検出された認識データと比較して、より低い信頼度を生成する
    請求項4記載の設定装置。
  7. 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定装置であって、
    前記音声の内容を示す内容データを取得する内容データ取得部と、
    再生される前記音声を音声認識した文字データを分割して複数の認識データを生成する音声認識部と、
    前記複数の認識データの各々が文字列に一致する確度である信頼度を算出する信頼度算出部と、
    前記複数の認識データの各々に一致する文字列を前記内容データから検出すると共に、予め定められた基準信頼度未満の信頼度の認識データである低信頼データについては、さらに、当該低信頼データに後続する認識データに一致する文字列を検出できなかった場合に、当該低信頼データに一致する文字列は検出できないと判断する文字列検出部と、
    前記文字列検出部により一致する文字列が検出されなかった各認識データについて、当該認識データに含まれる各文字に一致する文字を前記内容データから検出することにより、当該認識データに一致する文字列を前記内容データから検出する文字検出部と、
    前記内容データに含まれる文字列の各々を表示させる表示タイミングを、当該文字列に一致する認識データとして音声認識された音声の再生時に設定する表示設定部と
    を備える設定装置。
  8. 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定装置であって、
    前記音声の内容を示す内容データを取得する内容データ取得部と、
    再生される前記音声を音声認識した文字データを分割して複数の認識データを生成すると共に、さらに、音声認識した前記複数の認識データが、再生される音声の内容と一致する可能性を示す音声認識確信度を、認識データ毎に生成する音声認識部と、
    前記複数の認識データの各々について、音声認識確信度がより高い認識データに一致する文字列を、当該認識データと比較して音声認識確信度が低い認識データに先立って前記内容データから検出すると共に、第1の前記認識データに一致する第1の文字列及び第2の前記認識データに一致する第2の文字列を検出した場合に、前記第1の認識データに後続しかつ前記第2の認識データに先行する認識データに一致する文字列として、前記第1の文字列に後続し前記第2の文字列に先行する文字列を検出する文字列検出部と、
    前記文字列検出部により一致する文字列が検出されなかった各認識データについて、当該認識データに含まれる各文字に一致する文字を前記内容データから検出することにより、当該認識データに一致する文字列を前記内容データから検出する文字検出部と、
    前記内容データに含まれる文字列の各々を表示させる表示タイミングを、当該文字列に一致する認識データとして音声認識された音声の再生時に設定する表示設定部と
    を備える設定装置。
  9. 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定装置であって、
    再生される前記音声の内容を示す内容データに含まれる複数の文字列の各々に対応付けて、当該文字列を表示すべき時刻、及び、当該時刻に当該文字列を内容とする音声が再生される確度である信頼度を取得する信頼度取得部と、
    前記複数の文字列のうち連続した2つの文字列について、先に表示すべき文字列に対応する信頼度が、後に表示すべき文字列に対応する信頼度より高い場合に、先に表示すべき前記文字列の末尾に後に表示すべき前記文字列を連結した文字列を、先に表示すべき前記文字列を表示すべき時刻に表示させる設定を行う表示設定部と
    を備える設定装置。
  10. 前記表示設定部は、先に表示すべき前記文字列に対応する信頼度が、後に表示すべき前記文字列に後続する後続文字列に対応する信頼度より高い場合に、連結した前記文字列の末尾に前記後続文字列を更に連結した文字列を、先に表示すべき前記文字列を表示すべき時刻に表示させる設定を行う
    請求項9記載の設定装置。
  11. 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定装置として、コンピュータを機能させるプログラムであって、
    前記コンピュータを、
    前記音声の内容を示す内容データを取得する内容データ取得部と、
    再生される前記音声を音声認識した文字データを分割して複数の認識データを生成する音声認識部と、
    前記複数の認識データの各々に一致する文字列を前記内容データから検出する文字列検出部と、
    前記文字列検出部により一致する文字列が検出されなかった各認識データについて、当該認識データに含まれる各文字に一致する文字を前記内容データから検出することにより、当該認識データに一致する文字列を前記内容データから検出する文字検出部と、
    前記認識データのうち前記文字検出部により一致する文字が検出されなかった各文字について、当該文字の読みに含まれる音素に一致する音素を、前記内容データの読みの中から検出する音素検出部として機能させ、
    前記文字検出部は、前記認識データのうち前記音素検出部により一致する音素が検出された文字に一致する文字として、前記内容データにおいて当該音素を含む文字を更に検出し、
    前記コンピュータを、更に、
    前記内容データに含まれる文字列の各々を表示させる表示タイミングを、当該文字列に一致する認識データとして音声認識された音声の再生時に設定する表示設定部と
    して機能させるプログラム。
  12. 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定装置として、コンピュータを機能させるプログラムであって、
    前記コンピュータを、
    再生される前記音声の内容を示す内容データに含まれる複数の文字列の各々に対応付けて、当該文字列を表示すべき時刻、及び、当該時刻に当該文字列を内容とする音声が再生される確度である信頼度を取得する信頼度取得部と、
    前記複数の文字列のうち連続した2つの文字列について、先に表示すべき文字列に対応する信頼度が、後に表示すべき文字列に対応する信頼度より高い場合に、先に表示すべき前記文字列の末尾に後に表示すべき前記文字列を連結した文字列を、先に表示すべき前記文字列を表示すべき時刻に表示させる設定を行う表示設定部と
    して機能させるプログラム。
  13. 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定方法であって、
    コンピュータにより、
    前記音声の内容を示す内容データを取得する内容データ取得段階と、
    再生される前記音声を音声認識した文字データを分割して複数の認識データを生成する音声認識段階と、
    前記複数の認識データの各々に一致する文字列を前記内容データから検出する文字列検出段階と、
    前記文字列検出段階において一致する文字列が検出されなかった各認識データについて、当該認識データに含まれる各文字に一致する文字を前記内容データから検出することにより、当該認識データに一致する文字列を前記内容データから検出する文字検出段階と、
    前記認識データのうち前記文字検出段階において一致する文字が検出されなかった各文字について、当該文字の読みに含まれる音素に一致する音素を、前記内容データの読みの中から検出する音素検出段階部と、
    前記認識データのうち前記音素検出段階において一致する音素が検出された文字に一致する文字として、前記内容データにおいて当該音素を含む文字を更に検出する段階と、
    前記内容データに含まれる文字列の各々を表示させる表示タイミングを、当該文字列に一致する認識データとして音声認識された音声の再生時に設定する表示設定段階と
    を備える設定方法。
  14. 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定方法であって、
    コンピュータにより、
    再生される前記音声の内容を示す内容データに含まれる複数の文字列の各々に対応付けて、当該文字列を表示すべき時刻、及び、当該時刻に当該文字列を内容とする音声が再生される確度である信頼度を取得する信頼度取得段階と、
    前記複数の文字列のうち連続した2つの文字列について、先に表示すべき文字列に対応する信頼度が、後に表示すべき文字列に対応する信頼度より高い場合に、先に表示すべき前記文字列の末尾に後に表示すべき前記文字列を連結した文字列を、先に表示すべき前記文字列を表示すべき時刻に表示させる設定を行う表示設定段階と
    を備える設定方法。
  15. 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定装置として、コンピュータを機能させるプログラムであって、
    前記コンピュータを、
    前記音声の内容を示す内容データを取得する内容データ取得部と、
    再生される前記音声を音声認識した文字データを分割して複数の認識データを生成する音声認識部と、
    前記複数の認識データの各々が文字列に一致する確度である信頼度を算出する信頼度算出部と、
    前記複数の認識データの各々に一致する文字列を前記内容データから検出すると共に、予め定められた基準信頼度未満の信頼度の認識データである低信頼データについては、さらに、当該低信頼データに後続する認識データに一致する文字列を検出できなかった場合に、当該低信頼データに一致する文字列は検出できないと判断する文字列検出部と、
    前記文字列検出部により一致する文字列が検出されなかった各認識データについて、当該認識データに含まれる各文字に一致する文字を前記内容データから検出することにより、当該認識データに一致する文字列を前記内容データから検出する文字検出部と、
    前記内容データに含まれる文字列の各々を表示させる表示タイミングを、当該文字列に一致する認識データとして音声認識された音声の再生時に設定する表示設定部と
    して機能させるプログラム。
  16. 内容が予め定められた音声の再生に同期して前記内容を表示する表示タイミングを設定する設定装置として、コンピュータを機能させるプログラムであって、
    前記コンピュータを、
    前記音声の内容を示す内容データを取得する内容データ取得部と、
    再生される前記音声を音声認識した文字データを分割して複数の認識データを生成すると共に、さらに、音声認識した前記複数の認識データが、再生される音声の内容と一致する可能性を示す音声認識確信度を、認識データ毎に生成する音声認識部と、
    前記複数の認識データの各々について、音声認識確信度がより高い認識データに一致する文字列を、当該認識データと比較して音声認識確信度が低い認識データに先立って前記内容データから検出すると共に、第1の前記認識データに一致する第1の文字列及び第2の前記認識データに一致する第2の文字列を検出した場合に、前記第1の認識データに後続しかつ前記第2の認識データに先行する認識データに一致する文字列として、前記第1の文字列に後続し前記第2の文字列に先行する文字列を検出する文字列検出部と、
    前記文字列検出部により一致する文字列が検出されなかった各認識データについて、当該認識データに含まれる各文字に一致する文字を前記内容データから検出することにより、当該認識データに一致する文字列を前記内容データから検出する文字検出部と、
    前記内容データに含まれる文字列の各々を表示させる表示タイミングを、当該文字列に一致する認識データとして音声認識された音声の再生時に設定する表示設定部と
    として機能させるプログラム。
JP2004071229A 2004-03-12 2004-03-12 設定装置、プログラム、記録媒体、及び設定方法 Expired - Lifetime JP3945778B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004071229A JP3945778B2 (ja) 2004-03-12 2004-03-12 設定装置、プログラム、記録媒体、及び設定方法
US11/077,586 US20050203750A1 (en) 2004-03-12 2005-03-11 Displaying text of speech in synchronization with the speech
US12/131,665 US7676373B2 (en) 2004-03-12 2008-06-02 Displaying text of speech in synchronization with the speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004071229A JP3945778B2 (ja) 2004-03-12 2004-03-12 設定装置、プログラム、記録媒体、及び設定方法

Publications (2)

Publication Number Publication Date
JP2005258198A JP2005258198A (ja) 2005-09-22
JP3945778B2 true JP3945778B2 (ja) 2007-07-18

Family

ID=34918571

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004071229A Expired - Lifetime JP3945778B2 (ja) 2004-03-12 2004-03-12 設定装置、プログラム、記録媒体、及び設定方法

Country Status (2)

Country Link
US (2) US20050203750A1 (ja)
JP (1) JP3945778B2 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070126926A1 (en) * 2005-12-04 2007-06-07 Kohtaroh Miyamoto Hybrid-captioning system
JPWO2007069512A1 (ja) * 2005-12-15 2009-05-21 シャープ株式会社 情報処理装置及びプログラム
JP4158937B2 (ja) 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置
WO2007111162A1 (ja) * 2006-03-24 2007-10-04 Nec Corporation テキスト表示装置、テキスト表示方法およびプログラム
US20080130699A1 (en) * 2006-12-05 2008-06-05 Motorola, Inc. Content selection using speech recognition
JP5313466B2 (ja) 2007-06-28 2013-10-09 ニュアンス コミュニケーションズ,インコーポレイテッド 音声の再生に同期して音声の内容を表示させる技術
DE112008001763T5 (de) * 2007-07-09 2010-04-29 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Navigationssystem
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9460708B2 (en) 2008-09-19 2016-10-04 Microsoft Technology Licensing, Llc Automated data cleanup by substitution of words of the same pronunciation and different spelling in speech recognition
US8364487B2 (en) * 2008-10-21 2013-01-29 Microsoft Corporation Speech recognition system with display information
US8359202B2 (en) * 2009-01-15 2013-01-22 K-Nfb Reading Technology, Inc. Character models for document narration
US8626508B2 (en) * 2009-02-26 2014-01-07 National University Corporation Toyohashi University Of Technology Speech search device and speech search method
US20100332225A1 (en) * 2009-06-29 2010-12-30 Nexidia Inc. Transcript alignment
JP5334716B2 (ja) * 2009-07-03 2013-11-06 日本放送協会 文字情報提示制御装置及びプログラム
US9489577B2 (en) * 2009-07-27 2016-11-08 Cxense Asa Visual similarity for video content
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP5608706B2 (ja) * 2012-05-21 2014-10-15 ニュアンス コミュニケーションズ,インコーポレイテッド 音声の再生に同期して音声の内容を表示させる技術
JP6080586B2 (ja) * 2013-02-13 2017-02-15 株式会社ファインデックス 文字認識システム、文字認識プログラム及び文字認識方法
KR102140438B1 (ko) * 2013-09-10 2020-08-04 주식회사 청담러닝 오디오 컨텐츠 및 텍스트 컨텐츠의 동기화 서비스를 위해 텍스트 데이터를 오디오 데이터에 매핑하는 방법 및 시스템
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
JP6003972B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP6003971B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
CN109478201A (zh) * 2016-07-20 2019-03-15 索尼公司 信息处理装置、信息处理方法及程序
JP6809177B2 (ja) * 2016-12-02 2021-01-06 ヤマハ株式会社 情報処理システムおよび情報処理方法
GB201715753D0 (en) * 2017-09-28 2017-11-15 Royal Nat Theatre Caption delivery system
CN108366182B (zh) * 2018-02-13 2020-07-07 京东方科技集团股份有限公司 文字语音同步播报的校准方法及装置、计算机存储介质
CN108959163B (zh) * 2018-06-28 2020-01-21 掌阅科技股份有限公司 有声电子书的字幕显示方法、电子设备及计算机存储介质
JP7216771B2 (ja) * 2021-06-09 2023-02-01 西日本電信電話株式会社 台本へのメタデータ付与装置、方法、およびプログラム
CN113114346B (zh) * 2021-06-11 2021-08-31 飞天诚信科技股份有限公司 一种通过解析卫星导航数据同步时间的方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US6219453B1 (en) * 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6076059A (en) * 1997-08-29 2000-06-13 Digital Equipment Corporation Method for aligning text with audio signals
US6473778B1 (en) * 1998-12-24 2002-10-29 At&T Corporation Generating hypermedia documents from transcriptions of television programs using parallel text alignment
US6442518B1 (en) * 1999-07-14 2002-08-27 Compaq Information Technologies Group, L.P. Method for refining time alignments of closed captions
US7343082B2 (en) * 2001-09-12 2008-03-11 Ryshco Media Inc. Universal guide track

Also Published As

Publication number Publication date
US7676373B2 (en) 2010-03-09
US20050203750A1 (en) 2005-09-15
JP2005258198A (ja) 2005-09-22
US20080294431A1 (en) 2008-11-27

Similar Documents

Publication Publication Date Title
JP3945778B2 (ja) 設定装置、プログラム、記録媒体、及び設定方法
US8065142B2 (en) Synchronization of an input text of a speech with a recording of the speech
KR102085908B1 (ko) 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법
US6446041B1 (en) Method and system for providing audio playback of a multi-source document
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US6876967B2 (en) Speech complementing apparatus, method and recording medium
JP2003518266A (ja) 音声認識システムのテキスト編集用音声再生
JPWO2011064829A1 (ja) 情報処理装置
JP2007199410A (ja) テキストに付与する発音情報の編集を支援するシステム
US8275614B2 (en) Support device, program and support method
KR101747873B1 (ko) 음성인식을 위한 언어모델 생성 장치 및 방법
JP2007018098A (ja) テキスト分割処理装置及びコンピュータプログラム
WO2004093078A1 (en) Process for adding subtitles to video content
JP5022193B2 (ja) 字幕監視装置及び字幕監視プログラム
EP1632932A1 (en) Voice response system, voice response method, voice server, voice file processing method, program and recording medium
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
KR20080051876A (ko) 전자사전 검색이 가능한 멀티미디어 파일 재생장치 및검색방법
KR102541162B1 (ko) 콘텐츠에 대한 자막 동기화를 수행하는 전자 장치 및 방법
KR102385779B1 (ko) 콘텐츠에 대한 자막 동기화를 수행하는 전자 장치 및 방법
JP5608706B2 (ja) 音声の再生に同期して音声の内容を表示させる技術
JP2002351490A (ja) 字幕へのタイミング情報付与方法
EP3509060A1 (en) Information processing device, information processing method, and program
CN117219062A (zh) 训练数据的生成方法、装置、电子设备和存储介质
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070403

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20070404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070406

R150 Certificate of patent or registration of utility model

Ref document number: 3945778

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100420

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100420

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110420

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110420

Year of fee payment: 4

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110420

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120420

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130420

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130420

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140420

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250