JP4158937B2 - 字幕修正装置 - Google Patents
字幕修正装置 Download PDFInfo
- Publication number
- JP4158937B2 JP4158937B2 JP2006082126A JP2006082126A JP4158937B2 JP 4158937 B2 JP4158937 B2 JP 4158937B2 JP 2006082126 A JP2006082126 A JP 2006082126A JP 2006082126 A JP2006082126 A JP 2006082126A JP 4158937 B2 JP4158937 B2 JP 4158937B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- determination
- automatic
- correction
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Description
中間にいる話者が、実際の話者が発した音声を聞きながら同時に音声認識のシステムに向けて復唱する方式である。中間に入る復唱者は特殊な訓練を受けているためこのような厳しい状況においても認識率90%以上で復唱できる。
話者が発した内容を、一般に3人程度の人が代わる代わる要約しながら入力を行う方式である。3人2組、またはスキルレベルが低い場合には4人2組が必要であるといわれている。
プレゼンテーションの音声を認識し、音声認識結果として一または複数の文字列候補のテキストと該文字列候補に対する音声認識の確信度を出力する音声認識部と、
確信度ならびにジョブ処理情報、および、あらかじめ定められた最大遅延許容時間を用いて、文字列候補のうちから確信度の最も高い第1文字列候補に対して自動判定または手動判定させることを選択する判定振り分け部と、
判定振り分け部が自動判定を選択したことに応じて、第1文字列候補に対して自動で確定文字列を判定する自動判定部と、
判定振り分け部が手動判定を選択したことに応じて、第1文字列候補に対して手動で確定文字列を判定させる手動判定部と、
を備える字幕修正装置を提供する。
1)チェッカーの数と同じ数の手動判定装置13a、13bが備えられる。
2)判定振り分け装置12によって手の空いている手動判定装置13a、13bへジョブが割り振られる。
3)手動判定装置13a、13bにより確定しなかった文字列に対しては一旦自動修正装置15によって修正を加えられた後判定振り分け装置12に戻される。判定振り分け装置12は手動判定装置13a、13bが空いていれば手動判定のジョブを割り振る。逆に空いていなければそのまま未確定表示を行う。
4)手動判定装置13a、13b→自動修正装置15→手動判定装置13a、13b→自動修正装置15といった具合に同じ文字列に対して2度目の自動修正装置15によるマッチングが行われては意味がない。つまりこのような場合については、一度目の自動修正装置で利用された同じキーワードや第2候補を利用しないようにする。よって、一度目に利用したキーワードを除外したキーワードもしくは第2候補を除外した第3候補によってマッチングを行うものとする。
図9に、本発明の実施例を示す。ここでは、スピーカ(発表者)の映像が64で示されるウィンドウ画面に表示されている。画面64には、スピーカが発した音声を認識した結果を示している。また、音声認識によって得られた認識文字列に対して手動判定装置13が手動または自動でチェックした結果がウィンドウ画面60に示されている。ただし、音声認識の確信度については非表示としてもよい。手動判定装置13のチェックを確定または非確定とする表示を行うためにS61で示すようにチェッカーにより確定判断が行われる。誤っていると判断された文字列は未確定文字として、処理62(自動修正装置15)でマッチングが行われ、その結果として修正後の文字列がウィンドウ63で、確定文字と未確定文字として区別して表示される。ここでは確定文字列を黒字で表し、未確定文字列を斜体(実際には別の色で表示したほうがさらによい)で表した場合の表示方法の例を示している。この図からもわかるように未確定表示であっても、例えばPPTファイルやその他テキストのプレゼン補助資料によって正しく表示されているケースもある。また、確定された文字列にも自動判定によって確定した場合と、手動判定によって確定した場合があるので、両者を別のフォント属性で区別して表示することもできる。
手動判定装置13におけるユーザによる手動操作のUI(User Interface)について実施例をここであげる。
自動判定の条件について、許容遅れ時間、平均ジョブ時間、経過時間をかんがみて平均から大きく離れた確信度ほど高い確率で自動判定とし、許容遅れ時間が迫るにつれ、平均に近い確信度についても自動判定に委ねる確率を高めていくものとする。
チェッカーによる音声認識結果と音声の一般的な比較方法として文字列を目で読みながら、音声を耳で聞いて比較を行うことが一般的である。ただし、例えば視覚障害者等が文字列を音声合成によって文字列を再生しながら同時に入力音声と比較することは可能である。
本発明の手段として音声認識結果と入力の音声を比較する方法で述べた。ただし、多くの場合において音声認識結果は大きな誤りを示すので入力の音声をなしにしても単純にチェックが可能である。つまり、聴覚障害者などにももちろんチェックは可能である。
本発明の実施効果として、コスト、認識率の向上、理解度の向上、リアルタイム性についてまとめると以下のようになる。
まず、本発明の手法は、人手による字幕修正に比べると大きくコスト削減が期待できる。なお、リアルタイムからの遅延時間についてはリスピーク、要約筆記、本発明の実施とも顕著な差は見られなかった。
[発明が解決しようとする課題]で紹介した某大学での実証実験の結果を元にマッチングの実験を行った結果を図10に示す。繰り返しになるが、一般にリアルタイム字幕には85%以上の認識率、望ましくは90%以上の認識率が必要だといわれている。85%以上を超える確率が27%から82%に向上し、90%を超える確率が0%から27%へ向上した。
定量化するのは難しいが、重要なキーワードについて特に顕著な認識率の向上がみられるため音声認識単体と比べた場合理解度の向上に大きく寄与するといえる。又話者が意図しない差別的表現、書式設定についてもページ単位プレゼンキーワードのマッチングにより大きく改善された。
2 判定振り分け部
3 手動判定部
4 自動判定部
5 自動修正部
6 字幕表示部
7 ページ単位プレゼンキーワードDB
8 ページ切り替えイベント
11 音声認識装置
12 判定振り分け装置
13、13a、13b 手動判定装置
15 自動修正装置
16 次候補DB
17 ページ単位プレゼンキーワードDB
18 ジョブキュー
19 自動判定装置
41 遅延時間
42a、42b、42c 平均ジョブ処理時間
60 手動判定のウィンドウ画面
62 マッチング処理
63 確定文字列・未確定文字列の表示ウィンドウ
64 プレゼンテータの画像ウィンドウと字幕表示
100 字幕修正システム(チェッカーが1人の場合)
200 字幕修正システム(チェッカーが2人の場合)
Claims (16)
- プレゼンテーションの音声に対する文字列をリアルタイムに修正し、字幕として表示する字幕修正装置であって、
前記プレゼンテーションの音声を認識し、音声認識結果として一または複数の文字列候補のテキストと該文字列候補に対する音声認識の確信度を出力する音声認識部と、
現在の処理時間と、前記確信度を決定する単位であるジョブのうち未処理のジョブを処理する平均時間との合計があらかじめ定められた最大許容遅延時間より小さい場合であって、前記文字列候補のうちから前記確信度の最も高い第1文字列候補の確信度があらかじめ定められた閾値より大きいことを振り分け条件として自動判定とし、前記振り分け条件を満たさない場合は手動判定とすることを選択する判定振り分け部と、
前記判定振り分け部が前記自動判定を選択したことに応じて、前記第1文字列候補を確定文字列として確定する自動判定部と、
前記判定振り分け部が前記手動判定を選択したことに応じて、チェッカーに前記音声と前記文字列候補とを出力し、前記チェッカーから受付けた指示に基づいて前記文字列候補の中から確定文字列を確定する手動判定部と、
前記確定文字列を前記字幕として表示する字幕表示部と、
を備える字幕修正装置。 - 前記手動判定部が受付けた指示に基づいて確定文字列を確定しなかった場合には、前記プレゼンテーションのキーワード・リストと前記文字列候補とを比較することによって得られるマッチングスコアに基づいて、前記マッチングスコアが最も高いキーワードを確定文字列と確定し、修正結果の文字列として出力する自動修正部と、をさらに備え、
前記字幕表示部は、前記手動判定部が前記受付けた指示に基づいて確定した確定文字列と、前記自動修正部が確定した前記修正結果の文字列とを区別して表示する、
請求項1に記載の字幕修正装置。 - 前記判定振り分け部は、与えられたジョブに対する前記確信度から得られる確率密度が最大遅延許容時間内に処理を終えるために処理可能なジョブ数の逆数以下となる場合に手動判定とする、請求項1に記載の字幕修正装置。
- 前記判定振り分け部は、前記確信度が平均から離れた度合いに応じて自動判定に振り分ける、請求項1に記載の字幕修正装置。
- 前記手動判定部が前記チェッカーに出力する前記音声は、話速変換手段、無音部分除去手段、のりしろ付き強調再生手段、繰返し再生による自動催促手段、自動停止手段のうち少なくとも一つの手段を含む処理により出力される、請求項1に記載の字幕修正装置。
- 前記手動判定部が出力し、前記チェッカーから指示を受付ける装置は、前記チェッカーの数だけ備える、請求項1に記載の字幕修正装置。
- 前記キーワード・リストは、前記プレゼンテーションに関するデータから動的に生成される、請求項2に記載の字幕修正装置。
- 前記自動修正部は、前記マッチングスコアが所定の基準値以上である前記キーワードを修正結果として出力する、請求項2に記載の字幕修正装置。
- 前記自動修正部は、前記マッチングスコアが所定の基準値以上であり、かつ、あらかじめ定められた条件に基づき修正結果として適切であると判断した場合に、前記キーワードを修正結果として出力する、請求項8に記載の字幕修正装置。
- 前記条件に基づく判断において、あらかじめ定められた差別用語または攻撃的用語でない場合に修正結果として適切であると判断する、請求項9に記載の字幕修正装置。
- 前記字幕表示部は、前記確定文字列と前記修正結果の文字列のフォント属性または文字種を変更して表示する、請求項2に記載の字幕修正装置。
- コンピュータが、プレゼンテーションの音声に対する文字列をリアルタイムに修正し、字幕として表示する字幕修正のための方法であって、
前記プレゼンテーションの音声を認識し、音声認識結果として一または複数の文字列候補のテキストと該文字列候補に対する音声認識の確信度を出力する音声認識ステップと、
現在の処理時間と、前記確信度を決定する単位であるジョブのうち未処理のジョブを処理する平均時間との合計があらかじめ定められた最大許容遅延時間より小さい場合であって、前記文字列候補のうちから前記確信度の最も高い第1文字列候補の確信度があらかじめ定められた閾値より大きいことを条件として自動判定とし、前記条件を満たさない場合は手動判定とすることを選択する判定振り分けステップと、
前記判定振り分けステップにおいて前記自動判定を選択したことに応じて、前記第1文字列候補を確定文字列として確定する自動判定ステップと、
前記判定振り分けステップにおいて前記手動判定を選択したことに応じて、チェッカーに前記音声と前記文字列候補とを出力し、前記チェッカーから受付けた指示に基づいて前記文字列候補の中から確定文字列を確定する手動判定ステップと、
前記確定文字列を前記字幕として表示するステップと、
を含む字幕修正のための方法。 - 前記手動判定ステップにおいて、受付けた指示に基づいて確定文字列を確定しなかった場合には、前記プレゼンテーションのキーワードのリストと前記文字列候補とを比較することによって得られるマッチングスコアに基づいて、前記マッチングスコアが最も高いキーワードを確定文字列と確定し、修正結果の文字列として出力する自動修正するステップと、
前記手動判定ステップにおいて前記受付けた指示に基づいて確定した確定文字列と、前記自動修正するステップにおいて確定した前記修正結果の文字列とを区別して表示する字幕表示を行うステップと、
をさらに含む、請求項12に記載の方法。 - 前記判定振り分けステップは、前記確信度が平均から離れた度合いに応じて自動判定に振り分ける、請求項12記載の方法。
- 請求項12から14いずれかに記載の方法の各ステップをコンピュータに実行させるコンピュータ・プログラム。
- プレゼンテーションの音声に対する文字列をリアルタイムに修正し、字幕として表示する字幕修正のためのコンピュータ・プログラムであって、
前記コンピュータ・プログラムは、
前記プレゼンテーションの音声を認識し、音声認識結果として一または複数の文字列候補のテキストと該文字列候補に対する音声認識の確信度を出力する音声認識ステップと、
現在の処理時間と、前記確信度を決定する単位であるジョブのうち未処理のジョブを処理する平均時間との合計があらかじめ定められた最大許容遅延時間より小さい場合であって、前記文字列候補のうちから前記確信度の最も高い第1文字列候補の確信度があらかじめ定められた閾値より大きいことを条件として自動判定とし、前記条件を満たさない場合は手動判定とすることを選択するステップと、
前記選択するステップにおいて前記自動判定を選択したことに応じて、前記第1文字列候補を確定文字列として確定するステップと、
前記選択するステップにおいて前記手動判定を選択したことに応じて、チェッカーに前記音声と前記文字列候補とを出力し、前記チェッカーから受付けた指示に基づいて前記文字列候補の中から確定文字列を確定するステップと、
前記確定文字列を前記字幕として表示するステップと、
をコンピュータに、実行させるコンピュータ・プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006082126A JP4158937B2 (ja) | 2006-03-24 | 2006-03-24 | 字幕修正装置 |
CNB2007100881288A CN100539649C (zh) | 2006-03-24 | 2007-03-15 | 用于校正字幕的字幕校正设备和方法 |
US11/688,939 US7729917B2 (en) | 2006-03-24 | 2007-03-21 | Correction of a caption produced by speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006082126A JP4158937B2 (ja) | 2006-03-24 | 2006-03-24 | 字幕修正装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007256714A JP2007256714A (ja) | 2007-10-04 |
JP4158937B2 true JP4158937B2 (ja) | 2008-10-01 |
Family
ID=38631003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006082126A Expired - Fee Related JP4158937B2 (ja) | 2006-03-24 | 2006-03-24 | 字幕修正装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7729917B2 (ja) |
JP (1) | JP4158937B2 (ja) |
CN (1) | CN100539649C (ja) |
Families Citing this family (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4218758B2 (ja) * | 2004-12-21 | 2009-02-04 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 字幕生成装置、字幕生成方法、及びプログラム |
JP4743686B2 (ja) * | 2005-01-19 | 2011-08-10 | 京セラ株式会社 | 携帯端末装置、およびその音声読み上げ方法、並びに音声読み上げプログラム |
US20070126926A1 (en) * | 2005-12-04 | 2007-06-07 | Kohtaroh Miyamoto | Hybrid-captioning system |
JP4926000B2 (ja) * | 2007-10-31 | 2012-05-09 | 富士通株式会社 | 確認支援装置及びコンピュータプログラム |
JP2009157050A (ja) * | 2007-12-26 | 2009-07-16 | Hitachi Omron Terminal Solutions Corp | 発話検証装置及び発話検証方法 |
JP5451982B2 (ja) * | 2008-04-23 | 2014-03-26 | ニュアンス コミュニケーションズ,インコーポレイテッド | 支援装置、プログラムおよび支援方法 |
US9077933B2 (en) | 2008-05-14 | 2015-07-07 | At&T Intellectual Property I, L.P. | Methods and apparatus to generate relevance rankings for use by a program selector of a media presentation system |
US9202460B2 (en) * | 2008-05-14 | 2015-12-01 | At&T Intellectual Property I, Lp | Methods and apparatus to generate a speech recognition library |
JP5243886B2 (ja) * | 2008-08-11 | 2013-07-24 | 旭化成株式会社 | 字幕出力装置、字幕出力方法及びプログラム |
US8707381B2 (en) | 2009-09-22 | 2014-04-22 | Caption Colorado L.L.C. | Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs |
US8364463B2 (en) * | 2009-09-25 | 2013-01-29 | International Business Machines Corporation | Optimizing a language/media translation map |
US9236047B2 (en) | 2010-05-21 | 2016-01-12 | Microsoft Technology Licensing, Llc | Voice stream augmented note taking |
US8965545B2 (en) | 2010-09-30 | 2015-02-24 | Google Inc. | Progressive encoding of audio |
US8826354B2 (en) | 2010-12-01 | 2014-09-02 | At&T Intellectual Property I, L.P. | Method and system for testing closed caption content of video assets |
JP5478478B2 (ja) * | 2010-12-15 | 2014-04-23 | 日本放送協会 | テキスト修正装置およびプログラム |
CN102122506B (zh) * | 2011-03-08 | 2013-07-31 | 天脉聚源(北京)传媒科技有限公司 | 一种语音识别的方法 |
US9026446B2 (en) * | 2011-06-10 | 2015-05-05 | Morgan Fiumi | System for generating captions for live video broadcasts |
US8749618B2 (en) | 2011-06-10 | 2014-06-10 | Morgan Fiumi | Distributed three-dimensional video conversion system |
US8532469B2 (en) | 2011-06-10 | 2013-09-10 | Morgan Fiumi | Distributed digital video processing system |
CN102662794A (zh) * | 2012-03-09 | 2012-09-12 | 无锡华御信息技术有限公司 | 一种备份文档数据的系统及方法 |
US8909534B1 (en) * | 2012-03-09 | 2014-12-09 | Google Inc. | Speech recognition training |
KR101292563B1 (ko) * | 2012-11-13 | 2013-08-09 | 주식회사 한글과컴퓨터 | 자막 출력 기반의 프레젠테이션 장치 및 방법 |
RU2530268C2 (ru) * | 2012-11-28 | 2014-10-10 | Общество с ограниченной ответственностью "Спиктуит" | Способ обучения информационной диалоговой системы пользователем |
KR20150126027A (ko) | 2013-03-07 | 2015-11-10 | 엔이씨 솔루션 이노베이터 가부시키가이샤 | 이해 지원 시스템, 이해 지원 서버, 이해 지원 방법, 및 컴퓨터 판독가능 기록 매체 |
WO2014148190A1 (ja) | 2013-03-19 | 2014-09-25 | Necソリューションイノベータ株式会社 | 要約筆記支援システム、情報配信装置、端末装置、要約筆記支援方法、及びコンピュータ読み取り可能な記録媒体 |
US20150098018A1 (en) * | 2013-10-04 | 2015-04-09 | National Public Radio | Techniques for live-writing and editing closed captions |
JP2015125499A (ja) * | 2013-12-25 | 2015-07-06 | 株式会社東芝 | 音声通訳装置、音声通訳方法及び音声通訳プログラム |
JP6364775B2 (ja) * | 2014-01-09 | 2018-08-01 | サクサ株式会社 | 電子会議システム及びそのプログラム |
US20190312973A1 (en) * | 2014-02-28 | 2019-10-10 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
KR101789221B1 (ko) * | 2015-07-16 | 2017-10-23 | 네이버 주식회사 | 동영상 제공 장치, 동영상 제공 방법, 및 컴퓨터 프로그램 |
CN105244022B (zh) * | 2015-09-28 | 2019-10-18 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
JP6517718B2 (ja) * | 2016-03-11 | 2019-05-22 | 株式会社東芝 | 会議支援装置、会議支援方法、及び会議支援プログラム |
JP6675078B2 (ja) * | 2016-03-15 | 2020-04-01 | パナソニックIpマネジメント株式会社 | 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム |
JP6596373B6 (ja) * | 2016-03-24 | 2019-12-11 | 株式会社アドバンスト・メディア | 表示処理装置及び表示処理プログラム |
CN105895085B (zh) * | 2016-03-30 | 2019-10-18 | 讯飞智元信息科技有限公司 | 一种多媒体转写方法和系统 |
JP6678545B2 (ja) * | 2016-09-12 | 2020-04-08 | 株式会社東芝 | 修正システム、修正方法及びプログラム |
JP6936318B2 (ja) * | 2016-09-30 | 2021-09-15 | ロヴィ ガイズ, インコーポレイテッド | キャプションテキストにおける間違いを訂正するためのシステムおよび方法 |
US20180144747A1 (en) * | 2016-11-18 | 2018-05-24 | Microsoft Technology Licensing, Llc | Real-time caption correction by moderator |
JP2018116206A (ja) * | 2017-01-20 | 2018-07-26 | アルパイン株式会社 | 音声認識装置、音声認識方法及び音声認識システム |
JP6499228B2 (ja) * | 2017-06-20 | 2019-04-10 | 株式会社東芝 | テキスト生成装置、方法、及びプログラム |
GB201715753D0 (en) * | 2017-09-28 | 2017-11-15 | Royal Nat Theatre | Caption delivery system |
KR102452644B1 (ko) * | 2017-10-31 | 2022-10-11 | 삼성전자주식회사 | 전자 장치, 음성 인식 방법 및 기록 매체 |
EP3489952A1 (en) * | 2017-11-23 | 2019-05-29 | Sorizava Co., Ltd. | Speech recognition apparatus and system |
JP6485977B2 (ja) * | 2017-12-25 | 2019-03-20 | 株式会社フェイス | 字幕制作装置および字幕制作方法 |
KR101996551B1 (ko) * | 2018-01-02 | 2019-07-04 | 중앙대학교 산학협력단 | 음성인식 및 대본을 이용하는 자막 생성 장치 및 방법 |
KR102595790B1 (ko) * | 2018-01-26 | 2023-10-30 | 삼성전자주식회사 | 전자 장치 및 그의 제어방법 |
KR102468214B1 (ko) * | 2018-02-19 | 2022-11-17 | 삼성전자주식회사 | 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템 |
US10192554B1 (en) | 2018-02-26 | 2019-01-29 | Sorenson Ip Holdings, Llc | Transcription of communications using multiple speech recognition systems |
CN108735200B (zh) * | 2018-06-27 | 2020-05-29 | 北京灵伴即时智能科技有限公司 | 一种说话人自动标注方法 |
WO2020053862A1 (en) * | 2018-09-13 | 2020-03-19 | Ichannel.Io Ltd. | A system and computerized method for subtitles synchronization of audiovisual content using the human voice detection for synchronization |
JP7172351B2 (ja) * | 2018-09-21 | 2022-11-16 | 富士フイルムビジネスイノベーション株式会社 | 文字列認識装置及び文字列認識プログラム |
US11017778B1 (en) | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
US10573312B1 (en) | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
US11170761B2 (en) | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
US10388272B1 (en) | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
KR102345625B1 (ko) | 2019-02-01 | 2021-12-31 | 삼성전자주식회사 | 자막 생성 방법 및 이를 수행하는 장치 |
CN109754783B (zh) * | 2019-03-05 | 2020-12-25 | 百度在线网络技术(北京)有限公司 | 用于确定音频语句的边界的方法和装置 |
US11270123B2 (en) * | 2019-10-22 | 2022-03-08 | Palo Alto Research Center Incorporated | System and method for generating localized contextual video annotation |
JP6758732B1 (ja) * | 2020-01-06 | 2020-09-23 | 株式会社インタラクティブソリューションズ | プレゼンテーション支援システム |
JP7237378B2 (ja) * | 2020-01-06 | 2023-03-13 | 株式会社インタラクティブソリューションズ | システム |
KR20210100368A (ko) * | 2020-02-06 | 2021-08-17 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
US11032620B1 (en) * | 2020-02-14 | 2021-06-08 | Sling Media Pvt Ltd | Methods, systems, and apparatuses to respond to voice requests to play desired video clips in streamed media based on matched close caption and sub-title text |
JP6781492B2 (ja) * | 2020-04-07 | 2020-11-04 | 株式会社インタラクティブソリューションズ | 音声解析システム |
US11488604B2 (en) | 2020-08-19 | 2022-11-01 | Sorenson Ip Holdings, Llc | Transcription of audio |
WO2022056596A1 (en) * | 2020-09-21 | 2022-03-24 | Wang Alan Jiahao | An electronic transcription system and a method for use by the electronic transcription system |
US20230360635A1 (en) * | 2021-04-23 | 2023-11-09 | Meta Platforms, Inc. | Systems and methods for evaluating and surfacing content captions |
US11683558B2 (en) * | 2021-06-29 | 2023-06-20 | The Nielsen Company (Us), Llc | Methods and apparatus to determine the speed-up of media programs using speech recognition |
US11785278B1 (en) * | 2022-03-18 | 2023-10-10 | Comcast Cable Communications, Llc | Methods and systems for synchronization of closed captions with content output |
KR102642029B1 (ko) * | 2023-09-11 | 2024-02-28 | 주식회사 인프랩 | 인공지능 기반의 자막 관리 장치, 방법 및 프로그램 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3162832B2 (ja) | 1992-10-28 | 2001-05-08 | 日本放送協会 | 字幕スーパー画面作成装置 |
US6567503B2 (en) * | 1997-09-08 | 2003-05-20 | Ultratec, Inc. | Real-time transcription correction system |
US6571210B2 (en) * | 1998-11-13 | 2003-05-27 | Microsoft Corporation | Confidence measure system using a near-miss pattern |
JP3834169B2 (ja) | 1999-09-22 | 2006-10-18 | 日本放送協会 | 連続音声認識装置および記録媒体 |
US7047191B2 (en) * | 2000-03-06 | 2006-05-16 | Rochester Institute Of Technology | Method and system for providing automated captioning for AV signals |
US7191117B2 (en) * | 2000-06-09 | 2007-03-13 | British Broadcasting Corporation | Generation of subtitles or captions for moving pictures |
WO2002009093A1 (en) * | 2000-07-20 | 2002-01-31 | Koninklijke Philips Electronics N.V. | Feedback of recognized command confidence level |
US7130790B1 (en) * | 2000-10-24 | 2006-10-31 | Global Translations, Inc. | System and method for closed caption data translation |
JP2002162992A (ja) | 2000-11-28 | 2002-06-07 | Nippon Hoso Kyokai <Nhk> | 音声認識誤り処理装置および記憶媒体 |
US7013273B2 (en) * | 2001-03-29 | 2006-03-14 | Matsushita Electric Industrial Co., Ltd. | Speech recognition based captioning system |
JP3682922B2 (ja) * | 2002-04-24 | 2005-08-17 | 日本放送協会 | リアルタイム文字修正装置およびリアルタイム文字修正プログラム |
US7386454B2 (en) * | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
JP3986009B2 (ja) | 2002-11-01 | 2007-10-03 | 日本放送協会 | 文字データ修正装置、その方法及びそのプログラム、並びに、字幕の生成方法 |
JP3986015B2 (ja) | 2003-01-27 | 2007-10-03 | 日本放送協会 | 音声認識誤り修正装置、音声認識誤り修正方法および音声認識誤り修正プログラム |
JP2004302175A (ja) | 2003-03-31 | 2004-10-28 | Fuji Television Network Inc | 音声認識システム、音声認識方法及び音声認識プログラム |
JP4150645B2 (ja) * | 2003-08-27 | 2008-09-17 | 株式会社ケンウッド | 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム |
JP3945778B2 (ja) | 2004-03-12 | 2007-07-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 設定装置、プログラム、記録媒体、及び設定方法 |
-
2006
- 2006-03-24 JP JP2006082126A patent/JP4158937B2/ja not_active Expired - Fee Related
-
2007
- 2007-03-15 CN CNB2007100881288A patent/CN100539649C/zh not_active Expired - Fee Related
- 2007-03-21 US US11/688,939 patent/US7729917B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20080040111A1 (en) | 2008-02-14 |
CN101094330A (zh) | 2007-12-26 |
US7729917B2 (en) | 2010-06-01 |
JP2007256714A (ja) | 2007-10-04 |
CN100539649C (zh) | 2009-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4158937B2 (ja) | 字幕修正装置 | |
US6446041B1 (en) | Method and system for providing audio playback of a multi-source document | |
US8515755B2 (en) | Replacing text representing a concept with an alternate written form of the concept | |
RU2441287C2 (ru) | Универсальные орфографические мнемосхемы | |
US7693717B2 (en) | Session file modification with annotation using speech recognition or text to speech | |
US20180143956A1 (en) | Real-time caption correction by audience | |
US9412370B2 (en) | Method and system for dynamic creation of contexts | |
US9588967B2 (en) | Interpretation apparatus and method | |
US7742920B2 (en) | Variable voice rate apparatus and variable voice rate method | |
JP2006178087A (ja) | 字幕生成装置、検索装置、文書処理と音声処理とを融合する方法、及びプログラム | |
JP2002117026A (ja) | 確率的入力方法によって生成された候補リストからフィルタリングおよび選択を行うための方法およびシステム | |
JP2008209717A (ja) | 入力された音声を処理する装置、方法およびプログラム | |
JP5044783B2 (ja) | 自動回答装置および方法 | |
JP4811557B2 (ja) | 音声再生装置及び発話支援装置 | |
JPH11194793A (ja) | 音声ワープロ | |
JP4189336B2 (ja) | 音声情報処理システム、音声情報処理方法及びプログラム | |
JP7326931B2 (ja) | プログラム、情報処理装置、及び情報処理方法 | |
JP4538618B2 (ja) | 字幕番組制作システムにおける表示単位字幕文の自動生成方法 | |
Yu | Boosting speech-to-text software potential | |
JP2006018028A (ja) | 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラム及び記録媒体 | |
JP2001013992A (ja) | 音声理解装置 | |
JP2007156888A (ja) | 情報提示装置及び情報提示プログラム | |
Bahng et al. | CAC: Content-Aware Captioning for Professional Online Lectures in Korean Language | |
JP5528252B2 (ja) | タイムコード付与装置及びプログラム | |
JP3253753B2 (ja) | 文書読み上げ対象テキストの整形方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071205 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20071218 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20071226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080701 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20080702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080709 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110725 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110725 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110725 Year of fee payment: 3 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110725 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110725 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120725 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120725 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130725 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |