JP5273844B2 - 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置 - Google Patents
字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置 Download PDFInfo
- Publication number
- JP5273844B2 JP5273844B2 JP2008093029A JP2008093029A JP5273844B2 JP 5273844 B2 JP5273844 B2 JP 5273844B2 JP 2008093029 A JP2008093029 A JP 2008093029A JP 2008093029 A JP2008093029 A JP 2008093029A JP 5273844 B2 JP5273844 B2 JP 5273844B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- caption
- subtitle
- cost
- editing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
認識結果音素列の最初の音素(rph[1])から最後の音素(rph[R])まで:
字幕変換音素列の最初の音素(cph[1])から最後の音素(cph[C])まで:
認識結果音素列の先頭r音素rph[1・・・r]と
字幕変換音素列の先頭c音素cph[1・・・c]との間の編集コスト
d[r,c] = minimum(
d[r-1,c] + ins_cost(cph[c]), //音素の挿入
d[r,c-1] + del_cost(rph[r]), //音素の削除
d[r-1,c-1] + sub_cost(cph[c],rph[r]) //音素の置換
)
= 1 (cph[c]≠rph[r]の場合)
である。
挿入コスト:ins_cost(cph[c]) = 0
削除コスト:del_cost(rph[r]) = α1
置換コスト:sub_cost(cph[c],rph[r]) = α2
挿入コスト:ins_cost(cph[c]) = 常に1
削除コスト:del_cost(rph[r]) = 1 (rph[r]≠Qの場合)
= β1 (rph[r]=Qの場合)
置換コスト:sub_cost(cph[c],rph[r]) = 0 (cph[c]=rph[r]の場合)
= 1
(cph[c]≠rph[r]かつrph[r]≠Qの場合)
= β2
(cph[c]≠rph[r]かつrph[r]=Qの場合)
挿入コスト:ins_cost(cph[c]) = 0
削除コスト:del_cost(rph[r]) = α1
置換コスト:sub_cost(cph[c], rph[r]) = 0 (rph[r]=Qの場合)
= α2 (rph[r]≠Qの場合)
Claims (14)
- 放送番組中の音声を認識し、該音声に対応する認識結果音素列を生成する認識部と、
放送番組の映像中の、1画面で表示される字幕を1単位とする各字幕に対応する音素列を生成するとともに、複数の字幕に対して生成された音素列を連結して字幕変換音素列を生成する字幕変換音素列生成部と、
前記字幕変換音素列生成部からの字幕変換音素列を一塊りとして前記認識部からの認識結果音素列と照合し、音声と字幕間の時間的ずれ幅を推定する照合部を備えたことを特徴とする字幕ずれ推定装置。 - 前記照合部は、前記字幕変換音素列生成部からの字幕変換音素列と前記認識部からの認識結果音素列間の離間を表す編集コストを計算し、該編集コストが最小となる音素間の対応関係を求め、音声と字幕の時間的なずれ幅を推定することを特徴とする請求項1に記載の字幕ずれ推定装置。
- 前記編集コストは、音素の挿入、削除、置換によって一方の音素列から他方の音素列へ変換するのに要する手順の回数に応じたコストを指標として定義されることを特徴とする請求項2に記載の字幕ずれ推定装置。
- 前記編集コストは、音素ごとの音声認識性能を元に定められた、ある音素を他の音素に置換する際に要するコスト、ある音素を挿入する際に要するコスト、ある音素を削除する際に要するコストを指標として定義されることを特徴とする請求項2に記載の字幕ずれ推定装置。
- 前記字幕変換音素列生成部は、字幕の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集コストを計算することを特徴とする請求項3または4に記載の字幕ずれ推定装置。
- 前記字幕変換音素列生成部は、字幕を解析して得られる文章の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集コストを計算することを特徴とする請求項3または4に記載の字幕ずれ推定装置。
- 前記字幕変換音素列生成部は、字幕の切れ目と字幕を解析して得られる文章の切れ目に文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記照合部は、前記擬似音素に対しては他の音素より小さいコストを与えて編集コストを計算することを特徴とする請求項3または4に記載の字幕ずれ推定装置。
- 前記字幕変換音素列生成部は、文章の切れ目を表す擬似音素を加えた字幕変換音素列を生成し、前記認識部は、無音が一定時間継続する箇所に無音を表す擬似音素を加えた認識結果音素列を生成し、前記照合部は、無音を表す擬似音素と文の切れ目を表す擬似音素間のコストを0または小さい値とし、無音を表す擬似音素と他の音素間のコストを他と比較して大きな値として編集コストを計算することを特徴とする請求項5ないし7のいずれかに記載の字幕ずれ推定装置。
- 前記照合部は、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C:Cは字幕変換音素列の全音素数)間の編集コストを計算し、該編集コストの中からその値が小さい上位N個を選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集コストを計算する際、字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された上位N個の編集コストを用いて計算可能なものについてのみ編集コストを計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集コストを計算することを特徴とする請求項1ないし8のいずれかに記載の字幕ずれ推定装置。
- 前記照合部は、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C:Cは字幕変換音素列の全音素数)間の編集コストを計算し、該編集コストの中からそれが最小のもの、および最小のものとの差が予め定めた閾値内に収まるものを選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集コストを計算する際、字幕変換音素列の先頭n音素(n=1〜C)の中で、先に選択された編集コストを用いて計算可能なものについてのみ編集コストを計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集コストを計算することを特徴とする請求項1ないし8のいずれかに記載の字幕ずれ推定装置。
- 前記照合部は、前記認識結果音素列の先頭r音素と前記字幕変換音素列の先頭n音素(n=1〜C:Cは字幕変換音素列の全音素数)間の編集コストを計算し、該編集コストの中からその値が最小となる字幕変換音素列の先頭m音素を選択し、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列間の編集コストを計算する際に、前記認識結果音素列の先頭r+1音素と前記字幕変換音素列の先頭m-N音素(Nは一定の値)から先頭m+N音素との編集コストの中で、既に計算されている先頭r音素との編集コストを用いて計算可能なものについてのみ編集コストを計算し、他については計算しないという処理を繰り返し実行し、認識結果音素列と字幕変換音素列間の編集コストを計算することを請求項1ないし8のいずれかに記載の字幕ずれ推定装置。
- 請求項1ないし11のいずれかに記載された字幕ずれ推定装置と、
前記字幕ずれ推定装置により推定された音声と字幕との間の時間的ずれ幅に従って、放送番組における字幕と音声間の時間的ずれを補正するずれ補正手段を備えたことを特徴とする字幕ずれ補正装置。 - 請求項1ないし11のいずれかに記載された字幕ずれ推定装置と、
前記字幕ずれ推定装置により推定された音声と字幕間の時間的ずれ幅に従って音声および映像との時間的ずれが補正された字幕を保存する字幕保存手段と、
入力されたキーワードに合致する部分の映像を、前記字幕保存手段に保存された字幕内の文字情報を元に検索する検索手段を備え、
前記検索手段により検索された部分の映像を再生することを特徴とする再生装置。 - 請求項12に記載された字幕ずれ補正装置と、
前記字幕ずれ補正装置により時間的ずれが補正された音声、映像および字幕を放送番組として送信する送信手段を備えたことを特徴とする放送装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008093029A JP5273844B2 (ja) | 2008-03-31 | 2008-03-31 | 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008093029A JP5273844B2 (ja) | 2008-03-31 | 2008-03-31 | 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009246813A JP2009246813A (ja) | 2009-10-22 |
JP5273844B2 true JP5273844B2 (ja) | 2013-08-28 |
Family
ID=41308225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008093029A Active JP5273844B2 (ja) | 2008-03-31 | 2008-03-31 | 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5273844B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6615952B1 (ja) * | 2018-07-13 | 2019-12-04 | 株式会社ソケッツ | テキスト表示用同期情報生成装置および方法 |
KR102182408B1 (ko) * | 2019-03-05 | 2020-11-24 | 충북대학교 산학협력단 | 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법 |
KR102385779B1 (ko) * | 2020-08-18 | 2022-04-13 | 한국방송공사 | 콘텐츠에 대한 자막 동기화를 수행하는 전자 장치 및 방법 |
CN112887779B (zh) * | 2021-01-20 | 2022-11-18 | 杭州小众圈科技有限公司 | 基于语音节奏进行自动滚动字幕的方法、系统及装置 |
KR102541162B1 (ko) * | 2021-06-14 | 2023-06-12 | 한국방송공사 | 콘텐츠에 대한 자막 동기화를 수행하는 전자 장치 및 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3830588B2 (ja) * | 1996-10-25 | 2006-10-04 | 日本放送協会 | 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置 |
JP4595098B2 (ja) * | 2001-02-15 | 2010-12-08 | 独立行政法人情報通信研究機構 | 字幕送出タイミング検出装置 |
JP2004207821A (ja) * | 2002-12-24 | 2004-07-22 | Nippon Hoso Kyokai <Nhk> | 字幕放送受信装置、字幕放送受信方法及び字幕放送受信プログラム |
JP4541781B2 (ja) * | 2004-06-29 | 2010-09-08 | キヤノン株式会社 | 音声認識装置および方法 |
JP2007047575A (ja) * | 2005-08-11 | 2007-02-22 | Canon Inc | パターンマッチング方法およびその装置、および音声情報検索システム |
-
2008
- 2008-03-31 JP JP2008093029A patent/JP5273844B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009246813A (ja) | 2009-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5246948B2 (ja) | 字幕ずれ補正装置、再生装置および放送装置 | |
KR101413327B1 (ko) | 오디오와 대응하는 텍스트 표기의 동기화를 수행하고 동기화의 확신 값을 결정하는 방법과 시스템 | |
JP5610197B2 (ja) | 検索装置、検索方法、及び、プログラム | |
US7881930B2 (en) | ASR-aided transcription with segmented feedback training | |
US9002705B2 (en) | Interactive device that recognizes input voice of a user and contents of an utterance of the user, and performs a response corresponding to the recognized contents | |
US20080270134A1 (en) | Hybrid-captioning system | |
JP5787780B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
WO2004044887A1 (ja) | 音声認識用辞書作成装置および音声認識装置 | |
JP6323947B2 (ja) | 音響イベント認識装置、及びプログラム | |
JP6327745B2 (ja) | 音声認識装置、及びプログラム | |
JP2012043000A (ja) | 検索装置、検索方法、及び、プログラム | |
KR20160122542A (ko) | 발음 유사도 측정 방법 및 장치 | |
JP5273844B2 (ja) | 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置 | |
Levin et al. | Automated closed captioning for Russian live broadcasting | |
JP7326931B2 (ja) | プログラム、情報処理装置、及び情報処理方法 | |
Lecouteux et al. | Imperfect transcript driven speech recognition | |
JP2017045027A (ja) | 音声言語コーパス生成装置およびそのプログラム | |
JP5243886B2 (ja) | 字幕出力装置、字幕出力方法及びプログラム | |
Chen et al. | Lightly supervised acoustic model training using consensus networks | |
KR101677530B1 (ko) | 음성 인식 장치 및 음성 인식 방법 | |
JP5044791B2 (ja) | 字幕ずれ推定装置、補正装置および再生装置 | |
JP2001282779A (ja) | 電子化テキスト作成システム | |
JP4595098B2 (ja) | 字幕送出タイミング検出装置 | |
US11043212B2 (en) | Speech signal processing and evaluation | |
JP5054632B2 (ja) | 音声合成装置及び音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100715 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120914 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130311 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130319 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130508 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130513 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5273844 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |