JP3830588B2 - 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置 - Google Patents

字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置 Download PDF

Info

Publication number
JP3830588B2
JP3830588B2 JP28425296A JP28425296A JP3830588B2 JP 3830588 B2 JP3830588 B2 JP 3830588B2 JP 28425296 A JP28425296 A JP 28425296A JP 28425296 A JP28425296 A JP 28425296A JP 3830588 B2 JP3830588 B2 JP 3830588B2
Authority
JP
Japan
Prior art keywords
subtitle
caption
conversion
super
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP28425296A
Other languages
English (en)
Other versions
JPH10136260A (ja
Inventor
彰男 安藤
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP28425296A priority Critical patent/JP3830588B2/ja
Publication of JPH10136260A publication Critical patent/JPH10136260A/ja
Application granted granted Critical
Publication of JP3830588B2 publication Critical patent/JP3830588B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Studio Circuits (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置に関する。
【0002】
【従来の技術】
従来は、字幕スーパーのタイミングを自動的に与える装置はなく、放送局等では、字幕スーパーのタイミングは人間がボタンを押すことにより与えていた。
【0003】
放送中の音声を文字化し得られた文字を字幕スーパーにするという聴覚障害者等の要求に応え得るものとしては、例えば、ニュース番組のアナウンスに際して予め設けられた電子化した原稿を、字幕スーパーするタイミングで操作者がボタンを押して字幕スーパーとして送出する装置がある。
【0004】
また、従来から、音響モデルを用いた音声認識法が知られている。
【0005】
【発明が解決しようとする課題】
しかしながら、字幕スーパーするタイミングを監視する要員等の多くの人手が必要となり、作業の自動化が課題として残されていた。
【0006】
本発明の第1の目的は、上記のような問題点を解決し、字幕スーパーするタイミング信号を自動的に発生することができる字幕スーパー・タイミング発生装置および方法を提供することにある。
【0007】
本発明の第2の目的は、上記のような問題点を解決し、字幕スーパーするタイミングに同期して字幕スーパー処理を行うことができる字幕スーパー処理装置および方法を提供することにある。
【0008】
【課題を解決するための手段】
請求項1の発明は、字幕スーパー・タイミング発生装置であって、複数の字幕原稿からなる電子化原稿をストアするためのストア手段と、該ストア手段から字幕原稿をに取り出す取出手段と、該取出手段により取り出された字幕原稿から冒頭部分として予め定めた数の文節を先頭から連続して取り出す冒頭部分取出手段と、該冒頭部分取出手段により取り出された冒頭部分全体を発音記号列に変換する第1変換手段と、該第1変換手段により変換して得られた各発音記号ごとに音響モデルを連結する第1連結手段と、番組音声を音響パラメータ列に変換する第2変換手段と、該第2変換手段により得られた音響パラメータ列と、前記第1連結手段により連結された音響モデルとを照合する照合手段と、該照合手段により照合した結果、スコアが所定の閾値を超えた場合に、前記取出手段から取り出した字幕原稿を、前記番組音声に関連付けられた映像にスーパーする字幕スーパー・タイミング信号を生成する信号生成手段とを備えたことを特徴とするものである。
【0010】
請求項2の発明は、字幕スーパー処理装置であって、複数の字幕原稿からなる電子化原稿をストアするためのストア手段と、該ストア手段から字幕原稿をに取り出す取出手段と、該取出手段により取り出された字幕原稿から冒頭部分として予め定めた数の文節を先頭から連続して取り出す冒頭部分取出手段と、該冒頭部分取出手段により取り出された冒頭部分全体を発音記号列に変換する第1変換手段と、該第1変換手段により変換して得られた各発音記号ごとに音響モデルを連結する第1連結手段と、番組音声を音響パラメータ列に変換する第2変換手段と、該第2変換手段により得られた音響パラメータ列と、前記第1連結手段により連結された音響モデルとを照合する照合手段と、該照合手段により照合した結果、スコアが所定の閾値を超えた場合に、前記取出手段から取り出した字幕原稿を、前記番組音声に関連付けられた番組映像にスーパーする字幕スーパー・タイミング信号を生成する信号生成手段と、該信号生成手段により生成された字幕スーパー・タイミング信号に同期して、前記取出手段により取り出された前記字幕原稿を、前記番組映像に多重化する多重化手段とを備えたことを特徴とするものである。
【0012】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して詳細に説明する。
【0013】
図1は本発明の一実施の形態を示す。図1において、2はテレビ番組送出装置であり、テレビ番組を送出するものである。4は電子化原稿記憶装置であり、電子化原稿を記憶するためのものである。6は字幕自動同期装置であり、字幕スーパー・タイミング信号を生成するものである。8は字幕スーパー多重装置であり、取り出された字幕原稿を一旦ストアし、このストアされている字幕原稿を、字幕自動同期装置6からの字幕スーパー・タイミング信号に同期して、テレビ番組送出装置2からの番組映像に多重化するものである。
【0014】
図2は図1の字幕自動同期装置6の構成を示す。図2において、61はニュース項目取出部であり、適正なタイミングで電子化原稿記憶装置4からニュース項目を取り出すものである。62は冒頭部分抽出部であり、ニュース項目取出部61により取り出されたニュース項目の冒頭部分として所定数の文節を先頭から連続して抽出するものである。この冒頭部分はその長さを長くすればするほど、照合性が高くなるが、実際には、照合にかかる時間を考慮して、連続する数文節にするのが望ましい。
【0015】
63は発音記号列変換部であり、冒頭部分抽出部62からの冒頭部分を形態素解析(文を品詞ごとに分割する技術)して品詞ごとに分割し、さらに全て平仮名からなる文字列に変換し、この平仮名からなる文字列を、表1〜表4の平仮名・発音記号対応表を用いて、発音記号列に変換するものである。形態素解析については、例えば、田中穂積著「自然言語解析の基礎」産業図書を参照されたい。
【0016】
【表1】
Figure 0003830588
【0017】
【表2】
Figure 0003830588
【0018】
【表3】
Figure 0003830588
【0019】
【表4】
Figure 0003830588
【0020】
64は音響モデル連結部であり、発音記号列変換部63からの各発音記号ごとに所定の音響モデルを連結するものである。音響モデルとしては、例えば、HMM(Hidden Markov Model) が好ましい。HMMについては、例えば、中川聖一著「確率モデルによる音声認識」電子通信学会を参照されたい。65は音響パラメータ列変換部であり、テレビ番組送出装置2からの番組音声を、音響パラメータ列(例えば、スペクトルの時系列)に変換するものである。
【0021】
67は照合部であり、音響モデル連結部64からの音響モデルと、音響パラメータ列変換部65から送られてきた音響パラメータ列とを照合し、スコア(HMMの場合には尤度; 音響モデル連結部64からの音響モデルが、音響パラメータ列変換部65から送られてきた音響パラメータ列を生成すると仮定した場合の尤もらしさ)が予め定めた閾値より高くなった場合に、冒頭部分の音響モデルが番組音声中に存在するとして、字幕スーパー・タイミング信号を生成するものである。
【0022】
次に、照合部67の動作を詳細に説明する。まず、母音、子音等の単位である音素ごとに、HMMを構成しておき、各HMMのパラメータは多数話者が発声したデータベース、例えば、ATR(国際電気通信基礎研究所)が発行している音声データベースを用いて学習しておくものとする。そして、処理の実時間化を考慮して、入力される番組音声のサンプル(以下、単に、音声サンプルという)に対して、冒頭部分に対するHMMにより逆向き照合(終端状態から過去の方向に向かって順に対応させていく照合)を行い、始端フリーの照合を行う。そして、冒頭部分に対するHMMの始端状態に対応する音声サンプル中の最も過去の時刻(通常、1つのHMM状態に対し、複数の音声サンプルが対応する)、すなわち、音声開始時刻と、照合によって得られたHMM尤度の組とを求める。そして、HMM尤度が予め定めた閾値を超えたとき、字幕スーパー・タイミング信号を出力する。
【0023】
図3は字幕スーパ処理手順の一例を示すフローチャートである。ニュース番組におけるニュース項目の順番は予め定められているものとする。
【0024】
ニュース項目取出部61により1つのニュース項目を電子化原稿記憶装置4から取り出し(S301)、取り出されたニュース項目を字幕スーパー多重装置8にストアし、他方、ニュース項目取出部61により取り出されたニュース項目の冒頭部分(例えば、先頭から2文節)を冒頭部分抽出部62により抽出する。ついで、抽出された冒頭部分全体を発音記号列変換部63により発音記号列に変換し(S302)、各発音記号ごとに、音響モデル連結部64により、音響モデルを連結する(S303)。例えば、図4に示す項目3のニュース項目が取り出されると、冒頭部分抽出部62により2文節、すなわち、「政府は閣議に」が抽出され、表1〜表4の発音記号表に従って、図5に示すように、「seihuwakakugini 」という発音記号列に変換されることになる。
【0025】
一方、番組音声は音響パラメータ列変換部65により音響パラメータ列に変換される。そして、音響モデル連結部64からの音響モデルと、音響パラメータ列変換部65から送られた音響パラメータ列とを照合していき(S304およびS305)、番組音声中に、冒頭部分が存在する個所を推定する。そして、冒頭部分が番組音声中に存在すると推定した場合、上記の例では、図6に示すように、「seihuwakakugini 」という発音記号列と、「seihuwa kakugini」という音声(図6には、便宜上、波形ではなく、発音記号列で示してある)との照合尤度が大きくなった時点で、字幕スーパー・タイミング信号を生成する。この字幕スーパー・タイミング信号に同期して、字幕多重処理装置8により字幕原稿が、テレビ番組送出装置2からの番組映像に多重化される(S307)。このニュース項目が最後のニュース項目でない場合には(S308)、次のニュース項目に対して、上記の手順を繰り返し、他方、最後のニュース項目である場合には(S308)、この字幕スーパ処理手順を終了する。
【0026】
本実施の形態では、音響モデルとしてHMMを用いた例を説明したが、この音響モデルに限定されるものではなく、例えば、ニューラルネットワーク等を用いることができることは当然である。
【0027】
また、番組音声はニュース番組の音声に限定されるものではなく、電子化原稿が用意されているのであれば、任意の番組音声でもよいことは当然である。
【0028】
【実施例】
以下、シミュレーション実験を行った結果を示す。評価用音声データとしては、1996年6月3日に放送された「NHKニュース7」中の13個のニュース項目、計67文が連続して発生されているデータを用いた。ニュース項目当たり5.2文である。また、音響モデルとして音素HMMを用いた。HMMは男女ごとに分けて作成した。作成に当たっては、男女ごとに、ATRデータベースとして各20名ずつが発声した50文ずつのデータを用いた。さらに、冒頭部分として、各ニュース項目の先頭の文全体を用いた。
【0029】
実験した結果、字幕スーパー・タイミング信号が出力されるタイミングが、各ニュース項目の先頭音素区間内(数100ms程度の長さ)に含まれる率は、93%(12項目/13項目)であった。
【0030】
しかし、これらのタイミングが先頭音素区間内に含まれていない場合でも、このタイミングは実際の放送における字幕スーパーのタイミングと比べ違和感のあるものではなかった。
【0031】
【発明の効果】
以上説明したように、請求項1および請求項3の発明によれば、上記のように構成したので、字幕スーパーするタイミング信号を自動的に発生させることができる。
【0032】
また、請求項2および請求項4の発明によれば、上記のように構成したので、字幕スーパーするタイミングに同期して字幕スーパー処理を行うことができる。
【図面の簡単な説明】
【図1】本発明の実施の形態を示すブロック図である。
【図2】図1の字幕自動同期装置6の構成を示すブロック図である。
【図3】字幕スーパ処理手順の一例を示すフローチャートである。
【図4】ニュース項目の取出しを説明するための説明図である。
【図5】発音記号変換により得られた冒頭部分の発音記号列を示す図である。
【図6】番組音声中の冒頭部分と一致する箇所を示す図である。
【符号の説明】
2 テレビ番組送出装置
4 電子化原稿記憶装置
6 字幕自動同期装置
8 字幕スーパー多重装置
61 ニュース項目取出部
62 冒頭部分抽出部
63 発音記号列変換部
64 音響モデル連結部
65 音響パラメータ列変換部
67 照合部

Claims (2)

  1. 複数の字幕原稿からなる電子化原稿をストアするためのストア手段と、
    該ストア手段から字幕原稿をに取り出す取出手段と、
    該取出手段により取り出された字幕原稿から冒頭部分として予め定めた数の文節を先頭から連続して取り出す冒頭部分取出手段と、
    該冒頭部分取出手段により取り出された冒頭部分全体を発音記号列に変換する第1変換手段と、
    該第1変換手段により変換して得られた各発音記号ごとに音響モデルを連結する第1連結手段と、
    番組音声を音響パラメータ列に変換する第2変換手段と、
    該第2変換手段により得られた音響パラメータ列と、前記第1連結手段により連結された音響モデルとを照合する照合手段と、
    該照合手段により照合した結果、スコアが所定の閾値を超えた場合に、前記取出手段から取り出した字幕原稿を、前記番組音声に関連付けられた映像にスーパーする字幕スーパー・タイミング信号を生成する信号生成手段と
    を備えたことを特徴とする字幕スーパー・タイミング発生装置。
  2. 複数の字幕原稿からなる電子化原稿をストアするためのストア手段と、
    該ストア手段から字幕原稿をに取り出す取出手段と、
    該取出手段により取り出された字幕原稿から冒頭部分として予め定めた数の文節を先頭から連続して取り出す冒頭部分取出手段と、
    該冒頭部分取出手段により取り出された冒頭部分全体を発音記号列に変換する第1変換手段と、
    該第1変換手段により変換して得られた各発音記号ごとに音響モデルを連結する第1連結手段と、
    番組音声を音響パラメータ列に変換する第2変換手段と、
    該第2変換手段により得られた音響パラメータ列と、
    前記第1連結手段により連結された音響モデルとを照合する照合手段と、
    該照合手段により照合した結果、スコアが所定の閾値を超えた場合に、前記取出手段から取り出した字幕原稿を、前記番組音声に関連付けられた番組映像にスーパーする字幕スーパー・タイミング信号を生成する信号生成手段と、
    該信号生成手段により生成された字幕スーパー・タイミング信号に同期して、前記取出手段により取り出された前記字幕原稿を、前記番組映像に多重化する多重化手段と
    を備えたことを特徴とする字幕スーパー処理装置。
JP28425296A 1996-10-25 1996-10-25 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置 Expired - Fee Related JP3830588B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28425296A JP3830588B2 (ja) 1996-10-25 1996-10-25 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28425296A JP3830588B2 (ja) 1996-10-25 1996-10-25 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置

Publications (2)

Publication Number Publication Date
JPH10136260A JPH10136260A (ja) 1998-05-22
JP3830588B2 true JP3830588B2 (ja) 2006-10-04

Family

ID=17676129

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28425296A Expired - Fee Related JP3830588B2 (ja) 1996-10-25 1996-10-25 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置

Country Status (1)

Country Link
JP (1) JP3830588B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4550210B2 (ja) * 2000-03-14 2010-09-22 株式会社東芝 デジタル放送信号送出システム及びそのサービス情報処理装置
JP4595098B2 (ja) * 2001-02-15 2010-12-08 独立行政法人情報通信研究機構 字幕送出タイミング検出装置
JP5273844B2 (ja) * 2008-03-31 2013-08-28 Kddi株式会社 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
JP2013016095A (ja) 2011-07-06 2013-01-24 Fujitsu Ltd プログラム、情報処理装置、および図生成方法

Also Published As

Publication number Publication date
JPH10136260A (ja) 1998-05-22

Similar Documents

Publication Publication Date Title
CN110049270B (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
CN106331893B (zh) 实时字幕显示方法及系统
US7124082B2 (en) Phonetic speech-to-text-to-speech system and method
CN108133632B (zh) 英语听力的训练方法及系统
CN110853615B (zh) 一种数据处理方法、装置及存储介质
US20070088547A1 (en) Phonetic speech-to-text-to-speech system and method
EP0736857A3 (en) Speech recognizing method and apparatus, and speech translating system
US8606560B2 (en) Automatic simultaneous interpertation system
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
JPH10504404A (ja) 音声認識のための方法および装置
JP3830588B2 (ja) 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置
KR20090040014A (ko) 텍스트 분석 기반의 입 모양 동기화 장치 및 방법
CN110992984B (zh) 音频处理方法及装置、存储介质
CN112466287A (zh) 一种语音分割方法、装置以及计算机可读存储介质
CN107885736A (zh) 翻译方法及装置
KR102557092B1 (ko) 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템
KR101233655B1 (ko) 음성인식 기반 국제회의 통역 장치 및 방법
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
CN110610721B (zh) 一种基于歌词演唱准确度的检测系统及方法
CN113160821A (zh) 一种基于语音识别的控制方法及装置
CN112530412A (zh) 一种语音控制播经方法和系统
JP3727436B2 (ja) 音声原稿最適照合装置および方法
CN114175147A (zh) 语音处理设备、语音处理方法和记录介质
KR200294684Y1 (ko) 대화형 디지털 액자
KR20140121169A (ko) 청각장애인용 상황대처 음성 자막 변환 방법 및 장치

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051213

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060712

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100721

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110721

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120721

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120721

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130721

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140721

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees