JPH10254478A - 音声原稿最適照合装置および方法 - Google Patents

音声原稿最適照合装置および方法

Info

Publication number
JPH10254478A
JPH10254478A JP9054448A JP5444897A JPH10254478A JP H10254478 A JPH10254478 A JP H10254478A JP 9054448 A JP9054448 A JP 9054448A JP 5444897 A JP5444897 A JP 5444897A JP H10254478 A JPH10254478 A JP H10254478A
Authority
JP
Japan
Prior art keywords
voice
matching
sentence
pause
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9054448A
Other languages
English (en)
Other versions
JP3727436B2 (ja
Inventor
Akio Ando
彰男 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP05444897A priority Critical patent/JP3727436B2/ja
Publication of JPH10254478A publication Critical patent/JPH10254478A/ja
Application granted granted Critical
Publication of JP3727436B2 publication Critical patent/JP3727436B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Studio Circuits (AREA)

Abstract

(57)【要約】 【課題】 ポーズが存在する音声と電子化原稿との時間
的対応をとる。 【解決手段】 当該ニュース項目に対応する電子化原稿
を読み込み、ニュース項目の各文から、キーワード抽出
部4によりキーワードを切り出し、各キーワードを音素
記号列に変換する。音声キーワード照合部8によりキー
ワードモデルを構成する。ニュース項目に対応した音声
を読み込み、音響分析部2により、音声中のポーズ区間
を決定し、音声区間をそれぞれ音響パラメータに変換す
る。ついで、キーワードモデルを用いて、音声中からキ
ーワード部分の候補を求め、得られたキーワード照合結
果を、照合ラティスとして作成する。そして、照合ラテ
ィスの中から、最適照合列探索部10により、最適な照
合列を探索し、探索された最適照合列に従って、各文の
先頭に対応する音声の開始時間を出力し、この時間情報
を用いて、音声と原稿の時間対応を求める。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声と電子化され
た原稿との時間的対応を自動的に求める音声原稿最適照
合装置および方法に関する。
【0002】
【従来の技術】最近、テレビ放送中の音声を文字化し、
字幕として付与して欲しいとの要求が、特に聴覚障害者
などから高まっている。このような要求に応えるものと
しては、放送局などに存在する電子化された原稿(以
下、電子化原稿という)、例えば、ニュース番組のアナ
ウンス用の電子化原稿を、字幕として付与する方法が提
案されている。この方法を実際に実施するには、字幕ス
ーパするタイミングを監視する要員などのような多くの
人手が必要であり、作業の自動化が課題として残されて
いた。
【0003】原稿と音声との時間的対応を自動的に求め
る方式としては、電子化原稿と音声との照合を、電子化
原稿全体と音声全体との時間的対応を求めることにより
行う方式のみが提案されていた(例えば、中川 聖一著
「碓率モデルによる音声認識」電子通信学会参照)。こ
のような方式により電子化原稿と音声の時間的対応をと
るには、読み手は、ポーズをおいたり(間をあけた
り)、「えー」などの不要語を発声したりせずに、原稿
を読む必要があった。
【0004】
【発明が解決しようとする課題】読み手がポーズを入れ
た場合でも、電子化原稿と音声との時間的対応を精度良
くとることができるようにするには、読み手がポーズを
おいた位置が、電子化原稿上で予め分かっていなければ
ならず、照合作業が非常に煩わしかった。また、電子化
原稿と音声との時間的対応を求めることは、原稿が放送
直前に修正されたりした場合には、困難であった。
【0005】電子化原稿全体と音声全体とを照合するよ
うにしたので、多大なメモリと計算量を必要とした。
【0006】本発明の目的は、上記のような問題点を解
決し、音声中にポーズが存在しても、電子化原稿と音声
との時間的対応をとることができ、しかも、少ないメモ
リと演算量で実行することができる音声原稿最適照合装
置および方法を提供することにある。
【0007】
【課題を解決するための手段】本発明は、複数単位の電
子化原稿から単位ごとに各文の冒頭部分として予め定め
た数の文節または単語を先頭から連続して取り出す冒頭
部分取出手段と、該冒頭部分取出手段により取り出され
た各文の冒頭部分全体に対応する音響モデルを作成する
音響モデル作成手段と、前記音声中のポーズ区間を検出
するポーズ検出手段と、該ポーズ検出手段により検出さ
れたポーズ区間とポーズ区間の間の音声区間をそれぞれ
音響パラメータ列に変換する変換手段と、該変換手段に
より得られた各音声区間の音響パラメータ列と、前記音
響モデル作成手段により作成された各文の冒頭部分全体
の音響モデルとを照合し、照合結果を照合ラティスとし
て作成する照合手段と、該照合手段により作成された照
合ラティスから最適照合列を探索する探索手段と、該探
索手段により探索された最適照合列に従って、各文の先
頭に対応する音声の開始時間を出力する出力手段とを備
えたことを特徴とする。
【0008】本発明は、複数単位の電子化原稿から単位
ごとに各文の冒頭部分として予め定めた数の文節または
単語を先頭から連続して取り出し、取り出された各文の
冒頭部分全体に対応する音響モデルを作成し、前記音声
中のポーズ区間を検出し、検出されたポーズ区間とポー
ズ区間の間の音声区間をそれぞれ音響パラメータ列に変
換し、得られた各音声区間の音響パラメータ列と、各文
の冒頭部分全体の音響モデルとを照合し、照合結果を照
合ラティスとして作成し、作成された照合ラティスから
最適照合列を探索し、探索された最適照合列に従って、
各文の先頭に対応する音声の開始時間を出力する。
【0009】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して詳細に説明する。
【0010】図1は本発明の一実施の形態を示す。これ
は、ニュース番組において、ニュース原稿をアナウンス
音声に同期させて文単位に字幕としてスーパーする例で
ある。図1において、2は音響分析部であり、アナウン
ス音声を音響パラメータに変換するとともに、線形予測
分析を用いて、アナウンス音声信号から、LPCケプス
トラム係数と、デルタケプストラム係数と、デルタ対数
パワーを算出し、これらのパワー情報を用いて、アナウ
ンス音声中のポーズ区間を検出するものである。出力シ
ンボルとしては、18次LPCケプストラムパラメー
タ、18次デルタケプストラムパラメータ、デルタパワ
ーを、それぞれ、符号帳サイズ256、256、64で
量子化したものを用いた。6は音素モデル格納部であ
り、各音素ごとの音響的特徴を表す音素モデルを格納す
るためのものである。音素モデルとしては、音素単位の
離散型HMM(Hidden Markov Model )を用いた。HM
Mの状態数は、子音3状態、母音1状態とし、left-to-
right 型のものを用いた。HMMについては、例えば、
中川聖一著「確率モデルによる音声認識」電子通信学会
を参照されたい。4はキーワード抽出部であり、ニュー
ス項目(ニュースの話題)中の各文(文とは読点で区切
られる単位)のキーワードとして、例えば、各文の先頭
から連続して2文節または2単語を切り出し、各キーワ
ードごとに音素列に変換し、各音素に音素モデル格納部
からの音素モデルを結合するものである。8は音声キー
ワード照合部であり、キーワード抽出部4により抽出さ
れた各キーワードの各音素に対して、音素モデルを音素
モデル格納部6から取り出し結合して音響モデルを生成
し、生成された音響モデルと、音響分析部2から送られ
てきた音響パラメータ列のポーズとポーズの間の区間
(以下、音声区間という)とを照合し、照合スコアを算
出し、照合ラティスを生成するものである。10は最適
照合列探索部であり、音声キーワード照合部8により生
成された照合ラティスから最適照合結果列を動的計画法
を用いて探索するものである。動的計画法については、
例えば、西川他著「最適化」(岩波講座情報科学19:
岩波書店)を参照されたい。
【0011】図2はニュース番組での音声原稿照合手順
の一例を示すフローチャートである。ニュース番組にお
けるニュース項目の順番は予め定められているものとす
る。
【0012】ステップS2にて、音素モデルのパラメー
タを読み込み、ステップS4にて、当該ニュース項目に
対応するニュース電子化原稿(以下、単に、電子化原稿
という)を読み込む。そして、ステップS6にて、読み
込まれたニュース項目の各文から、キーワード抽出部4
によりキーワードを切り出し、切り出した各キーワード
を音素記号列に変換する。ニュース項目は、一般的に、
複数の文により構成されているので、1つのニュース項
目から複数のキーワードが切り出されることになる。つ
いで、ステップS8にて、音声キーワード照合部8によ
り、切り出されたキーワードの各音素に、各音素に対応
する音素モデルを連結してキーワードモデルを構成す
る。
【0013】ステップS10にて、ニュース項目に対応
したアナウンス音声を読み込み、ステップS12にて、
音響分析部2により、アナウンス音声から、線形予測分
析を用いて、LPCケプストラム係数と、デルタケプス
トラム係数と、デルタ対数パワーとを算出し、パワーが
予め定めた閾値より小さい部分が所定の長さ以上続く区
間をポーズ区間と決定する。ついで、ポーズ区間とポー
ズ区間の間の音声区間をそれぞれ音響パラメータに変換
する。
【0014】ついで、ステップS14にて、ステップS
8で構成されたキーワードモデルを用いて、アナウンス
音声中からキーワード部分の候補を求める。一般的に、
アナウンス音声には、電子化原稿の読点「。」直後にポ
ーズが存在する。言い換えると、ニュース項目の最初の
文を除き、各文の先頭にポーズが存在することになる。
また、一般的に、破裂性子音(/p/、/k/等)の直
前にも、ポーズが存在する。そこで、ポーズの後の音声
区間に対してキーワード照合を行い、その結果を、対数
尤度として算出する。得られたキーワード照合結果を、
ステップS16にて、照合ラティスとして作成する。照
合ラティスと実際のアナウンス音声との対応例を図3に
示す。
【0015】図3を説明する。ポーズは、2番目の文の
中に1つ、3番目の文の中に2つ検出されているので、
ポーズの後の音声区間に対して、キーワード照合を行う
ことになる。w1 、w2 、・・、wn を、電子化原稿の
各文から切り出されたキーワードとすると、文の先頭部
分以外にも、s31、s32、s33、s51、s52、s53など
のスコアが算出されることになる。ただし、wj はj番
目の文のキーワードを表し、sijはj番目の音声区間を
j番目のキーワードで照合した際の照合スコアである。
【0016】そして、ステップS18にて、ステップS
16で作成された照合ラティスの中から、最適照合列探
索部10により、動的計画法を用いて、最適な照合列を
探索し、探索された最適照合列に従って、ステップS2
0にて、各文の先頭に対応する音声の開始時間を出力
し、この時間情報を用いて、音声と原稿の時間対応を求
める。ステップS22にて、音声および原稿が終了した
かどうかを判定し、音声/原稿がまだ続く場合には、次
のニュース項目の音声/原稿時間対応の探索に移るた
め、ステップS4に移行し、否定判定された場合には、
その後、処理を終了する。
【0017】本実施の形態では、音響モデルとしてHM
Mを用いた例を説明したが、HMM以外の音響モデル、
例えば、ニューラルネットワーク等を用いることができ
ることは勿論である。
【0018】また、本実施の形態では、ニュース番組に
おけるアナウンス音声と電子化原稿との時間対応を求め
る例を説明したが、本発明は、この例に限定されるもの
ではなく、原稿と当該原稿に対応する音声が用意されて
いる場合に適用することができる。例えば、音声が記録
されているオーディオ・テープの頭出しを行う場合にも
適用可能である。
【0019】
【実施例】本実施例は、NHKのニュース番組を対象と
し、ニュース原稿をアナウンス音声に同期させて字幕と
してスーパするシミュレーション実験を行った例であ
る。評価用音声データは、1996年6月4日〜7日に
放送された「NNHKニュース7」中の4ニュース項
目、計54文である(各ニュース項目当たり、平均1
3.5文)。キーワードは、最初の文節が3音節以下か
らなる場合には、最初の2文節をキーワードとして切り
出し、それ以外の場合には、最初の文節をキーワードと
して切り出した。音響モデルとしては、音素HMMを用
いた。評価用音声が全て女性の発声したものであったこ
とから、HMMとして、女性用のものを作成した。作成
に当たっては、ATRデータベースのうち女性24名が
発声した50文ずつのデータを用いた。実験の結果、実
際にキーワードを発話した部分の開始時間に対して、本
発明を用いて算出した時間の遅れが1秒以内であった文
数は52文であり、これは全体の文のうちの96%に達
した。実際の番組制作で人手で字幕スーパする場合で
も、1秒程度の字幕スーパの遅れはしばしば起こること
であり、したがって、字幕スーパーに対する応用例で
も、本発明が有効であることが確認された。
【0020】
【発明の効果】以上説明したように、本発明によれば、
上記のように構成したので、原稿をポーズを入れて読ん
だ音声であっても、音声と原稿との最適な時間対応を与
えることができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態を示すブロック図であ
る。
【図2】ニュース番組での音声原稿照合手順の一例を示
すフローチャートである。
【図3】音声キーワード照合ラティスの一例を示す図で
ある。
【符号の説明】
2 音響分析部 4 キーワード抽出部 6 音素モデル格納部 8 音声キーワード照合部 10 最適照合列探索部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数単位の電子化原稿から単位ごとに各
    文の冒頭部分として予め定めた数の文節または単語を先
    頭から連続して取り出す冒頭部分取出手段と、 該冒頭部分取出手段により取り出された各文の冒頭部分
    全体に対応する音響モデルを作成する音響モデル作成手
    段と、 前記音声中のポーズ区間を検出するポーズ検出手段と、 該ポーズ検出手段により検出されたポーズ区間とポーズ
    区間の間の音声区間をそれぞれ音響パラメータ列に変換
    する変換手段と、 該変換手段により得られた各音声区間の音響パラメータ
    列と、前記音響モデル作成手段により作成された各文の
    冒頭部分全体の音響モデルとを照合し、照合結果を照合
    ラティスとして作成する照合手段と、 該照合手段により作成された照合ラティスから最適照合
    列を探索する探索手段と、 該探索手段により探索された最適照合列に従って、各文
    の先頭に対応する音声の開始時間を出力する出力手段と
    を備えたことを特徴とする音声原稿最適照合装置。
  2. 【請求項2】 複数単位の電子化原稿から単位ごとに各
    文の冒頭部分として予め定めた数の文節または単語を先
    頭から連続して取り出すステップと、 取り出された各文の冒頭部分全体に対応する音響モデル
    を作成するステップと、 前記音声中のポーズ区間を検出するステップと、 検出されたポーズ区間とポーズ区間の間の音声区間をそ
    れぞれ音響パラメータ列に変換するステップと、 得られた各音声区間の音響パラメータ列と、各文の冒頭
    部分全体の音響モデルとを照合し、照合結果を照合ラテ
    ィスとして作成するステップと、 作成された照合ラティスから最適照合列を探索するステ
    ップと、 探索された最適照合列に従って、各文の先頭に対応する
    音声の開始時間を出力するステップとを備えたことを特
    徴とする音声原稿最適照合方法。
JP05444897A 1997-03-10 1997-03-10 音声原稿最適照合装置および方法 Expired - Fee Related JP3727436B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05444897A JP3727436B2 (ja) 1997-03-10 1997-03-10 音声原稿最適照合装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05444897A JP3727436B2 (ja) 1997-03-10 1997-03-10 音声原稿最適照合装置および方法

Publications (2)

Publication Number Publication Date
JPH10254478A true JPH10254478A (ja) 1998-09-25
JP3727436B2 JP3727436B2 (ja) 2005-12-14

Family

ID=12970992

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05444897A Expired - Fee Related JP3727436B2 (ja) 1997-03-10 1997-03-10 音声原稿最適照合装置および方法

Country Status (1)

Country Link
JP (1) JP3727436B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244694A (ja) * 2001-02-15 2002-08-30 Telecommunication Advancement Organization Of Japan 字幕送出タイミング検出装置
JP2002351490A (ja) * 2001-05-29 2002-12-06 Telecommunication Advancement Organization Of Japan 字幕へのタイミング情報付与方法
JP2010015088A (ja) * 2008-07-07 2010-01-21 Panasonic Corp データ生成装置及びデータ生成プログラム、並びに、再生装置
JP2016012099A (ja) * 2014-06-30 2016-01-21 シナノケンシ株式会社 テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212190A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ作成支援装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212190A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ作成支援装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244694A (ja) * 2001-02-15 2002-08-30 Telecommunication Advancement Organization Of Japan 字幕送出タイミング検出装置
JP4595098B2 (ja) * 2001-02-15 2010-12-08 独立行政法人情報通信研究機構 字幕送出タイミング検出装置
JP2002351490A (ja) * 2001-05-29 2002-12-06 Telecommunication Advancement Organization Of Japan 字幕へのタイミング情報付与方法
JP2010015088A (ja) * 2008-07-07 2010-01-21 Panasonic Corp データ生成装置及びデータ生成プログラム、並びに、再生装置
JP2016012099A (ja) * 2014-06-30 2016-01-21 シナノケンシ株式会社 テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム

Also Published As

Publication number Publication date
JP3727436B2 (ja) 2005-12-14

Similar Documents

Publication Publication Date Title
US10643609B1 (en) Selecting speech inputs
US10074363B2 (en) Method and apparatus for keyword speech recognition
EP0649144B1 (en) Automatic indexing of audio using speech recognition
US20200120396A1 (en) Speech recognition for localized content
US11721329B2 (en) Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus
EP1909263B1 (en) Exploitation of language identification of media file data in speech dialog systems
US8209171B2 (en) Methods and apparatus relating to searching of spoken audio data
Hori et al. A new approach to automatic speech summarization
JPH05197389A (ja) 音声認識装置
CN106710585B (zh) 语音交互过程中的多音字播报方法及系统
Hori et al. Speech summarization: an approach through word extraction and a method for evaluation
JP2004302175A (ja) 音声認識システム、音声認識方法及び音声認識プログラム
GB2451938A (en) Methods and apparatus for searching of spoken audio data
Bai et al. Syllable-based Chinese text/spoken document retrieval using text/speech queries
JP3727436B2 (ja) 音声原稿最適照合装置および方法
Rahul et al. Design of Manipuri keywords spotting system using HMM
JPH09134191A (ja) 音声認識装置
JP2002244694A (ja) 字幕送出タイミング検出装置
Mirzaei et al. Adaptive Listening Difficulty Detection for L2 Learners Through Moderating ASR Resources.
JP2905686B2 (ja) 音声認識装置
Stojanović et al. A Method for Estimating Variations in Speech Tempo from Recorded Speech
JP3110025B2 (ja) 発声変形検出装置
Kalinli et al. Continuous speech recognition using attention shift decoding with soft decision.
Pham et al. Temporal confusion network for speech-based soccer event retrieval
JPH09212190A (ja) 音声認識装置及び文認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050916

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050928

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091007

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101007

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111007

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121007

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121007

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131007

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees