JPH10254478A

JPH10254478A - 音声原稿最適照合装置および方法

Info

Publication number: JPH10254478A
Application number: JP9054448A
Authority: JP
Inventors: Akio Ando; 彰男安藤
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1997-03-10
Filing date: 1997-03-10
Publication date: 1998-09-25
Anticipated expiration: 2017-03-10
Also published as: JP3727436B2

Abstract

(57)【要約】【課題】ポーズが存在する音声と電子化原稿との時間
的対応をとる。【解決手段】当該ニュース項目に対応する電子化原稿
を読み込み、ニュース項目の各文から、キーワード抽出
部４によりキーワードを切り出し、各キーワードを音素
記号列に変換する。音声キーワード照合部８によりキー
ワードモデルを構成する。ニュース項目に対応した音声
を読み込み、音響分析部２により、音声中のポーズ区間
を決定し、音声区間をそれぞれ音響パラメータに変換す
る。ついで、キーワードモデルを用いて、音声中からキ
ーワード部分の候補を求め、得られたキーワード照合結
果を、照合ラティスとして作成する。そして、照合ラテ
ィスの中から、最適照合列探索部１０により、最適な照
合列を探索し、探索された最適照合列に従って、各文の
先頭に対応する音声の開始時間を出力し、この時間情報
を用いて、音声と原稿の時間対応を求める。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声と電子化され
た原稿との時間的対応を自動的に求める音声原稿最適照
合装置および方法に関する。

【０００２】

【従来の技術】最近、テレビ放送中の音声を文字化し、
字幕として付与して欲しいとの要求が、特に聴覚障害者
などから高まっている。このような要求に応えるものと
しては、放送局などに存在する電子化された原稿（以
下、電子化原稿という）、例えば、ニュース番組のアナ
ウンス用の電子化原稿を、字幕として付与する方法が提
案されている。この方法を実際に実施するには、字幕ス
ーパするタイミングを監視する要員などのような多くの
人手が必要であり、作業の自動化が課題として残されて
いた。

【０００３】原稿と音声との時間的対応を自動的に求め
る方式としては、電子化原稿と音声との照合を、電子化
原稿全体と音声全体との時間的対応を求めることにより
行う方式のみが提案されていた（例えば、中川聖一著
「碓率モデルによる音声認識」電子通信学会参照）。こ
のような方式により電子化原稿と音声の時間的対応をと
るには、読み手は、ポーズをおいたり（間をあけた
り）、「えー」などの不要語を発声したりせずに、原稿
を読む必要があった。

【０００４】

【発明が解決しようとする課題】読み手がポーズを入れ
た場合でも、電子化原稿と音声との時間的対応を精度良
くとることができるようにするには、読み手がポーズを
おいた位置が、電子化原稿上で予め分かっていなければ
ならず、照合作業が非常に煩わしかった。また、電子化
原稿と音声との時間的対応を求めることは、原稿が放送
直前に修正されたりした場合には、困難であった。

【０００５】電子化原稿全体と音声全体とを照合するよ
うにしたので、多大なメモリと計算量を必要とした。

【０００６】本発明の目的は、上記のような問題点を解
決し、音声中にポーズが存在しても、電子化原稿と音声
との時間的対応をとることができ、しかも、少ないメモ
リと演算量で実行することができる音声原稿最適照合装
置および方法を提供することにある。

【０００７】

【課題を解決するための手段】本発明は、複数単位の電
子化原稿から単位ごとに各文の冒頭部分として予め定め
た数の文節または単語を先頭から連続して取り出す冒頭
部分取出手段と、該冒頭部分取出手段により取り出され
た各文の冒頭部分全体に対応する音響モデルを作成する
音響モデル作成手段と、前記音声中のポーズ区間を検出
するポーズ検出手段と、該ポーズ検出手段により検出さ
れたポーズ区間とポーズ区間の間の音声区間をそれぞれ
音響パラメータ列に変換する変換手段と、該変換手段に
より得られた各音声区間の音響パラメータ列と、前記音
響モデル作成手段により作成された各文の冒頭部分全体
の音響モデルとを照合し、照合結果を照合ラティスとし
て作成する照合手段と、該照合手段により作成された照
合ラティスから最適照合列を探索する探索手段と、該探
索手段により探索された最適照合列に従って、各文の先
頭に対応する音声の開始時間を出力する出力手段とを備
えたことを特徴とする。

【０００８】本発明は、複数単位の電子化原稿から単位
ごとに各文の冒頭部分として予め定めた数の文節または
単語を先頭から連続して取り出し、取り出された各文の
冒頭部分全体に対応する音響モデルを作成し、前記音声
中のポーズ区間を検出し、検出されたポーズ区間とポー
ズ区間の間の音声区間をそれぞれ音響パラメータ列に変
換し、得られた各音声区間の音響パラメータ列と、各文
の冒頭部分全体の音響モデルとを照合し、照合結果を照
合ラティスとして作成し、作成された照合ラティスから
最適照合列を探索し、探索された最適照合列に従って、
各文の先頭に対応する音声の開始時間を出力する。

【０００９】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して詳細に説明する。

【００１０】図１は本発明の一実施の形態を示す。これ
は、ニュース番組において、ニュース原稿をアナウンス
音声に同期させて文単位に字幕としてスーパーする例で
ある。図１において、２は音響分析部であり、アナウン
ス音声を音響パラメータに変換するとともに、線形予測
分析を用いて、アナウンス音声信号から、ＬＰＣケプス
トラム係数と、デルタケプストラム係数と、デルタ対数
パワーを算出し、これらのパワー情報を用いて、アナウ
ンス音声中のポーズ区間を検出するものである。出力シ
ンボルとしては、１８次ＬＰＣケプストラムパラメー
タ、１８次デルタケプストラムパラメータ、デルタパワ
ーを、それぞれ、符号帳サイズ２５６、２５６、６４で
量子化したものを用いた。６は音素モデル格納部であ
り、各音素ごとの音響的特徴を表す音素モデルを格納す
るためのものである。音素モデルとしては、音素単位の
離散型ＨＭＭ（Hidden Markov Model ）を用いた。ＨＭ
Ｍの状態数は、子音３状態、母音１状態とし、left-to-
right 型のものを用いた。ＨＭＭについては、例えば、
中川聖一著「確率モデルによる音声認識」電子通信学会
を参照されたい。４はキーワード抽出部であり、ニュー
ス項目（ニュースの話題）中の各文（文とは読点で区切
られる単位）のキーワードとして、例えば、各文の先頭
から連続して２文節または２単語を切り出し、各キーワ
ードごとに音素列に変換し、各音素に音素モデル格納部
からの音素モデルを結合するものである。８は音声キー
ワード照合部であり、キーワード抽出部４により抽出さ
れた各キーワードの各音素に対して、音素モデルを音素
モデル格納部６から取り出し結合して音響モデルを生成
し、生成された音響モデルと、音響分析部２から送られ
てきた音響パラメータ列のポーズとポーズの間の区間
（以下、音声区間という）とを照合し、照合スコアを算
出し、照合ラティスを生成するものである。１０は最適
照合列探索部であり、音声キーワード照合部８により生
成された照合ラティスから最適照合結果列を動的計画法
を用いて探索するものである。動的計画法については、
例えば、西川他著「最適化」（岩波講座情報科学１９：
岩波書店）を参照されたい。

【００１１】図２はニュース番組での音声原稿照合手順
の一例を示すフローチャートである。ニュース番組にお
けるニュース項目の順番は予め定められているものとす
る。

【００１２】ステップＳ２にて、音素モデルのパラメー
タを読み込み、ステップＳ４にて、当該ニュース項目に
対応するニュース電子化原稿（以下、単に、電子化原稿
という）を読み込む。そして、ステップＳ６にて、読み
込まれたニュース項目の各文から、キーワード抽出部４
によりキーワードを切り出し、切り出した各キーワード
を音素記号列に変換する。ニュース項目は、一般的に、
複数の文により構成されているので、１つのニュース項
目から複数のキーワードが切り出されることになる。つ
いで、ステップＳ８にて、音声キーワード照合部８によ
り、切り出されたキーワードの各音素に、各音素に対応
する音素モデルを連結してキーワードモデルを構成す
る。

【００１３】ステップＳ１０にて、ニュース項目に対応
したアナウンス音声を読み込み、ステップＳ１２にて、
音響分析部２により、アナウンス音声から、線形予測分
析を用いて、ＬＰＣケプストラム係数と、デルタケプス
トラム係数と、デルタ対数パワーとを算出し、パワーが
予め定めた閾値より小さい部分が所定の長さ以上続く区
間をポーズ区間と決定する。ついで、ポーズ区間とポー
ズ区間の間の音声区間をそれぞれ音響パラメータに変換
する。

【００１４】ついで、ステップＳ１４にて、ステップＳ
８で構成されたキーワードモデルを用いて、アナウンス
音声中からキーワード部分の候補を求める。一般的に、
アナウンス音声には、電子化原稿の読点「。」直後にポ
ーズが存在する。言い換えると、ニュース項目の最初の
文を除き、各文の先頭にポーズが存在することになる。
また、一般的に、破裂性子音（／ｐ／、／ｋ／等）の直
前にも、ポーズが存在する。そこで、ポーズの後の音声
区間に対してキーワード照合を行い、その結果を、対数
尤度として算出する。得られたキーワード照合結果を、
ステップＳ１６にて、照合ラティスとして作成する。照
合ラティスと実際のアナウンス音声との対応例を図３に
示す。

【００１５】図３を説明する。ポーズは、２番目の文の
中に１つ、３番目の文の中に２つ検出されているので、
ポーズの後の音声区間に対して、キーワード照合を行う
ことになる。ｗ₁ 、ｗ₂ 、・・、ｗ_n を、電子化原稿の
各文から切り出されたキーワードとすると、文の先頭部
分以外にも、ｓ₃₁、ｓ₃₂、ｓ₃₃、ｓ₅₁、ｓ₅₂、ｓ₅₃など
のスコアが算出されることになる。ただし、ｗ_j はｊ番
目の文のキーワードを表し、ｓ_ijはｊ番目の音声区間を
ｊ番目のキーワードで照合した際の照合スコアである。

【００１６】そして、ステップＳ１８にて、ステップＳ
１６で作成された照合ラティスの中から、最適照合列探
索部１０により、動的計画法を用いて、最適な照合列を
探索し、探索された最適照合列に従って、ステップＳ２
０にて、各文の先頭に対応する音声の開始時間を出力
し、この時間情報を用いて、音声と原稿の時間対応を求
める。ステップＳ２２にて、音声および原稿が終了した
かどうかを判定し、音声／原稿がまだ続く場合には、次
のニュース項目の音声／原稿時間対応の探索に移るた
め、ステップＳ４に移行し、否定判定された場合には、
その後、処理を終了する。

【００１７】本実施の形態では、音響モデルとしてＨＭ
Ｍを用いた例を説明したが、ＨＭＭ以外の音響モデル、
例えば、ニューラルネットワーク等を用いることができ
ることは勿論である。

【００１８】また、本実施の形態では、ニュース番組に
おけるアナウンス音声と電子化原稿との時間対応を求め
る例を説明したが、本発明は、この例に限定されるもの
ではなく、原稿と当該原稿に対応する音声が用意されて
いる場合に適用することができる。例えば、音声が記録
されているオーディオ・テープの頭出しを行う場合にも
適用可能である。

【００１９】

【実施例】本実施例は、ＮＨＫのニュース番組を対象と
し、ニュース原稿をアナウンス音声に同期させて字幕と
してスーパするシミュレーション実験を行った例であ
る。評価用音声データは、１９９６年６月４日〜７日に
放送された「ＮＮＨＫニュース７」中の４ニュース項
目、計５４文である（各ニュース項目当たり、平均１
３．５文）。キーワードは、最初の文節が３音節以下か
らなる場合には、最初の２文節をキーワードとして切り
出し、それ以外の場合には、最初の文節をキーワードと
して切り出した。音響モデルとしては、音素ＨＭＭを用
いた。評価用音声が全て女性の発声したものであったこ
とから、ＨＭＭとして、女性用のものを作成した。作成
に当たっては、ＡＴＲデータベースのうち女性２４名が
発声した５０文ずつのデータを用いた。実験の結果、実
際にキーワードを発話した部分の開始時間に対して、本
発明を用いて算出した時間の遅れが１秒以内であった文
数は５２文であり、これは全体の文のうちの９６％に達
した。実際の番組制作で人手で字幕スーパする場合で
も、１秒程度の字幕スーパの遅れはしばしば起こること
であり、したがって、字幕スーパーに対する応用例で
も、本発明が有効であることが確認された。

【００２０】

【発明の効果】以上説明したように、本発明によれば、
上記のように構成したので、原稿をポーズを入れて読ん
だ音声であっても、音声と原稿との最適な時間対応を与
えることができる。

【図面の簡単な説明】

【図１】本発明の一実施の形態を示すブロック図であ
る。

【図２】ニュース番組での音声原稿照合手順の一例を示
すフローチャートである。

【図３】音声キーワード照合ラティスの一例を示す図で
ある。

【符号の説明】

２音響分析部４キーワード抽出部６音素モデル格納部８音声キーワード照合部１０最適照合列探索部

Claims

【特許請求の範囲】

【請求項１】複数単位の電子化原稿から単位ごとに各
文の冒頭部分として予め定めた数の文節または単語を先
頭から連続して取り出す冒頭部分取出手段と、該冒頭部分取出手段により取り出された各文の冒頭部分
全体に対応する音響モデルを作成する音響モデル作成手
段と、前記音声中のポーズ区間を検出するポーズ検出手段と、該ポーズ検出手段により検出されたポーズ区間とポーズ
区間の間の音声区間をそれぞれ音響パラメータ列に変換
する変換手段と、該変換手段により得られた各音声区間の音響パラメータ
列と、前記音響モデル作成手段により作成された各文の
冒頭部分全体の音響モデルとを照合し、照合結果を照合
ラティスとして作成する照合手段と、該照合手段により作成された照合ラティスから最適照合
列を探索する探索手段と、該探索手段により探索された最適照合列に従って、各文
の先頭に対応する音声の開始時間を出力する出力手段と
を備えたことを特徴とする音声原稿最適照合装置。
【請求項２】複数単位の電子化原稿から単位ごとに各
文の冒頭部分として予め定めた数の文節または単語を先
頭から連続して取り出すステップと、取り出された各文の冒頭部分全体に対応する音響モデル
を作成するステップと、前記音声中のポーズ区間を検出するステップと、検出されたポーズ区間とポーズ区間の間の音声区間をそ
れぞれ音響パラメータ列に変換するステップと、得られた各音声区間の音響パラメータ列と、各文の冒頭
部分全体の音響モデルとを照合し、照合結果を照合ラテ
ィスとして作成するステップと、作成された照合ラティスから最適照合列を探索するステ
ップと、探索された最適照合列に従って、各文の先頭に対応する
音声の開始時間を出力するステップとを備えたことを特
徴とする音声原稿最適照合方法。