JPH10254478A - 音声原稿最適照合装置および方法 - Google Patents
音声原稿最適照合装置および方法Info
- Publication number
- JPH10254478A JPH10254478A JP9054448A JP5444897A JPH10254478A JP H10254478 A JPH10254478 A JP H10254478A JP 9054448 A JP9054448 A JP 9054448A JP 5444897 A JP5444897 A JP 5444897A JP H10254478 A JPH10254478 A JP H10254478A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- matching
- sentence
- pause
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Studio Circuits (AREA)
Abstract
的対応をとる。 【解決手段】 当該ニュース項目に対応する電子化原稿
を読み込み、ニュース項目の各文から、キーワード抽出
部4によりキーワードを切り出し、各キーワードを音素
記号列に変換する。音声キーワード照合部8によりキー
ワードモデルを構成する。ニュース項目に対応した音声
を読み込み、音響分析部2により、音声中のポーズ区間
を決定し、音声区間をそれぞれ音響パラメータに変換す
る。ついで、キーワードモデルを用いて、音声中からキ
ーワード部分の候補を求め、得られたキーワード照合結
果を、照合ラティスとして作成する。そして、照合ラテ
ィスの中から、最適照合列探索部10により、最適な照
合列を探索し、探索された最適照合列に従って、各文の
先頭に対応する音声の開始時間を出力し、この時間情報
を用いて、音声と原稿の時間対応を求める。
Description
た原稿との時間的対応を自動的に求める音声原稿最適照
合装置および方法に関する。
字幕として付与して欲しいとの要求が、特に聴覚障害者
などから高まっている。このような要求に応えるものと
しては、放送局などに存在する電子化された原稿(以
下、電子化原稿という)、例えば、ニュース番組のアナ
ウンス用の電子化原稿を、字幕として付与する方法が提
案されている。この方法を実際に実施するには、字幕ス
ーパするタイミングを監視する要員などのような多くの
人手が必要であり、作業の自動化が課題として残されて
いた。
る方式としては、電子化原稿と音声との照合を、電子化
原稿全体と音声全体との時間的対応を求めることにより
行う方式のみが提案されていた(例えば、中川 聖一著
「碓率モデルによる音声認識」電子通信学会参照)。こ
のような方式により電子化原稿と音声の時間的対応をと
るには、読み手は、ポーズをおいたり(間をあけた
り)、「えー」などの不要語を発声したりせずに、原稿
を読む必要があった。
た場合でも、電子化原稿と音声との時間的対応を精度良
くとることができるようにするには、読み手がポーズを
おいた位置が、電子化原稿上で予め分かっていなければ
ならず、照合作業が非常に煩わしかった。また、電子化
原稿と音声との時間的対応を求めることは、原稿が放送
直前に修正されたりした場合には、困難であった。
うにしたので、多大なメモリと計算量を必要とした。
決し、音声中にポーズが存在しても、電子化原稿と音声
との時間的対応をとることができ、しかも、少ないメモ
リと演算量で実行することができる音声原稿最適照合装
置および方法を提供することにある。
子化原稿から単位ごとに各文の冒頭部分として予め定め
た数の文節または単語を先頭から連続して取り出す冒頭
部分取出手段と、該冒頭部分取出手段により取り出され
た各文の冒頭部分全体に対応する音響モデルを作成する
音響モデル作成手段と、前記音声中のポーズ区間を検出
するポーズ検出手段と、該ポーズ検出手段により検出さ
れたポーズ区間とポーズ区間の間の音声区間をそれぞれ
音響パラメータ列に変換する変換手段と、該変換手段に
より得られた各音声区間の音響パラメータ列と、前記音
響モデル作成手段により作成された各文の冒頭部分全体
の音響モデルとを照合し、照合結果を照合ラティスとし
て作成する照合手段と、該照合手段により作成された照
合ラティスから最適照合列を探索する探索手段と、該探
索手段により探索された最適照合列に従って、各文の先
頭に対応する音声の開始時間を出力する出力手段とを備
えたことを特徴とする。
ごとに各文の冒頭部分として予め定めた数の文節または
単語を先頭から連続して取り出し、取り出された各文の
冒頭部分全体に対応する音響モデルを作成し、前記音声
中のポーズ区間を検出し、検出されたポーズ区間とポー
ズ区間の間の音声区間をそれぞれ音響パラメータ列に変
換し、得られた各音声区間の音響パラメータ列と、各文
の冒頭部分全体の音響モデルとを照合し、照合結果を照
合ラティスとして作成し、作成された照合ラティスから
最適照合列を探索し、探索された最適照合列に従って、
各文の先頭に対応する音声の開始時間を出力する。
を参照して詳細に説明する。
は、ニュース番組において、ニュース原稿をアナウンス
音声に同期させて文単位に字幕としてスーパーする例で
ある。図1において、2は音響分析部であり、アナウン
ス音声を音響パラメータに変換するとともに、線形予測
分析を用いて、アナウンス音声信号から、LPCケプス
トラム係数と、デルタケプストラム係数と、デルタ対数
パワーを算出し、これらのパワー情報を用いて、アナウ
ンス音声中のポーズ区間を検出するものである。出力シ
ンボルとしては、18次LPCケプストラムパラメー
タ、18次デルタケプストラムパラメータ、デルタパワ
ーを、それぞれ、符号帳サイズ256、256、64で
量子化したものを用いた。6は音素モデル格納部であ
り、各音素ごとの音響的特徴を表す音素モデルを格納す
るためのものである。音素モデルとしては、音素単位の
離散型HMM(Hidden Markov Model )を用いた。HM
Mの状態数は、子音3状態、母音1状態とし、left-to-
right 型のものを用いた。HMMについては、例えば、
中川聖一著「確率モデルによる音声認識」電子通信学会
を参照されたい。4はキーワード抽出部であり、ニュー
ス項目(ニュースの話題)中の各文(文とは読点で区切
られる単位)のキーワードとして、例えば、各文の先頭
から連続して2文節または2単語を切り出し、各キーワ
ードごとに音素列に変換し、各音素に音素モデル格納部
からの音素モデルを結合するものである。8は音声キー
ワード照合部であり、キーワード抽出部4により抽出さ
れた各キーワードの各音素に対して、音素モデルを音素
モデル格納部6から取り出し結合して音響モデルを生成
し、生成された音響モデルと、音響分析部2から送られ
てきた音響パラメータ列のポーズとポーズの間の区間
(以下、音声区間という)とを照合し、照合スコアを算
出し、照合ラティスを生成するものである。10は最適
照合列探索部であり、音声キーワード照合部8により生
成された照合ラティスから最適照合結果列を動的計画法
を用いて探索するものである。動的計画法については、
例えば、西川他著「最適化」(岩波講座情報科学19:
岩波書店)を参照されたい。
の一例を示すフローチャートである。ニュース番組にお
けるニュース項目の順番は予め定められているものとす
る。
タを読み込み、ステップS4にて、当該ニュース項目に
対応するニュース電子化原稿(以下、単に、電子化原稿
という)を読み込む。そして、ステップS6にて、読み
込まれたニュース項目の各文から、キーワード抽出部4
によりキーワードを切り出し、切り出した各キーワード
を音素記号列に変換する。ニュース項目は、一般的に、
複数の文により構成されているので、1つのニュース項
目から複数のキーワードが切り出されることになる。つ
いで、ステップS8にて、音声キーワード照合部8によ
り、切り出されたキーワードの各音素に、各音素に対応
する音素モデルを連結してキーワードモデルを構成す
る。
したアナウンス音声を読み込み、ステップS12にて、
音響分析部2により、アナウンス音声から、線形予測分
析を用いて、LPCケプストラム係数と、デルタケプス
トラム係数と、デルタ対数パワーとを算出し、パワーが
予め定めた閾値より小さい部分が所定の長さ以上続く区
間をポーズ区間と決定する。ついで、ポーズ区間とポー
ズ区間の間の音声区間をそれぞれ音響パラメータに変換
する。
8で構成されたキーワードモデルを用いて、アナウンス
音声中からキーワード部分の候補を求める。一般的に、
アナウンス音声には、電子化原稿の読点「。」直後にポ
ーズが存在する。言い換えると、ニュース項目の最初の
文を除き、各文の先頭にポーズが存在することになる。
また、一般的に、破裂性子音(/p/、/k/等)の直
前にも、ポーズが存在する。そこで、ポーズの後の音声
区間に対してキーワード照合を行い、その結果を、対数
尤度として算出する。得られたキーワード照合結果を、
ステップS16にて、照合ラティスとして作成する。照
合ラティスと実際のアナウンス音声との対応例を図3に
示す。
中に1つ、3番目の文の中に2つ検出されているので、
ポーズの後の音声区間に対して、キーワード照合を行う
ことになる。w1 、w2 、・・、wn を、電子化原稿の
各文から切り出されたキーワードとすると、文の先頭部
分以外にも、s31、s32、s33、s51、s52、s53など
のスコアが算出されることになる。ただし、wj はj番
目の文のキーワードを表し、sijはj番目の音声区間を
j番目のキーワードで照合した際の照合スコアである。
16で作成された照合ラティスの中から、最適照合列探
索部10により、動的計画法を用いて、最適な照合列を
探索し、探索された最適照合列に従って、ステップS2
0にて、各文の先頭に対応する音声の開始時間を出力
し、この時間情報を用いて、音声と原稿の時間対応を求
める。ステップS22にて、音声および原稿が終了した
かどうかを判定し、音声/原稿がまだ続く場合には、次
のニュース項目の音声/原稿時間対応の探索に移るた
め、ステップS4に移行し、否定判定された場合には、
その後、処理を終了する。
Mを用いた例を説明したが、HMM以外の音響モデル、
例えば、ニューラルネットワーク等を用いることができ
ることは勿論である。
おけるアナウンス音声と電子化原稿との時間対応を求め
る例を説明したが、本発明は、この例に限定されるもの
ではなく、原稿と当該原稿に対応する音声が用意されて
いる場合に適用することができる。例えば、音声が記録
されているオーディオ・テープの頭出しを行う場合にも
適用可能である。
し、ニュース原稿をアナウンス音声に同期させて字幕と
してスーパするシミュレーション実験を行った例であ
る。評価用音声データは、1996年6月4日〜7日に
放送された「NNHKニュース7」中の4ニュース項
目、計54文である(各ニュース項目当たり、平均1
3.5文)。キーワードは、最初の文節が3音節以下か
らなる場合には、最初の2文節をキーワードとして切り
出し、それ以外の場合には、最初の文節をキーワードと
して切り出した。音響モデルとしては、音素HMMを用
いた。評価用音声が全て女性の発声したものであったこ
とから、HMMとして、女性用のものを作成した。作成
に当たっては、ATRデータベースのうち女性24名が
発声した50文ずつのデータを用いた。実験の結果、実
際にキーワードを発話した部分の開始時間に対して、本
発明を用いて算出した時間の遅れが1秒以内であった文
数は52文であり、これは全体の文のうちの96%に達
した。実際の番組制作で人手で字幕スーパする場合で
も、1秒程度の字幕スーパの遅れはしばしば起こること
であり、したがって、字幕スーパーに対する応用例で
も、本発明が有効であることが確認された。
上記のように構成したので、原稿をポーズを入れて読ん
だ音声であっても、音声と原稿との最適な時間対応を与
えることができる。
る。
すフローチャートである。
ある。
Claims (2)
- 【請求項1】 複数単位の電子化原稿から単位ごとに各
文の冒頭部分として予め定めた数の文節または単語を先
頭から連続して取り出す冒頭部分取出手段と、 該冒頭部分取出手段により取り出された各文の冒頭部分
全体に対応する音響モデルを作成する音響モデル作成手
段と、 前記音声中のポーズ区間を検出するポーズ検出手段と、 該ポーズ検出手段により検出されたポーズ区間とポーズ
区間の間の音声区間をそれぞれ音響パラメータ列に変換
する変換手段と、 該変換手段により得られた各音声区間の音響パラメータ
列と、前記音響モデル作成手段により作成された各文の
冒頭部分全体の音響モデルとを照合し、照合結果を照合
ラティスとして作成する照合手段と、 該照合手段により作成された照合ラティスから最適照合
列を探索する探索手段と、 該探索手段により探索された最適照合列に従って、各文
の先頭に対応する音声の開始時間を出力する出力手段と
を備えたことを特徴とする音声原稿最適照合装置。 - 【請求項2】 複数単位の電子化原稿から単位ごとに各
文の冒頭部分として予め定めた数の文節または単語を先
頭から連続して取り出すステップと、 取り出された各文の冒頭部分全体に対応する音響モデル
を作成するステップと、 前記音声中のポーズ区間を検出するステップと、 検出されたポーズ区間とポーズ区間の間の音声区間をそ
れぞれ音響パラメータ列に変換するステップと、 得られた各音声区間の音響パラメータ列と、各文の冒頭
部分全体の音響モデルとを照合し、照合結果を照合ラテ
ィスとして作成するステップと、 作成された照合ラティスから最適照合列を探索するステ
ップと、 探索された最適照合列に従って、各文の先頭に対応する
音声の開始時間を出力するステップとを備えたことを特
徴とする音声原稿最適照合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05444897A JP3727436B2 (ja) | 1997-03-10 | 1997-03-10 | 音声原稿最適照合装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05444897A JP3727436B2 (ja) | 1997-03-10 | 1997-03-10 | 音声原稿最適照合装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10254478A true JPH10254478A (ja) | 1998-09-25 |
JP3727436B2 JP3727436B2 (ja) | 2005-12-14 |
Family
ID=12970992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05444897A Expired - Fee Related JP3727436B2 (ja) | 1997-03-10 | 1997-03-10 | 音声原稿最適照合装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3727436B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002244694A (ja) * | 2001-02-15 | 2002-08-30 | Telecommunication Advancement Organization Of Japan | 字幕送出タイミング検出装置 |
JP2002351490A (ja) * | 2001-05-29 | 2002-12-06 | Telecommunication Advancement Organization Of Japan | 字幕へのタイミング情報付与方法 |
JP2010015088A (ja) * | 2008-07-07 | 2010-01-21 | Panasonic Corp | データ生成装置及びデータ生成プログラム、並びに、再生装置 |
JP2016012099A (ja) * | 2014-06-30 | 2016-01-21 | シナノケンシ株式会社 | テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08212190A (ja) * | 1995-02-06 | 1996-08-20 | Nippon Telegr & Teleph Corp <Ntt> | マルチメディアデータ作成支援装置 |
-
1997
- 1997-03-10 JP JP05444897A patent/JP3727436B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08212190A (ja) * | 1995-02-06 | 1996-08-20 | Nippon Telegr & Teleph Corp <Ntt> | マルチメディアデータ作成支援装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002244694A (ja) * | 2001-02-15 | 2002-08-30 | Telecommunication Advancement Organization Of Japan | 字幕送出タイミング検出装置 |
JP4595098B2 (ja) * | 2001-02-15 | 2010-12-08 | 独立行政法人情報通信研究機構 | 字幕送出タイミング検出装置 |
JP2002351490A (ja) * | 2001-05-29 | 2002-12-06 | Telecommunication Advancement Organization Of Japan | 字幕へのタイミング情報付与方法 |
JP2010015088A (ja) * | 2008-07-07 | 2010-01-21 | Panasonic Corp | データ生成装置及びデータ生成プログラム、並びに、再生装置 |
JP2016012099A (ja) * | 2014-06-30 | 2016-01-21 | シナノケンシ株式会社 | テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3727436B2 (ja) | 2005-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10643609B1 (en) | Selecting speech inputs | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
EP0649144B1 (en) | Automatic indexing of audio using speech recognition | |
US20200120396A1 (en) | Speech recognition for localized content | |
US11721329B2 (en) | Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus | |
EP1909263B1 (en) | Exploitation of language identification of media file data in speech dialog systems | |
US8209171B2 (en) | Methods and apparatus relating to searching of spoken audio data | |
Hori et al. | A new approach to automatic speech summarization | |
JPH05197389A (ja) | 音声認識装置 | |
CN106710585B (zh) | 语音交互过程中的多音字播报方法及系统 | |
Hori et al. | Speech summarization: an approach through word extraction and a method for evaluation | |
JP2004302175A (ja) | 音声認識システム、音声認識方法及び音声認識プログラム | |
GB2451938A (en) | Methods and apparatus for searching of spoken audio data | |
Bai et al. | Syllable-based Chinese text/spoken document retrieval using text/speech queries | |
JP3727436B2 (ja) | 音声原稿最適照合装置および方法 | |
Rahul et al. | Design of Manipuri keywords spotting system using HMM | |
JPH09134191A (ja) | 音声認識装置 | |
JP2002244694A (ja) | 字幕送出タイミング検出装置 | |
Mirzaei et al. | Adaptive Listening Difficulty Detection for L2 Learners Through Moderating ASR Resources. | |
JP2905686B2 (ja) | 音声認識装置 | |
Stojanović et al. | A Method for Estimating Variations in Speech Tempo from Recorded Speech | |
JP3110025B2 (ja) | 発声変形検出装置 | |
Kalinli et al. | Continuous speech recognition using attention shift decoding with soft decision. | |
Pham et al. | Temporal confusion network for speech-based soccer event retrieval | |
JPH09212190A (ja) | 音声認識装置及び文認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050708 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050916 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050928 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101007 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111007 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121007 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121007 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131007 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141007 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |