JP2001282779A - 電子化テキスト作成システム - Google Patents
電子化テキスト作成システムInfo
- Publication number
- JP2001282779A JP2001282779A JP2000095446A JP2000095446A JP2001282779A JP 2001282779 A JP2001282779 A JP 2001282779A JP 2000095446 A JP2000095446 A JP 2000095446A JP 2000095446 A JP2000095446 A JP 2000095446A JP 2001282779 A JP2001282779 A JP 2001282779A
- Authority
- JP
- Japan
- Prior art keywords
- text
- recognition
- digitized
- processing
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012545 processing Methods 0.000 claims abstract description 99
- 238000000034 method Methods 0.000 claims description 38
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000000877 morphologic effect Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 description 34
- 230000010354 integration Effects 0.000 description 22
- 238000006243 chemical reaction Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 14
- 241000981595 Zoysia japonica Species 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 101000710013 Homo sapiens Reversion-inducing cysteine-rich protein with Kazal motifs Proteins 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Landscapes
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【課題】 原稿上の文字を文字認識して電子化された第
一テキストと、原稿を基に読み上げられた音声を音声認
識して電子化された第二テキストとから最適な第三テキ
ストを生成する。 【解決手段】 第一テキスト作成部1では原稿7上の文
字を文字認識して電子化された第一テキスト11を生成
する。第二テキスト作成部3では、原稿を基に読み上げ
られた音声を音声認識して電子化された第二テキストを
生成する。DPマッチングによるテキスト統合処理部5
では第一テキスト11の単語ラティスと第二テキスト1
9の単語ラティスとから新たなラティスを生成するとと
もに、生成されたラティスにおけるノード間の各アーク
のコスト値を計算し、計算されたコスト値を用いて開始
ノードから終了ノードに至る最適経路を動的計画法によ
り求めて第三テキスト23を生成する。
一テキストと、原稿を基に読み上げられた音声を音声認
識して電子化された第二テキストとから最適な第三テキ
ストを生成する。 【解決手段】 第一テキスト作成部1では原稿7上の文
字を文字認識して電子化された第一テキスト11を生成
する。第二テキスト作成部3では、原稿を基に読み上げ
られた音声を音声認識して電子化された第二テキストを
生成する。DPマッチングによるテキスト統合処理部5
では第一テキスト11の単語ラティスと第二テキスト1
9の単語ラティスとから新たなラティスを生成するとと
もに、生成されたラティスにおけるノード間の各アーク
のコスト値を計算し、計算されたコスト値を用いて開始
ノードから終了ノードに至る最適経路を動的計画法によ
り求めて第三テキスト23を生成する。
Description
【0001】
【発明の属する技術分野】本発明は、文字テキストの認
識結果とこの文字テキストを基に発声された音声の認識
結果とを照合して最適な字幕用テキストを作成するのに
好適な電子化テキスト作成システムに関する。
識結果とこの文字テキストを基に発声された音声の認識
結果とを照合して最適な字幕用テキストを作成するのに
好適な電子化テキスト作成システムに関する。
【0002】[発明の概要]本発明は、文字認識技術を
用いたアナウンス原稿の文字化テキスト(第一テキス
ト)と、音声認識技術を用いた原稿読み上げ音声の文字
化テキスト(第二テキスト)を素材として、文字認識誤
り、および音声認識誤りを除去した最適なテキスト(第
三テキスト)を自動制作するシステムに関し、両テキス
トに含まれ得る誤りの特徴を巧みに利用して相互に補完
・比較して、誤りを除去するようにしたものである。読
み上げ音声の自動文字化には大きなニーズがあり、これ
まで人手によるかなりの労力と時間を要していたが、そ
の自動化は今後の字幕制作手法の改善に寄与する。
用いたアナウンス原稿の文字化テキスト(第一テキス
ト)と、音声認識技術を用いた原稿読み上げ音声の文字
化テキスト(第二テキスト)を素材として、文字認識誤
り、および音声認識誤りを除去した最適なテキスト(第
三テキスト)を自動制作するシステムに関し、両テキス
トに含まれ得る誤りの特徴を巧みに利用して相互に補完
・比較して、誤りを除去するようにしたものである。読
み上げ音声の自動文字化には大きなニーズがあり、これ
まで人手によるかなりの労力と時間を要していたが、そ
の自動化は今後の字幕制作手法の改善に寄与する。
【0003】
【従来の技術】情報化社会と言われる中で、多くの情報
が種々の形態で利用されており、音声の形態で利用され
るものもある。特に放送分野では、AMラジオ、FMラ
ジオ放送は全て音声であり、テレビでも多くの情報が音
声で伝送されている。通常、これらの放送では、予め原
稿が作成され、その原稿をアナウンサなどが読み上げる
形態で伝えられる場合が非常に多い。
が種々の形態で利用されており、音声の形態で利用され
るものもある。特に放送分野では、AMラジオ、FMラ
ジオ放送は全て音声であり、テレビでも多くの情報が音
声で伝送されている。通常、これらの放送では、予め原
稿が作成され、その原稿をアナウンサなどが読み上げる
形態で伝えられる場合が非常に多い。
【0004】そこで、これら音声情報の内、アナウンサ
などの情報だけでも簡易で確実にテキスト化できれば、
情報の保存や、編集、活字化等、多様な活用が可能とな
る。しかし、現状の技術では、音声認識誤りが生じるた
め、その修正に手間をとるという不具合がある。
などの情報だけでも簡易で確実にテキスト化できれば、
情報の保存や、編集、活字化等、多様な活用が可能とな
る。しかし、現状の技術では、音声認識誤りが生じるた
め、その修正に手間をとるという不具合がある。
【0005】また、現在放送中のテレビニュース番組で
は、予めアナウンサ用の元原稿が作成され、その原稿を
利用して放送アナウンスを行っている。しかし、実際に
はその原稿に一部修正を行ったものを原稿として放送ア
ナウンスを行っている。
は、予めアナウンサ用の元原稿が作成され、その原稿を
利用して放送アナウンスを行っている。しかし、実際に
はその原稿に一部修正を行ったものを原稿として放送ア
ナウンスを行っている。
【0006】ところで、現在、テレビ放送番組に対して
字幕放送を拡充して欲しいとの要請が高まってきてい
る。この字幕放送用テキストを自動作成するシステムと
しては、従来、尾上、今井、安藤による『記者原稿を用
いたニュース音声認識結果の修正法;日本音響学会講演
論文集、平成10年3月、p11〜p12』が知られて
いる。この従来例は、予め電子化された記者原稿を前提
とし、アナウンサの発生したニュース音声の認識結果を
電子化されていた前記記者原稿によって修正することに
より、認識率の改善を図ろうとするものである。
字幕放送を拡充して欲しいとの要請が高まってきてい
る。この字幕放送用テキストを自動作成するシステムと
しては、従来、尾上、今井、安藤による『記者原稿を用
いたニュース音声認識結果の修正法;日本音響学会講演
論文集、平成10年3月、p11〜p12』が知られて
いる。この従来例は、予め電子化された記者原稿を前提
とし、アナウンサの発生したニュース音声の認識結果を
電子化されていた前記記者原稿によって修正することに
より、認識率の改善を図ろうとするものである。
【0007】
【発明が解決しようとする課題】しかしながら、上述し
た従来例では、予め作成済みの電子化された原稿を準備
しておかねばならず、原稿の文字認識とこの原稿の読み
上げの音声認識とから字幕用テキストを自動生成するこ
とはできない。
た従来例では、予め作成済みの電子化された原稿を準備
しておかねばならず、原稿の文字認識とこの原稿の読み
上げの音声認識とから字幕用テキストを自動生成するこ
とはできない。
【0008】なお、文字認識と音声認識とを組み合わせ
たものとしては、特開平4−297972号公報に記載
の「文字認識訂正装置」や、特開平10−83195号
公報に記載の「入力言語認識装置及び入力言語認識方
法」がある。
たものとしては、特開平4−297972号公報に記載
の「文字認識訂正装置」や、特開平10−83195号
公報に記載の「入力言語認識装置及び入力言語認識方
法」がある。
【0009】しかし、特開平4−297972号公報に
記載の技術は、文字認識結果に変更が生じた場合に、変
更部分を音声入力し、この入力音声を音声認識して文字
認識結果とマッチングさせることで、文字の変更を可能
にするものであり、この技術を字幕用テキストの自動作
成等に直接適用することはできない。また、特開平10
−83195号公報に記載の技術は、文字認識手段の認
識結果から認識文法を自動的に生成することによって、
予め認識文法を用意せずとも音声認識を可能にさせるも
のであり、この技術も字幕用テキストの自動作成に直接
適用することはできない。
記載の技術は、文字認識結果に変更が生じた場合に、変
更部分を音声入力し、この入力音声を音声認識して文字
認識結果とマッチングさせることで、文字の変更を可能
にするものであり、この技術を字幕用テキストの自動作
成等に直接適用することはできない。また、特開平10
−83195号公報に記載の技術は、文字認識手段の認
識結果から認識文法を自動的に生成することによって、
予め認識文法を用意せずとも音声認識を可能にさせるも
のであり、この技術も字幕用テキストの自動作成に直接
適用することはできない。
【0010】本発明は上記事情に鑑み、原稿上の文字を
文字認識して電子化された第一テキストと、原稿を基に
読み上げられた音声を音声認識して電子化された第二テ
キストとから文字認識誤りおよび音声認識誤りを共に取
り除いた最適な第三テキストを生成することのできる電
子化テキスト作成システムを提供することを目的として
いる。
文字認識して電子化された第一テキストと、原稿を基に
読み上げられた音声を音声認識して電子化された第二テ
キストとから文字認識誤りおよび音声認識誤りを共に取
り除いた最適な第三テキストを生成することのできる電
子化テキスト作成システムを提供することを目的として
いる。
【0011】
【課題を解決するための手段】上記の目的を達成するた
めに本発明者は鋭意検討の上、以下のような知見を得
た。
めに本発明者は鋭意検討の上、以下のような知見を得
た。
【0012】すなわち、本発明における電子化テキスト
作成システムは、字幕用テキストの作成に用いて好適な
システムであり、例えば、「生きもの地球紀行」のよう
な情報番組の字幕作成を直接のターゲットとしている。
これらの番組の字幕制作は、一般にオフラインで行われ
るとともに、そのアナウンス内容はかなり台本原稿に忠
実に行われていることに着目した。そこで、印刷テキス
トである台本原稿の文字認識による電子化テキストをメ
インとし、放送アナウンスの音声認識による電子化テキ
ストをサブとして、これら両電子化テキストの現行化に
おける認識精度や誤りの特徴を十分考慮して、より精度
の高い実用的な字幕用の電子化テキストの自動生成を目
指すものである。
作成システムは、字幕用テキストの作成に用いて好適な
システムであり、例えば、「生きもの地球紀行」のよう
な情報番組の字幕作成を直接のターゲットとしている。
これらの番組の字幕制作は、一般にオフラインで行われ
るとともに、そのアナウンス内容はかなり台本原稿に忠
実に行われていることに着目した。そこで、印刷テキス
トである台本原稿の文字認識による電子化テキストをメ
インとし、放送アナウンスの音声認識による電子化テキ
ストをサブとして、これら両電子化テキストの現行化に
おける認識精度や誤りの特徴を十分考慮して、より精度
の高い実用的な字幕用の電子化テキストの自動生成を目
指すものである。
【0013】両電子化テキストの現行販売製品における
認識精度は、例えば音声認識による電子化テキストでは
単語認識率が約85%、印刷原稿の文字認識による電子
化テキストでは文字認識率が約99.7%以上と、後者
の認識精度が格段に高い。
認識精度は、例えば音声認識による電子化テキストでは
単語認識率が約85%、印刷原稿の文字認識による電子
化テキストでは文字認識率が約99.7%以上と、後者
の認識精度が格段に高い。
【0014】さらに、音声認識による電子化テキスト生
成過程は、音声を発音記号列として認識し、この発音記
号列をかな漢字変換するものであり、誤りはこの両段階
で生じることから、精度がより高い発音記号列レベルで
の情報も活用して、より精度の高い実用的な字幕用電子
化テキストの自動生成を可能にするものである。
成過程は、音声を発音記号列として認識し、この発音記
号列をかな漢字変換するものであり、誤りはこの両段階
で生じることから、精度がより高い発音記号列レベルで
の情報も活用して、より精度の高い実用的な字幕用電子
化テキストの自動生成を可能にするものである。
【0015】本発明は上述したような知見の基になされ
たものであり、請求項1では、原稿上の文字を文字認識
して電子化された第一テキストを生成する第一テキスト
生成手段と、前記原稿を基に読み上げられた音声を音声
認識して電子化された第二テキストを生成する第二テキ
スト生成手段と、生成された第一テキストの単語ラティ
スと第二テキストの単語ラティスとから新たなラティス
を生成するとともに生成されたラティスにおけるノード
間の各アークのコスト値を計算する機能、および計算さ
れたコスト値を用いて開始ノードから終了ノードに至る
最適経路を動的計画法により求めて第三テキストを生成
する機能を有する第三テキスト生成手段とを備えたこと
を特徴としている。
たものであり、請求項1では、原稿上の文字を文字認識
して電子化された第一テキストを生成する第一テキスト
生成手段と、前記原稿を基に読み上げられた音声を音声
認識して電子化された第二テキストを生成する第二テキ
スト生成手段と、生成された第一テキストの単語ラティ
スと第二テキストの単語ラティスとから新たなラティス
を生成するとともに生成されたラティスにおけるノード
間の各アークのコスト値を計算する機能、および計算さ
れたコスト値を用いて開始ノードから終了ノードに至る
最適経路を動的計画法により求めて第三テキストを生成
する機能を有する第三テキスト生成手段とを備えたこと
を特徴としている。
【0016】請求項2では、原稿上の文字を文字認識し
て電子化された第一テキストを生成する第一テキスト生
成手段と、前記原稿を基に読み上げられた音声を音声認
識して電子化された第二テキストを生成する第二テキス
ト生成手段と、前記第一テキストと第二テキストとの差
の分析によって得られた処理ルールを蓄積する処理ルー
ル蓄積手段と、この処理ルールに基づいて前記第一テキ
ストと第二テキストとから最適な第三テキストを生成す
る第三テキスト生成手段とを備えたことを特徴としてい
る。
て電子化された第一テキストを生成する第一テキスト生
成手段と、前記原稿を基に読み上げられた音声を音声認
識して電子化された第二テキストを生成する第二テキス
ト生成手段と、前記第一テキストと第二テキストとの差
の分析によって得られた処理ルールを蓄積する処理ルー
ル蓄積手段と、この処理ルールに基づいて前記第一テキ
ストと第二テキストとから最適な第三テキストを生成す
る第三テキスト生成手段とを備えたことを特徴としてい
る。
【0017】請求項3では、請求項1または請求項2に
記載の電子化テキスト作成システムにおいて、前記第一
テキストと第二テキストとの差分を検出し、この差分に
より第一テキストおよび/または第二テキストを修正す
る修正手段を設け、修正後の第一テキストおよび/また
は第二テキストを前記第三テキスト生成手段に供給する
ことを特徴としている。
記載の電子化テキスト作成システムにおいて、前記第一
テキストと第二テキストとの差分を検出し、この差分に
より第一テキストおよび/または第二テキストを修正す
る修正手段を設け、修正後の第一テキストおよび/また
は第二テキストを前記第三テキスト生成手段に供給する
ことを特徴としている。
【0018】請求項4では、請求項1乃至請求項3に記
載の電子化テキスト作成システムにおいて、第一テキス
ト、および第2テキストの各形態素解析を実行する手段
を設け、形態素解析の結果を第三テキストの作成に反映
させることを特徴としている。
載の電子化テキスト作成システムにおいて、第一テキス
ト、および第2テキストの各形態素解析を実行する手段
を設け、形態素解析の結果を第三テキストの作成に反映
させることを特徴としている。
【0019】請求項5では、請求項2乃至請求項4に記
載の電子化テキスト作成システムにおいて、前記第三テ
キスト生成手段の知識処理によって生成された第三テキ
ストの作成の際に適用した処理ルールを前記第一テキス
ト作成部および/または第二テキスト作成部の認識辞書
に反映させることを特徴としている。
載の電子化テキスト作成システムにおいて、前記第三テ
キスト生成手段の知識処理によって生成された第三テキ
ストの作成の際に適用した処理ルールを前記第一テキス
ト作成部および/または第二テキスト作成部の認識辞書
に反映させることを特徴としている。
【0020】
【発明の実施の形態】<第1の実施形態>図1は本発明
による電子化テキスト作成システムが適用された字幕用
テキスト作成システムの第1の実施形態を示すブロック
図である。
による電子化テキスト作成システムが適用された字幕用
テキスト作成システムの第1の実施形態を示すブロック
図である。
【0021】第1の実施形態の字幕用テキスト作成シス
テムは、第一テキスト作成部1と、第二テキスト作成部
3と、DPマッチングによるテキスト統合処理部5とを
備えている。
テムは、第一テキスト作成部1と、第二テキスト作成部
3と、DPマッチングによるテキスト統合処理部5とを
備えている。
【0022】第一テキスト作成部1は、文字認識対象と
なる台本7上のイメージを読み取ってイメージデータを
生成するスキャナー部9と、読み取られたイメージデー
タを1文字単位で切り出し、切り出された文字イメージ
データと文字認識辞書(図示せず)に登録されている基
準文字データとをパターンマッチング処理して文字を認
識し、文字イメージデータに対応する文字コード(最も
近い第1文字コード、次に近い第2文字コードなど)を
生成し、これを第一テキスト11として出力するテキス
ト変換部13とから構成されている。
なる台本7上のイメージを読み取ってイメージデータを
生成するスキャナー部9と、読み取られたイメージデー
タを1文字単位で切り出し、切り出された文字イメージ
データと文字認識辞書(図示せず)に登録されている基
準文字データとをパターンマッチング処理して文字を認
識し、文字イメージデータに対応する文字コード(最も
近い第1文字コード、次に近い第2文字コードなど)を
生成し、これを第一テキスト11として出力するテキス
ト変換部13とから構成されている。
【0023】第二テキスト作成部3は、アナウンサ15
が前記台本7を基に読み上げた音声を取り込んでA/D
変換する処理、デジタル化した音声データに基づいて音
響特徴量を抽出する処理、抽出された音響特徴量と音声
認識辞書(図示せず)に登録されている基準音声データ
とをパターンマッチング処理して音声を認識して複数の
認識データ(最も近い第1データ、次に近い第2データ
など)を生成する処理を実行する音声認識部17と、認
識された音声データを漢字変換して文字コード(最も近
い第1文字コード、次に近い第2文字コードなど)を生
成し、これを第二テキスト19として出力する漢字変換
部21とから構成されている。
が前記台本7を基に読み上げた音声を取り込んでA/D
変換する処理、デジタル化した音声データに基づいて音
響特徴量を抽出する処理、抽出された音響特徴量と音声
認識辞書(図示せず)に登録されている基準音声データ
とをパターンマッチング処理して音声を認識して複数の
認識データ(最も近い第1データ、次に近い第2データ
など)を生成する処理を実行する音声認識部17と、認
識された音声データを漢字変換して文字コード(最も近
い第1文字コード、次に近い第2文字コードなど)を生
成し、これを第二テキスト19として出力する漢字変換
部21とから構成されている。
【0024】DPマッチング法によるテキスト統合処理
部5は、第一テキスト11と第二テキスト19との各ラ
ティスから新しいラティスを生成して統合認識結果を生
成する処理、生成された統合認識結果のアークを決定す
る処理、決定された各アークのコスト値を求める処理、
求められたコスト値を利用して開始ノードから終了ノー
ドに至る最適経路を動的計画法を用いて求めこれを第三
テキストとして出力する処理を実行する。
部5は、第一テキスト11と第二テキスト19との各ラ
ティスから新しいラティスを生成して統合認識結果を生
成する処理、生成された統合認識結果のアークを決定す
る処理、決定された各アークのコスト値を求める処理、
求められたコスト値を利用して開始ノードから終了ノー
ドに至る最適経路を動的計画法を用いて求めこれを第三
テキストとして出力する処理を実行する。
【0025】次に第1の実施形態の動作を図2乃至図5
を参照しつつ系統的に説明する。
を参照しつつ系統的に説明する。
【0026】第一テキスト作成部1において、台本7が
スキャナー9にセットされて文字認識処理が開始される
と、スキャナー9によって台本7上のイメージが読み取
られてイメージデータが生成され、テキスト変換部13
に出力される。
スキャナー9にセットされて文字認識処理が開始される
と、スキャナー9によって台本7上のイメージが読み取
られてイメージデータが生成され、テキスト変換部13
に出力される。
【0027】テキスト変換部13では、読み取られたイ
メージデータが1文字単位で切り出された後、切り出さ
れた文字イメージデータと文字認識辞書(図示せず)に
登録されている基準文字データとがパターンマッチング
処理されて文字認識が実行される。そして、文字イメー
ジデータに対応する文字コード(最も近い第1文字コー
ド、次に近い第2文字コードなど)が生成され、第一テ
キスト11としてDPマッチング法によるテキスト統合
処理部5へ出力される。
メージデータが1文字単位で切り出された後、切り出さ
れた文字イメージデータと文字認識辞書(図示せず)に
登録されている基準文字データとがパターンマッチング
処理されて文字認識が実行される。そして、文字イメー
ジデータに対応する文字コード(最も近い第1文字コー
ド、次に近い第2文字コードなど)が生成され、第一テ
キスト11としてDPマッチング法によるテキスト統合
処理部5へ出力される。
【0028】一方、台本7を基にアナウンサ15が読み
上げた音声データは第二テキスト作成部3の音声認識部
17において音声認識される。この音声認識において
は、デジタル化された音声データが音響分析され、音響
特徴量が求められる。抽出された音響特徴量は音声認識
辞書に登録されている基準音声データとパターンマッチ
ングされ、その結果、複数の認識データ(最も近い第1
認識データ、次に近い第2認識データなど)が生成され
る。生成された認識データは漢字変換部21に供給さ
れ、認識された音声データが漢字変換されて文字コード
(最も近い第1文字コード、次に近い第2文字コードな
ど)が生成され、第二テキスト19としてDPマッチン
グ法によるテキスト統合処理部5へ出力される。
上げた音声データは第二テキスト作成部3の音声認識部
17において音声認識される。この音声認識において
は、デジタル化された音声データが音響分析され、音響
特徴量が求められる。抽出された音響特徴量は音声認識
辞書に登録されている基準音声データとパターンマッチ
ングされ、その結果、複数の認識データ(最も近い第1
認識データ、次に近い第2認識データなど)が生成され
る。生成された認識データは漢字変換部21に供給さ
れ、認識された音声データが漢字変換されて文字コード
(最も近い第1文字コード、次に近い第2文字コードな
ど)が生成され、第二テキスト19としてDPマッチン
グ法によるテキスト統合処理部5へ出力される。
【0029】<DPマッチング法によるテキスト統合処
理部5におけるテキスト修正処理>次に、DPマッチン
グ法によるテキスト統合処理部5に入力された第一テキ
スト11および第二テキスト19から、第三テキスト2
3を作成する手法について図2のフローチャートを参照
しつつ説明する。前述したように、第一テキスト11は
文字認識を主として得られたもの、第二テキスト19は
音声認識を主として得られたものであり、これら第1テ
キスト11、第二テキスト19を統合して誤り率を削減
した第三テキスト23を得る方法である。
理部5におけるテキスト修正処理>次に、DPマッチン
グ法によるテキスト統合処理部5に入力された第一テキ
スト11および第二テキスト19から、第三テキスト2
3を作成する手法について図2のフローチャートを参照
しつつ説明する。前述したように、第一テキスト11は
文字認識を主として得られたもの、第二テキスト19は
音声認識を主として得られたものであり、これら第1テ
キスト11、第二テキスト19を統合して誤り率を削減
した第三テキスト23を得る方法である。
【0030】今、原稿として「O157と、O158」
という文字列を考える。これを文字認識した結果、図3
に示すような単語ラティスが得られたものとする。一
方、この原稿を読み上げた「オーイチゴーナナトオーイ
チゴーハチ」という音声を音声認識した結果、図4に示
すような単語ラティスが得られたものとする。ここで、
図3、図4において、ノード0は開始ノードであり、ノ
ード1は終了ノードを示す。本実施の形態は、以下のよ
うに両単語ラティスを統合化して最適な第三テキスト2
3を作成する。
という文字列を考える。これを文字認識した結果、図3
に示すような単語ラティスが得られたものとする。一
方、この原稿を読み上げた「オーイチゴーナナトオーイ
チゴーハチ」という音声を音声認識した結果、図4に示
すような単語ラティスが得られたものとする。ここで、
図3、図4において、ノード0は開始ノードであり、ノ
ード1は終了ノードを示す。本実施の形態は、以下のよ
うに両単語ラティスを統合化して最適な第三テキスト2
3を作成する。
【0031】先ず、これら2つのラティスのノードのペ
アを新たなノードとする新しい統合認識結果(新しいラ
ティス)を作成する(ステップST1)。従って、統合
認識結果のラティスのノード総数は文字認識結果による
ラティスのノード総数(=7)と音声認識結果によるラ
ティスのノード総数(=6)の積になる。上記の例の場
合、42個のノードとなる。
アを新たなノードとする新しい統合認識結果(新しいラ
ティス)を作成する(ステップST1)。従って、統合
認識結果のラティスのノード総数は文字認識結果による
ラティスのノード総数(=7)と音声認識結果によるラ
ティスのノード総数(=6)の積になる。上記の例の場
合、42個のノードとなる。
【0032】統合認識結果のラティスのノード番号は以
下のようにして決定する。文字認識結果のラティスのノ
ード番号iと音声認識結果のラティスのノード番号jの
ペアに対する統合認識結果のラティスのノード番号をk
とすると、
下のようにして決定する。文字認識結果のラティスのノ
ード番号iと音声認識結果のラティスのノード番号jの
ペアに対する統合認識結果のラティスのノード番号をk
とすると、
【数1】k=i*n_onsei_node+j 但し、n_onsei_node:音声認識結果のノードの総数 統合認識結果の開始ノード番号はゼロであり、終了ノー
ド番号は、n_onsei_node+1となる。
ド番号は、n_onsei_node+1となる。
【0033】次に、統合認識結果のアークは以下のよう
にして構成する(ステップST3)。文字認識結果のア
ークは始点ノード番号i、終点ノード番号j、語形wの
3つの組で構成される。音声認識結果のアークも同様
に、始点ノード番号i’、終点ノード番号j’、語形
w’の3つの組で構成される。
にして構成する(ステップST3)。文字認識結果のア
ークは始点ノード番号i、終点ノード番号j、語形wの
3つの組で構成される。音声認識結果のアークも同様
に、始点ノード番号i’、終点ノード番号j’、語形
w’の3つの組で構成される。
【0034】これら文字認識結果および音声認識結果の
2つのアークから統合認識結果のアークを3種類構成す
る。第1のアークは(w,w’)なる語形を持つアーク
である。このアークの始点ノード番号は、
2つのアークから統合認識結果のアークを3種類構成す
る。第1のアークは(w,w’)なる語形を持つアーク
である。このアークの始点ノード番号は、
【数2】k=i*n_onsei_node+i’ であり、終点ノード番号は、
【数3】k=j*n_onsei_node+j’ である。第2のアークは文字認識結果の単語をスキップ
する場合であり、(“*”,w)なる語形を持つ。この
アークの始点ノード番号は、
する場合であり、(“*”,w)なる語形を持つ。この
アークの始点ノード番号は、
【数4】k=j*n_onsei_node+i’ であり、終点ノード番号は第1のアークと同じである。
第3のアークは音声認識結果の単語をスキップする場合
であり、(w,“*”)なる語形を持つ。このアークの
始点ノード番号は、
第3のアークは音声認識結果の単語をスキップする場合
であり、(w,“*”)なる語形を持つ。このアークの
始点ノード番号は、
【数5】k=i*n_onsei_node+j’ であり、終点ノード番号は第1のアークと変わらない。
【0035】この結果、統合認識結果のアークの総数
は、文字認識結果のアークの総数と音声認識結果のアー
クの総数の積の3倍となる。上記の例の場合は、8*9
*3=216個のアークが構成される。
は、文字認識結果のアークの総数と音声認識結果のアー
クの総数の積の3倍となる。上記の例の場合は、8*9
*3=216個のアークが構成される。
【0036】次に、統合認識結果のアークには語形
(w,w’)から計算されるコスト値が付与される(ス
テップST5)。コスト値の計算方法としては、例え
ば、以下の方法がある。
(w,w’)から計算されるコスト値が付与される(ス
テップST5)。コスト値の計算方法としては、例え
ば、以下の方法がある。
【0037】
【数6】c=length(w)+length(w’)−2*pt 但し、length(w):wの文字数 pt:wとw’の間の一致する文字数 である。cの最大値は、length(w)+length(w’)
であり、最小値はゼロである。
であり、最小値はゼロである。
【0038】統合認識結果としてのラティス上で、上記
コスト値を利用して、開始ノードから終了ノードに至る
最適経路をDPマッチング法(動的計画法)を用いて求
め、統合認識結果とする。
コスト値を利用して、開始ノードから終了ノードに至る
最適経路をDPマッチング法(動的計画法)を用いて求
め、統合認識結果とする。
【0039】図5は、図3のラティスと図4のラティス
とから統合された統合認識結果を示すラティスの内、最
適経路のラティスのみを示している。図5に示されるよ
うに、正解の単語列が得られており、さらに、音声認識
結果にはなかった「、」が復元されているのが分かる。
とから統合された統合認識結果を示すラティスの内、最
適経路のラティスのみを示している。図5に示されるよ
うに、正解の単語列が得られており、さらに、音声認識
結果にはなかった「、」が復元されているのが分かる。
【0040】<第2の実施形態>図6は本発明による電
子化テキスト作成システムが適用された字幕用テキスト
作成システムの第2の実施形態の構成を示すブロック図
である。なお、図6において、図1と同一構成部分に
は、同一符号を付してその説明は省略する。
子化テキスト作成システムが適用された字幕用テキスト
作成システムの第2の実施形態の構成を示すブロック図
である。なお、図6において、図1と同一構成部分に
は、同一符号を付してその説明は省略する。
【0041】図6に示すように、第2の実施形態におけ
る字幕用テキスト作成システムは、第一テキスト作成部
1と、第二テキスト作成部3と、知識処理によるテキス
ト統合処理部31Aと、処理ルール33Aとを備え、文
字認識により得られた第一テキスト11と音声認識によ
り得られた第二テキスト19とを照合し、処理ルールに
よって最適な第三テキスト35Aを得るようにしたもの
である。
る字幕用テキスト作成システムは、第一テキスト作成部
1と、第二テキスト作成部3と、知識処理によるテキス
ト統合処理部31Aと、処理ルール33Aとを備え、文
字認識により得られた第一テキスト11と音声認識によ
り得られた第二テキスト19とを照合し、処理ルールに
よって最適な第三テキスト35Aを得るようにしたもの
である。
【0042】知識処理によるテキスト統合処理部31A
は、供給された第一テキスト11と、第二テキスト19
とを処理ルール33Aに基づいて知識処理するもので、
以下のような考え方を基礎として設計されたものであ
る。
は、供給された第一テキスト11と、第二テキスト19
とを処理ルール33Aに基づいて知識処理するもので、
以下のような考え方を基礎として設計されたものであ
る。
【0043】《第2の実施形態における知識処理の考え
方》アナウンス用の元原稿に加えられる修正の主なもの
は、文章の追加、削除、表現の変更、文の順序変更など
である。一方、実際の放送アナウンスを忠実に文字化し
た第二のテキストと修正済みアナウンス原稿との相違と
して考えられる事項は、原稿と異なるアナウンサによる
「えー」、「あー」などの挿入、「言い間違いの言い直
し」の前の言い間違い、言い間違い、原稿の読み飛ばし
などである。
方》アナウンス用の元原稿に加えられる修正の主なもの
は、文章の追加、削除、表現の変更、文の順序変更など
である。一方、実際の放送アナウンスを忠実に文字化し
た第二のテキストと修正済みアナウンス原稿との相違と
して考えられる事項は、原稿と異なるアナウンサによる
「えー」、「あー」などの挿入、「言い間違いの言い直
し」の前の言い間違い、言い間違い、原稿の読み飛ばし
などである。
【0044】原稿の文字認識による第一テキスト11に
対して、第二テキスト19のみに存在する部分は、第一
テキスト11からみると追加分であり、第一テキスト1
1のみにあり第二テキスト19に存在しない部分は、第
一テキスト11からみると読み飛ばし分といえる。
対して、第二テキスト19のみに存在する部分は、第一
テキスト11からみると追加分であり、第一テキスト1
1のみにあり第二テキスト19に存在しない部分は、第
一テキスト11からみると読み飛ばし分といえる。
【0045】第二テキスト19での「えー」、「あー」
などの追加分は、このようなルールを設定した処理ソフ
トにより第二テキスト19から削除する。
などの追加分は、このようなルールを設定した処理ソフ
トにより第二テキスト19から削除する。
【0046】言い間違い部分は、第一テキスト11と第
二テキスト19とをラフ比較し、第一テキスト分で置換
するが、追加分でないことを前提とする。第二テキスト
19における「言い間違いの言い直し」の前の言い間違
いは、先ず、追加分として把握する。そして、その直後
の「言い直し」が第一テキスト11にあることを前提
に、「言い直し」部分に対する「言い直し」の前の言い
間違い部分の近似度を求め、それが近い場合は、アナウ
ンスの間違いとしてこの部分は第一テキスト11を採用
し、必要な場合には第二テキスト19に加える。
二テキスト19とをラフ比較し、第一テキスト分で置換
するが、追加分でないことを前提とする。第二テキスト
19における「言い間違いの言い直し」の前の言い間違
いは、先ず、追加分として把握する。そして、その直後
の「言い直し」が第一テキスト11にあることを前提
に、「言い直し」部分に対する「言い直し」の前の言い
間違い部分の近似度を求め、それが近い場合は、アナウ
ンスの間違いとしてこの部分は第一テキスト11を採用
し、必要な場合には第二テキスト19に加える。
【0047】図7は処理ルール33Aの一例を示したも
ので、第一テキスト11と第二テキスト19との間の差
の分析事例に対して構成された処理ルールを示してい
る。具体的には、ルール1は第一テキストに対し加入さ
れた第二テキスト19上の語句に対して適用されるルー
ルであり、次の処理ルール1A〜1Cからなる。
ので、第一テキスト11と第二テキスト19との間の差
の分析事例に対して構成された処理ルールを示してい
る。具体的には、ルール1は第一テキストに対し加入さ
れた第二テキスト19上の語句に対して適用されるルー
ルであり、次の処理ルール1A〜1Cからなる。
【0048】処理ルール1Aは、「えー」、「あー」な
どの文頭、または読点の後の加入分は、第二テキストか
ら削除するというルールである。
どの文頭、または読点の後の加入分は、第二テキストか
ら削除するというルールである。
【0049】処理ルール1Bは、第二テキストでの「言
い間違いの言い直し」の前の言い間違いは、先ず加入分
として把握する。そして、その直後の「言い直し」が第
一テキストにあることを前提に、「言い直し」部分に対
する「言い直し」の前の言い間違い部分の近似度を求
め、それが近い場合は不要な加入分とみなして、第二テ
キストから削除する、というルールである。
い間違いの言い直し」の前の言い間違いは、先ず加入分
として把握する。そして、その直後の「言い直し」が第
一テキストにあることを前提に、「言い直し」部分に対
する「言い直し」の前の言い間違い部分の近似度を求
め、それが近い場合は不要な加入分とみなして、第二テ
キストから削除する、というルールである。
【0050】処理ルール1Cは、処理ルール1A,1B
を適用後、第二テキストの該当語句を第一テキストの該
当語句に挿入するというルールである。
を適用後、第二テキストの該当語句を第一テキストの該
当語句に挿入するというルールである。
【0051】処理ルール2および処理ルール3は、処理
ルール2A,2B,2C間、処理ルール3A,3B間の
差異を的確に判断できないので無視するというルールで
ある。
ルール2A,2B,2C間、処理ルール3A,3B間の
差異を的確に判断できないので無視するというルールで
ある。
【0052】すなわち、処理ルール2は、第一テキスト
11に対して第二テキスト19上に存在する語句は無視
するというもので、処理ルール2Aは、原稿の読み飛ば
し、処理ルール2Bはアナウンス原稿としての削除、処
理ルール2Cは音声の非認識であり、これらの事例は無
視することとする。また、処理ルール3は、第一テキス
トの語句に対応する第二テキスト上の語句で異なるもの
は無視するというルールであり、処理ルール3Aは、ア
ナウンス原稿の書換え、処理ルール3Bは、音声の誤認
識・誤変換の場合であり、これらは無視することとす
る、というルールである。
11に対して第二テキスト19上に存在する語句は無視
するというもので、処理ルール2Aは、原稿の読み飛ば
し、処理ルール2Bはアナウンス原稿としての削除、処
理ルール2Cは音声の非認識であり、これらの事例は無
視することとする。また、処理ルール3は、第一テキス
トの語句に対応する第二テキスト上の語句で異なるもの
は無視するというルールであり、処理ルール3Aは、ア
ナウンス原稿の書換え、処理ルール3Bは、音声の誤認
識・誤変換の場合であり、これらは無視することとす
る、というルールである。
【0053】また、処理ルール4は、第一テキスト11
の語句に対応する第二テキスト19上の語句が同じで、
順序が異なるものについての処理を示しており、その
内、処理ルール4Aは、アナウンス原稿の語句順の入れ
替えの場合には、その都度、判定して第二テキストの順
となるよう語句を入れ替えるというルールである。
の語句に対応する第二テキスト19上の語句が同じで、
順序が異なるものについての処理を示しており、その
内、処理ルール4Aは、アナウンス原稿の語句順の入れ
替えの場合には、その都度、判定して第二テキストの順
となるよう語句を入れ替えるというルールである。
【0054】次に第2の実施形態の動作を具体的に説明
する。
する。
【0055】台本7からの文字認識により、「大会関係
者のビザの取り扱いなどについて意見を交わすことにな
りました。」という第一テキスト11が得られ、また、
アナウンサ15からの音声認識により、「えー大会関係
者の膝の取り扱いなどについて委員会で意見を交わすこ
とになりました。」という第二テキスト19が得られた
ものとする。
者のビザの取り扱いなどについて意見を交わすことにな
りました。」という第一テキスト11が得られ、また、
アナウンサ15からの音声認識により、「えー大会関係
者の膝の取り扱いなどについて委員会で意見を交わすこ
とになりました。」という第二テキスト19が得られた
ものとする。
【0056】上述した第一テキスト11と第二テキスト
19のみによる第三テキスト生成においては、先ず、句
点、場合によっては読点を目安に比較区分を設定し、両
テキスト間の語句の対応関係を判定する。
19のみによる第三テキスト生成においては、先ず、句
点、場合によっては読点を目安に比較区分を設定し、両
テキスト間の語句の対応関係を判定する。
【0057】また、処理ルール4Aに該当する事例があ
れば、第一テキスト11を変更し新たに第一テキスト1
1とする。
れば、第一テキスト11を変更し新たに第一テキスト1
1とする。
【0058】次に、両テキスト間で、語句の合致箇所と
範囲を検出し、判定、処理の新たな区分とする。
範囲を検出し、判定、処理の新たな区分とする。
【0059】そして、新たな区分毎に両テキストの相違
を抽出判定し、第一テキストに対して図7に示す処理ル
ールを適用する。
を抽出判定し、第一テキストに対して図7に示す処理ル
ールを適用する。
【0060】上述のような処理ルールを適用することに
より、「大会関係者のビザの取り扱いなどについて委員
会で意見を交わすことになりました。」という第三テキ
スト35Aを生成することができる。
より、「大会関係者のビザの取り扱いなどについて委員
会で意見を交わすことになりました。」という第三テキ
スト35Aを生成することができる。
【0061】<第3の実施形態>ところで、既存の一般
的な文字認識、音声認識システムでは、そのシステムに
設定された最適な単一テキストが出力されるようになっ
ている。しかし、文字認識、音声認識システムにおいて
認識・変換プロセスで誤りが発生し、第一テキストと第
二テキストが台本、アナウンスに忠実でない場合があ
る。
的な文字認識、音声認識システムでは、そのシステムに
設定された最適な単一テキストが出力されるようになっ
ている。しかし、文字認識、音声認識システムにおいて
認識・変換プロセスで誤りが発生し、第一テキストと第
二テキストが台本、アナウンスに忠実でない場合があ
る。
【0062】特に、音声認識・変換プロセスを行う第二
テキストでは、前述したように誤りが多いが、認識プロ
セスまでの誤りは変換プロセスでの誤り分だけ少ないこ
とになる。
テキストでは、前述したように誤りが多いが、認識プロ
セスまでの誤りは変換プロセスでの誤り分だけ少ないこ
とになる。
【0063】そこで、第3の実施形態では、音声認識レ
ベルから得られる発音記号列情報をも活用し、より忠実
なテキストとなるように、第一、第二テキストを修正し
た後、知識処理によるテキスト統合処理部31B(図8
参照)でさらに処理するものである。ここでの修正は、
第一テキストについては、パターン類似な文字、第二テ
キストでは同音異義語のようなものを主な対象とする。
これらの処理は、図6に示す知識処理によるテキスト統
合処理部31Aのように、まとめて行うことが可能であ
る。
ベルから得られる発音記号列情報をも活用し、より忠実
なテキストとなるように、第一、第二テキストを修正し
た後、知識処理によるテキスト統合処理部31B(図8
参照)でさらに処理するものである。ここでの修正は、
第一テキストについては、パターン類似な文字、第二テ
キストでは同音異義語のようなものを主な対象とする。
これらの処理は、図6に示す知識処理によるテキスト統
合処理部31Aのように、まとめて行うことが可能であ
る。
【0064】なお、第二テキストには音声認識・変換過
程などから得られる何らかの時間情報が有るものとし、
そのポーズなどから文単位などの区分が可能なものとな
る。
程などから得られる何らかの時間情報が有るものとし、
そのポーズなどから文単位などの区分が可能なものとな
る。
【0065】図8は第3の実施形態の構成を示すブロッ
ク図である。なお、図8において、図1と同一構成部分
には、同一符号を付してその説明は省略する。
ク図である。なお、図8において、図1と同一構成部分
には、同一符号を付してその説明は省略する。
【0066】図8に示すように、第3の実施形態におけ
る字幕用テキスト作成システムは、第一テキスト作成部
1と、第二テキスト作成部3と、第一テキスト修正部4
1と、第二テキスト修正部43と、修正点検出部45
と、知識処理によるテキスト統合処理部31Bと、処理
ルール33Bとを備え、文字認識により得られた第一テ
キスト11と音声認識により得られた第二テキスト19
とをそれぞれ修正して修正第一テキスト46と修正第二
テキスト48とを得た後、これらを照合し、処理ルール
33Bによって最適な第三テキスト35Bを得るように
したものである。
る字幕用テキスト作成システムは、第一テキスト作成部
1と、第二テキスト作成部3と、第一テキスト修正部4
1と、第二テキスト修正部43と、修正点検出部45
と、知識処理によるテキスト統合処理部31Bと、処理
ルール33Bとを備え、文字認識により得られた第一テ
キスト11と音声認識により得られた第二テキスト19
とをそれぞれ修正して修正第一テキスト46と修正第二
テキスト48とを得た後、これらを照合し、処理ルール
33Bによって最適な第三テキスト35Bを得るように
したものである。
【0067】第一テキスト修正部41は、第一テキスト
11をその読みに相当する発音記号列化する発音記号列
化部51と、修正テーブル53を用いて発音記号列化さ
れた第一テキストを修正する修正部55と、修正された
発音記号列を漢字変換してテキスト化する漢字変換部5
7と、漢字変換部57から出力されるテキストを第一テ
キスト11と比較・修正して修正第一テキスト46を生
成する修正第一テキスト部47とを備えている。
11をその読みに相当する発音記号列化する発音記号列
化部51と、修正テーブル53を用いて発音記号列化さ
れた第一テキストを修正する修正部55と、修正された
発音記号列を漢字変換してテキスト化する漢字変換部5
7と、漢字変換部57から出力されるテキストを第一テ
キスト11と比較・修正して修正第一テキスト46を生
成する修正第一テキスト部47とを備えている。
【0068】第二テキスト修正部43は、第二テキスト
作成部3の音声認識部17の音声認識処理で得られた発
音記号列を取り込む発音記号列化部61と、その発音記
号列を修正する修正部63と、修正された発音記号列を
漢字変換してテキスト化する漢字変換部65と、漢字変
換部65から出力されるテキストを第二テキスト19と
比較・修正して修正第二テキスト48を生成する修正第
二テキスト部49とを備えている。
作成部3の音声認識部17の音声認識処理で得られた発
音記号列を取り込む発音記号列化部61と、その発音記
号列を修正する修正部63と、修正された発音記号列を
漢字変換してテキスト化する漢字変換部65と、漢字変
換部65から出力されるテキストを第二テキスト19と
比較・修正して修正第二テキスト48を生成する修正第
二テキスト部49とを備えている。
【0069】修正点検出部45は、前記第一テキスト1
1の発音記号列と第二テキスト19の発音記号列とを比
較してその差分を検出して各修正部55,65に供給す
ると共に、これらの差分を修正点73として知識処理に
よるテキスト統合処理部31Bに供給する比較部71を
備えている。
1の発音記号列と第二テキスト19の発音記号列とを比
較してその差分を検出して各修正部55,65に供給す
ると共に、これらの差分を修正点73として知識処理に
よるテキスト統合処理部31Bに供給する比較部71を
備えている。
【0070】次に第3の実施形態の動作を図10のフロ
ーチャートを参照して説明する。なお、第一テキスト作
成部1および第二テキスト作成部3の各処理は第1の実
施形態と同様であるため、説明は省略する。
ーチャートを参照して説明する。なお、第一テキスト作
成部1および第二テキスト作成部3の各処理は第1の実
施形態と同様であるため、説明は省略する。
【0071】第一テキスト作成部1では、スキャナー9
での読み取りミスや、テキスト変換部13での変換間違
いが発生する。この発生し易いミスや変換間違いについ
ては第一テキスト修正部41の修正テーブル53に予め
保存されているものとする。
での読み取りミスや、テキスト変換部13での変換間違
いが発生する。この発生し易いミスや変換間違いについ
ては第一テキスト修正部41の修正テーブル53に予め
保存されているものとする。
【0072】第一テキスト修正部41の発音記号列化部
51では、第一テキスト11がその読みに相当する発音
記号列化される一方、第二テキスト修正部43の発音記
号列化部61では、第二テキストの発音記号列を音声認
識部17より取り込む(ステップST11)。修正点検
出部45の比較部71では、両テキストの比較区分の設
定と対応関係の判定処理がされ各発音記号列が比較さ
れ、その差分が抽出される(ステップST13)。
51では、第一テキスト11がその読みに相当する発音
記号列化される一方、第二テキスト修正部43の発音記
号列化部61では、第二テキストの発音記号列を音声認
識部17より取り込む(ステップST11)。修正点検
出部45の比較部71では、両テキストの比較区分の設
定と対応関係の判定処理がされ各発音記号列が比較さ
れ、その差分が抽出される(ステップST13)。
【0073】第一テキスト修正部41の修正部55で
は、前記差分に対して修正テーブル53を参照して、例
えばパターン類似な文字等の修正を行う。この修正は、
前記差分に対する処理例が修正テーブル53に存在する
場合にのみ限定的に行われるものである。こうして修正
された発音記号列は漢字変換部57で漢字に変換され、
さらに第一修正テキスト部47において、第一テキスト
11と比較・修正された後、修正第一テキスト46とし
て知識処理によるテキスト統合処理部31Bに供給され
る。
は、前記差分に対して修正テーブル53を参照して、例
えばパターン類似な文字等の修正を行う。この修正は、
前記差分に対する処理例が修正テーブル53に存在する
場合にのみ限定的に行われるものである。こうして修正
された発音記号列は漢字変換部57で漢字に変換され、
さらに第一修正テキスト部47において、第一テキスト
11と比較・修正された後、修正第一テキスト46とし
て知識処理によるテキスト統合処理部31Bに供給され
る。
【0074】一方、第二テキスト修正部43でも同様
に、前記差分を取り込んで、第二テキスト19の発音記
号列が、所定の近似度を有し、かつ異なる場合には、第
一テキスト11から得た発音記号列で置換された後、漢
字変換され、さらに、第二修正テキスト部49におい
て、第二テキスト19と比較・修正された後、修正第二
テキスト48として知識処理によるテキスト統合処理部
31Bに供給される。また、同時に第一、第二の両テキ
ストに関わる比較部71の結果も分かるので、この情報
も修正点73として知識処理によるテキスト統合処理部
31Bに供給される。
に、前記差分を取り込んで、第二テキスト19の発音記
号列が、所定の近似度を有し、かつ異なる場合には、第
一テキスト11から得た発音記号列で置換された後、漢
字変換され、さらに、第二修正テキスト部49におい
て、第二テキスト19と比較・修正された後、修正第二
テキスト48として知識処理によるテキスト統合処理部
31Bに供給される。また、同時に第一、第二の両テキ
ストに関わる比較部71の結果も分かるので、この情報
も修正点73として知識処理によるテキスト統合処理部
31Bに供給される。
【0075】知識処理によるテキスト統合処理部31B
では修正第一テキスト46と修正第二テキスト48に対
して処理ルール33Bを適用して第三テキスト35Bを
生成する(ステップST15〜ST21)。
では修正第一テキスト46と修正第二テキスト48に対
して処理ルール33Bを適用して第三テキスト35Bを
生成する(ステップST15〜ST21)。
【0076】この場合、図9に示す処理ルール33Bと
しては、図7に示した処理ルール33Aとは以下の点が
相違する。
しては、図7に示した処理ルール33Aとは以下の点が
相違する。
【0077】処理ルール2Bは、修正第二テキスト48
のアナウンスに対する忠実度が高くなるので、該当部分
の語句を修正第一テキスト46から削除するという処理
にする。
のアナウンスに対する忠実度が高くなるので、該当部分
の語句を修正第一テキスト46から削除するという処理
にする。
【0078】また、処理ルール2Cは、発音記号列レベ
ルでも非認識が確認できるので、修正第一テキスト46
の修正は、積極的に放置するという処理にする。
ルでも非認識が確認できるので、修正第一テキスト46
の修正は、積極的に放置するという処理にする。
【0079】処理ルール3Aは、修正第二テキスト48
のアナウンスに対する忠実度が高くなるので、修正第一
テキスト46の該当部分の語句を入れ替えるという処理
にする。
のアナウンスに対する忠実度が高くなるので、修正第一
テキスト46の該当部分の語句を入れ替えるという処理
にする。
【0080】処理ルール3Bは、発音記号列レベルで誤
認識・誤変換が確認できるので、修正第一テキスト46
の修正は積極的に放置するという処理にする。
認識・誤変換が確認できるので、修正第一テキスト46
の修正は積極的に放置するという処理にする。
【0081】以上の処理の具体例(その1)を図11に
示す。なお、図11中、第一修正テキスト、第二修正テ
キストは、図8の第一テキスト修正部41、第二テキス
ト修正部43、統合処理部31Bで行われる処理の中間
テキストを示す。
示す。なお、図11中、第一修正テキスト、第二修正テ
キストは、図8の第一テキスト修正部41、第二テキス
ト修正部43、統合処理部31Bで行われる処理の中間
テキストを示す。
【0082】図11において、(a)は台本7からの第
一テキスト、(b)はその発音記号列1、(c)は第一
修正テキスト、(d)はアナウンスからの第二テキス
ト、(e)はその発音記号列、(f)は第二修正テキス
ト、および(g)は第1、第二修正テキストから生成し
た第三テキストをそれぞれ示している。
一テキスト、(b)はその発音記号列1、(c)は第一
修正テキスト、(d)はアナウンスからの第二テキス
ト、(e)はその発音記号列、(f)は第二修正テキス
ト、および(g)は第1、第二修正テキストから生成し
た第三テキストをそれぞれ示している。
【0083】また、処理の具体例(その2)を図12示
す。図12において、(a)は第一テキストの発音記号
列(発音記号列1)、(b)は第二テキストの発音記号
列(発音記号列2)、(c),(d)は発音記号列1と
発音記号列2との対応比較とその差の検出例を示してい
る。また、(e)は適用される処理ルールの例、(f)
は処理ルールの適用結果を示している。さらに、(g)
はその結果生成された第三テキストの発音記号列であ
り、(h)は生成された第三テキストの発音記号列に対
応する第一テキスト、(i)は生成された第三テキスト
の発音記号列に対応する第二テキストを示している。第
三テキストは(h)と(i)とを組み合わせて作成され
る。
す。図12において、(a)は第一テキストの発音記号
列(発音記号列1)、(b)は第二テキストの発音記号
列(発音記号列2)、(c),(d)は発音記号列1と
発音記号列2との対応比較とその差の検出例を示してい
る。また、(e)は適用される処理ルールの例、(f)
は処理ルールの適用結果を示している。さらに、(g)
はその結果生成された第三テキストの発音記号列であ
り、(h)は生成された第三テキストの発音記号列に対
応する第一テキスト、(i)は生成された第三テキスト
の発音記号列に対応する第二テキストを示している。第
三テキストは(h)と(i)とを組み合わせて作成され
る。
【0084】<第4の実施形態>図13は、本発明によ
る電子化テキスト作成システムが適用された字幕用テキ
スト作成システムの第4の実施形態の構成を示すブロッ
ク図である。なお、図8に示した第3の実施形態と同一
構成部分には同一符号を付してその説明を省略する。
る電子化テキスト作成システムが適用された字幕用テキ
スト作成システムの第4の実施形態の構成を示すブロッ
ク図である。なお、図8に示した第3の実施形態と同一
構成部分には同一符号を付してその説明を省略する。
【0085】この第4の実施形態においては、図8に示
した第3の実施形態の構成に加えて第一テキスト11の
形態素解析を行う形態素解析部81と、第二テキスト1
9の形態素解析を行う形態素解析部83と、アナウンサ
15の読み上げ時間に対応した計時をするタイマー85
と、音声認識部17からの音声認識情報からポーズ区間
を検出するポーズ検出部87とを設けたものである。ま
た、知識処理によるテキスト統合処理部31Cにおける
第三テキストの作成の際に適用した処理ルールや修正情
報を第二テキスト作成部3の音声認識辞書89に反映し
て学習効果を持たせるようにしたものである。
した第3の実施形態の構成に加えて第一テキスト11の
形態素解析を行う形態素解析部81と、第二テキスト1
9の形態素解析を行う形態素解析部83と、アナウンサ
15の読み上げ時間に対応した計時をするタイマー85
と、音声認識部17からの音声認識情報からポーズ区間
を検出するポーズ検出部87とを設けたものである。ま
た、知識処理によるテキスト統合処理部31Cにおける
第三テキストの作成の際に適用した処理ルールや修正情
報を第二テキスト作成部3の音声認識辞書89に反映し
て学習効果を持たせるようにしたものである。
【0086】このように構成することにより、さらに精
度の高い実用的な字幕用テキストの自動作成が可能とな
る。
度の高い実用的な字幕用テキストの自動作成が可能とな
る。
【0087】<他の実施の形態>なお、本発明の実施形
態は第1乃至第4の実施形態に限られるものではない。
例えば、第1の実施形態と第3の実施形態とを組み合わ
せ、図1に示したDPマッチング法によるテキスト統合
部5の前段に、図8に示した第一テキスト修正部41、
第二テキスト修正部43、および修正点検出部45を設
け、第一テキスト、および/または第二テキストを修正
した後、修正第一テキスト46と修正第二テキストとか
らパターンマッチング法による統合処理によって第三テ
キストを得るようにしても良い。
態は第1乃至第4の実施形態に限られるものではない。
例えば、第1の実施形態と第3の実施形態とを組み合わ
せ、図1に示したDPマッチング法によるテキスト統合
部5の前段に、図8に示した第一テキスト修正部41、
第二テキスト修正部43、および修正点検出部45を設
け、第一テキスト、および/または第二テキストを修正
した後、修正第一テキスト46と修正第二テキストとか
らパターンマッチング法による統合処理によって第三テ
キストを得るようにしても良い。
【0088】また、第1の実施形態と第4の実施形態と
を組み合わせて図13の知識処理によるテキスト統合部
31CをDPマッチング法よる統合処理部5に置き換え
ても良い。このようにすることにより、形態素解析の結
果を反映した処理も可能となる。
を組み合わせて図13の知識処理によるテキスト統合部
31CをDPマッチング法よる統合処理部5に置き換え
ても良い。このようにすることにより、形態素解析の結
果を反映した処理も可能となる。
【0089】
【発明の効果】以上説明したように本発明によれば、原
稿上の文字を文字認識して電子化された第一テキスト
と、原稿を基に読み上げられた音声を音声認識して電子
化された第二テキストとから最適な第三テキストを生成
することのできる、字幕用などの電子化テキスト作成シ
ステムを提供することが可能となる。
稿上の文字を文字認識して電子化された第一テキスト
と、原稿を基に読み上げられた音声を音声認識して電子
化された第二テキストとから最適な第三テキストを生成
することのできる、字幕用などの電子化テキスト作成シ
ステムを提供することが可能となる。
【図1】本発明による電子化テキスト作成システムが適
用された字幕用テキスト作成システムの第1の実施形態
の構成を示すブロック図である。
用された字幕用テキスト作成システムの第1の実施形態
の構成を示すブロック図である。
【図2】第1の実施形態のテキスト統合処理部で実行さ
れる処理手順を示すフローチャートである。
れる処理手順を示すフローチャートである。
【図3】文字認識結果の単語ラティスを示す説明図であ
る。
る。
【図4】音声認識結果の単語ラティスを示す説明図であ
る。
る。
【図5】統合認識結果の単語ラティスを示す説明図であ
る。
る。
【図6】本発明による電子化テキスト作成システムが適
用された字幕用テキスト作成システムの第2の実施形態
の構成を示すブロック図である。
用された字幕用テキスト作成システムの第2の実施形態
の構成を示すブロック図である。
【図7】第2の実施形態で使用される処理ルールの具体
例を示す説明図である。
例を示す説明図である。
【図8】本発明による電子化テキスト作成システムが適
用された字幕用テキスト作成システムの第3の実施形態
の構成を示すブロック図である。
用された字幕用テキスト作成システムの第3の実施形態
の構成を示すブロック図である。
【図9】第3の実施形態で使用される処理ルールの具体
例を示す説明図である。
例を示す説明図である。
【図10】第3の実施の形態の処理手順を示すフローチ
ャートである。
ャートである。
【図11】第3の実施形態の処理例(その1)を示す説
明図である。
明図である。
【図12】第3の実施形態の処理例(その2)を示す説
明図である。
明図である。
【図13】本発明による電子化テキスト作成システムが
適用された字幕用テキスト作成システムの第4の実施形
態の構成を示すブロック図である。
適用された字幕用テキスト作成システムの第4の実施形
態の構成を示すブロック図である。
1 第一テキスト作成部 3 第二テキスト作成部 5 DPマッチング法によるテキスト統合処理部 7 台本 9 スキャナー 11 第一テキスト 13 テキスト変換部 15 アナウンサ 17 音声認識部 19 第二テキスト 21 漢字変換部 23,35A,35B 第三テキスト 31A,31B 知識処理によるテキスト統合処理部 33A,33B 処理ルール 41 第一テキスト修正部 43 第二テキスト修正部 45 修正点検出部 46 修正第一テキスト 47 修正第一テキスト部 48 修正第二テキスト 49 修正第二テキスト部 51,61 発音記号列化部 53 修正テーブル 55,63 修正部 71 比較部 81,83 形態素解析部 85 タイマー 87 ポーズ検出部 89 音声認識辞書
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 G10L 3/00 551B 15/24 571Q (71)出願人 000004237 日本電気株式会社 東京都港区芝五丁目7番1号 (71)出願人 000006013 三菱電機株式会社 東京都千代田区丸の内二丁目2番3号 (72)発明者 江原 暉将 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 沢村 英治 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 門馬 隆雄 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 福島 孝博 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 丸山 一郎 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 白井 克彦 東京都港区芝2−31−19 通信・放送機構 内 Fターム(参考) 5B009 KB05 LA03 5B064 AA07 BA01 EA19 EA24 5D015 HH07 KK03 LL07 9A001 GG09 HH17 HH22 HH33 KK60
Claims (5)
- 【請求項1】 原稿上の文字を文字認識して電子化され
た第一テキストを生成する第一テキスト生成手段と、 前記原稿を基に読み上げられた音声を音声認識して電子
化された第二テキストを生成する第二テキスト生成手段
と、 生成された第一テキストの単語ラティスと第二テキスト
の単語ラティスとから新たなラティスを生成するととも
に生成されたラティスにおけるノード間の各アークのコ
スト値を計算する機能、および計算されたコスト値を用
いて開始ノードから終了ノードに至る最適経路を動的計
画法により求めて第三テキストを生成する機能を有する
第三テキスト生成手段と、 を備えたことを特徴とする電子化テキスト作成システ
ム。 - 【請求項2】 原稿上の文字を文字認識して電子化され
た第一テキストを生成する第一テキスト生成手段と、 前記原稿を基に読み上げられた音声を音声認識して電子
化された第二テキストを生成する第二テキスト生成手段
と、 前記第一テキストと第二テキストとの差の分析によって
得られた処理ルールを蓄積する処理ルール蓄積手段と、 この処理ルールに基づいて前記第一テキストと第二テキ
ストとから最適な第三テキストを生成する第三テキスト
生成手段と、 を備えたことを特徴とする電子化テキスト作成システ
ム。 - 【請求項3】 請求項1または請求項2に記載の電子化
テキスト作成システムにおいて、 前記第一テキストと第二テキストとの差分を検出し、こ
の差分により第一テキストおよび/または第二テキスト
を修正する修正手段を設け、修正後の第一テキストおよ
び/または第二テキストを前記第三テキスト生成手段に
供給する、 ことを特徴とする電子化テキスト作成システム。 - 【請求項4】 請求項1乃至請求項3に記載の電子化テ
キスト作成システムにおいて、 第一テキスト、および第2テキストの各形態素解析を実
行する手段を設け、形態素解析の結果を第三テキストの
作成に反映させる、 ことを特徴とする電子化テキスト作成システム。 - 【請求項5】 請求項2乃至請求項4に記載の電子化テ
キスト作成システムにおいて、 前記第三テキスト生成手段の知識処理によって生成され
た第三テキストの作成の際に適用した処理ルールを前記
第一テキスト作成部および/または第二テキスト作成部
の認識辞書に反映させる、 ことを特徴とする電子化テキスト作成システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000095446A JP2001282779A (ja) | 2000-03-30 | 2000-03-30 | 電子化テキスト作成システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000095446A JP2001282779A (ja) | 2000-03-30 | 2000-03-30 | 電子化テキスト作成システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001282779A true JP2001282779A (ja) | 2001-10-12 |
Family
ID=18610347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000095446A Withdrawn JP2001282779A (ja) | 2000-03-30 | 2000-03-30 | 電子化テキスト作成システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001282779A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003186491A (ja) * | 2001-12-13 | 2003-07-04 | Telecommunication Advancement Organization Of Japan | 電子化テキスト作成支援システム |
JP2005227510A (ja) * | 2004-02-12 | 2005-08-25 | Ntt Docomo Inc | 音声認識装置及び音声認識方法 |
JP2007033671A (ja) * | 2005-07-25 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識プログラム |
WO2009147745A1 (ja) * | 2008-06-06 | 2009-12-10 | 三菱電機株式会社 | 検索装置 |
JP2010032919A (ja) * | 2008-07-30 | 2010-02-12 | Nippon Hoso Kyokai <Nhk> | グラフ統合装置及びそのプログラム |
JP2011014021A (ja) * | 2009-07-03 | 2011-01-20 | Nippon Hoso Kyokai <Nhk> | 文字情報提示制御装置及びプログラム |
JP2017005442A (ja) * | 2015-06-09 | 2017-01-05 | 日本放送協会 | コンテンツ生成装置およびプログラム |
JP2020052506A (ja) * | 2018-09-25 | 2020-04-02 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置及び文書作成プログラム |
-
2000
- 2000-03-30 JP JP2000095446A patent/JP2001282779A/ja not_active Withdrawn
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003186491A (ja) * | 2001-12-13 | 2003-07-04 | Telecommunication Advancement Organization Of Japan | 電子化テキスト作成支援システム |
JP2005227510A (ja) * | 2004-02-12 | 2005-08-25 | Ntt Docomo Inc | 音声認識装置及び音声認識方法 |
JP2007033671A (ja) * | 2005-07-25 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識プログラム |
WO2009147745A1 (ja) * | 2008-06-06 | 2009-12-10 | 三菱電機株式会社 | 検索装置 |
JPWO2009147745A1 (ja) * | 2008-06-06 | 2011-10-20 | 三菱電機株式会社 | 検索装置 |
JP2010032919A (ja) * | 2008-07-30 | 2010-02-12 | Nippon Hoso Kyokai <Nhk> | グラフ統合装置及びそのプログラム |
JP2011014021A (ja) * | 2009-07-03 | 2011-01-20 | Nippon Hoso Kyokai <Nhk> | 文字情報提示制御装置及びプログラム |
JP2017005442A (ja) * | 2015-06-09 | 2017-01-05 | 日本放送協会 | コンテンツ生成装置およびプログラム |
JP2020052506A (ja) * | 2018-09-25 | 2020-04-02 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置及び文書作成プログラム |
JP7215039B2 (ja) | 2018-09-25 | 2023-01-31 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置及び文書作成プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8719021B2 (en) | Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program | |
US5761687A (en) | Character-based correction arrangement with correction propagation | |
US7881930B2 (en) | ASR-aided transcription with segmented feedback training | |
US6735565B2 (en) | Select a recognition error by comparing the phonetic | |
JP5787780B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP5246948B2 (ja) | 字幕ずれ補正装置、再生装置および放送装置 | |
CN111986656B (zh) | 教学视频自动字幕处理方法与系统 | |
US20110093263A1 (en) | Automated Video Captioning | |
WO2003038808A1 (en) | Method of and system for transcribing dictations in text files and for revising the texts | |
US20130179166A1 (en) | Voice conversion device, portable telephone terminal, voice conversion method, and record medium | |
CN105931641B (zh) | 字幕数据生成方法和装置 | |
US20020065653A1 (en) | Method and system for the automatic amendment of speech recognition vocabularies | |
US10304457B2 (en) | Transcription support system and transcription support method | |
CN110798733A (zh) | 一种字幕生成方法、装置及计算机存储介质、电子设备 | |
JP2008051895A (ja) | 音声認識装置および音声認識処理プログラム | |
JP7326931B2 (ja) | プログラム、情報処理装置、及び情報処理方法 | |
JP2001282779A (ja) | 電子化テキスト作成システム | |
JP5273844B2 (ja) | 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置 | |
CN108682423A (zh) | 一种语音识别方法和装置 | |
JP2005049655A (ja) | 文字データ修正装置、文字データ修正方法および文字データ修正プログラム | |
JP2003186491A (ja) | 電子化テキスト作成支援システム | |
JP2007257134A (ja) | 音声検索装置、音声検索方法および音声検索プログラム | |
JP2000259176A (ja) | 音声認識装置およびその記録媒体 | |
JP2005267053A (ja) | 音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラム | |
JP5044791B2 (ja) | 字幕ずれ推定装置、補正装置および再生装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20040513 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040517 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040903 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070605 |