JP2008089628A

JP2008089628A - 録音ナレーション自動出力システム

Info

Publication number: JP2008089628A
Application number: JP2006266953A
Authority: JP
Inventors: Makoto Umeda; 誠梅田; Naotaka Nomura; 直孝野村
Original assignee: Daiichikosho Co Ltd
Current assignee: Daiichikosho Co Ltd
Priority date: 2006-09-29
Filing date: 2006-09-29
Publication date: 2008-04-17

Abstract

【課題】本発明は、所定内容の台詞が音声出力され、台詞の合間でナレーションを出力させる録音ナレーション自動出力システムに関し、ナレーションによるエンターテイメント性の向上を図ることを目的とする。
【解決手段】所定の台詞キーワードに対応付けられた録音ナレーションデータをＮＲデータＤＢ３５に記憶しおき、音声処理部２０の音声認識手段３１で入力した台詞音声を解析した音声データと、照合テーブル３３の台詞キーワードとを音声照合手段３２が照合し、一致したときの当該台詞キーワードで特定されるＮＲファイル名に基づいてＮＲ制御手段３４が対応する録音ナレーションをＮＲデータＤＢ３５より抽出して音声出力制御部１６に送出し、音声出力制御部１６が当該録音ナレーションを音声出力させ、当該録音ナレーションの音声出力区間以外のときにのみ台詞を音声出力させる構成とする。
【選択図】図１

Description

本発明は、所定内容の台詞が音声出力され、台詞の合間でナレーションを出力させる録音ナレーション自動出力システムに関する。

例えば、語り手による台詞読み上げにより物語やあるシーンを表現する場合に、語るシーンに対応したナレーションを流すこともエンターテイメント性等の向上の一つとして考えられる。ナレーションは、通常、語り手とは異なる声が好ましく、また、語られる台詞とは異なり、予め録音しておいたものでも語られる台詞に影響を与えず、むしろ録音しておいた方が台詞語りも効率的となる。

ところで、会話中に効果音を流す手法として下記の特許文献で開示されているものがある。下記特許文献には、移動体通信装置に関して、予め効果音データとキーワードとが対応付けられて記憶され、ユーザの通話音声信号に含まれるキーワードを音声認識手段が検出したときに、当該キーワードに対応する効果音データを移動体通信装置に送出することが開示されている。

特開２００２−０５１１１６号公報

しかしながら、上記特許文献では、効果音データとキーワードとが単に対応付けられたものであり、ユーザによる通話の時間経過で音声信号に同じキーワードが複数含まれていても、常に同じ効果音が流れることとなり、これを語りとナレーションの出力に適用した場合に、語りのシーンが切り替わっても同じキーワードでは同じ録音ナレーションを出力するということとなって録音ナレーションの効果が薄れてくるという問題がある。また、台詞と台詞との間に録音ナレーションを出力させるためには、所定のナレーションの選択や出力トリガの発信などのマニュアル操作を必要として、操作自体を行うという煩わしさがあるという問題がある。さらには、語り手がナレーションの内容を記憶していないと録音ナレーションが終了する前に語りを再開してしまい、語り手に負担を強いることとなるという問題もある。

そこで、本発明は上記課題に鑑みなされたもので、特別の操作を要せずに録音ナレーションを適時に出力可能とすると共に、台詞音声と録音ナレーション音声との重合出力を回避してナレーションによるエンターテイメント性の向上を図る静止画像対応録音ナレーション自動出力システムを提供することを目的とする。

上記課題を解決するために、請求項１の発明では、所定内容の台詞が音声出力され、台詞合間でナレーションを出力させる録音ナレーション自動出力システムであって、録音ナレーション記憶部、音声入力部、照合テーブル、音声処理部、録音ナレーション制御手段及び音声出力制御部を備え、前記録音ナレーション記憶部は、所定の台詞キーワードに対応付けられた録音ナレーションデータを記憶し、前記音声入力部は、台詞音声を入力し、前記照合テーブルは、所定の台詞キーワードと前記録音ナレーション記憶部に記憶されている録音ナレーションデータに関する情報とが関連付けられ、前記音声処理部は、前記入力した台詞音声を解析して生成した音声データと前記照合テーブルの台詞キーワードとを照合し、一致したときに上記台詞キーワードで個々に特定される前記録音ナレーションデータに関する情報を出力し、前記録音ナレーション制御手段は、前記音声処理部からの前記録音ナレーションデータに関する情報に応じて、対応の録音ナレーションデータを前記録音ナレーション記憶部より抽出して前記音声出力制御部に出力し、前記音声出力制御部は、前記台詞又は録音ナレーションの何れか一方の音声データを選択的に音声出力させるものであり、前記録音ナレーション制御部から前記録音ナレーションデータを入力した場合には当該録音ナレーションを音声出力し、当該録音ナレーションの音声出力区間以外のときに台詞を音声出力可能とする、構成とする。

本発明によれば、所定の台詞キーワードに対応付けられた録音ナレーションデータを記憶しておき、入力した台詞音声を解析した音声データと照合テーブルの台詞キーワードとを照合し、一致したときに当該台詞キーワードで個々に特定される録音ナレーションデータに関する情報に基づいて対応する録音ナレーションを出力させ、音声出力に際して録音ナレーションデータを入力した場合には当該録音ナレーションを音声出力可能とさせ、当該録音ナレーションの音声出力区間以外のときに台詞を音声出力させる構成とすることにより、特別の操作を要せずに録音ナレーションを適時に出力可能とすると共に、台詞音声と録音ナレーション音声との重合出力を回避してナレーションによるエンターテイメント性の向上を図ることができるものである。

以下、本発明の最良の実施形態を図により説明する。
図１に、本発明に係る録音ナレーション自動出力システムのブロック構成図を示す。図１において、録音ナレーション自動出力システム１１は、バス１２、中央制御部１３、ＲＯＭ１４、ＲＡＭ１５、音声出力制御部１６、ミキシングアンプ１７、音声入力部であるマイク１８、スピーカ１９、音声処理部２０、記憶装置２１及び操作部２２を適宜備える。また、音声処理部２０には、音声認識手段３１及び音声照合手段３２を備える。さらに、記憶装置２１には、照合テーブル３３、録音ナレーション制御手段であるＮＲ制御手段３４及び録音ナレーション記憶部であるＮＲデータＤＢ（データベース）３５が記憶される。

中央制御部１３は、このシステムを統括的に処理制御する物理的なＣＰＵであり、ＲＯＭ１４に記憶されているプログラムに基づくアルゴリズム処理を行う。上記ＲＡＭ１５は、種々のプログラムを展開、実行させるための作業領域としての役割をなすもので、例えば半導体メモリで構成され、仮想的にハードディスク上に構築される場合をも含む概念である。

上記音声出力制御部１６は、マイク１８からの台詞音声又は録音ナレーション音声の何れか一方の音声データを選択的にミキシングアンプ１７に出力するものであり、録音ナレーションのデータ（ファイル）の場合には当該録音ナレーションデータをデコードしてミキシングアンプ１７に出力し、録音ナレーション出力区間以外のときに台詞音声データを出力可能とする電子回路である。当該ミキシングアンプ１７は、音声出力制御部１６からの台詞又は録音ナレーションの何れかの音声データを増幅してスピーカ１９より出力させるものである。また、上記操作部２２は、電源ボタンやスタートボタン等のスイッチ類を備えたものである。

上記音声処理部２０の備える上記音声認識手段３１は、入力される台詞音声を解析して音声データとするプログラムでありＲＡＭ１５に展開されて実行される。本実施形態では、例えば、アナログ信号の台詞音声をデジタル変換し、フォントコード化した音声データとする。なお、アナログ波形を画像化して解析した音声データとしてもよい。

上記音声処理部２０の備える音声照合手段３２は、音声認識手段３１からの音声データと照合テーブル３３（図２で説明する）の対応する台詞キーワードとを照合し、一致したときに上記台詞キーワードで個々に特定されるＮＲファイル名を出力するプログラムであり、ＲＡＭ１５に展開されて実行される。

ここで、音声データと台詞キーワードとの照合は、例えば、随時入力されて解析された音声データ（フォントコード）を、まず台詞キーワードの最初の一音データ（フォントコード）と照合し、一致したときに順次２番目以降の一音データ（フォントコード）と照合していく処理であり、台詞キーワードの総ての一音データ（フォントコード）とが一致したときに、当該台詞キーワードで個々に特定されるＮＲファイル名を出力する。逆に、一つでも一致しないものがあれば、台詞キーワードの最初の一音データとの照合から繰り返すものである。

記憶装置２１に記憶される照合テーブル３３は、図２で一例を説明するが、所定の台詞キーワードと録音ナレーションデータに関する情報としてのファイル名（ＮＲファイル名）とを関連付けたテーブルである。上記記憶装置２１に記憶されるＮＲ制御手段３４は、音声照合手段３２から照合結果として出力される上記ＮＲファイル名に基づいて、録音ナレーションデータ（ファイル）をＮＲデータＤＢ３５より抽出して音声出力制御部１６に送出するプログラムであり、ＲＡＭ１５に展開されて実行される。上記記憶装置２１に記憶されるＮＲデータＤＢ３５は、所定の台詞キーワードに対応付けられた録音ナレーションデータを記憶するデータベースである。

ここで、図２に、図１の照合テーブルの説明図を示す。図２に示す照合テーブル３３は、例えば語り手の読み上げる台詞に含まれる所定の台詞キーワードとそれぞれのＮＲファイル名とが対応付けられたものである。上記のように、当該ＮＲファイル名に対応した録音ナレーションデータ（ファイル）がＮＲデータＤＢ３５に記憶されている。なお、台詞キーワードのワード数の長さを異ならせることで、重複した台詞キーワードの設定を回避させることができるものである。

そこで、図３に、図１の録音ナレーション音声出力のフローチャートを示す。図３において、まず、物語などの読み手が台詞を、マイク１８を介して読み上げると、当該マイク１８に入力される読み上げられた台詞音声は、音声処理部２０に入力されると共に、音声出力制御部１６に一旦入力される（ステップ（Ｓ）１）。当該音声処理部２０の音声認識手段３１が入力した台詞音声を解析して音声データとし、当該音声データと照合テーブル３３で定められている台詞キーワードとを実時間で順次照合する（Ｓ２）。一致するまで照合が繰り返される（Ｓ３）。

音声照合手段３２による照合の結果（Ｓ３）、一致した場合には、照合テーブル３３の当該一致した台詞キーワードに関連付けられたＮＲファイル名をＮＲ制御手段３４に出力する（Ｓ４）。ＮＲ制御手段３４では、音声照合手段３２より入力したＮＲファイル名に基づいて、録音ナレーションデータをＮＲデータＤＢ３５より抽出して音声出力制御部１６に送出する（Ｓ５）。

そして、音声出力制御部１６は、ミキシングアンプ１７に対してマイク１８からの台詞音声データの出力から、録音ナレーションデータに切り替えて出力することでスピーカ１９より出力させる（Ｓ６）。すなわち、音声出力制御部１６は、マイク１８からの音声データの出力と録音ナレーションデータの出力とを切り替えて出力させることで、台詞と録音ナレーションとが重なって出力されることを回避させている。この処理が録音ナレーションの終了まで出力されるものである（Ｓ７）。そして、録音ナレーションが終了すると（Ｓ７）、音声出力制御部１６が録音ナレーションデータの出力区間以外のときとして、ミキシングアンプ１７に対して録音ナレーションデータの出力から、マイク１８からの台詞音声データに切り替えて出力させることでスピーカ１９より出力させるものである（Ｓ８）。

このように、特別の操作を要せずに録音ナレーションを適時に出力可能とすると共に、台詞音声と録音ナレーション音声との重合出力を回避してナレーションによるエンターテイメント性の向上を図ることができるものである。

次に、図４に、本発明に係る録音ナレーション自動出力システムの一適用例の説明図を示す。図４（Ａ）は、図１の録音ナレーション自動出力システム１１の、主要な一部のブロック図であり、デジタル紙芝居やプレゼンテーションなどの静止画像に対応させたものである。すなわち、表示制御部４１及び画像表示部４２が設けられ、また、記憶装置２１にはさらに画像ＤＢ４３、画像制御手段４４及び台詞ＤＢ４５が記憶され、対応の照合テーブル３３Ａが記憶される。

上記表示制御部４１は、画像表示制御手段４４より送られてくる画像をデコードして画像表示部４２に表示させる電子回路及びこれに付随したプログラムを備える。当該画像表示部４２としては例えば、プロジェクタスクリーン、ブラウン管（ＣＲＴ）ディスプレイ、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ（ＰＤＰ）等がある。記憶装置２１に記憶される上記画像ＤＢ４３は、例えば一連で構成される複数の静止画像を一組として所定数記憶させておくデータベースである。

記憶装置２１に記憶される上記画像表示制御手段４４は、画像表示部４２に一連の静止画像を所定の切替信号（例えば、操作部２２の切替ボタン等）により順次切り替え表示させるために、当該画像データを画像ＤＢ４３より抽出して表示制御部４１に送出するプログラムであり、ＲＡＭ１５に展開されて実行される。記憶装置２１に記憶される上記台詞ＤＢ４５は、画像ＤＢ４３に記憶されている一連で構成される静止画像に関連付けられている対応の台詞データ（台詞ファイル名）をそれぞれ記憶しておくデータベースである。

この場合、照合テーブル３３Ａは、図４（Ｂ）に示すように、一連の静止画像を例えば１０シーン（第１０画像）で構成した場合、例えば第１画像の静止画像に、当該第１画像に対応した台詞、すなわち台詞ＤＢ４５に記憶された台詞ファイル名で特定される台詞データのうち、所定数の台詞キーワードとそれぞれのＮＲファイル名とが対応付けられたもので、第１０画像の静止画像まで存在するとして、当該静止画像毎に所定数の台詞キーワードとＮＲファイル名とを関連付けている。

すなわち、当該照合テーブル３３Ａは、静止画像毎に定められた台詞キーワードが対応のＮＲファイル名と関連付けられていることから、当該静止画像間で同じ台詞キーワードが存在しても異なるＮＲファイル名として区別したものである。この場合においても、台詞キーワードのワード数の長さを異ならせることで、重複した台詞キーワードの設定を回避させることができるものである。

そこで、図５に、図４の録音ナレーション音声出力のフローチャートを示す。図５において、まず、画像表示制御手段４４が所定の静止画像データを画像ＤＢ４３より抽出して表示制御部４１に送出することで、当該表示制御部４１が当該画像データをデコードして画像表示部４２に表示する。このときに読み上げ者が当該画像に対応した台詞を、マイク１８を介して読み上げると、読み上げられた台詞音声が随時入力され、当該台詞音声データは音声処理部２０に入力されると共に、音声出力制御部１６に一旦入力される（Ｓ１１）。

音声処理部２０では、音声認識手段３１が画像表示制御手段４４より画像表示部４２で現に表示されている静止画像の情報を取得すると共に、入力した台詞音声を解析して音声データとし、音声照合手段３２が当該音声データと照合テーブル３３Ａの現に表示されている静止画像に対応する台詞キーワードとを実時間で順次照合していく（Ｓ１２）。一致するまで照合が繰り返される（Ｓ１３）。

音声照合手段３２による照合の結果（Ｓ１３）、一致した場合には、照合テーブル３３Ａの当該一致した台詞キーワードに関連付けられたＮＲファイル名をＮＲ制御手段３４に出力する（Ｓ１４）。ＮＲ制御手段３４では、音声照合手段３２より入力したＮＲファイル名に基づいて、録音ナレーションデータをＮＲデータＤＢ３５より抽出して音声出力制御部１６に送出する（Ｓ１５）。

そして、音声出力制御部１６は、ミキシングアンプ１７に対してマイク１８からの台詞音声データの出力から、録音ナレーションデータに切り替えて出力することでスピーカ１９より録音ナレーションが出力される（Ｓ１６）。すなわち、音声出力制御部１６は、マイク１８からの音声データの出力と録音ナレーションデータの出力とを切り替えて出力させることで、台詞と録音ナレーションとが重なって出力されることを回避させている。これらの処理が録音ナレーションの終了まで出力されるものである（Ｓ１７）。

そして、録音ナレーションが終了すると（Ｓ１７）、音声出力制御部１６が録音ナレーションデータの出力区間以外のときとして、ミキシングアンプ１７に対して録音ナレーションデータの出力から、マイク１８からの台詞音声データに切り替えて出力させることでスピーカ１９より出力させるものである（Ｓ１８）

このように、デジタル紙芝居やプレゼンテーションなどの静止画像毎の対応した録音ナレーションの出力に適用することができ、特別の操作を要せずに録音ナレーションを適時に出力可能とすると共に、台詞音声と録音ナレーション音声との重合出力を回避してナレーションによるエンターテイメント性の向上を図ることができるものである。

本発明の録音ナレーション自動出力システムは、語り手の台詞が音声出力され、語られる台詞間に語られるシーンの録音ナレーションを出力するシステムに利用可能である。

本発明に係る静止画像対応録音ナレーション自動出力システムのブロック構成図である。図１の照合テーブルの説明図である。図１の録音ナレーション音声出力のフローチャートである。本発明に係る録音ナレーション自動出力システムの一適用例の説明図である。図４の録音ナレーション音声出力のフローチャートである。

符号の説明

１１録音ナレーション自動出力システム
１６音声出力制御部
２０音声処理部
３１音声認識手段
３２音声照合手段
３３照合テーブル
３４ＮＲ制御手段
３５ＮＲデータＤＢ
４２画像表示部
４３画像ＤＢ
４４画像表示制御手段

Claims

所定内容の台詞が音声出力され、台詞の合間でナレーションを出力させる録音ナレーション自動出力システムであって、
録音ナレーション記憶部、照合テーブル、音声入力部、音声処理部、録音ナレーション制御手段及び音声出力制御部を備え、
前記録音ナレーション記憶部は、所定の台詞キーワードに対応付けられた録音ナレーションデータを記憶し、
前記照合テーブルは、所定の台詞キーワードと前記録音ナレーション記憶部に記憶されている録音ナレーションデータに関する情報とが関連付けられ、
前記音声入力部は、台詞音声を入力し、
前記音声処理部は、前記入力した台詞音声を解析して生成した音声データと前記照合テーブルの台詞キーワードとを照合し、一致したときに上記台詞キーワードで個々に特定される前記録音ナレーションデータに関する情報を出力し、
前記録音ナレーション制御手段は、前記音声処理部からの前記録音ナレーションデータに関する情報に応じて、対応の録音ナレーションデータを前記録音ナレーション記憶部より抽出して前記音声出力制御部に出力し、
前記音声出力制御部は、前記台詞又は録音ナレーションの何れか一方の音声データを選択的に音声出力させるものであり、前記録音ナレーション制御部から前記録音ナレーションデータを入力した場合には当該録音ナレーションを音声出力し、当該録音ナレーションの音声出力区間以外のときに台詞を音声出力可能とする、
ことを特徴とする録音ナレーション自動出力システム。