JP2012150363A

JP2012150363A - メッセージ映像編集プログラムおよびメッセージ映像編集装置

Info

Publication number: JP2012150363A
Application number: JP2011010248A
Authority: JP
Inventors: Kengo Fujita; 顕吾藤田
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2011-01-20
Filing date: 2011-01-20
Publication date: 2012-08-09

Abstract

【課題】ユーザが入力するメッセージテキストに合致する音声を再現した任意のメッセージ映像データの作成を容易に実現する。
【解決手段】映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を格納する素材情報データベース１７と、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、対応情報に基づいて元映像データベース３から抽出する素材選択部２３と、前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する候補提示部２５と、を備える。
【選択図】図１

Description

本発明は、映像データを作成する装置に関し、特に、映像データに付随する音声データの音声認識結果を基に、任意の映像データから所望のメッセージを含む映像データを作成するメッセージ映像作成プログラムに関する。

従来から、音声メッセージを作成する装置に関して様々な技術が提案されている。例えば、特許文献１の音声メッセージ出力装置では、携帯電話等の装置において、ユーザが好みの音声によるガイダンスを設定できる。話者別に、音節単位の音声データのテーブルを作成しておき、ユーザにより指定されたガイダンス文に基づき、音声データを連結して、ガイダンス音声を作成する。音節単位の音声データテーブルは、予めメーカ等が用意したものを用いることもできるし、装置で受信したテレビ番組に含まれる音声を音声認識し、得られる結果テキストとそれに対応する音声データ箇所の対応を取ることで、ユーザ自身が作成するものを用いることもできる。

また、音声認識を使った映像の一部を検索する技術についても様々な技術が提案されている。例えば、特許文献２のインデックス作成装置、インデックス作成方法、および、インデックス作成プログラムは、音声や映像といったマルチメディアデータに対して、ユーザが所望のキーワードにマッチする区間を検索して参照することができるよう、マルチメディアデータを音声認識することでインデックスを作成することができる。マルチメディアデータ自体の音声認識結果テキストの構造解析結果と、スライドや台本といった対象マルチメディアデータに関連する資料の構造解析結果を比較し、関連資料をベースとしたインデックス作成を実行する。

特開２００８-１０８０７６号公報特開２００４-３２６４０４号公報

しかしながら、特許文献１に提示された技術では、テレビ番組に含まれる音声データの音声認識結果に基づき、音節単位の音声データテーブルを作成しておき、この音声データテーブルから所望のガイダンス音声を作成できるが、対象とするのは音声データのみであり、映像データと音声データを組み合わせたメッセージ映像を作成することはできない。また、ユーザが指定したガイダンス文を、任意の話者の音声データを連結することにより作成できるが、その対象となるのは単一話者のみであり、複数話者の音声データを含むガイダンス音声を作成することはできない。更に、抑揚別に２種類以上の音声データをもつ音節も存在するものの、基本的には１音節につき１音声データがテーブルに登録されているだけであるため、ある１人の話者について、同一のガイダンス文を指定した場合には全く同じガイダンス音声しか作成することができない。

また、特許文献２に提示された技術では、音声や映像といったマルチメディアデータを対象として音声認識を実行し、その認識結果と時刻情報の組合せをベースとしたインデックス作成が可能であるが、ユーザはこのインデックスを対象としたキーワード検索ができるだけであり、新たなマルチメディアデータを作成することはできない。

本発明は、このような事情に鑑みてなされたものであり、ユーザが入力するメッセージテキストに合致する音声を再現した任意のメッセージ映像データの作成を容易に実現するメッセージ映像編集プログラムおよびメッセージ映像編集装置を提供することを目的とする。

本発明は、従来技術の課題に鑑み、ユーザが所有する各映像データについて、付随する音声データを音声認識し、音節等の小単位で、映像データ内のどの時刻に人間の発声が存在するかをメッセージ映像素材データとして記録しておくことで、ユーザが所望するメッセージテキストに対応した、複数の映像素材データから構成されるメッセージ映像データの作成を可能とするものである。

（１）上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のメッセージ映像編集プログラムは、複数の映像データを用いてメッセージ映像を編集するメッセージ映像編集プログラムであって、映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を素材情報データベースに格納する処理と、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、前記対応情報を用いて映像データベースから抽出する処理と、前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する処理と、の一連の処理を、コンピュータに読み込み可能および実行可能にコマンド化したことを特徴としている。

このように、メッセージ映像編集プログラムが、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび音声データに対応付けられた映像データを、対応情報を用いて映像データベースから抽出し、前記抽出した音声データおよび映像データをテキストデータの並び順に連結して音声データが付随した映像データの候補を提示するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。

（２）また、本発明のメッセージ映像編集プログラムにおいて、前記映像データおよび音声データを抽出する際の絞り込み条件を指定する処理を更に含むことを特徴としている。

このように、メッセージ映像編集プログラムが映像データおよび音声データを抽出する際の絞り込み条件を指定する処理を更に含むので、ユーザは、条件として、撮影時期、話者等を指定することができる。

（３）また、本発明のメッセージ映像編集プログラムにおいて、前記指定された条件を満たす音声データからいずれかの音声データを無作為に抽出する処理を更に含むことを特徴としている。

このように、メッセージ映像編集プログラムは、指定された条件を満たす音声データからいずれかの音声データを無作為に抽出する処理を更に含むので、ユーザからの候補条件に該当する素材データから何れを用いるかをランダムに選択することが可能となる。

（４）また、本発明のメッセージ映像編集プログラムにおいて、前記提示された音声データが付随した映像データの候補のいずれか一つを選択する処理と、前記選択された音声データが付随した映像データを出力する処理と、を更に含むことを特徴としている。

このように、メッセージ映像編集プログラムは、提示された音声データが付随した映像データの候補のいずれか一つを選択し、選択された音声データが付随した映像データを出力するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。

（５）また、本発明のメッセージ映像編集プログラムにおいて、映像データに付随する音声データに対して音声認識処理を実行し、時刻毎に分割した音声データの発声内容を取得する処理と、前記取得した時刻毎の音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を、前記素材情報データベースに格納する処理と、を更に含むことを特徴としている。

このように、メッセージ映像編集プログラムは、映像データに付随する音声データに対して音声認識処理を実行するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。

（６）また、本発明のメッセージ映像編集プログラムにおいて、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理と、前記特定された話者を示す話者特定情報を、前記対応情報と共に前記素材情報データベースに格納する処理と、を更に含むことを特徴としている。

このように、メッセージ映像編集プログラムは、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理を更に含むので、特定話者音響モデルを利用することによって、音声認識を行なう際に話者を自動認識することが可能になると共に、音声認識の精度向上を図ることが可能になる。また、特定話者音響モデルを利用することによって、ユーザが映像データに登場する話者を指定することが可能になる。

（７）また、本発明のメッセージ映像編集プログラムにおいて、前記映像データに付随する音声データと、前記取得した時刻毎の音声データとを用いて、音響モデル学習を実行する処理と、を更に含むことを特徴としている。

このように、メッセージ映像編集プログラムは、映像データに付随する音声データと、取得した時刻毎の音声データとを用いて、音響モデル学習を実行するので、新たにユーザが撮影した対象話者専用のモデルを学習する場合に、映像データに含まれる単一または複数の話者を明示的に指定することができる。

（８）また、本発明のメッセージ映像編集装置は、複数の映像データを用いてメッセージ映像を編集するメッセージ映像編集装置であって、映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を格納する素材情報データベースと、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、前記対応情報を用いて映像データベースから抽出する素材選択部と、前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する候補提示部と、を備えることを特徴としている。

このように、メッセージ映像編集装置が、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび音声データに対応付けられた映像データを、対応情報を用いて映像データベースから抽出し、前記抽出した音声データおよび映像データをテキストデータの並び順に連結して音声データが付随した映像データの候補を提示するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。

（９）また、本発明のメッセージ映像編集装置において、前記映像データおよび音声データを抽出する際の絞り込み条件を指定する条件指定部を更に備えることを特徴としている。

このように、メッセージ映像編集装置が、映像データおよび音声データを抽出する際の絞り込み条件を指定するので、ユーザは、条件として、撮影時期、話者等を指定することができる。

（１０）また、本発明のメッセージ映像編集装置において、前記素材選択部は、前記指定された条件を満たす音声データからいずれかの音声データを無作為に抽出することを特徴としている。

このように、メッセージ映像編集装置は、指定された条件を満たす音声データからいずれかの音声データを無作為に抽出するので、ユーザからの候補条件に該当する素材データから何れを用いるかをランダムに選択することが可能となる。

（１１）また、本発明のメッセージ映像編集装置において、前記候補提示部により提示された音声データが付随した映像データの候補のいずれか一つを選択する候補選択部と、前記候補選択部により選択された音声データが付随した映像データを出力する映像出力部と、を更に備えることを特徴としている。

このように、メッセージ映像編集装置は、提示された音声データが付随した映像データの候補のいずれか一つを選択し、選択された音声データが付随した映像データを出力するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。

（１２）また、本発明のメッセージ映像編集装置において、映像データに付随する音声データに対して音声認識処理を実行し、時刻毎に分割した音声データの発声内容を取得する音声認識部と、前記取得した時刻毎の音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を、前記素材情報データベースに格納する素材情報付加部と、を更に備えることを特徴としている。

このように、メッセージ映像編集装置は、映像データに付随する音声データに対して音声認識処理を実行するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。

（１３）また、本発明のメッセージ映像編集装置において、前記音声認識部は、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理を実行し、前記素材情報付加部は、前記特定された話者を示す話者特定情報を、前記対応情報と共に前記素材情報データベースに格納することを特徴としている。

このように、メッセージ映像編集装置は、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理を更に含むので、特定話者音響モデルを利用することによって、音声認識を行なう際に話者を自動認識することが可能になると共に、音声認識の精度向上を図ることが可能になる。また、特定話者音響モデルを利用することによって、ユーザが映像データに登場する話者を指定することが可能になる。

（１４）また、本発明のメッセージ映像編集装置において、前記映像データに付随する音声データと、前記取得した時刻毎の音声データとを用いて、音響モデル学習を実行する音響モデル学習部を更に備えることを特徴としている。

このように、メッセージ映像編集装置は、映像データに付随する音声データと、取得した時刻毎の音声データとを用いて、音響モデル学習を実行するので、新たにユーザが撮影した対象話者専用のモデルを学習する場合に、映像データに含まれる単一または複数の話者を明示的に指定することができる。

本発明によれば、ユーザの所有する各映像データについて、付随する音声データを音声認識し、音節等の小単位で、映像データ内のどの時刻にどのような発声が存在するかをメッセージ映像素材データとして記録しておき、ユーザが入力するメッセージテキストに合致する音声を再現するよう、複数の素材データを連結することで、任意のメッセージ映像データの作成が容易に可能となる。

本発明に係るメッセージ映像編集装置のブロック図を示す。本発明に係る素材情報付加に関するフローチャートである。本発明に係る映像メッセージデータ出力に関するフローチャートである。

以下、本発明の実施形態について図面を参照して説明する。図１は、本発明に係るメッセージ映像編集装置のブロック図を示す。ただし、本発明は同形態に限定されるものではなく、同様の機能を有するあらゆる形態において実施することが可能である。以下、図１を構成する各部について説明する。

入力設定部１は、ユーザが保有する元映像ＤＢ３（映像データベース）の中から、メッセージ映像の素材データとして登録するものの選択を受け付ける。ここで、元映像ＤＢ３に登録された映像データを全て自動的に素材データとして登録することもできる。例えば、本発明による装置を実装した携帯端末機器が映像撮影機能を有している場合、ユーザが映像を撮影する度にそのデータを全て素材データとして登録する等である。また、音声認識部５において音声認識処理に用いる音響モデル７について、ユーザが撮影した対象話者専用のものがある場合や、新たにその対象話者専用のモデルを学習する場合に、映像データに含まれる単一または複数の話者を明示的に指定することもできる。更に、誤認識を防止するため、映像データ内で発声されている内容をテキストで指定し、音声認識処理の言語モデル９として用いることもできる。

音声調整部１１は、入力設定部１において素材データ登録対象として選択された映像データに付随する音声データを、音声認識部５にて音声認識処理を実行するのに適した形式に変換する。特に、音声認識処理に用いる音響モデル７の学習データとサンプリング周波数やビットレートが異なると正常な認識結果を得ることができないため、音響モデル学習データと同一の形式となるよう変換する。

音声認識部５は、音響モデル７と言語モデル９に従い、音声調整部１１にて変換された音声データを用いて音声認識処理を実行する。音響モデル７について、指定が無い場合、または初めて指定された話者に対する場合には、あらゆる話者を対象とした汎用モデルを用いる。一方、話者モデルが存在する話者が指定された場合には、該当する話者モデルに従い、認識処理を実行する。ただし、話者が指定されていない場合でも、汎用モデルと全ての話者モデルを並列で使用し、自動で話者を特定しながら認識処理を実行することも可能である。また、言語モデル９については、音節単位、単語単位の固定的、あるいは確率的な文法を用いることができる。ただし、認識対象データに含まれる発声内容がテキストで明示的に指定されている場合には、その内容のみを認識対象とする言語モデル９を用いる。音声認識結果として得られる対象データ内の時刻毎の発声内容は、音響モデル学習部１３および素材情報付加部１５にて用いられる。

音響モデル学習部１３は、対象データとその音声認識結果として得られた時刻毎の発声内容を用いて、音響モデル学習を実行する。この際、特定話者音響モデルを利用することによって、音声認識を行なう際に話者を自動認識することが可能になると共に、音声認識の精度向上を図ることが可能になる。また、特定話者音響モデルを利用することによって、ユーザが映像データに登場する話者を指定することが可能になる。話者が指定された場合にはその話者モデルを学習することもできるし、全ての対象データを用いて汎用モデルを学習することもできる。また、対象データの音声認識が完了する度に逐次学習を実行しても良いし、一定量の対象データと音声認識結果の組合せが得られたときに学習を実行しても良い。

素材情報付加部１５は、音声認識結果として得られた時刻毎の発声内容を、それぞれの発声の話者情報とともに、対象データ毎に素材情報ＤＢ（素材情報データベース）１７に保存する。つまり、映像データに付随し時刻毎に分割された音声データと映像データとを対応付ける対応情報を素材情報ＤＢ１７に格納する。ここで、素材情報ＤＢ１７に保存されるのはこれらの付加的な情報のみであり、実際に映像データと音声データを組み合わせて音節毎に切り出し、それぞれを保存するようなことはしない。これは、データ保存資源の節約にも繋がる。

メッセージ入力部１９は、ユーザからの任意の作成したいメッセージをテキスト入力で受け付ける。条件指定部２１は、入力されたメッセージに対応する映像データ作成に当たり、素材データのうち候補として提示するものを選択するため、ユーザからの候補条件の指定を受け付ける。条件として、撮影時期、話者等を指定することができる。また、こうして指定された候補条件に該当する素材データ群から、素材選択部２３でメッセージ映像データに用いる素材データを自動的に選択するモードも備える。

素材選択部２３は、条件指定部２１にてユーザから指定された候補条件に該当する素材データだけを、メッセージテキストを構成する小単位毎にユーザに提示し、それぞれ何れの素材データを用いるのかユーザからの選択を受け付ける。ここで、メッセージテキストが「おめでとう」であり、構成最小単位が「音節」または「カナ１文字」であった場合、まず「お」に対する複数の候補素材データに対しユーザから何れを用いるか選択を受け付け、次いで「め」に対する候補素材データから選択を受け付ける。このようにして、全てのテキストメッセージ分の素材データの選択を、順に受け付ける。また、条件指定部２１において、素材データの自動選択モードが指定されている場合は、ユーザからの候補条件に該当する素材データから何れを用いるかをランダムに選択する。

候補提示部２５は、素材選択部２３でユーザにより選択された素材データを実際に連結した場合の映像メッセージをユーザに提示する。ユーザに提示する映像メッセージは単一でも良いし、複数でも良い。即ち、同一または異なるメッセージテキストに対して作成した素材データの連結情報を複数保存しておき、並列にユーザへ提示することもできる。候補選択部２７は、候補提示部２５にて提示した映像メッセージのうち、実際に映像メッセージデータとして出力、保存するものの選択を、ユーザから受け付ける。映像出力部２９は、候補選択部２７にてユーザから選択された映像メッセージを、映像メッセージデータとして出力し、規定の場所へ保存する。

図２は、本発明に係る素材情報付加に関するフローチャートである。入力設定部１は、ユーザが保有する元映像ＤＢ３の中から、メッセージ映像の素材データとして登録するものの選択を受け付ける（ステップＳ１０１）。ここで、入力設定部１は、話者指定があるかどうかを判断する（ステップＳ１０２）。話者指定がない場合（ステップＳ１０２：No）、入力設定部１は、発声内容指定があるかどうか判断する（ステップＳ１０５）。話者指定がある場合（ステップＳ１０２：Yes）、入力設定部１は、話者指定を受け付ける（ステップＳ１０３）。続いて、入力設定部１は、話者追加指定があるかどうかを判断する（ステップＳ１０４）。話者追加指定がある場合（ステップＳ１０４：Yes）、入力設定部１は、話者指定を受け付ける（ステップＳ１０３）。話者追加指定がない場合（ステップＳ１０４：No）、入力設定部１は、発声内容指定があるかどうか判断する（ステップＳ１０５）。

発声内容指定がない場合（ステップＳ１０５：No）、音声調整部１１は、音声認識部５にて音声認識処理を実行するのに適した形式に変換する（ステップＳ１０７）。発声内容指定がある場合（ステップＳ１０５：Yes）、入力設定部１は、発声内容のテキスト入力を受け付ける（ステップＳ１０６）。続いて、音声調整部１１は、音声認識部５にて音声認識処理を実行するのに適した形式に変換する（ステップＳ１０７）。音声認識部５は、音声調整部１１にて変換された音声データを用いて音声認識処理を実行する（ステップＳ１０８）。

次に、音響モデル学習部１３は、音響モデル学習を行なうかどうかを判断する（ステップＳ１０９）。音響モデル学習を行なわない場合（ステップＳ１０９：No）、素材情報付加部１５は、音声認識結果として得られた時刻毎の発声内容を保存する（ステップＳ１１３）。音響モデル学習を行なう場合（ステップＳ１０９：Yes）、音響モデル学習部１３は、話者指定か話者自動特定であるかどうかを判断する（ステップＳ１１０）。話者指定か話者自動特定でない場合（ステップＳ１１０：No）、メッセージ映像編集装置は、汎用モデルの更新を行なう（ステップＳ１１２）。話者指定か話者自動特定の場合（ステップＳ１１０：Yes）、メッセージ映像編集装置は、特定話者モデルの更新を行なう（ステップＳ１１１）。更に、汎用モデルの更新を行なう（ステップＳ１１２）。

続いて、素材情報付加部１５は、音声認識結果として得られた時刻毎の発声内容を保存する（ステップＳ１１３）。素材情報付加部１５は、未処理の素材データがあるかどうかを判断し（ステップＳ１１４）、未処理の素材データがある場合（ステップＳ１１４：Yes）、ステップＳ１０１に戻って処理を実行する。未処理の素材データがない場合（ステップＳ１１４：No）、素材情報付加に関する処理を終了する。

図３は、本発明に係る映像メッセージデータ出力に関するフローチャートである。まず、メッセージ入力部１９は、ユーザからの任意の作成したいメッセージをテキスト入力で受け付ける（ステップＳ２０１）。続いて、条件指定部２１は、撮影時期に指定があるかどうかを判断し（ステップＳ２０２）、撮影時期に指定がない場合（ステップＳ２０２：No）、条件指定部２１は、話者指定があるかどうかの判断を行なう（ステップＳ２０４）。撮影時期に指定がある場合（ステップＳ２０２：Yes）、条件指定部２１は、撮影時期指定を受け付ける（ステップＳ２０３）。続いて、条件指定部２１は、話者指定があるかどうかの判断を行ない（ステップＳ２０４）、話者指定がない場合（ステップＳ２０４：No）、条件指定部２１は、映像メッセージ候補提示数の指定を受け付ける（ステップＳ２０６）。

次に、素材選択部２３は、ランダム選択モードを使用するかどうかを判断する（ステップＳ２０７）。ランダム選択モードを使用する場合（ステップＳ２０７：Yes）、素材選択部２３は、メッセージに対する各最小素材データのランダム自動選択を行ない（ステップＳ２０８）、映像メッセージ候補提示数に到達したかどうか判断する（ステップＳ２１２）。ランダム選択モードを使用しない場合（ステップＳ２０７：No）、素材選択部２３は、最小単位毎の候補素材データ群を提示する（ステップＳ２０９）。続いて、素材選択部２３は、ユーザから最小単位毎の素材データ選択を受け付ける（ステップＳ２１０）。次に、素材選択部２３は、全てのテキストメッセージ分が終了したかどうかを判断し（ステップＳ２１１）、終了していない場合（ステップＳ２１１：No）、ステップＳ２０９に戻り、終了している場合（ステップＳ２１１：Yes）、映像メッセージ候補提示数に到達したかどうか判断する（ステップＳ２１２）。

映像メッセージ候補提示数に到達した場合（ステップＳ２１２：Yes）、候補提示部２５は、映像メッセージ候補群を提示する（ステップＳ２１３）。候補選択部２７は、実際に映像メッセージデータとして出力、保存するものの選択を、ユーザから受け付ける（ステップＳ２１４）。映像出力部２９は、候補選択部２７にてユーザから選択された映像メッセージを、映像メッセージデータとして出力する（ステップＳ２１５）。

以上のように、本発明によれば、ユーザの所有する各映像データについて、付随する音声データを音声認識し、音節等の小単位で、映像データ内のどの時刻にどのような発声が存在するかをメッセージ映像素材データとして記録しておき、ユーザが入力するメッセージテキストに合致する音声を再現するよう、複数の素材データを連結することで、任意のメッセージ映像データの作成が容易に可能となる。

１入力設定部
３元映像ＤＢ
５音声認識部
７音響モデル
９言語モデル
１１音声調整部
１３音響モデル学習部
１５素材情報付加部
１７素材情報ＤＢ
１９メッセージ入力部
２１条件指定部
２３素材選択部
２５候補提示部
２７候補選択部
２９映像出力部

Claims

複数の映像データを用いてメッセージ映像を編集するメッセージ映像編集プログラムであって、
映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を素材情報データベースに格納する処理と、
ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、前記対応情報を用いて映像データベースから抽出する処理と、
前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する処理と、の一連の処理を、コンピュータに読み込み可能および実行可能にコマンド化したことを特徴とするメッセージ映像編集プログラム。
前記映像データおよび音声データを抽出する際の絞り込み条件を指定する処理を更に含むことを特徴とする請求項１記載のメッセージ映像編集プログラム。
前記指定された条件を満たす音声データからいずれかの音声データを無作為に抽出する処理を更に含むことを特徴とする請求項２記載のメッセージ映像編集プログラム。
前記提示された音声データが付随した映像データの候補のいずれか一つを選択する処理と、
前記選択された音声データが付随した映像データを出力する処理と、を更に含むことを特徴とする請求項１記載のメッセージ映像編集プログラム。
映像データに付随する音声データに対して音声認識処理を実行し、時刻毎に分割した音声データの発声内容を取得する処理と、
前記取得した時刻毎の音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を、前記素材情報データベースに格納する処理と、を更に含むことを特徴とする請求項１記載のメッセージ映像編集プログラム。
不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理と、
前記特定された話者を示す話者特定情報を、前記対応情報と共に前記素材情報データベースに格納する処理と、を更に含むことを特徴とする請求項５記載のメッセージ映像編集プログラム。
前記映像データに付随する音声データと、前記取得した時刻毎の音声データとを用いて、音響モデル学習を実行する処理と、を更に含むことを特徴とする請求項５記載のメッセージ映像編集プログラム。
複数の映像データを用いてメッセージ映像を編集するメッセージ映像編集装置であって、
映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を格納する素材情報データベースと、
ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、前記対応情報を用いて映像データベースから抽出する素材選択部と、
前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する候補提示部と、を備えることを特徴とするメッセージ映像編集装置。
前記映像データおよび音声データを抽出する際の絞り込み条件を指定する条件指定部を更に備えることを特徴とする請求項８記載のメッセージ映像編集装置。
前記素材選択部は、前記指定された条件を満たす音声データからいずれかの音声データを無作為に抽出することを特徴とする請求項９記載のメッセージ映像編集装置。
前記候補提示部により提示された音声データが付随した映像データの候補のいずれか一つを選択する候補選択部と、
前記候補選択部により選択された音声データが付随した映像データを出力する映像出力部と、を更に備えることを特徴とする請求項８記載のメッセージ映像編集装置。
映像データに付随する音声データに対して音声認識処理を実行し、時刻毎に分割した音声データの発声内容を取得する音声認識部と、
前記取得した時刻毎の音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を、前記素材情報データベースに格納する素材情報付加部と、を更に備えることを特徴とする請求項８記載のメッセージ映像編集装置。
前記音声認識部は、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理を実行し、
前記素材情報付加部は、前記特定された話者を示す話者特定情報を、前記対応情報と共に前記素材情報データベースに格納することを特徴とする請求項１２記載のメッセージ映像編集装置。
前記映像データに付随する音声データと、前記取得した時刻毎の音声データとを用いて、音響モデル学習を実行する音響モデル学習部を更に備えることを特徴とする請求項１２記載のメッセージ映像編集装置。