JP2012150363A - メッセージ映像編集プログラムおよびメッセージ映像編集装置 - Google Patents

メッセージ映像編集プログラムおよびメッセージ映像編集装置 Download PDF

Info

Publication number
JP2012150363A
JP2012150363A JP2011010248A JP2011010248A JP2012150363A JP 2012150363 A JP2012150363 A JP 2012150363A JP 2011010248 A JP2011010248 A JP 2011010248A JP 2011010248 A JP2011010248 A JP 2011010248A JP 2012150363 A JP2012150363 A JP 2012150363A
Authority
JP
Japan
Prior art keywords
data
video
message
audio data
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011010248A
Other languages
English (en)
Inventor
Kengo Fujita
顕吾 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2011010248A priority Critical patent/JP2012150363A/ja
Publication of JP2012150363A publication Critical patent/JP2012150363A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

【課題】ユーザが入力するメッセージテキストに合致する音声を再現した任意のメッセージ映像データの作成を容易に実現する。
【解決手段】映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を格納する素材情報データベース17と、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、対応情報に基づいて元映像データベース3から抽出する素材選択部23と、前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する候補提示部25と、を備える。
【選択図】図1

Description

本発明は、映像データを作成する装置に関し、特に、映像データに付随する音声データの音声認識結果を基に、任意の映像データから所望のメッセージを含む映像データを作成するメッセージ映像作成プログラムに関する。
従来から、音声メッセージを作成する装置に関して様々な技術が提案されている。例えば、特許文献1の音声メッセージ出力装置では、携帯電話等の装置において、ユーザが好みの音声によるガイダンスを設定できる。話者別に、音節単位の音声データのテーブルを作成しておき、ユーザにより指定されたガイダンス文に基づき、音声データを連結して、ガイダンス音声を作成する。音節単位の音声データテーブルは、予めメーカ等が用意したものを用いることもできるし、装置で受信したテレビ番組に含まれる音声を音声認識し、得られる結果テキストとそれに対応する音声データ箇所の対応を取ることで、ユーザ自身が作成するものを用いることもできる。
また、音声認識を使った映像の一部を検索する技術についても様々な技術が提案されている。例えば、特許文献2のインデックス作成装置、インデックス作成方法、および、インデックス作成プログラムは、音声や映像といったマルチメディアデータに対して、ユーザが所望のキーワードにマッチする区間を検索して参照することができるよう、マルチメディアデータを音声認識することでインデックスを作成することができる。マルチメディアデータ自体の音声認識結果テキストの構造解析結果と、スライドや台本といった対象マルチメディアデータに関連する資料の構造解析結果を比較し、関連資料をベースとしたインデックス作成を実行する。
特開2008-108076号公報 特開2004-326404号公報
しかしながら、特許文献1に提示された技術では、テレビ番組に含まれる音声データの音声認識結果に基づき、音節単位の音声データテーブルを作成しておき、この音声データテーブルから所望のガイダンス音声を作成できるが、対象とするのは音声データのみであり、映像データと音声データを組み合わせたメッセージ映像を作成することはできない。また、ユーザが指定したガイダンス文を、任意の話者の音声データを連結することにより作成できるが、その対象となるのは単一話者のみであり、複数話者の音声データを含むガイダンス音声を作成することはできない。更に、抑揚別に2種類以上の音声データをもつ音節も存在するものの、基本的には1音節につき1音声データがテーブルに登録されているだけであるため、ある1人の話者について、同一のガイダンス文を指定した場合には全く同じガイダンス音声しか作成することができない。
また、特許文献2に提示された技術では、音声や映像といったマルチメディアデータを対象として音声認識を実行し、その認識結果と時刻情報の組合せをベースとしたインデックス作成が可能であるが、ユーザはこのインデックスを対象としたキーワード検索ができるだけであり、新たなマルチメディアデータを作成することはできない。
本発明は、このような事情に鑑みてなされたものであり、ユーザが入力するメッセージテキストに合致する音声を再現した任意のメッセージ映像データの作成を容易に実現するメッセージ映像編集プログラムおよびメッセージ映像編集装置を提供することを目的とする。
本発明は、従来技術の課題に鑑み、ユーザが所有する各映像データについて、付随する音声データを音声認識し、音節等の小単位で、映像データ内のどの時刻に人間の発声が存在するかをメッセージ映像素材データとして記録しておくことで、ユーザが所望するメッセージテキストに対応した、複数の映像素材データから構成されるメッセージ映像データの作成を可能とするものである。
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のメッセージ映像編集プログラムは、複数の映像データを用いてメッセージ映像を編集するメッセージ映像編集プログラムであって、映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を素材情報データベースに格納する処理と、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、前記対応情報を用いて映像データベースから抽出する処理と、前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する処理と、の一連の処理を、コンピュータに読み込み可能および実行可能にコマンド化したことを特徴としている。
このように、メッセージ映像編集プログラムが、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび音声データに対応付けられた映像データを、対応情報を用いて映像データベースから抽出し、前記抽出した音声データおよび映像データをテキストデータの並び順に連結して音声データが付随した映像データの候補を提示するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。
(2)また、本発明のメッセージ映像編集プログラムにおいて、前記映像データおよび音声データを抽出する際の絞り込み条件を指定する処理を更に含むことを特徴としている。
このように、メッセージ映像編集プログラムが映像データおよび音声データを抽出する際の絞り込み条件を指定する処理を更に含むので、ユーザは、条件として、撮影時期、話者等を指定することができる。
(3)また、本発明のメッセージ映像編集プログラムにおいて、前記指定された条件を満たす音声データからいずれかの音声データを無作為に抽出する処理を更に含むことを特徴としている。
このように、メッセージ映像編集プログラムは、指定された条件を満たす音声データからいずれかの音声データを無作為に抽出する処理を更に含むので、ユーザからの候補条件に該当する素材データから何れを用いるかをランダムに選択することが可能となる。
(4)また、本発明のメッセージ映像編集プログラムにおいて、前記提示された音声データが付随した映像データの候補のいずれか一つを選択する処理と、前記選択された音声データが付随した映像データを出力する処理と、を更に含むことを特徴としている。
このように、メッセージ映像編集プログラムは、提示された音声データが付随した映像データの候補のいずれか一つを選択し、選択された音声データが付随した映像データを出力するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。
(5)また、本発明のメッセージ映像編集プログラムにおいて、映像データに付随する音声データに対して音声認識処理を実行し、時刻毎に分割した音声データの発声内容を取得する処理と、前記取得した時刻毎の音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を、前記素材情報データベースに格納する処理と、を更に含むことを特徴としている。
このように、メッセージ映像編集プログラムは、映像データに付随する音声データに対して音声認識処理を実行するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。
(6)また、本発明のメッセージ映像編集プログラムにおいて、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理と、前記特定された話者を示す話者特定情報を、前記対応情報と共に前記素材情報データベースに格納する処理と、を更に含むことを特徴としている。
このように、メッセージ映像編集プログラムは、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理を更に含むので、特定話者音響モデルを利用することによって、音声認識を行なう際に話者を自動認識することが可能になると共に、音声認識の精度向上を図ることが可能になる。また、特定話者音響モデルを利用することによって、ユーザが映像データに登場する話者を指定することが可能になる。
(7)また、本発明のメッセージ映像編集プログラムにおいて、前記映像データに付随する音声データと、前記取得した時刻毎の音声データとを用いて、音響モデル学習を実行する処理と、を更に含むことを特徴としている。
このように、メッセージ映像編集プログラムは、映像データに付随する音声データと、取得した時刻毎の音声データとを用いて、音響モデル学習を実行するので、新たにユーザが撮影した対象話者専用のモデルを学習する場合に、映像データに含まれる単一または複数の話者を明示的に指定することができる。
(8)また、本発明のメッセージ映像編集装置は、複数の映像データを用いてメッセージ映像を編集するメッセージ映像編集装置であって、映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を格納する素材情報データベースと、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、前記対応情報を用いて映像データベースから抽出する素材選択部と、前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する候補提示部と、を備えることを特徴としている。
このように、メッセージ映像編集装置が、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび音声データに対応付けられた映像データを、対応情報を用いて映像データベースから抽出し、前記抽出した音声データおよび映像データをテキストデータの並び順に連結して音声データが付随した映像データの候補を提示するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。
(9)また、本発明のメッセージ映像編集装置において、前記映像データおよび音声データを抽出する際の絞り込み条件を指定する条件指定部を更に備えることを特徴としている。
このように、メッセージ映像編集装置が、映像データおよび音声データを抽出する際の絞り込み条件を指定するので、ユーザは、条件として、撮影時期、話者等を指定することができる。
(10)また、本発明のメッセージ映像編集装置において、前記素材選択部は、前記指定された条件を満たす音声データからいずれかの音声データを無作為に抽出することを特徴としている。
このように、メッセージ映像編集装置は、指定された条件を満たす音声データからいずれかの音声データを無作為に抽出するので、ユーザからの候補条件に該当する素材データから何れを用いるかをランダムに選択することが可能となる。
(11)また、本発明のメッセージ映像編集装置において、前記候補提示部により提示された音声データが付随した映像データの候補のいずれか一つを選択する候補選択部と、 前記候補選択部により選択された音声データが付随した映像データを出力する映像出力部と、を更に備えることを特徴としている。
このように、メッセージ映像編集装置は、提示された音声データが付随した映像データの候補のいずれか一つを選択し、選択された音声データが付随した映像データを出力するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。
(12)また、本発明のメッセージ映像編集装置において、映像データに付随する音声データに対して音声認識処理を実行し、時刻毎に分割した音声データの発声内容を取得する音声認識部と、前記取得した時刻毎の音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を、前記素材情報データベースに格納する素材情報付加部と、を更に備えることを特徴としている。
このように、メッセージ映像編集装置は、映像データに付随する音声データに対して音声認識処理を実行するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。
(13)また、本発明のメッセージ映像編集装置において、前記音声認識部は、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理を実行し、前記素材情報付加部は、前記特定された話者を示す話者特定情報を、前記対応情報と共に前記素材情報データベースに格納することを特徴としている。
このように、メッセージ映像編集装置は、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理を更に含むので、特定話者音響モデルを利用することによって、音声認識を行なう際に話者を自動認識することが可能になると共に、音声認識の精度向上を図ることが可能になる。また、特定話者音響モデルを利用することによって、ユーザが映像データに登場する話者を指定することが可能になる。
(14)また、本発明のメッセージ映像編集装置において、前記映像データに付随する音声データと、前記取得した時刻毎の音声データとを用いて、音響モデル学習を実行する音響モデル学習部を更に備えることを特徴としている。
このように、メッセージ映像編集装置は、映像データに付随する音声データと、取得した時刻毎の音声データとを用いて、音響モデル学習を実行するので、新たにユーザが撮影した対象話者専用のモデルを学習する場合に、映像データに含まれる単一または複数の話者を明示的に指定することができる。
本発明によれば、ユーザの所有する各映像データについて、付随する音声データを音声認識し、音節等の小単位で、映像データ内のどの時刻にどのような発声が存在するかをメッセージ映像素材データとして記録しておき、ユーザが入力するメッセージテキストに合致する音声を再現するよう、複数の素材データを連結することで、任意のメッセージ映像データの作成が容易に可能となる。
本発明に係るメッセージ映像編集装置のブロック図を示す。 本発明に係る素材情報付加に関するフローチャートである。 本発明に係る映像メッセージデータ出力に関するフローチャートである。
以下、本発明の実施形態について図面を参照して説明する。図1は、本発明に係るメッセージ映像編集装置のブロック図を示す。ただし、本発明は同形態に限定されるものではなく、同様の機能を有するあらゆる形態において実施することが可能である。以下、図1を構成する各部について説明する。
入力設定部1は、ユーザが保有する元映像DB3(映像データベース)の中から、メッセージ映像の素材データとして登録するものの選択を受け付ける。ここで、元映像DB3に登録された映像データを全て自動的に素材データとして登録することもできる。例えば、本発明による装置を実装した携帯端末機器が映像撮影機能を有している場合、ユーザが映像を撮影する度にそのデータを全て素材データとして登録する等である。また、音声認識部5において音声認識処理に用いる音響モデル7について、ユーザが撮影した対象話者専用のものがある場合や、新たにその対象話者専用のモデルを学習する場合に、映像データに含まれる単一または複数の話者を明示的に指定することもできる。更に、誤認識を防止するため、映像データ内で発声されている内容をテキストで指定し、音声認識処理の言語モデル9として用いることもできる。
音声調整部11は、入力設定部1において素材データ登録対象として選択された映像データに付随する音声データを、音声認識部5にて音声認識処理を実行するのに適した形式に変換する。特に、音声認識処理に用いる音響モデル7の学習データとサンプリング周波数やビットレートが異なると正常な認識結果を得ることができないため、音響モデル学習データと同一の形式となるよう変換する。
音声認識部5は、音響モデル7と言語モデル9に従い、音声調整部11にて変換された音声データを用いて音声認識処理を実行する。音響モデル7について、指定が無い場合、または初めて指定された話者に対する場合には、あらゆる話者を対象とした汎用モデルを用いる。一方、話者モデルが存在する話者が指定された場合には、該当する話者モデルに従い、認識処理を実行する。ただし、話者が指定されていない場合でも、汎用モデルと全ての話者モデルを並列で使用し、自動で話者を特定しながら認識処理を実行することも可能である。また、言語モデル9については、音節単位、単語単位の固定的、あるいは確率的な文法を用いることができる。ただし、認識対象データに含まれる発声内容がテキストで明示的に指定されている場合には、その内容のみを認識対象とする言語モデル9を用いる。音声認識結果として得られる対象データ内の時刻毎の発声内容は、音響モデル学習部13および素材情報付加部15にて用いられる。
音響モデル学習部13は、対象データとその音声認識結果として得られた時刻毎の発声内容を用いて、音響モデル学習を実行する。この際、特定話者音響モデルを利用することによって、音声認識を行なう際に話者を自動認識することが可能になると共に、音声認識の精度向上を図ることが可能になる。また、特定話者音響モデルを利用することによって、ユーザが映像データに登場する話者を指定することが可能になる。話者が指定された場合にはその話者モデルを学習することもできるし、全ての対象データを用いて汎用モデルを学習することもできる。また、対象データの音声認識が完了する度に逐次学習を実行しても良いし、一定量の対象データと音声認識結果の組合せが得られたときに学習を実行しても良い。
素材情報付加部15は、音声認識結果として得られた時刻毎の発声内容を、それぞれの発声の話者情報とともに、対象データ毎に素材情報DB(素材情報データベース)17に保存する。つまり、映像データに付随し時刻毎に分割された音声データと映像データとを対応付ける対応情報を素材情報DB17に格納する。ここで、素材情報DB17に保存されるのはこれらの付加的な情報のみであり、実際に映像データと音声データを組み合わせて音節毎に切り出し、それぞれを保存するようなことはしない。これは、データ保存資源の節約にも繋がる。
メッセージ入力部19は、ユーザからの任意の作成したいメッセージをテキスト入力で受け付ける。条件指定部21は、入力されたメッセージに対応する映像データ作成に当たり、素材データのうち候補として提示するものを選択するため、ユーザからの候補条件の指定を受け付ける。条件として、撮影時期、話者等を指定することができる。また、こうして指定された候補条件に該当する素材データ群から、素材選択部23でメッセージ映像データに用いる素材データを自動的に選択するモードも備える。
素材選択部23は、条件指定部21にてユーザから指定された候補条件に該当する素材データだけを、メッセージテキストを構成する小単位毎にユーザに提示し、それぞれ何れの素材データを用いるのかユーザからの選択を受け付ける。ここで、メッセージテキストが「おめでとう」であり、構成最小単位が「音節」または「カナ1文字」であった場合、まず「お」に対する複数の候補素材データに対しユーザから何れを用いるか選択を受け付け、次いで「め」に対する候補素材データから選択を受け付ける。このようにして、全てのテキストメッセージ分の素材データの選択を、順に受け付ける。また、条件指定部21において、素材データの自動選択モードが指定されている場合は、ユーザからの候補条件に該当する素材データから何れを用いるかをランダムに選択する。
候補提示部25は、素材選択部23でユーザにより選択された素材データを実際に連結した場合の映像メッセージをユーザに提示する。ユーザに提示する映像メッセージは単一でも良いし、複数でも良い。即ち、同一または異なるメッセージテキストに対して作成した素材データの連結情報を複数保存しておき、並列にユーザへ提示することもできる。候補選択部27は、候補提示部25にて提示した映像メッセージのうち、実際に映像メッセージデータとして出力、保存するものの選択を、ユーザから受け付ける。映像出力部29は、候補選択部27にてユーザから選択された映像メッセージを、映像メッセージデータとして出力し、規定の場所へ保存する。
図2は、本発明に係る素材情報付加に関するフローチャートである。入力設定部1は、ユーザが保有する元映像DB3の中から、メッセージ映像の素材データとして登録するものの選択を受け付ける(ステップS101)。ここで、入力設定部1は、話者指定があるかどうかを判断する(ステップS102)。話者指定がない場合(ステップS102:No)、入力設定部1は、発声内容指定があるかどうか判断する(ステップS105)。話者指定がある場合(ステップS102:Yes)、入力設定部1は、話者指定を受け付ける(ステップS103)。続いて、入力設定部1は、話者追加指定があるかどうかを判断する(ステップS104)。話者追加指定がある場合(ステップS104:Yes)、入力設定部1は、話者指定を受け付ける(ステップS103)。話者追加指定がない場合(ステップS104:No)、入力設定部1は、発声内容指定があるかどうか判断する(ステップS105)。
発声内容指定がない場合(ステップS105:No)、音声調整部11は、音声認識部5にて音声認識処理を実行するのに適した形式に変換する(ステップS107)。発声内容指定がある場合(ステップS105:Yes)、入力設定部1は、発声内容のテキスト入力を受け付ける(ステップS106)。続いて、音声調整部11は、音声認識部5にて音声認識処理を実行するのに適した形式に変換する(ステップS107)。音声認識部5は、音声調整部11にて変換された音声データを用いて音声認識処理を実行する(ステップS108)。
次に、音響モデル学習部13は、音響モデル学習を行なうかどうかを判断する(ステップS109)。音響モデル学習を行なわない場合(ステップS109:No)、素材情報付加部15は、音声認識結果として得られた時刻毎の発声内容を保存する(ステップS113)。音響モデル学習を行なう場合(ステップS109:Yes)、音響モデル学習部13は、話者指定か話者自動特定であるかどうかを判断する(ステップS110)。話者指定か話者自動特定でない場合(ステップS110:No)、メッセージ映像編集装置は、汎用モデルの更新を行なう(ステップS112)。話者指定か話者自動特定の場合(ステップS110:Yes)、メッセージ映像編集装置は、特定話者モデルの更新を行なう(ステップS111)。更に、汎用モデルの更新を行なう(ステップS112)。
続いて、素材情報付加部15は、音声認識結果として得られた時刻毎の発声内容を保存する(ステップS113)。素材情報付加部15は、未処理の素材データがあるかどうかを判断し(ステップS114)、未処理の素材データがある場合(ステップS114:Yes)、ステップS101に戻って処理を実行する。未処理の素材データがない場合(ステップS114:No)、素材情報付加に関する処理を終了する。
図3は、本発明に係る映像メッセージデータ出力に関するフローチャートである。まず、メッセージ入力部19は、ユーザからの任意の作成したいメッセージをテキスト入力で受け付ける(ステップS201)。続いて、条件指定部21は、撮影時期に指定があるかどうかを判断し(ステップS202)、撮影時期に指定がない場合(ステップS202:No)、条件指定部21は、話者指定があるかどうかの判断を行なう(ステップS204)。撮影時期に指定がある場合(ステップS202:Yes)、条件指定部21は、撮影時期指定を受け付ける(ステップS203)。続いて、条件指定部21は、話者指定があるかどうかの判断を行ない(ステップS204)、話者指定がない場合(ステップS204:No)、条件指定部21は、映像メッセージ候補提示数の指定を受け付ける(ステップS206)。
次に、素材選択部23は、ランダム選択モードを使用するかどうかを判断する(ステップS207)。ランダム選択モードを使用する場合(ステップS207:Yes)、素材選択部23は、メッセージに対する各最小素材データのランダム自動選択を行ない(ステップS208)、映像メッセージ候補提示数に到達したかどうか判断する(ステップS212)。ランダム選択モードを使用しない場合(ステップS207:No)、素材選択部23は、最小単位毎の候補素材データ群を提示する(ステップS209)。続いて、素材選択部23は、ユーザから最小単位毎の素材データ選択を受け付ける(ステップS210)。次に、素材選択部23は、全てのテキストメッセージ分が終了したかどうかを判断し(ステップS211)、終了していない場合(ステップS211:No)、ステップS209に戻り、終了している場合(ステップS211:Yes)、映像メッセージ候補提示数に到達したかどうか判断する(ステップS212)。
映像メッセージ候補提示数に到達した場合(ステップS212:Yes)、候補提示部25は、映像メッセージ候補群を提示する(ステップS213)。候補選択部27は、実際に映像メッセージデータとして出力、保存するものの選択を、ユーザから受け付ける(ステップS214)。映像出力部29は、候補選択部27にてユーザから選択された映像メッセージを、映像メッセージデータとして出力する(ステップS215)。
以上のように、本発明によれば、ユーザの所有する各映像データについて、付随する音声データを音声認識し、音節等の小単位で、映像データ内のどの時刻にどのような発声が存在するかをメッセージ映像素材データとして記録しておき、ユーザが入力するメッセージテキストに合致する音声を再現するよう、複数の素材データを連結することで、任意のメッセージ映像データの作成が容易に可能となる。
1 入力設定部
3 元映像DB
5 音声認識部
7 音響モデル
9 言語モデル
11 音声調整部
13 音響モデル学習部
15 素材情報付加部
17 素材情報DB
19 メッセージ入力部
21 条件指定部
23 素材選択部
25 候補提示部
27 候補選択部
29 映像出力部

Claims (14)

  1. 複数の映像データを用いてメッセージ映像を編集するメッセージ映像編集プログラムであって、
    映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を素材情報データベースに格納する処理と、
    ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、前記対応情報を用いて映像データベースから抽出する処理と、
    前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する処理と、の一連の処理を、コンピュータに読み込み可能および実行可能にコマンド化したことを特徴とするメッセージ映像編集プログラム。
  2. 前記映像データおよび音声データを抽出する際の絞り込み条件を指定する処理を更に含むことを特徴とする請求項1記載のメッセージ映像編集プログラム。
  3. 前記指定された条件を満たす音声データからいずれかの音声データを無作為に抽出する処理を更に含むことを特徴とする請求項2記載のメッセージ映像編集プログラム。
  4. 前記提示された音声データが付随した映像データの候補のいずれか一つを選択する処理と、
    前記選択された音声データが付随した映像データを出力する処理と、を更に含むことを特徴とする請求項1記載のメッセージ映像編集プログラム。
  5. 映像データに付随する音声データに対して音声認識処理を実行し、時刻毎に分割した音声データの発声内容を取得する処理と、
    前記取得した時刻毎の音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を、前記素材情報データベースに格納する処理と、を更に含むことを特徴とする請求項1記載のメッセージ映像編集プログラム。
  6. 不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理と、
    前記特定された話者を示す話者特定情報を、前記対応情報と共に前記素材情報データベースに格納する処理と、を更に含むことを特徴とする請求項5記載のメッセージ映像編集プログラム。
  7. 前記映像データに付随する音声データと、前記取得した時刻毎の音声データとを用いて、音響モデル学習を実行する処理と、を更に含むことを特徴とする請求項5記載のメッセージ映像編集プログラム。
  8. 複数の映像データを用いてメッセージ映像を編集するメッセージ映像編集装置であって、
    映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を格納する素材情報データベースと、
    ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、前記対応情報を用いて映像データベースから抽出する素材選択部と、
    前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する候補提示部と、を備えることを特徴とするメッセージ映像編集装置。
  9. 前記映像データおよび音声データを抽出する際の絞り込み条件を指定する条件指定部を更に備えることを特徴とする請求項8記載のメッセージ映像編集装置。
  10. 前記素材選択部は、前記指定された条件を満たす音声データからいずれかの音声データを無作為に抽出することを特徴とする請求項9記載のメッセージ映像編集装置。
  11. 前記候補提示部により提示された音声データが付随した映像データの候補のいずれか一つを選択する候補選択部と、
    前記候補選択部により選択された音声データが付随した映像データを出力する映像出力部と、を更に備えることを特徴とする請求項8記載のメッセージ映像編集装置。
  12. 映像データに付随する音声データに対して音声認識処理を実行し、時刻毎に分割した音声データの発声内容を取得する音声認識部と、
    前記取得した時刻毎の音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を、前記素材情報データベースに格納する素材情報付加部と、を更に備えることを特徴とする請求項8記載のメッセージ映像編集装置。
  13. 前記音声認識部は、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理を実行し、
    前記素材情報付加部は、前記特定された話者を示す話者特定情報を、前記対応情報と共に前記素材情報データベースに格納することを特徴とする請求項12記載のメッセージ映像編集装置。
  14. 前記映像データに付随する音声データと、前記取得した時刻毎の音声データとを用いて、音響モデル学習を実行する音響モデル学習部を更に備えることを特徴とする請求項12記載のメッセージ映像編集装置。
JP2011010248A 2011-01-20 2011-01-20 メッセージ映像編集プログラムおよびメッセージ映像編集装置 Pending JP2012150363A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011010248A JP2012150363A (ja) 2011-01-20 2011-01-20 メッセージ映像編集プログラムおよびメッセージ映像編集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011010248A JP2012150363A (ja) 2011-01-20 2011-01-20 メッセージ映像編集プログラムおよびメッセージ映像編集装置

Publications (1)

Publication Number Publication Date
JP2012150363A true JP2012150363A (ja) 2012-08-09

Family

ID=46792650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011010248A Pending JP2012150363A (ja) 2011-01-20 2011-01-20 メッセージ映像編集プログラムおよびメッセージ映像編集装置

Country Status (1)

Country Link
JP (1) JP2012150363A (ja)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05313686A (ja) * 1992-04-02 1993-11-26 Sony Corp 表示制御装置
JPH06348811A (ja) * 1993-06-07 1994-12-22 Sharp Corp 動画像表示装置
JPH09130736A (ja) * 1995-11-02 1997-05-16 Sony Corp 撮像装置及び編集装置
JP2001155467A (ja) * 1999-11-29 2001-06-08 Just Syst Corp 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
JP2003259320A (ja) * 2002-03-05 2003-09-12 Matsushita Electric Ind Co Ltd 映像音声合成装置
JP2004361965A (ja) * 1997-05-08 2004-12-24 Korea Electronics Telecommun 多重媒体との連動のためのテキスト/音声変換器及びその入力データ構造化方法
JP2005128177A (ja) * 2003-10-22 2005-05-19 Ace:Kk 発音学習支援方法、学習者端末及び処理プログラム並びに該プログラムを記録した記録媒体
JP2005522074A (ja) * 2002-03-25 2005-07-21 ヒューレット・パッカード・カンパニー 話者識別に基づくビデオのインデックスシステムおよび方法
JP2005202425A (ja) * 2005-02-21 2005-07-28 Daiichikosho Co Ltd 楽曲の伴奏音と歌詞字幕映像を同期出力する装置
JP2006133559A (ja) * 2004-11-08 2006-05-25 Nippon Telegr & Teleph Corp <Ntt> 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体
JP2006235671A (ja) * 2005-02-22 2006-09-07 Norinaga Tsukiji 会話装置及びコンピュータ読み取り可能な記録媒体。
JP2007295218A (ja) * 2006-04-25 2007-11-08 Nippon Hoso Kyokai <Nhk> ノンリニア編集装置およびそのプログラム
JP2008046425A (ja) * 2006-08-17 2008-02-28 National Institute Of Information & Communication Technology 印象表現出力装置及び方法
JP2009103945A (ja) * 2007-10-24 2009-05-14 Nec Electronics Corp 映像コンテンツ処理装置およびプログラム

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05313686A (ja) * 1992-04-02 1993-11-26 Sony Corp 表示制御装置
JPH06348811A (ja) * 1993-06-07 1994-12-22 Sharp Corp 動画像表示装置
JPH09130736A (ja) * 1995-11-02 1997-05-16 Sony Corp 撮像装置及び編集装置
JP2004361965A (ja) * 1997-05-08 2004-12-24 Korea Electronics Telecommun 多重媒体との連動のためのテキスト/音声変換器及びその入力データ構造化方法
JP2001155467A (ja) * 1999-11-29 2001-06-08 Just Syst Corp 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
JP2003259320A (ja) * 2002-03-05 2003-09-12 Matsushita Electric Ind Co Ltd 映像音声合成装置
JP2005522074A (ja) * 2002-03-25 2005-07-21 ヒューレット・パッカード・カンパニー 話者識別に基づくビデオのインデックスシステムおよび方法
JP2005128177A (ja) * 2003-10-22 2005-05-19 Ace:Kk 発音学習支援方法、学習者端末及び処理プログラム並びに該プログラムを記録した記録媒体
JP2006133559A (ja) * 2004-11-08 2006-05-25 Nippon Telegr & Teleph Corp <Ntt> 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体
JP2005202425A (ja) * 2005-02-21 2005-07-28 Daiichikosho Co Ltd 楽曲の伴奏音と歌詞字幕映像を同期出力する装置
JP2006235671A (ja) * 2005-02-22 2006-09-07 Norinaga Tsukiji 会話装置及びコンピュータ読み取り可能な記録媒体。
JP2007295218A (ja) * 2006-04-25 2007-11-08 Nippon Hoso Kyokai <Nhk> ノンリニア編集装置およびそのプログラム
JP2008046425A (ja) * 2006-08-17 2008-02-28 National Institute Of Information & Communication Technology 印象表現出力装置及び方法
JP2009103945A (ja) * 2007-10-24 2009-05-14 Nec Electronics Corp 映像コンテンツ処理装置およびプログラム

Similar Documents

Publication Publication Date Title
CN108305643B (zh) 情感信息的确定方法和装置
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8355919B2 (en) Systems and methods for text normalization for text to speech synthesis
US9154629B2 (en) System and method for generating personalized tag recommendations for tagging audio content
US10510342B2 (en) Voice recognition server and control method thereof
US10224030B1 (en) Dynamic gazetteers for personalized entity recognition
US9489944B2 (en) Information processing device, method and computer program product for processing voice recognition data
JP2009216986A (ja) 音声データ検索システム及び音声データの検索方法
JP5779032B2 (ja) 話者分類装置、話者分類方法および話者分類プログラム
JP2014063088A (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
CN110740275B (zh) 一种非线性编辑系统
JP2012194245A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6305629B2 (ja) 分類装置、方法及びプログラム
JP2016102920A (ja) 文書記録システム及び文書記録プログラム
CN109326284B (zh) 语音搜索的方法、装置和存储介质
US20160005421A1 (en) Language analysis based on word-selection, and language analysis apparatus
US11967248B2 (en) Conversation-based foreign language learning method using reciprocal speech transmission through speech recognition function and TTS function of terminal
CN109376145B (zh) 影视对白数据库的建立方法、建立装置及存储介质
CN110992984B (zh) 音频处理方法及装置、存储介质
JP5997813B2 (ja) 話者分類装置、話者分類方法および話者分類プログラム
JP6322125B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2013061591A (ja) 音声合成装置、音声合成方法およびプログラム
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150331