JP3634687B2 - Information communication system - Google Patents
Information communication system Download PDFInfo
- Publication number
- JP3634687B2 JP3634687B2 JP25764799A JP25764799A JP3634687B2 JP 3634687 B2 JP3634687 B2 JP 3634687B2 JP 25764799 A JP25764799 A JP 25764799A JP 25764799 A JP25764799 A JP 25764799A JP 3634687 B2 JP3634687 B2 JP 3634687B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- unit
- transmission data
- data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
この発明は、情報通信システムに関する。
【0002】
【従来の技術】
近年の通信技術の発展に伴って、通信による様々な情報の提供サービスが試みられている。例えば一般公衆電話回線等を利用したインターネットを通じたディジタルコンテンツの提供もそのひとつである。
【0003】
このようなディジタルコンテンツには、文字情報の他、音声情報や静止画及び動画を含む画像情報があり、例えば動画像である画像情報に合わせて音声情報が変化するような様々な組み合わせにより多様な情報提供を行うことが可能となっている。
【0004】
【発明が解決しようとする課題】
ところで、インターネット等の一般公衆電話回線等のネットワークを通じて上記の多様な情報を提供する場合、ネットワークのデータ伝送速度の制限により、送受信される画像情報の画質及び音声情報の音質の向上は制約を受けてしまう。
【0005】
通信によりリアルタイムで動画像を送受信する技術例としては、例えばISO/IECJTC1/SC29/WG11によって国際標準化が進められている超低ビットレートに適したMPEG−4と呼ばれるディジタル動画像符号化方式が提案されている。このMPEG−4は、64kbps以下の低ビットレートの動画像圧縮に適しており、ファイルサイズを抑え、オンラインでのストリーム再生や動画ファイルの転送を容易にできるものである。したがって、ISDN程度の回線速度があれば、これを受信した側でコマ落ちの少ない動画像として再生することが可能である。
【0006】
しかしながら、このMPEG−4は、非可逆の圧縮方式であり、その圧縮率を極めて高くすることによって低ビットレート向きのデータに圧縮しているため、これを復号化して再生したときには相当な画質の劣化が生じる。具体的には、動画像の再生画質は、MPEG−1及びMPEG−2に比べると大幅に劣化してしまう。また、音声情報の音質劣化についても、これを非可逆の圧縮方式で送受信する限り、同様の問題が発生する。例えば、ディジタルコンテンツにおいて人間が聴いて十分に高音質と感じる音声は、サンプリング周波数が44.1kHzまたは音声の再生周波数帯域の上限が20kHz前後で約6万5千階調(16ビット)以上であると言われている。しかしながら、現行の非可逆の圧縮方式でリアルタイムに音声情報を送信する技術では、このような高音質のリアルタイム再生を行うことはできない。
【0007】
あるいは、これらの情報を、CD−ROMやICカード等の所定の記録メディア(記録媒体)を通じて送信することも考えられるが、この場合であっても、その記録メディアのデータ容量には限界があり、かかるデータ容量の制限内でしか情報を送信することができないという問題がある。
【0008】
そこで、この発明の課題は、動画像情報や音声情報を含むディジタルコンテンツを送受信する場合に、受信先での再生時に画質及び音質を高い水準に保持できる情報通信システムを提供することにある。
【0009】
【課題を解決するための手段】
上記課題を解決すべく、請求項1に記載の発明は、送信装置により所望のコンテンツを所定のネットワークを通じて受信再生装置に送信しまたは所定の記録媒体を介して運搬する情報通信システムであって、前記送信装置は、前記コンテンツに関する元音声情報、または、前記コンテンツに関する元動画像情報及び元音声情報の双方を個別の要素に分解する手段であって、元音声情報については音源ごとに個別の要素に分解する分解手段と、前記分解手段で分解された個別の要素の種別を認識する認識手段と、前記認識手段での認識結果としての要素の種別を記号化して送信データを生成する送信データ生成部と、前記送信データ生成部で生成された前記送信データを所定のネットワークを通じて前記受信再生装置へ送信する送信側データ通信部、及び/または前記送信データ生成部で生成された前記送信データを所定の記録媒体に記録するデータ記録手段とを備え、前記受信再生装置は、前記送信データを前記ネットワークを通じて受信しまたは前記送信装置から運搬された前記記録媒体から読み出し、当該送信データに基づいて、所定のデータベース内に予め格納された代替素材を読み出し、これらの代替素材を合成して音声、または、動画像及び音声の双方を再生するようにされたものである。
【0010】
請求項2に記載の発明は、送信装置により所望のコンテンツを所定のネットワークを通じて受信再生装置に送信しまたは所定の記録媒体を介して運搬する情報通信システムであって、前記送信装置は、前記コンテンツに関する元動画像情報を単数または複数の背景画像及び単数または複数のオブジェクトに画像分解する画像分解部と、前記画像分解部で画像分解された前記背景画像及び前記オブジェクトのそれぞれについて画像認識を行う画像認識部と、前記コンテンツに関する元音声情報のなかから少なくとも主要な音声を抽出分解する音声分解部と、前記音声分解部で音声分解された個々の音声データについて音声認識する音声認識部と、前記画像認識部での認識結果及び前記音声認識部での音声認識結果に基づいて前記各背景画像、前記各オブジェクト及び前記各音声データを個別に記号化して送信データを生成する送信データ生成部と、前記送信データ生成部で生成された前記送信データを所定のネットワークを通じて前記受信再生装置へ送信する送信側データ通信部、及び/または前記送信データ生成部で生成された前記送信データを所定の記録媒体に記録するデータ記録手段とを備え、前記受信再生装置は、前記送信データを前記ネットワークを通じて受信しまたは前記送信装置から運搬された前記記録媒体から読み出し、当該送信データに基づいて、所定の画像音声素材データベース内に予め格納された代替素材を読み出し、これらの代替素材を合成して動画像及び音声を再生するようにされたものである。
【0011】
請求項3に記載の発明は、前記送信装置は、前記送信データ生成部で生成された送信データを編集する編集部をさらに備えるものである。
【0012】
請求項4に記載の発明は、前記受信再生装置の前記画像音声素材データベースは、前記送信データ中の前記背景画像、前記オブジェクト及び前記音声データの少なくとも一部について同一の前記送信データの情報に対応してそれぞれ複数種類の前記代替素材が用意され、前記受信再生装置は、当該受信再生装置で動画像及び音声を再生する際に、複数種類の前記代替素材の中から選択して前記背景画像、前記オブジェクト及び前記音声データの前記少なくとも一部については、前記画像認識部での認識結果あるいは前記音声認識部での音声認識結果と意味内容は同じでありながら、前記元画像情報あるいは前記元音声情報とは表現態様の異なる前記代替素材を用いることが可能とされたものである。
【0013】
請求項5に記載の発明は、前記情報通信システムは、前記送信装置により所望のコンテンツを前記所定のネットワークを通じて前記受信再生装置に送信するシステムであり、前記受信再生装置は、当該受信再生装置で動画像及び音声を再生する際に、前記背景画像及び前記オブジェクトの少なくとも一部を変更または削除するための要求を所定の入力装置を通じて入力することが可能とされ、前記送信装置の前記編集部は、前記受信再生装置の前記入力装置で入力された要求を前記所定のネットワークを通じて受信し、当該要求を反映して前記送信データ生成部で前記送信データを生成するようにしたものである。
【0014】
請求項6に記載の発明は、前記音声データの少なくとも一部は、前記背景画像または前記オブジェクトに対応付けられたリンク音声として認識されて、前記送信データ生成部で記号化される際にその対応付けについてのデータが含められて前記送信データが生成され、前記受信再生装置は、前記リンク音声の再生時に、前記背景画像または前記オブジェクトの再生に対応づけられるようにされたものである。
【0015】
尚、この明細書において、「コンテンツ」とは、画像及び/または音声等の種々の情報が制作者の意図をもって所定のレイアウトまたは所定のタイミングで編集された編集物をいい、また、「モチーフ」とは、各画像の形状、模様及び色彩や音声の音色、音程、和音、音声出現タイミング及びリズム等の種々の形態をいうものとする。
【0016】
【発明の実施の形態】
<原理>
ディジタル情報の提供サービスのなかには、送信元に保有している動画像情報及び音声情報の元情報と意味内容が同等のものであれば、受信先で再生を行った際にその動画像及び音声のモチーフが異なっていても差し支えない場合がある。むしろ、受信先のユーザの好みにより、元情報の動画像の画風等と異なる画風等に変更したいという場合さえある。このような場合は、元情報(動画像情報及び音声情報)のモチーフの完全同一性は重視されずにこの同一性の擬制が許容される一方、画質及び音質は高水準にしたいという要望がある。
【0017】
例えば、図1のように、海を題材とするイメージ映像を送受信したい場合に、仮に元情報としての動画像(以下「元動画像」と称す)が実写映像であり、この元動画像内に含まれる空、海及び浜辺の風景を第一背景画像1とし、海の水平線の上部に位置する夕日を第二背景画像2とし、浜辺を左から右に向かって走る男性を第一オブジェクト3とし、空を右から左に向かって飛ぶカモメを第二オブジェクト4とした場合、これらの背景画像1,2及びオブジェクト3,4の位置関係及びその動きが受信側で高画質に再生されるならば、これらのモチーフが図2のように変更されても差し支えない場合がある。
【0018】
また、音声情報についても同様である。例えば、図1に示した動画像情報の第一背景画像1(空、海及び浜辺の風景)に対応して波の音(第一背景音声)と風の音(第二背景音声)が聞こえ、また第一オブジェクト3(走る男性)の動きに沿って(リンクして)口笛(第一リンク音声)の音が左から右に移動し、さらに第二オブジェクト4(飛ぶカモメ)の動きに沿って(リンクして)カモメの鳴き声(第二リンク音声)の音が右から左に移動するような場合、これらの音声のそれぞれのモチーフの完全同一性は重視されずその擬制が許容される一方、音質については高音質の再生を行いたい場合がある。
【0019】
このような場合において、この実施の形態の情報通信システムでは、動画像情報及び音声情報を含む元情報の各背景画像1,2中の移動物としての各オブジェクト3,4及びこれに付随する各リンク音声を所定の動き検出等の画像分解技術及び音声分解技術で抽出し、ここで抽出された各オブジェクト3,4及びリンク音声と、残りの各背景画像1,2及び各背景音声とをそれぞれ画像認識及び音声認識して記号化した後、この記号化された記号データのみをネットワークを通じて送受信するようにし、受信側では、受信した記号データに基づいて、情報格納装置内に予め用意しておいたモチーフの画像情報及び音声情報を呼び出し、これらを合成して再生(図2の例を参照)するようにしている。
【0020】
以下、この情報通信システムを詳述する。
【0021】
<構成>
この情報通信システムは、図3の如く、ディジタルコンテンツを所定のネットワーク10から受信して動画像情報13及び音声14として再生する受信再生装置11と、ディジタルコンテンツとしての元動画像情報15及び元音声情報16を準備し且つネットワーク10を通じて受信再生装置11へ送信する送信装置12とを備える。
【0022】
送信装置12は、図4の如く、元動画像情報15を背景画像及びオブジェクトに画像分解する画像分解部21と、画像分解部21で画像分解された背景画像及びオブジェクトのそれぞれについて画像認識を行う画像認識部22と、元音声情報16のなかから主要な音声を抽出して分解する音声分解部23と、この音声分解部23で音声分解された個々の音声データについて音声認識する音声認識部24と、画像認識部22での認識結果及び音声認識部24での音声認識結果に基づいて送信データを生成する送信データ生成部25と、送信データ生成部25で生成された送信データを編集する編集部26と、送信データ生成部25で生成され編集部26で編集された送信データを含む種々の情報についてネットワーク10を通じて通信を行うデータ通信部27と、このデータ通信部27及びネットワーク10を通じて受信再生装置11から所望の要求があった際にその要求を認識する要求認識部28とを備える。
【0023】
画像分解部21は、画像の周波数空間における高域フィルタを用いて画像中の各部分のエッジを抽出して領域抽出を行う領域抽出機能と、動画像中の各部分が時系列的に移動した際にMPEG等で使用される動き補償の方法を使用して画像中の各部分の動きを抽出する動き抽出(モーションディテクト)機能とを有し、動画像中で動いているオブジェクトを抽出するとともに、抽出されたオブジェクトを除いた部分を背景として、その背景をさらにいくつかの背景画像に分解するようになっている。尚、複数の合成された複合画像から個別のオブジェクト及び背景画像を抽出することが困難な場合もあり得るため、その場合には、元動画像情報15として複数のオブジェクト及び背景画像をいくつかのチャンネルに分けて用意しておき、これらの各チャンネルのオブジェクト及び背景画像を画像分解部21において要素認識するようにしてもよい。
【0024】
画像認識部22は、図5の如く、画像分解部21で分解された各部分(背景画像及びオブジェクト)毎に、その特徴抽出31を行って所定の標準パターンに対してパターンマッチング32をし、その結果を送信データ生成部25に出力するようになっている。ここで、パターンマッチング32を行う場合は、音声認識部24で認識された音声の種類との間で関連づけを行うことが望ましいため、この関連づけ作業を状況参照33のブロックにて実行するようになっている。
【0025】
音声分解部23は、図6の如く、元音声情報16のエンベロープを検出するエンベロープフォロワ41と、エンベロープフォロワ41からの出力信号を帯域毎に分割してそれぞれのピークを検出するピーク検出部42と、ピーク検出部42でのピーク検出結果からピッチ抽出を行うピッチ抽出ブロック43と、このピッチ抽出ブロック43で抽出された通過帯域を有するディジタルフィルタ44とを備え、特に、ピーク検出部42においてピーク検出される帯域として抽出したい音声の帯域(例えば人間の肉声等)を設定しておけば、波音、風の音、カモメの鳴き声及び口笛等の所望の音声を個別に抽出することが可能となる。尚、複数の合成された複合音声から個別の音声を抽出することが困難な場合もあり得るため、その場合には、元音声情報16として複数の音声データをいくつかのチャンネルに分けて用意しておき、これらの各チャンネルの音声を音声分解部23においてそれぞれ異なる音声として分解認識するようにしてもよい。
【0026】
音声認識部24は、図7の如く、音声認識のための前処理を行うデータ前処理ブロック51と、この前処理されたデータに基づいて音声認識を行う認識部52とを備える。
【0027】
データ前処理ブロック51は、音声分解部23で分解抽出された各音声データのエンベロープを検出するエンベロープフォロワ55と、エンベロープフォロワ55からの出力信号のピッチを平坦化して音量レベルを調整するレベル調整部56とを備え、認識部52での音声認識精度を向上するように前調整する。
【0028】
認識部52は、ケプストラム変換や隠れマルコフ変換等の所定の変換処理を行う変換部57と、変換部57で変換されたデータについて音声の種類(波音や風の音等)を特定するとともに当該音声が人間の話す言語である場合に文字列に変換する音素片抽出部58とを備え、特に音素片抽出部58には音素片データベース(DB)59が接続され、この音素片DB59に基づいて音声の種類の特定または文字列の生成を行うようになっている。また、この認識部52は、認識した音声の時系列的な移動を認識する機能を有しており、この移動情報に基づいて、画像認識部22でパターンマッチング32を行った各背景画像またはオブジェクトとの間で関連づけを行い、これをリンク音声として認識するようになっている。例えば、認識部52で移動している音声があったときに、その移動している旨を画像認識部22の状況参照33のブロックに送信することで、動画像情報中のオブジェクトとの関連付けを行うことが可能であり、また音声が静止状態にある場合は、動画像情報中の背景画像との関連づけを行うことが可能となる。
【0029】
尚、この認識部52は、データ前処理ブロック51から与えられた音声データがバックグラウンドミュージック(BGM)等の音楽である場合には、そのメロディ、ハーモニー及びリズムを検出し、その検出結果に基づいて当該音楽をディジタルデータとしてのMIDIデータに変換する機能をも有しており、これにより、記号化されたデータの他、MIDIデータをも併せて送信するようになっている。尚、音楽のなかからメロディ、ハーモニー及びリズムを検出することが困難な場合もあり得るため、その場合には、元音声情報16として各音色のMIDIデータをいくつかのチャンネルに分けて用意しておき、これらをそのまま用いるようにしてもよい。
【0030】
送信データ生成部25は、画像認識部22での認識結果及び音声認識部24での音声認識結果に基づいて送信データを生成するものであり、所定のデータベース61内のデータを参照しながら各背景画像、各オブジェクト、各リンク音声及び各背景音声の記号化を行う。特に、動画像情報中の各オブジェクトまたは背景画像と音声情報中の個々の音声データとが関連づけられている場合に、これらをひとつの状況データとしてまとめて認識するようになっている。ここで、生成されたデータの例を次の表1に示す。
【0031】
【表1】
【0032】
ここで、表1中の時刻欄は各背景画像またはオブジェクトが元動画像情報において出現または新たな動作を開始した時刻を示している。また、表1中の画像欄は背景画像またはオブジェクトの種類を示す種類コードを示しており、例えば「SUN000」は夕日を、「BOY008」は走る少年を、「BRD425」は飛ぶカモメをそれぞれ意味する。さらに、表1中の左側のアクション欄は当該背景画像またはオブジェクトの動作を示す動作コードであり、「ACT000」は「SUN000(夕日)」が画面の中央部付近で赤みを帯びながら下降していく旨を、「MOV104」は「BOY008(走る少年)」が画面下部分で左から右に向けて移動する旨を、「MOV203」は「BRD425(飛ぶカモメ)」が画面上部を右から左に向けて移動する旨をそれぞれ示している。さらにまた、表1中の音声欄は音声の種類を示しており、「BGM010」はバックグラウンドミュージック(BGM)としての爽やかな音楽を、「SNG408」は口笛を、「BRD443」はカモメの鳴き声をそれぞれ意味している。そして、右側のアクション欄は、音声欄に記述された種類の音声の動きを示しており、「0」は静止状態を、「LINK−C3」は表1中の最上行から3行目の「BOY008(走る少年)」の動きにリンクするリンク音声である旨を、「LINK−C4」は最上行から4行目の「BRD425(飛ぶカモメ)」の動きにリンクするリンク音声である旨をそれぞれ意味している。
【0033】
尚、この表1では、例えば「SUN000」などの種類コードを中心に画像や音声を表現しているが、実際に関連づけや受信再生装置11(後述参照)での代替画像の採択の際により詳細な情報が必要になる場合もある。このような場合には、種類コードに付随して、その種類コードで特定された要素の状態情報(例えば、「形状」、「形容」、「状況」等)を種類コードのサブセット(階層情報)として用意するなどしておけば、受信再生装置11での再生時に、より目的に合致した形で再生処理を行うことが可能となる。例えば、種類コードとして「SUN000」の太陽を特定した場合に、「形状」として「丸い」旨、「形容」として「赤い」旨、「状況」として「低い位置」にある旨をそれぞれコード指定した情報を生成する場合に、例えば、「SUN000」の情報を太陽から月に変更し、「形容」を「赤い」から「黄色い」に変更するなど、細やかな変更処理が容易になる。尚、これらのコードの内容は、原則として受信再生装置11内に保存されているものと同様のものが使用される。ただし、受信再生装置11内に存在しない新しい情報を送信する必要が生じた場合には、その情報をコードと共に送信することも可能である。この場合、かかる新たな情報とコードとを、送信データの内部にまたは送信データの外部に関連づけて送信すればよい。
【0034】
また、この送信データ生成部25は、音声認識部24からMIDIデータが与えられた場合には、このMIDIデータを上記の記号化されたデータに加えて送信データに含める機能を有している。
【0035】
尚、この送信データ生成部25は、後述する編集部26での編集結果により、記号化して生成した送信データを変更する機能と、要求認識部28からの信号に基づいて記号化して生成した送信データを変更する機能とをも有している。これにより、編集部26での編集結果や要求認識部28からの信号に基づいて、例えば上記の「BGM010」で表されるバックグラウンドミュージック(BGM)を省略するなどの個別の調整を行うことが可能となる。
【0036】
編集部26は、送信データ生成部25で記号化されて生成された送信データに基づいて、所定のモニタ62に実際に動画像及び音声を再現し、これを見ながらキーボード及びマウス等の所定の入力部63を用いて送信データの変更及び削除等を行うようになっている。
【0037】
データ通信部27は、送信データ生成部25で生成され編集部26で編集された送信データを含む種々の情報についてネットワーク10を通じて受信再生装置11へ送信する機能と、ネットワーク10を通じて受信再生装置11から与えられた要求信号を受信する機能とを有している。
【0038】
要求認識部28は、データ通信部27及びネットワーク10を通じて受信再生装置11から要求信号が与えられたときにその要求を認識するもので、例えばバックグラウンドミュージック(BGM)を省略するなどの要求を送信データ生成部25に伝達するようになっている。
【0039】
受信再生装置11は、上記の表1に示したように記号化された送信データを受信し、これに基づいて、コンテンツデータベース(DB)71、アクションルールデータベース(DB)72及び画像音声素材データベース(DB)73内に予め格納された代替素材を読み出し、これらの代替素材を合成して動画像13及び音声14として再生するようになっている。
【0040】
具体的に、この受信再生装置11は、ネットワーク10を通じて送信装置12との間の通信を行うデータ通信部75と、ネットワーク10及びデータ通信部75を通じて送信装置12から与えられた送信データ(表1参照)に基づいてコンテンツデータベース71内に格納されたコンテンツの種類(画像であるか、音声であるか、文字であるか、あるいは音楽(MIDIデータ)であるか等)を特定するとともに、アクションルールデータベース72に格納された情報を参照して各オブジェクト等の動き(例えば左から右に移動している等)を置き換える置換処理部76と、置換処理部76で置き換えられた結果に基づいてデータ伸長すべきデータがあればデータ伸長を行うデータ伸長部77と、置換処理部76からの信号に基づいて各オブジェクト等の動きを算出するアクション算出部78と、アクション算出部78からの信号を画像音声素材データベース73内の代替素材に照合して各画像及び音声の素材を決定してレイヤーとして合成するデータ合成部79と、計時手段としての制御タイマー80と、制御タイマー80での計時に基づいてデータ合成部79からの出力画像及び出力音声の同期をとるためのシーケンサ81と、シーケンサ81からの出力に基づいて動画像を再生する映像再生制御装置82と、映像再生制御装置82から出力された映像を最終的に合成する映像合成機83と、シーケンサ81からの出力に基づいて音声波形の合成を行うシンセサイザ84と、シンセサイザ84からの出力に基づいて音声合成を行う音声ミキサ85と、この受信再生装置11全体の制御を司る中央制御部87と、中央制御部87からの信号に基づいて送信装置12に対する要求を発行する要求部88とを備える。尚、シンセサイザ84は主としてMIDIデータの再生等を行うものであるが、例えば、音声情報としてWaveデータやMP3データ等を使用する場合は、これらのデータをシンセサイザ84を回避してシーケンサ81から音声ミキサ85へ直接送信するようになっている。
【0041】
ここで、中央制御部87は、所定の入力装置89での入力に基づいて、受信再生装置11を使用するユーザーの希望事項を認識し、データ合成部79での画風(例えば実写風であるか、漫画風であるか、あるいは、クラシック風であるか、現代ポップ風であるか等)、あるいは、バックグラウンドミュージック(BGM)が必要でない等の各種の設定を変更する機能を有しており、これらの情報は、要求部88を通じて送信装置12へ送信するようになっている。また、中央制御部87は、ディジタルコンテンツを受信再生する用途(例えば、業務用であるか、私用であるか等)についての情報や、使用している環境(例えば、使用しているモデムやISDN等の通信速度)についての情報等の種々の情報を要求部88を通じて送信装置12送信する機能を有している。
【0042】
ここで、素材データベース73内の画像素材としては、静止画であってもよいが、各オブジェクトの表現で動きのあるものを表示したい場合を考慮して、複数の静止画を順次表示して動きある動画像を表示するアニメーション画像であってもよい。この場合、JPEGやアニメーションGIFのような圧縮された画像素材を使用しても差し支えない。また、音声素材としても、MIDIデータ、Waveデータ及びMP3データのように、どのようなデータ形式のものを採用しても差し支えない。尚、例えばMP3データを使用する場合は、これらの圧縮されたデータを伸長するための伸長回路(図示せず)を素材データベース73の内外に設置しておくことが望ましい。
【0043】
また、素材データベース73内の代替素材(画像素材及び音声素材)としては、それぞれ記号化された内容に対して1種類だけでなく、例えば、実写風、漫画風、クラシック風及び現代ポップ風のように、様々なユーザの好みの多様化を考慮して、それぞれの記号化された内容に対して多数のモチーフを用意しておく。
【0044】
尚、上記した各構成要素は、例えば、専用の回路構成にてハードウェアとして構成されてもよく、あるいは、CPUを使用して所定のソフトウェアプログラムにしたがって動作する機能要素として実現しても良い。
【0045】
<動作>
上記構成の情報通信システムの動作を説明する。
【0046】
まず、送信装置12側では、図4の如く、画像分解部21において、元動画像情報15を背景画像及びオブジェクトに画像分解する。この際、画像分解部21は、画像の周波数空間における高域フィルタを用いて画像中の各部分のエッジを抽出して領域抽出を行いつつ、動き抽出(モーションディテクト)機能により動画像中の各部分の動きを抽出してオブジェクトを抽出するとともに、抽出されたオブジェクトを除いた部分を背景として、その背景をエッジ検出によりさらにいくつかの背景画像に分解する。尚、各オブジェクト及び背景画像が予め別々のチャンネルに分けて容易されている場合は、画像分解部21でそれぞれの要素認識を行うようにすればよい。
【0047】
例えば、図1のように、海に沈みゆく夕日を題材とするイメージ映像であって、浜辺を左端から右に向かって少年が口笛を吹きながら走っており、空をカモメが右端から左に向かって飛んでいる元動画像情報15がある場合、画像分解部21は、この元動画像内に含まれる空、海及び浜辺の風景を第一背景画像1とし、海の水平線の上部に位置する夕日を第二背景画像2とし、浜辺を左から右に向かって走る男性を第一オブジェクト3とし、空を右から左に向かって飛ぶカモメを第二オブジェクト4とする。
【0048】
次に、画像分解部21で画像分解された背景画像1,2及びオブジェクト3,4のそれぞれについて画像認識部22により画像認識を行う。この際、図5の如く、画像認識部22は、画像分解部21で分解された各部分(背景画像1,2及びオブジェクト3,4)毎に、その特徴抽出31を行って所定の標準パターンに対してパターンマッチング32をし、その結果を送信データ生成部25に出力するようになっている。
【0049】
これにより、例えば図1の元動画像情報15については、第一背景画像1が空、海及び浜辺の風景であり、第二背景画像2が海の水平線の上部に位置する夕日であり、第一オブジェクト3が浜辺を左から右に向かって走る少年であり、第二オブジェクト4が空を右から左に向かって飛ぶカモメである旨が認識される。
【0050】
尚、この画像認識の際、後述の音声認識部24で認識された音声の種類との間で関連づけを状況参照33のブロックにて行うようにする。
【0051】
これらの画像分解及び画像認識と併行して、音声分解部23により元音声情報16のなかから主要な音声を抽出して分解する。この際、音声分解部23は、図6の如く、エンベロープフォロワ41により元音声情報16のエンベロープを検出し、エンベロープフォロワ41からの出力信号をピーク検出部42で帯域毎に分割してそれぞれのピークを検出する。そして、ピーク検出部42でのピーク検出結果からピッチ抽出ブロック43がピッチ抽出を行い、ディジタルフィルタ44を通過させる。この際、ピーク検出部42においてピーク検出される帯域として抽出したい音声の帯域(例えば人間の肉声等)を設定しておき、波音、風の音、カモメの鳴き声及び口笛等の所望の音声を個別に抽出する。尚、各音声要素が予め別々のチャンネルに分けて容易されている場合は、音声分解部23でそれぞれの要素認識を行ってこれらを分解すればよい。
【0052】
この音声分解部23で音声分解された個々の音声データは、音声認識部24で音声認識される。
【0053】
この際、音声認識部24のデータ前処理ブロック51では、図7の如く、音声分解部23で分解抽出された各音声データのエンベロープをエンベロープフォロワ55で検出し、エンベロープフォロワ55からの出力信号のピッチをレベル調整部56で平坦化して音量レベルを調整する。その後、認識部52の変換部57においてケプストラム変換や隠れマルコフ変換等の所定の変換処理を行い、次に音素片抽出部58が、音素片DB59に基づいて、変換部57で変換されたデータについて音声の種類(波音や風の音等)を特定するとともに当該音声が人間の話す言語である場合にその言語の文字列の生成を行う。
【0054】
また、この認識部52では、例えば口笛の音声が左から右に向かって移動するような場合に、この認識した音声の時系列的な移動を認識しておき、この移動情報に基づいて、画像認識部22でパターンマッチング32を行った各背景画像またはオブジェクトとの間で関連づけを行い、これをリンク音声として認識する。
【0055】
尚、この認識部52は、データ前処理ブロック51から与えられた音声データがバックグラウンドミュージック(BGM)等の音楽である場合には、そのメロディ、ハーモニー及びリズムを検出し、その検出結果に基づいて当該音楽をディジタルデータとしてのMIDIデータに変換しておく。これにより、記号化されたデータの他、MIDIデータをも併せて送信することが可能となる。
【0056】
そして、画像認識部22での認識結果及び音声認識部24での音声認識結果は、送信データ生成部25に送信され、これらに基づいて送信データが生成される。即ち、送信データ生成部25では、所定のデータベース61内のデータを参照しながら各背景画像、各オブジェクト、各リンク音声及び各背景音声の記号化を行い、上記した表1のようなデータ列としての送信データを生成する。特に、動画像情報中の各オブジェクトまたは背景画像と音声情報中の個々の音声データとが関連づけられている場合に、これらをひとつの状況データとしてまとめて認識するようにする。尚、表1中の各データの意味は上述したとおりである。
【0057】
また、この送信データ生成部25は、音声認識部24からMIDIデータが与えられた場合には、このMIDIデータを上記の記号化されたデータに加えて送信データに含めるようにする。
【0058】
ここで、作業者が編集部26で送信データの変更及び削除等を行った場合は、これに従って送信データが変更される。また、データ通信部27及びネットワーク10を通じて受信再生装置11から要求信号が与えられたときには、要求認識部28によりその要求を認識し、その要求を反映した送信データが生成される。これにより、例えばバックグラウンドミュージック(BGM)を省略するなどの要求に応じて、表1中の「BGM010」で表されるバックグラウンドミュージック(BGM)を省略するなどの個別の調整を行う。
【0059】
このように生成された送信データは、データ通信部27からネットワーク10を通じて受信再生装置11へ送信される。
【0060】
受信再生装置11では、上記の表1に示したように記号化された送信データをデータ通信部75で受信する。そして、置換処理部76は、データ通信部75で受信された送信データを読み取り、コンテンツデータベース71内に格納されたコンテンツの種類(画像であるか、音声であるか、文字であるか、あるいは音楽(MIDIデータ)であるか等)を特定するとともに、アクションルールデータベース72に格納された情報を参照して各オブジェクト等の動き(例えば左から右に移動している等)を置き換える。
【0061】
この置換処理部76で置き換えられた結果に基づいて、データ伸長部77は、データ伸長すべきデータがあればデータ伸長を行う。そして、アクション算出部78は、置換処理部76からの信号に基づいて各オブジェクト等の動きを算出する。データ合成部79は、アクション算出部78からの信号を画像音声素材データベース73内の代替素材に照合して各画像及び音声の素材を決定してレイヤーとして合成する。
【0062】
そして、シーケンサ81により、制御タイマー80での計時に基づいてデータ合成部79からの出力画像及び出力音声の同期をとりながら、映像再生制御装置82で動画像を再生し、映像合成機83で最終的な画像のレイヤー合成を行ってこれを所定のモニタ装置(図示しない)に出力するとともに、MIDIデータの場合はシンセサイザ84で音声波形の合成を行って、音声ミキサ85で音声合成を行いこれを出力する。尚、音声情報としてWaveデータやMP3データ等を使用する場合は、これらのデータをシンセサイザ84を回避してシーケンサ81から音声ミキサ85へ直接送信して再生を行う。
【0063】
ここで、受信再生装置11側のユーザが、その要望を所定の入力装置89で入力した場合、中央制御部87はそのユーザーの要望を認識し、動画像13及び音声14の合成に反映させる。
【0064】
例えば、元動画像情報15と同一のモチーフの画像素材が画像音声素材データベース(DB)73内に予め格納されている場合であって、ユーザがそのままのモチーフを維持するように指定した場合は、図3中の符号18の如く、送信装置12で用意した元動画像情報15と殆ど同一の動画像13を受信再生装置11で再生することができる。このことは、音声14についても同様であり、ユーザが音声についてそのままのモチーフを維持するように指定した場合は、送信装置12で用意した元音声情報16と殆ど同一の音声14を受信再生装置11で再生することができる。
【0065】
また、図1のように、元動画像情報15が実写風である場合に、ユーザが受信再生装置11において漫画風の再生を希望する場合は、このユーザが入力装置89を通じてその旨を中央制御部87に伝達する。この場合、データ合成部79は、中央制御部87からの指令に従って、画像音声素材データベース73内から読み出す各画像素材として、実写風のものを選択せずに漫画風のものを選択して読み出すようにする。これらの画像素材をデータ合成部79で合成した結果は図3中の符号19及び図2のようになる。この場合、図2の如く、空、海及び浜辺の風景である第一背景画像1、海の水平線の上部に位置する夕日である第二背景画像2、浜辺を左から右に向かって走る少年である第一オブジェクト3、空を右から左に向かって飛ぶカモメである第二オブジェクト4の全てにおいて、意味内容は同一であってもモチーフが元動画像情報15とは全く異なっており、これにより、ユーザの希望の画風に容易に変更することが可能となる。さらに、例えばユーザ自身の実写画像を画像音声素材データベース73内に用意しておけば、受信再生装置11での動画像13の再生時に、自分自身をモチーフにした動画像13を楽しむことができる。
【0066】
ここで、表1の例などのように、一部のデータを他のデータにリンクさせる場合(例えば、音声データとしてのリンク音声をオブジェクトに対応させる場合)は、動画像と音声とが同期して動くなど、極めて自然な状態の対応づけが行われて再生されるため、高水準なディジタルコンテンツ提供サービスを行うことができる。
【0067】
また音声14についても同様に、様々なモチーフを変更して楽しむことが可能である。例えば、送信装置12から与えられてきたMIDIデータをバックグラウンドミュージックとすることに代えて、画像音声素材データベース73内に予め格納されていた全く異なる音楽をバックグラウンドミュージックとしてもよい。これらは、ユーザが入力装置89に入力するだけで容易に変更できる。したがって、ユーザの好みに応じたディジタルコンテンツを容易に提供することが可能となる。
【0068】
以上の動作において、ネットワーク10を通じて送信装置12から受信再生装置11に与えられるデータは、表1に示したような記号化された送信データが中心となっており、MPEG等の動画像そのものや、WAVEデータまたはMP3等の音声データそのものの通信を行う必要がないため、例えば、モデムを使用した一般公衆電話回線やISDN等を使用してインターネット上で通信を行うような場合でも、回線容量の限界により送信装置12から送信した情報の受信再生装置11側でのレスポンスの悪化を大幅に低減でき、極めて良好な通信レスポンスのディジタルコンテンツ提供サービスを実施することが可能となる。具体的には、元動画像情報15及び元音声情報16の情報量が数メガバイトであるような場合に、これをそのままネットワーク10を通じて送信すると通信時間が極めて長くなってしまい、リアルタイムの通信を行うことが不可能であるのに対し、この実施の形態では、この数メガバイトの情報量を数10バイトまで縮小して置き換えることができ、情報量が数10万分の1以上の圧縮効果を得ることができ、ネットワーク10に負荷をかけずに通信することが可能となる。
【0069】
しかも、受信再生装置11の画像音声素材データベース73内の代替素材として高解像度の画像素材と高音質の音声素材を用意しておけば、上述のようにレスポンスの悪化を招かずに、極めて良好な画質で優れた音質のディジタルコンテンツを再生することが可能となる。
【0070】
尚、ディジタルコンテンツの編集は、図4のように送信装置12内の編集部26でも可能であるため、いわゆる常連のユーザが常に背景画像やバックグラウンドミュージックを省略するよう要求している場合などでは、予めそのユーザに対して背景画像やバックグラウンドミュージックを省略するよう編集部26で編集することも可能である。
【0071】
また、背景画像やバックグラウンドミュージックがコンテンツにとって必須でない場合もあるため、各ユーザが低速のモデムを使用していることが要求認識部28で認識できた場合には、これに基づいて編集部26が自動的に背景画像やバックグラウンドミュージックを省略するように送信データ生成部25に指令するようにしてもよい。
【0072】
さらに、送信装置12内の編集部26や受信再生装置11内での中央制御部87により、例えばクラシック調の画風を表現する際には、全体的に茶色っぽい深みのある色彩に統一するなどの色彩調整を行うようにしても良い。
【0073】
尚、上記実施の形態では、受信再生装置11の画像音声素材データベース73において、全ての背景画像、全てのオブジェクト及び全ての音声データについて、異なるモチーフを予め用意し、これらの全てをユーザの希望に応じて変更できるようにしていたが、背景画像、オブジェクト及び音声データの一部についてのみユーザの希望に応じて変更できるようにしても差し支えない。この場合、背景画像、オブジェクト及び音声データの3つのカテゴリーのうちのいずれかひとつまたはふたつのカテゴリーのみを変更できるようにしてもよいし、あるいは、それぞれのカテゴリーについて一部の情報(背景画像、オブジェクト及び音声データ)のみを変更できるようにしてもよい。
【0074】
また、上記実施の形態では、一般公衆電話回線等のネットワーク10を通じて送信データを送信装置12から受信再生装置11に与えていたが、CD−ROMやICカード等の記録メディア(記録媒体)を通じて送信データを受信再生装置11に与えるようにしても良い。この場合、送信装置12には、これらの記録媒体に送信データを記録するための記録装置(記録手段)を設置する必要があり、また受信再生装置11側においても、これらの記録媒体から送信データを読み込むドライブ装置が必要となることは言うまでもない。このように、記録媒体を使用する場合であっても、元動画像情報15や元音声情報16等をそのままの状態で送信する場合に比べて、送信データその記録媒体のデータ容量の制限を受けずに済むという利点がある。尚、このように所定の記録メディアを使用する場合は、受信再生装置11側からユーザの要望を送信装置12に送信することが困難であるため、ネットワーク10を通じて通信と併用するすることが望ましい。
【0075】
【発明の効果】
請求項1及び請求項2に記載の発明によれば、送信装置の画像分解部で元動画像情報を各背景画像及び各オブジェクト毎に分解するとともに、元音声情報の少なくとも主要な音声を音声分解部で抽出分解するなど、所定の分解手段によりコンテンツの要素分解を行い、それぞれ画像認識及び音声認識を行った後、その内容に応じて記号化して送信データを生成して受信再生装置に送信するようにし、受信再生装置側では、送信されてきた送信データに基づいて例えば所定の画像音声素材データベース内に予め格納された代替素材を読み出し、これらの代替素材を合成して動画像及び音声を再生するようにしているので、ネットワークまたは記録媒体を通じて送信装置から受信再生装置に与えられる記号化された送信データは、MPEG等の動画像そのものや、WAVEデータまたはMP3等の音声データそのものに比べて遙かに少量のデータになり、例えば、モデムを使用した一般公衆電話回線やISDN等を使用してインターネット上で通信を行うような場合でも、回線容量の限界により送信装置から送信した情報の受信再生装置側でのレスポンスの悪化を大幅に低減でき、極めて良好な通信レスポンスのコンテンツ提供サービスを実施することが可能となる。あるいは、記録媒体を通じて送信データを送信する場合であっても、その記録媒体のデータ容量の制限を受けずにすむという利点がある。
【0076】
請求項3に記載の発明によれば、送信装置の編集部において、受信再生装置へ送信すべき送信データを編集することが可能となっているため、例えば受信再生装置側のユーザの希望に応じて、またはネットワークの通信速度等の様々な環境等に応じて、送信装置側でコンテンツの内容を変更することが可能となる。
【0077】
請求項4に記載の発明によれば、ユーザの希望により、意味内容は同じでありながら元動画像情報及び元音声情報とは表現態様の異なる動画像及び音声を再生したり、一部の背景画像、オブジェクト及び音声を省略することが容易に可能となり、ユーザの希望に応じたコンテンツの提供を通信の負荷が増大することなく容易に実行することが可能となる。
【0078】
請求項5に記載の発明によれば、ユーザの希望をネットワーク経由で受信して送信装置から送信される送信データに反映させることができるので、ネットワークに流れる送信データにユーザが希望しない無駄なデータが含まれるのを防止でき、効率のよい通信を実行することが可能となる。
【0079】
請求項6に記載の発明によれば、音声データの少なくとも一部が、背景画像またはオブジェクトに対応付けられたリンク音声として認識されて、送信データ生成部で記号化される際にその対応付けについてのデータが含められて送信データが生成され、受信再生装置は、リンク音声の再生時に、背景画像またはオブジェクトの再生に対応づけられるようにしているので、例えば、動画像中のオブジェクトとリンク音声とが同期して動くなど、極めて自然な状態の対応づけが行われて再生されるため、高水準なコンテンツ提供サービスを行うことができる。
【図面の簡単な説明】
【図1】送信装置内に用意された元動画像情報の一例を示す図である。
【図2】受信再生装置で再生する動画像の一例を示す図である。
【図3】この発明の一の実施の形態に係る情報通信システムの全体構成を示すブロック図である。
【図4】この発明の一の実施の形態に係る情報通信システムの送信装置を示すブロック図である。
【図5】画像認識部を示すブロック図である。
【図6】音声分解部を示すブロック図である。
【図7】音声認識部を示すブロック図である。
【図8】この発明の一の実施の形態に係る情報通信システムの受信再生装置を示すブロック図である。
【符号の説明】
1,2 背景画像
3,4 オブジェクト
10 ネットワーク
11 受信再生装置
12 送信装置
13 動画像
14 音声
15 元動画像情報
16 元音声情報
21 画像分解部
22 画像認識部
23 音声分解部
24 音声認識部
25 送信データ生成部
26 編集部
27 データ通信部
28 要求認識部
31 特徴抽出
32 パターンマッチング
33 状況参照
41 エンベロープフォロワ
42 ピーク検出部
43 ピッチ抽出ブロック
44 ディジタルフィルタ
51 データ前処理ブロック
52 認識部
55 エンベロープフォロワ
56 レベル調整部
57 変換部
58 音素片抽出部
62 モニタ
63 入力部
73 画像音声素材データベース
75 データ通信部
76 置換処理部
77 データ伸長部
78 アクション算出部
79 データ合成部
80 制御タイマー
81 シーケンサ
82 映像再生制御装置
83 映像合成機
84 シンセサイザ
85 音声ミキサ
87 中央制御部
88 要求部
89 入力装置[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an information communication system.
[0002]
[Prior art]
With the development of communication technology in recent years, various information providing services through communication have been attempted. For example, the provision of digital contents through the Internet using a general public telephone line is one of them.
[0003]
Such digital contents include not only text information but also image information including audio information, still images, and moving images. For example, there are various kinds of digital contents by various combinations in which audio information changes according to image information that is a moving image. It is possible to provide information.
[0004]
[Problems to be solved by the invention]
By the way, when the above-mentioned various information is provided through a network such as a general public telephone line such as the Internet, the improvement in the image quality of image information transmitted and received and the sound quality of audio information are restricted due to the limitation of the data transmission speed of the network. End up.
[0005]
As an example of technology for transmitting and receiving moving images in real time by communication, for example, a digital moving image encoding method called MPEG-4 suitable for an ultra-low bit rate, which is being internationally standardized by ISO / IECJTC1 / SC29 / WG11, is proposed. Has been. MPEG-4 is suitable for moving image compression at a low bit rate of 64 kbps or less, and can reduce the file size and facilitate online stream reproduction and moving image file transfer. Therefore, if there is a line speed of about ISDN, it can be reproduced as a moving image with few dropped frames on the receiving side.
[0006]
However, this MPEG-4 is an irreversible compression method, and since it is compressed into data for a low bit rate by increasing its compression rate, when it is decoded and reproduced, it has a considerable picture quality. Deterioration occurs. Specifically, the playback image quality of moving images is significantly degraded compared to MPEG-1 and MPEG-2. In addition, the same problem occurs with sound quality degradation of audio information as long as it is transmitted and received using an irreversible compression method. For example, in a digital content, a sound that a human listens to feels of sufficiently high quality has a sampling frequency of 44.1 kHz or an upper limit of a sound reproduction frequency band of about 65,000 gradations (16 bits) or more at around 20 kHz. It is said. However, such high-quality real-time reproduction cannot be performed with the technology that transmits audio information in real time using the current lossy compression method.
[0007]
Alternatively, it may be possible to transmit such information through a predetermined recording medium (recording medium) such as a CD-ROM or an IC card. However, even in this case, the data capacity of the recording medium is limited. However, there is a problem that information can be transmitted only within the limit of the data capacity.
[0008]
Accordingly, an object of the present invention is to provide an information communication system capable of maintaining high image quality and sound quality at the time of reproduction at a receiving destination when digital content including moving image information and audio information is transmitted and received.
[0009]
[Means for Solving the Problems]
In order to solve the above-mentioned problem, the invention according to
[0010]
The invention according to
[0011]
According to a third aspect of the present invention, the transmission device further includes an editing unit that edits transmission data generated by the transmission data generation unit.
[0012]
According to a fourth aspect of the present invention, the video / audio material database of the reception / playback apparatus corresponds to the same transmission data information for at least part of the background image, the object, and the audio data in the transmission data. A plurality of types of the alternative materials are prepared, and the reception / playback device selects the background image by selecting from a plurality of types of the alternative materials when playing back the moving image and the sound with the reception / playback device. The object and the at least part of the audio data For the above, the alternative material having the same meaning as the recognition result in the image recognition unit or the voice recognition result in the voice recognition unit, but having a different expression form from the original image information or the original voice information is used. It was made possible.
[0013]
According to a fifth aspect of the present invention, the information communication system includes the Send The system transmits desired content to the reception / playback device through the predetermined network by the device, and the reception / playback device, when playing back the moving image and the sound by the reception / playback device, includes the background image and the object. At least some Change Alternatively, a request for deletion can be input through a predetermined input device, and the editing unit of the transmission device receives the request input by the input device of the reception / playback device through the predetermined network. The transmission data is generated by the transmission data generation unit reflecting the request.
[0014]
According to a sixth aspect of the present invention, when at least a part of the audio data is recognized as a link audio associated with the background image or the object and is encoded by the transmission data generation unit, the response The transmission data is generated by including data about the attachment, and the reception / playback apparatus is associated with the playback of the background image or the object when the link sound is played back.
[0015]
In this specification, “content” refers to an edited product in which various information such as images and / or sounds are edited at a predetermined layout or at a predetermined timing with the intention of the producer, and “motif” The term “form” refers to various forms such as the shape, pattern and color of each image, tone color, pitch, chord, voice appearance timing, and rhythm.
[0016]
DETAILED DESCRIPTION OF THE INVENTION
<Principle>
In the digital information providing service, if the semantic information is the same as the original information of the moving image information and audio information held at the transmission source, the moving image and audio data are reproduced when the reproduction is performed at the receiving destination. The motif may be different. Rather, it may even be desired to change to a style different from the style of the moving image of the original information or the like depending on the preference of the user of the receiving destination. In such a case, there is a demand for a high level of image quality and sound quality while allowing for imitation of this identity without emphasizing the complete identity of the motif of the original information (moving image information and audio information). .
[0017]
For example, as shown in FIG. 1, when it is desired to transmit and receive an image video on the sea, a moving image as original information (hereinafter referred to as “original moving image”) is a live-action image, and the original moving image includes The landscape of the sky, sea and beach included is the
[0018]
The same applies to audio information. For example, a sound of a wave (first background sound) and a sound of a wind (second background sound) can be heard corresponding to the first background image 1 (sky, sea and beach scenery) of the moving image information shown in FIG. The sound of the whistle (first link sound) moves from left to right along the movement of the first object 3 (running male), and further along the movement of the second object 4 (flying seagull) ( When the sound of a seagull squealing (second linked voice) moves from right to left, the exact identity of each motif of these voices is not considered important, and its imitation is allowed, but the sound quality You may want to play high-quality sound.
[0019]
In such a case, in the information communication system of this embodiment, each
[0020]
Hereinafter, this information communication system will be described in detail.
[0021]
<Configuration>
As shown in FIG. 3, this information communication system receives and reproduces digital content from a
[0022]
As shown in FIG. 4, the
[0023]
The
[0024]
As shown in FIG. 5, the
[0025]
As shown in FIG. 6, the
[0026]
As shown in FIG. 7, the
[0027]
The data preprocessing block 51 includes an
[0028]
The recognizing
[0029]
When the voice data given from the data preprocessing block 51 is music such as background music (BGM), the recognizing
[0030]
The transmission
[0031]
[Table 1]
[0032]
Here, the time column in Table 1 indicates the time when each background image or object appears in the original moving image information or starts a new operation. The image column in Table 1 shows a type code indicating the type of background image or object. For example, “SUN000” means sunset, “BOY008” means a running boy, and “BRD425” means a flying seagull. . Further, the action column on the left side of Table 1 is an operation code indicating the operation of the background image or object, and “ACT000” descends while “SUN000 (sunset)” is reddish near the center of the screen. “MOV104” means that “BOY008 (running boy)” moves from left to right at the bottom of the screen, and “MOV203” means that “BRD425 (flying seagull)” points from the right to the left at the top of the screen. Respectively indicating that they are moving. Furthermore, the voice column in Table 1 indicates the type of voice, “BGM010” is a refreshing music as background music (BGM), “SNG408” is a whistle, “BRD443” is a gull cry. Each means. The action column on the right side indicates the movement of the type of audio described in the audio column. “0” indicates a stationary state, and “LINK-C3” indicates “3” from the top line in Table 1. “LINK-C4” indicates that it is a link voice linked to the movement of “BRD425 (flying seagull)” on the fourth line from the top line. I mean.
[0033]
In Table 1, for example, images and sounds are expressed centering on a type code such as “SUN000”. However, the details are more detailed when an association image is actually used and a substitute image is selected by the reception / playback apparatus 11 (see later). May require additional information. In such a case, the state information (for example, “shape”, “description”, “situation”, etc.) of the element specified by the type code is added to the type code as a subset of the type code (hierarchical information). If it is prepared as such, it becomes possible to perform the reproduction process in a form more suited to the purpose at the time of reproduction by the
[0034]
The transmission
[0035]
Note that the transmission
[0036]
The
[0037]
The
[0038]
The
[0039]
The reception /
[0040]
Specifically, the reception /
[0041]
Here, the
[0042]
Here, the image material in the
[0043]
In addition, the alternative material (image material and audio material) in the
[0044]
Each component described above may be configured as hardware with a dedicated circuit configuration, or may be realized as a functional component that operates according to a predetermined software program using a CPU.
[0045]
<Operation>
The operation of the information communication system having the above configuration will be described.
[0046]
First, on the
[0047]
For example, as shown in Fig. 1, it is an image of a sunset over the sea. The boy runs whistling from the left end to the right on the beach, and the seagulls turn from the right end to the left. When there is the original moving image information 15 flying away, the
[0048]
Next, the
[0049]
Thus, for example, in the original moving image information 15 of FIG. 1, the
[0050]
At the time of this image recognition, the association with the type of voice recognized by the
[0051]
In parallel with these image decomposition and image recognition, main sound is extracted from the
[0052]
The individual voice data subjected to the voice decomposition by the
[0053]
At this time, in the data preprocessing block 51 of the
[0054]
The recognizing
[0055]
When the voice data given from the data preprocessing block 51 is music such as background music (BGM), the recognizing
[0056]
And the recognition result in the
[0057]
In addition, when the MIDI data is given from the
[0058]
Here, when the operator changes or deletes the transmission data in the
[0059]
The transmission data generated in this way is transmitted from the
[0060]
In the reception /
[0061]
Based on the result replaced by the
[0062]
Then, the
[0063]
Here, when the user on the reception /
[0064]
For example, when the image material of the same motif as the original moving image information 15 is stored in advance in the image / audio material database (DB) 73 and the user designates to maintain the motif as it is, As shown by
[0065]
As shown in FIG. 1, when the original moving image information 15 is a live-action image, when the user desires to reproduce the comic style in the reception /
[0066]
Here, as shown in the example of Table 1, when some data is linked to other data (for example, when linked audio as audio data is associated with an object), the moving image and the audio are synchronized. Since it is played back with a very natural state correspondence such as moving, it is possible to provide a high-level digital content providing service.
[0067]
Similarly, the
[0068]
In the above operation, the data given from the
[0069]
In addition, if a high-resolution image material and a high-quality sound material are prepared as alternative materials in the image /
[0070]
Since digital content can be edited by the
[0071]
In addition, since the background image and the background music may not be essential for the content, when the
[0072]
Further, for example, when a classic-style style is expressed by the
[0073]
In the above-described embodiment, different motifs are prepared in advance for all background images, all objects, and all audio data in the image /
[0074]
In the above embodiment, transmission data is given from the
[0075]
【The invention's effect】
According to the first and second aspects of the present invention, the original moving image information is decomposed for each background image and each object by the image decomposition unit of the transmission device, and at least the main sound of the original sound information is sound decomposed. The content is decomposed by predetermined decomposition means such as extraction and decomposition by a unit, and after performing image recognition and voice recognition, respectively, it is encoded according to the contents to generate transmission data and transmit it to the reception / playback apparatus In this way, the reception / playback apparatus reads, for example, substitute materials stored in advance in a predetermined image / sound material database based on the transmitted transmission data, and synthesizes these substitute materials to reproduce a moving image and sound. Therefore, the encoded transmission data given from the transmission device to the reception / playback device through the network or the recording medium is MPEG Compared to the image itself and audio data such as WAVE data or MP3, the amount of data is much smaller. For example, communication is performed on the Internet using a general public telephone line using a modem or ISDN. Even in this case, it is possible to greatly reduce the deterioration of the response on the receiving and reproducing apparatus side of the information transmitted from the transmitting apparatus due to the limit of the line capacity, and it becomes possible to implement a content providing service with a very good communication response. Alternatively, even if transmission data is transmitted through a recording medium, there is an advantage that the data capacity of the recording medium is not limited.
[0076]
According to the third aspect of the invention, the transmission unit to be transmitted to the reception / playback apparatus can be edited in the editing unit of the transmission apparatus. The content of the content can be changed on the transmission device side according to various environments such as the communication speed of the network.
[0077]
According to invention of
[0078]
According to the invention described in claim 5, the user's wish is satisfied. Received over the network Since it can be reflected in the transmission data transmitted from the transmission device, it is possible to prevent unnecessary data not desired by the user from being included in the transmission data flowing through the network, and it is possible to execute efficient communication.
[0079]
According to the sixth aspect of the present invention, when at least a part of the audio data is recognized as the link audio associated with the background image or the object and is symbolized by the transmission data generation unit, the association is performed. Since the transmission data is generated and the reception / playback apparatus is associated with the playback of the background image or the object when the link sound is played back, for example, the object in the moving image and the link sound Since they are played back in a very natural state, such as moving in synchronization, a high-level content providing service can be provided.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating an example of original moving image information prepared in a transmission apparatus.
FIG. 2 is a diagram illustrating an example of a moving image to be played back by a reception / playback apparatus.
FIG. 3 is a block diagram showing an overall configuration of an information communication system according to an embodiment of the present invention.
FIG. 4 is a block diagram showing a transmission device of an information communication system according to an embodiment of the present invention.
FIG. 5 is a block diagram illustrating an image recognition unit.
FIG. 6 is a block diagram showing a speech decomposition unit.
FIG. 7 is a block diagram showing a voice recognition unit.
FIG. 8 is a block diagram showing a reception / playback apparatus for an information communication system according to an embodiment of the present invention.
[Explanation of symbols]
1,2 Background image
3,4 objects
10 network
11 Receiving / reproducing device
12 Transmitter
13 video
14 Voice
15 Original video information
16 original audio information
21 Image decomposition unit
22 Image recognition unit
23 Speech decomposition unit
24 Voice recognition unit
25 Transmission data generator
26 Editorial Department
27 Data Communication Department
28 Request recognition part
31 Feature extraction
32 pattern matching
33 See situation
41 Envelope follower
42 Peak detector
43 Pitch extraction block
44 Digital filter
51 Data preprocessing block
52 recognition unit
55 Envelope Follower
56 Level adjuster
57 Converter
58 Phoneme segment extraction unit
62 Monitor
63 Input section
73 Image / Audio Material Database
75 Data communication department
76 Replacement processing part
77 Data decompression section
78 Action calculator
79 Data composition part
80 control timer
81 Sequencer
82 Video playback control device
83 Video synthesizer
84 Synthesizer
85 audio mixer
87 Central control unit
88 Request section
89 Input device
Claims (6)
前記送信装置は、
前記コンテンツに関する元音声情報、または、前記コンテンツに関する元動画像情報及び元音声情報の双方を個別の要素に分解する手段であって、元音声情報については音源ごとに個別の要素に分解する分解手段と、
前記分解手段で分解された個別の要素の種別を認識する認識手段と、
前記認識手段での認識結果としての要素の種別を記号化して送信データを生成する送信データ生成部と、
前記送信データ生成部で生成された前記送信データを所定のネットワークを通じて前記受信再生装置へ送信する送信側データ通信部、及び/または前記送信データ生成部で生成された前記送信データを所定の記録媒体に記録するデータ記録手段と
を備え、
前記受信再生装置は、前記送信データを前記ネットワークを通じて受信しまたは前記送信装置から運搬された前記記録媒体から読み出し、当該送信データに基づいて、所定のデータベース内に予め格納された代替素材を読み出し、これらの代替素材を合成して音声、または、動画像及び音声の双方を再生するようにされたことを特徴とする情報通信システム。An information communication system in which desired content is transmitted to a reception / playback device via a predetermined network by a transmission device or conveyed via a predetermined recording medium,
The transmitter is
Means for decomposing the original audio information related to the content or both the original moving image information and the original audio information related to the content into individual elements , wherein the original audio information is decomposed into individual elements for each sound source When,
Recognizing means for recognizing the types of individual elements decomposed by the decomposing means;
A transmission data generation unit that generates a transmission data by encoding the type of an element as a recognition result in the recognition unit;
A transmission-side data communication unit that transmits the transmission data generated by the transmission data generation unit to the reception / playback apparatus via a predetermined network, and / or the transmission data generated by the transmission data generation unit is a predetermined recording medium Data recording means for recording on
The reception / playback device receives the transmission data through the network or reads from the recording medium transported from the transmission device, and reads an alternative material stored in advance in a predetermined database based on the transmission data, An information communication system characterized by synthesizing these alternative materials and reproducing audio or both moving images and audio.
前記送信装置は、
前記コンテンツに関する元動画像情報を単数または複数の背景画像及び単数または複数のオブジェクトに画像分解する画像分解部と、
前記画像分解部で画像分解された前記背景画像及び前記オブジェクトのそれぞれについて画像認識を行う画像認識部と、
前記コンテンツに関する元音声情報のなかから少なくとも主要な音声を抽出分解する音声分解部と、
前記音声分解部で音声分解された個々の音声データについて音声認識する音声認識部と、
前記画像認識部での認識結果及び前記音声認識部での音声認識結果に基づいて前記各背景画像、前記各オブジェクト及び前記各音声データを個別に記号化して送信データを生成する送信データ生成部と、
前記送信データ生成部で生成された前記送信データを所定のネットワークを通じて前記受信再生装置へ送信する送信側データ通信部、及び/または前記送信データ生成部で生成された前記送信データを所定の記録媒体に記録するデータ記録手段と
を備え、
前記受信再生装置は、前記送信データを前記ネットワークを通じて受信しまたは前記送信装置から運搬された前記記録媒体から読み出し、当該送信データに基づいて、所定の画像音声素材データベース内に予め格納された代替素材を読み出し、これらの代替素材を合成して動画像及び音声を再生するようにされたことを特徴とする情報通信システム。An information communication system in which desired content is transmitted to a reception / playback device via a predetermined network by a transmission device or conveyed via a predetermined recording medium,
The transmitter is
An image decomposition unit that decomposes the original moving image information about the content into one or more background images and one or more objects;
An image recognition unit that performs image recognition for each of the background image and the object that has been subjected to image decomposition by the image decomposition unit;
An audio decomposition unit that extracts and decomposes at least main audio from the original audio information related to the content;
A speech recognition unit that recognizes speech for each piece of speech data speech-decomposed by the speech decomposition unit;
A transmission data generating unit that individually generates a transmission data by symbolizing each background image, each object, and each voice data based on a recognition result in the image recognition unit and a voice recognition result in the voice recognition unit; ,
A transmission-side data communication unit that transmits the transmission data generated by the transmission data generation unit to the reception / playback apparatus via a predetermined network, and / or the transmission data generated by the transmission data generation unit is a predetermined recording medium Data recording means for recording on
The reception / playback device receives the transmission data through the network or reads it from the recording medium transported from the transmission device, and based on the transmission data, substitute material stored in advance in a predetermined video / audio material database An information communication system characterized in that a video and audio are reproduced by synthesizing these alternative materials.
前記送信装置は、前記送信データ生成部で生成された送信データを編集する編集部をさらに備える情報通信システム。An information communication system according to claim 2,
The transmission device further includes an editing unit that edits transmission data generated by the transmission data generation unit.
前記受信再生装置の前記画像音声素材データベースは、前記送信データ中の前記背景画像、前記オブジェクト及び前記音声データの少なくとも一部について同一の前記送信データの情報に対応してそれぞれ複数種類の前記代替素材が用意され、
前記受信再生装置は、当該受信再生装置で動画像及び音声を再生する際に、複数種類の前記代替素材の中から選択して前記背景画像、前記オブジェクト及び前記音声データの前記少なくとも一部については、前記画像認識部での認識結果あるいは前記音声認識部での音声認識結果と意味内容は同じでありながら、前記元画像情報あるいは前記元音声情報とは表現態様の異なる前記代替素材を用いることが可能とされたことを特徴とする情報通信システム。An information communication system according to claim 2 or claim 3, wherein
The video / audio material database of the reception / playback apparatus includes a plurality of types of the alternative materials corresponding to information of the same transmission data for at least a part of the background image, the object, and the audio data in the transmission data. Is prepared,
The reception / playback device selects a plurality of types of the alternative materials and reproduces at least a part of the background image, the object, and the audio data when the moving image and the sound are played back by the reception / playback device. The alternative material having the same semantic content as the recognition result in the image recognition unit or the voice recognition result in the voice recognition unit, but having a different expression form from the original image information or the original voice information may be used. An information communication system characterized by being made possible.
前記受信再生装置は、当該受信再生装置で動画像及び音声を再生する際に、前記背景画像及び前記オブジェクトの少なくとも一部を変更または削除するための要求を所定の入力装置を通じて入力することが可能とされ、
前記送信装置の前記編集部は、前記受信再生装置の前記入力装置で入力された要求を前記所定のネットワークを通じて受信し、当該要求を反映して前記送信データ生成部で前記送信データを生成するようにしたことを特徴とする情報通信システム。The information communication system according to claim 3, wherein the information communication system is a system for transmitting desired content to the reception / playback device through the predetermined network by the transmission device,
The reception / playback device can input a request for changing or deleting at least a part of the background image and the object through a predetermined input device when the reception / playback device plays a moving image and sound. And
The editing unit of the transmission device receives a request input by the input device of the reception / playback device through the predetermined network, and reflects the request to generate the transmission data by the transmission data generation unit. An information communication system characterized by that.
前記音声データの少なくとも一部は、前記背景画像または前記オブジェクトに対応付けられたリンク音声として認識されて、前記送信データ生成部で記号化される際にその対応付けについてのデータが含められて前記送信データが生成され、
前記受信再生装置は、前記リンク音声の再生時に、前記背景画像または前記オブジェクトの再生に対応づけられるようにされたことを特徴とする情報通信システム。An information communication system according to any one of claims 2 to 5,
At least a part of the audio data is recognized as a link audio associated with the background image or the object, and data about the association is included when symbolized by the transmission data generation unit. Send data is generated,
The information communication system, wherein the reception / playback apparatus is associated with playback of the background image or the object when the link sound is played back.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25764799A JP3634687B2 (en) | 1999-09-10 | 1999-09-10 | Information communication system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25764799A JP3634687B2 (en) | 1999-09-10 | 1999-09-10 | Information communication system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001086497A JP2001086497A (en) | 2001-03-30 |
JP3634687B2 true JP3634687B2 (en) | 2005-03-30 |
Family
ID=17309163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25764799A Expired - Fee Related JP3634687B2 (en) | 1999-09-10 | 1999-09-10 | Information communication system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3634687B2 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002238044A (en) * | 2001-02-07 | 2002-08-23 | Canon Inc | Information reconstructing device |
KR100455768B1 (en) * | 2001-12-29 | 2004-11-06 | 엘지전자 주식회사 | Animation method in a mobile phone |
JP2004144912A (en) | 2002-10-23 | 2004-05-20 | Matsushita Electric Ind Co Ltd | Audio information conversion method, audio information conversion program, and audio information conversion device |
JP2005234074A (en) * | 2004-02-18 | 2005-09-02 | Sony Corp | Apparatus and method for information processing, recording medium, and program |
JP2006352555A (en) | 2005-06-16 | 2006-12-28 | Sony Corp | Information processor, information processing method and program |
JP4736046B2 (en) * | 2006-03-14 | 2011-07-27 | ヤマハ株式会社 | Waveform data production method, waveform data production apparatus, program, and waveform memory production method |
JP2009065534A (en) * | 2007-09-07 | 2009-03-26 | Sharp Corp | Reproduction apparatus, reproduction method, program, and record medium |
JP2015002423A (en) | 2013-06-14 | 2015-01-05 | ソニー株式会社 | Image processing apparatus, server and storage medium |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05153581A (en) * | 1991-12-02 | 1993-06-18 | Seiko Epson Corp | Face picture coding system |
JP3299797B2 (en) * | 1992-11-20 | 2002-07-08 | 富士通株式会社 | Composite image display system |
JPH0823527A (en) * | 1994-07-07 | 1996-01-23 | Hitachi Ltd | Video telephone system |
JPH07288789A (en) * | 1994-04-15 | 1995-10-31 | Hitachi Ltd | Intelligent encoder and picture communication equipment |
US5696879A (en) * | 1995-05-31 | 1997-12-09 | International Business Machines Corporation | Method and apparatus for improved voice transmission |
JPH10260692A (en) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | Method and system for recognition synthesis encoding and decoding of speech |
-
1999
- 1999-09-10 JP JP25764799A patent/JP3634687B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001086497A (en) | 2001-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6088484A (en) | Downloading of personalization layers for symbolically compressed objects | |
JP4344658B2 (en) | Speech synthesizer | |
US7145606B2 (en) | Post-synchronizing an information stream including lip objects replacement | |
US7326846B2 (en) | Apparatus providing information with music sound effect | |
KR20210048441A (en) | Matching mouth shape and movement in digital video to alternative audio | |
Steinmetz et al. | Multimedia fundamentals, volume 1: media coding and content processing | |
US6683993B1 (en) | Encoding and decoding with super compression a via a priori generic objects | |
JP2003521750A (en) | Speech system | |
US20060106597A1 (en) | System and method for low bit-rate compression of combined speech and music | |
JP2011175598A (en) | Device and program for generating sign language animation | |
JP3634687B2 (en) | Information communication system | |
CN113329258B (en) | Song video synthesis method and player | |
JPH08503584A (en) | Interactive multimedia entertainment system | |
WO2005104549A1 (en) | Method and apparatus of synchronizing caption, still picture and motion picture using location information | |
KR20180012397A (en) | Management system and method for digital sound source, device and method of playing digital sound source | |
Scheirer et al. | Synthetic and SNHC audio in MPEG-4 | |
JP3368739B2 (en) | Animation production system | |
JP3506410B2 (en) | Dramatic video production support method and apparatus | |
JP4512286B2 (en) | Program sending system and program sending device used therefor | |
JP3294526B2 (en) | Karaoke equipment | |
JP2003029774A (en) | Voice waveform dictionary distribution system, voice waveform dictionary preparing device, and voice synthesizing terminal equipment | |
JP2003271158A (en) | Karaoke device having image changing function and program | |
KR101236496B1 (en) | E-mail Transmission Terminal and E-mail System | |
KR20050075082A (en) | Manufacture system of music video using karaoke | |
JP2000358202A (en) | Video audio recording and reproducing device and method for generating and recording sub audio data for the device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040427 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041224 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090107 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090107 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100107 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110107 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120107 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130107 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130107 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130107 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130107 Year of fee payment: 8 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |