JP2003061098A - Image processor, image processing method, recording medium and program - Google Patents

Image processor, image processing method, recording medium and program

Info

Publication number
JP2003061098A
JP2003061098A JP2001250392A JP2001250392A JP2003061098A JP 2003061098 A JP2003061098 A JP 2003061098A JP 2001250392 A JP2001250392 A JP 2001250392A JP 2001250392 A JP2001250392 A JP 2001250392A JP 2003061098 A JP2003061098 A JP 2003061098A
Authority
JP
Japan
Prior art keywords
image
sign language
signer
moving image
procedure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001250392A
Other languages
Japanese (ja)
Inventor
Tadashi Ohira
正 大平
Original Assignee
Canon Inc
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc, キヤノン株式会社 filed Critical Canon Inc
Priority to JP2001250392A priority Critical patent/JP2003061098A/en
Publication of JP2003061098A publication Critical patent/JP2003061098A/en
Application status is Pending legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To provide an image processor that composites a sign language image together principal moving images and audio signals, so as to fully provide hard of hearing persons with a natural and easily understandable video services. SOLUTION: The image processor is provided for encoding a moving image on an object basis to generate a database for sign language images. The processor is provided with a moving picture entry means for receiving a moving image of people making communication in sign language, an object extracting means that extracts only the people making communication in sign language as objects for capturing moving images of shape information, a natural image encoding means that encodes the moving picture of the people making communication in sign language, a shape information image encoding means that encodes the moving image of the information on the shape, a multiplexer means that multiplexes the natural image after encoding with the shape information image, a text input means that receives the meaning of the sign language image as text data, and a database storage means that stores the database comprising the multiplexed image and the text data.

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は、健聴者から聴覚障害者への通訳を行うシステムに関するものであり、特に、画像と音声を持つコンテンツに対して手話画像を生成、多重化し、必要に応じて合成表示する技術に関するものである。 BACKGROUND OF THE INVENTION [0001] [Technical Field of the Invention The present invention relates to system for interpretation of the deaf from hearing people, in particular, the sign language for the content with the video and audio generating an image, multiplexing, a technique for synthesizing and displaying as needed. 【0002】 【従来の技術】手話は、手の位置、向き、移動方向、移動速度、表情等の手段を使って情報を相手に伝える、聴覚障害者のための言語で、音声を中心として発達してきた健聴者の用いている自然言語とは異なった体系を持っている。 [0002] In sign language, the position of the hand, direction, movement direction, tell the moving speed, the information using the means of expression, such as the other party, in the language for the hearing impaired, developed as a center of the voice We have different schemes and hearing people natural language is used that has been. したがって、聴覚障害者が健聴者と会話を行う際には音声言語の体系に属する自然言語を用いて筆談や口話を行うよりも、手話で会話を行った方が楽である上に伝達速度も速い。 Therefore, than when the hearing-impaired user performs a conversation with hearing people do written communication and mouth talking about using natural language belonging to the system of spoken language, the transmission speed on the person who carried out the conversation in sign language is easy faster. そのため、自然言語と手話を混在させたシステムが望まれている。 Therefore, it is desirable system mix natural language and sign language. 【0003】従来の手話を生成する方法としては、CGアニメーションを用いるものや単語単位で撮影した画像をそのままつないで表示する方法がある。 [0003] As a method of producing a conventional sign language, a method of directly connecting by displaying an image taken by one or word units using a CG animation. 【0004】CGアニメーションを用いる方法では、単純なものでは細部の情報がわかりにくく手話で最も重要な手の動きがわかりにくくなる。 [0004] In the method using the CG animation, is hard to understand the movement of the most important hand in sign language difficult to understand the information of the details as simple. 対して複雑なアニメーションを作ろうとすると高度な開発環境を必要とする。 It requires an advanced development environment if you try to create a complex animation for. 【0005】一方で、コンピュータ・放送・通信など多くの領域で利用できる、汎用的な次世代マルチメディア符号化規格として、ISO(International Organizati [0005] On the other hand, are available in many areas such as computer, broadcasting and communication, as a general-purpose, next-generation multimedia encoding standard, ISO (International Organizati
on for Standardization:国際標準化機構)やITU on for Standardization: International Organization for Standardization) and ITU
(International Telecommunication Union:国際電気通信連合)によって、MPEG-4の国際標準化作業が進められている。 By: (International Telecommunication Union International Telecommunication Union), international standardization work of the MPEG-4 is in progress. MPEG-4の大きな特徴として、オブジェクト・ベース符号化を行う機能がある。 A major feature of the MPEG-4, has the ability to perform object-based coding. 【0006】オブジェクト・ベース符号化とは、MPE [0006] The object-based encoding, MPE
G(Moving Picture Expert Group)-1やMPEG-2 G (Moving Picture Expert Group) -1 and MPEG-2
で採用されているような長方形の画像全体を符号化する方法ではなく、予め何等かの方法で生成された形状情報の画像によって、画像の中の切り出された人物やその他の物体、つまり画像のオブジェクト毎に符号化を行う方法である。 In not a method of rectangular encode the entire image, such as that employed by the image of the generated shape information in advance some kind of method, cut the person or other objects in the image, i.e. image a method of performing encoding for each object. 以降ではこの形状情報画像と区別するため、 Since the later to distinguish the shape information image,
一般的に処理対象とする画像を自然画像と称す。 An image which typically processed is referred to as a natural image. 【0007】形状情報画像とは、符号化対象となっている自然画像と全く同じ縦横の画素数を持ち、オブジェクトの形状を表す一種の画像である。 [0007] The shape information image has a number of pixels exactly the same aspect as the natural image which is an encoding target, which is a kind of an image representing the shape of the object. 形状情報画像には各画素が1bitで表されるバイナリ・アルファ・プレーンと、各画素が2bit以上で表されるグレイスケール・アルファ・プレーンがある。 The shape information image and binary alpha plane in which each pixel is represented by 1bit, there is a gray scale alpha plane in which each pixel is represented by more than 2bit. バイナリ・アルファ・プレーンは通常、画素の値が“1”の領域はオブジェクト領域、“0”の領域はオブジェクト外の領域を表す。 Regions of binary alpha plane is typically the value of the pixel "1" in area of ​​the object area, "0" represents a region outside the object. グレイスケール・アルファ・プレーンは、画素の値が“1以上255以下”の領域はオブジェクト領域、“0”の領域はオブジェクト外の領域を表す。 Grayscale alpha plane is a region of values ​​of pixels area object area of ​​"1 to 255", "0" represents a region outside the object. 【0008】尚、その他のMPEG-4の詳細内容については、ISO/IECによる国際標準の文書に委ねることとする。 [0008] It should be noted, For more information about the contents of the other MPEG-4, and be left to the document of the international standard by ISO / IEC. 【0009】 【発明が解決しようとする課題】手話での会話が円滑に行なわれるためには、手話者の画像が明瞭である必要があり、また手話者の手の形が正しく認識されるためには、画像は立体的に表示される必要がある。 [0009] For the conversation INVENTION Problems to be Solved] sign language carried out smoothly, it is necessary image signer is clear, also because the form of sign language's hand is correctly recognized the image needs to be stereoscopically displayed. 【0010】従来から、手話を撮影した画像を単純に合成する方法では、画像は立体的であるが記憶すべき情報量が多い。 [0010] Conventionally, in a method of simply combining images obtained by photographing a sign language image is but often the amount of information to be stored sterically. 手話単語を登録する手話画像の辞書には、一手話単語あたり最低60枚前後のカラー画像を2000 The dictionary of sign language image to register the sign language word, 2000 the color image of before and after a minimum of 60 sheets per sign language word
単語以上記憶しなければならないことから、一手話単語あたりの記憶すべき情報量が多いため多くの記憶容量を必要とする。 From having to store the word above, it requires more storage capacity for the amount of information to be stored per sign language words often. 【0011】本発明の目的は、オブジェクト・ベース符号化装置及びその方法を用いて、任意形状の手話画像のデータベースを効率的に構築する手段、及び主たるAVストリーム(全画面の動画像と音声)に手話画像を合成することで、聴覚障害者にとって自然でわかりやすい映像サービスを充足させる手段を提供することである。 An object of the present invention uses object-based coding method and apparatus, means for constructing a database of sign language image of an arbitrary shape efficiently, and main AV stream (moving images and audio of the entire screen) by combining the sign language image, it is to provide a means to satisfy a descriptive video service native to deaf. 【0012】 【課題を解決するための手段】本発明の一観点によれば、手話画像のデータベースを作成するデータベース作成手段と、主たる動画像を符号化して前記データベース内の手話画像と多重化する多重化手段と、前記多重化された画像から主たる動画像と手話画像を復号し、合成出力する手段とを備えた画像処理装置が提供される。 According to one aspect of the present invention According to an aspect of the database creation means for creating a database of sign language image, sign language images and multiplexing the database by encoding a main video image a multiplexing means, said decode the main moving image and the sign language video from the multiplexed image, the image processing apparatus and means for combining output is provided. 【0013】本発明の他の観点によれば、動画像のオブジェクト・ベース符号化を行い、手話画像のデータベースを作成する画像処理装置であって、手話者の動画像を入力する動画像入力手段と、手話者のみをオブジェクトとして抽出し形状情報の動画像を獲得するオブジェクト抽出手段と、前記手話者の動画像を符号化する自然画像符号化手段と、前記形状情報の動画像を符号化する形状情報画像符号化手段と、前記符号化後の自然画像と形状情報画像とを多重化する多重化手段と、前記手話画像の意味をテキストデータとして入力するテキスト入力手段と、前記多重化した画像と前記テキストデータをデータベース化して蓄積するデータベース蓄積手段とを備えた画像処理装置が提供される。 According to another aspect of the invention, performs a object-based coding of moving picture, an image processing apparatus for creating a database of sign language image, moving image input means for inputting a moving image of signer When, encodes the object extracting means for obtaining a moving image of the extracted shape information only signer as objects, and natural image coding means for coding a moving image of the signer, a moving image of the shape information shape information image encoding means, a multiplexing means for multiplexing the natural image and the shape information image after the coding, a text input means for inputting the meaning of the sign language image as text data, said multiplexed image the image processing apparatus that includes a database storing means for storing the text data in a database is provided with. 【0014】本発明のさらに他の観点によれば、主たる動画像信号とオーディオ信号を符号化する符号化手段と、前記オーディオ信号から音声の情報を抽出し認識する音声認識手段と、前記認識した音声データを利用し手話画像のデータベースから所望の手話画像を検索する手話画像検索手段と、前記符号化した主たる動画像信号とオーディオ信号と前記手話画像を多重化して出力する多重化手段とを備えた画像処理装置が提供される。 According to still another aspect of the invention, encoding means for encoding the main moving image signal and an audio signal, a speech recognition means for recognizing and extracting the information of the audio from the audio signal, and the recognition comprising a sign language image retrieving means for retrieving a desired sign language image from a database of sign language video using voice data, and multiplexing means for outputting the multiplexed main moving image signal and an audio signal obtained by the encoding and the sign language video image processing apparatus is provided. 【0015】本発明のさらに他の観点によれば、入力信号を、主たる動画像信号及びオーディオ信号の組みと、 According to still another aspect of the present invention, an input signal, a set of main moving image signal and the audio signal,
手話画像とに分配する第1の分配手段と、前記主たる動画像信号及びオーディオ信号を復号する第1の復号手段と、前記手話画像から、手話者の自然画像と手話者の形状情報画像とに分配する第2の分配手段と、前記手話者の自然画像を復号する第2の復号手段と、前記手話者の形状情報画像を復号する第3の復号手段と、前記主たる動画像信号と前記手話者の自然画像と形状情報画像から、主たる動画像と手話画像を合成する合成手段とを備えた画像処理装置が提供される。 A first distributing means for distributing to the sign language video, the a first decoding means for decoding the main moving image signal and the audio signal from the sign language video, a shape information image of a natural image and signer of signer a second distributing means for distributing a second decoding means for decoding the natural image of the signer, a third decoding means for decoding the shape information image of the signer, the mainly motion picture signal the sign language from users of natural images and shape information image, main moving image and an image processing apparatus and a combining means for combining the sign language video is provided. 【0016】本発明のさらに他の観点によれば、手話画像のデータベースを作成するデータベース作成ステップと、主たる動画像を符号化して前記データベース内の手話画像と多重化する多重化ステップと、前記多重化された画像から主たる動画像と手話画像を復号し、合成出力するステップとを備えた画像処理方法が提供される。 According to still another aspect of the invention, a database creation step of creating a database of sign language image, a multiplexing step for sign language video multiplexed with the database by encoding a main moving image, the multiple decodes the main moving image and the sign language video from the reduction image, an image processing method and a step of combining output is provided. 【0017】本発明のさらに他の観点によれば、動画像のオブジェクト・ベース符号化を行い、手話画像のデータベースを作成する画像処理方法であって、手話者の動画像を入力する動画像入力ステップと、手話者のみをオブジェクトとして抽出し形状情報の動画像を獲得するオブジェクト抽出ステップと、前記手話者の動画像を符号化する自然画像符号化ステップと、前記形状情報の動画像を符号化する形状情報画像符号化ステップと、前記符号化後の自然画像と形状情報画像とを多重化する多重化ステップと、前記手話画像の意味をテキストデータとして入力するテキスト入力ステップと、前記多重化した画像と前記テキストデータをデータベース化して蓄積するデータベース蓄積ステップとを備えた画像処理方法が提供される。 According to still another aspect of the present invention, performs a object-based coding of moving picture, an image processing method for creating a database of sign language image, moving image input for inputting a moving image of the signer a method, an object extraction step of acquiring a moving image of the extracted shape information only signer as objects, and natural image encoding step of encoding the moving image of the signer, coding a moving picture of the shape information shape information image encoding step of a multiplexing step of multiplexing the natural image and the shape information image after the coding, a text input step of inputting the meaning of the sign language image as text data, and the multiplexed the image processing method and a database storage step of storing in a database the image and the text data is provided. 【0018】本発明のさらに他の観点によれば、主たる動画像信号とオーディオ信号を符号化する符号化ステップと、前記オーディオ信号から音声の情報を抽出し認識する音声認識ステップと、前記認識した音声データを利用し手話画像のデータベースから所望の手話画像を検索する手話画像検索ステップと、前記符号化した主たる動画像信号とオーディオ信号と前記手話画像を多重化して出力する多重化ステップとを備えた画像処理方法が提供される。 According to still another aspect of the present invention, the encoding step of encoding the main moving image signal and an audio signal, a speech recognition step recognizes and extracts information of audio from the audio signal, and the recognition comprising a sign language image search step of searching a desired sign language image from a database of sign language image using speech data, and a multiplexing step for outputting the multiplexed main moving image signal and an audio signal obtained by the encoding and the sign language video the image processing method is provided. 【0019】本発明のさらに他の観点によれば、入力信号を、主たる動画像信号及びオーディオ信号の組みと、 According to still another aspect of the present invention, an input signal, a set of main moving image signal and the audio signal,
手話画像とに分配する第1の分配ステップと、前記主たる動画像信号及びオーディオ信号を復号する第1の復号ステップと、前記手話画像から、手話者の自然画像と手話者の形状情報画像とに分配する第2の分配ステップと、前記手話者の自然画像を復号する第2の復号ステップと、前記手話者の形状情報画像を復号する第3の復号ステップと、前記主たる動画像信号と前記手話者の自然画像と形状情報画像から、主たる動画像と手話画像を合成する合成ステップとを備えた画像処理方法が提供される。 A first distribution step of distributing to the sign language video, the a first decoding step of decoding the main moving image signal and the audio signal from the sign language video, a shape information image of a natural image and signer of signer a second distribution step of distributing said second decoding step of decoding the natural image of the signer, a third decoding step of decoding the shape information image of the signer, the mainly moving image signal sign language from users of natural images and shape information image, image processing method and a synthesis step of synthesizing the main moving image and sign language video is provided. 【0020】本発明のさらに他の観点によれば、手話画像のデータベースを作成するデータベース作成手順と、 According to another aspect of the invention, a database creation procedure of creating a database of sign language image,
主たる動画像を符号化して前記データベース内の手話画像と多重化する多重化手順と、前記多重化された画像から主たる動画像と手話画像を復号し、合成出力する手順とをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体が提供される。 A multiplexing procedure of sign language image and multiplexed in the database a main moving image by encoding and decoding the main moving image and the sign language video from the multiplexed image, for executing the steps on a computer for synthesizing outputs a computer-readable recording medium which records a program is provided. 【0021】本発明のさらに他の観点によれば、動画像のオブジェクト・ベース符号化を行い、手話画像のデータベースを作成するプログラムを記録した記録媒体であって、手話者の動画像を入力する動画像入力手順と、手話者のみをオブジェクトとして抽出し形状情報の動画像を獲得するオブジェクト抽出手順と、前記手話者の動画像を符号化する自然画像符号化手順と、前記形状情報の動画像を符号化する形状情報画像符号化手順と、前記符号化後の自然画像と形状情報画像とを多重化する多重化手順と、前記手話画像の意味をテキストデータとして入力するテキスト入力手順と、前記多重化した画像と前記テキストデータをデータベース化して蓄積するデータベース蓄積手順とをコンピュータに実行させるためのプログラムを記録した According to another aspect of the invention, performs a object-based coding of moving picture, a recording medium recording a program to create a database of the sign language video, and inputs a moving image of signer a moving image input procedure, an object extraction procedure to obtain a moving image of the extracted shape information only signer as objects, and natural image coding procedure for coding a moving picture of the signer, the moving image of the shape information the shape information image encoding procedure to encode the multiplex procedure for multiplexing the natural image and the shape information image after the encoding, the text input procedures for inputting the meaning of the sign language image as text data, the recording a program for executing a database storing instructions to a computer for accumulating the multiplexed image the text data to a database of ンピュータ読み取り可能な記録媒体が提供される。 Computer readable recording medium is provided. 【0022】本発明のさらに他の観点によれば、主たる動画像信号とオーディオ信号を符号化する符号化手順と、前記オーディオ信号から音声の情報を抽出し認識する音声認識手順と、前記認識した音声データを利用し手話画像のデータベースから所望の手話画像を検索する手話画像検索手順と、前記符号化した主たる動画像信号とオーディオ信号と前記手話画像を多重化して出力する多重化手順とをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体が提供される。 According to still another aspect of the invention, the encoding procedure to encode the main moving image signal and an audio signal, a voice recognition procedure to recognize and extract information of audio from the audio signal, and the recognition a sign language video search procedure, and a multiplexing procedure and outputting the multiplexed main moving image signal and an audio signal obtained by the encoding and the sign language video computer to search for a desired sign language image from a database of sign language image using speech data a computer-readable recording medium storing a program to be executed by the is provided. 【0023】本発明のさらに他の観点によれば、入力信号を、主たる動画像信号及びオーディオ信号の組みと、 According to still another aspect of the invention, an input signal, a set of main moving image signal and the audio signal,
手話画像とに分配する第1の分配手順と、前記主たる動画像信号及びオーディオ信号を復号する第1の復号手順と、前記手話画像から、手話者の自然画像と手話者の形状情報画像とに分配する第2の分配手順と、前記手話者の自然画像を復号する第2の復号手順と、前記手話者の形状情報画像を復号する第3の復号手順と、前記主たる動画像信号と前記手話者の自然画像と形状情報画像から、主たる動画像と手話画像を合成する合成手順とをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体が提供される。 A first distribution procedure for partitioned between sign language video, the a first decoding procedure for decoding the main moving image signal and the audio signal from the sign language video, a shape information image of a natural image and signer of signer and second distribution steps to dispense, said second decoding procedure for decoding the natural image of the signer, a third decoding procedure for decoding the shape information image of the signer, the mainly moving image signal sign language from users of natural images and shape information image, a computer-readable recording medium recording a program for executing a combining procedure for combining a main moving image and the sign language video on the computer is provided. 【0024】本発明のさらに他の観点によれば、手話画像のデータベースを作成するデータベース作成手順と、 According to still another aspect of the invention, a database creation procedure of creating a database of sign language image,
主たる動画像を符号化して前記データベース内の手話画像と多重化する多重化手順と、前記多重化された画像から主たる動画像と手話画像を復号し、合成出力する手順とをコンピュータに実行させるためのプログラムが提供される。 A multiplexing procedure of sign language image and multiplexed in the database a main moving image by encoding and decoding the main moving image and the sign language video from the multiplexed image, for executing the steps on a computer for synthesizing outputs the program is provided. 【0025】本発明のさらに他の観点によれば、動画像のオブジェクト・ベース符号化を行い、手話画像のデータベースを作成するプログラムであって、手話者の動画像を入力する動画像入力手順と、手話者のみをオブジェクトとして抽出し形状情報の動画像を獲得するオブジェクト抽出手順と、前記手話者の動画像を符号化する自然画像符号化手順と、前記形状情報の動画像を符号化する形状情報画像符号化手順と、前記符号化後の自然画像と形状情報画像とを多重化する多重化手順と、前記手話画像の意味をテキストデータとして入力するテキスト入力手順と、前記多重化した画像と前記テキストデータをデータベース化して蓄積するデータベース蓄積手順とをコンピュータに実行させるためのプログラムが提供される。 According to another aspect of the invention, the performed object-based coding of moving picture, a program to create a database of the sign language video, a moving image input procedure of inputting a moving image of signer , an object extraction procedure to obtain a moving image of the extracted shape information only signer as objects, and natural image coding procedure for coding a moving picture of the signer, the shape coding a moving picture of the shape information and information image encoding procedure, a multiplexing procedure for multiplexing the natural image and the shape information image after the encoding, the text input procedures for inputting the meaning of the sign language image as text data, and image the multiplexed program for executing a database storing instructions for storing in a database the text data to a computer is provided. 【0026】本発明のさらに他の観点によれば、主たる動画像信号とオーディオ信号を符号化する符号化手順と、前記オーディオ信号から音声の情報を抽出し認識する音声認識手順と、前記認識した音声データを利用し手話画像のデータベースから所望の手話画像を検索する手話画像検索手順と、前記符号化した主たる動画像信号とオーディオ信号と前記手話画像を多重化して出力する多重化手順とをコンピュータに実行させるためのプログラムが提供される。 According to still another aspect of the [0026] present invention, the encoding procedure to encode the main moving image signal and an audio signal, a voice recognition procedure to recognize and extract information of audio from the audio signal, and the recognition a sign language video search procedure, and a multiplexing procedure and outputting the multiplexed main moving image signal and an audio signal obtained by the encoding and the sign language video computer to search for a desired sign language image from a database of sign language image using speech data programs to be executed by the is provided. 【0027】本発明のさらに他の観点によれば、入力信号を、主たる動画像信号及びオーディオ信号の組みと、 According to still another aspect of the [0027] present invention, an input signal, a set of main moving image signal and the audio signal,
手話画像とに分配する第1の分配手順と、前記主たる動画像信号及びオーディオ信号を復号する第1の復号手順と、前記手話画像から、手話者の自然画像と手話者の形状情報画像とに分配する第2の分配手順と、前記手話者の自然画像を復号する第2の復号手順と、前記手話者の形状情報画像を復号する第3の復号手順と、前記主たる動画像信号と前記手話者の自然画像と形状情報画像から、主たる動画像と手話画像を合成する合成手順とをコンピュータに実行させるためのプログラムが提供される。 A first distribution procedure for partitioned between sign language video, the a first decoding procedure for decoding the main moving image signal and the audio signal from the sign language video, a shape information image of a natural image and signer of signer and second distribution steps to dispense, said second decoding procedure for decoding the natural image of the signer, a third decoding procedure for decoding the shape information image of the signer, the mainly moving image signal sign language from users of natural images and shape information image, the program for executing a combining procedure for combining a main moving image and the sign language video on the computer is provided. 【0028】本発明はこのように構成したので、任意形状の手話画像のデータベースを効率的に構築し、主たる動画像及びオーディオ信号(全画面の動画像と音声)に手話画像を合成することで、聴覚障害者にとって自然でわかりやすい映像サービスを充足させることができる。 [0028] Since the present invention is configured as this, by building a database of sign language image of an arbitrary shape effectively combines the sign language video on the main video image and audio signals (moving images and audio of the entire screen) , it is possible to satisfy a descriptive video service is natural for the hearing impaired. 【0029】 【発明の実施の形態】以下、本発明の実施形態を、図面を用いて詳細に説明する。 [0029] PREFERRED EMBODIMENTS Hereinafter, the embodiments of the present invention will be described in detail with reference to the drawings. (第1の実施形態)図7及び図8を用いてオブジェクト・ベース符号化方法を説明する。 Describing the object-based coding method using the First Embodiment FIGS. 図7(a)は自然画像、 7 (a) is a natural image,
図7(b)は図7(a)に対応した形状情報画像である。 7 (b) is a shape information image corresponding in Figure 7 (a). このようにオブジェクト・ベース符号化方法は、画像全体でなくオブジェクトの部分のみを符号化することから、画像を高い効率で符号化することができる。 The object-based coding method as, since to encode only a portion of the object rather than the entire image, it is possible to encode the image with high efficiency. 【0030】また、図8(a)では、主たる画像を表示した場合、図8(b)では前記画像に手話画像のオブジェクトを合成した状態を示す。 Further, in FIG. 8 (a), the case of displaying a main picture, showing a state in which the synthesis object of the sign language video on the image in FIG. 8 (b). このようにオブジェクト・ベース符号化では、既にオブジェクトの形状が明確であるため、その背景となる画像との合成が簡易的に可能となる。 In this way, object-based coding, already because the shape of the object is clear, the synthesis of the image serving as the background is simply possible. 【0031】図1は本発明の第一の実施形態としての手話画像のデータベースを作成するための装置構成を示すブロック図である。 [0031] FIG. 1 is a block diagram showing a structure of an apparatus for creating a database of sign language image as a first embodiment of the present invention. 尚、本実施形態では、MPEG-4における実現方法を述べる。 In the present embodiment describes a method implemented in the MPEG-4. またMPEG-4に従い、自然画像による動画像をテクスチャ画像、このテクスチャに対応した符号化すべきオブジェクトの形状情報による動画像をシェイプ画像と称する。 Further in accordance with MPEG-4, the texture image moving images of natural images, referred to as moving images by shape information of an object to be coded corresponding to the texture and shape image. 本装置には、前記テクスチャ画像と、前記シェイプ画像とで構成する2種類の動画像を入力する。 The present apparatus, for inputting said texture image, the two types of moving image to be composed with the shape image. 【0032】図1の構成を説明する。 [0032] explaining the configuration of Figure 1. 100は手話者を撮影するカメラである。 100 is a camera for photographing the signer. 101はカメラ100で撮影した手話者の画像から手話者の領域と背景領域を分割し、 101 divides the signer of the area and the background area from the signer of the image photographed by the camera 100,
手話者の領域を1、背景の領域を0としたバイナリー・ 1 the area of ​​sign language users, binary, which is set to 0 the area of ​​the background
アルファ・プレーンで構成した動画像を生成するシェイプ生成器である。 A shape generator which generates a moving image composed of the alpha plane. 102はカメラからの手話者の自然画像を符号化するテクスチャ符号化器である。 102 is a texture encoder for encoding natural images signer from the camera. 103はシェイプ生成器101からの手話者のシェイプ画像を符号化するシェイプ符号化器である。 103 is a shape encoder for encoding a signer of the shape image from the shape generator 101. 104はテクスチャ符号化器とシェイプ符号化器からのストリームを多重化する多重化器である。 104 is a multiplexer for multiplexing the stream from the texture encoder and the shape encoder. 105は多重化器からの出力と別途入力された手話画像に対応したテキストを関連付け蓄積する手話画像データベースである。 105 is a sign language video database for storing associating an output text corresponding to separately inputted sign language image from the multiplexer. 【0033】次に図1の動作について説明する。 [0033] Next, the operation of FIG. 1 will be described. まず、 First of all,
カメラ100により手話者の画像を撮影する。 By the camera 100 to capture an image of the signer. 撮影については後に他の画像と合成しやすくするため、ブルーバックなどの背景を用いる。 For ease of synthesis and other images later on shooting, using the background, such as a blue back. 撮影した画像からシェイプ生成器101により手話者の形状情報画像を生成する。 Generating the shape information image signer by the shape generator 101 from the captured image. 次に手話者自身の撮影画像(自然画像)をテクスチャ符号化器102へ、形状情報画像をシェイプ符号化器103 Then the captured image of the signer own (natural image) to a texture coder 102, shape information image shape encoder 103
へ入力し、それぞれをオブジェクト符号化する。 Input to, for object coding, respectively. それぞれの符号化データは多重化器104で多重化され手話画像ストリームとして出力され、手話画像の意味であるテキストデータと共にデータベース105へ蓄積される。 Each of the coded data is output as sign language video stream are multiplexed in the multiplexer 104, are stored into the database 105 along with the text data in the sense of sign language image. 【0034】図2は、本発明の第1の実施形態としての主たるオーディオ・ビデオと手話画像を符号化し多重化する装置の全体構成を示すブロック図である。 [0034] FIG. 2 is a block diagram showing the overall configuration of a main audio video and apparatus for multiplexing coded sign language image as a first embodiment of the present invention. 図2の構成を説明する。 The configuration of FIG. 2 will be described. 200は主たるコンテンツであるビデオ信号とオーディオ信号を入力し、符号化する主AV符号化器である。 200 inputs the video signal and the audio signal which is a main content, which is the main AV encoder for encoding. 201は入力したオーディオから音声を認識しそのテキストデータを出力する音声認識器である。 201 is a speech recognizer for outputting the text data to recognize the speech from the input audio. 2
03は音声認識器201からのテキストデータを用いて、前記手話画像データベースから対応する手話画像を検索する手話画像検索器である。 03 by using the text data from the speech recognizer 201, a sign language image search device for searching the corresponding sign language video from the sign language image database. 202は主AV符号化器からの主ストリームと、手話画像検索器203からの手話画像ストリームを多重化する多重化器である。 202 is a multiplexer that multiplexes the main stream from the main AV encoder, a sign language video stream from the sign language image search device 203. 【0035】次に図2の動作について説明する。 [0035] Next, the operation shown in FIG. 2 will be described. まず、 First of all,
主たるビデオとオーディオの素材信号は符号化器200 Material signal of the main video and audio encoder 200
で符号化され主ストリームとして出力される。 In coded are output as a main stream. 同時にオーディオ素材信号は、音声認識器201により音声を認識、解読する。 At the same time audio material signal, recognizing speech by speech recognizer 201, to decrypt. その後、手話画像検索器203により解読した音声に対して蓄積された手話画像データベース1 Then, sign language image search device 203 sign language image database 1 stored for the voice of decoding by
05から整合する手話画像ストリームを取得する。 Acquiring sign language video stream to match the 05. 次に多重化器202により主ストリームと手話画像ストリームを多重化して最終的なビットストリームを出力する。 Then outputs a final bitstream by multiplexing the main stream and sign language video stream by multiplexer 202. 【0036】図3は、本発明の第1の実施形態としての主たるオーディオ・ビデオと手話画像を復号し合成する装置の全体構成を示すブロック図である。 [0036] FIG. 3 is a block diagram showing the overall configuration of the first decoded synthesized device main audio video and sign language images as an embodiment of the present invention. 図3の構成を説明する。 The configuration of FIG. 3 will be described. 300は前記ビットストリームを入力し、主ストリームと手話画像ストリームとに分配する分配器である。 300 inputs the bit stream, a distributor for distributing the main stream and sign language video stream. 301は分配器300からの主ストリームをオーディオ信号とビデオ信号へ復号する主AV復号器である。 301 is a main AV decoder for decoding the main stream from the distributor 300 to the audio and video signals.
302は前記手話画像ストリームから手話者のテクスチャストリームと形状情報であるシェイプストリームを分配する分配器である。 302 is a divider for dividing the shape stream is texture streams and shape information of signer from the sign language video stream. 303は前記テクスチャストリームから手話者のテクスチャ画像信号を復号するテクスチャ復号器である。 303 is a texture decoder for decoding the texture image signal signer from the texture stream. 304は前記シェイプストリームから手話者のシェイプ画像信号を復号するシェイプ復号器である。 304 is a shape decoder for decoding the shape image signal signer from the shape stream. 305は画像合成指示信号を入力し、画像合成指示信号がONの場合は主AV復号器301からのビデオ信号と手話画像復号器302からの信号を合成して出力し、 305 receives the image synthesizing command signal, if the image synthesis instruction signal is ON and outputs the synthesized signal from the video signal and the sign language video decoder 302 from the main AV decoder 301,
OFFの場合は主AV復号器301からのオーディオ・ビデオ信号のみを出力する手話画像合成器である。 For OFF a sign language image synthesizer for outputting only the audio-video signal from the main AV decoder 301. 【0037】次に図3の動作について説明する。 [0037] Next, the operation of FIG. 3 will be described. まず、 First of all,
ストリームを入力し、分配器300により主ストリームと手話画像ストリームを分配する。 Enter the stream, distributing the main stream and the sign language video stream by distributor 300. 主ストリームは主AV The main stream is the main AV
復号器301により復号され主ビデオ信号と主オーディオ信号として出力される。 Decoded by the decoder 301 is output as a main video signal and the main audio signal. 手話画像ストリームは手話画像分配器302により手話者のテクスチャ画像信号となるテクスチャストリームと手話者のシェイプ画像信号となるシェイプストリームへ分配される。 Sign language video stream is distributed to shape stream of the shape image signal of the texture stream and signer of the sign language video distributor 302 becomes texture image signal of the signer. テクスチャストリームはテクスチャ復号器303により手話者のテクスチャ画像信号へ復号され、シェイプストリームはシェイプ復号器304により手話者のシェイプ画像信号へ復号される。 Texture stream is decoded to the texture image signal of the signer by the texture decoder 303, the shape stream is decoded into shape image signal signer by the shape decoder 304. 次に主AV復号器301からの主ビデオ信号とテクスチャ復号器303からのテクスチャ画像信号とシェイプ復号器304からのシェイプ画像信号から手話画像合成器305により主ビデオ信号と手話画像信号を合成したビデオ信号を出力する。 Then the main video signal and a video obtained by synthesizing the main video signal by sign language image synthesizer 305 from the shape image signal and sign language video signal from the texture image signal and shape decoder 304 from the texture decoder 303 from the main AV decoder 301 and it outputs the signal. 【0038】図4にMPEG-4を用いて、主オーディオ・ビデオストリームと手話画像ストリームを多重化したときの全体のストリーム構成を示す。 [0038] with reference to FIG. 4 to MPEG-4, it shows the entire stream configuration when the multiplexed main audio video stream and the sign language video stream. MPEG-4を用いることで、全てのストリームを一定の時間単位でパケット化して、表示時刻を示すTS(Time Stamp)を重畳後多重化することで、各ストリームの表示管理等が容易に可能となる。 MPEG-4 By using, all streams by packetizing at a certain time unit, by multiplexing after superimposing a TS (Time Stamp) indicating a display time, and can easily display management and the like of each stream Become. 【0039】図5に前記手話画像合成器305の動作フローチャートを示す。 [0039] FIG 5 shows an operation flow chart of the sign language video synthesizer 305. まず主オーディオ・ビデオ信号及び手話画像信号(テクスチャ画像とシェイプ画像)を入力する(400)。 First enter the main audio and video signals and the sign language video signals (texture image and shape image) (400). 次に必ず出力すべき主たるビデオ信号を出力する(401)。 Then it outputs the main video signal to be always output (401). 次に手話画像を合成して表示するための指示信号を入力する(402)。 Then inputs an instruction signal for displaying by combining sign language image (402). 合成するように指示を受けた場合、つまり合成表示指示信号がONの場合は、主ビデオに手話画像を合成したビデオ信号を出力する(404)。 When receiving an instruction to synthesize, that is, when the composite display instruction signal is ON, and outputs a video signal obtained by combining the sign language video in the main video (404). 指示信号がOFFの場合は合成を行わず主ビデオ信号を出力し(401)、同時にオーディオ信号を出力する(403)。 If the instruction signal is OFF and outputs the main video signal without combining (401), and outputs the audio signal simultaneously (403). 【0040】第1の実施形態のその他の構成を説明する。 [0040] illustrating the other configuration of the first embodiment. 本実施形態では、オブジェクト・ベース符号化方式について国際標準であるMPEG-4を用いているが、その他のオブジェクト・ベース符号化方式に適用してもよい。 In the present embodiment uses the MPEG-4 is an international standard for object-based coding method may be applied to other object-based coding scheme.
また、オブジェクト・ベース符号化方式以外の符号化及び復号はMPEG-4以外、例えばMPEG-1,2などであってもかまわない。 The encoding and decoding of non-object-based coding scheme may be a non-MPEG-4, for example, MPEG-1, 2, etc.. 手話画像合成器305ではオーディオと手話画像をスイッチしているが、手話画像のみを合成もしくは非出力として、オーディオは出力したままとしてもかまわない。 While switched sign language video combiner 305 the audio and sign language video, a synthetic or non-output only sign language video, audio may be kept output. 【0041】第1の実施形態の効果を説明する。 [0041] To explain the effects of the first embodiment. 本実施形態は、符号化した手話画像ストリームを用いて手話画像データベースを構築するため、少ないデータ容量で多くの手話画像を蓄積する手段を提供する。 This embodiment is to build a sign language image database using a sign language video stream obtained by encoding, provides a means for storing the number of sign language image with a small data volume. 手話画像を自然画像にて作成するため、CGなどの画像に比較して、手話者の細やかな表情や動きを蓄積することができる。 To create a sign language video by natural image can be compared to images such as CG, it accumulates delicate facial expressions and movements of the signer. オブジェクト・ベース符号化を用いて手話画像を符号化しているため、他の画像との合成がしやすい。 Since the coded sign language video by using the object-based coding, easier to synthesize with other images. 【0042】(第2の実施形態)図6は、第2の実施形態におけるコンピュータの構成を示すブロック図である。 [0042] (Second Embodiment) FIG. 6 is a block diagram showing a configuration of a computer according to the second embodiment. 500はコンピュータ全体の制御、及び種々の処理を行う中央演算装置(CPU)、501は本コンピュータの制御に必要なオペレーティングシステム(OS)、ソフトウエア、データ、演算に必要な記憶領域を提供するメモリである。 500 controls the entire computer, and a central processing unit that performs various processes (CPU), 501 is an operating system necessary for controlling the computer (OS), software, memory to provide data, a storage area required for the operation it is. また、CPU500が各種の処理を行う際のワークエリアとしても用いられる。 Further, CPU 500 is also used as a work area when performing various processes. 【0043】502は種々の装置をつなぎ、データ、制御信号をやりとりするバス、503は各種のソフトウエアを蓄積する記憶装置、504は動画像データを蓄積する記憶装置、505は画像やコンピュータからのシステムメッセージなどを表示するモニタである。 [0043] 502 connecting the various devices, data bus for exchanging control signals, 503 a storage device for storing various software, 504 storage device for storing moving picture data, 505 from the image and the computer a monitor for displaying the system message. 【0044】507は通信回路に符号化データを送信する通信インターフェースであり、装置外部のLAN、公衆回線、無線回線、放送電波等と接続されている。 [0044] 507 is a communication interface for transmitting the encoded data to the communication circuit, outside the apparatus LAN, public line, wireless line, and is connected to the broadcast radio waves. 506 506
はコンピュータを起動したり、ビットレート等の各種条件を設定したりするための端末である。 Is a terminal to allow setting and starting the computer, the various conditions such as the bit rate. 【0045】メモリ501にはコンピュータ全体を制御し、各種ソフトウエアを動作させるためのOSや動作させるソフトウエアを格納し、画像データを符号化のために読み込むエリア、一時的に符号データを格納する符号エリア、各種演算のパラメータ等を格納しておくワーキングエリアが存在する。 [0045] memory 501 controls the entire computer, stores the OS and operates to cause the software to operate the various software and storage area to read the image data for encoding, temporarily code data code area and a working area for storing parameters for various operations such as exists. 【0046】図6の動作を説明する。 [0046] to explain the operation of FIG. 6. 上記のような構成において、処理に先立ち、端末506から記憶装置50 With the above construction, prior to processing, storage device from the terminal 506 50
4に蓄積されている手話動画像及び対するテキストデータから符号化する動画像データを選択し、コンピュータの起動が指示される。 And sign language movie stored in the 4 to select the video data to be coded from the text data against, the computer starts is indicated. すると、記憶装置503に格納されているソフトウエアがバス502を介してメモリ50 Then, the memory 50 the software stored in the storage unit 503 via the bus 502
1に展開され、ソフトウエアが起動される。 Is expanded to 1, the software is started. そして、CP Then, CP
U500により図1、図2、図3に示した処理を順次実現する。 1 by U500, 2, successively realizing the processing shown in FIG. 【0047】本実施形態におけるコンピュータは、第1 The computer according to this embodiment, the first
の実施形態における任意形状の手話画像のデータベースを効率的に構築し、主たるAVストリーム(全画面の動画像と音声)に手話画像を合成する装置として機能する。 Of building a database of sign language image of an arbitrary shape efficiently in an embodiment, functions as a device for synthesizing a sign language video on the main AV stream (moving images and audio of the entire screen). 【0048】以上の説明から明らかなように、第1及び第2の実施形態は、オブジェクト・ベース符号化装置及びその方法を用いて、任意形状の手話画像のデータベースを効率的に構築し、主たるAVストリーム(全画面の動画像と音声)に手話画像を合成することで、聴覚障害者にとって自然でわかりやすい映像サービスを充足させる手段を提供する。 [0048] As apparent from the above description, the first and second embodiments, by using the object-based coding apparatus and method, to build a database of sign language image of an arbitrary shape efficiently, principal AV stream to synthesize the (moving images and audio of the entire screen) into sign language image, provides a means to satisfy a descriptive video service native to deaf. 【0049】本実施形態は、コンピュータがプログラムを実行することによって実現することができる。 [0049] This embodiment can be realized by a computer executing a program. また、 Also,
プログラムをコンピュータに供給するための手段、例えばかかるプログラムを記録したCD−ROM等の記録媒体又はかかるプログラムを伝送するインターネット等の伝送媒体も本発明の実施形態として適用することができる。 Transmission media such as the Internet for transmitting means for supplying a program to a computer, for example, a recording medium or the program of the CD-ROM or the like which records the program can also be applied as an embodiment of the present invention. 上記のプログラム、記録媒体及び伝送媒体は、本発明の範疇に含まれる。 The program, the recording media, and transmission media are included in the scope of the present invention. 記録媒体としては、例えばフレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。 As the recording medium, it is possible to use a flexible disk, a hard disk, optical disk, CD-ROM, magnetic tape, nonvolatile memory card, a ROM or the like. 【0050】なお、上記実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、 [0050] The above embodiments are all merely illustrate concrete examples of implementing the present invention,
これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。 Technical scope of the present invention is one that should not be limitedly interpreted. すなわち、本発明はその技術思想、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。 That is, the present invention without departing from its spirit or essential characteristics thereof, can be implemented in various forms. 【0051】 【発明の効果】以上説明したように、任意形状の手話画像のデータベースを効率的に構築し、主たる動画像及びオーディオ信号(全画面の動画像と音声)に手話画像を合成することで、聴覚障害者にとって自然でわかりやすい映像サービスを充足させることができる。 [0051] As described above, according to the present invention, to construct a database of sign language image of an arbitrary shape efficiently synthesizing the sign language video on the main video image and audio signals (moving images and audio of the entire screen) in, it is possible to satisfy a descriptive video service is natural for the hearing impaired.

【図面の簡単な説明】 【図1】本発明の第1の実施形態としての手話画像データベース作成装置の全体構成を示すブロック図である。 It is a block diagram showing the overall structure of a sign language image database creation device as a first embodiment of the BRIEF DESCRIPTION OF THE DRAWINGS [Figure 1] present invention. 【図2】本発明の第1の実施形態としての主たるオーディオ・ビデオと手話画像を符号化し多重化する装置の全体構成を示すブロック図である。 A main audio video and sign language images as a first embodiment of the present invention; FIG is a block diagram showing the overall structure of an apparatus for multiplexing encoded. 【図3】本発明の第1の実施形態としての主たるオーディオ・ビデオと手話画像を復号し合成する装置の全体構成を示すブロック図である。 3 is a block diagram showing the overall configuration of a main audio video and apparatus for decoded synthesized sign language image as a first embodiment of the present invention. 【図4】主たるオーディオ・ビデオストリームと手話画像ストリームを多重化したときの全体のストリーム構成を示す図である。 4 is a diagram showing the entire stream configuration when the multiplexed main audio video stream and the sign language video stream. 【図5】手話画像を合成する際の動作フローチャートである。 5 is an operation flowchart of the synthesis of the sign language video. 【図6】本発明の第2の実施形態としてのコンピュータの構成を示すブロック図である。 6 is a block diagram showing a configuration of a computer according to a second embodiment of the present invention. 【図7】手話者をオブジェクト符号化する際の自然画像と形状情報画像の例を示す図である。 7 is a diagram showing an example of a natural image and shape information image at the time of object coding the signer. 【図8】主たる画像に対して手話画像を合成した際の画像例を示す図である。 8 is a diagram showing an example image at the time of synthesizing the sign language image to main image. 【符号の説明】 100 カメラ101 シェイプ生成器102 テクスチャ符号化器103 シェイプ符号化器104、202 多重化器105 手話画像データベース200 主AV符号化器201 音声認識器203 手話画像検索器300 分配器301 主AV復号器302 手話画像分配器303 テクスチャ復号器304 シェイプ復号器305 手話画像合成器500 CPU 501 メモリ502 バス503、504 記憶メディア505 モニタ506 端末507 通信I/F [Description of Reference Numerals] 100 camera 101 Shape generator 102 texture encoder 103 shape encoder 104, 202 multiplexer 105 sign language image database 200 main AV encoder 201 the speech recognizer 203 sign language image search device 300 divider 301 The main AV decoder 302 sign language video distributor 303 texture decoder 304 shape decoder 305 sign language video synthesizer 500 CPU 501 memory 502 bus 503, 504 storage medium 505 monitor 506 device 507 communication I / F

フロントページの続き (51)Int.Cl. 7識別記号 FI テーマコート゛(参考) H04N 7/08 G10L 3/00 551G 7/081 551C Fターム(参考) 5C023 AA06 AA17 AA37 AA38 BA02 BA11 CA01 CA05 DA04 5C052 AA01 AC08 CC11 DD04 DD06 5C059 KK37 MA00 MB03 MB06 MB12 MB23 PP04 PP28 PP29 RB01 RB18 RC19 RC32 SS06 SS12 SS19 SS30 UA02 UA05 5C063 AB07 AC01 AC05 CA11 CA20 CA36 5D015 KK01 Of the front page Continued (51) Int.Cl. 7 identification mark FI theme Court Bu (Reference) H04N 7/08 G10L 3/00 551G 7/081 551C F -term (reference) 5C023 AA06 AA17 AA37 AA38 BA02 BA11 CA01 CA05 DA04 5C052 AA01 AC08 CC11 DD04 DD06 5C059 KK37 MA00 MB03 MB06 MB12 MB23 PP04 PP28 PP29 RB01 RB18 RC19 RC32 SS06 SS12 SS19 SS30 UA02 UA05 5C063 AB07 AC01 AC05 CA11 CA20 CA36 5D015 KK01

Claims (1)

  1. 【特許請求の範囲】 【請求項1】 手話画像のデータベースを作成するデータベース作成手段と、 主たる動画像を符号化して前記データベース内の手話画像と多重化する多重化手段と、 前記多重化された画像から主たる動画像と手話画像を復号し、合成出力する手段とを備えた画像処理装置。 A database creation means for creating a database of the Claims 1] sign language video, and multiplexing means for sign language video multiplexed within the database encoding a main video image, which is the multiplexed the image processing apparatus that includes a means for decoding the main moving image and the sign language video from the image, synthesized outputs. 【請求項2】 動画像のオブジェクト・ベース符号化を行い、手話画像のデータベースを作成する画像処理装置であって、 手話者の動画像を入力する動画像入力手段と、 手話者のみをオブジェクトとして抽出し形状情報の動画像を獲得するオブジェクト抽出手段と、 前記手話者の動画像を符号化する自然画像符号化手段と、 前記形状情報の動画像を符号化する形状情報画像符号化手段と、 前記符号化後の自然画像と形状情報画像とを多重化する多重化手段と、 前記手話画像の意味をテキストデータとして入力するテキスト入力手段と、 前記多重化した画像と前記テキストデータをデータベース化して蓄積するデータベース蓄積手段とを備えた画像処理装置。 2. A performs object-based coding of moving picture, an image processing apparatus for creating a database of sign language image, the moving image input means for inputting a moving image of signer, only signer as objects extracted and object extracting means for obtaining a moving image of the shape information, and natural image coding means for coding a moving image of the signer, and shape information image coding means for coding a moving image of the shape information, and multiplexing means for multiplexing the natural image and the shape information image after the coding, a text input means for inputting the meaning of the sign language image as text data, the text data to a database of said multiplexed image storing an image processing apparatus that includes a database storing means for. 【請求項3】 主たる動画像信号とオーディオ信号を符号化する符号化手段と、 前記オーディオ信号から音声の情報を抽出し認識する音声認識手段と、 前記認識した音声データを利用し手話画像のデータベースから所望の手話画像を検索する手話画像検索手段と、 前記符号化した主たる動画像信号とオーディオ信号と前記手話画像を多重化して出力する多重化手段とを備えた画像処理装置。 3. A database of main moving image signal and encoding means for encoding an audio signal, a speech recognition means for recognizing and extracting the information of the audio from the audio signal, using the audio data the recognized sign language image a sign language video retrieval means for retrieving a desired sign language image from the image processing apparatus including a multiplexing means and outputting the multiplexing the sign language video with the main moving image signal and an audio signal obtained by the encoding. 【請求項4】 入力信号を、主たる動画像信号及びオーディオ信号の組みと、手話画像とに分配する第1の分配手段と、 前記主たる動画像信号及びオーディオ信号を復号する第1の復号手段と、 前記手話画像から、手話者の自然画像と手話者の形状情報画像とに分配する第2の分配手段と、 前記手話者の自然画像を復号する第2の復号手段と、 前記手話者の形状情報画像を復号する第3の復号手段と、 前記主たる動画像信号と前記手話者の自然画像と形状情報画像から、主たる動画像と手話画像を合成する合成手段とを備えた画像処理装置。 The wherein the input signal, and set the main moving image and audio signals, a first distributing means for distributing to the sign language video, a first decoding means for decoding the main moving image and audio signals , from the sign language video, and a second decoding means for decoding the second distribution means for distributing the shape information image of a natural image and signer of signer, a natural image of the signer, the shape of the signer third decoding means for decoding the information image, the natural image and the shape information image of the main moving image signal and the signer, an image processing apparatus and a combining means for combining the main video image and sign language images. 【請求項5】 前記合成手段は、 前記主たる動画像と前記手話画像とを合成することを指示する指示信号を入力する入力手段と、 前記指示信号を受けて、指示信号が合成指示する場合、 Wherein said combining means includes input means for inputting an instruction signal for instructing to synthesize and said sign language video with the main video image, receiving said indication signal, if the instruction signal to synthesis instruction,
    主たる動画像と手話画像を合成し、合成指示しない場合、主たる動画像と手話画像を合成しないで主たる動画像を出力する切り替え手段とを備えた請求項4記載の画像処理装置。 The main video by combining the image and the sign language video, synthetic If not indicated, the main moving image and the image processing apparatus according to claim 4, further comprising a switching means for the sign language video outputs a main moving image without combining. 【請求項6】 前記切り替え手段は、指示信号が合成指示する場合、主たる動画像と手話画像を合成して出力し、合成指示しない場合、主たる動画像とオーディオ信号を出力する請求項5記載の画像処理装置。 Wherein said switching means, when the instruction signal is synthesis instruction, outputs the main video image and sign language video combined and, if not synthesis instruction, according to claim 5, wherein the outputting the main moving image and audio signal image processing apparatus. 【請求項7】 手話画像のデータベースを作成するデータベース作成ステップと、 主たる動画像を符号化して前記データベース内の手話画像と多重化する多重化ステップと、 前記多重化された画像から主たる動画像と手話画像を復号し、合成出力するステップとを備えた画像処理方法。 A database creation step of creating a database of 7. sign language video, a multiplexing step for sign language video multiplexed with the database by encoding a main moving image, the main moving image from the multiplexed image the image processing method comprising the steps of decoding the sign language video, and composite output. 【請求項8】 動画像のオブジェクト・ベース符号化を行い、手話画像のデータベースを作成する画像処理方法であって、 手話者の動画像を入力する動画像入力ステップと、 手話者のみをオブジェクトとして抽出し形状情報の動画像を獲得するオブジェクト抽出ステップと、 前記手話者の動画像を符号化する自然画像符号化ステップと、 前記形状情報の動画像を符号化する形状情報画像符号化ステップと、 前記符号化後の自然画像と形状情報画像とを多重化する多重化ステップと、 前記手話画像の意味をテキストデータとして入力するテキスト入力ステップと、 前記多重化した画像と前記テキストデータをデータベース化して蓄積するデータベース蓄積ステップとを備えた画像処理方法。 8. perform object-based coding of moving picture, an image processing method for creating a database of sign language image, a moving image input step of inputting a moving image of signer, only signer as objects extracted with object extraction step of acquiring a moving image of the shape information, and natural image encoding step of encoding the moving image of the signer, and shape information image encoding step of encoding the moving image of the shape information, a multiplexing step of multiplexing the natural image and the shape information image after the coding, a text input step of inputting the meaning of the sign language image as text data, the text data to a database of said multiplexed image the image processing method and a database storage step of storing. 【請求項9】 主たる動画像信号とオーディオ信号を符号化する符号化ステップと、 前記オーディオ信号から音声の情報を抽出し認識する音声認識ステップと、 前記認識した音声データを利用し手話画像のデータベースから所望の手話画像を検索する手話画像検索ステップと、 前記符号化した主たる動画像信号とオーディオ信号と前記手話画像を多重化して出力する多重化ステップとを備えた画像処理方法。 9. A coding step of encoding the main moving image signal and an audio signal, a speech recognition step recognizes and extracts information of audio from the audio signal, using the audio data the recognition of sign language image database a sign language image search step of searching a desired sign language image from the image processing method and a multiplexing step for outputting the multiplexed main moving image signal and an audio signal obtained by the encoding and the sign language video. 【請求項10】 入力信号を、主たる動画像信号及びオーディオ信号の組みと、手話画像とに分配する第1の分配ステップと、 前記主たる動画像信号及びオーディオ信号を復号する第1の復号ステップと、 前記手話画像から、手話者の自然画像と手話者の形状情報画像とに分配する第2の分配ステップと、 前記手話者の自然画像を復号する第2の復号ステップと、 前記手話者の形状情報画像を復号する第3の復号ステップと、 前記主たる動画像信号と前記手話者の自然画像と形状情報画像から、主たる動画像と手話画像を合成する合成ステップとを備えた画像処理方法。 The method according to claim 10 the input signal, and set the main moving image and audio signals, a first distribution step of distributing to the sign language video, a first decoding step of decoding the main moving image and audio signals , from the sign language video, and a second decoding step of decoding the second distribution step of distributing the shape information image of a natural image and signer of signer, a natural image of the signer, the shape of the signer third decoding step and the natural image and the shape information image of the main moving image signal and the signer, an image processing method and a synthesis step of synthesizing the main moving image and sign language image for decoding the information image. 【請求項11】 手話画像のデータベースを作成するデータベース作成手順と、 主たる動画像を符号化して前記データベース内の手話画像と多重化する多重化手順と、 前記多重化された画像から主たる動画像と手話画像を復号し、合成出力する手順とをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。 11. A database creation procedure for creating a database of sign language image, a multiplexing procedure of sign language image and multiplexed in the database by encoding a main moving image, the main moving image from the multiplexed image a computer-readable recording medium storing a program for executing a procedure for decoding the sign language video, and composite output to the computer. 【請求項12】 動画像のオブジェクト・ベース符号化を行い、手話画像のデータベースを作成するプログラムを記録した記録媒体であって、 手話者の動画像を入力する動画像入力手順と、 手話者のみをオブジェクトとして抽出し形状情報の動画像を獲得するオブジェクト抽出手順と、 前記手話者の動画像を符号化する自然画像符号化手順と、 前記形状情報の動画像を符号化する形状情報画像符号化手順と、 前記符号化後の自然画像と形状情報画像とを多重化する多重化手順と、 前記手話画像の意味をテキストデータとして入力するテキスト入力手順と、 前記多重化した画像と前記テキストデータをデータベース化して蓄積するデータベース蓄積手順とをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能 12. performs object-based coding of moving picture, a recording medium recording a program to create a database of the sign language video, a moving image input procedure of inputting a moving image of signer, signer only an object extraction procedure to obtain a moving image of the extracted shape information as an object and a natural image coding procedure for coding a moving picture of the signer, the shape information image coding for coding a moving picture of the shape information and instructions, and a multiplex procedure for multiplexing the natural image and the shape information image after the encoding, the text input procedures for inputting the meaning of the sign language image as text data, the text data and the multiplexed image program recording a computer-readable a for executing the database storage procedure for storing in a database on the computer 記録媒体。 Recording medium. 【請求項13】 主たる動画像信号とオーディオ信号を符号化する符号化手順と、 前記オーディオ信号から音声の情報を抽出し認識する音声認識手順と、 前記認識した音声データを利用し手話画像のデータベースから所望の手話画像を検索する手話画像検索手順と、 前記符号化した主たる動画像信号とオーディオ信号と前記手話画像を多重化して出力する多重化手順とをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。 13. A encoding procedure to encode the main moving image signal and an audio signal, a voice recognition procedure to recognize and extract information of audio from the audio signal, using the audio data the recognition of sign language image database a sign language video search procedure to find the desired sign language image from recording a program for executing a main moving image signal and an audio signal obtained by the encoding and the sign language video and a multiplexing procedure and outputs the multiplexed to the computer computer readable recording medium. 【請求項14】 入力信号を、主たる動画像信号及びオーディオ信号の組みと、手話画像とに分配する第1の分配手順と、 前記主たる動画像信号及びオーディオ信号を復号する第1の復号手順と、 前記手話画像から、手話者の自然画像と手話者の形状情報画像とに分配する第2の分配手順と、 前記手話者の自然画像を復号する第2の復号手順と、 前記手話者の形状情報画像を復号する第3の復号手順と、 前記主たる動画像信号と前記手話者の自然画像と形状情報画像から、主たる動画像と手話画像を合成する合成手順とをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。 14. A input signal, the set of main moving image and audio signals, a first distribution procedure for partitioned between sign language video, a first decoding procedure for decoding the main moving image and audio signals , from the sign language video, and a second decoding procedure for decoding the second distribution steps to be distributed to the shape information image of the natural image and signer of signer, a natural image of the signer, the shape of the signer a third decoding procedure for decoding the information image, the natural image and the shape information image of the main moving image signal and the signer, a program for executing a combining procedure for combining a main moving image and the sign language video on the computer a computer-readable recording medium. 【請求項15】 手話画像のデータベースを作成するデータベース作成手順と、 主たる動画像を符号化して前記データベース内の手話画像と多重化する多重化手順と、 前記多重化された画像から主たる動画像と手話画像を復号し、合成出力する手順とをコンピュータに実行させるためのプログラム。 15. A database creation procedure for creating a database of sign language image, a multiplexing procedure of sign language image and multiplexed in the database by encoding a main moving image, the main moving image from the multiplexed image program for executing a procedure for decoding the sign language video, and composite output to the computer. 【請求項16】 動画像のオブジェクト・ベース符号化を行い、手話画像のデータベースを作成するプログラムであって、 手話者の動画像を入力する動画像入力手順と、 手話者のみをオブジェクトとして抽出し形状情報の動画像を獲得するオブジェクト抽出手順と、 前記手話者の動画像を符号化する自然画像符号化手順と、 前記形状情報の動画像を符号化する形状情報画像符号化手順と、 前記符号化後の自然画像と形状情報画像とを多重化する多重化手順と、 前記手話画像の意味をテキストデータとして入力するテキスト入力手順と、 前記多重化した画像と前記テキストデータをデータベース化して蓄積するデータベース蓄積手順とをコンピュータに実行させるためのプログラム。 16. performs object-based coding of moving picture, a program to create a database of the sign language video, and extracted with moving image input procedure of inputting a moving image of signer, only signer as objects an object extraction procedure to obtain a moving image of the shape information, a natural image coding procedure for coding a moving picture of the signer, and shape information image coding procedure for coding a moving picture of the shape information, the code a multiplexing procedure for multiplexing the natural image and the shape information image after reduction, a text input procedures for inputting the meaning of the sign language image as text data, and accumulates the database of the text data and the multiplexed image program for executing a database storing instructions to the computer. 【請求項17】 主たる動画像信号とオーディオ信号を符号化する符号化手順と、 前記オーディオ信号から音声の情報を抽出し認識する音声認識手順と、 前記認識した音声データを利用し手話画像のデータベースから所望の手話画像を検索する手話画像検索手順と、 前記符号化した主たる動画像信号とオーディオ信号と前記手話画像を多重化して出力する多重化手順とをコンピュータに実行させるためのプログラム。 17. The database of the main moving image signal and a coding procedure of coding an audio signal, a voice recognition procedure to recognize and extract information of audio from the audio signal, utilizing sign language video audio data the recognition desired and sign language video search procedure for searching the sign language video, the encoded program for executing the sign language video with the main moving image signal and an audio signal and a multiplexed procedure and outputs the multiplexed to the computer from. 【請求項18】 入力信号を、主たる動画像信号及びオーディオ信号の組みと、手話画像とに分配する第1の分配手順と、 前記主たる動画像信号及びオーディオ信号を復号する第1の復号手順と、 前記手話画像から、手話者の自然画像と手話者の形状情報画像とに分配する第2の分配手順と、 前記手話者の自然画像を復号する第2の復号手順と、 前記手話者の形状情報画像を復号する第3の復号手順と、 前記主たる動画像信号と前記手話者の自然画像と形状情報画像から、主たる動画像と手話画像を合成する合成手順とをコンピュータに実行させるためのプログラム。 The 18. Input signals, and set the main moving image and audio signals, a first distribution procedure for partitioned between sign language video, a first decoding procedure for decoding the main moving image and audio signals , from the sign language video, and a second decoding procedure for decoding the second distribution steps to be distributed to the shape information image of the natural image and signer of signer, a natural image of the signer, the shape of the signer a third decoding procedure for decoding the information image, the natural image and the shape information image of the main moving image signal and the signer, a program for executing a combining procedure for combining a main moving image and the sign language video on the computer .
JP2001250392A 2001-08-21 2001-08-21 Image processor, image processing method, recording medium and program Pending JP2003061098A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001250392A JP2003061098A (en) 2001-08-21 2001-08-21 Image processor, image processing method, recording medium and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001250392A JP2003061098A (en) 2001-08-21 2001-08-21 Image processor, image processing method, recording medium and program

Publications (1)

Publication Number Publication Date
JP2003061098A true JP2003061098A (en) 2003-02-28

Family

ID=19079217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001250392A Pending JP2003061098A (en) 2001-08-21 2001-08-21 Image processor, image processing method, recording medium and program

Country Status (1)

Country Link
JP (1) JP2003061098A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005066951A1 (en) * 2004-01-06 2005-07-21 Lg Electronics Inc. Recording medium and recording and reproducing methods and apparatuses
US7512322B2 (en) 2004-03-17 2009-03-31 Lg Electronics, Inc. Recording medium, method, and apparatus for reproducing text subtitle streams
US7558467B2 (en) 2004-02-26 2009-07-07 Lg Electronics, Inc. Recording medium and method and apparatus for reproducing and recording text subtitle streams
US7561780B2 (en) 2004-02-10 2009-07-14 Lg Electronics, Inc. Text subtitle decoder and method for decoding text subtitle streams
US7571386B2 (en) 2004-05-03 2009-08-04 Lg Electronics Inc. Recording medium having a data structure for managing reproduction of text subtitle data and methods and apparatuses associated therewith
US7587405B2 (en) 2004-02-10 2009-09-08 Lg Electronics Inc. Recording medium and method and apparatus for decoding text subtitle streams
US7634175B2 (en) 2004-04-26 2009-12-15 Lg Electronics Inc. Recording medium, reproducing method thereof and reproducing apparatus thereof
US7643732B2 (en) 2004-02-10 2010-01-05 Lg Electronics Inc. Recording medium and method and apparatus for decoding text subtitle streams

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005066951A1 (en) * 2004-01-06 2005-07-21 Lg Electronics Inc. Recording medium and recording and reproducing methods and apparatuses
US7751688B2 (en) 2004-01-06 2010-07-06 Lg Electronics Inc. Methods and apparatuses for reproducing subtitle streams from a recording medium
US7643732B2 (en) 2004-02-10 2010-01-05 Lg Electronics Inc. Recording medium and method and apparatus for decoding text subtitle streams
US7561780B2 (en) 2004-02-10 2009-07-14 Lg Electronics, Inc. Text subtitle decoder and method for decoding text subtitle streams
US7587405B2 (en) 2004-02-10 2009-09-08 Lg Electronics Inc. Recording medium and method and apparatus for decoding text subtitle streams
US7558467B2 (en) 2004-02-26 2009-07-07 Lg Electronics, Inc. Recording medium and method and apparatus for reproducing and recording text subtitle streams
US7512322B2 (en) 2004-03-17 2009-03-31 Lg Electronics, Inc. Recording medium, method, and apparatus for reproducing text subtitle streams
US7634175B2 (en) 2004-04-26 2009-12-15 Lg Electronics Inc. Recording medium, reproducing method thereof and reproducing apparatus thereof
US7571386B2 (en) 2004-05-03 2009-08-04 Lg Electronics Inc. Recording medium having a data structure for managing reproduction of text subtitle data and methods and apparatuses associated therewith
US8429532B2 (en) 2004-05-03 2013-04-23 Lg Electronics Inc. Methods and apparatuses for managing reproduction of text subtitle data

Similar Documents

Publication Publication Date Title
US6560364B2 (en) Object-based digital image predictive coding transfer method and apparatus, and decoding apparatus
KR101099884B1 (en) Moving picture data encoding method, decoding method, terminal device for executing them, and bi-directional interactive system
JP4959504B2 (en) System and method for interfacing MPEG coded audio-visual objects capable of adaptive control
US20080170806A1 (en) 3D image processing apparatus and method
EP0969668A2 (en) Copyright protection for moving image data
CN102273210B (en) Method for displaying 3d caption and 3d display apparatus for implementing the same
US20020031262A1 (en) Method and device for media editing
CN1835574B (en) Apparatus and method for recording/reproducing
CN1247029C (en) Method and device for generation of bit stream containing binary image/audio data
JP4930810B2 (en) Image processing apparatus, image processing method, and recording medium
TWI364990B (en) Method and apparatus for decoding/encoding of a video signal
EP0954181A2 (en) Data processing apparatus and method
KR101240261B1 (en) The apparatus and method for image communication of mobile communication terminal
US5608839A (en) Sound-synchronized video system
US6580756B1 (en) Data transmission method, data transmission system, data receiving method, and data receiving apparatus
US7039675B1 (en) Data communication control apparatus and method adapted to control distribution of data corresponding to various types of a plurality of terminals
JP4393591B2 (en) Object-oriented audio-visual terminal and bitstream structure
CN100591142C (en) Stereoscoping parameter burying device, and stereoscopic image reproducing device and method
US7054539B2 (en) Image processing method and apparatus
US6339760B1 (en) Method and system for synchronization of decoded audio and video by adding dummy data to compressed audio data
US5710590A (en) Image signal encoding and communicating apparatus using means for extracting particular portions of an object image
Koenen MPEG-4 multimedia for our time
JP3793142B2 (en) Moving image processing method and apparatus
JP3843269B2 (en) The image display apparatus and method of a portable terminal
JP2009510877A (en) Face annotation in streaming video using face detection