JP2611728B2 - 動画像符号化復号化方式 - Google Patents

動画像符号化復号化方式

Info

Publication number
JP2611728B2
JP2611728B2 JP27421993A JP27421993A JP2611728B2 JP 2611728 B2 JP2611728 B2 JP 2611728B2 JP 27421993 A JP27421993 A JP 27421993A JP 27421993 A JP27421993 A JP 27421993A JP 2611728 B2 JP2611728 B2 JP 2611728B2
Authority
JP
Japan
Prior art keywords
image
speech
voice
receiving side
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP27421993A
Other languages
English (en)
Other versions
JPH07131767A (ja
Inventor
裕 横山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP27421993A priority Critical patent/JP2611728B2/ja
Priority to US08/329,331 priority patent/US5557661A/en
Publication of JPH07131767A publication Critical patent/JPH07131767A/ja
Application granted granted Critical
Publication of JP2611728B2 publication Critical patent/JP2611728B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • H04N21/23106Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion involving caching operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4331Caching operations, e.g. of an advertisement for later insertion during playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/637Control signals issued by the client directed to the server or network components
    • H04N21/6377Control signals issued by the client directed to the server or network components directed to server
    • H04N21/6379Control signals issued by the client directed to the server or network components directed to server directed to encoder, e.g. for requesting a lower encoding rate
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、少数の動画像を伝送し
ておき、音声情報をもとに画像を選択して表示する顔動
画像の符号化復号化方式に関し、特に、低ビットレート
の通信回線を利用した動画像符号化復号化方式に関す
る。
【0002】
【従来の技術】低いビットレートの通信回線における音
声画像通信として、公衆電話回線を利用したテレビ電話
があるが、静止画の伝送に限られている。
【0003】また、特開平2−36687号公報に記載
の方式では、静止画を初期化時に伝送し、伝送される音
声情報に応じて、受信側で初期化時に伝送された静止画
初期データから顔の動画像を合成して表示している。
【0004】
【発明が解決しようとする課題】上述した従来技術のう
ち、テレビ電話では静止画伝送であり自然な動画像を再
生することができない。
【0005】また、画像を合成する特開平2−3668
7号公報記載の方法では、複雑な画像解析や画像合成の
手段が必要であり、実現のためのコストが大きくなると
いう欠点がある。
【0006】本発明の目的は、動画像を画像メモリに蓄
えておき、入力音声の解析結果をもとに、画像メモリ内
の画像を選択し表示することで、複雑な画像解析および
画像合成などの処理を行なうことなく簡便な方法にて実
画像に近い、より自然な画像表示を行ない、かつ、伝送
容量が小さく限定された場合にも実際の発話状態に類似
した画像を良好な画質で復号再生できる動画像の符号化
復号化方式を提供することにある。
【0007】
【課題を解決するための手段】第1の発明の動画像の符
号化復号化方式は、前記入力音声を符号化し音声符号化
データを受信側に出力する音声符号化手段と、入力音声
を解析し有限個の発声状態の認識を行ない音声認識結果
を出力するとともに前記音声認識結果に対応する入力画
像の符号化データの送信履歴情報を記憶し前記音声認識
結果に対応する入力画像の符号化データを送信していな
い場合に制御信号を発生する音声解析手段と、入力画像
を符号化し前記制御信号を受信した場合に画像符号化デ
ータを受信側に出力する画像符号化手段とを送信側に備
え、前記音声符号化データを復号して復号音声を出力す
る音声復号化手段と、前記画像符号化データを受信した
場合に復号して復号画像を出力する画像復号化手段と、
前記復号画像を蓄積しておき前記音声認識結果を受信し
対応する画像を選択し出力する画像蓄積手段とを受信側
に備えることを特徴としている。
【0008】第2の発明の動画像の符号化復号化方式
は、第1の発明の動画像の符号化復号化方式において、
音声解析により認識されるすべての発声状態に対応する
画像データの蓄積を通話開始前の初期化操作として行な
うことを特徴としている。
【0009】第3の発明の動画像の符号化復号化方式
は、第1の発明の動画像の符号化復号化方式において、
初期化信号が発生するたびに音声認識結果に対応する入
力画像の符号化データの送信履歴情報を初期化し受信側
の画像蓄積手段に蓄積されている画像データを更新する
ことを特徴としている。
【0010】第4の発明の動画像の符号化復号化方式
は、第2の発明の動画像の符号化復号化方式において、
初期化信号が発生するたびに、音声解析により認識され
るすべての発声状態に対応する画像データを蓄積する初
期化操作を行ない、受信側の画像蓄積手段に蓄積されて
いる画像データを更新することを特徴としている。
【0011】第5の発明の動画像の符号化復号化方式
は、入力音声を符号化し音声符号化データを受信側に出
力する音声符号化手段と、入力画像を符号化し受信側か
らの制御信号を受信した場合に画像符号化データを受信
側に出力する画像符号化手段とを送信側に備え、前記画
像符号化データを受信した場合に復号して復号画像を出
力する画像復号化手段と、前記音声符号化データを復号
して復号音声を出力する音声復号化手段と、前記復号音
声を解析し有限個の発声状態の認識を行ない音声認識結
果を出力するとと もに前記音声認識結果に対応する送
信側の入力画像の符号化データの受信履歴情報を記憶し
前記音声認識結果に対応する送信側の入力画像の符号化
データを受信側が受け取っていない場合に制御信号を送
信側に出力する音声解析手段と、前記復号画像を蓄積し
ておき前記音声認識結果に対応する画像を選択し出力す
る画像蓄積手段とを受信側に備えることを特徴としてい
る。
【0012】第6の発明の動画像の符号化復号化方式
は、第5の発明の動画像の符号化復号化方式において、
音声解析により認識されるすべての発声状態に対応する
画像データの蓄積を通話開始前の初期化操作として行な
うことを特徴としている。
【0013】第7の発明の動画像の符号化復号化方式
は、第5の発明の動画像の符号化復号化方式において、
初期化信号が発生するたびに初期化操作により音声認識
結果に対応する送信側の入力画像符号化データの受信履
歴情報を初期化し受信側の画像蓄積手段に蓄積されてい
る画像データを更新することを特徴としている。
【0014】第8の発明の動画像の符号化復号化方式
は、第6の発明の動画像の符号化復号化方式において、
初期化信号が発生するたびに、音声解析により認識され
るすべての発声状態に対応する画像データを蓄積する初
期化操作を行ない、受信側の画像蓄積手段に蓄積されて
いる画像データを更新することを特徴としている。
【0015】第9の発明の動画像の符号化復号化方式
は、入力音声を符号化し音声符号化データを受信側に出
力する音声符号化手段と、前記入力音声を解析し有限個
の発声状態の認識を行ない前記音声認識結果に対応する
入力画像の符号化データの送信履歴情報を記憶し前記音
声認識結果に対応する入力画像の符号化データを受信側
に送信していない場合に制御信号を発生する送信側音声
解析手段と、入力画像を符号化し前記制御信号を受信し
た場合に画像符号化データを受信側に出力する画像符号
化手段とを送信側に備え、前記画像符号化データを受信
した場合に復号して復号画像を出力する画像復号化手段
と、前記音声符号化データを復号して復号音声を出力す
る音声符号化手段と、前記復号音声を解析し有限個の発
声状態の認識を行ない音声認識結果を出力する受信側音
声解析手段と、前記復号画像を蓄積しておき前記受信側
音声解析手段からの音声認識結果に対応する画像を選択
し出力する画像蓄積手段とを受信側に備えることを特徴
としている。
【0016】第10の発明の動画像の符号化復号化方式
は、第9の発明の動画像の符号化復号化方式において、
音声解析により認識されるすべての発声状態に対応する
画像データの蓄積を通話開始前の初期化操作として行な
うことを特徴としている。
【0017】第11の発明の動画像の符号化復号化方式
は、第9の発明の動画像の符号化復号化方式において、
初期化信号が発生するたびに音声認識結果に対応する入
力画像の符号化データの送信履歴情報を初期化し受信側
の画像蓄積手段に蓄積されている画像データを更新する
ことを特徴としている。
【0018】第12の発明の動画像の符号化復号化方式
は、第10の発明の動画像の符号化復号化方式におい
て、初期化信号が発生するたびに、音声解析により認識
されるすべての発声状態に対応する画像データを蓄積す
る初期化操作を行ない、受信側の画像蓄積手段に蓄積さ
れている画像データを更新することを特徴としている。
【0019】
【作用】本発明では、音声解析結果により有限個の発声
状態を認識し、それぞれの状態に対応した少数の特徴的
な動画像を選択して符号化し、その画像を受信側に蓄え
ておき、通信中は入力音声の認識結果をもとに、認識結
果に最も類似した画像を、蓄積されている画像内から選
択し表示する。
【0020】この方式では、入力音声に対応する画像を
選択表示するので、実際の発声状態に類似した画像を良
好な画質で復号再生できる。また、通話中はほとんど音
声データだけの伝送となり、伝送符号量を小さくでき
る。
【0021】これに加えて、画像データを適宜更新する
ことで、画像に発声の違い以外の変化があっても、より
原画像に近い画像を再生することができる。
【0022】第1〜4の発明の構成では、入力音声を解
析し音声認識結果を伝送するので、解析結果に対応する
入力画像の再生ができる。また、音声解析手段が送信側
にあるので、受信側の装置規模を小さくできる。
【0023】第5〜8の発明の構成では、音声解析手段
が受信側にあり、送信側の装置規模を小さくできる。さ
らに、第1〜4の発明の構成との組合せにより、双方向
通信を行なうときに、音声解析手段を片方側に備えてい
ればよく、他方の装置規模を小さくできる。
【0024】第9〜12の発明の構成では、音声解析手
段を送受双方でもち、装置規模は大きくなるが、音声認
識結果を通信する必要はなく、通信コストを軽減でき
る。
【0025】
【実施例】次に本発明の動画像符号化復号化方式の実施
例について図面を参照して説明する。以下の動作等の説
明では、例として、話者の音声から日本語の「あ、い、
う、え、お」の5母音の発声と発声なしとの状態を認識
し、それぞれの状態にある画像を使用するものとする。
【0026】図1は第1の発明の動画像符号化復号化方
式の一実施例を示すブロック図である。
【0027】この動画像符号化復号化方式は、入力音声
を解析して発声音の有無や日本語の5母音の認識など指
定した有限個の発声状態の認識を行ないその認識結果を
出力する音声解析部101と、入力画像を符号化し画像
符号化データを受信側に出力する画像符号化部102
と、入力音声を符号化し音声符号化データを受信側に出
力する音声符号化部105とを含む符号化装置と、受信
した画像符号化データを受け取り復号化する画像復号化
部103と、復号化した画像を蓄積しておき音声認識結
果により画像を選択する画像メモリ104と、音声符号
化データを受け取り復号化する音声復号化部106とを
含んでいる復号化装置とから構成されている。
【0028】音声解析部101の構成の一例は図4のよ
うになる。
【0029】音声解析部101では、入力音声を音声認
識部401にて、発声状態の認識を行ない、音声認識結
果を出力する。履歴保存部402には、認識された音声
に対応する入力画像を符号化し受信側に送信したか否か
の情報を保存しておく。最初は入力画像をなにも符号化
し送信していないという状態にしてある。判定部403
では、音声認識結果を受けとり、履歴情報を参照し、そ
の音声認識結果に対応した入力画像が受信側に送信され
ているかどうかを判定し、すでに送信されていれば、制
御信号を発生しない。送信していなければ、制御信号を
発生する。そして、認識された音声の入力画像を送信し
たという状態に、履歴保存部402の記録内容を更新す
る。音声認識結果は受信側の画像メモリ104へ出力さ
れ、登録画像の識別子として使用する。
【0030】つぎに第1の発明の実施例の動作について
説明する。
【0031】まず、入力された音声は音声符号化部10
5により符号化されて、受信側に音声符号化データが出
力される。
【0032】また、入力音声は音声解析部101により
発声の有無および、発声ありの場合は発声されている音
声の母音が5母音のうちのどれであるかが認識され、認
識結果は受信側へ出力されるとともに、認識結果に対応
する画像がまだ受信側の画像メモリ104に送信蓄積さ
れていないならば、制御信号を発生する。
【0033】なお、具体的な音声の認識方式の一例とし
ては、「ディジタル音声処理」、1985年、東海大学
出版会、pp.149-192、″第8章、音声認識″に記載の方
式がある。
【0034】入力画像は画像符号化部102において符
号化される。画像符号化データは、音声解析部101か
ら制御信号を受信したときのみ、受信側に送信され、そ
うでないときには送信されない。
【0035】例えば、「あ」という音声が認識されたと
き、はじめて「あ」が認識された場合には、「あ」に対
応する画像符号化データはまだ受信側に送信されていな
いので、この画像符号化データを送信する。「あ」の認
識結果が2度め以降ならば、既に「あ」に対応する画像
データは送信済みであるので、送信しない。
【0036】受信側では、まず、音声符号化データを受
け取り、これを音声復号化部106により復号化し、音
声を出力する。
【0037】画像符号化データが送信されてきた場合に
は、これを画像復号化部103により復号化し、復号画
像を生成する。復号画像は同時に送られてくる音声認識
結果に対応する画像を表すものとして、画像メモリ10
4に蓄えられる。
【0038】また、受信側で画像出力を得るためには、
音声認識結果を受信しこれに対応した画像を画像メモリ
104から選択しこれを出力する。
【0039】たとえば、音声解析にて「あ」と認識され
たという音声認識結果データが送られたとき、既に画像
メモリ104に蓄積してある「あ」と発音している画像
データを取り出してそれを表示する。
【0040】なお、まだ画像メモリに蓄積されていない
画像が送信されてきたとき、伝送レートの制限や、画像
符号化復号化の処理能力により、受信側での音声の出力
タイミングに対して出力画像の表示タイミングに遅延が
生じ得る。この場合は、画像符号化データは決められた
伝送レートの範囲内で伝送し、そのあいだの画像出力
は、蓄積画像の中で最も類似している画像を表示する、
または、直前の画像を静止させ表示する、あるいは、遅
延なく処理できる範囲で限られた画像データを伝送しな
がら、低解像度の画像の表示から徐々に符号化データを
追加し解像度をあげた画像を表示していく、という方式
により画像表示を行なう。
【0041】ここで、具体的な画像の符号化復号化方式
の一例としては、「マルチメディア符号化の国際標
準」、平成3年、丸善株式会社、pp.84-102 、″第2
編、動画符号化標準、4章、通信用符号化″に記載の方
式を用いることができる。
【0042】また、具体的な音声符号化復号化方式の一
例としては「マルチメディア符号化の国際標準」、平成
3年、丸善株式会社、pp.179-190、″第3編、音響音声
符号化標準、8章、音声効能率符号化″に記載の方式を
用いることができる。
【0043】第2の発明の実施例は、第1の発明の実施
例において、音声解析により認識されるすべての状態に
対応する画像の蓄積を、あらかじめ初期化操作として通
話開始前に行なうものである。
【0044】例えば、通話開始前に、認識すべきすべて
の発声状態の動作を行ない、それらの状態の認識結果に
基づいて、それぞれの状態に対応する入力画像を符号化
し、受信側に送信し、これを復号して画像を蓄積してお
く。
【0045】第2の発明の構成は、第1の発明の構成
(図1、4)に対して、音声解析部101の構成が異な
り、その構成の一例は、図5のようになる。この構成に
おいて、画像を登録する初期化操作は、以下のように行
なう。
【0046】まず、初期操作制御部502は登録すべき
音声の発声を順に指示する。音声認識部501ではその
指示により入力された入力音声を解析し、発声状態の認
識を行ない、音声認識結果を出力する。そして、認識さ
れた音声が指示された登録すべき音声であるかどうかを
判定部503にて判定をする。判定の結果、登録すべき
音声が検出されたとき、制御信号を発生し、対応する入
力画像の送信を行なう。音声認識結果は受信側の画像メ
モリ104へ出力され、登録画像の識別子として使用す
る。そして、登録すべき音声がなくなるまで、次の音声
の登録を繰り返す。このように第2の発明では、履歴を
保存する必要がなく、履歴保存部402が不要となる。
【0047】第3の発明の実施例は、第1の発明の実施
例において、蓄積されている画像データをある期間ごと
に入れ替える。
【0048】例えば、ある時間間隔を計測し、一定時間
ごとに初期化信号を発生し、認識結果に対応した画像符
号化データを送信したか否かの情報を初期化する。
【0049】このことにより、過去に一度、音声認識結
果に対応する画像データを送信していても、再度、その
音声に対応する新しい画像が符号化され送信されるの
で、受信側の画像データが新しいものに置き替わる。
【0050】あるいは、音声解析結果に大きな変化があ
るごとに、初期化信号を発生する。
【0051】たとえば、音声解析部101では認識すべ
き音声の状態の識別の他に、話者固有の解析パラメータ
の分析を行ない、通信中に音声解析の結果、話者固有の
解析パラメータが大きく変化し、話者が途中で入れ替わ
ったなどということが検知された場合に初期化信号を発
生する。
【0052】第3の発明の構成は、第1の発明の構成
(図1、4)に対して、音声解析部101の構成が異な
り、その構成の一例は、図6のようになる。
【0053】音声解析部101では、入力音声を音声認
識部601にて、発声状態の認識を行ない、音声認識結
果を出力する。履歴保存部602には、認識された音声
に対応する入力画像を符号化し受信側に送信したか否か
の情報を保存しておく。最初は入力画像をなにも符号化
し送信していないという状態にしてある。判定部603
では、音声認識結果を受けとり、履歴保存部602を参
照し、その音声認識結果に対応した入力画像が受信側に
送信されているかどうかを判定し、すでに送信されてい
れば、制御信号を発生しない。送信していなければ、制
御信号を発生する。そして、認識音声の入力画像を送信
したという状態に、履歴保存部602の記録内容を更新
する。音声認識結果は、受信側の画像メモリ104へ出
力され登録画像の識別子として使用する。ここで、リフ
レッシュ部604は、ある特定のイベントが発生したと
き、リフレッシュ信号を発生する。履歴保存部602
は、リフレッシュ信号を受けとると記録内容を初期化
し、入力画像をなにも符号化し送信していないという状
態にする。それゆえ、リフレッシュ信号発生後は、新し
い画像が送信される。
【0054】リフレッシュする方式として、一定時間ご
とにリフレッシュする場合には、リフレッシュ部604
にはタイマーを用い、一定周期でリフレッシュ信号を発
生させればよい。
【0055】あるいは別な例として、話者が変わるなど
の変化が生じだときにリフレッシュしたい場合のリフレ
ッシュ部604の構成を図8で説明する。
【0056】まず、入力音声を話者認識部801にて、
話者の認識を行ない、話者固有のパラメータを認識パラ
メータ保存部802に蓄えておく。同時に、直前までの
認識パラメータと現在の認識パラメータとを比較部80
3にて比較して、話者が変化したとういことが検出され
た場合、リフレッシュ信号を発生する。
【0057】このような話者認識を行なう具体的な方式
としては、「ディジタル音声処理」、1985年東海大
学出版会、pp.193-206、″第9章、話者認識″に記載の
方式がある。
【0058】第4の発明の実施例は、第2の発明の実施
例において、蓄積されている画像データをある期間ごと
に入れ替える。
【0059】すなわち、第3の発明の実施例に記述の方
法のように、初期化信号を発生し、そのたびごとに第2
の発明の実施例に記述したように初期化操作を再度行な
う。
【0060】このことにより、再度、新しい画像が符号
化され送信されるので、受信側の画像データが新しいも
のに置き替わる。
【0061】第4の発明の構成は、第2の発明の構成
(図1、5)に対して、音声解析部101の構成が異な
り、その構成の一例は図7のようになる。
【0062】まず、初期操作制御部702は登録すべき
音声の発声を順に指示する。音声認識部701ではその
指示により入力された入力音声を解析し、発声状態の認
識を行ない、音声認識結果を出力する。そして、認識さ
れた音声が指示された登録すべき音声であるかどうかを
判定部703にて判定をする。判定の結果、登録すべき
音声が検出されたとき、制御信号を発生し、対応する入
力画像の送信を行なう。音声認識結果は受信側の画像メ
モリ104へ出力され、登録画像の識別子として使用す
る。そして、登録すべき音声がなくなるまで、次の音声
の登録を繰り返す。
【0063】ここで、リフレッシュ部704は、ある特
定のイベントが発生したとき、リフレッシュ信号を発生
する。初期操作制御部702は、リフレッシュ信号を受
けとると上記の初期化操作をはじめからやり直す。それ
ゆえ、リフレッシュ信号発生後は、新しい画像が送信さ
れる。
【0064】リフレッシュする方式として、第3の発明
の実施例で示したように、一定時間ごとにリフレッシュ
する方式や話者が替るなどの変化が生じたときにリフレ
ッシュする方式などがある。
【0065】第5の発明の動画像符号化復号化方式の一
実施例を図2を用いて説明する。
【0066】この動画像の符号化復号化方式は、入力画
像を符号化し受信側からの制御信号を受け取りその信号
により画像符号化データを受信側に出力する画像符号化
部202と、入力音声を符号化し音声符号化データを受
信側に出力する音声符号化部205とを含んでいる符号
化装置と、受信した画像符号化データを受け取り復号化
する画像復号化部203と、復号化した画像を蓄積して
おき音声認識結果により画像を選択できる画像メモリ2
04と、音声符号化データを受け取り復号化する音声復
号化部206と、復号音声を解析して発声音の有無や日
本語の5母音などの認識を行ないその認識結果を出力す
るとともに送信側の画像符号化部202の動作を制御す
る制御信号を出力する音声解析部201とを含んでいる
復号化装置とから構成されている。
【0067】音声解析部201の構成の一例は図4のよ
うになる。この音声解析部201の機能については第1
の発明の実施例で説明したとおりである。ただし、復号
化音声を解析部の入力として使用することが異なる。
【0068】つぎに第5の発明の実施例の動作について
説明する。
【0069】まず、入力された音声は音声符号化部20
5により符号化されて、受信側に符号化データが出力さ
れる。
【0070】受信側では、音声符号化データを受け取
り、これを音声復号化部206により復号化し音声を出
力するとともに、音声解析部201により発声の有無お
よび、発声ありの場合は発声されている音声の母音がど
れであるかを認識する。音声解析部201は、この認識
結果に対応する画像をまだ受信側の画像メモリ204で
受信蓄積されていないと認識したならば、制御信号を発
生し、送信側へ送る。
【0071】入力画像は送信側で画像符号化部202に
おいて符号化し、この画像符号化データは、受信側から
の制御信号を受けとったならば受信側に送信する。そう
でないときには送信しない。
【0072】受信側では、画像符号化データが送信され
てきた場合には、これを画像復号化部203により復号
化し、復号画像を生成し、同時に入力される音声解析結
果により認識された音声の画像を表すものとして、画像
メモリ204に蓄えられる。
【0073】また、画像出力を得るためには、受信した
音声認識結果に対応した画像を画像メモリ204から選
択しこれを出力する。
【0074】なお、第1の発明と同様に、画像メモリに
蓄積されていない画像が送信されてきたとき、伝送レー
トの制限や、画像符号化復号化の処理能力により、受信
側での音声の出力タイミングに対して出力画像の表示タ
イミングに遅延が生じ得る。この場合は、画像符号化デ
ータは決められた伝送レートの範囲内で伝送し、そのあ
いだの画像出力は、蓄積画像の中で最も類似している画
像を表示する、または、直前の画像を静止させ表示す
る、あるいは、遅延なく処理できる範囲で限られた画像
データを伝送しながら、低解像度の画像の表示から徐々
に符号化データを追加し解像度をあげた画像を表示して
いく、という方式により画像表示を行なう。
【0075】第6の発明の実施例は、第5の発明の実施
例において、音声解析により認識されるすべての状態に
対応する画像の蓄積を、あらかじめ初期化操作として通
話開始前に行なうものである。
【0076】例えば、通話開始前に、認識すべきすべて
の発声状態の動作を行ない、それらの状態の認識結果に
基づいて、それぞれの状態に対応する入力画像を符号化
し、受信側に送信し、これを復号して画像を蓄積してお
く。
【0077】第6の発明の構成は、第5の発明の構成
(図2、4)に対して、音声解析部201の構成が異な
り、その構成の一例は、図5のようになる。この構成に
おいて、画像を登録する初期化操作は、第2の発明の方
式と同様である。
【0078】第7の発明の実施例は、第5の発明の実施
例において、蓄積されている画像データをある期間ごと
に入れ替える。
【0079】すなわち、第3の発明の実施例に記述の方
式のように、初期化信号を発生し、そのたびごとに認識
結果に対応した画像符号化データを送信したか否かの情
報を初期化する。
【0080】第7の発明の構成は、第5の発明の構成
(図2、4)に対して、音声解析部201の構成が異な
り、その構成の一例は図6のようになる。この構成にお
ける、画像データの入れ替え操作は第3の発明の方式と
同様である。
【0081】第8の発明の実施例は、第6の発明の実施
例において、蓄積されている画像データをある期間ごと
に入れ替える。
【0082】すなわち、第3の発明の実施例に記述の方
式のように、初期化信号を発生しそのたびごとに第2の
発明の実施例に記述したように初期化操作を再度行な
う。
【0083】このことにより、再度、新しい画像が符号
化され送信されるので、受信側の画像データが新しいも
のに置き替わる。
【0084】第8の発明の構成は、第6の発明の構成
(図2、5)に対して、音声解析部201の構成が異な
り、その構成の一例は図7のようになる。この構成にお
ける、画像データの入れ替え操作は第4の発明の方式と
同様である。
【0085】第9の発明の動画像符号化復号化方式の一
実施例を図3を用いて説明する。
【0086】この動画像の符号化復号化方式は、入力音
声を解析しその音声認識結果に対応する入力画像の符号
化データを受信側に送信していない場合に制御信号を発
生する送信側音声解析部301−1と、入力画像を符号
化し制御信号を受信した場合に画像符号化データを受信
側に出力する画像符号化部302と、入力音声を符号化
し音声符号化データを受信側に出力する音声符号化部3
05とを含んでいる符号化装置と、受信した画像符号化
データを受け取り復号化する画像復号化部303と、復
号化した画像を蓄積しておき音声解析結果により画像を
選択できる画像メモリ304と、音声符号化データを受
け取り復号化する音声復号化部306と、復号音声を解
析してその認識結果を出力する音声解析部301−2と
を含む復号化装置とから構成されている。
【0087】このように第9の発明の実施例では、音声
を解析する音声解析部を送信側、受信側双方で備えてい
る。
【0088】音声解析部301−1および301−2の
構成の一例は図4のようになる。この音声解析部の機能
については第1の発明の実施例で説明したとおりであ
る。ただし、送信側の音声解析部301−1は音声認識
結果を出力せず、また、受信側の音声解析部301−2
は制御信号を出力しない。すなわち、受信側の音声解析
部301−2は履歴保存部402および判定部403は
なく、音声認識部401だけで構成される。ここで、第
1の発明の実施例で説明した音声解析部の機能は送受双
方の音声解析部の総合的な動作として機能する。
【0089】つぎに第9の発明の実施例の動作について
説明する。
【0090】まず、入力された音声は音声符号化部30
5により符号化されて、受信側に符号化データが出力さ
れる。
【0091】また、入力音声は、音声解析部301−1
により発声の有無および、発声ありの場合は発声されて
いる音声の母音が5母音のうちのどれであるかが認識さ
れ、認識結果に対応する画像がまだ受信側の画像メモリ
304に送信蓄積されていないならば、制御信号を発生
する。
【0092】入力画像は画像符号化部302において符
号化され、画像符号化データは、音声解析部301−1
から制御信号を受信した場合のみ受信側に送信され、そ
うでないときには送信されない。
【0093】受信側では、まず、音声符号化データを受
け取り、これを音声復号化部306により復号化し、音
声を出力するとともに、出力音声を音声解析部301−
2に供給し、音声解析部301−2により発声の有無お
よび、発声ありの場合は発声されている音声の母音がど
れであるかが認識される。
【0094】画像符号化データが送信されてきた場合に
は、これを画像復号化部303により復号化し、復号画
像を生成し、この復号画像は復号側で解析された音声解
析結果により認識された音声の画像を表すものとして、
画像メモリ304に蓄えられる。
【0095】また、画像出力を得るためには、音声解析
部301−2から供給される音声認識結果に対応した画
像を画像メモリ304から選択しこれを出力する。
【0096】なお、第1の発明と同様に、画像メモリに
蓄積されていない画像が送信されてきたとき、伝送レー
トの制限や、画像符号化復号化の処理能力により、受信
側での音声の出力タイミングに対して出力画像の表示タ
イミングに遅延が生じ得る。この場合は、画像符号化デ
ータは決められた伝送レートの範囲内で伝送し、そのあ
いだの画像出力は、蓄積画像の中で最も類似している画
像を表示する、または、直前の画像を静止させ表示す
る、あるいは、遅延なく処理できる範囲で限られた画像
データを伝送しながら、低解像度の画像の表示から徐々
に符号化データを追加し解像度をあげた画像を表示して
いく、という方式により画像表示を行なう。
【0097】第9の発明において、送信側の音声解析の
ための入力として、受信側と合わせるため、音声復号部
を送信側でも用意し、局部復号音声を作り、これを用い
てもよい。
【0098】第10の発明の実施例は、第9の発明の実
施例において、音声解析により認識されるすべての状態
に対応する画像の蓄積を、あらかじめ初期化操作として
通話開始前に行なうものである。
【0099】例えば、通話開始前に、認識すべきすべて
の発声状態の動作を行ない、それらの状態の認識結果に
基づいて、それぞれの状態に対応する入力画像を符号化
し、受信側に送信し、これを復号して画像を蓄積してお
く。
【0100】第10の発明の構成は、第9の発明の構成
(図3、4)に対して、音声解析部301−1の構成が
異なり、その構成の一例は、図5のようになる。この構
成における、画像を登録する初期化操作は第2の発明の
方式と同様である。ただし、送信側の音声解析部301
−1は音声認識結果を出力せず、また、受信側の音声解
析部301−2は制御信号を出力しない。すなわち、受
信側音声解析部301−2は音声認識部501だけで構
成される。ここで、第2の発明の実施例で説明した音声
解析部の機能は送受双方の音声解析部の総合的な動作と
して機能する。
【0101】第11の発明の実施例は、第9の発明の実
施例において、蓄積されている画像データをある期間ご
とに入れ替える。
【0102】すなわち、第3の発明の実施例に記述の方
式のように、初期化信号を発生し、そのたびごとに認識
結果に対応した画像符号化データを送信したか否かの情
報を初期化する。
【0103】第11の発明の構成は、第9の発明の構成
(図3、4)に対して、音声解析部301−1の構成が
異なり、その構成の一例は、図6のようになる。この構
成における、画像データの入れ替え操作は第3の発明の
方式と同様である。ただし、送信側音声解析部301−
1は音声認識結果を出力せず、また、受信側音声解析部
301−2は制御信号を出力しない。すなわち、受信側
音声解析部301−2は、音声認識部601だけで構成
される。ここで、第3の発明の実施例で説明した音声解
析部の機能は送受双方の音声解析部の総合的な動作とし
て機能する。第12の発明の実施例は、第10の発明の
実施例において、蓄積されている画像データをある期間
ごとに入れ替える。
【0104】すなわち、第3の発明の実施例に記述の方
式のように、初期化信号を発生しそのたびごとに第2の
発明の実施例に記述したように初期化操作を再度行な
う。
【0105】このことにより、再度、新しい画像が符号
化され送信されるので、受信側の画像データが新しいも
のに置き替わる。
【0106】第12の発明の構成は、第10の発明の構
成(図3、5)に対して、音声解析部301−1の構成
が異なり、その構成の一例は、図7のようになる。この
構成における、画像データの入れ替え操作は第4の発明
の方式と同様である。ただし、送信側音声解析部301
−1は音声認識結果を出力せず、また、受信側音声解析
部301−2は制御信号を出力しない。すなわち、受信
側音声解析部301−2は、音声認識部601だけで構
成される。ここで、第4の発明の実施例で説明した音声
解析部の機能は送受双方の音声解析部の総合的な動作と
して機能する。
【0107】上記のすべての実施例においては、日本語
の5母音の認識を行ない、各音の発音時の画像データを
蓄積し表示する例で説明をしたが、このほかにも、単に
音声発声の有無だけを認識する方式や、子音まで含めた
音素を認識する方式なども構成できる。
【0108】また、画像データとしては静止画、動画を
問わないし、動画のフレームレートや長さも任意として
よい。画像のフレーム数が足りない場合は、同じデータ
を繰り返し表示すればよい。また、長い場合でも、途中
で打ち切ればよい。
【0109】その他に表示方法として表示速度を変化さ
せる、あるいは逆順折り返して繰り返すなどの構成もと
りうる。
【0110】また、画像を蓄積する場合、画像データそ
のものを蓄積するのではなくて、符号化データの形で保
存しておいてもよい。この場合必要なデータは復号化し
てから取り出すことになる。
【0111】さらに、画像データについては別経路にて
固定のデータ配送しておいてもよい。この場合、上記実
施例における、画像符号化部、画像復号化部、画像符号
化データの通信路は不要となる。
【0112】
【発明の効果】以上のように動画像を画像メモリに蓄え
ておき、入力音声の解析結果をもとに、画像メモリ内の
画像を選択し表示する方式では、入力音声に従った画像
を選択表示するので、実際の発話状態に類似した画像を
良好な画質で復号再生できる。
【0113】さらに、選択した画像の表示方法を制御す
ることで、より実際の発話状態に類似した話者の画像を
復号できる。
【0114】また、通話中はほとんど音声データだけの
伝送となり、伝送符号量を小さくできる。そのため、低
いビットレートの通信回線を利用した音声画像通信にも
利用できる。
【図面の簡単な説明】
【図1】第1〜4の発明の画像符号化復号化方式の一例
を示すブロック図である。
【図2】第5〜8の発明の画像符号化復号化方式の一例
を示すブロック図である。
【図3】第9〜12の発明の画像符号化復号化方式の一
例を示すブロック図である。
【図4】第1、5および9の発明の音声解析部の構成の
一例を示すブロック図である。
【図5】第2、6および10の発明の音声解析部の構成
の一例を示すブロック図である。
【図6】第3、7および11の発明の音声解析部の構成
の一例を示すブロック図である。
【図7】第4、8および12の発明の音声解析部の構成
の一例を示すブロック図である。
【図8】リフレッシュ部の構成の一例を示すブロック図
である。
【符号の説明】
1 入力画像 2 画像符号化データ 3 制御信号 4 音声解析結果 5 復号画像 6 出力画像 7 入力音声 8 音声符号化データ 9 出力音声 10 符号化音声履歴情報 11 リフレッシュ信号 12 認識パラメータ 101、201、301−1、301−2 音声解析
部 102、202、302 画像符号化部 103、203、303 画像復号化部 104、204、304 画像メモリ 105、205、305 音声符号化部 106、206、306 音声復号化部 401、501、601、701 音声認識部 402、602 履歴保存部 403、503、603、703 判定部 502、702 初期操作制御部 604、704 リフレッシュ部 801 話者認識部 802 認識パラメータ保存部 803 比較部

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声を符号化し音声符号化データを
    受信側に出力する音声符号化手段と、前記入力音声を解
    析し有限個の発声状態の認識を行ない音声認識結果を出
    力するとともに前記音声認識結果に対応する入力画像の
    符号化データの送信履歴情報を記憶し前記音声認識結果
    に対応する入力画像の符号化データを送信していない場
    合に制御信号を発生する音声解析手段と、入力画像を符
    号化し前記制御信号を受信した場合に画像符号化データ
    を受信側に出力する画像符号化手段とを送信側に備え、
    前記音声符号化データを復号して復号音声を出力する音
    声復号化手段と、前記画像符号化データを受信した場合
    に復号して復号画像を出力する画像復号化手段と、前記
    復号画像を蓄積しておき前記音声認識結果を受信し対応
    する画像を選択し出力する画像蓄積手段とを受信側に備
    えることを特徴とする動画像符号化復号化方式。
  2. 【請求項2】 音声解析により認識されるすべての発声
    状態に対応する画像データの蓄積を通話開始前の初期化
    操作として行なうことを特徴とする請求項1記載の動画
    像符号化復号化方式。
  3. 【請求項3】 初期化信号が発生するたびに音声認識結
    果に対応する入力画像の符号化データの送信履歴情報を
    初期化し受信側の画像蓄積手段に蓄積されている画像デ
    ータを更新することを特徴とする請求項1記載の動画像
    符号化復号化方式。
  4. 【請求項4】初期化信号が発生するたびに、音声解析に
    より認識されるすべての発声状態に対応する画像データ
    を蓄積する初期化操作を行ない、受信側の画像蓄積手段
    に蓄積されている画像データを更新することを特徴とす
    る請求項2記載の動画像符号化復号化方式。
  5. 【請求項5】 入力音声を符号化し音声符号化データを
    受信側に出力する音声符号化手段と、入力画像を符号化
    し受信側からの制御信号を受信した場合に画像符号化デ
    ータを受信側に出力する画像符号化手段とを送信側に備
    え、前記画像符号化データを受信した場合に復号して復
    号画像を出力する画像復号化手段と、前記音声符号化デ
    ータを復号して復号音声を出力する音声復号化手段と、
    前記復号音声を解析し有限個の発声状態の認識を行ない
    音声認識結果を出力するとともに前記音声認識結果に対
    応する送信側の入力画像の符号化データの受信履歴情報
    を記憶し前記音声認識結果に対応する送信側の入力画像
    の符号化データを受信側が受け取っていない場合に制御
    信号を送信側に出力する音声解析手段と、前記復号画像
    を蓄積しておき前記音声認識結果に対応する画像を選択
    し出力する画像蓄積手段とを受信側に備えることを特徴
    とする動画像符号化復号化方式。
  6. 【請求項6】 音声解析により認識されるすべての発声
    状態に対応する画像データの蓄積を通話開始前の初期化
    操作として行なうことを特徴とする請求項5記載の動画
    像符号化復号化方式。
  7. 【請求項7】 初期化信号が発生するたびに音声認識結
    果に対応する送信側の入力画像符号化データの受信履歴
    情報を初期化し受信側の画像蓄積手段に蓄積されている
    画像データを更新することを特徴とする請求項5記載の
    動画像符号化復号化方式。
  8. 【請求項8】初期化信号が発生するたびに、音声解析に
    より認識されるすべての発声状態に対応する画像データ
    を蓄積する初期化操作を行ない、受信側の画像蓄積手段
    に蓄積されている画像データを更新することを特徴とす
    る請求項6記載の動画像符号化復号化方式。
  9. 【請求項9】 入力音声を符号化し音声符号化データを
    受信側に出力する音声符号化手段と、前記入力音声を解
    析し有限個の発声状態の認識を行ない前記音声認識結果
    に対応する入力画像の符号化データの送信履歴情報を記
    憶し前記音声認識結果に対応する入力画像の符号化デー
    タを受信側に送信していない場合に制御信号を発生する
    送信側音声解析手段と、入力画像を符号化し前記制御信
    号を受信した場合に画像符号化データを受信側に出力す
    る画像符号化手段とを送信側に備え、前記画像符号化デ
    ータを受信した場合に復号して復号画像を出力する画像
    復号化手段と、前記音声符号化データを復号して復号音
    声を出力する音声符号化手段と、前記復号音声を解析し
    有限個の発声状態の認識を行ない音声認識結果を出力す
    る受信側音声解析手段と、前記復号画像を蓄積しておき
    前記受信側音声解析手段からの音声認識結果に対応する
    画像を選択し出力する画像蓄積手段とを受信側に備える
    ことを特徴とする動画像符号化復号化方式。
  10. 【請求項10】 音声解析により認識されるすべての発
    声状態に対応する画像データの蓄積を通話開始前の初期
    化操作として行なうことを特徴とする請求項9記載の動
    画像符号化復号化方式。
  11. 【請求項11】 初期化信号が発生するたびに音声認識
    結果に対応する入力画像の符号化データの送信履歴情報
    を初期化し受信側の画像蓄積手段に蓄積されている画像
    データを更新することを特徴とする請求項9記載の動画
    像符号化復号化方式。
  12. 【請求項12】初期化信号が発生するたびに、音声解析
    により認識されるすべての発声状態に対応する画像デー
    タを蓄積する初期化操作を行ない、受信側の画像蓄積手
    段に蓄積されている画像データを更新することを特徴と
    する請求項10記載の動画像符号化復号化方式。
JP27421993A 1993-11-02 1993-11-02 動画像符号化復号化方式 Expired - Fee Related JP2611728B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP27421993A JP2611728B2 (ja) 1993-11-02 1993-11-02 動画像符号化復号化方式
US08/329,331 US5557661A (en) 1993-11-02 1994-10-26 System for coding and decoding moving pictures based on the result of speech analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27421993A JP2611728B2 (ja) 1993-11-02 1993-11-02 動画像符号化復号化方式

Publications (2)

Publication Number Publication Date
JPH07131767A JPH07131767A (ja) 1995-05-19
JP2611728B2 true JP2611728B2 (ja) 1997-05-21

Family

ID=17538690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27421993A Expired - Fee Related JP2611728B2 (ja) 1993-11-02 1993-11-02 動画像符号化復号化方式

Country Status (2)

Country Link
US (1) US5557661A (ja)
JP (1) JP2611728B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100236974B1 (ko) 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
KR100240637B1 (ko) * 1997-05-08 2000-01-15 정선종 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
US6111595A (en) * 1997-08-22 2000-08-29 Northern Information Technology Rapid update video link
JP3308923B2 (ja) * 1999-03-01 2002-07-29 株式会社東芝 無線携帯端末
JP2001145103A (ja) * 1999-11-18 2001-05-25 Oki Electric Ind Co Ltd 送信装置及び通信システム
US6614466B2 (en) * 2001-02-22 2003-09-02 Texas Instruments Incorporated Telescopic reconstruction of facial features from a speech pattern

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4698782A (en) * 1984-08-01 1987-10-06 Motorola Computer Systems, Inc. Electronic workstation with parkable keyboard
JPS62274962A (ja) * 1986-05-23 1987-11-28 Nec Corp 画像電話システム
JP2667455B2 (ja) * 1988-07-27 1997-10-27 富士通株式会社 顔動画像合成システム
JPH03270390A (ja) * 1990-03-19 1991-12-02 Fujitsu Ltd 擬似動画tv電話
EP0512607B1 (en) * 1991-05-03 1997-07-16 Koninklijke Philips Electronics N.V. Method of manufacturing a semiconductor device using ion implantation
US5313522A (en) * 1991-08-23 1994-05-17 Slager Robert P Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader

Also Published As

Publication number Publication date
JPH07131767A (ja) 1995-05-19
US5557661A (en) 1996-09-17

Similar Documents

Publication Publication Date Title
US5724410A (en) Two-way voice messaging terminal having a speech to text converter
US5881104A (en) Voice messaging system having user-selectable data compression modes
US6119086A (en) Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens
US5907351A (en) Method and apparatus for cross-modal predictive coding for talking head sequences
US7974846B2 (en) Data embedding device and data extraction device
JP2611728B2 (ja) 動画像符号化復号化方式
JPH07129195A (ja) 音声復号化装置
JP2003295879A (ja) 音声符号に対するデータ埋め込み/抽出方法および装置並びにシステム
JP2001506764A (ja) 遠隔通信システムにおける方法および配置
JP2001053869A (ja) 音声蓄積装置及び音声符号化装置
KR101011320B1 (ko) 스피치를 저장, 전송 및 재생하기 위하여 포즈 프레임을 식별하여 제외하는 방법 및 장치
JPS604999B2 (ja) 音声報知装置
CN1212604C (zh) 基于可变速语音编码的语音合成器
JPH09116571A (ja) 音声パケット伝送システム
US20030065512A1 (en) Communication device and a method for transmitting and receiving of natural speech
JP3487158B2 (ja) 音声符号化伝送システム
JP2644789B2 (ja) 画像伝送方式
JP2003259311A (ja) 映像再生方法、映像再生装置、映像再生プログラム
JPH10326100A (ja) 音声録音方法及び音声再生方法及び音声録音再生装置
JP4597360B2 (ja) 音声復号装置及び音声復号方法
US6134519A (en) Voice encoder for generating natural background noise
JP3235526B2 (ja) 音声圧縮伸長方法及びその装置
JP2648095B2 (ja) 画像符号化および復号化装置
JP2002199300A (ja) 画像データ送信方法、表示方法および画像データ送信装置
JP3593183B2 (ja) 音声復号装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19970107

LAPS Cancellation because of no payment of annual fees