JPH08307841A - Pseudo moving image video telephone system - Google Patents

Pseudo moving image video telephone system

Info

Publication number
JPH08307841A
JPH08307841A JP7111524A JP11152495A JPH08307841A JP H08307841 A JPH08307841 A JP H08307841A JP 7111524 A JP7111524 A JP 7111524A JP 11152495 A JP11152495 A JP 11152495A JP H08307841 A JPH08307841 A JP H08307841A
Authority
JP
Japan
Prior art keywords
parameter
voice
model
pseudo
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7111524A
Other languages
Japanese (ja)
Inventor
Hiroaki Matsushita
博明 松下
Shigeyuki Sudo
茂幸 須藤
Tomohiro Ezaki
智宏 江崎
Atsushi Yoshioka
厚 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7111524A priority Critical patent/JPH08307841A/en
Publication of JPH08307841A publication Critical patent/JPH08307841A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE: To provide the method of displaying a pseudo face moving image of a talker at a receiver side from a voice signal without image transmission from a sender side through the use of a telephone line. CONSTITUTION: A signal sent from a sender side talker via a telephone line 2 is given to a communication means 4, in which a voice signal is outputted and it is converted into a video parameter through linear prediction coding by a voice analysis means 5 to be outputted. On the other hand, a model generating means 7 stores plural mouth model and head models comprising wire frames and outputs mouth and head model data relating to the selected model. A voice parameter is converted into a mouth parameter by a parameter conversion means 8 on the mouth model data to be outputted and an image composite means 9 generates pseudo face moving image of a sender talker on the mouth parameter and the head model data and the image is displayed by a display means 10.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は電話回線などを利用する
通信装置に係り、特に送信側からの音声信号をもとに受
信側で擬似動画の表示を行う擬似動画TV電話装置に関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a communication device using a telephone line or the like, and more particularly to a pseudo moving picture TV telephone device for displaying a pseudo moving picture on the receiving side based on an audio signal from the transmitting side.

【0002】[0002]

【従来の技術】従来、話者をTVカメラ等で撮像し、画
像データ圧縮して音声信号と共に伝送し、受信側で画像
伸長を行いTV画面等に表示するといったようなTV電
話が実用化されている。その詳細については村上 治著
「画像メディアと通信革命」(産業図書 p61 19
84年)に記載されている。
2. Description of the Related Art Conventionally, a TV telephone has been put into practical use in which a speaker is imaged by a TV camera or the like, image data is compressed and transmitted together with an audio signal, and an image is expanded on the receiving side and displayed on a TV screen or the like. ing. For details, see Osamu Murakami, "Image Media and Communication Revolution" (Sangyo Tosho p61 19).
1984).

【0003】[0003]

【発明が解決しようとする課題】従来のTV電話におけ
る問題点として以下のようなことがあげられる。まず、
伝送すべき画像は話者をTVカメラ等で撮像したもので
あるため、画像圧縮の方式にもよるが、仮に画像圧縮し
たとしても情報量が膨大であり、1枚の画面を送るのに
数秒程度かかってしまう。また、送信側においてTV電
話装置を持たない場合、すなわち、一般の電話や公衆電
話、携帯電話からの送信に対しては受信側におけるTV
電話装置としての機能を発揮できないなど問題があっ
た。
Problems to be solved by the conventional TV telephone are as follows. First,
The image to be transmitted is the image of the speaker taken by a TV camera or the like, so it depends on the image compression method, but even if the image is compressed, the amount of information is enormous and it takes several seconds to send one screen. It will take about a degree. Also, if the sender does not have a TV telephone device, that is, for the transmission from an ordinary telephone, public telephone, or mobile phone, the TV on the receiver side
There was a problem that it could not function as a telephone device.

【0004】本発明の目的は電話回線を用いて、送信側
から画像伝送を行わずに音声信号からその話者の擬似顔
動画像を受信側で表示できるTV電話装置を提供するこ
とにある。
An object of the present invention is to provide a TV telephone device capable of displaying a pseudo facial moving image of the speaker on the receiving side from a voice signal without transmitting an image from the transmitting side using a telephone line.

【0005】[0005]

【課題を解決するための手段】上記の問題を解決するた
め、本発明の擬似動画TV電話装置は音声信号の声道特
性と放射特性の特徴を分析し、線形予測符号化を行い、
特徴抽出した音声パラメータを出力する音声分析手段
と、ワイヤフレームで構成された複数の口形モデル及び
頭部モデルを蓄積し、選択されたモデルに関する口形及
び頭部モデルデータを出力するモデル生成手段と、前記
音声パラメータと口形モデルデータを入力し、音声パラ
メータを時々刻々と変化する口形パラメータに変換出力
するパラメータ変換手段と、前記口形パラメータ及び頭
部モデルデータをもとに、送信側話者の擬似顔動画像の
生成を行う画像合成手段と、前記画像合成手段で得られ
る送信側話者の擬似顔動画像を表示する表示手段とを備
えたことを特徴とする。
In order to solve the above problems, the pseudo moving picture video telephone apparatus of the present invention analyzes the characteristics of the vocal tract characteristic and the radiation characteristic of an audio signal and performs linear predictive coding,
A voice analysis unit that outputs a voice parameter that has been feature-extracted, a model generation unit that stores a plurality of mouth-shaped models and head models configured by wireframes, and outputs mouth-shaped and head model data related to the selected model, Parameter conversion means for inputting the voice parameter and mouth shape model data and converting and outputting the voice parameter into a mouth shape parameter that changes from moment to moment, and based on the mouth shape parameter and head model data, a pseudo face of the transmitting speaker An image synthesizing unit for generating a moving image and a display unit for displaying the pseudo face moving image of the transmitting speaker obtained by the image synthesizing unit are provided.

【0006】[0006]

【作用】本発明では例えば電話回線を介して送信側話者
から送られてくる音声信号は音声分析手段において線形
予測符号化に基づく特徴抽出により音声パラメータに変
換される。一方、モデル生成手段ではワイヤフレームで
構成された複数の口形モデルと頭部モデルが蓄積され、
選択されたモデルに関する口形及び頭部モデルデータが
出力される。音声パラメータは口形モデルデータをもと
に、パラメータ変換手段で口形パラメータに変換出力さ
れる。そして画像合成手段で、口形パラメータと頭部モ
デルデータをもとに、送信側話者の擬似顔動画像の生成
を行い、表示手段により表示する。
In the present invention, the voice signal sent from the transmitting side speaker, for example, via the telephone line is converted into the voice parameter by the feature extraction based on the linear predictive coding in the voice analysis means. On the other hand, in the model generating means, a plurality of mouth-shaped models and head models composed of wire frames are accumulated,
The mouth shape and head model data relating to the selected model is output. The voice parameter is converted into a mouth shape parameter by the parameter converting means based on the mouth shape model data and output. Then, the image synthesizing means generates a pseudo-face moving image of the transmitting-side speaker based on the mouth shape parameter and the head model data, and displays it by the displaying means.

【0007】このように本発明によれば、送信側話者の
音声信号からその擬似顔動画像を受信側で生成表示する
ので、実際に伝送する信号は音声に関するものだけとな
り、従来のTV電話装置と比較すると、情報量や伝送時
間がはるかに低減でき、一般のアナログ電話回線や、さ
らに公衆電話、携帯電話からの送信に対して適応でき、
送信側話者の音声信号からその擬似顔動画像を受信側で
生成表示するので、TV電話同士で通話しているような
感覚で通話が行える。
As described above, according to the present invention, the pseudo face moving image is generated and displayed on the receiving side from the voice signal of the transmitting side speaker, so that the signals actually transmitted are only those related to the voice, and the conventional TV telephone. Compared to the device, the amount of information and transmission time can be reduced significantly, and it can be adapted to transmission from general analog telephone lines, public telephones, mobile phones,
Since the pseudo face moving image is generated and displayed on the receiving side from the voice signal of the transmitting side speaker, it is possible to talk as if talking between videophones.

【0008】これは受信側で表示される送信側話者の擬
似顔動画像については実際の通信時の送信側話者の状態
とは相違するものの、少なくとも送信側話者の擬似顔が
表示され、しかも音声に合わせた口の動きが動画表示さ
れるので、擬似的に送信側とTV電話で通話しているよ
うな感覚で通話が行える。
This is different from the state of the transmitting-side speaker during actual communication in the pseudo-face moving image of the transmitting-side speaker displayed on the receiving side, but at least the pseudo-face of the transmitting-side speaker is displayed. Moreover, since the motion of the mouth that matches the voice is displayed as a moving image, it is possible to make a call as if the user were talking on the sending side on a videophone.

【0009】[0009]

【実施例】以下、本発明の実施例を図面を用いながら詳
しく説明する。図1は本発明の第1の実施例を示すブロ
ック図である。尚、図面では擬似動画TV電話装置にお
ける受信部のブロック図のみを示しており、送信部のブ
ロック図は公知の一般の電話機であっても良いため省略
してある。
Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a block diagram showing a first embodiment of the present invention. In the drawing, only a block diagram of the receiving unit in the pseudo moving picture TV telephone device is shown, and the block diagram of the transmitting unit may be omitted because it may be a known general telephone.

【0010】図1で、1は各家庭の一般電話、公衆電
話、自動車携帯電話など画像伝送装置を持たない電話
機、2は電話回線である。3は本発明の擬似動画TV電
話装置、4は電話回線を介して送信側話者から送られて
くる音声信号を出力する通信手段であり、この場合は電
話機の受信回路となる。5は音声信号を音声パラメータ
に変換出力する音声分析手段である。6は受信側話者が
送信側話者の擬似顔を選択するための選択信号を出力す
る選択手段である。7は口形モデルデータと頭部モデル
データを出力するモデル生成手段である。8は音声パラ
メータと口形モデルデータを入力し、音声パラメータを
口形パラメータに変換出力するパラメータ変換手段であ
る。9は口形パラメータと頭部モデルデータをもとに、
送信側話者の擬似顔動画像の生成を行う画像合成手段で
ある。10は送信側話者の擬似顔動画像を表示する表示
手段である。
In FIG. 1, reference numeral 1 is a telephone that does not have an image transmission device, such as a home telephone, a public telephone, or a mobile telephone of each home, and 2 is a telephone line. Reference numeral 3 is a pseudo-moving video telephone device of the present invention, and 4 is a communication means for outputting a voice signal sent from a transmitting side speaker via a telephone line. In this case, it is a receiving circuit of the telephone. Reference numeral 5 is a voice analysis means for converting and outputting a voice signal into a voice parameter. Reference numeral 6 is a selection unit that outputs a selection signal for the receiving speaker to select the pseudo face of the transmitting speaker. Reference numeral 7 is a model generating means for outputting the mouth shape model data and the head model data. Reference numeral 8 is a parameter conversion means for inputting a voice parameter and mouth shape model data and converting the voice parameter into a mouth shape parameter for output. 9 is based on mouth shape parameter and head model data,
It is an image synthesizing means for generating a pseudo facial moving image of the transmitting side speaker. Reference numeral 10 is a display unit for displaying a pseudo facial moving image of the transmitting side speaker.

【0011】次に各部の動作について説明する。Next, the operation of each section will be described.

【0012】電話機1が送信側で、擬似動画TV電話装
置3の受信動作を考える場合、電話機1から送られてく
る信号は電話回線2を介して擬似動画TV電話装置3に
入力される。信号は通信手段4より、送信側話者の音声
信号aが出力される。その後、音声信号aは音声分析手
段5に入力され、音声信号aの声道特性と放射特性の特
徴を分析し、線形予測符号化を行うことにより、特徴抽
出した音声パラメータbへ変換され、パラメータ変換手
段8に出力される。
When the telephone 1 is on the transmitting side and the receiving operation of the pseudo moving picture TV telephone apparatus 3 is considered, the signal sent from the telephone 1 is input to the pseudo moving picture TV telephone apparatus 3 via the telephone line 2. As the signal, the voice signal a of the transmitting speaker is output from the communication means 4. After that, the voice signal a is input to the voice analysis means 5, the features of the vocal tract characteristic and the radiation characteristic of the voice signal a are analyzed, and linear predictive coding is performed to convert the voice signal a into the voice parameter b from which the feature is extracted. It is output to the conversion means 8.

【0013】一方、送信側話者の話し声を聞くことによ
り、受信側話者は選択手段6で表示したい送信側話者の
擬似顔の選択を行う。これに伴い選択手段6からは選択
信号cが出力され、モデル生成手段7に入力される。モ
デル生成手段7にはワイヤフレームで構成された複数の
口形モデルと頭部モデルが蓄積されており、選択信号c
を受けたモデル生成手段7は選択信号cをもとに選択さ
れたモデルに関する口形モデルデータdをパラメータ変
換手段8に、頭部モデルデータfを画像合成手段9に、
それぞれ出力する。
On the other hand, by listening to the voice of the transmitting speaker, the receiving speaker selects the pseudo face of the transmitting speaker to be displayed by the selecting means 6. Along with this, the selection signal c is output from the selection means 6 and input to the model generation means 7. The model generation means 7 stores a plurality of mouth-shaped models and head models formed of wire frames, and a selection signal c
The model generation means 7 which received the parameter data converts the mouth shape model data d relating to the model selected based on the selection signal c to the parameter conversion means 8 and the head model data f to the image synthesis means 9.
Output each.

【0014】ここで、選択手段6とモデル生成手段7の
動作に関連し、受信側話者における送信側話者の擬似顔
の選択について詳しく説明する。例えば、受信側話者
が、肉親、知人、友人などのよく電話がかかってくる人
達の顔をあらかじめ撮像するなどしておき、頭部モデル
としてモデル生成手段7に蓄積しておく。また、肉親、
知人、友人などのよく電話がかかってくる人達、以外の
人達に対応するための顔は初めからモデル生成手段7に
標準モデルの顔が頭部モデルとして蓄積されており、受
信側話者がその標準モデルの顔を自ら作成編集し、モデ
ル生成手段7に頭部モデルとして蓄積しておいても良
い。さて電話がかかってきたら、まず受信側話者はその
送信側話者の声より人物を判断する。もしその人物が肉
親、知人、友人などであれば、その顔を選択手段6で選
択し、それに伴い選択信号cがモデル生成手段7に出力
される。また、もしその人物が肉親、知人、友人などの
人物以外であれば、標準モデルの顔を選択手段6で選択
し、それに伴い選択信号cがモデル生成手段7に出力さ
れる。さらに、送信側話者の人物が誰であろうとも、あ
らかじめ受信側話者が自ら作成し蓄積しておいた標準モ
デルの顔を、選択手段6で選択しても良い。
Here, the selection of the pseudo face of the transmitting-side speaker by the receiving-side speaker will be described in detail in relation to the operations of the selecting means 6 and the model generating means 7. For example, the receiving speaker images the faces of people who are frequently called, such as relatives, acquaintances, and friends, in advance, and stores them in the model generating means 7 as head models. Also, relatives,
Faces for accommodating people other than acquaintances, friends, and others who frequently call, the face of the standard model is stored as a head model in the model generating means 7 from the beginning, and the receiving speaker The face of the standard model may be created and edited by itself and stored in the model generation means 7 as a head model. When a call is received, the receiving speaker first determines the person from the voice of the transmitting speaker. If the person is a close relative, an acquaintance, a friend, etc., the face is selected by the selection means 6, and the selection signal c is output to the model generation means 7 accordingly. If the person is not a person such as a relative, an acquaintance, or a friend, the face of the standard model is selected by the selection means 6, and the selection signal c is output to the model generation means 7 accordingly. Further, regardless of who is the sender speaker, the selecting unit 6 may select the face of the standard model that the receiver speaker has created and accumulated in advance.

【0015】さて、音声パラメータbには送信側話者の
会話における発音時の口形の情報が含まれており、パラ
メータ変換手段8に入力される。同時に、口形モデルデ
ータdもパラメータ変換手段8に入力される。ここで音
声パラメータbは口形モデルデータdをもとに、時々刻
々と変化する口形パラメータeに変換出力される。その
後、口形パラメータeと頭部モデルデータfは画像合成
手段9に入力される。画像合成手段9では口形パラメー
タeと頭部モデルデータfをもとに、三角形ポリゴンで
構成される三次元モデル(ワイヤフレームモデル)を変
形させ、各ポリゴンにテクスチャマッピング処理を施す
ことにより送信側話者の擬似顔動画像を合成する。尚、
図2に、三次元モデル(ワイヤフレームモデル)のイメ
ージ図を示す。図2で示した三次元モデル(ワイヤフレ
ームモデル)90を構成する無数の三角形、すなわち、
三角形ポリゴンを変形させ、その各ポリゴンに、口形パ
ラメータeと頭部モデルデータfをもとにテクスチャマ
ッピング処理を施すことにより、送信側話者の擬似顔動
画像が得られる。最後に画像合成手段9で得られた送信
側話者の擬似顔動画像を、表示手段10により表示す
る。
Now, the voice parameter b includes the mouth shape information at the time of pronunciation in the conversation of the transmitting side speaker and is input to the parameter converting means 8. At the same time, the mouth shape model data d is also input to the parameter converting means 8. Here, the voice parameter b is converted and output based on the mouth shape model data d into a mouth shape parameter e that changes from moment to moment. Then, the mouth shape parameter e and the head model data f are input to the image synthesizing means 9. The image synthesizing means 9 transforms a three-dimensional model (wireframe model) composed of triangular polygons on the basis of the mouth shape parameter e and the head model data f, and performs texture mapping processing on each polygon, thereby transmitting side talk. Person's pseudo face moving image is synthesized. still,
FIG. 2 shows an image diagram of a three-dimensional model (wireframe model). Countless triangles forming the three-dimensional model (wireframe model) 90 shown in FIG. 2, that is,
By deforming the triangular polygons and subjecting each of the polygons to texture mapping processing based on the mouth shape parameter e and the head model data f, a pseudo facial moving image of the transmitting speaker can be obtained. Finally, the display unit 10 displays the pseudo-face moving image of the transmitting-side speaker obtained by the image synthesizing unit 9.

【0016】このように、図1の実施例では送信側話者
の音声信号からその擬似顔動画像を受信側で生成表示す
ることを特徴としているので、従来のTV電話装置と比
較すると、情報量や伝送時間がはるかに低減できる。ま
た一般の電話や公衆電話、携帯電話からの送信に対して
も、従来のTV電話同士で通話しているような感覚で通
話が行える。さらに送信側話者の音声信号からその擬似
顔動画像を受信側で生成表示するのに際し、音声信号を
パラメータに変換し、そのパラメータから直接的に画像
合成へ結び付ける、というような方法を用いているた
め、複雑な音声認識の手段を用いる必要がないという長
所もある。
As described above, the embodiment of FIG. 1 is characterized in that the pseudo face moving image is generated and displayed on the receiving side from the voice signal of the transmitting side speaker. Volume and transmission time can be much reduced. In addition, even when transmitting from a general telephone, a public telephone, or a mobile telephone, it is possible to make a telephone call as if the telephone calls were between conventional TV telephones. Further, when the pseudo face moving image is generated and displayed on the receiving side from the voice signal of the transmitting side speaker, a method such as converting the audio signal into a parameter and directly connecting the parameter to image synthesis is used. Therefore, there is also an advantage that it is not necessary to use a complicated voice recognition means.

【0017】次に図3、図4のブロック図を用いて本発
明の第2の実施例を詳しく説明する。図3で、100は
自動車・携帯電話といったような受信側話者における移
動体通信の無線端末装置であり、300は本発明の擬似
動画TV電話装置である。6は受信側話者が送信側話者
の擬似顔を選択するための選択信号を出力する選択手段
である。7は口形モデルデータと頭部モデルデータを出
力するモデル生成手段である。8は音声パラメータと口
形モデルデータを入力し、音声パラメータを口形パラメ
ータに変換出力するパラメータ変換手段である。9は口
形パラメータと頭部モデルデータをもとに、送信側話者
の擬似顔動画像の生成を行う画像合成手段である。10
は送信側話者の擬似顔動画像を表示する表示手段であ
る。さらに無線端末装置100における詳しいブロック
図を図4に示す。図4で、101は送受信アンテナ、1
02は高周波部、103は変復調部、104はチャネル
コーデック、105は音声符号化手段、106は音声合
成手段、107はスピーカ、108はマイクであり、例
えばPDC(Personal Digital Ce
llular)などの、財団法人電波システム開発セン
ター刊「ディジタル自動車電話システム標準規格(RC
R STD−27B」で規定されている端末である。
Next, the second embodiment of the present invention will be described in detail with reference to the block diagrams of FIGS. In FIG. 3, reference numeral 100 is a wireless terminal device for mobile communication in a receiving speaker such as an automobile or a mobile phone, and 300 is a pseudo moving image TV phone device of the present invention. Reference numeral 6 is a selection unit that outputs a selection signal for the receiving speaker to select the pseudo face of the transmitting speaker. Reference numeral 7 is a model generating means for outputting the mouth shape model data and the head model data. Reference numeral 8 is a parameter conversion means for inputting a voice parameter and mouth shape model data and converting the voice parameter into a mouth shape parameter for output. Reference numeral 9 is an image synthesizing means for generating a pseudo facial moving image of the transmitting speaker based on the mouth shape parameter and the head model data. 10
Is a display unit for displaying a pseudo facial moving image of the transmitting speaker. Further, a detailed block diagram of the wireless terminal device 100 is shown in FIG. In FIG. 4, 101 is a transmitting / receiving antenna, and 1 is
Reference numeral 02 is a high frequency unit, 103 is a modulation / demodulation unit, 104 is a channel codec, 105 is a voice encoding unit, 106 is a voice synthesizing unit, 107 is a speaker, and 108 is a microphone. For example, a PDC (Personal Digital Ce).
"Digital Car Phone System Standards (RC)
R STD-27B ”.

【0018】次に各部の動作について、図1における第
1の実施例と異なる点についてのみ詳しく説明する。
Next, the operation of each part will be described in detail only about the points different from the first embodiment in FIG.

【0019】無線端末装置100に電話がかかってきた
とすると、送受信アンテナ101に受信した信号は高周
波部102で周波数の低い信号に変換され、変復調部1
03で復調される。その後、チャネルコーデック104
で誤り訂正の処理が行われ、音声処理部105に入力さ
れる。音声処理部105では内部の音声符号化手段10
6で、音声の声道特性と放射特性の特徴を分析し線形予
測符号化を行うことにより、特徴抽出した音声パラメー
タbが存在する。線形予測符号化における処理に関して
はPDCの場合、VSELP(Vector−Sum
Excitedlinear Predictive
Coding)が採用されており、同様の処理が行われ
る。音声パラメータbには送信側話者の会話における発
音時の口形の情報が含まれており、パラメータ変換手段
8に入力される。以下、選択手段6、モデル生成手段
7、パラメータ変換手段8、画像合成手段9、表示手段
10に至る機能及び動作については図1における第1の
実施例と同じであるため省略する。以上説明したよう
に、図1における第1の実施例と異なる点は通信手段4
と音声分析手段5が無線端末装置100に含まれている
ことである。
When a call is made to the wireless terminal device 100, the signal received by the transmitting / receiving antenna 101 is converted into a low frequency signal by the high frequency section 102, and the modulation / demodulation section 1
It is demodulated with 03. Then the channel codec 104
Then, error correction processing is performed and the result is input to the voice processing unit 105. In the voice processing unit 105, the internal voice encoding means 10
In step 6, the features of the vocal tract characteristic and the radiation characteristic of the voice are analyzed, and linear predictive coding is performed, so that the feature-extracted voice parameter b exists. Regarding processing in linear predictive coding, in the case of PDC, VSELP (Vector-Sum) is used.
Excited linear Predictive
Coding) is adopted and similar processing is performed. The voice parameter b includes mouth shape information at the time of pronunciation in the conversation of the transmitting speaker and is input to the parameter converting means 8. The functions and operations of the selecting means 6, the model generating means 7, the parameter converting means 8, the image synthesizing means 9, and the displaying means 10 are the same as those in the first embodiment shown in FIG. As described above, the communication unit 4 is different from the first embodiment in FIG.
That is, the voice analysis unit 5 is included in the wireless terminal device 100.

【0020】次に図3、図4との実施例と本質的には同
じながらも若干変更を施したものとして一つの変形例を
図5に示す。図5で図3、図4と異なる点は図3におけ
る擬似動画TV電話装置300を無線端末装置100に
取り込んだことである。尚、図3における選択手段6は
図5における無線端末装置100には存在しないが、公
知の一般の無線端末装置における、制御部110を介し
たキーパッド111などの操作により代用が可能であ
る。また同様に、図3における表示手段10は図5にお
ける無線端末装置100には存在しないが、これも公知
の一般の無線端末装置における、電話番号などを表示す
るLCD112などで代用が可能である。図5における
具体的な動作については図3、図4における動作と実質
的に同じであるため省略する。
Next, one modification is shown in FIG. 5 as being essentially the same as the embodiment of FIGS. 3 and 4 but with some modifications. 5 is different from FIGS. 3 and 4 in that the pseudo moving picture TV phone device 300 in FIG. 3 is incorporated in the wireless terminal device 100. The selecting unit 6 in FIG. 3 does not exist in the wireless terminal device 100 in FIG. 5, but can be substituted by operating the keypad 111 or the like via the control unit 110 in a known general wireless terminal device. Similarly, the display means 10 in FIG. 3 does not exist in the wireless terminal device 100 in FIG. 5, but it can be replaced by an LCD 112 or the like that displays a telephone number or the like in a known general wireless terminal device. The specific operation in FIG. 5 is substantially the same as the operation in FIGS.

【0021】このように、図3、図4、図5における第
2の実施例における効果は第1の実施例と同様に得るこ
とができる。また、周波数の有効利用に伴う伝送速度の
許容限度を考えた場合、送信側話者の画像伝送をせず
に、音声信号からその擬似顔動画像を受信側で生成表示
できる手段を無線端末装置に持たせた効果は大きい。
As described above, the effects of the second embodiment shown in FIGS. 3, 4, and 5 can be obtained in the same manner as the first embodiment. Further, when considering the allowable limit of the transmission rate due to effective use of the frequency, the wireless terminal device is provided with means capable of generating and displaying the pseudo facial moving image from the audio signal on the receiving side without transmitting the image of the transmitting side speaker. The effect given to is great.

【0022】[0022]

【発明の効果】本発明によれば、送信側話者の音声信号
からその擬似顔動画像を受信側で生成表示するので、実
際に伝送する信号は音声に関するものだけとなり、従来
のTV電話装置と比較すると、情報量や伝送時間がはる
かに低減でき、もちろん一般のアナログ電話回線でも実
現できる。さらに一般の電話や公衆電話、携帯電話から
の送信に対しても、送信側話者の音声信号からその擬似
顔動画像を受信側で生成表示するので、従来のTV電話
同士で通話しているような感覚で通話が行える。
According to the present invention, since the pseudo face moving image is generated and displayed on the receiving side from the voice signal of the transmitting side speaker, the signals actually transmitted are only those related to the voice, and the conventional TV telephone apparatus. Compared with, the amount of information and transmission time can be greatly reduced, and of course, it can be realized even with general analog telephone lines. Further, even when transmitting from a general telephone, a public telephone, or a mobile telephone, the pseudo face moving image is generated and displayed on the receiving side from the voice signal of the transmitting side speaker, so that the conventional videophones talk with each other. You can talk like that.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施例を示すブロック図。FIG. 1 is a block diagram showing a first embodiment of the present invention.

【図2】本発明の第1の実施例で用いる三次元モデルの
斜視図。
FIG. 2 is a perspective view of a three-dimensional model used in the first embodiment of the present invention.

【図3】本発明の第2の実施例を示すブロック図。FIG. 3 is a block diagram showing a second embodiment of the present invention.

【図4】図3の実施例で用いる無線端末装置を示すブロ
ック図。
FIG. 4 is a block diagram showing a wireless terminal device used in the embodiment of FIG.

【図5】本発明の第2の実施例の変形例を示すブロック
図。
FIG. 5 is a block diagram showing a modification of the second embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1…電話機、 2…電話回線、 3…疑似動画TV電話装置、 4…通信手段、 5…音声分析手段、 6…選択手段、 7…モデル生成手段、 8…パラメータ変換手段、 9…画像合成手段、 10…表示手段。 DESCRIPTION OF SYMBOLS 1 ... Telephone, 2 ... Telephone line, 3 ... Pseudo video TV telephone apparatus, 4 ... Communication means, 5 ... Voice analysis means, 6 ... Selection means, 7 ... Model generation means, 8 ... Parameter conversion means, 9 ... Image synthesis means , 10 ... Display means.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 吉岡 厚 神奈川県横浜市戸塚区吉田町292番地株式 会社日立製作所映像メディア研究所内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Atsushi Yoshioka 292 Yoshida-cho, Totsuka-ku, Yokohama-shi, Kanagawa Ltd.

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】音声信号の声道特性と放射特性の特徴を分
析し、特徴抽出した音声パラメータを出力する音声分析
手段と、ワイヤフレームで構成された複数の口形モデル
及び頭部モデルを蓄積し、選択されたモデルに関する口
形及び頭部モデルデータを出力するモデル生成手段と、 前記音声パラメータと前記口形モデルデータを入力し、
前記音声パラメータを時々刻々と変化する口形パラメー
タに変換出力するパラメータ変換手段と、 前記口形パラメータ及び前記頭部モデルデータをもと
に、送信側話者の擬似顔動画像の生成を行う画像合成手
段と、 前記画像合成手段で得られる送信側話者の前記擬似顔動
画像を表示する表示手段と を備えたことを特徴とする
擬似動画TV電話装置。
1. A voice analysis means for analyzing characteristics of a vocal tract characteristic and a radiation characteristic of a voice signal and outputting a voice parameter having the feature extracted, and a plurality of mouth-shaped models and head models composed of wire frames are accumulated. , Model generation means for outputting mouth shape and head model data relating to the selected model, inputting the voice parameter and the mouth shape model data,
Parameter converting means for converting and outputting the voice parameter into a mouth shape parameter that changes from moment to moment, and image synthesizing means for generating a pseudo face moving image of the transmitting speaker based on the mouth shape parameter and the head model data. And a display unit for displaying the pseudo-face moving image of the transmitting-side speaker obtained by the image synthesizing unit.
【請求項2】移動体通信の無線端末装置において、音声
の声道特性と放射特性の特徴を分析し線形予測符号化を
行う音声符号化手段と、符号化された音声データからア
ナログ音声信号を合成する音声合成手段と、前記符号化
された音声データで音声情報の送受信を行う通信手段
と、特徴抽出された音声パラメータを出力するための出
力手段とを備え、ワイヤフレームで構成された複数の口
形モデル及び頭部モデルを蓄積し、選択されたモデルに
関する口形及び頭部モデルデータを出力するモデル生成
手段と、 前記出力手段の出力する前記音声パラメータと、前記モ
デル生成手段の出力する前記口形モデルデータを入力
し、前記音声パラメータを時々刻々と変化する口形パラ
メータに変換するパラメータ変換手段と、前記口形パラ
メータ及び前記頭部モデルデータをもとに、送信側話者
の前記擬似顔動画像の生成を行う画像合成手段と、前記
画像合成手段で得られる送信側話者の前記擬似顔動画像
を表示する表示手段とを備えたことを特徴とする擬似動
画TV電話装置。
2. In a mobile terminal for mobile communication, a speech coding means for analyzing characteristics of vocal tract characteristics and radiation characteristics of speech to perform linear predictive coding, and an analog speech signal from the coded speech data. A plurality of wireframes, each of which is composed of a wire frame, includes a voice synthesizing unit for synthesizing, a communication unit for transmitting and receiving voice information with the encoded voice data, and an output unit for outputting the voice parameter from which the feature is extracted. A model generation unit that stores a mouth shape model and a head model and outputs mouth shape and head model data relating to the selected model, the voice parameter output by the output unit, and the mouth shape model output by the model generation unit. Parameter conversion means for inputting data and converting the voice parameter into a mouth-shaped parameter that changes from moment to moment; An image synthesizing unit for generating the pseudo-face moving image of the transmitting-side speaker based on the head model data, and a display for displaying the pseudo-face dynamic image of the transmitting-side speaker obtained by the image synthesizing unit. And a pseudo moving picture video telephone device.
JP7111524A 1995-05-10 1995-05-10 Pseudo moving image video telephone system Pending JPH08307841A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7111524A JPH08307841A (en) 1995-05-10 1995-05-10 Pseudo moving image video telephone system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7111524A JPH08307841A (en) 1995-05-10 1995-05-10 Pseudo moving image video telephone system

Publications (1)

Publication Number Publication Date
JPH08307841A true JPH08307841A (en) 1996-11-22

Family

ID=14563522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7111524A Pending JPH08307841A (en) 1995-05-10 1995-05-10 Pseudo moving image video telephone system

Country Status (1)

Country Link
JP (1) JPH08307841A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2351638A (en) * 1999-02-24 2001-01-03 Yoshiro Akiyama Telephone that receives image of caller
US6313864B1 (en) * 1997-03-24 2001-11-06 Olympus Optical Co., Ltd. Image and voice communication system and videophone transfer method
JP2003109036A (en) * 2001-10-01 2003-04-11 Minolta Co Ltd Communication system, terminal device, communicating method, transmitting method and computer program
WO2013031677A1 (en) * 2011-08-26 2013-03-07 国立大学法人豊橋技術科学大学 Pronunciation movement visualization device and pronunciation learning device
JP2014529233A (en) * 2012-03-29 2014-10-30 テンセント テクノロジー (シェンツェン) カンパニー リミテッド Communication method and device for video simulation images
CN110446000A (en) * 2019-08-07 2019-11-12 三星电子(中国)研发中心 A kind of figural method and apparatus of generation dialogue

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6313864B1 (en) * 1997-03-24 2001-11-06 Olympus Optical Co., Ltd. Image and voice communication system and videophone transfer method
GB2351638A (en) * 1999-02-24 2001-01-03 Yoshiro Akiyama Telephone that receives image of caller
JP2003109036A (en) * 2001-10-01 2003-04-11 Minolta Co Ltd Communication system, terminal device, communicating method, transmitting method and computer program
WO2013031677A1 (en) * 2011-08-26 2013-03-07 国立大学法人豊橋技術科学大学 Pronunciation movement visualization device and pronunciation learning device
JP2014529233A (en) * 2012-03-29 2014-10-30 テンセント テクノロジー (シェンツェン) カンパニー リミテッド Communication method and device for video simulation images
CN110446000A (en) * 2019-08-07 2019-11-12 三星电子(中国)研发中心 A kind of figural method and apparatus of generation dialogue
CN110446000B (en) * 2019-08-07 2021-04-16 三星电子(中国)研发中心 Method and device for generating dialogue figure image

Similar Documents

Publication Publication Date Title
US5426460A (en) Virtual multimedia service for mass market connectivity
CN110446000B (en) Method and device for generating dialogue figure image
US20040114731A1 (en) Communication system
KR100836616B1 (en) Portable Terminal Having Image Overlay Function And Method For Image Overlaying in Portable Terminal
US20080151786A1 (en) Method and apparatus for hybrid audio-visual communication
KR100566253B1 (en) Device and method for displaying picture in wireless terminal
US5907351A (en) Method and apparatus for cross-modal predictive coding for talking head sequences
JP2004349851A (en) Portable terminal, image communication program, and image communication method
CN1532775A (en) Visuable telephone terminal
JP2006330958A (en) Image composition device, communication terminal using the same, and image communication system and chat server in the system
JP2002354436A (en) Video telephone apparatus
JP4352381B2 (en) Video phone equipment
JP2008085421A (en) Video telephone, calling method, program, voice quality conversion-image editing service providing system, and server
JPH08307841A (en) Pseudo moving image video telephone system
JPH11341456A (en) Household multimedia communication system
JPS62274962A (en) Picture telephone system
JP3062080U (en) Telephone with screen
JP2932027B2 (en) Videophone equipment
JP2000004304A (en) Speech communication device enabling communication with different means
JP2003309829A (en) Mobile moving picture phone
JPH06205404A (en) Video telephone set
JP2005057431A (en) Video phone terminal apparatus
JP2644789B2 (en) Image transmission method
JP2001357414A (en) Animation communicating method and system, and terminal equipment to be used for it
JP2005173772A (en) Image communication system and image formation method