JP4294502B2 - Telephone terminal and image generation method - Google Patents
Telephone terminal and image generation method Download PDFInfo
- Publication number
- JP4294502B2 JP4294502B2 JP2004015218A JP2004015218A JP4294502B2 JP 4294502 B2 JP4294502 B2 JP 4294502B2 JP 2004015218 A JP2004015218 A JP 2004015218A JP 2004015218 A JP2004015218 A JP 2004015218A JP 4294502 B2 JP4294502 B2 JP 4294502B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- original
- time
- telephone terminal
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
本発明は、音声データの出力に連動して画像を表示させる音声再生処理装置及びそれを搭載した電話端末に関する。 The present invention relates to an audio reproduction processing apparatus that displays an image in conjunction with output of audio data and a telephone terminal equipped with the same.
従来から、留守録音した伝言メッセージを受信者に伝えるために、種々の留守番電話サービスシステムが提案されている。例えば、電話回線を利用して伝言メッセージを基地局のメッセージセンタに登録し、受信者がメッセージセンタに問い合わせて伝言メッセージを受けとるというものがある。これによれば、受信者は発呼者との間で、間接的な意志伝達が可能である。 Conventionally, various answering machine service systems have been proposed in order to convey a message message recorded in an absence to a receiver. For example, a message message is registered in a message center of a base station using a telephone line, and a receiver makes an inquiry to the message center to receive the message message. According to this, the recipient can indirectly communicate with the caller.
この留守番電話サービスシステムでは、音声による情報のみを伝言メッセージの媒体として用いるため、伝言メッセージが無機質となり、実際の表現意思が受信者に正確に伝わらない場合がある。これに対して、発呼者の伝言メッセージをデータベースに蓄積し、受信者の要求に応じてその伝言メッセージを再生可能にし、この伝言メッセージの再生時に発信者の感情をエージェント(代理)画像で表現し、そのエージェント画像を連続的に変化させて動画像のように表示する伝言システムが提案されている(例えば、特許文献1参照)。 In this answering machine service system, only voice information is used as a message message medium, so the message message becomes inorganic, and the actual expression intention may not be accurately transmitted to the receiver. On the other hand, the message message of the caller is stored in the database, and the message message can be played back according to the request of the receiver, and the emotion of the caller is expressed by an agent (proxy) image when the message message is played back. And the message system which changes the agent image continuously and displays it like a moving image is proposed (for example, refer to patent documents 1).
しかしながら、このような従来の伝言システムにあっては、伝言メッセージの再生時に動画を表示するためには、エージェント画像のフレームデータを多数用意する必要がある。さらに長時間に亘って異なる動画を再生するには、膨大な量の画像データを蓄積、処理する必要がある。このため、容量の大きなメモリや高速の演算処理回路が必要になり、携帯端末への搭載には向かない。 However, in such a conventional message system, it is necessary to prepare a large number of agent image frame data in order to display a moving image when a message message is reproduced. Furthermore, in order to reproduce different moving images over a long period of time, it is necessary to accumulate and process a huge amount of image data. For this reason, a large-capacity memory and a high-speed arithmetic processing circuit are required, which is not suitable for mounting on a portable terminal.
本発明は、前記事情に鑑みてなされたものであって、データ量を増加させることなく、音声データの出力にあわせて画像の表示形態を変化させることができる音声再生処理装置及びそれを搭載した電話端末を提供することを目的とする。 The present invention has been made in view of the above circumstances, and is equipped with an audio reproduction processing apparatus capable of changing the display form of an image in accordance with the output of audio data without increasing the amount of data, and the same. The purpose is to provide a telephone terminal.
本発明の音声再生処理装置は、音声データの出力に連動して画像を表示させる音声再生処理装置であって、前記音声データを解析する解析手段と、前記音声データを解析する度に解析結果に応じて原画像の表示形態を変化させた新たな画像を生成する画像生成手段と、前記新たな画像を生成する度に前記新たな画像を表示させる表示制御手段と、を備える。 An audio reproduction processing apparatus according to the present invention is an audio reproduction processing apparatus that displays an image in conjunction with output of audio data, and includes analysis means for analyzing the audio data, and an analysis result every time the audio data is analyzed. And an image generation unit that generates a new image in which the display form of the original image is changed, and a display control unit that displays the new image every time the new image is generated.
上記構成によれば、音声データを解析する度に解析結果に応じて原画像の表示形態を変化させた新たな画像を生成する画像生成手段を備えることにより、音声データを解析する度に、一枚の画像から解析結果に応じた画像を順次生成し出力する為、予め複数の画像を用意する必要がなくなり、この結果、データ量を増加させることなく、音声データの出力にあわせて画像の表示形態を変化させることができる。 According to the configuration described above, the image generation unit that generates a new image in which the display form of the original image is changed according to the analysis result every time the sound data is analyzed is provided each time the sound data is analyzed. Since images corresponding to analysis results are sequentially generated and output from a single image, there is no need to prepare multiple images in advance, and as a result, images can be displayed in accordance with the output of audio data without increasing the amount of data. The form can be changed.
また、本発明の音声再生処理装置は、前記解析手段が、前記音声データを単位時間間隔で解析する。上記構成によれば、時間間隔の調整により、生成する画像の数を増やすことができ、画像の連続性を高めることができる。また、生成する画像の数を減らすことで処理の負荷を小さくすることができる。 In the audio reproduction processing apparatus of the present invention, the analysis unit analyzes the audio data at unit time intervals. According to the above configuration, the number of images to be generated can be increased by adjusting the time interval, and the continuity of images can be improved. Further, the processing load can be reduced by reducing the number of images to be generated.
また、本発明の音声再生処理装置は、前記画像生成手段が、顔画像の表情を変化させた新たな顔画像を生成する。上記構成によれば、音声の出力に連動して顔画像の表情を変化させるので、顔画像から音声が発せられているかのように音声を出力させることができる。 In the audio reproduction processing apparatus of the present invention, the image generation unit generates a new face image in which the facial expression is changed. According to the above configuration, the facial expression of the face image is changed in conjunction with the output of the sound, so that the sound can be output as if the sound is emitted from the face image.
また、本発明の音声再生処理装置は、前記顔画像の表情を前記音声データの解析結果に基づいて作成した口形状により変化させるための口形状作成手段を備える。上記構成によれば、原画像の口形状を新たに作成した口形状に変えるだけで画像の表示形態を変化させることができる為、新たな顔画像を少ないデータ量で容易に生成することができる。 The speech reproduction processing apparatus of the present invention further includes mouth shape creation means for changing the facial expression of the face image based on the mouth shape created based on the analysis result of the speech data. According to the above configuration, since the display form of the image can be changed simply by changing the mouth shape of the original image to the newly created mouth shape, a new face image can be easily generated with a small amount of data. .
また、本発明の音声再生処理装置は、前記顔画像の表情を前記音声データの解析結果に基づいて推測した感情により変化させるための感情推測手段を備える。また、本発明の音声再生処理装置は、前記感情推測手段が、前記音声データの声の大きさ、高さ及び話す速度の中から選択した少なくともいずれかに基づいて、話者の感情を推測する。上記構成によれば、話者の感情を表現できる為、より親しみのある顔画像を生成することができる。 The speech reproduction processing apparatus of the present invention further includes emotion estimation means for changing the expression of the face image based on the emotion estimated based on the analysis result of the audio data. In the audio reproduction processing apparatus of the present invention, the emotion estimation means estimates the speaker's emotion based on at least one selected from the loudness, height and speaking speed of the audio data. . According to the above configuration, since the speaker's emotion can be expressed, a more familiar face image can be generated.
また、本発明の音声再生処理装置は、複数の原画像から任意の原画像を選択する選択手段を備える。上記構成によれば、音声データにマッチした原画像を選択することにより、音声データの出力に連動した画像の表示を違和感なく行うことができる。 The audio reproduction processing apparatus according to the present invention further includes selection means for selecting an arbitrary original image from a plurality of original images. According to the above configuration, by selecting the original image that matches the audio data, it is possible to display the image linked with the output of the audio data without a sense of incongruity.
また、本発明の電話端末は、本発明の音声再生処理装置を搭載し、録音された音声データの出力に連動して画像を表示する電話端末であって、前記原画像を電話番号に対応付けて蓄積する蓄積手段と、前記録音された音声を発信元の電話番号に対応付けて記憶する記憶手段と、を備え、前記選択手段が、蓄積された複数の原画像から前記発信元の電話番号に対応する画像を選択し、前記画像生成手段が、前記録音された音声データを解析する度に解析結果に応じて、前記発信元の電話番号に対応して選択した原画像の表示形態を変化させた新たな画像を生成する。 The telephone terminal of the present invention is a telephone terminal that is equipped with the audio reproduction processing apparatus of the present invention and displays an image in conjunction with the output of recorded audio data, and associates the original image with a telephone number. And storage means for storing the recorded voice in association with the telephone number of the caller, and the selection means is configured to store the caller telephone number from a plurality of stored original images. Each time the image generation means analyzes the recorded voice data, the display form of the original image selected corresponding to the caller telephone number is changed according to the analysis result. A new image is generated.
上記構成によれば、原画像を電話番号に対応付けて蓄積する蓄積手段を備えることにより、発信元電話番号に対応付けたメッセージ録音者の顔画像を蓄積しておけば、メッセージ録音者が表情を変えながら話しているかのようにメッセージを再生することができる。 According to the above configuration, by storing the original image in association with the telephone number and storing the face image of the message recorder associated with the caller telephone number, You can play a message as if you were talking.
また、本発明の電話端末は、本発明の音声再生処理装置を搭載し、通話着信音の出力に連動して画像を表示する電話端末であって、前記原画像を電話番号に対応付けて蓄積する蓄積手段を備え、前記選択手段は、蓄積された複数の原画像から前記発信元の電話番号に対応する画像を選択し、前記画像生成手段は、前記着信音を解析する度に解析結果に応じて、前記発信元の電話番号に対応して選択した原画像の表示形態を変化させた新たな画像を生成する。 The telephone terminal of the present invention is a telephone terminal that is equipped with the voice reproduction processing apparatus of the present invention and displays an image in conjunction with the output of a call ringtone, and stores the original image in association with a telephone number. Storing means for selecting, and the selecting means selects an image corresponding to the telephone number of the caller from a plurality of stored original images, and the image generating means outputs an analysis result each time the ringtone is analyzed. In response, a new image is generated by changing the display form of the original image selected corresponding to the telephone number of the caller.
また、本発明の電話端末は、本発明の音声再生処理装置を搭載し、メール着信音の出力に連動して画像を表示する電話端末であって、前記原画像をメールアドレスに対応付けて蓄積する蓄積手段を備え、前記選択手段が、蓄積された複数の原画像から前記メールアドレスに対応する画像を選択し、前記画像生成手段が、前記着信音を解析する度に解析結果に応じて、前記メールアドレスに対応して選択した原画像の表示形態を変化させた新たな画像を生成する。 The telephone terminal of the present invention is a telephone terminal that is equipped with the voice reproduction processing apparatus of the present invention and displays an image in conjunction with the output of a mail ringtone, and stores the original image in association with a mail address. Storing means for selecting the image corresponding to the mail address from the plurality of stored original images, the image generating means according to the analysis result every time the ring tone is analyzed, A new image is generated by changing the display form of the original image selected corresponding to the e-mail address.
上記構成によれば、原画像を電話番号に対応付けて蓄積する蓄積手段を備えることにより、着信中に、発信元電話番号やメールアドレスに対応付けた顔画像から音声が発せられているかのように着信音を出力することができる。 According to the above configuration, by providing the storage unit that stores the original image in association with the telephone number, it is as if the voice is emitted from the face image associated with the caller telephone number or mail address during the incoming call. Can output a ringtone.
また、本発明の電話端末は、本発明の音声再生処理装置を搭載し、通話音声の出力に連動して画像を表示する電話端末であって、前記原画像を電話番号に対応付けて蓄積する蓄積手段を備え、前記選択手段は、蓄積された複数の原画像から前記発信元の電話番号に対応する画像を選択し、前記画像生成手段は、前記着信音声を解析する度に解析結果に応じて、前記発信元の電話番号に対応して選択した原画像の表示形態を変化させた新たな画像を生成する。 The telephone terminal of the present invention is a telephone terminal that is equipped with the voice reproduction processing apparatus of the present invention and displays an image in conjunction with the output of the call voice, and stores the original image in association with the telephone number. Storage means, wherein the selection means selects an image corresponding to the telephone number of the caller from a plurality of stored original images, and the image generation means responds to the analysis result each time the incoming call voice is analyzed. Then, a new image in which the display form of the original image selected corresponding to the caller telephone number is changed is generated.
上記構成によれば、通話相手の音声にあわせて、通話相手が話しているかのようにその顔画像の表情を変化させることができ、メモリ使用量の少ないテレビ電話として利用できる。 According to the above configuration, the facial expression of the face image can be changed as if the other party is talking in accordance with the voice of the other party, so that it can be used as a videophone with a small memory usage.
また、本発明の音声再生処理方法は、音声データの出力に連動して画像を表示させる音声再生処理方法であって、前記音声データを解析し、前記音声データを解析する度に解析結果に応じて原画像の表示形態を変化させた新たな画像を生成し、前記新たな画像を生成する度に前記新たな画像を表示させる。 The audio reproduction processing method of the present invention is an audio reproduction processing method for displaying an image in conjunction with output of audio data, and analyzes the audio data and responds to the analysis result each time the audio data is analyzed. Thus, a new image in which the display form of the original image is changed is generated, and the new image is displayed every time the new image is generated.
さらに、本発明の音声再生処理プログラムは、音声データの出力に連動して画像を表示させる音声再生処理プログラムであって、コンピュータを、前記音声データを解析する解析手段、前記音声データを解析する度に解析結果に応じて原画像の表示形態を変化させた新たな画像を生成する画像生成手段、前記新たな画像を生成する度に前記新たな画像を表示させる表示制御手段、として機能させるための音声再生処理プログラムである。 Furthermore, the audio reproduction processing program of the present invention is an audio reproduction processing program for displaying an image in conjunction with output of audio data, and the computer analyzes the audio data each time the audio data is analyzed. For generating a new image in which the display form of the original image is changed according to the analysis result, and a display control unit for displaying the new image every time the new image is generated. This is a sound reproduction processing program.
本発明によれば、音声データを解析する度に解析結果に応じて原画像の表示形態を変化させた新たな画像を生成する画像生成手段を備えることにより、音声データを解析する度に、一枚の画像から解析結果に応じた画像を順次生成し、出力する為、予め複数の画像を用意する必要がなくなり、この結果、データ量を増加させることなく、音声データの出力にあわせて画像の表示形態を変化させることができる。 According to the present invention, the image generation unit that generates a new image in which the display form of the original image is changed according to the analysis result every time the audio data is analyzed is provided. Since the images corresponding to the analysis results are sequentially generated and output from the images, it is not necessary to prepare a plurality of images in advance, and as a result, the image data can be matched to the output of the audio data without increasing the data amount. The display form can be changed.
図1は、本発明の一実施の形態を説明するための留守番電話再生システムの構成図である。同図に示す端末11は、音声データの出力に連動して画像を表示させる音声再生処理装置を搭載した電話端末であって、録音されたメッセージを出力しながら、メッセージ録音者の顔画像の表情を変化させて表示するものである。端末11は、音声を入力するためのマイク12と、音声を出力するためのスピーカ13と、画像を出力するためのモニタ(LCD)14と、マウスなどのポインディングデバイス、キーボードなどの手動の入力操作部15を外付けで備える。入力操作部15は端末11の各種機能の実行や設定入力を可能にしている。
FIG. 1 is a configuration diagram of an answering machine reproduction system for explaining an embodiment of the present invention. The
端末11は制御部16を備えている。制御部16は、CPU等を備え、後述する伝言データの録音、再生や発呼者の画像処理に関わる各種手段の実行制御や、データベースへのアクセス制御等を行うものである。また、制御部16は、原画像(顔画像)の表示形態を変化させた新たな画像(表情変更画像)を生成する度に、表示手段14にこの新たな画像を表示させる。
The
また、端末11は、伝言メッセージ(音声データ)を録音する録音手段17と、録音された音声を発信元の電話番号に対応付けて記憶する録音データベース18と、録音データベース18への音声データの入出力を管理する録音データ管理手段19と、音声データを再生する再生手段20と、音声データを解析し、顔画像の表情をこの音声データの解析結果に基づいて作成した口形状により変化させるための口形状作成手段21と、音声データを解析し、顔画像の表情をこの音声データの解析結果に基づいて推測した感情により変化させるための感情推測手段22と、原画像を電話番号に対応付けて蓄積する電話帳データベース23と、電話帳データベース23へのデータの入出力を管理する電話帳データ管理手段24と、発呼者を電話番号に基づいて特定するユーザ特定手段25と、音声データを解析する度に解析結果に応じて原画像の表示形態を変化させた新たな画像を生成する表情変更画像作成手段26とを備えている。ユーザ特定手段25及び電話帳データ管理手段24は、電話帳データベース23に蓄積された複数の顔画像から発信元の電話番号に対応する画像を選択する。
The
電話帳データベース24は、発呼者側端末の電話番号とこの電話番号に対応する発呼者の静止画像とを関連付けて格納している。発呼者の静止画像は、予め受信者側端末11自体が保有するデジタルカメラ(図示せず)から取り込んだものや、発呼者から提供されたもの等である。この静止画像が、各発呼者の電話番号に対応付けて格納される。
The
また、録音データベース18は、留守録音時に、発呼者の留守録音データと発信元電話番号とを関連付けて、録音日時(着信日時)とともに格納する。
Further, the
口形状作成手段21は、録音データの再生時に発信元電話番号に対応する発呼者の顔画像の口の形状を録音データにもとづいて複数作成するものである。ここでは、例えば発呼者の話し言葉である日本語の母音「ア」、「イ」、「ウ」、「エ」、「オ」の5音に相当する五つの口の形状を作成する。口形状作成手段21は、音声データを単位時間間隔で音声認識等により解析し、解析する度に、解析されたフレーズの最初の母音に相当する口形状画像を作成する。音声データの再生時に逐次口形状画像を作成することにより、複数の画像を保持しておく必要がないため、扱うデータ量の増加を抑えることができる。この口形状の変化により、発呼者がいかにも話をしている様子を画面上で表現することができる。なお、音声データ再生開始時に、5種類の口形状画像を予め作成しておいてもよい。この場合、原画像に対する口形状の差分データのみを記憶することによって、扱うデータ量の増加を最小限に抑えることができる。 The mouth shape creating means 21 creates a plurality of mouth shapes of the caller's face image corresponding to the caller telephone number based on the recorded data when the recorded data is reproduced. Here, for example, five mouth shapes corresponding to five vowels of Japanese vowels “A”, “I”, “U”, “E”, “O”, which are spoken words of the caller, are created. The mouth shape creating means 21 analyzes the speech data by speech recognition or the like at unit time intervals, and creates a mouth shape image corresponding to the first vowel of the analyzed phrase each time it is analyzed. By sequentially creating mouth shape images at the time of reproducing audio data, it is not necessary to hold a plurality of images, so that an increase in the amount of data to be handled can be suppressed. By changing the mouth shape, it is possible to express on the screen how the caller is talking. Note that five types of mouth shape images may be created in advance at the start of audio data reproduction. In this case, an increase in the amount of data to be handled can be minimized by storing only the difference data of the mouth shape with respect to the original image.
感情推測手段22は、音声データの再生時に、声の大きさ、高さ及び話す速度の中から選択した少なくともいずれかに基づいて、話者の感情を推測するものである。この感情情報を表情変更画像作成手段26で作られる顔の表情に反映させることができる。感情推測手段22には発呼者の喜怒哀楽の感情情報が、声の大きさ、高さおよび話す速度ごとにパラメータ化されており、顔画像の表示形態を変更させるための感情表現情報として記憶されている。感情推測手段22は、例えば、音声データの声が大きく、高い調子で、早口の場合は、話者が怒っている、また、声の大きさや高さが普通で、話す速度が遅い場合は、話者が平常状態である等と推測する。
The emotion estimation means 22 is for estimating the speaker's emotion based on at least one selected from the loudness, pitch and speaking speed when reproducing the voice data. This emotion information can be reflected in the facial expression created by the facial expression change
表情変更画像作成手段26は、音声データが解析される度に、作成された口形状画像と原画像とを合成して、原画像の顔の表情が変化する表情変更画像を生成する。また、表情変更画像作成手段26は、口形状作成手段21で作成された口形状画像を利用して、感情推測手段22で得られた感情情報を付加して、原画像の口形状及び目の形状等(例えば、目元が下がっている、口を大きく開ける等)を変化させた表情変更画像を生成する。表情変更画像は、生成される度に表示手段14に表示される。 Each time the voice data is analyzed, the facial expression changed image creating means 26 synthesizes the created mouth shape image and the original image to generate a facial expression modified image in which the facial expression of the original image changes. The facial expression change image creation means 26 adds the emotion information obtained by the emotion estimation means 22 using the mouth shape image created by the mouth shape creation means 21, and adds the mouth shape and eyes of the original image. An expression-changed image is generated in which the shape or the like (for example, the eyes are lowered or the mouth is opened wide) is changed. Each time the facial expression change image is generated, it is displayed on the display means 14.
図2は録音データの読み込みから画像の表情変更までのプロセスを説明する図であり、図3は、録音データの読み込みから画像の表情変更までのフローを示す図である。端末11に付属の入力操作部15が操作されると、制御部16は、留守録音があったか否かを、録音データ管理手段19を通じて録音データベース18を参照することにより調べる。留守録音があった場合、録音データ管理手段19は、録音データベース18から着信時に記録された音声データ、つまり発呼者のメッセージデータと、このメッセージデータに対応する発呼者端末の電話番号(発信元電話番号)とを読み込む(ステップS31)。
FIG. 2 is a diagram for explaining the process from reading of recorded data to changing the facial expression of an image, and FIG. 3 is a diagram showing the flow from reading of recorded data to changing the facial expression of an image. When the
次に、ユーザ特定手段25は、電話帳データ管理手段24を通じて発信元電話番号が電話帳データベース23に登録されているか否かを調べる(ステップS32)。電話帳データベース23に電話番号が登録されていた場合には(ステップS33)、続いてその電話番号に対応する発呼者の静止画像が電話帳データベース23に登録されているか否かを調べる(ステップS34)。
Next, the
静止画像が電話帳データベース23に登録されている場合には、制御部16はその静止画像をユーザ特定手段25に読み込ませて保持させる(ステップS35)。このようにして、一連の録音データに関する処理を終了すると、再生処理開始まで待機する。
If a still image is registered in the
留守録音データがあることを表示手段14等により確認した端末11のユーザが入力操作部15を操作することにより、録音データ再生処理が開始される。制御部16は、ユーザ特定手段25に発呼者の画像データが保持されているか否かを調べる(ステップS37)。顔画像データが保持されている場合には、録音データを単位時間分ずつ解析していき(ステップS38)、その都度、口形状データを作成し(ステップS39)、話者の感情を推測する(ステップS40)。
When the user of the terminal 11 confirms that there is absence recording data by the display means 14 or the like and operates the
表情変更画像作成手段26は、口形状の変化による顔の表情変化に加えて、感情推測手段で推測した感情情報を反映させて、一枚の原画像から録音データの解析結果に応じた表情変更画像を作成する(ステップS41)。その後、表示手段14が表情変更画像を表示する(ステップS42)と共に録音データが単位時間分再生される(ステップS43)。そして、未再生の録音データが無くなるまでステップS37以下の処理を繰り返す(ステップS44、S36)。なお、ステップS37で顔画像が読み込まれていないと判断されると、ステップS43に進み、録音データの再生が行われる。 The expression change image creation means 26 reflects the emotion information estimated by the emotion estimation means in addition to the facial expression change due to the mouth shape change, and changes the expression according to the analysis result of the recorded data from one original image. An image is created (step S41). Thereafter, the display means 14 displays the expression change image (step S42) and the recorded data is reproduced for a unit time (step S43). Then, the processes after step S37 are repeated until there is no unreproduced recording data (steps S44 and S36). If it is determined in step S37 that the face image has not been read, the process proceeds to step S43, and the recorded data is reproduced.
このように、受信者側の端末で留守録音されたメッセージを再生する際に、単に音声を出力するだけでなく、発呼者本人の顔画像を表示し、その表情を変化させることで、発呼者がしゃべっているかのようにメッセージ再生を行うことができる。この画像表示によって、発呼者が受信者のそばに居てしゃべっている様な効果を得て、受信者を楽しませることができる。 In this way, when playing back a message recorded on the receiver's terminal, not only the voice is output but also the caller's face image is displayed and the facial expression is changed to Message playback can be performed as if the caller is speaking. By this image display, it is possible to entertain the receiver with the effect that the caller is near the receiver.
なお、以上説明した音声再生処理を他の用途に用いることもできる。例えば、着信音の出力とともに着信音にマッチする画像や発信者の顔画像等の表示の形状、模様、色彩(表示形態)を変化させて表示することができる。また、通話中に相手の顔画像を変化させて表示することができる。この場合、テレビ電話機能を持たない電話端末であってもテレビ電話と同様の機能を実現することができ、テレビ電話機能を持つ電話端末の場合には、音声及び画像を送受信する場合と比べて扱うデータ量を大幅に低減できる効果がある。 In addition, the audio | voice reproduction process demonstrated above can also be used for another use. For example, it is possible to change the display shape, pattern, and color (display form) of an image that matches the ring tone and the face image of the caller, etc., together with the output of the ring tone. In addition, the face image of the other party can be changed and displayed during a call. In this case, even a telephone terminal that does not have a videophone function can realize the same function as a videophone. In the case of a telephone terminal that has a videophone function, compared to the case of transmitting and receiving audio and images. This has the effect of greatly reducing the amount of data handled.
本発明の音声再生処理装置及び電話端末は、データ量を増加させることなく、音声データの出力にあわせて画像の表示形態を変化させることができる効果を有し、留守録音されたメッセージを発呼者自身の顔画像とともに再生する留守番電話システム等といった音声データの出力に連動して画像を表示させる音声再生処理装置及びそれを搭載した電話端末等に有用である。 The voice reproduction processing device and the telephone terminal of the present invention have an effect that the display form of an image can be changed in accordance with the output of voice data without increasing the amount of data, and a message recorded by absence is called. This is useful for a voice reproduction processing apparatus that displays an image in conjunction with output of voice data, such as an answering machine system that reproduces the user's own face image, and a telephone terminal equipped with the same.
11 端末
16 制御部
17 録音手段
18 録音データベース
19 録音データ管理手段
20 再生手段
21 口形状作成手段
22 感情推測手段
23 電話帳データベース
24 電話帳データ管理手段
25 ユーザ特定手段
26 表情変更画像作成手段
DESCRIPTION OF
Claims (9)
音声データを解析する解析手段と、
前記音声データを解析する度に解析結果に応じて原画像の表示形態を変化させた新たな画像を生成する画像生成手段と、
前記新たな画像を生成する度に前記新たな画像を表示させる表示制御手段と、
複数の原画像から任意の原画像を選択する選択手段と、
前記原画像を電話番号に対応付けて蓄積する蓄積手段と、
を備え、
前記選択手段は、蓄積された複数の原画像から前記発信元の電話番号に対応する画像を選択し、
前記画像生成手段は、前記着信音を解析する度に解析結果に応じて、前記発信元の電話番号に対応して選択した原画像の表示形態を変化させた新たな画像を生成する電話端末。 A phone terminal that displays an image in conjunction with the output of a call ringtone ,
An analysis means for analyzing voice data;
Image generating means for generating a new image in which the display form of the original image is changed according to the analysis result every time the audio data is analyzed;
Display control means for displaying the new image every time the new image is generated ;
Selecting means for selecting an arbitrary original image from a plurality of original images;
Storage means for storing the original image in association with a telephone number;
With
The selection means selects an image corresponding to the caller's telephone number from a plurality of stored original images,
The image generation means is a telephone terminal that generates a new image in which the display form of the original image selected corresponding to the caller telephone number is changed according to the analysis result every time the ring tone is analyzed .
音声データを解析する解析手段と、
前記音声データを解析する度に解析結果に応じて原画像の表示形態を変化させた新たな画像を生成する画像生成手段と、
前記新たな画像を生成する度に前記新たな画像を表示させる表示制御手段と、
複数の原画像から任意の原画像を選択する選択手段と、
前記原画像を電話番号に対応付けて蓄積する蓄積手段と、
を備え、
前記選択手段は、蓄積された複数の原画像から前記発信元のメールアドレスに対応する画像を選択し、
前記画像生成手段は、前記着信音を解析する度に解析結果に応じて、前記発信元のメールアドレスに対応して選択した原画像の表示形態を変化させた新たな画像を生成する電話端末。 A phone terminal that displays an image in conjunction with the output of an email ringtone,
An analysis means for analyzing voice data;
Image generating means for generating a new image in which the display form of the original image is changed according to the analysis result every time the audio data is analyzed;
Display control means for displaying the new image every time the new image is generated;
Selecting means for selecting an arbitrary original image from a plurality of original images;
Storage means for storing the original image in association with a telephone number;
With
The selection means selects an image corresponding to the mail address of the sender from a plurality of stored original images,
The image generation means is a telephone terminal that generates a new image in which the display form of the original image selected corresponding to the mail address of the transmission source is changed according to the analysis result every time the ring tone is analyzed .
前記解析手段は、前記音声データを単位時間間隔で解析する電話端末。 The telephone terminal according to claim 1 or 2,
The analysis means is a telephone terminal that analyzes the voice data at unit time intervals.
前記画像生成手段は、顔画像の表情を変化させた新たな顔画像を生成する電話端末。 The telephone terminal according to any one of claims 1 to 3 ,
The image generation means is a telephone terminal that generates a new face image in which the expression of the face image is changed.
さらに、前記顔画像の表情を前記音声データの解析結果に基づいて作成した口形状により変化させるための口形状作成手段を備える電話端末。 The telephone terminal according to claim 4 , wherein
Furthermore, a telephone terminal comprising mouth shape creating means for changing the facial expression of the face image according to the mouth shape created based on the analysis result of the voice data.
さらに、前記顔画像の表情を前記音声データの解析結果に基づいて推測した感情により変化させるための感情推測手段を備える電話端末。 The telephone terminal according to claim 4 or 5 , wherein
Furthermore, a telephone terminal provided with an emotion estimation means for changing the expression of the face image by an emotion estimated based on the analysis result of the audio data.
前記感情推測手段は、前記音声データの声の大きさ、高さ及び話す速度の中から選択し
た少なくともいずれかに基づいて、話者の感情を推測する電話端末。 The telephone terminal according to claim 6 , wherein
The emotion estimation means is selected from the volume, height and speaking speed of the voice data.
A phone terminal that guesses the emotions of a speaker based on at least one of them.
音声データを解析する解析ステップと、 An analysis step for analyzing audio data;
前記音声データを解析する度に解析結果に応じて原画像の表示形態を変化させた新たな画像を生成する画像生成ステップと、 An image generation step of generating a new image in which the display form of the original image is changed according to the analysis result every time the audio data is analyzed;
前記新たな画像を生成する度に前記新たな画像を表示させる表示制御ステップと、 A display control step of displaying the new image every time the new image is generated;
複数の原画像から任意の原画像を選択する選択ステップと、 A selection step of selecting an arbitrary original image from a plurality of original images;
前記原画像を電話番号に対応付けて蓄積する蓄積ステップと、 An accumulation step of accumulating the original image in association with a telephone number;
を備え、 With
前記選択ステップにおいて、蓄積された複数の原画像から発信元の電話番号に対応する画像を選択し、 In the selecting step, an image corresponding to the telephone number of the caller is selected from a plurality of accumulated original images,
前記画像生成ステップにおいて、前記着信音を解析する度に解析結果に応じて、前記発信元の電話番号に対応して選択した原画像の表示形態を変化させた新たな画像を生成する画像生成方法。 In the image generation step, an image generation method for generating a new image in which the display form of the original image selected corresponding to the caller telephone number is changed according to the analysis result every time the ringtone is analyzed .
音声データを解析する解析ステップと、 An analysis step for analyzing audio data;
前記音声データを解析する度に解析結果に応じて原画像の表示形態を変化させた新たな画像を生成する画像生成ステップと、 An image generation step of generating a new image in which the display form of the original image is changed according to the analysis result every time the audio data is analyzed;
前記新たな画像を生成する度に前記新たな画像を表示させる表示制御ステップと、 A display control step of displaying the new image every time the new image is generated;
複数の原画像から任意の原画像を選択する選択ステップと、 A selection step of selecting an arbitrary original image from a plurality of original images;
前記原画像を電話番号に対応付けて蓄積する蓄積ステップと、 An accumulation step of accumulating the original image in association with a telephone number;
を備え、 With
前記選択ステップにおいて、蓄積された複数の原画像から発信元のメールアドレスに対応する画像を選択し、 In the selection step, an image corresponding to the mail address of the sender is selected from a plurality of accumulated original images,
前記画像生成ステップにおいて、前記着信音を解析する度に解析結果に応じて、前記発信元のメールアドレスに対応して選択した原画像の表示形態を変化させた新たな画像を生成する画像生成方法。 In the image generation step, an image generation method for generating a new image in which the display form of the original image selected corresponding to the mail address of the transmission source is changed according to the analysis result every time the ringtone is analyzed .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004015218A JP4294502B2 (en) | 2004-01-23 | 2004-01-23 | Telephone terminal and image generation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004015218A JP4294502B2 (en) | 2004-01-23 | 2004-01-23 | Telephone terminal and image generation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005208367A JP2005208367A (en) | 2005-08-04 |
JP4294502B2 true JP4294502B2 (en) | 2009-07-15 |
Family
ID=34900752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004015218A Expired - Fee Related JP4294502B2 (en) | 2004-01-23 | 2004-01-23 | Telephone terminal and image generation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4294502B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6149230B2 (en) * | 2014-03-28 | 2017-06-21 | 学校法人塚本学院 | Life support device for people with cerebral dysfunction |
CN112188304B (en) * | 2020-09-28 | 2022-11-15 | 广州酷狗计算机科技有限公司 | Video generation method, device, terminal and storage medium |
-
2004
- 2004-01-23 JP JP2004015218A patent/JP4294502B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005208367A (en) | 2005-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2382514C2 (en) | System and method for automatic generation of user video data for call signals and transmitting context information | |
KR100597667B1 (en) | mobile communication terminal with improved user interface | |
US8626496B2 (en) | Method and apparatus for enabling playback of ad HOC conversations | |
KR20070020252A (en) | Method of and system for modifying messages | |
JP2010054991A (en) | Recording device | |
JP2006251898A (en) | Information processor, information processing method, and program | |
KR100795357B1 (en) | Mobile animation message service method and system and terminal | |
KR20070037267A (en) | Mobile terminal for identifying a caller | |
JP2005520459A (en) | Semiconductor chip used in a mobile phone having a text-to-speech conversion system, a method for aurally displaying a notification or text message from a mobile phone, and | |
JP4294502B2 (en) | Telephone terminal and image generation method | |
JP2003218999A (en) | Mobile phone with voice recognition function and control program thereof | |
JP2009260718A (en) | Image reproduction system and image reproduction processing program | |
US8345664B2 (en) | IP communication apparatus | |
JP7052335B2 (en) | Information processing system, information processing method and program | |
JP2017111339A (en) | Voice reproduction device, voice reproduction method, and program | |
JP2009290468A (en) | Speech recording device and method | |
KR100380829B1 (en) | System and method for managing conversation -type interface with agent and media for storing program source thereof | |
KR100597669B1 (en) | Mobile telecommunication terminal for playing multimedia contents and method thereof | |
JP4353084B2 (en) | Video reproduction method, apparatus and program | |
JP5326539B2 (en) | Answering Machine, Answering Machine Service Server, and Answering Machine Service Method | |
JP7423164B2 (en) | karaoke equipment | |
JP2005043628A (en) | Dialog recorder and dialog recording method | |
KR20100010151A (en) | Filming device having function of playing sound and method for controlling thereof | |
JP2006165846A (en) | Portable telephone device | |
KR940008499A (en) | Answering Machine and Method of Video Phone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060309 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060327 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071114 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071121 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071128 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071205 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090310 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090408 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120417 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130417 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130417 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140417 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |