JP2003209600A - Calling system, calling terminal, method, program, and computer-readable storage medium - Google Patents

Calling system, calling terminal, method, program, and computer-readable storage medium

Info

Publication number
JP2003209600A
JP2003209600A JP2002005142A JP2002005142A JP2003209600A JP 2003209600 A JP2003209600 A JP 2003209600A JP 2002005142 A JP2002005142 A JP 2002005142A JP 2002005142 A JP2002005142 A JP 2002005142A JP 2003209600 A JP2003209600 A JP 2003209600A
Authority
JP
Japan
Prior art keywords
voice
call
information
party
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002005142A
Other languages
Japanese (ja)
Inventor
Akiyoshi Hamanaka
章佳 浜中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002005142A priority Critical patent/JP2003209600A/en
Publication of JP2003209600A publication Critical patent/JP2003209600A/en
Pending legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To clearly inform meaning of conversation (the intention of a calling party) and to allow easy use even for a bearing impaired person. <P>SOLUTION: A calling system allows bi-directional simultaneous communications of a voice and a picture between at least two calling terminals 201, 202. The calling system comprises: a voice recognition means for voice- recognizing voice information transmitted from the calling terminal of the calling party; a determination means for determining the success or failure in the voice recognition; a conversion means for converting the voice-recognized voice information into character information when the possible voice recognition is determined; a display means for superimposing the converted character information on the picture information transmitted from the calling terminal of the calling party for display on a monitor TV; and a processing means for performing a process intending to enhance hearing recognition against the voice information (for example, the process for increasing sound pressure) when unavailable voice recognition is determined. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、音声及び画像の双
方向同時通信を可能とした通話システム、当該通話シス
テムに用いられる通話端末、方法、プログラム、及びコ
ンピュータ読み取り可能な記憶媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a call system capable of two-way simultaneous communication of voice and image, a call terminal used in the call system, a method, a program, and a computer-readable storage medium.

【0002】[0002]

【従来の技術】今日においては、音声及び画像の双方向
同時通信を可能とした通話システムが実現されるに至っ
ている。かかる通話システムでは、遠隔地のそれぞれに
マイク内蔵型カメラ及びスピーカ付きモニタTVを有す
る通話端末が備えられており、相手の画像を見ながら通
話するようなシステムとなっている。
2. Description of the Related Art Today, a call system capable of bidirectional simultaneous voice and image communication has been realized. In such a call system, a call terminal having a camera with a built-in microphone and a monitor TV with a speaker is provided at each of the remote locations, and the call is made while watching the image of the other party.

【0003】[0003]

【発明が解決しようとする課題】上記のように音声及び
画像の双方向同時通信を可能とした通話システムでは、
音声に画像が加わることにより会話の理解が促進される
という利点があるが、それでもなお、周辺ノイズや話者
の不明瞭な発音により会話が聞き取り難いという場面で
は、会話の意味(相手の意志)が伝わらないことがあっ
た。
SUMMARY OF THE INVENTION As described above, in a call system capable of bidirectional simultaneous voice and image communication,
Although there is an advantage that the understanding of the conversation is promoted by adding the image to the voice, the meaning of the conversation (the intention of the other party) is nevertheless used when the conversation is difficult to hear due to the ambient noise and the unclear pronunciation of the speaker. Was not transmitted.

【0004】また、音声のみの通話システムと同様に、
聴覚障害者が利用することは相変わらず困難であるとい
う問題があった。
Also, like a voice-only call system,
There is a problem that it is still difficult for hearing-impaired people to use.

【0005】本発明は上記の点に鑑みてなされたもので
あり、音声及び画像の双方向同時通信を可能とした通話
システムにおいて会話の意味(相手の意思)を明確に伝
えることを可能とし、更には聴覚障害者等でも利用しや
すいものとすることを目的とする。
The present invention has been made in view of the above points, and makes it possible to clearly convey the meaning of a conversation (the intention of the other party) in a communication system capable of two-way simultaneous communication of voice and image, Furthermore, it is intended to make it easy for people with hearing impairments to use.

【0006】[0006]

【課題を解決するための手段】本発明の通話システム
は、少なくとも二以上の通話端末間で音声及び画像の双
方向同時通信を可能とした通話システムであって、相手
の通話端末から送信された音声情報を音声認識する音声
認識手段と、上記音声認識された音声情報を文字情報に
変換する変換手段と、上記文字情報を上記相手の通話端
末から送信された画像情報に重畳して表示装置に表示す
る表示手段とを備えた点に特徴を有する。
The call system of the present invention is a call system that enables two-way simultaneous communication of voice and image between at least two call terminals, and is transmitted from the call terminal of the other party. A voice recognition unit for recognizing voice information, a conversion unit for converting the voice-recognized voice information into character information, and a display device by superimposing the character information on image information transmitted from the call terminal of the other party. It is characterized in that a display means for displaying is provided.

【0007】また、本発明の通話システムの他の特徴と
するところは、上記音声認識の成否を判断する判断手段
と、上記音声認識ができなかったと判定された場合に、
上記音声情報に対して聴覚的な認識度の向上を意図した
一又は複数の処理を行う処理手段とを備えた点にある。
更には、上記聴覚的な認識度の向上を意図した処理とし
て所望の処理を設定可能とした点にある。上記聴覚的な
認識度の向上を意図した処理としては、音圧増大処理、
周波数特性調整処理、騒音除去処理等を適用することが
できる。
Another feature of the call system according to the present invention is that the determining means determines whether or not the voice recognition is successful, and if the voice recognition is determined to be impossible,
The present invention is provided with a processing unit that performs one or a plurality of processes intended to improve the auditory recognition of the voice information.
Furthermore, it is possible to set a desired process as a process intended to improve the auditory recognition level. As processing intended to improve the auditory recognition, sound pressure increasing processing,
Frequency characteristic adjustment processing, noise removal processing, etc. can be applied.

【0008】また、本発明の通話システムの他の特徴と
するところは、上記相手の通話端末から送信された画像
情報を記憶するためのメモリ手段を備えた点にある。ま
た、本発明の通話システムの他の特徴とするところは、
上記相手の通話端末から送信された音声情報を記憶する
ためのメモリ手段を備えた点にある。
Another feature of the call system of the present invention is that it is provided with a memory means for storing image information transmitted from the call terminal of the other party. In addition, other features of the call system of the present invention are:
The point is that a memory means for storing voice information transmitted from the call terminal of the other party is provided.

【0009】また、本発明の通話システムの他の特徴と
するところは、上記音声情報と上記画像情報との同期制
御を行う同期制御手段を備えた点にある。
Another feature of the communication system of the present invention is that it is provided with a synchronization control means for controlling the synchronization of the voice information and the image information.

【0010】また、本発明の通話システムの他の特徴と
するところは、少なくとも一の通話装置には文字入力端
末が備えられており、当該文字入力端末介して入力され
た文字情報を相手の通話装置に送信可能とした点にあ
る。また、本発明の通話システムの他の特徴とするとこ
ろは、少なくとも一の通話装置は、相手の通話端末から
送信された文字情報を、同時に送信された画像情報に重
畳して表示装置に表示する表示手段を備えた点にある。
Another feature of the call system of the present invention is that at least one of the call devices is provided with a character input terminal, and the character information input via the character input terminal is used to call the other party. It is possible to send to the device. Another feature of the call system of the present invention is that at least one call device displays the character information transmitted from the call terminal of the other party on the display device by superimposing it on the image information transmitted at the same time. It has a display means.

【0011】本発明の通話端末は、少なくとも二以上の
通話端末間で音声及び画像の双方向同時通信を可能とし
た通話システムに用いられる通話端末であって、相手の
通話端末から送信された音声情報を音声認識する音声認
識手段と、上記音声認識された音声情報を文字情報に変
換する変換手段と、上記文字情報を上記相手の通話端末
から送信された画像情報に重畳して表示装置に表示する
表示手段とを備えた点に特徴を有する。
The call terminal of the present invention is a call terminal used in a call system capable of two-way simultaneous communication of voice and image between at least two call terminals, and the voice transmitted from the call terminal of the other party. A voice recognizing means for recognizing information by voice, a converting means for converting the voice recognized voice information into character information, and displaying the character information on the display device by superimposing the character information on the image information transmitted from the call terminal of the other party. It has a feature in that it is provided with a display means.

【0012】本発明の通話方法は、少なくとも二以上の
通話端末間で音声及び画像の双方向同時通信を可能とし
た通話システムを用いた通話方法であって、相手の通話
端末から送信された音声情報を音声認識する手順と、上
記音声認識された音声情報を文字情報に変換する手順
と、上記文字情報を上記相手の通話端末から送信された
画像情報に重畳して表示装置に表示する手順とを有する
点に特徴を有する。
The call method of the present invention is a call method using a call system capable of two-way simultaneous communication of voice and image between at least two call terminals, and the voice transmitted from the call terminal of the other party. A procedure of recognizing information by voice, a procedure of converting the voice information recognized by voice into character information, and a step of superimposing the character information on image information transmitted from the call terminal of the other party and displaying it on a display device. It is characterized by having.

【0013】本発明のプログラムは、少なくとも二以上
の通話端末間で音声及び画像の双方向同時通信を可能と
した通話システムに用いられる通話端末を制御するため
のプログラムであって、相手の通話端末から送信された
音声情報を音声認識する処理と、上記音声認識された音
声情報を文字情報に変換する処理と、上記文字情報を上
記相手の通話端末から送信された画像情報に重畳して表
示装置に表示する処理とを実行させる点に特徴を有す
る。
The program of the present invention is a program for controlling a call terminal used in a call system capable of two-way simultaneous communication of voice and image between at least two or more call terminals. A process of recognizing voice information transmitted from the voice recognition device, a process of converting the voice recognition voice information to character information, and a display device by superimposing the character information on image information transmitted from the call terminal of the other party. It is characterized in that it executes the process displayed in.

【0014】本発明のコンピュータプログラムは、上記
プログラムを格納した点に特徴を有する。
The computer program of the present invention is characterized in that the above program is stored.

【0015】[0015]

【発明の実施の形態】以下、図面を参照して、本発明の
通話システム、通話端末、方法、プログラム、及びコン
ピュータ読み取り可能な記憶媒体の実施の形態について
説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of a call system, a call terminal, a method, a program, and a computer-readable storage medium according to the present invention will be described below with reference to the drawings.

【0016】(第1の実施の形態)図1には、本実施の
形態の通話システムの構成を示す。同時送受話及び同時
送受像可能な通話端末201、202が伝送路を介して
接続されており、各端末201、202は、マイク内蔵
型カメラ203、207、スピーカ205、209を備
えたモニタTV204、208からなる。
(First Embodiment) FIG. 1 shows the configuration of a communication system according to the present embodiment. Call terminals 201 and 202 capable of simultaneous transmission / reception and simultaneous image transmission / reception are connected via a transmission path. Each of the terminals 201 and 202 includes a monitor TV 204 equipped with a built-in microphone camera 203, 207 and speakers 205, 209. It consists of 208.

【0017】同図において、212、214はモニタT
V204、208に表示された互いの通信相手の画像を
示し、211、213は後述するようにして互いの通信
相手から送信された音声信号(音声情報)を音声認識し
た結果のキャプションを示す。
In the figure, reference numerals 212 and 214 denote monitors T.
Images of mutual communication partners displayed on V204 and V208 are shown, and 211 and 213 show captions as a result of voice recognition of voice signals (voice information) transmitted from the mutual communication partners as described later.

【0018】215、216は互いの通信相手から送信
された音声信号出力(音波)を示し、218、219は
互いの通信相手から送信された音声信号(215、21
6)を音声認識した結果、音声認識不能な箇所があった
場合のキャプション例を示す。
Reference numerals 215 and 216 denote voice signal outputs (sound waves) transmitted from the other communication partners, and 218 and 219 are voice signals (215 and 21) transmitted from the other communication partners.
As a result of voice recognition of 6), an example of caption when there is a part where voice recognition is not possible is shown.

【0019】図2は、上記通話端末201、202の構
成を示すブロック図である。同図(a)は音声及び画像
の送信のための構成を示す。101はビデオカメラ、1
04はマイクロフォンであり、図1でいうマイク内蔵型
カメラ203、207に相当する。102は画像用符号
化器である。103はマルチプレクサである。105は
マイクアンプである。106は音声用符号化器である。
107はバッファメモリである。
FIG. 2 is a block diagram showing the configuration of the call terminals 201 and 202. FIG. 10A shows a configuration for transmitting voice and images. 101 is a video camera, 1
Reference numeral 04 denotes a microphone, which corresponds to the microphone built-in cameras 203 and 207 in FIG. Reference numeral 102 is an image encoder. 103 is a multiplexer. Reference numeral 105 is a microphone amplifier. Reference numeral 106 is a speech encoder.
107 is a buffer memory.

【0020】同図(b)は音声及び画像の受信のための
構成を示す。108はバッファメモリである。109は
デマルチプレクサである。110は画像用復号化器であ
る。111はフレームメモリである。112はモニタT
Vであり、図1でいうモニタTV204、208に相当
する。113は音声用復号化器である。114はバッフ
ァメモリである。115はアンプである。116はスピ
ーカであり、図1でいうスピーカ205、206、20
9、210に相当する。117は利得制御部である。1
18は音声認識部である。119は画像制御部である。
120は同期制御部である。
FIG. 1B shows a structure for receiving voice and images. Reference numeral 108 is a buffer memory. 109 is a demultiplexer. Reference numeral 110 is an image decoder. 111 is a frame memory. 112 is a monitor T
V, which corresponds to the monitor TVs 204 and 208 in FIG. Reference numeral 113 is a voice decoder. 114 is a buffer memory. Reference numeral 115 is an amplifier. Reference numeral 116 denotes a speaker, which is the speaker 205, 206, 20 shown in FIG.
This corresponds to 9, 210. 117 is a gain control unit. 1
Reference numeral 18 is a voice recognition unit. An image control unit 119 is provided.
Reference numeral 120 is a synchronization control unit.

【0021】次に、本実施の形態の通話システムにおけ
る処理動作について説明する。図1に示したような通話
システムにおいては、具体的には図示しないが、例えば
モニタTV204、208に表示されるグラフィカルユ
ーザインタフェースにおいてダイヤル等の操作を行い、
その後はモニタTV204、208の前で通信相手の画
像を見ながら通話する。
Next, the processing operation in the call system of this embodiment will be described. In the call system as shown in FIG. 1, although not specifically shown, for example, dials or the like are operated on the graphical user interfaces displayed on the monitor TVs 204 and 208,
After that, the user talks in front of the monitor TVs 204 and 208 while watching the image of the communication partner.

【0022】図3のフローチャートには、音声及び画像
の送信に際して行われる処理動作を示す。ビデオカメラ
101で取り込まれた動画像信号は、画像用符号化器1
02にてAD変換及び所定の符号化(圧縮)処理された
後、マルチプレクサ103に入力される(ステップS3
01)。
The flowchart of FIG. 3 shows the processing operations performed when transmitting voice and images. The moving image signal captured by the video camera 101 is the image encoder 1
After being subjected to AD conversion and predetermined encoding (compression) processing in 02, it is input to the multiplexer 103 (step S3).
01).

【0023】同時に、マイクロフォン104で取り込ま
れた音声信号は、マイクアンプ105にて所定のレベル
に増幅された後、上記動画像信号と同様に音声用符号化
器106にてAD変換及び所定の符号化(圧縮)処理さ
れた後、マルチプレクサ103に入力される(ステップ
S301)。
At the same time, the voice signal taken in by the microphone 104 is amplified to a predetermined level by the microphone amplifier 105 and then AD-converted and given a predetermined code by the voice encoder 106 in the same manner as the moving image signal. After being converted (compressed), it is input to the multiplexer 103 (step S301).

【0024】マルチプレクサ103に入力された符号化
動画像信号及び符号化音声信号は、出力先である伝送路
や蓄積メディアに適合した形式のビットストリームを形
成するために多重化処理及び各種ヘッダ情報の付加処理
がなされて、バッファメモリ107に一時蓄積される
(ステップS302)。
The coded moving image signal and the coded audio signal input to the multiplexer 103 are subjected to a multiplexing process and various header information in order to form a bit stream of a format suitable for a transmission path or a storage medium as an output destination. Addition processing is performed and the data is temporarily stored in the buffer memory 107 (step S302).

【0025】上記バッファメモリ107に蓄積されたビ
ットストリームは、外部又は内部のレート制御部により
所定のビットレートで読み出される(ステップS30
3)。
The bit stream accumulated in the buffer memory 107 is read at a predetermined bit rate by an external or internal rate control unit (step S30).
3).

【0026】図4のフローチャートには、音声及び画像
の受信に際して行われる処理動作を示す。相手の通話端
末から伝送されたビットストリームは、バッファメモリ
108に一時蓄積された後、後段の処理の処理能力に適
合したビットレートで読み出され、デマルチプレクサ1
09に入力される(ステップS401)。
The flowchart of FIG. 4 shows the processing operations performed when receiving voice and images. The bit stream transmitted from the call terminal of the other party is temporarily stored in the buffer memory 108 and then read at a bit rate suitable for the processing capability of the subsequent processing, and the demultiplexer 1
09 is input (step S401).

【0027】デマルチプレクサ109に入力されたビッ
トストリームは、符号化動画像信号と符号化音声信号と
に分離され、符号化動画像信号は画像用復号化器110
へ、符号化音声信号は音声用復号化器113へそれぞれ
入力され、両者共に所定の復号化処理により、ディジタ
ル動画像信号及びディジタル音声信号、或いは、アナロ
グ動画像信号及びアナログ音声信号に復号される(ステ
ップS402)。
The bit stream input to the demultiplexer 109 is separated into an encoded moving image signal and an encoded audio signal, and the encoded moving image signal is the image decoder 110.
To the audio decoder 113, and both are decoded into a digital moving image signal and a digital audio signal or an analog moving image signal and an analog audio signal by a predetermined decoding process. (Step S402).

【0028】上記復号化された動画像信号はフレームメ
モリ111に記憶され、同期制御部120の制御によ
り、音声信号との同期をとりながら適宜読み出してモニ
タTV112に表示される。なお、この処理について
は、図4のフローチャートでは省略する。
The above-mentioned decoded moving image signal is stored in the frame memory 111, and under the control of the synchronization control unit 120, it is appropriately read out in synchronization with the audio signal and displayed on the monitor TV 112. Note that this processing is omitted in the flowchart of FIG.

【0029】また、上記複号化された音声信号はバッフ
ァメモリ114に記憶されると同時に、音声認識部11
8へ入力され、当該複号化された音声信号に対する音声
認識処理が行われる(ステップS403)。
The decoded voice signal is stored in the buffer memory 114, and at the same time, the voice recognition unit 11
The speech recognition processing is performed on the decoded speech signal that is input to S8 (step S403).

【0030】音声認識可能であった場合は、その認識し
た音声情報を文字情報(テキスト情報)に変換し(ステ
ップS404)、そのテキスト情報とタイミング情報
(動画像との同期情報)とを画像制御部119に送出す
る。
If the voice can be recognized, the recognized voice information is converted into character information (text information) (step S404), and the text information and timing information (synchronization information with the moving image) are image-controlled. It is sent to the section 119.

【0031】画像制御部119では、音声認識部118
から送出されたタイミング情報に従って、フレームメモ
リ111に記憶されている上記複号化された動画像信号
の該当するフレーム内の任意の位置に、図2の211、
213に示したように、認識された音声に対応するテキ
スト情報をキャプションとして重畳表示する(ステップ
S405)。
The image control section 119 includes a voice recognition section 118.
In accordance with the timing information transmitted from the frame memory 111, 211 of FIG. 2, at an arbitrary position in the corresponding frame of the decoded moving image signal,
As indicated by 213, the text information corresponding to the recognized voice is superimposed and displayed as a caption (step S405).

【0032】なお、音声認識部118における音声認識
処理に要する時間に相当する遅延は、画像についてはフ
レームメモリ111にて、音声についてはバッファメモ
リ114にて吸収され、フレームメモリ111に記憶さ
れている動画像と、バッファメモリ114記憶されてい
る音声との同期は、同期制御部120にて管理される。
The delay corresponding to the time required for the voice recognition processing in the voice recognition unit 118 is absorbed by the frame memory 111 for images and the buffer memory 114 for voice, and stored in the frame memory 111. The synchronization between the moving image and the voice stored in the buffer memory 114 is managed by the synchronization control unit 120.

【0033】それに対して、音声信号認識不能であった
場合は、利得制御部117に利得制御信号を送出する。
利得制御信号を受けた利得制御部117は、アンプ11
5の利得を増大して、認識不可部分におけるスピーカ1
16からの音圧を増大する音声出力調整を行う(ステッ
プS406)。
On the other hand, when the voice signal cannot be recognized, the gain control signal is sent to the gain control section 117.
The gain control unit 117 that has received the gain control signal causes the amplifier 11
Speaker 1 in the unrecognizable part by increasing the gain of 5
The audio output adjustment for increasing the sound pressure from 16 is performed (step S406).

【0034】なお、音声認識不能の場合について、フレ
ームメモリ111の容量やバッファメモリ114の容量
によっては、時間的に音声認識不能となる前の時点から
音声出力を増大するよう利得制御部117及び同期制御
部120をプログラムしておくことも可能である。
In the case where voice recognition is impossible, depending on the capacity of the frame memory 111 and the capacity of the buffer memory 114, the gain controller 117 and the synchronization control unit increase the voice output from the point before the time when voice recognition becomes impossible. It is also possible to program the control unit 120.

【0035】以上述べたように、音声認識して文字表示
することにより、音声による通話において生じやすい意
味不明や誤解の頻度を低減することができ、更には聴覚
障害者でも通話が可能になるという効果が期待できる。
As described above, by performing voice recognition and displaying characters, it is possible to reduce the frequency of misunderstandings and misunderstandings that are likely to occur in a voice call, and even a hearing impaired person can call. You can expect an effect.

【0036】また、音声認識不能である場合には、音声
信号に対して聴覚的な認識度の向上を意図した所定の処
理、本実施の形態では音圧を増大するようにしたので、
会話の認識率を向上させるといった効果が期待できる。
If the voice cannot be recognized, a predetermined process intended to improve the auditory recognition of the voice signal, that is, in the present embodiment, the sound pressure is increased.
The effect of improving the recognition rate of conversation can be expected.

【0037】なお、上述した音声認識不能の場合に、図
5のフローチャートに示すように、聴覚的な認識度の向
上を意図した処理のバリエーションを設定してもよい。
すなわち、音声認識不能であった場合に、処理方法の選
択についてユーザによるリクエストがあるか否かを判定
し(ステップS501)、リクエストがない場合は、デ
フォルトの音声出力調整(音圧増大処理)のみを行う
(ステップS502)。
When the above-mentioned voice recognition is impossible, as shown in the flowchart of FIG. 5, a variation of processing intended to improve auditory recognition may be set.
That is, when the voice cannot be recognized, it is determined whether or not there is a request from the user for the selection of the processing method (step S501). If there is no request, only the default voice output adjustment (sound pressure increase process) is performed. Is performed (step S502).

【0038】それに対して、リクエストがある場合は、
そのリクエストに応じて、明瞭度を高くするための周波
数特性調整(エンファシス)(ステップS503)、或
いは、暗騒音除去(フィルタ処理)(ステップS50
4)といった処理を行った後、音声出力調整を行う(ス
テップS502)。
On the other hand, if there is a request,
In response to the request, frequency characteristic adjustment (emphasis) for increasing clarity (step S503) or background noise removal (filtering) (step S50)
After performing the process such as 4), the audio output is adjusted (step S502).

【0039】これら選択可能な周波数特性調整(エンフ
ァシス)や暗騒音除去といった機能は、周波数特性調整
器及び暗騒音除去フィルタといったハードウェアを図2
に示したアンプ115等に装備しておくことにより可能
となる。
The functions such as frequency characteristic adjustment (emphasis) and background noise removal that can be selected are performed by hardware such as a frequency characteristic adjuster and background noise removal filter.
This can be done by equipping the amplifier 115 and the like shown in FIG.

【0040】また、上記処理方法の選択は、通話端末2
01、203の入力機能を用いて予め用意されているフ
ァンクションを画面上のメニューから選択できるように
プログラミングしておくこと等により可能である。
The processing method is selected by the call terminal 2
This is possible by programming the functions prepared in advance using the input functions 01 and 203 so that they can be selected from the menu on the screen.

【0041】(第2の実施の形態)図6には、本実施の
形態の通話システムの構成を示す。同時送受話及び同時
送受像可能な通話端末301、302が伝送路を介して
接続されており、各端末301、302は、マイク内蔵
型カメラ303、307、スピーカ305、309を備
えたモニタTV304、308からなる。また、通話端
末301には、手書き文字入力装置317、キーボード
318が接続されている。
(Second Embodiment) FIG. 6 shows the configuration of a call system according to the present embodiment. Call terminals 301, 302 capable of simultaneous transmission / reception and simultaneous transmission / reception of images are connected via a transmission path, and each of the terminals 301, 302 includes a monitor TV 304 including cameras 303, 307 with built-in microphones, speakers 305, 309, It consists of 308. A handwritten character input device 317 and a keyboard 318 are connected to the call terminal 301.

【0042】同図において、311は手書き文字入力装
置317やキーボード318により入力された文字のモ
ニタ表示を示し、313、315はモニタTV304、
308に表示された互いの通信相手の画像を示し、31
2は後述するようにして互いの通信相手から送信された
音声信号を音声認識した結果のキャプションを示し、3
14は後述するようにして通信相手から送信されたテキ
スト信号をモニタ表示したキャプションを示し、316
は通信相手から送信された音声信号出力(音波)を示
す。
In the figure, 311 indicates a monitor display of characters input by the handwritten character input device 317 or keyboard 318, and 313 and 315 indicate a monitor TV 304,
An image of the other communication partner displayed on 308 is displayed.
Reference numeral 2 denotes a caption as a result of voice recognition of voice signals transmitted from each other's communication partners as described later.
Reference numeral 14 denotes a caption in which the text signal transmitted from the communication partner is displayed on the monitor as described later.
Indicates an audio signal output (sound wave) transmitted from the communication partner.

【0043】図7は、上記通話端末301、302の構
成を示すブロック図である。801はビデオカメラ、8
04はマイクロフォンであり、図6でいうマイク内蔵型
カメラ303、307に相当する。802は画像用符号
化器である。803はマルチプレクサである。805は
マイクアンプである。806は音声用符号化器である。
807、808はバッファメモリである。
FIG. 7 is a block diagram showing the configuration of the call terminals 301 and 302. 801 is a video camera, 8
Reference numeral 04 denotes a microphone, which corresponds to the microphone built-in cameras 303 and 307 in FIG. Reference numeral 802 is an image encoder. 803 is a multiplexer. 805 is a microphone amplifier. Reference numeral 806 is a speech encoder.
Reference numerals 807 and 808 are buffer memories.

【0044】809はデマルチプレクサである。810
は画像用復号化器である。811はフレームメモリであ
る。812はモニタTVであり、図6でいうモニタTV
304、308に相当する。
Reference numeral 809 is a demultiplexer. 810
Is an image decoder. Reference numeral 811 is a frame memory. Reference numeral 812 denotes a monitor TV, which is the monitor TV shown in FIG.
It corresponds to 304 and 308.

【0045】813は音声用復号化器である。814は
バッファメモリである。815はアンプである。816
はスピーカであり、図6でいうスピーカ305、30
6、309、310に相当する。
Reference numeral 813 is a voice decoder. Reference numeral 814 is a buffer memory. Reference numeral 815 is an amplifier. 816
Is a speaker, and the speakers 305 and 30 in FIG.
6, 309 and 310.

【0046】817は文字入力端末であり、図6でいう
手書き文字入力装置317やキーボード318に相当す
る。818はテキスト用符号化器である。823はテキ
スト用複号化器である。
Reference numeral 817 denotes a character input terminal, which corresponds to the handwritten character input device 317 and keyboard 318 shown in FIG. Reference numeral 818 is a text encoder. Reference numeral 823 is a text decoder.

【0047】819は利得制御部である。820は音声
認識部である。821は画像制御部である。822は同
期制御部である。
Reference numeral 819 is a gain controller. Reference numeral 820 is a voice recognition unit. An image control unit 821 is provided. Reference numeral 822 is a synchronization control unit.

【0048】次に、本実施の形態の通話システムにおけ
る処理動作について説明する。図6に示したような通話
システムにおいては、具体的には図示しないが、例えば
モニタTV304、308に表示されるグラフィカルユ
ーザインタフェースにおいてダイヤル等の操作を行い、
その後はモニタTV304、308の前で通信相手の画
像を見ながら通話する。
Next, the processing operation in the call system of this embodiment will be described. In the call system as shown in FIG. 6, although not specifically shown, for example, a dial or the like is operated in a graphical user interface displayed on the monitor TVs 304 and 308,
After that, the user talks in front of the monitor TVs 304 and 308 while watching the image of the communication partner.

【0049】図8のフローチャートには、音声及び画像
の送信に際して行われる処理動作を示す。ビデオカメラ
801で取り込まれた動画像信号は、画像用符号化器8
02にてAD変換及び所定の符号化(圧縮)処理された
後、マルチプレクサ803に入力される。
The flowchart of FIG. 8 shows the processing operations performed when transmitting voice and images. The moving image signal captured by the video camera 801 is the image encoder 8
After being AD-converted and subjected to predetermined encoding (compression) processing in 02, they are input to the multiplexer 803.

【0050】上記ビデオカメラ801から取り込まれた
画像信号と並行して、文字入力端末817(手書き文字
入力装置317やキーボード318)から文字が入力さ
れた場合、入力された文字信号(テキスト信号)は、フ
レームメモリ811、及び、テキスト用符号化器818
を介してマルチプレクサ803に入力される。入力され
た文字信号は、図6に示すように、自己の通話端末にモ
ニタ表示されるとともに(符号311参照)、後述する
ように相手の通話端末に送信されて画像に重畳してモニ
タTVに表示される(符号314参照)。
When a character is input from the character input terminal 817 (handwritten character input device 317 or keyboard 318) in parallel with the image signal taken from the video camera 801, the input character signal (text signal) is , Frame memory 811, and text encoder 818
Is input to the multiplexer 803 via. As shown in FIG. 6, the input character signal is displayed on the monitor of its own call terminal (see reference numeral 311) and transmitted to the call terminal of the other party as described later to be superimposed on the image and displayed on the monitor TV. It is displayed (see reference numeral 314).

【0051】また、音声が入力された場合、マイクロフ
ォン804で取り込まれた音声信号は、マイクアンプ8
05にて所定のレベルに増幅された後、上記動画像信号
と同様に音声用符号化器806にてAD変換及び所定の
符号化(圧縮)処理された後、マルチプレクサ803に
入力される(ステップS801)。
When voice is input, the voice signal taken in by the microphone 804 is the microphone amplifier 8
After being amplified to a predetermined level in 05, the audio encoder 806 performs AD conversion and predetermined encoding (compression) processing in the same manner as the moving image signal, and then is input to the multiplexer 803 (step S801).

【0052】マルチプレクサ803に入力された符号化
動画像信号、符号化音声信号、符号化テキスト信号は、
出力先である伝送路や蓄積メディアに適合した形式のビ
ットストリームを形成するために多重化処理及び各種ヘ
ッダ情報の付加処理がなされて、バッファメモリ807
に一時蓄積される(ステップS802)。
The coded moving image signal, coded audio signal, and coded text signal input to the multiplexer 803 are
The buffer memory 807 is subjected to multiplexing processing and various header information addition processing to form a bitstream in a format suitable for the transmission path or storage medium that is the output destination.
Is temporarily stored (step S802).

【0053】上記バッファメモリ807に蓄積されたビ
ットストリームは、外部又は内部のレート制御部により
所定のビットレートで読み出される(ステップS80
3)。
The bit stream accumulated in the buffer memory 807 is read out at a predetermined bit rate by an external or internal rate controller (step S80).
3).

【0054】図9のフローチャートには、音声及び画像
の受信に際して行われる処理動作を示す。相手の通話端
末から伝送されたビットストリーム(ビデオ、オーディ
オ、テキストetc)は、バッファメモリ808に一時蓄
積された後、後段の処理の処理能力に適合したビットレ
ートで読み出され、デマルチプレクサ809に入力され
る(ステップS901)。
The flowchart of FIG. 9 shows the processing operations performed when receiving voice and images. The bit stream (video, audio, text, etc.) transmitted from the call terminal of the other party is temporarily stored in the buffer memory 808, then read out at a bit rate suitable for the processing capability of the subsequent processing, and then to the demultiplexer 809. It is input (step S901).

【0055】デマルチプレクサ809に入力されたビッ
トストリームは、符号化動画像信号と符号化音声信号と
符号化テキスト信号とに分離され、符号化動画像信号は
画像用復号化器810へ、符号化音声信号は音声用復号
化器813へ、符号化テキスト信号はテキスト用復号器
823へそれぞれ入力され、所定の復号化処理により、
ディジタル動画像信号及びディジタル音声信号、或い
は、アナログ動画像信号及びアナログ音声信号、及びテ
キスト信号に復号される(ステップS902)。
The bit stream input to the demultiplexer 809 is separated into an encoded moving image signal, an encoded audio signal and an encoded text signal, and the encoded moving image signal is encoded by the image decoder 810. The voice signal is input to the voice decoder 813, and the encoded text signal is input to the text decoder 823. By a predetermined decoding process,
It is decoded into a digital moving image signal and a digital audio signal, or an analog moving image signal and an analog audio signal, and a text signal (step S902).

【0056】上記復号化された動画像信号とテキスト信
号とはフレームメモリ811に記憶される。また、テキ
スト信号は、動画像信号(フレーム)の任意の位置に記
憶(重畳)され、1つの動画像信号を形成する。そし
て、テキストが重畳された動画像は、同期制御部822
の制御により、音声信号との同期をとりながら適宜読み
出してモニタTV812に表示される。なお、この処理
については、図9のフローチャートでは省略する。
The decoded moving image signal and text signal are stored in the frame memory 811. Further, the text signal is stored (superposed) at an arbitrary position of the moving image signal (frame) to form one moving image signal. Then, the moving image on which the text is superimposed is synchronized with the synchronization control unit 822.
Under the control of (1), the data is appropriately read and displayed on the monitor TV 812 in synchronization with the audio signal. Note that this processing is omitted in the flowchart of FIG.

【0057】また、上記複号化された音声信号はバッフ
ァメモリ814に記憶されると同時に、音声認識部82
0へ入力され、当該複号化された音声信号に対する音声
認識処理が行われる(ステップS903)。
The decoded voice signal is stored in the buffer memory 814 and, at the same time, the voice recognition section 82.
0, and voice recognition processing is performed on the decoded voice signal (step S903).

【0058】音声認識可能であった場合は、その認識し
た音声情報を文字情報(テキスト情報)に変換し(ステ
ップS904)、そのテキスト情報とタイミング情報
(動画像との同期情報)とを画像制御部821に送出す
る。
If voice recognition is possible, the recognized voice information is converted into character information (text information) (step S904), and the text information and timing information (synchronization information with the moving image) are image-controlled. It is sent to the section 821.

【0059】画像制御部821では、音声認識部820
から送出されたタイミング情報に従って、フレームメモ
リ811に記憶されている上記複号化された動画像信号
の該当するフレーム内の任意の位置に、図6の312に
示したように、認識された音声に対応するテキストをキ
ャプションとして画像に重畳表示する(ステップS90
5)。
In the image control unit 821, the voice recognition unit 820
In accordance with the timing information transmitted from the frame memory 811, the recognized voice is recorded at an arbitrary position in the corresponding frame of the decoded video signal stored in the frame memory 811, as shown at 312 in FIG. The text corresponding to is superimposed and displayed on the image as a caption (step S90).
5).

【0060】すなわち、図6に示すように、端末302
に対して画像と文字入力で通信する場合は、上記のよう
に音声認識した結果のテキストに加えて(図6の通話端
末302において不図示)、端末301の文字入力端末
817から入力されたテキストもキャプションとして画
像に重畳表示される。
That is, as shown in FIG.
On the other hand, when communicating by inputting images and characters, in addition to the text resulting from voice recognition as described above (not shown in the call terminal 302 in FIG. 6), the text input from the character input terminal 817 of the terminal 301 Is also displayed as a caption on the image.

【0061】なお、音声信号認識不能であった場合の取
り扱いは(ステップS906)、上記第1の実施の形態
で述べたのと同様であり、ここではその説明は省略す
る。
The handling when the voice signal cannot be recognized (step S906) is the same as that described in the first embodiment, and the description thereof is omitted here.

【0062】以上述べたように、文字入力を可能とし、
その文字を通信相手の通話端末において表示するように
したので、例えば会話が困難な障害者等でも文字を使っ
た通話が可能になるという効果が期待できる。
As described above, it is possible to input characters,
Since the characters are displayed on the communication terminal of the communication partner, it is expected that, for example, a disabled person or the like who has difficulty in conversation can make a call using the characters.

【0063】(その他の実施の形態)上述した実施の形
態の機能を実現するべく各種のデバイスを動作させるよ
うに、該各種デバイスと接続された部或いはシステム内
のコンピュータに対し、上記実施の形態の機能を実現す
るためのソフトウェアのプログラムコードを供給し、そ
のシステム或いは部のコンピュータ(CPU或いはMP
U)に格納されたプログラムに従って上記各種デバイス
を動作させることによって実施したものも、本発明の範
疇に含まれる。
(Other Embodiments) In order to operate various devices so as to realize the functions of the above-described embodiments, a computer connected to the various devices or a computer in a system may be operated in the above-described embodiment. To supply the program code of software for realizing the functions of the
Those implemented by operating the above various devices according to the program stored in U) are also included in the scope of the present invention.

【0064】また、この場合、上記ソフトウェアのプロ
グラムコード自体が上述した実施の形態の機能を実現す
ることになり、そのプログラムコード自体は本発明を構
成する。そのプログラムコードの伝送媒体としては,プ
ログラム情報を搬送波として伝搬させて供給するための
コンピュータネットワーク(LAN、インターネット等
のWAN、無線通信ネットワーク等)システムにおける
通信媒体(光ファイバ等の有線回線や無線回線等)を用
いることができる。
Further, in this case, the program code itself of the software realizes the function of the above-described embodiment, and the program code itself constitutes the present invention. As a transmission medium of the program code, a communication medium (a wired line such as an optical fiber or a wireless line) in a computer network (LAN, WAN such as the Internet, a wireless communication network, etc.) system for propagating and supplying the program information as a carrier wave. Etc.) can be used.

【0065】さらに、上記プログラムコードをコンピュ
ータに供給するための手段、例えばかかるプログラムコ
ードを格納した記録媒体は本発明を構成する。かかるプ
ログラムコードを記憶する記録媒体としては、例えばフ
レキシブルディスク、ハードディスク、光ディスク、光
磁気ディスク、CD−ROM、磁気テープ、不揮発性の
メモリカード、ROM等を用いることができる。
Further, means for supplying the program code to the computer, for example, a recording medium storing the program code constitutes the present invention. A flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a magnetic tape, a non-volatile memory card, a ROM, or the like can be used as a recording medium for storing the program code.

【0066】また、コンピュータが供給されたプログラ
ムコードを実行することにより、上述の実施の形態の機
能が実現されるだけでなく、そのプログラムコードがコ
ンピュータにおいて稼働しているOS(オペレーティン
グシステム)或いは他のアプリケーションソフト等と共
同して上述の実施の形態の機能が実現される場合にもか
かるプログラムコードは本発明の実施の形態に含まれる
ことはいうまでもない。
Moreover, not only the functions of the above-described embodiments are realized by executing the supplied program code by the computer, but also the OS (operating system) or the other in which the program code is operating in the computer. It goes without saying that the program code is also included in the embodiment of the present invention when the functions of the above-described embodiment are realized in cooperation with the application software of the above.

【0067】さらに、供給されたプログラムコードがコ
ンピュータの機能拡張ボードやコンピュータに接続され
た機能拡張ユニットに備わるメモリに格納された後、そ
のプログラムコードの指示に基づいてその機能拡張ボー
ドや機能拡張ユニットに備わるCPU等が実際の処理の
一部又は全部を行い、その処理によって上述した実施の
形態の機能が実現される場合にも本発明に含まれること
はいうまでもない。
Further, after the supplied program code is stored in the memory provided in the function expansion board of the computer or the function expansion unit connected to the computer, the function expansion board or function expansion unit is instructed based on the instruction of the program code. It goes without saying that the present invention also includes a case where the CPU or the like included in the above-mentioned performs some or all of the actual processing and the functions of the above-described embodiments are realized by the processing.

【0068】なお、上記実施の形態において示した各部
の形状及び構造は、何れも本発明を実施するにあたって
の具体化のほんの一例を示したものに過ぎず、これらに
よって本発明の技術的範囲が限定的に解釈されてはなら
ないものである。すなわち、本発明はその精神、又はそ
の主要な特徴から逸脱することなく、様々な形で実施す
ることができる。
It should be noted that the shapes and structures of the respective portions shown in the above-mentioned embodiments are merely examples of the embodiment in carrying out the present invention, and the technical scope of the present invention is thereby provided. It should not be construed as limiting. That is, the present invention can be implemented in various forms without departing from the spirit or the main features thereof.

【0069】[0069]

【発明の効果】以上述べたように本発明によれば、相手
の音声情報を音声認識して文字表示することにより、音
声による通話において生じやすい意味不明や誤解の頻度
を低減することができ、更には聴覚障害者でも通話が可
能になるという効果が期待できる。
As described above, according to the present invention, it is possible to reduce the frequency of meaninglessness or misunderstanding that is likely to occur in a voice call by voice recognition of the voice information of the other party and character display. Further, it is expected that the hearing-impaired person will be able to talk.

【0070】また、音声認識不能である場合には、音声
信号に対して聴覚的な認識度の向上を意図した所定の処
理、例えば音圧を増大するようにしたので、会話の認識
率を向上させるといった効果が期待できる。
If the voice cannot be recognized, a predetermined process intended to improve the auditory recognition of the voice signal, for example, the sound pressure is increased, so that the recognition rate of the conversation is improved. The effect of making it possible can be expected.

【図面の簡単な説明】[Brief description of drawings]

【図1】第1の実施の形態の通話システムの構成を示す
模式図である。
FIG. 1 is a schematic diagram showing a configuration of a telephone call system according to a first embodiment.

【図2】第1の実施の形態の通話端末の構成を示すブロ
ック図である。
FIG. 2 is a block diagram showing a configuration of a call terminal according to the first embodiment.

【図3】第1の実施の形態において音声及び画像の送信
に際して行われる処理動作を示すフローチャートであ
る。
FIG. 3 is a flowchart showing a processing operation performed at the time of transmitting a voice and an image in the first embodiment.

【図4】第1の実施の形態において音声及び画像の受信
に際して行われる処理動作を示すフローチャートであ
る。
FIG. 4 is a flowchart showing a processing operation performed at the time of receiving a sound and an image in the first embodiment.

【図5】聴覚的な認識度の向上を意図した処理のバリエ
ーションを設定した場合のフローチャートである。
FIG. 5 is a flowchart in the case of setting a variation of processing intended to improve auditory recognition.

【図6】第2の実施の形態の通話システムの構成を示す
模式図である。
FIG. 6 is a schematic diagram showing a configuration of a call system according to a second embodiment.

【図7】第2の実施の形態の通話端末の構成を示すブロ
ック図である。
FIG. 7 is a block diagram showing a configuration of a call terminal according to a second embodiment.

【図8】第2の実施の形態において音声及び画像の送信
に際して行われる処理動作を示すフローチャートであ
る。
FIG. 8 is a flowchart showing processing operations performed at the time of transmitting voice and images in the second embodiment.

【図9】第2の実施の形態において音声及び画像の受信
に際して行われる処理動作を示すフローチャートであ
る。
FIG. 9 is a flowchart showing a processing operation performed at the time of receiving a voice and an image in the second embodiment.

【符号の説明】[Explanation of symbols]

201、202、301、302 通話端末 203、207、303、307 マイク内蔵型カメ
ラ 205、209、305、309 スピーカ 204、208、304、308 モニタTV 317 文字入力装置 318 キーボード 101、801 ビデオカメラ 104、804 マイクロフォン 102、802 画像用符号化器 103、803 マルチプレクサ 105、805 マイクアンプ 106、806 音声用符号化器 107、108、807、809 バッファメモリ 109、809 デマルチプレクサ 110、810 画像用復号化器 111、811 フレームメモリ 112、812 モニタTV 113、813 音声用復号化器 114、814 バッファメモリ 115、815 アンプ 116、816 スピーカ 117、819 利得制御部 118、820 音声認識部 119、821 画像制御部 120、822 同期制御部 817 文字入力端末 818 テキスト用符号化
器 823 テキスト用復号化
201, 202, 301, 302 Call terminal 203, 207, 303, 307 Built-in microphone type camera 205, 209, 305, 309 Speaker 204, 208, 304, 308 Monitor TV 317 Character input device 318 Keyboard 101, 801 Video camera 104, 804 Microphone 102, 802 Image encoder 103, 803 Multiplexer 105, 805 Microphone amplifier 106, 806 Audio encoder 107, 108, 807, 809 Buffer memory 109, 809 Demultiplexer 110, 810 Image decoder 111 , 811 Frame memories 112, 812 Monitor TVs 113, 813 Audio decoders 114, 814 Buffer memories 115, 815 Amplifiers 116, 816 Speakers 117, 819 Gain control units 118, 82 Voice recognition unit 119,821 image control unit 120,822 synchronization control unit 817 character input terminal 818 for text encoder 823 for text decoder

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 7/14 G10L 3/02 301G 3/00 561C ─────────────────────────────────────────────────── ─── Continuation of front page (51) Int.Cl. 7 Identification code FI theme code (reference) H04N 7/14 G10L 3/02 301G 3/00 561C

Claims (15)

【特許請求の範囲】[Claims] 【請求項1】 少なくとも二以上の通話端末間で音声及
び画像の双方向同時通信を可能とした通話システムであ
って、 相手の通話端末から送信された音声情報を音声認識する
音声認識手段と、 上記音声認識された音声情報を文字情報に変換する変換
手段と、 上記文字情報を上記相手の通話端末から送信された画像
情報に重畳して表示装置に表示する表示手段とを備えた
ことを特徴とする通話システム。
1. A call system capable of two-way simultaneous communication of voice and image between at least two call terminals, and voice recognition means for recognizing voice information transmitted from a call terminal of the other party. It is provided with a conversion means for converting the voice information obtained by the voice recognition into character information, and a display means for displaying the character information on a display device by superimposing the character information on the image information transmitted from the call terminal of the other party. And call system.
【請求項2】 上記音声認識の成否を判断する判断手段
と、 上記音声認識ができなかったと判定された場合に、上記
音声情報に対して聴覚的な認識度の向上を意図した一又
は複数の処理を行う処理手段とを備えたことを特徴とす
る請求項1に記載の通話システム。
2. A judging means for judging the success or failure of the voice recognition, and one or a plurality of means intended to improve auditory recognition of the voice information when it is judged that the voice recognition cannot be performed. The call system according to claim 1, further comprising a processing unit that performs processing.
【請求項3】 上記聴覚的な認識度の向上を意図した処
理として所望の処理を設定可能としたことを特徴とする
請求項2に記載の通話システム。
3. The call system according to claim 2, wherein a desired process can be set as a process intended to improve the auditory recognition level.
【請求項4】 上記聴覚的な認識度の向上を意図した処
理は音圧増大処理であることを特徴とする請求項2又は
3に記載の通話システム。
4. The call system according to claim 2, wherein the process intended to improve the auditory recognition is a sound pressure increasing process.
【請求項5】 上記聴覚的な認識度の向上を意図した処
理は周波数特性調整処理であることを特徴とする請求項
2又は3に記載の通話システム。
5. The call system according to claim 2, wherein the process intended to improve the auditory recognition is a frequency characteristic adjustment process.
【請求項6】 上記聴覚的な認識度の向上を意図した処
理は騒音除去処理であることを特徴とする請求項2又は
3に記載の通話システム。
6. The call system according to claim 2, wherein the process intended to improve the auditory recognition level is a noise removal process.
【請求項7】 上記相手の通話端末から送信された画像
情報を記憶するためのメモリ手段を備えたことを特徴と
する請求項1〜6のいずれか1項に記載の通話システ
ム。
7. The call system according to claim 1, further comprising a memory unit for storing image information transmitted from the call terminal of the other party.
【請求項8】 上記相手の通話端末から送信された音声
情報を記憶するためのメモリ手段を備えたことを特徴と
する請求項1〜7のいずれか1項に記載の通話システ
ム。
8. The call system according to claim 1, further comprising a memory unit for storing voice information transmitted from the call terminal of the other party.
【請求項9】 上記音声情報と上記画像情報との同期制
御を行う同期制御手段を備えたことを特徴とする請求項
1〜8のいずれか1項に記載の通話システム。
9. The call system according to claim 1, further comprising a synchronization control unit that controls synchronization between the voice information and the image information.
【請求項10】 少なくとも一の通話装置には文字入力
端末が備えられており、当該文字入力端末介して入力さ
れた文字情報を相手の通話装置に送信可能としたことを
特徴とする請求項1〜9のいずれか1項に記載の通話シ
ステム。
10. The character input terminal is provided in at least one of the communication devices, and the character information input through the character input terminal can be transmitted to the communication device of the other party. 10. The call system according to any one of 9 to 10.
【請求項11】 少なくとも一の通話装置は、相手の通
話端末から送信された文字情報を、同時に送信された画
像情報に重畳して表示装置に表示する表示手段を備えた
ことを特徴とする請求項1〜10のいずれか1項に記載
の通話システム。
11. The at least one telephone device is provided with display means for superimposing character information transmitted from the telephone terminal of the other party on image information transmitted at the same time and displaying it on a display device. The call system according to any one of Items 1 to 10.
【請求項12】 少なくとも二以上の通話端末間で音声
及び画像の双方向同時通信を可能とした通話システムに
用いられる通話端末であって、 相手の通話端末から送信された音声情報を音声認識する
音声認識手段と、 上記音声認識された音声情報を文字情報に変換する変換
手段と、 上記文字情報を上記相手の通話端末から送信された画像
情報に重畳して表示装置に表示する表示手段とを備えた
ことを特徴とする通話端末。
12. A call terminal used in a call system that enables two-way simultaneous communication of voice and image between at least two call terminals, and voice-recognizes voice information transmitted from the call terminal of the other party. A voice recognition means, a conversion means for converting the voice information recognized by the voice into character information, and a display means for displaying the character information on the display device by superimposing the character information on the image information transmitted from the call terminal of the other party. A call terminal characterized by being provided.
【請求項13】 少なくとも二以上の通話端末間で音声
及び画像の双方向同時通信を可能とした通話システムを
用いた通話方法であって、 相手の通話端末から送信された音声情報を音声認識する
手順と、 上記音声認識された音声情報を文字情報に変換する手順
と、 上記文字情報を上記相手の通話端末から送信された画像
情報に重畳して表示装置に表示する手順とを有すること
を特徴とする通話方法。
13. A call method using a call system that enables two-way simultaneous communication of voice and image between at least two call terminals, and voice-recognizes voice information transmitted from the call terminal of the other party. It has a procedure, a procedure of converting the voice information of the voice recognition into character information, and a procedure of superimposing the character information on image information transmitted from the call terminal of the other party and displaying it on a display device. How to call.
【請求項14】 少なくとも二以上の通話端末間で音声
及び画像の双方向同時通信を可能とした通話システムに
用いられる通話端末を制御するためのプログラムであっ
て、 相手の通話端末から送信された音声情報を音声認識する
処理と、 上記音声認識された音声情報を文字情報に変換する処理
と、 上記文字情報を上記相手の通話端末から送信された画像
情報に重畳して表示装置に表示する処理とを実行させる
ことを特徴とするプログラム。
14. A program for controlling a call terminal used in a call system capable of two-way simultaneous communication of voice and image between at least two call terminals, the program being transmitted from a call terminal of the other party. A process of voice-recognizing voice information, a process of converting the voice-recognized voice information into character information, and a process of superimposing the character information on image information transmitted from the call terminal of the other party and displaying it on a display device. A program characterized by executing and.
【請求項15】 請求項14に記載のプログラムを格納
したことを特徴とするコンピュータ読み取り可能な記憶
媒体。
15. A computer-readable storage medium having the program according to claim 14 stored therein.
JP2002005142A 2002-01-11 2002-01-11 Calling system, calling terminal, method, program, and computer-readable storage medium Pending JP2003209600A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002005142A JP2003209600A (en) 2002-01-11 2002-01-11 Calling system, calling terminal, method, program, and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002005142A JP2003209600A (en) 2002-01-11 2002-01-11 Calling system, calling terminal, method, program, and computer-readable storage medium

Publications (1)

Publication Number Publication Date
JP2003209600A true JP2003209600A (en) 2003-07-25

Family

ID=27644269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002005142A Pending JP2003209600A (en) 2002-01-11 2002-01-11 Calling system, calling terminal, method, program, and computer-readable storage medium

Country Status (1)

Country Link
JP (1) JP2003209600A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014006648A (en) * 2012-06-22 2014-01-16 Sharp Corp Information processing device, communication system, communication method and program
JP2017097093A (en) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド Terminal device and communication method
JP2017097092A (en) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド Terminal device and communication method
JP2018151533A (en) * 2017-03-14 2018-09-27 株式会社リコー Communication terminal, communication program and communication method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014006648A (en) * 2012-06-22 2014-01-16 Sharp Corp Information processing device, communication system, communication method and program
JP2017097093A (en) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド Terminal device and communication method
JP2017097092A (en) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド Terminal device and communication method
JP2018151533A (en) * 2017-03-14 2018-09-27 株式会社リコー Communication terminal, communication program and communication method

Similar Documents

Publication Publication Date Title
KR100827802B1 (en) Video telephony apparatus of potable device and transmit-receiving method thereof
JP4367507B2 (en) Communication terminal device and mute control method in communication terminal device
JP2008182463A (en) Television receiving device
JP2004304601A (en) Tv phone and its data transmitting/receiving method
JP4526965B2 (en) TV door phone device
US20050192050A1 (en) Method and apparatus for processing incoming call of wireless telephone having camera
JP2003209600A (en) Calling system, calling terminal, method, program, and computer-readable storage medium
JP3460625B2 (en) Videophone device and information processing method in videophone device
US5900906A (en) Image communication apparatus having automatic answering and recording function
JP2006211570A (en) Photographing apparatus
KR101232537B1 (en) Video communication terminal and video method communicating in video communication terminal
JP2006140596A (en) Communication terminal
JP2005294929A (en) Video doorphone unit
JPH05328337A (en) Image communication terminal equipment
JPH06253305A (en) Video conference system
JP2007006085A (en) Wireless portable terminal, and imaging method and communication method using same
JP2006332968A (en) Video television device
KR100397692B1 (en) A photograph telephone
JP3030019B2 (en) Teleconference system
JP3444905B2 (en) Video communication method
JP2001016558A (en) System and method for communication and terminal device
JP3031309B2 (en) Video conferencing equipment
JPH07170505A (en) Image communication equipment
JPH04109784A (en) Video conference picture display controller and its method
JP3475541B2 (en) Image communication terminal device