JPH10214258A - Data processing system - Google Patents

Data processing system

Info

Publication number
JPH10214258A
JPH10214258A JP9028409A JP2840997A JPH10214258A JP H10214258 A JPH10214258 A JP H10214258A JP 9028409 A JP9028409 A JP 9028409A JP 2840997 A JP2840997 A JP 2840997A JP H10214258 A JPH10214258 A JP H10214258A
Authority
JP
Japan
Prior art keywords
image
data
server
client
means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9028409A
Other languages
Japanese (ja)
Inventor
Toshihiro Maruyama
俊弘 丸山
Original Assignee
Victor Co Of Japan Ltd
日本ビクター株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Co Of Japan Ltd, 日本ビクター株式会社 filed Critical Victor Co Of Japan Ltd
Priority to JP9028409A priority Critical patent/JPH10214258A/en
Publication of JPH10214258A publication Critical patent/JPH10214258A/en
Application status is Pending legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To provide a data processing system in which a hardware resource can be efficiently utilized, and spatial constraint can be reduced.
SOLUTION: Image recognition and synthesis or speech recognition and synthesis devices 40-46 which need a high speed processing or a large-scaled storage capacity are prepared only on a server 102 side. The input and output of images or speeches are operated on a client 100 side. Image data or speech data inputted on the client 100 side are transferred through a network 104 to the server 102 side, and recognized on the server side. Then, the recognized image data and speech data or image data and speech data synthesized on the server side are transferred through the network 104 to the client side, and displayed or reproduced on the client side.
COPYRIGHT: (C)1998,JPO

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】この発明は、画像データ及び音声データに対して所望の処理を行うデータ処理システムに関するものである。 TECHNICAL FIELD The present invention relates to a data processing system for performing desired processing with respect to image data and audio data.

【0002】 [0002]

【背景技術】画像データや音声データに対して認識や合成などの各種の処理を行うデータ処理システムとしては、例えば、図3,図4に示すものがある。 BACKGROUND ART Data processing systems for performing various processes such as recognition and synthesis for image data and audio data, for example, FIG. 3, there is shown in FIG. この例は、 In this example,
事前に登録された特定の人物がシステムの前に現れ、その音声と顔面を入力して人物を特定し、登録済みのメッセージと画像を再生出力するようなシステムである。 Specific person registered beforehand appear in front of the system to identify the person to enter the audio and the face is a system that reproduces and outputs the registered message and the image. 図3にはシステムの構成例が示されており、これを更にブロック化したものが図4に複数示されている。 The Figure 3 there is shown a configuration example of a system, which is further obtained by blocking is shown more in FIG. これらの図において、人物の到来などのセンサ読取は、赤外線センサ,振動センサ,音声センサなどのセンサ10及びセンサ読取装置12によって行われ、これらによってセンサ読取部14が構成されている。 In these figures, the reading sensor, such as the arrival of a person, an infrared sensor, a vibration sensor, made by the sensor 10 and the sensor reader 12, such as a voice sensor, the sensor reader 14 These are configured.

【0003】人物の画像入力とデジタル化データへの変換は、カメラ16及び画像入力装置18によって行われ、これらによって画像入力部20が構成されている。 [0003] Conversion to the image input and digital data of the person is performed by the camera 16 and the image input device 18, the image input unit 20 is constituted by these.
人物の音声入力とデジタル化データへの変換はマイクロホン22及び音声入力装置24によって行われ、これらによって音声入力部26が構成されている。 Conversion to audio input and digital data of the person is performed by the microphone 22 and the voice input device 24, these voice input unit 26 is constructed. デジタル化された画像データに基づく画像出力は、表示装置28及び画像出力装置30によって行われ、これらによって画像出力部32が構成されている。 Image output based on digitized image data is performed by the display device 28 and the image output device 30, an image output unit 32 is constituted by these. デジタル化された音声データに基づく音声出力は、スピーカ34及び音声出力装置36によって行われ、これらによって音声出力部3 Audio output based on digitized voice data is performed by the speaker 34 and the audio output device 36, an audio output unit 3 by these
8が構成されている。 8 is configured.

【0004】これらの各装置によって得られた人物の顔面画像や音声のデータは、画像認識装置40あるいは音声認識装置42に供給され、ここで認識のための解析処理が行われる。 [0004] These facial images and audio data of a person obtained by each device is supplied to the image recognition device 40 or the speech recognition device 42, wherein the analysis processing for recognition is carried out. また、合成すべき画像データや音声データがある場合には、それらに基づいて画像合成装置44 When there is image data and audio data to be synthesized, the image synthesizing apparatus on the basis of their 44
や音声合成装置46で画像や音声が合成される。 Images and sounds are synthesized by and speech synthesizer 46. 画像認識の例としては、人物判定や動作解析などがある。 Examples of image recognition, and the like person determination and operation analysis. 音声認識の例としては、特定話者の判定や会話の解析などがある。 Examples of speech recognition, there is such as analysis of the decision and conversation of a particular speaker. 画像合成の例としては、3次元画像のレンダリングや動画データの生成などがある。 Examples of image synthesis, and the like generated rendering and video data of a three-dimensional image. 音声合成の例としては、任意の音色による音声合成などがある。 Examples of speech synthesis are a speech synthesis by any tone.

【0005】合成後の画像は画像出力装置30に供給され、更に表示装置28に表示される。 [0005] the image after the synthesis is supplied to the image output apparatus 30, are displayed further on the display device 28. また、合成後の音声は、音声出力装置36に供給され、更にマイクロホン22で再生される。 The voice after synthesis is supplied to the audio output device 36, it is further reproduced by the microphone 22. これらの処理は、制御装置48によって制御される。 These processes are controlled by a control device 48.

【0006】以上のような画像や音声の入出力装置や認識合成装置は、図4に示すように各システム毎にそれぞれ設けられる。 [0006] The above-described video and audio input and output device and recognition synthesizer, respectively provided for each system, as shown in FIG. すなわち、各システム毎に独立して、センサ読取,画像や音声の入力,認識合成処理,出力がそれぞれ行われる。 That is, independently for each system, sensor reading, the input of the image and sound recognition synthesis process, the output is performed, respectively.

【0007】 [0007]

【発明が解決しようとする課題】ところで、一般的に、 The object of the invention is to be Solved by the way, in general,
画像の認識や音声の認識では、膨大なデータが高速で処理され、あるいは記憶される。 In recognition of the recognition and speech of the image, massive data is processed at high speed, or stored. このため、高速のCPU For this reason, high-speed CPU
やデータ処理用のDSP,専用ハードウエア,大容量の記憶装置などが必要となる。 DSP for and data processing, a dedicated hardware, it is necessary a large-capacity storage device. 同様に表示する画像を生成する画像合成や、音声を生成する音声合成についても、 Image synthesis and for generating an image to be displayed similarly, also voice synthesis for generating speech,
高速のCPUや高速データ処理用のDSP,その他の専用ハードウエアを必要とする。 Fast CPU or DSP for high-speed data processing, and requires additional dedicated hardware. 画像や音声の認識や合成は、それらに依存して実現されている。 Recognition and synthesis of images and sound is realized depending on their.

【0008】ところが、それらの高速のCPU,データ処理用のDSP,専用のハードウエア,大容量の記憶装置は、いずれも高価であり、システムのコストアップを招くとともに、装置構成も複雑となる。 [0008] However, their high-speed CPU, DSP of the data processing, dedicated hardware, a large-capacity storage device are both expensive and with increase the cost of the system, also becomes complicated device configuration. 従って、上述した背景技術のように、各システム毎に独立して画像や音声の認識装置あるいは合成装置を備える構成とすると、 Therefore, as in the background art described above, when configured to include a recognition device or apparatus for synthesizing independently images and audio for each system,
各システムをワークステーションなどの高性能なコンピュータで構成する必要がある。 It is necessary to configure each system in high performance computer such as a workstation. 従って、各システムのコストが非常に高価になってしまう。 Therefore, the cost of each system becomes very expensive. 特に、図4に示したように、同じ機能を備えたシステムを複数用意するような場合、端末のコストが高いために台数に比例してコストがかかり、多数のシステムを用意することは膨大なコストを必要とすることになる。 In particular, as shown in FIG. 4, when a system with the same functionality as to prepare a plurality costly in proportion to the number due to the high cost of the terminal, the enormous providing a large number of system It would require a cost. また、システムの小型化,省スペース化という点からも好ましいとは言えない。 Further, miniaturization of the system, not preferable from the viewpoint of space saving.

【0009】この発明は、以上の点に着目したもので、 [0009] The present invention has focused on the above points,
その目的は、ハードウエア資源を効率的に活用できる低コストのデータ処理システムを提供することである。 Its purpose is to provide a low cost data processing systems which take advantage of hardware resources efficiently. 他の目的は、空間的な制約を低減することができるデータ処理システムを提供することである。 Another object is to provide a data processing system capable of reducing a spatial restriction.

【0010】 [0010]

【課題を解決するための手段】前記目的を達成するため、この発明では、クライアント(100)側は、画像の入力を行って画像データを得る画像入力手段(16,1 To achieve the above object, according to an aspect of, the present invention, the client (100) side, an image input means for obtaining image data by performing an input image (16, 1
8),音声の入力を行って音声データを得る音声入力手段(22,24),画像データに基づいて画像を表示する画像出力手段(28,30),音声データに基づいて音声を再生する音声出力手段(34,36),ネットワーク(104)との接続を行うネットワークインターフェース(108), 8), audio input means for obtaining audio data by voice input (22, 24), an image output means for displaying an image based on the image data (28, 30), the playback audio sound based on audio data output means (34, 36), a network interface for connection with the network (104) (108),
前記画像入力手段及び前記音声入力手段によってそれぞれ得られた画像データ及び音声データをサーバ側に転送するとともに、サーバ側から転送された画像データ及び音声データを前記画像出力手段及び前記音声出力手段にそれぞれ供給する動作を制御するクライアント制御手段(106),を備えている。 Each image data and audio data obtained respectively by said image input means and the voice input means as well as forwarded to the server side, the image data and audio data transferred from the server to the image output means and said audio output means client control means for controlling the operation of supplying (106), and a.

【0011】サーバ(102)側は、クライアント側から転送された画像データを認識する画像認識手段(40), [0011] server (102) side, it recognizes the image recognition means the image data transferred from the client side (40),
クライアント側から転送された音声データを認識する音声認識手段(42),画像データを合成する画像合成手段(44),音声データを合成する音声合成手段(46),ネットワークとの接続を行うネットワークインターフェース(112),クライアント側から転送された画像データ及び音声データを前記画像認識手段及び前記音声認識手段にそれぞれ供給するとともに、前記画像合成手段及び前記音声合成手段によって合成された画像データ及び音声データをクライアント側にそれぞれ転送する動作を制御するサーバ制御手段(110),を備えている。 Voice recognition means for recognizing a voice data transferred from the client side (42), image combining means (44) for synthesizing the image data, voice synthesis means (46) for synthesizing speech data, a network interface for connection to the network (112), and supplies to each of the image recognition means and the voice recognition means the image data and audio data transferred from the client side, the image data and the audio data synthesized by the image synthesizing means and said speech synthesis means server control means for controlling the operation of transferring the client side, respectively (110), and a.

【0012】そして、これらクライアント及びサーバがネットワークによって接続されたことを特徴とする。 [0012] Then, characterized in that these clients and servers are connected by a network.

【0013】主要な形態によれば、前記クライアントが前記ネットワークに複数接続されるとともに、前記サーバからのデータ転送先のクライアントを識別するクライアント識別手段(200,202)が備えられる。 According to the main embodiment, the client with the multiple connections to the network, the client identifying means for identifying the data transfer destination client from the server (200, 202) is provided. あるいは、 Alternatively,
前記サーバが前記ネットワークに複数接続されるとともに、前記サーバの処理状況に応じてクライアントからのデータ転送先のサーバを選択するサーバ選択手段(300, Wherein with the server is more connected to the network, the server selection means (300 to select the data transfer destination server from the client in response to the processing status of the server,
302)が備えられる。 302) is provided. また、画像及び音声の処理対象を検知するためのセンサ手段(10,12)が備えられる。 Further, sensor means for detecting the image and audio to be processed (10, 12) is provided.

【0014】他の主要な形態では、音声の入力をデジタル化された入力音声データに変換する音声入力装置,画像の入力をデジタル化された入力画像データに変換する画像入力装置,デジタル化された出力音声データを再生する音声出力装置,デジタル化された出力画像データを表示する画像出力装置,人物の存在を検知するセンサ, [0014] In another major aspect, voice input device for converting an input speech into digitized input speech data, image input device for converting an input image into digitized input image data, digitized output audio output device for reproducing audio data, an image output device for displaying the digitized output image data, a sensor for detecting the presence of a person,
ネットワークとの接続を行うネットワークインターフェース,クライアントの動作を制御するクライアント制御装置をクライアントが備えている。 Network interface for connection to the network, the client controller client to control the operation of the client is provided. また、ネットワークを介して転送されてきた入力音声データを解析・認識を行う音声認識装置,ネットワークを介して転送されてきた入力画像データを解析・認識を行う画像認識装置,出力音声データの合成を行う音声合成装置,出力画像データの合成を行う画像合成装置,ネットワークを介して前記クライアントと入力音声データ、入力画像データ、出力音声データ、出力画像データの転送を行うサーバ側ネットワークインターフェース,サーバ側の動作を制御するサーバ制御装置をサーバが備えている。 The speech recognition device for analyzing and recognizing the input speech data transferred through the network, the image recognition device for analyzing and recognizing the input image data transferred through the network, the synthesis of the output speech data image synthesizing apparatus for performing speech synthesis apparatus, the synthesis of the output image data to be input speech data with the client through a network, input image data, the output audio data, the server-side network interface for transferring the output image data, the server-side the server control unit for controlling the operation of the server has. そして、これらのクライアントとサーバがネットワークによって結ばれている。 Then, these clients and servers are connected by networks.

【0015】本発明によれば、クライアント側では、画像や音声の入出力が行われる。 According to the present invention, the client side input and output of images and sounds is performed. クライアント側で入力された画像データや音声データは、ネットワークを通じてサーバ側に転送され、サーバ側で認識処理される。 Image data and audio data input at the client side is transferred to the server side through the network, it is the recognition processing on the server side. そして、認識処理後の画像データ及び音声データ,あるいはサーバ側で合成処理された画像データ及び音声データは、ネットワークを通じてクライアント側に転送され、 Then, the image data and audio data image data and audio data or synthesized processed on the server side, after the recognition process is transferred to the client through the network,
クライアント側で表示あるいは再生される。 Is displayed or playback on the client side. 高速の処理や大規模な記憶容量を必要とする画像認識・合成や音声認識・合成などの装置をサーバ側にのみ用意すればよいので、ハードウエア資源を効率的に活用することができる。 Since devices such as image recognition, synthesis and voice recognition and synthesis which requires high-speed processing and large storage capacity may be only provided on the server side, it is possible to utilize the hardware resources efficiently. この発明の前記及び他の目的,特徴,利点は、以下の詳細な説明及び添付図面から明瞭になろう。 The above and other objects, features, advantages, will become apparent from the following detailed description and accompanying drawings.

【0016】 [0016]

【発明の実施の形態】以下、発明の実施の形態について、実施例を参照しながら詳細に説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the invention will be described in detail with reference to examples.

【0017】 [0017]

【実施例1】最初に、図1及び図2(A)を参照して実施例1を説明する。 Example 1 First, an embodiment 1 with reference to FIGS. 1 and 2 (A). なお、上述した背景技術に対応する要素には同一の符号を用いる。 Incidentally, the same reference numerals are used for elements corresponding to the background art described above. このシステムは、図2 This system, Figure 2
(A)に全体を示すように、クライアント(端末)10 As shown the overall (A), the client (terminal) 10
0とサーバ102がネットワーク104によって接続された構成となっている。 0 and the server 102 has become interconnected by a network 104. 図1には、各部の詳細な構成が示されている。 1 is a detailed structure of each part is shown. 同図において、上述したセンサ読取装置12,画像入力装置18,音声入力装置24,画像出力装置30,音声出力装置36は、クライアント制御装置106によって動作が制御されるようになっている。 In the figure, sensor reader 12 described above, the image input unit 18, voice input device 24, an image output device 30, audio output device 36 is operated by the client controller 106 are controlled. クライアント100には以上の各装置が設けられている。 Each device is provided above the client 100.
そして、ネットワーク104に対するクライアント10 Then, the client 10 to the network 104
0の接続は、ネットワークインターフェース108によって行われるように構成されている。 0 connection is configured to be performed by the network interface 108.

【0018】一方、上述した画像認識装置40,音声認識装置42,画像合成装置44,音声合成装置46は、 Meanwhile, the image recognition apparatus 40 described above, the voice recognition device 42, an image synthesizing apparatus 44, the speech synthesizer 46,
いずれもサーバ102に設けられている。 Both are provided to the server 102. これらの各装置は、サーバ制御装置110によって動作が制御されている。 Each of these devices operate by the server control unit 110 are controlled. そして、ネットワーク104に対するサーバ10 Then, the server 10 to the network 104
2の接続は、ネットワークインターフェース112によって行われるように構成されている。 Second connection is configured to be performed by the network interface 112.

【0019】以上のように、画像や音声の入出力部がクライアント100側に設けられており、画像や音声の認識合成装置はサーバ102側に設けられている。 [0019] As described above, input and output portions of the image and sound is provided to the client 100 side, recognition apparatus for synthesizing an image and sound is provided on the server 102 side. そして、クライアント100とサーバ102とがネットワーク104で接続された構成となっている。 Then, the client 100 and the server 102 has become connected to each other by a network 104.

【0020】次に、全体の動作を説明する。 [0020] Next, a description will be given of the overall operation. なお、上述した背景技術と同様に、事前に登録された特定の人物がクライアント100の前に現れてその音声と顔面の画像と音声を入力するとともに、サーバ102でその人物を特定し、更に登録済みの画像や音声メッセージをクライアント100で再生出力する処理を行う場合を説明する。 Similarly to the above-mentioned background art, with the particular person that is registered in advance to input speech and the speech and facial image appearing in front of the client 100 to identify the person in the server 102, further registers It will be described a case of performing pre image and the processing for reproducing and outputting the voice message in the client 100.

【0021】クライアント100に対する人物の接近は、センサ10によって検知される。 The proximity of the person to the client 100 is detected by the sensor 10. すると、画像入力部20のカメラ16,画像入力装置18によって人物の顔面が撮影され、画像データとして取り込まれる。 Then, the camera 16 of the image input unit 20, the face of a person by the image input device 18 is photographed and captured as image data. 更に、人物が音声を発したときは、その音声が音声入力部26のマイクロホン22,音声入力装置24によって入力され、音声データとして取り込まれる。 Furthermore, when a person utters a voice, the voice microphone 22 of the voice input unit 26 is input by the voice input device 24, is captured as audio data. これらの取り込まれた画像データと音声データは、クライアント制御装置106により、ネットワークインターフェース10 These captured image data and audio data is, the client controller 106, a network interface 10
8を通じてネットワーク104に供給され、サーバ10 It is supplied to the network 104 through 8, the server 10
2側に転送される。 It is transferred to the 2 side.

【0022】サーバ102では、ネットワーク104を経て転送されてきたクライアント100からのデータが、ネットワークインターフェース112によって取り込まれる。 [0022] In the server 102, data from the client 100 that has been transferred over the network 104 is taken by the network interface 112. 取り込まれたデータのうち、画像データはサーバ制御装置110によって画像認識装置40に供給され、音声データはサーバ制御装置110によって音声認識装置42に供給される。 Among the captured data, the image data is supplied to the image recognition device 40 by the server control unit 110, the audio data is supplied to the speech recognition device 42 by the server control unit 110.

【0023】画像認識装置40では、予め用意された画像認識アルゴリズムに基づいて画像データが解析される。 [0023] In the image recognition apparatus 40, the image data is analyzed based on a prepared image recognition algorithms. 例えば、「特徴抽出マッチング」,「パターンマッチング」などの手法によって、その解析が行われる。 For example, by a technique such as "feature extraction matching", "pattern matching", the analysis is performed. そして、解析結果と、予めサーバ102側の記憶装置(図示せず)に登録されている人物の顔面画像データとが比較され、一致するかもしくは最もデータが近似する人物を選択するなどの手法によって、該当する人物が識別される。 Then, the analysis result and pre-server 102 side of the storage device (not shown) and the face image data of the persons registered are compared to, by a technique such as matching to or most data to select a person to approximate , relevant person is identified.

【0024】他方、音声認識装置42では、予め用意された音声認識アルゴリズムに基づいて音声データが解析される。 [0024] On the other hand, the speech recognition device 42, the audio data is analyzed based on a prepared speech recognition algorithm. 例えば、「DP(Dynamic Programing)マッチング」,「HMM(隠れマルコフモデル)」などの手法によって、その解析が行われる。 For example, "DP (Dynamic Programing) matching", by a technique such as "HMM (Hidden Markov Model)", the analysis is performed. そして、解析結果と、 Then, the analysis result,
記憶装置に予め登録されている単語や熟語などの音声データとが比較され、一致するかもしくは最もデータが近似するものを選択するなどの手法によって、該当する言葉が識別される。 And audio data such as words and phrases registered in advance in the storage device are compared, either match or most data by a technique such as selecting what to approximate the corresponding word is identified.

【0025】以上のような認識結果は、サーバ制御装置110によりネットワークインターフェース112,ネットワーク104を介してクライアント100側に転送される。 The above-described recognition result, the network interface 112 by the server control unit 110, are transferred over the network 104 to the client 100 side. クライアント制御装置106は、ネットワーク104を通じて送られてきた画像認識結果と音声認識結果を、ネットワークインターフェース108を介して受け取る。 The client controller 106, an image recognition result sent through the network 104 and the speech recognition result, received via network interface 108. 続いて、合成すべき画像データや音声データがある場合には、クライアント制御装置106により、ネットワークインターフェース108,ネットワーク10 Then, when there is image data and audio data to be synthesized is, by the client controller 106, a network interface 108, network 10
4を介してサーバ102側に合成すべき画像データと音声データが転送される。 4 via the image data and audio data to be synthesized on the server 102 side is transferred. なお、合成すべき画像データは、実際の画像データではなく、例えば予め決められた画像を示す番号データなどである。 The image data to be synthesized, not the actual image data, and the like number data indicating a predetermined image, for example. 合成すべき音声データも、実際の音声波形をデジタル化したデータではなく、例えばテキストなどの文字列情報又は予め決められた定形のメッセージ番号データなどである。 Audio data to be combined is also like a real rather than digitized data a speech waveform, for example, character string information or the predetermined fixed form message number data such as text.

【0026】サーバ制御装置110は、ネットワーク1 The server control unit 110, the network 1
04を通して受信した合成すべき画像データや音声データを、ネットワークインターフェース112を介して受け取る。 The image data and audio data to be synthesized received through 04, received via the network interface 112. そして、サーバ制御装置110により、合成すべき画像データは画像合成装置44に、合成すべき音声データは音声合成装置46にそれぞれ供給される。 Then, the server control unit 110, image data to be synthesized in the image synthesizing device 44, audio data to be synthesized is supplied to the speech synthesizer 46.

【0027】画像合成装置44では、入力された合成すべき画像データに基づいて、実際の合成画像データが生成される。 [0027] In the image synthesizer 44, based on the image data to be inputted synthesis, actual composite image data is generated. 例えば、動画が必要な場合には、複数の画像から動画データが生成される。 For example, if the video is required, the moving image data is generated from a plurality of images. 画像を合成する際に、 In the synthesis of the image,
「レンダリング」などのアルゴリズムを用いてその場で描画を行なってもよい。 It may be carried out drawing on the spot using an algorithm such as "rendering". また、サーバ102側に設けられた記憶装置に蓄積された画像データや動画データを読み出すのみでもよい。 Further, it may be only read out the image data and video data stored in the storage device provided in the server 102 side. 音声合成装置46では、入力された合成すべき音声データに基づいて、実際の合成音声データ(波形データ)が生成される。 The speech synthesizer 46, based on the sound data to be inputted synthesis, the actual synthesized speech data (waveform data) is generated. 例えば、「分析音合成」,「規則音合成」などのアルゴリズムによって音声が合成される。 For example, "Analysis sound synthesis", speech by the algorithm, such as "Rule sound synthesis" is synthesized. また、記憶装置に蓄積された音声データ読み出すのみでもよい。 Further, it may be only read audio data stored in the storage device.

【0028】画像合成装置44,音声合成装置46によって合成されたデータは、サーバ制御装置110により、ネットワークインターフェース112,ネットワーク104を介してクライアント100側へ送られる。 The image synthesizing apparatus 44 was synthesized by the voice synthesizer 46 data, the server control unit 110, a network interface 112 and sent via the network 104 to the client 100 side. クライアント100側では、クライアント制御装置106 On the client 100 side, the client controller 106
により、転送された合成画像データが画像出力装置30 The transfer composite image data is an image output device 30
に供給される。 It is supplied to. そして、画像出力装置30によって、合成画像データに基づく画像が表示装置28に表示される。 Then, the image output device 30, an image based on the composite image data is displayed on the display device 28. また、転送された合成音声データは、クライアント制御装置106により音声出力装置36に供給される。 Further, the synthesized speech data transferred is supplied to the audio output device 36 by the client controller 106.
そして、音声出力装置36によって、合成音声データに基づく音声がスピーカ34から出力される。 Then, the audio output device 36, audio based on the synthesized speech data is output from the speaker 34.

【0029】以上のように、実施例1によれば、クライアント100側に画像や音声の入出力装置が設けられる。 [0029] As described above, according to the first embodiment, the image and audio input and output device is provided to the client 100 side. そして、画像や音声の認識装置や合成装置は、サーバ102側に設けられる。 The recognizer and synthesizer images and sound, is provided on the server 102 side. クライアント100では、画像や音声の入出力のみが行われ、画像や音声のデータはネットワーク104を通じてサーバ102側に転送される。 In the client 100, only the input and output of images and sounds is performed, data of images and sounds are transferred to server 102 side through the network 104. そして、高速な処理が要求される画像や音声の認識や合成処理はサーバ102上で蓄積データを利用して行なわれる。 The recognition and synthesis processing of the image and sound speed processing is required is performed by using the accumulated data on the server 102. そして、その処理結果が、ネットワーク10 Then, the processing result is, the network 10
4を通じてクライアント100に転送される。 It is transferred to the client 100 through 4.

【0030】このため、システム全体としてみると、クライアントとサーバを別個に配置することが可能となり、設置スペースに対する制約が緩和されるようになる。 [0030] Therefore, when viewed as a whole system, it is possible to separately place the client and the server, so that constraints on the installation space is reduced. また、本実施例によれば、クライアント側に人物の存在を検知するためのセンサが設けられているので、画像や音声による誤判定を避けることができるという利点もある。 Further, according to this embodiment, there since the sensor for detecting the presence of a person on the client side is provided, an advantage that it is possible to avoid erroneous determination by images and sound.

【0031】 [0031]

【実施例2】次に、図2(B)を参照しながら実施例2 Embodiment 2 Next, Example 2 with reference to FIG. 2 (B)
について説明する。 It will be described. この例は、サーバ102に、ネットワーク104を通じてクライアント100A,100B This example, the server 102, the client 100A through network 104, 100B
をそれぞれ接続した構成となっている。 A has a configuration in which each connected. クライアント1 Client 1
00A,100Bでは、実施例1と同様に画像や音声の入出力のみが行われる。 00A, the 100B, only input and output of the same images and audio as in Example 1 are carried out. そして、それら画像や音声の認識合成処理は、実施例1と同様にサーバ102で行われる。 Then, recognizing synthetic process thereof video and audio is performed by the server 102 in the same manner as in Example 1. すなわち、複数のクライアントからネットワークを通じて転送されてくる画像データや音声データに対する処理が、1台のサーバで行われる。 That is, processing on the image data and audio data sent over the network from multiple clients, is performed on a single server.

【0032】クライアント間におけるデータの認証は、 [0032] of data between client authentication,
転送データにクライアントを識別するための識別データを付加するなどの方法で可能である。 It is possible in a method such as adding identification data for identifying the client to transfer data. 例えば、クライアント100A,100Bに識別データ付加部200がそれぞれ設けられる。 For example, client 100A, the identification data adding unit 200 to 100B are respectively provided. 一方、サーバ102にはクライアント識別部202が設けられる。 On the other hand, client identification unit 202 is provided in the server 102. データの送り元のクライアント100A又は100Bでは、識別データ付加部2 In sender client 100A or 100B of the data, the identification data adding section 2
00により識別データを転送データに付加してサーバ1 00 in addition to transferring data to the identification data by the server 1
02側に転送する。 And transfers it to the 02 side. サーバ102側では、クライアント識別部202(又はサーバ制御装置110)において識別データを記憶する。 The server 102 side, for storing identification data in the client identification unit 202 (or the server controller 110). 転送データの処理結果をクライアント側に返す場合には、記憶した識別データを参照し、 To return the processing result of the transfer data to the client-side refers to the stored identification data,
クライアント識別部202で該当するクライアントを識別して処理結果が転送される。 It identifies the appropriate client processing result is transferred client identification unit 202. このようにして、複数のクライアントからのアクセスに対応できるようになる。 In this way, it becomes possible corresponding to the access from multiple clients.

【0033】このように、本実施例によれば、各クライアントでは、画像や音声の入出力のみが行われ、画像や音声のデータはネットワークを通じてサーバ側に転送される。 [0033] Thus, according to this embodiment, in each client, only input and output of images and sounds is performed, data of images and sounds are transferred to the server side through the network. そして、高速な処理が要求される画像や音声の認識や合成処理,データの蓄積は、複数のクライアントに共通に設けられたサーバ上で行なわれ、画像や音声の処理結果が該当するクライアントに転送される。 The transfer, image and sound recognition and synthesis processing high speed processing is required, the accumulation of data is performed on the provided common to a plurality of client-server, the client of the picture or the sound of the processing results are true It is. このため、高性能のCPUやDSP,大容量のメモリが各クライアントに共通に設けられるようになり、全体としてコストが削減できる。 Therefore, look like high performance CPU and DSP, the memory of a large capacity is provided in common to the client can be reduced costs as a whole. また、複数のクライアントをネットワークを通じてサーバに接続する構成となっているため、更にクライアントが必要となった場合にもそれをネットワークに接続するのみでよく、ハードウエア資源を効率的に活用することが可能である。 Also, since that is configured to connect to the server a plurality of clients over a network, further well only client connects it even if it becomes necessary to the network, to take advantage of hardware resources efficiently possible it is.

【0034】 [0034]

【実施例3】次に、図2(C)を参照しながら実施例3 Embodiment 3 Next, Embodiment 3 with reference to FIG. 2 (C)
について説明する。 It will be described. この例は、クライアント100に、 In this example, the client 100,
ネットワーク104を通じてサーバ102A,102B Server 102A, 102B through the network 104
をそれぞれ接続した構成となっている。 A has a configuration in which each connected. クライアント1 Client 1
00では、実施例1と同様に画像や音声の入出力のみが行われる。 00, only the output of the same images and audio as in Example 1 are carried out. そして、それら画像や音声の認識合成処理は、実施例1と同様にサーバ102A,102Bで行われる。 Then, recognizing synthetic process thereof images and sound, the server 102A in the same manner as in Example 1, carried out at 102B. すなわち、クライアントからネットワークを通じて転送されてくる画像データや音声データに対する処理が、2台のサーバで分散して行われる。 That is, processing on the image data and audio data transferred via the network from a client is carried out by dispersing in the two servers.

【0035】サーバ間におけるデータ処理の分散は、各サーバにおける処理状況,すなわち負荷状況や可動状況をクライアント側に報告し、クライアント側で負荷の軽いサーバを選択してデータを転送するなどの方法で可能である。 [0035] Distributed data processing between the server, the processing status of each server, i.e. to report the load status or movable situations the client side, by a method such as transferring data to select a light loaded server in the client-side possible it is. 例えば、サーバ102A,102Bに処理状況報告部300がそれぞれ設けられる。 For example, the server 102A, the processing status reporting unit 300 to 102B are respectively provided. 一方、クライアント100には処理状況判断部302が設けられる。 On the other hand, the processing situation determination unit 302 is provided to the client 100. データの送り元のクライアント100では、データ転送前に、まず処理状況報告部300から各サーバ102A, In sender client 100 data, before the data transfer, first the server 102A from the processing status reporting unit 300,
102Bにおける処理状況の報告を受ける。 Receive the report of the processing status in 102B. クライアント100では、処理状況判断部302で各サーバ102 In the client 100, the processing status determination section 302 server 102
A,102Bの処理状況を調べ、負荷の軽いサーバを判断する。 A, examined the processing status of 102B, determine a light loaded server. そして、負荷の軽いサーバを選択してデータを転送し、その認識や合成を要求する。 Then, transfer the data by selecting a light loaded server, it requests the recognition and synthesis.

【0036】このように、本実施例によれば、サーバの台数はを増えるものの、処理を複数のサーバに分散させることができ、1つのサーバの負担を軽減することができる。 [0036] Thus, according to this embodiment, although increases the server's number, processing can be distributed across multiple servers, it is possible to reduce the burden on a single server. このため、能力的に劣るハードウエア資源を有効に活用することが可能となり、全体としてみればコストダウンを図ることができる。 Therefore, it becomes possible to effectively utilize the hardware resources inferior in capability, it is possible to reduce the cost as a whole. なお、本例において、ハードウエアの一部,例えばデータを蓄積するメモリを各サーバに共通に設けるようにすれば、更に資源の有効活用を図ることができる。 In the present embodiment, a portion of hardware, for example, if a memory for storing the data as provided in common to the server, it is possible to further improve the effective use of resources.

【0037】 [0037]

【実施例4】次に、図2(D)を参照しながら実施例4 Embodiment 4 Next, Embodiment 4 with reference to FIG. 2 (D)
について説明する。 It will be described below. この例は、上述した実施例2と実施例3を組み合わせたものである。 This example is a combination of Examples 2 and 3 described above. すなわち、クライアント100C,100D,100Eと、サーバ102C, That is, the client 100C, 100D, and 100E, server 102C,
102Dがネットワーク104に接続された構成となっている。 102D has become connected to a network 104. クライアント100C,100D,100Eには、識別データ付加部200,処理状況判断部302がそれぞれ設けられている。 Client 100C, 100D, the 100E, the identification data adding unit 200, processing status determination section 302, respectively. サーバ102C,102Dには、クライアント識別部202,処理状況報告部300 Server 102C, the 102D, client identification unit 202, the processing status reporting unit 300
がそれぞれ設けられている。 There has been provided, respectively.

【0038】サーバ102C,102Dは、クライアント100C,100D,100Eに対して処理状況を報告する。 [0038] server 102C, 102D, the client 100C, 100D, to report the processing status for the 100E. クライアント100C,100D,100E Client 100C, 100D, 100E
は、サーバ側の処理状況に応じて負荷の軽いものを選択し、自己の識別データを付加して処理対象となるデータを転送する。 Selects one lighter load according to the processing status of the server side, and transfers the data to be processed by adding the self-identification data. データの転送を受けたサーバでは、その処理を行い、処理後のデータを該当するクライアントに転送する。 The server which has received the transfer of data, performs the processing, and transfers the processed data to the appropriate client.

【0039】このように、本実施例によれば、ネットワーク上に複数のサーバ及び複数のクライアントが用意される。 [0039] Thus, according to this embodiment, a plurality on the network server and multiple clients are prepared. そして、複数のクライアントでは、複数のサーバから負荷の軽いものが任意に選択されて処理が要求される。 Then, the plurality of clients, the processing is arbitrarily selected those light from a plurality of loaded server is required. サーバ側では分散処理が行われるので、大規模なネットワークとなっても柔軟に対応することが可能となって、ハードウエア資源が更に有効に活用されるようになる。 Since the distributed processing on the server side is made, it is possible to flexibly cope with a large-scale network, so the hardware resources are more effectively utilized.

【0040】 [0040]

【他の実施例】この発明には数多くの実施の形態があり、以上の開示に基づいて多様に改変することが可能である。 There are [Other embodiments] Numerous embodiments in the present invention, it is possible to variously modified based on the above disclosure. 例えば、次のようなものも含まれる。 For example, also include the following.

【0041】(1)システムを構成するカメラや表示装置などの各要素としては、各種のものが知られており、 [0041] (1) as the element, such as a camera or a display device constituting the system are various ones are known,
いずれを用いてもよい。 It may be used either. 例えば、センサ10としては、 For example, as the sensor 10,
赤外線センサ,振動センサ,音声センサなどが使用できる。 Infrared sensor, a vibration sensor, such as a sound sensor can be used. 画像や音声の認識や合成のアルゴリズムも、何ら上記実施例に限定されるものでなく、各種の手法を用いてよい。 Also the algorithm of the image and sound recognition and synthesis, not intended to be limited to the above embodiments, may be used various methods. また、認識や合成以外の処理を行うようにしてもよい。 It is also possible to perform processing other than recognizing and synthetic. ネットワークに接続するクライアントやサーバの数も、必要に応じて適宜増減してよい。 The number of clients and servers connected to a network, may also be increased or decreased as necessary.

【0042】(2)前記実施例は、人物の接近を検知して顔面や音声を認識するようなシステムの場合を例として説明したが、画像及び音声に対して何らかの処理を行うようなシステムであれば、どのようなものにも適用可能である。 [0042] (2) In the above described embodiment, the case of the system to recognize the facial and voice by detecting the approach of a person has been described as an example, a system such as performing some kind of processing on the image and sound if so, can be applied to any such thing.

【0043】 [0043]

【発明の効果】以上説明したように、本発明によれば、 As described in the foregoing, according to the present invention,
次のような効果がある。 There are the following effects. (1)システムを画像や音声の入出力を行うクライアントと、音声データや画像データの認識・合成処理を行うサーバとに分離することとしたので、空間的な制約が低減される。 (1) and the client performs input and output of the system image and sound, so it was decided to separate the server for recognition and synthesis processing of the audio data and image data, spatial restriction is reduced. (2)複数のクライアントがネットワークを通じてサーバを共有することとしたので、ハードウエア資源の有効活用を図ることができ、コストの低減が可能となる。 (2) Since a plurality of client and share the server through the network, can be effectively utilized hardware resources, it is possible to reduce the cost. (3)複数のサーバによって分散処理することとしたので、各サーバの負担が低減され、能力的に劣るハードウエアを有効に活用することができる。 (3) Since it was decided to distributed processing by a plurality of servers, the burden of the server can be reduced, it is possible to effectively utilize the hardware poor ability manner.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】この発明の実施例1の構成を示すブロック図である。 1 is a block diagram showing a configuration of a first embodiment of the present invention.

【図2】この発明の実施例の主要構成を示すブロック図である。 2 is a block diagram showing a main configuration of an embodiment of the present invention.

【図3】従来のシステムの一例を示すブロック図である。 3 is a block diagram showing an example of a conventional system.

【図4】図3の背景技術を複数用いた例を示すブロック図である。 4 is a block diagram showing an example using a plurality of background art of FIG.

【符号の説明】 DESCRIPTION OF SYMBOLS

10…センサ 12…センサ読取装置 14…センサ読取部 16…カメラ 18…画像入力装置 20…画像入力部 22…マイクロホン 24…音声入力装置 26…音声入力部 28…表示装置 30…画像出力装置 32…画像出力部 34…スピーカ 36…音声出力装置 38…音声出力部 40…画像認識装置 42…音声認識装置 44…画像合成装置 46…音声合成装置 48,106,110…制御装置 100…クライアント 102…サーバ 104…ネットワーク 108,112…ネットワークインターフェース 200…識別データ付加部 202…クライアント識別部 300…処理状況報告部 302…処理状況判断部 10 ... sensor 12 ... Sensor reader 14 ... sensor unit 16 ... camera 18 ... image input device 20 ... image input unit 22 ... microphone 24 ... voice input device 26 ... voice input unit 28 ... display 30 ... image output device 32 ... image outputting section 34 ... speaker 36 ... sound output unit 38 ... sound output unit 40 ... image recognition device 42 ... speech recognition device 44 ... image synthesizer 46 ... speech synthesizer 48,106,110 ...... controller 100 ... client 102 ... server 104 ... network, 112 ... network interface 200 ... identification data adding unit 202 ... client identification unit 300 ... processing status reporting unit 302 ... processing status determination unit

フロントページの続き (51)Int.Cl. 6識別記号 FI G10L 3/00 G10L 3/00 R N 551 551Z Front page continued (51) Int.Cl. 6 identifications FI G10L 3/00 G10L 3/00 R N 551 551Z

Claims (4)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 クライアントは、 画像の入力を行って画像データを得る画像入力手段,音声の入力を行って音声データを得る音声入力手段,画像データに基づいて画像を表示する画像出力手段,音声データに基づいて音声を再生する音声出力手段,ネットワークとの接続を行うネットワークインターフェース,前記画像入力手段及び前記音声入力手段によってそれぞれ得られた画像データ及び音声データをサーバ側に転送するとともに、サーバ側から転送された画像データ及び音声データを前記画像出力手段及び前記音声出力手段にそれぞれ供給する動作を制御するクライアント制御手段, 1. A client includes an image input means for obtaining image data by performing an input image, audio input means for obtaining audio data by voice input, image output means for displaying an image based on image data, sound audio output means for reproducing sound on the basis of the data, the network interfaces for connecting to a network, transfers the image data and audio data respectively obtained on the server side by said image input means and the voice input means, the server-side client control means for controlling the operation of supplying each image data and audio data transferred to the image output unit and the audio output means from the,
    を備えており、 サーバは、 クライアント側から転送された画像データを認識する画像認識手段,クライアント側から転送された音声データを認識する音声認識手段,画像データを合成する画像合成手段,音声データを合成する音声合成手段,ネットワークとの接続を行うネットワークインターフェース,クライアント側から転送された画像データ及び音声データを前記画像認識手段及び前記音声認識手段にそれぞれ供給するとともに、前記画像合成手段及び前記音声合成手段によって合成された画像データ及び音声データをクライアント側にそれぞれ転送する動作を制御するサーバ制御手段,を備えており、 これらクライアント及びサーバをネットワークによって接続したことを特徴とするデータ処理システム。 Includes a server, an image recognition means for recognizing the image data transferred from the client side, the speech recognition means for recognizing a voice data transferred from the client side, an image synthesizing means for synthesizing the image data, audio data synthesized speech synthesizing means, a network interface for connection to the network, supplies to each of the image recognition means and the voice recognition means the image data and audio data transferred from the client side, the image synthesizing means and said speech synthesis data processing system, characterized in that connected by the server control means for controlling the operation of transferring the respective image data and the audio data synthesized in the client side, comprises a, these client and server network by means.
  2. 【請求項2】 前記クライアントを前記ネットワークに複数接続するとともに、前記サーバからのデータ転送先のクライアントを識別するクライアント識別手段を備えたことを特徴とする請求項1記載のデータ処理システム。 Wherein said with a plurality of connecting to the network client, the data processing system according to claim 1, further comprising a client identification means for identifying a client of the data transfer destination from the server.
  3. 【請求項3】 前記サーバを前記ネットワークに複数接続するとともに、前記サーバの処理状況に応じてクライアントからのデータ転送先のサーバを選択するサーバ選択手段を備えたことを特徴とする請求項1又は2のいずれかに記載のデータ処理システム。 3. with multiple connecting the server to the network, according to claim 1, characterized in that it comprises a server selection means for selecting the data transfer destination server from the client in response to the processing status of the server or data processing system according to any one of 2.
  4. 【請求項4】 画像及び音声の処理対象を検知するためのセンサ手段を備えたことを特徴とする請求項1,2又は3のいずれかに記載のデータ処理システム。 4. Image and data processing system according to claim 1, 2 or 3, characterized in that a sensor means for detecting a voice to be processed.
JP9028409A 1997-01-28 1997-01-28 Data processing system Pending JPH10214258A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9028409A JPH10214258A (en) 1997-01-28 1997-01-28 Data processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9028409A JPH10214258A (en) 1997-01-28 1997-01-28 Data processing system

Publications (1)

Publication Number Publication Date
JPH10214258A true JPH10214258A (en) 1998-08-11

Family

ID=12247868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9028409A Pending JPH10214258A (en) 1997-01-28 1997-01-28 Data processing system

Country Status (1)

Country Link
JP (1) JPH10214258A (en)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002539481A (en) * 1999-03-09 2002-11-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ A method of using a plurality of speech recognizers
JP2002540477A (en) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Client - server speech recognition
JP2002540479A (en) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Client-server speech recognition
JP2003517158A (en) * 1999-11-12 2003-05-20 フェニックス ソリューションズ インコーポレーテッド Distributed real-time voice recognition system
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
JP2008090838A (en) * 2001-11-05 2008-04-17 Wayne C Boncyk System and method for image capture and identification
US8024194B2 (en) 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US8214214B2 (en) 2004-12-03 2012-07-03 Phoenix Solutions, Inc. Emotion detection device and method for use in distributed systems
WO2013179985A1 (en) * 2012-05-30 2013-12-05 日本電気株式会社 Information processing system, information processing method, communication terminal, information processing device and control method and control program therefor
US8898065B2 (en) 2011-01-07 2014-11-25 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
WO2015011877A1 (en) 2013-07-26 2015-01-29 パナソニックIpマネジメント株式会社 Video receiving device, appended information display method, and appended information display system
WO2015015712A1 (en) 2013-07-30 2015-02-05 パナソニックIpマネジメント株式会社 Video reception device, added-information display method, and added-information display system
WO2015033501A1 (en) 2013-09-04 2015-03-12 パナソニックIpマネジメント株式会社 Video reception device, video recognition method, and additional information display system
WO2015033500A1 (en) 2013-09-04 2015-03-12 パナソニックIpマネジメント株式会社 Video reception device, video recognition method, and additional information display system
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US9131184B2 (en) 2013-03-26 2015-09-08 Panasonic Intellectual Property Management Co., Ltd. Video reception device and image recognition method for received video
US9148610B2 (en) 2013-03-26 2015-09-29 Panasonic Intellectual Property Management Co., Ltd. Video reception device and image recognition method for received video
WO2015145491A1 (en) 2014-03-26 2015-10-01 パナソニックIpマネジメント株式会社 Video receiving device, video recognition method, and supplementary information display system
WO2015145492A1 (en) 2014-03-26 2015-10-01 パナソニックIpマネジメント株式会社 Video receiving device, video recognition method, and supplementary information display system
US9196252B2 (en) 2001-06-15 2015-11-24 Nuance Communications, Inc. Selective enablement of speech recognition grammars
US9886944B2 (en) 2012-10-04 2018-02-06 Nuance Communications, Inc. Hybrid controller for ASR
US9955234B2 (en) 2014-03-28 2018-04-24 Panasonic Intellectual Property Management Co., Ltd. Image reception apparatus, parameter setting method, and additional information displaying system including a calibration operation
US10200765B2 (en) 2014-08-21 2019-02-05 Panasonic Intellectual Property Management Co., Ltd. Content identification apparatus and content identification method

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9761241B2 (en) 1998-10-02 2017-09-12 Nuance Communications, Inc. System and method for providing network coordinated conversational services
US8868425B2 (en) 1998-10-02 2014-10-21 Nuance Communications, Inc. System and method for providing network coordinated conversational services
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US7519536B2 (en) 1998-10-02 2009-04-14 Nuance Communications, Inc. System and method for providing network coordinated conversational services
JP2002539481A (en) * 1999-03-09 2002-11-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ A method of using a plurality of speech recognizers
JP2002540479A (en) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Client-server speech recognition
JP2002540477A (en) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Client - server speech recognition
JP2003517158A (en) * 1999-11-12 2003-05-20 フェニックス ソリューションズ インコーポレーテッド Distributed real-time voice recognition system
US9190063B2 (en) 1999-11-12 2015-11-17 Nuance Communications, Inc. Multi-language speech recognition system
JP4987203B2 (en) * 1999-11-12 2012-07-25 フェニックス ソリューションズ インコーポレーテッドPhoenix Solutions, Inc. Distributed real-time voice recognition device
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US9196252B2 (en) 2001-06-15 2015-11-24 Nuance Communications, Inc. Selective enablement of speech recognition grammars
JP2008090838A (en) * 2001-11-05 2008-04-17 Wayne C Boncyk System and method for image capture and identification
US8214214B2 (en) 2004-12-03 2012-07-03 Phoenix Solutions, Inc. Emotion detection device and method for use in distributed systems
US8024194B2 (en) 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US8930194B2 (en) 2011-01-07 2015-01-06 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US10049669B2 (en) 2011-01-07 2018-08-14 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US10032455B2 (en) 2011-01-07 2018-07-24 Nuance Communications, Inc. Configurable speech recognition system using a pronunciation alignment between multiple recognizers
US9953653B2 (en) 2011-01-07 2018-04-24 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US8898065B2 (en) 2011-01-07 2014-11-25 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
JP2013250683A (en) * 2012-05-30 2013-12-12 Nec Corp Information processing system, information processing method, communication terminal, information processor and its control method and control program
WO2013179985A1 (en) * 2012-05-30 2013-12-05 日本電気株式会社 Information processing system, information processing method, communication terminal, information processing device and control method and control program therefor
US9489951B2 (en) 2012-05-30 2016-11-08 Nec Corporation Information processing system, information processing method, communication terminal, information processing apparatus, and control method and control program thereof
US9886944B2 (en) 2012-10-04 2018-02-06 Nuance Communications, Inc. Hybrid controller for ASR
US9148610B2 (en) 2013-03-26 2015-09-29 Panasonic Intellectual Property Management Co., Ltd. Video reception device and image recognition method for received video
US9131184B2 (en) 2013-03-26 2015-09-08 Panasonic Intellectual Property Management Co., Ltd. Video reception device and image recognition method for received video
WO2015011877A1 (en) 2013-07-26 2015-01-29 パナソニックIpマネジメント株式会社 Video receiving device, appended information display method, and appended information display system
US9955103B2 (en) 2013-07-26 2018-04-24 Panasonic Intellectual Property Management Co., Ltd. Video receiving device, appended information display method, and appended information display system
WO2015015712A1 (en) 2013-07-30 2015-02-05 パナソニックIpマネジメント株式会社 Video reception device, added-information display method, and added-information display system
US9762951B2 (en) 2013-07-30 2017-09-12 Panasonic Intellectual Property Management Co., Ltd. Video reception device, added-information display method, and added-information display system
WO2015033501A1 (en) 2013-09-04 2015-03-12 パナソニックIpマネジメント株式会社 Video reception device, video recognition method, and additional information display system
WO2015033500A1 (en) 2013-09-04 2015-03-12 パナソニックIpマネジメント株式会社 Video reception device, video recognition method, and additional information display system
US9900650B2 (en) 2013-09-04 2018-02-20 Panasonic Intellectual Property Management Co., Ltd. Video reception device, video recognition method, and additional information display system
US9906843B2 (en) 2013-09-04 2018-02-27 Panasonic Intellectual Property Management Co., Ltd. Video reception device, video recognition method, and display system for providing additional information to be superimposed on displayed image
US9906844B2 (en) 2014-03-26 2018-02-27 Panasonic Intellectual Property Management Co., Ltd. Video reception device, video recognition method and additional information display system
WO2015145493A1 (en) 2014-03-26 2015-10-01 パナソニックIpマネジメント株式会社 Video receiving device, video recognition method, and supplementary information display system
US9774924B2 (en) 2014-03-26 2017-09-26 Panasonic Intellectual Property Management Co., Ltd. Video reception device, video recognition method and additional information display system
WO2015145491A1 (en) 2014-03-26 2015-10-01 パナソニックIpマネジメント株式会社 Video receiving device, video recognition method, and supplementary information display system
WO2015145492A1 (en) 2014-03-26 2015-10-01 パナソニックIpマネジメント株式会社 Video receiving device, video recognition method, and supplementary information display system
US10194216B2 (en) 2014-03-26 2019-01-29 Panasonic Intellectual Property Management Co., Ltd. Video reception device, video recognition method, and additional information display system
US9955234B2 (en) 2014-03-28 2018-04-24 Panasonic Intellectual Property Management Co., Ltd. Image reception apparatus, parameter setting method, and additional information displaying system including a calibration operation
US10200765B2 (en) 2014-08-21 2019-02-05 Panasonic Intellectual Property Management Co., Ltd. Content identification apparatus and content identification method

Similar Documents

Publication Publication Date Title
US7831598B2 (en) Data recording and reproducing apparatus and method of generating metadata
US5742745A (en) Communication device
JP3620855B2 (en) Method and apparatus for indexing to record the audio and multi-media conference
US7508535B2 (en) Stand alone multimedia printer with user interface for allocating processing
JP3700266B2 (en) Voice interaction control method, and the speech dialogue system
JP2589478B2 (en) Image synthesis device
US6182038B1 (en) Context dependent phoneme networks for encoding speech information
US20050034057A1 (en) Printer with audio/video localization
JP5027400B2 (en) Automatic facial area extracting for use to the timeline of the recorded meeting
JP5564459B2 (en) A method and system for adding the translation to video conference
EP1045586A2 (en) Image processing apparatus
FI115868B (en) speech synthesis
US20050071746A1 (en) Networked printer with hardware and software interfaces for peripheral devices
EP1671220B1 (en) Communication and collaboration system using rich media environments
Sargin et al. Audiovisual synchronization and fusion using canonical correlation analysis
US6175820B1 (en) Capture and application of sender voice dynamics to enhance communication in a speech-to-text environment
CN1324517C (en) Method and system for person identification using video-speech matching
JP4597383B2 (en) Speech recognition method
Eronen et al. Audio-based context recognition
JP4088131B2 (en) Synchronization content information generation program, synchronization content information generating apparatus and the synchronization content information generation method
JP4340907B2 (en) Audio-visual summary create a method and apparatus
US7528976B2 (en) Stand alone printer with hardware/software interfaces for sharing multimedia processing
JP5092000B2 (en) Image processing apparatus, method and image processing system,
US20040064322A1 (en) Automatic consolidation of voice enabled multi-user meeting minutes
EP0658854B1 (en) Method and apparatus for displaying sign language images corresponding to text or speech

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041019

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050308