WO2005112453A1 - Ip videophone service system - Google Patents

Ip videophone service system Download PDF

Info

Publication number
WO2005112453A1
WO2005112453A1 PCT/JP2005/008500 JP2005008500W WO2005112453A1 WO 2005112453 A1 WO2005112453 A1 WO 2005112453A1 JP 2005008500 W JP2005008500 W JP 2005008500W WO 2005112453 A1 WO2005112453 A1 WO 2005112453A1
Authority
WO
WIPO (PCT)
Prior art keywords
videophone
video
distribution
media
scenario
Prior art date
Application number
PCT/JP2005/008500
Other languages
French (fr)
Japanese (ja)
Inventor
Arnold Siboro
Weeyee Lim
Original Assignee
Arnold Siboro
Weeyee Lim
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Arnold Siboro, Weeyee Lim filed Critical Arnold Siboro
Publication of WO2005112453A1 publication Critical patent/WO2005112453A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • H04N7/17309Transmission or handling of upstream communications
    • H04N7/17336Handling of requests in head-ends
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/64Addressing
    • H04N21/6408Unicasting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/64322IP
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6581Reference data, e.g. a movie identifier for ordering a movie or a product identifier in a home shopping application
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • H04N21/8153Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/148Interfacing a video terminal to a particular transmission medium, e.g. ISDN

Definitions

  • the present invention relates to an IP videophone service system for realizing an interactive service using non-real-time video using an IP network.
  • IP Internet Protocol
  • FIG. 3 The following describes conventional IP telephone technology with reference to FIGS. 3 and 4.
  • FIG. 3 The following describes conventional IP telephone technology with reference to FIGS. 3 and 4.
  • the main IP telephone technology used by the IP telephone service is H.323 (International Standard Organization) standard (used in networks where the transmission quality of communication is not guaranteed, such as the Internet and LAN.
  • H.323 International Standard Organization
  • IP telephony technology based on the ITU-T Recommendation (standard) for multimedia compression, multiplexing, demultiplexing, and terminal control, and based on the Session Initiation Protocol (SIP) specified by the Internet Engineering Task Force (IETF)
  • SIP Session Initiation Protocol
  • IETF Internet Engineering Task Force
  • Real-time calls can be made between two IP phones or IP phone software connected over an IP network.
  • FIGS. 3 (a) and 3 (b) show a system configuration diagram of the related art related to the videophone of the present invention described above, and FIG. 4 shows a block diagram of the related art.
  • IP videophones 1 and 2 are connected to the IP network 10 on a one-to-one basis, and communicate with each other under the control of a gatekeeper 20 described later.
  • a plurality of IP videophones l to n are connected to the IP network 10, and communication is possible between the plurality of IP videophones l to n by the gatekeeper 20 and the multipoint connection unit (MCU) 30. And can hold a video conference.
  • MCU multipoint connection unit
  • an IP videophone 1 (2,..., N) encodes a video signal with a video input unit 11 that inputs a video signal from an imaging unit such as a CCD camera.
  • the gatekeeper technology is a technology that provides address translation and LAN access control for H.323 terminals and the like.
  • the gatekeeper 20 shown in FIG. 4 manages a registry of devices in the multimedia network. These devices register with the gatekeeper at startup and request the gatekeeper to admit (accept) the call. [0008]
  • the gatekeeper 20 has the following four essential functions.
  • Admission Control Controls admission of endpoints to the H.323 network. To achieve this function, the gatekeeper uses:
  • the gatekeeper uses the following H.225 RAS message:
  • the gateway manages the zone for all registered endpoints in the zone. For example, the registration process of the endpoint is controlled.
  • the gateway retains information about active calls and uses this information to indicate busy endpoints and redirect calls.
  • This option allows the gateway to deny admission when the required bandwidth is not available.
  • This option allows the gateway to route call signaling messages between H.323 endpoints using the GKRCS (Gatekeeper-Routed Call Signaling) model.
  • GKRCS Gatekeeper-Routed Call Signaling
  • the endpoints can send H.225 call signaling messages directly to each other.
  • MCU Multipoint connection device
  • the multipoint connection device 30 uses means (transfer means 31, encoding means 32, decoding means 33, IP telephone command means 34) such as IP video phones l to n to connect to the IP video phones l to n.
  • means transfer means 31, encoding means 32, decoding means 33, IP telephone command means 34
  • IP video phones l to n to connect to the IP video phones l to n.
  • the multipoint control means 35 and the multi-point processing means 36 necessary for conducting a telephone conference.
  • the multipoint control means 35 negotiates (handshake) with each IP videophone participating in the conference call, determines a common function, and controls conference resources such as multicast.
  • the multipoint processing means 36 receives actual audio and video data from each IP videophone participating in the telephone conference and performs multiplexing and the like.
  • SMIL Synchronized Multimedia Integration Language
  • SMIL (a language that handles multimedia files in an integrated manner) is a language that controls and synchronizes the playback of various types of data, such as moving images, still images, audio, music, and characters, and is described in XML. It was recommended in April 1998 as a W3C standard. You can control what position, when, and how long to display. A product that implements this is RealNetworks' RealSystem G2.
  • XTL is a runtime description language that uses Microsoft (trademark), DirectShow (trademark), and Editing Services (DES), and is described in XML, similar to SMIL.
  • DES uses the core technology of DirectShow, an application programming interface (API), to enable nonlinear video editing and playback of various media formats. Therefore, it can be said that it is basically similar to SMIL.
  • MPEG4 is a multimedia standard that can handle media such as 3D objects, sprites, texts, etc. that can only be used with audio and video.
  • MPEG4 includes 3D objects and animation objects in addition to audio video! This constitutes each scene of MPEG4.
  • XMT Extensible MPEG-4 Textual format
  • Patent Document 1 JP-A-2002-140162
  • Patent Document 2 JP 2004-48551 A
  • IP networks Internet
  • IP network Internet
  • IP telephony the new part of IP telephony is the always-on broadband IP network and the power of only infrastructure!
  • the new infrastructure that users perceive is only effective at low call rates. Therefore, the merit of introducing IP phones for users is very little other than this low price!
  • IP telephony services are truly unprofitable services and are used by large, well-funded companies as a means of attracting customers for other profitable services.
  • IP telephone services This will enable users to find the motivation for introducing IP phones in addition to the price, create a sound business model in the Japanese economy, and make it possible for IP phones to penetrate various parts of their lives.
  • the e-Japan plan enacted an IT policy.
  • the IT industry has undergone major changes, and the spread of broadband (high-speed, large-capacity) has progressed at a rapid pace.
  • the government has invested money and effort, and the industry has also competed, bringing widespread adoption of broadband, such as ADSL, now with the unthinkable introduction and price in 2000, when the e-Japan plan was enacted.
  • ADSL Advanced Driver Assistance Systems
  • killer content is necessary for the further spread of broadband. There are more situations than this, and killer applications that carry killer content are considered indispensable. The killer application must be something that anyone can treat as everyday. Researching and developing such applications will be the role of the industry in the future and will be the key to growth.
  • the IP telephone technology focuses on the real-time communication of the conventional telephone, and the technology for supporting the non-real-time interactive service is very insufficient. It is only used as a substitute for the network (PSTN). Therefore, it can provide only the services that were conventionally provided by telephone (such as one-to-one voice or television calls or conference calls, and message services).
  • An object of the present invention is to provide an IP videophone service system capable of realizing a bidirectional service based on non-real-time video, which has not been able to be provided by conventional telephones, based on the conventional accumulation technology.
  • a distribution server connected to an IP network provided with an IP videophone service performs an IP videophone call according to a preset distribution procedure.
  • Video clips, still images It is characterized by having means for determining various media such as characters and voices and the distribution method thereof, and distributing these media as streaming video to IP videophones.
  • the user of the IP videophone can obtain various information interactively and audiovisually by the conventional telephone operation and telephone call.
  • a second configuration of the present invention is characterized in that the distribution server includes means for distributing only recorded media or a combination of recorded media and live broadcast media. I do.
  • a third configuration of the present invention is characterized in that the distribution procedure describes behaviors such as a distribution time, a distribution time, a position on an IP videophone screen, and a display method of the various media. I do.
  • the distribution procedure can be described to determine the behavior of various media in response to any response from the user based on the time at which the response was received.
  • the distribution server according to the distribution procedure according to the user environment such as an IP television telephone number and a language setting of an IP video telephone service user, distributes the video to be distributed. And means for adjusting the selection and distribution method.
  • the distribution server it is possible to select the display in a language corresponding to the language used by the IP videophone service user, and to adjust the distribution method depending on whether the user is a beginner or an experienced user. .
  • the present invention can also have the following configurations.
  • the IP videophone terminal automatically accepts connections when connecting to the distribution server so as not to be overloaded. Decide the distribution server.
  • the distribution server receives the user's audio and video, and automatically creates a description of the distribution procedure (also with the distribution procedure manual or scenario ⁇ ⁇ ) and the respective media.
  • the distribution server automatically creates a scenario in accordance with an instruction of the IP videophone service user, and receives the voice or video of the IP videophone service user.
  • the means to automatically create each media! / Is characterized.
  • the fifth configuration it is possible to automatically create a scenario and various media using the received voice and video according to the instruction of the IP videophone service user.
  • a sixth configuration of the present invention provides an IP videophone terminal for using an IP videophone service, a distribution server that distributes video to the IP videophone terminal, a video clip to be distributed, and a still image.
  • the distribution server is an IP network.
  • a command means is also in the range and a medium access means for inputting and outputting various media stored in the Huai Rusaba.
  • the user of the IP videophone can obtain various information interactively and audiovisually by the conventional telephone operation and telephone call.
  • the file server includes a scenario database that holds a scenario, and the distribution server further processes the scenario and executes the scenario according to a preset distribution procedure.
  • Means, and the distribution procedure describes behaviors such as a distribution time, a distribution time, a position on an IP videophone screen, and a display method of the various media.
  • the IP telephone number and language setting of the IP telephone service user According to the user's environment, it is possible to adjust the selection of the video to be distributed and the distribution method according to the distribution procedure described above.
  • the present invention can further have the following configurations.
  • the distribution server is provided with multipoint control means and multipoint processing means for converting a plurality of IP phone images into one image, so that only the media recorded on the file server or Once recorded, it is possible to distribute the combined media and live broadcast media.
  • the file server includes a scenario database that holds a scenario, and the distribution server further stores a video composed of various media cards stored in the storage device. It is equipped with a content caching means that is stored in a storage device and read out when necessary, and by describing the distribution time, distribution time, position on the IP videophone screen, and display method of various media as distribution procedures, It is possible to specify how long a certain media is to be delivered at the timing, and in the following procedure, at which position on the IP videophone screen and in what display manner the media is displayed. In addition, the distribution procedure can be described so as to determine the behavior of various media based on the time at which the response is received for any response from the user.
  • the file server includes a scenario database that holds scenarios, a media database that holds various media such as video clips, still images, characters, and audio, and storage.
  • a cache database that holds images created by the distribution server is provided.
  • the distribution server has a user response processing unit and a scenario processing unit that processes a scenario and executes the scenario as it is.
  • the behavior of the various media is determined based on the time at which the response was received. It is possible to provide services such as
  • the gatekeeper has an address conversion unit and a server load management unit, and the distribution server monitors the usage status of the CPU and the memory of the distribution server from time to time.
  • load monitoring means in a service consisting of multiple distribution networks to prepare for a large amount of access, when an IP videophone connects to a distribution server, A distribution server that automatically accepts connections can be determined so as not to be overloaded.
  • the distribution server connected to the IP network distributes the IP videophone service in response to the IP videophone service user according to a preset distribution procedure.
  • Media such as video clips, still images, text, audio, etc., and methods for distributing them, and a means for distributing these media as streaming video to IP TV phones! Users can interact with audio-visually rich information contents through conventional telephone calls and telephone operations.
  • IP videophone technology that is suitable for non-real-time communication, it is possible to solve the problem of being limited to call services by enabling services outside of calls that have been used up to now.
  • FIG. 1 is a system configuration diagram showing an embodiment of the present invention.
  • FIG. 2 is a block diagram showing an embodiment of the present invention.
  • FIG. 3 is a system configuration diagram of a conventional technology.
  • FIG. 4 is a block diagram of a conventional technique.
  • FIG. 5 is a system configuration diagram showing a configuration of Embodiment 1 of the present invention.
  • FIG. 6 is a block diagram illustrating a configuration of a distribution server according to the first embodiment.
  • FIG. 7 is a block diagram showing a configuration of a part of a distribution server according to the first embodiment.
  • FIG. 8 is a block diagram showing a configuration of an interaction engine in Embodiment 1.
  • FIG. 9 is a block diagram showing a configuration of a media engine in Embodiment 1.
  • FIG. 10 is an explanatory diagram showing a creation state of a dialog scenario in the first embodiment.
  • FIG. 11 is an explanatory diagram showing a configuration example of a content according to the first embodiment.
  • FIG. 12a is a list in which the content configuration of FIG. 11 is used as a scenario.
  • FIG. 12b A list in which the content configuration of FIG. 11 is used as a scenario.
  • FIG. 13 is a system diagram showing a media configuration of the scenario shown in FIG. 12.
  • FIG. 14 is a list showing description contents of a media scenario.
  • FIG. 15 is an explanatory diagram of a basic operation in Embodiment 1.
  • FIG. 16 is a time-series flow chart of the operation shown in FIG.
  • FIG. 17 is an explanatory diagram showing a mechanism of a scenario using a combination of recorded media and live broadcast media.
  • FIG. 18 is an explanatory diagram showing a processing flow for realizing the scenario of FIG. 17.
  • FIG. 19 is an image of a screen displayed on a user's IP videophone.
  • Fig. 20 is an explanatory diagram of a scenario in which delivery is instructed according to the environment of the user in the second embodiment.
  • FIG. 21 is an explanatory diagram showing interactive and real-time exchanges between a clerk and a customer in the third embodiment.
  • FIG. 22 is a time chart showing a flow of exchange in Example 3.
  • FIG. 23 is an image of an exchange screen in Embodiment 3.
  • FIG. 24 is a block diagram showing a flow in an IP videophone load distribution service in Embodiment 5.
  • FIG. 25 is an image of a screen of an IP videophone user participation type service according to the sixth embodiment.
  • Call control signaling means distribution server
  • IP telephone command means Multipoint processing means
  • Multipoint control means Scenario processing means
  • Medium access means File server
  • HTTPZFTP command means User authentication means Access transfer means Server load management means Load status DB
  • the embodiment of the present invention includes an IP videophone 1 to n for using the IP videophone service, a distribution server 50 for distributing video to the IP videophone terminal, a video clip to be distributed, a still image, It comprises an IP network 10 composed of a file server 60 for storing various media such as characters and voices and their caches, and a gatekeeper 20 for IP video phone number resolution and bandwidth management.
  • the IP videophones l to n include a video input unit 11 for inputting a video signal of an imaging unit such as a CCD camera, an encoding unit 12 for encoding a video signal, and a video signal together with audio data.
  • a transfer means 13 for transferring the video signal to an IP telephone command means 14, a decoding means 15 for decoding a received video signal, and a video output means 16 for outputting a video signal to a liquid crystal display or the like. .
  • the distribution server 50 includes a transfer unit 51 for transferring data on the IP network, and a decoding unit 52 for decoding data encoded as data of the IP television phones l to n into audio data, video data, and the like.
  • IP phone command means 55 for issuing commands necessary for communication with the IP videophone, and negotiating (handshake) with each IP videophone participating in the teleconference, determining common functions, and conducting conferences such as multicast It receives multi-point processing means 56 for controlling resources and receives actual audio and video data of each IP video telephone participating in the conference call.
  • Multi-point control means 57 for processing, for example, scenario processing means 58 for processing and executing the scenario as it is, medium access means 59 for inputting and outputting various media stored in each database of the file server 60, Content caching means 71, which stores the various media powers stored in the file server 60 in a database and reads it out when necessary, and a server that monitors the usage status of the CPU and memory of the distribution server 50 from time to time load Monitoring means 72, HTTPZFTP command means 73 for generating commands for transferring various media output from the medium access means 59 to the IP network 10, and user authentication means for authenticating the user of the connected IP television telephone. 74 and access transfer means 75 for transferring the IP videophone connected to the distribution server 50 to another distribution server.
  • the file server 60 includes a scenario DB (database) 61 for storing scenarios, a media DB62 for storing various media such as video clips, still images, characters, and audio, and various types of data stored in a storage device.
  • the media is also equipped with a cache DB63 that holds the images created by the processing of the distribution server!
  • the gatekeeper 20 manages the address conversion means 21 for converting between an IP address and a telephone number, the reception control means 22 for accepting the connection of the incoming IP videophone, and the bandwidth request of the IP videophone.
  • Bandwidth control means 23 which performs processing for connecting the IP videophone to the gatekeeper 24, call authentication means 25 which performs authentication to restrict access and policy access, and connection between IP videophones
  • a call management means 26 for managing the situation, a bandwidth management means 27 for rejecting admission when the required bandwidth cannot be secured, and a call for controlling signaling for establishing a connection with an incoming IP videophone.
  • Control signaling means 28 server load management means 81 for managing load status information of each distribution server, and CPU and memory usage rates of each distribution server Having a load situation D B82, a network load monitoring means 83 for constantly monitoring the load status of each distribution server.
  • Embodiment 1 of the present invention relates to an IP videophone service, and will be described with reference to FIG.
  • the IP videophones l to n for using the IP videophone service, the distribution server 50 for distributing video to the IP videophones l to n, the video clips to be distributed, still images, and text ,
  • a file server 60 for storing various media such as audio data and their caches, and a gatekeeper 20 for IP telephone number resolution and bandwidth management.
  • the transfer means 51 includes TCP (Transmission Control Protocol) and UDP (User
  • Data is transferred over the IP network 10 using a protocol such as Datagram Protocol.
  • the data passed to the transfer means 51 can be passed using RTP (ReaH: ime Transport Protocol) or HTTP (Hyper Text Transfer Protocol) technology.
  • the IP telephone command means 55 can use H.323 or SIP (Session Initiation Protocol) technology.
  • H.323 has been adopted as a protocol for Voice over IP (VoIP) for realizing Internet telephony, as well as integrating real-time multimedia data such as video conferencing between multiple locations. It can handle and multicast communication is also possible.
  • H.261 64 kbps to 2 Mbps
  • H.263 64 kbps or less
  • G.711 and G.711 are used as audio compression technologies. 722, G.723.1, etc. Power used.
  • the user of the IP videophone can obtain various information interactively and audiovisually by the conventional telephone operation and telephone call.
  • FIG. 5 shows a configuration example of the first embodiment. This will be described with reference to FIG.
  • the distribution server 50 includes a distribution server 50-1, a distribution server 50-2, and a distribution server 50-3. These distribution servers share the file server 60.
  • IP videophones l to n consist of IP videophone 1, IP videophone 2, and IP videophone 3.
  • FIG. 6 is a diagram for explaining the entire distribution server 50.
  • FIG. 7 is a diagram for explaining the interaction engine and the media engine of the distribution server 50.
  • FIG. 8 is a diagram for explaining the interaction engine.
  • FIG. 9 is a diagram for explaining a media engine.
  • Decoding means 52 and encoding means 53 are realized as audio codec 101, video codec 102, audio channel 103, video channel 104, audio input / output device 105, and video input / output device 106 for video and audio data, respectively. ing.
  • the scenario processing means 58 and the user response processing means 54 are realized as a media engine 107 and an interaction engine 108.
  • the audio input / output device 105 acquires data from the audio buffer 109
  • the video input / output device 106 acquires data from the video buffer 110, respectively, of audio ′ video to be delivered to the IP telephones l to n.
  • the IP telephone command means 55 is realized by the H.323 endpoint I 1 and the H.323 connection 112.
  • the H.323 endpoint 111 receives the incoming call, establishes an H.323 connection 112, and, based on the scenario, an interaction engine 108 and a media engine 107. Have the video (video and audio) created.
  • the video input / output device 106 acquires the created video from the video buffer 110, and the audio input / output device 105 acquires the created audio from the audio buffer 109, and distributes them to the IP videophones l to n through the H.323 connection 112. .
  • the interaction engine 108 performs a process for dialogue with the user based on the scenario DB 113, and causes the media engine 107 to create a video and an audio corresponding thereto.
  • the interaction engine 108 reads the scenario from the scenario DB 113 and processes the scenario, and stores the connection and conversation status with the IP telephones 1 to n in the session information DB 114.
  • the media engine 107 creates a video 'audio' according to the instruction of the interaction engine 108, and distributes it to the IP videophones l to n.
  • the video and audio are stored in the media DB 115, the clip DB 116, and the cache 117.
  • the interaction engine 108 performs a dialog processing centering on the interaction engine core 120.
  • the interaction engine core 120 uses a local media access 121 for a scenario stored on a local disk, and accesses a scenario stored on a remote disk using a remote media access 122.
  • the accessed scenario is processed, and the response recognition engine 123 recognizes various information such as the user environment and the user response transferred from the IP videophones l to n based on the scenario.
  • the response recognition engine 123 recognizes DTMF (numeric input from a videophone button) 124, voice 125, and video 126.
  • the interaction engine core 120 determines a video / audio to be created based on the recognition result based on the scenario, and notifies the media engine 107 of the determined video / audio.
  • the media engine 107 receives the notification from the interaction engine 108 and creates media (video).
  • the notification includes a file name including a description of video and audio constituting the video to be created, and the media engine 107 reads the file, passes the file through the media interpreter 131, and decrypts the file.
  • This description file may be in a native format (native media script 132), or in a format such as XTL133, SMIL134, or MPEG-4135. A media interpreter corresponding to each format is prepared.
  • the media engine 107 causes the video processor 136 to create a video based on the decoding result, and distributes the video to the IP videophones l to n.
  • the distribution procedure manual is a description of the behavior of various media, such as distribution time, distribution time, position on the IP videophone screen, and display method, and is also called a scenario.
  • Scenario DB113 consists of two parts: one for dialogue and one for creating video.
  • a scenario for dialogue is called a dialogue scenario
  • a scenario for creating video is called a media scenario.
  • the media scenario describes how to create a media DB (video) 115 to be created.
  • the clip DB 116 is video or audio data itself having a single content.
  • the interaction scenario references a media scenario.
  • Dialogue scenarios combine multiple media scenarios to build advanced interactive multimedia content.
  • the media scenario refers to the clip DB 116.
  • Media scenarios combine multiple clips to create complex video and audio.
  • one dialog scenario can refer to another dialog scenario.
  • Unreferenced conversation scenarios are called layer 1 conversation scenarios.
  • the layer of the dialog scenario referred to by this dialog scenario is Layer 2.
  • the layer numbers of the dialog scenario are assigned.
  • the layer number is a relative number.
  • Fig. 11 shows the structure of the content.
  • the content also has four main menu capabilities: “Introduction to Kyushu”, “Introduction to Iizuka”, “Watch New Song”, and “End”.
  • “Introduction to Kyushu” has nine menus
  • “Introduction to Iizuka” has five menus
  • “Watch new songs” also has five menus!
  • the number before and after each menu item in FIG. 11 is a number selected by the user, and when that number is selected, the menu is executed.
  • FIG. 12 shows the above content configuration as a scenario.
  • Figure 12 includes a dialog scenario and a media scenario, but the actual media scenario content is stored in a separate file.
  • the “PlayMedia ()” part in the scenario is a part for creating and distributing media (video), which is a part of the media scenario.
  • the interaction engine reads "PlayMedianndex.mml", true); When reading J, it passes index.mml and other interaction scenarios to the media engine, which creates media based on it and sends it to the IP videophone. Store in a buffer for distribution. The delivery server delivers this to the decoded UP videophone.
  • FIG. 13 shows the media configuration of the scenario shown in FIG.
  • the number is the number accepted as a response from the user.
  • Figure 14 shows the contents of index.mml where the media scenario is described.
  • the media combines each clip to create one video.
  • Specify clip with clip A clip is located on a track that can be specified multiple times, and a tract is located in a group.
  • There are two groups, one for video and one for audio. group is located in the timeline.
  • the timeline is the time axis of the whole image.
  • a video is created by combining a video clip called butterfly.avi, menuindex.bmp, V, and a still image, and this is combined with the audio part of butterfly.avi to create a video.
  • a reception request is sent from the IP videophone to the gatekeeper 20.
  • the gatekeeper 20 sends a reception completion notice to the IP videophone (2).
  • This reception completion notification includes the IP addresses of the distribution servers 50-1 to 50-n.
  • the IP videophone sends a connection establishment request to this IP address (3).
  • the distribution server establishes a connection (4).
  • the distribution server refers to the scenario DB61 and determines the video to be distributed first (5). It obtains various clips that are the material for creating the video and creates the video (6). Encode the created video for IP videophone (7). Then the video is distributed to the IP videophone (8).
  • the IP videophone user can send a response to the distribution server. For example, when the first video is distributed from the distribution server to the IP videophone (8), when the user of the IP videophone operates the telephone button, the information of the pressed button is sent to the distribution server (9). ).
  • the scenario processing means 58 having received the information refers to the scenario DB 61 and determines an operation in response to the user's response. In other words, what kind of video should be delivered in response to the user's response?
  • the video created based on index.mml is distributed to IP videophones. Then, when the user of the IP television phone presses 1 with the telephone button, the information of “1” is sent to the distribution server, recognized by the user response processing means 54, and sceneOll.mml is created based on the dialog scenario.
  • the media scenario is read and a video is created based on the media scenario and distributed to the IP TV phone. In this way, the video sent in response to the user's instantaneous response changes.
  • FIG. 16 shows the operation shown in FIG. 15 in chronological order.
  • the left side is the time axis of the server, and the right side is the time axis of the user.
  • the time lapse is from top to bottom.
  • the multi-point processing means 56 and the multi-point control means 57 provided in the distribution server 50 not only the media recorded in the file server 60 but also the recorded media can be used. Combined distribution with live broadcast media is possible.
  • Figure 17 shows the mechanism of a scenario that uses a combination of recorded media and live broadcast media.
  • Figure 19 shows a screen image displayed on the user's IP videophone.
  • the scenario in this case is similar to the scenario shown in FIG. 10, except that the powerful clip is connected to a distribution server that is not the video or audio that actually exists on the disc. Clips obtained directly from the phone have different characteristics.
  • the distribution server acquires the scenario as usual (2), processes it, and reads various clips (2). If the live media is included in the scenario, the distribution server is designated and sends a call to the IP videophone (this IP videophone is called the service provider's IP videophone), and the IP videophone Initiate a connection. Power of the user's IP videophone The video that is sent is distributed to the service provider's IP videophone [4], and the distribution server uses this video as a clip required by the scenario [5]. An image is created with this clip and distributed to IP videophone users [6].
  • the video of the service provider's IP videophone is placed on the user's IP videophone screen along with other clips on the disk according to the scenario.
  • Example 2
  • the second embodiment of the present invention relates to an IP videophone user-oriented service.
  • This service has, in addition to the basic configuration of the first embodiment, a scenario DB 61 for storing a scenario in the file server 60, and a scenario processing in which the distribution server 50 further processes the scenario and executes the scenario according to a preset distribution procedure.
  • Means 58 are provided.
  • the distribution procedure describes the distribution time, distribution time, position on the IP videophone screen, and display method of various media.
  • the distribution procedure is followed according to the user environment such as the IP phone number and language setting of the IP phone service user! ⁇ You can select the video to distribute and adjust the distribution method.
  • Figure 20 shows a scenario that instructs distribution according to the user's environment.
  • a certain shopping content sends different images to users who transmit from two regional powers.
  • Users from region 1 distribute product information limited to region 1
  • users from region 2 distribute product information limited to region 2.
  • some territories are common throughout the region.
  • Language 1 and Language 2 it is necessary to distribute audio that corresponds to the language of the user who sends audio even if the video is the same depending on the user's language. Has become. This mechanism is shown in the scenario configuration shown in Figure 20.
  • region 1 media scenario is used according to the description of the dialogue scenario (1). Furthermore, according to the media scenario of region 1, video clips are used in region 1 (common) (2), but audio clips (audio parts) are in language 1 (3).
  • Example 3 of the present invention relates to an IP videophone conversation service.
  • a file server 60 includes a scenario DB 61 for storing scenarios and media for storing various media such as video clips, still images, characters, and audio.
  • the distribution server 50 includes a user DB 62 and a cache DB 63 that retains various types of media stored in the storage device and images that are obtained by the processing of the distribution server.
  • This has a scenario processing means 58 to be executed.
  • it is possible to determine at what timing and for how long a certain media is to be distributed, and in the following procedure, at what position on the IP videophone screen and what display The ability to display the media in different ways.
  • As a delivery procedure a description is made for any response of the user to determine the behavior of the various media based on the time at which the response was received.
  • Figure 21 shows the interaction between the clerk and the customer in real time.
  • Realizing such a real-time dialogue with a non-real-time clip collection is the exchange of video between the distribution server and the user shown in FIG.
  • the distribution server distributes different images one after another according to the user's intention.
  • Figure 23 shows an image of the screen in Figure 22.
  • a background video 'audio' a menu video showing options and so on.
  • the person (clerk) in the picture behaves like a person on the other side, but is actually a video clip recorded on a disc.
  • Each of these is a collection of clips, and the attributes of each clip are controlled by the scenario!
  • Embodiment 4 of the present invention relates to an IP videophone user-oriented service.
  • this service is a content cache that stores videos composed of various media stored in the storage device in the storage device and reads them when necessary.
  • a certain media can be distributed at which timing and for how long.
  • the following procedure can be used to specify at which position on the IP videophone screen the media should be displayed in the following manner.
  • the distribution procedure can be described so as to determine the behavior of various media based on the time at which any response from the user is received.
  • Embodiment 5 of the present invention relates to an IP videophone load distribution service.
  • the gatekeeper 20 has an address translation unit 21 and a server load management unit 81, and the distribution server 50 manages the usage status of the CPU and the memory of the distribution server.
  • the provision of the server load monitoring means 72 for monitoring from time to time enables the IP videophones l to n to be overloaded when connected to the distribution server 50 in a service composed of a plurality of distribution servers 50 to prepare for a large amount of access. It is possible to determine the distribution server 50 that automatically accepts the connection so as not to be out of order.
  • FIG. 24 shows load distribution of the distribution server using the gatekeeper 20.
  • IP videophone 1 With IP videophone 1 connected to distribution server 50-1 and receiving services, IP videophone 2 makes a request to gatekeeper 20 to start connection (1).
  • the gatekeeper 20 receiving the reception request checks the load status 82 of each server by the server load management means 81 (2).
  • the IP address of the server that will not be overloaded by providing service to this IP videophone 2 is notified (3).
  • the gatekeeper 20 determines the IP address of the distribution server 50-2 that has room. Notify (5). With this, the IP videophone accesses the distribution server 50-2 as usual and the video is sent.
  • Embodiment 6 of the present invention relates to an IP videophone user participation type service.
  • a user response processing means 54 is provided in the force distribution server 50, which can be realized by any of the configurations of the first to fifth embodiments, so that the user can speak normally from the IP videophones l to n.
  • the distribution server 50 has a function of receiving the user's audio and video and automatically creating an IP television telephone scenario and respective media.
  • a screen as shown in Fig. 25 is displayed on the user's IP videophone. Is done.
  • the live video of the user of the IP videophone is displayed together with the video created by the scenario as usual.
  • the user follows the guidance of the guide shown in the video and speaks self-introduction naturally as if talking to a human on the telephone.
  • the video of the IP videophone user is sent to the distribution server and stored as audio and video clips.
  • the scenario is generated according to the scenario for automatic generation. When any IP videophone user accesses this scenario, the content is played back.
  • the present invention can be used as an IP videophone service system that realizes an interactive service using non-real-time video using an IP network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

There is provided an IP videophone service system capable of realizing bi-directional service based on non-actual time video which cannot be provided by the conventional telephone. The system includes means for deciding various media such as moving picture clip, still image, characters, and audio distributed by response of a user of the IP video phone service and their distribution method and distributing these media as streaming video to the IP videophone, according to the distribution procedure preset in a distribution server (50) connected to an IP network (10) where the IP videophone service is provided. Thus, the user of the IP videophone can acquirer various information interactively and audio-visually only by the conventional telephone operation and telephone communication.

Description

明 細 書  Specification
IPテレビ電話サービスシステム  IP videophone service system
技術分野  Technical field
[0001] 本発明は、 IPネットワークを使用して非実時間映像による双方向サービスを実現す る IPテレビ電話サービスシステムに関する。  The present invention relates to an IP videophone service system for realizing an interactive service using non-real-time video using an IP network.
背景技術  Background art
[0002] IP (Internet Protocol)電話技術は、近年の常時接続ブロードバンドの普及に伴 ヽ 実用的になってきている。しかし、現在の IP電話サービスは、常時接続広帯域 IPネッ トワークと 、う新し 、インフラを利用するだけで、二人ある!/、はそれ以上の人数の音声 通話と 、つた従来電話が提供してきたサービス力もほとんど発展して 、な 、。  [0002] IP (Internet Protocol) telephone technology has become practical with the spread of always-on broadband in recent years. However, today's IP telephony service has two people simply by using an always-on broadband IP network and new infrastructure, and there are two people! /, Which has been provided by more voice calls and traditional telephones. The service strength that has been developed almost,
以下に、従来の IP電話に関する技術について、図 3および図 4を参照しながら説明 する。  The following describes conventional IP telephone technology with reference to FIGS. 3 and 4. FIG.
[0003] A. IP電話技術  [0003] A. IP phone technology
IP電話サービスが利用する主な IP電話技術として、 ISO (International Standard Organization)の規格である H. 323 (インターネットや LANなどのように、通信の伝送 品質が保証されていないネットワークにおいて使用される、マルチメディア圧縮、多重 、分離、端末制御方式についての ITU— T勧告 (標準))に基づいた IP電話技術と、 I ETF (Internet Engineering Task Force)の規格で teる SIP (Session Initiation Protocol )に基づいた IP電話技術がある。  The main IP telephone technology used by the IP telephone service is H.323 (International Standard Organization) standard (used in networks where the transmission quality of communication is not guaranteed, such as the Internet and LAN. Based on IP telephony technology based on the ITU-T Recommendation (standard) for multimedia compression, multiplexing, demultiplexing, and terminal control, and based on the Session Initiation Protocol (SIP) specified by the Internet Engineering Task Force (IETF) There is IP phone technology.
[0004] B.従来電話の各種のサービスを実現する IP電話技術  [0004] B. IP telephone technology that realizes various services of conventional telephone
1. 1対 1の音声通話  1. One-to-one voice calls
IPネットワークで接続されている 2箇所の IP電話機あるいは IP電話ソフトウェアの間 で、実時間通話が可能になる。  Real-time calls can be made between two IP phones or IP phone software connected over an IP network.
2. n対 nの音声通信 (電話会議)  2. n-to-n voice communication (conference call)
MCU (Multipoint Control Unit)を用いると、図 3 (b)に示すように、 2ケ所以上の IP 電話機ある 、は IP電話ソフトウェアの間に同時実時間通話を実現し、 IP電話を用 、 たいわゆる多拠点電話会議が可能になる。 3.テレビ電話技術 Using an MCU (Multipoint Control Unit), as shown in Fig. 3 (b), there are two or more IP telephones, realizing simultaneous real-time calls between IP telephone software and using IP telephones. Multi-site conference call is possible. 3. Videophone technology
これらの音声通話技術に加え、通話する相手の動画を実時間的に見ることができる In addition to these voice calling technologies, you can watch the video of the other party in real time
IPテレビ電話や IPテレビ会議を可能にする従来技術としては、メッセージング技術が ある。これは、通話相手が電話に出られないときや留守にしているときに伝言を受付 けて、あとから通話相手が再生できるようにする技術である。このようなテレビ電話装 置としては、 1対 1の通信については特許文献 1に、 n対 nの通信については特許文 献 2に、それぞれ開示されたものがある。 As a conventional technology that enables IP videophone and IP videoconference, there is a messaging technology. This is a technology that allows a caller to receive a message when the other party cannot answer the phone or is away, so that the other party can play back the message later. Such a videophone device is disclosed in Patent Document 1 for one-to-one communication and in Patent Document 2 for n-to-n communication.
[0005] さらに、これらの従来技術の発展として、電話や IP電話、 FAX,電子メールなど様 々な経路で送受信されるメッセージを統合し、一元的に管理を行なうためのュ-ファ イドメッセージング技術がある。 [0005] Further, as a development of these conventional technologies, a message messaging technology for integrating messages transmitted and received via various routes such as telephone, IP telephone, fax, and e-mail and centrally managing the messages has been developed. There is.
上記に示したテレビ電話本発明の関連する従来技術のシステム構成図を図 3 (a) および (b)に、従来技術のブロック図を図 4にまとめて示す。  FIGS. 3 (a) and 3 (b) show a system configuration diagram of the related art related to the videophone of the present invention described above, and FIG. 4 shows a block diagram of the related art.
図 3 (a)において、 IPネットワーク 10には、 1対 1に IPテレビ電話 1, 2が接続され、 後述のゲートキーパ 20により制御されて相互に通信を行う。図 3 (b)においては、 IP ネットワーク 10には、複数の IPテレビ電話 l〜nが接続され、ゲートキーパ 20および 多地点接続装置 (MCU) 30により複数の IPテレビ電話 l〜n間で通信可能であり、 テレビ会議が行える。  In FIG. 3A, IP videophones 1 and 2 are connected to the IP network 10 on a one-to-one basis, and communicate with each other under the control of a gatekeeper 20 described later. In FIG. 3 (b), a plurality of IP videophones l to n are connected to the IP network 10, and communication is possible between the plurality of IP videophones l to n by the gatekeeper 20 and the multipoint connection unit (MCU) 30. And can hold a video conference.
[0006] 図 4に示すように、 IPテレビ電話 1 (2, · · · , n)は、 CCDカメラなどの撮像手段から の映像信号を入力する映像入力手段 11と、映像信号を符号化するエンコード手段 1 2と、音声データと共に映像信号を IPネットワーク 10に転送する転送手段 13と、受信 した映像信号を復号ィ匕するデコード手段 15と、映像信号を液晶ディスプレイ等に出 力する映像出力手段 16とを有している。なお、音声信号を取り扱う手段については、 省略している。  As shown in FIG. 4, an IP videophone 1 (2,..., N) encodes a video signal with a video input unit 11 that inputs a video signal from an imaging unit such as a CCD camera. Encoding means 12, transfer means 13 for transferring a video signal together with audio data to IP network 10, decoding means 15 for decoding a received video signal, and video output means for outputting a video signal to a liquid crystal display or the like. 16 and has. Means for handling audio signals are omitted.
[0007] C.ゲートキーパ  [0007] C. Gatekeeper
ゲートキーパ技術は、 H. 323端末などに対して、アドレス変換および LANへのァ クセス制御を提供する技術である。図 4に示すゲートキーパ 20は、マルチメディアネ ットワークにあるデバイスのレジストリを管理する。これらのデバイスは起動時にゲート キーパに登録され、コールのアドミッション (受け付け)をゲートキーパに要求する。 [0008] ゲートキーパ 20には、以下の 4つの必須機能がある。 The gatekeeper technology is a technology that provides address translation and LAN access control for H.323 terminals and the like. The gatekeeper 20 shown in FIG. 4 manages a registry of devices in the multimedia network. These devices register with the gatekeeper at startup and request the gatekeeper to admit (accept) the call. [0008] The gatekeeper 20 has the following four essential functions.
1.アドレス変換手段 21  1. Address translation means 21
H. 323IDと E. 164号 (標準の電話番号)をエンドポイントの IPアドレスに変換する  Translates H.323ID and E.164 (standard telephone numbers) to endpoint IP addresses
2.受付制御手段 22 2.Reception control means 22
アドミッション制御—H. 323ネットワークへのエンドポイントのアドミッションを制御す る。この機能を実現するために、ゲートキーパは次のものを使用する。  Admission Control—Controls admission of endpoints to the H.323 network. To achieve this function, the gatekeeper uses:
(1) H. 225RAS (Registration, Admission, and Status)メッセージ  (1) H.225RAS (Registration, Admission, and Status) message
(2) Admission Request (ARQ,アドミッション要求)  (2) Admission Request (ARQ, admission request)
(3) Admission Confirm (ACF、アドミッション確認)  (3) Admission Confirm (ACF, admission confirmation)
(4) Admission Reject (ARJ、アドミッション拒否)  (4) Admission Reject (ARJ, admission rejection)
3.帯域制御手段 23  3.Band control means 23
エンドポイントの帯域幅要求を管理する。この機能を実現するために、ゲートキーパ は次の H. 225RASメッセージを使用する:  Manage endpoint bandwidth requirements. To achieve this function, the gatekeeper uses the following H.225 RAS message:
(1) Bandwidth Request (BRQ、帯域幅要求)  (1) Bandwidth Request (BRQ)
(2) Bandwidth Confirm (BCF、帯域幅確認)  (2) Bandwidth Confirm (BCF, bandwidth confirmation)
(3) Bandwidth Reject (BRJ、帯域幅拒否)  (3) Bandwidth Reject (BRJ)
4.ゾーン制御手段 24  4.Zone control means 24
ゲートウェイによって、ゾーン内に存在する登録済みのエンドポイントすべてのゾー ン管理が行われる。たとえば、エンドポイントの登録プロセスが制御される。  The gateway manages the zone for all registered endpoints in the zone. For example, the registration process of the endpoint is controlled.
[0009] また、以下の 4つのオプション機能がある。 [0009] There are the following four optional functions.
(1)呼認証手段 25  (1) Call authentication means 25
このオプションを使用すると、特定の端末またはゲートウェイへのアクセスの制限及 び、 ToD (Time -of -Day)ポリシーアクセス制限を実装することが可能である。 Using this option, it is possible to restrict access to specific terminals or gateways and to implement time-of-day (ToD) policy access restrictions.
(2)呼管理手段 26 (2) Call management means 26
このオプションを使用すると、ゲートウェイによってアクティブコールの情報が保持さ れ、ビジー状態のエンドポイントを示す場合や、コールをリダイレクトしたりする際にこ の情報が使用される。 (3)帯域管理手段 27 With this option, the gateway retains information about active calls and uses this information to indicate busy endpoints and redirect calls. (3) Bandwidth management means 27
このオプションを使用すると、必要な帯域幅が使用できないときにゲートウェイでアド ミッションを拒否できる。  This option allows the gateway to deny admission when the required bandwidth is not available.
(4)呼制御シグナリング手段 28  (4) Call control signaling means 28
このオプションを使用すると、 GKRCS (Gatekeeper- Routed Call Signaling)モデル を使用して、ゲートウェイが H. 323エンドポイント間のコールシグナリングメッセージ をルーティングできる。  This option allows the gateway to route call signaling messages between H.323 endpoints using the GKRCS (Gatekeeper-Routed Call Signaling) model.
もう 1つの方法として、エンドポイント同士が互いに直接 H. 225コールシグナリング メッセージを送信することもできる。  Alternatively, the endpoints can send H.225 call signaling messages directly to each other.
[0010] D.多地点接続装置(MCU)  [0010] D. Multipoint connection device (MCU)
多地点接続装置 30は、 IPテレビ電話 l〜nと接続するために、 IPテレビ電話 l〜n のような手段 (転送手段 31,エンコード手段 32,デコード手段 33, IP電話コマンド手 段 34)を備えると共に、電話会議を行うために必要な多地点制御手段 35と、多地点 処理手段 36も備えている。多地点制御手段 35は、電話会議に参加する各 IPテレビ 電話と交渉 (handshake)し共通機能を決定し、マルチキャストのような会議リソースを 制御する。多地点処理手段 36は電話会議に参加する各 IPテレビ電話からの実際の オーディオやビデオのデータを受けて多重化などを行う。  The multipoint connection device 30 uses means (transfer means 31, encoding means 32, decoding means 33, IP telephone command means 34) such as IP video phones l to n to connect to the IP video phones l to n. In addition to the multi-point control means 35 and the multi-point processing means 36 necessary for conducting a telephone conference. The multipoint control means 35 negotiates (handshake) with each IP videophone participating in the conference call, determines a common function, and controls conference resources such as multicast. The multipoint processing means 36 receives actual audio and video data from each IP videophone participating in the telephone conference and performs multiplexing and the like.
[0011] E.マルチメディアコンテンツ  [0011] E. Multimedia content
各種メディアを組み合わせカゝら構成された映像の記述言語に関する従来技術とし て SMILや XTLという従来技術がある。また、映像の記述と各種メディアそのものが 一体となる MPEGという従来技術がある。これらについて以下に述べる。  There are conventional technologies such as SMIL and XTL as conventional technologies related to a video description language composed of various media in combination. There is also a conventional technology called MPEG, in which the description of video and various media themselves are integrated. These are described below.
[0012] 1. SMIL (Synchronized Multimedia Integration Language)  [0012] 1. SMIL (Synchronized Multimedia Integration Language)
SMIL (マルチメディアファイルを統合的に扱う言語)は動画、静止画、音声、音楽、 文字など様々な形式のデータの再生を制御して同期させる言語であり、 XMLで記述 されている。 1998年 4月に W3C標準として勧告された。どの位置に、どのタイミング で、どのくらいの時間表示するの力、といったことが制御できる。これを実装した製品 としては RealNetworks社の RealSystem G2がある。  SMIL (a language that handles multimedia files in an integrated manner) is a language that controls and synchronizes the playback of various types of data, such as moving images, still images, audio, music, and characters, and is described in XML. It was recommended in April 1998 as a W3C standard. You can control what position, when, and how long to display. A product that implements this is RealNetworks' RealSystem G2.
[0013] 2. XTL XTLは、 Microsoft (商標)、 DirectShow (商標)、 Editing Services (DES)を 用いたランタイム記述言語であり、 SMILと同様で XMLで記述されている。 DESはァ プリケーシヨンプログラミングインターフェース(API)である、 DirectShowのコア技術 を用いて各種のメディア形式をノンリニアのビデオ編集及び再生を可能にする。した がって、基本的に SMILと似ているといえる。 [0013] 2. XTL XTL is a runtime description language that uses Microsoft (trademark), DirectShow (trademark), and Editing Services (DES), and is described in XML, similar to SMIL. DES uses the core technology of DirectShow, an application programming interface (API), to enable nonlinear video editing and playback of various media formats. Therefore, it can be said that it is basically similar to SMIL.
[0014] 3. MPEG4 [0014] 3. MPEG4
MPEG4とは、オーディオとビデオだけでなぐ 3Dオブジェクト、スプライト、テキスト などのメディアを扱えるマルチメディア標準規格である。 MPEG4には、オーディオ' ビデオ以外に 3Dオブジェクトやアニメーションオブジェクトが含まれて!/、る。これによ り MPEG4の各シーンが構成される。  MPEG4 is a multimedia standard that can handle media such as 3D objects, sprites, texts, etc. that can only be used with audio and video. MPEG4 includes 3D objects and animation objects in addition to audio video! This constitutes each scene of MPEG4.
MPEGのシーンを記述するには XMT (Extensible MPEG- 4 Textual format)という フレームワークが用いられる。 XMTはすでに標準化されているコンテンツ記述言語 である SMILをベースにして!/、る。  To describe an MPEG scene, a framework called XMT (Extensible MPEG-4 Textual format) is used. XMT is based on SMIL, a content description language that has already been standardized!
[0015] 特許文献 1 :特開 2002— 140162号公報 Patent Document 1: JP-A-2002-140162
特許文献 2 :特開 2004— 48551号公報  Patent Document 2: JP 2004-48551 A
発明の開示  Disclosure of the invention
発明が解決しょうとする課題  Problems to be solved by the invention
[0016] Infonetics Researchは、世界の IP電話機器巿場は 2003年の最後 3力月で 31 %増えたと報告し、また 2007年に 3倍になると予測している。一方、国内市場として、 矢野経済研究所「IP電話巿場に関する調査結果」(2003年 6月)によると、 IP電話関 連機器の市場規模は 2002年末に 388億円、 2007年末には最大で 1, 280億円に なる見込みである。 [0016] Infonetics Research reports that the global IP phone equipment market has increased by 31% in the last three months of 2003 and is forecast to triple by 2007. On the other hand, according to the Yano Research Institute, “Survey Results on IP Telephone Fields” (June 2003), the market size of IP telephone-related equipment was 38.8 billion yen at the end of 2002 and the largest at the end of 2007. It is expected to be 128 billion yen.
[0017] 上記の巿場方向および予測は今後の IP電話市場の明るい見通しに見える力 同 研究所によれば、 IP電話市場の問題点としては、関連機器が従来のレガシシステム の単なる置き換えビジネスになっており、各種アプリケーションとの連動や、通信シス テムを含めたインテグレートなど総合提案をしなければ、価格競争に陥る。また、 ISP として当然求められるサービスとなった力 アクセスチャージの上昇や設備投資のわ りに利益の上がらないサービスであると同レポートにまとめられている。 [0018] まさに今は上記のような状況になっている。ユーザから見ても、ほとんどの場合、唯 一の IP電話利用動機はその格安さである。そうなつている大きな要因は IP電話が提 供して 、るサービスは、従来電話が提供して 、るものからほとんど発展して ヽな 、か らである。音声通話、テレビ電話通話、音声伝言といった現在の IP電話が提供する サービスは少なくとも 10年前からあって、 1973年に IPネットワーク(インターネット)が 開発される前力 あったものも少なくない。結局、 IP電話の新しい部分は常時接続広 帯域 IPネットワークと!/、うインフラのみであるの力 ユーザが感じるこの新し 、インフラ の効果は安価な通話料金のみである。そのためユーザにとって IP電話を導入するメ リットはこの安価な料金以外はほとんどな!/、。 [0017] The above-mentioned market directions and forecasts are likely to be bright prospects for the IP phone market in the future. According to the research institute, the problem with the IP phone market is that related equipment is merely a replacement business for conventional legacy systems. Without comprehensive proposals such as integration with various applications and integration including communication systems, price competition will occur. In addition, the report states that the service has become a service that was naturally required as an ISP, and that the service does not make a profit beyond the rise in access charges and capital investment. [0018] Right now, the situation is as described above. From the user's point of view, in most cases, the only motivation to use an IP phone is its cheapness. The major factor in this is that the services offered by IP phones are almost evolved from those offered by conventional phones. The services provided by current IP phones, such as voice calls, videophone calls, and voice messages, have been available for at least 10 years, and many of them had been active before the development of the IP network (Internet) in 1973. After all, the new part of IP telephony is the always-on broadband IP network and the power of only infrastructure! The new infrastructure that users perceive is only effective at low call rates. Therefore, the merit of introducing IP phones for users is very little other than this low price!
[0019] 産業界にとって、こういう状況は価格競争を意味しており、その結果、大手企業しか この IP電話事業を提供し続けることができない。 IP電話サービスはまさに利益の上が らないサービスとなっており、資金力の豊富な大手企業にとっては他の利益の上がる サービスのための集客手段として用いられて 、る。  [0019] For the industry, this situation means price competition, and as a result, only major companies can continue to provide this IP telephone business. IP telephony services are truly unprofitable services and are used by large, well-funded companies as a means of attracting customers for other profitable services.
この悪状況力 抜け出すにはまったく新しいサービスを生み出す必要がある。産業 界のニーズは、利益のあがるビジネスにするために、今までになかったまったく新しい To break out of this brute force, a completely new service must be created. The needs of the industry are driving new, more profitable businesses than ever before.
IP電話サービスを作り出し展開していくことである。これによりユーザは価格以外に IP 電話導入動機を見つけることができ、日本経済にも健全なビジネスモデルが誕生し 生活の様々部分に IP電話が浸透して 、くことが可能にする。 Creating and deploying IP telephone services. This will enable users to find the motivation for introducing IP phones in addition to the price, create a sound business model in the Japanese economy, and make it possible for IP phones to penetrate various parts of their lives.
[0020] e— Japan計画という IT政策を掲げられて力 IT産業界に大きな変化が生じ、プロ ードバンド (高速大容量)の普及力ものすご 、スピードで進んできた。政府は資金と努 力をかけ、産業界も競争し e— Japan計画が掲げられた 2000年に考えられない導入 しゃすさ及び価格で、今 ADSLなどのブロードバンドを広く普及させた。最新の総務 省の報告によると、 2004年 1月の ADSLの累積サービス提供数は 10, 612, 671に なっており、 1年前の 1. 7倍にも増加した。総務省がまとめた電気通信モニター調査 によると、 ADSLを使ってインターネットに接続する利用者が 2003年 9月に全体の 4 1. 7%に達し、固定電話回線を使って利用ごとに接続する「ダイヤルアップ」の 35. 0 %を上回った。光ファイバ一による接続も 4. 0%を占め、高速ネット接続の普及が裏 付けられた。 [0021] しかし年齢別に見ると、 60歳以上の利用者の 48. 8%が「ダイヤルアップ」での利用 となっている。地域別では、九州の利用者の 50. 7%が「ダイヤルアップ」であった。 地域や年齢層によっては、ブロードバンドを活用した動画像サービスなどを利用でき る環境になっていない利用者が多い。インターネットは普及しているが、若者ゃ都巿 部との情報格差は依然として残って 、る。ブロードバンド普及の恩恵を受けて 、るの は、ほとんどコンピュータを自由自在に扱える人だけなのが実情である。 [0020] The e-Japan plan enacted an IT policy. The IT industry has undergone major changes, and the spread of broadband (high-speed, large-capacity) has progressed at a rapid pace. The government has invested money and effort, and the industry has also competed, bringing widespread adoption of broadband, such as ADSL, now with the unthinkable introduction and price in 2000, when the e-Japan plan was enacted. According to the latest Ministry of Internal Affairs and Communications report, the cumulative number of services provided by ADSL in January 2004 was 10,612,671, a 1.7-fold increase from one year ago. According to a telecommunications monitor survey compiled by the Ministry of Internal Affairs and Communications, the number of users connecting to the Internet using ADSL reached 41.7% in September 2003, and the number of users connecting via the fixed-line telephone line was "35.0%" for dial-up. Optical fiber connection accounts for 4.0%, confirming the spread of high-speed network connection. However, by age, 48.8% of users aged 60 and over use “dial-up”. By region, 50.7% of Kyushu users were dial-up users. Depending on the region and age group, many users do not have an environment where they can use video services that utilize broadband. Although the Internet is widespread, the information gap between young people and metropolitan areas still remains. The reality is that almost everyone who can freely use computers can benefit from the spread of broadband.
[0022] ブロードバンドのさらなる普及にはキラーコンテンツが必要であるといわれてきてい る力 以上の状況があり、キラーコンテンツを運ぶキラーアプリケーションが必要不可 欠であると考えている。そのキラーアプリケーションとは、誰にでも日常的なもののよう に扱えるものでなければならない。このようなアプリケーションを研究開発するのはこ れからの産業界の役割であり、成長をもたらす鍵となる。  [0022] It is said that killer content is necessary for the further spread of broadband. There are more situations than this, and killer applications that carry killer content are considered indispensable. The killer application must be something that anyone can treat as everyday. Researching and developing such applications will be the role of the industry in the future and will be the key to growth.
[0023] 従来の IP電話技術では、 IP電話技術は従来電話の実時間通信に着目し、非実時 間対話型サービスをサポートする技術が大変不十分なため、 IPネットワークをほとん ど単なる従来電話網(PSTN)の代わりとして用いるのみである。したがって、従来電 話で提供してきたサービス (音声やテレビの 1対 1通話または会議通話のサービス、 伝言のサービスなど)しか提供できな 、。  [0023] In the conventional IP telephone technology, the IP telephone technology focuses on the real-time communication of the conventional telephone, and the technology for supporting the non-real-time interactive service is very insufficient. It is only used as a substitute for the network (PSTN). Therefore, it can provide only the services that were conventionally provided by telephone (such as one-to-one voice or television calls or conference calls, and message services).
[0024] また、従来マルチメディアコンテンツ技術はクライアント側の複雑な処理のため、マ ルチメディアコンテンツ技術を用いたサービスは高度なクライアントを必要としており、 また利用者に、ある程度高度な知識を必要としているという課題がある。このことによ り、従来マルチメディアコンテンツ技術は幅広 ヽ視聴者にコンテンツを提供することが できない。  [0024] In addition, since the conventional multimedia content technology has complicated processing on the client side, services using the multimedia content technology require advanced clients, and require users to have some advanced knowledge. There is a problem that there is. As a result, conventional multimedia content technology cannot provide content to a wide audience.
[0025] 本発明は、今までの累積技術をベースにし、従来電話が提供できな力つた非実時 間映像による双方向サービスを実現できる IPテレビ電話サービスシステムを提供する ことを目的とする。  [0025] An object of the present invention is to provide an IP videophone service system capable of realizing a bidirectional service based on non-real-time video, which has not been able to be provided by conventional telephones, based on the conventional accumulation technology.
課題を解決するための手段  Means for solving the problem
[0026] 前記課題を解決するための本発明の第 1の構成は、 IPテレビ電話サービスが提供 されている IPネットワークに接続されている配信サーバは、予め設定された配信手順 に従い、 IPテレビ電話サービス利用者の応答により配信する動画クリップ、静止画、 文字、音声などの様々なメディア及びその配信方法を決定し、これらのメディアをスト リーミング映像として IPテレビ電話に配信する手段を備えていることを特徴とする。 この第 1の構成により、 IPテレビ電話のユーザは、従来の電話操作及び電話通話 で、様々な情報を対話的かつ視聴覚的に取得することができる。 [0026] In a first configuration of the present invention for solving the above-mentioned problem, a distribution server connected to an IP network provided with an IP videophone service performs an IP videophone call according to a preset distribution procedure. Video clips, still images, It is characterized by having means for determining various media such as characters and voices and the distribution method thereof, and distributing these media as streaming video to IP videophones. According to the first configuration, the user of the IP videophone can obtain various information interactively and audiovisually by the conventional telephone operation and telephone call.
[0027] 本発明の第 2の構成は、前記配信サーバは、記録されているメディアのみ、または 記録されているメディアと生中継のメディアとの組み合わせを配信する手段を備えて いることを特徴とする。  [0027] A second configuration of the present invention is characterized in that the distribution server includes means for distributing only recorded media or a combination of recorded media and live broadcast media. I do.
この第 2の構成により、必要に応じて、記録されているメディアのみならず、生中継 のメディアとの組み合わせを配信することができる。  With this second configuration, it is possible to distribute not only the recorded media but also a combination with a live broadcast media as needed.
[0028] 本発明の第 3の構成は、前記配信手順は、前記様々なメディアの配信時刻、配信 時間、 IPテレビ電話画面上の位置、表示方法という振る舞いを記述したものであるこ とを特徴とする。 [0028] A third configuration of the present invention is characterized in that the distribution procedure describes behaviors such as a distribution time, a distribution time, a position on an IP videophone screen, and a display method of the various media. I do.
この第 3の構成により、どのタイミングでどれくらいの時間、あるメディアを配信するか 、また、次の手順で、 IPテレビ電話画面上のどの位置に、どのような表示の仕方でメ ディアを表示するかを規定することができる。  With this third configuration, when and for how long a certain media is to be distributed, and in the following procedure, the media is displayed in which position on the IP videophone screen and in what manner of display Can be defined.
この場合、配信手順は、ユーザのどのような応答に対しても、その応答を受けた時 刻をもとに、様々なメディアの振る舞いを決定するように記述することもできる。  In this case, the distribution procedure can be described to determine the behavior of various media in response to any response from the user based on the time at which the response was received.
[0029] 本発明の第 4の構成は、前記配信サーバは、 IPテレビ電話サービス利用者の IPテ レビ電話番号や言語設定などの利用者環境に合わせて、前記配信手順に従い、配 信する映像の選択及び配信方法を調整する手段を備えていることを特徴とする。 この第 4の構成により、 IPテレビ電話サービス利用者が使用する言語に対応した言 語での表示を選択し、また、初心者か慣れている人か等により配信方法を調整するこ とがでさる。 [0029] In a fourth configuration of the present invention, the distribution server according to the distribution procedure according to the user environment such as an IP television telephone number and a language setting of an IP video telephone service user, distributes the video to be distributed. And means for adjusting the selection and distribution method. With this fourth configuration, it is possible to select the display in a language corresponding to the language used by the IP videophone service user, and to adjust the distribution method depending on whether the user is a beginner or an experienced user. .
[0030] 本発明はまた、次の構成を採ることができる。  [0030] The present invention can also have the following configurations.
(1)第 1の構成において、多量のアクセスに備えるために複数の配信サーバを備える 場合、 IPテレビ電話端末は配信サーバに接続してくるとき、過負荷にならないように 自動的に接続を受付ける配信サーバを決める。  (1) In the first configuration, when multiple distribution servers are provided to prepare for a large amount of access, the IP videophone terminal automatically accepts connections when connecting to the distribution server so as not to be overloaded. Decide the distribution server.
(2)第 1〜第 3の構成において、ユーザは IPテレビ電話端末力も普通に話したりする ことで、配信サーバがそのユーザのオーディオ及びビデオを受信し、 自動的に配信 手順の記述 (配信手順書またはシナリオとも ヽぅ)及びそれぞれのメディアを作成する (2) In the first to third configurations, the user also speaks the IP video phone terminal power normally In this way, the distribution server receives the user's audio and video, and automatically creates a description of the distribution procedure (also with the distribution procedure manual or scenario ヽ ぅ) and the respective media.
[0031] 本発明の第 5の構成は、前記配信サーバは、 IPテレビ電話サービス利用者の指示 に従 、シナリオを自動的に作成し、そして IPテレビ電話サービス利用者力 音声や ビデオを受信し、それぞれのメディアを自動的に作成する手段を備えて!/、ることを特 徴とする。 [0031] In a fifth configuration of the present invention, the distribution server automatically creates a scenario in accordance with an instruction of the IP videophone service user, and receives the voice or video of the IP videophone service user. With the means to automatically create each media! /, Is characterized.
この第 5の構成により、 IPテレビ電話サービス利用者の指示に従い、受信した音声 やビデオを用いてシナリオ及び各種メディアを自動的に作成することができる。  According to the fifth configuration, it is possible to automatically create a scenario and various media using the received voice and video according to the instruction of the IP videophone service user.
[0032] 本発明の第 6の構成は、 IPテレビ電話サービスを利用するための IPテレビ電話端 末と、その IPテレビ電話端末に映像を配信する配信サーバと、配信される動画クリツ プ、静止画、文字、音声等の各種メディア及びそのキャッシュを格納するファイルサ ーバと、 IPテレビ電話番号解決や帯域管理を行うゲートキーパとで構成される IPネッ トワークにおいて、前記配信サーバは、前記 IPネットワーク上にデータを転送する転 送手段と、 IPテレビ電話端末のデータとして符号化されたデータをオーディオデータ やビデオデータなどに復号するデコード手段と、オーディオデータやビデオデータな どを IPテレビ電話端末のデータとして符号ィ匕するエンコード手段と、 IPテレビ電話端 末とのやり取りを行うために必要なコマンドを出す IP電話コマンド手段と、前記フアイ ルサーバに保管されている各種メディアを入出力する媒体アクセス手段とを有するも のである。 [0032] A sixth configuration of the present invention provides an IP videophone terminal for using an IP videophone service, a distribution server that distributes video to the IP videophone terminal, a video clip to be distributed, and a still image. In an IP network composed of a file server for storing various media such as pictures, characters, voices and the like and a cache thereof, and a gatekeeper for performing IP video phone number resolution and bandwidth management, the distribution server is an IP network. Transfer means for transferring data to the IP video telephone terminal, decoding means for decoding data encoded as data of the IP video telephone terminal into audio data, video data, and the like, and transmitting audio data and video data to the IP video telephone terminal. Encoding means that encodes data as data, and IP telephones that issue commands necessary to exchange data with IP videophone terminals A command means is also in the range and a medium access means for inputting and outputting various media stored in the Huai Rusaba.
この第 6の構成により、 IPテレビ電話のユーザは、従来の電話操作及び電話通話 で、様々な情報を対話的かつ視聴覚的に取得することができる。  According to the sixth configuration, the user of the IP videophone can obtain various information interactively and audiovisually by the conventional telephone operation and telephone call.
[0033] 本発明の第 7の構成は、前記ファイルサーバは、シナリオを保持するシナリオデー タベースを備え、前記配信サーバは、さらに、前記シナリオを処理し予め設定された 配信手順に従って実施するシナリオ処理手段を有し、前記配信手順は、前記様々な メディアの配信時刻、配信時間、 IPテレビ電話画面上の位置、表示方法という振る舞 いを記述したものである。  [0033] In a seventh configuration of the present invention, the file server includes a scenario database that holds a scenario, and the distribution server further processes the scenario and executes the scenario according to a preset distribution procedure. Means, and the distribution procedure describes behaviors such as a distribution time, a distribution time, a position on an IP videophone screen, and a display method of the various media.
この第 7の構成にぉ ヽては、 IP電話サービス利用者の IP電話番号や言語設定など の利用者環境に合わせて、前記配信手順に従!ヽ配信する映像の選択及び配信方 法を調整することができる。 In the seventh configuration, the IP telephone number and language setting of the IP telephone service user According to the user's environment, it is possible to adjust the selection of the video to be distributed and the distribution method according to the distribution procedure described above.
[0034] 本発明は、さらに、以下の構成とすることができる。  [0034] The present invention can further have the following configurations.
(1)第 6の構成において、配信サーバに複数の IP電話の映像を一つの映像にする 多地点制御手段、多地点処理手段を設けることにより、ファイルサーバに記録されて V、るメディアのみまたは記録されて 、るメディアと生中継のメディアとの組み合わせ配 信をすることができる。  (1) In the sixth configuration, the distribution server is provided with multipoint control means and multipoint processing means for converting a plurality of IP phone images into one image, so that only the media recorded on the file server or Once recorded, it is possible to distribute the combined media and live broadcast media.
[0035] (2)第 7の構成において、ファイルサーバは、シナリオを保持するシナリオデータべ一 スを備え、配信サーバはさらに、記憶装置に保管されている各種メディアカゝら構成さ れる映像を記憶装置に保管し、必要になったら読み出すコンテンツキャッシュ手段を 備え、また配信手順として様々なメディアの配信時刻、配信時間、 IPテレビ電話画面 上の位置、表示方法という振る舞いを記述することにより、どのタイミングでどれくらい の時間、あるメディアを配信するか、また、次の手順で、 IPテレビ電話画面上のどの 位置に、どのような表示の仕方でメディアを表示するかを規定することができる。また 、配信手順は、ユーザのどのような応答に対しても、その応答を受けた時刻をもとに、 様々なメディアの振る舞 、を決定するように記述することもできる。  [0035] (2) In the seventh configuration, the file server includes a scenario database that holds a scenario, and the distribution server further stores a video composed of various media cards stored in the storage device. It is equipped with a content caching means that is stored in a storage device and read out when necessary, and by describing the distribution time, distribution time, position on the IP videophone screen, and display method of various media as distribution procedures, It is possible to specify how long a certain media is to be delivered at the timing, and in the following procedure, at which position on the IP videophone screen and in what display manner the media is displayed. In addition, the distribution procedure can be described so as to determine the behavior of various media based on the time at which the response is received for any response from the user.
[0036] (3)第 6の構成にカ卩え、ファイルサーバは、シナリオを保持するシナリオデータベース と、動画クリップ、静止画、文字、音声などの様々なメディアを保持するメディアデータ ベースと、記憶装置に保管されている各種メディア力 配信サーバの処理によりでき た映像を保持するキャッシュデータベースとを備え、配信サーバは、ユーザ応答処理 手段と、シナリオを処理しそのとおりに実施するシナリオ処理手段を有し、配信手順と して、ユーザのどのような応答に対しても、その応答を受けた時刻をもとに前記様々 なメディアの振る舞いを決定することにより、ユーザにとって、あた力も実時間的に対 話して 、るようなサービスを提供することができる。  (3) According to the sixth configuration, the file server includes a scenario database that holds scenarios, a media database that holds various media such as video clips, still images, characters, and audio, and storage. Various types of media stored in the device A cache database that holds images created by the distribution server is provided.The distribution server has a user response processing unit and a scenario processing unit that processes a scenario and executes the scenario as it is. In addition, as a distribution procedure, for any response from the user, the behavior of the various media is determined based on the time at which the response was received. It is possible to provide services such as
[0037] (4)第 7の構成に加え、ゲートキーパは、アドレス変換手段と、サーバ負荷管理手段 とを有し、配信サーバは、配信サーバの CPUやメモリの使用状況を時々刻々監視す るサーバ負荷監視手段を有することで、多量のアクセスに備えるために複数の配信 サーノくからなるサービスにおいて、 IPテレビ電話が配信サーバに接続してくるとき、 過負荷にならな 、ように自動的に接続を受付ける配信サーバを決めることができる。 発明の効果 [0037] (4) In addition to the seventh configuration, the gatekeeper has an address conversion unit and a server load management unit, and the distribution server monitors the usage status of the CPU and the memory of the distribution server from time to time. By providing load monitoring means, in a service consisting of multiple distribution networks to prepare for a large amount of access, when an IP videophone connects to a distribution server, A distribution server that automatically accepts connections can be determined so as not to be overloaded. The invention's effect
[0038] 本発明によれば、 IPテレビ電話サービスが提供されて 、る IPネットワークに接続さ れている配信サーバは、予め設定された配信手順に従い、 IPテレビ電話サービス利 用者の応答により配信する動画クリップ、静止画、文字、音声などの様々なメディア 及びその配信方法を決定し、これらのメディアをストリーミング映像として IPテレビ電 話に配信する手段を備えて!/ヽるので、 IPテレビ電話利用者は従来の電話通話及び 電話操作で視聴覚的に豊富な情報コンテンツとやり取りすることができる。  According to the present invention, when the IP videophone service is provided, the distribution server connected to the IP network distributes the IP videophone service in response to the IP videophone service user according to a preset distribution procedure. Media, such as video clips, still images, text, audio, etc., and methods for distributing them, and a means for distributing these media as streaming video to IP TV phones! Users can interact with audio-visually rich information contents through conventional telephone calls and telephone operations.
また、非実時間通信に適している IPテレビ電話技術を確立することにより、今までな 力つた通話外サービスを可能することで、通話のサービスに限られてしまうという課題 を解決できる。  In addition, by establishing IP videophone technology that is suitable for non-real-time communication, it is possible to solve the problem of being limited to call services by enabling services outside of calls that have been used up to now.
図面の簡単な説明  Brief Description of Drawings
[0039] [図 1]本発明の実施の形態を示すシステム構成図である。  FIG. 1 is a system configuration diagram showing an embodiment of the present invention.
[図 2]本発明の実施の形態を示すブロック図である。  FIG. 2 is a block diagram showing an embodiment of the present invention.
[図 3]従来技術のシステム構成図である。  FIG. 3 is a system configuration diagram of a conventional technology.
[図 4]従来技術のブロック図である。  FIG. 4 is a block diagram of a conventional technique.
[図 5]本発明の実施例 1の構成を示すシステム構成図である。  FIG. 5 is a system configuration diagram showing a configuration of Embodiment 1 of the present invention.
[図 6]実施例 1における配信サーバの構成を示すブロック図である。  FIG. 6 is a block diagram illustrating a configuration of a distribution server according to the first embodiment.
[図 7]実施例 1における配信サーバの一部の構成を示すブロック図である。  FIG. 7 is a block diagram showing a configuration of a part of a distribution server according to the first embodiment.
[図 8]実施例 1におけるインタラクションエンジンの構成を示すブロック図である。  FIG. 8 is a block diagram showing a configuration of an interaction engine in Embodiment 1.
[図 9]実施例 1におけるメディアエンジンの構成を示すブロック図である。  FIG. 9 is a block diagram showing a configuration of a media engine in Embodiment 1.
[図 10]実施例 1における対話シナリオの作成状態を示す説明図である。  FIG. 10 is an explanatory diagram showing a creation state of a dialog scenario in the first embodiment.
[図 11]実施例 1におけるコンテンツの構成例を示す説明図である。  FIG. 11 is an explanatory diagram showing a configuration example of a content according to the first embodiment.
[図 12a]図 11のコンテンツ構成をシナリオにしたリストである。  FIG. 12a is a list in which the content configuration of FIG. 11 is used as a scenario.
[図 12b]図 11のコンテンツ構成をシナリオにしたリストである。  [FIG. 12b] A list in which the content configuration of FIG. 11 is used as a scenario.
[図 13]図 12に示すシナリオのメディア構成を示す系統図である。  FIG. 13 is a system diagram showing a media configuration of the scenario shown in FIG. 12.
[図 14]メディアシナリオの記述内容を示すリストである。  FIG. 14 is a list showing description contents of a media scenario.
[図 15]実施例 1における基本動作の説明図である。 [図 16]図 15で示す動作の時系列フロー図である。 FIG. 15 is an explanatory diagram of a basic operation in Embodiment 1. FIG. 16 is a time-series flow chart of the operation shown in FIG.
[図 17]記録されているメディアと生中継のメディアを組み合わせて用いるシナリオの 仕組みを示す説明図である。  FIG. 17 is an explanatory diagram showing a mechanism of a scenario using a combination of recorded media and live broadcast media.
[図 18]図 17のシナリオを実現するための処理の流れを示す説明図である。  FIG. 18 is an explanatory diagram showing a processing flow for realizing the scenario of FIG. 17.
[図 19]利用者の IPテレビ電話に表示される画面のイメージである。  FIG. 19 is an image of a screen displayed on a user's IP videophone.
圆 20]実施例 2における利用者の環境に合わせた配信を指示するシナリオの説明図 である。 [20] Fig. 20 is an explanatory diagram of a scenario in which delivery is instructed according to the environment of the user in the second embodiment.
圆 21]実施例 3における店員と顧客の対話的かつ実時間のやり取りを示す説明図で ある。 [21] FIG. 21 is an explanatory diagram showing interactive and real-time exchanges between a clerk and a customer in the third embodiment.
[図 22]実施例 3のやりとりの流れを示すタイムチャートである。  FIG. 22 is a time chart showing a flow of exchange in Example 3.
[図 23]実施例 3におけるやりとりの画面のイメージである。 FIG. 23 is an image of an exchange screen in Embodiment 3.
[図 24]実施例 5における IPテレビ電話負荷分散サービスにおける流れを示すブロック 図である。  FIG. 24 is a block diagram showing a flow in an IP videophone load distribution service in Embodiment 5.
[図 25]実施例 6における IPテレビ電話ユーザ参加型サービスの画面のイメージである 符号の説明  FIG. 25 is an image of a screen of an IP videophone user participation type service according to the sixth embodiment.
1〜 n IPテレビ電話  1 to n IP videophone
10 IPネットワーク  10 IP network
11 映像入力手段  11 Video input means
12 エンコード手段  12 Encoding means
13 転送手段  13 Transfer means
14 IP電話コマンド手段  14 IP phone command means
15 デコード手段  15 Decoding means
16 映像出力手段  16 Video output means
20 ゲートキーパ  20 Gatekeeper
21 アドレス変換手段  21 Address translation means
22 受付制御手段  22 Reception control means
23 帯域制御手段 ゾーン制御手段 呼認証手段 23 Bandwidth control means Zone control means Call authentication means
呼管理手段  Call management means
帯域管理手段  Bandwidth management
呼制御シグナリング手段 配信サーバ  Call control signaling means distribution server
転送手段  Transfer means
デコード手段  Decoding means
エンコード手段  Encoding means
ユーザ応答処理手段 User response processing means
IP電話コマンド手段 多地点処理手段 多地点制御手段 シナリオ処理手段 媒体アクセス手段 ファイルサーバ IP telephone command means Multipoint processing means Multipoint control means Scenario processing means Medium access means File server
シナリオ DB  Scenario DB
メディア DB  Media DB
キャッシュ DB  Cache DB
コンテンツキャッシュ手段 サーバ負荷監視手段 Content caching means Server load monitoring means
HTTPZFTPコマンド手段 ユーザ認証手段 アクセス転送手段 サーバ負荷管理手段 負荷状況 DB HTTPZFTP command means User authentication means Access transfer means Server load management means Load status DB
ネットワーク負荷監視手段Network load monitoring means
- オーディオコーデック 102 ビデ才コーデック -Audio codec 102 bidet codec
103 オーディオチャンネル 103 audio channels
104 ビデオチャンネル 104 video channels
105 オーディオ入出力デバイス 105 audio input / output device
106 ビデオ入出力デバイス106 Video input / output device
107 メディアエンジン 107 Media Engine
108 インタラクションエンジン 108 Interaction Engine
109 オーディオバッファ109 audio buffer
110 ビデ才バッファ 110 bidet buffer
111 H. 323エンド'ポイント 111 H.323 end point
112 112
113 シナリオ DB  113 Scenario DB
114 セッション情報 DB  114 Session Information DB
115 メディア DB  115 Media DB
116 クリップ DB  116 Clip DB
117 キャッシュ  117 cache
120 インタラクションエンジンコフ 120 Interaction Engine Coff
121 ローカルメディアアクセス121 Local Media Access
122 リモートメディアアクセス122 Remote Media Access
123 备認識エノン :123 备 Recognition Enon : N
124 DTMF  124 DTMF
125 立古  125 Riko
曰尸  Say
126 ビデオ  126 videos
131 メディアインタプリタ 131 Media Interpreter
132 ネイティブメディアスクリプト132 Native Media Script
133 XTL 133 XTL
134 SMIL  134 SMIL
135 MPEG— 4 136 映像プロセッサ 135 MPEG-4 136 Video Processor
発明を実施するための最良の形態  BEST MODE FOR CARRYING OUT THE INVENTION
[0041] 以下、本発明の実施の形態を、図 1に示すシステム構成図および図 2に示すブロッ ク図を用いて説明する。  Hereinafter, embodiments of the present invention will be described with reference to a system configuration diagram shown in FIG. 1 and a block diagram shown in FIG.
本発明の実施の形態は、 IPテレビ電話サービスを利用するための IPテレビ電話 1 〜nと、その IPテレビ電話端末に映像を配信する配信サーバ 50と、配信される動画ク リップ、静止画、文字、音声といった各種メディア及びそのキャッシュを格納するフアイ ルサーバ 60と、 IPテレビ電話番号解決や帯域管理を行うゲートキーパ 20とで構成さ れる IPネットワーク 10からなる。  The embodiment of the present invention includes an IP videophone 1 to n for using the IP videophone service, a distribution server 50 for distributing video to the IP videophone terminal, a video clip to be distributed, a still image, It comprises an IP network 10 composed of a file server 60 for storing various media such as characters and voices and their caches, and a gatekeeper 20 for IP video phone number resolution and bandwidth management.
[0042] IPテレビ電話 l〜nは、 CCDカメラなどの撮像手段力 の映像信号を入力する映像 入力手段 11と、映像信号を符号ィ匕するエンコード手段 12と、音声データと共に映像 信号を IPネットワーク 10に転送する転送手段 13と、 IP電話コマンド手段 14と、受信 した映像信号を復号ィ匕するデコード手段 15と、映像信号を液晶ディスプレイ等に出 力する映像出力手段 16とを有している。  [0042] The IP videophones l to n include a video input unit 11 for inputting a video signal of an imaging unit such as a CCD camera, an encoding unit 12 for encoding a video signal, and a video signal together with audio data. A transfer means 13 for transferring the video signal to an IP telephone command means 14, a decoding means 15 for decoding a received video signal, and a video output means 16 for outputting a video signal to a liquid crystal display or the like. .
[0043] 配信サーバ 50は、 IPネットワーク上にデータを転送する転送手段 51と、 IPテレビ電 話 l〜nのデータとして符号ィ匕されたデータをオーディオデータやビデオデータなど に復号するデコード手段 52と、オーディオデータやビデオデータなどを IPテレビ電 話のデータとして符号ィ匕するエンコード手段 53と、 IPテレビ電話ボタン操作やユーザ の音声などを受信しシナリオの通りに処理するユーザ応答処理手段 54と、 IPテレビ 電話とのやり取りを行うために必要なコマンドを出す IP電話コマンド手段 55と、電話 会議に参加する各 IPテレビ電話と交渉 (handshake)し共通機能を決定し、マルチキ ャストのような会議リソースを制御する多地点処理手段 56と、電話会議に参加する各 IPテレビ電話力 の実際のオーディオやビデオのデータを受けて多重化などを行う 多地点制御手段 57と、シナリオを処理しそのとおりに実施するシナリオ処理手段 58 と、ファイルサーバ 60の各データベースに保管されて 、る各種メディアを入出力する 媒体アクセス手段 59と、ファイルサーバ 60に保管されて 、る各種メディア力も構成さ れる映像をデータベースに保管し、必要になったら読み出すコンテンツキャッシュ手 段 71と、配信サーバ 50の CPUやメモリの使用状況を時々刻々監視するサーバ負荷 監視手段 72と、媒体アクセス手段 59で出力された各種メディアを IPネットワーク 10に 転送する際のコマンドを生成する HTTPZFTPコマンド手段 73と、接続してくる IPテ レビ電話のユーザを認証するユーザ認証手段 74と、この配信サーバ 50に接続して いる IPテレビ電話を別の配信サーバに転送させるアクセス転送手段 75とを有する。 The distribution server 50 includes a transfer unit 51 for transferring data on the IP network, and a decoding unit 52 for decoding data encoded as data of the IP television phones l to n into audio data, video data, and the like. Encoding means 53 for encoding audio data, video data, and the like as data of an IP videophone, and user response processing means 54 for receiving an IP videophone button operation, a user's voice, and the like, and processing them according to a scenario. IP phone command means 55 for issuing commands necessary for communication with the IP videophone, and negotiating (handshake) with each IP videophone participating in the teleconference, determining common functions, and conducting conferences such as multicast It receives multi-point processing means 56 for controlling resources and receives actual audio and video data of each IP video telephone participating in the conference call. Multi-point control means 57 for processing, for example, scenario processing means 58 for processing and executing the scenario as it is, medium access means 59 for inputting and outputting various media stored in each database of the file server 60, Content caching means 71, which stores the various media powers stored in the file server 60 in a database and reads it out when necessary, and a server that monitors the usage status of the CPU and memory of the distribution server 50 from time to time load Monitoring means 72, HTTPZFTP command means 73 for generating commands for transferring various media output from the medium access means 59 to the IP network 10, and user authentication means for authenticating the user of the connected IP television telephone. 74 and access transfer means 75 for transferring the IP videophone connected to the distribution server 50 to another distribution server.
[0044] ファイルサーバ 60は、シナリオを保持するシナリオ DB (データベース) 61と、動画ク リップ、静止画、文字、音声などの様々なメディアを保持するメディア DB62と、記憶 装置に保管されている各種メディア力も配信サーバの処理によりできた映像を保持 するキャッシュ DB63とを備えて!/、る。  [0044] The file server 60 includes a scenario DB (database) 61 for storing scenarios, a media DB62 for storing various media such as video clips, still images, characters, and audio, and various types of data stored in a storage device. The media is also equipped with a cache DB63 that holds the images created by the processing of the distribution server!
[0045] ゲートキーパ 20は、 IPアドレスと電話番号の間に変換を行うアドレス変換手段 21と 、接続してくる IPテレビ電話の接続を受付ける受付制御手段 22と、 IPテレビ電話の 帯域幅要求を管理する帯域制御手段 23と、 IPテレビ電話がゲートキーパに接続する ための処理を行うゾーン制御手段 24と、アクセスの制限やポリシーアクセス制限する ために認証を行う呼認証手段 25と、 IPテレビ電話の接続状況を管理する呼管理手 段 26と、要求される帯域が確保できないときのアドミッション拒否を行う帯域管理手段 27と、接続してくる IPテレビ電話との接続を確立ためのシグナリングを制御する呼制 御シグナリング手段 28と、各配信サーバの負荷状況の情報を管理するサーバ負荷 管理手段 81と、各配信サーバの CPU使用率やメモリ使用率を保持する負荷状況 D B82と、各配信サーバの負荷状況を時々刻々監視するネットワーク負荷監視手段 83 とを有する。  [0045] The gatekeeper 20 manages the address conversion means 21 for converting between an IP address and a telephone number, the reception control means 22 for accepting the connection of the incoming IP videophone, and the bandwidth request of the IP videophone. Bandwidth control means 23, which performs processing for connecting the IP videophone to the gatekeeper 24, call authentication means 25 which performs authentication to restrict access and policy access, and connection between IP videophones A call management means 26 for managing the situation, a bandwidth management means 27 for rejecting admission when the required bandwidth cannot be secured, and a call for controlling signaling for establishing a connection with an incoming IP videophone. Control signaling means 28, server load management means 81 for managing load status information of each distribution server, and CPU and memory usage rates of each distribution server Having a load situation D B82, a network load monitoring means 83 for constantly monitoring the load status of each distribution server.
以下、本発明の実施例について説明する。  Examples of the present invention will be described below.
実施例 1  Example 1
[0046] 本発明の実施例 1は、 IPテレビ電話サービスに関するものであり、図 2を参照して説 明する。  Embodiment 1 of the present invention relates to an IP videophone service, and will be described with reference to FIG.
本実施例では、 IPテレビ電話サービスを利用するための IPテレビ電話 l〜nと、そ の IPテレビ電話 l〜nに映像を配信する配信サーバ 50と、配信される動画クリップ、 静止画、文字、音声等の各種メディア及びそのキャッシュを格納するファイルサーバ 60と、 IPテレビ電話番号解決や帯域管理を行うゲートキーパ 20とで構成される IPネ ットワーク 10において、配信サーバ 50は、 IPネットワーク 10上にデータを転送する転 送手段 51と、 IPテレビ電話 l〜nのデータとして符号化されたデータをオーディオデ ータゃビデオデータなどに復号するデコード手段 52と、オーディオデータやビデオ データなどを IPテレビ電話 l〜nのデータとして符号化するエンコード手段 53と、 IP テレビ電話 l〜nとのやり取りを行うために必要なコマンドを出す IP電話コマンド手段 55と、ファイルサーバ 60に保管されている各種メディアを入出力する媒体アクセス手 段 59とを有する。 In the present embodiment, the IP videophones l to n for using the IP videophone service, the distribution server 50 for distributing video to the IP videophones l to n, the video clips to be distributed, still images, and text , A file server 60 for storing various media such as audio data and their caches, and a gatekeeper 20 for IP telephone number resolution and bandwidth management. Transfer data Transmitting means 51, decoding means 52 for decoding data encoded as data of the IP videophones l to n into audio data / video data, and the like, and transmitting audio data and video data to the IP videophones l to n. Encoding means 53 for encoding as data, IP phone command means 55 for issuing commands necessary for exchange with IP videophones l to n, and medium for inputting and outputting various media stored in file server 60 It has access means 59.
[0047] 転送手段 51は、 TCP (Transmission Control Protocol)および UDP (User  [0047] The transfer means 51 includes TCP (Transmission Control Protocol) and UDP (User
Datagram Protocol)といったプロトコルを用いて、 IPネットワーク 10上にデータを転送 する。転送手段 51に渡されるデータは RTP (ReaH:ime Transport Protocol)や HTT P (Hyper Text Transfer Protocol)技術を用いて渡されることができる。  Data is transferred over the IP network 10 using a protocol such as Datagram Protocol. The data passed to the transfer means 51 can be passed using RTP (ReaH: ime Transport Protocol) or HTTP (Hyper Text Transfer Protocol) technology.
IP電話コマンド手段 55は、 H. 323や SIP (Session Initiation Protocol)技術を用い ることができる。 H. 323は、インターネット電話を実現する VoIP (Voice over IP)のプ ロトコルとしても採用されているほか、多地点間で、テレビ会議などを行うなど、リアル タイムなマルチメディア 'データを統合的に扱うことができ、またマルチキャスト通信も 可能となっている。動画像の圧縮技術としては、 H. 261 (64kbps〜2Mbps)または MPEG— 4の基礎となった規格である H. 263 (64kbps以下)が、音声圧縮技術とし ては、 G. 711、 G. 722、 G. 723. 1など力使用される。  The IP telephone command means 55 can use H.323 or SIP (Session Initiation Protocol) technology. H.323 has been adopted as a protocol for Voice over IP (VoIP) for realizing Internet telephony, as well as integrating real-time multimedia data such as video conferencing between multiple locations. It can handle and multicast communication is also possible. H.261 (64 kbps to 2 Mbps) or H.263 (64 kbps or less), which is the standard based on MPEG-4, is used as a video compression technology, and G.711 and G.711 are used as audio compression technologies. 722, G.723.1, etc. Power used.
[0048] この実施例 1の構成により、 IPテレビ電話のユーザは、従来の電話操作及び電話 通話で、様々な情報を対話的かつ視聴覚的に取得することができる。 [0048] With the configuration of the first embodiment, the user of the IP videophone can obtain various information interactively and audiovisually by the conventional telephone operation and telephone call.
本実施例 1の構成例を図 5に示す。この図 5を参照しながら説明する。  FIG. 5 shows a configuration example of the first embodiment. This will be described with reference to FIG.
配信サーバ 50は配信サーバ 50— 1、配信サーバ 50— 2、配信サーバ 50— 3から なる。これらの配信サーバはファイルサーバ 60を共有している。 IPテレビ電話 l〜n は、 IPテレビ電話 1、 IPテレビ電話 2、 IPテレビ電話 3からなる。  The distribution server 50 includes a distribution server 50-1, a distribution server 50-2, and a distribution server 50-3. These distribution servers share the file server 60. IP videophones l to n consist of IP videophone 1, IP videophone 2, and IP videophone 3.
配信サーバ 50の実施例を図 6〜9を参照しながら説明する。図 6は、配信サーバ 5 0の全体を説明するための図である。図 7は、配信サーバ 50のインタラクションェンジ ン及びメディアエンジンを説明するための図である。図 8は、インタラクションエンジン を説明するための図である。図 9は、メディアエンジンを説明するための図である。  An embodiment of the distribution server 50 will be described with reference to FIGS. FIG. 6 is a diagram for explaining the entire distribution server 50. FIG. 7 is a diagram for explaining the interaction engine and the media engine of the distribution server 50. FIG. 8 is a diagram for explaining the interaction engine. FIG. 9 is a diagram for explaining a media engine.
[0049] まず図 6を用いて配信サーバ 50の全体につ 、て説明する。 デコード手段 52、エンコード手段 53は、ビデオとオーディオのそれぞれのデータの ためにオーディオコーデック 101,ビデオコーデック 102、オーディオチャンネル 103 ,ビデオチャンネル 104、オーディオ入出力デバイス 105,ビデオ入出力デバイス 10 6として実現されている。 First, the entire distribution server 50 will be described with reference to FIG. Decoding means 52 and encoding means 53 are realized as audio codec 101, video codec 102, audio channel 103, video channel 104, audio input / output device 105, and video input / output device 106 for video and audio data, respectively. ing.
シナリオ処理手段 58、ユーザ応答処理手段 54はメディアエンジン 107とインタラタ シヨンエンジン 108として実現されている。オーディオ入出力デバイス 105は、オーデ ィォバッファ 109から、ビデオ入出力デバイス 106はビデオバッファ 110から、 IPテレ ビ電話 l〜nに配信するオーディオ 'ビデオのそれぞれのデータを取得する。  The scenario processing means 58 and the user response processing means 54 are realized as a media engine 107 and an interaction engine 108. The audio input / output device 105 acquires data from the audio buffer 109, and the video input / output device 106 acquires data from the video buffer 110, respectively, of audio ′ video to be delivered to the IP telephones l to n.
IP電話コマンド手段 55は、 H. 323エンドポイン I 1、H. 323接続 112で実現さ れている。  The IP telephone command means 55 is realized by the H.323 endpoint I 1 and the H.323 connection 112.
IPテレビ電話 l〜nから配信サーバ 50に着信が発生すると、 H. 323エンドポイント 111がその着信を受信し、 H. 323接続 112を確立すると共に、シナリオに基づいて インタラクションエンジン 108、メディアエンジン 107に映像(ビデオとオーディオ)を作 成させる。ビデオ入出力デバイス 106は作成されたビデオをビデオバッファ 110から 、オーディオ入出力デバイス 105は作成されたオーディオをオーディオバッファ 109 からそれぞれ取得し、 H. 323接続 112を通して IPテレビ電話 l〜nに配信する。  When an incoming call is generated from the IP videophones l to n to the distribution server 50, the H.323 endpoint 111 receives the incoming call, establishes an H.323 connection 112, and, based on the scenario, an interaction engine 108 and a media engine 107. Have the video (video and audio) created. The video input / output device 106 acquires the created video from the video buffer 110, and the audio input / output device 105 acquires the created audio from the audio buffer 109, and distributes them to the IP videophones l to n through the H.323 connection 112. .
[0050] 次に図 7を用いて、配信サーノ 50のインタラクションエンジン 108及びメディアェン ジン 107について説明する。 Next, the interaction engine 108 and the media engine 107 of the distribution server 50 will be described with reference to FIG.
インタラクションエンジン 108は、シナリオ DB113をもとにユーザとの対話のための 処理を行い、メディアエンジン 107に対応するビデオ'オーディオを作成させる。イン タラクシヨンエンジン 108はシナリオ DB113からシナリオを読込み処理し、また IPテレ ビ電話 1〜nとの接続及び対話状況をセッション情報 DB 114に格納する。  The interaction engine 108 performs a process for dialogue with the user based on the scenario DB 113, and causes the media engine 107 to create a video and an audio corresponding thereto. The interaction engine 108 reads the scenario from the scenario DB 113 and processes the scenario, and stores the connection and conversation status with the IP telephones 1 to n in the session information DB 114.
メディアエンジン 107は、インタラクションエンジン 108の指示に従い、ビデオ'ォー ディォを作成し、 IPテレビ電話 l〜nに配信する。ビデオ'オーディオは、メディア DB 115,クリップ DB116,キャッシュ 117に格納される。  The media engine 107 creates a video 'audio' according to the instruction of the interaction engine 108, and distributes it to the IP videophones l to n. The video and audio are stored in the media DB 115, the clip DB 116, and the cache 117.
[0051] 次に図 8を用いてインタラクションエンジンについて説明する。 Next, the interaction engine will be described with reference to FIG.
インタラクションエンジン 108は、インタラクションエンジンコア 120を中心に対話処 理を行う。 インタラクションエンジンコア 120は、ローカルディスクに格納されているシナリオに つ!ヽてはローカルメディアアクセス 121を用いて、リモートディスクに格納されて 、るシ ナリオについてはリモートメディアアクセス 122を用いてアクセスする。アクセスしたシ ナリオを処理し、そのシナリオに基づ 、て IPテレビ電話 l〜nから転送されてきたユー ザ環境やユーザ応答といった様々な情報を、応答認識エンジン 123により認識させ る。応答認識エンジン 123は、 DTMF (テレビ電話ボタンからの数字入力) 124、音 声 125、ビデオ 126を認識する。シナリオに照し合わせた認識結果をもとに、インタラ クシヨンエンジンコア 120は作成すべきビデオ'オーディオを決定し、メディアエンジン 107に通知する。 The interaction engine 108 performs a dialog processing centering on the interaction engine core 120. The interaction engine core 120 uses a local media access 121 for a scenario stored on a local disk, and accesses a scenario stored on a remote disk using a remote media access 122. The accessed scenario is processed, and the response recognition engine 123 recognizes various information such as the user environment and the user response transferred from the IP videophones l to n based on the scenario. The response recognition engine 123 recognizes DTMF (numeric input from a videophone button) 124, voice 125, and video 126. The interaction engine core 120 determines a video / audio to be created based on the recognition result based on the scenario, and notifies the media engine 107 of the determined video / audio.
[0052] 次に図 9を用いてメディアエンジンについて説明する。 Next, the media engine will be described with reference to FIG.
メディアエンジン 107は、インタラクションエンジン 108からの通知を受けてメディア( 映像)を作成する。この通知には作成すべき映像を構成するビデオ'オーディオの記 述を含むファイル名が含まれており、メディアエンジン 107はそのファイルを読出し、 メディアインタプリタ 131に通し、解読させる。この記述ファイルには、ネイティブな形 式のもの(ネイティブメディアスクリプト 132)もあるし、 XTL133、 SMIL134、 MPEG -4 135などの形式のものもある。それぞれの形式に対応するメディアインタプリタ が用意される。  The media engine 107 receives the notification from the interaction engine 108 and creates media (video). The notification includes a file name including a description of video and audio constituting the video to be created, and the media engine 107 reads the file, passes the file through the media interpreter 131, and decrypts the file. This description file may be in a native format (native media script 132), or in a format such as XTL133, SMIL134, or MPEG-4135. A media interpreter corresponding to each format is prepared.
メディアエンジン 107は、この解読結果をもとに映像プロセッサ 136を用いて映像を 作成させ、それを IPテレビ電話 l〜nに配信する。  The media engine 107 causes the video processor 136 to create a video based on the decoding result, and distributes the video to the IP videophones l to n.
[0053] 配信手順書にっ 、て図 10を用いて説明する。 The distribution procedure manual will be described with reference to FIG.
配信手順書は、様々なメディアの配信時刻、配信時間、 IPテレビ電話画面上の位 置、表示方法という振る舞いの記述であり、シナリオともいう。  The distribution procedure manual is a description of the behavior of various media, such as distribution time, distribution time, position on the IP videophone screen, and display method, and is also called a scenario.
シナリオ DB113は対話のためのものと、映像を作成するためのものの 2つの部分か ら構成されている。対話のためのシナリオを対話シナリオといい、映像を作成するた めのシナリオをメディアシナリオという。  Scenario DB113 consists of two parts: one for dialogue and one for creating video. A scenario for dialogue is called a dialogue scenario, and a scenario for creating video is called a media scenario.
メディアシナリオは、作成すべきメディア DB (映像) 115の作成方法を記述する。 クリップ DB116は、単一的な内容を持つビデオやオーディオのデータそのものであ る。 図 10に示すように、対話シナリオはメディアシナリオを参照する。対話シナリオは複 数のメディアシナリオを組合わせて高度な対話マルチメディアコンテンツを構築する。 また、メディアシナリオはクリップ DB116を参照する。メディアシナリオは複数クリツ プを組み合わせ、複雑なビデオ'オーディオを構築する。 The media scenario describes how to create a media DB (video) 115 to be created. The clip DB 116 is video or audio data itself having a single content. As shown in Figure 10, the interaction scenario references a media scenario. Dialogue scenarios combine multiple media scenarios to build advanced interactive multimedia content. The media scenario refers to the clip DB 116. Media scenarios combine multiple clips to create complex video and audio.
また、図 10に示すように、一つの対話シナリオは他の対話シナリオを参照すること ができる。参照されない対話シナリオはレイヤ 1の対話シナリオという。この対話シナリ ォが参照する対話シナリオのレイヤはレイヤ 2となる。このように対話シナリオのレイヤ 番号がつけられる。レイヤ番号は相対的な番号である。  Also, as shown in Figure 10, one dialog scenario can refer to another dialog scenario. Unreferenced conversation scenarios are called layer 1 conversation scenarios. The layer of the dialog scenario referred to by this dialog scenario is Layer 2. In this way, the layer numbers of the dialog scenario are assigned. The layer number is a relative number.
[0054] 具体的なコンテンツを記述するシナリオについて、図面を参照しながら説明する。  A scenario for describing specific content will be described with reference to the drawings.
図 11にコンテンツの構成を示している。コンテンツは 4つの主なメニュー力もなり、そ れぞれ「九州紹介」、「飯塚紹介」、「新曲視聴」、「終了」である。また、「九州紹介」は 9つのメニュー、「飯塚紹介」は 5つのメニュー、「新曲視聴」は 5つのメニュー力も構成 されて!/、る。図 11の各メニュー項目の前につ 、て 、る番号はユーザが選択する番号 であり、その番号が選択されるとそのメニューが実行される。  Fig. 11 shows the structure of the content. The content also has four main menu capabilities: “Introduction to Kyushu”, “Introduction to Iizuka”, “Watch New Song”, and “End”. In addition, “Introduction to Kyushu” has nine menus, “Introduction to Iizuka” has five menus, and “Watch new songs” also has five menus! The number before and after each menu item in FIG. 11 is a number selected by the user, and when that number is selected, the menu is executed.
[0055] 上記のコンテンツ構成をシナリオにしたのが図 12 (図 12aと図 12b)である。図 12は 対話シナリオとメディアシナリオを含むが、実際のメディアシナリオの内容は別のファ ィルに格納される。シナリオ中の「PlayMedia()」と 、う部分はメディアシナリオの部分で ある、メディア(映像)の作成及び配信を行う部分である。例えば、インタラクションェン ジンは「PlayMedianndex.mml", true); Jを読むと、 index.mmlと 、う対話シナリオをメデ ィァエンジンに渡し、メディアエンジンはそれに基づいてメディアを作成し、 IPテレビ 電話に配信するためにバッファに格納する。配信サーバはこれをデコード UPテレビ 電話に配信する。  FIG. 12 (FIGS. 12a and 12b) shows the above content configuration as a scenario. Figure 12 includes a dialog scenario and a media scenario, but the actual media scenario content is stored in a separate file. The “PlayMedia ()” part in the scenario is a part for creating and distributing media (video), which is a part of the media scenario. For example, the interaction engine reads "PlayMedianndex.mml", true); When reading J, it passes index.mml and other interaction scenarios to the media engine, which creates media based on it and sends it to the IP videophone. Store in a buffer for distribution. The delivery server delivers this to the decoded UP videophone.
シナリオ中の「GetDigitri23456789");」は利用者の応答として 1〜9の数字入力を 受付けることを意味する。それ力も各数字に対応するシナリオが書かれており、例え ば「1」という応答を受信すると「PlayMediarscene010.mml", true);」が実行され、 sceneOlO.mmlというメディアシナリオをメディアエンジンに送られることとなる。  "GetDigitri23456789"); "in the scenario means that the user's response accepts numeric input of 1-9. A scenario corresponding to each number is also written. For example, when a response of "1" is received, "PlayMediarscene010.mml", true); is executed, and a media scenario called sceneOlO.mml is sent to the media engine. It will be.
[0056] 図 12に示すシナリオのメディア構成を図 13に示す。番号は利用者の応答として受 付ける数字である。 図 14にメディアシナリオが記述される index.mmlの内容を示す。メディアは各クリップ を組み合わせて一つの映像を作成する。クリップを clipで指定する。 clipは複数指定 可能な trackで位置し、 tractは groupの中に位置する。 groupにはビデオ用のものと、 オーディオのものの 2つがる。 groupは timelineの中に位置する。 timelineは全体の映 像の時間軸となる。図 14には、 butterfly.aviというビデオクリップと、 menuindex.bmpと V、う静止画の組み合わせでビデオを作成し、またこれを butterfly.aviのオーディオの 部分と合成し、映像を作り出す。 FIG. 13 shows the media configuration of the scenario shown in FIG. The number is the number accepted as a response from the user. Figure 14 shows the contents of index.mml where the media scenario is described. The media combines each clip to create one video. Specify clip with clip. A clip is located on a track that can be specified multiple times, and a tract is located in a group. There are two groups, one for video and one for audio. group is located in the timeline. The timeline is the time axis of the whole image. In Fig. 14, a video is created by combining a video clip called butterfly.avi, menuindex.bmp, V, and a still image, and this is combined with the audio part of butterfly.avi to create a video.
[0057] 従来の電話操作及び電話通話で、様々な情報を対話的かつ視聴覚的に取得する ことについて、図 15を用いながら説明する。 With reference to FIG. 15, a description will be given of how to obtain various information interactively and audio-visually by a conventional telephone operation and telephone call.
IPテレビ電話 l〜nのいずれかの利用者が IPテレビ電話のボタンで配信サーバ 50 1〜50— nのいずれかの番号をダイヤルすると、その IPテレビ電話からゲートキー パ 20に受付依頼が送られる(1)。ゲートキーパ 20は受付処理後、受付完了通知を I Pテレビ電話に送る(2)。この受付完了通知には、配信サーバ 50— 1〜50— nの IP アドレスが含まれる。 IPテレビ電話はこの IPアドレスに接続確立依頼を送る(3)。配信 サーバは接続確立する(4)。それから、配信サーバはシナリオ DB61を参照し、はじ めに配信する映像を決定する(5)。その映像を作成するための材料となる各種クリツ プを取得し映像を作成する(6)。作成された映像を IPテレビ電話用にエンコードする (7)。それからその映像を IPテレビ電話に配信する(8)。  When one of the IP videophones l to n dials any of the distribution servers 501 to 50-n using the buttons of the IP videophone, a reception request is sent from the IP videophone to the gatekeeper 20. (1). After the reception process, the gatekeeper 20 sends a reception completion notice to the IP videophone (2). This reception completion notification includes the IP addresses of the distribution servers 50-1 to 50-n. The IP videophone sends a connection establishment request to this IP address (3). The distribution server establishes a connection (4). Then, the distribution server refers to the scenario DB61 and determines the video to be distributed first (5). It obtains various clips that are the material for creating the video and creates the video (6). Encode the created video for IP videophone (7). Then the video is distributed to the IP videophone (8).
配信サーバと IPテレビ電話との接続が確立されると、 IPテレビ電話の利用者は配信 サーバに反応を送ることができる。例えば、配信サーバから IPテレビ電話に初めの映 像が配信されたら (8)、 IPテレビ電話の利用者は電話ボタンの操作を行うと、押され たボタンの情報が配信サーバに送られる(9)。その情報を受けたシナリオ処理手段 5 8は、またシナリオ DB61を参照し、その利用者の応答に対する動作を決定する。つ まり、その利用者の応答に対してどんな映像を配信すればょ 、かである。  When the connection between the distribution server and the IP videophone is established, the IP videophone user can send a response to the distribution server. For example, when the first video is distributed from the distribution server to the IP videophone (8), when the user of the IP videophone operates the telephone button, the information of the pressed button is sent to the distribution server (9). ). The scenario processing means 58 having received the information refers to the scenario DB 61 and determines an operation in response to the user's response. In other words, what kind of video should be delivered in response to the user's response?
[0058] 図 15に示す動作を図 12のシナリオに当てはめると、配信サーバからはまず When the operation shown in FIG. 15 is applied to the scenario in FIG. 12, the distribution server first
index.mmlに基づいて作成された映像が IPテレビ電話に配信される。それから、 IPテ レビ電話の利用者が電話ボタンで 1を押すと、その「1」という情報が配信サーバに送 られ、ユーザ応答処理手段 54で認識され、対話シナリオに基づいて sceneOll.mmlと いうメディアシナリオが読込まれ、それに基づいてまた映像が作成され、 IPテレビ電 話に配信される。このようにして利用者の時々刻々の応答に対して送られる映像が切 り替わっていく。 The video created based on index.mml is distributed to IP videophones. Then, when the user of the IP television phone presses 1 with the telephone button, the information of “1” is sent to the distribution server, recognized by the user response processing means 54, and sceneOll.mml is created based on the dialog scenario. The media scenario is read and a video is created based on the media scenario and distributed to the IP TV phone. In this way, the video sent in response to the user's instantaneous response changes.
[0059] 図 16は、図 15で示す動作を時系列的に表すものである。左側にはサーバの時間 軸、右側には利用者側の時間軸である。時間経過は上から下となっている。この利用 者の応答に対して適切な映像がサーノから送られてくるこの動作が繰り返すことで、 対話的かつ視聴覚的なやりとりを実現する。  FIG. 16 shows the operation shown in FIG. 15 in chronological order. The left side is the time axis of the server, and the right side is the time axis of the user. The time lapse is from top to bottom. By repeating this operation in which an appropriate video is sent from Sano in response to the user's response, interactive and audio-visual exchanges are realized.
この実施例 1において、配信サーバ 50に設けられた多地点処理手段 56,多地点 制御手段 57を用いることで、ファイルサーバ 60に記録されているメディアのみだけで なぐその記録されて 、るメディアと生中継のメディアとの組み合わせ配信をすること ができる。  In the first embodiment, by using the multi-point processing means 56 and the multi-point control means 57 provided in the distribution server 50, not only the media recorded in the file server 60 but also the recorded media can be used. Combined distribution with live broadcast media is possible.
[0060] このことを、図面を用いながら説明する。図 17は記録されているメディアと生中継の メディアを組み合わせて用いるシナリオの仕組みを示す。図 19は利用者の IPテレビ 電話に表示される画面のイメージを示す。  This will be described with reference to the drawings. Figure 17 shows the mechanism of a scenario that uses a combination of recorded media and live broadcast media. Figure 19 shows a screen image displayed on the user's IP videophone.
図 17に示すように、この場合のシナリオは図 10に示すシナリオと似ている力 あるク リップはディスクに実際に存在して ヽるビデオやオーディオではなぐ配信サーバに 接続されて 、る IPテレビ電話から直接取得するクリップであると 、う点が異なって 、る  As shown in FIG. 17, the scenario in this case is similar to the scenario shown in FIG. 10, except that the powerful clip is connected to a distribution server that is not the video or audio that actually exists on the disc. Clips obtained directly from the phone have different characteristics.
[0061] 図 18に示すように、利用者はこのシナリオをアクセスすると(1)、配信サーバは通常 のようにシナリオを取得し (2)処理し、そして各種クリップを読込む(2)。シナリオ中に 生中継のメディアが含まれると、配信サーバは指定されて 、る IPテレビ電話 (この IP テレビ電話のことをサービス提供者の IPテレビ電話という)に発信し、その IPテレビ電 話と接続を開始する。それ力 その利用者の IPテレビ電話力 送られる映像をサー ビス提供者の IPテレビ電話に配信し (4)、配信サーバはこの映像をシナリオが必用と しているクリップとして用いる(5)。このクリップと共に映像が作成され、 IPテレビ電話 ユーザに配信される(6)。 As shown in FIG. 18, when the user accesses this scenario (1), the distribution server acquires the scenario as usual (2), processes it, and reads various clips (2). If the live media is included in the scenario, the distribution server is designated and sends a call to the IP videophone (this IP videophone is called the service provider's IP videophone), and the IP videophone Initiate a connection. Power of the user's IP videophone The video that is sent is distributed to the service provider's IP videophone [4], and the distribution server uses this video as a clip required by the scenario [5]. An image is created with this clip and distributed to IP videophone users [6].
図 18のように、サービス提供者の IPテレビ電話力もの映像をシナリオに従いその他 のディスク上のクリップと共に利用者の IPテレビ電話の画面に配置される。 実施例 2 As shown in Fig. 18, the video of the service provider's IP videophone is placed on the user's IP videophone screen along with other clips on the disk according to the scenario. Example 2
[0062] 本発明の実施例 2は、 IPテレビ電話ユーザ指向サービスに関するものである。この サービスは、実施例 1の基本構成に加え、ファイルサーバ 60に、シナリオを保持する シナリオ DB61を備え、配信サーバ 50には、さらに、シナリオを処理し予め設定され た配信手順に従って実施するシナリオ処理手段 58を有している。  The second embodiment of the present invention relates to an IP videophone user-oriented service. This service has, in addition to the basic configuration of the first embodiment, a scenario DB 61 for storing a scenario in the file server 60, and a scenario processing in which the distribution server 50 further processes the scenario and executes the scenario according to a preset distribution procedure. Means 58 are provided.
その配信手順には、様々なメディアの配信時刻、配信時間、 IPテレビ電話画面上 の位置、表示方法という振る舞いを記述する。  The distribution procedure describes the distribution time, distribution time, position on the IP videophone screen, and display method of various media.
これにより、 IP電話サービス利用者の IP電話番号や言語設定などの利用者環境に 合わせて、配信手順に従!ヽ配信する映像の選択及び配信方法を調整することができ る。  As a result, the distribution procedure is followed according to the user environment such as the IP phone number and language setting of the IP phone service user!映像 You can select the video to distribute and adjust the distribution method.
[0063] このことを、図面を用いながら説明する。  This will be described with reference to the drawings.
図 20に利用者の環境に合わせた配信を指示するシナリオを示す。あるショッピング コンテンツは 2つの地域力 発信してくる利用者に対して異なる映像を送るようにして いる場合を考える。地域 1からの利用者は地域 1限定の商品情報を、地域 2からの利 用者には地域 2限定の商品情報を配信するようになっている。但し、地域共通のタリ ップもある。また、各地域には言語 1と言語 2という 2つの言語が使われているため、利 用者の言語によりビデオが同じでもオーディオが発信してくる利用者の言語対応する オーディオを配信するようになっている。この仕組みを図 20に示すシナリオ構成に表 されている。  Figure 20 shows a scenario that instructs distribution according to the user's environment. Consider the case where a certain shopping content sends different images to users who transmit from two regional powers. Users from region 1 distribute product information limited to region 1, and users from region 2 distribute product information limited to region 2. However, some territories are common throughout the region. Also, since each region uses two languages, Language 1 and Language 2, it is necessary to distribute audio that corresponds to the language of the user who sends audio even if the video is the same depending on the user's language. Has become. This mechanism is shown in the scenario configuration shown in Figure 20.
図 20を用いながら具体的な動作を説明する。例えば、地域 1からの言語 1を話す利 用者が発信してくると、対話シナリオの記述に従い地域 1のメディアシナリオが使用さ れる(1)。さらに、地域 1のメディアシナリオの従い、ビデオクリップは地域 1 (共通)を 使用されるが(2)、オーディオクリップ (音声の部分)は言語 1のものが使用される(3) 実施例 3  A specific operation will be described with reference to FIG. For example, when a user who speaks language 1 from region 1 sends a call, the region 1 media scenario is used according to the description of the dialogue scenario (1). Furthermore, according to the media scenario of region 1, video clips are used in region 1 (common) (2), but audio clips (audio parts) are in language 1 (3).
[0064] 本発明の実施例 3は、 IPテレビ電話対話サービスに関するものである。このサービ スは、実施例 1の基本構成に加え、ファイルサーバ 60は、シナリオを保持するシナリ ォ DB61と、動画クリップ、静止画、文字、音声などの様々なメディアを保持するメディ ァ DB62と、記憶装置に保管されている各種メディア力も配信サーバの処理によりで きた映像を保持するキャッシュ DB63とを備え、配信サーバ 50は、ユーザ応答処理 手段 54と、シナリオを処理しそのとおりに実施するシナリオ処理手段 58を有して 、る これにより、どのタイミングでどれくらいの時間、あるメディアを配信するか、また、次 の手順で、 IPテレビ電話画面上のどの位置に、どのような表示の仕方でメディアを表 示する力を規定することができる。配信手順として、ユーザのどのような応答に対して も、その応答を受けた時刻をもとに前記様々なメディアの振る舞いを決定するような 記述を行っておく。 Example 3 of the present invention relates to an IP videophone conversation service. In this service, in addition to the basic configuration of the first embodiment, a file server 60 includes a scenario DB 61 for storing scenarios and media for storing various media such as video clips, still images, characters, and audio. The distribution server 50 includes a user DB 62 and a cache DB 63 that retains various types of media stored in the storage device and images that are obtained by the processing of the distribution server. This has a scenario processing means 58 to be executed. By this, it is possible to determine at what timing and for how long a certain media is to be distributed, and in the following procedure, at what position on the IP videophone screen and what display The ability to display the media in different ways. As a delivery procedure, a description is made for any response of the user to determine the behavior of the various media based on the time at which the response was received.
これにより、ユーザにとって、あた力も実時間的に対話しているようなサービスを提 供することができる。  As a result, it is possible to provide the user with a service in which the user is interacting in real time.
[0065] このことを、図面を用いながら説明する。 [0065] This will be described with reference to the drawings.
図 21に店員と顧客の対話的かつ実時間のやり取りを示す。  Figure 21 shows the interaction between the clerk and the customer in real time.
このような実時間的な対話を非実時間であるクリップ集で実現するのは図 22に示す 配信サーバと利用者との映像のやり取りである。配信サーバは利用者の意思に従い 、次々と異なる映像を配信していく。  Realizing such a real-time dialogue with a non-real-time clip collection is the exchange of video between the distribution server and the user shown in FIG. The distribution server distributes different images one after another according to the user's intention.
図 23に図 22の画面のイメージを示す。この画面のイメージに示すように背景のビ デォ'オーディオ、選択肢を表すメニューのビデオなどはがある。また、映っている人 物(店員)はまるで向こう側にいる人間のように振舞うが、実際はディスクに記録されて いるビデオクリップである。これらはそれぞれクリップの集まりであり、各クリップの属性 はシナリオで制御されて!ヽる。  Figure 23 shows an image of the screen in Figure 22. As shown in this screen image, there is a background video 'audio', a menu video showing options and so on. Also, the person (clerk) in the picture behaves like a person on the other side, but is actually a video clip recorded on a disc. Each of these is a collection of clips, and the attributes of each clip are controlled by the scenario!
これらの映像は各種クリップの選択、表示開始時刻、表示期間、表示方法 (効果な ど)、画面での表示位置などを決めるシナリオをもとに作成されるため、利用者に実時 間対話を体験させる。  These videos are created based on scenarios that determine the selection of various clips, display start time, display period, display method (effects, etc.), display position on the screen, etc., so that users can interact in real time. Let them experience.
実施例 4  Example 4
[0066] 本発明の実施例 4は、 IPテレビ電話ユーザ指向サービスに関するものである。この サービスは、実施例 2の基本構成に加え、記憶装置に保管されている各種メディアか ら構成される映像を記憶装置に保管し、必要になったら読み出すコンテンツキヤッシ ュ手段 71を備え、また配信手順として様々なメディアの配信時刻、配信時間、 IPテレ ビ電話画面上の位置、表示方法という振る舞いを記述することにより、どのタイミング でどれくらいの時間、あるメディアを配信するか、また、次の手順で、 IPテレビ電話画 面上のどの位置に、どのような表示の仕方でメディアを表示するかを規定することが できる。また、配信手順は、ユーザのどのような応答に対しても、その応答を受けた時 刻をもとに、様々なメディアの振る舞いを決定するように記述することもできる。 Embodiment 4 of the present invention relates to an IP videophone user-oriented service. In addition to the basic configuration of the second embodiment, this service is a content cache that stores videos composed of various media stored in the storage device in the storage device and reads them when necessary. By providing the distribution time, distribution time, position on the IP telephone screen, and display method of various media as a distribution procedure, a certain media can be distributed at which timing and for how long. In addition, the following procedure can be used to specify at which position on the IP videophone screen the media should be displayed in the following manner. In addition, the distribution procedure can be described so as to determine the behavior of various media based on the time at which any response from the user is received.
実施例 5  Example 5
[0067] 本発明の実施例 5は、 IPテレビ電話負荷分散サービスに関するものである。このサ 一ビスは、実施例 2の構成に加え、ゲートキーパ 20は、アドレス変換手段 21と、サー バ負荷管理手段 81とを有し、配信サーバ 50は、配信サーバの CPUやメモリの使用 状況を時々刻々監視するサーバ負荷監視手段 72を有することで、多量のアクセスに 備えるために複数の配信サーノ 50からなるサービスにおいて、 IPテレビ電話 l〜nは 配信サーバ 50に接続してくるとき、過負荷にならないように自動的に接続を受付ける 配信サーバ 50を決めることができる。  Embodiment 5 of the present invention relates to an IP videophone load distribution service. In this service, in addition to the configuration of the second embodiment, the gatekeeper 20 has an address translation unit 21 and a server load management unit 81, and the distribution server 50 manages the usage status of the CPU and the memory of the distribution server. The provision of the server load monitoring means 72 for monitoring from time to time enables the IP videophones l to n to be overloaded when connected to the distribution server 50 in a service composed of a plurality of distribution servers 50 to prepare for a large amount of access. It is possible to determine the distribution server 50 that automatically accepts the connection so as not to be out of order.
[0068] このことを、図面を用いながら説明する。  [0068] This will be described with reference to the drawings.
図 24はゲートキーパ 20を用いる配信サーバの負荷分散を示す。 IPテレビ電話 1が 配信サーバ 50— 1に接続されサービスを受けて ヽる状態で、 IPテレビ電話 2が接続 を開始しょうとしてゲートキーパ 20に受付依頼を行う(1)。この受付依頼を受けたゲ 一トキーパ 20はサーバ負荷管理手段 81により各サーバの負荷状況 82を調査する( 2)。この IPテレビ電話 2にサービスすることで過負荷にならないサーバの IPアドレス を通知する(3)。ここで配信サーバ 50—1が過負荷状態にならずに新たな IPテレビ 電話にサービスを提供できな 、と 、う判断したので、ゲートキーパ 20は余裕のある配 信サーバ 50— 2の IPアドレスを通知する(5)。これをもって、 IPテレビ電話は通常通 り配信サーバ 50— 2にアクセスし、映像が送られてくる。  FIG. 24 shows load distribution of the distribution server using the gatekeeper 20. With IP videophone 1 connected to distribution server 50-1 and receiving services, IP videophone 2 makes a request to gatekeeper 20 to start connection (1). The gatekeeper 20 receiving the reception request checks the load status 82 of each server by the server load management means 81 (2). The IP address of the server that will not be overloaded by providing service to this IP videophone 2 is notified (3). Here, since it is determined that the distribution server 50-1 cannot provide a service to a new IP videophone without being overloaded, the gatekeeper 20 determines the IP address of the distribution server 50-2 that has room. Notify (5). With this, the IP videophone accesses the distribution server 50-2 as usual and the video is sent.
実施例 6  Example 6
[0069] 本発明の実施例 6は、 IPテレビ電話ユーザ参加型サービスに関するものである。こ のサービスは、実施例 1〜5のいずれの構成でも可能である力 配信サーバ 50にュ 一ザ応答処理手段 54を設け、ユーザが IPテレビ電話 l〜nから普通に話したりするこ とで、配信サーバ 50がそのユーザのオーディオ及びビデオを受信し、自動的に IPテ レビ電話シナリオ及びそれぞれのメディアを作成する機能を持たせたものである。 すでに図 15に示したように、 IPテレビ電話の利用者が配信サーバに発信し、利用 者によるシナリオ自動生成用のシナリオをアクセスすると、図 25のような画面が利用 者の IPテレビ電話に表示される。この画面では、通常のようにシナリオにより作成され る映像と共に、 IPテレビ電話の利用者自身の生の映像が表示されている。利用者は 映像に映っている案内人の案内に従い、電話で人間と会話しているのと同様に自己 紹介などを自然に話す。その IPテレビ電話の利用者の映像が配信サーバに送られ、 オーディオとビデオのそれぞれの各クリップとして保存される。そして、自動生成用の シナリオの通りにシナリオが生成される。 IPテレビ電話の利用者誰でもこのシナリオを アクセスするとその内容が再生される。 Embodiment 6 of the present invention relates to an IP videophone user participation type service. In this service, a user response processing means 54 is provided in the force distribution server 50, which can be realized by any of the configurations of the first to fifth embodiments, so that the user can speak normally from the IP videophones l to n. Thus, the distribution server 50 has a function of receiving the user's audio and video and automatically creating an IP television telephone scenario and respective media. As shown in Fig. 15, when a user of an IP videophone makes a call to the distribution server and accesses a scenario for automatic scenario generation by the user, a screen as shown in Fig. 25 is displayed on the user's IP videophone. Is done. In this screen, the live video of the user of the IP videophone is displayed together with the video created by the scenario as usual. The user follows the guidance of the guide shown in the video and speaks self-introduction naturally as if talking to a human on the telephone. The video of the IP videophone user is sent to the distribution server and stored as audio and video clips. Then, the scenario is generated according to the scenario for automatic generation. When any IP videophone user accesses this scenario, the content is played back.
産業上の利用可能性 Industrial applicability
本発明は、 IPネットワークを使用した非実時間映像による双方向サービスを実現す る IPテレビ電話サービスシステムとして利用することができる。  INDUSTRIAL APPLICABILITY The present invention can be used as an IP videophone service system that realizes an interactive service using non-real-time video using an IP network.

Claims

請求の範囲 The scope of the claims
[1] IPテレビ電話サービスが提供されて 、る IPネットワークに接続されて 、る配信サー バは、予め設定された配信手順に従い、 IPテレビ電話サービス利用者の応答により 配信する動画クリップ、静止画、文字、音声などの様々なメディア及びその配信方法 を決定し、これらのメディアをストリーミング映像として IPテレビ電話に配信する手段を 備えていることを特徴とする IPテレビ電話サービスシステム。  [1] When an IP videophone service is provided and connected to an IP network, the distribution server follows a preset distribution procedure and responds to the IP videophone service user's response to deliver video clips and still images. An IP videophone service system comprising means for determining various media such as text, voice, and the like and a distribution method thereof, and distributing these media as streaming video to the IP videophone.
[2] 前記配信サーバは、記録されて 、るメディアのみ、または記録されて 、るメディアと 生中継のメディアとの組み合わせを配信する手段を備えていることを特徴とする請求 項 1記載の IPテレビ電話サービスシステム。 [2] The IP according to claim 1, wherein the distribution server includes means for distributing only recorded media, or a combination of recorded media and live broadcast media. Videophone service system.
[3] 前記配信手順は、前記様々なメディアの配信時刻、配信時間、 IPテレビ電話画面 上の位置、表示方法と 、う振る舞 、を記述したものであることを特徴とする請求項 1ま たは 2に記載の IPテレビ電話サービスシステム。 [3] The distribution procedure is characterized in that distribution time, distribution time, position on an IP videophone screen, display method, and behavior of the various media are described. Or the IP videophone service system according to 2.
[4] 前記配信サーバは、 IPテレビ電話サービス利用者の IPテレビ電話番号や言語設 定などの利用者環境に合わせて、前記配信手順に従い、配信する映像の選択及び 配信方法を調整する手段を備えて ヽることを特徴とする請求項 1から 3の ヽずれかの 項に記載の IPテレビ電話サービスシステム。 [4] The distribution server includes means for selecting a video to be distributed and adjusting a distribution method according to the distribution procedure according to the user environment such as an IP video telephone number and a language setting of the IP video telephone service user. The IP videophone service system according to any one of claims 1 to 3, wherein the IP videophone service system is provided.
[5] 前記配信サーバは、 IPテレビ電話サービス利用者の指示に従 、配信手順を自動 的に作成し、そして IPテレビ電話サービス利用者力 音声やビデオを受信し、それぞ れのメディアを自動的に作成する手段を備えていることを特徴とする請求項 1から 4の いずれかの項に記載の IPテレビ電話サービスシステム。 [5] The distribution server automatically creates a distribution procedure according to the instructions of the IP videophone service user, receives the audio and video of the IP videophone service user, and automatically executes the respective media. The IP videophone service system according to any one of claims 1 to 4, further comprising means for creating the IP videophone service.
[6] IPテレビ電話サービスを利用するための IPテレビ電話端末と、 [6] An IP video phone terminal for using the IP video phone service,
その IPテレビ電話端末に映像を配信する配信サーバと、  A distribution server that distributes video to the IP videophone terminal,
配信される動画クリップ、静止画、文字、音声等の各種メディア及びそのキャッシュ を格納するファイルサーバと、  A file server that stores various media such as video clips, still images, characters, and audio to be distributed, and their caches;
IPテレビ電話番号解決や帯域管理を行うゲートキーパとで構成される IPネットヮー クにおいて、  In an IP network consisting of a gatekeeper that performs IP video phone number resolution and bandwidth management,
前記配信サーバは、  The distribution server,
前記 IPネットワーク上にデータを転送する転送手段と、 IPテレビ電話端末のデータとして符号化されたデータをオーディオデータやビデオ データなどに復号するデコード手段と、 Transfer means for transferring data over the IP network; Decoding means for decoding data encoded as IP videophone terminal data into audio data, video data, and the like;
オーディオデータやビデオデータなどを IPテレビ電話端末のデータとして符号化す るエンコード手段と、  Encoding means for encoding audio data, video data, etc. as IP videophone terminal data;
IPテレビ電話端末とのやり取りを行うために必要なコマンドを出す IP電話コマンド手 段と、  An IP phone command means for issuing commands necessary for communication with the IP videophone terminal;
前記ファイルサーバに保管されている各種メディアを入出力する媒体アクセス手段 と、  Medium access means for inputting / outputting various media stored in the file server;
を有することを特徴とする IPテレビ電話サービスシステム。 An IP videophone service system comprising:
前記ファイルサーバは、配信手順の記述を保持するシナリオデータベースを備え、 前記配信サーバは、さらに、前記配信手順の記述を処理し予め設定された配信手 順に従って実施するシナリオ処理手段を有し、  The file server includes a scenario database that holds a description of a distribution procedure, and the distribution server further includes a scenario processing unit that processes the description of the distribution procedure and executes the description according to a preset distribution procedure.
前記配信手順は、前記様々なメディアの配信時刻、配信時間、 IPテレビ電話画面 上の位置、表示方法と 、う振る舞 、を記述したものであることを特徴とする請求項 6記 載の IPテレビ電話サービスシステム。  7. The IP according to claim 6, wherein the distribution procedure describes a distribution time, a distribution time, a position on an IP videophone screen, a display method, and a behavior of the various media. Videophone service system.
PCT/JP2005/008500 2004-05-14 2005-05-10 Ip videophone service system WO2005112453A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-145529 2004-05-14
JP2004145529A JP2005328394A (en) 2004-05-14 2004-05-14 Ip tv phone service system

Publications (1)

Publication Number Publication Date
WO2005112453A1 true WO2005112453A1 (en) 2005-11-24

Family

ID=35394529

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/008500 WO2005112453A1 (en) 2004-05-14 2005-05-10 Ip videophone service system

Country Status (2)

Country Link
JP (1) JP2005328394A (en)
WO (1) WO2005112453A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007034550A1 (en) * 2005-09-22 2007-03-29 Hewlett-Packard Development Company, L.P. Dynamic image distribution device and method thereof

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8479230B2 (en) 2006-12-19 2013-07-02 At&T Intellectual Property I, Lp System and apparatus for managing media content
US8683527B2 (en) 2007-04-20 2014-03-25 At&T Intellectual Property I, Lp System and apparatus for supplying media content to portable communication devices
US8316410B2 (en) 2007-07-23 2012-11-20 At&T Intellectual Property I, Lp Apparatus and method for communicating media between communication devices
US8555330B2 (en) 2007-10-03 2013-10-08 At&T Intellectual Property I, L.P. System for managing media services
US8881205B2 (en) 2008-09-12 2014-11-04 At&T Intellectual Property I, Lp System for controlling media presentation devices
US8266666B2 (en) 2008-09-12 2012-09-11 At&T Intellectual Property I, Lp System for controlling media presentations
JP6413215B2 (en) * 2013-09-17 2018-10-31 株式会社リコー Transmission terminal and program
TWI690188B (en) * 2019-05-02 2020-04-01 新加坡商華康(新加坡)有限公司 System and method for starting and executing remote interactive customer service of network television by fixed network telephone

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137752A (en) * 1998-10-29 2000-05-16 Recruit Co Ltd Information delivery system
JP2001168923A (en) * 1999-12-08 2001-06-22 Toshiba Corp Multimedia service system, multimedia conversion server, and multimedia terminal
JP2001197207A (en) * 2000-01-17 2001-07-19 Mega Chips Corp Device corresponding to multilanguage
JP2001211437A (en) * 2000-01-28 2001-08-03 Mitsubishi Electric Corp Multimedia cti system
JP2001218181A (en) * 2000-02-04 2001-08-10 Megafusion Corp Two-way communication method
JP2003338830A (en) * 2002-03-12 2003-11-28 Matsushita Electric Ind Co Ltd Media transmitting method, media receiving method, media transmitter and media receiver
JP2004356897A (en) * 2003-05-28 2004-12-16 Neu & Computing Inc Gateway device and information providing system using same

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137752A (en) * 1998-10-29 2000-05-16 Recruit Co Ltd Information delivery system
JP2001168923A (en) * 1999-12-08 2001-06-22 Toshiba Corp Multimedia service system, multimedia conversion server, and multimedia terminal
JP2001197207A (en) * 2000-01-17 2001-07-19 Mega Chips Corp Device corresponding to multilanguage
JP2001211437A (en) * 2000-01-28 2001-08-03 Mitsubishi Electric Corp Multimedia cti system
JP2001218181A (en) * 2000-02-04 2001-08-10 Megafusion Corp Two-way communication method
JP2003338830A (en) * 2002-03-12 2003-11-28 Matsushita Electric Ind Co Ltd Media transmitting method, media receiving method, media transmitter and media receiver
JP2004356897A (en) * 2003-05-28 2004-12-16 Neu & Computing Inc Gateway device and information providing system using same

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007034550A1 (en) * 2005-09-22 2007-03-29 Hewlett-Packard Development Company, L.P. Dynamic image distribution device and method thereof
JPWO2007034550A1 (en) * 2005-09-22 2009-03-19 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. Moving image distribution apparatus and method
US8269815B2 (en) 2005-09-22 2012-09-18 Hewlett-Packard Development Company, L.P. Dynamic image distribution device and method thereof

Also Published As

Publication number Publication date
JP2005328394A (en) 2005-11-24

Similar Documents

Publication Publication Date Title
US9300705B2 (en) Methods and systems for interfacing heterogeneous endpoints and web-based media sources in a video conference
Deshpande et al. A real-time interactive virtual classroom multimedia distance learning system
WO2005112453A1 (en) Ip videophone service system
RU2398362C2 (en) Connection of independent multimedia sources into conference communication
EP1868348B1 (en) Conference layout control and control protocol
US20070294263A1 (en) Associating independent multimedia sources into a conference call
US20120086769A1 (en) Conference layout control and control protocol
US20170048286A1 (en) Live broadcast system
US20080192736A1 (en) Method and apparatus for a multimedia value added service delivery system
US20140118471A1 (en) Video Conferencing Method and Device Thereof
JP2005318535A (en) Method an apparatus for holding conference by controlling bandwidth
JP2005318534A (en) Method and apparatus for holding conference for perming stream selection
NO325064B1 (en) communications Client
US9398257B2 (en) Methods and systems for sharing a plurality of encoders between a plurality of endpoints
CN103269408A (en) Converged communication system
JP6719166B2 (en) Live broadcasting system
CN105553967A (en) Method and device for network meeting
WO2007035109A1 (en) Method for gatekeeper streaming
CN102438119B (en) Audio/video communication system of digital television
Patrick The human factors of MBone videoconferences: Recommendations for improving sessions and software
KR20020050903A (en) Education, Broad Casting, Multi-User Image Conference and Chatting Service Provision Method Using Internet
US20100020156A1 (en) Method and device for simultaneous multipoint distributing of video, voice and data
Andberg Video conferencing in distance education
JP2006345103A (en) Media conference system, and control method, program and storage medium therefor
JP5239756B2 (en) Media synchronization method for video sharing

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase