WO2022091832A1 - 情報処理装置、情報処理システム、情報処理方法、および情報処理端末 - Google Patents

情報処理装置、情報処理システム、情報処理方法、および情報処理端末 Download PDF

Info

Publication number
WO2022091832A1
WO2022091832A1 PCT/JP2021/038378 JP2021038378W WO2022091832A1 WO 2022091832 A1 WO2022091832 A1 WO 2022091832A1 JP 2021038378 W JP2021038378 W JP 2021038378W WO 2022091832 A1 WO2022091832 A1 WO 2022091832A1
Authority
WO
WIPO (PCT)
Prior art keywords
virtual space
virtual
user
information processing
information
Prior art date
Application number
PCT/JP2021/038378
Other languages
English (en)
French (fr)
Inventor
孝悌 清水
和治 田中
正章 松原
Original Assignee
ソニーグループ株式会社
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社, 株式会社ソニー・インタラクティブエンタテインメント filed Critical ソニーグループ株式会社
Priority to JP2022559021A priority Critical patent/JPWO2022091832A1/ja
Priority to US18/032,477 priority patent/US20230385011A1/en
Priority to CN202180072232.6A priority patent/CN116490249A/zh
Publication of WO2022091832A1 publication Critical patent/WO2022091832A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1454Digital output to display device ; Cooperation and interconnection of the display device with other functional units involving copying of the display data of a local workstation or window to a remote workstation or window so that an actual copy of the data is displayed simultaneously on two or more displays, e.g. teledisplay
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/52Controlling the output signals based on the game progress involving aspects of the displayed game scene
    • A63F13/525Changing parameters of virtual cameras
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/53Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents

Definitions

  • This disclosure relates to an information processing device, an information processing system, an information processing method, and an information processing terminal.
  • the user can view the inside of the virtual space where the 3D model is arranged from any viewpoint.
  • a VR world can be provided mainly by using a non-transparent HMD (Head Mounted Display) that covers the user's field of view with a display unit.
  • HMD Head Mounted Display
  • Patent Document 1 when a user operates an object (virtual object) of a camera arranged in the virtual space to take a picture in the virtual space, a photographic image generated by the shooting is taken. Is disclosed in a technique in which a camera is drawn on a monitor object (virtual object).
  • the prior art document mentions the shooting experience in one virtual space, but does not consider communicating with different virtual spaces.
  • an information processing device an information processing system, an information processing method, and an information processing terminal capable of presenting communication information in another virtual space more easily and enhancing the convenience of the virtual space. ..
  • control unit includes a control unit that controls the display of the virtual space, and the control unit acquires communication information of one or more other users in another virtual space, and the acquired communication information is used in the virtual space.
  • control unit controls the display of the virtual space, and the control unit acquires communication information of one or more other users in another virtual space, and the acquired communication information is used in the virtual space.
  • an information processing terminal having a display unit and a communication unit, and an information processing device having a control unit and a communication unit for controlling the display of a virtual space on the display unit
  • the control unit includes the information processing unit.
  • a processor controls the display of a virtual space, acquires communication information of one or more other users in another virtual space, and arranges the acquired communication information in the virtual space.
  • information processing methods including controlling the presentation by objects.
  • control unit includes a communication unit, a display unit, and a control unit that controls the display unit to display an image of a virtual space received from the information processing device by the communication unit.
  • a control unit that controls the display unit to display an image of a virtual space received from the information processing device by the communication unit.
  • FIG. 1 It is a figure which shows the structural example of the information processing system by one Embodiment of this disclosure. It is a figure which shows an example of the case where a virtual space is composed of a plurality of virtual rooms. It is a block diagram which shows an example of the configuration of the server and the user terminal included in the information processing system by this embodiment. It is a figure explaining the communication between virtual spaces using a virtual window by this embodiment. It is a figure which shows the arrangement example of the virtual camera by this embodiment. It is a figure which shows the display example of the image of the virtual space where the virtual window is arranged by this embodiment. It is a sequence diagram which shows an example of the flow of operation processing of an information processing system by this Embodiment.
  • FIG. 1 It is a figure which shows the structural example of the information processing system by another embodiment of this disclosure. It is a figure explaining the presentation of the unidirectional communication information using the virtual window by another embodiment. It is a flowchart which shows an example of the flow of operation processing of an information processing system by another embodiment. It is a figure which shows the display example of the image of the user viewpoint in the virtual space where the virtual window is arranged by another embodiment. It is a figure explaining the other presentation example of the communication information of a special room by another embodiment. It is a figure explaining the two-way dialogue between virtual spaces when there are a plurality of people in at least one virtual space by the application example of this embodiment. It is a figure which shows another example of the image of the user viewpoint in the room shown in FIG.
  • FIG. 1 is a diagram showing a configuration example of an information processing system according to an embodiment of the present disclosure.
  • the information processing system according to the present embodiment is a user terminal 10 (user terminals 10A, 10B ...) Used by each user, and a server that provides information on virtual space to each user terminal 10.
  • Has 20 The user terminal 10 and the server 20 communicate with each other via the network 30 to transmit and receive data.
  • the virtual space is presented using, for example, a non-transparent HMD (Head Mounted Display) that covers the user's field of view.
  • HMD Head Mounted Display
  • the user terminal 10 is realized by the HMD.
  • the HMD is attached to the user's head. Further, the HMD may have an image display unit for each of the left and right eyes of the user who wears the HMD.
  • the HMD By configuring the HMD to block the outside world of the user, it is possible to increase the virtual reality feeling (immersion feeling in the virtual space) at the time of viewing.
  • the HMD displays an image of the user's viewpoint in the virtual space. Such an image may be generated by the server 20 and displayed on the HMD in real time, or may be generated by the HMD based on the information acquired from the server 20.
  • the reality of the virtual world can be realized. Can be enhanced.
  • the HMD can also project different images to the left and right eyes, and can present a 3D image by displaying an image having parallax with respect to the left and right eyes.
  • the HMD can also use headphones to present information (voice) in virtual space not only to the user's vision but also to the auditory sense.
  • each virtual room is one of the virtual spaces, and the size of the space, the number of users, the shape of the 3D model to be arranged, and the like are not particularly limited.
  • FIG. 2 is a diagram showing an example of a case where a virtual space is composed of a plurality of virtual rooms.
  • the lounge 5-1 which corresponds to the entrance or the plaza of this virtual space and can be used by anyone, and the rooms 5-2A to 5-2C which can be moved from the lounge 5-1 ... And assume the case consisting of.
  • Room 5-2 may be a virtual room constructed as a room for each user individually, or may be a virtual room constructed as an event venue where a specific event is held.
  • the scene movement process is a process of rewriting all data in the virtual space such as background data.
  • a virtual space is composed of background data and a large number of virtual objects (including participant avatars).
  • Individual virtual objects include polygon mesh information, vertex information, material information, gloss and shadow rendering information, physical calculation information such as collision, friction, and light, 3D spatial coordinate position, animation, color information, transparency, and video.
  • Many parameters such as sound effects and control scripts are set, and when all are combined, a huge amount of setting data is created.
  • a virtual object in this embodiment, a "window" in which communication information of one or more other users in another virtual space is acquired and the acquired communication information is arranged in the virtual space in which the user is present. Assuming, it is displayed (drawn) in real time on a virtual window).
  • Communication information is information for communicating with the other party, and is assumed to be, for example, an image (video), voice, text, or the like.
  • FIG. 3 is a block diagram showing an example of the configuration of the server 20 and the user terminal 10 included in the information processing system according to the present embodiment. Hereinafter, each device will be specifically described.
  • the server 20 has a control unit 200, a communication unit 210, and a storage unit 220.
  • the communication unit 210 communicates with an external device by wire or wirelessly to transmit / receive data.
  • the communication unit 210 connects to the network 30 and transmits / receives data to / from the user terminal 10.
  • the communication unit 210 transmits information necessary for constructing the virtual space, image data from the user's viewpoint in the virtual space, information of other avatars participating in the virtual space, and the like to the user terminal 10.
  • An avatar is a virtual object that is placed in a virtual space as an alter ego of each user, and the user's operations and movements (movement of the entire body, movements of fingers, movements of feet, movements of the head, facial expressions, etc.) are It is reflected in the user's avatar in the virtual space.
  • the user's operation or movement can be detected by the sensor unit 120 of the user terminal 10, the controller held by the user, the sensor device attached to the user, a large number of cameras provided around the user, and the like.
  • the avatar may be a 2D live-action film or a 3DCG. Further, it may be a 3DCG generated by the Volumetric Capture technique, which is closer to a live-action image.
  • the Volumetric Capture technology is a technology that can generate 3DCG closer to a live-action image in real time from captured images and 3D data obtained by shooting a user with a large number of cameras in a real space.
  • the user's viewpoint in the virtual space may be an avatar viewpoint (in this case, the own avatar does not appear on the screen), or a place away from the avatar such that the own avatar appears on the screen. It may be a viewpoint from (in this case, the viewpoint follows the avatar).
  • the user viewpoint can be arbitrarily switched by the user.
  • the communication unit 210 is, for example, a wired / wireless LAN (Local Area Network), Wi-Fi (registered trademark), Bluetooth (registered trademark), a mobile communication network (LTE (Long Term Evolution)), 3G (third generation). (Mobile communication method), 4G (4th generation mobile communication method), 5G (5th generation mobile communication method)), etc. to communicate with an external device or network 30.
  • a wired / wireless LAN Local Area Network
  • Wi-Fi registered trademark
  • Bluetooth registered trademark
  • LTE Long Term Evolution
  • 3G third generation
  • Mobile communication method 4G (4th generation mobile communication method
  • 5G (5th generation mobile communication method) etc.
  • Control unit 200 The control unit 200 functions as an arithmetic processing unit and a control device, and controls the overall operation in the server 20 according to various programs.
  • the control unit 200 is realized by an electronic circuit such as a CPU (Central Processing Unit) or a microprocessor. Further, the control unit 200 may include a ROM (Read Only Memory) for storing programs to be used, calculation parameters, and the like, and a RAM (Random Access Memory) for temporarily storing parameters and the like that change as appropriate.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the control unit 200 also functions as a virtual space information providing unit 201 and a virtual window control unit 202.
  • the virtual space information providing unit 201 has a function of providing information on the virtual space to the user terminal 10 and displaying an image of the virtual space on the user terminal 10.
  • the image of the virtual space is an image (video) of the user's viewpoint in the virtual space.
  • the information in the virtual space provided by the virtual space information providing unit 201 is information used at least in the user terminal 10 to present an image of the virtual space from the user's point of view to the user's visual sense. For example, information necessary for constructing a virtual space (background data and various parameters of each virtual object), image data from the user's viewpoint in the virtual space, information on other avatars participating in the virtual space, and the like can be mentioned. Further, when the user enters a new virtual space by logging in or moving in space, the virtual space information providing unit 201 provides all the data (background data, CG of other avatars, etc.) for constructing the virtual space. Various parameters of the virtual space, etc.) may be presented to the user terminal 10. In this case, after the virtual space is constructed, the virtual space information providing unit 201 may continuously transmit difference information such as real-time position information and motion information of other avatars to the user terminal 10.
  • the image of the virtual space from the user's viewpoint displayed on the user terminal 10 may be generated by the virtual space information providing unit 201, or may be generated based on the information acquired by the user terminal 10 from the virtual space information providing unit 201. May be good. Further, when the virtual space information providing unit 201 generates an image of the virtual space from the user's viewpoint, the user's position information (for example, the position of the head), the posture information, and the motion information (for example) continuously transmitted from the user terminal 10 are generated. Based on the movement of the head and the movement of the limbs), the image of the virtual space may be generated after the user's viewpoint is made to follow the movement of the user in the real space. Further, the virtual space information provided by the virtual space information providing unit 201 may include voice information, vibration information, and the like.
  • the virtual space (for example, lounge 5-1 shown in FIG. 2, rooms 5-2A to 5-2C ”) may be constructed on the server 20 or on the user terminal 10 used by each user. Each may be done.
  • a virtual space shared by a large number of users that is, a large number of users can enter
  • a lounge 5-1 it may be constructed by the server 20 and a user's individual room (that is, only the user can enter).
  • each user terminal 10 may be constructed individually.
  • the virtual window control unit 202 has a function of controlling a virtual window that presents communication information in another virtual space.
  • Communication information is information for communicating with the other party, and is assumed to be, for example, an image (video), voice, text, or the like.
  • the virtual window control unit 202 displays (draws), in real time, the communication information of one or more other users acquired from another virtual space in the virtual window arranged in the virtual space where the user is present. It is possible to more easily present communication information in the virtual space and enhance the convenience of the virtual space. That is, it is possible to have a conversation with another user in another virtual space without moving in space, and the processing load and processing time (a huge amount of setting data of all virtual objects) that occurred in the case of space movement.
  • Processing load, processing time, etc. are reduced.
  • images videos
  • FIG. 4 shows a diagram illustrating communication between virtual spaces using a virtual window according to the present embodiment.
  • the virtual window control unit 202 uses a virtual window 54 (for example, 3DCG) in each virtual space.
  • the virtual object to be generated) and the virtual camera 52 (shooting position for shooting the virtual space) are arranged respectively.
  • the virtual window control unit 202 controls to display the video captured by each virtual camera 52 on the virtual window 54 of the other party's virtual space in real time (for example, so-called live streaming distribution may be used).
  • the virtual window control unit 202 displays the image of the user 50A taken by the virtual camera 52A arranged in the room 5-2A on the virtual window 54B arranged in the room 5-2B.
  • the virtual window control unit 202 displays an image of the user 50B taken by the virtual camera 52B arranged in the room 5-2B on the virtual window 54A arranged in the room 5-2A.
  • the voice is also picked up and output in the virtual space of the other party.
  • each user can have a conversation (communication) using video and audio through the virtual window 54.
  • a conversation using video and audio is realized here as an example, the present embodiment is not limited to this, and a conversation using text (chat) is performed via the virtual window 54. May be good. Further, communication using at least one of video, audio, and text may be performed through the virtual window 54.
  • the shape, size, and placement location of the virtual window 54 are not particularly limited. Further, in the present specification, it is assumed that a virtual window 54, which is a virtual object imitating a “window”, is used, but the present disclosure is not limited to this, and communication information acquired from another virtual space is presented. It may be a virtual object having an area. For example, communication information acquired from another virtual space may be presented by a virtual object such as a screen, a table, a wall, a ceiling, a door, or a display.
  • the virtual camera 52 may be arranged in the window.
  • the arrangement of the virtual camera 52 is a setting of a shooting position and a shooting direction for shooting the virtual space.
  • the virtual camera 52 is illustrated in order to clearly indicate the shooting position and direction, but it is not an object that is actually drawn in the virtual space, and even if the virtual camera 52 is placed in front of the user, the user Does not interfere with your view.
  • the virtual camera 52 is behind the virtual window 54 (or the position of the virtual window 54) and is at the height of the user's eyes (that is, the user's viewpoint position in the virtual space). In FIG. 5, it may be arranged at a position corresponding to the viewpoint E).
  • the virtual window control unit 202 shoots the user from the back side of the virtual window 54 with the virtual camera 52, the virtual window 54 arranged in the virtual space is excluded from the shot image, so that the user facing the virtual window 54 faces the virtual window 54. Can be photographed from the front (through the virtual window 54).
  • the virtual camera 52 is adjusted to the height of the user's viewpoint as an example, it may be adjusted to the position (height) of the head of the user (avatar) as another example. Further, the virtual camera 52 may be arranged at the position of the eyes (or head) of the other user reflected in the virtual window 54 to photograph the user facing the virtual window 54. In this way, the virtual camera 52 (shooting position) can be freely arranged even in a position where it is in the way or cannot be installed in the real space, and users who talk through the virtual window 54 look at each other. It will be possible to match.
  • the storage unit 220 is realized by a ROM (Read Only Memory) that stores programs and arithmetic parameters used for processing of the control unit 200, and a RAM (Random Access Memory) that temporarily stores parameters and the like that change as appropriate.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the configuration of the server 20 has been specifically described above, the configuration of the server 20 according to the present disclosure is not limited to the example shown in FIG.
  • the server 20 may be realized by a plurality of devices.
  • the server 20 is used as an example of the information processing device that provides the information of the virtual space and controls the display of the virtual space, the information processing device is not limited to the server on the network.
  • the information processing device may be realized by an intermediate server (distributed server), a local edge server, a dedicated terminal arranged in the same space as the user terminal 10, a smartphone, a tablet terminal, a PC (personal computer), or the like.
  • the server 20 are an intermediate server, a local edge server, a user terminal 10, a dedicated terminal arranged in the same space as the user terminal 10, a smartphone, a tablet terminal, a PC (personal computer), or the like. May be realized by.
  • the user terminal 10 has a control unit 100, a communication unit 110, a sensor unit 120, a display unit 130, a speaker 140, and a storage unit 150.
  • the user terminal 10 according to the present embodiment can be realized by a non-transparent HMD that displays an image of a virtual space.
  • the communication unit 110 communicates with an external device by wire or wirelessly to transmit / receive data.
  • the communication unit 110 connects to the network 30 and transmits / receives data to / from the server 20 on the network.
  • the communication unit 110 receives, for example, information on the virtual space from the server 20. Further, the communication unit 110 transmits the sensing data (position information, posture information, motion information, voice, operation information, etc.) detected by the sensor unit 120 provided in the user terminal 10 to the server 20.
  • the communication unit 110 is, for example, a wired / wireless LAN (Local Area Network), Wi-Fi (registered trademark), Bluetooth (registered trademark), a mobile communication network (LTE (Long Term Evolution)), 3G (third generation). (Mobile communication method), 4G (4th generation mobile communication method), 5G (5th generation mobile communication method)), etc. to communicate with an external device or network 30.
  • a wired / wireless LAN Local Area Network
  • Wi-Fi registered trademark
  • Bluetooth registered trademark
  • LTE Long Term Evolution
  • 3G third generation
  • Mobile communication method 4G (4th generation mobile communication method
  • 5G (5th generation mobile communication method) etc.
  • the sensor unit 120 has a function of sensing various information about the user.
  • the sensor unit 120 may be a camera 122, a microphone (hereinafter referred to as a microphone) 124, and a motion sensor 126.
  • a microphone hereinafter referred to as a microphone
  • a plurality of each sensor may be provided.
  • the camera 122 may be an outward-facing camera that captures the real space and an inward-facing camera that captures the user's eyes.
  • the outward-facing camera is used, for example, when detecting the position (self-position) of the user terminal 10.
  • Self-position recognition is generally performed by an outside-in method using a sensor installed outside (environmental side) of the user terminal 10, an inside-out method using a sensor mounted on the user terminal 10, and an inside-out method. , There is a hybrid method that is a combination of these.
  • the outward-facing camera is also used to detect surrounding obstacles and the like.
  • the inward-facing camera is used, for example, to detect information about the user's line of sight (line-of-sight direction, eye movement, etc.).
  • the microphone 124 collects the voice spoken by the user and outputs the voice data to the control unit 100.
  • the motion sensor 126 is used when detecting the posture and movement of the user.
  • the motion sensor 126 may include an accelerometer, a gyro sensor, and a geomagnetic sensor.
  • the sensor unit 120 may have a distance measuring sensor that measures the distance from a real object existing in the surroundings in the real space by using an infrared sensor or an ultrasonic sensor. Further, the sensor unit 120 may have a biological sensor that detects heartbeat, pulse, sweating amount, respiration, blood pressure, brain wave, myoelectric value, fingerprint, palm print, and the like. Further, the sensor unit 120 may have a positioning unit that calculates an absolute or relative position of the user terminal 10. For the positioning unit, for example, a GNSS (Global Navigation Satellite System) that receives radio waves from an artificial satellite and detects the current position where the user terminal 10 is present may be used.
  • GNSS Global Navigation Satellite System
  • a method of detecting a position by transmission / reception with Wi-Fi (registered trademark), Bluetooth (registered trademark), a mobile phone / PHS / smartphone, or short-range communication may be used.
  • the positioning unit may estimate information indicating a relative change in position based on the detection result of the acceleration sensor, the angular velocity sensor, or the like.
  • the sensor unit 120 may have a touch sensor, a switch, a button, or the like. These function as an operation input unit for detecting a user operation.
  • Display unit 130 For example, when the user terminal 10 is configured as an HMD, the display unit 130 includes left and right screens fixed to the left and right eyes of the user, and has a function of displaying an image for the left eye and an image for the right eye.
  • the screen of the display unit 130 is composed of, for example, a display panel such as a liquid crystal display (LCD), an organic EL ((Electro Luminescence) display), or a laser scanning display such as a direct drawing display of the retina.
  • the display unit 130 may include an imaging optical system that magnifies and projects the display screen and forms an enlarged imaginary image having a predetermined angle of view on the pupil of the user.
  • the speaker 140 has a function of outputting sound.
  • the speaker 140 may be configured as a headphone, earphone, or bone conduction speaker.
  • the storage unit 150 is realized by a ROM (Read Only Memory) that stores programs and arithmetic parameters used for processing of the control unit 100, and a RAM (Random Access Memory) that temporarily stores parameters and the like that change as appropriate.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • Control unit 100 The control unit 100 functions as an arithmetic processing unit and a control device, and controls the overall operation in the user terminal 10 according to various programs.
  • the control unit 100 is realized by an electronic circuit such as a CPU (Central Processing Unit) or a microprocessor. Further, the control unit 100 may include a ROM (Read Only Memory) for storing programs to be used, calculation parameters, and the like, and a RAM (Random Access Memory) for temporarily storing parameters and the like that change as appropriate.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • control unit 100 controls to transmit the sensing data (position information, motion information, voice, operation information, etc.) detected by the sensor unit 120 from the communication unit 110 to the server 20. Further, the control unit 100 may control the communication unit 110 to transmit the information calculated based on the sensing data detected by the sensor unit 120 (self-position and posture estimation information, etc.) to the server 20.
  • control unit 100 controls to display the image of the user's viewpoint in the virtual space on the display unit 130 based on the information of the virtual space received from the server 20.
  • the image of the user's viewpoint in the virtual space displayed on the display unit 130 may be generated by the control unit 100 based on the information of the virtual space received from the server 20.
  • the control unit 100 determines the virtual space based on the information of the virtual space received from the server 20 (background data, parameters of various virtual objects (including avatars of other users) existing in the virtual space, etc.). To build. Information and the like regarding the movement of the avatar of another user can be transmitted from the server 20 in real time.
  • control unit 100 may control the communication unit 110 to receive the image of the user's viewpoint in the virtual space generated by the server 20 and display it on the display unit 130.
  • control unit 100 can transmit the sensing data detected by the sensor unit 120 from the communication unit 110 to the server 20 and receive an image of the virtual space reflecting the change in the position and posture of the user in the real space.
  • control unit 100 may perform control to display the received virtual space image on the display unit 130 after correcting it based on the most recently acquired sensing data for delay compensation by communication.
  • the image of the virtual space whose display is controlled by the control unit 100 may include a virtual window 54 that presents communication information in another virtual space.
  • FIG. 6 shows an example of displaying an image of a virtual space in which the virtual window 54 according to the present embodiment is arranged.
  • the example shown on the left of FIG. 6 is an example of an image of the user 50A viewpoint in the room 5-2A displayed on the display unit 130A provided on the user terminal 10A of the user 50A in the room 5-2A.
  • the image of the user 50A viewpoint in the room 5-2A includes the display of the virtual window 54A arranged in the room 5-2A.
  • the video of another user here, user 50B (avatar)
  • another virtual space here, room 5-2B
  • the server 20 performs a process of transmitting the video and audio of the user 50B (avatar) captured in the room 5-2B to the user terminal 10A in real time. You may.
  • the example shown on the right side of FIG. 6 is an example of an image of the user 50B viewpoint in the room 5-2B displayed on the display unit 130B provided on the user terminal 10B of the user 50B in the room 5-2B.
  • the image of the user 50B viewpoint in the room 5-2B includes the display of the virtual window 54B arranged in the room 5-2B.
  • the video of another user here, user 50A (avatar)
  • another virtual space here, room 5-2A
  • the server 20 performs a process of transmitting the video and audio of the user 50A (avatar) captured in the room 5-2A to the user terminal 10B in real time. You may.
  • the configuration of the user terminal 10 is not limited to the example shown in FIG.
  • the user terminal 10 may be realized by a plurality of devices.
  • a system configuration including a display device (having at least a display unit 130) realized by an HMD or the like and an information processing terminal (having at least a control unit 100) realized by a smartphone, a tablet terminal, a PC or the like. May be realized by.
  • at least a part of the sensor unit 120 may be provided in an external device (wearable device or the like worn by the user) that communicates with the user terminal 10. Further, the sensing data detected by the controller held by the user may be input to the user terminal 10.
  • each process by the control unit 100 described above is realized by a server 20 on the network, an intermediate server, a local edge server, a dedicated terminal arranged in the same space as the user, a smartphone, a tablet terminal, or an external device such as a PC. May be done.
  • FIG. 7 is a sequence diagram showing an example of the flow of operation processing of the information processing system according to the present embodiment.
  • the user terminal 10A accesses the server 20 that provides the information of the virtual space and logs in to the virtual space (step S103). Specifically, user authentication or the like can be performed based on a user ID or the like registered in advance.
  • the server 20 generates an image of the lounge, which is one of the virtual spaces (an image of the user's viewpoint in the lounge), and transmits it to the user terminal 10A (step S106).
  • the lounge is constructed by the server 20, and the server 20 sets the first user viewpoint by assuming that the user has entered from a predetermined entrance (entrance) in the lounge.
  • the present embodiment is not limited to this, and the user may arbitrarily select which virtual space to enter after logging in.
  • the user terminal 10A displays an image of the lounge (an image of the user's viewpoint in the lounge) on the display unit 130 (step S109).
  • the user viewpoint may be the viewpoint of the avatar drawn in the virtual space as the user's alter ego (in this case, the user's avatar is not included in the user's field of view), or the user's avatar is included in the field of view. It may be a viewpoint.
  • the user's viewpoint can be switched arbitrarily.
  • the server 20 transmits the information of the room A construction to the user terminal 10A (step S115).
  • a room virtual space
  • the server 20 constructs the room A, generates an image of the user A viewpoint in the room A, and transmits the image to the user terminal 10A.
  • the user terminal 10A constructs a room A based on the information of the virtual space received from the server 20 (for example, background data, parameters of each virtual object, etc.), and generates and displays an image of the user A viewpoint in the room A.
  • A is displayed on the unit 130 (step S118).
  • the user B logs in and the room B is constructed, and the image of the user B viewpoint in the room B is displayed on the display unit 130B of the user terminal 10B (step S121).
  • the user terminal 10A responds to the operation of the user A to the user B (user terminal 10B) via the server 20.
  • a dialogue request is made to the user (steps S124 and S127).
  • the dialogue request is made from the user A to the user B is shown, but of course, the dialogue request may be made from the user B to the user A.
  • the server 20 receives the dialogue permission from the user B (step S130), the server 20 installs the virtual camera and the virtual window in the room A and the room B, respectively (steps S133 and S136).
  • the server 20 acquires communication information by a virtual camera in each room (steps S139 and S142), transmits the acquired communication information to the other party's room (steps S145 and S151), and installs the acquired communication information in the other party's room. It is presented (display output or audio output) through the virtual window (steps S148, S154).
  • Communication information may be transmitted by live streaming. Further, the standard used for such live streaming is not particularly limited. If only text or voice is acquired as communication information, it may not be necessary to install a virtual camera (imaging position) in each room.
  • the information processing system enables two-way dialogue in a plurality of virtual spaces without moving in space.
  • the server 20 cancels the installation of the virtual window (deletes the settings of the virtual window and the virtual camera).
  • the instruction to end the dialogue may be given by the user A or the user B.
  • the server 20 may always have a virtual window installed in each room.
  • the server 20 opens a virtual window when interacting with a user in another room (starts transmission / reception of video to enable the dialogue function), and closes the virtual window when the dialogue ends (ends transmission / reception of video). To disable the dialogue function).
  • each room is not an individual room, but a virtual space entered by a user having a predetermined authority, and may be constructed by the server 20.
  • the room is moved from the lounge to each room, the present embodiment is not limited to this, and a virtual space without a lounge may be used, or any room can be selected from the beginning when logging in to the virtual space. You may do so.
  • a trigger for installing a virtual window and starting a two-way dialogue in a plurality of virtual spaces "dialogue request" and "dialogue permission" are given in the example shown in FIG. 7, but the trigger for starting the two-way dialogue is The trigger is not limited to this, and some other event may be used as a trigger.
  • two-way dialogue in a plurality of virtual spaces is realized through a virtual window, but the method of using the virtual window is not limited to this, and for example, the state of another virtual space can be viewed from the virtual window.
  • One-way communication of communication information is also possible.
  • the server 20 controls to display an image captured by a virtual camera arranged in another virtual space in a virtual window installed in a virtual space different from the other virtual space by live streaming. I do. This makes it possible to more easily present communication information in other virtual spaces and enhance the convenience of the virtual space.
  • a performer who is a distributor as a master client performs some event such as a music concert in a virtual space
  • a user who is a viewer as a general client participates.
  • a master client is a user who has a special authority different from that of a general client.
  • the master client can arbitrarily change the interior of the virtual space (selecting the background, arranging each virtual object, etc.), restricting the entry and exit of general users to the virtual space, starting distribution from the virtual space, and so on. It is possible to control the end, control the entire virtual space such as music played in the virtual space and lighting in the virtual space.
  • the configuration of information processing according to another embodiment of the present disclosure includes a server 20, user terminals 10 (user terminals 10A to 10B ...) Used by each user, and a master client.
  • a configuration including a performer terminal 12 used by a certain performer (distributor) can be mentioned.
  • the basic configuration of the performer terminal 12 is the same as the configuration shown in FIG.
  • the movement of the performer is detected by a camera provided in the performer terminal 12 and a large number of cameras arranged around the performer, and is reflected in the movement of the performer's avatar in the virtual space.
  • the detected data may be data showing the three-dimensional movement of the performer.
  • the facial expression of the performer may be tracked by the camera and reflected in the facial expression of the performer's avatar in the virtual space.
  • the voice of the performer may be picked up by a microphone and output as the voice of the performer's avatar.
  • the performer terminal 12 may be realized by a non-transparent HMD.
  • the movement of the performer may be sensed by various sensors provided in the controller held by the performer or various sensors provided in the device mounted on the performer.
  • the performer's avatar drawn in the virtual space may be a 2D live-action film, a 3DCG representing a fictitious character, or the like, or a 3DCG generated by the Volumetric Capture technique, which is closer to the live-action film. May be.
  • FIG. 9 is a diagram illustrating presentation of unidirectional communication information using a virtual window according to another embodiment.
  • a concert by the performer 60 is being performed in the event room 5-2E, for example.
  • the concert being held in the event room 5-2E is completed, only the user 50C and the performer 60 selected from the general viewers by the performer 60 move to the special room 5-2D, triggered by the end of the concert. ..
  • the remaining general viewers stay in the event room 5-2E, and the state of the special room 5-2D is live-streamed by the virtual window 54E installed in the event room 5-2E.
  • the image displayed on the virtual window 54E is an image captured by the virtual camera 52D arranged in the special room 5-2D.
  • the control of presenting the state of other related virtual spaces in real time from the virtual window can be done.
  • the method of selecting the user to be moved to the special room 5-2D is not particularly limited, but for example, the user may be selected according to the billing reward amount, or the user who is most excited by detecting the excitement (loud voice, (Movement is large, etc.) may be selected, a user pointed by the performer 60 may be selected in the virtual space, or a user who the performer 60 calls a name and replies may be selected.
  • the pointing motion of the performer 60 (avatar) in the virtual space is controlled based on, for example, the motion information of the finger of the performer 60 acquired from the bone information of the performer 60 (human) in the real space. It is assumed that the server 20 draws the fingers of the avatar of the performer 60 in the special room 5-2D (virtual space) based on the motion information of the fingers of the performer 60, and selects a user who collides in the pointing direction.
  • FIG. 10 is a flowchart showing an example of the flow of operation processing of the information processing system according to another embodiment of the present disclosure.
  • a live event for example, live distribution of a music concert
  • the server 20 controls the event room 5-2E according to the input information from the performer terminal 12 of the performer 60. More specifically, the server 20 constructs the event room 5-2E with the background and virtual objects selected by the performer 60, draws the avatar of the performer 60 in the event room 5-2E, and moves the performer 60.
  • the movement of the avatar of the performer 60 is controlled according to the situation, music is played in the event room 5-2E according to the instruction of the performer 60, and the lighting is controlled.
  • the server 20 draws an avatar of each user (general viewer) participating in the event room 5-2E, and controls the movement of each user's avatar according to the movement of each user.
  • the server 20 generates an image from the viewpoint of each user (general viewer) (for example, the viewpoint of each user's avatar) and transmits it to each user terminal 10 in real time (live streaming distribution may be used).
  • the server 20 generates an image from the viewpoint of the performer 60 (for example, the viewpoint of the avatar of the performer 60) and transmits it to the performer terminal 12 in real time (live streaming distribution may be used).
  • the server 20 accepts the user's selection by the performer 60 (step S206).
  • the performer 60 can select a user to be moved to the special room from each user (general viewer) participating in the event room 5-2E. One user may be selected, or two or more users may be selected. Further, although it is stated here that the performer 60 selects as an example, a distributor having a predetermined authority existing separately from the performer 60 may select the performer 60, and the server 20 automatically selects based on a predetermined condition. May be selected.
  • the server 20 moves the performer 60 and the selected user to the special room 5-2D (step S212).
  • Such movement is spatial movement.
  • the server 20 constructs the special room 5-2D, and draws the avatar of the performer 60 and the avatar of the selected user (user 50C in the example shown in FIG. 9) in the special room 5-2D.
  • the server 20 transmits images of each viewpoint (performer 60 viewpoint, user 50C viewpoint) in the special room 5-2D to the performer terminal 12 and the user terminal of the selected user. Since the selected user 50C moves to the special room 5-2D, it becomes possible to interact with the performer 60 who has also moved to the special room 5-2D.
  • the server 20 acquires communication information (audio and video) between the performer and the user 50C by the virtual camera 52D installed in the special room 5-2D (step S215). That is, the server 20 uses the virtual camera 52D to capture a state in which the performer and the user 50C are interacting with each other, and acquires the captured image.
  • the location of the virtual camera 52D is not particularly limited, but for example, the server 20 may arrange the virtual camera 52D so as to shoot from a position where the performer 60 and the user 50C are overlooked. Alternatively, the server 20 may arrange the virtual camera 52D from the viewpoint of the user 50C interacting with the performer 60, or may arrange the virtual camera 52D at a position where only the performer 60 is photographed in close proximity. Further, a plurality of virtual cameras 52D may be installed in the special room 5-2D, and the staff on the distributor side may switch arbitrarily.
  • the server 20 presents the communication information of the special room 5-2D from the virtual window 54E installed in the event room 5-2E, which is a virtual space related to the special room 5-2D (step S218).
  • the virtual window 54E installed in the event room 5-2E is realized by a large screen (virtual object) so as to be visible to a large number of general viewer users remaining in the event room 5-2E, and is above the space. It may be arranged.
  • FIG. 11 shows an example of displaying an image from the user 50A viewpoint in the virtual space (event room 5-2E) in which the virtual window 54E according to another embodiment is arranged.
  • the figure shown on FIG. 11 is an image from the viewpoint of the user 50A when a live event such as a music concert is being performed by the performer 60 in the event room 5-2E.
  • Such an image may be displayed on the display unit 130A of the user terminal 10A.
  • the performer 60 and the selected user 50C move to another virtual space (special room 5-2D) branched from the event room 5-2E. Therefore, the performer 60 and the selected user 50C are absent in the event room 5-2E.
  • the image shown in the lower part of FIG. 11 is displayed on the display unit 130A of the user terminal 10A.
  • the image shown at the bottom of FIG. 11 is an image of the user 50A viewpoint in the event room 5-2E (virtual space) in which the virtual window 54E for displaying the image of the special room 5-2D in real time is arranged.
  • a state in which a plurality of other users are communicating in another virtual space branched from the virtual space in which the user is located can be seen without spatial movement. , It becomes possible to watch in real time through the virtual window 54 arranged in the virtual space where the user is.
  • FIG. 12 is a diagram illustrating another presentation example of communication information of the special room 5-2D according to another embodiment.
  • the server 20 may close the event room 5-2E triggered by the end of the live event, and move the general viewer user who was in the event room 5-2E to another room F as shown in FIG. ..
  • the other room F is positioned outside the event venue, and may be, for example, a goods sales venue for selling event goods. Only ticket purchasers can enter the event venue, but anyone can enter the goods sales venue.
  • the other room F may be positioned as a viewing room (sub-room) in which the state of the special room 5-2D can be seen.
  • the other room F may be a lounge (see FIG. 2) positioned as the center of the virtual space.
  • the communication information acquired in the special room 5-2D is not limited to the presentation in the virtual window 54E arranged in the virtual space, and as shown in FIG. 12, a smartphone, a tablet terminal, and a transparent glasses type. It may be presented (live streaming distribution) on a user terminal 10G realized by a display device such as a display, a PC, a TV device, or a projection device. This makes it possible to increase the number of viewers.
  • end of live event is mentioned as a trigger for starting a process of unidirectionally distributing communication information of another virtual space branched from the virtual space from a virtual window arranged in the virtual space.
  • a trigger is an example, and the present embodiment is not limited to this.
  • the end of another predetermined event may be a trigger, the start of a predetermined event may be a trigger, the elapse of a predetermined time may be a trigger, or the occurrence of a predetermined event may be a trigger. May be good.
  • FIG. 13 is a diagram illustrating a two-way dialogue between virtual spaces when a plurality of people are present in at least one virtual space according to an application example of the present embodiment.
  • the server 20 arranges the virtual cameras 52A-1 to 52A-3 that image the users 50A, 50C, and 50D of the room A in the room A, respectively, and obtains the virtual cameras 52A-1 to 52A-3.
  • the captured image is controlled to be displayed in real time on the virtual window 54B of the room B.
  • the server 20 may use the background of one user as the background, and the other users may erase the background and perform a composite display.
  • the images of may be displayed side by side. Further, when displaying the images of three people side by side, the server 20 may preferentially display the image of the talking user in a large size.
  • the camera angle for shooting a plurality of users in the room A may be adjusted to the line of sight of each user as shown in FIG. 13 (each user is shot from the front), or one virtual from a bird's-eye view of the plurality of users. You may shoot with a camera.
  • the camera angle may be arbitrarily switched by an operation by the user (gesture operation, button operation, voice input operation, etc.).
  • FIG. 14 is a diagram showing another example of the image of the user 50A viewpoint in the room A shown in FIG.
  • the display unit 130A of the user terminal 10A of the user 50A has an image of the user 50B (avatar) of the room B captured on the virtual window 54A-1 arranged in the room A (virtual space).
  • the captured image of the user 50C (avatar) and the captured image of the user 50D (avatar) in the same room A participating in the dialogue are displayed in real time.
  • the image displayed on the virtual window 54 is not limited to the real-time captured image in the virtual space, and any image (still image and moving image) may be displayed by user operation (image sharing).
  • the shared image may be an image related to the user participating in the dialogue (for example, a video of an event in which all members participated).
  • the staff AI artificial intelligence
  • the staff AI is a character that can automatically interact with the user by natural language processing or the like prepared by the system side.
  • the angle of the virtual camera 52 that captures the image displayed on the virtual window 54 is not particularly limited. Further, a plurality of virtual cameras 52 may be arranged for one user so that the user can arbitrarily switch the camera angle.
  • the information processing system covers a wide range of fields such as entertainment, education, sports, business, work support, architecture, research, medical care, volunteer activities, ceremonial occasions, public institutions, finance, disasters, and space development. Applicable.
  • the information processing system can be applied to a case where an instructor in a remote place gives an instruction by nonverbal communication (nonverbal communication) of work (for example, an instruction by gesture or the like) to a worker.
  • a gesture of the instructor for example, a camera or a sensor attached to the hand detects fine movements of the hand, and a virtual object of the finely moving hand can be drawn in the virtual space.
  • the work to be instructed may be a work in a virtual space or a work in a real space.
  • the instructor giving instructions by nonverbal communication in another virtual space is displayed in the virtual window arranged in the virtual space, so the worker displays it in the virtual window. It is possible to work in the virtual space while receiving instructions from the instructor.
  • the worker may wear a transmissive HMD (for example, a transmissive glasses-type display) and display the virtual window in AR.
  • a transmissive HMD for example, a transmissive glasses-type display
  • the avatar drawn in the virtual space according to the present embodiment may be a 3DCG (hereinafter, also referred to as a volumetric avatar) generated by the Volumetric Capture technique, which is closer to a live-action image.
  • a volumetric avatar When using a volumetric avatar, it is possible to check the movement of the entire body and the movement of the fingertips of the user in detail. Therefore, for example, it is possible for a training coach, a golf class teacher, or the like to observe the whole body movement of the student volumetric avatar and give guidance on the corrected part of the body movement.
  • other students are instructing students (volumetric avatars) in the tutoring room (not necessarily volumetric avatars, but volumetric avatars are preferable when setting an example).
  • Live streaming may be delivered to a virtual window arranged in a virtual space such as a waiting room.
  • two-way dialogue or unidirectional distribution may be performed through a virtual window with another user who is in a remote place or a place where it takes time to move. good.
  • the travel time to the place where the other user is is saved, and the convenience of the virtual space is improved.
  • the user terminal 10 is not limited to the non-transparent HMD, and may be a transmissive AR glass.
  • the virtual window (virtual object) may be displayed in AR (Augmented Reality) (superimposed display in real space). This eliminates the processing burden of constructing the virtual space in the user terminal 10 and the server 20 when interacting with other users in the virtual space.
  • the information processing system according to this embodiment can be applied to XR experiences such as VR, AR, and MR (Mixed Reality).
  • two-way dialogue and unidirectional distribution are not limited to between two virtual spaces, and can be performed between three or more virtual spaces via a virtual window.
  • the communication information presented by the virtual window is not limited to the two-dimensional image, but may be a 3D image (stereoscopic image).
  • the display unit 130 of the user terminal 10 has left and right screens fixed to the left and right eyes of the user and has a function of displaying an image for the left eye and an image for the right eye, it is possible to provide a stereoscopic image. It is possible.
  • the stereoscopic image acquired from another virtual space may be a 360-degree stereoscopic image or a 180-degree stereoscopic image. Further, the stereoscopic image acquired from another virtual space may be a Top and Bottom method arranged vertically or a Side by Side method arranged horizontally.
  • the server 20 distributes stereoscopic video of another virtual space to the virtual space by stereo VR streaming.
  • the server 20 draws a stereoscopic image of another space in the center of the field of view from the user's viewpoint, and draws the background of the virtual space in which the user is present in the periphery thereof, so that the user does not move in space. In the virtual space where you are, you can watch the images of other virtual spaces.
  • the present technology can also have the following configurations.
  • (1) Equipped with a control unit that controls the display of virtual space
  • the control unit Acquire communication information of one or more other users in another virtual space, An information processing device that controls the presentation of the acquired communication information by a virtual object arranged in the virtual space.
  • (2) The control unit
  • the information processing device according to (1) above which controls to acquire communication information of one or more users in the virtual space and output it to the other virtual space.
  • the control unit The information processing according to (1) or (2) above, which acquires communication information of a plurality of other users performed in the other virtual space and controls the presentation by the virtual object arranged in the virtual space.
  • Device (4) The information processing apparatus according to any one of (1) to (3), wherein the communication information includes at least one of a captured image, text, and voice.
  • the control unit controls the virtual object to display one or more captured images captured in the other virtual space included in the communication information, any one of the above (1) to (4).
  • the information processing device described in. (6) The control unit arranges a virtual camera at a position facing the user's viewpoint in the virtual space, and the captured image of the user's avatar taken by the virtual camera is used as communication information of the user in the other virtual space.
  • the information processing apparatus according to any one of (1) to (5) above, which controls output.
  • the control unit acquires communication information of one or more other users in the other virtual space branched from the virtual space triggered by the end of a predetermined event, and presents the communication information by a virtual object arranged in the virtual space.
  • the information processing apparatus controls. (8)
  • the control unit controls to move one or more specific users out of one or more users in the virtual space to the other virtual space when the other virtual space branches.
  • the information processing apparatus according to 7).
  • the information processing device further includes a communication unit.
  • Processing equipment (10)
  • the information processing device further includes a display unit.
  • the information processing device according to any one of (1) to (8), wherein the control unit generates an image of a user's viewpoint in the virtual space and controls the display on the display unit.
  • An information processing terminal having a display unit and a communication unit
  • An information processing device having a control unit and a communication unit that controls the display of the virtual space on the display unit, and Equipped with The control unit Acquire communication information of one or more other users in another virtual space, An information processing system that controls to present the acquired communication information by a virtual object arranged in the virtual space displayed on the display unit.
  • the processor Controlling the display of virtual space and Controlling to acquire communication information of one or more other users in another virtual space and presenting the acquired communication information by a virtual object arranged in the virtual space.
  • Information processing methods including.
  • Control unit 110 Communication unit 120
  • Sensor unit 122 Camera 124
  • Microphone 126 Motion sensor 130 Display unit 140
  • Speaker 150 Storage unit 20
  • Server 200 Control unit 201
  • Virtual space information provision unit 202 Virtual window control unit 210
  • Communication unit 220 Storage unit

Abstract

仮想空間の表示を制御する制御部を備え、前記制御部は、他の仮想空間における1以上の他ユーザのコミュニケーション情報を取得し、前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理装置を提案する。

Description

情報処理装置、情報処理システム、情報処理方法、および情報処理端末
 本開示は、情報処理装置、情報処理システム、情報処理方法、および情報処理端末に関する。
 近年普及しているVR(Virtual Reality)アプリケーションでは、3Dモデルが配置された仮想空間内を、ユーザが任意の視点から視聴することができる。このようなVRの世界は、主にユーザの視界を表示部で覆う非透過型のHMD(Head Mounted Display)を用いて提供され得る。
 また、仮想空間を提供する技術に関し、例えば下記特許文献1では、仮想空間に配置されたカメラのオブジェクト(仮想物体)をユーザが操作して仮想空間内を撮影すると、撮影により生成された写真画像がモニタのオブジェクト(仮想物体)に描画される技術が開示されている。
特開2019-021122号公報
 ここで、先行技術文献では1つの仮想空間内における撮影体験について言及されているが、異なる仮想空間とコミュニケーションを取ることについては考慮されていない。
 そこで、本開示では、他の仮想空間におけるコミュニケーション情報をより簡便に提示し、仮想空間の利便性を高めることが可能な情報処理装置、情報処理システム、情報処理方法、および情報処理端末を提案する。
 本開示によれば、仮想空間の表示を制御する制御部を備え、前記制御部は、他の仮想空間における1以上の他ユーザのコミュニケーション情報を取得し、前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理装置を提案する。
 本開示によれば、表示部と通信部を有する情報処理端末と、前記表示部への仮想空間の表示を制御する制御部と通信部を有する情報処理装置と、を備え、前記制御部は、他の仮想空間における1以上の他ユーザのコミュニケーション情報を取得し、前記取得したコミュニケーション情報を、前記表示部に表示する前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理システムを提案する。
 本開示によれば、プロセッサが、仮想空間の表示を制御することと、他の仮想空間における1以上の他ユーザのコミュニケーション情報を取得し、前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行うことと、を含む、情報処理方法を提案する。
 本開示によれば、通信部と、表示部と、前記通信部により情報処理装置から受信した仮想空間の画像を前記表示部に表示する制御を行う制御部と、を備え、前記制御部は、他の仮想空間における1以上の他ユーザのコミュニケーション情報が、前記仮想空間に配置された仮想オブジェクトにより提示される画像を表示する、情報処理端末を提案する。
本開示の一実施形態による情報処理システムの構成例を示す図である。 仮想空間が複数の仮想ルームにより構成される場合の一例を示す図である。 本実施形態による情報処理システムに含まれるサーバおよびユーザ端末の構成の一例を示すブロック図である。 本実施形態による仮想窓を利用した仮想空間同士のコミュニケーションについて説明する図である。 本実施形態による仮想カメラの配置例を示す図である。 本実施形態による仮想窓が配置された仮想空間の画像の表示例を示す図である。 本実施形態による情報処理システムの動作処理の流れの一例を示すシーケンス図である。 本開示の他の実施形態による情報処理システムの構成例を示す図である。 他の実施形態による仮想窓を利用した単方向のコミュニケーション情報の提示について説明する図である。 他の実施形態による情報処理システムの動作処理の流れの一例を示すフローチャートである。 他の実施形態による仮想窓が配置された仮想空間におけるユーザ視点の画像の表示例を示す図である。 他の実施形態による特別ルームのコミュニケーション情報の他の提示例について説明する図である。 本実施形態の応用例による少なくとも一方の仮想空間に複数人居る場合の仮想空間同士における双方向対話について説明する図である。 図13に示すルームにおけるユーザ視点の画像の他の例を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、説明は以下の順序で行うものとする。
 1.概要
 2.構成例
 3.動作処理
 4.他の実施形態
 5.応用例
 6.補足
 <<1.概要>>
 本開示の一実施形態として、他の仮想空間におけるコミュニケーション情報をより簡便に提示し、仮想空間(VR:Virtual Reality)の利便性を高める仕組みについて説明する。
 図1は、本開示の一実施形態による情報処理システムの構成例を示す図である。図1に示すように、本実施形態による情報処理システムは、各ユーザが利用するユーザ端末10(ユーザ端末10A、10B・・・)、および、仮想空間の情報を各ユーザ端末10に提供するサーバ20を有する。ユーザ端末10とサーバ20は、ネットワーク30を介して通信接続し、データの送受信を行う。
 仮想空間は、例えばユーザの視界を覆う非透過型のHMD(Head Mounted Display)を用いて呈示される。本実施形態では、一例として、ユーザ端末10がHMDにより実現される場合を想定する。
 HMDは、ユーザの頭部に装着される。また、HMDは、装着したユーザの左右の眼毎の画像表示部を有してもよい。HMDは、ユーザの外界を遮る構成とすることで、視聴時の仮想現実感(仮想空間への没入感)を増すことができる。HMDは、仮想空間におけるユーザ視点の画像を表示する。かかる画像は、サーバ20により生成されリアルタイムでHMDに表示されてもよいし、サーバ20から取得した情報に基づいてHMDが生成してもよい。また、HMDに設けられたモーションセンサにより検知されたユーザの動きに追随して、ユーザが見ている仮想空間の映像を変化させる(仮想空間におけるユーザ視点の変化)ことで、仮想世界のリアリティをより高めることができる。また、HMDは、左右の眼に違う映像を映し出すことも可能であり、左右の眼に対して視差のある画像を表示することで3D画像を提示し得る。また、HMDは、ヘッドフォンを併用し、ユーザの視覚のみならず、聴覚に対して仮想空間の情報(音声)も提示し得る。
 (課題の整理)
 ここで、仮想空間には、複数の部屋(以下、仮想ルームと称する)を用意することが可能である。本明細書では「部屋」と称しているが、各仮想ルームは、仮想空間の1つであって、空間の広さや利用者数、配置する3Dモデルの形体等は特に限定しない。
 図2は、仮想空間が複数の仮想ルームにより構成される場合の一例を示す図である。図2に示す例では、本仮想空間の玄関口または広場等に相当し、誰でも利用可能なラウンジ5-1と、ラウンジ5-1から移動可能なルーム5-2A~5-2C・・・と、から成る場合を想定する。ユーザが仮想空間にログインした際は、まずラウンジ5-1に入り、そこから移動先のルームを選択するようにしてもよい。ルーム5-2は、各ユーザ個人の部屋として構築される仮想ルームであってもよいし、特定の催しが開催されるイベント会場として構築される仮想ルームであってもよい。
 ここで、例えばルーム5-2Aに居るユーザ50Aが、ルーム5-2Bに居るユーザ50Bと会話を行いたい場合、両者が同じ空間に居る必要があるため、どちらかが相手側のルーム(仮想空間)に移動するか、両者がラウンジなど他の仮想空間に移動する必要がある。
 しかしながら、空間移動は、シーン移動処理を伴うものであり、ユーザ端末10およびサーバ20において、大きな処理負荷、および処理時間が発生する。シーン移動処理とは、背景データなど、仮想空間の全てのデータを書き換える処理である。一般的に、仮想空間は、背景データや多数の仮想オブジェクト(参加者アバターを含む)から構成されている。個々の仮想オブジェクトには、ポリゴンメッシュ情報、頂点情報、マテリアル情報、光沢や影のレンダリング情報、衝突・摩擦・光などの物理計算情報、三次元空間座標位置、アニメーション、色情報、透明度、映像や音のエフェクト、制御スクリプトなど多数のパラメータが設定され、全てを合わせると膨大な量の設定データとなる。例えばユーザ50Aがルーム5-2Aからルーム5-2Bに空間移動する際、ユーザ端末10およびサーバ20において、これらの膨大な量の設定データの入れ替え、および再構築を行う必要がある。このような空間移動における設定データの入れ替え、再構築、および最新シーンの読み込みの時間は、一例として、30、40秒~1分程掛かることが想定される。
 また、ユーザ50Aがルーム5-2Bでユーザ50Bと会話した後、再び元のルーム5-2Aに戻る場合、同様に、再度、空間移動における膨大な量の設定データの入れ替えおよび再構築等が行われて処理負荷や待ち時間が生じる。このような空間移動等による仮想空間の新たな構築に関する処理は、他ルーム等の他の仮想空間に居るユーザと多少会話を行うだけの場合、とても非効率な処理と言える。また、空間移動等による仮想空間の新たな構築における待ち時間の発生は、ユーザにとってストレスとなり、快適性が損なわれる。なお、このような空間移動等による仮想空間の新たな構築は、仮想空間をサーバ側およびユーザ端末側のいずれで構築する場合でも、多大な処理負荷や処理時間が生じ得る。
 そこで、本開示による一実施形態では、他の仮想空間におけるコミュニケーション情報をより簡便に提示し、仮想空間の利便性を高めることが可能な情報処理システムを提案する。
 具体的には、例えば、他の仮想空間における1以上の他ユーザのコミュニケーション情報を取得し、取得したコミュニケーション情報を、ユーザの居る仮想空間に配置した仮想オブジェクト(本実施形態では、「窓」を想定し、仮想窓と称する)にリアルタイムで表示(描画)する。コミュニケーション情報とは、相手とコミュニケーションを取るための情報であって、例えば画像(映像)、音声、テキスト等が想定される。
 以下、本実施形態による情報処理システムの各構成および動作処理について説明する。
 <<2.構成例>>
 図3は、本実施形態による情報処理システムに含まれるサーバ20およびユーザ端末10の構成の一例を示すブロック図である。以下、各装置について具体的に説明する。
 <2-1.サーバ20>
 図3に示すように、サーバ20は、制御部200、通信部210、および記憶部220を有する。
 (通信部210)
 通信部210は、有線または無線により外部装置と通信接続し、データの送受信を行う。例えば、通信部210は、ネットワーク30と接続して、ユーザ端末10とデータの送受信を行う。通信部210は、仮想空間の構築に必要な情報や、仮想空間におけるユーザ視点の画像データ、また、仮想空間に参加する他のアバターの情報等を、ユーザ端末10に送信する。アバターとは、各ユーザの分身として仮想空間に配置される仮想オブジェクトであって、ユーザの操作や動き(身体全体の動き、手指の動き、足の動き、頭部の動き、表情等)が、仮想空間内のユーザのアバターに反映される。ユーザの操作や動きは、ユーザ端末10のセンサ部120や、ユーザが把持するコントローラ、ユーザに装着されるセンサデバイス、ユーザの周囲に設けられる多数のカメラ等により検出され得る。アバターは、2D実写であってもよいし、3DCGであってもよい。また、Volumetric Capture技術により生成された、より実写に近い3DCGであってもよい。Volumetric Capture技術とは、実空間においてユーザを多数のカメラにより撮影して得た撮像画像および3Dデータから、より実写に近い3DCGをリアルタイムで生成し得る技術である。また、仮想空間におけるユーザの視点は、アバター視点であってもよいし(この場合、自身のアバターは画面には映らない)、自身のアバターが画面に映るような、アバターから一定距離離れた場所からの視点(この場合、視点はアバターに追随する)であってもよい。ユーザ視点は、ユーザによって任意に切り替え可能である。
 また、通信部210は、例えば、有線/無線LAN(Local Area Network)、またはWi-Fi(登録商標)、Bluetooth(登録商標)、携帯通信網(LTE(Long Term Evolution)、3G(第3世代の移動体通信方式)、4G(第4世代の移動体通信方式)、5G(第5世代の移動体通信方式))等により外部装置やネットワーク30と通信接続する。
 (制御部200)
 制御部200は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ20内の動作全般を制御する。制御部200は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部200は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
 また、本実施形態による制御部200は、仮想空間情報提供部201および仮想窓制御部202としても機能する。
 仮想空間情報提供部201は、仮想空間の情報をユーザ端末10に提供し、仮想空間の画像をユーザ端末10に表示させる機能を有する。仮想空間の画像とは、仮想空間におけるユーザ視点の画像(映像)である。
 仮想空間情報提供部201が提供する仮想空間の情報は、少なくともユーザ端末10においてユーザ視点の仮想空間の画像をユーザの視覚に提示するために用いられる情報である。例えば、仮想空間の構築に必要な情報(背景データや、各仮想オブジェクトの各種パラメータ)や、仮想空間におけるユーザ視点の画像データ、仮想空間に参加する他のアバターの情報等が挙げられる。また、仮想空間情報提供部201は、ログインや空間移動によりユーザが新たな仮想空間に入った際には、その仮想空間を構築するための全てのデータ(背景データや、他のアバターのCG、仮想空間の各種パラメータ等)をユーザ端末10に提示するようにしてもよい。この場合、仮想空間の構築後は、仮想空間情報提供部201は、他のアバターのリアルタイムの位置情報やモーション情報等の差異情報をユーザ端末10に継続的に送信するようにしてもよい。
 ユーザ端末10で表示されるユーザ視点の仮想空間の画像は、仮想空間情報提供部201で生成してもよいし、ユーザ端末10が仮想空間情報提供部201から取得した情報に基づいて生成してもよい。また、仮想空間情報提供部201がユーザ視点の仮想空間の画像を生成する場合、ユーザ端末10から継続的に送信されるユーザの位置情報(例えば頭部の位置)や姿勢情報、モーション情報(例えば頭部の動きや手足の動き)に基づいて、実空間におけるユーザの動きにユーザ視点を追随させた上で、仮想空間の画像を生成してもよい。また、仮想空間情報提供部201により提供される仮想空間の情報には、音声情報や振動情報等も含まれ得る。
 なお、仮想空間(例えば図2に示すラウンジ5-1、ルーム5-2A~5-2C・・・)の構築は、サーバ20で行われてもよいし、各ユーザが利用するユーザ端末10でそれぞれ行われてもよい。例えば多数のユーザにより共有される(すなわち多数のユーザが入ることが可能な)仮想空間(例えばラウンジ5-1)の場合はサーバ20で構築し、ユーザ個人の部屋(すなわちユーザだけが入ることが可能な仮想空間)の場合は各ユーザ端末10でそれぞれ構築するようにしてもよい。
 仮想窓制御部202は、他の仮想空間におけるコミュニケーション情報を提示する仮想窓の制御を行う機能を有する。コミュニケーション情報とは、相手とコミュニケーションを取るための情報であって、例えば画像(映像)、音声、テキスト等が想定される。本実施形態による仮想窓制御部202は、他の仮想空間から取得した1以上の他ユーザのコミュニケーション情報を、ユーザの居る仮想空間に配置した仮想窓にリアルタイムで表示(描画)することで、他の仮想空間におけるコミュニケーション情報をより簡便に提示し、仮想空間の利便性を高めることを可能とする。すなわち、空間移動を行うことなく、他の仮想空間に居る他ユーザと会話等を行うことが可能となり、空間移動の場合に生じていた処理負荷や処理時間(全ての仮想オブジェクトの膨大な設定データを読み込む処理負荷や処理時間等)が削減される。他の仮想空間におけるコミュニケーション情報の提示では、画像(映像)や、音声、テキストの提示で済むため、処理負荷および処理時間が比較的軽く、他の仮想空間の他ユーザと会話をすぐに始めることが可能となる。
 ここで、図4に、本実施形態による仮想窓を利用した仮想空間同士のコミュニケーションについて説明する図を示す。図4に示すように、例えばルーム5-2Aに居るユーザ50Aと、ルーム5-2Bに居るユーザ50Bとが会話したい場合、仮想窓制御部202は、各仮想空間に仮想窓54(例えば3DCGにより生成する仮想オブジェクト)と仮想カメラ52(仮想空間を撮影する撮影位置)をそれぞれ配置する。そして、仮想窓制御部202は、各仮想カメラ52で撮影した映像を、それぞれ相手の仮想空間の仮想窓54にリアルタイムに表示する制御を行う(例えば、所謂ライブストリーミング配信であってもよい)。すなわち、仮想窓制御部202は、ルーム5-2Aに配置した仮想カメラ52Aによりユーザ50Aを撮影した映像を、ルーム5-2Bに配置した仮想窓54Bに表示する。また同時に、仮想窓制御部202は、ルーム5-2Bに配置した仮想カメラ52Bによりユーザ50Bを撮影した映像を、ルーム5-2Aに配置した仮想窓54Aに表示する。なお、この際、音声も収音され、相手側の仮想空間で出力される。これにより、各ユーザは、仮想窓54を介して映像および音声を用いた会話(コミュニケーション)を行うことができる。
 なお、ここでは一例として映像および音声を用いた会話を実現しているが、本実施形態はこれに限定されず、テキストを用いた会話(チャット)を、仮想窓54を介して行うようにしてもよい。また、映像、音声、およびテキストのうち少なくとも1以上を用いたコミュニケーションを、仮想窓54を介して行うようにしてもよい。
 また、仮想窓54の形状や大きさ、配置場所は特に限定しない。また、本明細書では「窓」を模した仮想オブジェクトである仮想窓54を用いることを想定しているが、本開示はこれに限定されず、他の仮想空間から取得したコミュニケーション情報を提示する領域を有する仮想オブジェクトであればよい。例えば、スクリーン、テーブル、壁、天井、ドア、ディスプレイ等の仮想オブジェクトにより、他の仮想空間から取得したコミュニケーション情報を提示してもよい。
 また、仮想窓54に仮想カメラ52により撮影した映像を表示する場合、ユーザと映像内の相手ユーザとの目線が一致するよう、仮想窓54を見ているユーザ(アバター)を正面から撮影する位置に仮想カメラ52を配置するようにしてもよい。仮想カメラ52の配置とは、仮想空間を撮影する撮影位置および撮影方向の設定である。図4では、撮影位置と方向を明示するために仮想カメラ52を図示しているが、仮想空間内においては実際に描画されるオブジェクトではなく、仮想カメラ52がユーザの眼前に配置されてもユーザの視界の邪魔にはならない。
 ここで、仮想カメラ52の配置例を図5に示す。図5に示すように、例えば仮想カメラ52は、仮想窓54の後ろ側(若しくは仮想窓54の位置)であって、ユーザの目の高さ(すなわち仮想空間内におけるユーザ視点位置であって、図5では視点Eと示す)に合わせた位置に配置されてもよい。なお、仮想窓制御部202は、仮想窓54の裏側から仮想カメラ52によりユーザを撮影する際、仮想空間に配置される仮想窓54を撮影画像から除外することで、仮想窓54に対向するユーザを正面から(仮想窓54を透過して)撮影することが可能となる。また、ここでは一例としてユーザの視点の高さに仮想カメラ52を合わせる旨を説明したが、他の例として、ユーザ(アバター)の頭部の位置(高さ)に合わせるようにしてもよい。また、仮想窓54に映る相手ユーザの目(または頭部)の位置に仮想カメラ52を配置して仮想窓54に対向するユーザを撮影してもよい。このように、実空間では邪魔になったり設置できなかったりする位置であっても自由に仮想カメラ52(撮影位置)を配置することができ、仮想窓54を介して会話するユーザが互いに目線を合わせることが可能となる。
 (記憶部220)
 記憶部220は、制御部200の処理に用いられるプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、および適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)により実現される。
 以上、サーバ20の構成について具体的に説明したが、本開示によるサーバ20の構成は図3に示す例に限定されない。例えば、サーバ20は、複数の装置により実現されてもよい。また、仮想空間の情報を提供し、仮想空間の表示を制御する情報処理装置の一例としてサーバ20を用いたが、情報処理装置はネットワーク上のサーバに限定されない。例えば情報処理装置は、中間サーバ(分散サーバ)、ローカルエッジサーバ、ユーザ端末10と同一空間に配置された専用端末、スマートフォン、タブレット端末、またはPC(パーソナルコンピュータ)等により実現してもよい。また、サーバ20の機能の少なくとも一部または全部が、中間サーバ、ローカルエッジサーバ、ユーザ端末10、ユーザ端末10と同一空間に配置された専用端末、スマートフォン、タブレット端末、またはPC(パーソナルコンピュータ)等により実現されてもよい。
 <2-2.ユーザ端末10>
 図3に示すように、ユーザ端末10は、制御部100、通信部110、センサ部120、表示部130、スピーカ140、および記憶部150を有する。本実施形態によるユーザ端末10は、一例として、仮想空間の画像を表示する非透過型HMDにより実現され得る。
 (通信部110)
 通信部110は、有線または無線により外部装置と通信接続し、データの送受信を行う。例えば、通信部110は、ネットワーク30と接続して、ネットワーク上のサーバ20とデータの送受信を行う。通信部110は、例えば、仮想空間の情報をサーバ20から受信する。また、通信部110は、ユーザ端末10に設けられたセンサ部120により検知したセンシングデータ(位置情報、姿勢情報、モーション情報、音声、操作情報等)をサーバ20に送信する。
 また、通信部110は、例えば、有線/無線LAN(Local Area Network)、またはWi-Fi(登録商標)、Bluetooth(登録商標)、携帯通信網(LTE(Long Term Evolution)、3G(第3世代の移動体通信方式)、4G(第4世代の移動体通信方式)、5G(第5世代の移動体通信方式))等により外部装置やネットワーク30と通信接続する。
 (センサ部120)
 センサ部120は、ユーザに関する各種情報をセンシングする機能を有する。例えばセンサ部120は、カメラ122、マイクロホン(以下、マイクと称する)124、およびモーションセンサ126であってもよい。各センサは複数設けられていてもよい。
 カメラ122は、実空間を撮像する外向きカメラ、およびユーザの眼を撮像する内向きカメラであってもよい。外向きカメラは、例えばユーザ端末10の位置(自己位置)を検出する際に用いられる。自己位置の認識は、一般的に、ユーザ端末10の外部(環境側)に設置されたセンサを利用するアウトサイド・イン方式や、ユーザ端末10に搭載したセンサを利用するインサイド・アウト方式、および、これらの組み合わせであるハイブリッド方式がある。また、外向きカメラは、周囲の障害物等を検出する際にも用いられる。内向きカメラは、例えばユーザの視線に関する情報(視線方向、眼球の動き等)を検出する際に用いられる。
 マイク124は、ユーザの発話音声を集音し、音声データを制御部100に出力する。
 モーションセンサ126は、ユーザの姿勢や動きを検出する際に用いられる。例えばモーションセンサ126は、加速度センサ、ジャイロセンサ、および地磁気センサを含んでいてもよい。
 さらにセンサ部120は、赤外線センサや超音波センサにより実空間において周囲に存在する実物体との距離を測る測距センサを有していてもよい。また、センサ部120は、心拍や脈拍、発汗量、呼吸、血圧、脳波、筋電値、指紋、掌紋等を検出する生体センサを有していてもよい。また、センサ部120は、ユーザ端末10の絶対的または相対的な位置を算出す位置測位部を有していてもよい。位置測位部は、例えば人工衛星からの電波を受信して、ユーザ端末10が存在している現在位置を検知するGNSS(Global Navigation Satellite System)が用いられてもよい。また、GNSSの他、Wi-Fi(登録商標)、Bluetooth(登録商標)、携帯電話・PHS・スマートフォン等との送受信、または近距離通信等により位置を検知する方法が用いられてもよい。また、位置測位部は、加速度センサや角速度センサ等の検出結果に基づいて、相対的な位置の変化を示す情報を推定してもよい。
 また、センサ部120は、タッチセンサ、スイッチ、ボタン等を有していてもよい。これらは、ユーザ操作を検出する操作入力部として機能する。
 (表示部130)
 表示部130は、例えばユーザ端末10がHMDとして構成される場合、ユーザの左右の眼にそれぞれ固定された左右の画面を備え、左眼用画像および右眼用画像を表示する機能を有する。表示部130の画面は、例えば液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL((Electro Luminescence)ディスプレイなどの表示パネル、または、網膜直描ディスプレイなどのレーザー走査方式ディスプレイで構成される。また、表示部130は、表示画面を拡大投影して、ユーザの瞳に所定の画角からなる拡大虚像を結像する結像光学系を備えてもよい。
 (スピーカ140)
 スピーカ140は、音声を出力する機能を有する。例えばスピーカ140は、ヘッドフォン、イヤフォン、若しくは骨伝導スピーカとして構成されてもよい。
 (記憶部150)
 記憶部150は、制御部100の処理に用いられるプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、および適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)により実現される。
 (制御部100)
 制御部100は、演算処理装置および制御装置として機能し、各種プログラムに従ってユーザ端末10内の動作全般を制御する。制御部100は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部100は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
 また、本実施形態による制御部100は、センサ部120で検出されたセンシングデータ(位置情報、モーション情報、音声、操作情報等)を通信部110からサーバ20に送信する制御を行う。また、制御部100は、センサ部120で検出されたセンシングデータに基づいて算出した情報(自己位置や姿勢の推定情報等)を、通信部110からサーバ20に送信する制御を行ってもよい。
 また、制御部100は、サーバ20から受信した仮想空間の情報に基づいて、仮想空間におけるユーザ視点の画像を表示部130に表示する制御を行う。ここで、表示部130に表示する仮想空間におけるユーザ視点の画像は、サーバ20から受信した仮想空間の情報に基づいて制御部100が生成してもよい。制御部100で生成する場合、制御部100は、サーバ20から受信した仮想空間の情報(背景データや仮想空間に存在する各種仮想オブジェクト(他ユーザのアバター含む)のパラメータ等)に基づいて仮想空間を構築する。他ユーザのアバターの動きに関する情報等は、サーバ20からリアルタイムに送信され得る。
 また、制御部100は、サーバ20で生成された、仮想空間におけるユーザ視点の画像を通信部110で受信し、表示部130に表示する制御を行ってもよい。この場合、制御部100は、センサ部120で検出されたセンシングデータを通信部110からサーバ20に送信し、実空間におけるユーザの位置姿勢の変化が反映された仮想空間の画像を受信し得る。また、制御部100は、通信による遅延補償のため、受信した仮想空間の画像を、さらに直近で取得したセンシングデータに基づいて補正した上で、表示部130に表示する制御を行ってもよい。
 また、制御部100により表示制御される仮想空間の画像には、上述したように、他の仮想空間におけるコミュニケーション情報を提示する仮想窓54が含まれ得る。ここで、図6に、本実施形態による仮想窓54が配置された仮想空間の画像の表示例を示す。
 図6左に示す例は、ルーム5-2Aに居るユーザ50Aのユーザ端末10Aに設けられる表示部130Aに表示される、ルーム5-2Aにおけるユーザ50A視点の画像の一例である。ルーム5-2Aにおけるユーザ50A視点の画像には、ルーム5-2Aに配置された仮想窓54Aの表示が含まれている。仮想窓54Aには、他の仮想空間(ここではルーム5-2B)で撮像された他ユーザ(ここではユーザ50B(のアバター))の映像がリアルタイムで表示されている(ライブストリーミングの仕組みが用いられてもよい)。ルーム5-2Aがユーザ端末10Aで構築されている場合、サーバ20は、ルーム5-2Bで撮像されたユーザ50B(のアバター)の映像および音声を、リアルタイムでユーザ端末10Aに送信する処理を行ってもよい。
 一方、図6右に示す例は、ルーム5-2Bに居るユーザ50Bのユーザ端末10Bに設けられる表示部130Bに表示される、ルーム5-2Bにおけるユーザ50B視点の画像の一例である。ルーム5-2Bにおけるユーザ50B視点の画像には、ルーム5-2Bに配置された仮想窓54Bの表示が含まれている。仮想窓54Bには、他の仮想空間(ここではルーム5-2A)で撮像された他ユーザ(ここではユーザ50A(のアバター))の映像がリアルタイムで表示されている(ライブストリーミングの仕組みが用いられてもよい)。ルーム5-2Bがユーザ端末10Bで構築されている場合、サーバ20は、ルーム5-2Aで撮像されたユーザ50A(のアバター)の映像および音声を、リアルタイムでユーザ端末10Bに送信する処理を行ってもよい。
 以上、ユーザ端末10の構成について具体的に説明したが、本実施形態によるユーザ端末10の構成は図3に示す例に限定されない。例えば、ユーザ端末10は、複数の装置により実現されてもよい。具体的には、HMD等により実現される表示装置(少なくとも表示部130を有する)と、スマートフォンやタブレット端末、PC等により実現される情報処理端末(少なくとも制御部100を有する)とを含むシステム構成により実現されてもよい。また、センサ部120の少なくとも一部が、ユーザ端末10と通信接続する外部装置(ユーザに装着されるウェアラブルデバイス等)に設けられていてもよい。また、ユーザが手で把持するコントローラにより検出されたセンシングデータを、ユーザ端末10に入力してもよい。
 また、上述した制御部100による各処理が、ネットワーク上のサーバ20や、中間サーバ、ローカルエッジサーバ、ユーザと同一空間に配置された専用端末、スマートフォン、タブレット端末、またはPC等の外部装置により実現されてもよい。
 <<3.動作処理>>
 次に、本実施形態に係る情報処理システムの動作処理について図7を参照して具体的に説明する。図7は、本実施形態に係る情報処理システムの動作処理の流れの一例を示すシーケンス図である。
 図7に示すように、まず、ユーザ端末10Aは、仮想空間の情報を提供するサーバ20にアクセスして仮想空間にログインする(ステップS103)。具体的には、予め登録されたユーザID等に基づいてユーザの認証等が行われ得る。
 次に、サーバ20は、仮想空間の一つであるラウンジの画像(ラウンジにおけるユーザ視点の画像)を生成し、ユーザ端末10Aに送信する(ステップS106)。ここでは一例として、仮想空間にログインしたユーザはまずラウンジに入る仕様となっている場合について説明する。ラウンジは例えばサーバ20で構築し、サーバ20は、ラウンジ内の所定の入口(玄関)からユーザが入ったとみなして最初のユーザ視点を設定する。なお、ここでは一例として最初にラウンジに入る旨を説明したが、本実施形態はこれに限定されず、ログイン後に、いずれの仮想空間に入るかをユーザが任意に選択できるようにしてもよい。
 次いで、ユーザ端末10Aは、ラウンジの画像(ラウンジにおけるユーザ視点の画像)を表示部130に表示する(ステップS109)。ユーザ視点は、上述したように、ユーザの分身として仮想空間に描画するアバターの視点であってもよいし(この場合ユーザのアバターはユーザの視界に含まれない)、ユーザのアバターを視界に含む視点であってもよい。また、ユーザ視点は任意に切り替えられる。
 次に、ユーザがユーザ端末10Aにより自分の部屋であるルームAを選択すると(ステップS112)、サーバ20は、ルームA構築の情報をユーザ端末10Aに送信する(ステップS115)。なお、ここでは一例として各ユーザ個人の部屋(仮想空間)をユーザ端末10で構築する場合について説明するが、本実施形態はこれに限定されない。例えばユーザ個人の部屋をサーバ20で構築する場合、サーバ20は、ルームAを構築し、ルームAにおけるユーザA視点の画像を生成してユーザ端末10Aに送信する。
 次いで、ユーザ端末10Aは、サーバ20から受信した仮想空間の情報(例えば背景データ、各仮想オブジェクトのパラメータ等)に基づいてルームAを構築し、ルームAにおけるユーザA視点の画像を生成して表示部130にA表示する(ステップS118)。
 一方、ユーザ端末10Bにおいても同様にユーザBによるログインやルームBの構築が行われ、ルームBにおけるユーザB視点の画像がユーザ端末10Bの表示部130Bに表示されている(ステップS121)。
 次に、ユーザAが、他の仮想空間であるルームBに居るユーザBと対話したい場合、ユーザ端末10Aは、ユーザAの操作に応じて、サーバ20を介してユーザB(ユーザ端末10B)に対して対話要求を行う(ステップS124、S127)。なお、ここでは一例としてユーザAからユーザBに対話要求を行う場合を示すが、当然、ユーザBからユーザAに対話要求を行ってもよい。
 続いて、サーバ20は、ユーザBから対話許可を受け取ると(ステップS130)、仮想カメラおよび仮想窓を、ルームAおよびルームBにそれぞれ設置する(ステップS133、S136)。
 そして、サーバ20は、各ルームにおいて仮想カメラによりコミュニケーション情報を取得し(ステップS139、S142)、取得したコミュニケーション情報をそれぞれ相手側のルームに送信し(ステップS145、S151)、相手側のルームに設置された仮想窓により提示(表示出力や音声出力)する(ステップS148、S154)。コミュニケーション情報の送信は、ライブストリーミングにより行われてもよい。また、かかるライブストリーミングで用いる規格は特に限定しない。なお、コミュニケーション情報としてテキストまたは音声のみを取得する場合は、各ルームへの仮想カメラ(撮像位置)の設置は不要としてもよい。
 このように、本実施形態による情報処理システムでは、空間移動を伴わずに、複数の仮想空間における双方向対話を可能とする。
 対話終了後は、サーバ20は仮想窓の設置を解除(仮想窓および仮想カメラの設定を削除)する。対話終了の指示は、ユーザAまたはユーザBにより行われてもよい。なお、サーバ20は、各ルームに仮想窓を常に設置しておいてもよい。サーバ20は、他のルームのユーザと対話を行う際は仮想窓をオープンし(映像の送受信を開始して対話機能を有効とする)、対話が終了すると仮想窓をクローズ(映像の送受信を終了して対話機能を無効とする)ようにしてもよい。
 以上、本実施形態による情報処理システムの動作処理について具体的に説明した。なお、図7のシーケンス図に示す各ステップの内容および順序は一例であって、本実施形態はこれに限定されない。
 例えば、各ルームは個人の部屋でなく、所定の権限を有するユーザが入れる仮想空間であって、サーバ20により構築されてもよい。また、ラウンジから各ルームに移動する旨を説明したが、本実施形態はこれに限定されず、ラウンジが無い仮想空間であってもよいし、仮想空間にログインした最初から任意のルームを選択できるようにしてもよい。また、仮想窓を設置して複数の仮想空間で双方向対話を開始するトリガとして、図7に示す例では「対話要求」および「対話許可」を挙げたが、双方向対話を開始するトリガはこれに限定されず、他の何らかのイベントをトリガとしてもよい。
 <<4.他の実施形態>>
 続いて、本開示による他の実施形態について説明する。上述した実施形態では、複数の仮想空間における双方向対話を、仮想窓を介して実現したが、仮想窓の利用方法はこれに限定されず、例えば他の仮想空間の様子を仮想窓から眺めること(コミュニケーション情報の単方向通信)も可能である。具体的には、例えばサーバ20は、他の仮想空間に配置された仮想カメラにより撮像された撮像画像を、他の仮想空間とは異なる仮想空間に設置された仮想窓にライブストリーミングにより表示する制御を行う。これにより、他の仮想空間におけるコミュニケーション情報をより簡便に提示し、仮想空間の利便性を高めることが可能となる。
 以下、このような本開示の他の実施形態による情報処理システムについて、図8~図12を参照して具体的に説明する。ここでは一例として、仮想空間において、マスタークライアントとして配信者である演者が音楽コンサート等の何らかのイベントを行い、一般のクライアントとして視聴者であるユーザが参加する場合を想定する。マスタークライアントとは、一般のクライアントとは異なる特別な権限を有するユーザである。マスタークライアントは、例えば仮想空間の内装を任意に変更できたり(背景の選択や、各仮想オブジェクトの配置等)、一般ユーザの仮想空間への出入りを制限したり、仮想空間からの配信の開始および終了を制御したり、仮想空間内で流す音楽や仮想空間内の照明等、仮想空間全体の制御を行ったりすることができる。
 また、本開示の他の実施形態による情報処理の構成は、例えば図8に示すように、サーバ20、各ユーザが利用するユーザ端末10(ユーザ端末10A~10B・・・)、およびマスタークライアントである演者(配信者)が利用する演者端末12を含む構成が挙げられる。演者端末12の基本構成は、図3に示す構成と同様である。演者の動きは、演者端末12に設けられたカメラや、演者の周囲に配置された多数のカメラにより検出され、仮想空間における演者のアバターの動きに反映される。検出されるデータは、演者の3次元の動きを示すデータであってもよい。また、カメラにより演者の表情をトラッキングし、仮想空間における演者のアバターの表情に反映させてもよい。また、演者の音声をマイクにより収音し、演者のアバターの音声として出力してもよい。演者端末12は、非透過型のHMDにより実現されてもよい。また、演者が把持するコントローラに設けられる各種センサや、演者に装着されるデバイスに設けられる各種センサにより、演者の動きをセンシングしてもよい。また、仮想空間で描画される演者のアバターは、2D実写であってもよいし、架空のキャラクター等を表現する3DCGであってもよいし、Volumetric Capture技術により生成された、より実写に近い3DCGであってもよい。
 図9は、他の実施形態による仮想窓を利用した単方向のコミュニケーション情報の提示について説明する図である。図9に示すように、例えばイベントルーム5-2Eで演者60によるコンサートが行われている場合を想定する。イベントルーム5-2Eには、演者60と、一般視聴者である一般のユーザ50が多数参加している。次いで、イベントルーム5-2Eで行われているコンサートが終了すると、コンサート終了をトリガとして、演者60により一般視聴者の中から選ばれたユーザ50Cと演者60のみが特別ルーム5-2Dに移動する。そして、イベントルーム5-2Eには、残った一般視聴者が滞在し、さらに、イベントルーム5-2Eに設置された仮想窓54Eにより、特別ルーム5-2Dの様子がライブストリーミング配信される。仮想窓54Eに表示される映像は、特別ルーム5-2Dに配置された仮想カメラ52Dにより撮像された映像である。
 このように、他の実施形態による情報処理システムでは、コンサート終了等の所定のイベントの終了をトリガとして会場が分岐した際に、関連する他の仮想空間の様子を仮想窓からリアルタイムで提示する制御が行われ得る。
 なお、特別ルーム5-2Dに移動させるユーザの選択方法は特に限定しないが、例えば、課金報酬額に応じて選択してもよいし、盛り上がりを検出して最も盛り上がっているユーザ(声が大きい、動きが大きい等)を選択してもよいし、仮想空間内で演者60が指差したユーザを選択してもよいし、演者60が名前を呼んで返事をしたユーザを選択してもよい。仮想空間における演者60(アバター)の指差し動作は、例えば実空間における演者60(人間)のボーン情報から取得される演者60の手指のモーション情報に基づいて制御される。サーバ20は、演者60の手指のモーション情報に基づいて、特別ルーム5-2D(仮想空間)の演者60のアバターの手指を描画し、指差し方向に衝突するユーザを選択したものとする。
 このような他の実施形態の動作処理について、以下、図10を参照して説明する。
 (動作処理)
 図10は、本開示の他の実施形態による情報処理システムの動作処理の流れの一例を示すフローチャートである。図10に示すように、まず、イベントルーム5-2Eにおいて演者60によるライブイベント(例えば音楽コンサートの生配信等)が行われる(ステップS203)。例えばサーバ20は、演者60の演者端末12からの入力情報に従って、イベントルーム5-2Eの制御を行う。より具体的には、サーバ20は、演者60に選択された背景および仮想オブジェクトでイベントルーム5-2Eを構築したり、イベントルーム5-2Eに演者60のアバターを描画したり、演者60の動きに応じて演者60のアバターの動きを制御したり、演者60の指示に従ってイベントルーム5-2E内で音楽を再生したり、照明を制御したりする。なお、演者60以外にも所定の権限を有する配信者が存在し、配信者によりイベントルーム5-2E内の設定が適宜指示される場合も想定される。また、サーバ20は、イベントルーム5-2Eに参加する各ユーザ(一般視聴者)のアバターを描画したり、各ユーザの動きに応じて各ユーザのアバターの動きを制御したりする。また、サーバ20は、各ユーザ(一般視聴者)の視点(例えば各ユーザのアバターの視点)からの画像を生成し、各ユーザ端末10にリアルタイムで送信する(ライブストリーミング配信でもよい)。また、サーバ20は、演者60の視点(例えば演者60のアバターの視点)からの画像を生成し、演者端末12にリアルタイムで送信する(ライブストリーミング配信でもよい)。
 次いで、サーバ20は、演者60によるユーザの選択を受け付ける(ステップS206)。演者60は、イベントルーム5-2Eに参加する各ユーザ(一般視聴者)の中から、特別ルームに移動させるユーザを選択することが可能である。選択するユーザは一人であってもよいし、二人以上であってもよい。また、ここでは一例として演者60が選択する旨を述べているが、演者60とは別に存在する所定の権限を有する配信者が選択してもよいし、所定の条件に基づいてサーバ20が自動的に選択してもよい。
 次に、ライブイベントが終了すると(ステップS209/Yes)、サーバ20は、演者60と、選択されたユーザを、特別ルーム5-2Dに移動させる(ステップS212)。かかる移動は空間移動である。サーバ20は、特別ルーム5-2Dを構築し、特別ルーム5-2Dに、演者60のアバターおよび選択されたユーザ(図9に示す例ではユーザ50C)のアバターを描画する。また、サーバ20は、演者端末12および選択されたユーザのユーザ端末に、特別ルーム5-2Dにおける各視点(演者60視点、ユーザ50C視点)の画像をそれぞれ送信する。選択されたユーザ50Cは、特別ルーム5-2Dに移動するため、同じく特別ルーム5-2Dに移動した演者60と対話することが可能となる。
 次いで、サーバ20は、特別ルーム5-2Dに設置した仮想カメラ52Dにより、演者とユーザ50Cとのコミュニケーション情報(音声や映像)を取得する(ステップS215)。すなわち、サーバ20は、仮想カメラ52Dにより、演者とユーザ50Cとが対話している様子を撮像し、その撮像画像を取得する。仮想カメラ52Dの配置場所は特に限定しないが、例えばサーバ20は、演者60とユーザ50Cを俯瞰する位置から撮影するよう仮想カメラ52Dを配置してもよい。若しくは、サーバ20は、演者60と対話するユーザ50C視点で仮想カメラ52Dを配置してもよいし、演者60のみを近接して撮影する位置に仮想カメラ52Dを配置してもよい。また、特別ルーム5-2Dに仮想カメラ52Dを複数設置し、配信者側のスタッフが任意に切り替えてもよい。
 そして、サーバ20は、特別ルーム5-2Dのコミュニケーション情報を、特別ルーム5-2Dに関連する仮想空間であるイベントルーム5-2Eに設置した仮想窓54Eから提示する(ステップS218)。なお、イベントルーム5-2Eに設置される仮想窓54Eは、イベントルーム5-2Eに残っている多数の一般視聴者ユーザから見えるように、大きなスクリーン(仮想オブジェクト)により実現し、空間の上方に配置してもよい。
 ここで、図11に、他の実施形態による仮想窓54Eが配置された仮想空間(イベントルーム5-2E)におけるユーザ50A視点の画像の表示例を示す。図11上に示す図は、イベントルーム5-2Eにおいて演者60により音楽コンサート等のライブイベントが行われている際のユーザ50A視点の画像である。かかる画像は、ユーザ端末10Aの表示部130Aに表示され得る。
 次いで、ライブイベントが終了すると、演者60および選ばれたユーザ50Cが、イベントルーム5-2Eから分岐した他の仮想空間(特別ルーム5-2D)に移動する。このため、イベントルーム5-2Eでは演者60および選ばれたユーザ50Cが不在となる。そして、ユーザ端末10Aの表示部130Aには、図11下に示す画像が表示される。図11下に示す画像は、特別ルーム5-2Dの映像をリアルタイムで表示する仮想窓54Eが配置されたイベントルーム5-2E(仮想空間)におけるユーザ50A視点の画像である。
 以上説明したように、他の実施形態による情報処理システムによれば、ユーザが居る仮想空間から分岐した他の仮想空間で複数の他ユーザがコミュニケーションを取っている様子を、空間移動を伴うことなく、ユーザが居る仮想空間に配置された仮想窓54を介して、リアルタイムに視聴することが可能となる。
 なお、上述した実施形態では、ライブイベントが終了した後、イベントルーム5-2Eに仮想窓54Eを配置し、特別ルーム5-2Dのコミュニケーション情報を仮想窓54Eで提示しているが、本実施形態はこれに限定されない。図12は、他の実施形態による特別ルーム5-2Dのコミュニケーション情報の他の提示例について説明する図である。例えばサーバ20は、ライブイベント終了をトリガとしてイベントルーム5-2Eをクローズし、イベントルーム5-2Eに居た一般視聴者ユーザを、図12に示すような他のルームFに移動させてもよい。他のルームFは、イベント会場の外という位置付けであって、例えばイベントのグッズを販売するグッズ販売会場としてもよい。イベント会場にはチケット購入者だけが入れるが、グッズ販売会場には誰でも入れるようにしてもよい。また、他のルームFは、特別ルーム5-2Dの様子が見える視聴ルーム(サブルーム)という位置付けであってもよい。若しくは、他のルームFは、当該仮想空間の中心として位置付けされるラウンジ(図2参照)であってもよい。また、さらに、特別ルーム5-2Dで取得されるコミュニケーション情報は、仮想空間に配置される仮想窓54Eでの提示に限定されず、図12に示すように、スマートフォンやタブレット端末、透過性メガネ型ディスプレイ、PC、若しくはTV装置、投影装置等の表示装置により実現されるユーザ端末10Gで提示(ライブストリーミング配信)されてもよい。これにより、視聴者を増やすことが可能となる。
 また、上述した実施形態では、仮想空間から分岐した他の仮想空間のコミュニケーション情報を、仮想空間に配置した仮想窓から単方向配信する処理を開始するトリガとして、「ライブイベントの終了」を挙げたが、かかるトリガは一例であって、本実施形態はこれに限定されない。他の所定のイベントの終了をトリガとしてもよいし、所定のイベントの開始をトリガとしてもよいし、所定の時間が経過したことをトリガとしてもよいし、所定のイベントが生じたことをトリガとしてもよい。
 <<5.応用例>>
 以下、本実施形態の応用例について説明する。
 図4を参照して説明した上記実施形態では、各仮想空間に居る単一のユーザ同士の双方向対話を、空間移動を伴わずに簡便に行い得るシステムについて説明したが、本実施形態はこれに限定されず、第1の仮想空間に居るN人と、第2の仮想空間に居るN人との間で、仮想窓を介して双方向対話を行うことも可能である。
 図13は、本実施形態の応用例による少なくとも一方の仮想空間に複数人居る場合の仮想空間同士における双方向対話について説明する図である。図13に示すように、例えばルームAに3人、ルームBに1人居る場合にも、仮想窓54を介してルームAとルームB間で双方向対話を行うことが可能である。具体的には、サーバ20は、ルームAのユーザ50A、50C、50Dを撮像する仮想カメラ52A-1~52A-3をルームAにそれぞれ配置し、かかる仮想カメラ52A-1~52A-3で得た撮像画像を、ルームBの仮想窓54Bにリアルタイムで表示する制御を行う。複数人を仮想窓54Bに表示する際、サーバ20は、背景はその中の1人のユーザの背景を利用し、他のユーザは背景を消して合成表示するようにしてもよいし、3人の画像を並べて表示してもよい。また、3人の画像を並べて表示する場合、サーバ20は、喋っているユーザの画像を優先的に大きく表示するようにしてもよい。また、ルームAの複数ユーザを撮影するカメラアングルは、図13に示すように各ユーザの目線に合わせてもよいし(各ユーザをそれぞれ正面から撮影)、複数ユーザを俯瞰した視点から1つの仮想カメラにより撮影してもよい。カメラアングルは、ユーザによる操作(ジェスチャ操作や、ボタン操作、音声入力操作等)により任意に切り替えてもよい。
 また、ルームAに配置される仮想窓54A-1~54A-3には、ルームBに配置された仮想カメラ52Bにより撮影されたユーザ50Bの映像が表示される。ユーザ50Bのカメラアングルは、図13に示すように、ユーザ50Bの目線に合わせてもよいし(ユーザ50Bを正面から撮影)、ユーザ50Bを俯瞰した視点から撮影してもよい。また、ルームAに配置される仮想窓54A-1~54A-3には、ルームBの映像のみならず、同じルームAで当該対話に参加する全てのユーザの映像(すなわち同じ仮想空間の映像)も含めて表示されてもよい。図14は、図13に示すルームAにおけるユーザ50A視点の画像の他の例を示す図である。図14に示すように、ユーザ50Aのユーザ端末10Aの表示部130Aには、ルームA(仮想空間)に配置された仮想窓54A-1に、ルームBのユーザ50B(アバター)を撮像した画像と、当該対話に参加している同じルームAに居るユーザ50C(アバター)の撮像画像およびユーザ50D(アバター)の撮像画像がリアルタイムに表示される。
 (その他)
 なお、仮想窓54に表示される画像は、仮想空間におけるリアルタイムの撮像画像に限定されず、ユーザ操作により任意の画像(静止画および動画)が表示されてもよい(画像の共有)。共有される画像は、対話に参加しているユーザに関係する画像(例えば全員で参加したイベントの映像等)であってもよい。
 また、仮想窓54には、対話参加者の他、スタッフAI(artificial intelligence)が加わり、スタッフAIにより対話のファシリテートを行うようにしてもよい。スタッフAIとは、システム側が用意した自然言語処理等によりユーザとの自動対話が可能なキャラクターである。
 また、仮想窓54に表示する画像を撮像する仮想カメラ52のアングルは特に限定しない。また、1人のユーザに対して仮想カメラ52を複数配置し、カメラアングルをユーザが任意に切り替えられるようにしてもよい。
 <<6.補足>>
 上述したように、本開示の実施形態による情報処理装置では、他の仮想空間におけるコミュニケーション情報をより簡便に提示し、仮想空間の利便性を高めることが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、本実施形態による情報処理システムは、エンターテインメント、教育、スポーツ、ビジネス、作業支援、建築、研究、医療、ボランティア活動、冠婚葬祭、公共機関、金融、災害、宇宙開発等の、幅広い領域に適用可能である。
 具体的には、塾や学校等の教育機関において、遠隔で授業が行われる場合に、仮想空間内の自分の部屋で、仮想空間内の教室からの授業を、仮想窓から視聴することが可能となる。また、質問ルーム(授業が終わった後に質問がある生徒だけが移動して先生に質問できる仮想空間)で先生に個別に質問を行っている生徒の会話(質問ルームにおける先生と生徒のコミュニケーション情報)を、授業が終わった後の教室(仮想空間)に設置された仮想窓にライブストリーミング配信してもよい。教室に残っている他の生徒は、質問ルームに移動することなく、質問の様子を即座に視聴することが可能となる。
 また、本実施形態による情報処理システムは、遠隔地に居る指導者が、作業者に作業のノンバーバルコミュニケーション(非言語コミュニケーション)による指示(例えばジェスチャ等による指示)を行う場合にも適用され得る。指導者のジェスチャは、例えばカメラや手に装着されたセンサにより手の細かい動きが検出され、細かく動く手の仮想オブジェクトが仮想空間に描画され得る。また、指示の対象となる作業は、仮想空間内での作業であってもよいし、現実空間内での作業であってもよい。仮想空間内での作業の場合、他の仮想空間において指導者がノンバーバルコミュニケーションによる指示を出している様子が、仮想空間に配置された仮想窓に表示されるため、作業者は、仮想窓に表示される指導者からの指示を受けつつ、仮想空間内での作業を行うことが可能となる。なお、現実空間での作業の場合、作業者は透過型のHMD(例えば透過性メガネ型ディスプレイ)を装着し、仮想窓をAR表示してもよい。
 また、上述したように、本実施形態による仮想空間で描画されるアバターは、Volumetric Capture技術により生成された、より実写に近い3DCG(以下、ボリュメトリックアバターとも称する)であってもよい。ボリュメトリックアバターを用いる場合、ユーザの身体全体の動きや指先の動きを詳細に確認することができる。したがって、例えばトレーニングコーチやゴルフ教室の先生等が、生徒であるボリュメトリックアバターの全身動作を見て身体の動きの修正箇所の指導を行うことも可能である。また、個別指導ルームにおいて先生(必ずしもボリュメトリックアバターでなくともよいが、手本を見せる場合にはボリュメトリックアバターが好ましい)が生徒(ボリュメトリックアバター)に指導している様子を、他の生徒が待機する待機ルーム等の仮想空間に配置された仮想窓にライブストリーミング配信してもよい。
 また、診察の順番待ちをしている患者のカウンセリングや診療の対話に使用することも可能である。例えば、診察の順番待ちをしている患者が居る待合室ルームに設置された仮想窓を介して、他の部屋(他の仮想空間)に居る医者と双方向対話を行うことが可能である。
 また、上述した実施形態では、仮想空間の中心に位置付けられるラウンジから移動可能な各ルーム間における双方向対話や単方向配信を、仮想窓を介して行う場合について説明したが、本開示はこれに限定されない。例えば個別に存在して行き来の出来ない(若しくはラウンジのような共有できる場所のない)仮想空間同士での双方向対話や単方向配信を、仮想窓を介して行うことも可能である。
 また、同じ仮想空間内であっても、離れた場所や移動に時間のかかる場所等に居る他のユーザと仮想窓を介して双方向対話を行ったり単方向配信を行ったりするようにしてもよい。相手ユーザが居る場所までの移動時間が省かれ、仮想空間の利便性が高まる。
 また、ユーザ端末10は、非透過型のHMDに限定されず、透過型のARグラスであってもよい。また、仮想窓(仮想オブジェクト)は、AR(Augmented Reality)表示(現実空間に重畳表示)されてもよい。これにより、仮想空間に居る他のユーザと対話する際に、ユーザ端末10やサーバ20における仮想空間の構築の処理負担が省かれる。本実施形態による情報処理システムは、VR、AR、MR(Mixed Reality)といったXR体験に適用可能である。
 また、双方向対話や単方向配信は、2つの仮想空間の間に限定されず、3つ以上の仮想空間の間で仮想窓を介して行われ得る。
 また、仮想窓で提示されるコミュニケーション情報は、2次元映像に限らず、3D映像(立体視映像)であってもよい。ユーザ端末10の表示部130が、ユーザの左右の眼にそれぞれ固定された左右の画面を備え、左眼用画像および右眼用画像を表示する機能を有する場合、立体視映像を提供することが可能である。他の仮想空間から取得する立体視映像は、360度の立体視映像であってもよいし、180度の立体視映像であってもよい。また、他の仮想空間から取得する立体視映像は、上下に配置するTop and Bottomの方式であってもよいし、左右に配置するSide by Sideの方式であってもよい。サーバ20は、他の仮想空間の立体視映像を、仮想空間にステレオVRストリーミング配信する。この際、例えばサーバ20は、他の空間の立体視映像をユーザ視点における視野の中心に描画し、ユーザが居る仮想空間の背景をその周辺に描画することで、空間移動することなく、ユーザが居る仮想空間において、他の仮想空間の映像を視聴することが可能となる。
 また、上述したユーザ端末10またはサーバ20に内蔵されるCPU、ROM、およびRAM等のハードウェアに、ユーザ端末10またはサーバ20の機能を発揮させるための1以上のコンピュータプログラムも作成可能である。また、当該1以上のコンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 仮想空間の表示を制御する制御部を備え、
 前記制御部は、
  他の仮想空間における1以上の他ユーザのコミュニケーション情報を取得し、
  前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理装置。
(2)
 前記制御部は、
  前記仮想空間における1以上のユーザのコミュニケーション情報を取得し、前記他の仮想空間に出力する制御を行う、前記(1)に記載の情報処理装置。
(3)
 前記制御部は、
  前記他の仮想空間において行われている複数の他ユーザのコミュニケーション情報を取得し、前記仮想空間に配置した前記仮想オブジェクトにより提示する制御を行う、前記(1)または(2)に記載の情報処理装置。
(4)
 前記コミュニケーション情報には、撮像画像、テキスト、音声の少なくともいずれかが含まれる、前記(1)~(3)のいずれか1つに記載の情報処理装置。
(5)
 前記制御部は、前記仮想オブジェクトに、前記コミュニケーション情報に含まれる前記他の仮想空間で撮像された1以上の撮像画像を表示する制御を行う、前記(1)~(4)のいずれか1つに記載の情報処理装置。
(6)
 前記制御部は、前記仮想空間におけるユーザの視点に対向する位置に仮想カメラを配置し、当該仮想カメラにより撮影した前記ユーザのアバターの撮像画像を、前記ユーザのコミュニケーション情報として前記他の仮想空間に出力する制御を行う、前記(1)~(5)のいずれか1つに記載の情報処理装置。
(7)
 前記制御部は、所定のイベントが終了したことをトリガとして前記仮想空間から分岐した前記他の仮想空間における1以上の他ユーザのコミュニケーション情報を取得し、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、前記(1)~(6)のいずれか1つに記載の情報処理装置。
(8)
 前記制御部は、前記他の仮想空間が分岐した際、前記仮想空間に居た1以上のユーザのうち、1以上の特定のユーザを、前記他の仮想空間に移動させる制御を行う、前記(7)に記載の情報処理装置。
(9)
 前記情報処理装置は、さらに通信部を備え、
 前記制御部は、前記仮想空間におけるユーザ視点の画像を生成し、ユーザの情報処理端末に前記通信部から送信する制御を行う、前記(1)~(8)のいずれか1つに記載の情報処理装置。
(10)
 前記情報処理装置は、さらに表示部を備え、
 前記制御部は、前記仮想空間におけるユーザ視点の画像を生成し、前記表示部に表示する制御を行う、前記(1)~(8)のいずれか1つに記載の情報処理装置。
(11)
 表示部と通信部を有する情報処理端末と、
 前記表示部への仮想空間の表示を制御する制御部と通信部を有する情報処理装置と、
 を備え、
 前記制御部は、
  他の仮想空間における1以上の他ユーザのコミュニケーション情報を取得し、
  前記取得したコミュニケーション情報を、前記表示部に表示する前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理システム。
(12)
 プロセッサが、
 仮想空間の表示を制御することと、
 他の仮想空間における1以上の他ユーザのコミュニケーション情報を取得し、前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行うことと、
 を含む、情報処理方法。
(13)
 通信部と、
 表示部と、
 前記通信部により情報処理装置から受信した仮想空間の画像を前記表示部に表示する制御を行う制御部と、
 を備え、
 前記制御部は、他の仮想空間における1以上の他ユーザのコミュニケーション情報が、前記仮想空間に配置された仮想オブジェクトにより提示される画像を表示する、情報処理端末。
 10 ユーザ端末
 100 制御部
 110 通信部
 120 センサ部
  122 カメラ
  124 マイク
  126 モーションセンサ
 130 表示部
 140 スピーカ
 150 記憶部
 20 サーバ
 200 制御部
  201 仮想空間情報提供部
  202 仮想窓制御部
 210 通信部
 220 記憶部

Claims (13)

  1.  仮想空間の表示を制御する制御部を備え、
     前記制御部は、
      他の仮想空間における1以上の他ユーザのコミュニケーション情報を取得し、
      前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理装置。
  2.  前記制御部は、
      前記仮想空間における1以上のユーザのコミュニケーション情報を取得し、前記他の仮想空間に出力する制御を行う、請求項1に記載の情報処理装置。
  3.  前記制御部は、
      前記他の仮想空間において行われている複数の他ユーザのコミュニケーション情報を取得し、前記仮想空間に配置した前記仮想オブジェクトにより提示する制御を行う、請求項1に記載の情報処理装置。
  4.  前記コミュニケーション情報には、撮像画像、テキスト、音声の少なくともいずれかが含まれる、請求項1に記載の情報処理装置。
  5.  前記制御部は、前記仮想オブジェクトに、前記コミュニケーション情報に含まれる前記他の仮想空間で撮像された1以上の撮像画像を表示する制御を行う、請求項1に記載の情報処理装置。
  6.  前記制御部は、前記仮想空間におけるユーザの視点に対向する位置に仮想カメラを配置し、当該仮想カメラにより撮影した前記ユーザのアバターの撮像画像を、前記ユーザのコミュニケーション情報として前記他の仮想空間に出力する制御を行う、請求項1に記載の情報処理装置。
  7.  前記制御部は、所定のイベントが終了したことをトリガとして前記仮想空間から分岐した前記他の仮想空間における1以上の他ユーザのコミュニケーション情報を取得し、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、請求項1に記載の情報処理装置。
  8.  前記制御部は、前記他の仮想空間が分岐した際、前記仮想空間に居た1以上のユーザのうち、1以上の特定のユーザを、前記他の仮想空間に移動させる制御を行う、請求項7に記載の情報処理装置。
  9.  前記情報処理装置は、さらに通信部を備え、
     前記制御部は、前記仮想空間におけるユーザ視点の画像を生成し、ユーザの情報処理端末に前記通信部から送信する制御を行う、請求項1に記載の情報処理装置。
  10.  前記情報処理装置は、さらに表示部を備え、
     前記制御部は、前記仮想空間におけるユーザ視点の画像を生成し、前記表示部に表示する制御を行う、請求項1に記載の情報処理装置。
  11.  表示部と通信部を有する情報処理端末と、
     前記表示部への仮想空間の表示を制御する制御部と通信部を有する情報処理装置と、
     を備え、
     前記制御部は、
      他の仮想空間における1以上の他ユーザのコミュニケーション情報を取得し、
      前記取得したコミュニケーション情報を、前記表示部に表示する前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理システム。
  12.  プロセッサが、
     仮想空間の表示を制御することと、
     他の仮想空間における1以上の他ユーザのコミュニケーション情報を取得し、前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行うことと、
     を含む、情報処理方法。
  13.  通信部と、
     表示部と、
     前記通信部により情報処理装置から受信した仮想空間の画像を前記表示部に表示する制御を行う制御部と、
     を備え、
     前記制御部は、他の仮想空間における1以上の他ユーザのコミュニケーション情報が、前記仮想空間に配置された仮想オブジェクトにより提示される画像を表示する、情報処理端末。
PCT/JP2021/038378 2020-10-30 2021-10-18 情報処理装置、情報処理システム、情報処理方法、および情報処理端末 WO2022091832A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022559021A JPWO2022091832A1 (ja) 2020-10-30 2021-10-18
US18/032,477 US20230385011A1 (en) 2020-10-30 2021-10-18 Information processing apparatus, information processing system, information processing method, and information processing terminal
CN202180072232.6A CN116490249A (zh) 2020-10-30 2021-10-18 信息处理装置、信息处理系统、信息处理方法和信息处理终端

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020182458 2020-10-30
JP2020-182458 2020-10-30

Publications (1)

Publication Number Publication Date
WO2022091832A1 true WO2022091832A1 (ja) 2022-05-05

Family

ID=81382506

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/038378 WO2022091832A1 (ja) 2020-10-30 2021-10-18 情報処理装置、情報処理システム、情報処理方法、および情報処理端末

Country Status (4)

Country Link
US (1) US20230385011A1 (ja)
JP (1) JPWO2022091832A1 (ja)
CN (1) CN116490249A (ja)
WO (1) WO2022091832A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240096033A1 (en) * 2021-10-11 2024-03-21 Meta Platforms Technologies, Llc Technology for creating, replicating and/or controlling avatars in extended reality

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016202686A (ja) * 2015-04-24 2016-12-08 株式会社コロプラ ゲーム体験共有システム、方法、プログラム及び記録媒体
JP2019522856A (ja) * 2016-06-30 2019-08-15 株式会社ソニー・インタラクティブエンタテインメント バーチャルリアリティシーンに参加するための操作方法及びシステム
JP2020052775A (ja) * 2018-09-27 2020-04-02 株式会社コロプラ プログラム、仮想空間の提供方法および情報処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016202686A (ja) * 2015-04-24 2016-12-08 株式会社コロプラ ゲーム体験共有システム、方法、プログラム及び記録媒体
JP2019522856A (ja) * 2016-06-30 2019-08-15 株式会社ソニー・インタラクティブエンタテインメント バーチャルリアリティシーンに参加するための操作方法及びシステム
JP2020052775A (ja) * 2018-09-27 2020-04-02 株式会社コロプラ プログラム、仮想空間の提供方法および情報処理装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "Play with friends in virtual space. VR SNS "ambr" starts open access", 29 May 2020 (2020-05-29), pages 1 - 4, XP055927035, Retrieved from the Internet <URL:https://cufture.cinra.net/article/202005-ambr_news> [retrieved on 20220601] *
ANONYMOUS: "Spatial, which can share virtual space, is free of charge, and it is a business opportunity to take measures against "tired from working from home" ", 15 May 2020 (2020-05-15), pages 1 - 11, XP055927039, Retrieved from the Internet <URL:https://www.moguravr.com/spatial-virtual-collaboration-platform-free/> [retrieved on 20220601] *
YUKI TAKAGI: "Interaction method for sharing the feeling of going out using virtual avatar", THESIS, 1 March 2016 (2016-03-01), pages 1 - 34, XP055927041 *

Also Published As

Publication number Publication date
JPWO2022091832A1 (ja) 2022-05-05
CN116490249A (zh) 2023-07-25
US20230385011A1 (en) 2023-11-30

Similar Documents

Publication Publication Date Title
US10527846B2 (en) Image processing for head mounted display devices
JP6316387B2 (ja) 広範囲同時遠隔ディジタル提示世界
JP7389855B2 (ja) 配信ユーザの動きに基づいて生成されるキャラクタオブジェクトのアニメーションを含む動画をライブ配信する動画配信システム、動画配信方法及び動画配信プログラム
CN109643161A (zh) 动态进入和离开由不同hmd用户浏览的虚拟现实环境
US10269180B2 (en) Information processing apparatus and information processing method, display apparatus and display method, and information processing system
JP6499154B2 (ja) 拡張現実および仮想現実のためのシステムおよび方法
CN107924584A (zh) 增强现实
CN114236837A (zh) 用于显示交互式增强现实展示的系统、方法和介质
US11380072B2 (en) Neutral avatars
US20160379407A1 (en) Virtual Fantasy System and Method of Use
JP2016045814A (ja) 仮想現実サービス提供システム、仮想現実サービス提供方法
WO2022091832A1 (ja) 情報処理装置、情報処理システム、情報処理方法、および情報処理端末
Tachi From 3D to VR and further to telexistence
JP2018163461A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2023095862A (ja) プログラム及び情報処理方法
JP6875029B1 (ja) 方法、プログラム、情報処理装置
Luna Introduction to Virtual Reality
JP7111848B2 (ja) プログラム、情報処理装置、および方法
WO2021220494A1 (ja) 通信端末装置、通信方法、およびソフトウェアプログラム
US20240153226A1 (en) Information processing apparatus, information processing method, and program
CN116964544A (zh) 信息处理装置、信息处理终端、信息处理方法和程序

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21885951

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022559021

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 202180072232.6

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21885951

Country of ref document: EP

Kind code of ref document: A1