WO2023248678A1 - Information processing device, information processing method, and information processing system - Google Patents

Information processing device, information processing method, and information processing system Download PDF

Info

Publication number
WO2023248678A1
WO2023248678A1 PCT/JP2023/019085 JP2023019085W WO2023248678A1 WO 2023248678 A1 WO2023248678 A1 WO 2023248678A1 JP 2023019085 W JP2023019085 W JP 2023019085W WO 2023248678 A1 WO2023248678 A1 WO 2023248678A1
Authority
WO
WIPO (PCT)
Prior art keywords
dimensional
subtitle
information
information processing
space
Prior art date
Application number
PCT/JP2023/019085
Other languages
French (fr)
Japanese (ja)
Inventor
俊也 浜田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023248678A1 publication Critical patent/WO2023248678A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals

Definitions

  • the present technology relates to an information processing device, an information processing method, and an information processing system that can be applied to distribution of VR (Virtual Reality) images, etc.
  • VR Virtual Reality
  • Patent Document 1 discloses a technology that can more appropriately generate guide audio regarding the distribution of 6DoF content.
  • an information processing device includes a generation unit.
  • the generation unit includes three-dimensional space description data that defines the configuration of the three-dimensional space, which is included in three-dimensional spatial data used in rendering processing performed to express the three-dimensional space, and Subtitle object data that defines a three-dimensional subtitle object in the three-dimensional space is generated based on video object data that defines a three-dimensional video object and audio object data that defines a three-dimensional audio object in the three-dimensional space.
  • subtitle object data is generated based on three-dimensional spatial description data, video object data, and audio object data. This makes it possible to realize high-quality virtual images.
  • the subtitle object data may include a subtitle sentence and attribute information of the three-dimensional subtitle object.
  • the attribute information may include information on the position and orientation of the three-dimensional subtitle object in the three-dimensional space.
  • the attribute information includes at least one of the size, shape, color, transparency, display surface state, character size, character font, character color, character transparency, and effect of the three-dimensional subtitle object in the three-dimensional space. It may also contain one piece of information.
  • the audio object data may include audio information.
  • the generation unit may generate the subtitle sentence by performing voice recognition on the voice information.
  • the generation unit may generate the subtitle sentence by performing translation processing on the recognition result of the voice recognition.
  • the three-dimensional space description data may include position information of the three-dimensional audio object in the three-dimensional space and position information of the three-dimensional video object in the three-dimensional space.
  • the generation unit determines the three-dimensional video object corresponding to the three-dimensional audio object based on the position information of the three-dimensional video object and the position information of the three-dimensional audio object, and the determination result is
  • the attribute information may be generated based on.
  • the generation unit determines the three-dimensional video object corresponding to the subtitle sentence generated from the audio object data, based on position information of the three-dimensional video object and position information of the three-dimensional audio object. , the attribute information may be generated based on the determination result.
  • the generation unit may determine the three-dimensional video object that has uttered the content of the subtitle sentence as the three-dimensional video object that corresponds to the subtitle sentence.
  • the generation unit may generate information on the position and orientation of the 3D subtitle object with reference to a 3D bounding box of the 3D video object corresponding to the subtitle sentence.
  • the information processing device further performs a rendering process on the three-dimensional spatial data and the three-dimensional subtitle object based on visual field information regarding the user's visual field, thereby rendering two images according to the user's visual field. It may also include a rendering unit that generates dimensional video data. In this case, the generation unit may control the display mode of the subtitle text in the two-dimensional video data by adjusting the attribute information.
  • the rendering unit may perform pre-rendering processing on the three-dimensional spatial data and the three-dimensional subtitle object.
  • the generation unit may adjust the attribute information based on the result of the pre-rendering process.
  • the rendering unit may perform pre-rendering processing to determine the occurrence of occlusion.
  • the generation unit may adjust the position and orientation of the three-dimensional subtitle object included in the attribute information based on the result of the pre-rendering process.
  • the rendering unit may perform pre-rendering processing to determine the visibility of the subtitle text.
  • the generation unit may determine the color, transparency, display surface state, font size, font color, and font of the 3D subtitle object included in the attribute information based on the result of the pre-rendering process. At least one of the transparency may be adjusted.
  • the audio object data may include audio information.
  • the generation unit may generate the subtitle object data based on the audio object data when the output volume of the audio information is greater than a predetermined threshold.
  • the three-dimensional space description data may include information on the predetermined threshold value.
  • the generation unit may determine whether to end displaying the subtitle text based on the user's gaze point information.
  • An information processing method is an information processing method executed by a computer system, in which the three-dimensional Based on three-dimensional space description data that defines a configuration of a dimensional space, video object data that defines a three-dimensional video object in the three-dimensional space, and audio object data that defines a three-dimensional audio object in the three-dimensional space. , generating subtitle object data defining a three-dimensional subtitle object in the three-dimensional space.
  • An information processing system includes the generation unit.
  • FIG. 1 is a schematic diagram showing a basic configuration example of a virtual space providing system.
  • FIG. 3 is a schematic diagram for explaining rendering processing.
  • FIG. 2 is a schematic diagram showing a configuration example of a client device for realizing automatic generation of subtitle sentences according to the present technology.
  • FIG. 2 is a schematic diagram showing an example of a rendered video generated by a client device.
  • 12 is a flowchart illustrating an example of display processing of subtitle objects according to utterances.
  • FIG. 3 is a schematic diagram for explaining an example of setting initial values of the position and orientation of a subtitle object in a virtual space.
  • FIG. 3 is a schematic diagram for explaining an example of setting initial values of the position and orientation of a subtitle object in a virtual space.
  • FIG. 3 is a schematic diagram for explaining an example of setting initial values of the position and orientation of a subtitle object in a virtual space.
  • the virtual space providing system provides free-viewpoint three-dimensional virtual space content that allows viewing a virtual three-dimensional space (three-dimensional virtual space) from a free viewpoint (six degrees of freedom). is possible.
  • Such three-dimensional virtual space content is also called 6DoF content.
  • FIG. 1 is a schematic diagram showing a basic configuration example of a virtual space providing system.
  • FIG. 2 is a schematic diagram for explaining rendering processing.
  • the virtual space providing system 1 includes a distribution server 2, an HMD (Head Mounted Display) 3, and a client device 4.
  • a distribution server 2 an HMD (Head Mounted Display) 3
  • a client device 4 a client device 4.
  • the distribution server 2 and client device 4 are communicably connected via a network 5.
  • the network 5 is constructed by, for example, the Internet or a wide area communication network.
  • any WAN (Wide Area Network), LAN (Local Area Network), etc. may be used, and the protocol for constructing the network 5 is not limited.
  • the distribution server 2 and the client device 4 have hardware necessary for a computer, such as a processor such as a CPU, GPU, or DSP, memory such as a ROM or RAM, and a storage device such as an HDD (see FIG. 14).
  • the information processing method according to the present technology is executed by the processor loading the program according to the present technology stored in the storage unit or memory into the RAM and executing the program.
  • the distribution server 2 and the client device 4 can be realized by any computer such as a PC (Personal Computer).
  • PC Personal Computer
  • hardware such as FPGA or ASIC may also be used.
  • the HMD 3 and the client device 4 are connected to be able to communicate with each other.
  • the communication form for communicably connecting both devices is not limited, and any communication technology may be used.
  • wireless network communication such as WiFi, short-range wireless communication such as Bluetooth (registered trademark), etc. can be used.
  • the HMD 3 and the client device 4 may be integrally configured. That is, the functions of the client device 4 may be installed in the HMD 3.
  • a device other than the HMD 3 may be used as a device for providing virtual images to the user 6.
  • a virtual image may be displayed on a display included in a television, a smartphone, a tablet terminal, a PC, or the like.
  • the device capable of outputting virtual audio is not limited, and any type of speaker or the like may be used.
  • the virtual space providing system 1 makes it possible to distribute photorealistic free-viewpoint video, and to provide a viewing experience from a free viewpoint position.
  • visual field information is acquired by the HMD 3.
  • the visual field information is information regarding the user's 6 visual field.
  • the visual field information includes any information that can specify the visual field of the user 6 within the virtual space S.
  • any information that can specify the visual field of the user 6 may be used.
  • the visual field information one piece of information exemplified above may be used, or a combination of a plurality of pieces of information may be used.
  • the algorithm for estimating the self-position of the HMD 3 is also not limited, and any algorithm such as SLAM (Simultaneous Localization and Mapping) may be used. Further, head tracking that detects the movement of the user's 6 head, or eye tracking that detects the movement of the user's left and right gaze (movement of the gaze point) may be performed.
  • SLAM Simultaneous Localization and Mapping
  • any device or any algorithm may be used to acquire visual field information.
  • a smartphone or the like is used as a device for displaying a virtual image to the user 6, the face (head), etc. of the user 6 may be imaged, and visual field information may be acquired based on the captured image.
  • a device including a camera, an IMU, etc. may be attached to the head or around the eyes of the user 6.
  • the client device 4 corresponds to an embodiment of an information processing device according to the present technology.
  • the client device 4 executes an embodiment of the information processing method according to the present technology.
  • the video object data includes data on three-dimensional video objects such as people, animals, buildings, trees, etc.
  • data of three-dimensional image objects such as the sky and the sea forming the background etc. is included.
  • a plurality of types of objects may be collectively configured as one three-dimensional image object.
  • the client device 4 reproduces the three-dimensional space by arranging the three-dimensional video object and the three-dimensional audio object in the three-dimensional space based on the scene description information. Then, by cutting out the video seen by the user 6 using the reproduced three-dimensional space as a reference (rendering process), a rendered video that is a two-dimensional video that the user 6 views is generated. Note that the rendered image according to the user's 6 visual field can also be said to be an image of a viewport (display area) according to the user's 6 visual field.
  • the client device 4 controls the headphones of the HMD 3 so that the sound represented by the waveform data is output by the rendering process, with the position of the three-dimensional audio object as the sound source position. That is, the client device 4 generates audio information to be output from the headphones and output control information for specifying how the audio information is output.
  • the audio information is generated based on waveform data included in the three-dimensional audio object, for example.
  • the output control information any information that defines the volume, sound localization (localization direction), etc. may be generated. For example, by controlling the localization of sound, it is also possible to realize audio output using stereophonic sound.
  • a three-dimensional video object may be simply referred to as a video object.
  • a three-dimensional audio object may be simply referred to as an audio object.
  • FIG. 3 is a schematic diagram showing a configuration example of the client device 4 for realizing automatic generation of subtitle sentences according to the present technology.
  • FIG. 4 is a schematic diagram showing an example of rendered video 8 generated by client device 4. As shown in FIG.
  • the client device 4 includes a file acquisition section 9, a rendering section 10, a visual field information acquisition section 11, and a subtitle object generation section 12.
  • These functional blocks are realized by a processor such as a CPU executing a program according to the present technology, and the information processing method according to the present embodiment is executed.
  • dedicated hardware such as an IC (integrated circuit) may be used as appropriate to realize each functional block.
  • the file acquisition unit 9 acquires three-dimensional spatial data (scene description information and three-dimensional object data) distributed from the distribution server 2.
  • the visual field information acquisition unit 11 acquires visual field information from the HMD 3.
  • the acquired visual field information may be recorded in the storage unit 68 (see FIG. 14) or the like.
  • a buffer or the like for recording visual field information may be configured.
  • the subtitle object generation unit 12 defines a 3D subtitle object in a 3D space based on scene description information (3D space description data), video object data, and audio object data included in the 3D space data. Generate subtitle object data.
  • the three-dimensional subtitle object data includes a subtitle sentence consisting of text data and attribute information of the three-dimensional subtitle object, and will be described in detail later.
  • a three-dimensional subtitle object may be simply referred to as a subtitle object.
  • the rendering unit 10 performs rendering processing on the three-dimensional spatial data (scene description information and three-dimensional object data) and the subtitle object data generated by the subtitle object generation unit 12.
  • the rendering unit 10 arranges video objects and audio objects in a three-dimensional space based on scene description information. Further, in this embodiment, the rendering unit 10 arranges subtitle objects in a three-dimensional space.
  • a rendered video 8 that corresponds to the visual field of the user 6 is generated. Also, virtual audio is output with the position of the audio object as the sound source position.
  • a subtitle object 14 is displayed within the rendered video 8. That is, in this embodiment, a virtual video including subtitle text is displayed on the HMD 3 of the user 6.
  • the subtitle object 14 (subtitle text)
  • text data whose content corresponds to the speech content (virtual voice) output from the headphones is displayed in accordance with the speech timing.
  • the subtitle object 14 (subtitle text) is displayed in a display manner that allows the video object that has uttered the content of the subtitle text to be recognized.
  • a speech bubble containing a subtitle sentence is displayed as the subtitle object 14. Furthermore, the tail (pointed part) of the speech bubble extends toward the speaker, thereby making it possible to recognize which person object 15 has spoken.
  • the subtitle object 14 can also be called a subtitle panel.
  • the specific configuration example of the subtitle object 14 is not limited, and any configuration other than a speech bubble may be adopted.
  • a configuration may be adopted in which two straight lines extend radially from a video object that is a speaker, and a subtitle sentence is displayed between them.
  • only the subtitle sentence may be displayed as the subtitle object 14 near the speaker.
  • the audio of the free viewpoint three-dimensional virtual space content is composed of three-dimensional audio objects.
  • audio is not recorded as a mixture of multiple sound sources called "channels," but the vibration waveform of the sound is sampled for each sound source (object) that emits sound. That is, the audio object includes sound vibration waveform data as audio information generated in the three-dimensional virtual space S.
  • the three-dimensional position of the sound source in the local coordinate system is also recorded.
  • One three-dimensional audio object is composed of sound vibration waveform data, sound source position information in a local coordinate system, and other metadata.
  • a new subtitle object is generated by the subtitle object generation unit 12 shown in FIG. 3 based on the scene description information, the video object, and the audio object.
  • the subtitle object includes subtitle text and attribute information of the three-dimensional subtitle object (hereinafter referred to as subtitle attribute).
  • FIG. 5 is a flowchart illustrating an example of display processing of the subtitle object 14 according to utterances.
  • the process shown in FIG. 5 includes generation of subtitle object data (subtitle text and subtitle attributes) by the subtitle object generation unit 12, and pre-rendering processing and rendering processing by the rendering unit 10. Steps other than the pre-rendering process (steps 106 and 111) and the rendering process (step 112) are executed by the subtitle object generation unit 12.
  • the scene description information describes position information of a three-dimensional audio object in the three-dimensional virtual space S and position information of a three-dimensional video object in the three-dimensional virtual space S. That is, the scene description information describes the position information of the audio object and the position information of the video object on the global coordinates based on the three-dimensional virtual space S.
  • the vibration waveform data that is the audio information that makes up the audio object is not mixed with the sounds of other audio objects or surrounding sounds. Although external environmental sounds may be mixed in as noise, the volume level is low because it is not intentionally mixed. Therefore, when the vibration waveform data constituting the audio object is the voice spoken by a person, voice recognition is easy.
  • the present invention is not limited to this, and the correspondence between a subtitle sentence generated from an audio object and a video object may be determined. That is, the video object corresponding to the subtitle sentence generated from the audio object may be determined based on the position information of the audio object and the position information of the video object described in the scene description information. Of course, the 3D video object that uttered the content of the subtitle sentence is determined as the 3D video object corresponding to the subtitle sentence.
  • pre-rendering processing is executed to determine whether the visibility of the subtitle text is low due to surrounding colors, lighting, etc.
  • the pre-rendering process executed in step 106 is a pre-rendering process to determine the occurrence of occlusion, and is also a pre-rendering process to determine the visibility of the subtitle text. Note that the pre-rendering process for determining the occurrence of occlusion and the pre-rendering process for determining the visibility of the subtitle text may be performed separately. Then, based on the results of each pre-rendering process, determination of occurrence of occlusion (step 107) and determination of visibility of subtitle text (step 109) may be performed.
  • the area hidden by other objects in the rendered image 8 may be used to determine whether or not occlusion has occurred. For example, even if occlusion occurs, if the area where objects overlap is smaller than a predetermined threshold, it is determined that occlusion has not occurred (there is no effect), and the subtitle attributes (position and orientation) are determined. adjustment is not performed. Such settings are also possible.
  • step 108 attribute information other than the position and orientation of the subtitle object 14 may be changed so that occlusion is resolved.
  • occlusion can be eliminated by adjusting the shape and size of the subtitle object 14.
  • other attribute information may also be adjusted.
  • steps 109 to 111 are repeated until it is determined that visibility is not bad. If it is determined that the visibility is not bad (No in step 109), detailed rendering processing for display (not pre-rendering) is executed, and rendered video 8 to be presented to user 6 is generated. Since the rendering process is performed after subtitle attribute adjustment has been performed, an easy-to-read subtitle text that is sufficiently visible to the user 6 and is not obscured by the color or lighting of the surrounding environment is placed near the video object 18 that has emitted the sound. It becomes possible to display (step 112).
  • the present invention is not limited to this, and when there is a speech from a person's avatar or the like that is the video object 18, a processing flow may be executed in which it is determined whether or not the content of the speech is converted into a subtitle sentence and displayed. That is, a predetermined condition may be set regarding the display of the subtitle text, and it may be determined whether or not to generate the subtitle object 14, that is, whether to display the subtitle text according to the utterance.
  • the volume threshold is set as appropriate. This makes it possible to determine, for example, that if the voice uttered from a distant avatar is at a volume that is almost inaudible based on the user position (viewpoint position), it will not be converted into subtitle text.
  • volume threshold it is also possible to adjust the number and frequency of subtitles displayed in the rendered video 8 representing the virtual space S. For example, it becomes possible to convert only the content of utterances at a relatively loud volume into subtitles and display them.
  • a threshold value related to the volume for determination, an initial value of the threshold value, etc. may be described in the scene description information. That is, the scene description information may include information on a predetermined threshold value. In this case, it is also possible to set a threshold value for determination on the content side. For example, a volume threshold may be set appropriately for each scene.
  • the gaze point information of the user 6 is information included in the user's visual field information, and can be obtained by, for example, eye tracking. Using the gaze point information, it is possible to determine the position to which the user 6 has directed his/her line of sight in the three-dimensional virtual space S. That is, the gaze point corresponds to the position where the user directs his/her line of sight.
  • step 301 it is determined whether the user 6 has turned his/her line of sight to the displayed subtitle text (step 302).
  • the user 6 turns his/her line of sight to the subtitle text (Yes in step 301)
  • step 302 If the user 6 takes his/her line of sight away from the subtitle sentence (Yes in step 302), it is determined whether the user 6 moves his/her line of sight to the end of the subtitle sentence and then takes his/her line of sight off (step 303). If the user 6 moves his line of sight to the end of the subtitle sentence and then removes his line of sight (Yes in step 303), it is determined that he has finished reading the subtitle sentence, and the subtitle sentence is deleted (step 304).
  • step 303 If the user 6 has not moved his line of sight to the end of the subtitle sentence and then removed his line of sight (No in step 303), it is determined that he has not finished reading the subtitle sentence, and the process returns to step 301. In other words, the subtitle text is not deleted.
  • step 305 If the elapsed time exceeds the display time of the subtitle text (Yes in step 305), the subtitle text is deleted even though the subtitle text has not been read yet (step 306). In this way, subtitles that the user 6 does not look at are automatically deleted after a predetermined period of time has elapsed.
  • subtitle text moves out of the field of view as the user 6 moves within the three-dimensional virtual space S or moves his or her head.
  • processing such as continuing to display the subtitle object 14 at the edge (edge) position within the field of view is performed. You can.
  • the user 6 when the user 6's line of sight returns to the position of the subtitle text (subtitle object 14) that has been erased in a short period of time, the user 6 wants to reconfirm the subtitle text that the user 6 was looking at immediately before. It may be determined that the deleted subtitle text is redisplayed.
  • the subtitle object 14 can be automatically deleted at an appropriate timing without hindering the understanding of the user 6 who is viewing the content.
  • subtitles can be created with high accuracy. It becomes possible to generate the object 14 and display the subtitle text. Furthermore, it is possible to display the subtitle text at an appropriate position depending on the field of view (viewpoint position and line of sight direction) of the user 6 who is viewing the content from a free viewpoint.
  • subtitles For example, suppose that for content consisting of video and audio, it is possible to generate subtitles by some method even though subtitles have not been prepared in advance. In this case, in three-dimensional virtual space content, it is very difficult to appropriately determine the subtitle display position in advance. This is because the viewing position and viewing direction of the user 6 are not fixed because the three-dimensional virtual space content can be viewed from any free viewpoint.
  • subtitles are displayed without considering the viewing position and viewing direction of the user 6, the video object 18 that is located ahead of the user's line of sight and is desired to be viewed may be hidden by the subtitles, or a person who is not the speaker may be A problem arises in that speech bubbles are displayed nearby, making it difficult to understand the scene. In three-dimensional virtual space content, it is extremely difficult to check this problem in advance and determine the subtitle position in all viewing positions and directions that can be set by the user 6.
  • a subtitle string is generated using voice recognition, translated into the language specified by the user 6, and subtitle text is generated from scene description information.
  • voice recognition By associating the video object 18 with the video object 18, it becomes possible to determine a subtitle position that avoids occlusion. This makes it possible to display the subtitles at an appropriate position and attribute when viewed from the viewpoint of the user 6, thereby increasing the user's 6 understanding of the content.
  • the display area of the display is divided into a content display area 22 and a subtitle display area 23. It is assumed that a rendered video representing the virtual space S is displayed in the content display area 22, and subtitles are displayed in the subtitle display area 23. In this way, when subtitles are displayed at a fixed position on the display, you will be viewing a mixed image of the three-dimensional virtual space S and the two-dimensional subtitles. It becomes difficult to immerse yourself in
  • a subtitle object 14 is arranged as a three-dimensional object in a three-dimensional virtual space. Further, the position, orientation, shape, etc. of the subtitle object 14 are changed as the viewpoint position, line of sight direction, etc. of the user 6 are changed. As a result, it becomes possible to provide subtitles to the user 6 without impairing the depth and stereoscopic effect of the space, and it becomes possible to immerse the user 6 in a three-dimensional space. It also becomes possible to improve the accessibility of content.
  • the present technology can also be applied to three-dimensional virtual space content in which text data for subtitles has been prepared by the content creator, but the subtitle display position has not been specified. That is, by applying the present technology, it is possible to newly generate a subtitle object that is a three-dimensional object so as to include a prepared subtitle sentence. This makes it possible to determine in real time the position, shape, etc. where the subtitle text can be read, depending on the viewpoint position and line of sight direction of the user 6.
  • the 6DoF video distribution system to which the present technology can be applied is not limited to a client-side rendering system, but can also be applied to other distribution systems such as a server-side rendering system.
  • FIG. 12 is a schematic diagram for explaining a configuration example of a server-side rendering system.
  • a rendering server 30 is constructed on the network 5.
  • the rendering server 30 is communicably connected to the distribution server 2 and the client device 4 via the network 5.
  • the rendering server 30 can be implemented by any computer such as a PC.
  • visual field information is transmitted from the client device 4 to the rendering server 30. Furthermore, three-dimensional spatial data is distributed from the distribution server 2 to the rendering server 30.
  • the rendering server 30 newly generates subtitle object data (subtitle text and subtitle attributes). Furthermore, the rendering server 30 executes rendering processing based on the user's 6 visual field information. As a result, two-dimensional video data (rendered video) corresponding to the visual field of the user 6 is generated. Also, audio information and output control information are generated. A subtitle object 14 corresponding to the utterance or the like is displayed in the rendered video.
  • the rendered video, audio information, and output control information generated by the rendering server 30 are encoded and sent to the client device 4.
  • the client device 4 decodes the received rendered video and the like and transmits it to the HMD 3 worn by the user 6.
  • the HMD 3 displays rendered video and outputs audio information.
  • the user 6 can view the virtual space S in which subtitles are displayed.
  • subtitle object generation subtitle text display
  • the functional configuration of the client device 4 described in FIG. 3 is applied to the rendering server 30.
  • the rendering server 30 As a result, even if the user 6 freely moves his/her viewpoint in the three-dimensional virtual space content, it is possible to generate the subtitle object 14 with high precision, and the subtitle object 14 can be placed in an appropriate position without interfering with viewing. 14 can be displayed. As a result, it becomes possible to realize high-quality virtual images.
  • the rendering server 30 When a server-side rendering system is constructed, the rendering server 30 functions as an embodiment of the information processing device according to the present technology. Then, the rendering server 30 executes an embodiment of the information processing method according to the present technology.
  • FIG. 13 is a schematic diagram showing a basic configuration example of a remote communication system.
  • the remote communication system is a system in which a plurality of users 6 (6a to 6c) can share a three-dimensional virtual space S and communicate. Remote communication can also be called volumetric remote communication.
  • user information regarding each user 6 is transmitted from each client device 4 (4a to 4c) to the distribution server 2.
  • the user information the user's visual field information, movement information, audio information, etc. are transmitted.
  • the configuration and method for acquiring the movement information and voice information of the user 6 are not limited, and any configuration and method may be adopted.
  • a camera, a ranging sensor, a microphone, etc. may be arranged around the user 6, and movement information and audio information of the user 6 may be acquired based on the detection results thereof.
  • various forms of wearable devices such as a glove type may be worn by the user 6.
  • the wearable device is equipped with a motion sensor or the like, and based on the detection result, movement information of the user 6 may be acquired.
  • the distribution server 2 generates and distributes three-dimensional spatial data based on the user information transmitted from each client device 4 so that the movements, speech, etc. of the user 6 are reflected.
  • each user's own object (user object) 33 (33a to 33c) and another user's object (other user object) 34 are generated and distributed as video objects included in the three-dimensional spatial data. be done.
  • an audio object included in the three-dimensional spatial data an audio object including the content of utterances (audio information) from each user 6 is generated and distributed.
  • three-dimensional spatial data that reflects the movements and utterances of each user 6 in real time is sent from the distribution server 2 to each client device 4. Placed.
  • rendering processing is executed based on the visual field information of the users 6, and two-dimensional video data including the users 6 interacting with each other is generated.
  • audio information and output control information for outputting the utterance content of the users 6 from the sound source positions corresponding to the positions of each user 6 are generated.
  • each user 6 can interact with other users 6 in various ways in the virtual space S. It becomes possible to carry out various interactions. As a result, a remote communication system 31 that allows interaction with other users 6 is realized.
  • the generation of subtitle objects (display of subtitle text) according to the present technology is applied to such a remote communication system 31 in which a plurality of users 6 participate in a free viewpoint three-dimensional virtual space and interact such as conversations. Is possible.
  • the functional configuration described in FIG. 3 is applied to each client device 4.
  • the three-dimensional virtual space S it becomes possible to appropriately translate the words spoken by each user 6 and display them as subtitle sentences. Further, even if each user 6 freely moves his/her viewpoint, the subtitle object can be displayed at an appropriate position without interfering with viewing. As a result, it becomes possible to realize high-quality virtual images.
  • the present technology is also applicable to a form in which the user's 6 own avatar, that is, the user object 33 is not displayed.
  • a 6DoF video including 360-degree spatial video data is distributed as a virtual image.
  • the present technology is not limited to this, and is also applicable when 3DoF video, 2D video, etc. are distributed.
  • VR video instead of VR video, AR video or the like may be distributed as the virtual image.
  • the present technology is also applicable to stereo images (for example, right-eye images, left-eye images, etc.) for viewing 3D images.
  • FIG. 14 is a block diagram showing an example of the hardware configuration of a computer (information processing device) 60 that can realize the distribution server 2, the client device 4, and the rendering server 30.
  • the computer 60 includes a CPU 61, a ROM 62, a RAM 63, an input/output interface 65, and a bus 64 that connects these to each other.
  • a display section 66 , an input section 67 , a storage section 68 , a communication section 69 , a drive section 70 , and the like are connected to the input/output interface 65 .
  • the display section 66 is a display device using, for example, liquid crystal, EL, or the like.
  • the input unit 67 is, for example, a keyboard, pointing device, touch panel, or other operating device.
  • the input section 67 includes a touch panel
  • the touch panel can be integrated with the display section 66.
  • the storage unit 68 is a nonvolatile storage device, such as an HDD, flash memory, or other solid-state memory.
  • the drive section 70 is a device capable of driving a removable recording medium 71, such as an optical recording medium or a magnetic recording tape.
  • the communication unit 69 is a modem, router, or other communication equipment connectable to a LAN, WAN, etc., for communicating with other devices.
  • the communication unit 69 may communicate using either wired or wireless communication.
  • the communication unit 69 is often used separately from the computer 60.
  • Information processing by the computer 60 having the above-mentioned hardware configuration is realized by cooperation between software stored in the storage unit 68, ROM 62, etc., and hardware resources of the computer 60.
  • the information processing method according to the present technology is realized by loading a program constituting software stored in the ROM 62 or the like into the RAM 63 and executing it.
  • the program is installed on the computer 60 via the recording medium 61, for example.
  • the program may be installed on the computer 60 via a global network or the like.
  • any computer-readable non-transitory storage medium may be used.
  • the information processing method and program according to the present technology may be executed by a plurality of computers communicatively connected via a network or the like, and an information processing device according to the present technology may be constructed. That is, the information processing method and program according to the present technology can be executed not only in a computer system configured by a single computer but also in a computer system in which multiple computers operate in conjunction with each other.
  • a system means a collection of multiple components (devices, modules (components), etc.), and it does not matter whether all the components are located in the same casing. Therefore, a plurality of devices housed in separate casings and connected via a network and a single device in which a plurality of modules are housed in one casing are both systems.
  • Execution of the information processing method and program according to the present technology by a computer system includes, for example, generation of a subtitle object, generation of a subtitle sentence, generation (adjustment) of subtitle attributes, execution of rendering processing, execution of pre-rendering processing, and generation of user information.
  • This includes both cases where acquisition, determination of the start of display of a subtitle object, determination of end of display of a subtitle object, etc. are executed by a single computer, and cases where each process is executed by different computers.
  • execution of each process by a predetermined computer includes having another computer execute part or all of the process and acquiring the results. That is, the information processing method and program according to the present technology can also be applied to a cloud computing configuration in which one function is shared and jointly processed by a plurality of devices via a network.
  • the present technology can also adopt the following configuration.
  • 3D space description data that defines the configuration of the 3D space and 3D video objects in the 3D space, which are included in 3D space data used in rendering processing performed to express the 3D space.
  • a generation unit that generates subtitle object data that defines a three-dimensional subtitle object in the three-dimensional space based on video object data that defines the object and audio object data that defines the three-dimensional audio object in the three-dimensional space.
  • Information processing device (2) The information processing device according to (1), The subtitle object data includes a subtitle sentence and attribute information of the three-dimensional subtitle object.
  • Information processing apparatus (3) The information processing device according to (2), The attribute information includes information on the position and orientation of the three-dimensional subtitle object in the three-dimensional space.
  • the attribute information includes at least one of the size, shape, color, transparency, display surface state, character size, character font, character color, character transparency, and effect of the three-dimensional subtitle object in the three-dimensional space.
  • the audio object data includes audio information
  • the generation unit generates the subtitle sentence by performing voice recognition on the voice information.
  • the information processing device according to (5), The generation unit generates the subtitle sentence by performing translation processing on the recognition result of the voice recognition.
  • an information processing device that generates the attribute information based on the determination result.
  • the information processing device according to (8), The generation unit determines, as the three-dimensional video object corresponding to the subtitle sentence, the three-dimensional video object that has uttered the content of the subtitle sentence.
  • the information processing device according to (8) or (9), The generation unit generates information on the position and orientation of the three-dimensional subtitle object based on a three-dimensional bounding box of the three-dimensional video object corresponding to the subtitle sentence.
  • the information processing device according to any one of (2) to (10), further comprising: a rendering unit that generates two-dimensional video data according to the user's visual field by performing rendering processing on the three-dimensional spatial data and the three-dimensional subtitle object based on visual field information regarding the user's visual field; Equipped with The information processing device, wherein the generation unit controls a display mode of the subtitle sentence in the two-dimensional video data by adjusting the attribute information.
  • the information processing device according to (11), The rendering unit performs pre-rendering processing on the three-dimensional spatial data and the three-dimensional subtitle object, The generation unit adjusts the attribute information based on the result of the pre-rendering process.
  • the information processing apparatus further comprising: a rendering unit that generates two-dimensional video data according to the user's visual field by performing rendering processing on the three-dimensional spatial data and the three-dimensional subtitle object based on visual field information regarding the user's visual field; Equipped with The information processing device, wherein the generation unit controls a display mode of the subtitle sentence in the two-dimensional video
  • the information processing device executes pre-rendering processing to determine the occurrence of occlusion, The information processing apparatus, wherein the generation unit adjusts the position and orientation of the three-dimensional subtitle object included in the attribute information based on the result of the pre-rendering process.
  • the information processing device executes a pre-rendering process to determine the visibility of the subtitle text, The generation unit generates at least one of the color, transparency, display surface state, font size, font color, and font transparency of the three-dimensional subtitle object included in the attribute information, based on the result of the pre-rendering process.
  • An information processing device that adjusts one.
  • the information processing device includes audio information
  • the generation unit generates the subtitle object data based on the audio object data when the output volume of the audio information is larger than a predetermined threshold.
  • the information processing device includes information on the predetermined threshold value.
  • Information processing apparatus determines whether to end displaying the subtitle text based on user's gaze point information.
  • 3D space description data that defines the configuration of the 3D space and 3D video objects in the 3D space that are included in the 3D space data used in rendering processing performed to express the 3D space.
  • a computer system generates subtitle object data that defines a three-dimensional subtitle object in the three-dimensional space based on video object data that defines the three-dimensional subtitle object and audio object data that defines the three-dimensional audio object in the three-dimensional space.
  • Information processing method to be carried out (19) 3D space description data that defines the configuration of the 3D space and 3D video objects in the 3D space that are included in the 3D space data used in rendering processing performed to express the 3D space.
  • a generation unit that generates subtitle object data that defines a three-dimensional subtitle object in the three-dimensional space, based on video object data that defines a three-dimensional subtitle object and audio object data that defines a three-dimensional audio object in the three-dimensional space.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • General Health & Medical Sciences (AREA)
  • Processing Or Creating Images (AREA)

Abstract

An information processing device according to one embodiment of the present technology comprises a generation unit. The generation unit generates: three-dimensional space description data which is included in three-dimensional space data used for a rendering process executed for representing a three-dimensional space and defines the configuration of the three-dimensional space; video object data which defines a three-dimensional video object in the three-dimensional space; and subtitle object data which defines a three-dimensional subtitle object in the three-dimensional space on the basis of audio object data which defines a three-dimensional audio object in the three-dimensional space.

Description

情報処理装置、情報処理方法、及び情報処理システムInformation processing device, information processing method, and information processing system
 本技術は、VR(Virtual Reality:仮想現実)映像の配信等に適用可能な情報処理装置、情報処理方法、及び情報処理システムに関する。 The present technology relates to an information processing device, an information processing method, and an information processing system that can be applied to distribution of VR (Virtual Reality) images, etc.
 近年、全天周カメラ等により撮影された、全方位を見回すことが可能な全天周映像が、VR映像として配信されるようになってきている。さらに最近では、視聴者(ユーザ)が、全方位見回し(視線方向を自由に選択)することができ、3次元空間中を自由に移動することができる(視点位置を自由に選択することができる)6DoF(Degree of Freedom)映像(6DoFコンテンツとも称する)を配信する技術の開発が進んでいる。 In recent years, all-sky videos taken with all-sky cameras and the like, which allow you to look around in all directions, have been distributed as VR videos. Furthermore, recently, viewers (users) can look around in all directions (freely select the line of sight) and move freely in three-dimensional space (freely select the viewpoint position). ) Development of technology for distributing 6DoF (Degree of Freedom) video (also referred to as 6DoF content) is progressing.
 特許文献1には、6DoFコンテンツの配信に関して、より適切にガイド音声を生成することが可能な技術が開示されている。 Patent Document 1 discloses a technology that can more appropriately generate guide audio regarding the distribution of 6DoF content.
国際公開第2021/241190号International Publication No. 2021/241190
 VR映像等の仮想的な映像(仮想映像)の配信は普及していくと考えられ、高品質な仮想映像を実現可能とする技術が求められている。 The distribution of virtual images (virtual images) such as VR images is expected to become widespread, and there is a need for technology that makes it possible to realize high-quality virtual images.
 以上のような事情に鑑み、本技術の目的は、高品質な仮想映像を実現することが可能な情報処理装置、情報処理方法、及び情報処理システムを提供することにある。 In view of the above circumstances, the purpose of the present technology is to provide an information processing device, an information processing method, and an information processing system that can realize high-quality virtual images.
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、生成部を具備する。
 前記生成部は、3次元空間を表現するために実行されるレンダリング処理に用いられる3次元空間データに含まれる、前記3次元空間の構成を定義する3次元空間記述データと、前記3次元空間における3次元映像オブジェクトを定義する映像オブジェクトデータと、前記3次元空間における3次元オーディオオブジェクトを定義するオーディオオブジェクトデータとに基づいて、前記3次元空間における3次元字幕オブジェクトを定義する字幕オブジェクトデータを生成する。
In order to achieve the above object, an information processing device according to an embodiment of the present technology includes a generation unit.
The generation unit includes three-dimensional space description data that defines the configuration of the three-dimensional space, which is included in three-dimensional spatial data used in rendering processing performed to express the three-dimensional space, and Subtitle object data that defines a three-dimensional subtitle object in the three-dimensional space is generated based on video object data that defines a three-dimensional video object and audio object data that defines a three-dimensional audio object in the three-dimensional space. .
 この情報処理装置では、3次元空間記述データと、映像オブジェクトデータと、オーディオオブジェクトデータとに基づいて、字幕オブジェクトデータが生成される。これにより、高品質な仮想映像を実現することが可能となる。 In this information processing device, subtitle object data is generated based on three-dimensional spatial description data, video object data, and audio object data. This makes it possible to realize high-quality virtual images.
 前記字幕オブジェクデータは、字幕文と、前記3次元字幕オブジェクトの属性情報とを含んでもよい。 The subtitle object data may include a subtitle sentence and attribute information of the three-dimensional subtitle object.
 前記属性情報は、前記3次元空間における前記3次元字幕オブジェクトの位置及び向きの情報を含んでもよい。 The attribute information may include information on the position and orientation of the three-dimensional subtitle object in the three-dimensional space.
 前記属性情報は、前記3次元空間における前記3次元字幕オブジェクトの大きさ、形状、色、透明度、表示面の状態、文字の大きさ、文字フォント、文字色、文字の透明度、及びエフェクトの少なくとも1つの情報を含んでもよい。 The attribute information includes at least one of the size, shape, color, transparency, display surface state, character size, character font, character color, character transparency, and effect of the three-dimensional subtitle object in the three-dimensional space. It may also contain one piece of information.
 前記オーディオオブジェクトデータは、音声情報を含んでもよい。この場合、前記生成部は、前記音声情報に対して音声認識を実行することで前記字幕文を生成してもよい。 The audio object data may include audio information. In this case, the generation unit may generate the subtitle sentence by performing voice recognition on the voice information.
 前記生成部は、前記音声認識の認識結果に対して翻訳処理を実行することで前記字幕文を生成してもよい。 The generation unit may generate the subtitle sentence by performing translation processing on the recognition result of the voice recognition.
 前記3次元空間記述データは、前記3次元空間における前記3次元オーディオオブジェクトの位置情報と、前記3次元空間における前記3次元映像オブジェクトの位置情報とを含んでもよい。この場合、前記生成部は、前記3次元映像オブジェクトの位置情報と前記3次元オーディオオブジェクトの位置情報とに基づいて、前記3次元オーディオオブジェクトに対応する前記3次元映像オブジェクトを判定し、その判定結果に基づいて前記属性情報を生成してもよい。 The three-dimensional space description data may include position information of the three-dimensional audio object in the three-dimensional space and position information of the three-dimensional video object in the three-dimensional space. In this case, the generation unit determines the three-dimensional video object corresponding to the three-dimensional audio object based on the position information of the three-dimensional video object and the position information of the three-dimensional audio object, and the determination result is The attribute information may be generated based on.
 前記生成部は、前記3次元映像オブジェクトの位置情報と、前記3次元オーディオオブジェクトの位置情報とに基づいて、前記オーディオオブジェクトデータから生成された前記字幕文に対応する前記3次元映像オブジェクトを判定し、その判定結果に基づいて前記属性情報を生成してもよい。 The generation unit determines the three-dimensional video object corresponding to the subtitle sentence generated from the audio object data, based on position information of the three-dimensional video object and position information of the three-dimensional audio object. , the attribute information may be generated based on the determination result.
 前記生成部は、前記字幕文に対応する前記3次元映像オブジェクトとして、前記字幕文の内容を発話した前記3次元映像オブジェクトを判定してもよい。 The generation unit may determine the three-dimensional video object that has uttered the content of the subtitle sentence as the three-dimensional video object that corresponds to the subtitle sentence.
 前記生成部は、前記字幕文に対応する前記3次元映像オブジェクトの3次元バウンディングボックスを基準として、前記3次元字幕オブジェクトの位置及び向きの情報を生成してもよい。 The generation unit may generate information on the position and orientation of the 3D subtitle object with reference to a 3D bounding box of the 3D video object corresponding to the subtitle sentence.
 前記情報処理装装置は、さらに、ユーザの視野に関する視野情報に基づいて、前記3次元空間データと前記3次元字幕オブジェクトとに対してレンダリング処理を実行することで、前記ユーザの視野に応じた2次元映像データを生成するレンダリング部を具備してもよい。この場合、前記生成部は、前記属性情報を調整することで、前記2次元映像データにおける前記字幕文の表示態様を制御してもよい。 The information processing device further performs a rendering process on the three-dimensional spatial data and the three-dimensional subtitle object based on visual field information regarding the user's visual field, thereby rendering two images according to the user's visual field. It may also include a rendering unit that generates dimensional video data. In this case, the generation unit may control the display mode of the subtitle text in the two-dimensional video data by adjusting the attribute information.
 前記レンダリング部は、前記3次元空間データと前記3次元字幕オブジェクトとに対してプリレンダリング処理を実行してもよい。この場合、前記生成部は、前記プリレンダリング処理の結果に基づいて、前記属性情報を調整してもよい。 The rendering unit may perform pre-rendering processing on the three-dimensional spatial data and the three-dimensional subtitle object. In this case, the generation unit may adjust the attribute information based on the result of the pre-rendering process.
 前記レンダリング部は、オクルージョンの発生を判定するためのプリレンダリング処理を実行してもよい。この場合、前記生成部は、前記プリレンダリング処理の結果に基づいて、前記属性情報に含まれる前記3次元字幕オブジェクトの位置及び向きを調整してもよい。 The rendering unit may perform pre-rendering processing to determine the occurrence of occlusion. In this case, the generation unit may adjust the position and orientation of the three-dimensional subtitle object included in the attribute information based on the result of the pre-rendering process.
 前記レンダリング部は、前記字幕文の視認性を判定するためのプリレンダリング処理を実行してもよい。この場合、前記生成部は、前記プリレンダリング処理の結果に基づいて、前記属性情報に含まれる前記3次元字幕オブジェクトの色、透明度、表示面の状態、文字の大きさ、文字色、及び文字の透明度の少なくとも1つを調整してもよい。 The rendering unit may perform pre-rendering processing to determine the visibility of the subtitle text. In this case, the generation unit may determine the color, transparency, display surface state, font size, font color, and font of the 3D subtitle object included in the attribute information based on the result of the pre-rendering process. At least one of the transparency may be adjusted.
 前記オーディオオブジェクトデータは、音声情報を含んでもよい。この場合、前記生成部は、前記音声情報の出力音量が所定の閾値よりも大きい場合に、前記オーディオオブジェクトデータに基づいた前記字幕オブジェクトデータを生成してもよい。 The audio object data may include audio information. In this case, the generation unit may generate the subtitle object data based on the audio object data when the output volume of the audio information is greater than a predetermined threshold.
 前記3次元空間記述データは、前記所定の閾値の情報を含んでもよい。 The three-dimensional space description data may include information on the predetermined threshold value.
 前記生成部は、ユーザの注視点情報に基づいて、前記字幕文の表示を終了するか否かを判定してもよい。 The generation unit may determine whether to end displaying the subtitle text based on the user's gaze point information.
 本技術の一形態に係る情報処理方法は、コンピュータシステムが実行する情報処理方法であって、3次元空間を表現するために実行されるレンダリング処理に用いられる3次元空間データに含まれる、前記3次元空間の構成を定義する3次元空間記述データと、前記3次元空間における3次元映像オブジェクトを定義する映像オブジェクトデータと、前記3次元空間における3次元オーディオオブジェクトを定義するオーディオオブジェクトデータとに基づいて、前記3次元空間における3次元字幕オブジェクトを定義する字幕オブジェクトデータを生成することを含む。 An information processing method according to one embodiment of the present technology is an information processing method executed by a computer system, in which the three-dimensional Based on three-dimensional space description data that defines a configuration of a dimensional space, video object data that defines a three-dimensional video object in the three-dimensional space, and audio object data that defines a three-dimensional audio object in the three-dimensional space. , generating subtitle object data defining a three-dimensional subtitle object in the three-dimensional space.
 本技術の一形態に係る情報処理システムは、前記生成部を具備する。 An information processing system according to one embodiment of the present technology includes the generation unit.
仮想空間提供システムの基本的な構成例を示す模式図である。1 is a schematic diagram showing a basic configuration example of a virtual space providing system. レンダリング処理を説明するための模式図である。FIG. 3 is a schematic diagram for explaining rendering processing. 本技術に係る字幕文の自動生成を実現するための、クライアント装置の構成例を示す模式図である。FIG. 2 is a schematic diagram showing a configuration example of a client device for realizing automatic generation of subtitle sentences according to the present technology. クライアント装置により生成されるレンダリング映像の一例を示す模式図である。FIG. 2 is a schematic diagram showing an example of a rendered video generated by a client device. 発話に応じた字幕オブジェクトの表示処理の一例を示すフローチャートである。12 is a flowchart illustrating an example of display processing of subtitle objects according to utterances. 仮想空間における字幕オブジェクトの位置及び向きの初期値の設定例を説明するための模式図である。FIG. 3 is a schematic diagram for explaining an example of setting initial values of the position and orientation of a subtitle object in a virtual space. 仮想空間における字幕オブジェクトの位置及び向きの初期値の設定例を説明するための模式図である。FIG. 3 is a schematic diagram for explaining an example of setting initial values of the position and orientation of a subtitle object in a virtual space. 字幕オブジェクトの位置及び向きを変更する方法の一例を説明するための模式図である。FIG. 3 is a schematic diagram for explaining an example of a method of changing the position and orientation of a subtitle object. 字幕文の表示判定の処理例を示す模式図である。FIG. 3 is a schematic diagram illustrating a processing example of subtitle sentence display determination. 字幕文の表示終了の判定処理例を示すフローチャートである。12 is a flowchart illustrating an example of a process for determining whether to end displaying a subtitle sentence. 仮想空間を表現するレンダリング映像における字幕表示の他の例を示す模式図である。FIG. 7 is a schematic diagram showing another example of subtitle display in a rendered video representing a virtual space. サーバサイドレンダリングシステムの構成例を説明するための模式図である。FIG. 1 is a schematic diagram for explaining a configuration example of a server-side rendering system. 遠隔コミュニケーションシステムの基本的な構成例を示す模式図である。1 is a schematic diagram showing a basic configuration example of a remote communication system. 配信サーバ、クライアント装置、及びレンダリングサーバを実現可能なコンピュータ(情報処理装置)のハードウェア構成例を示すブロック図である。FIG. 2 is a block diagram illustrating an example of a hardware configuration of a computer (information processing device) that can implement a distribution server, a client device, and a rendering server.
 以下、本技術に係る実施形態を、図面を参照しながら説明する。 Hereinafter, embodiments according to the present technology will be described with reference to the drawings.
 [仮想空間提供システム]
 まず、本技術を適用することが可能な仮想空間提供システムの一例について、基本的な構成例及び基本的な動作例を説明する。
 本実施形態に係る仮想空間提供システムでは、仮想的な3次元空間(3次元仮想空間)を自由な視点(6自由度)で視聴することが可能な自由視点3次元仮想空間コンテンツを提供することが可能である。このような3次元仮想空間コンテンツは、6DoFコンテンツとも呼ばれる。
[Virtual space provision system]
First, a basic configuration example and basic operation example of an example of a virtual space providing system to which the present technology can be applied will be described.
The virtual space providing system according to the present embodiment provides free-viewpoint three-dimensional virtual space content that allows viewing a virtual three-dimensional space (three-dimensional virtual space) from a free viewpoint (six degrees of freedom). is possible. Such three-dimensional virtual space content is also called 6DoF content.
 図1は、仮想空間提供システムの基本的な構成例を示す模式図である。
 図2は、レンダリング処理を説明するための模式図である。
FIG. 1 is a schematic diagram showing a basic configuration example of a virtual space providing system.
FIG. 2 is a schematic diagram for explaining rendering processing.
 図1に示す仮想空間提供システム1は、本技術に係る情報処理システムの一実施形態に相当する。また図1に示す仮想空間Sは、本技術に係る仮想的な3次元空間の一実施形態に相当する。 The virtual space providing system 1 shown in FIG. 1 corresponds to an embodiment of an information processing system according to the present technology. Further, the virtual space S shown in FIG. 1 corresponds to an embodiment of a virtual three-dimensional space according to the present technology.
 図1に示すように、仮想空間提供システム1は、配信サーバ2と、HMD(Head Mounted Display)3と、クライアント装置4とを含む。 As shown in FIG. 1, the virtual space providing system 1 includes a distribution server 2, an HMD (Head Mounted Display) 3, and a client device 4.
 配信サーバ2と、クライアント装置4とは、ネットワーク5を介して、通信可能に接続されている。ネットワーク5は、例えばインターネットや広域通信回線網等により構築される。その他、任意のWAN(Wide Area Network)やLAN(Local Area Network)等が用いられてよく、ネットワーク5を構築するためのプロトコルは限定されない。 The distribution server 2 and client device 4 are communicably connected via a network 5. The network 5 is constructed by, for example, the Internet or a wide area communication network. In addition, any WAN (Wide Area Network), LAN (Local Area Network), etc. may be used, and the protocol for constructing the network 5 is not limited.
 配信サーバ2、及びクライアント装置4は、例えば例えばCPU、GPU、DSP等のプロセッサ、ROM、RAM等のメモリ、HDD等の記憶デバイス等、コンピュータに必要なハードウェアを有する(図14参照)。プロセッサが記憶部やメモリに記憶されている本技術に係るプログラムをRAMにロードして実行することにより、本技術に係る情報処理方法が実行される。 The distribution server 2 and the client device 4 have hardware necessary for a computer, such as a processor such as a CPU, GPU, or DSP, memory such as a ROM or RAM, and a storage device such as an HDD (see FIG. 14). The information processing method according to the present technology is executed by the processor loading the program according to the present technology stored in the storage unit or memory into the RAM and executing the program.
 例えばPC(Personal Computer)等の任意のコンピュータにより、配信サーバ2、及びクライアント装置4を実現することが可能である。もちろんFPGA、ASIC等のハードウェアが用いられてもよい。 For example, the distribution server 2 and the client device 4 can be realized by any computer such as a PC (Personal Computer). Of course, hardware such as FPGA or ASIC may also be used.
 HMD3とクライアント装置4とは、互いに通信可能に接続されている。両デバイスを通信可能に接続するための通信形態は限定されず、任意の通信技術が用いられてよい。例えば、WiFi等の無線ネットワーク通信や、Bluetooth(登録商標)等の近距離無線通信等を用いることが可能である。なお、HMD3とクライアント装置4とが一体的に構成されてもよい。すなわちHMD3に、クライアント装置4の機能が搭載されてもよい。 The HMD 3 and the client device 4 are connected to be able to communicate with each other. The communication form for communicably connecting both devices is not limited, and any communication technology may be used. For example, wireless network communication such as WiFi, short-range wireless communication such as Bluetooth (registered trademark), etc. can be used. Note that the HMD 3 and the client device 4 may be integrally configured. That is, the functions of the client device 4 may be installed in the HMD 3.
 配信サーバ2は、クライアント装置4に対して、3次元空間データを配信する。3次元空間データは、仮想空間S(3次元空間)を表現するために実行されるレンダリング処理に用いられる。3次元空間データに対してレンダリング処理が実行されることで、HMD3により表示される仮想映像が生成される。また、HMD3が有するヘッドフォンから仮想音声が出力される。3次元空間データについては、後に詳述する。 The distribution server 2 distributes three-dimensional spatial data to the client device 4. The three-dimensional space data is used in rendering processing performed to express the virtual space S (three-dimensional space). By performing rendering processing on the three-dimensional spatial data, a virtual image displayed by the HMD 3 is generated. Further, virtual audio is output from the headphones included in the HMD 3. The three-dimensional spatial data will be explained in detail later.
 HMD3は、ユーザ6に対して、3次元空間により構成される各シーンの仮想映像を表示し、また仮想音声を出力するために用いられるデバイスである。HMD3は、ユーザ6の頭部に装着されて使用される。例えば、仮想映像としてVR映像が配信される場合には、ユーザ6の視野を覆うように構成された没入型のHMD3が用いられる。仮想映像として、AR(Augmented Reality:拡張現実)映像が配信される場合には、ARグラス等が、HMD3として用いられる。 The HMD 3 is a device used to display virtual images of each scene configured in a three-dimensional space to the user 6, and to output virtual audio. The HMD 3 is used by being attached to the head of the user 6. For example, when a VR video is distributed as a virtual video, an immersive HMD 3 configured to cover the visual field of the user 6 is used. When an AR (Augmented Reality) video is distributed as a virtual video, AR glasses or the like are used as the HMD 3.
 ユーザ6に仮想映像を提供するためのデバイスとして、HMD3以外のデバイスが用いられてもよい。例えば、テレビ、スマートフォン、タブレット端末、及びPC等に備えられたディスプレイにより、仮想映像が表示されてもよい。また、仮想音声を出力可能なデバイスも限定されず、任意の形態のスピーカ等が用いられてよい。 A device other than the HMD 3 may be used as a device for providing virtual images to the user 6. For example, a virtual image may be displayed on a display included in a television, a smartphone, a tablet terminal, a PC, or the like. Furthermore, the device capable of outputting virtual audio is not limited, and any type of speaker or the like may be used.
 本実施形態では、没入型のHMD3を装着したユーザ6に対して、6DoF映像がVR映像として提供される。ユーザ6は、3次元空間からなる仮想空間S内において、前後、左右、及び上下の全周囲360°の範囲で映像を視聴することが可能となる。 In this embodiment, a 6DoF video is provided as a VR video to a user 6 wearing an immersive HMD 3. The user 6 is able to view video in a 360° range of front and rear, left and right, and up and down directions within the virtual space S that is a three-dimensional space.
 例えばユーザ6は、仮想空間S内にて、視点の位置や視線方向等を自由に動かし、自分の視野(視野範囲)を自由に変更させる。このユーザ6の視野の変更に応じて、ユーザ6に表示される仮想映像が切替えられる。ユーザ6は、顔の向きを変える、顔を傾ける、振り返るといった動作をすることで、現実世界と同じような感覚で、仮想空間S内にて周囲を視聴することが可能となる。 For example, the user 6 freely moves the position of the viewpoint, the line of sight direction, etc. within the virtual space S, and freely changes his/her field of view (field of view range). The virtual image displayed to the user 6 is switched in accordance with this change in the user's 6 visual field. By performing actions such as changing the direction of the face, tilting the face, and looking back, the user 6 can view the surroundings in the virtual space S with the same feeling as in the real world.
 このように、本実施形態に係る仮想空間提供システム1では、フォトリアルな自由視点映像を配信することが可能となり、自由な視点位置での視聴体験を提供することが可能となる。 In this way, the virtual space providing system 1 according to the present embodiment makes it possible to distribute photorealistic free-viewpoint video, and to provide a viewing experience from a free viewpoint position.
 図1に示すように本実施形態では、HMD3により、視野情報が取得される。視野情報は、ユーザ6の視野に関する情報である。具体的には、視野情報は、仮想空間S内におけるユーザ6の視野を特定することが可能な任意の情報を含む。 As shown in FIG. 1, in this embodiment, visual field information is acquired by the HMD 3. The visual field information is information regarding the user's 6 visual field. Specifically, the visual field information includes any information that can specify the visual field of the user 6 within the virtual space S.
 例えば、視野情報として、視点位置、注視点、中心視野、視線方向、視線の回転角度等が挙げられる。また視野情報として、ユーザ6の頭の位置、ユーザ6の頭の回転角度等が挙げられる。 For example, the visual field information includes a viewpoint position, a gaze point, a central visual field, a viewing direction, a rotation angle of the viewing direction, and the like. Further, the visual field information includes the position of the user's 6 head, the rotation angle of the user's 6 head, and the like.
 視線の回転角度は、例えば、視線方向に延在する軸を回転軸とする回転角度により規定することが可能である。またユーザ6の頭の回転角度は、頭に対して設定される互いに直交する3つの軸をロール軸、ピッチ軸、ヨー軸とした場合の、ロール角度、ピッチ角度、ヨー角度により規定することが可能である。 The rotation angle of the line of sight can be defined, for example, by a rotation angle whose rotation axis is an axis extending in the line of sight direction. Further, the rotation angle of the user 6's head can be defined by the roll angle, pitch angle, and yaw angle when the three mutually orthogonal axes set for the head are the roll axis, pitch axis, and yaw axis. It is possible.
 例えば、顔の正面方向に延在する軸をロール軸とする。ユーザ6の顔を正面から見た場合に左右方向に延在する軸をピッチ軸とし、上下方向に延在する軸をヨー軸とする。これらロール軸、ピッチ軸、ヨー軸に対する、ロール角度、ピッチ角度、ヨー角度が、頭の回転角度として算出される。なお、ロール軸の方向を、視線方向として用いることも可能である。 For example, let the axis extending in the front direction of the face be the roll axis. When the user 6's face is viewed from the front, an axis extending in the left-right direction is defined as a pitch axis, and an axis extending in the vertical direction is defined as a yaw axis. The roll angle, pitch angle, and yaw angle with respect to these roll, pitch, and yaw axes are calculated as the rotation angle of the head. Note that it is also possible to use the direction of the roll axis as the viewing direction.
 その他、ユーザ6の視野を特定可能な任意の情報が用いられてよい。視野情報として、上記で例示した情報が1つ用いられてもよいし、複数の情報が組み合わされて用いられてもよい。 In addition, any information that can specify the visual field of the user 6 may be used. As the visual field information, one piece of information exemplified above may be used, or a combination of a plurality of pieces of information may be used.
 視野情報を取得する方法は限定されない。例えば、HMD3に備えられたセンサ装置(カメラを含む)による検出結果(センシング結果)に基づいて、視野情報を取得することが可能である。 The method of acquiring visual field information is not limited. For example, it is possible to acquire visual field information based on a detection result (sensing result) by a sensor device (including a camera) provided in the HMD 3.
 例えば、HMD3に、ユーザ6の周囲を検出範囲とするカメラや測距センサ、ユーザ6の左右の目を撮像可能な内向きカメラ等が設けられる。また、HMD3に、IMU(Inertial Measurement Unit)センサやGPSが設けられる。例えば、GPSにより取得されるHMD3の位置情報を、ユーザ6の視点位置や、ユーザ6の頭の位置として用いることが可能である。もちろん、ユーザ6の左右の目の位置等がさらに詳しく算出されてもよい。 For example, the HMD 3 is provided with a camera or distance measuring sensor whose detection range is around the user 6, an inward camera capable of capturing images of the left and right eyes of the user 6, and the like. Further, the HMD 3 is provided with an IMU (Inertial Measurement Unit) sensor and a GPS. For example, it is possible to use the position information of the HMD 3 acquired by GPS as the viewpoint position of the user 6 or the position of the user 6's head. Of course, the positions of the left and right eyes of the user 6 may be calculated in more detail.
 また、ユーザ6の左右の目の撮像画像から、視線方向を検出することも可能である。また、IMUの検出結果から、視線の回転角度や、ユーザ6の頭の回転角度を検出することも可能である。 It is also possible to detect the line of sight direction from the captured images of the left and right eyes of the user 6. Furthermore, it is also possible to detect the rotation angle of the line of sight and the rotation angle of the user's 6 head from the detection results of the IMU.
 また、HMD3に備えられたセンサ装置による検出結果に基づいて、ユーザ6(HMD3)の自己位置推定が実行されてもよい。例えば、自己位置推定により、HMD3の位置情報、及びHMD3がどの方向を向いているか等の姿勢情報を算出することが可能である。当該位置情報や姿勢情報から、視野情報を取得することが可能である。 Furthermore, self-position estimation of the user 6 (HMD 3) may be performed based on the detection result by a sensor device included in the HMD 3. For example, by self-position estimation, it is possible to calculate position information of the HMD 3 and posture information such as which direction the HMD 3 is facing. It is possible to acquire visual field information from the position information and posture information.
 HMD3の自己位置を推定するためのアルゴリズムも限定されず、SLAM(Simultaneous Localization and Mapping)等の任意のアルゴリズムが用いられてもよい。また、ユーザ6の頭の動きを検出するヘッドトラッキングや、ユーザ6の左右の視線の動き(注視点の動き)を検出するアイトラッキングが実行されてもよい。 The algorithm for estimating the self-position of the HMD 3 is also not limited, and any algorithm such as SLAM (Simultaneous Localization and Mapping) may be used. Further, head tracking that detects the movement of the user's 6 head, or eye tracking that detects the movement of the user's left and right gaze (movement of the gaze point) may be performed.
 その他、視野情報を取得するために、任意のデバイスや任意のアルゴリズムが用いられてもよい。例えば、ユーザ6に対して仮想映像を表示するデバイスとして、スマートフォン等が用いられる場合等では、ユーザ6の顔(頭)等が撮像され、その撮像画像に基づいて視野情報が取得されてもよい。あるいは、ユーザ6の頭や目の周辺に、カメラやIMU等を備えるデバイスが装着されてもよい。 In addition, any device or any algorithm may be used to acquire visual field information. For example, in a case where a smartphone or the like is used as a device for displaying a virtual image to the user 6, the face (head), etc. of the user 6 may be imaged, and visual field information may be acquired based on the captured image. . Alternatively, a device including a camera, an IMU, etc. may be attached to the head or around the eyes of the user 6.
 視野情報を生成するために、例えばDNN(Deep Neural Network:深層ニューラルネットワーク)等を用いた任意の機械学習アルゴリズムが用いられてもよい。例えばディープラーニング(深層学習)を行うAI(人工知能)等を用いることで、視野情報の生成精度を向上させることが可能となる。なお機械学習アルゴリズムの適用は、本開示内の任意の処理に対して実行されてよい。 Any machine learning algorithm using, for example, DNN (Deep Neural Network) may be used to generate the visual field information. For example, by using AI (artificial intelligence) that performs deep learning, it is possible to improve the accuracy of generating visual field information. Note that the application of the machine learning algorithm may be performed to any processing within the present disclosure.
 クライアント装置4は、配信サーバ2から送信される3次元空間データと、HMD3から送信された視野情報とを受信する。クライアント装置4は、視野情報に基づいて、3次元空間データに対してレンダリング処理を実行する。これにより、ユーザ6の視野に応じた2次元映像データ(レンダリング映像)が生成される。 The client device 4 receives the three-dimensional spatial data transmitted from the distribution server 2 and the visual field information transmitted from the HMD 3. The client device 4 executes rendering processing on the three-dimensional spatial data based on the visual field information. As a result, two-dimensional video data (rendered video) corresponding to the visual field of the user 6 is generated.
 本実施形態において、クライアント装置4は、本技術に係る情報処理装置の一実施形態に相当する。クライアント装置4により、本技術に係る情報処理方法の一実施形態が実行される。 In this embodiment, the client device 4 corresponds to an embodiment of an information processing device according to the present technology. The client device 4 executes an embodiment of the information processing method according to the present technology.
 図2に示すように、3次元空間データは、シーン記述情報と、3次元オブジェクトデータとを含む。シーン記述情報は、シーンデスクリプション(Scene Description)とも呼ばれる。
 シーン記述情報は、3次元空間(仮想空間S)の構成を定義する3次元空間記述データに相当する。シーン記述情報は、6DoFコンテンツの各シーンを再現するための種々のメタデータを含む。
As shown in FIG. 2, the three-dimensional spatial data includes scene description information and three-dimensional object data. The scene description information is also called a scene description.
The scene description information corresponds to three-dimensional space description data that defines the configuration of a three-dimensional space (virtual space S). The scene description information includes various metadata for reproducing each scene of the 6DoF content.
 シーン記述情報の具体的なデータ構造(データフォーマット)は限定されず、任意のデータ構造が用いられてよい。例えば、シーン記述情報として、glTF(GL Transmission Format)を用いることが可能である。 The specific data structure (data format) of the scene description information is not limited, and any data structure may be used. For example, glTF (GL Transmission Format) can be used as the scene description information.
 3次元オブジェクトデータは、3次元空間における3次元オブジェクトを定義するデータである。すなわち6DoFコンテンツの各シーンを構成する各オブジェクトのデータとなる。本実施形態では、3次元オブジェクトデータとして、映像オブジェクトデータと、オーディオ(音声)オブジェクトデータとが配信される。 Three-dimensional object data is data that defines a three-dimensional object in a three-dimensional space. In other words, it is data of each object that constitutes each scene of the 6DoF content. In this embodiment, video object data and audio object data are distributed as three-dimensional object data.
 映像オブジェクトデータは、3次元空間における3次元映像オブジェクトを定義するデータである。3次元映像オブジェクトは、ジオメトリ情報と色情報から構成される、メッシュ(ポリゴンメッシュ)データとその面に張り付けるテクスチャデータとで構成される。あるいは点群(ポイントクラウド)データで構成される。
 ジオメトリデータ(メッシュや点群の位置)はそのオブジェクト固有のローカル座標系で表現されている。3次元仮想空間上でのオブジェクト配置はシーン記述情報で指定される。
The video object data is data that defines a 3D video object in a 3D space. A three-dimensional video object is composed of mesh (polygon mesh) data composed of geometry information and color information, and texture data pasted onto its surface. Alternatively, it is composed of point cloud data.
Geometry data (positions of meshes and point clouds) is expressed in a local coordinate system unique to that object. Object placement in the three-dimensional virtual space is specified by scene description information.
 例えば、映像オブジェクトデータとしては、人物、動物、建物、木等の3次元映像オブジェクトのデータが含まれる。あるいは、背景等を構成する空や海等の3次元映像オブジェクトのデータが含まれる。複数の種類の物体がまとめて1つの3次元映像オブジェクトとして構成されてもよい。 For example, the video object data includes data on three-dimensional video objects such as people, animals, buildings, trees, etc. Alternatively, data of three-dimensional image objects such as the sky and the sea forming the background etc. is included. A plurality of types of objects may be collectively configured as one three-dimensional image object.
 オーディオオブジェクトデータは、音源の位置情報と、音源毎の音声データがサンプリングされた波形データとで構成される。音源の位置情報は3次元オーディオオブジェクト群が基準としているローカル座標系での位置であり、3次元の仮想空間S上でのオブジェクト配置は、シーン記述情報で指定される。 The audio object data is composed of position information of the sound source and waveform data obtained by sampling audio data for each sound source. The position information of the sound source is the position in the local coordinate system that is used as a reference by the three-dimensional audio object group, and the object arrangement on the three-dimensional virtual space S is specified by the scene description information.
 図2に示すようにクライアント装置4は、シーン記述情報に基づいて、3次元空間に3次元映像オブジェクト及び3次元オーディオオブジェクトを配置することにより、3次元空間を再現する。そして、再現された3次元空間を基準として、ユーザ6から見た映像を切り出すことにより(レンダリング処理)、ユーザ6が視聴する2次元映像であるレンダリング映像を生成する。なお、ユーザ6の視野に応じたレンダリング映像は、ユーザ6の視野に応じたビューポート(表示領域)の映像ともいえる。 As shown in FIG. 2, the client device 4 reproduces the three-dimensional space by arranging the three-dimensional video object and the three-dimensional audio object in the three-dimensional space based on the scene description information. Then, by cutting out the video seen by the user 6 using the reproduced three-dimensional space as a reference (rendering process), a rendered video that is a two-dimensional video that the user 6 views is generated. Note that the rendered image according to the user's 6 visual field can also be said to be an image of a viewport (display area) according to the user's 6 visual field.
 またクライアント装置4は、レンダリング処理により、3次元オーディオオブジェクトの位置を音源位置として、波形データで表される音声が出力されるように、HMD3のヘッドフォンを制御する。すなわち、クライアント装置4は、ヘッドフォンから出力させる音声情報と、当該音声情報をどのように出力されるかを規定するための出力制御情報を生成する。 Further, the client device 4 controls the headphones of the HMD 3 so that the sound represented by the waveform data is output by the rendering process, with the position of the three-dimensional audio object as the sound source position. That is, the client device 4 generates audio information to be output from the headphones and output control information for specifying how the audio information is output.
 音声情報は、例えば、3次元オーディオオブジェクトに含まれる波形データに基づいて生成される。出力制御情報としては、音量や音の定位(定位方向)等を規定する任意の情報が生成されてよい。例えば、音の定位を制御することで、立体音響による音声出力を実現することも可能である。 The audio information is generated based on waveform data included in the three-dimensional audio object, for example. As the output control information, any information that defines the volume, sound localization (localization direction), etc. may be generated. For example, by controlling the localization of sound, it is also possible to realize audio output using stereophonic sound.
 クライアント装置4により生成されたレンダリング映像、音声情報及び出力制御情報は、HMD3に送信される。HMD3により、レンダリング映像が表示され、また音声情報が出力される。これにより、ユーザ6は、6Dofコンテンツを視聴することが可能となる。 The rendered video, audio information, and output control information generated by the client device 4 are transmitted to the HMD 3. The HMD 3 displays rendered video and outputs audio information. This allows the user 6 to view the 6Dof content.
 以下、3次元映像オブジェクトを、単に映像オブジェクトと記載する場合がある。同様に、3次元オーディオオブジェクトを、単にオーディオオブジェクトと記載する場合がある。 Hereinafter, a three-dimensional video object may be simply referred to as a video object. Similarly, a three-dimensional audio object may be simply referred to as an audio object.
 [仮想空間Sにおける字幕の表示に関する検討]
 図1及び図2に例示したように、自由な視点位置での視聴体験を提供する6DoF映像配信では、全ての位置からの視聴を可能にするために、動画コンテンツ内に登場するあらゆるものがメッシュやポイントクラウドといった3D映像オブジェクトで構成される。それら各3D映像オブジェクトのデータが、仮想空間Sのどこに配置するか等のシーン情報を管理するシーン記述情報(Scene Descriptionファイル)と共に配信される。ユーザ6は、仮想空間S内を自由に動いて、どこでも好きな位置で視聴することが可能となる。
[Study regarding display of subtitles in virtual space S]
As illustrated in Figures 1 and 2, in 6DoF video distribution that provides a viewing experience from any viewpoint, everything that appears in the video content is meshed to enable viewing from all positions. It consists of 3D video objects such as and point clouds. The data of each of these 3D video objects is distributed together with scene description information (Scene Description file) that manages scene information such as where to place it in the virtual space S. The user 6 can freely move within the virtual space S and view the content from any desired position.
 このような3次元仮想空間コンテンツにおいて、コンテンツ制作者が字幕を用意していない場合は、仮想空間Sを表現するレンダリング映像内に字幕を表示させることが難しい。本発明者は、図1及び図2を参照して説明した3次元仮想空間コンテンツの特性と、視聴スタイルの特性(視野情報)を利用することにより、ユーザ6が理解可能な言語に翻訳された字幕文の自動生成と、字幕文の自動位置決定を実現するシステムを新たに考案した。 In such three-dimensional virtual space content, if the content creator does not prepare subtitles, it is difficult to display subtitles within the rendered video representing the virtual space S. The present inventor has proposed that by using the characteristics of the three-dimensional virtual space content and the characteristics of the viewing style (field of view information) explained with reference to FIGS. We have devised a new system that automatically generates subtitles and automatically determines their position.
 [字幕オブジェクトデータの生成]
 図3は、本技術に係る字幕文の自動生成を実現するための、クライアント装置4の構成例を示す模式図である。
 図4は、クライアント装置4により生成されるレンダリング映像8の一例を示す模式図である。
[Generation of subtitle object data]
FIG. 3 is a schematic diagram showing a configuration example of the client device 4 for realizing automatic generation of subtitle sentences according to the present technology.
FIG. 4 is a schematic diagram showing an example of rendered video 8 generated by client device 4. As shown in FIG.
 図3に示すように、クライアント装置4は、ファイル取得部9と、レンダリング部10と、視野情報取得部11と、字幕オブジェクト生成部12とを有する。
 これらの機能ブロックは、例えばCPU等のプロセッサが本技術に係るプログラムを実行することで実現され、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。
As shown in FIG. 3, the client device 4 includes a file acquisition section 9, a rendering section 10, a visual field information acquisition section 11, and a subtitle object generation section 12.
These functional blocks are realized by a processor such as a CPU executing a program according to the present technology, and the information processing method according to the present embodiment is executed. Note that dedicated hardware such as an IC (integrated circuit) may be used as appropriate to realize each functional block.
 ファイル取得部9は、配信サーバ2から配信される3次元空間データ(シーン記述情報及び3次元オブジェクトデータ)を取得する。視野情報取得部11は、HMD3から視野情報を取得する。取得された視野情報は、記憶部68(図14参照)等に記録されてもよい。例えば、視野情報を記録するためのバッファ等が構成されてもよい。 The file acquisition unit 9 acquires three-dimensional spatial data (scene description information and three-dimensional object data) distributed from the distribution server 2. The visual field information acquisition unit 11 acquires visual field information from the HMD 3. The acquired visual field information may be recorded in the storage unit 68 (see FIG. 14) or the like. For example, a buffer or the like for recording visual field information may be configured.
 字幕オブジェクト生成部12は、3次元空間データに含まれる、シーン記述情報(3次元空間記述データ)と、映像オブジェクトデータと、オーディオオブジェクトデータとに基づいて、3次元空間における3次元字幕オブジェクトを定義する字幕オブジェクトデータを生成する。
 3次元字幕オブジェクトデータは、テキストデータからなる字幕文と、3次元字幕オブジェクトの属性情報とを含み、詳しくは後述する。以下、3次元字幕オブジェクトを、単に字幕オブジェクトと記載する場合がある。
The subtitle object generation unit 12 defines a 3D subtitle object in a 3D space based on scene description information (3D space description data), video object data, and audio object data included in the 3D space data. Generate subtitle object data.
The three-dimensional subtitle object data includes a subtitle sentence consisting of text data and attribute information of the three-dimensional subtitle object, and will be described in detail later. Hereinafter, a three-dimensional subtitle object may be simply referred to as a subtitle object.
 本実施形態において、字幕オブジェクト生成部12は、本技術に係る生成部の一実施形態として機能する。 In this embodiment, the subtitle object generation unit 12 functions as an embodiment of a generation unit according to the present technology.
 レンダリング部10は、3次元空間データ(シーン記述情報及び3次元オブジェクトデータ)と、字幕オブジェクト生成部12により生成された字幕オブジェクトデータとに対して、レンダリング処理を実行する。 The rendering unit 10 performs rendering processing on the three-dimensional spatial data (scene description information and three-dimensional object data) and the subtitle object data generated by the subtitle object generation unit 12.
 レンダリング部10により、図2に例示するように、シーン記述情報に基づいて、3次元空間に映像オブジェクト及びオーディオオブジェクトが配置される。また本実施形態では、レンダリング部10により、3次元空間に字幕オブジェクトが配置される。 As illustrated in FIG. 2, the rendering unit 10 arranges video objects and audio objects in a three-dimensional space based on scene description information. Further, in this embodiment, the rendering unit 10 arranges subtitle objects in a three-dimensional space.
 映像オブジェクト、オーディオオブジェクト、及び字幕オブジェクトが配置された3次元空間を基準としてレンダリング処理が実行されることで、ユーザ6の視野に応じたレンダリング映像8が生成される。またオーディオオブジェクトの位置を音源位置として仮想音声が出力される。 By performing rendering processing based on the three-dimensional space in which the video object, audio object, and subtitle object are arranged, a rendered video 8 that corresponds to the visual field of the user 6 is generated. Also, virtual audio is output with the position of the audio object as the sound source position.
 図4に例示するように、レンダリング映像8内に、字幕オブジェクト14が表示される。すなわち、本実施形態では、字幕文を含む仮想映像が、ユーザ6のHMD3に表示される。字幕オブジェクト14(字幕文)は、ヘッドフォンから出力される発話内容(仮想音声)に対応する内容のテキストデータが、発話タイミングに応じて表示される。また字幕オブジェクト14(字幕文)は、当該字幕文の内容を発話した映像オブジェクトが認識可能な表示態様により表示される。 As illustrated in FIG. 4, a subtitle object 14 is displayed within the rendered video 8. That is, in this embodiment, a virtual video including subtitle text is displayed on the HMD 3 of the user 6. In the subtitle object 14 (subtitle text), text data whose content corresponds to the speech content (virtual voice) output from the headphones is displayed in accordance with the speech timing. Further, the subtitle object 14 (subtitle text) is displayed in a display manner that allows the video object that has uttered the content of the subtitle text to be recognized.
 図4に示す例では、人物オブジェクト15(15a及び15b)により行われる以下の会話に対応して、字幕文が表示される。
 人物オブジェクト15a:「おはよう」
 人物オブジェクト15b:「おはよう」
 人物オブジェクト15a:「久しぶり!」
 人物オブジェクト15b:「元気だった?」
In the example shown in FIG. 4, subtitle sentences are displayed in response to the following conversation performed by person objects 15 (15a and 15b).
Person object 15a: "Good morning"
Person object 15b: "Good morning"
Person object 15a: “Long time no see!”
Person object 15b: "How have you been?"
 また図4に示す例では、字幕オブジェクト14として、字幕文を含む吹き出しが表示される。また吹き出しのしっぽ(とがった部分)が、発話者に向けて延びており、これによりどの人物オブジェクト15が発話したかを認識することが可能となっている。字幕オブジェクト14を、字幕パネルと呼ぶことも可能である。 In the example shown in FIG. 4, a speech bubble containing a subtitle sentence is displayed as the subtitle object 14. Furthermore, the tail (pointed part) of the speech bubble extends toward the speaker, thereby making it possible to recognize which person object 15 has spoken. The subtitle object 14 can also be called a subtitle panel.
 もちろん、字幕オブジェクト14の具体的な構成例は限定されず、吹き出し以外の任意の構成が採用されてよい。例えば、発話者である映像オブジェクトから2本の直線が放射状に延びており、その間に字幕文が表示されるような形態が採用されてもよい。あるいは、字幕文のみが、字幕オブジェクト14として発話者の近くに表示されてもよい。 Of course, the specific configuration example of the subtitle object 14 is not limited, and any configuration other than a speech bubble may be adopted. For example, a configuration may be adopted in which two straight lines extend radially from a video object that is a speaker, and a subtitle sentence is displayed between them. Alternatively, only the subtitle sentence may be displayed as the subtitle object 14 near the speaker.
 上記でも述べたが、自由視点の3次元仮想空間コンテンツの映像は、3次元映像オブジェクトによって構成される。3次元映像オブジェクトは、物体の形状を表すジオメトリデータと、物体表面の色を表すテクスチャデータから構成される。ジオメトリデータは例えばポリゴンメッシュあるいはメッシュと呼ばれる三角形の集合である。3次元映像オブジェクトを構成する別データ形式としてはポイントクラウドデータもある。 As mentioned above, the video of free viewpoint three-dimensional virtual space content is composed of three-dimensional video objects. A three-dimensional video object is composed of geometry data representing the shape of the object and texture data representing the color of the object's surface. The geometry data is, for example, a polygon mesh or a set of triangles called a mesh. Another data format that constitutes a three-dimensional video object is point cloud data.
 また、自由視点の3次元仮想空間コンテンツのオーディオは、3次元オーディオオブジェクトで構成される。3次元オーディオオブジェクトでは、オーディオを「チャンネル」という複数の音源がミックスされた状態の音で記録するのではなく、音を発する音源(オブジェクト)毎に音の振動波形をサンプリングする。すなわち、オーディオオブジェクトは、3次元の仮想空間Sにて発生される音声情報として、音の振動波形データを含む。
 さらにその音源の、(オーディオオブジェクト群が基準とする)ローカル座標系での3次元位置も記録される。1つの3次元オーディオオブジェクトは、音の振動波形データとローカル座標系での音源位置情報、その他のメタデータから構成される。
Furthermore, the audio of the free viewpoint three-dimensional virtual space content is composed of three-dimensional audio objects. In a three-dimensional audio object, audio is not recorded as a mixture of multiple sound sources called "channels," but the vibration waveform of the sound is sampled for each sound source (object) that emits sound. That is, the audio object includes sound vibration waveform data as audio information generated in the three-dimensional virtual space S.
Furthermore, the three-dimensional position of the sound source in the local coordinate system (on which the audio objects are based) is also recorded. One three-dimensional audio object is composed of sound vibration waveform data, sound source position information in a local coordinate system, and other metadata.
 本実施形態では、図3に示す字幕オブジェクト生成部12により、シーン記述情報、映像オブジェクト、及びオーディオオブジェクトに基づいて、新たに字幕オブジェクが生成される。字幕オブジェクトは、字幕文と、3次元字幕オブジェクトの属性情報(以下、字幕属性と記載する)とを含む。 In this embodiment, a new subtitle object is generated by the subtitle object generation unit 12 shown in FIG. 3 based on the scene description information, the video object, and the audio object. The subtitle object includes subtitle text and attribute information of the three-dimensional subtitle object (hereinafter referred to as subtitle attribute).
 例えば字幕属性として、3次元からなる仮想空間Sにおける字幕オブジェクトの位置及び向き(方向)の情報が生成される。すなわち、字幕属性として、字幕オブジェクトの位置情報と向き情報とが生成される。
 また字幕属性として、仮想空間Sにおける字幕オブジェクトの大きさ、形状、色、透明度、表示面の状態、文字(字幕文)の大きさ、文字フォント、文字色、文字の透明度、及びエフェクト等の情報が生成される。これらの例示した属性情報の全てが生成されてもよいし、一部の属性情報が生成されてもよい。
For example, information on the position and orientation (direction) of a subtitle object in the three-dimensional virtual space S is generated as the subtitle attribute. That is, position information and orientation information of a subtitle object are generated as subtitle attributes.
In addition, as subtitle attributes, information such as the size, shape, color, transparency, display surface condition, text (subtitle text) size, text font, text color, text transparency, and effects of the subtitle object in the virtual space S is generated. All of these exemplified attribute information may be generated, or some of the attribute information may be generated.
 字幕オブジェクトの色は、字幕文が表示される表示面の色を含み、字幕文の背景の色(背景色)とも言える。表示面の状態は、例えば表示面のラフネスや反射率等の情報を含む。表示面を、字幕面と呼ぶことも可能である。
 エフェクトは、字幕オブジェクト14や字幕文を表現する際の様々なエフェクトを含む。例えば、サイズや色の連続的な変化や点滅等の様々なアニメーション表示等が、エフェクトとして設定されてもよい。
The color of the subtitle object includes the color of the display surface on which the subtitle text is displayed, and can also be called the color of the background of the subtitle text (background color). The state of the display surface includes information such as the roughness and reflectance of the display surface. The display surface can also be called a subtitle surface.
The effects include various effects when expressing the subtitle object 14 and subtitle sentences. For example, various animation displays such as continuous changes in size or color or blinking may be set as effects.
 図4に示す例では、字幕オブジェクト14である吹き出しの位置、吹き出しの向き(方向)、吹き出しの大きさ、吹き出しの形状、吹き出しの色、吹き出しの透明度、表示面の状態、吹き出し内の文字(字幕文)の大きさ、文字フォント、文字色、文字の透明度、及びエフェクト等の情報が、字幕属性として生成される。 In the example shown in FIG. 4, the position of the speech bubble that is the subtitle object 14, the direction of the speech bubble, the size of the speech bubble, the shape of the speech bubble, the color of the speech bubble, the transparency of the speech bubble, the state of the display surface, the characters within the speech bubble ( Information such as the size of the subtitle text, text font, text color, text transparency, and effects are generated as subtitle attributes.
 字幕属性は、レンダリング映像8における字幕文の表示に関する属性情報とも言える。あるいは、字幕属性は、レンダリング映像8内における字幕文の表示態様を規定する情報とも言える。 The subtitle attribute can also be said to be attribute information regarding the display of subtitle sentences in the rendered video 8. Alternatively, the subtitle attribute can also be said to be information that defines the display mode of the subtitle text within the rendered video 8.
 [字幕文(字幕オブジェクト)の表示処理の具体例]
 図5は、発話に応じた字幕オブジェクト14の表示処理の一例を示すフローチャートである。
 図5に示す処理は、字幕オブジェクト生成部12による字幕オブジェクトデータ(字幕文及び字幕属性)の生成と、レンダリング部10によるプリレンダリング処理及びレンダリング処理とを含む。
 プリレンダリング処理(ステップ106及び111)と、レンダリング処理(ステップ112)以外のステップは、字幕オブジェクト生成部12により実行される。
[Specific example of display processing of subtitle text (subtitle object)]
FIG. 5 is a flowchart illustrating an example of display processing of the subtitle object 14 according to utterances.
The process shown in FIG. 5 includes generation of subtitle object data (subtitle text and subtitle attributes) by the subtitle object generation unit 12, and pre-rendering processing and rendering processing by the rendering unit 10.
Steps other than the pre-rendering process (steps 106 and 111) and the rendering process (step 112) are executed by the subtitle object generation unit 12.
 例えば、ユーザ6により字幕を表示する字幕表示モードが選択された場合に、図5に示す字幕オブジェクトの表示処理が実行される。ユーザ6は、ユーザ設定として、表示させたい字幕文の言語を指定することが可能である。例えば、日本語、英語、フランス語等、任意の言語による字幕文の表示が可能である。 For example, when the user 6 selects a subtitle display mode in which subtitles are displayed, the subtitle object display process shown in FIG. 5 is executed. The user 6 can specify the language of the subtitle text to be displayed as a user setting. For example, subtitles can be displayed in any language such as Japanese, English, French, etc.
 ユーザ設定に基づいて、レンダリング映像8内に表示する字幕文の言語が決定される(ステップ101)。次に、発話内容(音声情報)を含むオーディオオブジェクトの位置情報から、その発話を行った映像オブジェクトが特定される(ステップ102)。 Based on the user settings, the language of the subtitle text to be displayed in the rendered video 8 is determined (step 101). Next, the video object that made the utterance is specified from the position information of the audio object that includes the content of the utterance (audio information) (step 102).
 シーン記述情報には、3次元の仮想空間Sにおける3次元オーディオオブジェクトの位置情報と、3次元の仮想空間Sにおける3次元映像オブジェクトの位置情報とが記述されている。すなわち、シーン記述情報には、3次元の仮想空間Sが基準とするグローバル座標上での、オーディオオブジェクトの位置情報、及び映像オブジェクトの位置情報とが記述されている。 The scene description information describes position information of a three-dimensional audio object in the three-dimensional virtual space S and position information of a three-dimensional video object in the three-dimensional virtual space S. That is, the scene description information describes the position information of the audio object and the position information of the video object on the global coordinates based on the three-dimensional virtual space S.
 本実施形態では、シーン記述情報に記述されたオーディオオブジェクトの位置情報と、映像オブジェクトの位置情報とに基づいて、オーディオオブジェクトに対応する映像オブジェクトとを判定することが可能である。すなわち、シーン記述情報に基づいて、オーディオオブジェクトと映像オブジェクトとの対応関係を容易に判定することが可能である。この結果、オーディオオブジェクトに含まれる音声情報を発話した映像オブジェクトを容易に特定することが可能である。 In this embodiment, it is possible to determine the video object that corresponds to the audio object based on the position information of the audio object and the position information of the video object described in the scene description information. That is, it is possible to easily determine the correspondence between audio objects and video objects based on the scene description information. As a result, it is possible to easily identify the video object that uttered the audio information included in the audio object.
 オーディオオブジェクトに含まれる音声情報に対して音声認識が実行され、発話内容がテキスト化される(ステップ103)。また、発話内容のテキストが字幕言語に翻訳される(ステップ104)。本実施形態では、ステップ101にてユーザ6により指定された言語にて、発話内容のテキストが翻訳される。この結果、字幕オブジェクトデータに含まれる字幕文(テキストデータ)の生成が完了する。 Speech recognition is performed on the audio information included in the audio object, and the utterance content is converted into text (step 103). Furthermore, the text of the utterance is translated into the subtitle language (step 104). In this embodiment, the text of the utterance is translated into the language specified by the user 6 in step 101. As a result, generation of the subtitle sentence (text data) included in the subtitle object data is completed.
 このように本実施形態では、オーディオオブジェクトに含まれる音声情報に対して音声認識を実行することで字幕文が生成される。また音声認識の認識結果に対して翻訳処理を実行することで字幕文が生成される。
 なお、ステップ104にて、シーン記述情報の属性情報に基づいて、字幕文の文体等が調整されてもよい。例えば、音声情報を発話した映像オブジェクトが女性であるという属性情報が記述されている場合に、女性の文体となるように、字幕文が調整されてもよい。
As described above, in this embodiment, a subtitle sentence is generated by performing speech recognition on audio information included in an audio object. Furthermore, subtitle sentences are generated by performing translation processing on the recognition results of speech recognition.
Note that, in step 104, the writing style of the subtitle text, etc. may be adjusted based on the attribute information of the scene description information. For example, if attribute information is written indicating that the video object that uttered the audio information is female, the subtitle text may be adjusted to have a female writing style.
 ここで比較例として、2次元画像と多数の音がミックスされたチャンネルオーディオから構成される2次元映像コンテンツに対して、新たに字幕を生成して表示する場合について検討する。
 このような2次元映像コンテンツに対して、画像に表示されている人物等の物体を特定しようとした場合、画像内の物体を特定する形状認識や、物体に対する意味認識技術が必要になる。このような形状認識や意味認識を高い精度で実行できたとしても、誤認識率をゼロにすることは困難である。
Here, as a comparative example, we will consider a case where subtitles are newly generated and displayed for two-dimensional video content composed of channel audio in which a two-dimensional image and a large number of sounds are mixed.
When attempting to identify an object such as a person displayed in an image of such two-dimensional video content, technology for shape recognition and meaning recognition for the object is required to identify the object within the image. Even if such shape recognition and meaning recognition can be performed with high accuracy, it is difficult to reduce the false recognition rate to zero.
 また多数の音がミックスされたチャンネルオーディオから、特定の人物の音声だけを分離することも困難である。例えば、ある音声が画像内のどの人物から発せられたものであるかを対応付けることは、音声と映像を結びつけるメタデータが無いため困難であった。
 特に、ある音声が画像の外にいる人物から発せられたものである場合、音声と人物との対応付けを自動で行うことは非常に難しい。現実的には、映像内の人物と音声の対応付けは、視聴者の認識力に頼っていた部分が大きい。
Furthermore, it is difficult to separate only the voice of a specific person from channel audio in which a large number of voices are mixed. For example, it has been difficult to associate which person in an image uttered a certain sound because there is no metadata that connects the sound and the video.
In particular, when a certain voice is uttered by a person outside the image, it is extremely difficult to automatically associate the voice with the person. In reality, the correspondence between people in a video and voices relies largely on the viewer's cognitive abilities.
 ここで本発明者は、図1及び図2を参照して説明した3次元仮想空間コンテンツの特性に着目した。 Here, the present inventor focused on the characteristics of the three-dimensional virtual space content described with reference to FIGS. 1 and 2.
 オーディオオブジェクトを構成する音声情報である振動波形データには、他のオーディオオブジェクトの音や周囲の音がミックスされていない。ノイズとして外部環境音が混ざる場合もあるが、意図してミックスしたものではないため、その音量レベルは小さい。そのため、オーディオオブジェクトを構成する振動波形データが、人が話した音声である場合等において、音声認識が容易であるという特徴がある。 The vibration waveform data that is the audio information that makes up the audio object is not mixed with the sounds of other audio objects or surrounding sounds. Although external environmental sounds may be mixed in as noise, the volume level is low because it is not intentionally mixed. Therefore, when the vibration waveform data constituting the audio object is the voice spoken by a person, voice recognition is easy.
 この特徴を生かし、ユーザ6が視聴しているシーン内において、発話者のオーディオオブジェクトの振動波形データを音声認識器に入力させてテキストデータに変換する。チャンネルオーディオから特定の人物の音声を抽出するために複数の人物の音声を分別・分離する処理を実行する必要はないので、認識率の高い音声認識を実行することが可能である。 Taking advantage of this feature, the vibration waveform data of the speaker's audio object is input to the speech recognizer and converted into text data in the scene that the user 6 is viewing. Since there is no need to perform processing to classify and separate the voices of multiple people in order to extract the voice of a specific person from the channel audio, it is possible to perform voice recognition with a high recognition rate.
 また、映像オブジェクト及びオーディオオブジェクトがそれぞれ個別にシーン記述情報に記述されており、各オブジェクトの仮想空間Sにおける位置情報も記述されている。従って、2次元画像と多数の音がミックスされたチャンネルオーディオから構成される2次元映像コンテンツと比較して、字幕文として生成されるテキストデータと、当該字幕文の内容を発話した映像オブジェクトを、非常に容易に、また非常に高精度に対応付けすることが可能である。 Furthermore, the video object and the audio object are individually described in the scene description information, and the position information of each object in the virtual space S is also described. Therefore, compared to two-dimensional video content consisting of two-dimensional images and channel audio mixed with many sounds, text data generated as a subtitle sentence and a video object that utters the contents of the subtitle sentence are It is possible to make correspondences very easily and with very high precision.
 なお図5に示す例では、ステップ102にて、オーディオオブジェクトと映像オブジェクトとの対応関係が判定された。そしてステップ103及び104にて、発話内容(音声情報)に対して音声認識及び翻訳処理が実行され、字幕文が生成された。 Note that in the example shown in FIG. 5, the correspondence between the audio object and the video object is determined in step 102. Then, in steps 103 and 104, speech recognition and translation processing is performed on the utterance content (audio information) to generate a subtitle sentence.
 これに限定されず、オーディオオブジェクトから生成された字幕文と、映像オブジェクトとの対応関係が判定されてもよい。すなわち、シーン記述情報に記述されているオーディオオブジェクトの位置情報と、映像オブジェクトの位置情報とに基づいて、オーディオオブジェクトから生成された字幕文に対応する映像オブジェクトが判定されてもよい。もちろん、字幕文に対応する3次元映像オブジェクトとして、字幕文の内容を発話した3次元映像オブジェクトが判定される。 The present invention is not limited to this, and the correspondence between a subtitle sentence generated from an audio object and a video object may be determined. That is, the video object corresponding to the subtitle sentence generated from the audio object may be determined based on the position information of the audio object and the position information of the video object described in the scene description information. Of course, the 3D video object that uttered the content of the subtitle sentence is determined as the 3D video object corresponding to the subtitle sentence.
 オーディオオブジェクトデータに含まれる音声情報(振動波形データ)を発した映像オブジェクトを特定するために、オーディオオブジェクトと映像オブジェクトとの対応関係が判定されてもよいし、オーディオオブジェクトから生成される字幕文と映像オブジェクトとの対応関係とが判定されてもよい。 In order to identify the video object that emitted the audio information (vibration waveform data) included in the audio object data, the correspondence between the audio object and the video object may be determined, or the subtitle text generated from the audio object and the subtitle text generated from the audio object may be determined. The correspondence relationship with the video object may also be determined.
 次に、字幕オブジェクトに含まれる字幕属性の生成が実行される。字幕属性は、オーディオオブジェクトに対応する映像オブジェクトの判定結果に基づいて生成される。もちろん、オーディオオブジェクトから生成された字幕文に対応する映像オブジェクトの判定結果に基づいて、字幕属性が生成されてもよい。 Next, subtitle attributes included in the subtitle object are generated. The subtitle attribute is generated based on the determination result of the video object corresponding to the audio object. Of course, the subtitle attribute may be generated based on the determination result of the video object corresponding to the subtitle text generated from the audio object.
 本実施形態では、まず字幕属性の初期値(デフォルト値)が設定される(ステップ105)。例えば、仮想空間Sにおける字幕オブジェクトの位置、向き(方向)、大きさ、形状、色、透明度、表示面の状態、文字(字幕文)の大きさ、文字フォント、文字色、文字の透明度、及びエフェクトの初期値が設定される。 In this embodiment, first, the initial value (default value) of the subtitle attribute is set (step 105). For example, the position, orientation (direction), size, shape, color, transparency, display surface state, text (subtitle text) size, text font, text color, text transparency, and The initial value of the effect is set.
 図6及び図7は、仮想空間Sにおける字幕オブジェクト(吹き出し)14の位置及び向きの初期値の設定例を説明するための模式図である。 6 and 7 are schematic diagrams for explaining an example of setting initial values of the position and orientation of the subtitle object (speech bubble) 14 in the virtual space S.
 本実施形態では、オーディオオブジェクト17に対応する映像オブジェクト18、すなわち字幕文に対応する映像オブジェクト18の3次元バウンディングボックス(BBox:Bounding Box)19を基準として、字幕オブジェクト14の位置及び向きの情報が生成される。 In this embodiment, information on the position and orientation of the subtitle object 14 is based on the three-dimensional bounding box (BBox: Bounding Box) 19 of the video object 18 corresponding to the audio object 17, that is, the video object 18 corresponding to the subtitle text. generated.
 具体的には、図6に示すように、ユーザ6の視点位置から見た場合の、字幕文に対応する映像オブジェクト18の3次元BBox19の透視投影像に着目する。3次元BBox19の透視投影像に対して、3次元BBox19の外側に隣接し、かつユーザ6の視線方向に対し字幕面(字幕文が表示される表示面)が垂直になる(正対する)条件を満たす位置及び向きが、初期値として設定される。なお、映像オブジェクト18の3次元BBoX19を生成する方法は限定されず、例えば周知技術が用いられてもよい。 Specifically, as shown in FIG. 6, attention is paid to the perspective projection image of the three-dimensional BBox 19 of the video object 18 corresponding to the subtitle sentence when viewed from the viewpoint position of the user 6. With respect to the perspective projection image of the 3D BBox 19, a condition is set in which the subtitle surface (the display surface on which the subtitle text is displayed) is adjacent to the outside of the 3D BBox 19 and is perpendicular to (directly facing) the user 6's line of sight direction. The satisfying position and orientation are set as initial values. Note that the method for generating the three-dimensional BBoX 19 of the video object 18 is not limited, and for example, a well-known technique may be used.
 このように3次元BBox19を基準として、字幕オブジェクト14の位置及び向きを設定することで、映像オブジェクト18が自身の字幕オブジェクト14によって隠されるといったことを防止することが可能となる。また字幕文が視線に対し正対する向きで表示されるので、読みやすい字幕表示が実現される。 By setting the position and orientation of the subtitle object 14 using the three-dimensional BBox 19 as a reference in this way, it is possible to prevent the video object 18 from being hidden by its own subtitle object 14. Furthermore, since the subtitle text is displayed in a direction directly facing the line of sight, easy-to-read subtitle display is realized.
 なお、図7に示すように、複数の字幕オブジェクト14がほぼ同じタイミングで生成される場合には、3次元BBoX19を取り囲むように、各字幕オブジェクト14の位置及び向きの初期値が設定される。 Note that, as shown in FIG. 7, when a plurality of subtitle objects 14 are generated at approximately the same timing, the initial values of the position and orientation of each subtitle object 14 are set so as to surround the three-dimensional BBoX 19.
 もちろん、字幕オブジェクト14の位置及び向きの初期値の設定に関して、他の方法が採用されてもよい。また字幕オブジェクト14の位置及び向きの情報以外の属性情報についても、初期値の設定方法として任意の方向が採用されてよい。 Of course, other methods may be adopted for setting the initial values of the position and orientation of the subtitle object 14. Furthermore, for attribute information other than the position and orientation information of the subtitle object 14, any direction may be adopted as the initial value setting method.
 本実施形態では、レンダリング部10により、字幕属性の調整のためにプリレンダリング処理が実行される。すなわち、3次元空間データと、字幕オブジェクト(字幕文及び字幕属性の初期値)とに対してプリレンダリング処理が実行される(ステップ106)。そして、プリレンダリング処理の結果に基づいて字幕属性を調整することで、2次元映像データであるレンダリング映像8における字幕文の表示態様を制御することが可能である。 In this embodiment, the rendering unit 10 executes pre-rendering processing to adjust subtitle attributes. That is, pre-rendering processing is performed on the three-dimensional spatial data and the subtitle object (initial values of subtitle text and subtitle attributes) (step 106). Then, by adjusting the subtitle attributes based on the result of the pre-rendering process, it is possible to control the display mode of the subtitle text in the rendered video 8, which is two-dimensional video data.
 字幕属性の調整が実行されるので、ステップ105では、初期値として、仮の字幕属性が設定されている。もちろん、字幕文と字幕属性の初期値とを含む字幕オブジェクトデータも、本技術に係る字幕オブジェクトデータの一実施形態に含まれる。 Since the subtitle attributes are adjusted, in step 105, temporary subtitle attributes are set as initial values. Of course, subtitle object data including subtitle text and initial values of subtitle attributes is also included in one embodiment of subtitle object data according to the present technology.
 図5に示す例では、オクルージョンの発生、及び字幕文の視認性を判定するために、プリレンダリング処理が実行される(ステップ107及び109参照)。なおオクルージョンとは、視点位置を基準として手前にあるオブジェクトが背後にあるオブジェクトを隠している状態である。 In the example shown in FIG. 5, pre-rendering processing is executed to determine the occurrence of occlusion and the visibility of subtitle sentences (see steps 107 and 109). Note that occlusion is a state in which an object in the foreground hides an object in the background based on the viewpoint position.
 すなわち本実施形態では、ユーザ6の視点位置から見たときに、レンダリング映像8において、映像オブジェクト18と字幕オブジェクト14との間でオクルージョンが発生しているかどうか、あるいは字幕オブジェクト14同士の間でオクルージョンが発生しているかどうかを判定するためにプリレンダリング処理が実行される。 That is, in this embodiment, when viewed from the viewpoint position of the user 6, in the rendered video 8, whether or not occlusion occurs between the video object 18 and the subtitle object 14, or whether occlusion occurs between the subtitle objects 14 is determined. Pre-rendering processing is performed to determine whether or not this has occurred.
 また本実施形態では、周囲の色や照明の当たり方等に起因して字幕文の視認性が低くなっていないかどうかを判定するために、プリレンダリング処理が実行される。 Furthermore, in this embodiment, pre-rendering processing is executed to determine whether the visibility of the subtitle text is low due to surrounding colors, lighting, etc.
 ステップ106で実行されるプリレンダリング処理は、オクルージョンの発生を判定するためのプリレンダリング処理であり、また字幕文の視認性を判定するためのプリレンダリング処理である。なお、オクル―ションの発生を判定するためのプリレンダリング処理と、字幕文の視認性を判定するためのプリレンダリング処理とが、個別にそれぞれ実行されてもよい。そして、各々のプリレンダリング処理の結果に基づいて、オクルージョンの発生の判定(ステップ107)、及び字幕文の視認性に関する判定(ステップ109)が実行されてもよい。 The pre-rendering process executed in step 106 is a pre-rendering process to determine the occurrence of occlusion, and is also a pre-rendering process to determine the visibility of the subtitle text. Note that the pre-rendering process for determining the occurrence of occlusion and the pre-rendering process for determining the visibility of the subtitle text may be performed separately. Then, based on the results of each pre-rendering process, determination of occurrence of occlusion (step 107) and determination of visibility of subtitle text (step 109) may be performed.
 なおプリレンダリング処理は最終的な表示のためのレンダリングではないため、例えば、テクスチャデータを使わずメッシュ頂点だけを用いるなどした簡易なレンダリング処理が実行されてもよい。 Note that since the pre-rendering process is not rendering for final display, for example, a simple rendering process that uses only mesh vertices without using texture data may be performed.
 オクルージョンが発生している場合は(ステップ107のYES)、オクルージョンが解消されるように、字幕オブジェクト14の位置及び向きが変更される(ステップ108)。すなわち、本実施形態では、オクルージョンの発生を判定するためのプリレンダリング処理の結果に基づいて、字幕属性に含まれる字幕オブジェクト14の位置及び向きが調整される。 If occlusion has occurred (YES in step 107), the position and orientation of the subtitle object 14 are changed so that the occlusion is resolved (step 108). That is, in this embodiment, the position and orientation of the subtitle object 14 included in the subtitle attributes are adjusted based on the result of pre-rendering processing for determining the occurrence of occlusion.
 例えば、字幕オブジェクト14により映像オブジェクト18が隠される場合、映像オブジェクト18により字幕オブジェクト14が隠される場合、あるいは、字幕オブジェクト14が他の字幕オブジェクト14により隠される場合等において、字幕オブジェクト14の位置及び向きが変更される。 For example, when the video object 18 is hidden by the subtitle object 14, when the subtitle object 14 is hidden by the video object 18, or when the subtitle object 14 is hidden by another subtitle object 14, the position of the subtitle object 14 and The orientation is changed.
 図8は、字幕オブジェクト14の位置及び向きを変更する方法の一例を説明するための模式図である。 FIG. 8 is a schematic diagram for explaining an example of a method for changing the position and orientation of the subtitle object 14.
 図8Aに示すように、各映像オブジェクト18a及び18bの3次元BBoX19a及び19bを基準として、字幕オブジェクト14a及び14bの位置及び向きの初期値が設定される。当該初期値の字幕属性において、プリレンダリング処理を実行した場合に、オクルージョンが発生しているとする。この場合、、オクルージョンを回避するように字幕オブジェクト14a及び14bの各々の位置及び向きが調整される。 As shown in FIG. 8A, initial values of the positions and orientations of the subtitle objects 14a and 14b are set based on the three- dimensional BBoXs 19a and 19b of each video object 18a and 18b. Assume that occlusion occurs when pre-rendering processing is performed with the subtitle attribute having the initial value. In this case, the position and orientation of each of the subtitle objects 14a and 14b are adjusted to avoid occlusion.
 図8Bに示すように、本実施形態では、まずは3次元BBoX19a及び19bの外側に隣接するという条件を満たすように字幕オブジェクト14a及び14bを移動させて、オクルージョンが回避される位置を探る。字幕オブジェクト14a及び14bを3次元BBoX19a及び19bの周囲を移動させてもオクルージョンが解消しない場合には、3次元BBoX19a及び19bから離れた位置に字幕オブジェクト14a及び14bを移動させる。 As shown in FIG. 8B, in this embodiment, first, the subtitle objects 14a and 14b are moved so as to satisfy the condition that they are adjacent to the outside of the three- dimensional BBoXs 19a and 19b, and a position where occlusion can be avoided is searched for. If the occlusion is not resolved even after moving the subtitle objects 14a and 14b around the three- dimensional BBoXs 19a and 19b, the subtitle objects 14a and 14b are moved to positions away from the three- dimensional BBoXs 19a and 19b.
 例えば、このような字幕属性の調整により、オクルージョンを解消することが可能である。もちろん、オクルージョンを回避するための字幕オブジェクト14a及び14bの位置及び向きの変更方法として、他の方法が採用されてもよい。 For example, it is possible to eliminate occlusion by adjusting subtitle attributes like this. Of course, other methods may be employed to change the positions and orientations of the subtitle objects 14a and 14b to avoid occlusion.
 なお、ユーザ6の視点位置や視線方向によっては、音声は聞こえるが、映像オブジェクト18は視野外という場合もあり得る。この場合、映像オブジェクト18の3次元BBoX19に隣接するように字幕オブジェクト14を配置することはできない。このようなケースでは、視野外の音源位置から近い、視野内の端(縁部)の位置に字幕オブジェクト14を配置する。これにより、ユーザ6にとって、視野外に存在する映像オブジェクト18から発せられた音声に対する字幕オブジェクト14であることを容易には把握することが可能となる。 Note that depending on the viewpoint position and line of sight direction of the user 6, the audio may be heard but the video object 18 may be out of the field of view. In this case, the subtitle object 14 cannot be placed adjacent to the three-dimensional BBoX 19 of the video object 18. In such a case, the subtitle object 14 is placed at an edge (edge) within the field of view that is close to the sound source position outside the field of view. This makes it possible for the user 6 to easily understand that the subtitle object 14 corresponds to the audio emitted from the video object 18 that is outside the field of view.
 ステップ107にて、各映像オブジェクト18の3次元BBoX19を基準として、オクルージョンの発生が判定されてもよい。例えば、字幕オブジェクト14により3次元BBoX19が隠される場合、あるいは3次元BBoX19により字幕オブジェクト14が隠される場合等において、オクルージョンが発生していると判定され、字幕オブジェクト14の位置及び向きが変更されてもよい。 In step 107, the occurrence of occlusion may be determined based on the three-dimensional BBoX 19 of each video object 18. For example, when the 3D BBoX 19 is hidden by the subtitle object 14 or when the 3D BBoX 19 is hidden, it is determined that occlusion has occurred, and the position and orientation of the subtitle object 14 are changed. Good too.
 また、レンダリング映像8における他のオブジェクトに隠されている面積が用いられて、オクルージョンが発生しているか否かが判定されてもよい。例えば、オクルージョンが発生していた場合でも、オブジェクト同士が重なる面積が所定の閾値よりも小さい場合には、オクルージョンは発生していない(影響はない)と判定して、字幕属性(位置及び向き)の調整は実行されない。このような設定も可能である。 Furthermore, the area hidden by other objects in the rendered image 8 may be used to determine whether or not occlusion has occurred. For example, even if occlusion occurs, if the area where objects overlap is smaller than a predetermined threshold, it is determined that occlusion has not occurred (there is no effect), and the subtitle attributes (position and orientation) are determined. adjustment is not performed. Such settings are also possible.
 また、ステップ108において、オクルージョンが解消されるように、字幕オブジェクト14の位置及び向き以外の属性情報が変更されてもよい。例えば、字幕オブジェクト14の形状や大きさを調整することで、オクルージョンを解消することも可能である。もちろんその他の属性情報が調整されてもよい。 Furthermore, in step 108, attribute information other than the position and orientation of the subtitle object 14 may be changed so that occlusion is resolved. For example, occlusion can be eliminated by adjusting the shape and size of the subtitle object 14. Of course, other attribute information may also be adjusted.
 オクルージョンが発生していないと判定されるまで、ステップ106~108の処理が繰り返される。オクルージョンが発生していない場合(ステップ107のNo)、レンダリング映像8における字幕文の視認性が悪いか否かが判定される(ステップ109)。 The processes of steps 106 to 108 are repeated until it is determined that occlusion has not occurred. If occlusion has not occurred (No in step 107), it is determined whether the visibility of the subtitle text in the rendered video 8 is poor (step 109).
 字幕文の視認性が悪い場合は(ステップ109のYes)、視認性を向上させるための字幕属性の調整が実行される(ステップ110)。すなわち本実施形態では、字幕文の視認性を判定するためのプリレンダリング処理の結果に基づいて、視認性を向上させるための字幕属性の調整が実行される。 If the visibility of the subtitle text is poor (Yes in step 109), adjustment of subtitle attributes is performed to improve visibility (step 110). That is, in this embodiment, the subtitle attributes are adjusted to improve visibility based on the results of pre-rendering processing for determining the visibility of subtitle sentences.
 本実施形態では、プリレンダリング処理の結果から、字幕オブジェクト14の位置に対する周囲の色及び照明の情報が取得される。これらプリレンダリング処理の結果から得られる情報に基づいて字幕文の視認性が悪いか否かが判定され、視認性が悪い場合には視認性が向上するように字幕属性が調整される。なお、視認性が悪いか否かを判定するための具体的な基準としては、実装内容に応じて適宜設定されてよい。 In this embodiment, information on the surrounding color and illumination for the position of the subtitle object 14 is acquired from the result of the pre-rendering process. Based on the information obtained from the results of these pre-rendering processes, it is determined whether the visibility of the subtitle text is poor or not, and if the visibility is poor, the subtitle attributes are adjusted so as to improve the visibility. Note that specific criteria for determining whether visibility is poor may be set as appropriate depending on the implementation details.
 例えば、字幕文の表示色が周囲の色と近い場合には、色空間において周囲の色から距離のある色、すなわち色差が大きい色に変更される。この調整は、字幕属性の文字色の調整に含まれる。 For example, if the display color of the subtitle text is close to the surrounding color, it is changed to a color that is further away from the surrounding color in the color space, that is, a color with a large color difference. This adjustment is included in the adjustment of the font color of the subtitle attribute.
 また、字幕オブジェクトに強い照明が当たり字幕文が白飛びする場合には、字幕文の表面または字幕面のラフネスや透明度が変更され、光の反射によって字幕文が白飛びして読めなくなることを防ぐ。この調整は、字幕属性の字幕オブジェクト14の色、透明度、表維持面の状態、文字の透明度の調整に含まれる。その他、文字の大きさの調整等、字幕文の視認性を向上させるための任意の調整処理が実行されてよい。 In addition, if the subtitle object is exposed to strong lighting and the subtitle text is blown out, the roughness and transparency of the subtitle text surface or subtitle surface is changed to prevent the subtitle text from being blown out and unreadable due to light reflection. . This adjustment is included in the adjustment of the color, transparency, state of the front maintenance surface, and transparency of characters of the subtitle object 14 as a subtitle attribute. In addition, any adjustment processing for improving the visibility of the subtitle text, such as adjusting the size of the characters, may be performed.
 ステップ110にて字幕属性が調整されると、確認のためのプリレンダリング処理が実行される(ステップ111)。このプリレンダリング処理は、字幕属性の再調整のためのプリレンダリング処理とも言える。すなわち、ステップ111では、ステップ106と同様の、オクル―ションの発生を判定するため、及び字幕文の視認性を判定するためのプリレンダリング処理が実行される。なお、ステップ111からステップ106に戻ってもよい。 Once the subtitle attributes are adjusted in step 110, pre-rendering processing for confirmation is executed (step 111). This pre-rendering process can also be called a pre-rendering process for readjusting subtitle attributes. That is, in step 111, a pre-rendering process similar to step 106 is executed to determine the occurrence of occlusion and to determine the visibility of the subtitle text. Note that the process may return to step 106 from step 111.
 視認性が悪くないと判定されるまで、ステップ109~111の処理が繰り返される。視認性が悪くないと判定された場合(ステップ109のNo)、(プリレンダリングではない)表示のための詳細なレンダリング処理が実行され、ユーザ6に提示するレンダリング映像8が生成される。字幕属性の調整が実行された後のレンダリング処理であるので、音声を発した映像オブジェクト18の付近に、ユーザ6から十分に視認可能であり、周辺環境の色や照明に埋もれない見やすい字幕文を表示することが可能となる(ステップ112)。 The processes of steps 109 to 111 are repeated until it is determined that visibility is not bad. If it is determined that the visibility is not bad (No in step 109), detailed rendering processing for display (not pre-rendering) is executed, and rendered video 8 to be presented to user 6 is generated. Since the rendering process is performed after subtitle attribute adjustment has been performed, an easy-to-read subtitle text that is sufficiently visible to the user 6 and is not obscured by the color or lighting of the surrounding environment is placed near the video object 18 that has emitted the sound. It becomes possible to display (step 112).
 なお、オクルージョンを回避することが難しい場合に、字幕オブジェクト14の透明度や字幕文の透明度を調整することにより、字幕オブジェクト14により映像オブジェクト18等が隠れてしまう影響を低減させることも可能である。例えば、図5に示すステップ107にてYesの判定結果が所定の回数連続してしまう場合には、オクルージョンの回避は難しいと判定して透明度の調整が実行されて、最終的な表示のためのレンダリング処理に進む。このような処理フローを採用することも可能である。 Note that when it is difficult to avoid occlusion, it is also possible to reduce the effect of the video object 18 etc. being hidden by the subtitle object 14 by adjusting the transparency of the subtitle object 14 and the transparency of the subtitle text. For example, if the determination result of Yes in step 107 shown in FIG. Proceed to rendering process. It is also possible to adopt such a processing flow.
 [字幕文(字幕オブジェクト)の表示判定]
 字幕オブジェクト生成部12により字幕オブジェクト14が生成されることで、レンダリング映像8において音声を字幕文に変換して表示することが可能となる。この字幕文(字幕オブジェクト14)の表示は、例えばオーディオオブジェクト17に含まれる音声情報のユーザ6に対する出力に連動して実行される。すなわち映像オブジェクト18からの発話があった場合には、字幕オブジェクト14が生成され字幕文が表示される。
[Display judgment of subtitle text (subtitle object)]
By generating the subtitle object 14 by the subtitle object generation unit 12, it becomes possible to convert audio into subtitle text and display it in the rendered video 8. The display of this subtitle text (subtitle object 14) is executed in conjunction with the output of audio information included in the audio object 17 to the user 6, for example. That is, when there is a speech from the video object 18, the subtitle object 14 is generated and the subtitle sentence is displayed.
 これに限定されず、映像オブジェクト18である人物のアバター等から発話があった場合に、発話内容を字幕文に変換して表示するか否かを判定する処理フローが実行されてもよい。すなわち、字幕文の表示に関して所定の条件が設定され、字幕オブジェクト14を生成するか否か、すなわち発話に応じた字幕文を表示するか否かが判定されてもよい。 The present invention is not limited to this, and when there is a speech from a person's avatar or the like that is the video object 18, a processing flow may be executed in which it is determined whether or not the content of the speech is converted into a subtitle sentence and displayed. That is, a predetermined condition may be set regarding the display of the subtitle text, and it may be determined whether or not to generate the subtitle object 14, that is, whether to display the subtitle text according to the utterance.
 図9は、字幕文の表示判定の処理例を示す模式図である。図9に示す処理は、字幕オブジェクト14を生成するか否かを判定する処理とも言える。 FIG. 9 is a schematic diagram illustrating a processing example of subtitle display determination. The process shown in FIG. 9 can also be said to be a process for determining whether or not to generate the subtitle object 14.
 まず、音声を字幕文に変換するか否かを判定するための音量の閾値が設定される(ステップ201)。音量の閾値は、例えばユーザ設定として、ユーザ6により指定されてもよい。すなわち、ユーザ・クライアント側で判定のための音量に関する閾値が設定されてもよい。 First, a volume threshold is set for determining whether or not to convert audio into subtitle text (step 201). The volume threshold may be specified by the user 6 as a user setting, for example. That is, a threshold value regarding the volume for determination may be set on the user/client side.
 3次元の仮想空間S内において、発話を開始したアバター(映像オブジェクト18)が存在するか否かが監視される(ステップ202)。発話を開始したアバターが存在する場合は(ステップ202のYes)、仮想空間S内のユーザ位置(視点位置)を基準として、出力される音量が閾値より大きいか否かが判定される(ステップ203)。 In the three-dimensional virtual space S, it is monitored whether or not the avatar (video object 18) that has started speaking is present (step 202). If there is an avatar that has started speaking (Yes in step 202), it is determined whether the output volume is greater than a threshold based on the user position (viewpoint position) in the virtual space S (step 203). ).
 音量が閾値よりも大きい場合は(ステップ203のYes)、発話内容を字幕文に変換する処理が実行される。すなわち、字幕オブジェクト生成部12によりオーディオオブジェクト17に基づいた字幕オブジェクト14が生成され、レンダリング映像8において発話内容に応じた字幕文の表示が開始される(ステップ204)。 If the volume is larger than the threshold (Yes in step 203), a process of converting the utterance content into a subtitle sentence is executed. That is, the subtitle object generation unit 12 generates a subtitle object 14 based on the audio object 17, and starts displaying a subtitle sentence according to the content of the utterance in the rendered video 8 (step 204).
 音量が閾値よりも小さい場合は(ステップ203のNo)、ステップ202に戻る。すなわち発話内容を字幕文に変換する処理は実行されず、レンダリング映像8において発話内容に応じた字幕文は表示されない。 If the volume is smaller than the threshold (No in step 203), the process returns to step 202. That is, the process of converting the content of the utterance into a subtitle sentence is not executed, and the subtitle text corresponding to the content of the utterance is not displayed in the rendered video 8.
 このように図9に示す例では、オーディオオブジェクト17に含まれる音声情報の出力音量が所定の閾値よりも大きい場合に、オーディオオブジェクトデータに基づいた字幕オブジェクトデータが生成される。 As described above, in the example shown in FIG. 9, subtitle object data is generated based on the audio object data when the output volume of the audio information included in the audio object 17 is larger than a predetermined threshold.
 仮想空間Sにおいて、アバターの位置が、ユーザ位置(視点位置)から遠距離になるほど、アバターから発せられる声の音量は減衰して小さくなる。すなわち、現実世界と同様に、近くにいるアバターの声の方がよく聞こえ、遠くにいるアバターの声は聞こえづらくなる。 In the virtual space S, the farther the avatar's position is from the user's position (viewpoint position), the more the volume of the voice emitted from the avatar attenuates and becomes smaller. In other words, just like in the real world, it is easier to hear the voices of avatars who are nearby, and it is harder to hear the voices of avatars who are far away.
 図9に示す判定処理において、音量の閾値を適宜設定する。これにより、例えばユーザ位置(視点位置)を基準として、遠くにいるアバターから発せられた声がほぼ聞き取れない音量であれば、字幕文に変換しないといった判定を実行することが可能となる。 In the determination process shown in FIG. 9, the volume threshold is set as appropriate. This makes it possible to determine, for example, that if the voice uttered from a distant avatar is at a volume that is almost inaudible based on the user position (viewpoint position), it will not be converted into subtitle text.
 また音量の閾値を適宜設定することで、仮想空間Sを表現するレンダリング映像8内に表示される字幕の数や頻度を調整することも可能となる。例えば、比較的大きい音量の発話内容のみを字幕文に変換して表示させるといったことが可能となる。 Furthermore, by appropriately setting the volume threshold, it is also possible to adjust the number and frequency of subtitles displayed in the rendered video 8 representing the virtual space S. For example, it becomes possible to convert only the content of utterances at a relatively loud volume into subtitles and display them.
 なお、判定のための音量に関する閾値や当該閾値の初期値等が、シーン記述情報に記述されてもよい。すなわち、シーン記述情報が、所定の閾値の情報を含んでいてもよい。この場合、判定のための閾値をコンテンツ側で設定することも可能となる。例えば、シーンごとに音量の閾値が適宜設定されてもよい。 Note that a threshold value related to the volume for determination, an initial value of the threshold value, etc. may be described in the scene description information. That is, the scene description information may include information on a predetermined threshold value. In this case, it is also possible to set a threshold value for determination on the content side. For example, a volume threshold may be set appropriately for each scene.
 [表示された字幕文(字幕オブジェクト)の消去]
 一度表示された字幕文(字幕オブジェクト14)は、何らかの条件を満たしたときに消去することが望ましい。字幕文を消去しないと、3次元の仮想空間Sが字幕オブジェクト14であふれてしまう。
[Delete displayed subtitle text (subtitle object)]
It is desirable that the subtitle text (subtitle object 14) once displayed be deleted when some condition is met. If the subtitle text is not deleted, the three-dimensional virtual space S will overflow with subtitle objects 14.
 字幕文(字幕オブジェクト14)をどのタイミングで消去するかについて、任意の設定が採用されてよい。例えば、表示開始から所定の時間が経過した場合に、字幕文が消去されてもよい。あるいは、発話が終わったタイミングを基準として、字幕文が消去されてもよい。 Any setting may be adopted as to when to delete the subtitle text (subtitle object 14). For example, the subtitle text may be deleted when a predetermined period of time has passed since the start of display. Alternatively, the subtitle sentence may be deleted based on the timing at which the utterance ends.
 図10は、字幕文(字幕オブジェクト14)の表示終了の判定処理例を示すフローチャートである。図10に示す例では、ユーザ6の注視点情報に基づいて、字幕文の表示を終了するか否かが判定される。すなわち、仮想空間Sにおけるユーザの注視点位置の情報が用いられて、字幕文(字幕オブジェクト14)を消去するか否かが判定される。 FIG. 10 is a flowchart illustrating an example of a process for determining whether to end displaying a subtitle text (subtitle object 14). In the example shown in FIG. 10, it is determined whether to end the display of the subtitle text based on the user's 6 gaze point information. That is, information on the user's gaze point position in the virtual space S is used to determine whether or not to erase the subtitle text (subtitle object 14).
 ユーザ6の注視点情報は、ユーザの視野情報に含まれる情報であり、例えばアイトラッキング等により取得することが可能である。注視点情報により、3次元の仮想空間Sにおいて、ユーザ6が視線を向けた位置を判定することが可能である。すなわち、注視点は、ユーザが視線を向けた位置に相当する。 The gaze point information of the user 6 is information included in the user's visual field information, and can be obtained by, for example, eye tracking. Using the gaze point information, it is possible to determine the position to which the user 6 has directed his/her line of sight in the three-dimensional virtual space S. That is, the gaze point corresponds to the position where the user directs his/her line of sight.
 まず、表示されている字幕文にユーザ6が視線を向けたか否かが判定される(ステップ301)。ユーザ6が字幕文に視線を向けた場合(ステップ301のYes)、その後、ユーザ6が字幕文から視線を外すか否が監視される(ステップ302)。 First, it is determined whether the user 6 has turned his/her line of sight to the displayed subtitle text (step 301). When the user 6 turns his/her line of sight to the subtitle text (Yes in step 301), it is then monitored whether the user 6 takes his/her line of sight away from the subtitle text (step 302).
 ユーザ6が字幕文から視線を外した場合は(ステップ302のYes)、ユーザ6が字幕文の終わりまで視線を移動させ、その後視線を外したか否かが判定される(ステップ303)。ユーザ6が字幕文の終わりまで視線を移動させた後に視線を外した場合は(ステップ303のYes)、その字幕文を読み終えたと判定し、字幕文が消去される(ステップ304)。 If the user 6 takes his/her line of sight away from the subtitle sentence (Yes in step 302), it is determined whether the user 6 moves his/her line of sight to the end of the subtitle sentence and then takes his/her line of sight off (step 303). If the user 6 moves his line of sight to the end of the subtitle sentence and then removes his line of sight (Yes in step 303), it is determined that he has finished reading the subtitle sentence, and the subtitle sentence is deleted (step 304).
 ユーザ6が字幕文の終わりまで視線を移動させた後に視線を外したのではない場合は(ステップ303のNo)、その字幕文を読み終えたわけではないと判定し、ステップ301に戻る。すなわち、字幕文は消去されない。 If the user 6 has not moved his line of sight to the end of the subtitle sentence and then removed his line of sight (No in step 303), it is determined that he has not finished reading the subtitle sentence, and the process returns to step 301. In other words, the subtitle text is not deleted.
 ステップ301において、ユーザ6が字幕文に視線を向けていない場合(ステップ301のNo)、字幕文の表示時間を超えたか否かが監視される(ステップ305)。判定の基準となる表示時間(閾値)は、ユーザ6側、あるいはコンテンツ側にて適宜設定されてよい。 In step 301, if the user 6 is not looking at the subtitle text (No in step 301), it is monitored whether the display time of the subtitle text has exceeded (step 305). The display time (threshold value) serving as the criterion for determination may be set as appropriate by the user 6 or the content.
 経過時間が字幕文の表示時間を超えた場合は(ステップ305のYes)、字幕文を読み終えていないが字幕文は消去される(ステップ306)。このように、ユーザ6が視線を向けなかった字幕については、所定の時間が経過した場合に自動的に消去される。 If the elapsed time exceeds the display time of the subtitle text (Yes in step 305), the subtitle text is deleted even though the subtitle text has not been read yet (step 306). In this way, subtitles that the user 6 does not look at are automatically deleted after a predetermined period of time has elapsed.
 なお、ユーザ6が3次元の仮想空間S内を移動する、あるいは頭を動かすなどして、字幕文(字幕オブジェクト14)が視野外に移動したとする。この場合には、視野外の映像オブジェクト18に対応する字幕文を表示する場合と同様に、視野内の端(縁部)の位置にて字幕オブジェクト14の表示を継続する等の処理が実行されてもよい。 Note that it is assumed that the subtitle text (subtitle object 14) moves out of the field of view as the user 6 moves within the three-dimensional virtual space S or moves his or her head. In this case, similar to the case of displaying the subtitle text corresponding to the video object 18 outside the field of view, processing such as continuing to display the subtitle object 14 at the edge (edge) position within the field of view is performed. You can.
 また、一度視線が外されて消去された字幕文(字幕オブジェクト14)の位置に、短時間で再度視線が向いたときには、ユーザ6が直前に見ていた字幕文を再確認したいと考えていると判定し、消去した字幕文を再表示するといった処理が実行されてもよい。 Furthermore, when the user 6's line of sight returns to the position of the subtitle text (subtitle object 14) that has been erased in a short period of time, the user 6 wants to reconfirm the subtitle text that the user 6 was looking at immediately before. It may be determined that the deleted subtitle text is redisplayed.
 このように、自由視点の3次元仮想空間コンテンツにおいては、注視点情報を含む視野情報を活用することにより、字幕オブジェクト14をシーンから消去するタイミングを自動的に決定することが可能となる。図10に示すように、コンテンツを視聴しているユーザ6の理解を妨げずに適切なタイミングで、字幕オブジェクト14を自動的に消去することが可能となる。 In this manner, in free viewpoint three-dimensional virtual space content, by utilizing visual field information including gaze point information, it is possible to automatically determine the timing for erasing the subtitle object 14 from the scene. As shown in FIG. 10, the subtitle object 14 can be automatically deleted at an appropriate timing without hindering the understanding of the user 6 who is viewing the content.
 以上、本実施形態に係る仮想空間提供システム1では、クライアント装置4により、3次元空間記述データと、映像オブジェクトデータと、オーディオオブジェクトデータとに基づいて、字幕オブジェクトデータが生成される。これにより、高品質な仮想映像を実現することが可能となる。 As described above, in the virtual space providing system 1 according to the present embodiment, subtitle object data is generated by the client device 4 based on the three-dimensional space description data, video object data, and audio object data. This makes it possible to realize high-quality virtual images.
 本技術を適用することで、3次元の仮想空間Sを自由な視点(6自由度)で視聴できる3次元仮想空間コンテンツにおいて、コンテンツ制作者が字幕を用意していない場合でも、高い精度で字幕オブジェクト14を生成して、字幕文を表示させることが可能となる。また、自由視点でコンテンツを視聴しているユーザ6の視野(視点位置や視線方向)に応じて、適切な位置に字幕文を表示させることが可能となる。 By applying this technology, in 3D virtual space content that allows viewing of 3D virtual space S from any free viewpoint (6 degrees of freedom), even if the content creator has not prepared subtitles, subtitles can be created with high accuracy. It becomes possible to generate the object 14 and display the subtitle text. Furthermore, it is possible to display the subtitle text at an appropriate position depending on the field of view (viewpoint position and line of sight direction) of the user 6 who is viewing the content from a free viewpoint.
 例えば、映像と音声(オーディオ)から構成されるコンテンツにおいて、事前に字幕が準備されていない状態から、仮に何らかの方法で字幕文を生成することが可能であったとする。この場合、3次元仮想空間コンテンツにおいては、適切に字幕表示位置を予め決めておくことは非常に難しい。3次元仮想空間コンテンツは自由視点で視聴できるため、ユーザ6の視聴位置・視聴方向が固定されていないためである。 For example, suppose that for content consisting of video and audio, it is possible to generate subtitles by some method even though subtitles have not been prepared in advance. In this case, in three-dimensional virtual space content, it is very difficult to appropriately determine the subtitle display position in advance. This is because the viewing position and viewing direction of the user 6 are not fixed because the three-dimensional virtual space content can be viewed from any free viewpoint.
 ユーザ6の視聴位置・視聴方向を考慮せずに字幕を表示してしまうと、視線の先にある視聴したい対象の映像オブジェクト18が、字幕により隠れてしまうといったことや、発話者ではない人物の近傍に吹き出しが表示され、シーンの理解が妨げられてしまうといった問題が生じてしまう。3次元仮想空間コンテンツにおいては、ユーザ6が設定可能なあらゆる視聴位置・方向において、この問題を事前にチェックした上で字幕位置を決定することは非常に困難である。 If subtitles are displayed without considering the viewing position and viewing direction of the user 6, the video object 18 that is located ahead of the user's line of sight and is desired to be viewed may be hidden by the subtitles, or a person who is not the speaker may be A problem arises in that speech bubbles are displayed nearby, making it difficult to understand the scene. In three-dimensional virtual space content, it is extremely difficult to check this problem in advance and determine the subtitle position in all viewing positions and directions that can be set by the user 6.
 本技術では、このような問題を十分に解決することが可能である。すなわち、3次元仮想空間コンテンツにおいて、ユーザ6が自由に視点を動かしたとしても、高い精度で字幕オブジェクト14を生成することが可能であり、視聴を妨げることのない適切な位置に、字幕オブジェクト14を表示させることが可能となる。 With this technology, it is possible to fully solve such problems. That is, in the three-dimensional virtual space content, even if the user 6 freely moves his/her viewpoint, it is possible to generate the subtitle object 14 with high accuracy, and the subtitle object 14 can be placed at an appropriate position without interfering with viewing. It becomes possible to display.
 本技術を適用することで、字幕文を自動生成して適切な位置に表示することが可能となるので、自由視点コンテンツにおけるアクセシビリティの観点においても、非常に高い効果が発揮される。 By applying this technology, it becomes possible to automatically generate subtitles and display them at appropriate positions, which is extremely effective in terms of accessibility for free-viewpoint content.
 本技術を適用することで、字幕が用意されていない自由視点の3次元仮想空間コンテンツにおいて、音声認識で字幕文字列を生成し、ユーザ6の指定する言語に翻訳し、シーン記述情報から字幕文と映像オブジェクト18の関連付けを行い、オクルージョンを回避した字幕位置を決定することが可能となる。これにより、ユーザ6の視点位置から見て適切な位置と属性で字幕を表示することが可能となり、ユーザ6のコンテンツへの理解度を高めることが可能となる。 By applying this technology, in free-viewpoint three-dimensional virtual space content for which subtitles are not available, a subtitle string is generated using voice recognition, translated into the language specified by the user 6, and subtitle text is generated from scene description information. By associating the video object 18 with the video object 18, it becomes possible to determine a subtitle position that avoids occlusion. This makes it possible to display the subtitles at an appropriate position and attribute when viewed from the viewpoint of the user 6, thereby increasing the user's 6 understanding of the content.
 図11に示すように、ディスプレイの表示領域が、コンテンツ表示領域22と、字幕表示領域23とに分割されているとする。そして、コンテンツ表示領域22に、仮想空間Sを表現するレンダリング映像が表示され、字幕表示領域23に字幕が表示されるとする。このように、ディスプレイ上のある固定された位置に字幕が表示される場合、3次元の仮想空間Sの映像と、2次元の字幕との混合映像を視聴することになるので、3次元仮想空間に没入することが難しくなる。 As shown in FIG. 11, it is assumed that the display area of the display is divided into a content display area 22 and a subtitle display area 23. It is assumed that a rendered video representing the virtual space S is displayed in the content display area 22, and subtitles are displayed in the subtitle display area 23. In this way, when subtitles are displayed at a fixed position on the display, you will be viewing a mixed image of the three-dimensional virtual space S and the two-dimensional subtitles. It becomes difficult to immerse yourself in
 本実施形態では、図4に示すように、3次元仮想空間内にて3次元オブジェクトとして、字幕オブジェクト14が配置される。また字幕オブジェクト14の位置、向き、形状等が、ユーザ6の視点位置や視線方向等の変更にともなって、変更される。この結果、空間の奥行や立体感を損なわずに字幕をユーザ6に提供することが可能となり、3次元空間に没入させることが可能となる。またコンテンツのアクセシビリティを高めることが可能となる。 In this embodiment, as shown in FIG. 4, a subtitle object 14 is arranged as a three-dimensional object in a three-dimensional virtual space. Further, the position, orientation, shape, etc. of the subtitle object 14 are changed as the viewpoint position, line of sight direction, etc. of the user 6 are changed. As a result, it becomes possible to provide subtitles to the user 6 without impairing the depth and stereoscopic effect of the space, and it becomes possible to immerse the user 6 in a three-dimensional space. It also becomes possible to improve the accessibility of content.
 <その他の実施形態>
 本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
<Other embodiments>
The present technology is not limited to the embodiments described above, and various other embodiments can be realized.
 本技術は、コンテンツ制作者により字幕文のテキストデータは準備されているが、字幕表示位置が指定されていない3次元仮想空間コンテンツに対して適用することも可能である。すなわち、本技術を適用することで、準備されている字幕文を含むように、3次元オブジェクトである字幕オブジェクトを新たに生成することが可能である。これにより、ユーザ6の視点位置や視線方向に応じて、字幕文が読める位置や形状等をリアルタイムに決定することが可能となる。 The present technology can also be applied to three-dimensional virtual space content in which text data for subtitles has been prepared by the content creator, but the subtitle display position has not been specified. That is, by applying the present technology, it is possible to newly generate a subtitle object that is a three-dimensional object so as to include a prepared subtitle sentence. This makes it possible to determine in real time the position, shape, etc. where the subtitle text can be read, depending on the viewpoint position and line of sight direction of the user 6.
 [クライアントサイドレンダリング/サーバサイドレンダリング]
 上記で説明したように、図1に示す例では、クライアント装置4によりレンダリング処理が実行され、ユーザ6の視野に応じた2次元映像データ(レンダリング映像8)が生成される。すなわち、図1に示す例では、6DoF映像の配信システムとして、クライアントサイドレンダリングシステムの構成が採用されている。
[Client side rendering/server side rendering]
As explained above, in the example shown in FIG. 1, rendering processing is executed by the client device 4, and two-dimensional video data (rendered video 8) is generated according to the user's 6 visual field. That is, in the example shown in FIG. 1, a client-side rendering system configuration is adopted as a 6DoF video distribution system.
 本技術の適用可能な6DoF映像の配信システムは、クライアントサイドレンダリングシステムに限定されず、サーバサイドレンダリングシステム等の他の配信システムにも適用可能である。 The 6DoF video distribution system to which the present technology can be applied is not limited to a client-side rendering system, but can also be applied to other distribution systems such as a server-side rendering system.
 図12は、サーバサイドレンダリングシステムの構成例を説明するための模式図である。
 サーバサイドレンダリングシステムでは、ネットワーク5上にレンダリングサーバ30が構築される。レンダリングサーバ30は、配信サーバ2及びクライアント装置4とネットワーク5を介して通信可能に接続されている。例えばPC等の任意のコンピュータにより、レンダリングサーバ30を実現することが可能である。
FIG. 12 is a schematic diagram for explaining a configuration example of a server-side rendering system.
In the server-side rendering system, a rendering server 30 is constructed on the network 5. The rendering server 30 is communicably connected to the distribution server 2 and the client device 4 via the network 5. For example, the rendering server 30 can be implemented by any computer such as a PC.
 図12に例示するように、クライアント装置4から、レンダリングサーバ30に、視野情報が送信される。また配信サーバ2から、レンダリングサーバ30に、3次元空間データが配信される。 As illustrated in FIG. 12, visual field information is transmitted from the client device 4 to the rendering server 30. Furthermore, three-dimensional spatial data is distributed from the distribution server 2 to the rendering server 30.
 レンダリングサーバ30により、字幕オブジェクトデータ(字幕文及び字幕属性)が新たに生成される。またレンダリングサーバ30により、ユーザ6の視野情報に基づいて、レンダリング処理が実行される。これにより、ユーザ6の視野に応じた2次元映像データ(レンダリング映像)が生成される。また音声情報及び出力制御情報が生成される。レンダリング映像には、発話等に応じた字幕オブジェクト14が表示されている。 The rendering server 30 newly generates subtitle object data (subtitle text and subtitle attributes). Furthermore, the rendering server 30 executes rendering processing based on the user's 6 visual field information. As a result, two-dimensional video data (rendered video) corresponding to the visual field of the user 6 is generated. Also, audio information and output control information are generated. A subtitle object 14 corresponding to the utterance or the like is displayed in the rendered video.
 レンダリングサーバ30により生成されたレンダリング映像、音声情報及び出力制御情報は、エンコード(符号化)されてクライアント装置4に送信される。クライアント装置4は、受信したレンダリング映像等をデコードし、ユーザ6に装着されたHMD3に送信する。HMD3により、レンダリング映像が表示され、また音声情報が出力される。ユーザ6は、字幕が表示された仮想空間Sを視聴することが可能である。 The rendered video, audio information, and output control information generated by the rendering server 30 are encoded and sent to the client device 4. The client device 4 decodes the received rendered video and the like and transmits it to the HMD 3 worn by the user 6. The HMD 3 displays rendered video and outputs audio information. The user 6 can view the virtual space S in which subtitles are displayed.
 サーバサイドレンダリングシステムの構成を採用することで、クライアント装置4側の処理負荷を、レンダリングサーバ30側にオフロードすることが可能となり、処理能力が低いクライアント装置4が用いられる場合でも、ユーザ6に対して6DoF映像を体験させることが可能となる。 By adopting the server-side rendering system configuration, it is possible to offload the processing load on the client device 4 side to the rendering server 30 side, and even when the client device 4 with low processing capacity is used, the processing load on the user 6 side can be offloaded. On the other hand, it becomes possible to experience 6DoF video.
 このようなサーバサイドレンダリングシステムにおいて、本技術に係る字幕オブジェクトの生成(字幕文の表示)を適用することが可能である。例えば、レンダリングサーバ30に対して、図3で説明したクライアント装置4の機能的な構成を適用する。これにより、3次元仮想空間コンテンツにおいて、ユーザ6が自由に視点を動かしたとしても、高い精度で字幕オブジェクト14を生成することが可能であり、視聴を妨げることのない適切な位置に、字幕オブジェクト14を表示させることが可能となる。この結果、高品質な仮想映像を実現することが可能となる。 In such a server-side rendering system, it is possible to apply subtitle object generation (subtitle text display) according to the present technology. For example, the functional configuration of the client device 4 described in FIG. 3 is applied to the rendering server 30. As a result, even if the user 6 freely moves his/her viewpoint in the three-dimensional virtual space content, it is possible to generate the subtitle object 14 with high precision, and the subtitle object 14 can be placed in an appropriate position without interfering with viewing. 14 can be displayed. As a result, it becomes possible to realize high-quality virtual images.
 サーバサイドレンダリングシステムが構築される場合には、レンダリングサーバ30が、本技術に係る情報処理装置の一実施形態として機能する。そして、レンダリングサーバ30により、本技術に係る情報処理方法の一実施形態が実行される。 When a server-side rendering system is constructed, the rendering server 30 functions as an embodiment of the information processing device according to the present technology. Then, the rendering server 30 executes an embodiment of the information processing method according to the present technology.
 なお、レンダリングサーバ30は、本仮想空間提供システム1を利用するユーザ6ごとに準備されてもよいし、複数のユーザ6に対して準備されてもよい。またユーザ6ごとに、クライアントサイドレンダリングの構成と、サーバサイドレンダリングの構成が個別に構成されてもよい。すなわち、仮想空間提供システム1を実現するうえで、クライアントサイドレンダリングの構成と、サーバサイドレンダリングの構成がともに採用されてもよい。 Note that the rendering server 30 may be prepared for each user 6 who uses the present virtual space providing system 1, or may be prepared for a plurality of users 6. Furthermore, the configuration of client side rendering and the configuration of server side rendering may be configured separately for each user 6. That is, in realizing the virtual space providing system 1, both a client-side rendering configuration and a server-side rendering configuration may be employed.
 [遠隔コミュニケーションシステム]
 図13は、遠隔コミュニケーションシステムの基本的な構成例を示す模式図である。
 遠隔コミュニケーションシステムは、複数のユーザ6(6a~6c)が3次元の仮想空間Sを共有してコミュニケーションを行うことが可能なシステムである。遠隔コミュニケーションを、Volumetric遠隔コミュニケーションと呼ぶことも可能である。
[Remote communication system]
FIG. 13 is a schematic diagram showing a basic configuration example of a remote communication system.
The remote communication system is a system in which a plurality of users 6 (6a to 6c) can share a three-dimensional virtual space S and communicate. Remote communication can also be called volumetric remote communication.
 図13に示す遠隔コミュニケーションシステム31では、各クライアント装置4(4a~4c)から、各ユーザ6に関するユーザ情報が、配信サーバ2に送信される。例えば、ユーザ情報としては、ユーザの視野情報、動き情報、音声情報等が送信される。 In the remote communication system 31 shown in FIG. 13, user information regarding each user 6 is transmitted from each client device 4 (4a to 4c) to the distribution server 2. For example, as the user information, the user's visual field information, movement information, audio information, etc. are transmitted.
 ユーザ6の動き情報や音声情報を取得するための構成や方法等は限定されず、任意の構成及び方法が採用されてよい。例えば、ユーザ6の周囲にカメラ、測距センサ、マイク等が配置され、これらの検出結果に基づいて、ユーザ6の動き情報や音声情報が取得されてもよい。 The configuration and method for acquiring the movement information and voice information of the user 6 are not limited, and any configuration and method may be adopted. For example, a camera, a ranging sensor, a microphone, etc. may be arranged around the user 6, and movement information and audio information of the user 6 may be acquired based on the detection results thereof.
 あるいは、グローブ型等の様々な形態のウェアラブルデバイスがユーザ6に装着されてもよい。ウェアラブルデバイスには、モーションセンサ等が搭載されており、その検出結果に基づいて、ユーザ6の動き情報等が取得されてもよい。 Alternatively, various forms of wearable devices such as a glove type may be worn by the user 6. The wearable device is equipped with a motion sensor or the like, and based on the detection result, movement information of the user 6 may be acquired.
 配信サーバ2により、各クライアント装置4から送信されるユーザ情報に基づいて、ユーザ6の動きや発話等が反映されるように、3次元空間データが生成されて配信される。本実施形態では、3次元空間データに含まれる映像オブジェクトとして、各ユーザ自身のオブジェクト(ユーザオブジェクト)33(33a~33c)や、他のユーザのオブジェクト(他のユーザオブジェクト)34が生成されて配信される。また、3次元空間データに含まれるオーディオオブジェクトとして、各ユーザ6からの発話内容(音声情報)を含むオーディオオブジェクトが生成されて配信される。 The distribution server 2 generates and distributes three-dimensional spatial data based on the user information transmitted from each client device 4 so that the movements, speech, etc. of the user 6 are reflected. In this embodiment, each user's own object (user object) 33 (33a to 33c) and another user's object (other user object) 34 are generated and distributed as video objects included in the three-dimensional spatial data. be done. Further, as an audio object included in the three-dimensional spatial data, an audio object including the content of utterances (audio information) from each user 6 is generated and distributed.
 例えば、ユーザ6同士が会話、ダンス、共同作業等のインタラクションを行なう場合には、各ユーザ6の動きや発話等がリアルタイムで反映された3次元空間データが、配信サーバ2から各クライアント装置4に配置される。
 各クライアント装置4にて、ユーザ6の視野情報に基づいてレンダリング処理が実行され、インタラクションを行っているユーザ6同士を含む2次元映像データが生成される。また、ユーザ6の発話内容を各ユーザ6の位置に対応する音源位置から出力させるための音声情報及び出力制御情報が生成される。
For example, when users 6 interact with each other through conversation, dancing, collaborative work, etc., three-dimensional spatial data that reflects the movements and utterances of each user 6 in real time is sent from the distribution server 2 to each client device 4. Placed.
In each client device 4, rendering processing is executed based on the visual field information of the users 6, and two-dimensional video data including the users 6 interacting with each other is generated. Furthermore, audio information and output control information for outputting the utterance content of the users 6 from the sound source positions corresponding to the positions of each user 6 are generated.
 各ユーザ6は、HMD3(3a~3c)に表示される2次元映像と、ヘッドフォンから出力される音声情報とを視聴することで、仮想空間S内おいて、他のユーザ6との間で様々なインタラクションを行うことが可能となる。この結果、他のユーザ6とのインタラクションが可能な遠隔コミュニケーションシステム31が実現される。 By viewing the two-dimensional video displayed on the HMD 3 (3a to 3c) and the audio information output from the headphones, each user 6 can interact with other users 6 in various ways in the virtual space S. It becomes possible to carry out various interactions. As a result, a remote communication system 31 that allows interaction with other users 6 is realized.
 このような、複数のユーザ6が自由視点3次元仮想空間に参加して会話等のインタラクションを行う遠隔コミュニケーションシステム31に対して、本技術に係る字幕オブジェクトの生成(字幕文の表示)を適用することが可能である。例えば、各クライアント装置4に対して、図3で説明した機能的な構成を適用する。 The generation of subtitle objects (display of subtitle text) according to the present technology is applied to such a remote communication system 31 in which a plurality of users 6 participate in a free viewpoint three-dimensional virtual space and interact such as conversations. Is possible. For example, the functional configuration described in FIG. 3 is applied to each client device 4.
 これにより、3次元の仮想空間Sにおいて、各ユーザ6が話す言葉を適宜翻訳して字幕文として表示することが可能となる。また各ユーザ6が自由に視点を動かしたとしても、視聴を妨げることのない適切な位置に、字幕オブジェクトを表示させることが可能となる。この結果、高品質な仮想映像を実現することが可能となる。 Thereby, in the three-dimensional virtual space S, it becomes possible to appropriately translate the words spoken by each user 6 and display them as subtitle sentences. Further, even if each user 6 freely moves his/her viewpoint, the subtitle object can be displayed at an appropriate position without interfering with viewing. As a result, it becomes possible to realize high-quality virtual images.
 なお、図12に例示するような、サーバサイドレンダリングの構成を用いて、図13に例示するような遠隔コミュニケーションシステム31を構築することも可能である。サーバサイドレンダリングの構成が採用される場合でも、レンダリングサーバ30により字幕オブジェクトを生成させることで、他のユーザ6の発話等を字幕文として、適切な位置に表示させることが可能となる。 Note that it is also possible to construct the remote communication system 31 as illustrated in FIG. 13 using the server-side rendering configuration as illustrated in FIG. 12. Even when a server-side rendering configuration is adopted, by having the rendering server 30 generate a subtitle object, it is possible to display the utterances of other users 6 as subtitle sentences at appropriate positions.
 また、遠隔コミュニケーションシステムにおいて、ユーザ6自身のアバター、すなわちユーザオブジェクト33が表示されない形態に対しても、本技術は適用可能である。 Further, in a remote communication system, the present technology is also applicable to a form in which the user's 6 own avatar, that is, the user object 33 is not displayed.
 上記では、仮想画像として、360度の空間映像データ等を含む6DoF映像が配信される場合を例に挙げた。これに限定されず、3DoF映像や2D映像等が配信される場合にも、本技術は適用可能である。また仮想画像として、VR映像ではなく、AR映像等が配信されてもよい。また、3D映像を視聴するためのステレオ映像(例えば右目画像及び左目画像等)についても、本技術は適用可能である。 In the above, an example is given in which a 6DoF video including 360-degree spatial video data is distributed as a virtual image. The present technology is not limited to this, and is also applicable when 3DoF video, 2D video, etc. are distributed. Moreover, instead of VR video, AR video or the like may be distributed as the virtual image. Further, the present technology is also applicable to stereo images (for example, right-eye images, left-eye images, etc.) for viewing 3D images.
 図14は、配信サーバ2、クライアント装置4、及びレンダリングサーバ30を実現可能なコンピュータ(情報処理装置)60のハードウェア構成例を示すブロック図である。
 コンピュータ60は、CPU61、ROM62、RAM63、入出力インタフェース65、及びこれらを互いに接続するバス64を備える。入出力インタフェース65には、表示部66、入力部67、記憶部68、通信部69、及びドライブ部70等が接続される。
 表示部66は、例えば液晶、EL等を用いた表示デバイスである。入力部67は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。入力部67がタッチパネルを含む場合、そのタッチパネルは表示部66と一体となり得る。
 記憶部68は、不揮発性の記憶デバイスであり、例えばHDD、フラッシュメモリ、その他の固体メモリである。ドライブ部70は、例えば光学記録媒体、磁気記録テープ等、リムーバブルの記録媒体71を駆動することが可能なデバイスである。
 通信部69は、LAN、WAN等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部69は、有線及び無線のどちらを利用して通信するものであってもよい。通信部69は、コンピュータ60とは別体で使用される場合が多い。
 上記のようなハードウェア構成を有するコンピュータ60による情報処理は、記憶部68またはROM62等に記憶されたソフトウェアと、コンピュータ60のハードウェア資源との協働により実現される。具体的には、ROM62等に記憶された、ソフトウェアを構成するプログラムをRAM63にロードして実行することにより、本技術に係る情報処理方法が実現される。
 プログラムは、例えば記録媒体61を介してコンピュータ60にインストールされる。あるいは、グローバルネットワーク等を介してプログラムがコンピュータ60にインストールされてもよい。その他、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
FIG. 14 is a block diagram showing an example of the hardware configuration of a computer (information processing device) 60 that can realize the distribution server 2, the client device 4, and the rendering server 30.
The computer 60 includes a CPU 61, a ROM 62, a RAM 63, an input/output interface 65, and a bus 64 that connects these to each other. A display section 66 , an input section 67 , a storage section 68 , a communication section 69 , a drive section 70 , and the like are connected to the input/output interface 65 .
The display section 66 is a display device using, for example, liquid crystal, EL, or the like. The input unit 67 is, for example, a keyboard, pointing device, touch panel, or other operating device. If the input section 67 includes a touch panel, the touch panel can be integrated with the display section 66.
The storage unit 68 is a nonvolatile storage device, such as an HDD, flash memory, or other solid-state memory. The drive section 70 is a device capable of driving a removable recording medium 71, such as an optical recording medium or a magnetic recording tape.
The communication unit 69 is a modem, router, or other communication equipment connectable to a LAN, WAN, etc., for communicating with other devices. The communication unit 69 may communicate using either wired or wireless communication. The communication unit 69 is often used separately from the computer 60.
Information processing by the computer 60 having the above-mentioned hardware configuration is realized by cooperation between software stored in the storage unit 68, ROM 62, etc., and hardware resources of the computer 60. Specifically, the information processing method according to the present technology is realized by loading a program constituting software stored in the ROM 62 or the like into the RAM 63 and executing it.
The program is installed on the computer 60 via the recording medium 61, for example. Alternatively, the program may be installed on the computer 60 via a global network or the like. In addition, any computer-readable non-transitory storage medium may be used.
 ネットワーク等を介して通信可能に接続された複数のコンピュータが協働することで、本技術に係る情報処理方法及びプログラムが実行され、本技術に係る情報処理装置が構築されてもよい。
 すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。
The information processing method and program according to the present technology may be executed by a plurality of computers communicatively connected via a network or the like, and an information processing device according to the present technology may be constructed.
That is, the information processing method and program according to the present technology can be executed not only in a computer system configured by a single computer but also in a computer system in which multiple computers operate in conjunction with each other.
 なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。従って、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。 Note that in the present disclosure, a system means a collection of multiple components (devices, modules (components), etc.), and it does not matter whether all the components are located in the same casing. Therefore, a plurality of devices housed in separate casings and connected via a network and a single device in which a plurality of modules are housed in one casing are both systems.
 コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば字幕オブジェクトの生成、字幕文の生成、字幕属性の生成(調整)、レンダリング処理の実行、プリレンダリング処理の実行、ユーザ情報の取得、字幕オブジェクトの表示開始の判定、字幕オブジェクトの表示終了の判定等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
 すなわち本技術に係る情報処理方法及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
Execution of the information processing method and program according to the present technology by a computer system includes, for example, generation of a subtitle object, generation of a subtitle sentence, generation (adjustment) of subtitle attributes, execution of rendering processing, execution of pre-rendering processing, and generation of user information. This includes both cases where acquisition, determination of the start of display of a subtitle object, determination of end of display of a subtitle object, etc. are executed by a single computer, and cases where each process is executed by different computers. Furthermore, execution of each process by a predetermined computer includes having another computer execute part or all of the process and acquiring the results.
That is, the information processing method and program according to the present technology can also be applied to a cloud computing configuration in which one function is shared and jointly processed by a plurality of devices via a network.
 各図面を参照して説明した仮想空間提供システム、クライアントサイドレンダリングシステム、サーバサイドレンダリングシステム、遠隔コミュニケーションシステム、配信サーバ、クライアント装置、レンダリングサーバ、HMD等の各構成、各処理フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。 The configurations of the virtual space providing system, client-side rendering system, server-side rendering system, remote communication system, distribution server, client device, rendering server, HMD, etc., and each processing flow described with reference to the drawings are just one example of implementation. It can be arbitrarily modified without departing from the spirit of the present technology. That is, any other configuration, algorithm, etc. may be adopted for implementing the present technology.
 本開示において、説明の理解を容易とするために、「略」「ほぼ」「おおよそ」等の文言が適宜使用されている。一方で、これら「略」「ほぼ」「おおよそ」等の文言を使用する場合と使用しない場合とで、明確な差異が規定されるわけではない。
 すなわち、本開示において、「中心」「中央」「均一」「等しい」「同じ」「直交」「平行」「対称」「延在」「軸方向」「円柱形状」「円筒形状」「リング形状」「円環形状」等の、形状、サイズ、位置関係、状態等を規定する概念は、「実質的に中心」「実質的に中央」「実質的に均一」「実質的に等しい」「実質的に同じ」「実質的に直交」「実質的に平行」「実質的に対称」「実質的に延在」「実質的に軸方向」「実質的に円柱形状」「実質的に円筒形状」「実質的にリング形状」「実質的に円環形状」等を含む概念とする。
 例えば「完全に中心」「完全に中央」「完全に均一」「完全に等しい」「完全に同じ」「完全に直交」「完全に平行」「完全に対称」「完全に延在」「完全に軸方向」「完全に円柱形状」「完全に円筒形状」「完全にリング形状」「完全に円環形状」等を基準とした所定の範囲(例えば±10%の範囲)に含まれる状態も含まれる。
 従って、「略」「ほぼ」「おおよそ」等の文言が付加されていない場合でも、いわゆる「略」「ほぼ」「おおよそ」等を付加して表現され得る概念が含まれ得る。反対に、「略」「ほぼ」「おおよそ」等を付加して表現された状態について、完全な状態が必ず排除されるというわけではない。
In this disclosure, words such as "approximately,""approximately," and "approximately" are used as appropriate to facilitate understanding of the explanation. On the other hand, there is no clear difference between when words such as "abbreviation,""approximately," and "approximately" are used and when they are not.
That is, in the present disclosure, "center", "center", "uniform", "equal", "same", "orthogonal", "parallel", "symmetrical", "extending", "axial direction", "cylindrical shape", "cylindrical shape", "ring shape" Concepts that define the shape, size, positional relationship, state, etc., such as "circular shape", include "substantially centered,""substantiallycentral,""substantiallyuniform,""substantiallyequal," and "substantially "Substantially perpendicular""Substantiallyparallel""Substantiallysymmetrical""Substantiallyextending""Substantiallyaxial""Substantiallycylindrical""Substantiallycylindrical" The concept includes "substantially ring-shaped", "substantially annular-shaped", etc.
For example, "perfectly centered", "perfectly centered", "perfectly uniform", "perfectly equal", "perfectly identical", "perfectly orthogonal", "perfectly parallel", "perfectly symmetrical", "perfectly extended", "perfectly It also includes states that fall within a predetermined range (e.g. ±10% range) based on the following criteria: axial direction, completely cylindrical, completely cylindrical, completely ring-shaped, completely annular, etc. It will be done.
Therefore, even when words such as "approximately,""approximately," and "approximately" are not added, concepts that can be expressed by adding so-called "approximately,""approximately," and "approximately" may be included. On the other hand, when a state is expressed by adding words such as "approximately", "approximately", "approximately", etc., a complete state is not always excluded.
 本開示において、「Aより大きい」「Aより小さい」といった「より」を使った表現は、Aと同等である場合を含む概念と、Aと同等である場合を含まない概念の両方を包括的に含む表現である。例えば「Aより大きい」は、Aと同等は含まない場合に限定されず、「A以上」も含む。また「Aより小さい」は、「A未満」に限定されず、「A以下」も含む。
 本技術を実施する際には、上記で説明した効果が発揮されるように、「Aより大きい」及び「Aより小さい」に含まれる概念から、具体的な設定等を適宜採用すればよい。
In this disclosure, expressions using "more" such as "greater than A" and "less than A" are inclusive of both concepts that include the case of being equivalent to A and concepts that do not include the case of being equivalent to A. This is an expression included in For example, "greater than A" is not limited to not including "equivalent to A", but also includes "more than A". Moreover, "less than A" is not limited to "less than A", but also includes "less than A".
When implementing the present technology, specific settings etc. may be appropriately adopted from the concepts included in "greater than A" and "less than A" so that the effects described above are exhibited.
 以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。 It is also possible to combine at least two of the feature parts according to the present technology described above. That is, the various characteristic portions described in each embodiment may be arbitrarily combined without distinction between each embodiment. Further, the various effects described above are merely examples and are not limited, and other effects may also be exhibited.
 なお、本技術は以下のような構成も採ることができる。
(1)
 3次元空間を表現するために実行されるレンダリング処理に用いられる3次元空間データに含まれる、前記3次元空間の構成を定義する3次元空間記述データと、前記3次元空間における3次元映像オブジェクトを定義する映像オブジェクトデータと、前記3次元空間における3次元オーディオオブジェクトを定義するオーディオオブジェクトデータとに基づいて、前記3次元空間における3次元字幕オブジェクトを定義する字幕オブジェクトデータを生成する生成部
 を具備する情報処理装置。
(2)(1)に記載の情報処理装装置であって、
 前記字幕オブジェクデータは、字幕文と、前記3次元字幕オブジェクトの属性情報とを含む
 情報処理装置。
(3)(2)に記載の情報処理装装置であって、
 前記属性情報は、前記3次元空間における前記3次元字幕オブジェクトの位置及び向きの情報を含む
 情報処理装置。
(4)(3)に記載の情報処理装装置であって、
 前記属性情報は、前記3次元空間における前記3次元字幕オブジェクトの大きさ、形状、色、透明度、表示面の状態、文字の大きさ、文字フォント、文字色、文字の透明度、及びエフェクトの少なくとも1つの情報を含む
 情報処理装置。
(5)(2)から(4)のうちいずれか1つに記載の情報処理装置であって、
 前記オーディオオブジェクトデータは、音声情報を含み、
 前記生成部は、前記音声情報に対して音声認識を実行することで前記字幕文を生成する
 情報処理装置。
(6)(5)に記載の情報処理装装置であって、
 前記生成部は、前記音声認識の認識結果に対して翻訳処理を実行することで前記字幕文を生成する
 情報処理装置。
(7)(2)から(6)のうちいずれか1つに記載の情報処理装置であって、
 前記3次元空間記述データは、前記3次元空間における前記3次元オーディオオブジェクトの位置情報と、前記3次元空間における前記3次元映像オブジェクトの位置情報とを含み、
 前記生成部は、前記3次元映像オブジェクトの位置情報と前記3次元オーディオオブジェクトの位置情報とに基づいて、前記3次元オーディオオブジェクトに対応する前記3次元映像オブジェクトを判定し、その判定結果に基づいて前記属性情報を生成する
 情報処理装置。
(8)(2)から(7)のうちいずれか1つに記載の情報処理装置であって、
 前記生成部は、前記3次元映像オブジェクトの位置情報と、前記3次元オーディオオブジェクトの位置情報とに基づいて、前記オーディオオブジェクトデータから生成された前記字幕文に対応する前記3次元映像オブジェクトを判定し、その判定結果に基づいて前記属性情報を生成する
 情報処理装置。
(9)(8)に記載の情報処理装装置であって、
 前記生成部は、前記字幕文に対応する前記3次元映像オブジェクトとして、前記字幕文の内容を発話した前記3次元映像オブジェクトを判定する
 情報処理装置。
(10)(8)又は(9)に記載の情報処理装装置であって、
 前記生成部は、前記字幕文に対応する前記3次元映像オブジェクトの3次元バウンディングボックスを基準として、前記3次元字幕オブジェクトの位置及び向きの情報を生成する
 情報処理装置。
(11)(2)から(10)のうちいずれか1つに記載の情報処理装置であって、さらに、
 ユーザの視野に関する視野情報に基づいて、前記3次元空間データと前記3次元字幕オブジェクトとに対してレンダリング処理を実行することで、前記ユーザの視野に応じた2次元映像データを生成するレンダリング部を具備し、
 前記生成部は、前記属性情報を調整することで、前記2次元映像データにおける前記字幕文の表示態様を制御する
 情報処理装置。
(12)(11)に記載の情報処理装装置であって、
 前記レンダリング部は、前記3次元空間データと前記3次元字幕オブジェクトとに対してプリレンダリング処理を実行し、
 前記生成部は、前記プリレンダリング処理の結果に基づいて、前記属性情報を調整する
 情報処理装置。
(13)(12)に記載の情報処理装装置であって、
 前記レンダリング部は、オクルージョンの発生を判定するためのプリレンダリング処理を実行し、
 前記生成部は、前記プリレンダリング処理の結果に基づいて、前記属性情報に含まれる前記3次元字幕オブジェクトの位置及び向きを調整する
 情報処理装置。
(14)(12)又は(13)に記載の情報処理装装置であって、
 前記レンダリング部は、前記字幕文の視認性を判定するためのプリレンダリング処理を実行し、
 前記生成部は、前記プリレンダリング処理の結果に基づいて、前記属性情報に含まれる前記3次元字幕オブジェクトの色、透明度、表示面の状態、文字の大きさ、文字色、及び文字の透明度の少なくとも1つを調整する
 情報処理装置。
(15)(2)から(14)のうちいずれか1つに記載の情報処理装置であって、
 前記オーディオオブジェクトデータは、音声情報を含み、
 前記生成部は、前記音声情報の出力音量が所定の閾値よりも大きい場合に、前記オーディオオブジェクトデータに基づいた前記字幕オブジェクトデータを生成する
 情報処理装置。
(16)(15)に記載の情報処理装装置であって、
 前記3次元空間記述データは、前記所定の閾値の情報を含む
 情報処理装置。
(17)(2)から(16)のうちいずれか1つに記載の情報処理装置であって、
 前記生成部は、ユーザの注視点情報に基づいて、前記字幕文の表示を終了するか否かを判定する
 情報処理装置。
(18)
 3次元空間を表現するために実行されるレンダリング処理に用いられる3次元空間データに含まれる、前記3次元空間の構成を定義する3次元空間記述データと、前記3次元空間における3次元映像オブジェクトを定義する映像オブジェクトデータと、前記3次元空間における3次元オーディオオブジェクトを定義するオーディオオブジェクトデータとに基づいて、前記3次元空間における3次元字幕オブジェクトを定義する字幕オブジェクトデータを生成する
 ことをコンピュータシステムが実行する情報処理方法。
(19)
 3次元空間を表現するために実行されるレンダリング処理に用いられる3次元空間データに含まれる、前記3次元空間の構成を定義する3次元空間記述データと、前記3次元空間における3次元映像オブジェクトを定義する映像オブジェクトデータと、前記3次元空間における3次元オーディオオブジェクトを定義するオーディオオブジェクトデータとに基づいて、前記3次元空間における3次元字幕オブジェクトを定義する字幕オブジェクトデータを生成する生成部
 を具備する情報処理システム。
Note that the present technology can also adopt the following configuration.
(1)
3D space description data that defines the configuration of the 3D space and 3D video objects in the 3D space, which are included in 3D space data used in rendering processing performed to express the 3D space. a generation unit that generates subtitle object data that defines a three-dimensional subtitle object in the three-dimensional space based on video object data that defines the object and audio object data that defines the three-dimensional audio object in the three-dimensional space. Information processing device.
(2) The information processing device according to (1),
The subtitle object data includes a subtitle sentence and attribute information of the three-dimensional subtitle object. Information processing apparatus.
(3) The information processing device according to (2),
The attribute information includes information on the position and orientation of the three-dimensional subtitle object in the three-dimensional space.
(4) The information processing device according to (3),
The attribute information includes at least one of the size, shape, color, transparency, display surface state, character size, character font, character color, character transparency, and effect of the three-dimensional subtitle object in the three-dimensional space. An information processing device that contains 1 piece of information.
(5) The information processing device according to any one of (2) to (4),
The audio object data includes audio information,
The generation unit generates the subtitle sentence by performing voice recognition on the voice information. The information processing device.
(6) The information processing device according to (5),
The generation unit generates the subtitle sentence by performing translation processing on the recognition result of the voice recognition.
(7) The information processing device according to any one of (2) to (6),
The three-dimensional space description data includes position information of the three-dimensional audio object in the three-dimensional space and position information of the three-dimensional video object in the three-dimensional space,
The generation unit determines the three-dimensional video object corresponding to the three-dimensional audio object based on the position information of the three-dimensional video object and the position information of the three-dimensional audio object, and based on the determination result. An information processing device that generates the attribute information.
(8) The information processing device according to any one of (2) to (7),
The generation unit determines the three-dimensional video object corresponding to the subtitle sentence generated from the audio object data, based on position information of the three-dimensional video object and position information of the three-dimensional audio object. , an information processing device that generates the attribute information based on the determination result.
(9) The information processing device according to (8),
The generation unit determines, as the three-dimensional video object corresponding to the subtitle sentence, the three-dimensional video object that has uttered the content of the subtitle sentence.
(10) The information processing device according to (8) or (9),
The generation unit generates information on the position and orientation of the three-dimensional subtitle object based on a three-dimensional bounding box of the three-dimensional video object corresponding to the subtitle sentence.
(11) The information processing device according to any one of (2) to (10), further comprising:
a rendering unit that generates two-dimensional video data according to the user's visual field by performing rendering processing on the three-dimensional spatial data and the three-dimensional subtitle object based on visual field information regarding the user's visual field; Equipped with
The information processing device, wherein the generation unit controls a display mode of the subtitle sentence in the two-dimensional video data by adjusting the attribute information.
(12) The information processing device according to (11),
The rendering unit performs pre-rendering processing on the three-dimensional spatial data and the three-dimensional subtitle object,
The generation unit adjusts the attribute information based on the result of the pre-rendering process. The information processing apparatus.
(13) The information processing device according to (12),
The rendering unit executes pre-rendering processing to determine the occurrence of occlusion,
The information processing apparatus, wherein the generation unit adjusts the position and orientation of the three-dimensional subtitle object included in the attribute information based on the result of the pre-rendering process.
(14) The information processing device according to (12) or (13),
The rendering unit executes a pre-rendering process to determine the visibility of the subtitle text,
The generation unit generates at least one of the color, transparency, display surface state, font size, font color, and font transparency of the three-dimensional subtitle object included in the attribute information, based on the result of the pre-rendering process. An information processing device that adjusts one.
(15) The information processing device according to any one of (2) to (14),
The audio object data includes audio information,
The generation unit generates the subtitle object data based on the audio object data when the output volume of the audio information is larger than a predetermined threshold.
(16) The information processing device according to (15),
The three-dimensional space description data includes information on the predetermined threshold value. Information processing apparatus.
(17) The information processing device according to any one of (2) to (16),
The generation unit determines whether to end displaying the subtitle text based on user's gaze point information.
(18)
3D space description data that defines the configuration of the 3D space and 3D video objects in the 3D space that are included in the 3D space data used in rendering processing performed to express the 3D space. A computer system generates subtitle object data that defines a three-dimensional subtitle object in the three-dimensional space based on video object data that defines the three-dimensional subtitle object and audio object data that defines the three-dimensional audio object in the three-dimensional space. Information processing method to be carried out.
(19)
3D space description data that defines the configuration of the 3D space and 3D video objects in the 3D space that are included in the 3D space data used in rendering processing performed to express the 3D space. a generation unit that generates subtitle object data that defines a three-dimensional subtitle object in the three-dimensional space, based on video object data that defines a three-dimensional subtitle object and audio object data that defines a three-dimensional audio object in the three-dimensional space. Information processing system.
 S…仮想空間
 1…仮想空間提供システム
 2…配信サーバ
 3…HMD
 4…クライアント装置
 6…ユーザ
 8…レンダリング映像
 10…レンダリング部
 12…字幕オブジェクト生成部
 14…字幕オブジェクト
 15…人物オブジェクト
 17…オーディオオブジェクト
 18…映像オブジェクト
 19…3次元バウンディングボックス(BBoX)
 30…レンダリングサーバ
 31…遠隔コミュニケーションシステム
 60…コンピュータ
S...Virtual space 1...Virtual space provision system 2...Distribution server 3...HMD
4... Client device 6... User 8... Rendered video 10... Rendering unit 12... Subtitle object generation unit 14... Subtitle object 15... Person object 17... Audio object 18... Video object 19... Three-dimensional bounding box (BBoX)
30...Rendering server 31...Remote communication system 60...Computer

Claims (19)

  1.  3次元空間を表現するために実行されるレンダリング処理に用いられる3次元空間データに含まれる、前記3次元空間の構成を定義する3次元空間記述データと、前記3次元空間における3次元映像オブジェクトを定義する映像オブジェクトデータと、前記3次元空間における3次元オーディオオブジェクトを定義するオーディオオブジェクトデータとに基づいて、前記3次元空間における3次元字幕オブジェクトを定義する字幕オブジェクトデータを生成する生成部
     を具備する情報処理装置。
    3D space description data that defines the configuration of the 3D space and 3D video objects in the 3D space, which are included in 3D space data used in rendering processing performed to express the 3D space. a generation unit that generates subtitle object data that defines a three-dimensional subtitle object in the three-dimensional space based on video object data that defines the object and audio object data that defines the three-dimensional audio object in the three-dimensional space. Information processing device.
  2.  請求項1に記載の情報処理装装置であって、
     前記字幕オブジェクデータは、字幕文と、前記3次元字幕オブジェクトの属性情報とを含む
     情報処理装置。
    The information processing device according to claim 1,
    The subtitle object data includes a subtitle sentence and attribute information of the three-dimensional subtitle object. Information processing apparatus.
  3.  請求項2に記載の情報処理装装置であって、
     前記属性情報は、前記3次元空間における前記3次元字幕オブジェクトの位置及び向きの情報を含む
     情報処理装置。
    The information processing device according to claim 2,
    The attribute information includes information on the position and orientation of the three-dimensional subtitle object in the three-dimensional space.
  4.  請求項3に記載の情報処理装装置であって、
     前記属性情報は、前記3次元空間における前記3次元字幕オブジェクトの大きさ、形状、色、透明度、表示面の状態、文字の大きさ、文字フォント、文字色、文字の透明度、及びエフェクトの少なくとも1つの情報を含む
     情報処理装置。
    The information processing device according to claim 3,
    The attribute information includes at least one of the size, shape, color, transparency, display surface state, character size, character font, character color, character transparency, and effect of the three-dimensional subtitle object in the three-dimensional space. An information processing device that contains 1 piece of information.
  5.  請求項2に記載の情報処理装装置であって、
     前記オーディオオブジェクトデータは、音声情報を含み、
     前記生成部は、前記音声情報に対して音声認識を実行することで前記字幕文を生成する
     情報処理装置。
    The information processing device according to claim 2,
    The audio object data includes audio information,
    The generation unit generates the subtitle sentence by performing voice recognition on the voice information. The information processing device.
  6.  請求項5に記載の情報処理装装置であって、
     前記生成部は、前記音声認識の認識結果に対して翻訳処理を実行することで前記字幕文を生成する
     情報処理装置。
    The information processing device according to claim 5,
    The generation unit generates the subtitle sentence by performing translation processing on the recognition result of the voice recognition.
  7.  請求項2に記載の情報処理装装置であって、
     前記3次元空間記述データは、前記3次元空間における前記3次元オーディオオブジェクトの位置情報と、前記3次元空間における前記3次元映像オブジェクトの位置情報とを含み、
     前記生成部は、前記3次元映像オブジェクトの位置情報と前記3次元オーディオオブジェクトの位置情報とに基づいて、前記3次元オーディオオブジェクトに対応する前記3次元映像オブジェクトを判定し、その判定結果に基づいて前記属性情報を生成する
     情報処理装置。
    The information processing device according to claim 2,
    The three-dimensional space description data includes position information of the three-dimensional audio object in the three-dimensional space and position information of the three-dimensional video object in the three-dimensional space,
    The generation unit determines the three-dimensional video object corresponding to the three-dimensional audio object based on the position information of the three-dimensional video object and the position information of the three-dimensional audio object, and based on the determination result. An information processing device that generates the attribute information.
  8.  請求項2に記載の情報処理装装置であって、
     前記生成部は、前記3次元映像オブジェクトの位置情報と、前記3次元オーディオオブジェクトの位置情報とに基づいて、前記オーディオオブジェクトデータから生成された前記字幕文に対応する前記3次元映像オブジェクトを判定し、その判定結果に基づいて前記属性情報を生成する
     情報処理装置。
    The information processing device according to claim 2,
    The generation unit determines the three-dimensional video object corresponding to the subtitle sentence generated from the audio object data, based on position information of the three-dimensional video object and position information of the three-dimensional audio object. , an information processing device that generates the attribute information based on the determination result.
  9.  請求項8に記載の情報処理装装置であって、
     前記生成部は、前記字幕文に対応する前記3次元映像オブジェクトとして、前記字幕文の内容を発話した前記3次元映像オブジェクトを判定する
     情報処理装置。
    The information processing device according to claim 8,
    The generation unit determines, as the three-dimensional video object corresponding to the subtitle sentence, the three-dimensional video object that has uttered the content of the subtitle sentence.
  10.  請求項8に記載の情報処理装装置であって、
     前記生成部は、前記字幕文に対応する前記3次元映像オブジェクトの3次元バウンディングボックスを基準として、前記3次元字幕オブジェクトの位置及び向きの情報を生成する
     情報処理装置。
    The information processing device according to claim 8,
    The generation unit generates information on the position and orientation of the three-dimensional subtitle object based on a three-dimensional bounding box of the three-dimensional video object corresponding to the subtitle sentence.
  11.  請求項2に記載の情報処理装装置であって、さらに、
     ユーザの視野に関する視野情報に基づいて、前記3次元空間データと前記3次元字幕オブジェクトとに対してレンダリング処理を実行することで、前記ユーザの視野に応じた2次元映像データを生成するレンダリング部を具備し、
     前記生成部は、前記属性情報を調整することで、前記2次元映像データにおける前記字幕文の表示態様を制御する
     情報処理装置。
    The information processing device according to claim 2, further comprising:
    a rendering unit that generates two-dimensional video data according to the user's visual field by performing rendering processing on the three-dimensional spatial data and the three-dimensional subtitle object based on visual field information regarding the user's visual field; Equipped with
    The information processing device, wherein the generation unit controls a display mode of the subtitle sentence in the two-dimensional video data by adjusting the attribute information.
  12.  請求項11に記載の情報処理装装置であって、
     前記レンダリング部は、前記3次元空間データと前記3次元字幕オブジェクトとに対してプリレンダリング処理を実行し、
     前記生成部は、前記プリレンダリング処理の結果に基づいて、前記属性情報を調整する
     情報処理装置。
    The information processing device according to claim 11,
    The rendering unit performs pre-rendering processing on the three-dimensional spatial data and the three-dimensional subtitle object,
    The generation unit adjusts the attribute information based on the result of the pre-rendering process. The information processing apparatus.
  13.  請求項12に記載の情報処理装装置であって、
     前記レンダリング部は、オクルージョンの発生を判定するためのプリレンダリング処理を実行し、
     前記生成部は、前記プリレンダリング処理の結果に基づいて、前記属性情報に含まれる前記3次元字幕オブジェクトの位置及び向きを調整する
     情報処理装置。
    The information processing device according to claim 12,
    The rendering unit executes pre-rendering processing to determine the occurrence of occlusion,
    The information processing apparatus, wherein the generation unit adjusts the position and orientation of the three-dimensional subtitle object included in the attribute information based on the result of the pre-rendering process.
  14.  請求項12に記載の情報処理装装置であって、
     前記レンダリング部は、前記字幕文の視認性を判定するためのプリレンダリング処理を実行し、
     前記生成部は、前記プリレンダリング処理の結果に基づいて、前記属性情報に含まれる前記3次元字幕オブジェクトの色、透明度、表示面の状態、文字の大きさ、文字色、及び文字の透明度の少なくとも1つを調整する
     情報処理装置。
    The information processing device according to claim 12,
    The rendering unit executes a pre-rendering process to determine the visibility of the subtitle text,
    The generation unit generates at least one of the color, transparency, display surface state, font size, font color, and font transparency of the three-dimensional subtitle object included in the attribute information, based on the result of the pre-rendering process. An information processing device that adjusts one.
  15.  請求項2に記載の情報処理装装置であって、
     前記オーディオオブジェクトデータは、音声情報を含み、
     前記生成部は、前記音声情報の出力音量が所定の閾値よりも大きい場合に、前記オーディオオブジェクトデータに基づいた前記字幕オブジェクトデータを生成する
     情報処理装置。
    The information processing device according to claim 2,
    The audio object data includes audio information,
    The generation unit generates the subtitle object data based on the audio object data when the output volume of the audio information is larger than a predetermined threshold.
  16.  請求項15に記載の情報処理装装置であって、
     前記3次元空間記述データは、前記所定の閾値の情報を含む
     情報処理装置。
    The information processing device according to claim 15,
    The three-dimensional space description data includes information on the predetermined threshold value. Information processing apparatus.
  17.  請求項2に記載の情報処理装装置であって、
     前記生成部は、ユーザの注視点情報に基づいて、前記字幕文の表示を終了するか否かを判定する
     情報処理装置。
    The information processing device according to claim 2,
    The generation unit determines whether to end displaying the subtitle text based on user's gaze point information.
  18.  3次元空間を表現するために実行されるレンダリング処理に用いられる3次元空間データに含まれる、前記3次元空間の構成を定義する3次元空間記述データと、前記3次元空間における3次元映像オブジェクトを定義する映像オブジェクトデータと、前記3次元空間における3次元オーディオオブジェクトを定義するオーディオオブジェクトデータとに基づいて、前記3次元空間における3次元字幕オブジェクトを定義する字幕オブジェクトデータを生成する
     ことをコンピュータシステムが実行する情報処理方法。
    3D space description data that defines the configuration of the 3D space and 3D video objects in the 3D space, which are included in 3D space data used in rendering processing performed to express the 3D space. A computer system generates subtitle object data that defines a three-dimensional subtitle object in the three-dimensional space based on video object data that defines the three-dimensional subtitle object and audio object data that defines the three-dimensional audio object in the three-dimensional space. Information processing method to perform.
  19.  3次元空間を表現するために実行されるレンダリング処理に用いられる3次元空間データに含まれる、前記3次元空間の構成を定義する3次元空間記述データと、前記3次元空間における3次元映像オブジェクトを定義する映像オブジェクトデータと、前記3次元空間における3次元オーディオオブジェクトを定義するオーディオオブジェクトデータとに基づいて、前記3次元空間における3次元字幕オブジェクトを定義する字幕オブジェクトデータを生成する生成部
     を具備する情報処理システム。
    3D space description data that defines the configuration of the 3D space and 3D video objects in the 3D space, which are included in 3D space data used in rendering processing performed to express the 3D space. a generation unit that generates subtitle object data that defines a three-dimensional subtitle object in the three-dimensional space based on video object data that defines the object and audio object data that defines the three-dimensional audio object in the three-dimensional space. Information processing system.
PCT/JP2023/019085 2022-06-24 2023-05-23 Information processing device, information processing method, and information processing system WO2023248678A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022101816 2022-06-24
JP2022-101816 2022-06-24

Publications (1)

Publication Number Publication Date
WO2023248678A1 true WO2023248678A1 (en) 2023-12-28

Family

ID=89379730

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/019085 WO2023248678A1 (en) 2022-06-24 2023-05-23 Information processing device, information processing method, and information processing system

Country Status (1)

Country Link
WO (1) WO2023248678A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011029849A (en) * 2009-07-23 2011-02-10 Sony Corp Receiving device, communication system, method of combining caption with stereoscopic image, program, and data structure
WO2017208820A1 (en) * 2016-05-30 2017-12-07 ソニー株式会社 Video sound processing device, video sound processing method, and program
WO2017208821A1 (en) * 2016-05-30 2017-12-07 ソニー株式会社 Sound processing device, sound processing method, and program
JP2021107943A (en) * 2015-12-08 2021-07-29 ソニーグループ株式会社 Reception apparatus and reception method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011029849A (en) * 2009-07-23 2011-02-10 Sony Corp Receiving device, communication system, method of combining caption with stereoscopic image, program, and data structure
JP2021107943A (en) * 2015-12-08 2021-07-29 ソニーグループ株式会社 Reception apparatus and reception method
WO2017208820A1 (en) * 2016-05-30 2017-12-07 ソニー株式会社 Video sound processing device, video sound processing method, and program
WO2017208821A1 (en) * 2016-05-30 2017-12-07 ソニー株式会社 Sound processing device, sound processing method, and program

Similar Documents

Publication Publication Date Title
JP7275227B2 (en) Recording virtual and real objects in mixed reality devices
US10373392B2 (en) Transitioning views of a virtual model
GB2553607A (en) Virtual reality
US11128977B2 (en) Spatial audio downmixing
US11189057B2 (en) Provision of virtual reality content
CN111386517A (en) Apparatus, and associated method, for communication between users experiencing virtual reality
US10964085B2 (en) Method and apparatus for inciting a viewer to rotate toward a reference direction when consuming an immersive content item
WO2023248678A1 (en) Information processing device, information processing method, and information processing system
US20220036075A1 (en) A system for controlling audio-capable connected devices in mixed reality environments
WO2024009653A1 (en) Information processing device, information processing method, and information processing system
JP2022532864A (en) Presentation of environment-based communication data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23826866

Country of ref document: EP

Kind code of ref document: A1