JP6457700B2 - Display control system, display control method, and display control program - Google Patents

Display control system, display control method, and display control program Download PDF

Info

Publication number
JP6457700B2
JP6457700B2 JP2018518895A JP2018518895A JP6457700B2 JP 6457700 B2 JP6457700 B2 JP 6457700B2 JP 2018518895 A JP2018518895 A JP 2018518895A JP 2018518895 A JP2018518895 A JP 2018518895A JP 6457700 B2 JP6457700 B2 JP 6457700B2
Authority
JP
Japan
Prior art keywords
display
sound
display control
display data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018518895A
Other languages
Japanese (ja)
Other versions
JPWO2017203667A1 (en
Inventor
宗 益子
宗 益子
慎哉 中川
慎哉 中川
志学 岩淵
志学 岩淵
二郎 田中
二郎 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Publication of JPWO2017203667A1 publication Critical patent/JPWO2017203667A1/en
Application granted granted Critical
Publication of JP6457700B2 publication Critical patent/JP6457700B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/274Storing end-user multimedia data in response to end-user request, e.g. network recorder
    • H04N21/2743Video hosting of uploaded data from client

Description

本発明は、表示制御システム、表示制御方法及び表示制御プログラムに関する。   The present invention relates to a display control system, a display control method, and a display control program.

ビデオ画像及び音声を伝達するビデオ通話システムが知られている(例えば、特許文献1参照)。このようなシステムでは、通話者を撮像した動画像及び通話者が発声した音声が端末間で相互に送受信される。   A video call system that transmits video images and audio is known (for example, see Patent Document 1). In such a system, a moving image obtained by imaging a caller and a voice uttered by the caller are transmitted and received between terminals.

特開2011−29732号公報JP 2011-29732 A

ビデオ通話システムのように、相手方に画像及び音声を伝送するシステムでは、全ての音声が相手方に伝達されると相手方において、その音声を聞き難い場合がある。また、全ての音声の情報が相手方に送信されるデータに含まれることにより、送信されるデータの総量が大きくなり、通信負荷が増大する。一方、音声が削除されたデータが送信される場合には、相手方において、音から認識される臨場感等の情報が失われることとなる。   In a system that transmits images and sounds to the other party, such as a video call system, it may be difficult for the other party to hear the sound when all the sounds are transmitted to the other party. In addition, since all audio information is included in the data transmitted to the other party, the total amount of data to be transmitted increases and the communication load increases. On the other hand, when the data from which the sound is deleted is transmitted, information such as a sense of reality recognized from the sound is lost in the other party.

そこで本発明は、画像及び音声を伝送するシステムにおいて、音声から認識できる情報が失われることを防止しつつ、伝送にかかるデータ量を削減することを目的とする。   Therefore, an object of the present invention is to reduce the amount of data required for transmission while preventing loss of information that can be recognized from voice in a system for transmitting images and sounds.

上記課題を解決するために、本発明の一形態に係る表示制御システムは、音情報が関連付けられた画像情報を取得する取得手段と、予め設定された音に関する複数のカテゴリのなかから、取得手段により取得された画像情報に関連付けられた音情報が該当するカテゴリを判定するカテゴリ判定手段と、カテゴリ判定手段により判定されたカテゴリに基づいて、音情報に対応する表示データを選択または生成する選択生成手段と、表示データを音情報に代えて画像情報に関連付ける関連付け手段と、を備える。   In order to solve the above-described problem, a display control system according to an aspect of the present invention includes an acquisition unit that acquires image information associated with sound information, and an acquisition unit from among a plurality of preset categories related to sound. A category determination unit that determines a category to which sound information associated with the image information acquired by the method corresponds, and a selection generation that selects or generates display data corresponding to the sound information based on the category determined by the category determination unit And means for associating display data with image information instead of sound information.

本発明の一形態に係る表示制御方法は、表示制御システムにおける表示制御方法であって、音情報が関連付けられた画像情報を取得する取得ステップと、予め設定された音に関する複数のカテゴリのなかから、取得ステップにおいて取得された画像情報に関連付けられた音情報が該当するカテゴリを判定するカテゴリ判定ステップと、カテゴリ判定ステップにおいて判定されたカテゴリに基づいて、音情報に対応する表示データを選択または生成する選択生成ステップと、表示データを音情報に代えて画像情報に関連付ける関連付けステップと、を有する。   A display control method according to an aspect of the present invention is a display control method in a display control system, and includes an acquisition step of acquiring image information associated with sound information, and a plurality of preset categories related to sound. A category determination step for determining a category to which the sound information associated with the image information acquired in the acquisition step corresponds, and display data corresponding to the sound information is selected or generated based on the category determined in the category determination step And a selection generating step for associating and associating the display data with the image information instead of the sound information.

本発明の一形態に係る表示制御プログラムは、表示制御システムとしてコンピュータを機能させる表示制御プログラムであって、コンピュータを、音情報が関連付けられた画像情報を取得する取得手段、予め設定された音に関する複数のカテゴリのなかから、取得手段により取得された画像情報に関連付けられた音情報が該当するカテゴリを判定するカテゴリ判定手段、カテゴリ判定手段により判定されたカテゴリに基づいて、音情報に対応する表示データを選択または生成する選択生成手段、及び、表示データを音情報に代えて画像情報に関連付ける関連付け手段、として機能させる。   A display control program according to an embodiment of the present invention is a display control program that causes a computer to function as a display control system, and relates to a computer that obtains image information associated with sound information, and preset sound. A category determination unit that determines a category corresponding to sound information associated with the image information acquired by the acquisition unit from among a plurality of categories, a display corresponding to the sound information based on the category determined by the category determination unit Selection selection means for selecting or generating data and association means for associating display data with image information instead of sound information.

上記の形態によれば、音情報を含む画像情報が取得され、音情報が該当するカテゴリが判定される。そして、判定されたカテゴリに基づいて選択または生成された表示データが画像情報に関連付けられる。従って、音声を表す音情報が表示データに代替されることにより、画像情報における音から得られる情報の量を不足させることなく、画像情報のデータ量が削減される。これにより、例えば画像情報の送信に際しての通信負荷が軽減される。   According to said form, the image information containing sound information is acquired and the category to which sound information corresponds is determined. Then, display data selected or generated based on the determined category is associated with the image information. Therefore, by replacing the sound information representing the sound with the display data, the data amount of the image information is reduced without deficient in the amount of information obtained from the sound in the image information. Thereby, for example, the communication load when transmitting image information is reduced.

別の形態に係る表示制御システムでは、所定の判断材料情報に基づいて表示データを選択または生成するか否かを判断する判断手段を更に備え、選択生成手段は、判断手段により表示データを選択または生成すると判断された場合に、表示データを選択または生成することとしてもよい。   The display control system according to another aspect further includes a determination unit that determines whether or not to select or generate display data based on predetermined determination material information, and the selection generation unit selects or displays display data by the determination unit. When it is determined to generate, display data may be selected or generated.

上記の形態によれば、画像情報に関連付けられた音情報が選択的に表示データに代替される。従って、例えば、音として伝達することが不適切な音情報が表示データに代替され、音として伝達するべき音情報が画像情報に関連付けられたまま残ることとなる。これにより、相手方に対して、音に関する情報を適切に認識させることができる。   According to the above aspect, the sound information associated with the image information is selectively replaced with display data. Therefore, for example, sound information inappropriate to be transmitted as sound is replaced with display data, and sound information to be transmitted as sound remains associated with the image information. Thereby, the other party can be made to recognize the information regarding a sound appropriately.

別の形態に係る表示制御システムでは、画像情報は、ユーザの表情を表した画像を含み、判断手段は、画像情報に含まれる画像におけるユーザの表情に基づいて、表示データを選択または生成するか否かを判断することとしてもよい。   In the display control system according to another aspect, the image information includes an image representing the user's facial expression, and the determination unit selects or generates display data based on the user's facial expression in the image included in the image information. It may be determined whether or not.

上記の形態によれば、画像情報により表される画像に捉えられた空間において発生した音の特性が、ユーザの表情を介して間接的に取得される。これにより、画像情報に関連付けられた音情報を表示データに代替すべきか否かが適切に判断される。   According to said form, the characteristic of the sound which generate | occur | produced in the space captured by the image represented by image information is acquired indirectly via a user's facial expression. Thereby, it is appropriately determined whether or not the sound information associated with the image information should be replaced with display data.

別の形態に係る表示制御システムでは、カテゴリに複数の表示データが関連付けられており、選択生成手段は、音情報により示される音の特性に基づいて、特性ごとに関連付けられている複数の表示データのうちの少なくとも1以上の表示データを選択することとしてもよい。   In a display control system according to another embodiment, a plurality of display data is associated with a category, and the selection generation unit is configured to display a plurality of display data associated with each characteristic based on a sound characteristic indicated by sound information. Of these, at least one or more display data may be selected.

上記の形態によれば、例えば、音情報の特性ごとに態様が異なる表示データを予め関連付けておくことにより、音情報の特性に応じた表示データが選択される。これにより、音情報の特性が反映された表示データを画像情報に関連付けることができる。従って、画像情報が、送信された相手方において表示された場合に、音情報の特性を表現することが可能となる。   According to said form, the display data according to the characteristic of sound information are selected by previously associating the display data from which a mode differs for every characteristic of sound information, for example. Thereby, the display data reflecting the characteristics of the sound information can be associated with the image information. Therefore, when the image information is displayed on the transmitted counterpart, it is possible to express the characteristics of the sound information.

別の形態に係る表示制御システムでは、選択生成手段は、音情報により示される音の特性に基づいて、少なくとも1以上の表示データを生成することとしてもよい。   In the display control system according to another aspect, the selection generation unit may generate at least one or more display data based on a sound characteristic indicated by the sound information.

上記の形態によれば、予めカテゴリに表示データを関連付けておくことを要さずに、表示データを画像情報に関連付けることができる。   According to the above aspect, the display data can be associated with the image information without requiring the display data to be associated with the category in advance.

さらに別の形態に係る表示制御装置では、カテゴリに複数の表示データが関連付けられており、選択生成手段は、判定手段により判定されたカテゴリに対応する物体を画像中から特定し、該物体の態様及び位置の少なくとも1つに基づいて、該カテゴリごとに関連付けられている複数の表示データのうちの少なくとも1以上の表示データを選択することとしてもよい。   In the display control device according to another aspect, a plurality of display data is associated with the category, and the selection generation unit identifies an object corresponding to the category determined by the determination unit from the image, and the mode of the object Further, based on at least one of the positions, at least one or more display data among a plurality of display data associated with each category may be selected.

判定されるカテゴリを介して音情報に関連付けられる物体の態様等には、音情報の特性が反映されている場合がある。上記形態によれば、例えば、カテゴリに対応する物体の態様等ごとに異なる表示データを予め関連付けておくことにより、物体の態様等に応じた表示データが選択される。これにより、音情報の特性が反映された表示データを画像情報に関連付けることができる。従って、画像情報が、送信された相手方において表示された場合に、音情報の特性を表現することが可能となる。   The characteristics of the sound information may be reflected in the form of the object associated with the sound information through the determined category. According to the said form, the display data according to the aspect etc. of an object are selected by previously associating different display data for every aspect etc. of the object corresponding to a category, for example. Thereby, the display data reflecting the characteristics of the sound information can be associated with the image information. Therefore, when the image information is displayed on the transmitted counterpart, it is possible to express the characteristics of the sound information.

別の形態に係る表示制御システムでは、選択生成手段は、判定手段により判定されたカテゴリに対応する物体を画像中から特定し、該物体の態様及び位置の少なくとも1つに基づいて、少なくとも1以上の表示データを生成することとしてもよい。   In the display control system according to another aspect, the selection generation unit specifies an object corresponding to the category determined by the determination unit from the image, and at least one or more based on at least one of an aspect and a position of the object The display data may be generated.

上記の形態によれば、予めカテゴリに表示データを関連付けておくことを要さずに、表示データを画像情報に関連付けることができる。   According to the above aspect, the display data can be associated with the image information without requiring the display data to be associated with the category in advance.

別の形態に係る表示制御システムでは、関連付け手段により画像情報に関連付けられた表示データを、画像情報により表される画像と共に表示装置に表示させる表示制御手段を更に備えることとしてもよい。   The display control system according to another aspect may further include display control means for causing the display device to display the display data associated with the image information by the association means together with the image represented by the image information.

上記の形態によれば、表示装置に表示された表示データにより音情報が表現される。従って、画像情報の受信側において音情報を認識させることが容易となる。   According to said form, sound information is expressed by the display data displayed on the display apparatus. Therefore, it becomes easy to recognize sound information on the image information receiving side.

別の形態に係る表示制御システムでは、表示データは、音情報に示される音を視覚的に表現する画像データであり、表示制御手段は、画像データを表示装置に表示させることとしてもよい。   In the display control system according to another aspect, the display data may be image data that visually represents the sound indicated by the sound information, and the display control means may display the image data on a display device.

上記の形態によれば、画像データが表示装置に表示されるので、表示装置において音情報が視覚的に表現される。   According to the above aspect, since the image data is displayed on the display device, the sound information is visually expressed on the display device.

別の形態に係る表示制御システムでは、表示データは、音情報により示される音を表現する画像データに予め関連付けられた識別データであり、表示制御手段は、画像情報を受信する端末に構成され、識別データに関連付けられた画像データを表示装置に表示させることとしてもよい。   In the display control system according to another aspect, the display data is identification data associated in advance with image data representing the sound indicated by the sound information, and the display control means is configured in a terminal that receives the image information, The image data associated with the identification data may be displayed on the display device.

上記の形態によれば、音を表現する画像データに予め関連付けられた識別データが画像情報に関連付けられ、画像情報を受信した端末において、画像データが表示装置に表示される。これにより、画像データを識別する識別データが画像情報に関連付けられて送信されるので、画像を表す画像データが画像情報に関連付けられて送信される場合に比べて通信負荷が軽減される。   According to the above aspect, the identification data associated in advance with the image data representing the sound is associated with the image information, and the image data is displayed on the display device at the terminal that has received the image information. As a result, the identification data for identifying the image data is transmitted in association with the image information, so that the communication load is reduced compared to the case in which the image data representing the image is transmitted in association with the image information.

別の形態に係る表示制御装置では、表示制御手段は、音情報により示される音の特性に基づいて、選択生成手段により選択または生成された表示データの表示態様を変化させることとしてもよい。   In the display control apparatus according to another aspect, the display control unit may change the display mode of the display data selected or generated by the selection generation unit based on the sound characteristics indicated by the sound information.

上記形態によれば、音情報の特性に応じて変化された表示データを表示装置に表示させることができる。従って、表示装置に表示された表示データにより音情報の特性を表現することが可能となる。また、この形態によれば、特性に応じた表示データを予め記憶しておく必要がないので、処理リソースの削減が可能となる。   According to the said form, the display data changed according to the characteristic of sound information can be displayed on a display apparatus. Therefore, it is possible to express the characteristics of the sound information by the display data displayed on the display device. In addition, according to this embodiment, it is not necessary to store display data corresponding to characteristics in advance, so that processing resources can be reduced.

さらに別の形態に係る表示制御装置では、表示制御手段は、判定手段により判定されたカテゴリに対応する物体を画像中から特定し、該物体の態様及び位置の少なくとも1つに基づいて、選択生成手段により選択または生成された表示データの表示態様を変更させることとしてもよい。   In the display control device according to another aspect, the display control unit specifies an object corresponding to the category determined by the determination unit from the image, and selects and generates based on at least one of the form and position of the object. The display mode of the display data selected or generated by the means may be changed.

判定されるカテゴリを介して音情報に関連付けられる物体の態様等には、音情報の特性が反映されている場合がある。上記形態によれば、物体の態様等に応じて変更された表示態様を有する表示データを表示装置に表示させることができる。従って、表示装置に表示された表示データにより音情報の特性を表現することが可能となる。   The characteristics of the sound information may be reflected in the form of the object associated with the sound information through the determined category. According to the said form, the display data which have the display mode changed according to the mode etc. of the object can be displayed on a display apparatus. Therefore, it is possible to express the characteristics of the sound information by the display data displayed on the display device.

さらに別の形態に係る表示制御装置では、表示制御手段は、画像中における物体の態様及び位置の少なくとも1つの変化に基づいて、選択生成手段により選択または生成された表示データの表示態様を動的に変化させることとしてもよい。   In the display control device according to another aspect, the display control means dynamically changes the display mode of the display data selected or generated by the selection generation unit based on at least one change in the mode and position of the object in the image. It is good also as changing to.

上記形態によれば、画像情報により表される動画像に含まれる物体の態様等の変化に応じて、表示データを動的に変化させながら表示装置に表示させることができる。従って、表示装置に表示された表示データにより音情報の特性の動的な変化を表現することが可能となる。   According to the said form, according to the change of the aspect etc. of the object contained in the moving image represented by image information, it can display on a display apparatus, changing display data dynamically. Therefore, it is possible to express a dynamic change in the characteristics of the sound information by the display data displayed on the display device.

さらに別の形態に係る表示制御装置では、表示制御手段は、画像中における、判定手段により判定されたカテゴリに対応する位置に関連付けて表示データを表示させることとしてもよい。   In the display control device according to another aspect, the display control means may display the display data in association with a position in the image corresponding to the category determined by the determination means.

上記形態によれば、例えば、音情報のカテゴリに、その音情報に表される音の発生源となる物の情報を関連付けておくことにより、画像中におけるその物が表された位置に表示データを表示させることができる。これにより、音情報に表される音が何の音であるかを、より容易に認識することができる。   According to the above aspect, for example, by associating information on an object that is a source of sound represented by the sound information with a category of sound information, display data is displayed at a position where the object is represented in the image. Can be displayed. Thereby, it is possible to more easily recognize what the sound represented by the sound information is.

本発明の一側面によれば、画像及び音声を伝送するシステムにおいて、音声から認識できる情報が失われることを防止しつつ、伝送にかかるデータ量を削減することが可能となる。   According to an aspect of the present invention, in a system for transmitting images and sound, it is possible to reduce the amount of data required for transmission while preventing loss of information that can be recognized from sound.

本実施形態に係る表示制御システムの装置構成を示す図である。It is a figure which shows the apparatus structure of the display control system which concerns on this embodiment. 表示制御装置の機能構成を示すブロック図である。It is a block diagram which shows the function structure of a display control apparatus. 表示制御装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of a display control apparatus. 表示データ記憶部の構成及び記憶されているデータの例を示す図である。It is a figure which shows the example of the structure of the display data memory | storage part, and the data memorize | stored. 表示制御部により表示される画面の例を示す図である。It is a figure which shows the example of the screen displayed by a display control part. 表示制御部により表示される画面の例を示す図である。It is a figure which shows the example of the screen displayed by a display control part. 表示制御部により表示される画面の例を示す図である。It is a figure which shows the example of the screen displayed by a display control part. 表示制御部により表示される画面の例を示す図である。It is a figure which shows the example of the screen displayed by a display control part. 表示データを動的に変化させる表示制御の例を説明する図である。It is a figure explaining the example of the display control which changes display data dynamically. 表示制御装置において実施される表示制御方法の処理内容を示すフローチャートである。It is a flowchart which shows the processing content of the display control method implemented in a display control apparatus. 表示制御プログラムの構成を示す図である。It is a figure which shows the structure of a display control program.

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same or equivalent elements are denoted by the same reference numerals, and redundant description is omitted.

図1は、本実施形態に係る表示制御システムの装置構成を示す図である。表示制御システム1は、表示制御装置10、端末TA,TBを含み、これらの装置は、ネットワークNを介して互いに通信可能である。   FIG. 1 is a diagram illustrating a device configuration of a display control system according to the present embodiment. The display control system 1 includes a display control device 10 and terminals TA and TB, and these devices can communicate with each other via a network N.

端末TAには、カメラC及びマイクMが接続されており、端末TAは、カメラCから動画像を取得し、マイクMから音声を取得する。なお、端末TAは、カメラ及びマイクを内蔵していてもよい。端末TBには、表示装置D及びスピーカSPが接続されている。端末TBは、表示装置Dに画像を出力できる。また、端末TBは、スピーカSPに音声を出力できる。なお、端末TBは、表示装置及びスピーカを内蔵していてもよい。   A camera TA and a microphone M are connected to the terminal TA. The terminal TA acquires a moving image from the camera C and acquires sound from the microphone M. The terminal TA may incorporate a camera and a microphone. A display device D and a speaker SP are connected to the terminal TB. The terminal TB can output an image to the display device D. The terminal TB can output sound to the speaker SP. Note that the terminal TB may incorporate a display device and a speaker.

本実施形態の表示制御装置10は、端末TAから画像情報を取得し、取得した画像情報により表される画像、及び画像情報に含まれる音声を端末TBの表示装置D及びスピーカSPに出力させる。即ち、本実施形態では、端末TAを画像情報等の送信側とし、端末TBを受信側(相手方)として説明する。なお、端末TA及び端末TBが共に、カメラ、マイク、表示装置D及びスピーカを有し、双方向で画像及び音声を送受信するシステムを構成してもよい。双方向で画像及び音声を送受信するシステムには、例えば、ビデオチャットシステム、会議システム等が例示される。   The display control apparatus 10 according to the present embodiment acquires image information from the terminal TA, and causes the display device D and the speaker SP of the terminal TB to output an image represented by the acquired image information and audio included in the image information. That is, in the present embodiment, the terminal TA is described as a transmitting side for image information and the terminal TB is described as a receiving side (the other party). Note that both the terminal TA and the terminal TB may include a camera, a microphone, a display device D, and a speaker, and may constitute a system that transmits and receives images and sounds in both directions. Examples of the system that transmits and receives images and sound in both directions include a video chat system and a conference system.

端末Tは、例えば、据置型又は携帯型のパーソナルコンピュータ、高機能携帯電話機(スマートフォン)等により構成されるが、端末Tを構成する装置は限定されず、例えば携帯電話機、携帯情報端末(PDA)などの携帯端末でもよい。なお、図1では、例として2台の端末Tが示されているが、端末Tの数はこれに限定されない。   The terminal T is configured by, for example, a stationary or portable personal computer, a high-function mobile phone (smart phone), or the like, but an apparatus that configures the terminal T is not limited, and for example, a mobile phone or a personal digital assistant (PDA) It may be a portable terminal such as. In FIG. 1, two terminals T are shown as an example, but the number of terminals T is not limited to this.

図2は、表示制御装置10の機能的構成を示すブロック図である。表示制御装置10は、例えば、サーバにより構成される。   FIG. 2 is a block diagram illustrating a functional configuration of the display control apparatus 10. The display control device 10 is configured by a server, for example.

本実施形態の表示制御装置10は、図2に示すように、機能的には、取得部11(取得手段)、カテゴリ判定部12(カテゴリ判定手段)、選択生成部13(選択生成手段)
判断部14(判断手段)、関連付け部15(関連付け手段)及び表示制御部16(表示制御手段)を備える。
As shown in FIG. 2, the display control apparatus 10 of the present embodiment is functionally an acquisition unit 11 (acquisition unit), a category determination unit 12 (category determination unit), and a selection generation unit 13 (selection generation unit).
A determination unit 14 (determination unit), an association unit 15 (association unit), and a display control unit 16 (display control unit) are provided.

また表示制御装置10は、表示データ記憶部20といった記憶手段にアクセス可能である。表示データ記憶部20は、表示制御装置10に備えられることとしてもよいし、表示制御装置10からのアクセスが可能に設けられた外部の記憶手段として構成されてもよい。   The display control apparatus 10 can access storage means such as the display data storage unit 20. The display data storage unit 20 may be provided in the display control device 10, or may be configured as an external storage unit provided so as to be accessible from the display control device 10.

図3は、表示制御装置10のハードウェア構成図である。表示制御装置10は、物理的には、図3に示すように、CPU101、RAM及びROMといったメモリにより構成される主記憶装置102、ハードディスク等で構成される補助記憶装置103、通信制御装置104などを含むコンピュータシステムとして構成されている。表示制御装置10は、入力デバイスであるキーボード、タッチパネル、マウス等の入力装置105及びディスプレイ等の出力装置106をさらに含むこととしてもよい。   FIG. 3 is a hardware configuration diagram of the display control apparatus 10. As shown in FIG. 3, the display control device 10 is physically composed of a CPU 101, a main storage device 102 constituted by memories such as a RAM and a ROM, an auxiliary storage device 103 constituted by a hard disk, a communication control device 104, and the like. It is comprised as a computer system containing. The display control device 10 may further include an input device 105 such as a keyboard, a touch panel, and a mouse which are input devices, and an output device 106 such as a display.

図2に示した各機能は、図3に示すCPU101、主記憶装置102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで通信制御装置104等を動作させるとともに、主記憶装置102や補助記憶装置103におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶装置102や補助記憶装置103内に格納される。なお、端末Tも、図3に示すようなハードウェア構成を有するコンピュータシステムとして構成される。   The functions shown in FIG. 2 operate the communication control device 104 and the like under the control of the CPU 101 by reading predetermined computer software on the hardware such as the CPU 101 and the main storage device 102 shown in FIG. In addition, it is realized by reading and writing data in the main storage device 102 and the auxiliary storage device 103. Data and databases necessary for processing are stored in the main storage device 102 and the auxiliary storage device 103. The terminal T is also configured as a computer system having a hardware configuration as shown in FIG.

続いて、表示制御装置10の各機能部を説明する。取得部11は、画像を表す画像情報を取得する。画像情報には、音情報が関連付けられている。音情報は、例えば、画像情報の画像に表される空間において発生した環境音及び画像に表される物体が発した音等を表す情報である。   Subsequently, each functional unit of the display control apparatus 10 will be described. The acquisition unit 11 acquires image information representing an image. Sound information is associated with the image information. The sound information is information representing, for example, environmental sound generated in the space represented by the image of the image information, sound generated by the object represented by the image, and the like.

本実施形態では、取得部11は、端末TAにおいて取得された動画像からなる画像情報を端末TAから取得する。この画像情報には、端末TAにおいて取得された音を表す音情報が関連付けられている。具体的には、画像情報は、端末TAのユーザ及びユーザの背景を撮像した動画像を含む。また、動画像に関連付けられている音情報は、当該ユーザが発声した音声、当該動画像に表される環境において発声した環境音を含むことができる。環境音は、例えば、ユーザが発声した音声以外の音であってユーザが発生させた音及びユーザの周囲で発生した音等を含む。   In the present embodiment, the acquisition unit 11 acquires image information including moving images acquired at the terminal TA from the terminal TA. The image information is associated with sound information representing the sound acquired at the terminal TA. Specifically, the image information includes a moving image obtained by capturing the user of the terminal TA and the background of the user. Further, the sound information associated with the moving image can include a sound uttered by the user and an environmental sound uttered in the environment represented by the moving image. The environmental sound includes, for example, sounds other than the voice uttered by the user and generated by the user and sounds generated around the user.

カテゴリ判定部12は、予め設定された音に関する複数のカテゴリのなかから、取得部11により取得された画像情報に関連付けられた音情報が該当するカテゴリを判定する。音情報に関する複数のカテゴリは、音の発生源や発生原因との関連付けが可能な、当該音を分類するための概念であって、表示データ記憶部20に予め設定されている。   The category determination unit 12 determines a category to which the sound information associated with the image information acquired by the acquisition unit 11 corresponds, from among a plurality of categories related to sounds set in advance. The plurality of categories related to the sound information are concepts for classifying the sound that can be associated with the sound generation source and the cause of the sound, and are preset in the display data storage unit 20.

表示データ記憶部20は、表示データを記憶している記憶手段である。表示データ記憶部20に記憶されている表示データは、音情報により表される音を視覚的に表現するデータであって、例えば、擬音語のテキストデータ、擬音語を表す画像データ、音を表す記号や画像等であって、表示装置に表示されるためのデータである。   The display data storage unit 20 is a storage unit that stores display data. The display data stored in the display data storage unit 20 is data that visually represents the sound represented by the sound information. For example, the display data stores the onomatopoeia text data, the onomatopoeia image data, and the sound. Symbols, images, etc., which are data to be displayed on the display device.

図4は、表示データ記憶部20の構成及び記憶されているデータの例を示す図である。図4に示すように、表示データ記憶部20は、音情報に関するカテゴリ、及び、当該音情報が表す音の音量/対応する物体の動きの大きさに関連付けて表示データを記憶している。また、各カテゴリには、対応する物体が関連付けられている。対応する物体には、当該カテゴリに対応する任意の物体が記憶されているが、主に、当該カテゴリに対応する音情報の音の音源となる物体が記憶されている。   FIG. 4 is a diagram illustrating a configuration of the display data storage unit 20 and an example of stored data. As shown in FIG. 4, the display data storage unit 20 stores display data in association with a category related to sound information and the volume of sound represented by the sound information / the magnitude of movement of the corresponding object. In addition, a corresponding object is associated with each category. In the corresponding object, an arbitrary object corresponding to the category is stored, but an object that is a sound source of sound information corresponding to the category is mainly stored.

例えば、カテゴリ「咀嚼音」には、咀嚼音の音源である「口」が対応する物体として関連付けられている。また、カテゴリ「咀嚼音」には、音量/動きの大きさに応じた表示データ「もぐもぐ(mogu−mogu)」、「ぱくぱく(paku−paku)」、「ばくばく(baku−baku)」が関連付けられている。即ち、「もぐもぐ」、「ぱくぱく」、「ばくばく」は、咀嚼音を表す日本語表現であって、この順に音量または口の動きが大きくなる。   For example, in the category “mastication sound”, “mouth” which is a sound source of mastication sound is associated as a corresponding object. Further, display data “mogu-mogu”, “paku-paku”, and “baku-baku” corresponding to the volume / size of movement are associated with the category “chewing sound”. It has been. That is, “mogumogu”, “pakupaku”, and “bakubaku” are Japanese expressions representing masticatory sounds, and the volume or movement of the mouth increases in this order.

また、カテゴリ「風の音」には、風の強さが動きに反映される「木の枝」が対応する物体として関連付けられている。また、カテゴリ「風の音」には、音量/動きの大きさに応じた表示データ「そよそよ(soyo−soyo)」、「ビュービュー(byu−byu)」、「ゴー(gou)」が関連付けられている。即ち、「そよそよ」、「ビュービュー」、「ゴー」は、風の音を表す日本語表現であって、この順に音量または木の枝の動きが大きくなる。   Further, in the category “wind sound”, a “tree branch” in which the strength of the wind is reflected in the movement is associated with the corresponding object. The category “wind sound” is associated with display data “soyo-soyo”, “view-byu”, and “gou” corresponding to the volume / size of movement. . That is, “Soyoyo”, “View View”, and “Go” are Japanese expressions representing wind sounds, and the volume or the movement of the tree branches increases in this order.

また、カテゴリ「自動車のエンジン音」には、自動車のエンジン音の音源である「自動車」が対応する物体として関連付けられている。また、カテゴリ「自動車のエンジン音」には、音量/動きの大きさに応じた表示データ「BRRR」、「BRRRRRR」が関連付けられている。   Further, the category “automobile engine sound” is associated with “automobile” which is a sound source of the engine sound of the automobile as a corresponding object. Further, display data “BRRR” and “BRRRRRRR” corresponding to the volume / size of motion are associated with the category “automobile engine sound”.

具体的には、カテゴリ判定部12は、まず、取得部11により取得された画像情報に関連付けられた音情報を取得する。続いて、カテゴリ判定部12は、当業者に周知の音声処理技術により、音情報から所定の音声を抽出及び取得してもよい。カテゴリ判定部12は、例えば、音情報から人の声を除去して環境音を取得してもよい。また、カテゴリ判定部12は、ユーザが発声した音声を取得してもよい。また、カテゴリ判定部12は、音情報に含まれる全ての音声を抽出してもよい。音情報から抽出及び取得する音声は、例えば予め設定されていてもよい。音情報から所定の音を抽出する処理は、周知の音声処理技術により当業者が実施可能であるので、詳細な説明を省略する。続いて、カテゴリ判定部12は、取得した音をフーリエ変換し各周波数成分を取得する。   Specifically, the category determination unit 12 first acquires sound information associated with the image information acquired by the acquisition unit 11. Subsequently, the category determination unit 12 may extract and acquire a predetermined sound from the sound information by a sound processing technique well known to those skilled in the art. For example, the category determination unit 12 may obtain an environmental sound by removing a human voice from the sound information. Moreover, the category determination part 12 may acquire the voice uttered by the user. The category determination unit 12 may extract all sounds included in the sound information. The sound extracted and acquired from the sound information may be set in advance, for example. The process of extracting a predetermined sound from the sound information can be performed by those skilled in the art using a well-known sound processing technique, and thus detailed description thereof is omitted. Subsequently, the category determination unit 12 performs Fourier transform on the acquired sound to acquire each frequency component.

カテゴリ判定部12は、周波数成分を正規化し、SVM(Support Vector Machine)に入力して、カテゴリに分類する。SVMは教師あり学習を用いるパターン認識モデルの一つである。SVMでは、例えば、咀嚼音、風の音、波の音、雨の音、ガラスが割れた音、物が落ちた音、サイレン、インターフォンのチャイム、子供の泣き声、缶や瓶の開栓音等の音をクラスとして分類、記憶する。カテゴリ判定部12は、取得した音の周波数成分の、カテゴリに対応する各クラスの所属確率を算出し、一定以上の確率が算出されたクラスに当該音を分類する。なお、SVMによる音の分類は、当業者に周知な技術及び通常に有する知見により可能であるので、更なる詳細な説明は省略する。カテゴリ判定部12は、取得した音が、例えば咀嚼音であることを判定する(図4参照)。   The category determination unit 12 normalizes the frequency component, inputs it to an SVM (Support Vector Machine), and classifies it into a category. SVM is one of pattern recognition models using supervised learning. In SVM, for example, chewing sounds, wind sounds, wave sounds, rain sounds, broken glass sounds, falling objects, sirens, intercom chimes, children's crying sounds, opening sounds of cans and bottles Is classified and stored as a class. The category determination unit 12 calculates the belonging probability of each class corresponding to the category of the frequency components of the acquired sound, and classifies the sound into a class for which a certain probability or more is calculated. Note that sound classification by SVM is possible based on techniques well-known to those skilled in the art and knowledge that is commonly possessed, and thus further detailed description is omitted. The category determination unit 12 determines that the acquired sound is, for example, a mastication sound (see FIG. 4).

選択生成部13は、カテゴリ判定部12により判定されたカテゴリに基づいて、音情報に対応する表示データを選択または生成する。本実施形態では、選択生成部13は、表示データ記憶部20に記憶された1または複数の表示データから、少なくとも1以上の表示データを選択する。例えば、カテゴリ判定部12により、音情報が該当するカテゴリが「咀嚼音」であることが判定された場合には、選択生成部13は、表示データ記憶部20において、カテゴリ「咀嚼音」に関連付けられた表示データ「もぐもぐ」,「ぱくぱく」,「ばくばく」のうち、「もぐもぐ」を選択する。なお、ここでは、例として、3つの表示データのうちのデフォルトとして「もぐもぐ」が選択されることとするが、複数の表示データから1つまたは複数の表示データを選択する選択処理については後述する。   The selection generation unit 13 selects or generates display data corresponding to the sound information based on the category determined by the category determination unit 12. In the present embodiment, the selection generation unit 13 selects at least one or more display data from one or more display data stored in the display data storage unit 20. For example, when the category determination unit 12 determines that the category to which the sound information corresponds is “mastication sound”, the selection generation unit 13 associates with the category “mastication sound” in the display data storage unit 20. Of the displayed display data “mogumogu”, “pakupaku”, “bakubaku”, “mogumogu” is selected. Here, as an example, “mumbling” is selected as the default of the three display data, but selection processing for selecting one or a plurality of display data from a plurality of display data will be described later. .

なお、選択生成部13は、カテゴリに基づいて、表示データ記憶部20に記憶された表示データと同様の、音情報に対応する表示データを生成することとしてもよい。選択生成部13は、例えば、音情報から抽出した音声の大きさ、当該音声に対応する物体の動きの大きさ等に基づいて決定したテキスト、文字の大きさ及び表示態様等を有する文字画像データを表示データとして生成することができる。   In addition, the selection production | generation part 13 is good also as producing | generating the display data corresponding to sound information similar to the display data memorize | stored in the display data memory | storage part 20 based on a category. The selection generation unit 13 is, for example, character image data having text, character size, display mode, and the like determined based on the size of the sound extracted from the sound information, the size of the movement of the object corresponding to the sound, etc. Can be generated as display data.

判断部14は、所定の判断材料情報に基づいて表示データを選択または生成するか否かを判断する。具体的には、判断部14は、相手方の端末TBに音として伝達すべき音情報については、その音情報に対応する表示データを選択または生成すると判断しない。一方、判断部14は、相手方の端末TBに音として伝達することが不適切な音情報については、その音情報に対応する表示データを選択または生成すると判断する。選択生成部13は、判断部14により表示データを選択または生成すると判断された場合に、表示データの選択または生成を実施する。   The determination unit 14 determines whether to select or generate display data based on predetermined determination material information. Specifically, the determination unit 14 does not determine to select or generate display data corresponding to sound information that should be transmitted as sound to the other party's terminal TB. On the other hand, the determination unit 14 determines to select or generate display data corresponding to sound information that is inappropriate to be transmitted as sound to the other party's terminal TB. The selection generation unit 13 selects or generates display data when the determination unit 14 determines to select or generate display data.

表示データを選択または生成の判断に関する所定の判断材料情報は、例えば、ユーザにより予め設定された情報である。例えば、表示制御装置10が、表示データの選択または生成の要否をカテゴリごとに予め設定した判断材料情報を記憶しており(例えば表示データ記憶部20に記憶される)、判断部14は、予め設定された判断材料情報を参照して表示データの選択または生成の要否を判断してもよい。   The predetermined determination material information regarding the determination of selection or generation of display data is information preset by the user, for example. For example, the display control device 10 stores determination material information in which the necessity of selection or generation of display data is preset for each category (for example, stored in the display data storage unit 20). The necessity of selection or generation of display data may be determined with reference to predetermined determination material information.

また、画像情報がユーザの表情を表した画像を含む場合において、判断部14は、画像情報に含まれる画像におけるユーザの表情に基づいて、表示データを選択または生成するか否かを判断してもよい。即ち、所定の判断材料情報は、ユーザの表情を表す画像であってもよい。具体的には、例えば、判断部14は、ユーザの表情の解析により、ユーザが不快感を持っていると判断した場合に、表示データを選択または生成することを判断する。即ち、判断部14は、ユーザの表情に基づいて、発生している音が不快音であることを判定した場合に、当該音に対応する表示データを選択または生成することを判断する。   When the image information includes an image representing the facial expression of the user, the determination unit 14 determines whether to select or generate display data based on the facial expression of the user in the image included in the image information. Also good. That is, the predetermined determination material information may be an image representing the user's facial expression. Specifically, for example, the determination unit 14 determines to select or generate display data when the user's facial expression is analyzed to determine that the user is uncomfortable. That is, when determining that the generated sound is an unpleasant sound based on the user's facial expression, the determining unit 14 determines to select or generate display data corresponding to the sound.

ユーザが不快感を持っているか否かは、例えば、ユーザの口、眉及び眼等の形状のゆがみに基づいて判断することが可能であり、例えば、周知の顔画像解析の手法(A Method for Measuring Comfortableness/uncomfortableness of Human by Analyzing Facial、http://ci.nii.ac.jp/naid/110004820683/)を適用できる。   Whether or not the user is uncomfortable can be determined based on, for example, distortion of the shape of the user's mouth, eyebrows, eyes, and the like. For example, a well-known face image analysis method (A Method for Measuring Comfortableness / uncomfortableness of Human by Analyzing Facial, http://ci.nii.ac.jp/naid/110004820683/) can be applied.

また、判断部14は、音情報における、ある音が発生している時間と、画像情報における、ユーザが不快感をもっていることを示す表情を検知した時間とが、一定時間以上一致した場合に、当該音が不快音であることを判断し、その音に対応するカテゴリが不快音に対応するカテゴリであることを表示データ記憶部20に記憶させる。そして、その判断の後に、同様のカテゴリに分類される音情報が取得された場合には、判断部14は、当該音に対応する表示データを選択または生成することを判断する。   In addition, when the determination unit 14 matches the time when a certain sound is generated in the sound information and the time when the facial expression indicating that the user has an uncomfortable feeling in the image information matches a certain time or more, It is determined that the sound is an unpleasant sound, and the display data storage unit 20 stores that the category corresponding to the sound is a category corresponding to the unpleasant sound. If sound information classified into the same category is acquired after the determination, the determination unit 14 determines to select or generate display data corresponding to the sound.

関連付け部15は、表示データを音情報に代えて画像情報に関連付ける。具体的には、関連付け部15は、選択生成部13により選択または生成された表示データを、予め関連付けられていた音情報に代えて、画像情報に関連付ける。即ち、画像情報に関連付けられていた音情報は削除される。このように表示データを画像情報に関連付けると共に音情報を削除することにより、画像情報における音から得られる情報の量を不足させることなく、画像情報のデータ量が削減される。これにより、例えば画像情報の送信に際しての通信負荷が軽減される。   The associating unit 15 associates display data with image information instead of sound information. Specifically, the associating unit 15 associates the display data selected or generated by the selection generating unit 13 with the image information instead of the previously associated sound information. That is, the sound information associated with the image information is deleted. By associating the display data with the image information and deleting the sound information in this way, the data amount of the image information is reduced without deficient in the amount of information obtained from the sound in the image information. Thereby, for example, the communication load when transmitting image information is reduced.

表示制御部16は、関連付け部15により画像情報に関連付けられた表示データを、画像情報により表される画像と共に表示装置に表示させる。例えば、表示制御部16は、関連付け部15により画像情報に関連付けられた表示データを、画像情報により表される画像に重畳して表示装置Dに表示させてもよい。図5は、表示制御部16により表示される画面の例を示す図である。   The display control unit 16 causes the display device to display the display data associated with the image information by the association unit 15 together with the image represented by the image information. For example, the display control unit 16 may cause the display device D to display the display data associated with the image information by the associating unit 15 on the image represented by the image information. FIG. 5 is a diagram illustrating an example of a screen displayed by the display control unit 16.

図5に示すように、取得部11により取得された画像情報は、端末TAのユーザを撮像した動画像を含んでいるので、表示制御部16は、端末TAのユーザの動画像を端末TBの表示装置Dに表示させる。そして、表示制御部16は、選択生成部13により選択された表示データT1「もぐもぐ」を端末TAのユーザの動画像に重畳して表示させる。   As illustrated in FIG. 5, the image information acquired by the acquisition unit 11 includes a moving image obtained by capturing the user of the terminal TA. Therefore, the display control unit 16 displays the moving image of the user of the terminal TA on the terminal TB. Display on display device D. Then, the display control unit 16 causes the display data T1 “mogumogu” selected by the selection generation unit 13 to be displayed superimposed on the moving image of the user of the terminal TA.

このように、表示データが表示装置Dに表示されることにより、端末TAにおいて取得された環境音が端末TBにおいて視覚的に表現される。従って、端末TBのユーザにおいて、環境音を認識することが容易となる。また、端末TAにおいて取得された音声信号をリアルタイムで端末TBに伝送することと比較して、伝送にかかるリソースの削減が可能となる。   In this way, the display data is displayed on the display device D, whereby the environmental sound acquired at the terminal TA is visually expressed at the terminal TB. Therefore, it becomes easy for the user of the terminal TB to recognize the environmental sound. Further, compared to transmitting the audio signal acquired at the terminal TA to the terminal TB in real time, it is possible to reduce resources for transmission.

なお、図5を参照して説明した例では、表示データが音情報に示される音を視覚的に表現する画像データであって、表示制御部16が、画像データ(表示データ)を相手方の端末TBに送信し、端末TBの表示装置Dに画像データを表示させることとしている。これに対して、以下に説明する態様では、画像データに代えて、画像データに関連付けられた識別データが端末TBに対して送信されることにより、表示装置Dにおける画像データの表示が実現されることとしてもよい。即ち、画像情報に関連付けられる表示データが、画像データではなく、画像データに予め関連付けられた識別データであってもよい。   In the example described with reference to FIG. 5, the display data is image data that visually represents the sound indicated by the sound information, and the display control unit 16 transmits the image data (display data) to the counterpart terminal. The image data is transmitted to the TB and displayed on the display device D of the terminal TB. On the other hand, in the mode described below, display of image data on the display device D is realized by transmitting identification data associated with the image data to the terminal TB instead of the image data. It is good as well. That is, the display data associated with the image information may be identification data associated in advance with the image data instead of the image data.

具体的には、この態様では、表示制御部16が端末TBに構成される。関連付け部15は、カテゴリ判定部12により判定されたカテゴリに基づいて選択生成部13により選択された表示データに対応し、音情報により示される音を表現する画像データに予め関連付けられた識別データを画像情報に関連付ける。そして、関連付け部15は、識別データが関連付けられた画像情報を端末TBに送信する。端末TBは、識別データと画像データとの関連付けを予め記憶している。そして、端末TBに構成された表示制御部16は、識別データに関連付けられた画像データを、表示装置Dに表示させる。   Specifically, in this aspect, the display control unit 16 is configured in the terminal TB. The associating unit 15 corresponds to the display data selected by the selection generating unit 13 based on the category determined by the category determining unit 12, and the identification data associated in advance with the image data representing the sound indicated by the sound information. Associate with image information. Then, the associating unit 15 transmits the image information associated with the identification data to the terminal TB. The terminal TB stores an association between identification data and image data in advance. Then, the display control unit 16 configured in the terminal TB causes the display device D to display image data associated with the identification data.

この態様によれば、音を視覚的に表現する画像データに予め関連付けられた識別データが画像情報に関連付けられ、画像情報を受信した端末において、画像データが表示装置に表示される。これにより、画像データを識別する識別データが画像情報に関連付けられて送信されるので、画像を表す画像データが画像情報に関連付けられて送信される場合に比べて通信負荷が軽減される。   According to this aspect, the identification data previously associated with the image data that visually represents the sound is associated with the image information, and the image data is displayed on the display device at the terminal that has received the image information. As a result, the identification data for identifying the image data is transmitted in association with the image information, so that the communication load is reduced compared to the case in which the image data representing the image is transmitted in association with the image information.

次に、表示データの選択の例について説明する。選択生成部13は、取得部11により取得された音情報の特性に基づいて、特性ごとに関連付けられている複数の表示データのうちの少なくとも1以上の表示データを選択することとしてもよい。音情報の特性は、例えば、音量、周波数の高さ等である。   Next, an example of selection of display data will be described. The selection generation unit 13 may select at least one or more display data from among a plurality of display data associated with each characteristic based on the characteristic of the sound information acquired by the acquisition unit 11. The characteristics of the sound information are, for example, volume and frequency height.

具体的には、選択生成部13は、カテゴリ判定部12により判定されたカテゴリに対応付けられている複数の表示データであって、音量に関連付けられている複数の表示データの中から、音情報の音量等の特性に基づいて、1以上の表示データを選択する。図4に示した表示データ記憶部20では、例えば、咀嚼音の音量に応じて3つの表示データがそれぞれ関連付けて記憶されている。選択生成部13は、音情報の音量の大小を所定の閾値に基づいて判定する。そして、選択生成部13は、判定した音量に関連付けられている表示データを選択する。ここでは、選択生成部13が、音情報の音量が中程度であることを判定したこととする。   Specifically, the selection generation unit 13 is a plurality of display data associated with the category determined by the category determination unit 12, and the sound information is selected from the plurality of display data associated with the volume. One or more display data is selected on the basis of the characteristics such as the volume. In the display data storage unit 20 shown in FIG. 4, for example, three display data are stored in association with each other according to the volume of the mastication sound. The selection generation unit 13 determines the volume level of the sound information based on a predetermined threshold. And the selection production | generation part 13 selects the display data linked | related with the determined sound volume. Here, it is assumed that the selection generation unit 13 determines that the volume of the sound information is medium.

この場合には、選択生成部13は、表示データ「ぱくぱく」を選択する。そして、関連付け部15は、表示データ「ぱくぱく」を音情報に代えて画像情報に関連付ける。図6は、かかる場合において表示される画面の例を示す図である。図6に示すように、表示制御部16は、関連付け部15により画像情報に関連付けられた表示データT2「ぱくぱく」を、端末TAのユーザの動画像に重畳して、端末TBの表示装置Dに表示させる。   In this case, the selection generation unit 13 selects the display data “Pakupaku”. Then, the associating unit 15 associates the display data “Pakupaku” with the image information instead of the sound information. FIG. 6 is a diagram illustrating an example of a screen displayed in such a case. As shown in FIG. 6, the display control unit 16 superimposes the display data T2 “Pakpaku” associated with the image information by the associating unit 15 on the moving image of the user of the terminal TA, and displays it on the display device D of the terminal TB. Display.

このように、音情報の特性ごとに態様が異なる表示データを予め関連付けておくことにより、音情報の特性に応じた表示データが選択される。これにより、音情報の特性が反映された表示データを表示装置に表示させることができる。従って、表示装置に表示された表示データにより音情報の特性を表現することが可能となる。なお、音情報の特性が動的に変化した場合には、その変化に応じて、選択生成部13が選択する表示データを動的に変更し、表示制御部16が変更された表示データを表示装置Dに表示させることとしてもよい。また、選択生成部13は、音情報により示される音の特性に基づいて、表示データ記憶部20に記憶された表示データを選択することに代えて、音の特性に応じた表示データを生成することとしてもよい。   In this way, display data corresponding to the characteristics of the sound information is selected by associating display data having a different aspect for each characteristic of the sound information in advance. Thereby, the display data in which the characteristic of the sound information is reflected can be displayed on the display device. Therefore, it is possible to express the characteristics of the sound information by the display data displayed on the display device. In addition, when the characteristic of sound information changes dynamically, according to the change, the display data which the selection production | generation part 13 selects are changed dynamically, and the display control part 16 displays the changed display data. It may be displayed on the device D. The selection generation unit 13 generates display data corresponding to the sound characteristics instead of selecting the display data stored in the display data storage unit 20 based on the sound characteristics indicated by the sound information. It is good as well.

次に、図7を参照して、表示制御部16による表示データの表示制御の例を説明する。表示制御部16は、音情報の特性に基づいて、選択生成部13により選択された表示データの表示態様を変化させることとしてもよい。   Next, an example of display control of display data by the display control unit 16 will be described with reference to FIG. The display control part 16 is good also as changing the display mode of the display data selected by the selection production | generation part 13 based on the characteristic of sound information.

具体的には、例えば、表示制御部16は、取得部11により取得された音情報の音量を判断する。表示制御部16は、所定の閾値に基づいて音量の大小を段階的に判断してもよいし、音量値を測定してもよい。ここでは、選択生成部13により表示データ「もぐもぐ」が選択されたとすると、表示制御部16は、図7に示すように、判断した音情報の音量に基づいて、表示データの表示態様の1つである大きさを、図5に比べてより大きく変化させて、表示データT3「もぐもぐ」を表示させる。   Specifically, for example, the display control unit 16 determines the volume of the sound information acquired by the acquisition unit 11. The display control unit 16 may determine the volume level stepwise based on a predetermined threshold value, or may measure the volume value. Here, assuming that the display data “mogumogu” is selected by the selection generation unit 13, the display control unit 16 displays one of the display modes of the display data based on the volume of the determined sound information as shown in FIG. The display data T3 “mogumogu” is displayed by changing the size of the display data T3 more greatly than in FIG.

なお、特性に基づく表示態様の変化のさせ方は、例えば予め設定されている。また、表示制御部16は、音量だけではなく、周波数に基づいて表示データの表示態様を変化させてもよい。また、図7に示した例のように表示データの大きさを変化させることの他に、表示制御部16は、表示データのフォント、色、表示位置を変化させてもよい。また、表示制御部16は、音情報の特性に基づいて、表示データを繰り返して表示させてもよい。   In addition, how to change the display mode based on the characteristics is set in advance, for example. Moreover, the display control part 16 may change the display mode of display data based not only on a sound volume but on a frequency. In addition to changing the size of the display data as in the example shown in FIG. 7, the display control unit 16 may change the font, color, and display position of the display data. Further, the display control unit 16 may repeatedly display the display data based on the characteristics of the sound information.

このように本実施形態では、音情報の特性に応じて変化された表示データを表示装置に表示させることができる。従って、表示装置に表示された表示データにより音情報の特性を表現することが可能となる。また、この形態によれば、特性に応じた変化させた表示データを予め記憶しておく必要がないので、処理リソースの削減が可能となる。なお、音情報の特性が動的に変化した場合には、その変化に応じて、表示制御部16が表示データの表示態様を動的に変化させることとしてもよい。   As described above, in the present embodiment, the display data changed according to the characteristics of the sound information can be displayed on the display device. Therefore, it is possible to express the characteristics of the sound information by the display data displayed on the display device. Further, according to this embodiment, it is not necessary to store display data changed in accordance with characteristics in advance, so that processing resources can be reduced. In addition, when the characteristic of sound information changes dynamically, the display control part 16 is good also as changing the display mode of display data dynamically according to the change.

次に、画像中の物体に基づく表示データの選択の例について説明する。選択生成部13は、カテゴリ判定部12により判定されたカテゴリに対応する物体を画像中から特定し、その物体の態様及び位置の少なくとも1つに基づいて、カテゴリごとに関連付けられている複数の表示データのうちの少なくとも1以上の表示データを選択することとしてもよい。図8は、かかる表示データの選択処理を説明するための画像及び表示データの表示の例を示す図である。   Next, an example of selection of display data based on an object in an image will be described. The selection generation unit 13 identifies an object corresponding to the category determined by the category determination unit 12 from the image, and a plurality of displays associated with each category based on at least one of the form and position of the object It is good also as selecting at least 1 or more display data of data. FIG. 8 is a diagram illustrating an example of display of an image and display data for explaining the display data selection processing.

具体的には、カテゴリ判定部12により、音情報が該当するカテゴリが「風の音」であることが判定された場合に、選択生成部13は、表示データ記憶部20(図4参照)において、カテゴリ「風の音」に対応する物体「木の枝」を取得し、画像V4から木の枝を表す物体Ob4を特定する。なお、画像中からの所定の物体の特定は、例えばパターンマッチング等の周知の画像処理技術により可能である。   Specifically, when the category determination unit 12 determines that the category to which the sound information corresponds is “wind sound”, the selection generation unit 13 displays the category in the display data storage unit 20 (see FIG. 4). The object “tree branch” corresponding to “wind sound” is acquired, and the object Ob4 representing the tree branch is specified from the image V4. The predetermined object can be specified from the image by a known image processing technique such as pattern matching.

選択生成部13は、物体Ob4の態様及び位置の少なくとも1つを判定する。ここでは、選択生成部13は、物体の態様として、物体Ob4(木の枝)の動きの大きさを取得する。なお、画像中の物体の動きの大きさの取得も、周知の画像処理技術により可能である。選択生成部13は、物体Ob4の動きの大きさを所定の閾値に基づいて判定する。そして、選択生成部13は、表示データ記憶部20において、判定した動きの大きさに関連付けられている表示データを選択する。ここでは、選択生成部13が、例えば、物体Ob4の動きの大きさが中程度であることを判定して、その動きの大きさに対応する表示データT4「ビュービュー」を選択する。そして、関連付け部15は、表示データT4「ビュービュー」を音情報に代えて画像情報に関連付ける。図8に示すように、表示制御部16は、関連付け部15により画像情報に関連付けられた表示データT4「ビュービュー」を、端末TAのユーザの動画像に重畳して、端末TBの表示装置Dに表示させる。   The selection generation unit 13 determines at least one of the aspect and position of the object Ob4. Here, the selection generation unit 13 acquires the magnitude of the movement of the object Ob4 (tree branch) as the form of the object. Note that the magnitude of the movement of an object in an image can also be acquired by a known image processing technique. The selection generation unit 13 determines the magnitude of the movement of the object Ob4 based on a predetermined threshold. And the selection production | generation part 13 selects the display data linked | related with the magnitude | size of the determined motion in the display data memory | storage part 20. FIG. Here, for example, the selection generation unit 13 determines that the magnitude of the movement of the object Ob4 is medium, and selects the display data T4 “view view” corresponding to the magnitude of the movement. Then, the associating unit 15 associates the display data T4 “view view” with the image information instead of the sound information. As shown in FIG. 8, the display control unit 16 superimposes the display data T4 “view view” associated with the image information by the association unit 15 on the moving image of the user of the terminal TA, and displays the display device D of the terminal TB. To display.

このように、カテゴリに対応する物体の態様等には、音情報の特性が反映されている場合があることを考慮して、カテゴリに対応する物体の態様等ごとに異なる表示データを予め関連付けておくことにより、物体の態様等に応じた表示データが選択される。これにより、環境音の特性が反映された表示データを表示装置に表示させることができる。従って、表示装置に表示された表示データにより環境音の特性を表現することが可能となる。また、選択生成部13は、カテゴリ判定部12により判定されたカテゴリに対応する物体を画像中から特定し、その物体の態様及び位置の少なくとも1つに基づいて、表示データ記憶部20に記憶された表示データを選択することに代えて、物体の態様及び位置の少なくとも1つに応じた表示データを生成することとしてもよい。   As described above, in consideration of the fact that the characteristics of the sound information may be reflected in the aspect of the object corresponding to the category, different display data is associated in advance for each aspect of the object corresponding to the category. Thus, display data corresponding to the form of the object is selected. Thereby, the display data reflecting the characteristic of the environmental sound can be displayed on the display device. Therefore, it is possible to express the characteristics of the environmental sound by the display data displayed on the display device. Further, the selection generation unit 13 specifies an object corresponding to the category determined by the category determination unit 12 from the image, and is stored in the display data storage unit 20 based on at least one of the form and position of the object. Instead of selecting the displayed display data, display data corresponding to at least one of the form and position of the object may be generated.

また、表示制御部16は、カテゴリ判定部12により判定されたカテゴリに対応する物体を画像中から特定し、その物体の態様及び位置の少なくとも1つに基づいて、選択生成部13により選択された表示データの表示態様を変更させることとしてもよい。   In addition, the display control unit 16 identifies an object corresponding to the category determined by the category determination unit 12 from the image, and is selected by the selection generation unit 13 based on at least one of the form and position of the object. The display mode of the display data may be changed.

具体的には、例えば、カテゴリ判定部12により、環境音が該当するカテゴリが「風の音」であることが判定され、選択生成部13により表示データ「ビュービュー」が選択された場合に、表示制御部16は、表示データ記憶部20(図4参照)において、カテゴリ「風の音」に対応する物体「木の枝」を取得し、画像情報により表される画像中から木の枝を表す物体を特定する。そして、表示制御部16は、物体の態様及び位置の少なくとも1つを判定する。ここでは、表示制御部16は、物体の態様として、物体(木の枝)の動きの大きさを取得する。そして、表示制御部16は、取得した物体の動きの大きさに基づいて表示態様の1つである大きさを変更させた表示データ「ビュービュー」を、端末TAのユーザの動画像に重畳して、端末TBの表示装置Dに表示させる。   Specifically, for example, when the category determination unit 12 determines that the category to which the environmental sound corresponds is “wind sound” and the selection generation unit 13 selects the display data “view view”, the display control is performed. The unit 16 acquires an object “tree branch” corresponding to the category “wind sound” in the display data storage unit 20 (see FIG. 4), and identifies an object representing a tree branch from the image represented by the image information. To do. Then, the display control unit 16 determines at least one of the aspect and position of the object. Here, the display control unit 16 acquires the magnitude of the movement of the object (tree branch) as the form of the object. Then, the display control unit 16 superimposes the display data “view view” in which the size, which is one of the display modes, is changed based on the acquired size of the movement of the object on the moving image of the user of the terminal TA. Display on the display device D of the terminal TB.

なお、特性に基づく表示態様の変化のさせ方は、例えば予め設定されている。また、表示データの大きさを変化させることに他に、表示制御部16は、表示データのフォント、色、表示位置を変化させてもよい。また、表示制御部16は、環境音の特性に基づいて、表示データを繰り返して表示させてもよい。   In addition, how to change the display mode based on the characteristics is set in advance, for example. In addition to changing the size of the display data, the display control unit 16 may change the font, color, and display position of the display data. The display control unit 16 may repeatedly display the display data based on the environmental sound characteristics.

このように、カテゴリに対応する物体の態様等には、音情報の特性が反映されている場合があることを考慮して、物体の態様等に応じて変更された表示態様を有する表示データを表示装置に表示させることにより、表示装置に表示された表示データにより音情報の特性を表現することが可能となる。   Thus, in consideration of the fact that the characteristics of sound information may be reflected in the object mode corresponding to the category, display data having a display mode changed according to the object mode or the like By displaying on the display device, the characteristics of the sound information can be expressed by the display data displayed on the display device.

また、表示制御部16は、画像中におけるカテゴリに対応する物体の態様及び位置の少なくとも1つの変化に基づいて、前記選択手段により選択された表示データの表示態様を動的に変化させることとしてもよい。   Further, the display control unit 16 may dynamically change the display mode of the display data selected by the selection unit based on at least one change in the mode and position of the object corresponding to the category in the image. Good.

図9は、表示データを動的に変化させる表示制御の例を説明する図である。図9は、取得部11により取得された画像情報により表される動画像MV5を示しており、自動車を表す物体Ob51が、物体Ob52に示される位置に移動する様子が表されている。   FIG. 9 is a diagram illustrating an example of display control that dynamically changes display data. FIG. 9 shows a moving image MV5 represented by the image information acquired by the acquisition unit 11, and shows a state in which an object Ob51 representing a car moves to a position indicated by the object Ob52.

この例では、まず、カテゴリ判定部12が、図9に示される画像を表す画像情報に含まれる環境音が、カテゴリ「自動車のエンジン音」に該当することを判定する。そして、選択生成部13が、カテゴリ「自動車のエンジン音」に関連付けられた表示データ「BRRR」を選択する。なお、この選択に際して、選択生成部13は、環境音の音量に基づいて複数の表示データのうちの1つの表示データを選択することとしてもよいし、所定のデフォルトの表示データを選択することとしてもよい。関連付け部15は、表示データ「BRRR」を音情報に代えて画像情報に関連付ける。   In this example, first, the category determination unit 12 determines that the environmental sound included in the image information representing the image shown in FIG. 9 corresponds to the category “automobile engine sound”. Then, the selection generation unit 13 selects the display data “BRRR” associated with the category “automobile engine sound”. In this selection, the selection generation unit 13 may select one display data among a plurality of display data based on the volume of the environmental sound, or may select predetermined default display data. Also good. The associating unit 15 associates the display data “BRRR” with the image information instead of the sound information.

表示制御部16は、カテゴリ「自動車のエンジン音」に対応する物体「自動車」を、MV5から特定する。即ち、表示制御部16は、物体Ob51を特定する。ここで、表示制御部16は、画像中における、カテゴリ判定部12により判定されたカテゴリに対応する位置に関連付けて表示データを表示させる。具体的には、表示制御部16は、表示データT51「BRRR」を、カテゴリ「自動車のエンジン音」に対応する物体「自動車」が表された位置である物体Ob51の表示位置に関連付けて表示させる。   The display control unit 16 specifies the object “car” corresponding to the category “car engine sound” from the MV 5. That is, the display control unit 16 specifies the object Ob51. Here, the display control unit 16 displays the display data in association with the position corresponding to the category determined by the category determination unit 12 in the image. Specifically, the display control unit 16 displays the display data T51 “BRRR” in association with the display position of the object Ob51, which is the position where the object “car” corresponding to the category “car engine sound” is represented. .

続いて、動画像MV5において、物体Ob52に示される位置に自動車が移動すると、表示制御部16は、物体Ob52の表示位置に関連付けて、表示データT52「BRRR」を表示させる。また、表示制御部16は、物体Ob51,Ob52の位置及び大きさの変化に基づいて、表示サイズを大きく変化させた表示データT52「BRRR」を表示させる。   Subsequently, when the automobile moves to the position indicated by the object Ob52 in the moving image MV5, the display control unit 16 displays the display data T52 “BRRR” in association with the display position of the object Ob52. In addition, the display control unit 16 displays the display data T52 “BRRR” in which the display size is largely changed based on the change in the position and size of the objects Ob51 and Ob52.

このように、図9を参照して説明した例によれば、画像情報により表される動画像に含まれる物体の態様等の変化に応じて、表示データを動的に変化させながら表示装置に表示させることができる。従って、表示装置に表示された表示データにより音情報の特性の動的な変化を表現することが可能となる。また、音情報のカテゴリに、その音情報に示される音の発生源となる物の情報を関連付けておくことにより、画像中におけるその物が表された位置に表示データを表示させることができる。これにより、音情報の音が何の音であるか、より容易に認識することができる。   As described above, according to the example described with reference to FIG. 9, the display data is dynamically changed in accordance with the change in the aspect of the object included in the moving image represented by the image information. Can be displayed. Therefore, it is possible to express a dynamic change in the characteristics of the sound information by the display data displayed on the display device. Further, by associating the sound information category with the information of the object that is the source of the sound indicated by the sound information, the display data can be displayed at the position where the object is represented in the image. Thereby, it is possible to more easily recognize what the sound of the sound information is.

なお、動画像中の物体の位置の変化、特に画像の奥行き方向の物体の位置の変化は、端末TAにおいて画像を取得するためのカメラCを、例えば、RGB−Dカメラにより構成することにより、容易に取得できる。RGB−Dカメラは、深さ情報を伴う画像を取得できる。   The change in the position of the object in the moving image, in particular, the change in the position of the object in the depth direction of the image can be obtained by configuring the camera C for acquiring an image in the terminal TA by, for example, an RGB-D camera. Can be acquired easily. The RGB-D camera can acquire an image with depth information.

また、動画像中の物体の位置が、画像中における奥の位置から手前に移動した場合において、音量の変化がない場合であっても、物体が手前に移動したときに、表示制御部16は、表示データを大きく強調して表示させてもよい。   In addition, when the position of the object in the moving image moves forward from the back position in the image, even when the volume does not change, the display control unit 16 does not change when the object moves forward. The display data may be displayed with great emphasis.

また、動画像中の物体の位置が、画像中における奥の位置であるか、手間であるかに基づいて、表示データの表示態様が補正されることとしてもよい。例えば、物体が画像中の奥に位置している場合には、当該物体を音源とする音の音量は相対的に小さい。このような場合に、表示制御部16は、音量の小ささを補正するように、表示データの表示サイズ相対的に大きくして表示させることとしてもよい。   Further, the display mode of the display data may be corrected based on whether the position of the object in the moving image is a back position in the image or is troublesome. For example, when an object is located in the back of the image, the volume of sound using the object as a sound source is relatively low. In such a case, the display control unit 16 may display the display data with a relatively large display size so as to correct the volume level.

次に、図10を参照して、本実施形態の表示制御装置10の動作について説明する。図10は、表示制御装置10において実施される表示制御方法の処理内容を示すフローチャートである。   Next, the operation of the display control apparatus 10 of this embodiment will be described with reference to FIG. FIG. 10 is a flowchart showing the processing contents of the display control method implemented in the display control apparatus 10.

まず、取得部11は、画像を表す画像情報であって、音情報が関連付けられた画像情報を取得する(S1)。続いて、カテゴリ判定部12は、予め設定された音に関する複数のカテゴリのなかから、取得部11により取得された画像情報に関連付けられた音情報が該当するカテゴリを判定する(S2)。   First, the acquisition unit 11 acquires image information representing an image and associated with sound information (S1). Subsequently, the category determination unit 12 determines a category to which the sound information associated with the image information acquired by the acquisition unit 11 falls within a plurality of categories related to the sound set in advance (S2).

次に、選択生成部13は、ステップS2において判定されたカテゴリに基づいて、音情報に対応する表示データを選択または生成する(S3)。そして、関連付け部15は、ステップS3において選択生成部13により選択された表示データを、音情報に代えて画像情報に関連付ける(S4)。   Next, the selection generation unit 13 selects or generates display data corresponding to the sound information based on the category determined in step S2 (S3). Then, the associating unit 15 associates the display data selected by the selection generating unit 13 in step S3 with the image information instead of the sound information (S4).

次に、図11を参照して、コンピュータを表示制御装置10として機能させるための表示制御プログラムを説明する。表示制御プログラムp1は、メインモジュールm10、取得モジュールm11、カテゴリ判定モジュールm12、選択生成モジュールm13、判断モジュールm14、関連付けモジュールm15及び表示制御モジュールm16を備える。   Next, a display control program for causing a computer to function as the display control apparatus 10 will be described with reference to FIG. The display control program p1 includes a main module m10, an acquisition module m11, a category determination module m12, a selection generation module m13, a determination module m14, an association module m15, and a display control module m16.

メインモジュールm10は、表示制御処理を統括的に制御する部分である。取得モジュールm11、カテゴリ判定モジュールm12、選択生成モジュールm13、判断モジュールm14、関連付けモジュールm15及び表示制御モジュールm16を実行することにより実現される機能はそれぞれ、図1に示される表示制御装置10の取得部11、カテゴリ判定部12、選択生成部13、判断部14、関連付け部15及び表示制御部16の機能と同様である。   The main module m10 is a part that performs overall control of display control processing. Functions realized by executing the acquisition module m11, the category determination module m12, the selection generation module m13, the determination module m14, the association module m15, and the display control module m16 are each an acquisition unit of the display control apparatus 10 illustrated in FIG. 11, the functions of the category determination unit 12, the selection generation unit 13, the determination unit 14, the association unit 15, and the display control unit 16.

表示制御プログラムp1は、例えば、磁気ディスクや光ディスクまたは半導体メモリ等の記憶媒体d1によって提供される。また、表示制御プログラムp1は、搬送波に重畳されたコンピュータデータ信号として通信ネットワークを介して提供されてもよい。   The display control program p1 is provided by a storage medium d1 such as a magnetic disk, an optical disk, or a semiconductor memory, for example. The display control program p1 may be provided via a communication network as a computer data signal superimposed on a carrier wave.

以上説明した本実施形態の表示制御システム1、表示制御方法及び表示制御プログラムp1によれば、音情報を含む画像情報が取得され、音情報が該当するカテゴリが判定される。そして、判定されたカテゴリに基づいて選択または生成された表示データが画像情報に関連付けられる。従って、音声を表す音情報が表示データに代替されることにより、画像情報における音から得られる情報の量を不足させることなく、画像情報のデータ量が削減される。これにより、例えば画像情報の送信に際しての通信負荷が軽減される。   According to the display control system 1, the display control method, and the display control program p1 of the present embodiment described above, image information including sound information is acquired, and a category to which the sound information corresponds is determined. Then, display data selected or generated based on the determined category is associated with the image information. Therefore, by replacing the sound information representing the sound with the display data, the data amount of the image information is reduced without deficient in the amount of information obtained from the sound in the image information. Thereby, for example, the communication load when transmitting image information is reduced.

以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。   The present invention has been described in detail based on the embodiments. However, the present invention is not limited to the above embodiment. The present invention can be variously modified without departing from the gist thereof.

例えば、本実施形態では、表示制御装置10が取得部11、カテゴリ判定部12、選択生成部13、判断部14、関連付け部15及び表示制御部16を備えることとしているが、これらの機能部11〜16が、端末TA、TBのいずれかに構成されることとしてもよい。即ち、表示制御システム1が、例えばサーバにより構成される表示制御装置10を有さずに、端末TAと端末TBとが直接に通信を行うシステムとして実現されることとしてもよい。その場合には、機能部11〜16の全てが端末TBに構成されることとしてもよい。また、機能部11〜16の全てが端末TAに構成されることとしてもよい。また、機能部11〜16が、端末TA及び端末TBに分散されて構成されることとしてもよい。   For example, in the present embodiment, the display control apparatus 10 includes the acquisition unit 11, the category determination unit 12, the selection generation unit 13, the determination unit 14, the association unit 15, and the display control unit 16. ˜16 may be configured as any one of the terminals TA and TB. That is, the display control system 1 may be realized as a system in which the terminal TA and the terminal TB communicate directly without having the display control device 10 configured by, for example, a server. In that case, all of the functional units 11 to 16 may be configured in the terminal TB. Further, all of the functional units 11 to 16 may be configured in the terminal TA. Further, the functional units 11 to 16 may be configured to be distributed to the terminal TA and the terminal TB.

1…表示制御システム、10…表示制御装置、11…取得部、12…カテゴリ判定部、13…選択生成部、14…判断部、15…関連付け部、16…表示制御部、20…表示データ記憶部、D…表示装置、d1…記憶媒体、m10…メインモジュール、m11…取得モジュール、m12…カテゴリ判定モジュール、m13…選択生成モジュール、m14…判断モジュール、m15…関連付けモジュール、m16…表示制御モジュール、N…ネットワーク、p1…表示制御プログラム、T,TA,TB…端末。
DESCRIPTION OF SYMBOLS 1 ... Display control system, 10 ... Display control apparatus, 11 ... Acquisition part, 12 ... Category determination part, 13 ... Selection production | generation part, 14 ... Determination part, 15 ... Association part, 16 ... Display control part, 20 ... Display data storage Part, D ... display device, d1 ... storage medium, m10 ... main module, m11 ... acquisition module, m12 ... category determination module, m13 ... selection generation module, m14 ... determination module, m15 ... association module, m16 ... display control module, N ... Network, p1 ... Display control program, T, TA, TB ... Terminal.

Claims (18)

音情報が関連付けられた画像情報を取得する取得手段と、
予め設定された音に関する複数のカテゴリのうちの、前記取得手段により取得された前記画像情報に関連付けられた前記音情報が該当するカテゴリに基づいて、前記音情報に対応する表示データを選択または生成する選択生成手段と、
前記選択生成手段により選択または生成された前記表示データを、該表示データに対応する前記音情報に代えて前記画像情報に関連付ける関連付け手段と、
を備える表示制御システム。
Acquisition means for acquiring image information associated with sound information;
The display data corresponding to the sound information is selected or generated based on a category to which the sound information associated with the image information acquired by the acquisition unit is selected from among a plurality of categories related to a preset sound. Selection generating means to
Association means for associating the display data selected or generated by the selection generation means with the image information instead of the sound information corresponding to the display data;
A display control system comprising:
前記音情報は、前記画像情報の画像に表される空間において発生した音を表す情報であって、マイクにより取得される、
請求項1に記載の表示制御システム。
The sound information is information representing a sound generated in a space represented in the image of the image information, and is acquired by a microphone.
The display control system according to claim 1.
前記関連付け手段は、前記選択生成手段により選択または生成された前記表示データに対応する前記音情報を前記画像情報から削除する、
請求項1または2に記載の表示制御システム。
The association unit deletes the sound information corresponding to the display data selected or generated by the selection generation unit from the image information;
The display control system according to claim 1 or 2.
所定の判断材料情報に基づいて前記表示データを選択または生成するか否かを判断する判断手段を更に備え、
前記選択生成手段は、前記判断手段により前記表示データを選択または生成すると判断された場合に、前記表示データを選択または生成する、
請求項1〜3のいずれか一項に記載の表示制御システム。
A judgment means for judging whether to select or generate the display data based on predetermined judgment material information;
The selection generation unit selects or generates the display data when the determination unit determines to select or generate the display data.
The display control system as described in any one of Claims 1-3.
前記画像情報は、ユーザの表情を表した画像を含み、
前記判断手段は、前記画像情報に含まれる画像におけるユーザの表情に基づいて、前記表示データを選択または生成するか否かを判断する、
請求項4に記載の表示制御システム。
The image information includes an image representing a user's facial expression,
The determination means determines whether to select or generate the display data based on a user's facial expression in an image included in the image information.
The display control system according to claim 4.
前記カテゴリに複数の表示データが関連付けられており、
前記選択生成手段は、前記音情報が該当するカテゴリ及び前記音情報により示される音の特性に基づいて、特性ごとに関連付けられている複数の表示データのうちの少なくとも1以上の表示データを選択する、
請求項1〜5のいずれか一項に記載の表示制御システム。
A plurality of display data is associated with the category,
The selection generation unit selects at least one or more display data from among a plurality of display data associated with each characteristic based on a category to which the sound information corresponds and a sound characteristic indicated by the sound information. ,
The display control system as described in any one of Claims 1-5.
前記選択生成手段は、前記音情報により示される音の特性に基づいて、少なくとも1以上の表示データを生成する、
請求項1〜6のいずれか一項に記載の表示制御システム。
The selection generation means generates at least one or more display data based on a sound characteristic indicated by the sound information.
The display control system according to any one of claims 1 to 6.
前記カテゴリに複数の表示データが関連付けられており、
前記選択生成手段は、前記音情報が該当するカテゴリに対応する物体を前記画像情報により表される画像中から特定し、該物体の態様及び位置の少なくとも1つに基づいて、該カテゴリごとに関連付けられている複数の表示データのうちの少なくとも1以上の表示データを選択する、
請求項1〜7のいずれか一項に記載の表示制御システム。
A plurality of display data is associated with the category,
The selection generation unit specifies an object corresponding to the category to which the sound information corresponds from the image represented by the image information, and associates the object for each category based on at least one of an aspect and a position of the object. Selecting at least one or more display data from a plurality of display data being displayed,
The display control system as described in any one of Claims 1-7.
前記選択生成手段は、前記音情報が該当するカテゴリに対応する物体を前記画像情報により表される画像中から特定し、該物体の態様及び位置の少なくとも1つに基づいて、少なくとも1以上の表示データを生成する、
請求項1〜8のいずれか一項に記載の表示制御システム。
The selection generation unit identifies an object corresponding to a category to which the sound information corresponds from an image represented by the image information , and displays at least one or more displays based on at least one of an aspect and a position of the object Generate data,
The display control system as described in any one of Claims 1-8.
前記関連付け手段により前記画像情報に関連付けられた前記表示データを、前記画像情報により表される画像と共に表示装置に表示させる表示制御手段を更に備える、
請求項1〜9のいずれか一項に記載の表示制御システム。
Further comprising display control means for causing the display device to display the display data associated with the image information by the association means together with the image represented by the image information.
The display control system according to any one of claims 1 to 9.
前記表示データは、前記音情報に示される音を視覚的に表現する画像データであり、
前記表示制御手段は、前記画像データを前記表示装置に表示させる、
請求項10に記載の表示制御システム。
The display data is image data that visually represents the sound indicated by the sound information,
The display control means causes the display device to display the image data.
The display control system according to claim 10.
前記表示データは、前記音情報により示される音を表現する画像データに予め関連付けられた識別データであり、
前記表示制御手段は、
前記画像情報を受信する端末に構成され、
前記識別データに関連付けられた画像データを前記表示装置に表示させる、
請求項10に記載の表示制御システム。
The display data is identification data associated in advance with image data representing the sound indicated by the sound information,
The display control means includes
A terminal configured to receive the image information;
Displaying the image data associated with the identification data on the display device;
The display control system according to claim 10.
前記表示制御手段は、前記音情報により示される音の特性に基づいて、前記選択生成手段により選択または生成された表示データの表示態様を変化させる、
請求項10〜12のいずれか一項に記載の表示制御システム。
The display control means changes a display mode of display data selected or generated by the selection generation means based on a sound characteristic indicated by the sound information.
The display control system according to any one of claims 10 to 12.
前記表示制御手段は、
前記音情報が該当するカテゴリに対応する物体を前記画像中から特定し、該物体の態様及び位置の少なくとも1つに基づいて、前記選択生成手段により選択または生成された表示データの表示態様を変更させる、
請求項10〜13のいずれか一項に記載の表示制御システム。
The display control means includes
An object corresponding to the category corresponding to the sound information is identified from the image, and the display mode of the display data selected or generated by the selection generation unit is changed based on at least one of the mode and position of the object. Let
The display control system according to any one of claims 10 to 13.
前記表示制御手段は、
前記画像中における前記物体の態様及び位置の少なくとも1つの変化に基づいて、前記選択生成手段により選択または生成された表示データの表示態様を動的に変化させる、
請求項14に記載の表示制御システム。
The display control means includes
Dynamically changing the display mode of the display data selected or generated by the selection generation unit based on at least one change in the mode and position of the object in the image;
The display control system according to claim 14.
前記表示制御手段は、
前記画像中における、前記音情報が該当するカテゴリに対応する位置に関連付けて前記表示データを表示させる、
請求項10〜15のいずれか一項に記載の表示制御システム。
The display control means includes
In the image, the display data is displayed in association with a position corresponding to the category to which the sound information corresponds.
The display control system according to any one of claims 10 to 15.
表示制御システムにおける表示制御方法であって、
音情報が関連付けられた画像情報を取得する取得ステップと、
予め設定された音に関する複数のカテゴリのうちの、前記取得ステップにおいて取得された前記画像情報に関連付けられた前記音情報が該当するカテゴリに基づいて、前記音情報に対応する表示データを選択または生成する選択生成ステップと、
前記選択生成ステップにおいて選択または生成された前記表示データを、該表示データに対応する前記音情報に代えて前記画像情報に関連付ける関連付けステップと、
を有する表示制御方法。
A display control method in a display control system, comprising:
An acquisition step of acquiring image information associated with sound information;
The display data corresponding to the sound information is selected or generated based on a category to which the sound information associated with the image information acquired in the acquisition step corresponds among a plurality of categories related to a preset sound. A selection generation step to
Associating the display data selected or generated in the selection generation step with the image information instead of the sound information corresponding to the display data;
A display control method.
表示制御システムとしてコンピュータを機能させる表示制御プログラムであって、
前記コンピュータを、
音情報が関連付けられた画像情報を取得する取得手段、
予め設定された音に関する複数のカテゴリのうちの、前記取得手段により取得された前記画像情報に関連付けられた前記音情報が該当するカテゴリに基づいて、前記音情報に対応する表示データを選択または生成する選択生成手段、及び
前記選択生成手段により選択または生成された前記表示データを、該表示データに対応する前記音情報に代えて前記画像情報に関連付ける関連付け手段、
として機能させる表示制御プログラム。
A display control program for causing a computer to function as a display control system,
The computer,
Acquisition means for acquiring image information associated with sound information;
The display data corresponding to the sound information is selected or generated based on a category to which the sound information associated with the image information acquired by the acquisition unit is selected from among a plurality of categories related to a preset sound. Selection generating means, and associating means for associating the display data selected or generated by the selection generating means with the image information instead of the sound information corresponding to the display data,
Display control program to function as.
JP2018518895A 2016-05-26 2016-05-26 Display control system, display control method, and display control program Active JP6457700B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/065626 WO2017203667A1 (en) 2016-05-26 2016-05-26 Display control system, display control method, and display control program

Publications (2)

Publication Number Publication Date
JPWO2017203667A1 JPWO2017203667A1 (en) 2018-10-25
JP6457700B2 true JP6457700B2 (en) 2019-01-23

Family

ID=60412209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018518895A Active JP6457700B2 (en) 2016-05-26 2016-05-26 Display control system, display control method, and display control program

Country Status (2)

Country Link
JP (1) JP6457700B2 (en)
WO (1) WO2017203667A1 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007028485A (en) * 2005-07-21 2007-02-01 Matsushita Electric Ind Co Ltd Television receiving system
JP5188338B2 (en) * 2008-09-16 2013-04-24 株式会社日立製作所 Television receiver
WO2011122521A1 (en) * 2010-03-30 2011-10-06 日本電気株式会社 Information display system, information display method, and program
JP2012147160A (en) * 2011-01-11 2012-08-02 Nec Personal Computers Ltd Three-dimensional image processing apparatus
WO2013077110A1 (en) * 2011-11-22 2013-05-30 Necカシオモバイルコミュニケーションズ株式会社 Translation device, translation system, translation method and program
JP2015212732A (en) * 2014-05-01 2015-11-26 日本放送協会 Sound metaphor recognition device and program

Also Published As

Publication number Publication date
WO2017203667A1 (en) 2017-11-30
JPWO2017203667A1 (en) 2018-10-25

Similar Documents

Publication Publication Date Title
CN110941954B (en) Text broadcasting method and device, electronic equipment and storage medium
KR101533065B1 (en) Method and apparatus for providing animation effect on video telephony call
KR101749143B1 (en) Vehicle based determination of occupant audio and visual input
CN109461437B (en) Verification content generation method and related device for lip language identification
CN112669417B (en) Virtual image generation method and device, storage medium and electronic equipment
KR102193029B1 (en) Display apparatus and method for performing videotelephony using the same
CN110826637A (en) Emotion recognition method, system and computer-readable storage medium
JP2017167779A (en) Image processor, display device, animation generating method, animation display method and program
CN111523981A (en) Virtual trial method and device, electronic equipment and storage medium
CN113903338A (en) Surface labeling method and device, electronic equipment and storage medium
CN113886644A (en) Digital human video generation method and device, electronic equipment and storage medium
CN113223555A (en) Video generation method and device, storage medium and electronic equipment
KR20130096983A (en) Method and apparatus for processing video information including face
KR100686076B1 (en) Wireless Communication Terminal with Message Transmission According to Feeling of Terminal-User and Method of Message Transmission Using Same
CN114630135A (en) Live broadcast interaction method and device
JP6457700B2 (en) Display control system, display control method, and display control program
JP2017182261A (en) Information processing apparatus, information processing method, and program
JPWO2019026395A1 (en) Information processing apparatus, information processing method, and program
CN111292743B (en) Voice interaction method and device and electronic equipment
CN114567693A (en) Video generation method and device and electronic equipment
CN114443889A (en) Audio acquisition method and device, electronic equipment and storage medium
WO2020089961A1 (en) Voice processing device and program
KR102500164B1 (en) Emotional information analysis system automatically extracting emotional information from objects and emotional information analysis method using the same
CN111443794A (en) Reading interaction method, device, equipment, server and storage medium
CN111971670A (en) Generating responses in a conversation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180802

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180802

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180802

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20181022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181220

R150 Certificate of patent or registration of utility model

Ref document number: 6457700

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250