JP7369884B1 - Information processing device, information processing method, and information processing program - Google Patents
Information processing device, information processing method, and information processing program Download PDFInfo
- Publication number
- JP7369884B1 JP7369884B1 JP2023061972A JP2023061972A JP7369884B1 JP 7369884 B1 JP7369884 B1 JP 7369884B1 JP 2023061972 A JP2023061972 A JP 2023061972A JP 2023061972 A JP2023061972 A JP 2023061972A JP 7369884 B1 JP7369884 B1 JP 7369884B1
- Authority
- JP
- Japan
- Prior art keywords
- user
- image data
- content
- photographed
- volume
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
【課題】ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる技術を提供する。【解決手段】本開示の情報処理装置は、ユーザが視聴するコンテンツの音量を自動で調節する情報処理装置である。この情報処理装置は、所定の撮影装置によって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得することと、ユーザがコンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに第1撮影画像データを入力することで取得することと、快適性状態に基づいて、ユーザによるコンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節することと、を実行する制御部を備える。【選択図】図3The present invention provides a technology that can improve the comfort of a user when viewing content. An information processing device according to the present disclosure automatically adjusts the volume of content viewed by a user. This information processing device acquires first photographed image data, which is photographed image data photographed by a predetermined photographing device, and represents a facial expression image of a user when the user views the content; The comfort state, which is the state of pleasure and displeasure felt by the user when viewing, is obtained by inputting the first photographed image data to a pre-learning model constructed by performing learning using predetermined image data. and automatically adjusting the volume of the content based on the user's comfort state so as to improve the user's comfort level when viewing the content. [Selection diagram] Figure 3
Description
本発明は、ユーザが視聴するコンテンツの音量を自動で調節する情報処理装置、情報処理方法及び情報処理プログラムに関する。 The present invention relates to an information processing device, an information processing method, and an information processing program that automatically adjust the volume of content that a user views.
携帯端末、タブレット端末、スマートフォン、ウェアラブル端末、パーソナルコンピュータ等を操作するためのユーザインタフェースとして、マウスやタッチパネル等のデバイスを利用した入力インタフェースが従来から用いられている。しかしながら、ユーザは、このような該ユーザの操作による入力インタフェースを用いることに煩わしさを感じることがあった。 BACKGROUND ART Input interfaces using devices such as mice and touch panels have conventionally been used as user interfaces for operating mobile terminals, tablet terminals, smartphones, wearable terminals, personal computers, and the like. However, the user sometimes finds it troublesome to use such an input interface that is operated by the user.
また、例えば、ユーザが車両を運転しているときには、該ユーザは、マウスやタッチパネル等の入力インタフェースを操作することができない。そのため、入力インタフェースを用いたユーザによる操作によらずに、上記の端末が自動で操作されることが好ましい。 Further, for example, when a user is driving a vehicle, the user cannot operate an input interface such as a mouse or a touch panel. Therefore, it is preferable that the above-mentioned terminal be operated automatically without the user's operation using an input interface.
そして、特許文献1には、乗員感情に応じて提供したコンテンツにより乗員が不快になったとき、不快感情を改善させるコンテンツ提供装置が開示されている。この技術では、コンテンツ出力部により第1コンテンツが出力された後に推定された乗員感情に応じて、例えば、第1コンテンツの出力により乗員感情が悪化しているときには、第1コンテンツから第2コンテンツへのコンテンツの変更が指令される。 Patent Document 1 discloses a content providing device that improves the uncomfortable feeling when the passenger becomes uncomfortable due to the content provided according to the passenger's feeling. In this technology, the first content is changed from the first content to the second content according to the passenger emotion estimated after the content output unit outputs the first content. A change in the content of is commanded.
ユーザは、携帯端末、タブレット端末、スマートフォン、ウェアラブル端末、パーソナルコンピュータ等を操作するとき、マウスやタッチパネル等の入力インタフェースを用いた操作に煩わしさを感じることがあるため、これら端末が自動で操作されることが好ましい。 When operating mobile terminals, tablet terminals, smartphones, wearable terminals, personal computers, etc., users may find it troublesome to operate using input interfaces such as a mouse or touch panel. It is preferable that
ここで、特許文献1に記載の技術によれば、例えば、第1コンテンツの出力により乗員感情が悪化した場合には、コンテンツが第1コンテンツから第2コンテンツへ自動で変更されるため、ユーザによる操作の煩わしさが軽減できるようにも思われる。しかしながら、コンテンツに対してユーザが感じる快適性は、該コンテンツのジャンルのみによらず、該コンテンツの音量によっても影響を受ける。このように、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させる技術については、未だ改善の余地を残すものである。 Here, according to the technology described in Patent Document 1, for example, if the occupant's emotions deteriorate due to the output of the first content, the content is automatically changed from the first content to the second content, so that the user can It also seems that the hassle of operation can be reduced. However, the comfort that a user feels with content is affected not only by the genre of the content but also by the volume of the content. As described above, there is still room for improvement in technology for improving the comfort of users when they view content.
本開示の目的は、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる技術を提供することにある。 An object of the present disclosure is to provide a technology that can improve the comfort of a user when viewing content.
本開示の情報処理装置は、ユーザが視聴するコンテンツの音量を自動で調節する情報処理装置である。そして、この情報処理装置は、所定の撮影装置によって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得することと、前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得することと、前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節することと、を実行する制御部を備える。 An information processing device of the present disclosure is an information processing device that automatically adjusts the volume of content that a user views. The information processing device acquires first photographed image data that is photographed by a predetermined photographing device and represents a facial expression image of the user when the user views the content; Input the first captured image data into a pre-learning model constructed by learning a comfort state, which is a state of pleasure and displeasure felt by the user when viewing the content, using predetermined image data. and automatically adjusting the volume of the content based on the comfort state so as to improve the user's comfort level when viewing the content by the user. Department.
上記の情報処理装置では、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを事前学習モデルに入力することで、該ユーザの快適性状態が取得される。そして、この快適性状態に基づいて、ユーザによるコンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量が自動で調節されるため、例えば、コンテンツの音量の影響によってユーザが不快に感じている場合には、ユーザによる操作によらずに自動でコンテンツの音量が調節されることになる。これにより、ユーザによる操作の煩わしさを軽減しつつ、ユーザの快適性を向上させることができる。 In the above information processing device, the comfort state of the user is acquired by inputting the first captured image data representing the facial expression image of the user when the user views the content into the pre-learning model. Based on this comfort state, the volume of the content is automatically adjusted to improve the comfort of the user when viewing the content. If the user is feeling the same, the volume of the content will be automatically adjusted without any operation by the user. Thereby, the user's comfort can be improved while reducing the troublesome operation by the user.
そして、本開示の情報処理装置は、カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得することと、前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得することと、前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節することと、を実行する制御部を備え、前記制御部は、前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第2撮影画像データを取得することと、を更に実行し、前記第2撮影画像データを教師データとして、前記事前学習モデルに学習を行わせてもよい。そして、この場合、前記制御部は、前記第2撮影画像データを加工することで生成される撮影画像データであって、該第2撮影画像データに含まれる人物の位置が任意に変更された、又は/及び該第2撮影画像データに含まれる背景の色が任意に変更された、又は/及び該第2撮影画像データに含まれる人物の服装が任意に変更された、前記ユーザの画像を表す第3撮影画像データを自動で生成することを、更に実行し、前記第3撮影画像データを前記教師データに加えて、前記事前学習モデルに学習を行わせてもよい。これによれば、一つの第2撮影画像データに基づいて複数の第3撮影画像データを自動で生成することで、印象が異なる撮影画像データを複数生成することができ、事前学習モデルに学習を行わせるための教師データの数を効率的に増やすことができる。 The information processing device of the present disclosure includes the steps of acquiring first captured image data captured by a camera and representing a facial expression image of a user when the user views content; The first photographed image data is applied to a pre-learning model that is constructed by learning a comfort state, which is a state of pleasure and displeasure that the user feels when viewing the content, using image data that has been photographed in advance. and automatically adjusting the volume of the content based on the comfort state so as to improve the user's comfort level when viewing the content by the user. The control unit is configured to play an initial content for initial settings before the user views the content, and automatically changes the volume of the initial content during the playback, and according to the change in the volume. Further performing the following steps: obtaining a timing at which the user feels uncomfortable; and obtaining second captured image data, which is captured image data captured by the camera and represents a facial expression image of the user at the timing. However, the pre-learning model may be caused to perform learning using the second captured image data as training data. In this case, the control unit controls the captured image data generated by processing the second captured image data, in which the position of the person included in the second captured image data is arbitrarily changed. or/and represents an image of the user in which the color of the background included in the second captured image data has been arbitrarily changed, and/and the clothing of the person included in the second captured image data has been arbitrarily changed. The third captured image data may be further automatically generated, the third captured image data may be added to the teacher data, and the pre-learning model may be caused to perform learning. According to this, by automatically generating multiple pieces of third photographed image data based on one second photographed image data, it is possible to generate multiple pieces of photographed image data with different impressions, and to apply learning to the pre-learning model. It is possible to efficiently increase the amount of training data required for the process.
また、本開示の情報処理装置では、前記制御部は、前記撮影装置によって撮影された撮影画像データであって、前記ユーザが前記コンテンツとは異なる他コンテンツを視聴しているときの該ユーザの表情画像を表す第4撮影画像データを、該他コンテンツの再生中に周期的に取得することを、更に実行し、前記第4撮影画像データを教師データとして、前記事前学習モデルに学習を行わせてもよい。 Further, in the information processing device of the present disclosure, the control unit may display captured image data captured by the imaging device, and the expression of the user when the user is viewing other content different from the content. further performing periodic acquisition of fourth photographed image data representing the image during playback of the other content, and causing the pre-learning model to perform learning using the fourth photographed image data as training data. It's okay.
そして、この場合、前記制御部は、前記第4撮影画像データに対して、前記ユーザが前記他コンテンツの音量を調節したときの該ユーザの表情画像を不快状態とラベル付けし、前記ユーザが前記他コンテンツの音量を調節して所定時間経過した後の該ユーザの表情画像を快状態とラベル付けして、前記事前学習モデルに学習を行わせてもよい。更に、前記制御部は、前記不快状態との合致割合と、前記快状態との合致割合と、に基づいて、前記快適性状態を取得してもよい。これによれば、ユーザの快適性状態の誤認識を可及的に抑制することができる。 In this case, the control unit labels, with respect to the fourth captured image data, an expression image of the user when the user adjusts the volume of the other content as an uncomfortable state, and The pre-learning model may perform learning by labeling the facial expression image of the user after a predetermined period of time has elapsed after adjusting the volume of other content as being in a pleasant state. Furthermore, the control unit may acquire the comfort state based on a matching ratio with the uncomfortable state and a matching ratio with the pleasant state. According to this, it is possible to suppress erroneous recognition of the user's comfort state as much as possible.
また、本開示は、コンピュータによる情報処理方法の側面から捉えることができる。すなわち、本開示の情報処理方法は、ユーザが視聴するコンテンツの音量を自動で調節する情報処理方法であって、コンピュータが、カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得する第1取得ステップと、前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得する第2取得ステップと、前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する自動調整ステップと、を実行し、前記コンピュータは、前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第2撮影画像データを取得することと、を更に実行し、前記第2撮影画像データを教師データとして、前記事前学習モデルに学習を行わせることを実行する。 Further, the present disclosure can be understood from the aspect of an information processing method by a computer. That is, the information processing method of the present disclosure is an information processing method that automatically adjusts the volume of content viewed by a user, in which a computer receives photographed image data taken by a camera , and when the user views the content. a first acquisition step of acquiring first photographed image data representing a facial expression image of the user; and a comfort state, which is a state of pleasure and displeasure felt by the user when the user views the content, which has been photographed in advance. a second acquisition step of acquiring the first photographed image data by inputting the first photographed image data into a pre-learning model constructed by performing learning using the image data obtained by the user; and a second acquisition step of acquiring the content by the user based on the comfort state. automatically adjusting the volume of the content so as to improve the user's comfort when viewing the content; Playing content, automatically changing the volume of the initial content at the time of playback, and obtaining timing at which the user feels uncomfortable due to the change in volume, and photographed image data taken by the camera, , obtaining second captured image data representing an expression image of the user at the timing, and causing the pre-learning model to perform learning using the second captured image data as training data. Execute.
また、本開示は、情報処理プログラムの側面から捉えることができる。すなわち、本開示の情報処理プログラムは、ユーザが視聴するコンテンツの音量を自動で調節する情報処理プログラムであって、コンピュータに、カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得する第1取得ステップと、前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得する第2取得ステップと、前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する自動調整ステップと、を実行させ、前記コンピュータに、前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第2撮影画像データを取得することと、を更に実行させ、前記第2撮影画像データを教師データとして、前記事前学習モデルに学習を行わせることを実行させる。 Further, the present disclosure can be viewed from the aspect of an information processing program. In other words, the information processing program of the present disclosure is an information processing program that automatically adjusts the volume of content viewed by a user, and the information processing program automatically adjusts the volume of content viewed by a user, and stores photographed image data captured by a camera on a computer when the user views the content. a first acquisition step of acquiring first photographed image data representing a facial expression image of the user; and a comfort state, which is a state of pleasure and displeasure felt by the user when the user views the content, which has been photographed in advance. a second acquisition step of acquiring the first photographed image data by inputting the first photographed image data into a pre-learning model constructed by performing learning using the image data obtained by the user; and a second acquisition step of acquiring the content by the user based on the comfort state. an automatic adjustment step of automatically adjusting the volume of the content so as to improve the comfort of the user when viewing the content; Reproducing initial content, automatically changing the volume of the initial content during playback, and obtaining timing at which the user feels uncomfortable due to the change in volume, and capturing image data taken by the camera. and acquiring second captured image data representing an expression image of the user at the timing, and causes the pre-learning model to perform learning using the second captured image data as training data. Execute.
本開示によれば、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる。 According to the present disclosure, it is possible to improve the comfort of the user when the user views content.
以下、図面に基づいて、本開示の実施の形態を説明する。以下の実施形態の構成は例示であり、本開示は実施形態の構成に限定されない。 Embodiments of the present disclosure will be described below based on the drawings. The configurations of the following embodiments are illustrative, and the present disclosure is not limited to the configurations of the embodiments.
<第1実施形態>
第1実施形態における情報処理システムの概要について、図1を参照しながら説明する。図1は、本実施形態における情報処理システムの概略構成を示す図である。本実施形態に係る情報処理システム100は、ネットワーク200と、サーバ300と、ユーザ端末400と、を含んで構成される。なお、本開示の情報処理システムは、ユーザが視聴するコンテンツの音量を自動で調節するシステムであって、サーバ300からの指令に従って、ユーザ端末400において再生されているコンテンツの音量が調節される。
<First embodiment>
An overview of the information processing system in the first embodiment will be explained with reference to FIG. FIG. 1 is a diagram showing a schematic configuration of an information processing system in this embodiment. The
ネットワーク200は、例えば、IPネットワークである。ネットワーク200は、IPネットワークであれば、無線であっても有線であっても無線と有線の組み合わせであってもよく、例えば、無線による通信であれば、ユーザ端末400は、無線LANアクセスポイント(不図示)にアクセスし、LANやWANを介してサーバ300と通信してもよい。また、ネットワーク200は、これらの例に限られず、例えば、公衆交換電話網や、光回線、ADSL回線、衛星通信網などであってもよい。
サーバ300は、ネットワーク200を介して、ユーザ端末400と接続される。なお、図1において、説明を簡単にするために、サーバ300は1台、ユーザ端末400は4台示してあるが、これらに限定されないことは言うまでもない。
サーバ300は、データの取得、生成、更新等の演算処理及び加工処理のための処理能力のあるコンピュータ機器であればどの様な電子機器でもよく、例えば、パーソナルコンピュータ、サーバ、メインフレーム、その他電子機器であってもよい。すなわち、サーバ300は、CPUやGPU等のプロセッサ、RAMやROM等の主記憶装置、EPROM、ハードディスクドライブ、リムーバブルメディア等の補助記憶装置を有するコンピュータとして構成することができる。なお、リムーバブルメディアは、例えば、USBメモリ、あるいは、CDやDVDのようなディスク記録媒体であってもよい。補助記憶装置には、オペレーティングシステム(OS)、各種プログラム、各種テーブル等が格納されている。
The
また、サーバ300は、本実施形態に係る情報処理システム100専用のソフトウェアやハードウェア、OS等を設けずに、クラウドサーバによるSaaS(Software as a Service)、Paas(Platform as a Service)、IaaS(Infrastructure as a Service)を適宜用いてもよい。
Furthermore, the
ユーザ端末400は、情報処理システム100を利用するユーザが保有する携帯端末等の電子機器であればよく、例えば、携帯端末、タブレット端末、スマートフォン、ウェアラブル端末、パーソナルコンピュータ等、その他端末機器であってもよい。
The
次に、図2に基づいて、主にサーバ300の構成要素の詳細な説明を行う。図2は、第1実施形態における、情報処理システム100に含まれるサーバ300の構成要素をより詳細に示すとともに、サーバ300と通信を行うユーザ端末400の構成要素を示した図である。
Next, based on FIG. 2, a detailed explanation will be given mainly of the components of the
サーバ300は、機能部として通信部301、記憶部302、制御部303を有しており、補助記憶装置に格納されたプログラムを主記憶装置の作業領域にロードして実行し、プログラムの実行を通じて各機能部等が制御されることによって、各機能部における所定の目的に合致した各機能を実現することができる。ただし、一部または全部の機能はASICやFPGAのようなハードウェア回路によって実現されてもよい。
The
ここで、通信部301は、サーバ300をネットワーク200に接続するための通信インタフェースである。通信部301は、例えば、ネットワークインタフェースボードや、無線通信のための無線通信回路を含んで構成される。サーバ300は、通信部301を介して、ユーザ端末400やその他の外部装置と通信可能に接続される。
Here, the
記憶部302は、主記憶装置と補助記憶装置を含んで構成される。主記憶装置は、制御部303によって実行されるプログラムや、当該制御プログラムが利用するデータが展開されるメモリである。補助記憶装置は、制御部303において実行されるプログラムや、当該制御プログラムが利用するデータが記憶される装置である。なお、サーバ300は、通信部301を介してユーザ端末400等から送信されたデータを取得し、記憶部302には、後述する撮影画像データが記憶される。また、記憶部302には、後述する快適性状態を取得するための教師データや事前学習モデルが記憶される。
The
制御部303は、サーバ300が行う制御を司る機能部である。制御部303は、CPUなどの演算処理装置によって実現することができる。制御部303は、更に、第1取得部3031と、第2取得部3032と、音量調節部3033と、学習部3034と、の4つの機能部を有して構成される。各機能部は、記憶されたプログラムをCPUによって実行することで実現してもよい。なお、学習部3034は、機械学習に伴う演算量が多いため、記憶されたプログラムをGPUによって実行することで実現してもよい。このように、GPUを機械学習に伴う演算処理に利用するようにすると、高速処理できるようになる。また、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。
The
第1取得部3031は、情報処理システム100を利用するユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得する。ここで、上記のコンテンツは、動画や楽曲などのコンテンツである。そして、上記の第1撮影画像データは、ユーザが、ユーザ端末400を用いてコンテンツを視聴しているときに、該ユーザ端末400が備える撮影装置によって撮影される。なお、ユーザ端末400には、情報処理システム100を利用するための所定のアプリが予めインストールされ、コンテンツの再生時に該アプリがバックグラウンドで上記の画像を撮影する処理を実行する。そして、撮影されたデータがサーバ300にアップロードされる。そうすると、第1取得部3031は、第1撮影画像データを取得し、これを記憶部302に記憶させる。
The
ここで、本実施形態におけるユーザ端末400は、機能部として通信部401、入出力部402、記憶部403を有している。通信部401は、ユーザ端末400をネットワーク200に接続するための通信インタフェースであり、例えば、ネットワークインタフェースボードや、無線通信のための無線通信回路を含んで構成される。入出力部402は、通信部401を介して外部から送信されてきた情報等を表示させたり、通信部401を介して外部に情報を送信する際に当該情報を入力したりするための機能部である。記憶部403は、サーバ300の記憶部302と同様に主記憶装置と補助記憶装置を含んで構成される。
Here, the
入出力部402は、更に、表示部4021、操作入力部4022、画像・音声入出力部4023を有している。表示部4021は、各種情報を表示する機能を有し、例えば、LCD(Liquid Crystal Display)ディスプレイ、LED(Light Emitting Diode)ディスプレイ、OLED(Organic Light Emitting Diode)ディスプレイ等により実現される。操作入力部4022は、ユーザからの操作入力を受け付ける機能を有し、具体的には、タッチパネル等のソフトキーあるいはハードキーにより実現される。画像・音声入出力部4023は、静止画や動画等の画像の入力を受け付ける機能を有し、具体的には、Charged-Coupled Devices(CCD)、Metal-oxide-semiconductor(MOS)あるいはComplementary Metal-Oxide-Semiconductor(CMOS)等のイメージセンサを用いたカメラにより実現される。また、画像・音声入出力部4023は、音声の入出力を受け付ける機能を有し、具体的には、マイクやスピーカーにより実現される。 The input/output unit 402 further includes a display unit 4021, an operation input unit 4022, and an image/audio input/output unit 4023. The display unit 4021 has a function of displaying various information, and is realized by, for example, an LCD (Liquid Crystal Display) display, an LED (Light Emitting Diode) display, an OLED (Organic Light Emitting Diode) display, or the like. The operation input unit 4022 has a function of accepting operation input from the user, and is specifically realized by soft keys or hard keys of a touch panel or the like. The image/audio input/output unit 4023 has a function of receiving input images such as still images and videos. This is realized by a camera using an image sensor such as Oxide-Semiconductor (CMOS). Further, the image/audio input/output unit 4023 has a function of receiving input/output of audio, and is specifically realized by a microphone or a speaker.
そうすると、上記のコンテンツ(例えば、動画)は、画像が表示部4021によって表示され、音声がスピーカーによって出力され得る。そして、カメラによって、上記の画像が撮影され得る。 Then, in the content (for example, a moving image), an image can be displayed by the display unit 4021, and an audio can be outputted by the speaker. The above image may then be captured by the camera.
第2取得部3032は、情報処理システム100を利用するユーザがコンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を取得する。ここで、第2取得部3032は、上記の第1撮影画像データを後述する事前学習モデルに入力することで、快適性状態を取得する。
The
音量調節部3033は、上記の快適性状態に基づいて、上記のユーザによるコンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する。
The
学習部3034は、上記の第2取得部3032による処理に用いられる事前学習モデルを構築する機能部であって、その詳細は後述する。
The
なお、制御部303が、第1取得部3031、第2取得部3032、音量調節部3033、および学習部3034の処理を実行することで、本開示に係る制御部として機能する。
Note that the
ここで、本実施形態における情報処理システム100の動作の流れについて説明する。図3は、本実施形態における情報処理システム100の動作の流れを例示する図である。図3では、本実施形態における情報処理システム100におけるサーバ300とユーザ端末400との間の動作の流れ、およびサーバ300とユーザ端末400とが実行する処理を説明する。
Here, the flow of operation of the
本実施形態では、先ず、情報処理システム100を利用するための初期設定が行われる。サーバ300は、情報処理システム100を利用するユーザのユーザ端末400において初期設定用の初期コンテンツを再生させるために、初期コンテンツをユーザ端末400に送信する(S101)。そうすると、ユーザ端末400において、初期コンテンツが再生される(S102)。このとき、初期コンテンツでは、音量が自動で変化するように再生される。そして、ユーザ端末400には、ユーザによって不快タイミングが入力され(S103)、それがサーバ300に送信されることで、サーバ300は、上記の音量の変化によってユーザが不快と感じるタイミングを取得することができる(S104)。
In this embodiment, first, initial settings for using the
ここで、図4は、情報処理システム100を利用するための初期設定画面を例示する図である。図4に例示する画面SC1は情報処理システム100を利用するユーザのユーザ端末400の表示部4021に表示され、図4(a)の画面SC1には、初期設定開始ボタンSC11が示される。図4(a)の画面SC1において初期設定開始ボタンSC11が押下されると、図4(b)の画面SC1に画面遷移し、初期コンテンツ再生フィールドにおいて初期コンテンツが再生される。このとき、初期コンテンツの音量が徐々に大きくなるように音声が流され、ユーザは、音声が大きすぎると感じた場合に、音量マイナスボタンSC12を押下することで、音量の変化によって不快と感じるタイミングを入力することができる。また、図4(c)の画面SC1では、初期コンテンツの音量が徐々に小さくなるように音声が流され、ユーザは、音声が小さすぎると感じた場合に、音量プラスボタンSC13を押下することで、音量の変化によって不快と感じるタイミングを入力することができる。
Here, FIG. 4 is a diagram illustrating an initial setting screen for using the
そして、図3に戻って、サーバ300は、上記のタイミングにおけるユーザの表情画像を表す第2撮影画像データを撮影するための撮影指令をユーザ端末400に送信する(S105)。そうすると、ユーザ端末400は、その情報を取得し(S106)、第2撮影画像データを撮影する(S107)。なお、第2撮影画像データは、ユーザ端末400が有するカメラによって撮影され得る。そして、第2撮影画像データは、ユーザ端末400からサーバ300に送信され、サーバ300が、第2撮影画像データを取得する(S108)。
Then, returning to FIG. 3, the
そして、サーバ300は、第2撮影画像データを教師データとして、事前学習モデルに学習を行わせる(S109)。上述したように、第2撮影画像データは、コンテンツの音量の変化によってユーザが不快と感じるタイミングにおける該ユーザの表情画像を表すものであるため、これを教師データとして事前学習モデルに学習を行わせることで、該事前学習モデルを用いて、ユーザがコンテンツを視聴する際の快適性状態を識別することが可能になる。
Then, the
なお、サーバ300は、上記の第2撮影画像データに基づいて第3撮影画像データを自動で生成し、該第3撮影画像データを教師データに加えて、事前学習モデルに学習を行わせてもよい。ここで、上記の第3撮影画像データは、第2撮影画像データを加工することで生成される撮影画像データであって、該第2撮影画像データに含まれる人物の位置が任意に変更された、又は/及び該第2撮影画像データに含まれる背景の色が任意に変更された、又は/及び該第2撮影画像データに含まれる人物の服装が任意に変更されたデータである。
Note that the
ここで、ユーザの表情が同一であっても、該ユーザの周囲の環境(背景色や服装、位置による明るさの違い等)によって、撮影画像データの印象が異なることがある。そこで、一つの第2撮影画像データに基づいて複数の第3撮影画像データを自動で生成することで、印象が異なる撮影画像データを複数生成することができ、事前学習モデルに学習を行わせるための教師データの数を効率的に増やすことができる。 Here, even if the facial expressions of the users are the same, the impression of the photographed image data may differ depending on the surrounding environment of the user (background color, clothing, differences in brightness depending on position, etc.). Therefore, by automatically generating multiple pieces of third photographed image data based on one second photographed image data, it is possible to generate multiple pieces of photographed image data with different impressions, and to make the pre-learning model perform learning. The number of training data can be efficiently increased.
また、S101からS109の初期設定および学習処理は、ユーザが情報処理システム100を利用する都度実行されてもよいし、ユーザが情報処理システム100を利用する初回のみ実行されてもよい。
Further, the initial setting and learning process from S101 to S109 may be executed each time the user uses the
そして、上述した初期設定が完了した状態において、情報処理システム100を利用するユーザのユーザ端末400において、任意のコンテンツが再生される(S110)。このとき、ユーザ端末400では、予めインストールされた所定のアプリによって、コンテンツの再生時にバックグラウンドでユーザの表情画像を撮影する処理が実行される(S111)。そして、このようにして撮影された第1撮影画像データは、ユーザ端末400からサーバ300に送信される。
Then, in a state in which the above-described initial settings are completed, arbitrary content is played back on the
そうすると、サーバ300は、ユーザ端末400から送信された第1撮影画像データを取得し(S112)、取得した第1撮影画像データを記憶部302に格納する。
Then, the
そして、サーバ300は、第1撮影画像データに基づいて快適性状態を取得する。これについて、以下に説明する。
Then, the
サーバ300は、事前学習モデルを呼出す処理を実行する(S113)。ここで、事前学習モデルは、第1撮影画像データに基づいて快適性状態を取得するために用いられる機械学習モデルであって、学習部3034によって、第2撮影画像データを教師データとして学習を行うことにより事前に構築される。
The
ここで、図5は、本実施形態における事前学習モデルに対する入力から得られる識別結果と、該事前学習モデルを構成するニューラルネットワークを説明するための図である。本実施形態では、事前学習モデルとして、ディープラーニングにより生成されるニューラルネットワークモデルを用いる。本実施形態における事前学習モデル30は、入力画像データの入力を受け付ける入力層31と、入力層31に入力された該画像データから人物の不快表情を表す特徴量を抽出する中間層(隠れ層)32と、特徴量に基づく識別結果を出力する出力層33とを有する。なお、図5の例では、事前学習モデル30は、1層の中間層32を有しており、入力層31の出力が中間層32に入力され、中間層32の出力が出力層33に入力されている。ただし、中間層32の数は、1層に限られなくてもよく、事前学習モデル30は、2層以上の中間層32を有してもよい。
Here, FIG. 5 is a diagram for explaining the identification results obtained from the input to the pre-learning model and the neural network forming the pre-learning model in this embodiment. In this embodiment, a neural network model generated by deep learning is used as the pre-learning model. The
また、図5によると、各層31~33は、1又は複数のニューロンを備えている。例えば、入力層31のニューロンの数は、入力される画像データに応じて設定することができる。また、出力層33のニューロンの数は、識別結果である快適性状態に応じて設定することができる。
Further, according to FIG. 5, each layer 31 to 33 includes one or more neurons. For example, the number of neurons in the input layer 31 can be set depending on input image data. Furthermore, the number of neurons in the
そして、隣接する層のニューロン同士は適宜結合され、各結合には重み(結合荷重)が機械学習の結果に基づいて設定される。図5の例では、各ニューロンは、隣接する層の全てのニューロンと結合されているが、ニューロンの結合は、このような例に限定されなくてもよく、適宜設定することができる。 Neurons in adjacent layers are then appropriately connected, and a weight (connection weight) is set for each connection based on the results of machine learning. In the example of FIG. 5, each neuron is connected to all neurons in adjacent layers, but the connection of neurons does not need to be limited to this example and can be set as appropriate.
このような事前学習モデル30は、例えば、人物の表情を表す画像を含んだ画像データと、人物の不快表情を表す画像のラベルと、の組みである教師データを用いて教師あり学習を行うことで構築される。具体的には、特徴量とラベルとの組みをニューラルネットワークに与え、ニューラルネットワークの出力がラベルと同じとなるように、ニューロン同士の結合の重みがチューニングされる。このようにして、教師データの特徴を学習し、入力から結果を推定するための事前学習モデルが帰納的に獲得される。
Such a
図3に戻って、サーバ300は、上記の事前学習モデルに第1撮影画像データを入力することで、快適性状態を取得する(S114)。そして、サーバ300は、ユーザがコンテンツを視聴する際の該ユーザの快適性状態が不快状態であるか否かを判別する(S115)。そして、S115の処理で肯定判定された場合、本フローはS116の処理へ進み、S115の処理で否定判定された場合、本フローはS111の処理へ戻る。
Returning to FIG. 3, the
S115の処理で肯定判定された場合、次に、S116において、音量調節処理が実行される。S116の処理では、サーバ300は、ユーザによるコンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する。例えば、コンテンツの音声が大きすぎることによりユーザの快適性状態が不快状態となっていると判定される場合には、サーバ300は、コンテンツの音量を下げる処理を実行する。また、例えば、コンテンツの音声が小さすぎることによりユーザの快適性状態が不快状態となっていると判定される場合には、サーバ300は、コンテンツの音量を上げる処理を実行する。そして、このような音量調節処理の指令がサーバ300からユーザ端末400に送信されることで、ユーザ端末400において、音量の調節が自動で行われることになる(S117)。そして、S117の処理の後、本フローはS111の処理へ戻る。
When an affirmative determination is made in the process of S115, next, in S116, a volume adjustment process is executed. In the process of S116, the
そして、コンテンツの再生時には、S111からS117の処理が所定の周期で繰り返し実行され、コンテンツの再生が終了されると、本フローの実行が終了される。そして、以上に述べた処理によれば、コンテンツの音量の影響によってユーザが不快に感じている場合に、ユーザによる操作によらずに自動でコンテンツの音量が調節される。そのため、ユーザによる操作の煩わしさを軽減しつつ、ユーザの快適性を向上させることができる。 Then, when playing the content, the processes from S111 to S117 are repeatedly executed at a predetermined cycle, and when the playing of the content is finished, the execution of this flow is finished. According to the process described above, when the user feels uncomfortable due to the influence of the volume of the content, the volume of the content is automatically adjusted without any operation by the user. Therefore, the user's comfort can be improved while reducing the troublesomeness of the user's operations.
以上に述べた情報処理システム100によれば、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる。
According to the
<第2実施形態>
第2実施形態における情報処理システムについて、図6に基づいて説明する。本実施形態では、サーバ300が、第4撮影画像データを取得することを、更に実行する。ここで、上記の第4撮影画像データとは、ユーザが、音量の自動調節が行われるコンテンツとは異なる任意の他コンテンツを視聴しているときの、該ユーザの表情画像を表す撮影画像データであって、ユーザ端末400が有するカメラによって、該他コンテンツの再生中に周期的に撮影される。そして、サーバ300は、この第4撮影画像データを教師データとして、事前学習モデルに学習を行わせる。
<Second embodiment>
An information processing system in the second embodiment will be described based on FIG. 6. In the present embodiment, the
ここで、図6は、本実施形態における情報処理システム100の動作の流れを例示する図である。図6では、本実施形態における情報処理システム100におけるサーバ300とユーザ端末400との間の動作の流れ、およびサーバ300とユーザ端末400とが実行する処理を説明する。なお、図6に示す各処理において、上記の図3に示した処理と実質的に同一の処理については、同一の符号を付してその詳細な説明を省略する。
Here, FIG. 6 is a diagram illustrating the flow of operation of the
図6に示す例では、ユーザ端末400において、音量の自動調節が行われるコンテンツとは異なる任意の他コンテンツが再生されると(S201)、その情報が、サーバ300に送信される(S202)。ここで、ユーザ端末400では、予めインストールされた情報処理システム100に関する所定のアプリがバックグラウンドで実行され、任意のコンテンツが再生されると、その情報が該アプリによってサーバ300に送信される。
In the example shown in FIG. 6, when any other content different from the content whose volume is automatically adjusted is played on the user terminal 400 (S201), the information is transmitted to the server 300 (S202). Here, in the
そして、サーバ300は、上記の情報を取得すると(S202)、ユーザの表情画像を表す第4撮影画像データを撮影するための撮影指令をユーザ端末400に送信する(S203)。ここで、サーバ300は、上記の他コンテンツの再生中に周期的に第4撮影画像データを撮影するように、上記の撮影指令を送信する。そうすると、ユーザ端末400は、その情報を取得し(S204)、第4撮影画像データを周期的に撮影する(S205)。そして、第4撮影画像データは、ユーザ端末400からサーバ300に送信され、サーバ300が、第4撮影画像データを取得する(S206)。
Then, upon acquiring the above information (S202), the
そして、サーバ300は、第4撮影画像データを教師データとして、事前学習モデルに学習を行わせる(S207)。
Then, the
ここで、上述したように、事前学習モデル30は、例えば、人物の表情を表す画像を含んだ画像データと、人物の不快表情を表す画像のラベルと、の組みである教師データを用いて教師あり学習を行うことで構築され得る。そこで、本実施形態では、第4撮影画像データに対して、ユーザが他コンテンツの音量を調節したときの該ユーザの表情画像を不快状態とラベル付けし、ユーザが他コンテンツの音量を調節して所定時間経過した後の該ユーザの表情画像を快状態とラベル付けして、事前学習モデルに学習を行わせる。
Here, as described above, the
なお、第4撮影画像データは周期的に撮影される。また、上記のアプリによって、ユーザが他コンテンツの音量を調節したタイミングもモニタリングすることができる。そのため、周期的に撮影された第4撮影画像データの中から上記のタイミングに合致する撮影画像データを抽出することで、ユーザが他コンテンツの音量を調節したときの該ユーザの表情画像を取得することが可能になる。そして、本実施形態では、このようにユーザが他コンテンツの音量を調節したタイミングにおいて、該ユーザが不快に感じていると推定して、該タイミングにおける該ユーザの表情画像を不快状態とラベル付けする。 Note that the fourth photographed image data is periodically photographed. The above app also allows you to monitor when the user adjusts the volume of other content. Therefore, by extracting photographed image data that matches the above-mentioned timing from the fourth photographed image data that is periodically photographed, an image of the user's facial expression when the user adjusts the volume of other content is obtained. becomes possible. Then, in this embodiment, at the timing when the user adjusts the volume of other content in this way, it is estimated that the user is feeling uncomfortable, and the facial expression image of the user at that timing is labeled as being in an uncomfortable state. .
また、コンテンツを視聴しているときのユーザは、一度音量の調節を始めると、快適な音量となるまで調節し続ける傾向がある。言い換えれば、ユーザは、快適な音量となると調節を終了する。そこで、本実施形態では、ユーザが他コンテンツの音量を調節して所定時間経過した後において、該音量調節によって快適な音量となり該ユーザが快適に感じていると推定して、そのときの該ユーザの表情画像を快状態とラベル付けする。なお、上記の所定時間は、例えば、30秒から1分である。 Additionally, once a user starts adjusting the volume while viewing content, there is a tendency to continue adjusting the volume until a comfortable volume is reached. In other words, the user finishes adjusting the volume when the volume is comfortable. Therefore, in the present embodiment, after the user adjusts the volume of other content and a predetermined period of time has elapsed, it is estimated that the volume has become comfortable due to the volume adjustment and the user feels comfortable, and the user at that time Label the facial expression image as a pleasurable state. Note that the above predetermined time is, for example, 30 seconds to 1 minute.
そして、図6に示す例では、S114の処理において、上記のようにしてラベル付けされた教師データを用いて学習された事前学習モデルに第1撮影画像データを入力することで、快適性状態が取得される。このとき、本実施形態では、第1撮影画像データに対して事前学習モデルから出力される識別結果について、不快状態との合致割合と、快状態との合致割合と、が出力される。つまり、上述した2つのラベルとの合致割合が出力される。そして、サーバ300は、不快状態との合致割合と、快状態との合致割合と、に基づいて、例えば、不快状態との合致割合が快状態との合致割合よりも高い場合には、快適性状態として不快状態を取得する。
In the example shown in FIG. 6, in the process of S114, the comfort state is adjusted by inputting the first captured image data to the pre-learning model trained using the teacher data labeled as described above. be obtained. At this time, in this embodiment, for the identification results output from the pre-learning model for the first photographed image data, a matching ratio with the unpleasant state and a matching ratio with the pleasant state are output. In other words, the match ratio with the two labels described above is output. Then, based on the matching ratio with the unpleasant state and the matching ratio with the pleasant state, for example, if the matching ratio with the unpleasant state is higher than the matching ratio with the pleasant state, the
このような処理によれば、ユーザの快適性状態の誤認識を可及的に抑制することができる。 According to such processing, erroneous recognition of the user's comfort state can be suppressed as much as possible.
そして、以上に述べた情報処理システム100によっても、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる。
The
<その他の変形例>
上記の実施形態はあくまでも一例であって、本開示はその要旨を逸脱しない範囲内で適宜変更して実施しうる。例えば、本開示において説明した処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
<Other variations>
The embodiments described above are merely examples, and the present disclosure may be implemented with appropriate changes within the scope of the gist thereof. For example, the processes and means described in this disclosure can be implemented in any combination as long as no technical contradiction occurs.
また、1つの装置が行うものとして説明した処理が、複数の装置によって分担して実行されてもよい。例えば、学習部3034をサーバ300とは別の演算処理装置に形成してもよい。このとき当該別の演算処理装置はサーバ300と好適に協働可能に構成される。また、異なる装置が行うものとして説明した処理が、1つの装置によって実行されても構わない。コンピュータシステムにおいて、各機能をどのようなハードウェア構成(サーバ構成)によって実現するかは柔軟に変更可能である。
Further, the processing described as being performed by one device may be shared and executed by a plurality of devices. For example, the
本開示は、上記の実施形態で説明した機能を実装したコンピュータプログラムをコンピュータに供給し、当該コンピュータが有する1つ以上のプロセッサがプログラムを読み出して実行することによっても実現可能である。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な非一時的なコンピュータ可読記憶媒体によってコンピュータに提供されてもよいし、ネットワークを介してコンピュータに提供されてもよい。非一時的なコンピュータ可読記憶媒体は、例えば、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクドライブ(HDD)等)、光ディスク(CD-ROM、DVDディスク・ブルーレイディスク等)など任意のタイプのディスク、読み込み専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納するために適した任意のタイプの媒体を含む。 The present disclosure can also be realized by supplying a computer program implementing the functions described in the above embodiments to a computer, and having one or more processors included in the computer read and execute the program. Such a computer program may be provided to the computer by a non-transitory computer-readable storage medium connectable to the computer's system bus, or may be provided to the computer via a network. The non-transitory computer-readable storage medium may be any type of disk, such as a magnetic disk (floppy disk, hard disk drive (HDD), etc.), an optical disk (CD-ROM, DVD disk, Blu-ray disk, etc.), Includes read only memory (ROM), random access memory (RAM), EPROM, EEPROM, magnetic cards, flash memory, optical cards, and any type of medium suitable for storing electronic instructions.
100・・・情報処理システム
200・・・ネットワーク
300・・・サーバ
301・・・通信部
302・・・記憶部
303・・・制御部
400・・・ユーザ端末
100...
Claims (4)
前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得することと、
前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節することと、
を実行する制御部を備え、
前記制御部は、
前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、
前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第2撮影画像データを取得することと、
を更に実行し、
前記第2撮影画像データを教師データとして、前記事前学習モデルに学習を行わせる、
情報処理装置。 Obtaining first captured image data that is captured image data captured by a camera and represents a facial expression image of the user when the user views the content;
The first photograph is applied to a pre-learning model constructed by learning a comfort state, which is a state of pleasure and displeasure felt by the user when the user views the content, using image data photographed in advance. Obtaining by inputting image data,
automatically adjusting the volume of the content based on the comfort state so as to improve the user's comfort level when the user views the content;
Equipped with a control unit that executes
The control unit includes:
Before the user views the content, initial content for initial settings is played back, and during playback, the volume of the initial content is automatically changed, and the timing at which the user feels uncomfortable due to the change in volume is obtained. And,
acquiring second photographed image data that is photographed image data photographed by the camera and represents an expression image of the user at the timing;
further execute,
causing the pre-learning model to perform learning using the second captured image data as training data;
Information processing device.
前記第2撮影画像データを加工することで生成される撮影画像データであって、該第2撮影画像データに含まれる人物の位置が任意に変更された、又は/及び該第2撮影画像データに含まれる背景の色が任意に変更された、又は/及び該第2撮影画像データに含まれる人物の服装が任意に変更された、前記ユーザの画像を表す第3撮影画像データを自動で生成することを、更に実行し、
前記第3撮影画像データを前記教師データに加えて、前記事前学習モデルに学習を行わせる、
請求項1に記載の情報処理装置。 The control unit includes:
Photographed image data generated by processing the second photographed image data, wherein the position of a person included in the second photographed image data has been arbitrarily changed, and/or the position of the person included in the second photographed image data has been changed. Automatically generate third photographed image data representing an image of the user in which the color of the included background has been arbitrarily changed and/or the clothing of the person included in the second photographed image data has been arbitrarily changed. do more of that,
adding the third captured image data to the teacher data and causing the pre-learning model to perform learning;
The information processing device according to claim 1 .
カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得する第1取得ステップと、
前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得する第2取得ステップと、
前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する自動調整ステップと、
を実行し、
前記コンピュータは、
前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、
前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第2撮影画像データを取得することと、
を更に実行し、
前記第2撮影画像データを教師データとして、前記事前学習モデルに学習を行わせることを実行する、
情報処理方法。 The computer is
a first acquisition step of acquiring first photographed image data, which is photographed image data photographed by a camera and represents a facial expression image of the user when the user views the content;
The first photograph is applied to a pre-learning model constructed by learning a comfort state, which is a state of pleasure and displeasure felt by the user when the user views the content, using image data photographed in advance. a second acquisition step of acquiring image data by inputting it;
an automatic adjustment step of automatically adjusting the volume of the content based on the comfort state so as to improve the comfort of the user when the user views the content;
Run
The computer includes:
Before the user views the content, initial content for initial settings is played back, and during playback, the volume of the initial content is automatically changed, and the timing at which the user feels uncomfortable due to the change in volume is obtained. And,
acquiring second photographed image data that is photographed image data photographed by the camera and represents an expression image of the user at the timing;
further execute,
causing the pre-learning model to perform learning using the second captured image data as training data;
Information processing method.
カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得する第1取得ステップと、
前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得する第2取得ステップと、
前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する自動調整ステップと、
を実行させ、
前記コンピュータに、
前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、
前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第2撮影画像データを取得することと、
を更に実行させ、
前記第2撮影画像データを教師データとして、前記事前学習モデルに学習を行わせることを実行させる、
情報処理プログラム。 to the computer,
a first acquisition step of acquiring first photographed image data, which is photographed image data photographed by a camera and represents a facial expression image of the user when the user views the content;
The first photograph is applied to a pre-learning model constructed by learning a comfort state, which is a state of pleasure and displeasure felt by the user when the user views the content, using image data photographed in advance. a second acquisition step of acquiring image data by inputting it;
an automatic adjustment step of automatically adjusting the volume of the content based on the comfort state so as to improve the comfort of the user when the user views the content;
run the
to the computer;
Before the user views the content, initial content for initial settings is played back, and during playback, the volume of the initial content is automatically changed, and the timing at which the user feels uncomfortable due to the change in volume is obtained. And,
acquiring second photographed image data that is photographed image data photographed by the camera and represents an expression image of the user at the timing;
further execute
causing the pre-learning model to perform learning using the second captured image data as training data;
Information processing program.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023061972A JP7369884B1 (en) | 2023-04-06 | 2023-04-06 | Information processing device, information processing method, and information processing program |
JP2023128378A JP7371299B1 (en) | 2023-04-06 | 2023-08-07 | Information processing device, information processing method, and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023061972A JP7369884B1 (en) | 2023-04-06 | 2023-04-06 | Information processing device, information processing method, and information processing program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023128378A Division JP7371299B1 (en) | 2023-04-06 | 2023-08-07 | Information processing device, information processing method, and information processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7369884B1 true JP7369884B1 (en) | 2023-10-26 |
Family
ID=88418629
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023061972A Active JP7369884B1 (en) | 2023-04-06 | 2023-04-06 | Information processing device, information processing method, and information processing program |
JP2023128378A Active JP7371299B1 (en) | 2023-04-06 | 2023-08-07 | Information processing device, information processing method, and information processing program |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023128378A Active JP7371299B1 (en) | 2023-04-06 | 2023-08-07 | Information processing device, information processing method, and information processing program |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7369884B1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008065169A (en) | 2006-09-08 | 2008-03-21 | Sony Corp | Display device and display method |
JP2016161830A (en) | 2015-03-03 | 2016-09-05 | カシオ計算機株式会社 | Content output device, content output method, and program |
CN110413239A (en) | 2018-04-28 | 2019-11-05 | 腾讯科技(深圳)有限公司 | Parameter adjusting method, device and storage medium is arranged in terminal |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020065097A (en) | 2017-02-21 | 2020-04-23 | パナソニックIpマネジメント株式会社 | Electronic device control method, electronic device control system, electronic device, and program |
-
2023
- 2023-04-06 JP JP2023061972A patent/JP7369884B1/en active Active
- 2023-08-07 JP JP2023128378A patent/JP7371299B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008065169A (en) | 2006-09-08 | 2008-03-21 | Sony Corp | Display device and display method |
JP2016161830A (en) | 2015-03-03 | 2016-09-05 | カシオ計算機株式会社 | Content output device, content output method, and program |
CN110413239A (en) | 2018-04-28 | 2019-11-05 | 腾讯科技(深圳)有限公司 | Parameter adjusting method, device and storage medium is arranged in terminal |
Also Published As
Publication number | Publication date |
---|---|
JP7371299B1 (en) | 2023-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8847884B2 (en) | Electronic device and method for offering services according to user facial expressions | |
WO2022105846A1 (en) | Virtual object display method and apparatus, electronic device, and medium | |
TW201633794A (en) | Information processing apparatus, information processing method, and program | |
TWI255141B (en) | Method and system for real-time interactive video | |
JP4924442B2 (en) | Playback apparatus, control method thereof, and program | |
TW201233413A (en) | Input support device, input support method, and recording medium | |
CN113204282B (en) | Interactive device, interactive method, computer readable storage medium and computer program product | |
KR20190076360A (en) | Electronic device and method for displaying object for augmented reality | |
CN110677707A (en) | Interactive video generation method, generation device, equipment and readable medium | |
US8311839B2 (en) | Device and method for selective image display in response to detected voice characteristics | |
KR20200092207A (en) | Electronic device and method for providing graphic object corresponding to emotion information thereof | |
JP7369884B1 (en) | Information processing device, information processing method, and information processing program | |
CN112235635B (en) | Animation display method, animation display device, electronic equipment and storage medium | |
CN112306238A (en) | Method and device for determining interaction mode, electronic equipment and storage medium | |
JP2012078461A (en) | Image display device and program | |
JP6491808B1 (en) | Game program and game apparatus | |
US20230049225A1 (en) | Emotion tag assigning system, method, and program | |
JP6583931B2 (en) | GAME PROGRAM AND GAME DEVICE | |
WO2022262560A1 (en) | Image display method and apparatus, device, and storage medium | |
US20240127777A1 (en) | Method and apparatus for generating music file, and electronic device and storage medium | |
CN110460719B (en) | Voice communication method and mobile terminal | |
US20220237857A1 (en) | Producing a digital image representation of a body | |
JP7324475B1 (en) | Information processing device, information processing method and information processing program | |
EP4339809A1 (en) | Method and apparatus for generating music file, and electronic device and storage medium | |
US20240096329A1 (en) | Qa tv-making millions of characters alive |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230808 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230927 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7369884 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |