JP2018196099A - Psychological factor score estimation value calculation device, psychological factor score estimation value calculation method, and program - Google Patents

Psychological factor score estimation value calculation device, psychological factor score estimation value calculation method, and program Download PDF

Info

Publication number
JP2018196099A
JP2018196099A JP2017101206A JP2017101206A JP2018196099A JP 2018196099 A JP2018196099 A JP 2018196099A JP 2017101206 A JP2017101206 A JP 2017101206A JP 2017101206 A JP2017101206 A JP 2017101206A JP 2018196099 A JP2018196099 A JP 2018196099A
Authority
JP
Japan
Prior art keywords
video
psychological factor
factor score
psychological
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017101206A
Other languages
Japanese (ja)
Inventor
喜美子 川嶋
Kimiko Kawashima
喜美子 川嶋
和久 山岸
Kazuhisa Yamagishi
和久 山岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017101206A priority Critical patent/JP2018196099A/en
Publication of JP2018196099A publication Critical patent/JP2018196099A/en
Pending legal-status Critical Current

Links

Landscapes

  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

To provide a psychological factor score estimation value calculation device capable of estimating a psychological factor score on the basis of an image parameter, a quality design parameter and a synchronization degree of image and sound.SOLUTION: The psychological factor score estimation value calculation device comprises: input means configured to input a psychological factor, an image parameter, a quality design parameter, an image signal and a sound signal; storage means configured to hold coefficients of a formula for calculating psychological factor score estimation value for each of multiple psychological factors; image-voice synchronization degree calculation means configured to calculate a synchronization degree of image and sound from the input image signal and sound signal; calculation means configured to calculate a psychological factor score estimation value by reading the input psychological factor and a coefficient corresponding to the image parameter from the storage means and inputting into formula, to which the coefficient is applied, the input image parameter, the quality design parameter, and the calculated synchronization degree of image and sound; and output means configured to output the psychological factor score estimation value.SELECTED DRAWING: Figure 4

Description

本発明は、映像配信サービス、TV電話サービスなどの映像サービスにおける心理要因スコアを推定するための技術に関連するものである。   The present invention relates to a technique for estimating a psychological factor score in a video service such as a video distribution service and a videophone service.

ユーザに良好な品質で映像サービスを提供するためには、サービス提供前にユーザが体感する映像品質が良好になるようにシステムを設計することが重要である。これらを実施するためには、ユーザが体感する映像の品質を適切に評価できる映像品質定量化法が必要である。   In order to provide a video service with good quality to the user, it is important to design the system so that the video quality experienced by the user is good before providing the service. In order to implement these, a video quality quantification method capable of appropriately evaluating the quality of the video experienced by the user is necessary.

映像品質を定量化する手法には、主観品質評価法(例えば、非特許文献1参照)と、品質推定技術(例えば、非特許文献2、3参照)とが存在する。主観品質評価法は、評価環境(室内照度や室内騒音など)が再現可能な施設において、多数のユーザに映像を評価してもらう必要がある。そのため、評価に時間を要する。そこで、メディア信号や、サービスや通信に係わる物理的な特徴量から映像品質値を出力する品質推定技術の開発が進められている(例えば、非特許文献2、3、4参照)。   Methods for quantifying video quality include a subjective quality evaluation method (for example, see Non-Patent Document 1) and a quality estimation technique (for example, see Non-Patent Documents 2 and 3). The subjective quality evaluation method requires a large number of users to evaluate video images in a facility where the evaluation environment (room illuminance, room noise, etc.) can be reproduced. Therefore, evaluation takes time. Therefore, development of a quality estimation technique for outputting a video quality value from a media signal or a physical feature amount related to service or communication is being developed (for example, see Non-Patent Documents 2, 3, and 4).

映像品質推定技術は、入力情報に基づき分類される。入力情報の多さに依存して、計算量や品質推定精度が異なるため、利用用途によって使い分けることが必要である。例えば、映像サービス設計者がサービス提供前の品質設計のために品質推定技術を用いる際には、ネットワークや端末の品質設計パラメータ(例えば、ビットレートやパケット損失率)を入力とする映像品質推定技術を用いる。それにより、目標とする映像品質を達成するためにはどのような品質設計パラメータ値を設定する必要があるかを把握することができる(非特許文献4)。   Video quality estimation techniques are classified based on input information. Depending on the amount of input information, the amount of calculation and the quality estimation accuracy differ, so it is necessary to use them according to the purpose of use. For example, when a video service designer uses a quality estimation technique for quality design before service provision, a video quality estimation technique that receives network and terminal quality design parameters (for example, bit rate and packet loss rate) as input. Is used. Thereby, it is possible to grasp what quality design parameter value needs to be set in order to achieve the target video quality (Non-Patent Document 4).

ITU-T勧告P.910 "Subjective video quality assessment methods for multimedia applications"ITU-T recommendation P.910 "Subjective video quality assessment methods for multimedia applications" ITU-T勧告J.247 "Objective perceptual multimedia video quality measurement in the presence of a full reference"ITU-T recommendation J.247 "Objective perceptual multimedia video quality measurement in the presence of a full reference" ITU-T勧告J.341 "Objective perceptual multimedia video quality measurement of HDTV for digital cable television in the presence of a full reference"ITU-T Recommendation J.341 "Objective perceptual multimedia video quality measurement of HDTV for digital cable television in the presence of a full reference" 映像通信サービスの品質設計技術(http://www.ntt.co.jp/journal/0901/files/jn200901016.pdf)Quality design technology for video communication services (http://www.ntt.co.jp/journal/0901/files/jn200901016.pdf) 間近に迫る8K放送(https://www.nhk.or.jp/digital/b_tech/pdf2015/nhk2015_02_07.pdf)Upcoming 8K broadcast (https://www.nhk.or.jp/digital/b_tech/pdf2015/nhk2015_02_07.pdf)

近年、4K/8K映像といった超高精細映像サービスが注目されている。4K/8K映像サービスでは、従来のフルHD映像サービスに比べ、解像度、フレームレート、ビット深度が向上している(非特許文献5)。そのため、自然な映像表示が可能となり、映像品質が高いことのみならず、より豊かな感覚(心理要因)を体験できることが期待されている。   In recent years, ultra-high definition video services such as 4K / 8K video have attracted attention. In the 4K / 8K video service, the resolution, the frame rate, and the bit depth are improved compared to the conventional full HD video service (Non-Patent Document 5). Therefore, it is expected that natural video display becomes possible, and not only high video quality but also a richer sense (psychological factor) can be experienced.

より豊かな超高精細映像サービスを提供するためには、映像品質だけではなく、超高精細映像ならではの心理要因(例:美的感,躍動感等)も考慮して、映像サービスを設計することが必要である。例えば、より美しい映像の旅行番組を提供することができれば、ユーザは、旅行先の風景や食事など提示された映像空間のイメージを鮮明に持つことができ、ユーザの映像サービスに対する満足度(ユーザ満足度)が向上する。また、試合の迫力や熱気が感じられるようなスポーツ番組を提供することができれば、ユーザは、あたかも観客席で見ているかのような躍動感を感じることができ、ユーザ満足度が向上する。美的感の高い旅行番組や躍動感の高いスポーツ番組を提供するためには、美的感や躍動感をある程度以上に保つよう、それぞれの番組を設計することが必要である。   In order to provide a richer ultra-high-definition video service, the video service should be designed in consideration of not only video quality but also psychological factors (eg, aesthetic feeling, dynamic feeling, etc.) unique to ultra-high-definition video. is necessary. For example, if a travel program with a more beautiful video can be provided, the user can clearly have an image of the presented video space such as the scenery and meal of the travel destination, and the user's satisfaction with the video service (user satisfaction) Degree). Also, if a sports program that can feel the power of the game and the enthusiasm can be provided, the user can feel a sense of dynamism as if he / she was watching in the auditorium, and the user satisfaction is improved. In order to provide travel programs with high aesthetics and sports programs with high dynamism, it is necessary to design each program so that the aesthetic sensation and dynamism are maintained to some extent.

心理要因に基づき映像サービスを設計するためには、映像パラメータ(解像度、フレームレート、ビット深度)や品質設計パラメータ(符号化ビットレート)とユーザが心理要因から受ける感覚の値(心理要因スコア)との関係を把握することが必要である。ここでは、入力される映像パラメータが1つのときと2つ以上のときに分けて説明する。   In order to design a video service based on psychological factors, video parameters (resolution, frame rate, bit depth), quality design parameters (encoding bit rate), and sensory values (psychological factor score) that users receive from psychological factors It is necessary to grasp the relationship. Here, a description will be given separately when the input video parameter is one and when it is two or more.

まず、入力される映像パラメータが1つのときについて説明する。図1に、心理要因毎、映像パラメータ毎に、符号化ビットレートと心理要因スコアの関係を例示する。ここでは、一例として、心理要因として美的感、躍動感、自然感、開放感、立体感の5つを示す。図1(a)には、映像パラメータとして解像度が入力されたときの符号化ビットレートと心理要因スコアの関係を、図1(b)には、フレームレートが入力されたときの符号化ビットレートと心理要因スコアの関係を、図1(c)には、ビット深度が入力されたときの符号化ビットレートと心理要因スコアの関係を心理要因毎に示す。図1より、心理要因毎、映像パラメータ毎に、符号化ビットレートと心理要因スコアの関係性は異なることがわかる。   First, a case where one video parameter is input will be described. FIG. 1 illustrates the relationship between the encoding bit rate and the psychological factor score for each psychological factor and each video parameter. Here, as an example, five psychological factors such as aesthetic feeling, dynamic feeling, natural feeling, open feeling, and three-dimensional feeling are shown. FIG. 1A shows the relationship between the encoding bit rate when the resolution is input as the video parameter and the psychological factor score, and FIG. 1B shows the encoding bit rate when the frame rate is input. FIG. 1C shows the relationship between the coding bit rate when the bit depth is input and the psychological factor score for each psychological factor. FIG. 1 shows that the relationship between the encoding bit rate and the psychological factor score is different for each psychological factor and each video parameter.

しかし、映像パラメータが、符号化ビットレートと心理要因スコアの関係性に及ぼす影響の大きさは、心理要因によって異なる。例えば、解像度が変化すると映像の鮮明さが変化する。映像の鮮明さは美的感や自然感に影響を与えるため、図1(a)に示すように、美的感や自然感では、解像度によって、符号化ビットレートと心理要因スコアの関係性が大きく異なることがわかる。フレームレートが変化すると動きのスムーズさが変化する。動きのスムーズさは躍動感や自然感に影響を与えるため、図1(b)に示すように、躍動感や自然感では、フレームレートによって、符号化ビットレートと心理要因スコアの関係性が大きく異なることがわかる。ビット深度が変化すると被写体のエッジの際立ち具合が変化する。エッジの際立ち具合は開放感や立体感に影響を与えるため、図1(c)に示すように、開放感や立体感では、ビット深度によって、符号化ビットレートと心理要因スコアの関係性が大きく異なることがわかる。以上より、心理要因毎、映像パラメータ毎に、符号化ビットレートと心理要因スコアの関係性は異なることがわかる。そのため、1つの映像パラメータと符号化ビットレートを変化させ、特定の心理要因スコア向上させるためには、心理要因毎に、映像パラメータや符号化ビットレートと心理要因スコアの関係を定式化した心理要因スコア推定技術を用いる必要がある。なお、図1(a)〜(c)より、符号化ビットレートが高い領域では、映像パラメータを向上させると各心理要因スコアは高くなるが、符号化ビットレートが低い領域では、必ずしもそうはなっていない。これは、符号化ビットレートが低い領域では、同じビットレートで比較すると、映像パラメータを向上させた映像の方が圧縮率が高くなり、大きな劣化が発生するためである。   However, the magnitude of the influence of video parameters on the relationship between the encoding bit rate and the psychological factor score differs depending on the psychological factor. For example, when the resolution changes, the sharpness of the image changes. Since the sharpness of the image affects the aesthetic feeling and the natural feeling, as shown in FIG. 1A, the relationship between the coding bit rate and the psychological factor score varies greatly depending on the resolution in the aesthetic feeling and the natural feeling. I understand that. When the frame rate changes, the smoothness of movement changes. Since smoothness of movement affects dynamic feeling and natural feeling, as shown in FIG. 1B, in relation to dynamic feeling and natural feeling, the relationship between the encoding bit rate and the psychological factor score greatly depends on the frame rate. I can see that they are different. When the bit depth changes, the standing condition changes at the edge of the subject. Since the standing condition of the edge affects the feeling of openness and stereoscopic effect, as shown in FIG. 1C, in the sense of openness and stereoscopic effect, the relationship between the coding bit rate and the psychological factor score greatly depends on the bit depth. I can see that they are different. From the above, it can be seen that the relationship between the encoding bit rate and the psychological factor score is different for each psychological factor and each video parameter. Therefore, in order to change one video parameter and the encoding bit rate and improve a specific psychological factor score, a psychological factor that formulates the relationship between the video parameter and the encoding bit rate and the psychological factor score for each psychological factor It is necessary to use a score estimation technique. As shown in FIGS. 1A to 1C, in the region where the encoding bit rate is high, the psychological factor score increases when the video parameter is improved, but in the region where the encoding bit rate is low, this is not necessarily the case. Not. This is because, in an area where the encoding bit rate is low, when the comparison is made at the same bit rate, a video with improved video parameters has a higher compression rate and a large deterioration occurs.

次に、入力される映像パラメータが2つ以上のときについて説明する。図2では、心理要因毎に、3つ全てのパラメータを変化させたときの符号化ビットレートと心理要因スコアの関係を示している。ここでは、4K60P10bit映像と2K30P8bit映像を例示する。図2に示すように、図1に示した映像パラメータ毎の特性を考慮すると、映像パラメータ同士の相乗効果により、符号化ビットレートが高い領域では4K60P10bit映像の方が2K30P8bit映像よりも各心理要因スコアが高くなる。また、符号化ビットレートが低い領域では、2K30P8bit映像の方が4K60P10bit映像よりも各心理要因スコアが低くなる。そのため、2つ以上の映像パラメータを同時に変化させた場合には、映像パラメータ同士の相乗効果を考慮して各心理要因スコアを導出する技術が必要である。   Next, a case where two or more video parameters are input will be described. FIG. 2 shows the relationship between the coding bit rate and the psychological factor score when all three parameters are changed for each psychological factor. Here, 4K60P10-bit video and 2K30P8-bit video are illustrated. As shown in FIG. 2, taking into account the characteristics of each video parameter shown in FIG. 1, due to the synergistic effect of the video parameters, 4K60P10bit video is higher in each psychological factor score than 2K30P8bit video in the region where the encoding bit rate is high. Becomes higher. In the region where the encoding bit rate is low, the psychological factor score is lower in the 2K30P8-bit video than in the 4K60P10-bit video. Therefore, when two or more video parameters are changed simultaneously, a technique for deriving each psychological factor score in consideration of a synergistic effect between the video parameters is necessary.

更に、映像サービスを設計する場合、映像だけではなく、音響の影響を考慮することが必要である。映像に音響を付加する方法には、映像と無関係の音響を付加する方法と映像と同時収録した音響を付加する方法がある。映像と同時収録した音響を付加した例としては、包丁で食材を切っている料理のシーンで、包丁の動きに合った包丁の音が付加されている例や、森の中を鳥が飛んでいるシーンで、鳥の動きに合わせて鳥の鳴き声が付加される例、合唱団が歌っているシーンに歌声が付加される例がある。   Furthermore, when designing a video service, it is necessary to consider not only video but also the influence of sound. There are two methods for adding sound to an image: a method for adding sound unrelated to the image and a method for adding sound simultaneously recorded with the image. Examples of adding sound recorded simultaneously with the image are cooking scenes where the ingredients are cut with a kitchen knife, where the sound of the kitchen knife that matches the movement of the kitchen knife is added, and birds flying in the forest There is an example in which a song of a bird is added in accordance with the movement of a bird in a scene, and an example in which a singing voice is added to a scene in which a choir is singing.

図3に示すように、映像と無関係の音響を付加する方法と映像と同時収録した音響を付加する方法では、音響のない場合に比べて心理要因スコアが向上する。しかし、映像と同時収録した音響を付加した場合と、映像と無関係の音響を付加した場合とでは、心理要因スコアの向上の度合いは異なる。映像と音響を同時収録している場合の方が、より提示されている映像空間の印象を強く受けられるようになるため、心理要因スコアの向上の度合いは大きくなる。また、映像と同時収録した音響を付加することが心理要因スコアに及ぼす影響は、心理要因によって異なる。例えば、躍動感や自然感、開放感では、映像と同時収録した音響を付加することで、映像のもつ迫力や広がりが強調されるため、音響がない場合や映像とは無関係の音響を付加する場合よりも心理要因スコアは高くなる。そのため、心理要因毎に、音響が付加されているか否かや、付加された音響が映像と同時収録されているのか否かによって心理要因スコアを導出する技術が必要である。   As shown in FIG. 3, the psychological factor score is improved by the method of adding sound unrelated to the image and the method of adding sound simultaneously recorded with the image as compared to the case without sound. However, the degree of improvement of the psychological factor score differs between the case where the sound recorded simultaneously with the video is added and the case where the sound unrelated to the video is added. When the video and sound are recorded simultaneously, the impression of the presented video space can be received more strongly, and the degree of improvement of the psychological factor score is increased. In addition, the effect of adding sound recorded simultaneously with video on the psychological factor score varies depending on the psychological factor. For example, in the sense of liveliness, naturalness, and openness, adding the sound recorded simultaneously with the video emphasizes the power and spread of the video, so when there is no sound or the audio is unrelated to the video The psychological factor score is higher than the case. Therefore, a technique for deriving a psychological factor score is required depending on whether or not sound is added for each psychological factor and whether or not the added sound is recorded simultaneously with the video.

しかし、映像と音響が同時収録されている場合でも、映像に存在する特徴的な物体と音響の関連の強さによって、心理要因スコアに与える影響は異なる。具体的には、ユーザの視線は、映像に映っている物体のうち、その音響と同期して動く特徴的な物体に引き付けられる。そのため、その物体の印象が強く残り、心理要因スコアは向上する。例えば、急に包丁で食材を刻む音が聞こえると、ユーザの視線はその音と同期して動く包丁に引き付けられ、包丁の印象が鮮明に残る。また、静かな森のシーンの途中で急に鳥の鳴き声が聞こえると、ユーザの視線はその音と同期して動く鳥に引き付けられ、鳥の印象が鮮明に残る。しかし、特徴的な音が聞こえてきても、動く物体がたくさん存在する場合には、ユーザの視線はいろいろなところに向くため、心理要因の向上の度合いは限定的となる。例えば、合唱団が大勢で歌っているシーンでは、ユーザの視線は特定の物体に引き付けられないため、心理要因の向上の度合いは限定的となる。そのため、映像と音響が同時収録されている場合に、映像に存在する特徴的な物体と音響の関連の強さ(映像と音響の同期度)に基づいて心理要因スコアを導出する技術が必要である。   However, even when video and sound are recorded simultaneously, the influence on the psychological factor score varies depending on the strength of the relationship between the characteristic object and sound existing in the video. Specifically, the user's line of sight is attracted to a characteristic object that moves in synchronization with the sound among the objects shown in the video. Therefore, the impression of the object remains strong and the psychological factor score is improved. For example, if you suddenly hear the sound of chopping food with a kitchen knife, the user's line of sight is attracted to the kitchen knife that moves in synchronization with the sound, leaving a sharp impression of the kitchen knife. In addition, if a bird's cry is suddenly heard in the middle of a quiet forest scene, the user's line of sight is attracted to the moving bird in synchronization with the sound, and the bird's impression remains clear. However, even if a characteristic sound is heard, if there are many moving objects, the user's line of sight is directed to various places, so the degree of improvement of psychological factors is limited. For example, in a scene in which a choir is singing in large numbers, the user's line of sight cannot be attracted to a specific object, so the degree of improvement in psychological factors is limited. Therefore, when video and sound are recorded at the same time, it is necessary to have a technology for deriving a psychological factor score based on the strength of the relationship between the characteristic object existing in the video and the sound (the degree of synchronization between the video and the sound). is there.

また、映像に存在する特徴的な物体と音響に関連がある場合、映像と音響が関連している時間の長さや動きのある物体が存在する映像空間の領域面積の影響によって、心理要因スコアに与える影響は異なる。具体的には、視聴している映像シーンにおいて、映像と音響が関連しているシーンが長く続くほど、心理要因スコアは向上する。そのため、映像と音響が関連しているシーンが視聴しているコンテンツのどの程度の時間を占めるのかを定量化し、心理要因スコアの推定に反映する必要がある。また、音響と関連している物体が映像空間のどの程度の領域を占めるかによってもユーザの受ける印象に及ぼす影響は異なる。そのため、音響と関連している物体が存在する映像空間の領域を定量化し、心理要因スコアの推定に反映する必要がある。以上より、映像と音響が関連している時間の長さや動きのある物体が存在する映像空間の領域面積の影響を加味して映像と音響の同期度を導出し、心理要因スコアを導出する技術が必要である。   In addition, when there is a relationship between the characteristic object and the sound existing in the video, the psychological factor score depends on the length of time that the video and the sound are related and the area area of the video space where the moving object exists. The impact is different. Specifically, the psychological factor score improves as the scene in which the video and the sound are related lasts longer in the video scene being viewed. For this reason, it is necessary to quantify how much time is spent in the content being viewed by a scene in which video and sound are related, and reflect this in the estimation of the psychological factor score. In addition, the influence on the user's impression varies depending on how much the object related to sound occupies in the video space. Therefore, it is necessary to quantify the region of the video space where an object related to sound exists and reflect it in the estimation of the psychological factor score. Based on the above, the technology for deriving the psychological factor score by deriving the degree of synchronization between the image and the sound, taking into account the length of time that the image and sound are related and the area of the image space where there is a moving object is necessary.

本発明は、上記の点に鑑みてなされたものであって、映像サービス設計者が、映像パラメータと、品質設計パラメータと、映像と音響の同期度とに基づき、サービスの訴求ポイントとする心理要因の心理要因スコアを推定することを可能とする技術を提供することを目的とする。   The present invention has been made in view of the above points, and the video service designer uses psychological factors as service appeal points based on video parameters, quality design parameters, and the degree of synchronization between video and audio. An object of the present invention is to provide a technique that makes it possible to estimate a psychological factor score.

開示の技術によれば、心理要因と、1つ以上の映像パラメータと、1つ以上の品質設計パラメータと、映像信号と、音響信号とを入力する入力手段と、
映像パラメータと、品質設計パラメータと、映像と音響の同期度とに基づき心理要因スコア推定値を算出するための数式の係数を、複数の心理要因のそれぞれに対して保持する記憶手段と、
前記入力手段により入力された映像信号と音響信号とから、映像と音響の同期度を算出する映像音声同期度算出手段と、
前記入力手段により入力された心理要因と映像パラメータに対応する係数を前記記憶手段から読み出し、当該係数を適用した数式に、前記入力手段により入力された映像パラメータと品質設計パラメータ、及び、前記映像音声同期度算出手段により算出された映像と音響の同期度を入力することにより、心理要因スコア推定値を算出する算出手段と、
前記算出手段により算出された心理要因スコア推定値を出力する出力手段と
を備えることを特徴とする心理要因スコア推定値算出装置が提供される。
According to the disclosed technique, input means for inputting psychological factors, one or more video parameters, one or more quality design parameters, a video signal, and an audio signal;
Storage means for holding a coefficient of a mathematical formula for calculating a psychological factor score estimate based on the video parameter, the quality design parameter, and the degree of synchronization between the video and the sound, for each of a plurality of psychological factors;
Video / audio synchronization calculating means for calculating the degree of synchronization between video and sound from the video signal and the audio signal input by the input means;
Coefficients corresponding to psychological factors and video parameters input by the input means are read from the storage means, and the video parameters and quality design parameters input by the input means, and the video and audio are added to mathematical expressions to which the coefficients are applied. Calculating means for calculating a psychological factor score estimate by inputting the degree of synchronization between the video and the sound calculated by the synchronization degree calculating means;
An apparatus for calculating a psychological factor score estimate value, comprising: output means for outputting a psychological factor score estimate value calculated by the calculating means is provided.

開示の技術によれば、映像サービス設計者が、音響の影響も考慮し、解像度、フレームレート、ビット深度といった映像パラメータと品質設計パラメータの符号化ビットレートのうち、どのパラメータを変化させることで目標とする心理要因スコアを達成できるかを把握することができるようになる。その結果、よりユーザ満足度の高い映像サービスを提供できるようになる。   According to the disclosed technology, the video service designer considers the influence of sound, and changes the target parameter by changing which of the video parameters such as resolution, frame rate, and bit depth and the encoding bit rate of the quality design parameters. It becomes possible to grasp whether or not the psychological factor score can be achieved. As a result, a video service with higher user satisfaction can be provided.

映像パラメータの入力が1つのときの映像パラメータと心理要因スコアの関係例を示す図である。It is a figure which shows the example of a relationship between a video parameter and a psychological factor score when the input of a video parameter is one. 映像パラメータの入力が2つ以上のときの映像パラメータと心理要因スコアの関係例を示す図である。It is a figure which shows the example of a relationship between a video parameter and a psychological factor score when the input of a video parameter is two or more. 音響と心理要因スコアの関係例を示す図である。It is a figure which shows the example of a relationship between an acoustic and a psychological factor score. 本発明の実施の形態における心理要因スコア推定装置の構成例を示す図である。It is a figure which shows the structural example of the psychological factor score estimation apparatus in embodiment of this invention. 本発明の実施の形態における心理要因スコア推定装置のハードウェア構成例を示す図である。It is a figure which shows the hardware structural example of the psychological factor score estimation apparatus in embodiment of this invention. 本発明の実施の形態における映像音響同期度推定部21のフローを示す図である。It is a figure which shows the flow of the audiovisual synchronization degree estimation part 21 in embodiment of this invention. 本発明の実施の形態における音響と映像が同期している可能性がある音響区間の抽出例を示す図である。It is a figure which shows the example of extraction of the sound area in which the sound and image | video in embodiment of this invention may be synchronized. 本発明の実施の形態における音響に対応して変化する映像フレーム領域の抽出例を示す図である。It is a figure which shows the example of extraction of the image | video frame area | region which changes according to the sound in embodiment of this invention. 本発明の実施の形態における映像パラメータと心理要因スコア導出関数の係数αの関係例を示す図である。It is a figure which shows the example of a relationship between the image parameter in embodiment of this invention, and coefficient (alpha) of the psychological factor score derivation function. 本発明の実施の形態における映像音響同期度と心理要因スコア導出関数の係数γの関係例を示す図である。It is a figure which shows the example of a relationship between the image | video audio | voice synchronization degree in embodiment of this invention, and coefficient (gamma) of the psychological factor score derivation | leading-out function.

以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。また、本実施の形態では、5つの心理要因と、3つの映像パラメータと、1つの品質設計パラメータを使用しているが、これらは例である。例えば、5つより多い心理要因を使用してもよいし、5つより少ない1つ以上の心理要因を使用してもよいし、3つより多い映像パラメータを使用してもよいし、3つより少ない1つ以上の映像パラメータを使用してもよいし、1つより多い品質設計パラメータを使用してもよい。   Hereinafter, an embodiment (this embodiment) of the present invention will be described with reference to the drawings. The embodiment described below is merely an example, and the embodiment to which the present invention is applied is not limited to the following embodiment. In this embodiment, five psychological factors, three video parameters, and one quality design parameter are used, but these are examples. For example, more than 5 psychological factors may be used, less than 5 one or more psychological factors may be used, more than 3 video parameters may be used, 3 Less one or more video parameters may be used, and more than one quality design parameter may be used.

(実施の形態の概要)
本実施の形態では、映像配信サービス、TV電話サービスなどの映像サービスにおいて、サービスの訴求ポイントとする心理要因の心理要因スコアを推定する心理要因スコア推定装置が提供される。心理要因スコア推定装置は、心理要因スコア推定部、係数DBから構成される。心理要因スコア推定部は、映像音響同期度推定部を内包する。入力は、推定対象の心理要因と映像パラメータ、符号化ビットレート、映像信号、音響信号である。
(Outline of the embodiment)
In the present embodiment, there is provided a psychological factor score estimating apparatus for estimating a psychological factor score of a psychological factor as a service appeal point in a video service such as a video distribution service and a videophone service. The psychological factor score estimation device is composed of a psychological factor score estimation unit and a coefficient DB. The psychological factor score estimation unit includes a video / audio synchronization degree estimation unit. Inputs are psychological factors to be estimated, video parameters, encoding bit rate, video signal, and audio signal.

映像音響同期度推定部において、映像信号と音響信号から映像と音響の同期度を推定する。心理要因スコア推定部において、心理要因スコア導出関数を用いて心理要因スコアを推定する。心理要因スコア導出関数は、図1に示すように、符号化ビットレートと心理要因スコアの関係性は入力される映像パラメータによって異なること、図2に示すように、映像パラメータ同士の相乗効果を考慮する必要があること、図3に示すように、映像と音響の同期の効果を考慮する必要があることを加味して定式化したものを使用する。   In the video / audio synchronization estimation unit, the video / sound synchronization is estimated from the video signal and the audio signal. The psychological factor score estimation unit estimates a psychological factor score using a psychological factor score derivation function. The psychological factor score derivation function takes into account that the relationship between the encoding bit rate and the psychological factor score varies depending on the input video parameters as shown in FIG. 1, and the synergistic effect between the video parameters as shown in FIG. As shown in FIG. 3, a formula formulated in consideration of the necessity of considering the effect of synchronization between video and audio is used.

また、心理要因スコア導出関数の係数は、係数DBに格納されており、例えば、映像パラメータ毎、心理要因毎、映像音響の同期度毎に設定する。これは、図1に示すように、心理要因毎、映像パラメータ毎に、符号化ビットレートと心理要因スコアの関係性が異なるため、また、図3に示すように、映像と音響の関係性によって、心理要因スコアが変動するためである。以上より、係数DBへの問い合わせ結果の係数を反映した心理要因スコア導出関数に映像パラメータの値を入力することで、心理要因スコアの導出が実現する。   The coefficient of the psychological factor score derivation function is stored in the coefficient DB, and is set, for example, for each video parameter, for each psychological factor, and for each degree of video audio synchronization. This is because, as shown in FIG. 1, the relationship between the encoding bit rate and the psychological factor score is different for each psychological factor and for each video parameter. Also, as shown in FIG. This is because the psychological factor score fluctuates. As described above, the psychological factor score is derived by inputting the value of the video parameter to the psychological factor score deriving function reflecting the coefficient of the inquiry result to the coefficient DB.

以下、本実施の形態をより詳細に説明する。   Hereinafter, this embodiment will be described in more detail.

(装置構成)
図4は、本発明の実施の形態における心理要因スコア推定装置1の構成例を示す。図4に示すように、本発明の実施の形態における心理要因スコア推定装置1は、心理要因スコア推定部2と係数DB3を有する。心理要因スコア推定部2は、映像音響同期度推定部21を内包する。心理要因スコア推定部2は、心理要因iと、解像度x1、フレームレートx2、ビット深度x3といった映像パラメータと、品質設計パラメータの符号化ビットレートbrと、映像信号svと、音響信号saとを入力する入力手段を含む。なお、心理要因スコア推定装置1を心理要因スコア推定値算出装置と称してもよい。
(Device configuration)
FIG. 4 shows a configuration example of the psychological factor score estimation apparatus 1 in the embodiment of the present invention. As shown in FIG. 4, the psychological factor score estimating apparatus 1 according to the embodiment of the present invention includes a psychological factor score estimating unit 2 and a coefficient DB 3. The psychological factor score estimation unit 2 includes a video / audio synchronization degree estimation unit 21. The psychological factor score estimation unit 2 inputs psychological factors i, video parameters such as resolution x1, frame rate x2, bit depth x3, quality design parameter encoding bit rate br, video signal sv, and audio signal sa. Input means. The psychological factor score estimation device 1 may be referred to as a psychological factor score estimated value calculation device.

映像音響同期度推定部21は、入力された映像信号svと音響信号saを用いて、映像音響同期度avを導出する。   The video / audio synchronization estimation unit 21 derives the video / audio synchronization av using the input video signal sv and the audio signal sa.

心理要因スコア推定部2は、心理要因スコア導出関数を用いて、心理要因スコアSiを導出する。心理要因スコア導出関数の係数は、係数DB3に格納されている。心理要因スコア推定部2が、心理要因スコア導出関数を用いて心理要因スコアを導出する際の入力は、心理要因iと、解像度x1、フレームレートx2、ビット深度x3といった映像パラメータと品質設計パラメータの符号化ビットレートbrと、映像音響同期度推定部21の出力である映像音響同期度avである。出力は、心理要因スコアSiである。   The psychological factor score estimation unit 2 derives a psychological factor score Si using a psychological factor score derivation function. The coefficient of the psychological factor score derivation function is stored in the coefficient DB 3. The input when the psychological factor score estimation unit 2 derives the psychological factor score using the psychological factor score derivation function is the psychological factor i, video parameters such as resolution x1, frame rate x2, bit depth x3, and quality design parameters. The encoding bit rate br and the video / audio synchronization level av that is the output of the video / audio synchronization level estimation unit 21. The output is a psychological factor score Si.

心理要因スコア推定装置1は、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。図5は、心理要因スコア推定装置1のハードウェア構成例を示す図である。図5に示す装置は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、インタフェース装置105、表示装置106、及び入力装置107等を有する。   The psychological factor score estimation apparatus 1 can be realized by causing a computer to execute a program describing the processing contents described in the present embodiment. FIG. 5 is a diagram illustrating a hardware configuration example of the psychological factor score estimation apparatus 1. The apparatus illustrated in FIG. 5 includes a drive device 100, an auxiliary storage device 102, a memory device 103, a CPU 104, an interface device 105, a display device 106, an input device 107, and the like that are connected to each other via a bus B.

当該心理要因スコア推定装置1での処理を実現するプログラムは、例えば、CD−ROM又はメモリカード等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。   A program that realizes processing in the psychological factor score estimation apparatus 1 is provided by a recording medium 101 such as a CD-ROM or a memory card, for example. When the recording medium 101 storing the program is set in the drive device 100, the program is installed from the recording medium 101 to the auxiliary storage device 102 via the drive device 100. However, the program need not be installed from the recording medium 101 and may be downloaded from another computer via a network. The auxiliary storage device 102 stores the installed program and also stores necessary files and data.

メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って心理要因スコア推定装置1に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。表示装置106はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置107はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。   The memory device 103 reads the program from the auxiliary storage device 102 and stores it when there is an instruction to start the program. The CPU 104 realizes functions related to the psychological factor score estimation apparatus 1 according to a program stored in the memory device 103. The interface device 105 is used as an interface for connecting to a network. The display device 106 displays a GUI (Graphical User Interface) or the like by a program. The input device 107 includes a keyboard and mouse, buttons, a touch panel, and the like, and is used to input various operation instructions.

以下、心理要因スコア推定装置1における各機能部の動作を詳細に説明する。   Hereinafter, the operation of each functional unit in the psychological factor score estimation apparatus 1 will be described in detail.

(映像音響同期度推定部21の動作)
映像音響同期度推定部21は、入力された映像信号svと音響信号saを用いて、映像音響同期度avを導出する。図6に、映像音響同期度avを導出するフローを示す。
(Operation of the video / audio synchronization estimation unit 21)
The video / audio synchronization estimation unit 21 derives the video / audio synchronization av using the input video signal sv and the audio signal sa. FIG. 6 shows a flow for deriving the video / audio synchronization degree av.

まず、映像音響同期度推定部21は、音響信号saが入力されているか否かを確認し、入力されていない場合(ステップS101の"無"の場合)は、av=-1とする(ステップS102)。   First, the video / audio synchronization estimation unit 21 checks whether or not the audio signal sa is input, and if it is not input (in the case of “No” in Step S101), av = −1 is set (Step S101). S102).

次に、音響信号saが入力されている場合(ステップS101の"有"の場合)には、映像音響同期度推定部21は、音響と映像が同期している可能性がある音響区間の抽出を行う(ステップS103)。   Next, when the audio signal sa is input (in the case of “Yes” in step S101), the audio / video synchronization estimation unit 21 extracts an audio section in which the audio and the video may be synchronized. Is performed (step S103).

音響と映像が同期している可能性がある音響区間を抽出する例を図7に示す。図7の例では、鳥の鳴き声のような振幅が大きい音が含まれる区間を当該音響区間として検出している。具体的には、閾値を設けて、振幅が閾値を上回っている時間帯を検出することが考えられ、図7の例では、時間t11からt12、t21からt22の区間が検出される。閾値の設定の仕方には、音響信号の全区間の平均値と標準偏差を導出し、平均値+標準偏差を閾値とすることなどが考えられる。なお、閾値を超える時間帯が存在しない場合には、av=0とする。   FIG. 7 shows an example of extracting an acoustic section in which sound and video may be synchronized. In the example of FIG. 7, a section including a sound with a large amplitude such as a bird call is detected as the acoustic section. Specifically, it is conceivable to set a threshold value and detect a time zone in which the amplitude exceeds the threshold value. In the example of FIG. 7, sections from time t11 to t12 and from t21 to t22 are detected. As a method for setting the threshold value, it is conceivable to derive an average value and a standard deviation of all sections of the acoustic signal and use the average value + standard deviation as a threshold value. If there is no time zone that exceeds the threshold, av = 0.

閾値を超える音響が含まれる場合には、映像音響同期度推定部21は、その時間帯において、動きの大きい、特徴的な物体が含まれている映像フレーム領域を導出する(ステップS104)。   When the sound exceeding the threshold is included, the video / audio synchronization estimation unit 21 derives a video frame region including a characteristic object having a large motion in the time zone (step S104).

ステップS104の処理例を図8を参照して説明する。ここでは、まず、音響と映像が同期している可能性がある音響区間において、画素値のフレーム間差分値の絶対値を導出する。図8の上段に、動きの大きい物体が含まれる映像フレーム領域の抽出例として、各フレームにおいて動きのある物体が含まれる画素を黒く示している。また、時刻t11と時刻t11+1との間の画素値のフレーム間差分値の絶対値、時刻t11+1と時刻t11+2との間の画素値のフレーム間差分値の絶対値、時刻t11+2と時刻t11+3(=t12)との間の画素値のフレーム間差分値の絶対値を算出していることが示されている。   A processing example of step S104 will be described with reference to FIG. Here, first, the absolute value of the inter-frame difference value of the pixel value is derived in an acoustic section in which the sound and the video may be synchronized. In the upper part of FIG. 8, as an example of extracting a video frame region including an object with large motion, pixels including a moving object in each frame are shown in black. Further, the absolute value of the inter-frame difference value of the pixel value between time t11 and time t11 + 1, the absolute value of the inter-frame difference value of the pixel value between time t11 + 1 and time t11 + 2, and time t11 It is shown that the absolute value of the inter-frame difference value of the pixel value between +2 and time t11 + 3 (= t12) is calculated.

そして、図8の下段に、画素値のフレーム間差分値の絶対値で、閾値を超えている画素を示している。閾値は、フレーム間で変化量の多い画素を抽出するため、フレーム内の全画素のフレーム差分の絶対値の平均値+2×標準偏差とすることなどが考えられる。図8より、t11からt12にかけて、横方向ではV2からV4の領域に、縦方向ではH1からH3の領域に、動きのある物体が含まれていることがわかる。同様に、t21からt22においても動く物体が含まれる映像フレーム領域を抽出する。   In the lower part of FIG. 8, pixels that exceed the threshold in absolute value of inter-frame difference values of pixel values are shown. As the threshold value, in order to extract pixels with a large amount of change between frames, the average value of absolute values of frame differences of all pixels in the frame + 2 × standard deviation may be considered. From FIG. 8, it can be seen that a moving object is included in the region from V2 to V4 in the horizontal direction and the region from H1 to H3 in the vertical direction from t11 to t12. Similarly, a video frame region including a moving object is extracted from t21 to t22.

映像音響同期度推定部21は、最後に、映像音響同期度avを導出し、出力する(図6のステップS105、S106)。ここで、音響と映像が同期している可能性がある時間帯tk1からtk2において抽出した映像フレーム領域の横方向の画素数をVk、縦方向の画素数をHkとする。映像と音響の同期している時間帯が長いほど心理要因は向上し、音響と同期した物体の占めるフレーム領域が広いほど心理要因は向上すると考えられるため、映像音響同期度avは(1)式により導出する。   Finally, the audiovisual synchronization degree estimation unit 21 derives and outputs the audiovisual synchronization degree av (steps S105 and S106 in FIG. 6). Here, it is assumed that the number of pixels in the horizontal direction of the video frame region extracted in the time period tk1 to tk2 in which the audio and the video may be synchronized is Vk, and the number of pixels in the vertical direction is Hk. Since the psychological factor improves as the time period in which the video and audio are synchronized is longer, the psychological factor is considered to be improved as the frame area occupied by the object synchronized with the audio is wider. Derived by

(1)式において、Wはフレームの全画素数、Lは映像コンテンツの時間長を示し、nは音響と映像が同期している可能性がある音響区間の数を示す。図7の場合にはn=2となる。なお、音響と映像が同期している可能性がある音響区間として抽出された時間帯に、動きのある物体が存在しない場合、つまり、Vk=0、Hk=0の場合には、映像と音響は同期していないことを示し、(1)式より、av=0となる。 In Equation (1), W represents the total number of pixels in the frame, L represents the time length of the video content, and n represents the number of audio sections in which the audio and video may be synchronized. In the case of FIG. 7, n = 2. Note that if there is no moving object in the time zone extracted as the sound section in which audio and video may be synchronized, that is, if Vk = 0 and Hk = 0, the video and audio Indicates that they are not synchronized, and av = 0 from equation (1).

(心理要因スコア推定部2の動作)
心理要因スコア推定部2は、入力された心理要因i、映像パラメータx1~x3、符号化ビットレートbr、映像音響同期度推定部21の出力である映像音響同期度avを基に、心理要因スコアSiを推定する。
(Operation of psychological factor score estimation unit 2)
The psychological factor score estimator 2 uses the psychological factor score based on the input psychological factor i, video parameters x1 to x3, the encoding bit rate br, and the video / audio synchronization level av output from the video / audio synchronization level estimation unit 21. Estimate Si.

心理要因スコアSiは、下記の(2)式〜(7)式に示すように、心理要因スコア導出関数と、映像パラメータと心理要因iの関係性を基に設定した心理要因スコア導出関数の係数と、映像と音響の同期度を加味した心理要因スコア導出関数の係数と、入力された映像パラメータ及び符号化ビットレートの値を基に導出される。心理要因スコア導出関数は、例えば図1、2、3に示した関係性を基に定式化したものを使用する。心理要因スコア導出関数の係数は、映像パラメータ毎、心理要因毎、音響フラグ毎に決定する。   The psychological factor score Si is a coefficient of the psychological factor score derivation function set based on the relationship between the psychological factor score derivation function and the video parameter and the psychological factor i as shown in the following equations (2) to (7). And a coefficient of a psychological factor score derivation function that takes into account the degree of synchronization between video and audio, and the values of the input video parameters and encoding bit rate. As the psychological factor score derivation function, for example, a function formulated based on the relationships shown in FIGS. The coefficient of the psychological factor score derivation function is determined for each video parameter, for each psychological factor, and for each acoustic flag.

Si = γia(av)(αi1(x1)×αi2(x2)×αi3(x3)×log10(br) +βi) (2)
αi1 = ai1×exp(bi1×x1) + ci1 (3)
αi2 = ai2×exp(bi2×x2) + ci2 (4)
αi3 = ai3×exp(bi3×x3) + ci3 (5)
γia = 1(av=-1のとき) (6)
γia = di×av + ei (av>=0のとき) (7)
ここで、(2)式において、心理要因iは、i=1は美的感、i=2は躍動感、i=3は自然感、i=4は開放感、i=5は立体感とする。心理要因スコア導出関数の係数αi1(i=1~5)は解像度x1の関数、係数αi2(i=1~5)はフレームレートx2の関数、係数αi3(i=1~5)はビット深度x3の関数とする。
Si = γia (av) (αi1 (x1) × αi2 (x2) × αi3 (x3) × log 10 (br) + βi) (2)
αi1 = ai1 × exp (bi1 × x1) + ci1 (3)
αi2 = ai2 × exp (bi2 × x2) + ci2 (4)
αi3 = ai3 × exp (bi3 × x3) + ci3 (5)
γia = 1 (when av = -1) (6)
γia = di × av + ei (when av> = 0) (7)
Here, in equation (2), psychological factor i is aesthetic sense, i = 1 is dynamic, i = 3 is natural, i = 4 is open, and i = 5 is stereoscopic. . The coefficient αi1 (i = 1 to 5) of the psychological factor score derivation function is a function of resolution x1, the coefficient αi2 (i = 1 to 5) is a function of the frame rate x2, and the coefficient αi3 (i = 1 to 5) is the bit depth x3. Is a function of

係数αi1は、図9(a)の関係性を基に定式化する。具体的には、解像度が向上すると映像がより鮮明になるため、美的感や自然感がより向上しやすいことを考慮し、心理要因毎に(3)式のように定式化する。係数αi2は、図9(b)の関係性を基に定式化する。具体的には、フレームレートが向上すると動きがよりスムーズになるため、躍動感や自然感がより向上しやすいことを考慮し、心理要因毎に(4)式のように定式化する。係数αi3は、図9(c)の関係性を基に定式化する。具体的には、ビット深度が向上すると、被写体のエッジが際立つため、立体感や開放感がより向上しやすいことを考慮し、心理要因毎に(5)式のように定式化する。   The coefficient α i1 is formulated based on the relationship shown in FIG. Specifically, since the video becomes clearer when the resolution is improved, it is formulated according to equation (3) for each psychological factor, considering that the aesthetic feeling and the natural feeling are more likely to be improved. The coefficient α i2 is formulated based on the relationship shown in FIG. Specifically, when the frame rate is improved, the movement becomes smoother, so that the dynamic feeling and the natural feeling are more likely to be improved. The coefficient α i3 is formulated based on the relationship shown in FIG. Specifically, when the bit depth is improved, since the edge of the subject stands out, the stereoscopic effect and the open feeling are more easily improved, and the formulation is formulated as in equation (5) for each psychological factor.

(2)〜(5)式の心理要因スコア導出関数の係数aij、bij、cij、βi(i=1~5、j=1~3)は、事前に行った音響を付加していない主観品質評価実験結果に基づき決定し、複数の心理要因のそれぞれに対して係数DB3に格納しておくこととする。   The coefficients aij, bij, cij, βi (i = 1 to 5, j = 1 to 3) of the psychological factor score derivation function in equations (2) to (5) are the subjective quality without adding the sound performed in advance. It is determined based on the evaluation experiment result and stored in the coefficient DB 3 for each of a plurality of psychological factors.

また、(2)式において、係数γiaは、映像と音響の同期による効果を考慮する係数とし、映像音響同期度推定部21の出力avの関数とする。音響が入力されていない場合(av=-1)には、音響付加による効果を考慮しないため、γia=1とする((6)式)。av>=0のときには、音響付加による効果を考慮するため、図10の関係性を基に、(7)式のように定式化する。具体的には、映像と同期した音響を付加することで、映像のもつ迫力や広がりが強調されるため、躍動感や自然感、開放感では、映像音響同期度が高くなるほど心理要因スコアが高くなることを考慮し、心理要因毎に(7)式のように定式化する。係数di、ei(i=1~5、j=1~3)は、事前に行った音響を付加した主観品質評価実験結果に基づき決定し、複数の心理要因のそれぞれに対して係数DB3に格納しておくこととする。   In equation (2), the coefficient γia is a coefficient that takes into account the effect of video and audio synchronization, and is a function of the output av of the video and audio synchronization estimation unit 21. When no sound is input (av = −1), γia = 1 is set (Equation (6)) because the effect of adding sound is not considered. When av> = 0, in order to consider the effect due to the addition of sound, it is formulated as shown in equation (7) based on the relationship shown in FIG. Specifically, the addition of sound that is synchronized with the video emphasizes the power and spread of the video, so the psychological score increases with the degree of video audio synchronization in terms of liveliness, naturalness, and openness. For each psychological factor, formula (7) is formulated. Coefficients di and ei (i = 1 to 5, j = 1 to 3) are determined based on the subjective quality evaluation experiment result obtained by adding sound in advance, and stored in coefficient DB 3 for each of a plurality of psychological factors. I will keep it.

すなわち、心理要因スコア推定部2は、入力された心理要因と映像パラメータに対応する係数を係数DB3から読み出し、当該係数を適用した数式(例:(2)式〜(7)式)に、入力された映像パラメータと品質設計パラメータ、及び、映像と音響の同期度を入力することにより、心理要因スコア推定値を算出する。   That is, the psychological factor score estimator 2 reads out the coefficient corresponding to the input psychological factor and the video parameter from the coefficient DB 3, and inputs the coefficient to the mathematical formula (for example, the formulas (2) to (7)) to which the coefficient is applied. The estimated psychological factor score is calculated by inputting the video parameters and quality design parameters and the degree of synchronization between the video and the sound.

なお、(2)式では、各映像パラメータと心理要因スコアの関係を、図1を基に非線形関数で定式化しているが、線形関数で表現することとしてもよい。また、映像パラメータ同士の相乗効果を考慮するため、各映像パラメータに関する係数αijを乗算しているが、下記の(8)式のように加算することとしてもよい。   In equation (2), the relationship between each video parameter and the psychological factor score is formulated by a non-linear function based on FIG. 1, but may be expressed by a linear function. Further, in order to take into account the synergistic effect between the video parameters, the coefficient αij relating to each video parameter is multiplied, but it is also possible to add as shown in the following equation (8).

Si = γia(av)×((αi1(x1)+αi2(x2)+αi3(x3))×log10(br)+βi) (8)
また、(3)〜(5)式は、各映像パラメータと心理要因スコア導出関数の係数αの関係を、図9を基に非線形関数で定式化しているが、線形関数で表現することとしてもよい。また、(7)式では、映像音響同期度avと心理要因スコア導出関数の係数γとの関係を、図10を基に線形関数で定式化しているが、非線形関数で表現することとしてもよい。
Si = γia (av) × ((αi1 (x1) + αi2 (x2) + αi3 (x3)) × log 10 (br) + βi) (8)
In addition, the expressions (3) to (5) formulate the relationship between each image parameter and the coefficient α of the psychological factor score derivation function as a non-linear function based on FIG. 9, but may be expressed as a linear function. Good. Further, in the expression (7), the relationship between the audiovisual synchronization degree av and the coefficient γ of the psychological factor score derivation function is formulated as a linear function based on FIG. 10, but may be expressed as a nonlinear function. .

なお、サービス設計者は基本的には、解像度x1、フレームレートx2、ビット深度x3、符号化ビットレートbrの全ての値を知っているので、それらの全てを(2)〜(7)式の入力として使うことができる。そのため、(2)〜(7)式があれば、心理要因スコアを導出することができる。   Since the service designer basically knows all the values of resolution x1, frame rate x2, bit depth x3, and encoding bit rate br, all of them are expressed by equations (2) to (7). Can be used as input. Therefore, if there are equations (2) to (7), a psychological factor score can be derived.

しかし、例えば、サービス設計上、ビット深度とフレームレートと心理要因の対応関係が不要もしくは対応関係が得られていない場合、つまり、例えば解像度と心理要因スコアの対応関係が得られている場合は、心理要因スコア導出関数を(9)、(10)式のように簡略化することとしてもよい。(9)、(10)式は、1つの映像パラメータ(解像度、ビット深度、又はフレームレート)と心理要因スコアの対応関係が得られている場合の式である。なお、例えば、(9)式は図1の関係性を基に、(10)式は図9の関係性を基に、(12)式は図10の関係性を基に定式化することとする。   However, for example, when the correspondence between the bit depth, the frame rate, and the psychological factor is unnecessary or the correspondence is not obtained in the service design, that is, for example, when the correspondence between the resolution and the psychological factor score is obtained, It is good also as simplifying a psychological factor score derivation function like (9) and a formula (10). Expressions (9) and (10) are expressions when a correspondence relationship between one video parameter (resolution, bit depth, or frame rate) and a psychological factor score is obtained. For example, Formula (9) is formulated based on the relationship shown in FIG. 1, Formula (10) is formulated based on the relationship shown in FIG. 9, Formula (12) is formulated based on the relationship shown in FIG. To do.

Si =γija(av)×(αij(xj)×log10(br)+βij) (9)
αij = aij×exp(bij×xj)+cij (10)
γija = 1(av=-1のとき) (11)
γija = dij×av + eij (av>=0のとき) (12)
ここで、前述の通り、心理要因スコア導出関数の係数aij、bij、cij、βij、dij、eij(i=1~5、j=1~3)は、事前に行った主観品質評価実験結果に基づき決定し、複数の心理要因のそれぞれに対して係数DB3に格納しておくこととする。
Si = γija (av) × (αij (xj) × log 10 (br) + βij) (9)
αij = aij × exp (bij × xj) + cij (10)
γija = 1 (when av = -1) (11)
γija = dij × av + eij (when av> = 0) (12)
Here, as described above, the coefficients aij, bij, cij, βij, dij, and eij (i = 1 to 5, j = 1 to 3) of the psychological factor score derivation function are the results of the subjective quality evaluation experiment performed in advance. It is determined based on this and stored in the coefficient DB 3 for each of a plurality of psychological factors.

上述の通り、心理要因毎に、映像パラメータや品質設計パラメータの符号化ビットレート、映像と音響の同期の程度を表す映像音響同期度と心理要因スコアの関係を定式化した心理要因スコア導出関数を用いることで、心理要因スコアの導出が実現する。   As described above, for each psychological factor, a psychological factor score derivation function that formulates the relationship between the encoding bit rate of video parameters and quality design parameters, the relationship between video and audio synchronization indicating the degree of video and audio synchronization, and the psychological factor score. By using it, the psychological factor score can be derived.

(実施の形態のまとめ)
以上、説明したように、本実施の形態により、心理要因と、1つ以上の映像パラメータと、1つ以上の品質設計パラメータと、映像信号と、音響信号とを入力する入力手段と、映像パラメータと、品質設計パラメータと、映像と音響の同期度とに基づき心理要因スコア推定値を算出するための数式の係数を、複数の心理要因のそれぞれに対して保持する記憶手段と、前記入力手段により入力された映像信号と音響信号とから、映像と音響の同期度を算出する映像音声同期度算出手段と、前記入力手段により入力された心理要因と映像パラメータに対応する係数を前記記憶手段から読み出し、当該係数を適用した数式に、前記入力手段により入力された映像パラメータと品質設計パラメータ、及び、前記映像音声同期度算出手段により算出された映像と音響の同期度を入力することにより、心理要因スコア推定値を算出する算出手段と、前記算出手段により算出された心理要因スコア推定値を出力する出力手段とを備えることを特徴とする心理要因スコア推定値算出装置が提供される。
(Summary of embodiment)
As described above, according to the present embodiment, input means for inputting psychological factors, one or more video parameters, one or more quality design parameters, video signals, and audio signals, and video parameters Storage means for holding a coefficient of a mathematical formula for calculating a psychological factor score estimate based on the quality design parameters and the degree of synchronization between video and sound for each of a plurality of psychological factors, and the input means Video / audio synchronization degree calculation means for calculating the degree of synchronization between video and sound from the input video signal and audio signal, and the psychological factors input by the input means and coefficients corresponding to the video parameters are read from the storage means. The video parameter and the quality design parameter input by the input unit, and the video / audio synchronization degree calculating unit calculated by the formula to which the coefficient is applied. A psychology feature comprising: calculation means for calculating a psychological factor score estimate value by inputting a degree of synchronization between video and sound; and an output means for outputting the psychological factor score estimate value calculated by the calculation means. A factor score estimated value calculation apparatus is provided.

実施の形態で説明した心理要因スコア推定装置1は、心理要因スコア推定値算出装置の例である。また、心理要因スコア推定部2は、入力手段、記憶手段、映像音声同期度算出手段、算出手段、及び出力手段を有する機能部の例である。また、映像音声同期度推定部21は、映像音声同期度算出手段の例である。   The psychological factor score estimation device 1 described in the embodiment is an example of a psychological factor score estimated value calculation device. The psychological factor score estimation unit 2 is an example of a functional unit including an input unit, a storage unit, a video / audio synchronization degree calculation unit, a calculation unit, and an output unit. The video / audio synchronization level estimation unit 21 is an example of a video / audio synchronization level calculation unit.

前記数式を、主観品質評価実験結果に基づいて得られた、映像パラメータと、品質設計パラメータと、映像と音響の同期度と、心理要因スコアとの関係を定式化した数式としてもよい。   The mathematical expression may be a mathematical expression obtained by formulating the relationship between the video parameter, the quality design parameter, the synchronization degree of the video and sound, and the psychological factor score obtained based on the subjective quality evaluation experiment result.

また、前記数式を、複数の映像パラメータのそれぞれに対して、映像パラメータと、品質設計パラメータと、映像と音響の同期度と、心理要因スコアとの関係に基づく数式を求め、当該複数の映像パラメータのそれぞれに対して得られた当該数式同士を組み合わせて得られる数式としてもよい。   In addition, for each of the plurality of video parameters, the formula is calculated based on the relationship between the video parameter, the quality design parameter, the degree of synchronization between the video and the sound, and the psychological factor score, and the plurality of video parameters It is good also as a numerical formula obtained by combining the said numerical formula obtained with respect to each of each.

前記映像音声同期度算出手段は、前記入力手段により入力された映像信号と音響信号とに基づき、映像と音響の同期している時間の長さ、及び、音響と同期している物体が映像フレームに占める領域を算出し、当該時間の長さ、及び、当該領域から、前記数式の入力である映像と音響の同期度を算出することとしてもよい。   The video / audio synchronization degree calculating means is based on the video signal and the audio signal input from the input means, and the time length of synchronization between the video and the audio, and the object synchronized with the audio is a video frame. It is also possible to calculate the area occupied by the image and calculate the degree of synchronization between the video and the sound, which are the inputs of the mathematical formula, from the time length and the area.

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。   Although the present embodiment has been described above, the present invention is not limited to the specific embodiment, and various modifications and changes can be made within the scope of the gist of the present invention described in the claims. Is possible.

1 心理要因スコア推定装置
2 心理要因スコア推定部
3 係数DB
21 映像音響同期度推定部
Si 心理要因スコア
i 心理要因のID
j 映像パラメータのID
x1 解像度
x2 フレームレート
x3 ビット深度
sa 音響信号
sv 映像信号
av 映像音響同期度
k 音響と映像が同期している可能性のある時間帯のID
n 音響と映像が同期している可能性のある時間帯の数
tk1 音響と映像が同期している可能性のある時間帯kの開始時刻
tk2 音響と映像が同期している可能性のある時間帯kの開始時刻
Vk 音響と映像が同期している可能性のある時間帯kにおいて、動きのある物体の含まれる横方向の画素数
Hk 音響と映像が同期している可能性のある時間帯kにおいて、動きのある物体の含まれる縦方向の画素数
W フレームの全画素数
L 映像コンテンツの時間帳
α、β、γ、a、b、c、d、e 心理要因スコア導出関数の係数
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
106 表示装置
107 入力装置
1 psychological factor score estimating device 2 psychological factor score estimating unit 3 coefficient DB
21 Video / audio synchronization estimation unit
Si psychological factor score
i Psychological factor ID
j Video parameter ID
x1 resolution
x2 frame rate
x3 bit depth
sa acoustic signal
sv video signal
av Audiovisual synchronization
k Time zone IDs where audio and video may be synchronized
n Number of time periods in which audio and video may be synchronized
tk1 Start time of time zone k when audio and video may be synchronized
tk2 Start time of time zone k when audio and video may be synchronized
Vk Number of pixels in the horizontal direction that contain moving objects in time zone k when audio and video may be synchronized
Hk Number of pixels in the vertical direction that contain moving objects in time zone k when audio and video may be synchronized
Total number of pixels in W frame
L Video content time book α, β, γ, a, b, c, d, e Coefficient of psychological factor score derivation function 100 Drive device 101 Recording medium 102 Auxiliary storage device 103 Memory device 104 CPU
105 interface device 106 display device 107 input device

Claims (8)

心理要因と、1つ以上の映像パラメータと、1つ以上の品質設計パラメータと、映像信号と、音響信号とを入力する入力手段と、
映像パラメータと、品質設計パラメータと、映像と音響の同期度とに基づき心理要因スコア推定値を算出するための数式の係数を、複数の心理要因のそれぞれに対して保持する記憶手段と、
前記入力手段により入力された映像信号と音響信号とから、映像と音響の同期度を算出する映像音声同期度算出手段と、
前記入力手段により入力された心理要因と映像パラメータに対応する係数を前記記憶手段から読み出し、当該係数を適用した数式に、前記入力手段により入力された映像パラメータと品質設計パラメータ、及び、前記映像音声同期度算出手段により算出された映像と音響の同期度を入力することにより、心理要因スコア推定値を算出する算出手段と、
前記算出手段により算出された心理要因スコア推定値を出力する出力手段と
を備えることを特徴とする心理要因スコア推定値算出装置。
Input means for inputting psychological factors, one or more video parameters, one or more quality design parameters, a video signal, and an audio signal;
Storage means for holding a coefficient of a mathematical formula for calculating a psychological factor score estimate based on the video parameter, the quality design parameter, and the degree of synchronization between the video and the sound, for each of a plurality of psychological factors;
Video / audio synchronization calculating means for calculating the degree of synchronization between video and sound from the video signal and the audio signal input by the input means;
Coefficients corresponding to psychological factors and video parameters input by the input means are read from the storage means, and the video parameters and quality design parameters input by the input means, and the video and audio are added to mathematical expressions to which the coefficients are applied. Calculating means for calculating a psychological factor score estimate by inputting the degree of synchronization between the video and the sound calculated by the synchronization degree calculating means;
The psychological factor score estimated value calculation apparatus comprising: output means for outputting the psychological factor score estimated value calculated by the calculating means.
前記数式は、主観品質評価実験結果に基づいて得られた、映像パラメータと、品質設計パラメータと、映像と音響の同期度と、心理要因スコアとの関係を定式化した数式である
ことを特徴とする請求項1に記載の心理要因スコア推定値算出装置。
The mathematical formula is a mathematical formula obtained by formulating a relationship between a video parameter, a quality design parameter, a video and audio synchronization degree, and a psychological factor score obtained based on a subjective quality evaluation experiment result. The psychological factor score estimated value calculation apparatus according to claim 1.
前記数式は、複数の映像パラメータのそれぞれに対して、映像パラメータと、品質設計パラメータと、映像と音響の同期度と、心理要因スコアとの関係に基づく数式を求め、当該複数の映像パラメータのそれぞれに対して得られた当該数式同士を組み合わせて得られる数式である
ことを特徴とする請求項1又は2に記載の心理要因スコア推定値算出装置。
For each of the plurality of video parameters, the formula obtains a formula based on the relationship between the video parameter, the quality design parameter, the degree of synchronization between the video and the sound, and the psychological factor score, and each of the plurality of video parameters The psychological factor score estimated value calculation apparatus according to claim 1, wherein the mathematical formula is obtained by combining the mathematical formulas obtained with respect to.
前記映像音声同期度算出手段は、
前記入力手段により入力された映像信号と音響信号とに基づき、映像と音響の同期している時間の長さ、及び、音響と同期している物体が映像フレームに占める領域を算出し、当該時間の長さ、及び、当該領域から、前記数式の入力である映像と音響の同期度を算出する
ことを特徴とする請求項1ないし3のうちいずれか1項に記載の心理要因スコア推定値算出装置。
The video / audio synchronization degree calculating means includes:
Based on the video signal and the audio signal input by the input means, the length of time in which the video and the sound are synchronized and the area occupied by the object synchronized with the sound in the video frame are calculated, and the time The psychological factor score estimation value calculation according to any one of claims 1 to 3, wherein the degree of synchronization between the image and the sound, which is the input of the mathematical expression, is calculated from the length and the region. apparatus.
映像パラメータと、品質設計パラメータと、映像と音響の同期度とに基づき心理要因スコア推定値を算出するための数式の係数を、複数の心理要因のそれぞれに対して保持する記憶手段を備える心理要因スコア推定値算出装置が実行する心理要因スコア推定値算出方法であって、
心理要因と、1つ以上の映像パラメータと、1つ以上の品質設計パラメータと、映像信号と、音響信号とを入力する入力ステップと、
前記入力ステップにより入力された映像信号と音響信号とから、映像と音響の同期度を算出する映像音声同期度算出ステップと、
前記入力ステップにより入力された心理要因と映像パラメータに対応する係数を前記記憶手段から読み出し、当該係数を適用した数式に、前記入力ステップにより入力された映像パラメータと品質設計パラメータ、及び、前記映像音声同期度算出ステップにより算出された映像と音響の同期度を入力することにより、心理要因スコア推定値を算出する算出ステップと、
前記算出ステップにより算出された心理要因スコア推定値を出力する出力ステップと
を備えることを特徴とする心理要因スコア推定値算出方法。
Psychological factor comprising storage means for holding a coefficient of a mathematical formula for calculating a psychological factor score estimate based on the video parameter, the quality design parameter, and the degree of synchronization between the video and the sound, for each of a plurality of psychological factors A psychological factor score estimated value calculation method executed by the score estimated value calculation device,
An input step for inputting psychological factors, one or more video parameters, one or more quality design parameters, a video signal, and an audio signal;
A video / audio synchronization degree calculating step for calculating a degree of synchronization between video and sound from the video signal and the audio signal input in the input step;
Coefficients corresponding to psychological factors and video parameters input in the input step are read from the storage means, and the video parameters and quality design parameters input in the input step and the video and audio are added to mathematical formulas using the coefficients. A calculation step for calculating a psychological factor score estimate by inputting the degree of synchronization between the video and the sound calculated in the synchronization calculation step;
An output step of outputting the psychological factor score estimate calculated by the calculating step.
前記数式は、主観品質評価実験結果に基づいて得られた、映像パラメータと、品質設計パラメータと、映像と音響の同期度と、心理要因スコアとの関係を定式化した数式である
ことを特徴とする請求項5に記載の心理要因スコア推定値算出方法。
The mathematical formula is a mathematical formula obtained by formulating a relationship between a video parameter, a quality design parameter, a video and audio synchronization degree, and a psychological factor score obtained based on a subjective quality evaluation experiment result. The psychological factor score estimated value calculation method according to claim 5.
前記映像音声同期度算出ステップにおいて、前記心理要因スコア推定値算出装置は、
前記入力ステップにより入力された映像信号と音響信号とに基づき、映像と音響の同期している時間の長さ、及び、音響と同期している物体が映像フレームに占める領域を算出し、当該時間の長さ、及び、当該領域から、前記数式の入力である映像と音響の同期度を算出する
ことを特徴とする請求項5又は6に記載の心理要因スコア推定値算出方法。
In the video / audio synchronization degree calculating step, the psychological factor score estimated value calculating device comprises:
Based on the video signal and the audio signal input in the input step, the length of time in which the video and the sound are synchronized and the area occupied by the object synchronized with the sound in the video frame are calculated, and the time The psychological factor score estimated value calculation method according to claim 5 or 6, wherein a degree of synchronization between video and sound, which is an input of the mathematical formula, is calculated from the length of and the region.
コンピュータを、請求項1ないし4のうちいずれか1項に記載の心理要因スコア推定値算出装置における各手段として機能させるためのプログラム。   The program for functioning a computer as each means in the psychological factor score estimated value calculation apparatus of any one of Claims 1 thru | or 4.
JP2017101206A 2017-05-22 2017-05-22 Psychological factor score estimation value calculation device, psychological factor score estimation value calculation method, and program Pending JP2018196099A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017101206A JP2018196099A (en) 2017-05-22 2017-05-22 Psychological factor score estimation value calculation device, psychological factor score estimation value calculation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017101206A JP2018196099A (en) 2017-05-22 2017-05-22 Psychological factor score estimation value calculation device, psychological factor score estimation value calculation method, and program

Publications (1)

Publication Number Publication Date
JP2018196099A true JP2018196099A (en) 2018-12-06

Family

ID=64570719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017101206A Pending JP2018196099A (en) 2017-05-22 2017-05-22 Psychological factor score estimation value calculation device, psychological factor score estimation value calculation method, and program

Country Status (1)

Country Link
JP (1) JP2018196099A (en)

Similar Documents

Publication Publication Date Title
US10037313B2 (en) Automatic smoothed captioning of non-speech sounds from audio
US20230007343A1 (en) Creative intent scalability via physiological monitoring
EP1081960A1 (en) Signal processing method and video/voice processing device
KR20150127070A (en) Pictorial summary for video
JP2018514118A (en) Video program segment detection
JP6054142B2 (en) Signal processing apparatus, method and program
KR20150093425A (en) Method and apparatus for recommending content
Laghari et al. Effect of packet loss and reorder on quality of audio streaming
JP2018501743A (en) Assist mixing system and method for assembling synchronized three-dimensional sound stage
Bottalico Lombard effect, ambient noise, and willingness to spend time and money in a restaurant
EP2706762A2 (en) Multimedia processing system and audio signal processing method
US10154346B2 (en) Dynamically adjust audio attributes based on individual speaking characteristics
JP6917788B2 (en) Summary video generator and program
JP5746432B2 (en) User terminal device, server device, system, and method for evaluating quality of media data
TWI544786B (en) Method and device for calculating distortion of a video being affected by compression artifacts and channel artifacts
Kara et al. Perceptual quality of reconstructed medical images on projection-based light field displays
JP4359120B2 (en) Content quality evaluation apparatus and program thereof
JP2018196099A (en) Psychological factor score estimation value calculation device, psychological factor score estimation value calculation method, and program
EP3259906B1 (en) Handling nuisance in teleconference system
JP4019945B2 (en) Summary generation apparatus, summary generation method, summary generation program, and recording medium recording the program
JP2018074469A (en) Psychological factor score calculation device, psychological factor score calculation method, and program
JP4451857B2 (en) Video quality parameter estimation apparatus, method, and program
JP2018019220A (en) Psychological factor score estimation value calculation device, psychological factor score estimation value calculation method and program
JP2018082314A (en) Total quality estimation device, total quality estimation method, and program
US20120117063A1 (en) System and method of determining the appropriate mixing volume for an event sound corresponding to an impact related events and determining the enhanced event audio