JP5373704B2 - Multimedia quality estimation apparatus and multimedia quality estimation method - Google Patents

Multimedia quality estimation apparatus and multimedia quality estimation method Download PDF

Info

Publication number
JP5373704B2
JP5373704B2 JP2010137003A JP2010137003A JP5373704B2 JP 5373704 B2 JP5373704 B2 JP 5373704B2 JP 2010137003 A JP2010137003 A JP 2010137003A JP 2010137003 A JP2010137003 A JP 2010137003A JP 5373704 B2 JP5373704 B2 JP 5373704B2
Authority
JP
Japan
Prior art keywords
quality
quality estimation
video
multimedia
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010137003A
Other languages
Japanese (ja)
Other versions
JP2012004779A (en
Inventor
聡子 富永
孝典 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010137003A priority Critical patent/JP5373704B2/en
Publication of JP2012004779A publication Critical patent/JP2012004779A/en
Application granted granted Critical
Publication of JP5373704B2 publication Critical patent/JP5373704B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To determine a conversation type and to estimate a multimedia quality while taking the conversation type and utilization environment conditions into account. <P>SOLUTION: A multimedia quality estimation apparatus 2 has: a communication packet collection section 21 for collecting a packet exchanged between communication terminals 1; a voice information collection section 22 for extracting voice information from the packet; a video information collection section 23 for extracting video information from the packet; a delay quality estimation section 24 for estimating a delay quality; a voice quality estimation section 25 for estimating a voice quality; a task determination section 26 for determining a conversation type by extracting the feature amount of a conversation between the communication terminals 1 from the voice information; a video quality estimation section 27 for estimating a video quality; a utilization environment condition input section 28 for receiving utilization environment conditions of the communication terminals 1 from the outside; and a multimedia quality estimation section 29 for estimating a multimedia quality while taking the conversion type and the utilization environment conditions into account. <P>COPYRIGHT: (C)2012,JPO&amp;INPIT

Description

本発明は、ネットワークを介して映像と音声を伝送する映像・音声通信サービスにおいて通信端末間で行われる会話の形式を表す会話種別を判定し、会話種別を利用して映像・音声通信サービスにおけるマルチメディア品質を推定するマルチメディア品質推定装置およびマルチメディア品質推定方法に関するものである。 The present invention determines a conversation type representing a type of conversation performed between communication terminals in a video / audio communication service that transmits video and audio over a network, and uses the conversation type to determine the type of conversation in the video / audio communication service. The present invention relates to a multimedia quality estimation apparatus and a multimedia quality estimation method for estimating media quality.

映像配信サービスにおいては、高品質な映像の授受を実現するために、提供されたマルチメディアの品質を適切かつ迅速に評価する手法の確立が望まれている。
従来、映像品質評価は、ユーザがその映像を実際に観たときに感じる品質を測定する、いわゆる主観品質評価が基本である。しかしながら、主観品質評価は専用の設備と膨大な時間および労力を要する。そこで、映像品質評価をより効率的に行うために、映像から物理的に測定される特徴の量から主観品質を推定する技術(以下、客観品質評価技術という)の開発が望まれている。
In video distribution services, it is desired to establish a method for appropriately and promptly evaluating the quality of multimedia provided in order to realize the transmission and reception of high-quality video.
Conventionally, video quality evaluation is based on so-called subjective quality evaluation, which measures the quality that a user feels when actually viewing the video. However, subjective quality assessment requires dedicated equipment and enormous time and effort. Therefore, in order to perform video quality evaluation more efficiently, development of a technique for estimating subjective quality from the amount of features physically measured from video (hereinafter referred to as objective quality evaluation technique) is desired.

従来の客観品質評価技術は、マルチメディア品質と、音声品質、映像品質および遅延品質との関係、並びに音声品質、映像品質および遅延品質のうちの2つに対する交互作用を考慮したモデルを作成してきた(例えば特許文献1参照)。ここで、マルチメディア品質とは、音声品質、映像品質および遅延品質を考慮した、通信サービスの総合的な品質のことを言う。
また、従来、双方向の映像・音声通信サービスといえばテレビ会議サービスであり、マルチメディア品質の推定方法としては、1対1の双方向で同程度のやり取りが行われ、同程度の通信端末が利用されていることを想定していた。
Conventional objective quality assessment technology has created a model that takes into account the relationship between multimedia quality, audio quality, video quality and delay quality, and the interaction between audio quality, video quality and delay quality. (For example, refer to Patent Document 1). Here, multimedia quality refers to the overall quality of communication services in consideration of audio quality, video quality, and delay quality.
Conventionally, the video / audio communication service is a video conference service. As a method for estimating multimedia quality, the same level of communication is performed in a one-to-one direction. It was assumed that it was being used.

特開2005−244321号公報JP-A-2005-244321

しかしながら、テレビ会議サービスの利用状態は利用目的によって異なる。例えば、結論を導く討議を行う会議もあれば、講演や講義のように一方的な映像および音声を送るだけの会議もある。討議を行うような会議では、テレビ会議サービスで結ばれた2つ以上の地点で映像の動きや会話の発生状況が似通っている状態と思われるが、講演のような場合には、送話者の側では映像の動きや発話が活発でも受話者の側ではほとんど動きや発話がない状態となる。   However, the usage state of the video conference service varies depending on the purpose of use. For example, there are conferences for discussions that lead to conclusions, and other conferences that only send unilateral video and audio, such as lectures and lectures. In conferences where discussions are held, it seems that the situation of video movement and conversation is similar at two or more points connected by the video conference service. Even if the movement or utterance of the video is active on the side of the receiver, the movement of the utterance is almost absent on the receiver side.

マルチメディア品質推定モデルにおける構成要素である映像品質や音声品質および遅延品質を考えた場合、作業遂行性が強い会議の場合には音声品質の重みが映像品質に比べて強くなり、遅延品質の重みも強くなる。また、一方的な伝達を目的としたような講演・講義のような場合には、映像品質の重みが音声品質に比べて強くなると同時に遅延品質の重みも弱くなると考えられる。   Considering the video quality, audio quality, and delay quality, which are the components in the multimedia quality estimation model, the audio quality weight is stronger than the video quality in a meeting with high work performance, and the delay quality weight Also become stronger. In addition, in the case of a lecture / lecture for the purpose of unilateral transmission, it is considered that the weight of video quality becomes stronger than the quality of audio and the weight of delay quality also becomes weaker.

さらに、このようなコミュニケーションの状況の違いに加え、双方向の利用環境の違いも出てくる。すなわち、一方の地点では高解像度のディスプレイ付きの通信端末を使用し、他方の地点では低解像度のディスプレイ付きの通信端末を使用している場合には、映像品質や音声品質に対する重みが異なる。ディスプレイの解像度が低くなればなるほど、映像品質に対する重要度が低くなり、音声品質に対する重要度が強くなると考えられる。   Furthermore, in addition to the differences in the communication situation, there are differences in the interactive usage environment. That is, when a communication terminal with a high-resolution display is used at one point and a communication terminal with a low-resolution display is used at the other point, weights for video quality and audio quality are different. It is considered that the lower the display resolution, the lower the importance for video quality and the higher the importance for audio quality.

本発明は、上記に鑑みてなされたもので、その目的とするところは、双方向の映像・音声通信サービスにおいて通信端末間で行われる会話の形式を表す会話種別を判定することができる会話種別判定装置および会話種別判定方法を提供することにある。
また、本発明の目的は、会話種別および利用環境条件を考慮したマルチメディア品質を推定することができるマルチメディア品質推定装置およびマルチメディア品質推定方法を提供することにある。
The present invention has been made in view of the above, and an object of the present invention is to provide a conversation type that can determine a conversation type representing a form of conversation performed between communication terminals in a bidirectional video / audio communication service. To provide a determination device and a conversation type determination method.
Another object of the present invention is to provide a multimedia quality estimation apparatus and a multimedia quality estimation method capable of estimating multimedia quality in consideration of conversation type and usage environment conditions.

本発明は、ネットワークを介して映像と音声を伝送する映像・音声通信サービスにおいて通信端末間で行われる会話の形式を表す会話種別を判定し、映像・音声通信サービスにおけるマルチメディア品質を推定するマルチメディア品質推定装置であって、通信端末間で送受信されている通信パケットを収集する通信パケット収集手段と、この通信パケット収集手段が収集した通信パケットから音声情報を抽出する音声情報収集手段と、この音声情報収集手段が抽出した音声情報から通信端末間の会話の特徴量を抽出し、この特徴量から会話種別を判定する会話種別判定手段と、前記通信パケット収集手段が収集した通信パケットから映像情報を抽出する映像情報収集手段と、この映像情報収集手段が抽出した映像情報から映像品質を推定する映像品質推定手段と、前記音声情報収集手段が抽出した音声情報から音声品質を推定する音声品質推定手段と、前記抽出された音声情報と映像情報とから遅延品質を推定する遅延品質推定手段と、前記会話種別判定手段が判定した会話種別と、通信端末の能力を表す利用環境条件と、前記映像品質推定手段が算出した映像品質推定値と、前記音声品質推定手段が算出した音声品質推定値と、前記遅延品質推定手段が算出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定するマルチメディア品質推定手段とを備え、前記会話種別判定手段は、前記音声情報収集手段が抽出した音声情報から前記会話の特徴量として、通信端末間の会話のやり取りの頻度を算出するやり取り頻度算出手段と、算出されたやり取りの頻度を所定の判別閾値により分類することにより前記会話種別を判定する分類手段とを有し、前記通信端末の能力を表す利用環境条件は、前記通信端末のディスプレイ装置の解像度または画面の大きさを表すものであり、前記マルチメディア品質推定手段は、会話種別と利用環境条件との交互作用を考慮して決定された係数を会話種別毎および利用環境条件毎に予め記憶する係数テーブルと、前記会話種別判定手段が判定した会話種別と外部から入力された利用環境条件とに対応する係数を前記係数テーブルから取得し、取得した係数と前記映像品質推定値と前記音声品質推定値と前記遅延品質推定値とを所定の品質推定式に代入してマルチメディア品質推定値を算出するマルチメディア品質算出手段とを有することを特徴とするものである。
また、本発明のマルチメディア品質推定装置の1構成例において、前記やり取り頻度算出手段は、音声パケットの発生状況から前記やり取りの頻度を算出することを特徴とするものである。
The present invention determines a conversation type representing a type of conversation performed between communication terminals in a video / audio communication service for transmitting video and audio over a network, and estimates a multimedia quality in the video / audio communication service. A media quality estimation device , a communication packet collecting means for collecting communication packets transmitted and received between communication terminals, a voice information collecting means for extracting voice information from the communication packets collected by the communication packet collecting means, A conversation type determining unit for extracting a conversation feature amount between communication terminals from the voice information extracted by the voice information collecting unit and determining a conversation type from the feature amount; and video information from the communication packet collected by the communication packet collecting unit. Video information collecting means for extracting video, and estimating the video quality from the video information extracted by the video information collecting means Image quality estimating means, sound quality estimating means for estimating sound quality from the sound information extracted by the sound information collecting means, delay quality estimating means for estimating delay quality from the extracted sound information and video information, A conversation type determined by the conversation type determination unit, a use environment condition indicating the capability of the communication terminal, a video quality estimation value calculated by the video quality estimation unit, and an audio quality estimation value calculated by the audio quality estimation unit; Multimedia quality estimating means for estimating multimedia quality, which is the overall quality of the communication service, based on the delay quality estimated value calculated by the delay quality estimating means, and the conversation type determining means includes the voice An exchange frequency calculating means for calculating the frequency of conversation exchange between communication terminals as the feature amount of the conversation from the voice information extracted by the information collecting means; Classification means for determining the conversation type by classifying the frequency of exchange according to a predetermined determination threshold, and the use environment condition indicating the capability of the communication terminal is the resolution or the screen size of the display device of the communication terminal. The multimedia quality estimation means, a coefficient table that pre-stores a coefficient determined in consideration of the interaction between the conversation type and the use environment condition for each conversation type and each use environment condition; The coefficient corresponding to the conversation type determined by the conversation type determination means and the usage environment condition input from the outside is acquired from the coefficient table, the acquired coefficient, the video quality estimated value, the audio quality estimated value, and the delay And multimedia quality calculating means for calculating a multimedia quality estimated value by substituting the quality estimated value into a predetermined quality estimation formula. Is.
In the configuration example of the multimedia quality estimation apparatus of the present invention, the exchange frequency calculating means calculates the frequency of the exchange from the occurrence state of voice packets.

また、本発明のマルチメディア品質推定装置は、前記映像品質推定手段と前記音声品質推定手段と前記遅延品質推定手段の代わりに、前記通信パケット収集手段が収集した品質情報パケットから映像品質推定値、音声品質推定値および遅延品質推定値を取り出す品質情報抽出手段を備え、前記マルチメディア品質推定手段は、前記会話種別判定手段が判定した会話種別と、前記通信端末の能力を表す利用環境条件と、前記品質情報抽出手段が取り出した映像品質推定値と、前記品質情報抽出手段が取り出した音声品質推定値と、前記品質情報抽出手段が取り出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定することを特徴とするものである。 Further, the multimedia quality estimation apparatus of the present invention is characterized in that, instead of the video quality estimation means, the audio quality estimation means, and the delay quality estimation means, a video quality estimation value from a quality information packet collected by the communication packet collection means, Quality information extracting means for extracting a speech quality estimate value and a delay quality estimate value, the multimedia quality estimation means, a conversation type determined by the conversation type determination means, a use environment condition representing the capability of the communication terminal, Based on the video quality estimation value extracted by the quality information extraction unit, the audio quality estimation value extracted by the quality information extraction unit, and the delay quality estimation value extracted by the quality information extraction unit, a comprehensive communication service It is characterized by estimating multimedia quality, which is quality .

また、本発明は、ネットワークを介して映像と音声を伝送する映像・音声通信サービスにおいて通信端末間で行われる会話の形式を表す会話種別を判定し、映像・音声通信サービスにおけるマルチメディア品質を推定するマルチメディア品質推定方法であって、通信端末間で送受信されている通信パケットを収集する通信パケット収集ステップと、この通信パケット収集ステップで収集した通信パケットから音声情報を抽出する音声情報収集ステップと、この音声情報収集ステップで抽出した音声情報から通信端末間の会話の特徴量を抽出し、この特徴量から会話種別を判定する会話種別判定ステップと、前記通信パケット収集ステップで収集した通信パケットから映像情報を抽出する映像情報収集ステップと、この映像情報収集ステップで抽出した映像情報から映像品質を推定する映像品質推定ステップと、前記音声情報収集ステップで抽出した音声情報から音声品質を推定する音声品質推定ステップと、前記抽出した音声情報と映像情報とから遅延品質を推定する遅延品質推定ステップと、前記会話種別判定ステップで判定した会話種別と、通信端末の能力を表す利用環境条件と、前記映像品質推定ステップで算出した映像品質推定値と、前記音声品質推定ステップで算出した音声品質推定値と、前記遅延品質推定ステップで算出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定するマルチメディア品質推定ステップとを含み、前記会話種別判定ステップは、前記音声情報収集ステップで抽出した音声情報から前記会話の特徴量として、通信端末間の会話のやり取りの頻度を算出するやり取り頻度算出ステップと、算出したやり取りの頻度を所定の判別閾値により分類することにより前記会話種別を判定する分類ステップとからなり、前記通信端末の能力を表す利用環境条件は、前記通信端末のディスプレイ装置の解像度または画面の大きさを表すものであり、前記マルチメディア品質推定ステップは、会話種別と利用環境条件との交互作用を考慮して決定された係数を会話種別毎および利用環境条件毎に予め記憶する係数テーブルを参照して、前記会話種別判定ステップで判定した会話種別と外部から入力された利用環境条件とに対応する係数を前記係数テーブルから取得し、取得した係数と前記映像品質推定値と前記音声品質推定値と前記遅延品質推定値とを所定の品質推定式に代入してマルチメディア品質推定値を算出するマルチメディア品質算出ステップを含むことを特徴とするものである。
また、本発明のマルチメディア品質推定方法の1構成例において、前記やり取り頻度算出ステップは、音声パケットの発生状況から前記やり取りの頻度を算出することを特徴とするものである。
In addition, the present invention determines a conversation type representing a conversation type performed between communication terminals in a video / audio communication service for transmitting video and audio over a network, and estimates multimedia quality in the video / audio communication service. A multimedia quality estimation method for collecting communication packets transmitted and received between communication terminals; a voice information collecting step for extracting voice information from the communication packets collected in the communication packet collecting step; From the voice information extracted in the voice information collection step, the feature amount of the conversation between the communication terminals is extracted, the conversation type determination step for determining the conversation type from the feature amount, and the communication packet collected in the communication packet collection step The video information collection step for extracting video information and the video information collection step A video quality estimation step for estimating video quality from the extracted video information, a voice quality estimation step for estimating audio quality from the audio information extracted in the audio information collection step, and a delay quality from the extracted audio information and video information A delay quality estimation step for estimating the conversation type, a conversation type determined in the conversation type determination step, a use environment condition indicating the capability of the communication terminal, a video quality estimation value calculated in the video quality estimation step, and the audio quality estimation A speech quality estimation value calculated in the step, and a multimedia quality estimation step for estimating a multimedia quality that is an overall quality of the communication service based on the delay quality estimation value calculated in the delay quality estimation step, The conversation type determining step includes the feature amount of the conversation from the voice information extracted in the voice information collecting step. The communication frequency calculation step for calculating the frequency of conversation exchange between the communication terminals, and the classification step for determining the conversation type by classifying the calculated frequency of exchange according to a predetermined discrimination threshold, The use environment condition representing the ability of the communication terminal represents the resolution or the screen size of the display device of the communication terminal, and the multimedia quality estimation step takes into account the interaction between the conversation type and the use environment condition. The coefficient corresponding to the conversation type determined in the conversation type determination step and the use environment condition input from the outside is referred to with reference to a coefficient table that stores the determined coefficient in advance for each conversation type and each use environment condition. Obtained from the coefficient table, the obtained coefficient, the video quality estimated value, the audio quality estimated value, and the delay quality estimated value It includes a multimedia quality calculating step of calculating a multimedia quality estimated value by substituting it into the quality estimation formula .
In the configuration example of the multimedia quality estimation method of the present invention, the exchange frequency calculating step calculates the frequency of the exchange from the occurrence state of the voice packet.

また、本発明のマルチメディア品質推定方法は、前記映像品質推定ステップと前記音声品質推定ステップと前記遅延品質推定ステップの代わりに、前記通信パケット収集ステップで収集した品質情報パケットから映像品質推定値、音声品質推定値および遅延品質推定値を取り出す品質情報抽出ステップを含み、前記マルチメディア品質推定ステップは、前記会話種別判定ステップで判定した会話種別と、前記通信端末の能力を表す利用環境条件と、前記品質情報抽出ステップで取り出した映像品質推定値と、前記品質情報抽出ステップで取り出した音声品質推定値と、前記品質情報抽出ステップで取り出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定することを特徴とするものである。 Further, the multimedia quality estimation method of the present invention is a video quality estimation value obtained from the quality information packet collected in the communication packet collection step, instead of the video quality estimation step, the audio quality estimation step, and the delay quality estimation step. A quality information extraction step for extracting a speech quality estimate value and a delay quality estimate value, wherein the multimedia quality estimation step includes a conversation type determined in the conversation type determination step, and a use environment condition indicating the capability of the communication terminal; Based on the video quality estimation value extracted in the quality information extraction step, the audio quality estimation value extracted in the quality information extraction step, and the delay quality estimation value extracted in the quality information extraction step, a comprehensive communication service It is characterized by estimating multimedia quality, which is quality .

本発明によれば、通信端末間で送受信されている通信パケットを収集する通信パケット収集手段と、通信パケット収集手段が収集した通信パケットから音声情報を抽出する音声情報収集手段と、音声情報収集手段が抽出した音声情報から通信端末間の会話の特徴量を抽出し、この特徴量から会話種別を判定する会話種別判定手段とを設けることにより、会話種別を判定することができ、テレビ会議サービスのような双方向の映像・音声通信サービスにおけるマルチメディア品質を推定する際に会話種別を考慮した推定を行うことができる。   According to the present invention, communication packet collecting means for collecting communication packets transmitted and received between communication terminals, voice information collecting means for extracting voice information from communication packets collected by the communication packet collecting means, and voice information collecting means The conversation type can be determined by extracting the feature amount of the conversation between the communication terminals from the extracted voice information and providing the conversation type determination means for determining the conversation type from the feature amount. When the multimedia quality in such a bidirectional video / audio communication service is estimated, the estimation considering the conversation type can be performed.

また、本発明では、映像情報から映像品質を推定する映像品質推定手段と、音声情報から音声品質を推定する音声品質推定手段と、音声情報と映像情報とから遅延品質を推定する遅延品質推定手段と、会話種別判定装置が判定した会話種別と利用環境条件と映像品質推定値と音声品質推定値と遅延品質推定値に基づいてマルチメディア品質を推定するマルチメディア品質推定手段とを設けることにより、会話種別および利用環境条件を考慮した高精度の主観品質推定を実現することができ、双方向通信サービスの利用状況に対応したマルチメディア品質を高精度に推定することができる。その結果、本発明によれば、会議や自由会話のような双方向の強い会話、講演や講義のような双方向性の弱い会話のいずれの場合でも、マルチメディア品質を高精度に推定することができる。また、本発明では、一方の地点では高解像度のディスプレイ付きの通信端末を使用し、他方の地点では低解像度のディスプレイ付きの通信端末を使用しているような場合でも、マルチメディア品質を高精度に推定することができる。   In the present invention, video quality estimation means for estimating video quality from video information, audio quality estimation means for estimating audio quality from audio information, and delay quality estimation means for estimating delay quality from audio information and video information And providing a multimedia quality estimation means for estimating the multimedia quality based on the conversation type determined by the conversation type determination device, the use environment condition, the video quality estimation value, the voice quality estimation value, and the delay quality estimation value, Highly accurate subjective quality estimation considering the conversation type and usage environment conditions can be realized, and multimedia quality corresponding to the usage status of the two-way communication service can be estimated with high accuracy. As a result, according to the present invention, it is possible to estimate multimedia quality with high accuracy in both cases of strong interactive conversations such as conferences and free conversations and weak interactive conversations such as lectures and lectures. Can do. In the present invention, even when a communication terminal with a high-resolution display is used at one point and a communication terminal with a low-resolution display is used at the other point, the multimedia quality is highly accurate. Can be estimated.

本発明の第1の実施の形態に係るマルチメディア品質推定装置を利用した映像・音声通信サービスシステムの一例を示すブロック図である。It is a block diagram which shows an example of the video / audio communication service system using the multimedia quality estimation apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るマルチメディア品質推定装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the multimedia quality estimation apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るマルチメディア品質推定装置におけるタスク判断部の構成を示すブロック図である。It is a block diagram which shows the structure of the task judgment part in the multimedia quality estimation apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るマルチメディア品質推定装置におけるタスク判断部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the task judgment part in the multimedia quality estimation apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るマルチメディア品質推定装置におけるマルチメディア品質推定部の構成を示すブロック図である。It is a block diagram which shows the structure of the multimedia quality estimation part in the multimedia quality estimation apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るマルチメディア品質推定装置におけるマルチメディア品質推定部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the multimedia quality estimation part in the multimedia quality estimation apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るマルチメディア品質推定装置における係数テーブルの例を示す図である。It is a figure which shows the example of the coefficient table in the multimedia quality estimation apparatus which concerns on the 1st Embodiment of this invention. 本発明の第2の実施の形態においてマルチメディア品質推定装置を通信端末内に設ける例を示すブロック図である。It is a block diagram which shows the example which provides the multimedia quality estimation apparatus in the communication terminal in the 2nd Embodiment of this invention.

[第1の実施の形態]
以下、本発明の実施の形態を図面に基づき詳細に説明する。図1は本発明の第1の実施の形態に係るマルチメディア品質推定装置を利用した映像・音声通信サービスシステムの一例を示すブロック図である。
映像・音声通信サービスシステムは、複数の通信端末1と、複数のマルチメディア品質推定装置2と、複数の通信端末1を相互に接続するネットワーク3と、映像・音声通信サービスシステムの品質管理を行う品質管理装置4とから構成されている。各マルチメディア品質推定装置2は、通信端末1とネットワーク3との間に設置されている。
[First Embodiment]
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing an example of a video / audio communication service system using the multimedia quality estimation apparatus according to the first embodiment of the present invention.
The video / audio communication service system performs quality management of a plurality of communication terminals 1, a plurality of multimedia quality estimation devices 2, a network 3 interconnecting the plurality of communication terminals 1, and a video / audio communication service system. And a quality control device 4. Each multimedia quality estimation device 2 is installed between the communication terminal 1 and the network 3.

マルチメディア品質推定装置2は、通信端末1間で送受信されている通信パケットを収集する通信パケット収集部21と、通信パケットから音声情報を抽出する音声情報収集部22と、通信パケットから映像情報を抽出する映像情報収集部23と、音声情報と映像情報とから遅延品質を推定する遅延品質推定部24と、音声情報から音声品質を推定する音声品質推定部25と、音声情報から通信端末1間の会話の特徴量を抽出し、この特徴量から会話種別を判定する会話種別判定手段となるタスク判断部26と、映像情報から映像品質を推定する映像品質推定部27と、外部から通信端末1の能力を表す利用環境条件を受け取る利用環境条件入力部28と、マルチメディア品質を推定するマルチメディア品質推定部29とを有する。通信パケット収集部21と音声情報収集部22とタスク判断部26とは、会話種別判定装置を構成している。   The multimedia quality estimation device 2 includes a communication packet collection unit 21 that collects communication packets transmitted and received between the communication terminals 1, an audio information collection unit 22 that extracts audio information from the communication packets, and video information from the communication packets. Between the video information collecting unit 23 to be extracted, the delay quality estimating unit 24 for estimating the delay quality from the audio information and the video information, the audio quality estimating unit 25 for estimating the audio quality from the audio information, and the communication terminal 1 from the audio information Are extracted, and a task determination unit 26 serving as a conversation type determination unit that determines a conversation type from the feature amount, a video quality estimation unit 27 that estimates video quality from video information, and a communication terminal 1 from the outside. A use environment condition input unit 28 that receives a use environment condition representing the ability of the user, and a multimedia quality estimation unit 29 that estimates multimedia quality. The communication packet collection unit 21, the voice information collection unit 22, and the task determination unit 26 constitute a conversation type determination device.

図2はマルチメディア品質推定装置2の動作を示すフローチャートである。通信パケット収集部21は、ネットワーク3を介して通信端末1間で送受信されている通信パケットを収集する(図2ステップS1)。
音声情報収集部22は、通信パケット収集部21が収集した通信パケットから音声情報(音声パケット)を抽出する(図2ステップS2)。
映像情報収集部23は、通信パケット収集部21が収集した通信パケットから映像情報(映像パケット)を抽出する(図2ステップS3)。
FIG. 2 is a flowchart showing the operation of the multimedia quality estimation apparatus 2. The communication packet collecting unit 21 collects communication packets transmitted and received between the communication terminals 1 via the network 3 (step S1 in FIG. 2).
The voice information collecting unit 22 extracts voice information (voice packet) from the communication packets collected by the communication packet collecting unit 21 (step S2 in FIG. 2).
The video information collection unit 23 extracts video information (video packet) from the communication packets collected by the communication packet collection unit 21 (step S3 in FIG. 2).

なお、本実施の形態において、映像品質、音声品質、遅延品質およびマルチメディア品質における「品質」とは、ユーザ体感品質(Quality of Experience:QoE)のことを意味し、主観評価実験で得られる平均オピニオン評点(Mean Opinion Score:MOS)もしくはMOSを推定することにより得られる客観品質評価値のことを指す。   In the present embodiment, “quality” in video quality, audio quality, delay quality and multimedia quality means user experience quality (QoE), which is an average obtained by subjective evaluation experiments. Opinion score (Mean Opinion Score: MOS) or objective quality evaluation value obtained by estimating MOS.

遅延品質推定部24は、映像情報収集部23が抽出した映像情報と音声情報収集部22が抽出した音声情報とから映像と音声との相対的遅延時間を算出し、遅延品質を推定する(図2ステップS4)。   The delay quality estimation unit 24 calculates the relative delay time between video and audio from the video information extracted by the video information collection unit 23 and the audio information extracted by the audio information collection unit 22, and estimates the delay quality (FIG. 2 step S4).

音声品質推定部25は、音声情報収集部22が抽出した音声パケットもしくは音声パケットに含まれる音声信号に基づいて音声品質を推定する(図2ステップS5)。音声品質を推定する方法としては、例えば国際標準化機関ITU−T(International Telecommunication Union Telecommunication Standardization Sector)勧告P.862による音声品質客観評価尺度PESQ(Perceptual Evaluation of Speech Quality)アルゴリズムを利用することができる。   The voice quality estimation unit 25 estimates the voice quality based on the voice packet extracted by the voice information collection unit 22 or the voice signal included in the voice packet (step S5 in FIG. 2). As a method for estimating the voice quality, for example, ITU-T (International Telecommunication Union Telecommunication Standardization Sector) recommendation P.I. A speech quality objective evaluation scale PESQ (Perceptual Evaluation of Speech Quality) algorithm according to 862 can be used.

タスク判断部26は、音声情報収集部22が抽出した音声情報から通信端末別の有音区間の発生状況を測定し、通信端末1間の会話のやり取りの発生頻度から、映像・音声通信サービスシステムを利用している話者の会話の形式を表す会話種別を判定する(図2ステップS6)。会話種別としては、会議、講義(講演)、自由会話、データ照合などがある。   The task determination unit 26 measures the occurrence status of a voiced section for each communication terminal from the voice information extracted by the voice information collection unit 22, and determines the video / voice communication service system from the occurrence frequency of conversation exchange between the communication terminals 1. The conversation type representing the conversation format of the speaker who uses is determined (step S6 in FIG. 2). Conversation types include conferences, lectures (lectures), free conversations, and data verification.

会話種別を判定するための会話の特徴量としては、例えば文献「伊藤,北脇,“会話音声の時間的特徴量に着目した遅延品質評価法”,日本音響学会誌,Vol.43,No.11,p.851−857,1987」で定義されている「やり取りの頻度」を用いる。このやり取りの頻度Rnとは、一方の通信端末1を利用している話者Aと他方の通信端末1を利用している話者Bとの間の音声のやり取りの回数を会話毎に求め、このやり取りの回数を単位時間(例えば1分間)当たりに換算した値として以下のように算出するものである。 As the feature amount of the conversation for determining the conversation type, for example, the literature “Ito, Kitawaki,“ Delay Quality Evaluation Method Focusing on Temporal Feature Quantity of Conversation Voice ”, Journal of Acoustical Society of Japan, Vol.43, No.11. , P. 851-857, 1987 ”is used. This exchange frequency R n is obtained for each conversation the number of voice exchanges between a speaker A using one communication terminal 1 and a speaker B using the other communication terminal 1. The number of exchanges is calculated as follows as a value converted per unit time (for example, 1 minute).

Figure 0005373704
Figure 0005373704

ここで、iは会話番号、Rnab(i)は会話(i)における話者A,B間のやり取りの回数、Tmは会話時間長、tmは単位時間(1分間)を示す。やり取りの回数とは、話者Aの発話が終わって話者Bの発話に切り替わったり、話者Bの発話が終わって話者Aの発話に切り替わったりする回数、すなわち話者が切り替わる回数のことである。 Here, i is the conversation number, R nab (i) is the number of exchanges between the speakers A and B in the conversation (i), T m is the conversation time length, and t m is the unit time (1 minute). The number of exchanges is the number of times that speaker A has finished speaking and switched to speaker B's speech, or the number of times speaker B has finished speaking and switched to speaker A's speech, that is, the number of times the speaker has switched. It is.

そして、タスク判断部26は、算出したやり取りの頻度Rnを特開2005−148225号公報に開示された判別閾値により閾値処理することにより、会話種別を判定することができる。具体的には、やり取りの頻度Rnが所定値a(例えば0)未満であれば、会話種別を「講義」と判定し、やり取りの頻度Rnが所定値a以上所定値b(a<b)未満であれば、会話種別を「会議」と判定し、やり取りの頻度Rnが所定値b以上所定値c(b<c)未満であれば、会話種別を「自由会話」と判定し、やり取りの頻度Rnが所定値c以上であれば、会話種別を「データ照合」と判定する。 Then, the task determination unit 26 can determine the conversation type by thresholding the calculated exchange frequency R n with the determination threshold disclosed in JP-A-2005-148225. Specifically, if the exchange frequency R n is less than a predetermined value a (for example, 0), the conversation type is determined as “lecture”, and the exchange frequency R n is a predetermined value a or more and a predetermined value b (a <b ), The conversation type is determined to be “conference”, and if the exchange frequency R n is not less than the predetermined value b and less than the predetermined value c (b <c), the conversation type is determined to be “free conversation”. If the exchange frequency R n is greater than or equal to the predetermined value c, the conversation type is determined as “data verification”.

図3はタスク判断部26の構成を示すブロック図、図4はタスク判断部26の動作を示すフローチャートである。タスク判断部26は、通信端末別の有音区間の発生状況を測定する有音区間検出部261と、通信端末1間の会話のやり取りの回数を算出するやり取り回数算出部262と、通信端末1間の会話のやり取りの頻度を算出するやり取り頻度算出部263と、やり取りの頻度から会話種別を判定する分類部264とを有する。   FIG. 3 is a block diagram illustrating the configuration of the task determination unit 26, and FIG. 4 is a flowchart illustrating the operation of the task determination unit 26. The task determination unit 26 includes a voiced interval detection unit 261 that measures the occurrence of a voiced segment for each communication terminal, an exchange count calculation unit 262 that calculates the number of conversation exchanges between the communication terminals 1, and the communication terminal 1. An exchange frequency calculation unit 263 that calculates the frequency of conversations between them, and a classification unit 264 that determines a conversation type from the frequency of exchanges.

まず、有音区間検出部261は、音声情報収集部22が抽出した音声情報から、通信端末別の有音区間の発生状況を測定する(図4ステップS261)。
やり取り回数算出部262は、有音区間の発生状況から、話者が切り替わる回数であるやり取り回数を算出する(ステップS262)。
First, the voiced section detection unit 261 measures the occurrence status of the voiced section for each communication terminal from the voice information extracted by the voice information collection unit 22 (step S261 in FIG. 4).
The number of exchanges calculation unit 262 calculates the number of exchanges, which is the number of times the speaker is switched, from the occurrence state of the voiced section (step S262).

やり取り頻度算出部263は、算出されたやり取り回数を用いて、式(1)により単位時間あたりの会話のやり取りの頻度Rnを算出する(ステップS263)。
そして、分類部264は、算出されたやり取りの頻度Rnを、上記のように所定の判別閾値a,b,cにより分類することにより、会話種別を判定する(ステップS264)。会話種別の判定が完了した時点でタスク判断部26の処理が終了する(ステップS265においてYES)。
Exchanging frequency calculating unit 263, using the exchange number that has been calculated, to calculate the frequency R n exchange conversations per unit time by the equation (1) (step S263).
Then, the classification unit 264 determines the conversation type by classifying the calculated exchange frequency R n according to the predetermined determination thresholds a, b, and c as described above (step S264). When the determination of the conversation type is completed, the process of the task determination unit 26 ends (YES in step S265).

やり取りの頻度Rnを測定する方法として、音声信号ではなく音声パケット情報を用いる方法もある。すなわち、音声符号化にITU−T勧告G.729,G.723.1のAnnexに記載されている無音圧縮技術が用いられている場合、有音パケットのみ送出され、無音区間ではパケットは送出されないことから、音声パケットの発生状況からやり取りの頻度Rnを推定することができる。 As a method for measuring the exchange frequency R n , there is also a method using voice packet information instead of voice signals. That is, ITU-T Recommendation G. 729, G.G. If silence compression technique described in Annex the G.723.1 is used, sent only voice packets, estimated from the in silent section packets are not sent, the frequency R n interactions from occurrence of the voice packet can do.

また、会話種別は、音声情報と映像情報を組み合わせることにより推定することもできる。この場合、タスク判断部26は、映像情報より映像動き量の時間的発生状況の推移を測定し、さらに有音区間の時間的発生状況を測定する。双方向性が強い通信の場合には、映像動き量の時間的発生状況と有音区間の時間的発生状況の一致度合いが高いと想定される。このため、映像動き量の時間的発生状況と有音区間の時間的発生状況の一致度を用いて、会話のやり取りの頻度を推定することができる。   The conversation type can also be estimated by combining audio information and video information. In this case, the task determination unit 26 measures the transition of the temporal occurrence state of the video motion amount from the video information, and further measures the temporal occurrence state of the sound section. In the case of communication with strong bidirectionality, it is assumed that the degree of coincidence between the temporal occurrence state of the video motion amount and the temporal occurrence state of the sound section is high. For this reason, it is possible to estimate the frequency of conversation exchange using the degree of coincidence between the temporal occurrence state of the video motion amount and the temporal occurrence state of the voiced section.

映像品質推定部27は、映像情報収集部23が抽出した映像パケットもしくは映像パケットに含まれる映像信号に基づいて映像品質を推定する(図2ステップS7)。映像信号を基に映像品質を推定する方法としては、ITU−T勧告J.144,J.246,J.247,J.249に記載されている方法がある。これらの方法はメディア信号もしくはメディア信号から得られる統計情報を用いて映像品質を推定する方法である。   The video quality estimation unit 27 estimates the video quality based on the video packet extracted by the video information collection unit 23 or the video signal included in the video packet (step S7 in FIG. 2). As a method of estimating the video quality based on the video signal, ITU-T Recommendation J.I. 144, J. et al. 246, J.H. 247, J. et al. There is a method described in H.249. These methods are methods for estimating video quality using media signals or statistical information obtained from media signals.

次に、マルチメディア品質推定部29は、タスク判断部26が判定した会話種別と、利用環境条件入力部28から入力された利用環境条件と、映像品質推定部27から入力された映像品質推定値と、音声品質推定部25から入力された音声品質推定値と、遅延品質推定部24から入力された遅延品質推定値に基づいて、マルチメディア品質を推定する(図2ステップS8)。   Next, the multimedia quality estimation unit 29 determines the conversation type determined by the task determination unit 26, the usage environment condition input from the usage environment condition input unit 28, and the video quality estimation value input from the video quality estimation unit 27. Based on the speech quality estimation value input from the speech quality estimation unit 25 and the delay quality estimation value input from the delay quality estimation unit 24, the multimedia quality is estimated (step S8 in FIG. 2).

図5はマルチメディア品質推定部29の構成を示すブロック図、図6はマルチメディア品質推定部29の動作を示すフローチャートである。
マルチメディア品質推定部29は、係数テーブル291と、マルチメディア品質算出部292とを有する。
FIG. 5 is a block diagram showing the configuration of the multimedia quality estimation unit 29, and FIG. 6 is a flowchart showing the operation of the multimedia quality estimation unit 29.
The multimedia quality estimation unit 29 includes a coefficient table 291 and a multimedia quality calculation unit 292.

図7はマルチメディア品質推定部29の係数テーブル291の例を示す図である。係数テーブル291は、会話種別と通信端末1の能力を表す利用環境条件と後述するマルチメディア品質推定式の係数α,β,γ,δ,ε,ψ,φ,μとを対応付けて予め記憶しているものである。   FIG. 7 is a diagram illustrating an example of the coefficient table 291 of the multimedia quality estimation unit 29. The coefficient table 291 is stored in advance by associating the usage environment condition indicating the conversation type and the capability of the communication terminal 1 with the coefficients α, β, γ, δ, ε, ψ, φ, μ of the multimedia quality estimation formula described later. It is what you are doing.

マルチメディア品質算出部292は、例えば通信端末1の利用者から利用環境条件入力部28を介して利用環境条件が入力され(図6ステップS291)、タスク判断部26から会話種別を表す数値が入力されると(ステップS292)、入力された利用環境条件および会話種別に対応する係数α,β,γ,δ,ε,ψ,φ,μを係数テーブル291から取得する(ステップS293)。   The multimedia quality calculation unit 292 receives, for example, a usage environment condition from the user of the communication terminal 1 via the usage environment condition input unit 28 (step S291 in FIG. 6), and receives a numerical value representing the conversation type from the task determination unit 26. Then (step S292), the coefficients α, β, γ, δ, ε, ψ, φ, μ corresponding to the input usage environment condition and conversation type are acquired from the coefficient table 291 (step S293).

そして、マルチメディア品質算出部292は、映像品質推定部27から入力された映像品質推定値MOSvを受信し(ステップS294)、音声品質推定部25から入力された音声品質推定値MOSaを受信し(ステップS295)、遅延品質推定部24から入力された遅延品質推定値MOSdを受信して(ステップS296)、これらの品質推定値と係数α,β,γ,δ,ε,ψ,φ,μとを以下のマルチメディア品質推定式に代入して、マルチメディア品質推定値MOStを算出し(ステップS297)、算出したマルチメディア品質推定値MOStを出力する(ステップS298)。   The multimedia quality calculation unit 292 receives the video quality estimation value MOSv input from the video quality estimation unit 27 (step S294), and receives the audio quality estimation value MOSa input from the audio quality estimation unit 25 ( In step S295, the delay quality estimation value MOSd input from the delay quality estimation unit 24 is received (step S296), and these quality estimation values and coefficients α, β, γ, δ, ε, ψ, φ, μ Is substituted into the following multimedia quality estimation formula to calculate the multimedia quality estimate value MOSt (step S297), and the calculated multimedia quality estimate value MOSt is output (step S298).

双方向通信サービスを対象としたマルチメディア品質の推定方法としては、特許文献1に開示された方法がある。特許文献1に開示された方法では、マルチメディア品質推定モデルへの入力は、映像品質推定値MOSv、音声品質推定値MOSa、遅延品質推定値MOSdである。マルチメディア品質推定モデルは、会話を想定したモデルになっている。映像品質推定値MOSv、音声品質推定値MOSaおよび遅延品質推定値MOSdとマルチメディア品質推定値MOStとの関係を表すマルチメディア品質推定式は、以下のようになる。
MOSt=α・MOSa+β・MOSv+γ・MOSd+δ・MOSa・MOSv
+ε・MOSa・MOSd+ψ・MOSv・MOSd
+φ・MOSa・MOSv・MOSd+μ ・・・(2)
As a multimedia quality estimation method for a two-way communication service, there is a method disclosed in Patent Document 1. In the method disclosed in Patent Document 1, the input to the multimedia quality estimation model is a video quality estimation value MOSv, an audio quality estimation value MOSa, and a delay quality estimation value MOSd. The multimedia quality estimation model is a model that assumes conversation. The multimedia quality estimation formula representing the relationship between the video quality estimated value MOSv, the audio quality estimated value MOSa, the delay quality estimated value MOSd, and the multimedia quality estimated value MOSt is as follows.
MOSt = α · MOSa + β · MOSv + γ · MOSd + δ · MOSa · MOSv
+ Ε · MOSa · MOSd + ψ · MOSv · MOSd
+ Φ · MOSa · MOSv · MOSd + μ (2)

マルチメディア品質算出部292は、式(2)を用いてマルチメディア品質推定値MOStを算出する。
以上で、マルチメディア品質推定装置2の処理が終了する。
The multimedia quality calculation unit 292 calculates the multimedia quality estimated value MOSt using the equation (2).
Above, the process of the multimedia quality estimation apparatus 2 is complete | finished.

ここで、係数テーブル291に予め設定しておく係数α,β,γ,δ,ε,ψ,φ,μの求め方について説明する。まず、映像品質、音声品質、遅延品質、利用環境条件および会話種別が異なる複数の実験条件を設定し、これらの実験条件の各々について実験室等で主観評価実験を実施する。各品質は、映像・音声通信サービスの通信環境が制御できる実験系を用いることで制御可能である。主観評価実験では、想定する会話種別を模擬する会話を被験者に実施してもらい、映像品質評価値MOSv、音声品質評価値MOSaおよび遅延品質評価値MOSdと、総合的な品質であるマルチメディア品質評価値MOStとを求める。そして、これらの評価値のデータと式(2)とを使って回帰分析により、最適な係数α,β,γ,δ,ε,ψ,φ,μを利用環境条件毎および会話種別毎に求めるようにすればよい。   Here, how to obtain the coefficients α, β, γ, δ, ε, ψ, φ, μ set in advance in the coefficient table 291 will be described. First, a plurality of experimental conditions with different video quality, audio quality, delay quality, usage environment conditions, and conversation type are set, and a subjective evaluation experiment is performed in a laboratory or the like for each of these experimental conditions. Each quality can be controlled by using an experimental system that can control the communication environment of the video / audio communication service. In the subjective evaluation experiment, the subject conducts a conversation that simulates the assumed conversation type, and the video quality evaluation value MOSv, the audio quality evaluation value MOSa, the delay quality evaluation value MOSd, and the multimedia quality evaluation that is the overall quality. The value MOSt is obtained. Then, the optimum coefficients α, β, γ, δ, ε, ψ, φ, μ are obtained for each use environment condition and each conversation type by regression analysis using the data of these evaluation values and Expression (2). What should I do?

図4の例では、会話種別を4つに分類し、例えば会議、講義、自由会話、データ照合のそれぞれに1,2,3,4の番号を割り当てている。また、図4の例では、利用環境条件を、映像を受信する通信端末1のディスプレイ装置の解像度としている。ここでは、QVGA(Quarter Video Graphics Array),VGA(Video Graphics Array)・SD(Standard Definition)、HD(High Definition)の3段階を設けている。なお、利用環境条件は、ディスプレイ装置の画面の大きさを表すものであってもよい。   In the example of FIG. 4, the conversation types are classified into four, and numbers 1, 2, 3, and 4 are assigned to, for example, conferences, lectures, free conversations, and data collation, respectively. In the example of FIG. 4, the use environment condition is the resolution of the display device of the communication terminal 1 that receives the video. Here, three stages of QVGA (Quarter Video Graphics Array), VGA (Video Graphics Array) / SD (Standard Definition), and HD (High Definition) are provided. Note that the use environment condition may represent the size of the screen of the display device.

マルチメディア品質推定モデルにおける構成要素である映像品質や音声品質および遅延品質を考えた場合、会話種別が作業遂行性の強い会議の場合には、音声品質に対する重みが映像品質に比べて強くなり、遅延品質の重みも強くなる。また、一方的な伝達を目的とした講演・講義の場合には、映像品質の重みが音声品質に比べて強くなると同時に遅延品質の重みも弱くなると考えられる。   When considering video quality, audio quality, and delay quality, which are the components of the multimedia quality estimation model, in the case of a conference where the conversation type has a strong work performance, the weight for audio quality becomes stronger than the video quality. The weight of delay quality also increases. In addition, in the case of a lecture / lecture intended for unilateral transmission, it is considered that the weight of the video quality becomes stronger than the sound quality, and the weight of the delay quality becomes weaker.

さらに、このような会話種別の違いに加えて、利用環境条件の違いも出てくる。すなわち、一方の地点では高解像度のディスプレイ付きの通信端末を使用し、他方の地点では低解像度のディスプレイ付きの通信端末を使用している場合には、映像品質や音声品質に対する重みが異なる。ディスプレイの解像度が低くなればなるほど、映像品質に対する重要度が低くなり、音声品質に対する重要度が強くなると考えられる。係数テーブル291は、このような特性を考慮して導かれるものである。   Furthermore, in addition to such a difference in conversation type, a difference in usage environment conditions also appears. That is, when a communication terminal with a high-resolution display is used at one point and a communication terminal with a low-resolution display is used at the other point, weights for video quality and audio quality are different. It is considered that the lower the display resolution, the lower the importance for video quality and the higher the importance for audio quality. The coefficient table 291 is derived in consideration of such characteristics.

[第2の実施の形態]
第1の実施の形態では、マルチメディア品質推定装置2を通信端末1の直前に設置したが、これに限るものではなく、マルチメディア品質推定装置2とは別の通信パケット収集手段があれば、マルチメディア品質推定装置2をネットワーク3上の任意の箇所に配置して、マルチメディア品質推定を行ってもよい。
また、マルチメディア品質推定装置2による品質推定結果を通信端末1に通知するだけでなく、ネットワーク3を介して品質推定結果を品質管理装置4に通知して、品質管理装置4が実施する品質管理に役立てるようにしてもよい。
また、マルチメディア品質推定装置2を、図8に示すように通信端末1内に組み込んで利用してもよい。
[Second Embodiment]
In the first embodiment, the multimedia quality estimation device 2 is installed immediately before the communication terminal 1. However, the present invention is not limited to this, and if there is a communication packet collection unit different from the multimedia quality estimation device 2, The multimedia quality estimation apparatus 2 may be arranged at an arbitrary location on the network 3 to perform multimedia quality estimation.
In addition to notifying the communication terminal 1 of the quality estimation result by the multimedia quality estimation device 2, the quality management device 4 also notifies the quality management result to the quality management device 4 via the network 3. You may make it useful for.
Further, the multimedia quality estimation apparatus 2 may be used by being incorporated in the communication terminal 1 as shown in FIG.

[第3の実施の形態]
第1の実施の形態では、通信端末1間で送受信される通信パケットそのものから音声情報および映像情報を収集したが、音声情報や映像情報の品質推定結果が搭載されているような品質情報パケットを収集してもよい。
[Third Embodiment]
In the first embodiment, the audio information and the video information are collected from the communication packets themselves transmitted and received between the communication terminals 1. However, the quality information packet in which the quality estimation results of the audio information and the video information are mounted. May be collected.

例えば、RTP(Real-time Transport Protocol)パケットで送受信される双方向通信サービスの場合、IETF(Internet Engineering Task Force)で制定されたRFC3611のRTCP−XRを用いることができる。RTCP−XRパケットには、パケット品質から推定されるネットワーク品質情報、メディア品質情報が格納されており、この情報から映像品質情報や音声品質情報、遅延品質情報を取り出すことができる。   For example, in the case of a two-way communication service transmitted and received by RTP (Real-time Transport Protocol) packets, RFC 3611 RTCP-XR established by IETF (Internet Engineering Task Force) can be used. The RTCP-XR packet stores network quality information and media quality information estimated from packet quality, and video quality information, audio quality information, and delay quality information can be extracted from this information.

本実施の形態の場合、遅延品質推定部24、音声品質推定部25および映像品質推定部27の代わりに、RTCP−XRパケットから映像品質情報、音声品質情報および遅延品質情報を取り出す品質情報抽出部をマルチメディア品質推定装置2に設けるようにすればよい。   In the case of the present embodiment, instead of the delay quality estimation unit 24, the audio quality estimation unit 25, and the video quality estimation unit 27, a quality information extraction unit that extracts video quality information, audio quality information, and delay quality information from the RTCP-XR packet. May be provided in the multimedia quality estimation apparatus 2.

なお、第1〜第3の実施の形態のマルチメディア品質推定装置2は、CPU、記憶装置および外部とのインタフェースを備えたコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。このようなコンピュータにおいて、本発明の会話種別判定方法およびマルチメディア品質推定方法を実現させるためのプログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録された状態で提供される。CPUは、記録媒体から読み込んだプログラムを記憶装置に書き込み、プログラムに従って第1〜第3の実施の形態で説明した処理を実行する。   Note that the multimedia quality estimation apparatus 2 according to the first to third embodiments can be realized by a computer having a CPU, a storage device, and an external interface, and a program for controlling these hardware resources. . In such a computer, the program for realizing the conversation type determination method and multimedia quality estimation method of the present invention is recorded in a recording medium such as a flexible disk, a CD-ROM, a DVD-ROM, or a memory card. Provided. The CPU writes the program read from the recording medium into the storage device, and executes the processes described in the first to third embodiments according to the program.

本発明は、映像・音声通信サービスにおけるマルチメディア品質を推定する技術に適用することができる。   The present invention can be applied to a technique for estimating multimedia quality in a video / audio communication service.

1…通信端末、2…マルチメディア品質推定装置、3…ネットワーク、4…品質管理装置、21…通信パケット収集部、22…音声情報収集部、23…映像情報収集部、24…遅延品質推定部、25…音声品質推定部、26…タスク判断部、27…映像品質推定部、28…利用環境条件入力部、29…マルチメディア品質推定部、261…有音区間検出部、262…やり取り回数算出部、263…やり取り頻度算出部、264…分類部、291…係数テーブル、292…マルチメディア品質算出部。   DESCRIPTION OF SYMBOLS 1 ... Communication terminal, 2 ... Multimedia quality estimation apparatus, 3 ... Network, 4 ... Quality management apparatus, 21 ... Communication packet collection part, 22 ... Audio | voice information collection part, 23 ... Image | video information collection part, 24 ... Delay quality estimation part 25 ... Audio quality estimation unit, 26 ... Task judgment unit, 27 ... Video quality estimation unit, 28 ... Usage environment condition input unit, 29 ... Multimedia quality estimation unit, 261 ... Sound section detection unit, 262 ... Calculation of number of exchanges Part, 263 ... exchange frequency calculation part, 264 ... classification part, 291 ... coefficient table, 292 ... multimedia quality calculation part.

Claims (6)

ネットワークを介して映像と音声を伝送する映像・音声通信サービスにおいて通信端末間で行われる会話の形式を表す会話種別を判定し、映像・音声通信サービスにおけるマルチメディア品質を推定するマルチメディア品質推定装置であって、
通信端末間で送受信されている通信パケットを収集する通信パケット収集手段と、
この通信パケット収集手段が収集した通信パケットから音声情報を抽出する音声情報収集手段と、
この音声情報収集手段が抽出した音声情報から通信端末間の会話の特徴量を抽出し、この特徴量から会話種別を判定する会話種別判定手段と
前記通信パケット収集手段が収集した通信パケットから映像情報を抽出する映像情報収集手段と、
この映像情報収集手段が抽出した映像情報から映像品質を推定する映像品質推定手段と、
前記音声情報収集手段が抽出した音声情報から音声品質を推定する音声品質推定手段と、
前記抽出された音声情報と映像情報とから遅延品質を推定する遅延品質推定手段と、
前記会話種別判定手段が判定した会話種別と、通信端末の能力を表す利用環境条件と、前記映像品質推定手段が算出した映像品質推定値と、前記音声品質推定手段が算出した音声品質推定値と、前記遅延品質推定手段が算出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定するマルチメディア品質推定手段とを備え、
前記会話種別判定手段は、
前記音声情報収集手段が抽出した音声情報から前記会話の特徴量として、通信端末間の会話のやり取りの頻度を算出するやり取り頻度算出手段と、
算出されたやり取りの頻度を所定の判別閾値により分類することにより前記会話種別を判定する分類手段とを有し、
前記通信端末の能力を表す利用環境条件は、前記通信端末のディスプレイ装置の解像度または画面の大きさを表すものであり、
前記マルチメディア品質推定手段は、
会話種別と利用環境条件との交互作用を考慮して決定された係数を会話種別毎および利用環境条件毎に予め記憶する係数テーブルと、
前記会話種別判定手段が判定した会話種別と外部から入力された利用環境条件とに対応する係数を前記係数テーブルから取得し、取得した係数と前記映像品質推定値と前記音声品質推定値と前記遅延品質推定値とを所定の品質推定式に代入してマルチメディア品質推定値を算出するマルチメディア品質算出手段とを有することを特徴とするマルチメディア品質推定装置
Multimedia quality estimation apparatus for determining a conversation type representing a form of conversation between communication terminals in a video / audio communication service for transmitting video and audio over a network and estimating multimedia quality in the video / audio communication service Because
Communication packet collecting means for collecting communication packets transmitted and received between communication terminals;
Voice information collecting means for extracting voice information from the communication packets collected by the communication packet collecting means;
A conversation type determination unit that extracts a feature amount of conversation between communication terminals from the voice information extracted by the voice information collection unit, and determines a conversation type from the feature amount ;
Video information collecting means for extracting video information from the communication packets collected by the communication packet collecting means;
Video quality estimation means for estimating video quality from the video information extracted by the video information collection means;
Voice quality estimating means for estimating voice quality from the voice information extracted by the voice information collecting means;
Delay quality estimating means for estimating delay quality from the extracted audio information and video information;
A conversation type determined by the conversation type determination unit, a use environment condition indicating the capability of the communication terminal, a video quality estimation value calculated by the video quality estimation unit, and an audio quality estimation value calculated by the audio quality estimation unit; Multimedia quality estimation means for estimating multimedia quality, which is the overall quality of the communication service, based on the delay quality estimation value calculated by the delay quality estimation means,
The conversation type determination means includes
An exchange frequency calculating means for calculating the frequency of conversation exchange between communication terminals as the feature amount of the conversation from the voice information extracted by the voice information collecting means;
Classification means for determining the conversation type by classifying the calculated frequency of exchange according to a predetermined determination threshold;
The use environment condition representing the capability of the communication terminal represents the resolution or the screen size of the display device of the communication terminal,
The multimedia quality estimation means includes:
A coefficient table that pre-stores coefficients determined in consideration of the interaction between the conversation type and the use environment condition for each conversation type and each use environment condition;
The coefficient corresponding to the conversation type determined by the conversation type determination means and the usage environment condition input from the outside is acquired from the coefficient table, the acquired coefficient, the video quality estimated value, the audio quality estimated value, and the delay A multimedia quality estimation device, comprising: a multimedia quality calculation means for calculating a multimedia quality estimate by substituting the quality estimate into a predetermined quality estimation formula .
請求項記載のマルチメディア品質推定装置において、
前記やり取り頻度算出手段は、音声パケットの発生状況から前記やり取りの頻度を算出することを特徴とするマルチメディア品質推定装置
The multimedia quality estimation apparatus according to claim 1 , wherein
The multimedia quality estimation apparatus, wherein the exchange frequency calculation means calculates the frequency of the exchange from the occurrence state of voice packets.
請求項1または2記載のマルチメディア品質推定装置において、
前記映像品質推定手段と前記音声品質推定手段と前記遅延品質推定手段の代わりに、前記通信パケット収集手段が収集した品質情報パケットから映像品質推定値、音声品質推定値および遅延品質推定値を取り出す品質情報抽出手段を備え、
前記マルチメディア品質推定手段は、前記会話種別判定手段が判定した会話種別と、前記通信端末の能力を表す利用環境条件と、前記品質情報抽出手段が取り出した映像品質推定値と、前記品質情報抽出手段が取り出した音声品質推定値と、前記品質情報抽出手段が取り出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定することを特徴とするマルチメディア品質推定装置。
The multimedia quality estimation apparatus according to claim 1 or 2 ,
Quality of extracting video quality estimation value, audio quality estimation value, and delay quality estimation value from the quality information packet collected by the communication packet collection means instead of the video quality estimation means, the audio quality estimation means, and the delay quality estimation means With information extraction means,
The multimedia quality estimation means includes a conversation type determined by the conversation type determination means, a use environment condition indicating the capability of the communication terminal, an estimated video quality value extracted by the quality information extraction means, and the quality information extraction. Multimedia quality estimation characterized in that multimedia quality, which is a total quality of a communication service, is estimated based on a speech quality estimation value extracted by the means and a delay quality estimation value extracted by the quality information extraction means apparatus.
ネットワークを介して映像と音声を伝送する映像・音声通信サービスにおいて通信端末間で行われる会話の形式を表す会話種別を判定し、映像・音声通信サービスにおけるマルチメディア品質を推定するマルチメディア品質推定方法であって、
通信端末間で送受信されている通信パケットを収集する通信パケット収集ステップと、
この通信パケット収集ステップで収集した通信パケットから音声情報を抽出する音声情報収集ステップと、
この音声情報収集ステップで抽出した音声情報から通信端末間の会話の特徴量を抽出し、この特徴量から会話種別を判定する会話種別判定ステップと
前記通信パケット収集ステップで収集した通信パケットから映像情報を抽出する映像情報収集ステップと、
この映像情報収集ステップで抽出した映像情報から映像品質を推定する映像品質推定ステップと、
前記音声情報収集ステップで抽出した音声情報から音声品質を推定する音声品質推定ステップと、
前記抽出した音声情報と映像情報とから遅延品質を推定する遅延品質推定ステップと、
前記会話種別判定ステップで判定した会話種別と、通信端末の能力を表す利用環境条件と、前記映像品質推定ステップで算出した映像品質推定値と、前記音声品質推定ステップで算出した音声品質推定値と、前記遅延品質推定ステップで算出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定するマルチメディア品質推定ステップとを含み、
前記会話種別判定ステップは、
前記音声情報収集ステップで抽出した音声情報から前記会話の特徴量として、通信端末間の会話のやり取りの頻度を算出するやり取り頻度算出ステップと、
算出したやり取りの頻度を所定の判別閾値により分類することにより前記会話種別を判定する分類ステップとからなり、
前記通信端末の能力を表す利用環境条件は、前記通信端末のディスプレイ装置の解像度または画面の大きさを表すものであり、
前記マルチメディア品質推定ステップは、
会話種別と利用環境条件との交互作用を考慮して決定された係数を会話種別毎および利用環境条件毎に予め記憶する係数テーブルを参照して、前記会話種別判定ステップで判定した会話種別と外部から入力された利用環境条件とに対応する係数を前記係数テーブルから取得し、取得した係数と前記映像品質推定値と前記音声品質推定値と前記遅延品質推定値とを所定の品質推定式に代入してマルチメディア品質推定値を算出するマルチメディア品質算出ステップを含むことを特徴とするマルチメディア品質推定方法
A multimedia quality estimation method for determining a conversation type representing a form of conversation between communication terminals in a video / audio communication service for transmitting video and audio over a network and estimating multimedia quality in the video / audio communication service Because
A communication packet collecting step for collecting communication packets transmitted and received between communication terminals;
A voice information collecting step for extracting voice information from the communication packets collected in the communication packet collecting step;
A conversation type determination step for extracting a conversation feature amount between communication terminals from the voice information extracted in the voice information collection step, and determining a conversation type from the feature amount ;
A video information collecting step of extracting video information from the communication packet collected in the communication packet collecting step;
A video quality estimation step for estimating video quality from the video information extracted in this video information collection step;
A voice quality estimation step of estimating voice quality from the voice information extracted in the voice information collection step;
A delay quality estimation step for estimating a delay quality from the extracted audio information and video information;
The conversation type determined in the conversation type determination step, the usage environment condition indicating the capability of the communication terminal, the video quality estimation value calculated in the video quality estimation step, and the audio quality estimation value calculated in the audio quality estimation step A multimedia quality estimation step for estimating a multimedia quality that is a total quality of the communication service based on the delay quality estimation value calculated in the delay quality estimation step,
The conversation type determination step includes
An exchange frequency calculation step for calculating the frequency of conversation exchange between communication terminals as the feature amount of the conversation from the voice information extracted in the voice information collection step;
A classification step of determining the conversation type by classifying the calculated frequency of exchange according to a predetermined determination threshold;
The use environment condition representing the capability of the communication terminal represents the resolution or the screen size of the display device of the communication terminal,
The multimedia quality estimation step includes:
The conversation type determined in the conversation type determination step and the external are determined by referring to a coefficient table in which coefficients determined in consideration of interaction between the conversation type and the usage environment condition are stored in advance for each conversation type and each usage environment condition. Is obtained from the coefficient table, and the obtained coefficient, the video quality estimation value, the audio quality estimation value, and the delay quality estimation value are substituted into a predetermined quality estimation expression. A multimedia quality estimation method comprising a multimedia quality calculation step of calculating a multimedia quality estimate .
請求項記載のマルチメディア品質推定方法において、
前記やり取り頻度算出ステップは、音声パケットの発生状況から前記やり取りの頻度を算出することを特徴とするマルチメディア品質推定方法
The multimedia quality estimation method according to claim 4 , wherein
The multimedia quality estimation method according to claim 1, wherein the exchange frequency calculating step calculates the frequency of the exchange based on a voice packet occurrence state.
請求項4または5記載のマルチメディア品質推定方法において、
前記映像品質推定ステップと前記音声品質推定ステップと前記遅延品質推定ステップの代わりに、前記通信パケット収集ステップで収集した品質情報パケットから映像品質推定値、音声品質推定値および遅延品質推定値を取り出す品質情報抽出ステップを含み、
前記マルチメディア品質推定ステップは、前記会話種別判定ステップで判定した会話種別と、前記通信端末の能力を表す利用環境条件と、前記品質情報抽出ステップで取り出した映像品質推定値と、前記品質情報抽出ステップで取り出した音声品質推定値と、前記品質情報抽出ステップで取り出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定することを特徴とするマルチメディア品質推定方法。
The multimedia quality estimation method according to claim 4 or 5 ,
Instead of the video quality estimation step, the audio quality estimation step, and the delay quality estimation step, the quality for extracting the video quality estimation value, the audio quality estimation value, and the delay quality estimation value from the quality information packet collected in the communication packet collection step Including an information extraction step,
In the multimedia quality estimation step, the conversation type determined in the conversation type determination step, a use environment condition indicating the capability of the communication terminal, the video quality estimation value extracted in the quality information extraction step, and the quality information extraction A multimedia quality estimation characterized by estimating a multimedia quality, which is a total quality of a communication service, based on the speech quality estimation value extracted in the step and the delay quality estimation value extracted in the quality information extraction step. Method.
JP2010137003A 2010-06-16 2010-06-16 Multimedia quality estimation apparatus and multimedia quality estimation method Expired - Fee Related JP5373704B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010137003A JP5373704B2 (en) 2010-06-16 2010-06-16 Multimedia quality estimation apparatus and multimedia quality estimation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010137003A JP5373704B2 (en) 2010-06-16 2010-06-16 Multimedia quality estimation apparatus and multimedia quality estimation method

Publications (2)

Publication Number Publication Date
JP2012004779A JP2012004779A (en) 2012-01-05
JP5373704B2 true JP5373704B2 (en) 2013-12-18

Family

ID=45536278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010137003A Expired - Fee Related JP5373704B2 (en) 2010-06-16 2010-06-16 Multimedia quality estimation apparatus and multimedia quality estimation method

Country Status (1)

Country Link
JP (1) JP5373704B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103379358B (en) * 2012-04-23 2015-03-18 华为技术有限公司 Method and device for assessing multimedia quality
CN104539943B (en) * 2012-08-22 2017-01-04 华为技术有限公司 The monitoring method and apparatus of multimedia quality
CN103634577B (en) 2012-08-22 2014-12-31 华为技术有限公司 Multimedia quality monitoring method and apparatus
JP7410839B2 (en) * 2020-10-29 2024-01-10 本田技研工業株式会社 Information processing device, mobile object, program, and information processing method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005148225A (en) * 2003-11-12 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> Speech quality estimating device, and program therefor and recording medium therefor
JP4745721B2 (en) * 2005-05-18 2011-08-10 日本電信電話株式会社 Network communication service satisfaction estimation device, method, and program
JP4317540B2 (en) * 2005-08-30 2009-08-19 日本電信電話株式会社 Video quality estimation apparatus, method and program
EP1924101B1 (en) * 2005-09-06 2013-04-03 Nippon Telegraph And Telephone Corporation Video communication quality estimation device, method, and program
US20100053300A1 (en) * 2007-02-02 2010-03-04 Einarsson Torbjoern Method And Arrangement For Video Telephony Quality Assessment

Also Published As

Publication number Publication date
JP2012004779A (en) 2012-01-05

Similar Documents

Publication Publication Date Title
JP4965659B2 (en) How to determine video quality
EP2761879B1 (en) A method to measure quality of experience of a video service
JP4486130B2 (en) Video communication quality estimation apparatus, method, and program
US8472349B1 (en) Determining mean opinion scores (MOS) for variable bit rate audio streams
Calyam et al. A “GAP-model” based framework for online VVoIP QoE measurement
JP5373704B2 (en) Multimedia quality estimation apparatus and multimedia quality estimation method
JPWO2017104416A1 (en) Audio visual quality estimation apparatus, audio visual quality estimation method, and program
JP4308227B2 (en) Video quality estimation device, video quality management device, video quality estimation method, video quality management method, and program
JP4914400B2 (en) Quality estimation method, quality estimation system, user terminal, quality management terminal and program
JP4745721B2 (en) Network communication service satisfaction estimation device, method, and program
JP2006157223A (en) User bodily sensation quality estimate system, method, and apparatus, reception state information transmission apparatus, and transmission and reception terminals
JP5390369B2 (en) Video quality estimation apparatus and method, coding bit rate estimation apparatus and method, and program
JP4460523B2 (en) User experience quality estimation apparatus, method, and program
JP5335867B2 (en) Video quality estimation apparatus, method, and program using basic GoP length
JP2008172365A (en) Listening quality evaluation method and apparatus
JP6511003B2 (en) Voice quality estimation device, voice quality estimation method, and program
JP4733071B2 (en) Video quality estimation method and apparatus
JP4460548B2 (en) User experience quality estimation apparatus, method, and program
WO2022102011A1 (en) Objective evaluation device, objective evaluation method, and objective evaluation program
JP2012039530A (en) Video quality estimating system, video distribution server, and receiving/reproducing terminal for user
JP2007329777A (en) Content characteristic analysis apparatus, method, and program
JP2006203844A (en) Communication quality estimation method and apparatus, and program
Wilk et al. Scalable mobile quality assessment for User-generated Video
JP5491150B2 (en) Audio quality factor index calculation method, apparatus, and program
CN113766214A (en) Quality detection method, quality detection system and related device of streaming data

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111025

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111025

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130430

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130919

R150 Certificate of patent or registration of utility model

Ref document number: 5373704

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees