JP5373704B2 - Multimedia quality estimation apparatus and multimedia quality estimation method - Google Patents
Multimedia quality estimation apparatus and multimedia quality estimation method Download PDFInfo
- Publication number
- JP5373704B2 JP5373704B2 JP2010137003A JP2010137003A JP5373704B2 JP 5373704 B2 JP5373704 B2 JP 5373704B2 JP 2010137003 A JP2010137003 A JP 2010137003A JP 2010137003 A JP2010137003 A JP 2010137003A JP 5373704 B2 JP5373704 B2 JP 5373704B2
- Authority
- JP
- Japan
- Prior art keywords
- quality
- quality estimation
- video
- multimedia
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
本発明は、ネットワークを介して映像と音声を伝送する映像・音声通信サービスにおいて通信端末間で行われる会話の形式を表す会話種別を判定し、会話種別を利用して映像・音声通信サービスにおけるマルチメディア品質を推定するマルチメディア品質推定装置およびマルチメディア品質推定方法に関するものである。 The present invention determines a conversation type representing a type of conversation performed between communication terminals in a video / audio communication service that transmits video and audio over a network, and uses the conversation type to determine the type of conversation in the video / audio communication service. The present invention relates to a multimedia quality estimation apparatus and a multimedia quality estimation method for estimating media quality.
映像配信サービスにおいては、高品質な映像の授受を実現するために、提供されたマルチメディアの品質を適切かつ迅速に評価する手法の確立が望まれている。
従来、映像品質評価は、ユーザがその映像を実際に観たときに感じる品質を測定する、いわゆる主観品質評価が基本である。しかしながら、主観品質評価は専用の設備と膨大な時間および労力を要する。そこで、映像品質評価をより効率的に行うために、映像から物理的に測定される特徴の量から主観品質を推定する技術(以下、客観品質評価技術という)の開発が望まれている。
In video distribution services, it is desired to establish a method for appropriately and promptly evaluating the quality of multimedia provided in order to realize the transmission and reception of high-quality video.
Conventionally, video quality evaluation is based on so-called subjective quality evaluation, which measures the quality that a user feels when actually viewing the video. However, subjective quality assessment requires dedicated equipment and enormous time and effort. Therefore, in order to perform video quality evaluation more efficiently, development of a technique for estimating subjective quality from the amount of features physically measured from video (hereinafter referred to as objective quality evaluation technique) is desired.
従来の客観品質評価技術は、マルチメディア品質と、音声品質、映像品質および遅延品質との関係、並びに音声品質、映像品質および遅延品質のうちの2つに対する交互作用を考慮したモデルを作成してきた(例えば特許文献1参照)。ここで、マルチメディア品質とは、音声品質、映像品質および遅延品質を考慮した、通信サービスの総合的な品質のことを言う。
また、従来、双方向の映像・音声通信サービスといえばテレビ会議サービスであり、マルチメディア品質の推定方法としては、1対1の双方向で同程度のやり取りが行われ、同程度の通信端末が利用されていることを想定していた。
Conventional objective quality assessment technology has created a model that takes into account the relationship between multimedia quality, audio quality, video quality and delay quality, and the interaction between audio quality, video quality and delay quality. (For example, refer to Patent Document 1). Here, multimedia quality refers to the overall quality of communication services in consideration of audio quality, video quality, and delay quality.
Conventionally, the video / audio communication service is a video conference service. As a method for estimating multimedia quality, the same level of communication is performed in a one-to-one direction. It was assumed that it was being used.
しかしながら、テレビ会議サービスの利用状態は利用目的によって異なる。例えば、結論を導く討議を行う会議もあれば、講演や講義のように一方的な映像および音声を送るだけの会議もある。討議を行うような会議では、テレビ会議サービスで結ばれた2つ以上の地点で映像の動きや会話の発生状況が似通っている状態と思われるが、講演のような場合には、送話者の側では映像の動きや発話が活発でも受話者の側ではほとんど動きや発話がない状態となる。 However, the usage state of the video conference service varies depending on the purpose of use. For example, there are conferences for discussions that lead to conclusions, and other conferences that only send unilateral video and audio, such as lectures and lectures. In conferences where discussions are held, it seems that the situation of video movement and conversation is similar at two or more points connected by the video conference service. Even if the movement or utterance of the video is active on the side of the receiver, the movement of the utterance is almost absent on the receiver side.
マルチメディア品質推定モデルにおける構成要素である映像品質や音声品質および遅延品質を考えた場合、作業遂行性が強い会議の場合には音声品質の重みが映像品質に比べて強くなり、遅延品質の重みも強くなる。また、一方的な伝達を目的としたような講演・講義のような場合には、映像品質の重みが音声品質に比べて強くなると同時に遅延品質の重みも弱くなると考えられる。 Considering the video quality, audio quality, and delay quality, which are the components in the multimedia quality estimation model, the audio quality weight is stronger than the video quality in a meeting with high work performance, and the delay quality weight Also become stronger. In addition, in the case of a lecture / lecture for the purpose of unilateral transmission, it is considered that the weight of video quality becomes stronger than the quality of audio and the weight of delay quality also becomes weaker.
さらに、このようなコミュニケーションの状況の違いに加え、双方向の利用環境の違いも出てくる。すなわち、一方の地点では高解像度のディスプレイ付きの通信端末を使用し、他方の地点では低解像度のディスプレイ付きの通信端末を使用している場合には、映像品質や音声品質に対する重みが異なる。ディスプレイの解像度が低くなればなるほど、映像品質に対する重要度が低くなり、音声品質に対する重要度が強くなると考えられる。 Furthermore, in addition to the differences in the communication situation, there are differences in the interactive usage environment. That is, when a communication terminal with a high-resolution display is used at one point and a communication terminal with a low-resolution display is used at the other point, weights for video quality and audio quality are different. It is considered that the lower the display resolution, the lower the importance for video quality and the higher the importance for audio quality.
本発明は、上記に鑑みてなされたもので、その目的とするところは、双方向の映像・音声通信サービスにおいて通信端末間で行われる会話の形式を表す会話種別を判定することができる会話種別判定装置および会話種別判定方法を提供することにある。
また、本発明の目的は、会話種別および利用環境条件を考慮したマルチメディア品質を推定することができるマルチメディア品質推定装置およびマルチメディア品質推定方法を提供することにある。
The present invention has been made in view of the above, and an object of the present invention is to provide a conversation type that can determine a conversation type representing a form of conversation performed between communication terminals in a bidirectional video / audio communication service. To provide a determination device and a conversation type determination method.
Another object of the present invention is to provide a multimedia quality estimation apparatus and a multimedia quality estimation method capable of estimating multimedia quality in consideration of conversation type and usage environment conditions.
本発明は、ネットワークを介して映像と音声を伝送する映像・音声通信サービスにおいて通信端末間で行われる会話の形式を表す会話種別を判定し、映像・音声通信サービスにおけるマルチメディア品質を推定するマルチメディア品質推定装置であって、通信端末間で送受信されている通信パケットを収集する通信パケット収集手段と、この通信パケット収集手段が収集した通信パケットから音声情報を抽出する音声情報収集手段と、この音声情報収集手段が抽出した音声情報から通信端末間の会話の特徴量を抽出し、この特徴量から会話種別を判定する会話種別判定手段と、前記通信パケット収集手段が収集した通信パケットから映像情報を抽出する映像情報収集手段と、この映像情報収集手段が抽出した映像情報から映像品質を推定する映像品質推定手段と、前記音声情報収集手段が抽出した音声情報から音声品質を推定する音声品質推定手段と、前記抽出された音声情報と映像情報とから遅延品質を推定する遅延品質推定手段と、前記会話種別判定手段が判定した会話種別と、通信端末の能力を表す利用環境条件と、前記映像品質推定手段が算出した映像品質推定値と、前記音声品質推定手段が算出した音声品質推定値と、前記遅延品質推定手段が算出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定するマルチメディア品質推定手段とを備え、前記会話種別判定手段は、前記音声情報収集手段が抽出した音声情報から前記会話の特徴量として、通信端末間の会話のやり取りの頻度を算出するやり取り頻度算出手段と、算出されたやり取りの頻度を所定の判別閾値により分類することにより前記会話種別を判定する分類手段とを有し、前記通信端末の能力を表す利用環境条件は、前記通信端末のディスプレイ装置の解像度または画面の大きさを表すものであり、前記マルチメディア品質推定手段は、会話種別と利用環境条件との交互作用を考慮して決定された係数を会話種別毎および利用環境条件毎に予め記憶する係数テーブルと、前記会話種別判定手段が判定した会話種別と外部から入力された利用環境条件とに対応する係数を前記係数テーブルから取得し、取得した係数と前記映像品質推定値と前記音声品質推定値と前記遅延品質推定値とを所定の品質推定式に代入してマルチメディア品質推定値を算出するマルチメディア品質算出手段とを有することを特徴とするものである。
また、本発明のマルチメディア品質推定装置の1構成例において、前記やり取り頻度算出手段は、音声パケットの発生状況から前記やり取りの頻度を算出することを特徴とするものである。
The present invention determines a conversation type representing a type of conversation performed between communication terminals in a video / audio communication service for transmitting video and audio over a network, and estimates a multimedia quality in the video / audio communication service. A media quality estimation device , a communication packet collecting means for collecting communication packets transmitted and received between communication terminals, a voice information collecting means for extracting voice information from the communication packets collected by the communication packet collecting means, A conversation type determining unit for extracting a conversation feature amount between communication terminals from the voice information extracted by the voice information collecting unit and determining a conversation type from the feature amount; and video information from the communication packet collected by the communication packet collecting unit. Video information collecting means for extracting video, and estimating the video quality from the video information extracted by the video information collecting means Image quality estimating means, sound quality estimating means for estimating sound quality from the sound information extracted by the sound information collecting means, delay quality estimating means for estimating delay quality from the extracted sound information and video information, A conversation type determined by the conversation type determination unit, a use environment condition indicating the capability of the communication terminal, a video quality estimation value calculated by the video quality estimation unit, and an audio quality estimation value calculated by the audio quality estimation unit; Multimedia quality estimating means for estimating multimedia quality, which is the overall quality of the communication service, based on the delay quality estimated value calculated by the delay quality estimating means, and the conversation type determining means includes the voice An exchange frequency calculating means for calculating the frequency of conversation exchange between communication terminals as the feature amount of the conversation from the voice information extracted by the information collecting means; Classification means for determining the conversation type by classifying the frequency of exchange according to a predetermined determination threshold, and the use environment condition indicating the capability of the communication terminal is the resolution or the screen size of the display device of the communication terminal. The multimedia quality estimation means, a coefficient table that pre-stores a coefficient determined in consideration of the interaction between the conversation type and the use environment condition for each conversation type and each use environment condition; The coefficient corresponding to the conversation type determined by the conversation type determination means and the usage environment condition input from the outside is acquired from the coefficient table, the acquired coefficient, the video quality estimated value, the audio quality estimated value, and the delay And multimedia quality calculating means for calculating a multimedia quality estimated value by substituting the quality estimated value into a predetermined quality estimation formula. Is.
In the configuration example of the multimedia quality estimation apparatus of the present invention, the exchange frequency calculating means calculates the frequency of the exchange from the occurrence state of voice packets.
また、本発明のマルチメディア品質推定装置は、前記映像品質推定手段と前記音声品質推定手段と前記遅延品質推定手段の代わりに、前記通信パケット収集手段が収集した品質情報パケットから映像品質推定値、音声品質推定値および遅延品質推定値を取り出す品質情報抽出手段を備え、前記マルチメディア品質推定手段は、前記会話種別判定手段が判定した会話種別と、前記通信端末の能力を表す利用環境条件と、前記品質情報抽出手段が取り出した映像品質推定値と、前記品質情報抽出手段が取り出した音声品質推定値と、前記品質情報抽出手段が取り出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定することを特徴とするものである。 Further, the multimedia quality estimation apparatus of the present invention is characterized in that, instead of the video quality estimation means, the audio quality estimation means, and the delay quality estimation means, a video quality estimation value from a quality information packet collected by the communication packet collection means, Quality information extracting means for extracting a speech quality estimate value and a delay quality estimate value, the multimedia quality estimation means, a conversation type determined by the conversation type determination means, a use environment condition representing the capability of the communication terminal, Based on the video quality estimation value extracted by the quality information extraction unit, the audio quality estimation value extracted by the quality information extraction unit, and the delay quality estimation value extracted by the quality information extraction unit, a comprehensive communication service It is characterized by estimating multimedia quality, which is quality .
また、本発明は、ネットワークを介して映像と音声を伝送する映像・音声通信サービスにおいて通信端末間で行われる会話の形式を表す会話種別を判定し、映像・音声通信サービスにおけるマルチメディア品質を推定するマルチメディア品質推定方法であって、通信端末間で送受信されている通信パケットを収集する通信パケット収集ステップと、この通信パケット収集ステップで収集した通信パケットから音声情報を抽出する音声情報収集ステップと、この音声情報収集ステップで抽出した音声情報から通信端末間の会話の特徴量を抽出し、この特徴量から会話種別を判定する会話種別判定ステップと、前記通信パケット収集ステップで収集した通信パケットから映像情報を抽出する映像情報収集ステップと、この映像情報収集ステップで抽出した映像情報から映像品質を推定する映像品質推定ステップと、前記音声情報収集ステップで抽出した音声情報から音声品質を推定する音声品質推定ステップと、前記抽出した音声情報と映像情報とから遅延品質を推定する遅延品質推定ステップと、前記会話種別判定ステップで判定した会話種別と、通信端末の能力を表す利用環境条件と、前記映像品質推定ステップで算出した映像品質推定値と、前記音声品質推定ステップで算出した音声品質推定値と、前記遅延品質推定ステップで算出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定するマルチメディア品質推定ステップとを含み、前記会話種別判定ステップは、前記音声情報収集ステップで抽出した音声情報から前記会話の特徴量として、通信端末間の会話のやり取りの頻度を算出するやり取り頻度算出ステップと、算出したやり取りの頻度を所定の判別閾値により分類することにより前記会話種別を判定する分類ステップとからなり、前記通信端末の能力を表す利用環境条件は、前記通信端末のディスプレイ装置の解像度または画面の大きさを表すものであり、前記マルチメディア品質推定ステップは、会話種別と利用環境条件との交互作用を考慮して決定された係数を会話種別毎および利用環境条件毎に予め記憶する係数テーブルを参照して、前記会話種別判定ステップで判定した会話種別と外部から入力された利用環境条件とに対応する係数を前記係数テーブルから取得し、取得した係数と前記映像品質推定値と前記音声品質推定値と前記遅延品質推定値とを所定の品質推定式に代入してマルチメディア品質推定値を算出するマルチメディア品質算出ステップを含むことを特徴とするものである。
また、本発明のマルチメディア品質推定方法の1構成例において、前記やり取り頻度算出ステップは、音声パケットの発生状況から前記やり取りの頻度を算出することを特徴とするものである。
In addition, the present invention determines a conversation type representing a conversation type performed between communication terminals in a video / audio communication service for transmitting video and audio over a network, and estimates multimedia quality in the video / audio communication service. A multimedia quality estimation method for collecting communication packets transmitted and received between communication terminals; a voice information collecting step for extracting voice information from the communication packets collected in the communication packet collecting step; From the voice information extracted in the voice information collection step, the feature amount of the conversation between the communication terminals is extracted, the conversation type determination step for determining the conversation type from the feature amount, and the communication packet collected in the communication packet collection step The video information collection step for extracting video information and the video information collection step A video quality estimation step for estimating video quality from the extracted video information, a voice quality estimation step for estimating audio quality from the audio information extracted in the audio information collection step, and a delay quality from the extracted audio information and video information A delay quality estimation step for estimating the conversation type, a conversation type determined in the conversation type determination step, a use environment condition indicating the capability of the communication terminal, a video quality estimation value calculated in the video quality estimation step, and the audio quality estimation A speech quality estimation value calculated in the step, and a multimedia quality estimation step for estimating a multimedia quality that is an overall quality of the communication service based on the delay quality estimation value calculated in the delay quality estimation step, The conversation type determining step includes the feature amount of the conversation from the voice information extracted in the voice information collecting step. The communication frequency calculation step for calculating the frequency of conversation exchange between the communication terminals, and the classification step for determining the conversation type by classifying the calculated frequency of exchange according to a predetermined discrimination threshold, The use environment condition representing the ability of the communication terminal represents the resolution or the screen size of the display device of the communication terminal, and the multimedia quality estimation step takes into account the interaction between the conversation type and the use environment condition. The coefficient corresponding to the conversation type determined in the conversation type determination step and the use environment condition input from the outside is referred to with reference to a coefficient table that stores the determined coefficient in advance for each conversation type and each use environment condition. Obtained from the coefficient table, the obtained coefficient, the video quality estimated value, the audio quality estimated value, and the delay quality estimated value It includes a multimedia quality calculating step of calculating a multimedia quality estimated value by substituting it into the quality estimation formula .
In the configuration example of the multimedia quality estimation method of the present invention, the exchange frequency calculating step calculates the frequency of the exchange from the occurrence state of the voice packet.
また、本発明のマルチメディア品質推定方法は、前記映像品質推定ステップと前記音声品質推定ステップと前記遅延品質推定ステップの代わりに、前記通信パケット収集ステップで収集した品質情報パケットから映像品質推定値、音声品質推定値および遅延品質推定値を取り出す品質情報抽出ステップを含み、前記マルチメディア品質推定ステップは、前記会話種別判定ステップで判定した会話種別と、前記通信端末の能力を表す利用環境条件と、前記品質情報抽出ステップで取り出した映像品質推定値と、前記品質情報抽出ステップで取り出した音声品質推定値と、前記品質情報抽出ステップで取り出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定することを特徴とするものである。 Further, the multimedia quality estimation method of the present invention is a video quality estimation value obtained from the quality information packet collected in the communication packet collection step, instead of the video quality estimation step, the audio quality estimation step, and the delay quality estimation step. A quality information extraction step for extracting a speech quality estimate value and a delay quality estimate value, wherein the multimedia quality estimation step includes a conversation type determined in the conversation type determination step, and a use environment condition indicating the capability of the communication terminal; Based on the video quality estimation value extracted in the quality information extraction step, the audio quality estimation value extracted in the quality information extraction step, and the delay quality estimation value extracted in the quality information extraction step, a comprehensive communication service It is characterized by estimating multimedia quality, which is quality .
本発明によれば、通信端末間で送受信されている通信パケットを収集する通信パケット収集手段と、通信パケット収集手段が収集した通信パケットから音声情報を抽出する音声情報収集手段と、音声情報収集手段が抽出した音声情報から通信端末間の会話の特徴量を抽出し、この特徴量から会話種別を判定する会話種別判定手段とを設けることにより、会話種別を判定することができ、テレビ会議サービスのような双方向の映像・音声通信サービスにおけるマルチメディア品質を推定する際に会話種別を考慮した推定を行うことができる。 According to the present invention, communication packet collecting means for collecting communication packets transmitted and received between communication terminals, voice information collecting means for extracting voice information from communication packets collected by the communication packet collecting means, and voice information collecting means The conversation type can be determined by extracting the feature amount of the conversation between the communication terminals from the extracted voice information and providing the conversation type determination means for determining the conversation type from the feature amount. When the multimedia quality in such a bidirectional video / audio communication service is estimated, the estimation considering the conversation type can be performed.
また、本発明では、映像情報から映像品質を推定する映像品質推定手段と、音声情報から音声品質を推定する音声品質推定手段と、音声情報と映像情報とから遅延品質を推定する遅延品質推定手段と、会話種別判定装置が判定した会話種別と利用環境条件と映像品質推定値と音声品質推定値と遅延品質推定値に基づいてマルチメディア品質を推定するマルチメディア品質推定手段とを設けることにより、会話種別および利用環境条件を考慮した高精度の主観品質推定を実現することができ、双方向通信サービスの利用状況に対応したマルチメディア品質を高精度に推定することができる。その結果、本発明によれば、会議や自由会話のような双方向の強い会話、講演や講義のような双方向性の弱い会話のいずれの場合でも、マルチメディア品質を高精度に推定することができる。また、本発明では、一方の地点では高解像度のディスプレイ付きの通信端末を使用し、他方の地点では低解像度のディスプレイ付きの通信端末を使用しているような場合でも、マルチメディア品質を高精度に推定することができる。 In the present invention, video quality estimation means for estimating video quality from video information, audio quality estimation means for estimating audio quality from audio information, and delay quality estimation means for estimating delay quality from audio information and video information And providing a multimedia quality estimation means for estimating the multimedia quality based on the conversation type determined by the conversation type determination device, the use environment condition, the video quality estimation value, the voice quality estimation value, and the delay quality estimation value, Highly accurate subjective quality estimation considering the conversation type and usage environment conditions can be realized, and multimedia quality corresponding to the usage status of the two-way communication service can be estimated with high accuracy. As a result, according to the present invention, it is possible to estimate multimedia quality with high accuracy in both cases of strong interactive conversations such as conferences and free conversations and weak interactive conversations such as lectures and lectures. Can do. In the present invention, even when a communication terminal with a high-resolution display is used at one point and a communication terminal with a low-resolution display is used at the other point, the multimedia quality is highly accurate. Can be estimated.
[第1の実施の形態]
以下、本発明の実施の形態を図面に基づき詳細に説明する。図1は本発明の第1の実施の形態に係るマルチメディア品質推定装置を利用した映像・音声通信サービスシステムの一例を示すブロック図である。
映像・音声通信サービスシステムは、複数の通信端末1と、複数のマルチメディア品質推定装置2と、複数の通信端末1を相互に接続するネットワーク3と、映像・音声通信サービスシステムの品質管理を行う品質管理装置4とから構成されている。各マルチメディア品質推定装置2は、通信端末1とネットワーク3との間に設置されている。
[First Embodiment]
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing an example of a video / audio communication service system using the multimedia quality estimation apparatus according to the first embodiment of the present invention.
The video / audio communication service system performs quality management of a plurality of
マルチメディア品質推定装置2は、通信端末1間で送受信されている通信パケットを収集する通信パケット収集部21と、通信パケットから音声情報を抽出する音声情報収集部22と、通信パケットから映像情報を抽出する映像情報収集部23と、音声情報と映像情報とから遅延品質を推定する遅延品質推定部24と、音声情報から音声品質を推定する音声品質推定部25と、音声情報から通信端末1間の会話の特徴量を抽出し、この特徴量から会話種別を判定する会話種別判定手段となるタスク判断部26と、映像情報から映像品質を推定する映像品質推定部27と、外部から通信端末1の能力を表す利用環境条件を受け取る利用環境条件入力部28と、マルチメディア品質を推定するマルチメディア品質推定部29とを有する。通信パケット収集部21と音声情報収集部22とタスク判断部26とは、会話種別判定装置を構成している。
The multimedia
図2はマルチメディア品質推定装置2の動作を示すフローチャートである。通信パケット収集部21は、ネットワーク3を介して通信端末1間で送受信されている通信パケットを収集する(図2ステップS1)。
音声情報収集部22は、通信パケット収集部21が収集した通信パケットから音声情報(音声パケット)を抽出する(図2ステップS2)。
映像情報収集部23は、通信パケット収集部21が収集した通信パケットから映像情報(映像パケット)を抽出する(図2ステップS3)。
FIG. 2 is a flowchart showing the operation of the multimedia
The voice
The video
なお、本実施の形態において、映像品質、音声品質、遅延品質およびマルチメディア品質における「品質」とは、ユーザ体感品質(Quality of Experience:QoE)のことを意味し、主観評価実験で得られる平均オピニオン評点(Mean Opinion Score:MOS)もしくはMOSを推定することにより得られる客観品質評価値のことを指す。 In the present embodiment, “quality” in video quality, audio quality, delay quality and multimedia quality means user experience quality (QoE), which is an average obtained by subjective evaluation experiments. Opinion score (Mean Opinion Score: MOS) or objective quality evaluation value obtained by estimating MOS.
遅延品質推定部24は、映像情報収集部23が抽出した映像情報と音声情報収集部22が抽出した音声情報とから映像と音声との相対的遅延時間を算出し、遅延品質を推定する(図2ステップS4)。
The delay
音声品質推定部25は、音声情報収集部22が抽出した音声パケットもしくは音声パケットに含まれる音声信号に基づいて音声品質を推定する(図2ステップS5)。音声品質を推定する方法としては、例えば国際標準化機関ITU−T(International Telecommunication Union Telecommunication Standardization Sector)勧告P.862による音声品質客観評価尺度PESQ(Perceptual Evaluation of Speech Quality)アルゴリズムを利用することができる。
The voice
タスク判断部26は、音声情報収集部22が抽出した音声情報から通信端末別の有音区間の発生状況を測定し、通信端末1間の会話のやり取りの発生頻度から、映像・音声通信サービスシステムを利用している話者の会話の形式を表す会話種別を判定する(図2ステップS6)。会話種別としては、会議、講義(講演)、自由会話、データ照合などがある。
The
会話種別を判定するための会話の特徴量としては、例えば文献「伊藤,北脇,“会話音声の時間的特徴量に着目した遅延品質評価法”,日本音響学会誌,Vol.43,No.11,p.851−857,1987」で定義されている「やり取りの頻度」を用いる。このやり取りの頻度Rnとは、一方の通信端末1を利用している話者Aと他方の通信端末1を利用している話者Bとの間の音声のやり取りの回数を会話毎に求め、このやり取りの回数を単位時間(例えば1分間)当たりに換算した値として以下のように算出するものである。
As the feature amount of the conversation for determining the conversation type, for example, the literature “Ito, Kitawaki,“ Delay Quality Evaluation Method Focusing on Temporal Feature Quantity of Conversation Voice ”, Journal of Acoustical Society of Japan, Vol.43, No.11. , P. 851-857, 1987 ”is used. This exchange frequency R n is obtained for each conversation the number of voice exchanges between a speaker A using one
ここで、iは会話番号、Rnab(i)は会話(i)における話者A,B間のやり取りの回数、Tmは会話時間長、tmは単位時間(1分間)を示す。やり取りの回数とは、話者Aの発話が終わって話者Bの発話に切り替わったり、話者Bの発話が終わって話者Aの発話に切り替わったりする回数、すなわち話者が切り替わる回数のことである。 Here, i is the conversation number, R nab (i) is the number of exchanges between the speakers A and B in the conversation (i), T m is the conversation time length, and t m is the unit time (1 minute). The number of exchanges is the number of times that speaker A has finished speaking and switched to speaker B's speech, or the number of times speaker B has finished speaking and switched to speaker A's speech, that is, the number of times the speaker has switched. It is.
そして、タスク判断部26は、算出したやり取りの頻度Rnを特開2005−148225号公報に開示された判別閾値により閾値処理することにより、会話種別を判定することができる。具体的には、やり取りの頻度Rnが所定値a(例えば0)未満であれば、会話種別を「講義」と判定し、やり取りの頻度Rnが所定値a以上所定値b(a<b)未満であれば、会話種別を「会議」と判定し、やり取りの頻度Rnが所定値b以上所定値c(b<c)未満であれば、会話種別を「自由会話」と判定し、やり取りの頻度Rnが所定値c以上であれば、会話種別を「データ照合」と判定する。
Then, the
図3はタスク判断部26の構成を示すブロック図、図4はタスク判断部26の動作を示すフローチャートである。タスク判断部26は、通信端末別の有音区間の発生状況を測定する有音区間検出部261と、通信端末1間の会話のやり取りの回数を算出するやり取り回数算出部262と、通信端末1間の会話のやり取りの頻度を算出するやり取り頻度算出部263と、やり取りの頻度から会話種別を判定する分類部264とを有する。
FIG. 3 is a block diagram illustrating the configuration of the
まず、有音区間検出部261は、音声情報収集部22が抽出した音声情報から、通信端末別の有音区間の発生状況を測定する(図4ステップS261)。
やり取り回数算出部262は、有音区間の発生状況から、話者が切り替わる回数であるやり取り回数を算出する(ステップS262)。
First, the voiced
The number of
やり取り頻度算出部263は、算出されたやり取り回数を用いて、式(1)により単位時間あたりの会話のやり取りの頻度Rnを算出する(ステップS263)。
そして、分類部264は、算出されたやり取りの頻度Rnを、上記のように所定の判別閾値a,b,cにより分類することにより、会話種別を判定する(ステップS264)。会話種別の判定が完了した時点でタスク判断部26の処理が終了する(ステップS265においてYES)。
Exchanging
Then, the
やり取りの頻度Rnを測定する方法として、音声信号ではなく音声パケット情報を用いる方法もある。すなわち、音声符号化にITU−T勧告G.729,G.723.1のAnnexに記載されている無音圧縮技術が用いられている場合、有音パケットのみ送出され、無音区間ではパケットは送出されないことから、音声パケットの発生状況からやり取りの頻度Rnを推定することができる。 As a method for measuring the exchange frequency R n , there is also a method using voice packet information instead of voice signals. That is, ITU-T Recommendation G. 729, G.G. If silence compression technique described in Annex the G.723.1 is used, sent only voice packets, estimated from the in silent section packets are not sent, the frequency R n interactions from occurrence of the voice packet can do.
また、会話種別は、音声情報と映像情報を組み合わせることにより推定することもできる。この場合、タスク判断部26は、映像情報より映像動き量の時間的発生状況の推移を測定し、さらに有音区間の時間的発生状況を測定する。双方向性が強い通信の場合には、映像動き量の時間的発生状況と有音区間の時間的発生状況の一致度合いが高いと想定される。このため、映像動き量の時間的発生状況と有音区間の時間的発生状況の一致度を用いて、会話のやり取りの頻度を推定することができる。
The conversation type can also be estimated by combining audio information and video information. In this case, the
映像品質推定部27は、映像情報収集部23が抽出した映像パケットもしくは映像パケットに含まれる映像信号に基づいて映像品質を推定する(図2ステップS7)。映像信号を基に映像品質を推定する方法としては、ITU−T勧告J.144,J.246,J.247,J.249に記載されている方法がある。これらの方法はメディア信号もしくはメディア信号から得られる統計情報を用いて映像品質を推定する方法である。
The video
次に、マルチメディア品質推定部29は、タスク判断部26が判定した会話種別と、利用環境条件入力部28から入力された利用環境条件と、映像品質推定部27から入力された映像品質推定値と、音声品質推定部25から入力された音声品質推定値と、遅延品質推定部24から入力された遅延品質推定値に基づいて、マルチメディア品質を推定する(図2ステップS8)。
Next, the multimedia
図5はマルチメディア品質推定部29の構成を示すブロック図、図6はマルチメディア品質推定部29の動作を示すフローチャートである。
マルチメディア品質推定部29は、係数テーブル291と、マルチメディア品質算出部292とを有する。
FIG. 5 is a block diagram showing the configuration of the multimedia
The multimedia
図7はマルチメディア品質推定部29の係数テーブル291の例を示す図である。係数テーブル291は、会話種別と通信端末1の能力を表す利用環境条件と後述するマルチメディア品質推定式の係数α,β,γ,δ,ε,ψ,φ,μとを対応付けて予め記憶しているものである。
FIG. 7 is a diagram illustrating an example of the coefficient table 291 of the multimedia
マルチメディア品質算出部292は、例えば通信端末1の利用者から利用環境条件入力部28を介して利用環境条件が入力され(図6ステップS291)、タスク判断部26から会話種別を表す数値が入力されると(ステップS292)、入力された利用環境条件および会話種別に対応する係数α,β,γ,δ,ε,ψ,φ,μを係数テーブル291から取得する(ステップS293)。
The multimedia
そして、マルチメディア品質算出部292は、映像品質推定部27から入力された映像品質推定値MOSvを受信し(ステップS294)、音声品質推定部25から入力された音声品質推定値MOSaを受信し(ステップS295)、遅延品質推定部24から入力された遅延品質推定値MOSdを受信して(ステップS296)、これらの品質推定値と係数α,β,γ,δ,ε,ψ,φ,μとを以下のマルチメディア品質推定式に代入して、マルチメディア品質推定値MOStを算出し(ステップS297)、算出したマルチメディア品質推定値MOStを出力する(ステップS298)。
The multimedia
双方向通信サービスを対象としたマルチメディア品質の推定方法としては、特許文献1に開示された方法がある。特許文献1に開示された方法では、マルチメディア品質推定モデルへの入力は、映像品質推定値MOSv、音声品質推定値MOSa、遅延品質推定値MOSdである。マルチメディア品質推定モデルは、会話を想定したモデルになっている。映像品質推定値MOSv、音声品質推定値MOSaおよび遅延品質推定値MOSdとマルチメディア品質推定値MOStとの関係を表すマルチメディア品質推定式は、以下のようになる。
MOSt=α・MOSa+β・MOSv+γ・MOSd+δ・MOSa・MOSv
+ε・MOSa・MOSd+ψ・MOSv・MOSd
+φ・MOSa・MOSv・MOSd+μ ・・・(2)
As a multimedia quality estimation method for a two-way communication service, there is a method disclosed in
MOSt = α · MOSa + β · MOSv + γ · MOSd + δ · MOSa · MOSv
+ Ε · MOSa · MOSd + ψ · MOSv · MOSd
+ Φ · MOSa · MOSv · MOSd + μ (2)
マルチメディア品質算出部292は、式(2)を用いてマルチメディア品質推定値MOStを算出する。
以上で、マルチメディア品質推定装置2の処理が終了する。
The multimedia
Above, the process of the multimedia
ここで、係数テーブル291に予め設定しておく係数α,β,γ,δ,ε,ψ,φ,μの求め方について説明する。まず、映像品質、音声品質、遅延品質、利用環境条件および会話種別が異なる複数の実験条件を設定し、これらの実験条件の各々について実験室等で主観評価実験を実施する。各品質は、映像・音声通信サービスの通信環境が制御できる実験系を用いることで制御可能である。主観評価実験では、想定する会話種別を模擬する会話を被験者に実施してもらい、映像品質評価値MOSv、音声品質評価値MOSaおよび遅延品質評価値MOSdと、総合的な品質であるマルチメディア品質評価値MOStとを求める。そして、これらの評価値のデータと式(2)とを使って回帰分析により、最適な係数α,β,γ,δ,ε,ψ,φ,μを利用環境条件毎および会話種別毎に求めるようにすればよい。 Here, how to obtain the coefficients α, β, γ, δ, ε, ψ, φ, μ set in advance in the coefficient table 291 will be described. First, a plurality of experimental conditions with different video quality, audio quality, delay quality, usage environment conditions, and conversation type are set, and a subjective evaluation experiment is performed in a laboratory or the like for each of these experimental conditions. Each quality can be controlled by using an experimental system that can control the communication environment of the video / audio communication service. In the subjective evaluation experiment, the subject conducts a conversation that simulates the assumed conversation type, and the video quality evaluation value MOSv, the audio quality evaluation value MOSa, the delay quality evaluation value MOSd, and the multimedia quality evaluation that is the overall quality. The value MOSt is obtained. Then, the optimum coefficients α, β, γ, δ, ε, ψ, φ, μ are obtained for each use environment condition and each conversation type by regression analysis using the data of these evaluation values and Expression (2). What should I do?
図4の例では、会話種別を4つに分類し、例えば会議、講義、自由会話、データ照合のそれぞれに1,2,3,4の番号を割り当てている。また、図4の例では、利用環境条件を、映像を受信する通信端末1のディスプレイ装置の解像度としている。ここでは、QVGA(Quarter Video Graphics Array),VGA(Video Graphics Array)・SD(Standard Definition)、HD(High Definition)の3段階を設けている。なお、利用環境条件は、ディスプレイ装置の画面の大きさを表すものであってもよい。
In the example of FIG. 4, the conversation types are classified into four, and
マルチメディア品質推定モデルにおける構成要素である映像品質や音声品質および遅延品質を考えた場合、会話種別が作業遂行性の強い会議の場合には、音声品質に対する重みが映像品質に比べて強くなり、遅延品質の重みも強くなる。また、一方的な伝達を目的とした講演・講義の場合には、映像品質の重みが音声品質に比べて強くなると同時に遅延品質の重みも弱くなると考えられる。 When considering video quality, audio quality, and delay quality, which are the components of the multimedia quality estimation model, in the case of a conference where the conversation type has a strong work performance, the weight for audio quality becomes stronger than the video quality. The weight of delay quality also increases. In addition, in the case of a lecture / lecture intended for unilateral transmission, it is considered that the weight of the video quality becomes stronger than the sound quality, and the weight of the delay quality becomes weaker.
さらに、このような会話種別の違いに加えて、利用環境条件の違いも出てくる。すなわち、一方の地点では高解像度のディスプレイ付きの通信端末を使用し、他方の地点では低解像度のディスプレイ付きの通信端末を使用している場合には、映像品質や音声品質に対する重みが異なる。ディスプレイの解像度が低くなればなるほど、映像品質に対する重要度が低くなり、音声品質に対する重要度が強くなると考えられる。係数テーブル291は、このような特性を考慮して導かれるものである。 Furthermore, in addition to such a difference in conversation type, a difference in usage environment conditions also appears. That is, when a communication terminal with a high-resolution display is used at one point and a communication terminal with a low-resolution display is used at the other point, weights for video quality and audio quality are different. It is considered that the lower the display resolution, the lower the importance for video quality and the higher the importance for audio quality. The coefficient table 291 is derived in consideration of such characteristics.
[第2の実施の形態]
第1の実施の形態では、マルチメディア品質推定装置2を通信端末1の直前に設置したが、これに限るものではなく、マルチメディア品質推定装置2とは別の通信パケット収集手段があれば、マルチメディア品質推定装置2をネットワーク3上の任意の箇所に配置して、マルチメディア品質推定を行ってもよい。
また、マルチメディア品質推定装置2による品質推定結果を通信端末1に通知するだけでなく、ネットワーク3を介して品質推定結果を品質管理装置4に通知して、品質管理装置4が実施する品質管理に役立てるようにしてもよい。
また、マルチメディア品質推定装置2を、図8に示すように通信端末1内に組み込んで利用してもよい。
[Second Embodiment]
In the first embodiment, the multimedia
In addition to notifying the
Further, the multimedia
[第3の実施の形態]
第1の実施の形態では、通信端末1間で送受信される通信パケットそのものから音声情報および映像情報を収集したが、音声情報や映像情報の品質推定結果が搭載されているような品質情報パケットを収集してもよい。
[Third Embodiment]
In the first embodiment, the audio information and the video information are collected from the communication packets themselves transmitted and received between the
例えば、RTP(Real-time Transport Protocol)パケットで送受信される双方向通信サービスの場合、IETF(Internet Engineering Task Force)で制定されたRFC3611のRTCP−XRを用いることができる。RTCP−XRパケットには、パケット品質から推定されるネットワーク品質情報、メディア品質情報が格納されており、この情報から映像品質情報や音声品質情報、遅延品質情報を取り出すことができる。 For example, in the case of a two-way communication service transmitted and received by RTP (Real-time Transport Protocol) packets, RFC 3611 RTCP-XR established by IETF (Internet Engineering Task Force) can be used. The RTCP-XR packet stores network quality information and media quality information estimated from packet quality, and video quality information, audio quality information, and delay quality information can be extracted from this information.
本実施の形態の場合、遅延品質推定部24、音声品質推定部25および映像品質推定部27の代わりに、RTCP−XRパケットから映像品質情報、音声品質情報および遅延品質情報を取り出す品質情報抽出部をマルチメディア品質推定装置2に設けるようにすればよい。
In the case of the present embodiment, instead of the delay
なお、第1〜第3の実施の形態のマルチメディア品質推定装置2は、CPU、記憶装置および外部とのインタフェースを備えたコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。このようなコンピュータにおいて、本発明の会話種別判定方法およびマルチメディア品質推定方法を実現させるためのプログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録された状態で提供される。CPUは、記録媒体から読み込んだプログラムを記憶装置に書き込み、プログラムに従って第1〜第3の実施の形態で説明した処理を実行する。
Note that the multimedia
本発明は、映像・音声通信サービスにおけるマルチメディア品質を推定する技術に適用することができる。 The present invention can be applied to a technique for estimating multimedia quality in a video / audio communication service.
1…通信端末、2…マルチメディア品質推定装置、3…ネットワーク、4…品質管理装置、21…通信パケット収集部、22…音声情報収集部、23…映像情報収集部、24…遅延品質推定部、25…音声品質推定部、26…タスク判断部、27…映像品質推定部、28…利用環境条件入力部、29…マルチメディア品質推定部、261…有音区間検出部、262…やり取り回数算出部、263…やり取り頻度算出部、264…分類部、291…係数テーブル、292…マルチメディア品質算出部。
DESCRIPTION OF
Claims (6)
通信端末間で送受信されている通信パケットを収集する通信パケット収集手段と、
この通信パケット収集手段が収集した通信パケットから音声情報を抽出する音声情報収集手段と、
この音声情報収集手段が抽出した音声情報から通信端末間の会話の特徴量を抽出し、この特徴量から会話種別を判定する会話種別判定手段と、
前記通信パケット収集手段が収集した通信パケットから映像情報を抽出する映像情報収集手段と、
この映像情報収集手段が抽出した映像情報から映像品質を推定する映像品質推定手段と、
前記音声情報収集手段が抽出した音声情報から音声品質を推定する音声品質推定手段と、
前記抽出された音声情報と映像情報とから遅延品質を推定する遅延品質推定手段と、
前記会話種別判定手段が判定した会話種別と、通信端末の能力を表す利用環境条件と、前記映像品質推定手段が算出した映像品質推定値と、前記音声品質推定手段が算出した音声品質推定値と、前記遅延品質推定手段が算出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定するマルチメディア品質推定手段とを備え、
前記会話種別判定手段は、
前記音声情報収集手段が抽出した音声情報から前記会話の特徴量として、通信端末間の会話のやり取りの頻度を算出するやり取り頻度算出手段と、
算出されたやり取りの頻度を所定の判別閾値により分類することにより前記会話種別を判定する分類手段とを有し、
前記通信端末の能力を表す利用環境条件は、前記通信端末のディスプレイ装置の解像度または画面の大きさを表すものであり、
前記マルチメディア品質推定手段は、
会話種別と利用環境条件との交互作用を考慮して決定された係数を会話種別毎および利用環境条件毎に予め記憶する係数テーブルと、
前記会話種別判定手段が判定した会話種別と外部から入力された利用環境条件とに対応する係数を前記係数テーブルから取得し、取得した係数と前記映像品質推定値と前記音声品質推定値と前記遅延品質推定値とを所定の品質推定式に代入してマルチメディア品質推定値を算出するマルチメディア品質算出手段とを有することを特徴とするマルチメディア品質推定装置。 Multimedia quality estimation apparatus for determining a conversation type representing a form of conversation between communication terminals in a video / audio communication service for transmitting video and audio over a network and estimating multimedia quality in the video / audio communication service Because
Communication packet collecting means for collecting communication packets transmitted and received between communication terminals;
Voice information collecting means for extracting voice information from the communication packets collected by the communication packet collecting means;
A conversation type determination unit that extracts a feature amount of conversation between communication terminals from the voice information extracted by the voice information collection unit, and determines a conversation type from the feature amount ;
Video information collecting means for extracting video information from the communication packets collected by the communication packet collecting means;
Video quality estimation means for estimating video quality from the video information extracted by the video information collection means;
Voice quality estimating means for estimating voice quality from the voice information extracted by the voice information collecting means;
Delay quality estimating means for estimating delay quality from the extracted audio information and video information;
A conversation type determined by the conversation type determination unit, a use environment condition indicating the capability of the communication terminal, a video quality estimation value calculated by the video quality estimation unit, and an audio quality estimation value calculated by the audio quality estimation unit; Multimedia quality estimation means for estimating multimedia quality, which is the overall quality of the communication service, based on the delay quality estimation value calculated by the delay quality estimation means,
The conversation type determination means includes
An exchange frequency calculating means for calculating the frequency of conversation exchange between communication terminals as the feature amount of the conversation from the voice information extracted by the voice information collecting means;
Classification means for determining the conversation type by classifying the calculated frequency of exchange according to a predetermined determination threshold;
The use environment condition representing the capability of the communication terminal represents the resolution or the screen size of the display device of the communication terminal,
The multimedia quality estimation means includes:
A coefficient table that pre-stores coefficients determined in consideration of the interaction between the conversation type and the use environment condition for each conversation type and each use environment condition;
The coefficient corresponding to the conversation type determined by the conversation type determination means and the usage environment condition input from the outside is acquired from the coefficient table, the acquired coefficient, the video quality estimated value, the audio quality estimated value, and the delay A multimedia quality estimation device, comprising: a multimedia quality calculation means for calculating a multimedia quality estimate by substituting the quality estimate into a predetermined quality estimation formula .
前記やり取り頻度算出手段は、音声パケットの発生状況から前記やり取りの頻度を算出することを特徴とするマルチメディア品質推定装置。 The multimedia quality estimation apparatus according to claim 1 , wherein
The multimedia quality estimation apparatus, wherein the exchange frequency calculation means calculates the frequency of the exchange from the occurrence state of voice packets.
前記映像品質推定手段と前記音声品質推定手段と前記遅延品質推定手段の代わりに、前記通信パケット収集手段が収集した品質情報パケットから映像品質推定値、音声品質推定値および遅延品質推定値を取り出す品質情報抽出手段を備え、
前記マルチメディア品質推定手段は、前記会話種別判定手段が判定した会話種別と、前記通信端末の能力を表す利用環境条件と、前記品質情報抽出手段が取り出した映像品質推定値と、前記品質情報抽出手段が取り出した音声品質推定値と、前記品質情報抽出手段が取り出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定することを特徴とするマルチメディア品質推定装置。 The multimedia quality estimation apparatus according to claim 1 or 2 ,
Quality of extracting video quality estimation value, audio quality estimation value, and delay quality estimation value from the quality information packet collected by the communication packet collection means instead of the video quality estimation means, the audio quality estimation means, and the delay quality estimation means With information extraction means,
The multimedia quality estimation means includes a conversation type determined by the conversation type determination means, a use environment condition indicating the capability of the communication terminal, an estimated video quality value extracted by the quality information extraction means, and the quality information extraction. Multimedia quality estimation characterized in that multimedia quality, which is a total quality of a communication service, is estimated based on a speech quality estimation value extracted by the means and a delay quality estimation value extracted by the quality information extraction means apparatus.
通信端末間で送受信されている通信パケットを収集する通信パケット収集ステップと、
この通信パケット収集ステップで収集した通信パケットから音声情報を抽出する音声情報収集ステップと、
この音声情報収集ステップで抽出した音声情報から通信端末間の会話の特徴量を抽出し、この特徴量から会話種別を判定する会話種別判定ステップと、
前記通信パケット収集ステップで収集した通信パケットから映像情報を抽出する映像情報収集ステップと、
この映像情報収集ステップで抽出した映像情報から映像品質を推定する映像品質推定ステップと、
前記音声情報収集ステップで抽出した音声情報から音声品質を推定する音声品質推定ステップと、
前記抽出した音声情報と映像情報とから遅延品質を推定する遅延品質推定ステップと、
前記会話種別判定ステップで判定した会話種別と、通信端末の能力を表す利用環境条件と、前記映像品質推定ステップで算出した映像品質推定値と、前記音声品質推定ステップで算出した音声品質推定値と、前記遅延品質推定ステップで算出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定するマルチメディア品質推定ステップとを含み、
前記会話種別判定ステップは、
前記音声情報収集ステップで抽出した音声情報から前記会話の特徴量として、通信端末間の会話のやり取りの頻度を算出するやり取り頻度算出ステップと、
算出したやり取りの頻度を所定の判別閾値により分類することにより前記会話種別を判定する分類ステップとからなり、
前記通信端末の能力を表す利用環境条件は、前記通信端末のディスプレイ装置の解像度または画面の大きさを表すものであり、
前記マルチメディア品質推定ステップは、
会話種別と利用環境条件との交互作用を考慮して決定された係数を会話種別毎および利用環境条件毎に予め記憶する係数テーブルを参照して、前記会話種別判定ステップで判定した会話種別と外部から入力された利用環境条件とに対応する係数を前記係数テーブルから取得し、取得した係数と前記映像品質推定値と前記音声品質推定値と前記遅延品質推定値とを所定の品質推定式に代入してマルチメディア品質推定値を算出するマルチメディア品質算出ステップを含むことを特徴とするマルチメディア品質推定方法。 A multimedia quality estimation method for determining a conversation type representing a form of conversation between communication terminals in a video / audio communication service for transmitting video and audio over a network and estimating multimedia quality in the video / audio communication service Because
A communication packet collecting step for collecting communication packets transmitted and received between communication terminals;
A voice information collecting step for extracting voice information from the communication packets collected in the communication packet collecting step;
A conversation type determination step for extracting a conversation feature amount between communication terminals from the voice information extracted in the voice information collection step, and determining a conversation type from the feature amount ;
A video information collecting step of extracting video information from the communication packet collected in the communication packet collecting step;
A video quality estimation step for estimating video quality from the video information extracted in this video information collection step;
A voice quality estimation step of estimating voice quality from the voice information extracted in the voice information collection step;
A delay quality estimation step for estimating a delay quality from the extracted audio information and video information;
The conversation type determined in the conversation type determination step, the usage environment condition indicating the capability of the communication terminal, the video quality estimation value calculated in the video quality estimation step, and the audio quality estimation value calculated in the audio quality estimation step A multimedia quality estimation step for estimating a multimedia quality that is a total quality of the communication service based on the delay quality estimation value calculated in the delay quality estimation step,
The conversation type determination step includes
An exchange frequency calculation step for calculating the frequency of conversation exchange between communication terminals as the feature amount of the conversation from the voice information extracted in the voice information collection step;
A classification step of determining the conversation type by classifying the calculated frequency of exchange according to a predetermined determination threshold;
The use environment condition representing the capability of the communication terminal represents the resolution or the screen size of the display device of the communication terminal,
The multimedia quality estimation step includes:
The conversation type determined in the conversation type determination step and the external are determined by referring to a coefficient table in which coefficients determined in consideration of interaction between the conversation type and the usage environment condition are stored in advance for each conversation type and each usage environment condition. Is obtained from the coefficient table, and the obtained coefficient, the video quality estimation value, the audio quality estimation value, and the delay quality estimation value are substituted into a predetermined quality estimation expression. A multimedia quality estimation method comprising a multimedia quality calculation step of calculating a multimedia quality estimate .
前記やり取り頻度算出ステップは、音声パケットの発生状況から前記やり取りの頻度を算出することを特徴とするマルチメディア品質推定方法。 The multimedia quality estimation method according to claim 4 , wherein
The multimedia quality estimation method according to claim 1, wherein the exchange frequency calculating step calculates the frequency of the exchange based on a voice packet occurrence state.
前記映像品質推定ステップと前記音声品質推定ステップと前記遅延品質推定ステップの代わりに、前記通信パケット収集ステップで収集した品質情報パケットから映像品質推定値、音声品質推定値および遅延品質推定値を取り出す品質情報抽出ステップを含み、
前記マルチメディア品質推定ステップは、前記会話種別判定ステップで判定した会話種別と、前記通信端末の能力を表す利用環境条件と、前記品質情報抽出ステップで取り出した映像品質推定値と、前記品質情報抽出ステップで取り出した音声品質推定値と、前記品質情報抽出ステップで取り出した遅延品質推定値に基づいて、通信サービスの総合的な品質であるマルチメディア品質を推定することを特徴とするマルチメディア品質推定方法。 The multimedia quality estimation method according to claim 4 or 5 ,
Instead of the video quality estimation step, the audio quality estimation step, and the delay quality estimation step, the quality for extracting the video quality estimation value, the audio quality estimation value, and the delay quality estimation value from the quality information packet collected in the communication packet collection step Including an information extraction step,
In the multimedia quality estimation step, the conversation type determined in the conversation type determination step, a use environment condition indicating the capability of the communication terminal, the video quality estimation value extracted in the quality information extraction step, and the quality information extraction A multimedia quality estimation characterized by estimating a multimedia quality, which is a total quality of a communication service, based on the speech quality estimation value extracted in the step and the delay quality estimation value extracted in the quality information extraction step. Method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010137003A JP5373704B2 (en) | 2010-06-16 | 2010-06-16 | Multimedia quality estimation apparatus and multimedia quality estimation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010137003A JP5373704B2 (en) | 2010-06-16 | 2010-06-16 | Multimedia quality estimation apparatus and multimedia quality estimation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012004779A JP2012004779A (en) | 2012-01-05 |
JP5373704B2 true JP5373704B2 (en) | 2013-12-18 |
Family
ID=45536278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010137003A Expired - Fee Related JP5373704B2 (en) | 2010-06-16 | 2010-06-16 | Multimedia quality estimation apparatus and multimedia quality estimation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5373704B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103379358B (en) * | 2012-04-23 | 2015-03-18 | 华为技术有限公司 | Method and device for assessing multimedia quality |
CN104539943B (en) * | 2012-08-22 | 2017-01-04 | 华为技术有限公司 | The monitoring method and apparatus of multimedia quality |
CN103634577B (en) | 2012-08-22 | 2014-12-31 | 华为技术有限公司 | Multimedia quality monitoring method and apparatus |
JP7410839B2 (en) * | 2020-10-29 | 2024-01-10 | 本田技研工業株式会社 | Information processing device, mobile object, program, and information processing method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005148225A (en) * | 2003-11-12 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | Speech quality estimating device, and program therefor and recording medium therefor |
JP4745721B2 (en) * | 2005-05-18 | 2011-08-10 | 日本電信電話株式会社 | Network communication service satisfaction estimation device, method, and program |
JP4317540B2 (en) * | 2005-08-30 | 2009-08-19 | 日本電信電話株式会社 | Video quality estimation apparatus, method and program |
EP1924101B1 (en) * | 2005-09-06 | 2013-04-03 | Nippon Telegraph And Telephone Corporation | Video communication quality estimation device, method, and program |
US20100053300A1 (en) * | 2007-02-02 | 2010-03-04 | Einarsson Torbjoern | Method And Arrangement For Video Telephony Quality Assessment |
-
2010
- 2010-06-16 JP JP2010137003A patent/JP5373704B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012004779A (en) | 2012-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4965659B2 (en) | How to determine video quality | |
EP2761879B1 (en) | A method to measure quality of experience of a video service | |
JP4486130B2 (en) | Video communication quality estimation apparatus, method, and program | |
US8472349B1 (en) | Determining mean opinion scores (MOS) for variable bit rate audio streams | |
Calyam et al. | A “GAP-model” based framework for online VVoIP QoE measurement | |
JP5373704B2 (en) | Multimedia quality estimation apparatus and multimedia quality estimation method | |
JPWO2017104416A1 (en) | Audio visual quality estimation apparatus, audio visual quality estimation method, and program | |
JP4308227B2 (en) | Video quality estimation device, video quality management device, video quality estimation method, video quality management method, and program | |
JP4914400B2 (en) | Quality estimation method, quality estimation system, user terminal, quality management terminal and program | |
JP4745721B2 (en) | Network communication service satisfaction estimation device, method, and program | |
JP2006157223A (en) | User bodily sensation quality estimate system, method, and apparatus, reception state information transmission apparatus, and transmission and reception terminals | |
JP5390369B2 (en) | Video quality estimation apparatus and method, coding bit rate estimation apparatus and method, and program | |
JP4460523B2 (en) | User experience quality estimation apparatus, method, and program | |
JP5335867B2 (en) | Video quality estimation apparatus, method, and program using basic GoP length | |
JP2008172365A (en) | Listening quality evaluation method and apparatus | |
JP6511003B2 (en) | Voice quality estimation device, voice quality estimation method, and program | |
JP4733071B2 (en) | Video quality estimation method and apparatus | |
JP4460548B2 (en) | User experience quality estimation apparatus, method, and program | |
WO2022102011A1 (en) | Objective evaluation device, objective evaluation method, and objective evaluation program | |
JP2012039530A (en) | Video quality estimating system, video distribution server, and receiving/reproducing terminal for user | |
JP2007329777A (en) | Content characteristic analysis apparatus, method, and program | |
JP2006203844A (en) | Communication quality estimation method and apparatus, and program | |
Wilk et al. | Scalable mobile quality assessment for User-generated Video | |
JP5491150B2 (en) | Audio quality factor index calculation method, apparatus, and program | |
CN113766214A (en) | Quality detection method, quality detection system and related device of streaming data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20111025 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20111025 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130430 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130701 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130919 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5373704 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |