JP4666485B2 - 音声信号のセグメント境界整合方式 - Google Patents

音声信号のセグメント境界整合方式 Download PDF

Info

Publication number
JP4666485B2
JP4666485B2 JP2005237428A JP2005237428A JP4666485B2 JP 4666485 B2 JP4666485 B2 JP 4666485B2 JP 2005237428 A JP2005237428 A JP 2005237428A JP 2005237428 A JP2005237428 A JP 2005237428A JP 4666485 B2 JP4666485 B2 JP 4666485B2
Authority
JP
Japan
Prior art keywords
segment
segment boundary
signal
matching method
audio signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005237428A
Other languages
English (en)
Other versions
JP2007052244A (ja
Inventor
修 杉本
亮一 川田
淳 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2005237428A priority Critical patent/JP4666485B2/ja
Publication of JP2007052244A publication Critical patent/JP2007052244A/ja
Application granted granted Critical
Publication of JP4666485B2 publication Critical patent/JP4666485B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Synchronisation In Digital Transmission Systems (AREA)

Description

本発明は音声信号のセグメント境界整合方式に関し、伝送路上の任意の2地点(例えば、送信地点と受信地点)における伝送遅延などを補償し、両者の特徴量の比較を可能とするための音声信号のセグメント境界整合方式に関する。
デジタルテレビ伝送の映像信号の品質評価のためのフレーム情報の同期を目的とした方式として、下記特許文献1のように、各フレームの映像データと再生時刻の対応を表した情報(タイムコード)伝送信号中に重畳し、この情報を伝送することにより2系統の信号同期を得る方式がある。デジタル伝送の場合、映像と音声を多重して、同期を保ったまま伝送することが可能であるため、音声信号についても同様の手段により2系統の信号同期が可能である。
さらに、特許文献1の方式の画質評価・監視への応用法として、下記非特許文献2に示す勧告がある。非特許文献2では、各フレームの映像データから抽出された音声特徴量データとフレーム再生時刻、または各フレームに一意に割り振られるタイムコードとの関係を示した情報を別途データ回線で送出する形式を示している。
特開2003−234726号公報 ITU-T勧告J.220 "Framework for remote monitoring of transmitted picture Signal-to-Noise ratio using spread-spectrum and orthogonal transform" (J.SSOT)
しかし、前記特許文献1の時刻情報は、本来映像情報の同期のために提供されているものであるため、音声信号が映像信号と多重されていない場合には、これを利用することができない。また、そもそもタイムコードを参照できるのは、業務用放送機器向けのデジタル映像信号を伝送している場合のみであり、アナログ信号や民生用の音声信号についてはタイムコードを利用することができない。そのような場合には、音声信号のみで2系統の同期を実現する必要があり、従来技術の適用範囲は限定的であった。
また、一般に音声特徴量は、音声信号をある有限個のサンプル毎のセグメントに分割し、セグメント内の各サンプル値を計算することにより導出されるが、音声信号では、映像信号のフレーム同期信号のような、データ集合の境界を示すような信号が供給されない。そのため、図5のように、同一時刻における2系統の音声信号の間には波形のずれYが生じてしまい、セグメントの境界の整合を取ることができないという問題が存在する。
一般に、特徴量抽出型の音声品質監視では、2系統間の音声特徴量はセグメントの境界の整合が得られるという前提があり(一例として、特願2004−348483号「音声障害検出装置」)、不整合が生じている状態では、音声品質評価の精度が著しく低下することが知られているが、同期信号なしにセグメント境界の整合を高精度に取る手法は従来まで存在しなかった。
本発明の目的は、前記した従来技術に鑑み、2系統間の音声のセグメント境界を整合するセグメント境界整合方式を提供することにある。
前記した目的を達成するために、本発明は、伝送路上の任意の2地点における2系統の音声信号を任意のサンプル数のセグメントに分割し、2系統の音声信号から特徴点を検出する手段と、該特徴点のセグメント境界からの相対位置を伝送する手段と、該伝送された前記2系統の相対位置の差分から該2系統の信号遅延差を推定し、その遅延差に基づきセグメント境界の移動量を通知する手段を有する監視端末と、該通知された前記セグメント境界の移動量だけセグメント境界を移動させて前記2系統のセグメント境界を一致させる遅延調整部とを具備した点に第1の特徴がある。
また、本発明は、前記音声信号の特徴点として、所与のサンプル長の区間の移動平均信号の、セグメント内のピーク位置を用いる点に第2の特徴がある。
本発明によれば、タイムコードを付与したり、2系統間で同期のとれた映像信号との多重を前提とすることなく、2系統の音声信号間でセグメント整合を取ることができるようになる。
以下に、図面を参照して、本発明を詳細に説明する。図1は、本発明の一実施形態の全体構成を示すブロック図である。
今、送信音声1がエンコーダ2で符号化され、伝送路3を経て受信側に送られ、受信側のデコーダ4で復号されて受信音声になる系を想定する。図のA点の音声信号を系統A,B点の音声信号を系統Bとすると、系統Aの音声信号は、遅延調整部11を経て特徴量抽出部12および特徴点検出部13に導かれ、該特徴量抽出部12においてセグメント毎の特徴量aを抽出され、また特徴点検出部13において特徴点bを検出される。一方、系統Bの音声信号は、特徴量抽出部14および特徴点検出部15に導かれ、該特徴量抽出部13においてセグメント毎の特徴量cを抽出され、また特徴点検出部15において特徴点dを検出される。前記特徴量a、c、および特徴点b、dは、監視端末6に送られる。
ここに、系統Aと系統Bのセグメント境界は、系統Aの特徴量抽出部12および特徴点検出部13、ならびに系統Bの特徴量抽出部14および特徴点検出部15において、それぞれ任意に設定されるものである。ただし、セグメント長は後述のLサンプル(Lは正の整数)からなり、系統AとBのセグメント長は等しい。
前記したように、一般に音声特徴量a、cは、音声信号をある有限個のサンプル毎のセグメントに分割し、セグメント内の各サンプル値を計算することにより導出されるが、音声信号では、映像信号のフレーム同期信号のような、データ集合の境界を示すような信号が供給されない。そのため、同一時刻における2系統の音声信号の間には波形のずれが生じてしまい、セグメントの境界の整合を取ることができない。
図2は、該監視端末6の詳細を示すブロック図であり、前記特徴量a、cが入力する音声信号の劣化を計算する劣化尺度計算部21、特徴点b、dが入力する特徴点位置差分導出部22、およびセグメント境界移動量通知部23から構成されている。該セグメント境界移動量通知部23からは、セグメント境界移動量eが前記遅延調整部11に送られる。
遅延調整部11は、該セグメント境界移動量eを基に、セグメント位置を補正する。この補正により、系統AおよびBのセグメント位置が一致するので、系統AおよびBの特徴量抽出部12,14から抽出された特徴量a、cは、同じセグメントの特徴量となり、監視端末6は送信音声1に対する受信音声5の劣化度を正しく計算することができるようになる。なお、該遅延調整部11は、系統Aでなく、系統Bに設けても良い。
次に、前記特徴点検出部13、15および特徴点位置差分導出部22の機能を説明する。系統A、Bの音声信号は、非可逆の圧縮符号化などにより劣化していることが予想されるため、各系統で検出する特徴点b,は、こうした伝送中の劣化が発生したとしても保存されるようなものを選ぶ必要がある。
本発明では、移動平均処理を行った音声信号のピーク位置を特徴点として検出する。検出の手順を、以下に示す。
ステップS1;下記の(1)式により、音声信号a(n)に対し、Tサンプルの移動平均処理を行う。この移動平均処理を1サンプル刻みでTずつシフトさせて行くと、次々とaavg(n)が求まる(図3参照)。
Figure 0004666485
ステップS2;aavg(n)をLサンプルごとのセグメントに分割する。さらに、下記の(2)式のp(n)によって定義される系列がセグメントs内で最大になる位置をピーク位置npeak(s)とする。
Figure 0004666485
p(n)はaavg(n)の時間nからTサンプル分の積分値を意味している。これは、セグメント内に複数のピーク位置がある場合、より近傍のレベルが高い区間をピーク位置として選択するための処理である。また、ピーク位置npeak(s)は、情報量を有限長に収めるという観点から、セグメント境界からの相対位置で記述する。例えば、図4に示すように、系統Aの音声信号のセグメントs1,s2,s3,・・内で最大になる位置をピーク位置npeakA(s1)、npeakA(s2)、npeakA(s3)、・・・とし、系統Bの音声信号の同セグメント内で最大になる位置をピーク位置npeakB(s1)、npeakB(s2)、npeakB(s3)、・・・とする。これらのピーク位置は、監視端末に伝送される。
ステップS3;監視端末において、ピーク位置npeak(s)を送信側と受信側で比較する。一般に、2系統間の信号の歪みが大きい場合には、ピーク位置の差が一定にならない場合がある。そこで、過去Sセグメントのピーク位置の差(npeakA(s)−npeakB(s))の分布をとり、最頻値を与えるものを当該セグメントのずれ量とする。なお、セグメントのずれ量がセグメント幅Lを超えるような場合には、検出されたずれ量に対し、法Lのもとの剰余を求め、これを最終的なずれ量(即ち、セグメント整合のために調整すべき遅延量)と決定する。
ステップS4;以上を全てのセグメントごとに行い、常時送受信間のずれ量を検出する。
このずれ量は、セグメント境界移動量e(図1、図2参照)として、遅延調整部11に送られる。該遅延調整部11は、このずれ量だけ系統Aのセグメント境界を移動すれば、系統Aのセグメント境界は系統Bのセグメント境界と一致することになる。
なお、ステップS3により求められるセグメント境界からのずれ量はセグメント毎に求められるが、図1の伝送路3における圧縮符号化の劣化度が大きい場合などには、ずれ量を誤検出する可能性がある。そのため、過去のセグメントで検出したずれ量の系列の内の最頻値を最終的な遅延差として決定すると、単一のセグメントの誤検出を回避することが可能になる。
以上のように、本発明によれば、タイムコードを付与したり、2系統間で同期のとれた映像信号との多重を前提とすることなく、2系統の音声信号間でセグメント整合を取ることができるようになる。また、これにより、高精度な自動音声品質監視を実現できるようになる。
本発明の一実施形態の構成を示すブロック図である。 監視端末の詳細な構成を示すブロック図である。 音声信号に対するTサンプルの移動平均処理の説明図である。 系統A、Bそれぞれのセグメント境界からの、それぞれの音声信号の特徴点の相対位置の説明図である。 セグメント境界整合の説明図である。
符号の説明
6・・・監視端末、11・・・遅延調整部、12、14・・・特徴量抽出部、13、15・・・特徴点検出部、21・・・劣化尺度計算部、22・・・特徴点位置差分導出部、23・・・セグメント境界移動量通知部。

Claims (3)

  1. 伝送路上の任意の2地点における2系統の音声信号を任意のサンプル数のセグメントに分割し、2系統の音声信号から特徴点を検出する手段と、
    特徴点のセグメント境界からの相対位置を伝送する手段と、
    該伝送された前記2系統の相対位置の差分から該2系統の信号遅延差を推定し、その遅延差に基づきセグメント境界の移動量を通知する手段を有する監視端末と
    該通知された前記セグメント境界の移動量だけセグメント境界を移動させて前記2系統のセグメント境界を一致させる遅延調整部とを具備したことを特徴とする音声信号のセグメント境界整合方式。
  2. 請求項1に記載の音声信号のセグメント境界整合方式において、
    前記音声信号の特徴点として、所与のサンプル長の区間の移動平均信号の、セグメント内のピーク位置を用いることを特徴とする音声信号のセグメント境界整合方式。
  3. 請求項1に記載の音声信号のセグメント境界整合方式において、
    前記監視端末は、過去のセグメントで検出した前記系統の信号遅延差の系列の内の最頻値を、最終的な遅延差とすることを特徴とする音声信号のセグメント境界整合方式。
JP2005237428A 2005-08-18 2005-08-18 音声信号のセグメント境界整合方式 Expired - Fee Related JP4666485B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005237428A JP4666485B2 (ja) 2005-08-18 2005-08-18 音声信号のセグメント境界整合方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005237428A JP4666485B2 (ja) 2005-08-18 2005-08-18 音声信号のセグメント境界整合方式

Publications (2)

Publication Number Publication Date
JP2007052244A JP2007052244A (ja) 2007-03-01
JP4666485B2 true JP4666485B2 (ja) 2011-04-06

Family

ID=37916733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005237428A Expired - Fee Related JP4666485B2 (ja) 2005-08-18 2005-08-18 音声信号のセグメント境界整合方式

Country Status (1)

Country Link
JP (1) JP4666485B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7913657B2 (en) 2007-02-23 2011-03-29 Honda Motor Co., Ltd. Variable valve timing mechanism

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5846397A (ja) * 1981-09-15 1983-03-17 アンリツ株式会社 2信号の波形相似度測定装置
JPH1097294A (ja) * 1996-02-21 1998-04-14 Matsushita Electric Ind Co Ltd 音声符号化装置
JPH1173198A (ja) * 1997-08-29 1999-03-16 Oki Electric Ind Co Ltd 音声合成装置
JP2001147700A (ja) * 1999-11-22 2001-05-29 Nippon Telegr & Teleph Corp <Ntt> 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体
JP2003167596A (ja) * 2001-11-30 2003-06-13 Oki Electric Ind Co Ltd 音声信号品質評価装置及びその方法
JP2004102074A (ja) * 2002-09-11 2004-04-02 Matsushita Electric Ind Co Ltd 音声符号化装置、音声復号化装置、音声信号伝送方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5846397A (ja) * 1981-09-15 1983-03-17 アンリツ株式会社 2信号の波形相似度測定装置
JPH1097294A (ja) * 1996-02-21 1998-04-14 Matsushita Electric Ind Co Ltd 音声符号化装置
JPH1173198A (ja) * 1997-08-29 1999-03-16 Oki Electric Ind Co Ltd 音声合成装置
JP2001147700A (ja) * 1999-11-22 2001-05-29 Nippon Telegr & Teleph Corp <Ntt> 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体
JP2003167596A (ja) * 2001-11-30 2003-06-13 Oki Electric Ind Co Ltd 音声信号品質評価装置及びその方法
JP2004102074A (ja) * 2002-09-11 2004-04-02 Matsushita Electric Ind Co Ltd 音声符号化装置、音声復号化装置、音声信号伝送方法及びプログラム

Also Published As

Publication number Publication date
JP2007052244A (ja) 2007-03-01

Similar Documents

Publication Publication Date Title
US9131216B2 (en) Methods and apparatuses for temporal synchronisation between the video bit stream and the output video sequence
CN102177726B (zh) 用于音频和视频签名生成和检测的特征优化和可靠性估计
JP4817246B2 (ja) 映像品質の客観評価装置
US8717499B2 (en) Audio video offset detector
EP3059884A1 (en) Methods and apparatuses for measuring transmission quality of multimedia data
US6633329B2 (en) Frozen field detection of formerly encoded video
JP5448926B2 (ja) スキップ・フレーム数検出方法及び装置
US20210274231A1 (en) Real-time latency measurement of video streams
US20100142620A1 (en) Method of generating side information by correcting motion field error in distributed video coding and dvc decoder using the same
US8478056B2 (en) Method of and apparatus for detecting error in image data stream
US20100026813A1 (en) Video monitoring involving embedding a video characteristic in audio of a video/audio signal
JP4666485B2 (ja) 音声信号のセグメント境界整合方式
KR100733261B1 (ko) 혼합된 화질 지수를 이용한 객관적 동영상 화질 평가시스템 및 방법과 이를 위한 동영상 부호화 장치 및 방법
JP4573301B2 (ja) 映像信号のフレーム同期方式
JP4698622B2 (ja) 映像異常検出装置、映像伝送装置、映像異常検出方法、及び映像伝送方法
US20030179740A1 (en) Method for synchronizing digital signals
KR101316699B1 (ko) 동영상 화질평가 시스템, 동영상 송신장치, 동영상 수신장치 및 그의 방법
KR100933284B1 (ko) 동영상 화질평가 시스템, 동영상 송신장치, 동영상 수신장치 및 그의 방법
JP2005252453A (ja) 伝送画質監視装置
KR101086275B1 (ko) 감소 기준법 기반의 블록 왜곡 측정 방법
US8290284B2 (en) Error determination device and error determination method
JP3756029B2 (ja) 動画像信号の符号化/復号化方法及び符号化/復号化装置
JP2007519335A (ja) ビデオ圧縮エンコーダのための3:2プルダウンスイッチオフ信号の生成装置
EP2007142A9 (en) Apparatus and method for processing digital image data
CN111343451A (zh) 一种数字视频音频解码器监测方法和设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110106

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees