JP4961565B2 - 音声検索装置及び音声検索方法 - Google Patents

音声検索装置及び音声検索方法 Download PDF

Info

Publication number
JP4961565B2
JP4961565B2 JP2007529275A JP2007529275A JP4961565B2 JP 4961565 B2 JP4961565 B2 JP 4961565B2 JP 2007529275 A JP2007529275 A JP 2007529275A JP 2007529275 A JP2007529275 A JP 2007529275A JP 4961565 B2 JP4961565 B2 JP 4961565B2
Authority
JP
Japan
Prior art keywords
data
pitch
voice
search
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007529275A
Other languages
English (en)
Other versions
JPWO2007015489A1 (ja
Inventor
寧 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu Institute of Technology NUC
Original Assignee
Kyushu Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu Institute of Technology NUC filed Critical Kyushu Institute of Technology NUC
Priority to JP2007529275A priority Critical patent/JP4961565B2/ja
Publication of JPWO2007015489A1 publication Critical patent/JPWO2007015489A1/ja
Application granted granted Critical
Publication of JP4961565B2 publication Critical patent/JP4961565B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、蓄積された検索対象音声データの中から、所定の音声に合致する部分を検索するための音声検索装置に関する。
近年、多くの蓄積映像・音声データの中から、視聴者が最も知りたい情報の部分だけを取り出すマルチメディア・データベースの要請が強まりつつある。代表的な例としては、蓄積された多くのニュース番組の中から、視聴者が最も知りたいニュースのみを取り出すニュース・オンデマンド(News On Demand:NOD)・システムなどがある。
かかるマルチメディア・データベースを構築するためには、テレビニュースなどの蓄積された映像・音声データの中から、検索キーワードの音声(以下「クエリー音声」という。)に合致する部分を検索する音声検索技術が必要とされる。
検索対象音声データの中からクエリー音声に合致する部分を検索する音声検索装置としては、特許文献1に記載のものが公知である。
図12は、特許文献1に記載の音声検索装置の構成を表す図である。この音声検索装置では、検索データ生成部100の音声信号入力部102に音声信号が入力されると、当該音声信号は、検索対象音声データとして記録部201に記憶される。この際、映像検索インデックス生成部104が生成する映像検索インデックスが付加される。また、音声信号に同期して映像信号入力部101には映像信号が入力され、記録部201に蓄積映像データとして記憶される。一方、クエリー音声は、検索処理部200のキーワード入力部203から入力され、キーワードパターン照合部205において検索対象音声データと照合され、もっとも一致する音声信号が音声信号出力部207から出力される。以下、これらの処理を概説する。
まず、音声信号入力部102に音声信号が入力されると、音声特徴パターン抽出部103は、入力音声を10msecの分析フレームに分割する。そして、各分析フレームについて、高速フーリエ変換を行い、発生周波数帯域の音響特性データを生成する。さらに、この音響特性データを、音響特徴量から構成されるN次元のベクトルデータ(以下「特徴パターン」という。)に変換する。ここで、音響特徴量としては、入力音声の発生周波数帯域における短時間スペクトル又はその対数値、入力音声の一定時間内における対数エネルギー等が用いられる。
次に、映像検索インデックス生成部104は、音声特徴パターン収納部105から第1番目の標準音声パターンを取り出す。
ここで、音声特徴パターン収納部105には、500個の標準音声パターンが予め記憶されている。標準音声パターンとは、予め複数の話者から収集した発音を分析して、サブワード単位(#V,#CV,#CjV,CV,CjV,VC,QC,VQ,VV,V#:但し、Cは子音、Vは母音、jは拗音、Qは促音、#は無音。)で抽出した音声特徴パターンを統計処理して標準化したものである。
映像検索インデックス生成部104は、処理対象となる1つの音声区間に対して、第1番目の標準音声パターンと入力音声の音声特徴パターンとの類似度を、DP照合法やHMM(Hidden Markov Model)等の音声認識処理により計算される。そして、第1番目の標準音声パターンに対して最も高い類似度を示す区間を「サブワード区間」として検出する。以下、サブワード区間の類似度を「スコア」という。映像検索インデックス生成部104は、サブワード区間の音素記号、発声区間(始端時刻、終端時刻)、及びスコアの組を「映像検索インデックス」として出力する。
同様に、第2番目以降の標準音声パターンについてもサブワード区間を検出し、検出サブワード区間に関する映像検索インデックスを出力する。
当該音声区間において、すべての標準音声パターンに関して映像検索インデックスが生成されたならば、映像検索インデックス生成部104は、処理対象となる音声区間を隣接する次の音声区間に移し、同様の処理を実行する。そして、入力音声の全区間に亘って映像検索インデックスを作成したところで、処理を終了する。
入力音声の音声データと映像検索インデックスは、検索対象音声データとして記録部201に記憶される。図13は記録部201に記憶された映像検索インデックスのラティス構造の一部を示す図である。図13では、10msec単位で分割した入力音声の各音声区間の終端を、その音声区間に対して生成した各映像検索インデックスの終端とし、同一音声区間における映像検索インデックスを生成された順番に配置している。このような映像検索インデックスのラティス構造を「音素類似度表」と呼ぶ。尚、「ラティス」とは、連続する種々の音声区間に対して、複数の音素や単語の候補とその可能性を表の形で表したものをいう(非特許文献1,p.198参照)。
クエリー音声を用いて映像シーンを検索する処理は次のように行われる。まず、キーワード入力部203に検索キーワードであるクエリー音声が入力される。キーワード変換部204は、クエリー音声をサブワードの時系列に変換する。次に、キーワードパターン照合部205は、音素類似度表の中から、クエリー音声を構成するサブワードだけをピックアップする。そして、ピックアップされた複数のラティス上のサブワードを、検索キーワードを変換したサブワードの系列順に隙間なく接続する。
例えば、クエリー音声としてキーワード入力部203に「空(そら)」が入力された場合、キーワード変換部204は、サブワードの系列「SO」,「OR」,「RA」を生成する。キーワードパターン照合部205は、音素類似度表からサブワード「SO」,「OR」,「RA」をピックアップして、これを隙間なく接続する。この場合、ある時刻のラティスからサブワード「RA」を取り出し、サブワード「RA」の始端時刻にあたるラティスからその前のサブワード「OR」を取り出し、さらにサブワード「OR」の始端時刻に当たるラティスからサブワード「SO」を取り出す。そして、最後のサブワード「RA」の終端を基準にして「SO」「OR」「RA」を連結する。
このようにサブワード(上記例では、「SO」「OR」「RA」)を連結することによって復元されたキーワードについて、その復元キーワードのスコアの総和を計算する。
以下同様に、サブワード「RA」の終端時刻をずらした復元キーワードをすべての時刻について順次作成し、各復元キーワードについてそのスコアを計算する(図14参照)。
制御部202は、スコアが上位となる復元キーワードの先頭サブワードの始端時刻から対応する映像信号のタイムコードを算出する。そして、記憶部201に蓄積された蓄積映像データ・検索対象音声データの該当部分を再生する制御を行う。
特開2000−236494号公報(特許第3252282号公報) 特開2005−91709号公報 古井貞煕,「音響・音声工学」,近代科学社,pp.194−210
上記従来の音声検索装置では、音声認識を行うにあたり、音声特徴パターン収納部105に格納された標準音声パターンを使用し、クエリー音声と標準音声パターンとの類似度によって音声認識を行う。この場合、認識精度を上げるためには標準音声パターンを多く用意する必要がある。しかし、標準音声パターンの数が増えると、類似度演算の処理時間が増大し又は演算回路の規模が大きくなる。また、標準音声パターンとして登録されていないクエリー音声が入力された場合には、正常に認識することができないため、音声検索機能が正常に働かない場合も考えられる。
また、通常、同じ音素に対する音声であっても男女間で周波数帯域が異なり、また同性でも個人間で周波数帯域が異なる。従って、標準音声パターンとクエリー音声との類似度に、これらの差異による影響が現れるため、認識精度に限界がある。
そこで、本発明の目的は、標準音声パターンを必要とせず、音声の個人差にも影響されず検索精度の高い音声検索装置を提供することにある。
本発明に係る音声検索装置の第1の構成は、検索対象音声データ(retrieval voice-data)の中から、クエリー音声データ(query voice-data)に一致又は類似する部分音声データ(partial voice-data)を検索する音声検索装置(voice retrieval device)であって、前記検索対象音声データの有声音(voiced sound)のピッチ周期(pitch period)を等化したピッチ等化検索対象音声データ(pitch-equalized retrieval voice-data)の中から、音声の特徴量空間において、前記クエリー音声データの有声音のピッチ周期を等化したピッチ等化クエリー音声データに対する距離尺度(distance measure)(又は類似尺度(likelihood measure))が所定の閾値以下(又は所定の閾値以上)である部分音声データを検索する部分音声検索手段を備えていることを特徴とする。
このように、検索対象音声データ及びクエリー音声データのピッチ周期を等化することによって、音声帯域の男女差や個人差が除去される。従って、ピッチ周期が等化された検索対象音声信号及びクエリー音声信号の特徴量空間における距離尺度や類似尺度は、音声帯域の男女差や個人差にほとんど影響されず、その音声が表す音素列に依存して定まる。故に、この距離尺度や類似尺度をマッチングの指標として用いることによって、高い精度で音声検索を行うことが可能となる。
ここで、「特徴量」とは、音声の発生周波数帯域における短時間スペクトル又はその対数値、一定時間内での対数エネルギーなどを用いることができる。特徴量として短時間スペクトルを用いる場合は、例えば、10〜30チャンネル程度の帯域フィルタ群を用いて得られる各帯域の特徴データの時系列、短時間FFTを用いて直接的に計算されるスペクトル、ケプストラム変換により得られるケプストラム、相関関数により計算される相関データ列、LPC分析を基礎として得られるLPC係数列、PARCOR係数、LSP周波数などが、特徴量として使用される。
「距離尺度」とは、特徴量に応じて種々の距離尺度を用いることができる。例えば、特徴量として短時間スペクトルを使用する場合、単純なユークリッド距離、聴覚の感度を考慮した重み付けを行った距離、判別分析,主成分分析などの統計的分析を行って低次元に射影した空間におけるユークリッド距離、マハラビノス距離、板倉・齋藤距離、COSH尺度、WLR尺度(重みつき尤度比)、PWLR尺度(パワー重みつき尤度比)、LPCケプストラム間ユークリッド距離、LPC重みつきケプストラム間ユークリッド距離などを用いることができる。
尚、特徴量(一般にベクトル量)x,yの距離尺度d(x,y)は、必ずしも数学的な意味での距離のように三角不等式を満たす必要はない。しかしながら、次式で定義される対称性と正値性を持つことが望ましく、また、d(x、y)を効率よく計算するアルゴリズムが存在する必要がある。
Figure 0004961565
「類似尺度」とは、二つの特徴量がどれだけ類似しているのかを示す尺度をいう。例えば、次式によって定義できる類似度等を用いることができる。ここで、x,yは特徴量を表す。
Figure 0004961565
本発明に係る音声検索装置の第2の構成は、前記第1の構成において、前記クエリー音声データの有声音のピッチ周期を等化することにより前記ピッチ等化クエリー音声データを生成するピッチ周期等化手段と、前記ピッチ等化クエリー音声データを特徴量の時系列データに変換したデータ(以下「クエリー特徴データ(query feature-data)」という。)を生成する特徴データ生成手段と、を備え、前記部分音声検索手段は、前記ピッチ等化検索対象音声データに含まれる部分音声データのうち、その特徴量が、前記クエリー特徴データとの間の距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)であるものを検索することを特徴とする。
この構成により、クエリー音声データが入力されると、ピッチ周期等化手段が当該クエリー音声データの有声音のピッチ周期を等化する。そして、特徴データ生成手段は、ピッチ周期が等化されたクエリー音声データの特徴量を演算し、クエリー特徴データを生成する。これにより、部分音声検索手段は、ピッチ等化検索対象音声データの部分音声データとクエリー特徴データとの間の距離尺度(又は類似尺度)を閾値判定により抽出する。これにより、クエリー音声データに一致又は類似する音声データを、検索対象音声データの中から検索することが可能となる。
本発明に係る音声検索装置の第3の構成は、前記第1又は2の構成において、前記部分音声検索手段は、前記ピッチ等化検索対象音声データを特徴量の時系列データに変換した検索対象特徴データの中から、前記クエリー音声データと同じ音素長分の部分データ(以下「選択特徴データ」という。)を、選択位置を移動させながら順次選択する部分音声選択手段と、前記各選択特徴データと前記クエリー特徴データとの間の距離尺度(又は類似尺度)を演算する特徴量尺度演算手段と、前記距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)の場合、前記選択特徴データに対応する検索対象音声データ内の位置を出力する一致位置判定手段と、を備えていることを特徴とする。
この構成により、検索対象音声データの中から、特徴量空間におけるピッチ等化検索対象音声データとの(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)の部分音声データを抽出することが可能となる。
部分音声選択手段が「選択位置を移動」させる手順は、特に限定するものではない。例えば、部分音声データの開始位置を検索対象音声データの先頭から末尾に向かって逐次移動させる方法や、逆に、部分音声データの終端位置を検索対象音声データの末尾から先頭に向かって逐次移動させる方法などを採ることができる。
本発明に係る音声検索装置の第4の構成は、前記第3の構成において、前記検索対象特徴データを記憶する音声記憶手段を備えていることを特徴とする。
検索対象音声データを、検索対象特徴データとして、音声記憶手段に予め記憶させておくことにより、クエリー音声データに類似する部分音声データを素早く検索することが可能となる。
本発明に係る音声検索装置の第5の構成は、前記第3又は4の構成において、前記検索対象音声データの有声音のピッチ周期を等化することにより前記ピッチ等化検索対象音声データを生成する第2のピッチ周期等化手段と、前記ピッチ等化検索対象音声データを特徴量の時系列データに変換することにより、前記検索対象特徴データを生成する第2の特徴データ生成手段と、を備えていることを特徴とする。
この構成により、音声データベース内の検索対象音声データが有声音のピッチ周期が等化されていない場合であっても、第2のピッチ周期等化手段によりピッチ周期を等化して第2の特徴データ生成手段により特徴量を算出することによって、ピッチ周期が等化された検索対象音声データの特徴量を得ることができる。
本発明に係る音声検索装置の第6の構成は、前記第2又は5の構成において、前記ピッチ周期等化手段(又は第2のピッチ周期等化手段)は、前記クエリー音声データ(又は前記検索対象音声データ)のピッチ周波数の検出を行うピッチ検出手段、前記ピッチ周波数と所定の基準周波数との差分を演算する残差演算手段、及び、前記差分が最小となるように、前記クエリー音声データ(又は前記検索対象音声データ)のピッチ周波数を等化する周波数シフタを具備することを特徴とする。
この構成により、ピッチ周期等化手段(又は第2のピッチ周期等化手段)は、クエリー音声データ(又は前記検索対象音声データ)のピッチ周波数を等化することができる。
本発明に係る音声検索装置の第7の構成は、前記第1乃至6の何れか一の構成において、前記検索対象特徴データ及び前記クエリー特徴データは、それぞれ、前記ピッチ等化検索対象音声データ及び前記ピッチ等化クエリー音声データを直交変換して得られるサブバンド・データの時系列であることを特徴とする。
このように特徴量としてサブバンドを使用することにより、簡単なフィルタバンクやFFT,DFT等を使用して検索対象特徴データ及び前記クエリー特徴データを高速に求めることが可能となる。
本発明に係る音声検索装置の第8の構成は、前記第2又は5の構成において、前記クエリー特徴データを、音素区間ごとに平均化し、平均値の時系列データに変換する第1の区間分割手段と、前記検索対象特徴データを、音素区間ごとに平均化し、平均値の時系列データに変換する第2の区間分割手段と、を備え、前記特徴量尺度演算手段は、前記第1及び第2の区間分割手段が生成する平均値の時系列データの間の距離尺度(又は類似尺度)を演算することを特徴とする。
このように、音素区間で特徴量を平均化し、その平均値を用いてマッチング判定を行うことにより、ノイズや揺らぎの影響が低減され、検索精度が向上する。また、各特徴量は、音素区間ごとに時間的に離散化される。この際に、音声の伸縮の影響が除去される。従って、マッチング判定は単純な比較計算のみとなり、DPマッチングのように計算量の多い方法を用いる必要がなく、装置構成の単純化、演算時間の高速化が図られる。
本発明に係る音声検索装置の第9の構成は、前記第1乃至8の何れか一の構成において、前記クエリー音声データ(又は前記検索対象音声データ)に対して音素ラベリングを行うことによりクエリー音素列(又は検索対象音素列)を生成する音素ラベリング処理手段と、前記前記選択特徴データに対応する前記検索対象音素列と前記クエリー音素列との距離尺度(又は類似尺度)を決定する音素列尺度演算手段と、前記特徴量尺度演算手段が出力する特徴量の距離尺度(又は類似尺度)と、前記音素列尺度演算手段が出力する音素列の距離尺度(又は類似尺度)との線形和(以下「総合距離尺度(又は総合類似尺度)」という。)を算出する総合尺度演算手段と、を備え、前記一致位置判定手段は、前記総合距離尺度(又は総合類似尺度)が所定の閾値以下(又は所定の閾値以上)の場合、前記選択特徴データに対応する検索対象音声データ内の位置を出力することを特徴とする。
このように、特徴量尺度に加えて音素列尺度をマッチング判定に考慮することにより、検索精度を高めることができる。
本発明に係る音声検索方法は、検索対象音声データの中から、クエリー音声データに一致又は類似する部分音声データを検索する音声検索方法であって、前記検索対象音声データの有声音のピッチ周期を等化したピッチ等化検索対象音声データの中から、音声の特徴量空間において、前記クエリー音声データの有声音のピッチ周期を等化したピッチ等化クエリー音声データに対する距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)である部分音声データを検索する部分音声検索ステップを有することを特徴とする。
本発明に係る音声検索方法の第2の構成は、前記第1の構成において、前記クエリー音声データの有声音のピッチ周期を等化することにより前記ピッチ等化クエリー音声データを生成するピッチ周期等化ステップと、前記ピッチ等化クエリー音声データを特徴量の時系列データに変換したデータ(以下「クエリー特徴データ」という。)を生成する特徴データ生成ステップと、を備え、前記部分音声検索ステップにおいては、前記ピッチ等化検索対象音声データに含まれる部分音声データのうち、その特徴量が、前記クエリー特徴データとの間の距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)であるものを検索することを特徴とする。
本発明に係る音声検索方法の第3の構成は、前記第1又は2の構成において、前記部分音声検索ステップにおいては、前記ピッチ等化検索対象音声データを特徴量の時系列データに変換した検索対象特徴データの中から、前記クエリー音声データと同じ音素長分の部分データ(以下「選択特徴データ」という。)を、選択位置を移動させながら順次選択する部分音声選択ステップと、前記各選択特徴データと前記クエリー特徴データとの間の距離尺度(又は類似尺度)を演算する特徴量尺度演算ステップと、前記距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)の場合、前記選択特徴データに対応する検索対象音声データ内の位置を出力する一致位置判定ステップと、を有することを特徴とする。
本発明に係る音声検索方法の第4の構成は、前記第3の構成において、前記検索対象特徴データを記憶する音声記憶ステップを備えていることを特徴とする。
本発明に係る音声検索方法の第5の構成は、前記第3又は4の構成において、前記検索対象音声データの有声音のピッチ周期を等化することにより前記ピッチ等化検索対象音声データを生成する第2のピッチ周期等化ステップと、前記ピッチ等化検索対象音声データを特徴量の時系列データに変換することにより、前記検索対象特徴データを生成する第2の特徴データ生成ステップとを有することを特徴とする。
本発明に係る音声検索方法の第6の構成は、前記第2又は5の構成において、前記ピッチ周期等化ステップ(又は第2のピッチ周期等化ステップ)においては、前記クエリー音声データ(又は前記検索対象音声データ)のピッチ周波数の検出を行うピッチ検出ステップと、前記ピッチ周波数と所定の基準周波数との差分を演算する残差演算ステップと、前記差分が最小となるように、前記クエリー音声データ(又は前記検索対象音声データ)のピッチ周波数を等化する周波数シフトステップとを具備することを特徴とする。
本発明に係る音声検索方法の第7の構成は、前記第1乃至6の何れか一の構成において、前記検索対象特徴データ及び前記クエリー特徴データは、それぞれ、前記ピッチ等化検索対象音声データ及び前記ピッチ等化クエリー音声データを直交変換して得られるサブバンド・データの時系列であることを特徴とする。
本発明に係る音声検索方法の第8の構成は、前記第2又は5の構成において、前記クエリー特徴データを、音素区間ごとに平均化し、平均値の時系列データに変換する第1の区間分割ステップと、前記検索対象特徴データを、音素区間ごとに平均化し、平均値の時系列データに変換する第2の区間分割ステップと、を有し、前記特徴量尺度演算ステップにおいては、前記第1及び第2の区間分割ステップにおいて生成される平均値の時系列データの間の距離尺度(又は類似尺度)を演算することを特徴とする。
本発明に係る音声検索方法の第9の構成は、前記第1乃至8の何れか一の構成において、前記クエリー音声データ(又は前記検索対象音声データ)に対して音素ラベリングを行うことによりクエリー音素列(又は検索対象音素列)を生成する音素ラベリングステップと、前記選択特徴データに対応する前記検索対象音素列と前記クエリー音素列との距離尺度(又は類似尺度)を決定する音素列尺度演算ステップと、前記特徴量尺度演算ステップにおいて出力される特徴量の距離尺度(又は類似尺度)と、前記音素列尺度演算ステップにおいて出力される音素列の距離尺度(又は類似尺度)との線形和(以下「総合距離尺度(又は総合類似尺度)」という。)を算出する総合尺度演算ステップと、を備え、前記一致位置判定ステップにおいては、前記総合距離尺度(又は総合類似尺度)が所定の閾値以下(又は所定の閾値以上)の場合、前記選択特徴データに対応する検索対象音声データ内の位置を出力することを特徴とする。
本発明に係るプログラムは、コンピュータに読み込んで実行することにより、コンピュータを前記第1乃至8の何れか一の構成の音声検索装置として機能させることを特徴とする。
以上のように、本発明によれば、検索対象音声データ及びクエリー音声データのピッチ周期を等化することにより、音声帯域の男女差や個人差が除去した音声データを用いて、特徴量のマッチングにより音声検索を行うことで、音声帯域の男女差や個人差にほとんど影響されず、音声検索の精度を向上させることができる。
また、音素区間ごとにピッチ周期を等化した検索対象音声データ及びクエリー音声データの特徴量を平均化し、その特徴量の平均値の時間列のマッチング検査によって音声検索を行うことで、ノイズや揺らぎの影響が低減されるとともに、音声の伸縮による影響が除去される。その結果、音声検索の精度を向上させることができる。
本発明の実施例1に係る音声検索装置1の全体構成を表す図である。 図1の音声符号化器2の構成を表すブロック図である。 図2のピッチ周期等化手段10の構成を表すブロック図である。 ピッチ検出手段21及びピッチ平均手段22における信号処理の概略を説明する図である。 有声音「あ」のフォルマント特性を示す図である。 無声音「す」の自己相関及びケプストラム波形並びに周波数特性を示す図である。 周波数シフタ23の内部構成を表す図である。 周波数シフタ23の内部構成の他の例を表す図である。 図1の音声復号器5の構成を表すブロック図である。 図1の部分音声検索手段6の構成を表すブロック図である。 量子化ビット数についての説明図である。 特許文献1に記載の音声検索装置の構成を表す図である。 記録部201に記憶された映像検索インデックスのラティス構造の一部を示す図である。 各復元キーワードについてそのスコアを計算するために接続されたラティスの構造を表す図である。
符号の説明
1 音声検索装置
2 音声符号化器
3 音声記憶手段
4 データ読出手段
5 音声復号器
6 部分音声検索手段
10 ピッチ周期等化手段
11 特徴データ生成手段
12a,12b 出力切替手段
13 量子化器
14 ピッチ等化波形符号化器
15 差分ビット演算器
16 ピッチ情報符号化器
17 音素ラベリング処理手段
18 リサンプラ
19 アナライザ
20 抵抗
21 入力ピッチ検出手段
22 ピッチ平均手段
23 周波数シフタ
24 出力ピッチ検出手段
25 残差演算手段
26 PIDコントローラ
27 ピッチ検出手段
28 BPF
29 周波数カウンタ
31 BPF
32 周波数カウンタ
34 アンプ
36 コンデンサ
41 発信器
42 変調器
43 BPF
44 VCO
45 復調器
51 ピッチ等化波形復号器
52 逆量子化器
53 シンセサイザ
54 ピッチ情報復号器
55 ピッチ周波数検出手段
56 差分器
57 加算器
58 周波数シフタ
59 出力切替手段
61 動作切替手段
62 部分音声選択手段
63,64 区間分割手段
65 特徴量尺度演算手段
66 音素列尺度演算手段
67 総合尺度演算手段
68 一致位置判定手段
以下、本発明を実施するための最良の形態について、図面を参照しながら説明する。
図1は、本発明の実施例1に係る音声検索装置の全体構成を表す図である。実施例1の音声検索装置1は、音声符号化器2、音声記憶手段3、データ読出手段4、音声復号器5、及び部分音声検索手段6を備えている。
検索対象音声データやクエリー音声データは、入力音声データとして音声符号化器2に入力される。音声符号化器2は、入力音声データに対して有声音のピッチ周期を等化するとともに、特徴量の時系列データ(特徴データ)に変換する。この際、入力音声データのピッチ周期の情報は特徴データとは分離され、符号化されて符号化ピッチデータとして出力される。一方、特徴データは、サブバンド波形として出力される。またさらに、音声符号化器2は、特徴データを符号化し、符号化特徴データとして出力する。また、音声符号化器2は、入力音声データに対して音素ラベリング処理を行い、各音素の音素ラベル及び時間区間の情報からなる音素ラベルデータとして出力する。
音声記憶手段3は、音声符号化器2により符号化特徴データ,符号化ピッチデータ,及び音素ラベルデータに分解され符号化された検索対象音声データを記憶する。この音声記憶手段3に記憶された符号化特徴データ及び符号化ピッチデータが、符号化された検索対象特徴データである。
データ読出手段4は、データ選択信号に従って、音声記憶手段3内の符号化された検索対象音声データ(符号化特徴データ,符号化ピッチデータ,及び音素ラベルデータ)の部分データを読み出す。
音声復号器5は、データ読出手段4により読み出された符号化特徴データ及び符号化ピッチデータを復号し、特徴データ又は出力音声データとして出力する。
部分音声検索手段6は、音声記憶手段3に蓄積されている符号化された検索対象音声データから、クエリー音声データに一致又は類似する部分データを検索する。
図2は、図1の音声符号化器2の構成を表すブロック図である。音声符号化器2は、ピッチ周期等化手段10、特徴データ生成手段11、出力切替手段12a,12b、量子化手段13、ピッチ等化波形符号化器14、差分ビット演算器15、ピッチ情報符号化器16、及び音素ラベリング手段17を備えている。
ピッチ周期等化手段10は、入力音声データxin(t)の有声音のピッチ周期を等化する。ピッチ周期が等化された入力音声データ(以下「ピッチ等化音声データ」という。)xout(t)は、出力端子Out_1から出力される。
特徴データ生成手段11は、出力端子Out_1から出力されるピッチ等化音声データxout(t)を特徴量の時系列データに変換する。本実施例においては、特徴量として、短時間周波数スペクトルが用いられる。
特徴データ生成手段11は、リサンプラ18及びアナライザ(変形離散コサイン変換器(Modified Discrete Cosine Transformer:MDCT))19から構成されている。
リサンプラ18は、ピッチ周期等化手段100の出力端子Out_1から出力されるピッチ等化音声データxout(t)の各ピッチ区間について、同一の標本化数となるように再標本化を行い、完全等化音声データxeq(t)として出力する。
アナライザ19は、完全等化音声データxeq(t)について、一定のピッチ区間数で変形離散コサイン変換を行い、短時間周波数スペクトル(以下「特徴データ」という。)X(f)を生成する。すなわち、本実施例においては、特徴データは、短時間周波数スペクトルからなるベクトル量の時系列(式(4))として与えられる。
Figure 0004961565
ここで、tは時刻、Xfi(t)(i=1,2,…,n)は時刻tにおける周波数fのサブバンドの短時間スペクトル値を表す。
出力切替手段12aは、部分音声検索手段6から入力される切替信号に従って、アナライザ19が生成する特徴データX(f)の出力先を、部分音声検索手段6又は音声記憶手段3に切り替える。具体的には、入力音声データとして、検索対象音声データが入力される場合には、特徴データX(f)の出力先は音声記憶手段3に切り替えられる。入力音声データとして、クエリー音声データが入力される場合には、特徴データX(f)の出力先は部分音声検索手段6に切り替えられる。
量子化器13は、特徴データX(f)を所定の量子化曲線に従って量子化する。ピッチ等化波形符号化器14は、量子化器13が出力する特徴データX(f)を符号化し、符号化特徴データとして出力する。この符号化には、ハフマン符号化法や算術符号化法等のエントロピ符号化法が使用される。
差分ビット演算器15は、ピッチ等化波形符号化器14が出力する符号化特徴データの符号量から目的ビット数を減算し差分(以下「差分ビット数」という。)を出力する。量子化器13は、この差分ビット数によって量子化曲線を平行移動させ、符号化特徴データの符号量が目的ビット数の範囲内となるように調整する。
ピッチ情報符号化器16は、ピッチ周期等化手段10が出力する残差周期信号ΔVpitch及び基準周期信号AVpitchを符号化し、符号化ピッチデータとして出力する。この符号化には、ハフマン符号化法や算術符号化法等のエントロピ符号化法が使用される。
音素ラベリング手段17は、入力音声データを音素区間に区分するとともに、各音素区間に対して音素ラベリングを行う。そして、音素ラベル及び時間区間の情報からなる音素ラベルデータとして出力する。
出力切替手段12bは、音素ラベリング処理手段17が生成する音素ラベルデータの出力先を、部分音声検索手段6又は音声記憶手段3に切り替える。具体的には、入力音声データとして、検索対象音声データが入力される場合には、音素ラベルデータの出力先は音声記憶手段3に切り替えられる。入力音声データとして、クエリー音声データが入力される場合には、音素ラベルデータの出力先は部分音声検索手段6に切り替えられる。
図3は、図2のピッチ周期等化手段10の構成を表すブロック図である。ピッチ周期等化手段10は、入力ピッチ検出手段21、ピッチ平均手段22、周波数シフタ23、出力ピッチ検出手段24、残差演算手段25、及びPIDコントローラ26を備えている。
入力ピッチ検出手段21は、入力音声データxin(t)から、当該音声信号に含まれるピッチの基本周波数を検出する。ピッチの基本周波数を検出する方法は、現在までに種々の方法が考案されているが、本実施例ではその代表的なものを示す。この入力ピッチ検出手段21は、ピッチ検出手段27、バンドパスフィルタ(Band Pass Filter:以下「BPF」という。)28、及び周波数カウンタ29を備えている。
ピッチ検出手段27は、入力音声データxin(t)から、ピッチの基本周期T=1/fを検出する。例えば、入力音声データxin(t)が図4(a)のような波形であったとする。ピッチ検出手段27は、まずこの波形に対して短時間フーリエ変換を行い、図4(b)のようなスペクトル波形X(f)を導出する。
通常、音声波形は、ピッチ以外にも多くの周波数成分を含み、ここで得られるスペクトル波形は、ピッチの基本周波数及びピッチの高調波成分以外にも、付加的に多くの周波数成分を有する。したがって、このスペクトル波形X(f)からピッチの基本周波数fを抽出するのは一般に困難である。そこで、ピッチ検出手段27は、このスペクトル波形X(f)対し再度フーリエ変換を行う。これにより、スペクトル波形X(f)に含まれるピッチの高調波の間隔Δfの逆数F=1/Δfの点に鋭いピークを持つスペクトル波形が得られる(図4(c)参照)。ピッチ検出手段27は、このピークの位置Fを検出することによって、ピッチの基本周波数f=Δf/2=F/2を検出する。
また、ピッチ検出手段27は、スペクトル波形X(f)から、入力音声データxin(t)が有声音か無声音かを判別する。有声音の場合には、ノイズフラグ信号Vnoiseとして0を出力する。無声音の場合にはノイズフラグ信号Vnoiseとして1を出力する。なお、有声音と無声音の判別は、スペクトル波形X(f)の傾き検出によって行われる。図5は有声音「あ」のフォルマント特性を示す図であり、図6は無声音「す」の自己相関及びケプストラム波形並びに周波数特性を示す図である。有声音は、図5のように、スペクトル波形X(f)は、全体的に低周波側が大きく高周波側に向かって小さくなるようなフォルマント特性を示す。それに対して、無声音は、図6のように、全体的に高周波側に向かって大きくなるような周波数特性を示す。したがって、スペクトル波形X(f)の全体的な傾きを検出することによって、入力音声データxin(t)が有声音か無声音かを判別することができる。
尚、入力音声データxin(t)が無声音の場合、ピッチが存在しないので、ピッチ検出手段27が出力するピッチの基本周波数fは無意味な値となる。
BPF28は、通過帯域を外部から設定可能な狭帯域のバンドパスフィルタが使用される。BPF28は、ピッチ検出手段27により検出されるピッチの基本周波数fを通過帯域の中心周波数として設定する(図4(d)参照)。そして、BPF28は、入力音声データxin(t)をフィルタリングし、ピッチの基本周波数fのほぼ正弦波状の波形を出力する(図4(e)参照)。
周波数カウンタ29は、BPF28が出力するほぼ正弦波状の波形のゼロクロス点の時間間隔をカウントすることにより、ピッチの基本周期T=1/fを出力する。この検出されたピッチの基本周期Tが入力ピッチ検出手段21の出力信号(以下「基本周波数信号」)として出力される(図4(f)参照)。
ピッチ平均手段22は、ピッチ検出手段27が出力するピッチの基本周期信号Tを平均化するものであり、通常のローパスフィルタ(Low Pass Filter:以下「LPF」という。)が使用される。ピッチ平均手段22により、基本周期信号Vpitchが平滑化され、音素内では時間的にほぼ一定の信号となる。この平滑化された基本周期が基準周期T(基準周波数f=1/T)として使用される(図4(g)参照)。
周波数シフタ23は、入力音声データxin(t)のピッチ周波数を基準周波数fに近づける方向にシフトさせることにより、音声信号のピッチ周期を等化する。
出力ピッチ検出手段24は、周波数シフタ23より出力される出力音声データ(以下「ピッチ等化音声データ」という。)xout(t)から、当該ピッチ等化音声データxout(t)に含まれるピッチの基本周期T’を検出する。この出力ピッチ検出手段24も、基本的に入力ピッチ検出手段21と同様の構成とすることができる。本実施例の場合、出力ピッチ検出手段24は、BPF31及び周波数カウンタ32を備えている。
BPF31は、通過帯域を外部から設定可能な狭帯域のBPFが使用される。BPF31は、ピッチ検出手段27により検出されるピッチの基本周波数fを通過帯域の中心周波数として設定する。そして、BPF31は、ピッチ等化音声データxout(t)をフィルタリングし、ピッチの基本周波数f’のほぼ正弦波状の波形を出力する。周波数カウンタ32は、BPF31が出力するほぼ正弦波状の波形のゼロクロス点の時間間隔をカウントすることにより、ピッチの基本周期T’=1/f’を出力する。この検出されたピッチの基本周期T’が出力ピッチ検出手段24の出力信号として出力される。
残差演算手段25は、出力ピッチ検出手段24が出力する基本周期T’からピッチ平均手段22が出力する基準周期Tを引いた残差周期ΔTpitchを出力する。この残差周期ΔTpitchは、PIDコントローラ26を介して周波数シフタ23に入力される。周波数シフタ23は、残差周波数1/ΔTpitchに比例して、入力音声データのピッチ周波数を基準周波数fに近づける方向にシフトさせる。
尚、PIDコントローラ26は、直列接続されたアンプ34及び抵抗20、並びに、アンプ34に対して並列接続されたコンデンサ36から構成されている。このPIDコントローラ26は、周波数シフタ23、出力ピッチ検出手段24、及び残差演算手段25からなるフィードバックループの発振を防止するためのものである。
尚、図3では、PIDコントローラ26は、アナログ回路表示しているが、デジタル回路で構成してもよい。
図7は周波数シフタ23の内部構成を表す図である。周波数シフタ23は、発信器41、変調器42、BPF43、電圧制御発信器(Voltage Controlled Oscillator:以下「VCO」という。)44、及び復調器45を備えている。
発信器41は、入力音声データxin(t)の周波数変調を行うための一定周波数の変調キャリア信号Cを出力する。通常、音声信号の帯域は8kHz程度である(図7(i)参照)。したがって、発信器41が発生する変調キャリア信号Cの周波数(以下「変調キャリア周波数」という。)としては、通常は20kHz程度のものが使用される。
変調器42は、発信器41が出力する変調キャリア信号Cを入力音声データxin(t)で周波数変調し、被変調信号を生成する。この被変調信号は、変調キャリア周波数を中心として、その両側に音声信号の帯域と同じバンド幅の側波帯(上側波帯及び下側波帯)を有する信号である(図7(ii)参照)。
BPF43は、変調キャリア周波数を下限遮断周波数とし、入力音声データの帯域幅よりも大きいバンド幅の通過域を有するBPFである。これにより、BPF43から出力される被変調信号は、上側波帯のみが切り出された信号となる(図7(iii)参照)。
VCO44は、発信器41が出力する変調キャリア信号Cと同じ周波数の信号を、PIDコントローラ26を介して残差演算手段25から入力される残差周期ΔTpitchの信号(以下「残差周期信号」という。)ΔVpitchにより周波数を変調して得られる信号(以下「復調キャリア信号」という。)を出力する。
復調器45は、BPF43が出力する上側波帯のみの被変調信号を、VCO44が出力する復調キャリア信号により復調し、音声信号を復元する(図7(iv)参照)。このとき、復調キャリア信号は、残差周期信号で変調されている。そのため、被変調信号を復調する際に、入力音声データxin(t)のピッチ周波数の基準周波数fからのずれが消去される。すなわち、入力音声データxin(t)のピッチ周期は、基準周期Tに等化される。
図8は、周波数シフタ23の内部構成の他の例を表す図である。図8においては、図7の発信器41とVCO44とを入れ替えた構成とされている。この構成によっても、図7の場合と同様に、入力音声データxin(t)のピッチ周期は、基準周期Tに等化することができる。
図9は、図1の音声復号器5の構成を表すブロック図である。音声復号器5は、音声符号化器2により符号化された音声信号を復号する装置である。音声復号器5は、ピッチ等化波形復号器51、逆量子化器52、シンセサイザ53、ピッチ情報復号器54、ピッチ周波数検出手段55、差分器56、加算器57、周波数シフタ58、及び出力切替手段59を備えている。
音声復号器5には、符号化特徴データ及び符号化ピッチデータが入力される。符号化特徴データは、図2のピッチ等化波形符号化器14から出力される符号化特徴データである。符号化ピッチデータは、図2のピッチ情報符号化器16から出力される符号化ピッチデータである。
ピッチ等化波形復号器51は、符号化特徴データを復号し、量子化後の各サブバンドの特徴データ(以下「量子化特徴データ」という。)を復元する。逆量子化器52は、この量子化特徴データを逆量子化し、n個のサブバンドの特徴データX(f)={X(f),X(f),…,X(f)}を復元する。
シンセサイザ53は、特徴データX(f)を逆変形離散コサイン変換(Inverse Modified Discrete Cosine Transform:以下「IMDCT」という。)し、1ピッチ区間の時系列データ(以下「等化音声信号」という。)xeq(t)を生成する。ピッチ周波数検出手段55は、この等化音声信号xeq(t)のピッチ周波数を検出し等化ピッチ周波数信号Veqとして出力する。
一方、ピッチ情報復号器54は、符号化ピッチデータを復号することにより、基準周波数信号AVpitch及び残差周波数信号ΔVpitchを復元する。差分器56は、基準周波数信号AVpitchから等化ピッチ周波数信号Veqを差し引いた差分を基準周波数変化信号ΔAVpitchとして出力する。加算器57は、残差周波数信号ΔVpitchと基準周波数変化信号ΔAVpitchとを加算してこれを修正残差周波数信号ΔVpitch”として出力する。
周波数シフタ58は、図7又は図8に示した周波数シフタ23と同様の構成を有する。この場合、入力端子Inには等化音声信号xeq(t)が入力され、VCO44には修正残差周波数信号ΔVpitch”が入力される。VCO44は発信器41が出力する変調キャリア信号Cと同じキャリア周波数の信号を、加算器57から入力される修正残差周波数信号ΔVpitch”により周波数変調して得られる信号(以下「復調キャリア信号」という。)を出力するが、この場合、復調キャリア信号の周波数は、キャリア周波数に残差周波数を加えた周波数となる。
これにより、周波数シフタ58において等化音声信号xeq(t)の各ピッチ区間のピッチ周期に揺らぎ成分が加えられ、音声信号xres(t)が復元される。
出力切替手段59は、部分音声検索手段6から入力される切替信号に従って、逆量子化器52が生成する特徴データX(f)の出力先を、シンセサイザ53又は部分音声検索手段6に切り替える。具体的には、部分音声検索動作を行う場合には、特徴データX(f)の出力先は部分音声検索手段6に切り替えられる。一方、検索対象音声データを外部に出力する場合には、特徴データX(f)の出力先はシンセサイザ53に切り替えられる。
図10は、図1の部分音声検索手段6の構成を表すブロック図である。部分音声検索手段6は、動作切替手段61、部分音声選択手段62、区間分割手段63,64、特徴量尺度演算手段65、音素列尺度演算手段66、総合尺度演算手段67、及び一致位置判定手段68を備えている。
動作切替手段61は、音声検索装置1の動作を、音声記憶手段3に対する検索対象音声データの入出力動作、又は部分音声検索手段6による部分音声検索動作に切り替える切替信号を出力する。
部分音声選択手段62は、音声記憶手段3に記憶されている検索対象特徴データ(正確には、符号化された検索対象特徴データ)の中から、部分音声データを選択するためのデータ選択信号を出力する。このデータ選択信号は、データ読出手段4に入力される。データ読出手段4は、データ選択信号に従って、音声記憶手段3に記憶されている検索対象特徴データを選択し読み出す。
区間分割手段63は、音声符号化器2のアナライザ19から入力されるクエリー音声の特徴データ(サブバンド波形)を、音素ラベリング処理手段17から入力されるクエリー音声の音素ラベルデータの時間区間の情報に従って、音素区間ごとに分割する。そして、それぞれの音素区間ごとに、特徴データを平均化し、平均値の時系列データとして特徴量尺度演算手段65に出力する。
区間分割手段64は、音声復号器5の逆量子化器52から入力される検索対象音声の特徴データ(サブバンド波形)を、データ読出手段4から入力される検索対象音声の音素ラベルデータの時間区間の情報に従って、音素区間ごとに分割する。そして、それぞれの音素区間ごとに、特徴データを平均化し、平均値の時系列データとして特徴量尺度演算手段65に出力する。
特徴量尺度演算手段65は、区間分割手段63,64から入力される特徴データの間の距離尺度D(X,X)を演算する。ここで、距離尺度は、特徴データを構成する各サブバンド波形の相関係数の線形和として表される。
すなわち、クエリー音声の特徴データをX(f)、検索対象音声の特徴データをX(f)とし、それぞれ式(5)(6)で表す。
Figure 0004961565
特徴データX(f),X(f)の各サブバンド要素の相関係数は式(7)により表される。ここで、tはj番目の音素区間を表す。また、Xq,fi(t)は、j番目の音素区間における特徴データXq,fi(t)の時間平均値、Xo,fi(t)は、j番目の音素区間における特徴データXo,fi(t)を時間平均値である。
Figure 0004961565
本実施例1においては、特徴データの間の距離尺度D(X,X)を式(10)により定義する。
Figure 0004961565
ここで、wは重み係数である。重み係数wは、適宜設定される。
音素列尺度演算手段66は、音声符号化器2の音素ラベリング処理手段17からクエリー音声の音素ラベルデータが入力されるとともに、データ読出手段4から検索対象音声の音素ラベルデータが入力される。音素列尺度演算手段66は、これらの音素ラベルデータの距離尺度Dを所定の音素間距離尺度表を用いて演算する。ここで、音素間距離尺度表とは、すべての2つの音素の組み合わせに対して2つの音素間の距離尺度をテーブルとして表したものである。
総合尺度演算手段67は、特徴量尺度演算手段65が算出する特徴データの間の距離尺度D(X,X)と音素列尺度演算手段66が算出する音素ラベルデータの距離尺度Dの線形和をとることによって、総合距離尺度Dを演算する。すなわち、総合距離尺度Dは、式(11)により表される。
Figure 0004961565
ここで、W,Wは重み係数であり、適宜決められる。
一致位置判定手段68は、距離尺度Dが所定の閾値Dth以下であるか否かを判定し、D≦Dthの場合には、当該部分データを選択するデータ選択信号を出力する。
以上のように構成された本実施例の音声検索装置1について、以下その動作を説明する。
〔1〕検索対象音声データの蓄積動作
まず、検索対象音声データを音声記憶手段3に蓄積する際の動作について説明する。この場合、部分音声検索手段6の動作切替手段61は、切替信号として検索対象音声データの入出力動作を表すレベル(例えばHレベル)を出力する。これにより、音声符号化器2の出力切替手段12aは、アナライザ19が生成する特徴データX(f)を量子化器13に出力する。音声符号化器2の出力切替手段12bは、音素ラベリング処理手段17が生成する音素ラベルデータを音声記憶手段3に出力する。また、音声復号器5の出力切替手段59は、逆量子化器52が生成する特徴データX(f)をシンセサイザ53に出力する。
まず、検索対象音声データとして入力音声データxin(t)が音声符号化器2へ入力されると、ピッチ周期等化手段10の入力ピッチ検出手段21は、入力音声データxin(t)が有声音か無声音かを判別してノイズフラグ信号Vnoiseを出力端子OUT_4へ出力するとともに、入力音声データxin(t)からピッチ周波数を検出し、基本周波数信号Vpitchをピッチ平均手段22に出力する。ピッチ平均手段22は、基本周波数信号Vpitchを平均化し(この場合、LPFを使用するので加重平均となる。)、これを基準周波数信号AVpitchとして出力する。この基準周波数信号AVpitchは、出力端子OUT_3から出力されるとともに、残差演算手段25に入力される。
一方、周波数シフタ23は、入力音声データxin(t)の周波数をシフトさせ、ピッチ等化音声データxout(t)として出力端子Out_1へ出力する。初期状態においては、残差周波数信号ΔVpitchは0(リセット状態)であり、周波数シフタ23は、入力音声データxin(t)がそのままピッチ等化音声データxout(t)として出力端子Out_1へ出力される。
次に、出力ピッチ検出手段24は、周波数シフタ23が出力する出力音声データのピッチ周波数f’を検出する。検出されたピッチ周波数f’は、ピッチ周波数信号Vpitch’として残差演算手段25に入力される。
残差演算手段25は、ピッチ周波数信号Vpitch’から基準周波数信号AVpitchを差し引くことにより、残差周波数信号ΔVpitchを生成する。この残差周波数信号ΔVpitchは、出力端子Out_2へ出力されるとともに、PIDコントローラ26を介して周波数シフタ23へ入力される。
周波数シフタ23は、PIDコントローラ26を介して入力される残差周波数信号ΔVpitchに比例して、周波数のシフト量を設定する。この場合、残差周波数信号ΔVpitchが正値であれば、残差周波数信号ΔVpitchに比例した量だけ周波数を下げるようにシフト量が設定される。残差周波数信号ΔVpitchが負値であれば、残差周波数信号ΔVpitchに比例した量だけ周波数を上げるようにシフト量が設定される。
このようなフィードバック制御により、入力音声データxin(t)のピッチ周期は、常に基準周期1/fに維持され、ピッチ等化音声データxout(t)のピッチ周期は等化される。
このように、ピッチ周期等化手段10において、入力音声データxin(t)に含まれる情報は、
(a)有声音か無声音かを示す情報;
(b)1ピッチ区間の音声波形を表す情報;
(c)基準ピッチ周波数の情報;
(d)各ピッチ区間のピッチ周波数の基準ピッチ周波数からの偏倚量を表す残差周波数情報;
に分離される。(a)〜(d)の情報は、それぞれ、ノイズフラグ信号Vnoise、ピッチ周期が基準周期1/f(入力音声データの過去のピッチ周波数の加重平均の逆数)に等化されたピッチ等化音声データxout(t)、基準周波数信号AVpitch、及び残差周波数信号ΔVpitchとして出力される。ノイズフラグ信号Vnoiseは出力端子Out_4から出力され、ピッチ等化音声データxout(t)は出力端子Out_1から出力され、基準周波数信号AVpitchは出力端子Out_3から出力され、残差周波数信号ΔVpitchは出力端子Out_2から出力される。
ピッチ等化音声データxout(t)は、男女差、個人差、音素、感情及び会話内容によって変化するピッチ周波数のジッタ成分や変化成分が除去された音声信号であり、抑揚のない平坦的・機械的な音声信号である。したがって、同じ有声音のピッチ等化音声データxout(t)は、男女差、個人差、音素、感情又は会話内容に無関係にほぼ同じ波形が得られるため、ピッチ等化音声データxout(t)を比較することによって有声音についてのマッチングを精度よく行うことが可能となる。
また、有声音のピッチ等化音声データxout(t)はピッチ周期が基準周期1/fに等化されているので、一定数のピッチ区間でサブバンド符号化を行うことにより、ピッチ等化音声データxout(t)の周波数スペクトルXout(f)は、基準周波数の高調波成分のサブバンド成分に集約される。音声はピッチ間の波形相関が大きいので、各サブバンド成分のスペクトル強度の時間変化は緩やかである。したがって、各サブバンド成分を符号化し、その他の雑音成分を省略することにより、高効率の符号化が可能となる。また、基準周波数信号AVpitch、及び残差周波数信号ΔVpitchは、音声の性質上、同一音素内で狭レンジでしか変動しないため、高効率の符号化が可能である。したがって、全体として入力音声データxin(t)の有声音成分を高効率で符号化することが可能となる。
次に、リサンプラ18は、各ピッチ区間において、基準周波数信号AVpitchを一定のリサンプリング数nで除算することによりリサンプリング周期を計算する。そして、ピッチ等化音声データxout(t)をそのリサンプリング周期によりリサンプリングし、等標本数音声データxeq(t)として出力する。これにより、ピッチ等化音声データxout(t)の1ピッチ区間の標本化数が一定の値とされる。
次に、アナライザ19は、等標本数音声データxeq(t)を、一定のピッチ区間数のサブフレームに区分する。そして、サブフレーム毎に変形離散コサイン変換を行うことによって周波数スペクトル信号X(f)を生成する。
ここで、1つのサブフレームの長さは、1ピッチ周期の整数倍とされる。本実施例では、サブフレームの長さは1ピッチ周期(標本化数n)とする。従って、n個の周波数スペクトル信号{X(f),X(f),…,X(f)}が出力される。周波数fは基準周波数の第1高調波、周波数fは基準周波数の第2高調波、周波数fは基準周波数の第n高調波である。
このように、1ピッチ周期の整数倍のサブフレームに分割して各サブフレームを直交変換することによりサブバンド符号化を行うことで、音声波形データの周波数スペクトル信号は基準周波数の高調波のスペクトルに集約される。そして、音声の性質上、同一の音素内における連続するピッチ区間の波形は類似する、従って、隣接するサブフレーム間で基準周波数の高調波成分のスペクトルは類似する、従って、符号化効率は高められる。
次に、量子化器13は、周波数スペクトル信号X(f)を量子化する。ここで、量子化器13はノイズフラグ信号Vnoiseを参照し、ノイズフラグ信号Vnoiseが0(有声音)の場合と1(無声音)の場合とで量子化曲線を切り換える。
ノイズフラグ信号Vnoiseが0(有声音)の場合、量子化曲線は、図2(a)に示したように、周波数が高くなるに従って量子化ビット数が減少するような量子化曲線とされる。これは、有声音の周波数特性は、図5に示したように低周波数域で大きく高周波域になるに従って減少する特性を有することに対応させたものである。
一方、ノイズフラグ信号Vnoiseが1(無声音)の場合、量子化曲線は、図2(b)に示したように、周波数が高くなるに従って量子化ビット数が増加するような量子化曲線とされる。これは、無声音の周波数特性は、図6に示したように高周波域になるに従って増加する特性を有することに対応させたものである。
この量子化曲線の切り換えにより、有声音か無声音かに対応して最適な量子化曲線が選択される。
尚、補足として、量子化ビット数について説明する。量子化器13による量子化のデータフォーマットは図11(a)(b)に示したように、小数点以下の実数部(FL)及び2の冪乗を表す指数部(EXP)によって表現される。但し、0以外の数を表す場合において、実数部(FL)の先頭の1ビットは必ず1であるように指数部(EXP)が調整されるものとする。
例えば、実数部(FL)が4ビット、指数部(EXP)が2ビットの場合において、4ビットで量子化する場合、及び2ビットで量子化する場合は、次のようになる(図11(c),(d)参照)。
(1)4ビットで量子化する場合
(例1) X(f)=8=[1000](但し、[ ]は2進数表記を表す。)は、
FL=[1000],EXP=[100]
(例2) X(f)=7=[0100]は、
FL=[1110],EXP=[011]
(例3) X(f)=3=[1000]は、
FL=[1100],EXP=[010]
(2)2ビットで量子化する場合
(例1) X(f)=8=[1000]は、
FL=[1000],EXP=[100]
(例2) X(f)=7=[0100]は、
FL=[1100],EXP=[011]
(例3) X(f)=3=[1000]は、
FL=[1100],EXP=[010]
すなわち、nビットで量子化する場合は、実数部(FL)の先頭からnビットを残し、残りのビットは0とするものとする(図11(d)参照)。
次に、ピッチ等化波形符号化器14は、量子化器13が出力する量子化された周波数スペクトル信号X(f)をエントロピ符号化法により符号化し、符号化特徴データを出力する。また、ピッチ等化波形符号化器14は、符号化特徴データの符号量(ビット数)を差分ビット演算器15に出力する。差分ビット演算器15は、符号化特徴データの符号量から所定の目的ビット数を減算し、差分ビット数を出力する。量子化器13は、差分ビット数に応じて、有声音に対する量子化曲線を平行移動的に上下させる。
例えば、{f,f,f,f,f,f}に対する量子化曲線が{6,5,4,3,2,1}であったとし、差分ビット数として2が入力されたとすると、量子化器13は、量子化曲線を下方に2だけ平行移動する。その結果、量子化曲線は{4,3,2,1,0,0}となる。また、差分ビット数として−2が入力されたとすると、量子化器13は、量子化曲線を上方に2だけ平行移動する。その結果、量子化曲線は{8,7,6,5,4,3}となる。
このように有声音の量子化曲線を上下に変化させることによって、各サブフレームの符号化特徴データの符号量が目的ビット数程度に調整される。
一方、これに並行して、ピッチ情報符号化器16は、基準周波数信号AVpitch及び残差周波数信号ΔVpitchを符号化する。
一方、音素ラベリング処理手段17は、入力音声データxin(t)を音素区間に区分し、各音素区間に対して音素ラベリングを行う。音素区間の分割方法や音素ラベリングの方法に関しては、音声認識の分野において多くの技術が公知であり、ここではそれら公知の方法を用いることができる。音素ラベリング処理手段17は、音素ラベリングにより得られた音素ラベルと各音素ラベルに対する時間区間を表す音素区間の情報を、音素ラベルデータとして出力する。
以上のようにして生成された、符号化特徴データ,符号化ピッチデータ,及び音素ラベルデータは、音声記憶手段3に出力され、保存される。
〔2〕音声復号器の動作
データ読出手段4が、音声記憶手段3から符号化特徴データ及び符号化ピッチデータを読み出すと、これらのデータは音声復号器5に入力される。
音声復号器5のピッチ等化波形復号器51は、符号化特徴データを復号し、量子化後の各サブバンドの周波数スペクトル信号(以下「量子化周波数スペクトル信号」という。)を復元する。逆量子化器52は、この量子化周波数スペクトル信号を逆量子化し、n個のサブバンドの周波数スペクトル信号X(f)={X(f),X(f),…,X(f)}を復元する。
シンセサイザ53は、周波数スペクトル信号X(f)を逆変形離散コサイン変換(Inverse Modified Discrete Cosine Transform:以下「IMDCT」という。)し、1ピッチ区間の時系列データ(以下「等化音声信号」という。)xeq(t)を生成する。ピッチ周波数検出手段55は、この等化音声信号xeq(t)のピッチ周波数を検出し等化ピッチ周波数信号Veqとして出力する。
一方、ピッチ情報復号器54は、符号化ピッチデータを復号することにより、基準周波数信号AVpitch及び残差周波数信号ΔVpitchを復元する。差分器56は、基準周波数信号AVpitchから等化ピッチ周波数信号Veqを差し引いた差分を基準周波数変化信号ΔAVpitchとして出力する。加算器57は、残差周波数信号ΔVpitchと基準周波数変化信号ΔAVpitchとを加算してこれを修正残差周波数信号ΔVpitch”として出力する。
周波数シフタ58は、図7又は図8に示した周波数シフタ23と同様の構成を有する。この場合、入力端子Inには等化音声信号xeq(t)が入力され、VCO44には修正残差周波数信号ΔVpitch”が入力される。VCO44は発信器41が出力する変調キャリア信号Cと同じキャリア周波数の信号を、加算器57から入力される修正残差周波数信号ΔVpitch”により周波数変調して得られる信号(以下「復調キャリア信号」という。)を出力するが、この場合、復調キャリア信号の周波数は、キャリア周波数に残差周波数を加えた周波数となる。
これにより、周波数シフタ58において等化音声信号xeq(t)の各ピッチ区間のピッチ周期に揺らぎ成分が加えられ、音声信号xres(t)が復元される。
〔3〕クエリー音声データによる部分音声データの検索動作
次に、クエリー音声データによる部分音声データの検索動作について説明する。この場合、部分音声検索手段6の動作切替手段61は、切替信号として部分音声検索動作を表すレベル(例えばLレベル)を出力する。これにより、音声符号化器2の出力切替手段12aは、アナライザ19が生成する特徴データX(f)を部分音声検索手段6に出力する。音声符号化器2の出力切替手段12bは、音素ラベリング処理手段17が生成する音素ラベルデータを部分音声検索手段6に出力する。また、音声復号器5の出力切替手段59は、逆量子化器52が生成する特徴データX(f)を部分音声検索手段6に出力する。
まず、クエリー音声データは、入力音声データxin(t)として音声符号化器2に入力される。
ピッチ周期等化手段1では、上述のように、入力音声データxin(t)の有声音のピッチ周期を等化し、ピッチ等化音声データxout(t)として出力端子Out_1から出力する。また、特徴データ生成手段19は、上述のように、ピッチ等化音声データxout(t)を短時間スペクトルの時系列からなる特徴データX(f)に変換する。特徴データX(f)は、出力切替手段12aを介して部分音声検索手段6へ出力される。
一方、音素ラベリング処理手段17では、上述のように、入力音声データxin(t)を音素区間に区分し、各音素区間に対して音素ラベリングを行う。そして、音素ラベルと音素区間の情報を、音素ラベルデータとして出力する。
次に、部分音声検索手段6の部分音声選択手段62は、音声記憶手段3に記憶された符号化特徴データ,符号化ピッチデータ,及び音素ラベルデータを、データの先頭から順に順次読み出すためのデータ選択信号を出力する。このとき、読み出す部分データの長さは、クエリー音声データと同じ音素長の長さとされる。データ読出手段4は、データ選択信号に従って、音声記憶手段3から部分データを読み出す。
データ読出手段4により読み出された音素ラベルデータは、部分音声検索手段6に入力される。
一方、データ読出手段4により読み出された符号化特徴データ及び符号化ピッチデータの部分データは、音声復号器5に入力される。音声復号器5では、上述のように、ピッチ等化波形復号器51で符号化特徴データを復号し、逆量子化器52で逆量子化を行うことにより、特徴データを生成し、部分音声検索手段6に出力する。
以下、音声復号器5から部分音声検索手段6に入力される検索対象特徴データの部分データを「選択特徴データ」と呼ぶ。
部分音声検索手段6においては、音声符号化器2からクエリー音声の特徴データ(以下「クエリー特徴データ」という。)及び音素ラベルデータが入力されると、区間分割手段63は、クエリー特徴データを音素区間ごとに平均化し、平均値の時系列データに変換する。この場合、音素ラベルデータに含まれる音素区間の情報に基づき、クエリー特徴データを時間区間に区分し、各時間区間で平均値をとればよい。この平均値の時系列データは、特徴量尺度演算手段65に入力される。
また、音声復号器5及びデータ読出手段4から選択特徴データ及び音素ラベルデータが入力されると、区間分割手段64は、選択特徴データを音素区間ごとに平均化し、平均値の時系列データに変換する。この平均値の時系列データは、特徴量尺度演算手段65に入力される。
特徴量尺度演算手段65は、区間分割手段63及び区間分割手段64から入力される平均値の時系列データの間の距離尺度D(X,X)を式(10)に従って算出する。
一方、音素列尺度演算手段66は、音声符号化器2から入力されるクエリー音声の音素ラベルデータとデータ読出手段から入力される検索対象音声の音素ラベルデータとの間の距離尺度Dを音素間距離尺度表を用いて演算する。
総合尺度演算手段67は、特徴量尺度演算手段65が算出する特徴データの間の距離尺度D(X,X)と音素列尺度演算手段66が算出する音素ラベルデータの距離尺度Dの線形和をとることによって、総合距離尺度Dを式(11)により演算する。
一致位置判定手段68は、距離尺度Dが所定の閾値Dth以下であるか否かを判定し、D≦Dthの場合には、当該部分データを選択するデータ選択信号を出力する。そして、動作切替手段61は、切替信号として部分音声検索動作を表すレベル(例えばLレベル)を出力する。
これにより、検索された検索対象データの部分データが、出力音声データとして出力される。
尚、本実施例は、音声情報と映像とが一体として記録されたマルチメディア・データベースにおける情報の検索においても適用することができる。
本発明は、音声データベースや音声情報を含むマルチメディア・データベース等において利用可能である。

Claims (19)

  1. 検索対象音声データの中から、クエリー音声データに一致又は類似する部分音声データを検索する音声検索装置であって、
    前記検索対象音声データの有声音のピッチ周期を等化したピッチ等化検索対象音声データの中から、音声の特徴量空間において、前記クエリー音声データの有声音のピッチ周期を等化したピッチ等化クエリー音声データに対する距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)である部分音声データを検索する部分音声検索手段
    を備えていることを特徴とする音声検索装置。
  2. 前記クエリー音声データの有声音のピッチ周期を等化することにより前記ピッチ等化クエリー音声データを生成するピッチ周期等化手段と、
    前記ピッチ等化クエリー音声データを特徴量の時系列データに変換したデータ(以下「クエリー特徴データ」という。)を生成する特徴データ生成手段と、
    を備え、
    前記部分音声検索手段は、前記ピッチ等化検索対象音声データに含まれる部分音声データのうち、その特徴量が、前記クエリー特徴データとの間の距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)であるものを検索すること
    を特徴とする請求項1記載の音声検索装置。
  3. 前記部分音声検索手段は、
    前記ピッチ等化検索対象音声データを特徴量の時系列データに変換した検索対象特徴データの中から、前記クエリー音声データと同じ音素長分の部分データ(以下「選択特徴データ」という。)を、選択位置を移動させながら順次選択する部分音声選択手段と、
    前記各選択特徴データと前記クエリー特徴データとの間の距離尺度(又は類似尺度)を演算する特徴量尺度演算手段と、
    前記距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)の場合、前記選択特徴データに対応する検索対象音声データ内の位置を出力する一致位置判定手段と、
    を備えていることを特徴とする請求項1又は2記載の音声検索装置。
  4. 前記検索対象特徴データを記憶する音声記憶手段
    を備えていることを特徴とする請求項3記載の音声検索装置。
  5. 前記検索対象音声データの有声音のピッチ周期を等化することにより前記ピッチ等化検索対象音声データを生成する第2のピッチ周期等化手段と、
    前記ピッチ等化検索対象音声データを特徴量の時系列データに変換することにより、前記検索対象特徴データを生成する第2の特徴データ生成手段と、
    を備えていることを特徴とする請求項3又は4記載の音声検索装置。
  6. 前記ピッチ周期等化手段(又は第2のピッチ周期等化手段)は、
    前記クエリー音声データ(又は前記検索対象音声データ)のピッチ周波数の検出を行うピッチ検出手段、
    前記ピッチ周波数と所定の基準周波数との差分を演算する残差演算手段、
    及び、前記差分が最小となるように、前記クエリー音声データ(又は前記検索対象音声データ)のピッチ周波数を等化する周波数シフタ
    を具備することを特徴とする請求項2又は5記載の音声検索装置。
  7. 前記検索対象特徴データ及び前記クエリー特徴データは、それぞれ、前記ピッチ等化検索対象音声データ及び前記ピッチ等化クエリー音声データを直交変換して得られるサブバンド・データの時系列であることを特徴とする請求項1乃至6の何れか一記載の音声検索装置。
  8. 前記クエリー特徴データを、音素区間ごとに平均化し、平均値の時系列データに変換する第1の区間分割手段と、
    前記検索対象特徴データを、音素区間ごとに平均化し、平均値の時系列データに変換する第2の区間分割手段と、
    を備え、
    前記特徴量尺度演算手段は、前記第1及び第2の区間分割手段が生成する平均値の時系列データの間の距離尺度(又は類似尺度)を演算すること
    を特徴とする請求項2又は5記載の音声検索装置。
  9. 前記クエリー音声データ(又は前記検索対象音声データ)に対して音素ラベリングを行うことによりクエリー音素列(又は検索対象音素列)を生成する音素ラベリング処理手段と、
    前記前記選択特徴データに対応する前記検索対象音素列と前記クエリー音素列との距離尺度(又は類似尺度)を決定する音素列尺度演算手段と、
    前記特徴量尺度演算手段が出力する特徴量の距離尺度(又は類似尺度)と、前記音素列尺度演算手段が出力する音素列の距離尺度(又は類似尺度)との線形和(以下「総合距離尺度(又は総合類似尺度)」という。)を算出する総合尺度演算手段と、
    を備え、
    前記一致位置判定手段は、前記総合距離尺度(又は総合類似尺度)が所定の閾値以下(又は所定の閾値以上)の場合、前記選択特徴データに対応する検索対象音声データ内の位置を出力すること
    を特徴とする請求項1乃至8の何れか一記載の音声検索装置。
  10. 検索対象音声データの中から、クエリー音声データに一致又は類似する部分音声データを検索する音声検索方法であって、
    前記検索対象音声データの有声音のピッチ周期を等化したピッチ等化検索対象音声データの中から、音声の特徴量空間において、前記クエリー音声データの有声音のピッチ周期を等化したピッチ等化クエリー音声データに対する距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)である部分音声データを検索する部分音声検索ステップ
    を有することを特徴とする音声検索方法。
  11. 前記クエリー音声データの有声音のピッチ周期を等化することにより前記ピッチ等化クエリー音声データを生成するピッチ周期等化ステップと、
    前記ピッチ等化クエリー音声データを特徴量の時系列データに変換したデータ(以下「クエリー特徴データ」という。)を生成する特徴データ生成ステップと、
    を備え、
    前記部分音声検索ステップにおいては、前記ピッチ等化検索対象音声データに含まれる部分音声データのうち、その特徴量が、前記クエリー特徴データとの間の距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)であるものを検索すること
    を特徴とする請求項10記載の音声検索方法。
  12. 前記部分音声検索ステップにおいては、
    前記ピッチ等化検索対象音声データを特徴量の時系列データに変換した検索対象特徴データの中から、前記クエリー音声データと同じ音素長分の部分データ(以下「選択特徴データ」という。)を、選択位置を移動させながら順次選択する部分音声選択ステップと、
    前記各選択特徴データと前記クエリー特徴データとの間の距離尺度(又は類似尺度)を演算する特徴量尺度演算ステップと、
    前記距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)の場合、前記選択特徴データに対応する検索対象音声データ内の位置を出力する一致位置判定ステップと、
    を有することを特徴とする請求項10又は11記載の音声検索方法。
  13. 前記検索対象特徴データを記憶する音声記憶ステップ
    を備えていることを特徴とする請求項12記載の音声検索方法。
  14. 前記検索対象音声データの有声音のピッチ周期を等化することにより前記ピッチ等化検索対象音声データを生成する第2のピッチ周期等化ステップと、
    前記ピッチ等化検索対象音声データを特徴量の時系列データに変換することにより、前記検索対象特徴データを生成する第2の特徴データ生成ステップと、
    を有することを特徴とする請求項12又は13記載の音声検索方法。
  15. 前記ピッチ周期等化ステップ(又は第2のピッチ周期等化ステップ)においては、
    前記クエリー音声データ(又は前記検索対象音声データ)のピッチ周波数の検出を行うピッチ検出ステップと、
    前記ピッチ周波数と所定の基準周波数との差分を演算する残差演算ステップと、
    前記差分が最小となるように、前記クエリー音声データ(又は前記検索対象音声データ)のピッチ周波数を等化する周波数シフトステップと
    を具備することを特徴とする請求項11又は14記載の音声検索方法。
  16. 前記検索対象特徴データ及び前記クエリー特徴データは、それぞれ、前記ピッチ等化検索対象音声データ及び前記ピッチ等化クエリー音声データを直交変換して得られるサブバンド・データの時系列であることを特徴とする請求項10乃至15の何れか一記載の音声検索方法。
  17. 前記クエリー特徴データを、音素区間ごとに平均化し、平均値の時系列データに変換する第1の区間分割ステップと、
    前記検索対象特徴データを、音素区間ごとに平均化し、平均値の時系列データに変換する第2の区間分割ステップと、
    を有し、
    前記特徴量尺度演算ステップにおいては、前記第1及び第2の区間分割ステップにおいて生成される平均値の時系列データの間の距離尺度(又は類似尺度)を演算すること
    を特徴とする請求項11又は14記載の音声検索方法。
  18. 前記クエリー音声データ(又は前記検索対象音声データ)に対して音素ラベリングを行うことによりクエリー音素列(又は検索対象音素列)を生成する音素ラベリングステップと、
    前記選択特徴データに対応する前記検索対象音素列と前記クエリー音素列との距離尺度(又は類似尺度)を決定する音素列尺度演算ステップと、
    前記特徴量尺度演算ステップにおいて出力される特徴量の距離尺度(又は類似尺度)と、前記音素列尺度演算ステップにおいて出力される音素列の距離尺度(又は類似尺度)との線形和(以下「総合距離尺度(又は総合類似尺度)」という。)を算出する総合尺度演算ステップと、
    を備え、
    前記一致位置判定ステップにおいては、前記総合距離尺度(又は総合類似尺度)が所定の閾値以下(又は所定の閾値以上)の場合、前記選択特徴データに対応する検索対象音声データ内の位置を出力すること
    を特徴とする請求項10乃至17の何れか一記載の音声検索方法。
  19. コンピュータに読み込んで実行することにより、コンピュータを請求項1乃至8の何れか一の音声検索装置として機能させることを特徴とするプログラム。
JP2007529275A 2005-08-01 2006-08-01 音声検索装置及び音声検索方法 Active JP4961565B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007529275A JP4961565B2 (ja) 2005-08-01 2006-08-01 音声検索装置及び音声検索方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005223155 2005-08-01
JP2005223155 2005-08-01
JP2007529275A JP4961565B2 (ja) 2005-08-01 2006-08-01 音声検索装置及び音声検索方法
PCT/JP2006/315228 WO2007015489A1 (ja) 2005-08-01 2006-08-01 音声検索装置及び音声検索方法

Publications (2)

Publication Number Publication Date
JPWO2007015489A1 JPWO2007015489A1 (ja) 2009-02-19
JP4961565B2 true JP4961565B2 (ja) 2012-06-27

Family

ID=37708770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007529275A Active JP4961565B2 (ja) 2005-08-01 2006-08-01 音声検索装置及び音声検索方法

Country Status (2)

Country Link
JP (1) JP4961565B2 (ja)
WO (1) WO2007015489A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5792994B2 (ja) * 2011-05-18 2015-10-14 日本放送協会 音声比較装置及び音声比較プログラム
JP6907859B2 (ja) 2017-09-25 2021-07-21 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
JP6831767B2 (ja) * 2017-10-13 2021-02-17 Kddi株式会社 音声認識方法、装置およびプログラム
CN111145728B (zh) * 2019-12-05 2022-10-28 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5999500A (ja) * 1982-11-29 1984-06-08 日本電信電話株式会社 音声認識方法
JP2834471B2 (ja) * 1989-04-17 1998-12-09 日本電信電話株式会社 発音評価法
JP3252282B2 (ja) * 1998-12-17 2002-02-04 松下電器産業株式会社 シーンを検索する方法及びその装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5999500A (ja) * 1982-11-29 1984-06-08 日本電信電話株式会社 音声認識方法
JP2834471B2 (ja) * 1989-04-17 1998-12-09 日本電信電話株式会社 発音評価法
JP3252282B2 (ja) * 1998-12-17 2002-02-04 松下電器産業株式会社 シーンを検索する方法及びその装置

Also Published As

Publication number Publication date
JPWO2007015489A1 (ja) 2009-02-19
WO2007015489A1 (ja) 2007-02-08

Similar Documents

Publication Publication Date Title
JP4599558B2 (ja) ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法
JP3557662B2 (ja) 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
McLoughlin Line spectral pairs
JP3840684B2 (ja) ピッチ抽出装置及びピッチ抽出方法
US6678655B2 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
US20150262587A1 (en) Pitch Synchronous Speech Coding Based on Timbre Vectors
JPH05346797A (ja) 有声音判別方法
US20070118370A1 (en) Methods and apparatuses for variable dimension vector quantization
JPS6336676B2 (ja)
JP3687181B2 (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
Vuppala et al. Improved consonant–vowel recognition for low bit‐rate coded speech
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
JP4961565B2 (ja) 音声検索装置及び音声検索方法
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
JP2002207499A (ja) 非常に低いビット・レートで作動する音声符号器のための韻律を符号化する方法
JP4407305B2 (ja) ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
Thirumuru et al. Improved vowel region detection from a continuous speech using post processing of vowel onset points and vowel end-points
WO2004088634A1 (ja) 音声信号圧縮装置、音声信号圧縮方法及びプログラム
Kos et al. Online speech/music segmentation based on the variance mean of filter bank energy
JP4213416B2 (ja) ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Addou et al. A noise-robust front-end for distributed speech recognition in mobile communications
Loni et al. Singing voice identification using harmonic spectral envelope
KR100764346B1 (ko) 구간유사도 기반의 자동 음악요약 방법 및 시스템
JPH0650440B2 (ja) Lsp型パタンマツチングボコ−ダ

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090605

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150