JP2011203480A

JP2011203480A - 音声認識装置、及びコンテンツ再生装置

Info

Publication number: JP2011203480A
Application number: JP2010070581A
Authority: JP
Inventors: Takashi Sudo; 隆須藤; Chikashi Sugiura; 千加志杉浦; Takehiko Isaka; 岳彦井阪
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-03-25
Filing date: 2010-03-25
Publication date: 2011-10-13
Anticipated expiration: 2030-03-25
Also published as: JP5166470B2

Abstract

【課題】入力信号の種類・音質に関わらず、高精度な音声認識結果を得ることができる音声認識装置及びコンテンツ再生装置を提供することができる。
【解決手段】入力信号について音声認識処理を実行する音声認識処理部４を具備する音声認識装置１０１を次のように構成する。すなわち、前記入力信号の音質を推定する音質推定部２と、前記音質推定部２による推定結果に基づいて前記音声認識処理部４による音声認識処理を制御する処理制御部３と、を音声認識装置１０１に具備させる。
【選択図】図１

Description

本発明は、多チャネルの入力音声信号について音声認識を行う音声認識装置及びコンテンツ再生装置に関する。

従来より、次のような音声認識技術が知られている。すなわち、まず事前に言語モデルと音響モデルとによってネットワークを動的に構築する。そして、音声認識処理対象の入力音声信号について特徴量抽出処理を行う。この特徴量抽出処理で抽出した特徴量に基づいて、上述の言語モデル及び音響モデルを参照して、尤度が最大となる経路を前記ネットワーク上で探索する。そして、この探索結果に該当するテキストを出力する。

近年、入力音声信号の種々の変動に対応可能にする為に、様々な技術が提案されている。例えば特許文献１には、雑音除去法とＨＭＭ合成法を併用することで、認識性の及び認識速度の向上を図っている音声認識技術が開示されている。

特開平１０−９７２７８号公報

ところで、現在、インターネット上の種々のコンテンツを再生して視聴する機会が増大している。インターネット上のコンテンツでは、その種類や音質に係るパラメータ（例えば上限周波数や雑音度合い等）が、コンテンツ毎に異なっている。

このような状況の下、入力信号の種類・音質に関わらず、常に高精度な音声認識結果を得ることができる音声認識技術が望まれている。

しかしながら、上述の特許文献１に開示されている技術を含む従来の音声認識技術では、入力信号のサンプリング周波数及び上限周波数は事前に固定的に定められている。さらに、従来の音声認識技術では、音声認識の認識率の低下を防ぐ為に、抽出された特徴量と音響モデルとは同じサンプリング周波数且つ同じ上限周波数とされている。この為、上限周波数が入力信号により異なるような場合には、充分な精度の音声認識結果を得ることができない。同様に、例えばＳＮ比（ＳＮＲ）や残響度合い等のような音質に係るパラメータが入力信号により異なる場合には、充分な精度の音声認識結果を得ることができない。

本発明は、前記の事情に鑑みて為されたものであり、入力信号の種類・音質に関わらず、高精度な音声認識結果を得ることができる音声認識装置及びコンテンツ再生装置を提供することを目的とする。

前記の目的を達成するために、本発明の第１の態様による音声認識装置は、
入力信号について音声認識処理を実行する音声認識処理部を具備する音声認識装置であって、
前記入力信号の音質を推定する音質推定部と、
前記音質推定部による推定結果に基づいて、前記音声認識処理部による音声認識処理を制御する制御部と、
を具備することを特徴とする。

前記の目的を達成するために、本発明の第２の態様によるコンテンツ再生装置は、
入力された映像データを、動画像データとオーディオデータとに分離する分離デコーダ部と、
前記オーディオデータについて音声認識処理を実行してテキストデータを生成する音声認識処理部と、
前記入力信号の音質を推定する音質推定部と、
前記音質推定部による推定結果に基づいて、前記音声認識処理部による音声認識処理を制御する制御部と、
前記動画像データに対して前記テキストデータを付加する字幕付加部と、
を具備することを特徴とする。

本発明によれば、入力信号の種類・音質に関わらず、高精度な音声認識結果を得ることができる音声認識装置及びコンテンツ再生装置を提供することができる。

本発明の第１実施形態に係る音声認識装置の一構成例を示す図。音質推定部の一構成例を示す図。帯域拡張既処理検出部の一動作例を説明する為の図であって、入力信号のパワースペクトルの周波数特性を示す図。上限周波数検出部の一動作例を説明する為の図であって、入力信号のパワースペクトルの周波数特性を示す図。処理制御部の一構成例を示す図。音声認識処理部４の一構成例を示す図。バンドパスフィルタによる処理の一例を示す図。第１変形例に係る音声認識処理の一構成例を示す図。第２変形例に係る音声認識処理の一構成例を示す図。本発明の第２実施形態に係るコンテンツ再生装置の一構成例を示す図。本発明の第２実施形態に係るコンテンツ再生装置が具備する音声認識部、字幕生成部、及び字幕付加部による処理のタイミングを時間軸に沿って示す図。本発明の第３実施形態に係るコンテンツ再生装置の一構成例を示す図。

以下、図面を参照して本発明の実施形態について説明する。

図１は、本発明の第１実施形態に係る音声認識装置の一構成例を示す図である。なお、本第１実施形態において“音声認識”とは、連続音素認識、単語認識、連続音声認識、及び大語彙連続音声認識（ディクテーション）等の何れをも含む概念としての“音声認識”を指している。

図１に示すように、本第１実施形態に係る音声認識装置１０１は、共通成分抽出部１と、音質推定部２と、処理制御部３と、音声認識処理部４と、を具備する。

前記共通成分抽出部１は、複数の入力チャネルの入力信号ｉｎ［ｎ，ｋ］（ｋ＝１，…，Ｋｉｎ）を入力として、複数の入力チャネルに共通に含まれる共通成分信号ｘ［ｎ］を抽出する。ここで、Ｋｉｎは入力チャネルの総数を示し、ｎは時刻を示している。ここで、入力信号ｉｎ［ｎ，ｋ］は、全てのチャネルでサンプリング周波数４８ｋＨｚであるとする。

なお、入力信号においては、一般に人間の肉声（以降、単に音声と称する）は共通成分信号として含まれることが多い。

前記音質推定部２は、共通成分抽出部１により抽出された共通成分信号ｘ［ｎ］について、その音質を推定する。この音質推定部２は、有音区間、制限周波数（本第１実施形態では、高周波数方向への帯域拡張を行う例を説明する為、以降では“上限周波数”と称する）、帯域拡張が既に実施されている信号であるか否か、残響度合い、及び雑音度合いを推定して算出する。これらの情報は、時々刻々と変化する入力信号ｉｎ［ｎ，ｋ］に応じて変化する。従って、音質推定部２は、入力信号ｉｎ［ｎ，ｋ］の変化に追従して、即時的（リアルタイム）にこれらの情報を推定して算出する。この音質推定部２による具体的な処理内容については後に詳述する。

前記処理制御部３は、音質推定部２による音質推定結果に基づいて、音声認識処理部４による処理を最適化する制御をリアルタイムに行う。この処理制御部３による具体的な処理内容については後に詳述する。

前記音声認識処理部４は、処理制御部３により周波数帯域毎に動作設定を制御されて音声認識処理を行う。この音声認識処理部４による具体的な処理内容については後に詳述する。

図２は、前記音質推定部２の一構成例を示す図である。図２に示すように、音質推定部２は、有音・無音判定部２１と、帯域拡張既処理検出部２２と、上限周波数検出部２３と、ＳＮＲ推定部２４と、残響度合推定部２５と、を有する。

前記有音・無音判定部２１は、共通成分抽出部１により抽出された共通成分信号ｘ［ｎ］について、信号成分（音声）が存在するか否かを検出し、有音或いは無音であることを示す有音無音情報を生成して処理制御部３へ出力する。なお、有音・無音判定の処理については公知の技術を用いる。

前記帯域拡張既処理検出部２２は、共通成分抽出部１により抽出された共通成分信号ｘ［ｎ］について、既に信号帯域拡張処理が施されているか否かを検出する。具体的には、この帯域拡張既処理検出部２２は、特定周波数近傍のパワースペクトルが大きく減衰しているか否かを検出することで、信号帯域拡張処理済みであるか否かを検出する。以下、図３を参照して帯域拡張既処理検出部２２の動作を詳細に説明する。図３は、帯域拡張既処理検出部２２の一動作例を説明する為の図であり、入力信号のパワースペクトルの周波数特性を示す図である。

すなわち、例えば図３に示す例では、帯域拡張既処理検出部２２は、特定周波数（図３に示す例では１１ｋＨｚ）近傍において、パワースペクトルが所定の閾値以下になるような極小値となっているか否かを検出する。そして、帯域拡張既処理検出部２２は、特定周波数（図３に示す例では１１ｋＨｚ）近傍のパワースペクトルが大きく減衰して、所定の閾値以下である極小値となっている場合にのみ、既処理（信号帯域拡張処理済み）であると判断する。

図３に示す例では、０ｋＨｚ〜１１ｋＨｚの範囲が、本来の信号が存在する周波数帯域である。従って、この場合には１１ｋＨｚが上限周波数であり、１１ｋＨｚ以上の周波数帯域は既に信号帯域拡張処理が行われることで帯域拡張された周波数帯域であると判断する。当然ながら、既処理（信号帯域拡張処理済み）であると判断された信号は、本来の上限周波数よりも高い上限周波数を有している。

なお、前記特定周波数は、当該信号帯域拡張処理を施したソフトウェアによって異なる。また、前記特定周波数の個数は単数／複数の何れでもよく、事前に任意に設定しておくことができる。

前記上限周波数検出部２３は、帯域拡張既処理検出部２２による検出結果に基づいて、共通成分抽出部１により抽出された共通成分信号ｘ［ｎ］の上限周波数を検出する。

具体的には、上限周波数検出部２３は、帯域拡張既処理検出部２２により既処理（信号帯域拡張処理済み）でないと判断された場合には、共通成分信号ｘ［ｎ］について例えばＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ；ＦＦＴ；高速フーリエ変換）アナライザ等により、パワースペクトル（信号のパワーを一定の周波数帯域毎に分割し、各帯域のパワーを周波数の関数として表したもの）を求め、且つ、該パワースペクトルを解析して所定の閾値と大小判定することで、上限周波数を検出する。他方、帯域拡張既処理検出部２２の検出結果で既処理（信号帯域拡張処理済み）であると判断された場合には、上限周波数検出部２３は、帯域拡張既処理検出部２２で用いた特定周波数を上限周波数とする。

例えば、パワースペクトルを周波数が高い方から低い方へ解析していく場合、当該信号のパワースペクトルが所定の閾値以上になる起点を上限周波数として検出する。また、上限周波数を検出する際に、周波数軸方向に連続的ではなく、離散的にパワースペクトルを検出していってもよいし、ある特定の周波数についてパワースペクトルを検出していってもよい。以下、図４を参照して上限周波数検出部２３の動作を詳細に説明する。図４は、上限周波数検出部２３の一動作例を説明する為の図であり、入力信号のパワースペクトルの周波数特性を示す図である。

図４に示す例では、周波数軸方向に離散的に1ｋＨｚ単位でパワースペクトルを検出している。パワースペクトルと所定の閾値との大小関係に基づいて、上限周波数は１６ｋＨｚであると判断する。この場合、０ｋＨｚ〜１６ｋＨｚの範囲が、本来の信号が存在する周波数帯域である。

さらに、入力信号が符号化され且つ復号化されていた信号である場合には、コーデックにおけるサンプリング周波数を予測し、該予測結果に基づいて、例えば８ｋＨｚ、１６ｋＨｚ、２２．０５ｋＨｚ、３２ｋＨｚ、４４．１ｋＨｚ等の特定の周波数のパワースペクトルを検出することにより、上限周波数を検出する。

上述の処理のように周波数軸方向に離散的にパワースペクトルを調べることで、処理量を軽減することができる。

なお、以降の説明においては、信号帯域拡張処理として“高周波数方向への帯域拡張処理”を例にして説明する。しかしながら、“低周波数方向への帯域拡張処理”についても適用することは勿論である。

具体的には、低周波数方向への帯域拡張処理を行う場合には、パワースペクトルを周波数が低い方から高い方へと解析していき、当該信号のパワースペクトルが所定の閾値以下になる起点の周波数を下限周波数として検出し、該下限周波数を用いて後述する高音質化処理を行う。

なお、上述した上限周波数検出部２３による上限周波数の検出処理は、常時行い続ける必要はなく、間欠的に行えばよい。また、上限周波数検出部２３による上限周波数の検出処理に用いるパワースペクトルの値は、瞬時的な値に限られない。すなわち、所定の時間におけるパワースペクトルの平均値を用いてもよい。この場合、例えば有音・無音判定部２１によって有音区間であると判定された区間（時間帯）における平均値を用いてもよい。

前記ＳＮＲ推定部２４は、上限周波数検出部２３による上限周波数検出結果に基づいて、信号成分が存在する入力チャネル・周波数帯域のＳＮＲ(Ｓｉｇｎａｌ−ｔｏ−ＮｏｉｓｅＲａｔｉｏ；信号対雑音比、雑音度合い)を検出する。なお、この検出処理においては、公知の雑音推定技術を用いてもよい。この検出処理と併せて、ＳＮＲ推定部２４は、雑音区間において雑音パワースペクトルの推定検出処理を行う。

前記残響度合推定部２５は、上限周波数検出部２３による上限周波数検出結果に基づいて、信号成分が存在する周波数帯域の残響度合いを検出する。具体的には、残響度合推定部２５は、例えば特開２００７−６５２０４のような公知の残響抑圧処理技術を用いて、残響時間毎の残響パワーあるいは残響パワースペクトルを検出する。

前記処理制御部３は、上述した音質推定部２が有する各部による音質推定結果に基づいて、音声認識処理部４を制御する。図５は、処理制御部３の一構成例を示す図である。図５に示すように、処理制御部３は、有音動作モード設定部３１と、特徴量動作モード設定部３２と、雑音動作モード設定部３３と、音響動作モード設定部３４と、を有する。

前記有音動作モード設定部３１は、音質推定部２の有音・無音判定部２１から出力された有音無音情報に基づいて有音動作モードを設定し、該設定情報を音声認識処理部４に出力する。この有音動作モードが設定された場合には、例えば次のような制御が行われる。

《制御例１》
有音・無音判定部２１により無音であると判定されている時間帯においては、音声認識処理部４に音声認識処理を行わせない制御。

《制御例２》
無音区間が一定時間継続した場合には、当該文章の終わりが到来したことを音声認識処理部４に通知する制御。

前記特徴量動作モード設定部３２は、上限周波数検出部２３から出力された上限周波数[ｋＨｚ]に基づいて、特徴量動作モードを設定し、該設定情報を音声認識処理部４に出力する。下記の表１は、上限周波数［ｋＨｚ］と特徴量動作モードとを対応させるテーブルの一例を示す表である。

この表１に記載のテーブルでは、上限周波数［ｋＨｚ］を３つの閾値（１１ｋＨｚ、１６ｋＨｚ、２２ｋＨｚ）により４つの区分に分類し、各区分に対してそれぞれ異なる特徴量動作モード（１〜４）を対応付けている。

なお、このようなテーブルによる他、各特徴量動作モードに対応する上限周波数［ｋＨｚ］の範囲を事前に設定し、該設定に基づいて特徴量動作モードを決定するように構成しても勿論よい。

前記雑音動作モード設定部３３は、上限周波数検出部２３から出力される上限周波数［ｋＨｚ］と、ＳＮＲ推定部２４から出力されるＳＮＲと、に基づいて、雑音動作モードの値を設定し、該設定情報を音声認識処理部４に出力する。下記の表２は、上限周波数［ｋＨｚ］及びＳＮＲと雑音動作モードとを対応させるテーブルの一例を示す表である。

この表２に記載のテーブルでは、上限周波数［ｋＨｚ］を３つの閾値（１１ｋＨｚ、１６ｋＨｚ、２２ｋＨｚ）により４つの区分に分類し、且つ、該区分を更にＳＮＲに基づいて各々２つのレベル（高、低）に区分し、各々の区分に対して雑音動作モード（１〜８）を対応付けている。

なお、ＳＮＲの区分に利用する閾値は任意の値に設定してよい。例えば８［ｄＢ］に設定した場合には、ＳＮＲの値が８［ｄＢ］未満であれば“低”と判断し、８［ｄＢ］以上であれば“高”とすればよい。

前記音響動作モード設定部３４は、上限周波数検出部２３から出力された上限周波数［ｋＨｚ］と、ＳＮＲ推定部２４から出力されたＳＮＲと、残響度合推定部２５から出力された残響度合と、に基づいて音響動作モードの値を設定し、該設定情報を音声認識処理部４に出力する。下記の表３は、上限周波数［ｋＨｚ］、ＳＮＲ、及び残響度合と音響動作モードとを対応させるテーブルの一例を示す表である。

この表３に記載のテーブルでは、上限周波数［ｋＨｚ］を３つの閾値（１１ｋＨｚ、１６ｋＨｚ、２２ｋＨｚ）により４つの区分に分類し、且つ、該区分を更にＳＮＲに基づいて各々２つのレベル（高、低）に区分し、且つ、該区分を更に残響度合に基づいて各々２つのレベル（小、大）に区分し、各々の区分に対して音響動作モード（１〜１６）を対応付けている。

なお、残響度合の区分に利用する閾値は任意の値に設定してよい。そして、その設定した閾値よりも小さい値であれば“小”と判断し、その設定した閾値以上であれば“大”とすればよい。

前記音声認識処理部４は、入力信号ｉｎ［ｎ，ｋ］のうち共通成分抽出部１により抽出された共通成分信号ｘ［ｎ］について、音声認識処理を実行する。図６は、音声認識処理部４の一構成例を示す図である。図６に示すように、音声認識処理部４は、雑音抑圧部４１と、バンドパスフィルタ４２と、特徴量抽出部４４と、音声認識部４６と、音響モデル部４７と、言語モデル部４８、と、を有する。

前記雑音抑圧部４１は、音質推定部２のＳＮＲ推定部２４によって検出された雑音パワースペクトルに基づいて、共通成分信号ｘ［ｎ］に含まれている雑音成分を抑圧処理する。この雑音抑圧部４１による抑圧処理においては、公知のノイズキャンセラ（ＮｏｉｓｅＣａｎｃｅｌｌｅｒ）技術（例えば特開２００８−３０９９５５号等を参照）を利用してもよい。

前記バンドパスフィルタ４２は、雑音抑圧部４１で雑音抑圧された共通成分信号ｘ［ｎ］に対して、処理制御部３の特徴量動作モード設定部３２によって設定された特徴量動作モードに対応する周波数特性のバンドパスフィルタ処理を施す。

上述したように処理制御部３の特徴量動作モード設定部３２から出力される特徴量動作モードの設定情報に従って、共通成分信号ｘ［ｎ］に対して施すバンドパスフィルタの周波数特性を設定することで、次のような効果を得ることができる。すなわち、音質推定部２の上限周波数検出部２３によって検出された上限周波数に基づいて、バンドパスフィルタにおける高域の制限周波数を動的に変化させることで、既に帯域拡張された周波数帯域或いは周波数成分の無い周波数帯域を除去し、且つ、低域の制限周波数において直流成分を除去することができる。

なお、上限周波数［ｋＨｚ］が高い値であるほど、高域の制限周波数を高い値に設定する。

前記特徴量抽出部４４は、バンドパスフィルタ４２により処理された共通成分信号ｘ［ｎ］から、事前に設定された短時間単位（１フレーム）で特徴量を抽出する。ここで抽出する特徴量としては、例えばＭＦＣＣやパワー、或いは等を挙げることができる。さらに、特徴量抽出部４４は、動的特徴量としてΔＭＦＣＣやΔパワー等を併せて抽出してもよい。

なお、上述の特徴量は例示に過ぎず、他のパラメータを特徴量として採用しても勿論よい。

ところで、特徴量抽出部４４は、処理制御部３によって設定された特徴量動作モードに従って特徴量の次数を動的に変化させる。具体的には、例えばＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ;メル周波数ケプストラム係数）の次数を、次のように設定する。

すなわち、ＭＦＣＣの次数を、上限周波数が１１［ｋＨｚ］未満のときは１０次、上限周波数が１１［ｋＨｚ］以上１６［ｋＨｚ］未満のときは１２次、上限周波数が１６［ｋＨｚ］以上２２［ｋＨｚ］未満のときは１４次、上限周波数が２２［ｋＨｚ］以上のときは１６次となるように、上限周波数が高くなるに従って次数を大きくするように変化させる。

図７は、バンドパスフィルタ４２による処理の一例を説明する為の図である。共通成分信号ｘ［ｎ］のある時間の瞬時的なパワースペクトルを表した図であり、縦軸はパワースペクトル［ｄＢ］で、横軸は周波数［Ｈｚ］を表す。図７での上限周波数は８［ｋＨｚ］であるとする。バンドパスフィルタ４２及び特徴量抽出部４４による処理においては、設定されている特徴量動作モードに従って、バンドパスフィルタの高域の制限周波数及び特徴量の次数を動的に変化させる。

すなわち、上限周波数よりも高い周波数に含まれる余計な成分を、バンドパスフィルタ４２によって除去し、それに似合った次数の特徴量を特徴量抽出部４４によって抽出する。従って、低い次数で高精度な特徴量抽出処理を行うことができ、なお且つ処理量を軽減することができる。図７（Ｂ）では、上限周波数８［ｋＨｚ］以上の成分が存在しているため、その成分によって高精度な特徴量抽出処理ができない場合がある。そこで、図７（Ａ）のように、８［ｋＨｚ］以上の成分をバンドパスフィルタ４２によって除去することで、低い次数で高精度な特徴量抽出処理を行うことができることを示した例となっている。

他方、従来の技術によれば、上限周波数の値が低い為に上限周波数よりも高い周波数を含む信号から特徴量抽出処理を行う場合であって、特徴量として例えばＭＦＣＣ等を採用する場合には、上限周波数よりも高い周波数帯域に含まれる余計な成分（例えば雑音等）が存在する周波数領域においても当該特性のピーク値を検出してしまう。従って、特徴量抽出の精度が悪化してしまう。また、高い次数の特徴量を採用することで処理量が増加してしまう。

前記音声認識部４６は、音響モデル部４７から音響モデル辞書を読み込み、音響ネットワークを構成する。また、音声認識部４６は、言語モデル部４８から言語モデル辞書を読み込み、文法ネットワークを構成する。この音声認識部４６にはフレーム単位で逐次特徴量が入力される。そして、音声認識部４６は、文法ネットワークと音響ネットワークとの合成ネットワーク上で、当該入力された信号に対して、どの経路と特徴量が一番近いのかを“尤度”という尺度で、逐次フレーム単位で探索していく。換言すれば、音声認識部４６は、特徴量抽出部４４からの出力と音響モデル部４７からの出力とをマッチング処理する。

そして、当該音声認識部４６への信号入力が終了して初めて、尤度が最大となる経路（一番特徴量と近い経路）が判明する。つまり、この時点で、音声認識部４６は、入力信号ｉｎ［ｎ，ｋ］に該当するテキストとして、尤度が最大となる経路に該当するテキストを出力する。

具体的には、文法ネットワークと音響ネットワークとの前記合成ネットワークは、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）によるネットワークで構成され、前記探索は例えばビームサーチ等の高速探索が用いられる。

前記音響モデル部４７は、複数の音響モデル辞書を保持しており、処理制御部３の音響動作モード設定部３４によって設定された音響動作モードに従って、音声認識部４６により読み出される音響モデル辞書を動的に変更する。

具体的には、この音響モデル部４７は、例えば次のような音響モデル辞書を読み込むように構成されている。

《例１》
上限周波数検出部２３から出力される上限周波数［ｋＨｚ］と、特徴量抽出部４４の上限周波数（特徴量抽出部４４のサンプリング周波数÷２で表される）と、が一番近い値となる音響モデル辞書を読み込む。

《例２》
ＳＮＲ推定部２４から出力されたＳＮＲに基づいて、雑音が大きい場合には当該雑音に対してよりロバストになるように、雑音モデルが合成された音響モデル辞書を読み込む。

《例３》
残響度合推定部２５から出力された残響度合に基づいて、残響が大きい場合には、当該残響に対してよりロバストな音響モデル辞書を読み込む。

以上、《例１》〜《例３》に挙げたように、音響モデル部４７は、処理制御部３の音響動作モード設定部３４から出力される音響動作モードに従って、実際に利用する音響モデル辞書を切り換えることで、入力信号ｉｎ［ｎ，ｋ］の音質に応じて、常に最適な音響モデル辞書を用意することができる。つまり、音声認識処理における音声認識精度を安定化させ、ばらつきを抑制することができる。なお、音響モデル辞書の中身については公知の技術を用いればよい。

前記言語モデル部４８は、音声認識部４６によって読み出される言語モデル辞書を保持している。なお、この言語モデル部４８については公知の技術を用いてもよい。

以上説明したように、本第１実施形態によれば、入力信号の種類・音質に関わらず、高精度な音声認識結果を得ることができる音声認識装置及びコンテンツ再生装置を提供することができる。

具体的には、音質推定部２が入力信号の音質をリアルタイムに推定し、該推定結果に基づいて、処理制御部３が音声認識処理部４を制御する。これにより、入力信号の音質に対して常に最適な音声認識処理を施して出力することができる。

詳細には、多チャネルからの入力信号について共通成分信号を抽出し、該共通成分信号について間欠的に上限周波数、ＳＮ比、及び残響度合い等を検出して音質を推定する。そして、上限周波数に基づいて共通成分信号に掛けるバンドパスフィルタ特性を動的に変更し、上限周波数に基づいて特徴量の抽出方法を変更し、ＳＮ比や残響度合いに基づいて音響モデルを変更する等の処理を行う。

このように、本第１実施形態に係る音声認識装置及びコンテンツ再生装置によれば、間欠的に入力信号の音質を推定し、推定された音質に従って適応的に音声認識の特徴量抽出あるいは音響モデルを変更することで、常に高精度な音声認識の結果を得ることができる。

従って、入力信号に係るコンテンツによって上限周波数が異なる場合や、入力信号における上限周波数が時間帯によって異なる場合であっても（例えばインターネット上のコンテンツを再生する場合であっても）、本第１実施形態に係る音声認識装置及びコンテンツ再生装置によれば、効率的且つ効果的な音声認識処理が可能となる。

また、本第１実施形態に係る音声認識装置及びコンテンツ再生装置によれば、再生処理に係るコンテンツの音質を示す情報が、当該入力信号に付与されていない場合であっても、当該音声認識装置／コンテンツ再生装置自身で、リアルタイムに当該入力信号について音質を推定し、該推定結果に基づいて音声認識処理することが可能となる。

さらには、本第１実施形態に係る音声認識装置及びコンテンツ再生装置によれば、音質推定部２の上限周波数検出部２３により入力信号の上限周波数を推定し、周波数成分が存在しない周波数帯域における、無駄な音声認識処理を行わない。従って、従来技術に比べて処理量を大きく削減することができ、結果として処理時間の短縮化が実現する。

つまり、例えばネットワーク上のコンテンツのように、コンテンツ毎に音質（例えば上限周波数、雑音成分変動、モノラル／ステレオ等）が種々に異なる場合であっても、それらの音質に対して最適な音声認識処理を行うことができる。

以上、第１実施形態に基づいて本発明を説明したが、本第１実施形態は上述した態様に限定されるものではなく、例えば下記のように種々の変形及び応用が可能なことは勿論である。

［第１変形例］
以下、本第１変形例に係る音声認識装置／コンテンツ再生装置について説明する。説明の重複を避ける為、前記第１実施形態に係る音声認識装置／コンテンツ再生装置との相違点（音声認識処理部４の構成）を説明する。

図８は、本第１変形例に係る音声認識処理部４の一構成例を示す図である。同図に示すように、音声認識処理部４は、雑音抑圧部４１と、バンドパスフィルタ４２と、帯域拡張部４３と、特徴量抽出部４４と、音声認識部４６と、音響モデル部４７と、言語モデル部４８と、を有する。すなわち、本第１変形例と前記第１実施形態との主な相違点の一つは、帯域拡張部４３の有無である。

前記帯域拡張部４３は、処理制御部３の特徴量動作モード設定部３２によって設定された特徴量動作モードに従って、バンドパスフィルタ４２から出力された共通成分信号ｘ［ｎ］の周波数帯域を、高域へ拡張する処理を行う。具体的には、共通成分信号ｘ［ｎ］の高域の周波数成分を生成することで、周波数帯域を高域へ拡張する。この処理には公知の技術を利用してもよい。

詳細には、この帯域拡張部４３は、上限周波数検出部２３により検出された上限周波数に基づいて、信号の帯域を拡張する帯域幅を動的に変更する制御を行いながら、バンドパスフィルタ４２による処理後の共通成分信号に対して、信号の帯域を拡張する処理を実施する。

ここでは、音響モデル部４７は、処理制御部３の音響動作モード設定部３４によって設定された音響動作モードに従って、音声認識部４６によって読み出される音響モデル辞書を動的に変更する。音響モデル辞書の上限周波数（サンプリング周波数÷２で表される）と、音質推定部２の上限周波数検出部２３から出力された上限周波数と、が一致しなかった（換言すれば、入力信号ｉｎ［ｎ，ｋ］の上限周波数が音響モデルの上限周波数よりも小さい）場合には、上限周波数検出部２３から出力される上限周波数を、音響モデル辞書の上限周波数に一致させるように、入力信号ｉｎ［ｎ，ｋ］について周波数帯域の拡張処理を行う。

例えば、音響モデル部４７は、音響モデル辞書として、上限周波数が８ｋＨｚ、１１ｋＨｚ、１６ｋＨｚ、及び２２ｋＨｚの４種類の音響モデル辞書を格納している。従って、例えば共通成分信号ｘ［ｎ］の上限周波数が４ｋＨｚしかなかった場合には、音響モデル部４７は、処理制御部３の音響動作モード設定部３４によって設定された音響動作モードに従って、サンプリング周波数８［ｋＨｚ］の音響モデル辞書を読み込む。

一方、帯域拡張部４３は、上限周波数４ｋＨｚの共通成分信号ｘ［ｎ］を帯域拡張処理して上限周波数を８［ｋＨｚ］とし、特徴量抽出部４４の出力と音響モデル部４７の出力とを周波数について整合させる。

以上説明したように、本第１変形例によれば、前記第１実施形態に係る音声認識装置と同様の効果を奏する上に、下記のような効果を奏する音声認識装置及びコンテンツ再生装置を提供することができる。

すなわち、本第１変形例に係る音声認識装置及びコンテンツ再生装置によれば、音声認識部４６による上述のマッチング処理において利用可能なデータ量を増加させることができるので、上述の帯域拡張処理によるデータ補間の精度が高い場合には、音声認識精度がより向上する。

また、本第１変形例によれば、入力信号の音質を音質推定部２によりリアルタイムに推定し、その音質に合わせた音声認識処理を音声認識処理部４によって施して出力する。これにより、例えば入力信号に係るコンテンツによって上限周波数が異なる場合や入力信号における上限周波数が時間帯によって異なる場合であっても、帯域拡張部４３による処理で、入力信号の上限周波数を柔軟に変更することができ、効率的且つ効果的な音声認識処理が可能となる。

さらに、本第１変形例によれば、様々な上限周波数に対応する為に音響モデル部４７に記憶させる音響モデル辞書のデータ量を小さくすることができる為、メモリ容量を小さくすることができる。

なお、本第１変形例と前記第１実施形態とを次のように使い分けるようにしてもよい。すなわち、入力信号ｉｎ［ｎ，ｋ］に含まれる雑音が所定の閾値よりも小さい場合（上述の帯域拡張処理によるデータ補完の精度が高い場合）には本第１変形例を適用し、そうでない場合には前記第１実施形態を適用するとしてもよい。

［第２変形例］
以下、第２変形例に係る音声認識装置について説明する。説明の重複を避ける為、前記第１実施形態に係る音声認識装置／コンテンツ再生装置との相違点（音声認識処理部４の構成）を説明する。

図９は、本第２変形例に係る音声認識処理部４の一構成例を示す図である。同図に示すように、音声認識処理部４は、雑音抑圧部４１と、バンドパスフィルタ４２と、特徴量抽出部４４と、特徴量拡張部４５と、音声認識部４６と、音響モデル部４７と、言語モデル部４８と、を有する。すなわち、本第２変形例と前記第１実施形態との主な相違点の一つは、特徴量拡張部４５の有無である。

前記特徴量拡張部４５は、処理制御部３の特徴量動作モード設定部３２から出力された特徴量動作モードに従って、特徴量抽出部４４から出力された特徴量の周波数帯域を拡張する処理を行う。

詳細には、この特徴量拡張部４５は、上限周波数検出部２３により検出された上限周波数に基づいて、特徴量抽出部４４から出力された特徴量の帯域を拡張する帯域幅を動的に変更する制御を行いながら、特徴量抽出部４４により抽出された特徴量に対して帯域を拡張する処理を実施する。

前記音響モデル部４７は、処理制御部３の音響動作モード設定部３４によって設定された音響動作モードに従って、音声認識部４６により読み出される音響モデル辞書を動的に変更する。

ここで、音響モデル辞書の上限周波数（サンプリング周波数÷２で表される）と、上限周波数検出部２３から出力される上限周波数と、が一致しなかった（換言すれば、入力信号の上限周波数が音響モデルの上限周波数よりも小さい）場合には、音質推定部２の上限周波数検出部２３から出力される上限周波数を、音響モデル辞書の上限周波数に一致させるように、入力信号ｉｎ［ｎ，ｋ］について周波数帯域の拡張処理を行う。

例えば、音響モデル部４７は、音響モデル辞書として上限周波数が８ｋＨｚ、１１ｋＨｚ、１６ｋＨｚ、及び２２ｋＨｚの４種類の音響モデル辞書を格納している。従って、共通成分信号ｘ［ｎ］の上限周波数が４ｋＨｚしか無かった場合には、音響モデル部４７は、処理制御部３の音響動作モード設定部３４から出力された音響動作モードに従って、サンプリング周波数８ｋＨｚの音響モデル辞書を読み込む。

一方、特徴量拡張部４５は、上限周波数４［ｋＨｚ］の特徴量を帯域拡張処理して、その上限周波数を８［ｋＨｚ］とする。つまり、特徴量拡張部４５は、特徴量抽出部４４の出力と音響モデル部４７の出力とを周波数について整合させる。

具体的には、特徴量拡張部４５による上述の処理（特徴量の周波数帯域の拡張処理）としては、例えば公知のコードブックマッチングを用いた方法（例えば、吉田, 阿部,“コードブックマッピングによる狭帯域音声から広帯域音声の生成法”, 信学論(D-II), vol.J78-D-II, No.3, pp.391-399, Mar. 1995.）や公知のＧＭＭ(Gaussian mixture model)を用いた方法（例えば、K. Y. Park, H. S. Kim, ”Narrowband to Wideband Conversion of Speech using GMM based Transformation”, Proc. ICASSP2000, vol.3, pp.1843-1846, Jun. 2000.）に開示されている技術を利用して、ＭＦＣＣの次数を拡張する（増加させる）方法等を挙げることができる。

なお、拡張する特徴量としては、例えばＭＦＣＣの動的特徴量の次数でもよい。また、特徴量拡張部４５の処理対象である特徴量の周波数帯域の拡張処理としては、拡張する周波数の幅を考慮して、パワー或いはパワーの動的特徴量を補正する処理であってもよい。

以上説明したように、本第２変形例によれば、前記第１実施形態に係る音声認識装置及びコンテンツ再生装置と同様の効果を奏する上に、次のような効果を奏する音声認識装置及びコンテンツ再生装置を提供することができる。

より具体的には、入力信号の音質を音質推定部２によりリアルタイムに推定し、その音質に合わせた音声認識処理を音声認識処理部４によって施して出力する。これにより、例えば入力信号に係るコンテンツによって上限周波数が異なる場合や入力信号における上限周波数が時間帯によって異なる場合であっても、特徴量拡張部４５による処理で、入力信号の上限周波数を柔軟に変更することができ、効率的且つ効果的な音声認識処理が可能となる。

さらに、本第２変形例によれば、様々な上限周波数に対応する為に音響モデル部４７に記憶させる音響モデル辞書のデータ量を小さくすることができる為、メモリ容量を小さくすることができる。さらに、特徴量のみについて周波数帯域を拡張処理するので、前記第１変形例と比較して処理量を軽減させることができる。

［第２実施形態］
以下、第２実施形態に係るコンテンツ再生装置について説明する。説明の重複を避ける為、前記第１実施形態に係る音声認識装置／コンテンツ再生装置との相違点を説明する。

図１０は、本発明の第２実施形態に係るコンテンツ再生装置の一構成例を示す図である。本第２実施形態に係るコンテンツ再生装置は、音声認識装置１０１と、多重分離・デコーダ２０１と、Ｄ／Ａ変換器２０２−１乃至Ｄ／Ａ変換器２０２−ｎと、スピーカ２０３−１乃至スピーカ２０３−ｎと、字幕生成部２０４と、音源位置推定部２０５と、余白位置検出部２０６と、コネクタ制御部２０７と、ボタン部２０８と、切換制御部２０９と、字幕付加部２１０と、表示部２１１と、ユーザ入力部２１３と、を具備する。

前記音声認識装置１０１は、上述した第１実施形態、第１変形例、または第２変形例に係る音声認識装置であり、上述した処理で入力信号ｉｎ［ｎ，ｋ］に対応するテキストを出力する。なお、図１０においては紙面の都合上、音質推定部２及び処理制御部３の図示を省略しているが、それらを有していることは勿論である。

前記多重分離・デコーダ２０１は、符号化された映像データを入力として、該映像データを、符号化された動画像データと、符号化されたオーディオデータと、に分離し、且つそれぞれのデータをデコード処理し、動画像信号とオーディオ信号とを出力する。

前記Ｄ／Ａ変換器２０２−１乃至Ｄ／Ａ変換器２０２−ｎは、多重分離・デコーダ２０１から出力されたディジタル信号であるオーディオ信号に対して、Ｄ／Ａ（ディジタル／アナログ）変換を行い、アナログ信号であるオーディオ信号を生成して出力する。

前記スピーカ２０３−１乃至スピーカ２０３−ｎは、前記Ｄ／Ａ変換器２０２−１乃至Ｄ／Ａ変換器２０２−ｎから出力されたアナログ信号であるオーディオ信号を音響空間へ出力する。

なお、前記Ｄ／Ａ変換器２０２−１乃至Ｄ／Ａ変換器２０２−ｎ、及び前記スピーカ２０３−１乃至スピーカ２０３−ｎについては、それぞれ多重分離・デコーダ２０１の出力であるオーディオ信号のチャネル数と同数だけ設ける構成としてもよい。

前記字幕生成部２０４は、音声認識部１０１から入力されたテキストに基づいて字幕（テロップ）画像データを生成し、該字幕画像データを字幕付加部２１０へ出力する。

前記字幕付加部２１０は、字幕生成部２０４から出力された字幕画像データを、多重分離・デコーダ２０１から出力された動画像信号に対して付加して表示部２１１へ出力する。

前記表示部２１１は、字幕付加部２１０から出力された字幕画像データが付加された動画像信号、或いは、多重分離・デコーダ２０１から出力された動画像信号を表示する。

前記切換制御部２０９は、スイッチ２０９Ａとスイッチ２０９Ｂとを備えており、これらスイッチ２０９Ａ，２０９Ｂを切換えることで、多重分離・デコーダ２０１から出力された動画像信号に対して、字幕付加部２１０により字幕画像データを付加するか否かを切換え制御する。

この切換え制御を実現する為の一構成例としては、例えば次のような構成を挙げることができる。すなわち、切換えの為のトリガー部材としてボタン部２０８を設け、該ボタン部２０８の操作状態によって前記切換えを行うようにしてもよい。また、イヤホン等を接続する為のコネクタ（不図示）へのイヤホン等の接続を検出するコネクタ制御部２０７を設け、該コネクタ制御部２０７が前記接続を検出した場合には字幕画像データを付加しないように切換え、前記接続を検出していない場合には字幕画像データを付加させるように切換えを行うように構成してもよい。

さらには、字幕画像データを、動画像信号の表示画面のうち何れの部位に付加させるかについては次のように決定してもよい。すなわち、例えば表示画面の右端部位や左端部位に所定の範囲を設定し、該所定の範囲内において縦書きで表示されるように字幕画像データを付加してもよいし、表示画面の下端部位に所定の範囲を設定し、該所定の範囲内において横書きで表示されるように字幕画像データを付加してもよい。

ところで、字幕画像データを付加する位置を特に固定化せず、動的に変化させてもよい。この場合、例えば下記のような構成を採ればよい。

《音源位置推定部２０５を利用する例》
前記音源位置推定部２０５は、入力された動画像信号と複数チャネルのオーディオ信号とに基づいて、音源の位置を推定する。具体的には、この音源位置推定部２０５は、動画像信号に基づいて顔認識処理を行ったり、複数チャネルのオーディオ信号に基づいて左右のバランスを評価したりすることで、音源の位置を推定する。

そして、この音源位置推定部２０５による音源位置の推定結果に基づいて、字幕付加部２１０は、動画像信号に対して付加する字幕画像データの位置がその表示画面のうち音源により近い部位になるように、付加する位置を動的に変化させる。

このように構成することで、当該コンテンツ再生装置から音を出力させることができない環境において、対話などのシーンを再生表示する場合には、当該表示画面における字幕を視認するだけで、ユーザはその内容を理解することができる。

《余白位置検出部２０６を利用する例》
前記余白位置検出部２０６は、入力された動画像信号に基づいて、当該動画像信号が再生された際に余白部位（或いは重要度が低い部位）となる範囲を検出する。

そして、字幕付加部２１０は、この余白位置検出部２０６により検出された余白位置に字幕画像データを付加するように、付加する位置を動的に変化さる。

このように構成することで、動画像信号が再生表示された映像と字幕とが重畳表示されてしまい、映像及び字幕の双方が見づらくなってしまうことを防ぐことができる。

ところで、図１１は、音声認識部１０１、字幕生成部１０４、及び字幕付加部２１０による処理のタイミングを時間軸に沿って示す図である。詳細には、図１１は、動画像信号が再生表示された映像と、それに付加された字幕画像データと、の表示タイミングが時間的にずれないように処理する為のタイミングチャートを示す図である。

音声認識部１０１については、音声認識部１０１及び字幕生成部１０４による処理に要する時間を鑑みて、同図に示す“Ｌ”［ｓｅｃ］だけ“先読み時間”を設定し、オーディオ信号を音声認識部１０１に対して先読みして与える。

ここで、音声認識部１０１による処理は１文章ずつの処理である。従って、音声認識部１０１は、１文章ずつの音声認識処理結果としてのテキストを、順次、字幕生成部１０４へ出力する。

なお、前記先読み時間Ｌ［ｓｅｃ］は、全ての文章（本例では文章１、文章２、及び文章３）の時間（本例では、時間Ｔ１，時間Ｔ２，及び時間Ｔ３）よりも大きな値となるように、事前に測定して設定する。

ところで、前記ユーザ入力部２１３は、当該コンテンツ再生装置に対して操作入力を行う為の部材である。具体的には、例えばマウスやキーボード等の通常の操作部材であってもよいし、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等であってもよい。

そして、このユーザ入力部２１３を用いて、例えば下記の操作を行うことができるように構成する。

・字幕画像データと動画像信号を別のデータとして扱うことで、レイヤー化する操作。

・字幕画像データのドラッグ等して付加位置を移動する操作。

・字幕画像データをドラッグ等して表示画面の縁部位に向かって移動させることで、当該字幕画像データの表示をＯＦＦとする操作。

・表示部２１１を叩く操作（タップ）等して物理的衝撃を与えることで、字幕画像データの表示をＯＮにする操作。

以上説明したように、本第２実施形態によれば、第１実施形態に係る音声認識装置及びコンテンツ再生装置と同様の効果を奏する上に、再生に係るコンテンツの動画像信号に対して、オーディオ信号に基づいてリアルタイムで字幕を生成し、該字幕を再生表示された表示画面中の最適な位置に付加することができるコンテンツ再生装置を提供することができる。従って、本第２実施形態に係るコンテンツ再生装置によれば、例えば音声をスピーカ出力させることができない環境であっても、再生に係るコンテンツを充分に楽しむことができる。

なお、例えばインターネット上のコンテンツ等を再生する場合には、当該コンテンツ自体に字幕を追加させることは著作権法の観点から好ましくないので、音声認識処理を利用して字幕を付加する処理を実施するのが望ましい。

［第３実施形態］
以下、第３実施形態に係る音声認識装置及びコンテンツ再生装置について説明する。説明の重複を避ける為、前記第１実施形態に係る音声認識装置／コンテンツ再生装置との相違点を説明する。

図１２は、本発明の第３実施形態に係るコンテンツ再生装置の一構成例を示す図である。本第３実施形態に係るコンテンツ再生装置は、音声認識部１０１と、多重分離・デコーダ２０１と、言語解析部４０１と、ジャンル判定部４０２と、表示部４０３と、を具備する。

前記音声認識装置１０１は、上述した第１実施形態、第１変形例、または第２変形例に係る音声認識装置であり、上述した処理で入力信号ｉｎ［ｎ，ｋ］に対応するテキストを出力する。なお、図１２においては紙面の都合上、音質推定部２及び処理制御部３の図示を省略しているが、それらを有していることは勿論である。

前記言語解析部４０１は、音声認識部１０１から出力されたテキストについて言語解析処理を実行する。具体的には、この言語解析部４０１は、入力されたテキストの内容が言語的に意味を成す内容であるか否かをチェックするような言語解析処理を行う。なお、音声認識部１０１から出力されるテキストは、文章であるとする。

前記ジャンル判定部４０２は、言語解析部４０１から出力された言語解析処理結果に基づいて、当該テキストの内容が言語的に意味を成す内容であるか否かを判定することによって、当該再生に係るコンテンツが属するジャンルを判定する。

具体的には、当該テキストの内容が言語的に意味を成す内容である場合には当該コンテンツは例えば会話等の“音声”であると判定し、言語的に意味を成さない内容である場合には当該コンテンツは所謂“音楽”であると判定する。なお、この判定処理はあくまでも一例であり、この判定処理に限られないことは勿論である。

前記表示部４０３は、ジャンル判定部４０２から出力された判定処理結果に基づいて、“音声”であるとの判定であれば音声認識部１０１から出力されたテキストを表示し、“音楽”であるとの判定であれば音楽区間である旨を表示する。

以上説明したように、本第３実施形態によれば、第１実施形態に係る音声認識装置及びコンテンツ再生装置と同様の効果を奏する上に、オーディオデータに基づいて、当該再生処理に係るコンテンツのジャンルを判定し、該判定結果に基づいて、音声認識処理結果の表示方法を変化させることで、言語的に意味を成さない音声認識処理結果を表示することが無くなり、より効率的に情報を呈示することができるコンテンツ再生装置を提供することができる。

さらに、上述した実施形態には種々の段階の発明が含まれており、開示した複数の構成要件の適当な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示す全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成も発明として抽出され得る。

１…共通成分抽出部、２…音質推定部、３…処理制御部、４…音声認識処理部、２１…有音・無音判定部、２２…帯域拡張既処理検出部、２３…上限周波数検出部、２４…ＳＮＲ推定部、２５…残響度合推定部、３１…有音動作モード設定部、３２…特徴量動作モード設定部、３３…雑音動作モード設定部、３４…音響動作モード設定部、４１…雑音抑圧部、４２…バンドパスフィルタ、４３…帯域拡張部、４４…特徴量抽出部、４５…特徴量拡張部、４６…音声認識部、４７…音響モデル部、４８…言語モデル部、１０１…音声認識装置、１０４…字幕生成部、２０１…多重分離・デコーダ、２０２−１〜２０２−ｎ…Ｄ／Ａ変換器、２０３−１〜２０３−ｎ…スピーカ、２０４…字幕生成部、２０５…音源位置推定部、２０６…余白位置検出部、２０７…コネクタ制御部、２０８…ボタン部、２０９…切換制御部、２０９Ａ…スイッチ、２０９Ｂ…スイッチ、２０９Ａ，２０９Ｂ…スイッチ、２１０…字幕付加部、２１１…表示部、２１３…ユーザ入力部、４０１…言語解析部、４０２…ジャンル判定部、４０３…表示部。

Claims

入力信号について音声認識処理を実行する音声認識処理部を具備する音声認識装置であって、
前記入力信号の音質を推定する音質推定部と、
前記音質推定部による推定結果に基づいて、前記音声認識処理部による音声認識処理を制御する制御部と、
を具備することを特徴とする音声認識装置。
前記音質推定部は、前記入力信号の制限周波数を検出する制限周波数検出部を有し、
前記制御部は、前記制限周波数検出部により検出された前記制限周波数までの帯域についてのみ、前記音声認識処理部に音声認識処理させる制御を行う
ことを特徴とする請求項１に記載の音声認識装置。
前記制限周波数検出部は、前記入力信号について間欠的にパワースペクトルを算出し、該パワースペクトルを解析することにより前記制限周波数を検出する
ことを特徴とする請求項２に記載の音声認識装置。
前記音質推定部は、前記入力信号に対して既に信号帯域拡張処理が施されているか否かを検出する信号帯域拡張処理検出部を有し、
前記制限周波数検出部は、前記音質推定部によって信号帯域拡張処理が施されていないとされた場合に、前記入力信号の前記制限周波数を検出する
ことを特徴とする請求項３に記載の音声認識装置。
前信号帯域拡張処理検出部は、前記入力信号についてパワースペクトルを算出し、該パワースペクトルにおける特定周波数近傍の帯域成分が欠落しているか否かを検出することにより、前記入力信号に対して既に帯域拡張処理が施されているか否かを検出する
ことを特徴とする請求項４に記載の音声認識装置。
当該音声認識装置は、
前記音声認識処理部による音声認識処理に供される前記入力信号の特徴量を、前記入力信号から抽出する特徴量抽出部と、
前記音声認識処理部による音声認識処理に供される複数の音響モデル辞書を保持する音響モデル部と、
を備え、
前記制御部は、
前記制限周波数検出部によって検出された前記制限周波数に基づいて、前記特徴量抽出部を制御し、且つ、前記音声認識処理部による音声認識処理に供される音響モデル辞書を、前記音響モデル部が保持する音響モデル辞書の中から選択する
ことを特徴とする請求項２に記載の音声認識装置。
当該音声認識装置は、
前記音声認識処理部による音声認識処理に供される前記入力信号の特徴量を、前記入力信号から抽出する特徴量抽出部と、
前記入力信号の周波数帯域を帯域拡張処理して前記特徴量抽出部に出力する帯域拡張処理部と、
前記音声認識処理部による音声認識処理に供される複数の音響モデル辞書を保持する音響モデル部と、
を備え、
前記制御部は、前記制限周波数検出部によって検出された前記制限周波数に基づいて、前記特徴量抽出部を制御し、且つ、前記特徴量抽出部の出力と前記音響モデル部の出力とを周波数帯域について整合させるように前記帯域拡張処理部を制御する
ことを特徴とする請求項２に記載の音声認識装置。
当該音声認識装置は、
前記音声認識処理部による音声認識処理に供される前記入力信号の特徴量を前記入力信号から抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記特徴量の周波数帯域を帯域拡張処理する帯域拡張処理部と、
前記音声認識処理部による音声認識処理に供される複数の音響モデル辞書を保持する音響モデル部と、
を備え、
前記制御部は、
前記制限周波数検出部によって検出された前記制限周波数に基づいて、前記特徴量抽出部を制御し、且つ、前記音声認識処理部による音声認識処理に供される前記特徴量と前記音響モデル辞書とを周波数帯域について整合させるように前記帯域拡張処理部を制御する
ことを特徴とする請求項２に記載の音声認識装置。
前記入力信号とは、複数の入力信号チャネルから当該音声認識装置に入力された複数の入力信号に互いに共通する共通成分信号である
ことを特徴とする請求項１乃至請求項８のうち何れか一つに記載の音声認識装置。
入力された映像データを、動画像データとオーディオデータとに分離する分離デコーダ部と、
前記オーディオデータについて音声認識処理を実行してテキストデータを生成する音声認識処理部と、
前記入力信号の音質を推定する音質推定部と、
前記音質推定部による推定結果に基づいて、前記音声認識処理部による音声認識処理を制御する制御部と、
前記動画像データに対して前記テキストデータを付加する字幕付加部と、
を具備することを特徴とするコンテンツ再生装置。
前記音質推定部は、前記入力信号について制限周波数を検出する制限周波数検出部を有し、
前記制御部は、前記制限周波数検出部により検出された前記制限周波数までの帯域についてのみ、前記音声認識処理部に音声認識処理させる制御を行う
ことを特徴とする請求項１０に記載のコンテンツ再生装置。
当該コンテンツ再生装置は、
前記音声認識処理部による音声認識処理に供される前記入力信号の特徴量を、前記入力信号から抽出する特徴量抽出部と、
前記音声認識処理部による音声認識処理に供される複数の音響モデル辞書を保持する音響モデル部と、
を備え、
前記制御部は、
前記制限周波数検出部によって検出された前記制限周波数に基づいて、前記特徴量抽出部を制御し、且つ、前記音声認識処理部による音声認識処理に供される音響モデル辞書を、前記音響モデル部が保持する音響モデル辞書の中から選択する
ことを特徴とする請求項１１に記載のコンテンツ再生装置。