JP2011203480A - 音声認識装置、及びコンテンツ再生装置 - Google Patents

音声認識装置、及びコンテンツ再生装置 Download PDF

Info

Publication number
JP2011203480A
JP2011203480A JP2010070581A JP2010070581A JP2011203480A JP 2011203480 A JP2011203480 A JP 2011203480A JP 2010070581 A JP2010070581 A JP 2010070581A JP 2010070581 A JP2010070581 A JP 2010070581A JP 2011203480 A JP2011203480 A JP 2011203480A
Authority
JP
Japan
Prior art keywords
unit
speech recognition
recognition processing
input signal
limit frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010070581A
Other languages
English (en)
Other versions
JP5166470B2 (ja
Inventor
Takashi Sudo
隆 須藤
Chikashi Sugiura
千加志 杉浦
Takehiko Isaka
岳彦 井阪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010070581A priority Critical patent/JP5166470B2/ja
Publication of JP2011203480A publication Critical patent/JP2011203480A/ja
Application granted granted Critical
Publication of JP5166470B2 publication Critical patent/JP5166470B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】入力信号の種類・音質に関わらず、高精度な音声認識結果を得ることができる音声認識装置及びコンテンツ再生装置を提供することができる。
【解決手段】入力信号について音声認識処理を実行する音声認識処理部4を具備する音声認識装置101を次のように構成する。すなわち、前記入力信号の音質を推定する音質推定部2と、前記音質推定部2による推定結果に基づいて前記音声認識処理部4による音声認識処理を制御する処理制御部3と、を音声認識装置101に具備させる。
【選択図】図1

Description

本発明は、多チャネルの入力音声信号について音声認識を行う音声認識装置及びコンテンツ再生装置に関する。
従来より、次のような音声認識技術が知られている。すなわち、まず事前に言語モデルと音響モデルとによってネットワークを動的に構築する。そして、音声認識処理対象の入力音声信号について特徴量抽出処理を行う。この特徴量抽出処理で抽出した特徴量に基づいて、上述の言語モデル及び音響モデルを参照して、尤度が最大となる経路を前記ネットワーク上で探索する。そして、この探索結果に該当するテキストを出力する。
近年、入力音声信号の種々の変動に対応可能にする為に、様々な技術が提案されている。例えば特許文献1には、雑音除去法とHMM合成法を併用することで、認識性の及び認識速度の向上を図っている音声認識技術が開示されている。
特開平10−97278号公報
ところで、現在、インターネット上の種々のコンテンツを再生して視聴する機会が増大している。インターネット上のコンテンツでは、その種類や音質に係るパラメータ(例えば上限周波数や雑音度合い等)が、コンテンツ毎に異なっている。
このような状況の下、入力信号の種類・音質に関わらず、常に高精度な音声認識結果を得ることができる音声認識技術が望まれている。
しかしながら、上述の特許文献1に開示されている技術を含む従来の音声認識技術では、入力信号のサンプリング周波数及び上限周波数は事前に固定的に定められている。さらに、従来の音声認識技術では、音声認識の認識率の低下を防ぐ為に、抽出された特徴量と音響モデルとは同じサンプリング周波数且つ同じ上限周波数とされている。この為、上限周波数が入力信号により異なるような場合には、充分な精度の音声認識結果を得ることができない。同様に、例えばSN比(SNR)や残響度合い等のような音質に係るパラメータが入力信号により異なる場合には、充分な精度の音声認識結果を得ることができない。
本発明は、前記の事情に鑑みて為されたものであり、入力信号の種類・音質に関わらず、高精度な音声認識結果を得ることができる音声認識装置及びコンテンツ再生装置を提供することを目的とする。
前記の目的を達成するために、本発明の第1の態様による音声認識装置は、
入力信号について音声認識処理を実行する音声認識処理部を具備する音声認識装置であって、
前記入力信号の音質を推定する音質推定部と、
前記音質推定部による推定結果に基づいて、前記音声認識処理部による音声認識処理を制御する制御部と、
を具備することを特徴とする。
前記の目的を達成するために、本発明の第2の態様によるコンテンツ再生装置は、
入力された映像データを、動画像データとオーディオデータとに分離する分離デコーダ部と、
前記オーディオデータについて音声認識処理を実行してテキストデータを生成する音声認識処理部と、
前記入力信号の音質を推定する音質推定部と、
前記音質推定部による推定結果に基づいて、前記音声認識処理部による音声認識処理を制御する制御部と、
前記動画像データに対して前記テキストデータを付加する字幕付加部と、
を具備することを特徴とする。
本発明によれば、入力信号の種類・音質に関わらず、高精度な音声認識結果を得ることができる音声認識装置及びコンテンツ再生装置を提供することができる。
本発明の第1実施形態に係る音声認識装置の一構成例を示す図。 音質推定部の一構成例を示す図。 帯域拡張既処理検出部の一動作例を説明する為の図であって、入力信号のパワースペクトルの周波数特性を示す図。 上限周波数検出部の一動作例を説明する為の図であって、入力信号のパワースペクトルの周波数特性を示す図。 処理制御部の一構成例を示す図。 音声認識処理部4の一構成例を示す図。 バンドパスフィルタによる処理の一例を示す図。 第1変形例に係る音声認識処理の一構成例を示す図。 第2変形例に係る音声認識処理の一構成例を示す図。 本発明の第2実施形態に係るコンテンツ再生装置の一構成例を示す図。 本発明の第2実施形態に係るコンテンツ再生装置が具備する音声認識部、字幕生成部、及び字幕付加部による処理のタイミングを時間軸に沿って示す図。 本発明の第3実施形態に係るコンテンツ再生装置の一構成例を示す図。
以下、図面を参照して本発明の実施形態について説明する。
図1は、本発明の第1実施形態に係る音声認識装置の一構成例を示す図である。なお、本第1実施形態において“音声認識”とは、連続音素認識、単語認識、連続音声認識、及び大語彙連続音声認識(ディクテーション)等の何れをも含む概念としての“音声認識”を指している。
図1に示すように、本第1実施形態に係る音声認識装置101は、共通成分抽出部1と、音質推定部2と、処理制御部3と、音声認識処理部4と、を具備する。
前記共通成分抽出部1は、複数の入力チャネルの入力信号in[n,k](k=1,…,Kin)を入力として、複数の入力チャネルに共通に含まれる共通成分信号x[n]を抽出する。ここで、Kinは入力チャネルの総数を示し、nは時刻を示している。ここで、入力信号in[n,k]は、全てのチャネルでサンプリング周波数48kHzであるとする。
なお、入力信号においては、一般に人間の肉声(以降、単に音声と称する)は共通成分信号として含まれることが多い。
前記音質推定部2は、共通成分抽出部1により抽出された共通成分信号x[n]について、その音質を推定する。この音質推定部2は、有音区間、制限周波数(本第1実施形態では、高周波数方向への帯域拡張を行う例を説明する為、以降では“上限周波数”と称する)、帯域拡張が既に実施されている信号であるか否か、残響度合い、及び雑音度合いを推定して算出する。これらの情報は、時々刻々と変化する入力信号in[n,k]に応じて変化する。従って、音質推定部2は、入力信号in[n,k]の変化に追従して、即時的(リアルタイム)にこれらの情報を推定して算出する。この音質推定部2による具体的な処理内容については後に詳述する。
前記処理制御部3は、音質推定部2による音質推定結果に基づいて、音声認識処理部4による処理を最適化する制御をリアルタイムに行う。この処理制御部3による具体的な処理内容については後に詳述する。
前記音声認識処理部4は、処理制御部3により周波数帯域毎に動作設定を制御されて音声認識処理を行う。この音声認識処理部4による具体的な処理内容については後に詳述する。
図2は、前記音質推定部2の一構成例を示す図である。図2に示すように、音質推定部2は、有音・無音判定部21と、帯域拡張既処理検出部22と、上限周波数検出部23と、SNR推定部24と、残響度合推定部25と、を有する。
前記有音・無音判定部21は、共通成分抽出部1により抽出された共通成分信号x[n]について、信号成分(音声)が存在するか否かを検出し、有音或いは無音であることを示す有音無音情報を生成して処理制御部3へ出力する。なお、有音・無音判定の処理については公知の技術を用いる。
前記帯域拡張既処理検出部22は、共通成分抽出部1により抽出された共通成分信号x[n]について、既に信号帯域拡張処理が施されているか否かを検出する。具体的には、この帯域拡張既処理検出部22は、特定周波数近傍のパワースペクトルが大きく減衰しているか否かを検出することで、信号帯域拡張処理済みであるか否かを検出する。以下、図3を参照して帯域拡張既処理検出部22の動作を詳細に説明する。図3は、帯域拡張既処理検出部22の一動作例を説明する為の図であり、入力信号のパワースペクトルの周波数特性を示す図である。
すなわち、例えば図3に示す例では、帯域拡張既処理検出部22は、特定周波数(図3に示す例では11kHz)近傍において、パワースペクトルが所定の閾値以下になるような極小値となっているか否かを検出する。そして、帯域拡張既処理検出部22は、特定周波数(図3に示す例では11kHz)近傍のパワースペクトルが大きく減衰して、所定の閾値以下である極小値となっている場合にのみ、既処理(信号帯域拡張処理済み)であると判断する。
図3に示す例では、0kHz〜11kHzの範囲が、本来の信号が存在する周波数帯域である。従って、この場合には11kHzが上限周波数であり、11kHz以上の周波数帯域は既に信号帯域拡張処理が行われることで帯域拡張された周波数帯域であると判断する。当然ながら、既処理(信号帯域拡張処理済み)であると判断された信号は、本来の上限周波数よりも高い上限周波数を有している。
なお、前記特定周波数は、当該信号帯域拡張処理を施したソフトウェアによって異なる。また、前記特定周波数の個数は単数/複数の何れでもよく、事前に任意に設定しておくことができる。
前記上限周波数検出部23は、帯域拡張既処理検出部22による検出結果に基づいて、共通成分抽出部1により抽出された共通成分信号x[n]の上限周波数を検出する。
具体的には、上限周波数検出部23は、帯域拡張既処理検出部22により既処理(信号帯域拡張処理済み)でないと判断された場合には、共通成分信号x[n]について例えばFFT(Fast Fourier Transform ;FFT;高速フーリエ変換)アナライザ等により、パワースペクトル(信号のパワーを一定の周波数帯域毎に分割し、各帯域のパワーを周波数の関数として表したもの)を求め、且つ、該パワースペクトルを解析して所定の閾値と大小判定することで、上限周波数を検出する。他方、帯域拡張既処理検出部22の検出結果で既処理(信号帯域拡張処理済み)であると判断された場合には、上限周波数検出部23は、帯域拡張既処理検出部22で用いた特定周波数を上限周波数とする。
例えば、パワースペクトルを周波数が高い方から低い方へ解析していく場合、当該信号のパワースペクトルが所定の閾値以上になる起点を上限周波数として検出する。また、上限周波数を検出する際に、周波数軸方向に連続的ではなく、離散的にパワースペクトルを検出していってもよいし、ある特定の周波数についてパワースペクトルを検出していってもよい。以下、図4を参照して上限周波数検出部23の動作を詳細に説明する。図4は、上限周波数検出部23の一動作例を説明する為の図であり、入力信号のパワースペクトルの周波数特性を示す図である。
図4に示す例では、周波数軸方向に離散的に1kHz単位でパワースペクトルを検出している。パワースペクトルと所定の閾値との大小関係に基づいて、上限周波数は16kHzであると判断する。この場合、0kHz〜16kHzの範囲が、本来の信号が存在する周波数帯域である。
さらに、入力信号が符号化され且つ復号化されていた信号である場合には、コーデックにおけるサンプリング周波数を予測し、該予測結果に基づいて、例えば8kHz、16kHz、22.05kHz、32kHz、44.1kHz等の特定の周波数のパワースペクトルを検出することにより、上限周波数を検出する。
上述の処理のように周波数軸方向に離散的にパワースペクトルを調べることで、処理量を軽減することができる。
なお、以降の説明においては、信号帯域拡張処理として“高周波数方向への帯域拡張処理”を例にして説明する。しかしながら、“低周波数方向への帯域拡張処理”についても適用することは勿論である。
具体的には、低周波数方向への帯域拡張処理を行う場合には、パワースペクトルを周波数が低い方から高い方へと解析していき、当該信号のパワースペクトルが所定の閾値以下になる起点の周波数を下限周波数として検出し、該下限周波数を用いて後述する高音質化処理を行う。
なお、上述した上限周波数検出部23による上限周波数の検出処理は、常時行い続ける必要はなく、間欠的に行えばよい。また、上限周波数検出部23による上限周波数の検出処理に用いるパワースペクトルの値は、瞬時的な値に限られない。すなわち、所定の時間におけるパワースペクトルの平均値を用いてもよい。この場合、例えば有音・無音判定部21によって有音区間であると判定された区間(時間帯)における平均値を用いてもよい。
前記SNR推定部24は、上限周波数検出部23による上限周波数検出結果に基づいて、信号成分が存在する入力チャネル・周波数帯域のSNR(Signal−to−Noise Ratio;信号対雑音比、雑音度合い)を検出する。なお、この検出処理においては、公知の雑音推定技術を用いてもよい。この検出処理と併せて、SNR推定部24は、雑音区間において雑音パワースペクトルの推定検出処理を行う。
前記残響度合推定部25は、上限周波数検出部23による上限周波数検出結果に基づいて、信号成分が存在する周波数帯域の残響度合いを検出する。具体的には、残響度合推定部25は、例えば特開2007−65204のような公知の残響抑圧処理技術を用いて、残響時間毎の残響パワーあるいは残響パワースペクトルを検出する。
前記処理制御部3は、上述した音質推定部2が有する各部による音質推定結果に基づいて、音声認識処理部4を制御する。図5は、処理制御部3の一構成例を示す図である。図5に示すように、処理制御部3は、有音動作モード設定部31と、特徴量動作モード設定部32と、雑音動作モード設定部33と、音響動作モード設定部34と、を有する。
前記有音動作モード設定部31は、音質推定部2の有音・無音判定部21から出力された有音無音情報に基づいて有音動作モードを設定し、該設定情報を音声認識処理部4に出力する。この有音動作モードが設定された場合には、例えば次のような制御が行われる。
《制御例1》
有音・無音判定部21により無音であると判定されている時間帯においては、音声認識処理部4に音声認識処理を行わせない制御。
《制御例2》
無音区間が一定時間継続した場合には、当該文章の終わりが到来したことを音声認識処理部4に通知する制御。
前記特徴量動作モード設定部32は、上限周波数検出部23から出力された上限周波数[kHz]に基づいて、特徴量動作モードを設定し、該設定情報を音声認識処理部4に出力する。下記の表1は、上限周波数[kHz]と特徴量動作モードとを対応させるテーブルの一例を示す表である。
Figure 2011203480
この表1に記載のテーブルでは、上限周波数[kHz]を3つの閾値(11kHz、16kHz、22kHz)により4つの区分に分類し、各区分に対してそれぞれ異なる特徴量動作モード(1〜4)を対応付けている。
なお、このようなテーブルによる他、各特徴量動作モードに対応する上限周波数[kHz]の範囲を事前に設定し、該設定に基づいて特徴量動作モードを決定するように構成しても勿論よい。
前記雑音動作モード設定部33は、上限周波数検出部23から出力される上限周波数[kHz]と、SNR推定部24から出力されるSNRと、に基づいて、雑音動作モードの値を設定し、該設定情報を音声認識処理部4に出力する。下記の表2は、上限周波数[kHz]及びSNRと雑音動作モードとを対応させるテーブルの一例を示す表である。
Figure 2011203480
この表2に記載のテーブルでは、上限周波数[kHz]を3つの閾値(11kHz、16kHz、22kHz)により4つの区分に分類し、且つ、該区分を更にSNRに基づいて各々2つのレベル(高、低)に区分し、各々の区分に対して雑音動作モード(1〜8)を対応付けている。
なお、SNRの区分に利用する閾値は任意の値に設定してよい。例えば8[dB]に設定した場合には、SNRの値が8[dB]未満であれば“低”と判断し、8[dB]以上であれば“高”とすればよい。
前記音響動作モード設定部34は、上限周波数検出部23から出力された上限周波数[kHz]と、SNR推定部24から出力されたSNRと、残響度合推定部25から出力された残響度合と、に基づいて音響動作モードの値を設定し、該設定情報を音声認識処理部4に出力する。下記の表3は、上限周波数[kHz]、SNR、及び残響度合と音響動作モードとを対応させるテーブルの一例を示す表である。
Figure 2011203480
この表3に記載のテーブルでは、上限周波数[kHz]を3つの閾値(11kHz、16kHz、22kHz)により4つの区分に分類し、且つ、該区分を更にSNRに基づいて各々2つのレベル(高、低)に区分し、且つ、該区分を更に残響度合に基づいて各々2つのレベル(小、大)に区分し、各々の区分に対して音響動作モード(1〜16)を対応付けている。
なお、残響度合の区分に利用する閾値は任意の値に設定してよい。そして、その設定した閾値よりも小さい値であれば“小”と判断し、その設定した閾値以上であれば“大”とすればよい。
前記音声認識処理部4は、入力信号in[n,k]のうち共通成分抽出部1により抽出された共通成分信号x[n]について、音声認識処理を実行する。図6は、音声認識処理部4の一構成例を示す図である。図6に示すように、音声認識処理部4は、雑音抑圧部41と、バンドパスフィルタ42と、特徴量抽出部44と、音声認識部46と、音響モデル部47と、言語モデル部48、と、を有する。
前記雑音抑圧部41は、音質推定部2のSNR推定部24によって検出された雑音パワースペクトルに基づいて、共通成分信号x[n]に含まれている雑音成分を抑圧処理する。この雑音抑圧部41による抑圧処理においては、公知のノイズキャンセラ(Noise Canceller)技術(例えば特開2008−309955号等を参照)を利用してもよい。
前記バンドパスフィルタ42は、雑音抑圧部41で雑音抑圧された共通成分信号x[n]に対して、処理制御部3の特徴量動作モード設定部32によって設定された特徴量動作モードに対応する周波数特性のバンドパスフィルタ処理を施す。
上述したように処理制御部3の特徴量動作モード設定部32から出力される特徴量動作モードの設定情報に従って、共通成分信号x[n]に対して施すバンドパスフィルタの周波数特性を設定することで、次のような効果を得ることができる。すなわち、音質推定部2の上限周波数検出部23によって検出された上限周波数に基づいて、バンドパスフィルタにおける高域の制限周波数を動的に変化させることで、既に帯域拡張された周波数帯域或いは周波数成分の無い周波数帯域を除去し、且つ、低域の制限周波数において直流成分を除去することができる。
なお、上限周波数[kHz]が高い値であるほど、高域の制限周波数を高い値に設定する。
前記特徴量抽出部44は、バンドパスフィルタ42により処理された共通成分信号x[n]から、事前に設定された短時間単位(1フレーム)で特徴量を抽出する。ここで抽出する特徴量としては、例えばMFCCやパワー、或いは等を挙げることができる。さらに、特徴量抽出部44は、動的特徴量としてΔMFCCやΔパワー等を併せて抽出してもよい。
なお、上述の特徴量は例示に過ぎず、他のパラメータを特徴量として採用しても勿論よい。
ところで、特徴量抽出部44は、処理制御部3によって設定された特徴量動作モードに従って特徴量の次数を動的に変化させる。具体的には、例えばMFCC(Mel−Frequency Cepstrum Coefficient;メル周波数ケプストラム係数)の次数を、次のように設定する。
すなわち、MFCCの次数を、上限周波数が11[kHz]未満のときは10次、上限周波数が11[kHz]以上16[kHz]未満のときは12次、上限周波数が16[kHz]以上22[kHz]未満のときは14次、上限周波数が22[kHz]以上のときは16次となるように、上限周波数が高くなるに従って次数を大きくするように変化させる。
図7は、バンドパスフィルタ42による処理の一例を説明する為の図である。共通成分信号x[n]のある時間の瞬時的なパワースペクトルを表した図であり、縦軸はパワースペクトル[dB]で、横軸は周波数[Hz]を表す。図7での上限周波数は8[kHz]であるとする。バンドパスフィルタ42及び特徴量抽出部44による処理においては、設定されている特徴量動作モードに従って、バンドパスフィルタの高域の制限周波数及び特徴量の次数を動的に変化させる。
すなわち、上限周波数よりも高い周波数に含まれる余計な成分を、バンドパスフィルタ42によって除去し、それに似合った次数の特徴量を特徴量抽出部44によって抽出する。従って、低い次数で高精度な特徴量抽出処理を行うことができ、なお且つ処理量を軽減することができる。図7(B)では、上限周波数8[kHz]以上の成分が存在しているため、その成分によって高精度な特徴量抽出処理ができない場合がある。そこで、図7(A)のように、8[kHz]以上の成分をバンドパスフィルタ42によって除去することで、低い次数で高精度な特徴量抽出処理を行うことができることを示した例となっている。
他方、従来の技術によれば、上限周波数の値が低い為に上限周波数よりも高い周波数を含む信号から特徴量抽出処理を行う場合であって、特徴量として例えばMFCC等を採用する場合には、上限周波数よりも高い周波数帯域に含まれる余計な成分(例えば雑音等)が存在する周波数領域においても当該特性のピーク値を検出してしまう。従って、特徴量抽出の精度が悪化してしまう。また、高い次数の特徴量を採用することで処理量が増加してしまう。
前記音声認識部46は、音響モデル部47から音響モデル辞書を読み込み、音響ネットワークを構成する。また、音声認識部46は、言語モデル部48から言語モデル辞書を読み込み、文法ネットワークを構成する。この音声認識部46にはフレーム単位で逐次特徴量が入力される。そして、音声認識部46は、文法ネットワークと音響ネットワークとの合成ネットワーク上で、当該入力された信号に対して、どの経路と特徴量が一番近いのかを“尤度”という尺度で、逐次フレーム単位で探索していく。換言すれば、音声認識部46は、特徴量抽出部44からの出力と音響モデル部47からの出力とをマッチング処理する。
そして、当該音声認識部46への信号入力が終了して初めて、尤度が最大となる経路(一番特徴量と近い経路)が判明する。つまり、この時点で、音声認識部46は、入力信号in[n,k]に該当するテキストとして、尤度が最大となる経路に該当するテキストを出力する。
具体的には、文法ネットワークと音響ネットワークとの前記合成ネットワークは、例えばHMM(Hidden Markov Model)によるネットワークで構成され、前記探索は例えばビームサーチ等の高速探索が用いられる。
前記音響モデル部47は、複数の音響モデル辞書を保持しており、処理制御部3の音響動作モード設定部34によって設定された音響動作モードに従って、音声認識部46により読み出される音響モデル辞書を動的に変更する。
具体的には、この音響モデル部47は、例えば次のような音響モデル辞書を読み込むように構成されている。
《例1》
上限周波数検出部23から出力される上限周波数[kHz]と、特徴量抽出部44の上限周波数(特徴量抽出部44のサンプリング周波数÷2で表される)と、が一番近い値となる音響モデル辞書を読み込む。
《例2》
SNR推定部24から出力されたSNRに基づいて、雑音が大きい場合には当該雑音に対してよりロバストになるように、雑音モデルが合成された音響モデル辞書を読み込む。
《例3》
残響度合推定部25から出力された残響度合に基づいて、残響が大きい場合には、当該残響に対してよりロバストな音響モデル辞書を読み込む。
以上、《例1》〜《例3》に挙げたように、音響モデル部47は、処理制御部3の音響動作モード設定部34から出力される音響動作モードに従って、実際に利用する音響モデル辞書を切り換えることで、入力信号in[n,k]の音質に応じて、常に最適な音響モデル辞書を用意することができる。つまり、音声認識処理における音声認識精度を安定化させ、ばらつきを抑制することができる。なお、音響モデル辞書の中身については公知の技術を用いればよい。
前記言語モデル部48は、音声認識部46によって読み出される言語モデル辞書を保持している。なお、この言語モデル部48については公知の技術を用いてもよい。
以上説明したように、本第1実施形態によれば、入力信号の種類・音質に関わらず、高精度な音声認識結果を得ることができる音声認識装置及びコンテンツ再生装置を提供することができる。
具体的には、音質推定部2が入力信号の音質をリアルタイムに推定し、該推定結果に基づいて、処理制御部3が音声認識処理部4を制御する。これにより、入力信号の音質に対して常に最適な音声認識処理を施して出力することができる。
詳細には、多チャネルからの入力信号について共通成分信号を抽出し、該共通成分信号について間欠的に上限周波数、SN比、及び残響度合い等を検出して音質を推定する。そして、上限周波数に基づいて共通成分信号に掛けるバンドパスフィルタ特性を動的に変更し、上限周波数に基づいて特徴量の抽出方法を変更し、SN比や残響度合いに基づいて音響モデルを変更する等の処理を行う。
このように、本第1実施形態に係る音声認識装置及びコンテンツ再生装置によれば、間欠的に入力信号の音質を推定し、推定された音質に従って適応的に音声認識の特徴量抽出あるいは音響モデルを変更することで、常に高精度な音声認識の結果を得ることができる。
従って、入力信号に係るコンテンツによって上限周波数が異なる場合や、入力信号における上限周波数が時間帯によって異なる場合であっても(例えばインターネット上のコンテンツを再生する場合であっても)、本第1実施形態に係る音声認識装置及びコンテンツ再生装置によれば、効率的且つ効果的な音声認識処理が可能となる。
また、本第1実施形態に係る音声認識装置及びコンテンツ再生装置によれば、再生処理に係るコンテンツの音質を示す情報が、当該入力信号に付与されていない場合であっても、当該音声認識装置/コンテンツ再生装置自身で、リアルタイムに当該入力信号について音質を推定し、該推定結果に基づいて音声認識処理することが可能となる。
さらには、本第1実施形態に係る音声認識装置及びコンテンツ再生装置によれば、音質推定部2の上限周波数検出部23により入力信号の上限周波数を推定し、周波数成分が存在しない周波数帯域における、無駄な音声認識処理を行わない。従って、従来技術に比べて処理量を大きく削減することができ、結果として処理時間の短縮化が実現する。
つまり、例えばネットワーク上のコンテンツのように、コンテンツ毎に音質(例えば上限周波数、雑音成分変動、モノラル/ステレオ等)が種々に異なる場合であっても、それらの音質に対して最適な音声認識処理を行うことができる。
以上、第1実施形態に基づいて本発明を説明したが、本第1実施形態は上述した態様に限定されるものではなく、例えば下記のように種々の変形及び応用が可能なことは勿論である。
[第1変形例]
以下、本第1変形例に係る音声認識装置/コンテンツ再生装置について説明する。説明の重複を避ける為、前記第1実施形態に係る音声認識装置/コンテンツ再生装置との相違点(音声認識処理部4の構成)を説明する。
図8は、本第1変形例に係る音声認識処理部4の一構成例を示す図である。同図に示すように、音声認識処理部4は、雑音抑圧部41と、バンドパスフィルタ42と、帯域拡張部43と、特徴量抽出部44と、音声認識部46と、音響モデル部47と、言語モデル部48と、を有する。すなわち、本第1変形例と前記第1実施形態との主な相違点の一つは、帯域拡張部43の有無である。
前記帯域拡張部43は、処理制御部3の特徴量動作モード設定部32によって設定された特徴量動作モードに従って、バンドパスフィルタ42から出力された共通成分信号x[n]の周波数帯域を、高域へ拡張する処理を行う。具体的には、共通成分信号x[n]の高域の周波数成分を生成することで、周波数帯域を高域へ拡張する。この処理には公知の技術を利用してもよい。
詳細には、この帯域拡張部43は、上限周波数検出部23により検出された上限周波数に基づいて、信号の帯域を拡張する帯域幅を動的に変更する制御を行いながら、バンドパスフィルタ42による処理後の共通成分信号に対して、信号の帯域を拡張する処理を実施する。
ここでは、音響モデル部47は、処理制御部3の音響動作モード設定部34によって設定された音響動作モードに従って、音声認識部46によって読み出される音響モデル辞書を動的に変更する。音響モデル辞書の上限周波数(サンプリング周波数÷2で表される)と、音質推定部2の上限周波数検出部23から出力された上限周波数と、が一致しなかった(換言すれば、入力信号in[n,k]の上限周波数が音響モデルの上限周波数よりも小さい)場合には、上限周波数検出部23から出力される上限周波数を、音響モデル辞書の上限周波数に一致させるように、入力信号in[n,k]について周波数帯域の拡張処理を行う。
例えば、音響モデル部47は、音響モデル辞書として、上限周波数が8kHz、11kHz、16kHz、及び22kHzの4種類の音響モデル辞書を格納している。従って、例えば共通成分信号x[n]の上限周波数が4kHzしかなかった場合には、音響モデル部47は、処理制御部3の音響動作モード設定部34によって設定された音響動作モードに従って、サンプリング周波数8[kHz]の音響モデル辞書を読み込む。
一方、帯域拡張部43は、上限周波数4kHzの共通成分信号x[n]を帯域拡張処理して上限周波数を8[kHz]とし、特徴量抽出部44の出力と音響モデル部47の出力とを周波数について整合させる。
以上説明したように、本第1変形例によれば、前記第1実施形態に係る音声認識装置と同様の効果を奏する上に、下記のような効果を奏する音声認識装置及びコンテンツ再生装置を提供することができる。
すなわち、本第1変形例に係る音声認識装置及びコンテンツ再生装置によれば、音声認識部46による上述のマッチング処理において利用可能なデータ量を増加させることができるので、上述の帯域拡張処理によるデータ補間の精度が高い場合には、音声認識精度がより向上する。
また、本第1変形例によれば、入力信号の音質を音質推定部2によりリアルタイムに推定し、その音質に合わせた音声認識処理を音声認識処理部4によって施して出力する。これにより、例えば入力信号に係るコンテンツによって上限周波数が異なる場合や入力信号における上限周波数が時間帯によって異なる場合であっても、帯域拡張部43による処理で、入力信号の上限周波数を柔軟に変更することができ、効率的且つ効果的な音声認識処理が可能となる。
さらに、本第1変形例によれば、様々な上限周波数に対応する為に音響モデル部47に記憶させる音響モデル辞書のデータ量を小さくすることができる為、メモリ容量を小さくすることができる。
なお、本第1変形例と前記第1実施形態とを次のように使い分けるようにしてもよい。すなわち、入力信号in[n,k]に含まれる雑音が所定の閾値よりも小さい場合(上述の帯域拡張処理によるデータ補完の精度が高い場合)には本第1変形例を適用し、そうでない場合には前記第1実施形態を適用するとしてもよい。
[第2変形例]
以下、第2変形例に係る音声認識装置について説明する。説明の重複を避ける為、前記第1実施形態に係る音声認識装置/コンテンツ再生装置との相違点(音声認識処理部4の構成)を説明する。
図9は、本第2変形例に係る音声認識処理部4の一構成例を示す図である。同図に示すように、音声認識処理部4は、雑音抑圧部41と、バンドパスフィルタ42と、特徴量抽出部44と、特徴量拡張部45と、音声認識部46と、音響モデル部47と、言語モデル部48と、を有する。すなわち、本第2変形例と前記第1実施形態との主な相違点の一つは、特徴量拡張部45の有無である。
前記特徴量拡張部45は、処理制御部3の特徴量動作モード設定部32から出力された特徴量動作モードに従って、特徴量抽出部44から出力された特徴量の周波数帯域を拡張する処理を行う。
詳細には、この特徴量拡張部45は、上限周波数検出部23により検出された上限周波数に基づいて、特徴量抽出部44から出力された特徴量の帯域を拡張する帯域幅を動的に変更する制御を行いながら、特徴量抽出部44により抽出された特徴量に対して帯域を拡張する処理を実施する。
前記音響モデル部47は、処理制御部3の音響動作モード設定部34によって設定された音響動作モードに従って、音声認識部46により読み出される音響モデル辞書を動的に変更する。
ここで、音響モデル辞書の上限周波数(サンプリング周波数÷2で表される)と、上限周波数検出部23から出力される上限周波数と、が一致しなかった(換言すれば、入力信号の上限周波数が音響モデルの上限周波数よりも小さい)場合には、音質推定部2の上限周波数検出部23から出力される上限周波数を、音響モデル辞書の上限周波数に一致させるように、入力信号in[n,k]について周波数帯域の拡張処理を行う。
例えば、音響モデル部47は、音響モデル辞書として上限周波数が8kHz、11kHz、16kHz、及び22kHzの4種類の音響モデル辞書を格納している。従って、共通成分信号x[n]の上限周波数が4kHzしか無かった場合には、音響モデル部47は、処理制御部3の音響動作モード設定部34から出力された音響動作モードに従って、サンプリング周波数8kHzの音響モデル辞書を読み込む。
一方、特徴量拡張部45は、上限周波数4[kHz]の特徴量を帯域拡張処理して、その上限周波数を8[kHz]とする。つまり、特徴量拡張部45は、特徴量抽出部44の出力と音響モデル部47の出力とを周波数について整合させる。
具体的には、特徴量拡張部45による上述の処理(特徴量の周波数帯域の拡張処理)としては、例えば公知のコードブックマッチングを用いた方法(例えば、吉田, 阿部,“コードブックマッピングによる狭帯域音声から広帯域音声の生成法”, 信学論(D-II), vol.J78-D-II, No.3, pp.391-399, Mar. 1995.)や公知のGMM(Gaussian mixture model)を用いた方法(例えば、K. Y. Park, H. S. Kim, ”Narrowband to Wideband Conversion of Speech using GMM based Transformation”, Proc. ICASSP2000, vol.3, pp.1843-1846, Jun. 2000.)に開示されている技術を利用して、MFCCの次数を拡張する(増加させる)方法等を挙げることができる。
なお、拡張する特徴量としては、例えばMFCCの動的特徴量の次数でもよい。また、特徴量拡張部45の処理対象である特徴量の周波数帯域の拡張処理としては、拡張する周波数の幅を考慮して、パワー或いはパワーの動的特徴量を補正する処理であってもよい。
以上説明したように、本第2変形例によれば、前記第1実施形態に係る音声認識装置及びコンテンツ再生装置と同様の効果を奏する上に、次のような効果を奏する音声認識装置及びコンテンツ再生装置を提供することができる。
より具体的には、入力信号の音質を音質推定部2によりリアルタイムに推定し、その音質に合わせた音声認識処理を音声認識処理部4によって施して出力する。これにより、例えば入力信号に係るコンテンツによって上限周波数が異なる場合や入力信号における上限周波数が時間帯によって異なる場合であっても、特徴量拡張部45による処理で、入力信号の上限周波数を柔軟に変更することができ、効率的且つ効果的な音声認識処理が可能となる。
さらに、本第2変形例によれば、様々な上限周波数に対応する為に音響モデル部47に記憶させる音響モデル辞書のデータ量を小さくすることができる為、メモリ容量を小さくすることができる。さらに、特徴量のみについて周波数帯域を拡張処理するので、前記第1変形例と比較して処理量を軽減させることができる。
[第2実施形態]
以下、第2実施形態に係るコンテンツ再生装置について説明する。説明の重複を避ける為、前記第1実施形態に係る音声認識装置/コンテンツ再生装置との相違点を説明する。
図10は、本発明の第2実施形態に係るコンテンツ再生装置の一構成例を示す図である。本第2実施形態に係るコンテンツ再生装置は、音声認識装置101と、多重分離・デコーダ201と、D/A変換器202−1乃至D/A変換器202−nと、スピーカ203−1乃至スピーカ203−nと、字幕生成部204と、音源位置推定部205と、余白位置検出部206と、コネクタ制御部207と、ボタン部208と、切換制御部209と、字幕付加部210と、表示部211と、ユーザ入力部213と、を具備する。
前記音声認識装置101は、上述した第1実施形態、第1変形例、または第2変形例に係る音声認識装置であり、上述した処理で入力信号in[n,k]に対応するテキストを出力する。なお、図10においては紙面の都合上、音質推定部2及び処理制御部3の図示を省略しているが、それらを有していることは勿論である。
前記多重分離・デコーダ201は、符号化された映像データを入力として、該映像データを、符号化された動画像データと、符号化されたオーディオデータと、に分離し、且つそれぞれのデータをデコード処理し、動画像信号とオーディオ信号とを出力する。
前記D/A変換器202−1乃至D/A変換器202−nは、多重分離・デコーダ201から出力されたディジタル信号であるオーディオ信号に対して、D/A(ディジタル/アナログ)変換を行い、アナログ信号であるオーディオ信号を生成して出力する。
前記スピーカ203−1乃至スピーカ203−nは、前記D/A変換器202−1乃至D/A変換器202−nから出力されたアナログ信号であるオーディオ信号を音響空間へ出力する。
なお、前記D/A変換器202−1乃至D/A変換器202−n、及び前記スピーカ203−1乃至スピーカ203−nについては、それぞれ多重分離・デコーダ201の出力であるオーディオ信号のチャネル数と同数だけ設ける構成としてもよい。
前記字幕生成部204は、音声認識部101から入力されたテキストに基づいて字幕(テロップ)画像データを生成し、該字幕画像データを字幕付加部210へ出力する。
前記字幕付加部210は、字幕生成部204から出力された字幕画像データを、多重分離・デコーダ201から出力された動画像信号に対して付加して表示部211へ出力する。
前記表示部211は、字幕付加部210から出力された字幕画像データが付加された動画像信号、或いは、多重分離・デコーダ201から出力された動画像信号を表示する。
前記切換制御部209は、スイッチ209Aとスイッチ209Bとを備えており、これらスイッチ209A,209Bを切換えることで、多重分離・デコーダ201から出力された動画像信号に対して、字幕付加部210により字幕画像データを付加するか否かを切換え制御する。
この切換え制御を実現する為の一構成例としては、例えば次のような構成を挙げることができる。すなわち、切換えの為のトリガー部材としてボタン部208を設け、該ボタン部208の操作状態によって前記切換えを行うようにしてもよい。また、イヤホン等を接続する為のコネクタ(不図示)へのイヤホン等の接続を検出するコネクタ制御部207を設け、該コネクタ制御部207が前記接続を検出した場合には字幕画像データを付加しないように切換え、前記接続を検出していない場合には字幕画像データを付加させるように切換えを行うように構成してもよい。
さらには、字幕画像データを、動画像信号の表示画面のうち何れの部位に付加させるかについては次のように決定してもよい。すなわち、例えば表示画面の右端部位や左端部位に所定の範囲を設定し、該所定の範囲内において縦書きで表示されるように字幕画像データを付加してもよいし、表示画面の下端部位に所定の範囲を設定し、該所定の範囲内において横書きで表示されるように字幕画像データを付加してもよい。
ところで、字幕画像データを付加する位置を特に固定化せず、動的に変化させてもよい。この場合、例えば下記のような構成を採ればよい。
《音源位置推定部205を利用する例》
前記音源位置推定部205は、入力された動画像信号と複数チャネルのオーディオ信号とに基づいて、音源の位置を推定する。具体的には、この音源位置推定部205は、動画像信号に基づいて顔認識処理を行ったり、複数チャネルのオーディオ信号に基づいて左右のバランスを評価したりすることで、音源の位置を推定する。
そして、この音源位置推定部205による音源位置の推定結果に基づいて、字幕付加部210は、動画像信号に対して付加する字幕画像データの位置がその表示画面のうち音源により近い部位になるように、付加する位置を動的に変化させる。
このように構成することで、当該コンテンツ再生装置から音を出力させることができない環境において、対話などのシーンを再生表示する場合には、当該表示画面における字幕を視認するだけで、ユーザはその内容を理解することができる。
《余白位置検出部206を利用する例》
前記余白位置検出部206は、入力された動画像信号に基づいて、当該動画像信号が再生された際に余白部位(或いは重要度が低い部位)となる範囲を検出する。
そして、字幕付加部210は、この余白位置検出部206により検出された余白位置に字幕画像データを付加するように、付加する位置を動的に変化さる。
このように構成することで、動画像信号が再生表示された映像と字幕とが重畳表示されてしまい、映像及び字幕の双方が見づらくなってしまうことを防ぐことができる。
ところで、図11は、音声認識部101、字幕生成部104、及び字幕付加部210による処理のタイミングを時間軸に沿って示す図である。詳細には、図11は、動画像信号が再生表示された映像と、それに付加された字幕画像データと、の表示タイミングが時間的にずれないように処理する為のタイミングチャートを示す図である。
音声認識部101については、音声認識部101及び字幕生成部104による処理に要する時間を鑑みて、同図に示す“L”[sec]だけ“先読み時間”を設定し、オーディオ信号を音声認識部101に対して先読みして与える。
ここで、音声認識部101による処理は1文章ずつの処理である。従って、音声認識部101は、1文章ずつの音声認識処理結果としてのテキストを、順次、字幕生成部104へ出力する。
なお、前記先読み時間L[sec]は、全ての文章(本例では文章1、文章2、及び文章3)の時間(本例では、時間T1,時間T2,及び時間T3)よりも大きな値となるように、事前に測定して設定する。
ところで、前記ユーザ入力部213は、当該コンテンツ再生装置に対して操作入力を行う為の部材である。具体的には、例えばマウスやキーボード等の通常の操作部材であってもよいし、GUI(Graphical User Interface)等であってもよい。
そして、このユーザ入力部213を用いて、例えば下記の操作を行うことができるように構成する。
・字幕画像データと動画像信号を別のデータとして扱うことで、レイヤー化する操作。
・字幕画像データのドラッグ等して付加位置を移動する操作。
・字幕画像データをドラッグ等して表示画面の縁部位に向かって移動させることで、当該字幕画像データの表示をOFFとする操作。
・表示部211を叩く操作(タップ)等して物理的衝撃を与えることで、字幕画像データの表示をONにする操作。
以上説明したように、本第2実施形態によれば、第1実施形態に係る音声認識装置及びコンテンツ再生装置と同様の効果を奏する上に、再生に係るコンテンツの動画像信号に対して、オーディオ信号に基づいてリアルタイムで字幕を生成し、該字幕を再生表示された表示画面中の最適な位置に付加することができるコンテンツ再生装置を提供することができる。従って、本第2実施形態に係るコンテンツ再生装置によれば、例えば音声をスピーカ出力させることができない環境であっても、再生に係るコンテンツを充分に楽しむことができる。
なお、例えばインターネット上のコンテンツ等を再生する場合には、当該コンテンツ自体に字幕を追加させることは著作権法の観点から好ましくないので、音声認識処理を利用して字幕を付加する処理を実施するのが望ましい。
[第3実施形態]
以下、第3実施形態に係る音声認識装置及びコンテンツ再生装置について説明する。説明の重複を避ける為、前記第1実施形態に係る音声認識装置/コンテンツ再生装置との相違点を説明する。
図12は、本発明の第3実施形態に係るコンテンツ再生装置の一構成例を示す図である。本第3実施形態に係るコンテンツ再生装置は、音声認識部101と、多重分離・デコーダ201と、言語解析部401と、ジャンル判定部402と、表示部403と、を具備する。
前記音声認識装置101は、上述した第1実施形態、第1変形例、または第2変形例に係る音声認識装置であり、上述した処理で入力信号in[n,k]に対応するテキストを出力する。なお、図12においては紙面の都合上、音質推定部2及び処理制御部3の図示を省略しているが、それらを有していることは勿論である。
前記多重分離・デコーダ201は、符号化された映像データを入力として、該映像データを、符号化された動画像データと、符号化されたオーディオデータと、に分離し、且つそれぞれのデータをデコード処理し、動画像信号とオーディオ信号とを出力する。
前記言語解析部401は、音声認識部101から出力されたテキストについて言語解析処理を実行する。具体的には、この言語解析部401は、入力されたテキストの内容が言語的に意味を成す内容であるか否かをチェックするような言語解析処理を行う。なお、音声認識部101から出力されるテキストは、文章であるとする。
前記ジャンル判定部402は、言語解析部401から出力された言語解析処理結果に基づいて、当該テキストの内容が言語的に意味を成す内容であるか否かを判定することによって、当該再生に係るコンテンツが属するジャンルを判定する。
具体的には、当該テキストの内容が言語的に意味を成す内容である場合には当該コンテンツは例えば会話等の“音声”であると判定し、言語的に意味を成さない内容である場合には当該コンテンツは所謂“音楽”であると判定する。なお、この判定処理はあくまでも一例であり、この判定処理に限られないことは勿論である。
前記表示部403は、ジャンル判定部402から出力された判定処理結果に基づいて、“音声”であるとの判定であれば音声認識部101から出力されたテキストを表示し、“音楽”であるとの判定であれば音楽区間である旨を表示する。
以上説明したように、本第3実施形態によれば、第1実施形態に係る音声認識装置及びコンテンツ再生装置と同様の効果を奏する上に、オーディオデータに基づいて、当該再生処理に係るコンテンツのジャンルを判定し、該判定結果に基づいて、音声認識処理結果の表示方法を変化させることで、言語的に意味を成さない音声認識処理結果を表示することが無くなり、より効率的に情報を呈示することができるコンテンツ再生装置を提供することができる。
さらに、上述した実施形態には種々の段階の発明が含まれており、開示した複数の構成要件の適当な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示す全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成も発明として抽出され得る。
1…共通成分抽出部、 2…音質推定部、 3…処理制御部、 4…音声認識処理部、 21…有音・無音判定部、 22…帯域拡張既処理検出部、 23…上限周波数検出部、 24…SNR推定部、 25…残響度合推定部、 31…有音動作モード設定部、 32…特徴量動作モード設定部、 33…雑音動作モード設定部、 34…音響動作モード設定部、 41…雑音抑圧部、 42…バンドパスフィルタ、 43…帯域拡張部、 44…特徴量抽出部、 45…特徴量拡張部、 46…音声認識部、 47…音響モデル部、 48…言語モデル部、 101…音声認識装置、 104…字幕生成部、 201…多重分離・デコーダ、 202−1〜202−n…D/A変換器、 203−1〜203−n…スピーカ、 204…字幕生成部、 205…音源位置推定部、 206…余白位置検出部、 207…コネクタ制御部、 208…ボタン部、 209…切換制御部、 209A…スイッチ、 209B…スイッチ、 209A,209B…スイッチ、 210…字幕付加部、 211…表示部、 213…ユーザ入力部、 401…言語解析部、 402…ジャンル判定部、 403…表示部。

Claims (12)

  1. 入力信号について音声認識処理を実行する音声認識処理部を具備する音声認識装置であって、
    前記入力信号の音質を推定する音質推定部と、
    前記音質推定部による推定結果に基づいて、前記音声認識処理部による音声認識処理を制御する制御部と、
    を具備することを特徴とする音声認識装置。
  2. 前記音質推定部は、前記入力信号の制限周波数を検出する制限周波数検出部を有し、
    前記制御部は、前記制限周波数検出部により検出された前記制限周波数までの帯域についてのみ、前記音声認識処理部に音声認識処理させる制御を行う
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 前記制限周波数検出部は、前記入力信号について間欠的にパワースペクトルを算出し、該パワースペクトルを解析することにより前記制限周波数を検出する
    ことを特徴とする請求項2に記載の音声認識装置。
  4. 前記音質推定部は、前記入力信号に対して既に信号帯域拡張処理が施されているか否かを検出する信号帯域拡張処理検出部を有し、
    前記制限周波数検出部は、前記音質推定部によって信号帯域拡張処理が施されていないとされた場合に、前記入力信号の前記制限周波数を検出する
    ことを特徴とする請求項3に記載の音声認識装置。
  5. 前信号帯域拡張処理検出部は、前記入力信号についてパワースペクトルを算出し、該パワースペクトルにおける特定周波数近傍の帯域成分が欠落しているか否かを検出することにより、前記入力信号に対して既に帯域拡張処理が施されているか否かを検出する
    ことを特徴とする請求項4に記載の音声認識装置。
  6. 当該音声認識装置は、
    前記音声認識処理部による音声認識処理に供される前記入力信号の特徴量を、前記入力信号から抽出する特徴量抽出部と、
    前記音声認識処理部による音声認識処理に供される複数の音響モデル辞書を保持する音響モデル部と、
    を備え、
    前記制御部は、
    前記制限周波数検出部によって検出された前記制限周波数に基づいて、前記特徴量抽出部を制御し、且つ、前記音声認識処理部による音声認識処理に供される音響モデル辞書を、前記音響モデル部が保持する音響モデル辞書の中から選択する
    ことを特徴とする請求項2に記載の音声認識装置。
  7. 当該音声認識装置は、
    前記音声認識処理部による音声認識処理に供される前記入力信号の特徴量を、前記入力信号から抽出する特徴量抽出部と、
    前記入力信号の周波数帯域を帯域拡張処理して前記特徴量抽出部に出力する帯域拡張処理部と、
    前記音声認識処理部による音声認識処理に供される複数の音響モデル辞書を保持する音響モデル部と、
    を備え、
    前記制御部は、前記制限周波数検出部によって検出された前記制限周波数に基づいて、前記特徴量抽出部を制御し、且つ、前記特徴量抽出部の出力と前記音響モデル部の出力とを周波数帯域について整合させるように前記帯域拡張処理部を制御する
    ことを特徴とする請求項2に記載の音声認識装置。
  8. 当該音声認識装置は、
    前記音声認識処理部による音声認識処理に供される前記入力信号の特徴量を前記入力信号から抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された前記特徴量の周波数帯域を帯域拡張処理する帯域拡張処理部と、
    前記音声認識処理部による音声認識処理に供される複数の音響モデル辞書を保持する音響モデル部と、
    を備え、
    前記制御部は、
    前記制限周波数検出部によって検出された前記制限周波数に基づいて、前記特徴量抽出部を制御し、且つ、前記音声認識処理部による音声認識処理に供される前記特徴量と前記音響モデル辞書とを周波数帯域について整合させるように前記帯域拡張処理部を制御する
    ことを特徴とする請求項2に記載の音声認識装置。
  9. 前記入力信号とは、複数の入力信号チャネルから当該音声認識装置に入力された複数の入力信号に互いに共通する共通成分信号である
    ことを特徴とする請求項1乃至請求項8のうち何れか一つに記載の音声認識装置。
  10. 入力された映像データを、動画像データとオーディオデータとに分離する分離デコーダ部と、
    前記オーディオデータについて音声認識処理を実行してテキストデータを生成する音声認識処理部と、
    前記入力信号の音質を推定する音質推定部と、
    前記音質推定部による推定結果に基づいて、前記音声認識処理部による音声認識処理を制御する制御部と、
    前記動画像データに対して前記テキストデータを付加する字幕付加部と、
    を具備することを特徴とするコンテンツ再生装置。
  11. 前記音質推定部は、前記入力信号について制限周波数を検出する制限周波数検出部を有し、
    前記制御部は、前記制限周波数検出部により検出された前記制限周波数までの帯域についてのみ、前記音声認識処理部に音声認識処理させる制御を行う
    ことを特徴とする請求項10に記載のコンテンツ再生装置。
  12. 当該コンテンツ再生装置は、
    前記音声認識処理部による音声認識処理に供される前記入力信号の特徴量を、前記入力信号から抽出する特徴量抽出部と、
    前記音声認識処理部による音声認識処理に供される複数の音響モデル辞書を保持する音響モデル部と、
    を備え、
    前記制御部は、
    前記制限周波数検出部によって検出された前記制限周波数に基づいて、前記特徴量抽出部を制御し、且つ、前記音声認識処理部による音声認識処理に供される音響モデル辞書を、前記音響モデル部が保持する音響モデル辞書の中から選択する
    ことを特徴とする請求項11に記載のコンテンツ再生装置。
JP2010070581A 2010-03-25 2010-03-25 音声認識装置、及びコンテンツ再生装置 Expired - Fee Related JP5166470B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010070581A JP5166470B2 (ja) 2010-03-25 2010-03-25 音声認識装置、及びコンテンツ再生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010070581A JP5166470B2 (ja) 2010-03-25 2010-03-25 音声認識装置、及びコンテンツ再生装置

Publications (2)

Publication Number Publication Date
JP2011203480A true JP2011203480A (ja) 2011-10-13
JP5166470B2 JP5166470B2 (ja) 2013-03-21

Family

ID=44880178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010070581A Expired - Fee Related JP5166470B2 (ja) 2010-03-25 2010-03-25 音声認識装置、及びコンテンツ再生装置

Country Status (1)

Country Link
JP (1) JP5166470B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015145660A1 (ja) * 2014-03-27 2015-10-01 パイオニア株式会社 音響装置、欠落帯域推定装置、信号処理方法及び周波数帯域推定装置
WO2017099092A1 (ja) * 2015-12-08 2017-06-15 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP2019016206A (ja) * 2017-07-07 2019-01-31 株式会社富士通ソーシアルサイエンスラボラトリ 音声認識文字表示プログラム、情報処理装置、及び、音声認識文字表示方法
JP2019219468A (ja) * 2018-06-18 2019-12-26 Zホールディングス株式会社 生成装置、生成方法及び生成プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268698A (ja) * 2001-03-08 2002-09-20 Nec Corp 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP2007017462A (ja) * 2005-07-05 2007-01-25 Advanced Telecommunication Research Institute International データ作成装置及びコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268698A (ja) * 2001-03-08 2002-09-20 Nec Corp 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP2007017462A (ja) * 2005-07-05 2007-01-25 Advanced Telecommunication Research Institute International データ作成装置及びコンピュータプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015145660A1 (ja) * 2014-03-27 2015-10-01 パイオニア株式会社 音響装置、欠落帯域推定装置、信号処理方法及び周波数帯域推定装置
JPWO2015145660A1 (ja) * 2014-03-27 2017-04-13 パイオニア株式会社 音響装置、欠落帯域推定装置及び信号処理方法
US10839824B2 (en) 2014-03-27 2020-11-17 Pioneer Corporation Audio device, missing band estimation device, signal processing method, and frequency band estimation device
WO2017099092A1 (ja) * 2015-12-08 2017-06-15 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JPWO2017099092A1 (ja) * 2015-12-08 2018-09-27 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US10614823B2 (en) 2015-12-08 2020-04-07 Sony Corporation Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
JP2019016206A (ja) * 2017-07-07 2019-01-31 株式会社富士通ソーシアルサイエンスラボラトリ 音声認識文字表示プログラム、情報処理装置、及び、音声認識文字表示方法
JP2019219468A (ja) * 2018-06-18 2019-12-26 Zホールディングス株式会社 生成装置、生成方法及び生成プログラム

Also Published As

Publication number Publication date
JP5166470B2 (ja) 2013-03-21

Similar Documents

Publication Publication Date Title
US11887578B2 (en) Automatic dubbing method and apparatus
US9196247B2 (en) Voice recognition method and voice recognition apparatus
US7953590B2 (en) Using separate recording channels for speech-to-speech translation systems
US8442833B2 (en) Speech processing with source location estimation using signals from two or more microphones
JPH06332492A (ja) 音声検出方法および検出装置
CN101359473A (zh) 自动进行语音转换的方法和装置
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
JP5411807B2 (ja) チャネル統合方法、チャネル統合装置、プログラム
JP2011250100A (ja) 画像処理装置および方法、並びにプログラム
Dekens et al. Improved speech recognition in noisy environments by using a throat microphone for accurate voicing detection
JP5166470B2 (ja) 音声認識装置、及びコンテンツ再生装置
Tavi et al. Recognition of Creaky Voice from Emergency Calls.
JP5647455B2 (ja) 音声に含まれる吸気音を検出する装置、方法、及びプログラム
Kitaoka et al. Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performance
JP2007233148A (ja) 発話区間検出装置及び発話区間検出プログラム
JP2008310138A (ja) シーン分類装置
JP2019020678A (ja) ノイズ低減装置および音声認識装置
JP2006154531A (ja) 音声速度変換装置、音声速度変換方法、および音声速度変換プログラム
Weber et al. Constructing a dataset of speech recordings with lombard effect
JP2011013383A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
Kubala et al. Broadcast news transcription
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
JP2003259311A (ja) 映像再生方法、映像再生装置、映像再生プログラム
JP6313619B2 (ja) 音声信号処理装置及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120508

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121220

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees