JP6011565B2 - 音声検索装置、音声検索方法及びプログラム - Google Patents

音声検索装置、音声検索方法及びプログラム Download PDF

Info

Publication number
JP6011565B2
JP6011565B2 JP2014042541A JP2014042541A JP6011565B2 JP 6011565 B2 JP6011565 B2 JP 6011565B2 JP 2014042541 A JP2014042541 A JP 2014042541A JP 2014042541 A JP2014042541 A JP 2014042541A JP 6011565 B2 JP6011565 B2 JP 6011565B2
Authority
JP
Japan
Prior art keywords
phoneme
likelihood
search
frame
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014042541A
Other languages
English (en)
Other versions
JP2015169698A (ja
Inventor
寛基 富田
寛基 富田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2014042541A priority Critical patent/JP6011565B2/ja
Priority to US14/597,958 priority patent/US9431007B2/en
Priority to CN201510096120.0A priority patent/CN104899240B/zh
Publication of JP2015169698A publication Critical patent/JP2015169698A/ja
Application granted granted Critical
Publication of JP6011565B2 publication Critical patent/JP6011565B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Description

本発明は、音声検索装置、音声検索方法及びプログラムに関する。
近年、音声や動画等のマルチメディアコンテンツの拡大・普及に伴い、高精度なマルチメディア検索技術が求められている。その中の音声検索に関して、与えられた検索語(クエリ)に対応する音声が発話されている箇所を音声中から特定する音声検索の技術が研究されている。音声検索では、音声認識の難しさ等のような特有の原因により、文字列の中から所望の検索語を含む箇所を特定する文字列検索の技術に比べて、十分な性能の検索手法が未だ確立されていない。そのため、十分な性能の音声検索を実現するための技術が様々に研究されている。
例えば非特許文献1は、音声認識結果をベースとした音声検索において、未知語や認識誤りといった問題を考慮して、頑健に音声検索する手法を開示している。
岩見圭祐,坂本渚,中川聖一,"距離つき音節n−gram索引による音声検索語検出の距離尺度の厳密化",情報処理学会論文誌,Vol.54,No.2,495−505,(2013.2)
しかしながら、高精度な音声検索を実現するためには、未だ様々な課題がある。例えば、検索対象の音声信号における区間によっては、長音や無音に近い信号の区間のようにどのような検索語に対しても検索語に対応する音声が発せられていると推定されやすい区間と、そうでない区間とが存在し、誤検出の原因となっている。また、検索語によっては、検索語の中の一部分のみが検索対象の音声信号に近い場合に、その一部分のみによって検索語全体が音声信号に対応すると誤って推定されることもある。
本発明は、以上のような課題を解決するためのものであり、高精度に音声検索することが可能な音声検索装置、音声検索方法及びプログラムを提供することを目的とする。
上記目的を達成するため、本発明に係る音声検索装置は、
検索語を取得する検索語取得手段と、
前記検索語取得手段が取得した検索語を音素列に変換する変換手段と、
検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段と、
前記検索対象の音声信号における各フレームについて、前記音素列に含まれる音素の中から基準音素を選択する基準音素選択手段と、
前記検索対象の音声信号における各フレームについて、前記音素列に含まれる各音素について得られた該各フレームにおける出力確率に基づく値の、前記基準音素について得られた該各フレームにおける出力確率に基づく値を基準とした相対値を算出する相対化演算手段と、
前記検索対象の音声信号において尤度取得区間を複数指定する区間指定手段と、
前記相対化演算手段による演算後の相対値に基づいて、前記区間指定手段が指定した尤度取得区間が前記検索語に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索語に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする。
本発明によれば、高精度に音声検索することができる。
本発明の実施形態1に係る音声検索装置の物理構成を示す図である。 本発明の実施形態1に係る音声検索装置の機能構成を示す図である。 (a)は、検索対象の音声信号の波形図である。(b)は、検索対象の音声信号において設定されるフレームを示す図である。(c)は、検索対象の音声信号において指定される尤度算出区間を示す図である。 (a)は、各音素の各フレームにおける距離を示す図である。(b)は、各フレームにおける基準音素を示す図である。(c)は、基準音素の距離で相対化された距離を示す図である。 DPマッチングによる最尤系列の探索を、各フレームにおける音声信号の特徴量と各音素との距離のマトリクスを用いて示す図である。 本発明の実施形態1に係る音声検索装置が実行する音声検索処理の流れを示すフローチャートである。 本発明の実施形態1に係る相対化演算処理の流れを示すフローチャートである。 本発明の実施形態2に係る音声検索装置の機能構成を示す図である。 DPマッチングによる最尤系列の探索と、その際に作成される累積距離テーブル及び遷移方向テーブルと、を示す図である。 (a)は、検索語に対応する音素列のうちの一部の音素のみを含む区間における最尤系列の探索により得られた経路と正規化した累積距離とを示す図である。(b)は、検索語に対応する音素列のうちの全ての音素を含む区間における最尤系列の探索と正規化した累積距離とを示す図である。 本発明の実施形態2に係る音声検索装置が実行する音声検索処理の流れを示すフローチャートである。 本発明の実施形態2に係る正規化演算処理の流れを示すフローチャートである。
以下、本発明の実施形態について、図面を参照して説明する。なお、図中同一又は相当する部分には同一符号を付す。
(実施形態1)
実施形態1に係る音声検索装置は、物理的には図1に示すように構成される。音声検索装置100は、ROM(Read Only Memory)1と、RAM(Random Access Memory)2と、外部記憶装置3と、入力装置4と、出力装置5と、CPU(Central Processing Unit)6と、を備える。
ROM1は、各種初期設定、ハードウェアの検査、プログラムのロード等を行うための初期プログラムを記憶する。RAM2は、CPU6が実行する各種ソフトウェアプログラム、これらのソフトウェアプログラムの実行に必要なデータ等を一時的に記憶する。
外部記憶装置3は、例えば、ハードディスク等であって、各種ソフトウェアプログラム、データ等を記憶する。これらソフトウェアプログラムの中には、アプリケーションソフトウェアプログラムやOS(Operating System)のような基本ソフトウェアプログラムなどが含まれている。
入力装置4は、例えば、キーボード等である。入力装置4は、ユーザがキーボードを用いて操作入力したテキストデータ等をCPU6に入力する。出力装置5は、例えば、液晶ディスプレイ等の画面、スピーカ等を備える。出力装置5は、CPU6によって出力されたテキストデータを画面に表示し、音声データをスピーカから出力する。
CPU6は、外部記憶装置3に記憶されたソフトウェアプログラムをRAM2に読み出して、そのソフトウェアプログラムを実行制御することにより、以下の機能構成を実現する。
音声検索装置100は、機能的には図2に示すように構成される。音声検索装置100は、音声信号記憶部101と、音響モデル記憶部102と、時間長記憶部104と、検索語取得部111と、変換部112と、時間長導出部113と、区間指定部114と、特徴量算出部115と、出力確率取得部116と、探索部117と、尤度算出部118と、繰り返し部119と、特定部120と、相対化演算部130と、を備える。音声信号記憶部101、音響モデル記憶部102、及び時間長記憶部104は、外部記憶装置3の記憶領域に構築されている。
音声信号記憶部101は、検索対象の音声信号を記憶する。検索対象の音声信号は、例えばニュース放送等の音声、録音された会議の音声、映画の音声等に係る音声信号である。
音響モデル記憶部102は、音響モデルを記憶する。音響モデルは、検索語として取得可能な文字列を構成する各音素の周波数特性をモデル化したものである。音響モデル記憶部102は、例えばモノフォン(1音素)による音響モデル(モノフォンモデル)、バイフォン(2音素)による音響モデル(バイフォンモデル)、トライフォン(3音素)による音響モデル(トライフォンモデル)等を記憶する。
モノフォンモデルは、1音素毎に生成された音響モデルであり、隣接する音素に依存しない、すなわち前後の音素状態との状態遷移を固定化した音響モデルである。バイフォンモデル及びトライフォンモデルは、それぞれ2音素毎及び3音素毎に生成された音響モデルであり、隣接する音素に依存する音響モデルである。バイフォンモデルは、前後片方の音素状態との状態遷移を考慮した音響モデルである。トライフォンモデルは、前後両方の音素状態との状態遷移を考慮した音響モデルである。以下、音響モデルとしてモノフォンモデルを用いる場合を例にとって説明する。音声検索装置100は、音響モデルを一般的な方法で学習して、音響モデル記憶部102に予め記憶しておく。
音響モデルとして、例えば、一般的な音声認識で利用される音響モデルであるHMM(Hidden Markov Model;隠れマルコフモデル)を利用できる。HMMは、統計的な手法により音声信号からその音声信号が出力される元となった言葉を確率的に推定するためのモデルである。HMMは、時間的な状態の揺らぎを示す遷移確率と、各状態から入力された特徴量を出力する確率(出力確率)と、をパラメータとした標準パターンを用いる。この出力確率は、所定の重み係数で重み付けされたガウス(正規)分布を加算した混合ガウス分布によって表される。
時間長記憶部104は、音響モデルで利用される各音素の平均継続長を、各音素の状態単位で記憶する。各音素の平均継続長とは、各音素が発さられるときの平均的な時間長である。各音素の状態とは、各音素を時間方向に細分化した単位であり、音響モデルの最小単位に相当する。各音素には予め状態数が定められている。
以下では、各音素に定められた状態数が「3」である場合を例にとって説明する。例えば、音素「a」は、この音素の発話開始時を含む第1状態「a1」と、中間状態である第2状態「a2」と、発話終了時を含む第3状態「a3」と、の3つの状態に分けられる。音響モデルで利用される全音素の数をQとした場合、(3×Q)個の状態が存在する。音声検索装置100は、(3×Q)個の状態のそれぞれについて、大量の音声信号のデータから継続長の平均値を算出し、時間長記憶部104に予め記憶しておく。
なお、検索精度の向上のためには、音響モデルを学習するための音声信号、及び、音素の平均継続長を算出するための音声信号は、検索対象の音声信号が発せられたドメイン(環境)と同じドメインで発せられたものであることが好適である。例えば、検索対象が会議室で録音された音声信号である場合には、会議室で録音された音声信号を用いて音響モデルを学習し、音素の平均継続長を算出することが好適である。しかし、音響モデルを学習するための音声信号、及び、音素の平均継続長を算出するための音声信号は、検索対象の音声信号が発せられたドメインと異なるドメインで発せられたものであってもよい。
検索語取得部111は、検索語を取得する。検索語取得部111は、検索語として、例えば入力装置4を介してユーザが入力した検索文字列を取得する。すなわち、ユーザは、音声検索装置100に対して、検索対象の音声信号から目的の音声が発話されている部分を検索するための検索語(クエリ)を、文字列(テキスト)で与える。
変換部112は、音響モデルの音素を検索語取得部111が取得した検索語に従って並べて、検索語を音素列に変換する。すなわち、変換部112は、検索語に含まれる文字と同順で、各文字を発声したときの音素を並べることにより、検索語を音素列に変換する。
例えば、検索語として日本語「ラーメン」が入力された場合、「ラーメン」は「r」と「a:」と「m」と「e」と「N」との5つの音素(モノフォン)を含むため、変換部112は、音素列「r,a:,m,e,N」を生成する。あるいは、検索語として英語「cake」が入力された場合、「cake」は「k」と「e」と「i」と「k」との4つの音素(モノフォン)を含むため、変換部112は、音素列「k,e,i,k」を生成する。
特徴量算出部115は、音声信号記憶部101から検索対象の音声信号を取得して、検索対象の音声信号の特徴量を、フレーム毎に算出する。この特徴量は、例えばケプストラムやメルケプストラムと呼ばれる音声データを周波数軸上に変換して得られる周波数軸系特徴パラメータと、音声データのエネルギー2乗和やその対数を計算することにより得られるパワー系特徴パラメータと、を組み合わせることによって得られる。
例えば、特徴量は、周波数軸系特徴パラメータ12成分(12次元)とパワー系特徴パラメータ1成分(1次元)、直前の時間窓の各成分との差分を取ったもの、すなわち△周波数軸系特徴パラメータ12成分(12次元)と△パワー系特徴パラメータ1成分(1次元)、及び直前の時間窓の各成分との差分の差分を取ったもの、すなわち△△周波数軸系特徴パラメータ12成分(12次元)の、合計38成分を有する38次元ベクトル量として構成される。
フレームとは、音声信号における所定の時間長を有する時間窓である。具体的に図3を参照して、検索対象の音声信号において設定されるフレームについて説明する。図3(a)は、先頭から末尾までの時間長Tの検索対象の音声信号の波形図である。縦軸は波形の振幅(エネルギー)の大きさを示し、横軸は時間tを示す。図3(b)は、図3(a)に示す音声信号において設定されるフレームを示す。第0フレームから第(N−1)フレームまで、それぞれフレーム長FのN個のフレームが、所定のシフト長Sずつシフトして設定される。
フレーム長F及びシフト長Sは、音響モデルの作成時に設定した時間長に合わせる(例えば、フレーム長F=25msec、シフト長S=10msec等)。シフト長Sよりもフレーム長Fの方が長いため、各フレームは、隣接するフレームと時間長(F−S)だけ重複する。
出力確率取得部116は、特徴量算出部115が算出した特徴量に基づいて、この特徴量が音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する。また、出力確率取得部116は、検索対象の音声信号の特徴量が無音音素から出力される出力確率を、フレーム毎に取得する。
具体的には、出力確率取得部116は、音響モデル記憶部102から音響モデルを取得して、特徴量算出部115が算出した各フレームにおける特徴量と、音素列に含まれる各音素及び無音音素の音響モデルと、を比較する。そして、各フレームにおける特徴量が各音素及び無音音素から出力される確率を計算する。この出力確率は、複数のガウス分布を重み付きで加算した正規混合連続分布によって表される。
出力確率取得部116が各音素及び無音音素の各フレームにおける出力確率を取得すると、相対化演算部130は、出力確率取得部116がフレーム毎に取得した特徴量が音素列に含まれる各音素から出力される出力確率に対して、この特徴量が音素列に含まれる他の音素から出力される出力確率に基づく相対化演算を実行する。相対化演算部130は、基準音素選択部131と、相対値算出部132と、を含む。
図4を参照して、相対化演算部130の相対化演算処理について説明する。相対化演算部130は、出力確率取得部116が取得した出力確率から、各音素の各フレームにおける音声信号の特徴量からの距離を計算する。図4(a)に、検索語として日本語「ラーメン」が入力された場合の例として、変換部112が変換した音素列「r,a:,m,e,N」の各音素、及び無音音素「sil」の、各フレームにおける距離を示す。
なお、距離は、各音素の音響モデルと各フレームにおける音声信号の特徴量との違いの度合を示す指標である。距離は、出力確率の対数をとった値の符号を逆にすることにより得られる。ある音素のあるフレームにおける距離が小さいほど、その音素からそのフレームにおける音声信号の特徴量が出力される確率が大きい、すなわち、その音素の音響モデルとそのフレームにおける音声信号の特徴量とが近いことを示す。
各音素の各フレームにおける距離を計算すると、基準音素選択部131は、検索対象の音声信号における各フレームについて、音素列に含まれる音素の中から基準音素を選択する。具体的に説明すると、基準音素選択部131は、検索対象の音声信号における各フレームについて、音素列に含まれる音素と無音音素との中からこのフレームにおける出力確率が最大の音素、すなわち距離が最小の音素を、基準音素として選択する。
図4(b)に、音素列「r,a:,m,e,N」の各音素及び無音音素「sil」の中から選択された基準音素を示す。
第0フレームでは、各音素の距離の中で音素「r」の距離“0.1”が最も小さい。そのため、基準音素選択部131は、音素「r」を第0フレームにおける基準音素として選択する。
第1フレームでは、各音素の距離の中で音素「m」の距離“0.2”が最も小さい。そのため、基準音素選択部131は、音素「m」を第1フレームにおける基準音素として選択する。
第2フレームでは、各音素の距離の中で音素「r」の距離“0.15”が最も小さい。そのため、基準音素選択部131は、音素「r」を第2フレームにおける基準音素として選択する。
第3フレームでは、各音素の距離の中で無音音素「sil」の距離“0.1”が最も小さい。そのため、基準音素選択部131は、無音音素「sil」を第3フレームにおける基準音素として選択する。
このように各フレームにおいて基準音素を選択すると、相対値算出部132は、検索対象の音声信号における各フレームについて、音素列に含まれる各音素の距離の、基準音素の距離を基準とした相対値を算出する。
具体的には図4(c)に示すように、相対値算出部132は、各フレームについて、そのフレームの各音素の距離値全てを、基準音素の距離値で除算する。その結果、基準音素の距離値は1となり、その他の音素の距離値は1以上の値になる。このように、相対値算出部132は、基準音素の距離値が全フレームで1になるように、各音素の距離をフレーム内で相対化する。
このような距離の相対化により、どの音素に対しても距離が小さい(出力確率が大きい)フレームと、どの音素に対しても距離が大きい(出力確率が小さい)フレームと、が均一化される。その結果、後述する尤度算出において、尤度算出区間のフレームの中で一部のフレームの距離が支配的になり、これが原因による誤検出を抑制することができる。
時間長導出部113は、変換部112が変換した音素列に含まれる各音素の平均継続長を時間長記憶部104から取得する。そして、取得した平均継続長に基づいて、検索語に対応する音声の発話時間長を導出する。
すなわち、音声検索装置100は、クエリを文字列で取得するため、そのクエリに対応する音声の発話時間長の情報を直接的には得ることができない。そのため、音声検索装置100は、音素の状態毎に発話の際の典型的な継続長を予め時間長記憶部104に用意しておき、状態毎の継続長を用いて、検索語取得部111が取得した検索語に対応する音声の発話時間長を見積もる。
例えば音素列が「r,a:,m,e,N」である場合、時間長導出部113は、これら5つの音素における3状態それぞれについて時間長記憶部104に記憶された、合わせて15個の平均継続長を取得する。そして、取得した15個の平均継続長を加算して得られた時間長を、検索語に対応する音声の発話時間長として導出する。
区間指定部114は、音声信号記憶部101から検索対象の音声信号を取得して、検索対象の音声信号における先頭から順に、時間長導出部113が導出した時間長の区間である尤度算出区間を指定する。尤度とは、検索語に対応する音声と指定した区間の音声信号との類似の度合を示す指標である。
図3(c)は、検索対象の音声信号において区間指定部114により指定される尤度算出区間を示す。区間指定部114は、まず始めに、第0フレームから第(M−1)フレームまでのM個のフレームを含む時間長Lの第0尤度算出区間を指定する。
探索部117は、相対値算出部132が算出した相対値に基づいて、区間指定部114が指定した尤度算出区間における各フレームと音素列に含まれる各音素との対応を、動的計画法(DP(Dynamic Programming)マッチング)により探索する。すなわち、探索部117は、区間指定部114が指定した尤度算出区間から検索語に対応する音声が発せられていると仮定した場合に、その尤度算出区間内の各フレームの音声信号がどの音素に対応するのかを探索する。
例えば図5に、区間指定部114が指定した尤度算出区間に含まれる第0フレームから第10フレームまでの各フレームと、音素列「r,a:,m,e,N」の各音素と、の対応の探索を、距離のマトリクスを用いて示す。図5は、第0〜2フレームが音素「r」に対応し、第3〜5フレームが音素「a:」に対応し、第6〜7フレームが音素「m」に対応し、第8〜9フレームが音素「e」に対応し、第10フレームが音素「N」に対応すると仮定した場合の経路を矢印で示している。なお、枠内の数字は、相対値算出部132が各フレーム及び各音素について算出した距離の相対値を示す。
このように、探索部117は、先頭のフレームから末尾のフレームまでの各フレームに、音素列に含まれるいずれかの音素を対応付ける。そして、探索部117は、対応付けによって得られた経路に沿って距離の相対値を累積し、累積した値が最小となる最尤系列をDPマッチングにより探索する。
尤度算出部118は、探索部117の探索により各フレームに対応付けられた各音素における相対値算出部132が算出した相対値に基づいて、区間指定部114が指定した尤度算出区間が検索語に対応する音声が発せられている区間であることの尤もらしさを示す尤度を算出する。具体的には、尤度算出部118は、探索部117の対応付けによって得られた最尤系列の経路に沿って距離の相対値を累積した値に、相対値を累積した値が小さくなるほど尤度が大きくなるような演算を施して、この尤度算出区間の尤度を取得する。
繰り返し部119は、区間指定部114が指定する尤度算出区間を変えて、区間指定部114、探索部117、及び尤度算出部118の処理を繰り返す。
具体的に図3(c)を参照して説明すると、繰り返し部119は、区間指定部114が指定する尤度算出区間を1フレーム分シフトさせて、第1フレームから第MフレームまでのM個のフレームを含む時間長Lの第1尤度算出区間を新たに指定する。そして、新たに指定した第1尤度算出区間において、上述した探索部117及び尤度算出部118の処理と同様の処理を実行して、第1尤度算出区間の尤度を算出する。
同様に、繰り返し部119は、第2尤度算出区間から第(P−1)尤度算出区間まで、区間指定部114が指定する尤度算出区間を1フレームずつシフトさせて、検索対象の音声信号において指定可能なP個の尤度算出区間のそれぞれについて尤度を算出する。その結果、検索対象の音声信号の1フレーム毎に、その区間から検索語に対応する音声が発せられたと仮定した場合の尤度が算出される。なお、検索対象の音声信号の中で指定可能な尤度算出区間の数Pは、音声信号の時間長Tと尤度算出区間の時間長Lとシフト長Sとを用いて、P=(T−L+S)/Sと定められる。
特定部120は、区間指定部114が指定した尤度算出区間のそれぞれについて尤度算出部118が算出した尤度に基づいて、区間指定部114が指定した尤度算出区間の中から、検索対象の音声信号の中から検索語に対応する音声が発せられていることが推定される推定区間を特定する。例えば、特定部120は、尤度算出部118が算出した尤度が大きい順に所定の数の区間を、推定区間として特定する。特定部120が特定した区間の位置情報は、最終的な検索結果として、出力装置5が備える画面を介して外部に表示される。
以上のような音声検索装置100が実行する音声検索処理の流れについて、図6に示すフローチャートを参照して説明する。
図6に示すフロートチャートの処理は、検索語取得部111が検索語を取得すると(ステップS11)、開始する。検索語取得部111が検索語を取得すると、変換部112は、検索語を音素列に変換し(ステップS12)、音素列の音素順に音響モデルの音素を並べる(ステップS13)。具体的には、変換部112は、文字列として入力された検索語をモノフォンによるモノフォン音素列等に変換する。
検索語を音素列に変換すると、出力確率取得部116は、検索対象の音声信号の特徴量と音響モデルとに基づいて、各フレームにおける特徴量が音素列に含まれる各音素から出力される出力確率を取得する(ステップS14)。なお、この特徴量は、特徴量算出部115により予め算出されたものである。特徴量算出部115は、検索対象の音声信号の先頭から末尾までフレームを1つずつ指定して、指定したフレームにおける音声信号の特徴量を順次算出しておく。
出力確率取得部116が出力確率を取得すると、相対化演算部130は、取得した出力確率に対して相対化演算処理を実行する(ステップS15)。この相対化演算処理の詳細については、図7に示すフローチャートを参照して説明する。
相対化演算部130は、検索対象の音声信号における先頭のフレームを指定する(ステップS151)。基準音素選択部131は、指定したフレーム内で距離が最小の音素を基準音素として選択する(ステップS152)。相対値算出部132は、指定したフレーム内の各音素の距離の、基準音素の距離を基準とした相対値を算出する(ステップS153)。
このように指定したフレームにおける距離の相対化が終了すると、相対化演算部130は、検索対象の音声信号における全フレームを指定したか否かを判定する(ステップS154)。全フレームの指定が終了していない場合(ステップS154;NO)、相対化演算部130は、次のフレームを指定して(ステップS155)、処理をステップS152に戻す。すなわち、相対化演算部130は、新たに指定したフレームに対して、距離の相対化演算処理を実行する。
このように、相対化演算部130は、全フレームに対して、距離の相対化演算処理を繰り返して、基準音素を基準とした距離の相対値を算出する。最終的に全フレームの指定が終了すると(ステップS154;YES)、図7に示した相対化演算処理は終了する。
図6に示すフローチャートの説明に戻って、相対化演算処理が終了すると、時間長導出部113は、検索語に対応する音声の発話時間長を導出する(ステップS16)。具体的には、時間長導出部113は、時間長記憶部104において音素の状態毎に記憶された平均継続長を取得して、取得した平均継続長を加算することにより、検索語に対応する音声の発話時間長を導出する。
時間長導出部113が発話時間長を導出すると、音声検索処理は、検索対象の音声信号の先頭から末尾まで、導出した発話時間長の区間である尤度算出区間を順に指定して、尤度を算出する処理に移行する。まず、区間指定部114は、検索対象の音声信号の先頭フレームから開始する尤度算出区間を指定する(ステップS17)。
区間指定部114が尤度算出区間を指定すると、探索部117は、相対化演算部130による相対化演算結果に基づいて、指定した尤度算出区間における各フレームと音素列に含まれる各音素との対応を、DPマッチングにより探索する(ステップS18)。
尤度算出部118は、探索部117の探索により各フレームに対応付けられた各音素における相対値算出部132が算出した相対値に基づいて、区間指定部114が指定した尤度算出区間が検索語に対応する音声が発せられている区間であることの尤もらしさを示す尤度を算出する。(ステップS19)。尤度算出部118が尤度を算出すると、繰り返し部119は、検索対象の音声信号における全区間の尤度算出が終了したか否かを判定する(ステップS20)。
全区間の尤度算出が終了していない場合(ステップS20;NO)、区間指定部114が直前に指定したフレームの次のフレームから開始する尤度算出区間を指定して(ステップS21)、音声検索処理はステップS18に戻る。そして、繰り返し部119は、新たに指定した尤度算出区間に対して上述したステップS18〜S20の処理を繰り返して、尤度を算出する。このように、繰り返し部119は、検索対象の音声信号の末尾に達するまで、区間指定部114が指定する尤度算出区間を1フレームずつシフトさせて、順次尤度を算出する。
最終的に、全区間の尤度算出が終了すると(ステップS20;YES)、特定部120は、算出した尤度に基づいて、検索語に対応する区間を特定する(ステップS22)。例えば、特定部120は、尤度算出部118が算出した尤度が大きい順に所定の数の区間を、検索語に対応する音声が発せられていることが推定される区間として特定する。そして、特定部120は、出力装置5を介して特定結果を出力する(ステップS23)。以上により、音声検索装置100が実行する音声検索処理は終了する。
以上説明したように、実施形態1に係る音声検索装置100は、検索対象の音声信号内の各フレームにおいて、基準音素の距離を基準として各音素の距離を相対化する。そして、相対化した結果に基づいて、検索対象の音声信号の中から検索語に対応する音声が発せられていることが推定される区間を特定する。その結果、長音や無音に近い信号の区間のようにどのような音素に対しても距離が小さい区間とそうでない区間とが存在することによる誤検出を抑えることができ、高精度で音声検索できる。
(実施形態2)
次に、本発明の実施形態2について説明する。
実施形態2に係る音声検索装置は、実施形態1に係る音声検索装置100と同様、物理的には図1に示したように構成される。そのため、ここでは詳細な説明については省略する。
実施形態2に係る音声検索装置は、機能的には図8に示すように構成される。音声検索装置200は、実施形態1に係る音声検索装置100が備えていた相対化演算部130を備えず、その代わり正規化演算部140を備える。その他の各部は、基本的には実施形態1に係る音声検索装置100が備えていた各部と同様に機能する。そのため、以下では実施形態1と共通する機能の説明については適宜省略する。
音声信号記憶部101は、検索対象の音声信号を記憶する。音響モデル記憶部102は、音響モデルを記憶する。時間長記憶部104は、音響モデルで利用される各音素の平均継続長を、各音素の状態単位で記憶する。
検索語取得部111は、検索語を取得する。変換部112は、音響モデルの音素を検索語取得部111が取得した検索語に従って並べて、検索語を音素列に変換する。
特徴量算出部115は、音声信号記憶部101から検索対象の音声信号を取得して、検索対象の音声信号の特徴量を、フレーム毎に算出する。出力確率取得部116は、特徴量算出部115が算出した特徴量に基づいて、この特徴量が音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する。
時間長導出部113は、変換部112が変換した音素列に含まれる各音素の平均継続長を時間長記憶部104から取得する。そして、取得した平均継続長に基づいて、検索語に対応する音声の発話時間長を導出する。
区間指定部114は、音声信号記憶部101から検索対象の音声信号を取得して、検索対象の音声信号における先頭から順に、時間長導出部113が導出した時間長の区間である尤度算出区間を指定する。例えば図3(c)に示したように、区間指定部114は、まず始めに、第0フレームから第(M−1)フレームまでのM個のフレームを含む時間長Lの第0尤度算出区間を指定する。尤度とは、検索語に対応する音声と指定した区間の音声信号との類似の度合を示す指標である。
探索部117は、出力確率取得部116が取得した出力確率に基づいて、区間指定部114が指定した尤度算出区間における各フレームと音素列に含まれる各音素との対応を、DPマッチングにより探索する。すなわち、探索部117は、区間指定部114が指定した尤度算出区間から検索語に対応する音声が発せられていると仮定した場合に、その尤度算出区間内の各フレームの音声信号がどの音素に対応するのかを探索する。
例えば図9に示すように、探索部117は、区間指定部114が指定した尤度算出区間に含まれる第0フレームから第10フレームまでの各フレームと、音素列「r,a:,m,e,N」の各音素と、の対応を探索する。図9は、第0〜2フレームが音素「r」に対応し、第3〜5フレームが音素「a:」に対応し、第6〜7フレームが音素「m」に対応し、第8〜9フレームが音素「e」に対応し、第10フレームが音素「N」に対応すると仮定した場合の経路を矢印で示している。なお、枠内の数字は、出力確率取得部116が各フレーム及び各音素について取得した出力確率から算出された距離を示す。理解を容易にするため、矢印で示した経路が通過する枠内の数字のみ示している。
このように、探索部117は、先頭のフレームから末尾のフレームまでの各フレームに、音素列に含まれるいずれかの音素を対応付ける。そして、探索部117は、対応付けによって得られた経路に沿って累積した累積距離が最小となる最尤系列をDPマッチングにより探索する。
また、探索部117は、DPマッチングによる探索により得られた最尤系列の経路における累積距離を記録した累積距離テーブルと遷移方向を記録した遷移方向テーブルとを作成する。累積距離テーブル及び遷移方向テーブルの例を、図9における「累積距離」及び「遷移方向」の列に示す。累積距離テーブルは、探索により得られた最尤系列の経路に沿って、第0フレームから各フレームまでの距離値を累積した値の情報を有する。遷移方向テーブルは、探索により得られた最尤系列の経路に沿って、各フレームから次のフレームに遷移する際の方向の情報を有する。なお、下矢印は、現在のフレームから次のフレームに遷移する際に、次の音素に移らないことを示す。右矢印は、現在のフレームから次のフレームに遷移する際に、次の音素に移ることを示す。
尤度算出部118は、探索部117の探索により各フレームに対応付けられた各音素における出力確率取得部116が取得した出力確率に基づいて、区間指定部114が指定した尤度算出区間が検索語に対応する音声が発せられている区間であることの尤もらしさを示す尤度を算出する。具体的には、尤度算出部118は、探索部117の対応付けによって得られた最尤系列の経路における累積距離に、累積距離が小さくなるほど尤度が大きくなるような演算を施して、この尤度算出区間の尤度を取得する。
繰り返し部119は、区間指定部114が指定する尤度算出区間を変えて、区間指定部114、探索部117、及び尤度算出部118の処理を繰り返す。
具体的に図3(c)を参照して説明すると、繰り返し部119は、区間指定部114が指定する尤度算出区間を1フレーム分シフトさせて、第1フレームから第MフレームまでのM個のフレームを含む時間長Lの第1尤度算出区間を新たに指定する。そして、新たに指定した第1尤度算出区間において、上述した探索部117及び尤度算出部118の処理と同様の処理を実行する。
同様に、繰り返し部119は、第2尤度算出区間から第(P−1)尤度算出区間まで、区間指定部114が指定する尤度算出区間を1フレームずつシフトさせて、検索対象の音声信号において指定可能なP個の尤度算出区間のそれぞれについて、探索部117及び尤度算出部118の処理と同様の処理を実行する。これにより、繰り返し部119は、検索対象の音声信号の1フレーム毎に、累積距離テーブル及び遷移方向テーブルを作成し、その区間から検索語に対応する音声が発せられたと仮定した場合の尤度を算出する。
探索部117が検索対象の音声信号内の各尤度算出区間について累積距離テーブル及び遷移方向テーブルを作成すると、正規化演算部140は、出力確率取得部116が各音素について取得した出力確率に対して、探索部117の探索により各音素に対応付けられたフレームの数に基づく正規化演算を実行する。
図10を参照して、正規化演算部140の正規化演算処理について説明する。図10(a)は、区間指定部114が指定した尤度算出区間の中で、検索語「ラーメン」に対応する音素列「r,a:,m,e,N」のうちの一部の音素「a:」のみを含む区間における最尤系列の探索により得られた経路を示す。一方、図10(b)は、検索語「ラーメン」に対応する音素列「r,a:,m,e,N」のうちの全ての音素を含む区間における最尤系列の探索により得られた経路を示す。
図10(a)において、経路全体で正規化した累積距離は、経路全体での累積距離を遷移数11で除算することにより、“3.45=(6+2+2+2+3+3+1+2+7+4+6)/11”と計算される。同様に、図10(b)において、経路全体で正規化した累積距離は、経路全体での累積距離を遷移数11で除算することにより、“3.54=(4+4+3+3+3+3+4+3+3+4+5)/11”と計算される。
すなわち、検索語に対応する音素列のうちの一部の音素のみを含む区間における累積距離の方が、全ての音素を含む区間における累積距離よりも小さい。これは、音素列のうちの一部の音素「a:」の経路が、経路全体の中で長い部分(図10(a)では第1フレームから第7フレームまで)を占めていることに起因する。このように、検索語に対応する音素列のうちの一部の音素のみに類似した音素が長い経路を占めている場合、音素列全体でも類似度が高いと判定されやすい。そのため、経路全体で正規化した累積距離を基準として音声検索すると、誤検出が起きることがある。
これを避けるために、正規化演算部140は、区間指定部114が指定した尤度算出区間において、探索部117の探索により各フレームに対応付けられた各音素について得られた出力確率に基づく値である距離を、その音素に対応付けられたフレームの数で音素毎に正規化して加算することにより、音素毎に正規化した累積距離を計算する。
図10(a)において、音素「r」は第0フレームのみに対応付けられているため、正規化演算部140は、この音素の距離値“6”をフレームの数“1”で除算する。音素「a:」は、第1フレームから第7フレームまでの7個のフレームに対応付けられているため、正規化演算部140は、この音素の累積距離をフレームの数“7”で除算する。このように、正規化演算部140は、音素列の末尾の音素まで、各音素における累積距離を、各音素に対応付けられたフレームの数、すなわち各音素における遷移数で除算して、音素毎に正規化した累積距離“25.1=6/1+(2+2+2+3+3+1+2)/7+7/1+4/1+6/1”を得る。
同様に、図10(b)において、正規化演算部140は、音素列の先頭の音素から末尾の音素まで、各音素における累積距離を、各音素に対応付けられた遷移数で除算して、音素毎に正規化した累積距離“18.5=(4+4)/2+(3+3+3+3)/4+4/1+(3+3)/2+(4+5)/2”を得る。
音素毎に正規化した累積距離を計算した結果、各音素の重みが均一化されるため、検索語に対応する音素列のうちの一部の音素のみを含む区間における累積距離の方が、全ての音素を含む区間における累積距離よりも大きくなる。そのため、誤検出を抑え、高い精度で音声検索できる。
正規化演算部140は、区間指定部114が指定した各尤度算出区間について、このような音素毎に正規化した累積距離を計算する。そして、音素毎に正規化した累積距離に、累積距離が小さくなるほど尤度が大きくなるような演算を施して、この尤度算出区間の尤度を正規化した正規化尤度を算出する。
特定部120は、正規化演算部140が算出した正規化尤度に基づいて、区間指定部114が指定した尤度算出区間の中から、検索対象の音声信号の中から検索語に対応する音声が発せられていることが推定される推定区間を特定する。例えば、特定部120は、正規化演算部140が算出した正規化尤度が大きい順に所定の数の区間を、推定区間として特定する。特定部120が特定した区間の位置情報は、最終的な検索結果として、出力装置5が備える画面を介して外部に表示される。
以上のような音声検索装置200が実行する音声検索処理の流れについて、図11に示すフローチャートを参照して説明する。
図11に示すフロートチャートの処理は、検索語取得部111が検索語を取得すると(ステップS31)、開始する。検索語取得部111が検索語を取得すると、変換部112は、検索語を音素列に変換し(ステップS32)、音素列の音素順に音響モデルの音素を並べる(ステップS33)。具体的には、変換部112は、文字列として入力された検索語をモノフォンによるモノフォン音素列等に変換する。
検索語を音素列に変換すると、出力確率取得部116は、検索対象の音声信号の特徴量と音響モデルとに基づいて、各フレームにおける特徴量が音素列に含まれる各音素から出力される出力確率を取得する(ステップS34)。なお、この特徴量は、特徴量算出部115により予め算出されたものである。特徴量算出部115は、検索対象の音声信号の先頭から末尾までフレームを1つずつ指定して、指定したフレームにおける音声信号の特徴量を順次算出しておく。
出力確率取得部116が出力確率を取得すると、時間長導出部113は、検索語に対応する音声の発話時間長を導出する(ステップS35)。具体的には、時間長導出部113は、時間長記憶部104において音素の状態毎に記憶された平均継続長を取得して、取得した平均継続長を加算することにより、検索語に対応する音声の発話時間長を導出する。
時間長導出部113が発話時間長を導出すると、区間指定部114が、検索対象の音声信号の先頭から末尾まで、導出した発話時間長の区間である尤度算出区間を順に指定する。そして、探索部117は、指定した尤度算出区間における各フレームと音素列に含まれる各音素との対応をDPマッチングにより探索し、累積距離テーブル及び遷移方向テーブルを作成する(ステップS36)。
区間指定部114が指定した各尤度算出区間において、探索部117が累積距離テーブル及び遷移方向テーブルを作成すると、正規化演算部140は、正規化演算処理を実行する(ステップS37)。この正規化演算処理の詳細については、図12に示すフローチャートを参照して説明する。
正規化演算処理において、まず正規化演算部140は、検索対象の音声信号の先頭フレームから開始する尤度算出区間を指定する(ステップS371)。この尤度算出区間は、探索部117が累積距離テーブル及び遷移方向テーブルを作成するために区間指定部114が指定した区間と同じである。正規化演算部140は、区間指定部114が指定した尤度算出区間を、再度先頭から順に指定する。
尤度算出区間を指定すると、正規化演算部140は、指定した尤度算出区間における正規化された累積距離(以下、「正規化距離」という。)をリセットする(ステップS372)。そして、正規化演算部140は、変換部112が検索語から変換した音素列の末尾の音素を指定し(ステップS373)、指定した音素に1つ前の音素から遷移した時からの累積距離差分を、指定した音素で遷移したフレーム数で除算して、正規化距離に加算する(ステップS374)。
具体的に図9の例を参照して説明する。図9に示す経路は、音素列「r,a:,m,e,N」の末尾の音素「N」において第9,10フレームの2つのフレームを遷移しており、第8フレームから第9フレームにかけて1つ前の音素「e」から遷移している。正規化演算部140は、指定した尤度算出区間における遷移方向テーブルを参照することにより、このような遷移情報を得る。この情報を基に、正規化演算部140は、末尾の音素「N」で遷移したフレーム数が “2”であることを得る。
また、正規化演算部140は、累積距離テーブルを参照することにより、末尾のフレームである第10フレームまでの累積距離“47”と、1つ前の音素「e」における最後のフレームである第8フレームまでの累積距離“35”と、の情報を得る。この情報を基に、正規化演算部140は、末尾の音素「N」に1つ前の音素「e」から遷移した時からの累積距離差分は“12=47−35”であることを得る。そして、正規化演算部140は、末尾の音素「N」における累積距離差分“12”を遷移したフレーム数“2”で除算した値“6”を、リセットされた正規化距離に加算する。
指定した音素における加算処理を終了すると、正規化演算部140は、指定した音素が音素列の先頭の音素に達したか否かを判定する(ステップS375)。指定した音素が先頭の音素に達していない場合(ステップS375;NO)、正規化演算部140は、1つ前の音素を指定して(ステップS376)、処理をステップS374に戻す。すなわち、正規化演算部140は、音素列の末尾の音素から先頭の音素まで順に指定して、累積距離差分を指定した音素で遷移したフレーム数で除算して、得られた値を正規化距離に加算する処理を繰り返す。
指定した音素が先頭の音素に達した場合(ステップS375;YES)、正規化演算部140は、得られた正規化距離から正規化尤度を算出して、区間の先頭のフレーム及び末尾のフレームと共に、RAM2等の記憶領域に記憶する(ステップS377)。
なお、正規化演算部140は、算出した正規化尤度と正規化する前の尤度とを比較して、正規化する前の尤度の方が正規化尤度よりも大きければ、正規化する前の尤度を指定した尤度算出区間の尤度としてもよい。
このように指定した尤度算出区間における尤度の正規化が終了すると、正規化演算部140は、検索対象の音声信号における全尤度算出区間を指定したか否かを判定する(ステップS378)。全尤度算出区間の指定が終了していない場合(ステップS378;NO)、正規化演算部140は、次のフレームから開始する尤度算出区間を指定して(ステップS379)、処理をステップS372に戻す。すなわち、正規化演算部140は、新たに指定した尤度算出区間に対して、尤度の正規化演算処理を実行する。
このように、正規化演算部140は、検索対象の音声信号の全尤度算出区間に対して、正規化演算処理を繰り返して、正規化尤度を算出する。最終的に全尤度算出区間の指定が終了すると(ステップS378;YES)、図12に示した正規化演算処理は終了する。
図11に示すフローチャートの説明に戻って、全区間の尤度を正規化すると、特定部120は、正規化尤度に基づいて、検索語に対応する区間を特定する(ステップS38)。例えば、特定部120は、正規化尤度が大きい順に所定の数の区間を、検索語に対応する音声が発せられていることが推定される区間として特定する。そして、特定部120は、出力装置5を介して特定結果を出力する(ステップS39)。以上により、音声検索装置200が実行する音声検索処理は終了する。
以上説明したように、実施形態2に係る音声検索装置200は、DPマッチングを用いた音声検索において、DPマッチングにより得られた経路の累積距離を音素毎に正規化して算出する。そして、正規化した結果に基づいて、検索対象の音声信号の中から検索語に対応する音声が発せられていることが推定される区間を特定する。その結果、検索語に対応する音素列のうちの一部の音素のみに類似した区間の方が全ての音素を含む区間よりも優先して検出されるという誤検出を抑えることができ、高精度で音声検索できる。
(変形例)
以上に本発明の実施形態について説明したが、上記実施形態は一例であり、本発明の適用範囲はこれに限られない。すなわち、本発明の実施形態は種々の応用が可能であり、あらゆる実施の形態が本発明の範囲に含まれる。
例えば、実施形態1、2では、検索語取得部111は、検索語(クエリ)を文字列(テキスト)で取得した。しかし、本発明では、検索語取得部111は、検索語を音声で取得してもよい。この場合、例えば、入力装置4はマイクロフォンを備える。そして、検索語取得部111は、マイクロフォンを介してユーザが発声した音声を取得し、取得した音声のデータに対して音声認識処理を実行して、テキストデータに変換する。音声検索装置100は、このテキストデータに対して上記と同様の音声検索処理を実行する。
また、実施形態1では、基準音素選択部131は、各フレームにおける距離が最小の音素を基準音素として選択した。しかし、本発明では、基準音素選択部131は、距離が最大、すなわち出力確率が最小の音素を基準音素として選択する等、他の基準で基準音素を選択してもよい。
また、実施形態1では、相対化演算部130は、検索語取得部111が取得した検索語に含まれる音素と無音音素とに対して、その中から基準音素を選択して相対化演算を実行した。しかし、本発明では、相対化演算部130は、音響モデルに含まれる音素全体、又はモノフォン音素全体に対して算出された出力確率又は距離に対して、その中から基準音素を選択して相対化演算を実行してもよい。
また、実施形態1では、相対値算出部132は、検索対象の音声信号における各フレームについて、音素列に含まれる各音素の距離の、基準音素の距離を基準とした相対値を算出した。しかし、本発明では、相対値算出部132は、基準音素に対する距離の相対値を算出することに限らず、出力確率そのものの相対値を算出してもよいし、出力確率に基づくその他の値の相対値を算出することにより、特定部120が検索語に対応する区間を特定するための指標の重みをフレーム間で均一化するようにしてもよい。
また、実施形態2では、正規化演算部140は、各尤度算出区間について音素毎に正規化した累積距離を計算し、それに基づいて正規化尤度を算出した。しかし、本発明では、正規化の対象は距離に限らない。例えば、正規化演算部140は、出力確率そのものを音素毎に正規化して、正規化した出力確率の対数軸上での和をとることにより正規化尤度を算出してもよい。
また、本発明に係る音声検索装置は、実施形態1に係る音声検索装置100が備えていた相対化演算部130と、実施形態2に係る音声検索装置200が備えていた正規化演算部140と、をいずれも備えていてもよい。この場合、正規化演算部140は、実施形態1において詳述した相対化演算部130による演算後の出力確率に対して、実施形態2において詳述した正規化演算を実行する。具体的に説明すると、正規化演算部140は、区間指定部114が指定した尤度算出区間において、探索部117の探索により各フレームに対応付けられた各音素について得られた相対化演算部130による演算後の出力確率に基づく値を、該各音素に対応付けられたフレームの数で音素毎に正規化して加算することにより、正規化尤度を算出する。これにより、本発明に係る音声検索装置は、相対化演算部130による効果と正規化演算部140による効果とをいずれも得ることができるため、より一層高精度で音声検索できる。
なお、本発明に係る機能を実現するための構成を予め備えた音声検索装置として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る音声検索装置として機能させることもできる。すなわち、上記実施形態で例示した音声検索装置100,200による各機能構成を実現させるためのプログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するCPU等が実行できるように適用することで、本発明に係る音声検索装置として機能させることができる。また、本発明に係る音声検索方法は、音声検索装置を用いて実施できる。
また、このようなプログラムの適用方法は任意である。プログラムを、例えば、コンピュータが読取可能な記録媒体(CD−ROM(Compact Disc Read-Only Memory)、DVD(Digital Versatile Disc)、MO(Magneto Optical disc)等)に格納して適用できる他、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより適用することもできる。
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
(付記1)
検索語を取得する検索語取得手段と、
前記検索語取得手段が取得した検索語を音素列に変換する変換手段と、
検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段と、
前記出力確率取得手段が前記各音素について取得した出力確率に対して、前記音素列に含まれる他の音素について取得した出力確率に基づく相対化演算を実行する相対化演算手段と、
前記検索対象の音声信号において尤度取得区間を複数指定する区間指定手段と、
前記相対化演算手段による演算後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間が前記検索語に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索語に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。
(付記2)
前記相対化演算手段は、
前記検索対象の音声信号における各フレームについて、前記音素列に含まれる音素の中から基準音素を選択する基準音素選択手段と、
前記検索対象の音声信号における各フレームについて、前記音素列に含まれる各音素について得られた該各フレームにおける出力確率に基づく値の、前記基準音素について得られた該各フレームにおける出力確率に基づく値を基準とした相対値を算出する相対値算出手段と、
を含むことを特徴とする付記1に記載の音声検索装置。
(付記3)
前記出力確率取得手段は、前記検索対象の音声信号の特徴量が無音音素から出力される出力確率を、フレーム毎にさらに取得し、
前記基準音素選択手段は、前記検索対象の音声信号における各フレームについて、前記音素列に含まれる音素と前記無音音素との中から該各フレームにおける出力確率が最大の音素を、前記基準音素として選択する、
ことを特徴とする付記2に記載の音声検索装置。
(付記4)
前記相対化演算手段による演算後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間における各フレームと前記音素列に含まれる各音素との対応を、動的計画法により探索する探索手段をさらに備え、
前記尤度取得手段は、前記探索手段の探索により各フレームに対応付けられた各音素における前記相対化演算手段の演算結果に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
ことを特徴とする付記1から3のいずれか1つに記載の音声検索装置。
(付記5)
前記区間指定手段が指定した尤度取得区間において、前記探索手段の探索により各フレームに対応付けられた各音素について得られた前記相対化演算手段による演算後の出力確率に対して、該各音素に対応付けられたフレームの数に基づく正規化演算を実行することにより、該尤度取得区間の前記尤度を正規化した正規化尤度を算出する正規化演算手段をさらに備え、
前記特定手段は、前記正規化演算手段が算出した正規化尤度に基づいて、前記区間指定手段が指定した尤度取得区間の中から前記推定区間を特定する、
ことを特徴とする付記4に記載の音声検索装置。
(付記6)
前記正規化演算手段は、前記区間指定手段が指定した尤度取得区間において、前記探索手段の探索により各フレームに対応付けられた各音素について得られた前記相対化演算手段による演算後の出力確率に基づく値を、該各音素に対応付けられたフレームの数で音素毎に正規化して加算することにより、前記正規化尤度を算出する、
ことを特徴とする付記5に記載の音声検索装置。
(付記7)
検索語を取得する検索語取得ステップと、
前記検索語取得ステップで取得した検索語を音素列に変換する変換ステップと、
検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得ステップと、
前記出力確率取得ステップで前記各音素について取得した出力確率に対して、前記音素列に含まれる他の音素について取得した出力確率に基づく相対化演算を実行する相対化演算ステップと、
前記検索対象の音声信号において尤度取得区間を複数指定する区間指定ステップと、
前記相対化演算ステップによる演算後の出力確率に基づいて、前記区間指定ステップで指定した尤度取得区間が前記検索語に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
前記区間指定ステップで指定した尤度取得区間のそれぞれについて前記尤度取得ステップで取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索語に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
を含む音声検索方法。
(付記8)
コンピュータを、
検索語を取得する検索語取得手段、
前記検索語取得手段が取得した検索語を音素列に変換する変換手段、
検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段、
前記出力確率取得手段が前記各音素について取得した出力確率に対して、前記音素列に含まれる他の音素について取得した出力確率に基づく相対化演算を実行する相対化演算手段、
前記検索対象の音声信号において尤度取得区間を複数指定する区間指定手段、
前記相対化演算手段による演算後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間が前記検索語に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索語に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
1…ROM、2…RAM、3…外部記憶装置、4…入力装置、5…出力装置、6…CPU、100,200…音声検索装置、101…音声信号記憶部、102…音響モデル記憶部、104…時間長記憶部、111…検索語取得部、112…変換部、113…時間長導出部、114…区間指定部、115…特徴量算出部、116…出力確率取得部、117…探索部、118…尤度算出部、119…繰り返し部、120…特定部、130…相対化演算部、131…基準音素選択部、132…相対値算出部、140…正規化演算部

Claims (8)

  1. 検索語を取得する検索語取得手段と、
    前記検索語取得手段が取得した検索語を音素列に変換する変換手段と、
    検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段と、
    前記検索対象の音声信号における各フレームについて、前記音素列に含まれる音素の中から基準音素を選択する基準音素選択手段と、
    前記検索対象の音声信号における各フレームについて、前記音素列に含まれる各音素について得られた該各フレームにおける出力確率に基づく値の、前記基準音素について得られた該各フレームにおける出力確率に基づく値を基準とした相対値を算出する相対化演算手段と、
    前記検索対象の音声信号において尤度取得区間を複数指定する区間指定手段と、
    前記相対化演算手段による演算後の相対値に基づいて、前記区間指定手段が指定した尤度取得区間が前記検索語に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
    前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索語に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
    を備えることを特徴とする音声検索装置。
  2. 前記出力確率取得手段は、前記検索対象の音声信号の特徴量が無音音素から出力される出力確率を、フレーム毎にさらに取得し、
    前記基準音素選択手段は、前記検索対象の音声信号における各フレームについて、前記音素列に含まれる音素と前記無音音素との中から該各フレームにおける出力確率が最大の音素を、前記基準音素として選択する、
    ことを特徴とする請求項に記載の音声検索装置。
  3. 前記相対化演算手段による演算後の相対値に基づいて、前記区間指定手段が指定した尤度取得区間における各フレームと前記音素列に含まれる各音素との対応を、動的計画法により探索する探索手段をさらに備え、
    前記尤度取得手段は、前記探索手段の探索により各フレームに対応付けられた各音素における前記相対化演算手段の演算結果に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
    ことを特徴とする請求項1または2に記載の音声検索装置。
  4. 前記区間指定手段が指定した尤度取得区間において、前記探索手段の探索により各フレームに対応付けられた各音素について得られた前記相対化演算手段による演算後の相対値に対して、該各音素に対応付けられたフレームの数に基づく正規化演算を実行することにより、該尤度取得区間の前記尤度を正規化した正規化尤度を算出する正規化演算手段をさらに備え、
    前記特定手段は、前記正規化演算手段が算出した正規化尤度に基づいて、前記区間指定手段が指定した尤度取得区間の中から前記推定区間を特定する、
    ことを特徴とする請求項に記載の音声検索装置。
  5. 前記正規化演算手段は、前記区間指定手段が指定した尤度取得区間において、前記探索手段の探索により各フレームに対応付けられた各音素について得られた前記相対化演算手段による演算後の相対値に基づく値を、該各音素に対応付けられたフレームの数で音素毎に正規化して加算することにより、前記正規化尤度を算出する、
    ことを特徴とする請求項に記載の音声検索装置。
  6. 検索語を取得する検索語取得ステップと、
    前記検索語取得ステップで取得した検索語を音素列に変換する変換ステップと、
    検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得ステップと、
    前記検索対象の音声信号における各フレームについて、前記音素列に含まれる音素の中から基準音素を選択する基準音素選択ステップと、
    前記検索対象の音声信号における各フレームについて、前記音素列に含まれる各音素について得られた該各フレームにおける出力確率に基づく値の、前記基準音素について得られた該各フレームにおける出力確率に基づく値を基準とした相対値を算出する相対化演算ステップと、
    前記検索対象の音声信号において尤度取得区間を複数指定する区間指定ステップと、
    前記相対化演算ステップによる演算後の相対値に基づいて、前記区間指定ステップで指定した尤度取得区間が前記検索語に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
    前記区間指定ステップで指定した尤度取得区間のそれぞれについて前記尤度取得ステップで取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索語に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
    を含む音声検索方法。
  7. 前記出力確率取得ステップでは、前記検索対象の音声信号の特徴量が無音音素から出力される出力確率を、フレーム毎にさらに取得し、
    前記基準音素選択ステップでは、前記検索対象の音声信号における各フレームについて、前記音素列に含まれる音素と前記無音音素との中から該各フレームにおける出力確率が最大の音素を、前記基準音素として選択する、
    ことを特徴とする請求項6に記載の音声検索方法。
  8. コンピュータを、
    検索語を取得する検索語取得手段、
    前記検索語取得手段が取得した検索語を音素列に変換する変換手段、
    検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段、
    前記検索対象の音声信号における各フレームについて、前記音素列に含まれる音素の中から基準音素を選択する基準音素選択手段、
    前記検索対象の音声信号における各フレームについて、前記音素列に含まれる各音素について得られた該各フレームにおける出力確率に基づく値の、前記基準音素について得られた該各フレームにおける出力確率に基づく値を基準とした相対値を算出する相対化演算手段、
    前記検索対象の音声信号において尤度取得区間を複数指定する区間指定手段、
    前記相対化演算手段による演算後の相対値に基づいて、前記区間指定手段が指定した尤度取得区間が前記検索語に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
    前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索語に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
    として機能させるためのプログラム。
JP2014042541A 2014-03-05 2014-03-05 音声検索装置、音声検索方法及びプログラム Active JP6011565B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014042541A JP6011565B2 (ja) 2014-03-05 2014-03-05 音声検索装置、音声検索方法及びプログラム
US14/597,958 US9431007B2 (en) 2014-03-05 2015-01-15 Voice search device, voice search method, and non-transitory recording medium
CN201510096120.0A CN104899240B (zh) 2014-03-05 2015-03-04 声音检索装置、声音检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014042541A JP6011565B2 (ja) 2014-03-05 2014-03-05 音声検索装置、音声検索方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015169698A JP2015169698A (ja) 2015-09-28
JP6011565B2 true JP6011565B2 (ja) 2016-10-19

Family

ID=54017962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014042541A Active JP6011565B2 (ja) 2014-03-05 2014-03-05 音声検索装置、音声検索方法及びプログラム

Country Status (3)

Country Link
US (1) US9431007B2 (ja)
JP (1) JP6011565B2 (ja)
CN (1) CN104899240B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
KR102332729B1 (ko) * 2014-07-28 2021-11-30 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
JP6464650B2 (ja) * 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
JP6680008B2 (ja) * 2016-03-15 2020-04-15 カシオ計算機株式会社 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム
US10431205B2 (en) * 2016-04-27 2019-10-01 Conduent Business Services, Llc Dialog device with dialog support generated using a mixture of language models combined using a recurrent neural network
GB2552722A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
WO2019049089A1 (en) * 2017-09-11 2019-03-14 Indian Institute Of Technology, Delhi METHOD, SYSTEM AND APPARATUS FOR SEARCHING MULTILINGUAL AND MULTIMODAL KEYWORDS IN A MULTILINGUAL ORAL CORPUS
JP2019219598A (ja) * 2018-06-22 2019-12-26 カシオ計算機株式会社 音声認識装置、音声認識方法及びプログラム
CN111986698B (zh) * 2019-05-24 2023-06-30 腾讯科技(深圳)有限公司 音频片段的匹配方法、装置、计算机可读介质及电子设备
CN113053377A (zh) * 2021-03-23 2021-06-29 南京地平线机器人技术有限公司 语音唤醒方法和装置、计算机可读存储介质、电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6662180B1 (en) * 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US6535850B1 (en) * 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary
GB0015233D0 (en) * 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
WO2005010866A1 (en) * 2003-07-23 2005-02-03 Nexidia Inc. Spoken word spotting queries
US20070203700A1 (en) * 2004-03-30 2007-08-30 Soichi Toyama Speech Recognition Apparatus And Speech Recognition Method
JP5229216B2 (ja) * 2007-02-28 2013-07-03 日本電気株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
US8209171B2 (en) * 2007-08-07 2012-06-26 Aurix Limited Methods and apparatus relating to searching of spoken audio data
JP5533042B2 (ja) * 2010-03-04 2014-06-25 富士通株式会社 音声検索装置、音声検索方法、プログラム及び記録媒体
JP2013088488A (ja) * 2011-10-13 2013-05-13 Casio Comput Co Ltd 音声検索装置、音声検索方法及びプログラム

Also Published As

Publication number Publication date
CN104899240B (zh) 2018-06-22
US20150255060A1 (en) 2015-09-10
US9431007B2 (en) 2016-08-30
JP2015169698A (ja) 2015-09-28
CN104899240A (zh) 2015-09-09

Similar Documents

Publication Publication Date Title
JP6011565B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP5888356B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP6003972B2 (ja) 音声検索装置、音声検索方法及びプログラム
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
JP6003971B2 (ja) 音声検索装置、音声検索方法及びプログラム
CN108630200B (zh) 声音关键字检测装置以及声音关键字检测方法
JP6235280B2 (ja) 音声同時処理装置、方法およびプログラム
JP2010020102A (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
US20150012275A1 (en) Speech recognition device and method, and semiconductor integrated circuit device
JP6111802B2 (ja) 音声対話装置及び対話制御方法
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP6028556B2 (ja) 対話制御方法及び対話制御用コンピュータプログラム
JP6604013B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP2013088488A (ja) 音声検索装置、音声検索方法及びプログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP6565416B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP5152020B2 (ja) 音声認識装置及び音声認識方法
JP6680009B2 (ja) 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP2017015847A (ja) 音声検索装置、音声検索方法及びプログラム
CN115101043A (zh) 音频合成方法、装置、设备及存储介质
JP2005115191A (ja) 音声認識装置、音声認識方法及びプログラム
JP2010175869A (ja) 音声認識用辞書作成装置及び音声認識用辞書作成方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160905

R150 Certificate of patent or registration of utility model

Ref document number: 6011565

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150