JP2017015847A - 音声検索装置、音声検索方法及びプログラム - Google Patents
音声検索装置、音声検索方法及びプログラム Download PDFInfo
- Publication number
- JP2017015847A JP2017015847A JP2015130574A JP2015130574A JP2017015847A JP 2017015847 A JP2017015847 A JP 2017015847A JP 2015130574 A JP2015130574 A JP 2015130574A JP 2015130574 A JP2015130574 A JP 2015130574A JP 2017015847 A JP2017015847 A JP 2017015847A
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- section
- time
- acquisition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Abstract
【課題】異なる話速の音声信号の中から検索語を高精度に検索する。【解決手段】音声検索装置100は、検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を有する区間を設定し、複数の時間長のそれぞれについて、検索対象の音声信号に複数の時間長を有する区間を尤度取得区間として複数指定する区間指定部115と、尤度取得区間が検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得部119と、尤度取得区間の中から予め設定された第1の時間ごとに尤度取得区間を選択する選択部121と、選択部121が選択した複数の尤度取得区間の中から検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定部125と、を備える。【選択図】図2
Description
本発明は、音声検索装置、音声検索方法及びプログラムに関する。
音声や動画等のマルチメディアコンテンツの拡大・普及に伴い、高精度なマルチメディア検索技術が求められている。その中で音声検索においては、検索対象とする検索語(クエリ)に対応する音声が発話されている箇所を音声信号の中から特定する音声検索の技術が研究されている。この音声検索では、高速かつ正確に音声検索をする技術が重要となる。
非特許文献1は、音声信号同士を高速に比較する方法を開示している。これにより、音声で入力されたクエリに対応する箇所を、検索対象の音声信号の中から高速に特定することができる。
Y.Zhang and J.Glass. "An inner−product lower−bound estimate for dynamic time warping," in Proc. ICASSP,2011,pp.5660−5663.
非特許文献1が開示する技術では、検索対象の音声の話速とクエリ入力者の話速とが異なる場合には、同じ発話内容に対する時間長が一致しないので検索精度が低くなるという問題がある。
本発明は、以上のような課題を解決するためのものであり、異なる話速の音声信号の中から検索語を高精度に検索することが可能な音声検索装置、音声検索方法及びプログラムを提供することを目的とする。
上記目的を達成するため、本発明に係る音声検索装置は、
検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を有する区間を設定し、前記複数の時間長のそれぞれについて、検索対象の音声信号に前記複数の時間長を有する区間を尤度取得区間として複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間の中から、予め設定された第1の時間ごとに尤度取得区間を選択する選択手段と、
前記選択手段が選択した複数の尤度取得区間の中から前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする。
検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を有する区間を設定し、前記複数の時間長のそれぞれについて、検索対象の音声信号に前記複数の時間長を有する区間を尤度取得区間として複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間の中から、予め設定された第1の時間ごとに尤度取得区間を選択する選択手段と、
前記選択手段が選択した複数の尤度取得区間の中から前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする。
本発明によれば、異なる話速の音声信号の中から検索語を高精度に検索することができる。
以下、本発明の実施形態に係る音声検索装置、音声検索方法及びプログラムについて、図面を参照しながら説明する。なお、図中同一又は相当する部分には同一符号を付す。
(実施形態1)
実施形態1に係る音声検索装置100は、物理的には、図1に示すように、ROM(Read Only Memory)1と、RAM(Random Access Memory)2と、外部記憶装置3と、入力装置4と、出力装置5と、CPU(Central Processing Unit)6と、バス7と、を備える。
実施形態1に係る音声検索装置100は、物理的には、図1に示すように、ROM(Read Only Memory)1と、RAM(Random Access Memory)2と、外部記憶装置3と、入力装置4と、出力装置5と、CPU(Central Processing Unit)6と、バス7と、を備える。
ROM1は、音声検索プログラムを記憶する。RAM2は、CPU6のワークエリアとして機能する。
外部記憶装置3は、例えば、ハードディスクから構成され、解析対象である音声信号、後述するモノフォンモデル、トライフォンモデル及び音素の時間長をデータとして記憶する。
入力装置4は、例えば、キーボードや音声認識装置から構成される。キーボードから入力した検索語はテキストデータとしてCPU6に供給する。音声認識装置は検索語として入力した音声データを認識し、テキストデータとしてCPU6に供給する。出力装置5は、例えば、液晶ディスプレイの画面、スピーカを備える。出力装置5は、CPU6によって出力されたテキストデータを画面に表示し、音声データをスピーカから出力する。
CPU6は、ROM1に記憶された音声検索プログラムをRAM2に読み出して、その音声検索プログラムを実行することにより、以下に示す機能を実現する。バス7は、ROM1、RAM2、外部記憶装置3、入力装置4、出力装置5、CPU6、を接続する。
音声検索装置100は、機能的には、図2に示すように、音声信号記憶部101と、モノフォンモデル記憶部102と、トライフォンモデル記憶部103と、時間長記憶部104と、検索文字列取得部111と、変換部112と、時間長取得部113と、時間長導出部114と、区間指定部115と、特徴量取得部116と、出力確率取得部117と、置換部118と、尤度取得部119と、繰り返し部120と、選択部121(第1選択部121a、第2選択部121b)と、第2の変換部122と、第2の出力確率取得部123と、第2の尤度取得部124と、特定部125と、を備える。音声信号記憶部101、モノフォンモデル記憶部102、トライフォンモデル記憶部103、及び時間長記憶部104は、外部記憶装置3の記憶領域に構築されている。
音声信号記憶部101は、検索対象の音声信号を記憶する。検索対象の音声信号は、例えばニュース放送等の音声、録音された会議の音声、録音された講演の音声、映画の音声等に係る音声信号である。
モノフォンモデル記憶部102及びトライフォンモデル記憶部103は、音響モデルを記憶する。音響モデルは、検索文字列として取得可能な文字列を構成する各音素の周波数特性等をモデル化したものである。具体的には、モノフォンモデル記憶部102は、モノフォン(1音素)による音響モデル(モノフォンモデル)を記憶し、トライフォンモデル記憶部103は、トライフォン(3音素)による音響モデル(トライフォンモデル)を記憶する。
音素とは、話者により発話された音声を構成する成分の単位である。例えば、「貴族制度:キゾクセイド」という単語は、「k」、「i」、「z」、「o」、「k」、「u」、「s」、「e」、「i」、「d」、「o」という11個の音素から構成される。
モノフォンモデルは、1音素毎に生成された音響モデルであり、隣接する音素に依存しない。すなわち、前後の音素状態との状態遷移を固定化した音響モデルである。トライフォンモデルは、3音素毎に生成された音響モデルであり、隣接する音素に依存する。すなわち、前後の音素状態との状態遷移を考慮した音響モデルであり、モノフォンモデルに比べると多くの情報を有している。音声検索装置100は、モノフォンモデル及びトライフォンモデルを一般的な方法で学習して、それぞれモノフォンモデル記憶部102及びトライフォンモデル記憶部103に予め記憶しておく。
モノフォンモデル及びトライフォンモデルとして、例えば、一般的な音声認識で利用される音響モデルであるHMM(Hidden Markov Model;隠れマルコフモデル)を利用できる。HMMは、統計的な手法により音声信号からその音声信号を構成する音素を確率的に推定するためのモデルである。HMMには、時間的な状態の揺らぎを示す遷移確率と、各状態から入力された特徴量を出力する確率(出力確率)と、をパラメータとした標準パターンを用いる。
時間長記憶部104は、音響モデルで利用される各音素の継続時間長を異なる話速のグループに分けて、各音素の状態単位で記憶する。各音素の継続時間長とは、各音素が発せられるときの平均的な時間長である。各音素の状態とは、各音素を時間方向に細分化した単位であり、音響モデルの最小単位に相当する。各音素には予め状態数が定められている。例えば、各音素に定められた状態数が「3」である場合を例にとって説明する。例えば、音声「あ」の音素「a」は、図3に示すように、この音素の発声開始時を含む第1の状態「a1」と、中間状態である第2の状態「a2」と、発声終了時を含む第3の状態「a3」と、の3つの状態に分けられる。すなわち、1音素は3つの状態から構成される。音響モデルで利用される全音素の数をQとした場合、(3×Q)個の状態が存在する。音声検索装置100は、(3×Q)個の状態のそれぞれについて、大量の音声信号のデータから継続時間長の平均値を取得し、時間長記憶部104に予め記憶しておく。
本実施形態では、音素の継続時間長のグループを「早め」、「普通」、「遅め」の3段階の話速に対応するグループに分ける。時間長記憶部104は、大量の音声データを「早め」、「普通」、「遅め」の3段階の話速のグループに分け、各話速のグループごとに音素の継続時間長の平均を求め、話速に対応するグループごとに継続時間長を記憶しておく。
検索文字列取得部111は、入力装置4を介してユーザが入力した検索文字列を取得する。すなわち、ユーザは、音声検索装置100に対して、検索対象の音声信号から目的の音声が発話されている部分を検索するための検索語(クエリ)を、文字列(テキスト)で与える。
変換部112は、隣接する音素に依存しない音響モデルであるモノフォンモデルの音素を、検索文字列取得部111が取得した検索文字列に従って並べて、検索文字列を音素列に変換する。すなわち、変換部112は、検索文字列に含まれる文字と同順で、各文字を発声したときの音素(モノフォン)を並べることにより、検索文字列をモノフォン音素列に変換する。
本実施形態では、日本語の「キゾクセイド」を検索する場合について説明する。検索文字列として日本語「キゾクセイド」が入力された場合、「キゾクセイド」は「k」と「i」と「z」と「o」と「k」と「u」と「s」と「e」と「i」と「d」と「o」との11の音素(モノフォン)を含むため、変換部112は、音素列「k,i,z,o,k,u,s,e,i,d,o」を生成する。
時間長取得部113は、時間長記憶部104から3段階の話速に対応した音素の状態毎の継続時間長を取得する。時間長導出部114は、変換部112が出力した音素列に含まれる各音素の状態毎の継続時間長を時間長取得部113から取得する。そして、取得した継続時間長に基づいて、検索文字列に対応する音声の時間長(以下、発話時間長)を導出する。
具体的には、時間長導出部114は、まず、「k,i,z,o,k,u,s,e,i,d,o」の11個の音素に対応する継続時間長を「早め」用の音素の継続時間長のグループから取得する。正確には、各音素は、3つの状態を有しており、状態毎に継続時間長のデータが蓄積されているので、33個の継続時間長のデータを取得する。そして、取得した継続時間長を加算して音素列「k,i,z,o,k,u,s,e,i,d,o」の話速「早め」用の発話時間長を導出する。次に、「普通」用の音素の継続時間長のグループから、同様にして33個の継続時間長のデータを取得して、話速「普通」用の発話時間長を導出する。以下、同様にして、「遅め」用の音素の継続時間長のグループから33個の継続時間長のデータを取得して、発話時間長を導出する。
図4を用いて、より詳しく説明する。図4の2列目は、検索語「キゾクセイド」の11音素の33状態を記載している。3列目は、各音素の状態に対応する継続時間長を、時間長記憶部104の話速「早め」用の継続時間長のグループから取得した値である。そして、継続時間長を33個合計した値(616ms)が、話速「早め」用の発話時間長である。4列目は、各音素の状態に対応する継続時間長を、時間長記憶部104の話速「普通」用の継続時間長のグループから取得した値である。そして、継続時間長を33個合計した値(770ms)が、話速「普通」用の発話時間長である。以下同様にして、時間長導出部114は、話速「遅め」用の発話時間長(847ms)を導出する。
すなわち、音声検索装置100は、音素の状態毎に発話の際の典型的な3種類の継続時間長を予め時間長記憶部104に用意しておき、検索語について話速に対応する3つの発話時間長を導出する。
図2に戻って、区間指定部115は、音声信号記憶部101から検索対象の音声信号を取得して、検索対象の音声信号における先頭から順に、時間長導出部114が導出した発話時間長の区間を尤度取得区間として指定する。尤度とは、検索対象の音声と音響モデルから作成した検索文字列に対応する音素列との類似の度合を示す指標である。区間指定部115は、検索文字列から変換された音素列と音声信号とを比較するため、指定した尤度取得区間内の音声信号を切り出して、切り出した音声信号を音素列に含まれる各音素の状態に対応するフレームに分割する。区間指定部115は、時間長導出部114が導出した3つの時間長のそれぞれについて、切り出した音声信号に含まれる各フレームと音素列に含まれる各音素の状態とを対応付ける。
フレームとは、音素の1状態の時間長を有する時間窓である。具体的に図5を参照して、検索対象の音声信号に設定されるフレームについて説明する。図5(a)は、先頭から末尾までの時間長Tの検索対象の音声信号の波形図である。縦軸は波形の振幅を示し、横軸は時間tを示す。図5(b)は、図5(a)に示す音声信号において設定されるフレームを示す。1行目は、音声信号の先頭から始まる第0フレーム列である。「キゾクセイド」の音素数は11音素で、33状態あるので、第0フレーム列に含まれるフレーム数は33個である。話速に対応して音素の継続時間長が異なるので、フレーム長Fも話速に対応して異なることになる。したがって、音声信号の先頭から始まる第0フレーム列も、「早め」、「普通」、「遅め」の3段階の話速に対応して3つのフレーム列を設定する。
例えば、話速「早め」用の第0フレーム列は、図4の3列目の時間長を用いるので、第1フレームの時間長は16ms、第2フレームの時間長は20msとなる。話速「早め」用のフレーム長は、第0フレーム列から第(P−1)フレーム列まで同じ時間長である。同様に、話速「普通」用の第0フレーム列は、図4の4列目の時間長を用いるので、第1フレームの時間長は20ms、第2フレームの時間長は25msとなる。話速「遅め」用の第0フレーム列は、図4の5列目の時間長を用いるので、第1フレームの時間長は22ms、第2フレームの時間長は28msとなる。
2行目の第1フレーム列は、音声信号の先頭から所定のシフト長Sだけシフトして設定する。第1フレーム列もフレーム数は33個であり、話速に対応して3つのフレーム列を設定する。以後、同様にしてフレーム列の先頭位置を1シフト長Sずつシフトして第(P−1)フレーム列まで、それぞれ3つのフレーム列を設定する。
シフト長Sは、音声信号のどの位置に検索対象の検索語(クエリ)が存在するかを検索する検索位置の精度を決める長さである。シフト長Sは、最も短いフレーム長よりも短い値に設定される固定値である。本実施形態においては、図4に示す音素の状態の最短が14msであるので、それより短い10msとする。
図5(c)は、検索対象の音声信号において区間指定部115により指定される尤度取得区間を示す。区間指定部115は、まず始めに、話速「早め」の発話時間長(616ms)の区間を時間長Lの第0尤度取得区間に指定する。第0フレーム列が話速に対応して3つあるので、発話時間長(770ms)の区間を話速「普通」用の第0尤度取得区間に指定する。発話時間長(847ms)の区間を話速「遅め」用の第0尤度取得区間に指定する。次に、音声信号の先頭から1シフト長Sだけシフトした位置から始まる第1フレーム列の区間を第1尤度取得区間に指定する。第1尤度取得区間についても3つ指定する。以下、同様にして、第(P−1)フレーム列の区間に対応する第(P−1)尤度取得区間までを3つずつ指定する。
図2に戻って、特徴量取得部116は、区間指定部115が指定した尤度取得区間における検索対象の音声信号の特徴量を、フレーム毎に取得する。この特徴量は、音声データを周波数軸上に変換して得られる周波数軸系特徴パラメータと、音声データのエネルギーの2乗和やその対数を取得することにより得られるパワー系特徴パラメータと、を組み合わせることによって得られる。
例えば周知のように、特徴量は、周波数軸系特徴パラメータ12成分(12次元)とパワー系特徴パラメータ1成分(1次元)、および、直前の時間窓の各成分との差分を取った周波数軸系特徴パラメータ12成分(12次元)と、パワー系特徴パラメータ1成分(1次元)、及び、直前の時間窓の各成分との差分の差分を取った周波数軸系特徴パラメータ12成分(12次元)の、合計38成分を有する38次元ベクトル量として構成される。
図2に戻って、出力確率取得部117は、特徴量取得部116が取得した特徴量に基づいて、この特徴量が音素列に含まれる各音素から出力される確率(出力確率)を、フレーム毎に取得する。具体的には、出力確率取得部117は、モノフォンモデル記憶部102からモノフォンモデルを取得して、特徴量取得部116が取得した各フレームにおける特徴量と、変換部112が変換した音素列に対応するモノフォンモデルとを比較する。そして、音声信号の各フレームにおける特徴量が対応するモノフォンモデルの各状態から出力される確率を取得する。
出力確率取得部117は、この出力確率を区間指定部115が指定した話速に対応する3つの尤度取得区間について、尤度取得区間に含まれる33個のフレームのそれぞれに対して出力確率を取得する。
出力確率取得部117は、この出力確率を区間指定部115が指定した話速に対応する3つの尤度取得区間について、尤度取得区間に含まれる33個のフレームのそれぞれに対して出力確率を取得する。
置換部118は、出力確率取得部117が取得した出力確率のそれぞれを、隣接する前後数フレームの中で最大の出力確率に置換する。この置換処理は、Lower−Bound化と呼ばれる。この処理も3つの尤度取得区間のそれぞれについて行う。
具体的に図6を参照して、Lower−Bound化について説明する。図6において、実線はフレーム毎に取得された出力確率を示す。縦軸は出力確率の高さを下になるほど高くなるように示し、横軸は時間tを示す。置換部118は、各フレームの出力確率を、そのフレームと、そのフレームの前のN1個のフレームと、そのフレームの後のN2個のフレームの中で最大の出力確率に置き換える。N1とN2は0を含む自然数であるが、N1とN2のいずれかは0ではないものとする。
N1=N2=2の場合について説明する。フレーム列内の第0フレームの出力確率は、その前にフレームが無いので、自身の第0フレームとその後の第1フレームと第2フレームの中で最大の出力確率と置換する。第1フレームの出力確率は、その前の第0フレームと自身の第1フレームとその後の第2フレームと第3フレームの中で最大の出力確率と置換する。第2フレームの出力確率は、その前の第0フレームと第1フレームと、自身の第2フレームと、その後の第3フレームと第4フレームの中で最大の出力確率と置換する。このように、第33フレームまで置換処理を行う。置換の結果、実線で示した出力確率は、破線で示したLower−Bound化出力確率のように、時間方向において値の変化が小さくなった出力確率に変換される。
このようなLower−Bound化により、時間長記憶部104に記憶された各音素の継続時間長と実際の音声信号の継続時間長との誤差、及び、時間長導出部114が導出した検索文字列に対応する音声の発話時間長と実際の音声信号の発話時間長との誤差を、前後数フレームの範囲内で小さくすることができる。
図2に戻って、尤度取得部119は、置換部118による置換後の出力確率に基づいて、区間指定部115が指定した尤度取得区間が検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する。具体的には、尤度取得部119は、置換後の出力確率の対数をとって得られる値を、尤度取得区間の先頭から末尾までの全フレーム、この例では33フレームにわたって加算することにより、この尤度取得区間の尤度を取得する。すなわち、出力確率が高いフレームを多く含む尤度取得区間ほど、尤度取得部119が取得する尤度は高くなる。これを話速に対応する3つの尤度取得区間について行う。
繰り返し部120は、区間指定部115が指定する尤度取得区間の音声信号における指定区間を変えて、区間指定部115、特徴量取得部116、出力確率取得部117、置換部118、及び尤度取得部119の処理を繰り返すように各部を制御する。
具体的に図5(b)と(c)を参照して説明すると、繰り返し部120の制御を受けて、区間指定部115は尤度取得区間の先頭位置を1シフト長(S=10ms)分シフトさせて第1尤度取得区間を新たに指定し、指定した第1尤度取得区間をフレームに分割して第1フレーム列を指定する。第1尤度取得区間についても話速に対応する3つの尤度取得区間を指定する。そして、繰り返し部120は、新たに指定した第1尤度取得区間において、上述した特徴量取得部116から尤度取得部119までの処理と同様の処理を各部に実行させて、第1尤度取得区間の尤度を取得するように各部を制御する。
同様に、繰り返し部120は、第2尤度取得区間から第(P−1)尤度取得区間まで、区間指定部115が指定する尤度取得区間を1シフト長(S=10ms)ずつシフトさせて、シフト後の尤度取得区間のそれぞれについて尤度を取得するように各部を制御する。その結果、検索対象の音声信号を1シフト長Sずつシフトした尤度取得区間のそれぞれに対して、モノフォンモデルから作成した音素列「k,i,z,o,k,u,s,e,i,d,o」に対する尤度が取得される。
なお、検索対象の音声信号の中で指定可能な尤度取得区間の数Pは、音声信号の時間長Tと尤度取得区間の時間長Lとシフト長Sとを用いて、P=(T−L+S)/Sと定められる。話速に対応して3つずつ設定されるので、尤度取得区間は、全部で3P個の尤度取得区間のそれぞれに対して尤度を求めることになる。
なお、検索対象の音声信号の中で指定可能な尤度取得区間の数Pは、音声信号の時間長Tと尤度取得区間の時間長Lとシフト長Sとを用いて、P=(T−L+S)/Sと定められる。話速に対応して3つずつ設定されるので、尤度取得区間は、全部で3P個の尤度取得区間のそれぞれに対して尤度を求めることになる。
選択部121は、尤度取得部119が取得した尤度に基づいて、区間指定部115が指定した尤度取得区間の中から、検索文字列に対応する音声が発せられていることが推定される推定区間の候補を尤度が高い順にx個選択する。すなわち、選択部121は、後段のトライフォンモデルに基づくより精度の高い尤度取得の取得処理量を抑えるため、尤度を取得した3P個の尤度取得区間の中から最終的な検索結果の候補となる区間x個を予備的に選択し、残りの尤度取得区間を候補から除外する。
このとき、区間指定部115が指定した尤度取得区間は多くの重なりを有するため、尤度が高い区間は時系列的に連続して存在することが多い。そのため、選択部121が、尤度取得区間の中で単純に尤度が高い区間から順に推定区間の候補を選択すると、選択される区間が検索対象の音声信号における一部に集中する可能性が大きくなる。
これを避けるために、選択部121は、第1選択部121aと第2選択部121bを備え、推定区間の候補を検索対象の音声信号全体にわたって満遍なく選択する。第1選択部121aは、第1の時間を設け、第1の時間ごとに、この第1の時間の中から開始する尤度取得区間の中で尤度が最大の尤度取得区間を1つずつ選択する。この第1の時間は、発話時間長Lよりも短い時間に設定する。例えば、発話時間長Lの1/mに相当する時間長のように設定する。mの値は、サンプリング定理を考慮するとm≧2となるが、本実施形態ではm=2.2として説明する。具体的には、検索語「キゾクセイド」の話速「早め」の発話時間長Lは616msであるので、m=2.2とし、第1の時間を280msに設定する。そして、第1の時間(L/m)毎に1個ずつ尤度取得区間を候補として選択し、残りは候補から除外する。これにより、第1選択部121aは、推定区間の候補を、検索対象の音声信号全体にわたって満遍なく選択する。
第1選択部121aは、3つの話速ごとに生成した区間のそれぞれについてこの処理を行う。第1選択部121aは、話速「普通」に対応する区間に対しては、770msの1/2.2の350msを第1の時間とし、話速「遅め」に対応する区間に対しては、847msの1/2.2の385msを第1の時間とする。そして、各話速に対応する区間について、第1の時間毎に1個ずつ尤度取得区間を候補として選択し、残りは候補から除外する。
第1選択部121aは、選択した区間の候補を尤度が高い順にソートし、尤度が高いx個の区間を候補として選択する。第1選択部121aは、3つの話速のそれぞれについてx個の区間を選択するので、合計3x個の区間を選択する。話速に応じた選択時間長毎にx個の区間の候補を選択した例を図7に示す。図中の「フレーム列番号」の欄には、図5に示した1シフト長Sずつシフトしたフレーム列番号を記載してある。第0フレーム列はシフト量が0なのでフレーム列番号を「0」とし、第1フレーム列はシフト量がS×1なのでフレーム列番号を「1」とする。第nフレーム列はシフト量がS×nなのでフレーム列番号を「n」とする。すなわち、第nフレームの先頭位置は、音声信号の先頭位置からS×nシフトした位置となる。図中の「尤度」の欄には、その尤度取得区間について尤度取得部119が取得した尤度の値を記載している。ここでは、尤度の数値が小さいほど尤度が高いことを示している。
次に、第2選択部121bは、図7に示した3つの話速に分類された尤度取得区間を合わせて、図8に示すように、尤度取得区間に対応するフレーム列番号順にソートする。図の3列目の欄には、その尤度取得区間がどの話速倍率(早め:0.8倍、普通:1.0倍、遅め:1.1倍)に基づいて生成された区間であるかを記載している。
そして、第2選択部121bは、図8に示す尤度取得区間の中から、尤度取得区間の最短時間長よりも短い第2の時間ごとに、この第2の時間の中から開始する尤度取得区間の中で尤度が最大の尤度取得区間を1つずつ選択する。例えば、第2の時間は、最短発話時間長の1/m(m=2.2)以下の時間長とする。
このとき、ある区間の開始位置とその前後の区間の開始位置との間隔が第2の時間以下である場合、第2選択部121bは、該当区間とその前後の区間の尤度を比較し、尤度の高い方の区間を選択する。
図8と図9を用いて具体的に説明する。第2の時間を図4に示す最短発話時間長「616ms」の1/2.2である280msとする。これを音声信号に付与したフレーム列番号に対応させると、シフト長Sが10msであるので、28フレーム(n=28)列毎の間隔になる。そこで、第2の時間をフレーム数に換算して、28フレーム列番号ごとに尤度取得区間を選択する。
図8の項番1と2は28フレーム列番号以上離れているので、項番2は選択対象の候補となる。しかし、項番2と次の項番3のフレーム列番号は28離れていない。項番2と3とを比較すると、項番3の方が尤度が高い。したがって、第2選択部121bは、項番2ではなく項番3を選択する。項番3と4とは同じフレーム列番号で始まるが、項番4よりも項番3の方が尤度が高いので、第2選択部121bは、項番3を選択する。
項番5のフレーム列番号は、その前に選択した項番3のフレーム列番号から28以上離れているので選択対象の候補となる。しかし、項番5と次の項番6のフレーム列番号は28離れていない。項番5と6とを比較すると、項番5の方が尤度が高い。したがって、第2選択部121bは、項番5をそのまま選択する。項番7のフレーム列番号は、その前に選択した項番5のフレーム列番号から28以上離れているので選択対象の候補となる。項番7と次の項番8のフレーム列番号は28以上離れている。したがって、第2選択部121bは、項番7をそのまま選択する。以下同様にして、第2選択部121bは、候補とする区間を選択して、図9に示す一次選択の最終候補の区間を選択する。図9に示すように、第2選択部121bが選択した区間の候補には、異なる話速に基づいて生成された区間が含まれる。
第2選択部121bは、上記の処理により得た図9に示す区間の候補を尤度が高い順にソートし、尤度が高い区間をx個選択する。
第2選択部121bによる選択結果は、出力装置5が備える画面を介して外部に表示される。その後、音声検索装置100は、選択したx個の区間に対して、トライフォンモデル及び動的計画法(DP(Dynamic Programming)マッチング)に基づくより精度の高い尤度取得処理を実行する。DPマッチングは、解析区間の尤度が最大になるように状態遷移を選択する手法である。トライフォンモデルでは、前後の音素との状態遷移を考慮する必要があるので、DPマッチングにより、尤度取得区間の尤度が最大となるように、前後の音素の状態遷移を決める。
第2の変換部122は、隣接する音素に依存する第2の音響モデルであるトライフォンモデルの音素を、検索文字列取得部111が取得した検索文字列に従って並べて、検索文字列を第2の音素列であるトライフォン音素列に変換する。例えば、検索文字列として日本語「キゾクセイド」が入力された場合、「キゾクセイド」は「k−i+z」と「i−z+o」と「z−o+k」と「o−k+u」と「k−u+s」と[u−s+e」と「s−e+i」と「e−i+d」と「i−d+o」との9つのトライフォンを含むため、第2の変換部122は、これら9つのトライフォンを並べたトライフォン音素列を生成する。さらに、始端と終端には2音素からなるバイフォン「k+i」と「d−o」を割り当てることもある。この場合には、予めバイフォンモデルを外部記憶装置3に記憶しておく。なお、「−」記号の左側にある音素は中心音素よりも前にあり、「+」記号の右側にある音素は中心音素よりも後にあることを示す。
第2の出力確率取得部123は、第2選択部121bが推定区間の候補として選択したx個の尤度取得区間における検索対象の音声信号の特徴量が、第2の変換部122が変換した第2の音素列(トライフォン音素列)に含まれる各音素から出力される出力確率を、フレーム毎に取得する。具体的には、第2の出力確率取得部123は、トライフォンモデル記憶部103からトライフォンモデルを取得して、特徴量取得部116が取得した各フレームにおける特徴量と、トライフォン音素列に含まれる各トライフォンのモデルとを比較する。そして、各フレームにおける特徴量が各トライフォンから出力される確率を取得する。
第2の尤度取得部124は、第2選択部121bが推定区間の候補として選択したx個の尤度取得区間が検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第2の尤度を取得する。第2の尤度は、第2の音素列であるトライフォン音素列に基づいて取得されるため、モノフォン音素列に基づいて尤度取得部119が取得した尤度に比べて、より精度が高い指標である。
第2の尤度取得部124は、第2の出力確率取得部123が取得した出力確率に基づいて、第2選択部121bが限定した尤度取得区間に含まれる各フレームについて、音声信号の特徴量とトライフォン音素列に含まれるトライフォンモデルとの対応を、DPマッチングにより探索する。そして、第2選択部121bが選択した尤度取得区間における各フレームのそれぞれについて取得された出力確率の対数をとって得られる値を加算することにより、その区間における第2の尤度を得る。
特定部125は、第2の尤度取得部124が取得した第2の尤度に基づいて、第2選択部121bが選択したx個の区間の候補の中から、検索対象の音声信号の中から検索文字列に対応する音声が発せられていることが推定される推定区間を特定する。例えば、特定部125は、第2の尤度取得部124が取得した第2の尤度が高い順にソートし、尤度が高い順に所定の数の区間を、推定区間として特定する。もしくは、尤度が所定の値以上の区間を推定区間として特定する。特定部125が特定した区間の位置情報は、最終的な検索結果として、出力装置5が備える画面を介して外部に表示される。
以上のような物理的構成及び機能的構成を有する音声検索装置100が実行する音声検索処理について、図10に示すフローチャートを参照して説明する。
ユーザは、予め、「早め」、「普通」、「遅め」の3段階の話速に対応する大量の音声データから、各話速に対応する音素の状態毎の継続時間長を求め、時間長記憶部104に記憶しておく。解析対象の音声信号は、例えば、1時間の講演の録音された音声とし、音声信号記憶部101に記憶しておく。ここでは、検索対象のクエリは、「キゾクセイド」とする。
CPU6が、ROM1から音声検索プログラムを読み出して、音声検索プログラムを実行することにより、図10に示すフローチャートは開始する。ユーザが、検索対象のクエリ「キゾクセイド」を入力装置4から入力し、検索文字列取得部111が検索文字列を取得する(ステップS11)。検索文字列取得部111が検索文字列を取得すると、変換部112及び第2の変換部122は、検索文字列を音素列に変換し(ステップS12)、音素列の音素順に音響モデルの音素を並べる(ステップS13)。具体的には、変換部112は、検索文字列をモノフォンモデルによるモノフォン音素列「k,i,z,o,k,u,s,e,i,d,o」に変換し、第2の変換部122は、検索文字列をトライフォンモデルによる9つのトライフォン音素列「k−i+z」と「i−z+o」と「z−o+k」と「o−k+u」と「k−u+s」と[u−s+e」と「s−e+i」と「e−i+d」と「i−d+o」とに変換する。また、バイフォンモデル「k+i」と「d−o」を追加しても良い。
検索文字列を音素列に変換すると、時間長導出部114は、検索文字列に対応する音声の発話時間長を3種類導出する(ステップS14)。具体的には、時間長導出部114は、時間長記憶部104において音素の状態毎に記憶された継続時間長を加算することにより、検索文字列に対応する音声の発話時間長を導出する。時間長記憶部104は、「早め」、「普通」、「遅め」の3段階の音素の継続時間長のグループを記憶している。従って、時間長導出部114は、音素の継続時間長のグループのそれぞれに対して時間長を導出するので、発話時間長として3種類の時間長を導出する。
具体的には、図4を用いて説明したように、時間長導出部114は、検索語「キゾクセイド」の発話時間長として、話速「早め」用の発話時間長(616ms)、話速「普通」用の発話時間長(770ms)、話速「遅め」用の発話時間長(847ms)、を導出する。
図10に戻って、時間長導出部114が3つの時間長を導出すると、区間指定部115は、最初に、図4の2列目に示す話速「早め」用の発話時間長に対応する第1尤度取得区間として、音声信号の先頭から(0ms〜616ms)の区間を指定する(ステップS15)。そして、第1尤度取得区間を「k1」から「o3」までの33状態に対応するフレームに分割した第0フレーム列を指定する。次に、同様にして、話速「普通」に対して音声信号の先頭から(0ms〜770ms)までの第0尤度取得区間を指定し、話速「遅め」に対して音声信号の先頭から(0ms〜847ms)までの区間を第0尤度取得区間として指定する。3つの尤度取得区間の先頭位置は同じであるが、時間長が異なるので終了位置は異なった位置となる。
区間指定部115が尤度取得区間を指定すると、特徴量取得部116は、指定した尤度取得区間の音声信号の特徴量を、フレーム毎に取得する(ステップS16)。具体的には、まず、話速「早め」用の第0フレーム列の第1フレームについて、図4に示す音素「k1」に対応する特徴量を取得する。次に、第0フレーム列の第2フレームについて、音素「k2」に対応する特徴量を取得する。以下、同様にして、第0フレーム列の第33フレームの「o3」までの話速「早め」用の特徴量を取得する。話速「早め」用の第0フレーム列について特徴量の取得が終わったら、次に、話速「普通」用の第0フレーム列について、同様にして33フレーム分の特徴量を取得する。以下、同様にして、話速「遅め」用の第0フレーム列について、33フレーム分の特徴量を取得する。
そして、出力確率取得部117は、特徴量取得部116が取得した特徴量と検索語の音素に対応するモノフォンモデルとに基づいて、この特徴量が音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する(ステップS17)。すなわち、(話速3種類×フレーム数33フレーム)分の出力確率を求める。
出力確率取得部117が出力確率を取得すると、置換部118は、フレーム毎に取得した出力確率を、そのフレームとそのフレーム前のN1個のフレームとそのフレーム後のN2個のフレームの、合計(1+N1+N2)個のフレームの中で最大の出力確率に置き換えることにより、Lower−Bound化処理を実行する(ステップS18)。これにより、時間長導出部114が導出した発話時間長と実際の音声信号の発話時間長との誤差を縮小する。
尤度取得部119は、Lower−Bound化後の出力確率をフレームごとに対数をとって加算することにより、区間指定部115が指定した尤度取得区間の尤度を取得する(ステップS19)。尤度取得部119は、区間指定部115が指定した3つ話速に対応する尤度取得区間に対してこの処理を行う。尤度取得部119が尤度を取得すると、繰り返し部120は、検索対象の音声信号における全区間の尤度取得が終了したか否かを判別する(ステップS20)。
全区間の尤度取得が終了していない場合(ステップS20;No)、区間指定部115が直前に指定した第0尤度取得区間を1シフト長(S=10ms)だけシフトした第1尤度取得区間を指定する(ステップS21)。そして、その区間を分割して第1フレーム列として指定し、音声検索処理はステップS16に戻る。したがって、話速「早め」に対する第1尤度取得区間として、音声信号の先頭から(10ms〜626ms)までの区間を指定する。話速「普通」に対する第1尤度取得区間として音声信号の先頭から(10ms〜780ms)までの区間を指定し、話速「遅め」に対する第1尤度取得区間として音声信号の先頭から(10ms〜857ms)までの区間を指定する。
そして、繰り返し部120は、区間指定部115が新たに指定した尤度取得区間に対して上述したステップS16〜S20の処理を繰り返して、特徴量取得、出力確率取得、Lower−Bound化処理を行って、尤度を取得するように各部を制御する。このように、繰り返し部120は、検索対象の音声信号の末尾に達するまで、尤度取得区間を1シフト長(S=10ms)ずつシフトさせて順次尤度を取得するように、区間指定部115、特徴量取得部116、出力確率取得部117、置換部118、尤度取得部119を制御する。
最終的に、全区間の尤度取得が終了すると(ステップS20;Yes)、音声検索処理は、取得した尤度に基づいて検索文字列に対応する区間を特定する処理(ステップS22)に移行する。この特定処理の詳細については、図11に示すフローチャートを参照して説明する。
全区間の尤度取得処理が終了すると、第1選択部121aは、区間指定部115が指定した話速に対応した3つの発話時間長ごとにP個ずつ指定した尤度取得区間の中から、第1の時間毎に最も尤度が高い区間を1つずつ選択する(ステップS101)。この選択を話速毎に行う。第1の時間は、各話速の時間長の1/mの時間長とする。例えば、m=2.2とすると、図4に示す話速「早め」に対応する第1の時間は、時間長616msの1/2.2の280msとなる。話速「普通」に対応する第1の時間は、時間長770msの1/2.2である350msとなる。話速「遅め」に対応する第1の時間は、時間長847msの1/2.2である385msとなる。
第1選択部121aは、この選択した区間を尤度が高い順にソートし、尤度が高い区間を話速毎にx個ずつ(合計3x個)選択する(ステップS102)。図7は、第1の時間ごとに1つずつ尤度取得区間を選択し、尤度が高い10個ずつを選択した例である。
次に、第2選択部121bは、図8に示すように、選択した合計3x個の区間をフレーム列番号順にソートする(ステップS103)。そして、第2の時間ごとに、その区間で始まる尤度取得区間の中で最も尤度が高い区間を1つずつ選択する(ステップS104)。第2の時間は、最短発話時間長よりも短い時間長とする。例えば、最短発話時間長Lの1/m(m=2.2)とした場合、図4に示す例では、話速「早め」の時間長616msの1/2.2の280msを第2の時間とする。そして、280msごとに最も尤度が高い区間を選択する。さらに、第2選択部121bは、以上の処理により選択した区間の中から、尤度が高い順にx個の区間を選択する(ステップS105)。
このように、選択部121は、最終的な検索結果として特定する区間の候補を、異なる話速に基づく区間を含み、検索対象の音声信号の全体から満遍なく候補が残るように予備選択する。
選択部121による予備選択の後、第2の出力確率取得部123は、トライフォン音素列に基づいて、選択部121が選択したx個の区間における出力確率を、フレーム毎に取得する(ステップS106)。そして、第2の尤度取得部124は、選択部121が選択した区間の尤度をDPマッチングにより取得する(ステップS107)。すなわち、第2の出力確率取得部123及び第2の尤度取得部124は、トライフォンモデル及びDPマッチングに基づいて、出力確率取得部117及び尤度取得部119に比べて精度の高い尤度取得処理を実行する。
第2の尤度取得部124が第2の尤度を取得すると、特定部125は、取得した第2の尤度に基づいて、検索文字列に対応する区間を特定する(ステップS108)。例えば、特定部125は、第2の尤度取得部124が取得した第2の尤度が高い順に所定の数の区間を、検索文字列に対応する音声が発せられていることが推定される区間として特定する。ステップS108の処理が終了すると、図11に示すフローチャートの処理は、図10に示すフローチャートのステップS23に遷移する。
図10に示すフローチャートの説明に戻って、検索文字列に対応する区間を特定すると、特定部125は、出力装置5を介して特定結果を出力する(ステップS23)。以上により、音声検索装置100が実行する音声検索処理は終了する。
以上説明したように、実施形態1に係る音声検索装置100は、異なる話速に対応した複数の音素の継続時間長を使用して、検索対象の音声信号の中からクエリに対応する音声が発せられていることが推定される区間を特定するので、検索対象の話速が異なる場合でも、検索対象の音声信号の中から、クエリに対応する音声区間を特定できる。
また、実施形態1に係る音声検索装置100は、取得処理負荷が軽い予備選択において異なる話速に対応する多くの継続時間長を使用した取得処理を行うことにより、高い検索精度を確保している。そして、予備選択で候補の区間数を限定することにより、情報量が多いトライフォンモデルを用いた高精度ではあるが取得処理が重たい処理を減らしている。その結果、音声検索装置100は、取得処理量を抑えつつ、高精度に音声検索できる。
また、第1の時間を各発話時間長よりも短い時間長とし、第2の時間を最短発話時間長よりも短い時間長とする。これにより、候補とする区間を限定しつつ尤度が高い区間を漏らすことなく検索することが出来る。
また、実施形態1に係る音声検索装置100は、第1選択部121aで候補となる区間を話速毎に選択し、その選択した区間の候補からさらに候補となる区間を選択する。このように2段階で候補となる区間を選択することにより、選択処理に使用するメモリ領域を削減することが出来る。
なお、ステップS101からステップS103の処理を省略することも出来る。この場合は、3つの話速に基づく3P個の区間をフレーム列番号順にソートする必要があるので、多くのメモリ領域を必要とする。どちらの方式の方がCPUの処理負荷が高くなるかは、処理プログラムの作り方によって異なる。
また、以上の実施形態1の説明では、音素の継続時間長の話速を3段階のグループに分類した場合について説明したが、本発明の用途はこれには限定されない。音素の継続時間長を細かく分類するほど検索精度は上がるが、処理負荷が大きくなり処理時間は長くなる。しかし、モノフォンモデルを用いた予備検索は、トライフォンモデルを用いた検索に対して処理負荷が軽い。そのため、モノフォンモデルの継続時間長のグループ数を10倍にしても、音声検索処理の全体時間はあまり増加しない。この傾向を踏まえて、装置仕様の要求にあった継続時間長のグループ数を決めることが望ましい。
また、以上の実施形態の説明では、選択部121は話速に対応した3つの時間長に基づくそれぞれP個の尤度取得区間の中から、尤度の高い順に各x個を選択する場合について説明した。しかし、選択の仕方はこれに限定されることはない。例えば、特定の尤度の値を閾値として、その値以上の尤度取得区間を選択してもよい。特定部125が行う最終的な推定区間の特定においても、第2の尤度が高い順に所定の数の区間を推定区間として特定するのではなく、尤度が所定の値以上である区間を推定区間として特定してもよい。
また、実施形態1の説明では、区間指定部115が1シフト長Sずつフレーム列の先頭位置をシフトさせ、シフトさせる毎に特徴量の取得と出力確率の取得と尤度の取得を行う処理をP回繰り返す説明をした。しかし、区間指定部115が、最初に第0フレーム列から第(P−1)フレーム列と第0尤度取得区間から第(P−1)尤度取得区間を指定した後で、特徴量と出力確率と尤度の取得をするようにしてもよい。
また、バイフォンモデルを併用する場合には、モノフォンモデルでの予備選択をした後で、バイフォンモデルを用いた2次選択を行い、その後でトライフォンモデルを用いた3次選択(最終選択)をすることもできる。また、モノフォンモデルを用いた予備検索においてモノフォンモデルとバイフォンモデルを組み合わせた1次選択とすることも、トライフォンモデルを用いた最終選択においてバイフォンモデルとトライフォンモデルとを組み合わせた最終選択とすることもできる。
また、上記の尤度取得手段の説明では、各フレームの出力確率の対数をとって加算する説明を行った。しかし、各フレームの出力確率をかけ算する処理であるので、対数をとらずにそのまま出力確率のかけ算をしてもよいし、対数の代わりに近似式を用いてもよい。
また、検索精度を要求されない場合には、Lower−Bound化処理を省略することもできる。検索精度を要求される場合においても、多くの話速に対応する継続時間長を用いて検索する場合には、Lower−Bound化処理を省略できる場合がある。
また、以上の説明では、検索語を入力装置4からテキストデータとして入力する場合について説明したが、検索語を音声認識装置のマイクに音声データとして入力し、音声認識装置で検索語を認識するようにしてもよい。
また、上記の説明では、第1の時間と第2の時間を一定の時間として説明した。しかし、この時間は、ユーザが入力装置4から任意に設定できるようにしてもよい。また、第1の時間と第2の時間はそれぞれ一定である必要はなく、検索する音声信号の検索位置に応じて可変出来るようにしてもよい。例えば、検索対象の音声信号の前半では第1の時間を第1の値とし検索対象の音声信号の後半では第1の時間を第2の値に可変出来るようにしてもよい。
また、大量の音声データを異なる話速に分類する分類の仕方として、年代別、業界別(ニュース、スポーツ、芸能等)等の話速が異なる母集団毎に音声データを分類してもよい。
また、本発明に係る機能を実現するための構成を予め備えた音声検索装置として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る音声検索装置として機能させることもできる。すなわち、上記実施形態で例示した音声検索装置100による各機能構成を実現させるためのプログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するCPU等が実行できるように適用することで、本発明に係る音声検索装置として機能させることができる。また、本発明に係る音声検索方法は、音声検索装置を用いて実施できる。
また、このようなプログラムの適用方法は任意である。プログラムを、例えば、コンピュータが読取可能な記録媒体(CD−ROM(Compact Disc Read-Only Memory)、DVD(Digital Versatile Disc)、MO(Magneto Optical disc)等)に格納して適用できる他、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより適用することもできる。
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
(付記1)
検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を有する区間を設定し、前記複数の時間長のそれぞれについて、検索対象の音声信号に前記複数の時間長を有する区間を尤度取得区間として複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間の中から、予め設定された第1の時間ごとに尤度取得区間を選択する選択手段と、
前記選択手段が選択した複数の尤度取得区間の中から前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。
検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を有する区間を設定し、前記複数の時間長のそれぞれについて、検索対象の音声信号に前記複数の時間長を有する区間を尤度取得区間として複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間の中から、予め設定された第1の時間ごとに尤度取得区間を選択する選択手段と、
前記選択手段が選択した複数の尤度取得区間の中から前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。
(付記2)
複数の話速に対応する音素に関する継続時間長を記憶する記憶手段と、
前記検索文字列を音素列に変換する変換手段と、
前記変換手段が変換した音素列に含まれる各音素の継続時間長を前記記憶手段から取得する時間長取得手段と、
前記時間長取得手段が取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を導出する時間長導出手段と、をさらに備え、
前記区間指定手段は、検索対象の音声信号における前記時間長導出手段が導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定し、
前記選択手段は、前記区間指定手段が指定した尤度取得区間の中から、予め定められた第1の時間ごとに、該第1の時間の中から開始する複数の時間長を有する尤度取得区間の中で前記尤度が最大の尤度取得区間を1つずつ選択する、
ことを特徴とする付記1に記載の音声検索装置。
複数の話速に対応する音素に関する継続時間長を記憶する記憶手段と、
前記検索文字列を音素列に変換する変換手段と、
前記変換手段が変換した音素列に含まれる各音素の継続時間長を前記記憶手段から取得する時間長取得手段と、
前記時間長取得手段が取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を導出する時間長導出手段と、をさらに備え、
前記区間指定手段は、検索対象の音声信号における前記時間長導出手段が導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定し、
前記選択手段は、前記区間指定手段が指定した尤度取得区間の中から、予め定められた第1の時間ごとに、該第1の時間の中から開始する複数の時間長を有する尤度取得区間の中で前記尤度が最大の尤度取得区間を1つずつ選択する、
ことを特徴とする付記1に記載の音声検索装置。
(付記3)
前記第1の時間は、
前記時間長導出手段が導出した異なる話速に対応した複数の時間長の中で、最も短い時間長よりも短い時間長である、
ことを特徴とする付記2に記載の音声検索装置。
前記第1の時間は、
前記時間長導出手段が導出した異なる話速に対応した複数の時間長の中で、最も短い時間長よりも短い時間長である、
ことを特徴とする付記2に記載の音声検索装置。
(付記4)
前記選択手段は、
話速に対応した時間長ごとに前記第1の時間を指定し、話速に対応した時間長に分類した尤度取得区間の中から、前記第1の時間ごとに、該第1の時間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を、異なる話速に対応した時間長ごとに1つずつ選択する第1の選択手段と、
前記第1の選択手段が選択した前記尤度取得区間の中から、予め設定された第2の時間ごとに、該第2の時間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を1つずつ選択する第2の選択手段と、
を備え、
前記第1の時間は、前記時間長導出手段が導出した話速に対応した時間長よりも短い時間長であり、
前記第2の時間は、前記時間長導出手段が導出した異なる話速に対応した複数の時間長の中で、最も短い時間長よりも短い時間長である、
ことを特徴とする付記2に記載の音声検索装置。
前記選択手段は、
話速に対応した時間長ごとに前記第1の時間を指定し、話速に対応した時間長に分類した尤度取得区間の中から、前記第1の時間ごとに、該第1の時間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を、異なる話速に対応した時間長ごとに1つずつ選択する第1の選択手段と、
前記第1の選択手段が選択した前記尤度取得区間の中から、予め設定された第2の時間ごとに、該第2の時間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を1つずつ選択する第2の選択手段と、
を備え、
前記第1の時間は、前記時間長導出手段が導出した話速に対応した時間長よりも短い時間長であり、
前記第2の時間は、前記時間長導出手段が導出した異なる話速に対応した複数の時間長の中で、最も短い時間長よりも短い時間長である、
ことを特徴とする付記2に記載の音声検索装置。
(付記5)
前記区間指定手段が指定した尤度取得区間における前記検索対象の音声信号の特徴量を、音声信号と音素モデルとを比較する区間であるフレームごとに取得する特徴量取得手段と、
前記検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレームごとに取得する出力確率取得手段と、
をさらに備え、
前記尤度取得手段は、前記区間指定手段が指定した尤度取得区間に含まれるフレームごとに取得された出力確率の対数をとった値を加算して該尤度取得区間の前記尤度を取得する、
ことを特徴とする付記2から4のいずれかに記載の音声検索装置。
前記区間指定手段が指定した尤度取得区間における前記検索対象の音声信号の特徴量を、音声信号と音素モデルとを比較する区間であるフレームごとに取得する特徴量取得手段と、
前記検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレームごとに取得する出力確率取得手段と、
をさらに備え、
前記尤度取得手段は、前記区間指定手段が指定した尤度取得区間に含まれるフレームごとに取得された出力確率の対数をとった値を加算して該尤度取得区間の前記尤度を取得する、
ことを特徴とする付記2から4のいずれかに記載の音声検索装置。
(付記6)
前記出力確率取得手段がフレームごとに取得した出力確率のそれぞれを、そのフレームとそのフレームの前のN1個のフレームとそのフレームの後のN2個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記N1と前記N2は0を含む自然数であって、前記N1と前記N2のいずれかは0ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
ことを特徴とする付記5に記載の音声検索装置。
前記出力確率取得手段がフレームごとに取得した出力確率のそれぞれを、そのフレームとそのフレームの前のN1個のフレームとそのフレームの後のN2個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記N1と前記N2は0を含む自然数であって、前記N1と前記N2のいずれかは0ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
ことを特徴とする付記5に記載の音声検索装置。
(付記7)
検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を有する区間を設定し、前記複数の時間長のそれぞれについて、検索対象の音声信号に前記複数の時間長を有する区間を尤度取得区間として複数指定する区間指定ステップと、
前記区間指定ステップで指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
前記区間指定ステップで指定した尤度取得区間の中から、予め設定された第1の時間ごとに尤度取得区間を選択する選択ステップと、
前記選択ステップで選択した複数の尤度取得区間の中から前記尤度取得ステップで取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
を含む音声検索方法。
検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を有する区間を設定し、前記複数の時間長のそれぞれについて、検索対象の音声信号に前記複数の時間長を有する区間を尤度取得区間として複数指定する区間指定ステップと、
前記区間指定ステップで指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
前記区間指定ステップで指定した尤度取得区間の中から、予め設定された第1の時間ごとに尤度取得区間を選択する選択ステップと、
前記選択ステップで選択した複数の尤度取得区間の中から前記尤度取得ステップで取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
を含む音声検索方法。
(付記8)
コンピュータを、
検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を有する区間を設定し、前記複数の時間長のそれぞれについて、検索対象の音声信号に前記複数の時間長を有する区間を尤度取得区間として複数指定する区間指定手段、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
前記区間指定手段が指定した尤度取得区間の中から、予め設定された第1の時間ごとに尤度取得区間を選択する選択手段、
前記選択手段が選択した複数の尤度取得区間の中から前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
コンピュータを、
検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を有する区間を設定し、前記複数の時間長のそれぞれについて、検索対象の音声信号に前記複数の時間長を有する区間を尤度取得区間として複数指定する区間指定手段、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
前記区間指定手段が指定した尤度取得区間の中から、予め設定された第1の時間ごとに尤度取得区間を選択する選択手段、
前記選択手段が選択した複数の尤度取得区間の中から前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
1…ROM、2…RAM、3…外部記憶装置、4…入力装置、5…出力装置、6…CPU、7…バス、100…音声検索装置、101…音声信号記憶部、102…モノフォンモデル記憶部、103…トライフォンモデル記憶部、104…時間長記憶部、111…検索文字列取得部、112…変換部、113…時間長取得部、114…時間長導出部、115…区間指定部、116…特徴量取得部、117…出力確率取得部、118…置換部、119…尤度取得部、120…繰り返し部、121…選択部、121a…第1選択部、121b…第2選択部、122…第2の変換部、123…第2の出力確率取得部、124…第2の尤度取得部、125…特定部
Claims (8)
- 検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を有する区間を設定し、前記複数の時間長のそれぞれについて、検索対象の音声信号に前記複数の時間長を有する区間を尤度取得区間として複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間の中から、予め設定された第1の時間ごとに尤度取得区間を選択する選択手段と、
前記選択手段が選択した複数の尤度取得区間の中から前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。 - 複数の話速に対応する音素に関する継続時間長を記憶する記憶手段と、
前記検索文字列を音素列に変換する変換手段と、
前記変換手段が変換した音素列に含まれる各音素の継続時間長を前記記憶手段から取得する時間長取得手段と、
前記時間長取得手段が取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を導出する時間長導出手段と、をさらに備え、
前記区間指定手段は、検索対象の音声信号における前記時間長導出手段が導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定し、
前記選択手段は、前記区間指定手段が指定した尤度取得区間の中から、予め定められた第1の時間ごとに、該第1の時間の中から開始する複数の時間長を有する尤度取得区間の中で前記尤度が最大の尤度取得区間を1つずつ選択する、
ことを特徴とする請求項1に記載の音声検索装置。 - 前記第1の時間は、
前記時間長導出手段が導出した異なる話速に対応した複数の時間長の中で、最も短い時間長よりも短い時間長である、
ことを特徴とする請求項2に記載の音声検索装置。 - 前記選択手段は、
話速に対応した時間長ごとに前記第1の時間を指定し、話速に対応した時間長に分類した尤度取得区間の中から、前記第1の時間ごとに、該第1の時間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を、異なる話速に対応した時間長ごとに1つずつ選択する第1の選択手段と、
前記第1の選択手段が選択した前記尤度取得区間の中から、予め設定された第2の時間ごとに、該第2の時間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を1つずつ選択する第2の選択手段と、
を備え、
前記第1の時間は、前記時間長導出手段が導出した話速に対応した時間長よりも短い時間長であり、
前記第2の時間は、前記時間長導出手段が導出した異なる話速に対応した複数の時間長の中で、最も短い時間長よりも短い時間長である、
ことを特徴とする請求項2に記載の音声検索装置。 - 前記区間指定手段が指定した尤度取得区間における前記検索対象の音声信号の特徴量を、音声信号と音素モデルとを比較する区間であるフレームごとに取得する特徴量取得手段と、
前記検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレームごとに取得する出力確率取得手段と、
をさらに備え、
前記尤度取得手段は、前記区間指定手段が指定した尤度取得区間に含まれるフレームごとに取得された出力確率の対数をとった値を加算して該尤度取得区間の前記尤度を取得する、
ことを特徴とする請求項2から4のいずれか1項に記載の音声検索装置。 - 前記出力確率取得手段がフレームごとに取得した出力確率のそれぞれを、そのフレームとそのフレームの前のN1個のフレームとそのフレームの後のN2個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記N1と前記N2は0を含む自然数であって、前記N1と前記N2のいずれかは0ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
ことを特徴とする請求項5に記載の音声検索装置。 - 検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を有する区間を設定し、前記複数の時間長のそれぞれについて、検索対象の音声信号に前記複数の時間長を有する区間を尤度取得区間として複数指定する区間指定ステップと、
前記区間指定ステップで指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
前記区間指定ステップで指定した尤度取得区間の中から、予め設定された第1の時間ごとに尤度取得区間を選択する選択ステップと、
前記選択ステップで選択した複数の尤度取得区間の中から前記尤度取得ステップで取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
を含む音声検索方法。 - コンピュータを、
検索文字列に対応する音声の発話時間長として、複数の異なる話速に対応した複数の時間長を有する区間を設定し、前記複数の時間長のそれぞれについて、検索対象の音声信号に前記複数の時間長を有する区間を尤度取得区間として複数指定する区間指定手段、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
前記区間指定手段が指定した尤度取得区間の中から、予め設定された第1の時間ごとに尤度取得区間を選択する選択手段、
前記選択手段が選択した複数の尤度取得区間の中から前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015130574A JP2017015847A (ja) | 2015-06-30 | 2015-06-30 | 音声検索装置、音声検索方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015130574A JP2017015847A (ja) | 2015-06-30 | 2015-06-30 | 音声検索装置、音声検索方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017015847A true JP2017015847A (ja) | 2017-01-19 |
Family
ID=57830549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015130574A Ceased JP2017015847A (ja) | 2015-06-30 | 2015-06-30 | 音声検索装置、音声検索方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017015847A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021181451A1 (ja) * | 2020-03-09 | 2021-09-16 | 日本電気株式会社 | 音声認識装置、制御方法、及びプログラム |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125587A (ja) * | 1999-10-26 | 2001-05-11 | Ricoh Co Ltd | 音声認識対話装置及びその音声認識方法 |
JP2001228890A (ja) * | 2000-02-17 | 2001-08-24 | Mitsubishi Electric Corp | 音声認識装置 |
JP2006178648A (ja) * | 2004-12-21 | 2006-07-06 | Sony Corp | 音声データからのキーワード抽出のための装置,方法,プログラム及び記録媒体 |
JP2011013594A (ja) * | 2009-07-06 | 2011-01-20 | Nippon Telegr & Teleph Corp <Ntt> | 音素分割装置、方法及びプログラム |
JP2011053563A (ja) * | 2009-09-03 | 2011-03-17 | Neikusu:Kk | 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム |
JP2011070192A (ja) * | 2009-09-22 | 2011-04-07 | Ricoh Co Ltd | 音声検索装置及び音声検索方法 |
JP5888356B2 (ja) * | 2014-03-05 | 2016-03-22 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
JP6003971B2 (ja) * | 2014-12-22 | 2016-10-05 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
JP6003972B2 (ja) * | 2014-12-22 | 2016-10-05 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
-
2015
- 2015-06-30 JP JP2015130574A patent/JP2017015847A/ja not_active Ceased
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125587A (ja) * | 1999-10-26 | 2001-05-11 | Ricoh Co Ltd | 音声認識対話装置及びその音声認識方法 |
JP2001228890A (ja) * | 2000-02-17 | 2001-08-24 | Mitsubishi Electric Corp | 音声認識装置 |
JP2006178648A (ja) * | 2004-12-21 | 2006-07-06 | Sony Corp | 音声データからのキーワード抽出のための装置,方法,プログラム及び記録媒体 |
JP2011013594A (ja) * | 2009-07-06 | 2011-01-20 | Nippon Telegr & Teleph Corp <Ntt> | 音素分割装置、方法及びプログラム |
JP2011053563A (ja) * | 2009-09-03 | 2011-03-17 | Neikusu:Kk | 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム |
JP2011070192A (ja) * | 2009-09-22 | 2011-04-07 | Ricoh Co Ltd | 音声検索装置及び音声検索方法 |
JP5888356B2 (ja) * | 2014-03-05 | 2016-03-22 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
JP6003971B2 (ja) * | 2014-12-22 | 2016-10-05 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
JP6003972B2 (ja) * | 2014-12-22 | 2016-10-05 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021181451A1 (ja) * | 2020-03-09 | 2021-09-16 | 日本電気株式会社 | 音声認識装置、制御方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6003972B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP6003971B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
JP6011565B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
US9437187B2 (en) | Voice search device, voice search method, and non-transitory recording medium | |
WO2002101719A1 (en) | Voice recognition apparatus and voice recognition method | |
CA3162378A1 (en) | A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
JP6622681B2 (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP5694102B2 (ja) | 音声認識装置、音声認識方法およびプログラム | |
JP2017015847A (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP6565416B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP2011053312A (ja) | 適応化音響モデル生成装置及びプログラム | |
JP6604013B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP3803302B2 (ja) | 映像要約装置 | |
JP6680008B2 (ja) | 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム | |
JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
JP6680009B2 (ja) | 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム | |
JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
Venkatesh et al. | Investigating the Effects of Training Set Synthesis for Audio Segmentation of Radio Broadcast. Electronics 2021, 10, 827 | |
CN116343744A (zh) | 交互方法和装置、电子设备、存储介质 | |
JP2018160137A (ja) | 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム | |
JP2012194364A (ja) | 音声認識装置、音声認識方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180622 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190411 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190604 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20191029 |