JP2016118999A - 音声検索装置、音声検索方法及びプログラム - Google Patents
音声検索装置、音声検索方法及びプログラム Download PDFInfo
- Publication number
- JP2016118999A JP2016118999A JP2014259418A JP2014259418A JP2016118999A JP 2016118999 A JP2016118999 A JP 2016118999A JP 2014259418 A JP2014259418 A JP 2014259418A JP 2014259418 A JP2014259418 A JP 2014259418A JP 2016118999 A JP2016118999 A JP 2016118999A
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- phoneme
- section
- time length
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000008859 change Effects 0.000 claims abstract description 86
- 238000006243 chemical reaction Methods 0.000 claims abstract description 30
- 238000009795 derivation Methods 0.000 claims abstract description 4
- 230000005236 sound signal Effects 0.000 claims description 46
- 230000008569 process Effects 0.000 description 34
- 238000004364 calculation method Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 15
- 230000007704 transition Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 101100087530 Caenorhabditis elegans rom-1 gene Proteins 0.000 description 5
- 101100305983 Mus musculus Rom1 gene Proteins 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 206010071299 Slow speech Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
Abstract
Description
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
検索対象の音声信号の話速に係る情報を取得する話速情報取得手段と、
前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段と、
前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段と、
前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする。
実施形態1に係る音声検索装置100は、物理的には、図1に示すように、ROM(Read Only Memory)1と、RAM(Random Access Memory)2と、外部記憶装置3と、入力装置4と、出力装置5と、CPU(Central Processing Unit)6と、バス7と、を備える。
シフト長Sは、音声信号のどの位置に検索対象の検査語が存在するかを検索する検索位置の精度を決める長さである。シフト長Sは、フレーム長よりも短い値に固定して設定される。本実施形態においては、要求精度は10ms以下であるとする。また、図5に記載する継続時間長の最短が9msであるので、シフト長Sは2つの数値よりも短い5msとする。
なお、各フレームの出力確率をかけ算する処理であるので、対数をとらずにそのまま出力確率のかけ算をしてもよいし、対数の代わりに近似式を用いてもよい。
このように、繰り返し部122は、検索対象の音声信号の末尾に達するまで尤度取得区間を1シフト長ずつシフトさせて順次尤度を取得するように区間指定部117、特徴量算出部118、出力確率取得部119、置換部120、尤度取得部121を制御する。
さらに選択部123は、このように選択した区間の中から、尤度が高い順にx個の区間を選択する(ステップS102)。すなわち、選択部123は、最終的な検索結果として特定する区間の候補を、検索対象の音声信号の全体から満遍なく候補が残るように、予備選択する。
実施形態1では、話速が一定であると仮定して話速情報を1個のみ設定する場合について説明した。したがって、話速情報も1種類のみで対応可能であるとしていた。しかし、実際のスピーチでは、同じ単語を必ずしも同じ話速で発話するとは限られない。例えば、「カテゴリ」という単語も、平均的な話速で発話する場合もあれば、強調する場合のようにゆっくり発話される場合もある。これに対応するために、実施形態2では、複数の話速情報を用いることにより複数の発話時間長を導出する。実施形態2では、話速情報として、0.7(早め)、1.0(普通)、1.4(遅め)の3種類の話速情報(継続時間長の変更率)を用いる場合について説明する。
CPU6が、ROM1から音声検索プログラムを読み出して、音声検索プログラムを実行することにより図11に示すフローチャートは開始する。ユーザが、検索対象の検索文字列「カテゴリ」を入力装置4からテキストデータとして入力し、検索文字列取得部111が検索文字列を取得する(ステップS31)。検索文字列取得部111が検索文字列を取得すると、変換部112及び第2の変換部122は、検索文字列を音素列に変換し(ステップS32)、音素列の音素順に音響モデルの音素を並べる(ステップS33)。具体的には、変換部112は、検索文字列をモノフォンによるモノフォン音素列に変換し、第2の変換部122は、検索文字列をトライフォンによるトライフォン音素列に変換する。
時間長変更部115は、時間長記憶部104から取得した音素の各状態の平均継続時間長から3種類の話速情報に対応する3種類の継続時間長を作成する(ステップS35)。
まず、区間指定部117は、時間長導出部116が導出した3個の時間長のそれぞれについて、検索対象の音声信号の先頭から開始する第0フレーム列を指定し、その24フレーム分の区間を第0尤度取得区間として指定する(ステップS37)。具体的には、話速「普通」用の継続時間長を用いて第0フレーム列を指定し、その24フレーム分の区間(0ms〜620ms)を話速「普通」用の第0尤度取得区間として指定する。話速「遅め」用の継続時間長を用いて第0フレーム列を指定し、音声信号の先頭から(0ms〜852ms)の区間を話速「遅め」用の第0尤度取得区間として指定する。同様にして、音声信号の先頭から(0ms〜456ms)の区間を話速「早め」用の第0尤度取得区間として指定する。
さらに選択部123は、このように選択した区間の中から、尤度が高い順にx個の区間を選択する(ステップS102)。
第2の出力確率取得部125は、トライフォン音素列に基づいて、選択部123が選択した区間における出力確率を、フレーム毎に取得する(ステップS103)。第2の尤度取得部126は、選択部123が選択した区間の尤度をDPマッチングにより取得する(ステップS104)。そして、特定部127は、取得した第2の尤度に基づいて、検索文字列に対応する音声が発せられていることが推定される区間を特定する(ステップS105)。そして、図11のステップS45に遷移する。
このように、本実施形態に係る検索装置は、予備選択において異なる話速に対応する多くの発話時間長を導出して区間の候補を検索することにより、途中で話速が変化する音声信号に対しても、高い検索精度を確保している。そして、予備選択で候補の区間数を限定することにより、情報量の多いトライフォンモデルを用いた高精度ではあるが計算処理が重たい処理を減らしている。その結果、音声検索装置100は、計算量を抑えつつ、高精度に音声検索できる。
実施形態1と2に係る音声検索装置100は、音素の各状態の継続時間長に一律に変更率を掛ける場合について説明した。しかし、本発明はこれには限定されない。例えば、音素の状態ごとに変更率を変える場合について説明する。
本変形例において、継続時間長を伸張する場合では、母音については、状態1の変更利を1.3とし、状態2の変更率を1.6とし、状態3の変更率を1.3としている。子音については、状態1の変更率を1.1とし、状態2の変更率を1.2とし、状態3の変更率を1.1としている。継続時間長を縮小する場合では、母音については、状態1の変更利を0.8とし、状態2の変更率を0.6とし、状態3の変更率を0.8としている。子音については、状態1の変更率を0.9とし、状態2の変更率を0.8とし、状態3の変更率を0.9としている。
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
検索対象の音声信号の話速に係る情報を取得する話速情報取得手段と、
前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段と、
前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段と、
前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。
前記時間長変更手段は、前記時間長取得手段が取得した各音素の継続時間長のうちの母音の音素の継続時間長と子音の音素の継続時間長とを、個別に定められた変更率で変更する、
ことを特徴とする付記1に記載の音声検索装置。
前記時間長変更手段は、前記時間長取得手段が取得した各音素の継続時間長のうちの母音の音素の継続時間長を、子音の音素の継続時間長の変更率より大きい変更率で変更する、
ことを特徴とする付記1または2に記載の音声検索装置。
前記時間長変更手段は、前記時間長取得手段が取得した母音と子音の音素の継続時間長のうちの母音の音素の継続時間長のみを変更する、
ことを特徴とする付記1に記載の音声検索装置。
前記時間長取得手段は、前記音素列に含まれる各音素の継続時間長を、各音素の状態毎に取得し、
前記時間長変更手段は、前記時間長取得手段が各音素の状態毎に取得した継続時間長を、状態毎に定められた変更率で変更する、
ことを特徴とする付記1から4のいずれかに記載の音声検索装置。
前記時間長変更手段は、各音素の状態のうち、音素の発声開始時もしくは発声終了時を含む状態の継続時間長を、音素の発声開始時もしくは発声終了時を含まない状態の継続時間長の変更率より小さい変更率で変更する、
ことを特徴とする付記5に記載の音声検索装置。
前記区間指定手段が指定した尤度取得区間における前記検索対象の音声信号の特徴量を、音声信号と音素モデルとを比較する区間であるフレーム毎に算出する特徴量算出手段と、
前記検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段と、
をさらに備え、
前記尤度取得手段は、前記区間指定手段が指定した尤度取得区間に含まれるフレーム毎に取得された出力確率の対数をとった値を加算して該尤度取得区間の前記尤度を取得する、
ことを特徴とする付記1から6のいずれかに記載の音声検索装置。
前記出力確率取得手段がフレーム毎に取得した出力確率のそれぞれを、そのフレームとそのフレームの前のN1個のフレームとそのフレームの後のN2個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記N1とN2は0を含む自然数であって、N1とN2のいずれかは0ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
ことを特徴とする付記7に記載の音声検索装置。
前記検索文字列を隣接する音素に依存しない音響モデルの音素を並べた音素列に変換する変換手段を備え、
前記尤度取得手段は、前記音素列に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得し、
前記尤度取得手段が取得した尤度に基づいて、前記指定された複数の尤度取得区間の中から前記推定区間の候補を選択する選択手段と、
隣接する音素に依存する第2の音響モデルの音素を並べて、前記検索文字列を第2の音素列に変換する第2の変換手段と、
前記第2の音素列に基づいて、前記選択手段が前記推定区間の候補として選択した区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第2の尤度を、前記選択手段が選択した複数の候補のそれぞれについて取得する第2の尤度取得手段と、
をさらに備え、
前記特定手段は、前記第2の尤度取得手段が取得した第2の尤度に基づいて、前記選択手段が選択した複数の候補の中から前記推定区間を特定する、
ことを特徴とする付記1から8のいずれかに記載の音声検索装置。
前記選択手段は、前記区間指定手段が指定した尤度取得区間の中から、所定の選択時間長毎に、該所定の選択時間長の区間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を1つずつ選択することにより、前記推定区間の複数の候補を選択する、
ことを特徴とする付記9に記載の音声検索装置。
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得ステップと、
検索対象の音声信号の話速に係る情報を取得する話速情報取得ステップと、
前記話速情報取得ステップで取得した話速に係る情報に応じて、前記時間長取得ステップで取得した各音素の継続時間長を変更する時間長変更ステップと、
前記時間長変更ステップで変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出ステップと、
前記時間長導出ステップで導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定ステップと、
前記区間指定ステップで指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
前記区間指定ステップで指定した尤度取得区間のそれぞれについて前記尤度取得ステップで取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
を含む音声検索方法。
コンピュータを、
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段、
検索対象の音声信号の話速に係る情報を取得する話速情報取得手段、
前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段、
前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段、
前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
Claims (12)
- 検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
検索対象の音声信号の話速に係る情報を取得する話速情報取得手段と、
前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段と、
前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段と、
前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。 - 前記時間長変更手段は、前記時間長取得手段が取得した各音素の継続時間長のうちの母音の音素の継続時間長と子音の音素の継続時間長とを、個別に定められた変更率で変更する、
ことを特徴とする請求項1に記載の音声検索装置。 - 前記時間長変更手段は、前記時間長取得手段が取得した各音素の継続時間長のうちの母音の音素の継続時間長を、子音の音素の継続時間長の変更率より大きい変更率で変更する、
ことを特徴とする請求項1または2に記載の音声検索装置。 - 前記時間長変更手段は、前記時間長取得手段が取得した母音と子音の音素の継続時間長のうちの母音の音素の継続時間長のみを変更する、
ことを特徴とする請求項1に記載の音声検索装置。 - 前記時間長取得手段は、前記音素列に含まれる各音素の継続時間長を、各音素の状態毎に取得し、
前記時間長変更手段は、前記時間長取得手段が各音素の状態毎に取得した継続時間長を、状態毎に定められた変更率で変更する、
ことを特徴とする請求項1から4のいずれか1項に記載の音声検索装置。 - 前記時間長変更手段は、各音素の状態のうち、音素の発声開始時もしくは発声終了時を含む状態の継続時間長を、音素の発声開始時もしくは発声終了時を含まない状態の継続時間長の変更率より小さい変更率で変更する、
ことを特徴とする請求項5に記載の音声検索装置。 - 前記区間指定手段が指定した尤度取得区間における前記検索対象の音声信号の特徴量を、音声信号と音素モデルとを比較する区間であるフレーム毎に算出する特徴量算出手段と、
前記検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段と、
をさらに備え、
前記尤度取得手段は、前記区間指定手段が指定した尤度取得区間に含まれるフレーム毎に取得された出力確率の対数をとった値を加算して該尤度取得区間の前記尤度を取得する、
ことを特徴とする請求項1から6のいずれか1項に記載の音声検索装置。 - 前記出力確率取得手段がフレーム毎に取得した出力確率のそれぞれを、そのフレームとそのフレームの前のN1個のフレームとそのフレームの後のN2個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記N1とN2は0を含む自然数であって、N1とN2のいずれかは0ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
ことを特徴とする請求項7に記載の音声検索装置。 - 前記検索文字列を隣接する音素に依存しない音響モデルの音素を並べた音素列に変換する変換手段を備え、
前記尤度取得手段は、前記音素列に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得し、
前記尤度取得手段が取得した尤度に基づいて、前記指定された複数の尤度取得区間の中から前記推定区間の候補を選択する選択手段と、
隣接する音素に依存する第2の音響モデルの音素を並べて、前記検索文字列を第2の音素列に変換する第2の変換手段と、
前記第2の音素列に基づいて、前記選択手段が前記推定区間の候補として選択した区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第2の尤度を、前記選択手段が選択した複数の候補のそれぞれについて取得する第2の尤度取得手段と、
をさらに備え、
前記特定手段は、前記第2の尤度取得手段が取得した第2の尤度に基づいて、前記選択手段が選択した複数の候補の中から前記推定区間を特定する、
ことを特徴とする請求項1から8のいずれか1項に記載の音声検索装置。 - 前記選択手段は、前記区間指定手段が指定した尤度取得区間の中から、所定の選択時間長毎に、該所定の選択時間長の区間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を1つずつ選択することにより、前記推定区間の複数の候補を選択する、
ことを特徴とする請求項9に記載の音声検索装置。 - 検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得ステップと、
検索対象の音声信号の話速に係る情報を取得する話速情報取得ステップと、
前記話速情報取得ステップで取得した話速に係る情報に応じて、前記時間長取得ステップで取得した各音素の継続時間長を変更する時間長変更ステップと、
前記時間長変更ステップで変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出ステップと、
前記時間長導出ステップで導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定ステップと、
前記区間指定ステップで指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
前記区間指定ステップで指定した尤度取得区間のそれぞれについて前記尤度取得ステップで取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
を含む音声検索方法。 - コンピュータを、
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段、
検索対象の音声信号の話速に係る情報を取得する話速情報取得手段、
前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段、
前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段、
前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014259418A JP6003971B2 (ja) | 2014-12-22 | 2014-12-22 | 音声検索装置、音声検索方法及びプログラム |
US14/953,775 US9754024B2 (en) | 2014-12-22 | 2015-11-30 | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium |
CN201510972004.0A CN105718503B (zh) | 2014-12-22 | 2015-12-22 | 声音检索装置以及声音检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014259418A JP6003971B2 (ja) | 2014-12-22 | 2014-12-22 | 音声検索装置、音声検索方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016118999A true JP2016118999A (ja) | 2016-06-30 |
JP6003971B2 JP6003971B2 (ja) | 2016-10-05 |
Family
ID=56130166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014259418A Active JP6003971B2 (ja) | 2014-12-22 | 2014-12-22 | 音声検索装置、音声検索方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9754024B2 (ja) |
JP (1) | JP6003971B2 (ja) |
CN (1) | CN105718503B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017021196A (ja) * | 2015-07-10 | 2017-01-26 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017015847A (ja) * | 2015-06-30 | 2017-01-19 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
CN107068145B (zh) * | 2016-12-30 | 2019-02-15 | 中南大学 | 语音评测方法及系统 |
JP6805037B2 (ja) * | 2017-03-22 | 2020-12-23 | 株式会社東芝 | 話者検索装置、話者検索方法、および話者検索プログラム |
US11276390B2 (en) * | 2018-03-22 | 2022-03-15 | Casio Computer Co., Ltd. | Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme |
JP6462936B1 (ja) * | 2018-06-18 | 2019-01-30 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
CN111462777B (zh) * | 2020-03-30 | 2023-02-14 | 厦门快商通科技股份有限公司 | 关键词检索方法、系统、移动终端及存储介质 |
CN111627422B (zh) * | 2020-05-13 | 2022-07-12 | 广州国音智能科技有限公司 | 语音加速检测方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250585A (ja) * | 1999-02-25 | 2000-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体 |
WO2007043679A1 (ja) * | 2005-10-14 | 2007-04-19 | Sharp Kabushiki Kaisha | 情報処理装置およびプログラム |
JP2011185997A (ja) * | 2010-03-04 | 2011-09-22 | Fujitsu Ltd | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
JP2013088488A (ja) * | 2011-10-13 | 2013-05-13 | Casio Comput Co Ltd | 音声検索装置、音声検索方法及びプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7904296B2 (en) * | 2003-07-23 | 2011-03-08 | Nexidia Inc. | Spoken word spotting queries |
JP3945778B2 (ja) * | 2004-03-12 | 2007-07-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 設定装置、プログラム、記録媒体、及び設定方法 |
JP5072415B2 (ja) * | 2007-04-10 | 2012-11-14 | 三菱電機株式会社 | 音声検索装置 |
US8352268B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
WO2010098209A1 (ja) * | 2009-02-26 | 2010-09-02 | 国立大学法人豊橋技術科学大学 | 音声検索装置および音声検索方法 |
-
2014
- 2014-12-22 JP JP2014259418A patent/JP6003971B2/ja active Active
-
2015
- 2015-11-30 US US14/953,775 patent/US9754024B2/en active Active
- 2015-12-22 CN CN201510972004.0A patent/CN105718503B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250585A (ja) * | 1999-02-25 | 2000-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体 |
WO2007043679A1 (ja) * | 2005-10-14 | 2007-04-19 | Sharp Kabushiki Kaisha | 情報処理装置およびプログラム |
JP2011185997A (ja) * | 2010-03-04 | 2011-09-22 | Fujitsu Ltd | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
JP2013088488A (ja) * | 2011-10-13 | 2013-05-13 | Casio Comput Co Ltd | 音声検索装置、音声検索方法及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017021196A (ja) * | 2015-07-10 | 2017-01-26 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6003971B2 (ja) | 2016-10-05 |
CN105718503A (zh) | 2016-06-29 |
CN105718503B (zh) | 2019-03-08 |
US20160180834A1 (en) | 2016-06-23 |
US9754024B2 (en) | 2017-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6003971B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP6003972B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP6011565B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP5888356B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
US7349847B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
KR100845428B1 (ko) | 휴대용 단말기의 음성 인식 시스템 | |
JP6235280B2 (ja) | 音声同時処理装置、方法およびプログラム | |
JP2014202848A (ja) | テキスト生成装置、方法、及びプログラム | |
JP5512597B2 (ja) | 音声合成装置とその方法とプログラム | |
JP6499228B2 (ja) | テキスト生成装置、方法、及びプログラム | |
KR20050032759A (ko) | 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 | |
JP6565416B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP6604013B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP6680008B2 (ja) | 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム | |
JP4741452B2 (ja) | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム | |
JP2017015847A (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP6680009B2 (ja) | 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
CN113112996A (zh) | 用于基于语音的音频和文本对齐的系统和方法 | |
JP2018160137A (ja) | 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム | |
JP2012194364A (ja) | 音声認識装置、音声認識方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160426 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6003971 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |