JP2016118999A - 音声検索装置、音声検索方法及びプログラム - Google Patents

音声検索装置、音声検索方法及びプログラム Download PDF

Info

Publication number
JP2016118999A
JP2016118999A JP2014259418A JP2014259418A JP2016118999A JP 2016118999 A JP2016118999 A JP 2016118999A JP 2014259418 A JP2014259418 A JP 2014259418A JP 2014259418 A JP2014259418 A JP 2014259418A JP 2016118999 A JP2016118999 A JP 2016118999A
Authority
JP
Japan
Prior art keywords
likelihood
phoneme
section
time length
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014259418A
Other languages
English (en)
Other versions
JP6003971B2 (ja
Inventor
寛基 富田
Hiroki Tomita
寛基 富田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2014259418A priority Critical patent/JP6003971B2/ja
Priority to US14/953,775 priority patent/US9754024B2/en
Priority to CN201510972004.0A priority patent/CN105718503B/zh
Publication of JP2016118999A publication Critical patent/JP2016118999A/ja
Application granted granted Critical
Publication of JP6003971B2 publication Critical patent/JP6003971B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

【課題】異なる話速の音声信号の中から検索語を高精度に検索することが可能な音声検索装置、音声検索方法及びプログラムを提供する。【解決手段】変換部112は検索文字列を音素列に変換し、話速情報取得部114は検索対象の音声信号の話速に応じた話速情報を取得する。時間長変更部115は話速情報に応じて音素の平均継続時間長を変更し、時間長導出部116は変更された継続時間長を使用して検索文字列に対応する音声の発話時間長を導出する。区間指定部117は検索対象の音声信号における尤度取得区間を複数指定し、尤度取得部121は尤度取得区間が検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する。特定部127は、選択された尤度取得区間のそれぞれについて取得した尤度に基づいて、検索対象の音声信号の中から検索文字列に対応する音声が発せられていることが推定される推定区間を特定する。【選択図】図2

Description

本発明は、音声検索装置、音声検索方法及びプログラムに関する。
音声や動画等のマルチメディアコンテンツの拡大・普及に伴い、高精度なマルチメディア検索技術が求められている。その中で、検索対象とする検索語(クエリ)に対応する音声が発話されている箇所を音声信号の中から特定する音声検索の技術が研究されている。音声検索では、画像認識を用いた文字列検索の技術に比べて、十分な性能の検索手法が未だ確立されていない。そのため、十分な性能の音声検索を実現するための技術が様々に研究されている。
例えば非特許文献1は、音声信号同士を高速に比較する方法を開示している。これにより、音声で入力されたクエリに対応する箇所を、検索対象の音声信号の中から高速に特定することができる。
Y.Zhang and J.Glass. "An inner−product lower−bound estimate for dynamic time warping," in Proc. ICASSP,2011,pp.5660−5663.
非特許文献1が開示する技術では、検索対象の音声の話速とクエリ入力者の話速とが異なる場合には検索精度が低くなるという問題がある。
本発明は、以上のような課題を解決するためのものであり、異なる話速の音声信号の中から検索語を高精度に検索することが可能な音声検索装置、音声検索方法及びプログラムを提供することを目的とする。
上記目的を達成するため、本発明に係る音声検索装置は、
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
検索対象の音声信号の話速に係る情報を取得する話速情報取得手段と、
前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段と、
前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段と、
前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする。
本発明によれば、異なる話速の音声信号の中から検索語を高精度に検索することができる。
本発明の実施形態1に係る音声検索装置の物理構成を示す図である。 本発明の実施形態1に係る音声検索装置の機能構成を示す図である。 音素の状態について説明するための図である。 音素の各状態の継続時間長を伸縮するための話速情報の例を示す図である。 音素の状態の継続時間長を伸縮する計算例を示す図である。 (a)は、検索対象の音声信号の波形図である。(b)は、検索対象の音声信号において設定されるフレームを示す図である。(c)は、検索対象の音声信号において指定される尤度取得区間を示す図である。 出力確率をLower−Bound化する例を示す図である。 本発明の実施形態1に係る音声検索装置が実行する音声検索処理の流れを示すフローチャートである。 検索文字列に対応する区間を特定する処理の流れを示すフローチャートである。 継続時間長を伸縮する変更率を母音の継続時間長のみに設定する例を示す図である。 本発明の実施形態2に係る音声検索装置が実行する音声検索処理の流れを示すフローチャートである。 継続時間長を伸縮する変更率を音素の状態ごとに設定する例を示す図である。 継続時間長を伸縮する変更率を音素の特定の状態のみに設定する例を示す図である。
以下、本発明の実施形態に係る音声検索装置、音声検索方法及びプログラムについて、図面を参照しながら説明する。なお、図中同一又は相当する部分には同一符号を付す。
(実施形態1)
実施形態1に係る音声検索装置100は、物理的には、図1に示すように、ROM(Read Only Memory)1と、RAM(Random Access Memory)2と、外部記憶装置3と、入力装置4と、出力装置5と、CPU(Central Processing Unit)6と、バス7と、を備える。
ROM1は、音声検索プログラムを記憶する。RAM2は、CPU6のワークエリアとして使用される。
外部記憶装置3は、例えば、ハードディスクから構成され、検索対象である音声信号、後述するモノフォンモデル、トライフォンモデル及び音素の時間長をデータとして記憶する。
入力装置4は、例えば、キーボードや音声認識装置から構成される。入力装置4は、ユーザが入力した検索語をテキストデータとしてCPU6に供給する。出力装置5は、例えば、液晶ディスプレイの画面、スピーカを備える。出力装置5は、CPU6によって出力されたテキストデータを画面に表示し、音声データをスピーカから出力する。
CPU6は、ROM1に記憶された音声検索プログラムをRAM2に読み出して、その音声検索プログラムを実行することにより、以下に示す機能を実現する。バス7は、ROM1、RAM2、外部記憶装置3、入力装置4、出力装置5、CPU6、を接続する。
音声検索装置100は、機能的には図2に示すように、音声信号記憶部101と、モノフォンモデル記憶部102と、トライフォンモデル記憶部103と、時間長記憶部104と、検索文字列取得部111と、変換部112と、時間長取得部113と、話速情報取得部114と、時間長変更部115と、時間長導出部116と、区間指定部117と、特徴量算出部118と、出力確率取得部119と、置換部120と、尤度取得部121と、繰り返し部122と、選択部123と、第2の変換部124と、第2の出力確率取得部125と、第2の尤度取得部126と、特定部127と、を備える。音声信号記憶部101、モノフォンモデル記憶部102、トライフォンモデル記憶部103、及び時間長記憶部104は、外部記憶装置3の記憶領域に構築されている。
音声信号記憶部101は、検索対象の音声信号を記憶する。検索対象の音声信号は、例えばニュース放送等の音声、録音された会議の音声、録音された講演会の音声、映画の音声等に係る音声信号である。
モノフォンモデル記憶部102及びトライフォンモデル記憶部103は、音響モデルを記憶する。音響モデルは、検索文字列として取得可能な文字列を構成する各音素の周波数特性等をモデル化したものである。具体的には、モノフォンモデル記憶部102は、モノフォン(1音素)による音響モデル(モノフォンモデル)を記憶し、トライフォンモデル記憶部103は、トライフォン(3音素)による音響モデル(トライフォンモデル)を記憶する。
音素とは、話者により発話された音声を構成する成分の単位である。例えば、「カテゴリ」という単語は、「k」、「a」、「t」、「e」、「g」、「o」、「r」、「i」という8個の音素から構成される。
モノフォンモデルは、1音素毎に生成された音響モデルであり、隣接する音素に依存しない、すなわち前後の音素状態との状態遷移を固定化した音響モデルである。トライフォンモデルは、3音素毎に生成された音響モデルであり、隣接する音素に依存する、すなわち前後の音素状態との状態遷移を考慮した音響モデルであり、モノフォンモデルに比べると多くの情報を有している。音声検索装置100は、モノフォンモデル及びトライフォンモデルを一般的な方法で学習して、それぞれモノフォンモデル記憶部102及びトライフォンモデル記憶部103に予め記憶しておく。
モノフォンモデル及びトライフォンモデルとして、例えば、一般的な音声認識で利用される音響モデルであるHMM(Hidden Markov Model;隠れマルコフモデル)を利用できる。HMMは、統計的な手法により音声信号からその音声信号を構成する音素を確率的に推定するためのモデルである。HMMには、時間的な状態の揺らぎを示す遷移確率と、各状態から入力された特徴量を出力する確率(出力確率)と、をパラメータとした標準パターンを用いる。
時間長記憶部104は、音響モデルで利用される各音素の平均継続時間長を、各音素の状態単位で記憶する。各音素の平均継続時間長とは、各音素が発せられるときの平均的な時間長である。各音素の状態とは、各音素を時間方向に細分化した単位であり、音響モデルの最小単位に相当する。各音素には予め状態数が定められている。
本実施形態では、各音素に定められた状態数が「3」である場合を例にとって説明する。例えば、音声「あ」は、図3に示すように、この音素の発声開始時を含む第1の状態「a1」と、中間状態である第2の状態「a2」と、発声終了時を含む第3の状態「a3」と、の3つの状態に分けられる。すなわち、1音素は3つの状態から構成される。音響モデルで利用される全音素の数をQとした場合、(3×Q)個の状態が存在する。音声検索装置100は、音素の状態のそれぞれについて、大量の音声信号のデータから継続時間長の平均値を算出し、時間長記憶部104に予め記憶しておく。
検索文字列取得部111は、入力装置4を介してユーザが入力した検索文字列を取得する。すなわち、ユーザは、音声検索装置100に対して、検索対象の音声信号から目的の音声が発話されている部分を検索するための検索語(クエリ)を、文字列(テキスト)で与える。
変換部112は、隣接する音素に依存しない音響モデルであるモノフォンモデルの音素を、検索文字列取得部111が取得した検索文字列に従って並べて、検索文字列を音素列に変換する。すなわち、変換部112は、検索文字列に含まれる文字と同順で、各文字を発声したときの音素(モノフォン)を並べることにより、検索文字列をモノフォン音素列に変換する。
本実施形態では、日本語「カテゴリ」を検索する場合について説明する。検索文字列として日本語「カテゴリ」が入力された場合、「カテゴリ」は「k」と「a」と「t」と「e」と「g」と「o」と「r」と「i」との8つの音素(モノフォン)を含むため、変換部112は、音素列「k,a,t,e,g,o,r,i」を生成する。
時間長取得部113は、変更部112が生成した音素列に対応する音素の状態毎の平均継続時間長を時間長記憶部104から取得する。
話速情報取得部114は、入力装置4を介してユーザが入力した話速情報を取得する。話速情報は、時間長記憶部104が記憶する音素の各状態の平均継続時間長を検索対象の音声信号の話速に応じて伸縮するための変更率を示す情報である。ユーザは、検索対象の音声信号が平均的な話速よりも遅い場合には、時間長記憶部104に記憶されている音素の各状態の平均継続時間長を伸張するために、検索対象の音声信号の話速が遅い旨の情報を入力する。例えば、時間長記憶部104に記憶した継続時間長を作成する元となった音声データの平均継続時間長の話速で発話すると100秒の時間を要する原稿を約140秒で発話している場合には、平均継続時間長を1.4倍する話速情報(変更率)を入力する。
本実施形態では、音素の各状態の平均継続時間長を変更する変更率を話速情報として用いる。図4を用いて、具体的に説明する。1音素は状態1から状態3の3つの状態を有している。そして、状態1の継続時間長をT1、状態2の継続時間長をT2、状態3の継続時間長をT3で表している。αは、継続時間長を伸縮する変更率である。
時間長記憶部104に記憶した継続時間長を作成する元となった音声信号の話速に対して、約1.4倍遅い(原稿を読む時間が長い)話速に対応する継続時間長を作成する場合について、図4の伸張倍率を用いて説明する。検索する音声信号の話速が、継続時間長を作成する元となった音声信号の話速に対して約1.4倍遅い話速であるので、検索に使用する音素の状態の継続時間長を約1.4倍に伸張する。一方、話速の変化に対する継続時間長の変化が、子音よりも母音の方が大きく変化する傾向がある。この傾向を考慮して、母音の継続時間長に対する伸張倍率を1.6倍、子音の伸張倍率を1.1倍と設定することにより、継続時間長の平均を約1.4倍に伸張する話速情報を設定する。本実施形態では、各状態の変更率は一律に設定した場合について説明する。
また、時間長記憶部104に記憶した継続時間長を作成する元となった音声信号の話速に対して、約0.7倍速い(原稿を読む時間が短い)話速に対応する継続時間長を作成するための話速情報として、母音の継続時間長に対する縮小倍率を0.6倍、子音の縮小倍率を0.9倍に縮小する話速情報(変更率)の例を図4の縮小倍率の欄に示す。
時間長変更部115は、時間長取得部113が取得した音素の各状態の平均継続時間長を、話速情報取得部114が取得した話速情報に応じて、その時間長を変更する。
時間長記憶部104に記憶された音素の各状態の平均継続時間長を図4に示す話速情報を用いて変更する例について、図5を用いて説明する。日本語の「カテゴリ」は、「k,a,t,e,g,o,r,i」の音素から構成され、各音素は状態1から状態3の3状態を有している。図5の1列目は、音素列「k,a,t,e,g,o,r,i」に対する24状態を記載している。時間長記憶部104から取得した音素の状態毎の平均継続時間長を2列目に変更前継続時間長として記載する。3列目は、継続時間長を作成する元となった音声データの話速に対して、約1.4倍遅い話速に使用するための継続時間長を作成した結果である。この継続時間長を作成するために、2列目に記載する子音の平均継続時間長を1.1倍に伸張し、母音の平均継続時間長を1.6倍に伸張する。4列目は、継続時間長を作成する元となった音声データの話速に対して、話す時間が約0.7倍と短い、早い話速に使用する継続時間長を作成した結果である。この場合は、2列目の子音の平均継続時間長を0.9倍に縮小し、母音の平均継続時間長を0.6倍に縮小する。このように、時間長変更部115は、取得した話速情報に応じて、時間長記憶部104から取得した平均継続時間長を伸縮する。この伸縮した継続時間長は、RAM2もしくは外部記憶装置3に格納する。
時間長導出部116は、変換部112が出力した音素列に含まれる各音素の状態ごとの継続時間長を時間長変更部115から取得する。そして、取得した継続時間長に基づいて、検索文字列に対応する音声の時間長(以下、発話時間長)を導出する。
すなわち、音声検索装置100は、話速の異なる音声信号の中から検索対象のクエリを検索するために、検索対象とする音声信号の話速に応じた話速情報を入力することによって、時間長記憶部104に記憶した平均的な継続時間長を話速に適応した継続時間長に変更する。そして、音素の状態毎の変更後の継続時間長を用いて、検索文字列取得部111が取得した検索文字列に対応する音声の発話時間長を導出する。
具体的には、時間長導出部116は、まず、検索対象である「k,a,t,e,g,o,r,i」の8個の音素の計24個の状態について、時間長変更部115から変更後の継続時間長を取得する。取得した24個の変更後の継続時間長を加算して得られた時間長を、検索文字列に対応する音声の発話時間長として導出する。検索対象の音声信号の話速が、継続時間長を作成した音声データの話速に対して約1.4倍遅いという話速情報を取得した場合、図5の3列目の下段に示す合計(852ms)が、約1.4倍遅い話速に対応する発話時間長に該当する。
図2に戻って、区間指定部117は、音声信号記憶部101から検索対象の音声信号を取得して、検索対象の音声信号における先頭から順に、時間長導出部116が導出した発話時間長の区間を尤度取得区間として指定する。尤度とは、検索対象の音声と音響モデルから作成した検索文字列に対応する音素列との類似の度合を示す指標である。区間指定部117は、検索文字列から変換された音素列と音声信号とを比較するため、指定した尤度取得区間内の音声信号を切り出して、切り出した音声信号に含まれる各フレームと音素列に含まれる各音素の状態とを対応付ける。具体的には、図5に示す「k1」から「i3」までの24状態について、切り出した音声信号に含まれる24個のフレームと音素列を構成する24の状態とを対応付ける。
フレームとは、音素の1状態の時間長を有する時間窓である。具体的に図6を参照して、検索対象の音声信号に設定されるフレームについて説明する。図6(a)は、先頭から末尾までの時間長Tの検索対象の音声信号の波形図である。縦軸は波形の振幅を示し、横軸は時間tを示す。図6(b)は、図6(a)に示す音声信号において設定されるフレームを示す。1行目は、音声信号の先頭から始まる第0フレーム列である。「カテゴリ」の音素数は8音素で、24状態あるので、第0フレーム列に含まれるフレーム数は24個である。2行目の第1フレーム列は、音声信号の先頭から所定のシフト長Sだけシフトして設定する。第1フレーム列もフレーム数は24個である。以後、同様にしてフレーム列の先頭位置を1シフト長Sずつシフトして第(P−1)フレーム列まで設定する。
音素の状態ごとに継続時間長は異なり、また、継続時間長が話速情報に基づいて変更されているので話速によっても継続時間長は異なる。フレームは音素の状態に対応する時間窓であるので、話速や音素の状態毎にフレーム長は異なる。
シフト長Sは、音声信号のどの位置に検索対象の検査語が存在するかを検索する検索位置の精度を決める長さである。シフト長Sは、フレーム長よりも短い値に固定して設定される。本実施形態においては、要求精度は10ms以下であるとする。また、図5に記載する継続時間長の最短が9msであるので、シフト長Sは2つの数値よりも短い5msとする。
図6(c)は、検索対象の音声信号において区間指定部117により指定される尤度取得区間を示す。区間指定部117は、まず始めに、音声信号の先頭から始まる24個のフレームを含む第0フレーム列の区間を時間長Lの第0尤度取得区間に指定する。次に、音声信号の先頭から1シフト長(S=10ms)だけシフトした位置から始まる第1フレーム列の区間を第1尤度取得区間に指定する。以下、同様にして、1シフト長(S=10ms)ずつシフトさせて、第(P−1)尤度取得区間までを順次指定する。
図2に戻って、特徴量算出部118は、区間指定部117が指定した尤度取得区間における検索対象の音声信号の特徴量を、フレーム毎に算出する。この特徴量は、音声データを周波数軸上に変換して得られる周波数軸系特徴パラメータと、音声データのエネルギーの2乗和やその対数を計算することにより得られるパワー系特徴パラメータと、を組み合わせることによって得られる。
例えば周知のように、特徴量は、周波数軸系特徴パラメータ12成分(12次元)とパワー系特徴パラメータ1成分(1次元)、直前の時間窓の各成分との差分を取ったもの、すなわち△周波数軸系特徴パラメータ12成分(12次元)と△パワー系特徴パラメータ1成分(1次元)、及び直前の時間窓の各成分との差分の差分を取ったもの、すなわち△△周波数軸系特徴パラメータ12成分(12次元)の、合計38成分を有する38次元ベクトル量として構成される。
出力確率取得部119は、特徴量算出部118が算出した特徴量に基づいて、この特徴量が音素列に含まれる各音素から出力される確率(出力確率)を、フレーム毎に取得する。具体的には、出力確率取得部119は、モノフォンモデル記憶部102からモノフォンモデルを取得して、特徴量算出部118が算出した各フレームにおける特徴量と、音素列に含まれる音素の状態の中でこのフレームに対応する状態のモノフォンモデルとを比較する。そして、各フレームにおける特徴量が対応する状態から出力される確率を計算する。出力確率取得部119は、尤度取得区間に含まれる24個のフレームのそれぞれに対して出力確率を計算する。
置換部120は、出力確率取得部119が取得した出力確率のそれぞれを、隣接する前後数フレームの中で最大の出力確率の値に置換する。この置換処理は、Lower−Bound化と呼ばれる。
具体的に図7を参照して、Lower−Bound化を説明する。図7において、実線はフレーム毎に取得された出力確率を示す。縦軸は出力確率の高さを下になるほど高くなるように示し、横軸は時間tを示す。置換部120は、各フレームの出力確率を、そのフレームと、そのフレームの前のN1個のフレームと、そのフレームの後のN2個のフレームの中で最大の出力確率に置き換える。N1とN2は、0を含む自然数であるが、N1とN2のいずれかは0ではないものとする。N1=N2=2として説明する。フレーム列内の第1フレームの出力確率は、その前にフレームが無いので、自身の第1フレームとその後の第2フレームと第3フレームの中で最大の出力確率と置換する。第2フレームの出力確率は、その前の第1フレームと自身の第2フレームとその後の第3フレームと第4フレームの中で最大の出力確率と置換する。第3フレームの出力確率は、その前の第1フレームと第2フレームと、自身の第3フレームと、その後の第4フレームと第5フレームの中で最大の出力確率と置換する。このように、第24フレームまで置換処理を行う。置換の結果、実線で示した出力確率は、破線で示したLB(Lower−Bound)化出力確率のように、時間方向において値の変化が小さくなった出力確率に変換される。
このようなLower−Bound化により、時間長変更部115から取得した各音素の継続時間長と実際の音声信号の継続時間長との誤差、及び、時間長導出部116が導出した検索文字列に対応する音声の発話時間長と実際の音声信号の発話時間長との誤差を、前後数フレームの範囲内で小さくすることができる。
尤度取得部121は、置換部120による置換後の出力確率に基づいて、区間指定部117が指定した尤度取得区間が検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する。具体的には、尤度取得部121は、置換後の出力確率の対数をとって得られる値を、尤度取得区間の先頭から末尾までの24フレームにわたって加算することにより、一連の出力確率の積を求め、この尤度取得区間の尤度を取得する。すなわち、出力確率が高いフレームを多く含む尤度取得区間ほど、尤度取得部121が取得する尤度は大きくなる。
なお、各フレームの出力確率をかけ算する処理であるので、対数をとらずにそのまま出力確率のかけ算をしてもよいし、対数の代わりに近似式を用いてもよい。
繰り返し部122は、区間指定部117が指定する尤度取得区間の音声信号における指定区間を変えて、区間指定部117、特徴量算出部118、出力確率取得部119、置換部120、及び尤度取得部121の処理を繰り返すように各部を制御する。
具体的に図6(b)と(c)を参照して説明すると、繰り返し部122の制御を受けて、区間指定部117はフレームの先頭位置を1シフト長(S=10ms)分シフトさせて第1フレーム列を指定し、第1フレーム列の区間を第1尤度取得区間として新たに指定する。そして、繰り返し部122は、新たに指定した第1尤度取得区間において、上述した特徴量算出部118から尤度取得部121までの処理と同様の処理を各部に実行させて、第1尤度取得区間の尤度を取得するように各部を制御する。
同様に、繰り返し部122は、第2尤度取得区間から第(P−1)尤度取得区間まで、区間指定部117が指定する尤度取得区間を1シフト長(S=10ms)ずつシフトさせて尤度取得区間のそれぞれについて尤度を取得するように各部を制御する。その結果、検索対象の音声信号を1シフト長ずつシフトした尤度取得区間のそれぞれに対して、モノフォンモデルから作成した音素列「k,a,t,e,g,o,r,i」に対する尤度が取得される。なお、検索対象の音声信号の中で指定可能な尤度取得区間の数Pは、音声信号の時間長Tと尤度取得区間の時間長Lとシフト長Sとを用いて、P=(T−L+S)/Sと定められる。
選択部123は、尤度取得部121が取得した尤度に基づいて、区間指定部117が指定した尤度取得区間の中から、検索文字列に対応する音声が発せられていることが推定される推定区間の候補を尤度が高い順にx個を選択する。すなわち、選択部123は、後段のトライフォンモデルに基づくより精度の高い尤度取得の計算量を抑えるため、尤度を取得したP個の尤度取得区間の中から最終的な検索結果の候補となる区間x個を予備的に選択し、残りの尤度取得区間を候補から除外する。
このとき、区間指定部117が指定した尤度取得区間は多くの重なりを有するため、尤度が大きい区間は時系列的に連続して存在することが多い。そのため、選択部123が、P個の尤度取得区間の中で単純に尤度が大きい区間から順に推定区間の候補を選択すると、選択される区間が検索対象の音声信号における一部に集中する可能性が大きくなる。
これを避けるために、選択部123は、所定の選択時間長を設け、選択時間長ごとに、この所定の選択時間長の区間の中から開始する尤度取得区間の中で尤度が最大の尤度取得区間を1つずつ選択する。この所定の選択時間長は、例えば尤度取得区間の時間長Lの1/m(例えば1/2)に相当する時間長のように、尤度取得区間の時間長Lよりも短い時間に設定する。例えば、「カテゴリ」の発話時間長が2秒以上(L≧2秒)であると仮定した場合、m=2として、選択時間長を1秒に設定する。選択時間長(L/m)毎に1個ずつ尤度取得区間が候補として選択され、残りは候補から除外される。これにより、選択部123は、推定区間の候補を、検索対象の音声信号全体にわたって満遍なく選択できる。
選択部123による選択結果は、出力装置5が備える画面を介して外部に表示される。その後、音声検索装置100は、選択したx個の区間に対して、トライフォンモデル及び動的計画法(DP(Dynamic Programming)マッチング)に基づくより精度の高い尤度取得処理を実行する。DPマッチングは、解析区間の尤度が最大になるように状態遷移を選択する手法である。トライフォンモデルでは、前後の音素との状態遷移を考慮する必要があるので、DPマッチングにより、尤度取得区間の尤度が最大となるように、前後の音素の状態遷移を決める。
第2の変換部124は、隣接する音素に依存する第2の音響モデルであるトライフォンモデルの音素を、検索文字列取得部111が取得した検索文字列に従って並べて、検索文字列を第2の音素列であるトライフォン音素列に変換する。例えば、検索文字列として日本語「カテゴリ」が入力された場合、「カテゴリ」は「k−a+t」と「a−t+e」と「t−e+g」と「e−g+o」と「g−o+r」と[o−r+i」との6つのトライフォンを含むため、第2の変換部124は、これら6つのトライフォンを並べたトライフォン音素列を生成する。さらに、始端と終端には2音素からなるバイフォン「k+a」と「r−i」を割り当てることもある。この場合には、予めバイフォンモデルを外部記憶装置3に記憶しておく。なお、「−」記号の左側にある音素は中心音素よりも前にあり、「+」記号の右側にある音素は中心音素よりも後にあることを示す。
第2の出力確率取得部125は、選択部123が推定区間の候補として選択した区間における検索対象の音声信号の特徴量が、第2の変換部124が変換した第2の音素列(トライフォン音素列)に含まれる各音素から出力される出力確率を、フレーム毎に取得する。具体的には、第2の出力確率取得部125は、トライフォンモデル記憶部103からトライフォンモデルを取得して、特徴量算出部118が算出した各フレームにおける特徴量と、トライフォン音素列に含まれる各トライフォンのモデルとを比較する。そして、各フレームにおける特徴量が各トライフォンから出力される確率を計算する。
第2の尤度取得部126は、選択部123が推定区間の候補として選択した区間が検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第2の尤度を、選択部123がx個に限定した区間の候補のそれぞれについて取得する。第2の尤度は、第2の音素列であるトライフォン音素列に基づいて取得されるため、モノフォン音素列に基づいて尤度取得部121が取得した尤度に比べて、より精度が高い指標である。
第2の尤度取得部126は、第2の出力確率取得部125が取得した出力確率に基づいて、選択部123が限定した第2の尤度取得区間に含まれる各フレームについて、音声信号の特徴量とトライフォン音素列に含まれる各トライフォンモデルとの対応を、DPマッチングにより探索する。そして、選択部123が選択した区間(第2の尤度取得区間)における各フレームのそれぞれについて取得された出力確率の対数をとって得られる値を加算することにより、その区間における第2の尤度を得る。
特定部127は、第2の尤度取得部126が取得した第2の尤度に基づいて、選択部123が選択したx個の区間の候補の中から、検索対象の音声信号の中から検索文字列に対応する音声が発せられていることが推定される推定区間を特定する。例えば、特定部127は、第2の尤度取得部126が取得した第2の尤度が大きい順に所定の数の区間を、推定区間として特定する。もしくは、尤度が所定の値以上の区間を推定区間として特定する。特定部127が特定した区間の位置情報は、最終的な検索結果として、出力装置5が備える画面を介して外部に表示される。
以上のような物理的構成及び機能的構成を有する音声検索装置100が実行する音声検索処理について、図8に示すフローチャートを参照して説明する。
ユーザは、予め、音素の状態ごとの継続時間長を時間長記憶部104に記憶し、検索対象である音声信号を音声信号記憶部101に格納しておく。検索対象の音声信号は、例えば、1時間の講演の録音された音声とする。ここでは、検索対象のクエリは「カテゴリ」とする。また、ユーザは、検索対象の音声信号の話速が、継続時間長を作成した音声データの話速に対してどの程度早いのかを話速情報として準備する。ここでは、継続時間長を作成する元となる音声データの話速に対して、約1.4倍遅い話速の音声信号の中から検索対象のクエリ「カテゴリ」を検出する処理について説明する。また、継続時間長を伸縮する際の母音と子音の変更率の比を決めておく。ここでは、話速情報として、図4に示す伸張倍率を準備する。
CPU6が、ROM1から音声検索プログラムを読み出して、音声検索プログラムを実行することにより図8に示すフローチャートは開始する。ユーザが、検索対象の検索文字列「カテゴリ」を入力装置4からテキストデータとして入力し、検索文字列取得部111が検索文字列を取得する(ステップS11)。検索文字列取得部111が検索文字列を取得すると、変換部112及び第2の変換部124は、検索文字列を音素列に変換し(ステップS12)、音素列の音素順に音響モデルの音素を並べる(ステップS13)。具体的には、変換部112は、検索文字列をモノフォンモデルによるモノフォン音素列「k,a,t,e,g,o,r,i」に変換し、第2の変換部124は、検索文字列をトライフォンモデルによるトライフォン音素列「k−a+t」と「a−t+e」と「t−e+g」と「e−g+o」と「g−o+r」と[o−r+i」に変換する。また、バイフォンモデル「k+a」と「r−i」を追加しても良い。
話速情報取得部114は、ユーザが入力した音声信号の話速に応じた話速情報を取得する(ステップS14)。継続時間長を作成する元となる音声データの話速に対して、約1.4倍遅い話速の音声信号の中から検索対象のクエリ「カテゴリ」を検出するので、ユーザは、継続時間長を1.4倍に伸張する話速情報として、図4に示す伸張倍率を入力する。すなわち、母音については1.6倍とし、子音については1.1倍とする変更率をそれぞれ入力して、継続時間長の平均を約1.4倍に伸張する。
時間長変更部115は、時間長取得部113を介して時間長記憶部104から取得した平均継続時間長を話速情報に応じて変更する(ステップS15)。具体的には、時間長変更部115は、図5の2列目に示す平均話速用の継続時間長に図4に示す伸張倍率(変更率)を掛けて、1.4倍遅い話速用の継続時間長として図5の3列目に示す継続時間長を作成する。
図8に戻って、変換部112が検索文字列を音素列に変換すると、時間長導出部116は、検索文字列に対応する音声の発話時間長を導出する(ステップS16)。具体的には、時間長導出部116は、時間長変更部115が時間長を変更した継続時間長を取得して、取得した継続時間長を加算することにより、検索文字列に対応する音声の発話時間長を導出する。具体的には、遅い話速に対応する発話時間長を作成するために、図5の3列目に示す伸張後の継続時間長を加算した合計値(852ms)を発話時間長として導出する。
時間長導出部116が発話時間長を導出すると、区間指定部117は、検索対象の音声信号の先頭から末尾まで、導出した発話時間長の区間である尤度取得区間を1シフト長Sずつシフトしながら順に指定して、尤度を取得する処理に移行する。まず、区間指定部117は、検索対象の音声信号の先頭から開始する第0フレーム列を指定し、第0フレーム列の24フレーム分の区間(0ms〜852ms)を平均話速よりも1.4倍遅い話速用の第0尤度取得区間として指定する(ステップS17)。
区間指定部117が尤度取得区間を指定すると、特徴量算出部118は、指定した尤度取得区間の音声信号の特徴量を、フレーム毎に算出する(ステップS18)。そして、出力確率取得部119は、特徴量算出部118が算出した特徴量と対応するモノフォンモデルとに基づいて、この特徴量が音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する(ステップS19)。すなわち、図5に示す「k1」から「i3」までの24状態のそれぞれについて出力確率を取得する。
出力確率取得部119が出力確率を取得すると、置換部120は、フレーム毎に取得した出力確率を、そのフレームとそのフレーム前のN1個のフレームとそのフレーム後のN2個のフレームの、合計(1+N1+N2)個のフレームの中で最大の出力確率に置き換えることにより、Lower−Bound化処理を実行する(ステップS20)。これにより、時間長導出部116が導出した発話時間長と実際の音声信号の発話時間長との誤差を縮小する。
尤度取得部121は、Lower−Bound化後の出力確率をフレームごとに対数をとって加算することにより、区間指定部117が指定した尤度取得区間の尤度を取得する(ステップS21)。尤度取得部121が尤度を取得すると、繰り返し部122は、検索対象の音声信号における全区間の尤度取得が終了したか否かを判定する(ステップS22)。
全区間の尤度取得が終了していない場合(ステップS22;NO)、区間指定部117が直前に指定した第0フレーム列を1シフト長(S=10ms)だけシフトした第1フレーム列を指定し、その区間を第1尤度取得区間として指定して(ステップS23)、音声検索処理はステップS18に戻る。そして、繰り返し部122は、区間指定部117が新たに指定した尤度取得区間に対して上述したステップS18〜S22の処理を繰り返して尤度を取得するように各部を制御する。具体的には、区間指定部117は、音声信号の先頭から1シフト長(S=10ms)シフトした位置から第1フレーム列を指定し、その区間を第1尤度取得区間として指定する。特徴量算出部118は、第1フレーム列のフレーム毎に特徴量を計算する。出力確率取得部119は第1フレーム列のフレーム毎に出力確率を取得し、置換部120はLower−Bound化処理を行う。そして、尤度取得部121は、第1フレーム列の各フレームの出力確率の対数をとって計24フレーム分加算することにより、第1尤度取得区間の尤度を取得する。
このように、繰り返し部122は、検索対象の音声信号の末尾に達するまで尤度取得区間を1シフト長ずつシフトさせて順次尤度を取得するように区間指定部117、特徴量算出部118、出力確率取得部119、置換部120、尤度取得部121を制御する。
最終的に、全区間の尤度取得が終了すると(ステップS22;YES)、音声検索処理は、取得した尤度に基づいて検索文字列に対応する区間を特定する処理(ステップS24)に移行する。この特定処理の詳細については、図9に示すフローチャートを参照して説明する。
尤度取得処理が終了した状態において、選択部123は、区間指定部117が指定した尤度取得区間の中から、所定の選択時間長毎に1つずつ区間を選択する(ステップS101)。「カテゴリ」の発話時間長が2秒以上(L≧2)であると仮定し、選択時間長はその半分(m=2)の1秒に設定する。したがって、選択部121は、1秒の選択時間長ごとに尤度が最も高い尤度取得区間を選択する。
さらに選択部123は、このように選択した区間の中から、尤度が高い順にx個の区間を選択する(ステップS102)。すなわち、選択部123は、最終的な検索結果として特定する区間の候補を、検索対象の音声信号の全体から満遍なく候補が残るように、予備選択する。
選択部123による予備選択の後、第2の出力確率取得部125は、トライフォン音素列に基づいて、選択部123が選択したx個の区間における出力確率を、フレーム毎に取得する(ステップS103)。そして、第2の尤度取得部126は、選択部123が選択した区間の尤度をDPマッチングにより取得する(ステップS104)。すなわち、第2の出力確率取得部125及び第2の尤度取得部126は、トライフォンモデル及びDPマッチングに基づいて、出力確率取得部119及び尤度取得部121に比べて精度の高い尤度取得処理を実行する。
第2の尤度取得部126が第2の尤度を取得すると、特定部127は、取得した第2の尤度に基づいて、検索文字列に対応する区間を特定する(ステップS105)。例えば、特定部127は、第2の尤度取得部126が取得した第2の尤度が大きい順に所定の数の区間を、検索文字列に対応する音声が発せられていることが推定される区間として特定する。ステップS105の処理が終了すると、図9に示すフローチャートの処理は図8に示すフローチャートのステップS25に遷移する。
図8に示すフローチャートの説明に戻って、検索文字列に対応する区間を特定すると、特定部127は、出力装置5を介して特定結果を出力する(ステップS25)。以上により、音声検索装置100が実行する音声検索処理は終了する。
以上説明したように、実施形態1に係る音声検索装置100は、検索対象の音声信号の話速に対応した話速情報を用いて、音素の平均継続時間長を話速に対応した継続時間長に変更している。そして、話速に対応した継続時間長を使用して、検索対象の音声信号の中から、クエリに対応する音声が発せられていることが推定される区間を特定する。この処理により、検索対象の音声信号の話速が異なる場合でも、正確に検索対象の音声信号の中からクエリに対応する音声区間を特定できる。
なお、以上の説明では、母音と子音の継続時間長の変更率をそれぞれ変更する場合について説明したが、図10に示すように、子音の変更率を1に固定して母音の継続時間長のみを変更するようにしてもよい。
また、以上の説明では、母音と子音の変更率をそれぞれ設定する場合について説明したが、母音と子音の変更率の比を予め音声検索プログラムの中で設定しておき、ある変更率を入力すると自動的に母音と子音の変更率が決定されるようにしてもよい。
なお、実施形態1の説明では、区間指定部117が1シフト長Sずつフレーム列の先頭位置をシフトさせ、シフトさせる毎に特徴量の算出と出力確率の取得と尤度の取得を行う処理をP回繰り返す説明をした。しかし、区間指定部117が、最初に第0フレームから第(P−1)フレーム列の指定と、第0尤度取得区間から第(P−1)尤度取得区間の指定を行った後で、特徴量の計算と出力確率の取得と尤度の取得をするようにしてもよい。
また、バイフォンモデルを併用する場合には、モノフォンモデルでの予備選択をした後で、バイフォンモデルを用いた2次選択を行い、その後でトライフォンモデルを用いた3次選択(最終選択)をすることもできる。また、モノフォンモデルを用いた予備検索においてモノフォンモデルとバイフォンモデルを組み合わせた1次選択とすることも、トライフォンモデルを用いた最終選択においてバイフォンモデルとトライフォンモデルとを組み合わせた最終選択とすることもできる。
(実施形態2)
実施形態1では、話速が一定であると仮定して話速情報を1個のみ設定する場合について説明した。したがって、話速情報も1種類のみで対応可能であるとしていた。しかし、実際のスピーチでは、同じ単語を必ずしも同じ話速で発話するとは限られない。例えば、「カテゴリ」という単語も、平均的な話速で発話する場合もあれば、強調する場合のようにゆっくり発話される場合もある。これに対応するために、実施形態2では、複数の話速情報を用いることにより複数の発話時間長を導出する。実施形態2では、話速情報として、0.7(早め)、1.0(普通)、1.4(遅め)の3種類の話速情報(継続時間長の変更率)を用いる場合について説明する。
実施形態2に係る音声検索装置は、実施形態1に係る音声検索装置100と同様、物理的には図1に示したように構成される。また、機能構成についても図2に示す構成と同様である。
実施形態2に係る音声検索装置100が実行する音声検索処理について図11に示すフローチャートを参照して説明する。
検索対象の音声信号は、1時間の講話の録音された音声であり、予め音声信号記憶部101に記憶されているものとする。ここでは、検索文字列は「カテゴリ」とする。話速情報としては、図4に示す変更率を準備しているものとする。
CPU6が、ROM1から音声検索プログラムを読み出して、音声検索プログラムを実行することにより図11に示すフローチャートは開始する。ユーザが、検索対象の検索文字列「カテゴリ」を入力装置4からテキストデータとして入力し、検索文字列取得部111が検索文字列を取得する(ステップS31)。検索文字列取得部111が検索文字列を取得すると、変換部112及び第2の変換部122は、検索文字列を音素列に変換し(ステップS32)、音素列の音素順に音響モデルの音素を並べる(ステップS33)。具体的には、変換部112は、検索文字列をモノフォンによるモノフォン音素列に変換し、第2の変換部122は、検索文字列をトライフォンによるトライフォン音素列に変換する。
話速情報取得部114は、ユーザが供給した0.7(早め)、1.0(普通)、1.4(遅め)の3種類の話速情報を取得する(ステップS34)。具体的には、図4に示す変更率(伸張倍率と縮小倍率)を取得する。「普通」の話速に対応する変更率は、母音も子音も変更率が1.0であるので記載を省略する。
時間長変更部115は、時間長記憶部104から取得した音素の各状態の平均継続時間長から3種類の話速情報に対応する3種類の継続時間長を作成する(ステップS35)。
具体的には、音素列「k,a,t,e,g,o,r,i」の24状態に対応する時間長として、時間長取得部113を介して時間長記憶部104から取得した平均継続時間長を話速「普通」に対応した継続時間長として取得する。時間長変更部115は、取得した継続時間長に1.0を掛けて、話速「普通」に対する継続時間長とする。これを図5の2列目に記載する。時間長変更部115は、話速「遅め」に対応する継続時間長として、図5の2列目に記載する平均継続時間長に図4に示す伸張倍率を掛けて、図5の3列目に記載する値を話速「遅め」用の継続時間長として作成する。話速「早め」に対応する継続時間長として、図5の2列目に記載する平均継続時間長に図4に示す縮小倍率を掛けて、図5の4列目に記載する値を話速「早め」用の継続時間長として作成する。
次に、変換部112が検索文字列を音素列に変換すると、時間長導出部116は、検索文字列に対応する音声の発話時間長として、3個の時間長を導出する(ステップS36)。具体的には、図5の2列目に記載する継続時間長を24個合計した値(620ms)を話速「普通」に対する発話時間長として導出する。図5の3列目に記載する継続時間長を24個合計した値(852ms)を話速「遅め」に対する発話時間長として導出する。図5の4列目に記載する継続時間長を24個合計した値(456ms)を話速「早め」に対する発話時間長として導出する。
図11に戻って、時間長導出部116が発話時間長として3個の時間長を導出すると、音声検索処理は、検索対象の音声信号の先頭から末尾まで、導出した各時間長の区間である尤度取得区間を順に指定して、尤度を取得する処理に移行する。
まず、区間指定部117は、時間長導出部116が導出した3個の時間長のそれぞれについて、検索対象の音声信号の先頭から開始する第0フレーム列を指定し、その24フレーム分の区間を第0尤度取得区間として指定する(ステップS37)。具体的には、話速「普通」用の継続時間長を用いて第0フレーム列を指定し、その24フレーム分の区間(0ms〜620ms)を話速「普通」用の第0尤度取得区間として指定する。話速「遅め」用の継続時間長を用いて第0フレーム列を指定し、音声信号の先頭から(0ms〜852ms)の区間を話速「遅め」用の第0尤度取得区間として指定する。同様にして、音声信号の先頭から(0ms〜456ms)の区間を話速「早め」用の第0尤度取得区間として指定する。
区間指定部117が各時間長(620ms、852ms、456ms)について尤度取得区間を指定すると、特徴量算出部118は、指定した尤度取得区間の音声信号の特徴量を、フレーム毎に算出する(ステップS38)。具体的には、まず、音声信号から話速「普通」に対する尤度取得区間(620ms)を切り出し、話速「普通」に対応する図5の2列目に記載する各音素の状態毎のフレーム長ごとに音声信号の特徴量を24フレーム分計算する。次に、音声信号から話速「遅め」に対する尤度取得区間(852ms)を切り出し、話速「遅め」に対応する図5の3列目に記載する各音素の状態毎のフレーム長ごとに音声信号の特徴量を24フレーム分計算する。次に、音声信号から話速「早め」に対する尤度取得区間(456ms)を切り出し、話速「早め」に対応する図5の4列目に記載する各音素の状態毎のフレーム長ごとに音声信号の特徴量を24フレーム分計算する。
そして、出力確率取得部119は、特徴量算出部118が算出した特徴量と対応するモノフォンモデルとに基づいて、この特徴量が音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する(ステップS39)。ここでは、(話速3種類×フレーム数24フレーム)分の出力確率を取得する。
出力確率取得部119が出力確率を取得すると、置換部120は、フレーム毎に取得した出力確率を、その前後数フレーム(前2フレームと自身のフレームと後2フレーム)の中で最大の出力確率に置き換えることにより、Lower−Bound化処理を実行する(ステップS40)。これにより、時間長導出部116が導出した発話時間長と実際の発話時間長との誤差を縮小する。
尤度取得部121は、Lower−Bound化後の出力確率をフレームごとに対数をとって加算することにより、区間指定部117が3個の話速のそれぞれについて指定した尤度取得区間の尤度を取得する(ステップS41)。尤度取得部121が尤度を取得すると、繰り返し部122は、時間長導出部116が導出した発話時間長の各時間長について、検索対象の音声信号における全区間の尤度取得が終了したか否かを判定する(ステップS42)。
全区間の尤度取得が終了していない場合(ステップS42;NO)、時間長導出部116が発話時間長として導出した3個の時間長のそれぞれについて、区間指定部117が直前に指定した第0フレーム列を1シフト長(S=10ms)だけシフトした第1フレーム列を指定し、その区間を第1尤度取得区間として指定して(ステップS43)、音声検索処理はステップS38に戻る。具体的には、音声信号の先頭から10msシフトした位置から、話速「普通」用の第1フレーム列を指定し、そのフレーム列の区間(10ms〜630ms)を話速「普通」用の第1尤度取得区間として指定する。同様にして、話速「遅め」の第1フレーム列を指定し、そのフレーム列の区間(10ms〜862ms)を話速「遅め」用の第1尤度取得区間として指定する。同様にして、話速「早め」の第1フレーム列を指定し、(10ms〜466ms)の区間を話速「早め」用の第1尤度取得区間として指定する。
そして、繰り返し部122は、各時間長について新たに指定した尤度取得区間に対して上述したステップS38〜S42の処理を繰り返して尤度を取得するように各部を制御する。このように、繰り返し部122は、検索対象の音声信号の末尾に達するまで、区間指定部117が指定する尤度取得区間を1シフト長(S=10ms)ずつシフトさせて、順次尤度を取得するように各部を制御する。
最終的に、3種類の話速に対応するそれぞれP個の区間の尤度取得が終了すると(ステップS42;YES)、音声検索処理は、取得した尤度に基づいて検索文字列に対応する区間を特定する処理(ステップS44)に移行する。この特定処理は、図9のフローチャートを参照して説明した処理と同様である。
すなわち、選択部123は、区間指定部117が3個の話速に対応する尤度取得区間(それぞれP個)の中から、所定の選択時間長(1秒)毎に1つずつ区間を選択する(ステップS101)。この選択時間長の中には、3つの話速に対応する尤度取得区間が含まれるが、その中で最も尤度が高い尤度取得区間を1つ選択する。したがって、選択部123は、1時間の講話の音声信号の中の話速に応じて、話速「早め」に対応する尤度取得区間を選択することもあれば、話速「遅め」に対応する尤度取得区間を選択する場合もある。
さらに選択部123は、このように選択した区間の中から、尤度が高い順にx個の区間を選択する(ステップS102)。
第2の出力確率取得部125は、トライフォン音素列に基づいて、選択部123が選択した区間における出力確率を、フレーム毎に取得する(ステップS103)。第2の尤度取得部126は、選択部123が選択した区間の尤度をDPマッチングにより取得する(ステップS104)。そして、特定部127は、取得した第2の尤度に基づいて、検索文字列に対応する音声が発せられていることが推定される区間を特定する(ステップS105)。そして、図11のステップS45に遷移する。
検索文字列に対応する区間を特定すると、特定部127は、出力装置5を介して特定結果を出力する(ステップS45)。以上により、音声検索装置100が実行する音声検索処理は終了する。
以上説明したように、実施形態2に係る音声検索装置100は、検索文字列に対応する音声の発話時間長として、3個の話速情報を設定することにより、発話時間長として話速に対応した3個の時間長を導出する。そして、導出した3個の時間長のそれぞれに相当する時間長の区間を尤度取得区間として指定して、指定した尤度取得区間の中から検索文字列に対応する音声が発せられていることが推定される区間を特定する。その結果、話速の違いにより尤度が悪化して候補から漏れることを減少させ、平均的な話速とずれがある音声信号に対する音声検索においても、検索精度を向上させることができる。
本実施形態2に係る音声検索装置100は、複数の話速情報を設定することにより複数の継続時間長に基づいて複数の発話時間長を導出して予備選択を行うので、予備選択の処理量は増加する。しかし、予備選択の処理はモノフォンモデルに対して尤度の計算を行うので、情報量が多いトライフォンモデルを用いて尤度の計算を行う最終的な区間の特定処理に比べると、計算処理負荷が軽い。したがって、本実施形態で説明したように話速情報を3個設定しても、検索処理時間の全体に対する増加は少ない。
このように、本実施形態に係る検索装置は、予備選択において異なる話速に対応する多くの発話時間長を導出して区間の候補を検索することにより、途中で話速が変化する音声信号に対しても、高い検索精度を確保している。そして、予備選択で候補の区間数を限定することにより、情報量の多いトライフォンモデルを用いた高精度ではあるが計算処理が重たい処理を減らしている。その結果、音声検索装置100は、計算量を抑えつつ、高精度に音声検索できる。
なお、実施形態2の説明では、継続時間長を話速情報に基づいて伸縮した後で、変更後の継続時間長をモノフォン音素列に対応して加算して、複数の発話時間長を導出する場合について説明した。しかし、母音と子音の継続時間長の変更率を一律にする場合は、時間長記憶部104に記憶されている平均継続時間長から1つの発話時間長を求め、その発話時間長を1.4倍もしくは0.7倍する話速情報に基づいて変更してもよい。
また、実施形態2の説明では、3種類の話速情報を入力する場合について説明したが、話速情報の数を限定するものではない。また、3個の話速情報を予め音声検索プログラムの中で設定しておき、自動的に3種類の継続時間長を作成するようにしてもよい。
また、実施形態2の説明では、話速に対応して継続時間長のみを変更する説明をした。しかし、音響モデルも話速に対応した分類がなされており、話速に応じて使用する音響モデルも選択できることが望ましい。
(変形例1)
実施形態1と2に係る音声検索装置100は、音素の各状態の継続時間長に一律に変更率を掛ける場合について説明した。しかし、本発明はこれには限定されない。例えば、音素の状態ごとに変更率を変える場合について説明する。
音素の状態ごとに変更率を変える場合について、図12を用いて説明する。音素の状態1の継続時間長T1に対する変更率をα1とし、状態2の継続時間長T2に対する変更率をα2とし、状態3の継続時間長T3に対する変更率をα3とする。
本変形例において、継続時間長を伸張する場合では、母音については、状態1の変更利を1.3とし、状態2の変更率を1.6とし、状態3の変更率を1.3としている。子音については、状態1の変更率を1.1とし、状態2の変更率を1.2とし、状態3の変更率を1.1としている。継続時間長を縮小する場合では、母音については、状態1の変更利を0.8とし、状態2の変更率を0.6とし、状態3の変更率を0.8としている。子音については、状態1の変更率を0.9とし、状態2の変更率を0.8とし、状態3の変更率を0.9としている。
一般の会話では、音素の両端の状態(図12では、状態1と状態3)よりも音素の中央の状態(図12では、状態2)のほうが、話速の変化に対して継続時間長が大きく変化する傾向がある。この傾向を利用して、図12に示す例では、状態1と状態3に対する変更率α1とα3に対して状態2に対する変更率α2を、大きく設定している。
また、歌唱の音声の場合は、図12における状態1よりも状態3の方が、歌唱の速度によって大きく変化する場合がある。このような場合には、図12に示す状態3に対する変更率α3を状態1に対する変更率α1よりも大きく設定する。
このように、音素の状態毎に変更率を設定することにより、音素の状態毎の継続時間長の比率を話速に応じた実際の継続時間長に近似することができる。これにより、より正確な音声検索を実現することができる。
なお、変形例1の説明では、図12を用いて、音素の状態毎の変更率を設定する場合について説明したが、各状態の変更率を予め音声検索プログラムの中で設定しておき、自動的に1つの継続時間長から複数の継続時間長を作成するようにしてもよい。
また、変形例1の説明では、状態1、状態2、状態3のそれぞれの継続時間長を変更する場合について説明した。しかし、2つの状態もしくは1つの状態のみの継続時間長を変更してもよい。例えば、発声開始時もしくは発声終了時を含む状態(状態1と状態3)の継続時間長を変更せずに、発声開始時もしくは発声終了時を含まない状態(状態2)の継続時間長のみを変更するようにしてもよい。状態1と状態3の変更率を1とし、状態2の継続時間長のみを変更するように変更率を設定する例を図13に示す。
また、以上の実施形態1と2の説明では、尤度の高い順にx個の尤度取得区間を選択する場合について説明した。しかし、選択の仕方はこれに限定されることはない。例えば、特定の尤度の値を閾値として、その値以上の尤度取得区間を選択してもよい。
また、検索精度を要求されない場合には、Lower−Bound化処理を省略することもできる。検索精度を要求される場合においても、実施形態2のように多くの話速に対応する継続時間長を用いて検索する場合には、Lower−Bound化処理を省略できる場合がある。
また、以上の説明では、検索語を入力装置4からテキストデータとして入力する場合について説明したが、検索語を音声認識装置のマイクに音声データとして入力し、音声認識装置で検索語を認識するようにしてもよい。
また、以上の説明では、話速情報(継続時間長の変更率)を入力装置4から入力する場合について説明した。しかし、音声信号の一部を解析し、単位時間あたりに含まれる音声のピッチ情報(もしくは音素の数)から話速を推定し、その推定に基づいて継続時間長に対する変更率を決めるようにしてもよい。
また、本発明に係る機能を実現するための構成を予め備えた音声検索装置として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る音声検索装置として機能させることもできる。すなわち、上記実施形態で例示した音声検索装置100による各機能構成を実現させるためのプログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するCPU等が実行できるように適用することで、本発明に係る音声検索装置として機能させることができる。また、本発明に係る音声検索方法は、音声検索装置を用いて実施できる。
また、このようなプログラムの適用方法は任意である。プログラムを、例えば、コンピュータが読取可能な記録媒体(CD−ROM(Compact Disc Read-Only Memory)、DVD(Digital Versatile Disc)、MO(Magneto Optical disc)等)に格納して適用できる他、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより適用することもできる。
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
(付記1)
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
検索対象の音声信号の話速に係る情報を取得する話速情報取得手段と、
前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段と、
前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段と、
前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。
(付記2)
前記時間長変更手段は、前記時間長取得手段が取得した各音素の継続時間長のうちの母音の音素の継続時間長と子音の音素の継続時間長とを、個別に定められた変更率で変更する、
ことを特徴とする付記1に記載の音声検索装置。
(付記3)
前記時間長変更手段は、前記時間長取得手段が取得した各音素の継続時間長のうちの母音の音素の継続時間長を、子音の音素の継続時間長の変更率より大きい変更率で変更する、
ことを特徴とする付記1または2に記載の音声検索装置。
(付記4)
前記時間長変更手段は、前記時間長取得手段が取得した母音と子音の音素の継続時間長のうちの母音の音素の継続時間長のみを変更する、
ことを特徴とする付記1に記載の音声検索装置。
(付記5)
前記時間長取得手段は、前記音素列に含まれる各音素の継続時間長を、各音素の状態毎に取得し、
前記時間長変更手段は、前記時間長取得手段が各音素の状態毎に取得した継続時間長を、状態毎に定められた変更率で変更する、
ことを特徴とする付記1から4のいずれかに記載の音声検索装置。
(付記6)
前記時間長変更手段は、各音素の状態のうち、音素の発声開始時もしくは発声終了時を含む状態の継続時間長を、音素の発声開始時もしくは発声終了時を含まない状態の継続時間長の変更率より小さい変更率で変更する、
ことを特徴とする付記5に記載の音声検索装置。
(付記7)
前記区間指定手段が指定した尤度取得区間における前記検索対象の音声信号の特徴量を、音声信号と音素モデルとを比較する区間であるフレーム毎に算出する特徴量算出手段と、
前記検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段と、
をさらに備え、
前記尤度取得手段は、前記区間指定手段が指定した尤度取得区間に含まれるフレーム毎に取得された出力確率の対数をとった値を加算して該尤度取得区間の前記尤度を取得する、
ことを特徴とする付記1から6のいずれかに記載の音声検索装置。
(付記8)
前記出力確率取得手段がフレーム毎に取得した出力確率のそれぞれを、そのフレームとそのフレームの前のN1個のフレームとそのフレームの後のN2個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記N1とN2は0を含む自然数であって、N1とN2のいずれかは0ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
ことを特徴とする付記7に記載の音声検索装置。
(付記9)
前記検索文字列を隣接する音素に依存しない音響モデルの音素を並べた音素列に変換する変換手段を備え、
前記尤度取得手段は、前記音素列に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得し、
前記尤度取得手段が取得した尤度に基づいて、前記指定された複数の尤度取得区間の中から前記推定区間の候補を選択する選択手段と、
隣接する音素に依存する第2の音響モデルの音素を並べて、前記検索文字列を第2の音素列に変換する第2の変換手段と、
前記第2の音素列に基づいて、前記選択手段が前記推定区間の候補として選択した区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第2の尤度を、前記選択手段が選択した複数の候補のそれぞれについて取得する第2の尤度取得手段と、
をさらに備え、
前記特定手段は、前記第2の尤度取得手段が取得した第2の尤度に基づいて、前記選択手段が選択した複数の候補の中から前記推定区間を特定する、
ことを特徴とする付記1から8のいずれかに記載の音声検索装置。
(付記10)
前記選択手段は、前記区間指定手段が指定した尤度取得区間の中から、所定の選択時間長毎に、該所定の選択時間長の区間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を1つずつ選択することにより、前記推定区間の複数の候補を選択する、
ことを特徴とする付記9に記載の音声検索装置。
(付記11)
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得ステップと、
検索対象の音声信号の話速に係る情報を取得する話速情報取得ステップと、
前記話速情報取得ステップで取得した話速に係る情報に応じて、前記時間長取得ステップで取得した各音素の継続時間長を変更する時間長変更ステップと、
前記時間長変更ステップで変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出ステップと、
前記時間長導出ステップで導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定ステップと、
前記区間指定ステップで指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
前記区間指定ステップで指定した尤度取得区間のそれぞれについて前記尤度取得ステップで取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
を含む音声検索方法。
(付記12)
コンピュータを、
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段、
検索対象の音声信号の話速に係る情報を取得する話速情報取得手段、
前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段、
前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段、
前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
1…ROM、2…RAM、3…外部記憶装置、4…入力装置、5…出力装置、6…CPU、7…バス、100…音声検索装置、101…音声信号記憶部、102…モノフォンモデル記憶部、103…トライフォンモデル記憶部、104…時間長記憶部、111…検索文字列取得部、112…変換部、113…時間長取得部、114…話速情報取得部、115…時間長変更部、116…時間長導出部、117…区間指定部、118…特徴量算出部、119…出力確率取得部、120…置換部、121…尤度取得部、122…繰り返し部、123…選択部、124…第2の変換部、125…第2の出力確率取得部、126…第2の尤度取得部、127…特定部

Claims (12)

  1. 検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
    検索対象の音声信号の話速に係る情報を取得する話速情報取得手段と、
    前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段と、
    前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段と、
    前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段と、
    前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
    前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
    を備えることを特徴とする音声検索装置。
  2. 前記時間長変更手段は、前記時間長取得手段が取得した各音素の継続時間長のうちの母音の音素の継続時間長と子音の音素の継続時間長とを、個別に定められた変更率で変更する、
    ことを特徴とする請求項1に記載の音声検索装置。
  3. 前記時間長変更手段は、前記時間長取得手段が取得した各音素の継続時間長のうちの母音の音素の継続時間長を、子音の音素の継続時間長の変更率より大きい変更率で変更する、
    ことを特徴とする請求項1または2に記載の音声検索装置。
  4. 前記時間長変更手段は、前記時間長取得手段が取得した母音と子音の音素の継続時間長のうちの母音の音素の継続時間長のみを変更する、
    ことを特徴とする請求項1に記載の音声検索装置。
  5. 前記時間長取得手段は、前記音素列に含まれる各音素の継続時間長を、各音素の状態毎に取得し、
    前記時間長変更手段は、前記時間長取得手段が各音素の状態毎に取得した継続時間長を、状態毎に定められた変更率で変更する、
    ことを特徴とする請求項1から4のいずれか1項に記載の音声検索装置。
  6. 前記時間長変更手段は、各音素の状態のうち、音素の発声開始時もしくは発声終了時を含む状態の継続時間長を、音素の発声開始時もしくは発声終了時を含まない状態の継続時間長の変更率より小さい変更率で変更する、
    ことを特徴とする請求項5に記載の音声検索装置。
  7. 前記区間指定手段が指定した尤度取得区間における前記検索対象の音声信号の特徴量を、音声信号と音素モデルとを比較する区間であるフレーム毎に算出する特徴量算出手段と、
    前記検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段と、
    をさらに備え、
    前記尤度取得手段は、前記区間指定手段が指定した尤度取得区間に含まれるフレーム毎に取得された出力確率の対数をとった値を加算して該尤度取得区間の前記尤度を取得する、
    ことを特徴とする請求項1から6のいずれか1項に記載の音声検索装置。
  8. 前記出力確率取得手段がフレーム毎に取得した出力確率のそれぞれを、そのフレームとそのフレームの前のN1個のフレームとそのフレームの後のN2個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
    前記N1とN2は0を含む自然数であって、N1とN2のいずれかは0ではなく、
    前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
    ことを特徴とする請求項7に記載の音声検索装置。
  9. 前記検索文字列を隣接する音素に依存しない音響モデルの音素を並べた音素列に変換する変換手段を備え、
    前記尤度取得手段は、前記音素列に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得し、
    前記尤度取得手段が取得した尤度に基づいて、前記指定された複数の尤度取得区間の中から前記推定区間の候補を選択する選択手段と、
    隣接する音素に依存する第2の音響モデルの音素を並べて、前記検索文字列を第2の音素列に変換する第2の変換手段と、
    前記第2の音素列に基づいて、前記選択手段が前記推定区間の候補として選択した区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第2の尤度を、前記選択手段が選択した複数の候補のそれぞれについて取得する第2の尤度取得手段と、
    をさらに備え、
    前記特定手段は、前記第2の尤度取得手段が取得した第2の尤度に基づいて、前記選択手段が選択した複数の候補の中から前記推定区間を特定する、
    ことを特徴とする請求項1から8のいずれか1項に記載の音声検索装置。
  10. 前記選択手段は、前記区間指定手段が指定した尤度取得区間の中から、所定の選択時間長毎に、該所定の選択時間長の区間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を1つずつ選択することにより、前記推定区間の複数の候補を選択する、
    ことを特徴とする請求項9に記載の音声検索装置。
  11. 検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得ステップと、
    検索対象の音声信号の話速に係る情報を取得する話速情報取得ステップと、
    前記話速情報取得ステップで取得した話速に係る情報に応じて、前記時間長取得ステップで取得した各音素の継続時間長を変更する時間長変更ステップと、
    前記時間長変更ステップで変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出ステップと、
    前記時間長導出ステップで導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定ステップと、
    前記区間指定ステップで指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
    前記区間指定ステップで指定した尤度取得区間のそれぞれについて前記尤度取得ステップで取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
    を含む音声検索方法。
  12. コンピュータを、
    検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段、
    検索対象の音声信号の話速に係る情報を取得する話速情報取得手段、
    前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段、
    前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段、
    前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段、
    前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
    前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
    として機能させるためのプログラム。
JP2014259418A 2014-12-22 2014-12-22 音声検索装置、音声検索方法及びプログラム Active JP6003971B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014259418A JP6003971B2 (ja) 2014-12-22 2014-12-22 音声検索装置、音声検索方法及びプログラム
US14/953,775 US9754024B2 (en) 2014-12-22 2015-11-30 Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
CN201510972004.0A CN105718503B (zh) 2014-12-22 2015-12-22 声音检索装置以及声音检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014259418A JP6003971B2 (ja) 2014-12-22 2014-12-22 音声検索装置、音声検索方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016118999A true JP2016118999A (ja) 2016-06-30
JP6003971B2 JP6003971B2 (ja) 2016-10-05

Family

ID=56130166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014259418A Active JP6003971B2 (ja) 2014-12-22 2014-12-22 音声検索装置、音声検索方法及びプログラム

Country Status (3)

Country Link
US (1) US9754024B2 (ja)
JP (1) JP6003971B2 (ja)
CN (1) CN105718503B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017021196A (ja) * 2015-07-10 2017-01-26 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017015847A (ja) * 2015-06-30 2017-01-19 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
CN107068145B (zh) * 2016-12-30 2019-02-15 中南大学 语音评测方法及系统
JP6805037B2 (ja) * 2017-03-22 2020-12-23 株式会社東芝 話者検索装置、話者検索方法、および話者検索プログラム
US11276390B2 (en) * 2018-03-22 2022-03-15 Casio Computer Co., Ltd. Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme
JP6462936B1 (ja) * 2018-06-18 2019-01-30 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置
CN111462777B (zh) * 2020-03-30 2023-02-14 厦门快商通科技股份有限公司 关键词检索方法、系统、移动终端及存储介质
CN111627422B (zh) * 2020-05-13 2022-07-12 广州国音智能科技有限公司 语音加速检测方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250585A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体
WO2007043679A1 (ja) * 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム
JP2011185997A (ja) * 2010-03-04 2011-09-22 Fujitsu Ltd 音声検索装置、音声検索方法、プログラム及び記録媒体
JP2013088488A (ja) * 2011-10-13 2013-05-13 Casio Comput Co Ltd 音声検索装置、音声検索方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7904296B2 (en) * 2003-07-23 2011-03-08 Nexidia Inc. Spoken word spotting queries
JP3945778B2 (ja) * 2004-03-12 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 設定装置、プログラム、記録媒体、及び設定方法
JP5072415B2 (ja) * 2007-04-10 2012-11-14 三菱電機株式会社 音声検索装置
US8352268B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
WO2010098209A1 (ja) * 2009-02-26 2010-09-02 国立大学法人豊橋技術科学大学 音声検索装置および音声検索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250585A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体
WO2007043679A1 (ja) * 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム
JP2011185997A (ja) * 2010-03-04 2011-09-22 Fujitsu Ltd 音声検索装置、音声検索方法、プログラム及び記録媒体
JP2013088488A (ja) * 2011-10-13 2013-05-13 Casio Comput Co Ltd 音声検索装置、音声検索方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017021196A (ja) * 2015-07-10 2017-01-26 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム

Also Published As

Publication number Publication date
JP6003971B2 (ja) 2016-10-05
CN105718503A (zh) 2016-06-29
CN105718503B (zh) 2019-03-08
US20160180834A1 (en) 2016-06-23
US9754024B2 (en) 2017-09-05

Similar Documents

Publication Publication Date Title
JP6003971B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP6003972B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP6011565B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP5888356B2 (ja) 音声検索装置、音声検索方法及びプログラム
US7349847B2 (en) Speech synthesis apparatus and speech synthesis method
JP4328698B2 (ja) 素片セット作成方法および装置
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
JP6235280B2 (ja) 音声同時処理装置、方法およびプログラム
JP2014202848A (ja) テキスト生成装置、方法、及びプログラム
JP5512597B2 (ja) 音声合成装置とその方法とプログラム
JP6499228B2 (ja) テキスト生成装置、方法、及びプログラム
KR20050032759A (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
JP6565416B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP6604013B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP6680008B2 (ja) 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP2017015847A (ja) 音声検索装置、音声検索方法及びプログラム
JP6680009B2 (ja) 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
CN113112996A (zh) 用于基于语音的音频和文本对齐的系统和方法
JP2018160137A (ja) 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム
JP2012194364A (ja) 音声認識装置、音声認識方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160426

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160822

R150 Certificate of patent or registration of utility model

Ref document number: 6003971

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150