JP6565416B2 - Voice search device, voice search method and program - Google Patents

Voice search device, voice search method and program Download PDF

Info

Publication number
JP6565416B2
JP6565416B2 JP2015144687A JP2015144687A JP6565416B2 JP 6565416 B2 JP6565416 B2 JP 6565416B2 JP 2015144687 A JP2015144687 A JP 2015144687A JP 2015144687 A JP2015144687 A JP 2015144687A JP 6565416 B2 JP6565416 B2 JP 6565416B2
Authority
JP
Japan
Prior art keywords
probability
query
frame
likelihood
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015144687A
Other languages
Japanese (ja)
Other versions
JP2017026792A (en
Inventor
井手 博康
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2015144687A priority Critical patent/JP6565416B2/en
Publication of JP2017026792A publication Critical patent/JP2017026792A/en
Application granted granted Critical
Publication of JP6565416B2 publication Critical patent/JP6565416B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声検索装置、音声検索方法及びプログラムに関する。   The present invention relates to a voice search device, a voice search method, and a program.

音声検索では、検索対象とする検索語(クエリ)に対応する音声が発話されている箇所を音声信号の中から特定する検索技術を使用する。この音声検索技術では、高速かつ正確な音声検索を実現することが重要となる。   In the voice search, a search technique is used that specifies, from a voice signal, a portion where a voice corresponding to a search word (query) to be searched is spoken. In this voice search technology, it is important to realize fast and accurate voice search.

上記音声検索技術の1つとして、非特許文献1は、検索対象の音声信号と検索するクエリ音声信号とを高速に比較する技術を開示している。非特許文献1が開示する技術では、検索対象の音声信号の特徴量とクエリ音声信号の特徴量とを高速に比較する。   As one of the voice search techniques, Non-Patent Document 1 discloses a technique for comparing a search target voice signal with a query voice signal to be searched at high speed. In the technology disclosed in Non-Patent Document 1, the feature amount of the search target speech signal and the feature amount of the query speech signal are compared at high speed.

Y.Zhang and J.Glass. “An inner−product lower−bound estimate for dynamic time warping,” in Proc. ICASSP,2011,pp.5660−5663.Y. Zhang and J.H. Glass. “An inner-product lower-bound estimate for dynamic time warping,” in Proc. ICASSP, 2011, pp. 5660-5663.

しかしながら、非特許文献1が開示する技術では、検索対象音声の入力者とクエリ入力者とが同一人物である場合、発話内容が異なるにもかかわらず音響的特徴が近似するために、検索語と異なる発話内容の位置を誤って検出する場合が有り、検索精度が低くなるという問題がある。   However, in the technique disclosed in Non-Patent Document 1, when the input person of the search target speech and the query input person are the same person, the acoustic features approximate even though the utterance contents are different. There is a case where the position of different utterance contents is erroneously detected, and there is a problem that search accuracy is lowered.

本発明は、以上のような課題を解決するためのものであり、検索対象音声の入力者とクエリ入力者とが同一人物である場合でも、より高精度に検索することが可能な音声検索装置、音声検索方法及びプログラムを提供することを目的とする。   The present invention is for solving the above-described problems, and a voice search device capable of performing a search with higher accuracy even when a search target voice input person and a query input person are the same person. Another object is to provide a voice search method and program.

上記目的を達成するため、本発明に係る音声検索装置は、
検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶手段と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶手段が記憶する第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段と、
を備えることを特徴とする。
In order to achieve the above object, a voice search device according to the present invention provides:
For each frame included in the search target speech signal, a second probability, which is a probability that the feature amount of the search target speech signal matches the feature amount of each state of the phoneme created from the acoustic model, is determined as a phoneme of the acoustic model. Output probability storage means for storing in association with each state of
Acquired for each frame included in the query speech signal, the probability that the feature amount of the query speech signal matches the feature amount of each state of the phoneme created from the acoustic model, and each state of the phoneme of the acoustic model Estimation that the query speech signal is estimated to be generated from among the speech signals to be searched based on the associated first probability and the second probability stored in the output probability storage means An identification means for identifying the section;
It is characterized by providing.

本発明によれば、クエリ入力者の音声が検索対象音声に一部含まれている場合でも、より高精度に検索することができる。   According to the present invention, even when the query input user's voice is partially included in the search target voice, the search can be performed with higher accuracy.

本発明の実施形態1に係る音声検索装置の物理構成を示す図である。It is a figure which shows the physical structure of the speech search device which concerns on Embodiment 1 of this invention. 本発明の実施形態1に係る音声検索装置の機能構成を示す図である。It is a figure which shows the function structure of the speech search device which concerns on Embodiment 1 of this invention. 音素の状態について説明するための図である。It is a figure for demonstrating the state of a phoneme. 検索インデクスについて説明するための図である。It is a figure for demonstrating a search index. (a)は、検索対象の音声信号の波形図である。(b)は、検索対象の音声信号において設定されるフレームを示す図である。(c)は、検索対象の音声信号において指定される尤度取得区間を示す図である。(A) is a waveform diagram of an audio signal to be searched. (B) is a figure which shows the flame | frame set in the audio | voice signal of search object. (C) is a figure which shows the likelihood acquisition area designated in the audio | voice signal of search object. (a)は、クエリ音声信号の波形図である。(b)は、クエリ音声信号において設定されるフレームを示す図である。(A) is a waveform diagram of a query voice signal. (B) is a figure which shows the flame | frame set in a query audio | voice signal. クエリ音声信号の出力確率について説明するための図である。It is a figure for demonstrating the output probability of a query audio | voice signal. 出力確率をLower−Bound化する例を示す図である。It is a figure which shows the example which makes output probability Lower-Bound. 本発明の実施形態1に係る音声検索装置が実行する音声検索処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the voice search process which the voice search device concerning Embodiment 1 of this invention performs.

以下、本発明の実施形態に係る音声検索装置、音声検索方法及びプログラムについて、図面を参照しながら説明する。なお、図中同一又は相当する部分には同一符号を付す。   Hereinafter, a voice search device, a voice search method, and a program according to an embodiment of the present invention will be described with reference to the drawings. In the drawings, the same or corresponding parts are denoted by the same reference numerals.

(実施形態1)
実施形態1に係る音声検索装置100は、物理的には、図1に示すように、ROM(Read Only Memory)1と、RAM(Random Access Memory)2と、外部記憶装置3と、入力装置4と、出力装置5と、CPU(Central Processing Unit)6と、バス7と、を備える。
(Embodiment 1)
As shown in FIG. 1, the speech search apparatus 100 according to the first embodiment physically includes a ROM (Read Only Memory) 1, a RAM (Random Access Memory) 2, an external storage device 3, and an input device 4. And an output device 5, a CPU (Central Processing Unit) 6, and a bus 7.

ROM1は、音声検索プログラムを記憶する。RAM2は、CPU6のワークエリアとして使用される。   The ROM 1 stores a voice search program. The RAM 2 is used as a work area for the CPU 6.

外部記憶装置3は、例えば、ハードディスクから構成され、解析対象である音声信号、後述する検索インデックス、音響モデルをデータとして記憶する。   The external storage device 3 is composed of, for example, a hard disk, and stores an audio signal to be analyzed, a search index described later, and an acoustic model as data.

入力装置4は、マイク等の音声入力装置から構成される。入力装置4は、ユーザが入力した検索語(クエリ音声信号)を音声データとしてCPU6に供給する。出力装置5は、例えば、スピーカ、液晶ディスプレイの画面を備える。出力装置5は、CPU6によって出力された音声データをスピーカから出力し、検索した検索語の音声信号における位置を画面に表示する。   The input device 4 is composed of a voice input device such as a microphone. The input device 4 supplies a search term (query voice signal) input by the user to the CPU 6 as voice data. The output device 5 includes, for example, a speaker and a liquid crystal display screen. The output device 5 outputs the audio data output by the CPU 6 from the speaker, and displays the position of the searched search word in the audio signal on the screen.

バス7は、ROM1、RAM2、外部記憶装置3、入力装置4、出力装置5、CPU6、を接続する。CPU6は、ROM1に記憶された音声検索プログラムをRAM2に読み出して、その音声検索プログラムを実行することにより、以下に示す機能を実現する。   The bus 7 connects the ROM 1, RAM 2, external storage device 3, input device 4, output device 5, and CPU 6. The CPU 6 reads the voice search program stored in the ROM 1 into the RAM 2 and executes the voice search program, thereby realizing the following functions.

音声検索装置100は、機能的には、図2に示すように、音響モデル記憶部101と、出力確率記憶部102と、クエリ出力確率記憶部103と、クエリ音声信号取得部111と、フレーム列作成部112と、クエリ特徴量取得部113と、クエリ出力確率取得部114と、区間指定部115と、第2出力確率取得部116と、置換部117と、尤度取得部118と、繰り返し部119と、特定部120と、を備える。音響モデル記憶部101、出力確率記憶部102、クエリ出力確率記憶部103は、外部記憶装置3の記憶領域に構築されている。   As shown in FIG. 2, the speech search apparatus 100 functionally includes an acoustic model storage unit 101, an output probability storage unit 102, a query output probability storage unit 103, a query speech signal acquisition unit 111, a frame sequence, Creation unit 112, query feature amount acquisition unit 113, query output probability acquisition unit 114, section specification unit 115, second output probability acquisition unit 116, replacement unit 117, likelihood acquisition unit 118, and repetition unit 119 and the specifying unit 120. The acoustic model storage unit 101, the output probability storage unit 102, and the query output probability storage unit 103 are constructed in the storage area of the external storage device 3.

音響モデル記憶部101は、モノフォンモデルの音響モデルを記憶する。モノフォンモデルは、1音素毎に生成された音響モデルであり、隣接する音素に依存しない音響モデルである。音声検索装置100は、モノフォンモデルを一般的な方法で学習して、音響モデル記憶部101に予め記憶しておく。   The acoustic model storage unit 101 stores a monophone model acoustic model. The monophone model is an acoustic model generated for each phoneme, and is an acoustic model that does not depend on adjacent phonemes. The voice search device 100 learns the monophone model by a general method and stores it in the acoustic model storage unit 101 in advance.

モノフォンモデルとして、例えば、一般的な音声認識で利用される音響モデルであるHMM(Hidden Markov Model;隠れマルコフモデル)を利用できる。HMMは、統計的な手法により音声信号からその音声信号を構成する音素を確率的に推定するためのモデルである。HMMには、時間的な状態の揺らぎを示す遷移確率と、各状態から入力された特徴量と一致する確率(出力確率)と、をパラメータとした標準パターンを用いる。   As the monophone model, for example, an HMM (Hidden Markov Model) that is an acoustic model used in general speech recognition can be used. The HMM is a model for probabilistically estimating phonemes constituting a speech signal from the speech signal by a statistical method. In the HMM, a standard pattern using as parameters the transition probability indicating temporal state fluctuations and the probability (output probability) matching the feature quantity input from each state is used.

音素とは、話者により発話された音声を構成する成分の単位である。例えば、「キゾクセイド」という単語は、「k,i,z,o,k,u,s,e,i,d,o」という11個の音素から構成される。音素は、さらに、複数の状態に分割される。   A phoneme is a unit of components constituting speech uttered by a speaker. For example, the word “xoxadedo” is composed of 11 phonemes “k, i, z, o, k, u, s, e, i, d, o”. A phoneme is further divided into a plurality of states.

状態とは、音素を構成する最小の時間単位である。各音素に定められた状態数が「3」である場合を例にとって説明する。例えば、音声「あ」の音素「a」は、図3に示すように、この音素の発声開始時を含む第1の状態「a1」と、中間状態である第2の状態「a2」と、発声終了時を含む第3の状態「a3」と、の3つの状態に分けられる。すなわち、1音素は3つの状態から構成される。全ての音素が3つの状態から構成されている場合、音響モデルで利用される全音素の数をmとすると、(m×3)個の状態が存在する。   A state is a minimum time unit constituting a phoneme. A case where the number of states defined for each phoneme is “3” will be described as an example. For example, as shown in FIG. 3, the phoneme “a” of the voice “A” includes a first state “a1” including the start of utterance of the phoneme, a second state “a2” that is an intermediate state, The state is divided into three states including a third state “a3” including the end of utterance. That is, one phoneme is composed of three states. When all phonemes are composed of three states, there are (m × 3) states where m is the number of all phonemes used in the acoustic model.

図2に戻って、出力確率記憶部102は、図4に示す検索インデックスを記憶する。検索インデックスとは、検索対象の音声信号に複数のフレームを設定し、そのフレームごとの音声の特徴量と音響モデルの音素の各状態の特徴量とが一致する確率である出力確率(第2の確率)を記憶したテーブルである。   Returning to FIG. 2, the output probability storage unit 102 stores the search index shown in FIG. The search index is an output probability (second probability) in which a plurality of frames are set in the speech signal to be searched, and the feature amount of the speech for each frame matches the feature amount of each state of the phoneme of the acoustic model. This is a table storing probabilities.

音素の各状態の特徴量は、音素の状態ごとに音声信号から抽出した音声の特徴を表す数値である。この特徴量は、音声データを周波数軸上に変換して得られる周波数軸系特徴パラメータと、音声データのエネルギーの2乗和やその対数を計算することにより得られるパワー系特徴パラメータと、を組み合わせることによって得られる。   The feature amount of each phoneme state is a numerical value representing the feature of speech extracted from the speech signal for each phoneme state. This feature amount is a combination of a frequency axis system characteristic parameter obtained by converting audio data onto the frequency axis and a power system characteristic parameter obtained by calculating the square sum of the energy of the audio data and its logarithm. Can be obtained.

例えば周知のように、特徴量は、周波数軸系特徴パラメータ12成分(12次元)とパワー系特徴パラメータ1成分(1次元)、直前の時間窓の各成分との差分を取った周波数軸系特徴パラメータ12成分(12次元)とパワー系特徴パラメータ1成分(1次元)、及び、直前の時間窓の各成分との差分の差分を取った周波数軸系特徴パラメータ12成分(12次元)の、合計38成分を有する38次元ベクトル量として構成される。   For example, as is well known, the feature amount is a frequency axis feature obtained by taking a difference between a frequency axis feature parameter 12 component (12 dimensions), a power feature parameter 1 component (1 dimension), and each component of the immediately preceding time window. The sum of the 12 parameter components (12 dimensions), the power system feature parameter 1 component (1 dimension), and the frequency axis system feature parameter 12 components (12 dimensions) obtained by subtracting the difference between the previous time window components. It is configured as a 38-dimensional vector quantity having 38 components.

検索対象の音声信号は、例えばニュース放送等の音声、録音された会議の音声、録音された講演の音声、映画の音声等に係る音声信号である。   The audio signal to be searched is, for example, an audio signal related to audio such as news broadcast, recorded conference audio, recorded lecture audio, movie audio, and the like.

フレームは、検索対象の音声信号とクエリ音声信号とを比較する時間窓である。本実施形態では、音素の状態ごとに検索対象の音声信号とクエリ音声信号とを比較して音声検出を行う。フレームの時間長には例えば、40msを用いる。   The frame is a time window for comparing the search target audio signal and the query audio signal. In the present embodiment, the speech detection is performed by comparing the search target speech signal with the query speech signal for each phoneme state. For example, 40 ms is used as the frame length.

検索対象の音声信号にフレームごとの区間を設定する方法について図5を参照して説明する。図5(a)は、先頭から末尾までの時間長Tの検索対象の音声信号の波形図である。縦軸は音声信号の強度を示し、横軸は時間を示す。図5(b)は、図5(a)に示す音声信号において設定されるフレームを示す。図5(b)に示すように、フレーム長tの区間を1シフト長Sずつシフトして、検索対象の音声信号にフレーム番号fからfの区間を設定する。フレーム番号fの区間は、音声信号の先頭から始まる時間長tの区間である。フレーム番号fの区間は、音声信号の先頭から1シフト長Sだけシフトした位置から始まる時間長tの区間である。以下同様に、シフト長Sずつシフトしてフレーム番号fまで設定される。 A method for setting a section for each frame in the audio signal to be searched will be described with reference to FIG. FIG. 5A is a waveform diagram of an audio signal to be searched for a time length T from the beginning to the end. The vertical axis indicates the intensity of the audio signal, and the horizontal axis indicates time. FIG. 5B shows a frame set in the audio signal shown in FIG. As shown in FIG. 5B, the section of the frame length t is shifted by one shift length S, and the sections of frame numbers f 1 to f N are set in the audio signal to be searched. Section of the frame number f 1 is a section of the length of time t starting at the beginning of the audio signal. Section of the frame number f 2 is the section of the length of time t starting from 1 shift length S shifted by a position from the head of the audio signal. Hereinafter similarly, is set to the frame number f N are shifted by the shift length S.

シフト長Sは、検索の精度を決める長さである。シフト長Sは、フレーム長tより短い値に設定される固定値である。例えば、フレーム長をt=40msとした場合は、シフト長をS=10msのように設定する。   The shift length S is a length that determines the accuracy of the search. The shift length S is a fixed value set to a value shorter than the frame length t. For example, when the frame length is set to t = 40 ms, the shift length is set to S = 10 ms.

検索インデックスは、検索対象の音声信号に設定したフレーム番号fからfの区間が、音響モデルの音素の各状態と一致する確率である出力確率(第2の確率)を音素の各状態と対応付けて記憶したテーブルである。この検索インデックスを作成するためには、まず、検索対象の音声信号の特徴量をフレーム番号fからfのフレーム毎に取得する。 In the search index, an output probability (second probability), which is a probability that the section of frame numbers f 1 to f N set in the speech signal to be searched matches each state of the phoneme of the acoustic model, is set as each state of the phoneme. It is a table stored in association with each other. In order to create this search index, first, the feature amount of the audio signal to be searched is acquired for each frame of frame numbers f 1 to f N.

そして、取得した特徴量と音響モデルの音素の各状態の特徴量とを比較することにより、フレーム番号fからfのフレームに含まれる音声信号の特徴量が音響モデルの音素の各状態の特徴量と一致する確率である出力確率(第2の確率)をフレーム毎に取得し、音素の各状態と対応付けた検索インデックスとして出力確率記憶部102に記憶しておく。音素の種類がm種類であり、音素の状態数が3である検索インデックスの例を図4に示す。図4の1列目は、シフト長Sずつシフトして作成したフレームのフレーム番号を示す。フレームごとの特徴量が音素の各状態の特徴量と一致する確率をf(x,y,z)で表す。x(x=1〜N)はフレーム番号を示し、y(y=1〜m)は音素番号を示し、z(z=1〜3)は状態番号を示す。f(1,1,1)は、フレーム番号fのフレームに含まれる音声信号の特徴量が、音響モデルに含まれる音素1の状態1の特徴量と一致する確率を表す。フレーム番号fのフレームに含まれる音声信号の特徴量が、音響モデルに含まれる音素番号yの状態zの特徴量と一致する確率をf(x,y,z)で表す。 Then, by comparing the acquired feature quantity with the feature quantity of each phoneme state of the acoustic model, the feature quantity of the speech signal included in the frames of frame numbers f 1 to f N is obtained by An output probability (second probability) that is a probability that matches the feature amount is acquired for each frame, and is stored in the output probability storage unit 102 as a search index associated with each state of the phoneme. FIG. 4 shows an example of a search index in which the number of phonemes is m and the number of phoneme states is three. The first column in FIG. 4 shows the frame numbers of the frames created by shifting by the shift length S. The probability that the feature quantity for each frame matches the feature quantity in each state of the phoneme is represented by f (x, y, z). x (x = 1 to N) represents a frame number, y (y = 1 to m) represents a phoneme number, and z (z = 1 to 3) represents a state number. f (1, 1, 1) represents the probability that the feature quantity of the speech signal included in the frame of frame number f 1 matches the feature quantity of state 1 of phoneme 1 included in the acoustic model. Feature quantity of the audio signal included in the frame of the frame number f X is, it represents the probability of matching the feature quantity of state z phoneme number y that is included in the acoustic model f (x, y, z).

図2に戻って、ユーザは、音声検索装置100に対して、検索対象の音声信号から目的の音声が発話されている部分を検索するための検索語(クエリ)を音声で入力し、クエリ音声信号取得部111は、入力装置4を介してユーザが入力したクエリ音声信号を音声データとして取得する。   Returning to FIG. 2, the user inputs a search word (query) for searching for a portion where the target voice is uttered from the search target voice signal to the voice search device 100, and the query voice. The signal acquisition unit 111 acquires a query voice signal input by the user via the input device 4 as voice data.

フレーム列作成部112は、クエリ音声信号取得部111が取得したクエリ音声信号をフレーム長ごとの区間に分割したフレーム列を作成する。クエリ音声信号のフレーム列について図6を参照して説明する。図6(a)は、先頭から末尾までの時間長Lのクエリ音声信号の波形図である。時間長Lはクエリ音声信号が発話される時間長(発話時間長)である。縦軸はクエリ音声信号の強度を示し、横軸は時間を示す。図6(b)は、図6(a)に示すクエリ音声信号において設定されるフレームを示す。フレーム列作成部112は、図6(b)に示すように、フレーム長tの区間を1シフト長Sずつシフトして、クエリ音声信号にフレーム番号gからgの区間を設定する。フレーム長tは、検索インデックスを作成した際に用いたフレーム長t(例えば、40ms)と同じにする。シフト長Sも検索インデックス作成時と同じシフト長Sとする。フレーム番号gの区間は、クエリ音声信号の先頭から始まる時間長tの区間である。フレーム番号gの区間は、クエリ音声信号の先頭から1シフト長Sだけシフトした位置から始まる時間長tの区間である。以下同様に、シフト長Sずつシフトしてフレーム番号gまで設定する。 The frame sequence creation unit 112 creates a frame sequence obtained by dividing the query speech signal acquired by the query speech signal acquisition unit 111 into sections for each frame length. The frame sequence of the query audio signal will be described with reference to FIG. FIG. 6A is a waveform diagram of a query voice signal having a time length L from the beginning to the end. The time length L is the time length (speech time length) during which the query voice signal is uttered. The vertical axis indicates the intensity of the query voice signal, and the horizontal axis indicates time. FIG. 6B shows a frame set in the query voice signal shown in FIG. As shown in FIG. 6B, the frame sequence creation unit 112 shifts the section of the frame length t by one shift length S, and sets the sections of the frame numbers g 1 to g k in the query speech signal. The frame length t is the same as the frame length t (for example, 40 ms) used when creating the search index. The shift length S is also set to the same shift length S as when the search index was created. Section of the frame number g 1 is a section of the length of time t starting at the beginning of the query speech signal. Section of frame number g 2 is a section of the length of time t starting from 1 shift length S shifted position from the beginning of the query speech signal. Hereinafter Similarly, shifted by shift length S is set to the frame number g k.

図2に戻って、クエリ特徴量取得部113は、フレーム列作成部112が作成したフレーム列を構成するフレーム(g〜g)ごとにクエリ音声信号の特徴量を取得する。特徴量の取得方法は、検索インデックス作成時と同じである。 Returning to FIG. 2, the query feature quantity acquisition unit 113 acquires the feature quantity of the query speech signal for each frame (g 1 to g k ) constituting the frame sequence created by the frame sequence creation unit 112. The feature quantity acquisition method is the same as that used when creating a search index.

クエリ出力確率取得部114は、クエリ特徴量取得部113が取得した特徴量に基づいて、この特徴量が音響モデルに含まれる音素の各状態の特徴量と一致する確率(第1の確率)をフレーム(g〜g)ごとに取得し、音素の各状態と対応付けてクエリ出力確率記憶部103に記憶する。音素の種類がm種類であり、音素の状態数が3の場合を図7に示す。音素の種類数「m」と状態数「3」は、検索インデックスの作成時と同じ数とする。図7の1列目は、フレーム列作成部112が作成したフレーム列を構成するフレームのフレーム番号を示す。そして、フレーム列を構成するフレーム(g〜g)の特徴量が、音素の各状態の特徴量と一致する確率をg(a,y,z)で表す。a(a=1〜k)はクエリ音声信号のフレーム番号を示し、y(y=1〜m)は音素番号を示し、z(z=1〜3)は状態番号を示す。 Based on the feature quantity acquired by the query feature quantity acquisition unit 113, the query output probability acquisition unit 114 calculates a probability (first probability) that the feature quantity matches the feature quantity of each state of the phoneme included in the acoustic model. It is acquired for each frame (g 1 to g k ) and stored in the query output probability storage unit 103 in association with each phoneme state. FIG. 7 shows a case where the number of phonemes is m and the number of phoneme states is three. The number of phoneme types “m” and the number of states “3” are the same as those at the time of creating the search index. The first column in FIG. 7 shows the frame numbers of the frames constituting the frame sequence created by the frame sequence creation unit 112. Then, the feature quantity of the frame (g 1 ~g k) constituting the frame column represents the probability that matches the characteristic amount of each state of the phoneme in g (a, y, z) . a (a = 1 to k) indicates a frame number of the query voice signal, y (y = 1 to m) indicates a phoneme number, and z (z = 1 to 3) indicates a state number.

クエリ音声信号のフレーム数kは、クエリ音声信号の発話時間長Lとシフト長sを用いて、k=L/sで求めた値の小数点以下を切り捨てた自然数である。   The frame number k of the query voice signal is a natural number obtained by rounding down the decimal point of the value obtained by k = L / s using the utterance time length L and the shift length s of the query voice signal.

図2に戻って、区間指定部115は、音声信号からクエリ音声信号の発話時間長Lの区間を尤度取得区間として複数指定する。尤度取得区間は、その区間からクエリ音声信号が発せられている尤度を取得する区間である。尤度とは、検索対象の音声とクエリ音声信号との類似の度合いを示す指標である。図5を参照して説明する。区間指定部115は、まず、検索対象の音声信号の先頭フレームfから始まるクエリ音声信号の発話時間長Lの区間を第1尤度取得区間として指定する。本実施形態では、クエリ音声信号を構成するフレームのフレーム数をk個としているので、第1フレームfから第kフレームfの区間を第1尤度取得区間として指定する。 Returning to FIG. 2, the section specifying unit 115 specifies a plurality of sections of the utterance time length L of the query voice signal as the likelihood acquisition section from the voice signal. The likelihood acquisition section is a section for acquiring the likelihood that the query voice signal is generated from the section. The likelihood is an index indicating the degree of similarity between the search target voice and the query voice signal. This will be described with reference to FIG. The section specifying unit 115 first specifies a section of the utterance time length L of the query voice signal starting from the first frame f1 of the search target voice signal as the first likelihood acquisition section. In the present embodiment, since the number of frames frames constituting the query speech signal is set to the k, it specifies a section of the k-th frame f k from the first frame f 1 as the first likelihood acquisition sections.

次に、区間指定部115は、音声信号の第2フレームfから第(k+1)フレームfk+1の区間を第2尤度取得区間として指定する。以下同様に、第P尤度取得区間まで指定する。なお、検索対象の音声信号の中で指定可能な尤度取得区間の数Pは、音声信号の時間長Tと尤度取得区間の時間長(クエリ音声信号の発話時間長)Lとシフト長Sとを用いて、P=(T−L+S)/Sで求めた値の小数点以下を切り捨てた自然数である。 Then, the section specifying unit 115 specifies the first (k + 1) frame f k + 1 of the segment as the second likelihood acquisition sections from the second frame f 2 of the audio signal. Similarly, the process is designated up to the P-th likelihood acquisition section. Note that the number P of likelihood acquisition sections that can be specified in the speech signal to be searched is the time length T of the speech signal, the time length of the likelihood acquisition section (utterance time length of the query speech signal) L, and the shift length S. , P = (TL−S) / S is a natural number obtained by rounding down the value after the decimal point.

図2に戻って、第2出力確率取得部116は、クエリ音声信号を構成する各フレームが検索対象の音声信号を構成する各フレームと一致する確率(第3の確率)を取得する。具体的には、クエリ音声信号の各フレームの特徴量が音素の各状態の特徴量と一致する確率(第1の確率)と、検索対象の音声信号の検索インデックスに記憶した確率(第2の確率)とを掛け合わせることにより、クエリ音声信号の各フレーム(g〜g)の特徴量が検索対象の音声信号の各フレーム(f〜f)の特徴量と一致する確率(第3の確率)を求める。 Returning to FIG. 2, the second output probability acquisition unit 116 acquires a probability (third probability) that each frame constituting the query speech signal matches each frame constituting the speech signal to be searched. Specifically, the probability (first probability) that the feature amount of each frame of the query speech signal matches the feature amount of each state of the phoneme, and the probability (second second) stored in the search index of the search target speech signal. (Probability), the feature amount of each frame (g 1 to g k ) of the query speech signal matches the feature amount of each frame (f 1 to f N ) of the speech signal to be searched ( first order ). 3).

図4と図7を参照して具体的に説明する。区間指定部115が、音声信号の先頭フレームfから始まる第1尤度取得区間を指定すると、第2出力確率取得部116は、クエリ音声信号の先頭フレームgと音声信号の先頭フレームfについて音素の各状態の出力確率を掛け合わせることにより、クエリ音声信号の第1フレームgが検索対象の音声信号の第1フレームfと一致する確率を取得する。 This will be specifically described with reference to FIGS. 4 and 7. When the section specifying unit 115 specifies the first likelihood acquisition section starting from the first frame f 1 of the audio signal, the second output probability acquiring unit 116 includes the first frame g 1 of the query audio signal and the first frame f 1 of the audio signal. for by multiplying the output probability of each state of the phoneme to obtain a probability that the first frame g 1 of the query speech signal matches the first frame f 1 of the search target speech signal.

具体的には、第2出力確率取得部116は、クエリ音声信号の第1フレームgと音声信号の第1フレームfが、ともに音素1の状態1である確率P(1,1,1)を式(1)から求める。クエリ音声信号の第1フレームgと音声信号の第1フレームfが、ともに音素2の状態1である確率P(1,2,1)を式(2)から求める。以下同様にして、第2出力確率取得部116は、クエリ音声信号の第1フレームgと音声信号の第1フレームfが、ともに音素mの状態3である確率P(1,m,3)を式(3)から求める。
P(1,1,1)=f(1,1,1)×g(1,1,1) ・・・式(1)
P(1,2,1)=f(1,2,1)×g(1,2,1) ・・・式(2)
P(1,m,3)=f(1,m,3)×g(1,m,3) ・・・式(3)
Specifically, the second output probability acquisition unit 116 has a probability P (1, 1, 1) that the first frame g 1 of the query speech signal and the first frame f 1 of the speech signal are both in the state 1 of the phoneme 1. ) Is obtained from equation (1). The first frame f 1 of the first frame g 1 and the audio signal of the query audio signal, together determine the probability P (1,2,1) is a state 1 phoneme 2 from equation (2). In the same manner, the second output probability obtaining unit 116, a first frame f 1 of the first frame g 1 and the audio signal of the query speech signal, the probability P (1, both the state 3 phoneme m, m, 3 ) Is obtained from equation (3).
P (1,1,1) = f (1,1,1) × g (1,1,1) (1)
P (1,2,1) = f (1,2,1) × g (1,2,1) (2)
P (1, m, 3) = f (1, m, 3) × g (1, m, 3) Expression (3)

このように、第2出力確率取得部116は、クエリ音声信号の第1フレームgについて(m×3)個の確率(第3の確率)を取得する。そして、(m×3)個の確率を掛け合わせることにより、クエリ音声信号の第1フレームgが検索対象の音声信号の第1フレームfと一致する確率である出力確率P(1,1)を式(4)により取得する。 In this manner, the second output probability acquisition unit 116 acquires (m × 3) probabilities (third probabilities) for the first frame g 1 of the query speech signal. Then, by multiplying the (m × 3) probabilities, the output probability P (1, 1), which is the probability that the first frame g 1 of the query voice signal matches the first frame f 1 of the search target voice signal. ) Is obtained by equation (4).

Figure 0006565416
Figure 0006565416

次に、第2出力確率取得部116は、クエリ音声信号の第2フレームgと音声信号の第2フレームfに対応する音素の各状態の出力確率を掛け合わせることにより、クエリ音声信号の第2フレームgが検索対象の音声信号の第2フレームfと一致する確率を取得する。具体的には、第2出力確率取得部116は、クエリ音声信号の第2フレームgについて(m×3)個の出力確率を取得する。そして、(m×3)個の出力確率を掛け合わせることにより、クエリ音声信号の第2フレームgが検索対象の音声信号の第2フレームfと一致する確率である出力確率P(1,2)を式(5)により取得する。 Then, the second output probability obtaining unit 116, by multiplying the output probability of each state of the phoneme corresponding to the second frame f 2 of the second frame g 2 and the audio signal of the query speech signals, query the voice signal the second frame g 2 obtains a probability that match the second frame f 2 of the search target speech signal. Specifically, the second output probability acquisition unit 116 acquires (m × 3) output probabilities for the second frame g 2 of the query speech signal. Then, by multiplying the (m × 3) output probabilities, the output probability P (1, 1, which is the probability that the second frame g 2 of the query speech signal matches the second frame f 2 of the search target speech signal. 2) is obtained by equation (5).

Figure 0006565416
Figure 0006565416

以下同様にして、第2出力確率取得部116は、クエリ音声信号の第kフレームgまでの出力確率P(1,k)を式(6)により取得する。 In the same manner, the second output probability obtaining unit 116 outputs the probability P up to the k frame g k queries audio signal (1, k) is obtained by equation (6).

Figure 0006565416
Figure 0006565416

クエリ音声信号が検索対象の音声信号の先頭フレームfから始まる場合について出力確率の取得が終わると、区間指定部115は、音声信号の第2フレームfから始まる第2尤度取得区間を指定する。第2出力確率取得部116は、クエリ音声信号の先頭フレームgを検索対象の音声信号の第2フレームfに合わせて同様の計算を行う。 The acquisition of the output probability is over the case where the query speech signal starting from the first frame f 1 of the search target of the speech signal, the section specifying unit 115 specifies the second likelihood acquisition sections starting from the second frame f 2 of the audio signal To do. The second output probability obtaining unit 116 performs the same calculation and the combined first frame g 1 of the query speech signal to the second frame f 2 of the search target speech signal.

Figure 0006565416
Figure 0006565416

以下同様にして、第2出力確率取得部116は、第P尤度取得区間までの出力確率を求める。第2出力確率取得部116は、クエリ音声信号の先頭フレームgを検索対象の音声信号の第sフレームfに合わせた場合(第s尤度取得区間)のクエリ音声信号の第jフレームgの出力確率を式(8)にて求める。 Similarly, the second output probability acquisition unit 116 obtains the output probability up to the P-th likelihood acquisition section. The second output probability obtaining unit 116, the j-th frame g of the query speech signal when the combined first frame g 1 of the query speech signal to the s frame f s of the search target voice signal (the s likelihood acquisition sections) The output probability of j is obtained by equation (8).

Figure 0006565416
Figure 0006565416

図2に戻って、置換部117は、第2出力確率取得部116が取得した出力確率のそれぞれを、そのフレームと隣接する前後数フレームの中で最大の出力確率に置換する。この置換処理は、Lower−Bound化と呼ばれる。   Returning to FIG. 2, the replacement unit 117 replaces each of the output probabilities acquired by the second output probability acquisition unit 116 with the maximum output probability in several frames before and after the frame. This replacement process is called Lower-Bound conversion.

具体的に図8を参照して、Lower−Bound化を説明する。図8において、実線はフレーム毎に取得された出力確率を示す。縦軸は出力確率の高さを下になるほど高くなるように示し、横軸は時間を示す。置換部117は、各フレームの出力確率を、そのフレームと、そのフレームの前のN1個のフレームと、そのフレームの後のN2個のフレームの中で最大の出力確率に置き換える。N1とN2は0を含む自然数であるが、N1とN2のいずれかは0ではないものとする。   Specifically, referring to FIG. 8, lower-bound conversion will be described. In FIG. 8, a solid line indicates the output probability acquired for each frame. The vertical axis shows the higher output probability as it goes down, and the horizontal axis shows time. The replacement unit 117 replaces the output probability of each frame with the maximum output probability among the frame, N1 frames before the frame, and N2 frames after the frame. N1 and N2 are natural numbers including 0, but either N1 or N2 is not 0.

クエリ音声信号の先頭フレームgを音声信号の先頭フレームfに合わせた場合で、N1=N2=2として説明する。置換部117は、クエリ音声信号の第1フレームgの出力確率P(1,1)を、その前にフレームが無いので、自身の第1フレームgのP(1,1)とその後の第2フレームgのP(1,2)と第3フレームgのP(1,3)の中で最大の出力確率と置換する。置換部117は、クエリ音声信号の第2フレームgの出力確率P(1,2)を、その前の第1フレームgの(P1,1)と自身の第2フレームgのP(1,2)とその後の第3フレームgのP(1,3)と第4フレームgのP(1,4)の中で最大の出力確率と置換する。置換部117は、クエリ音声信号の第3フレームgの出力確率P(1,3)を、その前の第1フレームgのP(1,1)と第2フレームgのP(1,2)と、自身の第3フレームgのP(1,3)と、その後の第4フレームgのP(1,4)と第5フレームgのP(1,5)の中で最大の出力確率と置換する。このように、置換部117は、第kフレームまで置換処理を行う。置換の結果、図8に実線で示した出力確率は、破線で示したLower−Bound化後の出力確率のように、時間方向において値の変化が小さくなった出力確率に変換される。 If the combined first frame g 1 of the query speech signal to the first frame f 1 of the audio signal is described as N1 = N2 = 2. Since there is no frame before the output probability P (1, 1) of the first frame g 1 of the query voice signal, the replacement unit 117 has its own first frame g 1 P (1, 1) and the subsequent the second frame g 2 of P and (1,2) replacing the largest output probability in the third frame g 3 of P (1, 3). Replacement unit 117, a second frame g 2 of the output probability P of the query speech signal (1, 2), the previous first frame g 1 of the (P1,1) and its second frame g 2 of P ( 1, 2) and replaces the subsequent third frame g 3 of P and (1,3) and the largest output probability in P (l, 4) of the fourth frame g 4. Replacement unit 117, the third frame g 3 of the output probability P a (1,3), the first frame g 1 of the previous P (1, 1) and the second frame g 2 P queries audio signal (1 , 2), a P of the third frame g 3 itself (1,3), in the subsequent fourth frame g 4 of P and (1,4) of the fifth frame g 5 P (1, 5) To replace the maximum output probability. Thus, the replacement unit 117 performs replacement processing up to the kth frame. As a result of the replacement, the output probability indicated by the solid line in FIG. 8 is converted into an output probability having a smaller change in value in the time direction, like the output probability after Lower-Bound shown by the broken line.

図2に戻って、尤度取得部118は、置換部117による置換後の出力確率に基づいて、区間指定部115が指定した尤度取得区間がクエリ音声信号が発せられている区間であることの尤もらしさを示す尤度を取得する。具体的には、尤度取得部118は、置換後の出力確率の対数をとって得られる値を、尤度取得区間の先頭から末尾までの全フレーム、この例ではkフレームにわたって加算することにより、この尤度取得区間の尤度を取得する。すなわち、出力確率が高いフレームを多く含む尤度取得区間ほど、尤度取得部118が取得する尤度は高くなる。   Returning to FIG. 2, the likelihood acquisition unit 118 indicates that the likelihood acquisition section specified by the section specification unit 115 based on the output probability after replacement by the replacement unit 117 is a section in which the query voice signal is being emitted. The likelihood indicating the likelihood of the is acquired. Specifically, the likelihood acquisition unit 118 adds the value obtained by taking the logarithm of the output probability after replacement over all frames from the beginning to the end of the likelihood acquisition interval, in this example, over k frames. Then, the likelihood of this likelihood acquisition section is acquired. That is, the likelihood acquired by the likelihood acquisition unit 118 becomes higher as the likelihood acquisition section includes more frames with higher output probabilities.

繰り返し部119は、区間指定部115が指定する尤度取得区間の音声信号における指定区間を変えて、区間指定部115、第2出力確率取得部116、置換部117、及び尤度取得部118の処理を繰り返すように各部を制御する。1回目の処理では、検索対象の音声信号の第1フレームfから始まる第1尤度取得区間の尤度を求めたので、2回目は、検索対象の音声信号の第2フレームfから始まる第2尤度取得区間の尤度を求める。以後1フレームずつシフトして、第P尤度取得区間までの尤度を求める。 The repeater 119 changes the designated section in the speech signal of the likelihood acquisition section specified by the section specifying section 115 to change the section specifying section 115, the second output probability acquiring section 116, the replacing section 117, and the likelihood acquiring section 118. Control each unit to repeat the process. In the first process, so it called for the likelihood of the first likelihood acquisition sections starting from the first frame f 1 to be searched for audio signals, a second time, starting from the second frame f 2 of the search target speech signal The likelihood of the second likelihood acquisition section is obtained. Thereafter, the frame is shifted frame by frame, and the likelihood up to the P-th likelihood acquisition section is obtained.

特定部120は、尤度取得部118が取得したP個の尤度に基づいて、検索対象の音声信号の中からクエリ音声信号が発せられていると推定される推定区間を特定する。例えば、特定部120は、尤度取得部118が取得した尤度が高い順に尤度取得区間をソートし、尤度が高い順に所定の数の区間を、推定区間として特定する。もしくは、尤度が所定の閾値以上の区間を推定区間として特定する。特定部120が特定した区間の位置情報は、検索結果として、出力装置5が備える画面を介して外部に表示される。   Based on the P likelihoods acquired by the likelihood acquisition unit 118, the specification unit 120 specifies an estimation interval in which it is estimated that the query speech signal is generated from the search target speech signals. For example, the specification unit 120 sorts the likelihood acquisition sections in descending order of the likelihood acquired by the likelihood acquisition unit 118, and specifies a predetermined number of sections as the estimation sections in descending order of likelihood. Alternatively, a section whose likelihood is equal to or greater than a predetermined threshold is specified as an estimated section. The position information of the section specified by the specifying unit 120 is displayed outside as a search result via a screen provided in the output device 5.

以上のような物理的構成及び機能的構成を有する音声検索装置100が実行する音声検索処理を、図9に示すフローチャートを参照して説明する。   The speech search processing executed by the speech search apparatus 100 having the above-described physical configuration and functional configuration will be described with reference to the flowchart shown in FIG.

ユーザは、予め、音響モデルを音響モデル記憶部101に記憶しておく。また、検索対象の音声信号から図4に示す第2の確率を示す検索インデックスを作成し、出力確率記憶部102に記憶しておく。また、ユーザは、検索語(クエリ)を入力装置4から音声信号として入力する。ここでは、検索対象のクエリは、「キゾクセイド」とする。   The user stores the acoustic model in the acoustic model storage unit 101 in advance. Further, a search index indicating the second probability shown in FIG. 4 is created from the audio signal to be searched, and stored in the output probability storage unit 102. Further, the user inputs a search word (query) from the input device 4 as an audio signal. Here, it is assumed that the query to be searched is “xoxadedo”.

CPU6が、ROM1から音声検索プログラムを読み出して、音声検索プログラムを実行することにより、図9に示すフローチャートは開始する。ユーザが、検索対象のクエリ音声信号を入力装置4から入力するとクエリ音声信号取得部111はクエリ音声信号を音声データとして取得する。そして、フレーム列作成部112は、取得したクエリ音声信号をフレームごとに分割したフレーム列を作成する(ステップS10)。クエリ特徴量取得部113は、クエリ音声信号のフレーム列を構成するフレームごとに特徴量を取得する(ステップS11)。   The CPU 6 reads out the voice search program from the ROM 1 and executes the voice search program, whereby the flowchart shown in FIG. 9 starts. When the user inputs a query voice signal to be searched from the input device 4, the query voice signal acquisition unit 111 acquires the query voice signal as voice data. Then, the frame sequence creation unit 112 creates a frame sequence obtained by dividing the acquired query audio signal for each frame (step S10). The query feature quantity acquisition unit 113 acquires a feature quantity for each frame constituting the frame sequence of the query audio signal (step S11).

次に、クエリ出力確率取得部114は、クエリ音声信号のフレームごとに取得した特徴量が音響モデルの音素の各状態の特徴量と一致する確率(第1の確率)を取得し(ステップS12)、図7に示すように、取得した出力確率を音素の各状態と対応付けてクエリ出力確率記憶部103に記憶する。   Next, the query output probability acquisition unit 114 acquires the probability (first probability) that the feature amount acquired for each frame of the query speech signal matches the feature amount in each state of the phoneme of the acoustic model (step S12). 7, the acquired output probability is stored in the query output probability storage unit 103 in association with each phoneme state.

クエリ音声信号の出力確率(第1の確率)の取得が終わると、区間指定部115は、クエリ音声信号が検索対象の音声信号と一致する確率(第3の確率)を取得する尤度取得区間を複数設定し、尤度取得部118は、それぞれの尤度取得区間からクエリ音声信号が発せられている尤度を取得する。   When acquisition of the output probability (first probability) of the query voice signal is completed, the section specifying unit 115 acquires a probability (third probability) that the query voice signal matches the search target voice signal (third probability). Are set, and the likelihood acquisition unit 118 acquires the likelihood that the query voice signal is generated from each likelihood acquisition section.

そのために、区間指定部115は、まず、検索インデックスの先頭フレームfから始まる第1尤度取得区間を指定する(ステップS13)。そして、第2出力確率取得部116は、式(4)によりクエリ音声信号の第1フレームgが検索対象の音声信号の第1フレームfと一致する確率(第3の確率)を求める。同様にして、第2出力確率取得部116は、クエリ音声信号の第kフレームgまでの出力確率(第3の確率)を式(6)により求める(ステップS14)。 Therefore, the section specifying unit 115, first, designating the first likelihood acquisition sections starting from the first frame f 1 search index (Step S13). Then, the second output probability acquisition unit 116 obtains the probability (third probability) that the first frame g 1 of the query speech signal matches the first frame f 1 of the speech signal to be searched using Equation (4). Similarly, the second output probability obtaining unit 116, the output probability up to the k frame g k queries audio signal (third probability) is obtained by equation (6) (step S14).

第2出力確率取得部116が出力確率を取得すると、置換部117は、フレーム毎に取得した出力確率を、そのフレームとそのフレーム前のN1個のフレームとそのフレーム後のN2個のフレームの、合計(1+N1+N2)個のフレームの中で最大の出力確率に置き換えることにより、Lower−Bound化処理を実行する(ステップS15)。   When the second output probability acquisition unit 116 acquires the output probability, the replacement unit 117 calculates the output probability acquired for each frame of the frame, N1 frames before the frame, and N2 frames after the frame. By replacing it with the maximum output probability in the total (1 + N1 + N2) frames, Lower-Bound processing is executed (step S15).

尤度取得部118は、Lower−Bound化後の出力確率をフレームごとに対数をとって加算することにより、区間指定部115が指定した尤度取得区間の尤度を取得する(ステップS16)。尤度取得部118が尤度を取得すると、繰り返し部119は、検索対象の音声信号における全区間の尤度取得が終了したか否かを判別する(ステップS17)。   The likelihood obtaining unit 118 obtains the likelihood of the likelihood obtaining section designated by the section designating unit 115 by adding the output probabilities after Lower-Bound to each frame by taking a logarithm (step S16). When the likelihood acquisition unit 118 acquires the likelihood, the repetition unit 119 determines whether or not the likelihood acquisition of all the sections in the search target audio signal has been completed (step S17).

全区間の尤度取得が終了していない場合(ステップS17;No)、繰り返し部119は、検索インデックスの位置を1フレーム進めた次の尤度取得区間を指定する(ステップS18)。そして、区間指定部115が新たに指定した尤度取得区間に対して上述したステップS14〜S16の処理を繰り返す。   When the likelihood acquisition of all the sections has not been completed (step S17; No), the repetition unit 119 designates the next likelihood acquisition section in which the position of the search index is advanced by one frame (step S18). And the process of step S14-S16 mentioned above with respect to the likelihood acquisition area newly designated by the area designation | designated part 115 is repeated.

区間指定部115が第s尤度取得区間を指定すると、第2出力確率取得部116は、第s尤度取得区間に含まれるk個のフレームのそれぞれについて、式(8)により出力確率を求める(ステップS14)。そして、求めたフレーム毎の出力確率をLower−Bound化処理を実行する(ステップS15)。尤度取得部118は、Lower−Bound化後の出力確率をフレームごとに対数をとって加算することにより、区間指定部115が指定した尤度取得区間の尤度を取得する(ステップS16)。   When the section specifying unit 115 specifies the s-th likelihood acquisition section, the second output probability acquisition unit 116 obtains an output probability for each of the k frames included in the s-likelihood acquisition section by Expression (8). (Step S14). Then, a lower-bound process is performed on the obtained output probability for each frame (step S15). The likelihood obtaining unit 118 obtains the likelihood of the likelihood obtaining section designated by the section designating unit 115 by adding the output probabilities after Lower-Bound to each frame by taking a logarithm (step S16).

このように、繰り返し部119は、第P尤度取得区間までの尤度を順次取得するように、区間指定部115、第2出力確率取得部116、置換部117、尤度取得部118を制御する。   As described above, the repetition unit 119 controls the section specifying unit 115, the second output probability acquisition unit 116, the replacement unit 117, and the likelihood acquisition unit 118 so as to sequentially acquire the likelihoods up to the Pth likelihood acquisition section. To do.

最終的に、全区間の尤度取得が終了すると(ステップS17;YES)、音声検索装置100は、取得した尤度に基づいてクエリ音声信号に対応する区間を特定する処理(ステップS19)に移行する。特定部120は、例えば、尤度取得区間ごとに取得したP個の尤度を尤度が高い順にソートし、尤度が閾値以上である区間を検索結果の区間として特定する。特定部120がクエリ音声信号に対応する区間を特定すると、特定部120は、出力装置5を介して特定結果を出力する(ステップS20)。以上により、音声検索装置100が実行する音声検索処理は終了する。   Finally, when the likelihood acquisition of all the sections is completed (step S17; YES), the speech search apparatus 100 proceeds to a process of specifying a section corresponding to the query speech signal based on the acquired likelihood (step S19). To do. For example, the specifying unit 120 sorts P likelihoods acquired for each likelihood acquisition section in descending order of likelihood, and specifies a section having the likelihood equal to or higher than a threshold as a search result section. When the specifying unit 120 specifies a section corresponding to the query voice signal, the specifying unit 120 outputs a specifying result via the output device 5 (step S20). Thus, the voice search process executed by the voice search device 100 ends.

以上で説明したように、実施形態1に係る音声検索装置100は、検索対象の音声信号とクエリ音声信号の特徴量を音響モデルの特徴量と一致する確率に置き換えて比較する。これにより、それぞれの人に固有な音響的特徴による影響を低減できる。したがって、クエリ入力者の音声が検索対象音声に一部含まれている場合であっても、それぞれの人に固有な音響的特徴に起因する誤検索を低減し、検索精度を高めることが出来る。   As described above, the speech search apparatus 100 according to the first embodiment compares and compares the feature quantities of the search target speech signal and the query speech signal with the probability of matching the feature quantity of the acoustic model. Thereby, the influence by the acoustic characteristic peculiar to each person can be reduced. Therefore, even when the query input user's voice is partly included in the search target voice, it is possible to reduce the erroneous search due to the acoustic features unique to each person and increase the search accuracy.

なお、以上の実施形態の説明では、音響モデルとしてモノフォンモデルを使用して音声検索する場合について説明した。しかし、本発明の用途はこれには限定されない。例えば、バイフォンモデルやトライフォンモデルを使用して音声検索する場合にも適用できる。   In the above description of the embodiment, the case where a voice search is performed using a monophone model as an acoustic model has been described. However, the application of the present invention is not limited to this. For example, the present invention can be applied to a case where a voice search is performed using a biphone model or a triphone model.

また、以上の実施形態では、モノフォンモデルを用いた一次検索に本発明を適用した場合について説明したが、実施形態1のステップS20の後で、トライフォンモデルを用いた二次検索を行い、さらに検索精度を向上させてもよい。   Moreover, although the above embodiment demonstrated the case where this invention was applied to the primary search using a monophone model, the secondary search using a triphone model is performed after step S20 of Embodiment 1, Further, the search accuracy may be improved.

また、実施形態1の説明では、区間指定部115が1シフト長ずつ尤度取得区間の先頭位置をシフトさせ、シフトさせる毎に第3の確率を求め、Lower−Bound化処理(置換処理)を行い、尤度を取得する処理をP回繰り返す説明をした。しかし、区間指定部115が、最初に第1尤度取得区間から第P尤度取得区間を指定した後で、第3の確率の取得、Lower−Bound化処理、尤度取得処理を行うようにしてもよい。   In the description of the first embodiment, the section specifying unit 115 shifts the start position of the likelihood acquisition section by one shift length, and obtains the third probability each time the shift is performed, and performs the Lower-Bound process (replacement process). The process of performing and obtaining likelihood was described P times. However, after the section specifying unit 115 first specifies the P-th likelihood acquisition section from the first likelihood acquisition section, the third probability acquisition, the lower-bound process, and the likelihood acquisition process are performed. May be.

また、本実施形態では、各フレームの出力確率の対数をとって加算する処理を行う説明をしたが、各フレームの出力確率をかけ算する処理であるので、対数をとらずにそのまま出力確率のかけ算をしてもよいし、対数の代わりに近似式を用いてもよい。   In this embodiment, the process of taking the logarithm of the output probability of each frame and adding it has been described. However, since it is a process of multiplying the output probability of each frame, the output probability is directly multiplied without taking the logarithm. Or an approximate expression may be used instead of the logarithm.

また、本発明に係る機能を実現するための構成を予め備えた音声検索装置として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る音声検索装置として機能させることもできる。すなわち、上記実施形態で例示した音声検索装置100による各機能構成を実現させるためのプログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するCPU等が実行できるように適用することで、本発明に係る音声検索装置100として機能させることができる。また、本発明に係る音声検索方法は、音声検索装置を用いて実施できる。   In addition to being able to provide a voice search device having a configuration for realizing the functions according to the present invention in advance, by applying a program, an existing personal computer, an information terminal device, or the like can be used as the voice search device according to the present invention. It can also function. That is, by applying the program for realizing each functional configuration by the voice search device 100 exemplified in the above embodiment so that a CPU or the like for controlling an existing personal computer, an information terminal device, or the like can be executed. It can be made to function as the voice search device 100 according to the above. The voice search method according to the present invention can be implemented using a voice search device.

また、このようなプログラムの適用方法は任意である。プログラムを、例えば、コンピュータが読取可能な記録媒体(CD−ROM(Compact Disc Read-Only Memory)、DVD(Digital Versatile Disc)、MO(Magneto Optical disc)等)に格納して適用できる他、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより適用することもできる。   Moreover, the application method of such a program is arbitrary. For example, the program can be stored and applied to a computer-readable recording medium (CD-ROM (Compact Disc Read-Only Memory), DVD (Digital Versatile Disc), MO (Magneto Optical disc), etc.), the Internet, etc. It is also possible to apply the program by storing it in a storage on the network and downloading it.

以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。   The preferred embodiments of the present invention have been described above. However, the present invention is not limited to the specific embodiments, and the present invention includes the invention described in the claims and the equivalent scope thereof. included. Hereinafter, the invention described in the scope of claims of the present application will be appended.

(付記1)
検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶手段と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶手段が記憶する第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。
(Appendix 1)
For each frame included in the search target speech signal, a second probability, which is a probability that the feature amount of the search target speech signal matches the feature amount of each state of the phoneme created from the acoustic model, is determined as a phoneme of the acoustic model. Output probability storage means for storing in association with each state of
Acquired for each frame included in the query speech signal, the probability that the feature amount of the query speech signal matches the feature amount of each state of the phoneme created from the acoustic model, and each state of the phoneme of the acoustic model Estimation that the query speech signal is estimated to be generated from among the speech signals to be searched based on the associated first probability and the second probability stored in the output probability storage means An identification means for identifying the section;
A voice search device comprising:

(付記2)
検索対象の音声信号とクエリ音声信号とを比較する区間であるフレーム毎に、クエリ音声信号の特徴量を取得するクエリ特徴量取得手段と、
前記クエリ特徴量取得手段が取得したクエリ音声信号の特徴量に基づき、前記第1の確率を、音響モデルの音素の各状態と対応付けてフレーム毎に取得するクエリ出力確率取得手段と、
をさらに備えることを特徴とする付記1に記載の音声検索装置。
(Appendix 2)
Query feature value acquisition means for acquiring the feature value of the query sound signal for each frame that is a section for comparing the search target sound signal and the query sound signal;
Query output probability acquisition means for acquiring the first probability for each frame in association with each state of the phoneme of the acoustic model based on the feature quantity of the query speech signal acquired by the query feature value acquisition means;
The speech search device according to appendix 1, further comprising:

(付記3)
前記検索対象の音声信号におけるクエリ音声信号の発話時間長を有する区間である尤度取得区間を複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記クエリ音声信号が発せられている区間であることの尤もらしさを示す尤度を、前記第1の確率と前記第2の確率とに基づいて取得する尤度取得手段と、
をさらに備え、
前記区間指定手段は、前記検索対象の音声信号における前記尤度取得区間の先頭位置を変えて複数の尤度取得区間を指定し、
前記尤度取得手段は、前記複数の尤度取得区間のそれぞれについて尤度を取得し、
前記特定手段は、前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する、
ことを特徴とする付記1又は2に記載の音声検索装置。
(Appendix 3)
Section specifying means for specifying a plurality of likelihood acquisition sections that are sections having a speech duration of a query voice signal in the search target voice signal;
Based on the first probability and the second probability, the likelihood indicating that the likelihood acquisition section specified by the section specifying means is a section in which the query voice signal is generated is acquired. Likelihood acquisition means to perform,
Further comprising
The section designating unit designates a plurality of likelihood acquisition sections by changing a head position of the likelihood acquisition section in the search target audio signal,
The likelihood acquisition means acquires likelihood for each of the plurality of likelihood acquisition sections,
The specifying means generates the query voice signal from the search target voice signal based on the likelihood acquired by the likelihood acquisition means for each of the likelihood acquisition sections specified by the section specifying means. Identify the estimated interval that is estimated to be,
The speech search device according to Supplementary Note 1 or 2, characterized in that:

(付記4)
前記複数の尤度取得区間のそれぞれについて、前記第1の確率と前記第2の確率とを前記尤度取得区間に含まれるフレーム毎に掛け合わせた第3の確率を取得する第2出力確率取得手段をさらに設け、
前記尤度取得手段は、前記第2出力確率取得手段がフレーム毎に取得した第3の確率の対数をとった値を加算して前記尤度取得区間の尤度を取得する、
ことを特徴とする付記3に記載の音声検索装置。
(Appendix 4)
For each of the plurality of likelihood acquisition sections, second output probability acquisition that acquires a third probability obtained by multiplying the first probability and the second probability for each frame included in the likelihood acquisition section Further providing means,
The likelihood acquisition means adds the value obtained by taking the logarithm of the third probability acquired for each frame by the second output probability acquisition means to acquire the likelihood of the likelihood acquisition section.
The speech search device according to Supplementary Note 3, wherein

(付記5)
前記第2出力確率取得手段がフレーム毎に取得した第3の確率のそれぞれを、そのフレームとそのフレームの前のN1個のフレームとそのフレームの後のN2個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記N1と前記N2は0を含む自然数であって、前記N1と前記N2のいずれかは0ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した前記尤度取得区間の尤度を取得する、
ことを特徴とする付記4に記載の音声検索装置。
(Appendix 5)
Each of the third probabilities acquired by the second output probability acquisition means for each frame is determined as the maximum output probability among the frame, N1 frames before the frame, and N2 frames after the frame. Further comprising a replacement means for replacing
N1 and N2 are natural numbers including 0, and either N1 or N2 is not 0,
The likelihood acquisition means acquires the likelihood of the likelihood acquisition section specified by the section specification means based on the output probability after replacement by the replacement means.
The voice search device according to supplementary note 4, wherein:

(付記6)
検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶工程と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶工程において記憶した第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定工程と、
を含む音声検索方法。
(Appendix 6)
For each frame included in the search target speech signal, a second probability, which is a probability that the feature amount of the search target speech signal matches the feature amount of each state of the phoneme created from the acoustic model, is determined as a phoneme of the acoustic model. Output probability storage step of storing in association with each of the states,
Acquired for each frame included in the query speech signal, the probability that the feature amount of the query speech signal matches the feature amount of each state of the phoneme created from the acoustic model, and each state of the phoneme of the acoustic model Estimation that the query speech signal is estimated to be generated from the search target speech signal based on the associated first probability and the second probability stored in the output probability storage step A specific process for identifying a section;
Voice search method including

(付記7)
コンピュータを、
検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶手段、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶手段が記憶する第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
(Appendix 7)
Computer
For each frame included in the search target speech signal, a second probability, which is a probability that the feature amount of the search target speech signal matches the feature amount of each state of the phoneme created from the acoustic model, is determined as a phoneme of the acoustic model. Output probability storage means for storing in association with each state of
Acquired for each frame included in the query speech signal, the probability that the feature amount of the query speech signal matches the feature amount of each state of the phoneme created from the acoustic model, and each state of the phoneme of the acoustic model Estimation that the query speech signal is estimated to be generated from among the speech signals to be searched based on the associated first probability and the second probability stored in the output probability storage means Identification means for identifying the section,
Program to function as.

1…ROM、2…RAM、3…外部記憶装置、4…入力装置、5…出力装置、6…CPU、7…バス、100…音声検索装置、101…音響モデル記憶部、102…出力確率記憶部、103…クエリ出力確率記憶部、111…クエリ音声信号取得部、112…フレーム列作成部、113…クエリ特徴量取得部、114…クエリ出力確率取得部、115…区間指定部、116…第2出力確率取得部、117…置換部、118…尤度取得部、119…繰り返し部、120…特定部 DESCRIPTION OF SYMBOLS 1 ... ROM, 2 ... RAM, 3 ... External storage device, 4 ... Input device, 5 ... Output device, 6 ... CPU, 7 ... Bus, 100 ... Voice search device, 101 ... Acoustic model memory | storage part, 102 ... Output probability memory | storage 103: Query output probability storage unit, 111 ... Query voice signal acquisition unit, 112 ... Frame sequence creation unit, 113 ... Query feature amount acquisition unit, 114 ... Query output probability acquisition unit, 115 ... Section designation unit, 116 ... No. 2-output probability acquisition unit, 117 ... replacement unit, 118 ... likelihood acquisition unit, 119 ... repetition unit, 120 ... identification unit

Claims (7)

検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶手段と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶手段が記憶する第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。
For each frame included in the search target speech signal, a second probability, which is a probability that the feature amount of the search target speech signal matches the feature amount of each state of the phoneme created from the acoustic model, is determined as a phoneme of the acoustic model. Output probability storage means for storing in association with each state of
Acquired for each frame included in the query speech signal, the probability that the feature amount of the query speech signal matches the feature amount of each state of the phoneme created from the acoustic model, and each state of the phoneme of the acoustic model Estimation that the query speech signal is estimated to be generated from among the speech signals to be searched based on the associated first probability and the second probability stored in the output probability storage means An identification means for identifying the section;
A voice search device comprising:
検索対象の音声信号とクエリ音声信号とを比較する区間であるフレーム毎に、クエリ音声信号の特徴量を取得するクエリ特徴量取得手段と、
前記クエリ特徴量取得手段が取得したクエリ音声信号の特徴量に基づき、前記第1の確率を、音響モデルの音素の各状態と対応付けてフレーム毎に取得するクエリ出力確率取得手段と、
をさらに備えることを特徴とする請求項1に記載の音声検索装置。
Query feature value acquisition means for acquiring the feature value of the query sound signal for each frame that is a section for comparing the search target sound signal and the query sound signal;
Query output probability acquisition means for acquiring the first probability for each frame in association with each state of the phoneme of the acoustic model based on the feature quantity of the query speech signal acquired by the query feature value acquisition means;
The voice search device according to claim 1, further comprising:
前記検索対象の音声信号におけるクエリ音声信号の発話時間長を有する区間である尤度取得区間を複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記クエリ音声信号が発せられている区間であることの尤もらしさを示す尤度を、前記第1の確率と前記第2の確率とに基づいて取得する尤度取得手段と、
をさらに備え、
前記区間指定手段は、前記検索対象の音声信号における前記尤度取得区間の先頭位置を変えて複数の尤度取得区間を指定し、
前記尤度取得手段は、前記複数の尤度取得区間のそれぞれについて尤度を取得し、
前記特定手段は、前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する、
ことを特徴とする請求項1又は2に記載の音声検索装置。
Section specifying means for specifying a plurality of likelihood acquisition sections that are sections having a speech duration of a query voice signal in the search target voice signal;
Based on the first probability and the second probability, the likelihood indicating that the likelihood acquisition section specified by the section specifying means is a section in which the query voice signal is generated is acquired. Likelihood acquisition means to perform,
Further comprising
The section designating unit designates a plurality of likelihood acquisition sections by changing a head position of the likelihood acquisition section in the search target audio signal,
The likelihood acquisition means acquires likelihood for each of the plurality of likelihood acquisition sections,
The specifying means generates the query voice signal from the search target voice signal based on the likelihood acquired by the likelihood acquisition means for each of the likelihood acquisition sections specified by the section specifying means. Identify the estimated interval that is estimated to be,
The speech search apparatus according to claim 1 or 2, wherein
前記複数の尤度取得区間のそれぞれについて、前記第1の確率と前記第2の確率とを前記尤度取得区間に含まれるフレーム毎に掛け合わせた第3の確率を取得する第2出力確率取得手段をさらに設け、
前記尤度取得手段は、前記第2出力確率取得手段がフレーム毎に取得した第3の確率の対数をとった値を加算して前記尤度取得区間の尤度を取得する、
ことを特徴とする請求項3に記載の音声検索装置。
For each of the plurality of likelihood acquisition sections, second output probability acquisition that acquires a third probability obtained by multiplying the first probability and the second probability for each frame included in the likelihood acquisition section Further providing means,
The likelihood acquisition means adds the value obtained by taking the logarithm of the third probability acquired for each frame by the second output probability acquisition means to acquire the likelihood of the likelihood acquisition section.
The voice search apparatus according to claim 3.
前記第2出力確率取得手段がフレーム毎に取得した第3の確率のそれぞれを、そのフレームとそのフレームの前のN1個のフレームとそのフレームの後のN2個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記N1と前記N2は0を含む自然数であって、前記N1と前記N2のいずれかは0ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した前記尤度取得区間の尤度を取得する、
ことを特徴とする請求項4に記載の音声検索装置。
Each of the third probabilities acquired by the second output probability acquisition means for each frame is determined as the maximum output probability among the frame, N1 frames before the frame, and N2 frames after the frame. Further comprising a replacement means for replacing
N1 and N2 are natural numbers including 0, and either N1 or N2 is not 0,
The likelihood acquisition means acquires the likelihood of the likelihood acquisition section specified by the section specification means based on the output probability after replacement by the replacement means.
The voice search device according to claim 4.
検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶工程と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶工程において記憶した第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定工程と、
を含む音声検索方法。
For each frame included in the search target speech signal, a second probability, which is a probability that the feature amount of the search target speech signal matches the feature amount of each state of the phoneme created from the acoustic model, is determined as a phoneme of the acoustic model. Output probability storage step of storing in association with each of the states,
Acquired for each frame included in the query speech signal, the probability that the feature amount of the query speech signal matches the feature amount of each state of the phoneme created from the acoustic model, and each state of the phoneme of the acoustic model Estimation that the query speech signal is estimated to be generated from the search target speech signal based on the associated first probability and the second probability stored in the output probability storage step A specific process for identifying a section;
Voice search method including
コンピュータを、
検索対象の音声信号に含まれるフレーム毎に、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態の特徴量と一致する確率である第2の確率を、音響モデルの音素の各状態と対応付けて記憶する出力確率記憶手段、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルから作成した音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第1の確率と、前記出力確率記憶手段が記憶する第2の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
Computer
For each frame included in the search target speech signal, a second probability, which is a probability that the feature amount of the search target speech signal matches the feature amount of each state of the phoneme created from the acoustic model, is determined as a phoneme of the acoustic model. Output probability storage means for storing in association with each state of
Acquired for each frame included in the query speech signal, the probability that the feature amount of the query speech signal matches the feature amount of each state of the phoneme created from the acoustic model, and each state of the phoneme of the acoustic model Estimation that the query speech signal is estimated to be generated from among the speech signals to be searched based on the associated first probability and the second probability stored in the output probability storage means Identification means for identifying the section,
Program to function as.
JP2015144687A 2015-07-22 2015-07-22 Voice search device, voice search method and program Active JP6565416B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015144687A JP6565416B2 (en) 2015-07-22 2015-07-22 Voice search device, voice search method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015144687A JP6565416B2 (en) 2015-07-22 2015-07-22 Voice search device, voice search method and program

Publications (2)

Publication Number Publication Date
JP2017026792A JP2017026792A (en) 2017-02-02
JP6565416B2 true JP6565416B2 (en) 2019-08-28

Family

ID=57949692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015144687A Active JP6565416B2 (en) 2015-07-22 2015-07-22 Voice search device, voice search method and program

Country Status (1)

Country Link
JP (1) JP6565416B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11276390B2 (en) * 2018-03-22 2022-03-15 Casio Computer Co., Ltd. Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme

Also Published As

Publication number Publication date
JP2017026792A (en) 2017-02-02

Similar Documents

Publication Publication Date Title
CN109065031B (en) Voice labeling method, device and equipment
JP6003972B2 (en) Voice search device, voice search method and program
JP6011565B2 (en) Voice search device, voice search method and program
JP2023041843A (en) Voice section detection apparatus, voice section detection method, and program
JP6003971B2 (en) Voice search device, voice search method and program
US9437187B2 (en) Voice search device, voice search method, and non-transitory recording medium
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
CN108630200B (en) Voice keyword detection device and voice keyword detection method
JP6235280B2 (en) Simultaneous audio processing apparatus, method and program
JP6690484B2 (en) Computer program for voice recognition, voice recognition device and voice recognition method
CN112580340A (en) Word-by-word lyric generating method and device, storage medium and electronic equipment
JP6027754B2 (en) Adaptation device, speech recognition device, and program thereof
JP6565416B2 (en) Voice search device, voice search method and program
JP6604013B2 (en) Speech recognition apparatus, speech recognition method and program
JP6680008B2 (en) Search index generation device, search index generation method, voice search device, voice search method and program
JP6680009B2 (en) Search index generation device, search index generation method, voice search device, voice search method and program
JP2017015847A (en) Voice search device, voice search method, and program
JP4631251B2 (en) Media search device and media search program
JP5369079B2 (en) Acoustic model creation method and apparatus and program thereof
JP2010145784A (en) Voice recognizing device, acoustic model learning apparatus, voice recognizing method, and program
JP2017211513A (en) Speech recognition device, method therefor, and program
CN116343744A (en) Interaction method and device, electronic equipment and storage medium
CN113112996A (en) System and method for speech-based audio and text alignment
JP2009210942A (en) Voice reproduction system, voice reproduction method, and program
JP2013206116A (en) Voice data search device, voice data search method and voice data search program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190715

R150 Certificate of patent or registration of utility model

Ref document number: 6565416

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150