JP2015040864A - Symbol string conversion method, speech recognition method, device therefor, and program - Google Patents
Symbol string conversion method, speech recognition method, device therefor, and program Download PDFInfo
- Publication number
- JP2015040864A JP2015040864A JP2013170114A JP2013170114A JP2015040864A JP 2015040864 A JP2015040864 A JP 2015040864A JP 2013170114 A JP2013170114 A JP 2013170114A JP 2013170114 A JP2013170114 A JP 2013170114A JP 2015040864 A JP2015040864 A JP 2015040864A
- Authority
- JP
- Japan
- Prior art keywords
- symbol string
- hypothesis
- state
- probability
- symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、記号列を変換するための記号列変換規則を表す重み付き有限状態変換器(Weighted Finite-State Transducer、以下「WFST」ともいう)を参照しながら、ある入力記号列が与えられたときに、そのWFSTの様々な状態遷移過程の中から、累積重みが最小または最大となる状態遷移過程を探索し、その状態遷移過程の出力記号列を変換結果として出力する記号列変換技術、並びに、入力記号列が音声信号を表す特徴量ベクトルの系列であり、出力記号列が単語列であるような音声認識技術に関する。 The present invention is given a certain input symbol sequence while referring to a weighted finite state transducer (hereinafter also referred to as “WFST”) representing a symbol sequence conversion rule for converting a symbol sequence. Sometimes, a symbol string conversion technique for searching a state transition process having a minimum or maximum cumulative weight from various state transition processes of the WFST and outputting an output symbol string of the state transition process as a conversion result, and The present invention relates to a speech recognition technique in which an input symbol string is a series of feature vectors representing a speech signal and an output symbol string is a word string.
WFSTとは、ある記号列を別の記号列に変換するための規則を、状態と状態遷移の図に表現する方式を言う。 WFST is a method of expressing rules for converting a symbol string into another symbol string in a state and state transition diagram.
従来、音声認識において、入力音声の音響パターンを表す記号列(特徴量ベクトルの系列)を入力とし、その音響パターンに対応する単語列を出力とするWFSTに、バックオフNグラムモデルで表される言語モデルのWFSTを合成して、記号列変換を行うことで、音響的にも言語的にも妥当な単語列(音声認識結果)を求める方法が知られている(非特許文献1及び特許文献1参照)。
Conventionally, in speech recognition, a symbol string (sequence of feature vectors) representing an acoustic pattern of input speech is input, and a WFST that outputs a word string corresponding to the acoustic pattern is represented by a back-off N-gram model. A method for obtaining a word string (speech recognition result) that is acoustically and linguistically appropriate by synthesizing a WFST of a language model and performing symbol string conversion is known (Non-patent
なお、言語モデルとしてのNグラムモデルとは、単語の連接のしやすさをN−1重のマルコフ過程で表すモデルであり、登録単語数を|V|とすると|V|N個の確率値を持つ。WFSTで表せば|V|N個の状態遷移が必要となる。そのようなWFSTは非現実的であるため、WFSTによる音声認識においてはバックオフNグラムモデルを用いる。バックオフNグラムモデルとは、Nグラムモデルの一種であって、Nグラム確率が学習データの不足等により精度よく推定できない場合に、より精度よく推定されたN-1グラム確率等を用いるモデルである。例えば、Nグラム確率が0になってしまう場合はN-1グラム確率、N-1グラム確率が0になってしまう場合はN-2グラム確率、というようにバックオフ(後退)する。 The N-gram model as a language model is a model that expresses the ease of word concatenation by an N-1 Markov process. If | V | is the number of registered words, | V | N probability values have. If expressed in WFST, | V | N state transitions are required. Since such WFST is unrealistic, backoff N-gram model is used in speech recognition by WFST. The back-off N-gram model is a type of N-gram model that uses the N-1 gram probability estimated more accurately when the N-gram probability cannot be estimated accurately due to lack of learning data, etc. is there. For example, when the N-gram probability becomes 0, the N-1 gram probability is returned, and when the N-1 gram probability becomes 0, the N-2 gram probability is backed off (retreated).
非特許文献1や特許文献1では、WFSTによる記号列変換にバックオフNグラムを用いる場合は、バックオフNグラムモデルを予めWFSTに変換しておく必要がある。そして、そのWFSTを用いて、任意の入力記号列を効率的に変換する。しかし、バックオフNグラムモデルに何らかの修正を施すと、その都度、WFSTに変換し直す必要がある。そのため、バックオフNグラムモデルを予めWFSTに変換するために一定の処理時間が発生する。例えば、音声認識において、特定の話題の単語がよく認識できるように言語モデルのNグラム確率を調整する場合がある。この場合、調整が一部の確率の修正であっても、音声認識を実行する前にその言語モデル全体をWFSTに変換し直さなければならない。これは、音声認識などを実際に利用する際に、即時性を損なう結果となる。
In
また、言語モデルの確率値を動的に変更したい場合がある。例えば、音声認識を利用する際に、ある特定の話題に関連した単語が話されやすいことが分かった時点で、即座にその情報を音声認識システムに反映したい場合である。 In some cases, the probability value of the language model may be dynamically changed. For example, when using speech recognition, when it is found that a word related to a specific topic is likely to be spoken, the information is immediately reflected in the speech recognition system.
このような動的な言語モデルを用いる場合、確率値が変更されるたびにWFSTの重みに反映する計算コストは大きい。また、WFSTの重みに反映する場合は変更された確率だけでなく、バックオフ係数も改めて計算し直す必要がある。音声認識では、数百万から数千万のNグラム確率を持つ言語モデルを利用するため、この計算は非常に大きく、言語モデルを動的に更新しても、すぐには音声認識を始められないという問題がある。 When such a dynamic language model is used, the calculation cost reflected in the weight of WFST is large every time the probability value is changed. In addition, when reflecting in the weight of WFST, it is necessary to recalculate not only the changed probability but also the back-off coefficient. Since speech recognition uses language models with millions to tens of millions of N-gram probabilities, this calculation is very large, and even if the language model is updated dynamically, speech recognition can be started immediately. There is no problem.
そして、NグラムモデルおよびバックオフNグラムモデルを瞬時にWFSTに変換して記号列変換に利用する方法は知られていない。 A method for instantaneously converting the N-gram model and the back-off N-gram model to WFST and using it for symbol string conversion is not known.
本発明は、NグラムモデルおよびバックオフNグラムモデルを従来技術よりも早くWFSTに変換して記号列変換に利用する方法を提供することを目的とする。 An object of the present invention is to provide a method of converting an N-gram model and a back-off N-gram model into WFST earlier than the prior art and using it for symbol string conversion.
上記の課題を解決するために、本発明の第一の態様によれば、記号列変換方法入力記号列を出力記号列に変換する。記号列変換方法は、入力記号列の先頭から順に1つずつ記号を取得する記号列取得ステップと、記号列取得ステップで取得した記号と現在の仮説の集合の各仮説が到達している状態を特定する情報である状態情報とを入力として、1つ以上の記号からなる記号列の生起確率または連鎖確率が記号列モデルとして記憶されている記号列モデル格納部を参照して、現在の仮説が到達している状態を遷移元として、当該遷移元から遷移可能な状態遷移およびその状態遷移確率を取得する状態遷移集合取得ステップと、状態遷移集合取得ステップで取得した遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮説を更新する仮説展開ステップと、仮説展開ステップで更新した仮説の集合のうち同じ状態に到達している仮説の中で累積重みが最大または最小となるものから所定数の仮説以外の仮説を削除することにより仮説を絞り込み、記号列取得ステップにおいて入力記号列が最後まで読み込まれていれば、終了状態に到達している仮説の中から累積重みが最大または最小となる仮説を出力記号列として求める仮説絞り込みステップと、を含む。 In order to solve the above problems, according to the first aspect of the present invention, a symbol string conversion method input symbol string is converted into an output symbol string. The symbol string conversion method includes a symbol string acquisition step for acquiring symbols one by one from the top of the input symbol string, and a state in which each hypothesis of the symbol acquired in the symbol string acquisition step and the current hypothesis set has been reached. With reference to state information that is information to be identified, the current hypothesis is determined by referring to a symbol string model storage unit in which the occurrence probability or the chain probability of a symbol string composed of one or more symbols is stored as a symbol string model. State transition set acquisition step that acquires the state transition that can be transitioned from the transition source and its state transition probability, and state transition that can be transitioned from the transition source acquired in the state transition set acquisition step Using the set of hypotheses, the hypothesis expansion step that updates each hypothesis in the current hypothesis set, and the hypothesis that has reached the same state in the hypothesis set updated in the hypothesis expansion step. If hypotheses are narrowed down by deleting hypotheses other than a predetermined number of hypotheses from the one with the largest or smallest weight, and if the input symbol string has been read to the end in the symbol string acquisition step, the hypothesis that has reached the end state A hypothesis narrowing step for obtaining a hypothesis having a maximum or minimum cumulative weight as an output symbol string.
上記の課題を解決するために、本発明の他の態様によれば、音声認識方法は、音声から得られる音響特徴記号列を音声認識結果に変換する。音声認識方法は、音響特徴記号列の先頭から順に1つずつ記号を取得する記号列取得ステップと、音響モデルによって計算される音響特徴記号のスコアを、重みとして用いる単語辞書WFSTを参照して、現在の仮説の集合の各々に新しい状態遷移を追加する仮説展開ステップと、仮説展開ステップで状態遷移を追加された仮説の集合の各々の状態遷移過程から出力される記号列と、現在の仮説の集合の各仮説が到達している状態を特定する情報である状態情報とを入力として、1つ以上の記号からなる記号列の生起確率または連鎖確率が記号列モデルとして記憶されている言語モデル格納部を参照して、現在の仮説が到達している状態を遷移元として、当該遷移元から遷移可能な状態遷移およびその状態遷移確率を取得する状態遷移集合取得ステップと、状態遷移集合取得ステップで取得した遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮説を更新する仮説補正ステップと、仮説展開ステップで更新した仮説の集合のうち同じ状態に到達している仮説の中で累積重みが最大または最小となるものから所定数の仮説以外の仮説を削除することにより仮説を絞り込み、記号列取得ステップにおいて入力記号列が最後まで読み込まれていれば、終了状態に到達している仮説の中から累積重みが最大または最小となる仮説を音声認識結果として求める仮説絞り込みステップと、を含む。 In order to solve the above problems, according to another aspect of the present invention, a speech recognition method converts an acoustic feature symbol string obtained from speech into speech recognition results. The speech recognition method refers to a word string WFST that uses a symbol string acquisition step of acquiring symbols one by one in order from the beginning of the acoustic feature symbol string, and a score of the acoustic feature symbols calculated by the acoustic model as a weight, A hypothesis expansion step for adding a new state transition to each of the current hypothesis set, a symbol string output from each state transition process of the hypothesis set to which the state transition was added in the hypothesis expansion step, and a current hypothesis Language model storage in which the occurrence probability or chain probability of a symbol string consisting of one or more symbols is stored as a symbol string model, with the state information that is information specifying the state reached by each hypothesis of the set being input The state transition set acquisition step that acquires the state transition that can be transitioned from the transition source and the state transition probability, with the state that the current hypothesis has reached as a transition source. And a hypothesis correction step that updates each hypothesis in the current hypothesis set using a set of state transitions that can be transitioned from the transition source acquired in the state transition set acquisition step, and a hypothesis updated in the hypothesis expansion step. The hypothesis is narrowed down by deleting hypotheses other than a predetermined number of hypotheses from the hypothesis that has the maximum or minimum cumulative weight among the hypotheses that have reached the same state in the set. A hypothesis narrowing step for obtaining a hypothesis having the maximum or minimum cumulative weight as a speech recognition result from the hypotheses that have reached the end state.
上記の課題を解決するために、本発明の他の態様によれば、記号列変換装置は、入力記号列を出力記号列に変換する。記号列変換装置は、入力記号列の先頭から順に1つずつ記号を取得する記号列取得部と、記号列取得部で取得した記号と現在の仮説の集合の各仮説が到達している状態を特定する情報である状態情報とを入力として、1つ以上の記号からなる記号列の生起確率または連鎖確率が記号列モデルとして記憶されている記号列モデル格納部を参照して、現在の仮説が到達している状態を遷移元として、当該遷移元から遷移可能な状態遷移およびその状態遷移確率を取得する状態遷移集合取得部と、状態遷移集合取得部で取得した遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮説を更新する仮説展開部と、仮説展開部で更新した仮説の集合のうち同じ状態に到達している仮説の中で累積重みが最大または最小となるものから所定数の仮説以外の仮説を削除することにより仮説を絞り込み、記号列取得部において入力記号列が最後まで読み込まれていれば、終了状態に到達している仮説の中から累積重みが最大または最小となる仮説を出力記号列として求める仮説絞り込み部と、を含む。 In order to solve the above problems, according to another aspect of the present invention, a symbol string conversion device converts an input symbol string into an output symbol string. The symbol string converter includes a symbol string acquisition unit that acquires symbols one by one from the top of the input symbol string, and a state in which each hypothesis of the symbol acquired by the symbol string acquisition unit and the current hypothesis set has been reached. With reference to state information that is information to be identified, the current hypothesis is determined by referring to a symbol string model storage unit in which the occurrence probability or the chain probability of a symbol string composed of one or more symbols is stored as a symbol string model. State transition set acquisition unit that acquires the state transition that can be transitioned from the transition source and its state transition probability, and state transition that can be transitioned from the transition source acquired by the state transition set acquisition unit The hypothesis expander that updates each hypothesis in the current hypothesis set using the set of hypotheses, and the hypothesis that has reached the same state among the hypotheses updated in the hypothesis expander, the cumulative weight is the maximum or minimum From what becomes If the hypothesis is narrowed down by deleting hypotheses other than the constant hypothesis and the input symbol string is read to the end in the symbol string acquisition unit, the cumulative weight is the maximum or minimum among the hypotheses that have reached the end state. And a hypothesis narrowing-down unit that obtains a hypothesis as an output symbol string.
上記の課題を解決するために、本発明の他の態様によれば、音声認識装置は、音声から得られる音響特徴記号列を音声認識結果に変換する。音声認識装置は、音響特徴記号列の先頭から順に1つずつ記号を取得する記号列取得部と、音響モデルによって計算される音響特徴記号のスコアを、重みとして用いる単語辞書WFSTを参照して、現在の仮説の集合の各々に新しい状態遷移を追加する仮説展開部と、仮説展開部で状態遷移を追加された仮説の集合の各々の状態遷移過程から出力される記号列と、現在の仮説の集合の各仮説が到達している状態を特定する情報である状態情報とを入力として、1つ以上の記号からなる記号列の生起確率または連鎖確率が記号列モデルとして記憶されている言語モデル格納部を参照して、現在の仮説が到達している状態を遷移元として、当該遷移元から遷移可能な状態遷移およびその状態遷移確率を取得する状態遷移集合取得部と、状態遷移集合取得部で取得した遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮説を更新する仮説補正部と、仮説展開部で更新した仮説の集合のうち同じ状態に到達している仮説の中で累積重みが最大または最小となるものから所定数の仮説以外の仮説を削除することにより仮説を絞り込み、記号列取得部において入力記号列が最後まで読み込まれていれば、終了状態に到達している仮説の中から累積重みが最大または最小となる仮説を音声認識結果として求める仮説絞り込み部と、を含む。 In order to solve the above problems, according to another aspect of the present invention, a speech recognition apparatus converts an acoustic feature symbol string obtained from speech into speech recognition results. The speech recognition apparatus refers to a word string WFST that uses a symbol string acquisition unit that acquires symbols one by one in order from the beginning of the acoustic feature symbol string, and a score of the acoustic feature symbol calculated by the acoustic model as a weight, A hypothesis expander that adds a new state transition to each of the current hypothesis set, a symbol string output from each state transition process of the hypothesis set that was added a state transition in the hypothesis expander, and a current hypothesis Language model storage in which the occurrence probability or chain probability of a symbol string consisting of one or more symbols is stored as a symbol string model, with the state information that is information specifying the state reached by each hypothesis of the set being input A state transition set acquisition unit that acquires a state transition that can be transitioned from the transition source and the state transition probability, and a state transition set acquisition. Using the set of state transitions that can be transitioned from the transition source acquired in the section, the hypothesis correction unit that updates each hypothesis in the current hypothesis set and the hypothesis expansion unit that has reached the same state If the hypothesis is narrowed down by deleting hypotheses other than a predetermined number of hypotheses from the hypothesis that has the largest or smallest cumulative weight, the process ends if the input symbol string is read to the end in the symbol string acquisition unit A hypothesis narrowing-down unit that obtains a hypothesis having a maximum or minimum cumulative weight as a speech recognition result among hypotheses that have reached a state.
本発明によれば、NグラムモデルおよびバックオフNグラムモデルを従来技術よりも早くWFSTに変換して記号列変換に利用することができる。 According to the present invention, the N-gram model and the back-off N-gram model can be converted to WFST earlier than the prior art and used for symbol string conversion.
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」、「~」、「−」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。 Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. In the following explanation, the symbols “^”, “~”, “ − ”, etc. used in the text should be written directly above the previous character. Immediately after. In the formula, these symbols are written in their original positions. Further, the processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.
<第一実施形態のポイント>
記号列モデルを表すバックオフNグラムモデルのWFSTは事前に構築せず、入力記号列が与えられ、その記号列変換を行う過程で、必要な状態番号や状態遷移を必要な時にバックオフNグラムモデルからWFSTに変換して取り出す。
<Points of first embodiment>
The WFST of the backoff N-gram model that represents the symbol string model is not constructed in advance, and the input symbol string is given, and in the process of converting the symbol string, the necessary state number and state transition are backoff N-grams when necessary. Convert the model to WFST and take it out.
すなわち、バックオフNグラムモデルからWFSTの初期状態の番号を取得する初期状態取得手段と、WFSTの任意の状態番号と入力記号が与えられたときに、その与えられた状態番号に対応する状態を遷移元とする状態遷移の集合を取得する状態遷移集合取得手段と、WFSTの任意の状態番号が与えられたときに、その与えられた状態番号(状態を特定する情報という意味で状態情報ともいう)に対応する状態がWFSTの終了状態か否かを判定する終了状態判定手段を用意し、記号列変換の際に記号列モデルのWFSTを参照するために、初期状態取得手段、状態遷移集合取得手段、終了状態判定手段を呼び出すことで、記号列モデルのWFSTの必要な状態遷移だけを参照要求に応じて生成し、その生成された状態遷移の集合を用いて記号列を変換する。 That is, initial state acquisition means for acquiring the WFST initial state number from the back-off N-gram model, and when an arbitrary state number and input symbol of WFST are given, the state corresponding to the given state number is displayed. State transition set acquisition means for acquiring a set of state transitions as a transition source, and when given any state number of WFST, the given state number (also referred to as state information in the sense of state specifying information) ) Prepares an end state determination means for determining whether the state corresponding to WFST is an end state of WFST, and in order to refer to the WFST of the symbol string model at the time of symbol string conversion, obtain an initial state acquisition means and a state transition set acquisition By calling the means and the end state determining means, only the necessary state transition of the WFST of the symbol string model is generated in response to the reference request, and the symbol string is converted using the set of the generated state transitions.
<前提知識>
第一実施形態について説明する前に、その前提となる知識について説明する。
WFSTは、(1)状態と、(2)状態から状態へと遷移できることを表す状態遷移、(3)状態遷移において受理される入力記号、(4)その際に出力される出力記号、及び、(5)その状態遷移の重みの集合によって定義される。WFSTは、ある入力記号列が与えられたときに、初期状態からその入力記号列の記号を順に受理する状態遷移に従って出力記号を出力しながら状態遷移を繰り返し、終了状態に達すると終了するモデルである。形式的にはWFSTは次の8つの組(Q,Σ,△,i,F,E,λ,ρ)によって定義される。
1.Qは有限の状態の集合。
2.Σは入力記号の有限の集合。
3.△は出力記号の有限の集合。
4.i∈Qは初期状態。
5.F∈Qは終了状態の集合。
6.E∈Q×Σ×△×Qは、現状態から入力記号により、出力記号を出力して次状態に遷移する状態遷移の集合。
7.λは初期重み。
8.ρ(q)は終了状態qの終了重み。q∈F。
<Prerequisite knowledge>
Prior to describing the first embodiment, the prerequisite knowledge will be described.
WFST consists of (1) state, (2) state transition indicating that transition from state to state is possible, (3) input symbol accepted in state transition, (4) output symbol output at that time, and (5) It is defined by a set of weights for the state transition. WFST is a model that, when a certain input symbol string is given, repeats the state transition while outputting output symbols according to the state transition that sequentially accepts the symbols of the input symbol sequence from the initial state, and terminates when the end state is reached. is there. Formally, WFST is defined by the following eight sets (Q, Σ, Δ, i, F, E, λ, ρ).
1. Q is a set of finite states.
2. Σ is a finite set of input symbols.
3. Δ is a finite set of output symbols.
4). iεQ is the initial state.
5. FεQ is a set of end states.
6). EεQ × Σ × Δ × Q is a set of state transitions in which an output symbol is output from the current state according to an input symbol to transition to the next state.
7). λ is the initial weight.
8). ρ (q) is the end weight of the end state q. qεF.
WFSTの一例を図1に示す。
図1において、10は、マル(“○”)で表された状態を示しており、そのマルの中の数字はその状態の番号を表している。11は、二重マル(“◎”)で表された終了状態を示しており、その二重マルの中の数字は、その終了状態の番号と状態遷移が終了して最後に累積される終了重みが“(状態番号)/(終了重み)”のように表されている。以後、状態の番号を用いて状態を指し示す場合は、単に状態とその番号を用いて“状態0”や“状態3”のように称す。12は、各状態を結ぶ矢印(“→”)で表された状態遷移を示しており、各々の状態遷移に付与された記号や数字は、その状態遷移に関連付けられた入力記号、出力記号、重みを“(入力記号):(出力記号)/(重み)”のように表したものである。
An example of WFST is shown in FIG.
In FIG. 1, 10 indicates a state represented by a circle (“◯”), and the number in the circle represents the state number. 11 indicates an end state represented by a double circle (“◎”), and the number in the double circle is the number of the end state and the end accumulated at the end of the state transition. The weight is expressed as “(state number) / (end weight)”. Hereinafter, when the state is indicated using the state number, the state and the number are simply referred to as “
図2のように、図1のWFSTを表によって定義することもできる。図2は、各行が一つの状態遷移を表し、その状態遷移における遷移元(現状態)の状態番号と遷移先(次状態)の状態番号、入力記号、出力記号、重みが記されている。最終状態(図1では状態3)は、遷移先、入力記号、出力記号を空とし、状態遷移終了時に累積される重み(終了重み)を記されている。一般に、WFSTの初期状態は状態0とされ、初期重みλも省略されることが多い。そのため、本実施形態でも初期状態を状態0とし、初期重みを省略して明記しないこととする。
As shown in FIG. 2, the WFST of FIG. 1 can be defined by a table. In FIG. 2, each row represents one state transition, and the state number of the transition source (current state) and the state number of the transition destination (next state), the input symbol, the output symbol, and the weight in the state transition are described. In the final state (
図1のWFSTは、例えば、入力記号列a,a,b,cを出力記号列d,d,c,bに変換することができ、その際の状態遷移過程は、状態番号の系列を用いて表すと0,0,1,3であり、重みの累積値(以下「累積重み」と称す)は、0.5+0.5+0.3+1+0.5=2.8となる。しかし、図1のWFSTでは、a,a,b,cという入力記号列に対しては、0,0,1,3と0,0,2,3の2通りの状態遷移過程が考えられる。一般に、ある入力記号列に対して複数の状態遷移の可能性がある場合(これを非決定性という)は、状態遷移過程における累積重みが最小または最大になる状態遷移過程を選択し、その累積重みが最小または最大の状態遷移過程に対応する出力記号列を選択する。状態遷移の可能性が高いものに対してより大きい重みを設定する場合には、累積重みが最大の状態遷移過程に対応する出力記号列を選択し、状態遷移の可能性が高いものに対してより小さい重みを設定する場合には、累積重みが最小の状態遷移過程に対応する出力記号列を選択すればよい。図1の例においても、a,a,b,cという入力記号列に対して累積重みが最も小さい状態遷移過程0,0,1,3を選んで、変換結果をd,d,c,bとする。 The WFST of FIG. 1 can convert, for example, input symbol strings a, a, b, and c into output symbol strings d, d, c, and b, and the state transition process at this time uses a sequence of state numbers. In other words, 0, 0, 1, 3 and the cumulative value of weight (hereinafter referred to as “cumulative weight”) is 0.5 + 0.5 + 0.3 + 1 + 0.5 = 2.8. However, in the WFST of FIG. 1, two state transition processes of 0, 0, 1, 3 and 0, 0, 2, 3 can be considered for input symbol strings a, a, b, and c. In general, when there is a possibility of multiple state transitions for an input symbol string (this is called non-determinism), the state transition process in which the cumulative weight in the state transition process is minimized or maximized is selected, and the cumulative weight is selected. Selects the output symbol string corresponding to the state transition process with the minimum or maximum. When setting a higher weight for the one with the high possibility of state transition, select the output symbol string corresponding to the state transition process with the largest cumulative weight, and for the one with the high possibility of state transition. When a smaller weight is set, an output symbol string corresponding to the state transition process with the smallest cumulative weight may be selected. Also in the example of FIG. 1, the state transition processes 0, 0, 1, 3 having the smallest cumulative weight are selected for the input symbol strings a, a, b, c, and the conversion results are d, d, c, b. And
ある重み付き有限状態変換器Aがあり、この重み付き有限状態変換器Aに対して記号列Xが入力記号列として与えられたとき、累積重みが最小となる出力記号列(すなわち記号列変換結果)を求めるには、次の累積重みの最小値W(X)を計算する必要がある。
一つのWFSTを用いた記号列変換の一例を図3に示す。
まず、本明細書において、“仮説”とは、ある記号列を構成する記号が順に入力され(読み込まれ)、現時点までに読み込まれた入力記号列に対して、WFSTにおいて初期状態からその入力記号列によって状態遷移を繰り返した場合の可能性のある一つの状態遷移過程を表すものとする。
An example of symbol string conversion using one WFST is shown in FIG.
First, in this specification, “hypothesis” means that symbols constituting a certain symbol string are sequentially input (read), and the input symbol string read up to the present time is input from the initial state in WFST. It is assumed that one state transition process that may occur when the state transition is repeated by a sequence is represented.
記号列取得部103は、入力記号列を構成する記号を先頭から順に一つずつ読み込み(取得し)、仮説展開部104に送る。
The symbol
仮説展開部104は、記号列取得部103で取得した記号とWFST格納部101から読み込んだWFSTに従って、これまで読み込んだ記号列に対する仮説の集合を新たに受け取った記号を用いて各仮説の状態遷移過程を更新することにより新たな仮説を生成し、仮説絞込み部105に送る。
The
仮説絞込み部105は、仮説展開部104から受け取った仮説の集合に対し、同じ状態に到達している仮説の中で累積重みが最小または最大の仮説以外の仮説を削除することにより仮説を絞り込む。仮説絞込み部105は、入力記号列が最後まで読み込まれていれば、累積重みが最小または最大の仮説に対応する出力記号列を記号列出力部106に送る。入力記号列が最後まで読み込まれていなければ、仮説を仮説展開部104に送る。
The
記号列出力部106は、仮説絞込み部105から受け取った出力記号列を記号列変換結果として出力する。
The symbol
次に、この実施の形態に基づいて記号列を変換する手順の一例を示す。
まず、WFSTのある状態遷移をeと表すとき、n[e]を遷移先の状態(次状態)、i[e]を入力記号、o[e]を出力記号、w[e]を重みと定義する。また、ある仮説をhと表わすとき、s[h]をその状態遷移過程において到達している状態、W[h]をその状態遷移過程における累積重み、O[h]をその状態遷移過程において出力されている記号列とする。
Next, an example of a procedure for converting a symbol string based on this embodiment will be described.
First, when a state transition in WFST is expressed as e, n [e] is a transition destination state (next state), i [e] is an input symbol, o [e] is an output symbol, and w [e] is a weight. Define. Also, when a certain hypothesis is expressed as h, s [h] is a state reached in the state transition process, W [h] is an accumulated weight in the state transition process, and O [h] is output in the state transition process. It is a symbol string.
この手順において、仮説は仮説のリスト(以後これを「仮説リスト」と呼ぶ)を用いて管理する。仮説リストに対し、仮説を挿入したり、仮説を取り出したりすることができる。但し、仮説リストに仮説を挿入する場合に、仮説リスト内に同じ状態に到達している仮説があれば、累積重みの小さいほうまたは大きいほうだけを仮説リストに残し、仮説を絞り込む。 In this procedure, hypotheses are managed using a list of hypotheses (hereinafter referred to as “hypothesis list”). Hypotheses can be inserted into and extracted from the hypothesis list. However, when a hypothesis is inserted into the hypothesis list, if there is a hypothesis that has reached the same state in the hypothesis list, only the smaller or larger cumulative weight is left in the hypothesis list to narrow down the hypotheses.
WFSTを用いた記号列変換手順を図4に示す。
以下、WFSTを用いる記号列変換の例(図3)の各部がどのような手順で処理を行うか、図4を用いて説明する。
The symbol string conversion procedure using WFST is shown in FIG.
In the following, the procedure performed by each unit of the example of symbol string conversion using WFST (FIG. 3) will be described with reference to FIG.
ステップS101より開始し、初期設定として、ステップS102において空の仮説リストHとH’とを生成する。ステップS103において、初期の仮説h(hは仮説展開部104において更新する前の仮説を表す)を生成し、状態s[h]=0(WFSTの初期状態)、累積重みW[h]=0、出力記号列O[h]=φ(ここではφは空の記号列を表す)とし、仮説リストHに挿入する。 Starting from step S101, as an initial setting, empty hypothesis lists H and H 'are generated in step S102. In step S103, an initial hypothesis h (h represents a hypothesis before being updated in the hypothesis developing unit 104) is generated, a state s [h] = 0 (an initial state of WFST), and a cumulative weight W [h] = 0. The output symbol string O [h] = φ (here, φ represents an empty symbol string) and is inserted into the hypothesis list H.
ステップS104では、記号列取得部103は、入力記号列に含まれる記号を一つ読み込み、その記号をxに代入し、仮説展開部104に出力する。次のステップS105からS108は、仮説展開部104において実行される。
In step S104, the symbol
ステップS105では、仮説リストHから仮説を一つ取り出し仮説hに代入し、状態s[h]から入力記号がxに等しい状態遷移のリスト(以下、「状態遷移リスト」ともいう)Eを用意する。 In step S105, one hypothesis is extracted from the hypothesis list H and substituted into the hypothesis h, and a state transition list (hereinafter also referred to as “state transition list”) E whose input symbol is equal to x is prepared from the state s [h]. .
ステップS106では、状態遷移リストE=φ(ここではφは空のリストを表す)であればS110に進む。そうでなければ、S107に進み、状態遷移リストEから状態遷移を一つ取り出し、eに代入する。 In step S106, if the state transition list E = φ (here, φ represents an empty list), the process proceeds to S110. Otherwise, the process proceeds to S107, and one state transition is extracted from the state transition list E and substituted into e.
ステップS108で新たな仮説f(fは仮説展開部104において更新した後の仮説を表す)を生成し、状態s[f]=n[e]、累積重みW[f]=W[h]+w[e]、出力記号列O[f]=O[h]・o[e]とし、仮説絞込み部105に出力する。ここで、“・”は二つの記号または記号列を接続し、一つの記号列にする演算を表す。
In step S108, a new hypothesis f (f represents a hypothesis after being updated in the hypothesis developing unit 104) is generated, and a state s [f] = n [e] and a cumulative weight W [f] = W [h] + w [e], output symbol string O [f] = O [h] · o [e], and output to hypothesis narrowing down
ステップS109は、仮説絞込み部105で実行され、仮説fを仮説リストH’に挿入することにより仮説を絞り込む。例えば、仮説リストH’内に同じ状態に到達している仮説があれば、累積重みの小さいほうまたは大きいほうだけを仮説リストH’に残し、仮説を絞り込む。
Step S109 is executed by the hypothesis narrowing-down
ステップS109からS106に戻り、次の状態遷移について仮説を展開する。
ステップS110では、仮説リストH=φ(すべての仮説を展開済み)であればS111に進む。そうでなければS106に戻り、次の仮説hを展開する。
ステップS111では、新たに生成された仮説リストH’の要素を、すでに空となった仮説リストHにすべて移し、S112に進む。
Returning from step S109 to S106, a hypothesis is developed for the next state transition.
In step S110, if the hypothesis list H = φ (all hypotheses have been expanded), the process proceeds to S111. Otherwise, return to S106 and develop the next hypothesis h.
In step S111, all the elements of the newly generated hypothesis list H ′ are transferred to the already hypothesized hypothesis list H, and the process proceeds to S112.
ステップS112では、記号列取得部103において次の入力記号が存在するならばS104に戻り、そうでなければ、入力記号列がすべて読み込まれたと判断しS113に進む。
ステップS113では、仮説リストHの中で終了状態に到達している仮説の累積重みにその終了状態の終了重みを加えた後で、その終了状態に到達している仮説の中から累積重み(W[h])が最小となる仮説hを選び、その出力記号列O[h]を記号列変換結果として、記号列出力部106が出力する。
ステップS114にてWFSTを用いる記号列変換手順を終了する。
In step S112, if there is a next input symbol in the symbol
In step S113, after adding the end weight of the end state to the cumulative weight of the hypothesis reaching the end state in the hypothesis list H, the cumulative weight (W The hypothesis h that minimizes [h]) is selected, and the symbol
In step S114, the symbol string conversion procedure using WFST is terminated.
[記号列変更例]
この記号列変換手順に従って、図1のWFSTに入力記号列a,a,b,cが与えられた場合の出力記号列を求める過程を順を追って説明する。但し、ここでは、現状態番号s、出力記号列O、累積重みWの仮説がある場合、その仮説を(s,O,W)のように表すものとする。また、WFSTのある状態遷移(現状態番号s、次状態番号n、入力記号x、出力記号y、重みw)を<s→n,x:y/w>と表すものとする。また、この例では、累積重みが最小の状態遷移過程に対応する出力記号列を記号列変換結果として選択するものとする。
[Example of changing symbol string]
The process of obtaining the output symbol string when the input symbol strings a, a, b, and c are given to the WFST of FIG. 1 according to this symbol string conversion procedure will be described step by step. However, here, if there is a hypothesis of the current state number s, the output symbol string O, and the cumulative weight W, the hypothesis is represented as (s, O, W). A state transition (current state number s, next state number n, input symbol x, output symbol y, weight w) of WFST is represented as <s → n, x: y / w>. In this example, an output symbol string corresponding to a state transition process with the smallest cumulative weight is selected as a symbol string conversion result.
S101から開始し、S102で空の仮説リストH及びH’を作る。
S103により仮説リストHの中の仮説(0,φ,0)を挿入する。
Starting from S101, empty hypothesis lists H and H ′ are created in S102.
A hypothesis (0, φ, 0) in the hypothesis list H is inserted in S103.
(記号“a”読み込み)
S104で記号aを読み込みxと置く。S105において仮説リストHから仮説(0,φ,0)を取り出す。この仮説の現状態0から入力記号がaに等しい状態遷移<0→0,a:d/0.5>を含む状態遷移リストEを作る(図1参照)。
S106で状態遷移リストE=φではないのでS107に進み、状態遷移<0→0,a:d/0.5>を取り出し、S108で新たな仮説(0,d,0.5)を生成し、S109で仮説リストH’に挿入する。
S106に戻り、状態遷移リストE=φであるためS110に進み、仮説リストH=φであるためS111に進む。仮説リストH’の要素(0,d,0.5)を仮説リストHに移し、S112で次の入力記号が存在するのでS104に戻る。
(Read symbol “a”)
In S104, the symbol a is read and set as x. In S105, a hypothesis (0, φ, 0) is extracted from the hypothesis list H. A state transition list E including a state transition <0 → 0, a: d / 0.5> whose input symbol is equal to a is created from the
Since the state transition list E is not equal to φ in S106, the process proceeds to S107, where the state transition <0 → 0, a: d / 0.5> is extracted, and a new hypothesis (0, d, 0.5) is generated in S108. , S109 is inserted into the hypothesis list H ′.
Returning to S106, since the state transition list E = φ, the process proceeds to S110, and since the hypothesis list H = φ, the process proceeds to S111. The element (0, d, 0.5) of the hypothesis list H ′ is moved to the hypothesis list H. Since the next input symbol exists in S112, the process returns to S104.
続いて、S104で記号aを読み込みxと置く。S105において仮説リストHから仮説(0,d,0.5)を取り出す。この仮説の現状態0から入力記号がaに等しい状態遷移<0→0,a:d/0.5>を含む状態遷移リストEを生成する。
S106でE=φではないのでS107に進み、状態遷移リストEから状態遷移<0→0,a:d/0.5>を取り出す。S108で新たな仮説(0,dd,1)を生成し、S109で仮説リストH’に挿入する。
S106に戻り、状態遷移リストE=φであるためS110に進み、仮説リストH=φであるためS111に進む。仮説リストH’の要素(0,dd,1)を仮説リストHに移し、S112で次の入力記号が存在するのでS104に戻る。
In step S104, the symbol a is read and set as x. In S105, a hypothesis (0, d, 0.5) is extracted from the hypothesis list H. A state transition list E including a state transition <0 → 0, a: d / 0.5> whose input symbol is equal to a is generated from the
Since E = φ is not satisfied in S106, the process proceeds to S107, and the state transition <0 → 0, a: d / 0.5> is extracted from the state transition list E. A new hypothesis (0, dd, 1) is generated in S108, and is inserted into the hypothesis list H ′ in S109.
Returning to S106, since the state transition list E = φ, the process proceeds to S110, and since the hypothesis list H = φ, the process proceeds to S111. The element (0, dd, 1) of the hypothesis list H ′ is moved to the hypothesis list H, and since the next input symbol exists in S112, the process returns to S104.
(記号“b”読み込み)
続いて、S104で記号bを読み込みxと置く。S105において仮説リストHから仮説(0,dd,1)を取り出す。この仮説の現状態0から入力記号がbに等しい状態遷移<0→1,b:c/0.3>と<0→2,b:b/1>とを含む状態遷移リストEを作る。
S106で状態遷移リストE=φではないのでS107に進み、状態遷移リストEから、一つ目の状態遷移<0→1,b:c/0.3>を取り出す。S108で新たな仮説(1,ddc,1.3)を生成し、S109で仮説リストH’に挿入する。
S106に戻り、状態遷移リストE=φではないのでS107に進み、状態遷移リストEから二つ目の状態遷移<0→2,b:b/1>を取り出す。S108で新たな仮説(2,ddb,2)を生成して、S109で仮説リストH’に挿入する。
S106に戻り状態遷移リストE=φであるためS110に進み、仮説リストH=φであるためS111に進み、仮説リストH’の要素(1,ddc,1.3)と(2,ddb,2)とは仮説リストHに移され、S112で次の入力記号が存在するのでS104に戻る。
(Read symbol “b”)
In step S104, the symbol b is read and set as x. In S105, a hypothesis (0, dd, 1) is extracted from the hypothesis list H. A state transition list E including state transitions <0 → 1, b: c / 0.3> and <0 → 2, b: b / 1> whose input symbol is equal to b is created from the
Since the state transition list E is not equal to φ in S106, the process proceeds to S107, and the first state transition <0 → 1, b: c / 0.3> is extracted from the state transition list E. A new hypothesis (1, ddc, 1.3) is generated in S108, and inserted into the hypothesis list H ′ in S109.
Returning to S106, since the state transition list E is not equal to φ, the process proceeds to S107, and the second state transition <0 → 2, b: b / 1> is extracted from the state transition list E. A new hypothesis (2, ddb, 2) is generated at S108, and inserted into the hypothesis list H ′ at S109.
Returning to S106, since the state transition list E = φ, the process proceeds to S110, and since the hypothesis list H = φ, the process proceeds to S111, and the elements (1, ddc, 1.3) and (2, ddb, 2) of the hypothesis list H ′. ) Is moved to the hypothesis list H, and since the next input symbol exists in S112, the process returns to S104.
(記号“c”読み込み)
続いて、S104で記号cを読み込みxと置く。S105において仮説リストHから一つ目の仮説(1,ddc,1.3)を取り出す。この仮説の現状態1から入力記号がcに等しい状態遷移<1→3,c:b/1>を含む状態遷移リストEを作る。
S106でE=φではないのでS107に進み、状態遷移リストEから状態遷移<1→3,c:b/1>を取り出す。S108で新たな仮説(1,ddcb,2.3)を生成し、S109で仮説リストH’に挿入する。
(Read symbol “c”)
In step S104, the symbol c is read and set as x. In S105, the first hypothesis (1, ddc, 1.3) is extracted from the hypothesis list H. A state transition list E including a state transition <1 → 3, c: b / 1> whose input symbol is equal to c is created from the
Since E = φ is not satisfied in S106, the process proceeds to S107, and the state transition <1 → 3, c: b / 1> is extracted from the state transition list E. A new hypothesis (1, ddcb, 2.3) is generated in S108, and is inserted into the hypothesis list H ′ in S109.
S106に戻り、状態遷移リストE=φであるためS110に進み、仮説リストH≠φであるためS105に戻り、仮説リストHから二つ目の仮説(2,ddb,2)を取り出す。この仮説の現状態2から入力記号がcに等しい状態遷移<2→3,c:a/0.6>を含む状態遷移リストEを作る。
S106で状態遷移リストE=φではないのでS107に進み、状態遷移リストEから状態遷移<2→3,c:a/0.6>を取り出す。S108で新たな仮説(3,ddba,2.6)を生成し、S109で仮説リストH’に挿入する。このとき、仮説リストH’の中には既に仮説(3,ddcb,2.3)が含まれており、仮説(3,ddba,2.6)は同じ状態3に到達しているので、累積重みの小さい仮説(3,ddcb,2.3)を残し、仮説(3,ddba,2.6)は仮説リストH’から削除する。
Returning to S106, since the state transition list E = φ, the process proceeds to S110, and since the hypothesis list H ≠ φ, the process returns to S105 to extract the second hypothesis (2, ddb, 2) from the hypothesis list H. A state transition list E including a state transition <2 → 3, c: a / 0.6> whose input symbol is equal to c is created from the
Since the state transition list E is not equal to φ in S106, the process proceeds to S107, and the state transition <2 → 3, c: a / 0.6> is extracted from the state transition list E. A new hypothesis (3, ddba, 2.6) is generated at S108, and inserted into the hypothesis list H ′ at S109. At this time, the hypothesis list H ′ already includes the hypothesis (3, ddcb, 2.3), and the hypothesis (3, ddba, 2.6) has reached the
S106に戻り、状態遷移リストE=φであるため、S110に進み、仮説リストH=φであるためS111に進む。S111で仮説リストH’の要素(3,ddcb,2.3)を仮説リストHに移し、S112で次の入力記号が存在しないのでS113に進む。
S113で、仮説リストH内の仮説(3,ddcb,2.3)の到達状態3は終了状態であるため、終了重みを加えて(3,ddcb,2.8)とし、この仮説が終了状態に到達した唯一の仮説であり、累積重みが最小となるので、その出力記号列ddcbを変換結果として出力し、S114で記号列変換処理を終了する。
Returning to S106, since the state transition list E = φ, the process proceeds to S110, and since the hypothesis list H = φ, the process proceeds to S111. In S111, the element (3, ddcb, 2.3) of the hypothesis list H ′ is moved to the hypothesis list H. In S112, since there is no next input symbol, the process proceeds to S113.
In S113, since the
(Nグラムモデル)
一方、記号列のN個連鎖確率を計算するNグラムモデルをWFSTに変換して、それを記号列変換に利用する方法がある。
まず、記号列w1,w2,…,wLがあるときにこれをw1 Lと表すものとする。またj番目からk番目までの記号列wj,…,wkをwj kと表し、特にj=kのときはwj k=wj=wk、j>kのときはwj k=εとする。なお、εは存在しないこと、何もないことを表す記号である。
(N-gram model)
On the other hand, there is a method of converting an N-gram model for calculating the N chain probability of a symbol string into WFST and using it for symbol string conversion.
First, when there is a symbol string w 1 , w 2 ,..., W L , this is represented as w 1 L. The symbol string w j from the j-th to k-th, ..., a w k represents the w j k, especially w j k = w j = w k is the time of j = k, j> w j k when the k = ε. Note that ε is a symbol indicating that there is no nothing and nothing.
記号列w1 Lの出現確率P(w1 L)は、次式のように個々の記号の生起確率の積として計算できる。
そして、個々の記号の出現確率が直前のN−1個の記号列だけに依存するとして近似したモデルが次のNグラムモデルである。
例えば、記号列が自然言語である場合、個々の記号は単語、記号列は文を表すものとする。このときNグラムモデルによって、ある単語列が文らしいか否かをP(w1 L)として計算することができる。
個々のNグラム確率を推定するには、まず大量の記号列データ(例えば新聞記事コーパスなど)を用意し、それから記号列の連鎖統計を取ることで予め求めておくことができる。
For example, when the symbol string is a natural language, each symbol represents a word and the symbol string represents a sentence. At this time, whether or not a certain word string seems to be a sentence can be calculated as P (w 1 L ) by the N-gram model.
In order to estimate individual N-gram probabilities, first, a large amount of symbol string data (for example, a newspaper article corpus) is prepared, and then the linkage statistics of the symbol strings are obtained in advance.
例えば、ある記号列データから記号列abの後に記号cが続くトライグラム確率を推定するには
しかし、記号列データの分量は有限であることから、記号列の並びとしては妥当であるにも関わらず、偶然その記号列データに出現しなかったN個の記号からなる記号列に対してはNグラム確率が0になってしまう問題(ゼロ頻度問題)がある。 However, since the amount of symbol string data is finite, for symbol strings consisting of N symbols that did not appear in the symbol string data by chance even though it is valid as a sequence of symbol strings. There is a problem that the N-gram probability becomes zero (zero frequency problem).
(バックオフNグラムモデル)
そこで、Nグラム確率がゼロにならないよう、N個の記号からなる記号列のNグラム確率が0になってしまう場合は、N-1グラム確率を用い、さらに、N-1グラム確率が0になってしまう場合は、N-2グラム確率、というようにバックオフ(後退)する方法が用いられる。このようなNグラムモデルはバックオフNグラムモデルと呼ばれている。ただし、記号列の頻度が0でなくても、極端に小さい場合(例えば、10,0003通りの記号列に対して、頻度が1や2の場合)は(4)式で推定される確率値の信頼性が低下することから、記号列の頻度をあえて0と見なし(これをカットオフと言う)、強制的にバックオフさせる場合もある。
(Back-off N-gram model)
Therefore, in order to prevent the N-gram probability from becoming zero, when the N-gram probability of a symbol string composed of N symbols is zero, the N-1 gram probability is used, and further, the N-1 gram probability is zero. In such a case, a method of back-off (retreat) such as N-2 gram probability is used. Such an N-gram model is called a back-off N-gram model. However, even without the frequency of
記号列wi-N+1 i-1の後にwiが生起するバックオフNグラム確率は次のように計算される。
ここで、P*(wi│wi-N+1 i-1)は、式(4)のように頻度から推定されるNグラム確率を少し小さくした値である。このように確率を小さく見積もることをディスカウントと呼ぶ。本来、確率が0であるNグラムに対してバックオフによるN-1グラム確率を割り当てると、確率の総和が1を超えてしまう。そこで、確率の総和を1にするため、Nグラム確率をディスカウントし、ディスカウントによって生じた確率の残りをバックオフ用に割り当てる。そして、α(wi-N+1 i-1)はバックオフする際にN-1グラム確率に掛けるバックオフ係数である。ディスカウントされた確率とバックオフ係数を求める方法として、Good-Turing法、Witten-Bell法、Kneser-Ney法などが知られている。
The backoff N-gram probability that w i occurs after the symbol sequence w i-N + 1 i−1 is calculated as follows.
Here, P * (w i | w i −N + 1 i−1 ) is a value obtained by slightly reducing the N-gram probability estimated from the frequency as shown in Equation (4). Such estimation of the probability as small is called discount. If the N-1 gram probability by back-off is assigned to the N gram with a probability of 0, the sum of the probabilities exceeds 1. Therefore, in order to set the sum of probabilities to 1, the N-gram probability is discounted, and the remaining probability generated by the discount is allocated for backoff. Α (w i−N + 1 i−1 ) is a back-off coefficient to be multiplied by the N−1 gram probability at the time of back-off. Good-Turing method, Witten-Bell method, Kneser-Ney method, etc. are known as methods for obtaining discounted probability and backoff coefficient.
記号列w1,…,wmに対するバックオフ係数α(w1 m)は次のように計算される。但しm=N-1を仮定している。
Nグラムモデルをコンピュータで扱う場合は、N個の記号の順列とその確率値を記憶している必要がある。しかし、記号の種類が多くなるとその順列の種類数はNに対して指数的に大きくなる。例えば、記号の種類数が1万個あるとき、そのトライグラムの種類数は1万の3乗個に上る。これはあまりに大きく、コンピュータで扱う場合には膨大な記憶容量を必要とする。しかし、実際に記号列データに出現する順列はこれよりも遥かに少ないため、ほとんどのNグラム確率は0である。そこで、Nグラム確率が0よりも大きな順列とそのNグラム確率とだけを保持しておけば良い。さらに、バックオフNグラムモデルでは、確率が0より大きな1〜N個の記号からなる順列(記号列)とその確率、およびバックオフ係数を保持しておけば良い。 When an N-gram model is handled by a computer, it is necessary to store a permutation of N symbols and its probability value. However, as the number of types of symbols increases, the number of types of permutations increases exponentially with respect to N. For example, when the number of types of symbols is 10,000, the number of types of trigrams is 10,000 cubed. This is too large and requires a huge storage capacity when handled by a computer. However, since there are far fewer permutations that actually appear in the symbol string data, most N-gram probabilities are zero. Therefore, it is only necessary to hold permutations with N-gram probabilities greater than 0 and their N-gram probabilities. Further, in the back-off N-gram model, a permutation (symbol string) composed of 1 to N symbols having a probability greater than 0, its probability, and a back-off coefficient may be held.
(バックオフNグラムモデルをWFSTに変換する方法)
次に、バックオフNグラムモデルをWFSTに変換する方法を示す。
基本的にはバックオフNグラムモデルが保持するN-1個の記号からなる順列の各々をWFSTの一つの状態に割り当て、各状態遷移にはN-1個の記号からなる順列の次に生起する可能性のある記号を入力記号および出力記号とし、そのNグラム確率(の対数の負値)を重みとして、対応する遷移先の状態に接続する。例えば、トライグラムモデルにおいて記号列abに対応する状態から記号列bcに対応する状態への状態遷移は、入力記号および出力記号がc、重みが-logP*(c│ab)となる(図5参照)。
(How to convert backoff N-gram model to WFST)
Next, a method for converting the back-off N-gram model into WFST is shown.
Basically, each permutation consisting of N-1 symbols held by the backoff N-gram model is assigned to one state of WFST, and each state transition occurs next to the permutation consisting of N-1 symbols. Symbols that are likely to be input are input symbols and output symbols, and their N-gram probabilities (logarithm negative values) are used as weights and connected to corresponding transition destination states. For example, in the trigram model, the state transition from the state corresponding to the symbol string ab to the state corresponding to the symbol string bc is c for the input symbol and output symbol and -logP * (c | ab) for the weight (FIG. 5). reference).
またN個の記号からなるある順列が存在しない、すなわちそのNグラム確率が0の場合は、バックオフ用の状態遷移を用意して、バックオフ係数(の対数の負値)の重みを割り当て、記号列を一つ短くしたN−2個の記号からなる順列に対応する状態へ遷移させる。例えば、トライグラムモデルにおいて3個の記号の順列(記号列)abcが存在しない、すなわちP*(c│ab)=0の場合は、バックオフ用の状態遷移を作る。これは遷移元である記号列abに対応する状態から記号bに対応する状態に、重み-logα(ab)で遷移する。そして、記号bに対応する状態から記号列bcに対応する状態へ、入力記号と出力記号をc、重みをバイグラム確率(の対数の負値)-logP*(c│b)を持つ状態遷移を作る(図6参照)。これにより、式(5)のバックオフに基づく計算α(ab)P*(c│b)を状態遷移に埋め込む形でWFSTが構築される。更に、2個の記号からなる順列bcも存在しない、すなわちP*(c│b)=0の場合には、記号bに対応する状態から記号εに対応する状態へ、重み-logα(b)の状態遷移を作る。そして、記号εに対応する状態から記号cに対応する状態へ、入力記号と出力記号をc、重みをユニグラム確率(の対数の負値)-logP*(c)を持つ状態遷移を作る(図7参照)。但し、記号εに対応する状態は構築されるWFSTの中でただ一つ用意するものとする。 If there is no permutation of N symbols, that is, if the N-gram probability is 0, a state transition for backoff is prepared, and a weight of a backoff coefficient (logarithm negative value) is assigned, A transition is made to a state corresponding to a permutation composed of N-2 symbols, which is shortened by one symbol string. For example, if there is no permutation (symbol string) abc of three symbols in the trigram model, that is, P * (c | ab) = 0, a state transition for backoff is created. This transitions from the state corresponding to the symbol string ab, which is the transition source, to the state corresponding to the symbol b with the weight -logα (ab). Then, from the state corresponding to the symbol b to the state corresponding to the symbol string bc, the state transition having the input symbol and the output symbol c and the weight as the bigram probability (logarithm negative value) -logP * (c | b) Make (see Fig. 6). As a result, the WFST is constructed in such a manner that the calculation α (ab) P * (c | b) based on the back-off in Expression (5) is embedded in the state transition. Furthermore, if there is no permutation bc consisting of two symbols, that is, P * (c | b) = 0, the weight -logα (b) from the state corresponding to the symbol b to the state corresponding to the symbol ε Create a state transition for Then, from the state corresponding to the symbol ε to the state corresponding to the symbol c, a state transition having an input symbol and an output symbol c and a weight unigram probability (logarithm negative value) -logP * (c) is created (Fig. 7). However, only one state corresponding to the symbol ε is prepared in the constructed WFST.
このようなバックオフNグラムモデルのWFSTは、次の手順に従って構築することができる。
ステップ1:記号εに対応する状態S(ε)を作り、i=S(ε)とし、状態集合Q、終了状態集合Fに加える。
ステップ2:n=1,…,N-1について、ステップ3を繰り返す。
ステップ3:登録されたnグラム確率P(wn│w1 n-1)の各々について、ステップ3.1〜3.3
を繰り返す。
Such a backoff N-gram model WFST can be constructed according to the following procedure.
Step 1: A state S (ε) corresponding to the symbol ε is created, i = S (ε), and added to the state set Q and the end state set F.
Step 2:
Step 3: For each registered n-gram probability P (w n | w 1 n-1 ), steps 3.1 to 3.3
repeat.
ステップ3.1:記号列w1 n-1に対応する状態S(w1 n)を作り、状態集合Qに加える。
ステップ3.2:状態遷移<S(w1 n-1)→S(w1 n),wn:wn/-logP(wn│w1 n-1)>を作る。
ステップ3.3:バックオフ用の状態遷移<S(w1 n)→S(w2 n),ε:ε/-logα(w1 n)>を作る。
ステップ4:登録されたNグラム確率P(wN│w1 N-1)の各々について、状態遷移<S(w1 N-1)→S(w2 N),wN:wN/-logP(wN│w1 N-1)>を作る。
但し、S(x)は記号列xを対応する状態番号に写像する関数である。
この手順で構築されたWFSTを用いれば、図4の手順に従って記号列を変換することができる。
Step 3.1: A state S (w 1 n ) corresponding to the symbol string w 1 n−1 is created and added to the state set Q.
Step 3.2: Create a state transition <S (w 1 n−1 ) → S (w 1 n ), w n : w n / −logP (w n | w 1 n−1 )>.
Step 3.3: Create a state transition <S (w 1 n ) → S (w 2 n ), ε: ε / −log α (w 1 n )> for backoff.
Step 4: For each registered N-gram probability P (w N | w 1 N−1 ), state transition <S (w 1 N−1 ) → S (w 2 N ), w N : w N / − logP (w N | w 1 N-1 )> is created.
Here, S (x) is a function that maps the symbol string x to the corresponding state number.
If the WFST constructed by this procedure is used, the symbol string can be converted according to the procedure of FIG.
以上の前提知識を元に、第一実施形態について説明する。
〔第一実施形態〕
図8は第一実施形態に係る記号列変換装置100の機能ブロック図を示す。
The first embodiment will be described based on the above premise knowledge.
[First embodiment]
FIG. 8 shows a functional block diagram of the symbol string converter 100 according to the first embodiment.
第一実施形態に係る記号列変換装置100は、記号列取得部103、仮説展開部804、仮説絞込み部105、記号列出力部106、記号列モデル格納部807、初期状態取得手段808、状態遷移集合取得手段809及び終了状態判定手段810を含む。記号列取得部103、仮説展開部804、仮説絞込み部105及び記号列出力部106の処理内容は図4の各部と同じである。前述の通り、本実施形態では、記号列モデルを表すバックオフNグラムモデルのWFSTは事前に構築しないので、WFST格納部101に代えて、記号列モデル格納部807、初期状態取得手段808、状態遷移集合取得手段809及び終了状態判定手段810を含む。このような構成により、WFSTを参照する代わりに、状態遷移集合取得手段809によって記号列モデル格納部807から必要な部分のWFSTの状態および状態遷移を取得する処理に置き換えられている点が、図4の構成とは異なる。これにより、事前に記号列モデルをすべてWFSTに変換してWFST格納部101に記憶しておくことなく記号列変換が可能である。
The symbol string conversion apparatus 100 according to the first embodiment includes a symbol
<記号列モデル格納部807>
記号列モデル格納部807には、Lグラム確率と、各記号列w1 L'に対するバックオフ係数α(w1 L')とが対応付けて記憶されている。ただし、L=1,2,…,N、L'=1,2,…,N-1である。各記号列w1 L'は、L'グラム確率に対応するものである。例えば、N=3のとき、トライグラム確率P(wi│wi-2 i-1)、バイグラム確率P(wi│wi-1)及びユニグラム確率P(wi)と、バイグラム確率P(wi│wi-1)に対応するバックオフ係数α(wwi-2 i-1)及びユニグラム確率P(wi)に対応するバックオフ係数α(wi)とが記憶されている。Lグラム確率は、N個(Nは正整数)以下の記号からなる記号列w1 L(1≦L≦N)の出現確率P(w1 L)を用いて式(4)により計算することができる(ただし、式(4)において出現回数に代えて出現確率を用いる)。また、バックオフ係数α(w1 L')は、式(6)により求めることができる。例えば、図12のようなテーブル形式で記憶されているものとする。図12については後で詳述する。なお、図12では、記号列wi-L+1 i-1に依存して記号wiが生起する確率P(wi│wi-L+1 i-1)を少し小さくした(補正した)値P*(wi│wi-L+1 i-1)が格納されているが、P*(wi│wi-L+1 i-1)の代わりにP(wi│wi-L+1 i-1)が記憶されていてもよい。P(wi│wi-L+1 i-1)及びP*(wi│wi-L+1 i-1)を、遷移元の状態qに対応する記号列wi-L+1 i-1に依存して入力された記号wiが生起する確率に対応する第1確率ともいう。
<Symbol string
The symbol string
<仮説展開部804>
仮説展開部804は、記号列取得部103から記号xを受け取り、状態遷移集合取得部で取得した遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮設を更新し、その累積重みとともに仮説絞込み部105に出力する。
<Hypothesis development unit 804>
The hypothesis expansion unit 804 receives the symbol x from the symbol
仮説展開部804は、まだ仮説を生成していない場合(最初に実行するとき)には、初期状態取得手段808を実行し、WFSTの初期状態の状態番号を取得する。そして、初期状態取得手段808で取得した初期状態の状態番号と記号列取得部103から受け取った記号xとを状態遷移集合取得手段809に送り、初期状態から記号xにより遷移可能な状態の集合を取得する。そして、受け取った状態遷移の集合を用いて新たな仮説の集合を生成する。
If a hypothesis developing unit 804 has not yet generated a hypothesis (when it is executed for the first time), it executes the initial state acquisition means 808 to acquire the state number of the initial state of WFST. Then, the state number of the initial state acquired by the initial
仮説展開部804は、既にこれまでに入力された記号に対応する仮説が生成されている場合、記号列取得部103から受け取った記号xと、現在の仮説が到達している状態に対応する状態番号qとを状態遷移集合取得手段809に送り、状態遷移集合取得手段809から現在の仮説が到達している状態qから、記号列取得部103から受け取った新たな記号xにより遷移可能な状態の集合を取得する。そして、状態遷移集合取得手段809から取得した遷移可能な状態の集合を用いて、現在の仮説の状態遷移過程を更新することにより新たな仮説の集合を生成する。
When a hypothesis corresponding to a symbol input so far has already been generated, the hypothesis expansion unit 804 corresponds to a state corresponding to the symbol x received from the symbol
仮説展開部804は、生成した仮説の集合の各仮説についての累積重みを算出する。そして、生成した仮説の集合を終了状態判定手段810へ送り、各仮説の到達している状態が終了状態であるか否かを判定する。仮説展開部804は、終了状態判定手段810から判定結果を受け取り、終了状態である場合には、その仮説の累積重みに、その終了状態の終了重みを加えることで、仮説の累積重みを更新する。そして、生成した仮説の集合とその累積重みを仮説絞込み部105へ送る。
The hypothesis developing unit 804 calculates a cumulative weight for each hypothesis in the generated hypothesis set. Then, the generated set of hypotheses is sent to the end state determination means 810, and it is determined whether or not each hypothesis has reached the end state. The hypothesis development unit 804 receives the determination result from the end
<初期状態取得手段808>
初期状態取得手段808は、仮説展開部804の求めに応じてWFSTの初期状態を生成し、仮説展開部804に出力する。これは、図4のS103における初期状態の要求s[h]=iに対応する処理であり、一つの状態番号(例えばi=0)を返す。そして、生成した初期状態の状態番号s[h]を仮説展開部804に送る。また、記号列wを状態番号qに一意に写像する関数q=S(w)およびその逆関数w=S-1(q)を用意し、S(ε)=0およびS-1(0)=εとする。なお、この関数S及びS-1は予め外部から与えられていてもよい。関数の例は後述する。
<Initial state acquisition means 808>
The initial
<状態遷移集合取得手段809>
状態遷移集合取得手段809は、入力された状態番号qと入力記号xと受け取り、これらの値を用いて、状態番号qから入力記号xで遷移可能な状態遷移の集合Eを図9の手順に従って求める。
<State Transition
The state transition set
まずステップS901より開始し、ステップS902で状態番号qと入力記号xを受け取る。ステップS903では、状態qに対応する記号列w1 kをw1 k=S-1(q)として求める。ここでは、k=0,1,…,N-1である。 First, in step S901, the state number q and the input symbol x are received in step S902. In step S903, the symbol string w 1 k corresponding to the state q is obtained as w 1 k = S −1 (q). Here, k = 0, 1,..., N−1.
ステップS904では、バックオフ係数を累積する変数α(累積バックオフ係数)の初期値を設定する。例えばα=1とする。また、もしk<N-1ならj=1、そうでない(k≧N-1)ならj=2と置く。このj=2と置くのは、確率P*(x│wj k)を計算する際に、記号列wj kの長さがN-1より大きくならないように最も順番が若い記号を切り詰め、確率P*(x│wj k)がLグラム確率(1≦L≦N)になることを保証している。 In step S904, an initial value of a variable α (cumulative backoff coefficient) for accumulating the backoff coefficient is set. For example, α = 1. If k <N−1, j = 1, otherwise (k ≧ N−1), j = 2. This j = 2 is set so that when calculating the probability P * (x | w j k ), the symbol with the smallest order is truncated so that the length of the symbol string w j k is not greater than N−1. Probability P * (x | w j k ) is guaranteed to be L-gram probability (1 ≦ L ≦ N).
ステップS905では、記号列モデル格納部1301に、記号列wj kに依存して記号列xが生起するNグラム確率P(x│wj k)に対応した確率値P*(x│wj k)(ディスカウントされたNグラム確率)が存在するならステップS907へ、存在しない場合はS906へ進む。なお、P*(x│wj k)は、上述の式(4)により(ただし、式(4)において出現回数に代えて出現確率を用いる)、記号列モデル格納部807に記憶された記号列w1 kxと記号列w1 kの出現確率に基づいて計算することができる。なお、確率値P*(x│wj k)が存在していても所定の閾値よりも小さい値の場合にはS906へ進む処理を行っても良い。これは、確率値が特に小さいとき(10,0003通りの記号列に対して、頻度が1や2の場合等)にその確率値は信用できない可能性があるため、強制的にバックオフさせた方が精度が良くなる場合があるからである。
In step S905, the symbol string
ステップS906では確率P*(x│wj k)が存在しない場合にバックオフをするため、αにバックオフ係数(補正係数)α(wj k)を掛けた値を新たな累積バックオフ係数αとする(α←α×α(wj k))。さらに、記号列wj kの最も順番が若い記号を切り詰めるために(バックオフをするために)jを1増やす(j←j+1)。例えば、記号列abcのディスカウントされたトライグラム確率P*(c│ab)が存在しない場合には、(α←α×α(ab))とし、記号列abcの最も順番が若い(一番最初の)記号aを切り詰め、記号列bcとし、S905の判定処理を繰り返す。なお、バックオフ係数α(wj k)は記号列モデル格納部807から取得することができる。
Since the step S906 probability P * (x│w j k) is the back-off in the absence, back-off factor alpha (correction coefficient) α (w j k) a value obtained by multiplying the new cumulative back-off factor Let α be α (α ← α × α (w j k )). Further, j is incremented by 1 (j ← j + 1) in order to truncate the youngest symbol in the symbol string w j k (to back off). For example, if the discounted trigram probability P * (c | ab) of the symbol string abc does not exist, (α ← α × α (ab)) and the lowest order of the symbol string abc (the first The symbol a is truncated to obtain a symbol string bc, and the determination process in S905 is repeated. The back-off coefficient α (w j k ) can be acquired from the symbol string
ステップS907では、確率P*(x│wj k)が存在するので、状態遷移<q→S(wj kx),x:x/-log(αP*(x│wj k))>を作り、これを唯一の状態遷移としてもつ状態遷移リスト(状態遷移の集合)Eを生成する。なお、確率P*(x│wj k)と累積バックオフ係数αとの積に対応する値-log(αP*(x│wj k)を第2確率ともいう。この第2確率を現在の仮説の集合の各仮説が到達している状態から入力された記号xへ遷移する状態遷移の状態遷移確率として設定する。 In step S907, since there is a probability P * (x│w j k), the state transition <q → S (w j k x), x: x / -log (αP * (x│w j k))> And a state transition list (a set of state transitions) E having this as the only state transition is generated. Note that a value −log (αP * (x | w j k ) corresponding to the product of the probability P * (x | w j k ) and the cumulative back-off coefficient α is also referred to as a second probability. It is set as the state transition probability of the state transition that transitions from the state reached by each hypothesis of the set of hypotheses to the input symbol x.
最後にステップS908に進み、取得した状態遷移リストEを仮説展開部804に出力して状態遷移集合取得手段809の処理を終了する。
Finally, in step S908, the acquired state transition list E is output to the hypothesis developing unit 804, and the processing of the state transition set acquiring
図9の手順に従えば、従来法で図5の状態遷移が作られる場合には、本実施形態でも同じ状態遷移が作られる。従来法で図6の状態遷移が作られる場合には、図10のような状態遷移が作られる(但し、破線の部分は図6との比較のために書かれており、本実施形態では作成されない)。従来法で図7の状態遷移が作られる場合には、図11のような状態遷移が作られる(但し、破線の部分は図7との比較のために書かれており、本実施形態では作成されない)。図6における状態ab,b,bcの状態遷移が図10では一つにまとめられているが、どちらも入力記号、出力記号、および累積重みは一致する。図7も同様に、状態遷移ab,b,ε,cの状態遷移が図11では一つの遷移にまとめられているが、入力記号、出力記号、および累積重みは一致する。 According to the procedure of FIG. 9, when the state transition of FIG. 5 is made by the conventional method, the same state transition is also made in this embodiment. When the state transition of FIG. 6 is made by the conventional method, the state transition as shown in FIG. 10 is made (however, the broken line portion is written for comparison with FIG. 6 and is created in this embodiment. Not) When the state transition of FIG. 7 is made by the conventional method, the state transition as shown in FIG. 11 is made (however, the broken line portion is written for comparison with FIG. 7 and is created in this embodiment. Not) Although the state transitions of the states ab, b, and bc in FIG. 6 are combined into one in FIG. 10, the input symbols, the output symbols, and the cumulative weights are all the same. Similarly in FIG. 7, the state transitions of the state transitions ab, b, ε, and c are combined into one transition in FIG. 11, but the input symbol, the output symbol, and the cumulative weight match.
<終了状態判定手段810>
終了状態判定手段810は、仮説展開部804で生成された仮説リスト(仮説の集合)Hを受け取り、仮説の集合Hの中の個々の仮説hが到達した状態s[h]が終了状態か否か、すなわちs[h]∈Fか否かを判定する。例えば状態S(ε)=0が唯一の終了状態とするなら、s[h]=0なら終了状態、s[h]≠0なら終了状態ではない、という判定をしても良い。これは、図4のS113の処理に相当する。終了状態判定手段810は、判定結果を仮説展開部804に出力する。
<End state determination means 810>
The end state determination means 810 receives the hypothesis list (hypothesis set) H generated by the hypothesis expansion unit 804, and whether or not the state s [h] in which each hypothesis h in the hypothesis set H has reached is the end state. That is, it is determined whether or not s [h] ∈F. For example, if state S (ε) = 0 is the only end state, it may be determined that if s [h] = 0, it is the end state, and if s [h] ≠ 0, it is not the end state. This corresponds to the process of S113 in FIG. The end
記号列モデル格納部807、初期状態取得手段808、状態遷移集合取得手段809及び終了状態判定手段810により、事前に記号列モデルからWFSTを作成しておくのではなく、入力記号を読み込むごとに、記号列モデルを参照して現在の状態から入力記号により変換可能な変換規則だけ(つまり部分的なWFSTのみ)を生成し、これを用いて記号列変換を行うことができる。これにより、記号列変換の途中に記号列モデルに記憶されている内容(確率値や補正係数の値)を更新しても、WFSTを再構成することなく記号列変換を行うことができる。従来よりも高速に動的にWFSTを生成し記号列変換を行うことができる。
The symbol string
<仮説絞込み部105>
仮説絞込み部105は、仮説展開部804で生成された仮説の集合を受け取り、同じ状態に到達している仮説の中で累積重みが最小または最大となる仮説から所定数の仮説以外の仮説を削除することにより仮説を絞り込む。そして、入力記号列が最後まで読み込まれていれば、その終了状態に到達している仮説の中から累積重み(W[h])が最小または最大となる仮説hを選び、その出力記号列O[h]を記号列変換結果として、記号列出力部106に送る。入力記号列が最後まで読み込まれていない場合には、絞り込み後の仮説の集合を仮説展開部804へ送る。
<
The hypothesis narrowing-down
<記号列出力部106>
記号列出力部106では、仮説絞込み部105から受け取った出力記号列を記号列変換結果として出力する。
<Symbol
The symbol
<記号列を状態番号に写像する関数の例>
次に、記号列w1 kに対応する状態S(w1 k)を効率的に求める方法を説明する。例えば、記号列モデルの個々の確率が図12(バックオフトライグラムの場合)のようにコンピュータのメモリ上に配置されていると仮定する。ここで、ユニグラム確率のテーブルには、M個の記号vm(m=1〜M)が登録されており、その各エントリには、記号のid番号m、ユニグラム確率P(vm)、バックオフ係数α(vm)および後に続くバイグラムが格納されたエントリの先頭を指すポインタnextが含まれている。図12の例では、ユニグラムの各ポインタは矢印で後に続くバイグラムが格納されたエントリの先頭を指している。またバイグラムのテーブルには同様に、記号のid番号n、バイグラム確率P(vn|vm)、バックオフ係数α(vmvn)および後に続くトライグラムが格納されたエントリの先頭を指すポインタnextが含まれている。但し、後に続く記号がない場合は、nextにnullを代入する。これは図12では矢印のないエントリはこの場合に相当する。更に、トライグラムのテーブルには、記号のid番号rとトライグラム確率P(vr|vmvn)が含まれている。従って、任意の3つの記号のid番号m,n,rの順列が与えられた場合は、ユニグラムのm番目のエントリからそのnextが指すバイグラムテーブルのエントリからm+1番目のユニグラムエントリのnextが指すバイグラムテーブルのエントリの手前まで、id番号nに一致するバイグラムエントリを探す。id番号nに一致するバイグラムエントリが見つかれば、そのnextが指すトライグラムテーブルのエントリからn+1番目のバイグラムエントリのnextが指すトライグラムテーブルのエントリの手前まで、id番号rに一致するトライグラムエントリを探す。もしユニグラムから順に辿る過程で一致するid番号が見つからない場合は、3つのid番号m,n,rからなる順列(m,n,r)を2つのid番号からなる順列(n,r)にして、ユニグラムテーブルのエントリからid番号nに一致するユニグラムエントリのnextが指すバイグラムテーブルのエントリからid番号nに一致するユニグラムエントリの次のユニグラムエントリのnextが指すバイグラムテーブルのエントリの手前まで、id番号rに一致するバイグラムエントリを探す。見つかればその確率に累積バックオフ係数を掛けた値をトライグラム確率として返す。見つからなければ、2つのid番号からなる順列(n,r)を1つのid番号からなる順列(r)にして、ユニグラムエントリテーブルからid番号rに一致するユニグラムエントリを探索し、その確率に累積バックオフ係数を掛けた値をトライグラム確率として返す。
<Example of function that maps symbol string to state number>
Next, a method for efficiently obtaining the state S (w 1 k ) corresponding to the symbol string w 1 k will be described. For example, assume that the individual probabilities of the symbol string model are arranged in the memory of a computer as shown in FIG. 12 (in the case of a back-off trigram). Here, M symbols v m (m = 1 to M) are registered in the table of unigram probabilities, and each of its entries has symbol id number m, unigram probability P (v m ), back A pointer next pointing to the head of the entry storing the off coefficient α (v m ) and the subsequent bigram is included. In the example of FIG. 12, each pointer of a unigram points to the head of an entry storing a bigram that follows with an arrow. Similarly, the bigram table indicates the head of the entry in which the symbol id number n, bigram probability P (v n | v m ), backoff coefficient α (v m v n ), and the following trigram are stored. Pointer next is included. However, if there is no symbol that follows, substitute null for next. This corresponds to this case in FIG. Further, the trigram table includes the symbol id number r and the trigram probability P (v r | v m v n ). Therefore, if a permutation of id numbers m, n, r of any three symbols is given, the next of the m + 1th unigram entry from the entry of the bigram table pointed to by next from the mth entry of the unigram The bigram entry matching the id number n is searched before the bigram table entry pointed to by. If a bigram entry matching the id number n is found, the trigram matching the id number r from the trigram table entry pointed to by the next to the entry in the trigram table pointed to by the next n + 1 bigram entry next Look for an entry. If a matching id number is not found in the process of sequentially tracing from the unigram, the permutation (m, n, r) consisting of the three id numbers m, n, r is changed to the permutation (n, r) consisting of the two id numbers. The entry of the bigram table entry pointed to by next of the next unigram entry of the unigram entry matching the id number n from the entry of the bigram table pointed to by the next unigram entry matching the id number n from the unigram table entry Find the bigram entry matching the id number r until the foreground. If found, the value obtained by multiplying the probability by the cumulative back-off factor is returned as the trigram probability. If not found, a permutation (n, r) consisting of two id numbers is changed to a permutation (r) consisting of one id number, and a unigram entry matching the id number r is searched from the unigram entry table, and its probability Is multiplied by the cumulative backoff factor and returned as the trigram probability.
例えば、3つのid番号1,2,4の順列(1,2,4)が与えられた場合、ユニグラムエントリの1からnextのリンクを辿って、バイグラムエントリの2までは見つかるが、後に続くトライグラムエントリは1,9,13なので、4は見つからない。そこでバックオフのために、まず到達したバイグラムエントリv1v2のバックオフ係数α(v1v2)を記憶する。次に、最初のid番号1を削って、2つのid番号2,4の順列(2,4)を用いてユニグラムエントリの2からnextのリンクを辿って、バイグラムエントリの4を見つける。ここでバックオフトライグラム確率は、α(v1v2)P(v4|v2)として計算される。仮に、バックオフして2つのid番号2,4の順列(2,4)も見つからなかった場合は、更にid番号2を削って、id番号4のユニグラムまでバックオフする。ここでバックオフトライグラム確率は、α(v1v2)α(v2)P(v4)として計算される。
For example, given three permutations of
このデータ構造を利用して、例えば状態S(w1 k)は、w1 kに対応するid番号列を利用してユニグラムテーブルからid番号が一致するエントリを辿って、kグラムまで一致するid番号が見つかった場合は、ユニグラムの最初のエントリが格納されているメモリ上の位置(アドレス)を起点として、その見つかったエントリが格納されているメモリ上の相対位置をその状態番号として割り当てることができる。但し、Lグラムのエントリ(Lグラム確率と、各記号列w1 L'に対するバックオフ係数α(w1 L')等)はメモリ上で連続して配置されているものとする。つまり、記号列モデル格納部807に含まれる全ての記号列の情報とその連鎖確率をコンピュータのメモリ上に連続させて格納する。そうすることで、各記号列のメモリアドレス番号から任意の起点となるアドレス番号を差し引いた相対アドレス番号に比例する値をもって状態番号とする。状態番号0は記号εに割り当てるとすれば、
状態番号=(見つかったエントリのアドレス − ユニグラムの最初のエントリのアドレス)
÷(N-1グラムまでのエントリ1個分のメモリサイズ) +1
・・・(1)
として求めることができる。これが関数Sの例である。逆に、状態番号に対応するエントリは、エントリのアドレス=(状態番号−1)
×(N-1グラムまでのエントリ1個分のメモリサイズ)
+ユニグラムの最初のエントリのアドレス
・・・(2)
で求められる。これにより、任意の状態番号qに対応する記号列S-1(q)も効率的に求めることができる。
Using this data structure, for example, the state S (w 1 k ) matches up to k gram by tracing the entry with the matching id number from the unigram table using the id number sequence corresponding to w 1 k. When the id number is found, the relative position on the memory where the found entry is stored is assigned as the state number starting from the position (address) on the memory where the first entry of the unigram is stored. Can do. However, it is assumed that L-gram entries (L-gram probabilities, backoff coefficient α (w 1 L ′ ) for each symbol string w 1 L ′, etc.) are continuously arranged on the memory. That is, information on all the symbol strings included in the symbol string
Status number = (address of found entry-address of first entry in unigram)
÷ (memory size for one entry up to N-1 grams) + 1
... (1)
Can be obtained as This is an example of function S. Conversely, the entry corresponding to the state number is the entry address = (state number-1).
× (Memory size for one entry up to N-1 grams)
+ Address of the first entry in the unigram
... (2)
Is required. As a result, the symbol string S −1 (q) corresponding to the arbitrary state number q can also be efficiently obtained.
<変形例>
記号列モデル格納部807には、Lグラム確率に代えて記号列の出現確率(生起確率)を記憶しておいてもよい。Lグラム確率を必要とする各部は、記号列の出現確率を用いて、式(4)により、Lグラム確率を計算すればよい。
<Modification>
The symbol string
〔第二実施形態〕
第二実施形態では、本発明を音声認識に適用する例を説明する。
記号列モデルはバックオフトライグラム言語モデルとし、図12に示すようなデータ構造でメモリに格納される。
[Second Embodiment]
In the second embodiment, an example in which the present invention is applied to speech recognition will be described.
The symbol string model is a back-off trigram language model and is stored in the memory with a data structure as shown in FIG.
図13は、第二実施形態の音声認識装置200の機能ブロック図である。従来法(特許文献1参照)の言語モデルWFST格納部の代わりに、バックオフトライグラム言語モデル格納部1307、初期状態取得手段1308、状態遷移集合取得手段1309、終了状態判定手段1310とからなる言語モデルWFST生成部130を有する点が異なる。
FIG. 13 is a functional block diagram of the speech recognition apparatus 200 of the second embodiment. A language comprising a backoff trigram language
すなわち、バックオフトライグラム言語モデル格納部1307、初期状態取得手段1308、状態遷移集合取得手段1309、および終了状態判定手段1310を用いて、言語モデルWFSTの状態遷移集合を必要に応じて生成することで、言語モデルWFSTが存在するかのように記号列変換を行う。
That is, using the back-off trigram language
なお、バックオフトライグラム言語モデル格納部1307、初期状態取得手段1308、状態遷移集合取得手段1309、および終了状態判定手段1310以外の各部の処理については、特許文献1に詳細が記載されているため、ここでは概要のみを説明する。
Note that the processing of each unit other than the back-off trigram language
<音声信号入力部1303及び音声特徴記号列抽出部1304>
音声を入力する音声信号入力部1303から送られた音声信号はその音声の短時間音響パターンの時系列を記号列として抽出する音声特徴記号列抽出部1304において音響特徴記号列に変換し、その音響特徴記号列を入力として記号列変換を行う記号列変換部1305に送る。
<Audio
The voice signal sent from the voice
<記号列変換部1305>
記号列変換部1305は、仮説展開部1306、仮説補正部1311及び仮説絞込み部1312を含む。
<Symbol
The symbol
記号列変換部1305は、音響モデル格納部1301から音声固定単位(例えば音素)の標準的な音響パターン系列の特徴を保持し、個々の音声固定単位と任意の音響パターンの間の類似度を与える音響モデルを読みだす。
The symbol
音声認識に用いる音響パターンには、短い時間(例えば10ミリ秒)ごとに音声信号を分析することにより得られるメルケプストラム(mel-frequency cepstral coefficients,
MFCCと呼ばれる)、デルタMFCC、LPCケプストラム、対数パワーなどがある。
The acoustic pattern used for speech recognition includes mel-frequency cepstral coefficients (mel-frequency cepstral coefficients, obtained by analyzing the speech signal every short time (for example, 10 milliseconds).
(Referred to as MFCC), delta MFCC, LPC cepstrum, log power, etc.
種々の音声固定単位(例えば音素)の標準的特徴を保持する音響モデルとしては、例えば、それら音響パターンの系列の集合を確率・統計理論に基づいてモデル化する隠れマルコフモデル法(Hidden Markov Model,以後HMMと呼ぶ)が主流である。このHMM法の詳細は、例えば、社団法人電子情報通信学会、中川聖一著「確率モデルによる音声認識」に開示されている。音響モデルとして他の従来技術を用いてもよい。 As an acoustic model that retains standard features of various speech fixed units (for example, phonemes), for example, a hidden Markov model method (Hidden Markov Model, which models a set of sequences of acoustic patterns based on probability / statistical theory) (Hereinafter referred to as HMM) is the mainstream. Details of the HMM method are disclosed in, for example, “Recognition of Speech by Stochastic Model” by Seichi Nakagawa, Institute of Electronics, Information and Communication Engineers. Other conventional techniques may be used as the acoustic model.
さらに、仮説展開部1306は、単語辞書WFST格納部1302から前記音声固定単位の系列からその発音を持つ単語の系列に変換する単語辞書WFSTを読み出す。さらに、記号列変換部1305は、言語モデルWFST格納部の代わりに、言語モデルWFST生成部130を用いて、言語モデルWFSTの状態遷移集合を必要に応じて生成し、音響特徴記号列抽出部1304から送られた音響特徴記号列を読み込み、累積重み最小の出力記号列を求め、記号列出力部131に送る。
Further, the
(仮説展開部1306)
仮説展開部1306は、音響特徴記号列抽出部1304から送られた音響特徴記号列の記号を一つずつ読み込む。次に、仮説展開部1306は、単語辞書WFSTを用いて、現在の仮説の集合の各々に新しい状態遷移を追加する。
(Hypothesis expansion unit 1306)
The
なお、単語辞書WFSTの重みとして、音響モデルによって計算される音響特徴記号(音響パターン)のスコアを用いる。ただし、このスコアは、大きいほど入力音響パターンが音響モデルによって表される音声固定単位に近いことを表すので、マイナスの音響スコアをもって重みとする。隠れマルコフモデルによる音響スコアの計算では、例えばガウス分布に基づく確率値が用いられる。 Note that the score of the acoustic feature symbol (acoustic pattern) calculated by the acoustic model is used as the weight of the word dictionary WFST. However, the larger the score, the closer the input acoustic pattern is to the sound fixed unit represented by the acoustic model, so a negative acoustic score is used as the weight. In the calculation of the acoustic score by the hidden Markov model, for example, a probability value based on a Gaussian distribution is used.
(仮説補正部1311)
仮説補正部1311は、新しい状態遷移を追加された仮説の集合を受け取る。仮説補正部1311は、バックオフトライグラム言語モデル格納部1307のバックオフトライグラム言語モデルを参照しながら、初期状態取得手段1308、状態遷移集合取得手段1309、終了状態取得手段1310によって、仮説展開部1306から受け取った個々の仮説の累積重みを補正する。
(Hypothesis correction unit 1311)
The
具体的には、仮説展開部1306から受け取った個々の仮説の状態遷移過程から出力される記号列を入力記号列として、第一実施形態と同様の処理を行って出力される出力記号列に対応する累積重み、すなわち、可能な状態遷移過程の中で累積重みが最小となる状態遷移過程の累積重み、をその仮説の累積重みに加算することにより、各仮説の累積重みを更新する。言い換えると、仮説補正部1311は、言語モデルWFST生成部130により部分的に生成される、バックオフトライグラム言語モデルに対応するWFSTとは別の単語辞書WFSTを用いて、音響特徴記号列(バックオフトライグラム言語モデルに対応するWFSTに対する入力記号列とは別の記号列である)を変換することにより得た仮説の集合に含まれる仮説の状態遷移過程から出力される記号列を、バックオフトライグラム言語モデルに対応するWFSTに対する入力記号列として、第一実施形態と同様の処理を行う。
Specifically, a symbol string output from the state transition process of each hypothesis received from the
(仮説絞込み部1312)
仮説絞込み部1312は、仮説補正部1311で生成された仮説の集合を受け取り、同じ状態に到達している仮説の中で累積重みが最小または最大となる仮説から所定数の仮説以外の仮説を削除することにより仮説を絞り込む。そして、入力記号列が最後まで読み込まれていれば、その終了状態に到達している仮説の中から累積重みが最小または最大となる仮説を選び、その出力記号列を記号列変換結果として、記号列出力部1313に送る。入力記号列が最後まで読み込まれていない場合には、累積重みの大きい所定数の仮説を削除して、絞り込んだ後、残った仮説の集合を仮説展開部1306へ送る。
(Hypothesis narrowing part 1312)
The hypothesis narrowing-down
仮説展開部1306は、音響特徴記号列の次の記号を読み込み、記号列変換部1305は、入力された音声特徴記号列をすべて読み終えるまで、同様の処理を繰り返す。
最後の音声特徴記号を読み込んだ後に、仮説絞込み部1312において累積重み最小の仮説とその出力記号列を求め、記号列出力部1313に送る。
The
After reading the last speech feature symbol, the hypothesis narrowing-down
<記号列出力部1313>
記号列出力部1313は、受け取った出力記号列を音声認識結果として出力する。
このような構成により、本発明を音声認識に利用することができる。
<Symbol
The symbol
With such a configuration, the present invention can be used for speech recognition.
〔変形例〕
第一実施形態の状態遷移集合取得手段809において確率値P(x│wj k)を計算する際に、現在の話題に依存したユニグラム確率分布PT(x)を導入し、この確率分布に基づいて例えば、
P^'(x│wj k)=λPT(x)+(1-λ)P(x│wj k) (7)
のように確率値を現在の話題に応じて動的に更新してもよい。例えば、最近話された単語の頻度からユニグラム確率分布PT(x)を推定しても良い。ここで、λは、話題に依存したユニグラム確率と話題に依存しないNグラム確率のバランスを取る係数であり、0≦λ≦1とする。
[Modification]
When calculating the probability value P (x | w j k ) in the state transition set
P ^ '(x│w j k ) = λP T (x) + (1-λ) P (x│w j k ) (7)
As described above, the probability value may be dynamically updated according to the current topic. For example, the unigram probability distribution P T (x) may be estimated from the frequency of recently spoken words. Here, λ is a coefficient that balances the unigram probability that depends on the topic and the N-gram probability that does not depend on the topic, and 0 ≦ λ ≦ 1.
あるいは、第一実施形態の記号列モデル格納部807や第二実施形態のバックオフトライグラム言語モデル格納部1307に格納された記号列の出現確率を更新する確率値更新部を備え、記号列変換や音声認識処理の途中で、記号列モデルやバックオフトライグラム言語モデル格納部に格納された一部の記号列の出現確率が更新されても良い。
Alternatively, a symbol string conversion unit includes a probability value update unit that updates the appearance probability of the symbol string stored in the symbol string
〔実験例〕
図13に示す形態で音声認識システムを構築した。音響モデルには、43種類の音素に対するHMMを用意し、各音素ごとに3つの状態があり、各状態にはその音素のコンテキスト(前にある音素は何か、後ろに続く音素は何か)に応じて3011種類ある音響パターンの確率密度分布の内の一つが割り当てられている。これら確率密度分布のId番号を音声固定単位とした。
[Experimental example]
A speech recognition system was constructed in the form shown in FIG. The acoustic model has HMMs for 43 types of phonemes, each phoneme has 3 states, and each state has its phoneme context (what is the phoneme in front and what is the phoneme that follows) Accordingly, one of the probability density distributions of 3011 types of acoustic patterns is assigned. The Id numbers of these probability density distributions were used as voice fixed units.
音声信号の音響パターンの系列は、10ミリ秒ごとに音声信号を分析することにより得られるMFCC12次元、MFCCの各次元の時系列方向に前後2フレームを見たときの一次回帰係数であるデルタMFCC12次元、各次元の時系列方向に前後2フレームを見たときの一次回帰係数であるデルタデルタMFCC12次元、および対数パワーを合わせた39次元のベクトルを要素とする入力系列として抽出する。
The audio signal acoustic pattern series is obtained by analyzing the audio signal every 10 milliseconds, and delta MFCC12 which is a linear regression coefficient when two frames before and after are viewed in the time series direction of each dimension of MFCC. It is extracted as an input sequence whose elements are dimensional and
辞書として10万単語とその発音を用い、音声固定単位の系列から単語列に変換するWFSTを構築した。 Using 100,000 words and their pronunciation as a dictionary, we built a WFST that converts a fixed speech unit sequence to a word sequence.
バックオフトライグラム言語モデルは、「日本語話し言葉コーパス」の2762講演を書き起こした単語列から、バックオフトライグラム確率を推定し、図12に示すようなデータ構造に格納して用いた。 In the back-off trigram language model, the back-off trigram probability was estimated from the word string created from the 2762 lecture of “Japanese Spoken Language Corpus” and stored in a data structure as shown in FIG.
更に、講演音声を認識する際に、(7)式にある話題依存のユニグラムを導入し、このユニグラム確率を講演音声を認識しながら、すでに得られた音声認識結果から推定し、同じ講演の中で、そこから先の未来の音声を認識するために利用する方法も評価した。これはキャッシュ言語モデルと呼ばれる方法で、(7)式のPT(wi)を次のように計算する。
PT(wi)=Pcache(wi│w1 (i-1))=(CK(wi))/K (8)
Furthermore, when recognizing lecture speech, the topic-dependent unigram in equation (7) is introduced, and this unigram probability is estimated from the already obtained speech recognition results while recognizing the lecture speech. I also evaluated the method used to recognize future speech. This is a method called a cache language model, and P T (w i ) in equation (7) is calculated as follows.
P T (w i ) = P cache (w i │w 1 (i-1) ) = (C K (w i )) / K (8)
ここで、Kはすでに認識した単語の中で過去何単語分を遡って考慮するかを表す自然数、CK(wi)は最近認識したK単語の中でのwiの出現回数を表す。このキャッシュ言語モデルは、ある人があるテーマで話をするとき「一度話された単語はもう一度話されやすい」という経験則に基づくモデルである。キャッシュ言語モデルについては、非特許文献1及び2や、参考文献1に開示されている。
(参考文献1)R. Kuhn and R. De Mori著, “A cache-based natural language model for speech recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 12, no.6, pp. 570-583, 1990
Here, K is a natural number indicating how many past words among the already recognized words are considered, and C K (w i ) represents the number of occurrences of w i in the recently recognized K words. This cache language model is a model based on an empirical rule that “a word spoken once is easy to be spoken again” when a person speaks on a certain theme. The cache language model is disclosed in
(Reference 1) R. Kuhn and R. De Mori, “A cache-based natural language model for speech recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 12, no.6, pp. 570-583 , 1990
表1は従来法と本実施形態の認識処理時間と、認識誤り率を表している。本実施形態の場合は、キャッシュ言語モデルを利用した場合も併せて示している。実時間比は、認識処理時間を実際に話された時間で割った値であり、小さいほど高速であることを示す。認識処理時間は、Intel Xeon(登録商標) X5570 2.93GHzプロセッサを用いて音声認識を動作させ、10講演(各12分)を認識させたときの時間を計測して求めた。単語誤り率は、実際に話された単語の中で誤って認識した単語の割合を表しており、小さいほど音声認識の精度が高いことを表す。 Table 1 shows the recognition processing time and the recognition error rate of the conventional method and this embodiment. In the case of this embodiment, the case where a cache language model is used is also shown. The real time ratio is a value obtained by dividing the recognition processing time by the actually spoken time, and the smaller the value, the higher the speed. The recognition processing time was obtained by measuring the time when speech recognition was performed using Intel Xeon (registered trademark) X5570 2.93 GHz processor and 10 lectures (12 minutes each) were recognized. The word error rate represents the proportion of words that are mistakenly recognized among words that are actually spoken. The smaller the word error rate, the higher the accuracy of speech recognition.
表1の結果において、従来法では、バックオフトライグラム言語モデルを予めWFSTに変換して音声認識を行っている。本実施形態では、バックオフトライグラム言語モデルから状態遷移を必要に応じて生成し、音声認識を行っている。これらを比較すると単語誤り率は同一で、処理時間を表す実時間比もほぼ同じであることが分かる。但し、従来法ではバックオフトライグラム言語モデルをWFSTに変換するために、Intel Xeon(登録商標) X5570 2.93GHzプロセッサを用いて約8秒を要した。 In the results shown in Table 1, in the conventional method, the speech recognition is performed by converting the back-off trigram language model into WFST in advance. In this embodiment, a state transition is generated from a back-off trigram language model as necessary, and voice recognition is performed. When these are compared, it can be seen that the word error rate is the same and the real time ratio representing the processing time is substantially the same. However, in the conventional method, it took about 8 seconds using an Intel Xeon (registered trademark) X5570 2.93 GHz processor to convert the back-off trigram language model to WFST.
キャッシュ言語モデルを用いる際は1発話(約5秒〜10秒)を認識して PT(wi)を更新するたびにWFSTを作り直すと音声認識全体の処理量は大きく増加する。1講演に100発話あったと仮定すると、800秒の処理時間が上乗せされ、実際の発話時間が12分=720秒とすれば、実時間比は1.2〜1.3になると予想される。 When a cache language model is used, if one utterance (about 5 to 10 seconds) is recognized and P T (w i ) is updated every time WFST is recreated, the processing amount of the entire speech recognition greatly increases. Assuming 100 utterances per lecture, if the processing time of 800 seconds is added and the actual utterance time is 12 minutes = 720 seconds, the real time ratio is expected to be 1.2-1.3.
表1の本実施形態(キャッシュ言語モデルあり)の場合は、WFSTを作り直さずにキャッシュ言語モデルを利用でき、処理時間の増加は無く、実時間比は0.31であった。また、キャッシュ言語モデルの効果により、単語誤り率は18.4%に削減された。 In the case of the present embodiment shown in Table 1 (with a cache language model), the cache language model can be used without recreating the WFST, the processing time does not increase, and the real-time ratio is 0.31. The word error rate was reduced to 18.4% due to the effect of the cache language model.
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
<Program and recording medium>
In addition, various processing functions in each device described in the above embodiments and modifications may be realized by a computer. In that case, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage unit. When executing the process, this computer reads the program stored in its own storage unit and executes the process according to the read program. As another embodiment of this program, a computer may read a program directly from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program includes information provided for processing by the electronic computer and equivalent to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In addition, although each device is configured by executing a predetermined program on a computer, at least a part of these processing contents may be realized by hardware.
Claims (8)
前記入力記号列の先頭から順に1つずつ記号を取得する記号列取得ステップと、
前記記号列取得ステップで取得した記号と現在の仮説の集合の各仮説が到達している状態を特定する情報である状態情報とを入力として、1つ以上の記号からなる記号列の生起確率または連鎖確率が記号列モデルとして記憶されている記号列モデル格納部を参照して、前記現在の仮説が到達している状態を遷移元として、当該遷移元から遷移可能な状態遷移およびその状態遷移確率を取得する状態遷移集合取得ステップと、
前記状態遷移集合取得ステップで取得した前記遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮説を更新する仮説展開ステップと、
前記仮説展開ステップで更新した仮説の集合のうち同じ状態に到達している仮説の中で累積重みが最大または最小となるものから所定数の仮説以外の仮説を削除することにより仮説を絞り込み、前記記号列取得ステップにおいて前記入力記号列が最後まで読み込まれていれば、終了状態に到達している仮説の中から前記累積重みが最大または最小となる仮説を前記出力記号列として求める仮説絞り込みステップと、
を含む記号列変換方法。 A symbol string conversion method for converting an input symbol string to an output symbol string,
A symbol string acquisition step of acquiring symbols one by one in order from the top of the input symbol string;
The occurrence probability of a symbol string consisting of one or more symbols, using as input the symbol acquired in the symbol string acquisition step and state information that is information specifying the state in which each hypothesis of the current set of hypotheses has reached With reference to the symbol string model storage unit in which the chain probability is stored as a symbol string model, the state that the current hypothesis has reached is a transition source, and the state transition that can be transitioned from the transition source and the state transition probability A state transition set acquisition step for acquiring
A hypothesis expansion step of updating each hypothesis in the current hypothesis set using a set of state transitions that can be transitioned from the transition source acquired in the state transition set acquisition step;
Narrowing down hypotheses by deleting hypotheses other than a predetermined number of hypotheses from the hypothesis set that has reached the same state among the hypothesis sets updated in the hypothesis expansion step, If the input symbol string has been read to the end in the symbol string acquisition step, a hypothesis narrowing step for obtaining, as the output symbol string, a hypothesis having the maximum or minimum cumulative weight among hypotheses that have reached an end state; ,
Symbol string conversion method including
前記連鎖確率は、ある記号が生起する確率、及び、1以上の記号からなる記号列に依存してある記号が生起する確率であり、
前記記号列モデル格納部には、前記連鎖確率に加えて、各連鎖確率に対応する記号列のバックオフ係数が対応付けて記憶されており、
前記状態遷移集合取得ステップは、
累積バックオフ係数の初期値を設定する初期値設定ステップと、
前記遷移元の状態に対応する記号列に依存して前記入力された記号が生起する確率に対応する第1確率が前記記号列モデル格納部に存在する場合に、その第一確率を取得する第1確率取得ステップと、
前記第1確率が存在しない場合、または、所定の閾値より小さい場合に、前記遷移元の状態に対応する記号列のバックオフ係数を前記記号列格納部から取得し、取得したバックオフ係数を前記累積バックオフ係数に乗じることにより、前記累積バックオフ係数を更新する累積バックオフ係数更新ステップと、
前記第1確率が存在する場合、または、所定の閾値以上の場合に、前記第1確率と前記累積バックオフ係数との積に対応する値である第2確率を、前記現在の仮説の集合の各仮説が到達している状態から前記入力された記号へ遷移する状態遷移の状態遷移確率として設定する状態遷移確率設定ステップと、
を含む、記号列変換方法。 The symbol string conversion method according to claim 1,
The chain probability is a probability that a certain symbol occurs and a probability that a certain symbol occurs depending on a symbol string composed of one or more symbols.
In the symbol string model storage unit, in addition to the chain probability, a back-off coefficient of a symbol string corresponding to each chain probability is stored in association with each other,
The state transition set acquisition step includes:
An initial value setting step for setting an initial value of the cumulative backoff coefficient;
When the first probability corresponding to the probability that the input symbol occurs depending on the symbol string corresponding to the state of the transition source exists in the symbol string model storage unit, the first probability is acquired. 1 probability acquisition step;
When the first probability does not exist or is smaller than a predetermined threshold, a back-off coefficient of a symbol string corresponding to the state of the transition source is acquired from the symbol string storage unit, and the acquired back-off coefficient is A cumulative backoff coefficient update step of updating the cumulative backoff coefficient by multiplying by a cumulative backoff coefficient;
When the first probability exists or is equal to or greater than a predetermined threshold, a second probability that is a value corresponding to a product of the first probability and the cumulative back-off coefficient is set to the current hypothesis set. A state transition probability setting step for setting as a state transition probability of a state transition that transitions from the state reached by each hypothesis to the input symbol;
Symbol string conversion method including
前記記号列モデル格納部に含まれる全ての記号列の情報とその連鎖確率をコンピュータのメモリ上に連続させて格納されており、
各記号列のメモリアドレス番号から任意の起点となるアドレス番号を差し引いた相対アドレス番号に比例する値をもって前記状態情報とする、
記号列変換方法。 The symbol string conversion method according to claim 1 or 2,
Information of all the symbol strings included in the symbol string model storage unit and the chain probability thereof are continuously stored on the memory of the computer,
The state information is a value proportional to a relative address number obtained by subtracting an arbitrary starting address number from the memory address number of each symbol string,
Symbol string conversion method.
前記記号列モデルに対応するWFSTとは別の一つ以上のWFSTを用いて前記入力記号列とは別の入力記号列である第2入力記号列を変換することにより得た仮説の集合に含まれるいずれかの仮説の状態遷移過程から出力される記号列が、前記記号列モデルに対する入力記号列である、
記号列変換方法。 The symbol string conversion method according to any one of claims 1 to 3,
Included in a set of hypotheses obtained by converting a second input symbol string that is an input symbol string different from the input symbol string using one or more WFSTs different from the WFST corresponding to the symbol string model A symbol string output from any hypothetical state transition process is an input symbol string for the symbol string model,
Symbol string conversion method.
前記音響特徴記号列の先頭から順に1つずつ記号を取得する記号列取得ステップと、
音響モデルによって計算される音響特徴記号のスコアを、重みとして用いる単語辞書WFSTを参照して、現在の仮説の集合の各々に新しい状態遷移を追加する仮説展開ステップと、
前記仮説展開ステップで状態遷移を追加された仮説の集合の各々の状態遷移過程から出力される記号列と、現在の仮説の集合の各仮説が到達している状態を特定する情報である状態情報とを入力として、1つ以上の記号からなる記号列の生起確率または連鎖確率が記号列モデルとして記憶されている言語モデル格納部を参照して、前記現在の仮説が到達している状態を遷移元として、当該遷移元から遷移可能な状態遷移およびその状態遷移確率を取得する状態遷移集合取得ステップと、
前記状態遷移集合取得ステップで取得した前記遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮説を更新する仮説補正ステップと、
前記仮説展開ステップで更新した仮説の集合のうち同じ状態に到達している仮説の中で累積重みが最大または最小となるものから所定数の仮説以外の仮説を削除することにより仮説を絞り込み、前記記号列取得ステップにおいて前記入力記号列が最後まで読み込まれていれば、終了状態に到達している仮説の中から前記累積重みが最大または最小となる仮説を前記音声認識結果として求める仮説絞り込みステップと、
を含む音声認識方法。 A speech recognition method for converting an acoustic feature symbol string obtained from speech into speech recognition results,
A symbol string acquisition step of acquiring symbols one by one in order from the top of the acoustic feature symbol string;
A hypothesis expansion step of adding a new state transition to each of the current set of hypotheses with reference to the word dictionary WFST using the score of the acoustic feature symbol calculated by the acoustic model as a weight;
Symbol information output from each state transition process of the set of hypotheses to which state transition has been added in the hypothesis expansion step, and state information that is information identifying the state reached by each hypothesis in the current set of hypotheses And the transition of the state where the current hypothesis has reached by referring to the language model storage unit in which the occurrence probability or the chain probability of a symbol string composed of one or more symbols is stored as a symbol string model As a source, a state transition set acquisition step for acquiring a state transition that can be transitioned from the transition source and its state transition probability;
A hypothesis correction step of updating each hypothesis in the set of current hypotheses using a set of state transitions that can be transitioned from the transition source acquired in the state transition set acquisition step;
Narrowing down hypotheses by deleting hypotheses other than a predetermined number of hypotheses from the hypothesis set that has reached the same state among the hypothesis sets updated in the hypothesis expansion step, If the input symbol string has been read to the end in the symbol string acquisition step, a hypothesis narrowing step for obtaining, as the speech recognition result, a hypothesis having the maximum or minimum cumulative weight among hypotheses that have reached an end state; ,
A speech recognition method including:
前記入力記号列の先頭から順に1つずつ記号を取得する記号列取得部と、
前記記号列取得部で取得した記号と現在の仮説の集合の各仮説が到達している状態を特定する情報である状態情報とを入力として、1つ以上の記号からなる記号列の生起確率または連鎖確率が記号列モデルとして記憶されている記号列モデル格納部を参照して、前記現在の仮説が到達している状態を遷移元として、当該遷移元から遷移可能な状態遷移およびその状態遷移確率を取得する状態遷移集合取得部と、
前記状態遷移集合取得部で取得した前記遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮説を更新する仮説展開部と、
前記仮説展開部で更新した仮説の集合のうち同じ状態に到達している仮説の中で累積重みが最大または最小となるものから所定数の仮説以外の仮説を削除することにより仮説を絞り込み、前記記号列取得部において前記入力記号列が最後まで読み込まれていれば、終了状態に到達している仮説の中から前記累積重みが最大または最小となる仮説を前記出力記号列として求める仮説絞り込み部と、
を含む記号列変換装置。 A symbol string converter for converting an input symbol string into an output symbol string,
A symbol string acquisition unit for acquiring symbols one by one in order from the top of the input symbol string;
The occurrence probability of a symbol string consisting of one or more symbols, using as input the symbol acquired by the symbol string acquisition unit and state information that is information identifying the state in which each hypothesis of the current hypothesis set has reached With reference to the symbol string model storage unit in which the chain probability is stored as a symbol string model, the state that the current hypothesis has reached is a transition source, and the state transition that can be transitioned from the transition source and the state transition probability A state transition set acquisition unit for acquiring
A hypothesis expansion unit that updates each hypothesis in the current set of hypotheses using a set of state transitions that can be transitioned from the transition source acquired by the state transition set acquisition unit;
Narrowing down hypotheses by deleting hypotheses other than a predetermined number of hypotheses from the hypothesis that has reached the same state among the hypothesis set updated in the hypothesis expansion unit, If the input symbol string is read to the end in the symbol string acquisition unit, a hypothesis narrowing-down unit that determines a hypothesis having the maximum or minimum cumulative weight as the output symbol string from among the hypotheses that have reached the end state; ,
A symbol string conversion device including:
前記音響特徴記号列の先頭から順に1つずつ記号を取得する記号列取得部と、
音響モデルによって計算される音響特徴記号のスコアを、重みとして用いる単語辞書WFSTを参照して、現在の仮説の集合の各々に新しい状態遷移を追加する仮説展開部と、
前記仮説展開部で状態遷移を追加された仮説の集合の各々の状態遷移過程から出力される記号列と、現在の仮説の集合の各仮説が到達している状態を特定する情報である状態情報とを入力として、1つ以上の記号からなる記号列の生起確率または連鎖確率が記号列モデルとして記憶されている言語モデル格納部を参照して、前記現在の仮説が到達している状態を遷移元として、当該遷移元から遷移可能な状態遷移およびその状態遷移確率を取得する状態遷移集合取得部と、
前記状態遷移集合取得部で取得した前記遷移元から遷移可能な状態遷移の集合を用いて、現在の仮説の集合の各仮説を更新する仮説補正部と、
前記仮説展開部で更新した仮説の集合のうち同じ状態に到達している仮説の中で累積重みが最大または最小となるものから所定数の仮説以外の仮説を削除することにより仮説を絞り込み、前記記号列取得部において前記入力記号列が最後まで読み込まれていれば、終了状態に到達している仮説の中から前記累積重みが最大または最小となる仮説を前記音声認識結果として求める仮説絞り込み部と、
を含む音声認識装置。 A speech recognition device that converts an acoustic feature symbol string obtained from speech into speech recognition results,
A symbol string acquisition unit for acquiring symbols one by one in order from the top of the acoustic feature symbol string;
A hypothesis expander that adds a new state transition to each of the current set of hypotheses, with reference to the word dictionary WFST using the score of the acoustic feature symbol calculated by the acoustic model as a weight,
State information that is a symbol string output from each state transition process of the set of hypotheses to which state transition is added in the hypothesis expansion unit and information for specifying the state reached by each hypothesis in the current set of hypotheses And the transition of the state where the current hypothesis has reached by referring to the language model storage unit in which the occurrence probability or the chain probability of a symbol string composed of one or more symbols is stored as a symbol string model As a source, a state transition set acquisition unit for acquiring a state transition that can be transitioned from the transition source and its state transition probability,
A hypothesis correction unit that updates each hypothesis of the current hypothesis set using a set of state transitions that can be transitioned from the transition source acquired by the state transition set acquisition unit;
Narrowing down hypotheses by deleting hypotheses other than a predetermined number of hypotheses from the hypothesis that has reached the same state among the hypothesis set updated in the hypothesis expansion unit, If the input symbol string has been read to the end in the symbol string acquisition unit, a hypothesis narrowing-down unit that obtains a hypothesis with the maximum or minimum cumulative weight among the hypotheses reaching the end state as the speech recognition result; ,
A speech recognition device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013170114A JP6078435B2 (en) | 2013-08-20 | 2013-08-20 | Symbol string conversion method, speech recognition method, apparatus and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013170114A JP6078435B2 (en) | 2013-08-20 | 2013-08-20 | Symbol string conversion method, speech recognition method, apparatus and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015040864A true JP2015040864A (en) | 2015-03-02 |
JP6078435B2 JP6078435B2 (en) | 2017-02-08 |
Family
ID=52695089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013170114A Active JP6078435B2 (en) | 2013-08-20 | 2013-08-20 | Symbol string conversion method, speech recognition method, apparatus and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6078435B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015152661A (en) * | 2014-02-12 | 2015-08-24 | 日本電信電話株式会社 | Weighted finite state automaton creation device, symbol string conversion device, voice recognition device, methods thereof and programs |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007066237A (en) * | 2005-09-02 | 2007-03-15 | Nippon Telegr & Teleph Corp <Ntt> | Symbol string conversion method, voice recognition method, voice paraphrase method, symbol string conversion device, program and storage medium |
-
2013
- 2013-08-20 JP JP2013170114A patent/JP6078435B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007066237A (en) * | 2005-09-02 | 2007-03-15 | Nippon Telegr & Teleph Corp <Ntt> | Symbol string conversion method, voice recognition method, voice paraphrase method, symbol string conversion device, program and storage medium |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015152661A (en) * | 2014-02-12 | 2015-08-24 | 日本電信電話株式会社 | Weighted finite state automaton creation device, symbol string conversion device, voice recognition device, methods thereof and programs |
Also Published As
Publication number | Publication date |
---|---|
JP6078435B2 (en) | 2017-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102375115B1 (en) | Phoneme-Based Contextualization for Cross-Language Speech Recognition in End-to-End Models | |
JP6493866B2 (en) | Information processing apparatus, information processing method, and program | |
KR101780760B1 (en) | Speech recognition using variable-length context | |
JP5331801B2 (en) | Method and apparatus for calculating language model look-ahead probability | |
US9293137B2 (en) | Apparatus and method for speech recognition | |
CN107705787A (en) | A kind of audio recognition method and device | |
JP6095588B2 (en) | Speech recognition WFST creation device, speech recognition device, speech recognition WFST creation method, speech recognition method, and program | |
JP7544989B2 (en) | Lookup Table Recurrent Language Models | |
JP2019012095A (en) | Phoneme recognition dictionary generation device and phoneme recognition device and their program | |
JP5319141B2 (en) | Language model pruning method and apparatus | |
JP2013125144A (en) | Speech recognition device and program thereof | |
Avram et al. | Romanian speech recognition experiments from the robin project | |
JP4764203B2 (en) | Speech recognition apparatus and speech recognition program | |
JP6078435B2 (en) | Symbol string conversion method, speech recognition method, apparatus and program thereof | |
JP6235922B2 (en) | Weighted finite state automaton creation device, symbol string conversion device, speech recognition device, method and program thereof | |
JP5124012B2 (en) | Speech recognition apparatus and speech recognition program | |
JP4528540B2 (en) | Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program | |
JP2006031278A (en) | Voice retrieval system, method, and program | |
Lei et al. | Data-driven lexicon expansion for Mandarin broadcast news and conversation speech recognition | |
JP2938865B1 (en) | Voice recognition device | |
Kang et al. | Lattice based transcription loss for end-to-end speech recognition | |
JP4674609B2 (en) | Information processing apparatus and method, program, and recording medium | |
JP2003271188A (en) | Device and method for processing language | |
JP6277659B2 (en) | Speech recognition apparatus and speech recognition method | |
Ni et al. | Investigation of using different Chinese word segmentation standards and algorithms for automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160719 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6078435 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |