JP2015121709A - デコーダ、デコード方法およびプログラム - Google Patents
デコーダ、デコード方法およびプログラム Download PDFInfo
- Publication number
- JP2015121709A JP2015121709A JP2013266007A JP2013266007A JP2015121709A JP 2015121709 A JP2015121709 A JP 2015121709A JP 2013266007 A JP2013266007 A JP 2013266007A JP 2013266007 A JP2013266007 A JP 2013266007A JP 2015121709 A JP2015121709 A JP 2015121709A
- Authority
- JP
- Japan
- Prior art keywords
- node
- score
- signal
- token
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 86
- 230000007704 transition Effects 0.000 claims abstract description 113
- 238000012545 processing Methods 0.000 claims abstract description 66
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 230000001186 cumulative effect Effects 0.000 claims description 86
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000013138 pruning Methods 0.000 claims description 24
- 238000012217 deletion Methods 0.000 claims description 19
- 230000037430 deletion Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 7
- 230000006870 function Effects 0.000 description 70
- 230000008569 process Effects 0.000 description 64
- 238000003909 pattern recognition Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 24
- 238000000605 extraction Methods 0.000 description 14
- 238000007792 addition Methods 0.000 description 12
- 244000141353 Prunus domestica Species 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 2
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
Abstract
【解決手段】実施形態のデコーダは、有向グラフを探索して、入力された信号列または信号の特徴量列に応じたラティスの一部または全部を生成する。デコーダは、トークン操作部と、ノード追加部と、接続検出部と、を備える。トークン操作部は、信号または特徴量を入力する毎に、探索中の経路の先頭の状態が割り当てられたオブジェクトである複数のトークンのそれぞれを、有向グラフに従って、空ではない入力記号が割り当てられている状態または遷移に達するまで移動させる。ノード追加部は、トークンを移動させる毎に、複数のトークンのそれぞれに割り当てられた状態に対応するノードをラティスに追加する。接続検出部は、i回目(iは1以上の整数)にラティスに追加したノードに接続された、i+1回目にラティスに追加したノードを、有向グラフを参照して検出する。
【選択図】図3
Description
まず、本実施形態の前提となる技術について説明する。
本実施形態では、有向グラフの一例である重み付き有限状態トランスデューサ(WFST)を探索する。なお、本実施形態では、有向グラフとしてWFSTを用いる例を説明するが、入力記号および出力記号および重みが、状態または遷移の何れかに割り当てられていれば、割り当てパターンが異なる他の有向グラフを探索してもよい。また、重みの付いていない有向グラフ(すなわち、重みが0の場合と同様)を探索してもよい。
例えば、WFSTを用いて連続的に音声認識をする場合を考える。この場合、認識処理に先立って、まず、入力された音声信号の特徴量を音声を表す細かい単位(例えば音素)へと変換するための音響モデル、音声を表す細かい単位(例えば音素)を単語へと変換するためのレキシコン、および、単語の並びを制約するための言語モデルを準備する。続いて、これらのモデルのそれぞれをWFSTへと変換する。続いて、WFSTで表されたこれらのモデルを統合する。なお、これらのモデルを1つに統合してもよいし、一部を統合せず、音声認識時に動的に統合してもよい。
音声認識をする場合、音響モデルとして隠れマルコフモデル(HMM)が用いられる場合が多い。HMMをWFSTに変換する方法は、大きく2つ存在する。第1の方法は、WFSTの遷移の中にHMMが含まれているとして取り扱う方法である。第2の方法は、信号スコアを算出するためアルゴリズム(関数、プログラム、テーブルまたは行列等を含む)、データ(パラメータ等を含む)、または、アルゴリズムおよびデータの両方を特定するためのスコア識別子を、遷移の入力記号に割り当てる方法である。
WFSTを探索する処理とは、入力された信号列または信号の特徴値列に応じた信号スコアおよび重みを累積した値が、最良となる状態と遷移との系列(経路)を算出する処理である。この累積した値を、累積スコアと呼ぶ。WFSTに言語モデルも統合されている場合には、言語モデルから得られるスコアも累積スコアに含まれる。
HMMを変換したWFSTの経路を探索する処理では、トークンパッシングと呼ばれる技術を用いる場合が多い。この技術ではトークンと呼ばれるオブジェクトが用いられる。トークンには、探索中の経路の先頭の状態が割り当てられる。WFSTを探索する処理は、複数の経路を並行して探索するので、同時に複数のトークンが管理される。また、トークンは、経路の累積スコアを保持する。
本実施形態では、WFSTの探索中にラティスを生成する。本実施形態において、ラティスは、ノードを有するグラフ、または、ノードおよびアークを有する非循環有向グラフである。なお、探索対象となる有向グラフ(例えばWFST)の状態および遷移と区別するために、ノードおよびアークと表現している。
(全体構成)
図1は、第1実施形態に係るパターン認識装置10の構成を示す図である。以下、第1実施形態に係るパターン認識装置10を説明する。
図2は、第1実施形態に係るデコーダ20のブロック図である。デコーダ20は、トークン記憶部31と、トークン操作部32と、スコア算出部33と、重複除去部34と、枝刈部35と、ラティス記憶部36と、ノード追加部37と、接続検出部38とを有する。
図3は、第1実施形態に係るデコーダ20の処理順序を示すフローチャートである。まず、信号の入力が開始されると、特徴抽出部12が信号から特徴量を抽出してデコーダ20に供給する。そして、デコーダ20は、ステップS101から処理を開始する。
図4は、第1実施形態に係るデコーダ20の処理内容を表す擬似コードを示す図である。つぎに、図4に示すデコーダ20により実行される擬似コードを参照して、デコーダ20の詳細な処理例を説明する。
図5は、第1実施形態に係るデコーダ20の処理の一例を示す遷移図である。デコーダ20が図4の擬似コードに従って動作した場合に、ラティスをどのように作成するのか、ラティスを用いてどのように最良な経路を見つけて、結果を出力するのかについて、具体的に説明する。
図6は、第1実施形態に係るパターン認識装置10のハードウェアブロック図である。パターン認識装置10は、CPU(Central Processing Unit)101と、操作部102と、表示部103、マイクロフォン104と、ROM(Read Only Memory)105と、RAM(Random Access Memory)106と、記憶部107と、通信装置108と、バス109とを備える。各部は、バス109により接続される。
以上のように、本実施形態に係るデコーダ20によれば、有向グラフ(例えばWFST)の探索が終了した後に、ラティスから累積スコアが最も良い経路を有向グラフを参照しながら見つけ出して出力記号列を生成する。従って、デコーダ20によれば、有向グラフの探索中に、ノード間の接続関係を示すバックポインタの生成および破棄をしなくてよいので、探索処理の計算コストを少なくし、バックポインタ等の管理のための記憶領域を削減することができる。
図7は、第2実施形態に係るデコーダ40のブロック図である。なお、第2実施形態に係るデコーダ40は、第1実施形態のデコーダ20に代えて、パターン認識装置10に備えられる。デコーダ40を構成および実行するプログラムは、第1実施形態に係るデコーダ20と略同一であるので、同一の機能および構成については図面中に同一の符号を付して詳細な説明を省略し、相違点について説明する。
図10は、第3実施形態に係るデコーダ50のブロック図である。なお、第3実施形態に係るデコーダ50は、第1実施形態のデコーダ20に代えて、パターン認識装置10に備えられる。デコーダ50を構成および実行するプログラムは、第1実施形態に係るデコーダ20と略同一であるので、同一の機能および構成については図面中に同一の符号を付して詳細な説明を省略し、相違点について説明する。
図12は、第4実施形態に係るデコーダ60のブロック図である。なお、第4実施形態に係るデコーダ60は、第1実施形態のデコーダ20に代えて、パターン認識装置10に備えられる。デコーダ60を構成および実行するプログラムは、第1実施形態に係るデコーダ20と略同一であるので、同一の機能および構成については図面中に同一の符号を付して詳細な説明を省略し、相違点について説明する。
以上の第1から第4実施形態では、探索する有向グラフとしてWFSTを用いた例を説明した。しかし、他の有向グラフを探索して同様にラティスを生成することもできる。他の有向グラフとは、入力記号、出力記号、および、重みの割り当て方が、WFSTと異なる有向グラフである。すなわち、入力記号、出力記号および重みが状態または遷移の何れかに割り当てられた有向グラフであれば、どのような有向グラフを用いてもよい。
12 特徴抽出部
20 デコーダ
22 記憶部
31 トークン記憶部
32 トークン操作部
33 スコア算出部
34 重複除去部
35 枝刈部
36 ラティス記憶部
37 ノード追加部
38 接続検出部
40 デコーダ
41 削除部
50 デコーダ
51 アーク追加部
60 デコーダ
61 第1分割部
62 第1収集部
63 第2分割部
64 第2収集部
65 第3分割部
66 第3収集部
67 第4分割部
68 第4収集部
71 メインスレッド
72 タスクキュー
73 結果キュー
74 ワーカースレッド
101 CPU
102 操作部
103 表示部
104 マイクロフォン
105 ROM
106 RAM
107 記憶部
108 通信装置
109 バス
Claims (20)
- 有向グラフを探索して、入力された信号列または前記信号の特徴量列に応じたラティスの一部または全部を生成するデコーダであって、
前記有向グラフは、入力記号および出力記号が状態または遷移に割り当てられ、
前記入力記号は、前記信号または前記特徴量から信号スコアを算出するためのアルゴリズムまたはデータの少なくとも一方を示すスコア識別子であり、
前記デコーダは、
前記信号または前記特徴量を入力する毎に、探索中の経路の先頭の状態が割り当てられたオブジェクトである複数のトークンのそれぞれを、前記有向グラフに従って、空ではない入力記号が割り当てられている状態または遷移に達するまで移動させるトークン操作部と、
トークンを移動させる毎に、前記複数のトークンのそれぞれに割り当てられた状態に対応するノードを前記ラティスに追加するノード追加部と、
i回目(iは1以上の整数)に前記ラティスに追加したノードに接続された、i+1回目に前記ラティスに追加したノードを、前記有向グラフを参照して検出する接続検出部と、
を備えるデコーダ。 - i回目に前記ラティスに追加したノードから、i+1回目に前記ラティスに追加したノードへのアークを、前記ラティスに追加するアーク追加部をさらに備える
請求項1に記載のデコーダ。 - 前記アーク追加部は、前記ノード追加部によるノードの追加が完了した後に、前記アークを前記ラティスに追加する
請求項2に記載のデコーダ。 - 前記トークンを移動させる毎に、前記複数のトークンのそれぞれに対して、経路の先頭の状態または遷移に割り当てられた前記入力記号に応じた信号スコア、および、経路上の前記信号スコアを累積した累積スコアを算出するスコア算出部をさらに備える
請求項1に記載のデコーダ。 - 前記ノード追加部は、追加する前記ノードのそれぞれに対して、
元となる前記トークンの前記信号スコアおよび前記累積スコア、
並びに、元となる前記トークンが表す経路の先頭の状態を関連付ける
請求項4に記載のデコーダ。 - 前記接続検出部は、
i回目に追加したノードを第1のノードとし、前記第1のノードに接続されたi+1回目に追加したノードを第2のノードとした場合、
前記第2のノードに関連付けられた前記累積スコアが、前記第1のノードに関連付けられた前記累積スコアと前記第2のノードに関連付けられた前記信号スコアとを加算した値に一致する経路を検出する
請求項5に記載のデコーダ。 - 前記有向グラフは、さらに、状態または遷移に重みが割り当てられており、
前記スコア算出部は、前記複数のトークンのそれぞれに対して、前記信号スコア、および、前記トークンが表す経路上の前記重みと前記信号スコアとを累積した累積スコアを算出する
請求項4に記載のデコーダ。 - 前記ノード追加部は、追加する前記ノードのそれぞれに対して、
元となる前記トークンの前記信号スコアおよび前記累積スコア、
並びに、元となる前記トークンが表す経路の先頭の状態を関連付ける
請求項7に記載のデコーダ。 - 前記接続検出部は、
i回目に追加したノードを第1のノードとし、前記第1のノードに接続されたi+1回目に追加したノードを第2のノードとした場合、
前記第2のノードに関連付けられた前記累積スコアが、前記第1のノードに関連付けられた前記累積スコアと前記第2のノードに関連付けられた前記信号スコアと前記第1のノードと前記第2のノードとを接続する経路上の重みとを加算した値に一致する経路を検出する
請求項8に記載のデコーダ。 - 予め定められた数の前記信号または前記特徴量が入力される毎に、前記ラティスから不要なノードを削除する削除部
をさらに備える請求項1に記載のデコーダ。 - 前記削除部は、前記有向グラフを参照して、i回目に前記ラティスに追加したノードのうち、i+1回目に前記ラティスに追加したノードの何れにも到達できないノードを削除する
請求項10に記載のデコーダ。 - 前記トークンを移動させる毎に、前記複数のトークンのそれぞれに対して、経路の先頭の状態または遷移に割り当てられた前記入力記号に応じた信号スコア、および、経路上の前記信号スコアを累積した累積スコアを算出するスコア算出部をさらに備え、
前記削除部は、
i回目に追加したノードを第1のノードとし、前記第1のノードに接続されたi+1回目に追加したノードを第2のノードとした場合、
前記第2のノードに関連付けられた前記累積スコアが、前記第1のノードに関連付けられた前記累積スコアと前記第2のノードに関連付けられた前記信号スコアとを加算した値に一致する経路を除く経路上のノードを削除する
請求項11に記載のデコーダ。 - 前記有向グラフは、さらに、状態または遷移に重みが割り当てられており、
前記スコア算出部は、前記複数のトークンのそれぞれに対して、前記信号スコア、および、前記トークンが表す経路上の前記重みと前記信号スコアとを累積した累積スコアを算出し、
前記削除部は、
i回目に追加したノードを第1のノードとし、前記第1のノードに接続されたi+1回目に追加したノードを第2のノードとした場合、
前記第2のノードに関連付けられた前記累積スコアが、前記第1のノードに関連付けられた前記累積スコアと前記第2のノードに関連付けられた前記信号スコアと前記第1のノードと前記第2のノードとを接続する経路上の重みとを加算した値に一致する経路を除く経路上のノードを削除する
請求項12に記載のデコーダ。 - 前記デコーダは、
互いに並行して処理を実行する複数の前記トークン操作部と、
互いに並行して処理を実行する複数の前記重複除去部と、
前記複数のトークンを前記複数のトークン操作部に対応した複数の小集合に分割して、前記複数のトークン操作部のそれぞれに、対応する小集合に含まれるトークンを分配する第1分割部と、
前記複数のトークン操作部により移動された複数のトークンを収集する第1収集部と、
前記第1収集部により収集された前記複数のトークンを前記複数の重複除去部に対応した複数の小集合に分割して、前記複数の重複除去部のそれぞれに、対応する小集合に含まれるトークンを分配する第2分割部と、
前記複数の重複除去部による除去の結果、残った複数のトークンを収集する第2収集部と、
をさらに備える
請求項1に記載のデコーダ。 - 前記第2分割部は、同一の状態に到達したトークンを同一の小集合に含める
請求項14に記載のデコーダ。 - 前記トークンが移動される毎に、前記トークンが表す経路の先頭の状態または遷移に割り当てられた前記入力記号に応じた信号スコア、および、前記トークンが表す経路上の前記信号スコアを累積した累積スコアを、互いに並行して算出する複数のスコア算出部と、
前記複数のトークンを前記複数のスコア算出部に対応した複数の小集合に分割して、前記複数のスコア算出部のそれぞれに、対応する小集合に含まれるトークンを分配する第3分割部と、
前記複数のスコア算出部により前記信号スコアおよび前記累積スコアが算出された複数のトークンを収集する第3収集部と、
をさらに備える
請求項1に記載のデコーダ。 - 累積スコアが一定以上悪いトークンを、互いに並行して除去する複数の枝刈部と、
前記複数のトークンを前記複数の枝刈部に対応した複数の小集合に分割して、前記複数の枝刈部のそれぞれに、対応する小集合に含まれるトークンを分配する第4分割部と、
前記複数の枝刈部による除去の結果、残った複数のトークンを収集する第4収集部と、
をさらに備える請求項1に記載のデコーダ。 - 同一の状態に到達した複数のトークンのうち前記累積スコアが最良のトークンを残存させる重複除去部をさらに備える
請求項16に記載のデコーダ。 - コンピュータにより、有向グラフを探索して、入力された信号列または前記信号の特徴量列に応じたラティスの一部または全部を生成するデコード方法であって、
前記有向グラフは、入力記号および出力記号が状態または遷移に割り当てられ、
前記入力記号は、前記信号または前記特徴量から信号スコアを算出するためのアルゴリズムまたはデータの少なくとも一方を示すスコア識別子であり、
前記信号または前記特徴量を入力する毎に、探索中の経路の先頭の状態が割り当てられたオブジェクトである複数のトークンのそれぞれを、前記有向グラフに従って、空ではない入力記号が割り当てられている状態または遷移に達するまで移動させるトークン操作ステップと、
トークンを移動させる毎に、前記複数のトークンのそれぞれに割り当てられた状態に対応するノードを前記ラティスに追加するノード追加部と、
i回目(iは1以上の整数)に前記ラティスに追加したノードに接続された、i+1回目に前記ラティスに追加したノードを、前記有向グラフを参照して検出する接続検出ステップと、
を含むデコード方法。 - コンピュータを、有向グラフを探索して、入力された信号列または前記信号の特徴量列に応じたラティスの一部または全部を生成するデコーダとして機能させるためのプログラムであって、
前記有向グラフは、入力記号および出力記号が状態または遷移に割り当てられ、
前記入力記号は、前記信号または前記特徴量から信号スコアを算出するためのアルゴリズムまたはデータの少なくとも一方を示すスコア識別子であり、
前記コンピュータを、
前記信号または前記特徴量を入力する毎に、探索中の経路の先頭の状態が割り当てられたオブジェクトである複数のトークンのそれぞれを、前記有向グラフに従って、空ではない入力記号が割り当てられている状態または遷移に達するまで移動させるトークン操作部と、
トークンを移動させる毎に、前記複数のトークンのそれぞれに割り当てられた状態に対応するノードを前記ラティスに追加するノード追加部と、
i回目(iは1以上の整数)に前記ラティスに追加したノードに接続された、i+1回目に前記ラティスに追加したノードを、前記有向グラフを参照して検出する接続検出部
として機能させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013266007A JP6315980B2 (ja) | 2013-12-24 | 2013-12-24 | デコーダ、デコード方法およびプログラム |
US14/574,892 US9786272B2 (en) | 2013-12-24 | 2014-12-18 | Decoder for searching a digraph and generating a lattice, decoding method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013266007A JP6315980B2 (ja) | 2013-12-24 | 2013-12-24 | デコーダ、デコード方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015121709A true JP2015121709A (ja) | 2015-07-02 |
JP6315980B2 JP6315980B2 (ja) | 2018-04-25 |
Family
ID=53400689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013266007A Active JP6315980B2 (ja) | 2013-12-24 | 2013-12-24 | デコーダ、デコード方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9786272B2 (ja) |
JP (1) | JP6315980B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018151413A (ja) * | 2017-03-09 | 2018-09-27 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
US10109274B2 (en) | 2014-11-28 | 2018-10-23 | Kabushiki Kaisha Toshiba | Generation device, recognition device, generation method, and computer program product |
US10319373B2 (en) | 2016-03-14 | 2019-06-11 | Kabushiki Kaisha Toshiba | Information processing device, information processing method, computer program product, and recognition system |
US10452355B2 (en) | 2014-09-18 | 2019-10-22 | Kabushiki Kaisha Toshiba | Automaton deforming device, automaton deforming method, and computer program product |
US10572538B2 (en) | 2015-04-28 | 2020-02-25 | Kabushiki Kaisha Toshiba | Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product |
US10600407B2 (en) | 2016-07-20 | 2020-03-24 | Kabushiki Kaisha Toshiba | Generation device, recognition system, and generation method for generating finite state transducer |
US10803858B2 (en) | 2016-11-11 | 2020-10-13 | Kabushiki Kaisha Toshiba | Speech recognition apparatus, speech recognition method, and computer program product |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6315980B2 (ja) * | 2013-12-24 | 2018-04-25 | 株式会社東芝 | デコーダ、デコード方法およびプログラム |
US10255358B2 (en) | 2014-12-30 | 2019-04-09 | Facebook, Inc. | Systems and methods for clustering items associated with interactions |
CN107205265B (zh) * | 2016-03-16 | 2020-02-14 | 华为技术有限公司 | 一种无线保真wi-fi测距方法、相关设备及系统 |
CN105895081A (zh) * | 2016-04-11 | 2016-08-24 | 苏州思必驰信息科技有限公司 | 一种语音识别解码的方法及装置 |
US10199037B1 (en) * | 2016-06-29 | 2019-02-05 | Amazon Technologies, Inc. | Adaptive beam pruning for automatic speech recognition |
US10664307B1 (en) * | 2017-04-04 | 2020-05-26 | Yellowbrick Data, Inc. | System and method for assigning tasks to computer system elements |
WO2018232591A1 (en) * | 2017-06-20 | 2018-12-27 | Microsoft Technology Licensing, Llc. | SEQUENCE RECOGNITION PROCESSING |
CN108899028A (zh) * | 2018-06-08 | 2018-11-27 | 广州视源电子科技股份有限公司 | 语音唤醒方法、搜索方法、装置和终端 |
US11876969B2 (en) * | 2022-02-11 | 2024-01-16 | Qualcomm Incorporated | Neural-network media compression using quantized entropy coding distribution parameters |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08202384A (ja) * | 1995-01-20 | 1996-08-09 | Fuji Xerox Co Ltd | 音声認識方法及び装置 |
JP2005215672A (ja) * | 2004-01-05 | 2005-08-11 | Toshiba Corp | 音声認識システム及び方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4849905A (en) | 1987-10-28 | 1989-07-18 | International Business Machines Corporation | Method for optimized RETE pattern matching in pattern-directed, rule-based artificial intelligence production systems |
US7110621B1 (en) * | 2000-05-19 | 2006-09-19 | Xerox Corporation | Assist channel coding using a rewrite model |
JP4241771B2 (ja) | 2006-07-04 | 2009-03-18 | 株式会社東芝 | 音声認識装置及びその方法 |
JP4956334B2 (ja) | 2007-08-29 | 2012-06-20 | 株式会社東芝 | オートマトンの決定化方法、有限状態トランスデューサの決定化方法、オートマトン決定化装置及び決定化プログラム |
GB2453366B (en) | 2007-10-04 | 2011-04-06 | Toshiba Res Europ Ltd | Automatic speech recognition method and apparatus |
JP5572624B2 (ja) * | 2008-07-03 | 2014-08-13 | グーグル・インコーポレーテッド | 機械翻訳に対するパラメータの最適化 |
JP5121650B2 (ja) | 2008-09-26 | 2013-01-16 | 株式会社東芝 | 情報処理装置、情報処理方法及びプログラム |
JP4977163B2 (ja) | 2009-03-30 | 2012-07-18 | 株式会社東芝 | 有限状態トランスデューサ決定化装置及び有限状態トランスデューサ決定化方法 |
US8484154B2 (en) | 2009-12-14 | 2013-07-09 | Intel Corporation | Methods and systems to traverse graph-based networks |
JP5232191B2 (ja) | 2010-03-19 | 2013-07-10 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP5467643B2 (ja) | 2010-04-28 | 2014-04-09 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文書の類似度を判定する方法、装置及びプログラム。 |
JP5554304B2 (ja) | 2011-09-16 | 2014-07-23 | 株式会社東芝 | オートマトン決定化方法、オートマトン決定化装置およびオートマトン決定化プログラム |
JP2013164572A (ja) | 2012-01-10 | 2013-08-22 | Toshiba Corp | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム |
CN103971686B (zh) * | 2013-01-30 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
JP6315980B2 (ja) * | 2013-12-24 | 2018-04-25 | 株式会社東芝 | デコーダ、デコード方法およびプログラム |
-
2013
- 2013-12-24 JP JP2013266007A patent/JP6315980B2/ja active Active
-
2014
- 2014-12-18 US US14/574,892 patent/US9786272B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08202384A (ja) * | 1995-01-20 | 1996-08-09 | Fuji Xerox Co Ltd | 音声認識方法及び装置 |
JP2005215672A (ja) * | 2004-01-05 | 2005-08-11 | Toshiba Corp | 音声認識システム及び方法 |
Non-Patent Citations (3)
Title |
---|
LJOLJE, ANDREJ ET AL.: "Efficient General Lattice Generation and Rescoring", PROC. OF EUROSPEECH'99, JPN7017002552, 5 September 1999 (1999-09-05), pages 1251 - 1254 * |
S.J. YOUNG ET AL.: "Token Passing: a Simple Conceptual Model for Connected Speech Recognition Systems", [ONLINE], JPN7017002553, 31 July 1989 (1989-07-31), pages 1 - 23, XP000571340 * |
大西翼 他: "WFST音声認識デコーダの開発とその性能評価", 情報処理学会研究報告, vol. 2007, no. 103, JPN6017029623, 19 October 2007 (2007-10-19), pages 1 - 6 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10452355B2 (en) | 2014-09-18 | 2019-10-22 | Kabushiki Kaisha Toshiba | Automaton deforming device, automaton deforming method, and computer program product |
US10109274B2 (en) | 2014-11-28 | 2018-10-23 | Kabushiki Kaisha Toshiba | Generation device, recognition device, generation method, and computer program product |
US10572538B2 (en) | 2015-04-28 | 2020-02-25 | Kabushiki Kaisha Toshiba | Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product |
US10319373B2 (en) | 2016-03-14 | 2019-06-11 | Kabushiki Kaisha Toshiba | Information processing device, information processing method, computer program product, and recognition system |
US10600407B2 (en) | 2016-07-20 | 2020-03-24 | Kabushiki Kaisha Toshiba | Generation device, recognition system, and generation method for generating finite state transducer |
US10803858B2 (en) | 2016-11-11 | 2020-10-13 | Kabushiki Kaisha Toshiba | Speech recognition apparatus, speech recognition method, and computer program product |
JP2018151413A (ja) * | 2017-03-09 | 2018-09-27 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US9786272B2 (en) | 2017-10-10 |
US20150179166A1 (en) | 2015-06-25 |
JP6315980B2 (ja) | 2018-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6315980B2 (ja) | デコーダ、デコード方法およびプログラム | |
JP6404564B2 (ja) | デコーダ、デコード方法およびプログラム | |
Hannun | Sequence modeling with ctc | |
JP4977163B2 (ja) | 有限状態トランスデューサ決定化装置及び有限状態トランスデューサ決定化方法 | |
JP6301647B2 (ja) | 探索装置、探索方法およびプログラム | |
JP5554304B2 (ja) | オートマトン決定化方法、オートマトン決定化装置およびオートマトン決定化プログラム | |
JP6618884B2 (ja) | 認識装置、認識方法およびプログラム | |
JP2011123494A (ja) | グラフベースのネットワークを横断するための方法及びシステム | |
JP6301664B2 (ja) | 変換装置、パターン認識システム、変換方法およびプログラム | |
JP6585022B2 (ja) | 音声認識装置、音声認識方法およびプログラム | |
WO2018232591A1 (en) | SEQUENCE RECOGNITION PROCESSING | |
JP5103907B2 (ja) | 音声認識システム、音声認識方法及び音声認識プログラム | |
JP2020020872A (ja) | 識別器、学習済モデル、学習方法 | |
JP5447373B2 (ja) | 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体 | |
JP6562698B2 (ja) | ラティス確定装置、パターン認識装置、ラティス確定方法およびプログラム | |
JP5113863B2 (ja) | 用語抽出方法とその装置と、プログラム | |
JP6665029B2 (ja) | 言語解析装置、言語解析方法、及びプログラム | |
JP2015153240A (ja) | パターン認識装置、パターン認識方法およびプログラム | |
KR102386627B1 (ko) | 음성 인식에 관한 빔 서치 방법 및 장치 | |
JP5392780B2 (ja) | コンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラム | |
JP6569543B2 (ja) | 短縮文生成装置、方法およびプログラム。 | |
by Dr et al. | Structured Discriminative Models for Sequential Data Classification | |
JP2012194364A (ja) | 音声認識装置、音声認識方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20151102 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180327 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6315980 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |