JP7438744B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7438744B2 JP7438744B2 JP2019228171A JP2019228171A JP7438744B2 JP 7438744 B2 JP7438744 B2 JP 7438744B2 JP 2019228171 A JP2019228171 A JP 2019228171A JP 2019228171 A JP2019228171 A JP 2019228171A JP 7438744 B2 JP7438744 B2 JP 7438744B2
- Authority
- JP
- Japan
- Prior art keywords
- label
- class
- reject
- string
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 57
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000009826 distribution Methods 0.000 claims description 142
- 238000013507 mapping Methods 0.000 claims description 57
- 238000000034 method Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 38
- 238000009499 grossing Methods 0.000 claims description 25
- 230000007423 decrease Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 86
- 238000012986 modification Methods 0.000 description 45
- 230000004048 modification Effects 0.000 description 45
- 238000007476 Maximum Likelihood Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 9
- 230000007717 exclusion Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Description
本実施形態の情報処理装置は、CTCを用いた系列認識問題の認識結果を求める。CTCは、コネクショニスト・テンポラル・クラシフィケーション(Connectionist Temporal Classification)を表す。系列認識問題の具体例は、音声認識、文字列認識、ジェスチャー認識などといった認識処理を含む。本実施形態の情報処理装置は、これらのすべての系列認識問題に適用可能である。例えば、音声認識は、音声を入力して、その音声に対応するテキスト(文字列)を出力する処理である。また、例えば、文字列認識は、手書きの文字の列あるいは所定のフォントを用いて印刷された文字の列の画像を入力して、その画像に対応するテキスト(文字列)を出力する処理である。また、例えば、ジェスチャー認識は、人のジェスチャーを検知するセンサ(例えば、タッチパネルや、加速度センサ等)が捉えた時系列の信号を入力して、ジェスチャーに対応する記号の列を出力する処理である。
なお、閾値θ1については、後述する。尤度pt(k)の最大値が閾値θ1未満である場合(ステップS4:YES)には、ステップS6に進む。尤度pt(k)の最大値が閾値θ1以上である場合(ステップS4:NO)には、ステップS5に進む。
ここでのマッピング関数BRは、通常ラベルとリジェクトラベルとが隣接し合っている箇所がある場合に、そのラベル列全体を除外対象ラベル列に変換する。
において第1位の候補と第2位の候補の尤度の差に基づいてリジェクトクラスのスコアを与える。
即ち、リジェクトクラス追加部25は、カテゴリカル分布内の第1位候補であるクラスの第1位スコアと当該カテゴリカル分布内の第2位候補であるクラスの第2位スコアとの差が所定の閾値(θ2)以上である場合には、リジェクトクラスのスコアをすべてのクラスのスコアの中の最低値とする。この最低値の一例は、式(13)の右辺下段に示した0である。例えば、クラスのスコアの値の範囲を、0以上且つ1以下とすることができる。一方、リジェクトクラス追加部25は、カテゴリカル分布内の第1位候補であるクラスの第1位スコアと当該カテゴリカル分布内の第2位候補であるクラスの第2位スコアとの差が所定の閾値(θ2)未満である場合には、リジェクトクラスのスコアを前記最低値以外の所定の値とする。この「所定の値」の一例は、式(13)の右辺上段に示したα1である。
図3は、入力部21が取得するカテゴリカル分布列を示すグラフである。
図4は、本実施形態の基本パターンの処理を行った結果を示すグラフである。
図5は、本実施形態の第4の変形例の処理を行った結果を示すグラフである。
図3,図4,図5のそれぞれのグラフにおいて、横軸はタイムステップ(系列)であり、縦軸は尤度(スコア)である。
第1行目の空白のラベル列に対応するB-1(l)は、「__」のみである。この「__」に対応する尤度は、表3より、0.1×0.1で、0.01である。即ち、空白のラベル列の尤度は、0.01である。
第2行目のラベル列「a」に対応するB-1(l)は、「aa」、「a_」、「_a」である。これら「aa」、「a_」、「_a」の尤度は、表3から計算可能で、それぞれ、0.18、0.09、0.02である。これらの合計の0.29が、ラベル列「a」の尤度である。
第3行目のラベル列「?」に対応するB-1(l)は、「??」、「_?」、「?_」である。これら「??」、「_?」、「?_」の尤度は、表3から計算可能で、それぞれ、0.00、0.07、0.00である。これらの合計の0.07が、ラベル列「?」の尤度である。
第4行目のラベル列「a?」に対応するB-1(l)は、「a?」のみである。この「a?」の尤度は、表3より、0.9×0.7で、0.63である。即ち、ラベル列「a?」の尤度は、0.63である。
第5行目のラベル列「?a」に対応するB-1(l)は、「?a」のみである。この「?a」の尤度は、表3より、0.0×0.2で、0.00である。即ち、ラベル列「?a」の尤度は、0.00である。
第1行目の空白のラベル列に対応するBM -1(l)は、「__」のみである。この「__」の尤度は、表3より、0.01である。即ち、空白ラベル列の尤度は、0.01である。
第2行目のラベル列「a」に対応するBM -1(l)は、「aa」、「a_」、「_a」、「a?」、「?a」である。これら「aa」、「a_」、「_a」、「a?」、「?a」の尤度の合計は、0.92である。即ち、ラベル列「a」の尤度は、0.92である。
第3行目のラベル列「?」に対応するBM -1(l)は、「??」、「_?」、「?_」である。これら「??」、「_?」、「?_」の尤度の合計は、0.07である。即ち、ラベル列「?」の尤度は、0.07である。
第4行目のラベル列「a?」と、第5行目のラベル列「?a」のそれぞれについては、対応するBM -1(l)は空集合である。つまり、第4行目のラベル列「a?」の尤度と、第5行目のラベル列「?a」の尤度とは、ともに、0.00である。
第2行目のラベル列「a」に対応するBR -1(l)は、「aa」、「a_」、「_a」である。これら「aa」、「a_」、「_a」の尤度の合計は、0.29である。即ち、ラベル列「a」の尤度は、0.29である。
第3行目のラベル列「?」に対応するBR -1(l)は、「??」、「_?」、「?_」である。これら「??」、「_?」、「?_」の尤度の合計は、0.07である。即ち、ラベル列「?」の尤度は、0.07である。
第4行目のラベル列「a?」と、第5行目のラベル列「?a」のそれぞれについては、対応するBR -1(l)は空集合である。つまり、第4行目のラベル列「a?」の尤度と、第5行目のラベル列「?a」の尤度とは、ともに、0.00である。
第6行目のラベル列は、除外である。これに対応するBR -1(l)は、「a?」および「?a」である。表3より、「a?」の尤度は0.63であり、「?a」の尤度は0.00である。つまり、除外の尤度は、これらの尤度の合計の0.63である。
次に、第2の実施形態について説明する。なお、前実施形態(変形例を含む)において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
例えば、s=1として、w-1=1、w0=1、w1=1としてもよい。
また、例えば、s=1として、w-1=1、w0=2、w1=1としてもよい。
また、例えば、s=2として、w-2=1、w-1=2、w0=4、w1=2、w-2=1としてもよい。
また、wrを他の値としてもよい。
ただし、(t+r)の値がカテゴリカル分布列の範囲の外である場合、即ち、(t+r)<1または(t+r)>Lである場合には、対応する項を、式(9)の分子および分母の両方から削除する。言い換えれば、この場合には、対応するwrの値を0としてよい。
Claims (13)
- クラスごとのスコアを有するカテゴリカル分布を複数並べて成るカテゴリカル分布列を取得し、前記カテゴリカル分布列に含まれる前記カテゴリカル分布ごとに、当該カテゴリカル分布に基づいてリジェクトクラスのスコアを求めることによってリジェクトクラスを追加するリジェクトクラス追加部と、
前記リジェクトクラスを追加した後の前記カテゴリカル分布列に基づいて、前記カテゴリカル分布列に対応するラベル列候補の尤度を計算し、前記ラベル列候補の尤度に応じて複数の前記ラベル列候補の中からラベル列を選択するラベル列選択部と、
選択された前記ラベル列を出力する出力部と、
を備える情報処理装置。 - 前記クラスは、ブランクに対応するブランククラスと、リジェクトに対応するリジェクトクラスと、その他の通常クラスとを含むものであり、
前記ブランククラスは、ブランクラベルに対応し、
前記リジェクトクラスは、リジェクトラベルに対応し、
前記通常クラスの各々は、それぞれの通常ラベルに対応し、
前記ラベル列選択部は、前記カテゴリカル分布列が有する前記クラスの前記尤度に基づいて、第1ラベル列ごとの第1ラベル列尤度を求めるものであり、
前記ラベル列選択部は、前記第1ラベル列に所定のマッピング関数を適用した結果を第2ラベル列として、前記マッピング関数によって前記第2ラベル列に対応付けられる前記第1ラベル列の前記第1ラベル列尤度に基づいて、前記第2ラベル列ごとの第2ラベル列尤度を求めるものであり、
前記ラベル列選択部は、前記第2ラベル列を前記ラベル列候補として、前記第2ラベル列尤度に基づいて前記第2ラベル列の中から前記ラベル列を選択する、
請求項1に記載の情報処理装置。 - 前記マッピング関数は、
前記第1ラベル列から前記ブランクラベルを削除し、
前記第1ラベル列内に連続する同一のラベルが存在する場合には当該連続する同一のラベルを1個だけの当該ラベルで置換し、
前記第1ラベル列内に通常ラベルとリジェクトラベルとが連続する箇所がある場合には当該通常ラベルと当該リジェクトラベルのいずれが他方に先行するかに関わらず当該リジェクトラベルを削除して当該通常ラベルを残す、
操作、
を行うものであり、当該操作の結果を前記第2ラベル列とする関数である、
請求項2に記載の情報処理装置。 - 前記マッピング関数は、
前記第1ラベル列から前記ブランクラベルを削除し、
前記第1ラベル列内に連続する同一のラベルが存在する場合には当該連続する同一のラベルを1個だけの当該ラベルで置換する、
操作、
を行うものであり、当該操作の結果を前記第2ラベル列とする関数であって、
前記第1ラベル列内に通常ラベルとリジェクトラベルとが連続する箇所がある場合には当該通常ラベルと当該リジェクトラベルのいずれが他方に先行するかに関わらず、除外対象ラベル列を前記第2ラベル列とする関数である、
請求項2に記載の情報処理装置。 - 前記クラスは、ブランクに対応するブランククラスと、リジェクトに対応するリジェクトクラスと、その他の通常クラスとを含むものであり、
前記ブランククラスは、ブランクラベルに対応し、
前記リジェクトクラスは、リジェクトラベルに対応し、
前記通常クラスの各々は、それぞれの通常ラベルに対応し、
前記ラベル列選択部は、前記カテゴリカル分布列が有する前記クラスの前記尤度に基づいて、第1ラベル列ごとの第1ラベル列尤度を求めるものであり、
前記ラベル列選択部は、前記第1ラベル列尤度に応じて複数の前記第1ラベル列の中から所定数の前記第1ラベル列を選択し、選択された前記第1ラベル列に所定のマッピング関数を適用した結果である第2ラベル列を、前記ラベル列として選択するものであり、
前記マッピング関数は、
前記第1ラベル列から前記ブランクラベルを削除し、
前記第1ラベル列内に連続する同一のラベルが存在する場合には当該連続する同一のラベルを1個だけの当該ラベルで置換する、
操作、
を行うものであり、当該操作の結果を前記第2ラベル列とする関数である、
請求項1に記載の情報処理装置。 - 前記リジェクトクラス追加部は、前記カテゴリカル分布内の第1位候補であるクラスのスコアに対して広義単調減少となる値を、前記リジェクトクラスのスコアとする、
請求項1から5までのいずれか一項に記載の情報処理装置。 - 前記リジェクトクラス追加部は、前記カテゴリカル分布内の第1位候補であるクラスのスコアが所定の閾値(θ1)以上である場合には前記リジェクトクラスのスコアをすべてのクラスのスコアの中の最低値とし、前記カテゴリカル分布内の第1位候補であるクラスのスコアが当該閾値(θ1)未満である場合には前記リジェクトクラスのスコアを前記最低値以外の所定の値とする、
請求項6に記載の情報処理装置。 - 前記リジェクトクラス追加部は、前記カテゴリカル分布内の第1位候補であるクラスの第1位スコアと当該カテゴリカル分布内の第2位候補であるクラスの第2位スコアとの差が所定の閾値(θ2)以上である場合には前記リジェクトクラスのスコアをすべてのクラスのスコアの中の最低値とし、前記カテゴリカル分布内の第1位候補であるクラスの第1位スコアと当該カテゴリカル分布内の第2位候補であるクラスの第2位スコアとの差が所定の閾値(θ2)未満である場合には前記リジェクトクラスのスコアを前記最低値以外の所定の値とする、
請求項1から5までのいずれか一項に記載の情報処理装置。 - 前記リジェクトクラス追加部は、前記カテゴリカル分布内の第1位候補であるクラスのスコアが所定の閾値(θ1)以上である場合、または、当該第1位候補であるクラスがブランクに対応するブランククラスではない場合には、前記リジェクトクラスのスコアを、すべてのクラスのスコアの中の最低値とする、
請求項6に記載の情報処理装置。 - 前記カテゴリカル分布列に含まれる隣接し合う前記カテゴリカル分布間での変化を平滑化する平滑化部、
をさらに備える請求項1から9までのいずれか一項に記載の情報処理装置。 - 前記平滑化部は、クラスごとのスコアの値についてカテゴリカル分布列内の列の方向のガウシアンフィルタの処理を適用する、
請求項10に記載の情報処理装置。 - 情報処理装置が備えるリジェクトクラス追加部が、クラスごとのスコアを有するカテゴリカル分布を複数並べて成るカテゴリカル分布列を取得し、前記カテゴリカル分布列に含まれる前記カテゴリカル分布ごとに、当該カテゴリカル分布に基づいてリジェクトクラスのスコアを求めることによってリジェクトクラスを追加するリジェクトクラス追加過程と、
前記情報処理装置が備えるラベル列選択部が、前記リジェクトクラスを追加した後の前記カテゴリカル分布列に基づいて、前記カテゴリカル分布列に対応するラベル列候補の尤度を計算し、前記ラベル列候補の尤度に応じて複数の前記ラベル列候補の中からラベル列を選択するラベル列選択過程と、
前記情報処理装置が備える出力部が、選択された前記ラベル列を出力する出力過程と、
を含む情報処理方法。 - クラスごとのスコアを有するカテゴリカル分布を複数並べて成るカテゴリカル分布列を取得し、前記カテゴリカル分布列に含まれる前記カテゴリカル分布ごとに、当該カテゴリカル分布に基づいてリジェクトクラスのスコアを求めることによってリジェクトクラスを追加するリジェクトクラス追加過程と、
前記リジェクトクラスを追加した後の前記カテゴリカル分布列に基づいて、前記カテゴリカル分布列に対応するラベル列候補の尤度を計算し、前記ラベル列候補の尤度に応じて複数の前記ラベル列候補の中からラベル列を選択するラベル列選択過程と、
選択された前記ラベル列を出力する出力過程と、
の処理をコンピューターに実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019228171A JP7438744B2 (ja) | 2019-12-18 | 2019-12-18 | 情報処理装置、情報処理方法、およびプログラム |
US17/121,990 US20210192317A1 (en) | 2019-12-18 | 2020-12-15 | Information processing device, information processing method, and program |
CN202011477992.9A CN112990252A (zh) | 2019-12-18 | 2020-12-15 | 信息处理装置、信息处理方法以及程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019228171A JP7438744B2 (ja) | 2019-12-18 | 2019-12-18 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021096378A JP2021096378A (ja) | 2021-06-24 |
JP7438744B2 true JP7438744B2 (ja) | 2024-02-27 |
Family
ID=76344989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019228171A Active JP7438744B2 (ja) | 2019-12-18 | 2019-12-18 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210192317A1 (ja) |
JP (1) | JP7438744B2 (ja) |
CN (1) | CN112990252A (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018081546A (ja) | 2016-11-17 | 2018-05-24 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
WO2019001428A1 (zh) | 2017-06-29 | 2019-01-03 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0739822A (ja) * | 1993-07-29 | 1995-02-10 | Toshiba Corp | 単語認識装置および宛名読取区分機 |
CN100363938C (zh) * | 2005-10-31 | 2008-01-23 | 浙江大学 | 基于得分差加权融合的多模态身份识别方法 |
CN101976346A (zh) * | 2010-10-14 | 2011-02-16 | 西北工业大学 | 基于模糊隶属函数的证据理论bpa生成方法 |
CN102567736A (zh) * | 2010-12-14 | 2012-07-11 | 三星电子株式会社 | 图像识别设备及方法 |
CN102081740B (zh) * | 2011-03-07 | 2012-12-12 | 中国科学院自动化研究所 | 一种基于尺度不变特征的三维图像分类方法 |
JP5752060B2 (ja) * | 2012-01-19 | 2015-07-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、大語彙連続音声認識方法及びプログラム |
US10679643B2 (en) * | 2016-08-31 | 2020-06-09 | Gregory Frederick Diamos | Automatic audio captioning |
-
2019
- 2019-12-18 JP JP2019228171A patent/JP7438744B2/ja active Active
-
2020
- 2020-12-15 US US17/121,990 patent/US20210192317A1/en active Pending
- 2020-12-15 CN CN202011477992.9A patent/CN112990252A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018081546A (ja) | 2016-11-17 | 2018-05-24 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
WO2019001428A1 (zh) | 2017-06-29 | 2019-01-03 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
Non-Patent Citations (1)
Title |
---|
田中遼平 他,"CTC-VATのための高速事後分布平滑化手法及びその文字列認識への応用",電子情報通信学会技術研究報告,2018年12月06日,Vol.118, No.362,pp.29-34 |
Also Published As
Publication number | Publication date |
---|---|
CN112990252A (zh) | 2021-06-18 |
US20210192317A1 (en) | 2021-06-24 |
JP2021096378A (ja) | 2021-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180061439A1 (en) | Automatic audio captioning | |
WO2020003533A1 (en) | Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
US10043057B2 (en) | Accelerating object detection | |
JP5251205B2 (ja) | 住所認識装置 | |
JP4136316B2 (ja) | 文字列認識装置 | |
US20140147034A1 (en) | Information processing apparatus, control method therefor, and electronic device | |
CN110942057A (zh) | 一种集装箱箱号识别方法、装置和计算机设备 | |
CN111523537A (zh) | 一种文字识别方法、存储介质及系统 | |
WO2014118978A1 (ja) | 学習方法、情報処理装置および学習プログラム | |
Inkeaw et al. | Recognition-based character segmentation for multi-level writing style | |
US20180005087A1 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
JP2019204214A (ja) | 学習装置、学習方法、プログラム及び推定装置 | |
JP5989576B2 (ja) | パターン識別装置、パターン識別方法、プログラム、学習装置および学習方法 | |
US10121085B2 (en) | Information processing apparatus and method of searching for similar data | |
JP7438744B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US8755594B2 (en) | Information processing device and method, and program | |
Premaratne et al. | Lexicon and hidden Markov model-based optimisation of the recognised Sinhala script | |
NAKJAI et al. | Automatic Thai finger spelling transcription | |
KR20210137808A (ko) | 단어 추출 장치 및 방법 | |
JP7174382B2 (ja) | 学習装置、照合装置、学習方法、照合方法及びプログラム | |
JP2020177318A (ja) | 照合装置、学習装置、方法、及びプログラム | |
JP6235368B2 (ja) | パターン認識装置、パターン認識方法およびプログラム | |
Maarouf et al. | Correcting optical character recognition result via a novel approach | |
US20240029463A1 (en) | Apparatus and method for internet-based validation of task completion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7438744 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |