JP2018507446A - 音声認識結果の後処理のための方法およびシステム - Google Patents
音声認識結果の後処理のための方法およびシステム Download PDFInfo
- Publication number
- JP2018507446A JP2018507446A JP2017564802A JP2017564802A JP2018507446A JP 2018507446 A JP2018507446 A JP 2018507446A JP 2017564802 A JP2017564802 A JP 2017564802A JP 2017564802 A JP2017564802 A JP 2017564802A JP 2018507446 A JP2018507446 A JP 2018507446A
- Authority
- JP
- Japan
- Prior art keywords
- result
- valid
- post
- speech recognition
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
Description
i)前記結果を受信するステップと、
ii)ステップiii.a)の検証テストを受けていない前記複数の要素のうちの要素を分離する(または、考慮する、選択する)ステップと、
iii)その後、
a.ステップii)の間に要素が分離されたのであれば、検証テストを使用することによって、前記要素が有効であるか否かを判定し、
b.分離されていないのであれば、直接的にステップv)へ進むステップと、
iv)ステップii)およびステップiii)を(以下の順序、すなわち、ステップii)、その後ステップiii))で繰り返すステップと、
v)少なくとも1つの要素が、ステップiii.a)において有効であると判定されると、ステップiii.a)において有効であると判定された少なくとも1つの要素を使用して(または、再使用して)、後処理された解を決定するステップとを備える、方法において、
ステップii)において分離された各要素が、結果の前記終了から、結果の前記先頭へと、連続方式で(または、継続方式で、すなわち、要素をスキップすることなく)選択されることを特徴とする、方法。
好適には、文法規則が使用される場合、本発明の方法はさらに、以下のステップ、すなわち、
vii.
a.ステップvi)のテストに対する応答が肯定的である場合、前記後処理された解を提供し、
b.肯定的ではない場合、前記音声認識結果を提供するステップを備える。
別の可能な変形に従って、本発明の方法は、文法規則が使用される場合、以下のステップ、すなわち、
vii.
a.ステップvi)のテストに対する応答が肯定的である(すなわち、後処理された解が、文法規則を満たす)のであれば、前記後処理された解を提供し、
b.ステップvi)のテストに対する応答が否定的である(すなわち、後処理された解が、文法規則を満たさない)のであれば、後処理された解を提供しないか、または、空のメッセージを提供するか、または、満足できる後処理された解が決定されないことを記述しているメッセージを提供するステップを備える。
結果の各要素は、音声認識エンジンによって一般に提供される対応する持続時間または時間インターバルを有する。この好適な実施形態を用いて、たとえば、マシンから生じ得るスプリアス雑音のように、より短い持続時間の要素をより効果的に回避することが可能である。
この方法の信頼性は、この場合、さらに高められる。
この好適な変形によって、人間によってではなく、むしろ、たとえば、マシンによって生成され、時間的にともに非常に近接している任意の要素が、より効率的に却下され得る。
前記要素に関連付けられた統計値(または音声認識統計値)は、一般に、音声認識エンジンによって提供される。要素に関連付けられた統計値の例は、要素の持続時間、その信頼度係数である。他の例も可能である。そのような統計値は、たとえば、仮登録ステップの間、様々な要素、および、様々な話者(またはオペレータ)について記録され得る。音声認識エンジンによって提供された結果に対応するステートメントを記録した話者のアイデンティティが、その後、知られるのであれば、前記結果の様々な要素に関連付けられた統計値は、これら要素について、および、この話者について、予め定義された統計値と比較され得る。したがって、この場合、本発明の方法は、好適には、話者のアイデンティティを判定する追加のステップを備える。
この好適な実施形態によって、信頼性および効率がさらに高められる。なぜなら、話者の有声特徴を考慮することが可能であるからである。
A.上記記述されたような後処理方法のうちのいずれか1つを、前記第1の結果へ適用するステップと、
B.上記記述されたような後処理方法のうちのいずれか1つを、前記第2の結果へ適用するステップと、
C.前記第1および第2の結果のうちの1つまたは複数の結果に属し、ステップiii.a)の検証ステップによって有効であると判定された、1つまたは複数の要素から、前記最適化された解を決定するステップと、を備える最適化方法を提供する。
- 前記結果を読み取るための獲得手段と、
- 処理手段であって、
+ 以下のステップ、すなわち、
・前記処理手段によって必要とされる検証テストを以前に受けていない前記複数の要素のうちの要素を分離するステップと、
・検証テストを使用することによって、前記分離された要素が有効であるか否かを判定するステップとを繰り返し実行するため、および
+ 有効であると判定された少なくとも1つの要素を再使用することによって、後処理された解を決定するための処理手段とを備える、システムにおいて、
処理手段によって分離された各要素が、結果の前記終了から、前記先頭へと、連続方式で選択されることを特徴とする、システムに関する。
i)前記音声認識結果を読み取るステップと、
ii)ステップiii.a)の検証テストを受けていない前記複数の要素のうちの要素を分離するステップと、
iii)その後、
a.ステップii)において要素が分離されたのであれば、検証テストを使用することによって、前記要素が有効であるか否かを判定し、
b.分離されていないのであれば、直接的にステップv)へ進むステップと、
iv)ステップii)およびステップiii)を繰り返すステップと、
v)ステップiii.a)において少なくとも1つの要素が有効であると判定されたのであれば、ステップiii.a)において有効であると判定された少なくとも1つの要素を再使用することによって、後処理された解を決定するステップと、を実行することを可能にするためのコードを備える、プログラムにおいて、
ステップii)において分離された各要素が、結果の前記終了から、結果の前記先頭へと、連続方式で選択されることを特徴とする、プログラムに関する。
i)前記結果を読み取るステップと、
ii)ステップiii.a)の検証テストを受けていない前記複数の要素のうちの要素を分離するステップと、
iii)その後、
a.ステップii)において要素が分離されたのであれば、検証テストを使用することによって、前記要素が有効であるか否かを判定し、
b.分離されていないのであれば、直接的にステップv)へ進むステップと、
iv)ステップii)およびステップiii)を繰り返すステップと、
v)ステップiii.a)において少なくとも1つの要素が有効であると判定されたのであれば、ステップiii.a)において有効であると判定された少なくとも1つの要素を再使用することによって、後処理された解を決定するステップとを実行することを保証する、記憶媒体(または記録媒体)において、
ステップii)において分離された各要素が、結果の前記終了から、結果の前記先頭へと、連続方式で選択されることを特徴とする、記憶媒体(または記録媒体)に関する。
- 追加の要素113を分離する(または選択する)ステップは、無効な要素113が検出された場合、検証テストを受けることができるように、停止され、ここでは、
- 後処理された解200は、文法規則を満足するか否かを判定するために検証され(ステップvi))、ここでは、
- 後処理された解200が、前記文法規則を満足しているのであれば提供され、ここでは、
- 後処理された解200が、前記文法規則を満足しないのであれば、音声認識エンジン10の結果100が提供される。
A.本発明の第1の態様に従う後処理方法を、前記第1の結果100へ適用するステップと、
B.本発明の第1の態様に従う後処理方法を、前記第2の結果100へ適用するステップと、
C.前記第1および第2の結果100のうちの1つまたは複数の結果100に属し、ステップiii.a)の検証ステップによって有効であると判定された1つまたは複数の要素113から、前記最適化された解を決定するステップと、を備える方法を提案する。
10 音声認識エンジン
11 後処理システム
12 獲得手段
13 処理手段
20 スクリーン
40 話者
50 メッセージ
100 音声認識結果
111 先頭
112 終了
113 要素
150 持続時間
160 信頼度係数
161 最小信頼度係数
170 時間インターバル
200 解
Claims (15)
- 音声認識結果(100)を後処理するための方法であって、前記結果(100)は、先頭(111)、終了(112)、および前記先頭(111)と前記終了(112)との間に分散された複数の要素(113)を備え、前記後処理方法は、以下のステップ、すなわち、
i.前記結果(100)を受信するステップと、
ii.ステップiii.a.の検証テストを受けていない前記複数の要素(113)のうちの要素(113)を分離するステップと、
iii.その後、
a.要素(113)がステップii.の間に分離されたのであれば、検証テストを使用することによって、前記要素が有効であるか否かを判定し、
b.分離されていないのであれば、ステップv.へ直接的に進むステップと、
iv.ステップii.およびステップiii.を繰り返すステップと、
v.ステップiii.a.において、少なくとも1つの要素(113)が有効であると判定されたのであれば、ステップiii.a.において、有効であると判定された少なくとも1つの要素(113)を使用して、後処理された解(200)を決定するステップとを備える、方法において、
ステップii.において分離された各要素(113)が、前記結果(100)の前記終了(112)から前記結果(100)の前記先頭(111)へと、連続方式で選択されることを特徴とする、方法。 - 前記要素(113)が単語であることを特徴とする、請求項1に記載の方法。
- ステップiii.a.はさらに、ステップiii.a.の前記検証テストを受けている前記要素(113)が、有効であると判定されないのであれば、ステップv.へ直接的に進むための命令を備える、ことを特徴とする請求項1または2に記載の方法。
- vi.ステップv.の前記後処理された解(200)が文法規則を満足するか否かを判定するステップをさらに備える、ことを特徴とする請求項1から3のいずれか一項に記載の方法。
- vii.
a.ステップvi.の前記テストに対する応答が肯定的である場合、前記後処理された解(200)を提供し、
b.肯定的ではない場合、前記音声認識結果(100)を提供するステップをさらに備える、ことを特徴とする請求項4に記載の方法。 - ステップiii.a.の前記検証テストは、その持続時間が、低持続時間しきい値以上であれば、要素(113)を有効であると考慮するステップを備える、ことを特徴とする請求項1から5のいずれか一項に記載の方法。
- ステップiii.a.の前記検証テストは、その持続時間が、高持続時間しきい値以下であれば、要素(113)を有効であると考慮するステップを備える、ことを特徴とする請求項1から6のいずれか一項に記載の方法。
- 前記結果(100)の各要素(113)は、信頼度係数(160)によって特徴付けられ、ステップiii.a.の前記検証テストは、その信頼度係数(160)が、最小信頼度係数(161)以上であれば、要素(113)を有効であると考慮するステップを備える、ことを特徴とする請求項1から7のいずれか一項に記載の方法。
- ステップiii.a.の前記検証テストは、前記結果(100)の前記終了(112)に向かって、直接的に隣接している別の要素(113)から要素を分離する時間インターバル(170)が最小時間インターバル以上であれば、要素(113)を有効であると考慮するステップを備える、ことを特徴とする請求項1から8のいずれか一項に記載の方法。
- ステップiii.a.の前記検証テストは、要素(113)に関連付けられた統計値が、近い範囲内で、同じ要素(113)のため、かつ、この所与の話者(40)のため予め定義された統計値に従うのであれば、前記所与の話者(40)のために、前記結果(100)の前記要素(113)を有効であると考慮するステップを備える、ことを特徴とする請求項1から9のいずれか一項に記載の方法。
- ステップiii.a.において有効であると判定されたすべての前記要素(113)は、ステップv.の前記後処理された解(200)を決定するために再使用される、ことを特徴とする請求項1から10のいずれか一項に記載の方法。
- 第1および第2の音声認識結果(100)から、最適化された解を決定するための方法であって、以下のステップ、すなわち、
A.請求項1から11のいずれか一項に記載の方法に従う後処理方法を、前記第1の結果(100)へ適用するステップと、
B.請求項1から11のいずれか一項に記載の方法に従う後処理方法を、前記第2の結果(100)へ適用するステップと、
C.前記第1および第2の結果(100)のうちの1つまたは複数の結果(100)に属し、ステップiii.a.の前記検証ステップによって有効であると判定された1つまたは複数の要素(113)から、前記最適化された解を決定するステップとを備える、方法。 - 音声認識結果(100)を後処理するためのシステム(11)であって、前記結果(100)は、先頭(111)、終了(112)、および前記先頭(111)と前記終了(112)との間に分散された複数の要素(113)を備え、前記後処理システム(11)は、
- 前記結果(100)を読み取るための獲得手段(12)と、
- 処理手段(13)であって、
+ 以下のステップ、すなわち、
・前記処理手段(13)によって必要とされる検証テストを以前に受けていない前記複数の要素(113)のうちの要素(113)を分離するステップと、
・検証テストを使用することによって、前記分離された要素(113)が有効であるか否かを判定するステップと、を繰り返し実行するため、および、
+ 有効であると判定された少なくとも1つの要素(113)を再使用することによって、後処理された解(200)を決定するための処理手段(13)とを備える、システムにおいて、
前記処理手段(13)によって分離された各要素(113)が、前記結果(100)の前記終了(112)から、前記結果(100)の前記先頭(111)へと、連続方式で選択されることを特徴とする、システム。 - 音声認識結果(100)を処理するためのプログラムであって、前記結果(100)は、先頭(111)、終了(112)、および前記先頭(111)と前記終了(112)との間に分散された複数の要素(113)を備え、前記プログラムは、デバイスが以下のステップ、すなわち、
i.前記音声認識結果(100)を読み取るステップと、
ii.ステップiii.a.の検証テストを受けていない前記複数の要素(113)のうちの要素(113)を分離するステップと、
iii.その後、
a.ステップii.において要素(113)が分離されたのであれば、検証テストを使用することによって、前記要素が有効であるか否かを判定し、
b.分離されていないのであれば、直接的にステップv.へ進むステップと、
iv.ステップii.およびステップiii.を繰り返すステップと、
v.ステップiii.a.において少なくとも1つの要素(113)が有効であると判定されたのであれば、ステップiii.a.において有効であると判定された少なくとも1つの要素(113)を再使用することによって、後処理された解(200)を決定するステップとを実行することを可能にするためのコードを備える、プログラムにおいて、
ステップii.において分離された各要素(113)が、前記結果(100)の前記終了(112)から、前記結果(100)の前記先頭(111)へと、連続方式で選択されることを特徴とする、プログラム。 - デバイスへ接続され得、読み取られた場合、前記デバイスが音声認識結果(100)を処理することを可能にする命令を備える記憶媒体であって、前記結果(100)は、先頭(111)、終了(112)、および、前記先頭(111)と前記終了(112)との間に分散された複数の要素(113)を備え、前記命令は、前記デバイスが以下のステップ、すなわち、
i.前記結果(100)を読み取るステップと、
ii.ステップiii.a.の前記検証テストを受けていない前記複数の要素(113)のうちの要素(113)を分離するステップと、
iii.その後、
a.ステップii.において要素(113)が分離されたのであれば、検証テストを使用することによって、前記要素が有効であるか否かを判定し、
b.分離されていないのであれば、直接的にステップv.へ進むステップと、
iv.ステップii.およびステップiii.を繰り返すステップと、
v.ステップiii.a.において少なくとも1つの要素(113)が有効であると判定されたのであれば、ステップiii.a.において有効であると判定された少なくとも1つの要素(113)を再使用することによって、後処理された解(200)を決定するステップと、を実行することを保証する、記憶媒体において、
ステップii.において分離された各要素(113)が、前記結果(100)の前記終了(112)から、前記結果(100)の前記先頭(111)へと、連続方式で選択されることを特徴とする、記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15157919.0 | 2015-03-06 | ||
EP15157919.0A EP3065131B1 (fr) | 2015-03-06 | 2015-03-06 | Méthode et système de post-traitement d'un résultat de reconnaissance vocale |
PCT/EP2016/054425 WO2016142235A1 (fr) | 2015-03-06 | 2016-03-02 | Méthode et système de post-traitement d'un résultat de reconnaissance vocale |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018507446A true JP2018507446A (ja) | 2018-03-15 |
JP6768715B2 JP6768715B2 (ja) | 2020-10-14 |
Family
ID=52627082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017564802A Active JP6768715B2 (ja) | 2015-03-06 | 2016-03-02 | 音声認識結果の後処理のための方法およびシステム |
Country Status (9)
Country | Link |
---|---|
US (1) | US20180151175A1 (ja) |
EP (1) | EP3065131B1 (ja) |
JP (1) | JP6768715B2 (ja) |
CN (1) | CN107750378A (ja) |
BE (1) | BE1023435B1 (ja) |
ES (1) | ES2811771T3 (ja) |
PL (1) | PL3065131T3 (ja) |
PT (1) | PT3065131T (ja) |
WO (1) | WO2016142235A1 (ja) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07272447A (ja) * | 1994-03-25 | 1995-10-20 | Toppan Printing Co Ltd | 音声データ編集システム |
JPH11153999A (ja) * | 1997-11-19 | 1999-06-08 | Fujitsu Ltd | 音声認識装置及びそれを用いた情報処理装置 |
JP2003162524A (ja) * | 2001-11-26 | 2003-06-06 | Toyota Central Res & Dev Lab Inc | 言語処理装置 |
JP2004101963A (ja) * | 2002-09-10 | 2004-04-02 | Advanced Telecommunication Research Institute International | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
US7181399B1 (en) * | 1999-05-19 | 2007-02-20 | At&T Corp. | Recognizing the numeric language in natural spoken dialogue |
JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
JP2010079092A (ja) * | 2008-09-26 | 2010-04-08 | Toshiba Corp | 音声認識装置及び方法 |
JP2014081441A (ja) * | 2012-10-15 | 2014-05-08 | Sharp Corp | コマンド判定装置およびその制御方法、コマンド判定プログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5745602A (en) * | 1995-05-01 | 1998-04-28 | Xerox Corporation | Automatic method of selecting multi-word key phrases from a document |
US20060074664A1 (en) * | 2000-01-10 | 2006-04-06 | Lam Kwok L | System and method for utterance verification of chinese long and short keywords |
WO2001084535A2 (en) * | 2000-05-02 | 2001-11-08 | Dragon Systems, Inc. | Error correction in speech recognition |
US6754629B1 (en) | 2000-09-08 | 2004-06-22 | Qualcomm Incorporated | System and method for automatic voice recognition using mapping |
US7072837B2 (en) * | 2001-03-16 | 2006-07-04 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
US20050209849A1 (en) * | 2004-03-22 | 2005-09-22 | Sony Corporation And Sony Electronics Inc. | System and method for automatically cataloguing data by utilizing speech recognition procedures |
JP5072415B2 (ja) * | 2007-04-10 | 2012-11-14 | 三菱電機株式会社 | 音声検索装置 |
US8781825B2 (en) * | 2011-08-24 | 2014-07-15 | Sensory, Incorporated | Reducing false positives in speech recognition systems |
TWI475558B (zh) * | 2012-11-08 | 2015-03-01 | Ind Tech Res Inst | 詞語驗證的方法及裝置 |
US9460715B2 (en) * | 2013-03-04 | 2016-10-04 | Amazon Technologies, Inc. | Identification using audio signatures and additional characteristics |
US20140278418A1 (en) | 2013-03-15 | 2014-09-18 | Broadcom Corporation | Speaker-identification-assisted downlink speech processing systems and methods |
-
2015
- 2015-03-06 EP EP15157919.0A patent/EP3065131B1/fr active Active
- 2015-03-06 PL PL15157919T patent/PL3065131T3/pl unknown
- 2015-03-06 ES ES15157919T patent/ES2811771T3/es active Active
- 2015-03-06 PT PT151579190T patent/PT3065131T/pt unknown
-
2016
- 2016-03-02 WO PCT/EP2016/054425 patent/WO2016142235A1/fr active Application Filing
- 2016-03-02 JP JP2017564802A patent/JP6768715B2/ja active Active
- 2016-03-02 CN CN201680024074.6A patent/CN107750378A/zh active Pending
- 2016-03-02 BE BE2016/5152A patent/BE1023435B1/fr active
- 2016-03-02 US US15/554,957 patent/US20180151175A1/en not_active Abandoned
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07272447A (ja) * | 1994-03-25 | 1995-10-20 | Toppan Printing Co Ltd | 音声データ編集システム |
JPH11153999A (ja) * | 1997-11-19 | 1999-06-08 | Fujitsu Ltd | 音声認識装置及びそれを用いた情報処理装置 |
US7181399B1 (en) * | 1999-05-19 | 2007-02-20 | At&T Corp. | Recognizing the numeric language in natural spoken dialogue |
JP2003162524A (ja) * | 2001-11-26 | 2003-06-06 | Toyota Central Res & Dev Lab Inc | 言語処理装置 |
JP2004101963A (ja) * | 2002-09-10 | 2004-04-02 | Advanced Telecommunication Research Institute International | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
JP2010079092A (ja) * | 2008-09-26 | 2010-04-08 | Toshiba Corp | 音声認識装置及び方法 |
JP2014081441A (ja) * | 2012-10-15 | 2014-05-08 | Sharp Corp | コマンド判定装置およびその制御方法、コマンド判定プログラム |
Also Published As
Publication number | Publication date |
---|---|
ES2811771T3 (es) | 2021-03-15 |
EP3065131A1 (fr) | 2016-09-07 |
PL3065131T3 (pl) | 2021-01-25 |
JP6768715B2 (ja) | 2020-10-14 |
US20180151175A1 (en) | 2018-05-31 |
CN107750378A (zh) | 2018-03-02 |
WO2016142235A1 (fr) | 2016-09-15 |
BE1023435B1 (fr) | 2017-03-20 |
PT3065131T (pt) | 2020-08-27 |
BE1023435A1 (fr) | 2017-03-20 |
EP3065131B1 (fr) | 2020-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11817094B2 (en) | Automatic speech recognition with filler model processing | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US9330667B2 (en) | Method and system for endpoint automatic detection of audio record | |
JP6158348B2 (ja) | 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定 | |
US9251789B2 (en) | Speech-recognition system, storage medium, and method of speech recognition | |
US8494853B1 (en) | Methods and systems for providing speech recognition systems based on speech recordings logs | |
KR101131278B1 (ko) | 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치 | |
US9142211B2 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium | |
US7865364B2 (en) | Avoiding repeated misunderstandings in spoken dialog system | |
US8589162B2 (en) | Method, system and computer program for enhanced speech recognition of digits input strings | |
US9240181B2 (en) | Automatic collection of speaker name pronunciations | |
JP4897040B2 (ja) | 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム | |
CN104462912A (zh) | 改进的生物密码安全 | |
Takamichi et al. | JTubeSpeech: corpus of Japanese speech collected from YouTube for speech recognition and speaker verification | |
US20150310853A1 (en) | Systems and methods for speech artifact compensation in speech recognition systems | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP6276513B2 (ja) | 音声認識装置および音声認識プログラム | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
KR101444411B1 (ko) | 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법 | |
KR101529918B1 (ko) | 다중 스레드를 이용한 음성 인식 장치 및 그 방법 | |
JP6768715B2 (ja) | 音声認識結果の後処理のための方法およびシステム | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
JP2004101963A5 (ja) | ||
JP2019101285A (ja) | 音声処理装置、音声処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190301 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200824 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200923 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6768715 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |