JP2021033051A - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP2021033051A JP2021033051A JP2019153039A JP2019153039A JP2021033051A JP 2021033051 A JP2021033051 A JP 2021033051A JP 2019153039 A JP2019153039 A JP 2019153039A JP 2019153039 A JP2019153039 A JP 2019153039A JP 2021033051 A JP2021033051 A JP 2021033051A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- score
- background noise
- voice data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 48
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims abstract description 87
- 238000012545 processing Methods 0.000 claims description 41
- 230000001186 cumulative effect Effects 0.000 claims description 13
- 238000001514 detection method Methods 0.000 description 104
- 238000000034 method Methods 0.000 description 39
- 230000008569 process Effects 0.000 description 21
- 230000015654 memory Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
(1)音声キーワード検出システム
図1は、第1の実施形態に係る情報処理装置を備える音声キーワード検出システムの全体構成の一例を示す図である。
(2−1)構成
図2は、第1の実施形態に係る情報処理装置としての音声キーワード検出装置1のシステム構成の一例を示すブロック図である。
音声キーワード検出装置1は、例えば、CPU(Central Processing Unit)等のハードウェアプロセッサ20Aを有する。そして、このハードウェアプロセッサに対し、プログラムメモリ20B、データメモリ30、入出力インタフェース(入出力I/F)11および通信インタフェース(通信I/F)12を、バス40を介して接続したものとなっている。
データメモリ30の記憶領域には、モデル記憶部31と、閾値記憶部32とが設けられている。
次に、以上のように構成された音声キーワード検出装置1による情報処理動作を説明する。図4はその処理手順と処理内容を示すフローチャートである。
まずステップS101において、音声キーワード検出装置1は、音声取得部21の制御の下、音声データを取得して、音声特徴量を抽出し、出力する。
次いで、ステップS102において、音声キーワード検出装置1は、キーワードスコア計算部221の制御の下、モデル記憶部31から読み出されたモデルと、上記フレームごとの音声特徴量とをもとに、キーワードスコアscoreKW を計算する。
次いで、ステップS104において、音声キーワード検出装置1は、キーワード検出部23の制御の下、閾値記憶部32からあらかじめ設定された閾値を読み出し、この読み出した閾値と、キーワードスコア計算部221により計算されたキーワードスコアと、背景雑音スコア計算部222により計算された背景雑音スコアとに基づいて、音声データがキーワードを含むか否かを判定する。
以上説明したように、第1の実施形態によれば、音声キーワード検出装置1は、音声特徴量に基づいて、フレームごとに、キーワードスコアのみならず、背景雑音スコアも計算する。そして、キーワードスコアscoreKW があらかじめ設定されたキーワードスコア閾値θKW よりも大きく、かつ、背景雑音スコアscoreBN があらかじめ設定された背景雑音スコア閾値θBN よりも小さい場合に、当該フレームに係る音声データをキーワードとして検出する。
(1)構成および動作
第2の実施形態に係る情報処理装置としての音声キーワード検出装置1は、背景雑音が強い場合にもキーワードを精度良く検出しようとするものである。
第2の実施形態に係る音声キーワード検出装置1は、実施例1では、キーワードスコアと背景雑音スコアの差分を使用する。すなわち、キーワード検出部23は、キーワードスコアと背景雑音スコアの差分があらかじめ設定されたスコア差分閾値よりも大きい場合、音声データがキーワードを含むと判定する。具体的には、scoreKW −scoreBN > θD の場合に、当該フレームに係る音声データをキーワードと判定する。
第2の実施形態に係る音声キーワード検出装置1は、実施例2では、キーワードスコアと背景雑音スコアの比率を用いる。すなわち、キーワード検出部23が、キーワードスコアと背景雑音スコアの比率があらかじめ設定されたスコア比率閾値よりも大きい場合、音声データがキーワードを含むものとして判定する。具体的には、scoreKW /scoreBN > θR の場合に、当該フレームに係る音声データをキーワードと判定する。
第2の実施形態に係る音声キーワード検出装置1は、キーワードスコアと背景雑音スコアを計算し、それらの差分または比率をあらかじめ設定された閾値と比較して、比較結果に応じて音声データがキーワードを含むか否かを判定する。
(1)構成および動作
第3の実施形態に係る情報処理装置としての音声キーワード検出装置1は、計算量を低減しつつ、キーワードを精度良く検出しようとするものである。
第3の実施形態に係る音声キーワード検出装置1は、実施例1では、はじめにキーワードスコアに基づいてキーワード候補の検出を行い、キーワード候補が検出された場合に、当該キーワード候補のフレームに対して背景雑音スコアを計算し、背景雑音スコアを用いてキーワードであるか否かの判定を行う。
まずステップS201において、音声キーワード検出装置1は、音声取得部21の制御の下、第1の実施形態と同様に、音声データを取得し音声特徴量を出力する。
第3の実施形態に係る音声キーワード検出装置1は、実施例2では、キーワード候補が検出された場合に、背景雑音スコアを計算し、キーワードスコアと背景雑音スコアの差分を用いてキーワードであるか否かの判定を行う。
すなわち、上記実施例1と同様に、キーワード検出部23が、キーワードスコア計算部221により計算されたキーワードスコアとキーワードスコア閾値とを比較して、キーワードの可能性があるキーワード候補であるか否かを判定する。そして、背景雑音スコア計算部222は、キーワード候補が検出された場合に、当該キーワード候補の始端情報と終端情報とを用いて背景雑音スコアを計算する。
第3の実施形態に係る音声キーワード検出装置1は、実施例3では、キーワード候補が検出された場合に、背景雑音スコアを計算し、キーワードスコアと背景雑音スコアの比率を用いてキーワードであるか否かの判定を行う。
すなわち、上記実施例1、2と同様に、キーワード検出部23が、キーワードスコア計算部221により計算されたキーワードスコアとキーワードスコア閾値とを比較して、キーワードの可能性があるキーワード候補であるか否かを判定する。そして、背景雑音スコア計算部222は、キーワード候補が検出された場合に、当該キーワード候補の始端情報と終端情報とを用いて背景雑音スコアを計算する。
第3の実施形態に係る音声キーワード検出装置1は、まずキーワードスコアとキーワードスコア閾値とに基づいて、キーワード候補であるか否かを判定する。そして、キーワード候補であると判定された場合に、当該キーワード候補のフレームについて、背景雑音スコアを計算する。そして、音声キーワード検出装置1は、少なくとも背景雑音スコアとあらかじめ設定された閾値とに基づいて、キーワード候補のフレームがキーワードであるか否かをさらに判定する。
なお、この発明は上記実施形態に限定されるものではない。例えば、上記実施形態では、背景雑音を1つの成分(音素)として扱ったが、背景雑音が複数の種類を含むものとしてモデルを作成し学習させることもできる。例えば、走行中の自動車内では、乗員の会話や動きに起因する雑音に加えて、エンジン音をはじめとする定常的な雑音が発生し得る。あるいは、会議室内では、ドアの開閉や隣室の会話などの雑音に加えて、運転中のエアコンから生じるファンやモータの定常的な雑音が発生し得る。したがって、背景雑音を、このような定常的な雑音と、それ以外の非定常的な雑音とに分けて扱い、それぞれについて背景雑音スコアを計算するようにしてもよい。またその際、定常的な雑音については閾値を厳しく設定するなど、複数種類の背景雑音に対しそれぞれ異なる閾値を設定してもよい。これにより、定常的な雑音(例えば、自動車や飛行機のエンジン音、冷蔵庫やエアコンなどのモータ音など)と、隣室の会話や人の活動音などを区別することができ、いっそうの精度向上が期待できる。
Claims (15)
- 複数のフレームを含む音声データを取得する第1の取得部と、
前記音声データから抽出される特徴量を入力すると、特定のキーワードの成分と前記キーワード以外の背景雑音の成分とを含む複数のクラスの各々に対する尤度を表す情報を出力するように学習されたモデルを取得する第2の取得部と、
前記音声データの前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される情報に基づいて、前記キーワードの成分の出現確率の高さを表すキーワードスコアを計算する第1の計算部と、
前記音声データの前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される情報に基づいて、前記背景雑音の成分の出現確率の高さを表す背景雑音スコアを計算する第2の計算部と、
前記キーワードスコアと、前記背景雑音スコアと、あらかじめ設定された閾値とに基づいて、前記音声データが前記キーワードを含むか否かを判定する判定部と、
を備える情報処理装置。 - 複数のフレームを含む音声データを取得する第1の取得部と、
前記音声データから抽出される特徴量を入力すると、特定のキーワードの成分と前記キーワード以外の背景雑音の成分とを含む複数のクラスの各々に対する尤度を表す情報を出力するように学習されたモデルを取得する第2の取得部と、
前記音声データの前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される情報に基づいて、前記キーワードの成分の出現確率の高さを表すキーワードスコアを計算する第1の計算部と、
前記キーワードスコアと、あらかじめ設定された第1の閾値とに基づいて、前記音声データが前記キーワードの候補を含むか否かを判定し、前記音声データが前記キーワードの候補を含むと判定された場合に、前記キーワードの候補に対応する前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される前記情報に基づいて、前記背景雑音の成分の出現確率の高さを表す背景雑音スコアを計算する第2の計算部と、
前記背景雑音スコアと、あらかじめ設定された第2の閾値とに少なくとも基づいて、前記音声データが前記キーワードを含むか否かを判定する判定部と、
を備える情報処理装置。 - 前記モデルから出力される前記尤度を表す情報は、前記キーワードの成分としての音素と第1の隠れマルコフモデルとの対応付けと、前記背景雑音の成分としての音素と第2の隠れマルコフモデルとの対応付けとをさらに含む、請求項1または請求項2に記載の情報処理装置。
- 前記第1の計算部は、前記キーワードスコアとして、前記フレームごとに、前記キーワードの成分としての音素と隠れマルコフモデルとの対応付けの出現確率を計算し、さらにビタビアルゴリズムを用いて前記出現確率の累積値を計算する、請求項1または請求項2に記載の情報処理装置。
- 前記第2の計算部は、前記背景雑音スコアとして、前記フレームごとに、前記背景雑音の成分としての音素と隠れマルコフモデルとの対応付けの出現確率を計算し、さらにビタビアルゴリズムを用いて前記出現確率の累積値を計算する、請求項1または請求項2に記載の情報処理装置。
- 前記判定部は、前記キーワードスコアがあらかじめ設定された第1の閾値よりも大きく、かつ前記背景雑音スコアがあらかじめ設定された第2の閾値よりも小さい場合に、前記音声データが前記キーワードを含むと判定する、請求項1に記載の情報処理装置。
- 前記判定部は、前記キーワードスコアと前記背景雑音スコアの差分があらかじめ設定された第3の閾値よりも大きい場合に、前記音声データがキーワードを含むと判定する、請求項1に記載の情報処理装置。
- 前記判定部は、前記キーワードスコアと前記背景雑音スコアの比率があらかじめ設定された第4の閾値よりも大きい場合に、前記音声データがキーワードを含むと判定する、請求項1に記載の情報処理装置。
- 前記第2の計算部は、前記キーワードスコアが前記第1の閾値よりも大きい場合に、前記音声データが前記キーワードの候補を含むと判定し、前記キーワードの候補の始端情報と終端情報とを用いて前記キーワードの候補に対応するフレームについて前記背景雑音スコアを計算し、
前記判定部は、前記背景雑音スコアが前記第2の閾値よりも小さい場合に、前記音声データが前記キーワードを含むと判定する、
請求項2に記載の情報処理装置。 - 前記第2の計算部は、前記キーワードスコアが前記第1の閾値よりも大きい場合に、前記音声データが前記キーワードの候補を含むと判定し、前記キーワードの候補の始端情報と終端情報とを用いて前記キーワードの候補に対応するフレームについて前記背景雑音スコアを計算し、
前記判定部は、前記キーワードスコアと前記背景雑音スコアの差分があらかじめ設定された第3の閾値よりも大きい場合に、前記音声データがキーワードを含むと判定する、
請求項2に記載の情報処理装置。 - 前記第2の計算部は、前記キーワードスコアが前記第1の閾値よりも大きい場合に、前記音声データが前記キーワードの候補を含むと判定し、前記キーワードの候補の始端情報と終端情報とを用いて前記キーワードの候補に対応するフレームについて前記背景雑音スコアを計算し、
前記判定部は、前記キーワードスコアと前記背景雑音スコアの比率があらかじめ設定された第4の閾値よりも大きい場合に、前記音声データがキーワードを含むと判定する、
請求項2に記載の情報処理装置。 - 前記クラスは、前記背景雑音の成分を複数含み、
前記第2の計算部は、前記フレームごとに、前記背景雑音の複数の成分の各々に関して前記背景雑音スコアを計算する、請求項1または請求項2に記載の情報処理装置。 - 情報処理装置が実行する情報処理方法であって、
複数のフレームを含む音声データを取得することと、
前記音声データから抽出される特徴量を入力すると、特定のキーワードの成分と前記キーワード以外の背景雑音の成分とを含む複数のクラスの各々に対する尤度を表す情報を出力するように学習されたモデルを取得することと、
前記音声データの前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される情報に基づいて、前記キーワードの成分の出現確率の高さを表すキーワードスコアを計算することと、
前記音声データの前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される情報に基づいて、前記背景雑音の成分の出現確率の高さを表す背景雑音スコアを計算することと、
前記キーワードスコアと、前記背景雑音スコアと、あらかじめ設定された閾値とに基づいて、前記音声データが前記キーワードを含むか否かを判定することと、
を備える情報処理方法。 - 情報処理装置が実行する情報処理方法であって、
複数のフレームを含む音声データを取得することと、
前記音声データから抽出される特徴量を入力すると、特定のキーワードの成分と前記キーワード以外の背景雑音の成分とを含む複数のクラスの各々に対する尤度を表す情報を出力するように学習されたモデルを取得することと、
前記音声データの前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される情報に基づいて、前記キーワードの成分の出現確率の高さを表すキーワードスコアを計算することと、
前記キーワードスコアと、あらかじめ設定された第1の閾値とに基づいて、前記音声データが前記キーワードの候補を含むか否かを判定し、前記音声データが前記キーワードの候補を含むと判定された場合に、前記キーワードの候補に対応する前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される前記情報に基づいて、前記背景雑音の成分の出現確率の高さを表す背景雑音スコアを計算することと、
前記背景雑音スコアと、あらかじめ設定された第2の閾値とに少なくとも基づいて、前記音声データが前記キーワードを含むか否かを判定することと、
を備える情報処理方法。 - 請求項1乃至請求項12の何れかに記載の装置の各部による処理をプロセッサに実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019153039A JP7191792B2 (ja) | 2019-08-23 | 2019-08-23 | 情報処理装置、情報処理方法およびプログラム |
CN202010127298.8A CN112420020B (zh) | 2019-08-23 | 2020-02-28 | 信息处理装置及信息处理方法 |
US16/804,346 US11823669B2 (en) | 2019-08-23 | 2020-02-28 | Information processing apparatus and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019153039A JP7191792B2 (ja) | 2019-08-23 | 2019-08-23 | 情報処理装置、情報処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021033051A true JP2021033051A (ja) | 2021-03-01 |
JP7191792B2 JP7191792B2 (ja) | 2022-12-19 |
Family
ID=74646370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019153039A Active JP7191792B2 (ja) | 2019-08-23 | 2019-08-23 | 情報処理装置、情報処理方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11823669B2 (ja) |
JP (1) | JP7191792B2 (ja) |
CN (1) | CN112420020B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102321798B1 (ko) * | 2019-08-15 | 2021-11-05 | 엘지전자 주식회사 | 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스 |
EP3948516A1 (en) * | 2020-06-09 | 2022-02-09 | Google LLC | Generation of interactive audio tracks from visual content |
CN113035231B (zh) * | 2021-03-18 | 2024-01-09 | 三星(中国)半导体有限公司 | 关键词检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003202887A (ja) * | 2001-12-28 | 2003-07-18 | Toshiba Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2005092310A (ja) * | 2003-09-12 | 2005-04-07 | Kddi Corp | 音声キーワード認識装置 |
JP2013117729A (ja) * | 2005-02-01 | 2013-06-13 | Qualcomm Inc | 背景雑音情報の断続伝送及び正確な再生の方法 |
JP2016515741A (ja) * | 2013-04-15 | 2016-05-30 | マイクロソフト テクノロジー ライセンシング,エルエルシー | マルチフィンガータッチインタラクション中のパンおよびスケーリングの検出 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06266386A (ja) * | 1993-03-16 | 1994-09-22 | Nippon Telegr & Teleph Corp <Ntt> | ワードスポッティング方法 |
EP0800158B1 (en) * | 1996-04-01 | 2001-06-27 | Hewlett-Packard Company, A Delaware Corporation | Word spotting |
US6985859B2 (en) * | 2001-03-28 | 2006-01-10 | Matsushita Electric Industrial Co., Ltd. | Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments |
JP2003308091A (ja) * | 2002-04-17 | 2003-10-31 | Pioneer Electronic Corp | 音声認識装置、音声認識方法および音声認識プログラム |
JP4226273B2 (ja) * | 2002-05-27 | 2009-02-18 | パイオニア株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
JP2003345384A (ja) * | 2002-05-27 | 2003-12-03 | Pioneer Electronic Corp | 音声認識装置、音声認識方法および音声認識プログラム |
JP4357867B2 (ja) * | 2003-04-25 | 2009-11-04 | パイオニア株式会社 | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 |
JP4058521B2 (ja) * | 2003-09-11 | 2008-03-12 | 独立行政法人産業技術総合研究所 | 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム |
KR100745976B1 (ko) * | 2005-01-12 | 2007-08-06 | 삼성전자주식회사 | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 |
KR100679051B1 (ko) * | 2005-12-14 | 2007-02-05 | 삼성전자주식회사 | 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법 |
US8131543B1 (en) * | 2008-04-14 | 2012-03-06 | Google Inc. | Speech detection |
JP6276513B2 (ja) * | 2013-04-12 | 2018-02-07 | 株式会社レイトロン | 音声認識装置および音声認識プログラム |
JP2015118354A (ja) * | 2013-12-20 | 2015-06-25 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
US9959863B2 (en) * | 2014-09-08 | 2018-05-01 | Qualcomm Incorporated | Keyword detection using speaker-independent keyword models for user-designated keywords |
JP6679898B2 (ja) * | 2015-11-24 | 2020-04-15 | 富士通株式会社 | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US20170256270A1 (en) * | 2016-03-02 | 2017-09-07 | Motorola Mobility Llc | Voice Recognition Accuracy in High Noise Conditions |
GB2552723A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
JP6585112B2 (ja) | 2017-03-17 | 2019-10-02 | 株式会社東芝 | 音声キーワード検出装置および音声キーワード検出方法 |
US10964315B1 (en) * | 2017-06-30 | 2021-03-30 | Amazon Technologies, Inc. | Monophone-based background modeling for wakeword detection |
CN107665705B (zh) * | 2017-09-20 | 2020-04-21 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
CN109903751B (zh) * | 2017-12-08 | 2023-07-07 | 阿里巴巴集团控股有限公司 | 关键词确认方法和装置 |
US10964311B2 (en) * | 2018-02-23 | 2021-03-30 | Kabushiki Kaisha Toshiba | Word detection system, word detection method, and storage medium |
CN108615526B (zh) * | 2018-05-08 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 语音信号中关键词的检测方法、装置、终端及存储介质 |
US11037556B2 (en) * | 2018-07-17 | 2021-06-15 | Ford Global Technologies, Llc | Speech recognition for vehicle voice commands |
CN109461456B (zh) * | 2018-12-03 | 2022-03-22 | 云知声智能科技股份有限公司 | 一种提升语音唤醒成功率的方法 |
-
2019
- 2019-08-23 JP JP2019153039A patent/JP7191792B2/ja active Active
-
2020
- 2020-02-28 CN CN202010127298.8A patent/CN112420020B/zh active Active
- 2020-02-28 US US16/804,346 patent/US11823669B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003202887A (ja) * | 2001-12-28 | 2003-07-18 | Toshiba Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2005092310A (ja) * | 2003-09-12 | 2005-04-07 | Kddi Corp | 音声キーワード認識装置 |
JP2013117729A (ja) * | 2005-02-01 | 2013-06-13 | Qualcomm Inc | 背景雑音情報の断続伝送及び正確な再生の方法 |
JP2016515741A (ja) * | 2013-04-15 | 2016-05-30 | マイクロソフト テクノロジー ライセンシング,エルエルシー | マルチフィンガータッチインタラクション中のパンおよびスケーリングの検出 |
Also Published As
Publication number | Publication date |
---|---|
US11823669B2 (en) | 2023-11-21 |
JP7191792B2 (ja) | 2022-12-19 |
CN112420020B (zh) | 2024-05-03 |
US20210056961A1 (en) | 2021-02-25 |
CN112420020A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11848018B2 (en) | Utterance classifier | |
US11854545B2 (en) | Privacy mode based on speaker identifier | |
US11138977B1 (en) | Determining device groups | |
US10365887B1 (en) | Generating commands based on location and wakeword | |
US20200075044A1 (en) | System and method for performing multi-model automatic speech recognition in challenging acoustic environments | |
JP7191792B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
Akbacak et al. | Environmental sniffing: noise knowledge estimation for robust speech systems | |
US11302329B1 (en) | Acoustic event detection | |
WO2018078885A1 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
KR101840363B1 (ko) | 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법 | |
US11328713B1 (en) | On-device contextual understanding | |
JP7098587B2 (ja) | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム | |
KR20230118165A (ko) | 핫워드 속성에 기초한 자동화된 스피치 인식 파라미터적응시키기 | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
US20240153493A1 (en) | Techniques for improved audio processing using combinations of clipping engines and acoustic models | |
Naga Sai Manish et al. | Spoken Keyword Detection in Speech Processing using Error Rate Estimations. | |
Bohac | Performance comparison of several techniques to detect keywords in audio streams and audio scene | |
Kanasro et al. | Finding Accuracy of Utterance of Language Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210901 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220721 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221207 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7191792 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |