JP7098587B2 - 情報処理装置、キーワード検出装置、情報処理方法およびプログラム - Google Patents
情報処理装置、キーワード検出装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP7098587B2 JP7098587B2 JP2019157158A JP2019157158A JP7098587B2 JP 7098587 B2 JP7098587 B2 JP 7098587B2 JP 2019157158 A JP2019157158 A JP 2019157158A JP 2019157158 A JP2019157158 A JP 2019157158A JP 7098587 B2 JP7098587 B2 JP 7098587B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- data
- learning
- model
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 51
- 230000010365 information processing Effects 0.000 title claims description 37
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000000034 method Methods 0.000 claims description 71
- 238000012545 processing Methods 0.000 claims description 50
- 239000000284 extract Substances 0.000 claims description 28
- 230000006978 adaptation Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 description 44
- 230000015654 memory Effects 0.000 description 26
- 238000013500 data storage Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005401 electroluminescence Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
[第1の実施形態]
(1)キーワードモデル学習装置
(1-1)構成
図1は、第1の実施形態に係る情報処理装置としてのキーワードモデル学習装置1の一例を示すブロック図である。キーワードモデル学習装置1は、例えば、サーバコンピュータまたはパーソナルコンピュータであり、キーワードを検出するために使用されるキーワードモデルの学習に使用される。
データメモリ30の記憶領域には、学習データ記憶部31と、キーワードモデル記憶部32とが設けられている。
次に、以上のように構成されたキーワードモデル学習装置1による情報処理動作を説明する。図3はその処理手順と処理内容を示すフローチャートである。
以上説明したように、第1の実施形態では、キーワードモデル学習装置1は、音声特徴量とその正解音素ラベルの組合せを含む学習データを取得し、学習データを用いて、音声特徴量の入力に対して正解音素ラベルを出力するように汎用モデルを学習させる。また一方、学習データから、あらかじめ設定されたキーワード、前記キーワードに含まれるサブワード、前記キーワードに含まれる音節、または前記キーワードに含まれる音素を含むデータを抽出し、抽出したデータを少なくとも用いて、上記学習済みの汎用モデルを上記キーワードの検出に係るキーワードモデルに適応させる。
(1)構成および動作
第2の実施形態に係る情報処理装置としてのキーワードモデル学習装置1は、キーワードの発話音声を含むキーワード発話データをさらに使用してキーワードモデルの適応を実施する。
第2の実施形態に係るキーワードモデル学習装置1は、図1に示した第1の実施形態に係るキーワードモデル学習装置1と同様のシステム構成を備えることができる。
以上のように、第2の実施形態では、キーワードモデル学習装置1は、さらに、特定のキーワードを発話させたキーワード発話データを取得してキーワードモデルの適応を実施する。
(1)構成および動作
第3の実施形態に係る情報処理装置としてのキーワードモデル学習装置1は、学習データから、キーワードの文字数、その一部のサブワードの文字数、その一部の音節の数、またはその一部の音素の数が含まれる比率が所定の値以上であるデータを抽出する。
第3の実施形態に係るキーワードモデル学習装置1は、図1および図2に示した第1の実施形態に係るキーワードモデル学習装置1と同様のシステム構成および機能構成を備えることができる。
以上のように、第3の実施形態では、キーワードモデル学習装置1は、キーワードまたはキーワードの一部が所定の比率以上含まれるデータを抽出して、キーワードモデルの適応に用いる。これにより、キーワードまたはその要素以外のデータが抽出される比率を低く抑えることができる。
(1)構成および動作
第4の実施形態に係る情報処理装置としてのキーワードモデル学習装置1は、学習データから抽出されるデータ数に上限値を設定する。
第4の実施形態に係るキーワードモデル学習装置1は、図1および図2に示した第1の実施形態に係るキーワードモデル学習装置1と同様のシステム構成および機能構成を備えることができる。
以上のように、第4の実施形態では、キーワードモデル学習装置1は、学習データから抽出されるデータ数に上限値を設定する。これにより、学習データから抽出されるデータ数にばらつきが生じるのを低減することができる。
(1)構成および動作
第5の実施形態に係る情報処理装置としてのキーワードモデル学習装置1は、上記第3の実施形態で説明した比率閾値と、上記第4の実施形態で説明したデータ数閾値との両方を用いてデータを抽出する。
第5の実施形態に係るキーワードモデル学習装置1は、図1および図2に示した第1の実施形態に係るキーワードモデル学習装置1と同様のシステム構成および機能構成を備えることができる。
以上のように、第5の実施形態では、キーワードモデル学習装置1は、学習データから抽出されるデータ数に上限値を設定し、上限値を超える場合にはデータに含まれるキーワードまたはその要素の数の比率が大きい順にデータを抽出する。またその際、比率が所定の値を超えるデータだけが抽出されるようにすることもできる。
(1)構成および動作
第6の実施形態に係る情報処理装置としてのキーワードモデル学習装置1は、ユーザからキーワードの設定を受け付けるキーワード設定部27をさらに備える。
第6の実施形態に係るキーワードモデル学習装置1は、図1に示した第1の実施形態に係るキーワードモデル学習装置1と同様のシステム構成を備えることができる。
第6の実施形態に係るキーワードモデル学習装置1は、まずステップS101において、学習データ取得部21の制御の下、学習データを取得する。ステップS102において、キーワードモデル学習装置1は、モデル学習部22の制御の下、上記学習データを用いて汎用モデルの学習を行う。
以上のように、第6の実施形態では、キーワードモデル学習装置1は、ユーザが任意に設定したキーワードに基づいて学習データからデータを抽出し、学習済みの汎用モデルを、ユーザが設定したキーワードを検出するキーワードモデルに適応させる。
このように第6の実施形態によれば、ユーザが設定したキーワードについて、新たに発話データを収録する必要なしに、キーワードモデルに適応させることができる。
(1)構成および動作
第7の実施形態は、上記実施形態にしたがって適応されたキーワードモデルを用いてキーワード検出を行うキーワード検出装置に関する。
キーワード検出装置100は、ハードウェアとして、I/Fユニット110と、制御ユニット120と、データメモリ130とを備える。
キーワード検出装置100は、マイクロホン101からの信号に基づきユーザの発話の有無を監視しており、発話が検出されたことをトリガとして以下の処理を開始する。
以上のように、第7の実施形態では、上記第1の実施形態、第2の実施形態、第3の実施形態、第4の実施形態、第5の実施形態、または第6の実施形態にしたがって、キーワードモデルの適応を実施する。そして、適応させたキーワードモデルを用いて、キーワード検出を行う。
このように第7の実施形態によれば、大量話者のキーワード発話を使用せずに適応させたキーワードモデルを用いて、精度良くキーワード検出を行うことができる。
図12は、以上のような実施形態を用いて適応させたキーワードモデルを用いた実験結果の一例を示す。なお、上記のように、キーワードの検出にはキーワードスコアを使用した。すなわち、音声からキーワードスコアを計算し、あらかじめ設定された閾値と比較して、キーワードスコアが閾値以上になる場合にはキーワードとして判定し、それ以外の場合にはキーワードではないと判定する。
「adapt_spk60」は、データ抽出を行わず、適応話者が60名のキーワード発話データ(例えば、60名が「でんきつけて」と発話したデータ)を用いて適応させた例である。汎用モデルに比べて精度が若干向上した。
「adapt_spk130」は、データ抽出を行わず、適応話者が130名のキーワード発話データを用いて適応させた例である。60名の発話データを使用した場合に比べて精度が若干向上した。
なお、この発明は上記実施形態に限定されるものではない。
例えば、上記実施形態に関して説明したキーワードモデル学習装置1が備える各機能部を、複数の装置(サーバ、エッジサーバ、他のクライアント端末など)に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。また各機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。
あるいは、モデル学習部22は、汎用モデルの学習を行った後、学習済みの汎用モデルを記憶領域内に設けられた汎用モデル記憶部(図示せず)にいったん記憶させてもよい。同様に、データ抽出部23は、データの抽出を行った後、抽出されたデータを記憶領域内に設けられた抽出データ記憶部(図示せず)にいったん記憶させてもよい。これにより、キーワードモデル学習装置1は、任意のタイミングで、キーワードモデル適応部24の制御の下、各記憶部から学習済みの汎用モデルと抽出されたデータとを読み出し、キーワードモデルに適応させる処理を行うことができる。
Claims (10)
- 音声特徴量と当該音声特徴量の正解音素ラベルの組合せを含む第1の学習データを取得する、第1のデータ取得部と、
前記第1の学習データを用いて、前記音声特徴量の入力に対して前記正解音素ラベルを出力するように音響モデルを学習させる学習部と、
あらかじめ設定されたキーワード、前記キーワードに含まれるサブワード、前記キーワードに含まれる音節、および前記キーワードに含まれる音素のうちの少なくとも1つの音声特徴量を含む第2の学習データを、前記第1の学習データから抽出する抽出部と、
前記第2の学習データを用いて、学習済みの前記音響モデルを前記キーワードの検出に係るキーワードモデルに適応させる適応処理部と、
を備える情報処理装置。 - 前記キーワードの発話音声を含むキーワード発話データを取得する、第2のデータ取得部をさらに備え、
前記適応処理部は、前記第2の学習データと前記キーワード発話データとを用いて、前記音響モデルを前記キーワードモデルに適応させる、
請求項1に記載の情報処理装置。 - 前記抽出部は、前記第2の学習データとして、前記キーワードの文字数、前記サブワードの文字数、前記音節の数、または前記音素の数がデータに含まれる比率が所定の値以上であるデータを抽出する、
請求項1に記載の情報処理装置。 - 前記抽出部は、所定のデータ数を上限として前記第2の学習データを抽出する、
請求項1に記載の情報処理装置。 - 前記抽出部は、所定のデータ数を上限として、前記キーワードの文字数、前記サブワードの文字数、前記音節の数、または前記音素の数がデータに含まれる比率が高い順に、前記第2の学習データとして抽出する、
請求項1に記載の情報処理装置。 - 前記抽出部は、所定のデータ数を上限として、前記キーワードの文字数、前記サブワードの文字数、前記音節の数、または前記音素の数がデータに含まれる比率が所定の値以上のデータを、前記比率が高い順に、前記第2の学習データとして抽出する、
請求項1に記載の情報処理装置。 - ユーザから前記キーワードの設定を受け付けるキーワード設定部をさらに備える、請求項1に記載の情報処理装置。
- 請求項1乃至7のいずれかに記載の情報処理装置によって適応されたキーワードモデルを用いてキーワード検出を行う、キーワード検出装置。
- 情報処理装置が実行する情報処理方法であって、
音声特徴量と当該音声特徴量の正解音素ラベルの組合せを含む第1の学習データを取得することと、
前記第1の学習データを用いて、前記音声特徴量の入力に対して前記正解音素ラベルを出力するように音響モデルを学習させることと、
あらかじめ設定されたキーワード、前記キーワードに含まれるサブワード、前記キーワードに含まれる音節、および前記キーワードに含まれる音素のうちの少なくとも1つの音声特徴量を含む第2の学習データを、前記第1の学習データから抽出することと、
前記第2の学習データを用いて、学習済みの前記音響モデルを前記キーワードの検出に係るキーワードモデルに適応させることと、
を備える情報処理方法。 - 請求項1乃至7のいずれかに記載の情報処理装置の各部による処理をプロセッサに実行させる命令を備えるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019157158A JP7098587B2 (ja) | 2019-08-29 | 2019-08-29 | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム |
US16/804,388 US11961510B2 (en) | 2019-08-29 | 2020-02-28 | Information processing apparatus, keyword detecting apparatus, and information processing method |
CN202010127371.1A CN112447176B9 (en) | 2019-08-29 | 2020-02-28 | Information processing apparatus, keyword detection apparatus, and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019157158A JP7098587B2 (ja) | 2019-08-29 | 2019-08-29 | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021033228A JP2021033228A (ja) | 2021-03-01 |
JP7098587B2 true JP7098587B2 (ja) | 2022-07-11 |
Family
ID=74677391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019157158A Active JP7098587B2 (ja) | 2019-08-29 | 2019-08-29 | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11961510B2 (ja) |
JP (1) | JP7098587B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230044079A1 (en) * | 2020-01-04 | 2023-02-09 | Arjun Karthik Bala | System and method for generating, triggering, and playing audio cues in real time using a personal audio device |
CN114199231A (zh) * | 2021-12-16 | 2022-03-18 | 北京积水潭医院 | 一种医院导航定位指导处理方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129527A (ja) | 2006-11-24 | 2008-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
WO2019001428A1 (zh) | 2017-06-29 | 2019-01-03 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100159298A1 (en) * | 2008-12-22 | 2010-06-24 | 3M Innovative Properties Company | Fuel cell membrane electrode assembly with multilayer cathode |
US9715660B2 (en) * | 2013-11-04 | 2017-07-25 | Google Inc. | Transfer learning for deep neural network based hotword detection |
US9953634B1 (en) * | 2013-12-17 | 2018-04-24 | Knowles Electronics, Llc | Passive training for automatic speech recognition |
US9953632B2 (en) * | 2014-04-17 | 2018-04-24 | Qualcomm Incorporated | Keyword model generation for detecting user-defined keyword |
US9600231B1 (en) * | 2015-03-13 | 2017-03-21 | Amazon Technologies, Inc. | Model shrinking for embedded keyword spotting |
US10304440B1 (en) * | 2015-07-10 | 2019-05-28 | Amazon Technologies, Inc. | Keyword spotting using multi-task configuration |
US9792907B2 (en) * | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US10832129B2 (en) * | 2016-10-07 | 2020-11-10 | International Business Machines Corporation | Transfer of an acoustic knowledge to a neural network |
JP6585112B2 (ja) | 2017-03-17 | 2019-10-02 | 株式会社東芝 | 音声キーワード検出装置および音声キーワード検出方法 |
US11011162B2 (en) * | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
-
2019
- 2019-08-29 JP JP2019157158A patent/JP7098587B2/ja active Active
-
2020
- 2020-02-28 US US16/804,388 patent/US11961510B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129527A (ja) | 2006-11-24 | 2008-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
WO2019001428A1 (zh) | 2017-06-29 | 2019-01-03 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112447176B (zh) | 2024-09-24 |
JP2021033228A (ja) | 2021-03-01 |
US11961510B2 (en) | 2024-04-16 |
US20210065684A1 (en) | 2021-03-04 |
CN112447176A (zh) | 2021-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106463113B (zh) | 在语音辨识中预测发音 | |
US20240221737A1 (en) | Recognizing speech in the presence of additional audio | |
US20220189458A1 (en) | Speech based user recognition | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US9466289B2 (en) | Keyword detection with international phonetic alphabet by foreground model and background model | |
US10176809B1 (en) | Customized compression and decompression of audio data | |
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
EP1557822A1 (en) | Automatic speech recognition adaptation using user corrections | |
Aggarwal et al. | Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system | |
CN114026636A (zh) | 用于语音识别的场境偏置 | |
JP7255032B2 (ja) | 音声認識 | |
JP7098587B2 (ja) | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム | |
Rasipuram et al. | Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic | |
Wang et al. | Cloud-based automatic speech recognition systems for southeast asian languages | |
Hatala | Speech recognition for Indonesian language and its application to home automation | |
EP3718107B1 (en) | Speech signal processing and evaluation | |
CN112447176B9 (en) | Information processing apparatus, keyword detection apparatus, and information processing method | |
CN115424616A (zh) | 一种音频数据筛选方法、装置、设备及计算机可读介质 | |
Pisarn et al. | An HMM-based method for Thai spelling speech recognition | |
Abad et al. | Transcription of multi-variety portuguese media contents | |
Chen et al. | Speech recognition of under-resourced languages using mismatched transcriptions | |
Kaur et al. | HMM-based phonetic engine for continuous speech of a regional language | |
Sethy et al. | A split lexicon approach for improved recognition of spoken names | |
Fanty et al. | Neural networks for alphabet recognition | |
Salimbajevs | Modelling latvian language for automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210901 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220519 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220629 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7098587 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |