JP6585112B2 - 音声キーワード検出装置および音声キーワード検出方法 - Google Patents
音声キーワード検出装置および音声キーワード検出方法 Download PDFInfo
- Publication number
- JP6585112B2 JP6585112B2 JP2017053324A JP2017053324A JP6585112B2 JP 6585112 B2 JP6585112 B2 JP 6585112B2 JP 2017053324 A JP2017053324 A JP 2017053324A JP 2017053324 A JP2017053324 A JP 2017053324A JP 6585112 B2 JP6585112 B2 JP 6585112B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- sub
- score
- frames
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 125
- 239000002131 composite material Substances 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000010276 construction Methods 0.000 claims description 25
- 230000000875 corresponding effect Effects 0.000 description 28
- 238000004891 communication Methods 0.000 description 26
- 230000006854 communication Effects 0.000 description 26
- 230000006870 function Effects 0.000 description 17
- 230000015654 memory Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 230000008859 change Effects 0.000 description 9
- 230000001186 cumulative effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 101100129500 Caenorhabditis elegans max-2 gene Proteins 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 125000001475 halogen functional group Chemical group 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
(第1の実施形態)
図1は、第1の実施形態に係る音声キーワード検出装置を備える音声キーワード検出システムの構成の例を示す。この音声キーワード検出システムは、クライアント1とサーバ2とを備える。サーバ2は、例えば、サーバコンピュータとして実現され得る。クライアント1は、タブレットコンピュータ、スマートフォン、携帯電話機、PDAといった携帯情報端末、パーソナルコンピュータ、または各種電子機器に内蔵される組み込みシステムとして実現され得る。クライアント1とサーバ2とは、ネットワーク3を介してデータをやり取りすることができる。また、クライアント1とサーバ2の少なくとも一方は、音声からキーワードを検出する音声キーワード検出機能を有している。
(1)第1サブキーワードと、この第1サブキーワードに後続する第2サブキーワードとで構成される第1キーワードのキーワードモデル(複合キーワードモデル)と、
(2)第2サブキーワードと、この第1サブキーワードに後続する第3サブキーワードとで構成される第2キーワードのキーワードモデル(複合キーワードモデル)と、
(3)第3キーワードのキーワードモデルと、
が格納される場合について例示する。
W1=(w1,w2), W2=(w1,w3)
とする。まず、キーワード/サブキーワードモデルとして、wn (n=1,2,3,4)のモデルがそれぞれ用意される。キーワード/サブキーワードモデルはleft−to−right型の音素HMMで表される。音素HMMはw1,w2,w3,w4をそれぞれ表す音素列“k a my u n i k e i”、“sy o n”、“t a a”、“h e l o u”の音素を1状態とし、HMMのパラメータとして、音素間の遷移確率はどの遷移間の確率も同確率とし、出力確率はフレーム毎の音素の出現確率(音響スコア)で表す。本実施形態では、フレーム毎の音響スコアを計算するモデルは複数のキーワードに対して共通のフィードフォワード型のニューラルネットワークとし、累積スコアはビタビアルゴリズムを用いて計算する方法を用いる。
thn<Sn
を満たすnが一つ見つかった場合、そのnの値をmに代入する。そのキーワードの始端時間をtmsとすると、始終端区間(tms,te)のキーワードwmが検出されることとなる。閾値スコアthnは、キーワードおよびサブキーワードが含まれる開発音声データセットを使って、適合率および再現率の調和平均であるF値が最大となる値を全キーワードに対して一つ設定する。この場合、閾値スコアthnの値を高くすれば、キーワードおよびサブキーワードは検出されにくくなり、閾値スコアthnの値を低くすれば、キーワードおよびサブキーワードは検出されやすくなる。また、例えば、最大累積音響スコアSnが特定の範囲に正規化された値である場合には、閾値スコアthnもこの特定の範囲のいずれかの値に設定されるようにしてもよい。
Tmin l<ts(i)−te(K)<Tmax l
なお、受理最小値Tmin lおよびTmax lは負の値も取り得る。時間差分閾値である受理最小値Tmin lおよび受理最大値Tmax lも、閾値スコアthnと同じように、キーワードおよびサブキーワードが含まれる開発音声データセットを使って、例えば、適合率および再現率の調和平均であるF値が最大となる値を全キーワードに対して一つ設定する。
次いで、図7から図10を参照して、キーワードモデル格納部36に格納されるデータの例について説明する。このデータは、音声キーワード検出プログラム202内の各部によって読み出され、また更新され得るものである。
図11は、第2の実施形態に係る音声キーワード検出装置10上で実行される音声キーワード検出プログラム202の機能構成を示す。この音声キーワード検出装置10は、第1の実施形態において説明したシステム構成を有している。本実施形態の音声キーワード検出プログラム202は、音声取得部31、キーワードスコア算出部32、キーワード検出部33、サブキーワード受理決定部34、および複合キーワード検出部35に加えて、閾値スコア表示部41、閾値スコア調整部42、時間差分閾値表示部43、および時間差分閾値調整部44を備える。音声キーワード検出プログラム202の各部は、キーワードモデル格納部36に格納された様々なデータを読み出すことができ、またキーワードモデル格納部36にデータを書き込むことができる。音声取得部31、キーワードスコア算出部32、キーワード検出部33、サブキーワード受理決定部34、複合キーワード検出部35、およびキーワードモデル格納部36は、第1の実施形態と同様の構成を有する。以下では第1の実施形態との差分部分のみに焦点を絞り説明を行う。
W1=(w1,w2), W2=(w1,w3)
とする。また、キーワード/サブキーワードモデルとして、wn(但し、n=1,2,3,4)のモデルが第1の実施形態と同じ方法で、それぞれ用意してあるとする。
thn=20 (n=1,2,3,4)
が設定されている。
Tmin l=0 (l=1,2), Tmax l=50 (l=1,2)
が設定されている。
Tmin 2=0, Tmax 2=50
から
Tmin 2=5, Tmax 2=40
に変更される。これにより、ユーザは複合キーワードの出易さ(検出されやすさ)を自由に調整することができる。
図15は、第3の実施形態に係る音声キーワード検出装置10上で実行される音声キーワード検出プログラム202の機能構成を示す。この音声キーワード検出装置10は、第1の実施形態において説明したシステム構成を有している。本実施形態の音声キーワード検出プログラム202は、音声取得部31、キーワードスコア算出部32、キーワード検出部33、サブキーワード受理決定部34、および複合キーワード検出部35に加えて、キーワードリスト取得部51およびキーワードモデル構築部52を備える。音声キーワード検出プログラム202の各部は、キーワードモデル格納部36に格納された様々なデータを読み出すことができ、またキーワードモデル格納部36にデータを書き込むことができる。音声取得部31、キーワードスコア算出部32、キーワード検出部33、サブキーワード受理決定部34、複合キーワード検出部35、およびキーワードモデル格納部36は、第1の実施形態と同様の構成を有する。以下では第1の実施形態との差分部分のみに焦点を絞り説明を行う。
このradix treeを作成するために、キーワードモデル構築部52は、まず、一つ目のキーワード“コミュニケーション”に対応する音素列“k a my u n i k e i sy o n”を、ルート91に接続する辺としてradix treeに登録する。
Claims (12)
- 複数のフレームを含む音声データを取得する音声取得手段と、
第1キーワードを構成する第1サブキーワードと前記第1サブキーワードに後続する第2サブキーワードとにそれぞれ関連付けられた音素、音韻、発音表記、モーラ、または表記と、前記音声データの各フレームとをマッチングすることによって、前記第1サブキーワードに対する第1スコアと前記第2サブキーワードに対する第2スコアとを算出するキーワードスコア算出手段と、
前記第1スコアに基づいて前記音声データから前記第1サブキーワードを検出し、前記第2スコアに基づいて前記音声データから前記第2サブキーワードを検出するキーワード検出手段と、
前記複数のフレームの内の一つ以上の第1フレームから前記第1サブキーワードが検出されたとき、前記第1サブキーワードを受理することを決定し、前記複数のフレームの内の一つ以上の第2フレームから前記第2サブキーワードが検出されたとき、前記一つ以上の第1フレームの始端時間と終端時間の少なくとも一方と、前記一つ以上の第2フレームの始端時間と終端時間の少なくとも一方とに基づいて、前記第2サブキーワードを受理するか否かを決定する受理決定手段と、
前記第2サブキーワードを受理することが決定された場合、前記第1キーワードを出力するキーワード出力手段とを具備する音声キーワード検出装置。 - 前記キーワードスコア算出手段は、さらに、第2キーワードが前記第1サブキーワードと前記第1サブキーワードに後続する第3サブキーワードとで構成される場合に、前記第3サブキーワードに関連付けられた音素、音韻、発音表記、モーラ、または表記と、前記音声データの各フレームとをマッチングすることによって、前記第3サブキーワードに対する第3スコアを算出し、
前記キーワード検出手段は、さらに、前記第3スコアに基づいて前記第3サブキーワードを検出し、
前記受理決定手段は、さらに、前記複数のフレームの内の一つ以上の第3フレームから前記第1サブキーワードが検出されたとき、前記第1サブキーワードを受理することを決定し、前記複数のフレームの内の一つ以上の第4フレームから前記第3サブキーワードが検出されたとき、前記一つ以上の第3フレームの始端時間と終端時間の少なくとも一方と、前記一つ以上の第4フレームの始端時間と終端時間の少なくとも一方とに基づいて、前記第3サブキーワードを受理するか否かを決定し、
前記キーワード出力手段は、さらに、前記第3サブキーワードを受理することが決定された場合、前記第2キーワードを出力する請求項1記載の音声キーワード検出装置。 - 前記キーワードスコア算出手段は、さらに、第3キーワードに関連付けられた音素、音韻、発音表記、モーラ、または表記と、前記音声データの各フレームとをマッチングすることによって、前記第3キーワードに対するスコアを算出し、
前記キーワード検出手段は、さらに、前記第3キーワードに対するスコアに基づいて前記第3キーワードを検出し、前記検出された第3キーワードを出力する請求項1記載の音声キーワード検出装置。 - 前記キーワード検出手段は、前記第1サブキーワードに対する前記第1スコアが第1閾値スコアよりも大きい場合、前記第1サブキーワードを検出し、前記第2サブキーワードに対する前記第2スコアが第2閾値スコアよりも大きい場合、前記第2サブキーワードを検出する請求項1記載の音声キーワード検出装置。
- 前記第1閾値スコアと前記第2閾値スコアの少なくとも一方を変更する第1変更手段をさらに具備する請求項4記載の音声キーワード検出装置。
- 前記第1閾値スコアと前記第2閾値スコアの少なくとも一方を変更するためのユーザインターフェースを画面に表示する第1表示制御手段をさらに具備し、
前記第1変更手段は、前記表示されたユーザインターフェースを用いた操作に応じて、前記第1閾値スコアと前記第2閾値スコアの少なくとも一方を変更する請求項5記載の音声キーワード検出装置。 - 前記受理決定手段は、前記一つ以上の第1フレームの終端時間と、前記一つ以上の第2フレームの始端時間との第1差分が第1時間差分閾値と第2時間差分閾値とで規定される範囲内である場合、前記第2サブキーワードを受理することを決定する請求項1記載の音声キーワード検出装置。
- 前記第1時間差分閾値と前記第2時間差分閾値の少なくとも一方を変更する第2変更手段をさらに具備する請求項7記載の音声キーワード検出装置。
- 前記第1時間差分閾値と前記第2時間差分閾値の少なくとも一方を変更するためのユーザインターフェースを画面に表示する第2表示制御手段をさらに具備し、
前記第2変更手段は、前記表示されたユーザインターフェースを用いた操作に応じて、前記第1時間差分閾値と前記第2時間差分閾値の少なくとも一方を変更する請求項8記載の音声キーワード検出装置。 - 複数のキーワードを取得するキーワード取得手段と、
各キーワードを表す音素、音韻、発音表記、モーラ、または表記が、前記複数のキーワード間で同じである部分に対応するサブキーワードと、異なる部分に対応するサブキーワードとを決定し、前記決定されたサブキーワードを用いて、前記複数のキーワードの内の二つ以上のキーワードをそれぞれ構成する複数のサブキーワードと、当該複数のサブキーワード間の発声順の前後関係とを規定する複合キーワードモデルを決定するキーワードモデル構築手段とをさらに具備し、
前記キーワードスコア算出手段は、前記複合キーワードモデルを用いて、前記第1スコアと前記第2スコアとを算出し、
前記受理決定手段は、前記複合キーワードモデルを用いて、前記第1サブキーワードと前記第2サブキーワードとを受理することを決定する請求項1記載の音声キーワード検出装置。 - 複数のフレームを含む音声データを取得し、
第1キーワードを構成する第1サブキーワードと前記第1サブキーワードに後続する第2サブキーワードとにそれぞれ関連付けられた音素、音韻、発音表記、モーラ、または表記と、前記音声データの各フレームとをマッチングすることによって、前記第1サブキーワードに対する第1スコアと前記第2サブキーワードに対する第2スコアとを算出し、
前記第1スコアに基づいて前記音声データから前記第1サブキーワードを検出し、前記第2スコアに基づいて前記音声データから前記第2サブキーワードを検出し、
前記複数のフレームの内の一つ以上の第1フレームから前記第1サブキーワードが検出されたとき、前記第1サブキーワードを受理することを決定し、前記複数のフレームの内の一つ以上の第2フレームから前記第2サブキーワードが検出されたとき、前記一つ以上の第1フレームの始端時間と終端時間の少なくとも一方と、前記一つ以上の第2フレームの始端時間と終端時間の少なくとも一方とに基づいて、前記第2サブキーワードを受理するか否かを決定し、
前記第2サブキーワードを受理することが決定された場合、前記第1キーワードを出力する、音声キーワード検出方法。 - コンピュータにより実行されるプログラムであって、前記プログラムは、
複数のフレームを含む音声データを取得する手順と、
第1キーワードを構成する第1サブキーワードと前記第1サブキーワードに後続する第2サブキーワードとにそれぞれ関連付けられた音素、音韻、発音表記、モーラ、または表記と、前記音声データの各フレームとをマッチングすることによって、前記第1サブキーワードに対する第1スコアと前記第2サブキーワードに対する第2スコアとを算出する手順と、
前記第1スコアに基づいて前記音声データから前記第1サブキーワードを検出し、前記第2スコアに基づいて前記音声データから前記第2サブキーワードを検出する手順と、
前記複数のフレームの内の一つ以上の第1フレームから前記第1サブキーワードが検出されたとき、前記第1サブキーワードを受理することを決定し、前記複数のフレームの内の一つ以上の第2フレームから前記第2サブキーワードが検出されたとき、前記一つ以上の第1フレームの始端時間と終端時間の少なくとも一方と、前記一つ以上の第2フレームの始端時間と終端時間の少なくとも一方とに基づいて、前記第2サブキーワードを受理するか否かを決定する手順と、
前記第2サブキーワードを受理することが決定された場合、前記第1キーワードを出力する手順とを前記コンピュータに実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017053324A JP6585112B2 (ja) | 2017-03-17 | 2017-03-17 | 音声キーワード検出装置および音声キーワード検出方法 |
US15/691,159 US10553206B2 (en) | 2017-03-17 | 2017-08-30 | Voice keyword detection apparatus and voice keyword detection method |
CN201710766822.4A CN108630200B (zh) | 2017-03-17 | 2017-08-31 | 声音关键字检测装置以及声音关键字检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017053324A JP6585112B2 (ja) | 2017-03-17 | 2017-03-17 | 音声キーワード検出装置および音声キーワード検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018155957A JP2018155957A (ja) | 2018-10-04 |
JP6585112B2 true JP6585112B2 (ja) | 2019-10-02 |
Family
ID=63519586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017053324A Active JP6585112B2 (ja) | 2017-03-17 | 2017-03-17 | 音声キーワード検出装置および音声キーワード検出方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10553206B2 (ja) |
JP (1) | JP6585112B2 (ja) |
CN (1) | CN108630200B (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189750B (zh) | 2018-02-23 | 2022-11-15 | 株式会社东芝 | 词语检测系统、词语检测方法以及记录介质 |
KR102622357B1 (ko) * | 2018-07-13 | 2024-01-08 | 구글 엘엘씨 | 종단 간 스트리밍 키워드 탐지 |
US11170770B2 (en) * | 2018-08-03 | 2021-11-09 | International Business Machines Corporation | Dynamic adjustment of response thresholds in a dialogue system |
US11308939B1 (en) * | 2018-09-25 | 2022-04-19 | Amazon Technologies, Inc. | Wakeword detection using multi-word model |
CN109599124B (zh) * | 2018-11-23 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
JP7191792B2 (ja) | 2019-08-23 | 2022-12-19 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP7098587B2 (ja) | 2019-08-29 | 2022-07-11 | 株式会社東芝 | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム |
CN113658609B (zh) * | 2021-10-20 | 2022-01-04 | 北京世纪好未来教育科技有限公司 | 关键字匹配信息的确定方法、装置、电子设备和介质 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3581752B2 (ja) * | 1995-10-09 | 2004-10-27 | 株式会社リコー | 音声認識装置及び音声認識方法 |
US7720682B2 (en) * | 1998-12-04 | 2010-05-18 | Tegic Communications, Inc. | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
JP2000259653A (ja) * | 1999-03-09 | 2000-09-22 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法 |
JP4541781B2 (ja) * | 2004-06-29 | 2010-09-08 | キヤノン株式会社 | 音声認識装置および方法 |
US8620658B2 (en) * | 2007-04-16 | 2013-12-31 | Sony Corporation | Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition |
JP4342575B2 (ja) * | 2007-06-25 | 2009-10-14 | 株式会社東芝 | キーワード提示のための装置、方法、及びプログラム |
JP5098613B2 (ja) * | 2007-12-10 | 2012-12-12 | 富士通株式会社 | 音声認識装置及びコンピュータプログラム |
CN102334119B (zh) * | 2009-02-26 | 2014-05-21 | 国立大学法人丰桥技术科学大学 | 声音检索装置及声音检索方法 |
WO2011125793A1 (ja) * | 2010-03-31 | 2011-10-13 | 楽天株式会社 | 検索システム、検索方法、検索プログラム及び記録媒体 |
CN102867512A (zh) * | 2011-07-04 | 2013-01-09 | 余喆 | 自然语音识别方法和装置 |
CN103794208A (zh) * | 2012-10-29 | 2014-05-14 | 无敌科技(西安)有限公司 | 利用语音特征将英文单词发音按音节分开的装置与方法 |
CN104143330A (zh) * | 2013-05-07 | 2014-11-12 | 佳能株式会社 | 语音识别方法和语音识别系统 |
US20140337031A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Method and apparatus for detecting a target keyword |
US20140337030A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Adaptive audio frame processing for keyword detection |
US9202462B2 (en) * | 2013-09-30 | 2015-12-01 | Google Inc. | Key phrase detection |
US9520127B2 (en) * | 2014-04-29 | 2016-12-13 | Microsoft Technology Licensing, Llc | Shared hidden layer combination for speech recognition systems |
US9607618B2 (en) * | 2014-12-16 | 2017-03-28 | Nice-Systems Ltd | Out of vocabulary pattern learning |
JP6461660B2 (ja) | 2015-03-19 | 2019-01-30 | 株式会社東芝 | 検出装置、検出方法およびプログラム |
CN106297776B (zh) * | 2015-05-22 | 2019-07-09 | 中国科学院声学研究所 | 一种基于音频模板的语音关键词检索方法 |
CN105632487B (zh) * | 2015-12-31 | 2020-04-21 | 北京奇艺世纪科技有限公司 | 一种语音识别方法和装置 |
CN105957518B (zh) * | 2016-06-16 | 2019-05-31 | 内蒙古大学 | 一种蒙古语大词汇量连续语音识别的方法 |
-
2017
- 2017-03-17 JP JP2017053324A patent/JP6585112B2/ja active Active
- 2017-08-30 US US15/691,159 patent/US10553206B2/en active Active
- 2017-08-31 CN CN201710766822.4A patent/CN108630200B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108630200A (zh) | 2018-10-09 |
JP2018155957A (ja) | 2018-10-04 |
CN108630200B (zh) | 2022-01-07 |
US20180268809A1 (en) | 2018-09-20 |
US10553206B2 (en) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6585112B2 (ja) | 音声キーワード検出装置および音声キーワード検出方法 | |
JP6550068B2 (ja) | 音声認識における発音予測 | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
US20210312914A1 (en) | Speech recognition using dialog history | |
JP5218052B2 (ja) | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム | |
US20220343895A1 (en) | User-defined keyword spotting | |
CN114097026A (zh) | 语音识别的上下文偏置 | |
US11024298B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP6011565B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP2005208643A (ja) | ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP2019219574A (ja) | 話者モデル作成システム、認識システム、プログラムおよび制御装置 | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP2018045127A (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
CN110189750B (zh) | 词语检测系统、词语检测方法以及记录介质 | |
JP5068225B2 (ja) | 音声ファイルの検索システム、方法及びプログラム | |
US11961510B2 (en) | Information processing apparatus, keyword detecting apparatus, and information processing method | |
Thennattil et al. | Phonetic engine for continuous speech in Malayalam | |
JP2010164918A (ja) | 音声翻訳装置、および方法 | |
JP4839291B2 (ja) | 音声認識装置およびコンピュータプログラム | |
JP6852029B2 (ja) | ワード検出システム、ワード検出方法及びワード検出プログラム | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
KR101037801B1 (ko) | 부단위 인식을 이용한 핵심어 검출 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180914 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190716 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190904 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6585112 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |