JP2021177258A - ホットワード認識音声合成 - Google Patents
ホットワード認識音声合成 Download PDFInfo
- Publication number
- JP2021177258A JP2021177258A JP2021127573A JP2021127573A JP2021177258A JP 2021177258 A JP2021177258 A JP 2021177258A JP 2021127573 A JP2021127573 A JP 2021127573A JP 2021127573 A JP2021127573 A JP 2021127573A JP 2021177258 A JP2021177258 A JP 2021177258A
- Authority
- JP
- Japan
- Prior art keywords
- hotword
- input data
- audio
- user device
- hot word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 22
- 238000003786 synthesis reaction Methods 0.000 title claims description 22
- 238000000034 method Methods 0.000 claims abstract description 124
- 230000008569 process Effects 0.000 claims abstract description 86
- 238000006243 chemical reaction Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 47
- 238000001514 detection method Methods 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims 1
- 230000000977 initiatory effect Effects 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 17
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 235000019692 hotdogs Nutrition 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000007958 sleep Effects 0.000 description 3
- 230000014616 translation Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006266 hibernation Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
来のデータ入力からの機械出力を含む。機械出力は、TTSシステムに関連付けられているデバイスによって動作が実行されることをユーザに通知するか、またはTTSシステムに関連付けられているデバイスにユーザによって提供された命令を受け取ったことを通知することができる。したがって、合成音声は、テレビ、マルチメディアセットトップボックス、ステレオ、ラジオ、コンピュータシステム、または放送音声を出力することができる他の種類のデバイスから出力される放送音声から区別可能である。
波形を改変するものとしてよい。
100 音声認識対応システム
110、110a〜b ユーザデバイス
112 データ処理ハードウェア
114 メモリハードウェア
116 オーディオキャプチャデバイス(たとえば、マイクロホン)
116b オーディオキャプチャデバイス
118 音声出力デバイス(たとえば、スピーカー)
130 ネットワーク
130 ホットワード
132 ホットワードクエリ
140 リモートサーバ
142 ホットワードリポジトリ
150 発話
150a 第1の発話
160 合成音声
200、200b ホットワード検出器
210 ホットワード検出器訓練器
212、212b ポジティブ訓練サンプル
212、212a ネガティブ訓練例
220 ホットワード検出器モデル
220 ホットワード検出器モデル
300、300a 音声合成器
302 テキスト入力データ
304 オーディオ出力信号
310 ホットワード認識訓練器
312 波形発生器
320 ホットワード認識モデル
330 ユニット拡張器
340 ユニットデータベース
350 ユニット選択器
352 ウォーターマーク
354 フィルタ
360 ユニット
370 入力テキストシーケンス
380 波形ニューラルネットワークモデル
400 方法
500 方法
504 ホットワード検出器
600 コンピューティングデバイス
600a 標準的なサーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ
620 メモリ
630 記憶装置デバイス
640 高速インターフェース/コントローラ
650 高速拡張ポート
660 低速インターフェース/コントローラ
670 低速バス
680 ディスプレイ
690 低速拡張ポート
Claims (28)
- 方法(400)であって、
音声合成デバイス(300)のデータ処理ハードウェア(112)において、合成音声(160)に変換するためのテキスト入力データ(302)を受信するステップと、
前記データ処理ハードウェア(112)によって、またユーザデバイス(110)に割り当てられている少なくとも1つのホットワード(130)の存在を検出するように訓練されているホットワード認識モデル(320)を使用して、前記テキスト入力データ(302)の発音が前記ホットワード(130)を含んでいるかどうかを決定するステップであって、前記ホットワード(130)は、前記ユーザデバイス(110)によって受信されたオーディオ入力データに含まれるときに前記ホットワード(130)および/または前記オーディオ入力データ内の前記ホットワード(130)の後に続く1つもしくは複数の他の語を処理するために前記ユーザデバイス(110)上でウェイクアッププロセスを起動するように構成される、ステップと、
前記テキスト入力データ(302)の前記発音が前記ホットワード(130)を含むときに、
前記テキスト入力データ(302)からオーディオ出力信号(304)を生成するステップと、
前記データ処理ハードウェア(112)によって、前記オーディオ出力信号(304)を出力するために前記オーディオ出力信号(304)をオーディオ出力デバイス(118)に提供するステップであって、前記オーディオ出力信号(304)は、前記ユーザデバイス(110)のオーディオキャプチャデバイス(116)によってキャプチャされたときに前記ユーザデバイス(110)上の前記ウェイクアッププロセスの起動を防ぐように構成される、ステップと
を含む、方法(400)。 - 前記テキスト入力データ(302)の前記発音が前記ホットワード(130)を含むかどうかを決定するステップは、
前記テキスト入力データ(302)の単語、部分単語、またはテキスト読み上げシーケンスのうちの少なくとも1つが前記ホットワード(130)に関連付けられていると決定するステップを含む、請求項1に記載の方法(400)。 - 前記ホットワード認識モデル(320)は、前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)のテキスト読み上げシーケンスまたはオーディオ表現に対して訓練される、請求項1または2に記載の方法(400)。
- 前記テキスト入力データ(302)は第1の言語を含み、
前記オーディオ出力信号(304)は前記テキスト入力データ(302)の異なる言語の翻訳を含む、請求項1から3のいずれか一項に記載の方法(400)。 - 前記データ処理ハードウェア(112)によって、前記音声合成デバイス(300)の動作環境内の前記ユーザデバイス(110)の存在を検出するステップと、
前記データ処理ハードウェア(112)によって、前記ホットワード認識モデル(320)を訓練するために前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を取得するクエリを前記ユーザデバイス(110)に対して実行するステップと
をさらに含む、請求項1から4のいずれか一項に記載の方法(400)。 - 前記データ処理ハードウェア(112)によって、前記ホットワード認識モデル(320)を訓練するために少なくとも前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を取得するクエリをリモートホットワードリポジトリ(142)に対して実行するステップをさらに含む、請求項1から5のいずれか一項に記載の方法(400)。
- 前記テキスト入力データ(302)から前記オーディオ出力信号(304)を生成するステップは、
前記オーディオ出力信号(304)が合成音声(160)に対応していることを指示し、前記合成音声(160)内の前記ホットワード(130)の検出を無視することを前記ユーザデバイス(110)のホットワード検出器(200)に命令するウォーターマーク(352)を、前記オーディオ出力信号(304)に挿入するステップを含む、請求項1から6のいずれか一項に記載の方法(400)。 - 前記テキスト入力データ(302)から前記オーディオ出力信号(304)を生成するステップは、
前記テキスト入力データ(302)に対するテキスト読み上げ出力を表す音声波形を決定するステップと、
前記ユーザデバイス(110)のホットワード検出器(200)による前記ホットワード(130)の検出を逃れるように前記ホットワード(130)に関連付けられている音を取り除くか、または改変することによって前記音声波形を改変するステップと
を含む、請求項1から6のいずれか一項に記載の方法(400)。 - 前記テキスト入力データ(302)から前記オーディオ出力信号(304)を生成するステップは、
前記テキスト入力データ(302)を表す音声波形を決定するステップと、
前記ユーザデバイス(110)のホットワード検出器(200)による前記ホットワード(130)の検出を逃れるように前記オーディオ波形をフィルタ処理するステップと
を含む、請求項1から6のいずれか一項に記載の方法(400)。 - 方法(500)であって、
ユーザデバイス(110)のホットワード検出器(200)において、ホットワード(130)を含むオーディオ入力データを受信するステップであって、前記ホットワード(130)は、前記ホットワード(130)および/または前記オーディオ入力データ内の前記ホットワード(130)の後に続く1つもしくは複数の他の語を処理するために前記ユーザデバイス(110)上でウェイクアッププロセスを起動するように構成される、ステップと、
前記ホットワード検出器(200)によって、前記オーディオ入力データが合成音声(160)を含むかどうかを、前記オーディオ入力データ内の前記ホットワード(130)および合成音声(160)の存在を検出するように構成されたホットワード検出器モデル(220)を使用して決定するステップと、
前記オーディオ入力データが合成音声(160)を含んでいるときに、前記ホットワード検出器(200)によって、前記ホットワード(130)および/または前記オーディオ入力データ内の前記ホットワード(130)の後に続く前記1つもしくは複数の他の語を処理するための前記ユーザデバイス(110)上の前記ウェイクアッププロセスの起動を防ぐステップと
を含む、方法(500)。 - 前記ホットワード検出器モデル(220)は、
前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を発語する一人または複数のユーザに対応する人間により生成されたオーディオデータを含むポジティブ訓練サンプル(212b)と、
1つまたは複数の音声合成器デバイス(300)から出力される合成音声発話(160)を含むネガティブ訓練サンプル(212a)と
を含む複数の訓練サンプルに対して訓練される、請求項10に記載の方法(500)。 - 前記ネガティブ訓練サンプル(212a)の前記合成音声発話(160)のうちの少なくとも1つは、前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を発音するものである、請求項11に記載の方法(500)。
- 前記ネガティブ訓練サンプル(212a)の前記合成音声発話(160)のうちのどの1つも、前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を発音するものでない、請求項11に記載の方法(500)。
- 前記オーディオ入力データが合成音声(160)を含むかどうかを決定するステップは、
前記ホットワード検出器モデル(220)を使用して、前記オーディオ入力データを文字起こしするまたは意味解釈することなく前記オーディオ入力データの音響特徴の分析を通じて前記オーディオ入力データ内の合成音声(160)の存在を検出するステップを含む、請求項10から13のいずれか一項に記載の方法(500)。 - システム(100)であって、
音声合成デバイス(300)のデータ処理ハードウェア(112)と、
前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)と
を備え、前記メモリハードウェア(114)は、前記データ処理ハードウェア(112)によって実行されたとき、前記データ処理ハードウェア(112)に、
合成音声(160)に変換するためのテキスト入力データ(302)を受信することと、
ユーザデバイス(110)に割り当てられている少なくとも1つのホットワード(130)の存在を検出するように訓練されているホットワード認識モデル(320)を使用して、前記テキスト入力データ(302)の発音が前記ホットワード(130)を含んでいるかどうかを決定することであって、前記ホットワード(130)は、前記ユーザデバイス(110)によって受信されたオーディオ入力データに含まれるときに前記ホットワード(130)および/または前記オーディオ入力データ内の前記ホットワード(130)の後に続く1つもしくは複数の他の語を処理するために前記ユーザデバイス(110)上でウェイクアッププロセスを起動するように構成される、決定することと、
前記テキスト入力データ(302)の前記発音が前記ホットワード(130)を含むときに、
前記テキスト入力データ(302)からオーディオ出力信号(304)を生成することと、
前記オーディオ出力信号(304)を出力するために前記オーディオ出力信号(304)をオーディオ出力デバイス(118)に提供することであって、前記オーディオ出力信号(304)は、前記ユーザデバイス(110)のオーディオキャプチャデバイス(116)によってキャプチャされたときに前記ユーザデバイス(110)上の前記ウェイクアッププロセスの起動を防ぐように構成される、提供することと
を含む動作を実行させる命令を記憶する、システム(100)。 - 前記テキスト入力データ(302)の前記発音が前記ホットワード(130)を含むかどうかを決定することは、
前記テキスト入力データ(302)の単語、部分単語、またはテキスト読み上げシーケンスのうちの少なくとも1つが前記ホットワード(130)に関連付けられていると決定することを含む、請求項15に記載のシステム(100)。 - 前記ホットワード認識モデル(320)は、前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)のテキスト読み上げシーケンスまたはオーディオ表現に対して訓練される、請求項15または16に記載のシステム(100)。
- 前記テキスト入力データ(302)は第1の言語を含み、
前記オーディオ出力信号(304)は前記テキスト入力データ(302)の異なる言語の翻訳を含む、請求項15から17のいずれか一項に記載のシステム(100)。 - 前記動作は、
前記音声合成デバイス(300)の動作環境内の前記ユーザデバイス(110)の存在を検出することと、
前記ホットワード認識モデル(320)を訓練するために前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を取得するクエリを前記ユーザデバイス(110)に対して実行することと
をさらに含む、請求項15から18のいずれか一項に記載のシステム(100)。 - 前記動作は、前記ホットワード認識モデル(320)を訓練するために少なくとも前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を取得するクエリをリモートホットワードリポジトリ(142)に対して実行することをさらに含む、請求項15から19のいずれか一項に記載のシステム(100)。
- 前記テキスト入力データ(302)から前記出力オーディオ信号を生成することは、前記出力オーディオ信号が合成音声(160)に対応していることを指示し、前記合成音声(160)内の前記ホットワード(130)の検出を無視することを前記ユーザデバイス(110)のホットワード検出器(200)に命令するウォーターマーク(352)を、前記出力オーディオ信号に挿入することを含む、請求項15から20のいずれか一項に記載のシステム(100)。
- 前記テキスト入力データ(302)から前記出力オーディオ信号を生成することは、
前記テキスト入力データ(302)に対するテキスト読み上げ出力を表す音声波形を決定することと、
前記ユーザデバイス(110)のホットワード検出器(200)による前記ホットワード(130)の検出を逃れるように前記ホットワード(130)に関連付けられている音を取り除くか、または改変することによって前記音声波形を改変することと
を含む、請求項15から20のいずれか一項に記載のシステム(100)。 - 前記テキスト入力データ(302)から前記出力オーディオ信号を生成することは、
前記テキスト入力データ(302)を表す音声波形を決定することと、
前記ユーザデバイス(110)のホットワード検出器(200)による前記ホットワード(130)の検出を逃れるように前記オーディオ波形をフィルタ処理することと
を含む、請求項15から20のいずれか一項に記載のシステム(100)。 - システム(100)であって、
ユーザデバイス(110)のデータ処理ハードウェア(112)と、
前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)と
を備え、前記メモリハードウェア(114)は、前記データ処理ハードウェア(112)によって実行されたとき、前記データ処理ハードウェア(112)に、
前記ユーザデバイス(110)のホットワード検出器(200)において、ホットワード(130)を含むオーディオ入力データを受信することであって、前記ホットワード(130)は、前記ホットワード(130)および/または前記オーディオ入力データ内の前記ホットワード(130)の後に続く1つもしくは複数の他の語を処理するために前記ユーザデバイス(110)上でウェイクアッププロセスを起動するように構成される、受信することと、
前記ホットワード検出器(200)によって、前記オーディオ入力データが合成音声(160)を含むかどうかを、前記オーディオ入力データ内の前記ホットワード(130)および合成音声(160)の存在を検出するように構成されたホットワード検出器モデル(220)を使用して決定することと、
前記オーディオ入力データが合成音声(160)を含んでいるときに、前記ホットワード検出器(200)によって、前記ホットワード(130)および/または前記オーディオ入力データ内の前記ホットワード(130)の後に続く前記1つもしくは複数の他の語を処理するための前記ユーザデバイス(110)上の前記ウェイクアッププロセスの起動を防ぐことと
を含む動作を実行させる命令を記憶する、システム(100)。 - 前記ホットワード検出器モデル(220)は、
前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を発語する一人または複数のユーザに対応する人間により生成されたオーディオデータを含むポジティブ訓練サンプル(212b)と、
1つまたは複数の音声合成器デバイス(300)から出力される合成音声発話(160)を含むネガティブ訓練サンプル(212a)と
を含む複数の訓練サンプルに対して訓練される、請求項24に記載のシステム(100)。 - 前記ネガティブ訓練サンプル(212a)の前記合成音声発話(160)のうちの少なくとも1つは、前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を発音するものである、請求項25に記載のシステム(100)。
- 前記ネガティブ訓練サンプル(212a)の前記合成音声発話(160)のうちのどの1つも、前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を発音するものでない、請求項25に記載のシステム(100)。
- 前記オーディオ入力データが合成音声(160)を含むかどうかを決定することは、
前記ホットワード検出器モデル(220)を使用して、前記オーディオ入力データを文字起こしするまたは意味解釈することなく前記オーディオ入力データの音響特徴の分析を通じて前記オーディオ入力データ内の合成音声(160)の存在を検出することを含む、請求項24から27のいずれか一項に記載のシステム(100)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021127573A JP7248751B2 (ja) | 2018-06-25 | 2021-08-03 | ホットワード認識音声合成 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019566246A JP6926241B2 (ja) | 2018-06-25 | 2018-06-25 | ホットワード認識音声合成 |
PCT/US2018/039348 WO2020005202A1 (en) | 2018-06-25 | 2018-06-25 | Hotword-aware speech synthesis |
JP2021127573A JP7248751B2 (ja) | 2018-06-25 | 2021-08-03 | ホットワード認識音声合成 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019566246A Division JP6926241B2 (ja) | 2018-06-25 | 2018-06-25 | ホットワード認識音声合成 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021177258A true JP2021177258A (ja) | 2021-11-11 |
JP7248751B2 JP7248751B2 (ja) | 2023-03-29 |
Family
ID=62948373
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019566246A Active JP6926241B2 (ja) | 2018-06-25 | 2018-06-25 | ホットワード認識音声合成 |
JP2021127573A Active JP7248751B2 (ja) | 2018-06-25 | 2021-08-03 | ホットワード認識音声合成 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019566246A Active JP6926241B2 (ja) | 2018-06-25 | 2018-06-25 | ホットワード認識音声合成 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11308934B2 (ja) |
EP (1) | EP3811359A1 (ja) |
JP (2) | JP6926241B2 (ja) |
KR (2) | KR102318340B1 (ja) |
CN (2) | CN117912447A (ja) |
WO (1) | WO2020005202A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210174791A1 (en) * | 2018-05-02 | 2021-06-10 | Melo Inc. | Systems and methods for processing meeting information obtained from multiple sources |
WO2020005202A1 (en) * | 2018-06-25 | 2020-01-02 | Google Llc | Hotword-aware speech synthesis |
KR20210009596A (ko) * | 2019-07-17 | 2021-01-27 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스 |
US11282500B2 (en) * | 2019-07-19 | 2022-03-22 | Cisco Technology, Inc. | Generating and training new wake words |
CN111462751B (zh) * | 2020-03-27 | 2023-11-03 | 京东科技控股股份有限公司 | 解码语音数据的方法、装置、计算机设备和存储介质 |
CN111667834B (zh) * | 2020-05-21 | 2023-10-13 | 北京声智科技有限公司 | 一种助听设备及助听方法 |
CN115699170A (zh) * | 2020-06-10 | 2023-02-03 | 谷歌有限责任公司 | 文本回声消除 |
US11776549B2 (en) * | 2020-11-06 | 2023-10-03 | Google Llc | Multi-factor audio watermarking |
CN112349278A (zh) * | 2020-11-12 | 2021-02-09 | 苏州思必驰信息科技有限公司 | 本地热词训练和识别方法及装置 |
US20220269870A1 (en) * | 2021-02-18 | 2022-08-25 | Meta Platforms, Inc. | Readout of Communication Content Comprising Non-Latin or Non-Parsable Content Items for Assistant Systems |
CN113470619B (zh) * | 2021-06-30 | 2023-08-18 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及设备 |
CN113687719A (zh) * | 2021-08-23 | 2021-11-23 | 广东电网有限责任公司 | 一种适用于语音信息的智能交互方法及装置 |
CN114185511A (zh) * | 2021-11-29 | 2022-03-15 | 北京百度网讯科技有限公司 | 一种音频数据处理方法、装置及电子设备 |
US20240119925A1 (en) * | 2022-10-10 | 2024-04-11 | Samsung Electronics Co., Ltd. | System and method for post-asr false wake-up suppression |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002514318A (ja) * | 1997-01-31 | 2002-05-14 | ティ―ネティックス,インコーポレイテッド | 録音された音声を検出するシステムおよび方法 |
JP2017027049A (ja) * | 2015-07-22 | 2017-02-02 | グーグル インコーポレイテッド | 個別化されたホットワード検出モデル |
WO2017165038A1 (en) * | 2016-03-21 | 2017-09-28 | Amazon Technologies, Inc. | Speaker verification method and system |
JP2020528566A (ja) * | 2018-06-25 | 2020-09-24 | グーグル エルエルシー | ホットワード認識音声合成 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002297199A (ja) * | 2001-03-29 | 2002-10-11 | Toshiba Corp | 合成音声判別方法と装置及び音声合成装置 |
JP2005338454A (ja) * | 2004-05-27 | 2005-12-08 | Toshiba Tec Corp | 音声対話装置 |
US8494854B2 (en) * | 2008-06-23 | 2013-07-23 | John Nicholas and Kristin Gross | CAPTCHA using challenges optimized for distinguishing between humans and machines |
US9767806B2 (en) * | 2013-09-24 | 2017-09-19 | Cirrus Logic International Semiconductor Ltd. | Anti-spoofing |
US9865253B1 (en) * | 2013-09-03 | 2018-01-09 | VoiceCipher, Inc. | Synthetic speech discrimination systems and methods |
US9715660B2 (en) * | 2013-11-04 | 2017-07-25 | Google Inc. | Transfer learning for deep neural network based hotword detection |
KR20160148009A (ko) * | 2014-07-04 | 2016-12-23 | 인텔 코포레이션 | 자동 화자 검증 시스템에서의 리플레이 공격 검출 |
US9548053B1 (en) * | 2014-09-19 | 2017-01-17 | Amazon Technologies, Inc. | Audible command filtering |
US9443517B1 (en) * | 2015-05-12 | 2016-09-13 | Google Inc. | Generating sounds for detectability by neural networks |
US9747926B2 (en) * | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
US10453460B1 (en) * | 2016-02-02 | 2019-10-22 | Amazon Technologies, Inc. | Post-speech recognition request surplus detection and prevention |
EP3214856A1 (en) * | 2016-03-01 | 2017-09-06 | Oticon A/s | A hearing aid configured to be operating in a communication system |
JP6616048B1 (ja) * | 2016-11-07 | 2019-12-04 | グーグル エルエルシー | 記録されたメディアホットワードトリガ抑制 |
US10186265B1 (en) * | 2016-12-06 | 2019-01-22 | Amazon Technologies, Inc. | Multi-layer keyword detection to avoid detection of keywords in output audio |
US10242673B2 (en) * | 2016-12-07 | 2019-03-26 | Google Llc | Preventing of audio attacks using an input and an output hotword detection model |
US10134396B2 (en) * | 2016-12-07 | 2018-11-20 | Google Llc | Preventing of audio attacks |
US10580405B1 (en) * | 2016-12-27 | 2020-03-03 | Amazon Technologies, Inc. | Voice control of remote device |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10540961B2 (en) * | 2017-03-13 | 2020-01-21 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
US10475449B2 (en) * | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10152966B1 (en) * | 2017-10-31 | 2018-12-11 | Comcast Cable Communications, Llc | Preventing unwanted activation of a hands free device |
US20190149987A1 (en) * | 2017-11-10 | 2019-05-16 | Amazon Technologies, Inc. | Secondary device setup |
US10649727B1 (en) * | 2018-05-14 | 2020-05-12 | Amazon Technologies, Inc. | Wake word detection configuration |
-
2018
- 2018-06-25 WO PCT/US2018/039348 patent/WO2020005202A1/en unknown
- 2018-06-25 JP JP2019566246A patent/JP6926241B2/ja active Active
- 2018-06-25 CN CN202311787107.0A patent/CN117912447A/zh active Pending
- 2018-06-25 CN CN201880035906.3A patent/CN110896664B/zh active Active
- 2018-06-25 KR KR1020197033841A patent/KR102318340B1/ko active IP Right Grant
- 2018-06-25 US US16/609,326 patent/US11308934B2/en active Active
- 2018-06-25 KR KR1020217033579A patent/KR102461208B1/ko active IP Right Grant
- 2018-06-25 EP EP18742666.3A patent/EP3811359A1/en active Pending
-
2021
- 2021-08-03 JP JP2021127573A patent/JP7248751B2/ja active Active
- 2021-08-05 US US17/444,557 patent/US20210366459A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002514318A (ja) * | 1997-01-31 | 2002-05-14 | ティ―ネティックス,インコーポレイテッド | 録音された音声を検出するシステムおよび方法 |
JP2017027049A (ja) * | 2015-07-22 | 2017-02-02 | グーグル インコーポレイテッド | 個別化されたホットワード検出モデル |
WO2017165038A1 (en) * | 2016-03-21 | 2017-09-28 | Amazon Technologies, Inc. | Speaker verification method and system |
JP2020528566A (ja) * | 2018-06-25 | 2020-09-24 | グーグル エルエルシー | ホットワード認識音声合成 |
Non-Patent Citations (2)
Title |
---|
SCARDAPANE, SIMONE ET AL.: ""On the Use of Deep Recurrent Neural Networks for Detecting Audio Spoofing Attacks"", PROC. OF THE 2017 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, JPN7022004215, 14 May 2017 (2017-05-14), pages 3483 - 3490, XP033112482, ISSN: 0004865972, DOI: 10.1109/IJCNN.2017.7966294 * |
増田崇志 他: "LSTMを用いたキーワードスポッティング", 日本音響学会2017年春季研究発表会講演論文集CD-ROM, JPN6022036874, 1 March 2017 (2017-03-01), pages 177 - 178, ISSN: 0004865973 * |
Also Published As
Publication number | Publication date |
---|---|
JP6926241B2 (ja) | 2021-08-25 |
JP7248751B2 (ja) | 2023-03-29 |
KR102318340B1 (ko) | 2021-10-28 |
US20210104221A1 (en) | 2021-04-08 |
US11308934B2 (en) | 2022-04-19 |
KR102461208B1 (ko) | 2022-10-31 |
CN110896664B (zh) | 2023-12-26 |
CN110896664A (zh) | 2020-03-20 |
KR20200002924A (ko) | 2020-01-08 |
KR20210129744A (ko) | 2021-10-28 |
CN117912447A (zh) | 2024-04-19 |
WO2020005202A1 (en) | 2020-01-02 |
US20210366459A1 (en) | 2021-11-25 |
JP2020528566A (ja) | 2020-09-24 |
EP3811359A1 (en) | 2021-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6926241B2 (ja) | ホットワード認識音声合成 | |
US10580404B2 (en) | Indicator for voice-based communications | |
US10074369B2 (en) | Voice-based communications | |
US11423885B2 (en) | Utilizing pre-event and post-event input streams to engage an automated assistant | |
US11093110B1 (en) | Messaging feedback mechanism | |
US9202466B2 (en) | Spoken dialog system using prominence | |
US11341954B2 (en) | Training keyword spotters | |
EP3593346B1 (en) | Graphical data selection and presentation of digital content | |
TWI651714B (zh) | 語音選項選擇系統與方法以及使用其之智慧型機器人 | |
US11694685B2 (en) | Hotphrase triggering based on a sequence of detections | |
KR20230002690A (ko) | 발화의 음성 인식 오류 교정 | |
CN116648743A (zh) | 基于个性化否定来适应热词辨识 | |
JP2019185737A (ja) | 検索方法及びそれを用いた電子機器 | |
US11693622B1 (en) | Context configurable keywords | |
US11211056B1 (en) | Natural language understanding model generation | |
US11955122B1 (en) | Detecting machine-outputted audio | |
Abdelhamid et al. | Robust voice user interface for internet-of-things | |
Imam et al. | Precision Location Keyword Detection Using Offline Speech Recognition Technique | |
Lison | A salience-driven approach to speech recognition for human-robot interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210901 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210901 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7248751 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |