JP6541630B2 - スピーチエンドポインティング - Google Patents
スピーチエンドポインティング Download PDFInfo
- Publication number
- JP6541630B2 JP6541630B2 JP2016179291A JP2016179291A JP6541630B2 JP 6541630 B2 JP6541630 B2 JP 6541630B2 JP 2016179291 A JP2016179291 A JP 2016179291A JP 2016179291 A JP2016179291 A JP 2016179291A JP 6541630 B2 JP6541630 B2 JP 6541630B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- particular user
- query
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 6
- 238000013518 transcription Methods 0.000 description 15
- 230000035897 transcription Effects 0.000 description 15
- 230000008901 benefit Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本出願は、その内容が参照により組み込まれている、2015年10月19日に出願された米国仮出願第62/243,463号の利益を主張するものである。
103 汎用エンドポイント信号
103 信号
106 完全クエリ信号
106 信号
109 初心者ポーズ検出装置信号
109 信号
112 初心者 エンドポイント信号
112 信号
115 上級者ポーズ検出装置信号
115 信号
118 上級者エンドポイント信号
118 信号
121 コンピューティングデバイス
124 発話
127 ユーザ
130 発話タイミング
133 1番目の単語
133 単語
136 ポーズ
139 2番目の単語
139 単語
142 ポーズ
145 3番目の単語
145 単語
148 ポーズ
151 4番目の単語
151 単語
154 ポーズ
157 トランスクリプション
160 トランスクリプション
163 トランスクリプション
200 例示的なシステム
200 システム
200 コンピューティングデバイス
205 音声クエリ
205 音声クエリログ
210 クエリログ
215 クエリログ
220 音声クエリプロセッサ
225 クエリ完全性プロセッサ
230 クエリ長プロセッサ
235 ポーズ間隔プロセッサ
240 クエリカウンタ
245 ユーザプロファイラ
245 音声プロファイラ
250 プロファイル閾値
255 プロファイル記憶装置
260 プロファイル
300 例示的なプロセス
300 プロセス
400 コンピューティングデバイス
402 プロセッサ
402 構成要素
404 メモリ
404 構成要素
406 記憶デバイス
406 構成要素
408 高速インタフェース
408 構成要素
410 高速拡張ポート
410 構成要素
412 低速インタフェース
412 構成要素
414 低速バス
416 ディスプレイ
420 標準サーバ
422 ラップトップコンピュータ
424 ラックサーバシステム
Claims (12)
- コンピュータ実施方法であって、
特定のユーザによって話された音声クエリを含む音声クエリログデータにアクセスするステップと、
特定のユーザによって話された音声クエリを含む前記音声クエリログデータに基づいて、前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータからポーズ閾値を決定するステップであって、前記音声クエリログデータは、それぞれ音声クエリが完全であるか否かを示すデータを含み、前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータからポーズ閾値を決定するステップが、それぞれの音声クエリが完全であるか否かを示す前記データに基づいて、前記ポーズ閾値を決定することを含む、ステップと、
前記特定のユーザから、発話を受信するステップであって、音声クエリが完全であるか否かは、1つまたは複数の完全な発話と前記受信された発話との比較によって決定される、ステップと、
前記特定のユーザが、少なくとも前記ポーズ閾値に等しい期間について話すことを止めたと決定するステップと、
前記特定のユーザが、少なくとも前記ポーズ閾値に等しい期間について話すことを止めたという決定に基づいて、前記発話を、音声クエリとして処理するステップと
を含む、コンピュータ実施方法。 - 前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータから前記ポーズ閾値を決定するステップが、
前記特定のユーザを、音声認識システムの上級者ユーザとして、または前記音声認識システムの初心者ユーザとして分類することと、
前記特定のユーザを、前記音声認識システムの前記上級者ユーザとして、または前記音声認識システムの前記初心者ユーザとして分類することに基づいて、前記ポーズ閾値を決定することと
を含む、請求項1に記載の方法。 - 前記音声クエリログデータが、それぞれの音声クエリに関連するタイムスタンプ、およびそれぞれの音声クエリに関連するスピーチポーズ間隔を含み、
前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータからポーズ閾値を決定するステップが、それぞれの音声クエリに関連する前記タイムスタンプ、およびそれぞれの音声クエリに関連する前記スピーチポーズ間隔に基づいて、前記ポーズ閾値を決定することを含む、請求項1に記載の方法。 - 前記音声クエリログデータに基づいて、1日毎の前記特定のユーザによって話された音声クエリの平均数を決定するステップを含み、
前記ポーズ閾値を決定するステップが、1日毎の前記特定のユーザによって話された音声クエリの前記平均数にさらに基づく、請求項1に記載の方法。 - 前記音声クエリログデータに基づいて、前記特定のユーザによって話された音声クエリの平均長を決定するステップを含み、
前記ポーズ閾値を決定するステップが、前記特定のユーザによって話された音声クエリの前記平均長にさらに基づく、請求項1に記載の方法。 - 前記音声クエリログデータに基づいて、前記特定のユーザによって話された音声クエリについての平均ポーズ間隔を決定するステップを含み、
前記ポーズ閾値を決定するステップが、前記特定のユーザによって話された音声クエリについての前記平均ポーズ間隔にさらに基づく、請求項1に記載の方法。 - システムであって、
1つまたは複数のコンピュータと、 前記1つまたは複数のコンピュータによって実行された場合、前記1つまたは複数のコンピュータに、
特定のユーザによって話された音声クエリを含む音声クエリログデータにアクセスすることと、
特定のユーザによって話された音声クエリを含む前記音声クエリログデータに基づいて、前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータからポーズ閾値を決定することと、
前記特定のユーザから、発話を受信することと、
前記特定のユーザが少なくとも前記ポーズ閾値に等しい期間について話すことを止めたと決定することと、
前記特定のユーザが少なくとも前記ポーズ閾値に等しい期間について話すことを止めたという決定に基づいて、前記発話を、音声クエリとして処理することと
を含む動作を行わせるように動作可能である命令を記憶する1つまたは複数の記憶デバイスと
を備え、
前記音声クエリログデータは、それぞれ音声クエリが完全であるか否かを示すデータを含み、前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータからポーズ閾値を決定することが、それぞれの音声クエリが完全であるか否かを示す前記データに基づいて、前記ポーズ閾値を決定することを含み、音声クエリが完全であるか否かは、1つまたは複数の完全な発話と前記受信された発話との比較によって決定される、システム。 - 前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータから前記ポーズ閾値を決定することが、
前記特定のユーザを、音声認識システムの上級者ユーザとして、または前記音声認識システムの初心者ユーザとして分類することと、
前記特定のユーザを、前記音声認識システムの前記上級者ユーザとして、または前記音声認識システムの前記初心者ユーザとして分類することに基づいて、前記ポーズ閾値を決定することと
を含む、請求項7に記載のシステム。 - 前記音声クエリログデータが、それぞれの音声クエリに関連するタイムスタンプ、およびそれぞれの音声クエリに関連するスピーチポーズ間隔を含み、
前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータからポーズ閾値を決定することが、それぞれの音声クエリに関連する前記タイムスタンプ、およびそれぞれの音声クエリに関連する前記スピーチポーズ間隔に基づいて、前記ポーズ閾値を決定することを含む、請求項7に記載のシステム。 - 前記動作が、前記音声クエリログデータに基づいて、1日毎の前記特定のユーザによって話された音声クエリの平均数を決定することをさらに含み、
前記ポーズ閾値を決定することが、1日毎の前記特定のユーザによって話された音声クエリの前記平均数にさらに基づく、請求項7に記載のシステム。 - 前記動作が、前記音声クエリログデータに基づいて、前記特定のユーザによって話された音声クエリの平均長を決定することをさらに含み、
前記ポーズ閾値を決定することが、前記特定のユーザによって話された音声クエリの前記平均長にさらに基づく、請求項7に記載のシステム。 - 前記動作が、前記音声クエリログデータに基づいて、前記特定のユーザによって話された音声クエリについての平均ポーズ間隔を決定することをさらに含み、
前記ポーズ閾値を決定することが、前記特定のユーザによって話された音声クエリについての前記平均ポーズ間隔にさらに基づく、請求項7に記載のシステム。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562243463P | 2015-10-19 | 2015-10-19 | |
US62/243,463 | 2015-10-19 | ||
US14/923,637 US20170110118A1 (en) | 2015-10-19 | 2015-10-27 | Speech endpointing |
US14/923,637 | 2015-10-27 | ||
US15/196,663 US10269341B2 (en) | 2015-10-19 | 2016-06-29 | Speech endpointing |
US15/196,663 | 2016-06-29 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016246365A Division JP6420306B2 (ja) | 2015-10-19 | 2016-12-20 | スピーチエンドポインティング |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017078848A JP2017078848A (ja) | 2017-04-27 |
JP6541630B2 true JP6541630B2 (ja) | 2019-07-10 |
Family
ID=58666238
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016179291A Active JP6541630B2 (ja) | 2015-10-19 | 2016-09-14 | スピーチエンドポインティング |
JP2016246365A Active JP6420306B2 (ja) | 2015-10-19 | 2016-12-20 | スピーチエンドポインティング |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016246365A Active JP6420306B2 (ja) | 2015-10-19 | 2016-12-20 | スピーチエンドポインティング |
Country Status (4)
Country | Link |
---|---|
US (2) | US11062696B2 (ja) |
JP (2) | JP6541630B2 (ja) |
KR (1) | KR101942521B1 (ja) |
CN (1) | CN107068147B (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543812A (zh) * | 2017-09-22 | 2019-03-29 | 吴杰 | 一种特定真人行为快速建模方法 |
US10636421B2 (en) * | 2017-12-27 | 2020-04-28 | Soundhound, Inc. | Parse prefix-detection in a human-machine interface |
CN108446370B (zh) * | 2018-03-15 | 2019-04-26 | 苏州思必驰信息科技有限公司 | 语音数据统计方法和系统 |
JP7096707B2 (ja) * | 2018-05-29 | 2022-07-06 | シャープ株式会社 | 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 |
CN109360551B (zh) * | 2018-10-25 | 2021-02-05 | 珠海格力电器股份有限公司 | 一种语音识别方法及装置 |
CN109599130B (zh) * | 2018-12-10 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 收音方法、装置及存储介质 |
CN109961787A (zh) * | 2019-02-20 | 2019-07-02 | 北京小米移动软件有限公司 | 确定采集结束时间的方法及装置 |
CN109767792B (zh) * | 2019-03-18 | 2020-08-18 | 百度国际科技(深圳)有限公司 | 语音端点检测方法、装置、终端和存储介质 |
EP3797363A1 (en) | 2019-05-06 | 2021-03-31 | Rovi Guides, Inc. | Systems and methods for leveraging acoustic information of voice queries |
CN110223697B (zh) * | 2019-06-13 | 2022-04-22 | 思必驰科技股份有限公司 | 人机对话方法及系统 |
WO2021014612A1 (ja) * | 2019-07-24 | 2021-01-28 | 日本電信電話株式会社 | 発話区間検出装置、発話区間検出方法、プログラム |
CN110619873A (zh) | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
US11551665B2 (en) * | 2019-09-12 | 2023-01-10 | Oracle International Corporation | Dynamic contextual dialog session extension |
US11749265B2 (en) * | 2019-10-04 | 2023-09-05 | Disney Enterprises, Inc. | Techniques for incremental computer-based natural language understanding |
KR20210050901A (ko) * | 2019-10-29 | 2021-05-10 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11984124B2 (en) * | 2020-11-13 | 2024-05-14 | Apple Inc. | Speculative task flow execution |
CN112530424A (zh) * | 2020-11-23 | 2021-03-19 | 北京小米移动软件有限公司 | 语音处理方法及装置、电子设备、存储介质 |
CN112382279B (zh) * | 2020-11-24 | 2021-09-14 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN113516994B (zh) * | 2021-04-07 | 2022-04-26 | 北京大学深圳研究院 | 实时语音识别方法、装置、设备及介质 |
KR102516391B1 (ko) * | 2022-09-02 | 2023-04-03 | 주식회사 액션파워 | 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법 |
Family Cites Families (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH084676B2 (ja) | 1987-12-09 | 1996-01-24 | 松下電器産業株式会社 | コードレスアイロン |
JPH07104676B2 (ja) * | 1988-02-29 | 1995-11-13 | 日本電信電話株式会社 | 適応形発声終了検出方法 |
JP3004883B2 (ja) * | 1994-10-18 | 2000-01-31 | ケイディディ株式会社 | 終話検出方法及び装置並びに連続音声認識方法及び装置 |
JP3069531B2 (ja) * | 1997-03-14 | 2000-07-24 | 日本電信電話株式会社 | 音声認識方法 |
US6453292B2 (en) | 1998-10-28 | 2002-09-17 | International Business Machines Corporation | Command boundary identifier for conversational natural language |
US6321197B1 (en) * | 1999-01-22 | 2001-11-20 | Motorola, Inc. | Communication device and method for endpointing speech utterances |
WO2000046789A1 (fr) | 1999-02-05 | 2000-08-10 | Fujitsu Limited | Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son |
US6324509B1 (en) | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
JP4341111B2 (ja) | 1999-08-18 | 2009-10-07 | ソニー株式会社 | 記録再生装置および記録再生方法 |
IT1315917B1 (it) | 2000-05-10 | 2003-03-26 | Multimedia Technologies Inst M | Metodo di rivelazione di attivita' vocale e metodo per lasegmentazione di parole isolate, e relativi apparati. |
US7277853B1 (en) | 2001-03-02 | 2007-10-02 | Mindspeed Technologies, Inc. | System and method for a endpoint detection of speech for improved speech recognition in noisy environments |
US7177810B2 (en) | 2001-04-10 | 2007-02-13 | Sri International | Method and apparatus for performing prosody-based endpointing of a speech signal |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
US20050108011A1 (en) | 2001-10-04 | 2005-05-19 | Keough Steven J. | System and method of templating specific human voices |
US7035807B1 (en) | 2002-02-19 | 2006-04-25 | Brittain John W | Sound on sound-annotations |
US7665024B1 (en) | 2002-07-22 | 2010-02-16 | Verizon Services Corp. | Methods and apparatus for controlling a user interface based on the emotional state of a user |
JP4433704B2 (ja) * | 2003-06-27 | 2010-03-17 | 日産自動車株式会社 | 音声認識装置および音声認識用プログラム |
US7756709B2 (en) | 2004-02-02 | 2010-07-13 | Applied Voice & Speech Technologies, Inc. | Detection of voice inactivity within a sound stream |
CN100456356C (zh) * | 2004-11-12 | 2009-01-28 | 中国科学院声学研究所 | 一种应用于语音识别系统的语音端点检测方法 |
WO2006069381A2 (en) | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking confidence |
US7689423B2 (en) | 2005-04-13 | 2010-03-30 | General Motors Llc | System and method of providing telematically user-optimized configurable audio |
US8170875B2 (en) * | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US8756057B2 (en) | 2005-11-02 | 2014-06-17 | Nuance Communications, Inc. | System and method using feedback speech analysis for improving speaking ability |
US7603633B2 (en) | 2006-01-13 | 2009-10-13 | Microsoft Corporation | Position-based multi-stroke marking menus |
US20090149166A1 (en) | 2006-04-24 | 2009-06-11 | Hakem Mohamedali Habib | Method, system and apparatus for conveying an event reminder |
CN101197131B (zh) | 2006-12-07 | 2011-03-30 | 积体数位股份有限公司 | 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法 |
US7881933B2 (en) | 2007-03-23 | 2011-02-01 | Verizon Patent And Licensing Inc. | Age determination using speech |
US8364485B2 (en) | 2007-08-27 | 2013-01-29 | International Business Machines Corporation | Method for automatically identifying sentence boundaries in noisy conversational data |
WO2009101837A1 (ja) | 2008-02-13 | 2009-08-20 | Nec Corporation | 記号挿入装置および記号挿入方法 |
CN101625857B (zh) * | 2008-07-10 | 2012-05-09 | 新奥特(北京)视频技术有限公司 | 一种自适应的语音端点检测方法 |
CN101308653A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种应用于语音识别系统的端点检测方法 |
CA2680304C (en) | 2008-09-25 | 2017-08-22 | Multimodal Technologies, Inc. | Decoding-time prediction of non-verbalized tokens |
DE102008058883B4 (de) | 2008-11-26 | 2023-07-27 | Lumenvox Corporation | Verfahren und Anordnung zur Steuerung eines Nutzerzugriffs |
US8494857B2 (en) | 2009-01-06 | 2013-07-23 | Regents Of The University Of Minnesota | Automatic measurement of speech fluency |
CN101872616B (zh) * | 2009-04-22 | 2013-02-06 | 索尼株式会社 | 端点检测方法以及使用该方法的系统 |
WO2010124247A2 (en) | 2009-04-24 | 2010-10-28 | Advanced Brain Monitoring, Inc. | Adaptive performance trainer |
US8412525B2 (en) | 2009-04-30 | 2013-04-02 | Microsoft Corporation | Noise robust speech classifier ensemble |
US8768705B2 (en) * | 2009-10-27 | 2014-07-01 | Cisco Technology, Inc. | Automated and enhanced note taking for online collaborative computing sessions |
KR101377459B1 (ko) | 2009-12-21 | 2014-03-26 | 한국전자통신연구원 | 자동 통역 장치 및 그 방법 |
US10705794B2 (en) * | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9165567B2 (en) | 2010-04-22 | 2015-10-20 | Qualcomm Incorporated | Systems, methods, and apparatus for speech feature detection |
US8762150B2 (en) * | 2010-09-16 | 2014-06-24 | Nuance Communications, Inc. | Using codec parameters for endpoint detection in speech recognition |
US20120089392A1 (en) | 2010-10-07 | 2012-04-12 | Microsoft Corporation | Speech recognition user interface |
KR101250668B1 (ko) * | 2011-05-23 | 2013-04-03 | 수원대학교산학협력단 | Gmm을 이용한 응급 단어 인식 방법 |
US9763617B2 (en) | 2011-08-02 | 2017-09-19 | Massachusetts Institute Of Technology | Phonologically-based biomarkers for major depressive disorder |
US9043413B2 (en) | 2011-11-15 | 2015-05-26 | Yahoo! Inc. | System and method for extracting, collecting, enriching and ranking of email objects |
CN103165127B (zh) * | 2011-12-15 | 2015-07-22 | 佳能株式会社 | 声音分段设备和方法以及声音检测系统 |
KR20130101943A (ko) * | 2012-03-06 | 2013-09-16 | 삼성전자주식회사 | 음원 끝점 검출 장치 및 그 방법 |
US9202086B1 (en) | 2012-03-30 | 2015-12-01 | Protegrity Corporation | Tokenization in a centralized tokenization environment |
US9445245B2 (en) * | 2012-07-02 | 2016-09-13 | At&T Intellectual Property I, L.P. | Short message service spam data analysis and detection |
US8600746B1 (en) | 2012-09-10 | 2013-12-03 | Google Inc. | Speech recognition parameter adjustment |
JP6122642B2 (ja) * | 2013-01-10 | 2017-04-26 | 株式会社Nttドコモ | 機能実行システム及び発話例出力方法 |
US20140214883A1 (en) * | 2013-01-29 | 2014-07-31 | Google Inc. | Keyword trending data |
DK2994908T3 (da) | 2013-05-07 | 2019-09-23 | Veveo Inc | Grænseflade til inkrementel taleinput med realtidsfeedback |
US9437186B1 (en) | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
GB2519117A (en) | 2013-10-10 | 2015-04-15 | Nokia Corp | Speech processing |
US8775191B1 (en) | 2013-11-13 | 2014-07-08 | Google Inc. | Efficient utterance-specific endpointer triggering for always-on hotwording |
CN104700830B (zh) * | 2013-12-06 | 2018-07-24 | 中国移动通信集团公司 | 一种语音端点检测方法及装置 |
US9418660B2 (en) | 2014-01-15 | 2016-08-16 | Cisco Technology, Inc. | Crowd sourcing audio transcription via re-speaking |
US9311932B2 (en) | 2014-01-23 | 2016-04-12 | International Business Machines Corporation | Adaptive pause detection in speech recognition |
US9530412B2 (en) | 2014-08-29 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for multi-agent architecture for interactive machines |
US9666192B2 (en) | 2015-05-26 | 2017-05-30 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
US10186254B2 (en) * | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10121471B2 (en) | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
JP7104676B2 (ja) * | 2019-10-02 | 2022-07-21 | 株式会社三共 | 遊技機 |
-
2016
- 2016-09-12 KR KR1020160117524A patent/KR101942521B1/ko active IP Right Grant
- 2016-09-14 JP JP2016179291A patent/JP6541630B2/ja active Active
- 2016-09-14 CN CN201610825803.XA patent/CN107068147B/zh active Active
- 2016-12-20 JP JP2016246365A patent/JP6420306B2/ja active Active
-
2019
- 2019-04-08 US US16/377,767 patent/US11062696B2/en active Active
-
2021
- 2021-06-21 US US17/353,764 patent/US11710477B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017078848A (ja) | 2017-04-27 |
KR20170045709A (ko) | 2017-04-27 |
CN107068147B (zh) | 2020-10-20 |
JP6420306B2 (ja) | 2018-11-07 |
US11710477B2 (en) | 2023-07-25 |
US20210312903A1 (en) | 2021-10-07 |
CN107068147A (zh) | 2017-08-18 |
KR101942521B1 (ko) | 2019-01-28 |
JP2017078869A (ja) | 2017-04-27 |
US11062696B2 (en) | 2021-07-13 |
US20190318721A1 (en) | 2019-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6541630B2 (ja) | スピーチエンドポインティング | |
US10269341B2 (en) | Speech endpointing | |
US11996085B2 (en) | Enhanced speech endpointing | |
US9754584B2 (en) | User specified keyword spotting using neural network feature extractor | |
US8843369B1 (en) | Speech endpointing based on voice profile | |
US8775191B1 (en) | Efficient utterance-specific endpointer triggering for always-on hotwording | |
US9589564B2 (en) | Multiple speech locale-specific hotword classifiers for selection of a speech locale | |
US11862162B2 (en) | Adapting an utterance cut-off period based on parse prefix detection | |
US20170069308A1 (en) | Enhanced speech endpointing | |
US20170110118A1 (en) | Speech endpointing | |
EP3739583B1 (en) | Dialog device, dialog method, and dialog computer program | |
CN114385800A (zh) | 语音对话方法和装置 | |
KR20230113368A (ko) | 검출들의 시퀀스에 기반한 핫프레이즈 트리거링 | |
JP7248087B2 (ja) | 連続発話推定装置、連続発話推定方法、およびプログラム | |
US20240212678A1 (en) | Multi-participant voice ordering | |
CN114267339A (zh) | 语音识别处理方法及系统、设备以及存储介质 | |
JP5623345B2 (ja) | 会話データ解析装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180921 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190513 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190611 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6541630 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |