JP7526846B2 - 音声認識 - Google Patents
音声認識 Download PDFInfo
- Publication number
- JP7526846B2 JP7526846B2 JP2023053048A JP2023053048A JP7526846B2 JP 7526846 B2 JP7526846 B2 JP 7526846B2 JP 2023053048 A JP2023053048 A JP 2023053048A JP 2023053048 A JP2023053048 A JP 2023053048A JP 7526846 B2 JP7526846 B2 JP 7526846B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- user
- utterance
- transcription
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013518 transcription Methods 0.000 claims description 84
- 230000035897 transcription Effects 0.000 claims description 84
- 238000012545 processing Methods 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 38
- 230000015654 memory Effects 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 29
- 208000027765 speech disease Diseases 0.000 claims description 18
- 206010013887 Dysarthria Diseases 0.000 claims description 17
- 206010003062 Apraxia Diseases 0.000 claims description 12
- 208000003028 Stuttering Diseases 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 7
- 208000026473 slurred speech Diseases 0.000 claims description 7
- 206010002953 Aphonia Diseases 0.000 claims description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 6
- 208000035475 disorder Diseases 0.000 claims description 6
- 206010011878 Deafness Diseases 0.000 claims description 4
- 208000011293 voice disease Diseases 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 206010013952 Dysphonia Diseases 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 206010013977 Dysprosody Diseases 0.000 description 1
- 208000028790 Speech Sound disease Diseases 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 208000020345 childhood apraxia of speech Diseases 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 208000014155 speech-language disorder-1 Diseases 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Description
図1は、2人のユーザ102a、102bが会話している例示的な環境100を示しており、コンピューティングデバイス106は、非定型音声で話すユーザ102bによって話された音声の転写146、146a-bを出力する。簡単に説明すると、そして以下でより詳細に説明するように、定型音声で話すユーザ102aは、非定型音声で話すユーザ102bと会話している。ユーザ102aがユーザ102bを理解するのを支援するために、コンピューティングデバイス106は、ユーザ102bによって話された発話134、142の転写146a、146bを含むグラフィカルインタフェース150を提供する。コンピューティングデバイス106は、非定型音声を認識するように構成された代替音声認識器132をバイアスすることによって、ユーザ102からの非定型音声に対して実行される音声認識の精度を向上させる。会話は、個々のユーザデバイス106、106a-b(例えば、スマートフォン)を介した電話での会話を含み得る。他の例では、ユーザ102a、102bは、単一のユーザデバイス106が両方のユーザ102a、102bによって話された発話108、134、138、142をキャプチャしている対面会話をし得る。
Claims (20)
- データ処理ハードウェア上での実行時に、前記データ処理ハードウェアに動作を実行させるコンピュータが実施する方法であって、前記動作は、
第2のユーザとの会話中に第1のユーザによって話された第1の発話の音響特徴を受信することと、
前記第1のユーザに関連付けられた第1の音声認識器を使用して、前記第1の発話の音響特徴を処理して、前記第1の発話の第1の転写を生成することと、ここで、前記第1の転写は、1つまたは複数のバイアス用語を含んでおり、
前記第1の転写の前記1つまたは複数のバイアス用語に基づいて、前記第2のユーザに関連付けられた第2の音声認識器をバイアスすることと、
前記第1のユーザとの会話中に、前記第2のユーザによって話された第2の発話の音響特徴を受信することと、
前記1つまたは複数のバイアス用語に基づいてバイアスされた前記第2の音声認識器を使用して、前記第2の発話の音響特徴を処理して、前記第2の発話の第2の転写を生成することと、を含むコンピュータが実施する方法。 - 前記第1のユーザが第1のタイプの音声で話し、
前記第1の音声認識器は、前記第1のタイプの音声で話す話者によって話されたトレーニング発話でトレーニングされ、
前記第2のユーザは、前記第1のユーザによって話された前記第1のタイプの音声とは異なる第2のタイプの音声で話し、
前記第2の音声認識器は、前記第2のタイプの音声で話す話者によって話されたトレーニング発話でトレーニングされる、請求項1に記載のコンピュータが実施する方法。 - 前記第2のタイプの発話で話す話者によって話された前記トレーニング発話は、発語失行、聴覚障害音声、クラッタリング、発達性言語協調障害、構音障害、失音調、語音障害、不明瞭発語、吃音症、音声障害、または不全歯擦音のうちの少なくとも1つを有する話者によって話された発話を含む、請求項2に記載のコンピュータが実施する方法。
- 前記動作が、前記第1の転写における非機能的な用語を識別することによって前記1つまたは複数のバイアス用語を識別することをさらに含む、請求項1に記載のコンピュータが実施する方法。
- 前記動作が、前記第1の転写に対して用語頻度-逆文書頻度(tf-idf)分析を実行して前記1つまたは複数のバイアス用語を識別することをさらに含む、請求項1に記載のコンピュータが実施する方法。
- 前記動作が、前記第1のユーザと前記第2のユーザとの間の会話中に前記第1の音声認識器によって生成された複数の転写に含まれる相互情報を識別することをさらに含む、請求項1に記載のコンピュータが実施する方法。
- 前記第1の発話が、前記第1のユーザに関連付けられた第1のユーザデバイスによってキャプチャされ、
前記データ処理ハードウェアは、前記第1のユーザデバイス上に存在する、請求項1に記載のコンピュータが実施する方法。 - 前記第1の発話が、前記第1のユーザに関連付けられた第1のユーザデバイスによってキャプチャされ、
前記データ処理ハードウェアは、前記第1のユーザデバイスと通信するリモートコンピューティングデバイス上に存在する、請求項1に記載のコンピュータが実施する方法。 - 前記動作が、前記第1のユーザに関連付けられたユーザデバイスのディスプレイ上に前記第2の発話の前記第2の転写を表示することをさらに含む、請求項1に記載のコンピュータが実施する方法。
- 前記動作が、前記第2の発話の前記第2の転写のための合成音声表現を生成することと、
前記第1のユーザに関連付けられたユーザデバイスからの可聴的な出力のために前記合成音声表現を提供することと、をさらに含む、請求項1に記載のコンピュータが実施する方法。 - システムであって、
データ処理ハードウェアと、
前記データ処理ハードウェアと通信し、かつ命令を格納するメモリハードウェアと、を備え、前記命令は、前記データ処理ハードウェア上で実行されるときに、前記データ処理ハードウェアに、
第2のユーザとの会話中に第1のユーザによって話された第1の発話の音響特徴を受信することと、
前記第1のユーザに関連付けられた第1の音声認識器を使用して、前記第1の発話の音響特徴を処理して、前記第1の発話の第1の転写を生成することと、ここで、前記第1の転写は、1つまたは複数のバイアス用語を含んでおり、
前記第1の転写の前記1つまたは複数のバイアス用語に基づいて、前記第2のユーザに関連付けられた第2の音声認識器をバイアスすることと、
前記第1のユーザとの会話中に、前記第2のユーザによって話された第2の発話の音響特徴を受信することと、
前記1つまたは複数のバイアス用語に基づいてバイアスされた前記第2の音声認識器を使用して、前記第2の発話の音響特徴を処理して、前記第2の発話の第2の転写を生成することと、を含む動作を実行させる、システム。 - 前記第1のユーザが第1のタイプの音声で話し、
前記第1の音声認識器は、前記第1のタイプの音声で話す話者によって話されたトレーニング発話に対してトレーニングされ、
前記第2のユーザは、前記第1のユーザによって話された前記第1のタイプの音声とは異なる第2のタイプの音声で話し、
前記第2の音声認識器は、前記第2のタイプの音声で話す話者によって話されたトレーニング発話でトレーニングされる、請求項11に記載のシステム。 - 前記第2のタイプの発話で話す話者によって話される前記トレーニング発話は、発語失行、聴覚障害音声、クラッタリング、発達性言語協調障害、構音障害、失音調、語音障害、不明瞭発語、吃音症、音声障害、または不全歯擦音のうちの少なくとも1つを有する話者によって話された発話を含む、請求項12に記載のシステム。
- 前記動作が、前記第1の転写における非機能的な用語を識別することによって前記1つまたは複数のバイアス用語を識別することをさらに含む、請求項11に記載のシステム。
- 前記動作が、前記第1の転写に対して用語頻度-逆文書頻度(tf-idf)分析を実行して前記1つまたは複数のバイアス用語を識別することをさらに含む、請求項11に記載のシステム。
- 前記動作が、前記第1のユーザと前記第2のユーザとの間の会話中に前記第1の音声認識器によって生成された複数の転写に含まれる相互情報を識別することをさらに含む、請求項11に記載のシステム。
- 前記第1の発話が、前記第1のユーザに関連付けられた第1のユーザデバイスによってキャプチャされ、
前記データ処理ハードウェアは、前記第1のユーザデバイス上に存在する、請求項11に記載のシステム。 - 前記第1の発話が、前記第1のユーザに関連付けられた第1のユーザデバイスによってキャプチャされ、
前記データ処理ハードウェアは、前記第1のユーザデバイスと通信するリモートコンピューティングデバイス上に存在する、請求項11に記載のシステム。 - 前記動作が、前記第1のユーザに関連付けられたユーザデバイスのディスプレイ上に前記第2の発話の前記第2の転写を表示することをさらに含む、請求項11に記載のシステム。
- 前記動作が、前記第2の発話の前記第2の転写のための合成音声表現を生成することと、
前記第1のユーザに関連付けられたユーザデバイスからの可聴的な出力のために前記合成音声表現を提供することと、をさらに含む、請求項11に記載のシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062967949P | 2020-01-30 | 2020-01-30 | |
US62/967,949 | 2020-01-30 | ||
JP2022546105A JP7255032B2 (ja) | 2020-01-30 | 2021-01-20 | 音声認識 |
PCT/US2021/014186 WO2021154563A1 (en) | 2020-01-30 | 2021-01-20 | Speech recognition |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022546105A Division JP7255032B2 (ja) | 2020-01-30 | 2021-01-20 | 音声認識 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023073393A JP2023073393A (ja) | 2023-05-25 |
JP7526846B2 true JP7526846B2 (ja) | 2024-08-01 |
Family
ID=74557269
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022546105A Active JP7255032B2 (ja) | 2020-01-30 | 2021-01-20 | 音声認識 |
JP2023053048A Active JP7526846B2 (ja) | 2020-01-30 | 2023-03-29 | 音声認識 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022546105A Active JP7255032B2 (ja) | 2020-01-30 | 2021-01-20 | 音声認識 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11580994B2 (ja) |
EP (1) | EP4085452A1 (ja) |
JP (2) | JP7255032B2 (ja) |
KR (1) | KR20220130739A (ja) |
CN (1) | CN115023761A (ja) |
WO (1) | WO2021154563A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4085452A1 (en) * | 2020-01-30 | 2022-11-09 | Google LLC | Speech recognition |
TWI746138B (zh) * | 2020-08-31 | 2021-11-11 | 國立中正大學 | 構音異常語音澄析裝置及其方法 |
US20220366901A1 (en) * | 2021-05-12 | 2022-11-17 | Bank Of America Corporation | Intelligent Interactive Voice Recognition System |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005512246A (ja) | 2001-12-12 | 2005-04-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム |
JP2010154397A (ja) | 2008-12-26 | 2010-07-08 | Sony Corp | データ処理装置、データ処理方法、及び、プログラム |
US20140195227A1 (en) | 2011-07-25 | 2014-07-10 | Frank RUDZICZ | System and method for acoustic transformation |
US20160316059A1 (en) | 2015-04-27 | 2016-10-27 | TalkIQ, Inc. | Methods and systems for determining conversation quality |
US20170032781A1 (en) | 2015-07-28 | 2017-02-02 | Google Inc. | Collaborative language model biasing |
JP2017182452A (ja) | 2016-03-30 | 2017-10-05 | 株式会社リクルートライフスタイル | 定型フレーズ作成装置及びプログラム、並びに、会話支援装置及びプログラム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001101187A (ja) | 1999-09-30 | 2001-04-13 | Sony Corp | 翻訳装置および翻訳方法、並びに記録媒体 |
US7302389B2 (en) * | 2003-05-14 | 2007-11-27 | Lucent Technologies Inc. | Automatic assessment of phonological processes |
US8494852B2 (en) * | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US8296142B2 (en) * | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
CN105378830A (zh) * | 2013-05-31 | 2016-03-02 | 朗桑有限公司 | 音频数据的处理 |
US9245523B2 (en) * | 2013-07-25 | 2016-01-26 | Nice-Systems Ltd | Method and apparatus for expansion of search queries on large vocabulary continuous speech recognition transcripts |
WO2017112813A1 (en) * | 2015-12-22 | 2017-06-29 | Sri International | Multi-lingual virtual personal assistant |
US10255913B2 (en) * | 2016-02-17 | 2019-04-09 | GM Global Technology Operations LLC | Automatic speech recognition for disfluent speech |
US9899038B2 (en) * | 2016-06-30 | 2018-02-20 | Karen Elaine Khaleghi | Electronic notebook system |
US9691384B1 (en) * | 2016-08-19 | 2017-06-27 | Google Inc. | Voice action biasing system |
US10438587B1 (en) * | 2017-08-08 | 2019-10-08 | X Development Llc | Speech recognition biasing |
US11176484B1 (en) * | 2017-09-05 | 2021-11-16 | Amazon Technologies, Inc. | Artificial intelligence system for modeling emotions elicited by videos |
US10490207B1 (en) * | 2018-05-11 | 2019-11-26 | GM Global Technology Operations LLC | Automated speech recognition using a dynamically adjustable listening timeout |
US10860642B2 (en) * | 2018-06-21 | 2020-12-08 | Google Llc | Predicting topics of potential relevance based on retrieved/created digital media files |
CN112955066A (zh) * | 2018-09-06 | 2021-06-11 | 阿尔法欧米伽神经科技有限公司 | 治疗空间评估 |
US11862190B2 (en) * | 2019-03-11 | 2024-01-02 | Revcomm Inc. | Information processing device |
EP4085452A1 (en) * | 2020-01-30 | 2022-11-09 | Google LLC | Speech recognition |
US20220122596A1 (en) * | 2021-12-24 | 2022-04-21 | Intel Corporation | Method and system of automatic context-bound domain-specific speech recognition |
-
2021
- 2021-01-20 EP EP21703802.5A patent/EP4085452A1/en active Pending
- 2021-01-20 KR KR1020227028444A patent/KR20220130739A/ko active Search and Examination
- 2021-01-20 CN CN202180010815.6A patent/CN115023761A/zh active Pending
- 2021-01-20 WO PCT/US2021/014186 patent/WO2021154563A1/en unknown
- 2021-01-20 JP JP2022546105A patent/JP7255032B2/ja active Active
- 2021-01-20 US US17/153,495 patent/US11580994B2/en active Active
-
2023
- 2023-01-25 US US18/159,601 patent/US11823685B2/en active Active
- 2023-03-29 JP JP2023053048A patent/JP7526846B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005512246A (ja) | 2001-12-12 | 2005-04-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム |
JP2010154397A (ja) | 2008-12-26 | 2010-07-08 | Sony Corp | データ処理装置、データ処理方法、及び、プログラム |
US20140195227A1 (en) | 2011-07-25 | 2014-07-10 | Frank RUDZICZ | System and method for acoustic transformation |
US20160316059A1 (en) | 2015-04-27 | 2016-10-27 | TalkIQ, Inc. | Methods and systems for determining conversation quality |
US20170032781A1 (en) | 2015-07-28 | 2017-02-02 | Google Inc. | Collaborative language model biasing |
JP2017182452A (ja) | 2016-03-30 | 2017-10-05 | 株式会社リクルートライフスタイル | 定型フレーズ作成装置及びプログラム、並びに、会話支援装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US11823685B2 (en) | 2023-11-21 |
US20210241777A1 (en) | 2021-08-05 |
EP4085452A1 (en) | 2022-11-09 |
US11580994B2 (en) | 2023-02-14 |
JP2023503718A (ja) | 2023-01-31 |
CN115023761A (zh) | 2022-09-06 |
JP2023073393A (ja) | 2023-05-25 |
KR20220130739A (ko) | 2022-09-27 |
WO2021154563A1 (en) | 2021-08-05 |
US20230169983A1 (en) | 2023-06-01 |
JP7255032B2 (ja) | 2023-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10714096B2 (en) | Determining hotword suitability | |
JP7526846B2 (ja) | 音声認識 | |
US10269346B2 (en) | Multiple speech locale-specific hotword classifiers for selection of a speech locale | |
US11682401B2 (en) | Matching speakers to meeting audio | |
US11823678B2 (en) | Proactive command framework | |
US9293136B2 (en) | Multiple recognizer speech recognition | |
US9589563B2 (en) | Speech recognition of partial proper names by natural language processing | |
JP6440967B2 (ja) | 文末記号推定装置、この方法及びプログラム | |
JP2019020684A (ja) | 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム | |
US20230274727A1 (en) | Instantaneous learning in text-to-speech during dialog | |
US11341954B2 (en) | Training keyword spotters | |
US20240265908A1 (en) | Methods for real-time accent conversion and systems thereof | |
US20230360632A1 (en) | Speaker Embeddings for Improved Automatic Speech Recognition | |
US10546580B2 (en) | Systems and methods for determining correct pronunciation of dictated words | |
JP2020173441A (ja) | 音声認識方法及び装置 | |
US11508355B1 (en) | Extracting natural language semantics from speech without the use of speech recognition | |
US20240233707A9 (en) | Knowledge Distillation with Domain Mismatch For Speech Recognition | |
US20240233712A1 (en) | Speech Recognition Biasing | |
US20240257804A1 (en) | Language model customization techniques and applications thereof | |
CN116844555A (zh) | 车辆语音交互的方法及装置、车辆、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230329 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240722 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7526846 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |