JP2023041843A - 音声区間検出装置、音声区間検出方法及びプログラム - Google Patents
音声区間検出装置、音声区間検出方法及びプログラム Download PDFInfo
- Publication number
- JP2023041843A JP2023041843A JP2023014052A JP2023014052A JP2023041843A JP 2023041843 A JP2023041843 A JP 2023041843A JP 2023014052 A JP2023014052 A JP 2023014052A JP 2023014052 A JP2023014052 A JP 2023014052A JP 2023041843 A JP2023041843 A JP 2023041843A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- segment
- specific
- frame
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 206
- 238000009826 distribution Methods 0.000 claims description 17
- 230000005236 sound signal Effects 0.000 description 59
- 238000000034 method Methods 0.000 description 49
- 238000013528 artificial neural network Methods 0.000 description 33
- 238000004364 calculation method Methods 0.000 description 15
- 230000010365 information processing Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
Description
そのため、発話音声区間の検出精度を向上させることが求められていた。
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出手段と、
前記特定音声区間検出手段による検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出手段と、
を備えることを特徴とする。
L=AA+2×SD ・・・(2)
L=F+(Y-1)×G ・・・(4)
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出手段と、
前記特定音声区間検出手段による検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出手段と、
を備えることを特徴とする音声区間検出装置。
前記特定音声区間検出手段は、前記特定音声区間を、前記ターゲット音声信号中の候補区間から検出し、
前記発話音声区間検出手段は、前記候補区間中の前記特定音声区間検出手段によって検出された前記特定音声区間以外の区間を、前記発話音声区間として検出することを特徴とする付記1に記載の音声区間検出装置。
前記発話音声区間検出手段は、前記候補区間中の前記特定音声区間検出手段によって検出された前記特定音声区間以外の区間のうち時間長が判定時間以上である区間を、前記発話音声区間として検出することを特徴とする付記2に記載の音声区間検出装置。
前記ターゲット音声信号中の時間的に連続する複数のフレームの各々について、各フレームが、当該フレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいるか否かを、当該フレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、当該直前のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、の相関の程度を表す相関係数が閾値以上であるか否かに基づいて判定するフレーム判定手段をさらに備え、
前記特定音声区間検出手段は、前記ターゲット音声信号中の区間であり、特定個数より多い個数のフレームを含み、かつ、当該区間に含まれる全てのフレームの各々が、各フレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいると前記フレーム判定手段によって判定された区間を、前記特定音声区間として検出することを特徴とする付記1乃至3の何れか一つに記載の音声区間検出装置。
前記特定時間は、各子音の音素の各状態が話者によって発音される時間長の平均値に応じた時間であることを特徴とする付記1乃至4の何れか一つに記載の音声区間検出装置。
前記発話音声区間検出手段による前記発話音声区間の検出の結果に対応する検出情報を出力装置より出力することを特徴とする付記1乃至5の何れか一つに記載の音声区間検出装置。
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出ステップと、
前記特定音声区間検出ステップにおける検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出ステップと、
を備えることを特徴とする音声区間検出方法。
コンピュータを、
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出手段、
前記特定音声区間検出手段による検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出手段、
として機能させることを特徴とするプログラム。
ターゲット音声信号の候補区間における、特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号が含まれる区間以外であって、時間長が判定時間以上である区間を、発話音声区間として検出する、制御部を備えることを特徴とする。
Claims (8)
- 特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出手段と、
前記特定音声区間検出手段による検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出手段と、
を備えることを特徴とする音声区間検出装置。 - 前記特定音声区間検出手段は、前記特定音声区間を、前記ターゲット音声信号中の候補区間から検出し、
前記発話音声区間検出手段は、前記候補区間中の前記特定音声区間検出手段によって検出された前記特定音声区間以外の区間を、前記発話音声区間として検出することを特徴とする請求項1に記載の音声区間検出装置。 - 前記発話音声区間検出手段は、前記候補区間中の前記特定音声区間検出手段によって検出された前記特定音声区間以外の区間のうち時間長が判定時間以上である区間を、前記発話音声区間として検出することを特徴とする請求項2に記載の音声区間検出装置。
- 前記ターゲット音声信号中の時間的に連続する複数のフレームの各々について、各フレームが、当該フレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいるか否かを、当該フレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、当該直前のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、の相関の程度を表す相関係数が閾値以上であるか否かに基づいて判定するフレーム判定手段をさらに備え、
前記特定音声区間検出手段は、前記ターゲット音声信号中の区間であり、特定個数より多い個数のフレームを含み、かつ、当該区間に含まれる全てのフレームの各々が、各フレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいると前記フレーム判定手段によって判定された区間を、前記特定音声区間として検出することを特徴とする請求項1乃至3の何れか一項に記載の音声区間検出装置。 - 前記特定時間は、各子音の音素の各状態が話者によって発音される時間長の平均値に応じた時間であることを特徴とする請求項1乃至4の何れか一項に記載の音声区間検出装置。
- 前記発話音声区間検出手段による前記発話音声区間の検出の結果に対応する検出情報を出力装置より出力することを特徴とする請求項1乃至5の何れか一項に記載の音声区間検出装置。
- 特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出ステップと、
前記特定音声区間検出ステップにおける検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出ステップと、
を備えることを特徴とする音声区間検出方法。 - コンピュータを、
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出手段、
前記特定音声区間検出手段による検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出手段、
として機能させることを特徴とするプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018053927 | 2018-03-22 | ||
JP2018053927 | 2018-03-22 | ||
JP2019025686A JP7222265B2 (ja) | 2018-03-22 | 2019-02-15 | 音声区間検出装置、音声区間検出方法及びプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019025686A Division JP7222265B2 (ja) | 2018-03-22 | 2019-02-15 | 音声区間検出装置、音声区間検出方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023041843A true JP2023041843A (ja) | 2023-03-24 |
Family
ID=67985371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023014052A Pending JP2023041843A (ja) | 2018-03-22 | 2023-02-01 | 音声区間検出装置、音声区間検出方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11276390B2 (ja) |
JP (1) | JP2023041843A (ja) |
CN (1) | CN110299153B (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11289073B2 (en) * | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN111179975B (zh) * | 2020-04-14 | 2020-08-04 | 深圳壹账通智能科技有限公司 | 用于情绪识别的语音端点检测方法、电子设备及存储介质 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
US5377302A (en) * | 1992-09-01 | 1994-12-27 | Monowave Corporation L.P. | System for recognizing speech |
JPH1097269A (ja) * | 1996-09-20 | 1998-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声検出装置及び方法 |
JP3410387B2 (ja) * | 1999-04-27 | 2003-05-26 | 株式会社エヌ・ティ・ティ・データ | 音声素片作成装置、音声合成装置、音声素片作成方法、音声合成方法及び記録媒体 |
JP2002189487A (ja) * | 2000-12-20 | 2002-07-05 | Mitsubishi Electric Corp | 音声認識装置および音声認識方法 |
CN1223985C (zh) * | 2002-10-17 | 2005-10-19 | 中国科学院声学研究所 | 语音识别置信度评价方法和系统及应用该方法的听写装置 |
JP4701684B2 (ja) * | 2004-11-19 | 2011-06-15 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP4524634B2 (ja) * | 2005-03-02 | 2010-08-18 | 株式会社国際電気通信基礎技術研究所 | 歌声評定装置およびプログラム |
JP5235210B2 (ja) * | 2007-04-13 | 2013-07-10 | マサチューセッツ インスティテュート オブ テクノロジー | 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体 |
GB2471811B (en) * | 2008-05-09 | 2012-05-16 | Fujitsu Ltd | Speech recognition dictionary creating support device,computer readable medium storing processing program, and processing method |
JP5411936B2 (ja) * | 2009-07-21 | 2014-02-12 | 日本電信電話株式会社 | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 |
JP6003971B2 (ja) * | 2014-12-22 | 2016-10-05 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
JP6003972B2 (ja) * | 2014-12-22 | 2016-10-05 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
JP6444490B2 (ja) | 2015-03-12 | 2018-12-26 | 三菱電機株式会社 | 音声区間検出装置および音声区間検出方法 |
JP6565416B2 (ja) * | 2015-07-22 | 2019-08-28 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
CN105869628A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 语音端点检测方法及装置 |
US10141005B2 (en) * | 2016-06-10 | 2018-11-27 | Apple Inc. | Noise detection and removal systems, and related methods |
JP6731802B2 (ja) | 2016-07-07 | 2020-07-29 | ヤフー株式会社 | 検出装置、検出方法及び検出プログラム |
-
2019
- 2019-03-13 US US16/352,787 patent/US11276390B2/en active Active
- 2019-03-15 CN CN201910195826.0A patent/CN110299153B/zh active Active
-
2023
- 2023-02-01 JP JP2023014052A patent/JP2023041843A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US11276390B2 (en) | 2022-03-15 |
US20190295529A1 (en) | 2019-09-26 |
CN110299153B (zh) | 2023-07-25 |
CN110299153A (zh) | 2019-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023041843A (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
US10297247B2 (en) | Phonotactic-based speech recognition and re-synthesis | |
US8874440B2 (en) | Apparatus and method for detecting speech | |
US9196247B2 (en) | Voice recognition method and voice recognition apparatus | |
JP6654611B2 (ja) | 成長型対話装置 | |
JP6011565B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP5411807B2 (ja) | チャネル統合方法、チャネル統合装置、プログラム | |
JP2006251147A (ja) | 音声認識方法 | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US11823669B2 (en) | Information processing apparatus and information processing method | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP7222265B2 (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
CN115691478A (zh) | 语音唤醒方法、装置、人机交互设备和存储介质 | |
JP4610451B2 (ja) | 音声認識装置及びプログラム | |
KR20230118165A (ko) | 핫워드 속성에 기초한 자동화된 스피치 인식 파라미터적응시키기 | |
JP2007248529A (ja) | 音声認識装置、音声認識プログラム、及び音声動作可能な装置 | |
JP4877112B2 (ja) | 音声処理装置およびプログラム | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 | |
JP6565416B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP2005283646A (ja) | 音声認識率推定装置 | |
JP2021001949A (ja) | 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法 | |
US11195545B2 (en) | Method and apparatus for detecting an end of an utterance | |
JP6790851B2 (ja) | 音声処理プログラム、音声処理方法、及び音声処理装置 | |
JP2009210942A (ja) | 音声再生システム、音声再生方法およびプログラム | |
CN117456988A (zh) | 阈值生成方法、阈值生成装置以及程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230302 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230302 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240611 |