JP6974421B2 - 音声認識方法及び装置 - Google Patents
音声認識方法及び装置 Download PDFInfo
- Publication number
- JP6974421B2 JP6974421B2 JP2019218463A JP2019218463A JP6974421B2 JP 6974421 B2 JP6974421 B2 JP 6974421B2 JP 2019218463 A JP2019218463 A JP 2019218463A JP 2019218463 A JP2019218463 A JP 2019218463A JP 6974421 B2 JP6974421 B2 JP 6974421B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- acoustic score
- voice
- audio
- quiet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 44
- 230000005236 sound signal Effects 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Description
[表1]
なお、本開示の実施例に説明されたコンピュータ可読媒体は、コンピュータ可読信号媒体であっても、コンピュータ可読記憶媒体であってもよいが、上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば電気、磁気、光、電磁、赤外線、または半導体のシステム、装置またはデバイス、または任意の組み合わせであってもよいがこれらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、一つまたは複数の導線を有する電気的接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記任意の適切な組み合わせを含むがこれらに限定されない。本発明の実施例において、コンピュータ可読記憶媒体は、プログラムを含みまたは記憶する実体のある記憶媒体であってよく、該プログラムは、命令実行システム、装置またはデバイスにより使用されるかまたはそれを組み合わせて使用されてもよい。しかしながら、本開示の実施例において、コンピュータ可読信号媒体は、ベースバンドにおけるまたはキャリアの部分として伝搬するデータ信号を含んでもよく、ここでコンピュータが可読プログラムコードをベアラする。このような伝搬するデータ信号は、多種の形式を採用してもよく、電磁信号、光信号、または上記任意の適切な組み合わせを含むがこれらに限定されない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は、命令実行システム、装置またはデバイスにより使用されるかまたはそれを組み合わせて使用されるためのプログラムを送信、伝搬または伝送してもよい。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体で伝送されてもよく、電線、光ケーブル、RF高周波)等、または上記任意の適切な組み合わせを含むがこれに限定されない。
Claims (13)
- 音声認識方法であって、
音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定することと、
前記音声フレームの音響スコアに基づいて、隣接する非静音フレーム間に、対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定することと、
前記音声信号からバッファフレームが除去された音声フレームを復号し、音声認識結果を得ることと、
を含む音声認識方法。 - 前記音響スコアは、
前記音声フレームが空白モデリングユニットに対応する確率を表す第1の音響スコアと、
前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも1つの第2の音響スコアとを、含み、
前記音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定することは、
前記音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することを含む請求項1に記載の方法。 - 前記音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することは、
前記音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第1のプリセット閾値以下であると判定することに応答して、前記音声フレームを非静音フレームとして特定することを含む請求項2に記載の方法。 - 前記音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することは、
前記音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第2のプリセット閾値以上であると判定することに応答して、前記音声フレームを静音フレームにマーキングし、
前記音声信号における静音フレームにマーキングされない音声フレームを非静音フレームとして特定することを含む、請求項2に記載の方法。 - 前記方法は、
前記音声信号における音声フレームの音響スコアに基づいて、前記音声信号における静音フレームを特定すること、を含み、
前記音声信号からバッファフレームが除去された音声フレームを復号することは、
前記音声信号から前記バッファフレーム及び前記静音フレームが除去された音声フレームを復号することを含む、
請求項1〜4のいずれか1項に記載の方法。 - 音声認識装置であって、
音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定するように構成される第1の特定ユニットと、
前記音声フレームの音響スコアに基づいて隣接する非静音フレームの間に、対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定するように構成される第2の特定ユニットと、
前記音声信号から前記バッファフレームが除去された音声フレームを復号し、音声認識結果を得るように構成される復号ユニットと、
を含む音声認識装置。 - 前記音響スコアは、音声フレームが空白モデリングユニットに対応する確率を表す第1の音響スコアと、
前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも1つの第2の音響スコアとを、含み、
前記第1の特定ユニットは、さらに、
前記音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの間の差に基づいて前記音声信号における非静音フレームを特定するように構成される請求項6に記載の装置。 - 前記第1の特定ユニットは、さらに、前記音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第1のプリセット閾値以下であると判定することに応答して、前記音声フレームを非静音フレームとして特定することにより、前記音声信号における非静音フレームを特定するように構成される、請求項7に記載の装置。
- 前記第1の特定ユニットは、さらに、前記音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第2のプリセット閾値以上であると判定することに応答して、前記音声フレームを静音フレームにマーキングし、前記音声信号における静音フレームにマーキングされない音声フレームを非静音フレームとして特定することにより、前記音声信号における非静音フレームを特定するように構成される、請求項7に記載の装置。
- 前記装置は、
前記音声信号における音声フレームの音響スコアに基づいて、前記音声信号における静音フレームを特定するように構成される第3の特定ユニットを、さらに含み、
前記復号ユニットは、さらに
前記音声信号から前記バッファフレーム及び前記静音フレームが除去された音声フレームを復号するように構成される、
請求項6〜9のいずれか1項に記載の装置。 - 電子機器であって、
一つまたは複数のプロセッサと、
一つまたは複数のプログラムを記憶する記憶装置と、を含み、
前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサにより実行されると、前記一つまたは複数のプロセッサに、請求項1〜5のいずれか1項に記載の方法を実行させる電子機器。 - コンピュータプログラムを格納したコンピュータ可読媒体であって、
前記コンピュータプログラムは、プロセッサにより実行されると、請求項1〜5のいずれか1項に記載の方法を実行させるコンピュータ可読媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムは、プロセッサにより実行されると、請求項1〜5のいずれか1項に記載の方法を実行させるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910405521.8A CN110136715B (zh) | 2019-05-16 | 2019-05-16 | 语音识别方法和装置 |
CN201910405521.8 | 2019-05-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020187340A JP2020187340A (ja) | 2020-11-19 |
JP6974421B2 true JP6974421B2 (ja) | 2021-12-01 |
Family
ID=67574320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019218463A Active JP6974421B2 (ja) | 2019-05-16 | 2019-12-03 | 音声認識方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11393458B2 (ja) |
JP (1) | JP6974421B2 (ja) |
CN (1) | CN110136715B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112002338A (zh) * | 2020-09-01 | 2020-11-27 | 北京百瑞互联技术有限公司 | 一种优化音频编码量化次数的方法及系统 |
CN112382285B (zh) * | 2020-11-03 | 2023-08-15 | 北京百度网讯科技有限公司 | 语音控制方法、装置、电子设备和存储介质 |
CN112382278B (zh) * | 2020-11-18 | 2021-08-17 | 北京百度网讯科技有限公司 | 流式语音识别结果显示方法、装置、电子设备和存储介质 |
CN113707137B (zh) * | 2021-08-30 | 2024-02-20 | 普强时代(珠海横琴)信息技术有限公司 | 解码实现方法及装置 |
CN116153294B (zh) * | 2023-04-14 | 2023-08-08 | 京东科技信息技术有限公司 | 语音识别方法、装置、系统、设备及介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5822545A (ja) | 1981-07-30 | 1983-02-09 | 松下電器産業株式会社 | 二次電池充電器 |
JPH01260496A (ja) | 1988-04-12 | 1989-10-17 | Matsushita Electric Ind Co Ltd | 単語認識装置 |
US6711536B2 (en) * | 1998-10-20 | 2004-03-23 | Canon Kabushiki Kaisha | Speech processing apparatus and method |
US7542897B2 (en) * | 2002-08-23 | 2009-06-02 | Qualcomm Incorporated | Condensed voice buffering, transmission and playback |
JP5385876B2 (ja) | 2010-08-30 | 2014-01-08 | 日本電信電話株式会社 | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 |
CN103165127B (zh) * | 2011-12-15 | 2015-07-22 | 佳能株式会社 | 声音分段设备和方法以及声音检测系统 |
JP5988077B2 (ja) | 2012-03-02 | 2016-09-07 | 国立研究開発法人情報通信研究機構 | 発話区間検出装置及び発話区間検出のためのコンピュータプログラム |
US9437186B1 (en) * | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
US20160275968A1 (en) | 2013-10-22 | 2016-09-22 | Nec Corporation | Speech detection device, speech detection method, and medium |
CN104751852B (zh) * | 2015-03-20 | 2018-07-24 | 广东小天才科技有限公司 | 一种声音处理的方法和装置 |
CN107564512B (zh) * | 2016-06-30 | 2020-12-25 | 展讯通信(上海)有限公司 | 语音活动侦测方法及装置 |
CN106710606B (zh) * | 2016-12-29 | 2019-11-08 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
JP6336219B1 (ja) | 2017-03-24 | 2018-06-06 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
WO2018173293A1 (ja) * | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法 |
JP6791816B2 (ja) | 2017-07-21 | 2020-11-25 | 株式会社デンソーアイティーラボラトリ | 音声区間検出装置、音声区間検出方法、およびプログラム |
CN108877776B (zh) * | 2018-06-06 | 2023-05-16 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
JP6462936B1 (ja) | 2018-06-18 | 2019-01-30 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
-
2019
- 2019-05-16 CN CN201910405521.8A patent/CN110136715B/zh active Active
- 2019-12-03 JP JP2019218463A patent/JP6974421B2/ja active Active
- 2019-12-03 US US16/702,326 patent/US11393458B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20200365144A1 (en) | 2020-11-19 |
CN110136715B (zh) | 2021-04-06 |
US11393458B2 (en) | 2022-07-19 |
JP2020187340A (ja) | 2020-11-19 |
CN110136715A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6974421B2 (ja) | 音声認識方法及び装置 | |
CN108428446A (zh) | 语音识别方法和装置 | |
US20240021202A1 (en) | Method and apparatus for recognizing voice, electronic device and medium | |
CN111489735B (zh) | 语音识别模型训练方法及装置 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN112927674B (zh) | 语音风格的迁移方法、装置、可读介质和电子设备 | |
CN114895817B (zh) | 交互信息处理方法、网络模型的训练方法及装置 | |
CN110070859A (zh) | 一种语音识别方法及装置 | |
CN111508478B (zh) | 语音识别方法和装置 | |
CN112259089A (zh) | 语音识别方法及装置 | |
CN109697978B (zh) | 用于生成模型的方法和装置 | |
JP2023059937A (ja) | データインタラクション方法、装置、電子機器、記憶媒体、および、プログラム | |
US11893813B2 (en) | Electronic device and control method therefor | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
CN111933119B (zh) | 用于生成语音识别网络的方法、装置、电子设备和介质 | |
CN113012683A (zh) | 语音识别方法及装置、设备、计算机可读存储介质 | |
CN113314096A (zh) | 语音合成方法、装置、设备和存储介质 | |
CN109213466B (zh) | 庭审信息的显示方法及装置 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN115312032A (zh) | 语音识别训练集的生成方法及装置 | |
CN113241061B (zh) | 语音识别结果的处理方法、装置、电子设备和存储介质 | |
EP4336854A2 (en) | Multimedia processing method and apparatus, electronic device, and storage medium | |
CN110808035B (zh) | 用于训练混合语言识别模型的方法和装置 | |
CN113345431B (zh) | 跨语言语音转换方法、装置、设备及介质 | |
CN110634475B (zh) | 语音识别方法、装置、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200330 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200330 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211019 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6974421 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |