JP2019191557A - 音声認識方法、装置、機器及び記憶媒体 - Google Patents
音声認識方法、装置、機器及び記憶媒体 Download PDFInfo
- Publication number
- JP2019191557A JP2019191557A JP2018247610A JP2018247610A JP2019191557A JP 2019191557 A JP2019191557 A JP 2019191557A JP 2018247610 A JP2018247610 A JP 2018247610A JP 2018247610 A JP2018247610 A JP 2018247610A JP 2019191557 A JP2019191557 A JP 2019191557A
- Authority
- JP
- Japan
- Prior art keywords
- causal
- current frame
- frame
- speech recognition
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000001364 causal effect Effects 0.000 claims abstract description 77
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000005236 sound signal Effects 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 230000007787 long-term memory Effects 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
認識対象となる音声信号を取得するステップと、
因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識するステップと、
を含む。
現在フレームの前のフレームが不足する場合に、空フレームで補充するステップをさらに含む。
認識対象となる音声信号に対してハイパスフィルタリング処理を行うステップと、
ハイパスフィルタリング処理済みの音声信号における干渉信号を除去するステップと、
をさらに含む。
認識対象となる音声信号を取得するための取得モジュールと、
因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識するための認識モジュールと、
を備える。
メモリと、
プロセッサと、
コンピュータプログラムと、を備え、
コンピュータプログラムは、メモリに記憶されており、プロセッサにより実行されると、上記の何れかの方法をプロセッサに実行させるように構成されている。
実行主体は、ユーザ機器(例えば、スマートフォン、タブレットPC、電子書籍リーダ、ラップトップポータブルコンピュータ及びデスク型コンピュータ等)を含むがこれらに限定されない。ユーザ機器がマイク(マイクロフォン)を取り付けた電子機器である場合には、ユーザ機器のマイクで音声信号を収集して、認識対象となる音声信号を取得する。実行本体が例えばサーバのようなネットワーク機器である場合には、サーバは、ユーザ機器から送信された音声信号を受信して、認識対象となる音声信号を取得する。
Claims (10)
- 音声認識方法であって、
認識対象となる音声信号を取得するステップと、
因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、前記音声信号における現在フレーム及び前記現在フレームの前の所定期間内のフレームに基づいて、前記音声信号における現在フレームを認識するステップと、を含む、
ことを特徴とする音声認識方法。 - 前記現在フレームの前のフレームが不足する場合に、空フレームで補充するステップをさらに含む、ことを特徴とする請求項1に記載の方法。
- 前記所定期間は、前記因果的音響モデルのコンテキストパラメータの値に基づいて決定される、ことを特徴とする請求項1に記載の方法。
- 前記因果的音響モデルは、前記因果的音響モデルの受容野を拡大させるためのスタッキングした複数の因果的畳み込み層を含む、ことを特徴とする請求項1に記載の方法。
- 前記因果的音響モデルは、前記音声信号の履歴情報を学習するための少なくとも一層の長短期記憶ネットワークをさらに含む、ことを特徴とする請求項4に記載の方法。
- 前記音声信号における現在フレームを認識するステップの前に、
前記音声信号に対してハイパスフィルタリング処理を行うステップと、
ハイパスフィルタリング処理済みの音声信号における干渉信号を除去するステップと、
をさらに含む、ことを特徴とする請求項1〜5の何れか1項に記載の方法。 - 前記干渉信号は、ノイズ信号及び/又はエコー信号を含む、ことを特徴とする請求項6に記載の方法。
- 音声認識装置であって、
認識対象となる音声信号を取得するための取得モジュールと、
因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、前記音声信号における現在フレーム及び前記現在フレームの前の所定期間内のフレームに基づいて、前記音声信号における現在フレームを認識するための認識モジュールと、を備える、
ことを特徴とする音声認識装置。 - 音声認識機器であって、
メモリと、
プロセッサと、
コンピュータプログラムと、を備え、
前記コンピュータプログラムは、前記メモリに記憶されており、前記プロセッサにより実行されると、請求項1〜7の何れか1項に記載の方法を前記プロセッサに実行させるように構成されている、
ことを特徴とする音声認識機器。 - コンピュータ可読記憶媒体であって、
プロセッサにより実行されると、請求項1〜7の何れか1項に記載の方法を前記プロセッサに実行させるコンピュータプログラムが記憶されている、
ことを特徴とするコンピュータ可読記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810359112.4A CN108550364B (zh) | 2018-04-20 | 2018-04-20 | 语音识别方法、装置、设备及存储介质 |
CN201810359112.4 | 2018-04-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019191557A true JP2019191557A (ja) | 2019-10-31 |
JP6757398B2 JP6757398B2 (ja) | 2020-09-16 |
Family
ID=63511839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018247610A Active JP6757398B2 (ja) | 2018-04-20 | 2018-12-28 | 音声認識方法、装置、機器及び記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11087763B2 (ja) |
JP (1) | JP6757398B2 (ja) |
CN (1) | CN108550364B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023529699A (ja) * | 2020-06-10 | 2023-07-11 | グーグル エルエルシー | テキストエコー消去 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109545192B (zh) * | 2018-12-18 | 2022-03-08 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN111128123A (zh) * | 2019-07-12 | 2020-05-08 | 深圳云知声信息技术有限公司 | 一种基于方言识别与普通话识别的交互方法 |
CN111429913B (zh) * | 2020-03-26 | 2023-03-31 | 厦门快商通科技股份有限公司 | 一种数字串语音识别方法、身份验证装置及计算机可读存储介质 |
CN111599351A (zh) * | 2020-04-30 | 2020-08-28 | 厦门快商通科技股份有限公司 | 一种语音识别方法和装置以及设备 |
CN112185352B (zh) * | 2020-08-31 | 2024-05-17 | 华为技术有限公司 | 语音识别方法、装置及电子设备 |
CN114038465B (zh) * | 2021-04-28 | 2022-08-23 | 北京有竹居网络技术有限公司 | 语音处理方法、装置和电子设备 |
CN114067800B (zh) * | 2021-04-28 | 2023-07-18 | 北京有竹居网络技术有限公司 | 语音识别方法、装置和电子设备 |
CN114242100B (zh) * | 2021-12-16 | 2023-04-21 | 北京百度网讯科技有限公司 | 音频信号处理方法、训练方法及其装置、设备、存储介质 |
CN114203161A (zh) * | 2021-12-30 | 2022-03-18 | 深圳市慧鲤科技有限公司 | 语音识别方法、装置、设备以及存储介质 |
CN114974282A (zh) * | 2022-05-24 | 2022-08-30 | 云知声智能科技股份有限公司 | 基于深度学习的单通道语音降噪方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0635498A (ja) * | 1992-07-16 | 1994-02-10 | Clarion Co Ltd | 音声認識装置及び方法 |
WO2018048945A1 (en) * | 2016-09-06 | 2018-03-15 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101447183A (zh) * | 2007-11-28 | 2009-06-03 | 中国科学院声学研究所 | 一种应用于语音识别系统的高性能置信度处理方法 |
US20090318755A1 (en) * | 2008-06-18 | 2009-12-24 | Jesse Aaron Adams | Therapeutic penis ring |
CN102446504B (zh) * | 2010-10-08 | 2013-10-09 | 华为技术有限公司 | 语音/音乐识别方法及装置 |
US10783900B2 (en) * | 2014-10-03 | 2020-09-22 | Google Llc | Convolutional, long short-term memory, fully connected deep neural networks |
CN105845128B (zh) * | 2016-04-06 | 2020-01-03 | 中国科学技术大学 | 基于动态剪枝束宽预测的语音识别效率优化方法 |
US11080591B2 (en) * | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
US20180082679A1 (en) * | 2016-09-18 | 2018-03-22 | Newvoicemedia, Ltd. | Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning |
CN106782504B (zh) * | 2016-12-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US10672387B2 (en) * | 2017-01-11 | 2020-06-02 | Google Llc | Systems and methods for recognizing user speech |
US10540961B2 (en) * | 2017-03-13 | 2020-01-21 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
CN107301860B (zh) * | 2017-05-04 | 2020-06-23 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
CN107293288B (zh) * | 2017-06-09 | 2020-04-21 | 清华大学 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
US10068557B1 (en) * | 2017-08-23 | 2018-09-04 | Google Llc | Generating music with deep neural networks |
US10672414B2 (en) * | 2018-04-13 | 2020-06-02 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
-
2018
- 2018-04-20 CN CN201810359112.4A patent/CN108550364B/zh active Active
- 2018-12-28 JP JP2018247610A patent/JP6757398B2/ja active Active
- 2018-12-28 US US16/236,295 patent/US11087763B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0635498A (ja) * | 1992-07-16 | 1994-02-10 | Clarion Co Ltd | 音声認識装置及び方法 |
WO2018048945A1 (en) * | 2016-09-06 | 2018-03-15 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
Non-Patent Citations (1)
Title |
---|
KIM AND PARK: "Speech-to-Text-WaveNet:End-to-end sentence level English speech recognition using DeepMind's WaveNet", GITHUB REPOSITORY, JPN7020000469, 3 April 2017 (2017-04-03), ISSN: 0004217595 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023529699A (ja) * | 2020-06-10 | 2023-07-11 | グーグル エルエルシー | テキストエコー消去 |
JP7335460B2 (ja) | 2020-06-10 | 2023-08-29 | グーグル エルエルシー | テキストエコー消去 |
Also Published As
Publication number | Publication date |
---|---|
CN108550364B (zh) | 2019-04-30 |
US11087763B2 (en) | 2021-08-10 |
US20190325877A1 (en) | 2019-10-24 |
JP6757398B2 (ja) | 2020-09-16 |
CN108550364A (zh) | 2018-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6757398B2 (ja) | 音声認識方法、装置、機器及び記憶媒体 | |
KR102380494B1 (ko) | 화상처리장치 및 방법 | |
US11354512B2 (en) | Method and device for generating dialog using trained dialog model | |
JP7114721B2 (ja) | 音声ウェイクアップ方法及び装置 | |
CN107832844A (zh) | 一种信息处理方法及相关产品 | |
WO2018039500A1 (en) | A speech recognition method and apparatus | |
CN111357051B (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
US12057110B2 (en) | Voice recognition based on neural networks | |
CN112561028B (zh) | 训练神经网络模型的方法、数据处理的方法及装置 | |
US20200265843A1 (en) | Speech broadcast method, device and terminal | |
CN109190654A (zh) | 人脸识别模型的训练方法和装置 | |
CN113205803A (zh) | 一种具有自适应降噪能力的语音识别方法及装置 | |
US10891954B2 (en) | Methods and systems for managing voice response systems based on signals from external devices | |
CN109147801B (zh) | 语音交互方法、系统、终端及存储介质 | |
CN111144132A (zh) | 一种语义识别方法及装置 | |
US11996114B2 (en) | End-to-end time-domain multitask learning for ML-based speech enhancement | |
US20200143235A1 (en) | System and method for providing smart objects virtual communication | |
CN111506183A (zh) | 一种智能终端及用户交互方法 | |
CN113886640B (zh) | 数字人生成方法、装置、设备及介质 | |
CN117373468A (zh) | 远场语音增强处理方法、装置、计算机设备和存储介质 | |
CN115910047B (zh) | 数据处理方法、模型训练方法、关键词检测方法及设备 | |
CN118282894B (zh) | 网络性能评估方法及装置 | |
US20240290325A1 (en) | Electronic apparatus and controlling method thereof | |
CN114661441A (zh) | 一种计算平台、计算平台算力扩展方法及装置 | |
CN115774776A (zh) | 一种人机对话处理方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200818 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200828 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6757398 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |