JP2019105677A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2019105677A JP2019105677A JP2017236698A JP2017236698A JP2019105677A JP 2019105677 A JP2019105677 A JP 2019105677A JP 2017236698 A JP2017236698 A JP 2017236698A JP 2017236698 A JP2017236698 A JP 2017236698A JP 2019105677 A JP2019105677 A JP 2019105677A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- speech recognition
- recognition unit
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 101150114085 soc-2 gene Proteins 0.000 description 32
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3293—Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】バッテリーを搭載した音声認識装置において、バッテリー駆動時の消費電力を抑制すること。【解決手段】音声認識装置1は、バッテリーと、音声認識を行うVTデバイス4と、音声認識を行い、VTデバイス4よりも消費電力が大きいSoC2と、を備える。外部電源からの電力による駆動時、SoC2が、音声認識を行う。バッテリーからの電力による駆動時、VTデバイス4が、音声認識を行う。SoC2は、VTデバイス4よりも音声認識率が高い。【選択図】図1
Description
本発明は、音声認識を行う音声認識装置に関する。
音声認識を行うデバイスとして、消費電力の小さいデバイス(例えば、DSP(Digital Signal Processor)と、消費電力の大きいデバイス(例えば、SoC(System on Chip))と、がある(例えば、特許文献1参照。)。消費電力の小さいデバイスは、音声認識率が低い。消費電力の大きいデバイスは、音声認識率が高い。
バッテリーを搭載した音声認識装置において、消費電力の大きい音声認識デバイスを用いると、バッテリーの電力消費が大きく、すぐに装置を使えなくなるという問題がある。
本発明の目的は、バッテリーを搭載した音声認識装置において、バッテリー駆動時の消費電力を抑制することである。
第1の発明の音声認識装置は、バッテリーと、音声認識を行う第1音声認識部と、音声認識を行い、前記第1音声認識部よりも消費電力が大きい第2音声認識部と、を備え、外部電源からの電力による駆動時、前記第2音声認識部が、音声認識を行い、前記バッテリーからの電力による駆動時、前記第1音声認識部が、音声認識を行うことを特徴とする。
本発明では、バッテリーからの電力による駆動時、第2音声認識部よりも消費電力が小さい第1音声認識部が音声認識を行う。これにより、バッテリー駆動時の消費電力を抑制することができる。
第2の発明の音声認識装置は、第1の発明の音声認識装置において、前記第2音声認識部は、前記第1音声認識部よりも音声認識率が高いことを特徴とする。
本発明では、第2音声認識部は、第1音声認識部よりも音声認識率が高い。このため、外部電源からの電力による駆動時、消費電力は増えるが、音声認識の性能が上がるというメリットある。
第3の発明の音声認識装置は、第1又は第2の発明の音声認識装置において、前記外部電源からの電力による駆動時、前記第1音声認識部は、入力された音声を前記第2音声認識部に出力することを特徴とする。
第4の発明の音声認識装置は、第1又は第2の発明の音声認識装置において、前記外部電源からの電力による駆動時、前記第1音声認識部は、入力された音声にノイズフィルター処理を行い、前記ノイズフィルター処理を行った音声信号を前記第2音声認識部に出力することを特徴とする。
第5の発明の音声認識装置は、第1〜第4のいずれかの発明の音声認識装置において、前記バッテリーからの電力による駆動時、前記第2音声認識部は、スリープ状態であることを特徴とする。
第6の発明の音声認識装置は、第1〜第5のいずれかの発明の音声認識装置において、 前記第1音声認識部は、音声認識に成功した場合、スリープ状態である前記第2音声認識部を起動し、入力された音声を前記第2音声認識部に出力し、前記第2音声認識部は、音声認識を行うことを特徴とする。
第7の発明の音声認識装置は、第1〜第5のいずれかの発明の音声認識装置において、前記第1音声認識部から出力された音声を保存するための音声バッファをさらに備え、前記第1音声認識部は、音声認識に成功した場合、スリープ状態である前記第2音声認識部を起動し、入力された音声を前記音声バッファに出力し、前記音声バッファに保存された音声は、前記第2音声認識部に出力され、前記第2音声認識部は、音声認識を行うことを特徴とする。
本発明では、音声バッファに保存された音声が第2音声認識部に出力される。従って、第2音声認識部が起動するまでの間、音声バッファにより、第2音声認識部に入力される音声を、遅延させることができる。
第8の発明の音声認識装置は、第1〜第7のいずれかの発明の音声認識装置において、前記外部電源からの電力による駆動時、又は、前記バッテリーからの電力による駆動時で高い音声認識率が必要な場合、前記第2音声認識部が、音声認識を行うことを特徴とする。
本発明では、外部電源からの電力による駆動時、又は、バッテリーからの電力による駆動時で高い音声認識率が必要な場合、第2音声認識部が、音声認識を行う。これにより、バッテリーからの電力による駆動時で高い音声認識率が必要な場合でも、音声認識率が高い第2音声認識部により、音声認識を行うことができる。
本発明によれば、バッテリー駆動時の消費電力を抑制することができる。
以下、本発明の実施形態について説明する。図1は、本発明の実施形態に係る音声認識装置の構成を示すブロック図である。図1に示すように、音声認識装置1は、SoC(System on Chip)2、マイク3、VT(Voice Trigger)デバイス4、音声バッファ5、を備える。
SoC2(第2音声認識部)は、音声認識装置1を構成する各部を制御する。また、SoC2は、音声認識を行う。マイク3は、音声を集音する。マイク3が集音した音声は、VTデバイス4に出力される。VTデバイス4(第1音声認識部)は、入力された音声に、ノイズフィルター処理を行ったり、音声認識を行ったりする。VTデバイス4は、例えば、音声認識に特化した専用の低消費電力DSP(Digital Signal Processor)である。VTデバイス4に入力された音声は、音声バッファ5、又は、SoC2に出力される。音声バッファ4は、入力された音声を保存するためのメモリである。音声バッファ4に保存された音声は、SoC2に出力される。なお、音声バッファ5は、VTデバイス4内のメモリであってもよい。
音声認識装置1は、外部電源(例えば、交流電源)からの電力により駆動する。また、音声認識装置1は、さらに、バッテリーを備えている。音声認識装置1は、外部電源に接続されていない場合、バッテリーからの電力により駆動する。バッテリーは、外部電源からの電力により充電される。
(第1実施形態)
バッテリーからの電力による駆動時、VTデバイス4が、音声認識を行う。このとき、SoC2は、スリープ状態である。また、外部電源からの電力による駆動時、SoC2が、音声認識を行う。VTデバイス4の消費電力は、SoC2よりも小さい。SoC2の消費電力は、VTデバイス4よりも大きい。また、VTデバイス4の音声認識率は、SoC2よりも低い。SoC2の音声認識率は、VTデバイス4よりも高い。第1実施形態では、上述のように、バッテリーからの電力による駆動時、SoC2よりも消費電力が小さいVTデバイス4が音声認識を行う。これにより、バッテリー駆動時の消費電力を抑制することができる。SoC2を起動して、音声認識サービス(機能)を有効にしておくと、例えば、100〜500mWの電力を消費することになる。第1実施形態では、バッテリーによる駆動時、上述したSoC2の消費電力を削減することができる。なお、SoC2の消費電力は、スリープ状態で、100mW以下である。
バッテリーからの電力による駆動時、VTデバイス4が、音声認識を行う。このとき、SoC2は、スリープ状態である。また、外部電源からの電力による駆動時、SoC2が、音声認識を行う。VTデバイス4の消費電力は、SoC2よりも小さい。SoC2の消費電力は、VTデバイス4よりも大きい。また、VTデバイス4の音声認識率は、SoC2よりも低い。SoC2の音声認識率は、VTデバイス4よりも高い。第1実施形態では、上述のように、バッテリーからの電力による駆動時、SoC2よりも消費電力が小さいVTデバイス4が音声認識を行う。これにより、バッテリー駆動時の消費電力を抑制することができる。SoC2を起動して、音声認識サービス(機能)を有効にしておくと、例えば、100〜500mWの電力を消費することになる。第1実施形態では、バッテリーによる駆動時、上述したSoC2の消費電力を削減することができる。なお、SoC2の消費電力は、スリープ状態で、100mW以下である。
また、上述のように、第1実施形態では、外部電源からの電力による駆動時、VTデバイス4よりも音声認識率が高いSoC2が、音声認識を行う。このため、外部電源からの電力による駆動時、消費電力は増えるが、音声認識の性能が上がるというメリットがある。外部電源からの電力による駆動時、VTデバイス4は、入力された音声にノイズフィルター処理を行い、ノイズフィルター処理を行った音声を、SoC2に出力する。又は、VTデバイス4は、入力された音声をそのまま(スルーして)、SoC2に出力する。
バッテリーからの電力による駆動時であっても、高い音声認識率が必要な場合、SoC2が、音声認識を行う。これにより、バッテリーからの電力による駆動時で高い音声認識率が必要な場合でも、音声認識率が高いSoC2により、音声認識を行うことができる。
(第2実施形態)
第2実施形態では、第1実施形態同様、バッテリーからの電力による駆動時、VTデバイス4が、音声認識を行う。このとき、SoC2は、スリープ状態である。VTデバイス4は、音声認識に成功した場合、SoC2を起動する。次に、VTデバイス4は、マイク3から入力された音声を音声バッファ5に出力する。音声バッファ5は、入力された音声を保存する。音声バッファ5に保存された音声は、SoC2に出力される。SoC2は、音声認識を行う。例えば、VTデバイス4は、音声認識装置1による音声認識機能を有効にするためのトリガーワードの音声認識を行い、音声認識に成功した場合、以後の処理を行う。このため、バッテリーからの電力による駆動時、トリガーワードの音声認識をVTデバイス4で行い、音声認識に成功した場合に、SoC2を起動することにより、SoC2の消費電力を削減することができる。
第2実施形態では、第1実施形態同様、バッテリーからの電力による駆動時、VTデバイス4が、音声認識を行う。このとき、SoC2は、スリープ状態である。VTデバイス4は、音声認識に成功した場合、SoC2を起動する。次に、VTデバイス4は、マイク3から入力された音声を音声バッファ5に出力する。音声バッファ5は、入力された音声を保存する。音声バッファ5に保存された音声は、SoC2に出力される。SoC2は、音声認識を行う。例えば、VTデバイス4は、音声認識装置1による音声認識機能を有効にするためのトリガーワードの音声認識を行い、音声認識に成功した場合、以後の処理を行う。このため、バッテリーからの電力による駆動時、トリガーワードの音声認識をVTデバイス4で行い、音声認識に成功した場合に、SoC2を起動することにより、SoC2の消費電力を削減することができる。
また、音声認識率の低いVTデバイス4で音声認識を行った後、音声認識率の高いSoC2で音声認識を行うことで、消費電力を抑制しつつ、音声認識の精度を高めることができる。
また、第2実施形態では、音声バッファ5に保存された音声が、SoC2に出力される。従って、SoC2が起動するまでの間、音声バッファ5により、SoC2に入力される音声を、遅延させることができる。
なお、SoC2がスリープ状態からの起動時に、時間を要しない場合、VTデバイス4は、SoC2を起動し、入力された音声を、SoC2に出力するようになっていてもよい。
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
本発明は、音声認識を行う音声認識装置に好適に採用され得る。
1 音声認識装置
2 SoC(第2音声認識部)
3 マイク
4 VTデバイス(第1音声認識部)
5 音声バッファ
2 SoC(第2音声認識部)
3 マイク
4 VTデバイス(第1音声認識部)
5 音声バッファ
Claims (8)
- バッテリーと、
音声認識を行う第1音声認識部と、
音声認識を行い、前記第1音声認識部よりも消費電力が大きい第2音声認識部と、を備え、
外部電源からの電力による駆動時、前記第2音声認識部が、音声認識を行い、
前記バッテリーからの電力による駆動時、前記第1音声認識部が、音声認識を行うことを特徴とする音声認識装置。 - 前記第2音声認識部は、前記第1音声認識部よりも音声認識率が高いことを特徴とする請求項1に記載の音声認識装置。
- 前記外部電源からの電力による駆動時、前記第1音声認識部は、入力された音声を前記第2音声認識部に出力することを特徴とする請求項1又は2に記載の音声認識装置。
- 前記外部電源からの電力による駆動時、前記第1音声認識部は、入力された音声にノイズフィルター処理を行い、前記ノイズフィルター処理を行った音声信号を前記第2音声認識部に出力することを特徴とする請求項1又は2に記載の音声認識装置。
- 前記バッテリーからの電力による駆動時、前記第2音声認識部は、スリープ状態であることを特徴とする請求項1〜4のいずれか1項に記載の音声認識装置。
- 前記第1音声認識部は、音声認識に成功した場合、スリープ状態である前記第2音声認識部を起動し、入力された音声を前記第2音声認識部に出力し、
前記第2音声認識部は、音声認識を行うことを特徴とする請求項1〜5のいずれか1項に記載の音声認識装置。 - 前記第1音声認識部から出力された音声を保存するための音声バッファをさらに備え、
前記第1音声認識部は、音声認識に成功した場合、スリープ状態である前記第2音声認識部を起動し、入力された音声を前記音声バッファに出力し、
前記音声バッファに保存された音声は、前記第2音声認識部に出力され、
前記第2音声認識部は、音声認識を行うことを特徴とする請求項1〜5のいずれか1項に記載の音声認識装置。 - 前記外部電源からの電力による駆動時、又は、前記バッテリーからの電力による駆動時で高い音声認識率が必要な場合、前記第2音声認識部が、音声認識を行うことを特徴とする請求項1〜7のいずれか1項に記載の音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017236698A JP2019105677A (ja) | 2017-12-11 | 2017-12-11 | 音声認識装置 |
US16/212,796 US20190180755A1 (en) | 2017-12-11 | 2018-12-07 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017236698A JP2019105677A (ja) | 2017-12-11 | 2017-12-11 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019105677A true JP2019105677A (ja) | 2019-06-27 |
Family
ID=66696380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017236698A Pending JP2019105677A (ja) | 2017-12-11 | 2017-12-11 | 音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20190180755A1 (ja) |
JP (1) | JP2019105677A (ja) |
-
2017
- 2017-12-11 JP JP2017236698A patent/JP2019105677A/ja active Pending
-
2018
- 2018-12-07 US US16/212,796 patent/US20190180755A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20190180755A1 (en) | 2019-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9699550B2 (en) | Reduced microphone power-up latency | |
CN112636704B (zh) | 一种音频处理电路和播放装置 | |
KR101994569B1 (ko) | 상시-온 컴포넌트에서의 클록 스위칭 | |
JP2016505897A5 (ja) | ||
US10389147B2 (en) | Method for charging battery and electronic device thereof | |
GB2470693A (en) | Processor having reduced power consumption | |
CN104580721A (zh) | 一种终端闹钟实现方法 | |
Vu et al. | Implementation of the MFCC front-end for low-cost speech recognition systems | |
CN104053091A (zh) | 一种消除音频设备掉电pop声的装置及方法 | |
US9128720B2 (en) | Methods and apparatus for voltage scaling | |
EP2801904A3 (en) | An electronic apparatus and a method of controlling the same | |
CN107026497B (zh) | 电路和乐器 | |
US20140180457A1 (en) | Electronic device to align audio flow | |
WO2011100221A3 (en) | Memory device including a memory block having a fixed latency data output | |
CN104064212A (zh) | 录音方法及装置 | |
JP2019105677A (ja) | 音声認識装置 | |
TW201346712A (zh) | 聲頻加速器之輕量級功率管理 | |
CN110087168B (zh) | 音频混响处理方法、装置、设备及存储介质 | |
CN107170211A (zh) | 电子装置的位置提示方法和电子装置 | |
JP2014059866A (ja) | エネルギーを節約しつつデータを連続配信する技術 | |
US9564117B2 (en) | Limiting peak audio power in mobile devices | |
US20160322063A1 (en) | Devices and methods for reducing the processing time of the convergence of a spatial filter | |
CN110418245B (zh) | 一种降低蓝牙音箱反应延迟的方法、装置及终端设备 | |
JP2013077172A (ja) | 音声認識装置および音声認識装置における電源供給制御方法 | |
US9431984B2 (en) | Acoustic apparatus |