JP2019105677A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2019105677A
JP2019105677A JP2017236698A JP2017236698A JP2019105677A JP 2019105677 A JP2019105677 A JP 2019105677A JP 2017236698 A JP2017236698 A JP 2017236698A JP 2017236698 A JP2017236698 A JP 2017236698A JP 2019105677 A JP2019105677 A JP 2019105677A
Authority
JP
Japan
Prior art keywords
voice
voice recognition
speech recognition
recognition unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017236698A
Other languages
English (en)
Inventor
尚徳 塩崎
Hisanori Shiozaki
尚徳 塩崎
後藤 孝之
Takayuki Goto
孝之 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Onkyo Corp
Original Assignee
Onkyo Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Onkyo Corp filed Critical Onkyo Corp
Priority to JP2017236698A priority Critical patent/JP2019105677A/ja
Priority to US16/212,796 priority patent/US20190180755A1/en
Publication of JP2019105677A publication Critical patent/JP2019105677A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3293Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】バッテリーを搭載した音声認識装置において、バッテリー駆動時の消費電力を抑制すること。【解決手段】音声認識装置1は、バッテリーと、音声認識を行うVTデバイス4と、音声認識を行い、VTデバイス4よりも消費電力が大きいSoC2と、を備える。外部電源からの電力による駆動時、SoC2が、音声認識を行う。バッテリーからの電力による駆動時、VTデバイス4が、音声認識を行う。SoC2は、VTデバイス4よりも音声認識率が高い。【選択図】図1

Description

本発明は、音声認識を行う音声認識装置に関する。
音声認識を行うデバイスとして、消費電力の小さいデバイス(例えば、DSP(Digital Signal Processor)と、消費電力の大きいデバイス(例えば、SoC(System on Chip))と、がある(例えば、特許文献1参照。)。消費電力の小さいデバイスは、音声認識率が低い。消費電力の大きいデバイスは、音声認識率が高い。
特許第6028111号公報
バッテリーを搭載した音声認識装置において、消費電力の大きい音声認識デバイスを用いると、バッテリーの電力消費が大きく、すぐに装置を使えなくなるという問題がある。
本発明の目的は、バッテリーを搭載した音声認識装置において、バッテリー駆動時の消費電力を抑制することである。
第1の発明の音声認識装置は、バッテリーと、音声認識を行う第1音声認識部と、音声認識を行い、前記第1音声認識部よりも消費電力が大きい第2音声認識部と、を備え、外部電源からの電力による駆動時、前記第2音声認識部が、音声認識を行い、前記バッテリーからの電力による駆動時、前記第1音声認識部が、音声認識を行うことを特徴とする。
本発明では、バッテリーからの電力による駆動時、第2音声認識部よりも消費電力が小さい第1音声認識部が音声認識を行う。これにより、バッテリー駆動時の消費電力を抑制することができる。
第2の発明の音声認識装置は、第1の発明の音声認識装置において、前記第2音声認識部は、前記第1音声認識部よりも音声認識率が高いことを特徴とする。
本発明では、第2音声認識部は、第1音声認識部よりも音声認識率が高い。このため、外部電源からの電力による駆動時、消費電力は増えるが、音声認識の性能が上がるというメリットある。
第3の発明の音声認識装置は、第1又は第2の発明の音声認識装置において、前記外部電源からの電力による駆動時、前記第1音声認識部は、入力された音声を前記第2音声認識部に出力することを特徴とする。
第4の発明の音声認識装置は、第1又は第2の発明の音声認識装置において、前記外部電源からの電力による駆動時、前記第1音声認識部は、入力された音声にノイズフィルター処理を行い、前記ノイズフィルター処理を行った音声信号を前記第2音声認識部に出力することを特徴とする。
第5の発明の音声認識装置は、第1〜第4のいずれかの発明の音声認識装置において、前記バッテリーからの電力による駆動時、前記第2音声認識部は、スリープ状態であることを特徴とする。
第6の発明の音声認識装置は、第1〜第5のいずれかの発明の音声認識装置において、 前記第1音声認識部は、音声認識に成功した場合、スリープ状態である前記第2音声認識部を起動し、入力された音声を前記第2音声認識部に出力し、前記第2音声認識部は、音声認識を行うことを特徴とする。
第7の発明の音声認識装置は、第1〜第5のいずれかの発明の音声認識装置において、前記第1音声認識部から出力された音声を保存するための音声バッファをさらに備え、前記第1音声認識部は、音声認識に成功した場合、スリープ状態である前記第2音声認識部を起動し、入力された音声を前記音声バッファに出力し、前記音声バッファに保存された音声は、前記第2音声認識部に出力され、前記第2音声認識部は、音声認識を行うことを特徴とする。
本発明では、音声バッファに保存された音声が第2音声認識部に出力される。従って、第2音声認識部が起動するまでの間、音声バッファにより、第2音声認識部に入力される音声を、遅延させることができる。
第8の発明の音声認識装置は、第1〜第7のいずれかの発明の音声認識装置において、前記外部電源からの電力による駆動時、又は、前記バッテリーからの電力による駆動時で高い音声認識率が必要な場合、前記第2音声認識部が、音声認識を行うことを特徴とする。
本発明では、外部電源からの電力による駆動時、又は、バッテリーからの電力による駆動時で高い音声認識率が必要な場合、第2音声認識部が、音声認識を行う。これにより、バッテリーからの電力による駆動時で高い音声認識率が必要な場合でも、音声認識率が高い第2音声認識部により、音声認識を行うことができる。
本発明によれば、バッテリー駆動時の消費電力を抑制することができる。
本発明の実施形態に係る音声認識装置の構成を示すブロック図である。
以下、本発明の実施形態について説明する。図1は、本発明の実施形態に係る音声認識装置の構成を示すブロック図である。図1に示すように、音声認識装置1は、SoC(System on Chip)2、マイク3、VT(Voice Trigger)デバイス4、音声バッファ5、を備える。
SoC2(第2音声認識部)は、音声認識装置1を構成する各部を制御する。また、SoC2は、音声認識を行う。マイク3は、音声を集音する。マイク3が集音した音声は、VTデバイス4に出力される。VTデバイス4(第1音声認識部)は、入力された音声に、ノイズフィルター処理を行ったり、音声認識を行ったりする。VTデバイス4は、例えば、音声認識に特化した専用の低消費電力DSP(Digital Signal Processor)である。VTデバイス4に入力された音声は、音声バッファ5、又は、SoC2に出力される。音声バッファ4は、入力された音声を保存するためのメモリである。音声バッファ4に保存された音声は、SoC2に出力される。なお、音声バッファ5は、VTデバイス4内のメモリであってもよい。
音声認識装置1は、外部電源(例えば、交流電源)からの電力により駆動する。また、音声認識装置1は、さらに、バッテリーを備えている。音声認識装置1は、外部電源に接続されていない場合、バッテリーからの電力により駆動する。バッテリーは、外部電源からの電力により充電される。
(第1実施形態)
バッテリーからの電力による駆動時、VTデバイス4が、音声認識を行う。このとき、SoC2は、スリープ状態である。また、外部電源からの電力による駆動時、SoC2が、音声認識を行う。VTデバイス4の消費電力は、SoC2よりも小さい。SoC2の消費電力は、VTデバイス4よりも大きい。また、VTデバイス4の音声認識率は、SoC2よりも低い。SoC2の音声認識率は、VTデバイス4よりも高い。第1実施形態では、上述のように、バッテリーからの電力による駆動時、SoC2よりも消費電力が小さいVTデバイス4が音声認識を行う。これにより、バッテリー駆動時の消費電力を抑制することができる。SoC2を起動して、音声認識サービス(機能)を有効にしておくと、例えば、100〜500mWの電力を消費することになる。第1実施形態では、バッテリーによる駆動時、上述したSoC2の消費電力を削減することができる。なお、SoC2の消費電力は、スリープ状態で、100mW以下である。
また、上述のように、第1実施形態では、外部電源からの電力による駆動時、VTデバイス4よりも音声認識率が高いSoC2が、音声認識を行う。このため、外部電源からの電力による駆動時、消費電力は増えるが、音声認識の性能が上がるというメリットがある。外部電源からの電力による駆動時、VTデバイス4は、入力された音声にノイズフィルター処理を行い、ノイズフィルター処理を行った音声を、SoC2に出力する。又は、VTデバイス4は、入力された音声をそのまま(スルーして)、SoC2に出力する。
バッテリーからの電力による駆動時であっても、高い音声認識率が必要な場合、SoC2が、音声認識を行う。これにより、バッテリーからの電力による駆動時で高い音声認識率が必要な場合でも、音声認識率が高いSoC2により、音声認識を行うことができる。
(第2実施形態)
第2実施形態では、第1実施形態同様、バッテリーからの電力による駆動時、VTデバイス4が、音声認識を行う。このとき、SoC2は、スリープ状態である。VTデバイス4は、音声認識に成功した場合、SoC2を起動する。次に、VTデバイス4は、マイク3から入力された音声を音声バッファ5に出力する。音声バッファ5は、入力された音声を保存する。音声バッファ5に保存された音声は、SoC2に出力される。SoC2は、音声認識を行う。例えば、VTデバイス4は、音声認識装置1による音声認識機能を有効にするためのトリガーワードの音声認識を行い、音声認識に成功した場合、以後の処理を行う。このため、バッテリーからの電力による駆動時、トリガーワードの音声認識をVTデバイス4で行い、音声認識に成功した場合に、SoC2を起動することにより、SoC2の消費電力を削減することができる。
また、音声認識率の低いVTデバイス4で音声認識を行った後、音声認識率の高いSoC2で音声認識を行うことで、消費電力を抑制しつつ、音声認識の精度を高めることができる。
また、第2実施形態では、音声バッファ5に保存された音声が、SoC2に出力される。従って、SoC2が起動するまでの間、音声バッファ5により、SoC2に入力される音声を、遅延させることができる。
なお、SoC2がスリープ状態からの起動時に、時間を要しない場合、VTデバイス4は、SoC2を起動し、入力された音声を、SoC2に出力するようになっていてもよい。
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
本発明は、音声認識を行う音声認識装置に好適に採用され得る。
1 音声認識装置
2 SoC(第2音声認識部)
3 マイク
4 VTデバイス(第1音声認識部)
5 音声バッファ

Claims (8)

  1. バッテリーと、
    音声認識を行う第1音声認識部と、
    音声認識を行い、前記第1音声認識部よりも消費電力が大きい第2音声認識部と、を備え、
    外部電源からの電力による駆動時、前記第2音声認識部が、音声認識を行い、
    前記バッテリーからの電力による駆動時、前記第1音声認識部が、音声認識を行うことを特徴とする音声認識装置。
  2. 前記第2音声認識部は、前記第1音声認識部よりも音声認識率が高いことを特徴とする請求項1に記載の音声認識装置。
  3. 前記外部電源からの電力による駆動時、前記第1音声認識部は、入力された音声を前記第2音声認識部に出力することを特徴とする請求項1又は2に記載の音声認識装置。
  4. 前記外部電源からの電力による駆動時、前記第1音声認識部は、入力された音声にノイズフィルター処理を行い、前記ノイズフィルター処理を行った音声信号を前記第2音声認識部に出力することを特徴とする請求項1又は2に記載の音声認識装置。
  5. 前記バッテリーからの電力による駆動時、前記第2音声認識部は、スリープ状態であることを特徴とする請求項1〜4のいずれか1項に記載の音声認識装置。
  6. 前記第1音声認識部は、音声認識に成功した場合、スリープ状態である前記第2音声認識部を起動し、入力された音声を前記第2音声認識部に出力し、
    前記第2音声認識部は、音声認識を行うことを特徴とする請求項1〜5のいずれか1項に記載の音声認識装置。
  7. 前記第1音声認識部から出力された音声を保存するための音声バッファをさらに備え、
    前記第1音声認識部は、音声認識に成功した場合、スリープ状態である前記第2音声認識部を起動し、入力された音声を前記音声バッファに出力し、
    前記音声バッファに保存された音声は、前記第2音声認識部に出力され、
    前記第2音声認識部は、音声認識を行うことを特徴とする請求項1〜5のいずれか1項に記載の音声認識装置。
  8. 前記外部電源からの電力による駆動時、又は、前記バッテリーからの電力による駆動時で高い音声認識率が必要な場合、前記第2音声認識部が、音声認識を行うことを特徴とする請求項1〜7のいずれか1項に記載の音声認識装置。
JP2017236698A 2017-12-11 2017-12-11 音声認識装置 Pending JP2019105677A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017236698A JP2019105677A (ja) 2017-12-11 2017-12-11 音声認識装置
US16/212,796 US20190180755A1 (en) 2017-12-11 2018-12-07 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017236698A JP2019105677A (ja) 2017-12-11 2017-12-11 音声認識装置

Publications (1)

Publication Number Publication Date
JP2019105677A true JP2019105677A (ja) 2019-06-27

Family

ID=66696380

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017236698A Pending JP2019105677A (ja) 2017-12-11 2017-12-11 音声認識装置

Country Status (2)

Country Link
US (1) US20190180755A1 (ja)
JP (1) JP2019105677A (ja)

Also Published As

Publication number Publication date
US20190180755A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
US9699550B2 (en) Reduced microphone power-up latency
CN112636704B (zh) 一种音频处理电路和播放装置
KR101994569B1 (ko) 상시-온 컴포넌트에서의 클록 스위칭
JP2016505897A5 (ja)
US10389147B2 (en) Method for charging battery and electronic device thereof
GB2470693A (en) Processor having reduced power consumption
CN104580721A (zh) 一种终端闹钟实现方法
Vu et al. Implementation of the MFCC front-end for low-cost speech recognition systems
CN104053091A (zh) 一种消除音频设备掉电pop声的装置及方法
US9128720B2 (en) Methods and apparatus for voltage scaling
EP2801904A3 (en) An electronic apparatus and a method of controlling the same
CN107026497B (zh) 电路和乐器
US20140180457A1 (en) Electronic device to align audio flow
WO2011100221A3 (en) Memory device including a memory block having a fixed latency data output
CN104064212A (zh) 录音方法及装置
JP2019105677A (ja) 音声認識装置
TW201346712A (zh) 聲頻加速器之輕量級功率管理
CN110087168B (zh) 音频混响处理方法、装置、设备及存储介质
CN107170211A (zh) 电子装置的位置提示方法和电子装置
JP2014059866A (ja) エネルギーを節約しつつデータを連続配信する技術
US9564117B2 (en) Limiting peak audio power in mobile devices
US20160322063A1 (en) Devices and methods for reducing the processing time of the convergence of a spatial filter
CN110418245B (zh) 一种降低蓝牙音箱反应延迟的方法、装置及终端设备
JP2013077172A (ja) 音声認識装置および音声認識装置における電源供給制御方法
US9431984B2 (en) Acoustic apparatus