JP6949195B2 - 音声認識方法及び装置、並びに記憶媒体 - Google Patents

音声認識方法及び装置、並びに記憶媒体 Download PDF

Info

Publication number
JP6949195B2
JP6949195B2 JP2020502569A JP2020502569A JP6949195B2 JP 6949195 B2 JP6949195 B2 JP 6949195B2 JP 2020502569 A JP2020502569 A JP 2020502569A JP 2020502569 A JP2020502569 A JP 2020502569A JP 6949195 B2 JP6949195 B2 JP 6949195B2
Authority
JP
Japan
Prior art keywords
audio data
fuzzy
speech recognition
wakeup
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020502569A
Other languages
English (en)
Other versions
JP2020527754A (ja
Inventor
タン,フイゾン
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2020527754A publication Critical patent/JP2020527754A/ja
Application granted granted Critical
Publication of JP6949195B2 publication Critical patent/JP6949195B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3215Monitoring of peripheral devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3293Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0261Power saving arrangements in terminal devices managing power supply demand, e.g. depending on battery level
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephone Function (AREA)

Description

本出願は、2017年7月19日に中国特許庁に提出された、出願番号が201710588382.8であって、出願の名称が「音声認識方法及び装置、並びに記憶媒体」である中国特許出願の優先権を主張するものであり、その全内容を本出願に参照により援用する。
本発明は、通信技術の分野に関し、具体的に音声認識に関する。
人工知能の開発に伴い、インテリジェントハードウェア製品も急速に開発されている。インテリジェントハードウェア製品とは、インテリジェントモバイル端末(モバイル端末と略称される)などの、人工知能機能が集積されるハードウェア装置である。インテリジェントハードウェア製品のコアは必然的に「人」とのインタラクションから切り離せないものであり、音声インタラクションは自然で低学習コストのインタラクション方法として、インテリジェントハードウェア製品の主流の技術になっている。
音声インタラクションでは、音声ウェイクアップをどのように行うかが重要な問題である。モバイル端末を例にとると、従来の技術では、迅速な音声ウェイクアップを実現するために、一般に、端末の録音機能を常にオン状態にし、中央処理装置(CPU、Central Processing Unit)は、いつでもオーディオデータを処理でき、ユーザーが話していない場合でも、CPUはスリープできない必要がある。CPUが様々なオーディオデータをエンコード、復号化、及び再生し、他の様々な機能を実現する必要があるため、当該解決策は、CPUの仕様に対する要求が高く、また、システム全体の消費電力も非常に大きく、バッテリー給電のモバイル端末にとって、待機時間が大幅に短縮される。そのため、従来の技術では、給電に外部電源を使用するか、又は1つの物理ボタンを使用してウェイクアップする解決策も提案しているが、外部電源を使用する場合、必然的にそのモビリティに影響し、物理ボタンによってウェイクアップする場合、音声ウェイクアップが実現できない。つまり、既存の解決策では、モビリティと音声ウェイクアップ機能を維持する必要がある場合、必然的に大量のバッテリー電力を消耗し、これは、モバイル端末の待機時間を大幅に短縮し、モバイル端末のパフォーマンスに影響を与える。
本発明の実施例は、音声認識方法、装置及び記憶媒体を提供し、システムの消費電力を削減することによって、モビリティと音声ウェイクアップ機能を維持しながら、モバイル端末の待機時間を延長し、モバイル端末のパフォーマンスを改善することができる。
第1の態様によれば、本発明の実施例は音声認識方法を提供し、
オーディオデータを取得することと、
デジタル信号プロセッサー(DSP、Digital Signal Processing)によって前記オーディオデータに対してファジー音声認識を実行することと、
ファジー音声認識結果がウェイクアップワードの存在を示す場合、DSPによって、スリープ状態にあるCPUをウェイクアップし、前記CPUが前記オーディオデータに対して意味解析を実行することと、
を含む。
いくつの実施例では、前記デジタル信号プロセッサーによって前記オーディオデータに対してファジー音声認識を実行することは、
デジタル信号プロセッサーによって、ファジークラスタリングで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を取得すること、を含む。
いくつの実施例では、前記デジタル信号プロセッサーによって、ファジークラスタリングで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得ることは、
ファジークラスタリングに基づきファジークラスタリングニューラルネットワークを確立することと、
前記ファジークラスタリングニューラルネットワークを確率密度関数の推定器とし、ウェイクアップワードが前記オーディオデータに含まれる確率を予測することと、
予測結果が確率が設定値以上であることを示す場合、ウェイクアップワードの存在を示すファジー音声認識結果を生成することと、
予測結果が確率が前記設定値よりも小さいことを示す場合、ウェイクアップワードの不存在を示すファジー音声認識結果を生成することと、
を含む。
いくつの実施例では、前記デジタル信号プロセッサーによって前記オーディオデータに対してファジー音声認識を実行することは、
デジタル信号プロセッサーによって、ファジーマッチングアルゴリズムを使用して前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得ること、を含む。
いくつの実施例では、前記デジタル信号プロセッサーによって、ファジーマッチングアルゴリズムを使用して前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得ることは、
ウェイクアップワードの読み方の特徴マップを取得して、標準の特徴マップを得ることと、
前記オーディオデータ内の各ワードの読み方の特徴マップを解析して、マッチング候補特徴マップを得ることと、
所定のメンバーシップ関数に従って、各マッチング候補特徴マップが標準の特徴マップに属する度合いのグレードを計算することと、
前記度合いのグレードがプリセット値以上である場合、ウェイクアップワードの存在を示すファジー音声認識結果を生成することと、
前記度合いのグレードが前記プリセット値よりも小さい場合、ウェイクアップワードの不存在を示すファジー音声認識結果を制御することと、
を含む。
いくつの実施例では、前記デジタル信号プロセッサーによってスリープ状態にある中央処理装置をウェイクアップした後、
前記中央処理装置によって前記オーディオデータに対して意味解析を実行し、解析結果に従って前記解析結果に対応する操作を実行することをさらに含む。
いくつの実施例では、前記中央処理装置によって前記オーディオデータに対して意味解析を実行する前に、
前記デジタル信号プロセッサーから前記オーディオデータのうちウェイクアップワードが含まれるデータを読み取って、ウェイクアップデータを得ることと、
前記中央処理装置によって前記ウェイクアップデータに対して音声認識を実行することと、
音声認識結果がウェイクアップワードの存在を示す場合、前記中央処理装置によって前記オーディオデータに対して意味解析を実行するステップを実行することと、
音声認識結果がウェイクアップワードの不存在を示す場合、前記中央処理装置をスリープに設定し、オーディオデータを取得するステップに戻ることと、さらに含む。
いくつの実施例では、前記中央処理装置によって前記ウェイクアップデータに対して音声認識を実行することは、
前記中央処理装置の動作状態をシングルコアでかつ低周波数である第1状態に設定することと、
前記第1状態で、前記ウェイクアップデータに対して音声認識を実行することと、
を含む。
いくつの実施例では、前記中央処理装置によって前記オーディオデータに対して意味解析を実行することは、
前記中央処理装置の動作状態をマルチコアでかつ高周波数である第2状態に設定することと、
前記第2状態で、前記オーディオデータに対して意味解析を実行することと、を含む。
いくつの実施例では、前記中央処理装置によって前記オーディオデータに対して意味解析を実行することは、
前記オーディオデータに対応するウェイクアップワードに従ってセマンティックシーンを決定することと、
セマンティックシーンに従って前記中央処理装置の動作コア数とクロック周波数を決定することと、
前記動作コア数とクロック周波数に従って前記中央処理装置の動作状態を設定して、第3の状態を得ることと、
前記第3の状態で、前記オーディオデータに対して意味解析を実行することと、を含む。
いくつの実施例では、前記デジタル信号プロセッサーによって前記オーディオデータに対してファジー音声認識を実行する前に、
前記オーディオデータに対してノイズリダクション及び/又はエコーキャンセル処理を実行することをさらに含む。
いくつの実施例では、前記解析結果に従って対応する操作を実行することは、
前記解析結果に従って操作対象と操作内容を決定することと、
前記操作対象に対して前記操作内容を実行することと、を含む。
第2の態様によれば、本発明の実施例は音声認識装置を提供し、
オーディオデータを取得するための取得ユニットと、
DSPによって前記オーディオデータに対してファジー音声認識を実行するためのファジー認識ユニットと、
ファジー音声認識結果がウェイクアップワードが存在することを示す場合、前記オーディオデータに対して意味解析を実行するためのスリープ状態にある中央処理装置をウェイクアップするためのウェイクアップユニットと、
を含む。
いくつの実施例では、前記ファジー認識ユニットは、具体的に、DSPによって、ファジークラスタリングで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得る。
例えば、前記ファジー認識ユニットは、具体的に、ファジークラスタリングでファジークラスタリングニューラルネットワークを確立し、前記ファジークラスタリングニューラルネットワークを確率密度関数の推定器とし、前記オーディオデータにウェイクアップワードが含まれる確率を予測し、予測結果が確率が設定値以上であることを示す場合、ウェイクアップワードの存在を示すファジー音声認識結果を生成し、予測結果が確率が設定値よりも小さいことを示す場合、ウェイクアップワードの不存在を示すファジー音声認識結果を生成することができる。
いくつの実施例では、前記ファジー認識ユニットは、具体的に、DSPによって、ファジーマッチングアルゴリズムを使用して前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得る。
例えば、前記ファジー認識ユニットは、具体的に、ウェイクアップワードの読み方の特徴マップを取得して、標準の特徴マップを取得し、当該オーディオデータにおける各ワードの読み方の特徴マップを解析して、マッチング候補特徴マップを取得し、予め設定されたメンバーシップ関数に従って各マッチング候補特徴マップが標準の特徴マップに属する度合いのグレードを計算し、当該度合いのグレードがプリセット値以上である場合、ウェイクアップワードの存在を示すファジー音声認識結果を生成し、さもなければ、当該度合いのグレードがプリセット値よりも小さい場合、ウェイクアップワードの不存在を示すファジー音声認識結果を生成することができる。
いくつの実施例では、前記音声認識装置は、CPUによって前記オーディオデータに対して意味解析を実行し、解析結果に従って対応する操作を実行するための処理ユニットを含んでもよい。
いくつの実施例では、前記音声認識装置は次のような精確認識ユニットを含んでもよく、
前記精確認識ユニットは、DSPから前記オーディオデータのうちウェイクアップワードが含まれるデータを読み取って、ウェイクアップデータを取得し、前記CPUによって前記ウェイクアップデータに対して音声認識を実行し、音声認識結果がウェイクアップワードの存在を示す場合、CPUによって、前記オーディオデータに対して意味解析を実行する操作を実行するように処理ユニットをトリガーし、音声認識結果がウェイクアップワードの不存在を示す場合、CPUをスリープに設定し、オーディオデータを取得する操作を実行するよう取得ユニットをトリガーすることができる。
その中、前記精確認識ユニットは、具体的に、前記CPUの動作状態をシングルコアで低周波数であるかつ第1状態に設定し、前記第1状態で、前記ウェイクアップデータに対して音声認識を実行することができる。
いくつの実施例では、前記処理ユニットは、具体的に、前記CPU的動作状態をマルチコアでかつ高周波数である第2状態に設定し、前記第2状態で、前記オーディオデータに対して意味解析を実行することができる。
いくつの実施例では、前記処理ユニットは、具体的に、前記オーディオデータに対応するウェイクアップワードに従ってセマンティックシーンを決定し、セマンティックシーンに従ってCPUの動作コア数とクロック周波数を決定し、前記動作コア数とクロック周波数に従ってCPU的動作状態を設定して、第3の状態を取得し、前記第3の状態で、前記オーディオデータに対して意味解析を実行することができる。
いくつの実施例では、前記音声認識装置は次のようなフィルタリングユニットを含んでもよく、
前記フィルタリングユニットは、前記オーディオデータに対してノイズリダクション及び/又はエコーキャンセル処理を実行する。
第3の態様によれば、本発明の実施例は、モバイル端末をさらに提供し、前記モバイル端末は記憶媒体とプロセッサーを含み、前記記憶媒体には複数の指令が記憶され、前記プロセッサーは、本発明の実施例によって提供されるいずれかの音声認識方法におけるステップを実行するように前記指令をロード及び実行する。
第4の態様によれば、本発明の実施例は、複数の指令が記憶される記憶媒体をさらに提供し、前記指令は、本発明の実施例によって提供されるいずれかの音声認識方法におけるステップを実行するようにプロセッサーによってロードされる。
本発明の実施例では、オーディオデータを取得した後、DSPによって当該オーディオデータに対してファジー音声認識を行うことができ、ウェイクアップワードが存在すると確定される場合にのみ、スリープ状態にあるCPUを、当該DSPによってウェイクアップし、当該CPUは、当該オーディオデータに対して意味解析を実行することができる。この解決策は、動作消費電力の高いCPUの代わりに、動作消費電力の低いDSPを使用して、オーディオデータを監視するため、CPUは、常にウェイクアップ状態である必要はなく、スリープ状態にすることができ、必要な場合にのみウェイクアップされる。従って、外部電源又は物理ボタンによってウェイクアップされる既存の解決策と比べると、当該解決策は、モビリティと音声ウェイクアップ機能を維持しながら、システムの消費電力を大幅に削減することができ、これにより、モバイル端末の待機時間を延長し、モバイル端末のパフォーマンスを改善する。
本発明の実施例における技術的解決策をより明確に説明するために、以下、実施例の説明で使用される図面について簡単に説明する。明らかに、以下の説明における図面は本発明のいくつかの実施例にすぎない。当業者にとって、創造的な労力なしにこれらの図面から他の図面を得ることができる。
本発明の実施例によって提供されるモバイル端末のアーキテクチャ図である。 本発明の実施例によって提供される音声認識方法のシーン概略図である。 本発明の実施例によって提供される音声認識方法のフローチャートである。 本発明の実施例によって提供される音声認識方法のブロック図である。 本発明の実施例によって提供される音声認識方法の別のフローチャートである。 本発明の実施例によって提供される音声認識方法の別のブロック図である。 本発明の実施例によって提供される音声認識装置の構成概略図である。 本発明の実施例によって提供される音声認識装置の別の構成概略図である。 本発明の実施例によって提供される音声認識装置の別の構成概略図である。 本発明の実施例によって提供されるモバイル端末の構成概略図である。
以下、本発明の実施例における図面を参照しながら、本発明の実施例における技術的解決策を明確かつ完全に説明する。説明される実施例は本発明の一部の実施例にすぎず、全ての実施例ではないことは明らかである。創造的な努力なしに本発明における実施例に基づいて当業者によって得られた他の全ての実施例は、本発明の保護範囲内に属する。
本発明の実施例は、音声認識方法、装置及び記憶媒体を提供する。
当該音声認識装置は具体的に、携帯電話、ウェアラブルインテリジェント装置、タブレットコンピュータ、及び/又はノートブックコンピューターなどのモバイル端末に集積できる。
例えば、当該音声認識装置がモバイル端末に集積されることを例にとると、図1aを参照して、モバイル端末にDSPを設定することができ、例えば、当該DSPをコーデック(Codec、Coder-decoder)(例えばDSP機能を持っているコーデック)に設定することができ、このようにして、モバイル端末がオーディオデータを取得し、例えば、マイク(MIC、Microphone)を介してユーザーの音声を受信すると、当該DSPによって当該オーディオデータに対してファジー音声認識を実行することができ、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、DSPによってスリープ状態にあるCPUをウェイクアップし、当該CPUは当該オーディオデータに対して意味解析を実行することができ、例えば、図1bに示すようである。さもなければ、ファジー音声認識結果がウェイクアップワードが存在しないことを示している場合、CPUをウェイクアップせず、DSPによってオーディオデータの監視を続ける。
なお、DSPは、デジタル信号処理演算に特に適合しているマイクロプロセッサーであり、様々なデジタル信号処理アルゴリズムをリアルタイムで迅速に実現することができる。また、オーバーヘッドの少ない又はゼロのループアンドジャンプハードウェアのサポートの特性により、他のプロセッサーと比較して、その消費電力が低く、さらに、DSPはノイズリダクションの機能も有する。
以下それぞれ詳細に説明する。なお、以下の実施例のシリアル番号は、実施例の好ましい順序を限定することを意図するものではない。
実施例一、
本実施例では、音声認識装置の観点から説明し、当該音声認識装置は具体的にモバイル端末などの装置に集積でき、当該モバイル端末は携帯電話、ウェアラブルインテリジェント装置、タブレットコンピュータ、及び/又はノートブックコンピューターを含むことができる。
本実施例は、音声認識方法を提供し、オーディオデータを取得することと、DSPによって当該オーディオデータに対してファジー音声認識を実行することと、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、DSPによってスリープ状態にあるCPUをウェイクアップし、当該CPUが当該オーディオデータに対して意味解析を実行することとを含む。
図1cに示すように、当該音声認識方法の具体的な手順は以下のようになる。
101、オーディオデータを取得する。
例えば、具体的に、モバイル端末に内蔵されるMICモジュールのようなMICによって当該オーディオデータを採集することができる。
その中、当該オーディオデータは、様々な形態の音声から変換されたデータを含むことができ、当該音声の種類は限定されず、例えば、話す声、動物の音、物体をたたく音、及び/又は音楽などであってもよい。
102、DSPによって当該オーディオデータに対してファジー音声認識を実行する。
その中、ファジー音声認識方法は複数あり、例えば、ファジークラスタリング解析を使用して当該オーディオデータに対して音声認識を実行してもよく、或いは、ファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識を実行してもよい。即ち、「DSPによって当該オーディオデータに対してファジー音声認識を実行する」ステップは具体的に次のようになる。
(1)DSPによって、ファジークラスタリング解析を使用して当該オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得る。
例えば、具体的に、ファジークラスタリング解析に従ってファジークラスタリングニューラルネットワークを確立し、当該ファジークラスタリングニューラルネットワークを確率密度関数の推定器として使用し、当該オーディオデータにウェイクアップワードが含まれる確率を予測し、予測結果が確率が設定値以上であることを示している場合、ウェイクアップワードが存在することを示しているファジー音声認識結果を生成し、さもなければ、予測結果が確率が設定値よりも小さいことを示している場合、ウェイクアップワードが存在しないことを示しているファジー音声認識結果を生成する。
その中、ファジークラスタリング解析は一般に、研究オブジェクト自体の属性に基づいてファジーマトリックスを構築し、これに基づいて、一定のメンバーシップに従ってクラスタリング関係を確定し、即ち、ファジー数学の方法を使用してサンプル間のファジー関係を定量的に確定することによって、クラスタリングを客観的且つ正確に実行できる。クラスタリングとは、データセットを複数のクラス又はクラスターに分割することによって、各クラス間のデータの差をできるだけ大きくし、クラス内のデータの差をできるだけ小さくすることである。
その中、当該設定値は、実際の応用のニーズに応じて設定することができ、ここで詳しく説明しない。
(2)DSPによって、ファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得る。
例えば、具体的に、ウェイクアップワードの読み方の特徴マップを取得して、標準の特徴マップを取得し、当該オーディオデータにおける各ワードの読み方の特徴マップを解析して、マッチング候補特徴マップを取得し、その後、予め設定されたメンバーシップ関数に従って各マッチング候補特徴マップが標準の特徴マップに属する度合いのグレードを計算し、当該度合いのグレードがプリセット値以上である場合、ウェイクアップワードが存在することを示しているファジー音声認識結果を生成し、さもなければ、当該度合いのグレードがプリセット値よりも小さい場合、ウェイクアップワードが存在しないことを示しているファジー音声認識結果を生成することができる。
その中、当該メンバーシップ関数とプリセット値は、実際の応用のニーズに応じて設定することができ、ここで詳しく説明しない。
任意選択で、音声認識の精度を向上させるために、DSPによって当該オーディオデータに対してファジー音声認識を実行する前に、当該オーディオデータに対してノイズリダクション及び/又はエコーキャンセルなどのフィルタリング処理を実行してもよく、即ち、図1dに示すように、「DSPによって当該オーディオデータに対してファジー音声認識を実行する」ステップの前に、当該音声認識方法は、
当該オーディオデータに対してノイズリダクション及び/又はエコーキャンセル処理を実行して、処理されたオーディオデータを取得することを含んでもよい。
この場合、「DSPによって当該オーディオデータに対してファジー音声認識を実行する」ステップは具体的に、処理されたオーディオデータに対してDSPによってファジー音声認識を実行することであってもよい。
103、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、DSPによってスリープ状態にあるCPUをウェイクアップし、即ち、DSPによってCPUの実行プログラムを起動し、例えば、具体的に、CPUにおける録音とオーディオデータに関連する実行プログラムを起動することができる。
その中、ウェイクアップワードは、1つであってもよいし、複数であってもよく、当該ウェイクアップワードは具体的に、実際の応用のニーズに応じて予め設定することができる。例えば、当該ウェイクアップワードに「電話する」と「情報を送る」が含まれることを例として、ファジー音声認識結果が当該オーディオデータに「電話する」又は「情報を送る」というワードが存在することを示している場合、DSPによってCPUをウェイクアップし、これによって類推する。
「DSPによってスリープ状態にあるCPUをウェイクアップする」ステップの後に、当該音声認識方法は、
CPUによって当該オーディオデータに対して意味解析を実行し、解析結果に従って対応する操作を実行することをさらに含んでもよい。
例えば、具体的に、解析結果に従って操作対象と操作内容を決定し、その後、当該操作対象に対して当該操作内容を実行することができる。
DSPのリソースが限られ、音声認識の精度が高くないため、さらに認識の精度を向上し、誤ったウェイクアップの状況の発生を回避するために、任意選択で、CPUによって当該オーディオデータに対して意味解析を実行する前、CPUによって当該オーディオデータをさらに認識してもよく、即ち、「CPUによって当該オーディオデータに対して意味解析を実行する」ステップの前に、当該音声認識方法は、
DSPから当該オーディオデータのうちウェイクアップワードが含まれるデータを読み取って、ウェイクアップデータを取得し、当該CPUによって当該ウェイクアップデータに対して音声認識を実行し、当該音声認識結果がウェイクアップワードが存在することを示している場合、CPUによって当該オーディオデータに対して意味解析を実行するステップを実行し、さもなければ、音声認識結果がウェイクアップワードが存在しないことを示している場合、CPUをスリープに設定し、オーディオデータを取得するステップ(即ち、ステップ101)に戻ることをさらに含んでもよい。
任意選択で、消費電力を節約するために、CPUがウェイクアップされる場合、全てのコアを起動せず、シングルコアと低周波数を使用して演算処理を実行することができ、即ち、「当該CPUによって当該ウェイクアップデータに対して音声認識を実行する」ステップは、
当該CPUの動作状態をシングルコアで低周波数に設定して、CPUが当該動作状態で当該ウェイクアップデータに対して音声認識を実行することを含んでもよい。
その中、説明の便宜上、本発明の実施例では、このような「シングルコアで低周波数」である動作状態は第1状態と呼ばれ、即ち、CPUは当該第1状態で、当該ウェイクアップデータに対して音声認識を実行することができる。
任意選択で、処理効率を向上させるために、CPUによってウェイクアップワードが存在すると確定される場合、コアの数を増やし、クロック周波数を高めることによって、当該オーディオデータに対して意味解析を実行することができ、即ち、「CPUによって当該オーディオデータに対して意味解析を実行する」ステップは、
当該CPUの動作状態をマルチコアで高周波数に設定し、当該動作状態で、CPUによって当該オーディオデータに対して意味解析を実行することを含んでもよい。
その中、説明の便宜上、本発明の実施例では、当該「マルチコアで高周波数」である動作状態は第2状態と呼ばれ、即ち、当該CPUの動作状態を第2状態に設定し、当該第2状態で、当該オーディオデータに対して意味解析を実行することができる。
なお、本発明の実施例では、マルチコアとは、プロセッサーに集積された2つ以上の完全なコンピューティングエンジン(カーネル)を意味し、低周波数とは、クロック周波数がプリセット周波数よりも低いことを意味し、高周波数とは、クロック周波数がプリセット周波数以上であることを意味し、その中、当該プリセット周波数が実際の応用のニーズに応じて設定することができ、ここで詳しく説明しない。
任意選択で、消費電力の消耗と処理効率とのバランスをよりよく取得するように処理の柔軟性を向上させるために、具体的な音声シーンに応じてCPUの動作コア数とクロック周波数の大きさを調整してもよく、即ち、「CPUによって当該オーディオデータに対して意味解析を実行する」ステップは、
当該オーディオデータ対応するウェイクアップワードに従ってセマンティックシーンを決定し、セマンティックシーンに従ってCPUの動作コア数とクロック周波数の大きさを決定し、当該動作コア数とクロック周波数の大きさに従ってCPUの動作状態を設定して、第3の状態を取得し、当該第3の状態で、当該オーディオデータに対して意味解析を実行することを含むことができる。
例えば、「電話する」セマンティックシーンでは、少ない動作コア数とクロック周波数の大きさを使用して、当該オーディオデータに対して意味解析を実行し、「検索」のセマンティックシーンでは、多い動作コア数とクロック周波数の大きさを使用して、当該オーディオデータに対して意味解析を実行することができる。
以上のように、本実施例は、オーディオデータを取得した後、DSPによって当該オーディオデータに対してファジー音声認識を実行することができ、ウェイクアップワードが存在すると確定される場合にのみ、スリープ状態にあるCPUを、当該DSPによってウェイクアップし、当該CPUは、当該オーディオデータに対して意味解析を実行することができる。この解決策は、動作消費電力の高いCPUの代わりに、動作消費電力の低いDSPを使用して、オーディオデータを監視するため、CPUは、常にウェイクアップ状態である必要はなく、スリープ状態にすることができ、必要な場合にのみウェイクアップされる。従って、外部電源又は物理ボタンによってウェイクアップされる既存の解決策と比べると、当該解決策は、モビリティと音声ウェイクアップ機能を維持しながら、システムの消費電力を大幅に削減することができ、これにより、モバイル端末の待機時間を延長し、モバイル端末のパフォーマンスを改善する。
実施例二、
実施例一で説明した方法に従って、以下、例を示してさらに詳細に説明する。
本実施例では、当該音声認識装置が具体的にモバイル端末に集積されることを例として説明する。
図2aに示すように、音声認識方法は、具体的な手順は次のようになる。
201、モバイル端末は、MICによって当該オーディオデータを採集する。
その中、当該MICは当該モバイル端末から独立してもよいし、当該モバイル端末に内蔵されてもよい。当該オーディオデータには、様々な形式の音声から変換されたデータが含まれ、当該音声の種類は限定されず、例えば、話す音声、動作の音、物体をたたく音、及び/又は音楽などである。
202、モバイル端末はDSPによって当該オーディオデータに対してファジー音声認識を実行し、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、ステップ203を実行し、さもなければ、ファジー音声認識結果がウェイクアップワードが存在しないことを示している場合、ステップ201に戻る。
その中、ウェイクアップワードは1つであってもよいし、複数であってもよく、当該ウェイクアップワードは具体的に、実際の応用のニーズに応じて予め設定することができ、例えば、「電話する」、「情報を送る」、「*は誰」、「誰は*」、「*は何」、及び/又は「何は*」などであってもよく、その中、「*」は、任意の名詞例えば、「張三が誰」、「誰が李四」、又は「Javaは何」などであってもよく、これによって類推する。
その中、当該DSPは、例えば、図1aに示すように、当該モバイル端末のコーデック(即ち、Codec)に設定することができる。当該コーデックは、オーディオデータに対して圧縮及び圧縮解除(即ち、エンコード及びデコード)することができ、MICがオーディオデータを採集した後、当該オーディオデータをコーデックに送信して、圧縮及び/又は圧縮解除などの処理を実行し、その後、DSPに送信してファジー音声認識を実行する。その中、ファジー音声認識方法は複数あり、例えば、ファジークラスタリング解析を使用して当該オーディオデータに対して音声認識を実行してもよく、或いは、ファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識を実行してもよく、例えば、具体的に次のようになる。
(1)モバイル端末はDSPによって、ファジークラスタリング解析を使用して当該オーディオデータに対して音声認識を実行して、ファジー音声認識結果を取得する。
例えば、DSPは具体的に、ファジークラスタリング解析に従ってファジークラスタリングニューラルネットワークを確立し、その後、当該ファジークラスタリングニューラルネットワークを確率密度関数の推定器として使用し、当該オーディオデータにウェイクアップワードが含まれる確率を予測し、予測結果が確率が設定値以上であることを示している場合、ウェイクアップワードが存在することを示しているファジー音声認識結果を生成し、さもなければ、予測結果が確率が設定値よりも小さいことを示している場合、ウェイクアップワードが存在しないことを示しているファジー音声認識結果を生成することができる。
その中、当該設定値は実際の適用のニーズに応じて設定することができ、ここで詳しく説明しない。
(2)モバイル端末はDSPによって、ファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得る。
例えば、DSPは具体的に、ウェイクアップワードの読み方の特徴マップを取得して、標準の特徴マップを取得し、当該オーディオデータにおける各ワードの読み方の特徴マップを解析して、マッチング候補特徴マップを取得し、その後、予め設定されたメンバーシップ関数に従って、各マッチング候補特徴マップが標準の特徴マップに属する度合いのグレードを計算し、当該度合いのグレードがプリセット値以上である場合、ウェイクアップワードが存在することを示しているファジー音声認識結果を生成し、さもなければ、当該度合いのグレードがプリセット値よりも小さい場合、ウェイクアップワードが存在しないことを示しているファジー音声認識結果を生成することができる。
その中、当該メンバーシップ関数とプリセット値は実際の応用のニーズに応じて設定することができ、また、マッチング候補特徴マップが標準の特徴マップに属する程度は、メンバーシップの度合によって表すことができ、メンバーシップの度合が1に近いほど、当該マッチング候補特徴マップが標準の特徴マップに属する程度が高くなることを表し、メンバーシップの度合が0に近いほど、当該マッチング候補特徴マップが標準の特徴マップに属する程度が低くなることを表し、ここで詳しく説明しない。
任意選択で、音声認識の精度を向上させるために、DSPによって当該オーディオデータに対してファジー音声認識を実行する前に、当該オーディオデータに対してノイズリダクション及び/又はエコーキャンセルなどのフィルタリング処理を実行してもよく、即ち、図2bに示すように、「モバイル端末がDSPによって当該オーディオデータに対してファジー音声認識を実行する」ステップの前に、当該音声認識方法は、
モバイル端末が当該オーディオデータに対してノイズリダクション及び/又はエコーキャンセル処理を実行して、処理されたオーディオデータを取得することを含んでもよい。
この場合、「モバイル端末がDSPによって当該オーディオデータに対してファジー音声認識を実行する」ステップは具体的に、モバイル端末が処理されたオーディオデータに対してDSPによってファジー音声認識を実行することであってもよい。
203、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、DSPによってスリープ状態にあるCPUをウェイクアップする。
例えば、具体的に、DSPによって、CPUの実行プログラムを起動し、例えば、具体的に、CPUにおける録音とオーディオデータに関連する実行プログラムなどを起動することができる。
例えば、「電話する」と「情報を送る」を含む当該ウェイクアップワードを例にとると、ファジー音声認識結果が当該オーディオデータに「電話する」又は「情報を送る」というワードが存在することを示している場合、DSPによってCPUをウェイクアップすることができ、これによって類推する。
204、モバイル端末は、DSPによって当該オーディオデータのうちウェイクアップワードが含まれるデータを読み取って、ウェイクアップデータを取得する。
例えば、「電話する」というウェイクアップワードを例にとると、DSPがあるセグメントのオーディオデータに対して音声認識を実行する場合、Aセグメントのデータに「電話する」ウェイクアップワードがあると確定すると、モバイル端末は、Aセグメントのデータを読み取って、Aセグメントのデータをウェイクアップデータとして使用することができる。
また、例えば、「情報を送る」ウェイクアップワードを例にとると、DSPがあるセグメントのオーディオデータに対して音声認識を実行する場合、Bセグメントのデータに「情報を送る」ウェイクアップワードが存在すると確定すると、モバイル端末はBセグメントのデータを読み取って、当該Bセグメントのデータをウェイクアップデータとして使用することができ、これによって類推する。
205、モバイル端末は、当該CPUによって、当該ウェイクアップデータに対して音声認識を行い、音声認識結果がウェイクアップワードが存在することを示している場合、ステップ206を実行し、さもなければ、音声認識結果がウェイクアップワードが存在しないことを示している場合、CPUをスリープに設定し、オーディオデータを取得するステップ(即ちステップ201)に戻る。
例えば、具体的に、図2bを参照して、オーディオデータに対して音声認識を実行する操作を実行するようにDSPに通知することができる。
任意選択で、消費電力を節約するために、CPUはウェイクアップされる場合、全てのコアを起動せず、シングルコアと低周波数を使用して運算処理を実行することができ、即ち、「当該CPUによって当該ウェイクアップデータに対して音声認識を実行する」ステップは、
当該CPUの動作状態を第1状態に設定し、即ち、シングルコアで低周波数に設定し、CPUが当該第1状態で当該ウェイクアップデータに対して音声認識を実行することを含むことができる。
ステップ204と205は選択可能なステップである。
206、モバイル端末は、CPUによって、当該オーディオデータに対して意味解析を実行する。
例えば、具体的に、当該CPUの動作状態を第2状態に設定し、即ち、マルチコアで高周波数に設定し、当該第2状態で、CPUによって当該オーディオデータに対して意味解析を実行することができる。
任意選択で、消費電力の消耗と処理効率とのバランスをよりよく取得するように処理の柔軟性を向上させるために、具体的な音声シーンに応じてCPUの動作コア数とクロック周波数の大きさを調整してもよく、例えば、モバイル端末は、当該オーディオデータに対応するウェイクアップワードに従ってセマンティックシーンを決定し、その後、セマンティックシーンに従ってCPUの動作コア数とクロック周波数の大きさを決定し、当該動作コア数とクロック周波数の大きさに従ってCPUの動作状態を設定し(即ち第3の状態)、当該動作状態で、当該オーディオデータに対して意味解析を実行することができる。
例えば、「電話する」に対応するセマンティックシーンでは、CPUの動作コア数がシングルコアであり、クロック周波数の大きさがXmhzである必要があり、「情報を送る」に対応するセマンティックシーンでは、CPUの動作コア数がシングルコアであり、クロック周波数の大きさがYmhzである必要があり、「検索」に対応するセマンティックシーンでは、CPUの動作コア数がデュアルコアであり、クロック周波数の大きさがZmhzである必要があり、具体的に次のようになる。
ウェイクアップワードが「電話する」の場合、CPUの動作コア数をシングルコアに設定し、クロック周波数の大きさをXmhzに設定し、その後、当該動作状態で、CPUによって当該オーディオデータに対して意味解析を実行することができる。
ウェイクアップワードが「情報を送る」の場合、CPUの動作コア数をシングルコアに設定し、クロック周波数の大きさをYmhzに設定し、その後、当該動作状態で、CPUによって当該オーディオデータに対して意味解析を実行することができる。
ウェイクアップワードが「検索」の場合、CPUの動作コア数をデュアルコアに設定し、クロック周波数の大きさをZmhzに設定し、その後、当該動作状態で、CPUによって当該オーディオデータに対して意味解析を実行することができる。
これによって類推する。
なお、CPUはウェイクアップされた後、図2bに示すように、モバイル端末はMICによって他のオーディオデータを続けて採集し、ウェイクアップされたCPUによって意味解析を実行し、解析結果に従って対応する操作を実行してもよく、その中、意味解析方法と「解析結果に従って対応する操作を実行する」方法は具体的にステップ206と207を参照することができ、ここで詳しく説明しない。
207、モバイル端末は解析結果に従って対応する操作を実行する。
例えば、解析結果に従って操作対象と操作内容を決定し、その後、CPUによって当該操作対象に対して当該操作内容を実行するなどする。
例えば、「張三に電話する」を例にとると、モバイル端末は、操作対象が「アドレス帳における張三の電話番号」であり、操作内容が「電話番号にダイヤルする」であると確定することができるため、この場合、CPUによってアドレス帳における張三の電話番号にダイヤルすることができ、「張三に電話する」タスクを完了する。
また、例えば、「詩を検索する」を例にとると、モバイル端末は、操作対象が「検索エンジンアプリケーション」であり、操作内容が「検索エンジンアプリケーションによってキーワード「詩」を検索する」であると確定することができるため、この場合、当該モバイル端末における検索エンジンアプリケーションを起動し、検索エンジンアプリケーションによってキーワード「詩」を検索することができ、「詩を検索する」タスクを完了し、これによって類推する。
以上のように、本実施例は、オーディオデータを取得した後、DSPによって、当該オーディオデータに対してファジー音声認識を実行することができ、ウェイクアップワードが存在すると確定される場合にのみスリープ状態にあるCPUを当該DSPによってウェイクアップし、CPUによって、シングルコアで低周波数である動作状態を使用して、ウェイクアップワードが存在するかどうかを再度確認し、ウェイクアップワードが存在しないとCPUによって確定される場合、CPUはスリープ状態に切り替えられ、DSPによって続けて監視し、ウェイクアップワードが存在するとCPUによって確定される場合にのみ、CPUによって、当該オーディオデータに対して意味解析を実行し、その後、解析結果に従って対応する操作を実行する。この解決策は、動作消費電力の高いCPUの代わりに、動作消費電力の低いDSPを使用して、オーディオデータを監視するため、CPUは、常にウェイクアップ状態である必要はなく、スリープ状態にすることができ、必要な場合にのみウェイクアップされ、従って、外部電源又は物理ボタンによってウェイクアップされる既存の解決策と比べると、当該解決策は、モビリティと音声ウェイクアップ機能を維持しながら、システムの消費電力を大幅に削減することができ、これにより、モバイル端末の待機時間を延長し、モバイル端末のパフォーマンスを改善する。
また、当該解決策は、DSPによってウェイクアップワードを認識することができる他、CPUによってウェイクアップワードを再度認識してもよいため、認識の精度が高く、そして、CPUはウェイクアップワードを認識する際に、低消費電力の動作状態(例えばシングルコアと低周波数)を使用して、ウェイクアップワードが存在すると確定される場合にのみ、CPUは高消費電力の動作状態を使用して意味解析を実行するため、リソースの利用はより合理で有效であり、モバイル端末のパフォーマンスをさらに改善するのに有利である。
実施例三、
上記の方法をよりよく実施するために、本発明の実施例は音声認識装置をさらに提供し、当該音声認識装置は具体的に、例えば携帯電話、ウェアラブルインテリジェント装置、タブレットコンピュータ、及び/又はノートブックコンピューターなどのモバイル端末の装置に内蔵できる。
例えば、図3aを参照し、当該音声認識装置は、取得ユニット301、ファジー認識ユニット302、ウェイクアップユニット303を含むことができ、次のようになる。
(1)取得ユニット301
取得ユニット301は、オーディオデータを取得する。
例えば、取得ユニット301は、具体的に、モバイル端末に内蔵されるMICモジュールのようなMICによって当該オーディオデータを採集する。
(2)ファジー認識ユニット302
ファジー認識ユニット302は、DSPによって当該オーディオデータに対してファジー音声認識を実行する。
その中、ファジー音声認識方法は複数あり、例えば、ファジークラスタリング解析を使用して当該オーディオデータに対して音声認識を実行してもよく、或いは、ファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識を実行してもよい。
第1の方法:
ファジー認識ユニット302は、具体的に、DSPによって、ファジークラスタリング解析を使用して当該オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得る。
例えば、該ファジー認識ユニット302は、具体的に、ファジークラスタリング解析に従ってファジークラスタリングニューラルネットワークを確立し、当該ファジークラスタリングニューラルネットワークを確率密度関数の推定器として使用し、当該オーディオデータにウェイクアップワードが含まれる確率を予測し、予測結果が確率が設定値以上であることを示している場合、ウェイクアップワードが存在することを示しているファジー音声認識結果を生成し、予測結果が確率が設定値よりも小さいことを示している場合、ウェイクアップワードが存在しないことを示しているファジー音声認識結果を生成する。
その中、当該設定値は実際の応用のニーズに従って設定することができ、ここで詳しく説明しない。
第2の方法:
ファジー認識ユニット302は、具体的に、DSPによって、ファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識を実行し、ファジー音声認識結果を得る。
例えば、当該ファジー認識ユニット302は、具体的に、ウェイクアップワードの読み方の特徴マップを取得し、標準の特徴マップを取得し、当該オーディオデータのうち各ワードの読み方の特徴マップを解析し、マッチング候補特徴マップを取得し、予め設定されたメンバーシップ関数に従って各マッチング候補特徴マップが標準特徴マップに属する度合いのグレードを計算し、当該度合いのグレードがプリセット値以上である場合、ウェイクアップワードが存在することを示しているファジー音声認識結果を生成し、当該度合いのグレードがプリセット値よりも小さい場合、ウェイクアップワードが存在しないことを示しているファジー音声認識結果を生成する。
その中、当該メンバーシップ関数とプリセット値は実際の応用のニーズに応じて設定することができ、ここで詳しく説明しない。
いくつかの実現形態では、図3bに示すように、前記音声認識装置は処理ユニット304を含んでもよい。
前記処理ユニット304は、CPUによって当該オーディオデータに対して意味解析を実行し、解析結果に従って対応する操作を実行する。
例えば、処理ユニット304は、具体的に、CPUによって当該オーディオデータに対して意味解析を実行し、解析結果に従って操作対象と操作内容を決定し、その後、当該操作対象に対して当該操作内容を実行するなど。
任意選択で、音声認識の精度を向上させるために、ファジー認識ユニット302は当該オーディオデータに対してファジー音声認識を実行する前に、当該オーディオデータに対してノイズリダクション及び/又はエコーキャンセルなどのフィルタリング処理を実行してもよく、即ち、図3cに示すように、当該音声認識装置は次のようなフィルタリングユニット305を含んでもよい。
フィルタリングユニット305は、当該オーディオデータに対してノイズリダクション及び/又はエコーキャンセル処理を実行する。
この場合、ファジー認識ユニット302は、具体的に、フィルタリングユニット305によって処理されたオーディオデータに対してファジー音声認識を実行する。
(3)ウェイクアップユニット303
ウェイクアップユニット303は、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、スリープ状態にあるCPUをウェイクアップする。
その中、ウェイクアップワードは1つであってもよいし、複数であってもよく、当該ウェイクアップワードは具体的に、実際の応用のニーズに応じて予め設定することができ、ここで詳しく説明しない。任意選択で、認識の精度をさらに向上させ、誤ったウェイクアップの状況の発生を回避するために、処理ユニット304は、CPUによって当該オーディオデータに対して意味解析を実行する前に、当該オーディオデータをさらに認識してもよく、即ち、図3cに示すように、当該音声認識装置は、次のような精確認識ユニット306を含んでもよい。
当該精確認識ユニット306は、DSPから当該オーディオデータのうちウェイクアップワードを含むデータを読み取って、ウェイクアップデータを取得し、当該CPUによって当該ウェイクアップデータに対して音声認識を実行し、音声認識結果がウェイクアップワードが存在していることを示す場合、CPUによって当該オーディオデータに対して意味解析を実行する操作を実行するように処理ユニット304をトリガーし、音声認識結果がウェイクアップワードが存在しないことを示している場合、CPUをスリープに設定し、オーディオデータを取得する操作を実行するように取得ユニットをトリガーする。
任意選択で、消費電力を節約するために、CPUはウェイクアップされる場合、全てのコアを起動せず、シングルコアと低周波数を使用して演算処理を行うことができる。
当該精確認識ユニット306は、具体的に、当該CPUの動作状態を第1状態に設定し、当該第1状態で、当該ウェイクアップデータに対して音声認識を実行することができ、その中、当該第1状態はシングルコアで低周波数である。
任意選択で、処理効率を向上させるために、CPUによってウェイクアップワードが存在すると確定される場合、コアの数を増やし、クロック周波数を高めることによって、当該オーディオデータに対して意味解析を実行することができる。
当該処理ユニット304は、具体的に、当該CPUの動作状態を第2状態に設定し、当該第2状態で、当該オーディオデータに対して意味解析を実行することができ、その中、当該第2状態はマルチコアで高周波数である。
任意選択で、消費電力の消耗と処理効率とのバランスをよりよく取得するように処理の柔軟性を向上させるために、具体的な音声シーンに応じてCPUの動作コア数とクロック周波数の大きさを調整してもよい。
当該処理ユニット304は、具体的に、当該オーディオデータに対応するウェイクアップワードに従ってセマンティックシーンを決定し、セマンティックシーンに従って、CPUの動作コア数とクロック周波数の大きさを決定し、当該動作コア数とクロック周波数の大きさに従ってCPUの動作状態を設定して、第3の状態を取得し、当該第3の状態で、当該オーディオデータに対して意味解析を実行することができる。
具体的な実施の際に、以上の各ユニットは別個のエンティティとして実現してもよく、任意に組み合わせて、同じ又は複数のエンティティとして実現してもよく、以上の各ユニットの具体的な実施は前記の方法を参照して実施することができ、ここで詳しく説明しない。
上記のように、本実施例に係る音声認識装置は、取得ユニット301によってオーディオデータが取得された後、ファジー認識ユニット302によって当該オーディオデータに対してファジー音声認識を実行することができ、ウェイクアップワードが存在すると確定される場合にのみ、スリープ状態にあるCPUをウェイクアップユニット303によってウェイクアップし、当該CPUは、当該オーディオデータに対して意味解析を実行することができる。この解決策は動作消費電力の高いCPUの代わりに、動作消費電力の低いDSPを使用して、オーディオデータを監視するため、CPUは、常にウェイクアップ状態である必要はなく、スリープ状態にすることができ、必要な場合にのみウェイクアップされ、従って、外部電源又は物理ボタンによってウェイクアップされる既存の解決策と比べると、当該解決策は、モビリティと音声ウェイクアップ機能を維持しながら、システムの消費電力を大幅に削減することができ、これにより、モバイル端末の待機時間を延長し、モバイル端末のパフォーマンスを改善する。
実施例四、
それに対応して、本発明の実施例は、モバイル端末をさらに提供し、図4に示すように、当該モバイル端末は無線周波数(RF、Radio Frequency)回路401、1つまたは複数のコンピュータ可読記憶媒体が含まれるメモリ402、入力ユニット403、表示ユニット404、センサー405、オーディオ回路406、ワイヤレスフィデリティ(WiFi、Wireless Fidelity)モジュール407、1つまたは複数の処理コアが含まれるプロセッサー408、及び電源409などの部材を含むことができる。当業者は、図4に示されるモバイル端末の構造がモバイル端末に対する制限を構成せず、図示よりも多い又は少ない部材を含んでもよく、又はいくつかの部材を組み合わせてもよく、又は異なる部材を配置してもよいことを理解することができる。
RF回路401は、情報の送受信又は通話中に、信号の受信及び送信に使用でき、特に、基地局のダウンリンク情報を受信した後、1つまたは複数のプロセッサー408に渡して処理させ、また、アップリンクに関するデータを基地局に送信する。通常、RF回路401はアンテナ、少なくとも1つの増幅器、チューナー、1つ又は複数の発振器、加入者認識モジュール(SIM、Subscriber Identity Module)カード、トランシーバー、カプラー、低雑音増幅器(LNA、Low Noise Amplifier)、デュプレクサなどを含むことができるがこれらに限定されない。また、RF回路401は、無線通信によってネットワーク及び他の装置と通信することができる。前記無線通信は、任意の通信規格又はプロトコルを使用することができ、グローバルモバイルシステムオブシステム(GSM、Global System of Mobile communication)、汎用パケット無線サービス(GPRS、General Packet Radio Service)、符号分割多元接続(CDMA、Code Division Multiple Access)、広帯域符号分割多元接続(WCDMA、Wideband Code Division Multiple Access)、ロングタームエボリューション(LTE、Long Term Evolution)、電子メール、ショートメッセージサービス(SMS、Short Messaging Service)などを含むことができるがこれらに限定されない。
メモリ402は、ソフトウェアプログラム及びモジュールを記憶するために使用されてもよく、プロセッサー408は、メモリ402に記憶されるソフトウェアプログラム及びモジュールを実行することによって、様々な機能アプリケーション及びデータ処理を実行することができる。メモリ402は主にプログラム記憶領域とデータ記憶領域を含み、その中、プログラム記憶領域はオペレーティングシステム、少なくとも1つ機能に必要なアプリケーションプログラム(例えば、音声再生機能、画像再生機能など)などを含むことができ、データ記憶領域はモバイル端末の使用に応じて作成されたデータ(例えばオーディオデータ、電話帳など)などを記憶することができる。また、メモリ402は高速ランダムアクセスメモリを含んでもよいし、例えば少なくとも1つ磁気ディスク記憶装置などの不揮発性メモリ、フラッシュ記憶装置、他の揮発性固体記憶装置を含んでもよい。これに対応して、メモリ402は、プロセッサー408及び入力ユニット403のメモリ402へのアクセスを提供するために、メモリコントローラーをさらに含むことができる。
入力ユニット403は、入力された数値又は文字情報を受け取り、ユーザー設定及び機能制御に関するキーボード、マウス、ジョイスティック、光学或者トラックボール信号入力を生成するために使用できる。具体的に、一つの具体的な実施例では、入力ユニット403は、タッチ感知面及び他の入力装置を含むことができる。タッチ感知面は、タッチディスプレイ又はタッチパッドとも呼ばれ、ユーザーのその上又は付近でのユーザーのタッチ操作(例えば、タッチ感知面又はタッチ感知面の付近での指、スタイラスなどの任意の適切な物体又はアクセサリを使用するユーザーの操作)を収集し、予め設定されたプログラムに従って対応する接続装置を駆動することができる。任意選択で、タッチ感知面はタッチ検出装置とタッチコントローラーとの2つの部分を含むことができる。その中、タッチ検出装置はユーザーのタッチ位置を検出し、タッチ操作による信号を検出し、信号をタッチコントローラーに送信し、タッチコントローラーはタッチ検出装置からタッチ情報を受信して、接触点座標に変換して、プロセッサー408に送信し、また、プロセッサー408から送信された命令を受信して実行することができる。また、抵抗性、容量性、赤外線、弾性表面波などの様々なタイプを使用してタッチ感知面を実現することができる。タッチ感知面に加えて、入力ユニット403は他の入力装置を含んでもよい。具体的に、他の入力装置は、物理キーボード、ファンクションキー(例えば、ボリュームコントロールキー、スイッチキーなど)、トラックボール、マウス、ジョイスティックなどの1つまたは複数を含むことができるが、これらに限定されない。
表示ユニット404は、ユーザーによって入力された情報、又は、ユーザーに提供される情報及びモバイル端末の様々なグラフィカルユーザインターフェースを表示することができ、これらのグラフィカルユーザインターフェースは、グラフィック、テキスト、アイコン、ビデオ、及びそれらの任意の組み合わせによって構成できる。表示ユニット404は表示パネルを含むことができ、任意選択で、液晶ディスプレイ(LCD、Liquid Crystal Display)、有機発光ダイオード(OLED、Organic Light-Emitting Diode)などの形式を使用して表示パネルを配置することができる。さらに、タッチ感知面は、表示パネルをカバーすることができ、タッチ感知面は、その上又は付近でのタッチ操作を検出した後、それをプロセッサー408に送信してタッチイベントのタイプを確定し、その後、プロセッサー408はタッチイベントのタイプに従って、表示パネルで対応する視覚的出力を提供する。図4では、タッチ感知面と表示パネルは入力と入力機能を実現するための2つの別個の部材として使用されるが、いくつかの実施例では、タッチ感知面と表示パネルを集積して入出力機能を実現することができる。
モバイル端末は、例えば光センサー、モーションセンサー及び他のセンサーなどの少なくとも1つのセンサー405をさらに含むことができる。具体的に、光センサーは、周囲光センサー及び近接センサーを含むことができ、その中、周囲光センサーは周囲光の明さに従って表示パネルの輝度を調整することができ、近接センサーは、モバイル端末が耳の辺りに移動した場合、表示パネル及び/又はバックライトを閉じる。モーションセンサーの1つである重力加速度センサーは、各方向における(通常は3軸)加速度の大きさを検出することができ、静止時に重力の大きさと方向を検出することができ、携帯電話の姿勢を認識するアプリケーション(例えば水平および垂直画面切り替え、関連ゲーム、磁力計の姿勢較正)、振動認識関連機能(例えば歩数計、タップ)などに使用でき、モバイル端末にさらに配置可能なジャイロスコープ、気圧計、湿度計、温度計、赤外線センサーなどの他のセンサーについて、ここで詳しく説明しない。
オーディオ回路406、スピーカー、マイクフォンはユーザーとモバイル端末との間のオーディオインタフェースを提供することができる。オーディオ回路406は、受信したオーディオデータから変換された電気信号を、スピーカーに伝送し、スピーカーによって音声信号に変換して出力し、一方、マイクフォンは、收集した音声信号を電気信号に変換し、オーディオ回路406によって受信された後にオーディオデータに変換し、さらにオーディオデータをプロセッサー408に出力して処理した後、RF回路401を介して例えば別のモバイル端末に送信するか、又は、オーディオデータをメモリ402に出力して、さらに処理する。オーディオ回路406は、周辺ヘッドフォンとモバイル端末との通信を提供するように、イヤホンジャックをさらに含むことができる。
WiFiは、短距離無線伝送技術に属し、モバイル端末は、WiFiモジュール407によって、ユーザーが電子メールを送受信したり、ウェブサイトを閲覧したり、ストリーミングメディアにアクセスしたりすることを可能にし、ユーザーにワイヤレスブロードバンドインターネットアクセスを提供する。図4にWiFiモジュール407を示したが、それはモバイル端末の必須な構成に属しておらず、本発明の本質を変更することなく必要に応じて省略できる。
プロセッサー408は、モバイル端末の制御センターであり、様々なインタフェースと回線を使用して携帯電話全体の各部分を接続し、メモリ402内に記憶されたソフトウェアプログラム及び/又はモジュールを実行し、メモリ402内に記憶されたデータを呼び出して、モバイル端末の様々な機能と処理データを実行することによって、携帯電話の全体監視を実行することができる。任意選択で、プロセッサー408は1つまたは複数の処理コアを含むことができ、好ましくは、プロセッサー408は、アプリケーションプロセッサーとモデムプロセッサーを集積することができ、その中、アプリケーションプロセッサーは主にオペレーティングシステム、ユーザーインタフェース及びアプリケーションプログラムなどを扱い、モデムプロセッサーは主に無線通信を扱う。上記のモデムプロセッサーがプロセッサー408に集積されなくてもよいことは理解できる。
モバイル端末は、各部材に電力を供給する電源409(例えばバッテリー)をさらに含み、好ましくは、電源は、電力管理システムを介してプロセッサー408に論理的に接続され、それによって、電力管理システムによって、充放電の管理、及び消費電力の管理などの機能を実現することができる。電源409は、1つまたは複数の直流又は交流電源、再充電システム、電源故障検出回路、電力変換器又はインバーター、電力状態インジケータなどの任意のコンポーネントを含んでもよい。
図示していないが、モバイル端末は、カメラ、ブルートゥースモジュールなどを含んでもよく、ここで詳しく説明しない。具体的に、本実施例では、モバイル端末におけるプロセッサー408は次のような指令に従って、1つまたは複数のアプリケーションプログラムのプロセスに対応する実行可能なファイルをメモリ402にロードし、プロセッサー408によって、メモリ402に記憶されるアプリケーションプログラムを実行することで、様々な機能を実行する。
オーディオデータを取得し、DSPによって当該オーディオデータに対してファジー音声認識を実行し、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、DSPによって、スリープ状態にあるCPUをウェイクアップし、当該CPUは当該オーディオデータに対して意味解析を実行する。
CPUがウェイクアップされた後、CPUは、当該オーディオデータに対して意味解析を実行し、解析結果に従って対応する操作を実行することができる。
例えば、具体的に、ファジークラスタリング解析又はファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識などを実行することができ、具体的に、前記の実施例を参照することができ、ここで再度説明しない。
任意選択で、音声認識の精度を向上させるために、DSPによって当該オーディオデータに対してファジー音声認識を実行する前に、当該オーディオデータに対してノイズリダクション及び/又はエコーキャンセルなどのフィルタリング処理を実行してもよく、即ち、プロセッサー408は、メモリ402に記憶されたアプリケーションプログラムを実行することによって、以下の機能を実現してもよい。
当該オーディオデータに対してノイズリダクション及び/又はエコーキャンセル処理を実行して、処理されたオーディオデータを取得する。
任意選択で、認識の精度をさらに向上させ、誤ったウェイクアップの状況の発生を回避するために、CPUによって当該オーディオデータに対して意味解析を実行する前に、CPUによって当該オーディオデータをさらに認識してもよく、即ち、プロセッサー408は、メモリ402に記憶されたアプリケーションプログラムを実行することによって、以下の機能を実現してもよい。
DSPから当該オーディオデータのうちウェイクアップワードを含むデータを読み取って、ウェイクアップデータを取得し、当該CPUによって当該ウェイクアップデータに対して音声認識を実行し、音声認識結果がウェイクアップワードが存在することを示している場合、CPUによって当該オーディオデータに対して意味解析を実行する操作を実行し、さもなければ、音声認識結果がウェイクアップワードが存在しないことを示している場合、CPUをスリープに設定して、オーディオデータを取得する操作に戻る。
以上、各操作の具体的な実施は、前記の実施例を参照することができ、ここで再度説明しない。
以上のように、本実施例のモバイル端末は、オーディオデータを取得した後、DSPによって、当該オーディオデータに対してファジー音声認識を実行することができ、ウェイクアップワードが存在すると確定される場合にのみ、スリープ状態にあるCPUを当該DSPによってウェイクアップし、当該CPUは、当該オーディオデータに対して意味解析を実行することができる。この解決策は、動作消費電力の高いCPUの代わりに、動作消費電力の低いDSPを使用して、オーディオデータを監視するため、CPUは、常にウェイクアップ状態である必要はなく、スリープ状態にすることができ、必要な場合にのみウェイクアップされ、従って、外部電源又は物理ボタンによってウェイクアップされる既存の解決策と比べると、当該解決策は、モビリティと音声ウェイクアップ機能を維持しながら、システムの消費電力を大幅に削減することができ、これにより、モバイル端末の待機時間を延長し、モバイル端末のパフォーマンスを改善する。
実施例五、
当業者は、上記の実施例の様々な方法におけるステップの全部又は一部は、指令によって完成できるか、又は、指令によって関連するハードウェアを制御して完成できると理解することができ、当該指令は、コンピュータ可読記憶媒体に記憶され、プロセッサーによってロード及び実行できる。
そのため、本発明の実施例は、複数の指令が記憶される記憶媒体を提供し、当該指令は、本発明の実施例によって提供されるいずれかの音声認識方法におけるステップを実行するようにプロセッサーによってロードされる。例えば、当該指令は次のようなステップを実行することができる。
オーディオデータを取得し、DSPによって当該オーディオデータに対してファジー音声認識を実行し、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、DSPによってスリープ状態にあるCPUをウェイクアップし、当該CPUは当該オーディオデータに対して意味解析を実行する。
CPUがウェイクアップされた後、CPUは、当該オーディオデータに対して意味解析を実行し、解析結果に従って対応する操作を実行することができる。
例えば、具体的に、ファジークラスタリング解析又はファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識などを実行することができ、具体的に、前記の実施例を参照することができ、ここで再度説明しない。
任意選択で、音声認識の精度を向上させるために、DSPによって当該オーディオデータに対してファジー音声認識を実行する前に、当該オーディオデータに対してノイズリダクション及び/又はエコーキャンセルなどのフィルタリング処理を実行してもよく、即ち、当該指令は次のようなステップを実行してもよい。
当該オーディオデータに対してノイズリダクション及び/又はエコーキャンセル処理を実行して、処理されたオーディオデータを得る。
任意選択で、認識の精度をさらに向上させ、誤ったウェイクアップの状況の発生を回避するために、CPUによって当該オーディオデータに対して意味解析を実行する前に、CPUによって当該オーディオデータをさらに認識してもよく、即ち、当該指令は、次のようなステップを実行してもよい。
DSPから、当該オーディオデータのうちウェイクアップワードを含むデータを読み取って、ウェイクアップデータを取得し、当該CPUによって、当該ウェイクアップデータに対して音声認識を実行し、音声認識結果がウェイクアップワードが存在することを示している場合、CPUによって当該オーディオデータに対して意味解析を実行する操作を実行し、さもなければ、音声認識結果がウェイクアップワードが存在しないことを示している場合、CPUをスリープに設定して、オーディオデータを取得する操作に戻る。
以上、各操作の具体的な実施は、前記の実施例を参照することができ、ここで再度説明しない。
その中、当該記憶媒体は、読み出し専用メモリ(ROM、Read Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク、光ディスクなどを含むことができる。
当該記憶媒体に記憶された指令によって、本発明の実施例によって提供されたいずれかの音声認識方法におけるステップを実行することができ、そのため、本発明の実施例によって提供されたいずれかの音声認識方法によって達成できる有益效果を実現することができ、詳細は前記の実施例を参照し、ここで再度説明しない。
以上、本発明の実施例によって提供された音声認識方法及び装置、並びに記憶媒体について詳細に説明した。本明細書で、具体的な例を使用して本発明の原理及び実施形態について説明し、以上の実施例の説明は本発明の方法及びその核心思想の理解を助けるためのものであり、同時に、当業者にとって、本発明の思想に従って、具体的な実施形態及び適用範囲を変更でき、上記のように、本明細書の内容は本発明に対する制限ではない。

Claims (16)

  1. 音声認識方法であって、
    オーディオデータを取得するステップと、
    デジタル信号プロセッサーが前記オーディオデータに対してファジー音声認識を実行するステップと、
    ファジー音声認識結果がウェイクアップワードが存在することを示す場合、前記デジタル信号プロセッサーがスリープ状態にある中央処理装置をウェイクアップするステップと
    前記デジタル信号プロセッサーから、前記オーディオデータにおけるウェイクアップワードの含まれるデータを読み取ることにより、ウェイクアップデータを得るステップと、
    前記中央処理装置の動作状態をシングルコアでかつ低周波数である第1状態に設定し、前記第1状態で、前記ウェイクアップデータに対して音声認識を実行するステップと、
    音声認識結果がウェイクアップワードの存在を示す場合、前記中央処理装置が前記オーディオデータに対して意味解析を実行するステップと、
    を含む方法。
  2. 前記デジタル信号プロセッサーが前記オーディオデータに対してファジー音声認識を実行するステップは、
    前記デジタル信号プロセッサーが、ファジークラスタリングで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得るステップ
    を含む請求項1に記載の方法。
  3. 前記デジタル信号プロセッサーが、ファジークラスタリングで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得るステップは、
    ファジークラスタリングに基づきファジークラスタリングニューラルネットワークを確立するステップと、
    前記ファジークラスタリングニューラルネットワークを確率密度関数の推定器とし、ウェイクアップワードが前記オーディオデータに含まれる確率を予測するステップと、
    予測結果が確率が設定値以上であることを示す場合、ウェイクアップワードの存在を示すファジー音声認識結果を生成するステップと、
    予測結果が確率が前記設定値よりも小さいことを示す場合、ウェイクアップワードの不存在を示すファジー音声認識結果を生成するステップと、
    を含む請求項2に記載の方法。
  4. 前記デジタル信号プロセッサーが前記オーディオデータに対してファジー音声認識を実行するステップは、
    前記デジタル信号プロセッサーが、ファジーマッチングアルゴリズムで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得るステップ
    を含む請求項1に記載の方法。
  5. 前記デジタル信号プロセッサーが、ファジーマッチングアルゴリズムで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得るステップは、
    ウェイクアップワードの読み方の特徴マップを取得して、標準の特徴マップを得るステップと、
    前記オーディオデータにおける各単語の読み方の特徴マップを解析し、マッチング候補特徴マップを得るステップと、
    所定のメンバーシップ関数に基づき、各マッチング候補特徴マップが標準の特徴マップに属する度合いのグレードを計算するステップと、
    前記度合いのグレードがプリセット値以上である場合、ウェイクアップワードが存在することを示すファジー音声認識結果を生成するステップと、
    前記度合いのグレードが前記プリセット値よりも小さい場合、ウェイクアップワードが存在しないことを示すファジー音声認識結果を生成するステップと、
    を含む請求項4に記載の方法。
  6. 前記中央処理装置が前記オーディオデータに対して意味解析を実行する前に、
    音声認識結果がウェイクアップワードの不存在を示す場合、前記中央処理装置をスリープに設定し、オーディオデータ取得するステップに戻るステップと、
    をさらに含む請求項1から5のいずれか1項に記載の方法。
  7. 前記中央処理装置が前記オーディオデータに対して意味解析を実行するステップは、
    前記中央処理装置の動作状態をマルチコアでかつ高周波数である第2状態に設定し、前記第2状態で、前記オーディオデータに対して意味解析を実行するステップを含む請求項からのいずれか1項に記載の方法。
  8. 前記中央処理装置が前記オーディオデータに対して意味解析を実行するステップは、
    前記オーディオデータに対応するウェイクアップワードに基づきセマンティックシーンを決定するステップと、
    前記セマンティックシーンに基づき前記中央処理装置の動作コア数とクロック周波数を決定するステップと、
    前記動作コア数とクロック周波数に従って、前記中央処理装置の動作状態を設定して、第3状態を得るステップと、
    前記第3状態で、前記オーディオデータに対して意味解析を実行するステップと、
    を含む請求項からのいずれか1項に記載の方法。
  9. 前記デジタル信号プロセッサーによって前記オーディオデータに対してファジー音声認識を実行する前に、
    前記オーディオデータに対してノイズリダクション及び/又はエコーキャンセル処理を実行するステップ
    をさらに含む請求項1から8のいずれか1項に記載の方法。
  10. 前記中央処理装置が前記オーディオデータに対して意味解析を実行した後、解析結果に基づき前記解析結果に対応する操作を実行するステップ、
    をさらに含む請求項1から9のいずれか1項に記載の方法。
  11. 前記解析結果に基づき対応する操作を実行するステップは、
    前記解析結果に基づき操作対象と操作内容を決定するステップと、
    前記操作対象に対して前記操作内容を実行するステップと、
    を含む請求項10に記載の方法。
  12. 音声認識装置であって、
    オーディオデータを取得するための取得ユニットと、
    デジタル信号プロセッサーによって前記オーディオデータに対してファジー音声認識を実行するためのファジー認識ユニットと、
    ファジー音声認識結果がウェイクアップワードが存在することを示す場合、前記オーディオデータに対して意味解析を実行するためのスリープ状態にある中央処理装置をウェイクアップするためのウェイクアップユニットと、
    前記デジタル信号プロセッサーから前記オーディオデータのうちウェイクアップワードが含まれるデータを読み取って、ウェイクアップデータを取得するための精確認識ユニットと、
    前記オーディオデータに対して意味解析を実行するための中央処理装置と、
    を含む
    前記精確認識ユニットは、
    前記中央処理装置の動作状態をシングルコアでかつ低周波数である第1状態に設定し、前記第1状態で、前記ウェイクアップデータに対して音声認識を実行させ、
    音声認識結果がウェイクアップワードの存在を示す場合、前記中央処理装置に前記オーディオデータに対して意味解析を実行させる、装置。
  13. 前記中央処理装置によ意味解析解析結果に従って対応する操作を実行するための処理ユニット、
    をさらに含む請求項12に記載の装置。
  14. 前記精確認識ユニットは、
    前記音声認識結果がウェイクアップワードの不存在を示す場合、前記中央処理装置をスリープに設定し、オーディオデータを取得する操作を実行するように前記取得ユニットをトリガーする、
    請求項12に記載の装置。
  15. 前記処理ユニットは、具体的に、
    前記オーディオデータに対応するウェイクアップワードに従ってセマンティックシーンを決定し、
    前記セマンティックシーンに従って、前記中央処理装置の動作コア数とクロック周波数を決定し、
    前記動作コア数とクロック周波数に従って、前記中央処理装置の動作状態を設定し、第3の状態を得て、
    前記第3の状態で、前記オーディオデータに対して意味解析を実行する、
    請求項13に記載の装置。
  16. 請求項1から11のいずれか1項に記載の音声認識方法を実行するためのコンピュータプログラム
JP2020502569A 2017-07-19 2018-06-20 音声認識方法及び装置、並びに記憶媒体 Active JP6949195B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710588382.8A CN107360327B (zh) 2017-07-19 2017-07-19 语音识别方法、装置和存储介质
CN201710588382.8 2017-07-19
PCT/CN2018/091926 WO2019015435A1 (zh) 2017-07-19 2018-06-20 语音识别方法、装置和存储介质

Publications (2)

Publication Number Publication Date
JP2020527754A JP2020527754A (ja) 2020-09-10
JP6949195B2 true JP6949195B2 (ja) 2021-10-13

Family

ID=60285244

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020502569A Active JP6949195B2 (ja) 2017-07-19 2018-06-20 音声認識方法及び装置、並びに記憶媒体

Country Status (5)

Country Link
US (1) US11244672B2 (ja)
JP (1) JP6949195B2 (ja)
KR (1) KR102354275B1 (ja)
CN (1) CN107360327B (ja)
WO (1) WO2019015435A1 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107360327B (zh) 2017-07-19 2021-05-07 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质
CN108337362A (zh) * 2017-12-26 2018-07-27 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备和存储介质
CN110164426B (zh) * 2018-02-10 2021-10-26 佛山市顺德区美的电热电器制造有限公司 语音控制方法和计算机存储介质
CN108831477B (zh) * 2018-06-14 2021-07-09 出门问问信息科技有限公司 一种语音识别方法、装置、设备及存储介质
CN109003604A (zh) * 2018-06-20 2018-12-14 恒玄科技(上海)有限公司 一种实现低功耗待机的语音识别方法及系统
CN108986822A (zh) * 2018-08-31 2018-12-11 出门问问信息科技有限公司 语音识别方法、装置、电子设备及非暂态计算机存储介质
CN109686370A (zh) * 2018-12-24 2019-04-26 苏州思必驰信息科技有限公司 基于语音控制进行斗地主游戏的方法及装置
CN111383632B (zh) * 2018-12-28 2023-10-31 北京小米移动软件有限公司 电子设备
CN109886386B (zh) * 2019-01-30 2020-10-27 北京声智科技有限公司 唤醒模型的确定方法及装置
CN109922397B (zh) * 2019-03-20 2020-06-16 深圳趣唱科技有限公司 音频智能处理方法、存储介质、智能终端及智能蓝牙耳机
CN109979438A (zh) * 2019-04-04 2019-07-05 Oppo广东移动通信有限公司 语音唤醒方法及电子设备
CN110175016A (zh) * 2019-05-29 2019-08-27 英业达科技有限公司 启动语音助理的方法及具有语音助理的电子装置
CN112015258B (zh) * 2019-05-31 2022-07-15 瑞昱半导体股份有限公司 处理系统与控制方法
CN110265029A (zh) * 2019-06-21 2019-09-20 百度在线网络技术(北京)有限公司 语音芯片和电子设备
CN112207811B (zh) * 2019-07-11 2022-05-17 杭州海康威视数字技术股份有限公司 一种机器人控制方法、装置、机器人及存储介质
CN116070684B (zh) * 2019-07-31 2023-10-20 华为技术有限公司 一种集成芯片以及处理传感器数据的方法
CN110968353A (zh) * 2019-12-06 2020-04-07 惠州Tcl移动通信有限公司 中央处理器的唤醒方法、装置、语音处理器以及用户设备
CN111071879A (zh) * 2020-01-01 2020-04-28 门鑫 电梯楼层登记方法、装置及存储介质
CN111145752B (zh) * 2020-01-03 2022-08-02 百度在线网络技术(北京)有限公司 智能音频装置、方法、电子设备及计算机可读介质
CN113223510B (zh) * 2020-01-21 2022-09-20 青岛海尔电冰箱有限公司 冰箱及其设备语音交互方法、计算机可读存储介质
CN111369999B (zh) * 2020-03-12 2024-05-14 北京百度网讯科技有限公司 一种信号处理方法、装置以及电子设备
CN113628616A (zh) * 2020-05-06 2021-11-09 阿里巴巴集团控股有限公司 音频采集设备、无线耳机以及电子设备系统
CN111679861A (zh) * 2020-05-09 2020-09-18 浙江大华技术股份有限公司 电子设备的唤醒装置、方法和计算机设备和存储介质
CN113760218A (zh) * 2020-06-01 2021-12-07 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN111696553B (zh) * 2020-06-05 2023-08-22 北京搜狗科技发展有限公司 一种语音处理方法、装置及可读介质
US11877237B2 (en) * 2020-06-15 2024-01-16 TriSpace Technologies (OPC) Pvt. Ltd. System and method for optimizing power consumption in multimedia signal processing in mobile devices
CN111755002B (zh) * 2020-06-19 2021-08-10 北京百度网讯科技有限公司 语音识别装置、电子设备和语音识别方法
CN111833870A (zh) * 2020-07-01 2020-10-27 中国第一汽车股份有限公司 车载语音系统的唤醒方法、装置、车辆和介质
CN112133302B (zh) * 2020-08-26 2024-05-07 北京小米松果电子有限公司 预唤醒终端的方法、装置及存储介质
CN111986671B (zh) * 2020-08-28 2024-04-05 京东科技信息技术有限公司 服务机器人及其语音开关机方法和装置
CN112216283B (zh) * 2020-09-24 2024-02-23 建信金融科技有限责任公司 一种语音识别方法、装置、设备及存储介质
CN112698872A (zh) * 2020-12-21 2021-04-23 北京百度网讯科技有限公司 语音数据处理的方法、装置、设备及存储介质
CN113411723A (zh) * 2021-01-13 2021-09-17 神盾股份有限公司 语音助理系统
CN113053360A (zh) * 2021-03-09 2021-06-29 南京师范大学 一种精准度高的基于语音软件识别方法
CN113297363A (zh) * 2021-05-28 2021-08-24 安徽领云物联科技有限公司 智能语义交互机器人系统
CN113393838A (zh) * 2021-06-30 2021-09-14 北京探境科技有限公司 语音处理方法、装置、计算机可读存储介质及计算机设备
CN117253488A (zh) * 2022-06-10 2023-12-19 Oppo广东移动通信有限公司 语音识别方法、装置、设备及存储介质
CN118506774A (zh) * 2023-02-15 2024-08-16 Oppo广东移动通信有限公司 语音唤醒方法、装置、电子设备、存储介质及产品
CN116822529B (zh) * 2023-08-29 2023-12-29 国网信息通信产业集团有限公司 基于语义泛化的知识要素抽取方法
CN117524228A (zh) * 2024-01-08 2024-02-06 腾讯科技(深圳)有限公司 语音数据处理方法、装置、设备及介质
CN117672200B (zh) * 2024-02-02 2024-04-16 天津市爱德科技发展有限公司 一种物联网设备的控制方法、设备及系统

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2906605B2 (ja) * 1990-07-12 1999-06-21 松下電器産業株式会社 パターン認識装置
JPH06149286A (ja) * 1992-11-10 1994-05-27 Clarion Co Ltd 不特定話者音声認識装置
JP2004045900A (ja) * 2002-07-12 2004-02-12 Toyota Central Res & Dev Lab Inc 音声対話装置及びプログラム
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
CN102866921B (zh) 2012-08-29 2016-05-11 惠州Tcl移动通信有限公司 一种多核cpu的调控方法及系统
US10304465B2 (en) * 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
EP3084760A4 (en) * 2013-12-20 2017-08-16 Intel Corporation Transition from low power always listening mode to high power speech recognition mode
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
CN104866274B (zh) * 2014-12-01 2018-06-01 联想(北京)有限公司 信息处理方法及电子设备
JP6501217B2 (ja) 2015-02-16 2019-04-17 アルパイン株式会社 情報端末システム
GB2535766B (en) * 2015-02-27 2019-06-12 Imagination Tech Ltd Low power detection of an activation phrase
CN106356059A (zh) * 2015-07-17 2017-01-25 中兴通讯股份有限公司 语音控制方法、装置及投影仪设备
CN105976808B (zh) * 2016-04-18 2023-07-25 成都启英泰伦科技有限公司 一种智能语音识别系统及方法
CN106020987A (zh) * 2016-05-31 2016-10-12 广东欧珀移动通信有限公司 处理器中内核运行配置的确定方法以及装置
US20180293974A1 (en) * 2017-04-10 2018-10-11 Intel IP Corporation Spoken language understanding based on buffered keyword spotting and speech recognition
US10311870B2 (en) * 2017-05-10 2019-06-04 Ecobee Inc. Computerized device with voice command input capability
CN107360327B (zh) * 2017-07-19 2021-05-07 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质

Also Published As

Publication number Publication date
CN107360327B (zh) 2021-05-07
KR20200027554A (ko) 2020-03-12
CN107360327A (zh) 2017-11-17
US20200152177A1 (en) 2020-05-14
WO2019015435A1 (zh) 2019-01-24
KR102354275B1 (ko) 2022-01-21
JP2020527754A (ja) 2020-09-10
US11244672B2 (en) 2022-02-08

Similar Documents

Publication Publication Date Title
JP6949195B2 (ja) 音声認識方法及び装置、並びに記憶媒体
WO2017206916A1 (zh) 处理器中内核运行配置的确定方法以及相关产品
WO2018032581A1 (zh) 一种应用程序控制方法及装置
CN108712566B (zh) 一种语音助手唤醒方法及移动终端
CN106293308B (zh) 一种屏幕解锁方法及装置
WO2017206915A1 (zh) 处理器中内核运行配置的确定方法以及相关产品
WO2019007414A1 (zh) 实现应用程序支持多语言的方法、存储设备及移动终端
JP2023500390A (ja) アイコン移動方法及び電子機器
CN117093766A (zh) 问诊平台的信息推荐方法、相关装置及存储介质
CN109389977B (zh) 一种语音交互方法及装置
WO2017206860A1 (zh) 移动终端的处理方法及移动终端
CN111443803A (zh) 模式切换方法、装置、存储介质及移动终端
CN111027406B (zh) 图片识别方法、装置、存储介质及电子设备
CN108089935B (zh) 一种应用程序的管理方法及移动终端
CN111897916B (zh) 语音指令识别方法、装置、终端设备及存储介质
CN110277097B (zh) 数据处理方法及相关设备
CN115985323B (zh) 语音唤醒方法、装置、电子设备及可读存储介质
CN111638843A (zh) 信息处理方法、装置及电子设备
CN112433694B (zh) 光强度调整方法及装置、存储介质和动终端
CN115348256A (zh) 入账数据下传方法、装置、存储介质及电子设备
CN108681467B (zh) 一种系统唤醒方法、终端
CN112367428A (zh) 电量的显示方法、系统、存储介质及移动终端
CN113806532B (zh) 比喻句式判断模型的训练方法、装置、介质及设备
CN114721785B (zh) 虚拟机的软件应用库的配置方法、装置、设备及存储介质
CN117725233A (zh) 用于多媒体平台的信息搜索方法、装置、介质及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210921

R150 Certificate of patent or registration of utility model

Ref document number: 6949195

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250