JP7166294B2 - オーディオ処理方法、装置及び記憶媒体 - Google Patents

オーディオ処理方法、装置及び記憶媒体 Download PDF

Info

Publication number
JP7166294B2
JP7166294B2 JP2019563781A JP2019563781A JP7166294B2 JP 7166294 B2 JP7166294 B2 JP 7166294B2 JP 2019563781 A JP2019563781 A JP 2019563781A JP 2019563781 A JP2019563781 A JP 2019563781A JP 7166294 B2 JP7166294 B2 JP 7166294B2
Authority
JP
Japan
Prior art keywords
audio data
audio
target
data
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019563781A
Other languages
English (en)
Other versions
JP2022501623A (ja
Inventor
路康虹
▲楊▼瑞
▲馮▼小川
崔世起
▲韓▼▲偉▼
秦斌
王▲剛▼
李丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Publication of JP2022501623A publication Critical patent/JP2022501623A/ja
Application granted granted Critical
Publication of JP7166294B2 publication Critical patent/JP7166294B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Description

(関連出願の相互参照)
本願は、出願番号201910760806.3、出願日2019年08月16日の中国特許出願に基づいて提案しており、該中国特許出願の優先権を主張し、該中国特許出願の全内容が参照により本願に組み込まれる。
本開示は、情報技術分野に関し、特にオーディオ処理方法、装置及び記憶媒体に関する。
現在、音声を通じたヒューマンコンピュータインタラクションのインタラクション方式が注目を集めており、インターネット産業にわたって音声インタラクションが可能な応用方式及び応用場面の検討が積極的に進められており、且つ、スマートスピーカー、音声アシスタントなど、音声インタラクションに基づく多数の製品が販売され始める。その中でも、音声アシスタントは、ほぼすべてのメーカーの新製品発表会の焦点になり、ある程度ユーザーの消費選択に影響を与える。しかしながら、ユーザーが音声アシスタントとインタラクションを行うときには、会話プロセスが複雑であり且つ順調さが不十分であるという問題がある。
本開示は、オーディオ処理方法、装置及び記憶媒体を提供する。
本開示の実施例の第1態様によれば、オーディオ処理方法を提供し、前記方法は、電子機器に適用され、
ターゲットアプリケーションをウェイクアップ(wake-up)した後、第1オーディオ信号に対応する第1オーディオデータを取得するステップと、
前記第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、前記第2オーディオデータを取得するステップと、
前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップと、を含む。
いくつかの実施例において、前記方法は、
前記第1オーディオデータの取得終了と前記第2オーディオデータの取得開始との間の時間差を決定するステップをさらに含み
前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
前記時間差が第1所定期間以上であれば、前記第1オーディオデータ及び前記第2オーディオデータに基づいて、前記ターゲットオーディオデータを得るステップを含む。
いくつかの実施例において、前記時間差が第1所定期間以上であれば、前記第1オーディオデータ及び前記第2オーディオデータに基づいて、前記ターゲットオーディオデータを得るステップは、
前記時間差が第1所定期間以上であれば、前記第1オーディオデータが完全に入力されたか否かを検出するステップと、
前記第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータ及び前記第2オーディオデータに基づいて、前記ターゲットオーディオデータを得るステップと、を含む。
いくつかの実施例において、前記第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータ及び前記第2オーディオデータに基づいて、前記ターゲットオーディオデータを得るステップは、
第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータと前記第2オーディオデータをスプライシングできるか否かを判断するステップと、
前記第1オーディオデータと前記第2オーディオデータをスプライシングできる場合、前記第1オーディオデータと前記第2オーディオデータをスプライシングして、ターゲットオーディオデータを得るステップと、を含む。
いくつかの実施例において、前記方法は、
前記第1オーディオデータが完全に入力された場合、前記第1オーディオデータ及び前記第2オーディオデータをそれぞれ前記ターゲットオーディオデータとして決定するステップをさらに含む。
いくつかの実施例において、前記方法は、
前記ターゲットオーディオデータに対して音響エコー除去処理を行うステップと、
音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るステップと、
前記応答情報を出力するステップと、をさらに含む。
いくつかの実施例において、前記方法は、
検出対象のオーディオデータを取得するステップと、
前記検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するステップと、
前記検出対象オーディオデータに前記ウェイクアップ情報が含まれている場合、前記ターゲットアプリケーションに対してウェイクアップ処理を行うステップと、をさらに含み、
前記オーディオデータは、音声データを含む。
本開示の実施例の第2態様によれば、オーディオ処理装置を提供し、該オーディオ処理装置は、
ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得するように構成される第1オーディオ取得モジュールと、
前記第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、前記第2オーディオデータを取得するように構成される第2オーディオ取得モジュールと、
前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るように構成される第1オーディオ決定モジュールと、を備える。
いくつかの実施例において、前記装置は、
前記第1オーディオデータの取得終了と前記第2オーディオデータの取得開始との間の時間差を決定するように構成される時間決定モジュールをさらに備え、
前記第1オーディオ決定モジュールは、
前記時間差が第1所定期間以上であれば、前記第1オーディオデータ及び前記第2オーディオデータに基づいて、前記ターゲットオーディオデータを得るように構成されるオーディオ決定サブモジュールを備える。
いくつかの実施例において、前記オーディオ決定サブモジュールは、具体的には、
前記時間差が第1所定期間以上であれば、前記第1オーディオデータが完全に入力されたか否かを検出し、
前記第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータ及び前記第2オーディオデータに基づいて、前記ターゲットオーディオデータを得るように構成される。
いくつかの実施例において、前記オーディオ決定サブモジュールは、さらに、具体的には、
第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータと前記第2オーディオデータをスプライシングできるか否かを判断し、
前記第1オーディオデータと前記第2オーディオデータをスプライシングできる場合、前記第1オーディオデータと前記第2オーディオデータをスプライシングして、ターゲットオーディオデータを得るように構成される。
いくつかの実施例において、前記装置は、
前記第1オーディオデータが完全に入力された場合、前記第1オーディオデータ及び前記第2オーディオデータをそれぞれ前記ターゲットオーディオデータとして決定するように構成される第2オーディオ決定モジュールをさらに備える。
いくつかの実施例において、前記装置は、
前記ターゲットオーディオデータに対して音響エコー除去処理を行うように構成される音響エコー除去モジュールと、
音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るように構成される応答モジュールと、
前記応答情報を出力するように構成される出力モジュールと、をさらに備える。
いくつかの実施例において、前記装置は、
検出対象のオーディオデータを取得するように構成される第3オーディオ取得モジュールと、
前記検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するように構成される情報決定モジュールと、
前記検出対象オーディオデータに前記ウェイクアップ情報が含まれている場合、前記ターゲットアプリケーションに対してウェイクアップ処理を行うように構成されるウェイクアップモジュールと、をさらに備え、
前記オーディオデータは、音声データを含む。
本開示の実施例の第3態様によれば、オーディオ処理装置を提供し、該オーディオ処理装置は、
プロセッサと、
プロセッサにより実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、上記第1態様におけるオーディオ処理方法のステップを実現するために実行されるように構成される。
本開示の実施例の第4態様によれば、前記記憶媒体における命令がオーディオ処理装置のプロセッサにより実行されるとき、上記第1態様におけるオーディオ処理方法を前記装置に実行させる非一時的なコンピュータ可読記憶媒体を提供する。
本開示の実施例による技術案は、以下の有益な効果を有する。
本開示の実施例では、ターゲットアプリケーションをウェイクアップした後、第1オーディオデータを取得する過程において、第2オーディオデータが検出された場合、第1オーディオデータ及び第2オーディオデータに対して分析及び処理を行って、ターゲットオーディオデータを得て、持続的な会話の過程では、複数のオーディオデータをそれぞれ直接処理することができ、受信したオーディオデータに対して応答した後に次のオーディオデータを処理する場合に比べて、ターゲットアプリケーションを再度ウェイクアップする必要がなく、それによって、対話プロセスを簡素化させるとともに、音声インタラクションのプロセスをより順調にし、さらに、第1オーディオデータと第2オーディオデータを結合して、ターゲットオーディオデータを得て、ターゲットオーディオデータに対してオーディオ応答を行うことによって、ユーザーの本格なニーズをより正確に把握し、個別に第1オーディオデータ及び第2オーディオデータに応答することによる応答エラーの確率を減少させ、このため、オーディオ応答の正確率も向上させる。
なお、以上の一般的な説明及び以下の詳細な説明は、解釈するための例示的なものに過ぎず、本開示を制限するものではない。
ここでの図面は、明細書に組み込まれて本明細書の一部を構成し、本開示に適した実施例が示されて、明細書とともに本開示の原理を解釈する。
例示的な一実施例によるオーディオ処理方法のフローチャートの1つである。 例示的な一実施例によるオーディオ処理方法の別の模式的なフローチャートである。 例示的な一実施例によるオーディオ処理装置のブロック図である。 例示的な一実施例によるオーディオ処理装置のハードウェア構造のブロック図である。
ここで例示的な実施例を詳細に説明し、その例は図面に示されている。以下の説明においては、図面を言及する場合、特に断らない限り、異なる図面における同じ数字は、同じ又は類似した要素を表す。以下の例示的な実施例に説明される実施形態は、本開示と一致するすべての実施形態ではない。添付した特許請求の範囲に詳細に記載された、本開示のいくつかの態様と一致する装置及び方法の例に過ぎない。
図1は、例示的な一実施例によるオーディオ処理方法のフローチャートの1つであり、図1に示すように、該方法は、電子機器に適用され、電子機器は、携帯端末及び固定端末を備え、たとえば、携帯電話、タブレット、ポケットコンピュータ、ノード型コンピュータ、デスクトップコンピュータ、ウェアラブルモバイルデバイス、スマートスピーカーなどである。該方法は、ステップ101~ステップ103を含む。
ステップ101では、ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得する。
ターゲットアプリケーションは、電子機器にインストール可能でありユーザーと音声インタラクションを行うためのアプリケーションであり、たとえば、音声アシスタントなどである。第1オーディオ信号は、電子機器が備える音収集コンポーネントによって収集される音声信号、たとえば、ユーザーからの音声信号を含み得る。第1オーディオデータは、第1オーディオ信号をデジタル化処理したオーディオデータである。
電子機器が備えるオーディオ収集コンポーネントによってオーディオ信号を収集し、オーディオ信号をデジタル化処理して、オーディオデータを得ることができる。ここで、オーディオ収集コンポーネントは、電子機器が備えるオーディオ収集用のコンポーネントであってもよく、電子機器が携帯電話である場合を例にすると、オーディオ収集コンポーネントは、携帯電話のマイクロフォンであり得る。
本開示の実施例では、音声ウェイクアップ方式でターゲットアプリケーションをウェイクアップし、ターゲットアプリケーションをウェイクアップした後、ターゲットアプリケーションに基づいてオーディオデータを取得することができる。
たとえば、電子機器が備えるオーディオ収集コンポーネントによりユーザーからの音声信号が受信されると、該音声信号に対してデジタル化処理を行って、音声データを得る。音声データに予め設定されたウェイクアップ単語があるか否かを検出し、音声データにウェイクアップ単語が含まれている場合、ターゲットアプリケーションをウェイクアップする。ここで、ウェイクアップ単語は、ユーザーにより必要に応じて設定されるものであってもよく、たとえば、ウェイクアップ単語を「小愛同学」に設定する。
ステップ102では、第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、第2オーディオデータを取得する。
該第2オーディオデータは、第1オーディオデータと同じであってもよく、第1オーディオデータと異なってもよい。第1オーディオデータを取得する過程において取得されるオーディオデータであれば、第2オーディオデータとすることができる。
ステップ103では、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得る。
ターゲットアプリケーションは、異なる時刻にそれぞれ第1オーディオデータ及び第2オーディオデータを取得した後、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得て、ターゲットオーディオデータに基づいて対応した応答を行うことができる。
ターゲットオーディオデータは、第1オーディオデータ、第2オーディオデータ、第1オーディオデータと第2オーディオデータをスプライシングしてなる第3オーディオデータのうちの少なくとも1つを含む。ターゲットオーディオデータが第1オーディオデータと第2オーディオデータをスプライシングしてなる第3オーディオデータである場合を例にすると、第1オーディオデータに含まれる内容が「今日の天気は」、第2オーディオデータに含まれる内容が「晴れ」であれば、第3オーディオデータであるターゲットオーディオデータに含まれる内容は、「今日の天気は晴れです」となる。
本開示の実施例では、ターゲットアプリケーションをウェイクアップした後、第1オーディオデータを取得する過程において、第2オーディオデータが検出された場合、第1オーディオデータ及び第2オーディオデータの両方に対して分析及び処理を行って、ターゲットオーディオデータを取得しうる。持続的な会話の過程では、それぞれ複数のオーディオデータに対して同時に直接処理を行うことができ、ターゲットアプリケーションを再度ウェイクアップする必要がなく、それによって、対話プロセスを簡素化させるとともに、音声インタラクションのプロセスをより順調にする。
前記第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
前記第1オーディオデータの第1セマンティックコンテンツ及び前記第2オーディオデータの第2セマンティックコンテンツに基づいて、前記ターゲットオーディオデータを得るステップを含む。
たとえば、前記第1セマンティックコンテンツと前記第2セマンティックコンテンツが互いを補完する場合、前記第1オーディオデータと前記第2オーディオデータを組みわせて前記ターゲットオーディオデータを得ることができ、ユーザーが第1音声信号を送信した後、途中で一時停止し又は中断されるため、第2オーディオ信号で補充する必要がある場合は、このような応用場面である。
ここで、第1セマンティックコンテンツが「してください」、第2セマンティックコンテンツが「目覚まし時計を設定する」である場合を例にすると、第1セマンティックコンテンツ及び第2セマンティックコンテンツについてセマンティック分析を行い、第1セマンティックコンテンツと第2セマンティックコンテンツが互いを補完すると決定する。次に、第1オーディオデータと第2オーディオデータを組み合わせてターゲットオーディオデータを得る。それによって、ユーザーの最終ニーズが「目覚まし時計を設定してください」であると決定できる。
さらに、たとえば、第1セマンティックコンテンツと前記第2セマンティックコンテンツが互いに矛盾する場合、前記第2オーディオデータを前記ターゲットオーディオデータとすることができ、このような応用場面は、ユーザーからの第1オーディオ信号エラーを第2オーディオ信号で校正する場面である。
第1セマンティックコンテンツが「武漢の今日の天気は」、第2セマンティックコンテンツが「いいえ、北京の今日の天気を確認したいです」である場合を例にする。第1セマンティックコンテンツ及び第2セマンティックコンテンツについてセマンティック分析を行ったところ、第1オーディオデータ及び第2オーディオデータがすべて天気のお問い合わせであることが分かった。第1セマンティックコンテンツと第2セマンティックコンテンツには相関性があるが、第1オーディオデータが武漢の天気のお問い合わせであるのに対して、第2オーディオデータが北京の天気のお問い合わせであり、両方が互いに矛盾し、且つ分析したところ第1セマンティックコンテンツがエラーであることがわかった。この場合、ターゲットアプリケーションは、第1オーディオデータを処理しなくてもよいと判定し、第2オーディオデータをターゲットオーディオデータとして決定し、第2オーディオデータに対応する応答情報を出力する。
また、たとえば、第1セマンティックコンテンツ及び前記第2セマンティックコンテンツが互いに独立したものであり、意味的には補完と矛盾がない場合、前記第1オーディオデータと第2オーディオデータを2つのターゲットオーディオデータとし、それぞれオーディオ応答を行う必要がある。ユーザーが急いでいる又は発話速度が高い場合、2つの完全に別々の音声信号を短時間で送信する場合は、このような応用場面である。
ここで、第1セマンティックコンテンツが「武漢の今日の天気は」、第2セマンティックコンテンツが「目覚まし時計を設定してください」である場合を例にすると、第1セマンティックコンテンツ及び第2セマンティックコンテンツについてセマンティック分析を行ったところ、第1セマンティックコンテンツと第2セマンティックコンテンツには相関性がなく、且つ第1オーディオデータ及び第2オーディオデータがそれぞれユーザーの2つの異なるニーズを反映することが分かった。この場合、第1セマンティックコンテンツと前記第2セマンティックコンテンツが互いに独立し、すなわち、意味的には補完と矛盾がないと決定し、前記第1オーディオデータと第2オーディオデータを2つのターゲットオーディオデータとし、それぞれオーディオ応答を行い、且つ第1オーディオデータと第2オーディオデータに対応する応答情報をそれぞれ出力する必要がある。
本開示の実施例における技術案は、受信したオーディオデータに対して応答した後に次のオーディオデータを処理する場合に比べて、ターゲットアプリケーションを再度ウェイクアップする必要がなく、それによって、対話プロセスを簡素化させるとともに、音声インタラクションのプロセスをより順調にし、さらに、第1オーディオデータと第2オーディオデータを結合してターゲットオーディオデータを得て、ターゲットオーディオデータに対してオーディオ応答を行うことによって、ユーザーの本格なニーズをより正確に把握し、個別に第1オーディオデータ及び第2オーディオデータに応答することによる応答エラーの確率を減少させ、このため、オーディオ応答の正確率も向上させる。
別の好ましい実施例では、該方法は、
第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差を決定するステップをさらに含み、
この場合、ステップ103は、
第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差が第1所定期間以上であれば、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップを含む。
オーディオデータを取得する過程において、ユーザーが少し一時停止することがある。この場合、ターゲットアプリケーションは、停止前後に取得したオーディオデータをそれぞれ第1オーディオデータと第2オーディオデータとすることがある。
第1オーディオデータ及び第2オーディオデータを取得する時刻が異なり、且つ第2オーディオデータが第1オーディオデータ終了後に取得されるため、電子機器は、第1オーディオデータの取得が終了する終了時刻と第2オーディオデータの取得を開始させる開始時刻とをそれぞれ取得し、次に、該終了時刻及び開始時刻に基づいて時間差を得ることができる。
次に、得られた時間差を設定された第1所定期間と比較し、時間差が第1所定期間以上であれば、ユーザーが話している途中に少し停止するのではないと判定する。このような場合には、ターゲットオーディオデータを得るには、第1オーディオデータ及び第2オーディオデータへのさらなる判断及び処理が必要とされる。たとえば、第1オーディオデータ及び第2オーディオデータをそれぞれターゲットオーディオデータとし、又は第1オーディオデータと第2オーディオデータをスプライシングして、ターゲットオーディオデータを得る。
第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差が第1所定期間未満であれば、ユーザーが話している途中に少し停止すると判定する。この場合、第1オーディオデータと第2オーディオデータを直接スプライシングして完全なオーディオデータとし、この完全なオーディオデータをターゲットオーディオデータとすることができる。
本開示の実施例では、ターゲットオーディオデータを得る前に、第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差を判定し、次に、第1オーディオデータ及び第2オーディオデータに対するさらなる処理が必要であるか否かを決定し、このようにして、取得されたオーディオデータに対して不要な処理を行うことを減少できる。
ほかの好ましい実施例では、時間差が第1所定期間以上であれば、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
時間差が第1所定期間以上であれば、第1オーディオデータが完全に入力されたか否かを検出するステップと、
第1オーディオデータが完全に入力されていない場合、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップと、を含む。
第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差が第1所定期間以上であれば、第1オーディオデータが完全に入力されたか否かをさらに検出する。第1オーディオデータが完全に入力されたか否かを検出することは、第1音声データの第1セマンティックコンテンツを取得することと、前記第1セマンティックコンテンツについてセマンティック分析を行って、セマンティック分析結果を得ることと、セマンティック分析結果に基づいて第1オーディオデータが完全に入力されたか否かを決定することと、を含む。
たとえば、第1オーディオデータの第1セマンティックコンテンツが「設定してください」である。第1セマンティックコンテンツを分析した結果、第1セマンティックコンテンツにはいくつかの単語が含まれているが、第1セマンティックコンテンツに含まれる単語だけではユーザーのニーズを特定できない。それによって、第1セマンティックコンテンツのユーザーが音声信号を送信する過程に停止し又は中断される可能性があることが分かり、第1音声データが完全に入力されていないと判定できる。
別の実施例では、第1音声データが完全ではなく、且つユーザーのさらなるオーディオ信号の入力が検出されない場合、ターゲットアプリケーションは、コンテクストを考慮して第1オーディオデータについて対応する応答情報を送信できる。たとえば、第1オーディオデータの第1セマンティックコンテンツが「設定してください」である場合、ターゲットアプリケーションによる応答情報は、「何を設定してほしいですか」であってもよい。
ここで、自然言語処理(NLP:Natural Language Processing)技術によって第1オーディオデータが完全に入力されたか否かを検出できる。
ほかの好ましい実施例では、第1オーディオデータが完全に入力されていない場合、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
第1オーディオデータが完全に入力されていない場合、第1オーディオデータと第2オーディオデータをスプライシングできるか否かを判断するステップと、
第1オーディオデータと第2オーディオデータをスプライシングできる場合、第1オーディオデータと第2オーディオデータをスプライシングして、ターゲットオーディオデータを得るステップと、を含む。
たとえば、第1オーディオデータに含まれる内容が「今日の天気は」、第2オーディオデータに含まれる内容が「晴れ」である場合、第3オーディオデータであるターゲットオーディオデータに含まれる内容は、「今日の天気は晴れです」となる。
ほかの好ましい実施例では、該方法は、第1オーディオデータが完全に入力された場合、第1オーディオデータ及び第2オーディオデータをそれぞれターゲットオーディオデータとして決定するステップをさらに含む。
ここで、第1オーディオデータが完全に入力された場合、ターゲットアプリケーションが第1オーディオデータについて対応する応答情報を取得できると決定し、この場合、直接第1オーディオデータをターゲットオーディオデータとして決定できる。同様に、第2オーディオデータが完全に入力された場合、第2オーディオデータをターゲットオーディオデータとして決定できる。このようにして、ターゲットアプリケーションは、第1オーディオデータ及び第2オーディオデータに対応する応答情報をそれぞれ取得できる。
ほかの好ましい実施例では、該方法は、
ターゲットオーディオデータに対して音響エコー除去処理を行うステップと、音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るステップと、応答情報を出力するステップと、をさらに含む。
オーディオ処理には、電子機器が電子機器自体からのオーディオ信号(音楽、メッセージトーン)などを録音することがあり、この場合、ターゲットオーディオデータに対して音響エコー除去処理を行い、エコー処理後のターゲットオーディオデータ応答情報を得ることが必要とされ、それによって、電子機器からのオーディオ信号の干渉を減少させて、ターゲットアプリケーションが出力した応答情報の正確性及び安定性を確保できる。
ここで、自動音声認識(Automatic Speech Recognition:ASR)技術及び音響エコー除去(Acoustic Echo Cancellation:AEC)技術によってターゲットオーディオデータに対して音響エコー除去処理を実施できる。
別の実施例では、環境騒音、環境におけるヒトの音声(ユーザー又は他人がターゲットアプリケーション以外のために発音する音)などを録音する確率を減少させるために、ASR技術及びNLP技術によりターゲットオーディオデータを処理することで、ターゲットアプリケーション以外のための音をシールドしてもよい。
ほかの好ましい実施例では、該方法は、
検出対象のオーディオデータを取得するステップと、出対象のオーディオデータにターゲットアプリケーションをウェイクアップするウェイクアップ情報が含まれているか否かを決定するステップと、検出対象のオーディオデータにウェイクアップ情報が含まれている場合、ターゲットアプリケーションに対してウェイクアップ処理を行うステップと、をさらに含み、オーディオデータは、音声データを含む。
電子機器が備えるオーディオ収集コンポーネントによってオーディオ信号を収集し、オーディオ信号をデジタル化処理して、オーディオデータを得ることができ、ここで、オーディオ収集コンポーネントは、電子機器が備えるオーディオ収集用のコンポーネントであってもよく、電子機器が携帯電話である場合を例にすると、オーディオ収集コンポーネントは、携帯電話のマイクロフォンであり得る。
検出対象のオーディオデータは、収集したユーザーの音声信号をデジタル化処理して得た音声データを含み、ウェイクアップ情報は、予め設定されたウェイクアップ単語であり、ターゲットアプリケーションは、電子機器にインストールされてユーザーと音声インタラクションを行うためのアプリケーション、たとえば、音声アシスタントであってもよい。
具体的には、電子機器が備えるオーディオ収集コンポーネントによりユーザーからの音声信号が受信されると、該音声信号に対してデジタル化処理を行って、音声データを得て、音声データに予め設定されたウェイクアップ単語があるか否かを検出する。ここで、ウェイクアップ単語は、ユーザーにより必要に応じて設定されるものであってもよく、たとえば、ウェイクアップ単語を「小愛同学」に設定する。
ウェイクアップ処理とは、ターゲットアプリケーションがスリープ状態から作動状態に入るように制御することを意味し、ターゲットアプリケーションをウェイクアップした後、ターゲットアプリケーションによってオーディオデータを処理できる。別の実施例では、アイコン、ショートカットキーなどによってユーザーが入力したウェイクアップ操作を受信して、ターゲットアプリケーションをウェイクアップすることもできる。
ほかの好ましい実施例では、携帯電話にインストールされる音声アシスタントを例にして、ユーザーは、携帯電話の音声アシスタントと音声インタラクションをする際に、まず、所定命令を通じて音声アシスタントをウェイクアップし、ウェイクアップ後に話し始め、音声アシスタントは、ユーザーが話している内容に応じた応答を行う。
所定命令は、所定の音声命令、携帯電話におけるアイコンに対するトリガー命令、携帯電話におけるショートカットキーに対するトリガー命令のうちの少なくとも1つを含む。ここで、ユーザーが音声アシスタントに対して今日及び明日の天気のお問い合わせをする場合を例にして、主な会話の内容は、以下のとおりである。
ユーザー:小愛同学(ここで音声命令を通じて音声アシスタントをウェイクアップするが、アイコン、ショートカットキーをクリックするなどのほかの方式で音声アシスタントをウェイクアップしてもよい)
小愛:はい/プロンプトトーン(応答プロンプト)
ユーザー:今日の天気は、
小愛:今日の天気は、……(今日の天気を放送する)
ユーザー:小愛同学(ここで音声命令を通じて音声アシスタントをウェイクアップするが、アイコン、ショートカットキーをクリックするなどのほかの方式で音声アシスタントをウェイクアップしてもよい)
小愛:はい/プロンプトトーン(応答プロンプト)
ユーザー:明日は、
小愛:明日の北京の天気は……(明日の天気を放送する)
別の実施例では、ユーザーは、まず、所定命令を通じて音声アシスタントをウェイクアップし、ウェイクアップ後に話し始め、音声アシスタントは、ユーザーが1つのセンテンスを終了した後に話し続ける可能性があると予備判出すると、回答終了後にマイクロフォンを自動的にウェイクアップして、ユーザーからの次の命令を受信する。ここで、ユーザーが音声アシスタントを通じて目覚まし時計を設定する場合を例にして、主な会話の内容は、以下のとおりである。
ユーザー:小愛同学(ここで音声命令を通じて音声アシスタントをウェイクアップするが、アイコン、ショートカットキーをクリックするなどのほかの方式で音声アシスタントをウェイクアップしてもよい)
小愛:はい/プロンプトトーン(応答プロンプト)
ユーザー:目覚まし時計を設定したいですが
小愛:目覚まし時計を何時に設定しますか?
ユーザー:夜の7時
小愛:目覚まし時計を夜の7時に設定しました。
図2は、例示的な一実施例によるオーディオ処理方法の別の模式的なフローチャートであり、図2に示すように、該方法は、主に、ステップ201~ステップ212を含む。
ステップ201では、検出対象のオーディオデータを取得し、検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定する。
電子機器が備えるオーディオ収集コンポーネントによってオーディオ信号を収集し、オーディオ信号をデジタル化処理して、オーディオデータを得ることができ、ここで、オーディオ収集コンポーネントは、電子機器が備えるオーディオ収集用のコンポーネントであってもよく、電子機器が携帯電話である場合を例にすると、オーディオ収集コンポーネントは、携帯電話のマイクロフォンであり得る。
検出対象のオーディオデータは、収集したユーザーの音声信号をデジタル化処理して得た音声データを含み、ウェイクアップ情報は、予め設定されたウェイクアップ単語であり、ターゲットアプリケーションは、電子機器にインストールされてユーザーと音声インタラクションを行うためのアプリケーション、たとえば、音声アシスタントであってもよい。
たとえば、電子機器が備えるオーディオ収集コンポーネントによりユーザーからの音声信号が受信されると、該音声信号に対してデジタル化処理を行って、音声データを得て、音声データに予め設定されたウェイクアップ単語があるか否かを検出する。ここで、ウェイクアップ単語は、ユーザーにより必要に応じて設定されるものであってもよく、たとえば、動単語を「小愛同学」に設定する。
ステップ202では、検出対象のオーディオデータにウェイクアップ情報が含まれている場合、ターゲットアプリケーションに対してウェイクアップ処理を行う。
ウェイクアップ処理とは、ターゲットアプリケーションがスリープ状態から作動状態に入るように制御することを意味し、ターゲットアプリケーションをウェイクアップした後、ターゲットアプリケーションによってオーディオデータを処理できる。別の実施例では、アイコン、ショートカットキーなどによってユーザーが入力したウェイクアップ操作を受信して、ターゲットアプリケーションをウェイクアップすることもできる。
ステップ203では、ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得する。
第1オーディオデータは、第1オーディオ信号をデジタル化処理したデータであり、第1オーディオ信号は、音収集コンポーネントによって収集されたユーザーからの音声信号であってもよい。
ステップ204では、第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、第2オーディオデータを取得する。
ステップ205では、第1オーディオデータの取得終了と第2オーディオ信号に対応する第2オーディオデータの取得開始との間の時間差を決定する。
ステップ206では、第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差が第1所定期間以上であるか否かを判断する。
別の実施例では、第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差が第1所定期間未満であれば、直接第1オーディオデータと第2オーディオデータをターゲットオーディオデータにスプライシングする。
第1オーディオデータの取得終了と第2オーディオデータの取得開始との間に時間差があり、且つターゲットアプリケーションは、第1オーディオデータ及び第2オーディオデータが完全に独立した2つのデータであるか、相関性を有する2つのデータであるかを判定できないため、正確に応答できない。
本開示の実施例では、ターゲットオーディオデータを得る前に、第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差を判定し、次に、第1オーディオデータ及び第2オーディオデータに対するさらなる処理が必要であるか否かを決定し、このようにして、取得されたオーディオデータに対して不要な処理を行うことを減少できるだけでなく、また、より正確な応答情報が得られ得る。
ステップ207では、時間差が第1所定期間以上であれば、第1オーディオデータが完全に入力されたか否かを検出する。
ここで、NLP技術によって第1オーディオデータが完全に入力されたか否かを検出できる。第1オーディオデータが完全に入力されたと検出すると、第1オーディオデータに対応する応答情報を得て、該応答情報を出力する。
ステップ208では、第1オーディオデータが完全に入力されていない場合、第1オーディオデータと第2オーディオデータをスプライシングできるか否かを判断する。
ステップ209では、第1オーディオデータと第2オーディオデータをスプライシングできる場合、第1オーディオデータと第2オーディオデータをスプライシングして、ターゲットオーディオデータを得る。
ステップ210では、第1オーディオデータが完全に入力された場合、第1オーディオデータ及び第2オーディオデータをそれぞれターゲットオーディオデータとして決定する。
ステップ211では、ターゲットオーディオデータに基づいて、応答情報を得る。
ステップ212では、応答情報を出力する。
ほかの好ましい実施例では、受信したインタラクション終了命令に基づいて、ターゲットアプリケーションとユーザーとの間のインタラクションを終了させる。ここで、音声方式でインタラクション終了命令を入力するが、アイコン、ショートカットキーなどをクリックするなどのほかの方式でインタラクション終了命令を入力してもよい。
本開示の実施例では、ターゲットアプリケーションをウェイクアップした後、ユーザーは、いつでもターゲットアプリケーションと直接会話することができ、このようにすると、ターゲットアプリケーションは、持続的な会話の過程においても、ユーザーが入力した各オーディオ信号にタイムリーに応答できる。たとえば、ユーザーが音楽を聴くときに、ターゲットアプリケーションにより提供された音楽の内容が好きではない場合、「別の歌に変更してください」を話せばよく、ユーザーが連続的にターゲットアプリケーションへ音声信号を送信する場合、ターゲットアプリケーションは、音声信号を連続的に受信して、対応する応答を行うことができ、ターゲットアプリケーションを再度ウェイクアップする必要がなく、また、ターゲットアプリケーションが既に受信した音声信号に対する応答情報の出力を終了するまで持つ必要もない。
図3は、例示的な一実施例によるオーディオ処理装置のブロック図である。図3に示すように、該オーディオ処理装置300は、主に、
ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得するように構成される第1オーディオ取得モジュール301と、
第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、第2オーディオデータを取得するように構成される第2オーディオ取得モジュール302と、
第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るように構成される第1オーディオ決定モジュール303と、を備える。
ほかの好ましい実施例では、装置300は、
第1オーディオデータの取得終了と第2オーディオデータの取得開始との間の時間差を決定するように構成される時間決定モジュールをさらに備え、
第1オーディオ決定モジュールは、
時間差が第1所定期間以上であれば、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るオーディオ決定サブモジュールを備える。
ほかの好ましい実施例では、オーディオ決定サブモジュールは、具体的には、
時間差が第1所定期間以上であれば、第1オーディオデータが完全に入力されたか否かを検出し、
第1オーディオデータが完全に入力されていない場合、第1オーディオデータ及び第2オーディオデータに基づいて、ターゲットオーディオデータを得るように構成される。
ほかの好ましい実施例では、オーディオ決定サブモジュールは、さらに、具体的に、
第1オーディオデータが完全に入力されていない場合、第1オーディオデータと第2オーディオデータをスプライシングできるか否かを判断し、
第1オーディオデータと第2オーディオデータをスプライシングできる場合、第1オーディオデータと第2オーディオデータをスプライシングして、ターゲットオーディオデータを得るように構成される。
ほかの好ましい実施例では、装置300は、
第1オーディオデータが完全に入力された場合、第1オーディオデータ及び第2オーディオデータをそれぞれターゲットオーディオデータとして決定するように構成される第2オーディオ決定モジュールをさらに備える。
ほかの好ましい実施例では、装置300は、
ターゲットオーディオデータに対して音響エコー除去処理を行うように構成される音響エコー除去モジュールと、
音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るように構成される応答モジュールと、
応答情報を出力するように構成される出力モジュールと、をさらに備える。
ほかの好ましい実施例では、装置300は、
検出対象のオーディオデータを取得するように構成される第3オーディオ取得モジュールと、
検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するように構成される情報決定モジュールと、
検出対象のオーディオデータにウェイクアップ情報が含まれている場合、ターゲットアプリケーションに対してウェイクアップ処理を行うように構成されるウェイクアップモジュールと、をさらに備え、
オーディオデータは、音声データを含む。
上記実施例における装置については、その各モジュールが操作を実行する具体的な方式は、該方法に係る実施例において詳細に説明したが、ここで詳しく説明しない。
図4は、例示的な一実施例によるオーディオ処理装置400のハードウェア構造のブロック図である。たとえば、装置400は、モバイル電話、計算機、デジタル放送端末、メッセージ受送信機器、ゲームコンソール、タブレット機器、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどであってもよい。
図4に示すように、装置400は、処理コンポーネント402、メモリ404、電力コンポーネント406、マルチメディアコンポーネント408、オーディオコンポーネント410、入力/出力(I/O)インターフェース412、センサーコンポーネント414、及び通信コンポーネント416のうちの1つ又は複数のコンポーネントを備えてもよい。
処理コンポーネント402は、通常、装置400全体の操作、たとえば、表示、電話の発呼、データ通信、カメラ操作や記録操作に係る操作を制御する。処理コンポーネント402は、命令を実行して上記方法のすべて又は一部のステップを完了するために、1つ又は複数のプロセッサ420を備えてもよい。そのほか、処理コンポーネント402は、ほかのコンポーネントと容易にインタラクションできるように、1つ又は複数のモジュールを備えてもよい。たとえば、処理コンポーネント402は、マルチメディアコンポーネント408と容易にインタラクションするように、マルチメディアモジュールを備えてもよい。
メモリ404は、装置400での操作をサポートするように各種のタイプのデータを記憶するように構成される。これらデータの例には、装置400において運行する任意のアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオなどが含まれる。メモリ404は、任意のタイプの揮発性又は不揮発性記憶機器又はこれらの組み合わせによって実現でき、たとえば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクである。
電力コンポーネント406は、装置400のさまざまなコンポーネントに電力を供給する。電力コンポーネント406は、電源管理システム、1つ又は複数の電源、及び装置400の生成、管理及び電力配分に係るコンポーネントを備えてもよい。
マルチメディアコンポーネント408は、前記装置400とユーザーの間で1つの出力インターフェースを提供する画面を備える。いくつかの実施例において、画面は、液晶ディスプレイ(LCD)及びタッチパネル(TP)を備えてもよい。画面がタッチパネルを備える場合、画面は、タッチスクリーンとなり、ユーザーからの入力信号を受信する。タッチパネルは、タッチ、スライド及びタッチパネルにおけるジェスチャーを検知するように1つ又は複数のタッチセンサーを備える。前記ジェスチャーセンサーは、ジェスチャー又はスライドの動作のエッジを検知するだけでなく、前記ジェスチャー又はスライド操作に係る持続時間及び圧力を検出できる。いくつかの実施例において、マルチメディアコンポーネント408は、1つのフロントカメラ及び/又はバックカメラを備える。装置400が操作モード、たとえば撮影モード又はビデオモードである場合、フロントカメラ及び/又はバックカメラは、外部のマルチメディアデータを受信できる。フロントカメラ及びバックカメラは、それぞれ固定した光学レンズシステムであるか、又は焦点距離及び光学ズーム能力を有するようにしてもよい。
オーディオコンポーネント410は、オーディオ信号を出力及び/又は入力するように構成される。たとえば、オーディオコンポーネント410は、1つのマイクロフォン(MIC)を備え、装置400が操作モード、たとえば発呼モード、記録モード及び音声認識モードである場合、マイクロフォンは、外部のオーディオ信号を受信するように構成される。受信したオーディオ信号がさらにメモリ404に記憶され又は通信コンポーネント416を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント410は、オーディオ信号を出力するためのスピーカーをさらに備える。
I/Oインターフェース412は、処理コンポーネント402と周辺インターフェースモジュールとの間にインターフェースを提供し、上記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらボタンには、ホームページボタン、音量ボタン、スタートボタン及びロックボタンが含まれるが、これらに制限されない。
センサーコンポーネント414は、装置400のさまざまな状態を評価するために1つ又は複数のセンサーを備える。たとえば、センサーコンポーネント414は、装置400のオン/オフ状態、装置400のモニターやキーパッドなどのコンポーネントの相対位置を検出することができ、センサーコンポーネント414は、また、装置400又は装置400の1つのコンポーネントの位置変化、ユーザーと装置400の接触の有無、装置400の方位又は加速/減速や装置400の温度変化を検出できる。センサーコンポーネント414は、いずれの物理的接触がない場合に付近の物体の存在を検出するための近接センサーを備えてもよい。センサーコンポーネント414は、画像形成用途用のために、たとえばCMOS又はCCD画像センサーなどの光センサーを備えてもよい。いくつかの実施例において、該センサーコンポーネント414は、加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー又は温度センサーを備えてもよい。
通信コンポーネント416は、装置400とほかの機器との有線又は無線通信を容易に実施するように構成される。装置400は、通信規格に基づく無線ネットワーク、たとえばWiFi、2G又は3G、又はこれらの組み合わせにアクセスすることができる。例示的な一実施例では、通信コンポーネント416は、放送チャンネルを介して外部の放送管理システムからの放送信号又は放送関連情報を受信する。例示的な一実施例では、前記通信コンポーネント416は、近距離通信を促進するために、近距離無線通信(NFC)モジュールをさらに備える。たとえば、NFCモジュールは、RF識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術やほかの技術によって実現できる。
例示的な実施例では、装置400は、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又はほかの電子素子により実現でき、上記方法を実行する。
例示的な実施例では、命令を含む非一時的なコンピュータ可読記憶媒体、たとえば命令を含むメモリ404をさらに提供し、上記命令は、装置400のプロセッサ420により実行されて上記方法を完成できる。たとえば、前記非一時的なコンピュータ可読記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピー(登録商標)ディスクや光データ記憶機器などであってもよい。
非一時的なコンピュータ可読記憶媒体であって、前記記憶媒体における命令が電子機器のプロセッサにより実行されるとき、電子機器にオーディオ処理の方法の1つを実行させ、前記方法は、
ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得するステップと、
前記第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、前記第2オーディオデータを取得するステップと、
前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップと、を含む。
当業者が明細書を読んで、ここで開示された発明を実施することによって、本開示のほかの実施形態を容易に相当し得る。本開示は、本開示的の任意の変形、用途又は適応変化を含むことを意図し、これら変形、用途又は適応変化は、本開示の一般的な原理を遵守し、かつ本開示で開示されていない本技術分野における公知常識又は慣用の技術的手段を含む。明細書及び実施例は、例示的なものに過ぎず、本開示の実際な範囲及び趣旨は、以下の特許請求の範囲により限定される。
なお、本開示は、以上説明し図示した詳細な構成に制限されず、その範囲から逸脱せずにさまざまな修正及び変化を行うことができる。本開示の範囲は、添付した特許請求の範囲のみにより限定される。

Claims (10)

  1. オーディオ処理方法であって、前記オーディオ処理方法は、電子機器に適用され、前記オーディオ処理方法は、
    ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得するステップと、
    前記第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、前記第2オーディオデータを取得するステップであって、前記第2オーディオデータの取得が開始される時点は、時間差の分だけ、前記第1オーディオデータの取得が終了される時点よりも後である、ステップと、
    前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップと
    を含み、
    前記オーディオ処理方法は、
    前記時間差を決定するステップをさらに含み、
    前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
    前記時間差が第1所定期間以上であれば、前記第1オーディオデータが完全に入力されたか否かを検出するステップと、
    前記第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータと前記第2オーディオデータとをスプライシングできるか否かを判断するステップと、
    前記第1オーディオデータと前記第2オーディオデータとをスプライシングできる場合、前記第1オーディオデータと前記第2オーディオデータとをスプライシングして、ターゲットオーディオデータを得るステップと
    を含む、オーディオ処理方法。
  2. 前記オーディオ処理方法は、
    前記第1オーディオデータが完全に入力された場合、前記第1オーディオデータ及び前記第2オーディオデータをそれぞれ前記ターゲットオーディオデータとして決定するステップをさらに含む、請求項1に記載のオーディオ処理方法。
  3. 前記オーディオ処理方法は、
    前記ターゲットオーディオデータに対して音響エコー除去処理を行うステップと、
    音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るステップと、
    前記応答情報を出力するステップと
    をさらに含む、請求項1又は請求項2に記載のオーディオ処理方法。
  4. 前記オーディオ処理方法は、
    検出対象のオーディオデータを取得するステップと、
    前記検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するステップと、
    前記検出対象オーディオデータに前記ウェイクアップ情報が含まれている場合、前記ターゲットアプリケーションに対してウェイクアップ処理を行うステップと
    をさらに含み、
    前記オーディオデータは、音声データを含む、請求項1又は請求項2に記載のオーディオ処理方法。
  5. オーディオ処理装置であって、前記オーディオ処理装置は、
    ターゲットアプリケーションをウェイクアップした後、第1オーディオ信号に対応する第1オーディオデータを取得するように構成される第1オーディオ取得モジュールと、
    前記第1オーディオデータを取得する過程において、第2オーディオ信号に対応する第2オーディオデータが検出された場合、前記第2オーディオデータを取得するように構成される第2オーディオ取得モジュールであって、前記第2オーディオデータの取得が開始される時点は、時間差の分だけ、前記第1オーディオデータの取得が終了される時点よりも後である、第2オーディオ取得モジュールと、
    前記第1オーディオデータ及び前記第2オーディオデータに基づいて、ターゲットオーディオデータを得るように構成される第1オーディオ決定モジュールと
    を備え、
    前記オーディオ処理装置は、
    前記時間差を決定するように構成される時間決定モジュールをさらに備え、
    前記第1オーディオ決定モジュールは、
    前記時間差が第1所定期間以上であれば、前記第1オーディオデータが完全に入力されたか否かを検出することと、
    前記第1オーディオデータが完全に入力されていない場合、前記第1オーディオデータと前記第2オーディオデータとをスプライシングできるか否かを判断することと、
    前記第1オーディオデータと前記第2オーディオデータとをスプライシングできる場合、前記第1オーディオデータと前記第2オーディオデータとをスプライシングして、ターゲットオーディオデータを得ることと
    を行うように構成される、オーディオ処理装置。
  6. 前記オーディオ処理装置は、
    前記第1オーディオデータが完全に入力された場合、前記第1オーディオデータ及び前記第2オーディオデータをそれぞれ前記ターゲットオーディオデータとして決定するように構成される第2オーディオ決定モジュールをさらに備える、請求項5に記載のオーディオ処理装置。
  7. 前記オーディオ処理装置は、
    前記ターゲットオーディオデータに対して音響エコー除去処理を行うように構成される音響エコー除去モジュールと、
    音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るように構成される応答モジュールと、
    前記応答情報を出力するように構成される出力モジュールと
    をさらに備える、請求項5又は請求項6に記載のオーディオ処理装置。
  8. 前記オーディオ処理装置は、
    検出対象のオーディオデータを取得するように構成される第3オーディオ取得モジュールと、
    前記検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するように構成される情報決定モジュールと、
    前記検出対象オーディオデータに前記ウェイクアップ情報が含まれている場合、前記ターゲットアプリケーションに対してウェイクアップ処理を行うように構成されるウェイクアップモジュールと
    をさらに備え、
    前記オーディオデータは、音声データを含む、請求項5又は請求項6に記載のオーディオ処理装置。
  9. オーディオ処理装置であって、
    プロセッサと、
    前記プロセッサによって実行可能な命令を記憶するように構成されるメモリと
    を備え、
    前記プロセッサは、請求項1~4のいずれか1項に記載のオーディオ処理方法を実行するように構成される、オーディオ処理装置。
  10. 非一時的なコンピュータ読み取り可能な記憶媒体であって、前記記憶媒体には、命令が記憶されており、
    前記命令は、オーディオ処理装置のプロセッサによって実行されると、請求項1~4のいずれか1項に記載のオーディオ処理方法を実行することを前記オーディオ処理装置に行わせる、非一時的なコンピュータ読み取り可能な記憶媒体。
JP2019563781A 2019-08-16 2019-10-09 オーディオ処理方法、装置及び記憶媒体 Active JP7166294B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910760806.3A CN110619873A (zh) 2019-08-16 2019-08-16 音频处理方法、装置及存储介质
CN201910760806.3 2019-08-16
PCT/CN2019/110213 WO2021031308A1 (zh) 2019-08-16 2019-10-09 音频处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
JP2022501623A JP2022501623A (ja) 2022-01-06
JP7166294B2 true JP7166294B2 (ja) 2022-11-07

Family

ID=68731780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019563781A Active JP7166294B2 (ja) 2019-08-16 2019-10-09 オーディオ処理方法、装置及び記憶媒体

Country Status (7)

Country Link
US (1) US11264027B2 (ja)
EP (2) EP4184506A1 (ja)
JP (1) JP7166294B2 (ja)
KR (1) KR102300257B1 (ja)
CN (1) CN110619873A (ja)
RU (1) RU2735363C1 (ja)
WO (1) WO2021031308A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431658B2 (en) * 2020-04-02 2022-08-30 Paymentus Corporation Systems and methods for aggregating user sessions for interactive transactions using virtual assistants
CN111583923B (zh) * 2020-04-28 2023-11-14 北京小米松果电子有限公司 信息控制方法及装置、存储介质
CN111598577B (zh) * 2020-07-24 2020-11-13 深圳市声扬科技有限公司 资源转移方法、装置、计算机设备和存储介质
US20220129543A1 (en) * 2020-10-27 2022-04-28 Arris Enterprises Llc Secure voice interface in a streaming media device to avoid vulnerability attacks
CN112837694B (zh) * 2021-01-29 2022-12-06 青岛海尔科技有限公司 设备唤醒方法、装置、存储介质及电子装置
CN113113036B (zh) * 2021-03-12 2023-06-06 北京小米移动软件有限公司 音频信号处理方法及装置、终端及存储介质
CN113329372B (zh) * 2021-06-08 2023-04-28 阿波罗智联(北京)科技有限公司 用于车载通话的方法、装置、设备、介质和产品
CN115798506A (zh) * 2022-11-10 2023-03-14 维沃移动通信有限公司 语音处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017078869A (ja) 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング
WO2019031268A1 (ja) 2017-08-09 2019-02-14 ソニー株式会社 情報処理装置、及び情報処理方法
WO2019107145A1 (ja) 2017-11-28 2019-06-06 ソニー株式会社 情報処理装置、及び情報処理方法
JP2019101385A (ja) 2017-12-08 2019-06-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2019117623A (ja) 2017-12-26 2019-07-18 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声対話方法、装置、デバイス及び記憶媒体
JP2019207329A (ja) 2018-05-29 2019-12-05 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
JP4686160B2 (ja) * 2004-10-04 2011-05-18 沖コンサルティングソリューションズ株式会社 会話記録装置および会話記録方法
US7930168B2 (en) * 2005-10-04 2011-04-19 Robert Bosch Gmbh Natural language processing of disfluent sentences
JP5158174B2 (ja) * 2010-10-25 2013-03-06 株式会社デンソー 音声認識装置
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
JP6235280B2 (ja) * 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
US10832005B1 (en) * 2013-11-21 2020-11-10 Soundhound, Inc. Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences
US8843369B1 (en) * 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
CN105934791B (zh) * 2014-01-31 2019-11-22 惠普发展公司,有限责任合伙企业 语音输入命令
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
DE102014017385B4 (de) * 2014-11-24 2016-06-23 Audi Ag Kraftfahrzeug-Gerätebedienung mit Bedienkorrektur
CN106409295B (zh) * 2015-07-31 2020-06-16 腾讯科技(深圳)有限公司 从自然语音信息中识别时间信息的方法和装置
US10331312B2 (en) * 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
KR102495517B1 (ko) * 2016-01-26 2023-02-03 삼성전자 주식회사 전자 장치, 전자 장치의 음성 인식 방법
US9659555B1 (en) * 2016-02-09 2017-05-23 Amazon Technologies, Inc. Multichannel acoustic echo cancellation
CN107665706B (zh) * 2016-07-29 2021-05-04 科大讯飞股份有限公司 快速语音交互方法及系统
US10013980B2 (en) * 2016-10-04 2018-07-03 Microsoft Technology Licensing, Llc Combined menu-based and natural-language-based communication with chatbots
CN106875945B (zh) * 2017-03-09 2020-06-26 广东美的制冷设备有限公司 语音控制方法、装置和空调器
CN107146602B (zh) * 2017-04-10 2020-10-02 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
KR20180118470A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
CN107195303B (zh) * 2017-06-16 2021-08-20 云知声智能科技股份有限公司 语音处理方法及装置
CN107146618A (zh) * 2017-06-16 2017-09-08 北京云知声信息技术有限公司 语音处理方法及装置
CN109215642A (zh) * 2017-07-04 2019-01-15 阿里巴巴集团控股有限公司 人机会话的处理方法、装置及电子设备
KR20190008663A (ko) * 2017-07-17 2019-01-25 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 시스템
US10586534B1 (en) * 2017-09-27 2020-03-10 Amazon Technologies, Inc. Voice-controlled device control using acoustic echo cancellation statistics
CN107863113A (zh) * 2017-11-08 2018-03-30 天脉聚源(北京)传媒科技有限公司 一种语音上传方法及装置
CN108172219B (zh) * 2017-11-14 2021-02-26 珠海格力电器股份有限公司 识别语音的方法和装置
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
US20190279623A1 (en) * 2018-03-08 2019-09-12 Kika Tech (Cayman) Holdings Co., Limited Method for speech recognition dictation and correction by spelling input, system and storage medium
CN108737933A (zh) * 2018-05-30 2018-11-02 上海与德科技有限公司 一种基于智能音箱的对话方法、装置及电子设备
CN108932942A (zh) * 2018-06-26 2018-12-04 四川斐讯信息技术有限公司 一种实现智能音箱人机对话的系统及其方法
CN108737934B (zh) * 2018-08-10 2024-04-09 广东庆昇科技有限公司 一种智能音箱及其控制方法
CN109147779A (zh) * 2018-08-14 2019-01-04 苏州思必驰信息科技有限公司 语音数据处理方法和装置
CN108986814A (zh) * 2018-09-04 2018-12-11 出门问问信息科技有限公司 一种唤醒应用服务的方法及装置
CN109360551B (zh) * 2018-10-25 2021-02-05 珠海格力电器股份有限公司 一种语音识别方法及装置
CN109545206B (zh) * 2018-10-29 2024-01-30 百度在线网络技术(北京)有限公司 智能设备的语音交互处理方法、装置和智能设备
CN109599124B (zh) * 2018-11-23 2023-01-10 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN109599130B (zh) * 2018-12-10 2020-10-30 百度在线网络技术(北京)有限公司 收音方法、装置及存储介质
CN109410944B (zh) * 2018-12-12 2020-06-09 百度在线网络技术(北京)有限公司 语音交互方法、装置和终端
CN110111789B (zh) * 2019-05-07 2022-02-08 阿波罗智联(北京)科技有限公司 语音交互方法、装置、计算设备和计算机可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017078869A (ja) 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング
WO2019031268A1 (ja) 2017-08-09 2019-02-14 ソニー株式会社 情報処理装置、及び情報処理方法
WO2019107145A1 (ja) 2017-11-28 2019-06-06 ソニー株式会社 情報処理装置、及び情報処理方法
JP2019101385A (ja) 2017-12-08 2019-06-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2019117623A (ja) 2017-12-26 2019-07-18 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声対話方法、装置、デバイス及び記憶媒体
JP2019207329A (ja) 2018-05-29 2019-12-05 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
堀田尚希 他,"音声発話の誤分割修復のための修復必要性の判定",第70回言語・音声理解と対話処理研究会資料,2014年02月26日,pp.45-52,特に、「1 はじめに」~「4 決定木による修復必要性の判定」

Also Published As

Publication number Publication date
EP4184506A1 (en) 2023-05-24
WO2021031308A1 (zh) 2021-02-25
KR102300257B1 (ko) 2021-09-10
US11264027B2 (en) 2022-03-01
KR20210024408A (ko) 2021-03-05
CN110619873A (zh) 2019-12-27
RU2735363C1 (ru) 2020-10-30
JP2022501623A (ja) 2022-01-06
US20210050010A1 (en) 2021-02-18
EP3779968A1 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
JP7166294B2 (ja) オーディオ処理方法、装置及び記憶媒体
JP6811758B2 (ja) 音声対話方法、装置、デバイス及び記憶媒体
RU2667027C2 (ru) Способ и устройство категоризации видео
RU2619893C2 (ru) Способ и устройство для голосового вызова, способ и устройство для воспроизведения голосового сигнала
US9661133B2 (en) Electronic device and method for extracting incoming/outgoing information and managing contacts
CN111696553B (zh) 一种语音处理方法、装置及可读介质
US11200899B2 (en) Voice processing method, apparatus and device
JP2017527928A (ja) テキスト入力方法、装置、プログラム及び記録媒体
CN111583923B (zh) 信息控制方法及装置、存储介质
EP3933570A1 (en) Method and apparatus for controlling a voice assistant, and computer-readable storage medium
CN109101517B (zh) 信息处理方法、信息处理设备以及介质
WO2020103353A1 (zh) 多波束选取方法及装置
CN111968680B (zh) 一种语音处理方法、装置及存储介质
CN111580773A (zh) 信息处理方法、装置及存储介质
CN109325337A (zh) 解锁方法及装置
CN108108213A (zh) 指令集执行方法及装置
CN112002313A (zh) 交互方法及装置、音箱、电子设备和存储介质
CN111580775B (zh) 信息控制方法及装置、存储介质
CN113035189A (zh) 一种文档演示的控制方法、装置和设备
CN111913590A (zh) 一种输入方法、装置和设备
CN106777075B (zh) 移动终端的网页刷新方法及装置
CN116030804A (zh) 一种语音唤醒方法、语音唤醒装置及存储介质
CN116543745A (zh) 语音录制方法、装置、电子设备及存储介质
CN115495039A (zh) 音频播放设备、控制方法、装置、电子设备及存储介质
CN117636893A (zh) 风噪检测方法、装置、可穿戴设备及可读储存介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221014

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221025

R150 Certificate of patent or registration of utility model

Ref document number: 7166294

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150