JP7166294B2

JP7166294B2 - オーディオ処理方法、装置及び記憶媒体

Info

Publication number: JP7166294B2
Application number: JP2019563781A
Authority: JP
Inventors: 路康虹; ▲楊▼瑞; ▲馮▼小川; 崔世起; ▲韓▼▲偉▼; 秦斌; 王▲剛▼; 李丹
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2019-08-16
Filing date: 2019-10-09
Publication date: 2022-11-07
Anticipated expiration: 2039-10-09
Also published as: EP4184506A1; WO2021031308A1; KR102300257B1; US11264027B2; KR20210024408A; CN110619873A; RU2735363C1; JP2022501623A; US20210050010A1; EP3779968A1

Description

（関連出願の相互参照）
本願は、出願番号２０１９１０７６０８０６．３、出願日２０１９年０８月１６日の中国特許出願に基づいて提案しており、該中国特許出願の優先権を主張し、該中国特許出願の全内容が参照により本願に組み込まれる。

本開示は、情報技術分野に関し、特にオーディオ処理方法、装置及び記憶媒体に関する。

現在、音声を通じたヒューマンコンピュータインタラクションのインタラクション方式が注目を集めており、インターネット産業にわたって音声インタラクションが可能な応用方式及び応用場面の検討が積極的に進められており、且つ、スマートスピーカー、音声アシスタントなど、音声インタラクションに基づく多数の製品が販売され始める。その中でも、音声アシスタントは、ほぼすべてのメーカーの新製品発表会の焦点になり、ある程度ユーザーの消費選択に影響を与える。しかしながら、ユーザーが音声アシスタントとインタラクションを行うときには、会話プロセスが複雑であり且つ順調さが不十分であるという問題がある。

本開示は、オーディオ処理方法、装置及び記憶媒体を提供する。

本開示の実施例の第１態様によれば、オーディオ処理方法を提供し、前記方法は、電子機器に適用され、
ターゲットアプリケーションをウェイクアップ（ｗａｋｅ－ｕｐ）した後、第１オーディオ信号に対応する第１オーディオデータを取得するステップと、
前記第１オーディオデータを取得する過程において、第２オーディオ信号に対応する第２オーディオデータが検出された場合、前記第２オーディオデータを取得するステップと、
前記第１オーディオデータ及び前記第２オーディオデータに基づいて、ターゲットオーディオデータを得るステップと、を含む。

いくつかの実施例において、前記方法は、
前記第１オーディオデータの取得終了と前記第２オーディオデータの取得開始との間の時間差を決定するステップをさらに含み
前記第１オーディオデータ及び前記第２オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
前記時間差が第１所定期間以上であれば、前記第１オーディオデータ及び前記第２オーディオデータに基づいて、前記ターゲットオーディオデータを得るステップを含む。

いくつかの実施例において、前記時間差が第１所定期間以上であれば、前記第１オーディオデータ及び前記第２オーディオデータに基づいて、前記ターゲットオーディオデータを得るステップは、
前記時間差が第１所定期間以上であれば、前記第１オーディオデータが完全に入力されたか否かを検出するステップと、
前記第１オーディオデータが完全に入力されていない場合、前記第１オーディオデータ及び前記第２オーディオデータに基づいて、前記ターゲットオーディオデータを得るステップと、を含む。

いくつかの実施例において、前記第１オーディオデータが完全に入力されていない場合、前記第１オーディオデータ及び前記第２オーディオデータに基づいて、前記ターゲットオーディオデータを得るステップは、
第１オーディオデータが完全に入力されていない場合、前記第１オーディオデータと前記第２オーディオデータをスプライシングできるか否かを判断するステップと、
前記第１オーディオデータと前記第２オーディオデータをスプライシングできる場合、前記第１オーディオデータと前記第２オーディオデータをスプライシングして、ターゲットオーディオデータを得るステップと、を含む。

いくつかの実施例において、前記方法は、
前記第１オーディオデータが完全に入力された場合、前記第１オーディオデータ及び前記第２オーディオデータをそれぞれ前記ターゲットオーディオデータとして決定するステップをさらに含む。

いくつかの実施例において、前記方法は、
前記ターゲットオーディオデータに対して音響エコー除去処理を行うステップと、
音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るステップと、
前記応答情報を出力するステップと、をさらに含む。

いくつかの実施例において、前記方法は、
検出対象のオーディオデータを取得するステップと、
前記検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するステップと、
前記検出対象オーディオデータに前記ウェイクアップ情報が含まれている場合、前記ターゲットアプリケーションに対してウェイクアップ処理を行うステップと、をさらに含み、
前記オーディオデータは、音声データを含む。

本開示の実施例の第２態様によれば、オーディオ処理装置を提供し、該オーディオ処理装置は、
ターゲットアプリケーションをウェイクアップした後、第１オーディオ信号に対応する第１オーディオデータを取得するように構成される第１オーディオ取得モジュールと、
前記第１オーディオデータを取得する過程において、第２オーディオ信号に対応する第２オーディオデータが検出された場合、前記第２オーディオデータを取得するように構成される第２オーディオ取得モジュールと、
前記第１オーディオデータ及び前記第２オーディオデータに基づいて、ターゲットオーディオデータを得るように構成される第１オーディオ決定モジュールと、を備える。

いくつかの実施例において、前記装置は、
前記第１オーディオデータの取得終了と前記第２オーディオデータの取得開始との間の時間差を決定するように構成される時間決定モジュールをさらに備え、
前記第１オーディオ決定モジュールは、
前記時間差が第１所定期間以上であれば、前記第１オーディオデータ及び前記第２オーディオデータに基づいて、前記ターゲットオーディオデータを得るように構成されるオーディオ決定サブモジュールを備える。

いくつかの実施例において、前記オーディオ決定サブモジュールは、具体的には、
前記時間差が第１所定期間以上であれば、前記第１オーディオデータが完全に入力されたか否かを検出し、
前記第１オーディオデータが完全に入力されていない場合、前記第１オーディオデータ及び前記第２オーディオデータに基づいて、前記ターゲットオーディオデータを得るように構成される。

いくつかの実施例において、前記オーディオ決定サブモジュールは、さらに、具体的には、
第１オーディオデータが完全に入力されていない場合、前記第１オーディオデータと前記第２オーディオデータをスプライシングできるか否かを判断し、
前記第１オーディオデータと前記第２オーディオデータをスプライシングできる場合、前記第１オーディオデータと前記第２オーディオデータをスプライシングして、ターゲットオーディオデータを得るように構成される。

いくつかの実施例において、前記装置は、
前記第１オーディオデータが完全に入力された場合、前記第１オーディオデータ及び前記第２オーディオデータをそれぞれ前記ターゲットオーディオデータとして決定するように構成される第２オーディオ決定モジュールをさらに備える。

いくつかの実施例において、前記装置は、
前記ターゲットオーディオデータに対して音響エコー除去処理を行うように構成される音響エコー除去モジュールと、
音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るように構成される応答モジュールと、
前記応答情報を出力するように構成される出力モジュールと、をさらに備える。

いくつかの実施例において、前記装置は、
検出対象のオーディオデータを取得するように構成される第３オーディオ取得モジュールと、
前記検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するように構成される情報決定モジュールと、
前記検出対象オーディオデータに前記ウェイクアップ情報が含まれている場合、前記ターゲットアプリケーションに対してウェイクアップ処理を行うように構成されるウェイクアップモジュールと、をさらに備え、
前記オーディオデータは、音声データを含む。

本開示の実施例の第３態様によれば、オーディオ処理装置を提供し、該オーディオ処理装置は、
プロセッサと、
プロセッサにより実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、上記第１態様におけるオーディオ処理方法のステップを実現するために実行されるように構成される。

本開示の実施例の第４態様によれば、前記記憶媒体における命令がオーディオ処理装置のプロセッサにより実行されるとき、上記第１態様におけるオーディオ処理方法を前記装置に実行させる非一時的なコンピュータ可読記憶媒体を提供する。

本開示の実施例による技術案は、以下の有益な効果を有する。

本開示の実施例では、ターゲットアプリケーションをウェイクアップした後、第１オーディオデータを取得する過程において、第２オーディオデータが検出された場合、第１オーディオデータ及び第２オーディオデータに対して分析及び処理を行って、ターゲットオーディオデータを得て、持続的な会話の過程では、複数のオーディオデータをそれぞれ直接処理することができ、受信したオーディオデータに対して応答した後に次のオーディオデータを処理する場合に比べて、ターゲットアプリケーションを再度ウェイクアップする必要がなく、それによって、対話プロセスを簡素化させるとともに、音声インタラクションのプロセスをより順調にし、さらに、第１オーディオデータと第２オーディオデータを結合して、ターゲットオーディオデータを得て、ターゲットオーディオデータに対してオーディオ応答を行うことによって、ユーザーの本格なニーズをより正確に把握し、個別に第１オーディオデータ及び第２オーディオデータに応答することによる応答エラーの確率を減少させ、このため、オーディオ応答の正確率も向上させる。

なお、以上の一般的な説明及び以下の詳細な説明は、解釈するための例示的なものに過ぎず、本開示を制限するものではない。

ここでの図面は、明細書に組み込まれて本明細書の一部を構成し、本開示に適した実施例が示されて、明細書とともに本開示の原理を解釈する。

例示的な一実施例によるオーディオ処理方法のフローチャートの１つである。例示的な一実施例によるオーディオ処理方法の別の模式的なフローチャートである。例示的な一実施例によるオーディオ処理装置のブロック図である。例示的な一実施例によるオーディオ処理装置のハードウェア構造のブロック図である。

ここで例示的な実施例を詳細に説明し、その例は図面に示されている。以下の説明においては、図面を言及する場合、特に断らない限り、異なる図面における同じ数字は、同じ又は類似した要素を表す。以下の例示的な実施例に説明される実施形態は、本開示と一致するすべての実施形態ではない。添付した特許請求の範囲に詳細に記載された、本開示のいくつかの態様と一致する装置及び方法の例に過ぎない。

図１は、例示的な一実施例によるオーディオ処理方法のフローチャートの１つであり、図１に示すように、該方法は、電子機器に適用され、電子機器は、携帯端末及び固定端末を備え、たとえば、携帯電話、タブレット、ポケットコンピュータ、ノード型コンピュータ、デスクトップコンピュータ、ウェアラブルモバイルデバイス、スマートスピーカーなどである。該方法は、ステップ１０１～ステップ１０３を含む。

ステップ１０１では、ターゲットアプリケーションをウェイクアップした後、第１オーディオ信号に対応する第１オーディオデータを取得する。

ターゲットアプリケーションは、電子機器にインストール可能でありユーザーと音声インタラクションを行うためのアプリケーションであり、たとえば、音声アシスタントなどである。第１オーディオ信号は、電子機器が備える音収集コンポーネントによって収集される音声信号、たとえば、ユーザーからの音声信号を含み得る。第１オーディオデータは、第１オーディオ信号をデジタル化処理したオーディオデータである。

電子機器が備えるオーディオ収集コンポーネントによってオーディオ信号を収集し、オーディオ信号をデジタル化処理して、オーディオデータを得ることができる。ここで、オーディオ収集コンポーネントは、電子機器が備えるオーディオ収集用のコンポーネントであってもよく、電子機器が携帯電話である場合を例にすると、オーディオ収集コンポーネントは、携帯電話のマイクロフォンであり得る。

本開示の実施例では、音声ウェイクアップ方式でターゲットアプリケーションをウェイクアップし、ターゲットアプリケーションをウェイクアップした後、ターゲットアプリケーションに基づいてオーディオデータを取得することができる。

たとえば、電子機器が備えるオーディオ収集コンポーネントによりユーザーからの音声信号が受信されると、該音声信号に対してデジタル化処理を行って、音声データを得る。音声データに予め設定されたウェイクアップ単語があるか否かを検出し、音声データにウェイクアップ単語が含まれている場合、ターゲットアプリケーションをウェイクアップする。ここで、ウェイクアップ単語は、ユーザーにより必要に応じて設定されるものであってもよく、たとえば、ウェイクアップ単語を「小愛同学」に設定する。

ステップ１０２では、第１オーディオデータを取得する過程において、第２オーディオ信号に対応する第２オーディオデータが検出された場合、第２オーディオデータを取得する。

該第２オーディオデータは、第１オーディオデータと同じであってもよく、第１オーディオデータと異なってもよい。第１オーディオデータを取得する過程において取得されるオーディオデータであれば、第２オーディオデータとすることができる。

ステップ１０３では、第１オーディオデータ及び第２オーディオデータに基づいて、ターゲットオーディオデータを得る。

ターゲットアプリケーションは、異なる時刻にそれぞれ第１オーディオデータ及び第２オーディオデータを取得した後、第１オーディオデータ及び第２オーディオデータに基づいて、ターゲットオーディオデータを得て、ターゲットオーディオデータに基づいて対応した応答を行うことができる。

ターゲットオーディオデータは、第１オーディオデータ、第２オーディオデータ、第１オーディオデータと第２オーディオデータをスプライシングしてなる第３オーディオデータのうちの少なくとも１つを含む。ターゲットオーディオデータが第１オーディオデータと第２オーディオデータをスプライシングしてなる第３オーディオデータである場合を例にすると、第１オーディオデータに含まれる内容が「今日の天気は」、第２オーディオデータに含まれる内容が「晴れ」であれば、第３オーディオデータであるターゲットオーディオデータに含まれる内容は、「今日の天気は晴れです」となる。

本開示の実施例では、ターゲットアプリケーションをウェイクアップした後、第１オーディオデータを取得する過程において、第２オーディオデータが検出された場合、第１オーディオデータ及び第２オーディオデータの両方に対して分析及び処理を行って、ターゲットオーディオデータを取得しうる。持続的な会話の過程では、それぞれ複数のオーディオデータに対して同時に直接処理を行うことができ、ターゲットアプリケーションを再度ウェイクアップする必要がなく、それによって、対話プロセスを簡素化させるとともに、音声インタラクションのプロセスをより順調にする。

前記第１オーディオデータ及び第２オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
前記第１オーディオデータの第１セマンティックコンテンツ及び前記第２オーディオデータの第２セマンティックコンテンツに基づいて、前記ターゲットオーディオデータを得るステップを含む。

たとえば、前記第１セマンティックコンテンツと前記第２セマンティックコンテンツが互いを補完する場合、前記第１オーディオデータと前記第２オーディオデータを組みわせて前記ターゲットオーディオデータを得ることができ、ユーザーが第１音声信号を送信した後、途中で一時停止し又は中断されるため、第２オーディオ信号で補充する必要がある場合は、このような応用場面である。

ここで、第１セマンティックコンテンツが「してください」、第２セマンティックコンテンツが「目覚まし時計を設定する」である場合を例にすると、第１セマンティックコンテンツ及び第２セマンティックコンテンツについてセマンティック分析を行い、第１セマンティックコンテンツと第２セマンティックコンテンツが互いを補完すると決定する。次に、第１オーディオデータと第２オーディオデータを組み合わせてターゲットオーディオデータを得る。それによって、ユーザーの最終ニーズが「目覚まし時計を設定してください」であると決定できる。

さらに、たとえば、第１セマンティックコンテンツと前記第２セマンティックコンテンツが互いに矛盾する場合、前記第２オーディオデータを前記ターゲットオーディオデータとすることができ、このような応用場面は、ユーザーからの第１オーディオ信号エラーを第２オーディオ信号で校正する場面である。

第１セマンティックコンテンツが「武漢の今日の天気は」、第２セマンティックコンテンツが「いいえ、北京の今日の天気を確認したいです」である場合を例にする。第１セマンティックコンテンツ及び第２セマンティックコンテンツについてセマンティック分析を行ったところ、第１オーディオデータ及び第２オーディオデータがすべて天気のお問い合わせであることが分かった。第１セマンティックコンテンツと第２セマンティックコンテンツには相関性があるが、第１オーディオデータが武漢の天気のお問い合わせであるのに対して、第２オーディオデータが北京の天気のお問い合わせであり、両方が互いに矛盾し、且つ分析したところ第１セマンティックコンテンツがエラーであることがわかった。この場合、ターゲットアプリケーションは、第１オーディオデータを処理しなくてもよいと判定し、第２オーディオデータをターゲットオーディオデータとして決定し、第２オーディオデータに対応する応答情報を出力する。

また、たとえば、第１セマンティックコンテンツ及び前記第２セマンティックコンテンツが互いに独立したものであり、意味的には補完と矛盾がない場合、前記第１オーディオデータと第２オーディオデータを２つのターゲットオーディオデータとし、それぞれオーディオ応答を行う必要がある。ユーザーが急いでいる又は発話速度が高い場合、２つの完全に別々の音声信号を短時間で送信する場合は、このような応用場面である。

ここで、第１セマンティックコンテンツが「武漢の今日の天気は」、第２セマンティックコンテンツが「目覚まし時計を設定してください」である場合を例にすると、第１セマンティックコンテンツ及び第２セマンティックコンテンツについてセマンティック分析を行ったところ、第１セマンティックコンテンツと第２セマンティックコンテンツには相関性がなく、且つ第１オーディオデータ及び第２オーディオデータがそれぞれユーザーの２つの異なるニーズを反映することが分かった。この場合、第１セマンティックコンテンツと前記第２セマンティックコンテンツが互いに独立し、すなわち、意味的には補完と矛盾がないと決定し、前記第１オーディオデータと第２オーディオデータを２つのターゲットオーディオデータとし、それぞれオーディオ応答を行い、且つ第１オーディオデータと第２オーディオデータに対応する応答情報をそれぞれ出力する必要がある。

本開示の実施例における技術案は、受信したオーディオデータに対して応答した後に次のオーディオデータを処理する場合に比べて、ターゲットアプリケーションを再度ウェイクアップする必要がなく、それによって、対話プロセスを簡素化させるとともに、音声インタラクションのプロセスをより順調にし、さらに、第１オーディオデータと第２オーディオデータを結合してターゲットオーディオデータを得て、ターゲットオーディオデータに対してオーディオ応答を行うことによって、ユーザーの本格なニーズをより正確に把握し、個別に第１オーディオデータ及び第２オーディオデータに応答することによる応答エラーの確率を減少させ、このため、オーディオ応答の正確率も向上させる。

別の好ましい実施例では、該方法は、
第１オーディオデータの取得終了と第２オーディオデータの取得開始との間の時間差を決定するステップをさらに含み、
この場合、ステップ１０３は、
第１オーディオデータの取得終了と第２オーディオデータの取得開始との間の時間差が第１所定期間以上であれば、第１オーディオデータ及び第２オーディオデータに基づいて、ターゲットオーディオデータを得るステップを含む。

オーディオデータを取得する過程において、ユーザーが少し一時停止することがある。この場合、ターゲットアプリケーションは、停止前後に取得したオーディオデータをそれぞれ第１オーディオデータと第２オーディオデータとすることがある。

第１オーディオデータ及び第２オーディオデータを取得する時刻が異なり、且つ第２オーディオデータが第１オーディオデータ終了後に取得されるため、電子機器は、第１オーディオデータの取得が終了する終了時刻と第２オーディオデータの取得を開始させる開始時刻とをそれぞれ取得し、次に、該終了時刻及び開始時刻に基づいて時間差を得ることができる。

次に、得られた時間差を設定された第１所定期間と比較し、時間差が第１所定期間以上であれば、ユーザーが話している途中に少し停止するのではないと判定する。このような場合には、ターゲットオーディオデータを得るには、第１オーディオデータ及び第２オーディオデータへのさらなる判断及び処理が必要とされる。たとえば、第１オーディオデータ及び第２オーディオデータをそれぞれターゲットオーディオデータとし、又は第１オーディオデータと第２オーディオデータをスプライシングして、ターゲットオーディオデータを得る。

第１オーディオデータの取得終了と第２オーディオデータの取得開始との間の時間差が第１所定期間未満であれば、ユーザーが話している途中に少し停止すると判定する。この場合、第１オーディオデータと第２オーディオデータを直接スプライシングして完全なオーディオデータとし、この完全なオーディオデータをターゲットオーディオデータとすることができる。

本開示の実施例では、ターゲットオーディオデータを得る前に、第１オーディオデータの取得終了と第２オーディオデータの取得開始との間の時間差を判定し、次に、第１オーディオデータ及び第２オーディオデータに対するさらなる処理が必要であるか否かを決定し、このようにして、取得されたオーディオデータに対して不要な処理を行うことを減少できる。

ほかの好ましい実施例では、時間差が第１所定期間以上であれば、第１オーディオデータ及び第２オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
時間差が第１所定期間以上であれば、第１オーディオデータが完全に入力されたか否かを検出するステップと、
第１オーディオデータが完全に入力されていない場合、第１オーディオデータ及び第２オーディオデータに基づいて、ターゲットオーディオデータを得るステップと、を含む。

第１オーディオデータの取得終了と第２オーディオデータの取得開始との間の時間差が第１所定期間以上であれば、第１オーディオデータが完全に入力されたか否かをさらに検出する。第１オーディオデータが完全に入力されたか否かを検出することは、第１音声データの第１セマンティックコンテンツを取得することと、前記第１セマンティックコンテンツについてセマンティック分析を行って、セマンティック分析結果を得ることと、セマンティック分析結果に基づいて第１オーディオデータが完全に入力されたか否かを決定することと、を含む。

たとえば、第１オーディオデータの第１セマンティックコンテンツが「設定してください」である。第１セマンティックコンテンツを分析した結果、第１セマンティックコンテンツにはいくつかの単語が含まれているが、第１セマンティックコンテンツに含まれる単語だけではユーザーのニーズを特定できない。それによって、第１セマンティックコンテンツのユーザーが音声信号を送信する過程に停止し又は中断される可能性があることが分かり、第１音声データが完全に入力されていないと判定できる。

別の実施例では、第１音声データが完全ではなく、且つユーザーのさらなるオーディオ信号の入力が検出されない場合、ターゲットアプリケーションは、コンテクストを考慮して第１オーディオデータについて対応する応答情報を送信できる。たとえば、第１オーディオデータの第１セマンティックコンテンツが「設定してください」である場合、ターゲットアプリケーションによる応答情報は、「何を設定してほしいですか」であってもよい。

ここで、自然言語処理（ＮＬＰ：ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）技術によって第１オーディオデータが完全に入力されたか否かを検出できる。

ほかの好ましい実施例では、第１オーディオデータが完全に入力されていない場合、第１オーディオデータ及び第２オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
第１オーディオデータが完全に入力されていない場合、第１オーディオデータと第２オーディオデータをスプライシングできるか否かを判断するステップと、
第１オーディオデータと第２オーディオデータをスプライシングできる場合、第１オーディオデータと第２オーディオデータをスプライシングして、ターゲットオーディオデータを得るステップと、を含む。

たとえば、第１オーディオデータに含まれる内容が「今日の天気は」、第２オーディオデータに含まれる内容が「晴れ」である場合、第３オーディオデータであるターゲットオーディオデータに含まれる内容は、「今日の天気は晴れです」となる。

ほかの好ましい実施例では、該方法は、第１オーディオデータが完全に入力された場合、第１オーディオデータ及び第２オーディオデータをそれぞれターゲットオーディオデータとして決定するステップをさらに含む。

ここで、第１オーディオデータが完全に入力された場合、ターゲットアプリケーションが第１オーディオデータについて対応する応答情報を取得できると決定し、この場合、直接第１オーディオデータをターゲットオーディオデータとして決定できる。同様に、第２オーディオデータが完全に入力された場合、第２オーディオデータをターゲットオーディオデータとして決定できる。このようにして、ターゲットアプリケーションは、第１オーディオデータ及び第２オーディオデータに対応する応答情報をそれぞれ取得できる。

ほかの好ましい実施例では、該方法は、
ターゲットオーディオデータに対して音響エコー除去処理を行うステップと、音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るステップと、応答情報を出力するステップと、をさらに含む。

オーディオ処理には、電子機器が電子機器自体からのオーディオ信号（音楽、メッセージトーン）などを録音することがあり、この場合、ターゲットオーディオデータに対して音響エコー除去処理を行い、エコー処理後のターゲットオーディオデータ応答情報を得ることが必要とされ、それによって、電子機器からのオーディオ信号の干渉を減少させて、ターゲットアプリケーションが出力した応答情報の正確性及び安定性を確保できる。

ここで、自動音声認識（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：ＡＳＲ）技術及び音響エコー除去（ＡｃｏｕｓｔｉｃＥｃｈｏＣａｎｃｅｌｌａｔｉｏｎ：ＡＥＣ）技術によってターゲットオーディオデータに対して音響エコー除去処理を実施できる。

別の実施例では、環境騒音、環境におけるヒトの音声（ユーザー又は他人がターゲットアプリケーション以外のために発音する音）などを録音する確率を減少させるために、ＡＳＲ技術及びＮＬＰ技術によりターゲットオーディオデータを処理することで、ターゲットアプリケーション以外のための音をシールドしてもよい。

ほかの好ましい実施例では、該方法は、
検出対象のオーディオデータを取得するステップと、出対象のオーディオデータにターゲットアプリケーションをウェイクアップするウェイクアップ情報が含まれているか否かを決定するステップと、検出対象のオーディオデータにウェイクアップ情報が含まれている場合、ターゲットアプリケーションに対してウェイクアップ処理を行うステップと、をさらに含み、オーディオデータは、音声データを含む。

電子機器が備えるオーディオ収集コンポーネントによってオーディオ信号を収集し、オーディオ信号をデジタル化処理して、オーディオデータを得ることができ、ここで、オーディオ収集コンポーネントは、電子機器が備えるオーディオ収集用のコンポーネントであってもよく、電子機器が携帯電話である場合を例にすると、オーディオ収集コンポーネントは、携帯電話のマイクロフォンであり得る。

検出対象のオーディオデータは、収集したユーザーの音声信号をデジタル化処理して得た音声データを含み、ウェイクアップ情報は、予め設定されたウェイクアップ単語であり、ターゲットアプリケーションは、電子機器にインストールされてユーザーと音声インタラクションを行うためのアプリケーション、たとえば、音声アシスタントであってもよい。

具体的には、電子機器が備えるオーディオ収集コンポーネントによりユーザーからの音声信号が受信されると、該音声信号に対してデジタル化処理を行って、音声データを得て、音声データに予め設定されたウェイクアップ単語があるか否かを検出する。ここで、ウェイクアップ単語は、ユーザーにより必要に応じて設定されるものであってもよく、たとえば、ウェイクアップ単語を「小愛同学」に設定する。

ウェイクアップ処理とは、ターゲットアプリケーションがスリープ状態から作動状態に入るように制御することを意味し、ターゲットアプリケーションをウェイクアップした後、ターゲットアプリケーションによってオーディオデータを処理できる。別の実施例では、アイコン、ショートカットキーなどによってユーザーが入力したウェイクアップ操作を受信して、ターゲットアプリケーションをウェイクアップすることもできる。

ほかの好ましい実施例では、携帯電話にインストールされる音声アシスタントを例にして、ユーザーは、携帯電話の音声アシスタントと音声インタラクションをする際に、まず、所定命令を通じて音声アシスタントをウェイクアップし、ウェイクアップ後に話し始め、音声アシスタントは、ユーザーが話している内容に応じた応答を行う。

所定命令は、所定の音声命令、携帯電話におけるアイコンに対するトリガー命令、携帯電話におけるショートカットキーに対するトリガー命令のうちの少なくとも１つを含む。ここで、ユーザーが音声アシスタントに対して今日及び明日の天気のお問い合わせをする場合を例にして、主な会話の内容は、以下のとおりである。
ユーザー：小愛同学（ここで音声命令を通じて音声アシスタントをウェイクアップするが、アイコン、ショートカットキーをクリックするなどのほかの方式で音声アシスタントをウェイクアップしてもよい）
小愛：はい／プロンプトトーン（応答プロンプト）
ユーザー：今日の天気は、
小愛：今日の天気は、……（今日の天気を放送する）
ユーザー：小愛同学（ここで音声命令を通じて音声アシスタントをウェイクアップするが、アイコン、ショートカットキーをクリックするなどのほかの方式で音声アシスタントをウェイクアップしてもよい）
小愛：はい／プロンプトトーン（応答プロンプト）
ユーザー：明日は、
小愛：明日の北京の天気は……（明日の天気を放送する）

別の実施例では、ユーザーは、まず、所定命令を通じて音声アシスタントをウェイクアップし、ウェイクアップ後に話し始め、音声アシスタントは、ユーザーが１つのセンテンスを終了した後に話し続ける可能性があると予備判出すると、回答終了後にマイクロフォンを自動的にウェイクアップして、ユーザーからの次の命令を受信する。ここで、ユーザーが音声アシスタントを通じて目覚まし時計を設定する場合を例にして、主な会話の内容は、以下のとおりである。
ユーザー：小愛同学（ここで音声命令を通じて音声アシスタントをウェイクアップするが、アイコン、ショートカットキーをクリックするなどのほかの方式で音声アシスタントをウェイクアップしてもよい）
小愛：はい／プロンプトトーン（応答プロンプト）
ユーザー：目覚まし時計を設定したいですが
小愛：目覚まし時計を何時に設定しますか？
ユーザー：夜の７時
小愛：目覚まし時計を夜の７時に設定しました。

図２は、例示的な一実施例によるオーディオ処理方法の別の模式的なフローチャートであり、図２に示すように、該方法は、主に、ステップ２０１～ステップ２１２を含む。

ステップ２０１では、検出対象のオーディオデータを取得し、検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定する。

たとえば、電子機器が備えるオーディオ収集コンポーネントによりユーザーからの音声信号が受信されると、該音声信号に対してデジタル化処理を行って、音声データを得て、音声データに予め設定されたウェイクアップ単語があるか否かを検出する。ここで、ウェイクアップ単語は、ユーザーにより必要に応じて設定されるものであってもよく、たとえば、動単語を「小愛同学」に設定する。

ステップ２０２では、検出対象のオーディオデータにウェイクアップ情報が含まれている場合、ターゲットアプリケーションに対してウェイクアップ処理を行う。

ステップ２０３では、ターゲットアプリケーションをウェイクアップした後、第１オーディオ信号に対応する第１オーディオデータを取得する。

第１オーディオデータは、第１オーディオ信号をデジタル化処理したデータであり、第１オーディオ信号は、音収集コンポーネントによって収集されたユーザーからの音声信号であってもよい。

ステップ２０４では、第１オーディオデータを取得する過程において、第２オーディオ信号に対応する第２オーディオデータが検出された場合、第２オーディオデータを取得する。

ステップ２０５では、第１オーディオデータの取得終了と第２オーディオ信号に対応する第２オーディオデータの取得開始との間の時間差を決定する。

ステップ２０６では、第１オーディオデータの取得終了と第２オーディオデータの取得開始との間の時間差が第１所定期間以上であるか否かを判断する。

別の実施例では、第１オーディオデータの取得終了と第２オーディオデータの取得開始との間の時間差が第１所定期間未満であれば、直接第１オーディオデータと第２オーディオデータをターゲットオーディオデータにスプライシングする。

第１オーディオデータの取得終了と第２オーディオデータの取得開始との間に時間差があり、且つターゲットアプリケーションは、第１オーディオデータ及び第２オーディオデータが完全に独立した２つのデータであるか、相関性を有する２つのデータであるかを判定できないため、正確に応答できない。

本開示の実施例では、ターゲットオーディオデータを得る前に、第１オーディオデータの取得終了と第２オーディオデータの取得開始との間の時間差を判定し、次に、第１オーディオデータ及び第２オーディオデータに対するさらなる処理が必要であるか否かを決定し、このようにして、取得されたオーディオデータに対して不要な処理を行うことを減少できるだけでなく、また、より正確な応答情報が得られ得る。

ステップ２０７では、時間差が第１所定期間以上であれば、第１オーディオデータが完全に入力されたか否かを検出する。

ここで、ＮＬＰ技術によって第１オーディオデータが完全に入力されたか否かを検出できる。第１オーディオデータが完全に入力されたと検出すると、第１オーディオデータに対応する応答情報を得て、該応答情報を出力する。

ステップ２０８では、第１オーディオデータが完全に入力されていない場合、第１オーディオデータと第２オーディオデータをスプライシングできるか否かを判断する。

ステップ２０９では、第１オーディオデータと第２オーディオデータをスプライシングできる場合、第１オーディオデータと第２オーディオデータをスプライシングして、ターゲットオーディオデータを得る。

ステップ２１０では、第１オーディオデータが完全に入力された場合、第１オーディオデータ及び第２オーディオデータをそれぞれターゲットオーディオデータとして決定する。

ステップ２１１では、ターゲットオーディオデータに基づいて、応答情報を得る。

ステップ２１２では、応答情報を出力する。

ほかの好ましい実施例では、受信したインタラクション終了命令に基づいて、ターゲットアプリケーションとユーザーとの間のインタラクションを終了させる。ここで、音声方式でインタラクション終了命令を入力するが、アイコン、ショートカットキーなどをクリックするなどのほかの方式でインタラクション終了命令を入力してもよい。

本開示の実施例では、ターゲットアプリケーションをウェイクアップした後、ユーザーは、いつでもターゲットアプリケーションと直接会話することができ、このようにすると、ターゲットアプリケーションは、持続的な会話の過程においても、ユーザーが入力した各オーディオ信号にタイムリーに応答できる。たとえば、ユーザーが音楽を聴くときに、ターゲットアプリケーションにより提供された音楽の内容が好きではない場合、「別の歌に変更してください」を話せばよく、ユーザーが連続的にターゲットアプリケーションへ音声信号を送信する場合、ターゲットアプリケーションは、音声信号を連続的に受信して、対応する応答を行うことができ、ターゲットアプリケーションを再度ウェイクアップする必要がなく、また、ターゲットアプリケーションが既に受信した音声信号に対する応答情報の出力を終了するまで持つ必要もない。

図３は、例示的な一実施例によるオーディオ処理装置のブロック図である。図３に示すように、該オーディオ処理装置３００は、主に、
ターゲットアプリケーションをウェイクアップした後、第１オーディオ信号に対応する第１オーディオデータを取得するように構成される第１オーディオ取得モジュール３０１と、
第１オーディオデータを取得する過程において、第２オーディオ信号に対応する第２オーディオデータが検出された場合、第２オーディオデータを取得するように構成される第２オーディオ取得モジュール３０２と、
第１オーディオデータ及び第２オーディオデータに基づいて、ターゲットオーディオデータを得るように構成される第１オーディオ決定モジュール３０３と、を備える。

ほかの好ましい実施例では、装置３００は、
第１オーディオデータの取得終了と第２オーディオデータの取得開始との間の時間差を決定するように構成される時間決定モジュールをさらに備え、
第１オーディオ決定モジュールは、
時間差が第１所定期間以上であれば、第１オーディオデータ及び第２オーディオデータに基づいて、ターゲットオーディオデータを得るオーディオ決定サブモジュールを備える。

ほかの好ましい実施例では、オーディオ決定サブモジュールは、具体的には、
時間差が第１所定期間以上であれば、第１オーディオデータが完全に入力されたか否かを検出し、
第１オーディオデータが完全に入力されていない場合、第１オーディオデータ及び第２オーディオデータに基づいて、ターゲットオーディオデータを得るように構成される。

ほかの好ましい実施例では、オーディオ決定サブモジュールは、さらに、具体的に、
第１オーディオデータが完全に入力されていない場合、第１オーディオデータと第２オーディオデータをスプライシングできるか否かを判断し、
第１オーディオデータと第２オーディオデータをスプライシングできる場合、第１オーディオデータと第２オーディオデータをスプライシングして、ターゲットオーディオデータを得るように構成される。

ほかの好ましい実施例では、装置３００は、
第１オーディオデータが完全に入力された場合、第１オーディオデータ及び第２オーディオデータをそれぞれターゲットオーディオデータとして決定するように構成される第２オーディオ決定モジュールをさらに備える。

ほかの好ましい実施例では、装置３００は、
ターゲットオーディオデータに対して音響エコー除去処理を行うように構成される音響エコー除去モジュールと、
音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るように構成される応答モジュールと、
応答情報を出力するように構成される出力モジュールと、をさらに備える。

ほかの好ましい実施例では、装置３００は、
検出対象のオーディオデータを取得するように構成される第３オーディオ取得モジュールと、
検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するように構成される情報決定モジュールと、
検出対象のオーディオデータにウェイクアップ情報が含まれている場合、ターゲットアプリケーションに対してウェイクアップ処理を行うように構成されるウェイクアップモジュールと、をさらに備え、
オーディオデータは、音声データを含む。

上記実施例における装置については、その各モジュールが操作を実行する具体的な方式は、該方法に係る実施例において詳細に説明したが、ここで詳しく説明しない。

図４は、例示的な一実施例によるオーディオ処理装置４００のハードウェア構造のブロック図である。たとえば、装置４００は、モバイル電話、計算機、デジタル放送端末、メッセージ受送信機器、ゲームコンソール、タブレット機器、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどであってもよい。

図４に示すように、装置４００は、処理コンポーネント４０２、メモリ４０４、電力コンポーネント４０６、マルチメディアコンポーネント４０８、オーディオコンポーネント４１０、入力／出力（Ｉ／Ｏ）インターフェース４１２、センサーコンポーネント４１４、及び通信コンポーネント４１６のうちの１つ又は複数のコンポーネントを備えてもよい。

処理コンポーネント４０２は、通常、装置４００全体の操作、たとえば、表示、電話の発呼、データ通信、カメラ操作や記録操作に係る操作を制御する。処理コンポーネント４０２は、命令を実行して上記方法のすべて又は一部のステップを完了するために、１つ又は複数のプロセッサ４２０を備えてもよい。そのほか、処理コンポーネント４０２は、ほかのコンポーネントと容易にインタラクションできるように、１つ又は複数のモジュールを備えてもよい。たとえば、処理コンポーネント４０２は、マルチメディアコンポーネント４０８と容易にインタラクションするように、マルチメディアモジュールを備えてもよい。

メモリ４０４は、装置４００での操作をサポートするように各種のタイプのデータを記憶するように構成される。これらデータの例には、装置４００において運行する任意のアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオなどが含まれる。メモリ４０４は、任意のタイプの揮発性又は不揮発性記憶機器又はこれらの組み合わせによって実現でき、たとえば、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクである。

電力コンポーネント４０６は、装置４００のさまざまなコンポーネントに電力を供給する。電力コンポーネント４０６は、電源管理システム、１つ又は複数の電源、及び装置４００の生成、管理及び電力配分に係るコンポーネントを備えてもよい。

マルチメディアコンポーネント４０８は、前記装置４００とユーザーの間で１つの出力インターフェースを提供する画面を備える。いくつかの実施例において、画面は、液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を備えてもよい。画面がタッチパネルを備える場合、画面は、タッチスクリーンとなり、ユーザーからの入力信号を受信する。タッチパネルは、タッチ、スライド及びタッチパネルにおけるジェスチャーを検知するように１つ又は複数のタッチセンサーを備える。前記ジェスチャーセンサーは、ジェスチャー又はスライドの動作のエッジを検知するだけでなく、前記ジェスチャー又はスライド操作に係る持続時間及び圧力を検出できる。いくつかの実施例において、マルチメディアコンポーネント４０８は、１つのフロントカメラ及び／又はバックカメラを備える。装置４００が操作モード、たとえば撮影モード又はビデオモードである場合、フロントカメラ及び／又はバックカメラは、外部のマルチメディアデータを受信できる。フロントカメラ及びバックカメラは、それぞれ固定した光学レンズシステムであるか、又は焦点距離及び光学ズーム能力を有するようにしてもよい。

オーディオコンポーネント４１０は、オーディオ信号を出力及び／又は入力するように構成される。たとえば、オーディオコンポーネント４１０は、１つのマイクロフォン（ＭＩＣ）を備え、装置４００が操作モード、たとえば発呼モード、記録モード及び音声認識モードである場合、マイクロフォンは、外部のオーディオ信号を受信するように構成される。受信したオーディオ信号がさらにメモリ４０４に記憶され又は通信コンポーネント４１６を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント４１０は、オーディオ信号を出力するためのスピーカーをさらに備える。

Ｉ／Ｏインターフェース４１２は、処理コンポーネント４０２と周辺インターフェースモジュールとの間にインターフェースを提供し、上記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらボタンには、ホームページボタン、音量ボタン、スタートボタン及びロックボタンが含まれるが、これらに制限されない。

センサーコンポーネント４１４は、装置４００のさまざまな状態を評価するために１つ又は複数のセンサーを備える。たとえば、センサーコンポーネント４１４は、装置４００のオン／オフ状態、装置４００のモニターやキーパッドなどのコンポーネントの相対位置を検出することができ、センサーコンポーネント４１４は、また、装置４００又は装置４００の１つのコンポーネントの位置変化、ユーザーと装置４００の接触の有無、装置４００の方位又は加速／減速や装置４００の温度変化を検出できる。センサーコンポーネント４１４は、いずれの物理的接触がない場合に付近の物体の存在を検出するための近接センサーを備えてもよい。センサーコンポーネント４１４は、画像形成用途用のために、たとえばＣＭＯＳ又はＣＣＤ画像センサーなどの光センサーを備えてもよい。いくつかの実施例において、該センサーコンポーネント４１４は、加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー又は温度センサーを備えてもよい。

通信コンポーネント４１６は、装置４００とほかの機器との有線又は無線通信を容易に実施するように構成される。装置４００は、通信規格に基づく無線ネットワーク、たとえばＷｉＦｉ、２Ｇ又は３Ｇ、又はこれらの組み合わせにアクセスすることができる。例示的な一実施例では、通信コンポーネント４１６は、放送チャンネルを介して外部の放送管理システムからの放送信号又は放送関連情報を受信する。例示的な一実施例では、前記通信コンポーネント４１６は、近距離通信を促進するために、近距離無線通信（ＮＦＣ）モジュールをさらに備える。たとえば、ＮＦＣモジュールは、ＲＦ識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術やほかの技術によって実現できる。

例示的な実施例では、装置４００は、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理機器（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又はほかの電子素子により実現でき、上記方法を実行する。

例示的な実施例では、命令を含む非一時的なコンピュータ可読記憶媒体、たとえば命令を含むメモリ４０４をさらに提供し、上記命令は、装置４００のプロセッサ４２０により実行されて上記方法を完成できる。たとえば、前記非一時的なコンピュータ可読記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスクや光データ記憶機器などであってもよい。

非一時的なコンピュータ可読記憶媒体であって、前記記憶媒体における命令が電子機器のプロセッサにより実行されるとき、電子機器にオーディオ処理の方法の１つを実行させ、前記方法は、
ターゲットアプリケーションをウェイクアップした後、第１オーディオ信号に対応する第１オーディオデータを取得するステップと、
前記第１オーディオデータを取得する過程において、第２オーディオ信号に対応する第２オーディオデータが検出された場合、前記第２オーディオデータを取得するステップと、
前記第１オーディオデータ及び前記第２オーディオデータに基づいて、ターゲットオーディオデータを得るステップと、を含む。

当業者が明細書を読んで、ここで開示された発明を実施することによって、本開示のほかの実施形態を容易に相当し得る。本開示は、本開示的の任意の変形、用途又は適応変化を含むことを意図し、これら変形、用途又は適応変化は、本開示の一般的な原理を遵守し、かつ本開示で開示されていない本技術分野における公知常識又は慣用の技術的手段を含む。明細書及び実施例は、例示的なものに過ぎず、本開示の実際な範囲及び趣旨は、以下の特許請求の範囲により限定される。

なお、本開示は、以上説明し図示した詳細な構成に制限されず、その範囲から逸脱せずにさまざまな修正及び変化を行うことができる。本開示の範囲は、添付した特許請求の範囲のみにより限定される。

Claims

オーディオ処理方法であって、前記オーディオ処理方法は、電子機器に適用され、前記オーディオ処理方法は、
ターゲットアプリケーションをウェイクアップした後、第１オーディオ信号に対応する第１オーディオデータを取得するステップと、
前記第１オーディオデータを取得する過程において、第２オーディオ信号に対応する第２オーディオデータが検出された場合、前記第２オーディオデータを取得するステップであって、前記第２オーディオデータの取得が開始される時点は、時間差の分だけ、前記第１オーディオデータの取得が終了される時点よりも後である、ステップと、
前記第１オーディオデータ及び前記第２オーディオデータに基づいて、ターゲットオーディオデータを得るステップと
を含み、
前記オーディオ処理方法は、
前記時間差を決定するステップをさらに含み、
前記第１オーディオデータ及び前記第２オーディオデータに基づいて、ターゲットオーディオデータを得るステップは、
前記時間差が第１所定期間以上であれば、前記第１オーディオデータが完全に入力されたか否かを検出するステップと、
前記第１オーディオデータが完全に入力されていない場合、前記第１オーディオデータと前記第２オーディオデータとをスプライシングできるか否かを判断するステップと、
前記第１オーディオデータと前記第２オーディオデータとをスプライシングできる場合、前記第１オーディオデータと前記第２オーディオデータとをスプライシングして、ターゲットオーディオデータを得るステップと
を含む、オーディオ処理方法。
前記オーディオ処理方法は、
前記第１オーディオデータが完全に入力された場合、前記第１オーディオデータ及び前記第２オーディオデータをそれぞれ前記ターゲットオーディオデータとして決定するステップをさらに含む、請求項１に記載のオーディオ処理方法。
前記オーディオ処理方法は、
前記ターゲットオーディオデータに対して音響エコー除去処理を行うステップと、
音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るステップと、
前記応答情報を出力するステップと
をさらに含む、請求項１又は請求項２に記載のオーディオ処理方法。
前記オーディオ処理方法は、
検出対象のオーディオデータを取得するステップと、
前記検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するステップと、
前記検出対象オーディオデータに前記ウェイクアップ情報が含まれている場合、前記ターゲットアプリケーションに対してウェイクアップ処理を行うステップと
をさらに含み、
前記オーディオデータは、音声データを含む、請求項１又は請求項２に記載のオーディオ処理方法。
オーディオ処理装置であって、前記オーディオ処理装置は、
ターゲットアプリケーションをウェイクアップした後、第１オーディオ信号に対応する第１オーディオデータを取得するように構成される第１オーディオ取得モジュールと、
前記第１オーディオデータを取得する過程において、第２オーディオ信号に対応する第２オーディオデータが検出された場合、前記第２オーディオデータを取得するように構成される第２オーディオ取得モジュールであって、前記第２オーディオデータの取得が開始される時点は、時間差の分だけ、前記第１オーディオデータの取得が終了される時点よりも後である、第２オーディオ取得モジュールと、
前記第１オーディオデータ及び前記第２オーディオデータに基づいて、ターゲットオーディオデータを得るように構成される第１オーディオ決定モジュールと
を備え、
前記オーディオ処理装置は、
前記時間差を決定するように構成される時間決定モジュールをさらに備え、
前記第１オーディオ決定モジュールは、
前記時間差が第１所定期間以上であれば、前記第１オーディオデータが完全に入力されたか否かを検出することと、
前記第１オーディオデータが完全に入力されていない場合、前記第１オーディオデータと前記第２オーディオデータとをスプライシングできるか否かを判断することと、
前記第１オーディオデータと前記第２オーディオデータとをスプライシングできる場合、前記第１オーディオデータと前記第２オーディオデータとをスプライシングして、ターゲットオーディオデータを得ることと
を行うように構成される、オーディオ処理装置。
前記オーディオ処理装置は、
前記第１オーディオデータが完全に入力された場合、前記第１オーディオデータ及び前記第２オーディオデータをそれぞれ前記ターゲットオーディオデータとして決定するように構成される第２オーディオ決定モジュールをさらに備える、請求項５に記載のオーディオ処理装置。
前記オーディオ処理装置は、
前記ターゲットオーディオデータに対して音響エコー除去処理を行うように構成される音響エコー除去モジュールと、
音響エコー除去処理後のターゲットオーディオデータに基づいて、応答情報を得るように構成される応答モジュールと、
前記応答情報を出力するように構成される出力モジュールと
をさらに備える、請求項５又は請求項６に記載のオーディオ処理装置。
前記オーディオ処理装置は、
検出対象のオーディオデータを取得するように構成される第３オーディオ取得モジュールと、
前記検出対象のオーディオデータにターゲットアプリケーションをウェイクアップするためのウェイクアップ情報が含まれているか否かを決定するように構成される情報決定モジュールと、
前記検出対象オーディオデータに前記ウェイクアップ情報が含まれている場合、前記ターゲットアプリケーションに対してウェイクアップ処理を行うように構成されるウェイクアップモジュールと
をさらに備え、
前記オーディオデータは、音声データを含む、請求項５又は請求項６に記載のオーディオ処理装置。
オーディオ処理装置であって、
プロセッサと、
前記プロセッサによって実行可能な命令を記憶するように構成されるメモリと
を備え、
前記プロセッサは、請求項１～４のいずれか１項に記載のオーディオ処理方法を実行するように構成される、オーディオ処理装置。
非一時的なコンピュータ読み取り可能な記憶媒体であって、前記記憶媒体には、命令が記憶されており、
前記命令は、オーディオ処理装置のプロセッサによって実行されると、請求項１～４のいずれか１項に記載のオーディオ処理方法を実行することを前記オーディオ処理装置に行わせる、非一時的なコンピュータ読み取り可能な記憶媒体。