JP7426470B2 - 音声起動方法及び電子デバイス - Google Patents

音声起動方法及び電子デバイス Download PDF

Info

Publication number
JP7426470B2
JP7426470B2 JP2022502483A JP2022502483A JP7426470B2 JP 7426470 B2 JP7426470 B2 JP 7426470B2 JP 2022502483 A JP2022502483 A JP 2022502483A JP 2022502483 A JP2022502483 A JP 2022502483A JP 7426470 B2 JP7426470 B2 JP 7426470B2
Authority
JP
Japan
Prior art keywords
activation
electronic device
audio signal
audio
false
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022502483A
Other languages
English (en)
Other versions
JP2022541207A (ja
Inventor
ウ,シアオホォイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2022541207A publication Critical patent/JP2022541207A/ja
Application granted granted Critical
Publication of JP7426470B2 publication Critical patent/JP7426470B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/12Arrangements for remote connection or disconnection of substations or of equipment thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L2012/284Home automation networks characterised by the type of medium used
    • H04L2012/2841Wireless
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Automation & Control Theory (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

本出願は、2019年7月15日に中国国家知識産権局に出願され「VOICE WAKE-UP METHOD AND ELECTRONIC DEVICE」と題された中国特許出願第201910637698.0号に対する優先権を主張するものであり、該出願はその全体を参照により本明細書に組み込まれる。
[技術分野]
本出願は、電子デバイスの分野に関し、より具体的には、音声起動方法及び電子デバイスに関する。
市場のスマート音声デバイスは、音声起動、ノイズ低減、及び認識の精度において大きな進歩を現在遂げているが、音声認識は、バックグラウンドノイズがあるとき不十分である。特に、ユーザが起動されるべきデバイスから比較的遠く離れており、バックグラウンドノイズがあるとき、起動率はより低く、比較的高く誤起動が発生する。
本出願は、誤起動決定の精度を向上させるのを助けるための、音声起動方法及び電子デバイスを提供する。
第1の態様によれば、音声起動方法が提供される。当該方法は第1の電子デバイスに適用され、第1の電子デバイスはローカルエリアネットワーク内に位置し、ローカルエリアネットワークは第2の電子デバイスをさらに含み、当該方法は、第1の電子デバイスが、第1の電子デバイスが位置する環境において第1の音声信号を収集することを含む。第1の電子デバイスは、有線又は無線通信方式で、第1の音声信号の収集期間内のオーディオに対応するオーディオ信号を取得する。第1の電子デバイスは、第1の音声信号及びオーディオ信号に基づいて第1の誤起動結果を決定する。第1の電子デバイスは、第2の電子デバイスにより送信された第2の誤起動結果を受信する。第2の誤起動結果は、収集された第2の音声信号及びオーディオ信号に基づいて第2の電子デバイスにより得られる。第1の電子デバイスは、第1の誤起動結果及び第2の誤起動結果に基づいて第3の誤起動結果を決定する。第3の誤起動結果は、ローカルエリアネットワーク内の起動されるべきデバイスに対して起動動作が実行される必要があるかどうかを示すために使用される。第1の電子デバイスは、ローカルエリアネットワーク内の第1の電子デバイス以外の別の電子デバイスに第3の誤起動結果を送信する。
本出願のこの実施形態における音声起動方法によれば、第1の電子デバイスは、第1の電子デバイスにより決定された誤起動結果を使用することにより、及び第2の電子デバイスにより送信された誤起動結果を受信することにより、最終的な誤起動結果を決定し、その結果をローカルエリアネットワーク内の第1の電子デバイス以外の別の電子デバイスに送信することができる。これは、誤起動決定の精度を向上させるのを助ける。さらに、ローカルエリアネットワーク内の他のデバイスは、誤起動決定を実行することを防止され、ある程度、オーディオデータが大量の帯域幅を占有することを防止され得る。
いくつかの可能な実装において、第1の電子デバイスは、ローカルエリアネットワークにおいて最も強力な計算能力を有する電子デバイスであり、かつ/あるいは、第1の電子デバイスは、ローカルエリアネットワークにおいて電力消費に敏感でない電子デバイスである。
本出願のこの実施形態において、比較的強力な計算能力を有する電子デバイス及び/又は電力消費に敏感でない電子デバイスが、誤起動決定を実行するための電子デバイスとして選択され得る。これは、いくつかの電力消費に敏感なデバイスを回避するのを助け、電子デバイスの電力消費を低減するのを助ける。これはさらに、比較的劣った計算能力を有するデバイスが誤起動検出を実行することを防止するのを助け、それにより、電子デバイスの適切な動作への影響が回避される。
いくつかの可能な実装において、第1の電子デバイスは、代替的に、環境においてオーディオを再生しているデバイスでもよい。
第1の態様を参照し、第1の態様のいくつかの実装において、第1の誤起動結果及び第2の誤起動結果に基づいて第3の誤起動結果を決定することは、第1の誤起動結果が誤起動であり、第2の誤起動結果が誤起動であるとき、第3の誤起動結果が誤起動であると決定すること、又は、第1の誤起動結果が誤起動でなく、又は第2の誤起動結果が誤起動でないとき、第3の誤起動結果が誤起動でないと決定することを含む。
前述は、電子デバイスが2つの誤起動結果に基づいて最終的な誤起動決定を実行する一プロセスに過ぎないことを理解されたい。これは、本出願のこの実施形態において限定されない。
例えば、第1の電子デバイスは、第3の電子デバイスにより送信された誤起動結果をさらに受信してもよく、それにより、第1の電子デバイスは、第1の電子デバイスにより作成された誤起動結果、第2の電子デバイスにより作成された誤起動結果、及び第3の電子デバイスにより作成された誤起動結果に基づいて、最終的な誤起動結果を決定してもよい。
第1の態様を参照し、第1の態様のいくつかの実装において、第1の音声信号及びオーディオ信号に基づいて第1の誤起動結果を決定することは、オーディオ信号に基づいて第1の音声信号に対してノイズ低減処理を実行して第2の音声信号を取得することと、オーディオ信号及び第2の音声信号に基づいて第1の誤起動結果を決定することを含む。
第1の態様を参照し、第1の態様のいくつかの実装において、オーディオ信号及び第2の音声信号に基づいて第1の誤起動結果を決定することは、オーディオ信号が起動ワードを含み、第2の音声信号が起動ワードを含まないと決定されたとき、第1の誤起動結果が誤起動であると決定することを含む。
第1の態様を参照し、第1の態様のいくつかの実装において、オーディオ信号はタイムスタンプを含み、タイムスタンプは、オーディオ信号の生成時間を示すために使用される。
いくつかの可能な実装において、オーディオ信号は、再生デバイスにより複数のオーディオセグメントに分割され、各オーディオセグメントは、対応するタイムスタンプを搬送する。
本出願のこの実施形態において、オーディオ信号はタイムスタンプを搬送し、それにより、第1の電子デバイスは、タイムスタンプを使用することにより、第1の音声信号におけるノイズ低減処理が実行されるオーディオセグメントを決定してもよく、ノイズ低減処理は、適切なオーディオセグメントを使用することにより第1の音声信号に対して実行することができる。
いくつかの可能な実装において、第1の電子デバイスがオーディオ信号を受信した後、当該方法は、第1の電子デバイスがオーディオ信号に遅延を追加することをさらに含む。
第2の態様によれば、音声起動方法が提供される。当該方法は、音声起動システムに適用され、システムは、同じローカルエリアネットワーク内にある再生デバイス、第1の協同デバイス、第2の協同デバイス、及び仲裁デバイスを含み、当該方法は、第1の協同デバイス及び第2の協同デバイスが、第1の協同デバイス及び第2の協同デバイスが位置する環境において第1の音声信号及び第2の音声信号をそれぞれ収集することを含む。第1の協同デバイス及び第2の協同デバイスが、第1の協同デバイス及び第2の協同デバイスが位置する環境において第1の音声信号及び第2の音声信号をそれぞれ収集するとき、再生デバイスがオーディオを再生している場合、再生デバイスは、有線又は無線通信方式で、オーディオに対応するオーディオ信号を第1の協同デバイス及び第2の協同デバイスに送信する。第1の協同デバイスは、第1の音声信号及びオーディオ信号に基づいて第1の誤起動結果を決定する。第2の協同デバイスは、第2の音声信号及びオーディオ信号に基づいて第2の誤起動結果を決定する。第1の協同デバイス及び第2の協同デバイスは、第1の誤起動結果及び第2の誤起動結果を仲裁デバイスにそれぞれ送信する。仲裁デバイスは、第1の誤起動結果及び第2の誤起動結果に基づいて第3の誤起動結果を決定する。第3の誤起動結果は、ローカルエリアネットワーク内の起動されるべきデバイスに対して起動動作が実行される必要があるかどうかを示すために使用される。仲裁デバイスは、ローカルエリアネットワーク内の仲裁デバイス以外の別のデバイスに第3の誤起動結果を送信する。
本出願のこの実施形態における音声起動方法によれば、仲裁デバイスは、第1の協同デバイスにより決定された第1の誤起動結果と、第2の協同デバイスにより決定された第2の誤起動結果とを使用することにより、最終的な誤起動結果を決定し、結果をローカルエリアネットワーク内の仲裁デバイス以外の別の電子デバイスに送信することができる。これは、誤起動決定の精度を向上させるのを助ける。さらに、ローカルエリアネットワーク内の他のデバイスは誤起動決定を実行することを防止され、ある程度、オーディオデータが大量の帯域幅を占有することが防止され得る。
いくつかの可能な実装において、第1の協同デバイスと仲裁デバイスは、同じデバイスである。
いくつかの可能な実装において、再生デバイス、第1の協同デバイス、及び仲裁デバイスは、同じデバイスである。
第2の態様を参照し、第2の態様のいくつかの可能な実装において、当該方法は、再生デバイスが、ローカルエリアネットワーク内の再生デバイス以外の別のデバイスにより送信された能力情報を受信することをさらに含む。能力情報は、別のデバイスの計算能力及び/又は電力消費状態を示すために使用される。再生デバイスは、能力情報に基づいて、ローカルエリアネットワーク内の第1の協同デバイス及び第2の協同デバイスを決定する。再生デバイスは、別のデバイスに指標情報を送信する。指標情報は、第1の協同デバイス及び第2の協同デバイスを示すために使用される。
本出願のこの実施形態において、オーディオを再生するとき、再生デバイスは、ローカルエリアネットワーク内の各デバイスの能力情報に基づいて第1の協同デバイス及び第2の協同デバイスを決定して、対応するオーディオ信号を第1の協同デバイス及び第2の協同デバイスに送信することができる。このようにして、ローカルエリアネットワーク内の他のデバイスは誤起動決定を実行することを防止され、ある程度、オーディオデータが大量の帯域幅を占有することが防止され得る。
いくつかの可能な実装において、再生デバイスは、さらに、能力情報に基づいてローカルエリアネットワーク内の仲裁デバイスを決定してもよい。再生デバイスは、別のデバイスに指標情報を送信する。指標情報は、仲裁デバイス、第1の協同デバイス、及び第2の協同デバイスを示すために使用される。
いくつかの可能な実装において、再生デバイスは、第1の協同デバイス及び第2の協同デバイスを決定することができる。ローカルエリアネットワーク内の各デバイスにより決定される仲裁デバイスは、同じである。
第2の態様を参照し、第2の態様のいくつかの可能な実装において、再生デバイスが、能力情報に基づいてローカルエリアネットワーク内の第1の協同デバイス及び第2の協同デバイスを決定することは、再生デバイスが、能力情報に基づいてローカルエリアネットワーク内の複数の協同デバイスを決定することを含む。複数の協同デバイスは、第1の協同デバイス及び第2の協同デバイスを含む。再生デバイスは、再生デバイスと、複数の協同デバイスの中の各協同デバイスとの間の距離に基づいて、複数の協同デバイスから第1の協同デバイス及び第2の協同デバイスを決定する。
第2の態様を参照し、第2の態様のいくつかの可能な実装において、第1の協同デバイスと再生デバイスとの間の第1の距離、又は第2の協同デバイスと再生デバイスとの間の第2の距離は、第3の距離未満であり、第3の距離は、再生デバイスと、複数の協同デバイスの中の第1の協同デバイス及び第2の協同デバイス以外の他の協同デバイスの中の任意の協同デバイスとの間の距離である。
本出願のこの実施形態において、再生デバイスは、再生デバイスに比較的近い複数のデバイスを協同デバイスとして選択して、音波減衰に起因して誤起動決定の精度が低減されるという問題を回避するのを助けることができる。
いくつかの可能な実装において、オーディオ信号はタイムスタンプを含み、タイムスタンプは、オーディオ信号の生成時間を示すために使用される。
第3の態様によれば、この技術的解決策は、音声起動装置を提供する。当該装置は、電子デバイスに含まれ、当該装置は、第1の態様及び第1の態様の可能な実装における電子デバイスの挙動を実現する機能を有する。機能は、ハードウェアにより実現されてもよく、あるいは対応するソフトウェアを実行するハードウェアにより実現されてもよい。ハードウェア又はソフトウェアは、前述の機能に対応する1つ以上のモジュール又はユニットを含む。
第4の態様によれば、この技術的解決策は、1つ以上のプロセッサと、メモリと、複数のアプリケーションと、1つ以上のコンピュータプログラムとを含む電子デバイスを提供する。1つ以上のコンピュータプログラムはメモリに記憶され、1つ以上のコンピュータプログラムは命令を含む。命令が電子デバイスにより実行されると、電子デバイスは、第1の態様の任意の可能な実装における音声起動方法を実行可能にされる。
第5の態様によれば、技術的解決策は、1つ以上のプロセッサと1つ以上のメモリとを含む電子デバイスを提供する。1つ以上のメモリは、1つ以上のプロセッサに結合される。1つ以上のメモリは、コンピュータプログラムコードを記憶するように構成され、コンピュータプログラムコードは、コンピュータ命令を含む。1つ以上のプロセッサがコンピュータ命令を実行すると、電子デバイスは、第1の態様の任意の可能な実装における音声起動方法を実行可能にされる。
第6の態様によれば、この技術的解決策は、音声起動システムを提供する。当該システムは、第2の態様における再生デバイス、第1の協同デバイス、第2の協同デバイス、及び仲裁デバイスを含む。代替的に、当該システムは、第2の態様における再生デバイス、第1の協同デバイス、及び第2の協同デバイスを含む。仲裁デバイスと第1の協同デバイスは、同じデバイスでもよい。代替的に、当該システムは、第2の態様における第1の協同デバイス及び第2の協同デバイスを含み、再生デバイス、仲裁デバイス、及び第1の協同デバイスは、同じデバイスでもよい。
第7の態様によれば、この技術的解決策は、コンピュータ命令を含むコンピュータ記憶媒体を提供する。コンピュータ命令が電子デバイス上で実行されると、電子デバイスは、前述の態様の任意の可能な実装における音声起動方法を実行可能にされる。
第8の態様によれば、技術的解決策は、コンピュータプログラム製品を提供する。コンピュータプログラム製品が電子デバイス上で実行されると、電子デバイスは、前述の態様の任意の可能な実装における音声起動方法を実行可能にされる。
本出願の一実施形態による電子デバイスの構造の概略図である。 本出願の一実施形態による技術的解決策が適用可能な適用シナリオの概略図である。 本出願の一実施形態による技術的解決策が適用可能な別の適用シナリオの概略図である。 本出願の一実施形態による音声起動方法の概略フローチャートである。 本出願の一実施形態による音声起動方法の別の概略フローチャートである。 本出願の一実施形態による音声起動方法の別の概略フローチャートである。 本出願の一実施形態による技術的解決策が適用可能な別の適用シナリオの概略図である。 本出願の一実施形態による音声起動方法の別の概略フローチャートである。 本出願の一実施形態による音声起動方法の別の概略フローチャートである。 本出願の一実施形態による音声起動方法の別の概略フローチャートである。 本出願の一実施形態による電子デバイスの概略ブロック図である。 本出願の一実施形態による音声起動システムの概略ブロック図である。
以下の実施形態で使用される用語は、単に特定の実施形態を説明することを意図したものであるが、本出願を限定することを意図したものではない。本出願の本明細書及び添付の特許請求の範囲で使用される単数形の用語「1つの」、「一の」、「その」、「前述の」、「この」、及び「上記1つの」は、文脈において別段明確に指定されない限り、「1つ以上の」などの表現を含むことも意図されている。さらに、本出願の以下の実施形態において「少なくとも1つの」及び「1つ以上の」は1つ、2つ、又はそれ以上を指すことを理解されたい。用語「及び/又は」は、関連するオブジェクトの関連づけ関係を説明するために使用され、3つの関係が存在し得ることを示す。例えば、A及び/又はBは、Aのみが存在する、A及びBの双方が存在する、及びBのみが存在する場合を表すことができ、A及びBは、単数でも又は複数でもよい。文字「/」は通常、関連するオブジェクト間の「又は」関係を示す。
本明細書に記載される「一実施形態」又は「いくつかの実施形態」などへの参照は、本出願の1つ以上の実施形態が、この実施形態と組み合わせて記載された特定の特徴、構造、又は特性を含むことを意味する。したがって、本明細書の異なる部分に現れるフレーズ「一実施形態において」、「いくつかの実施形態において」、「いくつかの他の実施形態において」、「いくつかのさらなる実施形態において」等は、別段具体的に強調されない限り、必ずしも同じ実施形態を参照することを意味するわけではなく、「1つ以上の実施形態だが、全ての実施形態ではない」を意味する。用語「含む」、「含有する」、「有する」、及びそれらの変形は全て、別段具体的に強調されない限り、「含むがこれらに限定されない」を意味する。
以下では、本出願の実施形態において提供及び設計される電子デバイス、そのような電子デバイスのユーザインターフェース、及びそのような電子デバイスを使用する一実施形態について説明する。いくつかの実施形態において、電子デバイスは、携帯電話(mobile phone)、タブレットコンピュータ、又は無線通信機能を有するウェアラブル電子デバイス(スマートウォッチなど)などの、別の機能をさらに含むポータブル電子デバイスでもよい。ポータブル電子デバイスの一例示的な実施形態には、これらに限られないが、iOS(登録商標)、Android(登録商標)、Microsoft(登録商標)、又は他のオペレーティングシステムを使用するポータブル電子デバイスが含まれる。ポータブル電子デバイスは、代替的に、ラップトップ(Laptop)などの別のポータブル電子デバイスでもよい。さらに、いくつかの他の実施形態において、前述の電子デバイスはポータブル電子デバイスでなくデスクトップコンピュータでもよいことを理解されたい。いくつかの実施形態において、電子デバイスは、スマートスピーカ又はスマートホームデバイスなどのスマート家電でもよい。
例えば、図1は、電子デバイス100の構造の概略図である。電子デバイス100は、プロセッサ110、外部メモリインターフェース120、内部メモリ121、ユニバーサルシリアルバス(universal serial bus、USB)インターフェース130、充電管理モジュール140、電力管理モジュール141、バッテリ142、アンテナ1、アンテナ2、移動通信モジュール150、無線通信モジュール160、オーディオモジュール170、スピーカ170A、受信機170B、マイクロフォン170C、ヘッドセットジャック170D、センサモジュール180、ボタン190、モータ191、インジケータ192、カメラ193、ディスプレイ194、加入者識別モジュール(subscriber identification module、SIM)カードインターフェース195などを含んでもよい。センサモジュール180は、圧力センサ180A、ジャイロスコープセンサ180B、気圧センサ180C、磁気センサ180D、加速度センサ180E、距離センサ180F、光近接センサ180G、指紋センサ180H、温度センサ180J、タッチセンサ180K、周辺光センサ180L、骨伝導センサ180Mなどを含んでもよい。
本出願のこの実施形態に示される構造は、電子デバイス100に対する特定の制限を構成しないことが理解され得る。本出願のいくつかの他の実施形態において、電子デバイス100は、図に示されているものよりも多くの又は少ないコンポーネントを含んでもよく、あるいはいくつかのコンポーネントを組み合わせてもよく、あるいはいくつかのコンポーネントを分割してもよく、あるいは異なるコンポーネント配置を有してもよい。図に示すコンポーネントは、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアの組み合わせを使用することにより実装されてもよい。
プロセッサ110は、1つ以上の処理ユニットを含んでもよい。例えば、プロセッサ110は、アプリケーションプロセッサ(application processor、AP)、モデムプロセッサ、グラフィックス処理ユニット(graphics processing unit、GPU)、画像信号プロセッサ(image signal processor、ISP)、コントローラ、メモリ、ビデオコーデック、デジタル信号プロセッサ(digital signal processor、DSP)、ベースバンドプロセッサ、ニューラルネットワーク処理ユニット(neural-network processing unit、NPU)などを含んでもよい。異なる処理ユニットは、独立したコンポーネントでもよく、あるいは1つ以上のプロセッサに統合されてもよい。
コントローラは、電子デバイス100の神経中枢及びコマンド中枢でもよい。コントローラは、命令動作コード及び時間シーケンス信号に基づいて動作制御信号を生成して、命令フェッチ及び命令実行の制御を完了することができる。
プロセッサ110にメモリがさらに配置されてもよく、命令及びデータを記憶するように構成される。いくつかの実施形態において、プロセッサ110内のメモリはキャッシュである。メモリは、プロセッサ110によりちょうど使用されるか又は周期的に使用される命令又はデータを記憶することができる。プロセッサ110が命令又はデータを再度使用する必要がある場合、プロセッサ110は、メモリから命令又はデータを直接呼び出すことができる。これは、繰り返されるアクセスを回避し、プロセッサ110の待ち時間を短縮し、それにより、システム効率が改善される。
本出願のこの実施形態において、プロセッサ110は、以下の実施形態で説明されるノイズ低減処理モジュール及び起動処理モジュールを含んでもよい。
例えば、プロセッサ110内のノイズ低減処理モジュールは、無線通信モジュール160を使用することにより再生デバイスから受信したオーディオデータを使用することにより、マイクロフォン170Cを使用することにより受信した環境内の音声信号に対してノイズ低減処理を実行することができる。
例えば、プロセッサ110内の起動処理モジュールは、オーディオデータとノイズ低減処理の後に得られた音声信号が起動ワードを含むかどうかを分析して、誤起動が発生するか否かを決定することができる。
いくつかの実施形態において、プロセッサ110は、1つ以上のインターフェースを含んでもよい。インターフェースは、集積回路間(inter-integrated circuit、I2C)インターフェース、集積回路間サウンド(inter-integrated circuit sound、I2S)インターフェース、パルス符号変調(pulse code modulation、PCM)インターフェース、ユニバーサル非同期受信機/送信機(universal asynchronous receiver/transmitter、UART)インターフェース、モバイル産業プロセッサインターフェース(mobile industry processor interface、MIPI)、汎用入力/出力(general-purpose input/output、GPIO)インターフェース、加入者識別モジュール(subscriber identity module、SIM)インターフェース、ユニバーサルシリアルバス(universal serial bus、USB)インターフェースなどを含んでもよい。
I2Cインターフェースは、双方向同期シリアルバスであり、1つのシリアルデータ線(serial data line、SDA)と1つのシリアルクロック線(serial clock line、SCL)を含む。いくつかの実施形態において、プロセッサ110は、I2Cバスの複数のグループを含んでもよい。プロセッサ110は、異なるI2Cバスインターフェースを通じて、タッチセンサ180K、充電器、フラッシュライト、カメラ193などに別個に結合されてもよい。例えば、プロセッサ110は、I2Cインターフェースを通じてタッチセンサ180Kに結合されてもよく、それにより、プロセッサ110は、I2Cバスインターフェースを通じてタッチセンサ180Kと通信して、電子デバイス100のタッチ機能を実現する。
I2Sインターフェースは、オーディオ通信を実行するように構成され得る。いくつかの実施形態において、プロセッサ110は、I2Sバスの複数のグループを含んでもよい。プロセッサ110は、I2Sバスを通じてオーディオモジュール170に結合されて、プロセッサ110とオーディオモジュール170との間の通信を実現することができる。いくつかの実施形態において、オーディオモジュール170は、I2Sインターフェースを通じてオーディオ信号を無線通信モジュール160に送信して、ブルートゥースヘッドセットを使用することにより呼び出しに応答する機能を実現することができる。
さらに、PCMインターフェースは、オーディオ通信を実行し、アナログ信号をサンプリング、量子化、及び符号化するように構成され得る。いくつかの実施形態において、オーディオモジュール170は、PCMバスインターフェースを通じて無線通信モジュール160に結合されてもよい。いくつかの実施形態において、オーディオモジュール170は、代替的に、PCMインターフェースを通じてオーディオ信号を無線通信モジュール160に送信して、ブルートゥースヘッドセットを使用することにより呼び出しに応答する機能を実現することができる。I2SインターフェースとPCMインターフェースの双方が、オーディオ通信を実行するように構成されてもよい。
UARTインターフェースは、ユニバーサルシリアルデータバスであり、非同期通信を実行するように構成される。バスは、双方向通信バスであり得る。バスは、送信すべきデータをシリアル通信とパラレル通信との間で変換する。いくつかの実施形態において、UARTインターフェースは通常、プロセッサ110を無線通信モジュール160に接続するように構成される。例えば、プロセッサ110は、UARTインターフェースを通じて無線通信モジュール160内のブルートゥースモジュールと通信して、ブルートゥース機能を実現する。いくつかの実施形態において、オーディオモジュール170は、UARTインターフェースを通じてオーディオ信号を無線通信モジュール160に送信して、ブルートゥースヘッドセットを使用することにより音楽を再生する機能を実現することができる。
MIPIインターフェースは、プロセッサ110をディスプレイ194又はカメラ193などの周辺コンポーネントに接続するように構成され得る。MIPIインターフェースは、カメラシリアルインターフェース(camera serial interface、CSI)、ディスプレイシリアルインターフェース(display serial interface、DSI)などを含む。いくつかの実施形態において、プロセッサ110は、CSIインターフェースを通じてカメラ193と通信して、電子デバイス100の撮影機能を実現する。プロセッサ110は、DSIインターフェースを通じてディスプレイ194と通信して、電子デバイス100の表示機能を実現する。
GPIOインターフェースは、ソフトウェアを使用することにより構成され得る。GPIOインターフェースは、制御信号又はデータ信号として構成されてもよい。いくつかの実施形態において、GPIOインターフェースは、プロセッサ110をカメラ193、ディスプレイ194、無線通信モジュール160、オーディオモジュール170、センサモジュール180などに接続するように構成されてもよい。GPIOインターフェースは、代替的に、I2Cインターフェース、I2Sインターフェース、UARTインターフェース、MIPIインターフェースなどとして構成されてもよい。
USBインターフェース130は、USB標準仕様に準拠したインターフェースであり、具体的に、ミニUSBインターフェース、マイクロUSBインターフェース、USBタイプCインターフェースなどでもよい。USBインターフェース130は、電子デバイス100を充電する充電器に接続するために使用されてもよく、電子デバイス100と周辺デバイスとの間のデータの伝送に使用されてもよく、あるいはヘッドセットを使用することによりオーディオを再生するヘッドセットに接続するために使用されてもよい。代替的に、インターフェースは、別の電子デバイス、例えば、ARデバイスに接続するために使用されてもよい。
本出願のこの実施形態に示されるモジュール間のインターフェース接続関係は説明のための一例に過ぎず、電子デバイス100の構造に対する制限を構成しないことが理解できる。本出願のいくつかの他の実施形態において、電子デバイス100は、代替的に、この実施形態におけるインターフェース接続方法とは異なるインターフェース接続方法、又は複数のインターフェース接続方法の組み合わせを使用してもよい。
充電管理モジュール140は、充電器からの充電入力を受け取るように構成される。充電器は、無線充電器又は有線充電器であってよい。有線充電が使用されるいくつかの実施形態において、充電管理モジュール140は、USBインターフェース130を介して有線充電器からの充電入力を受け取ることができる。無線充電が使用されるのいくつかの実施形態において、充電管理モジュール140は、電子デバイス100の無線充電コイルを介して無線充電入力を受け取ることができる。充電管理モジュール140は、さらに、バッテリ142が充電されているとき電力管理モジュール141を使用することにより電子デバイスに電力を供給することができる。
電力管理モジュール141は、バッテリ142、充電管理モジュール140、及びプロセッサ110に接続するように構成される。電力管理モジュール141は、バッテリ142及び/又は充電管理モジュール140からの入力を受け取り、プロセッサ110、内部メモリ121、外部メモリ、ディスプレイ194、カメラ193、無線通信モジュール160などに電力を供給する。電力管理ユニット141は、さらに、バッテリ容量、バッテリサイクルカウント、及びバッテリヘルス状態(漏電又はインピーダンス)などのパラメータを監視するように構成されてもよい。いくつかの他の実施形態において、電力管理モジュール141は、代替的に、プロセッサ110内に配置されてもよい。いくつかの他の実施形態において、電力管理モジュール141及び充電管理モジュール140は、代替的に、同じデバイス内に配置されてもよい。
電子デバイス100の無線通信機能は、アンテナ1、アンテナ2、移動通信モジュール150、無線通信モジュール160、モデムプロセッサ、ベースバンドプロセッサなどを介して実装され得る。
アンテナ1及びアンテナ2は、電磁波信号を送信及び受信するように構成される。電子デバイス100の各アンテナは、1つ以上の通信周波数帯域をカバーするように構成され得る。さらに、アンテナ利用を改善するために、異なるアンテナが多重化されてもよい。例えば、アンテナ1は、無線ローカルエリアネットワーク内のダイバーシチアンテナとして多重化されてもよい。いくつかの他の実施形態において、アンテナは、同調スイッチと組み合わせて使用されてもよい。
移動通信モジュール150は、2G/3G/4G/5Gなどを含む無線通信に対する、電子デバイス100に適用されるソリューションを提供することができる。移動通信モジュール150は、少なくとも1つのフィルタ、スイッチ、電力増幅器、低ノイズ増幅器(low noise amplifier、LNA)などを含むことができる。移動通信モジュール150は、アンテナ1を介して電磁波を受信し、受信した電磁波に対してフィルタリング及び増幅などの処理を実行し、電磁波を復調のためにモデムプロセッサに送信することができる。移動通信モジュール150は、さらに、モデムプロセッサにより変調された信号を増幅し、この信号を、アンテナ1を介して放射のために電磁波に変換することができる。いくつかの実施形態において、移動通信モジュール150内の少なくともいくつかの機能モジュールは、プロセッサ110に配置されてもよい。いくつかの実施形態において、移動通信モジュール150内の少なくともいくつかの機能モジュールは、プロセッサ110内の少なくともいくつかのモジュールと同じデバイス内に配置されてもよい。
モデムプロセッサは、変調器及び復調器を含むことができる。変調器は、送信すべき低周波数ベースバンド信号を中間周波数又は高周波信号に変調するように構成される。復調器は、受信した電磁波信号を低周波数ベースバンド信号に復調するように構成される。次いで、復調器は、復調を介して取得された低周波数ベースバンド信号を処理のためにベースバンドプロセッサに送信する。低周波数ベースバンド信号は、ベースバンドプロセッサにより処理され、次いで、アプリケーションプロセッサに送信される。アプリケーションプロセッサは、オーディオデバイス(これは、スピーカ170A、受信機170Bなどに限定されない)を介してサウンド信号を出力し、あるいはディスプレイ194を介して画像又はビデオを表示する。いくつかの実施形態において、モデムプロセッサは、独立したコンポーネントでもよい。いくつかの他の実施形態において、モデムプロセッサは、プロセッサ110から独立していてもよく、移動通信モジュール150又は別の機能モジュールと共に同じデバイスに配置される。
無線通信モジュール160は、無線ローカルエリアネットワーク(wireless local area network、WLAN)(例えば、ワイヤレスフィデリティ(wireless fidelity、Wi-Fi)ネットワーク)、ブルートゥース(Bluetooth、BT)、全地球航法衛星システム(global navigation satellite system、GNSS)、周波数変調(frequency modulation、FM)、近距離通信(near field communication、NFC)技術、赤外線(infrared、IR)技術などを含む無線通信に対する、電子デバイス100に適用されるソリューションを提供することができる。無線通信モジュール160は、少なくとも1つの通信処理モジュールを統合する1つ以上のコンポーネントでもよい。無線通信モジュール160は、アンテナ2を介して電磁波を受信し、電磁波信号に対して周波数変調及びフィルタリング処理を実行し、処理された信号をプロセッサ110に送信する。無線通信モジュール160は、さらに、送信すべき信号をプロセッサ110から受信し、その信号に対して周波数変調及び増幅を実行し、処理された信号を放射のためにアンテナ2を介して電磁波に変換することができる。
本出願のこの実施形態において、電子デバイス100が協同デバイスとして使用されるとき、電子デバイス100は、無線通信モジュール160を使用することにより再生デバイスから音声データを受信することができる。
いくつかの実施形態において、電子デバイス100のアンテナ1及び移動通信モジュール150は結合され、電子デバイス100のアンテナ2及び無線通信モジュール160は結合され、それにより、電子デバイス100は、無線通信技術を使用することによりネットワーク及び他のデバイスと通信することができる。無線通信技術は、グローバルシステムフォーモバイルコミュニケーションズ(global system for mobile communications、GSM)、汎用パケット無線サービス(general packet radio service、GPRS)、符号分割多元接続(code division multiple access、CDMA)、広帯域符号分割多元接続(wideband code division multiple access、WCDMA)、時分割符号分割多元接続(time-division code division multiple access、TD-SCDMA)、ロングタームエボリューション(long term evolution、LTE)、BT、GNSS、WLAN、NFC、FM、IR技術などを含んでもよい。GNSSは、全地球測位システム(global positioning system、GPS)、全地球航法衛星システム(global navigation satellite system、GLONASS)、北斗衛星導航系統(BeiDou navigation satellite system、BDS)、準天頂衛星システム(quasi-zenith satellite system、QZSS)、及び/又は衛星ベースの補強システム(satellite based augmentation system、SBAS)を含んでもよい。
電子デバイス100は、GPU、ディスプレイ194、アプリケーションプロセッサ等を使用することによりディスプレイ機能を実装する。GPUは、画像処理のためのマイクロプロセッサであり、ディスプレイ194をアプリケーションプロセッサに接続する。GPUは、数学的及び幾何学的計算を実行し、画像をレンダリングするように構成される。プロセッサ110は、ディスプレイ情報を生成又は変更するためのプログラム命令を実行する1つ以上のGPUを含んでもよい。
ディスプレイ194は、画像、ビデオ等を表示するように構成される。ディスプレイ194は、ディスプレイパネルを含む。ディスプレイパネルは、液晶ディスプレイ(liquid crystal display、LCD)、有機発光ダイオード(organic light-emitting diode、OLED)、アクティブマトリックス有機発光ダイオード(active-matrix organic light emitting diode、AMOLED)、フレキシブル発光ダイオード(flexible light-emitting diode、FLED)、ミニLED、マイクロLED、マイクロOLED、量子ドット発光ダイオード(quantum dot light emitting diode、QLED)などであり得る。いくつかの実施形態において、電子デバイス100は、1つ又はN個のディスプレイ194を含んでもよく、Nは、1より大きい正の整数である。
電子デバイス100は、ISP、カメラ193、ビデオコーデック、GPU、ディスプレイ194、アプリケーションプロセッサなどを介して撮影機能を実装することができる。
ISPは、カメラ193によりフィードバックされたデータを処理するように構成される。例えば、撮影中、シャッタが押され、レンズを介してカメラの感光素子に光が伝達され、光信号が電気信号に変換され、カメラの感光素子は電気信号を処理のためISPに送信して、電気信号を可視画像に変換する。ISPはさらに、画像のノイズ、輝度、及び顔色に対するアルゴリズム最適化を実行することができる。ISPはさらに、撮影シナリオの露光及び色温度などのパラメータを最適化することができる。いくつかの実施形態において、ISPは、カメラ193に配置されてもよい。
カメラ193は、静止画像又はビデオを捕捉するように構成される。オブジェクトの光学画像は、レンズを通して生成され、感光素子上に投影される。感光素子は、電荷結合素子(charge-coupled device、CCD)又は相補型金属酸化物半導体(complementary metal-oxide-semiconductor、CMOS)フォトトランジスタでもよい。感光素子は、光信号を電気信号に変換し、次いで、電気信号をデジタル画像信号に変換するために電気信号をISPに送信する。ISPは、デジタル画像信号を処理のためにDSPに出力する。DSPは、デジタル画像信号をRGBフォーマット又はYUVフォーマットなどの標準フォーマットの画像信号に変換する。いくつかの実施形態において、電子デバイス100は、1つ又はN個のカメラ193を含んでもよく、Nは、1より大きい正の整数である。
デジタル信号プロセッサは、デジタル信号を処理するように構成され、デジタル画像信号に加えて別のデジタル信号を処理することができる。例えば、電子デバイス100が周波数を選択すると、デジタル信号プロセッサは、周波数エネルギーに対してフーリエ変換などを実行するように構成される。
ビデオコーデックは、デジタルビデオを圧縮又は解凍するように構成される。電子デバイス100は、1つ以上のビデオコーデックをサポートすることができる。したがって、電子デバイス100は、複数のエンコーディングフォーマット、例えば、動画エキスパートグループ(moving picture experts group、MPEG)-1、MPEG-2、MPEG-3、及びMPEG-4のビデオを再生又は記録することができる。
NPUは、ニューラルネットワーク(neural network、NN)計算プロセッサであり、生物学的神経回路網の構造を参照することにより、例えば、人間の脳の神経間の伝達モードを参照することにより入力情報を迅速に処理し、さらに、自己学習を継続的に実行することができる。NPUは、画像認識、顔認識、発話認識、及びテキスト理解などの、電子デバイス100のインテリジェント認知などのアプリケーションを実現することができる。
外部メモリインターフェース120は、電子デバイス100の記憶能力を拡張するために、外部メモリカード、例えばマイクロSDカードに接続するように構成され得る。外部メモリカードは、外部メモリインターフェース120を通じてプロセッサ110と通信して、データ記憶機能を実現する。例えば、音楽やビデオなどのファイルは、外部ストレージカードに記憶される。
内部メモリ121は、コンピュータ実行可能プログラムコードを記憶するように構成され得、実行可能プログラムコードは命令を含む。プロセッサ110は、内部メモリ121に記憶された命令を実行して、電子デバイス100の様々な機能アプリケーション及びデータ処理を実行する。内部メモリ121は、プログラム記憶領域及びデータ記憶領域を含んでもよい。プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能(例えば、サウンド再生機能及び画像再生機能)により必要とされるアプリケーションなどを記憶することができる。データ記憶領域は、電子デバイス100が使用されるとき作成されたデータ(例えば、オーディオデータ及び電話帳)などを記憶することができる。さらに、内部メモリ121は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリ、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリ、及びユニバーサルフラッシュストレージ(universal flash storage、UFS)などを含んでもよい。
電子デバイス100は、オーディオモジュール170、スピーカ170A、受信機170B、マイクロフォン170C、ヘッドセットジャック170D、アプリケーションプロセッサなどを使用することにより、オーディオ機能、例えば、音楽の再生又は記録を実現することができる。
オーディオモジュール170は、デジタルオーディオ情報を出力のためにアナログオーディオ信号に変換するように構成され、アナログオーディオ入力をデジタルオーディオ信号に変換するようにも構成される。オーディオモジュール170はさらに、オーディオ信号をコーディング及び復号するように構成されてもよい。いくつかの実施形態において、オーディオモジュール170はプロセッサ110に配置されてもよく、あるいは、オーディオモジュール170のいくつかの機能モジュールがプロセッサ110に配置される。
スピーカ170Aは、「ホーン」とも呼ばれ、オーディオ電気信号をサウンド信号に変換するように構成される。電子デバイス100は、スピーカ170Aを使用することにより音楽を聞き、あるいはハンズフリー通話に応答するように構成されてもよい。
本出願のこの実施形態において、電子デバイス100は、再生デバイスとして使用され、スピーカ170Aを使用することによりサウンド信号を外向きに送ることができ、別の電子デバイスが、電子デバイスのスピーカを使用することにより、電子デバイス100により送られたサウンド信号、及び人間の音声とミックスされた音声信号を収集することができる。
受信機170Bは、「イヤーピース」とも呼ばれ、オーディオ電気信号をサウンド信号に変換するように構成される。電子デバイス100を使用することにより通話に応答し、あるいはオーディオ情報を聴くとき、受信機170Bは、音声を聴くために人間の耳の近くに置かれ得る。
マイクロフォン170Cは、「マイク」又は「マイクロフォン」とも呼ばれ、サウンド信号を電気信号に変換するように構成される。発呼する又は音声情報を送るとき、ユーザは、マイクロフォン170Cにサウンド信号を入力するために、マイクロフォン170Cの近くで人間の口を動かすことにより音を立てることができる。少なくとも1つのマイクロフォン170Cが、電子デバイス100に配置されてもよい。いくつかの他の実施形態において、2つのマイクロフォン170Cが電子デバイス100に配置されて、サウンド信号を収集し、ノイズ低減機能を実現してもよい。いくつかの他の実施形態において、3つ、4つ、又はそれ以上のマイクロフォン170Cが代替的に電子デバイス100に配置されて、サウンド信号を収集し、ノイズ低減を実現し、サウンドソースを識別して、指向性記録機能などを実現してもよい。
本出願のこの実施形態において、電子デバイス100は、起動されるべきデバイス又は協同デバイスとして使用され、マイクロフォン170Cを使用することにより環境内で音声信号を受信することができる。
ヘッドセットジャック170Dは、有線ヘッドセットに接続するように構成される。ヘッドセットジャック170Dは、USBインターフェース130でもよく、あるいは3.5mmのオープン移動端末プラットフォーム(open mobile terminal platform、OMTP)標準インターフェース、又は米国のセルラー電気通信工業協会(cellular telecommunications industry association of the USA、CTIA)標準インターフェースでもよい。
圧力センサ180Aは、圧力信号を感知するように構成され、圧力信号を電気信号に変換することができる。いくつかの実施形態において、圧力センサ180Aは、ディスプレイ194上に配置されてもよい。複数のタイプの圧力センサ180A、例えば、抵抗性圧力センサ、誘導性圧力センサ、容量性圧力センサがある。容量性圧力センサは、導電性材料で作られた少なくとも2つの平行プレートを含むことができる。圧力センサ180Aに力が加えられると、電極間のキャパシタンスが変化する。電子デバイス100は、キャパシタンス変化に基づいて圧力強度を決定する。タッチ操作がディスプレイ194で実行されると、電子デバイス100は、圧力センサ180Aを使用することによりタッチ操作の強度を検出する。電子デバイス100は、圧力センサ180Aの検出信号に基づいてタッチ位置を計算することができる。いくつかの実施形態において、同じタッチ位置で実行されるが異なるタッチ操作強度を有するタッチ操作は、異なる操作命令に対応してもよい。例えば、メッセージアプリケーションアイコンに対して、タッチ操作強度が第1の圧力閾値未満であるタッチ操作が実行されると、メッセージを見る命令が実行される。メッセージアプリケーションアイコンに対して、タッチ操作強度が第1の圧力閾値以上であるタッチ操作が実行されると、メッセージを作成する命令が実行される。
ジャイロスコープセンサ180Bは、電子デバイス100の運動姿勢を決定するように構成され得る。いくつかの実施形態において、電子デバイス100の、3つの軸(すなわち、軸X、Y、及びZ)を中心とする角速度は、ジャイロスコープセンサ180Bを使用することにより決定されてもよい。ジャイロスコープセンサ180Bは、撮影中に画像安定化を実施するように構成されてもよい。例えば、シャッタが押されると、ジャイロスコープセンサ180Bは、電子デバイス100がジッタを生じる角度を検出し、その角度に基づいてレンズモジュールが補償する必要がある距離を計算し、レンズが逆の運動により電子デバイス100のジッタをキャンセルすることを可能にし、画像安定化を実現する。ジャイロスコープセンサ180Bは、さらに、ナビゲーションシナリオ及びモーションセンシングゲームシナリオにおいて使用されてもよい。
気圧センサ180Cは、気圧を測定するように構成される。いくつかの実施形態において、電子デバイス100は、気圧センサ180Cにより測定された気圧値に基づいて高度を計算して、測位及びナビゲーションを支援する。
磁気センサ180Dは、ホール効果センサを含む。電子デバイス100は、磁気センサ180Dを使用することによりフリップカバーの開閉を検出することができる。いくつかの実施形態において、電子デバイス100がクラムシェル電話であるとき、電子デバイス100は、磁気センサ180Dを使用することによりクラムシェルの開閉を検出してもよい。さらに、フリップカバーを開くことに基づく自動ロック解除などの機能が、フリップカバーの検出された開若しくは閉状態、又はクラムシェルの検出された開若しくは閉状態に基づいて設定される。
加速度センサ180Eは、各方向における(通常、3軸上の)電子デバイス100の加速度の大きさを検出することができる。電子デバイス100が静止しているとき、重力の大きさ及び方向が検出され得る。加速度センサは、さらに、電子デバイスの姿勢を識別するように構成されてもよく、景観モードと肖像モードとの間の切り替え、又は歩数計などのアプリケーションで使用される。
距離センサ180Fは、距離を測定するように構成される。電子デバイス100は、距離を赤外線又はレーザ方式で測定することができる。いくつかの実施形態において、撮影シナリオにおいて、電子デバイス100は、距離センサ180Fを使用することにより距離を測定して、迅速な焦点合わせを実現してもよい。
光近接センサ180Gは、例えば、発光ダイオード(LED)と、フォトダイオードなどの光検出器を含んでもよい。発光ダイオードは、赤外線発光ダイオードでもよい。電子デバイス100は、発光ダイオードを使用することにより赤外線光を放射する。電子デバイス100は、フォトダイオードを使用することにより近くのオブジェクトからの赤外線反射光を検出する。十分な反射光を検出したとき、電子デバイス100は、電子デバイス100の近くにオブジェクトが存在すると決定することができる。不十分な反射光を検出したとき、電子デバイス100は、電子デバイス100の近くにオブジェクトが存在しないと決定することができる。電子デバイス100は、光近接センサ180Gを使用することにより、ユーザが電子デバイス100を通話のために耳の近くに保持していることを検出して、画面オフを自動的に実行して電力を節約することができる。光近接センサ180Gは、さらに、画面ロック解除又はロックを自動的に実行するために、スマートカバーモード又はポケットモードで使用されてもよい。
周辺光センサ180Lは、周辺光の輝度を感知するように構成される。電子デバイス100は、感知された周辺光の輝度に基づいてディスプレイ194の輝度を適応的に調整することができる。周辺光センサ180Lは、さらに、撮影中にホワイトバランスを自動的に調整するように構成されてもよい。周辺光センサ180Lは、さらに、光近接センサ180Gと協働し、電子デバイス100がポケット内にあるかどうかを検出して、偶発的な接触を防止してもよい。
指紋センサ180Hは、指紋を収集するように構成される。電子デバイス100は、収集された指紋の特徴を使用して、指紋ベースのロック解除、アプリケーションロックアクセス、指紋ベースの撮影、指紋ベースの通話応答などを実現することができる。
温度センサ180Jは、温度を検出するように構成される。いくつかの実施形態において、電子デバイス100は、温度センサ180Jにより検出された温度に基づいて温度処理ポリシーを実行する。例えば、温度センサ180Jにより報告された温度が閾値を超えているとき、電子デバイス100は、温度センサ180Jの近くのプロセッサの性能を低下させて電力消費を低減し、熱保護を実施する。いくつかの他の実施形態において、温度が別の閾値未満であるとき、電子デバイス100は、バッテリ142を加熱して、低温に起因する電子デバイス100の異常シャットダウンを回避する。いくつかの他の実施形態において、温度がさらに別の閾値未満であるとき、電子デバイス100は、バッテリ142の出力電圧を上昇させて、低温に起因する異常シャットダウンを回避する。
タッチセンサ180Kは、「タッチパネル」とも呼ばれる。タッチセンサ180Kは、ディスプレイ194上に配置されてもよく、タッチセンサ180K及びディスプレイ194は、「タッチ画面」とも呼ばれるタッチスクリーンを形成する。タッチセンサ180Kは、タッチセンサ180K上又はその近くで実行されたタッチ操作を検出するように構成される。タッチセンサは、検出されたタッチ操作をアプリケーションプロセッサに転送して、タッチイベントのタイプを決定することができる。タッチ操作に関連する視覚的出力が、ディスプレイ194上に提供されてもよい。いくつかの他の実施形態において、タッチセンサ180Kは、代替的に、ディスプレイ194の位置とは異なる位置で、電子デバイス100の表面上に配置されてもよい。
骨伝導センサ180Mは、振動信号を取得することができる。いくつかの実施形態において、骨伝導センサ180Mは、人間の声帯部分の振動骨の振動信号を取得してもよい。骨伝導センサ180Mは、さらに、人間の脈と接して血圧拍動信号を受け取ってもよい。いくつかの実施形態において、骨伝導センサ180Mは、さらに、骨伝導ヘッドセットを得るために、ヘッドセット内に配置されてもよい。オーディオモジュール170は、骨伝導センサ180Mにより取得される声帯部分の振動骨の振動信号に基づいて解析することにより音声信号を取得し、音声機能を実現してもよい。アプリケーションプロセッサは、骨伝導センサ180Mにより取得された血圧拍動信号に基づいて心拍情報を解析して、心拍検出機能を実現してもよい。
ボタン190は、電源ボタン、ボリュームボタン等を含む。ボタン190は、機械的ボタンでもよく、あるいはタッチボタンでもよい。電子デバイス100は、キー入力を受け取り、電子デバイス100のユーザ設定及び機能制御に関連するキー信号入力を生成することができる。
モータ191は、振動提示(vibration prompt)を生成することができる。モータ191は、着信振動提示及びタッチ振動フィードバックを生成するように構成されてもよい。例えば、異なるアプリケーション(例えば、撮影及びオーディオ再生)に対して実行されるタッチ操作は、異なる振動フィードバック効果に対応することができる。モータ191は、さらに、ディスプレイ194の異なる領域で実行されるタッチ操作について、異なる振動フィードバック効果に対応してもよい。異なる適用シナリオ(例えば、時間リマインダシナリオ、情報受信シナリオ、アラームクロックシナリオ、及びゲームシナリオ)も、異なる振動フィードバック効果に対応してもよい。タッチ振動フィードバック効果は、さらにカスタマイズされてもよい。
インジケータ192は、インジケータライトでもよく、充電状態及び電力変化を示すように構成されてもよく、あるいはメッセージ、不在着信、通知などを示すように構成されてもよい。
本出願のこの実施形態について説明する前に、音声起動(voice wake-up)におけるいくつかの概念を最初に説明する。
起動ワード:電子デバイスを起動するために使用される文字列。例えば、起動ワードは「シャオイシャオイ(XiaoYi XiaoYi)」などである。
音声起動動作:音声起動動作は、2つの部分、すなわち起動動作と認識動作を含む。
起動動作は、ユーザが起動ワードを話して電子デバイスを起動することを意味し、それにより、電子デバイスは音声命令を待つ状態になる。
音声命令:対応する音声動作を実行するために音声を使用することにより電子デバイスを制御する命令。例えば、音声動作は、「私に明日午前の北京から上海までの航空券を予約して」、「家までナビゲートして」、「音楽を再生して」などであり得る。
認識動作:電子デバイスが起動された後、ユーザは、対応する音声動作を実行するように電子デバイスを制御するための音声命令を話す。
現在、デバイス起動の間に以下の問題が存在する。
(1) 再生デバイスがオーディオを再生する間、ユーザが起動デバイスを起動する場合、再生デバイスのオーディオが起動デバイスに対する干渉を引き起こすことがある。結果的に、起動デバイスは誤って起動され、あるいは起動できない。
例えば、テレビがテレビシリーズ「リトルアントドーヘ(Little Aunt Dohe)」を再生しているとき、テレビの横にスピーカが置かれている。テレビシリーズ内で起動ワード「シャオイシャオイ」(XiaoYi XiaoYi)(イ(Yi)は第2声の中国語ピンインである)が話されており、スピーカの起動ワード「シャオイシャオイ」(XiaoYi XiaoYi)(イ(Yi)は第4声の中国語ピンインである)と同じように聞こえるため、スピーカは、誤って起動される可能性がある。
(2) 現在、デバイスが起動されるとき、起動デバイスと再生デバイスとの間の間隔は考慮されない。再生デバイスのサウンドの伝搬プロセスで遅延が発生し、ユーザはこの期間内にデバイスを起動する。再生デバイスのサウンドが起動デバイスでバッファリングされない場合、起動デバイスが再生デバイスのサウンド「シャオイシャオイ」(イは第2声の中国語ピンインである)を受け取った後、起動デバイスは誤って起動される。再生デバイスと起動デバイスとの間のオーディオデータ伝送のための安全な通信の保証がなく、タイムスタンプが追加されないため、起動デバイスがネットワークから受信したオーディオデータをバッファリングしない場合、ネットワーク内に複数のデバイスがあるとき、起動デバイスは、まず、ネットワークから、比較的長い物理的距離を有するオーディオデータを受信し、マイクロフォンから、比較的短い物理的距離を有する音声を受信し、次いで、ネットワークから、比較的短い物理的距離を有するオーディオデータを受信し、マイクロフォンから、比較的長い物理的距離を有するオーディオデータを受信する。この無秩序なデータは、誤起動(false wake-up)又は起動失敗を引き起こす可能性がある。
図2は、本出願の一実施形態による技術的解決策が適用可能な適用シナリオの概略図である。図2に示すように、適用シナリオは、起動デバイス、再生デバイス1、及び再生デバイス2を含む。起動デバイスと再生デバイス1との間隔は2メートルであり、起動デバイスと再生デバイス2との間隔は4メートルであり、起動デバイスと再生デバイス1と再生デバイス2はローカルエリアネットワークを使用することにより接続されている。
再生デバイス1は、起動デバイスに比較的近い。起動デバイスは、まず、音波を使用することによって再生デバイス1により送られたオーディオと、ローカルエリアネットワークを使用することによって再生デバイス2により送られたオーディオデータを受け取り、次いで、音波を使用することによって再生デバイス2により送られたオーディオと、ローカルエリアネットワークを使用することによって再生デバイス1により送られたオーディオデータを受け取る。起動デバイスが、再生デバイス1により送られたオーディオを受け取ったとき、再生デバイス2により送られたオーディオデータを使用することによりオーディオに対してノイズ低減処理を実行する場合、誤起動又は起動失敗が発生する可能性がある。
(3) 実際のホームネットワークには、約10個又はそれ以上のスマートデバイス(携帯電話、スマートウォッチ、スマートTV、スマートスピーカ、スマートアラーム、エアコン、デスクランプ、床掃除ロボット、スマートカメラなど)が存在する可能性がある。これらのデバイス間でオーディオデータを送信することは、以下の問題を引き起こす可能性がある。第1に、大量のオーディオデータが送信され、帯域幅が占有される。第2に、計算処理が増加され、携帯電話及びスマートウォッチなどのいくつかの電力消費に敏感なスマートデバイスで電力消費ロスが発生する。
(4) デスクランプ及びスマートカメラなどの劣った計算能力を有するいくつかのデバイスの処理問題は解決できない。オーディオに計算処理を追加することは、これらのデバイスの比較的大量の計算リソースを占有する可能性があり、デバイスの通常の使用に影響を及ぼす。
図3は、本出願の一実施形態による技術的解決策が適用可能な別の適用シナリオの概略図である。図3に示すように、適用シナリオは、スマートTV、携帯電話、スマートカメラ、スマートアラーム、スマートカーテン、床掃除ロボット、リビングルームランプ、パッド、スマートウォッチ、寝室デスクランプ、及びスマートスピーカを含む。これらのデバイスは、ローカルエリアネットワーク(Wi-Fiルータ)を使用することにより接続できる。
本出願のこの実施形態において、複数のスマートデバイス(スマート音声機能を有する)を使用することによって起動ノイズ低減調整プラットフォームが構築され、単一デバイスが外部ノイズにより引き起こされる誤起動問題を解決できないという問題を解決し、ホームネットワークにおいて無線オーディオデータが送信されるという問題を解決する。調整において誤起動を実行するデバイス及び仲裁デバイスは、デバイスの電力消費及び計算能力に基づいて選択され、それにより、電力消費に敏感なスマートデバイス及び比較的劣った計算能力を有するスマートデバイスは、計算を実行することを回避することができる。
図4は、本出願の一実施形態による音声起動方法200の概略フローチャートである。図4に示すように、方法200は、以下のステップを含む。
S201:再生デバイス(デバイス1)が、オーディオ再生モジュールを使用することにより、再生されたオーディオデータをスピーカ及びオーディオ同期モジュールに送信する。
一実装において、再生デバイスのオーディオ同期モジュールは、オーディオデータ内でタイムスタンプを搬送してもよい。
例えば、再生デバイスは、オーディオデータをオーディオセグメントに分割することができ(例えば、各オーディオセグメントは40ミリ秒でもよい)、再生デバイスは、各オーディオセグメントにタイムスタンプを追加することができ、各オーディオセグメント内のタイムスタンプは、各オーディオセグメントの生成時間を示すために使用されてもよい。したがって、マイクロフォンを使用することにより音声信号を収集した後、起動されるべきデバイスは、各オーディオセグメント内のタイムスタンプに基づいて複数のオーディオセグメントを選択し、音声信号に対してノイズ低減処理を実行する。各オーディオセグメントの生成時間は、各オーディオセグメントの開始時点でもよく、対応する終了時点は、開始時点に40msを加えたものである。
本出願のこの実施形態において、再生デバイスと起動されるべきデバイスが同じローカルエリアネットワーク内に位置するとき、ネットワークタイムプロトコル(network time protocol、NTP)同期が実行され得る。再生デバイスは、オーディオデータにタイムスタンプを追加し、起動されるべきデバイスは、受信バッファ内のオーディオデータに対してノイズ低減処理が実行される時間セグメントを決定することができ、あるいはバッファリングされたオーディオデータを管理してメモリ回収を実行することができる。
S202:オーディオ同期モジュールが、セキュアネットワークを使用することにより、オーディオデータを起動されるべきデバイス(デバイス2)のオーディオ同期モジュールに送信する。
起動されるべきデバイス(デバイス2)のオーディオ同期モジュールは、オーディオデータに遅延を追加することができる。
例えば、起動されるべきデバイスは、例えば、各受信オーディオセグメントに30~40msの遅延を追加し、例えば、各オーディオセグメントのタイムスタンプに30~40msを加算して、マイクロフォンを使用することにより受信したオーディオ信号との時間同期を実行し、遅延を追加した後に得られるオーディオセグメントを使用することによりオーディオ信号に対するノイズ低減処理を実行することができる。
一般に家の範囲は10メートルであり、音により伝送されるデータの音伝搬速度は約330m/sであり、音伝搬の遅延は約30ms(10/330)であることを理解されたい。30~40ms遅延処理のためにオーディオ同期モジュールにバッファを追加することは、起動されるべきデバイス(デバイス2)が、マイクロフォンを使用することにより音声信号が収集されたときにオーディオ同期モジュールにより受信したオーディオデータを使用することにより、マイクロフォンにより収集された音声信号に対してノイズ低減処理を実行できるようにすることであると考えられる。
起動されるべきデバイスは、再生デバイスから受信したオーディオセグメントをバッファしてもよいことを理解されたい。
例えば、起動されるべきデバイスは、20秒のオーディオデータをバッファリングすることができる。起動されるべきデバイスのバッファがオーディオセグメントでフルになった後、起動されるべきデバイスは、バッファ内の最も早いタイムスタンプを有するオーディオセグメントを破棄して、新しいオーディオセグメントを受信することができる。
S203:起動されるべきデバイス(デバイス2)が、オーディオ同期モジュールにより受信したオーディオデータをノイズ低減処理モジュール及び起動処理モジュールに送信する。
S204:起動処理モジュールが、オーディオデータ内に起動ワードが存在するかどうかを検出する。
一実施形態において、起動処理モジュールは、デジタル信号プロセッサ(digital signal processor、DSP)でもよい。DSPは、オーディオ同期モジュールにより送られたオーディオ信号を処理して、分析を通じて、オーディオデータが起動ワードを含むかどうかを学習することができる。
一実施形態において、起動処理モジュールは、自動発話認識(automatic speech recognition、ASR)モジュール及び自然言語理解(natural language understanding、NLU)モジュールを含んでもよい。
ASRモジュールは、主にユーザの発話をテキスト内容として認識するように構成され、NLUモジュールは、主にユーザの意図(intent)を理解し、スロット(slot)解析を実行するように構成される。
例えば、発話をテキストに変換することによってASRモジュールにより得られる情報は、次のとおりである。私に明日午前10:00の北京から上海への航空券を予約して。
この文から、NLUモジュールは、表1に示す内容を解析することができる。
Figure 0007426470000001
例えば、スマートTVは、テレビシリーズ「リトルアントドーヘ」を再生している。ある時点に、スマートTVは、スマートTVのオーディオ同期モジュールを使用することによりオーディオデータをスマートスピーカのオーディオ同期モジュールに送信し、スマートスピーカのオーディオ同期モジュールは、オーディオデータをASRモジュールに送信することができる。ASRモジュールは、オーディオデータをテキスト情報(例えば、「シャオイシャオイ」(イは第2声の中国語ピンインである))に変換し、NLUモジュールは、オーディオデータが起動ワード「シャオイシャオイ」(イは第4声の中国語ピンインである)と同じ発音を有する起動ワードを含むと決定する。
S205:起動されるべきデバイス(デバイス2)が、マイクロフォンを使用することにより音声信号を収集し、マイクロフォンは、収集された音声信号をノイズ低減処理モジュールに送信する。
例えば、起動されるべきデバイスは、マイクロフォンを使用することにより時点t1で音声信号を収集する。起動されるべきデバイスがオーディオセグメントに遅延を追加しない場合、再生デバイスは、タイムスタンプが時点t2であるオーディオセグメントと、タイムスタンプが時点t2の後の時点であるオーディオセグメントとを、ノイズ低減処理が実行されるオーディオセグメントとして使用する可能性があり、ここで、t2=(t1-Δt)であり、Δtは、空中の、再生デバイスにより再生されたオーディオの伝搬遅延であり、遅延は、一般に30~40msであり得る。
例えば、起動されるべきデバイスがオーディオセグメントに遅延を追加した(言い換えると、起動されるべきデバイスがオーディオセグメントのタイムスタンプを更新し、新しいタイムスタンプがオリジナルのタイムスタンプに遅延を加えたものである)場合、起動されるべきデバイスは、マイクロフォンを使用することにより時点t1で音声信号を収集し、ノイズ低減処理が実行されるオーディオセグメントとしての、タイムスタンプが時点t1であるオーディオセグメントと、タイムスタンプが時点t1の後のタイムスタンプであるオーディオセグメントについて、起動されるべきデバイスのバッファを検索することができる。
S206:起動されるべきデバイス(デバイス2)のノイズ低減処理モジュールが、オーディオ再生デバイス(デバイス1)により送信されたオーディオデータを参照信号として使用して、マイクロフォンにより収集された音声信号に対してノイズ低減処理を実行する。
一実施形態において、ノイズ低減処理モジュールはDSPでもよい。デバイス2のオーディオ同期モジュール及びマイクロフォンは、オーディオデータ及び音声信号をDSPに入力し、DSPを使用することによりオーディオデータ及び音声信号を同期的に処理することができる。
可能な一処理方法において、DSPは、ノイズ低減アルゴリズムを使用することにより音声信号をフィルタリングして、音声信号内の、デバイス1により再生されたオーディオデータを除去し(filter out)、それにより、ユーザにより話された音声のみが音声信号内に残る。次いで、DSPは、音声を分析して、音声が起動ワードを含むかどうかを決定することができる。
可能な一処理方法において、音声信号内のオーディオデータをフィルタリングして音声を取得した後、DSPは、音声をASRモジュールに送ることができ、ASRモジュールは、音声信号をテキスト情報に変換する。最後、NLUモジュールが、テキスト情報が起動ワードを含むかどうかを分析する。
S207:ノイズ低減処理モジュールが、ノイズ低減処理の後に得られた音声信号を起動処理モジュールに送信する。
S208:起動処理モジュールが、ノイズ低減処理の後に得られた音声信号を使用することにより処理を実行し、ノイズ低減処理の後に得られた音声セグメントが起動ワードを含むかどうかを決定する。
S204においてオーディオデータが起動ワードを含むことが検出され、S208において音声信号内のオーディオ信号をフィルタリングすることによってノイズ低減処理モジュールにより得られる音声が起動ワードを含まない場合、デバイス2は、結果が誤起動であると決定してもよく、デバイス2は起動動作を実行しない。
S204においてオーディオデータが起動ワードを含まないことが検出され、S208において音声信号内のオーディオ信号をフィルタリングすることによってノイズ低減処理モジュールにより得られる音声が起動ワードを含む場合、デバイス2は、起動動作を実行することを決定してもよい。
S204においてオーディオデータが起動ワードを含むことが検出され、S208において音声信号内のオーディオ信号をフィルタリングすることによってノイズ低減処理モジュールにより得られる音声が起動ワードを含む場合、デバイス2は、起動動作を実行することを決定してもよい。
S204においてオーディオデータが起動ワードを含まないことが検出され、S208において音声信号内のオーディオ信号をフィルタリングすることによってノイズ低減処理モジュールにより得られる音声も起動ワードを含まない場合、デバイス2は起動動作を実行しない。
本出願のこの実施形態における音声起動方法によれば、再生デバイスは、再生されたオーディオデータを起動されるべきデバイスに送ることができ、起動されるべきデバイスは、オーディオデータを使用することにより、マイクロフォンにより収集された音声信号をフィルタリングすることができる。これは、デバイスにより受け取った外部ノイズにより引き起こされる誤起動を大幅に低減し、ノイズ除去によりデバイスの誤起動を回避する効果を達成することができる。
前述では、方法200について説明している。方法200によれば、起動されるべきデバイスは、再生デバイスのオーディオデータを受信して、マイクロフォンにより収集された音声信号に対してノイズ低減処理を実行し、起動されるべきデバイスの誤起動を回避する。現在、家庭環境(又は、他の環境)には、携帯電話、スマートスピーカ、スマートTV、スマートアラーム、スマートウォッチ、又は他のスマート家電などの、音声機能を有する大量のデバイスが存在する可能性がある。スマート音声機能を有するいくつかのデバイスは、電力消費に敏感なデバイスである。例えば、携帯電話又はスマートウォッチが起動動作を頻繁に実行する場合、電力消費ロスが発生する。音声機能を有するいくつかのデバイスは、デスクランプ及びスマートカメラなど、比較的劣った計算能力を有する場合がある。オーディオに計算処理を追加することは、これらのデバイスの比較的大量の計算リソースを占有する可能性があり、デバイスの通常の使用に影響を及ぼす。したがって、方法200に示される音声起動方法を使用する場合、起動されるべきデバイスが電力消費に敏感なデバイス又は比較的劣った計算能力を有するデバイスであるとき、起動されるべきデバイスは影響を受ける可能性がある。
以下では、本出願のこの実施形態による音声起動方法300及び方法400を提供する。誤起動仲裁デバイスと、誤起動を調整するデバイスは、ネットワーク内伝送の間にオーディオデータにより占有される大量の帯域幅を大幅に低減できるように選択される。さらに、いくつかの特殊な起動されるべきデバイスへの影響を低減することができる。
一実施形態において、複数のスマートデバイスから誤起動仲裁デバイスと誤起動を調整するデバイスを選択するためのルールは、以下のとおりである。
ルール1:1つの仲裁デバイスが、1つの部屋において、電力消費及び計算能力(CPUのコアの数量、主要周波数、及びメモリサイズのうちの1つ以上を変換することにより得られる)に基づいて選択される。仲裁デバイスがローカルエリアネットワークを離れた(ユーザにより電源オフされ、あるいは部屋から持ち出された)場合、仲裁デバイスは、電力消費及び計算能力に基づいて再選択される。
例えば、仲裁デバイスを選択する優先順位順序は、順に、スマートTV、スマートスピーカ、床掃除ロボット、スマートアラーム、スマートカメラ、パッド、携帯電話、リビングルームランプ、スマートカーテン、寝室デスクランプ、スマートウォッチである。
ルール2:誤起動を調整する複数のデバイス(例えば、2つのデバイス)が、各デバイスと再生デバイスとの間の距離、計算能力、及び電力消費変換に基づいて選択される。各デバイスは、誤起動を調整するデバイスに関する情報を記録する。デバイス位置が変わった後、誤起動を調整するデバイスに関する情報は動的に更新される必要がある。
以下では、誤起動仲裁デバイスは略称で仲裁デバイス(arbitration device)と呼ばれ、誤起動を調整するデバイスは略称で協同デバイス(collaboration device)と呼ばれる。複数のスマートデバイスは、例えば、アカウントベース(例えば、ファーウェイID)、セキュリティ証明書認証、又は個人識別番号(personal identification number、PIN)コード認証方式において、相互に信頼されたセキュア通信ネットワークを形成することができる。複数のスマートデバイスは、セキュアネットワークにおいて時間同期を実現することができる。
以下では、再生デバイスが携帯電話であり、協同デバイス(すなわち、誤起動を調整するデバイス)がスマートTV及び床掃除ロボットであり、仲裁デバイス(すなわち、誤起動仲裁デバイス)がスマートTVである一例を説明に用いる。
図5A及び図5Bは、本出願の一実施形態による音声起動方法300の概略フローチャートである。図5A及び図5Bに示すように、方法300は、以下のステップを含む。
S301:携帯電話が、オーディオ再生モジュールを使用することにより、再生されたオーディオデータをスピーカ及びオーディオ同期モジュールに送信する。
S301については、前述のS201の説明を参照することを理解されたい。簡潔さのために、詳細はここで再度説明されない。
S302:携帯電話のオーディオ同期モジュールが、セキュア通信ネットワークを使用することにより、オーディオを協同デバイス(スマートTV及び床掃除ロボット)のオーディオ同期モジュールに送信する。
携帯電話は、オーディオデータにタイムスタンプを追加し、次いで、オーディオデータを協同デバイスに送信することができる。同じローカルエリアネットワークに接続されたデバイスは、誤起動を調整するときにNTP同期を実行することができる。携帯電話は、オーディオデータにタイムスタンプを追加し、協同デバイスは、受信バッファ内のオーディオデータに対してノイズ低減処理が実行される時間セグメントを決定することができ、あるいはバッファリングされたオーディオデータを管理してバッファリングされたメモリの回収を実行することができる。
方法200と比較し、携帯電話は、オーディオデータのみを協同デバイスに送信し得ることを理解されたい。携帯電話は、オーディオデータをオーディオセグメントに分割し、各オーディオセグメントにタイムスタンプを追加することができる。具体的な処理方法については、方法200の説明を参照する。簡潔さのために、詳細はここで再度説明されない。
再生デバイスは、オーディオ及びビデオの再生から開始し、対応するオーディオデータを協同デバイスに送信し得ることが理解され得る。
任意で、携帯電話のオーディオ同期モジュールがセキュア通信ネットワークを使用することによりオーディオを協同デバイスに送信する前に、本方法は、以下をさらに含む。
ローカルエリアネットワーク内の各デバイスが、ローカルエリアネットワーク内の複数のデバイスの電力消費及び計算能力に基づいて、仲裁デバイス及び協同デバイスを決定する。
例えば、表2は、複数のスマートデバイスの電力消費を示す。
Figure 0007426470000002
可能な一実装において、各スマートデバイスの計算能力は、各スマートデバイスの中央処理装置(central processing unit、CPU)のコアの数量、CPUの周波数、及びメモリサイズなどのパラメータを使用することにより表すことができる。
例えば、表3は、複数のスマートデバイスのCPU周波数を示す。
Figure 0007426470000003
本出願のこの実施形態において、データ交換は、同じローカルエリアネットワーク内の複数のデバイス間で実行され得る。新しいデバイス(例えば、床掃除ロボット)がローカルエリアネットワークに加わった後、床掃除ロボットは、床掃除ロボットの計算能力及び電力消費についての対応する情報を、ローカルエリアネットワーク内の別のデバイスに送ることができる。
すなわち、ローカルエリアネットワーク内の各デバイスは、ローカルエリアネットワーク内の別のデバイスの計算能力及び電力消費に関する情報を学習することができ、各デバイスは、予め設定されたルールに従って協同デバイス及び仲裁デバイスの優先順位をソートすることができる。各デバイスは、ローカルエリアネットワーク内の複数のデバイスから、1つの仲裁デバイス及び複数の協同デバイスを決定してもよい。
一実施形態において、別のデバイスの計算能力及び電力消費に関する情報を取得した後、ローカルエリアネットワーク内の各デバイスは、各デバイスの計算能力及び電力消費に基づいて優先順位ソートを実行して、仲裁デバイス及び協同デバイスを決定することができる。
例えば、各デバイスは、ローカルエリアネットワーク内の全てのデバイスの計算能力及び電力消費に基づいてスコア付けされてもよい。
例えば、計算能力については、各デバイスの主要周波数を参照し、スコアについては、表4を参照する。
Figure 0007426470000004
例えば、電力消費の点数については、表5を参照する。
Figure 0007426470000005
各デバイスは、計算能力スコアの50%と電力消費能力スコアの50%との和に基づいて、ローカルエリアネットワーク内の各デバイスに対応するトータルスコアを決定し、スコアの降順に仲裁デバイスと協同デバイスを選択してもよい。
例えば、ローカルエリアネットワークがスマートTV、スマートスピーカ、床掃除ロボット、携帯電話、及びデスクランプを含むとき、表2~表5に従い、各デバイスは、高から低へのトータルスコアのシーケンスがスマートTV、スマートスピーカ、床掃除ロボット、携帯電話、及びデスクランプであると決定することができる。したがって、各デバイスは、ローカルエリアネットワーク内の仲裁デバイスがスマートTVであると決定し、協同デバイスがスマートスピーカ及び床掃除ロボットであると決定することができる。代替的に、仲裁デバイスが協同デバイスとしても使用され得るとき、各デバイスは、ローカルエリアネットワーク内の仲裁デバイスがスマートTVであり、協同デバイスがスマートTV及びスマートスピーカであると決定してもよい。
一実施形態において、ローカルエリアネットワーク内に同じトータルスコアを有する2つのデバイスが現れ得る、例えば、同じ電力消費及び同じ計算能力を有する2つのスマートTVが現れる場合、そのデバイスのうちの1つが、予め設定されたルールに従って仲裁デバイスとして選択されてもよい。
例えば、ローカルエリアネットワーク内にスマートTVがある。同じ電力消費及び同じ計算能力を有する別のスマートTVがローカルエリアネットワークに加わったとき、スマートTVは、スマートTVの電力消費をローカルエリアネットワーク内の別のデバイスに送ることに追加で、スマートTVの識別情報を送ることができる。識別情報には、これらに限られないが以下のいくつかのタイプが含まれる。
(1) シリアル番号(serial number、SN)コード、
(2) WLAN MACアドレス、
(3) Bluetooth MACアドレス、及び
(4) デバイスの読取専用メモリ(read only memory、ROM)バージョン番号。
シリアル番号を一例にとる。各デバイスは、2つのスマートTVの間でより小さいシリアル番号を有するものを仲裁デバイスとして選択し、あるいは2つのスマートTVの間でより大きいシリアル番号を有するものを仲裁デバイスとして選択することができる。
装置の識別情報は前述の例に限定されなくてもよく、デバイスを一意に識別することができる任意の情報がデバイスの識別情報として使用されてもよいことを理解されたい。
さらに、表4及び表5に示す計算能力スコア及び電力消費スコアは例にすぎないことを理解されたい。これは、本出願のこの実施形態において限定されない。例えば、各デバイスは、予め設定された式又は関数を使用することにより計算能力及び電力消費に基づいて対応する結果を出力して、ソートを実行してもよい。
さらに、協同デバイス及び仲裁デバイスを選択するとき、ローカルエリアネットワーク内の各デバイスは、各デバイスの電力消費のみに基づいて選択してもよく、あるいは各デバイスの計算能力のみに基づいて選択してもよいことを理解されたい。
一実施形態において、ローカルエリアネットワーク内のデバイスは、協同デバイスと仲裁デバイスの優先順位ソートについて合意することができる。
例えば、協同デバイス及び仲裁デバイスの優先順位は、スマートTV、スマートスピーカ、床掃除ロボット、スマートアラーム、スマートカメラ、パッド、携帯電話、リビングルームランプ、スマートカーテン、寝室デスクランプ、及びスマートウォッチとしてソートされてもよい。
例えば、ローカルエリアネットワークは、スマートTV、スマートスピーカ、床掃除ロボット、携帯電話、及びスマートウォッチを含む。したがって、各デバイスは、前述の優先順位シーケンスに従って、仲裁デバイスがスマートTVであると決定し、協同デバイスがスマートスピーカ及び床掃除ロボットであると決定することができる。代替的に、各デバイスは、仲裁デバイスがスマートTVであると決定し、協同デバイスがスマートTV及びスマートスピーカであると決定してもよい。
一実施形態において、複数の同じデバイスがローカルエリアネットワークに現れる場合があり、例えば、2つのスマートTVが双方ともローカルエリアネットワークに加わる。ローカルエリアネットワーク内の別のデバイスは、2つのスマートTVの間でより小さいシリアル番号を有するものを仲裁デバイスとして使用することができる。
一実施形態において、ローカルエリアネットワーク内のデバイスが電源オフされ、又はローカルエリアネットワークから切断される場合、各デバイスは、ローカルエリアネットワーク内の仲裁デバイス及び協同デバイスを再決定することができる。
例えば、ローカルエリアネットワークは、スマートTV、スマートスピーカ、床掃除ロボット、携帯電話、及びデスクランプを含む。各デバイスは、そのデバイスが電源オフされ、又はローカルエリアネットワークから切断されるかどうかを、別のデバイスに周期的に通知することができる。ローカルエリアネットワーク内のスマートTVが電源オフされ、又はローカルエリアネットワークから切断されるとき、ローカルエリアネットワーク内の別のデバイスは、仲裁デバイスがスマートスピーカであり、協同デバイスが床掃除ロボット及び携帯電話であると再決定することができる。代替的に、ローカルエリアネットワーク内の別のデバイスは、仲裁デバイスがスマートスピーカであり、協同デバイスがスマートスピーカ及び床掃除ロボットであると再決定してもよい。
空中で音が伝送されるときにエネルギー損失が生じることを考慮し、協同デバイスが決定されるとき、再生デバイスに比較的近いデバイスがさらに協同デバイスとして考慮されてもよい。
前述の実施形態では、各デバイスがローカルエリアネットワークから2つの協同デバイスを選択する一例を説明に用いている。実際のプロセスでは、各デバイスは、3つ以上の協同デバイスを選択してもよい。誤起動決定の間、3つ以上の協同デバイスから、誤起動決定を実際に実行するデバイスとして2つのデバイスが選択されてもよい。
例えば、ローカルエリアネットワークは、携帯電話、スマートTV、床掃除ロボット、スマートスピーカ、スマートカメラ、スマートアラーム、スマートパッド、及びリビングルームランプを含むことができる。ローカルエリアネットワーク内の各デバイスは、ローカルエリアネットワークから、仲裁デバイス及び協同デバイスを決定する方法に基づいて、仲裁デバイスがスマートTVであり、協同デバイスがスマートTV、スマートスピーカ、床掃除ロボット、及びスマートアラームであると決定することができる。
再生デバイスがオーディオを再生するとき、再生デバイスは、協同デバイスと再生デバイスとの間の距離に基づいて、誤起動決定を実際に実行する2つの協同デバイスを決定し、決定された協同デバイスに関する情報をローカルエリアネットワーク内の別のデバイスに通知することができる。
例えば、携帯電話は再生デバイスであり、携帯電話は、ローカルエリアネットワークから、協同デバイスとして使用可能なデバイスがスマートTV、スマートスピーカ、床掃除ロボット、及びスマートアラームであると決定する。この場合、オーディオを再生するとき、携帯電話は、Wi-Fi測位技術を使用することにより各協同デバイスと携帯電話の距離を決定してもよい。携帯電話は、実際に誤起動決定を実行する協同デバイスとして、携帯電話に最も近い2つの協同デバイスを選択することができる。例えば、スマートスピーカと床掃除ロボットが携帯電話に比較的近い場合、携帯電話は、誤起動決定を実際に実行する協同デバイスとしてスマートスピーカと床掃除ロボットを使用し、その情報をローカルエリアネットワーク内の別のデバイスに通知してもよい。
一実施形態において、オーディオを再生するとき、再生デバイスは、再生デバイスにより決定された仲裁デバイス及び協同デバイスに関する情報をローカルエリアネットワーク内の別のデバイスに通知することができる。
一実施形態において、ローカルエリアネットワーク内の各デバイスは、予め設定されたルールに従って仲裁デバイスを決定し、再生デバイスは、オーディオを再生するときに協同デバイスを決定し、協同デバイスに関する情報をローカルエリアネットワーク内の別のデバイスに通知する。
本出願のこの実施形態において、再生デバイスは、再生デバイスに比較的近い複数のデバイスを協同デバイスとして選択して、音波減衰に起因して誤起動決定の精度が低減されるという問題を回避するのを助けることができる。
S303:協同デバイスが、オーディオ同期モジュールにより受信したオーディオデータをノイズ低減処理モジュール及び起動処理モジュールに送信する。
協同デバイスのオーディオ同期モジュールは、オーディオデータに遅延を追加することができる。具体的な処理方法については、方法200における起動されるべきデバイスにより遅延を追加するプロセスを参照する。簡潔さのために、詳細はここで再度説明されない。
本出願のこの実施形態において、再生デバイス、協同デバイス、及び仲裁デバイスは、同じデバイスでもよいことを理解されたい。代替的に、協同デバイスと仲裁デバイスが、同じデバイスでもよい。
S304:協同デバイスの起動処理モジュールが、起動ワードが存在するかどうかを検出する。
S305:協同デバイスが、マイクロフォンを使用することにより音声信号を収集し、収集された音声信号をノイズ低減処理モジュールに送信する。
S306:協同デバイスが、携帯電話により送信されたオーディオデータを参照信号として使用して、マイクロフォンにより収集された音声信号に対してノイズ低減処理を実行する。
S307:協同デバイスのノイズ低減処理モジュールが、ノイズ低減処理の後に得られた音声信号を起動処理モジュールに送信する。
S308:協同デバイスの起動処理モジュールが、ノイズ低減処理の後に得られた音声信号に起動ワードが存在するかどうかを決定する。
S308におけるノイズ低減処理の後に得られた音声信号が起動ワードを含まないが、S304における協同デバイスのオーディオ同期モジュールにより受信したオーディオデータが起動ワードを含む場合、協同デバイスは、誤起動が発生すると決定してもよい。
S308におけるノイズ低減処理の後に得られた音声信号が起動ワードを含まず、S304における協同デバイスのオーディオ同期モジュールにより受信したオーディオデータが起動ワードを含まない場合、協同デバイスは、誤起動が発生すると決定する。
S308におけるノイズ低減処理の後に得られた音声信号が起動ワードを含み、S304における協同デバイスのオーディオ同期モジュールにより受信したオーディオデータが起動ワードを含む場合、協同デバイスは、誤起動が発生しないと決定する。
S308におけるノイズ低減処理の後に得られた音声信号が起動ワードを含むが、S304における協同デバイスのオーディオ同期モジュールにより受信したオーディオデータが起動ワードを含まない場合、協同デバイスは、誤起動が発生しないと決定する。
再生デバイス(例えば、携帯電話)が音声を再生するとき、スピーカを使用することにより音声を再生することに追加で、再生デバイスは、さらに、セキュア通信ネットワークを使用することにより同じオーディオデータを協同デバイスに送信してもよい。マイクロフォンを使用することにより音声信号を収集した後、協同デバイスは、ローカルエリアネットワークを使用することによって再生デバイスにより送信されたオーディオデータを使用することにより、収集された音声信号に対するノイズ低減処理を実行する。ノイズ低減処理の後に得られた音声信号を使用することにより、起動されるべきデバイスが起動処理を実行する。
S309:協同デバイス(床掃除ロボット)が、誤起動結果をスマートTVに送信する。
S310:スマートTVが、床掃除ロボットにより返された誤起動結果と、スマートTVにより決定された誤起動結果に基づいて、結果が最終的な誤起動結果であるかどうかを決定する。
一実施形態において、スマートTVにより決定された結果が誤起動であり、床掃除ロボットにより決定された結果が誤起動である場合、スマートTVは、最終的な仲裁結果が誤起動であると決定してもよい。スマートTV又は床掃除ロボットのいずれかが、結果が誤起動でないと決定した場合、スマートTVは、最終的な仲裁結果が誤起動でないと決定してもよい。スマートTVと床掃除ロボットの双方が、結果が誤起動でないと決定した場合、スマートTVは、最終的な仲裁結果が誤起動でないと決定してもよい。
S311:スマートTVが、最終的な仲裁結果が誤起動であると決定した場合、スマートTVは、誤起動の仲裁結果を別のデバイスに送信する。
本出願のこの実施形態において、別のデバイスは、環境内で音声信号を収集することができ、音声信号を収集した後に起動動作を実行せずに、仲裁デバイスにより送信される誤起動結果を待つことができる。仲裁デバイスが最終的な誤起動結果を決定した後、仲裁デバイスが、最終的な結果が誤起動であると決定した場合、仲裁デバイスは、誤起動結果をローカルエリアネットワーク内の別のデバイスに送信することができ、別のデバイスは、誤起動結果に基づいて起動を実行しなくてもよい。
別のデバイスが仲裁デバイス又は協同デバイスでないと決定するとき、別のデバイスは誤起動検出を実行しなくてよいことを理解されたい(ローカルエリアネットワーク内の各デバイスは、仲裁デバイス及び協同デバイスを決定することができる)。
任意で、仲裁結果はタイムスタンプを搬送する。ここで、仲裁デバイスにより仲裁結果内にタイムスタンプを搬送する目的は、いくつかの極端なケースでは、複数の起動オーディオ片がかなり短時間の中で生成されるとき、タイムスタンプを使用してシーケンスを区別できることである。
スマートTVが、最終的な仲裁結果が誤起動でないと決定した場合、スマートTVは、仲裁結果を別のデバイスに送信しなくてもよいことを理解されたい。別のデバイスが、環境において音声信号を収集した後、予め設定された継続時間内に、仲裁デバイスにより送信された誤起動結果を受信しない場合、別のデバイスは、結果が誤起動でないとみなし、マイクロフォンにより収集された音声信号に基づいて起動動作を実行してもよい。
代替的に、別のデバイスが、再生デバイスにより送信される、ローカルエリアネットワーク内の協同デバイスの指標を受信した後、予め設定された継続時間内に、仲裁デバイスにより送信される誤起動結果を受信しない場合、別のデバイスは、結果が誤起動でないとみなし、マイクロフォンにより収集された音声信号に基づいて起動動作を実行してもよい。
さらに、スマートTVが、最終的な仲裁結果が誤起動でないと決定した場合、スマートTVはさらに、誤起動が発生しないことを示す結果を別のデバイスに送信してもよいことを理解されたい。別のデバイスは、マイクロフォンにより収集された音声信号に基づいて起動動作を実行することができる。別のデバイスは、起動ワードを検出することなく起動を直接実行してもよい。
本出願のこの実施形態における音声起動方法によれば、仲裁デバイスと協同デバイスが事前に決定され、複数の協同デバイスが、誤起動が発生するかどうかを別個に決定し、仲裁デバイスは最終的な誤起動結果を決定する。これは、デバイスが外部ノイズを受け取るとき引き起こされる誤起動を低減するのを助ける。さらに、いくつかの電力消費に敏感なデバイス又は比較的劣った計算能力を有するデバイスは、誤起動検出を実行することを防止することもでき、それにより、デバイスの電力消費を低減するのを助ける。
上記では、複数のスマート音声デバイスが1つの空間に配置される場合について検討しており、以下では、複数の音声デバイスが異なる空間に配置される場合について検討する。
図6は、本出願の一実施形態による技術的解決策の別の適用シナリオを示す。図6に示すように、異なるスマートデバイスが、リビングルーム及びユーザの寝室内に別個に配置される。スマートTV、携帯電話、床掃除ロボット、パッド、リビングルームランプ、及びスマートウォッチが、リビングルームに配置されている。スマートスピーカ、スマートアラーム、寝室デスクランプ、及びスマートカーテンなどのスマート音声デバイスが、寝室に配置されている。リビングルームと寝室のスマート音声デバイスは、ローカルエリアネットワーク(Wi-Fiルータ)を使用することにより接続できる。分離された部屋のため、音伝送の品質は悪く、あるいは、音はさらには伝送不可能である。
Wi-Fi測位技術を用いて、各スマートデバイスは、各スマートデバイスの位置を測定し、スマートデバイス間に壁があるかどうかを計算し、フロアプランに基づいて、各スマートデバイスが位置する部屋を決定し、あるいは、スマートデバイスがネットワークに登録するとき使用される設定情報に基づいて、スマートデバイスが位置する部屋を決定することができる。
本出願のこの実施形態において、各スマートデバイスの位置を測定する技術は、従来の技術でもよく、あるいは将来の別の測位技術でもよいことを理解されたい。これは、本出願のこの実施形態において限定されない。
これらのスマートデバイスは、リビングルームと寝室に分散されている。誤起動仲裁デバイスは、リビングルームと寝室から別個に選択することができる。前述の優先順位ポリシーによれば、リビングルームではスマートTVが誤起動仲裁デバイスとして選択されてもよく、寝室ではスマートスピーカが誤起動仲裁デバイスとして選択されてもよい。
図7A及び図7Bは、本出願の一実施形態による音声起動方法400の概略フローチャートである。図7A及び図7Bに示すように、方法400は、以下のステップを含む。
S401:携帯電話が、オーディオ再生モジュールを使用することにより、再生されたオーディオデータをスピーカ及びオーディオ同期モジュールに送信する。
S402:携帯電話のオーディオ同期モジュールが、セキュア通信ネットワークを使用することにより、オーディオを寝室内の協同デバイス(スマートTV及び床掃除ロボット)のオーディオ同期モジュールに送信する。
方法400では複数のスマートデバイスの中の各スマートデバイスの位置が考慮され、寝室内のスマートデバイス及びリビングルーム内のスマートデバイスが決定され得ることを理解されたい。寝室内の仲裁デバイスと協同デバイスは、寝室内のスマートデバイスから選択され、リビングルーム内の仲裁デバイスと協同デバイスは、リビングルーム内のスマートデバイスから選択される。図7(A)及び図7(B)に示すように、リビングルーム内の複数のデバイスのための協同デバイスとしてスマートTVと床掃除ロボットが選択されてもよく、仲裁デバイスとしてスマートTVが選択されてもよい。寝室内の複数のデバイスのための協同デバイスとしてスマートスピーカとスマートアラームが選択されてもよく、仲裁デバイスとしてスマートスピーカが選択されてもよい。
さらに、寝室内のスマートデバイスから協同デバイス及び仲裁デバイスを選択する方法について方法300を参照し、リビングルーム内のスマートデバイスから協同デバイス及び仲裁デバイスを選択する方法について方法300を参照することを理解されたい。簡潔さのために、詳細はここで再度説明されない。
S403:リビングルーム内の協同デバイス(スマートTV及び床掃除ロボット)が、協同デバイスのオーディオ同期モジュールにより受信したオーディオデータをノイズ低減処理モジュール及び起動処理モジュールに送信する。
S404:協同デバイスの起動処理モジュールが、起動ワードが存在するかどうかを検出する。
S405:協同デバイスが、マイクロフォンを使用することにより音声信号を収集し、収集された音声信号をノイズ低減処理モジュールに送信する。
S406:協同デバイスが、携帯電話により送信されたオーディオデータを参照信号として、マイクで収集した音声信号に対してノイズ低減処理を実行する。
S407:協同デバイスのノイズ低減処理モジュールが、ノイズ低減処理の後に得られた音声信号を起動処理モジュールに送信する。
S408:協同デバイスの起動処理モジュールが、ノイズ低減を実行した後に得られた音声信号に起動ワードが存在するかどうかを決定する。
S409:床掃除ロボットが、誤起動結果をスマートTVに送信する。
S410:スマートTVが、床掃除ロボットにより返された誤起動結果と、スマートTVにより決定された誤起動結果に基づいて、結果が最終的な誤起動結果であるかどうかを決定する。
S411:スマートTVが、最終的な仲裁結果が誤起動であると決定した場合、スマートTVは、誤起動の仲裁結果をリビングルーム内の別のデバイスに送信する。
スマートTVは、リビングルーム及び寝室内のデバイスを含む、ローカルエリアネットワーク内の全ての他のデバイスに最終的な仲裁結果を送信してもよいことが理解され得る。
S403~S411の説明については、方法300のS303~S311を参照することを理解されたい。簡潔さのために、詳細はここで再度説明されない。
方法400では、ローカルエリアネットワーク内の複数のデバイスは、Wi-Fi屋内測位技術及びフロアプランに基づいて組み合わせられてもよく、住居内のデバイスの異なる位置が測定され、デバイスは、デバイスの位置に基づいてグループ化され(例えば、デバイスは、寝室に位置するデバイスとリビングルームに位置するデバイスに分割され得る)、デバイス間に壁があるかどうかを計算することができる。これは、再生デバイスと協同デバイスとの間の距離は短いが、再生デバイスと協同デバイスとの間に壁が存在し得るという影響を回避することができる。グループ内のデバイスは同じ物理空間に位置し、デバイス間に壁のブロックがなく、それにより、誤起動決定の精度を向上させることができる。
例えば、リビングルーム内の再生デバイスは携帯電話である。全てのデバイスの位置がグループ化されていない場合、協同デバイスが選択されるとき、寝室に位置するスマートスピーカ及びスマートアラームが協同デバイスとして選択されてもよい。携帯電話とスマートスピーカ及びスマートアラームとの間に壁がある可能性がある。このケースで、スマートスピーカとスマートアラームが誤起動決定を実行する場合、誤起動結果は不正確である可能性がある。複数のデバイスが空間的にグループ化された後、リビングルーム内の再生デバイスは、再生の間、リビングルーム内のデバイスから協同デバイスを選択することができ、寝室内の再生デバイスは、再生の間、寝室内のデバイスから協同デバイスを選択することができる。これは、誤起動決定の精度を向上させるのを助ける。
仲裁デバイスについては、仲裁デバイスとして寝室とリビングルームから別個に1つのデバイスが選択されてもよく、あるいは、仲裁デバイスとして寝室及びリビングルームの全てのデバイスから1つのデバイスのみが選択されてもよいことを理解されたい。
本出願のこの実施形態における音声起動方法によれば、異なる仲裁デバイス及び協同デバイスが異なる空間で選択される。これは、各空間のデバイスが外部ノイズを受け取るときに引き起こされる誤起動を低減するのを助ける。さらに、いくつかの電力消費に敏感なデバイス又は比較的劣った計算能力を有するデバイスは、誤起動検出を実行することを防止することもでき、それにより、デバイスの電力消費を低減するのを助ける。
前述の実施形態及び関連する添付図面を参照し、本出願の一実施形態は、音声起動方法500を提供する。本方法は、図1に示すスマート音声機能を有する電子デバイス(例えば、スマートTV、スマートスピーカ、又は床掃除ロボット)に実装することができる。図8に示すように、本方法は、以下のステップを含むことができる。
S501:第1の電子デバイスが、第1の電子デバイスが位置する環境において第1の音声信号を収集する。
第1の電子デバイスはローカルエリアネットワーク内に位置してもよく、ローカルエリアネットワークは再生デバイス及び第2の電子デバイスをさらに含んでもよいことを理解されたい。
任意で、第1の電子デバイス及び第2の電子デバイスは、ローカルエリアネットワーク内で最も強力な計算能力を有する2つのデバイスであり、かつ/あるいは
第1の電子デバイス及び第2の電子デバイスは、ローカルエリアネットワーク内で電力消費に敏感でないデバイスである。
例えば、第1の電子デバイスは、方法300又は方法400におけるスマートTVでもよい。
第1の電子デバイスが、第1の電子デバイスが位置する環境において第1の音声信号を収集することは、第1の電子デバイスが、第1の電子デバイスのマイクロフォンを使用することにより、第1の電子デバイスが位置する環境において第1の音声信号を収集することでもよい。
S502:第1の電子デバイスが、有線又は無線通信方式で、第1の音声信号の収集期間内のオーディオに対応するオーディオ信号を取得する。
例えば、第1の電子デバイスが位置する環境内の再生デバイスがオーディオを再生するとき、再生デバイスは、オーディオに対応するオーディオ信号を第1の電子デバイス及び第2の電子デバイスに送信することができる。方法300におけるように、オーディオを再生するとき、携帯電話は、オーディオに対応するオーディオデータをスマートTV及び床掃除ロボットに送ることができる。
任意で、オーディオ信号はタイムスタンプを含み、タイムスタンプは、オーディオ信号の生成時間を示すために使用されてもよい。
任意で、第1の電子デバイス及び第2の電子デバイスは、再生デバイスにより選択されてもよい。具体的な選択プロセスについては、方法300の説明を参照する。簡潔さのために、詳細はここで再度説明されない。
S503:第1の電子デバイスが、第1の音声信号及びオーディオ信号に基づいて第1の誤起動結果を決定する。
任意で、第1の電子デバイスが、第1の音声信号及びオーディオ信号に基づいて第1の誤起動結果を決定することは、以下を含む。
第1の電子デバイスは、オーディオ信号に基づいて第1の音声信号に対してノイズ低減処理を実行して、第2の音声信号を取得する。
第1の電子デバイスは、オーディオ信号及び第2の音声信号に基づいて第1の誤起動結果を決定する。
第1の電子デバイスが第1の誤起動結果を決定するプロセスについては、方法300におけるS303~S308のプロセスを参照することを理解されたい。簡潔さのために、詳細はここで再度説明されない。
S504:第1の電子デバイスが、第2の電子デバイスにより送信された第2の誤起動結果を受信し、第2の誤起動結果は、収集された第2の音声信号及びオーディオ信号に基づいて第2の電子デバイスにより取得される。
第2の電子デバイスが、収集された第2の音声信号及びオーディオ信号に基づいて第2の誤起動結果を決定するプロセスについては、方法S303~S308のプロセスを参照してもよいことを理解されたい。簡潔さのために、詳細はここで再度説明されない。
例えば、第1の電子デバイスは、方法300におけるスマートTVであり、第2の電子デバイスは、方法300における床掃除ロボットでもよく、スマートTVは、第1の誤起動結果を決定することができ、あるいは床掃除ロボットにより送信される第2の誤起動結果を受信することができる。
S505:第1の電子デバイスが、第1の誤起動結果及び第2の誤起動結果に基づいて第3の誤起動結果を決定し、第3の誤起動結果は、ローカルエリアネットワーク内の起動されるべきデバイスに対して起動動作が実行される必要があるかどうかを示すために使用される。
例えば、第1の誤起動結果が誤起動であり、第2の誤起動結果が誤起動であるとき、第1の電子デバイスは、第3の誤起動結果が誤起動であると決定する。
代替的に、第1の誤起動結果が誤起動でなく、第2の誤起動結果が誤起動であるとき、第1の電子デバイスは、第3の誤起動結果が誤起動でないと決定する。
代替的に、第1の誤起動結果が誤起動であり、第2の誤起動結果が誤起動でないとき、第1の電子デバイスは、第3の誤起動結果が誤起動でないと決定する。
代替的に、第1の誤起動結果が誤起動でなく、第2の誤起動結果が誤起動でないとき、第1の電子デバイスは、第3の誤起動結果が誤起動でないと決定する。
S506:第1の電子デバイスが、第3の誤起動結果をローカルエリアネットワーク内の第1の電子デバイス以外の別の電子デバイスに送信する。
本出願のこの実施形態において、ローカルエリアネットワーク内の第1の電子デバイス以外の別の電子デバイスも、環境内の音声信号を受信することができる。環境内で音声信号を収集した後、別のデバイスは、最初に音声信号を使用することにより起動動作を実行せず、第1の電子デバイスにより送信される誤起動結果を待つことができる。第1の電子デバイスが、最終的な誤起動結果が誤起動であると決定した後、第1の電子デバイスは、誤起動結果をローカルエリアネットワーク内の別のデバイスに送信することができ、別のデバイスは、誤起動結果に基づいて起動動作を実行しなくてもよい。
一実施形態において、第1の電子デバイスが、第3の誤起動結果が誤起動でないと決定した場合、第1の電子デバイスは、第3の誤起動結果をローカルエリアネットワーク内の別のデバイスに送信しなくてもよい。例えば、別のデバイスは、音声信号を受信した後にタイマを開始することができ、タイマが満了する前、別のデバイスは、起動動作を実行することなく、第1の電子デバイスにより送信される第3の誤起動結果を待つことができる。タイマが満了した後、別のデバイスは、収集された音声信号に基づいて起動動作を実行してもよい。
一実施形態において、第1の電子デバイスが、第3の誤起動結果が誤起動でないと決定した場合、第1の電子デバイスは、第3の誤起動結果をローカルエリアネットワーク内の別のデバイスに送信してもよい。第3の誤起動結果を受信した後、別の電子デバイスは、収集された音声信号を使用することにより起動動作を実行してもよい。
前述の機能を実現するために、電子デバイスは、機能を実現するための対応するハードウェア及び/又はソフトウェアモジュールを含むことが理解され得る。本明細書に開示される実施形態に記載される各例のアルゴリズムステップを参照し、本出願は、ハードウェア又はハードウェアとコンピュータソフトウェアの組み合わせの形態で実施することができる。機能がハードウェアにより実行されるのか、又はコンピュータソフトウェアにより駆動されるハードウェアにより実行されるのかは、技術的解決策の特定の適用及び設計上の制約に依存する。当業者は、実施形態を参照し、特定の適用について、説明された機能を実現するために異なる方法を用いることができるが、その実現は本出願の範囲を超えるものとみなされるべきではない。
実施形態において、電子デバイスは、前述の方法の例に基づいて機能モジュールに分割されてもよい。例えば、各機能に対応する各機能モジュールは分割により得られてもよく、あるいは、2つ以上の機能が1つの処理モジュールに統合されてもよい。統合モジュールは、ハードウェアの形態で実現されてもよい。実施形態では、モジュールへの分割は一例であり、論理的な機能分割にすぎないことに留意されたい。実際の実装の間、別の分割方法が存在し得る。
各機能に対応する各機能モジュールが分割により得られるとき、図9は、前述の実施形態における電子デバイス600の可能な構成の概略図である。図9に示すように、電子デバイス600は、収集ユニット601、取得ユニット602、決定ユニット603、受信ユニット604、及び送信ユニット605を含むことができる。
収集ユニット601は、ステップ501など、及び/又は本明細書に記載される技術のために使用される別のプロセスを実行する際に電子デバイス600をサポートするように構成され得る。
取得ユニット602は、ステップ502など、及び/又は本明細書に記載される技術のために使用される別のプロセスを実行する際に電子デバイス600をサポートするように構成され得る。
決定ユニット603は、ステップ503、ステップ505など、及び/又は本明細書に記載される技術のために使用される別のプロセスを実行する際に電子デバイス600をサポートするように構成され得る。
受信ユニット604は、ステップ504など、及び/又は本明細書に記載される技術のために使用される別のプロセスを実行する際に電子デバイス600をサポートするように構成され得る。
送信ユニット605は、ステップ506など、及び/又は本明細書に記載される技術のために使用される別のプロセスを実行する際に電子デバイス600をサポートするように構成され得る。
前述の方法の実施形態におけるステップの全ての関連する内容は、対応する機能モジュールの機能説明において引用され得ることに留意されたい。詳細はここで再度説明されない。
この実施形態で提供される電子デバイスは、音声起動方法を実行するように構成される。したがって、前述の実施方法の効果と同じ効果を達成することができる。
統合されたユニットが使用されるとき、電子デバイスは、処理モジュール、記憶モジュール、及び通信モジュールを含んでもよい。処理モジュールは、電子デバイスの動作を制御及び管理するように構成され得る。例えば、処理モジュールは、収集ユニット601、取得ユニット602、決定ユニット603、受信ユニット604、及び送信ユニット605により実行されるステップを実行する際に電子デバイスをサポートするように構成されてもよい。記憶モジュールは、プログラムコード、データ等を記憶する際に電子デバイスをサポートするように構成され得る。通信モジュールは、電子デバイスと別のデバイスとの間の通信をサポートするように構成され得る。
処理モジュールは、プロセッサ又はコントローラでもよい。処理モジュールは、本出願に開示される内容を参照して説明された様々な例示的な論理ブロック、モジュール、及び回路を実施又は実行することができる。代替的に、プロセッサは、計算機能を実施するプロセッサの組み合わせ、例えば、1つ以上のマイクロプロセッサの組み合わせ、又はDSPとマイクロプロセッサの組み合わせでもよい。記憶モジュールはメモリでもよい。通信モジュールは、具体的に、無線周波数回路、Bluetoothチップ、又はWi-Fiチップなどの、別の電子デバイスと相互作用するデバイスでもよい。
一実施形態において、処理モジュールがプロセッサであり、記憶モジュールがメモリであるとき、この実施形態の電子デバイスは、図1に示す構造のデバイスでもよい。
図10は、本出願の一実施形態による音声起動システム700の概略ブロック図である。図10に示すように、音声起動システム700は、同じローカルエリアネットワーク内にある再生デバイス701、第1の協同デバイス702、第2の協同デバイス703、及び仲裁デバイス704を含む。ローカルエリアネットワークは、より多くの又はより少ない電子デバイスをさらに含んでもよい。例えば、再生デバイス701及び第1の協同デバイス702は、同じデバイスでもよい。再生デバイス701、第1の協同デバイス702、及び仲裁デバイス704は、同じデバイスでもよい。
例えば、再生デバイス701は、方法300における携帯電話でもよく、第1の協同デバイス702は、方法300におけるスマートTVでもよく、第2の協同デバイスは、方法300における床掃除ロボットでもよい。協同デバイスは、方法300におけるスマートTVでもよい。
例えば、再生デバイス701は、方法400における携帯電話でもよく、第1の協同デバイス702は、方法400におけるスマートTVでもよく、第2の協同デバイスは、方法400における床掃除ロボットでもよい。協同デバイスは、方法400におけるスマートTVでもよい。
一実施形態は、コンピュータ記憶媒体をさらに提供する。コンピュータ記憶媒体は、コンピュータ命令を記憶する。コンピュータ命令が電子デバイス上で実行されると、電子デバイスは、前述の実施形態における音声起動方法を実施するために、関連する方法ステップを実行可能にされる。
一実施形態は、コンピュータプログラム製品をさらに提供する。コンピュータプログラム製品がコンピュータ上で実行されると、コンピュータは、前述の実施形態における音声起動方法を実施するために、関連するステップを実行可能にされる。
さらに、本出願の一実施形態は装置をさらに提供する。装置は、具体的に、チップ、コンポーネント、又はモジュールでもよい。装置は、接続されたプロセッサ及びメモリを含んでもよい。メモリは、コンピュータ実行命令を記憶するように構成される。装置が実行されると、プロセッサは、メモリに記憶されたコンピュータ実行命令を実行して、チップが前述の方法の実施形態における音声起動方法を実行することを可能にすることができる。
実施形態で提供される電子デバイス、コンピュータ記憶媒体、コンピュータプログラム製品、又はチップは、上記で提供された対応する方法を実行するように構成される。したがって、電子デバイス、コンピュータ記憶媒体、コンピュータプログラム製品、又はチップにより達成できる有益な効果については、上記で提供された対応する方法の有益な効果を参照する。詳細はここで再度説明されない。
実装に関する前述の説明により、当業者は、簡便かつ簡潔な説明のために前述の機能モジュールへの分割が例示のための一例としてとられていることを理解することができる。実際の適用では、前述の機能は、異なるモジュールに割り当て、要件に基づいて実現することが可能であり、言い換えれば、装置の内部構造は、上述の機能の全部又は一部を実現するために、異なる機能モジュールに分割される。
本出願で提供されるいくつかの実施形態において、開示された装置及び方法は、他の方法で実施されてもよいことを理解されたい。例えば、説明された装置の実施形態は、単なる一例である。例えば、モジュール又はユニットへの分割は、単に論理的な機能分割である。実際の実装において、別の分割方法が存在し得る。例えば、複数のユニット又はコンポーネントが組み合わせられ、別の装置に統合されてもよく、あるいは、いくつかの特徴が無視されてもよく、あるいは実行されなくてもよい。さらに、表示され又は論じられた相互結合又は直接結合又は通信接続は、いくつかのインターフェースを介して実現されてもよい。装置又はユニット間の間接結合又は通信接続は、電子形態、機械形態、又は他の形態で実施されてもよい。
別個の部分として記載されたユニットは、物理的に別個でも又はそうでなくてもよく、ユニットとして表示された部分は、1つ以上の物理的ユニットでもよく、1つの場所に配置されてもよく、あるいは異なる場所に分散されてもよい。ユニットの一部又は全ては、実施形態の解決策の目的を達成するために、実際の要件に基づいて選択されてもよい。
さらに、本出願の実施形態における機能ユニットは1つの処理ユニットに統合されてもよく、あるいは、ユニットの各々は物理的に単独で存在してもよく、あるいは、2つ以上のユニットが1つのユニットに統合されてもよい。統合されたユニットは、ハードウェアの形態で実施されてもよく、あるいはソフトウェア機能ユニットの形態で実施されてもよい。
統合されたユニットがソフトウェア機能ユニットの形態で実施され、独立した製品として販売又は使用されるとき、統合されたユニットは読取可能記憶媒体に記憶されてもよい。このような理解に基づいて、本質的に本出願の技術的解決策、又は従来技術に寄与する部分、又は技術的解決策の全部若しくは一部は、ソフトウェア製品の形態で実施されてもよい。ソフトウェア製品は、記憶媒体に記憶され、デバイス(シングルチップマイクロコンピュータ、チップなどでもよい)又はプロセッサ(processor)に、本出願の実施形態に記載される方法のステップの全て又は一部を実行するよう指示するためのいくつかの命令を含む。前述の記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、読取専用メモリ(read-only memory、ROM)、ランダムアクセスメモリ(read-only memory、RAM)、磁気ディスク、又は光ディスクなどの、プログラムコードを記憶できる任意の媒体を含む。
前述の説明は、本出願の単なる具体的な実装であり、本出願の保護範囲を制限することを意図するものではない。本出願に開示された技術的範囲内で当業者により容易に理解される変形又は置換は、本出願の保護範囲に含まれるものとする。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。

Claims (7)

  1. 第1の電子デバイスに適用される音声起動方法であって、前記第1の電子デバイスはローカルエリアネットワーク内に位置し、前記ローカルエリアネットワークは第2の電子デバイスをさらに含み、当該方法は、
    前記第1の電子デバイスが位置する環境において第1の音声信号を収集するステップと、
    有線又は無線通信方式で、前記第1の音声信号の収集期間内のオーディオに対応するオーディオ信号を取得するステップと、
    前記第1の音声信号及び前記オーディオ信号に基づいて第1の誤起動結果を決定するステップであり、前記第1の誤起動結果は、前記ローカルエリアネットワーク内の起動されるべきデバイスに対して起動動作が実行される必要があるかどうかを示し、前記第1の誤起動結果が誤起動であることは、前記起動動作が実行される必要がないことを示し、前記第1の誤起動結果は、前記オーディオ信号及び前記第1の音声信号の各々が起動ワードを含むかどうかを分析することに基づいて決定される、ステップと、
    前記第2の電子デバイスにより送信された第2の誤起動結果を受信するステップであり、前記第2の誤起動結果は、前記ローカルエリアネットワーク内の前記起動されるべきデバイスに対して起動動作が実行される必要があるかどうかを示し、前記第2の誤起動結果が誤起動であることは、前記起動動作が実行される必要がないことを示し、前記第2の誤起動結果は、収集された第2の音声信号及び前記オーディオ信号の各々が前記起動ワードを含むかどうかを分析することに基づいて、前記第2の電子デバイスにより取得される、ステップと、
    前記第1の誤起動結果及び前記第2の誤起動結果に基づいて第3の誤起動結果を決定するステップであり、前記第3の誤起動結果は、前記第1の誤起動結果が誤起動であるか否か、及び前記第2の誤起動結果が誤起動であるか否かに基づいて決定され、前記第3の誤起動結果が誤起動であることは、前記ローカルエリアネットワーク内の前記起動されるべきデバイスに対して起動動作が実行される必要がないことを示す、ステップと、
    前記ローカルエリアネットワーク内の前記第1及び第2の電子デバイス以外の別の電子デバイスに前記第3の誤起動結果を送信するステップであり、前記ローカルエリアネットワーク内の前記第1及び第2の電子デバイス以外の前記別の電子デバイスは、前記ローカルエリアネットワーク内の前記起動されるべきデバイスである、ステップと、
    を含む方法。
  2. 前記第1の誤起動結果及び前記第2の誤起動結果に基づいて第3の誤起動結果を決定するステップは、
    前記第1の誤起動結果が誤起動であり、前記第2の誤起動結果が誤起動であるとき、前記第3の誤起動結果が誤起動であると決定するステップ、又は
    前記第1の誤起動結果が誤起動でない、又は前記第2の誤起動結果が誤起動でないとき、前記第3の誤起動結果が誤起動でないと決定するステップ
    を含む、請求項1に記載の方法。
  3. 前記第1の音声信号及び前記オーディオ信号に基づいて第1の誤起動結果を決定するステップは、
    前記オーディオ信号に基づいて前記第1の音声信号に対してノイズ低減処理を実行して、処理された第1の音声信号を取得するステップと、
    前記オーディオ信号及び前記処理された第1の音声信号に基づいて前記第1の誤起動結果を決定するステップと、
    を含む、請求項1又は2に記載の方法。
  4. 前記オーディオ信号及び前記処理された第1の音声信号に基づいて前記第1の誤起動結果を決定するステップは、
    前記オーディオ信号が前記起動ワードを含み、前記処理された第1の音声信号が前記起動ワードを含まないと決定されたとき、前記第1の誤起動結果が誤起動であると決定するステップ
    を含む、請求項3に記載の方法。
  5. 前記オーディオ信号はタイムスタンプを含む、請求項1乃至4のうちいずれか1項に記載の方法。
  6. 電子デバイスであって、
    1つ以上のプロセッサと、
    1つ以上のメモリと、を含み、
    前記1つ以上のメモリは1つ以上のコンピュータプログラムを記憶し、前記1つ以上のコンピュータプログラムは命令を含み、前記命令が前記1つ以上のプロセッサにより実行されると、当該電子デバイスは請求項1乃至5のうちいずれか1項に記載の方法を実行可能にされる、電子デバイス。
  7. コンピュータ命令を含むコンピュータ記憶媒体であって、前記コンピュータ命令が電子デバイス上で実行されると、前記電子デバイスは請求項1乃至5のうちいずれか1項に記載の音声起動方法を実行可能にされる、コンピュータ記憶媒体。
JP2022502483A 2019-07-15 2020-07-14 音声起動方法及び電子デバイス Active JP7426470B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910637698.0A CN110364151B (zh) 2019-07-15 2019-07-15 一种语音唤醒的方法和电子设备
CN201910637698.0 2019-07-15
PCT/CN2020/101948 WO2021008534A1 (zh) 2019-07-15 2020-07-14 一种语音唤醒的方法和电子设备

Publications (2)

Publication Number Publication Date
JP2022541207A JP2022541207A (ja) 2022-09-22
JP7426470B2 true JP7426470B2 (ja) 2024-02-01

Family

ID=68219363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022502483A Active JP7426470B2 (ja) 2019-07-15 2020-07-14 音声起動方法及び電子デバイス

Country Status (5)

Country Link
US (1) US20220366906A1 (ja)
EP (1) EP3975171A4 (ja)
JP (1) JP7426470B2 (ja)
CN (2) CN110364151B (ja)
WO (1) WO2021008534A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110364151B (zh) * 2019-07-15 2024-01-30 华为技术有限公司 一种语音唤醒的方法和电子设备
CN111091828B (zh) * 2019-12-31 2023-02-14 华为技术有限公司 语音唤醒方法、设备及系统
CN113497744B (zh) * 2020-03-18 2022-10-04 深圳市云动创想科技有限公司 控制智能家居的方法、系统、可穿戴设备及可读存储介质
CN111696562B (zh) * 2020-04-29 2022-08-19 华为技术有限公司 语音唤醒方法、设备及存储介质
CN111614770B (zh) * 2020-05-22 2022-06-17 云知声智能科技股份有限公司 一种单一唤醒方法、装置和系统
US11670293B2 (en) * 2020-09-02 2023-06-06 Google Llc Arbitrating between multiple potentially-responsive electronic devices
CN112118506B (zh) * 2020-09-29 2022-11-11 英华达(上海)科技有限公司 耳机降噪模式控制方法、系统、设备及存储介质
CN112241249A (zh) * 2020-10-21 2021-01-19 北京小米松果电子有限公司 确定唤醒时延的方法、装置、存储介质及终端设备
US11798530B2 (en) 2020-10-30 2023-10-24 Google Llc Simultaneous acoustic event detection across multiple assistant devices
US11749284B2 (en) 2020-11-13 2023-09-05 Google Llc Dynamically adapting on-device models, of grouped assistant devices, for cooperative processing of assistant requests
CN112822246A (zh) * 2020-12-31 2021-05-18 展讯通信(上海)有限公司 一种设备的识别方法及设备
CN114863936A (zh) * 2021-01-20 2022-08-05 华为技术有限公司 一种唤醒方法及电子设备
CN113066490B (zh) * 2021-03-16 2022-10-14 海信视像科技股份有限公司 一种唤醒响应的提示方法和显示设备
US11943712B2 (en) 2021-03-25 2024-03-26 Dell Products L.P. Information handling system and peripheral group wakeup radio interface synchronized communications
US11737026B2 (en) 2021-03-25 2023-08-22 Dell Products L.P. Information handling system and peripheral wakeup radio interface synchronized communications
US11665645B2 (en) 2021-03-25 2023-05-30 Dell Products L.P. Information handling system and peripheral wakeup radio interface configuration
US11435810B1 (en) 2021-03-25 2022-09-06 Dell Products L.P. Information handling system and peripheral bi-directional wakeup interface
US11907039B2 (en) 2021-03-25 2024-02-20 Dell Products L.P. Information handling system location wakeup radio interface synchronized communications
CN113593549A (zh) * 2021-06-29 2021-11-02 青岛海尔科技有限公司 确定语音设备的唤醒率的方法及装置
CN113467333B (zh) * 2021-07-28 2022-12-20 深圳市广和通无线股份有限公司 开机控制电路及开机控制方法
CN113744735A (zh) * 2021-09-01 2021-12-03 青岛海尔科技有限公司 一种分布式唤醒方法及系统
CN114979781A (zh) * 2022-04-22 2022-08-30 海信视像科技股份有限公司 显示设备、设备控制方法及可读存储介质
CN115294983B (zh) * 2022-09-28 2023-04-07 科大讯飞股份有限公司 一种自主移动设备唤醒方法、系统及基站
CN115866845A (zh) * 2022-12-27 2023-03-28 深圳市飞鹤电子有限公司 一种唤醒台灯

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008263404A (ja) 2007-04-12 2008-10-30 Sony Corp 受信装置および受信方法
JP2014123875A (ja) 2012-12-21 2014-07-03 Toshiba Corp 信号処理装置および信号処理方法
WO2016057268A1 (en) 2014-10-09 2016-04-14 Google Inc. Hotword detection on multiple devices
JP2017011336A (ja) 2015-06-16 2017-01-12 ヤマハ株式会社 オーディオ機器および同期再生方法
US20170357478A1 (en) 2016-06-11 2017-12-14 Apple Inc. Intelligent device arbitration and control
US20180020309A1 (en) 2016-07-17 2018-01-18 Bose Corporation Synchronized Audio Playback Devices
US10079015B1 (en) 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US20190066670A1 (en) 2017-08-30 2019-02-28 Amazon Technologies, Inc. Context-based device arbitration
US20190096398A1 (en) 2017-09-28 2019-03-28 Sonos, Inc. Tone Interference Cancellation

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683388A (ja) * 1992-09-04 1994-03-25 Fujitsu Ten Ltd 音声認識装置
CN103971681A (zh) * 2014-04-24 2014-08-06 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
US9424841B2 (en) * 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
DE102015208242A1 (de) * 2015-05-05 2016-11-10 Volkswagen Aktiengesellschaft Fahrzeug, Vorrichtungen, Verfahren und Computerprogramme zur Kontrolle eines Datenverkehrs und einer Datenübertragung an Fahrzeugkomponenten
US9734822B1 (en) * 2015-06-01 2017-08-15 Amazon Technologies, Inc. Feedback based beamformed signal selection
US11587559B2 (en) * 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US9779735B2 (en) * 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
CN106098054A (zh) * 2016-06-13 2016-11-09 惠州Tcl移动通信有限公司 一种语音识别中扬声器噪音的过滤装置及方法
US10115400B2 (en) * 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10475449B2 (en) * 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
JP6844472B2 (ja) * 2017-08-24 2021-03-17 トヨタ自動車株式会社 情報処理装置
US10586534B1 (en) * 2017-09-27 2020-03-10 Amazon Technologies, Inc. Voice-controlled device control using acoustic echo cancellation statistics
KR102543693B1 (ko) * 2017-10-17 2023-06-16 삼성전자주식회사 전자 장치 및 그의 동작 방법
US11064281B1 (en) * 2017-11-15 2021-07-13 Amazon Technologies, Inc. Sending and receiving wireless data
EP3610480B1 (en) * 2017-12-06 2022-02-16 Google LLC Ducking and erasing audio signals from nearby devices
CN108564947B (zh) * 2018-03-23 2021-01-05 北京小米移动软件有限公司 远场语音唤醒的方法、装置和存储介质
US10679629B2 (en) * 2018-04-09 2020-06-09 Amazon Technologies, Inc. Device arbitration by multiple speech processing systems
US11157696B1 (en) * 2018-06-25 2021-10-26 Amazon Technologies, Inc. Language agnostic phonetic entity resolution
US10762896B1 (en) * 2018-06-25 2020-09-01 Amazon Technologies, Inc. Wakeword detection
CN108766432A (zh) * 2018-07-02 2018-11-06 珠海格力电器股份有限公司 一种控制家电间协同工作的方法
JP7089107B2 (ja) * 2018-07-12 2022-06-21 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 起動信号の多重化
US11514917B2 (en) * 2018-08-27 2022-11-29 Samsung Electronics Co., Ltd. Method, device, and system of selectively using multiple voice data receiving devices for intelligent service
US10878811B2 (en) * 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
CN109389976A (zh) * 2018-09-27 2019-02-26 珠海格力电器股份有限公司 智能家电设备控制方法、装置、智能家电设备及存储介质
US10692518B2 (en) * 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) * 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
CN109087650B (zh) * 2018-10-24 2022-02-22 北京小米移动软件有限公司 语音唤醒方法及装置
US11183183B2 (en) * 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
EP3896983A4 (en) * 2018-12-11 2022-07-06 LG Electronics Inc. DISPLAY DEVICE
US11315556B2 (en) * 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
KR20200105302A (ko) * 2019-02-28 2020-09-07 삼성전자주식회사 무선 통신을 확장하기 위한 방법 및 그 전자 장치
WO2020246634A1 (ko) * 2019-06-04 2020-12-10 엘지전자 주식회사 다른 기기의 동작을 제어할 수 있는 인공 지능 기기 및 그의 동작 방법
CN110364151B (zh) * 2019-07-15 2024-01-30 华为技术有限公司 一种语音唤醒的方法和电子设备
US20210224078A1 (en) * 2020-01-17 2021-07-22 Syntiant Systems and Methods for Generating Wake Signals from Known Users

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008263404A (ja) 2007-04-12 2008-10-30 Sony Corp 受信装置および受信方法
JP2014123875A (ja) 2012-12-21 2014-07-03 Toshiba Corp 信号処理装置および信号処理方法
JP2017227912A (ja) 2014-10-09 2017-12-28 グーグル エルエルシー 複数のデバイス上でのホットワード検出
WO2016057268A1 (en) 2014-10-09 2016-04-14 Google Inc. Hotword detection on multiple devices
JP2017520008A (ja) 2014-10-09 2017-07-20 グーグル インコーポレイテッド 複数のデバイス上でのホットワード検出
JP2017011336A (ja) 2015-06-16 2017-01-12 ヤマハ株式会社 オーディオ機器および同期再生方法
US20170357478A1 (en) 2016-06-11 2017-12-14 Apple Inc. Intelligent device arbitration and control
US20180020309A1 (en) 2016-07-17 2018-01-18 Bose Corporation Synchronized Audio Playback Devices
JP2019525235A (ja) 2016-07-17 2019-09-05 ボーズ・コーポレーションBose Corporation 同期オーディオ再生装置
US10079015B1 (en) 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US20190066670A1 (en) 2017-08-30 2019-02-28 Amazon Technologies, Inc. Context-based device arbitration
US20190096398A1 (en) 2017-09-28 2019-03-28 Sonos, Inc. Tone Interference Cancellation
WO2019067720A1 (en) 2017-09-28 2019-04-04 Sonos, Inc. PURE FREQUENCY INTERFERENCE CANCELLATION
JP2020536273A (ja) 2017-09-28 2020-12-10 ソノズ インコーポレイテッド 音干渉キャンセレーション

Also Published As

Publication number Publication date
EP3975171A4 (en) 2022-08-17
JP2022541207A (ja) 2022-09-22
CN112712803A (zh) 2021-04-27
US20220366906A1 (en) 2022-11-17
CN112712803B (zh) 2022-02-25
EP3975171A1 (en) 2022-03-30
CN110364151A (zh) 2019-10-22
CN110364151B (zh) 2024-01-30
WO2021008534A1 (zh) 2021-01-21

Similar Documents

Publication Publication Date Title
JP7426470B2 (ja) 音声起動方法及び電子デバイス
WO2021000876A1 (zh) 一种语音控制方法、电子设备及系统
EP3968133A1 (en) Air-mouse mode implementation method and related device
CN111262975B (zh) 亮屏控制方法、电子设备、计算机可读存储介质和程序产品
CN111369988A (zh) 一种语音唤醒方法及电子设备
WO2020168968A1 (zh) 一种具有折叠屏的电子设备的控制方法及电子设备
CN110557740A (zh) 一种电子设备控制方法及一种电子设备
CN110572799B (zh) 一种同时响应的方法及设备
WO2022161077A1 (zh) 语音控制方法和电子设备
CN114125789A (zh) 通信方法、终端设备及存储介质
CN114610193A (zh) 内容共享方法、电子设备及存储介质
CN111031492B (zh) 呼叫需求响应方法、装置及电子设备
CN113126948A (zh) 一种音频播放方法及相关设备
CN111492678B (zh) 一种文件传输方法及电子设备
CN114554012A (zh) 来电接听方法、电子设备及存储介质
CN109285563B (zh) 在线翻译过程中的语音数据处理方法及装置
CN114089902A (zh) 手势交互方法、装置及终端设备
CN112469012A (zh) 一种蓝牙通信方法及相关装置
CN114120987B (zh) 一种语音唤醒方法、电子设备及芯片系统
CN115706755A (zh) 回声消除方法、电子设备及存储介质
CN113867520A (zh) 设备控制方法、电子设备和计算机可读存储介质
WO2024055881A1 (zh) 时钟同步方法、电子设备、系统及存储介质
WO2024001735A1 (zh) 网络连接方法、电子设备及存储介质
CN113630823B (zh) 网络测量方法、装置、终端设备及计算机可读存储介质
CN115134402B (zh) 设备连接方法及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220309

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240122

R150 Certificate of patent or registration of utility model

Ref document number: 7426470

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150