JP7017598B2 - スマートデバイスのデータ処理方法、装置、機器及び記憶媒体 - Google Patents

スマートデバイスのデータ処理方法、装置、機器及び記憶媒体 Download PDF

Info

Publication number
JP7017598B2
JP7017598B2 JP2020069790A JP2020069790A JP7017598B2 JP 7017598 B2 JP7017598 B2 JP 7017598B2 JP 2020069790 A JP2020069790 A JP 2020069790A JP 2020069790 A JP2020069790 A JP 2020069790A JP 7017598 B2 JP7017598 B2 JP 7017598B2
Authority
JP
Japan
Prior art keywords
voice information
key
smart device
mobile terminal
key voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020069790A
Other languages
English (en)
Other versions
JP2021057878A (ja
Inventor
ヤン リウ,
シー シー,
ロン クァン,
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
シャンハイ シャオドゥ テクノロジー カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド, シャンハイ シャオドゥ テクノロジー カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2021057878A publication Critical patent/JP2021057878A/ja
Application granted granted Critical
Publication of JP7017598B2 publication Critical patent/JP7017598B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Description

本出願は、データ処理技術の分野に関し、具体的には人工知能技術の分野に関し、特に、スマートデバイスのデータ処理方法、装置、機器及び記憶媒体に関する。
インテリジェントな音声対話技術の急速な発展と伴い、ヒューマン-コンピュータ・インタラクションを行うスマートデバイスが既に人々の生活に広く応用されている。現在、既存のスマートデバイスは、通常、WiFiネットワークを使用してサーバとインタラクションを行うことで、ユーザにインテリジェントなインタラクティブサービスを提供する。
しかし、実際の使用シーンでは、スマートデバイスは、常にWiFiネットワークのない環境にあることがある。この場合、スマートデバイスはサーバとネットワーク接続を確立することができず、さらに、ユーザに音声などのインテリジェントなインタラクティブサービスを提供することができなくなるため、早急に改善する必要がある。
本出願の実施例は、スマートデバイスのデータ処理方法、装置、機器及び記憶媒体を提供し、周辺にWiFiネットワーク環境がない場合、スマートデバイスがモバイル端末のネットワークを介してサーバとのインタラクションを実現し、ユーザにインテリジェントなインタラクティブサービスを提供する。
第1の態様では、本出願の実施例は、スマートデバイスのデータ処理方法を開示し、当該方法は、収集されたユーザ音声情報からキー音声情報を抽出するステップと、非ワイヤレスフィデリティWiFiネットワーク環境において、前記モバイル端末が前記キー音声情報をサーバに伝送し、前記サーバにより前記キー音声情報を処理した後にフィードバックされた処理結果を受信するように、前記キー音声情報をモバイル端末に伝送するステップと、前記モバイル端末から前記処理結果を取得して表示するステップと、を含み、前記キー音声情報をモバイル端末に伝送するステップは、ローカルブルートゥースモジュールの第1のチャンネルを使用して前記ローカルブルートゥースモジュールの第2のチャンネルをオフ状態からオン状態に切り替えるように制御するステップと、前記キー音声情報を前記第2のチャンネルを介してモバイル端末に伝送するステップと、を含み、前記第1のチャンネルの消費電力は、前記第2のチャンネルより低く、前記第1のチャンネルは、前記ローカルブルートゥースモジュールが起動された後に常時オン状態になる。
上記の出願中の一実施例では、以下の利点又は有益な効果を有する。収集されたユーザ音声情報に対してキー音声情報の抽出を行った後、スマートデバイスが非WiFiネットワーク環境にある場合、モバイル端末とのネットワーク接続を確立し、抽出されたキー音声情報をモバイル端末に伝送し、モバイル端末のネットワークを介してキー音声情報をサーバに伝送して処理を行い、サーバがキー音声情報処理を完了した後、同様にモバイル端末のネットワークを介して処理結果をスマートデバイスにフィードバックして表示される。本実施例では、スマートデバイスがサーバに音声情報を伝送する前に、まず、ローカルに収集されたユーザ音声情報に対してキー音声情報抽出を行い、音声情報伝送量を低減して、スマートデバイスの消費電力を節約するとともに、後続のサーバのデータ処理効率を向上させる。また、スマートデバイスは、周辺にWiFiネットワーク環境がない場合には、モバイル端末のネットワークを介して、サーバとのインタラクションを実現し、ユーザにインテリジェントなインタラクティブサービスを提供する。当該プロセスは、モバイル端末が伝送対象となるキー音声情報に対して他の処理操作を行う必要がなく、モバイル端末により多くの消費電力を占有する必要がない。
選択可能に、収集されたユーザ音声情報からキー音声情報を抽出するステップは、収集されたユーザ音声情報にウェイクアップワードが存在すると認識された場合、前記収集されたユーザ音声情報からキー音声情報を抽出するステップを含む。
上記の選択可能な方式では、以下の利点又は有益な効果を有する。本実施例は、ウェイクアップワードを含むユーザ音声情報だけに対してキーワード抽出を行い、スマートデバイスが誤って環境中の非インタラクション音声情報に対してキー音声情報の抽出処理を行うことによって、インテリジェントなインタラクティブサービスが誤って提供される状況の発生を回避し、スマートデバイスの消費電力を大幅に節約する。
選択可能に、収集されたユーザ音声情報からキー音声情報を抽出するステップは、収集されたユーザ音声情報から前記ウェイクアップワードの後の音声情報をキー音声情報として切り出すステップを含む。
上記の選択可能な方式では、以下の利点又は有益な効果を有する。ユーザ音声情報からキー情報を抽出する場合、ウェイクアップワードの後の音声情報をキー音声情報として、ユーザ音声情報からキー情報を迅速且つ正確に抽出する。
選択可能に、収集されたユーザ音声情報からキー音声情報を抽出するステップは、収集されたユーザ音声情報に対してノイズ低減処理及び/又は音声テキスト変換処理を行って、キー音声情報を取得するステップを含む。
上記の選択可能な方式では、以下の利点又は有益な効果を有する。収集されたユーザ音声情報に対してノイズ低減処理を行い、取得されたキー音声情報からノイズ干渉を除去することにより、後続のサーバが、より正確にその中からユーザの今回の音声インタラクションの意図の分析が容易になる。ユーザにより正確にインテリジェントなインタラクティブサービスを提供し、収集されたユーザ音声情報に対して音声テキスト変換処理を行い、取得されたキー音声情報がテキスト情報であることで、後続のサーバが音声情報に対してテキスト変換を行う必要がなく、サーバがユーザ音声情報に対して分析処理を行う消費電力を低減する。ノイズ低減処理または音声テキスト変換を問わず、いずれもユーザ音声情報の伝送量を低減し、スマートデバイスの伝送消費電力を低減することができる。
記キー音声情報をモバイル端末に伝送するステップは、ローカルブルートゥースモジュールの第1のチャンネルを使用して前記ローカルブルートゥースモジュールの第2のチャンネルをオフ状態からオン状態に切り替えるように制御するステップと、前記第2のチャンネルを介して前記キー音声情報をチャンネルモバイル端末に伝送するステップと、を含み、前記第1のチャンネルの消費電力は、前記第2のチャンネルより低く、且つ前記第1のチャンネルは、前記ローカルブルートゥースモジュールが起動された後に常時オン状態になる。
上記の選択可能な方式では、以下の利点又は有益な効果を有する。ブルートゥースネットワークを採用してキー音声情報をモバイル端末に伝送し、且つブルートゥースモジュールには二つの消費電力が異なる伝送チャンネルを含み、低消費電力の第1のチャンネルは、常時オン状態にあり、キー音声情報を伝送する必要がある場合、第1のチャンネルで高消費電力の第2のチャンネルをオンにするように制御して、第2のチャンネルでキー音声情報をモバイル端末に伝送する。本実施例では、スマートデバイスが、モバイル端末に音声データを伝送する必要がない場合、高消費電力の第2のチャンネルをオフにし、低消費電力の第1のチャンネルのみをオンにして音声データの伝送を行う必要があるか否かを検出することにより、スマートデバイス内のブルートゥースモジュールの消費電力を大幅に低減し、スマートデバイスの消費電力を低減する。
選択可能に、収集されたユーザ音声情報からキー音声情報を抽出するステップの後、WiFiネットワーク環境において、サーバにより前記キー音声情報を処理した後に処理結果をフィードバックするように、前記WiFiネットワークに基づいて前記キー音声情報を前記サーバに伝送するステップと、前記WiFiネットワークに基づいて前記サーバから前記処理結果を取得して表示するステップと、をさらに含む。
上記の選択可能な方式では、以下の利点又は有益な効果を有する。WiFiネットワーク環境にある場合には、スマートデバイスは、直接にWiFiネットワークに基づいてサーバとインタラクションを行い、ユーザにインテリジェントなインタラクティブサービスを提供する。非WiFiネットワーク環境にある場合には、スマートデバイスモバイル端末のネットワークを介してキー音声情報をサーバに伝送してサーバとのインタラクションを実現し、ユーザにインテリジェントなインタラクティブサービスを提供する。本実施例におけるスマートデバイスは、WiFiネットワーク環境が存在するか否かに応じて、サーバとインタラクションを行うネットワークを自動的に適応し、ユーザとの間で支障なく音声インタラクションを行うことができる。
第2の態様では、本出願の実施例は、スマートデバイスのデータ処理装置をさらに提供する。当該装置は、収集されたユーザ音声情報からキー音声情報を抽出するためのキー音声抽出モジュールと、非ワイヤレスフィデリティWiFiネットワーク環境において、前記モバイル端末が前記キー音声情報をサーバに伝送し、前記サーバにより前記キー音声情報を処理した後にフィードバックされた処理結果を受信するように、前記キー音声情報をモバイル端末に伝送するための非WiFi伝送モジュールと、前記モバイル端末から前記処理結果を取得して表示するための処理結果表示モジュールと、を含み、前記非WiFi伝送モジュールが、ローカルブルートゥースモジュールの第1のチャンネルを使用して前記ローカルブルートゥースモジュールの第2のチャンネルをオフ状態からオン状態に切り替えるように制御し、前記キー音声情報を前記第2のチャンネルを介してモバイル端末に伝送し、前記第1のチャンネルの消費電力が前記第2のチャンネルより低く、前記第1のチャンネルが、前記ローカルブルートゥースモジュールが起動された後に常時オン状態になる
上記出願の一実施例では、以下の利点又は有益な効果を有する。収集されたユーザ音声情報に対してキー音声情報の抽出を行った後、スマートデバイスが非WiFiネットワーク環境にある場合、モバイル端末とのネットワーク接続を確立し、抽出されたキー音声情報をモバイル端末に伝送し、モバイル端末のネットワークを介してキー音声情報をサーバに伝送して処理を行い、サーバがキー音声情報処理を完了した後、同様にモバイル端末のネットワークを介して処理結果をスマートデバイスにフィードバックして表示する。本実施例では、スマートデバイスがサーバに音声情報を伝送する前に、まず、ローカルに収集されたユーザ音声情報に対してキー音声情報抽出を行い、音声情報伝送量を低減し、スマートデバイスの消費電力を節約するとともに、後続のサーバのデータ処理効率を向上させる。また、スマートデバイスは、周辺にWiFiネットワーク環境がない場合、モバイル端末のネットワークを介して、サーバとのインタラクションを実現し、ユーザにインテリジェントなインタラクティブサービスを提供する。当該プロセスは、モバイル端末が伝送対象となるキー音声情報に対して他の処理操作を行う必要がなく、モバイル端末が多くの消費電力を占有する必要がない。
第3の態様では、本出願の実施例は、電子機器をさらに開示し、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリに前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合に、前記少なくとも一つのプロセッサが、本出願の任意の実施例に記載のスマートデバイスのデータ処理方法を実行可能である。
第4の態様では、本出願の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに開示し、前記コンピュータ命令は、前記コンピュータに本出願の任意の実施例に記載のスマートデバイスのデータ処理方法を実行させる。
上記の出願中の一実施例では、以下の利点又は有益な効果を有する。収集されたユーザ音声情報に対してキー音声情報の抽出を行った後、スマートデバイスが非WiFiネットワーク環境にある場合、モバイル端末とのネットワーク接続を確立し、抽出されたキー音声情報をモバイル端末に伝送し、モバイル端末のネットワークを介してキー音声情報をサーバに伝送して処理を行う。サーバがキー音声情報処理を完了した後、同様にモバイル端末のネットワークを介して処理結果をスマートデバイスにフィードバックして表示する。本実施例では、スマートデバイスがサーバに音声情報を伝送する前に、まず、ローカルに収集されたユーザ音声情報に対してキー音声情報抽出を行って、音声情報伝送量を低減し、スマートデバイスの消費電力を節約するとともに、後続のサーバのデータ処理効率を向上させる。また、スマートデバイスは、周辺にWiFiネットワーク環境がない場合、モバイル端末のネットワークを介して、サーバとのインタラクションを実現し、ユーザにインテリジェントなインタラクティブサービスを提供する。当該プロセスは、モバイル端末が伝送対象となるキー音声情報に対して他の処理操作を行う必要がなく、モバイル端末が多くの消費電力を占有する必要がない。
上記の選択可能な方式が有する他の効果は、以下で具体的な実施例を組み合わせて説明する。
図面は、本技術案をよりよく理解するために使用されており、本出願の限定を構成するものではない。
本出願の第1の実施例に係るスマートデバイスのデータ処理方法のフローチャートである。 本出願の第2の実施例に係る別のスマートデバイスのデータ処理方法のフローチャートである。 本出願の第3の実施例に係る別のスマートデバイスのデータ処理方法のフローチャートである。 本出願の第3の実施例に係るスマートデバイスのデータ処理プロセスの概略図である。 本出願の第4の実施例に係るスマートデバイスのデータ処理装置の構造ブロック図である。 本出願の実施例に係るスマートデバイスのデータ処理方法を実現するための電子機器のブロック図である。
以下、図面を組み合わせて本出願の例示的な実施例を説明し、理解を容易にするために、本出願の実施例の様々な詳細を含んでいるが、それらは単なる例示的と見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確かつ簡潔のために、以下の説明では、周知の機能及び構造の説明を省略する。
第1の実施例
図1は、本出願の第1の実施例に係るスマートデバイスのデータ処理方法のフローチャートである。本実施例は、スマートデバイスがユーザにインテリジェントなインタラクティブサービスを提供するプロセスにおいて、ユーザの音声情報をデータ処理する場合に適用される。特に、ユーザの音声情報を処理するプロセスにおいて、スマートデバイスがサーバとインタラクションを行う場合に適用される。当該方法は、本出願の実施例に係るスマートデバイスのデータ処理装置又はスマートデバイスによって実行することができ、当該装置は、ソフトウェア及び/又はハードウェア方式を採用して実現することができる。本出願の実施例におけるスマートデバイスは、スマートスピーカ、スマートテレビ、スマートウォッチなどのインテリジェントなインタラクティブサービスを提供することができる任意の電子機器であってよい。図1に示すように、本実施例に係るスマートデバイスのデータ処理方法は、以下のようなステップを含むことができる。
S101において、収集されたユーザ音声情報からキー音声情報を抽出する。
ユーザの音声情報は、ユーザがスマートデバイスによりインテリジェントなインタラクティブサービスを提供される必要がある時に、音声の形式で今回のニーズを表現するオーディオデータであってよい。キー音声情報は、ユーザ音声情報から抽出されたユーザの今回のニーズを示すことができるキーワード又はキーセンテンスに対応するオーディオデータであってよい。例えば、スマートデバイスがスマートスピーカであり、ユーザがスマートスピーカから「私と私の祖国」という歌を再生したい場合、ユーザ音声情報は、「スマートスピーカを起動して「私と私の祖国」の曲を再生する」に対応するオーディオデータであってよい。当該ユーザの音声データから抽出されたキー音声情報は、「「私と私の祖国」の曲を再生する」である。
選択可能に、本実施例におけるスマートデバイスは、環境中に音響信号が存在するか否かをリアルタイムに監視する音声収集装置(マイクロフォンなどであってよい)として構成され、音響信号が存在する場合には、現在の環境中の音響信号をユーザ音声情報として収集する。当該音声装置は、スマートデバイスによって送信された音声収集命令を受信した後、現在の環境中の音響信号をユーザ音声情報として収集することもできる。当該音声収集命令は、ユーザが電子スマートデバイス上の物理ボタンによってトリガされたものであってよいし、ユーザの音声によってトリガされた(音声による発話スマートデバイスのウェイクアップワードなど)ものであってよい。選択可能に、非ユーザの音声による干渉を防止するため、本実施例は、スマートデバイスのローカルにサービス対象のユーザの声紋情報が記憶され、現在の環境中の音響信号を収集する場合、まず、当該音響信号の声紋情報がローカルに記憶されているサービス対象のユーザの声紋情報と一致するか否かを判断し、一致する場合、現在の環境中の音響信号をユーザ音声情報として収集し、そうでない場合、今回のユーザ音声情報の収集操作を実行しないことができる。
選択可能に、スマートデバイスは、ユーザ音声情報を収集した後、収集されたユーザ音声情報に環境ノイズ、空白音声、又は非ニーズ類の語などのいくつかの非重要な情報が存在する可能性がある。この時、直接収集されたユーザ音声情報をサーバに送信して分析を行うと、ユーザ音声情報には重要でない情報が含まれているため、高いデータ伝送量を消費する必要があるだけでなく、サーバによるユーザ音声情報の解析を干渉することになる。したがって、当該問題を解决するために、本実施例は、収集されたユーザ音声情報からキー音声情報を抽出して伝送することができる。具体的なキー音声情報の抽出方法は、数多くあるが、本実施例では限定されない。
第1の可能な実施方式では、収集されたユーザ音声情報に対してノイズ低減処理及び/又は音声テキスト変換処理を行って、キー音声情報を取得することができる。
具体的には、ユーザ音声情報のノイズ低減処理は、予め設定されたフィルタアルゴリズムを採用して収集されたユーザ音声情報に対してフィルタリング操作を行い、ノイズ信号の干渉をフィルタリングし、ユーザ音声情報の純度を向上させることにより、後続のサーバが、より正確にその中からユーザの今回の音声インタラクションの意図を分析することを容易にする。例えば、ユーザ音声情報をノイズ低減処理することによって、ユーザ音声情報中の環境ノイズ、録音プロセスにおける信号干渉ノイズ及び空白オーディオなどをフィルタリングすることができる。ユーザ音声情報に対する音声テキスト変換処理は、音声認識アルゴリズム又は予めトレーニングされた音声認識モデルを介してユーザ音声情報に対して音声からテキストへの変換を行うことができる。音声認識モデルは、予め大量のサンプルデータで初期ニューラルネットワークモデルをトレーニングした後に取得されたオーディオデータを、テキストデータに変換できるニューラルネットワークモデルであってよい。サンプルデータは、大量のオーディオデータ、及び各オーディオデータに対応するテキストデータであってよい。収集されたユーザ音声情報に対して音声テキスト変換処理を行うことにより、後続のサーバが音声情報に対してテキスト変換を行う必要がなく、サーバがユーザ音声情報に対して分析処理を行う消費電力を低減する。サーバが大量のスマートデバイスに音声情報処理のサービスを提供する必要があるため、サーバ音声テキスト変換の操作を削減し、音声情報を処理するサービスの効率を大幅に向上させることができ、さらに、スマートデバイスがユーザにインテリジェントなインタラクティブサービスを提供する効率を向上させることができる。
第2の可能な実施方式は、収集されたユーザ音声情報に標準命令テンプレートにマッチングする語彙又は語句が存在するか否かを認識し、存在する場合、前記マッチングされる語彙又は語句をキー音声情報とする。例えば、歌を選ぶサービスに対応する標準命令テンプレートを「曲を再生する」として設置することができ、ユーザ音声情報「スマートスピーカを起動して「私と私の祖国」の曲を再生する」に標準命令テンプレートにマッチングする語句が存在することが検出された場合、標準命令テンプレートにマッチングする語句「「私と私の祖国」の曲を再生する」をキー音声情報とすることができる。
第3の可能な実施方式は、収集されたユーザ音声情報からウェイクアップワードを切り出した後の音声情報をキー音声情報とすることもできる。当該実施可能な方式の具体的な実行方法は、後続の実施例で詳細に説明する。
なお、本実施例は、スマートデバイスの音声収集トリガ方式、インテリジェントのインタラクション方式、及びスマートデバイスの現在の環境などによって、上記の少なくとも一つの実施可能な方式を選択して収集されたユーザ音声情報からキー音声情報を抽出する操作を実行することができる。具体的には、音声収集トリガ方式が、環境に音響信号が存在することを検出するために、現在のユーザ音声情報を収集する場合、この時に収集された音声情報にウェイクアップワードが存在する可能性がある場合、第3の可能な実施方式を採用してキー音声情報を抽出することができ、スマートデバイスのインテリジェントにインタラクション方式が、予め設定された標準命令がスマートデバイスとインタラクションする場合、第2の可能な実施方式を採用してキー音声情報を抽出することができる。スマートデバイスの現在の環境が混雑し、干渉が大きい場合、この時に第1の可能な実施方式におけるノイズ低減処理の方式を採用してキー音声情報を抽出することができ、上記の三つの可能な実施方式のうちの少なくとも二つの方式を組み合わせてキー音声情報など抽出することもできる。
S102、非ワイヤレスフィデリティWiFiネットワーク環境において、モバイル端末がキー音声情報をサーバに伝送し、サーバによりキー音声情報を処理した後にフィードバックされた処理結果を受信するように、キー音声情報をモバイル端末に伝送する。
本出願のモバイル端末は、非WiFiネットワーク環境で、依然としてネットワークモジュール自身を介してサーバと情報インタラクションを行う電子機器であってもよく、例えば、本出願のモバイル端末は、SIMカードが取り付けられている電子機器であってよい。非WiFiネットワーク環境で内部のセルラーモバイルネットワーク(3G/4Gネットワークなど)を介してサーバと情報インタラクションを行うことができる。
選択可能に、本実施例では、非WiFiネットワーク環境において、スマート端末は、非WiFiネットワークを介してモバイル端末とデータ伝送可能なネットワーク接続を確立することができる。選択可能に、既存のモバイル端末とスマート端末にはすべてブルートゥースモジュールが設置されているため、本実施例のスマート端末は、現在の環境に接続可能なWiFiネットワークがない場合、近くの接続可能なブルートゥース機器からローカル履歴に接続されたモバイル端末を検索して当該モバイル端末とブルートゥースネットワーク接続を確立し、その後、ブルートゥースネットワークに基づいてS101によって抽出されたキー音声情報をモバイル端末に伝送してもよい。モバイル端末は当該キー音声情報を受信した後、モバイル端末自身のセルラーモバイルネットワークを採用してキー音声情報をスマート端末とインタラクションする対象となるサーバに送信することができる。選択可能に、モバイル端末には、スマート端末とインタラクションする対象となるサーバのアプリケーションプログラムがインストールしてもよく、モバイル端末は、スマートデバイスがブルートゥースネットワークを介して伝送されたキー音声情報を受信した後、サーバのアプリケーションプログラムを介してセルラーモバイルネットワークに基づいて当該キー音声情報をサーバに伝送してもよい。サーバは、キー音声情報を受信した後、受信されたキー音声情報に対して分析処理を行って、ユーザのインタラクションニーズを決定し、ユーザのインタラクションニーズに対して、対応するサービス情報を処理結果として生成し、その後、当該処理結果をモバイル端末(例えば、モバイル端末にインストールされたサーバのアプリケーションプログラム)にフィードバックすることができる。例えば、キー音声情報が『「私と私の祖国」の曲を再生する』である場合、サーバは、当該キーセンテンス情報を分析してユーザのインタラクションニーズを『「私と私の祖国」の曲』と決定し、その後、処理結果として「私と私の祖国」の曲を検索してダウンロードし、ダウンロードされた「私と私の祖国」の曲をモバイル端末にフィードバックすることができる。
選択可能に、ブルートゥースモジュールは、通常、複数の情報伝送可能なチャンネルを有し、本実施例は、スマートデバイスがモバイル端末にキー音声情報を送信する必要がある場合に、ローカルブルートゥースモジュールの第1のチャンネルを使用してローカルブルートゥースモジュールの第2のチャンネルをオフ状態からオン状態に切り替えるように制御して、キー音声情報を第2のチャンネルを介してモバイル端末に伝送する。第1のチャンネルの消費電力は、第2のチャンネルより低く、第1のチャンネルは、ローカルブルートゥースモジュールが起動された後に常時オン状態になる。音声情報伝送を行うチャンネルは、通常、高消費電力のチャンネルであり、伝送命令を受信するチャンネルは、低消費電力のチャンネルである。モバイル端末内部のブルートゥースモジュールの消費電力を低減するため、本実施例におけるブルートゥースモジュールの低消費電力チャンネルは、常時オンチャンネルに設置することができ、高消費電力のチャンネルは、動作する時にオンになり、動作していない時にオフ状態になる。スマートデバイスは、モバイル端末にキー音声情報を送信する必要がある場合に、ローカルブルートゥースモジュールの低消費電力の第1のチャンネルに音声情報伝送命令を送信する。第1のチャンネルは、当該音声情報伝送命令を受信した後、音声情報を伝送するための高消費電力の第2のチャンネルをターンオフ状態からオン状態に切り替えるように制御する。この時、スマートデバイスは、キー音声情報を第2のチャンネルを介してモバイル端末に伝送することができる。それに応じて、モバイル端末にも、同様に、ブルートゥースモジュールにおける第1のチャンネルで音声情報が入力されることが検出された場合、第2のチャンネルの状態をオフ状態からオン状態に切り替えた後、スマートデバイスによって伝送されたキー音声情報を第2のチャンネルで受信し、その後、受信されたキー音声情報をサーバのアプリケーションプログラムに伝送し、当該アプリケーションプログラムは、モバイルデバイスの内部のセルラーモバイルネットワークに基づいて、キー音声情報をサーバに伝送する。
本実施例は、非WiFiネットワーク環境において、スマートデバイスは、上記の説明されたブルートゥースネットワークを介してモバイル端末とネットワーク接続を確立できる以外に、mshネットワーク、ZigBeeネットワークなど、他の非WiFiネットワークを使用してネットワーク接続を確立することもでき、本実施例では限定されない。また、モバイル端末は、キー音声情報を受信した後、キー音声情報に対する他の処理操作を必要とせず、モバイル端末のネットワークを介して当該キー音声情報をサーバに伝送するだけでよいため、モバイル端末は過大な消費電力を占有しない。
S103、モバイル端末から処理結果を取得して表示する。
選択可能に、モバイル端末は、サーバによってフィードバックされた処理結果を受信した後、モバイル端末とスマート端末との間のネットワーク接続を採用することができる。例えば、ブルートゥースネットワークであってもよく、サーバによってフィードバックされた処理結果をスマートデバイスに転送する。具体的な伝送プロセスは、S102で説明されたスマート端末がモバイル端末にキー音声情報を伝送するプロセスと類似しており、ここでは詳細に説明しない。
選択可能に、スマート端末は、モバイル端末によって伝送された処理結果を取得した後、スマート端末は当該処理結果を表示する。具体的には、当該処理結果にオーディオデータが含まれる場合、音声再生装置によって当該オーディオデータを再生することができ、当該処理結果に文字又は画像が含まれる場合、ディスプレイスクリーンで当該文字又は画像を表示することができる。例えば、スマートデバイスによって受信された処理結果が「私と私の祖国」の曲である場合、スマートデバイスは、スピーカを介してユーザがリクエストした当該曲を再生することによって、ユーザにインテリジェントなインタラクティブサービスを提供することができる。
本出願の実施例に係るスマートデバイスのデータ処理方法は、収集されたユーザ音声情報に対してキー音声情報の抽出を行った後、スマートデバイスが非WiFiネットワーク環境にある場合、モバイル端末とのネットワーク接続を確立し、抽出されたキー音声情報をモバイル端末に伝送し、モバイル端末のネットワークを介してキー音声情報をサーバに伝送して処理を行い、サーバがキー音声情報処理を完了した後、同様にモバイル端末のネットワークを介して処理結果をスマートデバイスにフィードバックして表示する。本実施例では、スマートデバイスがサーバに音声情報を伝送する前に、まず、ローカルに収集されたユーザ音声情報に対してキー音声情報抽出を行い、音声情報伝送量を低減することで、スマートデバイスの消費電力を節約するとともに、後続のサーバのデータ処理効率を向上させる。また、スマートデバイスは、周辺にWiFiネットワーク環境がない場合、モバイル端末のネットワークを介して、サーバとのインタラクションを実現し、ユーザにインテリジェントなインタラクティブサービスを提供する。当該プロセスは、モバイル端末が伝送対象となるキー音声情報に対して他の処理操作を行う必要がなく、モバイル端末は多くの消費電力を占有する必要がない。
第2の実施例
図2は、本出願の第2の実施例に係るスマートデバイスのデータ処理方法のフローチャートである。本実施例は、上記の実施例に基づいて、さらに最適化し、具体的には、どのように収集されたユーザ音声情報からキー音声情報を抽出するかを詳細に説明する。具体的には、図2に示すように、本実施例に係るスマートデバイスのデータ処理方法は、以下のようなステップを含むことができる。
S201では、収集されたユーザ音声情報にウェイクアップワードが存在すると認識された場合、収集されたユーザ音声情報からキー音声情報を抽出する。
ウェイクアップワードは、スマートデバイスをウェイクアップしてユーザとインテリジェントにインタラクションするための語彙、短文、又は何らかの特殊な音(拍手の音など)であってよい。当該ウェイクアップワードは、ユーザが自分でスマートデバイスに設置して保存するか、スマートデバイスシステムのデフォルトであってよい。例えば、スマートスピーカのウェイクアップワードは、「スマートスピーカ」であってよい。
スマートデバイスは、消費電力を低減するために、ユーザにスマートサービスを提供する必要がない場合には、通常、低消費電力のスリープ状態に入る。当該状態では、スマートデバイス内の高消費電力プロセス又はモジュールのいずれもが、実行が停止した状態であり、少数の低消費電力の検出モジュールのみが動作状態にある。例えば、スマートデバイスがスリープ状態にある場合、スマートデバイス内のデータ処理モジュール、音声再生モジュール、画像ディスプレイスクリーンなどの高消費電力モジュールの実行を停止する一方、音声収集モジュールは動作状態を保持する。当該音声収集モジュールは、収集されたユーザ音声情報にウェイクアップワードが存在するか否かを収集して検出し、ウェイクアップワードが存在する場合には、当該ユーザ音声情報は、ユーザが送信したスマートデバイスを起動してユーザにインテリジェントなインタラクティブサービスを提供する必要がある語句であることを示す。この時、スマートデバイスは、ユーザ音声情報からキー音声情報を抽出する。ウェイクアップワードが存在しない場合には、当該ユーザ音声情報は、周囲のユーザがチャットしている音、又は周辺の環境音(テレビの再生される音など)であり、キー音声情報の抽出を行う必要がないことを示す。
選択可能に、本実施例では、ユーザ音声情報にウェイクアップワードが含まれているため、収集されたユーザ音声情報からキー音声情報を抽出する場合、収集されたユーザ音声情報からウェイクアップワードを切り出した後の音声情報をキー音声情報とすることができる。具体的には、収集されたユーザ音声情報からウェイクアップワードを認識し、その後、当該ウェイクアップワードが現れた時点を切り出し開始時点として決定し、当該ユーザ音声情報の終了時点を切り出し終了時点とし、ユーザ音声情報から当該切り出し開始時点と切り出し終了時点との間の音声情報をキー音声情報として切り出すことができる。選択可能に、キー音声情報における干渉情報を低減するために、本実施例は、ユーザ音声情報から当該切り出し開始時点と切り出し終了時点との間の音声情報を切り出した後、切り出した後の音声情報に対してノイズ低減処理を行い、最終的なキー音声情報を取得することもできる。サーバがユーザ音声情報に対して分析処理を行う消費電力を低減し、スマートデバイスがユーザにインテリジェントなインタラクティブサービスを提供する効率を向上させるために、本実施例では、選択可能に、ノイズ低減処理後の音声情報に対してテキスト変換操作を行い、取得されたテキスト情報を最終的なキー音声情報とすることもできる。
S202では、非ワイヤレスフィデリティWiFiネットワーク環境において、モバイル端末がキー音声情報をサーバに伝送し、サーバがキー音声情報を処理した後にフィードバックされた処理結果を受信するように、キー音声情報をモバイル端末に伝送する。
S203では、モバイル端末から処理結果を取得して表示する。
本出願の実施例に係るスマートデバイスのデータ処理方法は、スマートデバイスがユーザ音声情報を収集した後、ウェイクアップワードを含むユーザ音声情報だけに対してキーワード抽出を行い、スマートデバイスが誤って環境中の非インタラクション音声情報に対してキー音声情報の抽出処理を行うことによって、インテリジェントなインタラクティブサービスが誤って提供される状況が発生することを回避するとともに、スマートデバイスの消費電力を大幅に節約する。ユーザ音声情報からキー情報を抽出する場合、ウェイクアップワードの後の音声情報をキー音声情報として、ユーザ音声情報からキー情報を迅速且つ正確に抽出することができる。周辺にWiFiネットワーク環境がない場合であっても、モバイル端末のネットワークを介して、サーバとのインタラクションを実現することで、スマートデバイスが、WiFiネットワークがないシーンでも正常にユーザにインテリジェントなインタラクティブサービスを提供することができる。
第3の実施例
図3Aは、本出願の第3の実施例に係るスマートデバイスのデータ処理方法のフローチャートである。図3Bは、本出願の第3の実施例に係るスマートデバイスのデータ処理プロセスの概略図である。本実施例は、上記の実施例に基づいて、さらに最適化し、スマートデバイスが異なるネットワーク環境にある場合、データ処理方法を行う好ましい実施例を提供する。具体的には、図3A~3Bに示すように、本実施例に係るスマートデバイスのデータ処理方法は、以下のようなステップを含むことができる。
S301では、収集されたユーザ音声情報からキー音声情報を抽出する。
S302では、非WiFiネットワーク環境にあるか否かを判断し、そうであれば、S303を実行し、そうでなければ、S305を実行する。
選択可能に、図3Bに示すように、本実施例におけるスマートデバイスは、二つのネットワーク接続方式がある。一つのネットワーク接続方式は、接続可能なWiFiネットワーク環境である場合、スマートデバイスは、WiFiモードに切り替えることができ、ルーティングデバイスを介して環境内のWiFiネットワークに接続され、さらに、WiFiネットワークを介してサーバとデータインタラクションを行うことができる。もう一つのネットワーク接続方式は、接続できないWiFiネットワーク環境である場合、スマートデバイスをブルートゥースモードに切り替えることができ、ブルートゥースモジュールを介してモバイル端末とブルートゥースネットワーク接続を確立することができる。ブルートゥースネットワークは、データの伝送操作のみを行うことができる。
選択可能に、スマートデバイスが収集されたユーザ音声情報からキー音声情報を抽出した後、当該キー音声情報をサーバに伝送する必要がある場合には、現在の環境が非WiFiネットワーク環境であるか否かを確認する必要があり、そうであれば、S303~S304の操作を実行してサーバとのインタラクションプロセスを完了し、そうでなければ、S305~S306の操作を実行してサーバとのインタラクションプロセスを完了する。
S303では、非ワイヤレスフィデリティWiFiネットワーク環境において、モバイル端末がキー音声情報をサーバに伝送し、サーバがキー音声情報を処理した後、フィードバックされた処理結果を受信するように、キー音声情報をモバイル端末に伝送する。
例示的には、スマートデバイスが非WiFiネットワーク環境にある場合、スマートデバイスはブルートゥースモードに自動的に切り替えられる。対応するネットワーク接続方式は、モバイル端末とブルートゥースネットワーク接続を確立することであり、この時のスマートデバイスは、ブルートゥースネットワークを介してキー音声情報をモバイル端末に伝送する。モバイル端末は、スマートデバイスによって伝送されたキー音声情報を受信した後、そのローカルのセルラーモバイルネットワークを使用してキー音声情報をサーバに転送し、サーバは、モバイル端末によって送信されたキー音声情報を受信した後、当該キー音声情報を分析処理し、処理結果をモバイル端末にフィードバックする。モバイル端末は、セルラーモバイルネットワークを使用してサーバによってフィードバックされた処理結果を受信した後、ブルートゥースネットワークを使用して当該処理結果をスマートデバイスに転送する。
S304では、モバイル端末から処理結果を取得する。
例示的には、スマートデバイスが、ブルートゥースネットワークを介してモバイル端末によって伝送された処理結果を受信する。
S305では、WiFiネットワーク環境において、サーバによりキー音声情報を処理した後に処理結果をフィードバックするように、WiFiネットワークに基づいてキー音声情報をサーバに伝送する。
例示的には、スマートデバイスがWiFiネットワーク環境にある場合、スマートデバイスはWiFiモードに自動的に切り替えられる。対応するネットワーク接続方式は、ルーティングデバイスを介してWiFiネットワークに接続され、スマートデバイスは、WiFiネットワークを直接に使用してキー音声情報をサーバに送信することができる。サーバは、スマートデバイスによって送信されたキー音声情報を受信した後、当該キー音声情報を分析処理する。
S306では、WiFiネットワークに基づいてサーバから処理結果を取得する。
例示的には、スマートデバイスがWiFiネットワーク環境にある場合、スマートデバイスは、直接にWiFiネットワークを介してサーバとインタラクションを行うことができるため、サーバは、処理結果をスマートデバイスにフィードバックする場合、スマートデバイスは、WiFiネットワークを使用してサーバによってフィードバックされた処理結果を受信することもできる。
S307では、処理結果を表示する。
本出願の実施例に係るスマートデバイスのデータ処理において、スマートデバイスは、収集されたユーザ音声情報からキー音声情報を抽出した後、WiFiネットワーク環境にある場合には、直接WiFiネットワークに基づいてサービスにキー音声情報を送信し、及びサーバによってフィードバックされたキー音声情報に対する処理結果を受信して、ユーザにインテリジェントなインタラクティブサービスを提供することができる。非WiFiネットワーク環境にある場合には、モバイル端末ネットワークの転送によって、キー音声情報をサーバに伝送し、サーバによってフィードバックされた処理結果を取得し、ユーザにインテリジェントなインタラクティブサービスを提供することができる。本実施例におけるスマートデバイスは、WiFiネットワーク環境にある否かに応じて、サーバとインタラクションを行うネットワークを自動的に適応し、ユーザとの間で支障なく音声インタラクションを行うことができる。
第4の実施例
図4は、本出願の第4の実施例に係るスマートデバイスのデータ処理装置の概略構成図である。当該装置は、本出願の任意の実施例に係るスマートデバイスのデータ処理方法を実行することができ、実行方法に対応する機能モジュール及び有益な効果を有する。選択可能に、当該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現することができ、スマートデバイスに統合することができる。図4に示すように、当該スマートデバイスのデータ処理装置400は、収集されたユーザ音声情報からキー音声情報を抽出するためのキー音声抽出モジュール401と、非ワイヤレスフィデリティWiFiネットワーク環境において、前記モバイル端末が前記キー音声情報をサーバに伝送し、前記サーバにより前記キー音声情報を処理した後にフィードバックされた処理結果を受信するように、前記キー音声情報をモバイル端末に伝送するための非WiFi伝送モジュール402と、前記モバイル端末から前記処理結果を取得して表示するための処理結果表示モジュール403と、を含むことができる。
本出願の実施例に係るスマートデバイスのデータ処理装置は、収集されたユーザ音声情報に対してキー音声情報の抽出を行った後、スマートデバイスが非WiFiネットワーク環境にある場合、モバイル端末とのネットワーク接続を確立し、抽出されたキー音声情報をモバイル端末に伝送し、モバイル端末のネットワークを介してキー音声情報をサーバに伝送して処理を行い、サーバがキー音声情報処理を完了した後、同様にモバイル端末のネットワークを介して処理結果をスマートデバイスにフィードバックして表示する。本実施例では、スマートデバイスがサーバに音声情報を伝送する前に、まず、ローカルに収集されたユーザ音声情報に対してキー音声情報抽出を行い、音声情報伝送量を低減するので、スマートデバイスの消費電力を節約するとともに、後続のサーバのデータ処理効率を向上させることができる。また、スマートデバイスは、周辺にWiFiネットワーク環境がない場合、モバイル端末のネットワークを介して、サーバとのインタラクションを実現し、ユーザにインテリジェントなインタラクティブサービスを提供する。当該プロセスは、モバイル端末が伝送対象となるキー音声情報に対して他の処理操作を行う必要がなく、モバイル端末は多くの消費電力を占有する必要がない。
さらに、前記キー音声抽出モジュール401は、具体的には、収集されたユーザ音声情報にウェイクアップワードが存在すると認識された場合、前記収集されたユーザ音声情報からキー音声情報を抽出する。
さらに、前記キー音声抽出モジュール401は、収集されたユーザ音声情報からキー音声情報を抽出することを実行する時に、具体的には、収集されたユーザ音声情報から前記ウェイクアップワードの後の音声情報をキー音声情報として切り出す。
さらに、前記キー音声抽出モジュール401は、具体的には、収集されたユーザ音声情報に対してノイズ低減処理及び/又は音声テキスト変換処理を行って、キー音声情報を取得する。
さらに、前記非WiFi伝送モジュール402は、具体的には、ローカルブルートゥースモジュールの第1のチャンネルを使用して前記ローカルブルートゥースモジュールの第2のチャンネルをオフ状態からオン状態に切り替えるように制御し、前記キー音声情報を前記第2のチャンネルを介してモバイル端末に伝送する。前記第1のチャンネルの消費電力は、前記第2のチャンネルより低く、前記第1のチャンネルは、前記ローカルブルートゥースモジュールが起動された後に常時オン状態になる。
さらに、前記装置は、前記サーバにより前記キー音声情報を処理した後に処理結果をフィードバックするように、前記WiFiネットワークに基づいて前記キー音声情報をサーバに伝送するためのWiFi伝送モジュールをさらに含み、前記処理結果表示モジュール403は、具体的には、前記WiFiネットワークに基づいて前記サーバから前記処理結果を取得して表示する。
第5の実施例
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図5に示すように、本出願の実施例のスマートデバイスのデータ処理方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図5に示すように、当該電子機器は、一つ又は複数のプロセッサ501と、メモリ502と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施方式では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図5では、一つのプロセッサ501を例とする。
メモリ502は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中、前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶して、前記少なくとも一つのプロセッサが本出願により提供されるスマートデバイスのデータ処理方法を実行することができるようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供されるスマートデバイスのデータ処理方法を実行するためのコンピュータ命令を記憶する。
メモリ502は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるスマートデバイスのデータ処理方法に対応するプログラム命令/モジュール(例えば、図4に示すキー音声抽出モジュール401、非WiFi伝送モジュール402、及び処理結果表示モジュール403)ように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ501は、メモリ502に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるスマートデバイスのデータ処理方法を実現する。
メモリ502は、ストレージプログラム領域とストレージデータ領域とを含むことができ、その中、ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、スマートデバイスのデータ処理方法を実現するための電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ402は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ502は、プロセッサ501に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してスマートデバイスのデータ処理方法を実現するための電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定しない。
スマートデバイスのデータ処理方法を実現するための電子機器は、入力装置503と出力装置504とをさらに含むことができる。プロセッサ501、メモリ502、入力装置503、及び出力装置504は、バス又は他の方式を介して接続することができ、図5では、バスを介して接続することを例とする。
入力装置503は、入力された数字又は文字情報を受信することができ、及びスマートデバイスのデータ処理方法を実現するための電子機器のユーザ設置及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示ロッド、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定しない。いくつかの実施方式では、ディスプレイデバイスは、タッチスクリーンであってよい。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータ上において、ここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
本出願の実施例の技術案によれば、収集されたユーザ音声情報に対してキー音声情報の抽出を行った後、スマートデバイスが非WiFiネットワーク環境にある場合、モバイル端末とのネットワーク接続を確立し、抽出されたキー音声情報をモバイル端末に伝送し、モバイル端末のネットワークを介してキー音声情報をサーバに伝送して処理を行い、サーバがキー音声情報処理を完了した後、同様にモバイル端末のネットワークを介して処理結果をスマートデバイスにフィードバックして表示する。本実施例では、スマートデバイスがサーバに音声情報を伝送する前に、まず、ローカルに収集されたユーザ音声情報に対してキー音声情報抽出を行って、音声情報伝送量を低減し、スマートデバイスの消費電力を節約するとともに、後続のサーバのデータ処理効率を向上させる。また、スマートデバイスは、周辺にWiFiネットワーク環境がない場合、モバイル端末のネットワークを介して、サーバとのインタラクションを実現し、ユーザにインテリジェントなインタラクティブサービスを提供する。当該プロセスは、モバイル端末が伝送対象となるキー音声情報に対して他の処理操作を行う必要がなく、モバイル端末が多くの消費電力を占有する必要がない。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。

Claims (9)

  1. スマートデバイスのデータ処理方法であって、
    収集されたユーザ音声情報からキー音声情報を抽出するステップと、
    非ワイヤレスフィデリティWiFiネットワーク環境において、モバイル端末が前記キー音声情報をサーバに伝送し、前記サーバにより前記キー音声情報を処理した後に、フィードバックされた処理結果を受信するように、前記キー音声情報を前記モバイル端末に伝送するステップと、
    前記モバイル端末から前記処理結果を取得して表示するステップと、を含み、
    前記キー音声情報をモバイル端末に伝送するステップは、
    ローカルブルートゥースモジュールの第1のチャンネルを使用して前記ローカルブルートゥースモジュールの第2のチャンネルをオフ状態からオン状態に切り替えるように制御するステップと、
    前記キー音声情報を前記第2のチャンネルを介してモバイル端末に伝送するステップと、を含み、
    前記第1のチャンネルの消費電力は、前記第2のチャンネルより低く、前記第1のチャンネルは、前記ローカルブルートゥースモジュールが起動された後に常時オン状態になることを特徴とする、スマートデバイスのデータ処理方法。
  2. 収集されたユーザ音声情報からキー音声情報を抽出するステップは、
    収集されたユーザ音声情報にウェイクアップワードが存在すると認識された場合、前記収集されたユーザ音声情報からキー音声情報を抽出するステップを含むことを特徴とする、請求項1に記載のスマートデバイスのデータ処理方法。
  3. 収集されたユーザ音声情報からキー音声情報を抽出するステップは、
    収集されたユーザ音声情報から前記ウェイクアップワードの後の音声情報をキー音声情報として切り出すステップを含むことを特徴とする、請求項2に記載のスマートデバイスのデータ処理方法。
  4. 収集されたユーザ音声情報からキー音声情報を抽出するステップは、
    収集されたユーザ音声情報に対してノイズ低減処理及び/又は音声テキスト変換処理を行って、キー音声情報を取得するステップを含むことを特徴とする、請求項1に記載のスマートデバイスのデータ処理方法。
  5. 収集されたユーザ音声情報からキー音声情報を抽出した後、
    WiFiネットワーク環境において、サーバにより前記キー音声情報を処理した後に処理結果をフィードバックするように、前記WiFiネットワークに基づいて前記キー音声情報を前記サーバに伝送するステップと、
    前記WiFiネットワークに基づいて前記サーバから前記処理結果を取得して表示するステップと、をさらに含むことを特徴とする、請求項1に記載のスマートデバイスのデータ処理方法。
  6. スマートデバイスのデータ処理装置であって、
    収集されたユーザ音声情報からキー音声情報を抽出するためのキー音声抽出モジュールと、
    非ワイヤレスフィデリティWiFiネットワーク環境において、モバイル端末が前記キー音声情報をサーバに伝送し、前記サーバにより前記キー音声情報を処理した後に、フィードバックされた処理結果を受信するように、前記キー音声情報を前記モバイル端末に伝送するための非WiFi伝送モジュールと、
    前記モバイル端末から前記処理結果を取得して表示するための処理結果表示モジュールと、を含み、
    前記非WiFi伝送モジュールが、ローカルブルートゥースモジュールの第1のチャンネルを使用して前記ローカルブルートゥースモジュールの第2のチャンネルをオフ状態からオン状態に切り替えるように制御し、前記キー音声情報を前記第2のチャンネルを介してモバイル端末に伝送し、
    前記第1のチャンネルの消費電力が前記第2のチャンネルより低く、前記第1のチャンネルが、前記ローカルブルートゥースモジュールが起動された後に常時オン状態になることを特徴とする、スマートデバイスのデータ処理装置。
  7. キー音声抽出モジュールは、
    収集されたユーザ音声情報にウェイクアップワードが存在すると認識された場合、前記収集されたユーザ音声情報からキー音声情報を抽出することを特徴とする、請求項に記載のスマートデバイスのデータ処理装置。
  8. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合に、前記少なくとも一つのプロセッサが、請求項1からのいずれかに記載のスマートデバイスのデータ処理方法を実行することを特徴とする、電子機器。
  9. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1からのいずれかに記載のスマートデバイスのデータ処理方法を実行させることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。
JP2020069790A 2019-09-29 2020-04-08 スマートデバイスのデータ処理方法、装置、機器及び記憶媒体 Active JP7017598B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910935399.5 2019-09-29
CN201910935399.5A CN110675873B (zh) 2019-09-29 2019-09-29 智能设备的数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021057878A JP2021057878A (ja) 2021-04-08
JP7017598B2 true JP7017598B2 (ja) 2022-02-08

Family

ID=69080185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020069790A Active JP7017598B2 (ja) 2019-09-29 2020-04-08 スマートデバイスのデータ処理方法、装置、機器及び記憶媒体

Country Status (3)

Country Link
US (1) US11348583B2 (ja)
JP (1) JP7017598B2 (ja)
CN (1) CN110675873B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495489A (zh) * 2020-04-07 2021-10-12 深圳爱根斯通科技有限公司 自动化配置方法、装置、电子设备及存储介质
US11302327B2 (en) * 2020-06-22 2022-04-12 Bank Of America Corporation Priori knowledge, canonical data forms, and preliminary entrentropy reduction for IVR
CN112216279A (zh) * 2020-09-29 2021-01-12 星络智能科技有限公司 语音传输方法、智能终端及计算机可读存储介质
CN114527711A (zh) * 2021-11-08 2022-05-24 厦门阳光恩耐照明有限公司 一种基于本地语音的智能设备控制的方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10367540B1 (en) 2018-02-20 2019-07-30 Cypress Semiconductor Corporation System and methods for low power consumption by a wireless sensor device
JP2019159307A (ja) 2018-03-14 2019-09-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 端末ブラケット及びファーフィールド音声対話システム
CN110312235A (zh) 2019-05-16 2019-10-08 深圳市豪恩声学股份有限公司 实时语音唤醒的音频设备、运行方法、装置及存储介质
US20200402513A1 (en) 2019-06-19 2020-12-24 Baidu Online Network Technology (Beijing) Co., Ltd. Bluetooth speaker base, method and system for controlling thereof

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10390217B2 (en) * 2016-12-27 2019-08-20 Neutrino8, Inc. Wireless configuration of wireless distribution system (WDS) Wi-Fi range extenders using non-Wi-Fi-wireless communication channels
US10900800B2 (en) * 2017-04-18 2021-01-26 Garmin Switzerland Gmbh Mobile application interface device for vehicle navigation assistance
US20190114358A1 (en) * 2017-10-12 2019-04-18 J. J. Keller & Associates, Inc. Method and system for retrieving regulatory information
CN108833236A (zh) * 2018-07-05 2018-11-16 西安蜂语信息科技有限公司 数据传输方法及装置
CN109451338A (zh) * 2018-12-12 2019-03-08 央广视讯传媒股份有限公司 一种语音遥控电视的方法、装置、电子设备及可读介质
CN110223691A (zh) * 2019-06-11 2019-09-10 苏州思必驰信息科技有限公司 语音唤醒识别的切换控制方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10367540B1 (en) 2018-02-20 2019-07-30 Cypress Semiconductor Corporation System and methods for low power consumption by a wireless sensor device
JP2019159307A (ja) 2018-03-14 2019-09-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 端末ブラケット及びファーフィールド音声対話システム
CN110312235A (zh) 2019-05-16 2019-10-08 深圳市豪恩声学股份有限公司 实时语音唤醒的音频设备、运行方法、装置及存储介质
US20200402513A1 (en) 2019-06-19 2020-12-24 Baidu Online Network Technology (Beijing) Co., Ltd. Bluetooth speaker base, method and system for controlling thereof

Also Published As

Publication number Publication date
JP2021057878A (ja) 2021-04-08
CN110675873A (zh) 2020-01-10
US11348583B2 (en) 2022-05-31
CN110675873B (zh) 2023-02-07
US20210097994A1 (en) 2021-04-01

Similar Documents

Publication Publication Date Title
JP7017598B2 (ja) スマートデバイスのデータ処理方法、装置、機器及び記憶媒体
US11854570B2 (en) Electronic device providing response to voice input, and method and computer readable medium thereof
KR102320708B1 (ko) 영상 재생 방법, 장치, 전자 기기 및 판독 가능 저장 매체
KR102331254B1 (ko) 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
KR20220002750A (ko) 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로
KR102358012B1 (ko) 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
US11893988B2 (en) Speech control method, electronic device, and storage medium
KR102358831B1 (ko) 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
CN111862940A (zh) 基于耳机实现的翻译方法、装置、系统、设备和存储介质
CN108055617B (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
JP2021196599A (ja) 情報を出力するための方法および装置
US20210149558A1 (en) Method and apparatus for controlling terminal device, and non-transitory computer-readle storage medium
CN112230877A (zh) 一种语音操作方法、装置、存储介质及电子设备
CN111128201A (zh) 交互方法、装置、系统、电子设备及存储介质
US20210097991A1 (en) Speech control method and apparatus, electronic device, and readable storage medium
JP2022024110A (ja) 音声認識方法、装置、電子機器及び記憶媒体
KR20200045851A (ko) 음성 인식 서비스를 제공하는 전자 장치 및 시스템
CN110517684B (zh) 用于智能设备的控制方法、装置、智能设备及存储介质
CN111638787A (zh) 用于展示信息的方法和装置
CN111045641B (zh) 一种电子终端及语音识别方法
CN111897916B (zh) 语音指令识别方法、装置、终端设备及存储介质
US20210097992A1 (en) Speech control method and device, electronic device, and readable storage medium
CN117891517A (zh) 一种显示设备及语音唤醒方法
CN115802083A (zh) 控制方法、装置、分体电视及可读存储介质
CN111142832A (zh) 一种输入识别方法、装置、存储介质及终端

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210525

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210531

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220127

R150 Certificate of patent or registration of utility model

Ref document number: 7017598

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150