JP2019046468A - インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム - Google Patents

インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム Download PDF

Info

Publication number
JP2019046468A
JP2019046468A JP2018158444A JP2018158444A JP2019046468A JP 2019046468 A JP2019046468 A JP 2019046468A JP 2018158444 A JP2018158444 A JP 2018158444A JP 2018158444 A JP2018158444 A JP 2018158444A JP 2019046468 A JP2019046468 A JP 2019046468A
Authority
JP
Japan
Prior art keywords
entry
result
voice
smart
voice identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018158444A
Other languages
English (en)
Inventor
チェン、ガオフェイ
Gaofei Cheng
ジャン、シャンタオ
Xiangtao Jiang
シュ、ベン
Ben Xu
オウ、リンシン
Linxin Ou
ション、チン
Qin Xiong
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019046468A publication Critical patent/JP2019046468A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】ユーザに入力された音声情報を識別して命令に対応する操作を実行する際の、音声制御の自由度と正確性等を向上するインターフェイススマートインタラクティブ制御方法、装置、システム及び記憶媒体を提供する。【解決手段】装置は、ユーザに入力された音声情報を受信し、音声識別の結果を取得し、音声識別の結果に関連するシーン要素を確定する。次に、装置は、シーン要素毎に対応するエントリをそれぞれに生成し、音声識別の結果及びエントリをクラウドサーバに送信する。クラウドサーバは、受信したエントリから最もマッチングするエントリを選択し、装置に返送する。装置は、クラウドサーバから受信したエントリに対応するインターフェイス操作を実行する。【選択図】図1

Description

技術の発展に従って、音声インタラクティブ機能を有すスマート設備がますます多くなって来る。
ユーザはスマート設備に対して音声制御を行うことができ、例えばユーザは音声情報を発出し、スマート設備にある操作等を実行させるように要求することができる。
スマート設備は、ユーザに入力された音声情報を受信した後に、それをクラウドサーバを送信し、クラウドサーバが音声識別して返送された命令又は捜索された資源を受信し、これに対応して、命令に対応する操作を実行する又は資源を示す。
ところが、上記方式は、実際の応用において或る問題が存在する。例えば、音声制御は、普通、システムレベルに対する命令だけであり、クラウドサーバが返送可能な命令セットが固定であり、命令セットに存在していない命令に対応する操作を実行することができず、仮に現在のインターフェイスに1つの「収蔵」ボタンを表示し、ユーザが「収蔵」という音声情報を発出したが、クラウドサーバには該命令が記憶されていないので、対応する操作を実行することができず、これで分かるように、先行の音声制御方式には大きな制限がある。
また、仮に現在のインターフェイスに10部の映画を表示し、映画毎の名称及再生アドレスを含んだが、クラウドサーバはこれらを知っておらず、この場合、ユーザがその中の或る映画を見たくて映画名称を話した後、クラウドサーバは、ユーザの見たいのがインターフェイスに表示された1部の映画であることを知らなく、映画名称を検索するだけで、返送した結果がユーザの見たいものではない可能性があり、例えば名称が同じ又は類似する他の映画である可能性があるので、音声制御の正確性を低下する。
上記実情に鑑みて、本発明は、インターフェイススマートインタラクティブ制御方法、装置、システム及び記憶媒体を提供し、音声制御の自由度及び正確性を向上することができる。
具体的な技術態様は、次のようである。
インターフェイススマートインタラクティブ制御方法であって、ユーザに入力された音声情報を受信し、音声識別の結果を取得することと、上記音声識別の結果に関連するシーン要素を確定することと、シーン要素毎に対応するエントリをそれぞれに生成し、上記音声識別の結果及び上記エントリをクラウドサーバに送信することと、上記クラウドサーバにて受信したエントリから選択され返送された、上記音声識別の結果に最もマッチングするエントリを受信することと、上記最もマッチングするエントリに対応するインターフェイス操作を実行することと、を含む。
本発明の1つの好ましい実施例によると、上記音声識別の結果を取得することは、上記音声情報を上記クラウドサーバに送信することと、上記クラウドサーバが上記音声情報を音声識別して返送した上記音声識別の結果を受信することと、を含む。
本発明の1つの好ましい実施例によると、上記シーン要素毎に対応するエントリをそれぞれに生成することにおいて、上記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、上記最もマッチングするエントリに対応するインターフェイス操作を実行することは、上記最もマッチングするエントリにおけるカスタマイズされた操作行為情報に基づいて、インターフェイス操作を実行すること、を含む。
インターフェイススマートインタラクティブ制御方法であって、スマート設備からの音声識別の結果及びエントリを受信することであって、上記音声識別の結果は、上記スマート設備にて受信されたユーザの入力した音声情報を音声識別した結果である、受信することと、上記エントリは、上記スマート設備が上記音声識別の結果に関連するシーン要素を確定した後に、シーン要素毎にそれぞれに生成した対応のエントリであり、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択し、上記最もマッチングするエントリを上記スマート設備に返送して、上記最もマッチングするエントリに対応するインターフェイス操作を上記スマート設備に実行させることと、を含む。
本発明の1つの好ましい実施例によると、上記スマート設備からの音声識別の結果及びエントリを受信する前に、さらにスマート端末にて送信された上記音声情報を受信することと、上記音声情報を音声識別して上記音声識別の結果を得て、上記スマート設備に返送することと、を含む。
本発明の1つの好ましい実施例によると、上記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択することは、上記要素ラベルに基づいて、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択すること、を含む。
本発明の1つの好ましい実施例によると、上記要素ラベルに基づいて、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択することは、エントリ毎に、上記エントリの要素ラベルと上記音声識別の結果との編集距離をそれぞれに計算することと、最小値の編集距離に対応するエントリを上記最もマッチングするエントリとすることと、を含む。
本発明の1つの好ましい実施例によると、上記エントリには、さらに、シーン要素が位置する行列位置を示すx値及びy値と、シーン要素の配列番号を示すindex値との中の1つ或いは全部をそれぞれに含み、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択することは、上記x値及びy値に基づいて、又は上記index値に基づいて、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択することを、含む。
スマート設備であって、第1の取得手段と、第1の制御手段と、第2の制御手段とを含み、上記第1の取得手段は、ユーザに入力された音声情報を受信し、音声識別の結果を取得するために用いられ、上記第1の制御手段は、上記音声識別の結果に関連するシーン要素を確定し、シーン要素毎に対応するエントリをそれぞれに生成し、上記音声識別の結果及び上記エントリをクラウドサーバに送信し、上記クラウドサーバにて受信したエントリから選択され返送された、上記音声識別の結果に最もマッチングするエントリを受信するために用いられ、上記第2の制御手段は、上記最もマッチングするエントリに対応するインターフェイス操作を実行するために用いられる。
本発明の1つの好ましい実施例によると、上記第1の取得手段は、さらに、上記音声情報を上記クラウドサーバに送信し、上記クラウドサーバにて上記音声情報を音声識別して返送された上記音声識別の結果を受信するためにも用いられる。
本発明の1つの好ましい実施例によると、上記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、上記第2の制御手段は、上記最もマッチングするエントリ中のカスタマイズされた操作行為情報に基づいて、インターフェイス操作を実行する。
クラウドサーバであって、第2の取得手段とマッチング手段とを含み、上記第2の取得手段は、スマート設備からの音声識別の結果及びエントリを受信するために用いられ、上記音声識別の結果は、上記スマート設備にて受信したユーザの入力した音声情報を音声識別した結果であり、上記エントリは、上記スマート設備が上記音声識別の結果に関連するシーン要素を確定した後に、シーン要素毎にそれぞれに生成した対応のエントリであり、上記マッチング手段は、受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択し、上記最もマッチングするエントリを上記スマート設備に返送して、上記最もマッチングするエントリに対応するインターフェイス操作を上記スマート設備に実行させるために用いられる。
本発明の1つの好ましい実施例によると、上記第2の取得手段は、さらに、スマート設備からの音声識別の結果及びエントリを受信する前に、スマート端末にて送信された上記音声情報を受信し、上記音声情報を音声識別して、上記音声識別の結果を得て、上記スマート設備に返送するためにも用いられる。
本発明の1つの好ましい実施例によると、エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、上記マッチング手段は、上記要素ラベルに基づいて、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択する。
本発明の1つの好ましい実施例によると、上記マッチング手段は、エントリ毎に、上記エントリの要素ラベルと上記音声識別の結果との編集距離をそれぞれに計算し、最小値の編集距離に対応するエントリを上記最もマッチングするエントリとする。
インターフェイススマートインタラクティブ制御システムであって、上記記載されたスマート設備と、上記記載されたクラウドサーバとを含む。
メモリ、プロセッサ及び上記メモリに記憶し上記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、上記プロセッサが上記プログラムを実行する時、上記記載された方法を実現する。
コンピュータプログラムが記憶されているコンピュータ読取り可能な記憶媒体であって、上記プログラムがプロセッサによって実行される時、上記のような方法を実現する。
上記説明から分かるように、本発明の上記技術案によれば、スマート設備は、ユーザに入力された音声情報を受信し、音声識別の結果を取得した後に、音声識別の結果に関連するシーン要素を確定し、シーン要素毎に対応するエントリをそれぞれに生成し、更に音声識別の結果及び生成されたエントリをクラウドサーバに送信し、その後、クラウドサーバにて受信したエントリから選択され返送された、音声識別の結果に最もマッチングするエントリを受信し、更に最もマッチングするエントリに対応するインターフェイス操作を実行することができる。先行技術に比べて、本発明に係る技術案によれば、ユーザに入力された音声情報に基づいてエントリを生成して選択し、更に選択されたエントリに基づいてインターフェイス操作を実行することができ、命令セット中の命令に限定されないので、音声制御の自由度を向上することができる。更に、本発明に係る技術案において、スマート設備にて送信された音声識別の結果に関連するシーン要素に対応するエントリから選別して、音声識別の結果に最もマッチングするエントリを取得するので、マッチング結果がより正しくなり、音声制御の正確性を向上することができる。
本発明に係るインターフェイススマートインタラクティブ制御方法の第1の実施例のフローチャートである。 本発明に係るインターフェイススマートインタラクティブ制御方法の第2の実施例のフローチャートである。 先行の音声識別過程を示す概要図である。 本発明に係るインターフェイススマートインタラクティブ制御方法の第3の実施例のフローチャートである。 本発明に係るスマート設備インターフェイスに出現するシーン要素を示す概要図である。 本発明に係るスマート設備インターフェイスに表示する8部の映画を示す概要図である。 本発明に係るスマート設備の実施例の構成図である。 本発明に係るクラウドサーバの実施例の構成図である。 本発明の実施形態を実現するために適応する例示的なコンピュータシステム/サーバ12のブロック図を示す。
本発明の技術案をより明確で簡潔させるために、以下、図面を参照して実施例を挙げて、本発明に係る技術案を更に説明する。
明らかに、記載された実施例は、本発明の実施例の一部だけであり、全ての実施例ではない。本発明における実施例に基づいて、当業者が創造的な労働をしないことを前提として獲得できる他の実施例は、いずれも本発明の保護範囲に属する。
図1は、本発明に係るインターフェイススマートインタラクティブ制御方法の第1の実施例のフローチャートである。実際の応用において、図1に示すように、スマート設備をフローの実行本体とすることができる。図1に示すように、以下の具体的な実現方式を含む。
101において、ユーザに入力された音声情報を受信し、音声識別の結果を取得する。
ユーザに入力された音声情報を受信した後に、それをクラウドサーバに送信し、クラウドサーバにて受信した音声情報を音声識別して返送された音声識別の結果を取得することができる。
102において、音声識別の結果に関連するシーン要素を確定する。
本実施例において、ユーザがシーン要素に対して音声情報を発出する。
シーン要素とは、ユーザがユーザインターフェイス(例えばスクリーン)を持っているスマート設備を使用する時、インターフェイスに表示されたインターフェイス要素及び或る行為等、例えばページターン等の操作である。インターフェイス要素には、ボタン、ラベル、ピクチャ、リスト等を含み、音声でこれらの要素に対する操作を実現することができ、ユーザに入力された音声に基づいて、スマート設備に、インターフェイスにおいて実行可能な操作、例えばあるピクチャに対するクリック、左スライド、右スライド等を実行させることができる。
ユーザに入力された音声情報を音声識別した結果を取得した後に、先ず音声識別の結果に関連するシーン要素を確定する。
どのように音声識別の結果に関連するシーン要素を確定するかは制限されなく、実際の必要に基づいて設定することができ、例えば予め設定された規則に基づいて確定することができる。
例えば、インターフェイスに8部の映画を表示しており、映画がポスターの形式で表示されており、ユーザに入力された音声情報がその中の1部の映画の名称であれば、この8部の映画を関連するシーン要素とそれぞれにすることができる。
また、関連するシーン要素が、現在のインターフェイスに表示されているものでもよく、現在のインターフェイスに表示されていないものでもよい。
例えば、現在のインターフェイスがマスターインターフェイスであり、3個のシーン要素である映画、音楽及び応用がそれぞれに1つのサブインターフェイスに対応し、3個のシーン要素がカスタマイズされた行為であり、マスターインターフェイスに表示されておらず、ユーザに入力された音声情報が「映画を見る」であれば、映画、音楽及び応用を関連するシーン要素とそれぞれにすることができる。
103において、シーン要素毎に、対応するエントリをそれぞれに生成し、音声識別の結果及び生成されたエントリをクラウドサーバに送信する。
関連するシーン要素毎に、対応するエントリをそれぞれに生成する必要がある。
エントリには、要素ラベル(label)及び対応するカスタマイズされた操作行為情報(url)等をそれぞれに含む。
ただし、labelが、インターフェイスウィジェット上の要素ラベル、例えばインターフェイスにおける操作可能な要素ラベルであってもよく、カスタマイズされた操作ラベル等であってもよい。
例えば、インターフェイスにおける操作可能な要素ラベルが、インターフェイスに表示された映画の名称等であり、カスタマイズされた操作ラベルが、ユーザにカスタマイズされた操作の名称等である。
urlがカスタマイズされた操作行為情報であり、スマート設備端の行為を示し、ユーザにカスタマイズされた任意な文字であり、スマート設備がその意味を識別できればよい。
104において、クラウドサーバにて返送された、受信したエントリから選択された音声識別の結果に最もマッチングするエントリを受信する。
クラウドサーバは、音声識別の結果及び生成されたエントリを受信した後に、labelに基づいて、受信したエントリから音声識別の結果に最もマッチングするエントリを選択し、更に最もマッチングするエントリを返送することができる。
例えば、クラウドサーバは、エントリ毎に、該エントリの要素ラベルと音声識別の結果との編集距離をそれぞれに計算し、更に最小値の編集距離に対応するエントリを最もマッチングするエントリとすることができる。
105において、最もマッチングするエントリに対応するインターフェイス操作を実行する。
最もマッチングするエントリを取得した後に、最もマッチングするエントリにおけるurlに基づいてインターフェイス操作を実行し、即ち最もマッチングするエントリにおけるurlに基づいて処理を行い、ユーザの制御操作を実現することができる。
図2は、本発明に係るインターフェイススマートインタラクティブ制御方法の第2の実施例のフローチャートである。実際の応用において、図2に示すように、クラウドサーバをフローの実行本体とすることができる。図2に示すように、以下の具体的な実現方式を含む。
201において、スマート設備からの音声識別の結果及びエントリを受信し、ただし、上記音声識別の結果は、ユーザに入力されスマート設備が受信した音声情報を音声識別して取得した結果であり、上記エントリは、スマート設備が音声識別の結果に関連するシーン要素を確定した後、シーン要素毎にそれぞれに生成した対応のエントリである。
スマート設備は、ユーザに入力された音声情報を受信した後に、それをクラウドサーバに送信し、更にクラウドサーバは、受信した音声情報を音声識別して音声識別の結果を得て、音声識別の結果をスマート設備に返送する。
図3は、先行の音声識別過程の概要図である。図3に示すように、オーディオデータを収集した後に、それに対して特徴抽出を行い、その後、抽出されたオーディオ特徴を特定のデコーダに入力してデコードを行うことで、音声識別の結果を得ることができる。デコーダにおけるデコードの過程において、音声学モデル、言葉モデルと発音辞書を使用することができる。音声学モデルの主な作用が、オーディオ特徴を音節に変換することであり、言葉モデルの主な作用が、音節をテキストに変換することであり、発音辞書は、音節からテキストへのマッピング表を提供するものである。
ただし、オーディオデータの収集過程において、音の效果は、設備性能の差異、音源から設備までの距離、設備が単マイクを支持するか又はマイクアレイを支持するか等によって変化する。全体的に、録音設備の性能がよいほど、音源から設備までの距離が短いほど、単マイクでなく効率的なマイクアレイを採用すると、特徴がより完全でより認識しやすいオーディオデータを得ることができる。
また、収集されたオーディオデータは、ある問題が存在して、直接に識別することができない可能性がある。例えば、ハンズフリー又は会議という応用シーンにおいて、スピーカの音がマイクに数回フィードバックされ、この場合、マイクに収集されたオーディオデータにおいて音声学回声が発生し、エコーキャンセル(AEC,Acoustic Echo Cancellation)とのアルゴリズムを使用してエコーをキャンセルする必要があり、また例えば、特定の環境(例えば走行の車両中)で収集されたオーディオデータには特定な噪音が含み、このとき、収集されたオーディオデータに対してノイズ低減(NS,Noise Suppression)処理を行い、即ちノイズ低減アルゴリズムを利用して環境噪音を消除する必要がある。
202において、受信したエントリから音声識別の結果に最もマッチングするエントリを選択し、最もマッチングするエントリをスマート設備に返送して、最もマッチングするエントリに対応するインターフェイス操作をスマート設備に実行させる。
上記記載されたように、エントリにはlabel及び対応するurl等をそれぞれに含むことができる。
labelに基づいて、受信したエントリから音声識別の結果に最もマッチングするエントリを選択することができる。
例えば、エントリ毎に、それぞれに該エントリのlabelと音声識別の結果との編集距離を計算し、更に最小値の編集距離に対応するエントリを最もマッチングするエントリとすることができる。
好ましく、最小値の編集距離を取得した後に、最小値の編集距離と予め設定された閾値とを比較し、最小値の編集距離が閾値以下であれば、最小値の編集距離に対応するエントリを最もマッチングするエントリとすることもできる。
実際の必要に基づいて上記閾値の具体的な値を設定することができ、最もマッチングするエントリを取得できなければ、NULLの結果をスマート設備に返送することができる。
また、エントリには、更に、シーン要素が位置する行列位置を示すx値及びy値と、シーン要素の配列番号を示すindex値との中の1つ或いは全部をそれぞれに含むことができ、相応的に、x値及びy値、又はindex値に基づいて、受信したエントリから音声識別の結果に最もマッチングするエントリを選択することもできる。
スマート設備は、非NULLのエントリを受信したら、受信したエントリに対応するインターフェイス操作を実行し、即ちエントリにおけるurlに基づいて処理を行って、ユーザの制御操作を実現することができる。
上記説明に基づいて、図4は、本発明に係るインターフェイススマートインタラクティブ制御方法の第3の実施例のフローチャートである。図4に示すように、以下の具体的な実現方式を含む。
401において、スマート設備は、ユーザに入力された音声情報を受信し、クラウドサーバに送信する。
ユーザは、マイク近接場音声入力又はマイクアレイ遠方場音声入力等の方式によって、音声情報を入力することができる。
402において、クラウドサーバは、受信された音声情報を音声識別して、音声識別の結果を得て、スマート設備に返送する。
音声識別によって、音声情報を対応するテキスト情報に変換することができる。
403において、スマート設備は、音声識別の結果に関連するシーン要素を確定する。
一般、関連するシーン要素の個数は複数である。
404において、スマート設備は、シーン要素毎に対応するエントリをそれぞれに生成し、音声識別の結果及び生成されたエントリをクラウドサーバに送信する。
エントリにはlabel及びurl等をそれぞれに含む。
405において、クラウドサーバは、受信したエントリから音声識別の結果に最もマッチングするエントリを選択し、最もマッチングするエントリをスマート設備に返送する。
例えば、クラウドサーバは、エントリ毎に、該エントリのlabelと音声識別の結果との間の編集距離をそれぞれに計算し、更に最小値の編集距離に対応するエントリを最もマッチングするエントリとすることができる。
406において、スマート設備は、最もマッチングするエントリに対応するインターフェイス操作を実行する。
スマート設備は、受信したエントリにおけるurlに基づいて処理を行い、ユーザの制御操作を実現する。
注意すべきことは、前述各方法の実施例に関して、説明を簡単させるために、それを一連の動作の組み合わせとして表現したが、本開示によれば、あるステップが他の順序でまたは同時に行うことができるので、当業者であれば、本開示は記述された動作の順序によって制限されないことを理解すべきことである。そして、明細書に記載された実施例はいずれも好ましい実施例であり、係る操作及びモジュールが、本発明にとっては必ずしも必要とは限らないことが、当業者であれば理解すべきである。
上記実施例において、各実施例に関する説明にはいずれも自分の重点があり、ある実施例において詳述していない部分が、他の実施例にかかる説明を参照できる。
以下、具体的な応用シーンによって、本発明に係る技術案を更に説明する。
1)シーン1
仮に映画、音楽及び応用という3つのシーン要素があり、シーン要素毎が1つのサブインターフェイスにそれぞれに対応する。このような3つのシーン要素が、カスタマイズされた行為であり、インターフェイスに表示されていない。
仮にユーザに入力された音声情報が「映画を見る」であり、スマート設備は、クラウドサーバに返送された音声識別の結果である「映画を見る」を受信した後に、クラウドサーバに3つのエントリを送信し、エントリには1つのlabel及び対応する1つのurlをそれぞれに含み、音声識別の結果をクラウドサーバに送信する。ただし、labelの内容は、それぞれが映画、音楽及び応用であり、urlの内容をカスタマイズすることができ、例えばGoToMovie、GoToMusic、GoToAppsと定義することができる。クラウドサーバは、音声識別の結果である「映画を見る」とエントリ毎におけるlabelとをマッチングして、最もマッチングするエントリを選択する。
スマート設備がクラウドサーバに送信する内容は、次のようにすることができる(jsonデータフォーマットを例とする)。

"query":"映画を見る",
"items":[

"label":"映画",
"url":"GoToMovie"
},

"label":"音楽",
"url":"GoToMusic"
},

"label":"応用",
"url":"GoToApps"



クラウドサーバにスマート設備に返送される内容は、次のようにすることができる。

"label":"映画",
"url":"GoToMovie"
スマート設備が上記urlを取得した後に、対応する操作だけを実行すればよく、対応するインターフェイスに遷移する。
上記の3つのシーン要素は、図5に示すように、スマート設備インターフェイスに見えるシーン要素であってもよく、図5は、本発明に係るスマート設備インターフェイスに見えるシーン要素の概要図である。
この場合、urlを、映画、音楽及び応用のインターフェイスにおけるidと定義することができ、スマート設備は最もマッチングするエントリにおけるurlを取得した後に、直接にこのidに対応するラベルを模擬的にクリックすればよい。
2)シーン2
仮にスマート設備インターフェイスには8部の映画を表示し、図6に示すように、映画がポスターの形式で表示されており、図6は、本発明に係るスマート設備インターフェイスに表示する8部の映画の概要図である。
ユーザは、音声でその中の1部の映画の名称を話すことができ、スマート設備は、クラウドサーバにて返送された音声識別の結果を受信した後に、クラウドサーバに8個のエントリを送信し、エントリには1つのlabel及び対応する1つのurlをそれぞれに含み、音声識別の結果をクラウドサーバに送信する。ただし、labelの内容はそれぞれが映画毎の名称であり、urlの内容は映画の再生アドレスである。クラウドサーバは、音声識別の結果とエントリそれぞれのlabelとをマッチングし、選択された最もマッチングするエントリをスマート設備に返送する。スマート設備は、受信したエントリにおけるurlに基づいて直接に映画を再生すればよく、新たに映画を捜索する必要がなく、より正確にユーザの再生意図を実現することができる。
スマート設備がクラウドサーバに送信する内容は、次のようにすることができる。

"qeury":"映画1",
"items":[

"label":"映画1",
"url":"www.xxx.com/movie1"
},

"label":"映画2",
"url":"www.xxx.com/movie2"
},

"label":"映画3",
"url":"www.xxx.com/movie3"
},

"label":"映画4",
"url":"www.xxx.com/movie4"
},

"label":"映画5",
"url":"www.xxx.com/movie5"
},

"label":"映画6",
"url":"www.xxx.com/movie6"
},

"label":"映画7",
"url":"www.xxx.com/movie7"
},

"label":"映画8",
"url":"www.xxx.com/movie8"


クラウドサーバにスマート設備に返送される内容は、次のようにすることができる。

"label":"映画1",
"url":"www.xxx.com/movie1"
シーン1及びシーン2において、クラウドサーバは、最もマッチングするエントリを選択する時、エントリ毎に、該エントリのlabelと音声識別の結果との編集距離をそれぞれに計算し、更に最小値の編集距離に対応するエントリを最もマッチングするエントリとすることができる。
具体的に、labelの文字と音声識別の結果の文字との編集距離、又は、labelのピンインと音声識別の結果のピンインとの編集距離を計算することができる。
編集距離(Edit Distance)はLevenshtein距離とも呼ばれ、2つの文字列の間に、1つの文字列からもう1つの文字列に変換するために必要な最少の編集操作回数である。許可された編集操作には、1つの文字を他の1つの文字に置換することと、1つの文字を插入することと、1つの文字を削除することとを含む。一般的に、編集距離が小さいほど、2つの文字列の類似度が大きい。
実際の応用において、エントリにはlabel及びurlの以外、更に他の内容、例えば、x値及びy値、index値等を含むことができ、相応的に、x値及びy値又はindex値等に基づいてマッチングしてもよく、例えばシーン3に示す。
3)シーン3
仮にスマート設備インターフェイスに8部の映画を表示し、図6に示すように、映画はポスターの形式で表示されている。
ユーザは音声で「2行目1番目」という内容を発出し、スマート設備は、クラウドサーバにて返送された音声識別の結果を受信した後に、クラウドサーバに8個のエントリを送信し、エントリにはlabel、対応するurl、x値及びy値、index値等をそれぞれに含み、音声識別の結果をクラウドサーバに送信する。ただし、labelの内容がそれぞれに映画毎の名称であり、urlには映画の再生アドレスを含み、x値及びy値が映画が位置する行列位置を示し、例えば、x値が行を示し、y値が列を示し、index値が映画の配列番号等を示す。クラウドサーバは、x値及びy値に基づいて最もマッチングするエントリを選択し、スマート設備に返送することができる。スマート設備は、受信したエントリにおけるurlに基づいて、直接に映画を再生すればよい。
スマート設備がクラウドサーバに送信する内容は、次のようにすることができる。

"query": 2行目1番目,
"items":[

"label":"映画1",
"url":"www.xxx.com/movie1","x":1,"y":1,"index":1
},

"label":"映画2",
"url":"www.xxx.com/movie2","x":1,"y":2,"index":2
},

"label":"映画3",
"url":"www.xxx.com/movie3","x":1,"y":3,"index":3
},

"label":"映画4",
"url":"www.xxx.com/movie4","x":1,"y":4,"index":4
},

"label":"映画5",
"url":"www.xxx.com/movie5","x":2,"y":1,"index":5
},

"label":"映画6",
"url":"www.xxx.com/movie6","x":2,"y":2,"index":6
},

"label":"映画7",
"url":"www.xxx.com/movie7","x":2,"y":3,"index":7
},

"label":"映画8",
"url":"www.xxx.com/movie8","x":2,"y":4,"index":8


クラウドサーバにスマート設備に返送される内容は、次のようにすることができる。

"label":"映画5",
"url":"www.xxx.com/movie5","x":2,"y":1,"index":5
また、ユーザに入力された音声が「*番目」であれば、index値に基づいて対応するエントリを選択することができる。
実際の応用において、システムはシーン2において説明された映画名称によってエントリをマッチングする方式しか支持しなければ、生成されたエントリにはlabel及びurlだけを含んで良く、シーン3において説明した「2行目1番目」及び「*番目」等によってエントリをマッチングする方式を同時に支持すれば、生成されたエントリにはx値とy値及びindex値等もさらに含む必要がある。
要するに、上記各方法の実施例に係る技術案において、ユーザに入力された音声情報に基づいてエントリを生成して選択し、更に選択されたエントリに基づいてインターフェイス操作を実行することができ、命令セット中の命令に限定されないので、音声制御の自由度を向上することができる。更に、上記各方法の実施例に係る技術案において、スマート設備に送信された音声識別の結果に関連するシーン要素に対応するエントリから選別して、音声識別の結果に最もマッチングするエントリを取得するので、マッチング結果がより正しくなり、音声制御の正確性を向上することができる。
以上は方法に関する実施例の説明であり、以下、装置の実施例によって本発明に係る技術案を更に説明する。
図7は、本発明の上記のスマート設備の実施例の構成図である。図7に示すように、第1の取得手段701、第1の制御手段702及び第2の制御手段703を含む。
第1の取得手段701は、ユーザに入力された音声情報を受信し、音声識別の結果を取得するために用いられる。
第1の制御手段702は、音声識別の結果に関連するシーン要素を確定し、シーン要素毎に対応するエントリをそれぞれに生成し、音声識別の結果及びエントリをクラウドサーバに送信し、クラウドサーバにて受信したエントリから選択され返送された、音声識別の結果に最もマッチングするエントリを受信するために用いられる。
第2の制御手段703は、最もマッチングするエントリに対応するインターフェイス操作を実行するために用いられる。
第1の取得手段701は、ユーザに入力された音声情報を受信した後に、それをクラウドサーバに送信し、クラウドサーバにて受信した音声情報を音声識別して返送された音声識別の結果を取得することができる。
その後に、第1の制御手段702は、音声識別の結果に関連するシーン要素を確定することができる。
シーン要素とは、ユーザがユーザインターフェイス(例えばスクリーン)を持っているスマート設備を使用する時、インターフェイスに表示されたインターフェイス要素及び或る行為等、例えばページターン等の操作である。インターフェイス要素には、ボタン、ラベル、ピクチャ、リスト等を含み、音声でこれらの要素に対する操作を実現することができ、ユーザに入力された音声に基づいて、インターフェイスに実行可能な操作、例えばあるピクチャに対するクリック、左スライド、右スライド等をスマート設備に実行させることができる。
どのように音声識別の結果に関連するシーン要素を確定するかは制限されなく、実際の必要に基づいて設定することができ、例えば予め設定された規則に基づいて確定することができる。
第1の制御手段702は、シーン要素毎に対応するエントリをそれぞれに生成し、音声識別の結果及び生成されたエントリをクラウドサーバに送信する必要もある。
エントリには、要素ラベル(label)及び対応するカスタマイズされた操作行為情報(url)等をそれぞれ含むことができる。
クラウドサーバは、スマート設備からの音声識別の結果及び生成されたエントリを受信した後に、labelに基づいて、受信したエントリから音声識別の結果に最もマッチングするエントリを選択し、更に最もマッチングするエントリを返送することができる。
これに対応して、第2の制御手段703は、最もマッチングするエントリにおけるurlに基づいて、インターフェイス操作を実行することができる。
図8は、本発明に係るクラウドサーバの実施例の構成図である。図8に示すように、第2の取得手段801及びマッチング手段802を含む。
第2の取得手段801は、スマート設備からの音声識別の結果及びエントリを受信するために用いられ、ただし、音声識別の結果は、スマート設備にて受信されたユーザの入力した音声情報を音声識別した結果であり、エントリは、スマート設備が音声識別の結果に関連するシーン要素を確定した後に、シーン要素毎にそれぞれに生成した対応のエントリである。
マッチング手段802は、受信したエントリから音声識別の結果に最もマッチングするエントリを選択し、最もマッチングするエントリをスマート設備に返送するために用いられ、スマート設備に最もマッチングするエントリに対応するインターフェイス操作を実行させる。
ただし、第2の取得手段801は、スマート設備からの音声識別の結果及びエントリを受信する前に、スマート端末が送信した音声情報を受信し、音声情報を音声識別して音声識別の結果を得て、スマート設備に返送することもできる。
エントリにはlabel及び対応するurl等をそれぞれ含む。
マッチング手段802は、labelに基づいて、受信したエントリから音声識別の結果に最もマッチングするエントリを選択することができる。
例えば、マッチング手段802は、エントリ毎に、該エントリのlabelと音声識別の結果との編集距離をそれぞれに計算し、更に最小値の編集距離に対応するエントリを最もマッチングするエントリとすることができる。
また、エントリには、さらに、シーン要素が位置する行列位置を示すx値及びy値と、シーン要素の配列番号を示すindex値との中の1つ或いは全部をぞれぞれに含むことができる。
相応的に、マッチング手段802は、x値及びy値に基づいて、又はindex値に基づいて、受信したエントリから音声識別の結果に最もマッチングするエントリを選択することもできる。
図7及び図8に示す装置の実施例の具体的な動作フローは、前述各方法の実施例における該当の説明を参照でき、その説明を省略する。
また、実際の応用において、図8に示すように、サーバを更に2つのサーバに分割することができ、その中の1つが音声識別を実行することに用いられ、もう1つがマッチング等の操作を実行することに用いられ、具体的な実現方式は限定されない。
また、本発明は、図7に示すような実施例におけるスマート設備及び図8に示すような実施例におけるクラウドサーバを含むインターフェイススマートインタラクティブ制御システムを同時に開示し、具体的な実現の説明を省略する。
図9は、本発明の実施形態を実現することに適する、例示的なコンピュータシステム/サーバ12のブロック図を示す。図9に示したコンピュータシステム/サーバ12が1つの例だけであり、本発明の実施例の機能及び使用範囲を限制するためのものではない。
図9に示すように、コンピュータシステム/サーバ12は、汎用演算設備の形態で表現される。コンピュータシステム/サーバ12の構成要素には、1つ又は複数のプロセッサ(処理手段)16と、メモリ28と、異なるシステム構成要素(メモリ28とプロセッサ16とを含む)を接続するためのバス18を含んでいるが、これに限定されない。
バス18は、複数種類のバス構成の中の1つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構には、工業標準架構(ISA)バス、マイクロチャンネル架構(MAC)バス、増強型ISAバス、ビデオ電子規格協会(VESA)ローカルバス及び周辺コンポーネント接続(PCI)バスを含んでいるが、これに限定されない。
コンピュータシステム/サーバ12には、典型的には複数の種類のコンピュータシステムが読取り可能な媒体を含む。それらの媒体は、コンピュータシステム/サーバ12にアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。
メモリ28には、揮発性メモリ形式のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ(RAM)30及び/又はキャッシュメモリ32を含むことができる。コンピュータシステム/サーバ12には、更に他の移動可能/移動不可なコンピュータシステム記憶媒体や揮発性/不揮発性のコンピュータシステム記憶媒体を含むことができる。例として、記憶システム34は、移動不可能な不揮発性磁媒体を読み書くために用いられる(図9に示していないが、常に「ハードディスクドライブ」とも呼ばれる)。図9に示していないが、移動可能な不揮発性磁気ディスク(例えば「フレキシブルディスク」)に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク(例えばCD−ROM、DVD−ROM又は他の光媒体)に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、ぞれぞれ1つ又は複数のデータ媒体インターフェースによってバス18に接続される。メモリ28には少なくとも1つのプログラム製品を含み、該プログラム製品には1組の(例えば少なくとも1つの)プログラムモジュールを含み、それらのプログラムモジュールは、本発明の各実施例の機能を実行するように配置される。
1組の(少なくとも1つの)プログラムモジュール42を含むプログラム/実用ツール40は、例えばメモリ28に記憶され、このようなプログラムモジュール42には、オペレーティングシステム、1つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示での1つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール42は、常に本発明に記載されている実施例における機能及び/又は方法を実行する。
コンピュータシステム/サーバ12は、1つ又は複数の周辺設備14(例えば、キーボード、ポインティングデバイス、ディスプレイ24等)と通信を行ってもよく、ユーザと該コンピュータシステム/サーバ12とのインタラクティブを実現できる1つ又は複数の設備と通信を行ってもよく、及び/又は該コンピュータシステム/サーバ12と1つ又は複数の他の演算設備との通信を実現できる任意の設備(例えばネットワークカード、モデム等)と通信を行っても良い。このような通信は入力/出力(I/O)インターフェース22によって行うことができる。そして、コンピュータシステム/サーバ12は、ネットワークアダプタ20によって1つ又は複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)及び/又は公衆回線網、例えばインターネット)と通信を行っても良い。図9に示すように、ネットワークアダプタ20は、バス18によってコンピュータシステム/サーバ12の他のモジュールと通信を行う。図に示していないが、コンピュータシステム/サーバ12と連携して他のハードウェア及び/又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、RAIDシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。
プロセッサ16は、メモリ28に記憶されているプログラムを実行することで、各々機能応用及びデータ処理を実行し、例えば図1、図2又は図4に示す実施例における方法を実現し、即ち、ユーザに入力された音声情報を受信し、音声識別の結果を取得し、音声識別の結果に関連するシーン要素を確定し、シーン要素毎に対応するエントリをそれぞれに生成し、音声識別の結果及びエントリをクラウドサーバに送信し、クラウドサーバにて受信したエントリから選択され返送された、音声識別の結果に最もマッチングするエントリを受信し、最もマッチングするエントリに対応するインターフェイス操作を実行する。
具体的な実現過程は、前述各実施例における該当の説明を参照でき、その説明を省略する。
本発明には、コンピュータプログラムが記憶されているコンピューター読み取りな可能な記憶媒体を同時に開示し、該プログラムがプロセッサによって実行される時、図1、図2又は図4に示す実施例における方法を実現する。
1つ又は複数のコンピューター読み取りな可能な媒体の任意な組合を採用しても良い。コンピューター読み取りな可能な媒体は、コンピューター読み取りな可能な信号媒体又はコンピューター読み取りな可能な記憶媒体である。コンピューター読み取りな可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピューターが読み取りな可能な記憶媒体の更なる具体的な例(網羅していないリスト)には、1つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュ)、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ(CD−ROM)、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピューターが読み取りな可能な記憶媒体は、プログラムを含む又は記憶する任意な有形媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されるができる。
コンピューター読み取りな可能な信号媒体には、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの一部として伝搬されるデータ信号を含み、それにコンピューターが読み取りな可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含んでいるが、これに限定されない。コンピューター読み取りな可能な信号媒体は、コンピューター読み取りな可能な記憶媒体以外の任意なコンピューター読み取りな可能な媒体であってもよく、該コンピューター読み取りな可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は転送できる。
コンピューター読み取りな可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって転送されてもよく、無線、電線、光ケーブル、RF等、又は上記ものの任意で適当な組合が含されているが、これに限定されない。
1つ又は複数の種類のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、上記プログラミング言語には、オブジェクト向けのプログラミング言語、例えばJava(登録商標)、Smalltalk、C++が含まれ、通常のプロシージャ向けプログラミング言語、例えば「C」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、1つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる(例えば、インターネットサービス事業者を利用してインターネットを介して接続できる)。
本発明に開示されたいくつの実施例で開示された装置および方法などが、他の手段によって実現できることを理解すべきだ。例えば、上述の装置に関する実施形態は例示だけであり、例えば、上記手段の区分がロジック機能上の区分だけであり、実際的に実現する時、他の区分方式であってもよい。
上記の分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、1つの箇所に位置してもよく、又は複数のネットワークセルに分布されても良い。実際の必要に基づいて、その中の部分又は全部を選択して、本実施例の態様の目的を実現できる。
また、本発明の各実施例における各機能手段が、1つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、2つ又は2つ以上の手段が1つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア+ソフトウェア機能手段の形式で実現しても良い。
上記ソフトウェア機能手段の形式で実現する集積された手段は、1つのコンピューター読み取りな可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は1つの記憶媒体に記憶されており、1台のコンピュータ設備(パソコン、サーバ、又はネットワーク設備等)又はプロセッサ(processor)に本発明の各実施例に記載された方法の一部の手順を実行させるための若干の命令を含む。前述の記憶媒体には、USBメモリ、リムーバブルハードディスク、リードオンリーメモリ(ROM,Read−Only Memory)、ランダムアクセスメモリ(RAM,Random Access Memory)、磁気ディスク又は光ディスク等の、プログラムコードを記憶できる媒体を含む。
以上の説明は、本発明の好ましい例示だけであり、本発明を限定するものではなく、本発明の主旨及び原則の範囲で実行したいずれの修正、等価置換、改良なども、全部本発明の保護する範囲に属すべきである。

Claims (20)

  1. インターフェイススマートインタラクティブ制御方法であって、
    ユーザに入力された音声情報を受信し、音声識別の結果を取得することと、
    前記音声識別の結果に関連するシーン要素を確定することと、
    シーン要素毎に対応するエントリをそれぞれに生成し、前記音声識別の結果及び前記エントリをクラウドサーバに送信することと、
    前記クラウドサーバにて受信したエントリから選択され返送された、前記音声識別の結果に最もマッチングするエントリを受信することと、
    前記最もマッチングするエントリに対応するインターフェイス操作を実行することと、を含む、インターフェイススマートインタラクティブ制御方法。
  2. 前記音声識別の結果を取得することは、
    前記音声情報を前記クラウドサーバに送信することと、
    前記クラウドサーバが前記音声情報を音声識別して返送した前記音声識別の結果を受信することと、を含む、請求項1に記載のインターフェイススマートインタラクティブ制御方法。
  3. 前記シーン要素毎に対応するエントリをそれぞれに生成することにおいて、
    前記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、
    前記最もマッチングするエントリに対応するインターフェイス操作を実行することは、
    前記最もマッチングするエントリにおけるカスタマイズされた操作行為情報に基づいて、インターフェイス操作を実行すること、を含む、請求項1に記載のインターフェイススマートインタラクティブ制御方法。
  4. インターフェイススマートインタラクティブ制御方法であって、
    スマート設備からの音声識別の結果及びエントリを受信することであって、前記音声識別の結果は、前記スマート設備にて受信されたユーザの入力した音声情報を音声識別した結果であり、前記エントリは、前記スマート設備が前記音声識別の結果に関連するシーン要素を確定した後に、シーン要素毎にそれぞれに生成した対応のエントリである、受信することと、
    前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択し、前記最もマッチングするエントリを前記スマート設備に返送して、前記最もマッチングするエントリに対応するインターフェイス操作を前記スマート設備に実行させることと、を含む、インターフェイススマートインタラクティブ制御方法。
  5. 前記スマート設備からの音声識別の結果及びエントリを受信する前に、さらに
    スマート端末にて送信された前記音声情報を受信することと、
    前記音声情報を音声識別して前記音声識別の結果を得て、前記スマート設備に返送することと、を含む、請求項4に記載のインターフェイススマートインタラクティブ制御方法。
  6. 前記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、
    前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択することは、
    前記要素ラベルに基づいて、前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択すること、を含む、請求項4に記載のインターフェイススマートインタラクティブ制御方法。
  7. 前記要素ラベルに基づいて、前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択することは、
    エントリ毎に、前記エントリの要素ラベルと前記音声識別の結果との編集距離をそれぞれに計算することと、
    最小値の編集距離に対応するエントリを前記最もマッチングするエントリとすることと、を含む、請求項6に記載のインターフェイススマートインタラクティブ制御方法。
  8. 前記エントリには、さらに、シーン要素が位置する行列位置を示すx値及びy値と、シーン要素の配列番号を示すindex値との中の1つ或いは全部をそれぞれに含み、
    前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択することは、
    前記x値及びy値に基づいて、又は前記index値に基づいて、前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択することを、含む、請求項6に記載のインターフェイススマートインタラクティブ制御方法。
  9. スマート設備であって、第1の取得手段と、第1の制御手段と、第2の制御手段とを含み、
    前記第1の取得手段は、ユーザに入力された音声情報を受信し、音声識別の結果を取得するために用いられ、
    前記第1の制御手段は、前記音声識別の結果に関連するシーン要素を確定し、シーン要素毎に対応するエントリをそれぞれに生成し、前記音声識別の結果及び前記エントリをクラウドサーバに送信し、前記クラウドサーバにて受信したエントリから選択され返送された、前記音声識別の結果に最もマッチングするエントリを受信するために用いられ、
    前記第2の制御手段は、前記最もマッチングするエントリに対応するインターフェイス操作を実行するために用いられる、スマート設備。
  10. 前記第1の取得手段は、さらに、
    前記音声情報を前記クラウドサーバに送信し、
    前記クラウドサーバにて前記音声情報を音声識別して返送された前記音声識別の結果を受信するためにも用いられる、請求項9に記載のスマート設備。
  11. 前記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、
    前記第2の制御手段は、前記最もマッチングするエントリ中のカスタマイズされた操作行為情報に基づいて、インターフェイス操作を実行する、請求項9に記載のスマート設備。
  12. クラウドサーバであって、第2の取得手段とマッチング手段とを含み、
    前記第2の取得手段は、スマート設備からの音声識別の結果及びエントリを受信するために用いられ、前記音声識別の結果は、前記スマート設備にて受信したユーザの入力した音声情報を音声識別した結果であり、前記エントリは、前記スマート設備が前記音声識別の結果に関連するシーン要素を確定した後に、シーン要素毎にそれぞれに生成した対応のエントリであり、
    前記マッチング手段は、受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択し、前記最もマッチングするエントリを前記スマート設備に返送して、前記最もマッチングするエントリに対応するインターフェイス操作を前記スマート設備に実行させるために用いられる、クラウドサーバ。
  13. 前記第2の取得手段は、さらに、
    スマート設備からの音声識別の結果及びエントリを受信する前に、
    スマート端末にて送信された前記音声情報を受信し、
    前記音声情報を音声識別して、前記音声識別の結果を得て、前記スマート設備に返送するためにも用いられる、請求項12に記載のクラウドサーバ。
  14. 前記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、
    前記マッチング手段は、前記要素ラベルに基づいて、前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択する、請求項12に記載のクラウドサーバ。
  15. 前記マッチング手段は、エントリ毎に、前記エントリの要素ラベルと前記音声識別の結果との編集距離をそれぞれに計算し、最小値の編集距離に対応するエントリを前記最もマッチングするエントリとする、請求項14に記載のクラウドサーバ。
  16. インターフェイススマートインタラクティブ制御システムであって、
    請求項9〜11の中のいずれか1項に記載されたスマート設備と、請求項12〜15の中のいずれか1項に記載されたクラウドサーバとを含む、インターフェイススマートインタラクティブ制御システム。
  17. メモリ、プロセッサ及び前記メモリに記憶し前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、
    前記プロセッサが前記プログラムを実行する時、請求項1〜3の中のいずれか1項に記載された方法を実現する、コンピュータ設備。
  18. プロセッサによって実行される時、請求項1〜3の中のいずれか1項に記載された方法を実現する、コンピュータプログラム。
  19. メモリ、プロセッサ及び前記メモリに記憶し前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、
    前記プロセッサが前記プログラムを実行する時、請求項4〜8の中のいずれか1項に記載された方法を実現する、コンピュータ設備。
  20. プロセッサによって実行される時、請求項4〜8の中のいずれか1項に記載された方法を実現する、コンピュータプログラム。
JP2018158444A 2017-08-29 2018-08-27 インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム Pending JP2019046468A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710757704.7A CN107507615A (zh) 2017-08-29 2017-08-29 界面智能交互控制方法、装置、系统及存储介质
CN201710757704.7 2017-08-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020142849A Division JP7029613B2 (ja) 2017-08-29 2020-08-26 インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム

Publications (1)

Publication Number Publication Date
JP2019046468A true JP2019046468A (ja) 2019-03-22

Family

ID=60694027

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018158444A Pending JP2019046468A (ja) 2017-08-29 2018-08-27 インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
JP2020142849A Active JP7029613B2 (ja) 2017-08-29 2020-08-26 インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2020142849A Active JP7029613B2 (ja) 2017-08-29 2020-08-26 インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム

Country Status (5)

Country Link
US (1) US10803866B2 (ja)
EP (1) EP3451329B1 (ja)
JP (2) JP2019046468A (ja)
KR (1) KR20190024793A (ja)
CN (1) CN107507615A (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021299B (zh) * 2018-01-08 2021-07-20 佛山市顺德区美的电热电器制造有限公司 语音交互方法、装置、系统及存储介质
CN108564944B (zh) * 2018-02-08 2021-12-24 百度在线网络技术(北京)有限公司 智能控制方法、系统、设备及存储介质
CN108495160A (zh) * 2018-02-08 2018-09-04 百度在线网络技术(北京)有限公司 智能控制方法、系统、设备及存储介质
CN108877791B (zh) * 2018-05-23 2021-10-08 百度在线网络技术(北京)有限公司 基于视图的语音交互方法、装置、服务器、终端和介质
CN109117233A (zh) * 2018-08-22 2019-01-01 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置
CN109448727A (zh) * 2018-09-20 2019-03-08 李庆湧 语音交互方法以及装置
CN110970032A (zh) * 2018-09-28 2020-04-07 深圳市冠旭电子股份有限公司 一种音箱语音交互控制的方法及装置
CN111312235B (zh) * 2018-12-11 2023-06-30 阿里巴巴集团控股有限公司 一种语音交互方法、装置及系统
CN109817210B (zh) * 2019-02-12 2021-08-17 百度在线网络技术(北京)有限公司 语音写作方法、装置、终端和存储介质
CN112185371A (zh) * 2019-07-05 2021-01-05 百度在线网络技术(北京)有限公司 语音交互的方法、装置、设备和计算机存储介质
CN110600027B (zh) * 2019-08-26 2022-12-02 深圳市丰润达科技有限公司 语音终端场景控制、应用方法、语音终端、云端及系统
CN112309388A (zh) * 2020-03-02 2021-02-02 北京字节跳动网络技术有限公司 用于处理信息的方法和装置
CN111367492B (zh) * 2020-03-04 2023-07-18 深圳市腾讯信息技术有限公司 网页页面展示方法及装置、存储介质
CN111768777A (zh) * 2020-06-28 2020-10-13 广州小鹏车联网科技有限公司 语音控制方法、信息处理方法、车辆和服务器
CN112114926A (zh) * 2020-09-25 2020-12-22 北京百度网讯科技有限公司 基于语音识别的页面操作方法、装置、设备和介质
CN113253971B (zh) * 2021-07-09 2021-10-12 广州小鹏汽车科技有限公司 语音交互方法及装置、语音交互系统、交通工具及介质
CN113805698B (zh) * 2021-09-10 2024-05-03 中国第一汽车股份有限公司 一种执行指令确定方法、装置、设备及存储介质
CN114090148A (zh) * 2021-11-01 2022-02-25 深圳Tcl新技术有限公司 信息同步方法、装置、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330576A (ja) * 2005-05-30 2006-12-07 Sharp Corp 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体
JP2011049705A (ja) * 2009-08-25 2011-03-10 Konica Minolta Business Technologies Inc 画像処理システム、画像処理装置及び情報処理装置
US20130041666A1 (en) * 2011-08-08 2013-02-14 Samsung Electronics Co., Ltd. Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method
JP2014132342A (ja) * 2013-01-07 2014-07-17 Samsung Electronics Co Ltd 対話型サーバ、ディスプレイ装置及びその制御方法
US20150382047A1 (en) * 2014-06-30 2015-12-31 Apple Inc. Intelligent automated assistant for tv user interactions

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198714A1 (en) * 2001-06-26 2002-12-26 Guojun Zhou Statistical spoken dialog system
JP5233989B2 (ja) * 2007-03-14 2013-07-10 日本電気株式会社 音声認識システム、音声認識方法、および音声認識処理プログラム
JP5967569B2 (ja) * 2012-07-09 2016-08-10 国立研究開発法人情報通信研究機構 音声処理システム
US9952576B2 (en) * 2012-10-16 2018-04-24 Sonos, Inc. Methods and apparatus to learn and share remote commands
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US20140250147A1 (en) * 2013-03-01 2014-09-04 Quixey, Inc. Generating Search Results Containing State Links to Applications
US9548066B2 (en) * 2014-08-11 2017-01-17 Amazon Technologies, Inc. Voice application architecture
US10262655B2 (en) * 2014-11-03 2019-04-16 Microsoft Technology Licensing, Llc Augmentation of key phrase user recognition
CN104516709B (zh) * 2014-11-12 2018-08-14 科大讯飞股份有限公司 基于软件运行场景及语音助手的语音辅助方法及系统
JP6485214B2 (ja) * 2015-05-25 2019-03-20 大日本印刷株式会社 電子図書館システム
US20160378747A1 (en) * 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) * 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
KR20170033722A (ko) * 2015-09-17 2017-03-27 삼성전자주식회사 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치
JP6449181B2 (ja) * 2016-02-01 2019-01-09 株式会社リクルートライフスタイル 音声翻訳システム、音声翻訳方法、及び音声翻訳プログラム
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US10747947B2 (en) * 2016-02-25 2020-08-18 Nxgn Management, Llc Electronic health record compatible distributed dictation transcription system
JPWO2018043137A1 (ja) * 2016-08-31 2019-06-24 ソニー株式会社 情報処理装置及び情報処理方法
US10170110B2 (en) * 2016-11-17 2019-01-01 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
WO2018133307A1 (zh) * 2017-01-20 2018-07-26 华为技术有限公司 一种实现语音控制的方法和终端
US10650811B2 (en) * 2018-03-13 2020-05-12 Microsoft Technology Licensing, Llc Correction of speech recognition on repetitive queries

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330576A (ja) * 2005-05-30 2006-12-07 Sharp Corp 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体
JP2011049705A (ja) * 2009-08-25 2011-03-10 Konica Minolta Business Technologies Inc 画像処理システム、画像処理装置及び情報処理装置
US20130041666A1 (en) * 2011-08-08 2013-02-14 Samsung Electronics Co., Ltd. Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method
JP2014132342A (ja) * 2013-01-07 2014-07-17 Samsung Electronics Co Ltd 対話型サーバ、ディスプレイ装置及びその制御方法
US20150382047A1 (en) * 2014-06-30 2015-12-31 Apple Inc. Intelligent automated assistant for tv user interactions

Also Published As

Publication number Publication date
EP3451329A1 (en) 2019-03-06
CN107507615A (zh) 2017-12-22
JP2021009701A (ja) 2021-01-28
US20190066682A1 (en) 2019-02-28
KR20190024793A (ko) 2019-03-08
US10803866B2 (en) 2020-10-13
EP3451329B1 (en) 2021-03-24
JP7029613B2 (ja) 2022-03-04

Similar Documents

Publication Publication Date Title
JP7029613B2 (ja) インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
CN108877791B (zh) 基于视图的语音交互方法、装置、服务器、终端和介质
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
JP6713034B2 (ja) スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム
CN108133707B (zh) 一种内容分享方法及系统
US10276154B2 (en) Processing natural language user inputs using context data
CN108012173B (zh) 一种内容识别方法、装置、设备和计算机存储介质
CN105426362A (zh) 语音翻译装置、方法及程序
JP6233798B2 (ja) データを変換する装置及び方法
WO2020024620A1 (zh) 语音信息的处理方法以及装置、设备和存储介质
CN108564944B (zh) 智能控制方法、系统、设备及存储介质
CN102687197A (zh) 识别词典制作装置、声音识别装置及声音合成装置
KR20200048701A (ko) 사용자 특화 음성 명령어를 공유하기 위한 전자 장치 및 그 제어 방법
CN107193810B (zh) 一种用于自然语言内容标题消歧的方法、设备和系统
JP2017174172A (ja) 表示処理装置及び表示処理プログラム
JP6944920B2 (ja) スマートインタラクティブの処理方法、装置、設備及びコンピュータ記憶媒体
WO2017199486A1 (ja) 情報処理装置
CN107992457A (zh) 一种信息转换方法、装置、终端设备及存储介质
CN113360127A (zh) 音频播放方法以及电子设备
JP2019109424A (ja) 計算機、言語解析方法、及びプログラム
JP7509392B1 (ja) 自動通訳システム及びプログラム
CN115410558A (zh) 集外词处理方法、电子设备和存储介质
CN114556353A (zh) 数据处理方法、装置、电子设备和存储介质
CN112528666A (zh) 一种语义识别方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191106

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200428