JP2021009701A

JP2021009701A - インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム

Info

Publication number: JP2021009701A
Application number: JP2020142849A
Authority: JP
Inventors: チェン、ガオフェイ; Gaofei Cheng; ジャン、シャンタオ; Xiangtao Jiang; シュ、ベン; Ben Xu; オウ、リンシン; Linxin Ou; ション、チン; Qin Xiong
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2017-08-29
Filing date: 2020-08-26
Publication date: 2021-01-28
Anticipated expiration: 2038-08-27
Also published as: JP2019046468A; EP3451329A1; US20190066682A1; JP7029613B2; KR20190024793A; CN107507615A; US10803866B2; EP3451329B1

Abstract

【課題】音声制御の自由度と正確性等を向上するインターフェイススマートインタラクティブ制御方法、装置、システム及び記憶媒体を提供する。【解決手段】方法は、ユーザに入力された音声情報を受信し、音声識別の結果を取得することと、現在のインターフェイスに表示されていないカスタマイズされた行為を含む、音声識別の結果に関連するシーン要素を確定することと、シーン要素毎に対応するエントリをそれぞれに生成し、音声識別の結果及びエントリをクラウドサーバに送信することと、クラウドサーバにて受信したエントリから選択され返送された、音声識別の結果に最もマッチングするエントリを受信することと、カスタマイズされた行為を実現させるように、最もマッチングするエントリに対応するインターフェイス操作を実行することと、を含む。【選択図】図１

Description

技術の発展に従って、音声インタラクティブ機能を有すスマート設備がますます多くなって来る。

ユーザはスマート設備に対して音声制御を行うことができ、例えばユーザは音声情報を発出し、スマート設備にある操作等を実行させるように要求することができる。

スマート設備は、ユーザに入力された音声情報を受信した後に、それをクラウドサーバを送信し、クラウドサーバが音声識別して返送された命令又は捜索された資源を受信し、これに対応して、命令に対応する操作を実行する又は資源を示す。

ところが、上記方式は、実際の応用において或る問題が存在する。例えば、音声制御は、普通、システムレベルに対する命令だけであり、クラウドサーバが返送可能な命令セットが固定であり、命令セットに存在していない命令に対応する操作を実行することができず、仮に現在のインターフェイスに１つの「収蔵」ボタンを表示し、ユーザが「収蔵」という音声情報を発出したが、クラウドサーバには該命令が記憶されていないので、対応する操作を実行することができず、これで分かるように、先行の音声制御方式には大きな制限がある。

また、仮に現在のインターフェイスに１０部の映画を表示し、映画毎の名称及再生アドレスを含んだが、クラウドサーバはこれらを知っておらず、この場合、ユーザがその中の或る映画を見たくて映画名称を話した後、クラウドサーバは、ユーザの見たいのがインターフェイスに表示された１部の映画であることを知らなく、映画名称を検索するだけで、返送した結果がユーザの見たいものではない可能性があり、例えば名称が同じ又は類似する他の映画である可能性があるので、音声制御の正確性を低下する。

上記実情に鑑みて、本発明は、インターフェイススマートインタラクティブ制御方法、装置、システム及び記憶媒体を提供し、音声制御の自由度及び正確性を向上することができる。

具体的な技術態様は、次のようである。

インターフェイススマートインタラクティブ制御方法であって、ユーザに入力された音声情報を受信し、音声識別の結果を取得することと、上記音声識別の結果に関連するシーン要素を確定することと、シーン要素毎に対応するエントリをそれぞれに生成し、上記音声識別の結果及び上記エントリをクラウドサーバに送信することと、上記クラウドサーバにて受信したエントリから選択され返送された、上記音声識別の結果に最もマッチングするエントリを受信することと、上記最もマッチングするエントリに対応するインターフェイス操作を実行することと、を含む。

本発明の１つの好ましい実施例によると、上記音声識別の結果を取得することは、上記音声情報を上記クラウドサーバに送信することと、上記クラウドサーバが上記音声情報を音声識別して返送した上記音声識別の結果を受信することと、を含む。

本発明の１つの好ましい実施例によると、上記シーン要素毎に対応するエントリをそれぞれに生成することにおいて、上記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、上記最もマッチングするエントリに対応するインターフェイス操作を実行することは、上記最もマッチングするエントリにおけるカスタマイズされた操作行為情報に基づいて、インターフェイス操作を実行すること、を含む。

インターフェイススマートインタラクティブ制御方法であって、スマート設備からの音声識別の結果及びエントリを受信することであって、上記音声識別の結果は、上記スマート設備にて受信されたユーザの入力した音声情報を音声識別した結果である、受信することと、上記エントリは、上記スマート設備が上記音声識別の結果に関連するシーン要素を確定した後に、シーン要素毎にそれぞれに生成した対応のエントリであり、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択し、上記最もマッチングするエントリを上記スマート設備に返送して、上記最もマッチングするエントリに対応するインターフェイス操作を上記スマート設備に実行させることと、を含む。

本発明の１つの好ましい実施例によると、上記スマート設備からの音声識別の結果及びエントリを受信する前に、さらにスマート端末にて送信された上記音声情報を受信することと、上記音声情報を音声識別して上記音声識別の結果を得て、上記スマート設備に返送することと、を含む。

本発明の１つの好ましい実施例によると、上記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択することは、上記要素ラベルに基づいて、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択すること、を含む。

本発明の１つの好ましい実施例によると、上記要素ラベルに基づいて、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択することは、エントリ毎に、上記エントリの要素ラベルと上記音声識別の結果との編集距離をそれぞれに計算することと、最小値の編集距離に対応するエントリを上記最もマッチングするエントリとすることと、を含む。

本発明の１つの好ましい実施例によると、上記エントリには、さらに、シーン要素が位置する行列位置を示すｘ値及びｙ値と、シーン要素の配列番号を示すｉｎｄｅｘ値との中の1つ或いは全部をそれぞれに含み、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択することは、上記ｘ値及びｙ値に基づいて、又は上記ｉｎｄｅｘ値に基づいて、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択することを、含む。

スマート設備であって、第１の取得手段と、第１の制御手段と、第２の制御手段とを含み、上記第１の取得手段は、ユーザに入力された音声情報を受信し、音声識別の結果を取得するために用いられ、上記第１の制御手段は、上記音声識別の結果に関連するシーン要素を確定し、シーン要素毎に対応するエントリをそれぞれに生成し、上記音声識別の結果及び上記エントリをクラウドサーバに送信し、上記クラウドサーバにて受信したエントリから選択され返送された、上記音声識別の結果に最もマッチングするエントリを受信するために用いられ、上記第２の制御手段は、上記最もマッチングするエントリに対応するインターフェイス操作を実行するために用いられる。

本発明の１つの好ましい実施例によると、上記第１の取得手段は、さらに、上記音声情報を上記クラウドサーバに送信し、上記クラウドサーバにて上記音声情報を音声識別して返送された上記音声識別の結果を受信するためにも用いられる。

本発明の１つの好ましい実施例によると、上記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、上記第２の制御手段は、上記最もマッチングするエントリ中のカスタマイズされた操作行為情報に基づいて、インターフェイス操作を実行する。

クラウドサーバであって、第２の取得手段とマッチング手段とを含み、上記第２の取得手段は、スマート設備からの音声識別の結果及びエントリを受信するために用いられ、上記音声識別の結果は、上記スマート設備にて受信したユーザの入力した音声情報を音声識別した結果であり、上記エントリは、上記スマート設備が上記音声識別の結果に関連するシーン要素を確定した後に、シーン要素毎にそれぞれに生成した対応のエントリであり、上記マッチング手段は、受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択し、上記最もマッチングするエントリを上記スマート設備に返送して、上記最もマッチングするエントリに対応するインターフェイス操作を上記スマート設備に実行させるために用いられる。

本発明の１つの好ましい実施例によると、上記第２の取得手段は、さらに、スマート設備からの音声識別の結果及びエントリを受信する前に、スマート端末にて送信された上記音声情報を受信し、上記音声情報を音声識別して、上記音声識別の結果を得て、上記スマート設備に返送するためにも用いられる。

本発明の１つの好ましい実施例によると、エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、上記マッチング手段は、上記要素ラベルに基づいて、上記受信したエントリから上記音声識別の結果に最もマッチングするエントリを選択する。

本発明の１つの好ましい実施例によると、上記マッチング手段は、エントリ毎に、上記エントリの要素ラベルと上記音声識別の結果との編集距離をそれぞれに計算し、最小値の編集距離に対応するエントリを上記最もマッチングするエントリとする。

インターフェイススマートインタラクティブ制御システムであって、上記記載されたスマート設備と、上記記載されたクラウドサーバとを含む。

メモリ、プロセッサ及び上記メモリに記憶し上記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、上記プロセッサが上記プログラムを実行する時、上記記載された方法を実現する。

コンピュータプログラムが記憶されているコンピュータ読取り可能な記憶媒体であって、上記プログラムがプロセッサによって実行される時、上記のような方法を実現する。

上記説明から分かるように、本発明の上記技術案によれば、スマート設備は、ユーザに入力された音声情報を受信し、音声識別の結果を取得した後に、音声識別の結果に関連するシーン要素を確定し、シーン要素毎に対応するエントリをそれぞれに生成し、更に音声識別の結果及び生成されたエントリをクラウドサーバに送信し、その後、クラウドサーバにて受信したエントリから選択され返送された、音声識別の結果に最もマッチングするエントリを受信し、更に最もマッチングするエントリに対応するインターフェイス操作を実行することができる。先行技術に比べて、本発明に係る技術案によれば、ユーザに入力された音声情報に基づいてエントリを生成して選択し、更に選択されたエントリに基づいてインターフェイス操作を実行することができ、命令セット中の命令に限定されないので、音声制御の自由度を向上することができる。更に、本発明に係る技術案において、スマート設備にて送信された音声識別の結果に関連するシーン要素に対応するエントリから選別して、音声識別の結果に最もマッチングするエントリを取得するので、マッチング結果がより正しくなり、音声制御の正確性を向上することができる。

本発明に係るインターフェイススマートインタラクティブ制御方法の第１の実施例のフローチャートである。本発明に係るインターフェイススマートインタラクティブ制御方法の第２の実施例のフローチャートである。先行の音声識別過程を示す概要図である。本発明に係るインターフェイススマートインタラクティブ制御方法の第３の実施例のフローチャートである。本発明に係るスマート設備インターフェイスに出現するシーン要素を示す概要図である。本発明に係るスマート設備インターフェイスに表示する８部の映画を示す概要図である。本発明に係るスマート設備の実施例の構成図である。本発明に係るクラウドサーバの実施例の構成図である。本発明の実施形態を実現するために適応する例示的なコンピュータシステム／サーバ１２のブロック図を示す。

本発明の技術案をより明確で簡潔させるために、以下、図面を参照して実施例を挙げて、本発明に係る技術案を更に説明する。

明らかに、記載された実施例は、本発明の実施例の一部だけであり、全ての実施例ではない。本発明における実施例に基づいて、当業者が創造的な労働をしないことを前提として獲得できる他の実施例は、いずれも本発明の保護範囲に属する。

図１は、本発明に係るインターフェイススマートインタラクティブ制御方法の第１の実施例のフローチャートである。実際の応用において、図１に示すように、スマート設備をフローの実行本体とすることができる。図１に示すように、以下の具体的な実現方式を含む。

１０１において、ユーザに入力された音声情報を受信し、音声識別の結果を取得する。

ユーザに入力された音声情報を受信した後に、それをクラウドサーバに送信し、クラウドサーバにて受信した音声情報を音声識別して返送された音声識別の結果を取得することができる。

１０２において、音声識別の結果に関連するシーン要素を確定する。

本実施例において、ユーザがシーン要素に対して音声情報を発出する。

シーン要素とは、ユーザがユーザインターフェイス（例えばスクリーン）を持っているスマート設備を使用する時、インターフェイスに表示されたインターフェイス要素及び或る行為等、例えばページターン等の操作である。インターフェイス要素には、ボタン、ラベル、ピクチャ、リスト等を含み、音声でこれらの要素に対する操作を実現することができ、ユーザに入力された音声に基づいて、スマート設備に、インターフェイスにおいて実行可能な操作、例えばあるピクチャに対するクリック、左スライド、右スライド等を実行させることができる。

ユーザに入力された音声情報を音声識別した結果を取得した後に、先ず音声識別の結果に関連するシーン要素を確定する。

どのように音声識別の結果に関連するシーン要素を確定するかは制限されなく、実際の必要に基づいて設定することができ、例えば予め設定された規則に基づいて確定することができる。

例えば、インターフェイスに８部の映画を表示しており、映画がポスターの形式で表示されており、ユーザに入力された音声情報がその中の１部の映画の名称であれば、この８部の映画を関連するシーン要素とそれぞれにすることができる。

また、関連するシーン要素が、現在のインターフェイスに表示されているものでもよく、現在のインターフェイスに表示されていないものでもよい。

例えば、現在のインターフェイスがマスターインターフェイスであり、３個のシーン要素である映画、音楽及び応用がそれぞれに１つのサブインターフェイスに対応し、３個のシーン要素がカスタマイズされた行為であり、マスターインターフェイスに表示されておらず、ユーザに入力された音声情報が「映画を見る」であれば、映画、音楽及び応用を関連するシーン要素とそれぞれにすることができる。

１０３において、シーン要素毎に、対応するエントリをそれぞれに生成し、音声識別の結果及び生成されたエントリをクラウドサーバに送信する。

関連するシーン要素毎に、対応するエントリをそれぞれに生成する必要がある。

エントリには、要素ラベル（ｌａｂｅｌ）及び対応するカスタマイズされた操作行為情報（ｕｒｌ）等をそれぞれに含む。

ただし、ｌａｂｅｌが、インターフェイスウィジェット上の要素ラベル、例えばインターフェイスにおける操作可能な要素ラベルであってもよく、カスタマイズされた操作ラベル等であってもよい。

例えば、インターフェイスにおける操作可能な要素ラベルが、インターフェイスに表示された映画の名称等であり、カスタマイズされた操作ラベルが、ユーザにカスタマイズされた操作の名称等である。

ｕｒｌがカスタマイズされた操作行為情報であり、スマート設備端の行為を示し、ユーザにカスタマイズされた任意な文字であり、スマート設備がその意味を識別できればよい。

１０４において、クラウドサーバにて返送された、受信したエントリから選択された音声識別の結果に最もマッチングするエントリを受信する。

クラウドサーバは、音声識別の結果及び生成されたエントリを受信した後に、ｌａｂｅｌに基づいて、受信したエントリから音声識別の結果に最もマッチングするエントリを選択し、更に最もマッチングするエントリを返送することができる。

例えば、クラウドサーバは、エントリ毎に、該エントリの要素ラベルと音声識別の結果との編集距離をそれぞれに計算し、更に最小値の編集距離に対応するエントリを最もマッチングするエントリとすることができる。

１０５において、最もマッチングするエントリに対応するインターフェイス操作を実行する。

最もマッチングするエントリを取得した後に、最もマッチングするエントリにおけるｕｒｌに基づいてインターフェイス操作を実行し、即ち最もマッチングするエントリにおけるｕｒｌに基づいて処理を行い、ユーザの制御操作を実現することができる。

図２は、本発明に係るインターフェイススマートインタラクティブ制御方法の第２の実施例のフローチャートである。実際の応用において、図２に示すように、クラウドサーバをフローの実行本体とすることができる。図２に示すように、以下の具体的な実現方式を含む。

２０１において、スマート設備からの音声識別の結果及びエントリを受信し、ただし、上記音声識別の結果は、ユーザに入力されスマート設備が受信した音声情報を音声識別して取得した結果であり、上記エントリは、スマート設備が音声識別の結果に関連するシーン要素を確定した後、シーン要素毎にそれぞれに生成した対応のエントリである。

スマート設備は、ユーザに入力された音声情報を受信した後に、それをクラウドサーバに送信し、更にクラウドサーバは、受信した音声情報を音声識別して音声識別の結果を得て、音声識別の結果をスマート設備に返送する。

図３は、先行の音声識別過程の概要図である。図３に示すように、オーディオデータを収集した後に、それに対して特徴抽出を行い、その後、抽出されたオーディオ特徴を特定のデコーダに入力してデコードを行うことで、音声識別の結果を得ることができる。デコーダにおけるデコードの過程において、音声学モデル、言葉モデルと発音辞書を使用することができる。音声学モデルの主な作用が、オーディオ特徴を音節に変換することであり、言葉モデルの主な作用が、音節をテキストに変換することであり、発音辞書は、音節からテキストへのマッピング表を提供するものである。

ただし、オーディオデータの収集過程において、音の效果は、設備性能の差異、音源から設備までの距離、設備が単マイクを支持するか又はマイクアレイを支持するか等によって変化する。全体的に、録音設備の性能がよいほど、音源から設備までの距離が短いほど、単マイクでなく効率的なマイクアレイを採用すると、特徴がより完全でより認識しやすいオーディオデータを得ることができる。

また、収集されたオーディオデータは、ある問題が存在して、直接に識別することができない可能性がある。例えば、ハンズフリー又は会議という応用シーンにおいて、スピーカの音がマイクに数回フィードバックされ、この場合、マイクに収集されたオーディオデータにおいて音声学回声が発生し、エコーキャンセル（ＡＥＣ，ＡｃｏｕｓｔｉｃＥｃｈｏＣａｎｃｅｌｌａｔｉｏｎ）とのアルゴリズムを使用してエコーをキャンセルする必要があり、また例えば、特定の環境（例えば走行の車両中）で収集されたオーディオデータには特定な噪音が含み、このとき、収集されたオーディオデータに対してノイズ低減（ＮＳ，ＮｏｉｓｅＳｕｐｐｒｅｓｓｉｏｎ）処理を行い、即ちノイズ低減アルゴリズムを利用して環境噪音を消除する必要がある。

２０２において、受信したエントリから音声識別の結果に最もマッチングするエントリを選択し、最もマッチングするエントリをスマート設備に返送して、最もマッチングするエントリに対応するインターフェイス操作をスマート設備に実行させる。

上記記載されたように、エントリにはｌａｂｅｌ及び対応するｕｒｌ等をそれぞれに含むことができる。

ｌａｂｅｌに基づいて、受信したエントリから音声識別の結果に最もマッチングするエントリを選択することができる。

例えば、エントリ毎に、それぞれに該エントリのｌａｂｅｌと音声識別の結果との編集距離を計算し、更に最小値の編集距離に対応するエントリを最もマッチングするエントリとすることができる。

好ましく、最小値の編集距離を取得した後に、最小値の編集距離と予め設定された閾値とを比較し、最小値の編集距離が閾値以下であれば、最小値の編集距離に対応するエントリを最もマッチングするエントリとすることもできる。

実際の必要に基づいて上記閾値の具体的な値を設定することができ、最もマッチングするエントリを取得できなければ、ＮＵＬＬの結果をスマート設備に返送することができる。

また、エントリには、更に、シーン要素が位置する行列位置を示すｘ値及びｙ値と、シーン要素の配列番号を示すｉｎｄｅｘ値との中の１つ或いは全部をそれぞれに含むことができ、相応的に、ｘ値及びｙ値、又はｉｎｄｅｘ値に基づいて、受信したエントリから音声識別の結果に最もマッチングするエントリを選択することもできる。

スマート設備は、非ＮＵＬＬのエントリを受信したら、受信したエントリに対応するインターフェイス操作を実行し、即ちエントリにおけるｕｒｌに基づいて処理を行って、ユーザの制御操作を実現することができる。

上記説明に基づいて、図４は、本発明に係るインターフェイススマートインタラクティブ制御方法の第３の実施例のフローチャートである。図４に示すように、以下の具体的な実現方式を含む。

４０１において、スマート設備は、ユーザに入力された音声情報を受信し、クラウドサーバに送信する。

ユーザは、マイク近接場音声入力又はマイクアレイ遠方場音声入力等の方式によって、音声情報を入力することができる。

４０２において、クラウドサーバは、受信された音声情報を音声識別して、音声識別の結果を得て、スマート設備に返送する。

音声識別によって、音声情報を対応するテキスト情報に変換することができる。

４０３において、スマート設備は、音声識別の結果に関連するシーン要素を確定する。

一般、関連するシーン要素の個数は複数である。

４０４において、スマート設備は、シーン要素毎に対応するエントリをそれぞれに生成し、音声識別の結果及び生成されたエントリをクラウドサーバに送信する。

エントリにはｌａｂｅｌ及びｕｒｌ等をそれぞれに含む。

４０５において、クラウドサーバは、受信したエントリから音声識別の結果に最もマッチングするエントリを選択し、最もマッチングするエントリをスマート設備に返送する。

例えば、クラウドサーバは、エントリ毎に、該エントリのｌａｂｅｌと音声識別の結果との間の編集距離をそれぞれに計算し、更に最小値の編集距離に対応するエントリを最もマッチングするエントリとすることができる。

４０６において、スマート設備は、最もマッチングするエントリに対応するインターフェイス操作を実行する。

スマート設備は、受信したエントリにおけるｕｒｌに基づいて処理を行い、ユーザの制御操作を実現する。

注意すべきことは、前述各方法の実施例に関して、説明を簡単させるために、それを一連の動作の組み合わせとして表現したが、本開示によれば、あるステップが他の順序でまたは同時に行うことができるので、当業者であれば、本開示は記述された動作の順序によって制限されないことを理解すべきことである。そして、明細書に記載された実施例はいずれも好ましい実施例であり、係る操作及びモジュールが、本発明にとっては必ずしも必要とは限らないことが、当業者であれば理解すべきである。

上記実施例において、各実施例に関する説明にはいずれも自分の重点があり、ある実施例において詳述していない部分が、他の実施例にかかる説明を参照できる。

以下、具体的な応用シーンによって、本発明に係る技術案を更に説明する。
１）シーン１

仮に映画、音楽及び応用という３つのシーン要素があり、シーン要素毎が１つのサブインターフェイスにそれぞれに対応する。このような３つのシーン要素が、カスタマイズされた行為であり、インターフェイスに表示されていない。

仮にユーザに入力された音声情報が「映画を見る」であり、スマート設備は、クラウドサーバに返送された音声識別の結果である「映画を見る」を受信した後に、クラウドサーバに３つのエントリを送信し、エントリには１つのｌａｂｅｌ及び対応する１つのｕｒｌをそれぞれに含み、音声識別の結果をクラウドサーバに送信する。ただし、ｌａｂｅｌの内容は、それぞれが映画、音楽及び応用であり、ｕｒｌの内容をカスタマイズすることができ、例えばＧｏＴｏＭｏｖｉｅ、ＧｏＴｏＭｕｓｉｃ、ＧｏＴｏＡｐｐｓと定義することができる。クラウドサーバは、音声識別の結果である「映画を見る」とエントリ毎におけるｌａｂｅｌとをマッチングして、最もマッチングするエントリを選択する。

スマート設備がクラウドサーバに送信する内容は、次のようにすることができる（ｊｓｏｎデータフォーマットを例とする）。
｛
"ｑｕｅｒｙ"："映画を見る"，
"ｉｔｅｍｓ"：［
｛
"ｌａｂｅｌ"："映画"，
"ｕｒｌ"："ＧｏＴｏＭｏｖｉｅ"
｝，
｛
"ｌａｂｅｌ"："音楽"，
"ｕｒｌ"："ＧｏＴｏＭｕｓｉｃ"
｝，
｛
"ｌａｂｅｌ"："応用"，
"ｕｒｌ"："ＧｏＴｏＡｐｐｓ"
｝
］
｝
クラウドサーバにスマート設備に返送される内容は、次のようにすることができる。
｛
"ｌａｂｅｌ"："映画"，
"ｕｒｌ"："ＧｏＴｏＭｏｖｉｅ"
｝

スマート設備が上記ｕｒｌを取得した後に、対応する操作だけを実行すればよく、対応するインターフェイスに遷移する。

上記の３つのシーン要素は、図５に示すように、スマート設備インターフェイスに見えるシーン要素であってもよく、図５は、本発明に係るスマート設備インターフェイスに見えるシーン要素の概要図である。

この場合、ｕｒｌを、映画、音楽及び応用のインターフェイスにおけるｉｄと定義することができ、スマート設備は最もマッチングするエントリにおけるｕｒｌを取得した後に、直接にこのｉｄに対応するラベルを模擬的にクリックすればよい。
２）シーン２

仮にスマート設備インターフェイスには８部の映画を表示し、図６に示すように、映画がポスターの形式で表示されており、図６は、本発明に係るスマート設備インターフェイスに表示する８部の映画の概要図である。

ユーザは、音声でその中の１部の映画の名称を話すことができ、スマート設備は、クラウドサーバにて返送された音声識別の結果を受信した後に、クラウドサーバに８個のエントリを送信し、エントリには１つのｌａｂｅｌ及び対応する１つのｕｒｌをそれぞれに含み、音声識別の結果をクラウドサーバに送信する。ただし、ｌａｂｅｌの内容はそれぞれが映画毎の名称であり、ｕｒｌの内容は映画の再生アドレスである。クラウドサーバは、音声識別の結果とエントリそれぞれのｌａｂｅｌとをマッチングし、選択された最もマッチングするエントリをスマート設備に返送する。スマート設備は、受信したエントリにおけるｕｒｌに基づいて直接に映画を再生すればよく、新たに映画を捜索する必要がなく、より正確にユーザの再生意図を実現することができる。

スマート設備がクラウドサーバに送信する内容は、次のようにすることができる。
｛
"ｑｅｕｒｙ"："映画１"，
"ｉｔｅｍｓ"：［
｛
"ｌａｂｅｌ"："映画１"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ１"
｝，
｛
"ｌａｂｅｌ"："映画２"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ２"
｝，
｛
"ｌａｂｅｌ"："映画３"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ３"
｝，
｛
"ｌａｂｅｌ"："映画４"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ４"
｝，
｛
"ｌａｂｅｌ"："映画５"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ５"
｝，
｛
"ｌａｂｅｌ"："映画６"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ６"
｝，
｛
"ｌａｂｅｌ"："映画７"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ７"
｝，
｛
"ｌａｂｅｌ"："映画８"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ８"
｝
］
｝

クラウドサーバにスマート設備に返送される内容は、次のようにすることができる。
｛
"ｌａｂｅｌ"："映画１"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ１"
｝

シーン１及びシーン２において、クラウドサーバは、最もマッチングするエントリを選択する時、エントリ毎に、該エントリのｌａｂｅｌと音声識別の結果との編集距離をそれぞれに計算し、更に最小値の編集距離に対応するエントリを最もマッチングするエントリとすることができる。

具体的に、ｌａｂｅｌの文字と音声識別の結果の文字との編集距離、又は、ｌａｂｅｌのピンインと音声識別の結果のピンインとの編集距離を計算することができる。

編集距離（ＥｄｉｔＤｉｓｔａｎｃｅ）はＬｅｖｅｎｓｈｔｅｉｎ距離とも呼ばれ、２つの文字列の間に、１つの文字列からもう1つの文字列に変換するために必要な最少の編集操作回数である。許可された編集操作には、１つの文字を他の１つの文字に置換することと、１つの文字を插入することと、１つの文字を削除することとを含む。一般的に、編集距離が小さいほど、２つの文字列の類似度が大きい。

実際の応用において、エントリにはｌａｂｅｌ及びｕｒｌの以外、更に他の内容、例えば、ｘ値及びｙ値、ｉｎｄｅｘ値等を含むことができ、相応的に、ｘ値及びｙ値又はｉｎｄｅｘ値等に基づいてマッチングしてもよく、例えばシーン３に示す。
３）シーン３

仮にスマート設備インターフェイスに８部の映画を表示し、図６に示すように、映画はポスターの形式で表示されている。

ユーザは音声で「2行目１番目」という内容を発出し、スマート設備は、クラウドサーバにて返送された音声識別の結果を受信した後に、クラウドサーバに８個のエントリを送信し、エントリにはｌａｂｅｌ、対応するｕｒｌ、ｘ値及びｙ値、ｉｎｄｅｘ値等をそれぞれに含み、音声識別の結果をクラウドサーバに送信する。ただし、ｌａｂｅｌの内容がそれぞれに映画毎の名称であり、ｕｒｌには映画の再生アドレスを含み、ｘ値及びｙ値が映画が位置する行列位置を示し、例えば、ｘ値が行を示し、ｙ値が列を示し、ｉｎｄｅｘ値が映画の配列番号等を示す。クラウドサーバは、ｘ値及びｙ値に基づいて最もマッチングするエントリを選択し、スマート設備に返送することができる。スマート設備は、受信したエントリにおけるｕｒｌに基づいて、直接に映画を再生すればよい。

スマート設備がクラウドサーバに送信する内容は、次のようにすることができる。
｛
"ｑｕｅｒｙ"：２行目１番目，
"ｉｔｅｍｓ"：［
｛
"ｌａｂｅｌ"："映画１"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ１"，"ｘ"：１，"ｙ"：１，"ｉｎｄｅｘ"：１
｝，
｛
"ｌａｂｅｌ"："映画２"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ２"，"ｘ"：１，"ｙ"：２，"ｉｎｄｅｘ"：２
｝，
｛
"ｌａｂｅｌ"："映画３"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ３"，"ｘ"：１，"ｙ"：３，"ｉｎｄｅｘ"：３
｝，
｛
"ｌａｂｅｌ"："映画４"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ４"，"ｘ"：１，"ｙ"：４，"ｉｎｄｅｘ"：４
｝，
｛
"ｌａｂｅｌ"："映画５"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ５"，"ｘ"：２，"ｙ"：１，"ｉｎｄｅｘ"：５
｝，
｛
"ｌａｂｅｌ"："映画６"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ６"，"ｘ"：２，"ｙ"：２，"ｉｎｄｅｘ"：６
｝，
｛
"ｌａｂｅｌ"："映画７"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ７"，"ｘ"：２，"ｙ"：３，"ｉｎｄｅｘ"：７
｝，
｛
"ｌａｂｅｌ"："映画８"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ８"，"ｘ"：２，"ｙ"：４，"ｉｎｄｅｘ"：８
｝
］
｝

クラウドサーバにスマート設備に返送される内容は、次のようにすることができる。
｛
"ｌａｂｅｌ"："映画５"，
"ｕｒｌ"："ｗｗｗ．ｘｘｘ．ｃｏｍ／ｍｏｖｉｅ５"，"ｘ"：２，"ｙ"：１，"ｉｎｄｅｘ"：５
｝

また、ユーザに入力された音声が「＊番目」であれば、ｉｎｄｅｘ値に基づいて対応するエントリを選択することができる。

実際の応用において、システムはシーン２において説明された映画名称によってエントリをマッチングする方式しか支持しなければ、生成されたエントリにはｌａｂｅｌ及びｕｒｌだけを含んで良く、シーン３において説明した「2行目１番目」及び「＊番目」等によってエントリをマッチングする方式を同時に支持すれば、生成されたエントリにはｘ値とｙ値及びｉｎｄｅｘ値等もさらに含む必要がある。

要するに、上記各方法の実施例に係る技術案において、ユーザに入力された音声情報に基づいてエントリを生成して選択し、更に選択されたエントリに基づいてインターフェイス操作を実行することができ、命令セット中の命令に限定されないので、音声制御の自由度を向上することができる。更に、上記各方法の実施例に係る技術案において、スマート設備に送信された音声識別の結果に関連するシーン要素に対応するエントリから選別して、音声識別の結果に最もマッチングするエントリを取得するので、マッチング結果がより正しくなり、音声制御の正確性を向上することができる。

以上は方法に関する実施例の説明であり、以下、装置の実施例によって本発明に係る技術案を更に説明する。

図７は、本発明の上記のスマート設備の実施例の構成図である。図７に示すように、第１の取得手段７０１、第１の制御手段７０２及び第２の制御手段７０３を含む。

第１の取得手段７０１は、ユーザに入力された音声情報を受信し、音声識別の結果を取得するために用いられる。

第１の制御手段７０２は、音声識別の結果に関連するシーン要素を確定し、シーン要素毎に対応するエントリをそれぞれに生成し、音声識別の結果及びエントリをクラウドサーバに送信し、クラウドサーバにて受信したエントリから選択され返送された、音声識別の結果に最もマッチングするエントリを受信するために用いられる。

第２の制御手段７０３は、最もマッチングするエントリに対応するインターフェイス操作を実行するために用いられる。

第１の取得手段７０１は、ユーザに入力された音声情報を受信した後に、それをクラウドサーバに送信し、クラウドサーバにて受信した音声情報を音声識別して返送された音声識別の結果を取得することができる。

その後に、第１の制御手段７０２は、音声識別の結果に関連するシーン要素を確定することができる。

シーン要素とは、ユーザがユーザインターフェイス（例えばスクリーン）を持っているスマート設備を使用する時、インターフェイスに表示されたインターフェイス要素及び或る行為等、例えばページターン等の操作である。インターフェイス要素には、ボタン、ラベル、ピクチャ、リスト等を含み、音声でこれらの要素に対する操作を実現することができ、ユーザに入力された音声に基づいて、インターフェイスに実行可能な操作、例えばあるピクチャに対するクリック、左スライド、右スライド等をスマート設備に実行させることができる。

第１の制御手段７０２は、シーン要素毎に対応するエントリをそれぞれに生成し、音声識別の結果及び生成されたエントリをクラウドサーバに送信する必要もある。

エントリには、要素ラベル（ｌａｂｅｌ）及び対応するカスタマイズされた操作行為情報（ｕｒｌ）等をそれぞれ含むことができる。

クラウドサーバは、スマート設備からの音声識別の結果及び生成されたエントリを受信した後に、ｌａｂｅｌに基づいて、受信したエントリから音声識別の結果に最もマッチングするエントリを選択し、更に最もマッチングするエントリを返送することができる。

これに対応して、第２の制御手段７０３は、最もマッチングするエントリにおけるｕｒｌに基づいて、インターフェイス操作を実行することができる。

図８は、本発明に係るクラウドサーバの実施例の構成図である。図８に示すように、第２の取得手段８０１及びマッチング手段８０２を含む。

第２の取得手段８０１は、スマート設備からの音声識別の結果及びエントリを受信するために用いられ、ただし、音声識別の結果は、スマート設備にて受信されたユーザの入力した音声情報を音声識別した結果であり、エントリは、スマート設備が音声識別の結果に関連するシーン要素を確定した後に、シーン要素毎にそれぞれに生成した対応のエントリである。

マッチング手段８０２は、受信したエントリから音声識別の結果に最もマッチングするエントリを選択し、最もマッチングするエントリをスマート設備に返送するために用いられ、スマート設備に最もマッチングするエントリに対応するインターフェイス操作を実行させる。

ただし、第２の取得手段８０１は、スマート設備からの音声識別の結果及びエントリを受信する前に、スマート端末が送信した音声情報を受信し、音声情報を音声識別して音声識別の結果を得て、スマート設備に返送することもできる。

エントリにはｌａｂｅｌ及び対応するｕｒｌ等をそれぞれ含む。

マッチング手段８０２は、ｌａｂｅｌに基づいて、受信したエントリから音声識別の結果に最もマッチングするエントリを選択することができる。

例えば、マッチング手段８０２は、エントリ毎に、該エントリのｌａｂｅｌと音声識別の結果との編集距離をそれぞれに計算し、更に最小値の編集距離に対応するエントリを最もマッチングするエントリとすることができる。

また、エントリには、さらに、シーン要素が位置する行列位置を示すｘ値及びｙ値と、シーン要素の配列番号を示すｉｎｄｅｘ値との中の１つ或いは全部をぞれぞれに含むことができる。

相応的に、マッチング手段８０２は、ｘ値及びｙ値に基づいて、又はｉｎｄｅｘ値に基づいて、受信したエントリから音声識別の結果に最もマッチングするエントリを選択することもできる。

図７及び図８に示す装置の実施例の具体的な動作フローは、前述各方法の実施例における該当の説明を参照でき、その説明を省略する。

また、実際の応用において、図８に示すように、サーバを更に２つのサーバに分割することができ、その中の１つが音声識別を実行することに用いられ、もう１つがマッチング等の操作を実行することに用いられ、具体的な実現方式は限定されない。

また、本発明は、図７に示すような実施例におけるスマート設備及び図８に示すような実施例におけるクラウドサーバを含むインターフェイススマートインタラクティブ制御システムを同時に開示し、具体的な実現の説明を省略する。

図9は、本発明の実施形態を実現することに適する、例示的なコンピュータシステム／サーバ１２のブロック図を示す。図9に示したコンピュータシステム／サーバ１２が１つの例だけであり、本発明の実施例の機能及び使用範囲を限制するためのものではない。

図9に示すように、コンピュータシステム／サーバ１２は、汎用演算設備の形態で表現される。コンピュータシステム／サーバ１２の構成要素には、１つ又は複数のプロセッサ（処理手段）１６と、メモリ２８と、異なるシステム構成要素（メモリ２８とプロセッサ１６とを含む）を接続するためのバス１８を含んでいるが、これに限定されない。

バス１８は、複数種類のバス構成の中の１つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構には、工業標準架構（ＩＳＡ）バス、マイクロチャンネル架構（ＭＡＣ）バス、増強型ＩＳＡバス、ビデオ電子規格協会（ＶＥＳＡ）ローカルバス及び周辺コンポーネント接続（ＰＣＩ）バスを含んでいるが、これに限定されない。

コンピュータシステム／サーバ１２には、典型的には複数の種類のコンピュータシステムが読取り可能な媒体を含む。それらの媒体は、コンピュータシステム／サーバ１２にアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。

メモリ２８には、揮発性メモリ形式のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ（ＲＡＭ）３０及び／又はキャッシュメモリ３２を含むことができる。コンピュータシステム／サーバ１２には、更に他の移動可能／移動不可なコンピュータシステム記憶媒体や揮発性／不揮発性のコンピュータシステム記憶媒体を含むことができる。例として、記憶システム３４は、移動不可能な不揮発性磁媒体を読み書くために用いられる（図9に示していないが、常に「ハードディスクドライブ」とも呼ばれる）。図9に示していないが、移動可能な不揮発性磁気ディスク（例えば「フレキシブルディスク」）に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク（例えばＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又は他の光媒体）に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、ぞれぞれ１つ又は複数のデータ媒体インターフェースによってバス１８に接続される。メモリ２８には少なくとも１つのプログラム製品を含み、該プログラム製品には１組の（例えば少なくとも１つの）プログラムモジュールを含み、それらのプログラムモジュールは、本発明の各実施例の機能を実行するように配置される。

１組の（少なくとも１つの）プログラムモジュール４２を含むプログラム／実用ツール４０は、例えばメモリ２８に記憶され、このようなプログラムモジュール４２には、オペレーティングシステム、１つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示での１つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール４２は、常に本発明に記載されている実施例における機能及び／又は方法を実行する。

コンピュータシステム／サーバ１２は、１つ又は複数の周辺設備１４（例えば、キーボード、ポインティングデバイス、ディスプレイ２４等）と通信を行ってもよく、ユーザと該コンピュータシステム／サーバ１２とのインタラクティブを実現できる１つ又は複数の設備と通信を行ってもよく、及び／又は該コンピュータシステム／サーバ１２と１つ又は複数の他の演算設備との通信を実現できる任意の設備（例えばネットワークカード、モデム等）と通信を行っても良い。このような通信は入力／出力（Ｉ／Ｏ）インターフェース２２によって行うことができる。そして、コンピュータシステム／サーバ１２は、ネットワークアダプタ２０によって１つ又は複数のネットワーク（例えば、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）及び／又は公衆回線網、例えばインターネット）と通信を行っても良い。図9に示すように、ネットワークアダプタ２０は、バス１８によってコンピュータシステム／サーバ１２の他のモジュールと通信を行う。図に示していないが、コンピュータシステム／サーバ１２と連携して他のハードウェア及び／又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、ＲＡＩＤシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。

プロセッサ１６は、メモリ２８に記憶されているプログラムを実行することで、各々機能応用及びデータ処理を実行し、例えば図１、図２又は図４に示す実施例における方法を実現し、即ち、ユーザに入力された音声情報を受信し、音声識別の結果を取得し、音声識別の結果に関連するシーン要素を確定し、シーン要素毎に対応するエントリをそれぞれに生成し、音声識別の結果及びエントリをクラウドサーバに送信し、クラウドサーバにて受信したエントリから選択され返送された、音声識別の結果に最もマッチングするエントリを受信し、最もマッチングするエントリに対応するインターフェイス操作を実行する。

具体的な実現過程は、前述各実施例における該当の説明を参照でき、その説明を省略する。

本発明には、コンピュータプログラムが記憶されているコンピューター読み取りな可能な記憶媒体を同時に開示し、該プログラムがプロセッサによって実行される時、図１、図２又は図４に示す実施例における方法を実現する。

１つ又は複数のコンピューター読み取りな可能な媒体の任意な組合を採用しても良い。コンピューター読み取りな可能な媒体は、コンピューター読み取りな可能な信号媒体又はコンピューター読み取りな可能な記憶媒体である。コンピューター読み取りな可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピューターが読み取りな可能な記憶媒体の更なる具体的な例（網羅していないリスト）には、１つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュ）、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピューターが読み取りな可能な記憶媒体は、プログラムを含む又は記憶する任意な有形媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されるができる。

コンピューター読み取りな可能な信号媒体には、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの一部として伝搬されるデータ信号を含み、それにコンピューターが読み取りな可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含んでいるが、これに限定されない。コンピューター読み取りな可能な信号媒体は、コンピューター読み取りな可能な記憶媒体以外の任意なコンピューター読み取りな可能な媒体であってもよく、該コンピューター読み取りな可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は転送できる。

コンピューター読み取りな可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって転送されてもよく、無線、電線、光ケーブル、ＲＦ等、又は上記ものの任意で適当な組合が含されているが、これに限定されない。

１つ又は複数の種類のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、上記プログラミング言語には、オブジェクト向けのプログラミング言語、例えばＪａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋が含まれ、通常のプロシージャ向けプログラミング言語、例えば「Ｃ」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、１つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる（例えば、インターネットサービス事業者を利用してインターネットを介して接続できる）。

本発明に開示されたいくつの実施例で開示された装置および方法などが、他の手段によって実現できることを理解すべきだ。例えば、上述の装置に関する実施形態は例示だけであり、例えば、上記手段の区分がロジック機能上の区分だけであり、実際的に実現する時、他の区分方式であってもよい。

上記の分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、１つの箇所に位置してもよく、又は複数のネットワークセルに分布されても良い。実際の必要に基づいて、その中の部分又は全部を選択して、本実施例の態様の目的を実現できる。

また、本発明の各実施例における各機能手段が、１つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、２つ又は２つ以上の手段が１つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア＋ソフトウェア機能手段の形式で実現しても良い。

上記ソフトウェア機能手段の形式で実現する集積された手段は、１つのコンピューター読み取りな可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は１つの記憶媒体に記憶されており、１台のコンピュータ設備（パソコン、サーバ、又はネットワーク設備等）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に本発明の各実施例に記載された方法の一部の手順を実行させるための若干の命令を含む。前述の記憶媒体には、ＵＳＢメモリ、リムーバブルハードディスク、リードオンリーメモリ（ＲＯＭ，Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ，ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等の、プログラムコードを記憶できる媒体を含む。

以上の説明は、本発明の好ましい例示だけであり、本発明を限定するものではなく、本発明の主旨及び原則の範囲で実行したいずれの修正、等価置換、改良なども、全部本発明の保護する範囲に属すべきである。

Claims

インターフェイススマートインタラクティブ制御方法であって、
ユーザに入力された音声情報を受信し、音声識別の結果を取得することと、
前記音声識別の結果に関連するシーン要素を確定することであって、前記シーン要素は現在のインターフェイスに表示されていないカスタマイズされた行為を含む、ことと、
シーン要素毎に対応するエントリをそれぞれに生成し、前記音声識別の結果及び前記エントリをクラウドサーバに送信することと、
前記クラウドサーバにて受信したエントリから選択され返送された、前記音声識別の結果に最もマッチングするエントリを受信することと、
前記カスタマイズされた行為を実現させるように、前記最もマッチングするエントリに対応するインターフェイス操作を実行することと、を含む、インターフェイススマートインタラクティブ制御方法。
前記音声識別の結果を取得することは、
前記音声情報を前記クラウドサーバに送信することと、
前記クラウドサーバが前記音声情報を音声識別して返送した前記音声識別の結果を受信することと、を含む、請求項１に記載のインターフェイススマートインタラクティブ制御方法。
前記シーン要素毎に対応するエントリをそれぞれに生成することにおいて、
前記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、
前記最もマッチングするエントリに対応するインターフェイス操作を実行することは、
前記最もマッチングするエントリにおけるカスタマイズされた操作行為情報に基づいて、インターフェイス操作を実行すること、を含む、請求項１に記載のインターフェイススマートインタラクティブ制御方法。
インターフェイススマートインタラクティブ制御方法であって、
スマート設備からの音声識別の結果及びエントリを受信することであって、前記音声識別の結果は、前記スマート設備にて受信されたユーザの入力した音声情報を音声識別した結果であり、前記エントリは、前記スマート設備が前記音声識別の結果に関連するシーン要素を確定した後に、シーン要素毎にそれぞれに生成した対応のエントリであり、前記シーン要素は現在のインターフェイスに表示されていないカスタマイズされた行為を含む、ことと、
前記カスタマイズされた行為を実現させるように、前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択し、前記最もマッチングするエントリを前記スマート設備に返送して、前記最もマッチングするエントリに対応するインターフェイス操作を前記スマート設備に実行させることと、を含む、
インターフェイススマートインタラクティブ制御方法。
前記スマート設備からの音声識別の結果及びエントリを受信する前に、さらに
スマート端末にて送信された前記音声情報を受信することと、
前記音声情報を音声識別して前記音声識別の結果を得て、前記スマート設備に返送することと、を含む、請求項４に記載のインターフェイススマートインタラクティブ制御方法。
前記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、
前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択することは、
前記要素ラベルに基づいて、前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択すること、を含む、請求項４に記載のインターフェイススマートインタラクティブ制御方法。
前記要素ラベルに基づいて、前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択することは、
エントリ毎に、前記エントリの要素ラベルと前記音声識別の結果との編集距離をそれぞれに計算することと、
最小値の編集距離に対応するエントリを前記最もマッチングするエントリとすることと、を含む、請求項６に記載のインターフェイススマートインタラクティブ制御方法。
前記エントリには、さらに、シーン要素が位置する行列位置を示すｘ値及びｙ値と、シーン要素の配列番号を示すｉｎｄｅｘ値との中の1つ或いは全部をそれぞれに含み、
前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択することは、
前記ｘ値及びｙ値に基づいて、又は前記ｉｎｄｅｘ値に基づいて、前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択することを、含む、請求項６に記載のインターフェイススマートインタラクティブ制御方法。
スマート設備であって、第１の取得手段と、第１の制御手段と、第２の制御手段とを含み、
前記第１の取得手段は、ユーザに入力された音声情報を受信し、音声識別の結果を取得するために用いられ、
前記第１の制御手段は、前記音声識別の結果に関連する、現在のインターフェイスに表示されていないカスタマイズされた行為を含むシーン要素を確定し、シーン要素毎に対応するエントリをそれぞれに生成し、前記音声識別の結果及び前記エントリをクラウドサーバに送信し、前記クラウドサーバにて受信したエントリから選択され返送された、前記音声識別の結果に最もマッチングするエントリを受信するために用いられ、
前記第２の制御手段は、前記カスタマイズされた行為を実現させるように、前記最もマッチングするエントリに対応するインターフェイス操作を実行するために用いられる、
スマート設備。
前記第１の取得手段は、さらに、
前記音声情報を前記クラウドサーバに送信し、
前記クラウドサーバにて前記音声情報を音声識別して返送された前記音声識別の結果を受信するためにも用いられる、請求項９に記載のスマート設備。
前記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、
前記第２の制御手段は、前記最もマッチングするエントリ中のカスタマイズされた操作行為情報に基づいて、インターフェイス操作を実行する、請求項９に記載のスマート設備。
クラウドサーバであって、第２の取得手段とマッチング手段とを含み、
前記第２の取得手段は、スマート設備からの音声識別の結果及びエントリを受信するために用いられ、前記音声識別の結果は、前記スマート設備にて受信したユーザの入力した音声情報を音声識別した結果であり、前記エントリは、前記スマート設備が前記音声識別の結果に関連するシーン要素を確定した後に、シーン要素毎にそれぞれに生成した対応のエントリであり、前記シーン要素は現在のインターフェイスに表示されていないカスタマイズされた行為を含み、
前記マッチング手段は、前記カスタマイズされた行為を実現させるように、受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択し、前記最もマッチングするエントリを前記スマート設備に返送して、前記最もマッチングするエントリに対応するインターフェイス操作を前記スマート設備に実行させるために用いられる、
クラウドサーバ。
前記第２の取得手段は、さらに、
スマート設備からの音声識別の結果及びエントリを受信する前に、
スマート端末にて送信された前記音声情報を受信し、
前記音声情報を音声識別して、前記音声識別の結果を得て、前記スマート設備に返送するためにも用いられる、請求項１２に記載のクラウドサーバ。
前記エントリには、要素ラベル及び対応するカスタマイズされた操作行為情報をそれぞれに含み、
前記マッチング手段は、前記要素ラベルに基づいて、前記受信したエントリから前記音声識別の結果に最もマッチングするエントリを選択する、請求項１２に記載のクラウドサーバ。
前記マッチング手段は、エントリ毎に、前記エントリの要素ラベルと前記音声識別の結果との編集距離をそれぞれに計算し、最小値の編集距離に対応するエントリを前記最もマッチングするエントリとする、請求項１４に記載のクラウドサーバ。
インターフェイススマートインタラクティブ制御システムであって、
請求項９〜１１の中のいずれか１項に記載されたスマート設備と、請求項１２〜１５の中のいずれか１項に記載されたクラウドサーバとを含む、インターフェイススマートインタラクティブ制御システム。
メモリ、プロセッサ及び前記メモリに記憶し前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、
前記プロセッサが前記プログラムを実行する時、請求項１〜３の中のいずれか1項に記載された方法を実現する、コンピュータ設備。
プロセッサによって実行される時、請求項１〜３の中のいずれか1項に記載された方法を実現する、コンピュータプログラム。
メモリ、プロセッサ及び前記メモリに記憶し前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、
前記プロセッサが前記プログラムを実行する時、請求項４〜８の中のいずれか1項に記載された方法を実現する、コンピュータ設備。
プロセッサによって実行される時、請求項４〜８の中のいずれか1項に記載された方法を実現する、コンピュータプログラム。