JP2019091418A

JP2019091418A - ページを制御する方法および装置

Info

Publication number: JP2019091418A
Application number: JP2018174154A
Authority: JP
Inventors: チャン、ヤン; Yan Zhang; ドゥ、ビンユアン; Binyuan Du; ワン、フェイ; Fei Wang; リー、ジン; Xin Li; チェン、ガオフェイ; Gaofei Cheng
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2017-11-15
Filing date: 2018-09-18
Publication date: 2019-06-13
Anticipated expiration: 2038-09-18
Also published as: CN107919129A; US11221822B2; JP6616473B2; US20190147861A1

Abstract

【課題】音声認識によって端末で表示されるページを制御する方法及び装置を提供する。【解決手段】端末から送信された音声情報と、表示されたページ内の要素の要素情報とを受信する。要素情報は、要素識別子と要素内容情報とを含む。音声情報が表示されたページを制御するためのものであると確定されたことに応じて、音声情報に対して音声認識を行って音声認識結果を取得する。音声認識結果と要素内容情報とをマッチングする。音声認識結果と要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、ページ制御情報を端末に送信して、端末がページ制御情報に基づいて表示されたページを制御する。ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、ターゲット要素は実行待ち操作の対象となる要素である。【選択図】図２

Description

本発明は、コンピュータ技術の分野に関し、特に、インターネット技術の分野に関し、特に、ページを制御する方法および装置に関する。

音声認識技術の急速な発展に伴い、音声制御が様々な端末機器に徐々に適用されている。ユーザは、音声で端末機器を制御することができる。例えば、ユーザは、スマートテレビやスマートフォンなどのスマートデバイスに表示されているコンテンツを音声で制御することができる。現在、スマートデバイス上のＡＰＰ（ａｐｐｌｉｃａｔｉｏｎ、アプリケーション）を制御するために、制御されるＡＰＰは、制御される目的を達成するように、呼び出されるインタフェースを外部に提供する必要がある。または、制御されるＡＰＰは、通信ＳＤＫ（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ソフトウェア開発キット）メカニズムを予め統合して、音声で制御される必要のある機能をＳＤＫの形式で実現すればこそ、制御されることができる。これにより、音声制御の使用される範囲が大幅に制限される。

本発明は、ページを制御する方法および装置を提供する。

第１の態様として、本発明は、ページを制御する方法を提供する。上記方法は、端末から送信された音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とを受信するステップであって、前記要素情報は、要素識別子と要素内容情報とを含む、ステップと、前記音声情報が前記表示されたページを制御するためのものであると確定されたことに応じて、前記音声情報に対して音声認識を行って音声認識結果を取得するステップと、前記音声認識結果と前記少なくとも１つの要素の要素内容情報をマッチングするステップと、前記音声認識結果と前記少なくとも１つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、前記ページ制御情報を端末に送信して、前記端末が前記ページ制御情報に基づいて前記表示されたページを制御するようにするステップであって、前記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、ステップと、を含む。

一部の実施形態において、前記音声認識結果と前記少なくとも１つの要素の要素内容情報をマッチングするステップは、前記少なくとも１つの要素における各要素の要素内容情報に対して、前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定するステップを含む。

一部の実施形態において、前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定するステップは、前記音声認識結果と当該要素の要素内容情報との間の第１の編集距離（ＥｄｉｔＤｉｓｔａｎｃｅ）を算出するステップと、前記第１の編集距離が予め設定された第１の閾値を超えるか否かを確定するステップと、前記第１の編集距離が前記第１の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定するステップと、を含む。

一部の実施形態において、前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と前記少なくとも１つの要素の要素内容情報とのマッチングが成功するか否かを確定するステップは、前記第１の編集距離が上記第１の閾値を超えると確定されたことに応じて、前記音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第２の編集距離を算出する、ステップと、前記第２の編集距離が予め設定された第２の閾値を超えるか否かを確定するステップと、前記第２の編集距離が前記第２の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要とのマッチングが成功したと確定するステップと、前記第２の編集距離が前記第２の閾値を超えると確定されたことに応じて、前記音声認識結果と当該要素のマッチングが不成功であると確定するステップと、をさらに含む。

一部の実施形態において、前記要素情報は、表示されたページ内の要素の位置情報、表示されたページに対応するアプリケーションのアプリケーション名、および表示されたページに対応するアプリケーションのバージョン番号のうちの少なくとも１つをさらに含む。

一部の実施形態において、前記少なくとも１つの要素の要素情報は、ツリー構造で記憶され、前記音声認識結果と前記少なくとも１つの要素の要素内容情報をマッチングするステップは、ツリー構造の各子ノードを走査する（ｔｒａｖｅｒｓａｌ）ステップと、各子ノードの表す要素の要素内容情報と前記音声認識結果とをマッチングするステップを含む。

一部の実施形態において、前記実行待ち操作は、クリック操作である。

第２の態様として、本発明は、ページを制御する方法を提供する。上記方法は、ユーザから送信された音声情報の受信に応じて、前記音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とをサーバに送信するステップであって、前記要素情報は、要素識別子と要素内容情報とを含む、ステップと、前記サーバから送信されたページ制御情報を受信するステップであって、前記ページ制御情報は、サーバにより前記音声情報が前記表示されたページを制御するためのものであると確定された後に生成されたものであり、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、ステップと、前記ターゲット要素の要素識別子に基づいて、前記表示されたページ内の前記ターゲット要素の位置を確定し、確定された位置で前記実行待ち操作を実行するステップと、を含む。

第３の態様として、本発明は、ページを制御する装置を提供する。上記装置は、端末から送信された音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とを受信する受信ユニットであって、前記要素情報は、要素識別子と要素内容情報とを含む受信ユニットと、前記音声情報が前記表示されたページを制御するためのものであると確定されたことに応じて、前記音声情報に対して音声認識を行って音声認識結果を取得する識別ユニットと、前記音声認識結果と前記少なくとも１つの要素の要素内容情報をマッチングするマッチングユニットと、前記音声認識結果と前記少なくとも１つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、前記ページ制御情報を端末に送信して、前記端末が前記ページ制御情報に基づいて前記表示されたページを制御するようにする生成ユニットであって、前記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、生成ユニットと、を含む。

一部の実施形態において、前記マッチングユニットは、前記少なくとも１つの要素における各要素の要素内容情報に対して、前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定する計算ユニットを含む。

一部の実施形態において、前記計算ユニットは、第１の計算サブユニットを備え、前記第１の計算サブユニットは、前記音声認識結果と当該要素の要素内容情報との間の第１の編集距離を算出し、前記第１の編集距離が予め設定された第１の閾値を超えるか否かを確定し、前記第１の編集距離が前記第１の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定する。

一部の実施形態において、前記計算ユニットは、第２の計算サブユニットをさらに備え、前記第２の計算サブユニットは、前記第１の編集距離が前記第１の閾値を超えると確定されたことに応じて、前記音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第２の編集距離を算出し、前記第２の編集距離が予め設定された第２の閾値を超えるか否かを確定し、前記第２の編集距離が前記第２の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要とのマッチングが成功したと確定し、前記第２の編集距離が前記第２の閾値を超えると確定されたことに応じて、前記音声認識結果と当該要素のマッチングが不成功であると確定する。

一部の実施形態において、前記少なくとも１つの要素の要素情報は、ツリー構造で記憶され、マッチングユニットは、ツリー構造の各子ノードを走査し、各子ノードの表す要素の要素内容情報と前記音声認識結果とをマッチングするようにさらに構成される。

第４の態様として、本発明は、ページを制御する装置を提供する。上記装置は、ユーザから送信された音声情報の受信に応じて、前記音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とをサーバに送信する送信ユニットであって、前記要素情報は、要素識別子と要素内容情報とを含む、送信ユニットと、前記サーバから送信されたページ制御情報を受信する情報受信ユニットであって、前記ページ制御情報は、前記サーバにより前記音声情報が前記表示されたページを制御するためのものであると確定された後に生成されたものであり、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、情報受信ユニットと、前記ターゲット要素の要素識別子に基づいて、前記表示されたページ内の前記ターゲット要素の位置を確定し、確定された位置で前記実行待ち操作を実行する実行ユニットと、を含む。

第５の態様として、本発明は、１つまたは複数のプロセッサと、１つまたは複数のプログラムが記憶されている記憶装置と、を備え、前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに第１の態様に記載の方法を実装させるサーバを提供する。

第６の態様として、本発明は、コンピュータプログラムが記憶されており、前記プログラムがプロセッサによって実行されるときに、第１の態様に記載の方法が実現されるコンピュータ読み取り可能な記憶媒体を提供する。

第７の態様として、本発明は、１つまたは複数のプロセッサと、１つまたは複数のプログラムが記憶されている記憶装置と、を備え、前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに第２の態様に記載の方法を実装させる端末を提供する。
第８の態様として、本発明は、コンピュータプログラムが記憶されており、前記プログラムがプロセッサによって実行されるときに、第２の態様に記載の方法が実現されるコンピュータ読み取り可能な記憶媒体を提供する。

本実施形態で提供されるページを制御する方法及び装置は、まず、端末から送信された音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とを受信し、次に、前記音声情報が表示されたページを制御するためのものであると確定されたことに応じて、前記音声情報に対して音声認識を行って音声認識結果を取得する。そして、前記音声認識結果と前記少なくとも１つの要素の要素内容情報をマッチングし、最後に、前記音声認識結果と前記少なくとも１つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、前記ページ制御情報を端末に送信して、前記端末が前記ページ制御情報に基づいて前記表示されたページを制御するようにする。これにより、表示されたページにおける要素の要素情報を効果的に利用して、表示されたページに対する音声制御を実現することができる。

以下の図面を参照してなされた制限的でない実施形態に対する詳細的な説明により、本発明の他の特徴、目的及び利点はより明らかになる。

本発明を適用できる例示的なシステムアーキテクチャ図である。

本発明に係るページを制御する方法の一実施形態のフローチャートである。

本発明に係るページを制御する方法の適用シーンの概略図である。本発明に係るページを制御する方法の適用シーンの概略図である。

本発明に係るページを制御する方法の別の実施形態のフローチャートである。

本発明に係るページを制御する装置の一実施形態の概略構成図である。

本発明に係るページを制御する装置の別の実施形態の概略構成図である。

本発明の一実施形態に係るサーバを実現できるコンピュータシステムの概略構成図である。

以下、図面及び実施形態を参照しながら本発明をより詳細に説明する。理解すべきことは、ここで説明する具体的な実施形態は、当該発明を説明するものに過ぎず、当該発明を限定するものではない。ただし、説明の便宜上、図面には発明に関連する部分のみが示されている。

なお、衝突しない場合、本願の実施形態及び実施形態における特徴を相互に組み合せてもよい。以下、図面及び実施形態を参照しながら本願を詳細に説明する。

図１は、本願に係るページを制御する方法または装置を適用できる実施形態の例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３と、ネットワーク１０４と、サーバ１０５とを含んでもよい。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間の通信リンクを提供する媒体として機能する。ネットワーク１０４は、有線または無線伝送リンク、または光ファイバなどの様々な接続タイプを含むことができる。

ユーザは、端末装置１０１、１０２、１０３を用いて、ネットワーク１０４を介してサーバ１０５とインタラクションして、メッセージ等を送受信することができる。端末装置１０１，１０２、１０３に、例えば、音声処理アプリケーション、ウェブブラウジングアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージングツール、メールボックスクライアント、およびソーシャルプラットフォームソフトウェアなどがインストールされることができる。

端末装置１０１、１０２、１０３は、表示画面を有し、ウェブブラウジングをサポートする様々な電子装置であってもよい。スマートフォン、タブレット、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むが、これに限定されない。

サーバ１０５は、端末装置１０１、１０２、１０３に表示されたページをサポートするバックグラウンドサーバなどの、様々なサービスを提供するサーバであってもよい。バックグラウンドサーバは、受信された音声情報や端末装置に表示されたページにおける少なくとも一つの要素情報などを解析し、その処理結果（例えば、ページ制御情報）を端末装置にフィードバックする。

なお、本発明において、図２に対応する実施形態で提供されるページを制御する方法は、一般に、サーバ１０５により実行される。これに対応して、図５におけるページを制御する装置は、一般に、サーバ１０５に設置されている。図４に対応する実施形態で提供されるページを制御する方法は、一般に、端末装置１０１、１０２、１０３実行される。これに対応して、図６におけるページを制御する装置は、一般に、端末装置１０１、１０２、１０３に設置されている。本発明は、これに限定されない。

理解すべきなのは、図1における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎない。実現の必要に応じて、任意の数の端末装置、ネットワーク及びサーバを含むことができる。

次に、図２を参照すると、本発明に係るページを制御する方法の一実施形態のフロー２００が示されている。ページを制御する方法は、以下のステップを含む。

ステップ２０１において、端末装置から送信された音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とを受信する。

本実施形態では、ページを制御するための方法が実行される電子機器（例えば、図１に示すサーバ１０５）は、有線接続または無線接続を介して、ユーザの、ページが表示される端末装置から、音声情報と、表示されたページにおける少なくとも１つの要素の要素情報とを受信することができる。ここで、上記表示されたページは、ユーザにより上記音声情報を送信するときに表示されるページであってもよく、上記表示されたページには、少なくとも一つの元素（例えば、テキスト、画像など）を含んでもよい。各要素の要素情報は、要素識別子と要素内容情報とを含み、要素識別子は、ページにおける一つの要素を一意に識別するためのものである。要素内容情報は、要素の内容を説明するためのものであり、例えば、要素がテキストである場合、要素内容情報は、当該テキスト自体であってもよい。または、要素が画像である場合、要素内容情報は、当該画像に表示されている対象に対して説明する情報であってもよく、例えば、一つの画像に表示されている対象が映画フィルム、映画プロジェクタなどである場合、当該画像の要素内容情報は、映画、動画であってもよい。なお、上記無線接続は、３Ｇ／４Ｇ接続、ＷｉＦｉ（登録商標）接続、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続、ＷｉＭＡＸ接続、ジグビー接続、ＵＷＢ（超広帯域）接続、および他の従来の接続または今後に開発される無線接続を含むことができるが、これに限定される。

本実施形態の一部の選択可能な実施例において、上記情報要素は、表示されたページ内の要素の位置情報、表示されたページに対応するアプリケーションのアプリケーション名、および表示されたページに対応するアプリケーションのバージョン番号のうちの少なくとも１つをさらに含む

ステップ２０２において、音声情報が表示されたページを制御するためのものであると確定されたことに応じて、音声情報に対して音声認識を行って音声認識結果を取得する。

本実施形態では、電子機器は、ステップ２０１で受信された音声情報に対して様々な（例えば、自然言語処理、意図認識など）処理分析を行って、ページの表示を制御するための音声情報であるか否かを確定する。上記音声情報が上記表示されたページを制御するためのものであると確定されたことに応じて、音声情報に対して音声認識を行って音声認識結果を取得する。

なお、上述各種音声認識方法は広く研究され応用される周知技術であるので、ここで説明を省略する。

ステップ２０３において、音声認識結果と少なくとも１つの要素の要素内容情報をマッチングする。

本実施形態では、上記電子装置は、上記音声認識結果と上記少なくとも１つの要素の要素内容情報をマッチングすることができる。一例として、上記少なくとも１つの要素における各元素の元素内容情報に対して、電子機器は、上記音声認識結果と当該要素の要素内容情報をマッチングし、上記音声認識結果と当該要素の要素内容情報が同じである場合、または当該要素の要素情報が上記音声認識結果に含まれている場合、上記音声認識結果と上記少なくとも１つの要素の要素内容情報がマッチングしたと確定する。

本実施形態の一部の選択可能な実施例において、上記少なくとも１つの要素の要素情報は、ツリー構造で記憶される。また、ステップ２０３において、音声認識結果と少なくとも一つの要素の要素内容情報とをマッチングする。具体的に、ツリー構造の各子ノードを走査し、次に、各子ノードの表す要素の要素内容情報と音声認識結果とをマッチングする。

本実施形態の一部の選択可能な実施例において、ステップ２０３で、具体的に、電子機器は、上記少なくとも一つの要素における各要素の内容情報要素に対して、上記音声認識結果と当該要素の要素内容との類似度（例えば、コサイン類似度、ジャッカード係数、ユークリッド距離など）を算出し、算出された類似度に基づいて、上記音声認識結果と当該要素のマッチングが成功するか否かを確定することができる。一例として、上記少なくとも一つの元素における、上記音声認識結果との類似度が最も高い要素を、マッチングが成功した要素として選択することができる。

一部の選択可能な実施例において、上記音声認識結果と当該要素の要素内容との類似度を算出し、算出された類似度に基づいて、上記音声認識結果と当該要素のマッチングが成功するか否かを確定することは、具体的に以下のステップを含む。まず、上記電子機器が、音声認識結果と当該要素の要素内容情報との間の第１の編集距離を算出し、次に、上記第１の編集距離が予め設定された第１の閾値を超えるか否かを確定することができる。ここで、上記第１の閾値は、実際の必要性に基づいて予め設定された閾値であってもよい。最後に、上記第１の編集距離が上記第１の閾値を超えないと確定されたことに応じて、上記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定する。一例として、上記音声認識結果と、上記少なくとも１つの要素における二つ以上の要素の要素内容とのマッチングが成功する場合、上記音声認識結果との第１の編集距離が最も小さい要素を、マッチングが成功した要素として選択する。

選択的に、上記音声認識結果と当該要素の要素内容との類似度を算出し、算出された類似度に基づいて、上記音声認識結果と当該要素のマッチングが成功するか否かを確定することは、さらに以下のステップを含む。まず、電子機器は、上記第１の編集距離が上記第１の閾値を超えると確定されたことに応じて、上記音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第２の編集距離を算出する。次に、上記第２の編集距離が予め設定された第２の閾値を超えるか否かを確定することができる。ここで、上記第二閾値は、実際の必要性に基づいて予め設定された閾値であってもよい。そして、第２の編集距離が第２の閾値を超えていないと決定することに応答して、電子装置は、音声認識要素が一致して生じると判断してもよいです。最後に、電子機器は、上記第２の編集距離が上記第２の閾値を超えないと確定されたことに応じて、上記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定する。最後に、上記電子ききは、上記第２の編集距離が上記第２の閾値を超えると確定されたことに応じて、上記音声認識結果と当該要素とのマッチングが不成功であると確定する。本実施態様では、音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第２の編集距離を算出することにより、音声認識結果における多音字（Polyphone）、同音異義語などの場合の干渉を低減して、マッチングの結果がより正確になる。

なお、音声認識結果と要素内容情報に対応するピンインを取得する方法は、広く研究され応用される公知の技術であり、ここで説明を省略する。

ステップ２０４において、音声認識結果と少なくとも１つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、上記ページ制御情報を端末装置に送信して、端末装置がページ制御情報に基づいて上記表示されたページを制御するようにする。

本実施形態では、上記電子機器は、上記音声認識結果と上記少なくとも１つの要素の要素内容情報における一つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、生成されたページ制御情報を上記端末装置に送信して、上記端末装置が上記ページ制御情報に基づいて上記表示されたページを制御するようにする。ここで、上記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、上記ターゲット要素は、実行待ち操作の対象となる要素であってもよい。

本実施形態の一部の選択可能な実施例において、上記実行待ち操作は、クリック操作であってもよい。

次に、図３ａ及び図３ｂを参照すると、図３ａ及び図３ｂは、本実施形態のページを制御する方法の適用シーンの概略図である。図３ａ及び図３ｂの適用シーンにおいて、スマートデバイスの現在時刻に表示されているページは、図３ａのように示されている。このとき、要素である「人気おすすめ」は、選択された状態にある。表示されているページには、「人気おすすめ」に対応する内容が表示されている。ユーザが「ビデオカテゴリ」という音声情報をスマートデバイスに送信すると、当該スマートデバイスは、当該音声情報と、図３ａに表示されたページにおける少なくとも一つの要素の要素情報とをサーバに送信する。その後、サーバは、当該音声情報が図３ａに表示されたページを制御するための情報であると確定されたことに応じて、当該音声情報に対して音声識別を行って、「ビデオカテゴリ」という音声識別テキストを取得する。そして、サーバは、「ビデオカテゴリ」という音声識別テキストと、図３ａに表示されたページにおける少なくとも一つの要素の要素内容情報とをマッチングする。最後に、「ビデオカテゴリ」という音声識別テキストと、図３ａに表示されたページにおける「ビデオカテゴリ」という要素の要素内容情報のマッチングが成功したと確定されたことに応じて、サーバは、ページ制御情報を生成し、生成されたページ制御情報を上記スマートデバイスに送信する。ここで、上記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含んでもよい。この適用シーンにおいて、上記実行待ち操作はクリック操作であり、上記ターゲット要素は、「ビデオカテゴリ」という要素である。スマートデバイスは、受信されたページ制御情報に基づいて、図３ａに表示されたページにおける「ビデオカテゴリ」という要素に対して模擬クリック操作を行うことができる。これにより、制御されるページは、図３ｂのように変化し、図３ｂにおける「ビデオカテゴリ」という要素が選択された状態にあり、「ビデオカテゴリ」に対応する内容がページに表示される。

本発明の上記実施形態で提供される方法は、表示されたページにおける要素の要素情報を効果的に利用して、表示されたページに対する音声制御を実現することができる。さらに、上記実施形態で提供される方法は、表示されたページに対応するＡＰＰに対してさらに開発を行う必要がなく、表示されたページに対する音声制御を実現することができるので、音声制御が使用される範囲を大幅に拡大することができる。

さらに、図４を参照すると、ページを制御する方法の別の実施形態のフロー４００が示されている。ページを制御する方法のプロセス４００は、以下のステップを含む。

ステップ４０１において、ユーザから送信された音声情報の受信に応じて、上記音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とをサーバに送信する。

本実施形態において、ページを制御するための方法が実行される電子機器（例えば、図１に示す端末装置１０１、１０２、１０３）は、直接または他の音声受信デバイス（例えば、マイクロフォン、スマート・リモートコントロール等）により、ユーザから送信された音声情報を受信し、且つ、受信されたユーザの音声情報と、表示されたページにおける少なくとも１つの要素の要素情報をサーバに送信する。上記表示されたページとは、ユーザから上記音声情報を送信するときに上記電子機器に表示されているページであってもよい。上記表示されたページには、少なくとも一つの要素（例えば、テキスト、画像など）を含み、各要素の要素情報は、要素識別子と要素内容情報を含み、要素識別子は、ページにおける一つの要素を一意に識別するためのものであってもよい。要素内容情報は、要素の内容を説明するためのものであり、例えば、要素がテキストである場合、要素内容情報は、当該テキスト自体であってもよい。または、要素が画像である場合、要素内容情報は、当該画像に表示されている対象に対して説明する情報であってもよく、例えば、一つの画像に表示されている対象が映画フィルム、映画プロジェクタなどである場合、当該画像の要素内容情報は、映画、動画であってもよい。選択的に、表示されたページ内の少なくとも１つの要素の要素情報は、電子機器においてツリー構造で記憶されてもよい。なお、要素の要素情報は、表示されたページ内の要素の位置情報、表示されたページに対応するアプリケーションのアプリケーション名、および表示されたページに対応するアプリケーションのバージョン番号のうちの少なくとも１つをさらに含んでもよい。

ステップ４０２において、サーバから送信されたページ制御情報を受信する。

本実施形態において、上記電子機器は、上記サーバから送信されたページ制御情報を受信することもできる。ここで、ページ制御情報は、上記サーバにより上記音声情報がページを制御するための情報であると確定された後に生成されたものであり、上記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、上記ターゲット要素は、実行待ち操作の対象となる要素であってもよい。

ステップ４０３において、ターゲット要素の要素識別子に基づいて、表示されたページ内のターゲット要素の位置を確定し、確定された位置で上記実行待ち操作を実行する。

本実施形態において、上記電子機器は、上記ターゲット要素の要素識別子に基づいて、上記表示されたページ内の上記ターゲット要素の位置を確定し、確定された位置で上記実行待ち操作を実行することができる。一例として、上記実行待ち操作がクリック操作である場合に、電子装置は、上記ターゲット要素の要素識別子に基づいて確定された位置で模擬クリック操作を行うことにより、上記表示されたページを制御することができる

本実施形態における方法は、まず、音声情報と、表示されたページにおける少なくとも一つの要素の要素情報とをサーバに送信し、その後、サーバから送信されたページ制御情報を受信し、ページ制御情報に基づいて、表示されたページで実行待ち操作を実行する。これにより、表示されたページにおける要素の要素情報を効果的に利用して、表示されたページに対する音声制御を実現することができる

さらに、図５を参照すると、本発明は、ページを制御する装置の一実施形態を提供する。上記装置の実施形態は、図２に示す方法の実施形態に対応し、上記装置は、具体的に様々な電子機器に適用することができる。

図５に示すように、本実施形態のページを制御する装置５００は、受信ユニット５０１、識別ユニット５０２、マッチングユニット５０３と生成ユニット５０４を含む。ここで、受信ユニット５０１は、端末から送信された音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とを受信するためのものであり、要素情報は、要素識別子と要素内容情報とを含む。識別ユニット５０２は、上記音声情報が表示されたページを制御するためのものであると確定されたことに応じて、上記音声情報に対して音声認識を行って音声認識結果を取得するためのものである。マッチングユニット５０３は、上記音声認識結果と上記少なくとも１つの要素の要素内容情報をマッチングするためのものである。生成ユニット５０４は、上記音声認識結果と上記少なくとも１つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、上記ページ制御情報を端末に送信して、上記端末が上記ページ制御情報に基づいて上記表示されたページを制御するようにするためのものである。ここで、上記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、上記ターゲット要素は、実行待ち操作の対象となる要素である。

本実施形態において、ページを制御する装置５００における受信ユニット５０１、識別ユニット５０２、マッチングユニット５０３と生成ユニット５０４の具体的な処理およびその技術的効果は、図２に対応する実施形態におけるステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４の関連説明をそれぞれ参照することができるので、ここで説明を省略する。

本実施形態の一部の選択可能な実施例において、マッチングユニット５０３は、計算ユニット（図示せず）を含んでもよい。上記計算ユニットは、上記少なくとも１つの要素における各要素の要素内容情報に対して、上記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、上記音声認識結果と上記少なくとも１つの要素のマッチングが成功するか否かを確定する。

本実施形態の一部の選択可能な実施例において、上記計算ユニットは、第１の計算サブユニット（図示せず）をさらに含んでもよい。上記第１の計算サブユニットは、上記音声認識結果と当該要素の要素内容情報との間の第１の編集距離を算出し、上記第１の編集距離が予め設定された第１の閾値を超えるか否かを確定し、上記第１の編集距離が上記第１の閾値を超えないと確定されたことに応じて、上記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定する。

本実施形態の一部の選択可能な実施例において、上記計算ユニットは、第２の計算サブユニット（図示せず）をさらに含んでもよい。上記第２の計算サブユニットは、上記第１の編集距離が上記第１の閾値を超えると確定されたことに応じて、上記音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第２の編集距離を算出し、上記第２の編集距離が予め設定された第２の閾値を超えるか否かを確定し、上記第２の編集距離が上記第２の閾値を超えないと確定されたことに応じて、上記音声認識結果と当該要とのマッチングが成功したと確定し、上記第２の編集距離が上記第２の閾値を超えると確定されたことに応じて、上記音声認識結果と当該要素のマッチングが不成功であると確定する

本実施形態の一部の選択可能な実施例において、上記要素情報は、表示されたページ内の要素の位置情報、表示されたページに対応するアプリケーションのアプリケーション名、および表示されたページに対応するアプリケーションのバージョン番号のうちの少なくとも１つをさらに含んでもよい。

本実施形態の一部の選択可能な実施例において、上記少なくとも１つの要素の要素情報は、ツリー構造で記憶され、マッチングユニット５０３は、上記ツリー構造の各子ノードを走査し、各子ノードの表す要素の要素内容情報と上記音声認識結果とをマッチングするようにさらに構成されてもよい。

本実施形態の一部の選択可能な実施例において、前述実行待ち操作は、クリック操作であってもよい。

さらに図６を参照すると、本発明は、ページを制御する装置の別の一実施形態を提供する。上記装置は、図４に示す方法の実施形態と対応し、上記装置は、具体的に様々な電子機器に適用することができる。

図６に示すように、本実施形態のページを制御する装置６００は、送信ユニット６０１と、情報受信ユニット６０２と、実行ユニット６０３とを含む。送信ユニット６０１は、ユーザから送信された音声情報の受信に応じて、上記音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とをサーバに送信するためのものであり、ここで、上記要素情報は、要素識別子と要素内容情報とを含む。情報受信ユニット６０２は、記サーバから送信されたページ制御情報を受信するためのものであり、ここで、上記ページ制御情報は、上記サーバにより上記音声情報が上記表示されたページを制御するためのものであると確定された後に生成されたものであり、実行待ち操作とターゲット要素の要素識別子とを含み、上記ターゲット要素は、実行待ち操作の対象となる要素である。実行ユニット６０３は、上記ターゲット要素の要素識別子に基づいて、上記表示されたページ内の上記ターゲット要素の位置を確定し、確定された位置で上記実行待ち操作を実行するためのものである。

本実施形態において、ページを制御する装置６００における送信ユニット６０１、情報受信ユニット６０２と実行ユニット６０３の具体的な処理およびその技術的効果は、図４に対応する実施形態におけるステップ４０１、ステップ４０２、ステップ４０３の関連説明をそれぞれ参照することができるので、ここで説明を省略する。

以下、図７を参照して、本発明の一実施例のサーバを実現するのに適したコンピュータシステム７００の構造模式図を示す。図７に示すサーバは、一例だけであり、本発明の実施形態の機能及び利用範囲を限定するものではない。

図７に示すように、コンピュータシステム７００は、読み出し専用メモリ（ＲＯＭ）７０２に記憶されているプログラム又は記憶部７０６からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置（ＣＰＵ）７０１を備える。ＲＡＭ７０３には、システム７００の操作に必要な様々なプログラムおよびデータがさらに記憶されている。ＣＰＵ７０１、ＲＯＭ７０２およびＲＡＭ７０３は、バス７０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続されている。

ハードディスクなどを含む記憶部７０６、およびＬＡＮ（ローカルエリアネットワーク、Local Area Network）カード、モデムなどを含むネットワークインターフェースカードの通信部７０７は、Ｉ／Ｏインターフェース７０５に接続されている。通信部７０７は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ７０８は、必要に応じてＩ／Ｏインターフェース７０５に接続される。リムーバブルメディア７０９は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ７０８に取り付けられて、ドライバ７０８から読み出されたコンピュータプログラムが必要に応じて記憶部７０６にインストールされる。

特に、本発明の実施形態によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムに実現されても良い。例えば、本発明の実施形態はコンピュータ読取可能な媒体にロードされるコンピュータプログラムを含むコンピュータプログラム製品を備える。当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施形態において、当該コンピュータプログラムは、通信部７０７を介してネットワークからダウンロードしてインストールされ、及び／又はリムーバブルメディア７０９からインストールされても良い。当該コンピュータプログラムは、中央処理ユニット（ＣＰＵ）７０１により実行される場合に、本願の方法に限定される上記機能を実行する。なお、本願のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは上記両者の任意の組合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、サーバ又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、消去可能なプログラミング読取専用メモリ（ＥＰＲＯＭ又はフラッシュ）、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ（ＣＤ−ＲＯＭ）、光学記憶要素、磁気記憶要素、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンドによりシステム、サーバ又は部品の使用を実行し、或いはそれらに組合わせて使用されても良い。本願において、コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種類の形式を採用しても良く、電磁気信号、光信号又は上記任意の適当の組合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンドによりシステム、サーバ又は部品の使用を実行し又はそれらと組合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、ＲＦなど、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。

図面におけるフローチャート及びブロック図は、本願の各実施形態によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って決定される。注意すべきなのは、ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組合わせで実現されても良い。

本発明の実施形態に含まれるユニットは、ソフトウェアまたはハードウェアによって実施することができる。記載されたユニットは、例えば、受信ユニット、識別ユニット、マッチングユニット、および生成ユニットを含むプロセッサとして記載されるプロセッサに設置されてもよい。これらのユニットの名称は、場合に従って当該ユニット自体に対する制限を構成しない。例えば、受信ユニットを「端末から送信された音声情報と、表示されたページにおける少なくとも一つの要素の要素情報を受信するユニット」と記載してもよい。

別の態様では、本発明は、コンピュータ読み取り可能な記憶媒体をさらに提供する。コンピュータ読み取り可能な記憶媒体は、上記実施形態の装置に含まれているコンピュータ記憶媒体であってもよく、装置に組み込まれていない個別のコンピュータ記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、１つまたは複数のプログラムが記憶されている。１つまたは複数のプログラムが上記装置によって実行されると、上記装置は、

端末から送信された音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とを受信し、ここで、要素情報は、要素識別子と要素内容情報とを含む。そして、上記音声情報が上記表示されたページを制御するためのものであると確定されたことに応じて、上記音声情報に対して音声認識を行って音声認識結果を取得し、上記音声認識結果と上記少なくとも１つの要素の要素内容情報をマッチングし、上記音声認識結果と上記少なくとも１つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、上記ページ制御情報を端末に送信して、上記端末が上記ページ制御情報に基づいて上記表示されたページを制御するようにする。ここで、上記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、上記ターゲット要素は、実行待ち操作の対象となる要素である。

以上の記載は、本発明の好適な実施形態及び運用される技術原理に対する説明だけである。当業者であれば、本発明にかかる発明範囲は、上記技術特徴の特定の組み合わせからなる技術案に限定されず、上記発明構想から逸脱されない限り、上記技術特徴又は同等特徴による任意の組み合わせで形成される他の技術案も同時に含まれるべきであることを理解する。例えば上記特徴と本発明に開示された（それらに限定されない）類似の機能を具備する技術特徴が互いに置換されて得られる技術案は該当する。

Claims

ページを制御する方法であって、
端末から送信された音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とを受信するステップであって、前記要素情報は、要素識別子と要素内容情報とを含む、ステップと、
前記音声情報が前記表示されたページを制御するためのものであると確定されたことに応じて、前記音声情報に対して音声認識を行って音声認識結果を取得するステップと、
前記音声認識結果と前記少なくとも１つの要素の要素内容情報とをマッチングするステップと、
前記音声認識結果と前記少なくとも１つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、前記ページ制御情報を前記端末に送信して、前記端末が前記ページ制御情報に基づいて前記表示されたページを制御するようにするステップであって、前記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、ステップと、
を含むことを特徴とするページを制御する方法。
前記音声認識結果と前記少なくとも１つの要素の要素内容情報とをマッチングするステップは、
前記少なくとも１つの要素における各要素の要素内容情報に対して、前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定するステップを含むことを特徴とする請求項１に記載の方法。
前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定するステップは、
前記音声認識結果と当該要素の要素内容情報との間の第１の編集距離を算出するステップと、
前記第１の編集距離が予め設定された第１の閾値を超えるか否かを確定するステップと、
前記第１の編集距離が前記第１の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定するステップと、
を含むことを特徴とする請求項２に記載の方法。
前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定するステップは、
前記第１の編集距離が前記第１の閾値を超えると確定されたことに応じて、前記音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第２の編集距離を算出する、ステップと、
前記第２の編集距離が予め設定された第２の閾値を超えるか否かを確定するステップと、
前記第２の編集距離が前記第２の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要素とのマッチングが成功したと確定するステップと、
前記第２の編集距離が前記第２の閾値を超えると確定されたことに応じて、前記音声認識結果と当該要素のマッチングが不成功であると確定するステップと、
をさらに含むことを特徴とする請求項３に記載の方法。
前記要素情報は、表示されたページ内の要素の位置情報、表示されたページに対応するアプリケーションのアプリケーション名、および表示されたページに対応するアプリケーションのバージョン番号のうちの少なくとも１つをさらに含むことを特徴とする請求項１に記載の方法。
前記少なくとも１つの要素の要素情報は、ツリー構造で記憶され、
前記音声認識結果と前記少なくとも１つの要素の要素内容情報とをマッチングするステップは、
ツリー構造の各子ノードを走査するステップと、
各子ノードの表す要素の要素内容情報と前記音声認識結果とをマッチングするステップを含むことを特徴とする請求項１に記載の方法。
前記実行待ち操作は、クリック操作であることを特徴とする請求項１に記載の方法。
ページを制御する方法であって、
ユーザから送信された音声情報の受信に応じて、前記音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とをサーバに送信するステップであって、前記要素情報は、要素識別子と要素内容情報とを含む、ステップと、
前記サーバから送信されたページ制御情報を受信するステップであって、前記ページ制御情報は、前記サーバにより前記音声情報が前記表示されたページを制御するためのものであると確定された後に生成されたものであり、前記ページ制御情報は実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は実行待ち操作の対象となる要素である、ステップと、
前記ターゲット要素の要素識別子に基づいて、前記表示されたページ内の前記ターゲット要素の位置を確定し、確定された位置で前記実行待ち操作を実行するステップと、
を含むことを特徴とするページを制御する方法。
ページを制御する装置であって、
端末から送信された音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とを受信する受信ユニットであって、前記要素情報は、要素識別子と要素内容情報とを含む受信ユニットと、
前記音声情報が前記表示されたページを制御するためのものであると確定されたことに応じて、前記音声情報に対して音声認識を行って音声認識結果を取得する識別ユニットと、
前記音声認識結果と前記少なくとも１つの要素の要素内容情報とをマッチングするマッチングユニットと、
前記音声認識結果と前記少なくとも１つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、前記ページ制御情報を端末に送信して、前記端末が前記ページ制御情報に基づいて前記表示されたページを制御するようにする生成ユニットであって、前記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、生成ユニットと、
を含むことを特徴とするページを制御する装置。
前記マッチングユニットは、
前記少なくとも１つの要素における各要素の要素内容情報に対して、前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定する計算ユニットを含むことを特徴とする請求項９に記載の装置。
前記計算ユニットは、第１の計算サブユニットを備え、
前記第１の計算サブユニットは、
前記音声認識結果と当該要素の要素内容情報との間の第１の編集距離を算出し、
前記第１の編集距離が予め設定された第１の閾値を超えるか否かを確定し、
前記第１の編集距離が前記第１の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定することを特徴とする請求項１０に記載の装置。
前記計算ユニットは、第２の計算サブユニットをさらに備え、
前記第２の計算サブユニットは、
前記第１の編集距離が前記第１の閾値を超えると確定されたことに応じて、前記音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第２の編集距離を算出し、
前記第２の編集距離が予め設定された第２の閾値を超えるか否かを確定し、
前記第２の編集距離が前記第２の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要とのマッチングが成功したと確定し、
前記第２の編集距離が前記第２の閾値を超えると確定されたことに応じて、前記音声認識結果と当該要素のマッチングが不成功であると確定することを特徴とする請求項１１に記載の装置。
前記要素情報は、表示されたページ内の要素の位置情報、表示されたページに対応するアプリケーションのアプリケーション名、および表示されたページに対応するアプリケーションのバージョン番号のうちの少なくとも１つをさらに含むことを特徴とする請求項９に記載の装置。
前記少なくとも１つの要素の要素情報は、ツリー構造で記憶され、
前記マッチングユニットは、
ツリー構造の各子ノードを走査し、
各子ノードの表す要素の要素内容情報と前記音声認識結果とをマッチングするようにさらに構成されていることを特徴とする請求項９に記載の装置。
前記実行待ち操作は、クリック操作であることを特徴とする請求項９に記載の装置。
ページを制御する装置であって、
ユーザから送信された音声情報の受信に応じて、前記音声情報と、表示されたページ内の少なくとも１つの要素の要素情報とをサーバに送信する送信ユニットであって、前記要素情報は、要素識別子と要素内容情報とを含む、送信ユニットと、
前記サーバから送信されたページ制御情報を受信する情報受信ユニットであって、前記ページ制御情報は、前記サーバにより前記音声情報が前記表示されたページを制御するためのものであると確定された後に生成されたものであり、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、情報受信ユニットと、
前記ターゲット要素の要素識別子に基づいて、前記表示されたページ内の前記ターゲット要素の位置を確定し、確定された位置で前記実行待ち操作を実行する実行ユニットと、
を含むことを特徴とするページを制御する装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムが記憶されている記憶装置と、を備え、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに請求項１〜７のいずれか一項に記載の方法を実装させることを特徴とするサーバ。
コンピュータプログラムが記憶されており、
前記プログラムがプロセッサによって実行されるときに、請求項１〜７のいずれか一項に記載の方法が実現されることを特徴とするコンピュータ読み取り可能な記憶媒体。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムが記憶されている記憶装置と、を備え、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに請求項８に記載の方法を実装させることを特徴とする端末。
コンピュータプログラムが記憶されており、
前記プログラムがプロセッサによって実行されるときに、請求項８に記載の方法が実現されることを特徴とするコンピュータ読み取り可能な記憶媒体。