JP6616473B2 - ページを制御する方法および装置 - Google Patents

ページを制御する方法および装置 Download PDF

Info

Publication number
JP6616473B2
JP6616473B2 JP2018174154A JP2018174154A JP6616473B2 JP 6616473 B2 JP6616473 B2 JP 6616473B2 JP 2018174154 A JP2018174154 A JP 2018174154A JP 2018174154 A JP2018174154 A JP 2018174154A JP 6616473 B2 JP6616473 B2 JP 6616473B2
Authority
JP
Japan
Prior art keywords
information
page
recognition result
matching
content information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018174154A
Other languages
English (en)
Other versions
JP2019091418A (ja
Inventor
チャン、ヤン
ドゥ、ビンユアン
ワン、フェイ
リー、ジン
チェン、ガオフェイ
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2019091418A publication Critical patent/JP2019091418A/ja
Application granted granted Critical
Publication of JP6616473B2 publication Critical patent/JP6616473B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Artificial Intelligence (AREA)

Description

本発明は、コンピュータ技術の分野に関し、特に、インターネット技術の分野に関し、特に、ページを制御する方法および装置に関する。
音声認識技術の急速な発展に伴い、音声制御が様々な端末機器に徐々に適用されている。ユーザは、音声で端末機器を制御することができる。例えば、ユーザは、スマートテレビやスマートフォンなどのスマートデバイスに表示されているコンテンツを音声で制御することができる。現在、スマートデバイス上のAPP(application、アプリケーション)を制御するために、制御されるAPPは、制御される目的を達成するように、呼び出されるインタフェースを外部に提供する必要がある。または、制御されるAPPは、通信SDK(Software Development Kit、ソフトウェア開発キット)メカニズムを予め統合して、音声で制御される必要のある機能をSDKの形式で実現すればこそ、制御されることができる。これにより、音声制御の使用される範囲が大幅に制限される。
本発明は、ページを制御する方法および装置を提供する。
第1の態様として、本発明は、ページを制御する方法を提供する。上記方法は、端末から送信された音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とを受信するステップであって、前記要素情報は、要素識別子と要素内容情報とを含む、ステップと、前記音声情報が前記表示されたページを制御するためのものであると確定されたことに応じて、前記音声情報に対して音声認識を行って音声認識結果を取得するステップと、前記音声認識結果と前記少なくとも1つの要素の要素内容情報をマッチングするステップと、前記音声認識結果と前記少なくとも1つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、前記ページ制御情報を端末に送信して、前記端末が前記ページ制御情報に基づいて前記表示されたページを制御するようにするステップであって、前記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、ステップと、を含む。
一部の実施形態において、前記音声認識結果と前記少なくとも1つの要素の要素内容情報をマッチングするステップは、前記少なくとも1つの要素における各要素の要素内容情報に対して、前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定するステップを含む。
一部の実施形態において、前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定するステップは、前記音声認識結果と当該要素の要素内容情報との間の第1の編集距離(Edit Distance)を算出するステップと、前記第1の編集距離が予め設定された第1の閾値を超えるか否かを確定するステップと、前記第1の編集距離が前記第1の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定するステップと、を含む。
一部の実施形態において、前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と前記少なくとも1つの要素の要素内容情報とのマッチングが成功するか否かを確定するステップは、前記第1の編集距離が上記第1の閾値を超えると確定されたことに応じて、前記音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第2の編集距離を算出する、ステップと、前記第2の編集距離が予め設定された第2の閾値を超えるか否かを確定するステップと、前記第2の編集距離が前記第2の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要とのマッチングが成功したと確定するステップと、前記第2の編集距離が前記第2の閾値を超えると確定されたことに応じて、前記音声認識結果と当該要素のマッチングが不成功であると確定するステップと、をさらに含む。
一部の実施形態において、前記要素情報は、表示されたページ内の要素の位置情報、表示されたページに対応するアプリケーションのアプリケーション名、および表示されたページに対応するアプリケーションのバージョン番号のうちの少なくとも1つをさらに含む。
一部の実施形態において、前記少なくとも1つの要素の要素情報は、ツリー構造で記憶され、前記音声認識結果と前記少なくとも1つの要素の要素内容情報をマッチングするステップは、ツリー構造の各子ノードを走査する(traversal)ステップと、各子ノードの表す要素の要素内容情報と前記音声認識結果とをマッチングするステップを含む。
一部の実施形態において、前記実行待ち操作は、クリック操作である。
第2の態様として、本発明は、ページを制御する方法を提供する。上記方法は、ユーザから送信された音声情報の受信に応じて、前記音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とをサーバに送信するステップであって、前記要素情報は、要素識別子と要素内容情報とを含む、ステップと、前記サーバから送信されたページ制御情報を受信するステップであって、前記ページ制御情報は、サーバにより前記音声情報が前記表示されたページを制御するためのものであると確定された後に生成されたものであり、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、ステップと、前記ターゲット要素の要素識別子に基づいて、前記表示されたページ内の前記ターゲット要素の位置を確定し、確定された位置で前記実行待ち操作を実行するステップと、を含む。
第3の態様として、本発明は、ページを制御する装置を提供する。上記装置は、端末から送信された音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とを受信する受信ユニットであって、前記要素情報は、要素識別子と要素内容情報とを含む受信ユニットと、前記音声情報が前記表示されたページを制御するためのものであると確定されたことに応じて、前記音声情報に対して音声認識を行って音声認識結果を取得する識別ユニットと、前記音声認識結果と前記少なくとも1つの要素の要素内容情報をマッチングするマッチングユニットと、前記音声認識結果と前記少なくとも1つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、前記ページ制御情報を端末に送信して、前記端末が前記ページ制御情報に基づいて前記表示されたページを制御するようにする生成ユニットであって、前記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、生成ユニットと、を含む。
一部の実施形態において、前記マッチングユニットは、前記少なくとも1つの要素における各要素の要素内容情報に対して、前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定する計算ユニットを含む。
一部の実施形態において、前記計算ユニットは、第1の計算サブユニットを備え、前記第1の計算サブユニットは、前記音声認識結果と当該要素の要素内容情報との間の第1の編集距離を算出し、前記第1の編集距離が予め設定された第1の閾値を超えるか否かを確定し、前記第1の編集距離が前記第1の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定する。
一部の実施形態において、前記計算ユニットは、第2の計算サブユニットをさらに備え、前記第2の計算サブユニットは、前記第1の編集距離が前記第1の閾値を超えると確定されたことに応じて、前記音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第2の編集距離を算出し、前記第2の編集距離が予め設定された第2の閾値を超えるか否かを確定し、前記第2の編集距離が前記第2の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要とのマッチングが成功したと確定し、前記第2の編集距離が前記第2の閾値を超えると確定されたことに応じて、前記音声認識結果と当該要素のマッチングが不成功であると確定する。
一部の実施形態において、前記要素情報は、表示されたページ内の要素の位置情報、表示されたページに対応するアプリケーションのアプリケーション名、および表示されたページに対応するアプリケーションのバージョン番号のうちの少なくとも1つをさらに含む。
一部の実施形態において、前記少なくとも1つの要素の要素情報は、ツリー構造で記憶され、マッチングユニットは、ツリー構造の各子ノードを走査し、各子ノードの表す要素の要素内容情報と前記音声認識結果とをマッチングするようにさらに構成される。
一部の実施形態において、前記実行待ち操作は、クリック操作である。
第4の態様として、本発明は、ページを制御する装置を提供する。上記装置は、ユーザから送信された音声情報の受信に応じて、前記音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とをサーバに送信する送信ユニットであって、前記要素情報は、要素識別子と要素内容情報とを含む、送信ユニットと、前記サーバから送信されたページ制御情報を受信する情報受信ユニットであって、前記ページ制御情報は、前記サーバにより前記音声情報が前記表示されたページを制御するためのものであると確定された後に生成されたものであり、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、情報受信ユニットと、前記ターゲット要素の要素識別子に基づいて、前記表示されたページ内の前記ターゲット要素の位置を確定し、確定された位置で前記実行待ち操作を実行する実行ユニットと、を含む。
第5の態様として、本発明は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を備え、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに第1の態様に記載の方法を実装させるサーバを提供する。
第6の態様として、本発明は、コンピュータプログラムが記憶されており、前記プログラムがプロセッサによって実行されるときに、第1の態様に記載の方法が実現されるコンピュータ読み取り可能な記憶媒体を提供する。
第7の態様として、本発明は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を備え、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに第2の態様に記載の方法を実装させる端末を提供する。
第8の態様として、本発明は、コンピュータプログラムが記憶されており、前記プログラムがプロセッサによって実行されるときに、第2の態様に記載の方法が実現されるコンピュータ読み取り可能な記憶媒体を提供する。
本実施形態で提供されるページを制御する方法及び装置は、まず、端末から送信された音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とを受信し、次に、前記音声情報が表示されたページを制御するためのものであると確定されたことに応じて、前記音声情報に対して音声認識を行って音声認識結果を取得する。そして、前記音声認識結果と前記少なくとも1つの要素の要素内容情報をマッチングし、最後に、前記音声認識結果と前記少なくとも1つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、前記ページ制御情報を端末に送信して、前記端末が前記ページ制御情報に基づいて前記表示されたページを制御するようにする。これにより、表示されたページにおける要素の要素情報を効果的に利用して、表示されたページに対する音声制御を実現することができる。
以下の図面を参照してなされた制限的でない実施形態に対する詳細的な説明により、本発明の他の特徴、目的及び利点はより明らかになる。
本発明を適用できる例示的なシステムアーキテクチャ図である。
本発明に係るページを制御する方法の一実施形態のフローチャートである。
本発明に係るページを制御する方法の適用シーンの概略図である。 本発明に係るページを制御する方法の適用シーンの概略図である。
本発明に係るページを制御する方法の別の実施形態のフローチャートである。
本発明に係るページを制御する装置の一実施形態の概略構成図である。
本発明に係るページを制御する装置の別の実施形態の概略構成図である。
本発明の一実施形態に係るサーバを実現できるコンピュータシステムの概略構成図である。
以下、図面及び実施形態を参照しながら本発明をより詳細に説明する。理解すべきことは、ここで説明する具体的な実施形態は、当該発明を説明するものに過ぎず、当該発明を限定するものではない。ただし、説明の便宜上、図面には発明に関連する部分のみが示されている。
なお、衝突しない場合、本願の実施形態及び実施形態における特徴を相互に組み合せてもよい。以下、図面及び実施形態を参照しながら本願を詳細に説明する。
図1は、本願に係るページを制御する方法または装置を適用できる実施形態の例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103と、ネットワーク104と、サーバ105とを含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクを提供する媒体として機能する。ネットワーク104は、有線または無線伝送リンク、または光ファイバなどの様々な接続タイプを含むことができる。
ユーザは、端末装置101、102、103を用いて、ネットワーク104を介してサーバ105とインタラクションして、メッセージ等を送受信することができる。端末装置101,102、103に、例えば、音声処理アプリケーション、ウェブブラウジングアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージングツール、メールボックスクライアント、およびソーシャルプラットフォームソフトウェアなどがインストールされることができる。
端末装置101、102、103は、表示画面を有し、ウェブブラウジングをサポートする様々な電子装置であってもよい。スマートフォン、タブレット、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むが、これに限定されない。
サーバ105は、端末装置101、102、103に表示されたページをサポートするバックグラウンドサーバなどの、様々なサービスを提供するサーバであってもよい。バックグラウンドサーバは、受信された音声情報や端末装置に表示されたページにおける少なくとも一つの要素情報などを解析し、その処理結果(例えば、ページ制御情報)を端末装置にフィードバックする。
なお、本発明において、図2に対応する実施形態で提供されるページを制御する方法は、一般に、サーバ105により実行される。これに対応して、図5におけるページを制御する装置は、一般に、サーバ105に設置されている。図4に対応する実施形態で提供されるページを制御する方法は、一般に、端末装置101、102、103実行される。これに対応して、図6におけるページを制御する装置は、一般に、端末装置101、102、103に設置されている。本発明は、これに限定されない。
理解すべきなのは、図1における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎない。実現の必要に応じて、任意の数の端末装置、ネットワーク及びサーバを含むことができる。
次に、図2を参照すると、本発明に係るページを制御する方法の一実施形態のフロー200が示されている。ページを制御する方法は、以下のステップを含む。
ステップ201において、端末装置から送信された音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とを受信する。
本実施形態では、ページを制御するための方法が実行される電子機器(例えば、図1に示すサーバ105)は、有線接続または無線接続を介して、ユーザの、ページが表示される端末装置から、音声情報と、表示されたページにおける少なくとも1つの要素の要素情報とを受信することができる。ここで、上記表示されたページは、ユーザにより上記音声情報を送信するときに表示されるページであってもよく、上記表示されたページには、少なくとも一つの元素(例えば、テキスト、画像など)を含んでもよい。各要素の要素情報は、要素識別子と要素内容情報とを含み、要素識別子は、ページにおける一つの要素を一意に識別するためのものである。要素内容情報は、要素の内容を説明するためのものであり、例えば、要素がテキストである場合、要素内容情報は、当該テキスト自体であってもよい。または、要素が画像である場合、要素内容情報は、当該画像に表示されている対象に対して説明する情報であってもよく、例えば、一つの画像に表示されている対象が映画フィルム、映画プロジェクタなどである場合、当該画像の要素内容情報は、映画、動画であってもよい。なお、上記無線接続は、3G/4G接続、WiFi(登録商標)接続、Bluetooth(登録商標)接続、WiMAX接続、ジグビー接続、UWB(超広帯域)接続、および他の従来の接続または今後に開発される無線接続を含むことができるが、これに限定される。
本実施形態の一部の選択可能な実施例において、上記情報要素は、表示されたページ内の要素の位置情報、表示されたページに対応するアプリケーションのアプリケーション名、および表示されたページに対応するアプリケーションのバージョン番号のうちの少なくとも1つをさらに含む
ステップ202において、音声情報が表示されたページを制御するためのものであると確定されたことに応じて、音声情報に対して音声認識を行って音声認識結果を取得する。
本実施形態では、電子機器は、ステップ201で受信された音声情報に対して様々な(例えば、自然言語処理、意図認識など)処理分析を行って、ページの表示を制御するための音声情報であるか否かを確定する。上記音声情報が上記表示されたページを制御するためのものであると確定されたことに応じて、音声情報に対して音声認識を行って音声認識結果を取得する。
なお、上述各種音声認識方法は広く研究され応用される周知技術であるので、ここで説明を省略する。
ステップ203において、音声認識結果と少なくとも1つの要素の要素内容情報をマッチングする。
本実施形態では、上記電子装置は、上記音声認識結果と上記少なくとも1つの要素の要素内容情報をマッチングすることができる。一例として、上記少なくとも1つの要素における各元素の元素内容情報に対して、電子機器は、上記音声認識結果と当該要素の要素内容情報をマッチングし、上記音声認識結果と当該要素の要素内容情報が同じである場合、または当該要素の要素情報が上記音声認識結果に含まれている場合、上記音声認識結果と上記少なくとも1つの要素の要素内容情報がマッチングしたと確定する。
本実施形態の一部の選択可能な実施例において、上記少なくとも1つの要素の要素情報は、ツリー構造で記憶される。また、ステップ203において、音声認識結果と少なくとも一つの要素の要素内容情報とをマッチングする。具体的に、ツリー構造の各子ノードを走査し、次に、各子ノードの表す要素の要素内容情報と音声認識結果とをマッチングする。
本実施形態の一部の選択可能な実施例において、ステップ203で、具体的に、電子機器は、上記少なくとも一つの要素における各要素の内容情報要素に対して、上記音声認識結果と当該要素の要素内容との類似度(例えば、コサイン類似度、ジャッカード係数、ユークリッド距離など)を算出し、算出された類似度に基づいて、上記音声認識結果と当該要素のマッチングが成功するか否かを確定することができる。一例として、上記少なくとも一つの元素における、上記音声認識結果との類似度が最も高い要素を、マッチングが成功した要素として選択することができる。
一部の選択可能な実施例において、上記音声認識結果と当該要素の要素内容との類似度を算出し、算出された類似度に基づいて、上記音声認識結果と当該要素のマッチングが成功するか否かを確定することは、具体的に以下のステップを含む。まず、上記電子機器が、音声認識結果と当該要素の要素内容情報との間の第1の編集距離を算出し、次に、上記第1の編集距離が予め設定された第1の閾値を超えるか否かを確定することができる。ここで、上記第1の閾値は、実際の必要性に基づいて予め設定された閾値であってもよい。最後に、上記第1の編集距離が上記第1の閾値を超えないと確定されたことに応じて、上記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定する。一例として、上記音声認識結果と、上記少なくとも1つの要素における二つ以上の要素の要素内容とのマッチングが成功する場合、上記音声認識結果との第1の編集距離が最も小さい要素を、マッチングが成功した要素として選択する。
選択的に、上記音声認識結果と当該要素の要素内容との類似度を算出し、算出された類似度に基づいて、上記音声認識結果と当該要素のマッチングが成功するか否かを確定することは、さらに以下のステップを含む。まず、電子機器は、上記第1の編集距離が上記第1の閾値を超えると確定されたことに応じて、上記音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第2の編集距離を算出する。次に、上記第2の編集距離が予め設定された第2の閾値を超えるか否かを確定することができる。ここで、上記第二閾値は、実際の必要性に基づいて予め設定された閾値であってもよい。そして、第2の編集距離が第2の閾値を超えていないと決定することに応答して、電子装置は、音声認識要素が一致して生じると判断してもよいです。最後に、電子機器は、上記第2の編集距離が上記第2の閾値を超えないと確定されたことに応じて、上記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定する。最後に、上記電子ききは、上記第2の編集距離が上記第2の閾値を超えると確定されたことに応じて、上記音声認識結果と当該要素とのマッチングが不成功であると確定する。本実施態様では、音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第2の編集距離を算出することにより、音声認識結果における多音字(Polyphone)、同音異義語などの場合の干渉を低減して、マッチングの結果がより正確になる。
なお、音声認識結果と要素内容情報に対応するピンインを取得する方法は、広く研究され応用される公知の技術であり、ここで説明を省略する。
ステップ204において、音声認識結果と少なくとも1つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、上記ページ制御情報を端末装置に送信して、端末装置がページ制御情報に基づいて上記表示されたページを制御するようにする。
本実施形態では、上記電子機器は、上記音声認識結果と上記少なくとも1つの要素の要素内容情報における一つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、生成されたページ制御情報を上記端末装置に送信して、上記端末装置が上記ページ制御情報に基づいて上記表示されたページを制御するようにする。ここで、上記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、上記ターゲット要素は、実行待ち操作の対象となる要素であってもよい。
本実施形態の一部の選択可能な実施例において、上記実行待ち操作は、クリック操作であってもよい。
次に、図3a及び図3bを参照すると、図3a及び図3bは、本実施形態のページを制御する方法の適用シーンの概略図である。図3a及び図3bの適用シーンにおいて、スマートデバイスの現在時刻に表示されているページは、図3aのように示されている。このとき、要素である「人気おすすめ」は、選択された状態にある。表示されているページには、「人気おすすめ」に対応する内容が表示されている。ユーザが「ビデオカテゴリ」という音声情報をスマートデバイスに送信すると、当該スマートデバイスは、当該音声情報と、図3aに表示されたページにおける少なくとも一つの要素の要素情報とをサーバに送信する。その後、サーバは、当該音声情報が図3aに表示されたページを制御するための情報であると確定されたことに応じて、当該音声情報に対して音声識別を行って、「ビデオカテゴリ」という音声識別テキストを取得する。そして、サーバは、「ビデオカテゴリ」という音声識別テキストと、図3aに表示されたページにおける少なくとも一つの要素の要素内容情報とをマッチングする。最後に、「ビデオカテゴリ」という音声識別テキストと、図3aに表示されたページにおける「ビデオカテゴリ」という要素の要素内容情報のマッチングが成功したと確定されたことに応じて、サーバは、ページ制御情報を生成し、生成されたページ制御情報を上記スマートデバイスに送信する。ここで、上記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含んでもよい。この適用シーンにおいて、上記実行待ち操作はクリック操作であり、上記ターゲット要素は、「ビデオカテゴリ」という要素である。スマートデバイスは、受信されたページ制御情報に基づいて、図3aに表示されたページにおける「ビデオカテゴリ」という要素に対して模擬クリック操作を行うことができる。これにより、制御されるページは、図3bのように変化し、図3bにおける「ビデオカテゴリ」という要素が選択された状態にあり、「ビデオカテゴリ」に対応する内容がページに表示される。
本発明の上記実施形態で提供される方法は、表示されたページにおける要素の要素情報を効果的に利用して、表示されたページに対する音声制御を実現することができる。さらに、上記実施形態で提供される方法は、表示されたページに対応するAPPに対してさらに開発を行う必要がなく、表示されたページに対する音声制御を実現することができるので、音声制御が使用される範囲を大幅に拡大することができる。
さらに、図4を参照すると、ページを制御する方法の別の実施形態のフロー400が示されている。ページを制御する方法のプロセス400は、以下のステップを含む。
ステップ401において、ユーザから送信された音声情報の受信に応じて、上記音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とをサーバに送信する。
本実施形態において、ページを制御するための方法が実行される電子機器(例えば、図1に示す端末装置101、102、103)は、直接または他の音声受信デバイス(例えば、マイクロフォン、スマート・リモートコントロール等)により、ユーザから送信された音声情報を受信し、且つ、受信されたユーザの音声情報と、表示されたページにおける少なくとも1つの要素の要素情報をサーバに送信する。上記表示されたページとは、ユーザから上記音声情報を送信するときに上記電子機器に表示されているページであってもよい。上記表示されたページには、少なくとも一つの要素(例えば、テキスト、画像など)を含み、各要素の要素情報は、要素識別子と要素内容情報を含み、要素識別子は、ページにおける一つの要素を一意に識別するためのものであってもよい。要素内容情報は、要素の内容を説明するためのものであり、例えば、要素がテキストである場合、要素内容情報は、当該テキスト自体であってもよい。または、要素が画像である場合、要素内容情報は、当該画像に表示されている対象に対して説明する情報であってもよく、例えば、一つの画像に表示されている対象が映画フィルム、映画プロジェクタなどである場合、当該画像の要素内容情報は、映画、動画であってもよい。選択的に、表示されたページ内の少なくとも1つの要素の要素情報は、電子機器においてツリー構造で記憶されてもよい。なお、要素の要素情報は、表示されたページ内の要素の位置情報、表示されたページに対応するアプリケーションのアプリケーション名、および表示されたページに対応するアプリケーションのバージョン番号のうちの少なくとも1つをさらに含んでもよい。
ステップ402において、サーバから送信されたページ制御情報を受信する。
本実施形態において、上記電子機器は、上記サーバから送信されたページ制御情報を受信することもできる。ここで、ページ制御情報は、上記サーバにより上記音声情報がページを制御するための情報であると確定された後に生成されたものであり、上記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、上記ターゲット要素は、実行待ち操作の対象となる要素であってもよい。
ステップ403において、ターゲット要素の要素識別子に基づいて、表示されたページ内のターゲット要素の位置を確定し、確定された位置で上記実行待ち操作を実行する。
本実施形態において、上記電子機器は、上記ターゲット要素の要素識別子に基づいて、上記表示されたページ内の上記ターゲット要素の位置を確定し、確定された位置で上記実行待ち操作を実行することができる。一例として、上記実行待ち操作がクリック操作である場合に、電子装置は、上記ターゲット要素の要素識別子に基づいて確定された位置で模擬クリック操作を行うことにより、上記表示されたページを制御することができる
本実施形態における方法は、まず、音声情報と、表示されたページにおける少なくとも一つの要素の要素情報とをサーバに送信し、その後、サーバから送信されたページ制御情報を受信し、ページ制御情報に基づいて、表示されたページで実行待ち操作を実行する。これにより、表示されたページにおける要素の要素情報を効果的に利用して、表示されたページに対する音声制御を実現することができる
さらに、図5を参照すると、本発明は、ページを制御する装置の一実施形態を提供する。上記装置の実施形態は、図2に示す方法の実施形態に対応し、上記装置は、具体的に様々な電子機器に適用することができる。
図5に示すように、本実施形態のページを制御する装置500は、受信ユニット501、識別ユニット502、マッチングユニット503と生成ユニット504を含む。ここで、受信ユニット501は、端末から送信された音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とを受信するためのものであり、要素情報は、要素識別子と要素内容情報とを含む。識別ユニット502は、上記音声情報が表示されたページを制御するためのものであると確定されたことに応じて、上記音声情報に対して音声認識を行って音声認識結果を取得するためのものである。マッチングユニット503は、上記音声認識結果と上記少なくとも1つの要素の要素内容情報をマッチングするためのものである。生成ユニット504は、上記音声認識結果と上記少なくとも1つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、上記ページ制御情報を端末に送信して、上記端末が上記ページ制御情報に基づいて上記表示されたページを制御するようにするためのものである。ここで、上記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、上記ターゲット要素は、実行待ち操作の対象となる要素である。
本実施形態において、ページを制御する装置500における受信ユニット501、識別ユニット502、マッチングユニット503と生成ユニット504の具体的な処理およびその技術的効果は、図2に対応する実施形態におけるステップ201、ステップ202、ステップ203、ステップ204の関連説明をそれぞれ参照することができるので、ここで説明を省略する。
本実施形態の一部の選択可能な実施例において、マッチングユニット503は、計算ユニット(図示せず)を含んでもよい。上記計算ユニットは、上記少なくとも1つの要素における各要素の要素内容情報に対して、上記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、上記音声認識結果と上記少なくとも1つの要素のマッチングが成功するか否かを確定する。
本実施形態の一部の選択可能な実施例において、上記計算ユニットは、第1の計算サブユニット(図示せず)をさらに含んでもよい。上記第1の計算サブユニットは、上記音声認識結果と当該要素の要素内容情報との間の第1の編集距離を算出し、上記第1の編集距離が予め設定された第1の閾値を超えるか否かを確定し、上記第1の編集距離が上記第1の閾値を超えないと確定されたことに応じて、上記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定する。
本実施形態の一部の選択可能な実施例において、上記計算ユニットは、第2の計算サブユニット(図示せず)をさらに含んでもよい。上記第2の計算サブユニットは、上記第1の編集距離が上記第1の閾値を超えると確定されたことに応じて、上記音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第2の編集距離を算出し、上記第2の編集距離が予め設定された第2の閾値を超えるか否かを確定し、上記第2の編集距離が上記第2の閾値を超えないと確定されたことに応じて、上記音声認識結果と当該要とのマッチングが成功したと確定し、上記第2の編集距離が上記第2の閾値を超えると確定されたことに応じて、上記音声認識結果と当該要素のマッチングが不成功であると確定する
本実施形態の一部の選択可能な実施例において、上記要素情報は、表示されたページ内の要素の位置情報、表示されたページに対応するアプリケーションのアプリケーション名、および表示されたページに対応するアプリケーションのバージョン番号のうちの少なくとも1つをさらに含んでもよい。
本実施形態の一部の選択可能な実施例において、上記少なくとも1つの要素の要素情報は、ツリー構造で記憶され、マッチングユニット503は、上記ツリー構造の各子ノードを走査し、各子ノードの表す要素の要素内容情報と上記音声認識結果とをマッチングするようにさらに構成されてもよい。
本実施形態の一部の選択可能な実施例において、前述実行待ち操作は、クリック操作であってもよい。
さらに図6を参照すると、本発明は、ページを制御する装置の別の一実施形態を提供する。上記装置は、図4に示す方法の実施形態と対応し、上記装置は、具体的に様々な電子機器に適用することができる。
図6に示すように、本実施形態のページを制御する装置600は、送信ユニット601と、情報受信ユニット602と、実行ユニット603とを含む。送信ユニット601は、ユーザから送信された音声情報の受信に応じて、上記音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とをサーバに送信するためのものであり、ここで、上記要素情報は、要素識別子と要素内容情報とを含む。情報受信ユニット602は、記サーバから送信されたページ制御情報を受信するためのものであり、ここで、上記ページ制御情報は、上記サーバにより上記音声情報が上記表示されたページを制御するためのものであると確定された後に生成されたものであり、実行待ち操作とターゲット要素の要素識別子とを含み、上記ターゲット要素は、実行待ち操作の対象となる要素である。実行ユニット603は、上記ターゲット要素の要素識別子に基づいて、上記表示されたページ内の上記ターゲット要素の位置を確定し、確定された位置で上記実行待ち操作を実行するためのものである。
本実施形態において、ページを制御する装置600における送信ユニット601、情報受信ユニット602と実行ユニット603の具体的な処理およびその技術的効果は、図4に対応する実施形態におけるステップ401、ステップ402、ステップ403の関連説明をそれぞれ参照することができるので、ここで説明を省略する。
以下、図7を参照して、本発明の一実施例のサーバを実現するのに適したコンピュータシステム700の構造模式図を示す。図7に示すサーバは、一例だけであり、本発明の実施形態の機能及び利用範囲を限定するものではない。
図7に示すように、コンピュータシステム700は、読み出し専用メモリ(ROM)702に記憶されているプログラム又は記憶部706からランダムアクセスメモリ(RAM)703にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置(CPU)701を備える。RAM703には、システム700の操作に必要な様々なプログラムおよびデータがさらに記憶されている。CPU701、ROM702およびRAM703は、バス704を介して互いに接続されている。入力/出力(I/O)インターフェース705もバス704に接続されている。
ハードディスクなどを含む記憶部706、およびLAN(ローカルエリアネットワーク、Local Area Network)カード、モデムなどを含むネットワークインターフェースカードの通信部707は、I/Oインターフェース705に接続されている。通信部707は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ708は、必要に応じてI/Oインターフェース705に接続される。リムーバブルメディア709は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ708に取り付けられて、ドライバ708から読み出されたコンピュータプログラムが必要に応じて記憶部706にインストールされる。
特に、本発明の実施形態によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムに実現されても良い。例えば、本発明の実施形態はコンピュータ読取可能な媒体にロードされるコンピュータプログラムを含むコンピュータプログラム製品を備える。当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施形態において、当該コンピュータプログラムは、通信部707を介してネットワークからダウンロードしてインストールされ、及び/又はリムーバブルメディア709からインストールされても良い。当該コンピュータプログラムは、中央処理ユニット(CPU)701により実行される場合に、本願の方法に限定される上記機能を実行する。なお、本願のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは上記両者の任意の組合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、サーバ又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラミング読取専用メモリ(EPROM又はフラッシュ)、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ(CD−ROM)、光学記憶要素、磁気記憶要素、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンドによりシステム、サーバ又は部品の使用を実行し、或いはそれらに組合わせて使用されても良い。本願において、コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種類の形式を採用しても良く、電磁気信号、光信号又は上記任意の適当の組合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンドによりシステム、サーバ又は部品の使用を実行し又はそれらと組合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、RFなど、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。
図面におけるフローチャート及びブロック図は、本願の各実施形態によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って決定される。注意すべきなのは、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組合わせで実現されても良い。
本発明の実施形態に含まれるユニットは、ソフトウェアまたはハードウェアによって実施することができる。記載されたユニットは、例えば、受信ユニット、識別ユニット、マッチングユニット、および生成ユニットを含むプロセッサとして記載されるプロセッサに設置されてもよい。これらのユニットの名称は、場合に従って当該ユニット自体に対する制限を構成しない。例えば、受信ユニットを「端末から送信された音声情報と、表示されたページにおける少なくとも一つの要素の要素情報を受信するユニット」と記載してもよい。
別の態様では、本発明は、コンピュータ読み取り可能な記憶媒体をさらに提供する。コンピュータ読み取り可能な記憶媒体は、上記実施形態の装置に含まれているコンピュータ記憶媒体であってもよく、装置に組み込まれていない個別のコンピュータ記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、1つまたは複数のプログラムが記憶されている。1つまたは複数のプログラムが上記装置によって実行されると、上記装置は、
端末から送信された音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とを受信し、ここで、要素情報は、要素識別子と要素内容情報とを含む。そして、上記音声情報が上記表示されたページを制御するためのものであると確定されたことに応じて、上記音声情報に対して音声認識を行って音声認識結果を取得し、上記音声認識結果と上記少なくとも1つの要素の要素内容情報をマッチングし、上記音声認識結果と上記少なくとも1つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、上記ページ制御情報を端末に送信して、上記端末が上記ページ制御情報に基づいて上記表示されたページを制御するようにする。ここで、上記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、上記ターゲット要素は、実行待ち操作の対象となる要素である。
以上の記載は、本発明の好適な実施形態及び運用される技術原理に対する説明だけである。当業者であれば、本発明にかかる発明範囲は、上記技術特徴の特定の組み合わせからなる技術案に限定されず、上記発明構想から逸脱されない限り、上記技術特徴又は同等特徴による任意の組み合わせで形成される他の技術案も同時に含まれるべきであることを理解する。例えば上記特徴と本発明に開示された(それらに限定されない)類似の機能を具備する技術特徴が互いに置換されて得られる技術案は該当する。

Claims (22)

  1. ページを制御する方法であって、
    端末から送信された音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とを受信するステップであって、前記要素情報は、要素識別子と要素内容情報とを含む、ステップと、
    前記音声情報が前記表示されたページを制御するためのものであると確定されたことに応じて、前記音声情報に対して音声認識を行って音声認識結果を取得するステップと、
    前記音声認識結果と前記少なくとも1つの要素の要素内容情報とをマッチングするステップと、
    前記音声認識結果と前記少なくとも1つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、前記ページ制御情報を前記端末に送信して、前記端末が前記ページ制御情報に基づいて前記表示されたページを制御するようにするステップであって、前記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、ステップと、
    を含むことを特徴とするページを制御する方法。
  2. 前記音声認識結果と前記少なくとも1つの要素の要素内容情報とをマッチングするステップは、
    前記少なくとも1つの要素における各要素の要素内容情報に対して、前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定するステップを含むことを特徴とする請求項1に記載の方法。
  3. 前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定するステップは、
    前記音声認識結果と当該要素の要素内容情報との間の第1の編集距離を算出するステップと、
    前記第1の編集距離が予め設定された第1の閾値を超えるか否かを確定するステップと、
    前記第1の編集距離が前記第1の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定するステップと、
    を含むことを特徴とする請求項2に記載の方法。
  4. 前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定するステップは、
    前記第1の編集距離が前記第1の閾値を超えると確定されたことに応じて、前記音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第2の編集距離を算出する、ステップと、
    前記第2の編集距離が予め設定された第2の閾値を超えるか否かを確定するステップと、
    前記第2の編集距離が前記第2の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要素とのマッチングが成功したと確定するステップと、
    前記第2の編集距離が前記第2の閾値を超えると確定されたことに応じて、前記音声認識結果と当該要素のマッチングが不成功であると確定するステップと、
    をさらに含むことを特徴とする請求項3に記載の方法。
  5. 前記要素情報は、表示されたページ内の要素の位置情報、表示されたページに対応するアプリケーションのアプリケーション名、および表示されたページに対応するアプリケーションのバージョン番号のうちの少なくとも1つをさらに含むことを特徴とする請求項1に記載の方法。
  6. 前記少なくとも1つの要素の要素情報は、ツリー構造で記憶され、
    前記音声認識結果と前記少なくとも1つの要素の要素内容情報とをマッチングするステップは、
    ツリー構造の各子ノードを走査するステップと、
    各子ノードの表す要素の要素内容情報と前記音声認識結果とをマッチングするステップを含むことを特徴とする請求項1に記載の方法。
  7. 前記実行待ち操作は、クリック操作であることを特徴とする請求項1に記載の方法。
  8. ページを制御する方法であって、
    ユーザから送信された音声情報の受信に応じて、前記音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とをサーバに送信するステップであって、前記要素情報は、要素識別子と要素内容情報とを含む、ステップと、
    前記サーバから送信されたページ制御情報を受信するステップであって、前記ページ制御情報は、前記サーバにより前記音声情報が前記表示されたページを制御するためのものであると確定された後に生成されたものであり、前記ページ制御情報は実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は実行待ち操作の対象となる要素である、ステップと、
    前記ターゲット要素の要素識別子に基づいて、前記表示されたページ内の前記ターゲット要素の位置を確定し、確定された位置で前記実行待ち操作を実行するステップと、
    を含むことを特徴とするページを制御する方法。
  9. ページを制御する装置であって、
    端末から送信された音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とを受信する受信ユニットであって、前記要素情報は、要素識別子と要素内容情報とを含む受信ユニットと、
    前記音声情報が前記表示されたページを制御するためのものであると確定されたことに応じて、前記音声情報に対して音声認識を行って音声認識結果を取得する識別ユニットと、
    前記音声認識結果と前記少なくとも1つの要素の要素内容情報とをマッチングするマッチングユニットと、
    前記音声認識結果と前記少なくとも1つの要素の要素内容情報とのマッチングが成功したことに応じて、ページ制御情報を生成し、前記ページ制御情報を端末に送信して、前記端末が前記ページ制御情報に基づいて前記表示されたページを制御するようにする生成ユニットであって、前記ページ制御情報は、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、生成ユニットと、
    を含むことを特徴とするページを制御する装置。
  10. 前記マッチングユニットは、
    前記少なくとも1つの要素における各要素の要素内容情報に対して、前記音声認識結果と当該要素の要素内容情報との類似度を算出し、算出された類似度に基づいて、前記音声認識結果と当該要素のマッチングが成功するか否かを確定する計算ユニットを含むことを特徴とする請求項9に記載の装置。
  11. 前記計算ユニットは、第1の計算サブユニットを備え、
    前記第1の計算サブユニットは、
    前記音声認識結果と当該要素の要素内容情報との間の第1の編集距離を算出し、
    前記第1の編集距離が予め設定された第1の閾値を超えるか否かを確定し、
    前記第1の編集距離が前記第1の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要素の要素内容情報とのマッチングが成功したと確定することを特徴とする請求項10に記載の装置。
  12. 前記計算ユニットは、第2の計算サブユニットをさらに備え、
    前記第2の計算サブユニットは、
    前記第1の編集距離が前記第1の閾値を超えると確定されたことに応じて、前記音声認識結果に対応するピンインと、当該要素の要素内容情報に対応するピンインとの間の第2の編集距離を算出し、
    前記第2の編集距離が予め設定された第2の閾値を超えるか否かを確定し、
    前記第2の編集距離が前記第2の閾値を超えないと確定されたことに応じて、前記音声認識結果と当該要とのマッチングが成功したと確定し、
    前記第2の編集距離が前記第2の閾値を超えると確定されたことに応じて、前記音声認識結果と当該要素のマッチングが不成功であると確定することを特徴とする請求項11に記載の装置。
  13. 前記要素情報は、表示されたページ内の要素の位置情報、表示されたページに対応するアプリケーションのアプリケーション名、および表示されたページに対応するアプリケーションのバージョン番号のうちの少なくとも1つをさらに含むことを特徴とする請求項9に記載の装置。
  14. 前記少なくとも1つの要素の要素情報は、ツリー構造で記憶され、
    前記マッチングユニットは、
    ツリー構造の各子ノードを走査し、
    各子ノードの表す要素の要素内容情報と前記音声認識結果とをマッチングするようにさらに構成されていることを特徴とする請求項9に記載の装置。
  15. 前記実行待ち操作は、クリック操作であることを特徴とする請求項9に記載の装置。
  16. ページを制御する装置であって、
    ユーザから送信された音声情報の受信に応じて、前記音声情報と、表示されたページ内の少なくとも1つの要素の要素情報とをサーバに送信する送信ユニットであって、前記要素情報は、要素識別子と要素内容情報とを含む、送信ユニットと、
    前記サーバから送信されたページ制御情報を受信する情報受信ユニットであって、前記ページ制御情報は、前記サーバにより前記音声情報が前記表示されたページを制御するためのものであると確定された後に生成されたものであり、実行待ち操作とターゲット要素の要素識別子とを含み、前記ターゲット要素は、実行待ち操作の対象となる要素である、情報受信ユニットと、
    前記ターゲット要素の要素識別子に基づいて、前記表示されたページ内の前記ターゲット要素の位置を確定し、確定された位置で前記実行待ち操作を実行する実行ユニットと、
    を含むことを特徴とするページを制御する装置。
  17. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムが記憶されている記憶装置と、を備え、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1〜7のいずれか一項に記載の方法を実装させることを特徴とするサーバ。
  18. コンピュータプログラムが記憶されており、
    前記プログラムがプロセッサによって実行されるときに、請求項1〜7のいずれか一項に記載の方法が実現されることを特徴とするコンピュータ読み取り可能な記憶媒体。
  19. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムが記憶されている記憶装置と、を備え、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項8に記載の方法を実装させることを特徴とする端末。
  20. コンピュータプログラムが記憶されており、
    前記プログラムがプロセッサによって実行されるときに、請求項8に記載の方法が実現されることを特徴とするコンピュータ読み取り可能な記憶媒体。
  21. プロセッサによって実行されるときに、請求項1〜7のいずれか一項に記載の方法が実現されることを特徴とするコンピュータプログラム。
  22. プロセッサによって実行されるときに、請求項8に記載の方法が実現されることを特徴とするコンピュータプログラム。
JP2018174154A 2017-11-15 2018-09-18 ページを制御する方法および装置 Active JP6616473B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711126816.9A CN107919129A (zh) 2017-11-15 2017-11-15 用于控制页面的方法和装置
CN201711126816.9 2017-11-15

Publications (2)

Publication Number Publication Date
JP2019091418A JP2019091418A (ja) 2019-06-13
JP6616473B2 true JP6616473B2 (ja) 2019-12-04

Family

ID=61896300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018174154A Active JP6616473B2 (ja) 2017-11-15 2018-09-18 ページを制御する方法および装置

Country Status (3)

Country Link
US (1) US11221822B2 (ja)
JP (1) JP6616473B2 (ja)
CN (1) CN107919129A (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11183182B2 (en) * 2018-03-07 2021-11-23 Google Llc Systems and methods for voice-based initiation of custom device actions
KR20230051619A (ko) * 2018-03-07 2023-04-18 구글 엘엘씨 사용자 지정 디바이스 액션들의 음성 기반 시작을 위한 시스템들 및 방법들
CN108829371B (zh) * 2018-06-19 2022-02-22 Oppo广东移动通信有限公司 界面控制方法、装置、存储介质及电子设备
CN110673886B (zh) * 2018-07-03 2023-10-03 百度在线网络技术(北京)有限公司 用于生成热力图的方法和装置
CN109256124A (zh) * 2018-09-28 2019-01-22 上海连尚网络科技有限公司 一种用于用户设备端的语音指令创建方法
CN109522083B (zh) * 2018-11-27 2020-03-17 四川长虹电器股份有限公司 一种页面智能化响应交互系统及方法
CN115145529B (zh) * 2019-08-09 2023-05-09 华为技术有限公司 语音控制设备的方法及电子设备
CN110515921B (zh) * 2019-09-02 2021-11-02 江苏建筑职业技术学院 一种计算机人工智能信息筛选装置
US20210090558A1 (en) * 2019-09-24 2021-03-25 Audio Analytic Ltd Controlling a user interface
CN111367492B (zh) * 2020-03-04 2023-07-18 深圳市腾讯信息技术有限公司 网页页面展示方法及装置、存储介质
CN113643697A (zh) * 2020-04-23 2021-11-12 百度在线网络技术(北京)有限公司 一种语音控制方法、装置、电子设备及存储介质
CN111968637B (zh) * 2020-08-11 2024-06-14 北京小米移动软件有限公司 终端设备的操作模式控制方法、装置、终端设备及介质
CN111966939A (zh) * 2020-09-18 2020-11-20 北京百度网讯科技有限公司 页面跳转方法及装置
CN112114926B (zh) * 2020-09-25 2024-08-09 阿波罗智联(北京)科技有限公司 基于语音识别的页面操作方法、装置、设备和介质
CN112689177B (zh) * 2021-01-14 2023-11-03 海信电子科技(深圳)有限公司 一种实现快速交互的方法及显示设备
CN114968164A (zh) * 2021-02-25 2022-08-30 阿里巴巴集团控股有限公司 语音处理方法、系统、装置和终端设备
CN113299293A (zh) * 2021-05-25 2021-08-24 阿波罗智联(北京)科技有限公司 语音识别结果处理方法和装置、电子设备、计算机介质
CN113923295B (zh) * 2021-11-17 2023-04-07 Oppo广东移动通信有限公司 语音控制方法、装置、电子设备以及存储介质
CN116170646A (zh) * 2021-11-25 2023-05-26 中移(杭州)信息技术有限公司 一种机顶盒的控制方法和系统,及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091858A (ja) * 2000-09-13 2002-03-29 Sharp Corp 情報提供装置、情報生成装置、それらを接続した情報提供システム、それらの方法およびそれらのプログラムを記録した記録媒体
JP2003140682A (ja) * 2001-11-05 2003-05-16 Alpine Electronics Inc 音声認識装置及び音声辞書作成方法
JP3500383B1 (ja) * 2002-09-13 2004-02-23 コナミ株式会社 ゲーム装置、ゲーム装置の制御方法及びプログラム
JP2005084436A (ja) * 2003-09-09 2005-03-31 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム
JP2005322148A (ja) * 2004-05-11 2005-11-17 Mitsubishi Electric Corp ブラウザ装置
US7590626B2 (en) * 2006-10-30 2009-09-15 Microsoft Corporation Distributional similarity-based models for query correction
JP4845118B2 (ja) * 2006-11-20 2011-12-28 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
US8843376B2 (en) * 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
CN101376226B (zh) * 2007-08-28 2011-08-24 鸿富锦精密工业(深圳)有限公司 滚圆治具
KR20120080069A (ko) * 2011-01-06 2012-07-16 삼성전자주식회사 디스플레이 장치 및 그 음성 제어 방법
CN102831121B (zh) * 2011-06-15 2015-07-08 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
CN102829930B (zh) * 2012-07-11 2015-08-12 龚福岐 试漏机
US20140092904A1 (en) * 2012-10-03 2014-04-03 Research In Motion Limited System and method for requesting content using an electronic device
CN103914219B (zh) * 2013-01-04 2017-07-11 深圳市金蝶天燕中间件股份有限公司 页面控制方法和系统
CN103106900B (zh) * 2013-02-28 2016-05-04 用友网络科技股份有限公司 语音识别装置和语音识别方法
CN103474068B (zh) * 2013-08-19 2016-08-10 科大讯飞股份有限公司 实现语音命令控制的方法、设备及系统
CN105869640B (zh) * 2015-01-21 2019-12-31 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置
KR101652645B1 (ko) * 2015-07-13 2016-08-30 김강민 사용자 참여형 광고 장치 및 이를 이용한 광고 방법
CN105161106A (zh) * 2015-08-20 2015-12-16 深圳Tcl数字技术有限公司 智能终端的语音控制方法、装置及电视机系统
US10740384B2 (en) * 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
CN105224198A (zh) * 2015-09-09 2016-01-06 魅族科技(中国)有限公司 一种页面控制方法、页面控制装置及终端
KR20170032114A (ko) * 2015-09-14 2017-03-22 삼성전자주식회사 음성 인식 장치 및 그의 제어방법
US10931713B1 (en) * 2016-02-17 2021-02-23 Cequence Security, Inc. Passive detection of genuine web browsers based on security parameters
JP2017191418A (ja) * 2016-04-13 2017-10-19 ホーチキ株式会社 防災監視設備の受信機
CN106792242B (zh) * 2017-02-22 2020-10-09 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
US12026456B2 (en) * 2017-08-07 2024-07-02 Dolbey & Company, Inc. Systems and methods for using optical character recognition with voice recognition commands

Also Published As

Publication number Publication date
US20190147861A1 (en) 2019-05-16
CN107919129A (zh) 2018-04-17
JP2019091418A (ja) 2019-06-13
US11221822B2 (en) 2022-01-11

Similar Documents

Publication Publication Date Title
JP6616473B2 (ja) ページを制御する方法および装置
US11487503B2 (en) Interactive control method and device for voice and video communications
CN107210033B (zh) 基于众包来更新用于数字个人助理的语言理解分类器模型
US11011163B2 (en) Method and apparatus for recognizing voice
JP7222008B2 (ja) 動画クリップの検索方法及び装置
CN109981787B (zh) 用于展示信息的方法和装置
EP3523718B1 (en) Creating a cinematic storytelling experience using network-addressable devices
US20140304663A1 (en) Gesture Interface
WO2019128829A1 (zh) 动作执行方法、装置、存储介质及电子装置
JP2019008771A (ja) 情報入力方法
CN110968362B (zh) 应用运行方法、装置及存储介质
WO2020181783A1 (zh) 用于发送信息的方法和装置
US12047624B2 (en) Systems and methods for generating new content segments based on object name identification
US10997963B1 (en) Voice based interaction based on context-based directives
US20240089169A1 (en) Multi-device interface application
CN111539217B (zh) 一种用于自然语言内容标题消歧的方法、设备和系统
US11036468B2 (en) Human-computer interface for navigating a presentation file
JP2021108095A (ja) スピーチ理解における解析異常の情報を出力するための方法
CN105009205A (zh) 用于启用网络的设备上的语音识别输入的方法和系统
CN112309387A (zh) 用于处理信息的方法和装置
CN108153574B (zh) 应用程序处理方法、装置及电子设备
CN107205229B (zh) 用于在无线路由设备端发布信息的方法和装置
CN110634478A (zh) 用于处理语音信号的方法及装置
CN110942306A (zh) 数据处理方法、装置及电子设备
KR20200129346A (ko) 디스플레이 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180927

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191107

R150 Certificate of patent or registration of utility model

Ref document number: 6616473

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250