JP2020527753A

JP2020527753A - ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体

Info

Publication number: JP2020527753A
Application number: JP2020502486A
Authority: JP
Inventors: チョウシェン，; ダイタン，; シェンリョ，; カイファンウー，; ユドンリ，
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2018-05-23
Filing date: 2019-01-18
Publication date: 2020-09-10
Anticipated expiration: 2039-01-18
Also published as: CN108877791B; CN108877791A; WO2019223351A1; US11727927B2; US20200294505A1; JP6952184B2

Abstract

本願の実施例は、ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体を開示し、当該方法は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するステップと、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップと、音声命令説明情報に基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定するステップと、命令シーケンスを端末に送信して実行させるステップと、を含む。【選択図】図１

Description

優先権情報

本願は、２０１８年０５月２３日付に中国特許庁に提出した、中国特許出願番号が「２０１８１０５０１０７３.７」である中国特許出願の優先権を主張するものであり、当該出願のすべての内容は、引用により本願に組み込まれる。

本願の実施例は、コンピュータ技術の分野に関し、例えば、ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体に関する。

人工知能の発展により、音声インタラクションは、非常に競争力のあるインタラクション方式になる。インターネット製品にとって、従来のインタラクション方式を音声インタラクションと組み合わせることにより、ユーザにより良い体験をもたらすことができる。

しかし、既存の音声インタラクション方法には、以下の欠点が存在する。
１）音声インタラクションの機能と製品のビジネスロジックとの結合度が高く、分離してメンテナンスできない。
２）各開発者は、音声インタラクションの全プロセスに注目する必要があり、関連する詳細とプロセスを自分で実現する必要があるので、異なる音声インタラクション開発プログラムによって実装される機能を統合することが困難である。
３）音声インタラクション開発プロセスは標準化ができず、音声インタラクションを異なる応用シーンに迅速に拡張することができない。

以下は、本明細書で詳細に説明される主題の概要である。本概要は、請求項の保護範囲を限定するためではない。

本願の実施例は、音声インタラクション機能と製品のビジネスロジックとの結合度が高く、音声インタラクション機能の開発の統合性の欠如及び汎用性が低い課題を解決するために、ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体を提供する。

本願の実施例は、サーバに適用されるビューに基づく音声インタラクション方法を提供し、当該方法は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するステップであって、前記音声命令説明情報が、音声命令リストと前記音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップと、前記音声命令説明情報に基づいて、前記音声命令リストから前記操作意図とマッチングされる命令シーケンスを決定するステップと、前記命令シーケンスを端末に送信して実行させるステップと、を含む。

本願の実施例は、端末に適用されるビューに基づく音声インタラクション方法をさらに提供し、当該方法は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するステップであって、前記音声命令説明情報が、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、サーバから前記音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップと、を含む。

本願の実施例は、サーバに配置されるビューに基づく音声インタラクション装置をさらに提供し、当該装置は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するように構成される音声及び命令情報取得モジュールであって、前記音声命令説明情報が、音声命令リストと前記音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成される音声及び命令情報取得モジュールと、前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して語義認識を行い、ユーザの操作意図を取得するように構成される語義認識モジュールと、前記音声命令説明情報に基づいて、前記音声命令リストから前記操作意図とマッチングされる実行対象の命令シーケンスを決定するように構成される命令シーケンス決定モジュールと、前記実行対象の命令シーケンスを端末に送信して実行させるように構成される命令送信モジュールと、を備える。

本願の実施例は、端末に配置されるビューに基づく音声インタラクション装置をさらに提供し、当該装置は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するように構成される音声及び命令情報送信モジュールであって、前記音声命令説明情報が、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成される音声及び命令情報送信モジュールと、サーバから前記音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するように構成される命令シーケンス実行モジュールと、を備える。

本願の実施例は、サーバをさらに提供し、一又は複数のプロセッサと、一又は複数のプログラムを記憶するように構成される記憶装置と、を備え、前記一又は複数のプログラムが前記一の又は複数のプロセッサにより実行される場合、前記一又は複数のプロセッサが、本願の実施例のいずれかに記載のサーバに適用されるビューに基づく音声インタラクション方法を実現する。

本願の実施例は、端末をさらに提供し、一又は複数のプロセッサと、一又は複数のプログラムを記憶するように構成される記憶装置と、を備え、前記一又は複数のプログラムが前記一の又は複数のプロセッサにより実行される場合、前記一又は複数のプロセッサが、本願の実施例のいずれかに記載の端末に適用されるビューに基づく音声インタラクション方法を実現する。

本願の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供し、当該プログラムがプロセッサにより実行される場合に、本願の実施例のいずれかに記載のサーバに適用されるビューに基づく音声インタラクション方法を実現する。

本願の実施例は、別のコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供し、当該プログラムがプロセッサにより実行される場合に、本願の実施例のいずれかに記載の端末に適用されるビューに基づく音声インタラクション方法を実現する。

図面と詳細な説明を読んで理解した後に、他の側面を理解することができる。

本願の実施例１により提供されるビューに基づく音声インタラクション方法のフローチャートである。本願の実施例２により提供されるビューに基づく音声インタラクション方法のフローチャートである。本願の実施例３により提供されるビューに基づく音声インタラクション方法のフローチャートである。本願の実施例４により提供されるビューに基づく音声インタラクション方法のフローチャートである。本願の実施例５により提供されるビューに基づく音声インタラクション装置の概略構成図である。本願の実施例６により提供されるビューに基づく音声インタラクション装置の概略構成図である。本願の実施例７により提供されるサーバの概略構成図である。本願の実施例８により提供される端末の概略構成図である。

以下、図面及び実施例を参照して本願についてさらに詳しく説明する。なお、ここで説明される具体的な実施例は、単なる本願を解釈するためのものであり、本願を限定するものではない。なお、説明の便宜上、図面には、全部の構造ではなく、本願に関する一部だけが示される。

実施例１
図１は、本願の実施例１により提供されるビューに基づく音声インタラクション方法のフローチャートである。本実施例は、サーバに用いられ、ビューに基づく音声インタラクションを実現する場合に適用可能であり、当該方法は、ビューに基づく音声インタラクション装置によって実行されることができ、当該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現することができ、サーバに統合することができる。図１に示すように、当該方法は、具体的には、以下のようなステップを含む。
ステップＳ１１０において、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得し、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。

本実施例におけるビューは、端末上でユーザの音声によって操作できるビューを含み、ビューに表示される要素は、音声操作可能な要素と音声操作不可能な要素とを含むため、音声命令（ｖｏｉｃｅ−ａｃｔｉｏｎ)は、ビューにおける音声操作可能な要素を対象とするものであり、音声命令は、ビュー要素を操作できるかどうかを决定するコア部分である。

音声命令説明情報は、開発者が、標準化された音声プログラミング言語に基づいて、端末のビュー要素に対応する操作基づいて予め設定された音声インタラクション配置情報であり、ビューにおいて、各音声操作可能な要素には、いずれも対応する音声命令及び関連配置情報がある。前記音声プログラミング言語は、本実施例において開発者が音声インタラクション機能の標準化と汎用性を実現するために専用に開発したコンピュータプログラム言語であり、その主な目的は、音声インタラクション機能とビュープレゼンテーションロジックを分離して、音声インタラクション機能のプログラミング複雑度を簡略化し、音声インタラクションプロセス及び音声インタラクション機能のコードロジックを汎用化し、音声インタラクションコアテクノロジをパッケージングすることによって、製品の開発者に仕様と基盤フレームワーク、すなわち一つの汎用的な処理プロセスを提供し、簡単で実用的な高度なアプリケーションプログラミングインターフェイス（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ、ＡＰＩ）に基づいて、製品の開発者が、ｈｔｍｌビュー、ｘｍｌビュー、又はｊｓｘビューなどのビューに、豊富な音声インタラクション機能を迅速に増加する効果を実現する。

音声命令説明情報における音声命令は、ビュー要素の属性として存在し、ユーザが実行できる音声操作を説明するために用いられ、スクリプトでその機能を拡張することができるとともに、音声命令は汎用性があり、ビューにおけるコンポーネントと柔軟に組み合わせることができる。音声命令の関連配置情報は、音声属性（ｖｏｉｃｅ−ｃｏｎｆｉｇ）によって配置されることができる。音声命令説明情報における音声命令リストは、現在表示されるビューにおけるすべての音声命令を指し、收集してリストの形式で整理することができる。

ステップＳ１２０において、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得する。

要素のビュー説明情報は、ビューの具体的な配置に関連する要素名と、テキストタグと、要素のビューにおける座標分布などの表現シーン情報とを含み、サーバは、要素のビュー説明情報に基づいて、ユーザの音声情報に対して語義認識を行い、ユーザの音声におけるキー情報とビューにおける要素をマッチングして、現在表示されるビューに適合するユーザの操作意図を取得することができる。

ステップＳ１３０において、音声操作可能な要素の音声命令説明情報に基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定する。

ユーザの操作意図が決定された後、ユーザの操作意図と音声操作可能な要素の音声命令説明情報との間のマッチングによって、実行する必要がある命令シーケンスを決定することができる。

上記の技術案に基づいて、選択可能に、サーバによって取得された端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報は、音声タグをさらに含み、音声タグは、ビューにおける音声操作可能な要素の情報を説明するように構成される。

音声タグは、ビュー内容に対する認識と理解を支援するように設け、対応する音声命令をより正確に見つけることができる。ビューのレイアウトの複雑さに基づいて、音声プログラミング言語の開発者は、音声タグに対して適応的に設置することができる。例えば、簡単なビューについては、音声命令とビューにおける操作は、決定される一対一関係が存在し、音声タグを設置しなくてもよく、複雑なビューについては、音声命令が同じであるが、ビューにおける異なる操作に実質的に対応する要素が存在する可能性がある場合を考慮して、音声タグを設置する必要がある。例えば、ユーザが音声でチケットを購入する時、ユーザの音声情報が場所Ｘから場所Ｙまでのチケットを購入することである場合、列車の切符又は航空券にも関わらず、ビューにおいて、アドレス入力ボックスに出発地と到着地をすべて入力する必要があり、時間ボックスで出発時間などを選択し、これらの操作に対応する音声命令は同じであり、この時、音声タグを使用して区別することができる。ユーザが航空券を購入すると発声した場合、航空券の購入に対応する操作可能な要素の音声タグに基づいて、具体的に実行する購入場所Ｘから場所Ｙまで航空券の音声命令を決定することができる。

また、異なるビューに対して、同じ音声命令に対応する異なる操作が存在する状況もあり、例えば、ビューＢとビューＫには、いずれもクリック操作があり、対応する音声命令は、提出することであり、ビューＢにおいて、提出に対応することは、一時停止操作であり、ビューＫにおいて提出に対応することは、リスト選択操作であり、この場合、開発者が本実施例で提出された音声プログラミング言語に基づいて、音声インタラクション機能開発プロセスに音声タグを配置し、対応する音声命令を追加することによって、異なるビューにおける音声命令の機能の区別を実現することができ、ビューＢとビューＫに対してそれぞれ単独の音声インタラクション機能開発を行う必要がなく、音声インタラクション機能開発の難しさを軽減し、音声インタラクションの汎用性を増加し、異なる応用シーンに迅速に拡張することができる。

なお、現在、音声インタラクションの実現は、通常、ユーザが入力した音声情報を語義認識した後に表示ページの制御可能な制御オブジェクトの情報とマッチングして、対応するページ操作をトリガし、制御可能な制御オブジェクトは、音声命令化されておらず、標準化された音声プログラミング言語が統合に形成されてなく、特に、ビューの音声操作可能な要素のデータ説明に対して、フロントエンド開発エンジニアと戦略開発エンジニアが一緒に、対応するデータと音声操作内容を、コードで１つずつ実現する必要があり、後続のアップグレードとイテレーションに対して両方とも非常に複雑である。

本実施例では、ユーザが入力した音声情報と、ビュー要素の音声命令化された音声命令説明情報とをマッチングさせ、音声命令説明情報は、標準化された音声プログラミング言語に基づいて設置された音声命令及びその配置情報である。本実施例の技術案は、命令マッチングプロセスにおいて、サーバがユーザにより入力された音声情報を、直接に命令化されたビュー要素の具体的な命令と命令配置情報に対応させることに相当し、開発者は、ビューにおけるコンポーネントを具体的に処理する必要がなく、ビューにおける音声操作可能な要素に対応する音声命令及び命令配置情報に注目するだけで、音声インタラクション機能と製品のビジネスロジックの分離を実現し、分離してメンテナンスしやすくなる。明らかに、従来の手段では、この分離機能が実現されておらず、音声インタラクション開発中に開発者が実現しようとする音声インタラクション機能に対して同時にビューコンポーネントを処理する必要がある。

ステップＳ１４０において、決定された命令シーケンスを端末に送信して実行させる。

サーバは、ユーザの操作意図とマッチングされる命令シーケンスを端末に送信し、端末は、受信された命令シーケンスに基づいて対応する操作を実行して、ユーザの要求を完了させる。

本実施例の技術案は、標準化された音声プログラミング言語に基づいて実現され、まず、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得し、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得し、さらに、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定し、最後に、当該命令シーケンスを端末に送信し実行する。本実施例は、音声インタラクション機能と製品のビジネスロジックとの結合度が高く、音声インタラクション機能の開発の統合性の欠如及び汎用性が低い課題を解決し、音声インタラクション機能開発プロセスにおいて、開発者がビューにおける音声操作可能な要素に対して音声命令説明情報の配置を行えばよく、特に、タグの形式で音声命令を追加することができ、音声インタラクション機能と製品のビジネスロジックの分離を実現し、分離してメンテナンスしやすくなり、音声インタラクション機能開発の統合性と標準化を実現し、音声インタラクション機能の汎用性をさらに向上させ、異なる応用シーンに迅速に拡張することができる。

実施例２
図２は、本願の実施例２により提供されるビューに基づく音声インタラクション方法のフローチャートである。本実施例は、上記の実施例に基づいてさらに最適化する。図２に示すように、当該方法は、具体的に以下のようなステップを含む。
ステップＳ２１０において、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得する。

ステップＳ２２０において、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して音声認識を行い、対応するクエリテキストを取得する。

選択可能に、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して音声認識を行い、対応するクエリテキストを取得するステップは、予めトレーニングされた音響モデルを使用してユーザの音声情報のオーディオ信号の音響特徴を予測するステップと、予めトレーニングされた言語モデルを使用して、音声操作可能な要素のビュー説明情報に基づいて予測された音響特徴を動的にデコードし、対応するクエリテキストを生成するステップと、を含む。

その中、言語文字の豊富さによって、同音多義語などの状況がよく発生するため、ビュー説明情報を組み合わせて音響特徴を動的にデコードし、すなわちビュー構造及びビューにおける各要素間の関係を組み合わせて音響特徴を動的にデコードすることによって、音声情報に対応するクエリテキストを的確に認識し、ユーザの意図をより正確に認識する。

サーバは、音響モデルと言語モデルを使用して、特徴予測と動的にデコードによって、ユーザの音声情報に対応するクエリテキストを生成することができ、本分野の他の音声認識方法を使用してクエリテキストを取得することもでき、本実施例は、これらを限定しない。音響モデルは、隠れマルコフモデルを含むが、これらに限定されず、動的にデコードは、音声デコーダを使用して実現することもできる。

ステップＳ２３０において、音声操作可能な要素のビュー説明情報から音声操作可能な要素のテキストタグを抽出し、テキストタグは、音声操作可能な要素のタイプと属性とを含む。

ビューの構築に基づいて、ビュー要素は、複数のタイプを含むことができ、テキストタグは、ビュー要素の区別を実現することができる。サーバは、ユーザの音声情報に対して音声認識を行うプロセスでは、ユーザの音声情報に対応するクエリテキストに対して語義ラベル付けを行い、ビューによって表示される内容を組み合わせてユーザの意図をよりよく理解するように、要素のテキストタグを同時に抽出することができる。

なお、ステップＳ２２０とステップＳ２３０の実行順番は限定されず、語義ラベル付けを行う前、ユーザの音声情報に対応するクエリテキストと要素のテキストタグを成功に取得することを保証すればよい。

ステップＳ２４０において、予めトレーニングされたラベル付けモデルを使用して、抽出されたテキストタグに基づいてクエリテキストに対して語義ラベル付けを行い、クエリテキストの語義ラベル付け結果を取得して、ユーザの操作意図とする。

音響モデルと、言語モデルと、ラベル付けモデルは、語義認識プロセス中に周期的に更新して、語義認識の正確性を確保することができる。サーバは、ラベル付けモデルを使用してユーザの操作意図を取得し、音声命令リストで音声命令の決定を行うことができる。

ステップＳ２５０において、予め配置された語義と音声命令との対応関係と、音声命令説明情報とに基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定し、命令シーケンスには、少なくとも一つの音声命令のＩＤと、その配置情報におけるキー値と、が含まれる。

音声プログラミング言語の開発者は、音声機能の開発プロセスにおいて、語義と音声命令との間の対応関係を予め配置し、ユーザの操作意図を決定した後、当該対応関係とビューにおける音声操作可能な要素の音声命令説明情報を使用して音声命令を徐々に決定して、音声命令のＩＤと命令配置情報のキー値とを含む命令シーケンスを形成し、音声命令のＩＤは、音声命令の唯一の識別子であり、例えば、各音声命令のシーケンスにおける位置を識別するために用いられることができ、キー値は、音声命令に対応する具体的な実行特徴を識別するために用いられる。例えば、提出操作については、確認又はキャンセルの二つの場合を含み、対応する音声命令は、提出であり、命令配置情報のキー値は、確認（ＯＫ）又はキャンセル（ｃａｎｃｅｌ）であり、２分３０ｓまで早送りの再生操作については、対応する音声命令は、早送りであり、命令配置情報のキー値は、２分３０ｓであり、また、現在ビューに表示される内容は、俳優Ａの映画ランキングであり、ランキング分類は、ホットと、最新と、評価とを含み、ビューにおける音声命令は、三つのリストチェンジ（ｌｉｓｔｃｈａｇｅ)命令を含み、リストチェンジ命令の配置情報におけるキー値は、それぞれホットと、最新と、評価である。

選択可能に、命令シーケンスを決定するプロセスには、予め配置された語義と音声命令との対応関係を使用して、音声命令リストから目標音声命令セットを決定し、音声タグと命令配置情報のキー値などの音声命令説明情報に基づいて、当該目標音声命令セットからユーザの操作意図とマッチングされる命令シーケンスを決定することを含むことができる。

例示的に、端末の現在のビューに表示される音楽プレイヤのメインインターフェースは、ユーザが入力した音声情報が『「勇気」、「未来」、「愛が過去になるとき」を聞きたい』などの複数の曲を聞きたい場合、サーバは、認識されたユーザの操作意図に基づいて、まず、現在ビューで曲を選択する操作の音声命令は、選択であることを決定し、音声タグ-曲リストに基づいて、複数の曲名を含む目標音声命令セットを決定し、目標音声命令セットにおいて、各曲名は、一つの選択された音声サブ命令に対応し、次に、ユーザの音声情報における具体的な曲名に基づいて、それぞれ「勇気」、「未来」、「愛が過去になるとき」との三つの曲名を音声命令の配置情報のキー値とし、目標音声命令セットから「勇気」、「未来」、「愛が過去になるとき」との三つの曲を選択する音声命令シーケンスを決定する。また、音声タグ-曲リストに基づいて、目標音声命令セットを決定しなく、直接にユーザの音声情報における曲名に基づいて、具体的な曲名を選択する音声命令を１つずつ決定し、次に、リスト形式で端末に送信する。

ステップＳ２６０において、決定された命令シーケンスを端末に送信して実行させる。

本実施例の技術案は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得し、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して順次に音声認識と語義ラベル付けを行った後、ユーザの操作意図を取得し、さらに、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定し、最後に、当該命令シーケンスを端末に送信して実行させる。本実施例は、音声インタラクション機能と製品のビジネスロジック結合度が高く、音声インタラクション機能の開発の統合性の欠如及び汎用性が低い課題を解決し、音声インタラクション機能開発プロセスにおいて、開発者がビューにおける音声操作可能な要素に対して音声命令説明情報の配置を行えばよい、音声インタラクション機能と製品のビジネスロジックの分離を実現し、分離してメンテナンスしやすくなり、音声インタラクション機能開発の統合性と標準化を実現し、音声インタラクション機能の汎用性をさらに向上させ、異なる応用シーンに迅速に拡張することができる。

実施例３
図３は、本願の実施例３により提供されるビューに基づく音声インタラクション方法のフローチャートである。本実施例は、端末に適用されてビューに基づく音声インタラクションを実現する場合に適用可能であり、本願の上記の実施例においてサーバに適用されたビューに基づく音声インタラクション方法と結合して実行される。当該方法は、ビューに基づく音声インタラクション装置によって実行されることができ、当該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現することができ、携帯電話、タブレット、パーソナルコンピュータなどのスマート端末のような端末に統合することができる。図３に示すように、当該方法は、具体的に以下のようなステップを含む。
ステップＳ３１０において、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信し、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。

選択可能に、音声命令説明情報は、音声タグをさらに含み、音声タグは、ビューにおける音声操作可能な要素の情報を説明するように構成される。

端末は、ユーザの音声情報をモニタリングし、具体的には、マイク又は端末に接続された外部音声収集装置などを介してユーザの音声情報を収集することができ、次に、サーバに送信する。端末プロセッサがユーザの音声入力イベントをモニタリングした場合、端末プロセッサは、同時に現在表示されるビューにおける音声操作可能な要素の音声命令説明情報をサーバに送信する。端末とサーバとの間には、ネットワーク通信によって情報とデータの共有を実現することができる。

なお、端末が音声情報をモニタリングした後、現在表示されるビューにおける音声命令を初期化する必要があり、そのプロセスは、音声オブジェクト初期化、音声命令初期化、音声命令データ收集の三つのステップを含むことができる。例示的には、音声オブジェクト初期化は、ユーザの音声入力のモニタリングと、音声オブジェクト配置の登録と、ビューページ音声オブジェクトの初期化と、を含み、音声命令初期化は、ビューのドキュメントオブジェクトモデル（ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅｌ、ＤＯＭ）解析と、命令配置の構築と、命令配置の初期化と、を含み、音声命令データ收集は、データ提供命令の配置と、命令プロセッサの構築と、データ情報の更新と、を含む。

ステップＳ３２０において、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、命令シーケンスにおける音声命令に対応する命令処理ロジックを実行する。

サーバがユーザの音声情報と音声操作可能な要素の音声命令説明情報とに基づいて、命令分析を行い、マッチングした命令シーケンスを決定した後、命令シーケンスを端末に送信する。端末は、サーバの応答を受信し、対応する命令シーケンスを端末の命令ルータに送信する。命令ルータは、命令シーケンスに基づいて、実行しようとする音声命令を決定して、対応する音声命令を初期化し、次に、対応する命令処理ロジックを実行する。

選択可能に、命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップは、命令シーケンスにおける音声命令に対応する命令処理ロジックを実行し、実行中に、命令処理ロジックに対応する音声イベントを取得し、当該音声イベントを実行するステップを含み、音声イベントは、音声命令が実行中に処理する必要がある製品ロジックを定義するように構成される。

音声イベントは、ビューにおける具体的な命令処理ロジックに基づいて、音声命令の実行方式又は製品の表示効果などのような、カストマイズした製品ロジックを定義するように設置することができる。例えば、現在のビューに表示される内容は、俳優Ａのホット映画ランキングであり、ランキング分類は、最新と評価とをさらに含み、ビューにおける音声命令は、三つのリストチェンジ（ｌｉｓｔｃｈａｇｅ)命令を含み、リストチェンジ命令の配置情報におけるキー値は、それぞれホット、最新、評価であり、ユーザが入力した音声情報は、俳優Ａの映画評価ランキング２位の映画を見たい場合、端末は、受信された命令シーケンスに基づいて、現在表示されるホット映画ランキングを評価映画ランキングに切り替えるとともに、評価映画ランキング２位の映画をロックして再生し、再生する前に、２位の映画の再生に関連する音声イベントに基づいて、例えば、第２の映画のポスターを特別表示し、具体的に当該映画のポスターアイコンを拡大とハイライト展示し、次に、映画の再生を行う。したがって、音声イベントの設置は、音声インタラクション機能の多様化と面白さを増加させ、ユーザにより良い使用体験を発生させることができる。

本実施例の技術案は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信し、次に、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、対応する処理ロジックを実行することによって、音声インタラクション機能と製品のビジネスロジック結合度が高く、音声インタラクション機能の開発の統合性の欠如及び汎用性が低い課題を解決し、音声インタラクション機能と製品のビジネスロジックの分離を実現し、音声インタラクション機能の標準化を実現し、音声インタラクション機能の汎用性をさらに向上させ、異なる応用シーンに迅速に拡張することができる。

実施例４
図４は、本願の実施例４により提供されるビューに基づく音声インタラクション方法のフローチャートである。本実施例は、上記の実施例に基づいてさらに最適化する。図４に示すように、当該方法は、具体的に以下のようなステップを含む。
ステップＳ４１０において、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信し、音声命令説明情報は、音声命令リストと、音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。

ステップＳ４２０において、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、命令シーケンスには、少なくとも一つの音声命令のＩＤと、その配置情報におけるキー値とが含まれる。

ステップＳ４３０において、命令シーケンスに一つの音声命令のＩＤとその配置情報におけるキー値とが含まれる場合、音声命令ＩＤとキー値とに基づいて対応する命令処理ロジックを実行する。

ユーザが入力した音声情報と音声操作可能な要素に対応する音声命令とが一対一の対応関係がある場合、ユーザの現在音声情報に基づいて唯一の音声命令をマッチングされることができ、ユーザと複数回のインタラクションをする必要がない。例えば、ユーザの音声情報は、確認であり、対応する音声命令は、提出である場合、音声命令のキー値は、確認（ＯＫ）であり、端末は提出命令に基づいて確認操作を実行する。

ステップＳ４４０において、命令シーケンスに二つ以上の音声命令のＩＤとその配置情報におけるキー値とが含まれる場合、端末とのインタラクションによって命令シーケンスにおける目標音声命令を決定し、目標音声命令のＩＤとキー値とに基づいて対応する命令処理ロジックを実行する。

ユーザが入力した音声情報と音声操作可能な要素対応する音声命令が一対多の対応関係がある場合、ユーザと端末とのインタラクションによって、最終的な目標音声命令を決定する必要がある。例えば、現在表示されるプレーヤービューにおいて、ユーザが入力した音声情報は、曲を聴くことであり、対応する音声命令は、選択であり、音声タグ-曲リストに基づいて、複数の曲を含む再生音声命令の命令シーケンスを決定することができ、この時、ユーザが曲名Ｒに関する音声情報を続けて入力する必要があり、ユーザが具体的に聞きたい曲名Ｒの再生音声命令を決定することができ、さらに端末は当該音声命令に基づいて曲Ｒを再生する。

本実施例の技術案は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信し、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、最後に、命令シーケンスに含まれる命令の数に基づいて、ユーザとのインタラクションによって目標音声命令を決定し、対応する処理ロジックを実行することによって、音声インタラクション機能と製品のビジネスロジック結合度が高く、音声インタラクション機能の開発の統合性の欠如及び汎用性が低い課題を解決し、音声インタラクション機能と製品のビジネスロジックの分離を実現し、音声インタラクション機能の標準化を実現し、音声インタラクション機能の汎用性をさらに向上させ、異なる応用シーンに迅速に拡張することができる。

以下は、本願の実施例により提供されるビューに基づく音声インタラクション装置の実施例であり、当該装置は、上記の各実施例のビューに基づく音声インタラクション方法と同一の発明発想に属し、ビューに基づく音声インタラクション装置の実施例に詳細に説明されていない詳細な内容は、上記のビューに基づく音声インタラクション方法の実施例を参照することができる。

実施例５
図５は、本願の実施例５により提供されるサーバに配置されることができるビューに基づく音声インタラクション装置の概略構成図である。本実施例は、ビューに基づく音声インタラクションを実現する場合に適用することができる。本願の実施例により提供されるビューに基づく音声インタラクション装置は、本願の実施例のいずれかにより提供されるサーバに適用されるビューに基づく音声インタラクション方法を実行することができ、方法を実行することに対応する機能モジュールと有益な効果を備える。図５に示すように、当該装置は、具体的に、音声及び命令情報取得モジュール５１０と、語義認識モジュール５２０と、命令シーケンス決定モジュール５３０と、命令送信モジュール５４０とを備える。
音声及び命令情報取得モジュール５１０は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するように設置され、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。

選択可能に、音声及び命令情報取得モジュール５１０で取得された音声命令説明情報には、音声タグをさらに含み、音声タグは、ビューにおける音声操作可能な要素の情報を説明するように構成される。

語義認識モジュール５２０は、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得するように構成される。

命令シーケンス決定モジュール５３０は、音声操作可能な要素の音声命令説明情報に基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定するように構成される。

選択可能に、命令シーケンス決定モジュール５３０は、具体的に、予め配置された語義と音声命令との対応関係と、音声命令説明情報とに基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定するように設置され、命令シーケンスには、少なくとも一つの音声命令のＩＤと、その配置情報におけるキー値と、が含まれる。

命令送信モジュール５４０は、決定された命令シーケンスを端末に送信して実行させるように構成される。

上記の技術案に基づいて、選択可能に、語義認識モジュール５２０は、クエリテキスト決定ユニットと、テキストタグ抽出ユニットと、操作意図決定ユニットとを含み、クエリテキスト決定ユニットは、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して音声認識を行い、対応するクエリテキストを取得するように設置され、テキストタグ抽出ユニットは、音声操作可能な要素のビュー説明情報から音声操作可能な要素のテキストタグを抽出するように設置され、テキストタグは、音声操作可能な要素のタイプと、属性とを含み、操作意図決定ユニットは、予めトレーニングされたラベル付けモデルを使用して、抽出されたテキストタグに基づいてクエリテキストに対して語義ラベル付けを行い、クエリテキストの語義ラベル付け結果を取得して、ユーザの操作意図とするように構成される。

選択可能に、クエリテキスト決定ユニットは、音響特徴予測サブユニットとテキスト生成サブユニットとを含み、音響特徴予測サブユニットは、予めトレーニングされた音響モデルを使用してユーザの音声情報のオーディオ信号の音響特徴を予測するように設置され、テキスト生成サブユニットは、予めトレーニングされた言語モデルを使用して、音声操作可能な要素のビュー説明情報に基づいて予測により得られた音響特徴を動的にデコードし、対応するクエリテキストを生成するように構成される。

本実施例の技術案は、標準化された音声プログラミング言語に基づいて実現され、まず、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得し、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得し、さらに、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定し、最後に、当該命令シーケンスを端末に送信し実行する。本実施例は、音声インタラクション機能と製品のビジネスロジック結合度が高く、音声インタラクション機能の開発の統合性の欠如及び汎用性が低い課題を解決し、音声インタラクション機能開発プロセスにおいて、開発者がビューにおける音声操作可能な要素に対して音声命令説明情報の配置を行えばよい、音声インタラクション機能と製品のビジネスロジックの分離を実現し、分離してメンテナンスしやすくなり、音声インタラクション機能開発の統合性と標準化を実現し、音声インタラクション機能の汎用性をさらに向上させ、異なる応用シーンに迅速に拡張することができる。

実施例６
図６は、本願の実施例６により提供される端末に配置されることができるビューに基づく音声インタラクション装置の概略構成図である。本実施例は、ビューに基づく音声インタラクションを実現する場合に適用することができる。本願の実施例により提供されるビューに基づく音声インタラクション装置は、本願の実施例のいずれかにより提供される端末に適用されるビューに基づく音声インタラクション方法を実行することができ、方法を実行することに対応する機能モジュールと有益な効果を備える。図６に示すように、当該装置は、具体的に、音声及び命令情報送信モジュール６１０と、命令シーケンス実行モジュール６２０とを備える。
音声及び命令情報送信モジュール６１０は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するように設置され、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。

選択可能に、音声及び命令情報送信モジュール６１０で送信された音声命令説明情報には、音声タグをさらに含み、音声タグは、ビューにおける音声操作可能な要素の情報を説明するように構成される。

命令シーケンス実行モジュール６２０は、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するように構成される。

選択可能に、命令シーケンス実行モジュール６２０は、受信ユニットと実行ユニットとを備え、受信ユニットは、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信するように設置され、実行ユニットは、受信された命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するように構成される。

選択可能に、実行ユニットは、具体的に、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行し、実行中に、前記命令処理ロジックに対応する音声イベントを取得し、前記音声イベントを実行するように設置され、前記音声イベントは、音声命令が実行中に処理する必要がある製品ロジックを定義するように構成される。

選択可能に、命令シーケンス実行モジュール６２０で受信された命令シーケンスには、少なくとも一つの音声命令のＩＤと、その配置情報におけるキー値とが含まれ、相応的に、実行ユニットは、第１の実行サブユニットと第２の実行サブユニットとを含み、第１の実行サブユニットは、命令シーケンスに一つの音声命令のＩＤとその配置情報におけるキー値とが含まれる場合、音声命令ＩＤとキー値とに基づいて対応する命令処理ロジックを実行するように設置され、第２の実行サブユニットは、命令シーケンスに二つ以上の音声命令のＩＤとその配置情報におけるキー値とが含まれる場合、端末とのインタラクションによって命令シーケンスにおける目標音声命令を決定し、目標音声命令のＩＤとキー値とに基づいて対応する命令処理ロジックを実行するように構成される。

実施例７
図７は、本願の実施例７により提供されるサーバの概略構成図である。図７は、本願の実施形態を実現するのに適する例示的なサーバ７１２のブロック図である。図７に示されるサーバ７１２は、単なる一つの例であり、本願の実施例の機能及び使用範囲を一切制限しない。

図７に示すように、サーバ７１２は、汎用サーバの形式として表される。サーバ７１２のコンポーネントは、一つ又は複数のプロセッサ７１６又は記憶装置７２８と、異なるシステムコンポーネント（記憶装置７２８とプロセッサ７１６とを含む）を接続するバス７１８とを含むことができるが、これらに限定されない。

バス７１８は、下記のような複数のバス構造のうちの一つ又は複数のものを示し、前記複数のバス構造は、記憶装置バス又は記憶装置コントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうちの任意のバス構造を使用するローカルバスを含む。例をあげると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ（ＩｎｄｕｓｔｒｙＳｕｂｖｅｒｓｉｖｅＡｌｌｉａｎｃｅ、ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ、ＭＡＣ）バス、拡張ＩＳＡバス、ビデオエレクトロニクススタンダーズアソシエーション（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ、ＶＥＳＡ）ローカルバス、及びペリフェラルコンポーネントインターコネクト（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ、ＰＣＩ）バスを含むが、これらに限定されない。

サーバ７１２は、典型的には、多種類のコンピュータシステム読み取り可能な媒体を備える。これらの媒体は、サーバ７１２がアクセスすることができる任意の使用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む。

記憶装置７２８は、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）７３０及び／又はキャッシュメモリ４３２などの揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を備えていてもよい。サーバ７１２は、他のリムーバブル／ノンリムーバブル、揮発性／不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。単なる一例として、ストレージシステム７３４は、ノンリムーバブル、不揮発性磁気媒体（図７に示されていないが、通常「ハードアクチュエータ」と呼ぶ）に対して読み出し及び書き込みをするために用いることができる。図７に示されていないが、リムーバブル、不揮発性磁気ディスク（例えば、「フロッピーディスク」）に対して読み出し及び書き込みをするための磁気ディスクアクチュエータ、及びリムーバブル、不揮発性光学ディスク（例えば、コンパクトディスク読み取り専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＣＤ−ＲＯＭ）、デジタルビデオディスク読み取り専用メモリ（ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＤＶＤ−ＲＯＭ）又は他の光学媒体）に対して読み出し及び書き込みをするための光学ディスクアクチュエータを提供することができる。この場合、各アクチュエータは、一つ又は複数のデータメディアインターフェイスを介してバス７１８に接続することができる。記憶装置７２８は、本願の各実施例に記載の機能を実行するように構成されるワンセットのプログラムモジュール（例えば、少なくとも一つ）を有する少なくとも一つのプログラム製品を備えていてもよい。

ワンセットのプログラムモジュール７４２（少なくとも一つ）を有するプログラム／ユーティリティ７４０は、例えば、記憶装置７２８に記憶されてもよく、このようなプログラムモジュール７４２は、オペレーティングシステム、一つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータを含むことができるがこれらに限定されない。これらの例のそれぞれ又は何らかの組み合わせには、ネットワーク環境の実装が含まれる可能性がある。プログラムモジュール７４２は、通常本願に記載の実施例における機能及び／又は方法を実行する。

サーバ７１２は、一つ又は複数の外部デバイス７１４（例えば、キーボード、ポインティング端末、ディスプレイ７２４など）と通信することができ、ユーザがサーバ７１２とインタラクションすることを可能にする一つ又は複数の端末と通信することもでき、及び／又はサーバ７１２が一つ又は複数の他のコンピューティングデバイスと通信することを可能にする任意の端末（例えば、ネットワークカード、モデムなど）と通信することができる。そのような通信は、入力／出力（Ｉ／Ｏ）インターフェイス７２２を介して行うことができる。また、サーバ７１２は、ネットワークアダプタ７２０を介して、一つ又は複数のネットワーク（例えば、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ＬＡＮ）、ワイドエリアネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、ＷＡＮ）、及び／又はパブリックネットワーク、例えば、インターネット）と通信することができる。図７に示すように、ネットワークアダプタ７２０は、バス７１８を介して、サーバ７１２の他のモジュールと通信する。なお、図示されていないが、マイクロコードや端末アクチュエータ、冗長プロセッサ、外部ディスクドライブアレイ、ディスクアレイ（ＲｅｄｕｎｄａｎｔＡｒｒａｙｓｏｆＩｎｄｅｐｅｎｄｅｎｔＤｉｓｋｓ、ＲＡＩＤ）システム、テープドライバ、及びデータバックアップトレージシステムなどを含むが、これらに限定されない他のハードウェア及び／又はソフトウェアモジュールを、サーバ７１２と組み合わせて使用することができる。

プロセッサ７１６は、記憶装置７２８に記憶されるプログラムを実行することにより、多様な機能アプリケーション及びデータ処理を実行し、例えば、本願の実施例が提供するサーバに適用されるビューに基づく音声インタラクション方法を実現する。当該方法は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するステップであって、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップと、音声操作可能な要素の音声命令説明情報に基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定するステップと、決定された命令シーケンスを端末に送信して実行させるステップと、を含む。

実施例８
図８は、本願の実施例８により提供される端末の概略構成図である。図８は、本願の実施形態を実現するのに適する例示的な端末８１２のブロック図である。図８に示される端末８１２は、単なる一つの例であり、本願の実施例の機能及び使用範囲を一切制限しない。

図８に示すように、端末８１２は、汎用端末の形式として表される。端末８１２のコンポーネントは、一つ又は複数のプロセッサ８１６又は記憶装置８２８と、異なるシステムコンポーネント（記憶装置８２８とプロセッサ８１６とを含む）を接続するバス８１８と、を備えることができるが、これらに限定されない。

バス８１８は、下記のような複数のバス構造のうちの一つ又は複数のものを示し、前記複数のバス構造は、記憶装置バス又は記憶装置コントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうちの任意のバス構造を使用するローカルバスを含む。例をあげると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ（ＩｎｄｕｓｔｒｙＳｕｂｖｅｒｓｉｖｅＡｌｌｉａｎｃｅ、ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ、ＭＡＣ）バス、拡張ＩＳＡバス、ビデオエレクトロニクススタンダーズアソシエーション（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ、ＶＥＳＡ）ローカルバス、及びペリフェラルコンポーネントインターコネクト（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ、ＰＣＩ）バスを備えるが、これらに限定されない。

端末８１２は、典型的には、多種類のコンピュータシステム読み取り可能な媒体を備える。これらの媒体は、端末８１２がアクセスすることができる任意の使用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む。

記憶装置８２８は、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）８３０及び／又はキャッシュメモリ４３２などの揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を備えてもよい。端末８１２は、他のリムーバブル／ノンリムーバブル、揮発性／不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。単なる一例として、ストレージシステム８３４は、ノンリムーバブル、不揮発性磁気媒体（図８に示されていないが、通常「ハードアクチュエータ」と呼ぶ）に対して読み出し及び書き込みをするために用いることができる。図８に示されていないが、リムーバブル、不揮発性磁気ディスク（例えば、「フロッピーディスク」）に対して読み出し及び書き込みをするための磁気ディスクアクチュエータ、及びリムーバブル、不揮発性光学ディスク（例えば、コンパクトディスク読み取り専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＣＤ−ＲＯＭ）、デジタルビデオディスク読み取り専用メモリ（ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＤＶＤ−ＲＯＭ）又は他の光学媒体）に対して読み出し及び書き込みをするための光学ディスクアクチュエータを提供することができる。この場合、各アクチュエータは、一つ又は複数のデータメディアインターフェイスを介してバス８１８に接続することができる。記憶装置８２８は、本願の各実施例に記載の機能を実行するように構成されるワンセットのプログラムモジュール（例えば、少なくとも一つ）を有する少なくとも一つのプログラム製品を備えてもよい。

ワンセットのプログラムモジュール８４２（少なくとも一つ）を有するプログラム／ユーティリティ８４０は、例えば、記憶装置８２８に記憶されてもよく、このようなプログラムモジュール８４２は、オペレーティングシステム、一つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータを含むことができるがこれらに限定されない。これらの例のそれぞれ又は何らかの組み合わせには、ネットワーく環境の実装が含まれる可能性がある。プログラムモジュール８４２は、通常本願に記載の実施例における機能及び／又は方法を実行する。

端末８１２は、一つ又は複数の外部デバイス８１４（例えば、キーボード、ポインティング端末、ディスプレイ８２４など）と通信することができ、ユーザが端末８１２とインタラクションすることを可能にする一つ又は複数の端末と通信することもでき、及び／又は端末８１２が一つ又は複数の他のコンピューティングデバイスと通信することを可能にする任意の端末（例えば、ネットワークカード、モデムなど）と通信することができる。そのような通信は、入力／出力（Ｉ／Ｏ）インターフェイス８２２を介して行うことができる。また、端末８１２は、ネットワークアダプタ８２０を介して、一つ又は複数のネットワーク（例えば、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ＬＡＮ）、ワイドエリアネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、ＷＡＮ）、及び／又はパブリックネットワーク、例えば、インターネット）と通信することができる。図８に示すように、ネットワークアダプタ８２０は、バス８１８を介して、端末８１２の他のモジュールと通信する。なお、図示されていないが、マイクロコードや端末アクチュエータ、冗長プロセッサ、外部ディスクドライブアレイ、ディスクアレイ（ＲｅｄｕｎｄａｎｔＡｒｒａｙｓｏｆＩｎｄｅｐｅｎｄｅｎｔＤｉｓｋｓ、ＲＡＩＤ）システム、テープドライバ、及びデータバックアップトレージシステムなどを備えるが、これらに限定されない他のハードウェア及び／又はソフトウェアモジュールを、端末８１２と組み合わせて使用することができる。

プロセッサ８１６は、記憶装置８２８に記憶されるプログラムを実行することにより、多様な機能アプリケーション及びデータ処理を実行し、例えば、本願の実施例が提供する端末に適用されるビューに基づく音声インタラクション方法を実現する。当該方法は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するステップであって、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップと、を含む。

実施例９
本願の実施例９は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供し、当該プログラムがプロセッサにより実行される場合に、本願の実施例により提供されるサーバに適用されるビューに基づく音声インタラクション方法を実現し、当該方法は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するステップであって、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップと、音声操作可能な要素の音声命令説明情報に基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定するステップと、決定された命令シーケンスを端末に送信して実行させるステップと、を含む。

本願の実施例のコンピュータ読み取り可能な媒体は、一つ又は複数のコンピュータ読み取り可能な媒体の任意の組み合わせを採用することができる。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、或いはコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な媒体は、例えば、電子、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例（非網羅的なリスト）は、一つ又は複数の配線を備える電気接続部、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ-ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせを含む。この文書において、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されることが可能であるプログラムを含む又は記憶する任意の有形の媒体であってもよい。

コンピュータ読み取り可能な信号媒体は、ベースバンドにおける、又は搬送波の一部として伝播するデータ信号を含むことができ、その中にはコンピュータ読み取り可能なプログラムコードが搭載される。この伝播するデータ信号は様々な形式を採用することができ、電磁信号、光信号又は上記の任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ読み取り可能な信号媒体は、さらに、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、当該コンピュータ読み取り可能な媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。

コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ケーブル、ＲＦなど、又は上記の任意の適切な組み合わせを含むが、これらに限定されない任意の適切な媒体によって伝送することができる。

一又は複数のプログラミング言語又はそれらの組み合わせで本願の動作を実行するためのコンピュータプログラムコードを作成することができ、前記プログラミング言語は、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのプロジェクト指向のプログラミング言語を含み、さらに、「Ｃ」言語又は同様のプログラミング言語といった従来の手続き型プログラミング言語をも含む。プログラムコードは、完全にユーザーコンピュータで実行されてもよく、部分的にユーザーコンピュータに実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザーコンピュータで、部分的にリモートコンピュータで実行されてもよく、又は完全にリモートコンピュータ又は端末で実行してもよい。リモートコンピュータに係る場合、リモートコンピュータは、ローカルネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意種類のインターネットを介して、ユーザーコンピュータに接続することができ、或いは、外部コンピュータ（例えば、インターネットサービスプロバイダを利用してインターネットを介して接続する）に接続することもできる。

本願の実施例は、別のコンピュータ読み取り可能な記憶媒体をさらに提供し、それに記憶されているコンピュータプログラムがプロセッサにより実行される場合、端末に適用されるビューに基づく音声インタラクション方法を実現することができ、当該方法は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するステップであって、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップと、を含む。

もちろん、本願の実施例により提供されるコンピュータ読み取り可能な記憶媒体において、そのコンピュータプログラムは、上記のような方法の操作に限定されず、本願の実施例のいずれかにより提供される端末に適用されるビューに基づく音声インタラクション方法の関連操作を実行することもできる。記憶媒体の紹介については、実施例９における内容の説明を参照することができる。

上記実施例により本願について比較的詳細に説明したが、本願は、上記実施例のみに限定されず、本願の構想を逸脱しない場合、より多くの他の効果同等な実施例をさらに含むことができ、本願の範囲は、特許請求の範囲によって决定される。

Claims

サーバに適用されるビューに基づく音声インタラクション方法であって、
ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するステップであって、前記音声命令説明情報が、音声命令リストと前記音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、
前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップと、
前記音声命令説明情報に基づいて、前記音声命令リストから前記操作意図とマッチングされる命令シーケンスを決定するステップと、
前記命令シーケンスを端末に送信して実行させるステップと、
を含むビューに基づく音声インタラクション方法。
前記音声命令説明情報が、ビューにおける音声操作可能な要素の情報を説明するように構成される音声タグをさらに含む請求項１に記載のビューに基づく音声インタラクション方法。
前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップが、
前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して音声認識を行い、対応するクエリテキストを取得するステップと、
前記音声操作可能な要素のビュー説明情報から前記音声操作可能な要素のテキストタグを抽出するステップであって、前記テキストタグが、前記音声操作可能な要素のタイプと属性とを含むステップと、
予めトレーニングされたラベル付けモデルを使用して、前記テキストタグに基づいて前記クエリテキストに対して語義ラベル付けを行い、前記クエリテキストの語義ラベル付け結果を取得して、ユーザの操作意図とするステップと、
を含む請求項１又は２に記載のビューに基づく音声インタラクション方法。
前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して音声認識を行い、対応するクエリテキストを取得するステップが、
予めトレーニングされた音響モデルを使用して前記音声情報のオーディオ信号の音響特徴を予測するステップと、
予めトレーニングされた言語モデルを使用して、前記音声操作可能な要素のビュー説明情報に基づいて前記音響特徴を動的にデコードし、対応するクエリテキストを生成するステップと、
を含む請求項３に記載のビューに基づく音声インタラクション方法。
前記音声命令説明情報に基づいて、前記音声命令リストから前記操作意図とマッチングされる命令シーケンスを決定するステップが、
予め配置された語義と音声命令との対応関係と、前記音声命令説明情報とに基づいて、前記音声命令リストから前記操作意図とマッチングされる命令シーケンスを決定するステップを含み、前記命令シーケンスには、少なくとも一つの音声命令のＩＤと、その配置情報におけるキー値と、を含む請求項１又は２に記載のビューに基づく音声インタラクション方法。
端末に適用されるビューに基づく音声インタラクション方法であって、
モニタリングされたユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するステップであって、前記音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、
サーバから前記音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップと、
を含むビューに基づく音声インタラクション方法。
前記音声命令説明情報が、ビューにおける音声操作可能な要素の情報を説明するように構成される音声タグを含む請求項６に記載のビューに基づく音声インタラクション方法。
前記命令シーケンスには、少なくとも一つの音声命令のＩＤと、その配置情報におけるキー値と、を含み、
相応的に、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップが、
前記命令シーケンスに一つの音声命令のＩＤとその配置情報におけるキー値とが含まれる場合、前記ＩＤとキー値とに基づいて対応する命令処理ロジックを実行するステップと、
前記命令シーケンスに二つ以上の音声命令のＩＤとその配置情報におけるキー値とが含まれる場合、端末とのインタラクションによって前記命令シーケンスにおける目標音声命令を決定し、目標音声命令のＩＤとキー値とに基づいて対応する命令処理ロジックを実行するステップと、
を含む請求項６又は７に記載のビューに基づく音声インタラクション方法。
前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップが、
前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行し、実行中に、前記命令処理ロジックに対応する音声イベントを取得し、前記音声イベントを実行するステップであって、前記音声イベントは、音声命令が実行中に処理する必要がある製品のロジックを定義するように構成されるステップを含む請求項６又は７に記載のビューに基づく音声インタラクション方法。
サーバに配置されるビューに基づく音声インタラクション装置であって、
ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するように構成される音声及び命令情報取得モジュールであって、前記音声命令説明情報が、音声命令リストと前記音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成される音声及び命令情報取得モジュールと、
前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して語義認識を行い、ユーザの操作意図を取得するように構成される語義認識モジュールと、
前記音声命令説明情報に基づいて、前記音声命令リストから前記操作意図とマッチングされる実行対象の命令シーケンスを決定するように構成される命令シーケンス決定モジュールと、
前記実行対象の命令シーケンスを端末に送信して実行させるように構成される命令送信モジュールと、
を備えるビューに基づく音声インタラクション装置。
端末に配置されるビューに基づく音声インタラクション装置であって、
モニタリングされたユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するように構成される音声及び命令情報送信モジュールであって、前記音声命令説明情報が、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成される音声及び命令情報送信モジュールと、
サーバから前記音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するように構成される命令シーケンス実行モジュールと、
を備える請求項に記載のビューに基づく音声インタラクション装置。
一又は複数のプロセッサと、
一又は複数のプログラムを記憶するように構成される記憶装置と、を備え、
前記一つ又は複数のプログラムが前記一つの又は複数のプロセッサにより実行される場合、前記一つ又は複数のプロセッサが、請求項１から５のいずれか一項に記載のビューに基づく音声インタラクション方法を実現するサーバ。
一又は複数のプロセッサと、
一又は複数のプログラムを記憶するように構成される記憶装置と、を備え、
前記一又は複数のプログラムが前記一の又は複数のプロセッサにより実行される場合、前記一又は複数のプロセッサが、請求項６から９のいずれか一項に記載のビューに基づく音声インタラクション方法を実現する端末。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
当該プログラムがプロセッサにより実行される場合に、請求項１から５のいずれか一項に記載のビューに基づく音声インタラクション方法を実現するコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
当該プログラムがプロセッサにより実行される場合に、請求項６から９のいずれか一項に記載のビューに基づく音声インタラクション方法を実現するコンピュータ読み取り可能な記憶媒体。