JP2020527753A - ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体 - Google Patents

ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体 Download PDF

Info

Publication number
JP2020527753A
JP2020527753A JP2020502486A JP2020502486A JP2020527753A JP 2020527753 A JP2020527753 A JP 2020527753A JP 2020502486 A JP2020502486 A JP 2020502486A JP 2020502486 A JP2020502486 A JP 2020502486A JP 2020527753 A JP2020527753 A JP 2020527753A
Authority
JP
Japan
Prior art keywords
voice
information
view
instruction
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020502486A
Other languages
English (en)
Other versions
JP6952184B2 (ja
Inventor
チョウ シェン,
チョウ シェン,
ダイ タン,
ダイ タン,
シェン リョ,
シェン リョ,
カイファン ウー,
カイファン ウー,
ユドン リ,
ユドン リ,
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2020527753A publication Critical patent/JP2020527753A/ja
Application granted granted Critical
Publication of JP6952184B2 publication Critical patent/JP6952184B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本願の実施例は、ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体を開示し、当該方法は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するステップと、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップと、音声命令説明情報に基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定するステップと、命令シーケンスを端末に送信して実行させるステップと、を含む。【選択図】図1

Description

優先権情報
本願は、2018年05月23日付に中国特許庁に提出した、中国特許出願番号が「201810501073.7」である中国特許出願の優先権を主張するものであり、当該出願のすべての内容は、引用により本願に組み込まれる。
本願の実施例は、コンピュータ技術の分野に関し、例えば、ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体に関する。
人工知能の発展により、音声インタラクションは、非常に競争力のあるインタラクション方式になる。インターネット製品にとって、従来のインタラクション方式を音声インタラクションと組み合わせることにより、ユーザにより良い体験をもたらすことができる。
しかし、既存の音声インタラクション方法には、以下の欠点が存在する。
1)音声インタラクションの機能と製品のビジネスロジックとの結合度が高く、分離してメンテナンスできない。
2)各開発者は、音声インタラクションの全プロセスに注目する必要があり、関連する詳細とプロセスを自分で実現する必要があるので、異なる音声インタラクション開発プログラムによって実装される機能を統合することが困難である。
3)音声インタラクション開発プロセスは標準化ができず、音声インタラクションを異なる応用シーンに迅速に拡張することができない。
以下は、本明細書で詳細に説明される主題の概要である。本概要は、請求項の保護範囲を限定するためではない。
本願の実施例は、音声インタラクション機能と製品のビジネスロジックとの結合度が高く、音声インタラクション機能の開発の統合性の欠如及び汎用性が低い課題を解決するために、ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体を提供する。
本願の実施例は、サーバに適用されるビューに基づく音声インタラクション方法を提供し、当該方法は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するステップであって、前記音声命令説明情報が、音声命令リストと前記音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップと、前記音声命令説明情報に基づいて、前記音声命令リストから前記操作意図とマッチングされる命令シーケンスを決定するステップと、前記命令シーケンスを端末に送信して実行させるステップと、を含む。
本願の実施例は、端末に適用されるビューに基づく音声インタラクション方法をさらに提供し、当該方法は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するステップであって、前記音声命令説明情報が、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、サーバから前記音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップと、を含む。
本願の実施例は、サーバに配置されるビューに基づく音声インタラクション装置をさらに提供し、当該装置は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するように構成される音声及び命令情報取得モジュールであって、前記音声命令説明情報が、音声命令リストと前記音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成される音声及び命令情報取得モジュールと、前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して語義認識を行い、ユーザの操作意図を取得するように構成される語義認識モジュールと、前記音声命令説明情報に基づいて、前記音声命令リストから前記操作意図とマッチングされる実行対象の命令シーケンスを決定するように構成される命令シーケンス決定モジュールと、前記実行対象の命令シーケンスを端末に送信して実行させるように構成される命令送信モジュールと、を備える。
本願の実施例は、端末に配置されるビューに基づく音声インタラクション装置をさらに提供し、当該装置は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するように構成される音声及び命令情報送信モジュールであって、前記音声命令説明情報が、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成される音声及び命令情報送信モジュールと、サーバから前記音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するように構成される命令シーケンス実行モジュールと、を備える。
本願の実施例は、サーバをさらに提供し、一又は複数のプロセッサと、一又は複数のプログラムを記憶するように構成される記憶装置と、を備え、前記一又は複数のプログラムが前記一の又は複数のプロセッサにより実行される場合、前記一又は複数のプロセッサが、本願の実施例のいずれかに記載のサーバに適用されるビューに基づく音声インタラクション方法を実現する。
本願の実施例は、端末をさらに提供し、一又は複数のプロセッサと、一又は複数のプログラムを記憶するように構成される記憶装置と、を備え、前記一又は複数のプログラムが前記一の又は複数のプロセッサにより実行される場合、前記一又は複数のプロセッサが、本願の実施例のいずれかに記載の端末に適用されるビューに基づく音声インタラクション方法を実現する。
本願の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供し、当該プログラムがプロセッサにより実行される場合に、本願の実施例のいずれかに記載のサーバに適用されるビューに基づく音声インタラクション方法を実現する。
本願の実施例は、別のコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供し、当該プログラムがプロセッサにより実行される場合に、本願の実施例のいずれかに記載の端末に適用されるビューに基づく音声インタラクション方法を実現する。
図面と詳細な説明を読んで理解した後に、他の側面を理解することができる。
本願の実施例1により提供されるビューに基づく音声インタラクション方法のフローチャートである。 本願の実施例2により提供されるビューに基づく音声インタラクション方法のフローチャートである。 本願の実施例3により提供されるビューに基づく音声インタラクション方法のフローチャートである。 本願の実施例4により提供されるビューに基づく音声インタラクション方法のフローチャートである。 本願の実施例5により提供されるビューに基づく音声インタラクション装置の概略構成図である。 本願の実施例6により提供されるビューに基づく音声インタラクション装置の概略構成図である。 本願の実施例7により提供されるサーバの概略構成図である。 本願の実施例8により提供される端末の概略構成図である。
以下、図面及び実施例を参照して本願についてさらに詳しく説明する。なお、ここで説明される具体的な実施例は、単なる本願を解釈するためのものであり、本願を限定するものではない。なお、説明の便宜上、図面には、全部の構造ではなく、本願に関する一部だけが示される。
実施例1
図1は、本願の実施例1により提供されるビューに基づく音声インタラクション方法のフローチャートである。本実施例は、サーバに用いられ、ビューに基づく音声インタラクションを実現する場合に適用可能であり、当該方法は、ビューに基づく音声インタラクション装置によって実行されることができ、当該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現することができ、サーバに統合することができる。図1に示すように、当該方法は、具体的には、以下のようなステップを含む。
ステップS110において、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得し、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。
本実施例におけるビューは、端末上でユーザの音声によって操作できるビューを含み、ビューに表示される要素は、音声操作可能な要素と音声操作不可能な要素とを含むため、音声命令(voice−action)は、ビューにおける音声操作可能な要素を対象とするものであり、音声命令は、ビュー要素を操作できるかどうかを决定するコア部分である。
音声命令説明情報は、開発者が、標準化された音声プログラミング言語に基づいて、端末のビュー要素に対応する操作基づいて予め設定された音声インタラクション配置情報であり、ビューにおいて、各音声操作可能な要素には、いずれも対応する音声命令及び関連配置情報がある。前記音声プログラミング言語は、本実施例において開発者が音声インタラクション機能の標準化と汎用性を実現するために専用に開発したコンピュータプログラム言語であり、その主な目的は、音声インタラクション機能とビュープレゼンテーションロジックを分離して、音声インタラクション機能のプログラミング複雑度を簡略化し、音声インタラクションプロセス及び音声インタラクション機能のコードロジックを汎用化し、音声インタラクションコアテクノロジをパッケージングすることによって、製品の開発者に仕様と基盤フレームワーク、すなわち一つの汎用的な処理プロセスを提供し、簡単で実用的な高度なアプリケーションプログラミングインターフェイス(Application Programming Interface、API)に基づいて、製品の開発者が、htmlビュー、xmlビュー、又はjsxビューなどのビューに、豊富な音声インタラクション機能を迅速に増加する効果を実現する。
音声命令説明情報における音声命令は、ビュー要素の属性として存在し、ユーザが実行できる音声操作を説明するために用いられ、スクリプトでその機能を拡張することができるとともに、音声命令は汎用性があり、ビューにおけるコンポーネントと柔軟に組み合わせることができる。音声命令の関連配置情報は、音声属性(voice−config)によって配置されることができる。音声命令説明情報における音声命令リストは、現在表示されるビューにおけるすべての音声命令を指し、收集してリストの形式で整理することができる。
ステップS120において、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得する。
要素のビュー説明情報は、ビューの具体的な配置に関連する要素名と、テキストタグと、要素のビューにおける座標分布などの表現シーン情報とを含み、サーバは、要素のビュー説明情報に基づいて、ユーザの音声情報に対して語義認識を行い、ユーザの音声におけるキー情報とビューにおける要素をマッチングして、現在表示されるビューに適合するユーザの操作意図を取得することができる。
ステップS130において、音声操作可能な要素の音声命令説明情報に基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定する。
ユーザの操作意図が決定された後、ユーザの操作意図と音声操作可能な要素の音声命令説明情報との間のマッチングによって、実行する必要がある命令シーケンスを決定することができる。
上記の技術案に基づいて、選択可能に、サーバによって取得された端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報は、音声タグをさらに含み、音声タグは、ビューにおける音声操作可能な要素の情報を説明するように構成される。
音声タグは、ビュー内容に対する認識と理解を支援するように設け、対応する音声命令をより正確に見つけることができる。ビューのレイアウトの複雑さに基づいて、音声プログラミング言語の開発者は、音声タグに対して適応的に設置することができる。例えば、簡単なビューについては、音声命令とビューにおける操作は、決定される一対一関係が存在し、音声タグを設置しなくてもよく、複雑なビューについては、音声命令が同じであるが、ビューにおける異なる操作に実質的に対応する要素が存在する可能性がある場合を考慮して、音声タグを設置する必要がある。例えば、ユーザが音声でチケットを購入する時、ユーザの音声情報が場所Xから場所Yまでのチケットを購入することである場合、列車の切符又は航空券にも関わらず、ビューにおいて、アドレス入力ボックスに出発地と到着地をすべて入力する必要があり、時間ボックスで出発時間などを選択し、これらの操作に対応する音声命令は同じであり、この時、音声タグを使用して区別することができる。ユーザが航空券を購入すると発声した場合、航空券の購入に対応する操作可能な要素の音声タグに基づいて、具体的に実行する購入場所Xから場所Yまで航空券の音声命令を決定することができる。
また、異なるビューに対して、同じ音声命令に対応する異なる操作が存在する状況もあり、例えば、ビューBとビューKには、いずれもクリック操作があり、対応する音声命令は、提出することであり、ビューBにおいて、提出に対応することは、一時停止操作であり、ビューKにおいて提出に対応することは、リスト選択操作であり、この場合、開発者が本実施例で提出された音声プログラミング言語に基づいて、音声インタラクション機能開発プロセスに音声タグを配置し、対応する音声命令を追加することによって、異なるビューにおける音声命令の機能の区別を実現することができ、ビューBとビューKに対してそれぞれ単独の音声インタラクション機能開発を行う必要がなく、音声インタラクション機能開発の難しさを軽減し、音声インタラクションの汎用性を増加し、異なる応用シーンに迅速に拡張することができる。
なお、現在、音声インタラクションの実現は、通常、ユーザが入力した音声情報を語義認識した後に表示ページの制御可能な制御オブジェクトの情報とマッチングして、対応するページ操作をトリガし、制御可能な制御オブジェクトは、音声命令化されておらず、標準化された音声プログラミング言語が統合に形成されてなく、特に、ビューの音声操作可能な要素のデータ説明に対して、フロントエンド開発エンジニアと戦略開発エンジニアが一緒に、対応するデータと音声操作内容を、コードで1つずつ実現する必要があり、後続のアップグレードとイテレーションに対して両方とも非常に複雑である。
本実施例では、ユーザが入力した音声情報と、ビュー要素の音声命令化された音声命令説明情報とをマッチングさせ、音声命令説明情報は、標準化された音声プログラミング言語に基づいて設置された音声命令及びその配置情報である。本実施例の技術案は、命令マッチングプロセスにおいて、サーバがユーザにより入力された音声情報を、直接に命令化されたビュー要素の具体的な命令と命令配置情報に対応させることに相当し、開発者は、ビューにおけるコンポーネントを具体的に処理する必要がなく、ビューにおける音声操作可能な要素に対応する音声命令及び命令配置情報に注目するだけで、音声インタラクション機能と製品のビジネスロジックの分離を実現し、分離してメンテナンスしやすくなる。明らかに、従来の手段では、この分離機能が実現されておらず、音声インタラクション開発中に開発者が実現しようとする音声インタラクション機能に対して同時にビューコンポーネントを処理する必要がある。
ステップS140において、決定された命令シーケンスを端末に送信して実行させる。
サーバは、ユーザの操作意図とマッチングされる命令シーケンスを端末に送信し、端末は、受信された命令シーケンスに基づいて対応する操作を実行して、ユーザの要求を完了させる。
本実施例の技術案は、標準化された音声プログラミング言語に基づいて実現され、まず、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得し、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得し、さらに、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定し、最後に、当該命令シーケンスを端末に送信し実行する。本実施例は、音声インタラクション機能と製品のビジネスロジックとの結合度が高く、音声インタラクション機能の開発の統合性の欠如及び汎用性が低い課題を解決し、音声インタラクション機能開発プロセスにおいて、開発者がビューにおける音声操作可能な要素に対して音声命令説明情報の配置を行えばよく、特に、タグの形式で音声命令を追加することができ、音声インタラクション機能と製品のビジネスロジックの分離を実現し、分離してメンテナンスしやすくなり、音声インタラクション機能開発の統合性と標準化を実現し、音声インタラクション機能の汎用性をさらに向上させ、異なる応用シーンに迅速に拡張することができる。
実施例2
図2は、本願の実施例2により提供されるビューに基づく音声インタラクション方法のフローチャートである。本実施例は、上記の実施例に基づいてさらに最適化する。図2に示すように、当該方法は、具体的に以下のようなステップを含む。
ステップS210において、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得する。
ステップS220において、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して音声認識を行い、対応するクエリテキストを取得する。
選択可能に、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して音声認識を行い、対応するクエリテキストを取得するステップは、予めトレーニングされた音響モデルを使用してユーザの音声情報のオーディオ信号の音響特徴を予測するステップと、予めトレーニングされた言語モデルを使用して、音声操作可能な要素のビュー説明情報に基づいて予測された音響特徴を動的にデコードし、対応するクエリテキストを生成するステップと、を含む。
その中、言語文字の豊富さによって、同音多義語などの状況がよく発生するため、ビュー説明情報を組み合わせて音響特徴を動的にデコードし、すなわちビュー構造及びビューにおける各要素間の関係を組み合わせて音響特徴を動的にデコードすることによって、音声情報に対応するクエリテキストを的確に認識し、ユーザの意図をより正確に認識する。
サーバは、音響モデルと言語モデルを使用して、特徴予測と動的にデコードによって、ユーザの音声情報に対応するクエリテキストを生成することができ、本分野の他の音声認識方法を使用してクエリテキストを取得することもでき、本実施例は、これらを限定しない。音響モデルは、隠れマルコフモデルを含むが、これらに限定されず、動的にデコードは、音声デコーダを使用して実現することもできる。
ステップS230において、音声操作可能な要素のビュー説明情報から音声操作可能な要素のテキストタグを抽出し、テキストタグは、音声操作可能な要素のタイプと属性とを含む。
ビューの構築に基づいて、ビュー要素は、複数のタイプを含むことができ、テキストタグは、ビュー要素の区別を実現することができる。サーバは、ユーザの音声情報に対して音声認識を行うプロセスでは、ユーザの音声情報に対応するクエリテキストに対して語義ラベル付けを行い、ビューによって表示される内容を組み合わせてユーザの意図をよりよく理解するように、要素のテキストタグを同時に抽出することができる。
なお、ステップS220とステップS230の実行順番は限定されず、語義ラベル付けを行う前、ユーザの音声情報に対応するクエリテキストと要素のテキストタグを成功に取得することを保証すればよい。
ステップS240において、予めトレーニングされたラベル付けモデルを使用して、抽出されたテキストタグに基づいてクエリテキストに対して語義ラベル付けを行い、クエリテキストの語義ラベル付け結果を取得して、ユーザの操作意図とする。
音響モデルと、言語モデルと、ラベル付けモデルは、語義認識プロセス中に周期的に更新して、語義認識の正確性を確保することができる。サーバは、ラベル付けモデルを使用してユーザの操作意図を取得し、音声命令リストで音声命令の決定を行うことができる。
ステップS250において、予め配置された語義と音声命令との対応関係と、音声命令説明情報とに基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定し、命令シーケンスには、少なくとも一つの音声命令のIDと、その配置情報におけるキー値と、が含まれる。
音声プログラミング言語の開発者は、音声機能の開発プロセスにおいて、語義と音声命令との間の対応関係を予め配置し、ユーザの操作意図を決定した後、当該対応関係とビューにおける音声操作可能な要素の音声命令説明情報を使用して音声命令を徐々に決定して、音声命令のIDと命令配置情報のキー値とを含む命令シーケンスを形成し、音声命令のIDは、音声命令の唯一の識別子であり、例えば、各音声命令のシーケンスにおける位置を識別するために用いられることができ、キー値は、音声命令に対応する具体的な実行特徴を識別するために用いられる。例えば、提出操作については、確認又はキャンセルの二つの場合を含み、対応する音声命令は、提出であり、命令配置情報のキー値は、確認(OK)又はキャンセル(cancel)であり、2分30sまで早送りの再生操作については、対応する音声命令は、早送りであり、命令配置情報のキー値は、2分30sであり、また、現在ビューに表示される内容は、俳優Aの映画ランキングであり、ランキング分類は、ホットと、最新と、評価とを含み、ビューにおける音声命令は、三つのリストチェンジ(listchage)命令を含み、リストチェンジ命令の配置情報におけるキー値は、それぞれホットと、最新と、評価である。
選択可能に、命令シーケンスを決定するプロセスには、予め配置された語義と音声命令との対応関係を使用して、音声命令リストから目標音声命令セットを決定し、音声タグと命令配置情報のキー値などの音声命令説明情報に基づいて、当該目標音声命令セットからユーザの操作意図とマッチングされる命令シーケンスを決定することを含むことができる。
例示的に、端末の現在のビューに表示される音楽プレイヤのメインインターフェースは、ユーザが入力した音声情報が『「勇気」、「未来」、「愛が過去になるとき」を聞きたい』などの複数の曲を聞きたい場合、サーバは、認識されたユーザの操作意図に基づいて、まず、現在ビューで曲を選択する操作の音声命令は、選択であることを決定し、音声タグ-曲リストに基づいて、複数の曲名を含む目標音声命令セットを決定し、目標音声命令セットにおいて、各曲名は、一つの選択された音声サブ命令に対応し、次に、ユーザの音声情報における具体的な曲名に基づいて、それぞれ「勇気」、「未来」、「愛が過去になるとき」との三つの曲名を音声命令の配置情報のキー値とし、目標音声命令セットから「勇気」、「未来」、「愛が過去になるとき」との三つの曲を選択する音声命令シーケンスを決定する。また、音声タグ-曲リストに基づいて、目標音声命令セットを決定しなく、直接にユーザの音声情報における曲名に基づいて、具体的な曲名を選択する音声命令を1つずつ決定し、次に、リスト形式で端末に送信する。
ステップS260において、決定された命令シーケンスを端末に送信して実行させる。
本実施例の技術案は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得し、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して順次に音声認識と語義ラベル付けを行った後、ユーザの操作意図を取得し、さらに、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定し、最後に、当該命令シーケンスを端末に送信して実行させる。本実施例は、音声インタラクション機能と製品のビジネスロジック結合度が高く、音声インタラクション機能の開発の統合性の欠如及び汎用性が低い課題を解決し、音声インタラクション機能開発プロセスにおいて、開発者がビューにおける音声操作可能な要素に対して音声命令説明情報の配置を行えばよい、音声インタラクション機能と製品のビジネスロジックの分離を実現し、分離してメンテナンスしやすくなり、音声インタラクション機能開発の統合性と標準化を実現し、音声インタラクション機能の汎用性をさらに向上させ、異なる応用シーンに迅速に拡張することができる。
実施例3
図3は、本願の実施例3により提供されるビューに基づく音声インタラクション方法のフローチャートである。本実施例は、端末に適用されてビューに基づく音声インタラクションを実現する場合に適用可能であり、本願の上記の実施例においてサーバに適用されたビューに基づく音声インタラクション方法と結合して実行される。当該方法は、ビューに基づく音声インタラクション装置によって実行されることができ、当該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現することができ、携帯電話、タブレット、パーソナルコンピュータなどのスマート端末のような端末に統合することができる。図3に示すように、当該方法は、具体的に以下のようなステップを含む。
ステップS310において、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信し、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。
選択可能に、音声命令説明情報は、音声タグをさらに含み、音声タグは、ビューにおける音声操作可能な要素の情報を説明するように構成される。
端末は、ユーザの音声情報をモニタリングし、具体的には、マイク又は端末に接続された外部音声収集装置などを介してユーザの音声情報を収集することができ、次に、サーバに送信する。端末プロセッサがユーザの音声入力イベントをモニタリングした場合、端末プロセッサは、同時に現在表示されるビューにおける音声操作可能な要素の音声命令説明情報をサーバに送信する。端末とサーバとの間には、ネットワーク通信によって情報とデータの共有を実現することができる。
なお、端末が音声情報をモニタリングした後、現在表示されるビューにおける音声命令を初期化する必要があり、そのプロセスは、音声オブジェクト初期化、音声命令初期化、音声命令データ收集の三つのステップを含むことができる。例示的には、音声オブジェクト初期化は、ユーザの音声入力のモニタリングと、音声オブジェクト配置の登録と、ビューページ音声オブジェクトの初期化と、を含み、音声命令初期化は、ビューのドキュメントオブジェクトモデル(Document Object Model、DOM)解析と、命令配置の構築と、命令配置の初期化と、を含み、音声命令データ收集は、データ提供命令の配置と、命令プロセッサの構築と、データ情報の更新と、を含む。
ステップS320において、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、命令シーケンスにおける音声命令に対応する命令処理ロジックを実行する。
サーバがユーザの音声情報と音声操作可能な要素の音声命令説明情報とに基づいて、命令分析を行い、マッチングした命令シーケンスを決定した後、命令シーケンスを端末に送信する。端末は、サーバの応答を受信し、対応する命令シーケンスを端末の命令ルータに送信する。命令ルータは、命令シーケンスに基づいて、実行しようとする音声命令を決定して、対応する音声命令を初期化し、次に、対応する命令処理ロジックを実行する。
選択可能に、命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップは、命令シーケンスにおける音声命令に対応する命令処理ロジックを実行し、実行中に、命令処理ロジックに対応する音声イベントを取得し、当該音声イベントを実行するステップを含み、音声イベントは、音声命令が実行中に処理する必要がある製品ロジックを定義するように構成される。
音声イベントは、ビューにおける具体的な命令処理ロジックに基づいて、音声命令の実行方式又は製品の表示効果などのような、カストマイズした製品ロジックを定義するように設置することができる。例えば、現在のビューに表示される内容は、俳優Aのホット映画ランキングであり、ランキング分類は、最新と評価とをさらに含み、ビューにおける音声命令は、三つのリストチェンジ(listchage)命令を含み、リストチェンジ命令の配置情報におけるキー値は、それぞれホット、最新、評価であり、ユーザが入力した音声情報は、俳優Aの映画評価ランキング2位の映画を見たい場合、端末は、受信された命令シーケンスに基づいて、現在表示されるホット映画ランキングを評価映画ランキングに切り替えるとともに、評価映画ランキング2位の映画をロックして再生し、再生する前に、2位の映画の再生に関連する音声イベントに基づいて、例えば、第2の映画のポスターを特別表示し、具体的に当該映画のポスターアイコンを拡大とハイライト展示し、次に、映画の再生を行う。したがって、音声イベントの設置は、音声インタラクション機能の多様化と面白さを増加させ、ユーザにより良い使用体験を発生させることができる。
本実施例の技術案は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信し、次に、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、対応する処理ロジックを実行することによって、音声インタラクション機能と製品のビジネスロジック結合度が高く、音声インタラクション機能の開発の統合性の欠如及び汎用性が低い課題を解決し、音声インタラクション機能と製品のビジネスロジックの分離を実現し、音声インタラクション機能の標準化を実現し、音声インタラクション機能の汎用性をさらに向上させ、異なる応用シーンに迅速に拡張することができる。
実施例4
図4は、本願の実施例4により提供されるビューに基づく音声インタラクション方法のフローチャートである。本実施例は、上記の実施例に基づいてさらに最適化する。図4に示すように、当該方法は、具体的に以下のようなステップを含む。
ステップS410において、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信し、音声命令説明情報は、音声命令リストと、音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。
ステップS420において、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、命令シーケンスには、少なくとも一つの音声命令のIDと、その配置情報におけるキー値とが含まれる。
ステップS430において、命令シーケンスに一つの音声命令のIDとその配置情報におけるキー値とが含まれる場合、音声命令IDとキー値とに基づいて対応する命令処理ロジックを実行する。
ユーザが入力した音声情報と音声操作可能な要素に対応する音声命令とが一対一の対応関係がある場合、ユーザの現在音声情報に基づいて唯一の音声命令をマッチングされることができ、ユーザと複数回のインタラクションをする必要がない。例えば、ユーザの音声情報は、確認であり、対応する音声命令は、提出である場合、音声命令のキー値は、確認(OK)であり、端末は提出命令に基づいて確認操作を実行する。
ステップS440において、命令シーケンスに二つ以上の音声命令のIDとその配置情報におけるキー値とが含まれる場合、端末とのインタラクションによって命令シーケンスにおける目標音声命令を決定し、目標音声命令のIDとキー値とに基づいて対応する命令処理ロジックを実行する。
ユーザが入力した音声情報と音声操作可能な要素対応する音声命令が一対多の対応関係がある場合、ユーザと端末とのインタラクションによって、最終的な目標音声命令を決定する必要がある。例えば、現在表示されるプレーヤービューにおいて、ユーザが入力した音声情報は、曲を聴くことであり、対応する音声命令は、選択であり、音声タグ-曲リストに基づいて、複数の曲を含む再生音声命令の命令シーケンスを決定することができ、この時、ユーザが曲名Rに関する音声情報を続けて入力する必要があり、ユーザが具体的に聞きたい曲名Rの再生音声命令を決定することができ、さらに端末は当該音声命令に基づいて曲Rを再生する。
本実施例の技術案は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信し、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、最後に、命令シーケンスに含まれる命令の数に基づいて、ユーザとのインタラクションによって目標音声命令を決定し、対応する処理ロジックを実行することによって、音声インタラクション機能と製品のビジネスロジック結合度が高く、音声インタラクション機能の開発の統合性の欠如及び汎用性が低い課題を解決し、音声インタラクション機能と製品のビジネスロジックの分離を実現し、音声インタラクション機能の標準化を実現し、音声インタラクション機能の汎用性をさらに向上させ、異なる応用シーンに迅速に拡張することができる。
以下は、本願の実施例により提供されるビューに基づく音声インタラクション装置の実施例であり、当該装置は、上記の各実施例のビューに基づく音声インタラクション方法と同一の発明発想に属し、ビューに基づく音声インタラクション装置の実施例に詳細に説明されていない詳細な内容は、上記のビューに基づく音声インタラクション方法の実施例を参照することができる。
実施例5
図5は、本願の実施例5により提供されるサーバに配置されることができるビューに基づく音声インタラクション装置の概略構成図である。本実施例は、ビューに基づく音声インタラクションを実現する場合に適用することができる。本願の実施例により提供されるビューに基づく音声インタラクション装置は、本願の実施例のいずれかにより提供されるサーバに適用されるビューに基づく音声インタラクション方法を実行することができ、方法を実行することに対応する機能モジュールと有益な効果を備える。図5に示すように、当該装置は、具体的に、音声及び命令情報取得モジュール510と、語義認識モジュール520と、命令シーケンス決定モジュール530と、命令送信モジュール540とを備える。
音声及び命令情報取得モジュール510は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するように設置され、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。
選択可能に、音声及び命令情報取得モジュール510で取得された音声命令説明情報には、音声タグをさらに含み、音声タグは、ビューにおける音声操作可能な要素の情報を説明するように構成される。
語義認識モジュール520は、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得するように構成される。
命令シーケンス決定モジュール530は、音声操作可能な要素の音声命令説明情報に基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定するように構成される。
選択可能に、命令シーケンス決定モジュール530は、具体的に、予め配置された語義と音声命令との対応関係と、音声命令説明情報とに基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定するように設置され、命令シーケンスには、少なくとも一つの音声命令のIDと、その配置情報におけるキー値と、が含まれる。
命令送信モジュール540は、決定された命令シーケンスを端末に送信して実行させるように構成される。
上記の技術案に基づいて、選択可能に、語義認識モジュール520は、クエリテキスト決定ユニットと、テキストタグ抽出ユニットと、操作意図決定ユニットとを含み、クエリテキスト決定ユニットは、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して音声認識を行い、対応するクエリテキストを取得するように設置され、テキストタグ抽出ユニットは、音声操作可能な要素のビュー説明情報から音声操作可能な要素のテキストタグを抽出するように設置され、テキストタグは、音声操作可能な要素のタイプと、属性とを含み、操作意図決定ユニットは、予めトレーニングされたラベル付けモデルを使用して、抽出されたテキストタグに基づいてクエリテキストに対して語義ラベル付けを行い、クエリテキストの語義ラベル付け結果を取得して、ユーザの操作意図とするように構成される。
選択可能に、クエリテキスト決定ユニットは、音響特徴予測サブユニットとテキスト生成サブユニットとを含み、音響特徴予測サブユニットは、予めトレーニングされた音響モデルを使用してユーザの音声情報のオーディオ信号の音響特徴を予測するように設置され、テキスト生成サブユニットは、予めトレーニングされた言語モデルを使用して、音声操作可能な要素のビュー説明情報に基づいて予測により得られた音響特徴を動的にデコードし、対応するクエリテキストを生成するように構成される。
本実施例の技術案は、標準化された音声プログラミング言語に基づいて実現され、まず、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得し、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得し、さらに、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定し、最後に、当該命令シーケンスを端末に送信し実行する。本実施例は、音声インタラクション機能と製品のビジネスロジック結合度が高く、音声インタラクション機能の開発の統合性の欠如及び汎用性が低い課題を解決し、音声インタラクション機能開発プロセスにおいて、開発者がビューにおける音声操作可能な要素に対して音声命令説明情報の配置を行えばよい、音声インタラクション機能と製品のビジネスロジックの分離を実現し、分離してメンテナンスしやすくなり、音声インタラクション機能開発の統合性と標準化を実現し、音声インタラクション機能の汎用性をさらに向上させ、異なる応用シーンに迅速に拡張することができる。
実施例6
図6は、本願の実施例6により提供される端末に配置されることができるビューに基づく音声インタラクション装置の概略構成図である。本実施例は、ビューに基づく音声インタラクションを実現する場合に適用することができる。本願の実施例により提供されるビューに基づく音声インタラクション装置は、本願の実施例のいずれかにより提供される端末に適用されるビューに基づく音声インタラクション方法を実行することができ、方法を実行することに対応する機能モジュールと有益な効果を備える。図6に示すように、当該装置は、具体的に、音声及び命令情報送信モジュール610と、命令シーケンス実行モジュール620とを備える。
音声及び命令情報送信モジュール610は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するように設置され、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。
選択可能に、音声及び命令情報送信モジュール610で送信された音声命令説明情報には、音声タグをさらに含み、音声タグは、ビューにおける音声操作可能な要素の情報を説明するように構成される。
命令シーケンス実行モジュール620は、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するように構成される。
選択可能に、命令シーケンス実行モジュール620は、受信ユニットと実行ユニットとを備え、受信ユニットは、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信するように設置され、実行ユニットは、受信された命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するように構成される。
選択可能に、実行ユニットは、具体的に、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行し、実行中に、前記命令処理ロジックに対応する音声イベントを取得し、前記音声イベントを実行するように設置され、前記音声イベントは、音声命令が実行中に処理する必要がある製品ロジックを定義するように構成される。
選択可能に、命令シーケンス実行モジュール620で受信された命令シーケンスには、少なくとも一つの音声命令のIDと、その配置情報におけるキー値とが含まれ、相応的に、実行ユニットは、第1の実行サブユニットと第2の実行サブユニットとを含み、第1の実行サブユニットは、命令シーケンスに一つの音声命令のIDとその配置情報におけるキー値とが含まれる場合、音声命令IDとキー値とに基づいて対応する命令処理ロジックを実行するように設置され、第2の実行サブユニットは、命令シーケンスに二つ以上の音声命令のIDとその配置情報におけるキー値とが含まれる場合、端末とのインタラクションによって命令シーケンスにおける目標音声命令を決定し、目標音声命令のIDとキー値とに基づいて対応する命令処理ロジックを実行するように構成される。
本実施例の技術案は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信し、次に、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、対応する処理ロジックを実行することによって、音声インタラクション機能と製品のビジネスロジック結合度が高く、音声インタラクション機能の開発の統合性の欠如及び汎用性が低い課題を解決し、音声インタラクション機能と製品のビジネスロジックの分離を実現し、音声インタラクション機能の標準化を実現し、音声インタラクション機能の汎用性をさらに向上させ、異なる応用シーンに迅速に拡張することができる。
実施例7
図7は、本願の実施例7により提供されるサーバの概略構成図である。図7は、本願の実施形態を実現するのに適する例示的なサーバ712のブロック図である。図7に示されるサーバ712は、単なる一つの例であり、本願の実施例の機能及び使用範囲を一切制限しない。
図7に示すように、サーバ712は、汎用サーバの形式として表される。サーバ712のコンポーネントは、一つ又は複数のプロセッサ716又は記憶装置728と、異なるシステムコンポーネント(記憶装置728とプロセッサ716とを含む)を接続するバス718とを含むことができるが、これらに限定されない。
バス718は、下記のような複数のバス構造のうちの一つ又は複数のものを示し、前記複数のバス構造は、記憶装置バス又は記憶装置コントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうちの任意のバス構造を使用するローカルバスを含む。例をあげると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(Industry Subversive Alliance、ISA)バス、マイクロチャネルアーキテクチャ(Micro Channel Architecture、MAC)バス、拡張ISAバス、ビデオエレクトロニクススタンダーズアソシエーション(Video Electronics Standards Association、VESA)ローカルバス、及びペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnect、PCI)バスを含むが、これらに限定されない。
サーバ712は、典型的には、多種類のコンピュータシステム読み取り可能な媒体を備える。これらの媒体は、サーバ712がアクセスすることができる任意の使用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む。
記憶装置728は、ランダムアクセスメモリ(Random Access Memory、RAM)730及び/又はキャッシュメモリ432などの揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を備えていてもよい。サーバ712は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。単なる一例として、ストレージシステム734は、ノンリムーバブル、不揮発性磁気媒体(図7に示されていないが、通常「ハードアクチュエータ」と呼ぶ)に対して読み出し及び書き込みをするために用いることができる。図7に示されていないが、リムーバブル、不揮発性磁気ディスク(例えば、「フロッピーディスク」)に対して読み出し及び書き込みをするための磁気ディスクアクチュエータ、及びリムーバブル、不揮発性光学ディスク(例えば、コンパクトディスク読み取り専用メモリ(Compact Disc Read−Only Memory、CD−ROM)、デジタルビデオディスク読み取り専用メモリ(Digital Video Disc−Read Only Memory、DVD−ROM)又は他の光学媒体)に対して読み出し及び書き込みをするための光学ディスクアクチュエータを提供することができる。この場合、各アクチュエータは、一つ又は複数のデータメディアインターフェイスを介してバス718に接続することができる。記憶装置728は、本願の各実施例に記載の機能を実行するように構成されるワンセットのプログラムモジュール(例えば、少なくとも一つ)を有する少なくとも一つのプログラム製品を備えていてもよい。
ワンセットのプログラムモジュール742(少なくとも一つ)を有するプログラム/ユーティリティ740は、例えば、記憶装置728に記憶されてもよく、このようなプログラムモジュール742は、オペレーティングシステム、一つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータを含むことができるがこれらに限定されない。これらの例のそれぞれ又は何らかの組み合わせには、ネットワーク環境の実装が含まれる可能性がある。プログラムモジュール742は、通常本願に記載の実施例における機能及び/又は方法を実行する。
サーバ712は、一つ又は複数の外部デバイス714(例えば、キーボード、ポインティング端末、ディスプレイ724など)と通信することができ、ユーザがサーバ712とインタラクションすることを可能にする一つ又は複数の端末と通信することもでき、及び/又はサーバ712が一つ又は複数の他のコンピューティングデバイスと通信することを可能にする任意の端末(例えば、ネットワークカード、モデムなど)と通信することができる。そのような通信は、入力/出力(I/O)インターフェイス722を介して行うことができる。また、サーバ712は、ネットワークアダプタ720を介して、一つ又は複数のネットワーク(例えば、ローカルエリアネットワーク(Local Area Network、LAN)、ワイドエリアネットワーク(Wide Area Network、WAN)、及び/又はパブリックネットワーク、例えば、インターネット)と通信することができる。図7に示すように、ネットワークアダプタ720は、バス718を介して、サーバ712の他のモジュールと通信する。なお、図示されていないが、マイクロコードや端末アクチュエータ、冗長プロセッサ、外部ディスクドライブアレイ、ディスクアレイ(Redundant Arrays of Independent Disks、RAID)システム、テープドライバ、及びデータバックアップトレージシステムなどを含むが、これらに限定されない他のハードウェア及び/又はソフトウェアモジュールを、サーバ712と組み合わせて使用することができる。
プロセッサ716は、記憶装置728に記憶されるプログラムを実行することにより、多様な機能アプリケーション及びデータ処理を実行し、例えば、本願の実施例が提供するサーバに適用されるビューに基づく音声インタラクション方法を実現する。当該方法は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するステップであって、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップと、音声操作可能な要素の音声命令説明情報に基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定するステップと、決定された命令シーケンスを端末に送信して実行させるステップと、を含む。
実施例8
図8は、本願の実施例8により提供される端末の概略構成図である。図8は、本願の実施形態を実現するのに適する例示的な端末812のブロック図である。図8に示される端末812は、単なる一つの例であり、本願の実施例の機能及び使用範囲を一切制限しない。
図8に示すように、端末812は、汎用端末の形式として表される。端末812のコンポーネントは、一つ又は複数のプロセッサ816又は記憶装置828と、異なるシステムコンポーネント(記憶装置828とプロセッサ816とを含む)を接続するバス818と、を備えることができるが、これらに限定されない。
バス818は、下記のような複数のバス構造のうちの一つ又は複数のものを示し、前記複数のバス構造は、記憶装置バス又は記憶装置コントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうちの任意のバス構造を使用するローカルバスを含む。例をあげると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(Industry Subversive Alliance、ISA)バス、マイクロチャネルアーキテクチャ(Micro Channel Architecture、MAC)バス、拡張ISAバス、ビデオエレクトロニクススタンダーズアソシエーション(Video Electronics Standards Association、VESA)ローカルバス、及びペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnect、PCI)バスを備えるが、これらに限定されない。
端末812は、典型的には、多種類のコンピュータシステム読み取り可能な媒体を備える。これらの媒体は、端末812がアクセスすることができる任意の使用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む。
記憶装置828は、ランダムアクセスメモリ(Random Access Memory、RAM)830及び/又はキャッシュメモリ432などの揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を備えてもよい。端末812は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。単なる一例として、ストレージシステム834は、ノンリムーバブル、不揮発性磁気媒体(図8に示されていないが、通常「ハードアクチュエータ」と呼ぶ)に対して読み出し及び書き込みをするために用いることができる。図8に示されていないが、リムーバブル、不揮発性磁気ディスク(例えば、「フロッピーディスク」)に対して読み出し及び書き込みをするための磁気ディスクアクチュエータ、及びリムーバブル、不揮発性光学ディスク(例えば、コンパクトディスク読み取り専用メモリ(Compact Disc Read−Only Memory、CD−ROM)、デジタルビデオディスク読み取り専用メモリ(Digital Video Disc−Read Only Memory、DVD−ROM)又は他の光学媒体)に対して読み出し及び書き込みをするための光学ディスクアクチュエータを提供することができる。この場合、各アクチュエータは、一つ又は複数のデータメディアインターフェイスを介してバス818に接続することができる。記憶装置828は、本願の各実施例に記載の機能を実行するように構成されるワンセットのプログラムモジュール(例えば、少なくとも一つ)を有する少なくとも一つのプログラム製品を備えてもよい。
ワンセットのプログラムモジュール842(少なくとも一つ)を有するプログラム/ユーティリティ840は、例えば、記憶装置828に記憶されてもよく、このようなプログラムモジュール842は、オペレーティングシステム、一つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータを含むことができるがこれらに限定されない。これらの例のそれぞれ又は何らかの組み合わせには、ネットワーく環境の実装が含まれる可能性がある。プログラムモジュール842は、通常本願に記載の実施例における機能及び/又は方法を実行する。
端末812は、一つ又は複数の外部デバイス814(例えば、キーボード、ポインティング端末、ディスプレイ824など)と通信することができ、ユーザが端末812とインタラクションすることを可能にする一つ又は複数の端末と通信することもでき、及び/又は端末812が一つ又は複数の他のコンピューティングデバイスと通信することを可能にする任意の端末(例えば、ネットワークカード、モデムなど)と通信することができる。そのような通信は、入力/出力(I/O)インターフェイス822を介して行うことができる。また、端末812は、ネットワークアダプタ820を介して、一つ又は複数のネットワーク(例えば、ローカルエリアネットワーク(Local Area Network、LAN)、ワイドエリアネットワーク(Wide Area Network、WAN)、及び/又はパブリックネットワーク、例えば、インターネット)と通信することができる。図8に示すように、ネットワークアダプタ820は、バス818を介して、端末812の他のモジュールと通信する。なお、図示されていないが、マイクロコードや端末アクチュエータ、冗長プロセッサ、外部ディスクドライブアレイ、ディスクアレイ(Redundant Arrays of Independent Disks、RAID)システム、テープドライバ、及びデータバックアップトレージシステムなどを備えるが、これらに限定されない他のハードウェア及び/又はソフトウェアモジュールを、端末812と組み合わせて使用することができる。
プロセッサ816は、記憶装置828に記憶されるプログラムを実行することにより、多様な機能アプリケーション及びデータ処理を実行し、例えば、本願の実施例が提供する端末に適用されるビューに基づく音声インタラクション方法を実現する。当該方法は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するステップであって、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップと、を含む。
実施例9
本願の実施例9は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供し、当該プログラムがプロセッサにより実行される場合に、本願の実施例により提供されるサーバに適用されるビューに基づく音声インタラクション方法を実現し、当該方法は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するステップであって、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップと、音声操作可能な要素の音声命令説明情報に基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定するステップと、決定された命令シーケンスを端末に送信して実行させるステップと、を含む。
本願の実施例のコンピュータ読み取り可能な媒体は、一つ又は複数のコンピュータ読み取り可能な媒体の任意の組み合わせを採用することができる。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、或いはコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な媒体は、例えば、電子、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例(非網羅的なリスト)は、一つ又は複数の配線を備える電気接続部、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせを含む。この文書において、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されることが可能であるプログラムを含む又は記憶する任意の有形の媒体であってもよい。
コンピュータ読み取り可能な信号媒体は、ベースバンドにおける、又は搬送波の一部として伝播するデータ信号を含むことができ、その中にはコンピュータ読み取り可能なプログラムコードが搭載される。この伝播するデータ信号は様々な形式を採用することができ、電磁信号、光信号又は上記の任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ読み取り可能な信号媒体は、さらに、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、当該コンピュータ読み取り可能な媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。
コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ケーブル、RFなど、又は上記の任意の適切な組み合わせを含むが、これらに限定されない任意の適切な媒体によって伝送することができる。
一又は複数のプログラミング言語又はそれらの組み合わせで本願の動作を実行するためのコンピュータプログラムコードを作成することができ、前記プログラミング言語は、Java(登録商標)、Smalltalk、C++などのプロジェクト指向のプログラミング言語を含み、さらに、「C」言語又は同様のプログラミング言語といった従来の手続き型プログラミング言語をも含む。プログラムコードは、完全にユーザーコンピュータで実行されてもよく、部分的にユーザーコンピュータに実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザーコンピュータで、部分的にリモートコンピュータで実行されてもよく、又は完全にリモートコンピュータ又は端末で実行してもよい。リモートコンピュータに係る場合、リモートコンピュータは、ローカルネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意種類のインターネットを介して、ユーザーコンピュータに接続することができ、或いは、外部コンピュータ(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続する)に接続することもできる。
本願の実施例は、別のコンピュータ読み取り可能な記憶媒体をさらに提供し、それに記憶されているコンピュータプログラムがプロセッサにより実行される場合、端末に適用されるビューに基づく音声インタラクション方法を実現することができ、当該方法は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するステップであって、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、サーバからユーザの音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップと、を含む。
もちろん、本願の実施例により提供されるコンピュータ読み取り可能な記憶媒体において、そのコンピュータプログラムは、上記のような方法の操作に限定されず、本願の実施例のいずれかにより提供される端末に適用されるビューに基づく音声インタラクション方法の関連操作を実行することもできる。記憶媒体の紹介については、実施例9における内容の説明を参照することができる。
上記実施例により本願について比較的詳細に説明したが、本願は、上記実施例のみに限定されず、本願の構想を逸脱しない場合、より多くの他の効果同等な実施例をさらに含むことができ、本願の範囲は、特許請求の範囲によって决定される。

Claims (15)

  1. サーバに適用されるビューに基づく音声インタラクション方法であって、
    ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するステップであって、前記音声命令説明情報が、音声命令リストと前記音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、
    前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップと、
    前記音声命令説明情報に基づいて、前記音声命令リストから前記操作意図とマッチングされる命令シーケンスを決定するステップと、
    前記命令シーケンスを端末に送信して実行させるステップと、
    を含むビューに基づく音声インタラクション方法。
  2. 前記音声命令説明情報が、ビューにおける音声操作可能な要素の情報を説明するように構成される音声タグをさらに含む請求項1に記載のビューに基づく音声インタラクション方法。
  3. 前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップが、
    前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して音声認識を行い、対応するクエリテキストを取得するステップと、
    前記音声操作可能な要素のビュー説明情報から前記音声操作可能な要素のテキストタグを抽出するステップであって、前記テキストタグが、前記音声操作可能な要素のタイプと属性とを含むステップと、
    予めトレーニングされたラベル付けモデルを使用して、前記テキストタグに基づいて前記クエリテキストに対して語義ラベル付けを行い、前記クエリテキストの語義ラベル付け結果を取得して、ユーザの操作意図とするステップと、
    を含む請求項1又は2に記載のビューに基づく音声インタラクション方法。
  4. 前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して音声認識を行い、対応するクエリテキストを取得するステップが、
    予めトレーニングされた音響モデルを使用して前記音声情報のオーディオ信号の音響特徴を予測するステップと、
    予めトレーニングされた言語モデルを使用して、前記音声操作可能な要素のビュー説明情報に基づいて前記音響特徴を動的にデコードし、対応するクエリテキストを生成するステップと、
    を含む請求項3に記載のビューに基づく音声インタラクション方法。
  5. 前記音声命令説明情報に基づいて、前記音声命令リストから前記操作意図とマッチングされる命令シーケンスを決定するステップが、
    予め配置された語義と音声命令との対応関係と、前記音声命令説明情報とに基づいて、前記音声命令リストから前記操作意図とマッチングされる命令シーケンスを決定するステップを含み、前記命令シーケンスには、少なくとも一つの音声命令のIDと、その配置情報におけるキー値と、を含む請求項1又は2に記載のビューに基づく音声インタラクション方法。
  6. 端末に適用されるビューに基づく音声インタラクション方法であって、
    モニタリングされたユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するステップであって、前記音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、
    サーバから前記音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップと、
    を含むビューに基づく音声インタラクション方法。
  7. 前記音声命令説明情報が、ビューにおける音声操作可能な要素の情報を説明するように構成される音声タグを含む請求項6に記載のビューに基づく音声インタラクション方法。
  8. 前記命令シーケンスには、少なくとも一つの音声命令のIDと、その配置情報におけるキー値と、を含み、
    相応的に、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップが、
    前記命令シーケンスに一つの音声命令のIDとその配置情報におけるキー値とが含まれる場合、前記IDとキー値とに基づいて対応する命令処理ロジックを実行するステップと、
    前記命令シーケンスに二つ以上の音声命令のIDとその配置情報におけるキー値とが含まれる場合、端末とのインタラクションによって前記命令シーケンスにおける目標音声命令を決定し、目標音声命令のIDとキー値とに基づいて対応する命令処理ロジックを実行するステップと、
    を含む請求項6又は7に記載のビューに基づく音声インタラクション方法。
  9. 前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップが、
    前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行し、実行中に、前記命令処理ロジックに対応する音声イベントを取得し、前記音声イベントを実行するステップであって、前記音声イベントは、音声命令が実行中に処理する必要がある製品のロジックを定義するように構成されるステップを含む請求項6又は7に記載のビューに基づく音声インタラクション方法。
  10. サーバに配置されるビューに基づく音声インタラクション装置であって、
    ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するように構成される音声及び命令情報取得モジュールであって、前記音声命令説明情報が、音声命令リストと前記音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成される音声及び命令情報取得モジュールと、
    前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して語義認識を行い、ユーザの操作意図を取得するように構成される語義認識モジュールと、
    前記音声命令説明情報に基づいて、前記音声命令リストから前記操作意図とマッチングされる実行対象の命令シーケンスを決定するように構成される命令シーケンス決定モジュールと、
    前記実行対象の命令シーケンスを端末に送信して実行させるように構成される命令送信モジュールと、
    を備えるビューに基づく音声インタラクション装置。
  11. 端末に配置されるビューに基づく音声インタラクション装置であって、
    モニタリングされたユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するように構成される音声及び命令情報送信モジュールであって、前記音声命令説明情報が、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成される音声及び命令情報送信モジュールと、
    サーバから前記音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するように構成される命令シーケンス実行モジュールと、
    を備える請求項に記載のビューに基づく音声インタラクション装置。
  12. 一又は複数のプロセッサと、
    一又は複数のプログラムを記憶するように構成される記憶装置と、を備え、
    前記一つ又は複数のプログラムが前記一つの又は複数のプロセッサにより実行される場合、前記一つ又は複数のプロセッサが、請求項1から5のいずれか一項に記載のビューに基づく音声インタラクション方法を実現するサーバ。
  13. 一又は複数のプロセッサと、
    一又は複数のプログラムを記憶するように構成される記憶装置と、を備え、
    前記一又は複数のプログラムが前記一の又は複数のプロセッサにより実行される場合、 前記一又は複数のプロセッサが、請求項6から9のいずれか一項に記載のビューに基づく音声インタラクション方法を実現する端末。
  14. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    当該プログラムがプロセッサにより実行される場合に、請求項1から5のいずれか一項に記載のビューに基づく音声インタラクション方法を実現するコンピュータ読み取り可能な記憶媒体。
  15. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    当該プログラムがプロセッサにより実行される場合に、請求項6から9のいずれか一項に記載のビューに基づく音声インタラクション方法を実現するコンピュータ読み取り可能な記憶媒体。
JP2020502486A 2018-05-23 2019-01-18 ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体 Active JP6952184B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810501073.7 2018-05-23
CN201810501073.7A CN108877791B (zh) 2018-05-23 2018-05-23 基于视图的语音交互方法、装置、服务器、终端和介质
PCT/CN2019/072339 WO2019223351A1 (zh) 2018-05-23 2019-01-18 基于视图的语音交互方法、装置、服务器、终端和介质

Publications (2)

Publication Number Publication Date
JP2020527753A true JP2020527753A (ja) 2020-09-10
JP6952184B2 JP6952184B2 (ja) 2021-10-20

Family

ID=64333119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020502486A Active JP6952184B2 (ja) 2018-05-23 2019-01-18 ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体

Country Status (4)

Country Link
US (1) US11727927B2 (ja)
JP (1) JP6952184B2 (ja)
CN (1) CN108877791B (ja)
WO (1) WO2019223351A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022050379A (ja) * 2021-02-09 2022-03-30 ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877791B (zh) * 2018-05-23 2021-10-08 百度在线网络技术(北京)有限公司 基于视图的语音交互方法、装置、服务器、终端和介质
CN111383631B (zh) * 2018-12-11 2024-01-23 阿里巴巴集团控股有限公司 一种语音交互方法、装置及系统
CN111415656B (zh) * 2019-01-04 2024-04-30 上海擎感智能科技有限公司 语音语义识别方法、装置及车辆
CN111427529B (zh) * 2019-01-09 2023-05-30 斑马智行网络(香港)有限公司 交互方法、装置、设备及存储介质
CN109947252A (zh) * 2019-03-21 2019-06-28 百度在线网络技术(北京)有限公司 配置智能设备交互功能的方法和装置
CN111857635A (zh) * 2019-04-30 2020-10-30 阿里巴巴集团控股有限公司 交互方法、存储介质、操作系统和设备
CN110162176B (zh) * 2019-05-20 2022-04-26 北京百度网讯科技有限公司 语音指令的挖掘方法和装置终端、计算机可读介质
CN110290216B (zh) * 2019-06-28 2022-05-13 百度在线网络技术(北京)有限公司 监听执行方法、指令下发方法、装置、设备及存储介质
CN112306447A (zh) * 2019-08-30 2021-02-02 北京字节跳动网络技术有限公司 一种界面导航方法、装置、终端和存储介质
CN110660391A (zh) * 2019-09-29 2020-01-07 苏州思必驰信息科技有限公司 基于rpa接口实现大屏终端语音控制的定制方法及系统
CN112817553A (zh) * 2019-11-15 2021-05-18 阿里巴巴集团控股有限公司 一种语音交互方法、装置及系统
CN112309388A (zh) * 2020-03-02 2021-02-02 北京字节跳动网络技术有限公司 用于处理信息的方法和装置
CN113571062B (zh) * 2020-04-28 2024-05-24 中国移动通信集团浙江有限公司 基于语音数据的客户标签识别方法、装置及计算设备
CN111611468B (zh) * 2020-04-29 2023-08-25 百度在线网络技术(北京)有限公司 页面交互方法、装置和电子设备
CN111767021A (zh) * 2020-06-28 2020-10-13 广州小鹏车联网科技有限公司 语音交互方法、车辆、服务器、系统和存储介质
CN111917513B (zh) * 2020-07-29 2022-11-22 上海海洋大学 一种移动端与服务器端数据交互方法
CN111968640A (zh) * 2020-08-17 2020-11-20 北京小米松果电子有限公司 语音控制方法、装置、电子设备及存储介质
CN114255745A (zh) * 2020-09-10 2022-03-29 华为技术有限公司 一种人机交互的方法、电子设备及系统
CN112163086B (zh) * 2020-10-30 2023-02-24 海信视像科技股份有限公司 多意图的识别方法、显示设备
CN112487142B (zh) * 2020-11-27 2022-08-09 易联众信息技术股份有限公司 一种基于自然语言处理的对话式智能交互方法和系统
CN112579036A (zh) * 2020-12-17 2021-03-30 南方电网深圳数字电网研究院有限公司 语音输入的报告设计器实现方法、系统、设备及存储介质
CN112885361A (zh) * 2021-03-01 2021-06-01 长沙克莱自动化设备有限公司 语音控制方法、装置、电子设备和存储介质
CN112905149A (zh) * 2021-04-06 2021-06-04 Vidaa美国公司 显示设备上语音指令的处理方法、显示设备及服务器
CN113379975A (zh) * 2021-06-09 2021-09-10 中国银行股份有限公司 一种自动取款机交互方法及相关设备
CN114047900A (zh) * 2021-10-12 2022-02-15 中电金信软件有限公司 业务处理方法、装置、电子设备及计算机可读存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1266625C (zh) 2001-05-04 2006-07-26 微软公司 用于web启用的识别的服务器
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
JP2006330576A (ja) * 2005-05-30 2006-12-07 Sharp Corp 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体
US8538757B2 (en) * 2007-05-17 2013-09-17 Redstart Systems, Inc. System and method of a list commands utility for a speech recognition command system
US20130257780A1 (en) * 2012-03-30 2013-10-03 Charles Baron Voice-Enabled Touchscreen User Interface
US8909536B2 (en) * 2012-04-20 2014-12-09 Nuance Communications, Inc. Methods and systems for speech-enabling a human-to-machine interface
CN103544954A (zh) * 2012-07-17 2014-01-29 北京千橡网景科技发展有限公司 用于向语音消息添加文字标签的方法和装置
US10867597B2 (en) * 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
US10203933B2 (en) * 2014-11-06 2019-02-12 Microsoft Technology Licensing, Llc Context-based command surfacing
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
CN105161106A (zh) * 2015-08-20 2015-12-16 深圳Tcl数字技术有限公司 智能终端的语音控制方法、装置及电视机系统
US10261752B2 (en) * 2016-08-02 2019-04-16 Google Llc Component libraries for voice interaction services
CN107871496B (zh) * 2016-09-23 2021-02-12 北京眼神科技有限公司 语音识别方法和装置
CN106486118B (zh) * 2016-09-30 2020-02-11 北京奇虎科技有限公司 一种应用的语音控制方法和装置
US10013980B2 (en) * 2016-10-04 2018-07-03 Microsoft Technology Licensing, Llc Combined menu-based and natural-language-based communication with chatbots
CN108062212A (zh) * 2016-11-08 2018-05-22 沈阳美行科技有限公司 一种基于场景的语音操作方法及装置
US10467510B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
CN107180631A (zh) * 2017-05-24 2017-09-19 刘平舟 一种语音交互方法及装置
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
US11182122B2 (en) * 2017-12-08 2021-11-23 Amazon Technologies, Inc. Voice control of computing devices
CN107992587A (zh) * 2017-12-08 2018-05-04 北京百度网讯科技有限公司 一种浏览器的语音交互方法、装置、终端和存储介质
CN107910003A (zh) * 2017-12-22 2018-04-13 智童时刻(厦门)科技有限公司 一种用于智能设备的语音交互方法及语音控制系统
US10762900B2 (en) * 2018-03-07 2020-09-01 Microsoft Technology Licensing, Llc Identification and processing of commands by digital assistants in group device environments
CN108877791B (zh) * 2018-05-23 2021-10-08 百度在线网络技术(北京)有限公司 基于视图的语音交互方法、装置、服务器、终端和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022050379A (ja) * 2021-02-09 2022-03-30 ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7301922B2 (ja) 2021-02-09 2023-07-03 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Also Published As

Publication number Publication date
US11727927B2 (en) 2023-08-15
US20200294505A1 (en) 2020-09-17
JP6952184B2 (ja) 2021-10-20
CN108877791B (zh) 2021-10-08
WO2019223351A1 (zh) 2019-11-28
CN108877791A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
JP6952184B2 (ja) ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体
JP6713034B2 (ja) スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム
JP6440513B2 (ja) 音声認識機能を用いた情報提供方法および機器の制御方法
WO2020078300A1 (zh) 一种终端投屏的控制方法和终端
JP2021009701A (ja) インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
CN1763842B (zh) 用于语音识别中的动词错误恢复的方法和系统
EP3701521B1 (en) Voice recognition apparatus and operation method thereof cross-reference to related application
KR20190120353A (ko) 음성 인식 방법, 디바이스, 장치, 및 저장 매체
KR20200127814A (ko) 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
CN109036396A (zh) 一种第三方应用的交互方法及系统
CN104282302A (zh) 用于识别语音和文本的设备和方法
KR101772361B1 (ko) 메신저를 통한 컨텐츠 제공 방법과 시스템 및 기록 매체
CN108882101B (zh) 一种智能音箱的播放控制方法、装置、设备及存储介质
US20210011887A1 (en) Activity query response system
JP2021121969A (ja) アプリケーションプログラムの操作ガイダンス方法、装置、機器及び読み取り可能な記憶媒体
CN111539217B (zh) 一种用于自然语言内容标题消歧的方法、设备和系统
EP3851803B1 (en) Method and apparatus for guiding speech packet recording function, device, and computer storage medium
WO2023184266A1 (zh) 语音控制方法及装置、计算机可读存储介质、电子设备
JP6944920B2 (ja) スマートインタラクティブの処理方法、装置、設備及びコンピュータ記憶媒体
CN111580766B (zh) 一种信息显示方法、装置和信息显示系统
CN114694661A (zh) 一种第一终端设备、第二终端设备和语音唤醒方法
CN114627864A (zh) 显示设备与语音交互方法
JP2019091448A (ja) 設備の発現方法、装置、設備及びプログラム
CN117806587A (zh) 显示设备和多轮对话预料生成方法
CN117351939A (zh) 一种多语种语音识别系统及方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210921

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210927

R150 Certificate of patent or registration of utility model

Ref document number: 6952184

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150