JP2020527753A - ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体 - Google Patents
ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体 Download PDFInfo
- Publication number
- JP2020527753A JP2020527753A JP2020502486A JP2020502486A JP2020527753A JP 2020527753 A JP2020527753 A JP 2020527753A JP 2020502486 A JP2020502486 A JP 2020502486A JP 2020502486 A JP2020502486 A JP 2020502486A JP 2020527753 A JP2020527753 A JP 2020527753A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- information
- view
- instruction
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 126
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000012545 processing Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 58
- 238000011161 development Methods 0.000 description 21
- 230000003287 optical effect Effects 0.000 description 10
- 230000010354 integration Effects 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
1)音声インタラクションの機能と製品のビジネスロジックとの結合度が高く、分離してメンテナンスできない。
2)各開発者は、音声インタラクションの全プロセスに注目する必要があり、関連する詳細とプロセスを自分で実現する必要があるので、異なる音声インタラクション開発プログラムによって実装される機能を統合することが困難である。
3)音声インタラクション開発プロセスは標準化ができず、音声インタラクションを異なる応用シーンに迅速に拡張することができない。
図1は、本願の実施例1により提供されるビューに基づく音声インタラクション方法のフローチャートである。本実施例は、サーバに用いられ、ビューに基づく音声インタラクションを実現する場合に適用可能であり、当該方法は、ビューに基づく音声インタラクション装置によって実行されることができ、当該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現することができ、サーバに統合することができる。図1に示すように、当該方法は、具体的には、以下のようなステップを含む。
ステップS110において、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得し、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。
図2は、本願の実施例2により提供されるビューに基づく音声インタラクション方法のフローチャートである。本実施例は、上記の実施例に基づいてさらに最適化する。図2に示すように、当該方法は、具体的に以下のようなステップを含む。
ステップS210において、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得する。
図3は、本願の実施例3により提供されるビューに基づく音声インタラクション方法のフローチャートである。本実施例は、端末に適用されてビューに基づく音声インタラクションを実現する場合に適用可能であり、本願の上記の実施例においてサーバに適用されたビューに基づく音声インタラクション方法と結合して実行される。当該方法は、ビューに基づく音声インタラクション装置によって実行されることができ、当該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現することができ、携帯電話、タブレット、パーソナルコンピュータなどのスマート端末のような端末に統合することができる。図3に示すように、当該方法は、具体的に以下のようなステップを含む。
ステップS310において、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信し、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。
図4は、本願の実施例4により提供されるビューに基づく音声インタラクション方法のフローチャートである。本実施例は、上記の実施例に基づいてさらに最適化する。図4に示すように、当該方法は、具体的に以下のようなステップを含む。
ステップS410において、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信し、音声命令説明情報は、音声命令リストと、音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。
図5は、本願の実施例5により提供されるサーバに配置されることができるビューに基づく音声インタラクション装置の概略構成図である。本実施例は、ビューに基づく音声インタラクションを実現する場合に適用することができる。本願の実施例により提供されるビューに基づく音声インタラクション装置は、本願の実施例のいずれかにより提供されるサーバに適用されるビューに基づく音声インタラクション方法を実行することができ、方法を実行することに対応する機能モジュールと有益な効果を備える。図5に示すように、当該装置は、具体的に、音声及び命令情報取得モジュール510と、語義認識モジュール520と、命令シーケンス決定モジュール530と、命令送信モジュール540とを備える。
音声及び命令情報取得モジュール510は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するように設置され、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。
図6は、本願の実施例6により提供される端末に配置されることができるビューに基づく音声インタラクション装置の概略構成図である。本実施例は、ビューに基づく音声インタラクションを実現する場合に適用することができる。本願の実施例により提供されるビューに基づく音声インタラクション装置は、本願の実施例のいずれかにより提供される端末に適用されるビューに基づく音声インタラクション方法を実行することができ、方法を実行することに対応する機能モジュールと有益な効果を備える。図6に示すように、当該装置は、具体的に、音声及び命令情報送信モジュール610と、命令シーケンス実行モジュール620とを備える。
音声及び命令情報送信モジュール610は、モニタリングされたユーザの音声情報と端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するように設置され、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成される。
図7は、本願の実施例7により提供されるサーバの概略構成図である。図7は、本願の実施形態を実現するのに適する例示的なサーバ712のブロック図である。図7に示されるサーバ712は、単なる一つの例であり、本願の実施例の機能及び使用範囲を一切制限しない。
図8は、本願の実施例8により提供される端末の概略構成図である。図8は、本願の実施形態を実現するのに適する例示的な端末812のブロック図である。図8に示される端末812は、単なる一つの例であり、本願の実施例の機能及び使用範囲を一切制限しない。
本願の実施例9は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供し、当該プログラムがプロセッサにより実行される場合に、本願の実施例により提供されるサーバに適用されるビューに基づく音声インタラクション方法を実現し、当該方法は、ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するステップであって、音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、音声命令は、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、音声操作可能な要素のビュー説明情報に基づいてユーザの音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップと、音声操作可能な要素の音声命令説明情報に基づいて、音声命令リストからユーザの操作意図とマッチングされる命令シーケンスを決定するステップと、決定された命令シーケンスを端末に送信して実行させるステップと、を含む。
Claims (15)
- サーバに適用されるビューに基づく音声インタラクション方法であって、
ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するステップであって、前記音声命令説明情報が、音声命令リストと前記音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、
前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップと、
前記音声命令説明情報に基づいて、前記音声命令リストから前記操作意図とマッチングされる命令シーケンスを決定するステップと、
前記命令シーケンスを端末に送信して実行させるステップと、
を含むビューに基づく音声インタラクション方法。 - 前記音声命令説明情報が、ビューにおける音声操作可能な要素の情報を説明するように構成される音声タグをさらに含む請求項1に記載のビューに基づく音声インタラクション方法。
- 前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して語義認識を行い、ユーザの操作意図を取得するステップが、
前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して音声認識を行い、対応するクエリテキストを取得するステップと、
前記音声操作可能な要素のビュー説明情報から前記音声操作可能な要素のテキストタグを抽出するステップであって、前記テキストタグが、前記音声操作可能な要素のタイプと属性とを含むステップと、
予めトレーニングされたラベル付けモデルを使用して、前記テキストタグに基づいて前記クエリテキストに対して語義ラベル付けを行い、前記クエリテキストの語義ラベル付け結果を取得して、ユーザの操作意図とするステップと、
を含む請求項1又は2に記載のビューに基づく音声インタラクション方法。 - 前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して音声認識を行い、対応するクエリテキストを取得するステップが、
予めトレーニングされた音響モデルを使用して前記音声情報のオーディオ信号の音響特徴を予測するステップと、
予めトレーニングされた言語モデルを使用して、前記音声操作可能な要素のビュー説明情報に基づいて前記音響特徴を動的にデコードし、対応するクエリテキストを生成するステップと、
を含む請求項3に記載のビューに基づく音声インタラクション方法。 - 前記音声命令説明情報に基づいて、前記音声命令リストから前記操作意図とマッチングされる命令シーケンスを決定するステップが、
予め配置された語義と音声命令との対応関係と、前記音声命令説明情報とに基づいて、前記音声命令リストから前記操作意図とマッチングされる命令シーケンスを決定するステップを含み、前記命令シーケンスには、少なくとも一つの音声命令のIDと、その配置情報におけるキー値と、を含む請求項1又は2に記載のビューに基づく音声インタラクション方法。 - 端末に適用されるビューに基づく音声インタラクション方法であって、
モニタリングされたユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するステップであって、前記音声命令説明情報は、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成されるステップと、
サーバから前記音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップと、
を含むビューに基づく音声インタラクション方法。 - 前記音声命令説明情報が、ビューにおける音声操作可能な要素の情報を説明するように構成される音声タグを含む請求項6に記載のビューに基づく音声インタラクション方法。
- 前記命令シーケンスには、少なくとも一つの音声命令のIDと、その配置情報におけるキー値と、を含み、
相応的に、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップが、
前記命令シーケンスに一つの音声命令のIDとその配置情報におけるキー値とが含まれる場合、前記IDとキー値とに基づいて対応する命令処理ロジックを実行するステップと、
前記命令シーケンスに二つ以上の音声命令のIDとその配置情報におけるキー値とが含まれる場合、端末とのインタラクションによって前記命令シーケンスにおける目標音声命令を決定し、目標音声命令のIDとキー値とに基づいて対応する命令処理ロジックを実行するステップと、
を含む請求項6又は7に記載のビューに基づく音声インタラクション方法。 - 前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するステップが、
前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行し、実行中に、前記命令処理ロジックに対応する音声イベントを取得し、前記音声イベントを実行するステップであって、前記音声イベントは、音声命令が実行中に処理する必要がある製品のロジックを定義するように構成されるステップを含む請求項6又は7に記載のビューに基づく音声インタラクション方法。 - サーバに配置されるビューに基づく音声インタラクション装置であって、
ユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とを取得するように構成される音声及び命令情報取得モジュールであって、前記音声命令説明情報が、音声命令リストと前記音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成される音声及び命令情報取得モジュールと、
前記音声操作可能な要素のビュー説明情報に基づいて前記音声情報に対して語義認識を行い、ユーザの操作意図を取得するように構成される語義認識モジュールと、
前記音声命令説明情報に基づいて、前記音声命令リストから前記操作意図とマッチングされる実行対象の命令シーケンスを決定するように構成される命令シーケンス決定モジュールと、
前記実行対象の命令シーケンスを端末に送信して実行させるように構成される命令送信モジュールと、
を備えるビューに基づく音声インタラクション装置。 - 端末に配置されるビューに基づく音声インタラクション装置であって、
モニタリングされたユーザの音声情報と、端末が現在表示しているビューにおける音声操作可能な要素の音声命令説明情報とをサーバに送信するように構成される音声及び命令情報送信モジュールであって、前記音声命令説明情報が、音声命令リストと音声命令リストにおける各音声命令の配置情報とを含み、前記音声命令が、ビューにおける要素に対して実行可能な音声操作を説明するように構成される音声及び命令情報送信モジュールと、
サーバから前記音声情報と音声命令説明情報とに基づいて決定された命令シーケンスを受信し、前記命令シーケンスにおける音声命令に対応する命令処理ロジックを実行するように構成される命令シーケンス実行モジュールと、
を備える請求項に記載のビューに基づく音声インタラクション装置。 - 一又は複数のプロセッサと、
一又は複数のプログラムを記憶するように構成される記憶装置と、を備え、
前記一つ又は複数のプログラムが前記一つの又は複数のプロセッサにより実行される場合、前記一つ又は複数のプロセッサが、請求項1から5のいずれか一項に記載のビューに基づく音声インタラクション方法を実現するサーバ。 - 一又は複数のプロセッサと、
一又は複数のプログラムを記憶するように構成される記憶装置と、を備え、
前記一又は複数のプログラムが前記一の又は複数のプロセッサにより実行される場合、 前記一又は複数のプロセッサが、請求項6から9のいずれか一項に記載のビューに基づく音声インタラクション方法を実現する端末。 - コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
当該プログラムがプロセッサにより実行される場合に、請求項1から5のいずれか一項に記載のビューに基づく音声インタラクション方法を実現するコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
当該プログラムがプロセッサにより実行される場合に、請求項6から9のいずれか一項に記載のビューに基づく音声インタラクション方法を実現するコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810501073.7 | 2018-05-23 | ||
CN201810501073.7A CN108877791B (zh) | 2018-05-23 | 2018-05-23 | 基于视图的语音交互方法、装置、服务器、终端和介质 |
PCT/CN2019/072339 WO2019223351A1 (zh) | 2018-05-23 | 2019-01-18 | 基于视图的语音交互方法、装置、服务器、终端和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020527753A true JP2020527753A (ja) | 2020-09-10 |
JP6952184B2 JP6952184B2 (ja) | 2021-10-20 |
Family
ID=64333119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020502486A Active JP6952184B2 (ja) | 2018-05-23 | 2019-01-18 | ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11727927B2 (ja) |
JP (1) | JP6952184B2 (ja) |
CN (1) | CN108877791B (ja) |
WO (1) | WO2019223351A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022050379A (ja) * | 2021-02-09 | 2022-03-30 | ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877791B (zh) * | 2018-05-23 | 2021-10-08 | 百度在线网络技术(北京)有限公司 | 基于视图的语音交互方法、装置、服务器、终端和介质 |
CN111383631B (zh) * | 2018-12-11 | 2024-01-23 | 阿里巴巴集团控股有限公司 | 一种语音交互方法、装置及系统 |
CN111415656B (zh) * | 2019-01-04 | 2024-04-30 | 上海擎感智能科技有限公司 | 语音语义识别方法、装置及车辆 |
CN111427529B (zh) * | 2019-01-09 | 2023-05-30 | 斑马智行网络(香港)有限公司 | 交互方法、装置、设备及存储介质 |
CN109947252A (zh) * | 2019-03-21 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 配置智能设备交互功能的方法和装置 |
CN111857635A (zh) * | 2019-04-30 | 2020-10-30 | 阿里巴巴集团控股有限公司 | 交互方法、存储介质、操作系统和设备 |
CN110162176B (zh) * | 2019-05-20 | 2022-04-26 | 北京百度网讯科技有限公司 | 语音指令的挖掘方法和装置终端、计算机可读介质 |
CN110290216B (zh) * | 2019-06-28 | 2022-05-13 | 百度在线网络技术(北京)有限公司 | 监听执行方法、指令下发方法、装置、设备及存储介质 |
EP4002087A4 (en) * | 2019-07-19 | 2023-04-12 | LG Electronics Inc. | DISPLAY DEVICE AND ARTIFICIAL INTELLIGENCE SERVER CAPABLE OF CONTROLLING A HOME APPLIANCE VIA A USER'S VOICE |
CN112306447A (zh) * | 2019-08-30 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 一种界面导航方法、装置、终端和存储介质 |
CN110660391A (zh) * | 2019-09-29 | 2020-01-07 | 苏州思必驰信息科技有限公司 | 基于rpa接口实现大屏终端语音控制的定制方法及系统 |
CN112817553A (zh) * | 2019-11-15 | 2021-05-18 | 阿里巴巴集团控股有限公司 | 一种语音交互方法、装置及系统 |
CN112309388A (zh) * | 2020-03-02 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
CN113571062B (zh) * | 2020-04-28 | 2024-05-24 | 中国移动通信集团浙江有限公司 | 基于语音数据的客户标签识别方法、装置及计算设备 |
CN111611468B (zh) * | 2020-04-29 | 2023-08-25 | 百度在线网络技术(北京)有限公司 | 页面交互方法、装置和电子设备 |
CN111767021A (zh) * | 2020-06-28 | 2020-10-13 | 广州小鹏车联网科技有限公司 | 语音交互方法、车辆、服务器、系统和存储介质 |
CN111917513B (zh) * | 2020-07-29 | 2022-11-22 | 上海海洋大学 | 一种移动端与服务器端数据交互方法 |
CN111968640B (zh) | 2020-08-17 | 2024-08-13 | 北京小米松果电子有限公司 | 语音控制方法、装置、电子设备及存储介质 |
CN114255745A (zh) * | 2020-09-10 | 2022-03-29 | 华为技术有限公司 | 一种人机交互的方法、电子设备及系统 |
CN112163086B (zh) * | 2020-10-30 | 2023-02-24 | 海信视像科技股份有限公司 | 多意图的识别方法、显示设备 |
CN112487142B (zh) * | 2020-11-27 | 2022-08-09 | 易联众信息技术股份有限公司 | 一种基于自然语言处理的对话式智能交互方法和系统 |
CN112579036B (zh) * | 2020-12-17 | 2024-07-19 | 南方电网数字平台科技(广东)有限公司 | 语音输入的报告设计器实现方法、系统、设备及存储介质 |
CN112885361A (zh) * | 2021-03-01 | 2021-06-01 | 长沙克莱自动化设备有限公司 | 语音控制方法、装置、电子设备和存储介质 |
CN112905149A (zh) * | 2021-04-06 | 2021-06-04 | Vidaa美国公司 | 显示设备上语音指令的处理方法、显示设备及服务器 |
CN113379975A (zh) * | 2021-06-09 | 2021-09-10 | 中国银行股份有限公司 | 一种自动取款机交互方法及相关设备 |
CN114047900A (zh) * | 2021-10-12 | 2022-02-15 | 中电金信软件有限公司 | 业务处理方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1266625C (zh) | 2001-05-04 | 2006-07-26 | 微软公司 | 用于web启用的识别的服务器 |
DE10207895B4 (de) * | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
JP2006330576A (ja) * | 2005-05-30 | 2006-12-07 | Sharp Corp | 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体 |
US8538757B2 (en) * | 2007-05-17 | 2013-09-17 | Redstart Systems, Inc. | System and method of a list commands utility for a speech recognition command system |
CN104205010A (zh) * | 2012-03-30 | 2014-12-10 | 英特尔公司 | 语音启用的触摸屏用户界面 |
US8909536B2 (en) * | 2012-04-20 | 2014-12-09 | Nuance Communications, Inc. | Methods and systems for speech-enabling a human-to-machine interface |
CN103544954A (zh) * | 2012-07-17 | 2014-01-29 | 北京千橡网景科技发展有限公司 | 用于向语音消息添加文字标签的方法和装置 |
US10867597B2 (en) * | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
US10235130B2 (en) * | 2014-11-06 | 2019-03-19 | Microsoft Technology Licensing, Llc | Intent driven command processing |
US9966073B2 (en) * | 2015-05-27 | 2018-05-08 | Google Llc | Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机系统 |
US10261752B2 (en) * | 2016-08-02 | 2019-04-16 | Google Llc | Component libraries for voice interaction services |
CN107871496B (zh) * | 2016-09-23 | 2021-02-12 | 北京眼神科技有限公司 | 语音识别方法和装置 |
CN106486118B (zh) * | 2016-09-30 | 2020-02-11 | 北京奇虎科技有限公司 | 一种应用的语音控制方法和装置 |
US10013980B2 (en) * | 2016-10-04 | 2018-07-03 | Microsoft Technology Licensing, Llc | Combined menu-based and natural-language-based communication with chatbots |
CN108062212A (zh) * | 2016-11-08 | 2018-05-22 | 沈阳美行科技有限公司 | 一种基于场景的语音操作方法及装置 |
US10467509B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
CN107180631A (zh) * | 2017-05-24 | 2017-09-19 | 刘平舟 | 一种语音交互方法及装置 |
CN107507615A (zh) * | 2017-08-29 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 界面智能交互控制方法、装置、系统及存储介质 |
US11182122B2 (en) * | 2017-12-08 | 2021-11-23 | Amazon Technologies, Inc. | Voice control of computing devices |
CN107992587A (zh) * | 2017-12-08 | 2018-05-04 | 北京百度网讯科技有限公司 | 一种浏览器的语音交互方法、装置、终端和存储介质 |
CN107910003A (zh) * | 2017-12-22 | 2018-04-13 | 智童时刻(厦门)科技有限公司 | 一种用于智能设备的语音交互方法及语音控制系统 |
US10762900B2 (en) * | 2018-03-07 | 2020-09-01 | Microsoft Technology Licensing, Llc | Identification and processing of commands by digital assistants in group device environments |
CN108877791B (zh) * | 2018-05-23 | 2021-10-08 | 百度在线网络技术(北京)有限公司 | 基于视图的语音交互方法、装置、服务器、终端和介质 |
-
2018
- 2018-05-23 CN CN201810501073.7A patent/CN108877791B/zh active Active
-
2019
- 2019-01-18 WO PCT/CN2019/072339 patent/WO2019223351A1/zh active Application Filing
- 2019-01-18 JP JP2020502486A patent/JP6952184B2/ja active Active
-
2020
- 2020-05-29 US US16/888,426 patent/US11727927B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022050379A (ja) * | 2021-02-09 | 2022-03-30 | ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
JP7301922B2 (ja) | 2021-02-09 | 2023-07-03 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN108877791B (zh) | 2021-10-08 |
CN108877791A (zh) | 2018-11-23 |
WO2019223351A1 (zh) | 2019-11-28 |
US11727927B2 (en) | 2023-08-15 |
US20200294505A1 (en) | 2020-09-17 |
JP6952184B2 (ja) | 2021-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6952184B2 (ja) | ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体 | |
JP6713034B2 (ja) | スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム | |
JP6440513B2 (ja) | 音声認識機能を用いた情報提供方法および機器の制御方法 | |
WO2020078300A1 (zh) | 一种终端投屏的控制方法和终端 | |
CN108847214B (zh) | 语音处理方法、客户端、装置、终端、服务器和存储介质 | |
CN1763842B (zh) | 用于语音识别中的动词错误恢复的方法和系统 | |
EP3701521B1 (en) | Voice recognition apparatus and operation method thereof cross-reference to related application | |
KR20190120353A (ko) | 음성 인식 방법, 디바이스, 장치, 및 저장 매체 | |
JP2019046468A (ja) | インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム | |
KR20200127814A (ko) | 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법 | |
CN109036396A (zh) | 一种第三方应用的交互方法及系统 | |
CN108882101B (zh) | 一种智能音箱的播放控制方法、装置、设备及存储介质 | |
CN108012173A (zh) | 一种内容识别方法、装置、设备和计算机存储介质 | |
JP2021121969A (ja) | アプリケーションプログラムの操作ガイダンス方法、装置、機器及び読み取り可能な記憶媒体 | |
KR20170029466A (ko) | 메신저를 통한 컨텐츠 제공 방법과 시스템 및 기록 매체 | |
CN112182196A (zh) | 应用于多轮对话的服务设备及多轮对话方法 | |
CN111539217B (zh) | 一种用于自然语言内容标题消歧的方法、设备和系统 | |
EP3851803B1 (en) | Method and apparatus for guiding speech packet recording function, device, and computer storage medium | |
WO2023184266A1 (zh) | 语音控制方法及装置、计算机可读存储介质、电子设备 | |
JP6944920B2 (ja) | スマートインタラクティブの処理方法、装置、設備及びコンピュータ記憶媒体 | |
CN114694661A (zh) | 一种第一终端设备、第二终端设备和语音唤醒方法 | |
CN111580766A (zh) | 一种信息显示方法、装置和信息显示系统 | |
CN114627864A (zh) | 显示设备与语音交互方法 | |
JP2019091448A (ja) | 設備の発現方法、装置、設備及びプログラム | |
US20210264910A1 (en) | User-driven content generation for virtual assistant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210921 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210927 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6952184 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |