JP7533472B2 - 情報処理装置、及びコマンド処理方法 - Google Patents
情報処理装置、及びコマンド処理方法 Download PDFInfo
- Publication number
- JP7533472B2 JP7533472B2 JP2021553461A JP2021553461A JP7533472B2 JP 7533472 B2 JP7533472 B2 JP 7533472B2 JP 2021553461 A JP2021553461 A JP 2021553461A JP 2021553461 A JP2021553461 A JP 2021553461A JP 7533472 B2 JP7533472 B2 JP 7533472B2
- Authority
- JP
- Japan
- Prior art keywords
- command
- input
- unit
- start timing
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04847—Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/048—Indexing scheme relating to G06F3/048
- G06F2203/04806—Zoom, i.e. interaction techniques or interactors for controlling the zooming operation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Description
1-1.はじめに
1-2.実施形態の概要
2-1.実施形態に係る情報処理システムの構成
2-2.具体例
2-3.実施形態に係る処理の流れ
3.変形例
4.実施形態の効果
従来から、ジェスチャを用いてコマンドの入力を行う技術がある。以下では、ジェスチャを音声とし、音声によりコマンドの入力を行う場合を例に説明するが、これに限定されるものではない。ジェスチャを身振り、手振りなどの身体的な動作とし、身体的な動作によりコマンドの入力を行う場合に本開示の技術を適用してもよい。
そこで、本実施形態では、時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出し、検出した入力開始タイミングでの操作対象の状態に基づいて、ジェスチャから認識されるコマンドの処理を実施する。これにより、操作対象に対してユーザが意図したタイミングでコマンドの処理の実施が可能となる。
図2を用いて、実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置10、及びサーバ装置20を含む情報処理システム1の構成について説明する。図2は、本開示の実施形態に係る情報処理システム1の構成例を示す図である。情報処理システム1は、ジェスチャによるコマンドの入力を提供するシステムである。
以下、本開示の実施形態について、具体例を用いて説明する。最初に、入力開始タイミングの検出手法について説明する。図5は、本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。図5には、動画コンテンツの再生に関する操作を音声によるコマンドで実施する場合のシーケンスが示されている。図5には、ユーザの発話、発話区間検出、音声認識、意味理解の各期間がそれぞれ示されている。また、図5の下部には、再生により表示される動画コンテンツ「1」~「5」が示されており、各動画コンテンツの下部に動画の再生位置を示すシークバー81が示されている。図5では、動画コンテンツを早送りするため、ユーザが「早送り」の発話をした後、停止を希望するタイミングで「ストップ」の発話をした場合を示している。
ここで、
vnは、発話意図Intent受け取り時の操作対象の速度である。
Δtは、発話意図Intent受け取り時の時刻Tnと、入力開始タイミングの時刻Tbとの時間差(Tn-Tb)である。
ここで、
aは、操作対象の減速度である。
ここで、
toは、認知時間である。
ここで、
vbは、入力開始タイミングでの操作対象の移動速度である。
ここで、
aは、操作対象の減速度である。
ここで、
vbは、オーバーシュートが発生した際の操作対象の移動速度である。
次に、実施形態に係る情報処理システム1がコマンド処理において実行される各種の処理の流れを説明する。図11は、本開示の実施形態に係る状態記憶処理を説明するフローチャートである。この状態記憶処理は、検出部30から入力開始タイミングが入力したタイミングで実行される。
上述の実施形態は、一例を示したものであり、種々の変更及び応用が可能である。変形例として、本実施形態に係る情報処理システム1を用いて動画内の画像検索を行う場合を説明する。
以上のように、実施形態に係る情報処理装置10は、検出部30と、コマンド処理部31とを有する。検出部30は、時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出する。コマンド処理部31は、検出部30により検出した入力開始タイミングでの操作対象の状態に基づいて、ジェスチャから認識されるコマンドの処理を実施する。これにより、情報処理装置10は、操作対象に対して意図したタイミングでコマンドの処理を実施できる。
(1)
時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出する検出部と、
前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施するコマンド処理部と、
を有する情報処理装置。
(2)
前記コマンドは、音声により入力され、
前記検出部は、音声によるコマンドの入力開始タイミングを検出する
上記(1)に記載の情報処理装置。
(3)
前記コマンド処理部は、前記検出部により検出した入力開始タイミングの時刻又は当該時刻の前記操作対象の状態を記憶し、記憶した時刻の状態まで前記操作対象の状態を戻して又は記憶した前記操作対象の状態に対して、前記コマンドの処理を実施する
上記(1)又は(2)に記載の情報処理装置。
(4)
前記コマンド処理部は、フィラー発話の後に所定の規定時間以内に音声によるコマンドが入力された場合、前記操作対象を前記フィラー発話の入力開始タイミングの状態に戻して、前記コマンドの処理を実施する
上記(2)に記載の情報処理装置。
(5)
前記操作対象を表示する表示部と、
コマンドを入力するユーザを撮影する撮影部と、
前記撮影部により撮影された画像から前記ユーザの顔の向き及び視線の少なくとも一方を検出する画像認識部と、
をさらに有し、
前記コマンド処理部は、コマンドが入力された際に前記画像認識部により検出された顔の向き及び視線の少なくとも一方から前記ユーザが前記表示部を見ているかを判定し、前記ユーザが前記表示部を見ている場合、前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記コマンドの処理を実施する
上記(1)~(4)の何れか1つに記載の情報処理装置。
(6)
前記コマンド処理部は、前記検出部により検出した入力開始タイミングから、コマンドを入力するユーザの属性に応じた認知時間分を変更したタイミングでの前記操作対象の状態に基づいて、前記コマンドの処理を実施する
上記(1)~(5)の何れか1つに記載の情報処理装置。
(7)
前記表示部は、時間的変化する前記操作対象の現在の状態と共に、前記検出部により検出した入力開始タイミングに戻した前記操作対象の状態を表示する
上記(5)に記載の情報処理装置。
(8)
前記操作対象は、複数のアイテムから選択対象のアイテムが順に遷移する操作とし、
前記コマンド処理部は、前記検出部により検出したタイミングで選択対象であるアイテムから遷移が所定範囲のアイテムを番号で選択可能に前記表示部に表示する
上記(5)に記載の情報処理装置。
(9)
前記検出部は、前記撮影部により撮影された画像の認識結果から入力開始タイミングを検出する
上記(5)に記載の情報処理装置。
(10)
前記コマンド処理部は、前記検出部により検出した入力開始タイミングの状態で前記操作対象の状態の時間的変化を伴う変化を休止させ、ジェスチャから認識されるコマンドが停止指示であった場合、前記操作対象を停止させ、前記コマンドが停止指示以外であった場合、前記休止を解除する
上記(1)~(9)の何れか1つに記載の情報処理装置。
(11)
前記コマンド処理部は、前記検出部により検出した入力開始タイミングから一定期間の間の前記操作対象の時間的変化を循環して表示させる
上記(1)~(9)の何れか1つに記載の情報処理装置。
(12)
前記コマンド処理部は、前記一定期間の間の前記操作対象の状態を識別する検索タグを表示させる
上記(11)に記載の情報処理装置。
(13)
前記コマンド処理部は、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する
上記(2)に記載の情報処理装置。
(14)
コンピュータが、
時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始の入力開始タイミングを検出し、
検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施する
コマンド処理方法。
10 情報処理装置
11 表示部
12 撮影部
13 音声出力部
14 音声入力部
15 記憶部
16 通信部
17 制御部
20 サーバ装置
21 通信部
22 記憶部
23 制御部
30 検出部
31 コマンド処理部
32 出力制御部
33 音声認識部
34 意味理解部
35 画像認識部
40 ユーザデータ
41 コンテンツデータ
Claims (10)
- 時間的変化を伴う操作対象を表示する表示部と、
コマンドを入力するユーザを撮影する撮影部と、
前記撮影部により撮影された画像から前記ユーザの顔の向き及び視線の少なくとも一方を検出する画像認識部と、
前記操作対象に対するコマンドであって、ジェスチャを用いて入力される前記コマンドの入力開始タイミングを検出する検出部と、
前記ジェスチャを用いてコマンドが入力された際に前記画像認識部により検出された顔の向き及び視線の少なくとも一方から前記ユーザが前記表示部を見ているかを判定し、前記ユーザが前記表示部を見ている場合、前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施するコマンド処理部と、
を有し、
前記操作対象は、複数のアイテムから選択対象のアイテムが順に遷移し、
前記コマンド処理部は、前記検出部により検出した前記入力開始タイミングで選択対象であるアイテムから遷移が所定範囲のアイテムを番号で選択可能に前記表示部に表示する
情報処理装置。 - 前記コマンドは、音声により入力され、
前記検出部は、音声によるコマンドの入力開始タイミングを検出する
請求項1に記載の情報処理装置。 - 前記コマンド処理部は、前記検出部により検出した入力開始タイミングから、コマンドを入力するユーザの属性に応じた認知時間分を変更したタイミングでの前記操作対象の状態に基づいて、前記コマンドの処理を実施する
請求項1に記載の情報処理装置。 - 前記検出部は、前記撮影部により撮影された画像の認識結果から入力開始タイミングを検出する
請求項1に記載の情報処理装置。 - 時間的変化を伴う操作対象に対するコマンドであって、ジェスチャを用いて入力される前記コマンドの入力開始タイミングを検出する検出部と、
前記検出部により検出した入力開始タイミングから一定期間の間の前記操作対象の時間的変化を循環して表示させると共に、前記入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施するコマンド処理部と、
を有する情報処理装置。 - 前記コマンド処理部は、前記一定期間の間の前記操作対象の状態を識別する検索タグを表示させる
請求項5に記載の情報処理装置。 - 時間的変化を伴う操作対象に対するコマンドであって、音声により入力される前記コマンドの入力開始タイミングを検出する検出部と、
前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記音声から認識されるコマンドの処理を実施するコマンド処理部と、
を有し、
前記コマンド処理部は、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、前記コマンドの処理を実施する
情報処理装置。 - コンピュータが、
コマンドを入力するユーザを撮影する撮影部により撮影された画像から画像認識により前記ユーザの顔の向き及び視線の少なくとも一方を検出し、
表示部に表示される時間的変化を伴う操作対象に対するコマンドであって、ジェスチャを用いて入力される前記コマンドの入力開始の入力開始タイミングを検出し、
前記ジェスチャを用いてコマンドが入力された際に前記画像認識により検出された顔の向き及び視線の少なくとも一方から前記ユーザが前記表示部を見ているかを判定し、前記ユーザが前記表示部を見ている場合、検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施する
コマンド処理方法。 - コンピュータが、
時間的変化を伴う操作対象に対するコマンドであって、ジェスチャを用いて入力される前記コマンドの入力開始の入力開始タイミングを検出し、
検出した入力開始タイミングから一定期間の間の前記操作対象の時間的変化を循環して表示させると共に、前記入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施する
コマンド処理方法。 - コンピュータが、
時間的変化を伴う操作対象に対するコマンドであって、音声により入力される前記コマンドの入力開始の入力開始タイミングを検出し、
検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記音声から認識されるコマンドの処理を実施し、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、前記コマンドの処理を実施する
コマンド処理方法。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019197969 | 2019-10-30 | ||
| JP2019197969 | 2019-10-30 | ||
| PCT/JP2020/039401 WO2021085242A1 (ja) | 2019-10-30 | 2020-10-20 | 情報処理装置、及びコマンド処理方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2021085242A1 JPWO2021085242A1 (ja) | 2021-05-06 |
| JP7533472B2 true JP7533472B2 (ja) | 2024-08-14 |
Family
ID=75715141
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021553461A Active JP7533472B2 (ja) | 2019-10-30 | 2020-10-20 | 情報処理装置、及びコマンド処理方法 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US12182475B2 (ja) |
| JP (1) | JP7533472B2 (ja) |
| WO (1) | WO2021085242A1 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7482640B2 (ja) * | 2020-02-05 | 2024-05-14 | キヤノン株式会社 | 音声入力装置およびその制御方法ならびにプログラム |
| JP7314102B2 (ja) * | 2020-07-09 | 2023-07-25 | Tvs Regza株式会社 | 制御信号生成回路、受信装置、システム、生成方法、およびプログラム |
| KR102516391B1 (ko) * | 2022-09-02 | 2023-04-03 | 주식회사 액션파워 | 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2004104986A1 (ja) | 2003-05-21 | 2004-12-02 | Matsushita Electric Industrial Co., Ltd. | 音声出力装置及び音声出力方法 |
| JP2016109726A (ja) | 2014-12-02 | 2016-06-20 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
| JP2016218852A (ja) | 2015-05-22 | 2016-12-22 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
| WO2018034077A1 (ja) | 2016-08-19 | 2018-02-22 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000112490A (ja) | 1998-10-06 | 2000-04-21 | Seiko Epson Corp | 音声認識方法及び音声認識装置並びに音声認識処理プログラムを記録した記録媒体 |
| JP5585401B2 (ja) * | 2010-11-09 | 2014-09-10 | ソニー株式会社 | 再生装置、再生方法、提供装置および再生システム |
| US9182233B2 (en) * | 2012-05-17 | 2015-11-10 | Robert Bosch Gmbh | System and method for autocompletion and alignment of user gestures |
| JP2017021125A (ja) * | 2015-07-09 | 2017-01-26 | ヤマハ株式会社 | 音声対話装置 |
| KR102759157B1 (ko) * | 2016-10-20 | 2025-01-23 | 삼성전자주식회사 | 디스플레이 장치 및 디스플레이 장치를 제어하는 방법 |
| US10910001B2 (en) * | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
-
2020
- 2020-10-20 WO PCT/JP2020/039401 patent/WO2021085242A1/ja not_active Ceased
- 2020-10-20 US US17/771,043 patent/US12182475B2/en active Active
- 2020-10-20 JP JP2021553461A patent/JP7533472B2/ja active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2004104986A1 (ja) | 2003-05-21 | 2004-12-02 | Matsushita Electric Industrial Co., Ltd. | 音声出力装置及び音声出力方法 |
| JP2016109726A (ja) | 2014-12-02 | 2016-06-20 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
| JP2016218852A (ja) | 2015-05-22 | 2016-12-22 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
| WO2018034077A1 (ja) | 2016-08-19 | 2018-02-22 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2021085242A1 (ja) | 2021-05-06 |
| WO2021085242A1 (ja) | 2021-05-06 |
| US20220357915A1 (en) | 2022-11-10 |
| US12182475B2 (en) | 2024-12-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6635049B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
| US10482872B2 (en) | Speech recognition apparatus and speech recognition method | |
| EP3152754B1 (en) | Modification of visual content to facilitate improved speech recognition | |
| JP7533472B2 (ja) | 情報処理装置、及びコマンド処理方法 | |
| JPWO2017104207A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
| KR102484257B1 (ko) | 전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체 | |
| JP7040449B2 (ja) | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 | |
| EP3210205A1 (en) | Sound sample verification for generating sound detection model | |
| JP6443419B2 (ja) | 音声対話装置及びその制御方法 | |
| WO2018105373A1 (ja) | 情報処理装置、情報処理方法、および情報処理システム | |
| JPWO2018105373A1 (ja) | 情報処理装置、情報処理方法、および情報処理システム | |
| EP4425485B1 (en) | Electronic device and control method therefor | |
| WO2019181218A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
| JP7468360B2 (ja) | 情報処理装置および情報処理方法 | |
| US11501208B2 (en) | Rehearsal-based presentation assistance | |
| KR102479400B1 (ko) | 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 인터페이스 시스템 | |
| KR20230131015A (ko) | 전자 장치 및 그 제어 방법 | |
| US20250220298A1 (en) | Control system and unit, image capturing system and apparatus, information processing apparatus, control method, and storage medium | |
| US20240331693A1 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and imaging apparatus | |
| JP2023115649A (ja) | 分析システム、情報処理装置、分析方法、及びプログラム | |
| WO2021085193A1 (ja) | 情報処理装置、及びコマンド処理方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230911 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240416 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240610 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240702 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240715 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7533472 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |