JP7405093B2 - 情報処理装置および情報処理方法 - Google Patents
情報処理装置および情報処理方法 Download PDFInfo
- Publication number
- JP7405093B2 JP7405093B2 JP2020558183A JP2020558183A JP7405093B2 JP 7405093 B2 JP7405093 B2 JP 7405093B2 JP 2020558183 A JP2020558183 A JP 2020558183A JP 2020558183 A JP2020558183 A JP 2020558183A JP 7405093 B2 JP7405093 B2 JP 7405093B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- user
- character expression
- information processing
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 156
- 238000003672 processing method Methods 0.000 title claims description 7
- 230000014509 gene expression Effects 0.000 claims description 388
- 230000033001 locomotion Effects 0.000 claims description 49
- 230000006399 behavior Effects 0.000 claims description 27
- 230000009471 action Effects 0.000 claims description 25
- 230000001755 vocal effect Effects 0.000 claims description 24
- 230000004424 eye movement Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000005034 decoration Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 45
- 238000000034 method Methods 0.000 description 36
- 230000006870 function Effects 0.000 description 22
- 230000008569 process Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 18
- 238000001514 detection method Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 8
- 210000005252 bulbus oculi Anatomy 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0346—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Description
1.実施形態
1.1.概要
1.2.システム構成例
1.3.情報処理端末10の機能構成例
1.4.情報処理サーバ20の機能構成例
1.5.機能の詳細
1.6.処理の流れ
2.ハードウェア構成例
3.まとめ
<<1.1.概要>>
まず、本開示の一実施形態の概要について説明する。上述したように、近年においては、マウスやキーボードに代わる各種の入力手法が開発されている。上記の入力手法には、例えば、音声認識技術を用いた文字入力手法や装置の制御手法が含まれる。このような手法によれば、ユーザの手を装置の操作から解放することができるため、ユーザは自由になった手で他の作業を行うことが可能となる。
・「今日の夕方の1645にゴー」
・「今日の夕方の1645にGO」
・「今日の夕方の164525」
・「今日の夕方の1645二号」
・「今日の夕方の一六四号二号」
・「今日の夕方の164号2号」
次に、本開示の一実施形態に係る情報処理システムの構成例について述べる。図2は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図2を参照すると、本実施形態に係る情報処理システムは、情報処理端末10および情報処理サーバ20を備える。また、情報処理端末10と情報処理サーバ20は、ネットワーク30を介して互いに通信が可能なように接続される。
本実施形態に係る情報処理端末10は、文字入力インタフェースUIをユーザに提供する情報処理装置である。また、情報処理端末10は、上述したユーザの言語動作や非言語動作に係るセンシング情報を収集する。例えば、ユーザの視線を文字表現の決定に利用する場合、本実施形態に係る情報処理端末10は、例えば、視線検出が可能なヘッドマウントディスプレイや専用装置であってもよい。
本実施形態に係る情報処理サーバ20は、情報処理端末10が収集したセンシング情報に基づく各種の認識処理を行う情報処理装置である。例えば、本実施形態に係る情報処理サーバ20は、情報処理端末10が収集したユーザの音声に基づいて音声認識を実行する。また、例えば、本実施形態に係る情報処理サーバ20は、情報処理端末10が収集した眼球の画像に基づいて視線認識を実行する。本実施形態に係る情報処理サーバ20が行う認識処理の種別は、文字表現の決定に係る言語動作や非言語動作に応じて設計される。
ネットワーク30は、情報処理端末10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
次に、本開示の一実施形態に係る情報処理端末10の機能構成例について述べる。図3は、本実施形態に係る情報処理端末10の機能構成例を示すブロック図である。図3を参照すると、本実施形態に係る情報処理端末10は、音入力部110、撮影部115、操作入力部120、センサ部125、表示制御部130、文字表現決定部135、文字表現予測部140、文字表現学習部145、表示部150、音出力部155、およびサーバ通信部160を備える。
本実施形態に係る音入力部110は、ユーザの発話などの音を収集する。このために、本実施形態に係る音入力部110は、マイクロフォンなどの集音装置を備える。なお、話者識別等のために音源方向推定を行う場合、音入力部110は、2つ以上の集音装置を備える。
本実施形態に係る撮影部115は、ユーザなどの画像を撮影する。このために、本実施形態に係る撮影部115は、撮像センサを備える。また、本実施形態に係る撮影部115は、ユーザの視線認識に用いる画像を撮影するために、赤外光LEDなどの光源を備えてもよい。
本実施形態に係る操作入力部120は、ユーザによる操作入力を検出する。このために、本実施形態に係る操作入力部120は、例えば、タッチパネルやスイッチ、ボタンなどを備える。
本実施形態に係るセンサ部125は、ユーザや情報処理端末10に係る各種のセンシング情報を収集する。このために、本実施形態に係るセンサ部125は、例えば、加速度センサ、ジャイロセンサ、地磁気センサなどを備える。
本実施形態に係る表示制御部130は、図1に示したような文字入力インタフェースUIの表示を制御する。例えば、本実施形態に係る表示制御部130は、文字表現決定部135が決定した文字表現を用いて、言語動作の認識に基づくテキストの表示を制御してよい。本実施形態に係る表示制御部130が有する機能の詳細については別途後述する。
本実施形態に係る文字表現決定部135(単に、決定部、とも称する)は、ユーザの言語動作のテキストに係る文字表現を決定する機能を有する。また、本実施形態に係る文字表現決定部135は、検出されたユーザの非言語動作に基づいて、検出された言語動作区間ごとに文字表現を決定する、ことを特徴の一つとする。
本実施形態に係る文字表現予測部140(単に、予測部、とも称する)は、文字表現学習部145が学習したユーザの文字入力の傾向に基づいて、当該ユーザ言語動作のテキスト化に係る文字表現を予測する機能を有する。
本実施形態に係る文字表現学習部145(単に、学習部、とも称する)は、ユーザによる文字入力実績や認識結果の修正実績に基づいてユーザの文字入力の傾向を学習する機能を有する。
本実施形態に係る表示部150は、表示制御部130による制御に基づいて、文字入力インタフェースUIを表示する。このために、本実施形態に係る表示部150は、各種のディスプレイを備える。
本実施形態に係る音出力部155は、合成音声などの各種の音を出力する機能を備える。このために、本実施形態に係る音出力部155は、アンプやスピーカなどを備える。
本実施形態に係るサーバ通信部160は、ネットワーク30を介して情報処理サーバ20との情報通信を行う。例えば、本実施形態に係るサーバ通信部160は、音入力部110、撮影部115、センサ部125が収集した音情報、画像、その他のセンサ情報を情報処理サーバ20に送信し、認識処理結果を受信する。
次に、本開示の一実施形態に係る情報処理サーバ20の機能構成例について述べる。図4は、本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。図4を参照すると、本実施形態に係る情報処理サーバ20は、音声認識部210、音声区間検出部220、音源方向推定部230、話者識別部240、音声合成部250、視線認識部260、ジェスチャ認識部270、および端末通信部280を備える。
本実施形態に係る音声認識部210は、情報処理端末10が収集したユーザの発話に係る音情報に基づいて、(ASR:Automatic Speech Recognition)を行う。音声認識部210は、例えば、公知の技術を用いて音声認識を行ってよい。
本実施形態に係る音声区間検出部220は、情報処理端末10が収集したユーザの発話に係る音情報に基づいて、音声区間検出(VAD:Voice Activity Detection)を行う。例えば、公知の技術を用いて音声区間検出を行ってよい。
本実施形態に係る音源方向推定部230は、情報処理端末10が収集した音情報に基づいて、音源位置の方向を推定する。例えば、公知の技術を用いて音源方向推定を行ってよい。
本実施形態に係る話者識別部240は、発話を行ったユーザを識別する。本実施形態に係る話者識別部240は、例えば人物認識、顔認識、唇認識などの技術を用いて話者識別を行ってよい。
本実施形態に係る音声合成部250は、音声認識部210によりテキスト化されたユーザの発話や、その他のシステム発話に係る音声を合成する。
本実施形態に係る視線認識部260は、情報処理端末10が撮影したユーザの眼球画像に基づいて、当該ユーザの視線の位置を認識する。本実施形態に係る視線認識部260は、公知の技術を用いて視線認識を行ってよい。
本実施形態に係るジェスチャ認識部270は、情報処理端末10が撮影した画像や、情報処理端末10が収集したセンサ情報に基づいて、ユーザの手や指、頭部、またその他の体の部位によるジェスチャを認識する。本実施形態に係るジェスチャ認識部270は、公知の技術を用いて各種のジェスチャを認識してよい。
本実施形態に係る端末通信部280は、ネットワーク30を介して情報処理端末10との情報通信を行う。例えば、本実施形態に係る端末通信部280は、情報処理端末10から音情報、画像、その他のセンサ情報を受信し、上記の各構成による処理の結果を情報処理端末10に送信する。
次に、本実施形態に係る情報処理端末10による文字表現の決定について詳細に説明する。図5~図9は、本実施形態に係る文字表現決定の流れについて説明するための図である。なお、以下においては、本実施形態に係る言語動作がユーザの有声発話であり、非言語動作がユーザの眼球運動である場合を主な例として説明する。また、文字表現の一例としては、文字種を採用する。
次に、本実施形態に係る情報処理端末10による処理の流れについて詳細に説明する。まず、情報処理端末10による文字表現の適用の流れについて述べる。図30は、本実施形態に係る情報処理端末10による文字表現の適用の流れを示すフローチャートである。
次に、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20に共通するハードウェア構成例について説明する。図35は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図35を参照すると、情報処理端末10および情報処理サーバ20は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インタフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インタフェース877を介して種々の構成要素と接続される。
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
以上説明したように、本開示の一実施形態に係る情報処理方法を実現する情報処理端末10は、ユーザの言語動作のテキスト化に係る文字表現を決定する文字表現決定部135を備える。また、本開示の一実施形態に係る文字表現決定部135は、検出された上記ユーザの非言語動作に基づいて、検出された言語動作区間ごとに上記文字表現を決定する、ことを特徴の一つとする。係る構成によれば、ユーザの意図により合致した文字列入力を実現することができる。
(1)
ユーザの言語動作のテキスト化に係る文字表現を決定する決定部、
を備え、
前記決定部は、検出された前記ユーザの非言語動作に基づいて、検出された言語動作区間ごとに前記文字表現を決定する、
情報処理装置。
(2)
前記言語動作は、少なくとも前記ユーザの発話を含み、
前記決定部は、前記発話に伴う前記ユーザの前記非言語動作に基づいて、音声区間ごとに前記文字表現を決定する、
前記(1)に記載の情報処理装置。
(3)
前記非言語動作は、少なくとも前記ユーザの眼球運動を含み、
前記決定部は、前記ユーザの視線に基づいて、前記音声区間ごとに前記文字表現を決定する、
前記(2)に記載の情報処理装置。
(4)
前記決定部は、前記ユーザが注視した文字表現アイコンに対応する前記文字表現を、後続する前記音声区間のテキスト化に適用する、
前記(3)に記載の情報処理装置。
(5)
前記決定部は、前記音声区間の終了が検出されるまでの間、適用中の前記文字表現を固定する、
前記(4)に記載の情報処理装置。
(6)
前記決定部は、前記音声区間が検出されておらず、かつテキストの出力が完了していない場合において、テキストの出力方向と前記ユーザの視線の移動方向が略一致する場合、適用中の前記文字表現を固定する、
前記(4)または(5)に記載の情報処理装置。
(7)
前記決定部は、複数人の前記ユーザの視線と発話とに基づいて、前記ユーザごとに発話のテキスト化に係る前記文字表現を決定する、
前記(3)~(5)のいずれかに記載の情報処理装置。
(8)
前記決定部は、いずれかの前記ユーザによる発話が検出された場合、当該発話を行ったユーザが注視した文字表現アイコンに対応する前記文字表現を後続する前記音声区間のテキスト化に適用し、他のユーザの視線に基づく前記文字表現の制御を行わない、
前記(7)に記載の情報処理装置。
(9)
前記決定部は、複数人の前記ユーザの視線と発話とに基づいて、前記ユーザの発話ごとに、テキスト化に係る前記文字表現を同時に制御する、
前記(7)に記載の情報処理装置。
(10)
前記決定部は、前記音声区間の終了後に前記ユーザが注視した文字表現アイコンに対応する前記文字表現を用いて、当該音声区間に対応するテキストを変換する、
前記(3)に記載の情報処理装置。
(11)
前記文字表現は、少なくとも文字種を含む、
前記(1)~(10)のいずれかに記載の情報処理装置。
(12)
前記文字表現は、書体、文字装飾、約物、表記言語のうち少なくともいずれかを含む、前記(1)~(11)のいずれかに記載の情報処理装置。
(13)
前記ユーザの文字入力の傾向に基づいて、当該ユーザの前記言語動作のテキスト化に係る前記文字表現を予測する予測部、
をさらに備える、
前記(1)~(12)のいずれかに記載の情報処理装置。
(14)
前記決定部は、前記予測部が予測した前記文字表現を前記ユーザが承認した場合、当該文字表現を後続する前記非言語動作のテキスト化に適用する、
前記(13)に記載の情報処理装置。
(15)
前記決定部が決定した前記文字表現を用いて、前記言語動作の認識に基づくテキストの表示を制御する表示制御部、
をさらに備える、
前記(1)~(14)のいずれかに記載の情報処理装置。
(16)
前記表示制御部は、前記ユーザが選択可能な複数の前記文字表現に対応する複数の文字表現アイコンの表示を制御する、
前記(15)に記載の情報処理装置。
(17)
前記表示制御部は、前記言語動作の認識に基づくテキストの出力位置からの視線移動が所定距離以内の位置に複数の前記文字表現アイコンを表示させる、
前記(16)に記載の情報処理装置。
(18)
前記非言語動作は、少なくとも前記ユーザのジェスチャを含み、
前記決定部は、前記ユーザのジェスチャに基づいて、前記音声区間ごとに前記文字表現を決定する、
前記(2)に記載の情報処理装置。
(19)
前記ユーザの文字入力の傾向を学習する学習部、
をさらに備える、
前記(13)または(14)に記載の情報処理装置。
(20)
プロセッサが、ユーザの言語動作のテキスト化に係る文字表現を決定すること、
を含み、
前記決定することは、検出された前記ユーザの非言語動作に基づいて、検出された言語動作区間ごとに前記文字表現を決定すること、
をさらに含む、
情報処理方法。
130 表示制御部
135 文字表現決定部
140 文字表現予測部
145 文字表現学習部
20 情報処理サーバ
210 音声認識部
220 音声区間検出部
230 音源方向推定部
240 話者識別部
260 視線認識部
270 ジェスチャ認識部
Claims (11)
- ユーザの言語動作のテキスト化に係る文字表現を決定する決定部、
を備え、
前記決定部は、検出された前記ユーザの非言語動作に基づいて、検出された言語動作区間ごとに前記文字表現を決定し、
前記言語動作は、少なくとも前記ユーザの発話を含み、
前記決定部は、前記発話に伴う前記ユーザの前記非言語動作に基づいて、音声区間ごとに前記文字表現を決定し、
前記非言語動作は、少なくとも前記ユーザの眼球運動を含み、
前記決定部は、前記ユーザの視線に基づいて、前記音声区間ごとに前記文字表現を決定し、
前記決定部は、前記ユーザが注視した文字表現アイコンに対応する前記文字表現を、後続する前記音声区間のテキスト化に適用し、
前記決定部は、前記音声区間が検出されておらず、かつテキストの出力が完了していない場合において、テキストの出力方向と前記ユーザの視線の移動方向が略一致する場合、適用中の前記文字表現を固定する、
情報処理装置。 - 前記決定部は、前記音声区間の終了が検出されるまでの間、適用中の前記文字表現を固定する、
請求項1に記載の情報処理装置。 - 前記文字表現は、少なくとも文字種を含む、
請求項1に記載の情報処理装置。 - 前記文字表現は、書体、文字装飾、約物、表記言語のうち少なくともいずれかを含む、請求項1に記載の情報処理装置。
- 前記ユーザの文字入力の傾向に基づいて、当該ユーザの前記言語動作のテキスト化に係る前記文字表現を予測する予測部、
をさらに備える、
請求項1に記載の情報処理装置。 - 前記決定部は、前記予測部が予測した前記文字表現を前記ユーザが承認した場合、当該文字表現を後続する前記非言語動作のテキスト化に適用する、
請求項5に記載の情報処理装置。 - 前記決定部が決定した前記文字表現を用いて、前記言語動作の認識に基づくテキストの表示を制御する表示制御部、
をさらに備える、
請求項1に記載の情報処理装置。 - 前記表示制御部は、前記ユーザが選択可能な複数の前記文字表現に対応する複数の文字表現アイコンの表示を制御する、
請求項7に記載の情報処理装置。 - 前記表示制御部は、前記言語動作の認識に基づくテキストの出力位置からの視線移動が所定距離以内の位置に複数の前記文字表現アイコンを表示させる、
請求項8に記載の情報処理装置。 - 前記ユーザの文字入力の傾向を学習する学習部、
をさらに備える、
請求項5に記載の情報処理装置。 - プロセッサが、ユーザの言語動作のテキスト化に係る文字表現を決定すること、
を含み、
前記決定することは、検出された前記ユーザの非言語動作に基づいて、検出された言語動作区間ごとに前記文字表現を決定すること、をさらに含み、
前記言語動作は、少なくとも前記ユーザの発話を含み、
前記決定することは、前記発話に伴う前記ユーザの前記非言語動作に基づいて、音声区間ごとに前記文字表現を決定すること、をさらに含み、
前記非言語動作は、少なくとも前記ユーザの眼球運動を含み、
前記決定することは、前記ユーザの視線に基づいて、前記音声区間ごとに前記文字表現を決定すること、をさらに含み、
前記決定することは、前記ユーザが注視した文字表現アイコンに対応する前記文字表現を、後続する前記音声区間のテキスト化に適用すること、をさらに含み、
前記決定することは、前記音声区間が検出されておらず、かつテキストの出力が完了していない場合において、テキストの出力方向と前記ユーザの視線の移動方向が略一致する場合、適用中の前記文字表現を固定すること、をさらに含む、
情報処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018217585 | 2018-11-20 | ||
JP2018217585 | 2018-11-20 | ||
PCT/JP2019/041578 WO2020105349A1 (ja) | 2018-11-20 | 2019-10-23 | 情報処理装置および情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020105349A1 JPWO2020105349A1 (ja) | 2021-10-14 |
JP7405093B2 true JP7405093B2 (ja) | 2023-12-26 |
Family
ID=70774251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020558183A Active JP7405093B2 (ja) | 2018-11-20 | 2019-10-23 | 情報処理装置および情報処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11900931B2 (ja) |
JP (1) | JP7405093B2 (ja) |
WO (1) | WO2020105349A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210014909A (ko) * | 2019-07-31 | 2021-02-10 | 삼성전자주식회사 | 대상의 언어 수준을 식별하는 전자 장치 및 방법 |
CN114281236B (zh) * | 2021-12-28 | 2023-08-15 | 建信金融科技有限责任公司 | 文本处理方法、装置、设备、介质和程序产品 |
CN114822005B (zh) * | 2022-06-28 | 2022-09-20 | 深圳市矽昊智能科技有限公司 | 基于人工智能的遥控意图预测方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017182500A (ja) | 2016-03-30 | 2017-10-05 | 富士通株式会社 | 入力装置、入力プログラム、及び入力方法 |
JP2017536600A (ja) | 2014-09-25 | 2017-12-07 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 複数モードでの会話的対話における話された言語の理解のための凝視 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0651901A (ja) | 1992-06-29 | 1994-02-25 | Nri & Ncc Co Ltd | 視線認識によるコミュニケーション装置 |
JPH10260773A (ja) * | 1997-03-19 | 1998-09-29 | Nippon Telegr & Teleph Corp <Ntt> | 情報入力方法及びその装置 |
US7013258B1 (en) | 2001-03-07 | 2006-03-14 | Lenovo (Singapore) Pte. Ltd. | System and method for accelerating Chinese text input |
JP2004110845A (ja) | 2003-10-29 | 2004-04-08 | A I Soft Inc | 文字入力装置 |
WO2013170383A1 (en) * | 2012-05-16 | 2013-11-21 | Xtreme Interactions Inc. | System, device and method for processing interlaced multimodal user input |
US20160210276A1 (en) | 2013-10-24 | 2016-07-21 | Sony Corporation | Information processing device, information processing method, and program |
JP6790856B2 (ja) | 2017-01-18 | 2020-11-25 | 株式会社デンソー | 電子情報処理システム及びコンピュータプログラム |
-
2019
- 2019-10-23 US US17/292,003 patent/US11900931B2/en active Active
- 2019-10-23 JP JP2020558183A patent/JP7405093B2/ja active Active
- 2019-10-23 WO PCT/JP2019/041578 patent/WO2020105349A1/ja unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017536600A (ja) | 2014-09-25 | 2017-12-07 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 複数モードでの会話的対話における話された言語の理解のための凝視 |
JP2017182500A (ja) | 2016-03-30 | 2017-10-05 | 富士通株式会社 | 入力装置、入力プログラム、及び入力方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020105349A1 (ja) | 2021-10-14 |
US20220013117A1 (en) | 2022-01-13 |
WO2020105349A1 (ja) | 2020-05-28 |
EP3885893A1 (en) | 2021-09-29 |
US11900931B2 (en) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Lip-interact: Improving mobile device interaction with silent speech commands | |
JP6903808B2 (ja) | リアルタイム手書き認識の管理 | |
JP7022062B2 (ja) | 統合化された物体認識および顔表情認識を伴うvpa | |
JP7405093B2 (ja) | 情報処理装置および情報処理方法 | |
US10095327B1 (en) | System, method, and computer-readable medium for facilitating adaptive technologies | |
US20170263248A1 (en) | Dictation that allows editing | |
EP4026119A1 (en) | Transcription revision interface for speech recognition system | |
US20190251990A1 (en) | Information processing apparatus and information processing method | |
JP2012502325A (ja) | デバイスインターフェイシングのための多重モード調音統合 | |
JP6897677B2 (ja) | 情報処理装置及び情報処理方法 | |
US10839800B2 (en) | Information processing apparatus | |
WO2015059976A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US20230343323A1 (en) | Dynamically adapting given assistant output based on a given persona assigned to an automated assistant | |
US20190267028A1 (en) | Information processing apparatus and information processing method | |
WO2023210149A1 (ja) | 情報処理装置及び情報処理方法、並びにコンピュータプログラム | |
WO2015156011A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
WO2018116556A1 (ja) | 情報処理装置、および情報処理方法 | |
JP7468360B2 (ja) | 情報処理装置および情報処理方法 | |
Shree et al. | A Virtual Assistor for Impaired People by using Gestures and Voice | |
WO2019054009A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
EP4386493A2 (en) | Predictive input interface having improved robustness for processing low precision inputs | |
JP2018196922A (ja) | ロボット制御システム | |
JP2003050663A (ja) | 手話文認識装置およびユーザインタフェース | |
JP2003288098A (ja) | ディクテーション装置、方法及びプログラム | |
KR20000003293A (ko) | 입력 데이터를 음성으로 출력하는 기능을 갖는 컴퓨터 시스템및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221004 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231127 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7405093 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |