JP2021077142A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2021077142A
JP2021077142A JP2019203801A JP2019203801A JP2021077142A JP 2021077142 A JP2021077142 A JP 2021077142A JP 2019203801 A JP2019203801 A JP 2019203801A JP 2019203801 A JP2019203801 A JP 2019203801A JP 2021077142 A JP2021077142 A JP 2021077142A
Authority
JP
Japan
Prior art keywords
display
character string
display character
unit
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019203801A
Other languages
English (en)
Other versions
JP6703177B1 (ja
Inventor
悠生 添田
Hiroo SOEDA
悠生 添田
建丸 平井
Takemaru HIRAI
建丸 平井
重徳 鈴木
Shigenori Suzuki
重徳 鈴木
高史 内藤
Takashi Naito
高史 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
V Cube Inc
V Cube Inc
Original Assignee
V Cube Inc
V Cube Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by V Cube Inc, V Cube Inc filed Critical V Cube Inc
Priority to JP2019203801A priority Critical patent/JP6703177B1/ja
Priority to PCT/JP2020/020138 priority patent/WO2021095289A1/ja
Application granted granted Critical
Publication of JP6703177B1 publication Critical patent/JP6703177B1/ja
Publication of JP2021077142A publication Critical patent/JP2021077142A/ja
Priority to US17/662,661 priority patent/US20220262369A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】音声による装置の操作が正しく行われやすくする。【解決手段】情報処理装置1は、動画を表示しているディスプレイ15に、それぞれ異なる複数の表示文字列を表示させる表示制御部181と、所定のマイクロホン11に入力された音声を認識する音声処理部183と、複数の表示文字列のうち音声処理部183が認識した音声が示す入力文字列に相対的に近い表示文字列を選択する選択部184と、選択部184が選択した表示文字列に対応し、動画に影響を与える処理を実行する処理実行部185と、を有する。【選択図】図3

Description

本発明は、音声による操作を受け付けることが可能な情報処理装置、情報処理方法及びプログラムに関する。
従来、テレビ会議中に入力された音声を認識し、認識した音声に基づく操作を実行することができるテレビ会議システムが知られている(例えば、特許文献1を参照)。
特開2008−252455号公報
従来のテレビ会議システムにおいては、テレビ会議システムの使用者が、音声により入力可能なコマンドを記憶しておく必要があった。したがって、入力可能なコマンドと異なる音声を使用者が発しやすく、使用者が意図した操作をすることができない場合が生じやすいという問題が生じていた。
そこで、本発明はこれらの点に鑑みてなされたものであり、音声による装置の操作が正しく行われやすくすることを目的とする。
本発明の第1の態様の情報処理装置は、動画を表示している表示部に、それぞれ異なる複数の表示文字列を表示させる表示制御部と、所定のマイクロホンに入力された音声を認識する音声処理部と、前記複数の表示文字列のうち前記音声処理部が認識した音声が示す入力文字列に相対的に近い表示文字列を選択する選択部と、前記選択部が選択した前記表示文字列に対応し、前記動画に影響を与える処理を実行する処理実行部と、を有する。
前記情報処理装置は、前記複数の表示文字列と複数の処理内容とを関連付けて記憶する記憶部をさらに有し、前記選択部は、前記複数の処理内容から一つの処理内容を選択する操作を受け付け、選択された前記一つの前記処理内容に関連付けて前記記憶部に記憶された前記表示文字列を変更してもよい。
前記表示制御部は、前記一つの処理内容に関連付けられた複数の表示文字列候補を前記表示部に表示させ、前記選択部は、前記複数の表示文字列候補から選択された一つの表示文字列候補を前記一つの処理内容に関連付けられた前記表示文字列に変更してもよい。
前記選択部は、前記情報処理装置が使用される環境を特定し、特定した環境に基づいて複数の表示文字列候補から前記表示文字列を選択してもよい。
前記選択部は、前記複数の表示文字列候補のうち、特定した環境において使用される頻度が高い文字列との類似度が相対的に低い前記表示文字列候補を前記表示文字列として選択してもよい。
前記選択部は、前記複数の表示文字列候補のうち、特定した環境において使用される頻度が高い文字列との類似度が相対的に低い一以上の前記表示文字列候補を前記表示部に表示させ、前記表示部に表示させた前記一以上の表示文字列候補から選択された前記表示文字列候補を前記表示文字列として選択してもよい。
前記選択部は、前記表示文字列を他の表示文字列に変更する操作を受け付け、前記他の表示文字列が、特定した環境で使用される文字列と類似すると判定した場合に警報を出力してもよい。
前記表示制御部は、環境を特定するための複数の環境候補を前記表示部に表示させ、前記選択部は、前記複数の環境候補から選択された一つの環境候補を前記情報処理装置が使用される環境として特定してもよい。
本発明の第2の態様の情報処理方法は、コンピュータが実行する、表示部に動画を表示させるステップと、前記表示部に動画を表示させている間に、それぞれ異なる複数の表示文字列を表示させるステップと、所定のマイクロホンに入力された音声を認識するステップと、前記複数の表示文字列のうち認識した音声が示す入力文字列に最も近い表示文字列を選択するステップと、選択した前記表示文字列に対応し、前記動画に影響を与える処理を実行するステップと、を有する。
本発明の第3の態様のプログラムは、コンピュータを、動画を表示している表示部に、それぞれ異なる複数の表示文字列を表示させる表示制御部、所定のマイクロホンに入力された音声を認識する音声処理部、前記複数の表示文字列のうち前記音声処理部が認識した音声が示す入力文字列に最も近い表示文字列を選択する選択部、及び前記選択部が選択した前記表示文字列に対応し、前記動画に影響を与える処理を実行する処理実行部、として機能させる。
本発明によれば、音声による装置の操作が正しく行われやすくなるという効果を奏する。
通信システムの概要を説明するための図である。 情報処理装置の構成を模式的に示す図である。 情報処理装置の構成を示すブロック図である。 記憶部が記憶しているテーブルの一例を示す図である。 表示制御部がディスプレイに表示させる画面の一例を示す図である。 表示文字列を変更するための画面の一例を示す図である。 表示文字列が変更された後の画面を示す図である。 選択部が特定した環境において「ライト」が使用される頻度が高いと判定した場合に表示される表示文字列候補を示す図である。 制御部による表示文字列変更処理の流れを示すフローチャートである。
[通信システムSの概要]
図1は、通信システムSの概要を説明するための図である。通信システムSは、動画及び音声の通信を行うためのシステムであり、情報処理装置1と、情報処理装置2とを備える。情報処理装置1と情報処理装置2とは、アクセスポイント3及びネットワークNを介して、動画及び音声を送受信することができる。
情報処理装置1は、ユーザU1が使用するデバイスであり、例えばユーザU1が頭部に装着して使用することができるスマートグラスである。情報処理装置2は、ユーザU2が使用するコンピュータである。情報処理装置2が、情報処理装置1と同様のスマートグラスであってもよい。アクセスポイント3は、例えば、情報処理装置1及び情報処理装置2が無線でネットワークNにアクセスするためのWi−Fi(登録商標)ルーターである。
図2は、情報処理装置1の構成を模式的に示す図である。情報処理装置1は、マイクロホン11と、カメラ12と、ライト13と、スピーカ14と、ディスプレイ15とを有する。
マイクロホン11は、情報処理装置1の周囲の音を収集する。マイクロホン11は、例えばユーザU1の音声の入力を受ける。マイクロホン11が収集した音のデータは、ネットワークNを介して情報処理装置2へと送信される。
カメラ12は、情報処理装置1の周囲の画像を撮像する。カメラ12は、例えばユーザU1が視認している領域の撮像画像を生成する。カメラ12が生成した撮像画像は、ネットワークNを介して情報処理装置2へと送信される。
ライト13は、情報処理装置1の周囲を照らすための光を発する。ライト13は、例えばユーザU1の操作により点灯状態と消灯状態とを切り替えることができる。
スピーカ14は、ユーザU1の耳の部分に装着されており、音を発する。スピーカ14は、例えば、情報処理装置2から送信されたユーザU2の音声を出力する。
ディスプレイ15は、ユーザU1が視認することができる位置に設けられており、各種の情報を表示する表示部である。ディスプレイ15は、例えば、情報処理装置2から送信された動画像(例えばユーザU2の顔画像)を表示する。ディスプレイ15は、カメラ12が生成した撮像画像を表示してもよい。さらに、ディスプレイ15は、情報処理装置2から送信された動画像及びカメラ12が生成した撮像画像の少なくともいずれかを含む動画像とともに、ユーザU1が情報処理装置1に関連する各種の操作を行うためのテキスト情報である表示文字列を表示する。
情報処理装置1には、ユーザU1が頭部に装着可能な態様で、ユーザU1がユーザU2と動画及び音声を用いた通信をするために用いられるマイクロホン11、カメラ12、ライト13、スピーカ14及びディスプレイ15等のデバイスが設けられている。また、情報処理装置1は、ディスプレイ15に表示された表示文字列に対応する音声がマイクロホン11に入力された場合に、入力された音声に対応する処理を実行する。したがって、ユーザU1は、ディスプレイ15に表示されたテキスト情報に対応する音声を発することで、手を使うことなく各種の操作をすることができるので、両手を使った作業をしながら、動画及び音声を用いて、ユーザU2に周囲の状況を伝えたり、ユーザU2から指示を受けたりすることができる。
[情報処理装置1の構成]
図3は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、図2に示したマイクロホン11、カメラ12、ライト13、スピーカ14及びディスプレイ15の他に、通信部16、記憶部17及び制御部18を有する。
通信部16は、アクセスポイント3及びネットワークNを介して情報処理装置2との間で画像及び音声を送受信するための通信インターフェースであり、例えばWi−Fi又はBluetooth(登録商標)の無線通信コントローラを有する。
記憶部17は、各種のデータを記憶する記憶媒体であり、例えばROM(Read Only Memory)及びRAM(Random Access Memory)を有する。記憶部17は、制御部18が実行するプログラムを記憶している。
また、記憶部17は、ディスプレイ15に表示される複数の表示文字列と、制御部18が実行する複数の処理内容とを関連付けて記憶する。図4は、記憶部17が記憶しているテーブルの一例を示す図である。図4に示すテーブルにおいては、表示文字列としてディスプレイ15に表示される「マイク切替」、「カメラ起動」、「参加リスト」、「ビデオ切替」、「モード切替」、「ライト切替」、「ズームレベル」、「切断」のそれぞれが選択された場合に制御部18が実行する処理の内容が示されている。
制御部18は、例えばCPU(Central Processing Unit)である。制御部18は、記憶部17に記憶されたプログラムを実行することにより、表示制御部181、撮像制御部182、音声処理部183、選択部184及び処理実行部185として機能する。
表示制御部181は、ディスプレイ15に各種の情報を表示させる。表示制御部181は、例えば、動画を表示しているディスプレイ15に、それぞれ異なる複数の表示文字列を表示させる。
図5は、表示制御部181がディスプレイ15に表示させる画面の一例を示す図である。図5(a)は、情報処理装置1を使用するユーザU1が情報処理装置2を使用するユーザU2と動画を見ながら会議をしている間にディスプレイ15に表示される画面の一例を示している。領域151にはユーザU2の動画が表示されており、領域152には、カメラ12により撮影された動画が表示されており、領域153には、図4に示した複数の表示文字列が表示されている。
図5(b)は、ディスプレイ15に表示される他の画面の一例であるコントロールパネルの画面を示している。コントロールパネルは、情報処理装置1の動作に影響する各種の設定を受け付けるための画面である。表示制御部181は、表示文字列が表示されている図5(a)に示す画面をディスプレイ15に表示している間にユーザU1が「コントロールパネル」という音声を発した場合に、図5(b)に示すコントロールパネルの画面に切り替える。また、表示制御部181は、コントロールパネルが表示されている間にユーザU1が「前のページに戻る」という音声を発した場合に、図5(a)に示す画面に切り替える。
ユーザU1は、コントロールパネルにおいて表示されている文字列又は文字列に関連付けて表示されている数字を読み上げることにより、該当する処理を情報処理装置1に実行させることができる。ユーザU1は、例えば「表示文字列の変更」という音声を発することにより、図5(a)の画面に表示される表示文字列を変更することができる。表示文字列を変更する処理の詳細については後述する。
撮像制御部182は、カメラ12及びライト13を制御する。撮像制御部182は、カメラ12に撮像処理を実行させることにより撮像画像を生成させ、生成させた撮像画像を取得する。撮像制御部182は、取得した撮像画像を処理実行部185を介して情報処理装置2に送信したり、表示制御部181を介してディスプレイ15に表示させたりする。また、撮像制御部182は、処理実行部185からの指示に基づいてライト13を点灯させたり消灯させたりする。
音声処理部183は、音声に関する各種の処理を実行する。音声処理部183は、例えば、処理実行部185を介して情報処理装置2から受信した音声をスピーカ14へと出力する。また、音声処理部183は、マイクロホン11から入力された音声を認識することにより、入力された音声に含まれている入力文字列を特定する。音声処理部183は、例えば、記憶部17に記憶された単語辞書を参照することにより、単語辞書に含まれている文字列を検出した場合に、検出した文字列を入力文字列として特定する。音声処理部183は、特定した入力文字列を選択部184に通知する。
選択部184は、図5(a)に示す画面に表示されている複数の表示文字列のうち音声処理部183が認識した音声が示す入力文字列に相対的に近い表示文字列を選択する。具体的には、選択部184は、音声処理部183から通知された入力文字列を複数の表示文字列それぞれと比較し、最も近い表示文字列を選択する。選択部184は、選択した表示文字列を処理実行部185に通知する。
選択部184は、音声処理部183から通知された入力文字列が、複数の表示文字列のいずれとも類似していないと判定した場合、表示文字列を選択せず、処理実行部185に表示文字列を通知しない。選択部184は、音声処理部183から入力文字列の通知を受けたにもかかわらず表示文字列を認識できなかった場合に、表示制御部181を介して、表示文字列を認識できなかったことをディスプレイ15に表示させてもよい。
処理実行部185は、選択部184が選択した表示文字列に対応し、動画に影響を与える処理を含む各種の処理を実行する。処理実行部185は、例えば図4に示したテーブルを参照することにより、選択部184が選択した表示文字列に対応する処理内容の動作を実行する。
処理実行部185は、表示文字列「マイク切替」が選択された場合、マイクロホン11から音声を入力することができる状態と音声を入力できない状態とを切り換える。処理実行部185は、表示文字列「カメラ起動」が選択された場合、カメラ12を起動させて、カメラ12に撮像画像の生成を開始させる。
処理実行部185は、表示文字列「参加リスト」が選択された場合、ビデオ表示可能な拠点のリストを表示する。ビデオ表示可能な拠点は、通信システムSを使用するユーザにより設定されており、本実施の形態においてはユーザU2がいる場所がビデオ表示可能な拠点に設定されている。
処理実行部185は、表示文字列「ビデオ切替」が選択された場合、図5(a)に示したように動画を表示する画面の表示形式の種別を切り替える。処理実行部185は、例えば、図5(a)に示したように複数の拠点で撮像された複数の動画を表示する表示形式と、他の拠点(例えばユーザU2の拠点)で撮像された動画のみを表示する表示形式と、情報処理装置1が使用されている拠点(例えばユーザU1の拠点)で撮像された動画のみを表示する表示形式とを切り替える。
処理実行部185は、表示文字列「モード切替」が選択された場合、各拠点で撮像された動画を表示する表示形式と、各拠点のコンピュータの画面を表示する表示形式とを切り替える。処理実行部185は、表示文字列「ライト切替」が選択された場合、ライト13が点灯した状態とライト13が消灯した状態とを切り替える。
処理実行部185は、表示文字列「ズームレベル」が選択された場合、ディスプレイ15が撮像する際のズーム量を切り替える。処理実行部185は、表示文字列「切断」が選択された場合、他の拠点との間での動画及び音声の通信を切断する。
[表示文字列の変更処理]
上記のとおり、情報処理装置1は、ディスプレイ15に表示された複数の表示文字列のうち、ユーザU1が発した音声により特定される入力文字列に最も近い表示文字列に対応する処理を実行する。しかしながら、情報処理装置1が使用される場所によっては、周囲の人の会話の中に、表示文字列と同一又は類似する文字列が含まれやすい場合があり、このような場合には、情報処理装置1を使用しているユーザU1の意図に反した表示文字列が選択されてしまうことがある。
そこで、情報処理装置1においては、ディスプレイ15に表示される複数の表示文字列それぞれを変更できるように構成されている。具体的には、選択部184は、複数の処理内容から一つの処理内容を選択する操作を受け付け、選択された一つの処理内容に関連付けて記憶部17に記憶された表示文字列を変更する。より具体的には、選択部184は、図5(b)に示したコントロールパネルにおいて「表示文字列の変更」が選択された場合に、表示文字列を変更するための画面を表示するように表示制御部181に通知する。
図6は、表示文字列を変更するための画面の一例を示す図である。図6(a)は、変更する対象となる表示文字列を選択するための画面である。図6(a)には、複数の表示文字列が一覧表示されている。選択部184は、表示されている複数の表示文字列のいずれかに対応する表示文字列の音声が入力されたことを特定すると、特定した表示文字列の変更後の文字列の候補を表示する図6(b)に示す画面を表示制御部181に表示させる。
図6(b)に示すように、表示制御部181は、一つの処理内容に関連付けられた複数の表示文字列候補をディスプレイ15に表示させる。そして、選択部184は、複数の表示文字列候補から選択された一つの表示文字列候補を一つの処理内容に関連付けられた表示文字列に変更する。
図6(b)に示す例においては、ライト13の点灯状態と消灯状態とを切り替える処理を行わせるための表示文字列の候補として、「ライトスイッチ」、「ライトオンオフ」、「明るさ切替」、「フラッシュ切替」、「フラッシュスイッチ」が表示されている。また、図6(b)には、ユーザU1が自由に決定した文字列を表示文字列にしたい場合に選択できる「自由入力」、及び表示文字列の変更を終了する場合に選択できる「変更終了」も表示されている。
例えば図5(a)に示す画面に表示されている複数の表示文字列において、「マイク切替」と「ライト切替」が誤認識されやすい場合、ユーザU1は、図6(b)の画面が表示されている間に「ライトスイッチ」と発声することで、ライト13の点灯状態と消灯状態とを切り替えるために発するべき文字列を「ライト切替」から「ライトスイッチ」に切り替えることができる。選択部184は、図6(b)の画面が表示されている間に「変更終了」という文字列が入力されたことを特定すると、表示文字列を変更する処理を終了し、複数の表示文字列が表示された画面を表示制御部181に表示させる。
図7は、表示文字列が変更された後の画面を示す図である。図7においては、図5(a)において「ライト切替」という表示文字列が表示されていた位置に、「ライトスイッチ」という表示文字列が表示されている。このように表示文字列が変更されることにより、「ライト切替」が誤認識されていたユーザU1が、ライト13の状態を切り替える際に誤認識されにくくなる。
選択部184は、情報処理装置1が使用される環境を特定し、特定した環境に基づいて複数の表示文字列候補から表示文字列を選択してもよい。選択部184は、例えば、複数の表示文字列が表示されていない状態において入力される音声に含まれる文字列に基づいて、複数の表示文字列のいずれかに含まれる文字列と同一又は類似する文字列が発せられる頻度が高い環境であるか否かを特定する。
選択部184は、複数の表示文字列のいずれかに含まれる文字列と同一又は類似する文字列が発せられる頻度が高い環境であると判定した場合、複数の表示文字列候補のうち、特定した環境において使用される頻度が高い文字列との類似度が相対的に低い表示文字列候補を表示文字列として選択する。選択部184は、例えば情報処理装置1が使用される場所に「ライト」という名前の人がいて、「ライト」という文字列が発せられる頻度が閾値以上であると判定した場合、「ライト」を含まない表示文字列として「フラッシュ切替」を選択する。選択部184がこのように動作することにより、情報処理装置1が使用される環境において表示文字列の誤認識が生じる確率が低減する。
選択部184は、複数の表示文字列候補のうち、特定した環境において使用される頻度が高い文字列との類似度が相対的に低い一以上の表示文字列候補をディスプレイ15に表示させるように表示制御部181に指示してもよい。図8は、選択部184が特定した環境において「ライト」が使用される頻度が高いと判定した場合に表示される表示文字列候補を示す図である。図8においては、図6(b)と異なり、「ライト」を含む表示文字列候補が表示されていない。選択部184は、ディスプレイ15における図8に示すような画面に表示させた一以上の表示文字列候補から選択された表示文字列候補を表示文字列として選択する。選択部184がこのように動作することで、情報処理装置1が使用される環境において誤認識が生じる確率が低い表示文字列をユーザU1が選択することが可能になる。
表示制御部181は、環境を特定するための複数の環境候補をディスプレイ15に表示させ、選択部184は、複数の環境候補から選択された一つの環境候補を情報処理装置1が使用される環境として特定してもよい。表示制御部181は、例えば、情報処理装置1が使用される業界名を示す複数の環境候補をディスプレイ15に表示させる。業界名は、例えば石油化学業界、半導体業界、自動車業界等である。また、表示制御部181は、情報処理装置1の使用目的を示す複数の環境候補をディスプレイ15に表示させてもよい。使用目的は、例えば防災関連の作業、工場での作業、建設現場での作業等である。
この場合、記憶部17は、複数の環境候補それぞれに関連付けて、使用することが推奨される複数の表示文字列候補を記憶していてもよい。選択部184は、複数の環境候補から選択された環境候補に関連付けて記憶部17に記憶されている複数の表示文字列候補を選択し、選択した複数の表示文字列候補を図6(b)に示す画面等に表示するよう表示制御部181に指示をしてもよい。
また、記憶部17は、複数の環境候補それぞれに関連付けて、デフォルト状態で図5(a)の画面に表示させる複数の表示文字列を記憶してもよい。この場合、表示制御部181は、選択部184が特定した環境候補に関連付けて記憶部17に記憶された複数の表示文字列をディスプレイ15の領域153に表示させる。このように表示制御部181が、情報処理装置1が使用される環境に適した表示文字列をディスプレイ15に表示させることで、ユーザU1が変更処理をすることなく、誤認識される確率を下げることができる。
選択部184は、図6(b)に示す画面において表示文字列を他の表示文字列に変更する操作を受け付けた際に、他の表示文字列が、特定した環境で使用される文字列と類似すると判定した場合に警報を出力してもよい。選択部184は、例えば、「ライト」が使用される頻度が高い環境において「ライトスイッチ」が選択された場合に、「誤認識される可能性があります」という警告をディスプレイ15に表示させるように表示制御部181に指示する。選択部184がこのように動作することで、情報処理装置1が使用される環境において誤認識が生じる確率が高い表示文字列がユーザU1により選択されにくくなる。
[制御部18による処理の流れ]
図9は、制御部18による表示文字列変更処理の流れを示すフローチャートである。図9に示すフローチャートは、図5(b)に示したコントロールパネルが表示されている状態から開始している。
選択部184は、コントロールパネルにおいて「表示文字列の変更」が選択されたか否かを監視する(S11)。選択部184は、「表示文字列の変更」が選択されたと判定した場合、図6(b)に示すように複数の表示文字列候補を表示する(S12)。
選択部184は、図6(b)に示す画面において「自由入力」が選択されたか否かを監視する(S13)。選択部184は、「自由入力」が選択されず、複数の表示文字列候補のいずれかが選択されたと判定した場合(S13においてNO)、選択された表示文字列候補を特定し(S14)、表示文字列を変更する(S15)。
選択部184は、ステップS13において「自由入力」が選択されたと判定した場合(S13においてYES)、入力された文字列を解析する(S16)。選択部184は、入力された文字列が他の処理内容に対応する複数の表示文字列のいずれにも類似していないと判定した場合(S17においてNO)、入力された文字列を新たな表示文字列に変更する(S15)。
一方、選択部184は、ステップS17において、入力された文字列が他の処理内容に対応する複数の表示文字列のいずれかに類似していると判定した場合(S17においてYES)、類似する表示文字列があることをユーザU1に通知する警告をディスプレイ15に表示するように表示制御部181に指示する(S18)。
選択部184は、警告が表示された後の所定の時間以内に再び文字列が入力された場合(S19においてYES)、ステップS16に戻って、入力された文字列を解析する。選択部184は、警告が表示された後の所定の時間以内に再び文字列が入力されない場合(S19においてNO)、入力された文字列を新たな表示文字列に変更する(S15)。
[情報処理装置1による効果]
以上説明したように、情報処理装置1は、動画を表示しているディスプレイ15に、それぞれ異なる複数の表示文字列を表示させる表示制御部181と、マイクロホン11に入力された音声を認識した音声が示す入力文字列に相対的に近い表示文字列を選択する選択部184と、選択部184が選択した表示文字列に対応し、動画に影響を与える処理を実行する処理実行部185とを有する。情報処理装置1がこのような構成を有することで、情報処理装置1を使用するユーザU1が、表示されている文字列を発することで所望の操作をすることができるので、音声による装置の操作が正しく行われやすくなる。
また、選択部184は、複数の処理内容から一つの処理内容を選択する操作を受け付け、選択された一つの前記処理内容に関連付けて記憶部17に記憶された表示文字列を変更する。選択部184がこのように動作することで、ユーザU1又は情報処理装置1が、ディスプレイ15に表示される表示文字列を、情報処理装置1の使用環境において誤認識されにくい文字列に変更することができるので、音声による情報処理装置1の操作がさらに正しく行われやすくなる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
1 情報処理装置
2 情報処理装置
3 アクセスポイント
11 マイクロホン
12 カメラ
13 ライト
14 スピーカ
14 ディスプレイ
15 ディスプレイ
15 表示部
16 通信部
17 記憶部
18 制御部
181 表示制御部
182 撮像制御部
183 音声処理部
184 選択部
185 処理実行部

Claims (10)

  1. 動画を表示している表示部に、それぞれ異なる複数の表示文字列を表示させる表示制御部と、
    所定のマイクロホンに入力された音声を認識する音声処理部と、
    前記複数の表示文字列のうち前記音声処理部が認識した音声が示す入力文字列に相対的に近い表示文字列を選択する選択部と、
    前記選択部が選択した前記表示文字列に対応し、前記動画に影響を与える処理を実行する処理実行部と、
    を有する情報処理装置。
  2. 前記複数の表示文字列と複数の処理内容とを関連付けて記憶する記憶部をさらに有し、
    前記選択部は、前記複数の処理内容から一つの処理内容を選択する操作を受け付け、選択された前記一つの前記処理内容に関連付けて前記記憶部に記憶された前記表示文字列を変更する、
    請求項1に記載の情報処理装置。
  3. 前記表示制御部は、前記一つの処理内容に関連付けられた複数の表示文字列候補を前記表示部に表示させ、
    前記選択部は、前記複数の表示文字列候補から選択された一つの表示文字列候補を前記一つの処理内容に関連付けられた前記表示文字列に変更する、
    請求項2に記載の情報処理装置。
  4. 前記選択部は、前記情報処理装置が使用される環境を特定し、特定した環境に基づいて複数の表示文字列候補から前記表示文字列を選択する、
    請求項1から3のいずれか一項に記載の情報処理装置。
  5. 前記選択部は、前記複数の表示文字列候補のうち、特定した環境において使用される頻度が高い文字列との類似度が相対的に低い前記表示文字列候補を前記表示文字列として選択する、
    請求項4に記載の情報処理装置。
  6. 前記選択部は、前記複数の表示文字列候補のうち、特定した環境において使用される頻度が高い文字列との類似度が相対的に低い一以上の前記表示文字列候補を前記表示部に表示させ、前記表示部に表示させた前記一以上の表示文字列候補から選択された前記表示文字列候補を前記表示文字列として選択する、
    請求項4又は5に記載の情報処理装置。
  7. 前記選択部は、前記表示文字列を他の表示文字列に変更する操作を受け付け、前記他の表示文字列が、特定した環境で使用される文字列と類似すると判定した場合に警報を出力する、
    請求項4から6のいずれか一項に記載の情報処理装置。
  8. 前記表示制御部は、環境を特定するための複数の環境候補を前記表示部に表示させ、
    前記選択部は、前記複数の環境候補から選択された一つの環境候補を前記情報処理装置が使用される環境として特定する、
    請求項4から7のいずれか一項に記載の情報処理装置。
  9. コンピュータが実行する、
    表示部に動画を表示させるステップと、
    前記表示部に動画を表示させている間に、それぞれ異なる複数の表示文字列を表示させるステップと、
    所定のマイクロホンに入力された音声を認識するステップと、
    前記複数の表示文字列のうち認識した音声が示す入力文字列に最も近い表示文字列を選択するステップと、
    選択した前記表示文字列に対応し、前記動画に影響を与える処理を実行するステップと、
    を有する情報処理方法。
  10. コンピュータを、
    動画を表示している表示部に、それぞれ異なる複数の表示文字列を表示させる表示制御部、
    所定のマイクロホンに入力された音声を認識する音声処理部、
    前記複数の表示文字列のうち前記音声処理部が認識した音声が示す入力文字列に最も近い表示文字列を選択する選択部、及び
    前記選択部が選択した前記表示文字列に対応し、前記動画に影響を与える処理を実行する処理実行部、
    として機能させるためのプログラム。
JP2019203801A 2019-11-11 2019-11-11 情報処理装置、情報処理方法及びプログラム Active JP6703177B1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019203801A JP6703177B1 (ja) 2019-11-11 2019-11-11 情報処理装置、情報処理方法及びプログラム
PCT/JP2020/020138 WO2021095289A1 (ja) 2019-11-11 2020-05-21 情報処理装置、情報処理方法及びプログラム
US17/662,661 US20220262369A1 (en) 2019-11-11 2022-05-10 Information processing apparatus, information processing method and storage medium storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019203801A JP6703177B1 (ja) 2019-11-11 2019-11-11 情報処理装置、情報処理方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020081906A Division JP2021077327A (ja) 2020-05-07 2020-05-07 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP6703177B1 JP6703177B1 (ja) 2020-06-03
JP2021077142A true JP2021077142A (ja) 2021-05-20

Family

ID=70858141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019203801A Active JP6703177B1 (ja) 2019-11-11 2019-11-11 情報処理装置、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US20220262369A1 (ja)
JP (1) JP6703177B1 (ja)
WO (1) WO2021095289A1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003162296A (ja) * 2001-11-28 2003-06-06 Nissan Motor Co Ltd 音声入力装置
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。
JP2006251699A (ja) * 2005-03-14 2006-09-21 Denso Corp 音声認識装置
JP2007142957A (ja) * 2005-11-21 2007-06-07 National Institute Of Information & Communication Technology 遠隔対話方法及び装置
JP2008145693A (ja) * 2006-12-08 2008-06-26 Canon Inc 情報処理装置及び情報処理方法
JP2013041580A (ja) * 2011-08-05 2013-02-28 Samsung Electronics Co Ltd 電子装置及びその制御方法
JP2017102516A (ja) * 2015-11-30 2017-06-08 セイコーエプソン株式会社 表示装置、通信システム、表示装置の制御方法、及び、プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003162296A (ja) * 2001-11-28 2003-06-06 Nissan Motor Co Ltd 音声入力装置
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。
JP2006251699A (ja) * 2005-03-14 2006-09-21 Denso Corp 音声認識装置
JP2007142957A (ja) * 2005-11-21 2007-06-07 National Institute Of Information & Communication Technology 遠隔対話方法及び装置
JP2008145693A (ja) * 2006-12-08 2008-06-26 Canon Inc 情報処理装置及び情報処理方法
JP2013041580A (ja) * 2011-08-05 2013-02-28 Samsung Electronics Co Ltd 電子装置及びその制御方法
JP2017102516A (ja) * 2015-11-30 2017-06-08 セイコーエプソン株式会社 表示装置、通信システム、表示装置の制御方法、及び、プログラム

Also Published As

Publication number Publication date
US20220262369A1 (en) 2022-08-18
JP6703177B1 (ja) 2020-06-03
WO2021095289A1 (ja) 2021-05-20

Similar Documents

Publication Publication Date Title
JP6570651B2 (ja) 音声対話装置および音声対話方法
CN106463114B (zh) 信息处理设备、控制方法及程序存储单元
US7421655B2 (en) Presenting information indicating input modalities
US7236611B2 (en) Gesture activated home appliance
WO2016157662A1 (ja) 情報処理装置、制御方法、およびプログラム
KR20150112337A (ko) 디스플레이 장치 및 그 사용자 인터랙션 방법
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
US20140333964A1 (en) Image forming apparatus, method for guidance on operation method by image forming apparatus, and system
KR102218640B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
WO2018061173A1 (ja) Tv会議システム、tv会議方法、およびプログラム
JPWO2017175442A1 (ja) 情報処理装置、および情報処理方法
WO2021095289A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP2021077327A (ja) 情報処理装置、情報処理方法及びプログラム
US20230100151A1 (en) Display method, display device, and display system
JP7468360B2 (ja) 情報処理装置および情報処理方法
KR20190053727A (ko) 전자장치 및 그 제어방법
JP5041754B2 (ja) 静止画像表示切替システム
JP7246913B2 (ja) 情報処理システム、情報処理装置、及び情報処理方法
US20230223019A1 (en) Information processing device, information processing method, and program
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7289243B2 (ja) 表示装置、表示システム、及び表示方法
JP2006331153A (ja) 情報機器及び情報機器システム
JP2021180369A (ja) 作業者端末、遠隔作業支援装置、作業支援システム
JP2021092924A (ja) 音声操作システム、画像形成装置、音声操作方法、音声操作サーバ、および、音声操作プログラム
JP2023136193A (ja) 会議システムの処理方法及び会議システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191120

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191120

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200507

R150 Certificate of patent or registration of utility model

Ref document number: 6703177

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250