JP2021077142A

JP2021077142A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2021077142A
Application number: JP2019203801A
Authority: JP
Inventors: 悠生添田; Hiroo SOEDA; 建丸平井; Takemaru HIRAI; 重徳鈴木; Shigenori Suzuki; 高史内藤; Takashi Naito
Original assignee: V Cube Inc
Current assignee: V Cube Inc
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2021-05-20
Anticipated expiration: 2039-11-11
Also published as: US20220262369A1; JP6703177B1; WO2021095289A1

Abstract

【課題】音声による装置の操作が正しく行われやすくする。【解決手段】情報処理装置１は、動画を表示しているディスプレイ１５に、それぞれ異なる複数の表示文字列を表示させる表示制御部１８１と、所定のマイクロホン１１に入力された音声を認識する音声処理部１８３と、複数の表示文字列のうち音声処理部１８３が認識した音声が示す入力文字列に相対的に近い表示文字列を選択する選択部１８４と、選択部１８４が選択した表示文字列に対応し、動画に影響を与える処理を実行する処理実行部１８５と、を有する。【選択図】図３

Description

本発明は、音声による操作を受け付けることが可能な情報処理装置、情報処理方法及びプログラムに関する。

従来、テレビ会議中に入力された音声を認識し、認識した音声に基づく操作を実行することができるテレビ会議システムが知られている（例えば、特許文献１を参照）。

特開２００８−２５２４５５号公報

従来のテレビ会議システムにおいては、テレビ会議システムの使用者が、音声により入力可能なコマンドを記憶しておく必要があった。したがって、入力可能なコマンドと異なる音声を使用者が発しやすく、使用者が意図した操作をすることができない場合が生じやすいという問題が生じていた。

そこで、本発明はこれらの点に鑑みてなされたものであり、音声による装置の操作が正しく行われやすくすることを目的とする。

本発明の第１の態様の情報処理装置は、動画を表示している表示部に、それぞれ異なる複数の表示文字列を表示させる表示制御部と、所定のマイクロホンに入力された音声を認識する音声処理部と、前記複数の表示文字列のうち前記音声処理部が認識した音声が示す入力文字列に相対的に近い表示文字列を選択する選択部と、前記選択部が選択した前記表示文字列に対応し、前記動画に影響を与える処理を実行する処理実行部と、を有する。

前記情報処理装置は、前記複数の表示文字列と複数の処理内容とを関連付けて記憶する記憶部をさらに有し、前記選択部は、前記複数の処理内容から一つの処理内容を選択する操作を受け付け、選択された前記一つの前記処理内容に関連付けて前記記憶部に記憶された前記表示文字列を変更してもよい。

前記表示制御部は、前記一つの処理内容に関連付けられた複数の表示文字列候補を前記表示部に表示させ、前記選択部は、前記複数の表示文字列候補から選択された一つの表示文字列候補を前記一つの処理内容に関連付けられた前記表示文字列に変更してもよい。

前記選択部は、前記情報処理装置が使用される環境を特定し、特定した環境に基づいて複数の表示文字列候補から前記表示文字列を選択してもよい。

前記選択部は、前記複数の表示文字列候補のうち、特定した環境において使用される頻度が高い文字列との類似度が相対的に低い前記表示文字列候補を前記表示文字列として選択してもよい。

前記選択部は、前記複数の表示文字列候補のうち、特定した環境において使用される頻度が高い文字列との類似度が相対的に低い一以上の前記表示文字列候補を前記表示部に表示させ、前記表示部に表示させた前記一以上の表示文字列候補から選択された前記表示文字列候補を前記表示文字列として選択してもよい。

前記選択部は、前記表示文字列を他の表示文字列に変更する操作を受け付け、前記他の表示文字列が、特定した環境で使用される文字列と類似すると判定した場合に警報を出力してもよい。

前記表示制御部は、環境を特定するための複数の環境候補を前記表示部に表示させ、前記選択部は、前記複数の環境候補から選択された一つの環境候補を前記情報処理装置が使用される環境として特定してもよい。

本発明の第２の態様の情報処理方法は、コンピュータが実行する、表示部に動画を表示させるステップと、前記表示部に動画を表示させている間に、それぞれ異なる複数の表示文字列を表示させるステップと、所定のマイクロホンに入力された音声を認識するステップと、前記複数の表示文字列のうち認識した音声が示す入力文字列に最も近い表示文字列を選択するステップと、選択した前記表示文字列に対応し、前記動画に影響を与える処理を実行するステップと、を有する。

本発明の第３の態様のプログラムは、コンピュータを、動画を表示している表示部に、それぞれ異なる複数の表示文字列を表示させる表示制御部、所定のマイクロホンに入力された音声を認識する音声処理部、前記複数の表示文字列のうち前記音声処理部が認識した音声が示す入力文字列に最も近い表示文字列を選択する選択部、及び前記選択部が選択した前記表示文字列に対応し、前記動画に影響を与える処理を実行する処理実行部、として機能させる。

本発明によれば、音声による装置の操作が正しく行われやすくなるという効果を奏する。

通信システムの概要を説明するための図である。情報処理装置の構成を模式的に示す図である。情報処理装置の構成を示すブロック図である。記憶部が記憶しているテーブルの一例を示す図である。表示制御部がディスプレイに表示させる画面の一例を示す図である。表示文字列を変更するための画面の一例を示す図である。表示文字列が変更された後の画面を示す図である。選択部が特定した環境において「ライト」が使用される頻度が高いと判定した場合に表示される表示文字列候補を示す図である。制御部による表示文字列変更処理の流れを示すフローチャートである。

［通信システムＳの概要］
図１は、通信システムＳの概要を説明するための図である。通信システムＳは、動画及び音声の通信を行うためのシステムであり、情報処理装置１と、情報処理装置２とを備える。情報処理装置１と情報処理装置２とは、アクセスポイント３及びネットワークＮを介して、動画及び音声を送受信することができる。

情報処理装置１は、ユーザＵ１が使用するデバイスであり、例えばユーザＵ１が頭部に装着して使用することができるスマートグラスである。情報処理装置２は、ユーザＵ２が使用するコンピュータである。情報処理装置２が、情報処理装置１と同様のスマートグラスであってもよい。アクセスポイント３は、例えば、情報処理装置１及び情報処理装置２が無線でネットワークＮにアクセスするためのＷｉ−Ｆｉ（登録商標）ルーターである。

図２は、情報処理装置１の構成を模式的に示す図である。情報処理装置１は、マイクロホン１１と、カメラ１２と、ライト１３と、スピーカ１４と、ディスプレイ１５とを有する。

マイクロホン１１は、情報処理装置１の周囲の音を収集する。マイクロホン１１は、例えばユーザＵ１の音声の入力を受ける。マイクロホン１１が収集した音のデータは、ネットワークＮを介して情報処理装置２へと送信される。

カメラ１２は、情報処理装置１の周囲の画像を撮像する。カメラ１２は、例えばユーザＵ１が視認している領域の撮像画像を生成する。カメラ１２が生成した撮像画像は、ネットワークＮを介して情報処理装置２へと送信される。

ライト１３は、情報処理装置１の周囲を照らすための光を発する。ライト１３は、例えばユーザＵ１の操作により点灯状態と消灯状態とを切り替えることができる。

スピーカ１４は、ユーザＵ１の耳の部分に装着されており、音を発する。スピーカ１４は、例えば、情報処理装置２から送信されたユーザＵ２の音声を出力する。

ディスプレイ１５は、ユーザＵ１が視認することができる位置に設けられており、各種の情報を表示する表示部である。ディスプレイ１５は、例えば、情報処理装置２から送信された動画像（例えばユーザＵ２の顔画像）を表示する。ディスプレイ１５は、カメラ１２が生成した撮像画像を表示してもよい。さらに、ディスプレイ１５は、情報処理装置２から送信された動画像及びカメラ１２が生成した撮像画像の少なくともいずれかを含む動画像とともに、ユーザＵ１が情報処理装置１に関連する各種の操作を行うためのテキスト情報である表示文字列を表示する。

情報処理装置１には、ユーザＵ１が頭部に装着可能な態様で、ユーザＵ１がユーザＵ２と動画及び音声を用いた通信をするために用いられるマイクロホン１１、カメラ１２、ライト１３、スピーカ１４及びディスプレイ１５等のデバイスが設けられている。また、情報処理装置１は、ディスプレイ１５に表示された表示文字列に対応する音声がマイクロホン１１に入力された場合に、入力された音声に対応する処理を実行する。したがって、ユーザＵ１は、ディスプレイ１５に表示されたテキスト情報に対応する音声を発することで、手を使うことなく各種の操作をすることができるので、両手を使った作業をしながら、動画及び音声を用いて、ユーザＵ２に周囲の状況を伝えたり、ユーザＵ２から指示を受けたりすることができる。

［情報処理装置１の構成］
図３は、情報処理装置１の構成を示すブロック図である。情報処理装置１は、図２に示したマイクロホン１１、カメラ１２、ライト１３、スピーカ１４及びディスプレイ１５の他に、通信部１６、記憶部１７及び制御部１８を有する。

通信部１６は、アクセスポイント３及びネットワークＮを介して情報処理装置２との間で画像及び音声を送受信するための通信インターフェースであり、例えばＷｉ−Ｆｉ又はＢｌｕｅｔｏｏｔｈ（登録商標）の無線通信コントローラを有する。

記憶部１７は、各種のデータを記憶する記憶媒体であり、例えばＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）を有する。記憶部１７は、制御部１８が実行するプログラムを記憶している。

また、記憶部１７は、ディスプレイ１５に表示される複数の表示文字列と、制御部１８が実行する複数の処理内容とを関連付けて記憶する。図４は、記憶部１７が記憶しているテーブルの一例を示す図である。図４に示すテーブルにおいては、表示文字列としてディスプレイ１５に表示される「マイク切替」、「カメラ起動」、「参加リスト」、「ビデオ切替」、「モード切替」、「ライト切替」、「ズームレベル」、「切断」のそれぞれが選択された場合に制御部１８が実行する処理の内容が示されている。

制御部１８は、例えばＣＰＵ（Central Processing Unit）である。制御部１８は、記憶部１７に記憶されたプログラムを実行することにより、表示制御部１８１、撮像制御部１８２、音声処理部１８３、選択部１８４及び処理実行部１８５として機能する。

表示制御部１８１は、ディスプレイ１５に各種の情報を表示させる。表示制御部１８１は、例えば、動画を表示しているディスプレイ１５に、それぞれ異なる複数の表示文字列を表示させる。

図５は、表示制御部１８１がディスプレイ１５に表示させる画面の一例を示す図である。図５（ａ）は、情報処理装置１を使用するユーザＵ１が情報処理装置２を使用するユーザＵ２と動画を見ながら会議をしている間にディスプレイ１５に表示される画面の一例を示している。領域１５１にはユーザＵ２の動画が表示されており、領域１５２には、カメラ１２により撮影された動画が表示されており、領域１５３には、図４に示した複数の表示文字列が表示されている。

図５（ｂ）は、ディスプレイ１５に表示される他の画面の一例であるコントロールパネルの画面を示している。コントロールパネルは、情報処理装置１の動作に影響する各種の設定を受け付けるための画面である。表示制御部１８１は、表示文字列が表示されている図５（ａ）に示す画面をディスプレイ１５に表示している間にユーザＵ１が「コントロールパネル」という音声を発した場合に、図５（ｂ）に示すコントロールパネルの画面に切り替える。また、表示制御部１８１は、コントロールパネルが表示されている間にユーザＵ１が「前のページに戻る」という音声を発した場合に、図５（ａ）に示す画面に切り替える。

ユーザＵ１は、コントロールパネルにおいて表示されている文字列又は文字列に関連付けて表示されている数字を読み上げることにより、該当する処理を情報処理装置１に実行させることができる。ユーザＵ１は、例えば「表示文字列の変更」という音声を発することにより、図５（ａ）の画面に表示される表示文字列を変更することができる。表示文字列を変更する処理の詳細については後述する。

撮像制御部１８２は、カメラ１２及びライト１３を制御する。撮像制御部１８２は、カメラ１２に撮像処理を実行させることにより撮像画像を生成させ、生成させた撮像画像を取得する。撮像制御部１８２は、取得した撮像画像を処理実行部１８５を介して情報処理装置２に送信したり、表示制御部１８１を介してディスプレイ１５に表示させたりする。また、撮像制御部１８２は、処理実行部１８５からの指示に基づいてライト１３を点灯させたり消灯させたりする。

音声処理部１８３は、音声に関する各種の処理を実行する。音声処理部１８３は、例えば、処理実行部１８５を介して情報処理装置２から受信した音声をスピーカ１４へと出力する。また、音声処理部１８３は、マイクロホン１１から入力された音声を認識することにより、入力された音声に含まれている入力文字列を特定する。音声処理部１８３は、例えば、記憶部１７に記憶された単語辞書を参照することにより、単語辞書に含まれている文字列を検出した場合に、検出した文字列を入力文字列として特定する。音声処理部１８３は、特定した入力文字列を選択部１８４に通知する。

選択部１８４は、図５（ａ）に示す画面に表示されている複数の表示文字列のうち音声処理部１８３が認識した音声が示す入力文字列に相対的に近い表示文字列を選択する。具体的には、選択部１８４は、音声処理部１８３から通知された入力文字列を複数の表示文字列それぞれと比較し、最も近い表示文字列を選択する。選択部１８４は、選択した表示文字列を処理実行部１８５に通知する。

選択部１８４は、音声処理部１８３から通知された入力文字列が、複数の表示文字列のいずれとも類似していないと判定した場合、表示文字列を選択せず、処理実行部１８５に表示文字列を通知しない。選択部１８４は、音声処理部１８３から入力文字列の通知を受けたにもかかわらず表示文字列を認識できなかった場合に、表示制御部１８１を介して、表示文字列を認識できなかったことをディスプレイ１５に表示させてもよい。

処理実行部１８５は、選択部１８４が選択した表示文字列に対応し、動画に影響を与える処理を含む各種の処理を実行する。処理実行部１８５は、例えば図４に示したテーブルを参照することにより、選択部１８４が選択した表示文字列に対応する処理内容の動作を実行する。

処理実行部１８５は、表示文字列「マイク切替」が選択された場合、マイクロホン１１から音声を入力することができる状態と音声を入力できない状態とを切り換える。処理実行部１８５は、表示文字列「カメラ起動」が選択された場合、カメラ１２を起動させて、カメラ１２に撮像画像の生成を開始させる。

処理実行部１８５は、表示文字列「参加リスト」が選択された場合、ビデオ表示可能な拠点のリストを表示する。ビデオ表示可能な拠点は、通信システムＳを使用するユーザにより設定されており、本実施の形態においてはユーザＵ２がいる場所がビデオ表示可能な拠点に設定されている。

処理実行部１８５は、表示文字列「ビデオ切替」が選択された場合、図５（ａ）に示したように動画を表示する画面の表示形式の種別を切り替える。処理実行部１８５は、例えば、図５（ａ）に示したように複数の拠点で撮像された複数の動画を表示する表示形式と、他の拠点（例えばユーザＵ２の拠点）で撮像された動画のみを表示する表示形式と、情報処理装置１が使用されている拠点（例えばユーザＵ１の拠点）で撮像された動画のみを表示する表示形式とを切り替える。

処理実行部１８５は、表示文字列「モード切替」が選択された場合、各拠点で撮像された動画を表示する表示形式と、各拠点のコンピュータの画面を表示する表示形式とを切り替える。処理実行部１８５は、表示文字列「ライト切替」が選択された場合、ライト１３が点灯した状態とライト１３が消灯した状態とを切り替える。

処理実行部１８５は、表示文字列「ズームレベル」が選択された場合、ディスプレイ１５が撮像する際のズーム量を切り替える。処理実行部１８５は、表示文字列「切断」が選択された場合、他の拠点との間での動画及び音声の通信を切断する。

［表示文字列の変更処理］
上記のとおり、情報処理装置１は、ディスプレイ１５に表示された複数の表示文字列のうち、ユーザＵ１が発した音声により特定される入力文字列に最も近い表示文字列に対応する処理を実行する。しかしながら、情報処理装置１が使用される場所によっては、周囲の人の会話の中に、表示文字列と同一又は類似する文字列が含まれやすい場合があり、このような場合には、情報処理装置１を使用しているユーザＵ１の意図に反した表示文字列が選択されてしまうことがある。

そこで、情報処理装置１においては、ディスプレイ１５に表示される複数の表示文字列それぞれを変更できるように構成されている。具体的には、選択部１８４は、複数の処理内容から一つの処理内容を選択する操作を受け付け、選択された一つの処理内容に関連付けて記憶部１７に記憶された表示文字列を変更する。より具体的には、選択部１８４は、図５（ｂ）に示したコントロールパネルにおいて「表示文字列の変更」が選択された場合に、表示文字列を変更するための画面を表示するように表示制御部１８１に通知する。

図６は、表示文字列を変更するための画面の一例を示す図である。図６（ａ）は、変更する対象となる表示文字列を選択するための画面である。図６（ａ）には、複数の表示文字列が一覧表示されている。選択部１８４は、表示されている複数の表示文字列のいずれかに対応する表示文字列の音声が入力されたことを特定すると、特定した表示文字列の変更後の文字列の候補を表示する図６（ｂ）に示す画面を表示制御部１８１に表示させる。

図６（ｂ）に示すように、表示制御部１８１は、一つの処理内容に関連付けられた複数の表示文字列候補をディスプレイ１５に表示させる。そして、選択部１８４は、複数の表示文字列候補から選択された一つの表示文字列候補を一つの処理内容に関連付けられた表示文字列に変更する。

図６（ｂ）に示す例においては、ライト１３の点灯状態と消灯状態とを切り替える処理を行わせるための表示文字列の候補として、「ライトスイッチ」、「ライトオンオフ」、「明るさ切替」、「フラッシュ切替」、「フラッシュスイッチ」が表示されている。また、図６（ｂ）には、ユーザＵ１が自由に決定した文字列を表示文字列にしたい場合に選択できる「自由入力」、及び表示文字列の変更を終了する場合に選択できる「変更終了」も表示されている。

例えば図５（ａ）に示す画面に表示されている複数の表示文字列において、「マイク切替」と「ライト切替」が誤認識されやすい場合、ユーザＵ１は、図６（ｂ）の画面が表示されている間に「ライトスイッチ」と発声することで、ライト１３の点灯状態と消灯状態とを切り替えるために発するべき文字列を「ライト切替」から「ライトスイッチ」に切り替えることができる。選択部１８４は、図６（ｂ）の画面が表示されている間に「変更終了」という文字列が入力されたことを特定すると、表示文字列を変更する処理を終了し、複数の表示文字列が表示された画面を表示制御部１８１に表示させる。

図７は、表示文字列が変更された後の画面を示す図である。図７においては、図５（ａ）において「ライト切替」という表示文字列が表示されていた位置に、「ライトスイッチ」という表示文字列が表示されている。このように表示文字列が変更されることにより、「ライト切替」が誤認識されていたユーザＵ１が、ライト１３の状態を切り替える際に誤認識されにくくなる。

選択部１８４は、情報処理装置１が使用される環境を特定し、特定した環境に基づいて複数の表示文字列候補から表示文字列を選択してもよい。選択部１８４は、例えば、複数の表示文字列が表示されていない状態において入力される音声に含まれる文字列に基づいて、複数の表示文字列のいずれかに含まれる文字列と同一又は類似する文字列が発せられる頻度が高い環境であるか否かを特定する。

選択部１８４は、複数の表示文字列のいずれかに含まれる文字列と同一又は類似する文字列が発せられる頻度が高い環境であると判定した場合、複数の表示文字列候補のうち、特定した環境において使用される頻度が高い文字列との類似度が相対的に低い表示文字列候補を表示文字列として選択する。選択部１８４は、例えば情報処理装置１が使用される場所に「ライト」という名前の人がいて、「ライト」という文字列が発せられる頻度が閾値以上であると判定した場合、「ライト」を含まない表示文字列として「フラッシュ切替」を選択する。選択部１８４がこのように動作することにより、情報処理装置１が使用される環境において表示文字列の誤認識が生じる確率が低減する。

選択部１８４は、複数の表示文字列候補のうち、特定した環境において使用される頻度が高い文字列との類似度が相対的に低い一以上の表示文字列候補をディスプレイ１５に表示させるように表示制御部１８１に指示してもよい。図８は、選択部１８４が特定した環境において「ライト」が使用される頻度が高いと判定した場合に表示される表示文字列候補を示す図である。図８においては、図６（ｂ）と異なり、「ライト」を含む表示文字列候補が表示されていない。選択部１８４は、ディスプレイ１５における図８に示すような画面に表示させた一以上の表示文字列候補から選択された表示文字列候補を表示文字列として選択する。選択部１８４がこのように動作することで、情報処理装置１が使用される環境において誤認識が生じる確率が低い表示文字列をユーザＵ１が選択することが可能になる。

表示制御部１８１は、環境を特定するための複数の環境候補をディスプレイ１５に表示させ、選択部１８４は、複数の環境候補から選択された一つの環境候補を情報処理装置１が使用される環境として特定してもよい。表示制御部１８１は、例えば、情報処理装置１が使用される業界名を示す複数の環境候補をディスプレイ１５に表示させる。業界名は、例えば石油化学業界、半導体業界、自動車業界等である。また、表示制御部１８１は、情報処理装置１の使用目的を示す複数の環境候補をディスプレイ１５に表示させてもよい。使用目的は、例えば防災関連の作業、工場での作業、建設現場での作業等である。

この場合、記憶部１７は、複数の環境候補それぞれに関連付けて、使用することが推奨される複数の表示文字列候補を記憶していてもよい。選択部１８４は、複数の環境候補から選択された環境候補に関連付けて記憶部１７に記憶されている複数の表示文字列候補を選択し、選択した複数の表示文字列候補を図６（ｂ）に示す画面等に表示するよう表示制御部１８１に指示をしてもよい。

また、記憶部１７は、複数の環境候補それぞれに関連付けて、デフォルト状態で図５（ａ）の画面に表示させる複数の表示文字列を記憶してもよい。この場合、表示制御部１８１は、選択部１８４が特定した環境候補に関連付けて記憶部１７に記憶された複数の表示文字列をディスプレイ１５の領域１５３に表示させる。このように表示制御部１８１が、情報処理装置１が使用される環境に適した表示文字列をディスプレイ１５に表示させることで、ユーザＵ１が変更処理をすることなく、誤認識される確率を下げることができる。

選択部１８４は、図６（ｂ）に示す画面において表示文字列を他の表示文字列に変更する操作を受け付けた際に、他の表示文字列が、特定した環境で使用される文字列と類似すると判定した場合に警報を出力してもよい。選択部１８４は、例えば、「ライト」が使用される頻度が高い環境において「ライトスイッチ」が選択された場合に、「誤認識される可能性があります」という警告をディスプレイ１５に表示させるように表示制御部１８１に指示する。選択部１８４がこのように動作することで、情報処理装置１が使用される環境において誤認識が生じる確率が高い表示文字列がユーザＵ１により選択されにくくなる。

［制御部１８による処理の流れ］
図９は、制御部１８による表示文字列変更処理の流れを示すフローチャートである。図９に示すフローチャートは、図５（ｂ）に示したコントロールパネルが表示されている状態から開始している。

選択部１８４は、コントロールパネルにおいて「表示文字列の変更」が選択されたか否かを監視する（Ｓ１１）。選択部１８４は、「表示文字列の変更」が選択されたと判定した場合、図６（ｂ）に示すように複数の表示文字列候補を表示する（Ｓ１２）。

選択部１８４は、図６（ｂ）に示す画面において「自由入力」が選択されたか否かを監視する（Ｓ１３）。選択部１８４は、「自由入力」が選択されず、複数の表示文字列候補のいずれかが選択されたと判定した場合（Ｓ１３においてＮＯ）、選択された表示文字列候補を特定し（Ｓ１４）、表示文字列を変更する（Ｓ１５）。

選択部１８４は、ステップＳ１３において「自由入力」が選択されたと判定した場合（Ｓ１３においてＹＥＳ）、入力された文字列を解析する（Ｓ１６）。選択部１８４は、入力された文字列が他の処理内容に対応する複数の表示文字列のいずれにも類似していないと判定した場合（Ｓ１７においてＮＯ）、入力された文字列を新たな表示文字列に変更する（Ｓ１５）。

一方、選択部１８４は、ステップＳ１７において、入力された文字列が他の処理内容に対応する複数の表示文字列のいずれかに類似していると判定した場合（Ｓ１７においてＹＥＳ）、類似する表示文字列があることをユーザＵ１に通知する警告をディスプレイ１５に表示するように表示制御部１８１に指示する（Ｓ１８）。

選択部１８４は、警告が表示された後の所定の時間以内に再び文字列が入力された場合（Ｓ１９においてＹＥＳ）、ステップＳ１６に戻って、入力された文字列を解析する。選択部１８４は、警告が表示された後の所定の時間以内に再び文字列が入力されない場合（Ｓ１９においてＮＯ）、入力された文字列を新たな表示文字列に変更する（Ｓ１５）。

［情報処理装置１による効果］
以上説明したように、情報処理装置１は、動画を表示しているディスプレイ１５に、それぞれ異なる複数の表示文字列を表示させる表示制御部１８１と、マイクロホン１１に入力された音声を認識した音声が示す入力文字列に相対的に近い表示文字列を選択する選択部１８４と、選択部１８４が選択した表示文字列に対応し、動画に影響を与える処理を実行する処理実行部１８５とを有する。情報処理装置１がこのような構成を有することで、情報処理装置１を使用するユーザＵ１が、表示されている文字列を発することで所望の操作をすることができるので、音声による装置の操作が正しく行われやすくなる。

また、選択部１８４は、複数の処理内容から一つの処理内容を選択する操作を受け付け、選択された一つの前記処理内容に関連付けて記憶部１７に記憶された表示文字列を変更する。選択部１８４がこのように動作することで、ユーザＵ１又は情報処理装置１が、ディスプレイ１５に表示される表示文字列を、情報処理装置１の使用環境において誤認識されにくい文字列に変更することができるので、音声による情報処理装置１の操作がさらに正しく行われやすくなる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

１情報処理装置
２情報処理装置
３アクセスポイント
１１マイクロホン
１２カメラ
１３ライト
１４スピーカ
１４ディスプレイ
１５ディスプレイ
１５表示部
１６通信部
１７記憶部
１８制御部
１８１表示制御部
１８２撮像制御部
１８３音声処理部
１８４選択部
１８５処理実行部

Claims

動画を表示している表示部に、それぞれ異なる複数の表示文字列を表示させる表示制御部と、
所定のマイクロホンに入力された音声を認識する音声処理部と、
前記複数の表示文字列のうち前記音声処理部が認識した音声が示す入力文字列に相対的に近い表示文字列を選択する選択部と、
前記選択部が選択した前記表示文字列に対応し、前記動画に影響を与える処理を実行する処理実行部と、
を有する情報処理装置。
前記複数の表示文字列と複数の処理内容とを関連付けて記憶する記憶部をさらに有し、
前記選択部は、前記複数の処理内容から一つの処理内容を選択する操作を受け付け、選択された前記一つの前記処理内容に関連付けて前記記憶部に記憶された前記表示文字列を変更する、
請求項１に記載の情報処理装置。
前記表示制御部は、前記一つの処理内容に関連付けられた複数の表示文字列候補を前記表示部に表示させ、
前記選択部は、前記複数の表示文字列候補から選択された一つの表示文字列候補を前記一つの処理内容に関連付けられた前記表示文字列に変更する、
請求項２に記載の情報処理装置。
前記選択部は、前記情報処理装置が使用される環境を特定し、特定した環境に基づいて複数の表示文字列候補から前記表示文字列を選択する、
請求項１から３のいずれか一項に記載の情報処理装置。
前記選択部は、前記複数の表示文字列候補のうち、特定した環境において使用される頻度が高い文字列との類似度が相対的に低い前記表示文字列候補を前記表示文字列として選択する、
請求項４に記載の情報処理装置。
前記選択部は、前記複数の表示文字列候補のうち、特定した環境において使用される頻度が高い文字列との類似度が相対的に低い一以上の前記表示文字列候補を前記表示部に表示させ、前記表示部に表示させた前記一以上の表示文字列候補から選択された前記表示文字列候補を前記表示文字列として選択する、
請求項４又は５に記載の情報処理装置。
前記選択部は、前記表示文字列を他の表示文字列に変更する操作を受け付け、前記他の表示文字列が、特定した環境で使用される文字列と類似すると判定した場合に警報を出力する、
請求項４から６のいずれか一項に記載の情報処理装置。
前記表示制御部は、環境を特定するための複数の環境候補を前記表示部に表示させ、
前記選択部は、前記複数の環境候補から選択された一つの環境候補を前記情報処理装置が使用される環境として特定する、
請求項４から７のいずれか一項に記載の情報処理装置。
コンピュータが実行する、
表示部に動画を表示させるステップと、
前記表示部に動画を表示させている間に、それぞれ異なる複数の表示文字列を表示させるステップと、
所定のマイクロホンに入力された音声を認識するステップと、
前記複数の表示文字列のうち認識した音声が示す入力文字列に最も近い表示文字列を選択するステップと、
選択した前記表示文字列に対応し、前記動画に影響を与える処理を実行するステップと、
を有する情報処理方法。
コンピュータを、
動画を表示している表示部に、それぞれ異なる複数の表示文字列を表示させる表示制御部、
所定のマイクロホンに入力された音声を認識する音声処理部、
前記複数の表示文字列のうち前記音声処理部が認識した音声が示す入力文字列に最も近い表示文字列を選択する選択部、及び
前記選択部が選択した前記表示文字列に対応し、前記動画に影響を与える処理を実行する処理実行部、
として機能させるためのプログラム。