JP2021085897A

JP2021085897A - 音声認識装置の制御方法、音声認識装置、及び音声認識装置の制御プログラム

Info

Publication number: JP2021085897A
Application number: JP2019212092A
Authority: JP
Inventors: 貴行清水; Takayuki Shimizu
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2021-06-03

Abstract

【課題】複数言語の音声認識をするための開発の工数を低減する。【解決手段】スマートフォン１００の制御方法は、第１言語ＬＧ１の音声パターンＰＴと、操作指示ＱＰとが対応付けて記憶された操作記憶部１２１を有するスマートフォン１００の制御方法であって、第２言語ＬＧ２で入力された音声を第１言語ＬＧ１の音声に翻訳する翻訳ステップと、第１言語ＬＧ１の音声が音声パターンＰＴと一致するか否かを判定する判定ステップと、第１言語ＬＧ１の音声が音声パターンＰＴと一致すると判定された場合に、操作指示ＱＰを実行する実行ステップと、を含む。【選択図】図３

Description

本発明は、音声認識装置の制御方法、音声認識装置、及び音声認識装置の制御プログラムに関する。

従来、ユーザーからの音声を受け付けて、音声認識する装置に関する技術が知られている（例えば、特許文献１参照）。
特許文献１に記載の音声認識装置は、音声コマンドが音声認識用メモリーに記憶されており、マイクを介して入力された入力音声と一致する音声コマンドに応じてナビゲーションシステムを操作する。このとき、音声認識用メモリーには複数の異なる言語毎に、音声コマンドと、言語を切り替えるコマンドとが記憶されており、まず言語を切り替える処理を行ってから音声入力処理を行う。

特開２００７−２４８５２３号公報

しかしながら、特許文献１に記載の音声認識装置のように、入力された音声と、ナビゲーション装置に対して行う操作を示す音声コマンドとの対応表を、複数の言語の各々について作成するためには、開発の工数が多大になる可能性がある。これは、特許文献１に記載のようなナビゲーションシステムに使用する音声認識装置に限らず、一般的に音声認識装置が有する課題であり、例えば、プロジェクター等の表示装置に音声認識装置を使用する場合にも、同様の課題を有する。

上記課題を解決する一態様は、第１言語の音声パターンと、操作指示とが対応付けて記憶された記憶部を有する音声認識装置の制御方法であって、第２言語で入力された音声を前記第１言語の音声に翻訳する翻訳ステップと、前記第１言語の音声が前記音声パターンと一致するか否かを判定する判定ステップと、前記第１言語の音声が前記音声パターンと一致すると判定された場合に、前記操作指示を実行する実行ステップと、を含む、音声認識装置の制御方法である。

上記音声認識装置の制御方法において、前記記憶部は、前記操作指示に対応付けて、複数の前記音声パターンが記憶され、前記判定ステップにおいて、前記第１言語の音声が前記複数の音声パターンのいずれか１つと一致するか否かを判定し、前記実行ステップにおいて、前記第１言語の音声が前記複数の音声パターンのいずれか１つと一致すると判定された場合に、前記操作指示を実行してもよい。

上記音声認識装置の制御方法において、前記音声パターンに含まれる特定音声が予め選定されており、前記翻訳ステップにおいて、前記特定音声が他の音声と比較して前記第１言語の音声に翻訳され易いように、前記第２言語で入力された音声を前記第１言語の音声に翻訳してもよい。

上記音声認識装置の制御方法において、前記第２言語で入力された音声を、前記第２言語の音声テキストに変換する変換ステップを更に含み、前記翻訳ステップにおいて、前記第２言語の音声テキストを前記第１言語の音声テキストに翻訳し、前記判定ステップにおいて、前記第１言語の音声テキストと、前記音声パターンとが一致するか否かを判定してもよい。

上記音声認識装置の制御方法において、前記第２言語は、前記第１言語と相違する複数の言語を示してもよい。

上記音声認識装置の制御方法において、前記音声認識装置は、電子機器と通信可能に接続され、前記操作指示は、前記電子機器に対する操作指示を示してもよい。

上記音声認識装置の制御方法において、前記音声認識装置は、電子機器の一部を構成し、前記操作指示は、前記電子機器に対する操作指示を示してもよい。

上記課題を解決する別の一態様は、第１言語の音声パターンと、操作指示とが対応付けて記憶された記憶部と、第２言語で入力された音声を前記第１言語の音声に翻訳する翻訳部と、前記第１言語の音声が前記音声パターンと一致するか否かを判定する判定部と、前記第１言語の音声が前記音声パターンと一致すると判定された場合に、前記操作指示を実行する実行部と、を備える、音声認識装置である。

上記課題を解決する更に別の一態様は、第１言語の音声パターンと、操作指示とが対応付けて記憶された記憶部と、制御部とを備える音声認識装置の制御プログラムであって、前記制御部を、第２言語で入力された音声を前記第１言語の音声に翻訳する翻訳部、前記第１言語の音声が前記音声パターンと一致するか否かを判定する判定部、及び、前記第１言語の音声が前記音声パターンと一致すると判定された場合に、前記操作指示を実行する実行部、として機能させる、制御プログラム。

本実施形態に係るスマートフォンの構成の一例を示す図。本実施形態に係るプロジェクターの構成の一例を示す図。スマートフォンの第１制御部の処理の概要を示す図。特定音声テキストの一例を示す図表。スマートフォンの第１制御部の処理の一例を示すフローチャート。

以下、図面を参照して本実施形態について説明する。

［１．画像投射システムの構成］
［１−１．スマートフォンの構成］
図１は、本実施形態に係るスマートフォン１００の構成の一例を示す図である。
図１に示すように、画像投射システム１は、スマートフォン１００と、プロジェクター２００とを備える。スマートフォン１００とプロジェクター２００とは、通信可能に接続される。具体的には、スマートフォン１００とプロジェクター２００とは、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ケーブルを介して、通信可能に接続される。すなわち、スマートフォン１００とプロジェクター２００とは、ＵＳＢ規格に則って通信が実行される。

また、本実施形態では、スマートフォン１００が、ＵＳＢケーブルを介して、プロジェクター２００と通信可能に接続されるが、本発明の実施形態はこれに限定されない。スマートフォン１００がプロジェクター２００と通信可能に接続されればよい。スマートフォン１００が、例えば、Ｗｉ−Ｆｉ（登録商標）規格等に従って、プロジェクター２００と無線通信可能に接続されてもよい。

スマートフォン１００は、ユーザーからの第２言語ＬＧ２で入力された音声に対応する第１言語ＬＧ１の音声パターンＰＴを決定し、音声パターンＰＴに対応付けて記憶された操作指示ＱＰを示す操作指示情報をプロジェクター２００に送信する。
「操作指示ＱＰ」は、ユーザーからの音声によって示される指示であって、プロジェクター２００を操作する指示を示す。
本実施形態では、第１言語ＬＧ１は英語であり、第２言語ＬＧ２は日本語である。
音声パターンＰＴ及び操作指示ＱＰについては、後述にて図３及び図４を参照して詳細に説明する。

スマートフォン１００は、「音声認識装置」の一例に対応する。
スマートフォン１００は、第１制御部１１０と、第１表示部１３０と、マイクロフォン１５０と、スピーカー１６０と、ＵＳＢインターフェース部１７０とを備える。
第１表示部１３０、マイクロフォン１５０、スピーカー１６０、及びＵＳＢインターフェース部１７０の各々は、第１内部バス１９０によって、第１制御部１１０に接続される。

第１制御部１１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やマイコン等の第１プロセッサー１１０Ａを備え、この第１プロセッサー１１０Ａが第１制御プログラムを実行することによって、スマートフォン１００の各部を制御する。第１制御部１１０は、第１プロセッサー１１０Ａが実行する第１制御プログラムを不揮発的に記憶するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及び、第１プロセッサー１１０Ａのワークエリアを構成するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような第１メモリー１１０Ｂを備える。
第１制御部１１０は、「制御部」の一例に対応する。

第１表示部１３０は、ディスプレイ１３１、及びタッチセンサー１３２を備える。ディスプレイ１３１、及びタッチセンサー１３２の各々は、第１内部バス１９０を介して、第１制御部１１０に接続される。ディスプレイ１３１は、第１制御部１１０の制御に基づき各種画像を表示する。ディスプレイ１３１は、例えばＬＣＤを備える。
タッチセンサー１３２は、ユーザーのタッチ操作を検出し、検出した操作を示すデータを第１制御部１１０に出力する。タッチセンサー１３２は、ディスプレイ１３１と一体に形成される。具体的には、タッチセンサー１３２は、ディスプレイ１３１の画像表示面に形成される。
ディスプレイ１３１とタッチセンサー１３２とは、いわゆる「タッチパネル」を構成する。

マイクロフォン１５０は、ユーザーからの第２言語ＬＧ２の音声を受け付けて、音声信号ＳＶを生成する。マイクロフォン１５０が生成した音声信号ＳＶは、第１制御部１１０に伝送される。
第２言語ＬＧ２は、第１言語ＬＧ１と相違する複数の言語を示す。第２言語ＬＧ２は、日本語、中国語、韓国語、イタリア語、オランダ語、ドイツ語、フランス語、ポルトガル語等を含む。
本実施形態では、第１言語ＬＧ１が、英語であり、第２言語ＬＧ２が日本語である場合について説明する。

本実施形態では、第１言語ＬＧ１が、英語であるが、本発明の実施形態はこれに限定されない。第１言語ＬＧ１は、第２言語ＬＧ２への翻訳が容易な言語であることが好ましい。第１言語ＬＧ１は、例えば、ドイツ語でもよい。
また、本実施形態では、第２言語ＬＧ２が日本語であるが、本発明の実施形態はこれに限定されない。第２言語ＬＧ２は、例えば、中国語、韓国語、イタリア語、オランダ語、ドイツ語、フランス語、ポルトガル語等でもよい。

スピーカー１６０は、ユーザーに対するガイダンス情報を出力する。具体的には、マイクロフォン１５０に入力されたユーザーからの第２言語ＬＧ２の音声に対応する音声パターンＰＴが見つからない場合に、スピーカー１６０は、第１制御部１１０の制御に従って、ユーザーに対して、第２言語ＬＧ２の音声の再度の入力を促すガイダンス情報を第２言語ＬＧ２で出力する。

ＵＳＢインターフェース部１７０は、ＵＳＢ規格に対応する有線通信インターフェース回路である。ＵＳＢインターフェース部１７０は、ＵＳＢケーブルを介して、プロジェクター２００と通信可能に接続される。
ＵＳＢインターフェース部１７０は、第１制御部１１０の制御に基づき、例えば画像データをプロジェクター２００に送信する。また、ＵＳＢインターフェース部１７０は、第１制御部１１０の制御に基づき、例えば操作指示情報をプロジェクター２００に送信する。操作指示情報は、操作指示ＱＰを示す。

［１−２．プロジェクターの構成］
図２は、本実施形態に係るプロジェクター２００の構成の一例を示す図である。
プロジェクター２００は、スマートフォン１００から受信した操作指示ＱＰに従って、スマートフォン１００から受信した画像データに対応する画像をスクリーンＳＣに投射する。
プロジェクター２００は、「電子機器」の一例に対応する。
プロジェクター２００は、投射部２１０と、投射部２１０を駆動する駆動部２２０とを備える。投射部２１０は、光学的な画像の形成を行い、スクリーンＳＣに画像を投射する。投射部２１０は、光源部２１１、光変調装置２１２及び投射光学系２１３を備える。駆動部２２０は、光源駆動部２２１及び光変調装置駆動部２２２を備える。

光源部２１１は、ハロゲンランプ、キセノンランプ、超高圧水銀ランプ等のランプ、又はＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）やレーザー光源等の固体光源を備える。
光源駆動部２２１は、第２内部バス２０７に接続され、同じく第２内部バス２０７に接続された第２制御部２５０の指示に従って、光源部２１１の光源を点灯及び消灯させる。

光変調装置２１２は、例えば、Ｒ、Ｇ及びＢの三原色に対応した３枚の液晶パネル２１５を備える。Ｒは赤色を示し、Ｇは緑色を示し、Ｂは青色を示す。すなわち、光変調装置２１２は、Ｒ色光に対応した液晶パネル２１５と、Ｇ色光に対応した液晶パネル２１５と、Ｂ色光に対応した液晶パネル２１５とを備える。
光源部２１１が発する光はＲＧＢの３色の色光に分離され、それぞれ対応する液晶パネル２１５に入射される。３枚の液晶パネル２１５の各々は、透過型の液晶パネルであり、透過する光を変調して画像光ＰＬを生成する。各液晶パネル２１５を通過して変調された画像光ＰＬは、クロスダイクロイックプリズム等の合成光学系によって合成され、投射光学系２１３に射出される。

光変調装置２１２は、光変調装置駆動部２２２によって駆動される。光変調装置駆動部２２２は、画像処理部２４５に接続される。
光変調装置駆動部２２２には、画像処理部２４５からＲ，Ｇ，Ｂの各原色に対応する画像データが入力される。光変調装置駆動部２２２は、入力された画像データを液晶パネル２１５の動作に適したデータ信号に変換する。光変調装置駆動部２２２は、変換したデータ信号に基づいて、各液晶パネル２１５の各画素に電圧を印加し、各液晶パネル２１５に画像を描画する。

投射光学系２１３は、入射された画像光ＰＬをスクリーンＳＣ上に結像させるレンズやミラー等を備える。また、投射光学系２１３は、スクリーンＳＣに投射される画像を拡大又は縮小させるズーム機構や、フォーカスの調整を行うフォーカス調整機構等を備えてもよい。

プロジェクター２００は、第２操作部２３１、リモコン受光部２３３、入力インターフェース２３５、第２記憶部２３７、画像インターフェース２４１、フレームメモリー２４３、画像処理部２４５及び第２制御部２５０を更に備える。入力インターフェース２３５、第２記憶部２３７、画像インターフェース２４１、画像処理部２４５及び第２制御部２５０の各々は、第２内部バス２０７を介して、互いにデータ通信可能に接続される。

第２操作部２３１は、プロジェクター２００の筐体表面に設けられた各種のボタンやスイッチを備え、これらのボタンやスイッチの操作に対応した操作信号を生成して、入力インターフェース２３５に出力する。入力インターフェース２３５は、第２操作部２３１から入力された操作信号を第２制御部２５０に出力する回路を備える。

リモコン受光部２３３は、リモコン５から送信される赤外線信号を受光し、受光した赤外線信号をデコードして操作信号を生成する。リモコン受光部２３３は、生成した操作信号を入力インターフェース２３５に出力する。入力インターフェース２３５は、リモコン受光部２３３から入力された操作信号を第２制御部２５０に出力する。

第２記憶部２３７は、例えば、ハードディスクドライブやＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の不揮発性の記憶装置である。第２記憶部２３７は、第２制御部２５０が実行するプログラムや、第２制御部２５０が処理したデータ、画像データ等を記憶する。

画像インターフェース２４１は、コネクター及びインターフェース回路を備え、スマートフォン１００とＵＳＢ規格での通信が可能にされる。画像インターフェース２４１は、スマートフォン１００から画像データ、及び各種の操作指示情報を受信する。操作指示情報は、操作指示ＱＰを示す。

第２制御部２５０は、第２メモリー２５１及び第２プロセッサー２５３を備える。
第２メモリー２５１は、第２プロセッサー２５３が実行するプログラムやデータを不揮発的に記憶する記憶装置である。第２メモリー２５１は、磁気的記憶装置、フラッシュＲＯＭ等の半導体記憶素子、或いはその他の種類の不揮発性記憶装置により構成される。また、第２メモリー２５１は、第２プロセッサー２５３のワークエリアを構成するＲＡＭを含んでもよい。第２メモリー２５１は、第２制御部２５０により処理されるデータや、第２プロセッサー２５３が実行する第２制御プログラムを記憶する。

第２プロセッサー２５３は、単一のプロセッサーで構成されてもよいし、複数のプロセッサーが第２プロセッサー２５３として機能する構成であってもよい。第２プロセッサー２５３は、第２制御プログラムを実行してプロジェクター２００の各部を制御する。また、第２プロセッサー２５３は、画像インターフェース２４１を介してスマートフォン１００から受信した各種の操作指示情報に基づいて、プロジェクター２００の各部を制御する。
例えば、第２プロセッサー２５３は、スマートフォン１００から受信した操作指示情報に対応した画像処理の実行指示と、この画像処理に用いるパラメーターとを画像処理部２４５に出力する。パラメーターには、例えば、スクリーンＳＣに投射する画像の幾何的な歪みを補正するための幾何補正パラメーター等が含まれる。また、第２プロセッサー２５３は、光源駆動部２２１を制御して光源部２１１の点灯と消灯とを制御し、また光源部２１１の輝度を調整する。

画像処理部２４５及びフレームメモリー２４３は、例えば、集積回路により構成することができる。集積回路は、ＬＳＩ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）を含む。ＰＬＤには、例えば、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）が含まれる。また、集積回路の構成の一部にアナログ回路が含まれていてもよく、プロセッサーと集積回路との組み合わせであってもよい。プロセッサーと集積回路との組み合わせは、マイクロコントローラー（ＭＣＵ）、ＳｏＣ（Ｓｙｓｔｅｍ−ｏｎ−ａ−ｃｈｉｐ）、システムＬＳＩ、チップセットなどと呼ばれる。

画像処理部２４５は、画像インターフェース２４１から入力された画像データをフレームメモリー２４３に展開する。フレームメモリー２４３は、複数のバンクを備える。各バンクは、１フレーム分の画像データを書き込み可能な記憶容量を有する。フレームメモリー２４３は、例えば、ＳＤＲＡＭ（ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）により構成される。

画像処理部２４５は、フレームメモリー２４３に展開した画像データに対して、例えば、解像度変換処理又はリサイズ処理、歪曲収差の補正、形状補正処理、デジタルズーム処理、画像の色合いや輝度の調整等の画像処理を行う。
また、画像処理部２４５は、垂直同期信号の入力フレーム周波数を描画周波数に変換した垂直同期信号を生成する。生成した垂直同期信号を出力同期信号という。画像処理部２４５は、生成した出力同期信号を光変調装置駆動部２２２に出力する。

本実施形態では、「電子機器」がプロジェクター２００であるが、本発明の実施形態はこれに限定されない。「電子機器」がスマートフォン１００からの操作指示ＱＰに基づいて、処理を実行する機器であればよい。「電子機器」が、例えば、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）プレイヤーでもよい。また、「電子機器」が、例えば、ナビゲーション装置でもよい。

本実施形態では、スマートフォン１００がプロジェクター２００と通信可能に接続されるが、本発明の実施形態はこれに限定されない。スマートフォン１００がプロジェクター２００の一部を構成してもよい。換言すれば、スマートフォン１００がプロジェクター２００と一体に構成されてもよい。

［１−３．スマートフォンの第１制御部の構成］
再び、図１に戻って、スマートフォン１００の第１制御部１１０の構成について説明する。
第１制御部１１０は、変換部１１１と、翻訳部１１２と、判定部１１３と、実行部１１４と、操作記憶部１２１とを備える。具体的には、第１制御部１１０の第１プロセッサー１１０Ａが、第１メモリー１１０Ｂに記憶された第１制御プログラムを実行することによって、変換部１１１、翻訳部１１２、判定部１１３、及び実行部１１４として機能する。また、第１制御部１１０の第１プロセッサー１１０Ａが、第１メモリー１１０Ｂに記憶された第１制御プログラムを実行することによって、第１メモリー１１０Ｂを、操作記憶部１２１として機能させる。
「第１制御プログラム」は、「制御プログラム」の一例に対応する。

操作記憶部１２１は、操作指示ＱＰに対応付けて、第１言語ＬＧ１の複数の音声パターンＰＴを記憶する。具体的には、操作指示ＱＰは、例えば、第１操作指示ＱＰ１、第２操作指示ＱＰ２、・・・、及び第Ｎ操作指示ＱＰＮを含む。個数Ｎは、操作指示ＱＰの個数であり、２個以上の整数である。第１操作指示ＱＰ１、第２操作指示ＱＰ２、・・・、及び第Ｎ操作指示ＱＰＮは、互いに相違する操作を指示する。

複数の第１音声パターンＰＴ１の各々は、第１操作指示ＱＰ１をプロジェクター２００に対して出力するために、ユーザーが発すると想定される第１言語ＬＧ１の典型的な、又は理想的な音声に対応する。複数の第２音声パターンＰＴ２の各々は、第２操作指示ＱＰ２をプロジェクター２００に対して出力するために、ユーザーが発すると想定される第１言語ＬＧ１の典型的な又は理想的な音声に対応する。複数の第Ｎ音声パターンＰＴＮの各々は、第Ｎ操作指示ＱＰＮをプロジェクター２００に対して出力するために、ユーザーが発すると想定される第１言語ＬＧ１の典型的な又は理想的な音声に対応する。
第１音声パターンＰＴ１〜第Ｎ音声パターンＰＴＮの各々の具体的については、図４を参照して詳細に説明する。
操作記憶部１２１は、「記憶部」の一例に対応する。

変換部１１１は、第２言語ＬＧ２で入力された音声を、第２言語ＬＧ２の音声テキストである第２音声テキストＴＸＢに変換する。具体的には、変換部１１１は、マイクロフォン１５０によって生成される第２言語ＬＧ２の音声信号ＳＶを、第２音声テキストＴＸＢに変換する。
例えば、日本語で「高くして」を示す音声信号ＳＶが生成された場合には、第２音声テキストＴＸＢとして「たかくして」というテキストが生成される。
すなわち、第２音声テキストＴＸＢは、音声信号ＳＶを単純にテキストに変換したものである。換言すれば、第２音声テキストＴＸＢは、音声を示す平仮名のみによって構成され、漢字、及び片仮名を含まない。

翻訳部１１２は、第２言語ＬＧ２で入力された音声を第１言語ＬＧ１の音声に翻訳する。具体的には、翻訳部１１２は、第２音声テキストＴＸＢを、第１言語ＬＧ１の音声テキストである第１音声テキストＴＸＡに翻訳する。
なお、第２音声テキストＴＸＢが第２言語ＬＧ２の音声に対応するのに対して、第１音声テキストＴＸＡは、意味が明確なテキストである点で相違している。
また、翻訳部１１２は、特定音声が他の音声と比較して第１言語ＬＧ１の音声に翻訳され易いように、第２言語ＬＧ２で入力された音声を第１言語ＬＧ１の音声に翻訳する。具体的には、翻訳部１１２は、特定音声テキストＴＸＰが他の音声テキストと比較して第１音声テキストＴＸＡに翻訳され易いように、第２音声テキストＴＸＢを第１音声テキストＴＸＡに翻訳する。特定音声テキストＴＸＰは、「特定音声」に対応する。
特定音声テキストＴＸＰは、音声パターンＰＴに含まれるテキストの中から予め選定される。特定音声テキストＴＸＰについては、後述にて図４を参照して詳細に説明する。

判定部１１３は、第１言語ＬＧ１の音声が音声パターンと一致するか否かを判定する。具体的には、判定部１１３は、第１音声テキストＴＸＡが音声パターンＰＴと一致するか否かを、パターンマッチングによって判定する。更に具体的には、判定部１１３は、第１音声テキストＴＸＡが第１音声パターンＰＴ１〜第Ｎ音声パターンＰＴＮのいずれかと一致するか否かを、パターンマッチングによって判定する。

実行部１１４は、第１言語ＬＧ１の音声が音声パターンと一致すると判定された場合に、操作指示を実行する。具体的には、実行部１１４は、音声テキストＴＸが音声パターンＰＴと一致すると判定された場合に、音声パターンＰＴに対応する操作指示ＱＰを実行する。
更に具体的には、実行部１１４は、第１音声テキストＴＸＡが第１音声パターンＰＴ１〜第Ｎ音声パターンＰＴＮのいずれかと一致すると判定した場合には、第１音声テキストＴＸＡと一致すると判定された音声パターンＰＴに対応する操作指示ＱＰを操作記憶部１２１から読み出して、操作指示ＱＰを実行する。

例えば、実行部１１４は、第１音声テキストＴＸＡが複数の第１音声パターンＰＴ１のいずれかと一致すると判定した場合には、第１音声パターンＰＴ１に対応する第１操作指示ＱＰ１を操作記憶部１２１から読み出して、第１操作指示ＱＰ１を実行する。
また、例えば、実行部１１４は、第１音声テキストＴＸＡが複数の第２音声パターンＰＴ２のいずれかと一致すると判定した場合には、第２音声パターンＰＴ２に対応する第２操作指示ＱＰ２を操作記憶部１２１から読み出して、第２操作指示ＱＰ２を実行する。
また、例えば、実行部１１４は、第１音声テキストＴＸＡが複数の第Ｎ音声パターンＰＴＮのいずれかと一致すると判定した場合には、第Ｎ音声パターンＰＴＮに対応する第Ｎ操作指示ＱＰＮを操作記憶部１２１から読み出して、第Ｎ操作指示ＱＰＮを実行する。
なお、操作指示ＱＰを実行するとは、操作指示ＱＰをプロジェクター２００に対して伝送することを示す。

本実施形態では、第１制御部１１０が、ＵＳＢインターフェース部１７０を介して、種々の操作指示情報をプロジェクター２００に送信するが、本発明の実施形態はこれに限定されない。第１制御部１１０が、種々の操作指示情報をプロジェクター２００に送信すればよい。第１制御部１１０が、例えば、Ｗｉ−Ｆｉ（登録商標）等の無線通信によって。種々の操作指示情報をプロジェクター２００に送信してもよい。

本実施形態では、「音声認識装置」が、スマートフォン１００で構成されるが、本発明の実施形態はこれに限定されない。「音声認識装置」が、第１制御部１１０と、マイクロフォン１５０と、スピーカー１６０とを備えればよい。「音声認識装置」が、例えば、タブレット端末やパーソナルコンピューター等で構成されてもよい。

［１−４．第１制御部の処理の概要］
図３は、スマートフォン１００の第１制御部１１０の処理の概要を示す図である。
図３に示すように、マイクロフォン１５０は、ユーザーからの第２言語ＬＧ２の音声を受け付けて、第２言語ＬＧ２の音声を示す音声信号ＳＶを生成する。
ステップＳ１において、変換部１１１は、音声信号ＳＶを第２音声テキストＴＸＢに変換する。音声信号ＳＶは、第２言語ＬＧ２の音声を示し、第２音声テキストＴＸＢは、第２言語ＬＧ２の音声を示すテキストである。

次に、ステップＳ２において、翻訳部１１２は、第２音声テキストＴＸＢを第１音声テキストＴＸＡに翻訳する。第１音声テキストＴＸＡは、第１言語ＬＧ１の音声を示すテキストである。なお、翻訳部１１２は、特定音声テキストＴＸＰが他の音声テキストと比較して、第１音声テキストＴＸＡに翻訳され易いように、第２音声テキストＴＸＢを第１音声テキストＴＸＡに翻訳する。
特定音声テキストＴＸＰは、音声パターンＰＴに含まれるテキストの中から予め選定される。具体的には、特定音声テキストＴＸＰは、音声パターンＰＴの特徴を示すテキストが選定される。本実施形態では、音声パターンＰＴは、プロジェクター２００に対する指示を示す操作指示ＱＰに対応するため、特定音声テキストＴＸＰは、プロジェクター２００の構成又は処理の特徴を示すテキストが選定される。

次に、ステップＳ３において、判定部１１３は、第１音声テキストＴＸＡが、音声パターンＰＴと一致するか否かを、パターンマッチングによって判定する。音声パターンＰＴは、操作指示ＱＰをプロジェクター２００に対して出力するために、ユーザーが発すると想定される第１言語ＬＧ１の典型的な、又は理想的な音声に対応するテキストを示す。
次に、第１音声テキストＴＸＡが音声パターンＰＴと一致すると判定部１１３が判定した場合に、ステップＳ４において、実行部１１４は、音声パターンＰＴに対応する操作指示ＱＰを実行する。具体的には、実行部１１４は、音声パターンＰＴに対応する操作指示ＱＰをプロジェクター２００に送信する。プロジェクター２００は、操作指示ＱＰを受信して、操作指示ＱＰに対応する処理を実行する。

［１−５．特定音声について］
図４は、特定音声テキストＴＸＰの一例を示す図表である。
図４には、左側から順に、第２音声テキストＴＸＢ、第１音声テキストＴＸＡ、音声パターンＰＴ、操作指示ＱＰを示している。
本実施形態では、第２言語ＬＧ２が日本語であるため、第２音声テキストＴＸＢは、日本語の音声を示し、第１言語ＬＧ１が英語であるため、第１音声テキストＴＸＡは、英語の音声を示し、音声パターンＰＴは、英語のパターンを示し、操作指示ＱＰは、英語の指示を示す。

まず、第２音声テキストＴＸＢが、「たかくして」である場合について説明する。「たかくして」を英語に翻訳する場合には、「位置を高くして」を意味する「Ｔｏｈｉｇｈｅｒｐｌａｃｅ．」と翻訳される場合と、「値段を高くして」を意味する「Ｔｏｌｕｘｕｒｉｏｕｓｐｌａｃｅ．」と翻訳される場合とがある。
一方、音声パターンＰＴには、「Ｍｏｖｅａｎｉｍａｇｅｔｏｈｉｇｈｅｒｐｌａｃｅ．」、「Ｔｏｈｉｇｈｅｒｐｌａｃｅ．」及び「Ｍａｋｅａｐｏｓｉｔｉｏｎｏｆａｎｉｍａｇｅｈｉｇｈｅｒ．」のように、特定音声テキストＴＸＰとして「ｈｉｇｈｅｒ」が含まれる。これらの音声パターンＰＴは、「Ｌｅｎｓ−ｓｈｉｆｔｕｐ．」という操作指示ＱＰと対応付けられる。
特定音声テキストＴＸＰとして「ｈｉｇｈｅｒ」が選定されるため、「たかくして」という第２音声テキストＴＸＢは、特定音声テキストＴＸＰとしての「ｈｉｇｈｅｒ」を含む「Ｔｏｈｉｇｈｅｒｐｌａｃｅ．」という第１音声テキストＴＸＡに翻訳される。

次に、第２音声テキストＴＸＢが、「うつして」である場合について説明する。「うつして」を英語に翻訳する場合には、「映して」を意味する「Ｐｒｏｊｅｃｔｉｏｎ.」と翻訳される場合と、「移して」を意味する「Ｍｏｖｅ.」と翻訳される場合と、病気等を「うつして」を意味する「Ｉｎｆｅｃｔ．」と翻訳される場合とがある。
一方、音声パターンＰＴには、「Ｐｒｏｊｅｃｔｉｏｎ.」、「ＳｃｒｅｅｎＭｉｒｒｏｒｉｎｇ．」及び「Ｍｉｒａｃａｓｔ.」のように、特定音声テキストＴＸＰとして「Ｐｒｏｊｅｃｔｉｏｎ」が含まれる。これらの音声パターンＰＴは、「ＳｃｒｅｅｎＭｉｒｒｏｒｉｎｇ．」という操作指示ＱＰと対応付けられる。
特定音声テキストＴＸＰとして「Ｐｒｏｊｅｃｔｉｏｎ」が選定されるため、「うつして」という第２音声テキストＴＸＢは、特定音声テキストＴＸＰとしての「Ｐｒｏｊｅｃｔｉｏｎ」を含む「Ｐｒｏｊｅｃｔｉｏｎ.」という第１音声テキストＴＸＡに翻訳される。

このようにして、特定音声テキストＴＸＰを適正に選定することによって、第２音声テキストＴＸＢから第１音声テキストＴＸＡへの翻訳を正確に行うことができる。

［１−６．第１制御部の処理］
図５は、スマートフォン１００の第１制御部１１０の処理の一例を示すフローチャートである。
なお、操作記憶部１２１には、予め、第１操作指示ＱＰ１に対応付けて第１言語ＬＧ１の複数の第１音声パターンＰＴ１を記憶し、第２操作指示ＱＰ２に対応付けて第１言語ＬＧ１の複数の第２音声パターンＰＴ２を記憶し、第Ｎ操作指示ＱＰＮに対応付けて第１言語ＬＧ１の複数の第Ｎ音声パターンＰＴＮを記憶している。また、第１音声パターンＰＴ１〜第Ｎ音声パターンＰＴＮから特定音声テキストＴＸＰが、予め選定されている。
まず、ステップＳ１０１において、第１制御部１１０が、マイクロフォン１５０によって生成される第２言語ＬＧ２の音声信号ＳＶを受け付けたか否かを判定する。
第２言語ＬＧ２の音声信号ＳＶを受け付けていないと第１制御部１１０が判定した場合（ステップＳ１０１；ＮＯ）には、処理が待機状態になる。第２言語ＬＧ２の音声信号ＳＶを受け付けたと第１制御部１１０が判定した場合（ステップＳ１０１；ＹＥＳ）には、処理がステップＳ１０３に進む。

そして、ステップＳ１０３において、変換部１１１は、マイクロフォン１５０によって生成される第２言語ＬＧ２の音声信号ＳＶを、第２音声テキストＴＸＢに変換する。
次に、ステップＳ１０５において、翻訳部１１２は、特定音声テキストＴＸＰを考慮して、第２音声テキストＴＸＢを第１音声テキストＴＸＡに翻訳する翻訳処理を実行する。具体的には、翻訳部１１２は、特定音声テキストＴＸＰが他の音声テキストと比較して第１音声テキストＴＸＡに翻訳され易いように、第２音声テキストＴＸＢを第１音声テキストＴＸＡに翻訳する。
そして、ステップＳ１０７において、翻訳部１１２は、翻訳処理の結果として第１音声テキストＴＸＡを生成する。
次に、ステップＳ１０９において、判定部１１３は、第１音声テキストＴＸＡが第１音声パターンＰＴ１〜第Ｎ音声パターンＰＴＮのいずれかと一致するか否かを、パターンマッチングによって判定する。

第１音声テキストＴＸＡが第１音声パターンＰＴ１〜第Ｎ音声パターンＰＴＮのいずれかと一致すると判定部１１３が判定した場合（ステップＳ１０９；ＹＥＳ）には、処理がステップＳ１１１に進む。
そして、ステップＳ１１１において、実行部１１４は、第１音声テキストＴＸＡと一致すると判定された音声パターンＰＴに対応する操作指示ＱＰを操作記憶部１２１から読み出して、操作指示ＱＰを実行する。その後、処理がステップＳ１０１へリターンする。
第１音声テキストＴＸＡが第１音声パターンＰＴ１〜第Ｎ音声パターンＰＴＮのいずれとも一致しないと判定部１１３が判定した場合（ステップＳ１０９；ＮＯ）には、処理がステップＳ１１３に進む。
そして、ステップＳ１１３において、第１制御部１１０が、スピーカー１６０を介して、ユーザーに再入力を要求する音声を出力する。その後、処理がステップＳ１０１へリターンする。

ステップＳ１０３が「変換ステップ」の一例に対応する。ステップＳ１０５が「翻訳ステップ」の一例に対応する。ステップＳ１０９が、「判定ステップ」の一例に対応する。ステップＳ１１１が、「実行ステップ」の一例に対応する。

［２．本実施形態及び作用効果］
以上、図１〜図５を参照して説明したように、本実施形態に係るスマートフォン１００の制御方法は、第１言語ＬＧ１の音声パターンＰＴと、操作指示ＱＰとが対応付けて記憶された操作記憶部１２１を有するスマートフォン１００の制御方法であって、第２言語ＬＧ２で入力された音声を第１言語ＬＧ１の音声に翻訳する翻訳ステップと、第１言語ＬＧ１の音声が音声パターンＰＴと一致するか否かを判定する判定ステップと、第１言語ＬＧ１の音声が音声パターンＰＴと一致すると判定された場合に、操作指示ＱＰを実行する実行ステップと、を含む、スマートフォン１００の制御方法である。
よって、第２言語ＬＧ２で入力された音声を第１言語ＬＧ１の音声に翻訳し、第１言語ＬＧ１の音声が音声パターンＰＴと一致するか否かを判定するため、第２言語ＬＧ２に対応する音声パターンを準備する必要がない。したがって、複数言語の音声認識をするための開発の工数を低減できる。

また、操作記憶部１２１は、操作指示ＱＰに対応付けて、複数の音声パターンＰＴが記憶され、判定ステップにおいて、第１言語ＬＧ１の音声が複数の音声パターンＰＴのいずれか１つと一致するか否かを判定し、実行ステップにおいて、第１言語ＬＧ１の音声が複数の音声パターンＰＴのいずれか１つと一致すると判定された場合に、操作指示ＱＰを実行する。
よって、第１言語ＬＧ１の音声が複数の音声パターンＰＴのいずれか１つと一致するか否かを判定するため、第１言語ＬＧ１の音声が複数の音声パターンＰＴのいずれとも一致しない頻度を低減できる。したがって、操作指示ＱＰを実行する頻度を増大できる。その結果、ユーザーの利便性を向上できる。

また、音声パターンＰＴに含まれる特定音声が予め選定されており、翻訳ステップにおいて、特定音声が他の音声と比較して第１言語ＬＧ１の音声に翻訳され易いように、第２言語ＬＧ２で入力された音声を第１言語ＬＧ１の音声に翻訳する。
よって、音声パターンＰＴに含まれる特定音声が他の音声と比較して第１言語ＬＧ１の音声に翻訳され易いように、第２言語ＬＧ２で入力された音声を第１言語ＬＧ１の音声に翻訳するため、翻訳された第１言語ＬＧ１の音声に特定音声が含まれる頻度を増大できる。したがって、第１言語ＬＧ１の音声が音声パターンＰＴと一致する頻度を増大できる。その結果、操作指示ＱＰを実行する頻度を増大でき、ユーザーの利便性を向上できる。

また、第２言語ＬＧ２で入力された音声を、第２言語ＬＧ２の音声テキスト（＝第２音声テキストＴＸＢ）に変換する変換ステップを更に含み、翻訳ステップにおいて、第２言語ＬＧ２の音声テキスト（＝第２音声テキストＴＸＢ）を第１言語ＬＧ１の音声テキスト（＝第１音声テキストＴＸＡ）に翻訳し、判定ステップにおいて、第１言語ＬＧ１の音声テキスト（＝第１音声テキストＴＸＡ）と、音声パターンＰＴとが一致するか否かを判定する。
したがって、第２言語ＬＧ２の音声テキスト（＝第２音声テキストＴＸＢ）を第１言語ＬＧ１の音声テキスト（＝第１音声テキストＴＸＡ）に翻訳するため、翻訳の精度を向上できる。

また、第２言語ＬＧ２は、第１言語ＬＧ１と相違する複数の言語を示す。
したがって、第２言語ＬＧ２が第１言語ＬＧ１と相違する複数の言語であるため、複数言語の音声認識をするための開発の工数を低減できる。

また、スマートフォン１００は、プロジェクター２００と通信可能に接続され、操作指示ＱＰは、プロジェクター２００に対する操作指示ＱＰを示す。
したがって、プロジェクター２００に対する操作指示ＱＰを出力する音声認識装置を開発する工数を低減できる。

また、スマートフォン１００は、プロジェクター２００の一部を構成し、操作指示ＱＰは、プロジェクター２００に対する操作指示を示す。
したがって、音声認識機能を備えるプロジェクター２００を開発する工数を低減できる。

また、本実施形態に係る第１言語ＬＧ１の音声パターンと、操作指示とが対応付けて記憶された操作記憶部１２１と、第２言語ＬＧ２で入力された音声を前記第１言語ＬＧ１の音声に翻訳する翻訳部１１２と、第１言語ＬＧ１の音声が音声パターンＰＴと一致するか否かを判定する判定部１１３と、第１言語ＬＧ１の音声が音声パターンＰＴと一致すると判定された場合に、操作指示ＱＰを実行する実行部１１４と、を備える、スマートフォン１００である。
よって、第２言語ＬＧ２で入力された音声を第１言語ＬＧ１の音声に翻訳し、第１言語ＬＧ１の音声が音声パターンＰＴと一致するか否かを判定するため、第２言語ＬＧ２に対応する音声パターンを準備する必要がない。したがって、複数言語の音声認識をするための開発の工数を低減できる。

また、本実施形態に係るスマートフォン１００の制御プログラムは、第１言語ＬＧ１の音声パターンＰＴと、操作指示ＱＰとが対応付けて記憶された操作記憶部１２１と、第１制御部１１０とを備えるスマートフォン１００の制御プログラムであって、第１制御部１１０を、第１制御部１１０を第２言語ＬＧ２で入力された音声を第１言語ＬＧ１の音声に翻訳する翻訳部１１２、第１言語ＬＧ１の音声が音声パターンＰＴと一致するか否かを判定する判定部１１３、及び、第１言語ＬＧ１の音声が音声パターンＰＴと一致すると判定された場合に、操作指示ＱＰを実行する実行部１１４、として機能させる、制御プログラムである。
よって、第２言語ＬＧ２で入力された音声を第１言語ＬＧ１の音声に翻訳し、第１言語ＬＧ１の音声が音声パターンＰＴと一致するか否かを判定するため、第２言語ＬＧ２に対応する音声パターンを準備する必要がない。したがって、複数言語の音声認識をするための開発の工数を低減できる。

［３．他の実施形態］
上述した本実施形態は、好適な実施の形態である。ただし、上述の実施形態に限定されるものではなく、要旨を逸脱しない範囲内において種々の変形実施が可能である。
本実施形態では、「音声認識装置」が、スマートフォン１００で構成されるが、本発明の実施形態はこれに限定されない。「音声認識装置」が、タブレット端末やパーソナルコンピューター、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）等で構成されてもよい。

本実施形態では、「電子機器」がプロジェクター２００であるが、本発明の実施形態はこれに限定されない。「電子機器」がスマートフォン１００からの操作指示ＱＰに基づいて、処理を実行する機器であればよい。「電子機器」が、例えば、ＤＶＤプレイヤーでもよい。また、「電子機器」が、例えば、ナビゲーション装置でもよい。

本実施形態では、スマートフォン１００の第１制御部１１０が操作記憶部１２１を備えるが、本発明の実施形態はこれに限定されない。操作記憶部１２１が、ネットワークを介して通信可能に接続されたサーバー装置に配置されてもよい。この場合には、第１制御部１１０がサーバー装置の操作記憶部１２１から必要な情報を取得すればよい。また、操作記憶部１２１が、ＣＤ、ＤＶＤ等の記憶媒体に形成されてもよい。この場合には、第１制御部１１０が記憶媒体から必要な情報を読み出せばよい。

また、本実施形態では、スマートフォン１００がプロジェクター２００とＵＳＢケーブルで通信可能に接続される場合について説明するが、本発明の実施形態はこれに限定されない。スマートフォン１００がプロジェクター２００と通信可能に接続されればよい。スマートフォン１００が、例えばＷｉ−Ｆｉ（登録商標）等の無線通信で、プロジェクター２００と通信可能に接続されてもよい。

また、図１及び図２に示した各機能部は機能的構成を示すものであって、具体的な実装形態は特に制限されない。つまり、必ずしも各機能部に個別に対応するハードウェアが実装される必要はなく、一つのプロセッサーがプログラムを実行することで複数の機能部の機能を実現する構成とすることも勿論可能である。また、上記実施形態においてソフトウェアで実現される機能の一部をハードウェアで実現してもよく、或いは、ハードウェアで実現される機能の一部をソフトウェアで実現してもよい。その他、スマートフォン１００の他の各部の具体的な細部構成についても、趣旨を逸脱しない範囲で任意に変更可能である。

また、図５に示すフローチャートの処理単位は、スマートフォン１００の第１制御部１１０の処理を理解容易にするために、主な処理内容に応じて分割したものである。図５の各々のフローチャートに示す処理単位の分割の仕方や名称によって制限されることはなく、処理内容に応じて、さらに多くの処理単位に分割することもできるし、１つの処理単位がさらに多くの処理を含むように分割することもできる。また、上記のフローチャートの処理順序も、図示した例に限られるものではない。

また、スマートフォン１００の制御方法は、スマートフォン１００が備える第１プロセッサー１１０Ａに、スマートフォン１００の制御方法に対応した第１制御プログラムを実行させることで実現できる。また、この第１制御プログラムは、コンピューターで読み取り可能に記録した記録媒体に記録しておくことも可能である。記録媒体としては、磁気的、光学的記録媒体又は半導体メモリーデバイスを用いることができる。具体的には、フレキシブルディスク、ＨＤＤ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ、光磁気ディスク、フラッシュメモリー、カード型記録媒体等の可搬型、或いは固定式の記録媒体が挙げられる。また、記録媒体は、画像処理装置が備える内部記憶装置であるＲＡＭ、ＲＯＭ、ＨＤＤ等の不揮発性記憶装置であってもよい。また、スマートフォン１００の制御方法に対応した第１制御プログラムをサーバー装置等に記憶させておき、サーバー装置からスマートフォン１００に、第１制御プログラムをダウンロードすることでスマートフォン１００の制御方法を実現することもできる。

１…画像投射システム、１００…スマートフォン（音声認識装置）、１１０…第１制御部、１１０Ａ…第１プロセッサー、１１０Ｂ…第１メモリー、１１１…変換部、１１２…翻訳部、１１３…判定部、１１４…実行部、１２１…操作記憶部（記憶部）、１３０…第１表示部、１３１…ディスプレイ、１３２…タッチサンサー、１５０…マイクロフォン、１６０…スピーカー、１７０…ＵＳＢインターフェース部、２００…プロジェクター（電子機器）、２１０…投射部、２１１…光源部、２１２…光変調装置、２１３…投射光学系、２１５…液晶パネル、２２０…駆動部、２２１…光源駆動部、２２２…光変調装置駆動部、２３１…第２操作部、２３５…入力インターフェース、２４１…画像インターフェース、２４５…画像処理部、２５０…第２制御部、２５１…第２メモリー、２５３…第２プロセッサー、ＬＧ１…第１言語、ＬＧ２…第２言語、ＰＬ…画像光、ＰＴ…音声パターン、ＰＴ１…第１音声パターン、ＰＴ２…第２音声パターン、ＰＴＮ…第Ｎ音声パターン、ＱＰ…操作指示、ＱＰ１…第１操作指示、ＱＰ２…第２操作指示、ＱＰＮ…第Ｎ操作指示、ＳＣ…スクリーン、ＳＶ…音声信号、ＴＸ…音声テキスト、ＴＸＡ…第１音声テキスト、ＴＸＢ…第２音声テキスト、ＴＸＰ…特定音声テキスト。

Claims

第１言語の音声パターンと、操作指示とが対応付けて記憶された記憶部を有する音声認識装置の制御方法であって、
第２言語で入力された音声を前記第１言語の音声に翻訳する翻訳ステップと、
前記第１言語の音声が前記音声パターンと一致するか否かを判定する判定ステップと、
前記第１言語の音声が前記音声パターンと一致すると判定された場合に、前記操作指示を実行する実行ステップと、
を含む、音声認識装置の制御方法。
前記記憶部は、前記操作指示に対応付けて、複数の前記音声パターンが記憶され、
前記判定ステップにおいて、前記第１言語の音声が前記複数の音声パターンのいずれか１つと一致するか否かを判定し、
前記実行ステップにおいて、前記第１言語の音声が前記複数の音声パターンのいずれか１つと一致すると判定された場合に、前記操作指示を実行する、請求項１に記載の音声認識装置の制御方法。
前記音声パターンに含まれる特定音声が予め選定されており、
前記翻訳ステップにおいて、前記特定音声が他の音声と比較して前記第１言語の音声に翻訳され易いように、前記第２言語で入力された音声を前記第１言語の音声に翻訳する、請求項１又は請求項２に記載の音声認識装置の制御方法。
前記第２言語で入力された音声を、前記第２言語の音声テキストに変換する変換ステップを更に含み、
前記翻訳ステップにおいて、前記第２言語の音声テキストを前記第１言語の音声テキストに翻訳し、
前記判定ステップにおいて、前記第１言語の音声テキストと、前記音声パターンとが一致するか否かを判定する、請求項１から請求項３のいずれか１項に記載の音声認識装置の制御方法。
前記第２言語は、前記第１言語と相違する複数の言語を示す、請求項１から請求項４のいずれか１項に記載の音声認識装置の制御方法。
前記音声認識装置は、電子機器と通信可能に接続され、
前記操作指示は、前記電子機器に対する操作指示を示す、請求項１から請求項５のいずれか１項に記載の音声認識装置の制御方法。
前記音声認識装置は、電子機器の一部を構成し、
前記操作指示は、前記電子機器に対する操作指示を示す、請求項１から請求項５のいずれか１項に記載の音声認識装置の制御方法。
第１言語の音声パターンと、操作指示とが対応付けて記憶された記憶部と、
第２言語で入力された音声を前記第１言語の音声に翻訳する翻訳部と、
前記第１言語の音声が前記音声パターンと一致するか否かを判定する判定部と、
前記第１言語の音声が前記音声パターンと一致すると判定された場合に、前記操作指示を実行する実行部と、
を備える、音声認識装置。
第１言語の音声パターンと、操作指示とが対応付けて記憶された記憶部と、制御部とを備える音声認識装置の制御プログラムであって、
前記制御部を、
第２言語で入力された音声を前記第１言語の音声に翻訳する翻訳部、
前記第１言語の音声が前記音声パターンと一致するか否かを判定する判定部、及び、
前記第１言語の音声が前記音声パターンと一致すると判定された場合に、前記操作指示を実行する実行部、
として機能させる、制御プログラム。