JP2021085897A - 音声認識装置の制御方法、音声認識装置、及び音声認識装置の制御プログラム - Google Patents

音声認識装置の制御方法、音声認識装置、及び音声認識装置の制御プログラム Download PDF

Info

Publication number
JP2021085897A
JP2021085897A JP2019212092A JP2019212092A JP2021085897A JP 2021085897 A JP2021085897 A JP 2021085897A JP 2019212092 A JP2019212092 A JP 2019212092A JP 2019212092 A JP2019212092 A JP 2019212092A JP 2021085897 A JP2021085897 A JP 2021085897A
Authority
JP
Japan
Prior art keywords
voice
language
operation instruction
unit
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019212092A
Other languages
English (en)
Inventor
貴行 清水
Takayuki Shimizu
貴行 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2019212092A priority Critical patent/JP2021085897A/ja
Publication of JP2021085897A publication Critical patent/JP2021085897A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Telephone Function (AREA)

Abstract

【課題】複数言語の音声認識をするための開発の工数を低減する。【解決手段】スマートフォン100の制御方法は、第1言語LG1の音声パターンPTと、操作指示QPとが対応付けて記憶された操作記憶部121を有するスマートフォン100の制御方法であって、第2言語LG2で入力された音声を第1言語LG1の音声に翻訳する翻訳ステップと、第1言語LG1の音声が音声パターンPTと一致するか否かを判定する判定ステップと、第1言語LG1の音声が音声パターンPTと一致すると判定された場合に、操作指示QPを実行する実行ステップと、を含む。【選択図】図3

Description

本発明は、音声認識装置の制御方法、音声認識装置、及び音声認識装置の制御プログラムに関する。
従来、ユーザーからの音声を受け付けて、音声認識する装置に関する技術が知られている(例えば、特許文献1参照)。
特許文献1に記載の音声認識装置は、音声コマンドが音声認識用メモリーに記憶されており、マイクを介して入力された入力音声と一致する音声コマンドに応じてナビゲーションシステムを操作する。このとき、音声認識用メモリーには複数の異なる言語毎に、音声コマンドと、言語を切り替えるコマンドとが記憶されており、まず言語を切り替える処理を行ってから音声入力処理を行う。
特開2007−248523号公報
しかしながら、特許文献1に記載の音声認識装置のように、入力された音声と、ナビゲーション装置に対して行う操作を示す音声コマンドとの対応表を、複数の言語の各々について作成するためには、開発の工数が多大になる可能性がある。これは、特許文献1に記載のようなナビゲーションシステムに使用する音声認識装置に限らず、一般的に音声認識装置が有する課題であり、例えば、プロジェクター等の表示装置に音声認識装置を使用する場合にも、同様の課題を有する。
上記課題を解決する一態様は、第1言語の音声パターンと、操作指示とが対応付けて記憶された記憶部を有する音声認識装置の制御方法であって、第2言語で入力された音声を前記第1言語の音声に翻訳する翻訳ステップと、前記第1言語の音声が前記音声パターンと一致するか否かを判定する判定ステップと、前記第1言語の音声が前記音声パターンと一致すると判定された場合に、前記操作指示を実行する実行ステップと、を含む、音声認識装置の制御方法である。
上記音声認識装置の制御方法において、前記記憶部は、前記操作指示に対応付けて、複数の前記音声パターンが記憶され、前記判定ステップにおいて、前記第1言語の音声が前記複数の音声パターンのいずれか1つと一致するか否かを判定し、前記実行ステップにおいて、前記第1言語の音声が前記複数の音声パターンのいずれか1つと一致すると判定された場合に、前記操作指示を実行してもよい。
上記音声認識装置の制御方法において、前記音声パターンに含まれる特定音声が予め選定されており、前記翻訳ステップにおいて、前記特定音声が他の音声と比較して前記第1言語の音声に翻訳され易いように、前記第2言語で入力された音声を前記第1言語の音声に翻訳してもよい。
上記音声認識装置の制御方法において、前記第2言語で入力された音声を、前記第2言語の音声テキストに変換する変換ステップを更に含み、前記翻訳ステップにおいて、前記第2言語の音声テキストを前記第1言語の音声テキストに翻訳し、前記判定ステップにおいて、前記第1言語の音声テキストと、前記音声パターンとが一致するか否かを判定してもよい。
上記音声認識装置の制御方法において、前記第2言語は、前記第1言語と相違する複数の言語を示してもよい。
上記音声認識装置の制御方法において、前記音声認識装置は、電子機器と通信可能に接続され、前記操作指示は、前記電子機器に対する操作指示を示してもよい。
上記音声認識装置の制御方法において、前記音声認識装置は、電子機器の一部を構成し、前記操作指示は、前記電子機器に対する操作指示を示してもよい。
上記課題を解決する別の一態様は、第1言語の音声パターンと、操作指示とが対応付けて記憶された記憶部と、第2言語で入力された音声を前記第1言語の音声に翻訳する翻訳部と、前記第1言語の音声が前記音声パターンと一致するか否かを判定する判定部と、前記第1言語の音声が前記音声パターンと一致すると判定された場合に、前記操作指示を実行する実行部と、を備える、音声認識装置である。
上記課題を解決する更に別の一態様は、第1言語の音声パターンと、操作指示とが対応付けて記憶された記憶部と、制御部とを備える音声認識装置の制御プログラムであって、前記制御部を、第2言語で入力された音声を前記第1言語の音声に翻訳する翻訳部、前記第1言語の音声が前記音声パターンと一致するか否かを判定する判定部、及び、前記第1言語の音声が前記音声パターンと一致すると判定された場合に、前記操作指示を実行する実行部、として機能させる、制御プログラム。
本実施形態に係るスマートフォンの構成の一例を示す図。 本実施形態に係るプロジェクターの構成の一例を示す図。 スマートフォンの第1制御部の処理の概要を示す図。 特定音声テキストの一例を示す図表。 スマートフォンの第1制御部の処理の一例を示すフローチャート。
以下、図面を参照して本実施形態について説明する。
[1.画像投射システムの構成]
[1−1.スマートフォンの構成]
図1は、本実施形態に係るスマートフォン100の構成の一例を示す図である。
図1に示すように、画像投射システム1は、スマートフォン100と、プロジェクター200とを備える。スマートフォン100とプロジェクター200とは、通信可能に接続される。具体的には、スマートフォン100とプロジェクター200とは、USB(Universal Serial Bus)ケーブルを介して、通信可能に接続される。すなわち、スマートフォン100とプロジェクター200とは、USB規格に則って通信が実行される。
また、本実施形態では、スマートフォン100が、USBケーブルを介して、プロジェクター200と通信可能に接続されるが、本発明の実施形態はこれに限定されない。スマートフォン100がプロジェクター200と通信可能に接続されればよい。スマートフォン100が、例えば、Wi−Fi(登録商標)規格等に従って、プロジェクター200と無線通信可能に接続されてもよい。
スマートフォン100は、ユーザーからの第2言語LG2で入力された音声に対応する第1言語LG1の音声パターンPTを決定し、音声パターンPTに対応付けて記憶された操作指示QPを示す操作指示情報をプロジェクター200に送信する。
「操作指示QP」は、ユーザーからの音声によって示される指示であって、プロジェクター200を操作する指示を示す。
本実施形態では、第1言語LG1は英語であり、第2言語LG2は日本語である。
音声パターンPT及び操作指示QPについては、後述にて図3及び図4を参照して詳細に説明する。
スマートフォン100は、「音声認識装置」の一例に対応する。
スマートフォン100は、第1制御部110と、第1表示部130と、マイクロフォン150と、スピーカー160と、USBインターフェース部170とを備える。
第1表示部130、マイクロフォン150、スピーカー160、及びUSBインターフェース部170の各々は、第1内部バス190によって、第1制御部110に接続される。
第1制御部110は、CPU(Central Processing Unit)やマイコン等の第1プロセッサー110Aを備え、この第1プロセッサー110Aが第1制御プログラムを実行することによって、スマートフォン100の各部を制御する。第1制御部110は、第1プロセッサー110Aが実行する第1制御プログラムを不揮発的に記憶するROM(Read Only Memory)、及び、第1プロセッサー110Aのワークエリアを構成するRAM(Random Access Memory)のような第1メモリー110Bを備える。
第1制御部110は、「制御部」の一例に対応する。
第1表示部130は、ディスプレイ131、及びタッチセンサー132を備える。ディスプレイ131、及びタッチセンサー132の各々は、第1内部バス190を介して、第1制御部110に接続される。ディスプレイ131は、第1制御部110の制御に基づき各種画像を表示する。ディスプレイ131は、例えばLCDを備える。
タッチセンサー132は、ユーザーのタッチ操作を検出し、検出した操作を示すデータを第1制御部110に出力する。タッチセンサー132は、ディスプレイ131と一体に形成される。具体的には、タッチセンサー132は、ディスプレイ131の画像表示面に形成される。
ディスプレイ131とタッチセンサー132とは、いわゆる「タッチパネル」を構成する。
マイクロフォン150は、ユーザーからの第2言語LG2の音声を受け付けて、音声信号SVを生成する。マイクロフォン150が生成した音声信号SVは、第1制御部110に伝送される。
第2言語LG2は、第1言語LG1と相違する複数の言語を示す。第2言語LG2は、日本語、中国語、韓国語、イタリア語、オランダ語、ドイツ語、フランス語、ポルトガル語等を含む。
本実施形態では、第1言語LG1が、英語であり、第2言語LG2が日本語である場合について説明する。
本実施形態では、第1言語LG1が、英語であるが、本発明の実施形態はこれに限定されない。第1言語LG1は、第2言語LG2への翻訳が容易な言語であることが好ましい。第1言語LG1は、例えば、ドイツ語でもよい。
また、本実施形態では、第2言語LG2が日本語であるが、本発明の実施形態はこれに限定されない。第2言語LG2は、例えば、中国語、韓国語、イタリア語、オランダ語、ドイツ語、フランス語、ポルトガル語等でもよい。
スピーカー160は、ユーザーに対するガイダンス情報を出力する。具体的には、マイクロフォン150に入力されたユーザーからの第2言語LG2の音声に対応する音声パターンPTが見つからない場合に、スピーカー160は、第1制御部110の制御に従って、ユーザーに対して、第2言語LG2の音声の再度の入力を促すガイダンス情報を第2言語LG2で出力する。
USBインターフェース部170は、USB規格に対応する有線通信インターフェース回路である。USBインターフェース部170は、USBケーブルを介して、プロジェクター200と通信可能に接続される。
USBインターフェース部170は、第1制御部110の制御に基づき、例えば画像データをプロジェクター200に送信する。また、USBインターフェース部170は、第1制御部110の制御に基づき、例えば操作指示情報をプロジェクター200に送信する。操作指示情報は、操作指示QPを示す。
[1−2.プロジェクターの構成]
図2は、本実施形態に係るプロジェクター200の構成の一例を示す図である。
プロジェクター200は、スマートフォン100から受信した操作指示QPに従って、スマートフォン100から受信した画像データに対応する画像をスクリーンSCに投射する。
プロジェクター200は、「電子機器」の一例に対応する。
プロジェクター200は、投射部210と、投射部210を駆動する駆動部220とを備える。投射部210は、光学的な画像の形成を行い、スクリーンSCに画像を投射する。投射部210は、光源部211、光変調装置212及び投射光学系213を備える。駆動部220は、光源駆動部221及び光変調装置駆動部222を備える。
光源部211は、ハロゲンランプ、キセノンランプ、超高圧水銀ランプ等のランプ、又はLED(Light Emitting Diode)やレーザー光源等の固体光源を備える。
光源駆動部221は、第2内部バス207に接続され、同じく第2内部バス207に接続された第2制御部250の指示に従って、光源部211の光源を点灯及び消灯させる。
光変調装置212は、例えば、R、G及びBの三原色に対応した3枚の液晶パネル215を備える。Rは赤色を示し、Gは緑色を示し、Bは青色を示す。すなわち、光変調装置212は、R色光に対応した液晶パネル215と、G色光に対応した液晶パネル215と、B色光に対応した液晶パネル215とを備える。
光源部211が発する光はRGBの3色の色光に分離され、それぞれ対応する液晶パネル215に入射される。3枚の液晶パネル215の各々は、透過型の液晶パネルであり、透過する光を変調して画像光PLを生成する。各液晶パネル215を通過して変調された画像光PLは、クロスダイクロイックプリズム等の合成光学系によって合成され、投射光学系213に射出される。
光変調装置212は、光変調装置駆動部222によって駆動される。光変調装置駆動部222は、画像処理部245に接続される。
光変調装置駆動部222には、画像処理部245からR,G,Bの各原色に対応する画像データが入力される。光変調装置駆動部222は、入力された画像データを液晶パネル215の動作に適したデータ信号に変換する。光変調装置駆動部222は、変換したデータ信号に基づいて、各液晶パネル215の各画素に電圧を印加し、各液晶パネル215に画像を描画する。
投射光学系213は、入射された画像光PLをスクリーンSC上に結像させるレンズやミラー等を備える。また、投射光学系213は、スクリーンSCに投射される画像を拡大又は縮小させるズーム機構や、フォーカスの調整を行うフォーカス調整機構等を備えてもよい。
プロジェクター200は、第2操作部231、リモコン受光部233、入力インターフェース235、第2記憶部237、画像インターフェース241、フレームメモリー243、画像処理部245及び第2制御部250を更に備える。入力インターフェース235、第2記憶部237、画像インターフェース241、画像処理部245及び第2制御部250の各々は、第2内部バス207を介して、互いにデータ通信可能に接続される。
第2操作部231は、プロジェクター200の筐体表面に設けられた各種のボタンやスイッチを備え、これらのボタンやスイッチの操作に対応した操作信号を生成して、入力インターフェース235に出力する。入力インターフェース235は、第2操作部231から入力された操作信号を第2制御部250に出力する回路を備える。
リモコン受光部233は、リモコン5から送信される赤外線信号を受光し、受光した赤外線信号をデコードして操作信号を生成する。リモコン受光部233は、生成した操作信号を入力インターフェース235に出力する。入力インターフェース235は、リモコン受光部233から入力された操作信号を第2制御部250に出力する。
第2記憶部237は、例えば、ハードディスクドライブやSSD(Solid State Drive)等の不揮発性の記憶装置である。第2記憶部237は、第2制御部250が実行するプログラムや、第2制御部250が処理したデータ、画像データ等を記憶する。
画像インターフェース241は、コネクター及びインターフェース回路を備え、スマートフォン100とUSB規格での通信が可能にされる。画像インターフェース241は、スマートフォン100から画像データ、及び各種の操作指示情報を受信する。操作指示情報は、操作指示QPを示す。
第2制御部250は、第2メモリー251及び第2プロセッサー253を備える。
第2メモリー251は、第2プロセッサー253が実行するプログラムやデータを不揮発的に記憶する記憶装置である。第2メモリー251は、磁気的記憶装置、フラッシュROM等の半導体記憶素子、或いはその他の種類の不揮発性記憶装置により構成される。また、第2メモリー251は、第2プロセッサー253のワークエリアを構成するRAMを含んでもよい。第2メモリー251は、第2制御部250により処理されるデータや、第2プロセッサー253が実行する第2制御プログラムを記憶する。
第2プロセッサー253は、単一のプロセッサーで構成されてもよいし、複数のプロセッサーが第2プロセッサー253として機能する構成であってもよい。第2プロセッサー253は、第2制御プログラムを実行してプロジェクター200の各部を制御する。また、第2プロセッサー253は、画像インターフェース241を介してスマートフォン100から受信した各種の操作指示情報に基づいて、プロジェクター200の各部を制御する。
例えば、第2プロセッサー253は、スマートフォン100から受信した操作指示情報に対応した画像処理の実行指示と、この画像処理に用いるパラメーターとを画像処理部245に出力する。パラメーターには、例えば、スクリーンSCに投射する画像の幾何的な歪みを補正するための幾何補正パラメーター等が含まれる。また、第2プロセッサー253は、光源駆動部221を制御して光源部211の点灯と消灯とを制御し、また光源部211の輝度を調整する。
画像処理部245及びフレームメモリー243は、例えば、集積回路により構成することができる。集積回路は、LSI、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)を含む。PLDには、例えば、FPGA(Field−Programmable Gate Array)が含まれる。また、集積回路の構成の一部にアナログ回路が含まれていてもよく、プロセッサーと集積回路との組み合わせであってもよい。プロセッサーと集積回路との組み合わせは、マイクロコントローラー(MCU)、SoC(System−on−a−chip)、システムLSI、チップセットなどと呼ばれる。
画像処理部245は、画像インターフェース241から入力された画像データをフレームメモリー243に展開する。フレームメモリー243は、複数のバンクを備える。各バンクは、1フレーム分の画像データを書き込み可能な記憶容量を有する。フレームメモリー243は、例えば、SDRAM(Synchronous Dynamic Random Access Memory)により構成される。
画像処理部245は、フレームメモリー243に展開した画像データに対して、例えば、解像度変換処理又はリサイズ処理、歪曲収差の補正、形状補正処理、デジタルズーム処理、画像の色合いや輝度の調整等の画像処理を行う。
また、画像処理部245は、垂直同期信号の入力フレーム周波数を描画周波数に変換した垂直同期信号を生成する。生成した垂直同期信号を出力同期信号という。画像処理部245は、生成した出力同期信号を光変調装置駆動部222に出力する。
本実施形態では、「電子機器」がプロジェクター200であるが、本発明の実施形態はこれに限定されない。「電子機器」がスマートフォン100からの操作指示QPに基づいて、処理を実行する機器であればよい。「電子機器」が、例えば、DVD(Digital Versatile Disc)プレイヤーでもよい。また、「電子機器」が、例えば、ナビゲーション装置でもよい。
本実施形態では、スマートフォン100がプロジェクター200と通信可能に接続されるが、本発明の実施形態はこれに限定されない。スマートフォン100がプロジェクター200の一部を構成してもよい。換言すれば、スマートフォン100がプロジェクター200と一体に構成されてもよい。
[1−3.スマートフォンの第1制御部の構成]
再び、図1に戻って、スマートフォン100の第1制御部110の構成について説明する。
第1制御部110は、変換部111と、翻訳部112と、判定部113と、実行部114と、操作記憶部121とを備える。具体的には、第1制御部110の第1プロセッサー110Aが、第1メモリー110Bに記憶された第1制御プログラムを実行することによって、変換部111、翻訳部112、判定部113、及び実行部114として機能する。また、第1制御部110の第1プロセッサー110Aが、第1メモリー110Bに記憶された第1制御プログラムを実行することによって、第1メモリー110Bを、操作記憶部121として機能させる。
「第1制御プログラム」は、「制御プログラム」の一例に対応する。
操作記憶部121は、操作指示QPに対応付けて、第1言語LG1の複数の音声パターンPTを記憶する。具体的には、操作指示QPは、例えば、第1操作指示QP1、第2操作指示QP2、・・・、及び第N操作指示QPNを含む。個数Nは、操作指示QPの個数であり、2個以上の整数である。第1操作指示QP1、第2操作指示QP2、・・・、及び第N操作指示QPNは、互いに相違する操作を指示する。
複数の第1音声パターンPT1の各々は、第1操作指示QP1をプロジェクター200に対して出力するために、ユーザーが発すると想定される第1言語LG1の典型的な、又は理想的な音声に対応する。複数の第2音声パターンPT2の各々は、第2操作指示QP2をプロジェクター200に対して出力するために、ユーザーが発すると想定される第1言語LG1の典型的な又は理想的な音声に対応する。複数の第N音声パターンPTNの各々は、第N操作指示QPNをプロジェクター200に対して出力するために、ユーザーが発すると想定される第1言語LG1の典型的な又は理想的な音声に対応する。
第1音声パターンPT1〜第N音声パターンPTNの各々の具体的については、図4を参照して詳細に説明する。
操作記憶部121は、「記憶部」の一例に対応する。
変換部111は、第2言語LG2で入力された音声を、第2言語LG2の音声テキストである第2音声テキストTXBに変換する。具体的には、変換部111は、マイクロフォン150によって生成される第2言語LG2の音声信号SVを、第2音声テキストTXBに変換する。
例えば、日本語で「高くして」を示す音声信号SVが生成された場合には、第2音声テキストTXBとして「たかくして」というテキストが生成される。
すなわち、第2音声テキストTXBは、音声信号SVを単純にテキストに変換したものである。換言すれば、第2音声テキストTXBは、音声を示す平仮名のみによって構成され、漢字、及び片仮名を含まない。
翻訳部112は、第2言語LG2で入力された音声を第1言語LG1の音声に翻訳する。具体的には、翻訳部112は、第2音声テキストTXBを、第1言語LG1の音声テキストである第1音声テキストTXAに翻訳する。
なお、第2音声テキストTXBが第2言語LG2の音声に対応するのに対して、第1音声テキストTXAは、意味が明確なテキストである点で相違している。
また、翻訳部112は、特定音声が他の音声と比較して第1言語LG1の音声に翻訳され易いように、第2言語LG2で入力された音声を第1言語LG1の音声に翻訳する。具体的には、翻訳部112は、特定音声テキストTXPが他の音声テキストと比較して第1音声テキストTXAに翻訳され易いように、第2音声テキストTXBを第1音声テキストTXAに翻訳する。特定音声テキストTXPは、「特定音声」に対応する。
特定音声テキストTXPは、音声パターンPTに含まれるテキストの中から予め選定される。特定音声テキストTXPについては、後述にて図4を参照して詳細に説明する。
判定部113は、第1言語LG1の音声が音声パターンと一致するか否かを判定する。具体的には、判定部113は、第1音声テキストTXAが音声パターンPTと一致するか否かを、パターンマッチングによって判定する。更に具体的には、判定部113は、第1音声テキストTXAが第1音声パターンPT1〜第N音声パターンPTNのいずれかと一致するか否かを、パターンマッチングによって判定する。
実行部114は、第1言語LG1の音声が音声パターンと一致すると判定された場合に、操作指示を実行する。具体的には、実行部114は、音声テキストTXが音声パターンPTと一致すると判定された場合に、音声パターンPTに対応する操作指示QPを実行する。
更に具体的には、実行部114は、第1音声テキストTXAが第1音声パターンPT1〜第N音声パターンPTNのいずれかと一致すると判定した場合には、第1音声テキストTXAと一致すると判定された音声パターンPTに対応する操作指示QPを操作記憶部121から読み出して、操作指示QPを実行する。
例えば、実行部114は、第1音声テキストTXAが複数の第1音声パターンPT1のいずれかと一致すると判定した場合には、第1音声パターンPT1に対応する第1操作指示QP1を操作記憶部121から読み出して、第1操作指示QP1を実行する。
また、例えば、実行部114は、第1音声テキストTXAが複数の第2音声パターンPT2のいずれかと一致すると判定した場合には、第2音声パターンPT2に対応する第2操作指示QP2を操作記憶部121から読み出して、第2操作指示QP2を実行する。
また、例えば、実行部114は、第1音声テキストTXAが複数の第N音声パターンPTNのいずれかと一致すると判定した場合には、第N音声パターンPTNに対応する第N操作指示QPNを操作記憶部121から読み出して、第N操作指示QPNを実行する。
なお、操作指示QPを実行するとは、操作指示QPをプロジェクター200に対して伝送することを示す。
本実施形態では、第1制御部110が、USBインターフェース部170を介して、種々の操作指示情報をプロジェクター200に送信するが、本発明の実施形態はこれに限定されない。第1制御部110が、種々の操作指示情報をプロジェクター200に送信すればよい。第1制御部110が、例えば、Wi−Fi(登録商標)等の無線通信によって。種々の操作指示情報をプロジェクター200に送信してもよい。
本実施形態では、「音声認識装置」が、スマートフォン100で構成されるが、本発明の実施形態はこれに限定されない。「音声認識装置」が、第1制御部110と、マイクロフォン150と、スピーカー160とを備えればよい。「音声認識装置」が、例えば、タブレット端末やパーソナルコンピューター等で構成されてもよい。
[1−4.第1制御部の処理の概要]
図3は、スマートフォン100の第1制御部110の処理の概要を示す図である。
図3に示すように、マイクロフォン150は、ユーザーからの第2言語LG2の音声を受け付けて、第2言語LG2の音声を示す音声信号SVを生成する。
ステップS1において、変換部111は、音声信号SVを第2音声テキストTXBに変換する。音声信号SVは、第2言語LG2の音声を示し、第2音声テキストTXBは、第2言語LG2の音声を示すテキストである。
次に、ステップS2において、翻訳部112は、第2音声テキストTXBを第1音声テキストTXAに翻訳する。第1音声テキストTXAは、第1言語LG1の音声を示すテキストである。なお、翻訳部112は、特定音声テキストTXPが他の音声テキストと比較して、第1音声テキストTXAに翻訳され易いように、第2音声テキストTXBを第1音声テキストTXAに翻訳する。
特定音声テキストTXPは、音声パターンPTに含まれるテキストの中から予め選定される。具体的には、特定音声テキストTXPは、音声パターンPTの特徴を示すテキストが選定される。本実施形態では、音声パターンPTは、プロジェクター200に対する指示を示す操作指示QPに対応するため、特定音声テキストTXPは、プロジェクター200の構成又は処理の特徴を示すテキストが選定される。
次に、ステップS3において、判定部113は、第1音声テキストTXAが、音声パターンPTと一致するか否かを、パターンマッチングによって判定する。音声パターンPTは、操作指示QPをプロジェクター200に対して出力するために、ユーザーが発すると想定される第1言語LG1の典型的な、又は理想的な音声に対応するテキストを示す。
次に、第1音声テキストTXAが音声パターンPTと一致すると判定部113が判定した場合に、ステップS4において、実行部114は、音声パターンPTに対応する操作指示QPを実行する。具体的には、実行部114は、音声パターンPTに対応する操作指示QPをプロジェクター200に送信する。プロジェクター200は、操作指示QPを受信して、操作指示QPに対応する処理を実行する。
[1−5.特定音声について]
図4は、特定音声テキストTXPの一例を示す図表である。
図4には、左側から順に、第2音声テキストTXB、第1音声テキストTXA、音声パターンPT、操作指示QPを示している。
本実施形態では、第2言語LG2が日本語であるため、第2音声テキストTXBは、日本語の音声を示し、第1言語LG1が英語であるため、第1音声テキストTXAは、英語の音声を示し、音声パターンPTは、英語のパターンを示し、操作指示QPは、英語の指示を示す。
まず、第2音声テキストTXBが、「たかくして」である場合について説明する。「たかくして」を英語に翻訳する場合には、「位置を高くして」を意味する「To higher place.」と翻訳される場合と、「値段を高くして」を意味する「To luxurious place.」と翻訳される場合とがある。
一方、音声パターンPTには、「Move an image to higher place.」、「To higher place.」及び「Make a position of an image higher.」のように、特定音声テキストTXPとして「higher」が含まれる。これらの音声パターンPTは、「Lens−shift up.」という操作指示QPと対応付けられる。
特定音声テキストTXPとして「higher」が選定されるため、「たかくして」という第2音声テキストTXBは、特定音声テキストTXPとしての「higher」を含む「To higher place.」という第1音声テキストTXAに翻訳される。
次に、第2音声テキストTXBが、「うつして」である場合について説明する。「うつして」を英語に翻訳する場合には、「映して」を意味する「Projection.」と翻訳される場合と、「移して」を意味する「Move.」と翻訳される場合と、病気等を「うつして」を意味する「Infect.」と翻訳される場合とがある。
一方、音声パターンPTには、「Projection.」、「Screen Mirroring.」及び「Miracast.」のように、特定音声テキストTXPとして「Projection」が含まれる。これらの音声パターンPTは、「Screen Mirroring.」という操作指示QPと対応付けられる。
特定音声テキストTXPとして「Projection」が選定されるため、「うつして」という第2音声テキストTXBは、特定音声テキストTXPとしての「Projection」を含む「Projection.」という第1音声テキストTXAに翻訳される。
このようにして、特定音声テキストTXPを適正に選定することによって、第2音声テキストTXBから第1音声テキストTXAへの翻訳を正確に行うことができる。
[1−6.第1制御部の処理]
図5は、スマートフォン100の第1制御部110の処理の一例を示すフローチャートである。
なお、操作記憶部121には、予め、第1操作指示QP1に対応付けて第1言語LG1の複数の第1音声パターンPT1を記憶し、第2操作指示QP2に対応付けて第1言語LG1の複数の第2音声パターンPT2を記憶し、第N操作指示QPNに対応付けて第1言語LG1の複数の第N音声パターンPTNを記憶している。また、第1音声パターンPT1〜第N音声パターンPTNから特定音声テキストTXPが、予め選定されている。
まず、ステップS101において、第1制御部110が、マイクロフォン150によって生成される第2言語LG2の音声信号SVを受け付けたか否かを判定する。
第2言語LG2の音声信号SVを受け付けていないと第1制御部110が判定した場合(ステップS101;NO)には、処理が待機状態になる。第2言語LG2の音声信号SVを受け付けたと第1制御部110が判定した場合(ステップS101;YES)には、処理がステップS103に進む。
そして、ステップS103において、変換部111は、マイクロフォン150によって生成される第2言語LG2の音声信号SVを、第2音声テキストTXBに変換する。
次に、ステップS105において、翻訳部112は、特定音声テキストTXPを考慮して、第2音声テキストTXBを第1音声テキストTXAに翻訳する翻訳処理を実行する。具体的には、翻訳部112は、特定音声テキストTXPが他の音声テキストと比較して第1音声テキストTXAに翻訳され易いように、第2音声テキストTXBを第1音声テキストTXAに翻訳する。
そして、ステップS107において、翻訳部112は、翻訳処理の結果として第1音声テキストTXAを生成する。
次に、ステップS109において、判定部113は、第1音声テキストTXAが第1音声パターンPT1〜第N音声パターンPTNのいずれかと一致するか否かを、パターンマッチングによって判定する。
第1音声テキストTXAが第1音声パターンPT1〜第N音声パターンPTNのいずれかと一致すると判定部113が判定した場合(ステップS109;YES)には、処理がステップS111に進む。
そして、ステップS111において、実行部114は、第1音声テキストTXAと一致すると判定された音声パターンPTに対応する操作指示QPを操作記憶部121から読み出して、操作指示QPを実行する。その後、処理がステップS101へリターンする。
第1音声テキストTXAが第1音声パターンPT1〜第N音声パターンPTNのいずれとも一致しないと判定部113が判定した場合(ステップS109;NO)には、処理がステップS113に進む。
そして、ステップS113において、第1制御部110が、スピーカー160を介して、ユーザーに再入力を要求する音声を出力する。その後、処理がステップS101へリターンする。
ステップS103が「変換ステップ」の一例に対応する。ステップS105が「翻訳ステップ」の一例に対応する。ステップS109が、「判定ステップ」の一例に対応する。ステップS111が、「実行ステップ」の一例に対応する。
[2.本実施形態及び作用効果]
以上、図1〜図5を参照して説明したように、本実施形態に係るスマートフォン100の制御方法は、第1言語LG1の音声パターンPTと、操作指示QPとが対応付けて記憶された操作記憶部121を有するスマートフォン100の制御方法であって、第2言語LG2で入力された音声を第1言語LG1の音声に翻訳する翻訳ステップと、第1言語LG1の音声が音声パターンPTと一致するか否かを判定する判定ステップと、第1言語LG1の音声が音声パターンPTと一致すると判定された場合に、操作指示QPを実行する実行ステップと、を含む、スマートフォン100の制御方法である。
よって、第2言語LG2で入力された音声を第1言語LG1の音声に翻訳し、第1言語LG1の音声が音声パターンPTと一致するか否かを判定するため、第2言語LG2に対応する音声パターンを準備する必要がない。したがって、複数言語の音声認識をするための開発の工数を低減できる。
また、操作記憶部121は、操作指示QPに対応付けて、複数の音声パターンPTが記憶され、判定ステップにおいて、第1言語LG1の音声が複数の音声パターンPTのいずれか1つと一致するか否かを判定し、実行ステップにおいて、第1言語LG1の音声が複数の音声パターンPTのいずれか1つと一致すると判定された場合に、操作指示QPを実行する。
よって、第1言語LG1の音声が複数の音声パターンPTのいずれか1つと一致するか否かを判定するため、第1言語LG1の音声が複数の音声パターンPTのいずれとも一致しない頻度を低減できる。したがって、操作指示QPを実行する頻度を増大できる。その結果、ユーザーの利便性を向上できる。
また、音声パターンPTに含まれる特定音声が予め選定されており、翻訳ステップにおいて、特定音声が他の音声と比較して第1言語LG1の音声に翻訳され易いように、第2言語LG2で入力された音声を第1言語LG1の音声に翻訳する。
よって、音声パターンPTに含まれる特定音声が他の音声と比較して第1言語LG1の音声に翻訳され易いように、第2言語LG2で入力された音声を第1言語LG1の音声に翻訳するため、翻訳された第1言語LG1の音声に特定音声が含まれる頻度を増大できる。したがって、第1言語LG1の音声が音声パターンPTと一致する頻度を増大できる。その結果、操作指示QPを実行する頻度を増大でき、ユーザーの利便性を向上できる。
また、第2言語LG2で入力された音声を、第2言語LG2の音声テキスト(=第2音声テキストTXB)に変換する変換ステップを更に含み、翻訳ステップにおいて、第2言語LG2の音声テキスト(=第2音声テキストTXB)を第1言語LG1の音声テキスト(=第1音声テキストTXA)に翻訳し、判定ステップにおいて、第1言語LG1の音声テキスト(=第1音声テキストTXA)と、音声パターンPTとが一致するか否かを判定する。
したがって、第2言語LG2の音声テキスト(=第2音声テキストTXB)を第1言語LG1の音声テキスト(=第1音声テキストTXA)に翻訳するため、翻訳の精度を向上できる。
また、第2言語LG2は、第1言語LG1と相違する複数の言語を示す。
したがって、第2言語LG2が第1言語LG1と相違する複数の言語であるため、複数言語の音声認識をするための開発の工数を低減できる。
また、スマートフォン100は、プロジェクター200と通信可能に接続され、操作指示QPは、プロジェクター200に対する操作指示QPを示す。
したがって、プロジェクター200に対する操作指示QPを出力する音声認識装置を開発する工数を低減できる。
また、スマートフォン100は、プロジェクター200の一部を構成し、操作指示QPは、プロジェクター200に対する操作指示を示す。
したがって、音声認識機能を備えるプロジェクター200を開発する工数を低減できる。
また、本実施形態に係る第1言語LG1の音声パターンと、操作指示とが対応付けて記憶された操作記憶部121と、第2言語LG2で入力された音声を前記第1言語LG1の音声に翻訳する翻訳部112と、第1言語LG1の音声が音声パターンPTと一致するか否かを判定する判定部113と、第1言語LG1の音声が音声パターンPTと一致すると判定された場合に、操作指示QPを実行する実行部114と、を備える、スマートフォン100である。
よって、第2言語LG2で入力された音声を第1言語LG1の音声に翻訳し、第1言語LG1の音声が音声パターンPTと一致するか否かを判定するため、第2言語LG2に対応する音声パターンを準備する必要がない。したがって、複数言語の音声認識をするための開発の工数を低減できる。
また、本実施形態に係るスマートフォン100の制御プログラムは、第1言語LG1の音声パターンPTと、操作指示QPとが対応付けて記憶された操作記憶部121と、第1制御部110とを備えるスマートフォン100の制御プログラムであって、第1制御部110を、第1制御部110を第2言語LG2で入力された音声を第1言語LG1の音声に翻訳する翻訳部112、第1言語LG1の音声が音声パターンPTと一致するか否かを判定する判定部113、及び、第1言語LG1の音声が音声パターンPTと一致すると判定された場合に、操作指示QPを実行する実行部114、として機能させる、制御プログラムである。
よって、第2言語LG2で入力された音声を第1言語LG1の音声に翻訳し、第1言語LG1の音声が音声パターンPTと一致するか否かを判定するため、第2言語LG2に対応する音声パターンを準備する必要がない。したがって、複数言語の音声認識をするための開発の工数を低減できる。
[3.他の実施形態]
上述した本実施形態は、好適な実施の形態である。ただし、上述の実施形態に限定されるものではなく、要旨を逸脱しない範囲内において種々の変形実施が可能である。
本実施形態では、「音声認識装置」が、スマートフォン100で構成されるが、本発明の実施形態はこれに限定されない。「音声認識装置」が、タブレット端末やパーソナルコンピューター、PDA(Personal Digital Assistant)等で構成されてもよい。
本実施形態では、「電子機器」がプロジェクター200であるが、本発明の実施形態はこれに限定されない。「電子機器」がスマートフォン100からの操作指示QPに基づいて、処理を実行する機器であればよい。「電子機器」が、例えば、DVDプレイヤーでもよい。また、「電子機器」が、例えば、ナビゲーション装置でもよい。
本実施形態では、スマートフォン100の第1制御部110が操作記憶部121を備えるが、本発明の実施形態はこれに限定されない。操作記憶部121が、ネットワークを介して通信可能に接続されたサーバー装置に配置されてもよい。この場合には、第1制御部110がサーバー装置の操作記憶部121から必要な情報を取得すればよい。また、操作記憶部121が、CD、DVD等の記憶媒体に形成されてもよい。この場合には、第1制御部110が記憶媒体から必要な情報を読み出せばよい。
また、本実施形態では、スマートフォン100がプロジェクター200とUSBケーブルで通信可能に接続される場合について説明するが、本発明の実施形態はこれに限定されない。スマートフォン100がプロジェクター200と通信可能に接続されればよい。スマートフォン100が、例えばWi−Fi(登録商標)等の無線通信で、プロジェクター200と通信可能に接続されてもよい。
また、図1及び図2に示した各機能部は機能的構成を示すものであって、具体的な実装形態は特に制限されない。つまり、必ずしも各機能部に個別に対応するハードウェアが実装される必要はなく、一つのプロセッサーがプログラムを実行することで複数の機能部の機能を実現する構成とすることも勿論可能である。また、上記実施形態においてソフトウェアで実現される機能の一部をハードウェアで実現してもよく、或いは、ハードウェアで実現される機能の一部をソフトウェアで実現してもよい。その他、スマートフォン100の他の各部の具体的な細部構成についても、趣旨を逸脱しない範囲で任意に変更可能である。
また、図5に示すフローチャートの処理単位は、スマートフォン100の第1制御部110の処理を理解容易にするために、主な処理内容に応じて分割したものである。図5の各々のフローチャートに示す処理単位の分割の仕方や名称によって制限されることはなく、処理内容に応じて、さらに多くの処理単位に分割することもできるし、1つの処理単位がさらに多くの処理を含むように分割することもできる。また、上記のフローチャートの処理順序も、図示した例に限られるものではない。
また、スマートフォン100の制御方法は、スマートフォン100が備える第1プロセッサー110Aに、スマートフォン100の制御方法に対応した第1制御プログラムを実行させることで実現できる。また、この第1制御プログラムは、コンピューターで読み取り可能に記録した記録媒体に記録しておくことも可能である。記録媒体としては、磁気的、光学的記録媒体又は半導体メモリーデバイスを用いることができる。具体的には、フレキシブルディスク、HDD、CD−ROM(Compact Disk Read Only Memory)、DVD、Blu−ray(登録商標) Disc、光磁気ディスク、フラッシュメモリー、カード型記録媒体等の可搬型、或いは固定式の記録媒体が挙げられる。また、記録媒体は、画像処理装置が備える内部記憶装置であるRAM、ROM、HDD等の不揮発性記憶装置であってもよい。また、スマートフォン100の制御方法に対応した第1制御プログラムをサーバー装置等に記憶させておき、サーバー装置からスマートフォン100に、第1制御プログラムをダウンロードすることでスマートフォン100の制御方法を実現することもできる。
1…画像投射システム、100…スマートフォン(音声認識装置)、110…第1制御部、110A…第1プロセッサー、110B…第1メモリー、111…変換部、112…翻訳部、113…判定部、114…実行部、121…操作記憶部(記憶部)、130…第1表示部、131…ディスプレイ、132…タッチサンサー、150…マイクロフォン、160…スピーカー、170…USBインターフェース部、200…プロジェクター(電子機器)、210…投射部、211…光源部、212…光変調装置、213…投射光学系、215…液晶パネル、220…駆動部、221…光源駆動部、222…光変調装置駆動部、231…第2操作部、235…入力インターフェース、241…画像インターフェース、245…画像処理部、250…第2制御部、251…第2メモリー、253…第2プロセッサー、LG1…第1言語、LG2…第2言語、PL…画像光、PT…音声パターン、PT1…第1音声パターン、PT2…第2音声パターン、PTN…第N音声パターン、QP…操作指示、QP1…第1操作指示、QP2…第2操作指示、QPN…第N操作指示、SC…スクリーン、SV…音声信号、TX…音声テキスト、TXA…第1音声テキスト、TXB…第2音声テキスト、TXP…特定音声テキスト。

Claims (9)

  1. 第1言語の音声パターンと、操作指示とが対応付けて記憶された記憶部を有する音声認識装置の制御方法であって、
    第2言語で入力された音声を前記第1言語の音声に翻訳する翻訳ステップと、
    前記第1言語の音声が前記音声パターンと一致するか否かを判定する判定ステップと、
    前記第1言語の音声が前記音声パターンと一致すると判定された場合に、前記操作指示を実行する実行ステップと、
    を含む、音声認識装置の制御方法。
  2. 前記記憶部は、前記操作指示に対応付けて、複数の前記音声パターンが記憶され、
    前記判定ステップにおいて、前記第1言語の音声が前記複数の音声パターンのいずれか1つと一致するか否かを判定し、
    前記実行ステップにおいて、前記第1言語の音声が前記複数の音声パターンのいずれか1つと一致すると判定された場合に、前記操作指示を実行する、請求項1に記載の音声認識装置の制御方法。
  3. 前記音声パターンに含まれる特定音声が予め選定されており、
    前記翻訳ステップにおいて、前記特定音声が他の音声と比較して前記第1言語の音声に翻訳され易いように、前記第2言語で入力された音声を前記第1言語の音声に翻訳する、請求項1又は請求項2に記載の音声認識装置の制御方法。
  4. 前記第2言語で入力された音声を、前記第2言語の音声テキストに変換する変換ステップを更に含み、
    前記翻訳ステップにおいて、前記第2言語の音声テキストを前記第1言語の音声テキストに翻訳し、
    前記判定ステップにおいて、前記第1言語の音声テキストと、前記音声パターンとが一致するか否かを判定する、請求項1から請求項3のいずれか1項に記載の音声認識装置の制御方法。
  5. 前記第2言語は、前記第1言語と相違する複数の言語を示す、請求項1から請求項4のいずれか1項に記載の音声認識装置の制御方法。
  6. 前記音声認識装置は、電子機器と通信可能に接続され、
    前記操作指示は、前記電子機器に対する操作指示を示す、請求項1から請求項5のいずれか1項に記載の音声認識装置の制御方法。
  7. 前記音声認識装置は、電子機器の一部を構成し、
    前記操作指示は、前記電子機器に対する操作指示を示す、請求項1から請求項5のいずれか1項に記載の音声認識装置の制御方法。
  8. 第1言語の音声パターンと、操作指示とが対応付けて記憶された記憶部と、
    第2言語で入力された音声を前記第1言語の音声に翻訳する翻訳部と、
    前記第1言語の音声が前記音声パターンと一致するか否かを判定する判定部と、
    前記第1言語の音声が前記音声パターンと一致すると判定された場合に、前記操作指示を実行する実行部と、
    を備える、音声認識装置。
  9. 第1言語の音声パターンと、操作指示とが対応付けて記憶された記憶部と、制御部とを備える音声認識装置の制御プログラムであって、
    前記制御部を、
    第2言語で入力された音声を前記第1言語の音声に翻訳する翻訳部、
    前記第1言語の音声が前記音声パターンと一致するか否かを判定する判定部、及び、
    前記第1言語の音声が前記音声パターンと一致すると判定された場合に、前記操作指示を実行する実行部、
    として機能させる、制御プログラム。
JP2019212092A 2019-11-25 2019-11-25 音声認識装置の制御方法、音声認識装置、及び音声認識装置の制御プログラム Pending JP2021085897A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019212092A JP2021085897A (ja) 2019-11-25 2019-11-25 音声認識装置の制御方法、音声認識装置、及び音声認識装置の制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019212092A JP2021085897A (ja) 2019-11-25 2019-11-25 音声認識装置の制御方法、音声認識装置、及び音声認識装置の制御プログラム

Publications (1)

Publication Number Publication Date
JP2021085897A true JP2021085897A (ja) 2021-06-03

Family

ID=76087418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019212092A Pending JP2021085897A (ja) 2019-11-25 2019-11-25 音声認識装置の制御方法、音声認識装置、及び音声認識装置の制御プログラム

Country Status (1)

Country Link
JP (1) JP2021085897A (ja)

Similar Documents

Publication Publication Date Title
JP7103387B2 (ja) 画像投射システムの調整要否判定方法、画像投射システム、及び画像投射制御装置
US11277594B2 (en) Control method for image projection system and image projection system
US10289374B2 (en) Display system, display apparatus, control apparatus, and control method
JP2019015834A (ja) 表示装置および表示装置の制御方法
US11694348B2 (en) Control method for image projection system and image projection system
JP2007178534A (ja) 投影装置、投影方法及びプログラム
JP2021085897A (ja) 音声認識装置の制御方法、音声認識装置、及び音声認識装置の制御プログラム
JP6598534B2 (ja) 投影装置及び投影方法
CN114584753B (zh) 投射方法和投影仪
JP7200978B2 (ja) 画像投射システムの調整要否判定方法、画像投射システム、及び画像投射制御装置
JP2022097983A (ja) プロジェクター、及びプロジェクターの制御方法
JP2023077506A (ja) 表示システム、及び表示システムの制御方法
US11770509B2 (en) Method for controlling projector, projector, and display system
JP2021105642A (ja) 表示システムの制御方法、及び表示システム
JP7491147B2 (ja) 表示システムの制御方法、表示システム、及び、表示装置の制御方法
US11908355B2 (en) Projection method and projector
JP2023132497A (ja) 表示装置の制御方法、及び表示装置
US20230274674A1 (en) Control method for projector and projector
JP2018116347A (ja) 電子機器、電子システム、電子機器の制御方法及びプログラム
JP2017199211A (ja) 画像供給装置、画像供給装置の制御方法、及び、プログラム
JP2022069829A (ja) 表示方法、及び表示システム
JP2024067478A (ja) プロジェクターの制御方法、プロジェクター、及びプログラム
JP2024082023A (ja) 補正値の決定方法、プログラム、及び画像投射システム
JP2021110836A (ja) 表示装置、およびプログラム
JP2022143190A (ja) 電子機器、投影装置及びプログラム

Legal Events

Date Code Title Description
RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20200811

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20210916

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20211102