JP2010230852A - コマンド認識装置 - Google Patents
コマンド認識装置 Download PDFInfo
- Publication number
- JP2010230852A JP2010230852A JP2009076789A JP2009076789A JP2010230852A JP 2010230852 A JP2010230852 A JP 2010230852A JP 2009076789 A JP2009076789 A JP 2009076789A JP 2009076789 A JP2009076789 A JP 2009076789A JP 2010230852 A JP2010230852 A JP 2010230852A
- Authority
- JP
- Japan
- Prior art keywords
- command
- dummy
- phoneme
- phoneme string
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】撮影装置1の制御部11は、入力されたコマンド音節に含まれる音素に対応する音素を音素辞書から選択して、音素の列で構成されたコマンド音素列を生成する。また、制御部11は、生成したコマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成する。制御部11は、マイクロホン15によって収音された音声を表す音声信号を解析し、解析結果とコマンド音素列との類似度及び解析結果とダミーコマンド音素列との類似度に応じて、コマンドの認識処理を実行する。
【選択図】図1
Description
しかしながら、登録した発話内容によって閾値は異なり、また周囲の騒音によりその基準も変わるため、様々なユーザの発話に対して期待した動作をさせるようなプリセットの閾値を事前に設定することは困難である。
しかしながら、この方法では、P(W|X)は絶対的な確率値ではないために、辞書に含まれていない単語であるかどうかは判定することができない。
図1は、この発明の一実施形態である撮影装置1のハードウェア構成の一例を示すブロック図である。撮影装置1は、静止画像や動画像を撮影する機能を備えた装置であり、例えばデジタルカメラである。図1において、制御部11は、CPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)を備え、ROM又は記憶部12に記憶されているコンピュータプログラムを読み出して実行することにより、バスBUSを介して撮影装置1の各部を制御する。記憶部12は、制御部11によって実行されるコンピュータプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部13は、液晶パネル等を備え、制御部11による制御の下に各種の画像を表示する。操作部14は、撮影装置1の利用者による操作に応じた信号を制御部11に出力する。操作部14は、十字キー(図示略)や、録音を開始・終了させるためのボタン(図示略)、静止画像の撮影及び動画像の撮影を開始・終了させるためのボタン(図示略)等の各種のボタンを備えており、撮影装置1の利用者は、これらのボタンを押下することで、録音や撮影等を行うことができる。なお、静止画の撮影と動画像の撮影との切替は、撮影装置1に設けられた切替スイッチ(図示略)によって切り替えられるようになっている。撮影部18は、撮影用レンズ等を備え、撮影し、撮影した映像を表す映像データを出力する。なお、本実施形態に係る映像データは、静止画像を表すデータや動画像を表すデータを含む。
P(Wi|X)=P(Wi)P(X|Wi)/ΣjP(X|Wj) …(1)
(i)コマンドに含まれる母音のそれぞれをa,i,u,e,oのいずれかに置き換える。
(ii)ただし置き換える母音の個数は2個以上、4個以下とする。
(iii)ただしもとのコマンドとの違いが1音素だけの場合には追加しない。
(iv)子音を取り除いたダミーコマンド音素列を生成する。
<B−1:コマンド登録動作>
次に、撮影装置1の動作について説明する。まず、コマンドの登録動作について説明する。まず、ユーザは、操作部14を操作してコマンドを登録するための操作を行う。より具体的には、ユーザは、操作部14を操作してコマンドの文字列を表すテキストデータを入力する。制御部11は、操作部14からの信号に応じて、入力されたテキストデータ(コマンド音節)を取得する。すなわち、制御部11には、1又は複数の音節に対応する表記で構成されたコマンド音節が入力される。制御部11は、入力されたコマンド音節に対応する音素を音素辞書記憶領域124に記憶された音素辞書を参照して選択し、音素の列で構成されたコマンド音素列を生成する。制御部11は、生成したコマンド音素列をコマンド音素列テーブルTBL1記憶領域122に記憶する。
次に、撮影装置1がコマンドを認識する動作について説明する。制御部11は、音声が入力されるまで待機し、音声が入力されると、入力された音声を解析し、解析結果とコマンド音素列との類似度及び解析結果とダミーコマンド音素列との類似度に応じて、コマンドが入力されたか否かを判定する。コマンドが入力されたと判定された場合には、制御部11は、入力されたコマンドに対応する処理を実行する。具体的には、例えば、「はいチーズ」という音声コマンドが入力された場合には、制御部11は、入力された音声コマンドに応じて、静止画像を撮影する処理を実行する。また、例えば、「フラッシュ」という音声コマンドが入力された場合には、制御部11は、入力された音声コマンドに応じて、フラッシュを点灯(又は消灯)する処理を実行する。
以上説明したように本実施形態によれば、音声を用いたコマンドコントロールシステムにおいて、登録されたコマンドの音素列に類似するダミーコマンドを生成し、生成したダミーコマンドを用いてコマンド認識処理を実行することにより、コマンドと関係のない音声による誤動作を軽減する。このように、認識させたいコマンドの音声に適度に似せた音声をダミーとしてコマンドリストに登録しておくことにより、本来のコマンド以外の音声が入力されたときにコマンドとして認識されないようにし、誤動作を軽減ことができる。
また、本実施形態によれば、大語彙の辞書を用いる手法に対して、メモリの消費量を少なくすることができるとともに、CPUの負荷も軽減することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
(1)上述の実施形態では、本発明に係るコマンド認識装置をデジタルカメラ等の撮影装置に適用した例について説明したが、本発明に係るコマンド認識装置が適用される装置はデジタルカメラに限らず、例えば、パーソナルコンピュータ、携帯電話端末、コンピュータゲーム機等であってもよく、本発明に係るコマンド認識装置は様々な装置に適用可能である。また、本発明に係るコマンド認識装置が、撮影装置等の他の装置に外部接続される構成であってもよい。この場合は、コマンド認識装置が認識したコマンドを、外部I/Fを介して他の装置に通知するようにすればよい。
Claims (3)
- 1又は複数の音節に対応する表記で構成されたコマンド音節の音節と音素とを対応付けて記憶する記憶手段と、
入力されたコマンド音節に含まれる音節に対応する音素を前記記憶手段から選択して、音素の列で構成されたコマンド音素列を生成するコマンド音素列生成手段と、
前記コマンド音素列生成手段によって生成されたコマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成するダミーコマンド音素列生成手段と、
音声信号が入力される音声信号入力手段と、
前記音声信号入力手段に入力された音声信号を解析し、解析結果と前記コマンド音素列との類似度及び該解析結果と前記ダミーコマンド音素列との類似度に応じて、コマンドの認識処理を行うコマンド認識手段と
を具備することを特徴とするコマンド認識装置。 - 前記ダミーコマンド生成手段は、前記コマンド音素列に含まれる母音を予め定められた母音に置き換えたものをダミーコマンド音素列として生成する
ことを特徴とする請求項1に記載のコマンド認識装置。 - 前記ダミーコマンド生成手段は、前記コマンド音素列に含まれる母音を予め定められた母音に置き換えた場合に、該コマンド音素列との音素の差分が1音素のみである場合にはその音素列をダミーコマンド音素列として生成しない
ことを特徴とする請求項2に記載のコマンド認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009076789A JP5476760B2 (ja) | 2009-03-26 | 2009-03-26 | コマンド認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009076789A JP5476760B2 (ja) | 2009-03-26 | 2009-03-26 | コマンド認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010230852A true JP2010230852A (ja) | 2010-10-14 |
JP5476760B2 JP5476760B2 (ja) | 2014-04-23 |
Family
ID=43046758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009076789A Expired - Fee Related JP5476760B2 (ja) | 2009-03-26 | 2009-03-26 | コマンド認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5476760B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2018173293A1 (ja) * | 2017-03-24 | 2019-11-07 | ヤマハ株式会社 | 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法 |
WO2021177049A1 (ja) * | 2020-03-02 | 2021-09-10 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09244691A (ja) * | 1996-03-07 | 1997-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 入力音声リジェクト方法およびこの方法を実施する装置 |
JP2001147698A (ja) * | 1999-11-22 | 2001-05-29 | Hitachi Ltd | 音声認識用疑似単語生成方法及び音声認識装置 |
JP2005092310A (ja) * | 2003-09-12 | 2005-04-07 | Kddi Corp | 音声キーワード認識装置 |
JP2005292346A (ja) * | 2004-03-31 | 2005-10-20 | Nec Corp | 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム |
JP2006154658A (ja) * | 2004-12-01 | 2006-06-15 | Nec Corp | 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット |
-
2009
- 2009-03-26 JP JP2009076789A patent/JP5476760B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09244691A (ja) * | 1996-03-07 | 1997-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 入力音声リジェクト方法およびこの方法を実施する装置 |
JP2001147698A (ja) * | 1999-11-22 | 2001-05-29 | Hitachi Ltd | 音声認識用疑似単語生成方法及び音声認識装置 |
JP2005092310A (ja) * | 2003-09-12 | 2005-04-07 | Kddi Corp | 音声キーワード認識装置 |
JP2005292346A (ja) * | 2004-03-31 | 2005-10-20 | Nec Corp | 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム |
JP2006154658A (ja) * | 2004-12-01 | 2006-06-15 | Nec Corp | 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2018173293A1 (ja) * | 2017-03-24 | 2019-11-07 | ヤマハ株式会社 | 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法 |
US11302318B2 (en) | 2017-03-24 | 2022-04-12 | Yamaha Corporation | Speech terminal, speech command generation system, and control method for a speech command generation system |
WO2021177049A1 (ja) * | 2020-03-02 | 2021-09-10 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
JP2021139935A (ja) * | 2020-03-02 | 2021-09-16 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5476760B2 (ja) | 2014-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11496582B2 (en) | Generation of automated message responses | |
US11810548B2 (en) | Speech translation method and system using multilingual text-to-speech synthesis model | |
US10347244B2 (en) | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response | |
US9640175B2 (en) | Pronunciation learning from user correction | |
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
KR100742888B1 (ko) | 음성 인식 방법 | |
CN110706714B (zh) | 说话者模型制作系统 | |
Aggarwal et al. | Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I) | |
JP2001215993A (ja) | 対話処理装置および対話処理方法、並びに記録媒体 | |
JP2017513047A (ja) | 音声認識における発音予測 | |
JP4729902B2 (ja) | 音声対話システム | |
JP2010020102A (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP2018013549A (ja) | 発話内容認識装置 | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
JP2001188779A (ja) | 情報処理装置および方法、並びに記録媒体 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP2010197644A (ja) | 音声認識システム | |
Manjunath et al. | Development of phonetic engine for Indian languages: Bengali and Oriya | |
JP5476760B2 (ja) | コマンド認識装置 | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
Manjunath et al. | Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali | |
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
JP2017198790A (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
JP2011039468A (ja) | 電子辞書で音声認識を用いた単語探索装置及びその方法 | |
JP2002372988A (ja) | 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130308 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130723 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131017 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5476760 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |