JP2008051882A - 音声情報処理装置及びその制御方法 - Google Patents

音声情報処理装置及びその制御方法 Download PDF

Info

Publication number
JP2008051882A
JP2008051882A JP2006225530A JP2006225530A JP2008051882A JP 2008051882 A JP2008051882 A JP 2008051882A JP 2006225530 A JP2006225530 A JP 2006225530A JP 2006225530 A JP2006225530 A JP 2006225530A JP 2008051882 A JP2008051882 A JP 2008051882A
Authority
JP
Japan
Prior art keywords
voice
microphone
remote control
information processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006225530A
Other languages
English (en)
Inventor
Yasuo Okuya
泰夫 奥谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2006225530A priority Critical patent/JP2008051882A/ja
Publication of JP2008051882A publication Critical patent/JP2008051882A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

【課題】 音声の取込みを自動的に開始することができる遠隔制御装置において、遠隔制御装置を口に近づけるという動作を精度よく検知することが困難であるという問題がある。
【解決手段】 上記の目的を達成するための本発明による音声処理装置は、集音部がリモコンのボタン操作面以外に配置されたマイクと、マイクの配置面が上になったことを検知する検知手段と、検知手段の出力に基づき音声の取込みを開始する音声入力手段とを備える。
【選択図】 図1

Description

本発明は、音声入力可能な音声情報処理装置に関する。
音声認識の入力である音声の取り込みは、通常Push-to-Talkボタンが押されたことを検知した後に開始されることが一般的である。これを利用者であるユーザ側から見ると、ユーザは音声認識を開始するためにボタンを押すという動作を強いられることを意味する。
このような負担をユーザにかけないための発明として特許文献1と特許文献2がある。
特許文献1および特許文献2はいずれも角度センサを内蔵し、ユーザがリモートコントロール装置や携帯型機器を口に近づける動作を検知することによって、自動的に音声入力を開始するという機能を有する。
さらに、特許文献1ではリモートコントロール装置を口に近づける動作を検知する制度を向上させるために、ユーザごとに角度調整ができるように配慮している。一方、特許文献2では、さらに圧力センサを内蔵することにより、ユーザが右手で携帯型機器を持っているのか左手で持っているのかを検知することによって、携帯型機器を口に近づける動作を検知する精度の向上を図っている。
特開2003-308095号公報 特開2004-294945号公報
しかしながら、特許文献1および特許文献2の精度向上手段の存在からも明らかなように、機器を口に近づけるという動作を検知すること自体が困難であるという問題があった。
本発明は上記の課題に鑑みてなされたものであり、ユーザにかかる負担が少なくかつ容易に検知可能な動作を検知することにより、音声の取込みを自動的に開始することができる遠隔制御装置を提供する。
上記の目的を達成するための本発明に係る音声情報処理装置は、集音部が音声情報処理装置ボタン操作面以外に配置されたマイクと、マイクの配置面が上になったことを検知する検知手段と、検知手段の出力に基づき音声の取込みを開始する音声入力手段とを備える。
本発明によれば、ユーザが音声入力可能なリモコン等の音声情報処理装置を手に取りマイクを口に近づける動作の過程で必然的に音声情報処理装置を裏返すことになり、マイクの配置面が上になることを精度よく検出することが可能になる。
以下、添付の図面を参照して本発明の好適な実施形態のいくつかについて詳細に説明する。
〈第1実施形態〉
図1は、第1実施形態における遠隔制御装置の内部構成を示すブロック図である。
図1において、101はボタン操作入力部であり、遠隔制御装置の表面(ボタン操作面)に設置された操作ボタンの押下による入力を受理する。102は表示部であり、LCDなどのディスプレイで構成され、各種情報を表示する。103は無線通信部であり、遠隔制御装置の操作対象である機器に対して各種操作命令を赤外線などの無線を用いて通信する。104はRAMであり、書き換え可能な半導体メモリ素子などから構成され、遠隔制御装置の動作に用いる各種データや制御用プログラムなどを記憶する。105は制御部であり、CPUやMPUなどから構成される制御演算処理装置である。制御部105は、遠隔制御装置の各構成部の動作および各構成部間のデータ転送を制御する。106はROMであり、読み出し専用の半導体メモリ素子などから構成され、制御部105の動作用プログラムや、制御データ等の固定データを記憶する。107は状態検知部であり、角度センサや加速度センサなどで構成され、遠隔制御装置の状態を検知する。108は音声入力部であり、マイクを介して音声信号を受信する。109は音声認識部であり、入力された音声を音声認識する。
図2は、第1実施形態における遠隔制御装置の音声処理の流れを示すフローチャートである。
ステップS201では、状態検知部107が遠隔制御装置の状態を監視しており、マイク配置面が上になったかどうかを監視する。マイク配置面が上になった場合はステップS202に移り、上になっていない場合はステップS201に留まる。
ステップS202では、音声入力部108がマイクを介して入力される音声信号を取込み、制御部105を介してRAM104に保持し、ステップS203に移る。
ステップS203では、状態検知部107がマイク配置面が上でなくなったかどうかを監視する。マイク配置面が上でなくなった場合はステップS204に移る。マイク配置面が上のままであれば、ステップS202に戻る。
ステップS204では、音声認識部109がRAM104に保持されている入力音声を音声認識し、制御部105を介して認識結果をRAM104に保持してステップS205に移る。
ステップS205では、制御部105がRAM104に保持されている認識結果を基に操作対象である機器に送信する内容(操作命令)を決定し、ステップS206に移る。
ステップS206では、無線送信部103が操作対象である機器に送信内容を送信して、終了する。
図3は、第1実施形態における遠隔制御装置の外観を示した外観図である。
301は赤外線送信部であり、図1における無線通信部103に相当する。302は操作ボタンであり、通常は遠隔制御装置の表面に配置される。303はマイクであり、図3ではボタン操作面(表面)の裏面に配置されている。
図4は、第1実施形態における遠隔制御装置を使ってユーザが音声入力を行うまでの一連の動作を図示したものである。
(1)では、遠隔制御装置はボタン操作面が上になった状態で置かれており、ユーザは手のひらがボタン操作面に接するように遠隔制御装置をつかもうとしている。
(2)では、前腕を回転させながらひじを曲げるという無理のない動作で、つかんだ遠隔制御装置を口元に近づける。
(3)では、口元に近づいたときには必然的に遠隔制御装置が裏返り、マイク配置面が上になった状態で口元とマイクが正対している。
このようにマイクをボタン操作面(通常は表面)とは異なる面に配置することにより、遠隔制御装置を口元に近づけるという動作を無理なく行え、かつ、必然的に遠隔制御装置が裏返る(つまり、マイク配置面が上になる)ため状態の検知が精度よく行える。
〈その他の実施形態〉
第1実施形態では、音声認識処理を専用のハードウエアで実現する場合について説明したが、これに限定されるものではなく、ソフトウェアで実現する場合も
よいものとする。例えば、制御部105およびRAM104、ROM105を利用して、音声認識処理を行ってもよいものとする。
第1の実施形態では、音声認識処理を遠隔制御装置で行う場合について説明したが、これに限定されるものではなく、いわゆるクライアント・サーバ型の音声認識方式を導入してもよいものとする。例えば、音声認識処理を行える機器(以下、音声認識装置)が別に存在すると仮定し、遠隔制御装置は入力音声をそのまま無線通信部103を介して音声認識装置に送信することも可能である。また、別の方法としては、入力音声から音響特徴量を抽出するところまでを遠隔制御装置で行い、抽出した音響特徴量を音声認識装置に送信することも可能である。
第1の実施形態では、状態検知部107として角度センサや加速度センサを用いる場合について説明したが、これに限定されるものではなく、圧力センサや上下の検知ができる部品であれば何をりようしてもよい。このように簡単な構成で状態検知部を実現することができるのは、マイクを表面以外の面に配置したことによる大きな利点であるといえる。
第1の実施形態では、ボタン操作面(表面)の裏側にマイクを配置する場合について説明したが、これに限定されるものではなく、表面以外の面、例えば、側面などにマイクを配置する場合もよいものとする。この場合、状態検知部で行う状態検知は、ボタン操作面が上になっているか、マイク配置面が上になっているかを検知する必要がある。ボタン操作面とマイク配置面の角度は直角なので、第1の実施形態よりは検知が難しくなるが、先行技術で検知しなければいけない条件に比べれば容易であると言える。
第1実施形態では、音声の取込み終了(ステップS203)の判定を状態検知部107がマイク配置面が上でなくなったことを検知したかどうかにより行う場合について説明したが、本発明はこれに限定されるものではない。音声入力部108に入力される音声信号自体が微弱になったことを検知して音声の取り込みを終了する場合もよいものとする。さらに言うまでもないことであるが、状態検知と音声信号の強度とを組み合わせて音声の取込み終了を判定してもよいものである。
第1の実施形態では、マイク配置面が上になったことを検知することで音声取り込みを開始する場合について説明したが、これに限定されるものではない。遠隔制御装置を口元に近づける一連の動作(図4)を加速度センサなどでさらに検知して、マイク配置面の状態と組み合わせることにより、音声入力開始の誤動作を抑止することも可能である。
第1の実施形態では、音声の取り込みが終了した後に音声認識が実行される場合について説明したが、これに限定されるものではなく、音声の取込みが開始された直後に音声認識が並行して実行される場合もよいものである。
第1の実施形態では、取り込んだ音声に対して音声認識を行う場合について説明したが、これに限定されるものではなく、音声メモのように取り込んだ音声を保存するだけの場合やそれ以外のいかなる処理を行う場合もよいものである。
なお、本発明の目的は次のようにしても達成される。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行する。このようにしても目的が達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、本発明に係る実施の形態は、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、本発明に係る実施形態の機能は次のようにしても実現される。即ち、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。そして、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行う。この処理により前述した実施形態の機能が実現されることは言うまでもない。
第1実施形態における遠隔制御装置の内部構成を示すブロック図である。 第1実施形態における遠隔制御装置の処理の流れを示すフローチャートである。 第1実施形態における遠隔制御装置の外観を示す外観図である。 第1実施形態における遠隔制御装置をユーザが口元に近づける一連の動作を示す模式図である。
符号の説明
101 ボタン操作入力部
102 表示部
103 無線通信部
104 RAM
105 制御部
106 ROM
107 状態検知部
108 音声入力部
109 音声認識部
301 赤外線送信部
302 操作ボタン
303 マイク

Claims (5)

  1. 音声情報処理装置であって、
    集音部が音声情報処理装置のボタン操作面以外に配置されたマイクと、
    マイクの配置面が上になったことを検知する検知手段と、
    検知手段の出力に基づき音声の取込みを開始する音声入力手段と、
    を備えることを特徴とする遠隔制御装置。
  2. マイクの配置面が上以外になったことを検知する第二の検知手段と、
    第二の検知手段の出力に基づき音声の取込みを終了する音声入力手段と、
    更に備えることを特徴とする音声情報処理装置。
  3. 集音部が音声情報処理装置のボタン操作面以外に配置されたマイクを備える音声情報処理装置を制御する制御方法であって、
    マイクの配置面が上になったことを検知する検知工程と、
    検知工程の出力に基づき音声の取込みを開始する音声入力工程と、
    を備える制御方法。
  4. マイクの配置面が上以外になったことを検知する第二の検知工程と、
    第二の検知工程の出力に基づき音声の取込みを終了する音声入力工程と、
    更に備える制御方法。
  5. 請求項3乃至請求項4記載の制御方法を実現するプログラム。
JP2006225530A 2006-08-22 2006-08-22 音声情報処理装置及びその制御方法 Withdrawn JP2008051882A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006225530A JP2008051882A (ja) 2006-08-22 2006-08-22 音声情報処理装置及びその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006225530A JP2008051882A (ja) 2006-08-22 2006-08-22 音声情報処理装置及びその制御方法

Publications (1)

Publication Number Publication Date
JP2008051882A true JP2008051882A (ja) 2008-03-06

Family

ID=39236020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006225530A Withdrawn JP2008051882A (ja) 2006-08-22 2006-08-22 音声情報処理装置及びその制御方法

Country Status (1)

Country Link
JP (1) JP2008051882A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129684A (ja) * 2006-11-17 2008-06-05 Hitachi Ltd 電子機器およびそれを用いたシステム
US20110301950A1 (en) * 2009-03-18 2011-12-08 Kabushiki Kaisha Toshiba Speech input device, speech recognition system and speech recognition method
JP2016029466A (ja) * 2014-07-16 2016-03-03 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声認識テキスト化システムの制御方法および携帯端末の制御方法
JP2016218881A (ja) * 2015-05-25 2016-12-22 大日本印刷株式会社 電子図書館システム
WO2020189410A1 (ja) * 2019-03-15 2020-09-24 優 坂西 音声認識装置
JP2020154281A (ja) * 2019-03-15 2020-09-24 優 坂西 音声認識装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129684A (ja) * 2006-11-17 2008-06-05 Hitachi Ltd 電子機器およびそれを用いたシステム
US20110301950A1 (en) * 2009-03-18 2011-12-08 Kabushiki Kaisha Toshiba Speech input device, speech recognition system and speech recognition method
US8862466B2 (en) * 2009-03-18 2014-10-14 Kabushiki Kaisha Toshiba Speech input device, speech recognition system and speech recognition method
JP2016029466A (ja) * 2014-07-16 2016-03-03 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声認識テキスト化システムの制御方法および携帯端末の制御方法
JP2016218881A (ja) * 2015-05-25 2016-12-22 大日本印刷株式会社 電子図書館システム
WO2020189410A1 (ja) * 2019-03-15 2020-09-24 優 坂西 音声認識装置
JP2020154281A (ja) * 2019-03-15 2020-09-24 優 坂西 音声認識装置
JP7432177B2 (ja) 2019-03-15 2024-02-16 優 坂西 音声認識装置

Similar Documents

Publication Publication Date Title
CN110557566B (zh) 视频拍摄方法及电子设备
EP2680110B1 (en) Method and apparatus for processing multiple inputs
CN111010510B (zh) 一种拍摄控制方法、装置及电子设备
US9961439B2 (en) Recording apparatus, and control method of recording apparatus
US8013890B2 (en) Image processing apparatus and image processing method for recognizing an object with color
US20110005367A1 (en) Device and method to display fingerboard of mobile virtual guitar
JP2008051882A (ja) 音声情報処理装置及びその制御方法
US20160247520A1 (en) Electronic apparatus, method, and program
US20190318169A1 (en) Method for Generating Video Thumbnail on Electronic Device, and Electronic Device
CN107870674B (zh) 一种程序启动方法和移动终端
EP1349046A3 (en) Automatic information input program
TW201643681A (zh) 應用功能啟動方法及裝置
US12108123B2 (en) Method for editing image on basis of gesture recognition, and electronic device supporting same
EP3540565A1 (en) Control method for translation device, translation device, and program
CN108124059B (zh) 一种录音方法及移动终端
EP1591884A3 (en) Information processing apparatus, information processing method, and program
CN107430856A (zh) 信息处理系统和信息处理方法
JP2009515260A5 (ja)
JP2005258924A5 (ja)
US20140297257A1 (en) Motion sensor-based portable automatic interpretation apparatus and control method thereof
JP2007004660A (ja) 機器
JP7056020B2 (ja) 情報処理装置およびプログラム
KR20180036032A (ko) 영상처리장치 및 기록매체
JP6427802B2 (ja) 電子機器
TW201409351A (zh) 利用語音控制的電子裝置及其語音控制方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20091110