JP2005004032A - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP2005004032A
JP2005004032A JP2003168943A JP2003168943A JP2005004032A JP 2005004032 A JP2005004032 A JP 2005004032A JP 2003168943 A JP2003168943 A JP 2003168943A JP 2003168943 A JP2003168943 A JP 2003168943A JP 2005004032 A JP2005004032 A JP 2005004032A
Authority
JP
Japan
Prior art keywords
item
voice
utterance
speech recognition
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003168943A
Other languages
English (en)
Inventor
Tomofumi Toda
倫史 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003168943A priority Critical patent/JP2005004032A/ja
Publication of JP2005004032A publication Critical patent/JP2005004032A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】認識率を向上し、利用者にストレスを感じさせることなく、画面に表示された所望の項目が選択できるような音声認識装置及び音声認識方法を提供する。
【解決手段】発声対象表示部11は、選択するための1つの項目に対して関連付けされた複数の発声対象を表示デバイス20の画面20a上に表示し、音声認識部12により利用者が発声した声に応じた音声データを取り込んで音声認識した結果が、複数の発声対象のいずれかに対応していた場合に、判定部13はその発声対象が関連付けられている項目が選択されたと判定する。これにより、1つの項目を選択するために、利用者は表示された複数の発声対象のいずれかを音声認識部12にて認識可能なように発声すればよい。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置及び音声認識方法に関し、特に、表示デバイスの画面上に表示された項目を、利用者による声で選択させる音声認識装置及び音声認識方法に係わるものである。
【0002】
【従来の技術】
従来、テレビジョン受像機(以下TVと呼ぶ)やエアコンディショナー(以下エアコンと呼ぶ)、などの家庭電化製品(以下家電製品と呼ぶ)の高機能化に伴って、操作が複雑化してきており、利用者が使いづらいものとなってしまうことが少なくなかった。
【0003】
そこで近年では、シンプルな機能のものや、リモートコントローラ(以下リモコンと呼ぶ)のボタンも大きなものにして、高齢者や子供にも使いやすいものが出てきている。
【0004】
さらに最近では、音声認識システムを搭載することによって、リモコンなどを使わずに、手足の不自由な人でも声で操作できるような家電製品も登場してきている。
【0005】
例えば、エアコンを利用者の声により操作するような、音声操作システムが開示されている(特許文献1参照)。
また、利用者の声により、録画予約を行えるようなTVも近年登場している。
【0006】
図4は、従来の録画予約の際に表示される音声入力用のメニュー画面の例である。
図では、利用者の声により、所望のジャンルを指定して録画予約する際の表示例を示している。
【0007】
画面50には、録画予約する番組に関する項目が、“邦画”、“洋画”、“ニュース”など複数表示される。利用者は、選択したい項目の名称そのもの(例えば、“邦画”、“洋画”など)を発声することによって番組を選択することができる。また、利用者は、“邦画”を選択する際、「ほうが」と発声しても「にほんえいが」と発声してもよく、図示はしていないが、例えば“1CH(チャンネル)”を選択する際、「イチ」と発声してもよいなど、似通ったものを前もって複数登録しておき、誤って選択されても、目的の言葉に置き換える処理を施している場合もあった。
【0008】
【特許文献1】
特開2002−169584号公報(第1図)
【0009】
【発明が解決しようとする課題】
しかし、画面を表示させて、利用者の声で項目を選択するような場合に、発声すべきデータが長すぎたり、短すぎたり、似通ったものがあるような場合に選択を誤ってしまうという問題があった。
【0010】
また、利用者のイントネーションやその他の要因で、正確に認識できない場合があるという問題があった。
上記のような要因で、所望の選択項目が選ばれなかった場合に、利用者は正しいものが選択されるまで発声し直さなければならず、ストレスを感じることがあった。
【0011】
さらには、似通った言葉を数多く登録しておく必要があり、大きなメモリ量が必要であるという問題があった。
本発明はこのような点に鑑みてなされたものであり、認識率を向上し、利用者にストレスを感じさせることなく、所望の項目が選択可能な音声認識装置及び音声認識方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明では上記課題を解決するために、表示デバイスの画面上に表示された項目を、利用者による声で選択させる音声認識装置において、1つの前記項目に対して関連付けされた複数の発声対象を、前記画面上に表示する発声対象表示部と、前記声に応じた音声データを取り込んで音声認識する音声認識部と、音声認識の結果、前記音声データが前記発声対象のいずれかに対応していれば、前記項目が選択されたと判定する判定部と、を有することを特徴とする音声認識装置が提供される。
【0013】
上記の構成によれば、発声対象表示部は、選択するための項目1つに対して関連付けされた複数の発声対象を表示デバイスの画面上に表示し、音声認識部により利用者の声に応じた音声データを取り込んで音声認識した結果が、複数の発声対象のいずれかに対応していた場合に、判定部はその発声対象が関連付けられている項目が選択されたと判定する。これにより、1つの項目を選択するために、利用者は表示された複数の発声対象のいずれかを音声認識部にて認識可能なように発声すればよい。
【0014】
【発明の実施の形態】
以下本発明の実施の形態を図面を参照して説明する。
図1は、本発明の実施の形態の音声認識装置の機能ブロック図である。
【0015】
音声認識装置10は、表示デバイス20の画面20a上に表示された項目を、利用者による声で選択させるものであり、発声対象表示部11と、音声認識部12と、判定部13とからなる。
【0016】
発声対象表示部11は、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどの表示デバイス20の画面20a上に、利用者による発声により選択させるための複数の項目を表示する。例えば、図1の画面20aはテレビジョン放送などの番組の録画予約の際に表示される画面の一例であるが、選択させたい項目21a(邦画)、22a(洋画)、23a(ドラマ)が表示されている。
【0017】
さらに、本発明の実施の形態の音声認識装置10における発声対象表示部11では、選択対象の項目と関連付けされた複数の発声対象を画面20a上に表示する。なお、ここで発声対象とは、選択対象の項目名のほか、色や形状、項目名とは別の言葉などがある。例えば、図1のように、項目21aについては、項目名“邦画”のほかに、アイコン21bを表示する。アイコン21bにおいて、発声対象となるのは、アイコン21bの形状である“まる”、項目名とは別の言葉である、“りんご”などである。このように、1つの項目21aに対し複数の発声対象を表示させる。さらに、画面20aの例では項目22aについて、項目名“洋画”のほかに、アイコン22bを表示して、発声対象として、アイコン22bの形状である“さんかく”、項目名とは別の言葉である“ゆず”を表示させている。また、項目23aについて、項目名“ドラマ”のほかに、アイコン23bを表示して、発声対象として、アイコン23bの形状である“しかく”、項目名とは別の言葉である“あんず”を表示させている。
【0018】
また、発声対象は色でもよく、各項目を色付けすることによって画面20a上で表示する。
音声認識部12は、利用者による発声でマイクなどの音声入力装置12aにより電気信号に変換された音声データを取り込み、言葉に変換する機能を持つ。認識の際には、利用者により発声され入力された音声データは、例えば、ROM(Read Only Memory)に格納された音響モデルや、音声データに対応した言葉が記述されている認識辞書などを用いて言葉に変換される。
【0019】
判定部13は、音声認識部12で認識された言葉が、選択対象の項目と関連付けされた前述したような発声対象のいずれかに対応しているか否かを判定し、対応していれば選択対象の項目が選択されたと判定する機能を有する。また、判定された項目が選択された旨の信号(図1ではこの信号を“判定結果”としている)を、その項目が示す機能を実行するための実行手段(図示せず)へ送信する。またその信号を発声対象表示部11に送り、その項目が選択された旨を表示デバイス20の画面20aに表示させてもよい。
【0020】
実行手段は様々なものがあるが、例えば、図1のような画面20aで録画予約が可能なTV(またはビデオテープレコーダなどの記録装置)の録画予約を制御する制御部などである。
【0021】
また、このような制御部に上記の判定部13の機能を持たせるようにしてもよい。
なお、音声認識装置10は、例えば、1つまたは複数のCPU(Central Processing Unit)、ROMまたはフラッシュメモリ、RAM(Random Access Memory)などによって実現される。ここで、CPUはROMまたはフラッシュメモリなどに格納されているプログラムを、一時RAMに展開して実行し各部を制御する。また、前述したそれぞれの機能ブロックは、それぞれ独立してこれらのハードウェアを持つようなIC(Integrated Circuit)チップであってもよい。
【0022】
以下、本発明の実施の形態の音声認識装置10における、音声認識処理の流れを、フローチャートを用いて説明する。
図2は、音声認識処理の流れを説明するフローチャートである。
【0023】
処理が開始すると、例えば、図1で示したように、TV番組の録画予約の場合のような選択すべき項目21a、22a、23aを複数表示した画面20aにおいて、発声対象表示部11は、選択対象の1つの項目に対して関連付けされた複数の発声対象を画面20a上に表示する(ステップS1)。
【0024】
次に、音声認識部12では、音声入力装置12aにより、利用者の声が入力されたか否かを判断する。ここで、入力された場合には、ステップS3の処理に進み、入力されない場合には待機してステップS2の処理を繰り返す(ステップS2)。
【0025】
利用者の発声により音声データが入力されると、音声認識部12では、音声データを、例えば、ROMに格納された音響モデルや、音声データに対応した言葉が記述されている認識辞書などを用いて言葉に変換する。変換された言葉は判定部13に送られる(ステップS3)。
【0026】
判定部13は、画面に表示されている発声対象と入力された音声データ(ステップS3の処理により言葉として認識されている)とを比較して、発声対象のいずれかに、入力された音声データが対応するか否かを判定する。
【0027】
ここで、対応していると判定された場合には、その発声対象が関連付けられている選択対象の項目が選択されたと判定し、その選択対象の項目が選択された旨の信号を出力する。対応していない場合には、選択対象の項目が選択されていないと判定する(ステップS4)。
【0028】
判定処理が終了すると、選択対象の項目の選択処理が完了したか否かを判断する。ここで、選択が完了したと判断された場合には処理を終了し、選択が未だ完了していないと判断された場合には、ステップS1からの処理を繰り返す(ステップS5)。
【0029】
上記の処理により、図1のような画面において、録画予約を行うような場合、選択対象の項目21aの“邦画”を録画予約したい場合は、「ほうが」と発声して選択する以外に、「りんご」と発声しても、「まる」と発声しても、音声認識処理(ステップS3)でいずれかが正確に認識されれば、“邦画”が選択されることになり、録画予約を行うことができる。
【0030】
また、同様に、選択対象の項目22aの“洋画”を録画予約する場合は、「ようが」、「ゆず」、「さんかく」のいずれかが発声され、正確に認識されれば、“洋画”が選択されることになり、選択対象の項目23aの“ドラマ”を録画予約したい場合は、「ドラマ」、「あんず」、「しかく」のいずれかが発声され、正確に認識されれば、“ドラマ”が選択されることになり、録画予約を行うことができる。
【0031】
このように、1つの選択対象の項目に対し、複数の発声対象を表示し、これを利用者に発声させることで、従来のように、“洋画”を選択する場合は「ようが」、“邦画”を選択する場合は「ほうが」などと似通った発声となる場合に生じる認識間違いを防止することができる。
【0032】
また、従来のように、近似する言葉を数多く登録しておく必要が少なくなるので、CPUパワーやメモリ量を節約することが可能になる。
なお、発声対象は利用者の所望により発声対象を設定可能にすることにより、音声認識による操作を、より利用者がなじみやすいものとすることができる。
【0033】
図3は、利用者により発声対象を設定する発声対象設定部を有した音声認識装置の機能ブロック図である。
音声認識装置10aにおいて、発声対象設定部14以外は、図1の構成と同じであるので説明を省略する。
【0034】
発声対象設定部14は、利用者(もしくは発声対象の作成者)が処理選択に使用を希望する“記号”、“図形”、“色”、“任意の言葉”などの発声対象をGUI(Graphical User Interface)操作などによって予め登録することを可能にする処理を担当する。
【0035】
利用者(もしくは作成者)が選択した発声対象は、判定部13に通知され、実際に割り当てられた操作処理に関連付けされる。さらに発声対象表示部11に通知され、アイコンなど、表示する情報に変換される。
【0036】
例えば、上記では選択対象の項目とは異なる言葉として、果物の名前を用いた場合について説明しているが、花の名前でもよく、利用者が区別しやすいもの(または発声しやすいもの)を発声対象として設定できるようにすることで、利用者の負担やわずらわしさを軽減させることができる。
【0037】
なお、上記では、録画予約の場合の選択画面において、本発明の音声認識方法を適用した場合について説明したが、これ以外にも画面上に選択項目を表示して選択させるような各種場面にて適用することが可能である。例えば、カーナビゲーション装置や、PDA(Personal Digital Assistant)、パーソナルコンピュータ、その他、エアコンや種々の家電製品にも適用できる。
【0038】
【発明の効果】
以上説明したように本発明では、1つの選択対象の項目に対し関連付けされた複数の発声対象を表示し、これを利用者に発声させ、発声対象のいずれかに対応していれば、その発声対象に関連付けられた項目が選択されたと判定するので、認識率が向上し、利用者はストレスを感じることなく、所望の項目を選択することができるようになる。
【図面の簡単な説明】
【図1】本発明の実施の形態の音声認識装置の機能ブロック図である。
【図2】音声認識処理の流れを説明するフローチャートである。
【図3】利用者により発声対象を設定する発声対象設定部を有した音声認識装置の機能ブロック図である。
【図4】従来の録画予約の際に表示される音声入力用のメニュー画面の例である。
【符号の説明】
10……音声認識装置、11…発声対象表示部、12……音声認識部、12a……音声入力装置、13……判定部、20……表示デバイス、20a……画面、21a,22a,23a……項目、21b,22b,23b……アイコン

Claims (6)

  1. 表示デバイスの画面上に表示された項目を、利用者による声で選択させる音声認識装置において、
    1つの前記項目に対して関連付けされた複数の発声対象を、前記画面上に表示する発声対象表示部と、
    前記声に応じた音声データを取り込んで音声認識する音声認識部と、
    音声認識の結果、前記音声データが前記発声対象のいずれかに対応していれば、前記項目が選択されたと判定する判定部と、
    を有することを特徴とする音声認識装置。
  2. 前記発声対象は前記項目と関連付けされた形状であることを特徴とする請求項1記載の音声認識装置。
  3. 前記発声対象は前記項目と関連付けされた、前記項目の項目名とは異なる言葉であることを特徴とする請求項1記載の音声認識装置。
  4. 前記発声対象は前記項目と関連付けされた色であることを特徴とする請求項1記載の音声認識装置。
  5. 利用者の所望に応じて前記発声対象を設定する発声対象設定部をさらに有することを特徴とする請求項1記載の音声認識装置。
  6. 表示デバイスの画面上に表示された項目を、利用者による声で選択させる音声認識方法において、
    1つの前記項目に対して関連付けされた複数の発声対象を、前記画面上に表示し、
    前記声に応じた音声データを取り込んで音声認識し、
    音声認識の結果、前記音声データが前記発声対象のいずれかに対応していれば、前記項目が選択されたと判定する、
    ことを特徴とする音声認識方法。
JP2003168943A 2003-06-13 2003-06-13 音声認識装置及び音声認識方法 Pending JP2005004032A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003168943A JP2005004032A (ja) 2003-06-13 2003-06-13 音声認識装置及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003168943A JP2005004032A (ja) 2003-06-13 2003-06-13 音声認識装置及び音声認識方法

Publications (1)

Publication Number Publication Date
JP2005004032A true JP2005004032A (ja) 2005-01-06

Family

ID=34094228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003168943A Pending JP2005004032A (ja) 2003-06-13 2003-06-13 音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP2005004032A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037030A (ja) * 2011-08-03 2013-02-21 Casio Comput Co Ltd エミュレータ装置およびプログラム
WO2019035427A1 (ja) * 2017-08-14 2019-02-21 住友建機株式会社 ショベル、及び、ショベルと協働する支援装置
WO2019203016A1 (ja) * 2018-04-19 2019-10-24 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
US11205429B2 (en) 2019-04-01 2021-12-21 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05313691A (ja) * 1992-05-08 1993-11-26 Sony Corp 音声処理装置
JP3038261B2 (ja) * 1991-11-06 2000-05-08 三菱電機株式会社 音声入力機能選択装置
JP2002159740A (ja) * 2000-11-29 2002-06-04 Taito Corp 音声指令によるビデオゲーム装置の制御方法
JP2002169584A (ja) * 2000-11-29 2002-06-14 Denso Corp 音声操作システム
JP2002278587A (ja) * 2001-03-14 2002-09-27 Fujitsu Ltd 音声認識入力装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3038261B2 (ja) * 1991-11-06 2000-05-08 三菱電機株式会社 音声入力機能選択装置
JPH05313691A (ja) * 1992-05-08 1993-11-26 Sony Corp 音声処理装置
JP2002159740A (ja) * 2000-11-29 2002-06-04 Taito Corp 音声指令によるビデオゲーム装置の制御方法
JP2002169584A (ja) * 2000-11-29 2002-06-14 Denso Corp 音声操作システム
JP2002278587A (ja) * 2001-03-14 2002-09-27 Fujitsu Ltd 音声認識入力装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037030A (ja) * 2011-08-03 2013-02-21 Casio Comput Co Ltd エミュレータ装置およびプログラム
WO2019035427A1 (ja) * 2017-08-14 2019-02-21 住友建機株式会社 ショベル、及び、ショベルと協働する支援装置
KR20200040695A (ko) * 2017-08-14 2020-04-20 스미토모 겐키 가부시키가이샤 쇼벨, 및 쇼벨과 협동하는 지원장치
JPWO2019035427A1 (ja) * 2017-08-14 2020-11-19 住友建機株式会社 ショベル、及び、ショベルと協働する支援装置
US11566401B2 (en) 2017-08-14 2023-01-31 Sumitomo Construction Machinery Co., Ltd. Shovel and assist device to work together with shovel
KR102559166B1 (ko) 2017-08-14 2023-07-24 스미토모 겐키 가부시키가이샤 쇼벨, 및 쇼벨과 협동하는 지원장치
JP7344117B2 (ja) 2017-08-14 2023-09-13 住友建機株式会社 ショベル、及び、ショベルと協働する支援装置
WO2019203016A1 (ja) * 2018-04-19 2019-10-24 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
US11205429B2 (en) 2019-04-01 2021-12-21 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Similar Documents

Publication Publication Date Title
US7908146B2 (en) Digital television receiver controlled by speech recognition
EP2674941B1 (en) Terminal apparatus and control method thereof
US20190221200A1 (en) Assisted Media Presentation
US20150194167A1 (en) Display apparatus which operates in response to voice commands and control method thereof
KR20150087025A (ko) 전자 장치 및 이의 음성 인식 방법
EP2728890A2 (en) Broadcast receiving apparatus, server and control methods thereof
JP2001325052A (ja) エージェント表示装置、エージェント表示方法およびエージェント表示プログラムを記録した記録媒体
US20220046310A1 (en) Information processing device, information processing method, and computer program
KR20150054490A (ko) 음성인식 시스템, 음성인식 서버 및 디스플레이 장치의 제어방법
JP2007324866A (ja) 電子機器及びテレビ受像機
EP3573054A1 (en) Electronic apparatus, controlling method and computer readable medium
US20030191629A1 (en) Interface apparatus and task control method for assisting in the operation of a device using recognition technology
JP2005086768A (ja) 制御装置、制御方法およびプログラム
JPWO2017175442A1 (ja) 情報処理装置、および情報処理方法
CN109564758B (zh) 电子设备及其语音识别方法
JP2005004032A (ja) 音声認識装置及び音声認識方法
JP2007503747A (ja) リアルタイムのメディア辞書
EP4184309A1 (en) Display device
KR102656611B1 (ko) 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법
WO2020017165A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
KR20140026220A (ko) 단말 장치 및 단말 장치의 제어 방법
KR102494051B1 (ko) 전자 장치 및 이의 음성 인식 방법
JP2019071061A (ja) 映像表示装置
JP7229906B2 (ja) コマンド制御装置、制御方法および制御プログラム
CN113228170B (zh) 信息处理装置及非易失性存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090623

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091027