JP2014137430A

JP2014137430A - 電子機器及び掃除機

Info

Publication number: JP2014137430A
Application number: JP2013005065A
Authority: JP
Inventors: Kazunori Yasuda; 一則安田; Asami Yatake; 麻美箭竹; Kazuhiro Miki; 一浩三木
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-01-16
Filing date: 2013-01-16
Publication date: 2014-07-28
Also published as: CN104871239B; KR101707359B1; KR20150086339A; EP2947651A1; WO2014112226A1; EP2947651A4; CN104871239A; EP2947651B1; US20150332675A1

Abstract

【課題】ユーザの発した音声を音声認識する際に、ユーザに対して適切に聞き返しを行うことが可能な電子機器等を提供する。
【解決手段】入力された音声を音声データに変換する音声入力手段と、音声データを解析することで、該音声データに含まれる単語又は文章を特定すると共に、該特定された単語又は文章の確信度を算出する音声認識手段と、確信度に基づいて、ユーザに対する聞き返しの要否を決定する反応決定手段と、聞き返しを行う聞き返し手段とを備え、反応決定手段は、第２の閾値以上で第１の閾値未満の場合に聞き返しを行う決定をし、確信度が第２の閾値未満の場合に聞き返しを行わない決定をする。
【選択図】図４

Description

本発明は、電子機器等に係り、特に音声認識手段を備えた電子機器等に関する。

従来より、電子機器に対して各種動作の指示入力を行うユーザ・インターフェースとして、操作ボタンやリモコン等が用いられている。また、近年、ユーザが発した音声によって指示入力を行う為の音声認識手段を備えた電子機器が開発されている。

ここで、音声認識手段を利用した指示入力を行う場合、ユーザが発した音声を電子機器が誤認識する可能性がある。そして、電子機器がユーザの発した音声を誤認識した場合、電子機器は、誤認識した結果に基づいて各種動作を行うこととなり、誤動作のおそれがある。そこで、音声認識手段を備える電子機器の誤認識を防止する技術が開発されている。例えば、特許文献１には、音声を上手く認識できなかった場合、音声を発したユーザに聞き返しを行う音声認識装置が記載されている。

図１０は、特許文献１に記載の音声認識装置３０１が備えるコントローラ３０２の主な構成を示すブロック図である。音声認識装置３０１は、音声が入力されるマイクロホン３０３、音声認識した単語の確信度を算出する確信度算出部３０４、確信度算出部３０４が算出した単語の確信度に基づいて対話者が話しかけた文章を特定する文章特定部３０５、及び特定された文章に含まれる単語の確信度に基づいて、対話者への聞き返しの要否を判断する第１聞き返し判定部３０６を備えている。そして、第１聞き返し判定部３０６は、単語の確信度が所定の閾値以上の場合、聞き返しは不要と判断すると共に、単語の確信度が所定の閾値に満たない場合、ユーザに対してもっとはっきりと話すことを促す旨の聞き返しが必要と判断する。

特開２００８−５２１７８号公報（平成２０年３月６日公開）

しかしながら、特許文献１に記載の音声認識装置３０１では、単語の確信度が所定の閾値に満たないと必ず何らかの聞き返しを行うものであるため、音声認識装置３０１が騒がしい場所で利用された場合には、ユーザが実際には音声を発していないのに、ユーザの発した音声以外の騒音に対しても音声認識装置３０１が聞き返しを行うことが考えられる。そして、その場合には、無駄な聞き返しをユーザが煩わしく感じることがあり、ひいては、音声認識機能に対するユーザの信頼性を損ねるおそれがあった。

本願発明は、上記の事情に鑑みてなされたものであり、その目的は、ユーザの発した音声を音声認識する際に、ユーザに対して適切に聞き返しを行うことが可能な電子機器等を提供することにある。

本発明に係る電子機器は、入力された音声を音声データに変換する音声入力手段と、音声データを解析することで、該音声データに含まれる単語又は文章を特定すると共に、該特定された単語又は文章の確信度を算出する音声認識手段と、確信度に基づいて、ユーザに対する聞き返しの要否を決定する反応決定手段と、聞き返しを行う聞き返し手段とを備え、反応決定手段は、確信度が第２の閾値以上で第１の閾値未満の場合に聞き返しを行う決定をし、確信度が第２の閾値未満の場合に聞き返しを行わない決定をする。

本発明によれば、ユーザの発した音声を音声認識する際に、ユーザに対して適切に聞き返しを行うことが可能な電子機器等を提供することができる。

本発明の実施形態１に係る電子機器１の斜視図である。本発明の実施形態１に係る電子機器１の底面図である。本発明の実施形態１に係る電子機器１の主な構成を示すブロック図である。本発明の実施形態１に係る電子機器１が行う音声認識の処理の流れを示すフローチャートである。本発明の実施形態１に係る電子機器１が行う聞き返しの具体例を示す模式図である。本発明の実施形態２に係る電子機器１が行う音声認識の処理の流れを示すフローチャートである。本発明の実施形態２に係る電子機器１が行う聞き返しの具体例を示す模式図である。本発明の実施形態３に係る電子機器１ａ及び外部装置２００の主な構成を示すブロック図である。本発明の実施形態３に係る電子機器１ａが行う音声認識の処理の流れを示すフローチャートである。特許文献１に記載の音声認識装置３０１が備えるコントローラ３０２の主な構成を示すブロック図である。

［実施形態１］
本発明の実施形態１に係る電子機器１について、以下に説明する。

電子機器１は、走行部及び送風部を備え、該走行部によって床面を自走すると共に、該送風部によって発生する気流で床面の塵埃を吸引して掃除を行う掃除機である。

また、電子機器１は、音声認識部を備えており、ユーザの発した音声を音声認識して、該音声に含まれる指示に基づいて各種反応を行う。例えば、ユーザの発した音声に「掃除して」が含まれている場合、電子機器１は、走行部及び送風部を制御することで所定の掃除動作を行う。

また、電子機器１は、音声認識に際して、ユーザに対する聞き返しが必要と判断した場合、聞き返しを行う。ここで、聞き返しとは、ユーザに対して再度音声を発することを促すものである。聞き返しは、例えば、音声及び／又は動作によって行われる。

電子機器１の具体的な構造について、図面を参照して以下に説明する。
（電子機器１の構造）
図１は、電子機器１の斜視図である。ここで、電子機器１が自走して掃除を行う際の進行方向を前方とし、図１に矢印で示す。また、進行方向と逆方向を後方とする。

電子機器１は、平面視で円形の筐体２を備えている。筐体２の上面２ａには、塵埃が除去された空気が排気される排気口２ｂ及び電子機器１に対して指示入力を行うパネル操作部４が設けられている。

パネル操作部４は、電子機器１に対して各種の指示入力を行う操作部及び各種情報を表示する表示部を備えている。操作部には複数の操作ボタンが設けられている。ユーザは、操作部を介した指示入力及び音声認識による指示入力を併用することができる。

また、筐体２の上面２ａの前方側には、充電台からの帰還信号を受信する帰還信号受信部５が設けられている。そして、電子機器１は、例えば床面の掃除が終了したと判断した場合に、該帰還信号を帰還信号受信部５を介して受信することで自律的に充電台に帰還することができるように構成されている。

筐体２の側面２ｃは、前後方向に二分割されている。側面２ｃの前方部は、筐体２のその他の部分に対して前後方向に摺動可能に構成されており、電子機器１が障害物に衝突したときの緩衝部材として機能する。

また、筐体２の側面２ｃには、音声出力部３１が設けられている。音声出力部３１は、例えば音声又は音楽等の音を出力するものである。音声出力部３１は、例えばスピーカ等から構成されている。音声出力部３１は、本発明に係る聞き返し手段の一例である。電子機器１の底面には、サイドブラシ３４ｂが筐体２からはみ出すように設けられている。サイドブラシ３４ｂについては、後で詳述する。

図２は、電子機器１の底面図である。図２においても、電子機器１が自走して掃除を行う際の進行方向を矢印で示している。筐体２の底面２ｄには、床面の塵埃を吸い込む為の吸込み口２ｅが凹接されている。また、筐体２の底面２ｄには、走行部３２、掃除ブラシ部３４、前輪６ａ及び後輪６ｂが設けられている。

走行部３２は、電子機器１を走行させる部分である。走行部３２は、例えば底面２ｄから突出するように設けられた駆動輪、及び該駆動輪を駆動するモータ等から構成される。なお、図２においては、走行部３２の内、底面２ｄから突出した駆動輪の一部を示している。走行部３２は、本発明に係る走行手段の一例である。

掃除ブラシ部３４は、床面を掃いて掃除する部分である。掃除ブラシ部３４は、例えば床面を掃くブラシ及びブラシを駆動するモータ等からなる。例えば、ブラシとしては、吸込み口２ｅに設けられ、床面と平行に軸支された回転軸で回転する回転ブラシ３４ａ、及び底面２ｄの斜め前方の両側に筐体２からはみ出すように設けられ、床面と垂直に軸支された回転軸で回転するサイドブラシ３４ｂを用いることができる。

前輪６ａ及び後輪６ｂは、走行部３２の走行に従動する従動輪である。

次に、電子機器１の構成について説明する。なお、図１又は２において説明した構成については、同じ符号を付して説明を省略する。
（電子機器１の構成）
図３は、電子機器１の主な構成を示すブロック図である。電子機器１は、音声入力部３及び送風部３３を備えている。

音声入力部３は、音声が入力されると共に、入力された音声をデジタル変換して、音声データを生成する部分である。音声入力部３は、例えばマイクロフォン等及びアナログ／デジタル変換装置等から構成される。マイクロフォンとしては、所定の方向から到来する音声を、特に感度良く集音する指向性マイクロフォンを用いてもよく、音声が到来する方向に関係なく一定の感度で音声を集音する無指向性のマイクロフォンを用いてもよい。音声入力部３は、例えば筐体２の上面２ａの裏側に設けることができる。

送風部３３は、塵埃を吸引する為の気流を発生させるものである。発生した気流は、吸込み口２ｅから図示しない集塵部に導かれ、集塵部によって塵埃が分離された後、排気口２ｂから電子機器１の機外に排出される。

電子機器１は、記憶部２０をさらに備えている。以下において記憶部２０について詳細に説明する。
（記憶部２０の構成）
記憶部２０は、後述する制御部１０が実行する各種プログラム、各種プログラムを実行する際に使用及び作成される各種データ並びに電子機器１に入力される各種データ等などを記憶するものである。記憶部２０は、例えば、ＲＯＭ（Read Only Memory）、フラッシュメモリ又はＨＤＤ（Hard Disk Drive）等の不揮発性記憶装置及び作業領域を構成するＲＡＭ（Random Access Memory）等の揮発性記憶装置から構成されている。

記憶部２０は、音響特徴記憶部２１、辞書記憶部２２及び文法記憶部２３を備えている。

音響特徴記憶部２１は、音声認識する音声の音響的な特徴を示す音響特徴を記憶している部分である。音響特徴の種類は、適宜選択することができる。音響特徴は、例えば、音声波形又は音声のパワーの周波数スペクトル等である。後で詳述するが、音声認識部１１は、音声入力部３で生成された音声データに含まれる音響特徴と、音響特徴記憶部２１に記憶されている音響特徴とを比較することでユーザの発した音声を音声認識する。

辞書記憶部２２は、音声認識対象の各単語及び該単語に関する音韻情報等が登録された辞書を記憶している部分である。

文法記憶部２３は、辞書記憶部２２の辞書に登録されている各単語がどのように連鎖するかを記述した文法規則を記憶している部分である。文法規則は、例えば、統計的に求められた各単語が連鎖する確率に基づくものである。

電子機器１は、制御部１０をさらに備えている。以下において制御部１０について詳細に説明する。
（制御部１０の構成）
制御部１０は、記憶部２０に記憶されたプログラム又はデータに基づいて、電子機器１の各部を統括して制御するものである。プログラムが実行されることで、制御部１０には、音声認識部１１、反応決定部１２、音声合成部１３及び動作生成部１４が構築される。

音声認識部１１は、ユーザの発した音声について音声認識を行う部分である。音声認識部１１は、音声認識の結果として、音声データに含まれる単語又は文章に関する情報、及び単語又は文章の確信度を出力する。音声認識部１１は、音声区間検出部１１１、音響特徴抽出部１１２及び音響特徴比較部１１３を備えている。ここで、単語又は文章に関する情報には、例えば、該単語又は文章の音韻情報が含まれる。

音声区間検出部１１１は、音声認識する音声の開始及び終了を検出する部分である。音声区間検出部１１１は、音声が検出されていない場合には、音声入力部３で生成された音声データのパワーが、記憶部２０に記憶されている所定の閾値以上か否かを監視する。そして、音声区間検出部１１１は、音声データのパワーが該閾値以上になった時点で音声が検出されたと判断する。また、音声区間検出部１１１は、音声データのパワーが該閾値未満になった時点で音声が終了したと判断する。

音響特徴抽出部１１２は、音声入力部３で生成された音声データについて、適当なフレームごとに音響特徴を抽出する部分である。

音響特徴比較部１１３は、音響特徴抽出部１１２が抽出した音響特徴と音響特徴記憶部２１が記憶する音響特徴とを比較して、音声データに含まれる単語又は文章を特定すると共に、該特定された単語又は文章の確信度を算出する部分である。音響特徴比較部１１３は、辞書記憶部２２に記憶された辞書及び／又は文法記憶部２３に記憶された文法規則を、必要に応じて参照することができる。音響特徴比較部１１３によって特定された単語又は文章及び該特定された単語又は文章の確信度に関する情報は、反応決定部１２に出力される。

ここで、音響特徴比較部１１３が行う処理の具体例について説明する。音響特徴比較部１１３は、音響特徴抽出部１１２が抽出したフレームごとに、音声データから抽出された音響特徴と音響特徴記憶部２１に記憶された音響特徴とを比較する。そして、音響特徴比較部１１３は、記憶部２０に記憶された候補となる単語のそれぞれについて単語の確信度を算出すると共に、単語の確信度が最も高い単語を特定する。また、音響特徴比較部１１３は、辞書記憶部２２に記憶されている辞書を参照して、特定した単語の音韻情報を取得する。

また、音響特徴抽出部１１２が複数のフレームを抽出した場合、音響特徴比較部１１３は、複数のフレームごとに決定された単語を適宜接続して文章を作成する。そして、音響特徴比較部１１３は、作成された文章ごとに文章の確信度を算出すると共に、文章の確信度が最も高い文章を特定する。ここで、音響特徴比較部１１３は、文法記憶部２３に記憶されている文法規則を参照することで、文章の確信度を算出することができる。

反応決定部１２は、音声認識部１１から入力された音声認識の結果に基づいて、電子機器１の反応を決定する部分である。具体的には、反応決定部１２は、特定された単語又は文章の確信度に基づいて、電子機器１の反応を決定する。すなわち、特定された単語又は文章の確信度が、音声認識の結果に曖昧さがない程高い場合には、反応決定部１２は、単語又は文章に対応する反応を行うことを決定する。また、音声認識された単語又は文章の確信度が、音声認識の結果に曖昧さがある程度の場合には、反応決定部１２は、聞き返しを行うことを決定する。さらに、音声認識された単語又は文章の確信度が、さらに低い場合には、反応決定部１２は、単語又は文章に対応する反応及び聞き返しのいずれも実施しないことを決定する。

音声合成部１３は、反応決定部１２によって決定された反応に対応する音声データを合成する部分である。音声合成部１３は、合成した音声データを音声出力部３１に出力する。音声合成部１３は、辞書記憶部２２に記憶された辞書及び／又は文法記憶部２３に記憶された文法規則を、必要に応じて参照することができる。

動作生成部１４は、反応決定部１２によって決定された反応に対応する動作パターンを生成する部分である。動作生成部１４は、生成した動作パターンを走行部３２、送風部３３及び／又は掃除ブラシ部３４に出力する。

次に、電子機器１が行う音声認識の処理の流れ及び効果について説明する。
（処理の流れ及び効果）
以下に示す処理は、電子機器１の制御部１０が、記憶部２０に記憶されたプログラムを実行することでなされる。

図４は、電子機器１が行う音声認識の処理の流れを示すフローチャートである。なお、図４及びそれ以降で説明するフローチャートにおいて、「ステップ」を「Ｓ」で表す。また、文中でも「Ｓ」は「ステップ」を表している。

まず、音声区間検出部１１１は、音声入力部３から入力される音声データを監視して、音声認識する音声が検出されたか否かを判断する（Ｓ１）。

音声が検出された場合（Ｓ１でＹＥＳの場合）、音響特徴抽出部１１２は、音声入力部３から入力された音声データについて、適当なフレームごとに音響的な特徴を示す音響特徴を抽出する（Ｓ２）。一方、音声が検出されていない場合（Ｓ１でＮＯの場合）、音声区間検出部１１１は、音声入力部３から入力される音声データの監視を継続する。

次に、音響特徴比較部１１３は、音響特徴抽出部１１２が抽出した音響特徴と、音響特徴記憶部２１が記憶する音響特徴とを比較して、音声データに含まれる単語又は文章を特定すると共に、該特定された単語又は文章の確信度を算出する（Ｓ３）。

音声区間検出部１１１は、音声入力部３から入力された音声データを監視して、音声認識する音声が終了したか否かを判断する（Ｓ４）。音声の終了が検出されていない場合（Ｓ４でＮＯの場合）、音声区間検出部１１１は、音声入力部３から入力される音声データの監視を継続する。なお、ここで、音声区間検出部１１１が新たな音声を検出した場合、音声認識部１１は、先に検出された音声に対して算出された確信度を反応決定部１２に出力してもよく、後に検出された音声に対して算出された確信度を反応決定部１２に出力してもよく、又は、先に検出された音声に対して算出された確信度及び後に検出された音声に対して算出された確信度を反応決定部１２に出力してもよい。

音声の終了が検出された場合（Ｓ４でＹＥＳの場合）、反応決定部１２は、音響特徴比較部１１３によって特定された単語又は文章の確信度が第１の閾値以上か否かを判断する（Ｓ５）。そして、単語又は文章の確信度が第１の閾値以上の場合、反応決定部１２は、音声認識した単語又は文章に対応する反応を行うことを決定し、音声合成部１３及び動作生成部１４を介して、該反応を行う（Ｓ６）。

音響特徴比較部１１３によって特定された単語又は文章の確信度が第１の閾値未満の場合（Ｓ５でＮＯの場合）、反応決定部１２は、単語又は文章の確信度が第２の閾値以上か否かを判断する（Ｓ７）。そして、単語又は文章の確信度が第２の閾値以上の場合（Ｓ７でＹＥＳの場合）、反応決定部１２は、聞き返しを行うことを決定し、音声合成部１３及び動作生成部１４を介して、聞き返しを行う（Ｓ８）。一方、単語又は文章の確信度が第２の閾値未満の場合（Ｓ７でＮＯの場合）、反応決定部１２は、単語又は文章に対応する反応及び聞き返しのいずれも実施しないことを決定して、処理を終了する。なお、第２の閾値は、第１の閾値よりも小さい値である。

図５は、電子機器１が行う聞き返しの具体例を示す模式図であり、（ａ）は、音声で聞き返しを行う場合、（ｂ）は、動作で聞き返しを行う場合、（ｃ）は、音声及び動作で聞き返しを行う場合を示している。

音声で聞き返しを行う場合、音声合成部１３は、例えば、「何て言った？」に対応する音声データを合成し、音声出力部３１に出力する。音声出力部３１は、入力された音声データをアナログ変換して、「何て言った？」を音声出力する。

動作で聞き返しを行う場合、動作生成部１４は、例えば、電子機器１をその場で左右に一定角度ずつ回転させる動作パターンを生成し、走行部３２を該動作パターンにて走行するように制御する。

以上のように構成される電子機器１においては、音声認識部１１によって特定された単語又は文章の確信度が第１の閾値以下であり、且つ、第２の閾値以上である場合に、電子機器１がユーザに対して聞き返しを行う。したがって、電子機器１は、単語又は文章の確信度に曖昧さがある場合には、聞き返しを行うことで誤認識を防ぐと共に、単語又は文章の確信度がさらに低い場合には、聞き返しを行わないこととすることで、無用な聞き返しを減少させることができる。

なお、本実施形態の電子機器１では、所定の範囲の確信度にて、単語又は文章が一度でも音声認識されれば、電子機器１が聞き返しを行う場合について説明したが、これだけに限定されない。例えば、電子機器１は、所定の範囲の確信度にて、単語又は文章が複数度、且つ連続して音声認識されたときに聞き返しを行うようにしてもよい。このように電子機器１を構成することによって、無用な聞き返しをさらに減少させることができる。
［実施形態２］
本発明の実施形態２に係る電子機器１について、図面を参照して説明する。本発明に係る電子機器１は、音声認識部１１が音声認識した単語又は文章の確信度に基づいて異なった聞き返しを行う点で上述の実施形態と異なる。なお、実施形態１で説明した構成要素については、実施形態１と同じ機能を有するものとし、特に記載する場合を除いて説明を省略する。

図６は、電子機器１が行う音声認識の処理の流れを示すフローチャートである。なお、実施形態１で説明したステップについては、実施形態１と同じ機能を有するものとし、特に記載する場合を除いて説明を省略する。

音声認識部１１が算出した単語又は文章の確信度が第１の閾値未満の場合（Ｓ５でＮＯの場合）、反応決定部１２は、単語又は文章の確信度が第３の閾値以上か否かを判断する（Ｓ１１）。そして、単語又は文章の確信度が第３の閾値以上の場合（Ｓ１１でＹＥＳの場合）、反応決定部１２は、第１の聞き返しを行うことを決定し、音声合成部１３及び動作生成部１４を介して、該反応を行う（Ｓ１２）。なお、第３の閾値は、第１の閾値よりも小さい値である。

音声認識部１１が算出した単語又は文章の確信度が第３の閾値未満の場合（Ｓ１１でＮＯの場合）、反応決定部１２は、単語又は文章の確信度が第４の閾値以上か否かを判断する（Ｓ１３）。そして、単語又は文章の確信度が第４の閾値以上の場合（Ｓ１３でＹＥＳの場合）、反応決定部１２は、第２の聞き返しを行うことを決定し、音声合成部１３及び動作生成部１４を介して、該反応を行う（Ｓ１４）。なお、第４の閾値は、第３の閾値よりも小さい値である。

音声認識部１１が算出した単語又は文章の確信度が第４の閾値未満の場合（Ｓ１３でＮＯの場合）、反応決定部１２は、音声認識した単語又は文章に対応する反応及び聞き返しのいずれも実施しないことを決定して、処理を終了する。

図７は、電子機器１が行う聞き返しの具体例を示す模式図であり、（ａ）は、第１の聞き返しを行う場合、（ｂ）は第２の聞き返しを行う場合を示している。

第１の聞き返しを行う場合、音声合成部１３は、例えば、「掃除してって言った？」に対応する音声データを合成し、音声出力部３１に出力する。音声合成部３１は、入力された音声データをアナログ変換して、「掃除してって言った？」を音声出力する。

本実施形態においては、第１の聞き返しの音声は、音声認識部１１にて特定された最も確信度の高い単語又は文章に基づいて音声合成される。例えば、最も確信度の高い文章が、「掃除して」である場合、反応決定部１２は、該文章に基づいて「掃除してって言った？」と聞き返しを行うことを決定する。

第２の聞き返しを行う場合、音声合成部１３は、「何て言った？」に対応する音声データを合成し、音声出力部３１に出力する。音声合成部３１は、入力された音声データをアナログ変換して、「何て言った？」を音声出力する。

以上のように構成される電子機器１においては、音声認識部１１が音声認識した単語又は文章の確信度に基づいて電子機器１が異なった聞き返しを行う。したがって、ユーザは、聞き返しの音声及び／又は動作から電子機器１がどの程度音声認識しているかを知ることができるので、例えば、再度音声で指示入力を行うか、又は、パネル操作部４等を介して指示入力をするか等を選択することができ、ユーザの利便性が向上する。
［実施形態３］
本発明の実施形態３に係る電子機器１ａについて、図面を参照して説明する。本発明に係る電子機器１ａは、外部装置２００と通信を行う通信部６を備え、外部装置２００と通信を行うことで、ユーザが発した音声の音声認識処理を、外部装置２００でも行う点で上述の実施形態のいずれとも異なる。なお、実施形態１で説明した構成要素については、実施形態１と同じ機能を有するものとし、特に記載する場合を除いて説明を省略する。
（電子機器１ａ及び外部装置２００の構成）
図８は、電子機器１ａ及び外部装置２００の主な構成を示すブロック図である。電子機器１ａは、実施形態１で説明した構成要素に加えて、通信部６をさらに備えている。なお、図８においては、実施形態１で説明した構成要素の内一部のみを示している。

通信部６は、外部装置２００との間で情報の送受信を行うものである。通信部６は、通信網３００に接続されており、通信網３００を介して、外部装置２００と接続されている。

通信網３００は、限定されるものではなく、適宜選択することができる。通信網３００は、例えば、インターネットを用いることができる。また、通信網３００は、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＷｉＦｉ（登録商標）又はＩＥＥＥ８０２．１１等の無線を用いてもよい。

反応決定部１２ａは、音声認識部１１から入力される音声認識の結果、及び後述する外部装置２００の音声認識部１１ａから受信した音声認識の結果に基づいて、電子機器１ａの反応を決定する部分である。

外部装置２００は、通信部２０６、記憶部２２０及び制御部２１０を備えている。通信部２０６は、電子機器１aとの間で情報の送受信を行うものである。通信部２０６は、通信網３００に接続されており、通信網３００を介して、電子機器１aと接続されている。

記憶部２２０は、後述する制御部２１０が実行する各種プログラム、各種プログラムを実行する際に使用及び作成される各種データ並びに外部装置２００に入力される各種データ等を記憶するものである。記憶部２２０は、例えば、ＲＯＭ、フラッシュメモリ、ＨＤＤ等の不揮発性記憶装置及び作業領域を構成するＲＡＭ等の揮発性記憶装置から構成されている。

記憶部２２０は、音響特徴記憶部２１ａ、辞書記憶部２２ａ及び文法記憶部２３ａを備えている。音響特徴記憶部２１ａは、上述した音響特徴記憶部２１と同様のデータを記憶するものである。辞書記憶部２２ａは、上述した辞書記憶部２２と同様のデータを記憶するものである。文法記憶部２３ａは、上述した文法記憶部２３と同様のデータを記憶するものである。

制御部２１０は、記憶部２２０に記憶されたプログラム又はデータに基づいて、外部装置２００の各部を統括して制御するものである。プログラムが実行されることで、制御部２１０には、音声認識部１１ａが構築される。

音声認識部１１ａは、音声区間検出部１１１ａ、音響特徴抽出部１１２ａ及び音響特徴比較部１１３ａを備えている。音声区間検出部１１１ａは、上述した音声区間検出部１１１と同様の機能を有するものである。音響特徴抽出部１１２ａは、上述した音響特徴抽出部１１２と同様の機能を有するものである。音響特徴比較部１１３ａは、上述した音響特徴比較部１１３と同様の機能を有するものである。

次に、電子機器１ａが行う音声認識の処理の流れ及び効果について説明する。
（処理の流れ及び効果）
以下に示す処理は、電子機器１ａの制御部１０が、記憶部２０に記憶されたプログラムを実行することでなされる。

図９は、電子機器１ａが行う音声認識の処理の流れを示すフローチャートである。なお、実施形態１で説明したステップについては、実施形態１と同じ機能を有するものとし、特に記載する場合を除いて説明を省略する。

音声認識部１１aが算出した単語又は文章の確信度が第１の閾値未満の場合（Ｓ５でＮＯの場合）、制御部１０は、通信部６を介して、音声入力部３から入力された音声データを外部装置２００に送信する（Ｓ２１）。

外部装置２００では、音声認識部１１ａが、図４及び図６に示すＳ２及びＳ３と同様の処理で音声認識を行うことにより、音声データに含まれる単語又は文章を特定すると共に、該特定された単語又は文章の確信度を算出する。そして、制御部２１０は、通信部２０６を介して、特定した単語又は文章に関する情報、及び該特定された単語又は文章の確信度を、電子機器１aに対して送信する。電子機器１ａは、外部装置２００から該情報を受信する（Ｓ２２）。

反応決定部１２ａは、外部装置２００から受信した単語又は文章の確信度が第１の閾値以上か否かを判断する（Ｓ２３）。そして、単語又は文章の確信度が第１の閾値以上の場合（Ｓ２３でＹＥＳの場合）、反応決定部１２ａは、音声認識した単語又は文章に対応する反応を行うことを決定し、音声合成部１３及び動作生成部１４を介して、該反応を行う（Ｓ６）。

外部装置２００から受信した単語又は文章の確信度が第１の閾値未満の場合（Ｓ２３でＮＯの場合）、反応決定部１２ａは、単語又は文章の確信度が第２の閾値以上か否かを判断する（Ｓ２４）。そして、単語又は文章の確信度が第２の閾値以上の場合（Ｓ２４でＹＥＳの場合）、反応決定部１２ａは、聞き返しを行うことを決定し、音声合成部１３及び動作生成部１４を介して、該反応を行う（Ｓ８）。一方、単語又は文章の確信度が第２の閾値未満の場合（Ｓ２４でＮＯの場合）、反応決定部１２ａは、音声認識した単語又は文章に対応する反応及び聞き返しのいずれも実施しないことを決定して、処理を終了する。

以上のように構成される電子機器１ａにおいては、電子機器１ａにて算出された単語又は文章の確信度が第１の閾値以下の場合、電子機器１ａは、外部装置２００にて算出された単語又は文章の確信度に関する情報を受信すると共に、受信した情報に基づいて、再度、単語又は文章の確信度が第１の閾値以下であるか否かを判断する。したがって、電子機器１ａは、電子機器１ａにて行った音声認識の結果に曖昧さがある場合、すぐに聞き返しを行うことなく、外部装置２００を介して再度音声認識を行うので、無用な聞き返しを減少させることができる。

なお、外部装置２００においては、記憶部２２０に記憶されている音響特徴、辞書及び／又は文法規則のデータ数を、電子機器１ａに記憶されているデータ数よりも多くすることができる。その場合には、電子機器１ａでのみ音声認識を行う場合に比べて、音声認識の精度を向上させることができる。
［その他の実施形態］
上述の実施形態においては、音声認識部１１によって特定された単語又は文章の確信度が所定の範囲に含まれる時、電子機器１がユーザに対して聞き返しを行う場合について説明したが、特定された単語又は文章の確信度が所定の範囲に含まれる時でも、所定の条件を満たす時には、電子機器１は、聞き返しを行わないように構成されてもよい。

ここで、所定の条件を満たす時とは、例えば、電子機器１が走行部３２、送風部３３及び／又は掃除ブラシ部３４を駆動している時である。電子機器１が走行部３２、送風部３３及び／又は掃除ブラシ部３４を駆動すると、該走行部３２、送風部３３及び／又は掃除ブラシ部３４によって騒音が発生することとなり、その場合には、音声認識の精度が低くなるので、無用な聞き返しを防ぐために、聞き返しを行わないことすることができる。

また、所定の条件を満たす時とは、例えば、夜間等の所定の時間帯である。夜間等の所定の時間帯においては、電子機器１が聞き返しを行わないこととすることで、ユーザが聞き返しを煩わしく感じることを防ぐことができる。

上述の実施形態においては、電子機器１は、音声認識部１１によって特定された単語又は文章の確信度と所定の第１の閾値乃至第４の閾値とを比較することで、聞き返しの要否を判断する場合について説明したが、電子機器１は、音声認識を行う条件、又は特定された単語若しくは文章の内容等に応じて第１の閾値１乃至第４の閾値を変更するように構成されてもよい。

電子機器１は、例えば、電子機器１が走行部３２、送風部３３及び／又は掃除ブラシ部３４を駆動している場合、走行部３２、送風部３３及び／又は掃除ブラシ部３４を駆動していない場合に比べて第２の閾値を低い値又は高い値とすることができる。ここで、第２の閾値を低い値とするか、高い値とするかは、電子機器１の種類又は使用環境等に応じて適宜選択すればよい。

走行部３２、送風部３３及び／又は掃除ブラシ部３４の駆動中は、第２の閾値を低い値とする場合、走行部３２、送風部３３及び／又は掃除ブラシ部３４を駆動することで騒音が発生し、該騒音によって電子機器１で算出される単語又は文章の確信度が低くなっても、ユーザに対して聞き返しを行うことができる。

走行部３２、送風部３３及び／又は掃除ブラシ部３４の駆動中は、第２の閾値を高い値とする場合、走行部３２、送風部３３及び／又は掃除ブラシ部３４を駆動することで騒音が発生し、該騒音によって音声認識の精度が低下した時には、より高い閾値にて聞き返しの要否を判断するので、無用な聞き返しを減少させることができる。

また、電子機器１は、例えば、特定された単語又は文章の内容が電子機器１の動作を伴うものである場合、動作を伴わないものである場合に比べて第１の閾値を高い値とすることができる。このように電子機器１を構成した場合、特に誤認識を防ぐ必要が高い動作を伴う音声指示に対する誤認識を防止することができる。

上述の実施形態においては、電子機器１ａが通信部６を介して、外部装置２００にて特定された単語又は文章、及び単語又は文章の確信度に関する情報を受信する場合について説明したが、それだけに限定されない。

電子機器１ａは、例えば、音声認識処理において参照される音響特徴、辞書及び／又は文法規則に関する情報を、外部装置２００から受信してもよい。このように電子機器１ａを構成した場合、電子機器１ａにて音声認識することができる単語又は文章の数を増加させることができる。

また、電子機器１ａは、例えば、音声出力部３１から出力する音声に対応する音声データを、外部装置２００から受信してもよい。このように電子機器１ａを構成した場合、ユーザは、音声出力部３１から出力する音声を変更することができる。

なお、受信する情報は、ユーザが外部装置２００によって作成してもよい。具体的には、ユーザは、例えばスマートフォン等の端末装置を介して、外部装置２００にアクセスすることで、外部装置２００に対して、例えば所望の辞書又は音声データ等の情報を作成するように指示する。外部装置２００の制御部２１０は、記憶部２２０に記憶されたプログラム又はデータに基づいて該情報を生成する。ユーザが所望の音声データを作成する場合、ユーザは自ら録音した音声データ、インターネット等を介して取得した音声データ、又は音楽ＣＤ等の音楽データ等の各種既存の音データを用いることができる。

また、作成した情報は、該情報が記憶された記録媒体を電子機器１に供給することによって電子機器１に提供してもよい。ここで、記録媒体は、特に限定されない。記録媒体は、例えば、磁気テープ等のテープ、ＨＤＤ等の磁気ディスク、ＣＤ−ＲＯＭ等の光ディスク、ＩＣカード等のカード、フラッシュＲＯＭ等の半導体メモリ又はＰＬＤ（Programmable logic device）等の論理回路等を用いることができる。

上述の実施形態においては、電子機器として、掃除機について説明したが、それだけに限定されない。電子機器は、ＴＶ若しくはＰＣ（Personal Computer）等のＡＶＣ機器又は電子調理器若しくは空気調和機等の家電機器等でもよい。

以上説明したように、電子機器は、入力された音声を音声データに変換する音声入力手段と、音声データを解析することで、該音声データに含まれる単語又は文章を特定すると共に、該特定された単語又は文章の確信度を算出する音声認識手段と、確信度に基づいて、ユーザに対する聞き返しの要否を決定する反応決定手段と、聞き返しを行う聞き返し手段とを備え、反応決定手段は、確信度が第２の閾値以上で第１の閾値未満の場合に聞き返しを行う決定をし、確信度が前記第２の閾値未満の場合に聞き返しを行わない決定をする。

このように電子機器を構成することによって、単語又は文章の確信度に曖昧さがある場合には、聞き返しを行うことで誤認識を防ぐと共に、単語又は文章の確信度がさらに低い場合には、聞き返しを行わないこととすることで、無用な聞き返しを減少させることができる。

また、反応決定手段は、前記確信度に基づいて複数の聞き返しを選択してもよい。

このように電子機器を構成することによって、ユーザは、聞き返しの音声及び／又は動作から電子機器がどの程度音声認識しているかを知ることができるので、例えば、再度音声で指示入力を行うか、又は、パネル操作部等を介して指示入力を行うかを選択することができ、ユーザの利便性が向上する。

また、電子機器は、音声データを外部装置に対して送信すると共に、該音声データに含まれる単語又は文章の確信度を該外部装置から受信する通信手段をさらに備えてもよい。

このように電子機器を構成することによって、電子機器は、電子機器にて行った音声認識の結果に曖昧さがある場合、すぐに聞き返しを行うことなく、外部装置を介して再度音声認識を行うので、無用な聞き返しを減少させることができる。

また、聞き返し手段は、所定の音声及び／又は動作を行うことで聞き返しを行ってもよい。

また、掃除機は、前記電子機器のいずれかと、電子機器を自走させる為の自走手段、塵埃を吸引する為の送風手段及び／又は床面を掃いて掃除する為の掃除ブラシ手段とを備えてもよい。

このように掃除機を構成することによって、掃除機は、自走手段、送風手段及び／又は掃除ブラシ手段の駆動等によって、騒がしい状況で使用されることが多い掃除機において、単語又は文章の確信度に曖昧さがある場合には、聞き返しを行うことで誤認識を防ぐと共に、単語又は文章の確信度がさらに低い場合には、聞き返しを行わないこととするので、無用な聞き返しを減少させることができる。

また、反応決定手段は、自走手段、送風手段及び／又は掃除ブラシ手段の駆動中は、第２の閾値を変更してもよい。

このように掃除機を構成することによって、掃除機は、確信度と騒がしい状況に合わせて変更された第２閾値とを比較することで聞き返しの要否を判断するので、騒がしい状況にあっても、より適切に聞き返しを行うことができる。

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明に係る電子機器は、音声認識手段を備えた電子機器等に広く利用可能である。

１、１ａ電子機器
２筐体
２ａ上面
２ｂ排気口
２ｃ側面
２ｄ底面
２ｅ吸込み口
３音声入力部
６通信部
１０制御部
１１、１１ａ音声認識部
１１１、１１１ａ音声区間検出部
１１２、１１２ａ音響特徴抽出部
１１３、１１３ａ音響特徴比較部
１２反応決定部
１３音声合成部
１４動作生成部
２０記憶部
２１、２１ａ音響特徴記憶部
２２、２２ａ辞書記憶部
２３、２３ａ文法記憶部
３１音声出力部
３２走行部
３３送風部
３４掃除ブラシ部
２００外部装置
２０６通信部
２１０制御部
２２０記憶部

Claims

入力された音声を音声データに変換する音声入力手段と、
前記音声データを解析することで、該音声データに含まれる単語又は文章を特定すると共に、該特定された単語又は文章の確信度を算出する音声認識手段と、
前記確信度に基づいて、ユーザに対する聞き返しの要否を決定する反応決定手段と、
前記聞き返しを行う聞き返し手段とを備え、
前記反応決定手段は、前記確信度が第２の閾値以上で第１の閾値未満の場合に聞き返しを行う決定をし、前記確信度が前記第２の閾値未満の場合に聞き返しを行わない決定をする
ことを特徴とする電子機器。
前記反応決定手段は、前記確信度に基づいて複数の聞き返しを選択することを特徴とする請求項１に記載の電子機器。
前記音声データを外部装置に対して送信すると共に、該音声データに含まれる単語又は文章の確信度を該外部装置から受信する通信手段をさらに備える
ことを特徴とする請求項１又は２に記載の電子機器。
請求項１から３のいずれか１項に記載の電子機器と、
前記電子機器を自走させる為の自走手段、塵埃を吸引する為の送風手段及び／又は床面を掃いて掃除する為の掃除ブラシ手段とを備えることを特徴とする掃除機。
前記反応決定手段は、前記自走手段、前記送風手段及び／又は前記掃除ブラシ手段の駆動中は、前記第２の閾値を変更する
ことを特徴とする請求項４に記載の掃除機。