JP2021152589A - 電子機器の制御装置、制御プログラム、制御方法、電子機器 - Google Patents

電子機器の制御装置、制御プログラム、制御方法、電子機器 Download PDF

Info

Publication number
JP2021152589A
JP2021152589A JP2020052850A JP2020052850A JP2021152589A JP 2021152589 A JP2021152589 A JP 2021152589A JP 2020052850 A JP2020052850 A JP 2020052850A JP 2020052850 A JP2020052850 A JP 2020052850A JP 2021152589 A JP2021152589 A JP 2021152589A
Authority
JP
Japan
Prior art keywords
voice
voice recognition
recognition
server
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020052850A
Other languages
English (en)
Inventor
慎哉 佐藤
Shinya Sato
慎哉 佐藤
海光 桑村
Kaiko Kuwamura
海光 桑村
浩志 和田
Hiroshi Wada
浩志 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2020052850A priority Critical patent/JP2021152589A/ja
Priority to US17/207,175 priority patent/US20210304731A1/en
Priority to CN202110308670.XA priority patent/CN113450790A/zh
Publication of JP2021152589A publication Critical patent/JP2021152589A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】サーバの負荷を低減する。【解決手段】音声認識装置(10)の制御装置(2)は、入力された音声情報の認識処理を行う音声認識部(23)と、音声情報をクラウドサーバ(20)に送信するとともに、クラウドサーバ(20)に対して音声情報の認識処理を行わせるための音声認識要求を送信し、クラウドサーバ(20)による音声認識結果に認識エラーが発生したか否かを判定する音声認識制御部(22)と、を備え、音声認識制御部(22)は、前記認識エラーが所定回数を超えた場合、クラウドサーバ(20)に対する音声認識要求の送信を中止する。【選択図】図1

Description

本発明は、外部のサーバと通信可能であり、音声情報の入力が可能な電子機器を制御する制御装置などに関する。
近年、ユーザが発した音声に対して応答する対話装置が開発されている。また、対話装置を、通信ネットワークを介してサーバ装置と接続させ、音声認識をサーバ装置にて実行させる対話システムも開発されている。この対話システムでは、対話装置はサーバ装置から受信した音声認識結果を用いて応答に関する情報を検索するようになっている。
特許文献1には、誤認識や認識エラーが生じても対話の実行効率を落さず音声対話を実行することができる音声利用システムが開示されている。この音声利用システムは、音声認識処理アルゴリズムが異なる複数の音声認識エンジンを備え、これらを切り替えることで音声認識処理アルゴリズムを変更するようになっている。
特開2003−140691号公報
しかしながら、上述のような従来技術は、複数の音声認識エンジンを使用することで、サーバにおける環境ノイズに対応するための処理が増加してしまう傾向があり、サーバの負荷が増加してしまうという問題点がある。
本発明の一態様は、前記の問題点に鑑みて為されたものであり、その目的は、サーバの負荷を低減することができる電子機器の制御装置などを実現することにある。
前記の課題を解決するために、本発明の一態様に係る電子機器の制御装置は、外部のサーバと通信可能であり、音声情報の入力が可能な電子機器を制御する制御装置であって、入力された前記音声情報の認識処理を行う音声認識部と、前記音声情報を前記サーバに送信するとともに、前記サーバに対して前記音声情報の認識処理を行わせるための音声認識要求を送信し、前記サーバによる音声認識結果に認識エラーが発生したか否かを判定する音声認識制御部と、を備え、前記音声認識制御部は、前記サーバでの前記認識エラーが所定回数を超えた場合、前記サーバに対する前記音声認識要求の送信を中止する構成である。
前記の課題を解決するために、本発明の一態様に係る制御方法は、外部のサーバと通信可能であり、音声情報の入力が可能な電子機器を制御する制御方法であって、入力された前記音声情報の認識処理を行う音声認識ステップと、前記音声情報を前記サーバに送信するとともに、前記サーバに対して前記音声情報の認識処理を行わせるための音声認識要求を送信し、前記サーバによる音声認識結果について認識エラーが発生したか否かを判定する音声認識制御ステップにより、前記音声認識制御ステップで、前記認識エラーの回数が所定回数を超えた場合、前記サーバに対する前記音声認識要求の送信を中止する方法である。
前記の課題を解決するために、本発明の一態様に係る電子機器は、少なくとも1つの音声入力装置と、外部のサーバと通信を行う少なくとも1つの通信装置と、少なくとも1つの制御装置を備えた電子機器であって、前記制御装置は、前記音声入力装置に入力された音声情報の認識処理を行う音声認識処理と、前記通信装置に、前記音声情報を前記サーバに送信させるとともに、前記サーバに対して前記音声情報の認識処理を行わせるための音声認識要求を送信し、前記サーバによる音声認識結果について認識エラーが発生したか否かを判定する音声認識制御処理と、を実行し、前記音声認識制御処理では、前記サーバによる音声認識処理での前記認識エラーの回数が所定回数を超えた場合、前記サーバに対する前記音声認識要求の送信を中止する構成である。
本発明の一態様によれば、サーバの負荷を低減することができるという効果を奏する。
本発明の実施の一形態に係る電子機器およびサーバを含む通信システムの構成を示すブロック図である。 前記通信システムの動作の流れを示すフローチャートである。 変形例に係る電子機器の動作の流れを示すフローチャートである。
以下、本発明の実施形態について、詳細に説明する。なお、説明の便宜上、各実施形態に示した部材と同一の機能を有する部材については、同一の符号を付記し、適宜その説明を省略する。
〔実施形態1〕
本発明の一実施形態について、図1および図2に基づいて説明すれば以下のとおりである。
(通信システム30の概要)
通信システム30は、ユーザと音声認識装置(電子機器)10との音声対話を実現するシステムである。具体的には、通信システム30は、ユーザが音声認識装置10に向かって「おはよう」と発話した場合、ユーザに対して音声認識装置10が「おはよう、今日はいい天気だね」と応答音声を出力することで、音声対話を実現するシステムである。
通信システム30は、音声認識装置10、およびクラウドサーバ20(サーバ)を含む。音声認識装置10、およびクラウドサーバ20は、それぞれ音声情報の認識処理を行うことが可能になっている。音声認識装置10は、ユーザが発話した音声を取得し、当該音声の音声情報の認識処理を行う。
また、音声認識装置10とクラウドサーバ20とは通信が可能になっている。これにより、音声認識装置10はユーザが発話した音声を取得し、当該音声の音声情報をクラウドサーバ20に送信することができる。クラウドサーバ20は、音声認識装置10の外部の装置であり、音声認識装置10から音声情報を取得し、音声認識装置10から音声認識要求を受けた場合、取得した音声情報の認識処理を行う。
(音声認識装置10の要部構成)
図1は、通信システム30に含まれる音声認識装置10、およびクラウドサーバ20の要部構成の一例を示すブロック図である。音声認識装置10は、音声入力装置1、制御装置2、通信装置3、音声出力装置4、および記憶装置5を含む。なお、本実施形態では、音声入力装置1、制御装置2、通信装置3、音声出力装置4、および記憶装置5のそれぞれの数は単一であるが、これらの制御ブロックのそれぞれは複数存在していても良い。
音声入力装置1は、音声認識装置10の周囲で発せられた音声を取得し、当該音声を音声情報に変換して制御装置2(音声入力制御部21)に入力するための装置である。この装置は、音声認識装置10に内蔵されたマイクロフォンであってもよいし、音声認識装置10の外部のマイクロフォンからの音声情報を入力するための入力端子であってもよい。音声出力装置4は、音声情報を音声に変換して出力する装置である。この装置は、音声認識装置10に内蔵されたスピーカであってもよいし、音声認識装置10の外部のスピーカへの音声情報を出力するための出力端子であってもよい。
通信装置3は、クラウドサーバ20との通信を行い、各種情報を送受信する。具体的には、通信装置3は、音声情報を制御装置2(音声入力制御部21および音声認識制御部22)から取得し、クラウドサーバ20に送信する(音声認識制御ステップ、音声認識制御処理)。また、通信装置3は、クラウドサーバ20に対して音声情報の認識処理を要求する音声認識要求を送信する(音声認識制御ステップ、音声認識制御処理)。さらに、通信装置3は、クラウドサーバ20から、クラウドサーバ20による音声情報の音声認識結果である第2音声認識結果および認識エラーの判定結果を受信し、制御装置2(音声認識制御部22)に出力する。
制御装置2は、音声認識装置10の機能を統括して制御する。制御装置2は、音声入力制御部21、音声認識制御部22、音声認識部23、応答可否判定部24、応答情報生成部25、音声合成部26、および音声出力制御部27を含む。
音声入力制御部21は、音声入力装置1から音声情報を取得すると、当該音声情報を、音声認識制御部22、および音声認識部23に渡す。音声認識制御部22は、音声入力制御部21から受け取った音声情報を、通信装置3を介してクラウドサーバ20に送信する。
また、音声認識制御部22は、通信装置3を介してクラウドサーバ20から受信した、認識エラーの判定結果に基づき、クラウドサーバ20による音声情報の音声認識結果である第2音声認識結果が認識エラーか否かを判定した上で、認識エラーでなければ第2音声認識結果を、応答情報生成部25に渡す。音声認識部23は、音声入力制御部21から受け取った音声情報の認識処理を行い、その音声認識結果である第1音声認識結果を、応答情報生成部25に渡す。
応答可否判定部24は、応答情報生成部25により、応答情報が生成できたか否かを判定する。応答可否判定部24は、前記判定の結果を音声認識制御部22に渡す。
音声認識制御部22は、応答可否判定部24から受け取った、応答情報が生成できなかった旨の判定結果(「応答エラー」という)が所定回数を超えた場合、クラウドサーバ20に対する音声認識要求の送信を停止しても良い。
応答情報生成部25は、第1音声認識結果および第2音声認識結果の何れか少なくとも一方に基づいて、音声情報に予め対応づけられた応答情報を、記憶装置5を検索して生成する。例えば、音声認識装置10にすぐに反応して欲しいケースなどでは、第1音声認識結果を優先的に用いて応答情報を検索しても良い。また、不適切な応答発話が行われることを回避すべく、第1音声認識結果および第2音声認識結果の両方を用いて応答情報を検索しても良い。
なお、認識した音声情報に対して見つかった応答情報が1つだけだった場合は、検索結果は同じになるが、複数見つかった場合は応答情報の優先度によって応答情報を選択する。また、複数見つかった異なる応答情報の優先度が同じだった場合はランダムで選択しても良い。なお、応答情報の優先度は、予め設定されているものとする。
音声合成部26は、応答情報生成部25が生成した応答情報から応答音声を合成して、音声出力制御部27に渡す。音声出力制御部27は、音声認識装置10の音声出力機能を制御する。具体的には、音声出力制御部27は、音声出力装置4に合成された応答音声を出力させる制御を行う。
音声認識制御部22は、前記サーバでの認識エラーの回数をカウントする。また、音声認識制御部22は、認識エラーの回数が所定回数を超えた場合、クラウドサーバ20に対する音声認識要求の送信を中止する。応答情報生成部25は、入力された第1音声認識結果に基づいて応答情報を記憶装置5から検索して生成する。
一方、音声認識制御部22は、認識エラーの回数が所定回数以下である場合、第2音声認識結果を応答情報生成部25に出力する。応答情報生成部25は、入力された第1音声認識結果および第2音声認識結果の何れか少なくとも一方に基づいて応答情報を記憶装置5から検索して生成する。
前記構成によれば、音声認識制御部22によって判定された認識エラーが所定回数を超えた場合、音声認識制御部22は、クラウドサーバ20に対する音声認識要求の送信を中止する。これにより、クラウドサーバ20は、不必要に音声情報の認識処理を行わなくて済む。
また、前記構成によれば、音声認識制御部22によって判定された認識エラーが所定回数を超えた場合、応答情報生成部25は、第1音声認識結果に基づいて応答情報を生成する。これにより、クラウドサーバ20の負荷を低減しつつ、応答情報を生成することができる。以上により、クラウドサーバ20の負荷を低減することができる。認識エラーが所定回数を超えたかどうかの判定は、連続してエラーが所定回数を超えた場合であっても良いし、所定期間内に所定回数を超えた場合であっても良い。
また、応答情報生成部25は、音声認識制御部22によって判定された認識エラーが所定回数以下であった場合、第1音声認識結果および第2音声認識結果の何れか少なくとも一方に基づいて応答情報を生成する。これにより、不適切な応答情報の生成を低減させることができる。例えば、第1音声認識結果が認識エラーでなく、第2音声認識結果が認識エラーの場合、第1音声認識結果を用いて応答情報を検索する。一方、第2音声認識結果が認識エラーでなく、第1音声認識結果が認識エラーの場合、第2音声認識結果を用いて応答情報を検索する。さらに、第1音声認識結果および第2音声認識結果が両方とも認識エラーでない場合、第1音声認識結果および第2音声認識結果が両方を用いて応答情報を検索する。検索の結果、複数の異なる応答情報が見つかった場合、予め設定した優先度に基づいて選択するか、またはランダムに選択する。
記憶装置5は、音声認識装置10が使用する各種データを記憶する。本実施形態に係る記憶装置5は少なくとも、応答情報51を記憶している。応答情報51の例としては、所定の音声情報に予め対応づけられたシナリオ情報を挙示することができる。シナリオ情報とは、認識した言葉に対してどう反応するかが書かれた情報である。
(クラウドサーバ20の要部構成)
クラウドサーバ20は、通信装置6、および制御装置7を含む。通信装置6は、音声認識装置10との通信を行い、各種情報を送受信する。具体的には、通信装置6は、音声情報、および音声認識要求を音声認識装置10から受信し、制御装置7に出力する。
制御装置7は、クラウドサーバ20の機能を統括して制御する。制御装置7は、音声認識部71、および認識エラー判定部72を含む。音声認識部71は、制御装置7が音声認識要求を受け取っている場合、受け取った音声情報の認識処理を行い、その結果である第2音声認識結果を、通信装置6に渡す。また、音声認識部71は、制御装置7が音声認識要求を受け取っていない場合、音声情報の認識処理を行わない。認識エラー判定部72は音声認識部71の認識処理の結果が認識エラーであるかどうかを判定し、認識エラーの判定結果を通信装置6に渡す。通信装置6は、受け取った第2音声認識結果または認識エラーの判定結果を音声認識装置10に送信する。なお、本実施形態では、通信システム30は、単一のクラウドサーバ20を含むものとして説明しているが、通信システム30に含まれるクラウドサーバ20の数は、複数であっても良い。
(通信システム30の動作の概要)
次に、図2に基づき、通信システム30の動作の概要について説明する。図2は、通信システム30の動作の流れを示すフローチャートである。以下、「音声認識装置10」のことを「デバイス」または「ローカル」と略称する場合がある。また、「クラウドサーバ20」のことを「クラウド」と略称する場合がある。
まず、ステップS(以下、「ステップ」は省略する)11で、デバイスがアクティブ状態になると、S12に進む。ここで、S11におけるデバイスがアクティブ状態になるとは、デバイスである音声認識装置10の音声認識が機能している状態をいう。
S12では、音声入力装置1が、音声の入力を受付けると、S13に進む。具体的には、S12において、音声入力装置1が音声の入力を受付けると、受付けた音声を音声情報に変換して、変換した音声情報を制御装置2に送る。
S13では、ローカルおよびクラウドで音声認識を行い(音声認識ステップ、音声認識処理)、S14に進む。具体的には、音声入力装置1からの音声情報は、音声入力制御部21によって、音声認識制御部22および音声認識部23に送られる。音声認識制御部22に送られた音声情報は、通信装置3からクラウドサーバ20の通信装置6を経て音声認識部71に送られ、当該音声認識部71にて音声認識(クラウドでの音声認識)が行われる。また、このとき、認識エラー判定部72は、前記の音声認識の結果に認識エラーが生じているか否かを判定する。
一方、音声認識部23に送られた音声情報は、当該音声認識部23にて音声認識(ローカルでの音声認識)が行われる。ここで、音声認識部23、音声認識部71における音声情報の認識処理とは、音声情報をテキストデータに変換する処理である。従って、音声認識部23による、音声情報のテキストデータへの変換処理の結果は、第1認識処理結果として、応答情報生成部25に送られる。一方、音声認識部71による、音声情報のテキストデータへの変換処理の結果は、第2認識処理結果として、通信装置6および通信装置3を介して音声認識制御部22から応答情報生成部25に送られる。
第1認識処理結果、第2認識処理結果は、何れも、音声情報がテキストデータに変換されたか否かを示す結果と、音声情報がテキストデータに変換された場合のテキストデータとを含んでいる。
S14では、クラウドでの音声認識結果が認識エラーか否かを判定する(音声認識制御ステップ、音声認識制御処理)。ここでは、音声認識制御部22が、認識エラー判定部72からの認識エラーの判定結果に、音声情報がテキストデータに変換できなかったことを示す結果が含まれているとき、認識エラーが発生している、つまり、音声認識結果が認識エラーであると判定する。そして、S14において、クラウドでの音声認識結果が認識エラーであると判定された場合(YES)、S21に進む。
一方、S14において、クラウドでの音声認識結果が認識エラーでないと判定された場合(NO)、S15に進む。S15では、音声認識制御部22は、エラーカウントをリセットし、第1音声認識結果および第2音声認識結果の何れか少なくとも一方を応答情報生成部25に渡し、S16に進む。ここで、エラーカウントをリセットするとは、認識エラーの回数が1回以上である場合に、「0回」にカウントを戻すことである。
S16では、応答情報生成部25が記憶装置5の応答情報51を検索し、S17に進む。ここで、応答情報51とは、音声認識部23(音声認識部71)による音声認識処理によって変換されたテキストデータに紐付いたテキストデータをいう。例えば、音声認識によって変換されたテキストデータが「おはよう」であれば、この「おはよう」に紐付いた「おはよう、今日はいい天気だね」というテキストデータを応答情報51とする。なお、テキストデータの紐付けは予め行っておく。
S17では、S16において検索した応答情報が見つかったか否かを判定する。具体的には、応答情報生成部25が、音声認識部23(音声認識部71)からの音声情報が変換されたテキストデータに紐付いた応答情報51を記憶装置5から検索し、応答情報51が見つかったか否かを判定する。ここで、応答情報が見つかった場合(YES)、S18に進む。一方、応答情報が見つからなかった場合(NO)、S19に進む。
S18では、応答発話を行う。具体的には、S17において見つかった応答情報(テキストデータ)が、音声合成部26に送られ、応答音声を合成する。ここで、応答音声は、応答情報であるテキストデータから、発話すべき音声データとして合成される。この合成された音声データは、音声出力制御部27に送られ、音声出力装置4であるスピーカから音声を出力するためのアナログデータに変換される。そして、音声出力装置4は、音声出力制御部27からのアナログデータを応答発話の音声として、出力する。例えば、上述したように、音声認識によって変換されたテキストデータが「おはよう」であれば、応答発話として「おはよう、今日はいい天気だね」が音声出力装置4から音声として出力される。S18による応答発話が終了すると、S19に進む。
S19では、制御装置2がスリープ条件を満たすか否かを確認し、スリープ条件を満たす場合(YES)、S20に進む。ここでは、音声認識装置10の音声入力装置1が機能しているか否かを判定することで、スリープ条件を満たすか否かを確認する。例えば、音声認識装置10の音声入力装置1が機能していないと判定されれば、スリープ条件を満たしていると判定し、音声認識装置10の音声入力装置1が機能していると判定されれば、スリープ条件を満たしていないと判定する。
S20では、制御装置2がデバイスの状態をスリープ状態に遷移させる。ここで、スリープ状態とは、デバイスである音声認識装置10の音声認識が機能していない状態である。なお、このデバイスがスリープ状態に遷移した場合の動作については、後述する変形例1で説明する。
一方、S19において、スリープ条件を満たさない場合(NO)、S31に進む。S31では、クラウドの音声認識を無効化しているかどうかを判定する。無効化されていない(有効)と判定されれば(YES)、S11へ進み、無効化されていると判定されれば(NO)、S24へ進む。
次に、S21では、S14において音声認識結果が認識エラーであると判定した場合に、エラーカウントをインクリメントし、S22に進む。ここでは、音声認識制御部22によって、エラーカウントのインクリメントが行われる。ここで、エラーカウントをインクリメントするとは、認識エラーの回数を既にカウントされている回数(0回を含む)に対して「+1」することである。
S22で、エラーカウントが所定回数Nを超えたか否かを判定する。ここで、所定回数Nは、2以上の任意の値である。所定回数Nの値は、大きければ、後述するS23におけるクラウドでの音声認識を無効化するまでの期間が長くなり、クラウドサーバ20の負荷が大きくなるので、小さいほうが好ましい。つまり、Nが2に近いほうが好ましい。
S22において、エラーカウントが所定回数Nを越えた場合(YES)、S23に進む。一方、S22において、エラーカウントがN以下の場合(NO)、S16に進む。
S23では、クラウドでの音声認識を無効化してS16に進む。具体的には、音声認識制御部22は、音声認識要求の出力を停止(中止)させる。ここで、音声認識要求とは、クラウドサーバ20の音声認識部71において音声認識処理を実行させるための制御信号である。
S24では、音声入力を待ち、S25に進む。S25では、音声入力装置1が、音声を受信(音声の入力受付け)し、S26に進む。S26では、ローカルで音声認識を行い、S28に進む。具体的には、S26において、音声認識装置10の音声認識部23が音声情報の認識処理を行い、その結果である第1音声認識結果を応答情報生成部25に渡し、S28に進む。
S28では、応答情報生成部25が、第1音声認識結果を用いて記憶装置5の応答情報51を検索し、S29に進む。
S29では、S28における応答情報51の検索の結果、応答情報51が見つかったか否かを判定する。ここで、応答情報が見つかった場合(YES)、S30に進む。一方、S29で、応答情報が見つからなかった場合(NO)、S24に戻る。
S30では、応答発話を行う。応答発話は、上述のS18の応答発話と同じである。具体的には、S29において見つかった応答情報(テキストデータ)が、音声合成部26に送られ、応答音声を合成する。ここで、応答音声は、応答情報であるテキストデータから、発話すべき音声データとして合成される。この合成された音声データは、音声出力制御部27に送られ、音声出力装置4であるスピーカから音声を出力するためのアナログデータに変換される。そして、音声出力装置4は、音声出力制御部27からのアナログデータを、応答発話としての音声を出力する。例えば、上述したように、音声認識によって変換されたテキストデータが「おはよう」であれば、応答発話として「おはよう、今日はいい天気だね」が音声出力装置4から音声として出力される。S30による応答発話が終了すると、S32へ進む。
S32では、音声認識制御部22は、エラーカウントをリセットし、S33へ進む。S33では、音声認識制御部22は、クラウドの音声認識を有効化して、S11へ戻る。
〔変形例1〕
本発明の変形例1について、以下に説明する。本変形例では、音声認識装置10がスリープ状態に遷移した後の動作について説明する。音声認識装置10がスリープ状態にある場合、音声認識部23は、音声情報の認識処理を行わず、さらにクラウドサーバ20での音声認識を無効化しても良い。具体的には、音声認識制御部22が、クラウドサーバ20に対して、入力された音声情報、および音声認識要求の送信を停止(中止)する。これにより、音声認識装置10の消費電力を低減するとともに、クラウドサーバ20の負荷を低減することができる。
音声認識装置10のスリープ状態の解除は、以下のように行ってもよい。例えば、図3の符号301で示すフローチャートのように、音声認識装置10が何らかのデバイス操作(例えば、音声認識装置10が備える物理キーの操作)を受付けた場合(S34)、クラウドサーバ20での音声認識を有効化しても良い(S35)。具体的には、クラウドサーバ20における音声認識が無効化されているときに、音声認識装置10が何らかのデバイス操作を受けた場合、音声認識制御部22が、クラウドサーバ20に対して、入力された音声情報、および音声認識要求の送信を行う。すなわち、これらの動作の停止(中止)を解除する。これにより、音声認識装置10は、アクティブ状態、すなわち、音声認識が機能する状態となる。つまり、音声認識装置10は、ユーザに負荷をかけることなく、アクティブ状態に復帰することができる。
そして、図3の符号302で示すフローチャートのように、音声認識装置10がスリープ状態からアクティブ状態に遷移した場合(S36)、クラウドサーバ20での音声認識を有効化しても良い(S37)。具体的には、クラウドサーバ20における音声認識が無効化されているときに、音声認識装置10がスリープ状態からアクティブ状態に遷移した場合、音声認識制御部22が、クラウドサーバ20に対して、入力された音声情報、および音声認識要求の送信を行う。すなわち、これらの動作の停止(中止)を解除する。
〔変形例2〕
音声認識の有効化または無効化を行う、トリガとしては、以下のような場合を例示することもできる。例えば、音声認識装置10はタイマー(不図示)を有しており、夜中(例えば、午前0時〜午前3時)になったら、音声認識を無効化しても良い。
また、音声認識装置10はGPS(Global Positioning System;不図示)受信機を備えており、音声認識装置10が所定の位置にあるときに、音声認識の有効化し、別の位置にあるときに、音声認識を無効化しても良い。
また、音声認識装置10は加速度センサを有しており、閾値を超える加速度を検知した場合に、移動中と判断して音声認識を無効化しても良い。
〔実施形態2;ソフトウェアによる実現例〕
音声認識装置10の制御装置2の制御ブロック(特に音声認識制御部22、音声認識部23、応答可否判定部24、および応答情報生成部25)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
後者の場合、制御装置2は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば少なくとも1つのプロセッサ(制御装置)を備えていると共に、前記プログラムを記憶したコンピュータ読み取り可能な少なくとも1つの記録媒体を備えている。そして、前記コンピュータにおいて、前記プロセッサが前記プログラムを前記記録媒体から読み取って実行することにより、本発明の目的が達成される。
前記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。前記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、前記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、前記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して前記コンピュータに供給されてもよい。なお、本発明の一態様は、前記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る制御装置(2)は、外部のサーバ(クラウドサーバ20)と通信可能であり、音声情報の入力が可能な電子機器(音声認識装置10)を制御する制御装置であって、入力された前記音声情報の認識処理を行う音声認識部(23)と、前記音声情報を前記サーバに送信するとともに、前記サーバに対して前記音声情報の認識処理を行わせるための音声認識要求を送信し、前記サーバによる音声認識結果に認識エラーが発生したか否かを判定する音声認識制御部(22)と、を備え、前記音声認識制御部は、前記認識エラーが所定回数を超えた場合、前記サーバに対する前記音声認識要求の送信を中止する構成である。
前記構成によれば、音声認識制御部によって判定された認識エラーが所定回数を超えた場合、音声認識制御部は、サーバに対する音声認識要求の送信を中止する。これにより、サーバは、不必要に音声情報の認識処理を行わなくて済む。このため、サーバの負荷を低減することができる。
本発明の態様2に係る制御装置(2)は、前記態様1において、前記音声認識部(23)による音声認識結果を第1音声認識結果、前記サーバ(クラウドサーバ20)による音声認識結果を第2音声認識結果としたとき、前記第1音声認識結果および前記第2音声認識結果の少なくとも一方に基づいて、前記音声情報に予め対応付けられた応答情報を生成する応答情報生成部(25)をさらに備えていても良い。前記構成によれば、不適切な応答情報の生成を低減させることができる。
本発明の態様3に係る制御装置(2)は、前記態様2において、前記音声認識制御部(22)によって判定された前記認識エラーの回数が所定回数を超えた場合、前記応答情報生成部(25)は、前記第1音声認識結果に基づいて前記応答情報を生成することが好ましい。前記構成によれば、サーバの負荷を低減しつつ、応答情報を生成することができる。
本発明の態様4に係る制御装置(2)は、前記態様2または3において、前記音声認識制御部(22)によって判定された前記認識エラーの回数が所定回数以下であった場合、前記応答情報生成部(25)は、前記第1音声認識結果および前記第2音声認識結果の少なくとも一方に基づいて前記応答情報を生成しても良い。前記構成によれば、不適切な応答情報の生成を低減させることができる。
本発明の態様5に係る制御装置(2)は、前記態様2または3において、前記電子機器(音声認識装置10)がスリープ状態にある場合、前記音声認識部(23)は、前記音声情報の認識処理を行わず、前記音声認識制御部(22)は、前記サーバ(クラウドサーバ20)に対して、前記音声情報、および前記音声認識要求の送信を行わなくても良い。前記構成によれば、電子機器の消費電力を低減するとともに、サーバの負荷を低減することができる。
本発明の態様6に係る制御方法は、外部のサーバ(クラウドサーバ20)と通信可能であり、音声情報の入力が可能な電子機器(音声認識装置10)を制御する制御方法であって、入力された前記音声情報の認識処理を行う音声認識ステップと、前記音声情報を前記サーバに送信するとともに、前記サーバに対して前記音声情報の認識処理を行わせるための音声認識要求を送信し、サーバによる音声認識結果について認識エラーが発生したか否かを判定する音声認識制御ステップと、前記音声認識制御ステップで、前記認識エラーの回数が所定回数を超えた場合、前記サーバに対する前記音声認識要求の送信を中止する方法である。前記方法によれば、前記態様1と同様の効果を得ることができる。
本発明の態様7に係る電子機器(音声認識装置10)は、少なくとも1つの音声入力装置(1)と、外部のサーバ(クラウドサーバ20)と通信を行う少なくとも1つの通信装置(3)と、少なくとも1つの制御装置(2)を備えた電子機器であって、前記制御装置は、前記音声入力装置に入力された音声情報の認識処理を行う音声認識処理と、前記通信装置に、前記音声情報を前記サーバに送信させるとともに、前記サーバに対して前記音声情報の認識処理を行わせるための音声認識要求を送信し、前記サーバによる音声認識結果について認識エラーが発生したか否かを判定する音声認識制御処理と、
を実行し、前記音声認識制御処理で前記認識エラーの回数が所定回数を超えた場合、前記サーバに対する前記音声認識要求の送信を中止する構成である。前記構成によれば、前記態様1と同様の効果を得ることができる。
本発明の各態様に係る制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを前記制御装置が備える各部(ソフトウェア要素)として動作させることにより前記制御装置をコンピュータにて実現させる制御装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
〔付記事項〕
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1 音声入力装置
2 制御装置
3 通信装置
4 音声出力装置
5 記憶装置
6 通信装置
7 制御装置
10 音声認識装置(電子機器)
20 クラウドサーバ(サーバ)
21 音声入力制御部
22 音声認識制御部
23 音声認識部
24 応答可否判定部
25 応答情報生成部
26 音声合成部
27 音声出力制御部
30 通信システム
51 応答情報
71 音声認識部

Claims (8)

  1. 外部のサーバと通信可能であり、音声情報の入力が可能な電子機器を制御する制御装置であって、
    入力された前記音声情報の認識処理を行う音声認識部と、
    前記音声情報を前記サーバに送信するとともに、前記サーバに対して前記音声情報の認識処理を行わせるための音声認識要求を送信し、前記サーバによる音声認識結果に認識エラーが発生したか否かを判定する音声認識制御部と、を備え、
    前記音声認識制御部は、
    前記認識エラーが所定回数を超えた場合、前記サーバに対する前記音声認識要求の送信を中止することを特徴とする制御装置。
  2. 前記音声認識部による音声認識結果を第1音声認識結果、前記サーバによる音声認識結果を第2音声認識結果としたとき、
    前記第1音声認識結果および前記第2音声認識結果の少なくとも一方に基づいて、前記音声情報に予め対応付けられた応答情報を生成する応答情報生成部をさらに備えていることを特徴とする請求項1に記載の制御装置。
  3. 前記音声認識制御部によって判定された前記認識エラーの回数が所定回数を超えた場合、
    前記応答情報生成部は、前記第1音声認識結果に基づいて前記応答情報を生成することを特徴とする請求項2に記載の制御装置。
  4. 前記音声認識制御部によって判定された前記認識エラーの回数が所定回数以下であった場合、
    前記応答情報生成部は、前記第1音声認識結果および前記第2音声認識結果の少なくとも一方に基づいて前記応答情報を生成することを特徴とする請求項2または3に記載の制御装置。
  5. 前記電子機器がスリープ状態にある場合、
    前記音声認識部は、前記音声情報の認識処理を行わず、
    前記音声認識制御部は、前記サーバに対して、入力された前記音声情報、および前記音声認識要求の送信を行わないことを特徴とする請求項1から4までの何れか1項に記載の制御装置。
  6. 請求項1から5までの何れか1項に記載の制御装置としてコンピュータを機能させるための制御プログラムであって、前記音声認識部、および前記音声認識制御部としてコンピュータを機能させるための制御プログラム。
  7. 外部のサーバと通信可能であり、音声情報の入力が可能な電子機器を制御する制御方法であって、
    入力された前記音声情報の認識処理を行う音声認識ステップと、
    前記音声情報を前記サーバに送信するとともに、前記サーバに対して前記音声情報の認識処理を行わせるための音声認識要求を送信し、サーバによる音声認識結果について認識エラーが発生したか否かを判定する音声認識制御ステップと、
    前記音声認識制御ステップで、前記認識エラーの回数が所定回数を超えた場合、前記サーバに対する前記音声認識要求の送信を中止することを特徴とする制御方法。
  8. 少なくとも1つの音声入力装置と、外部のサーバと通信を行う少なくとも1つの通信装置と、少なくとも1つの制御装置を備えた電子機器であって、
    前記制御装置は、
    前記音声入力装置に入力された音声情報の認識処理を行う音声認識処理と、
    前記通信装置に、前記音声情報を前記サーバに送信させるとともに、前記サーバに対して前記音声情報の認識処理を行わせるための音声認識要求を送信し、前記サーバによる音声認識結果について認識エラーが発生したか否かを判定する音声認識制御処理と、
    を実行し、
    前記音声認識制御処理で判定された前記認識エラーの回数が所定回数を超えた場合、前記サーバに対する前記音声認識要求の送信を中止することを特徴とする電子機器。
JP2020052850A 2020-03-24 2020-03-24 電子機器の制御装置、制御プログラム、制御方法、電子機器 Pending JP2021152589A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020052850A JP2021152589A (ja) 2020-03-24 2020-03-24 電子機器の制御装置、制御プログラム、制御方法、電子機器
US17/207,175 US20210304731A1 (en) 2020-03-24 2021-03-19 Control device for electronic apparatus, non-transitory computer-readable medium, control method, and electronic apparatus
CN202110308670.XA CN113450790A (zh) 2020-03-24 2021-03-23 电子设备的控制装置、记录介质、控制方法、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020052850A JP2021152589A (ja) 2020-03-24 2020-03-24 電子機器の制御装置、制御プログラム、制御方法、電子機器

Publications (1)

Publication Number Publication Date
JP2021152589A true JP2021152589A (ja) 2021-09-30

Family

ID=77809265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020052850A Pending JP2021152589A (ja) 2020-03-24 2020-03-24 電子機器の制御装置、制御プログラム、制御方法、電子機器

Country Status (3)

Country Link
US (1) US20210304731A1 (ja)
JP (1) JP2021152589A (ja)
CN (1) CN113450790A (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5921756B2 (ja) * 2013-02-25 2016-05-24 三菱電機株式会社 音声認識システムおよび音声認識装置
JP5753212B2 (ja) * 2013-03-19 2015-07-22 シャープ株式会社 音声認識システム、サーバ、および音声処理装置
USRE49014E1 (en) * 2013-06-19 2022-04-05 Panasonic Intellectual Property Corporation Of America Voice interaction method, and device
JP6054283B2 (ja) * 2013-11-27 2016-12-27 シャープ株式会社 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法
JP2018022086A (ja) * 2016-08-05 2018-02-08 シャープ株式会社 サーバ装置、制御システム、方法、情報処理端末、および制御プログラム
JP2019002997A (ja) * 2017-06-14 2019-01-10 トヨタ自動車株式会社 音声認識装置および音声認識方法

Also Published As

Publication number Publication date
US20210304731A1 (en) 2021-09-30
CN113450790A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
JP7354110B2 (ja) オーディオ処理システム及び方法
US10720158B2 (en) Low power detection of a voice control activation phrase
JP5233989B2 (ja) 音声認識システム、音声認識方法、および音声認識処理プログラム
JP2015011170A (ja) ローカルな音声認識を行なう音声認識クライアント装置
US11763819B1 (en) Audio encryption
US20240062759A1 (en) Modifying spoken commands
US11894000B2 (en) Authenticating received speech
CN109270493A (zh) 声源定位方法和装置
KR20240017404A (ko) 탠덤 네트워크들을 사용한 잡음 억제
WO2015125560A1 (ja) 情報処理装置、音声対話装置、および制御プログラム
US10896677B2 (en) Voice interaction system that generates interjection words
JP2002268681A (ja) 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法
JP2021152589A (ja) 電子機器の制御装置、制御プログラム、制御方法、電子機器
JP6265670B2 (ja) 情報処理装置、サーバ、および、制御プログラム
TWI657355B (zh) 語音控制連接不同雲端伺服器的方法與系統
JP6468069B2 (ja) 電子機器制御システム、サーバー、及び、端末装置
JP7303091B2 (ja) 制御装置、電子機器、制御装置の制御方法および制御プログラム
WO2018207483A1 (ja) 情報処理装置、電子機器、制御方法、および制御プログラム
CN111833857B (zh) 语音处理方法、装置和分布式系统
KR20230143436A (ko) 대화 시스템 및 그 제어 방법
JP2021148878A (ja) 音声認識装置、音声認識方法、および車両制御システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230808

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240213