JP2019184809A - 音声認識装置、音声認識方法 - Google Patents

音声認識装置、音声認識方法 Download PDF

Info

Publication number
JP2019184809A
JP2019184809A JP2018075248A JP2018075248A JP2019184809A JP 2019184809 A JP2019184809 A JP 2019184809A JP 2018075248 A JP2018075248 A JP 2018075248A JP 2018075248 A JP2018075248 A JP 2018075248A JP 2019184809 A JP2019184809 A JP 2019184809A
Authority
JP
Japan
Prior art keywords
voice
input
speech
recognition
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018075248A
Other languages
English (en)
Other versions
JP7197992B2 (ja
Inventor
秀敏 山崎
Hidetoshi Yamazaki
秀敏 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2018075248A priority Critical patent/JP7197992B2/ja
Publication of JP2019184809A publication Critical patent/JP2019184809A/ja
Application granted granted Critical
Publication of JP7197992B2 publication Critical patent/JP7197992B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】本発明は、音声アシスタント機能の誤動作を防止することを目的とする。【解決手段】テレビジョン受信機から出音される音声データが入力される音声データ受信手段を設ける。マイクで拾った音声と音声データ受信手段で受信した音声について、其々音声認識を行う。マイクで拾った音声と音声データ受信手段で受信した音声のそれぞれについて音声アシスタント機能を起動させる特定ワードが含まれている場合は、音声アシスタント機能を起動させない。【選択図】図1

Description

本発明は、音声認識装置、音声認識方法に関わり、特に音声認識機能発動の誤動作を防止する音声認識装置、音声認識方法に関するものである。
音声アシスタント機能を有する機器が普及している。音声アシスタント機能とはマイクロフォンを備えた機器に対して音声で命令を発すると、ネットワークによって繋がれたAI(人工知能)でその命令を解読して、命令に沿った処理を実行するものである。ここで、命令に沿った処理とは、例えば、映像や音楽、或いは調べ物などの検索や、ネットワークに接続された他の機器の動作を制御することなどが代表的な処理である。
音声アシスタント機能は主にスマートフォンなどの携帯機器に搭載されている。このような音声アシスタント機能は、特定の言葉(以下、ウェイクワードという)を認識させることで起動する。
特開2000−227799号公報
従来、音声アシスタント機能は、スマートフォンなどの機能の一部として搭載されていた。しかし、近年、このような音声アシスタント機能を搭載したスピーカが登場している。
このようなスピーカは、一般に、AIスピーカ、またはスマートスピーカ等と呼ばれている。スマートスピーカはネットワークに接続されており、スマートスピーカに話しかけると、スマートスピーカに内蔵されているマイクロフォンから入力された音声をネットワーク上のAIで認識し、入力された音声に応答する動作を行う。例えば、音楽の検索を行い、音楽を再生する。または、その他の調べ物の検索結果等を音声で回答する。或いは、ネットワークに接続された機器の制御などを行う。
スマートスピーカにおける音声アシスタント機能の起動は、スマートフォンと同様に予め定められた特定の言葉(ウェイクワード)をスマートスピーカに向かって話しかけることにより行われる。
このようなスマートスピーカは、部屋に置かれ、周囲には各種の音或いは音声を発する機器が置かれていることが想定される。各種の音或いは音声を発する機器とは、例えば、テレビジョン受信機、ラジオ受信機、オーディオ機器などである。
このような使用シーンにおいて、例えば、テレビジョン受信機から出音されたテレビ番組或いはコマーシャルなどの音声にウェイクワードが含まれていたりすると、スマートスピーカのマイクロフォンがそのウェイクワードを拾ってしまい、音声アシスタント機能が起動してしまうという誤動作が起こる問題が有る。
このようなことを防止する技術として特許文献1に上げた技術がある。
かかる技術は、例えば、マイクロフォンに向かって音声による命令を出す際に近くにテレビジョン受信機が有り、命令の音声とテレビ番組の音声が混合して入力されるような場合、テレビジョン受信機から直接音声情報を入力し、マイクロフォンに入力された音声からテレビ番組の音声をキャンセルする。これにより、音声認識の誤動作を防止するものである。
ここで、テレビジョン受信機から直接入力されたテレビ番組の音声とマイクロフォンから
入力されたテレビ番組の音声をキャンセルするには、双方の音声信号の位相や音量を合わせる必要が有る。そのため、特許文献1では位相や音量を合わせるための手段(雑音除去
部26)が設けられている。
この位相や音量は正確に合わせる必要が有るが、位相や音量は、部屋のレイアウトの変更や機器の配置の変更等により容易に変化するものであり、位相や音量を正確に合わせるのは難しいという課題が有る。
上記課題を解決するため、本発明は以下のような構成を取る。
即ち、本発明にかかる音声認識装置は、音声を入力する音声入力手段と、音声再生装置から音声データを入力する音声データ入力手段と、を具備し、前記音声入力手段から入力された音声の音声認識を行う第1の音声認識手段と、前記音声データ入力手段から入力された音声データの音声認識を行う第2の音声認識手段と、前記第1の音声認識手段で認識した音声と第2の音声認識手段で認識した音声の両方に予め定められた特定の言葉が含まれている場合は、予め定められた特定の言葉が含まれていないと判定する特定語判定手段と、を具備することを特徴とする。
また、本発明にかかる音声認識装置は、音声を入力する音声入力手段を具備し、前記音声入力手段から入力された音声の音声認識を行う音声認識手段と、前記音声入力手段から入力された音声の声紋分析を行う声紋分析手段と、前記声紋分析手段で分析された音声が予め登録された声紋に一致しない場合は、前記音声認識手段で認識した音声を無音に置き換えるセレクタと、前記セレクタの出力に予め定められた特定の言葉が含まれているか否かを判定する特定語判定手段と、を具備するようにしても良い。
本発明によれば、スマートスピーカの音声アシスタント機能が誤認識により起動することを防止することができる。
本発明にかかる音声認識装置と周辺機器の設置状態の概念図である。 本発明の第1の実施形態にかかる音声認識装置のブロック図である。 本発明の第2の実施形態にかかる音声認識装置のブロック図である。
以下、図面を参照しながら、本発明の音声認識装置に係る好適な実施の形態について説明する。以下の説明において、異なる図面においても同じ符号を付した構成は同様のものであるとして、その説明を省略する場合がある。なお、本発明は、これらの実施形態での例示に限定されるものではなく、特許請求の範囲に記載された事項の範囲内および均等の範囲内におけるすべての変更を含む。
(第1の実施形態)
図1は、本発明にかかる音声認識装置の概念図である。
図1において、101は、スマートスピーカであり、102は、テレビジョン受信機である。
スマートスピーカ101およびテレビジョン受信機102は、それぞれネットワークに接続されている。また、図示しないが、テレビジョン受信機102は、スピーカから音声が出音される。加えて、スマートスピーカ101に対して、有線、または、無線でスピーカから出音されている音声の音声データを送信する。一方、スマートスピーカ101には、マイクロフォン(以下、マイクという)が内蔵されており、マイクに向かって話しかける
ことにより動作を開始する。
図2は、本発明の音声認識装置にかかる第1の実施形態のブロック図である。
図2において、201は、テレビジョン受信機101の音声ソースである。具体的にはテレビ番組等の音声等である。202は、テレビジョン受信機101のスピーカであり、203は、送信手段であり、スマートスピーカ等に対して音声データを送信する。204は、スマートスピーカ101のマイクであり、205は第1の音声認識部である。また、206は受信手段であり、テレビジョン受信機101からの音声データを受信する。207は第2の音声認識部であり、208はウェイクワード判定部である。
テレビジョン受信機102は、音声ソース201のテレビ番組等の音声等をスピーカ202から出音する。また、送信手段203からスマートスピーカ等の外部機器に対して音声データを送信する。送信手段としては、有線でも無線でも構わない。無線であればレイアウト変更などに対応しやすいメリットが有る。無線の方式としては、BLUETOOTH(登録商標)などが考えられる。一方、有線の場合は、混信などの影響が少ないというメリットが有る。
一方、スマートスピーカ101は、テレビジョン受信機102のスピーカ202から出音されたテレビ番組等の音声をマイク204で入力する。また、テレビジョン受信機102の送信手段203から出力されたテレビ番組等の音声データを受信手段206で受信する。
マイク204で受信された音声は、第1の音声認識部205で音声認識される。また、受信手段206で入力された音声データは、第2の音声認識部207で音声認識される。第1の音声認識部205で認識された音声と第2の音声認識部207で認識された音声は、それぞれ、ウェイクワード判定部208に入力される。ウェイクワード判定部208では、第1の音声認識部205で認識された音声と第2の音声認識部207で認識された音声に共にウェイクワードが含まれていれば、そのウェイクワードを無視する、或いはキャンセルする。即ち、そのウェイクワードが含まれていないものとして処理する。
これにより、ウェイクワード判定部208は、マイク204から入力された音声にウェイクワードが含まれており、また、ウェイクワードがテレビジョン受信機102から出力された音声データにも含まれていた場合、マイク204から入力されたウェイクワードは、テレビジョン受信機102のスピーカ202から出音されたウェイクワードであり、ユーザが音声アシスタント機能を起動させるために発したウェイクワードではないと判定して、誤って音声アシスタント機能が起動してしまうことを防止できる。
本発明のように、音声認識を行うことにより、従来技術のような、音声信号の位相合わせや音量合わせなどの処理を行うことなく、マイクにテレビジョン受信機の音声などが混入した場合などにも、それを取り除いて(或いは無視して)処理をすることにより、誤動作を防止することができる。
(第2の実施形態)
図3は、本発明の音声認識装置にかかる第2の実施形態のブロック図である。
図3において、301は声紋分析部であり、302は無音信号出力部であり、303はセレクタである。
図3において、テレビジョン受信機102の音声ソース201から出力されたテレビ番組等の音声信号は、スピーカ202から出音される。
スマートスピーカ101は、スピーカ202から出音された音声をマイク204で入力する。マイク204で入力されたテレビ番組等の音声は音声認識部205および声紋分析部301に入力される。音声認識部205では、入力された音声が認識され、セレクタ303に出力される。
セレクタ303には無音信号出力部302の信号も入力される。セレクタ303は、音声認識部205から入力された信号と、無音信号出力部302から入力された信号を切り換えて出力する。
声紋分析部301には、予めユーザの声紋を登録しておく。声紋は各人異なるため声紋を登録しておくことで登録者を認識することができる。尚、声紋分析の方法は、各種の方法が知られており、どのような方法を用いても良い。また、登録しておく声紋は、一人でも良いし、複数人でも良い。家庭内でスマートスピーカを使用する場合は、有る程度使用する人を特定することができる(例えば、家族、親戚、友人等)ので、その人たちの声紋を登録しておいても良い。
声紋分析部301では、マイク204から入力された音声が予め登録された人の音声か否かを判定する。その判定結果によって、セレクタ303の制御をおこなう。
即ち、マイク204から入力された音声が予め登録された人の音声でないと判定した場合は、セレクタ303の出力を無音信号出力部302からの信号に切換え、マイク204から入力された音声が予め登録された人の音声であると判定した場合は、セレクタ303の出力を音声認識部205からの信号に切換える。
かかる構成により、予め登録された人の音声以外の音声は、無音に置き換えられることになる。例えば、テレビジョン受信機102のスピーカ202から出音されたテレビ番組等の音声は無音に置き換えられる。これにより、予め声紋分析部301に登録しておいたユーザの音声だけがセレクタ303から出力される。
セレクタ303から出力された音声信号は、ウェイクワード判定部208に入力される。ウェイクワード判定部208ではセレクタ303から入力された音声信号にウェイクワードが含まれているか否かを判定する。ウェイクワードが含まれていれば、音声アシスタント機能を起動する。
(第3の実施形態)
第1の実施形態では、声紋分析は行っていないが、第1の実施形態で声紋分析を加えても良い。
例えば、第1の音声認識部205で音声認識に加え、声紋分析もするようにしても良い。このような構成にした場合、例えば、テレビジョン受信機102のスピーカ202から出音されたテレビ番組などの音声にウェイクワードが含まれ、また、同時に、ユーザがウェイクワードを発した場合にも誤動作を防止できる。
例えば、スマートスピーカ101のマイク204は、テレビジョン受信機102のスピーカ202から出音されたテレビ番組などの音声のウェイクワードは拾わなかったが、同時に発せられたユーザのウェイクワードは拾うことが考えられる。
このような場合、第1の音声認識部205、第2の音声認識部207の両方でウェイクワードが認識されるため第1の実施形態では、そのウェイクワードは無視されることになる。しかし、第1の音声認識部205で認識されたウェイクワードはユーザの発したウェイクワードなので、無視することは誤動作になる。第1の音声認識部205で音声認識に加え、声紋分析もすれば、第1の音声認識部205で認識されたウェイクワードはユーザの発したウェイクワードであることが判定できる。従って、その場合は、第1の音声認識部205、第2の音声認識部207の両方にウェイクワードが認識されてもウェイクワードを無視せずに音声アシスタント機能を起動すれば、誤動作を防止することができる。
101:スマートスピーカ、102:テレビジョン受信機、201:音声ソース、202:スピーカ、203:送信手段、204:マイク、205:第1の音声認識部、206:受信手段、207:第2の音声認識部、208:ウェイクワード判定部、301:声紋分析部、302:無音信号発生部、308:セレクタ

Claims (5)

  1. 音声を入力する音声入力手段と、音声再生装置から音声データを入力する音声データ入力手段と、を具備した音声認識装置において、
    前記音声入力手段から入力された音声の音声認識を行う第1の音声認識手段と、
    前記音声データ入力手段から入力された音声データの音声認識を行う第2の音声認識手段と、
    前記第1の音声認識手段で認識した音声と第2の音声認識手段で認識した音声の両方に予め定められた特定の言葉が含まれている場合は、予め定められた特定の言葉が含まれていないと判定する特定語判定手段と、
    を具備することを特徴とする音声認識装置。
  2. 音声を入力する音声入力手段を具備し、
    前記音声入力手段から入力された音声の音声認識を行う音声認識手段と、
    前記音声入力手段から入力された音声の声紋分析を行う声紋分析手段と、
    前記声紋分析手段で分析された音声が予め登録された声紋に一致しない場合は、前記音声認識手段で認識した音声を無音に置き換えるセレクタと、
    前記セレクタの出力に予め定められた特定の言葉が含まれているか否かを判定する特定語判定手段と、
    を具備することを特徴とする音声認識装置。
  3. 請求項1に記載の音声認識装置において、
    前記第1の音声認識手段で認識した音声の声紋を分析する声紋分析手段を具備し、
    前記特定語判定手段は、前記第1の音声認識手段で認識した音声と第2の音声認識手段で認識した音声の両方に予め定められた特定の言葉が含まれている場合であっても、前記声紋分析手段で分析された音声が予め登録された声紋に一致する場合は、前記特定語が含まれていると判定することを特徴とする音声認識装置。
  4. 音声を入力し、また、音声再生装置から音声データを入力する音声認識方法であって、
    入力された音声の音声認識を行い、
    入力された音声データの音声認識を行い、
    前記音声認識された音声と音声データの両方に予め定められた特定の言葉が含まれている場合は、予め定められた特定の言葉が含まれていないと判定することを特徴とする音声認識方法。
  5. 入力された音声の音声認識を行い、
    前記入力された音声の声紋分析を行い、
    前記声紋分析された音声が予め登録された声紋に一致しない場合は、前記音声認識した音声を無音に置き換え、
    該置き換えた後の音声に予め定められた特定の言葉が含まれているか否かを判定することを特徴とする音声認識方法。
JP2018075248A 2018-04-10 2018-04-10 音声認識装置、音声認識方法 Active JP7197992B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018075248A JP7197992B2 (ja) 2018-04-10 2018-04-10 音声認識装置、音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018075248A JP7197992B2 (ja) 2018-04-10 2018-04-10 音声認識装置、音声認識方法

Publications (2)

Publication Number Publication Date
JP2019184809A true JP2019184809A (ja) 2019-10-24
JP7197992B2 JP7197992B2 (ja) 2022-12-28

Family

ID=68340331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018075248A Active JP7197992B2 (ja) 2018-04-10 2018-04-10 音声認識装置、音声認識方法

Country Status (1)

Country Link
JP (1) JP7197992B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021149593A1 (ja) 2020-01-21 2021-07-29 パイオニア株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記憶媒体
WO2021192527A1 (ja) 2020-03-27 2021-09-30 パイオニア株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記憶媒体
WO2021235157A1 (ja) * 2020-05-18 2021-11-25 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
JP7484286B2 (ja) 2020-03-24 2024-05-16 大日本印刷株式会社 画面録画システム、テレビ、画面録画方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014092777A (ja) * 2012-11-06 2014-05-19 Magic Hand:Kk モバイル通信機器の音声による起動
WO2014103099A1 (ja) * 2012-12-28 2014-07-03 パナソニック株式会社 音声認識付き機器及び音声認識方法
US20140249817A1 (en) * 2013-03-04 2014-09-04 Rawles Llc Identification using Audio Signatures and Additional Characteristics

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014092777A (ja) * 2012-11-06 2014-05-19 Magic Hand:Kk モバイル通信機器の音声による起動
WO2014103099A1 (ja) * 2012-12-28 2014-07-03 パナソニック株式会社 音声認識付き機器及び音声認識方法
US20140249817A1 (en) * 2013-03-04 2014-09-04 Rawles Llc Identification using Audio Signatures and Additional Characteristics

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021149593A1 (ja) 2020-01-21 2021-07-29 パイオニア株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記憶媒体
JP7484286B2 (ja) 2020-03-24 2024-05-16 大日本印刷株式会社 画面録画システム、テレビ、画面録画方法、及びプログラム
WO2021192527A1 (ja) 2020-03-27 2021-09-30 パイオニア株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記憶媒体
WO2021235157A1 (ja) * 2020-05-18 2021-11-25 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP7197992B2 (ja) 2022-12-28

Similar Documents

Publication Publication Date Title
US10553235B2 (en) Transparent near-end user control over far-end speech enhancement processing
JP5419361B2 (ja) 音声制御システムおよび音声制御方法
US8260618B2 (en) Method and apparatus for remote control of devices through a wireless headset using voice activation
US20190066710A1 (en) Transparent near-end user control over far-end speech enhancement processing
US11343607B2 (en) Automatic active noise reduction (ANR) control to improve user interaction
US9324322B1 (en) Automatic volume attenuation for speech enabled devices
JP7197992B2 (ja) 音声認識装置、音声認識方法
JP2011022600A (ja) 音声認識システムの動作方法
KR102374054B1 (ko) 음성 인식 방법 및 이에 사용되는 장치
US11516599B2 (en) Personal hearing device, external acoustic processing device and associated computer program product
US10510361B2 (en) Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
WO2020017518A1 (ja) 音声信号処理装置
JP2005192004A (ja) ヘッドセットおよびヘッドセットの音楽データの再生制御方法
KR102573242B1 (ko) 비명소리 인식을 위한 사운드장치
KR20190055528A (ko) 동물소리 인식 사운드장치
KR102495028B1 (ko) 휘파람소리 인식 기능이 구비된 사운드장치
US20220261218A1 (en) Electronic device including speaker and microphone and method for operating the same
US11917386B2 (en) Estimating user location in a system including smart audio devices
US20240087597A1 (en) Source speech modification based on an input speech characteristic
WO2019175960A1 (ja) 音声処理装置および音声処理方法
KR20240072874A (ko) 폰북 기반의 성문 운용 방법 및 이를 지원하는 전자 장치
KR20220118109A (ko) 스피커 및 마이크를 포함하는 전자 장치 및 그 동작 방법
JP2020085942A (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211214

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220106

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221216

R150 Certificate of patent or registration of utility model

Ref document number: 7197992

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150