JP7197992B2

JP7197992B2 - 音声認識装置、音声認識方法

Info

Publication number: JP7197992B2
Application number: JP2018075248A
Authority: JP
Inventors: 秀敏山崎
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2022-12-28
Anticipated expiration: 2038-04-10
Also published as: JP2019184809A

Description

本発明は、音声認識装置、音声認識方法に関わり、特に音声認識機能発動の誤動作を防止する音声認識装置、音声認識方法に関するものである。

音声アシスタント機能を有する機器が普及している。音声アシスタント機能とはマイクロフォンを備えた機器に対して音声で命令を発すると、ネットワークによって繋がれたＡＩ（人工知能）でその命令を解読して、命令に沿った処理を実行するものである。ここで、命令に沿った処理とは、例えば、映像や音楽、或いは調べ物などの検索や、ネットワークに接続された他の機器の動作を制御することなどが代表的な処理である。
音声アシスタント機能は主にスマートフォンなどの携帯機器に搭載されている。このような音声アシスタント機能は、特定の言葉(以下、ウェイクワードという)を認識させることで起動する。

特開２０００－２２７７９９号公報

従来、音声アシスタント機能は、スマートフォンなどの機能の一部として搭載されていた。しかし、近年、このような音声アシスタント機能を搭載したスピーカが登場している。
このようなスピーカは、一般に、ＡＩスピーカ、またはスマートスピーカ等と呼ばれている。スマートスピーカはネットワークに接続されており、スマートスピーカに話しかけると、スマートスピーカに内蔵されているマイクロフォンから入力された音声をネットワーク上のＡＩで認識し、入力された音声に応答する動作を行う。例えば、音楽の検索を行い、音楽を再生する。または、その他の調べ物の検索結果等を音声で回答する。或いは、ネットワークに接続された機器の制御などを行う。
スマートスピーカにおける音声アシスタント機能の起動は、スマートフォンと同様に予め定められた特定の言葉（ウェイクワード）をスマートスピーカに向かって話しかけることにより行われる。
このようなスマートスピーカは、部屋に置かれ、周囲には各種の音或いは音声を発する機器が置かれていることが想定される。各種の音或いは音声を発する機器とは、例えば、テレビジョン受信機、ラジオ受信機、オーディオ機器などである。
このような使用シーンにおいて、例えば、テレビジョン受信機から出音されたテレビ番組或いはコマーシャルなどの音声にウェイクワードが含まれていたりすると、スマートスピーカのマイクロフォンがそのウェイクワードを拾ってしまい、音声アシスタント機能が起動してしまうという誤動作が起こる問題が有る。

このようなことを防止する技術として特許文献1に上げた技術がある。
かかる技術は、例えば、マイクロフォンに向かって音声による命令を出す際に近くにテレビジョン受信機が有り、命令の音声とテレビ番組の音声が混合して入力されるような場合、テレビジョン受信機から直接音声情報を入力し、マイクロフォンに入力された音声からテレビ番組の音声をキャンセルする。これにより、音声認識の誤動作を防止するものである。
ここで、テレビジョン受信機から直接入力されたテレビ番組の音声とマイクロフォンから
入力されたテレビ番組の音声をキャンセルするには、双方の音声信号の位相や音量を合わせる必要が有る。そのため、特許文献1では位相や音量を合わせるための手段（雑音除去
部２６）が設けられている。

この位相や音量は正確に合わせる必要が有るが、位相や音量は、部屋のレイアウトの変更や機器の配置の変更等により容易に変化するものであり、位相や音量を正確に合わせるのは難しいという課題が有る。

上記課題を解決するため、本発明は以下のような構成を取る。

即ち、本発明にかかる音声認識装置は、音声を入力する音声入力手段と、音声再生装置から音声データを入力する音声データ入力手段と、を具備し、前記音声入力手段から入力された音声の音声認識を行う第１の音声認識手段と、前記音声データ入力手段から入力された音声データの音声認識を行う第２の音声認識手段と、前記第１の音声認識手段で認識した音声と第２の音声認識手段で認識した音声の両方に予め定められた特定の言葉が含まれている場合は、予め定められた特定の言葉が含まれていないと判定する特定語判定手段と、を具備することを特徴とする。

また、本発明にかかる音声認識装置は、音声を入力する音声入力手段を具備し、前記音声入力手段から入力された音声の音声認識を行う音声認識手段と、前記音声入力手段から入力された音声の声紋分析を行う声紋分析手段と、前記声紋分析手段で分析された音声が予め登録された声紋に一致しない場合は、前記音声認識手段で認識した音声を無音に置き換えるセレクタと、前記セレクタの出力に予め定められた特定の言葉が含まれているか否かを判定する特定語判定手段と、を具備するようにしても良い。

本発明によれば、スマートスピーカの音声アシスタント機能が誤認識により起動することを防止することができる。

本発明にかかる音声認識装置と周辺機器の設置状態の概念図である。本発明の第１の実施形態にかかる音声認識装置のブロック図である。本発明の第２の実施形態にかかる音声認識装置のブロック図である。

以下、図面を参照しながら、本発明の音声認識装置に係る好適な実施の形態について説明する。以下の説明において、異なる図面においても同じ符号を付した構成は同様のものであるとして、その説明を省略する場合がある。なお、本発明は、これらの実施形態での例示に限定されるものではなく、特許請求の範囲に記載された事項の範囲内および均等の範囲内におけるすべての変更を含む。
（第１の実施形態）
図１は、本発明にかかる音声認識装置の概念図である。
図１において、１０１は、スマートスピーカであり、１０２は、テレビジョン受信機である。
スマートスピーカ１０１およびテレビジョン受信機１０２は、それぞれネットワークに接続されている。また、図示しないが、テレビジョン受信機１０２は、スピーカから音声が出音される。加えて、スマートスピーカ１０１に対して、有線、または、無線でスピーカから出音されている音声の音声データを送信する。一方、スマートスピーカ１０１には、マイクロフォン（以下、マイクという）が内蔵されており、マイクに向かって話しかける
ことにより動作を開始する。

図２は、本発明の音声認識装置にかかる第１の実施形態のブロック図である。
図２において、２０１は、テレビジョン受信機１０１の音声ソースである。具体的にはテレビ番組等の音声等である。２０２は、テレビジョン受信機１０１のスピーカであり、２０３は、送信手段であり、スマートスピーカ等に対して音声データを送信する。２０４は、スマートスピーカ１０１のマイクであり、２０５は第１の音声認識部である。また、２０６は受信手段であり、テレビジョン受信機１０１からの音声データを受信する。２０７は第２の音声認識部であり、２０８はウェイクワード判定部である。

テレビジョン受信機１０２は、音声ソース２０１のテレビ番組等の音声等をスピーカ２０２から出音する。また、送信手段２０３からスマートスピーカ等の外部機器に対して音声データを送信する。送信手段としては、有線でも無線でも構わない。無線であればレイアウト変更などに対応しやすいメリットが有る。無線の方式としては、ＢＬＵＥＴＯＯＴＨ（登録商標）などが考えられる。一方、有線の場合は、混信などの影響が少ないというメリットが有る。

一方、スマートスピーカ１０１は、テレビジョン受信機１０２のスピーカ２０２から出音されたテレビ番組等の音声をマイク２０４で入力する。また、テレビジョン受信機１０２の送信手段２０３から出力されたテレビ番組等の音声データを受信手段２０６で受信する。
マイク２０４で受信された音声は、第１の音声認識部２０５で音声認識される。また、受信手段２０６で入力された音声データは、第２の音声認識部２０７で音声認識される。第１の音声認識部２０５で認識された音声と第２の音声認識部２０７で認識された音声は、それぞれ、ウェイクワード判定部２０８に入力される。ウェイクワード判定部２０８では、第１の音声認識部２０５で認識された音声と第２の音声認識部２０７で認識された音声に共にウェイクワードが含まれていれば、そのウェイクワードを無視する、或いはキャンセルする。即ち、そのウェイクワードが含まれていないものとして処理する。

これにより、ウェイクワード判定部２０８は、マイク２０４から入力された音声にウェイクワードが含まれており、また、ウェイクワードがテレビジョン受信機１０２から出力された音声データにも含まれていた場合、マイク２０４から入力されたウェイクワードは、テレビジョン受信機１０２のスピーカ２０２から出音されたウェイクワードであり、ユーザが音声アシスタント機能を起動させるために発したウェイクワードではないと判定して、誤って音声アシスタント機能が起動してしまうことを防止できる。

本発明のように、音声認識を行うことにより、従来技術のような、音声信号の位相合わせや音量合わせなどの処理を行うことなく、マイクにテレビジョン受信機の音声などが混入した場合などにも、それを取り除いて（或いは無視して）処理をすることにより、誤動作を防止することができる。
（第２の実施形態）
図３は、本発明の音声認識装置にかかる第２の実施形態のブロック図である。
図３において、３０１は声紋分析部であり、３０２は無音信号出力部であり、３０３はセレクタである。
図３において、テレビジョン受信機１０２の音声ソース２０１から出力されたテレビ番組等の音声信号は、スピーカ２０２から出音される。
スマートスピーカ１０１は、スピーカ２０２から出音された音声をマイク２０４で入力する。マイク２０４で入力されたテレビ番組等の音声は音声認識部２０５および声紋分析部３０１に入力される。音声認識部２０５では、入力された音声が認識され、セレクタ３０３に出力される。
セレクタ３０３には無音信号出力部３０２の信号も入力される。セレクタ３０３は、音声認識部２０５から入力された信号と、無音信号出力部３０２から入力された信号を切り換えて出力する。

声紋分析部３０１には、予めユーザの声紋を登録しておく。声紋は各人異なるため声紋を登録しておくことで登録者を認識することができる。尚、声紋分析の方法は、各種の方法が知られており、どのような方法を用いても良い。また、登録しておく声紋は、一人でも良いし、複数人でも良い。家庭内でスマートスピーカを使用する場合は、有る程度使用する人を特定することができる（例えば、家族、親戚、友人等）ので、その人たちの声紋を登録しておいても良い。
声紋分析部３０１では、マイク２０４から入力された音声が予め登録された人の音声か否かを判定する。その判定結果によって、セレクタ３０３の制御をおこなう。
即ち、マイク２０４から入力された音声が予め登録された人の音声でないと判定した場合は、セレクタ３０３の出力を無音信号出力部３０２からの信号に切換え、マイク２０４から入力された音声が予め登録された人の音声であると判定した場合は、セレクタ３０３の出力を音声認識部２０５からの信号に切換える。
かかる構成により、予め登録された人の音声以外の音声は、無音に置き換えられることになる。例えば、テレビジョン受信機１０２のスピーカ２０２から出音されたテレビ番組等の音声は無音に置き換えられる。これにより、予め声紋分析部３０１に登録しておいたユーザの音声だけがセレクタ３０３から出力される。

セレクタ３０３から出力された音声信号は、ウェイクワード判定部２０８に入力される。ウェイクワード判定部２０８ではセレクタ３０３から入力された音声信号にウェイクワードが含まれているか否かを判定する。ウェイクワードが含まれていれば、音声アシスタント機能を起動する。
（第３の実施形態）
第１の実施形態では、声紋分析は行っていないが、第１の実施形態で声紋分析を加えても良い。
例えば、第１の音声認識部２０５で音声認識に加え、声紋分析もするようにしても良い。このような構成にした場合、例えば、テレビジョン受信機１０２のスピーカ２０２から出音されたテレビ番組などの音声にウェイクワードが含まれ、また、同時に、ユーザがウェイクワードを発した場合にも誤動作を防止できる。
例えば、スマートスピーカ１０１のマイク２０４は、テレビジョン受信機１０２のスピーカ２０２から出音されたテレビ番組などの音声のウェイクワードは拾わなかったが、同時に発せられたユーザのウェイクワードは拾うことが考えられる。

このような場合、第１の音声認識部２０５、第２の音声認識部２０７の両方でウェイクワードが認識されるため第１の実施形態では、そのウェイクワードは無視されることになる。しかし、第１の音声認識部２０５で認識されたウェイクワードはユーザの発したウェイクワードなので、無視することは誤動作になる。第１の音声認識部２０５で音声認識に加え、声紋分析もすれば、第１の音声認識部２０５で認識されたウェイクワードはユーザの発したウェイクワードであることが判定できる。従って、その場合は、第１の音声認識部２０５、第２の音声認識部２０７の両方にウェイクワードが認識されてもウェイクワードを無視せずに音声アシスタント機能を起動すれば、誤動作を防止することができる。

１０１：スマートスピーカ、１０２：テレビジョン受信機、２０１：音声ソース、２０２：スピーカ、２０３：送信手段、２０４：マイク、２０５：第１の音声認識部、２０６：受信手段、２０７：第２の音声認識部、２０８：ウェイクワード判定部、３０１：声紋分析部、３０２：無音信号発生部、３０８：セレクタ

Claims

音声を入力する音声入力手段と、音声再生装置から音声データを入力する音声データ入力手段と、を具備した音声認識装置において、
前記音声入力手段から入力された音声の音声認識を行う第１の音声認識手段と、
前記音声データ入力手段から入力された音声データの音声認識を行う第２の音声認識手段と、
前記第１の音声認識手段で認識した音声の声紋を分析する声紋分析手段と、
前記第１の音声認識手段で認識した音声と前記第２の音声認識手段で認識した音声の両方にウェイクワードが含まれている場合は、ウェイクワードが含まれていないと判定する特定語判定手段と、
を具備し、
前記特定語判定手段は、前記第１の音声認識手段で認識した音声と前記第２の音声認識手段で認識した音声の両方にウェイクワードが含まれている場合であっても、前記声紋分析手段で分析された音声が予め登録された声紋に一致する場合は、前記ウェイクワードが含まれていると判定する、
ことを特徴とする音声認識装置。
音声を入力し、また、音声再生装置から音声データを入力する音声認識方法であって、
入力された音声の音声認識を行い、
入力された音声データの音声認識を行い、
前記音声認識された音声の声紋分析を行い、
前記音声認識された音声と音声データの両方にウェイクワードが含まれている場合は、ウェイクワードが含まれていないと判定し、
前記音声認識された音声と前記音声認識された音声データの両方にウェイクワードが含まれている場合であっても、前記声紋分析された音声が予め登録された声紋に一致する場合は、前記ウェイクワードが含まれていると判定することを特徴とする音声認識方法。