JP7197992B2 - 音声認識装置、音声認識方法 - Google Patents
音声認識装置、音声認識方法 Download PDFInfo
- Publication number
- JP7197992B2 JP7197992B2 JP2018075248A JP2018075248A JP7197992B2 JP 7197992 B2 JP7197992 B2 JP 7197992B2 JP 2018075248 A JP2018075248 A JP 2018075248A JP 2018075248 A JP2018075248 A JP 2018075248A JP 7197992 B2 JP7197992 B2 JP 7197992B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- recognized
- speech recognition
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
音声アシスタント機能は主にスマートフォンなどの携帯機器に搭載されている。このような音声アシスタント機能は、特定の言葉(以下、ウェイクワードという)を認識させることで起動する。
このようなスピーカは、一般に、AIスピーカ、またはスマートスピーカ等と呼ばれている。スマートスピーカはネットワークに接続されており、スマートスピーカに話しかけると、スマートスピーカに内蔵されているマイクロフォンから入力された音声をネットワーク上のAIで認識し、入力された音声に応答する動作を行う。例えば、音楽の検索を行い、音楽を再生する。または、その他の調べ物の検索結果等を音声で回答する。或いは、ネットワークに接続された機器の制御などを行う。
スマートスピーカにおける音声アシスタント機能の起動は、スマートフォンと同様に予め定められた特定の言葉(ウェイクワード)をスマートスピーカに向かって話しかけることにより行われる。
このようなスマートスピーカは、部屋に置かれ、周囲には各種の音或いは音声を発する機器が置かれていることが想定される。各種の音或いは音声を発する機器とは、例えば、テレビジョン受信機、ラジオ受信機、オーディオ機器などである。
このような使用シーンにおいて、例えば、テレビジョン受信機から出音されたテレビ番組或いはコマーシャルなどの音声にウェイクワードが含まれていたりすると、スマートスピーカのマイクロフォンがそのウェイクワードを拾ってしまい、音声アシスタント機能が起動してしまうという誤動作が起こる問題が有る。
かかる技術は、例えば、マイクロフォンに向かって音声による命令を出す際に近くにテレビジョン受信機が有り、命令の音声とテレビ番組の音声が混合して入力されるような場合、テレビジョン受信機から直接音声情報を入力し、マイクロフォンに入力された音声からテレビ番組の音声をキャンセルする。これにより、音声認識の誤動作を防止するものである。
ここで、テレビジョン受信機から直接入力されたテレビ番組の音声とマイクロフォンから
入力されたテレビ番組の音声をキャンセルするには、双方の音声信号の位相や音量を合わせる必要が有る。そのため、特許文献1では位相や音量を合わせるための手段(雑音除去
部26)が設けられている。
(第1の実施形態)
図1は、本発明にかかる音声認識装置の概念図である。
図1において、101は、スマートスピーカであり、102は、テレビジョン受信機である。
スマートスピーカ101およびテレビジョン受信機102は、それぞれネットワークに接続されている。また、図示しないが、テレビジョン受信機102は、スピーカから音声が出音される。加えて、スマートスピーカ101に対して、有線、または、無線でスピーカから出音されている音声の音声データを送信する。一方、スマートスピーカ101には、マイクロフォン(以下、マイクという)が内蔵されており、マイクに向かって話しかける
ことにより動作を開始する。
図2において、201は、テレビジョン受信機101の音声ソースである。具体的にはテレビ番組等の音声等である。202は、テレビジョン受信機101のスピーカであり、203は、送信手段であり、スマートスピーカ等に対して音声データを送信する。204は、スマートスピーカ101のマイクであり、205は第1の音声認識部である。また、206は受信手段であり、テレビジョン受信機101からの音声データを受信する。207は第2の音声認識部であり、208はウェイクワード判定部である。
マイク204で受信された音声は、第1の音声認識部205で音声認識される。また、受信手段206で入力された音声データは、第2の音声認識部207で音声認識される。第1の音声認識部205で認識された音声と第2の音声認識部207で認識された音声は、それぞれ、ウェイクワード判定部208に入力される。ウェイクワード判定部208では、第1の音声認識部205で認識された音声と第2の音声認識部207で認識された音声に共にウェイクワードが含まれていれば、そのウェイクワードを無視する、或いはキャンセルする。即ち、そのウェイクワードが含まれていないものとして処理する。
(第2の実施形態)
図3は、本発明の音声認識装置にかかる第2の実施形態のブロック図である。
図3において、301は声紋分析部であり、302は無音信号出力部であり、303はセレクタである。
図3において、テレビジョン受信機102の音声ソース201から出力されたテレビ番組等の音声信号は、スピーカ202から出音される。
スマートスピーカ101は、スピーカ202から出音された音声をマイク204で入力する。マイク204で入力されたテレビ番組等の音声は音声認識部205および声紋分析部301に入力される。音声認識部205では、入力された音声が認識され、セレクタ303に出力される。
セレクタ303には無音信号出力部302の信号も入力される。セレクタ303は、音声認識部205から入力された信号と、無音信号出力部302から入力された信号を切り換えて出力する。
声紋分析部301では、マイク204から入力された音声が予め登録された人の音声か否かを判定する。その判定結果によって、セレクタ303の制御をおこなう。
即ち、マイク204から入力された音声が予め登録された人の音声でないと判定した場合は、セレクタ303の出力を無音信号出力部302からの信号に切換え、マイク204から入力された音声が予め登録された人の音声であると判定した場合は、セレクタ303の出力を音声認識部205からの信号に切換える。
かかる構成により、予め登録された人の音声以外の音声は、無音に置き換えられることになる。例えば、テレビジョン受信機102のスピーカ202から出音されたテレビ番組等の音声は無音に置き換えられる。これにより、予め声紋分析部301に登録しておいたユーザの音声だけがセレクタ303から出力される。
(第3の実施形態)
第1の実施形態では、声紋分析は行っていないが、第1の実施形態で声紋分析を加えても良い。
例えば、第1の音声認識部205で音声認識に加え、声紋分析もするようにしても良い。このような構成にした場合、例えば、テレビジョン受信機102のスピーカ202から出音されたテレビ番組などの音声にウェイクワードが含まれ、また、同時に、ユーザがウェイクワードを発した場合にも誤動作を防止できる。
例えば、スマートスピーカ101のマイク204は、テレビジョン受信機102のスピーカ202から出音されたテレビ番組などの音声のウェイクワードは拾わなかったが、同時に発せられたユーザのウェイクワードは拾うことが考えられる。
Claims (2)
- 音声を入力する音声入力手段と、音声再生装置から音声データを入力する音声データ入力手段と、を具備した音声認識装置において、
前記音声入力手段から入力された音声の音声認識を行う第1の音声認識手段と、
前記音声データ入力手段から入力された音声データの音声認識を行う第2の音声認識手段と、
前記第1の音声認識手段で認識した音声の声紋を分析する声紋分析手段と、
前記第1の音声認識手段で認識した音声と前記第2の音声認識手段で認識した音声の両方にウェイクワードが含まれている場合は、ウェイクワードが含まれていないと判定する特定語判定手段と、
を具備し、
前記特定語判定手段は、前記第1の音声認識手段で認識した音声と前記第2の音声認識手段で認識した音声の両方にウェイクワードが含まれている場合であっても、前記声紋分析手段で分析された音声が予め登録された声紋に一致する場合は、前記ウェイクワードが含まれていると判定する、
ことを特徴とする音声認識装置。 - 音声を入力し、また、音声再生装置から音声データを入力する音声認識方法であって、
入力された音声の音声認識を行い、
入力された音声データの音声認識を行い、
前記音声認識された音声の声紋分析を行い、
前記音声認識された音声と音声データの両方にウェイクワードが含まれている場合は、ウェイクワードが含まれていないと判定し、
前記音声認識された音声と前記音声認識された音声データの両方にウェイクワードが含まれている場合であっても、前記声紋分析された音声が予め登録された声紋に一致する場合は、前記ウェイクワードが含まれていると判定することを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018075248A JP7197992B2 (ja) | 2018-04-10 | 2018-04-10 | 音声認識装置、音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018075248A JP7197992B2 (ja) | 2018-04-10 | 2018-04-10 | 音声認識装置、音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019184809A JP2019184809A (ja) | 2019-10-24 |
JP7197992B2 true JP7197992B2 (ja) | 2022-12-28 |
Family
ID=68340331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018075248A Active JP7197992B2 (ja) | 2018-04-10 | 2018-04-10 | 音声認識装置、音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7197992B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4095823A4 (en) | 2020-01-21 | 2024-01-24 | Pioneer Corp | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, INFORMATION PROCESSING PROGRAM AND STORAGE MEDIUM |
JP7484286B2 (ja) | 2020-03-24 | 2024-05-16 | 大日本印刷株式会社 | 画面録画システム、テレビ、画面録画方法、及びプログラム |
US20230115900A1 (en) | 2020-03-27 | 2023-04-13 | Pioneer Corporation | Information processing apparatus, information processing method, information processing program, and storage medium |
WO2021235157A1 (ja) * | 2020-05-18 | 2021-11-25 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014092777A (ja) | 2012-11-06 | 2014-05-19 | Magic Hand:Kk | モバイル通信機器の音声による起動 |
WO2014103099A1 (ja) | 2012-12-28 | 2014-07-03 | パナソニック株式会社 | 音声認識付き機器及び音声認識方法 |
US20140249817A1 (en) | 2013-03-04 | 2014-09-04 | Rawles Llc | Identification using Audio Signatures and Additional Characteristics |
-
2018
- 2018-04-10 JP JP2018075248A patent/JP7197992B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014092777A (ja) | 2012-11-06 | 2014-05-19 | Magic Hand:Kk | モバイル通信機器の音声による起動 |
WO2014103099A1 (ja) | 2012-12-28 | 2014-07-03 | パナソニック株式会社 | 音声認識付き機器及び音声認識方法 |
US20140249817A1 (en) | 2013-03-04 | 2014-09-04 | Rawles Llc | Identification using Audio Signatures and Additional Characteristics |
Also Published As
Publication number | Publication date |
---|---|
JP2019184809A (ja) | 2019-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8260618B2 (en) | Method and apparatus for remote control of devices through a wireless headset using voice activation | |
JP7197992B2 (ja) | 音声認識装置、音声認識方法 | |
US10079017B1 (en) | Speech-responsive portable speaker | |
JP5419361B2 (ja) | 音声制御システムおよび音声制御方法 | |
US11343607B2 (en) | Automatic active noise reduction (ANR) control to improve user interaction | |
US9324322B1 (en) | Automatic volume attenuation for speech enabled devices | |
EP2314077B1 (en) | Wearable headset with self-contained vocal feedback and vocal command | |
US7536212B2 (en) | Communication system using short range radio communication headset | |
US20150281853A1 (en) | Systems and methods for enhancing targeted audibility | |
US20060028337A1 (en) | Voice-operated remote control for TV and electronic systems | |
JP2011022600A (ja) | 音声認識システムの動作方法 | |
US20240005918A1 (en) | System For Recognizing and Responding to Environmental Noises | |
KR102374054B1 (ko) | 음성 인식 방법 및 이에 사용되는 장치 | |
WO2019228329A1 (zh) | 个人听力装置、外部声音处理装置及相关计算机程序产品 | |
US11200877B2 (en) | Face mask for facilitating conversations | |
JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
JP2005192004A (ja) | ヘッドセットおよびヘッドセットの音楽データの再生制御方法 | |
KR102573242B1 (ko) | 비명소리 인식을 위한 사운드장치 | |
KR102495019B1 (ko) | 동물소리 인식 사운드장치 | |
KR102495028B1 (ko) | 휘파람소리 인식 기능이 구비된 사운드장치 | |
KR20090059437A (ko) | 휴대 단말기 및 그 통화 기능 수행 방법 | |
CN109243452A (zh) | 一种用于声音控制的方法及系统 | |
KR102331234B1 (ko) | 음성 인식 방법 및 이에 사용되는 장치 | |
KR20240041956A (ko) | Tv 및 리모컨을 포함하는 시스템 및 그 제어 방법 | |
WO2019175960A1 (ja) | 音声処理装置および音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211214 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20220106 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7197992 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |