JP2020177060A - 音声認識システム、及び、音声認識方法 - Google Patents

音声認識システム、及び、音声認識方法 Download PDF

Info

Publication number
JP2020177060A
JP2020177060A JP2019077585A JP2019077585A JP2020177060A JP 2020177060 A JP2020177060 A JP 2020177060A JP 2019077585 A JP2019077585 A JP 2019077585A JP 2019077585 A JP2019077585 A JP 2019077585A JP 2020177060 A JP2020177060 A JP 2020177060A
Authority
JP
Japan
Prior art keywords
voice
recognition
command
recorded
trigger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019077585A
Other languages
English (en)
Inventor
裕介 森川
Yusuke Morikawa
裕介 森川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Onkyo Corp
Original Assignee
Onkyo Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Onkyo Corp filed Critical Onkyo Corp
Priority to JP2019077585A priority Critical patent/JP2020177060A/ja
Publication of JP2020177060A publication Critical patent/JP2020177060A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】ボイストリガーとコマンドとが連続した発音されても、コマンドを認識可能とすること。【解決手段】音声認識システム1は、音声を録音する録音処理と、録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、を行う。また、必要に応じて、音声認識システム1は、録音処理によって録音された音声のサンプリング周波数を変換するサンプリング周波数変換処理と、録音処理によって録音された音声のビット深度を変換するビット深度変換処理と、を行う。【選択図】図2

Description

本発明は、音声認識を行う音声認識システム、及び、音声認識方法に関する。
音声認識を行う音声認識システムは、例えば、スピーカー装置等の電子機器と、クラウドサーバーと、から構成される。電子機器は、マイクとスピーカーとを備える。音声認識システムは、マイクから入力される音声を認識し、認識した音声に基づいて、処理を実行し、実行結果をスピーカーから出力する。例えば、ユーザーが、「今日の天気は」というコマンドを発話した場合、音声認識システムに含まれる電子機器から、「今日の天気は晴れです。」という音声が出力される。
音声認識を行う音声認識システムの中には、音声認識を有効とするためのボイストリガー(ホットワード)を検出した場合に、その後のコマンドの音声認識を行うものがある(図3参照。)。特許文献1には、ボイストリガーとして、「オーケーコンピュータ」が記載されている。従来の音声認識システムにおいては、ボイストリガーを認識する機能と、ボイストリガー認識後にコマンドを認識する機能と、では、それぞれ、独立したソリューションが提供されている。
特開2017−076117号公報
ボイストリガー認識機能と、コマンド認識機能と、の両機能は、音声の録音処理が必要であるという点では、共通している。そのため、両機能を結合するだけでは、録音処理を別々に行うこととなり、録音処理の連続性が失われ、音声認識ができない区間が生じてしまう。これにより、ユーザーがボイストリガーとコマンドとを連続して発音した場合、コマンドの認識が正しく行われないという問題がある。
本発明の目的は、ボイストリガーとコマンドとが連続した発音されても、コマンドを認識可能とすることである。
第1の発明の音声認識システムは、音声を録音する録音処理と、前記録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、前記録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、を行うことを特徴とする。
本発明では、録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、が行われる。従って、録音処理は、ボイストリガー認識処理と、コマンド認識処理と、から独立して、これらの処理と並行して行われ、ボイストリガー認識処理とコマンド認識処理との間も連続して行われる。このため、ボイストリガーとコマンドとが、連続して発音されても、コマンドを認識することができる。
なお、ここでは、音声認識を有効とするためのワード(例えば、「オーケーコンピュータ」等)を、ボイストリガーと呼ぶが、ホットワード、トリガーワード等と呼ばれる場合があり、これらの文言を含む概念である。
第2の発明の音声認識システムは、第1の発明の音声認識システムにおいて、前記録音処理によって録音された音声のサンプリング周波数を変換するサンプリング周波数変換処理をさらに行い、前記サンプリング変換処理によってサンプリング周波数が変換された音声に基づいて、前記ボイストリガー認識処理と、前記コマンド認識処理と、を行うことを特徴とする。
ボイストリガー認識処理とコマンド認識処理とは、録音された音声のサンプリング周波数で処理が行われるとは限らない。本発明では、録音処理によって録音された音声のサンプリング周波数の変換が行われ、サンプリング変換処理によってサンプリング周波数が変換された音声に基づいて、ボイストリガー認識処理と、コマンド認識処理と、が行われる。このため、各処理に適したサンプリング周波数の音声を提供することができる。
第3の発明の音声認識システムは、第1又は第2の発明の音声認識システムにおいて、前記録音処理によって録音された音声のビット深度を変換するビット深度変換処理をさらに行い、前記ビット深度処理によってビット深度が変換された音声に基づいて、前記ボイストリガー認識処理と、前記コマンド認識処理と、を行うことを特徴とする。
ボイストリガー認識処理とコマンド認識処理とは、録音されたビット深度で処理が行われるとは限らない。本発明では、録音処理によって録音された音声のビット深度の変換が行われ、ビット深度変換処理によってビット深度が変換された音声に基づいて、ボイストリガー認識処理と、コマンド認識処理と、が行われる。このため、各処理に適したビット深度の音声を提供することができる。
第4の発明の音声認識方法は、音声を録音する録音処理と、前記録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、前記録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、を行うことを特徴とする。
本発明によれば、ボイストリガーとコマンドとが、連続して発音されても、コマンドを認識することができる。
本発明の実施形態に係る音声認識システムの構成を示す図である。 本発明の実施形態に係る録音機能と、ボイストリガー認識機能と、コマンド認識機能と、を示す図である。 従来のボイストリガー認識機能と、コマンド認識機能と、を示す図である。
以下、本発明の実施形態について説明する。図1は、本発明の実施形態係る音声認識システムの構成を示すブロック図である。音声認識を行う音声認識システム1は、電子機器と、クラウドサーバーと、を備える。電子機器は、図示しないが、SoC(System on Chip)と、マイクと、スピーカーと、等を備える。SoCは、電子機器を構成する各部を制御する。本実施形態では、音声認識システム1は、電子機器と、クラウドサーバーと、によって、構成され、電子機器とクラウドサーバーとが協働して、音声認識を行う。なお、本実施形態では、音声認識システムは、電子機器と、クラウドサーバーと、によって構成される。これに限らず、音声認識システム1は、電子機器のみ、又は、クラウドサーバーのみによって構成されていてもよい。
マイクは、音声を集音する。マイクにより集音された音声は、録音される。音声認識システム1は、音声を録音する録音処理を行う。音声認識ステム1は、録音処理によって録音された音声のサンプリング周波数を変換するサンプリング周波数変換処理を行う。また、音声認識システム1は、録音処理によって録音された音声のビット深度を変換するビット深度変換処理を行う。録音処理によって録音された音声は、必要に応じて、サンプリング周波数変換処理、ビット深度変換処理のいずれか、又は、双方が行われた後、ボイストリガー認識処理、コマンド認識処理が行われる。なお、録音処理、サンプリング周波数変換処理、及び、ビット深度変換処理を併せて、「録音機能」ともいう。
ボイストリガー認識処理(機能)は、録音処理(機能)によって録音された音声に基づいて、ボイストリガーを認識する処理である。コマンド認識処理(機能)は、録音処理(機能)によって録音された音声に基づいて、コマンドを認識する処理である。音声認識システム1は、これらの処理を行う。
サンプリング周波数変換処理において、録音処理によって録音された音声は、ボイストリガー認識処理、コマンド認識処理に適したサンプリング周波数に変換される。例えば、ボイストリガー認識処理において、サンプリング周波数11kHzの音声に、ボイストリガー認識が行われる場合、録音処理によって録音された音声は、サンプリング周波数11kHzに変換される。また、例えば、コマンド認識処理において、サンプリング周波数8kHzの音声に、コマンド認識が行われる場合、録音処理によって録音された音声は、サンプリング周波数8kHzに変換される。なお、録音処理によって録音された音声が、各処理に適したサンプリング周波数であれば、サンプリング周波数変換処理は、行われない。
ビット深度変換処理において、録音処理によって録音された音声は、ボイストリガー認識処理、コマンド認識処理に適したビット深度に変換される。例えば、ボイストリガー認識処理において、ビット深度16bitの音声に、ボイストリガー認識が行われる場合、録音処理によって録音された音声は、ビット深度15bitに変換される。また、例えば、コマンド認識処理において、ビット深度8bitの音声に、コマンド認識が行われる場合、録音処理によって録音された音声は、サンプリング周波数8kHzに変換される。なお、録音処理によって録音された音声が、各処理に適したビット深度であれば、ビット深度変換処理は、行われない。
なお、録音処理によって録音された音声のサンプリング周波数が変換されている場合、ボイストリガー認識処理、及び、コマンド認識処理は、サンプリング周波数が変換された音声に行われる。また、録音処理によって録音された音声のビット深度が変換されている場合、ボイストリガー認識処理、及び、コマンド認識処理は、ビット深度が変換された音声に行われる。
以上説明したように、本実施形態では、録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、が行われる。従って、録音処理は、ボイストリガー認識処理と、コマンド認識処理と、から独立して、これらの処理と並行して行われ、ボイストリガー認識処理とコマンド認識処理との間も連続して行われる。このため、ボイストリガーとコマンドとが、連続して発音されても、コマンドを認識することができる。
ボイストリガー認識処理とコマンド認識処理とは、録音された音声のサンプリング周波数で処理が行われるとは限らない。本発明では、録音処理によって録音された音声のサンプリング周波数の変換が行われ、サンプリング変換処理によってサンプリング周波数が変換された音声に基づいて、ボイストリガー認識処理と、コマンド認識処理と、が行われる。このため、各処理に適したサンプリング周波数の音声を提供することができる。
ボイストリガー認識処理とコマンド認識処理とは、録音されたビット深度で処理が行われるとは限らない。本発明では、録音処理によって録音された音声のビット深度の変換が行われ、ビット深度変換処理によってビット深度が変換された音声に基づいて、ボイストリガー認識処理と、コマンド認識処理と、が行われる。このため、各処理に適したビット深度の音声を提供することができる。
なお、本実施形態では、音声認識システム1は、電子機器と、クラウドサーバーと、によって構成されており、録音機能、ボイストリガー認識機能、コマンド認識機能は、電子機器(SoC)、クラウドサーバーのいずれかによって行われる。音声認識システム1が、電子機器、クラウドサーバーのいずれかによってのみ構成されている場合、録音機能、ボイストリガー認識機能、コマンド認識機能は、いずれによってのみ行われる。
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に好適に採用され得る。
1 音声認識システム

Claims (4)

  1. 音声を録音する録音処理と、
    前記録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、
    前記録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、を行うことを特徴とする音声認識システム。
  2. 前記録音処理によって録音された音声のサンプリング周波数を変換するサンプリング周波数変換処理をさらに行い、
    前記サンプリング変換処理によってサンプリング周波数が変換された音声に基づいて、前記ボイストリガー認識処理と、前記コマンド認識処理と、を行うことを特徴とする請求項1に記載の音声認識システム。
  3. 前記録音処理によって録音された音声のビット深度を変換するビット深度変換処理をさらに行い、
    前記ビット深度処理によってビット深度が変換された音声に基づいて、前記ボイストリガー認識処理と、前記コマンド認識処理と、を行うことを特徴とする請求項1又は2に記載の音声認識システム。
  4. 音声を録音する録音処理と、
    前記録音処理によって録音された音声に基づいて、ボイストリガーを認識するボイストリガー認識処理と、
    前記録音処理によって録音された音声に基づいて、コマンドを認識するコマンド認識処理と、を行うことを特徴とする音声認識方法。
JP2019077585A 2019-04-16 2019-04-16 音声認識システム、及び、音声認識方法 Pending JP2020177060A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019077585A JP2020177060A (ja) 2019-04-16 2019-04-16 音声認識システム、及び、音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019077585A JP2020177060A (ja) 2019-04-16 2019-04-16 音声認識システム、及び、音声認識方法

Publications (1)

Publication Number Publication Date
JP2020177060A true JP2020177060A (ja) 2020-10-29

Family

ID=72935616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019077585A Pending JP2020177060A (ja) 2019-04-16 2019-04-16 音声認識システム、及び、音声認識方法

Country Status (1)

Country Link
JP (1) JP2020177060A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022123622A1 (ja) * 2020-12-07 2022-06-16 株式会社デンソーテン 音声信号処理装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022123622A1 (ja) * 2020-12-07 2022-06-16 株式会社デンソーテン 音声信号処理装置及び方法

Similar Documents

Publication Publication Date Title
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
MX2021014721A (es) Sistemas y metodos para aprendizaje de maquina de atributos de voz.
JPWO2019106517A5 (ja)
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
JP6594839B2 (ja) 話者数推定装置、話者数推定方法、およびプログラム
JP2005055668A (ja) 音声処理装置
JP5099211B2 (ja) 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
JP2020177060A (ja) 音声認識システム、及び、音声認識方法
JP5342629B2 (ja) 男女声識別方法、男女声識別装置及びプログラム
JP2019113636A (ja) 音声認識システム
US20180366127A1 (en) Speaker recognition based on discriminant analysis
CN115699170A (zh) 文本回声消除
JP5293478B2 (ja) 音声認識用の閾値管理プログラム、音声認識用の閾値管理方法、音声認識装置
JP2009288567A (ja) 議事録作成装置、議事録作成方法、議事録作成プログラム、議事録作成システム
US20190392812A1 (en) Method for adjusting voice frequency and sound playing device thereof
CN113035225A (zh) 视觉声纹辅助的语音分离方法及装置
JP2019139146A (ja) 音声認識システム、及び、音声認識方法
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN110661923A (zh) 一种在会议中记录发言信息的方法和装置
JP6539940B2 (ja) 音声認識装置及び音声認識プログラム
JP2010164992A (ja) 音声対話装置
KR20200053242A (ko) 차량용 음성 인식 시스템 및 그 제어 방법
WO2019030810A1 (ja) 音声認識装置および音声認識方法
CN110738990A (zh) 识别语音的方法和装置
KR20190120535A (ko) 음성 신호 선별 기반 음성 인식 장치

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210928