JP2016180915A - 音声認識システム、クライアント装置、音声認識方法、プログラム - Google Patents
音声認識システム、クライアント装置、音声認識方法、プログラム Download PDFInfo
- Publication number
- JP2016180915A JP2016180915A JP2015061832A JP2015061832A JP2016180915A JP 2016180915 A JP2016180915 A JP 2016180915A JP 2015061832 A JP2015061832 A JP 2015061832A JP 2015061832 A JP2015061832 A JP 2015061832A JP 2016180915 A JP2016180915 A JP 2016180915A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- voice recognition
- acoustic signal
- client device
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
収音条件は、例えば音声信号の大きさと背景雑音信号の大きさの比率であるS/N比に関する特徴量、音響信号のひずみに関する特徴量、背景雑音信号のスペクトル形状に関する特徴量、背景雑音信号の大きさに関する特徴量のうち少なくとも何れかの特徴量についてのしきい値に基づく条件とすることができる。しきい値は、しきい値記憶部111に予め記憶されているものとする。
以下に、収音条件抽出部11、選択部12の動作(S11、S12)の例について述べる。収音条件抽出部11は、例えば入力された音響信号から収音条件を表す特徴量を抽出し、特徴量の値に応じて入力された音響信号をグループ(例えば収音条件を表す符号)に分ける。
信号処理部13は、抽出された収音条件が所定の条件に該当する場合に、対応する音響信号を信号処理する(S13)。具体的には信号処理部13は、S/N比や背景雑音信号の大きさが、収音条件抽出部11で抽出された収音条件に基づいて決定される音声認識サーバ装置において音声認識対象として想定していた特徴量の範囲に適合するように、対応する音響信号を信号処理する。例えばS/N比=1近傍、すなわち0dB近傍の収音条件は、音声信号の大きさと背景雑音信号の大きさが同等であり、そのような音響信号をそのまま音声認識に用いれば性能の低下を招きやすい。従って、S/N比=0dB近傍の収音条件を収音条件抽出部11で抽出した場合は、当該収音条件の音響信号に対して背景雑音信号を抑圧する信号処理を信号処理部13で適用する。あるいは例えばS/N比=100近傍、すなわち20dB近傍の収音条件を収音条件抽出部11で抽出した場合は、前述の0dB近傍の収音条件と同様に、S/N比の値に応じて適応的に背景雑音信号を抑圧する処理を行うとしても良いし、抑圧する処理を全く行わないとしても良い。その他の収音条件においても、信号処理部13において、収音条件抽出部11で抽出した結果に基づき、音響信号への信号処理を適応的に行う。
(参考特許文献1:特許第4464797号公報)
(参考特許文献2:特許第5200080号公報)
Automatic Gain Control(AGC)は、入力音声信号の短時間平均パワーまたは短時間平均振幅をもとに入力信号レベルを検出し、入力信号レベルと最適レベル(目標値)との差分が少なくなるように音声入力段の利得(ゲイン)を調整する処理である。AGCはA/D変換後の音声波形が過少または過大になって音声特徴量が不明瞭になることを防ぐ効果がある。AGCについては、例えば参考特許文献3の段落[0001]に開示されている。
(参考特許文献3:特許第3588555号公報)
Cepstrum Mean Normalization(CMN)とは、音声認識の特徴量であるケプストラムにおいて、入力音声信号の長時間ケプストラム平均を求め、各フレームの入力音声のケプストラムから長時間ケプストラム平均をさし引く処理である。CMNは、マイクロホンの特性、マイクロホンの位置、部屋の形状に代表される乗算性ひずみの影響を軽減するために用いられる。CMNについては、例えば参考特許文献1の段落[0010]に開示されている。
イコライザとは、入力音声信号のゲインを周波数帯域ごとに調整する処理である。例えば音声入力用のマイクロホンの音響特性が平坦でないことが予めわかっていれば、イコライザを経由することで、音響特性を改善したうえで収音することができる。イコライザについては、例えば参考特許文献4の段落[0010]、[0016]に開示されている。
(参考特許文献4:特許第2865268号公報)
ステップS21Bの音声認識処理は、例えば以下のように実行される。音声認識サーバ装置は、一文章や一単語の発話を文字列に変換する。音声認識サーバ装置は、音声特徴量として音声のパワーやその変化量、MFCC(メル周波数ケプストラム、Mel-Frequency Cepstrum Coefficient)やその動的変化量を用いる。音声認識サーバ装置は、統計的な音響モデルや言語モデルを用いて単語列を探索する。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (9)
- クライアント装置と、複数の音声認識サーバ装置を含む音声認識システムであって、
前記音声認識サーバ装置のそれぞれは、
前記クライアント装置に入力される音響信号の収音条件に基づいて前記音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとし、
前記クライアント装置は、
入力された音響信号の収音条件を抽出する収音条件抽出部と、
前記抽出された収音条件に対応する音声認識サーバ装置に、前記音響信号または前記音響信号に由来する信号を送信する送信部を含む
音声認識システム。 - 請求項1に記載の音声認識システムであって、
前記特性は、雑音特性である
音声認識システム。 - 請求項1または2に記載の音声認識システムであって、
前記クライアント装置は、
前記抽出された収音条件が所定の条件に該当する場合に、対応する音響信号を信号処理する信号処理部を含み、
前記送信部は、
前記信号処理がされていない場合と前記信号処理がされた場合とで送信先を異ならせて、前記信号処理がされていない音声信号、または前記信号処理がされた音響信号を送信する
音声認識システム。 - 請求項1から3の何れかに記載の音声認識システムであって、
前記クライアント装置は、
前記抽出された収音条件に基づいて、対応する音響信号の送信先となる音声認識サーバ装置を選択する選択部を含む
音声認識システム。 - 請求項1から4の何れかに記載の音声認識システムであって、
前記収音条件は、
前記音響信号に含まれる音声信号の大きさと背景雑音信号の大きさの比率であるS/N比に関する特徴量、前記音響信号のひずみに関する特徴量、前記背景雑音信号のスペクトル形状に関する特徴量、前記背景雑音信号の大きさに関する特徴量のうち少なくとも何れかの特徴量についてのしきい値に基づく条件である
音声認識システム。 - 複数の音声認識サーバ装置と通信するクライアント装置であって、
入力された音響信号の収音条件を抽出する収音条件抽出部と、
前記抽出された収音条件が所定の条件に該当する場合に前記音響信号を信号処理する信号処理部と、
前記信号処理がされていない場合と前記信号処理がされた場合とで送信先を異ならせて、前記信号処理がされていない音響信号、または前記信号処理がされた音響信号を前記音声認識サーバ装置の何れかに送信する送信部を含む
クライアント装置。 - 複数の音声認識サーバ装置と通信するクライアント装置であって、
入力された音響信号の収音条件を抽出する収音条件抽出部と、
前記抽出された収音条件に基づいて、対応する音響信号の送信先となる音声認識サーバ装置を選択する選択部と、
前記選択された音声認識サーバ装置に、前記音響信号または前記音響信号に由来する信号を送信する送信部を含む
クライアント装置。 - 複数の音声認識サーバ装置と通信するクライアント装置が実行する音声認識方法であって、
前記音声認識サーバ装置のそれぞれは、
前記クライアント装置に入力される音響信号の収音条件に基づいて前記音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとし、
前記クライアント装置は、
入力された音響信号の収音条件を抽出するステップと、
前記抽出された収音条件に対応する音声認識サーバ装置に、前記音響信号または前記音響信号に由来する信号を送信するステップを実行する
音声認識方法。 - コンピュータを、請求項6または7に記載のクライアント装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015061832A JP6320963B2 (ja) | 2015-03-25 | 2015-03-25 | 音声認識システム、クライアント装置、音声認識方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015061832A JP6320963B2 (ja) | 2015-03-25 | 2015-03-25 | 音声認識システム、クライアント装置、音声認識方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016180915A true JP2016180915A (ja) | 2016-10-13 |
JP6320963B2 JP6320963B2 (ja) | 2018-05-09 |
Family
ID=57132744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015061832A Active JP6320963B2 (ja) | 2015-03-25 | 2015-03-25 | 音声認識システム、クライアント装置、音声認識方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6320963B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111862949A (zh) * | 2020-07-30 | 2020-10-30 | 北京小米松果电子有限公司 | 自然语言的处理方法及装置、电子设备及存储介质 |
CN112130801A (zh) * | 2019-06-07 | 2020-12-25 | 雅马哈株式会社 | 音响装置及音响处理方法 |
US11600262B2 (en) | 2018-06-07 | 2023-03-07 | Kabushiki Kaisha Toshiba | Recognition device, method and storage medium |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001331798A (ja) * | 2000-05-22 | 2001-11-30 | Nec Corp | 分散データベース高速アクセス方式を併用した認識システム |
JP2003140691A (ja) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | 音声認識装置 |
JP2003177790A (ja) * | 2001-09-13 | 2003-06-27 | Matsushita Electric Ind Co Ltd | 端末装置、サーバ装置および音声認識方法 |
JP2003241788A (ja) * | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
JP2005338286A (ja) * | 2004-05-25 | 2005-12-08 | Yamaha Motor Co Ltd | 対象音処理装置およびこれを用いた輸送機器システム、ならびに対象音処理方法 |
WO2011148594A1 (ja) * | 2010-05-26 | 2011-12-01 | 日本電気株式会社 | 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム |
JP2014109601A (ja) * | 2012-11-30 | 2014-06-12 | Ntt Docomo Inc | 音声処理システム、音声処理装置、音声処理方法及びプログラム |
-
2015
- 2015-03-25 JP JP2015061832A patent/JP6320963B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001331798A (ja) * | 2000-05-22 | 2001-11-30 | Nec Corp | 分散データベース高速アクセス方式を併用した認識システム |
JP2003177790A (ja) * | 2001-09-13 | 2003-06-27 | Matsushita Electric Ind Co Ltd | 端末装置、サーバ装置および音声認識方法 |
JP2003140691A (ja) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | 音声認識装置 |
JP2003241788A (ja) * | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
JP2005338286A (ja) * | 2004-05-25 | 2005-12-08 | Yamaha Motor Co Ltd | 対象音処理装置およびこれを用いた輸送機器システム、ならびに対象音処理方法 |
WO2011148594A1 (ja) * | 2010-05-26 | 2011-12-01 | 日本電気株式会社 | 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム |
JP2014109601A (ja) * | 2012-11-30 | 2014-06-12 | Ntt Docomo Inc | 音声処理システム、音声処理装置、音声処理方法及びプログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11600262B2 (en) | 2018-06-07 | 2023-03-07 | Kabushiki Kaisha Toshiba | Recognition device, method and storage medium |
CN112130801A (zh) * | 2019-06-07 | 2020-12-25 | 雅马哈株式会社 | 音响装置及音响处理方法 |
CN111862949A (zh) * | 2020-07-30 | 2020-10-30 | 北京小米松果电子有限公司 | 自然语言的处理方法及装置、电子设备及存储介质 |
CN111862949B (zh) * | 2020-07-30 | 2024-04-02 | 北京小米松果电子有限公司 | 自然语言的处理方法及装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6320963B2 (ja) | 2018-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10867618B2 (en) | Speech noise reduction method and device based on artificial intelligence and computer device | |
JP6889698B2 (ja) | 音声を増幅する方法及び装置 | |
CN106648527A (zh) | 一种音量控制方法、装置以及播放设备 | |
WO2022012195A1 (zh) | 音频信号处理方法和相关装置 | |
US20060253285A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
JPH09212196A (ja) | 雑音抑圧装置 | |
CN101023469A (zh) | 数字滤波方法和装置 | |
CN110047519B (zh) | 一种语音端点检测方法、装置及设备 | |
JP6320963B2 (ja) | 音声認識システム、クライアント装置、音声認識方法、プログラム | |
JP6389787B2 (ja) | 音声認識システム、音声認識方法、プログラム | |
CN110797031A (zh) | 语音变音检测方法、系统、移动终端及存储介质 | |
US20160027438A1 (en) | Concurrent Segmentation of Multiple Similar Vocalizations | |
JP2016090799A (ja) | 雑音抑圧装置、その方法及びプログラム | |
JP6320962B2 (ja) | 音声認識システム、音声認識方法、プログラム | |
JP6273227B2 (ja) | 音声認識システム、音声認識方法、プログラム | |
CN112712816A (zh) | 语音处理模型的训练方法和装置以及语音处理方法和装置 | |
EP4372748A2 (en) | Methods and apparatus to fingerprint an audio signal via normalization | |
CN112151055B (zh) | 音频处理方法及装置 | |
JP2017083566A (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
CN113658581B (zh) | 声学模型的训练、语音处理方法、装置、设备及存储介质 | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 | |
JP6693340B2 (ja) | 音声処理プログラム、音声処理装置、及び音声処理方法 | |
CN111370017B (zh) | 一种语音增强方法、装置、系统 | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
CN110767238B (zh) | 基于地址信息的黑名单识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180403 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6320963 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |