JP6389787B2 - 音声認識システム、音声認識方法、プログラム - Google Patents
音声認識システム、音声認識方法、プログラム Download PDFInfo
- Publication number
- JP6389787B2 JP6389787B2 JP2015061833A JP2015061833A JP6389787B2 JP 6389787 B2 JP6389787 B2 JP 6389787B2 JP 2015061833 A JP2015061833 A JP 2015061833A JP 2015061833 A JP2015061833 A JP 2015061833A JP 6389787 B2 JP6389787 B2 JP 6389787B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- voice recognition
- signal
- recognition server
- client device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
収音条件は、例えば音声信号の大きさと背景雑音信号の大きさの比率であるS/N比に関する特徴量、音響信号のひずみに関する特徴量、背景雑音信号のスペクトル形状に関する特徴量、背景雑音信号の大きさに関する特徴量のうち少なくとも何れかの特徴量についてのしきい値に基づく条件とすることができる。しきい値は、しきい値記憶部111に予め記憶されているものとする。
以下に、収音条件抽出部11、選択部12の動作(S11、S12)の例について述べる。収音条件抽出部11は、例えば入力された音響信号から収音条件を表す特徴量を抽出し、特徴量の値に応じて入力された音響信号をグループ(例えば収音条件を表す符号)に分ける。
信号処理部13は、抽出された収音条件が所定の条件に該当する場合に、対応する音響信号を信号処理する(S13)。具体的には信号処理部13は、S/N比や背景雑音信号の大きさが、収音条件抽出部11で抽出された収音条件に基づいて決定される音声認識サーバ装置において音声認識対象として想定していた特徴量の範囲に適合するように、対応する音響信号を信号処理する。例えばS/N比=1近傍、すなわち0dB近傍の収音条件は、音声信号の大きさと背景雑音信号の大きさが同等であり、そのような音響信号をそのまま音声認識に用いれば性能の低下を招きやすい。従って、S/N比=0dB近傍の収音条件を収音条件抽出部11で抽出した場合は、当該収音条件の音響信号に対して背景雑音信号を抑圧する信号処理を信号処理部13で適用する。あるいは例えばS/N比=100近傍、すなわち20dB近傍の収音条件を収音条件抽出部11で抽出した場合は、前述の0dB近傍の収音条件と同様に、S/N比の値に応じて適応的に背景雑音信号を抑圧する処理を行うとしても良いし、抑圧する処理を全く行わないとしても良い。その他の収音条件においても、信号処理部13において、収音条件抽出部11で抽出した結果に基づき、音響信号への信号処理を適応的に行う。
(参考特許文献1:特許第4464797号公報)
(参考特許文献2:特許第5200080号公報)
Automatic Gain Control(AGC)は、入力音声信号の短時間平均パワーまたは短時間平均振幅をもとに入力信号レベルを検出し、入力信号レベルと最適レベル(目標値)との差分が少なくなるように音声入力段の利得(ゲイン)を調整する処理である。AGCはA/D変換後の音声波形が過少または過大になって音声特徴量が不明瞭になることを防ぐ効果がある。AGCについては、例えば参考特許文献3の段落[0001]に開示されている。
(参考特許文献3:特許第3588555号公報)
Cepstrum Mean Normalization(CMN)とは、音声認識の特徴量であるケプストラムにおいて、入力音声信号の長時間ケプストラム平均を求め、各フレームの入力音声のケプストラムから長時間ケプストラム平均をさし引く処理である。CMNは、マイクロホンの特性、マイクロホンの位置、部屋の形状に代表される乗算性ひずみの影響を軽減するために用いられる。CMNについては、例えば参考特許文献1の段落[0010]に開示されている。
イコライザとは、入力音声信号のゲインを周波数帯域ごとに調整する処理である。例えば音声入力用のマイクロホンの音響特性が平坦でないことが予めわかっていれば、イコライザを経由することで、音響特性を改善したうえで収音することができる。イコライザについては、例えば参考特許文献4の段落[0010]、[0016]に開示されている。
(参考特許文献4:特許第2865268号公報)
ステップS21Bの音声認識処理は、例えば以下のように実行される。音声認識サーバ装置は、一文章や一単語の発話を文字列に変換する。音声認識サーバ装置は、音声特徴量として音声のパワーやその変化量、MFCC(メル周波数ケプストラム、Mel-Frequency Cepstrum Coefficient)やその動的変化量を用いる。音声認識サーバ装置は、統計的な音響モデルや言語モデルを用いて単語列を探索する。
・各音響信号の特徴量のユークリッド距離の逆数値や符号を反転した値(特徴量としてケプストラムやパワー、またはそれらの変化量を用いることができる)。
・音声認識サーバ装置から得た各音声認識結果の文字列の編集距離の逆数値や符号を反転した値。ここで文字列とは表記上の文字列に限定するものではなく、文字列の読みを読み仮名や音素表記へ変換した文字列でも良い。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (8)
- クライアント装置と、複数の音声認識サーバ装置と、管理部を含む音声認識システムであって、
前記クライアント装置は、
前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する受信部と、
ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出する言い直し判定部と、
前記繰り返し信号群を全て再学習信号群とし、前記正解候補と、前記再学習信号群の組を前記管理部に送信する送信部と、
前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係に関する情報である送信先情報に基づいて、前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係を変更する送信先変更部を含み、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号群に対する音声認識結果を受信する音声認識結果受信部と、
所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果と前記正解候補との類似度が何れも高くなるか、または前記所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果の信頼度が何れも高くなる場合に、前記所定の音声認識サーバ装置に対して、音響信号が送信されるように、前記送信先情報を更新する送信先情報更新部と、
前記更新された送信先情報を前記クライアント装置に送信する送信先情報送信部を含む音声認識システム。 - クライアント装置と、複数の音声認識サーバ装置と、管理部を含む音声認識システムであって、
前記クライアント装置は、
前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する受信部と、
ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出する言い直し判定部と、
前記繰り返し信号群を全て再学習信号群とし、前記正解候補と、前記再学習信号群の組を前記管理部に送信する送信部を含み、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号群に対する音声認識結果を受信する音声認識結果受信部と、
所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果と前記正解候補との類似度が何れも高くなるか、または前記所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果の信頼度が何れも高くなる場合に、前記所定の音声認識サーバ装置と同じ音声認識の設定となるように、前記選択された音声認識サーバ装置の音声認識の設定に関する情報である設定情報を更新する設定情報更新部と、
前記更新された設定情報を前記選択された音声認識サーバ装置に送信する設定情報送信部を含み、
前記音声認識サーバ装置のそれぞれは、
前記設定情報を受信した場合に、前記受信した設定情報に基づいて自装置の音声認識の設定を変更する
音声認識システム。 - クライアント装置と、複数の音声認識サーバ装置と、管理部を含む音声認識システムであって、
前記クライアント装置は、
前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する受信部と、
ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出する言い直し判定部と、
前記繰り返し信号群を全て再学習信号群とし、前記正解候補と、前記再学習信号群の組を前記管理部に送信する送信部と、
前記収音条件を抽出するために予め設定されている値であるしきい値を変更するしきい値変更部を含み、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号群に対する音声認識結果を受信する音声認識結果受信部と、
所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果と前記正解候補との類似度が何れも高くなるか、または前記所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果の信頼度が何れも高くなる場合に、前記所定の音声認識サーバ装置に対して、音響信号が送信されるように、前記しきい値を更新するしきい値更新部と、
前記更新されたしきい値を前記クライアント装置に送信するしきい値送信部を含む
音声認識システム。 - 請求項1から3の何れかに記載の音声認識システムであって、
前記言い直し判定部は、
mを2以上の整数とし、前記クライアント装置にm−1番目に入力された音響信号に対する音声認識結果が前記クライアント装置により呈示された時刻と前記クライアント装置にm番目に入力された音響信号の入力時刻との差分である反応時間、前記クライアント装置にm−1番目に入力された音響信号に対する音声認識結果の信頼度、前記クライアント装置にm−1番目、m番目に入力された各音響信号の類似度、前記クライアント装置にm−1番目、m番目に入力された各音響信号に対する各音声認識結果の類似度、のうち少なくとも何れか一つに基づいて、前記クライアント装置にm番目に入力された音響信号が言い直しであるか否かを判定し、前記判定の結果に基づいて前記繰り返し信号群を取得する音声認識システム。 - クライアント装置と、複数の音声認識サーバ装置と、管理部が実行する音声認識方法であって、
前記クライアント装置は、
前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信するステップと、
ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出するステップと、
前記繰り返し信号群を全て再学習信号群とし、前記正解候補と、前記再学習信号群の組を前記管理部に送信するステップを実行し、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号群に対する音声認識結果を受信するステップと、
所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果と前記正解候補との類似度が何れも高くなるか、または前記所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果の信頼度が何れも高くなる場合に、前記所定の音声認識サーバ装置に対して、音響信号が送信されるように、前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係に関する情報である送信先情報を更新するステップと、
前記更新された送信先情報を前記クライアント装置に送信するステップを実行し、
前記クライアント装置は、
前記送信先情報に基づいて、前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係を変更するステップを実行する
音声認識方法。 - クライアント装置と、複数の音声認識サーバ装置と、管理部が実行する音声認識方法であって、
前記クライアント装置は、
前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信するステップと、
ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出するステップと、
前記繰り返し信号群を全て再学習信号群とし、前記正解候補と、前記再学習信号群の組を前記管理部に送信するステップを実行し、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号群に対する音声認識結果を受信するステップと、
所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果と前記正解候補との類似度が何れも高くなるか、または前記所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果の信頼度が何れも高くなる場合に、前記所定の音声認識サーバ装置と同じ音声認識の設定となるように、前記選択された音声認識サーバ装置の音声認識の設定に関する情報である設定情報を更新するステップと、
前記更新された設定情報を前記選択された音声認識サーバ装置に送信するステップを実行し、
前記音声認識サーバ装置のそれぞれは、
前記設定情報を受信した場合に、前記受信した設定情報に基づいて自装置の音声認識の設定を変更するステップを実行する
音声認識方法。 - クライアント装置と、複数の音声認識サーバ装置と、管理部が実行する音声認識方法であって、
前記クライアント装置は、
前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信するステップと、
ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出するステップと、
前記繰り返し信号群を全て再学習信号群とし、前記正解候補と、前記再学習信号群の組を前記管理部に送信するステップを実行し、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号群に対する音声認識結果を受信するステップと、
所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果と前記正解候補との類似度が何れも高くなるか、または前記所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果の信頼度が何れも高くなる場合に、前記所定の音声認識サーバ装置に対して、音響信号が送信されるように、前記収音条件を抽出するために予め設定されている値であるしきい値を更新するステップと、
前記更新されたしきい値を前記クライアント装置に送信するステップを実行し、
前記クライアント装置は、
前記しきい値を変更するステップを実行する
音声認識方法。 - コンピュータを、請求項1から4の何れかに記載の音声認識システムに含まれる管理部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015061833A JP6389787B2 (ja) | 2015-03-25 | 2015-03-25 | 音声認識システム、音声認識方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015061833A JP6389787B2 (ja) | 2015-03-25 | 2015-03-25 | 音声認識システム、音声認識方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016180916A JP2016180916A (ja) | 2016-10-13 |
JP6389787B2 true JP6389787B2 (ja) | 2018-09-12 |
Family
ID=57131795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015061833A Active JP6389787B2 (ja) | 2015-03-25 | 2015-03-25 | 音声認識システム、音声認識方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6389787B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111727473A (zh) * | 2018-02-22 | 2020-09-29 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
JP6735392B1 (ja) * | 2019-05-23 | 2020-08-05 | 西日本電信電話株式会社 | 音声テキスト化装置、音声テキスト化方法及び音声テキスト化プログラム |
CN110767232B (zh) * | 2019-09-29 | 2022-03-29 | 深圳数联天下智能科技有限公司 | 语音识别控制方法及装置、计算机设备和计算机存储介质 |
KR102517661B1 (ko) | 2022-07-15 | 2023-04-04 | 주식회사 액션파워 | 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11149294A (ja) * | 1997-11-17 | 1999-06-02 | Toyota Motor Corp | 音声認識装置および音声認識方法 |
JP2003140691A (ja) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | 音声認識装置 |
JP2010044239A (ja) * | 2008-08-13 | 2010-02-25 | Kddi Corp | 音声認識装置およびプログラム |
WO2011148594A1 (ja) * | 2010-05-26 | 2011-12-01 | 日本電気株式会社 | 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム |
-
2015
- 2015-03-25 JP JP2015061833A patent/JP6389787B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016180916A (ja) | 2016-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1199708B1 (en) | Noise robust pattern recognition | |
US7949523B2 (en) | Apparatus, method, and computer program product for processing voice in speech | |
US9837068B2 (en) | Sound sample verification for generating sound detection model | |
JP5072206B2 (ja) | 音声分類および音声認識のための隠れ条件付確率場モデル | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US20140337024A1 (en) | Method and system for speech command detection, and information processing system | |
JP6389787B2 (ja) | 音声認識システム、音声認識方法、プログラム | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
KR102296878B1 (ko) | 외국어 학습평가장치 | |
KR20180012639A (ko) | 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법 | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
JP2018169473A (ja) | 音声処理装置、音声処理方法及びプログラム | |
WO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP6320963B2 (ja) | 音声認識システム、クライアント装置、音声認識方法、プログラム | |
JP6273227B2 (ja) | 音声認識システム、音声認識方法、プログラム | |
JP2019008131A (ja) | 話者判定装置、話者判定情報生成方法、プログラム | |
WO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
JP6320962B2 (ja) | 音声認識システム、音声認識方法、プログラム | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP2002366192A (ja) | 音声認識方法及び音声認識装置 | |
JP5852550B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
US20080228477A1 (en) | Method and Device For Processing a Voice Signal For Robust Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170905 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180327 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180814 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180820 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6389787 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |