JP2016033530A - 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム - Google Patents

発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム Download PDF

Info

Publication number
JP2016033530A
JP2016033530A JP2014155522A JP2014155522A JP2016033530A JP 2016033530 A JP2016033530 A JP 2016033530A JP 2014155522 A JP2014155522 A JP 2014155522A JP 2014155522 A JP2014155522 A JP 2014155522A JP 2016033530 A JP2016033530 A JP 2016033530A
Authority
JP
Japan
Prior art keywords
signal
likelihood
unit
threshold
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014155522A
Other languages
English (en)
Other versions
JP6276132B2 (ja
Inventor
長 健太
Kenta Cho
健太 長
敏行 加納
Toshiyuki Kano
敏行 加納
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2014155522A priority Critical patent/JP6276132B2/ja
Priority to PCT/JP2015/063533 priority patent/WO2016017229A1/ja
Publication of JP2016033530A publication Critical patent/JP2016033530A/ja
Priority to US15/263,520 priority patent/US10276191B2/en
Application granted granted Critical
Publication of JP6276132B2 publication Critical patent/JP6276132B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

【課題】通信量の削減を図りつつ、発話区間を精度よく検出することができる発話区間検出装置、音声処理システム、発話区間検出方法およびプログラムを提供する。【解決手段】実施形態のサーバ装置20(発話区間検出装置)は、通信部21(受信部)と、第2検出部22(検出部)と、を備える。通信部21は、発話らしさを表す尤度が第1閾値以上の信号である第1音声信号をクライアント装置10(外部装置)から受信する。第2検出部22は、クライアント装置10から受信した第1音声信号から、発話らしさを表す尤度が第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する。【選択図】図1

Description

本発明の実施形態は、発話区間検出装置、音声処理システム、発話区間検出方法およびプログラムに関する。
クライアント装置からサーバ装置に音声(人の発話)を含む信号を送信し、サーバ装置で音声認識処理を行って認識結果をクライアント装置に返すサーバ・クライアント型の音声認識システムが知られている。この種の音声認識システムでは、クライアント装置からサーバ装置への通信量の削減を図るために、クライアント側で入力した信号から音声の区間(以下、発話区間という。)を検出する処理を行い、検出された発話区間の信号のみをサーバ装置に送信することが提案されている。
クライアント装置で発話区間の検出を行う場合、クライアント装置はサーバ装置と比較してリソースが限られるため、正確な発話区間の検出を行うことは難しい。さらに、クライアント側の音声状況は環境ごとに異なり、変動することが多いため、発話音声の取りこぼしが発生する懸念がある。このため、通信量の削減を図りつつ、発話区間を精度よく検出できるようにすることが求められている。
特許第4425055号公報
本発明が解決しようとする課題は、通信量の削減を図りつつ、発話区間を精度よく検出することができる発話区間検出装置、音声処理システム、発話区間検出方法およびプログラムを提供することである。
実施形態の発話区間検出装置は、受信部と、検出部と、を備える。受信部は、発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する。検出部は、前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する。
図1は、実施形態の音声認識システムの構成例を示すブロック図である。 図2は、第1検出部の処理の一例を説明する図である。 図3は、第2検出部の処理の概要を説明する図である。 図4は、時間比率を説明する図である。 図5は、クライアント装置の処理手順の一例を示すフローチャートである。 図6は、サーバ装置の処理手順の一例を示すフローチャートである。 図7は、クライアント装置の他の構成例を示すブロック図である。 図8は、サーバ装置のハードウェア構成の一例を概略的に示すブロック図である。
以下、実施形態の発話区間検出装置、音声処理システム、発話区間検出方法およびプログラムを、図面を参照して詳細に説明する。以下で示す実施形態は、クライアント装置が入力した信号に対してサーバ装置において音声認識処理を行い、認識結果をクライアント装置に返すサーバ・クライアント型の音声認識システムへの適用例であるが、本発明を適用可能なシステムはこれに限らない。
(第1の実施形態)
図1は、本実施形態に係る音声認識システムの構成例を示すブロック図である。この音声認識システムは、複数のクライアント装置10(第1装置、外部装置)とサーバ装置20(第2装置、発話区間検出装置)とが通信ネットワーク30を介して通信可能に接続される構成である。この音声認識システムでは、クライアント装置10において、入力した信号に対して大まかな発話区間の検出を行い、発話が含まれている可能性のある区間の信号(以下、第1音声信号という。)をサーバ装置20に送信する。サーバ装置20は、クライアント装置10から受信した第1音声信号に対して厳密な発話区間の検出を行い、発話である可能性が高い区間の信号(以下、第2音声信号という。)に対して音声認識処理を行って、認識結果のテキストデータをクライアント装置10に送信する。これにより、クライアント装置10とサーバ装置20との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実現する。
クライアント装置10は、図1に示すように、マイク11と、第1検出部12と、通信部13(送信部)と、尤度調整部14と、閾値調整部15と、を備える。クライアント装置10としては、例えば、外部接続端子に外付けのマイクを接続したパーソナルコンピュータや、マイクを内蔵するスマートフォン、タブレット端末、テレビ会議(ビデオ会議)システム用の端末として構成されたテレビ会議端末などを利用することができる。これらの装置はプロセッサやメモリなどの通常のコンピュータシステムを実現するリソースを備え、一例として、コンピュータシステム上で所定のプログラムを実行することにより、第1検出部12、通信部13、尤度調整部14、閾値調整部15などの各機能的な構成要素を実現する。
マイク11は、人の発話(音声)を含む信号を入力する。マイク11が入力した信号(以下、入力信号という。)は、第1検出部12に渡される。なお、本実施形態ではクライアント装置10がマイク11により信号を入力する例を説明するが、クライアント装置10が外部装置から受信した信号、あるいは記録媒体などから読み出した信号を入力信号としてもよい。
第1検出部12は、入力信号に対して、演算の処理負荷が比較的低い方法を用いて発話区間の検出を行う。本実施形態では、第1検出部12が、入力信号の信号強度に基づいて発話区間の検出を行う例を説明する。すなわち、第1検出部12は、マイク11からの入力信号の信号強度を発話区間検出のための特徴量として用い、入力信号に対して信号強度が大きいほど大きい値を示す尤度を時系列で算出する。ここで算出される尤度は人の発話らしさを表す値であり、例えば最大値が1、最小値が0となるように正規化される。そして、第1検出部12は、入力信号の中で尤度が第1閾値以上の区間を発話区間として検出し、この区間の信号を第1音声信号として出力する。
図2は、第1検出部12の処理の一例を説明する図である。図2(a)は、マイク11が入力したリニアPCMサンプリングデータ(入力信号)のグラフであり、横軸が時間、縦軸が信号強度を表している。図2(b)は、(a)の入力信号から算出された尤度の時系列を表すグラフである。図2(c)は、(b)の尤度を第1閾値と比較することで検出された発話区間を示している。なお、(a)のグラフは信号強度を振幅として表しており、振幅が大きいほど信号強度が大きいことを示している。また、(b)の尤度は、一定時間あたりの信号強度の平均値を正規化し、時間軸上にプロットしたものを曲線で近似した波形となっている。
図2に示すように、第1検出部12は、入力信号に対して信号強度が大きいほど大きい値となる尤度を算出する(第1の方法)。そして、第1検出部12は、入力信号の中で尤度が第1閾値以上となっている区間を発話区間として検出する。なお、第1閾値は、入力信号から音声の取りこぼしが生じない程度の小さい値(例えば0.1)に初期設定され、後述するように、サーバ装置20からの指示に応じて適宜調整される。第1検出部12は、この第1閾値を用いて、入力信号の中で人の発話(音声)が含まれる可能性があると推定される区間を発話区間として検出している。また、第1検出部12が入力信号に対して算出する尤度は、後述するように、サーバ装置20側で算出される尤度との整合が取れるように調整される。
通信部13は、サーバ装置20との間で通信ネットワーク30を介した各種情報の送受信を行う。例えば、通信部13は、第1検出部12が発話区間として検出した区間の信号である第1音声信号を、サーバ装置20に対して送信する。また、通信部13は、サーバ装置20から送信される後述の音声認識処理の認識結果としてのテキストデータや、尤度調整の指示、閾値調整の指示、マイク11の感度調整の指示などを受信する。
尤度調整部14は、サーバ装置20からの尤度調整の指示に従って、第1検出部12が入力信号に対して算出する尤度の調整を行う。なお、尤度調整部14の処理の具体例については、サーバ装置20における処理の説明と併せて詳細を後述する。
閾値調整部15は、サーバ装置20からの閾値調整の指示に従って、第1検出部12による発話区間の検出に用いる第1閾値の調整を行う。また、閾値調整部15は、サーバ装置20からマイク11の感度調整の指示が送られた場合に、この感度調整の指示に従ってマイク11の感度を調整する機能を持つ。なお、閾値調整部15の処理の具体例については、サーバ装置20における処理の説明と併せて詳細を後述する。
サーバ装置20は、図1に示すように、通信部21(受信部)と、第2検出部22(検出部)と、音声認識部23と、閾値調整部24と、尤度調整指示部25と、時間比率算出部26と、閾値調整指示部27と、記憶部28とを備える。
通信部21は、クライアント装置10との間で通信ネットワーク30を介した各種情報の送受信を行う。例えば、通信部21は、クライアント装置10から送信された第1音声信号や閾値問い合わせなどを受信する。また、通信部21は、音声認識部23による認識結果としてのテキストデータや、尤度調整指示部25からの尤度調整の指令、閾値調整指示部27からの閾値調整の指示、マイク11の感度調整の指示などをクライアント装置10に対して送信する。
第2検出部22は、クライアント装置10から受信した第1音声信号に対して、クライアント装置10の第1検出部12で行う発話区間検出よりも演算の処理負荷が高い方法を用いて、厳密な発話区間の検出を行う。例えば、第2検出部22は、音声の周波数特性や音響モデルなどから計算される特徴量を用いて、第1音声信号に対して時系列で尤度を算出する(第2の方法)。そして、第2検出部22は、第1音声信号の中で尤度が第2閾値以上の区間を発話区間として検出し、この区間の信号を第2音声信号として出力する。ここで第2閾値は、厳密な発話区間の検出を行うために、クライアント装置10の第1検出部12に設定される第1閾値よりも大きな値(例えば0.3)に初期設定され、後述するように、音声認識部23による認識結果に応じて、閾値調整部24により適宜調整される。
図3は、第2検出部22の処理の概要を説明する図である。図3(a)は、第1音声信号から算出された尤度の時間変化を表すグラフである。図3(b)は、(a)の尤度を第2閾値と比較することで検出された発話区間(ハッチングを付した部分)を示している。図3に示すように、第2検出部22は、第1音声信号から時系列で算出した尤度が第1閾値よりも大きい第2閾値以上となっている区間を発話区間として検出する。そして、第2検出部22は、検出した発話区間の信号である第2音声信号を音声認識部23に渡す。
音声の周波数特性や音響モデルなどから計算される特徴量を用いた発話区間検出は、クライアント装置10の第1検出部12が行う単純な発話区間検出と比べてより多くのコンピュータリソースを必要とするが、発話区間をより正確に検出することができる。また、第1音声信号から算出された尤度が第1閾値よりも大きい第2閾値以上の区間を発話区間として検出することにより、より正確な発話区間を検出することができる。
音声認識部23は、第2音声信号に対して、例えば音響モデルや言語モデルなどを用いた音声認識処理を行って、第2音声信号に対応するテキストデータを出力する。音声認識部23が実施する音声認識処理については、公知の技術をそのまま利用できるため、ここでは詳細な説明を省略する。認識結果としてのテキストデータは、通信部21からクライアント装置10に対して送信される。そして、このテキストデータが、クライアント装置10の図示しない表示部に表示される。
なお、例えば他拠点間のテレビ会議やグループ通話など、複数のクライアント装置10で情報が共有されるアプリケーションにおいて本実施形態の音声認識システムを利用する場合は、サーバ装置20は、上述した音声認識処理の認識結果としてのテキストデータを集約した画面情報などを、情報を共有する複数のクライアント装置10に対してそれぞれ送信する。これにより、複数話者の発話を音声認識処理した認識結果のテキストデータが集約された画面を、複数のクライアント装置10の表示部に表示させることができる。
閾値調整部24は、音声認識部23による認識結果に基づいて、第2検出部22による発話区間の検出に用いる第2閾値の調整を行う。音声認識部23は、第2音声信号に対して、音響モデルを用いた音響的な解析だけでなく、言語モデルを用いて発話として成り立っているかなどの言語的な解析も行って、第2音声信号に含まれる発話をテキストデータに変換する。したがって、音声認識部23による音声認識処理は、第2検出部22よりもさらに正確に発話区間を検出していると捉えることができる。つまり、音声認識部23による認識結果から、第2検出部22が発話区間を正確に検出できているかどうかが分かる。
そこで、閾値調整部24は、音声認識部23による認識結果に基づいて、第2検出部22による発話区間の検出精度を高めるように、第2閾値を調整する。具体的には閾値調整部24は、音声認識処理の認識結果から、第2音声信号が発話の途中で途切れた信号となっていると判断される場合は第2閾値を小さくするように調整し、第2音声信号が発話でない部分を多く含む信号となっていると判断される場合は第2閾値を大きくするように調整する。これにより、第2検出部22は、第1音声信号から発話区間をより正確に検出できるようになる。
尤度調整指示部25は、クライアント装置10の第1検出部12により算出される尤度が、第2検出部22により算出される尤度に近づくように、クライアント装置10に対して尤度の調整を指示する。
本実施形態の音声認識システムは、クライアント装置10で大まかな発話区間検出を行い、サーバ装置20で厳密な発話区間検出を行うことで、クライアント装置10とサーバ装置20との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実現する構成である。このため、サーバ装置20での発話区間検出に用いる第2閾値を、クライアント装置10での発話区間検出に用いる第1閾値よりも大きな値としている。しかし、クライアント装置10の第1検出部12が入力信号から尤度を算出する方法と、サーバ装置20の第2検出部22が第1音声信号から尤度を算出する方法が異なるため、同じ信号に対して第1検出部12が算出する尤度と第2検出部22が算出する尤度とが同程度になるように調整が必要となる。
そこで、尤度調整指示部25は、例えば以下に示すような処理を行って、クライアント装置10の第1検出部12により算出される尤度が、第2検出部22により算出される尤度に近づくように、クライアント装置10に対して尤度の調整を指示する。そして、クライアント装置10の尤度調整部14が、この尤度調整指示部25からの指示に従って、第1検出部12が算出する尤度の調整を行う。
すなわち、尤度調整指示部25は、まず、予め保持しているサンプル信号を第2検出部22に渡して尤度の算出を要求し、第2検出部22が上述した方法によりサンプル信号から算出した尤度の時系列データを取得する。サンプル信号は、人が発話している区間と無音の区間とを含む。なお、第2検出部22が算出する尤度は、予め最大値が1、最小値が0となるように正規化されていてもよいし、サンプル信号から算出した尤度の時系列データの最大値が1、最小値が0になるように調整されてもよい。
その後、クライアント装置10がサーバ装置20に接続すると、尤度調整指示部25は、サーバ装置20に接続したクライアント装置10に対して、予め保持しているサンプル信号と、このサンプル信号から第2検出部22が算出した尤度の時系列データとを送信する。そして、尤度調整指示部25は、送信したサンプル信号に対して第1検出部12が上述した方法で時系列に算出する尤度が、送信した時系列データに近づくように、クライアント装置10に対して尤度の調整を指示する。
サーバ装置20からサンプル信号、尤度の時系列データおよび尤度調整の指示を受信したクライアント装置10では、尤度調整部14が、サーバ装置20からの尤度調整の指示に従って、第1検出部12が算出する尤度の調整を行う。具体的には、尤度調整部14は、サーバ装置20から受信したサンプル信号を第1検出部12に渡して尤度の算出を要求する。この際、尤度調整部14は、第1検出部12に対して、尤度算出に関するパラメータを複数通りに変化させながら尤度を算出することを要求する。ここで、尤度算出に関するパラメータとしては、例えば、入力信号の信号強度に対する尤度の算出式やテーブルなどが挙げられる。
そして、尤度調整部14は、第1検出部12から、変化させた各パラメータに対応する複数の尤度の時系列データを取得し、これら複数の尤度の時系列データをそれぞれ、サーバ装置20から受信した時系列データと比較する。そして、尤度調整部14は、サーバ装置20から受信した時系列データに対する類似度が最も高い時系列データを特定し、第1検出部12に対して、この時系列データに対応するパラメータを、尤度算出に関するパラメータとして使用することを指示する。以上の処理によって、第1検出部12が算出する尤度が、第2検出部22が算出する尤度に近づくように調整される。
なお、マイク11や環境などの影響も加味した尤度調整を行いたい場合は、サンプル信号を外部の音声プレーヤにより再生してマイク11で入力し、マイク11で入力したサンプル信号に対して第1検出部12が尤度の算出を行うようにしてもよい。この場合、クライアント装置10のユーザがサーバ装置20からサンプル信号をダウンロードし、クライアント装置10を動作させた状態で、ダウンロードしたサンプル信号を外部の音声プレーヤにより再生させるようにしてもよい。
時間比率算出部26は、クライアント装置10から受信した第1音声信号と、第2検出部22が第1音声信号から検出した発話区間の信号である第2音声信号との時間比率を算出する。図4は、時間比率を説明する図であり、図4(a)〜(c)それぞれ横軸が時間、白抜きの矩形が第1音声信号の時間長さ、ハッチングを付した矩形が第2音声信号の時間長さを表している。時間比率は、第1音声信号(クライアント装置10の第1検出部12が検出した発話区間)の時間長さに対する、第2音声信号(サーバ装置20の第2検出部22が検出した発話区間)の時間長さの割合である。
図4(a)は、時間比率が適正範囲にあり、クライアント装置10とサーバ装置20とが想定通りの動作をしている例を示している。つまり、時間比率が図4(a)のようになっていれば、クライアント装置10における大まかな発話区間検出と、サーバ装置20における厳密な発話区間検出との関係が想定通りであることが推定される。
図4(b)は、第1音声信号の時間長さに対して第2音声信号の時間長さが短すぎ、時間比率が適正範囲よりも小さくなっている例を示している。クライアント装置10の第1検出部12が入力信号中の発話でない部分を過剰に含む区間を発話区間として検出している場合に、時間比率が図4(b)のようになる。時間比率が図4(b)のようになっている場合、発話でない部分を過剰に含む第1音声信号がクライアント装置10からサーバ装置20に送信されるため、通信量の増加を招く。
図4(c)は、第1音声信号の時間長さに対して第2音声信号の時間長さが長すぎ、時間比率が適正範囲よりも大きくなっている例を示している。クライアント装置10の第1検出部12による発話区間の検出が厳密になりすぎている場合に、時間比率が図4(c)のようになる。時間比率が図4(c)のようになっている場合、クライアント装置10において入力信号から発話音声の取りこぼしが生じる懸念がある。
以上のように、第1音声信号と第2音声信号との時間比率は、クライアント装置10とサーバ装置20とが想定通りの動作をしているか否かを判断する上で有用な情報となる。そこで、本実施形態のサーバ装置20は、上述した時間比率を算出する時間比率算出部26を備えている。時間比率算出部26が算出した時間比率は、閾値調整指示部27に渡される。
閾値調整指示部27は、時間比率算出部26により算出された時間比率に基づいて、クライアント装置10の第1検出部12が発話区間の検出に用いる第1閾値の適正値を算出し、クライアント装置10に対して第1閾値を算出した適正値に調整することを指示する。この閾値調整指示部27のクライアント装置10に対する指示は、例えば、クライアント装置10からの閾値問い合わせに対する応答として行う。すなわち、閾値調整指示部27は、クライアント装置10からの閾値問い合わせに応じて、時間比率算出部26に対して時間比率の算出を要求し、時間比率算出部26から時間比率を取得する。そして、取得した時間比率が図4(b)の例のように適正範囲よりも小さくなっている場合は、閾値調整指示部27は、クライアント装置10において現在設定されている第1閾値よりも大きい値を適正値として算出し、算出した適正値を問い合わせに対する返り値としてクライアント装置10に送信して、クライアント装置10に第1閾値の調整を指示する。一方、取得した時間比率が図4(c)の例のように適正範囲よりも大きくなっている場合は、閾値調整指示部27は、クライアント装置10において現在設定されている第1閾値よりも小さい値を適正値として算出し、算出した適正値を問い合わせに対する返り値としてクライアント装置10に送信して、クライアント装置10に第1閾値の調整を指示する。
サーバ装置20から第1閾値の適正値および閾値調整の指示を受信したクライアント装置10では、閾値調整部15が、サーバ装置20からの指示に従って、第1検出部12が発話区間の検出に用いている現在の第1閾値を、サーバ装置20から受信した適正値に変更する。以上の処理を繰り返すことにより、第1検出部12により検出される発話区間が、サーバ装置20の第2検出部22により検出される発話区間との関係において最適化されていく。
また、閾値調整指示部27は、クライアント装置10に対して算出した第1閾値の適正値を、当該クライアント装置10の属性情報と対応付けて記憶部28に格納し、記憶部28に記憶させる機能を持つ。ここで属性情報とは、クライアント装置10の性能や使用環境、クライアント装置10を使用するユーザ情報など、発話区間の検出に影響を与える可能性がある各種条件を示す情報である。例えば、クライアント装置10のハードウェア資源のスペック、オペレーションシステムなどのソフトウェアのバージョン、マイク11の性能などを含むクライアント装置10のプロファイル情報や、クライアント装置10が例えば会議室などの特定の環境で固定して使用される場合の当該使用環境の情報、アカウントに紐付けられたクライアント装置10のユーザ情報などが、属性情報の一例として挙げられる。これらの属性情報は、例えば、クライアント装置10がサーバ装置20に接続する際にクライアント装置10から取得される。
ここで、クライアント装置10がサーバ装置20に接続する際にクライアント装置10から取得された属性情報が、記憶部28が記憶している他のクライアント装置10の属性情報と類似する場合、閾値調整指示部27は、その属性情報に対応付けて記憶部28が記憶している第1閾値の適正値を読み出して、サーバ装置20に接続したクライアント装置10に対して、記憶部28から読み出した適正値を第1閾値の初期値として設定することを指示してもよい。これにより、第1閾値の初期値を固定値に設定する場合と比べて、クライアント装置10の性能や使用環境により適合した初期値を設定することができ、第1閾値の調整を行う前の初期段階においても、第1検出部12による適切な発話区間の検出が期待できる。
また、閾値調整指示部27は、上述した時間比率に基づいて算出した第1閾値の適正値が0から1の間で予め定められた基準範囲を越える場合は、クライアント装置10に対してマイク11の感度を調整することを指示するように構成してもよい。例えば、時間比率に基づいて算出した第1閾値の適正値が基準範囲を越えて1に近い値となっている場合は、クライアント装置10のマイク11が発話以外の環境雑音を多く入力している状況が想定される。このような場合には、閾値調整指示部27は、クライアント装置10に対してマイク11の感度を下げることを指示する。また、時間比率に基づいて算出した第1閾値の適正値が基準範囲を越えて0に近い値となっている場合は、クライアント装置10のマイク11が適切に音を入力していない状況が想定される。このような場合には、閾値調整指示部27は、クライアント装置10に対してマイク11の感度を上げることを指示する。
サーバ装置20からマイク11の感度調整の指示を受信したクライアント装置10では、閾値調整部15が、サーバ装置20からの指示に従って、マイク11の感度の調整を行う。これにより、マイク11の感度が環境に順応するように調整され、第1検出部12が適切な発話区間の検出を行えるようになる。
また、閾値調整指示部27は、上述したマイク11の感度調整の指示に加えて、あるいはマイク11の感度調整の指示の代わりに、クライアント装置10に対してマイク11を用いた信号の入力が適切に行われていない旨の警告を送信するように構成してもよい。例えば、時間比率に基づいて算出した第1閾値の適正値が基準範囲を越えて1に近い値となっている場合に、閾値調整指示部27は、例えば、マイク11が発話以外の環境雑音を多く入力していることをユーザに伝えるとともに雑音が少ない環境での利用を促す警告を送信する。また、時間比率に基づいて算出した第1閾値の適正値が基準範囲を越えて0に近い値となっている場合に、閾値調整指示部27は、例えば、マイク11が適切に音を入力していないことをユーザに伝えるとともに使用するマイク11をより高性能のものに変更することを促す警告を送信する。このような警告を受信したクライアント装置10側では、警告の内容を図示しない表示部に表示してユーザに報知する。また、マイク11の感度調整の指示も警告に含め、警告の内容をクライアント装置10が解釈して自動的にマイク11の感度調整を行うようにしてもよい。
次に、本実施形態に係る音声認識システムの動作の一例について、クライアント装置10での処理とサーバ装置20での処理とに分けて説明する。まず、クライアント装置10での処理の流れを図5に沿って説明する。図5は、クライアント装置10の処理手順の一例を示すフローチャートである。
図5のフローチャートで示す一連の処理は、クライアント装置10がサーバ装置20に接続したことを契機に開始される。処理が開始されると、まず尤度調整部14が、サーバ装置20からの尤度調整の指示に従って、例えば上述の方法により第1検出部12が算出する尤度の調整を行う(ステップS101)。
次に、第1検出部12が、発話区間の検出に用いる第1閾値の初期値を設定する(ステップS102)。第1閾値の初期値は、上述したように、予め定められた固定値(例えば0.1)であってもよいし、属性情報(プロファイル情報や使用環境の情報、ユーザ情報など)が類似する他のクライアント装置10に対して算出された第1閾値の適正値であってもよい。また、閾値調整部15が第1閾値の初期値を設定する構成であってもよい。
次に、マイク11が、音声(人の発話)を含む信号の入力を開始し(ステップS103)、入力信号を第1検出部12に渡す。そして、第1検出部12が、入力信号に対して例えば上述の方法により発話区間の検出を行う(ステップS104)。第1検出部12が検出した発話区間の信号である第1音声信号は、通信部13から、通信ネットワーク30を介してサーバ装置20に送信される(ステップS105)。
サーバ装置20において音声認識処理が行われて認識結果が送信されると、その認識結果が通信部13により受信される(ステップS106)。この認識結果はクライアント装置10の図示しない表示部に表示される。
次に、閾値調整部15が、サーバ装置20に対して閾値問い合わせを行う(ステップS107)。閾値問い合わせは、通信部13から、通信ネットワーク30を介してサーバ装置20に送信される。そして、この閾値問い合わせに対する応答としてサーバ装置20から第1閾値の適正値および調整指示が送信されると、この適正値および調整指示が通信部13により受信され、閾値調整部15に渡される(ステップS108)。閾値調整部15は、サーバ装置20からの調整指示に従って、第1検出部12が発話区間の検出に用いる第1閾値の値を、調整指示とともに受け取った適正値に変更することで、第1閾値を調整する(ステップS109)。
その後、マイク11による信号の入力が継続している間は(ステップS110:No)、ステップS103〜ステップS109の処理が繰り返され、マイク11による信号の入力が終了すると(ステップS110:Yes)、図5のフローチャートで示す一連の処理が終了する。
次に、サーバ装置20での処理の流れを図6に沿って説明する。図6は、サーバ装置20の処理手順の一例を示すフローチャートである。図6のフローチャートで示す一連の処理は、クライアント装置10がサーバ装置20に接続したことを契機に開始される。複数のクライアント装置10が同時にサーバ装置20に接続している場合、サーバ装置20は、それぞれのクライアント装置10ごとに図6のフローチャートで示す処理を実行する。
処理が開始されると、まず尤度調整指示部25が、例えば上述の方法により、クライアント装置10に対して尤度調整の指示を行う(ステップS201)。
次に、第2検出部22が、発話区間の検出に用いる第2閾値の初期値を設定する(ステップS202)。第2閾値の初期値は、上述したように、第1検出部12が発話区間の検出に用いる第1閾値よりも大きい値(例えば0.3)に設定される。なお、閾値調整部24が第2閾値の初期値を設定する構成であってもよい。
次に、クライアント装置10から第1音声信号が送信されると、この第1音声信号が通信部21により受信され、第2検出部22に渡される(ステップS203)。そして、第2検出部22が、クライアント装置10からの第1音声信号に対して例えば上述の方法により発話区間の検出を行う(ステップS204)。第2検出部22が検出した発話区間の信号である第2音声信号は、音声認識部23に渡される。
次に、音声認識部23が、第2検出部22から受け取った第2音声信号に対して音声認識処理を行う(ステップS205)。この音声認識部23による認識結果は、通信部21から、通信ネットワーク30を介してクライアント装置10に送信される(ステップS206)。
次に、閾値調整部24が、音声認識部23による認識結果に基づいて、例えば上述の方法により第2閾値を調整する(ステップS207)。
その後、クライアント装置10から閾値問い合わせが送信されると、この閾値問い合わせが通信部21により受信され、閾値調整指示部27に渡される(ステップS208)。閾値調整指示部27は、閾値問い合わせを受け取ると、まず、時間比率算出部26に対し時間比率の算出を要求する。この要求に応じて、時間比率算出部26が第1音声信号と第2音声信号との時間比率を算出する(ステップS209)。
次に、閾値調整指示部27は、時間比率算出部26により算出された時間比率を取得し、この時間比率に基づいて、例えば上述の方法により第1閾値の適正値を算出する(ステップS210)。閾値調整指示部27が算出した第1閾値の適正値は、閾値調整の指示とともに、通信部21から、通信ネットワーク30を介してクライアント装置10に送信される(ステップS211)。また、この第1閾値の適正値は、クライアント装置10の属性情報に対応付けて記憶部28に格納される(ステップS212)。
その後、クライアント装置10との接続が維持されている間は(ステップS213:Yes)、ステップS203〜ステップS212の処理が繰り返され、クライアント装置10との接続が遮断されると(ステップS213:No)、図6のフローチャートで示す一連の処理が終了する。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態に係る音声認識システムは、クライアント装置10で入力信号に対し大まかな発話区間の検出を行って第1音声信号をサーバ装置20に送信し、サーバ装置20で第1音声信号に対し厳密な発話区間の検出を行って、得られた第2音声信号に対し音声認識処理を行う構成である。したがって、本実施形態によれば、クライアント装置10とサーバ装置20との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実施することができる。
また、本実施形態の音声認識システムは、クライアント装置10側で算出される尤度をサーバ装置20側で算出される尤度に近づける機能を備えるため、クライアント装置10側とサーバ装置20側とで異なる方法で発話区間の検出を行いながら、共通の指標となる閾値を用いて発話区間の検出精度を調整することができる。すなわち、リソースが限られるクライアント装置10側での発話区間検出は演算の処理負荷が比較的低い方法で行い、サーバ装置20側ではクライアント装置10よりも演算の処理負荷が高い方法で厳密な発話区間検出を実施することができる。
また、本実施形態の音声認識システムは、クライアント装置10側での発話区間検出に用いる第1閾値を調整する機能や、サーバ装置20側での発話区間検出に用いる第2閾値を調整する機能を備えるため、クライアント装置10側で検出される発話区間とサーバ装置20側で検出される発話区間との関係を、処理を繰り返すごとに最適化していくことができる。
(第2の実施形態)
クライアント装置10の他の構成例を第2実施形態として説明する。以下では、第2実施形態のクライアント装置10を第1実施形態と区別してクライアント装置10Aと表記する。なお、サーバ装置20の構成は第1実施形態と共通である。以下、第1実施形態と共通の部分は同一の符号を付して重複した説明を省略し、第1実施形態との相違点のみを説明する。
図7は、第2実施形態のクライアント装置10Aの構成例を示すブロック図である。第2実施形態のクライアント装置10Aは、例えばテレビ会議端末のように複数のユーザが共有して使用することを想定して構成されたものであり、第1実施形態のクライアント装置10が備えるマイク11に代えて、複数のマイクが一体化された構成のマイクアレイ16を備える。マイクアレイ16は、複数の話者の発話を含む信号を入力する。
また、第2実施形態のクライアント装置10Aは、第1実施形態のクライアント装置10の構成に加えて、音声分離部17(分離部)をさらに備える。音声分離部17は、マイクアレイ16が入力した入力信号を、話者ごとの信号に分離する。すなわち、音声分離部17は、マイクアレイ16が入力した入力信号から音源(話者)の方向を推定し、推定した音源の方向が複数ある場合は、入力信号を音源ごとの信号に分離する。このような音源の方向を推定して信号を分離する技術は公知の技術であるため、ここでは詳細な説明は省略する。
また、音声分離部17は、音源(話者)ごとに分離したそれぞれの信号に対し、発話区間を検出するための第1検出部12を動的に生成する。すなわち、音声分離部17は、マイクアレイ16が入力した入力信号から、ある方向に音源(話者)が存在すると判断したときに、その音源からの信号に対して発話区間の検出を行うための第1検出部12を生成する。また、他の方向に音源(話者)が存在すると判断したときも同様に、その音源からの信号に対して発話区間の検出を行うための第1検出部12を生成する。音源(話者)ごとに分離された信号は、それぞれ動的に生成された第1検出部12に渡されて、以降、第1実施形態と同様の処理が行われる。なお、音源(話者)ごとに動的に生成された第1検出部12は、所定時間に亘ってその音源(話者)の方向からの入力がない場合に削除される。
また、クライアント装置10Aでは、第1実施形態と同様に、尤度調整部14による尤度の調整や、閾値調整部15による第1閾値の調整が行われるが、これらの尤度調整や閾値調整は、音源(話者)ごとに動的に生成される第1検出部12に対してそれぞれ個別に行われる。なお、サーバ装置20における処理も同様に、音源(話者)ごとに分離された信号に対して個別に行われる。
以上のように、本実施形態では、クライアント装置10Aが入力信号を話者ごとに分離して第1検出部12を動的に生成する構成としているため、第1実施形態と同様に、クライアント装置10とサーバ装置20との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実施することができることに加えて、複数話者の発話に対して個別に音声認識を行って、話者ごとの認識結果を得ることができる。
(補足)
以上説明した実施形態のサーバ装置20における各機能的な構成要素は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用いて実行されるプログラム(ソフトウェア)により実現することができる。
図8は、サーバ装置20のハードウェア構成の一例を概略的に示すブロック図である。サーバ装置20は、図8に示すように、CPUなどのプロセッサ101と、RAMなどの主記憶部102と、各種の記憶装置を用いた補助記憶部103と、通信インタフェース104と、これらの各部を接続するバス105とを含んだ汎用のコンピュータシステムとして構成される。なお、補助記憶部103は、有線または無線によるLAN(Local Area Network)などで各部に接続されてもよい。
サーバ装置20の各機能的な構成要素は、例えば、プロセッサ101が、主記憶部102を利用して、補助記憶部103などに格納されたプログラムを実行することによって実現される。このプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
また、このプログラムを、インターネットなどのネットワークに接続された他のコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、このプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。また、このプログラムを、コンピュータ内部のROM(補助記憶部103)などに予め組み込んで提供するように構成してもよい。
このプログラムは、サーバ装置20の機能的な構成要素(通信部21、第2検出部22、音声認識部23、閾値調整部24、尤度調整指示部25、時間比率算出部26および閾値調整指示部27)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサ101が上記記録媒体からプログラムを読み出して実行することにより、上記の各構成要素が主記憶部102上にロードされ、上記の各構成要素が主記憶部102上に生成されるようになっている。なお、サーバ装置20の機能的な構成要素は、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 クライアント装置
11 マイク
12 第1検出部
13 通信部
14 尤度調整部
15 閾値調整部
16 マイクアレイ
17 音声分離部
20 サーバ装置
21 通信部
22 第2検出部
23 音声認識部
24 閾値調整部
25 尤度調整部
26 時間比率算出部
27 閾値調整指示部
30 通信ネットワーク

Claims (13)

  1. 発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する受信部と、
    前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する検出部と、を備える発話区間検出装置。
  2. 前記外部装置は、第1の方法で前記尤度を算出し、
    前記検出部は、前記第1の方法とは異なる第2の方法で前記尤度を算出し、
    前記第1の方法で算出される前記尤度が前記第2の方法で算出される前記尤度に近づくように、前記外部装置に対して前記尤度の調整を指示する尤度調整指示部をさらに備える、請求項1に記載の発話区間検出装置。
  3. 前記尤度調整指示部は、サンプル信号と、当該サンプル信号に対して前記検出部が前記第2の方法で算出した前記尤度の時系列データとを前記外部装置に送信し、前記サンプル信号に対して前記第1の方法で時系列に算出される前記尤度が前記時系列データに近づくように、前記外部装置に対して前記尤度の調整を指示する、請求項2に記載の発話区間検出装置。
  4. 前記第1音声信号と前記第2音声信号との時間比率を算出する時間比率算出部と、
    前記時間比率に基づいて前記第1閾値の適正値を算出し、前記外部装置に対して、前記第1閾値を前記適正値に調整することを指示する閾値調整指示部をさらに備える、請求項1に記載の発話区間検出装置。
  5. 前記外部装置はマイクを用いて入力した信号から前記第1音声信号を検出し、
    前記閾値調整指示部は、前記時間比率に基づいて算出した前記適正値が基準範囲を越える場合は、前記外部装置に対して前記マイクの感度を調整することを指示する、請求項4に記載の発話区間検出装置。
  6. 前記外部装置はマイクを用いて入力した信号から前記第1音声信号を検出し、
    前記閾値調整指示部は、前記時間比率に基づいて算出した前記適正値が基準範囲を越える場合は、前記外部装置に対して前記マイクを用いた信号の入力が適切に行われていない旨の警告を送信する、請求項4に記載の発話区間検出装置。
  7. 前記外部装置に対して算出した前記適正値を当該外部装置の属性情報に対応付けて記憶する記憶部をさらに備え、
    前記閾値調整指示部は、前記記憶部が記憶する属性情報と類似する属性の他の外部装置に対し、前記属性情報と対応付けられた前記適正値を前記第1閾値として設定することを指示する、請求項4に記載の発話区間検出装置。
  8. 前記第2音声信号に対して音声認識処理を行って前記第2音声信号に対応するテキストデータを出力する音声認識部をさらに備える、請求項1に記載の発話区間検出装置。
  9. 前記音声認識部による認識結果に基づいて、前記第2閾値を調整する閾値調整部をさらに備える、請求項8に記載の発話区間検出装置。
  10. 第1装置と、ネットワークを介して前記第1装置と通信する第2装置とを含む音声処理システムであって、
    前記第1装置は、
    入力信号から、発話らしさを表す尤度が第1閾値以上の区間の信号である第1音声信号を検出する第1検出部と、
    前記第1音声信号を前記第2装置に送信する送信部と、を備え、
    前記第2装置は、
    前記第1音声信号を受信する受信部と、
    前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する第2検出部と、を備える音声処理システム。
  11. 前記第1装置は、
    前記入力信号を話者ごとの信号に分離する分離部をさらに備え、
    前記第1検出部は、分離された話者ごとの信号に対して動的に生成される、請求項10に記載の音声処理システム。
  12. コンピュータが実行する発話区間検出方法であって、
    発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する工程と、
    前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する工程と、を含む発話区間検出方法。
  13. コンピュータに、
    発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する機能と、
    前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する機能と、を実現させるためのプログラム。
JP2014155522A 2014-07-30 2014-07-30 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム Active JP6276132B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014155522A JP6276132B2 (ja) 2014-07-30 2014-07-30 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
PCT/JP2015/063533 WO2016017229A1 (ja) 2014-07-30 2015-05-11 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
US15/263,520 US10276191B2 (en) 2014-07-30 2016-09-13 Speech section detection device, voice processing system, speech section detection method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014155522A JP6276132B2 (ja) 2014-07-30 2014-07-30 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016033530A true JP2016033530A (ja) 2016-03-10
JP6276132B2 JP6276132B2 (ja) 2018-02-07

Family

ID=55217133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014155522A Active JP6276132B2 (ja) 2014-07-30 2014-07-30 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム

Country Status (3)

Country Link
US (1) US10276191B2 (ja)
JP (1) JP6276132B2 (ja)
WO (1) WO2016017229A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156044A (ja) * 2017-03-21 2018-10-04 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
JP2019191490A (ja) * 2018-04-27 2019-10-31 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
JP2020101603A (ja) * 2018-12-20 2020-07-02 トヨタ自動車株式会社 制御装置、音声対話装置、音声認識サーバ及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7047626B2 (ja) * 2018-06-22 2022-04-05 コニカミノルタ株式会社 会議システム、会議サーバ及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005091611A (ja) * 2003-09-16 2005-04-07 Mitsubishi Electric Corp 情報端末、音声認識サーバ、および音声認識システム
JP2007199552A (ja) * 2006-01-30 2007-08-09 Toyota Motor Corp 音声認識装置と音声認識方法
JP2007235969A (ja) * 2007-03-19 2007-09-13 Ricoh Co Ltd 映像記録システム、プログラム及び記録媒体
JP2008152125A (ja) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc 発話検出装置及び発話検出方法
JP2008158055A (ja) * 2006-12-21 2008-07-10 Sumitomo Cement Computers Systems Co Ltd 言語発音練習支援システム
JP2011191423A (ja) * 2010-03-12 2011-09-29 Honda Motor Co Ltd 発話認識装置、発話認識方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3601631B2 (ja) * 1995-10-24 2004-12-15 株式会社リコー 話者認識システムおよび話者認識方法
JP2991144B2 (ja) * 1997-01-29 1999-12-20 日本電気株式会社 話者認識装置
JP3477432B2 (ja) 2000-08-04 2003-12-10 旭化成株式会社 音声認識方法およびサーバならびに音声認識システム
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
FR2853126A1 (fr) * 2003-03-25 2004-10-01 France Telecom Procede de reconnaissance de parole distribuee
JP4197271B2 (ja) 2003-06-17 2008-12-17 シャープ株式会社 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体
US7567908B2 (en) * 2004-01-13 2009-07-28 International Business Machines Corporation Differential dynamic content delivery with text display in dependence upon simultaneous speech
JP4425055B2 (ja) 2004-05-18 2010-03-03 日本電信電話株式会社 クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体
GB2418764B (en) * 2004-09-30 2008-04-09 Fluency Voice Technology Ltd Improving pattern recognition accuracy with distortions
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
EP2047669B1 (de) * 2006-07-28 2014-05-21 Unify GmbH & Co. KG Verfahren zum durchführen einer audiokonferenz, audiokonferenzeinrichtung und umschalteverfahren zwischen kodierern
JP4714129B2 (ja) * 2006-11-29 2011-06-29 日本電信電話株式会社 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体
US8452596B2 (en) * 2007-03-27 2013-05-28 Nec Corporation Speaker selection based at least on an acoustic feature value similar to that of an utterance speaker
US7813924B2 (en) * 2007-04-10 2010-10-12 Nokia Corporation Voice conversion training and data collection
US8364485B2 (en) * 2007-08-27 2013-01-29 International Business Machines Corporation Method for automatically identifying sentence boundaries in noisy conversational data
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
US8543402B1 (en) * 2010-04-30 2013-09-24 The Intellisis Corporation Speaker segmentation in noisy conversational speech
US9258429B2 (en) * 2010-05-18 2016-02-09 Telefonaktiebolaget L M Ericsson Encoder adaption in teleconferencing system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005091611A (ja) * 2003-09-16 2005-04-07 Mitsubishi Electric Corp 情報端末、音声認識サーバ、および音声認識システム
JP2007199552A (ja) * 2006-01-30 2007-08-09 Toyota Motor Corp 音声認識装置と音声認識方法
JP2008152125A (ja) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc 発話検出装置及び発話検出方法
JP2008158055A (ja) * 2006-12-21 2008-07-10 Sumitomo Cement Computers Systems Co Ltd 言語発音練習支援システム
JP2007235969A (ja) * 2007-03-19 2007-09-13 Ricoh Co Ltd 映像記録システム、プログラム及び記録媒体
JP2011191423A (ja) * 2010-03-12 2011-09-29 Honda Motor Co Ltd 発話認識装置、発話認識方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156044A (ja) * 2017-03-21 2018-10-04 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
US10579327B2 (en) 2017-03-21 2020-03-03 Kabushiki Kaisha Toshiba Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold
JP2019191490A (ja) * 2018-04-27 2019-10-31 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
JP2020101603A (ja) * 2018-12-20 2020-07-02 トヨタ自動車株式会社 制御装置、音声対話装置、音声認識サーバ及びプログラム
JP7131362B2 (ja) 2018-12-20 2022-09-06 トヨタ自動車株式会社 制御装置、音声対話装置及びプログラム

Also Published As

Publication number Publication date
WO2016017229A1 (ja) 2016-02-04
US10276191B2 (en) 2019-04-30
JP6276132B2 (ja) 2018-02-07
US20160379673A1 (en) 2016-12-29

Similar Documents

Publication Publication Date Title
US10579327B2 (en) Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold
US11064296B2 (en) Voice denoising method and apparatus, server and storage medium
US11870942B2 (en) Systems and methods to automatically join conference
KR20170032096A (ko) 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체
JP6276132B2 (ja) 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
EP3484183B1 (en) Location classification for intelligent personal assistant
JP2010112995A (ja) 通話音声処理装置、通話音声処理方法およびプログラム
US8793128B2 (en) Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point
JP6067391B2 (ja) 信号音量に基いた信号利得の適合時のピーク検出
JP5863928B1 (ja) 音声調整装置
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP2004012151A (ja) 音源方向推定装置
JP2018005122A (ja) 検出装置、検出方法及び検出プログラム
JP2017015774A (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
US20140324418A1 (en) Voice input/output device, method and programme for preventing howling
CN116830191A (zh) 基于热词属性调配自动语音识别参数
JP2005157086A (ja) 音声認識装置
WO2019207912A1 (ja) 情報処理装置及び情報処理方法
JP2020024310A (ja) 音声処理システム及び音声処理方法
JP6361360B2 (ja) 残響判定装置及びプログラム
JP2020201337A (ja) 音声処理装置及び音声処理方法
US11694705B2 (en) Sound signal processing system apparatus for avoiding adverse effects on speech recognition
JP6822540B2 (ja) 端末装置、通信方法及び通信プログラム
US10601757B2 (en) Multi-output mode communication support device, communication support method, and computer program product
JP6282999B2 (ja) 補聴器の指向性を試験するための装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180111

R150 Certificate of patent or registration of utility model

Ref document number: 6276132

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150