JP2016180915A - 音声認識システム、クライアント装置、音声認識方法、プログラム - Google Patents

音声認識システム、クライアント装置、音声認識方法、プログラム Download PDF

Info

Publication number
JP2016180915A
JP2016180915A JP2015061832A JP2015061832A JP2016180915A JP 2016180915 A JP2016180915 A JP 2016180915A JP 2015061832 A JP2015061832 A JP 2015061832A JP 2015061832 A JP2015061832 A JP 2015061832A JP 2016180915 A JP2016180915 A JP 2016180915A
Authority
JP
Japan
Prior art keywords
signal
voice recognition
acoustic signal
client device
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015061832A
Other languages
English (en)
Other versions
JP6320963B2 (ja
Inventor
智子 川瀬
Tomoko Kawase
智子 川瀬
和則 小林
Kazunori Kobayashi
和則 小林
仲 大室
Hitoshi Omuro
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015061832A priority Critical patent/JP6320963B2/ja
Publication of JP2016180915A publication Critical patent/JP2016180915A/ja
Application granted granted Critical
Publication of JP6320963B2 publication Critical patent/JP6320963B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】クライアント装置に高度な処理を要求せず、単純な構成の音声認識サーバ装置を用いて低い導入コストで高い性能を実現することができる音声認識システムを提供する。【解決手段】クライアント装置と、複数の音声認識サーバ装置を含む音声認識システムであって、音声認識サーバ装置のそれぞれは、クライアント装置に入力される音響信号の収音条件に基づいて音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとし、クライアント装置は、入力された音響信号の収音条件を抽出する収音条件抽出部と、抽出された収音条件に対応する音声認識サーバ装置に音響信号または音響信号に由来する信号を送信する送信部を含む。【選択図】図1

Description

本発明は、クライアント装置と複数の音声認識サーバ装置を含む音声認識システム、クライアント装置、音声認識方法、プログラムに関する。
従来のサーバ・クライアント型の音声認識方法について開示した文献として例えば特許文献1がある。特許文献1のサーバ・クライアント型音声認識方法は、クライアント装置で観測した無音声区間の信号によって雑音モデルを生成し、クライアント装置と音声認識サーバ装置のそれぞれにおいて雑音モデルと音声モデルとにより共通の雑音重畳音声モデルを生成し、クライアント装置では認識対象とする入力音声の特徴量を雑音重畳音声モデルに基づいてコード化して音声認識サーバ装置に送信し、音声認識サーバ装置ではクライアント装置から受信したコードを雑音重畳音声モデルに基づいて特徴量に変換する。この方法は、雑音モデルに基づく雑音重畳音声モデルをその都度生成するので、様々な雑音下における音声の認識処理に対応できるという利点があった。
また特許文献2の音声認識方法では、音声入力時の雑音区間(音声区間でない区間)の信号と、雑音重畳音声モデルを作成する際に重畳した雑音信号との類似度(雑音類似度という)を計算し、類似度が所定値以上を示す雑音重畳音声モデルを音声認識用の確率モデルとして利用したり、類似度が所定値以上となる雑音重畳音声モデルが存在しなければ予め格納してある音声モデルと雑音区間の信号とを利用して雑音信号に適応した雑音重畳音声モデルを作成して音声認識用の確率モデルとする。この方法は、クライアント装置に高度な処理を要求しなくて良いという利点があった。
特許第4769121号公報 特許第4242320号公報
特許文献1の方法では、雑音モデルを観測してから雑音重畳音声モデルを生成して認識に利用するために時間がかかるとすれば、雑音モデル観測時の雑音の特性と認識利用時の雑音の特性とが異なってしまい音声認識性能に影響を及ぼす可能性がある。音声認識利用のために雑音重畳音声モデルを高速に生成するためには、クライアント装置に高度な処理能力を求めることになってしまう。また音声認識サーバ装置側においても同様に、雑音重畳音声モデルを作成するためにその稼働量が一時的に増大するという問題が生じる。
特許文献2の方法を、大多数の利用者が同時に利用するサーバ・クライアント型音声認識システムに適用しようとすると、あらゆる利用者の雑音区間の信号に対応するためには、1つの音声認識サーバ装置の中に様々な雑音に対応した雑音重畳音声モデルを格納する必要があり、モデルの管理が複雑になってしまう。もしくは、クライアント装置から雑音区間の信号を受信する都度、雑音重畳音声モデルを作成するために音声認識サーバ装置の稼働量が一時的に増大するという問題が生じる。
そこで本発明では、クライアント装置に高度な処理を要求せず、単純な構成の音声認識サーバ装置を用いて低い導入コストで高い性能を実現することができる音声認識システムを提供することを目的とする。
本発明の音声認識システムは、クライアント装置と、複数の音声認識サーバ装置を含む。音声認識サーバ装置のそれぞれは、クライアント装置に入力される音響信号の収音条件に基づいて音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとする。クライアント装置は、収音条件抽出部と、送信部を含む。
収音条件抽出部は、入力された音響信号の収音条件を抽出する。送信部は、抽出された収音条件に対応する音声認識サーバ装置に、音響信号または音響信号に由来する信号を送信する。
本発明の音声認識システムによれば、クライアント装置に高度な処理を要求せず、単純な構成の音声認識サーバ装置を用いて低い導入コストで高い性能を実現することができる。
実施例1の音声認識システムの構成を示すブロック図。 実施例1の音声認識システムの動作を示すシーケンス図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下の説明では、音声認識対象とする発声された信号を音声信号、音声信号と音声信号以外の背景雑音信号などが混在した状態で収音した信号を音響信号と呼ぶこととする。
以下、実施例1の音声認識システムの概要について説明する。本実施例の音声認識システムは、クライアント装置側の収音条件に基づいて、クライアント装置に入力された音響信号(あるいはその特徴量)の送信先となる音声認識サーバ装置を選択し、選択された音声認識サーバ装置では、クライアント装置側の収音条件に特化した特性を持つ音響モデルのみを格納しておくという着想に基づいている。このシステムによれば、収音条件に応じて最適な音声認識サーバ装置で音声認識処理を行うことができ、低い導入コストで高い性能を実現することができる。
また本実施例の音声認識システムでは、入力された音響信号(あるいはその特徴量)を音声認識サーバ装置に送信する前に、クライアント装置側で例えば雑音抑圧のような信号処理を行う。この場合クライアント装置側で、前述の収音条件に基づいて信号処理を実施するか否かを決定し、信号処理を実施したか否かに応じて、音響信号(あるいはその特徴量)の送信先となる音声認識サーバ装置を異ならせる。これにより、音声認識サーバ装置に送信される信号と、音声認識サーバ装置の音響モデルの特性を適合させることができ、、さらに音声認識処理の性能を高くすることができる。
以下、図1、図2を参照して本実施例の音声認識システムの構成、および動作について説明する。図1は、本実施例の音声認識システム1の構成を示すブロック図である。図2は、本実施例の音声認識システム1の動作を示すシーケンス図である。図1に示すように、本実施例の音声認識システム1は、クライアント装置10と、複数の音声認識サーバ装置21−1、…、21−n、…、21−N(NはN≧2を充たす整数、nは1≦n≦Nを充たす整数)を含む。図1においてクライアント装置10は1台のみ図示したが、これに限らずクライアント装置10は複数台あってもよい。音声認識サーバ装置21−1、…、21−n、…、21−Nをまとめて呼称する際には、音声認識サーバ装置群20と呼ぶ。クライアント装置10と音声認識サーバ装置群20は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。
音声認識サーバ装置21−1、…、21−n、…、21−Nは、クライアント装置10に入力される音響信号の収音条件(詳細は後述)に基づいて音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとする。音響モデルの特性として例えば雑音特性などが考えられる。クライアント装置10は、収音条件抽出部11と、しきい値記憶部111と、選択部12と、送信先記憶部121と、信号処理部13と、送信部14と、受信部15と、呈示部16を含む。
収音条件抽出部11は、入力された音響信号の収音条件を抽出する(S11)。選択部12は、抽出された収音条件に基づいて、対応する音声信号の送信先となる音声認識サーバ装置(例えば音声認識サーバ装置21−1)を選択する(S12)。収音条件と送信先となる音声認識サーバ装置との関係は、送信先記憶部121に予め記憶されているものとする。
<収音条件>
収音条件は、例えば音声信号の大きさと背景雑音信号の大きさの比率であるS/N比に関する特徴量、音響信号のひずみに関する特徴量、背景雑音信号のスペクトル形状に関する特徴量、背景雑音信号の大きさに関する特徴量のうち少なくとも何れかの特徴量についてのしきい値に基づく条件とすることができる。しきい値は、しきい値記憶部111に予め記憶されているものとする。
背景雑音信号とは発声音声や目的音が入力される直前の一定時間にマイクで観測された信号である。背景雑音信号の大きさとは、背景雑音信号のパワースペクトルの一定時間の平均値である。背景雑音信号のスペクトル形状とは、背景雑音信号のスペクトルにおける各帯域の成分やその時間変化である。音声信号と背景雑音信号のS/N比とは、発声音声(目的音)入力中の音響信号中の音声信号の大きさと背景雑音信号の大きさの比である。音声信号として、発声音声(目的音)入力中の一定時間の音響信号のパワースペクトルから背景雑音信号のパワースペクトルの一定時間の平均値を差し引いたパワースペクトルを用いることができる。音声信号の大きさとは、発声音声(目的音)入力中の一定時間の音声信号のパワースペクトルの平均値である。
音響信号のひずみとは、音響信号の入力が大きすぎたためにマイクロホン素子、マイクロホンアンプ回路、A/D変換がクリッピングしているものを指す。入力信号レベルが、あらかじめ決めた閾値以上の振幅を持つ区間を検出し、その時間的な割合を計算する。この割合が高ければひずみが大きく、割合が小さければひずみが小さい。閾値以上の振幅となっていなければ、ひずみなしとすることができる。閾値は、マイク素子、回路、AD変換のクリッピングレベルに合わせて設定する。
<収音条件抽出部11(S11)、選択部12(S12)>
以下に、収音条件抽出部11、選択部12の動作(S11、S12)の例について述べる。収音条件抽出部11は、例えば入力された音響信号から収音条件を表す特徴量を抽出し、特徴量の値に応じて入力された音響信号をグループ(例えば収音条件を表す符号)に分ける。
次に、選択部12は、表1に記載のように、グループ(収音条件を表す符号)とインデックス(送信先音声認識サーバ装置を表す符号)の関係に基づいて、対応する音響信号の送信先となる音声認識サーバ装置(例えば音声認識サーバ装置21−1)を選択する(S12)。
Figure 2016180915
特徴量xは例えば、音響信号に含まれる音声信号の大きさと背景雑音信号の大きさの比率であるS/N比、音響信号のひずみの有無やひずみの頻度、背景雑音信号のスペクトル形状、背景雑音信号の大きさ、などとすることができる。
特徴量xをS/N比とする場合、例えばしきい値をθ1=0dB、θ2=10dB、θ3=20dB等と設定し、x=5dBならば収音条件抽出部11はグループ2を収音条件として抽出し、選択部12はインデックス2を選択する。
特徴量xを音響信号のひずみとする場合、たとえばビットデプス16bitで量子化した信号で、0.5秒間で振幅の絶対値が30000以上となる時間の割合を特徴量xとする。しきい値をθ1=0.8等と設定し、x=0ならば収音条件抽出部11はグループ1を収音条件として抽出し、選択部12はインデックス1を選択し、x=0.9ならば収音条件抽出部11はグループ2を収音条件として抽出し、選択部12はインデックス2を選択する。
特徴量xを背景雑音信号のスペクトル形状とする場合、例えば背景雑音信号の大きさを周波数帯域や継続時間によりx1、x2、…、xm等(mはm≧2を充たす整数)と分けて評価する。収音条件抽出部11は、評価結果の組み合わせからグループを抽出し、選択部12はそのインデックスを選択する。また、背景雑音信号のスペクトル形状を特徴量として用いる別の方法として、複数種類の背景雑音信号のモデルを記憶しておき、入力された信号の背景雑音信号をモデルのいずれかに分類することもできる。複数種類の背景雑音信号とは、例えばホワイトノイズ、ピンクノイズ、バーストノイズなどである。この方法では、モデル一つ一つに対応するグループを割振っておき、入力された信号の背景雑音信号が分類されたモデルに応じてグループが決定される。
特徴量xを背景雑音信号の大きさとする場合、たとえばθ1=40dBA、θ2=55dBA、θ3=70dBA等と設定し、特徴量x=50dBAならば収音条件抽出部11はグループ2を収音条件として抽出し、選択部12はインデックス2を選択する。ここでdBAとは人間の聴覚を考慮した周波数重み付け特性(A特性)のもとで測定した騒音レベルのdB値の単位である。
<信号処理部13(S13)>
信号処理部13は、抽出された収音条件が所定の条件に該当する場合に、対応する音響信号を信号処理する(S13)。具体的には信号処理部13は、S/N比や背景雑音信号の大きさが、収音条件抽出部11で抽出された収音条件に基づいて決定される音声認識サーバ装置において音声認識対象として想定していた特徴量の範囲に適合するように、対応する音響信号を信号処理する。例えばS/N比=1近傍、すなわち0dB近傍の収音条件は、音声信号の大きさと背景雑音信号の大きさが同等であり、そのような音響信号をそのまま音声認識に用いれば性能の低下を招きやすい。従って、S/N比=0dB近傍の収音条件を収音条件抽出部11で抽出した場合は、当該収音条件の音響信号に対して背景雑音信号を抑圧する信号処理を信号処理部13で適用する。あるいは例えばS/N比=100近傍、すなわち20dB近傍の収音条件を収音条件抽出部11で抽出した場合は、前述の0dB近傍の収音条件と同様に、S/N比の値に応じて適応的に背景雑音信号を抑圧する処理を行うとしても良いし、抑圧する処理を全く行わないとしても良い。その他の収音条件においても、信号処理部13において、収音条件抽出部11で抽出した結果に基づき、音響信号への信号処理を適応的に行う。
以下に、信号処理部13の動作(S13)の例について述べる。音声認識では、多くの場合、前処理として信号処理により入力音声を補正する。音声認識において前処理して対処すべき音響特性として、例えば、加法性雑音と乗法性雑音がある。加法性雑音は、音声入力環境に遍在する雑音のように音声信号に対して加法的に観測される信号である。一方、乗法性雑音とはマイクの特性や空間伝達特性などの音響特性に起因する雑音(ひずみ)であり、時間波形では原音声波形に対する畳み込み演算として観測されるもので、スペクトル波形では乗算性のひずみとなるものである。加法性雑音に対処した音声認識処理の例としては、参考特許文献1の段落[0005]に開示されたスペクトルサブトラクション法に基づく雑音抑圧法、または同文献の段落[0007]に開示されたウィナー・フィルタ法(以下、WF法という)に基づく雑音抑圧法などのように、雑音の重畳した音声から雑音を抑圧して音声認識に適用する方法がある。
(参考特許文献1:特許第4464797号公報)
加法性雑音に加えて乗法性雑音に対処した音声認識処理の例としては、参考特許文献1のように乗法性雑音の影響を除去した音声モデルに雑音モデルを重畳させた雑音重畳音声モデルを生成してから乗法性特徴量に基づいてモデルを更新する方法がある。あるいは参考特許文献2の発明のように、雑音モデルに対しても乗法性雑音特徴量に基づいて正規化した上で正規化雑音重畳音声モデルを生成する方法がある。
(参考特許文献2:特許第5200080号公報)
信号処理部13が行う信号処理として典型的には雑音抑圧が考えられる。雑音抑圧以外の信号処理としては、例えばAGC(Automatic Gain Control)、CMN(Cepstrum Mean Normalization)、イコライザなどでもよい。
<AGC>
Automatic Gain Control(AGC)は、入力音声信号の短時間平均パワーまたは短時間平均振幅をもとに入力信号レベルを検出し、入力信号レベルと最適レベル(目標値)との差分が少なくなるように音声入力段の利得(ゲイン)を調整する処理である。AGCはA/D変換後の音声波形が過少または過大になって音声特徴量が不明瞭になることを防ぐ効果がある。AGCについては、例えば参考特許文献3の段落[0001]に開示されている。
(参考特許文献3:特許第3588555号公報)
<CMN>
Cepstrum Mean Normalization(CMN)とは、音声認識の特徴量であるケプストラムにおいて、入力音声信号の長時間ケプストラム平均を求め、各フレームの入力音声のケプストラムから長時間ケプストラム平均をさし引く処理である。CMNは、マイクロホンの特性、マイクロホンの位置、部屋の形状に代表される乗算性ひずみの影響を軽減するために用いられる。CMNについては、例えば参考特許文献1の段落[0010]に開示されている。
なお、クライアント装置10の信号処理部13でCMNを実施する場合、クライアント装置10から音声認識サーバ装置へは、音声認識のための音響信号に由来する信号として、CMN適用後のMFCC(メル周波数ケプストラム)が送信されることとしておけば、音声認識サーバ装置で再度ケプストラム分析する処理を省くことができる。
<イコライザ>
イコライザとは、入力音声信号のゲインを周波数帯域ごとに調整する処理である。例えば音声入力用のマイクロホンの音響特性が平坦でないことが予めわかっていれば、イコライザを経由することで、音響特性を改善したうえで収音することができる。イコライザについては、例えば参考特許文献4の段落[0010]、[0016]に開示されている。
(参考特許文献4:特許第2865268号公報)
次に、送信部14は、抽出された収音条件に対応する音声認識サーバ装置(ステップS12で選択された音声認識サーバ装置)に、音響信号または音響信号に由来する信号を送信する(S14)。このとき、送信部14は、ステップS13の信号処理がされていない場合と信号処理がされた場合とで送信先を異ならせて、信号処理がされていない音響信号、または信号処理がされた音響信号を送信するものとする。また、ステップS12で選択された音声認識サーバ装置とは関係なくステップS13の信号処理が実施されたか否かだけで、異なる音声認識サーバ装置のうちのいずれかの送信先を決定しても良い。なお、音響信号に由来する信号とは、音響信号の特徴量を表す信号、ステップS13における信号処理を施した音響信号などを指す。また送信部14は、音響信号または音響信号に由来する信号を送信する際に、収音条件(グループ)やそのしきい値、信号処理部13における信号処理の有無に関する情報を音声認識サーバ装置に送信しても良い。音声認識サーバ装置は収音条件(グループ)やそのしきい値、や信号処理の有無から、どのような収音条件または信号処理条件において当該音声認識サーバ装置が選択されたかを記録することが可能になる。
音声認識サーバ装置21−1、…、21−n、…、21−Nは、クライアント装置10から音響信号または音響信号に由来する信号を受信する(S21A)。音響信号または音響信号に由来する信号を受信した音声認識サーバ装置(例えば音声認識サーバ装置21−1)は、音声認識処理を実行する(S21B)。
<音声認識処理(S21B)>
ステップS21Bの音声認識処理は、例えば以下のように実行される。音声認識サーバ装置は、一文章や一単語の発話を文字列に変換する。音声認識サーバ装置は、音声特徴量として音声のパワーやその変化量、MFCC(メル周波数ケプストラム、Mel-Frequency Cepstrum Coefficient)やその動的変化量を用いる。音声認識サーバ装置は、統計的な音響モデルや言語モデルを用いて単語列を探索する。
ステップS21Bの音声認識処理を実行した音声認識サーバ装置は、音声認識結果をクライアント装置10に送信する(S21C)。クライアント装置10の受信部15は、音声認識結果を受信する(S15)。クライアント装置10の呈示部16は、受信した音声認識結果を呈示する(S16)。
このように、本実施例の音声認識システム1、クライアント装置10によれば、クライアント装置側の収音条件に基づいて、送信先となる音声認識サーバ装置を選択し、選択された音声認識サーバ装置では、音響モデルとしてクライアント装置側の収音条件に特化した特性を持つ音響モデルのみを格納しておくため、収音条件に応じて最適な音声認識サーバ装置で音声認識処理を行うことができ、低い導入コストで高い性能を実現することができる。
また本実施例の音声認識システム1、クライアント装置10によれば、クライアント装置側で例えば雑音抑圧のような信号処理を行い、信号処理を実施したか否かに応じて、音響信号(あるいはその特徴量)の送信先となる音声認識サーバ装置を異ならせることとしたため、音声認識サーバ装置の選択範囲が広がり、さらに音声認識処理の性能を高くすることができる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1. クライアント装置と、複数の音声認識サーバ装置を含む音声認識システムであって、
    前記音声認識サーバ装置のそれぞれは、
    前記クライアント装置に入力される音響信号の収音条件に基づいて前記音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとし、
    前記クライアント装置は、
    入力された音響信号の収音条件を抽出する収音条件抽出部と、
    前記抽出された収音条件に対応する音声認識サーバ装置に、前記音響信号または前記音響信号に由来する信号を送信する送信部を含む
    音声認識システム。
  2. 請求項1に記載の音声認識システムであって、
    前記特性は、雑音特性である
    音声認識システム。
  3. 請求項1または2に記載の音声認識システムであって、
    前記クライアント装置は、
    前記抽出された収音条件が所定の条件に該当する場合に、対応する音響信号を信号処理する信号処理部を含み、
    前記送信部は、
    前記信号処理がされていない場合と前記信号処理がされた場合とで送信先を異ならせて、前記信号処理がされていない音声信号、または前記信号処理がされた音響信号を送信する
    音声認識システム。
  4. 請求項1から3の何れかに記載の音声認識システムであって、
    前記クライアント装置は、
    前記抽出された収音条件に基づいて、対応する音響信号の送信先となる音声認識サーバ装置を選択する選択部を含む
    音声認識システム。
  5. 請求項1から4の何れかに記載の音声認識システムであって、
    前記収音条件は、
    前記音響信号に含まれる音声信号の大きさと背景雑音信号の大きさの比率であるS/N比に関する特徴量、前記音響信号のひずみに関する特徴量、前記背景雑音信号のスペクトル形状に関する特徴量、前記背景雑音信号の大きさに関する特徴量のうち少なくとも何れかの特徴量についてのしきい値に基づく条件である
    音声認識システム。
  6. 複数の音声認識サーバ装置と通信するクライアント装置であって、
    入力された音響信号の収音条件を抽出する収音条件抽出部と、
    前記抽出された収音条件が所定の条件に該当する場合に前記音響信号を信号処理する信号処理部と、
    前記信号処理がされていない場合と前記信号処理がされた場合とで送信先を異ならせて、前記信号処理がされていない音響信号、または前記信号処理がされた音響信号を前記音声認識サーバ装置の何れかに送信する送信部を含む
    クライアント装置。
  7. 複数の音声認識サーバ装置と通信するクライアント装置であって、
    入力された音響信号の収音条件を抽出する収音条件抽出部と、
    前記抽出された収音条件に基づいて、対応する音響信号の送信先となる音声認識サーバ装置を選択する選択部と、
    前記選択された音声認識サーバ装置に、前記音響信号または前記音響信号に由来する信号を送信する送信部を含む
    クライアント装置。
  8. 複数の音声認識サーバ装置と通信するクライアント装置が実行する音声認識方法であって、
    前記音声認識サーバ装置のそれぞれは、
    前記クライアント装置に入力される音響信号の収音条件に基づいて前記音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとし、
    前記クライアント装置は、
    入力された音響信号の収音条件を抽出するステップと、
    前記抽出された収音条件に対応する音声認識サーバ装置に、前記音響信号または前記音響信号に由来する信号を送信するステップを実行する
    音声認識方法。
  9. コンピュータを、請求項6または7に記載のクライアント装置として機能させるためのプログラム。
JP2015061832A 2015-03-25 2015-03-25 音声認識システム、クライアント装置、音声認識方法、プログラム Active JP6320963B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015061832A JP6320963B2 (ja) 2015-03-25 2015-03-25 音声認識システム、クライアント装置、音声認識方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015061832A JP6320963B2 (ja) 2015-03-25 2015-03-25 音声認識システム、クライアント装置、音声認識方法、プログラム

Publications (2)

Publication Number Publication Date
JP2016180915A true JP2016180915A (ja) 2016-10-13
JP6320963B2 JP6320963B2 (ja) 2018-05-09

Family

ID=57132744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015061832A Active JP6320963B2 (ja) 2015-03-25 2015-03-25 音声認識システム、クライアント装置、音声認識方法、プログラム

Country Status (1)

Country Link
JP (1) JP6320963B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111862949A (zh) * 2020-07-30 2020-10-30 北京小米松果电子有限公司 自然语言的处理方法及装置、电子设备及存储介质
CN112130801A (zh) * 2019-06-07 2020-12-25 雅马哈株式会社 音响装置及音响处理方法
US11600262B2 (en) 2018-06-07 2023-03-07 Kabushiki Kaisha Toshiba Recognition device, method and storage medium

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331798A (ja) * 2000-05-22 2001-11-30 Nec Corp 分散データベース高速アクセス方式を併用した認識システム
JP2003140691A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd 音声認識装置
JP2003177790A (ja) * 2001-09-13 2003-06-27 Matsushita Electric Ind Co Ltd 端末装置、サーバ装置および音声認識方法
JP2003241788A (ja) * 2002-02-20 2003-08-29 Ntt Docomo Inc 音声認識装置及び音声認識システム
JP2005338286A (ja) * 2004-05-25 2005-12-08 Yamaha Motor Co Ltd 対象音処理装置およびこれを用いた輸送機器システム、ならびに対象音処理方法
WO2011148594A1 (ja) * 2010-05-26 2011-12-01 日本電気株式会社 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム
JP2014109601A (ja) * 2012-11-30 2014-06-12 Ntt Docomo Inc 音声処理システム、音声処理装置、音声処理方法及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331798A (ja) * 2000-05-22 2001-11-30 Nec Corp 分散データベース高速アクセス方式を併用した認識システム
JP2003177790A (ja) * 2001-09-13 2003-06-27 Matsushita Electric Ind Co Ltd 端末装置、サーバ装置および音声認識方法
JP2003140691A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd 音声認識装置
JP2003241788A (ja) * 2002-02-20 2003-08-29 Ntt Docomo Inc 音声認識装置及び音声認識システム
JP2005338286A (ja) * 2004-05-25 2005-12-08 Yamaha Motor Co Ltd 対象音処理装置およびこれを用いた輸送機器システム、ならびに対象音処理方法
WO2011148594A1 (ja) * 2010-05-26 2011-12-01 日本電気株式会社 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム
JP2014109601A (ja) * 2012-11-30 2014-06-12 Ntt Docomo Inc 音声処理システム、音声処理装置、音声処理方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11600262B2 (en) 2018-06-07 2023-03-07 Kabushiki Kaisha Toshiba Recognition device, method and storage medium
CN112130801A (zh) * 2019-06-07 2020-12-25 雅马哈株式会社 音响装置及音响处理方法
CN111862949A (zh) * 2020-07-30 2020-10-30 北京小米松果电子有限公司 自然语言的处理方法及装置、电子设备及存储介质
CN111862949B (zh) * 2020-07-30 2024-04-02 北京小米松果电子有限公司 自然语言的处理方法及装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP6320963B2 (ja) 2018-05-09

Similar Documents

Publication Publication Date Title
US10867618B2 (en) Speech noise reduction method and device based on artificial intelligence and computer device
JP6889698B2 (ja) 音声を増幅する方法及び装置
CN106648527A (zh) 一种音量控制方法、装置以及播放设备
WO2022012195A1 (zh) 音频信号处理方法和相关装置
US20060253285A1 (en) Method and apparatus using spectral addition for speaker recognition
JPH09212196A (ja) 雑音抑圧装置
CN101023469A (zh) 数字滤波方法和装置
CN110047519B (zh) 一种语音端点检测方法、装置及设备
JP6320963B2 (ja) 音声認識システム、クライアント装置、音声認識方法、プログラム
JP6389787B2 (ja) 音声認識システム、音声認識方法、プログラム
CN110797031A (zh) 语音变音检测方法、系统、移动终端及存储介质
US20160027438A1 (en) Concurrent Segmentation of Multiple Similar Vocalizations
JP2016090799A (ja) 雑音抑圧装置、その方法及びプログラム
JP6320962B2 (ja) 音声認識システム、音声認識方法、プログラム
JP6273227B2 (ja) 音声認識システム、音声認識方法、プログラム
CN112712816A (zh) 语音处理模型的训练方法和装置以及语音处理方法和装置
EP4372748A2 (en) Methods and apparatus to fingerprint an audio signal via normalization
CN112151055B (zh) 音频处理方法及装置
JP2017083566A (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
CN113658581B (zh) 声学模型的训练、语音处理方法、装置、设备及存储介质
CN112233693B (zh) 一种音质评估方法、装置和设备
JP6693340B2 (ja) 音声処理プログラム、音声処理装置、及び音声処理方法
CN111370017B (zh) 一种语音增强方法、装置、系统
CN113593604A (zh) 检测音频质量方法、装置及存储介质
CN110767238B (zh) 基于地址信息的黑名单识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180404

R150 Certificate of patent or registration of utility model

Ref document number: 6320963

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150