JP6389787B2 - 音声認識システム、音声認識方法、プログラム - Google Patents

音声認識システム、音声認識方法、プログラム Download PDF

Info

Publication number
JP6389787B2
JP6389787B2 JP2015061833A JP2015061833A JP6389787B2 JP 6389787 B2 JP6389787 B2 JP 6389787B2 JP 2015061833 A JP2015061833 A JP 2015061833A JP 2015061833 A JP2015061833 A JP 2015061833A JP 6389787 B2 JP6389787 B2 JP 6389787B2
Authority
JP
Japan
Prior art keywords
speech recognition
voice recognition
signal
recognition server
client device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015061833A
Other languages
English (en)
Other versions
JP2016180916A (ja
Inventor
智子 川瀬
智子 川瀬
小林 和則
和則 小林
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015061833A priority Critical patent/JP6389787B2/ja
Publication of JP2016180916A publication Critical patent/JP2016180916A/ja
Application granted granted Critical
Publication of JP6389787B2 publication Critical patent/JP6389787B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明は、クライアント装置と複数の音声認識サーバ装置と管理部を含む音声認識システム、音声認識方法、プログラムに関する。
従来、クライアント装置で検出した音声区間の信号に対して音声認識サーバ装置で音声認識を行ってその結果をクライアント装置に返信する、サーバ・クライアント型音声認識システムが存在する(例えば特許文献1)。音声認識サーバ装置を、何れのクライアント装置からでもアクセス可能なネットワーク上に配置することにより、音声認識システムを利用したサービスを多数のクライアント装置が享受できるようになる。
特開2005−331616号公報
このとき、音声認識サーバ装置の認識性能が十分でなければ、クライアント装置は正解の認識結果を得るまで何度も音声認識サーバ装置にアクセスする必要がある。この複数回のアクセスにより音声認識サーバ装置の負荷が増大し、システムの利用効率が低下する。システムの利用効率を向上させるためには、誤認識の回数を削減することが必要である。
そこで本発明では、誤認識の回数を削減でき、システムの利用効率を向上させることができる音声認識システムを提供することを目的とする。
本発明の音声認識システムは、クライアント装置と、複数の音声認識サーバ装置と、管理部を含む。クライアント装置は、受信部と、言い直し判定部と、送信部と、送信先変更部を含む。
受信部は、クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する。言い直し判定部は、ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出する。送信部は、繰り返し信号群を全て再学習信号群とし、正解候補と、再学習信号群の組を管理部に送信する。送信先変更部は、音響信号の送信先となる音声認識サーバ装置と収音条件との関係に関する情報である送信先情報に基づいて、音響信号の送信先となる音声認識サーバ装置と収音条件との関係を変更する。
管理部は、音声認識結果受信部と、送信先情報更新部と、送信先情報送信部を含む。
音声認識結果受信部は、全ての音声認識サーバ装置から再学習信号群に対する音声認識結果を受信する。送信先情報更新部は、全ての音声認識サーバ装置から受信した各音声認識結果と正解候補との類似度に基づいて、送信先情報を更新する。送信先情報送信部は、更新された送信先情報をクライアント装置に送信する。
本発明の音声認識システムによれば、誤認識の回数を削減でき、システムの利用効率を向上させることができる。
実施例1の音声認識システムの構成を示すブロック図。 実施例1の音声認識システムの言い直し判定部の構成を示すブロック図。 実施例1の音声認識システムの管理部の構成を示すブロック図。 実施例1の音声認識システムの音声認識動作を示すシーケンス図。 実施例1の音声認識システムの情報更新動作を示すシーケンス図。 実施例1の音声認識システムの言い直し判定部の動作を示すフローチャート。 実施例1の音声認識システムの言い直し判定動作を例示する図。 実施例1の音声認識システムの送信先情報更新動作を例示する図。 実施例2の音声認識システムの構成を示すブロック図。 実施例2の音声認識システムの管理部の構成を示すブロック図。 実施例2の音声認識システムの情報更新動作を示すシーケンス図。 実施例3の音声認識システムの構成を示すブロック図。 実施例3の音声認識システムの管理部の構成を示すブロック図。 実施例3の音声認識システムの情報更新動作を示すシーケンス図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下の説明では、音声認識対象とする発声された信号を音声信号、音声信号と音声信号以外の背景雑音信号などが混在した状態で収音した信号を音響信号と呼ぶこととする。
以下、図1、図2、図3を参照して本実施例の音声認識システムの構成について説明する。図1は、本実施例の音声認識システム1の構成を示すブロック図である。図2は、本実施例の音声認識システム1の言い直し判定部17の構成を示すブロック図である。図3は、本実施例の音声認識システム1の管理部30の構成を示すブロック図である。
図1に示すように、本実施例の音声認識システム1は、クライアント装置10と、複数の音声認識サーバ装置21−1、…、21−n、…、21−N(NはN≧2を充たす整数、nは1≦n≦Nを充たす整数)と、管理部30を含む。図1においてクライアント装置10は1台のみ図示したが、クライアント装置10は複数台存在してもよい。音声認識サーバ装置21−1、…、21−n、…、21−Nをまとめて呼称する際には、音声認識サーバ装置群20と呼ぶ。クライアント装置10と音声認識サーバ装置群20は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。管理部30は、単独のハードウェア(装置)として構成されてもよい。管理部30を単独のハードウェア(装置)として構成した場合は、これを管理装置30と呼んでもよい。管理部30を単独のハードウェア(装置)として構成した場合、クライアント装置10と音声認識サーバ装置群20と管理部30(管理装置30)はネットワークを介して、無線または有線で通信可能に接続されているものとする。また、管理部30は、クライアント装置10内の構成要件であってもよいし、音声認識サーバ装置群20内の何れかの音声認識サーバ装置内の構成要件であってもよい。
音声認識サーバ装置21−1、…、21−n、…、21−Nは、クライアント装置10に入力される音響信号の収音条件(詳細は後述)に基づいて音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとする。音響モデルの特性として例えば雑音特性などが考えられる。クライアント装置10は、収音条件抽出部11と、しきい値記憶部111と、選択部12と、送信先記憶部121と、信号処理部13と、送信部14と、受信部15と、呈示部16と、言い直し判定部17と、言い直し情報記憶部171と、送信先変更部18を含む。図2に示すように本実施例の言い直し判定部17は、反応時間測定部17Aと、信頼度取得部17Bと、類似度算出部17Cと、判定部17Dを含む。図3に示すように本実施例の管理部30は、正解候補受信部30Aと、再学習信号群送信部30Bと、音声認識結果受信部30Cと、送信先情報更新部30Dと、送信先情報送信部30Eと、正解候補記憶部30Fを含む。
以下、図4を参照して本システムの音声認識動作について説明する。図4は、本実施例の音声認識システム1の音声認識動作を示すシーケンス図である。まず、収音条件抽出部11は、入力された音響信号の収音条件を抽出する(S11)。選択部12は、抽出された収音条件に基づいて、対応する音声信号の送信先となる音声認識サーバ装置(例えば音声認識サーバ装置21−1)を選択する(S12)。収音条件と送信先となる音声認識サーバ装置との関係は送信先情報として、送信先記憶部121に予め記憶されているものとする。
<収音条件>
収音条件は、例えば音声信号の大きさと背景雑音信号の大きさの比率であるS/N比に関する特徴量、音響信号のひずみに関する特徴量、背景雑音信号のスペクトル形状に関する特徴量、背景雑音信号の大きさに関する特徴量のうち少なくとも何れかの特徴量についてのしきい値に基づく条件とすることができる。しきい値は、しきい値記憶部111に予め記憶されているものとする。
背景雑音信号とは発声音声や目的音が入力される直前の一定時間にマイクで観測された信号である。背景雑音信号の大きさとは、背景雑音信号のパワースペクトルの一定時間の平均値である。背景雑音信号のスペクトル形状とは、背景雑音信号のスペクトルにおける各帯域の成分やその時間変化である。音声信号と背景雑音信号のS/N比とは、発声音声(目的音)入力中の音響信号中の音声信号の大きさと背景雑音信号の大きさの比である。音声信号として、発声音声(目的音)入力中の一定時間の音響信号のパワースペクトルから背景雑音信号のパワースペクトルの一定時間の平均値を差し引いたパワースペクトルを用いることができる。音声信号の大きさとは、発声音声(目的音)入力中の一定時間の音声信号のパワースペクトルの平均値である。
音響信号のひずみとは、音響信号の入力が大きすぎたためにマイクロホン素子、マイクロホンアンプ回路、A/D変換がクリッピングしているものを指す。入力信号レベルが、あらかじめ決めた閾値以上の振幅を持つ区間を検出し、その時間的な割合を計算する。この割合が高ければひずみが大きく、割合が小さければひずみが小さい。閾値以上の振幅となっていなければ、ひずみなしとすることができる。閾値は、マイク素子、回路、AD変換のクリッピングレベルに合わせて設定する。
<収音条件抽出部11(S11)、選択部12(S12)>
以下に、収音条件抽出部11、選択部12の動作(S11、S12)の例について述べる。収音条件抽出部11は、例えば入力された音響信号から収音条件を表す特徴量を抽出し、特徴量の値に応じて入力された音響信号をグループ(例えば収音条件を表す符号)に分ける。
次に、選択部12は、表1に記載のように、グループ(収音条件を表す符号)とインデックス(送信先音声認識サーバ装置を表す符号)の関係に基づいて、対応する音響信号の送信先となる音声認識サーバ装置(例えば音声認識サーバ装置21−1)を選択する(S12)。
Figure 0006389787
特徴量xは例えば、音響信号に含まれる音声信号の大きさと背景雑音信号の大きさの比率であるS/N比、音響信号のひずみの有無やひずみの頻度、背景雑音信号のスペクトル形状、背景雑音信号の大きさ、などとすることができる。
特徴量xをS/N比とする場合、例えばしきい値をθ1=0dB、θ2=10dB、θ3=20dB等と設定し、x=5dBならば収音条件抽出部11はグループ2を収音条件として抽出し、選択部12はインデックス2を選択する。
特徴量xを音響信号のひずみとする場合、たとえばビットデプス16bitで量子化した信号で、0.5秒間で振幅の絶対値が30000以上となる時間の割合を特徴量xとする。しきい値をθ1=0.8等と設定し、x=0ならば収音条件抽出部11はグループ1を収音条件として抽出し、選択部12はインデックス1を選択し、x=0.9ならば収音条件抽出部11はグループ2を収音条件として抽出し、選択部12はインデックス2を選択する。
特徴量xを背景雑音信号のスペクトル形状とする場合、例えば背景雑音信号の大きさを周波数帯域や継続時間によりx1、x2、…、xm等(mはm≧2を充たす整数)と分けて評価する。収音条件抽出部11は、評価結果の組み合わせからグループを抽出し、選択部12はそのインデックスを選択する。また、背景雑音信号のスペクトル形状を特徴量として用いる別の方法として、複数種類の背景雑音信号のモデルを記憶しておき、入力された信号の背景雑音信号をモデルのいずれかに分類することもできる。複数種類の背景雑音信号とは、例えばホワイトノイズ、ピンクノイズ、バーストノイズなどである。この方法では、モデル一つ一つに対応するグループを割振っておき、入力された信号の背景雑音信号が分類されたモデルに応じてグループが決定される。
特徴量xを背景雑音信号の大きさとする場合、たとえばθ1=40dBA、θ2=55dBA、θ3=70dBA等と設定し、特徴量x=50dBAならば収音条件抽出部11はグループ2を収音条件として抽出し、選択部12はインデックス2を選択する。ここでdBAとは人間の聴覚を考慮した周波数重み付け特性(A特性)のもとで測定した騒音レベルのdB値の単位である。
<信号処理部13(S13)>
信号処理部13は、抽出された収音条件が所定の条件に該当する場合に、対応する音響信号を信号処理する(S13)。具体的には信号処理部13は、S/N比や背景雑音信号の大きさが、収音条件抽出部11で抽出された収音条件に基づいて決定される音声認識サーバ装置において音声認識対象として想定していた特徴量の範囲に適合するように、対応する音響信号を信号処理する。例えばS/N比=1近傍、すなわち0dB近傍の収音条件は、音声信号の大きさと背景雑音信号の大きさが同等であり、そのような音響信号をそのまま音声認識に用いれば性能の低下を招きやすい。従って、S/N比=0dB近傍の収音条件を収音条件抽出部11で抽出した場合は、当該収音条件の音響信号に対して背景雑音信号を抑圧する信号処理を信号処理部13で適用する。あるいは例えばS/N比=100近傍、すなわち20dB近傍の収音条件を収音条件抽出部11で抽出した場合は、前述の0dB近傍の収音条件と同様に、S/N比の値に応じて適応的に背景雑音信号を抑圧する処理を行うとしても良いし、抑圧する処理を全く行わないとしても良い。その他の収音条件においても、信号処理部13において、収音条件抽出部11で抽出した結果に基づき、音響信号への信号処理を適応的に行う。
以下に、信号処理部13の動作(S13)の例について述べる。音声認識では、多くの場合、前処理として信号処理により入力音声を補正する。音声認識において前処理して対処すべき音響特性として、例えば、加法性雑音と乗法性雑音がある。加法性雑音は、音声入力環境に遍在する雑音のように音声信号に対して加法的に観測される信号である。一方、乗法性雑音とはマイクの特性や空間伝達特性などの音響特性に起因する雑音(ひずみ)であり、時間波形では原音声波形に対する畳み込み演算として観測されるもので、スペクトル波形では乗算性のひずみとなるものである。加法性雑音に対処した音声認識処理の例としては、参考特許文献1の段落[0005]に開示されたスペクトルサブトラクション法に基づく雑音抑圧法、または同文献の段落[0007]に開示されたウィナー・フィルタ法(以下、WF法という)に基づく雑音抑圧法などのように、雑音の重畳した音声から雑音を抑圧して音声認識に適用する方法がある。
(参考特許文献1:特許第4464797号公報)
加法性雑音に加えて乗法性雑音に対処した音声認識処理の例としては、参考特許文献1のように乗法性雑音の影響を除去した音声モデルに雑音モデルを重畳させた雑音重畳音声モデルを生成してから乗法性特徴量に基づいてモデルを更新する方法がある。あるいは参考特許文献2の発明のように、雑音モデルに対しても乗法性雑音特徴量に基づいて正規化した上で正規化雑音重畳音声モデルを生成する方法がある。
(参考特許文献2:特許第5200080号公報)
信号処理部13が行う信号処理として典型的には雑音抑圧が考えられる。雑音抑圧以外の信号処理としては、例えばAGC(Automatic Gain Control)、CMN(Cepstrum Mean Normalization)、イコライザなどでもよい。
<AGC>
Automatic Gain Control(AGC)は、入力音声信号の短時間平均パワーまたは短時間平均振幅をもとに入力信号レベルを検出し、入力信号レベルと最適レベル(目標値)との差分が少なくなるように音声入力段の利得(ゲイン)を調整する処理である。AGCはA/D変換後の音声波形が過少または過大になって音声特徴量が不明瞭になることを防ぐ効果がある。AGCについては、例えば参考特許文献3の段落[0001]に開示されている。
(参考特許文献3:特許第3588555号公報)
<CMN>
Cepstrum Mean Normalization(CMN)とは、音声認識の特徴量であるケプストラムにおいて、入力音声信号の長時間ケプストラム平均を求め、各フレームの入力音声のケプストラムから長時間ケプストラム平均をさし引く処理である。CMNは、マイクロホンの特性、マイクロホンの位置、部屋の形状に代表される乗算性ひずみの影響を軽減するために用いられる。CMNについては、例えば参考特許文献1の段落[0010]に開示されている。
なお、クライアント装置10の信号処理部13でCMNを実施する場合、クライアント装置10から音声認識サーバ装置へは、音声認識のための音響信号に由来する信号として、CMN適用後のMFCC(メル周波数ケプストラム)が送信されることとしておけば、音声認識サーバ装置で再度ケプストラム分析する処理を省くことができる。
<イコライザ>
イコライザとは、入力音声信号のゲインを周波数帯域ごとに調整する処理である。例えば音声入力用のマイクロホンの音響特性が平坦でないことが予めわかっていれば、イコライザを経由することで、音響特性を改善したうえで収音することができる。イコライザについては、例えば参考特許文献4の段落[0010]、[0016]に開示されている。
(参考特許文献4:特許第2865268号公報)
次に、送信部14は、抽出された収音条件に対応する音声認識サーバ装置(ステップS12で選択された音声認識サーバ装置)に、音響信号または音響信号に由来する信号を送信する(S14)。このとき、送信部14は、ステップS13の信号処理がされていない場合と信号処理がされた場合とで送信先を異ならせて、信号処理がされていない音響信号、または信号処理がされた音響信号を送信するものとする。また、ステップS12で選択された音声認識サーバ装置とは関係なくステップS13の信号処理が実施されたか否かだけで、異なる音声認識サーバ装置のうちのいずれかの送信先を決定しても良い。なお、音響信号に由来する信号とは、音響信号の特徴量を表す信号、ステップS13における信号処理を施した音響信号などを指す。また送信部14は、音響信号または音響信号に由来する信号を送信する際に、収音条件(グループ)やそのしきい値、信号処理部13における信号処理の有無に関する情報を音声認識サーバ装置に送信しても良い。音声認識サーバ装置は収音条件(グループ)やそのしきい値、や信号処理の有無から、どのような収音条件または信号処理条件において当該音声認識サーバ装置が選択されたかを記録することが可能になる。
音声認識サーバ装置21−1、…、21−n、…、21−Nは、クライアント装置10から音響信号または音響信号に由来する信号を受信する(S21A)。音響信号または音響信号に由来する信号を受信した音声認識サーバ装置(例えば音声認識サーバ装置21−1)は、音声認識処理を実行する(S21B)。
<音声認識処理(S21B)>
ステップS21Bの音声認識処理は、例えば以下のように実行される。音声認識サーバ装置は、一文章や一単語の発話を文字列に変換する。音声認識サーバ装置は、音声特徴量として音声のパワーやその変化量、MFCC(メル周波数ケプストラム、Mel-Frequency Cepstrum Coefficient)やその動的変化量を用いる。音声認識サーバ装置は、統計的な音響モデルや言語モデルを用いて単語列を探索する。
ステップS21Bの音声認識処理を実行した音声認識サーバ装置は、音声認識結果をクライアント装置10に送信する(S21C)。クライアント装置10の受信部15は、音声認識結果を受信する(S15A)。クライアント装置10の呈示部16は、受信した音声認識結果を呈示する(S16)。
以下、図5、図6を参照して本実施例の音声認識システム1の情報更新動作について説明する。図5は、本実施例の音声認識システム1の情報更新動作を示すシーケンス図である。図6は、本実施例の音声認識システム1の言い直し判定部17の動作を示すフローチャートである。言い直し判定部17は、ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を監視し、これを取得する(S17)。ユーザによる同一内容を示す発声の複数回の繰り返しを認識するために、言い直し判定部17の各構成要件(図2参照)は例えば以下の処理(図6参照)を実行する。ここでクライアント装置10には全部でM個(MはM≧2を充たす整数)の音響信号が入力されたものとし、mは2≦m≦Mを充たす整数とし、以下では言い直し判定部17の各構成要件によりm番目の音響信号が言い直しであるか否かが判定される場合について説明する。
反応時間測定部17Aは、クライアント装置10にm−1番目に入力された音響信号に対する音声認識結果がクライアント装置10により呈示された時刻(以下、m−1番目の呈示時刻という)とクライアント装置10にm番目に入力された音響信号の入力時刻(以下、m番目の入力時刻という)との差分である反応時間を測定する(S17A)。
信頼度取得部17Bは、クライアント装置10にm−1番目に入力された音響信号に対する音声認識結果(以下m−1番目の音声認識結果という)の信頼度を取得する(S17B)。信頼度は音声認識結果を示す文字列情報とともに音声認識サーバ装置からクライアント装置10に送信される情報である。
類似度算出部17Cは、クライアント装置10にm−1番目、m番目に入力された各音響信号の類似度、クライアント装置10にm−1番目、m番目に入力された各音響信号に対する各音声認識結果の類似度の少なくとも何れかを算出する(S17C)。
判定部17Dは、ステップS17A〜S17Cで取得された反応時間、信頼度、類似度のうち少なくとも何れか一つに基づいて、クライアント装置10にm番目に入力された音響信号が言い直しであるか否かを判定し、判定の結果に基づいて繰り返し信号群を取得する(S17D)。判定部17Dはユーザの反応時間が所定の閾値よりも小さく、m−1番目の音声認識結果の信頼度が所定の閾値と比較して低く、類似度が所定の閾値よりも高くなる場合などに、m−1番目の音声認識結果は誤認識であり、m番目の音響信号に含まれる発話はユーザによる言い直し(同一発話の繰り返し)であると判定する。すなわち判定部17Dは、m−1番目に入力された音響信号とm番目に入力された音響信号を繰り返し信号群として取得する。
なお、ステップS17A〜S17Cは必ずしも上述の順序で実行されなくてもよく、これらの処理は順序が入れ替わってもよい。例えば、ステップS17A〜S17Cを処理の負荷が軽いものから実行することとすると、最初にステップS17Bを、次にステップS17Aを、最後にステップS17Cを実行する順序となる。また、ステップS17A〜S17Cの各ステップ終了後に逐一ステップS17Dの判定を行い、言い直しでないと判定された場合に後のステップを打ち切ってもよい。前述したようにステップS17A〜S17Cのうち処理の負荷が軽いものから先に実行することとし(S17B→S17A→S17C)、最初のステップ(S17B)で言い直しでないと判定された場合に、残りの二つのステップ(S17A、S17C)を省略し、二番目のステップ(S17A)で言い直しでないと判定された場合に、残りの一つのステップ(S17C)を省略することにより、クライアント装置10の負荷を軽減することができる。
ステップS17Cにおける類似度は、例えば次のいずれかとすることができる。
・各音響信号の特徴量のユークリッド距離の逆数値や符号を反転した値(特徴量としてケプストラムやパワー、またはそれらの変化量を用いることができる)。
・音声認識サーバ装置から得た各音声認識結果の文字列の編集距離の逆数値や符号を反転した値。ここで文字列とは表記上の文字列に限定するものではなく、文字列の読みを読み仮名や音素表記へ変換した文字列でも良い。
なお、繰り返し信号群に対する音声認識は、ステップS12で選択された音声認識サーバ装置が実行する(S21A〜S21C)。
言い直しの判定に上述の反応時間を用いたのは、言い直しの場合、そうでない場合に比べて、前の認識結果の呈示を見てから次の発話を行うまでの時間が短くなる傾向が認められるからである。また言い直しの判定に信頼度を用いたのは、認識結果が誤っている場合、当該音声認識結果の信頼度が低くなる傾向が認められるからである。また言い直しの判定に類似度を用いたのは、言い直しの場合、発話同士の類似度が高くなる傾向が認められるからである。ユーザの反応時間とは、ユーザが認識結果を読んで理解するまでの時間であることから、反応時間を判定するための閾値は、認識結果として呈示する文字数に比例した値としても良い。また認識結果に漢字が含まれる場合は漢字の文字数に応じてより長い閾値としても良い。
言い直し判定部17(判定部17D)は、繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出する(S17)。言い直し判定部17(判定部17D)は、繰り返し信号群を全て再学習信号群とし、正解候補と対応付けて言い直し情報記憶部171に記憶する。繰り返し信号群を全て再学習信号群として用いる理由は、繰り返し信号群の全てにおいて正解候補と等しい、あるいは正解候補と類似度が高い音声認識結果を生成できる音声認識サーバ装置が、対応する音響信号の送信先として好適であるためである。
以下、図7を参照して言い直し判定部17の言い直し判定動作の例について説明する。図7は、本実施例の音声認識システム1の言い直し判定動作を例示する図である。本実施例の音声認識システム1は単語に限定しない文章の音声認識を可能とするが、要点を理解しやすくするため単語音声認識の例で説明する。図7に示すように、クライアント装置10のユーザ9が、クライアント装置10に向かって「きりゅう」(桐生)と発話(以下、この発話を発話1という)したものとする。クライアント装置10は、発話1を含む音響信号をステップS12で選択された音声認識サーバ装置(ここでは音声認識サーバ装置21−nとする)に送信する。音声認識サーバ装置21−nは、発話1を含む音響信号を音声認識し、音声認識結果「知立」(ちりゅう)をクライアント装置10に返信する(以下、この音声認識結果を認識結果1という)。クライアント装置10は認識結果1をユーザ9に呈示する。
ユーザ9は呈示された認識結果1が誤認識であることに気付いて、先ほどと同じようにクライアント装置10に向かって「きりゅう」(桐生)と発話(以下、この発話を発話2という)したものとする。クライアント装置10は、発話2を含む音響信号を音声認識サーバ装置21−nに送信する。音声認識サーバ装置21−nは、発話2を含む音響信号を音声認識し、音声認識結果「桐生」(きりゅう)をクライアント装置10に返信する(以下、この音声認識結果を認識結果2という)。クライアント装置10は認識結果2をユーザ9に呈示する。
ユーザ9は呈示された認識結果2を見て、正しく音声認識が実行されたことを確認し、今度はクライアント装置10に向かって「くどう」(工藤)と発話(以下、この発話を発話3という)したものとする。クライアント装置10は、発話3を含む音響信号を音声認識サーバ装置21−nに送信する。音声認識サーバ装置21−nは、発話3を含む音響信号を音声認識し、音声認識結果「工藤」(くどう)をクライアント装置10に返信する(以下、この音声認識結果を認識結果3という)。クライアント装置10は認識結果3をユーザ9に呈示する。
上述の例において、反応時間測定部17Aは、認識結果1の呈示時刻と発話2を含む音響信号の入力時刻との差分である反応時間(以下、反応時間1という)を測定する(S17A)。信頼度取得部17Bは、認識結果1の信頼度を取得する(S17B)。類似度算出部17Cは、発話1を含む音響信号と発話2を含む音響信号の類似度、あるいは認識結果1と認識結果2の類似度の少なくとも何れかを算出する(S17C)。この場合、判定部17Dは反応時間1が所定の閾値よりも小さくなる、認識結果1の信頼度が所定の閾値と比較して低くなる、発話1を含む音響信号と発話2を含む音響信号の類似度、あるいは認識結果1と認識結果2の類似度が所定の閾値よりも高くなることなどから、認識結果1は誤認識であり、発話2はユーザによる言い直し(同一発話の繰り返し)であると判定する(S17D)。
同様に、判定部17Dは反応時間2が所定の閾値よりも小さくならない(反応時間2が十分に長い)、認識結果2の信頼度が所定の閾値と比較して低くくならない(認識結果2の信頼度が十分に高い)、発話2を含む音響信号と発話3を含む音響信号の類似度、あるいは認識結果2と認識結果3の類似度が所定の閾値よりも高くならない(二つの音響信号、あるいは認識結果が十分に非類似である)ことなどから、認識結果2は正解候補であり、発話3はユーザによる言い直し(同一発話の繰り返し)ではないものと判定する(S17D)。この場合、発話1を含む音響信号と発話2を含む音響信号が再学習信号群に該当することになる。
次に、送信部14は、正解候補と再学習信号群の組を管理部30に送信する(S14B)。
管理部30の正解候補受信部30Aは、クライアント装置10から正解候補と再学習信号群の組を受信する(S30A)。正解候補と再学習信号群の組は、正解候補記憶部30Fに記憶される。管理部30の再学習信号群送信部30Bは、再学習信号群を音声認識サーバ装置群20(全ての音声認識サーバ装置)に送信する(S30B)。
音声認識サーバ装置群20は、管理部30から再学習信号群を受信する(S21D)。音声認識サーバ装置群20は、受信した再学習信号群を音声認識する(S21E)。音声認識サーバ装置群20は、音声認識結果を管理部30に送信する(S21F)。
管理部30の音声認識結果受信部30Cは、全ての音声認識サーバ装置から再学習信号群に対する音声認識結果を受信する(S30C)。管理部30の送信先情報更新部30Dは、全ての音声認識サーバ装置から受信した各音声認識結果と正解候補との類似度に基づいて、送信先情報を更新する(S30D)。送信先情報とは、音響信号の送信先となる音声認識サーバ装置と収音条件との関係に関する情報である。典型的には、送信先情報更新部30Dは、正解候補と再学習信号群(L個の信号群とする、L≧2)に対する音声認識結果の類似度(第1類似度、第2類似度、…、第L類似度)がいずれも高くなる、あるいは再学習信号群に対する音声認識結果の信頼度が何れも高くなる音声認識サーバ装置に対して、前述のクライアント装置10からの音響信号が送信されるように、送信先情報を更新する(S30D)。言い換えれば、ステップS30Dにおいて、再学習信号群の何れの再学習信号に対しても正解候補と等しい(類似度の高い)音声認識結果を生成することができる音声認識サーバ装置が好適な送信先として選択される。例えば前述の発話「きりゅう」(桐生)の言い直しがL回実行された場合には、発話「きりゅう」(桐生)を含む再学習信号が計L個存在することになる。このとき、送信先の音声認識サーバ装置として好適なのは、L個の発話「きりゅう」(桐生)を含む再学習信号群の何れに対しても正解候補である「桐生」(きりゅう)と等しい、あるいは高い類似度の音声認識結果を生成することができる音声認識サーバ装置である。また、ステップS30Dにおいて、再学習信号群の何れの再学習信号に対しても信頼度の高い音声認識結果を生成することができる音声認識サーバ装置が好適な送信先として選択されてもよい。前述の例では、L個の発話「きりゅう」(桐生)を含む再学習信号群の何れに対しても高い信頼度の音声認識結果を生成することができる音声認識サーバ装置が好適な送信先として選択されてもよい。送信先情報更新部30Dは、正解候補と再学習信号群に対する音声認識結果の類似度(第1類似度、第2類似度、…、第L類似度)が所定の閾値よりも大きくなる回数が最も多い音声認識サーバ装置、あるいは再学習信号群に対する音声認識結果の信頼度が所定の閾値よりも大きくなる回数が最も多い音声認識サーバ装置に対して、前述のクライアント装置10からの音響信号が送信されるように、送信先情報を更新してもよい(S30D)。言い換えれば、ステップS30Dにおいて、再学習信号群に対して正解候補と等しい(類似度が高い)音声認識結果を最も多く生成することができる音声認識サーバ装置が好適な送信先として選択される。例えば前述の発話「きりゅう」(桐生)の言い直しがL回実行された場合には、発話「きりゅう」(桐生)を含む再学習信号が計L個存在することになる。このとき、送信先の音声認識サーバ装置として好適なのは、L個の発話「きりゅう」(桐生)を含む再学習信号群に対して正解候補である「桐生」(きりゅう)と等しい、あるいは高い類似度の音声認識結果を最も多く生成することができる音声認識サーバ装置である。また、ステップS30Dにおいて、再学習信号群に対して信頼度が高い音声認識結果を最も多く生成することができる音声認識サーバ装置が好適な送信先として選択されてもよい。前述の例では、L個の発話「きりゅう」(桐生)を含む再学習信号群に対して高い信頼度の音声認識結果を最も多く生成することができる音声認識サーバ装置が好適な送信先として選択されてもよい。
以下、図8を参照して管理部30の送信先情報更新動作の例について説明する。図8は、本実施例の音声認識システム1の送信先情報更新動作を例示する図である。図8に示すように、クライアント装置10は、再学習信号群である発話1を含む音響信号、発話2を含む音響信号と、正解候補である認識結果2を組にして管理部30に送信する。管理部30は、再学習信号群である発話1を含む音響信号、発話2を含む音響信号を音声認識サーバ装置21−bや音声認識サーバ装置21−cに送信する。音声認識サーバ装置21−bは、発話1を含む音響信号、発話2を含む音響信号に対して、認識結果1b、2bを返信したものとする。この認識結果1b、2bには、誤認識である「知立」(ちりゅう)が少なくとも一つは含まれていたものとする。一方、音声認識サーバ装置21−cは、発話1を含む音響信号、発話2を含む音響信号に対して、認識結果1c、2cを返信したものとし、認識結果1c、2cは、何れも正解候補と等しい結果である「桐生」(きりゅう)であったものとする。
図8の例では、管理部30は、認識結果2(正解候補)と認識結果1c、2cが等しく、認識結果1c、2cの信頼度が所定の閾値以上となることから、音声認識サーバ装置21−cが最適な送信先であって、当該装置で保持されている認識設定(認識設定Cという)や音響モデルが、対応する音響信号に対して最適であるものと判定し、音声認識サーバ装置21−cが音響信号の送信先となるように前述の送信先情報を更新する。
次に、管理部30の送信先情報送信部30Eは、更新された送信先情報をクライアント装置10に送信する(S30E)。
クライアント装置10の受信部15は、管理部30から送信先情報を受信する(S15B)。クライアント装置10の送信先変更部18は、受信した送信先情報に基づいて、音響信号の送信先となる音声認識サーバ装置と収音条件との関係を変更する(S18)。クライアント装置10の送信先変更部18は、例えば送信先記憶部121に記憶済みの送信先情報を新たに受信した送信先情報に上書きすることによって、上記変更を行うことができる。
このように本実施例の音声認識システム1によれば、全ての音声認識サーバ装置が再学習信号群を音声認識し、何れの再学習信号群に対しても正解候補と等しい(類似度が高い)音声認識結果を送信した音声認識サーバ装置、あるいは何れの再学習信号群に対しても信頼度が高い音声認識結果を送信した音声認識サーバ装置が新たな送信先となるように管理部30が送信先情報を更新し、クライアント装置10が更新された送信先情報に基づいて、送信先となる音声認識サーバ装置を変更することにより、システム全体の誤認識の回数が減少する方向に送信先情報が最適化(再学習)されるため、システムの利用効率を向上させることができる。
以下、送信先情報を更新する代わりにしきい値を更新することで実施例1と同様の効果を奏する実施例2の音声認識システムについて説明する。まず図9、図10を参照して本実施例の音声認識システムの構成について説明する。図9は、本実施例の音声認識システム2の構成を示すブロック図である。図10は、本実施例の音声認識システム2の管理部50の構成を示すブロック図である。図9に示すように、本実施例の音声認識システム2は、クライアント装置40と、複数の音声認識サーバ装置21−1、…、21−n、…、21−Nと、管理部50を含む。クライアント装置40は複数台存在してもよい。クライアント装置40と音声認識サーバ装置群20は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。管理部50は、単独のハードウェア(装置)として構成されてもよく、管理部50を単独のハードウェア(装置)として構成した場合は、これを管理装置50と呼んでもよい。管理部50を単独のハードウェア(装置)として構成した場合、クライアント装置40と音声認識サーバ装置群20と管理部50(管理装置50)はネットワークを介して、無線または有線で通信可能に接続されているものとする。また、管理部50は、クライアント装置40内の構成要件であってもよいし、音声認識サーバ装置群20内の何れかの音声認識サーバ装置内の構成要件であってもよい。
図9に示すように本実施例のクライアント装置40は、実施例1のクライアント装置10が備える送信先変更部18の代わりに、しきい値変更部48を備える。クライアント装置40の、しきい値変更部48以外の構成要件は実施例1のクライアント装置10の各構成要件と同じであるため、説明を割愛する。
図10に示すように本実施例の管理部50は、実施例1の管理部30が備える送信先情報更新部30Dと、送信先情報送信部30Eの代わりに、しきい値更新部50Dと、しきい値送信部50Eを備える。また、本実施例の管理部50は実施例1の管理部30が備えないしきい値記憶部50Gと、信号処理部50Hを備える。しきい値更新部50D、しきい値送信部50E、しきい値記憶部50G、信号処理部50H以外の構成要件は実施例1の管理部30の各構成要件と同じであるため、説明を割愛する。
なお、本実施例の音声認識システム2の音声認識動作は実施例1の音声認識動作(S11〜S14A、S21A〜S21C、S15A、S16)と全く同じであるから説明を省略する。
以下、図11を参照して本実施例の音声認識システム2の情報更新動作について説明する。図11は、本実施例の音声認識システム2の情報更新動作を示すシーケンス図である。
ステップS17、S14B、S30Aは実施例1と同様に実行される。次に、信号処理部50Hは、前述のステップS13において実行される信号処理であって、収音条件に応じて予め定められている信号処理のパターンの全て(信号処理自体を実施しないパターンを含む)を、ステップS13における信号処理を実行する前の音響信号に適用して、収音条件毎に異なる信号処理を施した信号処理済音響信号を取得する。本実施例では、この信号処理済音響信号を再学習信号群とする(S50H)。
なお、ステップS50Hの信号処理による負荷の増大が問題となる場合は、ステップS50Hを省略してもよい。この場合、再学習信号群に施された信号処理と後述するしきい値変更後にステップS13において音響信号に施される信号処理とが異なる場合があることを許容し、ステップS13において信号処理された音響信号をそのまま再学習信号群とする。ステップS30Bは、実施例1と同様であるが、ステップS50Hが実行される場合には、S50Hにおいて各収音条件に応じて各信号処理を施された各音響信号(各再学習信号)は、対応する収音条件を担当する各音声認識サーバ装置にそれぞれ分配されるものとする。この場合のステップS30Bは、全ての収音条件のパターンにおけるステップS13−S14を管理部50において再現する処理ということができる。
以下、ステップS21D〜S21F、ステップS30Cは実施例1と同様に実行される。
次に、しきい値更新部50Dは、全ての音声認識サーバ装置から受信した各音声認識結果と正解候補との類似度、あるいは各音声認識結果の信頼度に基づいて、しきい値を更新する(S50D)。前述したとおりしきい値とは、収音条件を抽出するために予め設定されている値のことである。典型的には、しきい値更新部50Dは、正解候補と再学習信号群に対する音声認識結果の類似度(第1類似度、第2類似度、…、第L類似度)がいずれも高くなる、あるいは再学習信号群に対する音声認識結果の信頼度が何れも高くなる音声認識サーバ装置に対して、前述のクライアント装置10からの音響信号が送信されるように、しきい値を更新する(S50D)。次に、管理部50のしきい値送信部50Eは、更新されたしきい値をクライアント装置40に送信する(S50E)。
クライアント装置40の受信部15は、管理部50からしきい値を受信する(S15B)。クライアント装置40のしきい値変更部48は、受信したしきい値に基づいて、予め設定されたしきい値を変更する(S48)。クライアント装置40のしきい値変更部48は、例えばしきい値記憶部111に記憶済みのしきい値を新たに受信したしきい値に上書きすることによって、上記変更を行うことができる。
このように本実施例の音声認識システム2によれば、全ての音声認識サーバ装置が再学習信号群を音声認識し、何れの再学習信号群に対しても正解候補と等しい(類似度が高い)音声認識結果を送信した音声認識サーバ装置、あるいは何れの再学習信号群に対しても信頼度が高い音声認識結果を送信した音声認識サーバ装置が新たな送信先となるように、管理部50がしきい値を更新し、クライアント装置40が更新されたしきい値に基づいて、予め設定されていたしきい値を新たなしきい値に変更することにより、システム全体の誤認識の回数が減少する方向にしきい値が最適化(再学習)されるため、システムの利用効率を向上させることができる。
以下、送信先となる音声認識サーバ装置を変更する代わりに、音声認識サーバ装置に記憶された音響モデル、音声認識に関する設定を更新(入れ替え、再学習)する構成とした実施例3の音声認識システムについて説明する。まず図12、図13を参照して本実施例の音声認識システムの構成について説明する。図12は、本実施例の音声認識システム3の構成を示すブロック図である。図13は、本実施例の音声認識システム3の管理部90の構成を示すブロック図である。図12に示すように、本実施例の音声認識システム3は、クライアント装置70と、複数の音声認識サーバ装置81−1、…、81−n、…、81−Nと、管理部90を含む。音声認識サーバ装置81−1、…、81−n、…、81−Nをまとめて呼称する際には、音声認識サーバ装置群80と呼ぶ。クライアント装置70は複数台存在してもよい。クライアント装置70と音声認識サーバ装置群80は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。管理部90は、単独のハードウェア(装置)として構成されてもよく、管理部90を単独のハードウェア(装置)として構成した場合は、これを管理装置90と呼んでもよい。管理部90を単独のハードウェア(装置)として構成した場合、クライアント装置70と音声認識サーバ装置群80と管理部90(管理装置90)はネットワークを介して、無線または有線で通信可能に接続されているものとする。また、管理部90は、クライアント装置70内の構成要件であってもよいし、音声認識サーバ装置群80内の何れかの音声認識サーバ装置内の構成要件であってもよい。
図12に示すように本実施例のクライアント装置70は、実施例1のクライアント装置10が備える送信先変更部18を備えない。クライアント装置70のそれ以外の構成要件は実施例1のクライアント装置10の各構成要件と同じであるため、説明を割愛する。
図13に示すように本実施例の管理部90は、実施例1の管理部30が備える送信先情報更新部30Dと、送信先情報送信部30Eの代わりに、設定情報更新部90Dと、設定情報送信部90Eを備える。設定情報更新部90Dと、設定情報送信部90E以外の構成要件は実施例1の管理部30の各構成要件と同じであるため、説明を割愛する。
なお、本実施例の音声認識システム3の音声認識動作は実施例1の音声認識動作(S11〜S14A、S21A〜S21C、S15A、S16)と全く同じであるから説明を省略する。
以下、図14を参照して本実施例の音声認識システム3の情報更新動作について説明する。図14は、本実施例の音声認識システム3の情報更新動作を示すシーケンス図である。ステップS17〜S14B、S30A〜S30B、S21D〜S21F、S30Cは実施例1と同様に実行される。
次に、管理部90の設定情報更新部90Dは、全ての音声認識サーバ装置から受信した各音声認識結果と正解候補との類似度、あるいは各音声認識結果の信頼度に基づいて、ステップS12で選択された音声認識サーバ装置の設定情報を更新する(S90D)。設定情報とは、音声認識の設定に関する情報であって、音響モデルを指定する情報、音声認識に関する設定を指定する情報を含んでいる。設定情報には音響モデルそのものが含まれていてもよい。典型的には設定情報更新部90Dは、正解候補と再学習信号群に対する音声認識結果の類似度(第1類似度、第2類似度、…、第L類似度)がいずれも高くなる、あるいは再学習信号群に対する音声認識結果の信頼度が何れも高くなる音声認識サーバ装置と同じ音声認識の設定、同じ音響モデルとなるように、ステップS12で選択された音声認識サーバ装置の設定情報を更新する(S90D)。管理部90の設定情報送信部90Eは、更新された設定情報をステップS12で選択された音声認識サーバ装置に送信する(S90E)。
ステップS12で選択された音声認識サーバ装置は、設定情報を受信して(S80G)、受信した設定情報に基づいて自装置の音声認識の設定(音響モデル、音声認識に関する設定)を変更する(S80H)。音声認識サーバ装置群80は、音声認識サーバ装置群80の稼働量が少ない時間帯(例えば夜間)に、設定を変更してもよい。また音声認識サーバ装置群80は、それ以外の予め計画された時間帯に設定を変更してもよい。
このように本実施例の音声認識システム3によれば、管理部90の設定情報更新部90Dが設定情報を更新し、ステップS12で選択された音声認識サーバ装置が更新された設定情報に基づいて自装置の音響モデル、音声認識に関する設定を変更するため、ステップS12で選択された音声認識サーバ装置の誤認識が減少し、システムの利用効率を向上させることができる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. クライアント装置と、複数の音声認識サーバ装置と、管理部を含む音声認識システムであって、
    前記クライアント装置は、
    前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する受信部と、
    ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出する言い直し判定部と、
    前記繰り返し信号群を全て再学習信号群とし、前記正解候補と、前記再学習信号群の組を前記管理部に送信する送信部と、
    前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係に関する情報である送信先情報に基づいて、前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係を変更する送信先変更部を含み、
    前記管理部は、
    全ての音声認識サーバ装置から前記再学習信号群に対する音声認識結果を受信する音声認識結果受信部と、
    所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果と前記正解候補との類似度が何れも高くなるか、または前記所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果の信頼度が何れも高くなる場合に、前記所定の音声認識サーバ装置に対して、音響信号が送信されるように、前記送信先情報を更新する送信先情報更新部と、
    前記更新された送信先情報を前記クライアント装置に送信する送信先情報送信部を含む音声認識システム。
  2. クライアント装置と、複数の音声認識サーバ装置と、管理部を含む音声認識システムであって、
    前記クライアント装置は、
    前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する受信部と、
    ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出する言い直し判定部と、
    前記繰り返し信号群を全て再学習信号群とし、前記正解候補と、前記再学習信号群の組を前記管理部に送信する送信部を含み、
    前記管理部は、
    全ての音声認識サーバ装置から前記再学習信号群に対する音声認識結果を受信する音声認識結果受信部と、
    所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果と前記正解候補との類似度が何れも高くなるか、または前記所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果の信頼度が何れも高くなる場合に、前記所定の音声認識サーバ装置と同じ音声認識の設定となるように、前記選択された音声認識サーバ装置の音声認識の設定に関する情報である設定情報を更新する設定情報更新部と、
    前記更新された設定情報を前記選択された音声認識サーバ装置に送信する設定情報送信部を含み、
    前記音声認識サーバ装置のそれぞれは、
    前記設定情報を受信した場合に、前記受信した設定情報に基づいて自装置の音声認識の設定を変更する
    音声認識システム。
  3. クライアント装置と、複数の音声認識サーバ装置と、管理部を含む音声認識システムであって、
    前記クライアント装置は、
    前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する受信部と、
    ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出する言い直し判定部と、
    前記繰り返し信号群を全て再学習信号群とし、前記正解候補と、前記再学習信号群の組を前記管理部に送信する送信部と、
    前記収音条件を抽出するために予め設定されている値であるしきい値を変更するしきい値変更部を含み、
    前記管理部は、
    全ての音声認識サーバ装置から前記再学習信号群に対する音声認識結果を受信する音声認識結果受信部と、
    所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果と前記正解候補との類似度が何れも高くなるか、または前記所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果の信頼度が何れも高くなる場合に、前記所定の音声認識サーバ装置に対して、音響信号が送信されるように、前記しきい値を更新するしきい値更新部と、
    前記更新されたしきい値を前記クライアント装置に送信するしきい値送信部を含む
    音声認識システム。
  4. 請求項1から3の何れかに記載の音声認識システムであって、
    前記言い直し判定部は、
    mを2以上の整数とし、前記クライアント装置にm−1番目に入力された音響信号に対する音声認識結果が前記クライアント装置により呈示された時刻と前記クライアント装置にm番目に入力された音響信号の入力時刻との差分である反応時間、前記クライアント装置にm−1番目に入力された音響信号に対する音声認識結果の信頼度、前記クライアント装置にm−1番目、m番目に入力された各音響信号の類似度、前記クライアント装置にm−1番目、m番目に入力された各音響信号に対する各音声認識結果の類似度、のうち少なくとも何れか一つに基づいて、前記クライアント装置にm番目に入力された音響信号が言い直しであるか否かを判定し、前記判定の結果に基づいて前記繰り返し信号群を取得する音声認識システム。
  5. クライアント装置と、複数の音声認識サーバ装置と、管理部が実行する音声認識方法であって、
    前記クライアント装置は、
    前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信するステップと、
    ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出するステップと、
    前記繰り返し信号群を全て再学習信号群とし、前記正解候補と、前記再学習信号群の組を前記管理部に送信するステップを実行し、
    前記管理部は、
    全ての音声認識サーバ装置から前記再学習信号群に対する音声認識結果を受信するステップと、
    所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果と前記正解候補との類似度が何れも高くなるか、または前記所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果の信頼度が何れも高くなる場合に、前記所定の音声認識サーバ装置に対して、音響信号が送信されるように、前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係に関する情報である送信先情報を更新するステップと、
    前記更新された送信先情報を前記クライアント装置に送信するステップを実行し、
    前記クライアント装置は、
    前記送信先情報に基づいて、前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係を変更するステップを実行する
    音声認識方法。
  6. クライアント装置と、複数の音声認識サーバ装置と、管理部が実行する音声認識方法であって、
    前記クライアント装置は、
    前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信するステップと、
    ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出するステップと、
    前記繰り返し信号群を全て再学習信号群とし、前記正解候補と、前記再学習信号群の組を前記管理部に送信するステップを実行し、
    前記管理部は、
    全ての音声認識サーバ装置から前記再学習信号群に対する音声認識結果を受信するステップと、
    所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果と前記正解候補との類似度が何れも高くなるか、または前記所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果の信頼度が何れも高くなる場合に、前記所定の音声認識サーバ装置と同じ音声認識の設定となるように、前記選択された音声認識サーバ装置の音声認識の設定に関する情報である設定情報を更新するステップと、
    前記更新された設定情報を前記選択された音声認識サーバ装置に送信するステップを実行し、
    前記音声認識サーバ装置のそれぞれは、
    前記設定情報を受信した場合に、前記受信した設定情報に基づいて自装置の音声認識の設定を変更するステップを実行する
    音声認識方法。
  7. クライアント装置と、複数の音声認識サーバ装置と、管理部が実行する音声認識方法であって、
    前記クライアント装置は、
    前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信するステップと、
    ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出するステップと、
    前記繰り返し信号群を全て再学習信号群とし、前記正解候補と、前記再学習信号群の組を前記管理部に送信するステップを実行し、
    前記管理部は、
    全ての音声認識サーバ装置から前記再学習信号群に対する音声認識結果を受信するステップと、
    所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果と前記正解候補との類似度が何れも高くなるか、または前記所定の音声認識サーバ装置から受信した前記再学習信号群に対する音声認識結果の信頼度が何れも高くなる場合に、前記所定の音声認識サーバ装置に対して、音響信号が送信されるように、前記収音条件を抽出するために予め設定されている値であるしきい値を更新するステップと、
    前記更新されたしきい値を前記クライアント装置に送信するステップを実行し、
    前記クライアント装置は、
    前記しきい値を変更するステップを実行する
    音声認識方法。
  8. コンピュータを、請求項1から4の何れかに記載の音声認識システムに含まれる管理部として機能させるためのプログラム。
JP2015061833A 2015-03-25 2015-03-25 音声認識システム、音声認識方法、プログラム Active JP6389787B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015061833A JP6389787B2 (ja) 2015-03-25 2015-03-25 音声認識システム、音声認識方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015061833A JP6389787B2 (ja) 2015-03-25 2015-03-25 音声認識システム、音声認識方法、プログラム

Publications (2)

Publication Number Publication Date
JP2016180916A JP2016180916A (ja) 2016-10-13
JP6389787B2 true JP6389787B2 (ja) 2018-09-12

Family

ID=57131795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015061833A Active JP6389787B2 (ja) 2015-03-25 2015-03-25 音声認識システム、音声認識方法、プログラム

Country Status (1)

Country Link
JP (1) JP6389787B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111727473A (zh) * 2018-02-22 2020-09-29 索尼公司 信息处理装置、信息处理方法和程序
JP6735392B1 (ja) * 2019-05-23 2020-08-05 西日本電信電話株式会社 音声テキスト化装置、音声テキスト化方法及び音声テキスト化プログラム
CN110767232B (zh) * 2019-09-29 2022-03-29 深圳数联天下智能科技有限公司 语音识别控制方法及装置、计算机设备和计算机存储介质
KR102517661B1 (ko) 2022-07-15 2023-04-04 주식회사 액션파워 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11149294A (ja) * 1997-11-17 1999-06-02 Toyota Motor Corp 音声認識装置および音声認識方法
JP2003140691A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd 音声認識装置
JP2010044239A (ja) * 2008-08-13 2010-02-25 Kddi Corp 音声認識装置およびプログラム
WO2011148594A1 (ja) * 2010-05-26 2011-12-01 日本電気株式会社 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム

Also Published As

Publication number Publication date
JP2016180916A (ja) 2016-10-13

Similar Documents

Publication Publication Date Title
EP1199708B1 (en) Noise robust pattern recognition
US7949523B2 (en) Apparatus, method, and computer program product for processing voice in speech
US9837068B2 (en) Sound sample verification for generating sound detection model
JP5072206B2 (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
JP6812843B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
US20140337024A1 (en) Method and system for speech command detection, and information processing system
JP6389787B2 (ja) 音声認識システム、音声認識方法、プログラム
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
KR102296878B1 (ko) 외국어 학습평가장치
KR20180012639A (ko) 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법
CN112750445B (zh) 语音转换方法、装置和系统及存储介质
JP2018169473A (ja) 音声処理装置、音声処理方法及びプログラム
WO2018163279A1 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP6320963B2 (ja) 音声認識システム、クライアント装置、音声認識方法、プログラム
JP6273227B2 (ja) 音声認識システム、音声認識方法、プログラム
JP2019008131A (ja) 話者判定装置、話者判定情報生成方法、プログラム
WO2019107170A1 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
JP6320962B2 (ja) 音声認識システム、音声認識方法、プログラム
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP5852550B2 (ja) 音響モデル生成装置とその方法とプログラム
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180327

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180814

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180820

R150 Certificate of patent or registration of utility model

Ref document number: 6389787

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150