JP2016180918A - Voice recognition system, voice recognition method, and program - Google Patents
Voice recognition system, voice recognition method, and program Download PDFInfo
- Publication number
- JP2016180918A JP2016180918A JP2015061835A JP2015061835A JP2016180918A JP 2016180918 A JP2016180918 A JP 2016180918A JP 2015061835 A JP2015061835 A JP 2015061835A JP 2015061835 A JP2015061835 A JP 2015061835A JP 2016180918 A JP2016180918 A JP 2016180918A
- Authority
- JP
- Japan
- Prior art keywords
- voice recognition
- speech recognition
- unit
- signal
- client device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、クライアント装置と複数の音声認識サーバ装置と管理部を含む音声認識システム、音声認識方法、プログラムに関する。 The present invention relates to a voice recognition system, a voice recognition method, and a program including a client device, a plurality of voice recognition server devices, and a management unit.
従来、クライアント装置で検出した音声区間の信号に対して音声認識サーバ装置で音声認識を行ってその結果をクライアント装置に返信する、サーバ・クライアント型音声認識システムが存在する(例えば特許文献1)。音声認識サーバ装置を、何れのクライアント装置からでもアクセス可能なネットワーク上に配置することにより、音声認識システムを利用したサービスを多数のクライアント装置が享受できるようになる。 2. Description of the Related Art Conventionally, there is a server / client type speech recognition system that performs speech recognition on a speech section signal detected by a client device and returns the result to the client device (for example, Patent Document 1). By arranging the voice recognition server device on a network accessible from any client device, a number of client devices can enjoy services using the voice recognition system.
このとき、音声認識サーバ装置の認識性能が十分でなければ、クライアント装置は正解の認識結果を得るまで何度も音声認識サーバ装置にアクセスする必要がある。この複数回のアクセスにより音声認識サーバ装置の負荷が増大し、システムの利用効率が低下する。システムの利用効率を向上させるためには、誤認識の回数を削減することが必要である。 At this time, if the recognition performance of the voice recognition server device is not sufficient, the client device needs to access the voice recognition server device many times until a correct recognition result is obtained. This multiple access increases the load on the voice recognition server device and reduces the system utilization efficiency. In order to improve the utilization efficiency of the system, it is necessary to reduce the number of erroneous recognitions.
そこで本発明では、誤認識の回数を削減でき、システムの利用効率を向上させることができる音声認識システムを提供することを目的とする。 Therefore, an object of the present invention is to provide a speech recognition system that can reduce the number of erroneous recognitions and improve the utilization efficiency of the system.
本発明の音声認識システムは、クライアント装置と、複数の音声認識サーバ装置と、管理部を含む。クライアント装置は、受信部と、正解候補抽出部と、送信部と、送信先変更部を含む。 The speech recognition system of the present invention includes a client device, a plurality of speech recognition server devices, and a management unit. The client device includes a receiving unit, a correct candidate extracting unit, a transmitting unit, and a transmission destination changing unit.
受信部は、クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する。正解候補抽出部は、ユーザの動作に関連して入力された文字列を正解候補として抽出する。送信部は、正解候補と、正解候補に対応する音響信号である再学習信号の組を管理部に送信する。送信先変更部は、音響信号の送信先となる音声認識サーバ装置と収音条件との関係に関する情報である送信先情報に基づいて、音響信号の送信先となる音声認識サーバ装置と収音条件との関係を変更する。 The receiving unit receives a speech recognition result for the acoustic signal input to the client device from the speech recognition server device selected based on the sound collection condition. The correct candidate extraction unit extracts a character string input in relation to the user's action as a correct candidate. The transmission unit transmits a set of a correct answer candidate and a relearning signal that is an acoustic signal corresponding to the correct answer candidate to the management unit. The transmission destination changing unit includes a voice recognition server device serving as a transmission destination of the acoustic signal and a sound collection condition based on transmission destination information that is information regarding a relationship between the voice recognition server device serving as the transmission destination of the acoustic signal and the sound collection condition. Change the relationship.
管理部は、音声認識結果受信部と、送信先情報更新部と、送信先情報送信部を含む。 The management unit includes a voice recognition result reception unit, a transmission destination information update unit, and a transmission destination information transmission unit.
音声認識結果受信部は、全ての音声認識サーバ装置から再学習信号に対する音声認識結果を受信する。送信先情報更新部は、全ての音声認識サーバ装置から受信した各音声認識結果と正解候補との類似度に基づいて、送信先情報を更新する。送信先情報送信部は、更新された送信先情報をクライアント装置に送信する。 The speech recognition result receiving unit receives speech recognition results for relearning signals from all speech recognition server devices. The transmission destination information update unit updates the transmission destination information based on the similarity between each voice recognition result received from all the voice recognition server devices and the correct answer candidates. The transmission destination information transmission unit transmits the updated transmission destination information to the client device.
本発明の音声認識システムによれば、誤認識の回数を削減でき、システムの利用効率を向上させることができる。 According to the speech recognition system of the present invention, the number of erroneous recognitions can be reduced, and the utilization efficiency of the system can be improved.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.
以下の説明では、音声認識対象とする発声された信号を音声信号、音声信号と音声信号以外の背景雑音信号などが混在した状態で収音した信号を音響信号と呼ぶこととする。 In the following description, a signal uttered as a speech recognition target is referred to as a sound signal, and a signal collected in a state where a sound signal and a background noise signal other than the sound signal are mixed is referred to as an acoustic signal.
以下、図1、図2を参照して本実施例の音声認識システムの構成について説明する。図1は、本実施例の音声認識システム1の構成を示すブロック図である。図2は、本実施例の音声認識システム1の管理部30の構成を示すブロック図である。
Hereinafter, the configuration of the speech recognition system according to the present embodiment will be described with reference to FIGS. 1 and 2. FIG. 1 is a block diagram showing the configuration of the
図1に示すように、本実施例の音声認識システム1は、クライアント装置10と、複数の音声認識サーバ装置21−1、…、21−n、…、21−N(NはN≧2を充たす整数、nは1≦n≦Nを充たす整数)と、管理部30を含む。図1においてクライアント装置10は1台のみ図示したが、クライアント装置10は複数台存在してもよい。音声認識サーバ装置21−1、…、21−n、…、21−Nをまとめて呼称する際には、音声認識サーバ装置群20と呼ぶ。クライアント装置10と音声認識サーバ装置群20は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。管理部30は、単独のハードウェア(装置)として構成されてもよい。管理部30を単独のハードウェア(装置)として構成した場合は、これを管理装置30と呼んでもよい。管理部30を単独のハードウェア(装置)として構成した場合、クライアント装置10と音声認識サーバ装置群20と管理部30(管理装置30)はネットワークを介して、無線または有線で通信可能に接続されているものとする。また、管理部30は、クライアント装置10内の構成要件であってもよいし、音声認識サーバ装置群20内の何れかの音声認識サーバ装置内の構成要件であってもよい。
As shown in FIG. 1, the
音声認識サーバ装置21−1、…、21−n、…、21−Nは、クライアント装置10に入力される音響信号の収音条件(詳細は後述)に基づいて音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとする。音響モデルの特性として例えば雑音特性などが考えられる。クライアント装置10は、収音条件抽出部11と、しきい値記憶部111と、選択部12と、送信先記憶部121と、信号処理部13と、送信部14と、受信部15と、呈示部16と、操作受付部171と、正解候補抽出部172と、正解候補記憶部173と、送信先変更部18を含む。図2に示すように本実施例の管理部30は、正解候補受信部30Aと、再学習信号送信部30Bと、音声認識結果受信部30Cと、送信先情報更新部30Dと、送信先情報送信部30Eと、正解候補記憶部30Fを含む。
The voice recognition server devices 21-1,..., 21-n,..., 21-N are in charge of the sound recognition processing of the sound signals based on the sound collection conditions (details will be described later) of the sound signals input to the
以下、図3を参照して本システムの音声認識動作について説明する。図3は、本実施例の音声認識システム1の音声認識動作を示すシーケンス図である。まず、収音条件抽出部11は、入力された音響信号の収音条件を抽出する(S11)。選択部12は、抽出された収音条件に基づいて、対応する音声信号の送信先となる音声認識サーバ装置(例えば音声認識サーバ装置21−1)を選択する(S12)。収音条件と送信先となる音声認識サーバ装置との関係は送信先情報として、送信先記憶部121に予め記憶されているものとする。
Hereinafter, the speech recognition operation of this system will be described with reference to FIG. FIG. 3 is a sequence diagram showing the speech recognition operation of the
<収音条件>
収音条件は、例えば音声信号の大きさと背景雑音信号の大きさの比率であるS/N比に関する特徴量、音響信号のひずみに関する特徴量、背景雑音信号のスペクトル形状に関する特徴量、背景雑音信号の大きさに関する特徴量のうち少なくとも何れかの特徴量についてのしきい値に基づく条件とすることができる。しきい値は、しきい値記憶部111に予め記憶されているものとする。
<Sound collection conditions>
The sound collection conditions include, for example, a feature amount relating to the S / N ratio, which is a ratio of the size of the audio signal and the background noise signal, a feature amount relating to the distortion of the acoustic signal, a feature amount relating to the spectrum shape of the background noise signal, and a background noise signal. It is possible to set a condition based on a threshold value for at least one of the feature amounts related to the size of the feature amount. It is assumed that the threshold value is stored in advance in the threshold
背景雑音信号とは発声音声や目的音が入力される直前の一定時間にマイクで観測された信号である。背景雑音信号の大きさとは、背景雑音信号のパワースペクトルの一定時間の平均値である。背景雑音信号のスペクトル形状とは、背景雑音信号のスペクトルにおける各帯域の成分やその時間変化である。音声信号と背景雑音信号のS/N比とは、発声音声(目的音)入力中の音響信号中の音声信号の大きさと背景雑音信号の大きさの比である。音声信号として、発声音声(目的音)入力中の一定時間の音響信号のパワースペクトルから背景雑音信号のパワースペクトルの一定時間の平均値を差し引いたパワースペクトルを用いることができる。音声信号の大きさとは、発声音声(目的音)入力中の一定時間の音声信号のパワースペクトルの平均値である。 The background noise signal is a signal observed by a microphone for a certain time immediately before the voiced sound or the target sound is input. The magnitude of the background noise signal is an average value of the power spectrum of the background noise signal over a certain period of time. The spectrum shape of the background noise signal is a component of each band in the spectrum of the background noise signal and its time change. The S / N ratio between the audio signal and the background noise signal is the ratio of the size of the audio signal in the acoustic signal being input to the uttered speech (target sound) and the size of the background noise signal. As the audio signal, a power spectrum obtained by subtracting the average value of the power spectrum of the background noise signal for a certain time from the power spectrum of the acoustic signal for a certain time during the input of the uttered voice (target sound) can be used. The magnitude of the audio signal is an average value of the power spectrum of the audio signal for a certain time during the input of the uttered voice (target sound).
音響信号のひずみとは、音響信号の入力が大きすぎたためにマイクロホン素子、マイクロホンアンプ回路、A/D変換がクリッピングしているものを指す。入力信号レベルが、あらかじめ決めた閾値以上の振幅を持つ区間を検出し、その時間的な割合を計算する。この割合が高ければひずみが大きく、割合が小さければひずみが小さい。閾値以上の振幅となっていなければ、ひずみなしとすることができる。閾値は、マイク素子、回路、AD変換のクリッピングレベルに合わせて設定する。 The distortion of the acoustic signal means that the microphone element, the microphone amplifier circuit, and the A / D conversion are clipping because the input of the acoustic signal is too large. A section where the input signal level has an amplitude greater than or equal to a predetermined threshold is detected, and the time ratio is calculated. If this ratio is high, the strain is large, and if the ratio is small, the strain is small. If the amplitude does not exceed the threshold, no distortion can be achieved. The threshold is set according to the clipping level of the microphone element, circuit, and AD conversion.
<収音条件抽出部11(S11)、選択部12(S12)>
以下に、収音条件抽出部11、選択部12の動作(S11、S12)の例について述べる。収音条件抽出部11は、例えば入力された音響信号から収音条件を表す特徴量を抽出し、特徴量の値に応じて入力された音響信号をグループ(例えば収音条件を表す符号)に分ける。
<Sound Collection Condition Extraction Unit 11 (S11), Selection Unit 12 (S12)>
Hereinafter, an example of the operation (S11, S12) of the sound collection condition extraction unit 11 and the
次に、選択部12は、表1に記載のように、グループ(収音条件を表す符号)とインデックス(送信先音声認識サーバ装置を表す符号)の関係に基づいて、対応する音響信号の送信先となる音声認識サーバ装置(例えば音声認識サーバ装置21−1)を選択する(S12)。
Next, as shown in Table 1, the
特徴量xは例えば、音響信号に含まれる音声信号の大きさと背景雑音信号の大きさの比率であるS/N比、音響信号のひずみの有無やひずみの頻度、背景雑音信号のスペクトル形状、背景雑音信号の大きさ、などとすることができる。 The feature amount x is, for example, the S / N ratio that is the ratio of the size of the audio signal included in the acoustic signal and the size of the background noise signal, the presence or absence of distortion of the acoustic signal, the frequency of distortion, the spectrum shape of the background noise signal, the background The magnitude of the noise signal, etc.
特徴量xをS/N比とする場合、例えばしきい値をθ1=0dB、θ2=10dB、θ3=20dB等と設定し、x=5dBならば収音条件抽出部11はグループ2を収音条件として抽出し、選択部12はインデックス2を選択する。
When the feature quantity x is an S / N ratio, for example, threshold values are set as θ 1 = 0 dB, θ 2 = 10 dB, θ 3 = 20 dB, and so on. Are extracted as sound collection conditions, and the
特徴量xを音響信号のひずみとする場合、たとえばビットデプス16bitで量子化した信号で、0.5秒間で振幅の絶対値が30000以上となる時間の割合を特徴量xとする。しきい値をθ1=0.8等と設定し、x=0ならば収音条件抽出部11はグループ1を収音条件として抽出し、選択部12はインデックス1を選択し、x=0.9ならば収音条件抽出部11はグループ2を収音条件として抽出し、選択部12はインデックス2を選択する。
When the feature quantity x is a distortion of an acoustic signal, for example, the ratio of the time when the absolute value of the amplitude is 30000 or more in 0.5 seconds is a feature quantity x in a signal quantized with a bit depth of 16 bits. The threshold is set as θ 1 = 0.8, etc., and if x = 0, the sound collection condition extraction unit 11
特徴量xを背景雑音信号のスペクトル形状とする場合、例えば背景雑音信号の大きさを周波数帯域や継続時間によりx1、x2、…、xm等(mはm≧2を充たす整数)と分けて評価する。収音条件抽出部11は、評価結果の組み合わせからグループを抽出し、選択部12はそのインデックスを選択する。また、背景雑音信号のスペクトル形状を特徴量として用いる別の方法として、複数種類の背景雑音信号のモデルを記憶しておき、入力された信号の背景雑音信号をモデルのいずれかに分類することもできる。複数種類の背景雑音信号とは、例えばホワイトノイズ、ピンクノイズ、バーストノイズなどである。この方法では、モデル一つ一つに対応するグループを割振っておき、入力された信号の背景雑音信号が分類されたモデルに応じてグループが決定される。
When the feature amount x is the spectrum shape of the background noise signal, for example, the size of the background noise signal is x 1 , x 2 ,..., X m (m is an integer satisfying m ≧ 2) depending on the frequency band and duration. Separately evaluate. The sound collection condition extraction unit 11 extracts a group from the combination of evaluation results, and the
特徴量xを背景雑音信号の大きさとする場合、たとえばθ1=40dBA、θ2=55dBA、θ3=70dBA等と設定し、特徴量x=50dBAならば収音条件抽出部11はグループ2を収音条件として抽出し、選択部12はインデックス2を選択する。ここでdBAとは人間の聴覚を考慮した周波数重み付け特性(A特性)のもとで測定した騒音レベルのdB値の単位である。
When the feature amount x is set to the size of the background noise signal, for example, θ 1 = 40 dBA, θ 2 = 55 dBA, θ 3 = 70 dBA, etc. are set, and if the feature amount x = 50 dBA, the sound collection condition extraction unit 11 sets the group 2 Extracting is performed as a sound collection condition, and the
<信号処理部13(S13)>
信号処理部13は、抽出された収音条件が所定の条件に該当する場合に、対応する音響信号を信号処理する(S13)。具体的には信号処理部13は、S/N比や背景雑音信号の大きさが、収音条件抽出部11で抽出された収音条件に基づいて決定される音声認識サーバ装置において音声認識対象として想定していた特徴量の範囲に適合するように、対応する音響信号を信号処理する。例えばS/N比=1近傍、すなわち0dB近傍の収音条件は、音声信号の大きさと背景雑音信号の大きさが同等であり、そのような音響信号をそのまま音声認識に用いれば性能の低下を招きやすい。従って、S/N比=0dB近傍の収音条件を収音条件抽出部11で抽出した場合は、当該収音条件の音響信号に対して背景雑音信号を抑圧する信号処理を信号処理部13で適用する。あるいは例えばS/N比=100近傍、すなわち20dB近傍の収音条件を収音条件抽出部11で抽出した場合は、前述の0dB近傍の収音条件と同様に、S/N比の値に応じて適応的に背景雑音信号を抑圧する処理を行うとしても良いし、抑圧する処理を全く行わないとしても良い。その他の収音条件においても、信号処理部13において、収音条件抽出部11で抽出した結果に基づき、音響信号への信号処理を適応的に行う。
<Signal processing unit 13 (S13)>
The
以下に、信号処理部13の動作(S13)の例について述べる。音声認識では、多くの場合、前処理として信号処理により入力音声を補正する。音声認識において前処理して対処すべき音響特性として、例えば、加法性雑音と乗法性雑音がある。加法性雑音は、音声入力環境に遍在する雑音のように音声信号に対して加法的に観測される信号である。一方、乗法性雑音とはマイクの特性や空間伝達特性などの音響特性に起因する雑音(ひずみ)であり、時間波形では原音声波形に対する畳み込み演算として観測されるもので、スペクトル波形では乗算性のひずみとなるものである。加法性雑音に対処した音声認識処理の例としては、参考特許文献1の段落[0005]に開示されたスペクトルサブトラクション法に基づく雑音抑圧法、または同文献の段落[0007]に開示されたウィナー・フィルタ法(以下、WF法という)に基づく雑音抑圧法などのように、雑音の重畳した音声から雑音を抑圧して音声認識に適用する方法がある。
(参考特許文献1:特許第4464797号公報)
Hereinafter, an example of the operation (S13) of the
(Reference Patent Document 1: Japanese Patent No. 4464797)
加法性雑音に加えて乗法性雑音に対処した音声認識処理の例としては、参考特許文献1のように乗法性雑音の影響を除去した音声モデルに雑音モデルを重畳させた雑音重畳音声モデルを生成してから乗法性特徴量に基づいてモデルを更新する方法がある。あるいは参考特許文献2の発明のように、雑音モデルに対しても乗法性雑音特徴量に基づいて正規化した上で正規化雑音重畳音声モデルを生成する方法がある。
(参考特許文献2:特許第5200080号公報)
As an example of speech recognition processing that copes with multiplicative noise in addition to additive noise, a noise superimposed speech model is generated by superimposing a noise model on a speech model from which the influence of multiplicative noise has been removed as in
(Reference Patent Document 2: Japanese Patent No. 5200080)
信号処理部13が行う信号処理として典型的には雑音抑圧が考えられる。雑音抑圧以外の信号処理としては、例えばAGC(Automatic Gain Control)、CMN(Cepstrum Mean Normalization)、イコライザなどでもよい。
Noise suppression is typically considered as signal processing performed by the
<AGC>
Automatic Gain Control(AGC)は、入力音声信号の短時間平均パワーまたは短時間平均振幅をもとに入力信号レベルを検出し、入力信号レベルと最適レベル(目標値)との差分が少なくなるように音声入力段の利得(ゲイン)を調整する処理である。AGCはA/D変換後の音声波形が過少または過大になって音声特徴量が不明瞭になることを防ぐ効果がある。AGCについては、例えば参考特許文献3の段落[0001]に開示されている。
(参考特許文献3:特許第3588555号公報)
<AGC>
Automatic Gain Control (AGC) detects the input signal level based on the short-time average power or short-time average amplitude of the input audio signal so that the difference between the input signal level and the optimum level (target value) is reduced. This is a process for adjusting the gain of the audio input stage. AGC has an effect of preventing the voice feature amount from becoming unclear due to the voice waveform after A / D conversion being too small or excessive. AGC is disclosed in paragraph [0001] of Reference Patent Document 3, for example.
(Reference Patent Document 3: Japanese Patent No. 3588555)
<CMN>
Cepstrum Mean Normalization(CMN)とは、音声認識の特徴量であるケプストラムにおいて、入力音声信号の長時間ケプストラム平均を求め、各フレームの入力音声のケプストラムから長時間ケプストラム平均をさし引く処理である。CMNは、マイクロホンの特性、マイクロホンの位置、部屋の形状に代表される乗算性ひずみの影響を軽減するために用いられる。CMNについては、例えば参考特許文献1の段落[0010]に開示されている。
<CMN>
Cepstrum Mean Normalization (CMN) is a process of obtaining a long-term cepstrum average of an input speech signal in a cepstrum that is a feature amount of speech recognition, and subtracting the long-term cepstrum average from the cepstrum of the input speech of each frame. The CMN is used to reduce the influence of multiplicative distortion represented by the characteristics of the microphone, the position of the microphone, and the shape of the room. CMN is disclosed in paragraph [0010] of
なお、クライアント装置10の信号処理部13でCMNを実施する場合、クライアント装置10から音声認識サーバ装置へは、音声認識のための音響信号に由来する信号として、CMN適用後のMFCC(メル周波数ケプストラム)が送信されることとしておけば、音声認識サーバ装置で再度ケプストラム分析する処理を省くことができる。
When the CMN is performed by the
<イコライザ>
イコライザとは、入力音声信号のゲインを周波数帯域ごとに調整する処理である。例えば音声入力用のマイクロホンの音響特性が平坦でないことが予めわかっていれば、イコライザを経由することで、音響特性を改善したうえで収音することができる。イコライザについては、例えば参考特許文献4の段落[0010]、[0016]に開示されている。
(参考特許文献4:特許第2865268号公報)
<Equalizer>
The equalizer is a process for adjusting the gain of the input audio signal for each frequency band. For example, if it is known in advance that the acoustic characteristics of a microphone for voice input are not flat, sound can be collected after improving the acoustic characteristics via an equalizer. The equalizer is disclosed in, for example, paragraphs [0010] and [0016] of
(Reference Patent Document 4: Japanese Patent No. 2865268)
次に、送信部14は、抽出された収音条件に対応する音声認識サーバ装置(ステップS12で選択された音声認識サーバ装置)に、音響信号または音響信号に由来する信号を送信する(S14A)。このとき、送信部14は、ステップS13の信号処理がされていない場合と信号処理がされた場合とで送信先を異ならせて、信号処理がされていない音響信号、または信号処理がされた音響信号を送信するものとする。また、ステップS12で選択された音声認識サーバ装置とは関係なくステップS13の信号処理が実施されたか否かだけで、異なる音声認識サーバ装置のうちのいずれかの送信先を決定しても良い。なお、音響信号に由来する信号とは、音響信号の特徴量を表す信号、ステップS13における信号処理を施した音響信号などを指す。また送信部14は、音響信号または音響信号に由来する信号を送信する際に、クライアント装置10の個体番号や音響信号入力時刻のタイムスタンプなどを利用した当該音響信号または音響信号に由来する信号を一意に識別するためのID番号、収音条件(グループ)やそのしきい値、信号処理部13における信号処理の有無に関する情報を音声認識サーバ装置に送信しても良い。音声認識サーバ装置は収音条件(グループ)やそのしきい値、や信号処理の有無から、どのような収音条件または信号処理条件において当該音声認識サーバ装置が選択されたかを記録することが可能になる。
Next, the
音声認識サーバ装置21−1、…、21−n、…、21−Nは、クライアント装置10から音響信号または音響信号に由来する信号を受信する(S21A)。音響信号または音響信号に由来する信号を受信した音声認識サーバ装置(例えば音声認識サーバ装置21−1)は、音声認識処理を実行する(S21B)。 The voice recognition server devices 21-1, ..., 21-n, ..., 21-N receive an acoustic signal or a signal derived from the acoustic signal from the client device 10 (S21A). The speech recognition server device (for example, the speech recognition server device 21-1) that has received the acoustic signal or the signal derived from the acoustic signal executes speech recognition processing (S21B).
<音声認識処理(S21B)>
ステップS21Bの音声認識処理は、例えば以下のように実行される。音声認識サーバ装置は、一文章や一単語の発話を文字列に変換する。音声認識サーバ装置は、音声特徴量として音声のパワーやその変化量、MFCC(メル周波数ケプストラム、Mel-Frequency Cepstrum Coefficient)やその動的変化量を用いる。音声認識サーバ装置は、統計的な音響モデルや言語モデルを用いて単語列を探索する。
<Voice recognition processing (S21B)>
The voice recognition process in step S21B is executed as follows, for example. The speech recognition server device converts an utterance of one sentence or one word into a character string. The speech recognition server device uses speech power and its variation, MFCC (Mel-Frequency Cepstrum Coefficient) and its dynamic variation as speech feature amounts. The speech recognition server device searches for a word string using a statistical acoustic model or a language model.
ステップS21Bの音声認識処理を実行した音声認識サーバ装置は、音声認識結果をクライアント装置10に送信する(S21C)。音声認識処理を実行した音声認識サーバ装置は最尤となる音声認識結果を一つのみクライアント装置10に送信してもよいし、尤度の高い順に複数の音声認識結果を送信してもよい。例えば、音声認識処理を実行した音声認識サーバ装置はステップS21Cにおいて、尤度の高さが上位5位となる認識結果5つを全てクライアント装置10に送信してもよい。例えばクライアント装置10のユーザが「続きを読んで」と発声したものとする。この場合、選択部12で収音条件に応じて選択された音声認識サーバ装置は、この発声を含む音響信号を音声認識処理し、尤度の高さ上位5位の音声認識結果として、例えば「1.知識の予定」「2.続きを読んで」「3.知識の要点」「4.スズキを読んで」「5.続きの要点」をクライアント装置10に送信する。
The voice recognition server apparatus that has executed the voice recognition process in step S21B transmits the voice recognition result to the client apparatus 10 (S21C). The voice recognition server apparatus that has executed the voice recognition processing may transmit only one voice recognition result having the maximum likelihood to the
クライアント装置10の受信部15は、音声認識結果を受信する(S15A)。クライアント装置10の呈示部16は、受信した音声認識結果を呈示する(S16)。前述のようにステップS21Cにおいて複数の音声認識結果が送信される場合、呈示部16はこれらの音声認識結果を全て呈示してもよい。このとき呈示部16は、ユーザが選択可能な形式で、上述の音声認識結果を呈示してもよい。
The receiving
以下、図4を参照して本実施例の音声認識システム1の情報更新動作について説明する。図4は、本実施例の音声認識システム1の情報更新動作を示すシーケンス図である。クライアント装置10の操作受付部171は、ユーザの操作を受け付ける(S171)。操作受付部171は、ユーザの様々な操作を受付可能に構成されている。ここでは、本実施例の音声認識システム1の動作続行に関連する操作のみに注目して説明を続ける。 例えば操作受付部171は、本実施例の音声認識システム1の動作続行に関連する操作として、呈示部16に呈示された選択可能な複数の音声認識結果のうちの何れかに対するユーザの選択操作を受け付ける(S171)。あるいは、呈示部16が呈示した(複数の)音声認識結果が(何れも)ユーザの所望する音声認識結果でないために、ユーザが正解の文字列を入力する入力操作を受け付ける(S171)。正解候補抽出部172は、ユーザの動作に関連して入力された文字列を正解候補として抽出する(S172)。ここで、ユーザの動作とは上述の選択操作、入力操作などを含む概念である。ユーザの動作に関連して入力された文字列とは、上述の選択操作により選択された音声認識結果(文字列)、上述の入力操作により入力された正解の文字列などを含む概念である。例えば、呈示部16が上述の例における上位5位の音声認識結果である「1.知識の予定」「2.続きを読んで」「3.知識の要点」「4.スズキを読んで」「5.続きの要点」を選択可能に呈示した場合、ユーザは、「2.続きを読んで」に対する選択操作を行う。この場合、正解候補抽出部172はユーザの選択操作によって入力された文字列「続きを読んで」を正解候補として抽出する(S172)。ここで、最上位の音声認識結果がユーザの選択操作によって選択されなかったということは音声認識結果に誤りを生じていることを示しており、音声認識結果の正解率を高めるためには、クライアント装置10と送信先の音声認識サーバ装置との関係を変更する必要があることを意味している。すなわち、クライアント装置10と送信先の音声認識サーバ装置との関係を、当初音声認識を行った音声認識サーバ装置とは異なる音響モデルを持つ音声認識サーバ装置を選択させるように変更するか、送信先音声認識サーバ装置の選択に用いたしきい値を当初のしきい値から変更するか、音声認識サーバ装置の送信先を変更せずに、送信先の音声認識サーバ装置で使用する音響モデルや設定情報を変更するか、などの処理によって上記関係を変更する必要がある。このような変更処理を行う目的として正解候補抽出部172は、正解候補に対応する音響信号(クライアント装置10に入力された音響信号、あるいはステップS13で信号処理された音響信号)を再学習信号とし、正解候補と対応付けて正解候補記憶部173に記憶する。正解候補抽出部172は例えば、上述の例における正解候補である文字列「続きを読んで」に対応する音響信号であるユーザの発声「続きを読んで」を含む音響信号を再学習信号とし、正解候補である文字列「続きを読んで」と対応付けて正解候補記憶部173に記憶する。送信部14は、正解候補と再学習信号の組を管理部30に送信する(S14B)。なお再学習信号には、ステップS14Aの場合と同様に、ID番号、収音条件(グループ)やそのしきい値、信号処理部13における信号処理の有無に関する情報を音声認識サーバ装置に送信しても良い。これは再学習信号が、どのような収音条件で入力された音響信号または音響信号に由来する信号に対する再学習信号であるかを識別するための情報となる。
Hereinafter, the information update operation of the
管理部30の正解候補受信部30Aは、クライアント装置10から正解候補と再学習信号の組を受信する(S30A)。正解候補と再学習信号の組は、正解候補記憶部30Fに記憶される。管理部30の再学習信号送信部30Bは、再学習信号を音声認識サーバ装置群20(全ての音声認識サーバ装置)に送信する(S30B)。
The correct answer
音声認識サーバ装置群20は、管理部30から再学習信号を受信する(S21D)。音声認識サーバ装置群20は、受信した再学習信号を音声認識する(S21E)。音声認識サーバ装置群20は、音声認識結果を管理部30に送信する(S21F)。
The speech recognition
管理部30の音声認識結果受信部30Cは、全ての音声認識サーバ装置から再学習信号に対する音声認識結果を受信する(S30C)。管理部30の送信先情報更新部30Dは、全ての音声認識サーバ装置から受信した各音声認識結果と正解候補との類似度に基づいて、送信先情報を更新する(S30D)。送信先情報とは、音響信号の送信先となる音声認識サーバ装置と収音条件との関係に関する情報である。典型的には、送信先情報更新部30Dは、正解候補との類似度が最も高くなる音声認識結果を送信した音声認識サーバ装置に対して、前述のクライアント装置10からの音響信号が送信されるように、送信先情報を更新する(S30D)。例えば前述の例において、正解候補「続きを読んで」との類似度が最高となる音声認識結果「続きを読んで」を送信した音声認識サーバ装置に対して、前述のクライアント装置10からの音響信号が送信されるように送信先情報が更新される。次に、管理部30の送信先情報送信部30Eは、更新された送信先情報をクライアント装置10に送信する(S30E)。
The speech recognition
クライアント装置10の受信部15は、管理部30から送信先情報を受信する(S15B)。クライアント装置10の送信先変更部18は、受信した送信先情報に基づいて、音響信号の送信先となる音声認識サーバ装置と収音条件との関係を変更する(S18)。クライアント装置10の送信先変更部18は、例えば送信先記憶部121に記憶済みの送信先情報を新たに受信した送信先情報に上書きすることによって、上記変更を行うことができる。
The receiving
このように本実施例の音声認識システム1によれば、当初送信先として選択されていた音声認識サーバ装置の音響モデル等の設定では音声認識結果に誤りを生じていることがユーザの選択(入力)操作によって判明したときに、全ての音声認識サーバ装置が再学習信号を音声認識し、正解候補との類似度が高くなる音声認識結果を送信した音声認識サーバ装置が新たな送信先となるように管理部30が送信先情報を更新し、クライアント装置10が更新された送信先情報に基づいて、送信先となる音声認識サーバ装置を変更することにより、システム全体の誤認識の回数が減少する方向に送信先情報が最適化(再学習)されるため、システムの利用効率を向上させることができる。
As described above, according to the
以下、送信先情報を更新する代わりにしきい値を更新することで実施例1と同様の効果を奏する実施例2の音声認識システムについて説明する。まず図5、図6を参照して本実施例の音声認識システムの構成について説明する。図5は、本実施例の音声認識システム2の構成を示すブロック図である。図6は、本実施例の音声認識システム2の管理部50の構成を示すブロック図である。図5に示すように、本実施例の音声認識システム2は、クライアント装置40と、複数の音声認識サーバ装置21−1、…、21−n、…、21−Nと、管理部50を含む。クライアント装置40は複数台存在してもよい。クライアント装置40と音声認識サーバ装置群20は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。管理部50は、単独のハードウェア(装置)として構成されてもよく、管理部50を単独のハードウェア(装置)として構成した場合は、これを管理装置50と呼んでもよい。管理部50を単独のハードウェア(装置)として構成した場合、クライアント装置40と音声認識サーバ装置群20と管理部50(管理装置50)はネットワークを介して、無線または有線で通信可能に接続されているものとする。また、管理部50は、クライアント装置40内の構成要件であってもよいし、音声認識サーバ装置群20内の何れかの音声認識サーバ装置内の構成要件であってもよい。
Hereinafter, the voice recognition system according to the second embodiment that achieves the same effect as the first embodiment by updating the threshold value instead of updating the transmission destination information will be described. First, the configuration of the speech recognition system of this embodiment will be described with reference to FIGS. FIG. 5 is a block diagram showing the configuration of the voice recognition system 2 of the present embodiment. FIG. 6 is a block diagram illustrating a configuration of the
図5に示すように本実施例のクライアント装置40は、実施例1のクライアント装置10が備える送信先変更部18の代わりに、しきい値変更部48を備える。クライアント装置40の、しきい値変更部48以外の構成要件は実施例1のクライアント装置10の各構成要件と同じであるため、説明を割愛する。
As illustrated in FIG. 5, the
図6に示すように本実施例の管理部50は、実施例1の管理部30が備える送信先情報更新部30Dと、送信先情報送信部30Eの代わりに、しきい値更新部50Dと、しきい値送信部50Eを備える。また、本実施例の管理部50は実施例1の管理部30が備えないしきい値記憶部50Gと、信号処理部50Hを備える。しきい値更新部50D、しきい値送信部50E、しきい値記憶部50G、信号処理部50H以外の構成要件は実施例1の管理部30の各構成要件と同じであるため、説明を割愛する。
As shown in FIG. 6, the
なお、本実施例の音声認識システム2の音声認識動作は実施例1の音声認識動作(S11〜S14A、S21A〜S21C、S15A、S16)と全く同じであるから説明を省略する。 Note that the voice recognition operation of the voice recognition system 2 of the present embodiment is completely the same as the voice recognition operation (S11 to S14A, S21A to S21C, S15A, and S16) of the first embodiment, and thus description thereof is omitted.
以下、図7を参照して本実施例の音声認識システム2の情報更新動作について説明する。図7は、本実施例の音声認識システム2の情報更新動作を示すシーケンス図である。 Hereinafter, the information update operation of the voice recognition system 2 of the present embodiment will be described with reference to FIG. FIG. 7 is a sequence diagram showing an information update operation of the speech recognition system 2 of the present embodiment.
ステップS171、S172、S14B、S30Aは実施例1と同様に実行される。ステップS30Aにおいて、正解候補とクライアント装置40に入力されていた音響信号または音響信号に由来する信号の組は、正解候補記憶部30Fに記憶される。
Steps S171, S172, S14B, and S30A are executed in the same manner as in the first embodiment. In step S30A, the correct candidate and the set of the acoustic signal input to the
次に、信号処理部50Hは、前述のステップS13において実行される信号処理であって、収音条件に応じて予め定められている信号処理のパターンの全て(信号処理自体を実施しないパターンを含む)を、ステップS13における信号処理を実行する前の音響信号に適用して、収音条件毎に異なる信号処理を施した信号処理済音響信号を取得する。本実施例では、この信号処理済音響信号を再学習信号とする(S50H)。
Next, the
なお、ステップS50Hの信号処理による負荷の増大が問題となる場合は、ステップS50Hを省略してもよい。この場合、再学習信号に施された信号処理と後述するしきい値変更後にステップS13において音響信号に施される信号処理とが異なる場合があることを許容し、ステップS13において信号処理された音響信号をそのまま再学習信号とする。ステップS30Bは、実施例1と同様であるが、ステップS50Hが実行される場合には、S50Hにおいて各収音条件に応じて各信号処理を施された各音響信号(各再学習信号)は、対応する収音条件を担当する各音声認識サーバ装置にそれぞれ分配されるものとする。この場合のステップS30Bは、全ての収音条件のパターンにおけるステップS13−S14を管理部50において再現する処理ということができる。
Note that if an increase in load due to the signal processing in step S50H becomes a problem, step S50H may be omitted. In this case, it is allowed that the signal processing applied to the relearning signal may be different from the signal processing applied to the acoustic signal in step S13 after a threshold value change described later, and the acoustic signal processed in step S13 is allowed. The signal is directly used as a relearning signal. Step S30B is the same as that of the first embodiment. However, when step S50H is executed, each acoustic signal (each relearning signal) subjected to each signal processing in S50H according to each sound collection condition is It is assumed that it is distributed to each voice recognition server device in charge of the corresponding sound collection condition. Step S30B in this case can be said to be processing in which steps S13 to S14 in all sound collection condition patterns are reproduced by the
以下、ステップS21D〜S21F、ステップS30Cは実施例1と同様に実行される。 Hereinafter, Steps S21D to S21F and Step S30C are executed in the same manner as in the first embodiment.
次に、しきい値更新部50Dは、全ての音声認識サーバ装置から受信した各音声認識結果と正解候補との類似度に基づいて、しきい値を更新する(S50D)。表1に例示したようにしきい値とは、収音条件を抽出するために予め設定されている値のことである。典型的には、しきい値更新部50Dは、正解候補との類似度が最も高くなる音声認識結果を送信した音声認識サーバ装置に対して、前述のクライアント装置40からの音響信号が送信されるように、しきい値を更新する(S50D)。例えば前述の例において、正解候補「続きを読んで」との類似度が最高となる音声認識結果「続きを読んで」を送信した音声認識サーバ装置に対して、前述のクライアント装置40からの音響信号が送信されるようにしきい値が更新される。次に、管理部50のしきい値送信部50Eは、更新されたしきい値をクライアント装置40に送信する(S50E)。
Next, the
クライアント装置40の受信部15は、管理部50からしきい値を受信する(S15B)。クライアント装置40のしきい値変更部48は、受信したしきい値に基づいて、予め設定されたしきい値を変更する(S48)。クライアント装置40のしきい値変更部48は、例えばしきい値記憶部111に記憶済みのしきい値を新たに受信したしきい値に上書きすることによって、上記変更を行うことができる。
The receiving
このように本実施例の音声認識システム2によれば、全ての音声認識サーバ装置が再学習信号を音声認識し、正解候補との類似度が高くなる音声認識結果を送信した音声認識サーバ装置が新たな送信先となるように、管理部50がしきい値を更新し、クライアント装置40が更新されたしきい値に基づいて、予め設定されていたしきい値を新たなしきい値に変更することにより、システム全体の誤認識の回数が減少する方向にしきい値が最適化(再学習)されるため、システムの利用効率を向上させることができる。
As described above, according to the speech recognition system 2 of the present embodiment, all speech recognition server devices recognize the relearning signal by speech, and the speech recognition server device that has transmitted the speech recognition result that increases the similarity to the correct answer candidate. The
以下、実施例1における正解候補の抽出動作を改変した実施例3の音声認識システムについて説明する。まず図8を参照して本実施例の音声認識システムの構成について説明する。図8は、本実施例の音声認識システム3の構成を示すブロック図である。図8に示すように、本実施例の音声認識システム3は、クライアント装置60と、複数の音声認識サーバ装置21−1、…、21−n、…、21−Nと、管理部30を含む。クライアント装置60は複数台存在してもよい。クライアント装置60と音声認識サーバ装置群20は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。管理部30を単独のハードウェア(装置)として構成した場合、クライアント装置60と音声認識サーバ装置群20と管理部30(管理装置30)はネットワークを介して、無線または有線で通信可能に接続されているものとする。また、管理部30は、クライアント装置60内の構成要件であってもよい。
Hereinafter, the speech recognition system according to the third embodiment in which the correct candidate extraction operation according to the first embodiment is modified will be described. First, the configuration of the speech recognition system of this embodiment will be described with reference to FIG. FIG. 8 is a block diagram showing the configuration of the voice recognition system 3 of the present embodiment. As shown in FIG. 8, the speech recognition system 3 according to the present exemplary embodiment includes a
図8に示すように本実施例のクライアント装置60は、実施例1のクライアント装置10が備える正解候補抽出部172の代わりに、正解候補抽出部672を備える。また、本実施例のクライアント装置60は、実施例1のクライアント装置10が備える操作受付部171を必ずしも備える必要がない。クライアント装置60の、正解候補抽出部672以外の構成要件は実施例1のクライアント装置10の各構成要件と同じであるため、説明を割愛する。
As illustrated in FIG. 8, the
なお、本実施例の音声認識システム3の音声認識動作は実施例1の音声認識動作(S11〜S14A、S21A〜S21C、S15A、S16)と全く同じであるから説明を省略する。 Note that the voice recognition operation of the voice recognition system 3 of the present embodiment is completely the same as the voice recognition operation (S11 to S14A, S21A to S21C, S15A, and S16) of the first embodiment, and thus the description thereof is omitted.
以下、図9を参照して本実施例の音声認識システム3の情報更新動作について説明する。図9は、本実施例の音声認識システム3の情報更新動作を示すシーケンス図である。正解候補抽出部672は、ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を監視し、これを取得する(S672)。ユーザによる同一内容を示す発声の複数回の繰り返しを認識するために、正解候補抽出部672は例えば以下の処理を実行することができる。例えば、発話1−Aを含む音響信号と、発話2−Aを含む音響信号が立て続けにクライアント装置60に入力された場合を考える。この場合、正解候補抽出部672はユーザの反応時間(発話1−Aを含む音響信号に対する音声認識結果がクライアント装置60により呈示された時刻である呈示時刻と発話2−Aを含む音響信号の入力時刻の時間間隔)、発話1−Aを含む音響信号の認識結果の信頼度、発話1−Aを含む音響信号と発話2−Aを含む音響信号との類似度などを算出する。正解候補抽出部672はユーザの反応時間が所定の閾値よりも小さく、発話1−Aを含む音響信号の信頼度が所定の閾値と比較して低く、発話1−Aを含む音響信号と発話2−Aを含む音響信号との類似度が所定の閾値よりも高くなる場合などに、発話1−Aに対する音声認識結果は誤認識であり、発話2−Aはユーザによる言い直し(同一発話の繰り返し)であると判断する。すなわち正解候補抽出部672は、発話1−Aを含む音響信号と発話2−Aを含む音響信号を繰り返し信号群として取得する。ここでいう類似度は、例えば次のいずれかとすることができる。
・各発話の音響信号の特徴量のユークリッド距離の逆数値や符号を反転した値(特徴量としてケプストラムやパワー、またはそれらの変化量を用いることができる)。
・音声認識サーバ装置から得た音声認識結果の文字列の編集距離の逆数値や符号を反転した値。ここで文字列とは表記上の文字列に限定するものではなく、文字列の読みを読み仮名や音素表記へ変換した文字列でも良い。
Hereinafter, the information update operation of the speech recognition system 3 of the present embodiment will be described with reference to FIG. FIG. 9 is a sequence diagram showing the information update operation of the speech recognition system 3 of the present embodiment. The correct
A value obtained by inverting the reciprocal value or sign of the Euclidean distance of the feature value of the acoustic signal of each utterance (a cepstrum, power, or a change amount thereof can be used as the feature value).
A value obtained by inverting the reciprocal value or sign of the edit distance of the character string of the speech recognition result obtained from the speech recognition server device. Here, the character string is not limited to a character string on the notation, and may be a character string obtained by reading a character string and converting it into a kana or phoneme notation.
繰り返し信号群に対する音声認識は、ステップS12で選択された音声認識サーバ装置が実行する(S21A〜S21C)。正解候補抽出部672は、繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出する(S672)。正解候補抽出部672は、繰り返し信号群のうち最後の信号以外の何れかの信号のうち少なくとも一つの信号を再学習信号とし、正解候補と対応付けて正解候補記憶部173に記憶する。最後の信号が再学習信号から除外されるのは、最後の信号により正解候補が導出されたとするならば、最後の信号は再学習に用いる信号として適切でないからである。一方、繰り返し信号群のうち最後の信号以外の信号群はいずれも、ステップS12で選択された音声認識サーバ装置において誤認識を招来した信号と考えられるため、再学習に用いる信号として適切と考えられる。なお本実施例の正解候補抽出部672は、広義にはユーザの動作に関連して入力された文字列を正解候補として抽出しており、その意味において実施例1、2の正解候補抽出部172と共通の技術的特徴を有する。「ユーザの動作」にはユーザの言い直し(同一発話の繰り返し)動作が含まれる。また本実施例の正解候補抽出部672は、ユーザの言い直し(同一発話の繰り返し)動作と関連して、音声認識サーバ装置から送信(入力)された音声認識結果(文字列)のうち最後の音声認識結果(文字列)を正解候補として抽出している。
Voice recognition for the repeated signal group is executed by the voice recognition server device selected in step S12 (S21A to S21C). The correct answer
以下、ステップS14B、S30A〜S30B、S21D〜S21F、S30C〜S30E、S15B〜S18は実施例1と同様に実行される。 Thereafter, steps S14B, S30A to S30B, S21D to S21F, S30C to S30E, and S15B to S18 are executed in the same manner as in the first embodiment.
このように、本実施例の音声認識システム3によれば、正解候補抽出部672が繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出し、送信部14が繰り返し信号群のうち最後の信号以外の何れかの信号のうち少なくとも一つの信号を再学習信号として送信するため、ユーザの言い直し(同一発話の繰り返し)動作から高精度に正解候補を抽出することができ、またユーザの言い直し(同一発話の繰り返し)を含む繰り返し信号群を再学習に用いることができるため、実施例1、2における選択操作、入力操作などを省略することができ、ユーザの手間を減らすことができる。
Thus, according to the speech recognition system 3 of the present embodiment, the correct
以下、送信先となる音声認識サーバ装置を変更する代わりに、音声認識サーバ装置に記憶された音響モデル、音声認識に関する設定を更新(入れ替え、再学習)する構成とした実施例4の音声認識システムについて説明する。まず図10、図11を参照して本実施例の音声認識システムの構成について説明する。図10は、本実施例の音声認識システム4の構成を示すブロック図である。図11は、本実施例の音声認識システム4の管理部90の構成を示すブロック図である。図10に示すように、本実施例の音声認識システム4は、クライアント装置70と、複数の音声認識サーバ装置81−1、…、81−n、…、81−Nと、管理部90を含む。音声認識サーバ装置81−1、…、81−n、…、81−Nをまとめて呼称する際には、音声認識サーバ装置群80と呼ぶ。クライアント装置70は複数台存在してもよい。クライアント装置70と音声認識サーバ装置群80は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。管理部90は、単独のハードウェア(装置)として構成されてもよく、管理部90を単独のハードウェア(装置)として構成した場合は、これを管理装置90と呼んでもよい。管理部90を単独のハードウェア(装置)として構成した場合、クライアント装置70と音声認識サーバ装置群80と管理部90(管理装置90)はネットワークを介して、無線または有線で通信可能に接続されているものとする。また、管理部90は、クライアント装置70内の構成要件であってもよいし、音声認識サーバ装置群80内の何れかの音声認識サーバ装置内の構成要件であってもよい。
Hereinafter, the voice recognition system according to the fourth embodiment is configured to update (replace, re-learn) the settings related to the acoustic model and voice recognition stored in the voice recognition server apparatus, instead of changing the voice recognition server apparatus as the transmission destination. Will be described. First, the configuration of the speech recognition system of this embodiment will be described with reference to FIGS. FIG. 10 is a block diagram showing the configuration of the
図10に示すように本実施例のクライアント装置70は、実施例1のクライアント装置10が備える送信先変更部18を備えない。クライアント装置70のそれ以外の構成要件は実施例1のクライアント装置10の各構成要件と同じであるため、説明を割愛する。
As illustrated in FIG. 10, the
図11に示すように本実施例の管理部90は、実施例1の管理部30が備える送信先情報更新部30Dと、送信先情報送信部30Eの代わりに、設定情報更新部90Dと、設定情報送信部90Eを備える。設定情報更新部90Dと、設定情報送信部90E以外の構成要件は実施例1の管理部30の各構成要件と同じであるため、説明を割愛する。
As illustrated in FIG. 11, the
なお、本実施例の音声認識システム4の音声認識動作は実施例1の音声認識動作(S11〜S14A、S21A〜S21C、S15A、S16)と全く同じであるから説明を省略する。
Note that the voice recognition operation of the
以下、図12を参照して本実施例の音声認識システム4の情報更新動作について説明する。図12は、本実施例の音声認識システム4の情報更新動作を示すシーケンス図である。ステップS171〜S14B、S30A〜S30B、S21D〜S21F、S30Cは実施例1と同様に実行される。
Hereinafter, the information update operation of the
次に、管理部90の設定情報更新部90Dは、全ての音声認識サーバ装置から受信した各音声認識結果と正解候補との類似度に基づいて、ステップS12で選択された音声認識サーバ装置の設定情報を更新する(S90D)。設定情報とは、音声認識の設定に関する情報であって、音響モデルを指定する情報、音声認識に関する設定を指定する情報を含んでいる。設定情報には音響モデルそのものが含まれていてもよい。典型的には設定情報更新部90Dは、正解候補との類似度が最も高くなる音声認識結果を送信した音声認識サーバ装置と同じ音声認識の設定、同じ音響モデルとなるように、ステップS12で選択された音声認識サーバ装置の設定情報を更新する(S90D)。管理部90の設定情報送信部90Eは、更新された設定情報をステップS12で選択された音声認識サーバ装置に送信する(S90E)。
Next, the setting
ステップS12で選択された音声認識サーバ装置は、設定情報を受信して(S80G)、受信した設定情報に基づいて自装置の音声認識の設定(音響モデル、音声認識に関する設定)を変更する(S80H)。音声認識サーバ装置群80は、音声認識サーバ装置群80の稼働量が少ない時間帯(例えば夜間)に、設定を変更してもよい。また音声認識サーバ装置群80は、それ以外の予め計画された時間帯に設定を変更してもよい。
The voice recognition server device selected in step S12 receives the setting information (S80G), and changes its own voice recognition setting (acoustic model, settings related to voice recognition) based on the received setting information (S80H). ). The voice recognition
このように本実施例の音声認識システム4によれば、管理部90の設定情報更新部90Dが設定情報を更新し、ステップS12で選択された音声認識サーバ装置が更新された設定情報に基づいて自装置の音響モデル、音声認識に関する設定を変更するため、ステップS12で選択された音声認識サーバ装置の誤認識が減少し、システムの利用効率を向上させることができる。
As described above, according to the
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity. Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。 The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。 In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (10)
前記クライアント装置は、
前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する受信部と、
ユーザの動作に関連して入力された文字列を正解候補として抽出する正解候補抽出部と、
前記正解候補と、前記正解候補に対応する音響信号である再学習信号の組を前記管理部に送信する送信部と、
前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係に関する情報である送信先情報に基づいて、前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係を変更する送信先変更部を含み、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号に対する音声認識結果を受信する音声認識結果受信部と、
前記全ての音声認識サーバ装置から受信した各音声認識結果と前記正解候補との類似度に基づいて、前記送信先情報を更新する送信先情報更新部と、
前記更新された送信先情報を前記クライアント装置に送信する送信先情報送信部を含む
音声認識システム。 A voice recognition system including a client device, a plurality of voice recognition server devices, and a management unit,
The client device is
A receiving unit that receives a speech recognition result for an acoustic signal input to the client device from a speech recognition server device selected based on the sound collection condition;
A correct candidate extraction unit that extracts a character string input in relation to the user's action as a correct candidate;
A transmitting unit that transmits a set of the correct candidate and a relearning signal that is an acoustic signal corresponding to the correct candidate to the management unit;
Based on the destination information that is the relationship between the voice recognition server device that is the transmission destination of the acoustic signal and the sound collection condition, the voice recognition server device that is the destination of the acoustic signal and the sound collection condition Including a destination change section that changes the relationship,
The management unit
A speech recognition result receiving unit for receiving speech recognition results for the re-learning signal from all speech recognition server devices;
A destination information update unit that updates the destination information based on the similarity between each voice recognition result received from all the voice recognition server devices and the correct candidate;
A speech recognition system including a transmission destination information transmission unit that transmits the updated transmission destination information to the client device.
前記クライアント装置は、
前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する受信部と、
ユーザの動作に関連して入力された文字列を正解候補として抽出する正解候補抽出部と、
前記正解候補と、前記正解候補に対応する音響信号である再学習信号の組を前記管理部に送信する送信部を含み、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号に対する音声認識結果を受信する音声認識結果受信部と、
前記全ての音声認識サーバ装置から受信した各音声認識結果と前記正解候補との類似度に基づいて、前記選択された音声認識サーバ装置の音声認識の設定に関する情報である設定情報を更新する設定情報更新部と、
前記更新された設定情報を前記選択された音声認識サーバ装置に送信する設定情報送信部を含み、
前記音声認識サーバ装置のそれぞれは、
前記設定情報を受信した場合に、前記受信した設定情報に基づいて自装置の音声認識の設定を変更する
音声認識システム。 A voice recognition system including a client device, a plurality of voice recognition server devices, and a management unit,
The client device is
A receiving unit that receives a speech recognition result for an acoustic signal input to the client device from a speech recognition server device selected based on the sound collection condition;
A correct candidate extraction unit that extracts a character string input in relation to the user's action as a correct candidate;
A transmission unit that transmits a set of the correct candidate and a relearning signal that is an acoustic signal corresponding to the correct candidate to the management unit;
The management unit
A speech recognition result receiving unit for receiving speech recognition results for the re-learning signal from all speech recognition server devices;
Setting information for updating setting information, which is information related to the voice recognition setting of the selected voice recognition server device, based on the similarity between each voice recognition result received from all the voice recognition server devices and the correct answer candidate Update section,
A setting information transmitting unit that transmits the updated setting information to the selected voice recognition server device;
Each of the voice recognition server devices
When receiving the setting information, the voice recognition system changes the voice recognition setting of the own device based on the received setting information.
前記クライアント装置は、
前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する受信部と、
ユーザの動作に関連して入力された文字列を正解候補として抽出する正解候補抽出部と、
前記正解候補と、前記正解候補に対応する音響信号である再学習信号の組を前記管理部に送信する送信部と、
前記収音条件を抽出するために予め設定されている値であるしきい値を変更するしきい値変更部を含み、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号に対する音声認識結果を受信する音声認識結果受信部と、
前記全ての音声認識サーバ装置から受信した各音声認識結果と前記正解候補との類似度に基づいて、前記しきい値を更新するしきい値更新部と、
前記更新されたしきい値を前記クライアント装置に送信するしきい値送信部を含む
音声認識システム。 A voice recognition system including a client device, a plurality of voice recognition server devices, and a management unit,
The client device is
A receiving unit that receives a speech recognition result for an acoustic signal input to the client device from a speech recognition server device selected based on the sound collection condition;
A correct candidate extraction unit that extracts a character string input in relation to the user's action as a correct candidate;
A transmitting unit that transmits a set of the correct candidate and a relearning signal that is an acoustic signal corresponding to the correct candidate to the management unit;
A threshold value changing unit that changes a threshold value that is a preset value for extracting the sound pickup condition;
The management unit
A speech recognition result receiving unit for receiving speech recognition results for the re-learning signal from all speech recognition server devices;
A threshold update unit that updates the threshold based on the similarity between each voice recognition result received from all the voice recognition server devices and the correct answer candidate;
A speech recognition system including a threshold value transmission unit that transmits the updated threshold value to the client device.
前記正解候補抽出部は、
前記ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出し、
前記送信部は、
前記繰り返し信号群のうち最後の信号以外の何れかの信号のうち少なくとも一つの信号を前記再学習信号として送信する
音声認識システム。 The speech recognition system according to any one of claims 1 to 3,
The correct candidate extraction unit
Obtaining a repetitive signal group that is a signal group in which multiple repetitions of utterances indicating the same content by the user are observed, and extracting the speech recognition result of the last signal of the repetitive signal group as a correct candidate,
The transmitter is
A speech recognition system that transmits at least one signal of the repetitive signal group other than the last signal as the relearning signal.
前記クライアント装置は、
前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信するステップと、
ユーザの動作に関連して入力された文字列を正解候補として抽出するステップと、
前記正解候補と、前記正解候補に対応する音響信号である再学習信号の組を前記管理部に送信するステップを実行し、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号に対する音声認識結果を受信するステップと、
前記全ての音声認識サーバ装置から受信した各音声認識結果と前記正解候補との類似度に基づいて、前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係に関する情報である送信先情報を更新するステップと、
前記更新された送信先情報を前記クライアント装置に送信するステップを実行し、
前記クライアント装置は、
前記送信先情報に基づいて、前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係を変更するステップを実行する
音声認識方法。 A voice recognition method executed by a client device, a plurality of voice recognition server devices, and a management unit,
The client device is
Receiving a speech recognition result for an acoustic signal input to the client device from a speech recognition server device selected based on the sound collection condition;
Extracting a character string input in relation to the user's action as a correct candidate;
Performing a step of transmitting a set of the correct candidate and a relearning signal that is an acoustic signal corresponding to the correct candidate to the management unit;
The management unit
Receiving speech recognition results for the relearning signal from all speech recognition server devices;
It is information related to the relationship between the voice recognition server device that is the transmission destination of the acoustic signal and the sound collection condition based on the similarity between each voice recognition result received from all the voice recognition server devices and the correct answer candidate. Updating the destination information;
Performing the step of transmitting the updated destination information to the client device;
The client device is
A speech recognition method for executing a step of changing a relationship between a speech recognition server device serving as a transmission destination of the acoustic signal and the sound collection condition based on the transmission destination information.
前記クライアント装置は、
前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信するステップと、
ユーザの動作に関連して入力された文字列を正解候補として抽出するステップと、
前記正解候補と、前記正解候補に対応する音響信号である再学習信号の組を前記管理部に送信するステップを実行し、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号に対する音声認識結果を受信するステップと、
前記全ての音声認識サーバ装置から受信した各音声認識結果と前記正解候補との類似度に基づいて、前記選択された音声認識サーバ装置の音声認識の設定に関する情報である設定情報を更新するステップと、
前記更新された設定情報を前記選択された音声認識サーバ装置に送信するステップを実行し、
前記音声認識サーバ装置のそれぞれは、
前記設定情報を受信した場合に、前記受信した設定情報に基づいて自装置の音声認識の設定を変更するステップを実行する
音声認識方法。 A voice recognition method executed by a client device, a plurality of voice recognition server devices, and a management unit,
The client device is
Receiving a speech recognition result for an acoustic signal input to the client device from a speech recognition server device selected based on the sound collection condition;
Extracting a character string input in relation to the user's action as a correct candidate;
Performing a step of transmitting a set of the correct candidate and a relearning signal that is an acoustic signal corresponding to the correct candidate to the management unit;
The management unit
Receiving speech recognition results for the relearning signal from all speech recognition server devices;
Updating setting information, which is information related to voice recognition settings of the selected voice recognition server device, based on the similarity between each voice recognition result received from all the voice recognition server devices and the correct answer candidate; ,
Executing the step of transmitting the updated setting information to the selected voice recognition server device;
Each of the voice recognition server devices
A voice recognition method for executing a step of changing a voice recognition setting of the own apparatus based on the received setting information when the setting information is received.
前記クライアント装置は、
前記クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信するステップと、
ユーザの動作に関連して入力された文字列を正解候補として抽出するステップと、
前記正解候補と、前記正解候補に対応する音響信号である再学習信号の組を前記管理部に送信するステップを実行し、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号に対する音声認識結果を受信するステップと、
前記全ての音声認識サーバ装置から受信した各音声認識結果と前記正解候補との類似度に基づいて、前記収音条件を抽出するために予め設定されている値であるしきい値を更新するステップと、
前記更新されたしきい値を前記クライアント装置に送信するステップを実行し、
前記クライアント装置は、
前記しきい値を変更するステップを実行する
音声認識方法。 A voice recognition method executed by a client device, a plurality of voice recognition server devices, and a management unit,
The client device is
Receiving a speech recognition result for an acoustic signal input to the client device from a speech recognition server device selected based on the sound collection condition;
Extracting a character string input in relation to the user's action as a correct candidate;
Performing a step of transmitting a set of the correct candidate and a relearning signal that is an acoustic signal corresponding to the correct candidate to the management unit;
The management unit
Receiving speech recognition results for the relearning signal from all speech recognition server devices;
A step of updating a threshold value, which is a value set in advance for extracting the sound pickup condition, based on the similarity between each voice recognition result received from all the voice recognition server devices and the correct answer candidate When,
Performing the step of transmitting the updated threshold to the client device;
The client device is
A speech recognition method for executing the step of changing the threshold value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015061835A JP6273227B2 (en) | 2015-03-25 | 2015-03-25 | Speech recognition system, speech recognition method, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015061835A JP6273227B2 (en) | 2015-03-25 | 2015-03-25 | Speech recognition system, speech recognition method, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016180918A true JP2016180918A (en) | 2016-10-13 |
JP6273227B2 JP6273227B2 (en) | 2018-01-31 |
Family
ID=57131821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015061835A Active JP6273227B2 (en) | 2015-03-25 | 2015-03-25 | Speech recognition system, speech recognition method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6273227B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020509397A (en) * | 2017-01-18 | 2020-03-26 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Estimation of symbol sequence in speech |
JP2021012545A (en) * | 2019-07-05 | 2021-02-04 | 東芝映像ソリューション株式会社 | Electronic apparatus, program and selection method of search service |
JPWO2019215780A1 (en) * | 2018-05-07 | 2021-05-20 | 日本電気株式会社 | Identification system, model re-learning method and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0836480A (en) * | 1994-07-22 | 1996-02-06 | Hitachi Ltd | Information processor |
JP2004054270A (en) * | 2002-07-16 | 2004-02-19 | Internatl Business Mach Corp <Ibm> | Method of determining speech recognition accuracy |
JP2006215315A (en) * | 2005-02-04 | 2006-08-17 | Kddi Corp | Speech recognition device, speech recognition terminal device, speech recognition system and computer program |
JP2011090100A (en) * | 2009-10-21 | 2011-05-06 | National Institute Of Information & Communication Technology | Speech translation system, controller, speech recognition device, translation device, and speech synthesizer |
-
2015
- 2015-03-25 JP JP2015061835A patent/JP6273227B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0836480A (en) * | 1994-07-22 | 1996-02-06 | Hitachi Ltd | Information processor |
JP2004054270A (en) * | 2002-07-16 | 2004-02-19 | Internatl Business Mach Corp <Ibm> | Method of determining speech recognition accuracy |
JP2006215315A (en) * | 2005-02-04 | 2006-08-17 | Kddi Corp | Speech recognition device, speech recognition terminal device, speech recognition system and computer program |
JP2011090100A (en) * | 2009-10-21 | 2011-05-06 | National Institute Of Information & Communication Technology | Speech translation system, controller, speech recognition device, translation device, and speech synthesizer |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020509397A (en) * | 2017-01-18 | 2020-03-26 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Estimation of symbol sequence in speech |
US11145308B2 (en) | 2017-01-18 | 2021-10-12 | International Business Machines Corporation | Symbol sequence estimation in speech |
JPWO2019215780A1 (en) * | 2018-05-07 | 2021-05-20 | 日本電気株式会社 | Identification system, model re-learning method and program |
JP7001150B2 (en) | 2018-05-07 | 2022-01-19 | 日本電気株式会社 | Identification system, model re-learning method and program |
US11423647B2 (en) | 2018-05-07 | 2022-08-23 | Nec Corporation | Identification system, model re-learning method and program |
JP2021012545A (en) * | 2019-07-05 | 2021-02-04 | 東芝映像ソリューション株式会社 | Electronic apparatus, program and selection method of search service |
JP7227093B2 (en) | 2019-07-05 | 2023-02-21 | Tvs Regza株式会社 | How to select electronic devices, programs and search services |
Also Published As
Publication number | Publication date |
---|---|
JP6273227B2 (en) | 2018-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
JP5072206B2 (en) | Hidden conditional random field model for speech classification and speech recognition | |
US20140337024A1 (en) | Method and system for speech command detection, and information processing system | |
WO2020237769A1 (en) | Accompaniment purity evaluation method and related device | |
CN105609097A (en) | Speech synthesis apparatus and control method thereof | |
KR101888058B1 (en) | The method and apparatus for identifying speaker based on spoken word | |
EP3989217A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
JP6389787B2 (en) | Speech recognition system, speech recognition method, program | |
JP6320963B2 (en) | Voice recognition system, client device, voice recognition method, program | |
KR20180012639A (en) | Voice recognition method, voice recognition device, apparatus comprising Voice recognition device, storage medium storing a program for performing the Voice recognition method, and method for making transformation model | |
JP6273227B2 (en) | Speech recognition system, speech recognition method, program | |
CN111868823A (en) | Sound source separation method, device and equipment | |
WO2018163279A1 (en) | Voice processing device, voice processing method and voice processing program | |
JPWO2014049944A1 (en) | Audio processing device, audio processing method, audio processing program, and noise suppression device | |
JP6320962B2 (en) | Speech recognition system, speech recognition method, program | |
JP2019008131A (en) | Speaker determination device, speaker determination information generation method, and program | |
CN105895079A (en) | Voice data processing method and device | |
JP6216809B2 (en) | Parameter adjustment system, parameter adjustment method, program | |
JP5852550B2 (en) | Acoustic model generation apparatus, method and program thereof | |
CN113658581B (en) | Acoustic model training method, acoustic model processing method, acoustic model training device, acoustic model processing equipment and storage medium | |
JP6526602B2 (en) | Speech recognition apparatus, method thereof and program | |
JP7176629B2 (en) | Discriminative model learning device, discriminating device, discriminative model learning method, discriminating method, program | |
CN108364654B (en) | Voice processing method, medium, device and computing equipment | |
JP6693340B2 (en) | Audio processing program, audio processing device, and audio processing method | |
JP5877823B2 (en) | Speech recognition apparatus, speech recognition method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6273227 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |