JP2005062572A - Speech recognition apparatus - Google Patents

Speech recognition apparatus Download PDF

Info

Publication number
JP2005062572A
JP2005062572A JP2003293836A JP2003293836A JP2005062572A JP 2005062572 A JP2005062572 A JP 2005062572A JP 2003293836 A JP2003293836 A JP 2003293836A JP 2003293836 A JP2003293836 A JP 2003293836A JP 2005062572 A JP2005062572 A JP 2005062572A
Authority
JP
Japan
Prior art keywords
frame
loss
feature data
frames
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003293836A
Other languages
Japanese (ja)
Other versions
JP3965141B2 (en
Inventor
Toshiki Endo
俊樹 遠藤
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2003293836A priority Critical patent/JP3965141B2/en
Publication of JP2005062572A publication Critical patent/JP2005062572A/en
Application granted granted Critical
Publication of JP3965141B2 publication Critical patent/JP3965141B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a speech recognition apparatus for relatively highly exactly recognizing speech even when large loss is present in a sequence of feature parameters of a speech. <P>SOLUTION: The speech recognition apparatus includes an input buffer 30 which receives a speech data frame, a frame buffer 36 which stores frames in the order of frame numbers, a frame loss detection part 32 which detects the occurrence of frame loss, a feature parameter estimation part 34 which estimates feature data of frames as many as loss frames on the basis of feature data in the frame buffer 36 and frame order information and inserts the estimated feature data into the prescribed position in the frame buffer 36, and a speech recognition part 38 which reads frames out of the feature parameter estimation part 34 in order to perform speech recognition. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

この発明は音声認識技術に関し、特に、特徴ベクトルに変換後、パケット形式で伝送される音声信号においてパケットロスが生じた際にも高い精度で音声認識可能な音声認識装置に関する。   The present invention relates to a speech recognition technology, and more particularly to a speech recognition apparatus capable of performing speech recognition with high accuracy even when packet loss occurs in a speech signal transmitted in a packet format after being converted into a feature vector.

音声認識技術の発達並びに携帯電話及びPDA(Personal Digital Assistant)等の携帯端末の普及に伴い、携帯端末を用いた音声認識サービスが今後広く使われることが予想される。一方、携帯端末においては利用可能なリソース(処理能力、電源)などが限られている。携帯端末での消費電力又は処理量を抑制し、音声コーデック処理への影響をなくすことが望ましい。そのため、欧州電気通信標準化機構(ETSI:European Telecommunications Standards Institute)では、分散型音声認識(DSR:Distributed Speech Recognition)が標準化された。   With the development of voice recognition technology and the spread of mobile terminals such as mobile phones and PDAs (Personal Digital Assistants), it is expected that voice recognition services using mobile terminals will be widely used in the future. On the other hand, available resources (processing capacity, power source) and the like are limited in portable terminals. It is desirable to suppress the power consumption or processing amount in the portable terminal and eliminate the influence on the voice codec processing. For this reason, the Distributed Telecommunications Recognition (DSR) has been standardized by the European Telecommunications Standards Institute (ETSI).

DSR方式では、携帯端末で音響分析処理を行ない、分析データを音声認識サーバに送信する。サーバでこの分析データに基づく音声認識処理を実行する。   In the DSR method, acoustic analysis processing is performed on a portable terminal, and analysis data is transmitted to a voice recognition server. The server executes speech recognition processing based on the analysis data.

DSRシステムの機能構成を図8にブロック図形式で示す。図8を参照して、このシステムは、携帯端末からなり、入力される音声信号の音響分析処理を行なって符号化された分析データをパケット形式で送信するクライアント端末180と、このパケット形式の分析データを受信して復号化し、復号化した分析データに対して音声認識を行なう音声認識サーバ182とを含む。音声認識サーバ182の出力は他のサービス(例えば翻訳サービス、自動応答サービスなど)に与えられる。   The functional configuration of the DSR system is shown in block diagram form in FIG. Referring to FIG. 8, this system is composed of a mobile terminal, and performs analysis of the sound of the input audio signal and transmits the encoded analysis data in packet format, and analysis of this packet format. A voice recognition server 182 that receives and decodes the data, and performs voice recognition on the decoded analysis data. The output of the speech recognition server 182 is given to other services (for example, translation service, automatic response service, etc.).

クライアント端末180は、音声信号に対して音響分析を行ない、所定の形式の特徴パラメータ(特徴データ)を抽出するための特徴パラメータ抽出部190と、特徴パラメータ抽出部190から出力された特徴パラメータに対して圧縮処理を行なう圧縮部192と、圧縮部192により圧縮された特徴パラメータ(以下、「圧縮特徴パラメータ」と呼ぶ。)に対し誤り訂正符号等を付す符号化を行ない、パケットのペイロードに格納し送信するための符号化処理部194とを含む。   The client terminal 180 performs acoustic analysis on the audio signal, extracts a feature parameter (feature data) of a predetermined format, and the feature parameter output from the feature parameter extraction unit 190 The compression unit 192 that performs compression processing, and the feature parameter compressed by the compression unit 192 (hereinafter referred to as “compression feature parameter”) is encoded with an error correction code or the like, and stored in the packet payload. And an encoding processing unit 194 for transmission.

音声認識サーバ182は、受信したパケットのペイロードに含まれる誤り訂正符号を復号化することで圧縮特徴パラメータを復元する復号化処理部200と、復号化処理部200により復元された圧縮特徴パラメータを伸張することにより、音響分析結果の特徴パラメータを復元する伸張処理部202と、伸張処理部202により復元された特徴パラメータを入力として受けて音声認識を行なうための認識処理部204とを含む。   The speech recognition server 182 decodes the error correction code included in the payload of the received packet to restore the compression feature parameter, and decompresses the compression feature parameter restored by the decoding processing unit 200 Thus, a decompression processing unit 202 that restores the feature parameter of the acoustic analysis result and a recognition processing unit 204 that receives the feature parameter restored by the decompression processing unit 202 as input and performs speech recognition.

最近のいわゆるインターネットの利用の広がりに伴い、クライアント端末180から音声認識サーバ182への通信はインターネット上に構築されたIP(Internet Protocol)ネットワークを介して行なわれることが多くなり、今後さらに一般的になると思われる。   With the recent spread of so-called Internet use, communication from the client terminal 180 to the voice recognition server 182 is often performed via an IP (Internet Protocol) network built on the Internet, and will be more generally used in the future. It seems to be.

DSRサービスにおいて、ユーザとサーバ間の音声対話を想定した場合、短い伝播遅延が望まれる。従ってDSRにおける音声データの送受信には、リアルタイム性を実現するRTP(Real Time Protocol)/UDP(User Datagram Protocol)/IPが適していると考えられる。インターネット技術の標準化団体であるIETF(The Internet Engineering Task Force)のAVT(Audio/Visual Transport)ワーキンググループでは、DSR向けのRTPパケット構成に関し勧告が出された。   In the DSR service, when a voice conversation between a user and a server is assumed, a short propagation delay is desired. Therefore, it is considered that RTP (Real Time Protocol) / UDP (User Datagram Protocol) / IP which realizes real-time performance is suitable for transmission / reception of audio data in DSR. In the AETF (Audio / Visual Transport) working group of IETF (The Internet Engineering Task Force), which is an Internet technology standardization organization, a recommendation was made regarding the RTP packet configuration for DSR.

しかし、RTP/UDP/IPを用いた送受信では、リアルタイム性を確保するために、何らかの原因でパケットが送信先に届かなかった場合でもパケットの再送は行なわない。たとえばパケットが輻輳した場合、ルータがパケットを破棄することがあるが、そのような場合にRTP/UDP/IPではそのパケットが再送されることはない。そのため、パケットロスが生じる。DSRにRTP/UDP/IPを用いるとパケットロスにより音声データのロスが生じることになる。また、そうしたパケットロスはバースト的に生じることが知られている。   However, in transmission / reception using RTP / UDP / IP, in order to ensure real-time performance, even if the packet does not reach the transmission destination for some reason, the packet is not retransmitted. For example, when a packet is congested, the router may discard the packet. In such a case, the packet is not retransmitted by RTP / UDP / IP. Therefore, packet loss occurs. When RTP / UDP / IP is used for DSR, voice data is lost due to packet loss. It is known that such packet loss occurs in a burst manner.

この問題を解決することを目的とした提案が、後掲の非特許文献1〜3においてなされている。   Proposals aimed at solving this problem have been made in Non-Patent Documents 1 to 3 below.

遠藤、中村、「分散型認識システムでのデータ補完に関する一検討」、音響学会講演論文集、1−4−9,pp.17−18,2003年3月.Endo and Nakamura, “A Study on Data Complementation in a Distributed Recognition System”, Proc. Of Acoustical Society, 1-4-9, pp. 17-18, March 2003. ミルナー B.、セムナニ S.、「IPネットワーク上での頑健な音声認識」、IEEE ICASSP予稿集、pp.261−264、2000年6月.(Millner,G. and Semnani S.,”Robust speech recognition over IP networks”,Proc.IEEE ICASSP,pp.1791−1794,June 2000.Milner B.B. Semnani S. "Robust voice recognition on IP network", IEEE ICASSP proceedings, pp. 261-264, June 2000. (Millner, G. and Seminani S., “Robust spec recognition over IP networks”, Proc. IEEE ICASSP, pp. 1791-1794, June 2000. ミルナー B.,「バースト的パケットロスにおける頑健な音声認識」、IEEE ICASSP予稿集、pp.261−264、2001年5月(Millner B.,”Robust speech recognition in burst−like packet loss”,Proc.IEEE ICASSP,pp.261−264,May 2001).Milner B.B. , “Robust voice recognition in bursty packet loss”, IEEE ICASSP proceedings, pp. 261-264, May 2001 (Millner B., “Robust speech recognition in burst-like packet loss”, Proc. IEEE ICASSP, pp. 261-264, May 2001).

非特許文献1〜3では、パケットロスの生じた区間を代替値で補完したデータを用いて音声認識をするデータ補完法に関する検討及び実験が行なわれている。しかし、パケットロス率が大きい場合、又はパケットロス長が長い場合には、これらの方法では認識劣化を十分に補うことができない。   In Non-Patent Documents 1 to 3, studies and experiments on a data complementing method for performing speech recognition using data obtained by complementing a section in which a packet loss occurs with an alternative value are performed. However, when the packet loss rate is large or the packet loss length is long, these methods cannot sufficiently compensate for the recognition degradation.

それゆえに本発明の目的は、音声の特徴パラメータのシーケンス中に大きなロスが存在する場合でも比較的高い精度で音声認識を行なうことができる音声認識装置を提供することである。   Therefore, an object of the present invention is to provide a speech recognition apparatus capable of performing speech recognition with relatively high accuracy even when a large loss exists in a sequence of speech feature parameters.

この発明の他の目的は、バースト型のパケットロスが生じた場合でも比較的高い精度で音声認識を行なうことができる、サーバ型の音声認識装置を提供することである。   Another object of the present invention is to provide a server type speech recognition apparatus capable of performing speech recognition with relatively high accuracy even when a burst type packet loss occurs.

本発明の第1の局面に係る音声認識装置は、音声の特徴データとフレームの時間的順序を示すフレーム順序情報とを含むフレームを受信するためのフレーム受信手段と、フレーム受信手段により受信されたフレームをフレーム順序情報と関連付けて記憶するためのフレーム記憶手段と、フレーム受信手段に接続され、フレーム順序情報に基づいてフレームロスが発生したことを検出し、さらに当該フレームロスにより失われたフレームのフレーム位置を検出するためのフレームロス検出手段とを含む。音声認識装置はさらに、フレームロス検出手段によりフレームロスの発生が検出されたことに応答して、フレームロス検出手段によりロスが検出されたフレームの数だけのフレームの特徴データを、フレーム記憶手段に記憶されているフレームに含まれる特徴データ及びフレーム順序情報に基づいて個別に推定し、推定された特徴データを含むフレームを生成し、フレーム記憶手段内の、当該生成されたフレームのフレーム順序情報により定まるフレーム位置に挿入するための特徴データ推定手段と、フレーム記憶手段からフレームをフレーム順序情報に従った順序で読出して各フレームに含まれる特徴データに対する音声認識を行なうための音声認識手段とを含む。   A speech recognition apparatus according to a first aspect of the present invention includes a frame receiving unit for receiving a frame including voice feature data and frame order information indicating a temporal order of frames, and the frame receiving unit receives the frame. A frame storage means for storing the frame in association with the frame order information, and a frame receiving means for detecting that a frame loss has occurred based on the frame order information, and for detecting a frame lost due to the frame loss. Frame loss detecting means for detecting the frame position. The speech recognition apparatus further responds to the detection of the occurrence of the frame loss by the frame loss detection means, and stores the feature data of the frames as many as the number of frames detected by the frame loss detection means in the frame storage means. Based on the feature data and the frame order information included in the stored frame, individually estimated, a frame including the estimated feature data is generated, and the frame order information of the generated frame in the frame storage means is used. Feature data estimation means for inserting at a predetermined frame position, and voice recognition means for reading out the frames from the frame storage means in the order according to the frame order information and performing voice recognition on the feature data included in each frame. .

好ましくは、特徴データ推定手段は、第1のフレーム数を記憶するための第1のフレーム数記憶手段と、第1のフレーム数記憶手段に接続され、フレーム記憶手段に記憶されたフレームのうち、フレームロス検出手段により検出されたフレームロスの前の第1のフレーム数のフレームの特徴データをフレーム記憶手段から読出すための前フレーム読出手段と、前フレーム読出手段により読出された第1の数のフレームの特徴データに基づいて、フレームロス検出手段により検出されたフレームロス中の各フレームに含まれる特徴データを推定するための推定手段と、推定された特徴データを含むフレームを生成し、フレーム記憶手段内の、当該生成されたフレームのフレーム順序情報により定まるフレーム位置に挿入するためのフレーム挿入手段とを含む。   Preferably, the feature data estimation means is connected to the first frame number storage means for storing the first frame number and the first frame number storage means, and among the frames stored in the frame storage means, A previous frame reading means for reading out the frame feature data of the first frame number before the frame loss detected by the frame loss detecting means from the frame storage means, and a first number read by the previous frame reading means Based on the feature data of the frame, an estimation unit for estimating the feature data included in each frame in the frame loss detected by the frame loss detection unit, and a frame including the estimated feature data are generated. Frame insertion for insertion at a frame position determined by the frame order information of the generated frame in the storage means And a stage.

特徴データ推定手段はさらに、第2のフレーム数を記憶するための第2のフレーム数記憶手段と、第2のフレーム数記憶手段に接続され、フレーム記憶手段に記憶されたフレームのうち、フレームロス検出手段により検出されたフレームロスの後の第2の数のフレーム数のフレームの特徴データをフレーム記憶手段から読出すための後フレーム読出手段とを含んでもよい。推定手段は、前フレーム読出手段により読出された第1の数のフレームの特徴データ、及び後フレーム読出手段により読出された第2の数のフレームの特徴データに基づいて、フレームロス検出手段により検出されたフレームロス中の各フレームに含まれる特徴データを推定するための手段を含んでもよい。   The feature data estimation means is further connected to the second frame number storage means for storing the second number of frames and the second frame number storage means. Among the frames stored in the frame storage means, the frame loss And a post-frame reading unit for reading out feature data of the second number of frames after the frame loss detected by the detection unit from the frame storage unit. The estimation means is detected by the frame loss detection means based on the feature data of the first number of frames read by the previous frame reading means and the feature data of the second number of frames read by the subsequent frame reading means. Means may be included for estimating feature data included in each frame in the generated frame loss.

さらに好ましくは、フレームロス検出手段により検出された失われたフレームの数と所定のしきい値とを比較し、第1のフレーム数記憶手段に記憶されている第1のフレーム数、又は第2のフレーム数記憶手段に記憶されている第2のフレーム数、又はその双方を比較結果に従って定まる所定の更新方法に従って更新するための更新手段を含む。   More preferably, the number of lost frames detected by the frame loss detection means is compared with a predetermined threshold value, and the first frame number stored in the first frame number storage means or the second Update means for updating the second frame number stored in the frame number storage means or both in accordance with a predetermined update method determined according to the comparison result.

更新手段は、フレームロス検出手段により検出された失われたフレームの数と所定のしきい値とを比較し、第1のフレーム数記憶手段に記憶されている第1のフレーム数、又は第2のフレーム数記憶手段に記憶されている第2のフレーム数、又はその双方に、比較結果に従って定まる所定の定数を加算して更新するための手段を含んでもよい。   The update means compares the number of lost frames detected by the frame loss detection means with a predetermined threshold value, and compares the first frame number stored in the first frame number storage means, or the second A means for adding a predetermined constant determined according to the comparison result to the second frame number stored in the frame number storage means or both of them may be included.

好ましくは、所定の定数は失われたフレームの数がしきい値を超えている場合には正の定数であり、それ以外の場合には負の定数である。又は、所定の定数は失われたフレームの数がしきい値を超えている場合には負の定数であり、それ以外の場合には正の定数である。   Preferably, the predetermined constant is a positive constant if the number of lost frames exceeds a threshold value, and is a negative constant otherwise. Alternatively, the predetermined constant is a negative constant when the number of lost frames exceeds a threshold value, and is a positive constant otherwise.

好ましくは、推定するための手段は、次の式によって失われたフレームの特徴データを算出し、   Preferably, the means for estimating calculates feature data of the lost frame according to the following equation:

Figure 2005062572
ただしNf及びNbはそれぞれ第1のフレーム数及び第2のフレーム数であり、Xt'f及びXt'bは、フレームロス検出手段により検出されたフレームロスのそれぞれ前のNf個及び後のNb個の特徴データの平均からなる特徴データであり、t'f及びt'bはこれらXt'f及びXt'bに対応するフレーム順序情報を示し、Xt'f及びXt'bは以下の様にして算出され、
Figure 2005062572
However, N f and N b are the first frame number and the second frame number, respectively, and X t′f and X t′b are N f frames before the frame loss detected by the frame loss detecting means, respectively. and a characteristic data consisting of the average of the N b pieces of feature data after, t 'f and t' b represents the frame sequence information corresponding to these X T'f and X t'b, X t'f and X t'b is calculated as follows:

Figure 2005062572
ただしtf及びtbはそれぞれフレームロスが生じた直前及び直後のフレームに対応する時刻を示す。
Figure 2005062572
However, t f and t b indicate times corresponding to the frames immediately before and immediately after the occurrence of the frame loss, respectively.

さらに好ましくは、特徴データ推定手段は、特徴データ推定手段による推定に用いられる第1のフレーム数及び第2のフレーム数を、フレームロスに含まれるフレームの数と対応付けて記憶するためのフレーム数テーブルと、フレーム数テーブル記憶手段に接続され、フレームロス検出手段により検出されたフレームロスに含まれるフレームの数に応じた第1のフレーム数及び第2のフレーム数をフレーム数テーブルより読出し、フレーム記憶手段に記憶されたフレームのうち、フレームロス検出手段により検出されたフレームロスの前の第1のフレーム数のフレームの特徴データと、当該フレームロスの後の第2のフレーム数のフレームの特徴データとをフレーム記憶手段から読出すためのフレーム読出手段と、フレーム読出手段により読出された第1のフレーム数のフレーム及び第2のフレーム数のフレームの特徴データに基づいて、フレームロス検出手段により検出されたフレームロス中の各フレームに含まれる特徴データを推定するための推定手段を含む。   More preferably, the feature data estimation means stores the first frame number and the second frame number used for estimation by the feature data estimation means in association with the number of frames included in the frame loss. A first frame number and a second frame number corresponding to the number of frames included in the frame loss detected by the frame loss detection unit, connected to the table and the frame number table storage unit, and read out from the frame number table; Of the frames stored in the storage means, the feature data of the frame having the first frame number before the frame loss detected by the frame loss detecting means and the feature of the frame having the second frame number after the frame loss are detected. Frame reading means for reading data from the frame storage means, and reading by the frame reading means Estimating means for estimating feature data included in each frame in the frame loss detected by the frame loss detecting means based on the feature data of the first number of frames and the second number of frames including.

本発明の第2の局面に係る音声認識装置は、音声の特徴データとフレームの時間的順序を示すフレーム順序情報とを含むフレームを受信するためのフレーム受信手段と、フレーム受信手段により受信されたフレームをフレーム順序情報と関連付けて記憶するためのフレーム記憶手段と、フレーム受信手段に接続され、フレーム順序情報に基づいてフレームロスが発生したことを検出し、さらに当該フレームロスにより失われたフレームのフレーム位置を検出するためのフレームロス検出手段と、フレーム記憶手段からフレームをフレーム順序情報に従った順序で読出して各フレームに含まれる特徴データに対する音声認識を行なうための音声認識手段とを含み、音声認識手段は、フレームロス検出手段によりフレームロスが検出されているか否かに従って、各状態の出力尤度を算出する手法を選択して出力尤度を算出する、隠れマルコフモデル(Hidden Markov Model:HMM)によって音声を認識するための手段を含む。   The speech recognition apparatus according to the second aspect of the present invention receives a frame including speech feature data and frame order information indicating the temporal order of frames, and received by the frame receiving means. A frame storage means for storing the frame in association with the frame order information, and a frame receiving means for detecting that a frame loss has occurred based on the frame order information, and for detecting a frame lost due to the frame loss. Frame loss detection means for detecting a frame position; and voice recognition means for reading the frames from the frame storage means in the order according to the frame order information and performing voice recognition on the feature data included in each frame, Whether the voice recognition means has detected a frame loss by the frame loss detection means. According to whether, by selecting the method of calculating the output likelihood of each state is calculated the output likelihood, Hidden Markov Models: comprising means for recognizing speech by (Hidden Markov Model HMM).

好ましくは、HMMによって音声を認識するための手段は、フレームロス検出手段によりフレームロスが検出されていないときには   Preferably, the means for recognizing the voice by the HMM is when the frame loss is not detected by the frame loss detecting means.

Figure 2005062572
によってHMMの各状態Stにおける出力尤度p(Xt|St)を算出し、ただしMはHMMの各ノードを構成するガウス混合分布の混合数を表し、wjは当該ガウス混合分布の混合要素jの混合重みを表し、tは順序情報を表し、N(Xt;μj,σj 2)はt番目のフレームXtの入力特徴データに対する単変量ガウス分布関数を表し、混合要素jは分散σj 2及び平均μjを持ち、フレームロス検出手段によりフレームロスが検出されているときには
Figure 2005062572
To calculate the output likelihood p (X t | S t ) in each state S t of the HMM, where M represents the number of Gaussian mixture distributions constituting each node of the HMM, and w j represents the Gaussian mixture distribution. Represents the mixing weight of the mixing element j, t represents order information, N (X t ; μ j , σ j 2 ) represents a univariate Gaussian distribution function for the input feature data of the t th frame X t , and the mixing element j has variance σ j 2 and average μ j , and when the frame loss is detected by the frame loss detection means

Figure 2005062572
ただしCは予め定められた定数、によりHMMの各状態Stにおける出力尤度p(Xt|St)を算出する。
Figure 2005062572
However, C is a predetermined constant, and the output likelihood p (X t | S t ) in each state S t of the HMM is calculated.

以下、本発明の第1の実施の形態及びその変形例、並びに第2の実施の形態について説明する。各実施の形態については、最初に構成を述べ、次に動作を述べる。第1の実施の形態及び第2の実施の形態はいずれもMissing Feature Theory(MFT)と呼ばれる理論に基づいて音声認識を行なう。なお、以下の説明において、音声認識に必要な特徴パラメータ(特徴データ)はRTP/UDPで送信されるものとする。特徴パラメータは所定長(例えば50バイト)のフレーム単位で構成され、UDPのペイロードに複数フレームが格納されている。各RTPパケットには通し番号が付されている。また、UDPデータグラムのヘッダには、そのパケットのペイロードサイズが格納されている。   Hereinafter, the first embodiment of the present invention, its modification, and the second embodiment will be described. For each embodiment, the configuration will be described first, and then the operation will be described. In both the first embodiment and the second embodiment, speech recognition is performed based on a theory called Missing Feature Theory (MFT). In the following description, it is assumed that feature parameters (feature data) necessary for speech recognition are transmitted by RTP / UDP. The characteristic parameters are configured in units of frames having a predetermined length (for example, 50 bytes), and a plurality of frames are stored in the UDP payload. A serial number is assigned to each RTP packet. The header of the UDP datagram stores the payload size of the packet.

[第1の実施の形態]
‐構成‐
図1に、本発明の第1の実施の形態に係るサーバ‐クライアント型音声認識システムで使用される音声認識サーバ20のブロック図を示す。この第1の実施の形態に係る音声認識サーバ20は、MFTの中でもデータ補間法を用いて、パケットロスがあった場合の音声認識を行なう。
[First Embodiment]
-Constitution-
FIG. 1 shows a block diagram of a speech recognition server 20 used in the server-client speech recognition system according to the first embodiment of the present invention. The voice recognition server 20 according to the first embodiment performs voice recognition when there is a packet loss using the data interpolation method in the MFT.

図1を参照して、音声認識サーバ20は、インターネット網に接続され、この音声認識サーバ20を送信先として送信されてくるパケットを受信して一時蓄積するための入力バッファ30と、入力バッファ30中のUDPから取出される特徴パラメータのフレームをフレーム番号と関連付けて格納するフレームバッファ36とを含む。フレーム番号はフレームの時間的順序を示す順序情報である。本実施の形態ではフレームバッファ36はフレーム番号順にフレームを格納する。   Referring to FIG. 1, a speech recognition server 20 is connected to the Internet network. An input buffer 30 for receiving and temporarily storing packets transmitted with the speech recognition server 20 as a transmission destination, and an input buffer 30 And a frame buffer 36 for storing the frame of the characteristic parameter retrieved from the UDP in association with the frame number. The frame number is order information indicating the temporal order of frames. In the present embodiment, the frame buffer 36 stores frames in the order of frame numbers.

音声認識サーバ20はさらに、入力バッファ30が受信した一連のパケットにパケットロスが生じているか否かを検出し、さらにパケットロスにより失われたフレームの位置及び数を算出し、フレームロスが生じていることと、どのフレームが失われているかとを示すフレームロス検出信号を出力するためのフレームロス検出部32と、フレームロス検出部32によってフレームロスがあったことが検出されたことに応答して、フレームバッファ36に格納されているフレームに含まれている特徴パラメータを用いたデータ補間法によって失われた各フレームの特徴パラメータを推定し、フレームバッファ36内のその失われたフレームに相当する所定の位置に、補間された特徴データからなるフレームを挿入する処理を行なうための特徴パラメータ推定部34と、フレームバッファ36に格納されている特徴パラメータを順番に読出して音声認識を行なう音声認識部38とを含む。この音声認識部38は、従来技術で使用されているものと同一のものでよい。   The voice recognition server 20 further detects whether or not a packet loss has occurred in a series of packets received by the input buffer 30, and further calculates the position and number of frames lost due to the packet loss. And a frame loss detection unit 32 for outputting a frame loss detection signal indicating which frame is lost, and responding to the frame loss detection unit 32 detecting that there is a frame loss. Then, the feature parameter of each frame lost by the data interpolation method using the feature parameter included in the frame stored in the frame buffer 36 is estimated, and it corresponds to the lost frame in the frame buffer 36. A feature parameter for processing to insert a frame consisting of interpolated feature data at a predetermined position. Includes a meter estimator 34, the feature parameter stored in the frame buffer 36 is read sequentially and the speech recognition unit 38 for performing speech recognition. This voice recognition unit 38 may be the same as that used in the prior art.

図2は、フレームロス検出部32の詳細なブロック図である。図2を参照して、フレームロス検出部32は、入力バッファ30に一時蓄積されたUDPデータグラム中に含まれるRTPヘッダを抽出し、RTPシーケンス番号を調べることによりパケットロスが生じているか否か、及び失われたパケット数がいくつかを検知するためのロスパケット数検知部50と、入力バッファ30に一時蓄積されたUDPデータグラム中のUDPヘッダからペイロードサイズを読出すためのペイロードサイズ読出部52とを含む。   FIG. 2 is a detailed block diagram of the frame loss detection unit 32. Referring to FIG. 2, the frame loss detection unit 32 extracts the RTP header included in the UDP datagram temporarily stored in the input buffer 30, and checks the RTP sequence number to determine whether or not a packet loss has occurred. , And a lost packet number detector 50 for detecting the number of lost packets, and a payload size reading unit for reading the payload size from the UDP header in the UDP datagram temporarily stored in the input buffer 30 52.

フレームロス検出部32はさらに、ロスパケット数検知部50により検知されたロスパケット数と、ペイロードサイズ読出部52により読出されたUDPデータグラムのペイロードサイズ、及び所定のフレーム長によって、いくつのフレームがパケットロスにより失われたかを算出するためのロスフレーム数算出部54とを含む。ロスフレーム数算出部54は、この算出結果に従って前述したフレームロス検出信号を出力する。   The frame loss detection unit 32 further determines the number of frames depending on the number of lost packets detected by the lost packet number detection unit 50, the payload size of the UDP datagram read by the payload size reading unit 52, and a predetermined frame length. And a lost frame number calculation unit 54 for calculating whether the packet has been lost due to packet loss. The loss frame number calculation unit 54 outputs the frame loss detection signal described above according to the calculation result.

図3は、図1に示す特徴パラメータ推定部34の詳細なブロック図である。図3を参照して、特徴パラメータ推定部34は、補間計算に使用される、それぞれフレームロス前後のフレーム数を記憶する第1及び第2のフレーム数記憶部80及び82を含む。第1のフレーム数記憶部80はフレームロス前のフレームであって補間計算に使用されるフレームの数を記憶する。第2のフレーム数記憶部82はフレームロス後のフレームであって補間計算に使用されるフレームの数を記憶する。   FIG. 3 is a detailed block diagram of the feature parameter estimation unit 34 shown in FIG. Referring to FIG. 3, feature parameter estimation unit 34 includes first and second frame number storage units 80 and 82 that store the number of frames before and after the frame loss, respectively, used for interpolation calculation. The first frame number storage unit 80 stores the number of frames before frame loss and used for interpolation calculation. The second frame number storage unit 82 stores the number of frames after frame loss and used for interpolation calculation.

特徴パラメータ推定部34はさらに、フレームロス検出信号及び第1のフレーム数記憶部80の出力を受け、フレームロスが生じたときに、フレームロス直前の第1のフレーム数記憶部80に記憶された数だけのフレームをフレームバッファ36から読出すための前フレーム読出部70と、同じくフレームロス検出信号及び第2のフレーム数記憶部82の出力を受け、フレームロスが生じたときに、フレームロス直後の第2のフレーム数記憶部82に記憶された数だけのフレームをフレームバッファ36から読出すための後フレーム読出部72とを含む。   The feature parameter estimation unit 34 further receives the frame loss detection signal and the output of the first frame number storage unit 80, and is stored in the first frame number storage unit 80 immediately before the frame loss when a frame loss occurs. The previous frame reading unit 70 for reading the number of frames from the frame buffer 36 and the output of the frame loss detection signal and the second frame number storage unit 82 are also received. And a rear frame reading unit 72 for reading out the same number of frames stored in the second frame number storage unit 82 from the frame buffer 36.

特徴パラメータ推定部34はさらに、フレームロスが検出されたことに応答して、第1のフレーム数記憶部80及び第2のフレーム数記憶部82の出力、並びに前フレーム読出部70及び後フレーム読出部72によってフレームバッファ36から読出されたフレームを受け、後述する計算方法によって、失われたフレームの特徴パラメータを推定するための補間計算部74と、補間計算部74により推定された特徴パラメータからなる補間フレームをフレームバッファ36中の所定位置に挿入する処理を行なう補間フレーム挿入処理部76とを含む。   In response to the detection of the frame loss, the feature parameter estimation unit 34 further outputs the outputs of the first frame number storage unit 80 and the second frame number storage unit 82, and the previous frame reading unit 70 and the subsequent frame reading. An interpolation calculation unit 74 for receiving a frame read from the frame buffer 36 by the unit 72 and estimating a feature parameter of the lost frame by a calculation method described later, and a feature parameter estimated by the interpolation calculation unit 74 And an interpolation frame insertion processing unit 76 for performing processing for inserting the interpolation frame at a predetermined position in the frame buffer 36.

第1のフレーム数記憶部80に記憶されているフレーム数をNf、第2のフレーム数記憶部82に記憶されているフレーム数をNbとする。本実施の形態ではNf及びNbはいずれも通信状態に従って以下の様に更新される。フレームロスの数をNLとする。この数NLがあるしきい値Sを超えていればNf及びNbの両者に定数を加算する。本実施の形態ではこの定数は正の定数1である。NLがしきい値S以下であればNf及びNbの両者から1を減算する。すなわち負の定数−1を加算する。ただし、Nf及びNbの最小値をいずれも0とする。 The number of frames stored in the first frame number storage unit 80 is N f , and the number of frames stored in the second frame number storage unit 82 is N b . In the present embodiment, both N f and N b are updated as follows according to the communication state. Let N L be the number of frame losses. If this number N L exceeds a certain threshold value S, a constant is added to both N f and N b . In the present embodiment, this constant is a positive constant 1. If N L is less than or equal to the threshold value S, 1 is subtracted from both N f and N b . That is, a negative constant −1 is added. However, the minimum values of N f and N b are both 0.

特徴パラメータ推定部34はそのために、上記したしきい値Sを記憶するためのしきい値記憶部84と、しきい値記憶部84に記憶されたしきい値S,第1のフレーム数記憶部80及び第2のフレーム数記憶部82に記憶された数Nf及びNb、並びにフレームロス検出信号により表されたフレームロス数に従ってNf及びNbを更新するための更新処理部78と、しきい値記憶部84に記憶されたしきい値記憶部84を手操作により更新するためのしきい値入力部86とを含む。 For this purpose, the feature parameter estimation unit 34 includes a threshold value storage unit 84 for storing the threshold value S, a threshold value S stored in the threshold value storage unit 84, and a first frame number storage unit. An update processing unit 78 for updating N f and N b in accordance with the numbers N f and N b stored in the 80 and second frame number storage unit 82 and the number of frame losses represented by the frame loss detection signal; And a threshold value input unit 86 for manually updating the threshold value storage unit 84 stored in the threshold value storage unit 84.

補間計算部74が行なう補間計算について説明する。このフレーム補間は、パケットで送信されてくる特徴ベクトルの各要素に対し行なわれる。以下の説明では、特徴ベクトルストリーム中の、時刻tNにおけるベクトルxをx={Xt1,Xt2,…,XtN}で表す。またm番目のフレームが失われたものとする(1≦m≦N)。mは連続した複数の場合もあり得る。 Interpolation calculation performed by the interpolation calculation unit 74 will be described. This frame interpolation is performed for each element of the feature vector transmitted in the packet. In the following description, a vector x at time t N in the feature vector stream is represented by x = {X t1 , X t2 ,..., X tN }. It is assumed that the mth frame is lost (1 ≦ m ≦ N). m may be a plurality of consecutive ones.

補間方法は多数存在するが、受信したデータに基づいてデータ補間を行なうことが有効である。本実施の形態では、図4に示す方法によってデータ補間を行なう。図4を参照して、失われたフレームの特徴ベクトル^Xtmは、t'f<tm<t'bを満足するtmを用いて以下の式に従い推定される。 There are many interpolation methods, but it is effective to perform data interpolation based on the received data. In this embodiment, data interpolation is performed by the method shown in FIG. Referring to FIG. 4, feature vector ^ Xtm of the lost frame by using the t m which satisfies t 'f <tm <t' b are estimated according to the following equation.

Figure 2005062572
ただしXt'f及びXt'bは、失われた特徴ベクトルのそれぞれ前のNf個及び後のNb個の特徴ベクトルの平均ベクトルであり、t'f及びt'bはこれらXt'f及びXt'bに対応する時刻を示す。
Figure 2005062572
However X T'f and X T'b is the mean vector of the N b-number of feature vectors of the previous N f-number and after each missing feature vector, t 'f and t' b These X t The time corresponding to 'f and X t'b is shown.

t'f及びXt'bは以下の様にして算出される。 X t′f and X t′b are calculated as follows.

Figure 2005062572
ただしtf及びtbはそれぞれフレームロスが生じた直前及び直後のフレームに対応する時間を示す。
Figure 2005062572
However t f and t b indicates the time corresponding to the immediately preceding and immediately following frame frame loss has occurred, respectively.

図4に示す例はNf=Nb=3の例を示している。図4において、実線は特徴ベクトルの一要素の値を示し、×印はロスフレーム前後のそれぞれ3つずつのフレームの平均値を表す。○印は式(2)〜(4)を用いて算出された推定値を示す。 The example shown in FIG. 4 shows an example where N f = N b = 3. In FIG. 4, a solid line indicates a value of one element of the feature vector, and a cross indicates an average value of three frames before and after the loss frame. A circle indicates an estimated value calculated using equations (2) to (4).

‐動作‐
図1〜図3に示す音声認識システム10は以下の様に動作する。予め、しきい値記憶部84には所定のしきい値が設定されているものとする。また第1のフレーム数記憶部80及び第2のフレーム数記憶部82にも予め所定の値が設定されているものとする。多くの場合、前回の通信時に更新された値が第1のフレーム数記憶部80及び第2のフレーム数記憶部82に設定されているが、例えば電源投入ごとに所定の初期値がこれらに設定される様にしてもよい。
-Operation-
The voice recognition system 10 shown in FIGS. 1 to 3 operates as follows. It is assumed that a predetermined threshold is set in the threshold storage unit 84 in advance. It is also assumed that predetermined values are set in advance in the first frame number storage unit 80 and the second frame number storage unit 82. In many cases, values updated at the time of the previous communication are set in the first frame number storage unit 80 and the second frame number storage unit 82. For example, a predetermined initial value is set in each time the power is turned on. You may make it do.

送信されてくるパケットは入力バッファ30に一時蓄積される。フレームロス検出部32のペイロードサイズ読出部52は、UDPヘッダからペイロードサイズ情報を読出し、ロスフレーム数算出部54に与える。通常、ペイロードサイズは固定された値である。   The transmitted packet is temporarily stored in the input buffer 30. The payload size reading unit 52 of the frame loss detection unit 32 reads the payload size information from the UDP header and supplies it to the loss frame number calculation unit 54. Usually, the payload size is a fixed value.

ロスパケット数検知部50は一連のUDPペイロード中のRTPヘッダからパケット番号を読出し、それらの番号が連続しているか否かに基づいてパケットロスがあったか否かを判定する。パケットロスがあった場合、ロスパケット数検知部50はロスパケット数を算出しロスフレーム数算出部54に与える。   The lost packet number detection unit 50 reads the packet number from the RTP header in the series of UDP payloads, and determines whether or not there is a packet loss based on whether or not these numbers are continuous. When there is a packet loss, the lost packet number detection unit 50 calculates the number of lost packets and gives it to the lost frame number calculation unit 54.

ロスフレーム数算出部54は、ペイロードサイズ読出部52から与えられたペイロードサイズ、及び予め設定されたフレームサイズに基づき、1UDPデータグラムのペイロード中に含まれるフレーム数を算出する。さらにロスフレーム数算出部54は、算出されたフレーム数にロスパケット数を乗ずることにより、ロスフレーム数を算出しフレームロス信号として特徴パラメータ推定部34に与える。   The loss frame number calculation unit 54 calculates the number of frames included in the payload of one UDP datagram based on the payload size given from the payload size reading unit 52 and a preset frame size. Furthermore, the lost frame number calculation unit 54 calculates the number of lost frames by multiplying the calculated number of frames by the number of lost packets, and provides the result to the feature parameter estimation unit 34 as a frame loss signal.

図3を参照して、特徴パラメータ推定部34の更新処理部78はフレームロス検出信号により指定されるロスフレーム数NLと、しきい値記憶部84に記憶されているしきい値Sとを比較する。NL>Sであれば更新処理部78は第1のフレーム数記憶部80及び第2のフレーム数記憶部82に記憶されている値Nf及びNbにそれぞれ1を加算する処理を行なう。それ以外の場合には更新処理部78は、値Nf及びNbからそれぞれ1を減算する処理を行なう。 Referring to FIG. 3, update processing unit 78 of feature parameter estimation unit 34 calculates the number of lost frames N L specified by the frame loss detection signal and threshold S stored in threshold storage 84. Compare. If N L > S, the update processing unit 78 performs a process of adding 1 to the values N f and N b stored in the first frame number storage unit 80 and the second frame number storage unit 82, respectively. In other cases, the update processing unit 78 performs a process of subtracting 1 from each of the values N f and N b .

特徴パラメータ推定部34の前フレーム読出部70及び後フレーム読出部72は、それぞれ第1のフレーム数記憶部80及び第2のフレーム数記憶部82に記憶された値Nf及びNbに基づき、ロスフレームの直前及び直後のフレームをNf及びNbにより指定される数だけフレームバッファ36(図1)から読出す。読出されたフレームは補間計算部74に与えられる。補間計算部74は、第1のフレーム数記憶部80及び第2のフレーム数記憶部82に記憶された値Nf及びNb及び前フレーム読出部70及び後フレーム読出部72から与えられた、ロスフレームの直前及び直後のフレームの情報に基づき、式(1)に従ってロスフレームの特徴ベクトルの各要素を算出する。補間計算部74は、算出された要素からなる、推定されたロスフレームの特徴ベクトルを補間フレーム挿入処理部76に与える。 Based on the values N f and N b stored in the first frame number storage unit 80 and the second frame number storage unit 82, respectively, the front frame reading unit 70 and the rear frame reading unit 72 of the feature parameter estimation unit 34, respectively. Frames immediately before and after the lost frame are read from the frame buffer 36 (FIG. 1) in the number specified by N f and N b . The read frame is given to the interpolation calculation unit 74. The interpolation calculation unit 74 is given from the values N f and N b stored in the first frame number storage unit 80 and the second frame number storage unit 82, the previous frame reading unit 70, and the subsequent frame reading unit 72. Based on the information of the frame immediately before and after the loss frame, each element of the feature vector of the loss frame is calculated according to Equation (1). The interpolation calculation unit 74 gives an estimated loss frame feature vector composed of the calculated elements to the interpolation frame insertion processing unit 76.

補間フレーム挿入処理部76は、フレームロス検出信号によって指定されるフレーム位置に補間計算部74により算出されたロスフレームの特徴ベクトルが挿入される様に、フレームバッファ36の内容を更新する。   The interpolation frame insertion processing unit 76 updates the contents of the frame buffer 36 so that the feature vector of the loss frame calculated by the interpolation calculation unit 74 is inserted at the frame position specified by the frame loss detection signal.

図1に示す音声認識部38は、フレームバッファ36からフレームに含まれる特徴ベクトルを順に読出し、HMMに与えることで音声認識を行なう。   The speech recognition unit 38 shown in FIG. 1 performs speech recognition by sequentially reading out feature vectors included in a frame from the frame buffer 36 and giving them to the HMM.

音声認識部38が連続密度HMM(CDHMM)であるものとする。失われたフレームの状態Stは、補間計算部74により推定された特徴ベクトル^Xtを用いて計算される。従って、HMMのノードStの尤度関数は以下の式により与えられる。 It is assumed that the voice recognition unit 38 is a continuous density HMM (CDHMM). State S t lost frame is calculated using a feature vector ^ X t estimated by interpolation calculation unit 74. Therefore, the likelihood function of the node S t of the HMM is given by the following equation.

Figure 2005062572
ただしMはガウス混合分布の混合数を表し、wjは混合要素jの混合重みを表し、N(Xt;μj,σj 2)はt番目のフレームXtの入力特徴量に対する単変量ガウス分布関数を表し、混合要素jは分散σj 2及び平均μjを持つものとする。
Figure 2005062572
Where M represents the number of mixtures in the Gaussian mixture distribution, w j represents the mixing weight of the mixing element j, and N (X t ; μ j , σ j 2 ) is a univariate with respect to the input feature quantity of the t-th frame X t. It represents a Gaussian distribution function, and the mixing element j has a variance σ j 2 and an average μ j .

この第1の実施の形態の装置によれば、パケットロスが生じ、複数のフレームが失われたときでも、特徴パラメータ推定部34によってロスフレームの特徴ベクトルが推定され、推定されたフレームが特徴パラメータ推定部34内のロスフレームの位置に挿入される。音声認識部38は単にフレームバッファ36から順にフレームを読出て音声認識を行なうだけでよい。そのため、音声認識部38の構成を従来のものと変えずに、パケットロスが生じた場合でも音声認識を行なうことができる。また後述する様にその精度は高く、従来よりも頑健な音声認識を実現できる。   According to the apparatus of the first embodiment, even when packet loss occurs and a plurality of frames are lost, the feature vector of the lost frame is estimated by the feature parameter estimation unit 34, and the estimated frame is used as the feature parameter. It is inserted at the position of the loss frame in the estimation unit 34. The voice recognition unit 38 simply reads the frames in order from the frame buffer 36 and performs voice recognition. Therefore, voice recognition can be performed even when packet loss occurs without changing the configuration of the voice recognition unit 38 from the conventional one. Further, as will be described later, the accuracy is high, and voice recognition that is more robust than the conventional one can be realized.

なお、上記した実施の形態のシステムでは、値Nf及びNbの更新では、加算又は減算される値は1に限定されている。こうすることにより、ロスパケット数の数の変化によって値Nf及びNbの値が激しく変動し音声認識が不安定になることを防止できる。ただし、この値は1に限定されるわけではなく、応用に応じて適当な値を選択する様にすればよい。値Nf及びNbの更新を行なわず、固定した値(例えば値Nf=Nb=1)としてもよい。 In the system of the embodiment described above, the updating of the value N f and N b, the value to be added or subtracted is limited to 1. By doing so, it is possible to prevent the voice recognition from becoming unstable due to the fluctuation of the values N f and N b due to the change in the number of lost packets. However, this value is not limited to 1, and an appropriate value may be selected according to the application. The values N f and N b may not be updated and may be fixed values (for example, the value N f = N b = 1).

また上記した実施の形態のシステムでは、ロスフレームの前後のフレームを使用した内分によりロスフレームを推定している。しかしこの場合、ロスフレームの後のフレームの情報まで必要とするので推定に時間を要し、音声認識に遅延を生ずる。そこで、音声認識をできるだけ早くすることが必要な場合には、Nbの値を0に固定することが考えられる。ロスフレームの前の複数のフレームのデータから、ロスフレームの値を外挿することにより、式(1)を用いた場合と同様の結果を得ることができる。 In the system according to the above-described embodiment, the loss frame is estimated based on the internal division using the frames before and after the loss frame. However, in this case, since information of the frame after the loss frame is required, it takes time to estimate and delays speech recognition. Therefore, when it is necessary to make speech recognition as fast as possible, it is conceivable to fix the value of N b to 0. By extrapolating the value of the loss frame from the data of a plurality of frames before the loss frame, the same result as that obtained using Equation (1) can be obtained.

また上記した説明では、ロスフレーム数の数NLがしきい値Sを超えていればNf及びNbの両者に1を加算し、NLがしきい値S以下であればNf及びNbの両者から1を減算している。これは推定の精度を高めることを重視した方法である。しかしNf及びNbの数の決め方はこれに限定されるわけではない。例えば、処理のリアルタイム性を推定の精度よりも重視する場合には、ロスフレーム数の数NLがしきい値Sを超えていればNf及びNbの両者から1を減算し、NLがしきい値Sを超えていればNf及びNbの両者から1を減算することも考えられる。 In the above description, if the number N L of lost frames exceeds the threshold S, 1 is added to both N f and N b , and if N L is equal to or less than the threshold S, N f and 1 is subtracted from both of N b . This is a method that attaches importance to increasing the accuracy of estimation. However, the method of determining the numbers of N f and N b is not limited to this. For example, when the real-time property of processing is more important than the accuracy of estimation, if the number N L of lost frames exceeds the threshold value S, 1 is subtracted from both N f and N b , and N L If N exceeds the threshold value S, 1 may be subtracted from both N f and N b .

[第1の実施の形態の変形例]
第1の実施の形態のシステムでは、第1のフレーム数記憶部80及び第2のフレーム数記憶部82に記憶されたNf及びNbの値をパケット数に応じて更新する。しかし本発明はそのような実施の形態に限定されず、パケットロスの数NLに応じてNf及びNbの値を予め定める様にすることも考えられる。そのためには、NLに対するNf及びNbの値を予めテーブルにしておけばよい。そのようなシステムで使用される特徴パラメータ推定部120のブロック図を図5に示す。この補間計算部120は、図1に示す特徴パラメータ推定部34に代えて使用することができる。
[Modification of First Embodiment]
In the system according to the first embodiment, the values of N f and N b stored in the first frame number storage unit 80 and the second frame number storage unit 82 are updated according to the number of packets. However, the present invention is not limited to such an embodiment, and it may be possible to predetermine the values of N f and N b according to the number of packet losses N L. For this purpose, the values of N f and N b for N L may be stored in advance in a table. A block diagram of the feature parameter estimation unit 120 used in such a system is shown in FIG. The interpolation calculation unit 120 can be used in place of the feature parameter estimation unit 34 shown in FIG.

図5を参照して、特徴パラメータ推定部120は、上記したパケットロス数NLに対するフレームロス前後のフレーム数Nf及びNbを記憶するテーブル130と、フレームロス検出信号を受け、フレームロスが生じたときに、ロスフレームの数NLに対応する数Nfをテーブル130から読出し、さらにその数Nfに対応するフレームロス直前のフレームをフレームバッファ36から読出すための前フレーム読出部132と、同じくフレームロス検出信号出力を受け、フレームロスが生じたときに、ロスフレームの数NLに対応する数Nbをテーブル130から読出し、さらにその数Nbに対応するフレームロス直後のフレームをフレームバッファ36から読出すための後フレーム読出部134とを含む。 Referring to FIG. 5, the feature parameter estimation unit 120 receives a table 130 for storing the frame numbers N f and N b before and after the frame loss with respect to the packet loss number N L and the frame loss detection signal. When this occurs, the number N f corresponding to the number N L of lost frames is read from the table 130, and the previous frame reading unit 132 for reading the frame immediately before the frame loss corresponding to the number N f from the frame buffer 36. Similarly, when a frame loss occurs upon receiving a frame loss detection signal output, the number N b corresponding to the number N L of lost frames is read from the table 130, and the frame immediately after the frame loss corresponding to the number N b And a rear frame reading unit 134 for reading from the frame buffer 36.

特徴パラメータ推定部120はさらに、フレームロスが検出されたことに応答して、ロスフレームの数NLに対応する数Nf及びNbをテーブル130から読出し、さらに前フレーム読出部132及び後フレーム読出部134によってフレームバッファ36から読出されたフレームを受け、式(1)と同様の計算方法によって、失われたフレームの特徴パラメータを推定するための補間計算部136と、補間計算部136により推定された特徴パラメータからなる補間フレームをフレームバッファ36中の所定位置に挿入する処理を行なう補間フレーム挿入処理部76とを含む。 In response to the detection of the frame loss, the feature parameter estimation unit 120 further reads out the numbers N f and N b corresponding to the number N L of lost frames from the table 130, and further, the previous frame reading unit 132 and the subsequent frame An interpolation calculation unit 136 for receiving a frame read from the frame buffer 36 by the reading unit 134 and estimating a feature parameter of the lost frame by a calculation method similar to Equation (1), and estimation by the interpolation calculation unit 136 And an interpolated frame insertion processing unit 76 for performing processing for inserting an interpolated frame composed of the characteristic parameters into a predetermined position in the frame buffer 36.

この特徴パラメータ推定部120は、Nf及びNbの値の定め方以外は第1の実施の形態と同様に動作する。 The feature parameter estimation unit 120 operates in the same manner as in the first embodiment except for how to determine the values of N f and N b .

この変形例では、ロスパケットの数NLと内分のための値Nf及びNbとの関係が固定されている。そのため、第1の実施の形態における様にその関係自体を動的に変えることはできない。しかし、予めパケットロスの発生状況と値Nf及びNbとの関係を予測することができる場合には有効である。また、この変形例ではレスポンス時間が一定となるため、一定の精度で安定して音声認識を行なうのに有効である。 In this modification, the relationship between the number N L of lost packets and the values N f and N b for internal division is fixed. Therefore, the relationship itself cannot be changed dynamically as in the first embodiment. However, it is effective when it is possible to predict in advance the relationship between the occurrence of packet loss and the values N f and N b . Further, in this modified example, since the response time is constant, it is effective for stably performing speech recognition with a constant accuracy.

[第2の実施の形態]
第1の実施の形態のシステムは、ロスフレームに含まれる特徴ベクトルをロスフレーム群の前後のフレームの特徴ベクトルから推定した。フレームロスがある場合の音声認識の他の方法に、マージナリゼーション方式と呼ばれるものがある。本発明の第2の実施の形態に係るシステムは、マージナリゼーション方式を用いたものである。
[Second Embodiment]
In the system according to the first embodiment, the feature vector included in the loss frame is estimated from the feature vectors of the frames before and after the loss frame group. Another method of speech recognition when there is a frame loss is called a marginalization method. The system according to the second embodiment of the present invention uses a marginalization method.

マージナリゼーション方式では、一部の音声データが失われた場合、失われたデータを用いずにHMMでの出力尤度を操作することで認識を行なう。これを実現するために、音声認識サーバにフレームロスを検知する機能を持つ必要がある点は第1の実施の形態のシステムと同様である。   In the marginalization method, when a part of audio data is lost, recognition is performed by manipulating the output likelihood in the HMM without using the lost data. In order to realize this, the point that the voice recognition server needs to have a function of detecting a frame loss is the same as in the system of the first embodiment.

図6に、第2の実施の形態に係るサーバ‐クライアント型音声認識システムで使用される音声認識サーバ140のブロック図を示す。図6を参照してこの音声認識サーバ140は、第1の実施の形態の音声認識サーバ20と同様の入力バッファ30、フレームロス検出部32、及びフレームバッファ36を含む。さらにこの音声認識サーバ140は、第1の実施の形態の音声認識サーバ20と異なり、フレームロス検出部32の出力するフレームロス検出信号を直接受け、失われたフレームの特徴ベクトルを推定することなくマージナリゼーション方式で音声認識を行なう音声認識部150を含む。   FIG. 6 shows a block diagram of a speech recognition server 140 used in the server-client speech recognition system according to the second embodiment. With reference to FIG. 6, the speech recognition server 140 includes an input buffer 30, a frame loss detection unit 32, and a frame buffer 36 similar to the speech recognition server 20 of the first embodiment. Furthermore, unlike the speech recognition server 20 of the first embodiment, the speech recognition server 140 directly receives the frame loss detection signal output from the frame loss detection unit 32, and without estimating the feature vector of the lost frame. A speech recognition unit 150 that performs speech recognition using a marginalization method is included.

図6において、図1と同じ部品には同じ参照番号を付してある。それらの名称及び機能も同一である。従ってここではそれらについての詳細な説明は繰返さない。   In FIG. 6, the same components as those in FIG. 1 are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated here.

マージナリゼーション手法による音声認識では、次の式によりHMMのノードStの出力尤度p(Xt|St)を求める。 In speech recognition by merging internalization technique, the output likelihood p nodes S t of the HMM by the following equation | Request (X t S t).

Figure 2005062572
ただしMはガウス混合分布の混合数を表し、wjは混合要素jの混合重みを表し、N(Xt;μj,σj 2)はt番目のフレームXtの入力特徴量に対する単変量ガウス分布関数を表し、混合要素jは分散σj 2及び平均μjを持つものとする。
Figure 2005062572
Where M represents the number of mixtures in the Gaussian mixture distribution, w j represents the mixing weight of the mixing element j, and N (X t ; μ j , σ j 2 ) is a univariate with respect to the input feature quantity of the t-th frame X t. It represents a Gaussian distribution function, and the mixing element j has a variance σ j 2 and an average μ j .

フレームロスがない場合には、式(5)の上の第1式を用いてHMMの各状態の出力尤度を計算する。フレームロスがある場合には、第1式のXtが存在しないため、式(5)の第2式により示される様に全ての状態の出力尤度を同じ値「C」とする。これにより、フレームロスがある場合には、状態遷移は、予め学習された状態遷移確率のみに依存することになる。 When there is no frame loss, the output likelihood of each state of the HMM is calculated using the first equation above Equation (5). If there is a frame loss, there is no Xt in the first equation, so that the output likelihoods in all states are set to the same value “C” as indicated by the second equation in equation (5). Thus, when there is a frame loss, the state transition depends only on the state transition probability learned in advance.

音声認識部150の構成を模式的に図7に示す。図7を参照して、音声認識部150は、HMM160と、上に示した式(5)の第1式を用いてHMM160の各状態の出力尤度を計算する出力尤度算出部164と、定数Cを記憶する定数記憶部166と、パケットロスがない場合には出力尤度算出部164を用い、パケットロスがある場合には定数記憶部166の出力Cを用い、それぞれ各状態の出力尤度を算出する様にHMM160を制御する選択部162とを含む。   A configuration of the speech recognition unit 150 is schematically shown in FIG. Referring to FIG. 7, the speech recognition unit 150 includes an HMM 160 and an output likelihood calculation unit 164 that calculates the output likelihood of each state of the HMM 160 using the first equation of the equation (5) shown above. The constant storage unit 166 that stores the constant C, and the output likelihood calculation unit 164 when there is no packet loss, and the output C of the constant storage unit 166 when there is a packet loss, each output likelihood of each state. And a selection unit 162 that controls the HMM 160 so as to calculate the degree.

フレームロス検出信号が、フレームロス検出を示す値であるときは選択部162は定数記憶部166の出力をHMM160の各出力尤度とする。フレームロスが検出されていないときには、選択部162は、HMM160の各状態の出力尤度に出力尤度算出部164での計算結果を用いる。   When the frame loss detection signal is a value indicating frame loss detection, the selection unit 162 sets the output of the constant storage unit 166 as each output likelihood of the HMM 160. When no frame loss is detected, the selection unit 162 uses the calculation result of the output likelihood calculation unit 164 as the output likelihood of each state of the HMM 160.

この音声認識部150により、上記したマージナリゼーションによる音声認識が可能となる。   The voice recognition unit 150 enables voice recognition by the above-described marginalization.

[実験結果]
上記第1の実施の形態のシステム、及び第2の実施の形態のシステムを用いてフレームロスが生じた場合の音声認識の結果を調べる実験を行なった。実験では、パケットロスがランダムに生じると仮定したランダムロスモデル、及び通常状態とロス状態の2状態の間での遷移確率を定めて得られるギルバートロスモデルについて、パケットロス率と平均バーストロス長に対する単語認識率の傾向を調べた。実験を簡易とするため、1パケットに1フレームが格納されていると仮定した。
[Experimental result]
An experiment was conducted to examine the result of speech recognition when a frame loss occurred using the system of the first embodiment and the system of the second embodiment. In the experiment, the random loss model assumed that packet loss occurs randomly, and the Gilbert loss model obtained by determining the transition probability between the normal state and the loss state, the packet loss rate and the average burst loss length The tendency of word recognition rate was investigated. In order to simplify the experiment, it was assumed that one frame was stored in one packet.

実施の形態1の実験では、簡単のためにNf=1かつNb=0に固定した実験と、Nf=1かつNb=1に固定した実験とを行なった。 In the experiment of the first embodiment, for the sake of simplicity, an experiment in which N f = 1 and N b = 0 were fixed and an experiment in which N f = 1 and N b = 1 were fixed were performed.

また、比較のために、第1の実施の形態において、特徴ベクトルを算出するかわりに、予めHMMの学習の時に使用されたデータの平均を求め、この平均ベクトルを失われたフレームのデータとしてHMMで音声認識を行なう実験も行なった。これをベースラインとして実験結果を考察する。   For comparison, in the first embodiment, instead of calculating a feature vector, an average of data used at the time of HMM learning is obtained in advance, and this average vector is used as lost frame data as an HMM. We also conducted an experiment to perform speech recognition. We consider the experimental results using this as a baseline.

その結果、平均バースト長が長くなると、上記したいずれの実験においても単語認識率は低下した。しかし、本発明による単語認識を行なった場合の単語認識率は、いずれの場合もベースラインの結果を大きく上回った。パケットロス率が大きくなるとその差は大きくなる。また、マージナリゼーション方式(第2の実施の形態)による単語認識率は、他のいずれをも上回った。従ってマージナリゼーション方式はバーストパケットロスに対し、他の方式よりも頑健であると考えられる。   As a result, as the average burst length increased, the word recognition rate decreased in any of the experiments described above. However, the word recognition rate when word recognition according to the present invention was performed was significantly higher than the baseline result in all cases. The difference increases as the packet loss rate increases. Moreover, the word recognition rate by the marginalization method (2nd Embodiment) exceeded all the others. Therefore, it is considered that the marginalization method is more robust against burst packet loss than other methods.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.

本発明の第1の実施の形態に係る音声認識サーバのブロック図である。It is a block diagram of the speech recognition server which concerns on the 1st Embodiment of this invention. 図1に示すフレームロス検出部32の詳細なブロック図である。FIG. 2 is a detailed block diagram of a frame loss detection unit 32 shown in FIG. 図1に示す特徴パラメータ推定部34の詳細なブロック図である。FIG. 2 is a detailed block diagram of a feature parameter estimation unit 34 shown in FIG. 1. 特徴パラメータ推定部34で実行される特徴ベクトルの推定処理を説明するための図である。It is a figure for demonstrating the estimation process of the feature vector performed in the feature parameter estimation part. 第1の実施の形態の音声認識サーバの変形例のブロック図である。It is a block diagram of the modification of the speech recognition server of 1st Embodiment. 本発明の第2の実施の形態に係る音声認識サーバのブロック図である。It is a block diagram of the speech recognition server which concerns on the 2nd Embodiment of this invention. 図6に示す音声認識部150の詳細なブロック図である。FIG. 7 is a detailed block diagram of the voice recognition unit 150 shown in FIG. 6. 従来のサーバ‐クライアント型音声認識システムの構成を示すブロック図である。It is a block diagram which shows the structure of the conventional server-client type | mold speech recognition system.

符号の説明Explanation of symbols

20,140,182 音声認識サーバ、30 入力バッファ、32 フレームロス検出部、34,120 特徴パラメータ推定部、36 フレームバッファ、38,150 音声認識部、50 ロスパケット数検知部、52 ペイロードサイズ読出部、54 ロスフレーム数算出部、70,132 前フレーム読出部、72,134 後フレーム読出部、74,136 補間計算部、76 補間フレーム挿入処理部、78 更新処理部、80 第1のフレーム数記憶部80、82 第2のフレーム数記憶部、130 テーブル   20, 140, 182 Speech recognition server, 30 input buffer, 32 frame loss detection unit, 34, 120 feature parameter estimation unit, 36 frame buffer, 38, 150 speech recognition unit, 50 lost packet number detection unit, 52 payload size reading unit , 54 Loss frame number calculation unit, 70, 132 Previous frame reading unit, 72, 134 Post frame reading unit, 74, 136 Interpolation calculation unit, 76 Interpolation frame insertion processing unit, 78 Update processing unit, 80 First frame number storage Part 80, 82 second frame number storage part, 130 table

Claims (11)

音声の特徴データとフレームの時間的順序を示すフレーム順序情報とを含むフレームを受信するためのフレーム受信手段と、
前記フレーム受信手段により受信されたフレームをフレーム順序情報と関連付けて記憶するためのフレーム記憶手段と、
前記フレーム受信手段に接続され、前記フレーム順序情報に基づいてフレームロスが発生したことを検出し、さらに当該フレームロスにより失われたフレームのフレーム位置を検出するためのフレームロス検出手段と、
前記フレームロス検出手段によりフレームロスの発生が検出されたことに応答して、前記フレームロス検出手段によりロスが検出されたフレームの数だけのフレームの特徴データを、前記フレーム記憶手段に記憶されているフレームに含まれる特徴データ及び前記フレーム順序情報に基づいて推定し、当該推定された特徴データを含むフレームを生成し、前記フレーム記憶手段内の、当該生成されたフレームのフレーム順序情報により定まるフレーム位置に挿入するための特徴データ推定手段と、
前記フレーム記憶手段からフレームをフレーム順序情報に従った順序で読出して各フレームに含まれる特徴データに対する音声認識を行なうための音声認識手段とを含む、音声認識装置。
Frame receiving means for receiving a frame including voice feature data and frame order information indicating a temporal order of frames;
Frame storage means for storing the frame received by the frame receiving means in association with frame order information;
Frame loss detecting means connected to the frame receiving means, detecting that a frame loss has occurred based on the frame order information, and detecting a frame position of a frame lost due to the frame loss;
In response to the occurrence of frame loss detected by the frame loss detection means, frame feature data corresponding to the number of frames detected by the frame loss detection means is stored in the frame storage means. A frame determined based on the frame order information of the generated frame in the frame storage means, which is estimated based on the feature data included in the existing frame and the frame order information, generates a frame including the estimated feature data Feature data estimation means for insertion at a position;
A speech recognition apparatus comprising: speech recognition means for reading out frames from the frame storage means in an order according to frame order information and performing speech recognition on feature data included in each frame.
前記特徴データ推定手段は、
第1のフレーム数を記憶するための第1のフレーム数記憶手段と、
前記第1のフレーム数記憶手段に接続され、前記フレーム記憶手段に記憶されたフレームのうち、前記フレームロス検出手段により検出されたフレームロスの前の前記第1のフレーム数のフレームの特徴データを前記フレーム記憶手段から読出すための前フレーム読出手段と、
前記前フレーム読出手段により読出された前記第1の数のフレームの特徴データに基づいて、前記フレームロス検出手段により検出されたフレームロス中の各フレームに含まれる特徴データを推定するための推定手段と、
推定されたフレームを、前記フレーム記憶手段内のフレーム順序情報により定まるフレーム位置に挿入するためのフレーム挿入手段とを含む、請求項1に記載の音声認識装置。
The feature data estimation means includes:
First frame number storage means for storing the first frame number;
Of the frames stored in the frame storage means and connected to the first frame number storage means, the feature data of the frame having the first frame number before the frame loss detected by the frame loss detection means is obtained. Previous frame reading means for reading from the frame storage means;
Estimation means for estimating feature data included in each frame in the frame loss detected by the frame loss detection means based on the feature data of the first number of frames read by the previous frame reading means When,
The speech recognition apparatus according to claim 1, further comprising: a frame insertion unit for inserting the estimated frame at a frame position determined by frame order information in the frame storage unit.
前記特徴データ推定手段はさらに、
第2のフレーム数を記憶するための第2のフレーム数記憶手段と、
前記第2のフレーム数記憶手段に接続され、前記フレーム記憶手段に記憶されたフレームのうち、前記フレームロス検出手段により検出されたフレームロスの後の前記第2の数のフレーム数のフレームの特徴データを前記フレーム記憶手段から読出すための後フレーム読出手段とを含み、
前記推定手段は、前記前フレーム読出手段により読出された前記第1の数のフレームの特徴データ、及び前記後フレーム読出手段により読出された前記第2の数のフレームの特徴データに基づいて、前記フレームロス検出手段により検出されたフレームロス中の各フレームに含まれる特徴データを推定するための手段を含む、請求項2に記載の音声認識装置。
The feature data estimation means further includes
Second frame number storage means for storing a second frame number;
Of the frames connected to the second frame number storage means and stored in the frame storage means, the characteristics of the second number of frames after the frame loss detected by the frame loss detection means Post-frame reading means for reading data from said frame storage means,
The estimating means is based on the feature data of the first number of frames read by the previous frame reading means and the feature data of the second number of frames read by the subsequent frame reading means. The speech recognition apparatus according to claim 2, comprising means for estimating feature data included in each frame in the frame loss detected by the frame loss detection means.
前記フレームロス検出手段により検出された失われたフレームの数と所定のしきい値とを比較し、前記第1のフレーム数記憶手段に記憶されている前記第1のフレーム数、又は前記第2のフレーム数記憶手段に記憶されている前記第2のフレーム数、又はその双方を比較結果に従って定まる所定の更新方法に従って更新するための更新手段を含む、請求項3に記載の音声認識装置。 The number of lost frames detected by the frame loss detection means is compared with a predetermined threshold value, and the first frame number stored in the first frame number storage means or the second The speech recognition apparatus according to claim 3, further comprising an updating unit configured to update the second frame number stored in the frame number storage unit or both according to a predetermined updating method determined according to the comparison result. 前記更新手段は、前記フレームロス検出手段により検出された失われたフレームの数と所定のしきい値とを比較し、前記第1のフレーム数記憶手段に記憶されている前記第1のフレーム数、又は前記第2のフレーム数記憶手段に記憶されている前記第2のフレーム数、又はその双方に、比較結果に従って定まる所定の定数を加算して更新するための手段を含む、請求項4に記載の音声認識装置。 The update means compares the number of lost frames detected by the frame loss detection means with a predetermined threshold value, and the first frame number stored in the first frame number storage means Or a means for adding a predetermined constant determined according to a comparison result to the second frame number stored in the second frame number storage means, or both, and updating it. The speech recognition apparatus according to the description. 前記所定の定数は失われたフレームの数が前記しきい値を超えている場合には正の定数であり、それ以外の場合には負の定数である、請求項5に記載の音声認識装置。 The speech recognition apparatus according to claim 5, wherein the predetermined constant is a positive constant when the number of lost frames exceeds the threshold value, and is a negative constant otherwise. . 前記所定の定数は失われたフレームの数が前記しきい値を超えている場合には負の定数であり、それ以外の場合には正の定数である、請求項5に記載の音声認識装置。 The speech recognition apparatus according to claim 5, wherein the predetermined constant is a negative constant when the number of lost frames exceeds the threshold value, and is a positive constant otherwise. . 前記推定するための手段は、次の式によって失われたフレームの特徴データを算出し、
Figure 2005062572
ただしNf及びNbはそれぞれ前記第1のフレーム数及び前記第2のフレーム数であり、Xt'f及びXt'bは、前記フレームロス検出手段により検出されたフレームロスのそれぞれ前のNf個及び後のNb個の特徴データの平均からなる特徴データであり、t'f及びt'bはこれらXt'f及びXt'bに対応するフレーム順序情報を示し、Xt'f及びXt'bは以下の様にして算出され、
Figure 2005062572
ただしtf及びtbはそれぞれフレームロスが生じた直前及び直後のフレームに対応する時刻を示す、請求項3に記載の音声認識装置。
The means for estimating calculates feature data of a lost frame by the following equation:
Figure 2005062572
However, N f and N b are the first frame number and the second frame number, respectively, and X t′f and X t′b are respectively before the frame loss detected by the frame loss detecting means. The feature data is an average of N f feature data and the subsequent N b feature data, t ′ f and t ′ b indicate frame order information corresponding to these X t′f and X t′b , and X t 'f and X t'b are calculated as follows:
Figure 2005062572
However t f and t b indicates time corresponding to the immediately preceding and immediately following frame frame loss has occurred, respectively, the speech recognition apparatus according to claim 3.
前記特徴データ推定手段は、
前記特徴データ推定手段による推定に用いられる第1のフレーム数及び第2のフレーム数を、フレームロスに含まれるフレームの数と対応付けて記憶するためのフレーム数テーブルと、
前記フレーム数テーブル記憶手段に接続され、前記フレームロス検出手段により検出されたフレームロスに含まれるフレームの数に応じた前記第1のフレーム数及び前記第2のフレーム数を前記フレーム数テーブルより読出し、前記フレーム記憶手段に記憶されたフレームのうち、前記フレームロス検出手段により検出されたフレームロスの前の前記第1のフレーム数のフレームの特徴データと、当該フレームロスの後の前記第2のフレーム数のフレームの特徴データとを前記フレーム記憶手段から読出すためのフレーム読出手段と、
前記フレーム読出手段により読出された前記第1のフレーム数のフレーム及び前記第2のフレーム数のフレームの特徴データに基づいて、前記フレームロス検出手段により検出されたフレームロス中の各フレームに含まれる特徴データを推定するための推定手段を含む、請求項1に記載の音声認識装置。
The feature data estimation means includes:
A frame number table for storing the first frame number and the second frame number used for estimation by the feature data estimation unit in association with the number of frames included in a frame loss;
The first frame number and the second frame number corresponding to the number of frames included in the frame loss detected by the frame loss detection unit and connected to the frame number table storage unit are read from the frame number table. , Out of the frames stored in the frame storage means, feature data of the first number of frames before the frame loss detected by the frame loss detection means, and the second feature data after the frame loss Frame reading means for reading frame feature data of the number of frames from the frame storage means;
Included in each frame in the frame loss detected by the frame loss detecting means based on the feature data of the first number of frames and the second number of frames read by the frame reading means The speech recognition apparatus according to claim 1, comprising estimation means for estimating feature data.
音声の特徴データとフレームの時間的順序を示すフレーム順序情報とを含むフレームを受信するためのフレーム受信手段と、
前記フレーム受信手段により受信されたフレームをフレーム順序情報と関連付けて記憶するためのフレーム記憶手段と、
前記フレーム受信手段に接続され、前記フレーム順序情報に基づいてフレームロスが発生したことを検出し、さらに当該フレームロスにより失われたフレームのフレーム位置を検出するためのフレームロス検出手段と、
前記フレーム記憶手段からフレームをフレーム順序情報に従った順序で読出して各フレームに含まれる特徴データに対する音声認識を行なうための音声認識手段とを含み、
前記音声認識手段は、前記フレームロス検出手段によりフレームロスが検出されているか否かに従って、各状態の出力尤度を算出する手法を選択して出力尤度を算出する、隠れマルコフモデル(HMM)によって音声を認識するための手段を含む、音声認識装置。
Frame receiving means for receiving a frame including voice feature data and frame order information indicating a temporal order of frames;
Frame storage means for storing the frame received by the frame receiving means in association with frame order information;
Frame loss detecting means connected to the frame receiving means, detecting that a frame loss has occurred based on the frame order information, and detecting a frame position of a frame lost due to the frame loss;
Voice recognition means for reading out frames from the frame storage means in an order according to frame order information and performing voice recognition on feature data included in each frame;
The speech recognition unit selects a method for calculating an output likelihood of each state according to whether or not a frame loss is detected by the frame loss detection unit, and calculates an output likelihood. A hidden Markov model (HMM) A speech recognition apparatus comprising means for recognizing speech by means of
前記HMMによって音声を認識するための手段は、
前記フレームロス検出手段によりフレームロスが検出されていないときには
Figure 2005062572
によって前記HMMの各状態Stにおける出力尤度p(Xt|St)を算出し、ただしMは前記HMMの各ノードを構成するガウス混合分布の混合数を表し、wjは当該ガウス混合分布の混合要素jの混合重みを表し、tは順序情報を表し、N(Xt;μj,σj 2)はt番目のフレームXtの入力特徴データに対する単変量ガウス分布関数を表し、混合要素jは分散σj 2及び平均μjを持ち、
前記フレームロス検出手段によりフレームロスが検出されているときには
Figure 2005062572
ただしCは予め定められた定数、により前記HMMの各状態Stにおける出力尤度p(Xt|St)を算出する、請求項10に記載の音声認識装置。
Means for recognizing speech by the HMM are:
When no frame loss is detected by the frame loss detection means
Figure 2005062572
The output likelihood p in each state S t of the HMM by | calculates (X t S t), where M represents the number of mixtures Gaussian mixture that constitutes each node of the HMM, w j is the Gaussian mixture Represents the mixing weight of the mixing element j of the distribution, t represents order information, N (X t ; μ j , σ j 2 ) represents a univariate Gaussian distribution function for the input feature data of the t th frame X t , The mixing element j has a variance σ j 2 and an average μ j ,
When a frame loss is detected by the frame loss detection means
Figure 2005062572
However C is predetermined constant, the output likelihood p in each state S t of the HMM | calculates the (X t S t), the speech recognition apparatus according to claim 10.
JP2003293836A 2003-08-15 2003-08-15 Voice recognition device Expired - Fee Related JP3965141B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003293836A JP3965141B2 (en) 2003-08-15 2003-08-15 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003293836A JP3965141B2 (en) 2003-08-15 2003-08-15 Voice recognition device

Publications (2)

Publication Number Publication Date
JP2005062572A true JP2005062572A (en) 2005-03-10
JP3965141B2 JP3965141B2 (en) 2007-08-29

Family

ID=34370605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003293836A Expired - Fee Related JP3965141B2 (en) 2003-08-15 2003-08-15 Voice recognition device

Country Status (1)

Country Link
JP (1) JP3965141B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009008220A1 (en) * 2007-07-09 2009-01-15 Nec Corporation Sound packet receiving device, sound packet receiving method and program
JP2010518442A (en) * 2007-02-10 2010-05-27 サムスン エレクトロニクス カンパニー リミテッド Error frame parameter updating method and apparatus
JP2010217628A (en) * 2009-03-18 2010-09-30 Kddi Corp Speech recognition processing method and system, for inputting text by voice
JP2019502949A (en) * 2015-12-18 2019-01-31 クゥアルコム・インコーポレイテッドQualcomm Incorporated Encoding multiple audio signals

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010518442A (en) * 2007-02-10 2010-05-27 サムスン エレクトロニクス カンパニー リミテッド Error frame parameter updating method and apparatus
WO2009008220A1 (en) * 2007-07-09 2009-01-15 Nec Corporation Sound packet receiving device, sound packet receiving method and program
JP5012897B2 (en) * 2007-07-09 2012-08-29 日本電気株式会社 Voice packet receiving apparatus, voice packet receiving method, and program
JP2010217628A (en) * 2009-03-18 2010-09-30 Kddi Corp Speech recognition processing method and system, for inputting text by voice
JP2019502949A (en) * 2015-12-18 2019-01-31 クゥアルコム・インコーポレイテッドQualcomm Incorporated Encoding multiple audio signals

Also Published As

Publication number Publication date
JP3965141B2 (en) 2007-08-29

Similar Documents

Publication Publication Date Title
EP2140590B1 (en) Method of transmitting data in a communication system
US20090164657A1 (en) Application aware rate control
EP2140637B1 (en) Method of transmitting data in a communication system
US20090168673A1 (en) Method and apparatus for detecting and suppressing echo in packet networks
KR100901399B1 (en) Server, terminal, communication system, transfer processing method, and program storage medium storing program thereof
US10103999B2 (en) Jitter buffer level estimation
JP2013513261A (en) Random data stream sampling
Na et al. Allowable propagation delay for VoIP calls of acceptable quality
JP3965141B2 (en) Voice recognition device
CN114285830A (en) Voice signal processing method and device, electronic equipment and readable storage medium
CN107978325B (en) Voice communication method and apparatus, method and apparatus for operating jitter buffer
Oklander et al. Jitter buffer analysis
Ha et al. TCP network coding with adapting parameters for bursty and time-varying loss
Altman et al. Queuing analysis of simple FEC schemes for voice over IP
JP2005033499A (en) Method and device for absorbing fluctuation of propagation time of voice ip terminal
Dán et al. On the effects of the packet size distribution on the packet loss process
US7693151B2 (en) Method and devices for providing protection in packet switched communications networks
JP4983054B2 (en) Server apparatus and buffer control method in the same apparatus
US6920219B2 (en) Method and apparatus for providing echo cancellation
Yu et al. Quality-based jitter buffer algorithm using adaptive variable-size window
CN107113357B (en) Improved method and apparatus relating to speech quality estimation
KR20070105151A (en) Apparatus and method for voice packet recovery
CN113409799B (en) Audio encoding method, apparatus, device and computer readable storage medium
KR101418354B1 (en) Apparatus and method for playout scheduling in voice over internet protocol system
Kohler et al. Markov chain prediction for missing speech frame compensation

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060815

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070515

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070525

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees