JP2005062572A - Speech recognition apparatus - Google Patents
Speech recognition apparatus Download PDFInfo
- Publication number
- JP2005062572A JP2005062572A JP2003293836A JP2003293836A JP2005062572A JP 2005062572 A JP2005062572 A JP 2005062572A JP 2003293836 A JP2003293836 A JP 2003293836A JP 2003293836 A JP2003293836 A JP 2003293836A JP 2005062572 A JP2005062572 A JP 2005062572A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- loss
- feature data
- frames
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明は音声認識技術に関し、特に、特徴ベクトルに変換後、パケット形式で伝送される音声信号においてパケットロスが生じた際にも高い精度で音声認識可能な音声認識装置に関する。 The present invention relates to a speech recognition technology, and more particularly to a speech recognition apparatus capable of performing speech recognition with high accuracy even when packet loss occurs in a speech signal transmitted in a packet format after being converted into a feature vector.
音声認識技術の発達並びに携帯電話及びPDA(Personal Digital Assistant)等の携帯端末の普及に伴い、携帯端末を用いた音声認識サービスが今後広く使われることが予想される。一方、携帯端末においては利用可能なリソース(処理能力、電源)などが限られている。携帯端末での消費電力又は処理量を抑制し、音声コーデック処理への影響をなくすことが望ましい。そのため、欧州電気通信標準化機構(ETSI:European Telecommunications Standards Institute)では、分散型音声認識(DSR:Distributed Speech Recognition)が標準化された。 With the development of voice recognition technology and the spread of mobile terminals such as mobile phones and PDAs (Personal Digital Assistants), it is expected that voice recognition services using mobile terminals will be widely used in the future. On the other hand, available resources (processing capacity, power source) and the like are limited in portable terminals. It is desirable to suppress the power consumption or processing amount in the portable terminal and eliminate the influence on the voice codec processing. For this reason, the Distributed Telecommunications Recognition (DSR) has been standardized by the European Telecommunications Standards Institute (ETSI).
DSR方式では、携帯端末で音響分析処理を行ない、分析データを音声認識サーバに送信する。サーバでこの分析データに基づく音声認識処理を実行する。 In the DSR method, acoustic analysis processing is performed on a portable terminal, and analysis data is transmitted to a voice recognition server. The server executes speech recognition processing based on the analysis data.
DSRシステムの機能構成を図8にブロック図形式で示す。図8を参照して、このシステムは、携帯端末からなり、入力される音声信号の音響分析処理を行なって符号化された分析データをパケット形式で送信するクライアント端末180と、このパケット形式の分析データを受信して復号化し、復号化した分析データに対して音声認識を行なう音声認識サーバ182とを含む。音声認識サーバ182の出力は他のサービス(例えば翻訳サービス、自動応答サービスなど)に与えられる。
The functional configuration of the DSR system is shown in block diagram form in FIG. Referring to FIG. 8, this system is composed of a mobile terminal, and performs analysis of the sound of the input audio signal and transmits the encoded analysis data in packet format, and analysis of this packet format. A
クライアント端末180は、音声信号に対して音響分析を行ない、所定の形式の特徴パラメータ(特徴データ)を抽出するための特徴パラメータ抽出部190と、特徴パラメータ抽出部190から出力された特徴パラメータに対して圧縮処理を行なう圧縮部192と、圧縮部192により圧縮された特徴パラメータ(以下、「圧縮特徴パラメータ」と呼ぶ。)に対し誤り訂正符号等を付す符号化を行ない、パケットのペイロードに格納し送信するための符号化処理部194とを含む。
The
音声認識サーバ182は、受信したパケットのペイロードに含まれる誤り訂正符号を復号化することで圧縮特徴パラメータを復元する復号化処理部200と、復号化処理部200により復元された圧縮特徴パラメータを伸張することにより、音響分析結果の特徴パラメータを復元する伸張処理部202と、伸張処理部202により復元された特徴パラメータを入力として受けて音声認識を行なうための認識処理部204とを含む。
The
最近のいわゆるインターネットの利用の広がりに伴い、クライアント端末180から音声認識サーバ182への通信はインターネット上に構築されたIP(Internet Protocol)ネットワークを介して行なわれることが多くなり、今後さらに一般的になると思われる。
With the recent spread of so-called Internet use, communication from the
DSRサービスにおいて、ユーザとサーバ間の音声対話を想定した場合、短い伝播遅延が望まれる。従ってDSRにおける音声データの送受信には、リアルタイム性を実現するRTP(Real Time Protocol)/UDP(User Datagram Protocol)/IPが適していると考えられる。インターネット技術の標準化団体であるIETF(The Internet Engineering Task Force)のAVT(Audio/Visual Transport)ワーキンググループでは、DSR向けのRTPパケット構成に関し勧告が出された。 In the DSR service, when a voice conversation between a user and a server is assumed, a short propagation delay is desired. Therefore, it is considered that RTP (Real Time Protocol) / UDP (User Datagram Protocol) / IP which realizes real-time performance is suitable for transmission / reception of audio data in DSR. In the AETF (Audio / Visual Transport) working group of IETF (The Internet Engineering Task Force), which is an Internet technology standardization organization, a recommendation was made regarding the RTP packet configuration for DSR.
しかし、RTP/UDP/IPを用いた送受信では、リアルタイム性を確保するために、何らかの原因でパケットが送信先に届かなかった場合でもパケットの再送は行なわない。たとえばパケットが輻輳した場合、ルータがパケットを破棄することがあるが、そのような場合にRTP/UDP/IPではそのパケットが再送されることはない。そのため、パケットロスが生じる。DSRにRTP/UDP/IPを用いるとパケットロスにより音声データのロスが生じることになる。また、そうしたパケットロスはバースト的に生じることが知られている。 However, in transmission / reception using RTP / UDP / IP, in order to ensure real-time performance, even if the packet does not reach the transmission destination for some reason, the packet is not retransmitted. For example, when a packet is congested, the router may discard the packet. In such a case, the packet is not retransmitted by RTP / UDP / IP. Therefore, packet loss occurs. When RTP / UDP / IP is used for DSR, voice data is lost due to packet loss. It is known that such packet loss occurs in a burst manner.
この問題を解決することを目的とした提案が、後掲の非特許文献1〜3においてなされている。 Proposals aimed at solving this problem have been made in Non-Patent Documents 1 to 3 below.
非特許文献1〜3では、パケットロスの生じた区間を代替値で補完したデータを用いて音声認識をするデータ補完法に関する検討及び実験が行なわれている。しかし、パケットロス率が大きい場合、又はパケットロス長が長い場合には、これらの方法では認識劣化を十分に補うことができない。 In Non-Patent Documents 1 to 3, studies and experiments on a data complementing method for performing speech recognition using data obtained by complementing a section in which a packet loss occurs with an alternative value are performed. However, when the packet loss rate is large or the packet loss length is long, these methods cannot sufficiently compensate for the recognition degradation.
それゆえに本発明の目的は、音声の特徴パラメータのシーケンス中に大きなロスが存在する場合でも比較的高い精度で音声認識を行なうことができる音声認識装置を提供することである。 Therefore, an object of the present invention is to provide a speech recognition apparatus capable of performing speech recognition with relatively high accuracy even when a large loss exists in a sequence of speech feature parameters.
この発明の他の目的は、バースト型のパケットロスが生じた場合でも比較的高い精度で音声認識を行なうことができる、サーバ型の音声認識装置を提供することである。 Another object of the present invention is to provide a server type speech recognition apparatus capable of performing speech recognition with relatively high accuracy even when a burst type packet loss occurs.
本発明の第1の局面に係る音声認識装置は、音声の特徴データとフレームの時間的順序を示すフレーム順序情報とを含むフレームを受信するためのフレーム受信手段と、フレーム受信手段により受信されたフレームをフレーム順序情報と関連付けて記憶するためのフレーム記憶手段と、フレーム受信手段に接続され、フレーム順序情報に基づいてフレームロスが発生したことを検出し、さらに当該フレームロスにより失われたフレームのフレーム位置を検出するためのフレームロス検出手段とを含む。音声認識装置はさらに、フレームロス検出手段によりフレームロスの発生が検出されたことに応答して、フレームロス検出手段によりロスが検出されたフレームの数だけのフレームの特徴データを、フレーム記憶手段に記憶されているフレームに含まれる特徴データ及びフレーム順序情報に基づいて個別に推定し、推定された特徴データを含むフレームを生成し、フレーム記憶手段内の、当該生成されたフレームのフレーム順序情報により定まるフレーム位置に挿入するための特徴データ推定手段と、フレーム記憶手段からフレームをフレーム順序情報に従った順序で読出して各フレームに含まれる特徴データに対する音声認識を行なうための音声認識手段とを含む。 A speech recognition apparatus according to a first aspect of the present invention includes a frame receiving unit for receiving a frame including voice feature data and frame order information indicating a temporal order of frames, and the frame receiving unit receives the frame. A frame storage means for storing the frame in association with the frame order information, and a frame receiving means for detecting that a frame loss has occurred based on the frame order information, and for detecting a frame lost due to the frame loss. Frame loss detecting means for detecting the frame position. The speech recognition apparatus further responds to the detection of the occurrence of the frame loss by the frame loss detection means, and stores the feature data of the frames as many as the number of frames detected by the frame loss detection means in the frame storage means. Based on the feature data and the frame order information included in the stored frame, individually estimated, a frame including the estimated feature data is generated, and the frame order information of the generated frame in the frame storage means is used. Feature data estimation means for inserting at a predetermined frame position, and voice recognition means for reading out the frames from the frame storage means in the order according to the frame order information and performing voice recognition on the feature data included in each frame. .
好ましくは、特徴データ推定手段は、第1のフレーム数を記憶するための第1のフレーム数記憶手段と、第1のフレーム数記憶手段に接続され、フレーム記憶手段に記憶されたフレームのうち、フレームロス検出手段により検出されたフレームロスの前の第1のフレーム数のフレームの特徴データをフレーム記憶手段から読出すための前フレーム読出手段と、前フレーム読出手段により読出された第1の数のフレームの特徴データに基づいて、フレームロス検出手段により検出されたフレームロス中の各フレームに含まれる特徴データを推定するための推定手段と、推定された特徴データを含むフレームを生成し、フレーム記憶手段内の、当該生成されたフレームのフレーム順序情報により定まるフレーム位置に挿入するためのフレーム挿入手段とを含む。 Preferably, the feature data estimation means is connected to the first frame number storage means for storing the first frame number and the first frame number storage means, and among the frames stored in the frame storage means, A previous frame reading means for reading out the frame feature data of the first frame number before the frame loss detected by the frame loss detecting means from the frame storage means, and a first number read by the previous frame reading means Based on the feature data of the frame, an estimation unit for estimating the feature data included in each frame in the frame loss detected by the frame loss detection unit, and a frame including the estimated feature data are generated. Frame insertion for insertion at a frame position determined by the frame order information of the generated frame in the storage means And a stage.
特徴データ推定手段はさらに、第2のフレーム数を記憶するための第2のフレーム数記憶手段と、第2のフレーム数記憶手段に接続され、フレーム記憶手段に記憶されたフレームのうち、フレームロス検出手段により検出されたフレームロスの後の第2の数のフレーム数のフレームの特徴データをフレーム記憶手段から読出すための後フレーム読出手段とを含んでもよい。推定手段は、前フレーム読出手段により読出された第1の数のフレームの特徴データ、及び後フレーム読出手段により読出された第2の数のフレームの特徴データに基づいて、フレームロス検出手段により検出されたフレームロス中の各フレームに含まれる特徴データを推定するための手段を含んでもよい。 The feature data estimation means is further connected to the second frame number storage means for storing the second number of frames and the second frame number storage means. Among the frames stored in the frame storage means, the frame loss And a post-frame reading unit for reading out feature data of the second number of frames after the frame loss detected by the detection unit from the frame storage unit. The estimation means is detected by the frame loss detection means based on the feature data of the first number of frames read by the previous frame reading means and the feature data of the second number of frames read by the subsequent frame reading means. Means may be included for estimating feature data included in each frame in the generated frame loss.
さらに好ましくは、フレームロス検出手段により検出された失われたフレームの数と所定のしきい値とを比較し、第1のフレーム数記憶手段に記憶されている第1のフレーム数、又は第2のフレーム数記憶手段に記憶されている第2のフレーム数、又はその双方を比較結果に従って定まる所定の更新方法に従って更新するための更新手段を含む。 More preferably, the number of lost frames detected by the frame loss detection means is compared with a predetermined threshold value, and the first frame number stored in the first frame number storage means or the second Update means for updating the second frame number stored in the frame number storage means or both in accordance with a predetermined update method determined according to the comparison result.
更新手段は、フレームロス検出手段により検出された失われたフレームの数と所定のしきい値とを比較し、第1のフレーム数記憶手段に記憶されている第1のフレーム数、又は第2のフレーム数記憶手段に記憶されている第2のフレーム数、又はその双方に、比較結果に従って定まる所定の定数を加算して更新するための手段を含んでもよい。 The update means compares the number of lost frames detected by the frame loss detection means with a predetermined threshold value, and compares the first frame number stored in the first frame number storage means, or the second A means for adding a predetermined constant determined according to the comparison result to the second frame number stored in the frame number storage means or both of them may be included.
好ましくは、所定の定数は失われたフレームの数がしきい値を超えている場合には正の定数であり、それ以外の場合には負の定数である。又は、所定の定数は失われたフレームの数がしきい値を超えている場合には負の定数であり、それ以外の場合には正の定数である。 Preferably, the predetermined constant is a positive constant if the number of lost frames exceeds a threshold value, and is a negative constant otherwise. Alternatively, the predetermined constant is a negative constant when the number of lost frames exceeds a threshold value, and is a positive constant otherwise.
好ましくは、推定するための手段は、次の式によって失われたフレームの特徴データを算出し、 Preferably, the means for estimating calculates feature data of the lost frame according to the following equation:
さらに好ましくは、特徴データ推定手段は、特徴データ推定手段による推定に用いられる第1のフレーム数及び第2のフレーム数を、フレームロスに含まれるフレームの数と対応付けて記憶するためのフレーム数テーブルと、フレーム数テーブル記憶手段に接続され、フレームロス検出手段により検出されたフレームロスに含まれるフレームの数に応じた第1のフレーム数及び第2のフレーム数をフレーム数テーブルより読出し、フレーム記憶手段に記憶されたフレームのうち、フレームロス検出手段により検出されたフレームロスの前の第1のフレーム数のフレームの特徴データと、当該フレームロスの後の第2のフレーム数のフレームの特徴データとをフレーム記憶手段から読出すためのフレーム読出手段と、フレーム読出手段により読出された第1のフレーム数のフレーム及び第2のフレーム数のフレームの特徴データに基づいて、フレームロス検出手段により検出されたフレームロス中の各フレームに含まれる特徴データを推定するための推定手段を含む。 More preferably, the feature data estimation means stores the first frame number and the second frame number used for estimation by the feature data estimation means in association with the number of frames included in the frame loss. A first frame number and a second frame number corresponding to the number of frames included in the frame loss detected by the frame loss detection unit, connected to the table and the frame number table storage unit, and read out from the frame number table; Of the frames stored in the storage means, the feature data of the frame having the first frame number before the frame loss detected by the frame loss detecting means and the feature of the frame having the second frame number after the frame loss are detected. Frame reading means for reading data from the frame storage means, and reading by the frame reading means Estimating means for estimating feature data included in each frame in the frame loss detected by the frame loss detecting means based on the feature data of the first number of frames and the second number of frames including.
本発明の第2の局面に係る音声認識装置は、音声の特徴データとフレームの時間的順序を示すフレーム順序情報とを含むフレームを受信するためのフレーム受信手段と、フレーム受信手段により受信されたフレームをフレーム順序情報と関連付けて記憶するためのフレーム記憶手段と、フレーム受信手段に接続され、フレーム順序情報に基づいてフレームロスが発生したことを検出し、さらに当該フレームロスにより失われたフレームのフレーム位置を検出するためのフレームロス検出手段と、フレーム記憶手段からフレームをフレーム順序情報に従った順序で読出して各フレームに含まれる特徴データに対する音声認識を行なうための音声認識手段とを含み、音声認識手段は、フレームロス検出手段によりフレームロスが検出されているか否かに従って、各状態の出力尤度を算出する手法を選択して出力尤度を算出する、隠れマルコフモデル(Hidden Markov Model:HMM)によって音声を認識するための手段を含む。 The speech recognition apparatus according to the second aspect of the present invention receives a frame including speech feature data and frame order information indicating the temporal order of frames, and received by the frame receiving means. A frame storage means for storing the frame in association with the frame order information, and a frame receiving means for detecting that a frame loss has occurred based on the frame order information, and for detecting a frame lost due to the frame loss. Frame loss detection means for detecting a frame position; and voice recognition means for reading the frames from the frame storage means in the order according to the frame order information and performing voice recognition on the feature data included in each frame, Whether the voice recognition means has detected a frame loss by the frame loss detection means. According to whether, by selecting the method of calculating the output likelihood of each state is calculated the output likelihood, Hidden Markov Models: comprising means for recognizing speech by (Hidden Markov Model HMM).
好ましくは、HMMによって音声を認識するための手段は、フレームロス検出手段によりフレームロスが検出されていないときには Preferably, the means for recognizing the voice by the HMM is when the frame loss is not detected by the frame loss detecting means.
以下、本発明の第1の実施の形態及びその変形例、並びに第2の実施の形態について説明する。各実施の形態については、最初に構成を述べ、次に動作を述べる。第1の実施の形態及び第2の実施の形態はいずれもMissing Feature Theory(MFT)と呼ばれる理論に基づいて音声認識を行なう。なお、以下の説明において、音声認識に必要な特徴パラメータ(特徴データ)はRTP/UDPで送信されるものとする。特徴パラメータは所定長(例えば50バイト)のフレーム単位で構成され、UDPのペイロードに複数フレームが格納されている。各RTPパケットには通し番号が付されている。また、UDPデータグラムのヘッダには、そのパケットのペイロードサイズが格納されている。 Hereinafter, the first embodiment of the present invention, its modification, and the second embodiment will be described. For each embodiment, the configuration will be described first, and then the operation will be described. In both the first embodiment and the second embodiment, speech recognition is performed based on a theory called Missing Feature Theory (MFT). In the following description, it is assumed that feature parameters (feature data) necessary for speech recognition are transmitted by RTP / UDP. The characteristic parameters are configured in units of frames having a predetermined length (for example, 50 bytes), and a plurality of frames are stored in the UDP payload. A serial number is assigned to each RTP packet. The header of the UDP datagram stores the payload size of the packet.
[第1の実施の形態]
‐構成‐
図1に、本発明の第1の実施の形態に係るサーバ‐クライアント型音声認識システムで使用される音声認識サーバ20のブロック図を示す。この第1の実施の形態に係る音声認識サーバ20は、MFTの中でもデータ補間法を用いて、パケットロスがあった場合の音声認識を行なう。
[First Embodiment]
-Constitution-
FIG. 1 shows a block diagram of a speech recognition server 20 used in the server-client speech recognition system according to the first embodiment of the present invention. The voice recognition server 20 according to the first embodiment performs voice recognition when there is a packet loss using the data interpolation method in the MFT.
図1を参照して、音声認識サーバ20は、インターネット網に接続され、この音声認識サーバ20を送信先として送信されてくるパケットを受信して一時蓄積するための入力バッファ30と、入力バッファ30中のUDPから取出される特徴パラメータのフレームをフレーム番号と関連付けて格納するフレームバッファ36とを含む。フレーム番号はフレームの時間的順序を示す順序情報である。本実施の形態ではフレームバッファ36はフレーム番号順にフレームを格納する。
Referring to FIG. 1, a speech recognition server 20 is connected to the Internet network. An
音声認識サーバ20はさらに、入力バッファ30が受信した一連のパケットにパケットロスが生じているか否かを検出し、さらにパケットロスにより失われたフレームの位置及び数を算出し、フレームロスが生じていることと、どのフレームが失われているかとを示すフレームロス検出信号を出力するためのフレームロス検出部32と、フレームロス検出部32によってフレームロスがあったことが検出されたことに応答して、フレームバッファ36に格納されているフレームに含まれている特徴パラメータを用いたデータ補間法によって失われた各フレームの特徴パラメータを推定し、フレームバッファ36内のその失われたフレームに相当する所定の位置に、補間された特徴データからなるフレームを挿入する処理を行なうための特徴パラメータ推定部34と、フレームバッファ36に格納されている特徴パラメータを順番に読出して音声認識を行なう音声認識部38とを含む。この音声認識部38は、従来技術で使用されているものと同一のものでよい。
The voice recognition server 20 further detects whether or not a packet loss has occurred in a series of packets received by the
図2は、フレームロス検出部32の詳細なブロック図である。図2を参照して、フレームロス検出部32は、入力バッファ30に一時蓄積されたUDPデータグラム中に含まれるRTPヘッダを抽出し、RTPシーケンス番号を調べることによりパケットロスが生じているか否か、及び失われたパケット数がいくつかを検知するためのロスパケット数検知部50と、入力バッファ30に一時蓄積されたUDPデータグラム中のUDPヘッダからペイロードサイズを読出すためのペイロードサイズ読出部52とを含む。
FIG. 2 is a detailed block diagram of the frame
フレームロス検出部32はさらに、ロスパケット数検知部50により検知されたロスパケット数と、ペイロードサイズ読出部52により読出されたUDPデータグラムのペイロードサイズ、及び所定のフレーム長によって、いくつのフレームがパケットロスにより失われたかを算出するためのロスフレーム数算出部54とを含む。ロスフレーム数算出部54は、この算出結果に従って前述したフレームロス検出信号を出力する。
The frame
図3は、図1に示す特徴パラメータ推定部34の詳細なブロック図である。図3を参照して、特徴パラメータ推定部34は、補間計算に使用される、それぞれフレームロス前後のフレーム数を記憶する第1及び第2のフレーム数記憶部80及び82を含む。第1のフレーム数記憶部80はフレームロス前のフレームであって補間計算に使用されるフレームの数を記憶する。第2のフレーム数記憶部82はフレームロス後のフレームであって補間計算に使用されるフレームの数を記憶する。
FIG. 3 is a detailed block diagram of the feature
特徴パラメータ推定部34はさらに、フレームロス検出信号及び第1のフレーム数記憶部80の出力を受け、フレームロスが生じたときに、フレームロス直前の第1のフレーム数記憶部80に記憶された数だけのフレームをフレームバッファ36から読出すための前フレーム読出部70と、同じくフレームロス検出信号及び第2のフレーム数記憶部82の出力を受け、フレームロスが生じたときに、フレームロス直後の第2のフレーム数記憶部82に記憶された数だけのフレームをフレームバッファ36から読出すための後フレーム読出部72とを含む。
The feature
特徴パラメータ推定部34はさらに、フレームロスが検出されたことに応答して、第1のフレーム数記憶部80及び第2のフレーム数記憶部82の出力、並びに前フレーム読出部70及び後フレーム読出部72によってフレームバッファ36から読出されたフレームを受け、後述する計算方法によって、失われたフレームの特徴パラメータを推定するための補間計算部74と、補間計算部74により推定された特徴パラメータからなる補間フレームをフレームバッファ36中の所定位置に挿入する処理を行なう補間フレーム挿入処理部76とを含む。
In response to the detection of the frame loss, the feature
第1のフレーム数記憶部80に記憶されているフレーム数をNf、第2のフレーム数記憶部82に記憶されているフレーム数をNbとする。本実施の形態ではNf及びNbはいずれも通信状態に従って以下の様に更新される。フレームロスの数をNLとする。この数NLがあるしきい値Sを超えていればNf及びNbの両者に定数を加算する。本実施の形態ではこの定数は正の定数1である。NLがしきい値S以下であればNf及びNbの両者から1を減算する。すなわち負の定数−1を加算する。ただし、Nf及びNbの最小値をいずれも0とする。
The number of frames stored in the first frame
特徴パラメータ推定部34はそのために、上記したしきい値Sを記憶するためのしきい値記憶部84と、しきい値記憶部84に記憶されたしきい値S,第1のフレーム数記憶部80及び第2のフレーム数記憶部82に記憶された数Nf及びNb、並びにフレームロス検出信号により表されたフレームロス数に従ってNf及びNbを更新するための更新処理部78と、しきい値記憶部84に記憶されたしきい値記憶部84を手操作により更新するためのしきい値入力部86とを含む。
For this purpose, the feature
補間計算部74が行なう補間計算について説明する。このフレーム補間は、パケットで送信されてくる特徴ベクトルの各要素に対し行なわれる。以下の説明では、特徴ベクトルストリーム中の、時刻tNにおけるベクトルxをx={Xt1,Xt2,…,XtN}で表す。またm番目のフレームが失われたものとする(1≦m≦N)。mは連続した複数の場合もあり得る。
Interpolation calculation performed by the
補間方法は多数存在するが、受信したデータに基づいてデータ補間を行なうことが有効である。本実施の形態では、図4に示す方法によってデータ補間を行なう。図4を参照して、失われたフレームの特徴ベクトル^Xtmは、t'f<tm<t'bを満足するtmを用いて以下の式に従い推定される。 There are many interpolation methods, but it is effective to perform data interpolation based on the received data. In this embodiment, data interpolation is performed by the method shown in FIG. Referring to FIG. 4, feature vector ^ Xtm of the lost frame by using the t m which satisfies t 'f <tm <t' b are estimated according to the following equation.
Xt'f及びXt'bは以下の様にして算出される。 X t′f and X t′b are calculated as follows.
図4に示す例はNf=Nb=3の例を示している。図4において、実線は特徴ベクトルの一要素の値を示し、×印はロスフレーム前後のそれぞれ3つずつのフレームの平均値を表す。○印は式(2)〜(4)を用いて算出された推定値を示す。 The example shown in FIG. 4 shows an example where N f = N b = 3. In FIG. 4, a solid line indicates a value of one element of the feature vector, and a cross indicates an average value of three frames before and after the loss frame. A circle indicates an estimated value calculated using equations (2) to (4).
‐動作‐
図1〜図3に示す音声認識システム10は以下の様に動作する。予め、しきい値記憶部84には所定のしきい値が設定されているものとする。また第1のフレーム数記憶部80及び第2のフレーム数記憶部82にも予め所定の値が設定されているものとする。多くの場合、前回の通信時に更新された値が第1のフレーム数記憶部80及び第2のフレーム数記憶部82に設定されているが、例えば電源投入ごとに所定の初期値がこれらに設定される様にしてもよい。
-Operation-
The voice recognition system 10 shown in FIGS. 1 to 3 operates as follows. It is assumed that a predetermined threshold is set in the
送信されてくるパケットは入力バッファ30に一時蓄積される。フレームロス検出部32のペイロードサイズ読出部52は、UDPヘッダからペイロードサイズ情報を読出し、ロスフレーム数算出部54に与える。通常、ペイロードサイズは固定された値である。
The transmitted packet is temporarily stored in the
ロスパケット数検知部50は一連のUDPペイロード中のRTPヘッダからパケット番号を読出し、それらの番号が連続しているか否かに基づいてパケットロスがあったか否かを判定する。パケットロスがあった場合、ロスパケット数検知部50はロスパケット数を算出しロスフレーム数算出部54に与える。
The lost packet
ロスフレーム数算出部54は、ペイロードサイズ読出部52から与えられたペイロードサイズ、及び予め設定されたフレームサイズに基づき、1UDPデータグラムのペイロード中に含まれるフレーム数を算出する。さらにロスフレーム数算出部54は、算出されたフレーム数にロスパケット数を乗ずることにより、ロスフレーム数を算出しフレームロス信号として特徴パラメータ推定部34に与える。
The loss frame
図3を参照して、特徴パラメータ推定部34の更新処理部78はフレームロス検出信号により指定されるロスフレーム数NLと、しきい値記憶部84に記憶されているしきい値Sとを比較する。NL>Sであれば更新処理部78は第1のフレーム数記憶部80及び第2のフレーム数記憶部82に記憶されている値Nf及びNbにそれぞれ1を加算する処理を行なう。それ以外の場合には更新処理部78は、値Nf及びNbからそれぞれ1を減算する処理を行なう。
Referring to FIG. 3, update processing
特徴パラメータ推定部34の前フレーム読出部70及び後フレーム読出部72は、それぞれ第1のフレーム数記憶部80及び第2のフレーム数記憶部82に記憶された値Nf及びNbに基づき、ロスフレームの直前及び直後のフレームをNf及びNbにより指定される数だけフレームバッファ36(図1)から読出す。読出されたフレームは補間計算部74に与えられる。補間計算部74は、第1のフレーム数記憶部80及び第2のフレーム数記憶部82に記憶された値Nf及びNb及び前フレーム読出部70及び後フレーム読出部72から与えられた、ロスフレームの直前及び直後のフレームの情報に基づき、式(1)に従ってロスフレームの特徴ベクトルの各要素を算出する。補間計算部74は、算出された要素からなる、推定されたロスフレームの特徴ベクトルを補間フレーム挿入処理部76に与える。
Based on the values N f and N b stored in the first frame
補間フレーム挿入処理部76は、フレームロス検出信号によって指定されるフレーム位置に補間計算部74により算出されたロスフレームの特徴ベクトルが挿入される様に、フレームバッファ36の内容を更新する。
The interpolation frame
図1に示す音声認識部38は、フレームバッファ36からフレームに含まれる特徴ベクトルを順に読出し、HMMに与えることで音声認識を行なう。
The speech recognition unit 38 shown in FIG. 1 performs speech recognition by sequentially reading out feature vectors included in a frame from the
音声認識部38が連続密度HMM(CDHMM)であるものとする。失われたフレームの状態Stは、補間計算部74により推定された特徴ベクトル^Xtを用いて計算される。従って、HMMのノードStの尤度関数は以下の式により与えられる。
It is assumed that the voice recognition unit 38 is a continuous density HMM (CDHMM). State S t lost frame is calculated using a feature vector ^ X t estimated by
この第1の実施の形態の装置によれば、パケットロスが生じ、複数のフレームが失われたときでも、特徴パラメータ推定部34によってロスフレームの特徴ベクトルが推定され、推定されたフレームが特徴パラメータ推定部34内のロスフレームの位置に挿入される。音声認識部38は単にフレームバッファ36から順にフレームを読出て音声認識を行なうだけでよい。そのため、音声認識部38の構成を従来のものと変えずに、パケットロスが生じた場合でも音声認識を行なうことができる。また後述する様にその精度は高く、従来よりも頑健な音声認識を実現できる。
According to the apparatus of the first embodiment, even when packet loss occurs and a plurality of frames are lost, the feature vector of the lost frame is estimated by the feature
なお、上記した実施の形態のシステムでは、値Nf及びNbの更新では、加算又は減算される値は1に限定されている。こうすることにより、ロスパケット数の数の変化によって値Nf及びNbの値が激しく変動し音声認識が不安定になることを防止できる。ただし、この値は1に限定されるわけではなく、応用に応じて適当な値を選択する様にすればよい。値Nf及びNbの更新を行なわず、固定した値(例えば値Nf=Nb=1)としてもよい。 In the system of the embodiment described above, the updating of the value N f and N b, the value to be added or subtracted is limited to 1. By doing so, it is possible to prevent the voice recognition from becoming unstable due to the fluctuation of the values N f and N b due to the change in the number of lost packets. However, this value is not limited to 1, and an appropriate value may be selected according to the application. The values N f and N b may not be updated and may be fixed values (for example, the value N f = N b = 1).
また上記した実施の形態のシステムでは、ロスフレームの前後のフレームを使用した内分によりロスフレームを推定している。しかしこの場合、ロスフレームの後のフレームの情報まで必要とするので推定に時間を要し、音声認識に遅延を生ずる。そこで、音声認識をできるだけ早くすることが必要な場合には、Nbの値を0に固定することが考えられる。ロスフレームの前の複数のフレームのデータから、ロスフレームの値を外挿することにより、式(1)を用いた場合と同様の結果を得ることができる。 In the system according to the above-described embodiment, the loss frame is estimated based on the internal division using the frames before and after the loss frame. However, in this case, since information of the frame after the loss frame is required, it takes time to estimate and delays speech recognition. Therefore, when it is necessary to make speech recognition as fast as possible, it is conceivable to fix the value of N b to 0. By extrapolating the value of the loss frame from the data of a plurality of frames before the loss frame, the same result as that obtained using Equation (1) can be obtained.
また上記した説明では、ロスフレーム数の数NLがしきい値Sを超えていればNf及びNbの両者に1を加算し、NLがしきい値S以下であればNf及びNbの両者から1を減算している。これは推定の精度を高めることを重視した方法である。しかしNf及びNbの数の決め方はこれに限定されるわけではない。例えば、処理のリアルタイム性を推定の精度よりも重視する場合には、ロスフレーム数の数NLがしきい値Sを超えていればNf及びNbの両者から1を減算し、NLがしきい値Sを超えていればNf及びNbの両者から1を減算することも考えられる。 In the above description, if the number N L of lost frames exceeds the threshold S, 1 is added to both N f and N b , and if N L is equal to or less than the threshold S, N f and 1 is subtracted from both of N b . This is a method that attaches importance to increasing the accuracy of estimation. However, the method of determining the numbers of N f and N b is not limited to this. For example, when the real-time property of processing is more important than the accuracy of estimation, if the number N L of lost frames exceeds the threshold value S, 1 is subtracted from both N f and N b , and N L If N exceeds the threshold value S, 1 may be subtracted from both N f and N b .
[第1の実施の形態の変形例]
第1の実施の形態のシステムでは、第1のフレーム数記憶部80及び第2のフレーム数記憶部82に記憶されたNf及びNbの値をパケット数に応じて更新する。しかし本発明はそのような実施の形態に限定されず、パケットロスの数NLに応じてNf及びNbの値を予め定める様にすることも考えられる。そのためには、NLに対するNf及びNbの値を予めテーブルにしておけばよい。そのようなシステムで使用される特徴パラメータ推定部120のブロック図を図5に示す。この補間計算部120は、図1に示す特徴パラメータ推定部34に代えて使用することができる。
[Modification of First Embodiment]
In the system according to the first embodiment, the values of N f and N b stored in the first frame
図5を参照して、特徴パラメータ推定部120は、上記したパケットロス数NLに対するフレームロス前後のフレーム数Nf及びNbを記憶するテーブル130と、フレームロス検出信号を受け、フレームロスが生じたときに、ロスフレームの数NLに対応する数Nfをテーブル130から読出し、さらにその数Nfに対応するフレームロス直前のフレームをフレームバッファ36から読出すための前フレーム読出部132と、同じくフレームロス検出信号出力を受け、フレームロスが生じたときに、ロスフレームの数NLに対応する数Nbをテーブル130から読出し、さらにその数Nbに対応するフレームロス直後のフレームをフレームバッファ36から読出すための後フレーム読出部134とを含む。
Referring to FIG. 5, the feature
特徴パラメータ推定部120はさらに、フレームロスが検出されたことに応答して、ロスフレームの数NLに対応する数Nf及びNbをテーブル130から読出し、さらに前フレーム読出部132及び後フレーム読出部134によってフレームバッファ36から読出されたフレームを受け、式(1)と同様の計算方法によって、失われたフレームの特徴パラメータを推定するための補間計算部136と、補間計算部136により推定された特徴パラメータからなる補間フレームをフレームバッファ36中の所定位置に挿入する処理を行なう補間フレーム挿入処理部76とを含む。
In response to the detection of the frame loss, the feature
この特徴パラメータ推定部120は、Nf及びNbの値の定め方以外は第1の実施の形態と同様に動作する。
The feature
この変形例では、ロスパケットの数NLと内分のための値Nf及びNbとの関係が固定されている。そのため、第1の実施の形態における様にその関係自体を動的に変えることはできない。しかし、予めパケットロスの発生状況と値Nf及びNbとの関係を予測することができる場合には有効である。また、この変形例ではレスポンス時間が一定となるため、一定の精度で安定して音声認識を行なうのに有効である。 In this modification, the relationship between the number N L of lost packets and the values N f and N b for internal division is fixed. Therefore, the relationship itself cannot be changed dynamically as in the first embodiment. However, it is effective when it is possible to predict in advance the relationship between the occurrence of packet loss and the values N f and N b . Further, in this modified example, since the response time is constant, it is effective for stably performing speech recognition with a constant accuracy.
[第2の実施の形態]
第1の実施の形態のシステムは、ロスフレームに含まれる特徴ベクトルをロスフレーム群の前後のフレームの特徴ベクトルから推定した。フレームロスがある場合の音声認識の他の方法に、マージナリゼーション方式と呼ばれるものがある。本発明の第2の実施の形態に係るシステムは、マージナリゼーション方式を用いたものである。
[Second Embodiment]
In the system according to the first embodiment, the feature vector included in the loss frame is estimated from the feature vectors of the frames before and after the loss frame group. Another method of speech recognition when there is a frame loss is called a marginalization method. The system according to the second embodiment of the present invention uses a marginalization method.
マージナリゼーション方式では、一部の音声データが失われた場合、失われたデータを用いずにHMMでの出力尤度を操作することで認識を行なう。これを実現するために、音声認識サーバにフレームロスを検知する機能を持つ必要がある点は第1の実施の形態のシステムと同様である。 In the marginalization method, when a part of audio data is lost, recognition is performed by manipulating the output likelihood in the HMM without using the lost data. In order to realize this, the point that the voice recognition server needs to have a function of detecting a frame loss is the same as in the system of the first embodiment.
図6に、第2の実施の形態に係るサーバ‐クライアント型音声認識システムで使用される音声認識サーバ140のブロック図を示す。図6を参照してこの音声認識サーバ140は、第1の実施の形態の音声認識サーバ20と同様の入力バッファ30、フレームロス検出部32、及びフレームバッファ36を含む。さらにこの音声認識サーバ140は、第1の実施の形態の音声認識サーバ20と異なり、フレームロス検出部32の出力するフレームロス検出信号を直接受け、失われたフレームの特徴ベクトルを推定することなくマージナリゼーション方式で音声認識を行なう音声認識部150を含む。
FIG. 6 shows a block diagram of a
図6において、図1と同じ部品には同じ参照番号を付してある。それらの名称及び機能も同一である。従ってここではそれらについての詳細な説明は繰返さない。 In FIG. 6, the same components as those in FIG. 1 are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated here.
マージナリゼーション手法による音声認識では、次の式によりHMMのノードStの出力尤度p(Xt|St)を求める。 In speech recognition by merging internalization technique, the output likelihood p nodes S t of the HMM by the following equation | Request (X t S t).
フレームロスがない場合には、式(5)の上の第1式を用いてHMMの各状態の出力尤度を計算する。フレームロスがある場合には、第1式のXtが存在しないため、式(5)の第2式により示される様に全ての状態の出力尤度を同じ値「C」とする。これにより、フレームロスがある場合には、状態遷移は、予め学習された状態遷移確率のみに依存することになる。 When there is no frame loss, the output likelihood of each state of the HMM is calculated using the first equation above Equation (5). If there is a frame loss, there is no Xt in the first equation, so that the output likelihoods in all states are set to the same value “C” as indicated by the second equation in equation (5). Thus, when there is a frame loss, the state transition depends only on the state transition probability learned in advance.
音声認識部150の構成を模式的に図7に示す。図7を参照して、音声認識部150は、HMM160と、上に示した式(5)の第1式を用いてHMM160の各状態の出力尤度を計算する出力尤度算出部164と、定数Cを記憶する定数記憶部166と、パケットロスがない場合には出力尤度算出部164を用い、パケットロスがある場合には定数記憶部166の出力Cを用い、それぞれ各状態の出力尤度を算出する様にHMM160を制御する選択部162とを含む。
A configuration of the
フレームロス検出信号が、フレームロス検出を示す値であるときは選択部162は定数記憶部166の出力をHMM160の各出力尤度とする。フレームロスが検出されていないときには、選択部162は、HMM160の各状態の出力尤度に出力尤度算出部164での計算結果を用いる。
When the frame loss detection signal is a value indicating frame loss detection, the
この音声認識部150により、上記したマージナリゼーションによる音声認識が可能となる。
The
[実験結果]
上記第1の実施の形態のシステム、及び第2の実施の形態のシステムを用いてフレームロスが生じた場合の音声認識の結果を調べる実験を行なった。実験では、パケットロスがランダムに生じると仮定したランダムロスモデル、及び通常状態とロス状態の2状態の間での遷移確率を定めて得られるギルバートロスモデルについて、パケットロス率と平均バーストロス長に対する単語認識率の傾向を調べた。実験を簡易とするため、1パケットに1フレームが格納されていると仮定した。
[Experimental result]
An experiment was conducted to examine the result of speech recognition when a frame loss occurred using the system of the first embodiment and the system of the second embodiment. In the experiment, the random loss model assumed that packet loss occurs randomly, and the Gilbert loss model obtained by determining the transition probability between the normal state and the loss state, the packet loss rate and the average burst loss length The tendency of word recognition rate was investigated. In order to simplify the experiment, it was assumed that one frame was stored in one packet.
実施の形態1の実験では、簡単のためにNf=1かつNb=0に固定した実験と、Nf=1かつNb=1に固定した実験とを行なった。 In the experiment of the first embodiment, for the sake of simplicity, an experiment in which N f = 1 and N b = 0 were fixed and an experiment in which N f = 1 and N b = 1 were fixed were performed.
また、比較のために、第1の実施の形態において、特徴ベクトルを算出するかわりに、予めHMMの学習の時に使用されたデータの平均を求め、この平均ベクトルを失われたフレームのデータとしてHMMで音声認識を行なう実験も行なった。これをベースラインとして実験結果を考察する。 For comparison, in the first embodiment, instead of calculating a feature vector, an average of data used at the time of HMM learning is obtained in advance, and this average vector is used as lost frame data as an HMM. We also conducted an experiment to perform speech recognition. We consider the experimental results using this as a baseline.
その結果、平均バースト長が長くなると、上記したいずれの実験においても単語認識率は低下した。しかし、本発明による単語認識を行なった場合の単語認識率は、いずれの場合もベースラインの結果を大きく上回った。パケットロス率が大きくなるとその差は大きくなる。また、マージナリゼーション方式(第2の実施の形態)による単語認識率は、他のいずれをも上回った。従ってマージナリゼーション方式はバーストパケットロスに対し、他の方式よりも頑健であると考えられる。 As a result, as the average burst length increased, the word recognition rate decreased in any of the experiments described above. However, the word recognition rate when word recognition according to the present invention was performed was significantly higher than the baseline result in all cases. The difference increases as the packet loss rate increases. Moreover, the word recognition rate by the marginalization method (2nd Embodiment) exceeded all the others. Therefore, it is considered that the marginalization method is more robust against burst packet loss than other methods.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
20,140,182 音声認識サーバ、30 入力バッファ、32 フレームロス検出部、34,120 特徴パラメータ推定部、36 フレームバッファ、38,150 音声認識部、50 ロスパケット数検知部、52 ペイロードサイズ読出部、54 ロスフレーム数算出部、70,132 前フレーム読出部、72,134 後フレーム読出部、74,136 補間計算部、76 補間フレーム挿入処理部、78 更新処理部、80 第1のフレーム数記憶部80、82 第2のフレーム数記憶部、130 テーブル
20, 140, 182 Speech recognition server, 30 input buffer, 32 frame loss detection unit, 34, 120 feature parameter estimation unit, 36 frame buffer, 38, 150 speech recognition unit, 50 lost packet number detection unit, 52 payload size reading unit , 54 Loss frame number calculation unit, 70, 132 Previous frame reading unit, 72, 134 Post frame reading unit, 74, 136 Interpolation calculation unit, 76 Interpolation frame insertion processing unit, 78 Update processing unit, 80 First frame
Claims (11)
前記フレーム受信手段により受信されたフレームをフレーム順序情報と関連付けて記憶するためのフレーム記憶手段と、
前記フレーム受信手段に接続され、前記フレーム順序情報に基づいてフレームロスが発生したことを検出し、さらに当該フレームロスにより失われたフレームのフレーム位置を検出するためのフレームロス検出手段と、
前記フレームロス検出手段によりフレームロスの発生が検出されたことに応答して、前記フレームロス検出手段によりロスが検出されたフレームの数だけのフレームの特徴データを、前記フレーム記憶手段に記憶されているフレームに含まれる特徴データ及び前記フレーム順序情報に基づいて推定し、当該推定された特徴データを含むフレームを生成し、前記フレーム記憶手段内の、当該生成されたフレームのフレーム順序情報により定まるフレーム位置に挿入するための特徴データ推定手段と、
前記フレーム記憶手段からフレームをフレーム順序情報に従った順序で読出して各フレームに含まれる特徴データに対する音声認識を行なうための音声認識手段とを含む、音声認識装置。 Frame receiving means for receiving a frame including voice feature data and frame order information indicating a temporal order of frames;
Frame storage means for storing the frame received by the frame receiving means in association with frame order information;
Frame loss detecting means connected to the frame receiving means, detecting that a frame loss has occurred based on the frame order information, and detecting a frame position of a frame lost due to the frame loss;
In response to the occurrence of frame loss detected by the frame loss detection means, frame feature data corresponding to the number of frames detected by the frame loss detection means is stored in the frame storage means. A frame determined based on the frame order information of the generated frame in the frame storage means, which is estimated based on the feature data included in the existing frame and the frame order information, generates a frame including the estimated feature data Feature data estimation means for insertion at a position;
A speech recognition apparatus comprising: speech recognition means for reading out frames from the frame storage means in an order according to frame order information and performing speech recognition on feature data included in each frame.
第1のフレーム数を記憶するための第1のフレーム数記憶手段と、
前記第1のフレーム数記憶手段に接続され、前記フレーム記憶手段に記憶されたフレームのうち、前記フレームロス検出手段により検出されたフレームロスの前の前記第1のフレーム数のフレームの特徴データを前記フレーム記憶手段から読出すための前フレーム読出手段と、
前記前フレーム読出手段により読出された前記第1の数のフレームの特徴データに基づいて、前記フレームロス検出手段により検出されたフレームロス中の各フレームに含まれる特徴データを推定するための推定手段と、
推定されたフレームを、前記フレーム記憶手段内のフレーム順序情報により定まるフレーム位置に挿入するためのフレーム挿入手段とを含む、請求項1に記載の音声認識装置。 The feature data estimation means includes:
First frame number storage means for storing the first frame number;
Of the frames stored in the frame storage means and connected to the first frame number storage means, the feature data of the frame having the first frame number before the frame loss detected by the frame loss detection means is obtained. Previous frame reading means for reading from the frame storage means;
Estimation means for estimating feature data included in each frame in the frame loss detected by the frame loss detection means based on the feature data of the first number of frames read by the previous frame reading means When,
The speech recognition apparatus according to claim 1, further comprising: a frame insertion unit for inserting the estimated frame at a frame position determined by frame order information in the frame storage unit.
第2のフレーム数を記憶するための第2のフレーム数記憶手段と、
前記第2のフレーム数記憶手段に接続され、前記フレーム記憶手段に記憶されたフレームのうち、前記フレームロス検出手段により検出されたフレームロスの後の前記第2の数のフレーム数のフレームの特徴データを前記フレーム記憶手段から読出すための後フレーム読出手段とを含み、
前記推定手段は、前記前フレーム読出手段により読出された前記第1の数のフレームの特徴データ、及び前記後フレーム読出手段により読出された前記第2の数のフレームの特徴データに基づいて、前記フレームロス検出手段により検出されたフレームロス中の各フレームに含まれる特徴データを推定するための手段を含む、請求項2に記載の音声認識装置。 The feature data estimation means further includes
Second frame number storage means for storing a second frame number;
Of the frames connected to the second frame number storage means and stored in the frame storage means, the characteristics of the second number of frames after the frame loss detected by the frame loss detection means Post-frame reading means for reading data from said frame storage means,
The estimating means is based on the feature data of the first number of frames read by the previous frame reading means and the feature data of the second number of frames read by the subsequent frame reading means. The speech recognition apparatus according to claim 2, comprising means for estimating feature data included in each frame in the frame loss detected by the frame loss detection means.
前記特徴データ推定手段による推定に用いられる第1のフレーム数及び第2のフレーム数を、フレームロスに含まれるフレームの数と対応付けて記憶するためのフレーム数テーブルと、
前記フレーム数テーブル記憶手段に接続され、前記フレームロス検出手段により検出されたフレームロスに含まれるフレームの数に応じた前記第1のフレーム数及び前記第2のフレーム数を前記フレーム数テーブルより読出し、前記フレーム記憶手段に記憶されたフレームのうち、前記フレームロス検出手段により検出されたフレームロスの前の前記第1のフレーム数のフレームの特徴データと、当該フレームロスの後の前記第2のフレーム数のフレームの特徴データとを前記フレーム記憶手段から読出すためのフレーム読出手段と、
前記フレーム読出手段により読出された前記第1のフレーム数のフレーム及び前記第2のフレーム数のフレームの特徴データに基づいて、前記フレームロス検出手段により検出されたフレームロス中の各フレームに含まれる特徴データを推定するための推定手段を含む、請求項1に記載の音声認識装置。 The feature data estimation means includes:
A frame number table for storing the first frame number and the second frame number used for estimation by the feature data estimation unit in association with the number of frames included in a frame loss;
The first frame number and the second frame number corresponding to the number of frames included in the frame loss detected by the frame loss detection unit and connected to the frame number table storage unit are read from the frame number table. , Out of the frames stored in the frame storage means, feature data of the first number of frames before the frame loss detected by the frame loss detection means, and the second feature data after the frame loss Frame reading means for reading frame feature data of the number of frames from the frame storage means;
Included in each frame in the frame loss detected by the frame loss detecting means based on the feature data of the first number of frames and the second number of frames read by the frame reading means The speech recognition apparatus according to claim 1, comprising estimation means for estimating feature data.
前記フレーム受信手段により受信されたフレームをフレーム順序情報と関連付けて記憶するためのフレーム記憶手段と、
前記フレーム受信手段に接続され、前記フレーム順序情報に基づいてフレームロスが発生したことを検出し、さらに当該フレームロスにより失われたフレームのフレーム位置を検出するためのフレームロス検出手段と、
前記フレーム記憶手段からフレームをフレーム順序情報に従った順序で読出して各フレームに含まれる特徴データに対する音声認識を行なうための音声認識手段とを含み、
前記音声認識手段は、前記フレームロス検出手段によりフレームロスが検出されているか否かに従って、各状態の出力尤度を算出する手法を選択して出力尤度を算出する、隠れマルコフモデル(HMM)によって音声を認識するための手段を含む、音声認識装置。 Frame receiving means for receiving a frame including voice feature data and frame order information indicating a temporal order of frames;
Frame storage means for storing the frame received by the frame receiving means in association with frame order information;
Frame loss detecting means connected to the frame receiving means, detecting that a frame loss has occurred based on the frame order information, and detecting a frame position of a frame lost due to the frame loss;
Voice recognition means for reading out frames from the frame storage means in an order according to frame order information and performing voice recognition on feature data included in each frame;
The speech recognition unit selects a method for calculating an output likelihood of each state according to whether or not a frame loss is detected by the frame loss detection unit, and calculates an output likelihood. A hidden Markov model (HMM) A speech recognition apparatus comprising means for recognizing speech by means of
前記フレームロス検出手段によりフレームロスが検出されていないときには
前記フレームロス検出手段によりフレームロスが検出されているときには
When no frame loss is detected by the frame loss detection means
When a frame loss is detected by the frame loss detection means
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003293836A JP3965141B2 (en) | 2003-08-15 | 2003-08-15 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003293836A JP3965141B2 (en) | 2003-08-15 | 2003-08-15 | Voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005062572A true JP2005062572A (en) | 2005-03-10 |
JP3965141B2 JP3965141B2 (en) | 2007-08-29 |
Family
ID=34370605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003293836A Expired - Fee Related JP3965141B2 (en) | 2003-08-15 | 2003-08-15 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3965141B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009008220A1 (en) * | 2007-07-09 | 2009-01-15 | Nec Corporation | Sound packet receiving device, sound packet receiving method and program |
JP2010518442A (en) * | 2007-02-10 | 2010-05-27 | サムスン エレクトロニクス カンパニー リミテッド | Error frame parameter updating method and apparatus |
JP2010217628A (en) * | 2009-03-18 | 2010-09-30 | Kddi Corp | Speech recognition processing method and system, for inputting text by voice |
JP2019502949A (en) * | 2015-12-18 | 2019-01-31 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Encoding multiple audio signals |
-
2003
- 2003-08-15 JP JP2003293836A patent/JP3965141B2/en not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010518442A (en) * | 2007-02-10 | 2010-05-27 | サムスン エレクトロニクス カンパニー リミテッド | Error frame parameter updating method and apparatus |
WO2009008220A1 (en) * | 2007-07-09 | 2009-01-15 | Nec Corporation | Sound packet receiving device, sound packet receiving method and program |
JP5012897B2 (en) * | 2007-07-09 | 2012-08-29 | 日本電気株式会社 | Voice packet receiving apparatus, voice packet receiving method, and program |
JP2010217628A (en) * | 2009-03-18 | 2010-09-30 | Kddi Corp | Speech recognition processing method and system, for inputting text by voice |
JP2019502949A (en) * | 2015-12-18 | 2019-01-31 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Encoding multiple audio signals |
Also Published As
Publication number | Publication date |
---|---|
JP3965141B2 (en) | 2007-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2140590B1 (en) | Method of transmitting data in a communication system | |
US20090164657A1 (en) | Application aware rate control | |
EP2140637B1 (en) | Method of transmitting data in a communication system | |
US20090168673A1 (en) | Method and apparatus for detecting and suppressing echo in packet networks | |
KR100901399B1 (en) | Server, terminal, communication system, transfer processing method, and program storage medium storing program thereof | |
US10103999B2 (en) | Jitter buffer level estimation | |
JP2013513261A (en) | Random data stream sampling | |
Na et al. | Allowable propagation delay for VoIP calls of acceptable quality | |
JP3965141B2 (en) | Voice recognition device | |
CN114285830A (en) | Voice signal processing method and device, electronic equipment and readable storage medium | |
CN107978325B (en) | Voice communication method and apparatus, method and apparatus for operating jitter buffer | |
Oklander et al. | Jitter buffer analysis | |
Ha et al. | TCP network coding with adapting parameters for bursty and time-varying loss | |
Altman et al. | Queuing analysis of simple FEC schemes for voice over IP | |
JP2005033499A (en) | Method and device for absorbing fluctuation of propagation time of voice ip terminal | |
Dán et al. | On the effects of the packet size distribution on the packet loss process | |
US7693151B2 (en) | Method and devices for providing protection in packet switched communications networks | |
JP4983054B2 (en) | Server apparatus and buffer control method in the same apparatus | |
US6920219B2 (en) | Method and apparatus for providing echo cancellation | |
Yu et al. | Quality-based jitter buffer algorithm using adaptive variable-size window | |
CN107113357B (en) | Improved method and apparatus relating to speech quality estimation | |
KR20070105151A (en) | Apparatus and method for voice packet recovery | |
CN113409799B (en) | Audio encoding method, apparatus, device and computer readable storage medium | |
KR101418354B1 (en) | Apparatus and method for playout scheduling in voice over internet protocol system | |
Kohler et al. | Markov chain prediction for missing speech frame compensation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060815 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061010 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070515 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070525 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |