JP2003195880A - Server-client type voice recognition device - Google Patents

Server-client type voice recognition device

Info

Publication number
JP2003195880A
JP2003195880A JP2001399182A JP2001399182A JP2003195880A JP 2003195880 A JP2003195880 A JP 2003195880A JP 2001399182 A JP2001399182 A JP 2001399182A JP 2001399182 A JP2001399182 A JP 2001399182A JP 2003195880 A JP2003195880 A JP 2003195880A
Authority
JP
Japan
Prior art keywords
speech
side
data
state detection
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001399182A
Other languages
Japanese (ja)
Inventor
Masahiro Kuroda
正洋 黒田
Original Assignee
Nec Corp
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corp, 日本電気株式会社 filed Critical Nec Corp
Priority to JP2001399182A priority Critical patent/JP2003195880A/en
Publication of JP2003195880A publication Critical patent/JP2003195880A/en
Application status is Pending legal-status Critical

Links

Abstract

<P>PROBLEM TO BE SOLVED: To provide a server-client type voice recognition device which makes it possible to discriminate between a problem of a pure decrease in voice recognition precision and a problem of a decrease in recognition precision due to congestion on a network and can minimize latency generated in recognition processing although the recognition level is kept practically high enough. <P>SOLUTION: There are provided a temporary storage part 103 which holds voice data and a state detection point until the end of voice recognition processing and a control part 111 which calculates the ratio of a data resending request part from a server side to the total voicing time from a data resending request signal in detection point units sent from the server side and holds it. Consequently, the voice resending request rate in initial voicing is estimated only with information that a client-side device 1 receives and the size and encoding rate of data that the terminal side sends can be adjusted without any notice of a voice recognition rate from the server. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は、音声認識技術に関し、特に、携帯電話等の端末(クライアント)側で音声検出を行い、サーバ側で、音声分析・認識を行うサーバ・クライアント型音声認識装置に関する。 BACKGROUND OF THE INVENTION [0001] [Technical Field of the Invention The present invention relates to a speech recognition technology, and in particular, performs voice detected by the terminal (client) side such as a cellular phone, on the server side, voice analysis and recognition of the server-client type speech recognition apparatus for performing. 【0002】 【従来の技術】従来より、端末側(クライアント側)で音声検出を行い、検出後の波形データをサーバ側へ送信し、サーバ側にて分析・認識処理を行うサーバ・クライアント型音声認識装置として、Dialogic CSP(Continuou 2. Description of the Prior Art Conventionally, performs voice detection on the terminal side (client-side), the waveform data after detection is transmitted to the server side, the server-client type speech performing analysis and recognition process by the server-side as a recognition device, Dialogic CSP (Continuou
s Speech Processing)を用いた音声認識装置が知られている。 s Speech Processing) voice recognition device using a is known. このDialogic CSPでは端末側で検出された波形データを圧縮せずに、そのままサーバへ送信するために、 Without compression waveform data detected by the Dialogic CSP the terminal side, for transmission to the server as it is,
送信時に多大な時間およびコストを必要としていた。 It has required a great deal of time and cost at the time of transmission. 【0003】また近年、端末側で音声検出を行い、検出後の波形データを圧縮し、圧縮した波形データをサーバ側へ送信する通信方式であるVoIP(Voice over Internet [0003] In recent years, performs voice detection on the terminal side, compressing the waveform data after detection, a communication method for transmitting compressed waveform data to the server-side VoIP (Voice over Internet
Protocol)を音声認識に応用した例として、3GPP(Third The Protocol) as an example of an application to a speech recognition, 3GPP (Third
Generation Partnership Project)のワークグループの1つであるETSI(the European Telecommunications Sta Generation Partnership Project), which is one of the work group of the ETSI (the European Telecommunications Sta
ndards Institute)-STQ Aurora DSR(Distributed Speec ndards Institute) -STQ Aurora DSR (Distributed Speec
h Recognition) Working Groupが進めている標準化プロジェクトがある。 h Recognition) there is a standardization project Working Group is underway. 【0004】このプロジェクトでは、端末側で音声検出・分析を行い、分析後のパラメータ(特徴ベクトル)をサーバ側に送信し、サーバ側で音声認識を行うサーバ・ [0004] In this project, it performs voice detection and analysis on the terminal side, parameters after analyzing the (feature vectors) and sends to the server, performs the speech recognition server-side server
クライアント型音声認識装置が提案されている。 Client type speech recognition devices have been proposed. 【0005】VoIPを拡張したサーバ・クライアント型音声認識装置では、一般にデータ転送プロトコルとしてリアルタイムアプリケーションを伝送するのに適したプロトコル(IP網に音声、映像等のリアルタイムメディアをリアルタイムに伝送するための規格)であるRTP(Real-Ti [0005] In the server-client type speech recognition apparatus which extends in VoIP, general protocol suitable for transmitting real-time application as a data transfer protocol (IP network to a voice, standard for transmitting real-time media such as a video in real time ) and is RTP (Real-Ti
me Transport Protocol;リアルタイム転送プロトコル) me Transport Protocol; Real-time Transport Protocol)
を用いてパケットを生成し、UDP(User Datagram Pr It generates a packet using, UDP (User Datagram Pr
otocol)/IPネットワークを通じてパケットの送受信を行っている。 It is doing the sending and receiving of packets through otocol) / IP network. 【0006】 【発明が解決しようとする課題】第1の問題点は、音声認識率低下の原因が、純粋な音声認識精度の低下の問題であるのか、ネットワークの輻輳による認識精度の低下によるものであるのかが判別できない、ということである。 SUMMARY OF THE INVENTION Problems to be Solved] A first problem is the cause of the speech recognition rate decreases, whether it is pure problem of reduction of speech recognition accuracy, by lowering of recognition accuracy due to network congestion it can not determine whether the in, is that. 【0007】その理由は、サーバ側での音声認識率と端末側で感知できるネットワークの輻輳状態とを関連付けて判断する手段が無かったことによる。 [0007] The reason is that the means for determining in association with the congestion state of the network that can be detected by the speech recognition rate and the terminal side of the server side was not. 【0008】第2の問題点は、送信した音声データの精度(符号化レート)が低かったために、音声認識に失敗した場合(低ビットレートによる転送が原因して音声認識ができなかった場合)、再度、高精度なデータを送信しなければならない、ということである。 A second problem is that the accuracy of the transmitted voice data to (coding rate) is low, (when unable to speech recognition to cause transfer by low bit-rate) Failure to speech recognition is that again, must transmit highly accurate data, as. 【0009】その理由は、現状のサーバ・クライアント型音声認識装置には、階層符号化したデータを保持しておく手段や、差分データのみを要求する手段が存在していないことによる。 [0009] The reason is that the server-client type speech recognition apparatus of current, by and means for holding data obtained by hierarchical coding, in that there are no means for requesting only the difference data. 【0010】したがって、本発明が解決しようとする課題は、サーバ・クライアント型の音声認識装置において、純粋な音声認識精度の低下の問題と、ネットワークの輻輳による認識精度の低下の問題を区別することを可能にし、認識レベルを実用に耐えうるものとしながら、 Accordingly, an object of the present invention is to provide, in a server-client type speech recognition apparatus, to distinguish the pure problems decrease in voice recognition accuracy, the problem of lowering the recognition accuracy due to network congestion allow, while shall withstand the recognition level for practical use,
認識処理で生じるレイテンシを低減する、ことを可能にする装置を提供することにある。 Reducing the latency caused by the recognition process is to provide a device which makes it possible. 【0011】本発明が解決しようとする課題は、サーバ・クライアント側の音声認識装置において、サーバ側の装置がクライアント側の装置に対して、より高精度な符号化データを要求した場合、階層符号化による差分データのみを送信することで、ネットワークの帯域を節約する装置を提供することにある。 [0011] An object of the present invention is to provide, in the speech recognition unit of a server-client, when the server side of the device to the client-side of the device, has requested more accurate encoded data, hierarchical encoding by sending only the difference data by reduction, it is to provide a device to save the network bandwidth. 【0012】 【課題を解決するための手段】上記課題の少なくとも一つを解決するための手段を提供する本発明の一つのアスペクト(側面)に係るサーバ・クライアント型音声認識装置は、音声波形データおよび音声状態検出点を音声認識処理終了時まで保持する一時記憶部と、サーバ側から送信される検出点単位でのデータ再送要求信号から発声時間に対するサーバ側からのデータ再送要求部分の割合を計算して保持する制御部を有する。 [0012] [Means for Solving the Problems] at least one provides a means for solving the server-client type speech recognition apparatus according to one aspect (aspect) of the present invention the above object, the audio waveform data and calculating a temporary storage unit for holding the speech state detection point until the voice recognition processing is completed, the rate of data retransmission request portion from the server side for the utterance time from the data retransmission request signal at the detection point units transmitted from the server-side having a control unit which holds the. 【0013】本発明によれば、かかる構成を採用することで、端末側(クライアント側)が受信する情報のみで、初回発声時の音声認識率を推定することにより、サーバからの音声認識率の通知無しに、端末側が送信するデータサイズおよび符号化レートを調整することが出来る。 According to the present invention, by employing such a constitution, only the information terminal (client) receives, by estimating the speech recognition rate of the first time utterance, the speech recognition rate from the server without notice, the terminal side can adjust the data size and coding rate to transmit. 【0014】本発明の別のアスペクト(側面)に係るサーバ・クライアント型音声認識装置は、発生音声を階層符号化して音声認識処理終了時まで符号化データを保持する一時記憶部を有する。 [0014] Another aspect server-client type speech recognition apparatus according to the (side) of the present invention includes a temporary storage unit for holding encoded data until the voice recognition processing is completed hierarchically encoding of voice. 本発明によれば、かかる構成を採用することで、サーバ側装置から過去に送信した音声データが精度不足により認識に失敗し、符号化データの再送要求が来た場合には差分となる高解像度成分の符号化データのみを送信することでネットワークの帯域を節約することが出来る。 According to the present invention, by adopting such a configuration, the sound data transmitted from the server-side apparatus in the past failed to recognize the lack of precision, high resolution as the difference when a retransmission request of the coded data came You can save network bandwidth by sending only the component of the coded data. 上記課題の少なくとも一つ又は全ては、以下の実施の形態の説明からも明らかとされるように、特許請求の範囲の各請求項の発明によっても同様にして解決される。 At least one or all of the above problems, as will be apparent from the description of the following embodiments, are resolved in the same manner the invention of the following claims. 【0015】 【発明の実施の形態】本発明の実施の形態について説明する。 [0015] The embodiment of the embodiment of the present invention will be described. 本発明に係るサーバ・クライアント型の音声認識装置は、その好ましい一実施の形態において、図1及び図2を参照すると、クライアント側の装置(1)が、音声データおよび音声の状態検出点を音声認識処理終了時まで保持する一時記憶部(103)と、サーバ側から送信される、検出点単位でのデータ再送要求信号から、発声時間全体に対する、サーバ側からのデータ再送要求部分の割合(再送要求率)を計算して保持する制御部(1 Voice server client type speech recognition apparatus according to the present invention, in the form of its one preferred embodiment, referring to FIGS. 1 and 2, the client-side of the device (1), the state detection points of the voice data and voice temporary storage unit for holding until the recognition process ends (103), is transmitted from the server side, the data retransmission request signal at the detection point units, for the entire utterance time, the proportion of data retransmission request portion from the server side (retransmission controller holds calculates the required rate) (1
11)を備え、有することにより、クライアント側装置(1)が受信する情報のみで初回発声時の音声再送要求率を推定してサーバ側の装置(2)からの音声認識率の通知無しに、クライアント装置側が送信する、データサイズおよび符号化レートを調整することを可能としている。 Comprises a 11) by having, without notice of the speech recognition rate from the device of the client-side device (1) to estimate the speech retransmission request rate of the first time voicing only information is received the server side (2), the client device side transmits, it is made possible to adjust the data size and coding rate. 【0016】本発明の一実施の形態において、クライアント側の装置(1)は、入力される音をデジタルデータに変換する音声入力部(101)と、音声入力部(10 [0016] In one embodiment of the present invention, the client-side of the device (1) includes an audio input unit for converting a sound that is input to the digital data (101), an audio input unit (10
1)から出力されるデータを入力し、前記データから音声区間および音声の状態を検出する音声状態検出部(1 Enter the data output from 1), the speech state detection unit detects a state of the speech section and the audio from the data (1
02)と、音声状態検出部(102)から出力される音声波形データを入力し、音声波形データを符号化する音声符号化部(104)と、音声符号化部(104)から出力される音声符号化データと、音声状態検出部(10 And 02), enter the voice waveform data output from the audio state detection unit (102), audio speech encoder for encoding speech waveform data (104), is output from the speech encoding unit (104) and the encoded data, voice state detection unit (10
2)で検出された状態検出情報とを入力し、音声符号化データと状態検出情報とを組み合わせてパケットを生成するパケット生成部(105)と、パケット生成部(1 Inputs the detected state detection information 2), the packet generation unit which generates a packet by combining the speech encoded data and state detection information (105), the packet generating unit (1
05)で生成したパケットを送信するパケット送信部(106)と、サーバ側の装置(2)から送信される認識結果を受信する認識結果受信部(107)と、認識結果受信部(107)で受信したデータが文字情報の場合に該文字情報を表示する表示部(109)と、認識結果受信部(107)で受信したデータが音声データの場合に音声を出力する音声出力部(108)と、サーバ側の装置(2)との間で制御信号を送受する制御信号送受信部(110)と、制御信号送受信部(110)から出力される前記サーバ側の装置(2)から送信された制御信号を入力情報として、音声符号化部(104)およびパケット生成部(105)の動作を制御する制御部(11 A packet transmission unit that transmits the generated packet 05) (106), the recognition result receiving unit that receives a recognition result transmitted from the device of the server-side (2) and (107), the recognition result receiving unit (107) a display unit which received data to display the character information when the character information (109), an audio output unit for outputting sound when the received data is speech data recognition result receiving unit (107) and (108) , the control signal transceiver for transmitting and receiving control signals to and from the device of the server side (2) and (110), control transmitted from the control signal transceiver device of the server side outputted from the (110) (2) signals as input information, the control unit for controlling the operation of the voice encoding unit (104) and the packet generating unit (105) (11
1)と、を備えている。 And includes 1), the. サーバ側の装置(2)は、クライアント側の装置(1)のパケット送信部(106)から送信されるパケットを受信するパケット受信部(20 Device of the server-side (2), the packet receiving unit (20 that receives a packet transmitted from the packet transmission unit of the client side of the apparatus (1) (106)
1)と、パケット受信部(201)から出力されるパケットを、前記クライアント側の装置(1)の音声状態検出部(102)で検出された状態検出情報と、音声符号化部(104)で符号化された音声符号化データとに分離するパケット解析部(202)と、パケット解析部(202)で分離された音声符号化データを入力し前記音声符号化データを復号する音声復号化部(203) 1), the packet output from the packet reception unit (201), the state detection information detected by the voice state detection unit (102) of said client-side device (1), the speech encoding unit (104) packet analyzing unit for separating the speech encoded data which is encoded with (202), the audio decoding unit which inputs the separated speech encoded data for decoding the speech encoded data in the packet analysis unit (202) ( 203)
と、音声復号化部(203)で復号された音声波形データと、パケット解析部(202)で分離した前記状態検出情報とを入力し、前記音声波形データと前記状態検出情報とから音声認識処理を行う音声認識部(204) When the speech waveform data decoded by the audio decoding unit (203) inputs the said state detection information separated by the packet analysis unit (202), the speech recognition processing from said voice waveform data and the state detection information voice recognition unit that performs (204)
と、音声認識部(204)で認識された結果を、クライアント側の装置(1)に送信する認識結果送信部(20 When the result recognized by the speech recognition unit (204), the recognition result transmission unit to be transmitted to the client side of the apparatus (1) (20
7)と、クライアント側の装置(1)との間で制御信号を送受する制御信号送受信部(206)と、パケット解析部(202)と音声認識部(204)と制御信号送受信部(206)とから得られる制御信号、及び、処理結果を基に所定の統計的処理を行う統計処理部(205) 7), the control signal transceiver for transmitting and receiving control signals to and from the client-side of the device (1) and (206), the packet analysis unit (202) and the voice recognition unit (204) and the control signal transceiver (206) control signal obtained from, and, the statistical processing unit based on the processing result performs predetermined statistical processing (205)
と、を備えている。 It has a, and. 【0017】本発明の一実施の形態において、クライアント側の装置(1)は、サーバ側の装置(2)からの音声の再送要求を受信した際に、再送要求がなされている音声状態検出区間を判別し、一度目に再送要求された音声状態検出区間の合計を、前記記憶手段に記憶されている、連続音声の時間長で割った値を、再送要求率として求め、算出された再送要求率と、ジッタ情報とから、再送される音声の符号化レートと、データサイズとを決定し、決定された前記符号化レートとデータサイズに従って、一時記憶部に記憶されている音声符号化データを、 In one embodiment of the invention, the client-side of the device (1), upon receiving a retransmission request of the voice from the device of the server-side (2), the retransmission request is made is to have the voice state detection section determine the total retransmission request voice state detection section to one time, stored in the storage unit, it was divided by the time length of the continuous speech value, determined as the retransmission request rate, retransmission request calculated and rate, and a jitter information, and the coding rate of the audio to be retransmitted, and determines the data size according to the determined the coding rate and data size, encoded audio data stored in the temporary storage unit ,
前記サーバ側の装置(2)に再送する制御を行う。 Wherein performs control to retransmit the unit of a server-side (2). 【0018】本発明の別の実施の形態において、図7及び図8を参照すると、クライアント側の装置(7)からサーバ側の装置(8)に送信した音声符号化データは、 [0018] In another embodiment of the present invention, referring to FIGS. 7 and 8, the speech encoded data from the client side of the apparatus (7) has been transmitted to the device of the server side (8),
階層符号化データであり、サーバ側の装置(8)からクライアント側の装置(7)に対してクライアント側の装置の音声状態検出部で検出した状態検出情報を用いて始端および終端を指定して前記音声符号化データの差分データの送信要求を行い、クライアント側の装置(7) A hierarchical coded data, to specify the beginning and end with the state detection information detected by the speech state detection unit of the client-side device to the client-side of the device from the device of the server side (8) (7) performs transmission request of the differential data of the speech encoded data, the client-side of the device (7)
は、前記階層符号化データの差分データを前記サーバ側装置に送信する構成としてもよい。 It may be configured to transmit the differential data of the hierarchically encoded data to the server side apparatus. 【0019】 【実施例】上記した発明の実施の形態についてさらに詳細に説明すべく、本発明の実施例について図面を参照して説明する。 [0019] EXAMPLES order to describe in detail the embodiments of the invention described above will be described with reference to the accompanying drawings embodiments of the present invention. 以下では、次の順序で説明を行う。 The following description in the following order. 【0020】(1)第1の実施例におけるクライアント側の音声認識装置の構成(2)第1の実施例におけるサーバ側の音声認識装置の構成(3)音声状態検出点および音声状態検出区間(4)再送要求率(5)第1の実施例におけるサーバ側の音声認識装置における音声認識処理から音声符号化データ再送要求を行う手順(6)第1の実施例におけるクライアント側の音声認識装置が音声符号化データ再送要求を受信した際の手順(7)クライアント側の音声認識装置における符号化レートおよびペイロードサイズ決定基準(8)第2の実施例におけるクライアント側の音声認識装置の構成(9)第2の実施例におけるサーバ側の音声認識装置の構成(10)第2の実施例におけるサーバ側の音声認識装置における音声認識処理から音声符 [0020] (1) Configuration of the client-side speech recognition apparatus of the first embodiment (2) structure of the speech recognition device of the server side in the first embodiment (3) the voice state detection point and the speech state detection section ( 4) the retransmission request rate (5) first procedure (6 for audio encoded data retransmission request from the speech recognition processing in the speech recognition device of the server side in the embodiment) of the client side of the voice recognition device in the first embodiment procedure when receiving encoded audio data retransmission request (7) coding rate and payload size decision criteria (8) at the client side of the voice recognition device configuration of the client side of the voice recognition apparatus in the second embodiment (9) structure of the speech recognition device of the server side in the second embodiment (10) speech encoder from the speech recognition processing in the speech recognition device of the server side in the second embodiment 化データ再送要求を行う手順(11)第2の実施例におけるクライアント側の音声認識装置が音声符号化データ再送要求を受信した際の手順【0021】(1)第1の実施例におけるクライアント側の音声認識装置の構成:図1は、本発明の一実施形態をなすクライアント側の音声認識装置(「クライアント側の装置」という)1の構成を示す図である。 Procedure (11) for performing data retransmission request procedure [0021] when the client side of the speech recognition device receives the speech encoded data retransmission request in the second embodiment (1) client side in the first embodiment structure of the speech recognition apparatus: FIG. 1 is a diagram illustrating a client-side speech recognizer (referred to as "client-side apparatus") 1 of a configuration of an embodiment of the present invention. 図1を参照すると、この実施例において、クライアント側の装置1は、話者が話した音声をデジタルデータに変換する音声入力部101と、音声入力部101から出力されるデータから音声が発せられた区間を検出するとともに、該検出した音声区間内のデータについて、その音声の状態を検出する音声状態検出部102と、音声状態検出部1 Referring to FIG. 1, in this embodiment, the device 1 on the client side, a voice input unit 101 for converting the voice speaker is talking into digital data, voice is issued from the data output from the audio input unit 101 and detects the interval, the data in the voice section the detected, the voice state detection unit 102 for detecting the state of the voice, the voice state detection unit 1
02で音声状態が検出済みである音声波形データを一時的に保持する一時記憶部103と、音声波形データの符号化処理を行う音声符号化部104と、音声符号化データをペイロードとし音声状態検出部102で検出された音声状態検出情報をヘッダにセットしたパケットを生成するパケット生成部105と、パケット生成部105で生成されたパケットの送信処理を行うパケット送信部1 A temporary storage unit 103 for temporarily holding the speech waveform data is already detected audio state 02, an audio encoder 104 for performing encoding of an audio waveform data, detected speech state the speech encoded data and payload a packet generating unit 105 that generates a packet set with the detected header audio state detection information in part 102, the packet transmission unit 1 performs transmission processing of the packet generated by the packet generation unit 105
06と、後に説明されるサーバ側の音声認識装置2(図2参照)から送信される認識結果を受信する認識結果受信部107と、音声を出力する音声出力部108と、表示部109と、サーバ側の音声認識装置2との間で制御信号を送受信する制御信号送受信部110と、サーバ側の音声認識装置2から受信した制御信号を入力として音声符号化部104とパケット生成部105の動作を制御する制御部111と、クライアント側の装置1にキー操作で入力をする操作部112と、を備えている。 And 06, a recognition result receiving unit 107 which receives the recognition result transmitted from the described server speech recognition unit 2 (see FIG. 2) after, an audio output unit 108 for outputting voice, a display unit 109, a control signal transceiver 110 for transmitting and receiving control signals between the speech recognition device 2 on the server side, the operation of the voice encoding unit 104 and the packet generation unit 105 a control signal received from the server side of the speech recognition device 2 as an input a control unit 111 for controlling, an operation unit 112 for input by key operation on the client side of the apparatus 1, a. 【0022】音声入力部101は、話者が話した音声を、クライアント側の装置1に入力するためのもので、 [0022] The voice input unit 101, the voice of the speaker was talking about, for the purpose of input to the client side of the apparatus 1,
アナログ波形である音声をデジタルビット列に変換するA/D変換器として機能する。 Functions as A / D converter for converting the voice as an analog waveform into a digital bit stream. 【0023】音声状態検出部102は、音声入力部10 The speech state detector 102, voice input unit 10
1から出力されたデジタル音声波形データから、サーバ側の音声認識装置2(図2参照)で音声認識処理をする際に必要となる情報である音声状態を検出した情報(この明細書では、「音声状態検出情報」という)を検出する。 Digital sound waveform data outputted from the 1, information detected speech state is information that is required when the speech recognition processing on the server side of the speech recognition device 2 (see FIG. 2) (in this specification, " to detect a) that the voice state detection information ". 音声状態検出部102で、検出される音声状態検出情報としては、例えば音声の始端、終端、母音部、子音部などがある。 Voice state detection unit 102, a speech state detection information detected, for example voice start, end, vowels, and the like consonant part. 【0024】一時記憶部103は、音声認識処理が終了するまで音声状態検出部102からの出力である音声状態検出情報とデジタル音声波形データを対応させた形式で一時的に保存しておく記憶領域を有する。 The temporary storage unit 103, a storage area which temporarily stores the voice state detection information and the digital speech waveform data which is output from the speech state detection unit 102 in response to not form until the voice recognition processing is completed having. クライアント側の音声認識装置1が、サーバ側の音声認識装置2 Client-side speech recognition device 1, the server side of the speech recognition apparatus 2
(図2参照)より音声符号化データの再送要求を受信した場合には、一時記憶部103に保持されている音声波形データを、再度符号化して、サーバ側の音声認識装置に送信する。 When receiving the retransmission request of the speech encoded data from the (see FIG. 2) is a speech waveform data held in the temporary storage unit 103, and re-encoded and transmitted to the speech recognition device of the server side. 【0025】音声符号化部104は、音声入力部101 The speech encoding unit 104, an audio input portion 101
から音声状態検出部102で状態検出をされた後のデジタル音声波形データを符号化する。 Encoding digital audio waveform data after the state detected by the speech state detection unit 102 from. 符号化方式としては、例えばAMR(Advanced Multi-Rate Speech Code The coding method, for example, AMR (Advanced Multi-Rate Speech Code
c)やPCM(Pulse Coded Modulation)、または音声認識に必要なパラメータのみを符号化する方式などがある。 c) and PCM (Pulse Coded Modulation), or the like method for encoding parameters only required for voice recognition. また、サーバ側の音声認識装置2(図2参照)から音声符号化データの再送要求を受信した場合には、一時記憶部103に保持されている音声波形データを再度符号化する。 Further, when receiving a retransmission request for speech encoded data from the server side of the speech recognition device 2 (see FIG. 2), the re-encoded speech waveform data held in the temporary storage unit 103. 音声波形データを符号化したものを「音声符号化データ」という。 The sound waveform data obtained by encoding of "speech coding data". 【0026】パケット生成部105は、音声状態検出部102で検出された音声状態検出情報と音声符号化部1 The packet generating unit 105, the voice state detection information and audio encoding unit 1 detected by the speech state detection unit 102
04で符号化された音声符号化データを対応付けてペイロードを生成し、ネットワークを経由してサーバ側の音声認識装置2(図2参照)にデータを送信できるようにヘッダを付加してパケットを生成する。 04 in association with the encoded voice code data has been generated payload, the packet by adding a header to be able to send data to via a network server of the speech recognition device 2 (see FIG. 2) generated. この実施例において、ネットワークを介してサーバ側の音声認識装置にデータを送信するための通信プロトコルとして、例えばRTP(Real-time Transport Protocol)を用いている。 In this example, it is used as the communication protocol for transmitting data to the voice recognition device of the server side through the network, for example, RTP and (Real-time Transport Protocol). RTPには、ネットワークの混雑状況を監視するためのプロトコルであるRTCP(RTP Control Protoco The RTP, RTCP is a protocol for monitoring the congestion status of the network (RTP Control Protoco
l;RTP制御プロトコル)が含まれており、RTCP l; RTP Control Protocol) are included, RTCP
の送信者レポート(SR:Sender Report)および受信者レポート(RR:Receiver Report)(以下、送信者レポートおよび受信者レポートを特に区別する必要が無い限り、「RTCPレポート」という)により、クライアント・サーバ間でのデータ送信に要する時間(遅延ゆらぎ、すなわちジッタ)や、送受信時に発生したパケットロスの量、および送受信データ全体に占める割合を知ることが可能である。 Of the sender report (SR: Sender Report) and receiver report (RR: Receiver Report) (hereinafter, as long as there is no particular need to distinguish between the sender report and receiver report, called "RTCP report") by, client-server data transmission time required between (delay variation, i.e. jitter) and, it is possible to know the amount of packet loss that occurred during the transmission and reception, and the percentage of total transmitted and received data. なお、RTCPのSRパケットは、自装置が送出したストリームに関する情報である「sender info」と、受信した各ストリーム各々についてストリーム受信状態(パケット廃棄率(Fraction Lo Incidentally, SR packet RTCP is the information about the stream device itself has sent the "sender info" stream reception state (packet discard rate for each stream, each received (Fraction Lo
ss)、累積パケット廃棄率(Cumulative Number of Pac ss), the cumulative packet loss ratio (Cumulative Number of Pac
kets Lost)、パケット到着時間の揺らぎ(Inter-arriv kets Lost), packet arrival time of fluctuation (Inter-arriv
al Jitter)等)を示す「reception report block」を含む。 It shows the al Jitter), etc.), including the "reception report block". 【0027】この実施例において、音声状態検出情報、 [0027] In this embodiment, the voice state detection information,
および音声符号化データは共に、RTPパケットのペイロード部分に格納し、音声状態検出情報は、ペイロードヘッダとして、ペイロード部分の先頭に記述する。 And speech encoded data together stored in the payload portion of the RTP packet, audio state detection information as a payload header that describes the beginning of the payload portion. 【0028】パケット送信部106は、パケット生成部105で生成したパケットをネットワークを介してサーバ側の音声認識装置2(図2参照)に送信する。 The packet transmission unit 106 transmits the packet generated by the packet generation unit 105 in the server side of the speech recognition device 2 (see FIG. 2) via the network. 【0029】認識結果受信部107は、サーバ側音声認識装置2(図2参照)から送信される音声認識結果を受信する。 The recognition result receiving unit 107 receives the speech recognition result transmitted from the server speech recognition unit 2 (see FIG. 2). 認識結果の送受信の形態として、回線交換型による音声での通知や、パケット形式でテキスト情報、音声符号化データ、または音声合成情報が送信されてくる形態のいずれも適用可能である。 In the form of transmitting and receiving the recognition result, notification and the voice circuit-switched type, text information in a packet format, either in the form of speech encoded data or voice synthesis information, is transmitted is applicable. 【0030】音声出力部108は、受信した認識結果が音声の場合に結果を出力する。 The audio output unit 108, the received recognition result to output the result in the case of speech. 表示部109は、受信した認識結果が文字情報の場合に表示する。 Display unit 109, the received recognition result is displayed when text information. 音声出力部1 Audio output unit 1
08および表示部109は音声認識の結果を表示するためのもので、音声出力部108は認識結果が音声で通知された場合、また表示部109は認識結果がテキストで通知された場合にそれぞれ話者に対して認識結果を通知する。 08 and the display unit 109 is for displaying the result of speech recognition, speak each case when the audio output unit 108 recognition result is notified by voice, also display unit 109 the recognition result is notified by the text and notifies the recognition result to the user. 【0031】制御信号送受信部110は、クライアント側の装置1とサーバ側の音声認識装置2(図2参照)との間で制御信号を送受信するためのものである。 The control signal transmitting and receiving unit 110 is for transmitting and receiving control signals to and from the client side of the apparatus 1 and the server side of the speech recognition device 2 (see FIG. 2). 制御信号送受信部110で送受信する信号として、ネットワーク間を流れるデータパケットのジッタ(パケットの転送遅延の変動)や、パケットロスが生じているか否かが判るRTCPレポートや、サーバ側音声認識装置2からクライアント側の装置1に対する音声符号化データの再送要求などがある。 As a signal transmitted and received control signal transmitting and receiving section 110, (variation of the transfer delay of the packet) jitter of the data packets flowing between the network and, or RTCP reports can be seen whether or not a packet loss has occurred, the server-side speech recognition apparatus 2 and the like retransmission request speech encoded data to the client-side apparatus 1. サーバ側音声認識装置2からの再送要求は、RTCPと共通のヘッダを持ち、パケットタイプを拡張することにより、通常のRTCPのレポートと再送要求とが区別される。 Retransmission request from the server-side speech recognition device 2, RTCP and have a common header, by extending the packet type, a retransmission request and is distinguished from the ordinary RTCP reports. 再送要求のペイロード部分には、再送要求をする音声波形の区間を示すために、始端と終端を示す音声状態検出情報と、前回送信時の符号化レートが含まれる。 The payload portion of the retransmission request, to indicate the section of the speech waveform which the retransmission request, the voice state detection information indicating the start and end, include coding rate of the previous transmission. 【0032】制御部111では、サーバ側の音声認識装置2(図2参照)から受信した制御信号を基に、音声符号化部104およびパケット生成部105を制御する。 [0032] In the control unit 111, based on a control signal received from the server side of the speech recognition device 2 (see FIG. 2), it controls the speech encoding unit 104 and the packet generation unit 105. 【0033】制御部111では、 1)サーバ側の音声認識装置2(図2参照)からの再送要求率、 2)RTCPレポートから得られるジッタおよびパケットロスの状況の2つをパラメータとして、 a)符号化レート、 b)1パケットのサイズ、 の2つを制御する。 [0033] In the control unit 111, 1) the retransmission request rate from the server side of the speech recognition device 2 (see FIG. 2), 2) the two situations of jitter and packet loss obtained from the RTCP report as a parameter, a) coding rate, b) the size of one packet, and controls the two. 【0034】再送要求率は、クライアント側の装置1の制御部111で得られるパラメータであるため、サーバ側の音声認識装置2(図2参照)から音声認識の状況についてのレポートが別途無くとも、クライアント側の装置1側で、音声符号化レートの問題で、認識率が上がらないのか、あるいは、ネットワークの状況によるものなのかを区別して、対策を施すことが出来る。 The retransmission request rate are the parameters obtained by the control unit 111 of the client-side apparatus 1, even report without separately on the status of the voice recognition from the server side of the speech recognition device 2 (see FIG. 2), the client-side apparatus 1 side, a problem of speech coding rate, whether the recognition rate is not increased, or to distinguish seemingly due status of the network, measures can be subjected to. 再送要求率および制御部111による制御方法は、後述する。 Control method according to the retransmission request rate and the control unit 111 will be described later. 【0035】操作部112は、クライアント側の装置1 The operation unit 112, the client-side apparatus 1
にキー操作で入力をするものであり、テンキー、ジョグダイヤル、十字キーなどがある。 In is intended to input by key operation, a numeric keypad, a jog dial, there is such a cross key. 【0036】(2)第1の実施例におけるサーバ側の音声認識装置の構成:図2は、本発明の第1の実施例におけるサーバ側の音声認識装置(「サーバ側の装置」という)2の構成を示す図である。 [0036] (2) structure of the speech recognition device of the server side in the first embodiment: FIG. 2, the first embodiment the voice recognition device of the server side in the embodiment of the present invention (referred to as "device of the server side") 2 it is a diagram showing a configuration. 図2を参照すると、この実施例において、サーバ側の装置2は、クライアント側の装置1(図1参照)から送信されたパケットを受信するパケット受信部201と、パケット受信部201で受信したパケットを解析するパケット解析部202と、パケット解析部202で分離された音声符号化データを復号する音声復号化部203と、音声復号化部203で復号された音声波形とパケット解析部202で分離された音声状態検出情報を基に、音声認識処理を行う音声認識部204と、クライアント側の装置1からサーバ側装置へのパケット転送中に欠損したパケットの数やバイト数を計測して統計的なデータ処理を行ったり、音声認識部204で行われる音声認識処理の過程で得られる統計的情報の処理を行う統計処理部205と、統計処理 2, in this example, device 2 on the server side, a packet receiving unit 201 receives a packet transmitted from the client-side apparatus 1 (see FIG. 1), received by the packet reception unit 201 packet a packet analysis unit 202 for analyzing a speech decoder 203 that decodes encoded audio data separated by the packet analysis unit 202, are separated by the speech waveform and the packet analysis unit 202 decoded by the speech decoding unit 203 based on the speech state detection information, the speech recognition unit 204 which performs speech recognition processing, statistical from the client-side apparatus 1 to measure the number of number and bytes of packets missing in the packet transfer to the server-side apparatus or perform data processing, a statistical processing unit 205 for processing the statistical information obtained in the course of the speech recognition process performed by the speech recognition unit 204, the statistical processing 20 20
5から得られたデータを制御信号として、クライアント側の装置1へ送信したり、またクライアント側の装置1 As a control signal to the data obtained from the 5 apparatus of transmission or, also the client side to the client side device 1 1
から送信される統計情報を受信する制御信号送受信部2 To receive statistics information transmitted from the control signal reception section 2
06と、音声認識部204での認識結果をテキスト、もしくは音声信号でクライアント側の装置1へ送信する認識結果送信部207とを備えている。 And 06, and a recognition result transmission unit 207 that transmits the recognition result of the speech recognition unit 204 text or voice signal, to the client-side apparatus 1. 【0037】クライアント側の装置1(図1参照)から送信されたパケットを受信するパケット受信部201で受信するパケットは、RTPパケットである。 The packet received by the packet receiving unit 201 receives a packet transmitted from the client-side apparatus 1 (see FIG. 1) is a RTP packet. 【0038】パケット解析部202は、パケット受信部201で受信したパケットを解析し、音声符号化データと音声状態検出情報とに分類する。 The packet analysis unit 202 analyzes the packet received by the packet receiving unit 201, classified into speech encoded data and voice state detection information. また、パケット解析部202で解析したパケットの数、および受信バイト数を、統計処理部205へ報告する。 The number of packets analyzed by the packet analysis unit 202, and the number of bytes received, reporting to the statistical processing unit 205. 【0039】音声復号化部203は、パケット解析部2 The speech decoding unit 203, the packet analysis unit 2
02で分離された音声符号化データを復号する。 02 decodes the separated speech encoded data. 音声復号化部203は、復号されたデジタル音声波形データを出力する。 Speech decoding unit 203 outputs the digital audio waveform data decoded. 【0040】音声認識部204は、音声復号化部203 The speech recognition unit 204, the audio decoding unit 203
で復号されたデジタル音声波形データを用いて認識処理を行う。 In the recognition processing performed by using the decoded digital audio waveform data. この際、パケット解析部202で分離した音声状態検出情報を用いて認識処理を行う。 In this case, the recognition processing performed by using the speech state detection information separated by the packet analyzing unit 202. 【0041】統計処理部205では、パケット解析部2 [0041] The statistical processing unit 205, the packet analysis unit 2
02から得られる受信パケットの数およびバイト数などの情報を取得し、制御信号送受信部206から得られる情報と併せてサーバ側の装置2が送信する制御信号を生成する。 It obtains information such as the number and the number of bytes of the received packets obtained from 02, device 2 on the server side together with the information obtained to generate a control signal to be transmitted from the control signal transmitting and receiving unit 206. 【0042】制御信号送受信部206は、クライアント側の装置1(図1参照)とサーバ側の装置2との間で制御信号を送受信するものであり、統計処理部205から得られたデータを制御信号として、クライアント側の装置1へ送信したり、またクライアント側の装置1から送信される統計情報を受信する。 The control signal transmitting and receiving unit 206 is for transmitting and receiving control signals between the client-side apparatus 1 (see FIG. 1) and the device 2 on the server side, control data obtained from the statistical processing unit 205 as a signal, and transmits to the client-side apparatus 1, also receives the statistical information transmitted from the client-side apparatus 1. 制御信号送受信部206 Control signal reception section 206
で送受信する信号として、ネットワーク間を流れるデータパケットのジッタやパケットロスが生じているか否かが判るRTCPレポートや、サーバ側の装置2からクライアント側の装置1に対する音声符号化データの再送要求などがある。 As signals transmitted and received in, whether jitter and packet loss of the data packets flowing between the network has occurred and RTCP report can be seen, and a retransmission request of the speech encoded data from the device 2 on the server side to the client side of the apparatus 1 is there. 【0043】サーバ側の装置2からの再送要求は、RT The retransmission request from the server side of the device 2, RT
CPと共通のヘッダを持ち、パケットタイプを拡張することにより通常のRTCPのレポートと再送要求を区別する。 CP and have a common header, distinguishing a retransmission request as normal RTCP reports by extending the packet type. 再送要求のペイロード部分には、再送要求をする音声波形の区間を示すために、始端と終端を示す状態検出情報と前回送信時の符号化レートが含まれる。 The payload portion of the retransmission request, to indicate the section of the speech waveform which the retransmission request includes the coding rate of the state detection information and the previous transmission indicating the start and end. 【0044】認識結果送信部207は、音声認識部20 The recognition result transmission unit 207, the voice recognition unit 20
4で認識処理を行った結果をクライアント側の装置1 4 of the result of the recognition processing client device 1
(図1参照)に対して送信する。 Is transmitted to (see FIG. 1). 認識結果の送受信の形態として、回線交換型による音声での通知や、パケット形式でテキスト情報、音声符号化データ、または音声合成情報が送信される形態が適用可能である。 In the form of transmitting and receiving the recognition result, notification and the voice circuit-switched type, text information in a packet format, speech encoded data or voice synthesis information, are applicable form to be transmitted. 【0045】(3)音声状態検出点および音声状態検出区間:図3を用いて、本発明の一実施例における、クライアント側の装置1の音声状態検出部102における音声状態検出点および音声状態検出区間について説明する。 [0045] (3) voice status detection point and the speech state detection section: with reference to FIG. 3, in one embodiment of the present invention, the client-side apparatus 1 of the speech state detection unit 102 speech state detection point and speech state detection in a description will be given interval. 【0046】図3において、301は、クライアント側の装置1において音声入力部101から出力される音声波形データ、302〜306は状態検出点を示している。 [0046] In FIG. 3, 301, the speech waveform data outputted from the speech input unit 101 in the client-side apparatus 1, 302 to 306 shows a state detection points. なお、図3の音声波形および状態検出点は概念を説明するために模式的に示したものであって、実際の音声波形や音声状態検出点を表しているわけではない。 Incidentally, the speech waveform and the state detection points 3 be those schematically shown in order to illustrate the concept, it does not represent the actual speech waveform and speech state detection point. 【0047】音声状態検出点は、音声の始端、終端、母音部、子音部などを表し、サーバ側の装置2で認識処理を行う際に、波形の解析を行う手間を省く。 The speech state detection points, beginning of the speech, represents the termination, vowels, etc. consonant portion, when performing recognition processing on the server side of the apparatus 2, eliminate the need to analyze the waveform. 【0048】307〜310は、音声状態検出区間を示す。 [0048] 307 to 310 shows a voice state detection section. 図3からも明らかなように、音声状態検出区間は、 As is apparent from FIG. 3, the speech state detection section,
音声状態検出点を、始端と終端に持つ。 A voice state detection points, with the start and end. 【0049】(4)再送要求率:本発明の第1の実施例におけるクライアント側の装置1(図1参照)の制御部111において、音声符号化部104およびパケット生成部105を制御する際に用いるパラメータの1つである再送要求率について説明する。 [0049] (4) retransmission request rate: the control unit 111 of the device of the client side in the first embodiment of the present invention 1 (see FIG. 1), in controlling the voice coding section 104 and the packet generation unit 105 explained retransmission request rate is one of the parameters to be used. 【0050】再送要求率は、クライアント側の装置1 The retransmission request rate, the client-side of the device 1
が、サーバ側の装置2から送信される音声符号化データの再送要求から計算する値である。 There is a value calculated from the retransmission request for the speech encoded data transmitted from the device 2 on the server side. 【0051】クライアント側の装置1は、話者によって一度に発声された単語または文章を1つの単位として、 The client side of the apparatus 1, spoken word or sentence as a single unit at a time by a speaker,
サーバ側の装置2(図2参照)に対して、音声符号化データを送信し、認識処理を行う。 The server-side apparatus 2 (see FIG. 2), and sends the speech encoded data, performs the recognition process. サーバ側の装置2で認識処理が終了するまでの間、クライアント側の装置1では、音声波形データおよび音声状態検出情報を一時記憶部103に保持しておく。 Until recognition process in the apparatus 2 of the server side is completed, the client-side apparatus 1, holds the temporary storage unit 103 the speech waveform data and voice state detection information. 音声認識処理の結果、サーバ側の装置2で認識結果を絞りきれない場合、あるいは、 Result of the voice recognition process, if not completely stop the recognition results on the server side of the apparatus 2 or,
音声認識ができなかった場合、クライアント側の装置1 If we can not voice recognition, the client-side of the device 1
に対して、データの再送要求を行う。 Against, a retransmission request of the data. データの再送要求を行う際、サーバ側の装置2は、再送要求する音声区間を、音声状態検出情報の始端と終端にて指定する。 When a retransmission request of the data, apparatus 2 of the server side, the speech section of the retransmission request is designated by start and end of the speech state detection information. 【0052】クライアント側の装置1は、制御信号送受信部110で、サーバ側の装置2からの音声再送要求を受信し、再送要求されている、音声状態検出区間を判別した後、以下の式(1)により再送要求率を計算する。 [0052] device 1 on the client side, controlled by a signal transmitting and receiving unit 110 receives the audio retransmission request from device 2 on the server side, requested for retransmission, after determining the speech state detection section, the following formulas ( 1) by calculating the retransmission request rate. 【0053】 再送要求率=(一度目に再送要求された状態検出区間の合計)/(一時記憶部に記憶している連続音声の時間長) …(1) 【0054】クライアント側の装置1及びサーバ側の装置2で認識処理を行うたびに、再送要求率を更新する。 [0053] retransmission request rate = (the sum of the retransmission request state detection interval to one time) / (time length of continuous speech stored in the temporary storage unit) ... (1) [0054] The client-side apparatus 1 and each time performing the recognition processing on the server side of the device 2, and updates the retransmission request rate.
一度に発声された単語または文章の認識処理が終わり、 Recognition processing of spoken words or sentences end at a time,
一時記憶部103をクリアする際に、再送要求率も、クリアする。 When to clear the temporary storage unit 103, the retransmission request rate is cleared. 【0055】(5)第1の実施例におけるサーバ側の音声認識装置における音声認識処理から音声符号化データ再送要求を行う手順:図4は、本発明の第1の実施例において、サーバ側の装置2(図2参照)における音声認識処理およびクライアント側の装置1(図1参照)に対して音声符号化データの再送要求を行う際の手順を説明するための流れ図である。 [0055] (5) Step perform speech encoded data retransmission request from the speech recognition processing in the speech recognition device of the server side in the first embodiment: FIG. 4, in the first embodiment of the present invention, the server-side device 2 is a flowchart illustrating a procedure for performing a retransmission request for speech encoded data to the apparatus 1 of the speech recognition process and the client side (see FIG. 1) in (see FIG. 2). 図2及び図4を参照して、サーバ側の装置2における音声認識処理および音声符号化データの再送要求の動作について説明する。 Referring to FIGS. 2 and 4, the operation of the speech recognition processing and the retransmission request of the speech encoded data in the device 2 on the server side will be described. 【0056】ステップS401において、サーバ側の装置2は、復号した音声波形を音声状態検出情報を始端と終端とした音声状態検出区間毎に分割する。 [0056] In step S401, device 2 on the server side divides the decoded speech waveform for each speech state detection section was beginning and end of the speech state detection information. 【0057】ステップS402において、サーバ側の装置2は、全てのデータが受信できたか否かを判断する。 [0057] In step S402, the device 2 on the server side determines whether or not all the data has been received.
サーバ側の装置2は、受信できていないと判断した場合、ステップS403において、クライアント側の装置1(図1参照)に対して、音声符号化データの再送要求を行う。 Device 2 on the server side, if it is determined that not been received, in step S403, performs the client side of the apparatus 1 with respect to (see FIG. 1), a retransmission request for speech encoded data. 【0058】ステップS404において、サーバ側の装置2は、音声状態検出区間毎に音声認識処理を実行する。 [0058] In step S404, device 2 on the server side executes a speech recognition process for each speech state detection section. 【0059】ステップS405において、サーバ側の装置2は、ステップS404で行われた認識結果の確からしさを判断し、クライアント側の装置1(図1参照)に対して、音声符号化データの再送要求をするか否かの判断を行う。 [0059] In step S405, device 2 of the server side determines the likelihood of the recognition result made in step S404, the client-side apparatus 1 with respect to (see FIG. 1), the retransmission request of the voice coded data perform to determine whether or not the. 認識結果の確からしさは、認識処理結果と対応するデータベースが同じものである確率で示す。 Certainty of recognition results show a probability database is the same as that corresponding to the recognition result. この確率がある閾値よりも高い場合、認識結果として採用して話者に提示する単語とし、ある閾値よりも低い場合には、ステップS406において音声状態検出区間の両端の音声状態検出点をデータとして認識確度の低い受信データ部分の再送要求をクライアント側の装置1に対して行う。 Is higher than a certain threshold value this probability, and the word presented adopted as the recognition result to the speaker, is lower than a certain threshold, the speech state detection points at both ends of the speech state detection section as data in step S406 a retransmission request of low received data portion of the recognition accuracy for the client-side apparatus 1. 【0060】認識率が予め定められた閾値を越えるまで、サーバ側の装置2は、ステップS404〜S405 [0060] Until exceeds a threshold recognition rate predetermined device 2 on the server side, step S404~S405
を繰り返す。 repeat. 【0061】ステップS407において、サーバ側の装置2は、現在処理中の区間が最後の音声状態検出区間か否かの判定を行う。 [0061] In step S407, the device 2 of the server makes a determination section being processed whether the last voice state detection section. 最後の検出区間であれば、サーバ側の装置2は、認識処理を終了し、最後の検出区間でなければ、ステップS404に戻り、サーバ側の装置2は、 If the last detection interval, apparatus 2 of the server side terminates the recognition process, if the last detection interval, the process returns to step S404, apparatus 2 of the server side,
引き続き音声認識処理を継続する。 Continue to continue the speech recognition processing. 【0062】(6)第1の実施例におけるクライアント側の音声認識装置が音声符号化データ再送要求を受信した際の手順:図5は、本発明の第1の実施例におけるクライアント側の装置1(図1参照)がサーバ側の装置2 [0062] (6) the first embodiment the client side of the voice recognition device in the example is when receiving encoded audio data retransmission request procedure: 5, device of the client side in the first embodiment of the present invention 1 (see FIG. 1) of the server-side apparatus 2
(図2参照)から音声符号化データ再送要求を受信した場合の手順を説明するための流れ図である。 It is a flowchart for explaining the procedure in the case of receiving encoded audio data retransmission request (see FIG. 2). 図1及び図5を参照して、クライアント側の装置1がサーバ側の装置2から音声符号化データ再送要求を受信した場合の、 Referring to FIGS. 1 and 5, when the device 1 on the client side receives the speech encoded data retransmission request from the device 2 on the server side,
クライアント側の装置1の動作について説明する。 A description will be given of the operation of the client-side apparatus 1. 【0063】ステップS501において、クライアント側の装置1は、再送要求を解析してどの音声状態検出区間を再送すればよいかを検出する。 [0063] In step S501, device 1 on the client side, detects whether it is sufficient to retransmit any speech state detection section analyzes the retransmission request. 【0064】ステップS502において、クライアント側の装置1は、一時記憶部103で保持していた音声波形データのうち、ステップS501で検出した音声状態検出区間について、再度音声符号化処理を行う。 [0064] In step S502, the device 1 on the client side, out of the speech waveform data held in the temporary storage unit 103, the speech state detection section detected in step S501, performs the speech encoding process again. この際、図4のステップS402の処理による再送要求の場合には、同じ符号化レートを用い、ステップS405の処理による再送要求の場合には、前回送信時よりも符号化レートを上げて符号化処理を行う。 In this case, when the retransmission request by the processing of step S402 in FIG. 4, using the same coding rate, if the retransmission request by the processing of step S405, the encoding by increasing the coding rate than the previous transmission processing is carried out. 【0065】ステップS503において、クライアント側の装置1は、ステップS502で作成した音声符号化データと状態検出情報をあわせてパケットを生成する。 [0065] In step S503, device 1 on the client side generates a packet together encoded audio data and state detection information created in step S502. 【0066】ステップS504において、クライアント側の装置1は、ステップS503で作成したパケットをサーバ側の装置2に対して送信する。 [0066] In step S504, device 1 of the client side transmits the packet created in step S503 to the server-side apparatus 2. 【0067】(7)第1の実施例におけるクライアント側の音声認識装置における符号化レートおよびペイロードサイズ決定基準:本発明の一実施例において、クライアント側の装置1でパケットを生成する際の符号化レートおよびペイロードサイズの制御方法について説明する。 [0067] (7) coding rate and payload size determination criteria at the client side of the voice recognition device in the first embodiment: In one embodiment of the present invention, the coding in generating the packet at the client side of the apparatus 1 illustrating a method for controlling the rate and payload size. 【0068】本発明の一実施例において、パケットを生成する際に参考とする情報は、以下の2つである。 [0068] In one embodiment of the present invention, information to be a reference in generating the packet is two or less. a)再送要求率b)RTCPレポートによるジッタ【0069】再送要求率が高い場合、クライアント側の装置1は、サーバ側の装置2での音声認識処理が適切に行われていないと判断し、音声符号化データの符号化レートを上げる。 a) If the retransmission request rate b) jitter [0069] by RTCP reports retransmission request rate is high, device 1 of the client side, it is determined that the speech recognition processing in the server-side apparatus 2 is not done properly, the voice increasing the coding rate of the coded data. 但し、符号化レートを上げると、伝送データ量は増加するため、ネットワークへの負荷は大きくなる。 However, increasing the coding rate, because the amount of transmitted data is increased, load on the network increases. 【0070】クライアント側の装置1は、ジッタが大きい場合、ネットワークが混雑していると判断し、伝送パケットのペイロードを大きく(相対的にヘッダを少なく)し、ネットワークへの負荷を軽減する。 [0070] The client-side apparatus 1, when the jitter is large, it is determined that the network is congested, the payload of the transport packet significantly (less relatively header), to reduce the load on the network. 但し、ペイロードのサイズを大きくすると、サーバ側の装置2へのデータ送信間隔が大きくなるため、処理終了までのレイテンシが大きくなる。 However, increasing the size of the payload, the data transmission interval to the device 2 on the server side increases, the latency until the process end is increased. 【0071】これらの関係から、クライアント側の装置1においてパケット生成に対する以下のような規則を設け、パケットを生成する。 [0071] From these relationships, provided the following rules for packets generated at the client side of the apparatus 1, it generates a packet. 【0072】・音声認識処理のレベルは可能な限り下げない。 [0072] level of the speech recognition process is not reduced as much as possible. 【0073】・再送要求率およびジッタの値を、それぞれ「大」、「標準」、「小」の3段階の状態に分け、クライアント側の装置1に、9つの状態を持たせる。 [0073] - a retransmission request rate and jitter value of each "large", in three stages of the state of the "standard", "small", the client-side apparatus 1, to have nine states. 状態の分類方法は、例えば、再送要求率が、0〜10%は「小」、10%〜50%は「標準」、50%以上が「大」とそれぞれの状態を数値で分ける。 Classification method of the condition may, for example, the retransmission request rate is 0 to 10% "small", from 10% to 50% "standard", divide each state more than 50% being "large" numerically. 【0074】・再送要求率が「大」になった場合には、 [0074] - retransmission request rate when it becomes to "die",
符号化レートを上げる。 Increase the encoding rate. 【0075】・再送要求率が「大」であり、且つジッタが「低」の場合は、符号化レートを上げてペイロードサイズを小さくする。 [0075] is, the retransmission request rate is "large", and if the jitter is "low", to reduce the payload size by increasing the coding rate. 【0076】・ジッタが「大」になった場合には、クライアント側の装置1は、ペイロードサイズを大きくする。 [0076] If the jitter has become "large", the device 1 on the client side, to increase the payload size. 【0077】・ジッタが「大」であり、且つ再送要求率が「低」の場合は、クライアント側の装置1は、ペイロードサイズを大きくして符号化レートを下げる。 [0077] jitter is "large", the and when the retransmission request rate is "low", device 1 of the client side, lowering the encoding rate by increasing the payload size. 【0078】・RTCPよりパケットの欠損が判明した場合は、クライアント側の装置1は、トランスポート層をUDP(User Datagram Protocol)からTCP(Tra [0078] If · RTCP than loss of packet is found, the device 1 on the client side, TCP (Tra transport layer from UDP (User Datagram Protocol)
nsport Control Protocol)に変更する。 To change to nsport Control Protocol). 【0079】上記の判断処理の内容について、図6に表で示す。 [0079] The content of the determination process, shown in Table 6. 横軸はクライアント側装置1の状態を示しており、縦軸が状態が遷移する方向(改善されるか悪化するか)について示したものである。 The horizontal axis represents the state of the client-side apparatus 1, the vertical axis is what state showed the direction of transition (or worse or is improved). 【0080】図6において、例えば、再送要率が「標準」の場合に、横軸の状態として再送要求率が「減少」 [0080] In FIG. 6, for example, in the case of retransmission main factor is "standard", the retransmission request rate as the state of the horizontal axis is "decrease"
と記載されている場合、変化後の再送要求率は「小」の状態に遷移することを表している。 If it is stated that, the retransmission request rate after change indicates that a transition to a state of "small". 【0081】(8)第2の実施例におけるクライアント側の音声認識装置の構成:次に本発明の第2の実施例について説明する。 [0081] (8) Configuration of client-side speech recognition apparatus according to the second embodiment: Next will be described a second embodiment of the present invention. 図7は、本発明の第2の実施例をなすクライアント側の音声認識装置(「クライアント側の装置」という)7の構成を示す図である。 Figure 7 is a diagram showing a configuration of a second embodiment the client-side of a speech recognition apparatus which forms a (referred to as "client-side apparatus") 7 of the present invention. 本実施例では、 In this embodiment,
音声波形データに対して、階層符号化処理を行っている。 The speech waveform data, is performed hierarchical coding process. 図7を参照すると、この実施例のクライアント側の装置7は、話者が話した音声をデジタルデータに変換する音声入力部701と、音声入力部701から出力されるデータから音声が発せられた区間のみを検出し、且つ検出した音声区間内のデータについてその音声の状態を検出する音声状態検出部702と、音声波形データに対して階層符号化処理を行う音声符号化部703と、音声状態を検出済みである階層符号化データと音声状態検出情報を一時的に保持する一時記憶部704と、音声符号化データをペイロードとし音声状態検出部702で検出された音声状態検出情報をヘッダにセットしたパケットを生成するパケット生成部705と、パケット生成部7 Referring to FIG. 7, the client side of the apparatus 7 of this embodiment includes a voice input unit 701 converts the voice speaker is talking into digital data, voice is issued from the data output from the voice input unit 701 only detects the interval, the data in the voice section and and detects a voice state detection unit 702 for detecting the state of the voice, a voice coding unit 703 performs hierarchical coding processing on the speech waveform data, voice state set in the header temporary storage unit 704 for temporarily storing hierarchically encoded data and voice state detection information is discovered, the speech state detection information detected by the voice state detection unit 702 and the speech encoded data and payload a packet generating unit 705 for generating a packet, the packet generation unit 7
05で生成されたパケットの送信処理を行うパケット送信部706と、後に説明されるサーバ側の音声認識装置8(図8参照)から送信される認識結果を受信する認識結果受信部707と、受信した認識結果が音声の場合に結果を出力するための音声出力部708と、受信した認識結果が文字情報の場合に表示する表示部709と、サーバ側の音声認識装置8との間で制御信号を送受信する制御信号送受信部710と、サーバ側の音声認識装置8 A packet transmission unit 706 performs transmission processing of the generated packet 05, a recognition result receiving unit 707 receives the recognition result transmitted from the server side of the speech recognition device 8 to be described (see FIG. 8) after the reception an audio output unit 708 for recognition result to output the result to the case of audio, a display unit 709 which received the recognition result is displayed in the case of character information, control signals between the speech recognition device 8 of the server-side a control signal transceiver 710 for transmitting and receiving, the server side of the speech recognition device 8
から受信した制御信号を入力として一時記憶部704とパケット生成部705の動作を制御する制御部711 Control unit 711 for controlling the operation of the temporary storage unit 704 and the packet generator 705 as an input a control signal received from
と、クライアント側音声認識装置7にキー操作で入力をするための操作部712と、を備えている。 When, an operation unit 712 for input by key operation on the client-side speech recognition device 7, a. 【0082】音声入力部701は、話者が話した音声をクライアント側の装置7に入力するためのもので、アナログ波形である音声をデジタルビット列に変換するA/ [0082] Voice input unit 701 is for inputting voice the speaker spoke the client-side device 7, A for converting a voice as an analog waveform into a digital bit stream /
D変換器として機能する。 Functions as D converter. 【0083】音声状態検出部702は、音声入力部70 [0083] voice state detection unit 702, an audio input portion 70
1から出力されたデジタル音声波形データから、サーバ側の音声認識装置8(図8参照)で音声認識処理をする際に必要となる情報である音声状態を検出した情報(この明細書では、「音声状態検出情報」という)を検出する。 Digital sound waveform data outputted from the 1, information detected speech state is information that is required when the speech recognition processing by the speech recognition device 8 on the server side (see FIG. 8) (in this specification, " to detect a) that the voice state detection information ". 音声状態検出部702で検出される音声状態検出情報としては、例えば音声の始端、終端、母音部、子音部などがある。 The speech state detection information detected by the speech state detection unit 702, for example, voice of start, end, vowels, and the like consonant part. 【0084】音声符号化部703は、音声入力部701 [0084] audio encoding unit 703, an audio input portion 701
から音声状態検出部702で状態検出された後のデジタル音声波形データを符号化する。 Encoding digital audio waveform data after being state detected by the speech state detection unit 702 from. 符号化方式としては、 As an encoding method,
例えばMPEG2−AAC(Advanced Audio Codin For example, MPEG2-AAC (Advanced Audio Codin
g)などの階層符号化が行える方式を採用する。 g) employing the hierarchical coding can be performed methods such as. 【0085】一時記憶部704は、音声認識処理が終了するまで、音声状態検出部102からの出力である音声状態検出情報と、音声符号化部703からの出力である音声符号化データとを対応させた形式で、一時的に保存しておく記憶領域を有する。 [0085] temporary storage unit 704, until the voice recognition processing is completed, corresponding with the voice state detection information is output from the speech state detection unit 102, and a speech encoded data which is output from the speech encoding unit 703 in a format it is, having a storage area which temporarily stores. クライアント側の装置7 The client-side of the device 7
は、サーバ側音声認識装置より、高精度な音声符号化データの再送要求を受信した場合に、一時記憶部704に保持されている、音声階層符号化データの高精度成分を、サーバ側音声認識装置8(図8参照)に送信する。 , From server-side speech recognition device, when receiving a retransmission request for the high precision speech coded data is held in the temporary storage unit 704, a high-precision components of the speech hierarchically encoded data, the server-side speech recognition sending device 8 (see FIG. 8). 【0086】パケット生成部705は、音声状態検出部702で検出された音声状態検出情報と音声符号化部7 [0086] The packet generation unit 705, the voice state detection information and audio encoding unit 7 detected by the speech state detection unit 702
05で符号化された音声符号化データを対応付けてペイロードを生成し、ネットワークを経由してサーバ側の音声認識装置8(図8参照)にデータを送信できるようにヘッダを付加してパケットを生成する。 05 in association with the encoded voice code data has been generated payload, the packet by adding a header as via the network can send data to the server side of the speech recognition device 8 (see FIG. 8) generated. この実施例においても、前記実施例と同様、サーバ側音声認識装置にデータを送信するためのプロトコルとして、RTPを用いる。 Also in this embodiment, as in the embodiment, as a protocol for transmitting data to the server-side speech recognition device, using RTP. 【0087】この実施例において、音声状態検出情報および音声符号化データは、共に、RTPパケットのペイロード部分に格納し、音声状態検出情報は、ペイロードヘッダとしてペイロード部分の先頭に記述する。 [0087] In this embodiment, the voice state detection information and audio encoded data are both stored in the payload portion of the RTP packet, audio state detection information describes the beginning of the payload portion as a payload header. 【0088】パケット送信部706は、パケット生成部105で生成したパケットをサーバ側音声認識装置(図8参照)に送信する。 [0088] packet transmission unit 706 transmits the packet generated by the packet generation unit 105 in the server-side speech recognition device (see Figure 8). 【0089】認識結果受信部707は、サーバ側の音声認識装置8(図8参照)より送信された音声認識の結果を受信するためのものである。 [0089] recognition result receiving unit 707 is for receiving the results of the speech recognition is sent from the server side of the speech recognition device 8 (see FIG. 8). 認識結果の送受信の形態として、回線交換型による音声での通知や、パケット形式でテキスト情報、音声符号化データ、または音声合成情報が送信されてくる形態が適用される。 In the form of transmitting and receiving the recognition result, notification and the voice circuit-switched type, text information in a packet format, speech encoded data or voice synthesis information, is applied form transmitted. 【0090】音声出力部708および表示部709は音声認識の結果を表示する出力装置をなすものであり、音声出力部708は、認識結果が音声で通知された場合、 [0090] The audio output unit 708 and the display unit 709, which form a output unit for displaying the result of speech recognition, speech output unit 708, if the recognition result is notified by voice,
また表示部709は認識結果がテキストで通知された場合にそれぞれ話者に対して認識結果を通知する。 The display unit 709 is the recognition result is to notify the recognition result for each speaker when it is notified by text. 【0091】制御信号送受信部710は、クライアント側の装置7とサーバ側の音声認識装置8(図8参照)との間で制御信号を送受信する。 [0091] The control signal receiving unit 710 transmits and receives control signals to and from the speech recognition device 8 of the client side of the apparatus 7 and the server side (see Fig. 8). 制御信号送受信部710 Control signal reception section 710
で送受信する信号として、ネットワーク間を流れるデータパケットのジッタやパケットロスが生じているか否かが判るRTCPレポートや、サーバ側の音声認識装置8 In a signal transmitted and received, whether jitter and packet loss of the data packets flowing between the network has occurred and RTCP report can be seen, the server side of the speech recognition device 8
からクライアント側の装置7に対する音声符号化データの再送要求および高精度成分の伝送要求などがある。 And the like transmission request retransmission request and precision components of the speech encoded data to the client-side of the device 7. サーバ側の音声認識装置8からの要求は、RTCPと共通のヘッダを持ち、パケットタイプを拡張することにより通常のRTCPのレポートとその他の要求を区別する。 Request from the speech recognition device 8 on the server side, RTCP and have a common header, distinguishing normal RTCP reports and other requirements by extending the packet type.
その他の要求のペイロード部分には、要求する音声波形の区間を示すために、始端と終端を示す音声状態検出情報と前回送信時の符号化レートが含まれる。 The payload portion of the other requirements, in order to show the section of the request for the speech waveform includes a coding rate during speech state detection information and the previous transmission indicating the start and end. 【0092】制御部711では、サーバ側の音声認識装置8(図8参照)から受信した制御信号を基に一時記憶部704およびパケット生成部706を制御する。 [0092] The control unit 711 controls the temporary storage unit 704 and the packet generation unit 706 based on the control signal received from the voice recognition device 8 on the server side (see Fig. 8). 【0093】制御部711では、 1)サーバ側の音声認識装置8(図8参照)からの(未到達パケット分に対する)再送要求率、 2)サーバ側の音声認識装置8からの高精度成分送信要求率、 3)RTCPレポートから得られるジッタおよびパケットロスの状況の3つをパラメータとして、 a)送信する符号化レート、 b)1パケットのサイズ、 の2つを制御する。 [0093] The control unit 711, 1) a server-side speech recognition device 8 (see FIG. 8) from (for unreached packets min) retransmission request rate, 2) high precision components transmitted from the server side of the speech recognition device 8 request rate, 3) the three situations jitter and packet loss obtained from the RTCP report as a parameter, a) coding rate to be transmitted, b) the size of one packet, and controls the two. 【0094】再送要求率は、クライアント側の装置7の制御部711で得られるパラメータであるため、サーバ側の音声認識装置8(図8参照)から音声認識の状況についてのレポートが別途無くとも、クライアント側の装置7側で、音声符号化レートの問題で認識率が上がらないのか、ネットワークの状況によるものなのかを区別して対策を施すことが出来る。 [0094] retransmission request rate are the parameters obtained by the control unit 711 of the client-side device 7, even report without separately on the status of the speech recognition from the speech recognition device 8 on the server side (see FIG. 8), the client-side device 7 side, voice or the coding rate of the problem of the recognition rate is not increased, to distinguish seemingly due status of the network can take a countermeasure. 制御部711の制御方法については後述する。 Later, for control of the controller 711. 【0095】操作部712は、前記第1の実施例と同様、クライアント側の装置7にキー入力により指示を行うためのものであり、テンキー、ジョグダイヤル、十字キーなどがある。 [0095] The operation unit 712 includes, as in the first embodiment is for an instruction by key input on the client side of the apparatus 7, a numeric keypad, a jog dial, and the like cross key. 【0096】(9)第2の実施例におけるサーバ側音声認識装置の構成:図8は、本発明の第2の実施例におけるサーバ側の音声認識装置(「サーバ側の装置」という)8の構成を示す図である。 [0096] (9) Configuration of server-side speech recognition apparatus of the second embodiment: FIG. 8, the server side in the second embodiment of the present invention a speech recognition apparatus (referred to as "device of the server-side") 8 it is a diagram showing a configuration. 図8を参照すると、第2 Referring to FIG. 8, the second
の実施例において、サーバ側の装置8は、クライアント側の装置7(図7参照)から送信されたパケットを受信するパケット受信部801と、パケット受信部801で受信したパケットを解析するパケット解析部802と、 In embodiments, apparatus 8 for the server side, a packet receiving unit 801 receives a packet transmitted from the client side of the apparatus 7 (see FIG. 7), the packet analysis unit for analyzing the packet received by the packet receiving unit 801 and 802,
パケット解析部802で分離された音声符号化データを一時的に保存する符号化データ一時保存部804と、パケット解析部802で分離された音声符号化データを復号する音声復号化部803と、音声復号化部803で復号された音声波形とパケット解析部802で分離された音声状態検出情報を基に音声認識処理を行う音声認識部805と、クライアント側の装置7(図7参照)からサーバ側装置へのパケット転送中に欠損したパケットの数やバイト数を計測して統計的なデータ処理を行ったり、 A coded data temporary storage unit 804 for temporarily storing the speech encoded data separated by the packet analysis unit 802, an audio decoding unit 803 decodes the speech encoded data separated by the packet analysis unit 802, the voice a voice recognition unit 805 which performs speech recognition processing based on the separated audio state detection information by voice waveform and packet analysis unit 802 decoded by the decoding unit 803, the server-side from the client side of the device 7 (see FIG. 7) or perform statistical data processing number number or byte of missing packets in the packet transfer to the device is measured,
音声認識部805で行われる音声認識処理の過程で得られる統計的情報の処理を行う統計処理部806と、統計処理部806から得られたデータを制御信号として、クライアント側の音声認識装置7へ送信したり、またクライアント側の装置7から送信される統計情報を受信する制御信号送受信部807と、音声認識部805での認識結果をテキスト乃至は音声でクライアント側の装置7へ送信する認識結果送信部808とを備えている。 A statistical processing unit 806 for processing the statistical information obtained in the course of the speech recognition process performed by the speech recognition unit 805, a control signal data obtained from the statistical processing unit 806, to the client side of the voice recognition device 7 transmission or, also a control signal transmission and reception unit 807 for receiving statistical information transmitted from the client side of the apparatus 7, a recognition result to send recognition results of the speech recognition unit 805 in text or audio to the client device 7 and a transmission unit 808. 【0097】パケット受信部801は、クライアント側の装置7(図7参照)から送信されたパケットを受信するためのものである。 [0097] The packet receiving unit 801 is for receiving a packet transmitted from the client side of the apparatus 7 (see FIG. 7). 受信するパケットは、RTPパケットである。 Packets received are RTP packets. 【0098】パケット解析部802は、パケット受信部801で受信したパケットを解析し、音声符号化データ、高精度差分データおよび音声状態検出情報とに分類する。 [0098] The packet analysis unit 802 analyzes the packet received by the packet receiving unit 801 classifies the speech encoded data, into a high-precision differential data and voice state detection information. また、パケット解析部で解析したパケットの数および受信バイト数を統計処理部805へ報告する。 It also reports the number of the number and the received byte packets analyzed by the packet analysis unit to the statistical processing unit 805. 【0099】符号化データ一時記憶部804では、クライアント側の装置7(図7参照)から受信した音声符号化データを一時的に保存する。 [0099] In the coded data temporary storage unit 804 temporarily stores encoded audio data received from the client-side device 7 (see FIG. 7). 符号化データの精度に因り音声認識が出来なかった場合、クライアント側の装置7に高精度差分データを要求し、受信後に符号化データ一時記憶部804に保存してある符号化データを結合して再度音声認識処理を行う。 If unable to speech recognition due to the accuracy of the encoded data, requires high-precision difference data to the client side of the apparatus 7, combined with the coded data stored on the encoded data temporary storage unit 804 after receiving again performs speech recognition processing. 【0100】音声復号化部803では、パケット解析部802で分離された音声符号化データを復号してデジタル音声波形データにする。 [0100] The speech decoding unit 803, to the digital speech waveform data by decoding encoded audio data separated by the packet analysis unit 802. また、高精度差分データを受信した場合には、符号化データを一時記憶部804に保存してある音声符号化データと結合してから、復号してデジタル音声波形データにする。 Further, when receiving a high-precision differential data from combined with speech encoded data that are stored in the temporary storage unit 804 the encoded data, to a digital sound waveform data by decoding. 【0101】音声認識部805では、音声復号化部80 [0102] The speech recognition unit 805, the audio decoding unit 80
3で復号されたデジタル音声波形データを用いて認識処理を行う。 The recognition process is performed using a digital audio waveform data decoded by 3. この際、パケット解析部802で分離した音声状態検出情報を用いて認識処理を行う。 In this case, the recognition processing performed by using the speech state detection information separated by the packet analysis unit 802. 【0102】統計処理部806では、パケット解析部8 [0102] The statistical processing unit 806, the packet analysis unit 8
02から得られる受信パケットの数およびバイト数などの情報を取得し、制御信号送受信部807から得られる情報と併せて、サーバ側の装置8が送信する制御信号を生成する。 Obtains information such as the number and the number of bytes of the received packets obtained from 02, along with information obtained from the control signal transmitting and receiving unit 807, generates a control signal device 8 on the server side to send. 【0103】制御信号送受信部807は、クライアント側の装置7(図7参照)とサーバ側の装置8との間で制御信号を送受信するためのものである。 [0103] The control signal receiving unit 807 is for transmitting and receiving control signals between the client side of the apparatus 7 (see FIG. 7) and the device 8 on the server side. 制御信号送受信部807で送受信する信号として、ネットワーク間を流れるデータパケットのジッタやパケットロスが生じているか否かが判るRTCPレポートや、サーバ側装置8からクライアント側の装置7に対する音声符号化データの再送要求、高精度差分データの送信要求などがある。 As a signal transmitted and received control signal transceiver 807, whether jitter and packet loss of the data packets flowing between the network has occurred and RTCP report can be seen, the speech encoded data from the server device 8 to the client side of the apparatus 7 retransmission request, and the like transmission request precision difference data. サーバ側の装置8からの要求はRTCPと共通のヘッダを持ち、パケットタイプを拡張することにより通常のRT Request from the server side of the device 8 has a common header and RTCP, conventional RT by extending the packet type
CPのレポートとその他の要求を区別する。 Distinguish CP reports and other requests. その他の要求のペイロード部分には、要求をする音声波形の区間を示すために、始端と終端を示す状態検出情報と前回送信時の符号化レートが含まれる。 The payload portion of the other requirements, in order to show the section of the speech waveform which the request contains the coding rate of the state detection information and the previous transmission indicating the start and end. 【0104】認識結果送信部808は、音声認識部80 [0104] recognition result transmission unit 808, the voice recognition unit 80
5で認識処理を行った結果をクライアント側装置に対して送信する。 It transmits the 5 results of recognition processing in the client-side device. 認識結果の送受信の形態として、回線交換型による音声での通知や、パケット形式でテキスト情報、音声符号化データ、または音声合成情報が送信されてくる形態が適用可能である。 In the form of transmitting and receiving the recognition result, notification and the voice circuit-switched type, text information in a packet format, the form in which the speech coded data or voice synthesis information, is transmitted is applicable. 【0105】(10)第2の実施例におけるサーバ側音声認識装置における音声認識処理から音声符号化データ送信要求を行う手順:図9は、本発明の第2の実施例の動作を説明するための流れ図である。 [0105] (10) Step perform speech encoded data transmission request from the speech recognition processing in the server-side speech recognition apparatus of the second embodiment: Figure 9 is for explaining the operation of the second embodiment of the present invention it is a flow diagram of. 図8及び図9を参照して、第2の実施例におけるサーバ側の装置8における音声認識処理およびクライアント側の装置7(図7参照)に対して音声符号化データの送信要求を行う際の手順について説明する。 Referring to FIGS. 8 and 9, when performing the transmission request for speech encoded data for voice recognition processing and the client-side of the device 7 (see FIG. 7) in the server side of the apparatus 8 according to the second embodiment procedure will be described. 【0106】ステップS901において、サーバ側の装置8は復号した音声波形を音声状態検出情報を始端と終端とした音声状態検出区間毎に分割する。 [0106] In step S901, the device 8 of the server-side divides the decoded speech waveform in each voice state detection section was beginning and end of the speech state detection information. 【0107】ステップS902において、サーバ側の装置8は全てのデータが受信できたか否かを判断する。 [0107] In step S902, the server-side device 8 all data to determine whether or not received. 受信できていないと判断した場合、ステップS803においてクライアント側の装置7(図7参照)に対して音声符号化データの再送要求を行う。 If it is determined that not received, a retransmission request of the speech encoded data to the client-side of the device 7 (see FIG. 7) at step S803. 【0108】ステップS904において、サーバ側の装置8は、音声状態検出区間毎に音声認識処理を実行する。 [0108] In step S904, the device 8 of the server side executes a speech recognition process for each speech state detection section. 【0109】ステップS905において、サーバ側の装置8は、ステップS904での認識結果の確からしさを判断し、クライアント側装置7(図7参照)に対して高精度差分符号化データの再送要求をするか否かの判断を行う。 [0109] In step S905, device 8 of the server side determines the likelihood of the recognition result in the step S904, the to a retransmission request for the high-precision encoded difference data to the client device 7 (see FIG. 7) whether to whether or not the decision. 認識結果の確からしさは、認識処理結果と対応するデータベースが同じものである確率で示す。 Certainty of recognition results show a probability database is the same as that corresponding to the recognition result. サーバ側の装置8は、この確率が、予め定められたある閾値よりも高ければ、認識結果として採用して話者に提示する単語とし、ある閾値よりも低い場合、ステップS906において音声状態検出区間の両端の音声状態検出点をデータとして認識確度の低い受信データ部分の高精度差分符号化データ送信要求をクライアント側の装置7に対して行う。 The server-side of the device 8, this probability is higher than a certain predetermined threshold, then the word to be presented adopted as the recognition result to the speaker, it is lower than a certain threshold value, the speech state detection section in step S906 of performing both ends accurate differential coded data transmission request low received data portion aware accuracy as data voice state detection points to the client-side of the device 7. 【0110】サーバ側の装置8は、認識率が上記閾値を越えるまで、ステップS904〜S905を繰り返す。 [0110] The server-side device 8, recognition rate until it exceeds the threshold value, repeating the steps S904~S905. 【0111】ステップS907において、サーバ側の装置8は、現在処理中の区間が最後の音声状態検出区間か否かの判定を行う。 [0111] In step S907, device 8 of the server side performs the determination period currently being processed whether the last voice state detection section. サーバ側の装置8は、最後の検出区間であれば認識処理を終了し、最後の検出区間でなければ、ステップS904に戻り引き続き音声認識処理を継続する。 8 of the server side terminates the recognition process if the last detection period, unless the last detection period, is continued speech recognition process returns to step S904. 【0112】(11)第2の実施例においてクライアント側の音声認識装置が高精度差分符号化データ送信要求を受信した際の手順:図10は、本発明の第2の実施例の動作を説明するための流れ図である。 [0112] (11) a second client-side of a speech recognition apparatus in the embodiment is highly accurate differential encoded data transmission request procedure when receiving the: 10, illustrating the operation of the second embodiment of the present invention it is a flow chart for. 図7及び図10 7 and 10
を参照して、第2の実施例において、クライアント側の装置7がサーバ側の装置8から、高精度差分符号化データ送信要求を受信した場合の手順について説明する。 See, in the second embodiment, the client-side of the device 7 from the server side of the device 8, the procedure described in the case of receiving a high-precision differential coded data transmission request. 【0113】ステップS1001において、クライアント側の装置7は、送信要求を解析してどの音声状態検出区間を再送すればよいかを検出する。 [0113] In step S1001, the client-side device 7 detects whether it is sufficient to retransmit any speech state detection section analyzes the transmission request. 【0114】ステップS1002において、クライアント側の装置7は、前回どの階層のデータまで送信したかを差分送信要求から確認する。 [0114] In step S1002, the client side of the apparatus 7, whether it has transmitted to the data of which layer previous to confirm the differential transmission request. 【0115】ステップS1003において、クライアント側の装置7は、音声状態検出区間の高精度差分符号化データを一時記憶部704から取得する。 [0115] In step S1003, the client side of the apparatus 7 acquires from the temporary storage unit 704 the high accuracy differential coded data of voice state detection section. 【0116】ステップS1004において、クライアント側の装置7は、ステップS1003で取得した高精度差分符号化データと状態検出情報をあわせてパケットを生成する。 [0116] In step S1004, the client-side device 7 generates a packet together the acquired accurate differential encoded data and state detection information in step S1003. 【0117】ステップS1005において、クライアント側の装置7は、ステップS1004で作成したパケットをサーバ側の装置8(図8参照)に対して送信する。 [0117] In step S1005, the client-side device 7 transmits the packet created in step S1004 to the server-side apparatus 8 (see FIG. 8). 【0118】なお、上記実施例において、クライアント側とサーバ側の装置とを相互接続するためのネットワークとしては、例えばRTPパケット等の伝送が行えるものであればよく、IP(Internet Protocol)網、電話網あるいはISDN(Integrated Services Digital Ne [0118] In the above embodiment, as the network for interconnecting the client and server side apparatus, for example, as long as it allows the transmission of such an RTP packet, IP (Internet Protocol) network, telephone network or ISDN (Integrated Services Digital Ne
twork)等任意である。 twork), and the like arbitrary. また図1、あるいは図7を参照して説明したクライアント側の装置は、音声入力部を有し、上記ネットワークを介してサーバ側の装置に接続される端末であれば、パーソナルコンピュータ等の端末のほか、携帯電話端末(cellar phone)、PDA(perso The client side device described with reference to FIG. 1 or FIG. 7, includes a speech input unit, if the terminal connected to the device on the server side via the network, the terminal such as a personal computer In addition, the mobile phone terminal (cellar phone), PDA (perso
nal digital assistant)等の携帯情報端末など任意の端末であってよい。 nal digital assistant) may be any terminal, such as a portable information terminal or the like. 【0119】以上本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみ限定されるものでなく、本願特許請求の範囲の各請求項の発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。 [0119] Although the present invention has been described with reference to the embodiments, the present invention is not limited only to the configurations of the embodiments described above, within the scope of the invention of each claim of the appended claims various modifications will be made by those skilled in the art, it is a matter of course, including modifications. 【0120】 【発明の効果】以上説明したように、本発明によれば、 [0120] As has been described in the foregoing, according to the present invention,
クライアント・サーバ構成の音声認識装置において、クライアント側の音声認識装置で、純粋な音声認識精度の低下の問題と、ネットワークの輻輳による認識精度の低下の問題を、区別することが可能とし、認識レベルを実用に耐えうるものとしながら、認識処理で生じるレイテンシの縮減(最小化)を図る、ことをができる、ということである。 In the speech recognition apparatus of a client-server configuration, the client side of the voice recognition device, and purity problems decrease in voice recognition accuracy, the problem of lowering the recognition accuracy due to network congestion, and can be distinguished, recognition level while those that can withstand the practical use, reduction of the latency through the recognition process achieved (minimized), it is that is that. 【0121】その理由は、本発明においては、クライアント側音声認識装置で、ネットワークのジッタと音声符号化データ再送要求信号から、適応的に、符号化レートとパケットに含まれるペイロードのサイズを変更する構成としているため、常に、音声認識精度を一定以上に保ちつつ、ネットワークへの負荷を下げ、認識処理で生じるレイテンシの最小化を図ることが出来るためである。 [0121] The reason for this is that in the present invention, the client-side speech recognition apparatus, the jitter and speech encoded data retransmission request signal of a network, adaptively changes the size of the payload included in the coding rate and the packet due to the configured always keeping the speech recognition accuracy higher than a certain level lowers the load on the network, it is because the can to achieve the minimization of the latency caused by the recognition process.

【図面の簡単な説明】 【図1】本発明の一実施例におけるクライアント側音声認識装置の構成を示す図である。 It is a diagram showing a configuration of a client-side speech recognition apparatus according to an embodiment of the BRIEF DESCRIPTION OF THE DRAWINGS [Figure 1] present invention. 【図2】本発明の一実施例におけるサーバ側音声認識装置の構成を示す図である。 Is a diagram showing a configuration of a server-side speech recognition apparatus according to an embodiment of the present invention; FIG. 【図3】本発明の一実施例における状態検出点および状態検出区間を説明するための模式図である。 It is a schematic diagram for explaining a state detection point and the state detecting section in an embodiment of the present invention; FIG. 【図4】本発明の一実施例においてサーバ側音声認識装置からクライアント側音声認識装置に対して音声符号化データの再送要求を行う場合の処理手順について示した流れ図である。 Is a flow diagram illustrating the processing procedure when a retransmission request of the speech encoded data to the client-side speech recognition device from a server-side speech recognition apparatus in one embodiment of the present invention; FIG. 【図5】本発明の一実施例においてクライアント側音声認識装置がサーバ側音声認識装置から音声符号化データの再送要求を受けた場合の処理手順について示した流れ図である。 [5] The client-side speech recognition apparatus in one embodiment of the present invention is a flow chart showing the processing procedure when receiving a retransmission request for speech encoded data from the server-side speech recognizer. 【図6】本発明の一実施例においてクライアント側音声認識装置における符号化レートおよびペイロードサイズ決定基準について一覧で示した図である。 6 is a diagram showing in one embodiment a list for a coding rate and payload size determination criterion in the client speech recognition apparatus of the present invention. 【図7】本発明の第2の実施例におけるクライアント側音声認識装置の構成を示す図である。 7 is a diagram showing a configuration of a client-side speech recognition apparatus according to the second embodiment of the present invention. 【図8】本発明の第2の実施例におけるサーバ側音声認識装置の構成を示す図である。 Is a diagram showing a configuration of a server-side speech recognition apparatus according to the second embodiment of the present invention; FIG. 【図9】本発明の第2の実施例においてサーバ側音声認識装置における音声認識処理から音声符号化データ送信要求を行う手順について示した流れ図である。 9 is a flow chart showing the procedure for speech encoded data transmission request from the speech recognition processing in the server-side speech recognition apparatus in the second embodiment of the present invention. 【図10】本発明の第2の実施例においてクライアント側音声認識装置が高精度差分符号化データ送信要求を受信した際の手順について示した流れ図である。 [10] The client-side speech recognition apparatus in the second embodiment of the present invention is a flow chart showing the procedure when it receives a high-precision differential coded data transmission request. 【符号の説明】 1 クライアント側の音声認識装置(クライアント側の装置) 101 音声入力部102 音声状態検出部103 一時記憶部104 音声符号化部105 パケット生成部106 パケット送信部107 認識結果受信部108 音声出力部109 表示部110 制御信号送受信部111 制御部112 操作部2 サーバ側の音声認識装置(サーバ側の装置) 201 パケット受信部202 パケット解析部203 音声復号化部204 音声認識部205 統計処理部206 制御信号送受信部207 認識結果送信部301 音声波形302〜306 状態検出点307〜310 状態検出区間7 クライアント側の音声認識装置(クライアント側の装置) 701 音声入力部702 音声状態検出部703 音声符号化部704 一時記憶部705 パケ [EXPLANATION OF SYMBOLS] 1 client side of the voice recognition device (client device) 101 voice input unit 102 speech state detection unit 103 the temporary storage unit 104 the speech coder 105 packet generating unit 106 packet transmission unit 107 recognition result receiving unit 108 speech recognition apparatus of the audio output unit 109 display unit 110 control signal receiving unit 111 control unit 112 operation unit 2 server (device on the server side) 201 packet reception unit 202 packet analysis unit 203 speech decoder 204 speech recognition unit 205 statistically processes part 206 control signal receiving unit 207 recognition result transmission unit 301 speech waveform 302-306 speech recognition apparatus in a state detection points 307 to 310 state detecting section 7 client (client device) 701 voice input unit 702 speech state detection unit 703 audio encoding unit 704 the temporary storage unit 705 Paquet ット生成部706 パケット送信部707 認識結果受信部708 音声出力部709 表示部710 制御信号送受信部711 制御部712 操作部8 サーバ側の音声認識装置(サーバ側の装置) 801 パケット受信部802 パケット解析部803 音声復号化部804 符号化データ一時記憶部805 音声認識部806 統計処理部807 制御信号送受信部808 認識結果送信部 Tsu DOO generator 706 packet transmission unit 707 recognition result receiving unit 708 speech recognition apparatus of the audio output unit 709 display unit 710 control signal receiving unit 711 control unit 712 operation unit 8 server (device on the server side) 801 packet reception unit 802 packet analysis unit 803 speech decoder 804 the encoded data temporary storage unit 805 the speech recognition unit 806 statistical processing section 807 the control signal transceiver 808 recognition result transmission unit

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl. 7識別記号 FI テーマコート゛(参考) G10L 15/28 G10L 9/00 N 19/00 9/18 A ────────────────────────────────────────────────── ─── of the front page continued (51) Int.Cl. 7 identification mark FI theme Court Bu (reference) G10L 15/28 G10L 9/00 N 19/00 9/18 a

Claims (1)

  1. 【特許請求の範囲】 【請求項1】クライアント側の装置とサーバ側の装置とを備えた音声認識装置であって、 前記クライアント側の装置が、 入力される音をデジタルデータに変換する入力部と、 前記入力部から出力されるデータを入力し、前記データから音声区間および音声の状態を検出する音声状態検出部と、 前記音声状態検出部から出力される音声波形データを入力し、前記音声波形データを符号化する音声符号化部と、 前記音声符号化部から出力される音声符号化データと、 A speech recognition device that includes a All Claims of claim 1 client-side device and server-side device, the client-side device, an input unit for converting a sound that is input to the digital data If, enter the data output from the input section inputs the voice state detection unit for detecting the state of the speech segment and the audio from the data, the speech waveform data outputted from the voice state detection unit, the voice a speech encoder for encoding the waveform data, and the speech encoded data output from the audio encoding unit,
    前記音声状態検出部で検出された状態検出情報とを入力し、前記音声符号化データと状態検出情報とを組み合わせてパケットを生成するパケット生成部と、 前記パケット生成部で生成したパケットを送信するパケット送信部と、 前記サーバ側の装置から送信される認識結果を受信する認識結果受信部と、 前記認識結果受信部で受信したデータが文字情報の場合に該文字情報を表示する表示部と、 前記認識結果受信部で受信したデータが音声データの場合に音声を出力する音声出力部と、 前記サーバ側の装置との間で制御信号を送受する制御信号送受信部と、 前記制御信号送受信部から出力される前記サーバ側の装置から送信された制御信号を入力情報として、前記音声符号化部および前記パケット生成部の動作を制御する制御部と、 を備 Type and said state detection information detected by the voice state detection unit, and transmits a packet generator for generating a packet by combining said speech encoded data and state detection information, the packet generated by the packet generating unit a packet transmitter, a recognition result receiving unit that receives a recognition result transmitted from the device of the server side, a display unit data received by the recognition result receiving unit displays the character information when the character information, a voice output unit data received by the recognition result receiving unit outputs a sound when the audio data, a control signal transceiver for transmitting and receiving control signals to and from the server side of the apparatus, from the control signal transmitting and receiving unit as input information a control signal transmitted from the apparatus of the server side outputted, Bei and a control unit for controlling the operation of the speech encoding unit and the packet generation unit え、 前記サーバ側の装置が、 前記クライアント側の装置の前記パケット送信部から送信されるパケットを受信するパケット受信部と、 前記パケット受信部から出力されるパケットを、前記クライアント側の装置の前記音声状態検出部で検出された状態検出情報と、前記音声符号化部で符号化された音声符号化データとに分離するパケット解析部と、 前記パケット解析部で分離された音声符号化データを入力し前記音声符号化データを復号する音声復号化部と、 前記音声復号化部で復号された音声波形データと、前記パケット解析部で分離した前記状態検出情報とを入力し、前記音声波形データと前記状態検出情報とから音声認識処理を行う音声認識部と、 前記音声認識部で認識された結果を、前記クライアント側の装置に送信する認識結 For example, the server side of the apparatus, a packet receiving unit that receives a packet transmitted from said packet transmission unit of the client side of the apparatus, a packet output from the packet reception unit, wherein the client-side device inputs and state detection information detected by the voice state detection unit, a packet analysis unit for separating the speech encoded data encoded by the audio encoding unit, the speech encoded data separated by the packet analysis unit a speech decoder for decoding the above speech encoded data, and the audio waveform data decoded by the speech decoding unit, inputs and said state detection information separated by the packet analysis unit, the audio waveform data recognition binding to send a voice recognition unit for performing voice recognition processing from said state detection information, the result of the recognized speech recognition unit, the device of the client-side 送信部と、 前記クライアント側の装置との間で制御信号を送受する制御信号送受信部と、 前記パケット解析部と前記音声認識部と前記制御信号送受信部とから得られる制御信号及び処理結果を基に、所定の統計的処理を行う統計処理部と、 を備えている、ことを特徴とする音声認識装置。 Group and transmitting unit, and a control signal transceiver for transmitting and receiving control signals to and from the client side device, the control signal and processing the results obtained from the packet analysis unit and the voice recognition unit and the control signal transceiver unit a, and a, and a statistical processing section for performing predetermined statistical processing, it speech recognition apparatus according to claim. 【請求項2】請求項1に記載の音声認識装置において、 前記クライアント側の装置が、前記音声状態検出部より出力される音声波形データおよび音声状態検出情報を一時的に保存する一時記憶部を備えている、ことを特徴とする音声認識装置。 In the speech recognition apparatus according to claim 1, wherein the client-side device, a temporary storage unit for temporarily storing the voice waveform data and the voice state detection information outputted from the speech state detection unit provided by which, the speech recognition apparatus characterized by. 【請求項3】請求項2に記載の音声認識装置において、 前記クライアント側の装置が、前記サーバ側の装置からの音声符号化データ再送要求に対して、前記一時記憶部に保持されている音声データを符号化して再送する手段を有する、ことを特徴とする音声認識装置。 The speech recognition apparatus according to 3. The method of claim 2, sound the client side device, the speech encoded data retransmission request from device of the server side, is held in the temporary storage unit data comprising means for retransmitting by coding, speech recognition apparatus characterized by. 【請求項4】請求項1に記載の音声認識装置において、 前記クライアント側の装置の前記音声符号化部が、階層符号化処理を行う機能を有し、 前記クライアント側の装置が、階層符号化データを一時的に保存する一時記憶部を備え、 前記サーバ側の装置が、階層符号化データを一時的に保存する一時記憶部を備えている、ことを特徴とする音声認識装置。 4. A speech recognition apparatus according to claim 1, wherein the audio encoding unit of the client side of the apparatus has a function of performing hierarchical coding process, the client-side device, hierarchical encoding It includes a temporary storage unit for storing the data temporarily, the server side of the apparatus, and a temporary storage unit for temporarily storing the hierarchically encoded data, the speech recognition apparatus characterized by. 【請求項5】請求項3又は4に記載の音声認識装置において、 前記サーバ側の装置から前記クライアント側の装置に対して行う音声符号化データ再送要求の始端および終端として、前記クライアント側の装置の前記音声状態検出部で検出した状態検出情報を用いて指定する、ことを特徴とする音声認識装置。 5. A speech recognition apparatus according to claim 3 or 4, wherein the start and end of the speech encoded data retransmission request to perform the server-side apparatus to the client-side device, the client side of the apparatus It said specified using the detected state detection information by voice state detection unit, the speech recognition apparatus characterized by. 【請求項6】請求項4に記載の音声認識装置において、 前記クライアント側の装置から前記サーバ側の装置に送信した音声符号化データが、階層符号化データであり、 前記サーバ側の装置から前記クライアント側の装置に対して前記クライアント側の装置の前記音声状態検出部で検出した状態検出情報を用いて始端および終端を指定して前記音声符号化データの差分データの送信要求を行い、 前記クライアント側の装置が、前記階層符号化データの差分データを前記サーバ側装置に送信する手段を有する、ことを特徴とする音声認識装置。 6. The speech recognition apparatus according to claim 4, speech encoded data from said client-side apparatus transmits to the device of the server side is a hierarchically encoded data, from said device of said server-side by specifying the start and end performs transmission request of the differential data of the voice coded data by using said state detection information detected by the voice state detection unit of the client-side device to the client-side device, the client side of the device has means for transmitting the difference data of the hierarchically encoded data to said server-side apparatus, the speech recognition apparatus characterized by. 【請求項7】サーバ側の装置と、前記サーバ側の装置にネットワークを介して接続されるクライアント側の装置と、を有するサーバ・クライアント型の音声認識装置であって、 前記クライアント側の装置が、 前記クライアント側の装置の音声入力手段より入力された音声データから前記サーバ側の装置での音声認識処理で必要とされる音声状態検出区間を含む状態情報(「音声状態検出情報」という)を検出して出力する音声状態検出手段と、 前記音声入力手段からの音声波形データ、及び前記音声状態検出手段からの音声状態検出情報を受け取り、これらを一時的に保持する記憶手段と、 前記音声波形データを入力して符号化し、音声符号化データを出力する音声符号化手段と、 前記音声符号化データと前記音声状態検出情報とを入力 7. A server-side device, wherein a voice recognition device of a server-client type having a client device connected via a network to the device on the server side, the client-side device , the status information including speech state detection section from the voice data input from the voice input means of the client-side device is required by the speech recognition processing in the apparatus of the server side (referred to as "voice state detection information") a voice state detecting means detects and outputs, receives the audio state detection information from the speech waveform data, and the voice state detecting means from said speech input means, a storage means for holding them temporarily, the speech waveform input to input data by encoding the speech coding means for outputting encoded audio data, and the voice coded data and said voice state detection information 、これらを組み合わせた信号を生成して前記サーバ側の装置に送信する手段と、 を備え、 前記サーバ側の装置が、 前記クライアント側の装置より前記サーバ側の装置に送られた信号を受け取り、音声符号化データと音声状態検出情報とに分離する手段と、 分離された前記音声符号化データを復号する音声復号化手段と、 前記音声復号化手段で復号された音声波形データと、分離された前記音声状態検出情報とを受け取り、前記音声状態検出区間に対応して音声認識処理を行う音声認識手段と、 を備え、 前記クライアント側の装置が、 前記サーバ側の装置から再送要求が送信された場合、これを受け取って解析し、再送すべき音声状態検出区間を検出する手段と、 前記記憶手段より前記音声状態検出区間に対応する音声波形データを取得 , And means for transmitting them to the signaling device of the server side generates a that combines, wherein the server-side apparatus receives the signal transmitted the from the client-side device to the device of the server side, It means for separated into speech encoded data and voice state detection information, and the audio decoding means for decoding the separated the speech encoded data, and the audio waveform data decoded by said speech decoding means, separated It receives said voice state detection information, and a speech recognition means for performing speech recognition processing in response to the speech state detection section, the client-side apparatus, a retransmission request is transmitted from the apparatus of the server-side If, receives and analyzes this, acquiring means for detecting a speech state detection section to be retransmitted, the speech waveform data corresponding to the voice state detection section from the storage means し、取得した前記音声波形データを前記音声符号化手段で音声符号化処理を行って得られた音声符号化データを、前記サーバ側の装置に対して再送する制御を行う手段と、 をさらに備えている、ことを特徴とする音声認識装置。 And further comprising means for performing the acquired speech encoded data to the speech waveform data obtained by performing speech coding at the speech coding means is a control to retransmit to the server-side of the device, the and that, the speech recognition apparatus characterized by. 【請求項8】前記音声状態検出情報が、音声の始端と終端、母音部、子音部を表す情報を含む音声状態検出点を有し、 前記音声状態検出区間は、前記音声状態検出点を始端と終端に持つ、ことを特徴とする請求項7に記載の音声認識装置。 Wherein said voice state detection information, start and end, vowel part of speech, an audio condition detection point comprising information representative of the consonant portion, the speech state detection section, beginning the voice state detection point to have the end, it speech recognition apparatus according to claim 7, characterized in. 【請求項9】前記サーバ側の装置が、前記クライアント側の装置に送信する再送要求に、再送要求をする音声波形の区間を示すために始端と終端を示す音声状態検出情報と、前回送信時の符号化レートとを含めて、送信する手段を備えている、ことを特徴とする請求項7に記載の音声認識装置。 9. the server side apparatus, the retransmission request transmitting said client-side device, and the audio state detection information indicating the start and end to indicate the section of the speech waveform which the retransmission request, the previous transmission including the an encoding rate, and a means for transmitting, that speech recognition apparatus according to claim 7, characterized in. 【請求項10】前記サーバ側の装置が、前記クライアント側の装置から前記サーバ側の装置へのパケット転送中に欠損したパケット数、又は、パケット数とバイト数を計測して統計的なデータ処理を行い、前記音声認識手段で行われる音声認識処理の過程で得られる統計的情報の処理を行う統計処理手段を備えている、ことを特徴とする請求項7に記載の音声認識装置。 10. of the server-side apparatus, the number of packets missing in the packet transfer from the client-side device to the server side of the apparatus, or statistical data processing to measure the number of number of packets and bytes was carried out, the includes a statistical processing means for processing the statistical information obtained in the course of the speech recognition process performed by the speech recognition means, that the speech recognition apparatus of claim 7, wherein the. 【請求項11】前記クライアント側の装置は、前記サーバ側の装置からの音声の再送要求を受信した際に、再送要求がなされている音声状態検出区間を判別し、一度目に再送要求された音声状態検出区間の合計を、前記記憶手段に記憶されている、連続音声の時間長で割った値を、再送要求率として求める手段と、 前記再送要求率と、ジッタ情報とから、再送される音声の符号化レートと、データサイズとを決定し、決定された前記符号化レートとデータサイズに従って、前記記憶手段に記憶されている音声符号化データを、前記サーバ側の装置に再送する制御を行う手段を備えている、ことを特徴とする請求項7に記載の音声認識装置。 Wherein said client side device, the upon receiving a retransmission request of the voice from the server side of the apparatus, to determine the speech state detection section retransmission request has been made, retransmitted requests at a time the sum of the speech state detection section stored in said storage means, the divided by the time length of the continuous speech values, from means for determining a retransmission request rate, and the retransmission request rate, and the jitter information is retransmitted and the coding rate of speech, and determines the data size according to the determined the coding rate and data size are, the speech encoded data stored in the storage means, a control to retransmit the device of the server-side and a means for performing, that speech recognition apparatus according to claim 7, characterized in. 【請求項12】再送要求率とジッタのそれぞれを相対的に大、標準、相対的に小とに予め区分しておき、 前記クライアント側の装置において、 前記再送要求率が、相対的に大である場合には、符号化レートを上げ、 前記再送要求率が相対的に大であり、且つ、ジッタが相対的に小である場合には、符号化レートを上げて送信パケットのペイロードサイズを小さくし、ジッタが相対的に大になった場合には、送信パケットのペイロードサイズを大きくし、 ジッタが相対的に大であり、且つ、前記再送要求率が相対的に小である場合は、送信パケットのペイロードサイズを大きくして符号化レートを下げる制御を行う手段を備えている、ことを特徴とする請求項11に記載の音声認識装置。 12. Relatively large each retransmission request rate and jitter, standard, previously divided into a relatively small, in the device of the client-side, the retransmission request rate is relatively large in some cases, increasing the coding rate, the retransmission request rate is relatively large, and, when the jitter is relatively small, the smaller the payload size of a transmission packet by increasing the coding rate and, when the jitter becomes relatively large is to increase the payload size of the transmission packet, a jitter is relatively large, and, when the retransmission request rate is relatively small, the transmission the payload size of the packet is increased to and a means for controlling to reduce the coding rate, it speech recognition apparatus according to claim 11, wherein. 【請求項13】前記サーバ側の装置は、前記クライアント側の装置から全てのデータが受信できたか否かを判断し、全てのデータが受信できていないと判断した場合、 13. of the server-side apparatus, wherein it is determined whether all the data has been received from the client side of the apparatus, when it is determined that all data has not been received,
    前記クライアント側の装置に対して音声符号化データの再送要求を行う手段を備え、 前記音声認識手段では、音声状態検出区間毎に音声認識処理を実行し、 前記音声認識結果の認識率を判定し、前記クライアント側の装置に対して、音声符号化データの再送要求をするか否かの判断を行う手段と、 前記認識率が予め定められた閾値よりも低い場合には、 Comprising means for performing a retransmission request for speech encoded data to the client-side of the device, in the speech recognition means executes speech recognition processing for each speech state detection section, determines a recognition rate of the speech recognition result the the client side of the apparatus, if the means for judging whether a retransmission request for the speech encoded data, the recognition rate is lower than a predetermined threshold value,
    音声状態検出区間の両端の音声状態検出点をデータとして、認識確度の低い受信データ部分の再送要求を前記クライアント側の装置に対して行う手段とを備えている、 A voice state detection points at both ends of the speech state detection section as data, and means for performing a retransmission request of low received data portion of recognition accuracy to the client side of the apparatus,
    ことを特徴とする請求項7に記載の音声認識装置。 Speech recognition apparatus according to claim 7, characterized in that. 【請求項14】前記クライアント側の装置において、前記音声符号化手段が、前記音声入力手段から前記音声状態検出手段で状態が検出された後の音声波形データを階層符号化し、 前記記憶手段は、音声認識処理が終了するまで、前記音声状態検出手段からの出力である音声状態検出情報と、 14. The apparatus of the client side, the speech encoding means, hierarchical encoding audio waveform data after the state is detected by the speech state detecting means from said speech input means, said storage means, until the voice recognition processing is completed, the voice state detection information is output from the voice state detection means,
    前記音声符号化手段からの出力である音声符号化データとを対応させた形式で記憶保持し、 前記サーバ側の装置より、高精度な音声符号化データの再送要求を受信した場合に、前記記憶手段に記憶保持されている、音声階層符号化データの高精度成分を、前記サーバ側の装置に送信する手段を備えている、ことを特徴とする請求項7に記載の音声認識装置。 The speech encoded output storage hold the speech encoded data is made to correspond the form is from the means, by the device of the server side, when receiving a retransmission request for the high precision speech coded data, said storage stored and held in the unit, the high-precision components of the speech hierarchically encoded data, said comprising means for transmitting to the device of the server side, it speech recognition apparatus according to claim 7, characterized in. 【請求項15】前記クライアント側の装置は、前記サーバ側の装置からの再送要求を解析してどの音声状態検出区間を再送すればよいかを検出し、前回どの階層のデータまで送信したかを送信要求から確認する手段を備え、 前記音声状態検出区間の高精度差分符号化データを前記記憶手段から取得し、前記取得した高精度差分符号化データと音声状態検出情報とをあわせてパケットを生成し、前記パケットを前記サーバ側の装置に対して送信する制御を行う手段を備えている、ことを特徴とする請求項14に記載の音声認識装置。 15. of the client-side device, the detected whether it is sufficient to retransmit any speech state detection section analyzes the retransmission request from the server-side apparatus, whether transmitted until the data of which layer the previous comprising a means for confirming the transmission request, generates a high-precision differential acquires encoded data from the storage means, the packet together with the acquired accurate differential coded data and voice state detection information of the speech state detection section and comprises means for performing control to transmit the packet to the server side of the apparatus, speech recognition apparatus according to claim 14, wherein. 【請求項16】サーバ・クライアント型の音声認識装置を構成するサーバ側の装置にネットワークを介して接続されるクライアント側の装置において、 音声入力手段より入力された音声データから、前記サーバ側の装置での音声認識処理で必要とされる音声状態検出区間を含む状態情報(「音声状態検出情報」という) The client-side device connected via a network to 16. The apparatus of server-side constituting a server-client type speech recognition apparatus, the voice data input from voice input unit, the server-side apparatus status information including speech state detection section that is required by the speech recognition processing in (called "voice state detection information")
    を検出して出力する音声状態検出手段と、 前記音声入力手段からの音声波形データ、及び前記音声状態検出手段からの音声状態検出情報を受け取り、これらを一時的に保持する記憶手段と、 前記音声波形データを入力して符号化し音声符号化データを出力する音声符号化手段と、 前記音声符号化データと前記音声状態検出情報とを入力しこれらを組み合わせた信号を生成して前記サーバ側の装置に送信する手段と、 前記サーバ側の装置から送信される再送要求を受け取って解析し、再送すべき音声状態検出区間を検出する手段と、 前記記憶手段より前記音声状態検出区間に対応する音声波形データを取得し、取得した前記音声波形データを前記音声符号化手段で音声符号化処理を行って得られた音声符号化データを、前記サーバ側の装置 A voice state detecting means detects and outputs the receive audio state detection information from the speech waveform data, and the voice state detecting means from said speech input means, a storage means for holding them temporarily, the audio and voice encoding means for outputting encoded audio data and encoded input waveform data, the speech encoded data and the voice state detection information and the input device generates and the server-side signals that combine these means for transmitting to said analyzing receives a retransmission request transmitted from the server side of the apparatus, means for detecting a speech state detection section to be retransmitted, the speech waveform corresponding to the speech state detection section from the storage means It acquires data, acquired speech encoded data obtained by the speech encoding process in the audio coding means the speech waveform data, the server-side apparatus 対して再送する制御を行う手段と、 を備えている、ことを特徴とするクライアント側の装置。 And a means for controlling to retransmit for, that the client-side device according to claim. 【請求項17】前記音声状態検出情報が、音声の始端と終端、母音部、子音部を表す情報を含む音声状態検出点を有し、 前記音声状態検出区間は、前記音声状態検出点を始端と終端に持つ、ことを特徴とする請求項16に記載のクライアント側の装置。 17. The speech state detection information, start and end, vowel part of speech, an audio condition detection point comprising information representative of the consonant portion, the speech state detection section, beginning the voice state detection point to have the terminal, the client-side device according to claim 16, characterized in that. 【請求項18】前記サーバ側の装置からの音声の再送要求を受信した際に、再送要求がなされている音声状態検出区間を判別し、一度目に再送要求された音声状態検出区間の合計を、前記記憶手段に記憶されている、連続音声の時間長で割った値を、再送要求率として求める手段と、 前記再送要求率と、ジッタ情報とから、再送される音声の符号化レートと、データサイズとを決定し、決定された前記符号化レートとデータサイズに従って、前記記憶手段に記憶されている音声符号化データを、前記サーバ側の装置に再送する制御を行う手段を備えている、ことを特徴とする請求項16に記載のクライアント側の装置。 When 18. Upon receiving the retransmission request of the voice from the apparatus of the server side, to determine the speech state detection section retransmission request has been made, a total of retransmission request voice state detection section to one time , stored in the storage unit, was divided by the time length of the continuous speech values, means for determining a retransmission request rate, and the retransmission request rate, and a jitter information, and the coding rate of the audio to be retransmitted, determining a data size according to the determined the coding rate and data size are, the speech encoded data stored in the storage means, and a means for controlling to retransmit the device of the server side, client-side device according to claim 16, characterized in that. 【請求項19】前記音声符号化手段が、前記音声入力手段から前記音声状態検出手段で状態が検出された後の音声波形データを階層符号化し、 前記記憶手段は、音声認識処理が終了するまで、前記音声状態検出手段からの出力である音声状態検出情報と、 19. The speech encoding means, wherein the hierarchically coded speech waveform data after the state is detected by the speech state detecting means from the voice input means, said storage means to the speech recognition process is completed a voice state detection information is output from the voice state detection means,
    前記音声符号化手段からの出力である音声符号化データとを対応させた形式で記憶保持し、 前記サーバ側の装置より、高精度な音声符号化データの再送要求を受信した場合に、前記記憶手段に記憶保持されている音声階層符号化データの高精度成分を、前記サーバ側の装置に対して送信する制御を行う手段を備えている、ことを特徴とする請求項16に記載のクライアント側の装置。 The speech encoded output storage hold the speech encoded data is made to correspond the form is from the means, by the device of the server side, when receiving a retransmission request for the high precision speech coded data, said storage the high-precision components of the speech hierarchically encoded data stored and held in the unit, the client of claim 16, characterized in that comprises means for performing control of transmitting to the server-side of the device device. 【請求項20】請求項16乃至19のいずれか一に記載されるクライアント側の装置とネットワークを介して接続する前記サーバ側の装置が、 前記クライアント側の装置より前記サーバ側の装置に送られた信号から音声符号化データと音声状態検出情報とに分離する手段と、 分離された前記音声符号化データを復号する音声復号化手段と、 前記音声復号化手段で復号された音声波形データと、分離された前記音声状態検出情報とから音声状態検出区間に対応して音声認識処理を行う音声認識手段と、を備えている、サーバ側の装置。 20. of the server-side connected via a client-side device and the network as described in any one of claims 16 to 19 devices, said sent to device on the server side from the client side of the apparatus means for separated into speech encoded data and voice state detection information from the signal, the speech decoding means for decoding the separated the speech encoded data, and the audio waveform data decoded by said speech decoding means, and a separated the speech state detection information corresponding to the speech state detection section includes a speech recognition means for performing speech recognition processing, the server-side device. 【請求項21】前記クライアント側の装置から全てのデータが受信できたか否かを判断し、全てのデータが受信できていないと判断した場合、前記クライアント側の装置に対して音声符号化データの再送要求を行う手段を備え、 前記音声認識手段では、音声状態検出区間毎に音声認識処理を実行し、 前記音声認識結果の認識率を判定し、前記クライアント側の装置に対して、音声符号化データの再送要求をするか否かの判断を行う手段と、 前記認識率が予め定められた閾値よりも低い場合には、 21. determines whether all of the data from the client-side device can be received, when it is determined that all data has not been received, the speech encoded data to the client-side of the device comprising means for performing a retransmission request, in the voice recognition means executes speech recognition processing for each speech state detection section, determines a recognition rate of the speech recognition result, to the client side of the apparatus, speech coding means for judging whether a retransmission request for the data, if the recognition rate is lower than a predetermined threshold value,
    音声状態検出区間の両端の音声状態検出点をデータとして、認識確度の低い受信データ部分の再送要求を前記クライアント側の装置に対して行う手段とを備えている、 A voice state detection points at both ends of the speech state detection section as data, and means for performing a retransmission request of low received data portion of recognition accuracy to the client side of the apparatus,
    ことを特徴とする請求項20に記載のサーバ側の装置。 The server-side apparatus according to claim 20, characterized in that.
JP2001399182A 2001-12-28 2001-12-28 Server-client type voice recognition device Pending JP2003195880A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001399182A JP2003195880A (en) 2001-12-28 2001-12-28 Server-client type voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001399182A JP2003195880A (en) 2001-12-28 2001-12-28 Server-client type voice recognition device

Publications (1)

Publication Number Publication Date
JP2003195880A true JP2003195880A (en) 2003-07-09

Family

ID=27604315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001399182A Pending JP2003195880A (en) 2001-12-28 2001-12-28 Server-client type voice recognition device

Country Status (1)

Country Link
JP (1) JP2003195880A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005292476A (en) * 2004-03-31 2005-10-20 Jfe Systems Inc Client response method and device
US8421932B2 (en) 2010-12-22 2013-04-16 Kabushiki Kaisha Toshiba Apparatus and method for speech recognition, and television equipped with apparatus for speech recognition
JP2013074424A (en) * 2011-09-27 2013-04-22 Oki Electric Ind Co Ltd Voice communication system, voice communication device, and program
WO2016043182A1 (en) * 2014-09-17 2016-03-24 株式会社東芝 Voice segment detection system, voice starting end detection device, voice termination end detection device, voice segment detection method, voice starting end detection method, voice termination end detection method, and program
JP2016170272A (en) * 2015-03-12 2016-09-23 株式会社東芝 Transmitter, voice recognition system, transmission method, and program
JP2017050010A (en) * 2013-02-20 2017-03-09 株式会社ソニー・インタラクティブエンタテインメント Hybrid performance scaling or speech recognition

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005292476A (en) * 2004-03-31 2005-10-20 Jfe Systems Inc Client response method and device
US8421932B2 (en) 2010-12-22 2013-04-16 Kabushiki Kaisha Toshiba Apparatus and method for speech recognition, and television equipped with apparatus for speech recognition
JP2013074424A (en) * 2011-09-27 2013-04-22 Oki Electric Ind Co Ltd Voice communication system, voice communication device, and program
JP2017050010A (en) * 2013-02-20 2017-03-09 株式会社ソニー・インタラクティブエンタテインメント Hybrid performance scaling or speech recognition
WO2016043182A1 (en) * 2014-09-17 2016-03-24 株式会社東芝 Voice segment detection system, voice starting end detection device, voice termination end detection device, voice segment detection method, voice starting end detection method, voice termination end detection method, and program
US10210886B2 (en) 2014-09-17 2019-02-19 Kabushiki Kaisha Toshiba Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus
JP2016170272A (en) * 2015-03-12 2016-09-23 株式会社東芝 Transmitter, voice recognition system, transmission method, and program

Similar Documents

Publication Publication Date Title
Jiang et al. Analysis of on-off patterns in VoIP and their effect on voice traffic aggregation
DE60218252T2 (en) Method and apparatus for speech transcoding
CA2566125C (en) Header compression of multimedia data transmitted over a wireless communication system
DE60030117T2 (en) Estimating time stamps in real-time packet transfer
US7295549B2 (en) Source and channel rate adaptation for VoIP
US20030135631A1 (en) System and method for delivery of dynamically scalable audio/video content over a network
JP4426454B2 (en) Delay trade-off between communication links
KR100501324B1 (en) Call Routing Method based on MOS prediction value
US7463901B2 (en) Interoperability for wireless user devices with different speech processing formats
US6968309B1 (en) Method and system for speech frame error concealment in speech decoding
US6366959B1 (en) Method and apparatus for real time communication system buffer size and error correction coding selection
US6487603B1 (en) Method and apparatus for real time communication over switched networks
CN1163045C (en) Update of header compression state in packet communications
US7366204B2 (en) Apparatus for generating and restoring RTP packet and method thereof
EP1408679A2 (en) Multiple data rate communication system
US7529675B2 (en) Conversational networking via transport, coding and control conversational protocols
US7656861B2 (en) Method and apparatus for interleaving text and media in a real-time transport session
CN1943189B (en) Method and apparatus for increasing perceived interactivity in communications systems
Sangwan et al. VAD techniques for real-time speech transmission on the Internet
EP1458145A1 (en) Error concealment apparatus and method
US7117152B1 (en) System and method for speech recognition assisted voice communications
US20030063569A1 (en) Selecting an operational mode of a codec
US7924824B2 (en) Voice packet communications system with communications quality evaluation function
EP1849158B1 (en) Method for discontinuous transmission and accurate reproduction of background noise information
US7310596B2 (en) Method and system for embedding and extracting data from encoded voice code

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040928

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041122

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050510