JP2004007277A - Communication terminal equipment, sound recognition system and information access system - Google Patents

Communication terminal equipment, sound recognition system and information access system Download PDF

Info

Publication number
JP2004007277A
JP2004007277A JP2002160589A JP2002160589A JP2004007277A JP 2004007277 A JP2004007277 A JP 2004007277A JP 2002160589 A JP2002160589 A JP 2002160589A JP 2002160589 A JP2002160589 A JP 2002160589A JP 2004007277 A JP2004007277 A JP 2004007277A
Authority
JP
Japan
Prior art keywords
voice
data
sound
input
transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002160589A
Other languages
Japanese (ja)
Inventor
Atsushi Yamane
山根 淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002160589A priority Critical patent/JP2004007277A/en
Publication of JP2004007277A publication Critical patent/JP2004007277A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To use sound as an Internet input without increasing a cost of a terminal by transmitting the coding sound at a data transmission mode, recognizing the sound by using a transmitted sound parameter and inputting data by using the Internet in a sound recognition server. <P>SOLUTION: This equipment is provided with a sound input means inputting the sound and converting the inputted sound into a sound signal, a sound parameter extraction means extracting the prescribed sound parameter to the sound input means from the inputted sound, a data input means inputting data, a data transmission means transmitting data by using a procedure of transmission/reception on communication using a network for data communication, a sound transmission means transmitting the sound by using the procedure of transmission/reception on communication using the network for sound communication and a selection means selecting the data transmission means or the sound transmission means when the sound parameter is transmitted. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、音声を文字列データに変換する通信端末装置、音声認識システム、および情報アクセスシステムに関する。
【0002】
【従来の技術】
近年、携帯電話を端末としたインターネットアクセスが広く利用されるようになってきている。携帯電話によるインターネット利用は、テンキーを駆使してキーワード入力するものであり、その使い勝手の悪さという問題を内在している。
【0003】
前記問題を解決するために、音声を端末で認識し、インターネット利用の入力として利用することが考えられるが、以下の理由で現実的ではない。まず、現在の音声認識技術では、不特定話者のフリーワード認識はまだ十分な品質ではできない。さらに、それを携帯電話端末に搭載するには、多くの端末コスト増を要する。
【0004】
一方、これまでに音声をインターネット入力手段として用いるためのシステムがいくつか提案されている。代表的な例としては、IBM社のWebSphere Voice Serverが挙げられる。これは、電話を利用して音声を入力し、さらにAD変換してデジタル信号に変換し、VoIP(Voice over IP )技術を利用してIP(Internet Protocol)網を利用して音声サーバに転送し、音声サーバ上で音声認識を行ってテキスト情報に変換することによってWebサーバへの入力データとし、さらに、Webサーバからの出力であるテキスト情報を、音声サーバ上で音声合成技術を用いて音声データに変換し、IP網経由でVoIP技術により音声信号に変換し、電話を利用して音声出力するものである。音声認識の対象語句は、フリーワードではなく、Web入力としてあらかじめ用意された限定的なものであるので、不特定話者の認識が可能になっている。
【0005】
【発明が解決しようとする課題】
しかし、WebSphere Voice Serverのシステムは、音声をインターネット利用の入力とするものであるが、以下のような理由から、携帯電話を端末として利用することを困難にしている。
【0006】
まず、音声品質の問題が挙げられる。通常のダイヤル通話やPHS(PersonalHandy−phone System)は、それぞれ64kbit/sのPCM(Pulse Code Modulation)方式および32kbit/sのADPCM(Adaptive Differential PCM)方式といった、比較的ビットレートの高い符号化方式を用いてデジタル符号化しているため、音声の劣化が少なく、高精度の音声認識が可能になる。しかし、現在最も普及しているPDC(Personal Digital Cellular)方式あるいはCDMA方式の携帯電話の場合、5.6kbit/sのVSELP(Vector Sum Excited Linear Prediction)方式等のCELP(Code Excited Linear Prediction)系の符号化方式を用いて符号化しているため、PCMやADPCM等と比較して音声劣化が激しく、十分な品質の音声認識が困難な状況となっている。
【0007】
また、携帯電話は、音声通話の場合は音声通信用のネットワークを用い(この音声通信用のネットワークを用いた通信に関する送受信の手順を「音声通信モード」と呼ぶものとする)、インターネット接続の場合はデータ通信用のパケットネットワークを用いて(データ通信用のネットワークを用いた通信に関する送受信の手順を「データ通信モード」と呼ぶものとする)通信を行う。データ通信の場合は誤りが許されないため、誤り訂正やパケット損失の際の手順等が明確に規定されているが、音声通信はリアルタイム制が重視されるため、誤り訂正用のビットを付加して送信されるのみで、伝送路損失等への対処はデータ通信の場合と比較して弱い。このことも、携帯電話音声を用いた音声認識を困難なものにしている。
【0008】
ところが、インターネット入力の場合は、通常の音声通信の場合と異なり、リアルタイム制に対する要求はそれほど高くない。また、一般的な携帯電話また、(PHSを除く)携帯電話で用いられているCELP系の音声符号化方式は、線形予測係数やピッチ周期等、音声認識で用いることのできるパラメータを抽出する。この符号化方式を用いて音声を符号化してデータ送信することは、もともと携帯端末に搭載されている機能を用いるだけであるため、コスト増はほとんどない。
【0009】
本発明は、上記事情に鑑み、符号化音声をデータ送信モードで送信し、音声認識サーバでは送信された音声パラメータを用いて音声認識を行い、インターネット利用の入力とすることにより、端末のコスト増をほとんど伴わずに、インターネット入力として音声を利用することを目的とする。
【0010】
【課題を解決するための手段】
かかる目的を達成するために、請求項1記載の発明は、音声を入力し、入力した音声を音声信号に変換する音声入力手段と、入力した音声から前記音声入力手段に所定の音声パラメータを抽出する音声パラメータ抽出手段と、データを入力するデータ入力手段と、データ通信用のネットワークを用いた通信に関する送受信の手順を用いてデータ送信を行うデータ送信手段と、音声通信用のネットワークを用いた通信に関する送受信の手順を用いて音声送信を行う音声送信手段とを有し、前記音声パラメータを送信する際は、前記データ送信手段または前記音声送信手段のどちらかを選択する選択手段を有することを特徴としている。
【0011】
請求項2記載の発明は、音声パラメータを受信する受信手段と、受信したパラメータを用いて音声認識処理を行い文字列データを出力する音声認識手段と、前記文字列データを送信する文字列データ出力手段とを有することを特徴としている。
【0012】
請求項3記載の発明は、請求項1記載の発明と、請求項2記載の発明とを用いて入力音声を文字列データに変換する手段を有することを特徴としている。
【0013】
請求項4記載の発明は、請求項3記載の音声認識システムを用いて音声入力から入力用文字列データを得ることを特徴としている。
【0014】
【発明の実施の形態】
以下、本発明の実施の形態を添付図面を参照しながら詳細に説明する。
【0015】
図1は、本発明の情報アクセスシステムの基本構成を示す図である。本構成は、第1の端末装置100と、第2の端末装置200と、Webサーバ300と、音声伝送用ネットワーク301と、データ転送用ネットワーク302と、インターネット303とから構成される。
【0016】
前記第1の端末装置100は、音声入力手段110と、音声パラメータ抽出手段120と、データ送信手段130と、音声送信手段140と、選択手段150と、データ入力手段160とから構成される。
【0017】
さらに、前記第2の端末装置200は、受信手段210と、音声認識手段220と、文字列データ出力手段230とから構成される。以下においては、第1の端末装置は、移動体通信端末、特に携帯電話を例として述べるが、この限りではない。
【0018】
前記第2の端末装置は、受信手段210と、音声認識手段220と、および文字列データ出力手段230とから構成される。音声認識手段220においては、専門家には公知のLPC(Linear Predictive Coding)ケプストラム等のホルマントパラメータを用いた音声認識アルゴリズムを用いるものとする。
【0019】
図2は、本発明の通信端末装置の第1の端末装置の基本的な動作を示す図である。まず、第1の端末100を用いて通常音声通話を行う場合は、音声入力手段110と、音声パラメータ抽出手段120と、音声送信手段140とを用いる。選択手段150は、音声送信手段140を用いるように設定される。
【0020】
まず、音声が音声入力手段110に入力され、音声信号に変換される。音声入力手段110としては、マイクロフォン装置あるいは低域通過フィルタつきのマイクロフォン装置が挙げられる。音声入力手段110がAD変換機能を持っている場合音声信号はデジタル信号になり、音声入力手段110はAD変換機能を持たず音声パラメータ抽出手段120がAD変換機能を持っている場合は音声信号はアナログ信号になるが、どちらでもよい。
【0021】
前記音声信号は、音声パラメータ抽出装置120に入力され、音声パラメータが抽出される。音声パラメータは、当該携帯電話用の符号化パラメータである。この音声パラメータには、誤り訂正用の不可ビットを含むこともある。
【0022】
前記音声パラメータは、音声送信手段140によって通信路へ送信される。ここでは、音声伝送用の通信手順(音声伝送モード)が用いられ、音声伝送用のネットワーク301を経由して通話相手304に送信される。
【0023】
図3は、第1の端末100を用いてインターネットアクセスを行う場合の動作うを示す図である。第1の端末100を用いてインターネットアクセスを行う場合は、データ入力手段160、データ送信手段130が用いられる。まず、利用者が、データ入力手段160を用いて、データを入力する。データ入力手段としては、携帯電話端末の場合は、通常ダイヤルを行うためのテンキーが挙げられる。
【0024】
さらに、前記入力されたデータは、データ送信手段130によって通信路へ送信される。ここでは、データ伝送用の通信手順(データ伝送モード)が用いられ、データ送信用のネットワーク302およびインターネット303を経由して通信相手に伝送される。
【0025】
図4は、音声入力によるインターネット上のWebアクセスについての構成を示す図である。まず、第1の端末装置100の動作について述べる。この場合、音声入力手段110、音声パラメータ抽出手段120、データ送信手段130、が用いられる。音声通話を行う場合と同様に、音声が音声入力手段110に入力され、音声信号に変換される。さらに、音声信号は、音声パラメータ抽出手段に入力され、音声パラメータが出力される。この場合、音声通話に用いられる符号化方式以外の符号化方式を用いてもよいが、端末のコストが大幅に増加してしまうことを考慮すると、音声通話と同一の符号化方式を用いることが好ましい。また、音声認識において、LPC(Linear Predictive Coding)ケプストラム係数等のホルマントパラメータを用いるため、LPC係数等のホルマントパラメータを符号化する符号化方式、例えばCELP系の符号化方式を用いればよい。ここでは、CELP系の符号化方式を用いるものとする。
【0026】
抽出された音声パラメータは、データ送信手段130によって通信路に伝送される。ここでは、データ伝送用の通信手順(データ伝送モード)が用いられ、データ送信用のネットワークを経由して通信先に伝送される。このため、誤りのない伝送が可能になる。
【0027】
次に、第2の端末装置200の動作について述べる。まず、通信路を経由して送られてきた音声パラメータが、受信手段210によって受信される。受信された音声パラメータは、音声認識手段220に入力され、文字列データに変換される。音声認識手段としては、音声パラメータはCELP系の符号化方式を用いて抽出されたものであるので、この中からLPC係数等のホルマントパラメータを符号化した部分を抽出し、音声認識に用いる。
【0028】
前記文字列データは、Webアクセスの入力信号として、所定のプロトコルを用いて、Webサーバ300に送信され、Webサーバはそのサーバ設定に基づいて処理を行う。
【0029】
【発明の効果】
以上の説明から明らかなように、本発明によれば、音声を入力し、音声信号に変換する入力手段、前記入力手段に入力した音声から所定の音声パラメータを抽出する音声パラメータ抽出手段、データ送信モードを用いて送信を行うデータ送信手段、音声通信モードを用いて送信を行う音声送信手段、を備え、さらに、前記音声パラメータを送信する際に、前記データ送信手段あるいは前記音声送信手段のどちらかを選択する選択手段を備えているので、前記音声パラメータをデータ送信手段を用いて送信することにより、誤りのない音声パラメータを送信して利用することが可能になる。
【0030】
また、本発明によれば、前記音声パラメータを受信する受信手段、前記受信したパラメータを用いて音声認識処理を行って文字列データを出力する音声認識手段、およびを前記文字列データを送信する文字列データ出力手段、を備えるているので、前記誤りのない音声パラメータを用いて音声認識を行うことにより、通信端末からの音声入力を用いて品質の高い音声認識結果を得ることができる。
【0031】
また、本発明によれば、入力音声を文字列データに変換するので、前記誤りのない音声パラメータを用いて音声認識を行うことにより、通信端末からの音声入力を用いて品質の高い音声認識結果を得ることができる。
【0032】
また、本発明によれば、音声入力から入力用文字列データを得るので、高品質の音声認識を用いた情報アクセスが可能になる。
【図面の簡単な説明】
【図1】本発明の情報アクセスシステムの基本構成を示す図である。
【図2】本発明の通信端末装置の第1の端末装置100の基本的な動作を示す図である。
【図3】第1の端末100を用いてインターネットアクセスを行う場合の動作を示す図である。
【図4】音声入力によるインターネット上のWebアクセスについての構成を示す図である。
【符号の説明】
100 第1の通信端末装置
110 音声入力手段
120 音声パラメータ抽出手段
130 データ送信手段
140 音声送信手段
150 選択手段
160 データ入力手段
200 第2の通信端末装置
210 受信手段
220 音声認識手段
230 文字列データ出力手段
300 Webサーバ
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a communication terminal device that converts voice into character string data, a voice recognition system, and an information access system.
[0002]
[Prior art]
In recent years, Internet access using a mobile phone as a terminal has been widely used. The use of the Internet by a mobile phone involves inputting a keyword by making full use of a numeric keypad, and has a problem of poor usability.
[0003]
In order to solve the above-mentioned problem, it is conceivable to recognize speech by a terminal and use the speech as an input for using the Internet. However, it is not practical for the following reasons. First, with current speech recognition technology, free word recognition of unspecified speakers is not yet of sufficient quality. Further, mounting it on a mobile phone terminal requires a large increase in terminal cost.
[0004]
On the other hand, some systems for using voice as Internet input means have been proposed. A typical example is IBM's WebSphere Voice Server. This involves inputting voice using a telephone, converting the voice into a digital signal through A / D conversion, and transferring the digital signal to a voice server using an IP (Internet Protocol) network using VoIP (Voice over IP) technology. By performing speech recognition on a speech server and converting the text information into text information, the speech data is used as input data to the web server, and the text information output from the web server is converted into speech data using speech synthesis technology on the speech server. Is converted to a voice signal by VoIP technology via an IP network, and is output as voice using a telephone. The target phrase for speech recognition is not a free word but a limited one prepared in advance as a Web input, so that an unspecified speaker can be recognized.
[0005]
[Problems to be solved by the invention]
However, the WebSphere Voice Server system uses voice as an input for using the Internet, but makes it difficult to use a mobile phone as a terminal for the following reasons.
[0006]
First, there is the problem of voice quality. Normal dial calls and PHS (Personal Handy-phone System) are relatively high bit rate coding schemes such as 64 kbit / s PCM (Pulse Code Modulation) and 32 kbit / s ADPCM (Adaptive Differential PCM). Since digital encoding is used, the voice is less likely to deteriorate and high-precision voice recognition is possible. However, in the case of a PDC (Personal Digital Cellular) system or a CDMA system mobile phone which is currently most widely used, a 5.6 kbit / s CELP (Code Excited Linear Prediction) such as a VSELP (Vector Sum Excited Linear Prediction) system. Since encoding is performed using an encoding method, speech deterioration is more severe than PCM, ADPCM, or the like, and it is difficult to recognize speech with sufficient quality.
[0007]
In addition, a mobile phone uses a voice communication network in the case of a voice call (a procedure for transmission and reception relating to communication using the voice communication network is referred to as a “voice communication mode”), and in the case of an Internet connection. Performs communication using a packet network for data communication (a procedure for transmission and reception relating to communication using the network for data communication is referred to as “data communication mode”). In the case of data communication, since errors are not allowed, procedures for error correction and packet loss are clearly specified.However, since voice communication emphasizes real-time system, bits for error correction are added. Only transmission is performed, and measures against transmission path loss and the like are weaker than in data communication. This also makes speech recognition using mobile phone speech difficult.
[0008]
However, in the case of Internet input, unlike the case of normal voice communication, the demand for the real-time system is not so high. Further, the CELP-based speech coding scheme used in general cellular phones and cellular phones (excluding PHS) extracts parameters that can be used in speech recognition, such as linear prediction coefficients and pitch periods. Encoding voice using this encoding method and transmitting data only involves using the function originally installed in the portable terminal, so that there is almost no increase in cost.
[0009]
In view of the above circumstances, the present invention transmits coded voice in a data transmission mode, and a voice recognition server performs voice recognition using the transmitted voice parameters and uses the voice as input for Internet use, thereby increasing the cost of the terminal. It is intended to use voice as Internet input with little accompanying.
[0010]
[Means for Solving the Problems]
In order to achieve the above object, the invention according to claim 1 includes a voice input unit for inputting voice and converting the input voice into a voice signal, and extracting a predetermined voice parameter from the input voice to the voice input unit. Voice parameter extracting means, data input means for inputting data, data transmitting means for transmitting data using a transmission / reception procedure relating to communication using a data communication network, and communication using a voice communication network Voice transmission means for performing voice transmission using a transmission / reception procedure relating to the transmission of the voice parameter, and when the voice parameter is transmitted, a selection means for selecting either the data transmission means or the voice transmission means is provided. And
[0011]
According to a second aspect of the present invention, there is provided a receiving unit that receives a voice parameter, a voice recognition unit that performs a voice recognition process using the received parameter and outputs character string data, and a character string data output that transmits the character string data. Means.
[0012]
A third aspect of the present invention is characterized in that there is provided a means for converting an input voice into character string data using the first and second aspects of the invention.
[0013]
According to a fourth aspect of the present invention, character string data for input is obtained from a voice input using the voice recognition system according to the third aspect.
[0014]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
[0015]
FIG. 1 is a diagram showing a basic configuration of the information access system of the present invention. This configuration includes a first terminal device 100, a second terminal device 200, a Web server 300, a voice transmission network 301, a data transfer network 302, and the Internet 303.
[0016]
The first terminal device 100 includes a voice input unit 110, a voice parameter extraction unit 120, a data transmission unit 130, a voice transmission unit 140, a selection unit 150, and a data input unit 160.
[0017]
Further, the second terminal device 200 includes a receiving unit 210, a voice recognition unit 220, and a character string data output unit 230. In the following, the first terminal device is described as an example of a mobile communication terminal, particularly a mobile phone, but is not limited thereto.
[0018]
The second terminal device includes a receiving unit 210, a voice recognition unit 220, and a character string data output unit 230. The speech recognition means 220 uses a speech recognition algorithm using formant parameters such as LPC (Linear Predictive Coding) cepstrum known to experts.
[0019]
FIG. 2 is a diagram showing a basic operation of the first terminal device of the communication terminal device of the present invention. First, when making a normal voice call using the first terminal 100, a voice input unit 110, a voice parameter extraction unit 120, and a voice transmission unit 140 are used. The selection means 150 is set to use the voice transmission means 140.
[0020]
First, a voice is input to the voice input unit 110 and converted into a voice signal. Examples of the voice input unit 110 include a microphone device and a microphone device with a low-pass filter. If the audio input means 110 has an AD conversion function, the audio signal is a digital signal. If the audio input means 110 has no AD conversion function and the audio parameter extraction means 120 has an AD conversion function, the audio signal is It becomes an analog signal, but either may be used.
[0021]
The voice signal is input to a voice parameter extraction device 120, and voice parameters are extracted. The voice parameter is an encoding parameter for the mobile phone. The voice parameter may include an uncorrectable bit for error correction.
[0022]
The voice parameter is transmitted to the communication path by the voice transmitting unit 140. Here, a communication procedure for voice transmission (voice transmission mode) is used and transmitted to the other party 304 via the network 301 for voice transmission.
[0023]
FIG. 3 is a diagram showing an operation when Internet access is performed using the first terminal 100. When accessing the Internet using the first terminal 100, the data input unit 160 and the data transmission unit 130 are used. First, the user inputs data using the data input unit 160. As the data input means, in the case of a mobile phone terminal, a ten key for normal dialing can be used.
[0024]
Further, the input data is transmitted to the communication path by the data transmitting means 130. Here, a data transmission communication procedure (data transmission mode) is used, and the data is transmitted to a communication partner via the data transmission network 302 and the Internet 303.
[0025]
FIG. 4 is a diagram showing a configuration for Web access on the Internet by voice input. First, the operation of the first terminal device 100 will be described. In this case, a voice input unit 110, a voice parameter extraction unit 120, and a data transmission unit 130 are used. As in the case of making a voice call, a voice is input to the voice input means 110 and converted into a voice signal. Further, the audio signal is input to the audio parameter extracting means, and the audio parameter is output. In this case, an encoding method other than the encoding method used for the voice call may be used. However, considering that the cost of the terminal is greatly increased, the same encoding method as that for the voice call may be used. preferable. In speech recognition, since a formant parameter such as a LPC (Linear Predictive Coding) cepstrum coefficient is used, an encoding method for encoding a formant parameter such as an LPC coefficient, for example, a CELP-based encoding method may be used. Here, it is assumed that a CELP coding scheme is used.
[0026]
The extracted voice parameters are transmitted to the communication path by the data transmission means 130. Here, a data transmission communication procedure (data transmission mode) is used, and the data is transmitted to a communication destination via a data transmission network. For this reason, error-free transmission becomes possible.
[0027]
Next, the operation of the second terminal device 200 will be described. First, the voice parameter transmitted via the communication path is received by the receiving unit 210. The received voice parameters are input to the voice recognition means 220 and are converted into character string data. As the voice recognition means, since the voice parameters are extracted by using the CELP coding method, a part in which formant parameters such as LPC coefficients are coded is extracted therefrom and used for voice recognition.
[0028]
The character string data is transmitted as an input signal for Web access to the Web server 300 using a predetermined protocol, and the Web server performs processing based on the server settings.
[0029]
【The invention's effect】
As apparent from the above description, according to the present invention, input means for inputting voice and converting it into a voice signal, voice parameter extracting means for extracting a predetermined voice parameter from the voice input to the input means, data transmission Data transmission means for performing transmission using a mode, voice transmission means for performing transmission using a voice communication mode, further comprising: when transmitting the voice parameter, either the data transmission means or the voice transmission means Since the voice parameter is transmitted using the data transmission means, it is possible to transmit and use the voice parameter without error.
[0030]
Further, according to the present invention, receiving means for receiving the voice parameter, voice recognition means for performing a voice recognition process using the received parameter and outputting character string data, and a character for transmitting the character string data Since the apparatus includes the column data output means, by performing speech recognition using the error-free speech parameters, it is possible to obtain a high-quality speech recognition result using speech input from the communication terminal.
[0031]
Further, according to the present invention, the input speech is converted into character string data. Therefore, speech recognition is performed using the speech parameter without error, so that a speech recognition result of high quality can be obtained using speech input from a communication terminal. Can be obtained.
[0032]
Further, according to the present invention, since the input character string data is obtained from the voice input, information access using high-quality voice recognition becomes possible.
[Brief description of the drawings]
FIG. 1 is a diagram showing a basic configuration of an information access system of the present invention.
FIG. 2 is a diagram showing a basic operation of a first terminal device 100 of the communication terminal device of the present invention.
FIG. 3 is a diagram illustrating an operation in a case where an Internet access is performed using a first terminal 100;
FIG. 4 is a diagram showing a configuration for Web access on the Internet by voice input.
[Explanation of symbols]
100 first communication terminal device 110 voice input means 120 voice parameter extraction means 130 data transmission means 140 voice transmission means 150 selection means 160 data input means 200 second communication terminal device 210 reception means 220 voice recognition means 230 character string data output Means 300 Web server

Claims (4)

音声を入力し、入力した音声を音声信号に変換する音声入力手段と、
入力した音声から前記音声入力手段に所定の音声パラメータを抽出する音声パラメータ抽出手段と、
データを入力するデータ入力手段と、
データ通信用のネットワークを用いた通信に関する送受信の手順を用いてデータ送信を行うデータ送信手段と、
音声通信用のネットワークを用いた通信に関する送受信の手順を用いて音声送信を行う音声送信手段とを有し、
前記音声パラメータを送信する際は、
前記データ送信手段または前記音声送信手段のどちらかを選択する選択手段を有することを特徴とする通信端末装置。
Voice input means for inputting voice and converting the input voice to a voice signal;
Voice parameter extraction means for extracting predetermined voice parameters from the input voice to the voice input means,
Data input means for inputting data;
A data transmission unit that performs data transmission using a transmission / reception procedure regarding communication using a data communication network,
Voice transmission means for performing voice transmission using a transmission and reception procedure related to communication using a voice communication network,
When transmitting the voice parameters,
A communication terminal device comprising a selection unit for selecting either the data transmission unit or the voice transmission unit.
音声パラメータを受信する受信手段と、
受信したパラメータを用いて音声認識処理を行い文字列データを出力する音声認識手段と、
前記文字列データを送信する文字列データ出力手段とを有することを特徴とする通信端末装置。
Receiving means for receiving voice parameters;
Voice recognition means for performing voice recognition processing using the received parameters and outputting character string data,
Character string data output means for transmitting the character string data.
請求項1記載の通信端末装置と、請求項2記載の通信端末装置とを用いて入力音声を文字列データに変換する手段を有することを特徴とする音声認識システム。A speech recognition system comprising means for converting input speech into character string data using the communication terminal device according to claim 1 and the communication terminal device according to claim 2. 請求項3記載の音声認識システムを用いて音声入力から入力用文字列データを得ることを特徴とする情報アクセスシステム。4. An information access system, wherein input character string data is obtained from voice input using the voice recognition system according to claim 3.
JP2002160589A 2002-05-31 2002-05-31 Communication terminal equipment, sound recognition system and information access system Pending JP2004007277A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002160589A JP2004007277A (en) 2002-05-31 2002-05-31 Communication terminal equipment, sound recognition system and information access system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002160589A JP2004007277A (en) 2002-05-31 2002-05-31 Communication terminal equipment, sound recognition system and information access system

Publications (1)

Publication Number Publication Date
JP2004007277A true JP2004007277A (en) 2004-01-08

Family

ID=30429943

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002160589A Pending JP2004007277A (en) 2002-05-31 2002-05-31 Communication terminal equipment, sound recognition system and information access system

Country Status (1)

Country Link
JP (1) JP2004007277A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008518256A (en) * 2004-10-30 2008-05-29 インターナショナル・ビジネス・マシーンズ・コーポレーション Apparatus and method for analyzing speech signals
US10440388B2 (en) 2008-04-10 2019-10-08 Qualcomm Incorporated Rate-distortion defined interpolation for video coding based on fixed filter or adaptive filter

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008518256A (en) * 2004-10-30 2008-05-29 インターナショナル・ビジネス・マシーンズ・コーポレーション Apparatus and method for analyzing speech signals
US10440388B2 (en) 2008-04-10 2019-10-08 Qualcomm Incorporated Rate-distortion defined interpolation for video coding based on fixed filter or adaptive filter

Similar Documents

Publication Publication Date Title
KR100594670B1 (en) Automatic speech/speaker recognition over digital wireless channels
US20070206645A1 (en) Method of dynamically adapting the size of a jitter buffer
US20090168673A1 (en) Method and apparatus for detecting and suppressing echo in packet networks
CN101006495A (en) Audio encoding apparatus, audio decoding apparatus, communication apparatus and audio encoding method
US8010346B2 (en) Method and apparatus for transmitting wideband speech signals
JP2006504300A (en) Method and apparatus for DTMF search and speech mixing in CELP parameter domain
US10733996B2 (en) User authentication
KR20040006011A (en) Fast code-vector searching
US7142559B2 (en) Packet converting apparatus and method therefor
EP2057626B1 (en) Encoding an audio signal
EP1020848A2 (en) Method for transmitting auxiliary information in a vocoder stream
CN102845050A (en) Method and apparatus for performing high-quality speech communication across voice over internet protocol (voip) communications networks
JP2001272998A (en) Communication method and wireless call connection device
JP2004007277A (en) Communication terminal equipment, sound recognition system and information access system
KR100451622B1 (en) Voice coder and communication method using the same
JP5135001B2 (en) Wireless communication apparatus, wireless communication method, and wireless communication system
US7076260B1 (en) Unbalanced coding for cordless telephony
JPWO2009037852A1 (en) COMMUNICATION TERMINAL DEVICE, COMMUNICATION SYSTEM AND COMMUNICATION METHOD
JP2005534984A (en) Voice communication unit and method for reducing errors in voice frames
CN102177688B (en) Method, apparatus and system for speech coding and decoding
JP4056447B2 (en) Digital communication device
Atal et al. Transmission and Storage
Laxminarayana Automatic Speech Recognition (ASR) Over VoIP and Wireless Networks
JP2000101683A (en) Voice communication equipment
JPWO2003021573A1 (en) Codec