JP2003513341A - System and method for increasing recognition rate of voice input command in telecommunications terminal - Google Patents

System and method for increasing recognition rate of voice input command in telecommunications terminal

Info

Publication number
JP2003513341A
JP2003513341A JP2001535162A JP2001535162A JP2003513341A JP 2003513341 A JP2003513341 A JP 2003513341A JP 2001535162 A JP2001535162 A JP 2001535162A JP 2001535162 A JP2001535162 A JP 2001535162A JP 2003513341 A JP2003513341 A JP 2003513341A
Authority
JP
Japan
Prior art keywords
character string
module
character
signal
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001535162A
Other languages
Japanese (ja)
Inventor
フェルトストレム, アルベルト ディエゴ ジメネズ
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2003513341A publication Critical patent/JP2003513341A/en
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones

Abstract

(57)【要約】 遠隔通信端末の音声ダイヤリングの精度を高めるための方法と、その方法を用いる端末を開示する。望みの電話番号を示すアナログ音声入力をデジタル信号に変換する。自動音声認識モジュールは数字を認識し、その数字を示す出力信号を生成する。判断モジュールは、電話番号の1以上の数字が変換モジュールにより認識されなかったかどうかを判断するためのテストを行う。電話番号が認識されなかった数字を含む場合、検索モジュールは、ユーザーが入力した電話番号の認識された数字と一致する数字を有する電話番号を付随するメモリモジュールから検索する。一致したメモリからの電話番号を、視覚的に、又は音声によってユーザーに通知するようにしても良い。要望に応じて、遠隔端末はメモリモジュールから選ばれた電話番号に接続するようにしてもよい。 (57) [Summary] A method for improving the accuracy of voice dialing of a telecommunications terminal and a terminal using the method are disclosed. The analog voice input indicating the desired telephone number is converted to a digital signal. The automatic speech recognition module recognizes the number and generates an output signal indicative of the number. The determining module performs a test to determine whether one or more digits of the telephone number were not recognized by the conversion module. If the telephone number contains unrecognized digits, the search module searches the associated memory module for a telephone number having a number that matches the recognized number of the telephone number entered by the user. The user may be notified of the phone number from the matched memory either visually or by voice. If desired, the remote terminal may connect to a telephone number selected from the memory module.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】 背景[0001]   background

【0002】 本発明は通信装置における音声入力の認識に関し、更に詳しくは遠隔通信端末
における音声ダイヤリングシステムの精度を高めるためのシステム及び方法に関
する。
The present invention relates to recognition of voice input in a communication device, and more particularly to a system and method for increasing the accuracy of a voice dialing system in a telecommunications terminal.

【0003】 例えば移動電話機などの遠隔通信端末は、多くの現代産業国においてユビキタ
スである。遠隔通信端末のほとんどは、入力装置としてキーパッドを用いている
。しかし、キーパッドには欠点がある。まず、キーパッドを使うためには、たと
え短い時間ではあってもユーザーは通信装置に注意を向けなければならない。例
えば運転中など特定の場合には、これは望ましいことではない。また市場の力は
、ハンドセットとも呼ばれるより小さい遠隔電話端末装置を製造するように、間
断無く製造者を駆り立てている。端末装置が小型化するとキーパッドエラーが起
こりやすくなり、入力装置としてのキーパッドの精度が下がる。
Telecommunication terminals, such as mobile phones, are ubiquitous in many modern industrial countries. Most telecommunications terminals use a keypad as an input device. However, keypads have drawbacks. First, in order to use the keypad, the user must pay attention to the communication device, even for a short time. In certain cases, such as while driving, this is not desirable. Market forces are also continually driving manufacturers to produce smaller remote telephone terminals, also called handsets. When the terminal device is downsized, a keypad error is likely to occur and the accuracy of the keypad as an input device is lowered.

【0004】 製造業者は、音声入力を受け付け、入力を認識し、その入力に基づいて動作す
る音声による入力装置を実現した。例えば、Kuniyoshiの米国特許第4,959,850号
では、電話の音声ダイヤリングのための音声認識能力を有する無線電話装置を開
示している。同様に、Sakanishiの米国特許第5,042,063号及びGerson等の米国特
許第4,870,686号は、音声ダイヤリングを可能にするために音声認識能力を利用
した電話装置を開示している。音声認識機能は、Willの米国特許第5,917,891号
、Maekawa等の米国特許第5,884,257号、Eting等の米国特許第5,651,056号、Mead
orの米国特許第5,638,425号、Petersonの米国特許第5,509,049号、Jakatdarの米
国特許第5,495,553、そして、Hunt等の米国特許第5,303,299にも開示されている
Manufacturers have implemented voice input devices that accept voice input, recognize the input, and act on the input. For example, Kuniyoshi U.S. Pat. No. 4,959,850 discloses a wireless telephone device having voice recognition capability for voice dialing of a telephone. Similarly, Sakanishi U.S. Pat. No. 5,042,063 and Gerson et al. U.S. Pat. No. 4,870,686 disclose telephone devices that utilize voice recognition capabilities to enable voice dialing. Speech recognition features are described in Will U.S. Pat.No. 5,917,891, Maekawa et al. U.S. Pat.No. 5,884,257, Eting et al. U.S. Pat.No. 5,651,056, Mead
or US Pat. No. 5,638,425, Peterson US Pat. No. 5,509,049, Jakatdar US Pat. No. 5,495,553, and Hunt et al. US Pat. No. 5,303,299.

【0005】 しかし、音声認識とは難しいもので、特に、自動車の音や雑踏と言った周辺環
境からの雑音が音声信号に混ざると難しい。発音が不十分だったり、周辺の雑音
が邪魔になったりすると、装置がユーザーの音声を認識できないことがある。音
声ダイヤリングに適用した場合には、電話装置が間違った番号をダイヤルしてし
まうことになる。または、電話装置が認識できない数字または数字列全部を繰り
返すようにユーザーに促すこともできる。音声認識システムの精度によってはユ
ーザーはかなりの確率で番号を繰り返さなければならず、音声ダイヤリングがユ
ーザーにとってあまり便利なものではなくなってしまう。
However, voice recognition is difficult, especially when noise from the surrounding environment such as automobile sounds and crowds is mixed in the voice signal. The device may not be able to recognize the user's voice if the pronunciation is insufficient or if ambient noise interferes. If applied to voice dialing, the telephone device would dial the wrong number. Alternatively, the user may be prompted to repeat all numbers or sequences of numbers that the telephone device does not recognize. Depending on the accuracy of the voice recognition system, the user must repeat the number with a high probability, making voice dialing less convenient for the user.

【0006】 従って、音声ダイヤルシステム及び方法を向上するための技術が求められてい
る。
Therefore, there is a need for techniques to improve voice dialing systems and methods.

【0007】 概略[0007]   Outline

【0008】 本発明は、移動電話機を含む遠隔通信端末の音声ダイヤリングを容易にするた
めの装置及び方法を提供することで、上記及びその他の問題を解決する。本発明
によれば、遠隔端末は、音声認識ルーチンの精度を高めるためにメモリに格納さ
れた情報を用いる。好ましくはその情報はその遠隔端末から以前にかけた電話番
号に関する先験的な情報であり、音声認識システムの精度を高めるために、音声
ダイヤリング方法によって入力された電話番号と照合することができる。
The present invention solves these and other problems by providing an apparatus and method for facilitating voice dialing of telecommunications terminals, including mobile telephones. According to the invention, the remote terminal uses the information stored in the memory to enhance the accuracy of the speech recognition routine. Preferably the information is a priori information about a phone number previously placed from the remote terminal and can be matched with the phone number entered by the voice dialing method to increase the accuracy of the voice recognition system.

【0009】 一様態によれば、本発明は通信装置の音声ダイヤリングを容易にするためのシ
ステムを提供する。システムは、入力文字列を示す音声入力を受けてその入力文
字列の各文字を示す信号を生成する変換モジュールと、入力文字列が認識されな
かった文字を含むかどうかを判断する判断モジュールと、ネットワークアドレス
に対応する複数の文字列を含むメモリモジュールと、入力文字列の中の認識され
た文字に対応する文字を含む文字列をメモリモジュールから検索する検索モジュ
ールとを有する。使用にあたって、変換モジュールが入力文字列の中の1以上の
文字を変換できない場合に、検索モジュールは、入力文字列中の認識された文字
に一致する文字を有する1以上の文字列をメモリモジュールから検索することが
できる。
According to one aspect, the present invention provides a system for facilitating voice dialing of a communication device. The system includes a conversion module that receives a voice input indicating an input character string and generates a signal indicating each character of the input character string, and a determination module that determines whether the input character string includes an unrecognized character. The memory module includes a plurality of character strings corresponding to the network address, and a search module that searches the memory module for a character string including a character corresponding to the recognized character in the input character string. In use, if the conversion module is unable to convert one or more characters in the input string, the retrieval module retrieves from the memory module one or more strings having characters that match the recognized characters in the input string. You can search.

【0010】 別の様態によれば、本発明は通信装置の音声ダイヤリングを容易にする方法を
提供する。その方法は、望みの文字列を示す音声入力を受け、文字列の各文字を
示す信号を生成し、文字列が認識されなかった文字を含むかどうかかを判断し、
含む場合には入力された文字列中の認識された文字に対応する文字を有する、一
致する文字列をメモリモジュール内で検索し、一致する文字列を示す信号を生成
する工程を有する。
According to another aspect, the present invention provides a method for facilitating voice dialing of a communication device. The method receives a voice input indicating a desired character string, generates a signal indicating each character of the character string, determines whether or not the character string includes an unrecognized character,
If included, the method includes searching the memory module for a matching character string having a character corresponding to the recognized character in the input character string and generating a signal indicating the matching character string.

【0011】 詳細な説明[0011]   Detailed description

【0012】 今日用いられる多くのデジタル無線システムは、タイム・スロット・アクセス
・システムを用いている。ユーザー情報(例えば音声)は分割され、圧縮され、
パケット化されて、予め割り当てられたタイム・スロットで送信される。タイム
・スロットは異なるユーザに割り当てることができ、この手法は一般に時分割多
元接続(TDMA)と呼ばれている。ヨーロッパのGSM(Global System for
Mobile communications)システムや、北アメリカのD−AMPS(Digial-Advanc
ed Mobile Phone System)システム、日本のPDC(Personal Digital Cellular)
システムなどの時分割多元接続(TDMA)通信システムでは、複数の遠隔装置
が1つの無線周波数チャネルを共有することができるので、通信システムの容量
を増やすことができる。
Many digital wireless systems in use today use time slot access systems. User information (eg voice) is split, compressed,
It is packetized and transmitted in pre-assigned time slots. Time slots can be assigned to different users and this approach is commonly referred to as Time Division Multiple Access (TDMA). GSM (Global System for Europe)
Mobile communications) system and North American D-AMPS (Digial-Advanc
ed Mobile Phone System) system, Japanese PDC (Personal Digital Cellular)
In a time division multiple access (TDMA) communication system, such as a system, multiple remote devices can share a single radio frequency channel, thus increasing the capacity of the communication system.

【0013】 以下、時分割多元接続(TDMA)無線通信システムに関して実施の形態を示
す。しかしながら、TDMA方式は単に説明のために記述するものであり、本発
明を周波数分割多元接続(FDMA)、TDMA、符号分割多元接続(CDMA
)、及び/又はこれらを組み合わせたものを含む全てのタイプのアクセス方式に
適用できることは、当業者であれば理解できるであろう。
Hereinafter, embodiments will be described with respect to a time division multiple access (TDMA) wireless communication system. However, the TDMA scheme is described for illustrative purposes only, and the present invention is not limited to frequency division multiple access (FDMA), TDMA, code division multiple access (CDMA).
), And / or any combination thereof, as will be appreciated by those skilled in the art.

【0014】 GSM規格に対応するセルラー通信システムの動作は、欧州電気通信標準化機
構(ETSI)文書ETS300 573,ETS300 574,ETS30
0 578に記載されており、ここでは引例として挙げておく。従って、GSM
システム例の動作は、ここでは簡単な説明に留める。本発明はGSMシステムに
おける一例として記述するが、本発明を他の通信システムに利用できるというこ
とは、当業者であれば理解できるであろう。
The operation of a cellular communication system compatible with the GSM standard is described in the European Telecommunications Standards Institute (ETSI) document ETS 300 573, ETS 300 574, ETS 30.
0 578, which is here cited as a reference. Therefore, GSM
The operation of the example system is limited to a brief description here. Although the present invention is described as an example in a GSM system, one of ordinary skill in the art will appreciate that the present invention can be used in other communication systems.

【0015】 図1には、本発明を実現可能な通信システム10が示されている。システム1
0は通話を管理するための複数のレベルを有する階層ネットワークである。1組
のアップリンクとダウンリンク無線周波数を用いて、システム10内で動作して
いる遠隔無線端末12はこれらの周波数においてそれぞれに割り当てられている
タイムスロットを用いた通話を行う。上位の階層レベルでは、移動通信交換局(
MSC)14のグループが通話を発呼側から着信先へルーティングする。特に、
MSC14は呼のセットアップ、制御及び切断を行う。MSC14の1つは一般
的にゲートウェイMSCと称され、公衆交換電話網(PSTN)18との通信ま
たは、その他の公衆及び私設ネットワークとの通信を取り扱う。
FIG. 1 shows a communication system 10 in which the present invention can be implemented. System 1
0 is a hierarchical network with multiple levels for managing calls. Using a set of uplink and downlink radio frequencies, remote wireless terminals 12 operating in system 10 make calls using their assigned time slots at these frequencies. At higher hierarchical levels, mobile switching centers (
A group of MSCs) 14 routes the call from the caller to the destination. In particular,
The MSC 14 is responsible for call setup, control and disconnection. One of the MSCs 14, commonly referred to as a gateway MSC, handles communication with the public switched telephone network (PSTN) 18 or with other public and private networks.

【0016】 各MSC14は、1以上の基地局コントローラ(BSC)16に接続されてい
る。GSM規格では、BSC16は、CCITT No.7信号方式の移動通信
応用部に基づく、A−インターフェースとして知られる基準インターフェースに
よりMSC14と通信する。
Each MSC 14 is connected to one or more base station controllers (BSC) 16. According to the GSM standard, the BSC 16 has a CCITT No. It communicates with the MSC 14 through a reference interface known as an A-interface, which is based on the 7 signaling mobile communication application.

【0017】 各BSC16は、1以上の無線基地局装置(BTS)20を制御する。各BT
S20は、1以上の通信セル21のような特定の地域でサービスを提供をするた
めにアップリンク及びダウンリンク無線周波数(RFチャネル)を使用する、1
以上の送受信機(TRX)(不図示)を含む。BTS20は主に、各セル内でデ
ータバーストを遠隔局12へ送信したり、遠隔局12から受信するためのRFリ
ンクを提供する。一実施の形態では、多数のBTS20が無線基地局(RBS)
22に含まれている。RBS22は、例えば、RBS−2000製品系列に応じ
て構成しても良い。それらの製品は、本発明の譲受人であるテレフオンアクチー
ボラゲットLMエリクソンにより提供されている。一例である遠隔局12及びR
BS22の実施に関する詳細については、Frondigh等による米国特許第5,909,46
9号を参照されたい。
Each BSC 16 controls one or more wireless base station devices (BTS) 20. Each BT
S20 uses uplink and downlink radio frequencies (RF channels) to provide service in a particular area, such as one or more communication cells 21, 1
The above transceiver (TRX) (not shown) is included. BTS 20 primarily provides an RF link for transmitting and receiving data bursts to remote station 12 within each cell. In one embodiment, multiple BTSs 20 are radio base stations (RBSs).
22 included. The RBS 22 may be configured according to the RBS-2000 product series, for example. Those products are provided by Telefon Acty Boraget LM Ericsson, the assignee of the present invention. An example remote station 12 and R
For more information regarding the implementation of BS22, see Frondigh et al., US Pat. No. 5,909,46.
See issue 9.

【0018】 図2は本発明において用いられる遠隔端末200の概略を示す。遠隔端末20
0は例えばGSMシステム、PDCシステム、又はD−AMPSシステムと言っ
たデジタルTDMAセルラー通信システムで用いられる移動電話機であることが
好ましい。しかし、上述の通り、本発明は全てのタイプのアクセスシステムに適
用可能であり、TDMAやCDMAシステム、又はこれらを組み合わせたものに
容易に応用することができる。遠隔端末は広く知られており、すでに市販されて
いる。従って、本発明に関する遠隔端末200の様態についてのみ詳細に説明す
る。遠隔端末についての追加情報については、Dent等による米国特許第5,745,52
3号を参照されたい。
FIG. 2 schematically shows a remote terminal 200 used in the present invention. Remote terminal 20
0 is preferably a mobile telephone used in a digital TDMA cellular communication system, eg GSM system, PDC system or D-AMPS system. However, as described above, the present invention is applicable to all types of access systems and can be easily applied to TDMA and CDMA systems, or a combination thereof. Remote terminals are widely known and already on the market. Therefore, only the aspect of the remote terminal 200 relating to the present invention will be described in detail. For additional information on remote terminals, see US Pat. No. 5,745,52 by Dent et al.
See issue 3.

【0019】 図2において、遠隔端末200は、本発明に直接関係する部分として、電話の
ユーザーからの音声入力を受けるためのマイク210を有する。マイク210は
変換モジュール220に接続されている。変換モジュール220は、アナログ音
声入力をデジタル信号に変換するためのアナログ・デジタル(A/D)変換器2
24を有する。変換モジュール220は、更に、ユーザーの音声を認識するため
の自動音声認識(ASR)モジュール228を含む。また、遠隔端末200は、
ユーザーが話した文字が望みの精度をもってASRモジュール228により認識
されたかどうかを判断するための判断モジュール230を含む。遠隔端末200
は更に、有効な電話番号を示す文字列を格納するためのメモリモジュール250
と、メモリモジュール250を検索するための検索モジュールとを含む。遠隔端
末200はまた、例えば図1に示すようなGSMネットワークなどの通信ネット
ワークとの通信接続を確立するための接続モジュール260を含む。更に、遠隔
端末200は、ユーザー向けに情報を表示する適切な表示器270(例えば、L
EDまたはLCD表示器)を有する。適切な音声認識モジュールを有する端末の
1つとして、T28がエリクソンから発売されている。
In FIG. 2, the remote terminal 200 has a microphone 210 for receiving voice input from a telephone user, as a portion directly related to the present invention. The microphone 210 is connected to the conversion module 220. The conversion module 220 is an analog-to-digital (A / D) converter 2 for converting an analog voice input into a digital signal.
With 24. The conversion module 220 further includes an automatic speech recognition (ASR) module 228 for recognizing a user's voice. In addition, the remote terminal 200
A decision module 230 is included to determine whether the characters spoken by the user have been recognized by the ASR module 228 with the desired accuracy. Remote terminal 200
Further includes a memory module 250 for storing a string indicating a valid telephone number.
And a search module for searching the memory module 250. The remote terminal 200 also includes a connection module 260 for establishing a communication connection with a communication network, such as the GSM network as shown in FIG. In addition, the remote terminal 200 may include an appropriate indicator 270 (eg, L
ED or LCD display). The T28 is available from Ericsson as one of the terminals with a suitable voice recognition module.

【0020】 モジュール220〜260の一部又は全ては、適切な特定用途向け集積回路(
ASIC)や、プログラムされたデジタル信号プロセッサや、複数のASICを
含むチップセットの形態で実現することができる。モジュール220〜260及
び遠隔端末のその他の構成要素は電気的に接続される。例えば、判断モジュール
230と検索モジュール240は表示部270、スピーカー280、及び接続モ
ジュール260に電気的に接続されている。
Some or all of the modules 220-260 may include any suitable application specific integrated circuit (
ASIC), a programmed digital signal processor, or a chipset containing multiple ASICs. The modules 220-260 and other components of the remote terminal are electrically connected. For example, the determination module 230 and the search module 240 are electrically connected to the display unit 270, the speaker 280, and the connection module 260.

【0021】 加えて、好適な実施の形態では、メモリモジュール250と接続モジュール2
60の電気的接続により、遠隔端末により確立した接続に関する電話番号をメモ
リモジュール250に格納することができる。例えば、遠隔端末200でユーザ
が電話番号を入力する度にその番号がメモリモジュール250に格納される。こ
のようにして、後述するようにメモリモジュール250は、音声ダイヤリングの
精度を高めるために先験的な情報として用いることのできる、以前にかけた電話
番号のリストを維持する。
In addition, in the preferred embodiment, the memory module 250 and the connection module 2
The electrical connection of 60 allows the telephone number associated with the connection established by the remote terminal to be stored in the memory module 250. For example, each time the user inputs a telephone number at the remote terminal 200, the number is stored in the memory module 250. In this way, the memory module 250 maintains a list of previously called telephone numbers that can be used as a priori information to enhance the accuracy of voice dialing, as described below.

【0022】 図3は、本発明の実施の形態における音声ダイヤリングの方法を示す。この方
法の概要としては、図3に示すように、ユーザーが話した文字を受け、その文字
をデジタル信号に変換し、文字列が完成しているかどうかを判断する。文字列が
完成していなければ、システムは追加される文字を繰り返し受け取ってデジタル
信号に変換する。完全な文字列を受け取った後、システムは文字列中に1以上の
認識されなかった文字が含まれるかどうかを判断する。文字列が認識されなかっ
た文字を含まない場合、その文字列を、認識された文字列に対応する番号を電話
がダイヤルできるようにするモジュール(例えば接続モジュール)に送る。文字
列が1以上の認識されなかった文字を含む場合、検索モジュールを呼び出す。検
索モジュールは、文字列中の認識された数字を、付随するメモリ内の文字列の対
応する数字と比較し、メモリ内の文字列が、ユーザーが入力した文字列と一致し
ているようであるかどうかを判断する。一致しているようであると判断された場
合、その文字列は、認識された文字列に対応する番号を電話がダイヤルできるよ
うにするモジュールに送られる。または、文字列を表示したり、音声により電話
のユーザーに知らせるようにしても良く、その場合、ユーザーはその文字列が実
際に望みの文字列に一致しているかどうかを指示することができる。以下、この
処理を詳細に説明する。
FIG. 3 shows a method of voice dialing in the embodiment of the present invention. As an outline of this method, as shown in FIG. 3, a character spoken by the user is received, the character is converted into a digital signal, and it is determined whether or not the character string is completed. If the string is not complete, the system repeatedly receives the added characters and converts them into a digital signal. After receiving the complete string, the system determines if the string contains one or more unrecognized characters. If the string does not contain unrecognized characters, it is sent to a module that allows the telephone to dial the number corresponding to the recognized string (eg, a connection module). If the string contains one or more unrecognized characters, call the search module. The search module compares the recognized number in the string with the corresponding number in the associated in-memory string, and the in-memory string appears to match the string entered by the user. Determine if If it is determined that there is a match, the string is sent to the module that allows the phone to dial the number corresponding to the recognized string. Alternatively, the string may be displayed or voiced to inform the user of the phone, in which case the user may indicate whether the string actually matches the desired string. Hereinafter, this process will be described in detail.

【0023】 一実施の形態では、図3に示す処理は、例えば音声ダイヤリングできる移動電
話機などの遠隔通信端末上で実現される。図3のステップ310において、音声
ダイヤリング機能が使用可能になり、遠隔端末は文字列の1番目の文字を示す音
声入力を受け取る。米国では、好ましくはその文字が公知の10桁の電話番号フ
ォーマット(例えば、XXX−XXX−XXXX)の1つの数字を示す。しかし
、文字列は異なる地域の電話番号システム用のフォーマットであったり、または
データアプリケーションにおいてはデータネットワークのネットワークアドレス
(例えば、URLやIPアドレス)を示すものであっても良い。または、文字列
は遠隔端末向けのコマンドを示すコマンドであっても、高速ダイヤリングのため
の番号を含むメモリ位置を示すものであっても良い。
In one embodiment, the process shown in FIG. 3 is implemented on a telecommunications terminal, such as a mobile telephone capable of voice dialing. In step 310 of Figure 3, the voice dialing feature is enabled and the remote terminal receives a voice input indicating the first character of the string. In the United States, the letters preferably refer to a single digit in the well-known ten digit telephone number format (eg, XXX-XXX-XXXX). However, the character string may be in a format for a telephone number system of a different area, or may indicate a network address (eg, URL or IP address) of a data network in a data application. Alternatively, the character string may be a command indicating a command for a remote terminal or a memory location including a number for high speed dialing.

【0024】 ステップ320において、受け取った文字は、ユーザーが話した文字を示すデ
ジタル信号に変換される。変換は、アナログ/デジタル(A/D)変換器を適切
なASRモジュールと併せて用いることで行うことができる。多くのASRモジ
ュールを用いることで、ある文字に対して為された判定の信頼性の計量を報告す
るための、統計的処理を実行することが可能になる。望みの信頼性率はASRモ
ジュールのロジック内にプログラムしても、ユーザー選択可能にし、パラメータ
としてシステムに入力するようにしても良い。ASRモジュールは公知の技術で
あり、ASRモジュールの詳細は本発明を左右するものではない。
In step 320, the received characters are converted into a digital signal that represents the characters spoken by the user. The conversion can be performed using an analog / digital (A / D) converter in combination with a suitable ASR module. The use of many ASR modules makes it possible to carry out statistical processes for reporting a measure of the reliability of the decisions made on a character. The desired reliability rate may be programmed into the logic of the ASR module or it may be user selectable and entered into the system as a parameter. The ASR module is a known technique, and details of the ASR module do not influence the present invention.

【0025】 ステップ330において、文字列の入力が完了したかどうかを判断するテスト
を行う。例えば、10文字フォーマットを用いる米国の電話システムでは、10
個目の文字入力をもって文字列が完成したと判断される。別の例としては、判断
ステップにおいてタイムアウト処理を利用し、特定文字入力後、所定時間の経過
をもって文字列が完成したものと見なす。また別の例としては、指定キーを押下
したり、指定コードを話すことにより、文字列が終了したことをユーザーが積極
的に示すようにしてもよい。当業者であれば、入力文字列の終了を検知する多く
の方法を認めることができるであろう。文字列が完成していない場合、文字列が
完成するか、ユーザーが音声入力処理を中止する旨を指示するまで、ステップ3
10から330を繰り返す。
In step 330, a test is performed to determine if the character string input is complete. For example, in the US telephone system using the 10 character format, 10
It is determined that the character string is completed by the input of the character of the number. As another example, a time-out process is used in the determination step, and it is considered that the character string is completed when a predetermined time elapses after the specific character is input. As another example, the user may positively indicate the end of the character string by pressing a designated key or speaking a designated code. One of ordinary skill in the art will recognize many ways to detect the end of an input string. If the character string is not completed, until the character string is completed, or until the user instructs to stop the voice input process, step 3
Repeat from 10 to 330.

【0026】 文字列が完成したと判断されると、ステップ340において文字列が1以上の
認識されなかった文字を含むかどうかを判断するテストを行う。ここで言う「認
識されなかった文字」とは、ASRモジュールにより確認されなかった文字列中
の文字を指す。一実施の形態では、システムは、文字列中の1以上の文字に関す
る信頼性の計量が所定閾値(例えば、95%又は90%)より低いかどうかを判
断するテストを行い、低い場合に、その文字列が認識されなかった文字を有する
ものとしてもよい。更にテストを追加して行っても良い。例えば、2文字に関す
る信頼性の計量が所定閾値よりも低い場合に、その文字列は認識されなかった文
字を有するものとしてもよい。
Once the string is determined to be complete, a test is performed at step 340 to determine if the string contains one or more unrecognized characters. The "unrecognized character" here refers to a character in a character string that is not confirmed by the ASR module. In one embodiment, the system performs a test to determine if the confidence metric for one or more characters in the string is below a predetermined threshold (eg, 95% or 90%), and if so, The character string may have unrecognized characters. Additional tests may be added. For example, if the reliability metric for two characters is less than a predetermined threshold, then the string may have unrecognized characters.

【0027】 もし、文字列が認識されなかった文字を含まなければ、ステップ380におい
てその文字列をダイヤルし、遠隔端末200はネットワークと接続するように試
みる。
If the string does not contain any unrecognized characters, the string is dialed in step 380 and the remote terminal 200 attempts to connect to the network.

【0028】 文字列が認識されなかった文字を含む場合、ステップ350において、遠隔端
末に付随するメモリモジュールを検索し、メモリモジュール内の文字列が、ユー
ザーにより入力された文字列の認識された文字と一致するかどうかを判断する。
ステップ360において一致する場合、その文字列をメモリから取得し、ステッ
プ370でユーザーに示すが、これは必ずしも行わなくても良い。一実施の形態
では、文字列は、LCDやその他適切な表示器上に表示するなどして、視覚的に
ユーザに提示される。別の形態では、音声合成機を用いて音声によりその文字列
をユーザーに提示する。ユーザーから承認の指示を受け取ると、その文字列はス
テップS380でダイヤルされる。
If the character string includes unrecognized characters, the memory module attached to the remote terminal is searched in step 350, and the character string in the memory module is the recognized character of the character string input by the user. To see if it matches.
If there is a match in step 360, the string is retrieved from memory and presented to the user in step 370, although this need not be the case. In one embodiment, the string is visually presented to the user, such as by being displayed on an LCD or other suitable display. In another form, the character string is presented to the user by voice using a voice synthesizer. Upon receiving the approval instruction from the user, the character string is dialed in step S380.

【0029】 ステップ310〜380の一部又は全ては、適切なASIC、DSC又はチッ
プセット、又は汎用プロセッサ上で動作している論理命令により行うことができ
る。
Some or all of steps 310-380 may be performed by logic instructions running on a suitable ASIC, DSC or chipset, or general purpose processor.

【0030】 本発明は、2〜3の実施の形態に基づいて詳細に説明した。しかしながら、当
業者であれば、本発明から離脱することなく、様々な変形が可能であることは明
らかであろう。従って、本発明は添付の請求項によってのみ定義され、その同等
の構成は全て本発明に包含されるものである。
The present invention has been described in detail based on a few embodiments. However, it will be apparent to those skilled in the art that various modifications can be made without departing from the present invention. Therefore, the present invention is defined only by the appended claims, and all equivalent constructions are included in the present invention.

【図面の簡単な説明】[Brief description of drawings]

本発明の目的、特徴及び利点は、上記の詳細な記述を以下の図面と合わせ読む
ことでより明らかになるであろう。
The objects, features and advantages of the present invention will become more apparent when the above detailed description is read in conjunction with the following drawings.

【図1】 図1は、本発明を実現するのに適したGSM通信例を示すブロック図である。[Figure 1]   FIG. 1 is a block diagram showing an example of GSM communication suitable for implementing the present invention.

【図2】 図2は、本発明の実施の形態における通信装置での音声発呼を容易にするため
の方法を示すフローチャートである。
FIG. 2 is a flowchart showing a method for facilitating a voice call in a communication device according to an embodiment of the present invention.

【図3】 図3は、本発明の実施の形態における遠隔通信端末の概略図である。[Figure 3]   FIG. 3 is a schematic diagram of a telecommunications terminal in the embodiment of the present invention.

───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AG,AL,AM,AT, AU,AZ,BA,BB,BG,BR,BY,BZ,C A,CH,CN,CR,CU,CZ,DE,DK,DM ,DZ,EE,ES,FI,GB,GD,GE,GH, GM,HR,HU,ID,IL,IN,IS,JP,K E,KG,KP,KR,KZ,LC,LK,LR,LS ,LT,LU,LV,MA,MD,MG,MK,MN, MW,MX,MZ,NO,NZ,PL,PT,RO,R U,SD,SE,SG,SI,SK,SL,TJ,TM ,TR,TT,TZ,UA,UG,UZ,VN,YU, ZA,ZW─────────────────────────────────────────────────── ─── Continued front page    (81) Designated countries EP (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, I T, LU, MC, NL, PT, SE), OA (BF, BJ , CF, CG, CI, CM, GA, GN, GW, ML, MR, NE, SN, TD, TG), AP (GH, GM, K E, LS, MW, MZ, SD, SL, SZ, TZ, UG , ZW), EA (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM), AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, BZ, C A, CH, CN, CR, CU, CZ, DE, DK, DM , DZ, EE, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, JP, K E, KG, KP, KR, KZ, LC, LK, LR, LS , LT, LU, LV, MA, MD, MG, MK, MN, MW, MX, MZ, NO, NZ, PL, PT, RO, R U, SD, SE, SG, SI, SK, SL, TJ, TM , TR, TT, TZ, UA, UG, UZ, VN, YU, ZA, ZW

Claims (16)

【特許請求の範囲】[Claims] 【請求項1】 通信装置の音声ダイヤリングを容易にするためのシステムで
あって、 入力された文字列を示す音声入力を受け、前記入力文字列の各文字を示す信号
を生成する変換モジュールと、 前記入力文字列が認識されなかった文字を含むかどうかを判断する判断モジュ
ールと、 ネットワークアドレスに対応する複数の文字列を含むメモリモジュールと、 前記入力文字列内の認識された文字に対応する文字を含む文字列を前記メモリ
モジュールから検索する検索モジュールとを有し、 前記変換モジュールが前記入力文字列の中の1以上の文字を変換できない場合
、前記検索モジュールは、前記入力文字列の認識された文字と一致する文字を有
する1以上の文字列を前記メモリモジュールから検索することを特徴とするシス
テム。
1. A system for facilitating voice dialing of a communication device, comprising: a conversion module that receives voice input indicating an input character string and generates a signal indicating each character of the input character string. A determination module for determining whether the input character string includes unrecognized characters, a memory module including a plurality of character strings corresponding to network addresses, and a memory module corresponding to the recognized characters in the input character string. A search module for searching a character string containing characters from the memory module, wherein the search module recognizes the input character string when the conversion module cannot convert one or more characters in the input character string. A system for retrieving from the memory module one or more character strings having characters that match the retrieved characters.
【請求項2】 前記変換モジュールは、前記受け取った音声入力信号をデジ
タル化するためのA/D変換器を含むことを特徴とする請求項1に記載のシステ
ム。
2. The system of claim 1, wherein the conversion module includes an A / D converter for digitizing the received audio input signal.
【請求項3】 前記変換モジュールは、デジタル信号を分析し、前記デジタ
ル信号が示す文字列を示す信号を生成する音声認識モジュールを有することを特
徴とする請求項1に記載のシステム。
3. The system according to claim 1, wherein the conversion module includes a voice recognition module that analyzes a digital signal and generates a signal indicating a character string represented by the digital signal.
【請求項4】 前記変換モジュールは、変換の精度に関する信頼性レベルを
示す信号を生成し、 前記判断モジュールは、前記信頼性レベルが所定閾値よりも高いかどうかを示
す信号を生成する ことを特徴とする請求項1に記載のシステム。
4. The conversion module generates a signal indicating a reliability level regarding the accuracy of conversion, and the determination module generates a signal indicating whether the reliability level is higher than a predetermined threshold value. The system of claim 1, wherein:
【請求項5】 前記変換モジュール及び前記判断モジュールはデジタル信号
プロセッサ内で実現されることを特徴とする請求項1に記載のシステム。
5. The system of claim 1, wherein the conversion module and the decision module are implemented in a digital signal processor.
【請求項6】 前記メモリ内に文字列を示す信号を生成する出力モジュール
を更に有することを特徴とする請求項1に記載のシステム。
6. The system according to claim 1, further comprising an output module for generating a signal indicating a character string in the memory.
【請求項7】 前記出力モジュールにより生成された信号が示す前記文字列
を表示する表示モジュールを更に有することを特徴とする請求項6に記載のシス
テム。
7. The system according to claim 6, further comprising a display module for displaying the character string indicated by the signal generated by the output module.
【請求項8】 前記出力モジュールにより生成された信号が示す文字列を音
声で通知するモジュールを更に有することを特徴とする請求項6に記載のシステ
ム。
8. The system according to claim 6, further comprising a module for audibly notifying a character string indicated by a signal generated by the output module.
【請求項9】 前記出力モジュールにより生成された信号が示す前記文字列
との接続を行う接続モジュールを更に有することを特徴とする請求項1に記載の
システム。
9. The system according to claim 1, further comprising a connection module for making a connection with the character string indicated by the signal generated by the output module.
【請求項10】 通信装置において音声発呼を容易にする方法であって、 望みの文字列を示す音声入力を受け、 前記文字列の各文字を示す信号を生成し、 前記文字列が認識されなかった文字を含むかどうかかを判断し、含む場合には
前記入力文字列中の認識された文字に対応する文字を有する、一致する文字列を
メモリモジュール内で検索し、 一致する文字列を示す信号を生成する 工程を有することを特徴とする方法。
10. A method for facilitating a voice call in a communication device, wherein a voice input indicating a desired character string is received, a signal indicating each character of the character string is generated, and the character string is recognized. It is determined whether or not the character that does not exist is included, and if it does, a matching character string having a character corresponding to the recognized character in the input character string is searched in the memory module, and the matching character string is searched. A method comprising: producing a signal indicative.
【請求項11】 前記文字列における各文字を示す信号を生成する工程は、
受け取った音声入力信号をデジタル化する工程を含むことを特徴とする請求項1
0に記載の方法。
11. The step of generating a signal indicating each character in the character string comprises:
The method of claim 1 including digitizing the received audio input signal.
The method described in 0.
【請求項12】 前記文字列における各文字を示す信号を生成する工程は、
前記デジタル信号を分析し、前記デジタル信号が示す文字列を示す信号を生成す
る工程を含むことを特徴とする請求項11に記載の方法。
12. The step of generating a signal indicating each character in the character string comprises:
12. The method according to claim 11, comprising the step of analyzing the digital signal and generating a signal indicating a character string represented by the digital signal.
【請求項13】 前記文字列における各文字を示す信号を生成する工程は、
変換の精度に関する信頼性レベルを示す第1の信号を生成する工程を含むことを
特徴とする請求項10に記載の方法。
13. The step of generating a signal indicating each character in the character string comprises:
The method of claim 10 including the step of generating a first signal indicative of a confidence level for the accuracy of the transformation.
【請求項14】 前記文字列が認識されなかった文字を含むかどうかを判断
する工程は、前記信頼性レベルを所定閾値と比較し、前記信頼性レベルが所定閾
値より大きいかどうかを示す第2の信号を生成する工程を含むことを特徴とする
請求項13に記載の方法。
14. The step of determining whether the character string includes an unrecognized character includes comparing the reliability level with a predetermined threshold value and indicating whether the reliability level is greater than a predetermined threshold value. 14. The method of claim 13 including the step of generating a signal of
【請求項15】 前記出力モジュールにより生成された前記信号が示す前記
文字列を表示する工程を更に有することを特徴とする請求項10に記載の方法。
15. The method of claim 10, further comprising displaying the character string represented by the signal generated by the output module.
【請求項16】 前記出力モジュールにより生成された前記信号が示す前記
文字列を音声により通知する工程を更に有することを特徴とする請求項10に記
載の方法。
16. The method according to claim 10, further comprising the step of audibly notifying the character string indicated by the signal generated by the output module.
JP2001535162A 1999-11-04 2000-10-31 System and method for increasing recognition rate of voice input command in telecommunications terminal Withdrawn JP2003513341A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US43414199A 1999-11-04 1999-11-04
US09/434,141 1999-11-04
PCT/EP2000/010742 WO2001033553A2 (en) 1999-11-04 2000-10-31 System and method of increasing the recognition rate of speech-input instructions in remote communication terminals

Publications (1)

Publication Number Publication Date
JP2003513341A true JP2003513341A (en) 2003-04-08

Family

ID=23722981

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001535162A Withdrawn JP2003513341A (en) 1999-11-04 2000-10-31 System and method for increasing recognition rate of voice input command in telecommunications terminal

Country Status (5)

Country Link
EP (1) EP1226576A2 (en)
JP (1) JP2003513341A (en)
CN (1) CN1191566C (en)
AU (1) AU1390501A (en)
WO (1) WO2001033553A2 (en)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10120513C1 (en) 2001-04-26 2003-01-09 Siemens Ag Method for determining a sequence of sound modules for synthesizing a speech signal of a tonal language
KR100412474B1 (en) * 2001-06-28 2003-12-31 유승혁 a Phone-book System and Management Method Of Telephone and Mobile-Phone used to Voice Recognition and Remote Phone-book Server
KR100869878B1 (en) * 2001-12-31 2008-11-24 주식회사 케이티 System for generating pronunciation dictionary in intelligent network services using voice recognition and method for using the same system
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
WO2006023937A2 (en) * 2004-08-23 2006-03-02 Exbiblio B.V. A portable scanning device
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
WO2010105246A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Accessing resources based on capturing information from a rendered document
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
DE102014200570A1 (en) * 2014-01-15 2015-07-16 Bayerische Motoren Werke Aktiengesellschaft Method and system for generating a control command

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03144877A (en) * 1989-10-25 1991-06-20 Xerox Corp Method and system for recognizing contextual character or phoneme
DE19532114C2 (en) * 1995-08-31 2001-07-26 Deutsche Telekom Ag Speech dialog system for the automated output of information
JP3427692B2 (en) * 1996-11-20 2003-07-22 松下電器産業株式会社 Character recognition method and character recognition device
EP1042898A4 (en) * 1998-01-09 2005-05-18 Alcatel Usa Sourcing Lp Method and system for totally voice activated dialing

Also Published As

Publication number Publication date
CN1387663A (en) 2002-12-25
WO2001033553A3 (en) 2001-11-29
EP1226576A2 (en) 2002-07-31
CN1191566C (en) 2005-03-02
AU1390501A (en) 2001-05-14
WO2001033553A2 (en) 2001-05-10

Similar Documents

Publication Publication Date Title
JP2003513341A (en) System and method for increasing recognition rate of voice input command in telecommunications terminal
US6782278B2 (en) Dialing method for dynamically simplifying international call in cellular phone
US5864763A (en) Digital wireless telephone system interface for analog telecommunications equipment
JP2008523770A (en) Method and apparatus for supporting enhanced international dialing in cellular systems
US20050288926A1 (en) Network support for wireless e-mail using speech-to-text conversion
KR100393398B1 (en) Systems and methods for generating current time in cellular wireless telephones
EP1677493A1 (en) Method for offering TTY/TTD service in a wireless terminal and wireless terminal implementing the same
KR19990067187A (en) Network directory method and system for cellular radiotelephone
CN1758784A (en) Mobile communication terminal having emergency call function and method of processing emergency call request in the mobile communication terminal
JP2002171332A (en) Communication terminal equipment
US6871072B1 (en) Methods and apparatus for supporting optimum call routing in a cellular telecommunications system
US8050672B2 (en) Telecommunication system, mobile phone and calling method
US7336933B2 (en) Method of maintaining communication with a device
US6788767B2 (en) Apparatus and method for providing call return service
EP2149205B1 (en) Method for providing roaming service of international call and mobile terminal for the same
KR100981896B1 (en) Method and system for international dialing over a cdma air interface
US7206395B2 (en) Telephone apparatus
US20050107112A1 (en) Apparatus, and an associated method, for creating and using a call-screening list to screen calls placed to a communication station
CN101132575A (en) Portable terminal and method for launching urgent call on portable terminal
US7395080B2 (en) Call processing system and method
US7295858B2 (en) Mobile station capable of outputting ring tones coming from a base station without storing them locally on the mobile station
WO2007055990A2 (en) Real time caller information retrieval and display in dispatch calls
US20110045814A1 (en) Method and apparatus for dial input using voice in a mobile terminal
KR100600386B1 (en) Method for outputting voice of caller in mobile telecommunication terminal
JPH11298966A (en) Portable telephone communication system

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080108