JP3728921B2 - Voice command terminal device - Google Patents
Voice command terminal device Download PDFInfo
- Publication number
- JP3728921B2 JP3728921B2 JP10504698A JP10504698A JP3728921B2 JP 3728921 B2 JP3728921 B2 JP 3728921B2 JP 10504698 A JP10504698 A JP 10504698A JP 10504698 A JP10504698 A JP 10504698A JP 3728921 B2 JP3728921 B2 JP 3728921B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- command
- voice recognition
- terminal device
- vending machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は例えば音声認識カードなどの音声指令端末装置に関する。
【0002】
【従来の技術】
近年、音声認識の技術が実用化されつつある。音声認識技術には不特定話者を対象にしたものと特定話者を対象にしたものとの2種類ある。例えば、音声認識機能を有する公共の施設などの前で、不特定話者がある名前を発音すると、この名前が認識されて対応する処理を実行するものが知られている。
【0003】
これに対して、特定話者を対象にしたものは、特定の人間の音声を登録しておき、登録した人間のみを対象に音声認識を行って認識された音声に対応する処理を実行するものである。
【0004】
【発明が解決しようとする課題】
しかしながら、上記した不特定話者を対象にした従来の音声認識装置は、不特定多数のユーザを対象としているので認識可能な語彙数が限られていたり、語彙数を増やそうとすると認識率が良好でなく実用の域までには到達していない。また、上記した特定話者を対象にした音声認識装置においては、認識率は高いが限られた特定の人間の間でしか使用することができないという問題がある。
【0005】
さらに、音声認識を行なう場所が固定されていたので周囲の雑音などに影響されたり、他人が存在し得る環境で発音する必要があるので秘匿性を保持する必要がある場合には適していないという問題があった。
【0006】
本発明の課題は、認識率の高い特定話者による音声認識機能を各ユーザが所持する端末に持たせてユーザが所望の場所で音声入力を行なえるようにすることで、秘匿性を保ちつつ不特定多数の音声を極めて高い認識率で認識できるようにすることである。
【0007】
【課題を解決するための手段】
本発明の音声指令端末装置は、入力された音声を認識する音声認識手段と、この音声認識手段により認識された音声に対応する指令情報を音声とは異なる形態で他装置の機種別に登録する登録手段と、前記指令情報を受信して対応する処理を実行する他装置への接近を示す情報を当該他装置から取得したときに、前記登録手段に登録された当該他装置の指令情報を当該他装置に送信する送信手段とを具備することを特徴とする。
【0010】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態を詳細に説明する。図1は、本発明の音声指令端末装置を適用した音声認識カードの構成を示す図であり、図中の参照番号10は当該音声認識カード全体を制御する制御部としてのCPUである。11は音声入力部としてのマイクであり、12はキーボードであり、音声指令キーや送信キーを含む種々の指令を入力するためのキーを備えている。13はユーザにより入力された音声に対応する指令情報を自動販売機などの他の装置に送信するときの送信手段としての通信インタフェースであり、14はユーザが選択可能な複数種類の対象機種を示すメニューを表示するための表示部14であり、15はユーザにより入力された音声を認識する音声認識部(音声認識手段)であり、16は話者登録辞書として用いられるフラッシュROMであり、17は入力された音声からCPU10による検索により指令データを得るのに用いられる指令テーブルである。
【0011】
図2は図1に示す指令テーブルの構成を示す図であり、ユーザが選択可能な複数の機種コードと、各機種において使用される指令データ(指令情報)と、各指令データに対応する音声データとが対応付けて記憶されている。図2では、例えば切符販売用の自動販売機Aの機種コードに対して3つの指令データと音声データとが例として示されている。
【0012】
図3は表示部14に表示されるメニューの一例を示す図であり、ユーザが選択可能な機種として、1.自動販売機A、2.自動販売機B、3.ドアA、4.ドアB、5.TVが例として示されている。
【0013】
以下に、音声認識カードに対する音声登録処理の詳細を図4に示すフローチャートを参照して説明する。
まず、音声指令キーを押すと、図3に示すような対象機種の候補が表示部14に表示される(ステップS1)。ユーザはこのメニューを見て、例えば、切符購入用の自動販売機Aを選択した後(ステップS2)、マイク11を介して例えば、“東京”、“大阪”などの行き先を音声で入力する(ステップS3)。すると音声認識部15において入力された音声の認識が行われる(ステップS4)。次に、指令テーブル17内を走査して認識された音声データに対応する指令データを検索して(ステップS5)、検索された対応指令データを、選択した機種(ここでは自動販売機A)の機種コードと共にテキストデータの形でフラッシュROM16に記憶する(ステップS6)。次に、登録すべき音声データが他にあるか否かを判断し(ステップS7)、他にある場合にはステップS3に戻って音声の入力を行なう。例えば、ユーザは、実行してほしい指令に対応する音声データを複数、対象機種ごとにあらかじめまとめて(例えば1日分)入力しておくことが可能である。これによって選択した機種に応じて音声データに対応する指令データを選択することができる。
【0014】
また、音声データと、この音声データを変換した形態の音声データ(例えば、“パソコン”を“パーソナルコンピュータ”に変換する)とを対応付けてフラッシュROM16に登録しておき、“パソコン”という音声が入力されたときに“パーソナルコンピュータ”が登録されるようにしてもよい。
【0015】
図5は上記の方法で登録した指令データを送信するときの処理の詳細を示すフローチャートである。まず、図7に示すように、ユーザ99が音声認識カード100を、切符購入用の自動販売機101に例えば3m以内にまで近づけることにより自動販売機101から機種接近情報を受信するか、あるいはユーザ99が送信キーを押したか否かを判定し(ステップS8、S9)、いずれかの判定がYESになった場合には、音声認識カード100はあらかじめ登録されている音声データに対応する指令データと機種コードとを自動販売機に赤外線などの非接触手段により送信する(ステップS10)。当該指令データが自動販売機101によって正常に認識されたときには応答発信が音声認識カード99側に返されるのでステップS11がYESとなって、送信すべき指令データが他に有るか否かを判断する(ステップS12)。ここでNOの場合は処理を終了するが、YESの場合にはステップS8に戻って機種接近情報があるか(ステップS8)あるいは送信キーが押されたか否か(ステップS9)の判定を行なう。一方、当該指令データが正常に認識されなかった場合には応答発信が無いのでエラー表示を行なう(ステップS13)。
【0016】
次に、図6のフローチャートを参照して自動販売機101によるコマンド受信処理の詳細を説明する。自動販売機101は機種接近情報を常に発信しており(ステップS20)、これが音声認識カード100により認識されると、音声認識カード100側から指令データと機種コードとが送信されてくるので、その機種コードが自身の機種コードと一致する指令データを受信したか否かを判定する(ステップS21)。機種コードが一致する指令データを受信したときには、この指令データを解析して(ステップS22)、指令データに対応する物品(切符)をユーザ99に提供することが可能かどうかを判定する(ステップS23)。ここでユーザが所定額の金銭を投入し、かつ、販売可能な行き先であった場合にはYESとなり、次に、音声認識カード100に対して応答発信を行ない(ステップS24)、続いて当該物品(切符)をユーザ99に提供する対応処理(ステップS25)を行なった後、ステップS20に戻る。また、ステップS23においてNOの場合にはエラー表示(ステップS26)を行ってステップS20に戻る。
【0017】
上記した実施形態によれば、ユーザは、音声認識カードの携帯性を利用して、他人の介在しない所望の場所であらかじめ音声登録を行ない、その後、自動販売機の設置してある場所に音声認識カードを運んで指令データを送信することができる。この場合の音声認識方法は、音声認識カードを所持するユーザのみの特定話者を対象としたものになるので、秘匿性を保ちつつ不特定多数の音声を極めて高い認識率で認識できる。これによって、切符の販売機の場合には、料金表を見なくともかつキー操作を行なうことなしに切符を購入する作業、及び視力の弱い人や、機械走査に不慣れな人が助けを必要とせずに切符を購入する作業が簡単かつ確実に行なえるようになる。
【0018】
なお、コマンドの送信方法は非接触手段として赤外線の他に、光や電磁結合による方法を用いてもよい。また、自動販売機に専用のカードリーダを設けて電気的接触による方法を用いてもよい。また、切符購入用の自動販売機に限らず、飲料購入用など他の任意の自動販売機であってもよい。
【0019】
以下に上記した音声認識カードをオートドアロックに適用した変形例を図8を参照して説明する。
まず、ユーザ199は、所望の場所で音声認識カード200に所定の暗証番号を予め登録する。例えば、「すずきいちろう」と入力すると、暗証番号「54184973」に変換されて登録される。音声の登録方法は上記した方法に準じて行なうことができる。
【0020】
次に、ユーザ199は、ドアロックを通って入室/入館する場合、音声認識カード200に「すずきいちろう」と話す。
次に、音声認識カード200をオートロック装置201に近づける。受信範囲内に入れば、暗証番号「54184973」がオートロック装置201に入力される。
【0021】
次に、オートロック装置201はこの暗号番号を認識することにより、ドアロックが解除されてドア202からの入室/入館が可能になる。
上記した変形例によれば、秘匿性を保ちつつ不特定多数の音声を極めて高い認識率で認識できるようになる。また、長い暗証番号を覚える必要がなくなるので、入室/入館動作が簡略化される。また、オートロック装置などのキー操作が不要になり、利便性が大幅に向上するとともに、身体障害者やお年寄りなどにも使用できる。また、特定話者認識なので正当な使用者以外のものが音声認識カードを取得して、「すずきいちろう」と話しても認識できないため不正な入室/入館ができないので、電子ロックとしての安全性が格段に向上する。
【0022】
さらなる変形例として、音声認識カードに辞書機能を持たせることで、家電製品のリモコンや電話帳などにも利用できる。例えば、テレビリモコンなどで、「わうわう」を音声入力し、これを「BS5」に変換した上でテレビに送信したり、電話帳において、「たまくやくしょ」を音声入力し、これを「0449353111」に変換した上で電話機に送信することも可能である。
【0023】
【発明の効果】
本発明によれば、認識率の高い特定話者による音声認識機能を各ユーザが所持する端末装置に持たせ、この端末装置を他装置へ接近することによって、接近した当該他装置に対応して登録されている指令情報を当該他装置に送信することができ、他装置に対応して的確に指令情報を送信して他装置による処理を実行させることができる。
【図面の簡単な説明】
【図1】本発明の音声指令端末装置が適用される音声認識カードの構成を示す図である。
【図2】音声認識カードの指令テーブルの構成を示す図である。
【図3】音声認識カードの表示部に表示されるメニューの一例を示す図である。
【図4】音声認識カードに対する音声登録処理の詳細を説明するためのフローチャートである。
【図5】登録した指令データを送信するときの処理の詳細を示すフローチャートである。
【図6】自動販売機によるコマンド受信処理の詳細を説明するためのフローチャートである。
【図7】音声認識カードを自動販売機に適用したときの作用を説明するための図である。
【図8】音声認識カードをオートロック装置に適用したときの作用を説明するための図である。
【符号の説明】
10…CPU、
11…マイク、
12…キーボード、
13…通信インタフェース、
14…表示部、
15…音声認識部、
16…フラッシュROM、
17…指令テーブル。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice command terminal device such as a voice recognition card.
[0002]
[Prior art]
In recent years, voice recognition technology has been put into practical use. There are two types of speech recognition technologies: those targeting unspecified speakers and those targeting specific speakers. For example, it is known that when an unspecified speaker pronounces a name in front of a public facility having a voice recognition function, the name is recognized and a corresponding process is executed.
[0003]
On the other hand, for a specific speaker, a specific person's voice is registered, and voice recognition is performed only on the registered person, and processing corresponding to the recognized voice is executed. It is.
[0004]
[Problems to be solved by the invention]
However, the conventional speech recognition apparatus for unspecified speakers described above targets a large number of unspecified users, so the number of recognizable words is limited or the recognition rate is good when trying to increase the number of words It has not reached the practical range. In addition, the above-described speech recognition apparatus for a specific speaker has a problem that it can be used only by a limited number of specific persons with a high recognition rate.
[0005]
Furthermore, since the place where voice recognition is performed is fixed, it is not suitable for the case where it is necessary to maintain confidentiality because it is affected by surrounding noise, etc., or it must be pronounced in an environment where other people may exist. There was a problem.
[0006]
An object of the present invention is to provide a voice recognition function by a specific speaker with a high recognition rate to a terminal possessed by each user so that the user can perform voice input at a desired location, while maintaining confidentiality. It is to be able to recognize an unspecified number of voices with a very high recognition rate.
[0007]
[Means for Solving the Problems]
The voice command terminal device according to the present invention includes a voice recognition unit for recognizing an input voice and registration for registering command information corresponding to the voice recognized by the voice recognition unit for each device type in a form different from the voice. And the command information of the other device registered in the registration unit when the information indicating the approach to the other device that receives the command information and executes the corresponding process is acquired from the other device. Transmission means for transmitting to the apparatus.
[0010]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings. FIG. 1 is a diagram showing a configuration of a voice recognition card to which a voice command terminal device of the present invention is applied.
[0011]
FIG. 2 is a diagram showing the configuration of the command table shown in FIG. 1, and a plurality of model codes selectable by the user, command data (command information) used in each model, and voice data corresponding to each command data Are stored in association with each other. In FIG. 2, for example, three command data and voice data are shown as an example for the model code of the vending machine A for ticket sales.
[0012]
FIG. 3 is a diagram illustrating an example of a menu displayed on the
[0013]
Details of the voice registration process for the voice recognition card will be described below with reference to the flowchart shown in FIG.
First, when a voice command key is pressed, candidates for the target model as shown in FIG. 3 are displayed on the display unit 14 (step S1). The user looks at this menu and selects, for example, a vending machine A for ticket purchase (step S2), and then inputs a destination such as “Tokyo” or “Osaka” via the
[0014]
Also, the voice data and the voice data converted from the voice data (for example, “PC” is converted to “personal computer”) are associated with each other and registered in the flash ROM 16, and the voice “PC” is recorded. “Personal computer” may be registered when input.
[0015]
FIG. 5 is a flowchart showing details of processing when command data registered by the above method is transmitted. First, as shown in FIG. 7, the
[0016]
Next, details of command reception processing by the vending machine 101 will be described with reference to the flowchart of FIG. The vending machine 101 always transmits model approach information (step S20). When this is recognized by the
[0017]
According to the above-described embodiment, the user uses the portability of the voice recognition card to perform voice registration in advance at a desired place where no other person is present, and then performs voice recognition at the place where the vending machine is installed. Command data can be transmitted by carrying the card. Since the speech recognition method in this case is intended for a specific speaker only for a user who possesses a speech recognition card, an unspecified number of speeches can be recognized with a very high recognition rate while maintaining secrecy. As a result, in the case of ticket vending machines, people who have low vision or those who are unfamiliar with machine scanning need help without having to look at the price list and without having to operate the keys. You can easily and reliably purchase tickets without having to pay for them.
[0018]
As a command transmission method, light or electromagnetic coupling may be used as non-contact means in addition to infrared rays. Alternatively, a dedicated card reader may be provided in the vending machine and an electrical contact method may be used. Moreover, it is not limited to a vending machine for purchasing tickets, but may be any other vending machine for purchasing beverages.
[0019]
A modification in which the above-described voice recognition card is applied to an automatic door lock will be described below with reference to FIG.
First, the
[0020]
Next, when the
Next, the
[0021]
Next, the auto-
According to the above-described modification, an unspecified number of voices can be recognized with a very high recognition rate while maintaining confidentiality. In addition, since it is not necessary to memorize a long password, entry / entry operation is simplified. In addition, key operations such as an auto-lock device are not required, and the convenience is greatly improved, and it can also be used by persons with disabilities and the elderly. In addition, because it is a specific speaker recognition, it is impossible for unauthorized persons to obtain a voice recognition card and speak "Suzuki Ichiro" so that unauthorized entry / entry is not possible. Greatly improved.
[0022]
As a further modification, by providing the voice recognition card with a dictionary function, it can be used for a remote control of a home appliance, a telephone directory, or the like. For example, “Wow Wow” is input by voice using a TV remote control or the like, and this is converted to “BS5” and transmitted to the TV. It is also possible to transmit it to the telephone after converting it to “0449353111”.
[0023]
【The invention's effect】
According to the present invention, each terminal device possesses a voice recognition function by a specific speaker having a high recognition rate, and by approaching this terminal device to another device, it corresponds to the other device approaching. The registered command information can be transmitted to the other device, and the command information can be accurately transmitted corresponding to the other device to execute processing by the other device.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration of a voice recognition card to which a voice command terminal device of the present invention is applied.
FIG. 2 is a diagram showing a configuration of a command table of a voice recognition card.
FIG. 3 is a diagram showing an example of a menu displayed on the display unit of the voice recognition card.
FIG. 4 is a flowchart for explaining details of a voice registration process for a voice recognition card.
FIG. 5 is a flowchart showing details of processing when transmitting registered command data.
FIG. 6 is a flowchart for explaining details of command reception processing by the vending machine;
FIG. 7 is a diagram for explaining the operation when a voice recognition card is applied to a vending machine.
FIG. 8 is a diagram for explaining the operation when a voice recognition card is applied to an auto-lock device.
[Explanation of symbols]
10 ... CPU,
11 ... Mike,
12 ... Keyboard,
13. Communication interface,
14 ... display part,
15 ... voice recognition unit,
16 ... Flash ROM,
17 ... Command table.
Claims (2)
この音声認識手段により認識された音声に対応する指令情報を音声とは異なる形態で他装置の機種別に登録する登録手段と、
前記指令情報を受信して対応する処理を実行する他装置への接近を示す情報を当該他装置から取得したときに、前記登録手段に登録された当該他装置の指令情報を当該他装置に送信する送信手段と、
を具備することを特徴とする音声指令端末装置。Speech recognition means for recognizing the input speech;
Registration means for registering the command information corresponding to the voice recognized by the voice recognition means for each device type in a form different from the voice;
Transmits information indicating access to another device that executes processing corresponding to receive the instruction information when acquired from the other device, the command information of the other devices that are registered in the registration unit to the other device Sending means to
A voice command terminal device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10504698A JP3728921B2 (en) | 1998-04-15 | 1998-04-15 | Voice command terminal device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10504698A JP3728921B2 (en) | 1998-04-15 | 1998-04-15 | Voice command terminal device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11296187A JPH11296187A (en) | 1999-10-29 |
JP3728921B2 true JP3728921B2 (en) | 2005-12-21 |
Family
ID=14397066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10504698A Expired - Fee Related JP3728921B2 (en) | 1998-04-15 | 1998-04-15 | Voice command terminal device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3728921B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104157055A (en) * | 2014-08-07 | 2014-11-19 | 成都信鑫信息技术有限公司 | Safe-guard door lock with remote warning function |
-
1998
- 1998-04-15 JP JP10504698A patent/JP3728921B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11296187A (en) | 1999-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4135307B2 (en) | Voice interpretation service method and voice interpretation server | |
CA2156610C (en) | Voice command control and verification system and method | |
US6601762B2 (en) | Point-of-sale (POS) voice authentication transaction system | |
US20130325474A1 (en) | Speech recognition adaptation systems based on adaptation data | |
JP2002073563A (en) | Device and method for providing safe access to service facility, and program product | |
CN107911386A (en) | Obtain the method and device of service authorization information | |
US20020007278A1 (en) | Speech activated network appliance system | |
JP2005203928A (en) | Information delivery system and method | |
JP3728921B2 (en) | Voice command terminal device | |
JPH09120293A (en) | System and method for recognizing speaker | |
KR20140011881A (en) | Remote control system through transfer of control right and method thereof | |
WO2020054002A1 (en) | Information processing device, user authentication network system, and user authentication method | |
KR101740402B1 (en) | Method and system for driving mobile application with using sonic signal | |
JP2002049591A (en) | System and method for personal authentication | |
CN112085506A (en) | Transaction method and device, terminal and readable storage medium | |
JPH10222750A (en) | Transaction processing system | |
JP3592415B2 (en) | Speaker recognition system | |
JP3506293B2 (en) | Speaker identification system | |
JP7254316B1 (en) | Program, information processing device, and method | |
JPH10301755A (en) | Operation guidance device | |
JP6700531B1 (en) | Authentication method, authentication system, smart speaker and program | |
JP2839524B2 (en) | Voice input system | |
KR100353424B1 (en) | Financial service system using a fingerprint identification and method thereof | |
JP7437927B2 (en) | Electronic money remittance system, program, sender terminal, server device, and electronic money remittance method | |
KR19990009682A (en) | Speaker recognition remote client account verification system and speaker verification method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050815 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050913 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050926 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081014 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091014 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091014 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101014 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101014 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111014 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111014 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121014 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121014 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131014 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |