JP2001067095A - Voice recognizing method and its device - Google Patents

Voice recognizing method and its device

Info

Publication number
JP2001067095A
JP2001067095A JP24325599A JP24325599A JP2001067095A JP 2001067095 A JP2001067095 A JP 2001067095A JP 24325599 A JP24325599 A JP 24325599A JP 24325599 A JP24325599 A JP 24325599A JP 2001067095 A JP2001067095 A JP 2001067095A
Authority
JP
Japan
Prior art keywords
voice
ambient noise
unit
user
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP24325599A
Other languages
Japanese (ja)
Inventor
Masami Naeshirozawa
正巳 苗代澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP24325599A priority Critical patent/JP2001067095A/en
Publication of JP2001067095A publication Critical patent/JP2001067095A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a voice recognizing method capable of identifying the voice of a user without being affected by ambient noise. SOLUTION: The voice of a user and dial information are previously memorized in a vocal telephone directory-memory part 19 and ambient noise, in an ambient noise-memory part 25. Also in use, the voice of the user and the ambient noise are inputted from a handset 9 and from a main-body microphone 26, respectively. A standard pattern reproducing part 22 finds differences between the voice of the user, registered previously and inputted in use, and the ambient noise, thereby reproducing net voice. Similar data in the vocal telephone directory-memory part 19 is determined and extracted by a similarity determining part 21, thereby ensuring voice recognition, and an automatic call can be made based on the registered dial information.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、純粋な音声情報を
用いて行う音声認識方法及びその装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition method and apparatus using pure speech information.

【0002】[0002]

【従来の技術】図7は、従来の音声認識装置のブロック
図を示し、図8は、この音声認識装置を用いて音声認識
するフローチャートを示し、図9は、この音声認識装置
の音声認識・メモリ部に音声情報を入力するフローチャ
ートを示すものである。
2. Description of the Related Art FIG. 7 is a block diagram of a conventional speech recognition apparatus, FIG. 8 is a flowchart of speech recognition using the speech recognition apparatus, and FIG. 5 shows a flowchart for inputting voice information to a memory unit.

【0003】図7、図8を用いて音声認識の動作を説明
する。
The operation of speech recognition will be described with reference to FIGS.

【0004】従来の音声認識は、予め音声情報を音声電
話帳・メモリ部19に記憶しておく。そして、使用者
が、その音声認識装置付き機器を使用する時に、音声入
力すると、この音声と前記音声電話帳・メモリ部19に
記憶されていた音声情報とを類似判定部21にて比較・
判定して、類似判定結果を得る仕様となっていた。
In the conventional voice recognition, voice information is stored in a voice telephone directory / memory unit 19 in advance. When the user inputs a voice when using the device with the voice recognition device, the similarity determination unit 21 compares the voice with the voice information stored in the voice telephone directory / memory unit 19.
It is a specification that makes a judgment and obtains a similarity judgment result.

【0005】フローで説明する。音声認識が開始される
(ステップ301)と、固定ガイダンスにて音声入力を
指示(ステップ302)し、音声入力される(ステップ
303)。次に、前記音声電話帳・メモリ部19に蓄積
されてあった音声情報を読み出し(ステップ304)、
類似判定部21で、前記入力された音声と比較・判定さ
れる(ステップ305)。
The operation will be described with reference to a flow chart. When voice recognition is started (step 301), voice input is instructed by fixed guidance (step 302), and voice input is performed (step 303). Next, the voice information stored in the voice telephone directory / memory unit 19 is read out (step 304).
The similarity determination unit 21 compares and determines with the input voice (step 305).

【0006】次に、電話帳・メモリ部19に音声情報を
記憶する方法としては、従来より、図9のフローで行わ
れる。音声登録を開始する(ステップ401)と、固定
ガイダンスにて、メモリ入力部より音声を入力するよう
指示する(ステップ402)。使用者は、音声を入力
(ステップ403)し、音声電話帳・メモリ部19に音
声情報として記憶する(ステップ404)のである。
Next, as a method of storing voice information in the telephone directory / memory unit 19, conventionally, a flow of FIG. 9 is used. When voice registration is started (step 401), an instruction to input voice from the memory input unit is issued by fixed guidance (step 402). The user inputs voice (step 403) and stores it as voice information in the voice telephone directory / memory unit 19 (step 404).

【0007】図11は、従来の音声認識機能付きボタン
電話システムの構成図を示している。1は、ボタン電話
装置を示しており、局線インタフェース部2、内線イン
タフェース部3、主電源部5及びこれらを制御するシス
テム制御部4で構成されている。6は、ボタン電話装置
1に接続されるボタン電話機であり、外部との通話を制
御する通話回路部8、入力部を備えたハンドセット9、
キー入力のためのキーマトリクス部10、LED表示部
11、LCD表示部12、子機電源部13、音声認識を
行う音声認識部20、入力部である本体マイク26、ス
ピーカ27及びこれらを制御する子機インタフェース部
7で構成されている。前記音声認識部20は、A/D変
換部17、固定ガイダンス・メモリ部18、音声電話帳
・メモリ部19、類似判定部21及びこれらを制御して
音声認識を行う音声認識制御部16で構成されている。
FIG. 11 shows a configuration diagram of a conventional key telephone system with a voice recognition function. Reference numeral 1 denotes a key telephone device, which comprises a central office interface unit 2, an extension interface unit 3, a main power supply unit 5, and a system control unit 4 for controlling these. Reference numeral 6 denotes a key telephone connected to the key telephone device 1, which includes a communication circuit unit 8 for controlling external communication, a handset 9 having an input unit,
A key matrix unit 10 for key input, an LED display unit 11, an LCD display unit 12, a slave unit power supply unit 13, a voice recognition unit 20 for performing voice recognition, a main unit microphone 26 as an input unit, a speaker 27, and control thereof. It is composed of a slave unit interface unit 7. The voice recognition unit 20 includes an A / D conversion unit 17, a fixed guidance / memory unit 18, a voice telephone directory / memory unit 19, a similarity determination unit 21, and a voice recognition control unit 16 that controls these to perform voice recognition. Have been.

【0008】ボタン電話システムの基本動作を説明す
る。ボタン電話機6をボタン電話装置1に接続すると、
内線インタフェース部3を介して主電源部5により、子
機電源部13に給電され、ボタン電話機6が使用可能と
なる。ボタン電話機6のハンドセット9がオフフックさ
れ、ダイヤルが押下されると、キーマトリクス部10に
よりダイヤル情報が検出され、子機インタフェース部
7、内線インタフェース部3を介して、システム制御部
4に伝達される。ダイヤル情報が局線通話を要求するも
のであれば、システム制御部4は局線インタフェース部
2と内線インタフェース部3の通話路を接続させ、通話
回路部8を介し、ハンドセット9による通話が可能とな
る。ハンズフリーの場合は、本体マイク26とスピーカ
27とによる通話が可能となる。さらに、システム制御
部4の制御によって、LED表示部11やLCD表示部
12に局線通話状態情報等を表示できるのである。すな
わち、ハンドセット9を取り上げて、ダイヤルを押せ
ば、通常の電話機として使用できるのである。
The basic operation of the key telephone system will be described. When the key telephone 6 is connected to the key telephone device 1,
Power is supplied to the slave unit power supply unit 13 by the main power supply unit 5 via the extension interface unit 3, and the key telephone 6 becomes usable. When the handset 9 of the key telephone 6 is off-hook and the dial is pressed, dial information is detected by the key matrix unit 10 and transmitted to the system control unit 4 via the slave unit interface unit 7 and the extension interface unit 3. . If the dial information is for requesting a local line call, the system control unit 4 connects the telephone line between the central line interface unit 2 and the extension interface unit 3, and enables a telephone call with the handset 9 via the telephone line circuit unit 8. Become. In the case of hands-free, a telephone call with the main unit microphone 26 and the speaker 27 becomes possible. Further, under the control of the system control unit 4, it is possible to display station line communication state information and the like on the LED display unit 11 and the LCD display unit 12. That is, if the user picks up the handset 9 and presses the dial, it can be used as a normal telephone.

【0009】この図11の具体的使用例として、次のよ
うになる。すなわち、使用時に、固定ガイダンス・メモ
リ部18に記憶されている「名前を言って下さい」の指
示に従って、ハンドセット9または、本体マイク26か
ら、例えば「スズキ」と音声入力した場合、音声認識制
御部16は、「スズキ」と認識して、音声電話帳・メモ
リ部19に登録されている情報の中から、「スズキ」に
関する情報を類似判定部21にて抽出する。そして、
「スズキA男」「スズキB子」…などの情報と番号とを
関連付けて、図10に示すようにLCD表示部12に表
示する。続けて、固定ガイダンス・メモリ部18の固定
ガイダンスにて、使用者に確認を促す(「相手は誰です
か?」)。使用者が、「1」と音声入力するか、または
キーマトリクス部10より「1」を入力すると、音声電
話帳・メモリ部19内のその音声情報(「スズキA
男」)と一緒に記憶されていたダイヤル情報(「045
−***−〇×△□」)をシステム制御部4に伝達し、
局線インタフェース部2を通じて、ダイヤル発信する様
に制御される。すなわち、電話をかけたい相手の名前を
音声入力すると、登録されているデータ(その名前と電
話番号)を表示し、使用者が音声やキー入力で承諾する
と、その電話番号先へ自動発呼するのである。
The following is a specific example of the use of FIG. In other words, when the voice is input as "Suzuki" from the handset 9 or the main unit microphone 26 in accordance with the instruction of "Please say your name" stored in the fixed guidance memory unit 18, the voice recognition control unit 16 recognizes “Suzuki”, and extracts information about “Suzuki” from the information registered in the voice telephone directory / memory unit 19 by the similarity determination unit 21. And
Information such as "Suzuki A man" and "Suzuki B child" are associated with numbers and displayed on the LCD display unit 12 as shown in FIG. Subsequently, the user is prompted for confirmation by the fixed guidance in the fixed guidance memory unit 18 ("Who is the other party?"). When the user voice-inputs "1" or "1" from the key matrix unit 10, the voice information ("Suzuki A") in the voice telephone directory / memory unit 19 is input.
Dial information (“045”) stored with the “man”
-***-〇 × △ □ ”) to the system controller 4.
It is controlled through the central office line interface unit 2 to make a dial call. That is, when the name of the other party to be called is input by voice, registered data (the name and the telephone number) is displayed, and when the user accepts by voice or key input, an automatic call is made to the telephone number. It is.

【0010】なお、機密保持より、電話番号を表示する
必要は無い。
[0010] It is not necessary to display the telephone number because of confidentiality.

【0011】[0011]

【発明が解決しようとする課題】しかし、前記従来の音
声認識機能付き電話装置では、登録時の周囲騒音を含む
音声入力によって音声電話帳・メモリ部19に音声情報
を記憶するため、周囲騒音が当然同時に入力されてしま
う。仮に、登録時は周囲雑音が無い状態であったとして
も、使用時にはうるさい雑踏の中にいた等、登録時の周
囲状態と使用時の周囲状態とが、同一になることは無
い。従って、使用時に、使用者の音声を正しく認識でき
ないという問題を有していた。
However, in the conventional telephone apparatus with a voice recognition function, voice information is stored in the voice telephone directory / memory unit 19 by voice input including the background noise at the time of registration. Of course, they are input at the same time. Even if there is no ambient noise at the time of registration, the surrounding state at the time of registration and the surrounding state at the time of use do not become the same, such as being in a noisy crowd at the time of use. Therefore, there is a problem that the voice of the user cannot be correctly recognized at the time of use.

【0012】本発明は、このような従来の問題を解決す
るものであり、確実に使用者の音声認識ができる優れた
音声認識方法及びその装置を提供することを目的とす
る。
An object of the present invention is to solve such a conventional problem, and an object of the present invention is to provide an excellent voice recognition method and apparatus which can surely recognize a user's voice.

【0013】[0013]

【課題を解決するための手段】前記問題を解決するため
に本発明の音声認識方法は、予め周囲騒音を記憶するこ
とにより、入力音声と前記周囲騒音との差分を求め、こ
の差分によって記憶手段に記憶された音声情報の中から
類似する音声を検索・抽出する方法である。
In order to solve the above-mentioned problem, a voice recognition method according to the present invention stores ambient noise in advance to obtain a difference between an input voice and the ambient noise, and stores the difference based on the difference. This is a method for searching and extracting similar voices from the voice information stored in the.

【0014】この方法により、周囲騒音を含む音声入力
から周囲騒音を除去した純粋音声を抽出して、予め記憶
手段に記憶させてある音声と比較・判定可能となり、周
囲騒音に影響されること無く、音声認識機能を向上させ
ることができるものである。
According to this method, a pure voice from which the ambient noise has been removed is extracted from the voice input including the ambient noise, and can be compared and determined with the voice stored in the storage means in advance, without being affected by the ambient noise. And a voice recognition function can be improved.

【0015】また、本発明の音声認識方法は、音声情報
として、予め周囲騒音を差し引いた音声を、記憶手段に
記憶させておく方法である。
The voice recognition method of the present invention is a method in which a voice from which ambient noise has been subtracted in advance is stored in a storage means as voice information.

【0016】この方法により、純粋な音声を基礎データ
として利用することが可能となる。
According to this method, pure speech can be used as basic data.

【0017】また、本発明の音声認識装置は、周囲騒
音、使用者の音声を入力する音声入力手段と、前記周囲
騒音のみを記憶する第1の記憶手段と、前記音声入力手
段から入力された使用者の音声と前記第1の記憶手段に
記憶された周囲騒音との差分を求める音声抽出手段と、
予め音声情報を記憶させた第2の記憶手段と、前記音声
抽出手段によって抽出された音声と前記第2の記憶手段
に記憶されていた音声情報と比較・判定する比較手段を
備えた構成である。
Further, the voice recognition device of the present invention has a voice input means for inputting ambient noise and a user's voice, a first storage means for storing only the ambient noise, and a voice input means for inputting from the voice input means. Voice extracting means for calculating a difference between the voice of the user and the ambient noise stored in the first storage means;
A second storage unit in which audio information is stored in advance, and a comparison unit that compares / determines the audio extracted by the audio extraction unit with the audio information stored in the second storage unit. .

【0018】この構成により、請求項1に記載された音
声認識方法を実現することが可能となり、電話装置、玄
関ドアの開錠などの応用することで、セキュリティ向上
が可能となる。
According to this configuration, the voice recognition method described in claim 1 can be realized, and security can be improved by applying a telephone device, an unlocking of a front door, and the like.

【0019】また、音声抽出手段は、音声入力手段から
入力された音声を記憶する第3の記憶手段を備え、前記
第1と第3の記憶手段の内容の差分を求めることをを特
徴とするものである。
Further, the voice extracting means includes a third storage means for storing the voice input from the voice input means, and obtains a difference between the contents of the first and third storage means. Things.

【0020】これにより、入力された音声を直接記憶
し、必要に応じて、記憶データの更新などにも利用可能
となる。
Thus, the input voice can be directly stored and can be used for updating the stored data as needed.

【0021】また、第2の記憶手段の音声情報として、
音声抽出手段より得られた音声を用いることを特徴とす
るものである。
Further, as the audio information of the second storage means,
It is characterized by using the voice obtained from the voice extracting means.

【0022】これにより、予め記憶された純粋な音声情
報と純粋な入力音声とを比較する音声認識装置が可能と
なる。
This makes it possible to provide a speech recognition device for comparing pure speech information stored in advance with pure input speech.

【0023】[0023]

【発明の実施の形態】以下、本発明の実施の形態につい
て、図1〜図6を用いて説明する。なお、従来例と同じ
構成のものは同一符号を付して説明を省略する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of the present invention will be described below with reference to FIGS. The same components as those in the conventional example are denoted by the same reference numerals, and description thereof is omitted.

【0024】図1は、第一の実施の形態の音声認識装置
における音声ダイヤル発信動作のブロック図を示し、図
2は、この音声認識装置を用いて音声認識するフローチ
ャートを示し、図3は、第一の実施の形態の音声認識装
置における音声ダイヤル登録動作のブロック図を示し、
図4のフローチャートを用いてその動作を説明する。図
5は、第一の実施の形態の音声認識機能付きボタン電話
システムの構成図を示し、図6は、第一の実施の形態の
音声認識機能付き単独電話機の構成図を示し、19は、
第2の記憶手段である音声電話帳・メモリ部である。従
来例の音声認識部20内に、さらに標準パターン再生部
22と、第1の記憶手段である周囲騒音・メモリ部25
を加えている。
FIG. 1 is a block diagram of a voice dial transmission operation in the voice recognition device of the first embodiment, FIG. 2 is a flowchart of voice recognition using this voice recognition device, and FIG. FIG. 4 shows a block diagram of a voice dial registration operation in the voice recognition device of the first embodiment,
The operation will be described with reference to the flowchart of FIG. FIG. 5 is a configuration diagram of a key telephone system with a voice recognition function according to the first embodiment. FIG. 6 is a configuration diagram of a single telephone with a voice recognition function according to the first embodiment.
It is a voice telephone directory / memory unit that is a second storage unit. A standard pattern reproducing unit 22 and an ambient noise / memory unit 25 serving as a first storage unit are further provided in the voice recognition unit 20 of the conventional example.
Is added.

【0025】図1、図2を用いて、第一の実施の形態の
音声認識の動作を説明する。
The operation of the speech recognition according to the first embodiment will be described with reference to FIGS.

【0026】最初に、周囲騒音のみを入力し、第1の記
憶手段である周囲騒音・メモリ部25に記憶する。次
に、標準パターン再生部22において、入力された使用
者の音声と前記周囲騒音・メモリ部25に記憶された周
囲騒音データとの差分の求め、この差分と予め第2の記
憶手段に記憶されていた音声情報とを類似判定部21に
て比較・判定して類似判定結果を得る仕様となってい
る。
First, only the ambient noise is input and stored in the ambient noise / memory section 25 as the first storage means. Next, in the standard pattern reproducing unit 22, a difference between the input user's voice and the ambient noise data stored in the ambient noise / memory unit 25 is obtained, and the difference is stored in the second storage unit in advance. The similarity determination unit 21 compares and determines the audio information that has been used, and obtains a similarity determination result.

【0027】フローで説明する。音声認識(音声ダイヤ
ル発信動作)が開始される(ステップ101)と、最初
に沈黙を指示(ステップ102)し、周囲騒音データを
入力(ステップ103)した後に、この周囲騒音データ
を第1の記憶手段である周囲騒音・メモリ部25に記憶
する(ステップ104)。続いて、使用者の音声入力を
要求(ステップ105)し、使用者から周囲騒音を含ん
だままで、音声入力される(ステップ106)と、標準
パターン再生部22において前記2つの差分を求める
(ステップ107)のである。そして、第2の記憶手段
である音声電話帳・メモリ部19に予め記憶されている
音声情報を呼び出し(ステップ108)て、この音声情
報と前記標準パターン再生部22で再生された音声と
を、類似判定部21において、繰り返して類似判定(ス
テップ109)し、同一データを抽出する(ステップ1
10)。そして、LCD表示部12に表示(ステップ1
11)し、固定ガイダンスにて、使用者に相手先を指定
させる(ステップ112)。使用者の指定内容に基づい
て、ダイヤル発信する(ステップ113)のである。ス
テップ112の表示データは、図7の様に従来例と同じ
である。
The operation will be described with reference to a flow chart. When voice recognition (voice dialing operation) is started (step 101), silence is first instructed (step 102), ambient noise data is input (step 103), and this ambient noise data is first stored. It is stored in the ambient noise / memory unit 25 (step 104). Subsequently, a voice input of the user is requested (step 105), and when the voice is input while the ambient noise is included from the user (step 106), the two differences are obtained in the standard pattern reproducing unit 22 (step 106). 107). Then, the voice information stored in advance in the voice telephone directory / memory section 19 as the second storage means is called (step 108), and the voice information and the voice reproduced by the standard pattern reproducing section 22 are called out. The similarity determination unit 21 repeatedly performs similarity determination (step 109) and extracts the same data (step 1).
10). Then, it is displayed on the LCD display section 12 (step 1).
11) Then, the user is caused to specify the destination by the fixed guidance (step 112). Dialing is performed based on the contents specified by the user (step 113). The display data in step 112 is the same as in the conventional example as shown in FIG.

【0028】以上のように、本発明の第一の実施の形態
によれば、周囲騒音のみ入力し、それを第1の記憶手段
である周囲騒音・メモリ部25に記憶する。この周囲騒
音・メモリ部25の周囲騒音データと使用者から入力さ
れた音声との差分を求め、この差分と前記音声電話帳・
メモリ部19の音声情報とを比較することにより、周囲
騒音の影響を受けることなく、確実に音声認識すること
ができる。
As described above, according to the first embodiment of the present invention, only the ambient noise is inputted and stored in the ambient noise / memory section 25 as the first storage means. The difference between the ambient noise data in the ambient noise / memory unit 25 and the voice input by the user is obtained, and this difference is compared with the voice telephone directory data.
By comparing the sound information with the sound information in the memory unit 19, the sound can be reliably recognized without being affected by the ambient noise.

【0029】さらに、本発明の第一の実施の形態では、
図5に示す様な、ボタン電話機を接続するボタン電話シ
ステムを例として説明しているが、図6に示す音声認識
機能付き単独電話機にも応用可能である。図6におい
て、23は各種の制御を行う制御部、25は周囲騒音記
憶手段である周囲騒音・メモリ部である。その他、玄関
ドアの開錠などのセキュリティ管理に関する物への応用
も可能である。
Further, in the first embodiment of the present invention,
Although a key telephone system for connecting a key telephone as shown in FIG. 5 is described as an example, the present invention is also applicable to a single telephone with a voice recognition function shown in FIG. In FIG. 6, reference numeral 23 denotes a control unit for performing various controls, and reference numeral 25 denotes an ambient noise / memory unit as ambient noise storage means. In addition, the present invention can be applied to items related to security management such as unlocking of a front door.

【0030】なお、機密保持のため、電話番号の表示を
しなくとも良い。また、該当するデータが無い場合、音
声認識できないが、通常の通話モードとして、使用可能
である。
It is not necessary to display the telephone number for security. If there is no corresponding data, voice recognition cannot be performed, but it can be used as a normal call mode.

【0031】その他、本発明に関連しない内容について
は、詳細な説明は避ける。
Other details not related to the present invention will not be described in detail.

【0032】図3、図4を用いて、第一の実施の形態の
音声認識に使用する音声登録の動作を説明する。
The operation of voice registration used for voice recognition according to the first embodiment will be described with reference to FIGS.

【0033】最初に、周囲騒音のみを入力し、第1の記
憶手段である周囲騒音・メモリ部25に記憶する。次
に、標準パターン再生部22において、入力された使用
者の音声と前記周囲騒音・メモリ部25に記憶された周
囲騒音データとの差分を求め、第2の記憶手段である音
声電話帳・メモリ部19に記憶する仕様となっている。
First, only the ambient noise is inputted and stored in the ambient noise / memory section 25 as the first storage means. Next, in the standard pattern reproducing unit 22, the difference between the input user's voice and the ambient noise data stored in the ambient noise / memory unit 25 is obtained, and the voice telephone directory / memory as the second storage unit is obtained. The specifications are stored in the unit 19.

【0034】フローで説明する。音声登録(音声ダイヤ
ル登録動作)が開始される(ステップ201)と、その
初めに、固定ガイダンス・メモリ部18により、使用者
に対し、しばらく沈黙するように指示する(ステップ2
02)。この使用者の発声の無い状態中に周囲騒音(周
囲騒音データ)を、ハンドセット9、または、本体マイ
ク26から入力(ステップ203)し、第1の記憶手段
である周囲騒音・メモリ部25に周囲騒音データとして
記憶する(ステップ204)。続いて、使用者の音声入
力を要求(ステップ205)し、使用者から周囲騒音を
含んだままで、音声入力される(ステップ206)と、
標準パターン再生部22において前記2つの差分を求
め、使用者の純粋音声を再生する(ステップ207)の
である。そして、再生された使用者の純粋音声を音声情
報として、第2の記憶手段である音声電話帳・メモリ部
19に記憶する(ステップ208)。固定ガイダンスに
て使用者の電話番号の入力を要求し(ステップ20
9)、使用者からの入力される(ステップ210)と、
音声電話帳・メモリ部19に前記音声情報と対応して前
記電話番号が記憶される(ステップ211)。この時、
勿論前記周囲騒音データと前記使用者の音声情報とは、
関連付けられて、記憶されるのである。
The operation will be described with reference to a flow chart. When voice registration (voice dial registration operation) is started (step 201), first, the fixed guidance memory unit 18 instructs the user to remain silent for a while (step 2).
02). While the user is not speaking, ambient noise (ambient noise data) is input from the handset 9 or the microphone 26 (step 203), and the ambient noise is stored in the ambient noise / memory unit 25 as the first storage unit. It is stored as noise data (step 204). Subsequently, a voice input of the user is requested (step 205), and voice input is performed while including the ambient noise from the user (step 206).
The standard pattern reproducing unit 22 calculates the difference between the two, and reproduces the pure voice of the user (step 207). Then, the reproduced pure voice of the user is stored as voice information in the voice telephone directory / memory unit 19 as the second storage means (step 208). The user is required to enter the telephone number in the fixed guidance (step 20).
9) When input from the user (step 210),
The telephone number is stored in the voice telephone directory / memory unit 19 in correspondence with the voice information (step 211). At this time,
Of course, the ambient noise data and the voice information of the user are:
It is associated and stored.

【0035】本発明の第二の実施の形態としては、請求
項4に記載されているように、周囲騒音含んだまま入力
される音声を記憶する第3の記憶手段を備え、登録時に
は、使用者からの音声入力をそのまま(周囲騒音を含ん
だまま)記憶し、発信時にも、入力された周囲騒音を含
む使用者の音声入力(第3の記憶手段に記憶される)と
周囲騒音(第1の記憶手段に記憶される)との差分を求
め、類似・判定する音声認識装置である。この場合、図
2のフローチャートでは、ステップ107は通らずに、
ステップ106→ステップ121→ステップ122→ス
テップ108となる。また、図4のフローチャートで
は、ステップ207は通らずに、ステップ206→ステ
ップ221→ステップ222→ステップ208となる。
According to a second embodiment of the present invention, as set forth in claim 4, there is provided a third storage means for storing a voice input while including ambient noise. The voice input from the user is stored as it is (including the ambient noise), and the user's voice input including the input ambient noise (stored in the third storage means) and the ambient noise (the (Stored in the first storage means) to determine the similarity and determine the similarity. In this case, in the flowchart of FIG.
Step 106 → step 121 → step 122 → step 108. In the flowchart of FIG. 4, step 206 is not performed and step 206 → step 221 → step 222 → step 208.

【0036】[0036]

【発明の効果】以上のように本発明は、周囲騒音のみを
入力し、第1の記憶手段に記憶し、入力された音声と前
記第1の記憶手段の周囲騒音データとの差分を求めるこ
とで、使用者の純粋な音声情報が得られ、これを利用し
て、音声認識を行うことが可能になるので、音声認識性
能の向上が可能となる。さらに、この音声認識装置を応
用することで、確実な音声ダイヤル発信ができるなど、
セキュリティ保護が可能となるという効果を有する。
As described above, according to the present invention, only the ambient noise is input and stored in the first storage means, and the difference between the input voice and the ambient noise data in the first storage means is obtained. Thus, pure voice information of the user is obtained, and it is possible to perform voice recognition using this, so that the voice recognition performance can be improved. Furthermore, by applying this voice recognition device, reliable voice dialing can be performed,
This has the effect of enabling security protection.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第一の実施の形態における音声認識装
置の音声ダイヤル発信動作を示すブロック図
FIG. 1 is a block diagram showing a voice dial transmission operation of a voice recognition device according to a first embodiment of the present invention.

【図2】本発明の第一の実施の形態における音声認識方
法の音声ダイヤル発信動作を示すフローチャート
FIG. 2 is a flowchart showing a voice dial transmission operation of the voice recognition method according to the first embodiment of the present invention.

【図3】本発明の第一の実施の形態における音声認識方
法の音声ダイヤル登録動作を示すブロック図
FIG. 3 is a block diagram showing a voice dial registration operation of the voice recognition method according to the first embodiment of the present invention.

【図4】本発明の第一の実施の形態における音声認識方
法の音声ダイヤル登録動作を示すフローチャート
FIG. 4 is a flowchart showing a voice dial registration operation of the voice recognition method according to the first embodiment of the present invention;

【図5】本発明の第一の実施の形態における音声認識機
能付きボタン電話システムの構成図
FIG. 5 is a configuration diagram of a key telephone system with a voice recognition function according to the first embodiment of the present invention.

【図6】本発明の第一の実施の形態における音声認識機
能付き単独電話機の構成図
FIG. 6 is a configuration diagram of a single telephone with a voice recognition function according to the first embodiment of the present invention.

【図7】音声認識機能付き電話機のおけるデータ表示の
一例を示す図
FIG. 7 is a diagram showing an example of data display on a telephone with a voice recognition function.

【図8】従来の音声認識動作のブロック図FIG. 8 is a block diagram of a conventional voice recognition operation.

【図9】従来の音声ダイヤル発信動作のフローチャートFIG. 9 is a flowchart of a conventional voice dialing operation;

【図10】従来の音声ダイヤル登録動作のフローチャー
FIG. 10 is a flowchart of a conventional voice dial registration operation.

【図11】従来の音声認識機能付きボタン電話システム
の構成図
FIG. 11 is a configuration diagram of a conventional key telephone system with a voice recognition function.

【符号の説明】[Explanation of symbols]

1 ボタン電話装置 2 局線インタフェース部 3 内線インタフェース部 4 システム制御部 5 主電源部 6 ボタン電話機 7 子機装置インタフェース部 8 通話回路部 9 ハンドセット 10 キーマトリクス部 11 LED表示部 12 LCD表示部 13 子機電源部 16 音声認識制御部 17 A/D変換部 18 固定ガイダンス・メモリ部 19 音声電話帳・メモリ部 20 音声認識部 21 類似判定部 22 標準パターン再生部 23 制御部 24 単独電話機 25 周囲騒音メモリ部 26 本体マイク 27 スピーカ DESCRIPTION OF SYMBOLS 1 Key telephone apparatus 2 Local line interface part 3 Extension interface part 4 System control part 5 Main power supply part 6 Key telephone 7 Child device interface part 8 Communication circuit part 9 Handset 10 Key matrix part 11 LED display part 12 LCD display part 13 Child Machine power supply unit 16 Voice recognition control unit 17 A / D conversion unit 18 Fixed guidance / memory unit 19 Voice telephone directory / memory unit 20 Voice recognition unit 21 Similarity determination unit 22 Standard pattern reproduction unit 23 Control unit 24 Single phone 25 Ambient noise memory Part 26 Body microphone 27 Speaker

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 予め周囲騒音を記憶することにより、入
力音声と前記周囲騒音との差分を求め、この差分によっ
て記憶手段に記憶された音声情報の中から類似する音声
を検索・抽出する音声認識方法。
1. A speech recognition for obtaining a difference between an input speech and the ambient noise by storing ambient noise in advance, and searching for and extracting a similar speech from speech information stored in a storage means based on the difference. Method.
【請求項2】 音声情報として、予め周囲騒音を差し引
いた音声を、記憶手段に記憶させておくことを特徴とす
る請求項1記載の音声認識方法。
2. The speech recognition method according to claim 1, wherein a speech from which ambient noise has been subtracted is stored in advance in the storage means as the speech information.
【請求項3】 周囲騒音、使用者の音声を入力する音声
入力手段と、前記周囲騒音のみを記憶する第1の記憶手
段と、前記音声入力手段から入力された使用者の音声と
前記第1の記憶手段に記憶された周囲騒音との差分を求
める音声抽出手段と、予め音声情報を記憶させた第2の
記憶手段と、前記音声抽出手段によって抽出された音声
と前記第2の記憶手段に記憶されていた音声情報と比較
・判定する比較手段を備えたことを特徴とする音声認識
装置。
3. A voice input unit for inputting ambient noise and a user's voice, a first storage unit for storing only the ambient noise, a user's voice input from the voice input unit, and the first voice. Voice extracting means for obtaining a difference from the ambient noise stored in the storing means, a second storing means storing voice information in advance, and a voice extracted by the voice extracting means and the second storing means. A speech recognition device comprising comparison means for comparing and judging stored speech information.
【請求項4】 音声抽出手段は、音声入力手段から入力
された音声を記憶する第3の記憶手段を備え、前記第1
と第3の記憶手段の内容の差分を求めることをを特徴と
する請求項3記載の音声認識装置。
4. The voice extracting means includes third storage means for storing voice input from the voice input means, and
4. A speech recognition apparatus according to claim 3, wherein a difference between the contents of the first and second storage means is obtained.
【請求項5】 第2の記憶手段の音声情報として、音声
抽出手段より得られた音声を用いることを特徴とする請
求項3記載の音声認識装置。
5. The speech recognition apparatus according to claim 3, wherein a speech obtained from the speech extraction means is used as the speech information of the second storage means.
JP24325599A 1999-08-30 1999-08-30 Voice recognizing method and its device Pending JP2001067095A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24325599A JP2001067095A (en) 1999-08-30 1999-08-30 Voice recognizing method and its device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24325599A JP2001067095A (en) 1999-08-30 1999-08-30 Voice recognizing method and its device

Publications (1)

Publication Number Publication Date
JP2001067095A true JP2001067095A (en) 2001-03-16

Family

ID=17101161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24325599A Pending JP2001067095A (en) 1999-08-30 1999-08-30 Voice recognizing method and its device

Country Status (1)

Country Link
JP (1) JP2001067095A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808030A (en) * 2019-11-22 2020-02-18 珠海格力电器股份有限公司 Voice awakening method, system, storage medium and electronic equipment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808030A (en) * 2019-11-22 2020-02-18 珠海格力电器股份有限公司 Voice awakening method, system, storage medium and electronic equipment

Similar Documents

Publication Publication Date Title
US8611508B2 (en) Method an apparatus for converting a voice signal received from a remote telephone to a text signal
US7058208B2 (en) Method and apparatus of managing information about a person
CA2019319C (en) Voice recognition dialing unit
KR100804855B1 (en) Method and apparatus for a voice controlled foreign language translation device
US5752230A (en) Method and apparatus for identifying names with a speech recognition program
KR20010020875A (en) Method and apparatus for controlling voice controlled devices
CN108196821A (en) Hand free device with the identification of continuous keyword
US6563911B2 (en) Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs
RU2187902C2 (en) Method and device for controlling input of speech recording inputs of voice identifying device for use in handset and in loudspeaker communication equipment
US6671354B2 (en) Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs, for telephones without private branch exchanges
KR20010020874A (en) Method and apparatus for standard voice user interface and voice controlled devices
JPH1117796A (en) Voice recognition telephony equipment
JP2001067095A (en) Voice recognizing method and its device
US20070286395A1 (en) Intelligent Multimedia Dial Tone
US20030210768A1 (en) Manual and automatic record feature in a telephone
KR20020020585A (en) System and method for managing conversation -type interface with agent and media for storing program source thereof
JP3916387B2 (en) Telephone response computer system, board and recording medium for realizing the function of the system
JP4232453B2 (en) Call voice text conversion system
JP3592415B2 (en) Speaker recognition system
KR100296986B1 (en) Abbreviated dialing method
KR100307028B1 (en) Method for managing speaker dependent type voice data in voice recognition telephone
JP2000138742A (en) Terminal device having telephone functions
JP2000216875A (en) Telephone system and voice response method
JP3975343B2 (en) Telephone number registration system, telephone, and telephone number registration method
JPH04165850A (en) Automatic answering telephone