JP2001100786A - Method and device for speech recognition, and storage medium - Google Patents

Method and device for speech recognition, and storage medium

Info

Publication number
JP2001100786A
JP2001100786A JP27437199A JP27437199A JP2001100786A JP 2001100786 A JP2001100786 A JP 2001100786A JP 27437199 A JP27437199 A JP 27437199A JP 27437199 A JP27437199 A JP 27437199A JP 2001100786 A JP2001100786 A JP 2001100786A
Authority
JP
Japan
Prior art keywords
vocabulary
speech recognition
voice
recognition
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP27437199A
Other languages
Japanese (ja)
Inventor
Kenichiro Nakagawa
賢一郎 中川
Tetsuo Kosaka
哲夫 小坂
Tsuyoshi Yagisawa
津義 八木沢
Katsuhiko Kawasaki
勝彦 川崎
Hiroki Yamamoto
寛樹 山本
Masaaki Yamada
雅章 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP27437199A priority Critical patent/JP2001100786A/en
Publication of JP2001100786A publication Critical patent/JP2001100786A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To prevent the repeat of erroneous recognition of the same vocabulary in speech recognition processing and to improve the recognition ratio of a voice inputted from a terminal connected through a network. SOLUTION: A penalty value is subtracted by a penalty value subtraction part 204 after the degree of similarity of an input speech is calculated by a calculation part 203, and a vocabulary to be outputted as the recognition result is selected in accordance with the result by parts 205 and 206.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、入力した音声を認
識する技術に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technique for recognizing input speech.

【0002】本発明は、音声が誤認識された時の処理に
関するものである。
[0002] The present invention relates to processing when speech is erroneously recognized.

【0003】本発明は、不特定話者の音声認識に関する
ものである。
[0003] The present invention relates to speech recognition of unspecified speakers.

【0004】[0004]

【従来の技術】不特定話者の音声を取り込み、認識対象
語彙と入力音声との類似度を算出し、この類似度に基づ
いて認識結果を出力する技術がある。また、このとき、
認識結果として複数の候補を出力する場合には、それら
を類似度順に並べてユーザに提示し、ユーザに音声また
はその他の入力手段によりその候補群から一つを選択さ
せる手法もある。
2. Description of the Related Art There is a technique in which a voice of an unspecified speaker is taken in, a similarity between a vocabulary to be recognized and an input voice is calculated, and a recognition result is output based on the similarity. At this time,
When a plurality of candidates are output as a recognition result, there is a method in which the candidates are arranged in order of similarity and presented to the user, and the user selects one from the candidate group by voice or other input means.

【0005】また、複数のクライアントから入力された
音声データを認識するシステムの場合は、マイク感度や
雑音のレベル、話者の特性を学習することにより、同じ
環境で入力された音声を処理する場合には認識率を向上
させることができる。
Further, in the case of a system for recognizing voice data input from a plurality of clients, a method for processing voice input in the same environment by learning microphone sensitivity, noise level, and speaker characteristics. Can improve the recognition rate.

【0006】[0006]

【発明が解決しようとする課題】音声認識技術は常に誤
ることなくユーザの意図する語彙を第1位の認識候補と
して選択するわけではない。ユーザが意図し、発声した
語彙が認識対象語彙中で最も高い類似度を得る(ここで
は第1位認識結果と呼ぶ)ことは保証されない。これ
は、ユーザの発声上の癖、周囲雑音、マイク特性、音声
認識システムの特性のためである。
The speech recognition technology does not always select the vocabulary intended by the user as the first recognition candidate without error. It is not guaranteed that the vocabulary intended and uttered by the user obtains the highest similarity in the vocabulary to be recognized (referred to herein as the first recognition result). This is due to the user's utterance habits, ambient noise, microphone characteristics, and characteristics of the speech recognition system.

【0007】このため、音声入力を用いた対話システム
では、ユーザ発声の認識結果が正しいかどうかをユーザ
自身が確認し、修正する必要がある。現在あるシステム
では、次のような手段を用いることが一般的である。 1.第N位までの認識結果を画面に表示し、ユーザはそ
の中からユーザの意図する語彙をボタン、タッチパネル
等で指示するか、或は語彙に付けて表示されている番号
を発声することにより、システムの側で音声認識してユ
ーザの意図する語彙を得る。 2.第1位〜第N位認識結果をシステムが音声合成して
読み上げ、それぞれの語彙ごとにユーザに確認をとる。
ユーザは音声の「はい」「いいえ」、ボタンなどで答え
る。 3.第N位までの認識結果を音声合成により先に全て読
み上げ、ユーザはその中からユーザの意図する語彙をボ
タン、タッチパネル等で指示するか、または語彙に付け
られた番号を発声することにより音声で入力する。
For this reason, in a dialogue system using voice input, it is necessary for the user himself to check whether or not the recognition result of the user's utterance is correct and correct it. In existing systems, the following means are generally used. 1. The recognition results up to the Nth position are displayed on the screen, and the user designates the vocabulary intended by the user with a button, a touch panel, or the like, or utters the number displayed with the vocabulary, The system recognizes the speech and obtains the vocabulary intended by the user. 2. The system synthesizes and reads the first to Nth recognition results, and asks the user for each vocabulary.
The user answers with voice “yes”, “no”, buttons, and the like. 3. The recognition results up to the Nth place are all read out first by speech synthesis, and the user designates the vocabulary intended by the user with a button, a touch panel, or the like, or utters a number assigned to the vocabulary, thereby producing a speech. input.

【0008】上記1の手法は、画面を用いて選択するこ
とが可能なため、ユーザは意図する語彙を高速に選択す
ることができる。しかし、画面を用いた端末が必要にな
るため、システムが高価なものになる。
In the first method, since the selection can be made using the screen, the user can quickly select the intended vocabulary. However, since a terminal using a screen is required, the system becomes expensive.

【0009】上記2、3の手法は、電話回線を用いたシ
ステムで一般的であり、携帯電話のように音声が出力さ
れる端末により操作することが可能である。更に、2の
手法はユーザの意図する語彙が認識結果の上位にあれ
ば、時間的損失が少なくてすむが、認識結果の下位の場
合、ユーザの意図する語彙が発声されるまでに長い時間
が必要となり、時間的な損失が大きくなる。しかも、認
識結果のN位に入っていない場合は、N個全てに「いい
え」と答えた後に、もう一度語彙を発声して再入力及び
再認識を行うため、ユーザへの負担は大きい。また、手
法2で特にN=1としたシステムも多い。これは語彙入
力、確認を繰り返すシステムであり、認識タスクが簡単
なものでは、ユーザへの負担が少なくなるが、難しい認
識タスクでは、先に述べた理由により、どうしてもうま
く入らない場合が生じる可能性が出てくる。
The above two and three methods are generally used in a system using a telephone line, and can be operated by a terminal such as a cellular phone which outputs sound. Furthermore, the second method requires less time loss if the vocabulary intended by the user is higher in the recognition result, but has a longer time until the vocabulary intended by the user is uttered in the lower case. Required and time loss is increased. In addition, when the recognition result does not fall in the N-th place, the vocabulary is spoken again to perform re-input and re-recognition after answering "No" to all N words, so that the burden on the user is large. In addition, there are many systems in which N = 1 in particular in Method 2. This is a system that repeats vocabulary input and confirmation. A simple recognition task will reduce the burden on the user, but a difficult recognition task may not be able to be entered properly for the reasons described above. Comes out.

【0010】3の手法は難しい認識タスクで有効である
が、ユーザは確認作業のため、長いシステムアナウンス
を聞かなくてはならない。N位までの認識結果にユーザ
の意図する語彙がなかった場合の、ユーザへの負担は手
法2と同様に大きい。
The third method is effective for difficult recognition tasks, but the user must listen to a long system announcement for confirmation. When there is no vocabulary intended by the user in the recognition results up to the N-th place, the burden on the user is as large as in Method 2.

【0011】また、音声認識処理は、一般的に非常に重
い処理であるため、高いスペックの計算機が必要とな
る。更に、ユーザが持ち歩く情報機器端末は、高スペッ
クよりもいかにコンパクトにするかという携帯性が求め
られる。インターネットブラウザといった、サーバと交
信できる最低限度のアプリケーションしか持たない携帯
型の情報機器端末も現れてきた。このことから、音声認
識処理はサーバに任せ、クライアントはそのデータ送受
信に勤めることが現実的である。
Also, the speech recognition processing is generally very heavy processing, and therefore requires a computer with high specifications. Further, information equipment terminals carried by users are required to be more portable than how high the specifications. Portable information device terminals, such as Internet browsers, having only a minimum number of applications that can communicate with servers have emerged. For this reason, it is realistic to leave the voice recognition processing to the server and the client to work on the data transmission and reception.

【0012】音声認識処理は、発話者のいる環境、発話
者の声に大きく影響を受けるため、不特定話者に対応し
た音声認識装置でも、発話者の声、発話者のいる雑音を
学習することにより、大きく性能が向上する。しかし、
音声認識システムが、何らかの回線で繋がったサーバと
多数のクライアントに分かれたシステムの場合、あるク
ライアントについて学習しても、その結果は他のクライ
アントで使用することができないため、クライアントが
サーバに接続するごとに学習をしなおすか、デフォルト
の学習結果をすべてのクライアントで保存、管理しなけ
ればならない。このため、音声認識サーバはクライアン
トを認証し、そのクライアントに適合した音声認識処理
を行うことが重要となる。
Since the speech recognition process is greatly affected by the environment in which the speaker is present and the voice of the speaker, even a speech recognition device corresponding to an unspecified speaker learns the voice of the speaker and noise in which the speaker is present. This greatly improves the performance. But,
If the speech recognition system is a system that is divided into a server and a number of clients connected by a certain line, even if learning about a certain client, the result cannot be used by other clients, so the client connects to the server. You have to relearn every time, or save and manage the default learning results for all clients. For this reason, it is important that the speech recognition server authenticates the client and performs a speech recognition process suitable for the client.

【0013】[0013]

【課題を解決するための手段】上記従来技術の課題を解
決するために、本発明は、音声を入力し、前記入力した
音声と辞書データとの類似度を求め、前記辞書データに
対応するペナルティ値を前記求めた類似度より引いてペ
ナルティ値を考慮した評価値を求め、前記評価値に基づ
いて前記入力音声の認識結果として出力する語彙を選択
する音声認識方法、装置及び記憶媒体を提供する。
SUMMARY OF THE INVENTION In order to solve the above-mentioned problems of the prior art, the present invention provides a method for inputting voice, obtaining a similarity between the input voice and dictionary data, and obtaining a penalty corresponding to the dictionary data. A speech recognition method, apparatus, and storage medium for obtaining an evaluation value in consideration of a penalty value by subtracting a value from the obtained similarity and selecting a vocabulary to be output as a recognition result of the input voice based on the evaluation value are provided. .

【0014】上記従来技術の課題を解決するために、本
発明は、好ましくは前記評価値が上位のものを前記認識
結果として出力する語彙として選択する。
[0014] In order to solve the above-mentioned problems of the prior art, the present invention preferably selects a word having a higher evaluation value as a vocabulary to be output as the recognition result.

【0015】上記従来技術の課題を解決するために、本
発明は、好ましくは前記選択した語彙が誤りであるか否
かを判定し、前記誤りと判定される場合は前記ペナルテ
ィ値を更新する。
In order to solve the above-mentioned problems of the prior art, the present invention preferably determines whether or not the selected vocabulary is incorrect, and updates the penalty value if it is determined that the selected vocabulary is incorrect.

【0016】上記従来技術の課題を解決するために、本
発明は、好ましくは前記ペナルティ値は、語彙毎に保持
した値とする。
In order to solve the above-mentioned problems of the prior art, according to the present invention, preferably, the penalty value is a value held for each vocabulary.

【0017】上記従来技術の課題を解決するために、本
発明は、好ましくは前記ペナルティ値の更新は、値を大
きくするものとする。
In order to solve the above-mentioned problem of the prior art, the present invention preferably updates the penalty value by increasing the value.

【0018】上記従来技術の課題を解決するために、本
発明は、好ましくは前記ペナルティ値は、認識処理を繰
り返す毎に小さい値に更新する。
In order to solve the above-mentioned problems of the prior art, the present invention preferably updates the penalty value to a smaller value each time the recognition process is repeated.

【0019】上記従来技術の課題を解決するために、本
発明は、好ましくは前記音声を、ネットワークを介して
入力する。
In order to solve the above-mentioned problem of the prior art, the present invention preferably inputs the voice via a network.

【0020】上記従来技術の課題を解決するために、本
発明は、好ましくは前記選択した語彙を出力する。
In order to solve the above-mentioned problems of the prior art, the present invention preferably outputs the selected vocabulary.

【0021】上記従来技術の課題を解決するために、本
発明は、好ましくは前記選択した語彙を、ネットワーク
を介して出力する。
In order to solve the above-mentioned problems of the prior art, the present invention preferably outputs the selected vocabulary via a network.

【0022】上記従来技術の課題を解決するために、本
発明は、好ましくは前記出力した語彙に対して、第一位
以外の語彙を選択する指示が入力された場合に、前記誤
りであると判定する。
In order to solve the above-mentioned problem of the prior art, the present invention is preferably configured such that, when an instruction to select a vocabulary other than the first place is input to the output vocabulary, the error is determined. judge.

【0023】上記従来技術の課題を解決するために、本
発明は、好ましくは前記指示はネットワークを介して入
力する。
In order to solve the above-mentioned problem of the prior art, the present invention preferably inputs the instruction via a network.

【0024】上記従来技術の課題を解決するために、本
発明は、好ましくは前記ネットワークを介して音声を送
ってきた端末の識別情報に従って、当該音声を認識する
時の処理を変える。
[0024] In order to solve the above-mentioned problems of the prior art, the present invention preferably changes the processing for recognizing the voice according to the identification information of the terminal that has transmitted the voice via the network.

【0025】上記従来技術の課題を解決するために、本
発明は、好ましくは前記ネットワークを介して音声を送
ってきた端末の識別情報に従って、当該音声を認識する
時に用いるパラメータを変える。
In order to solve the above-mentioned problems of the prior art, the present invention preferably changes parameters used for recognizing the voice according to the identification information of the terminal that has transmitted the voice via the network.

【0026】上記従来技術の課題を解決するために、本
発明は、好ましくは前記ネットワークを介して接続し得
る端末の識別情報と、その端末に適した音声認識に関す
る情報を保持する。
[0026] In order to solve the above-mentioned problems of the prior art, the present invention preferably holds identification information of a terminal connectable via the network and information relating to speech recognition suitable for the terminal.

【0027】上記従来技術の課題を解決するために、本
発明は、好ましくは前記保持した情報に従って、前記認
識時の処理を変える。
In order to solve the above-mentioned problems of the prior art, the present invention preferably changes the processing at the time of recognition in accordance with the stored information.

【0028】上記従来技術の課題を解決するために、本
発明は、好ましくは前記保持した情報に従って、前記認
識時のパラメータを変える。
In order to solve the above-mentioned problems of the prior art, according to the present invention, the parameters at the time of recognition are preferably changed according to the stored information.

【0029】上記従来技術の課題を解決するために、本
発明は、好ましくは前記ネットワークを介して音声を送
ってきた端末の識別情報が予め保持されていない場合
は、その識別情報と、その端末に適した音声認識に関す
る情報を新たに登録する。
In order to solve the above-mentioned problems of the prior art, the present invention is preferably arranged such that, when identification information of a terminal which has transmitted a voice via the network is not stored in advance, the identification information and the terminal New information relating to speech recognition suitable for is registered.

【0030】[0030]

【発明の実施の形態】図1は、本発明に係る音声認識装
置の機能構成図である。図1において、101、107
は電話、102、106は公衆網、103、108はマ
イク、104はスピーカ、105はディスプレイ画面、
109はボタン、201は音声認識装置である。
FIG. 1 is a functional block diagram of a speech recognition apparatus according to the present invention. In FIG. 1, 101, 107
Is a telephone, 102 and 106 are public networks, 103 and 108 are microphones, 104 is a speaker, 105 is a display screen,
Reference numeral 109 denotes a button, and 201 denotes a voice recognition device.

【0031】次に、音声認識装置(201)を構成する
各要素について説明する。マイク(103)、電話機
(101)から取り込まれたユーザの音声は、音声取り
込み部(202)から音声認識装置(201)に入り、
類似度算出部(203)で認識対象語彙のデータ(21
0)との類似度が算出される。この類似度はペナルティ
値減算部(204)で各認識語彙のペナルティ値(21
1)が引かれる。即ち、ペナルティ値が大きい程、類似
度のスコアを減少させることになる。そしてペナルティ
値を減算した類似度を大きい順に結果ソート部(20
5)でソートし、その上から順に1〜N位までの語彙を
認識の結果得た候補群としてユーザに文字情報でディス
プレイ画面(105)に出力するか、音声でスピーカ
(104)、ユーザと回線をつないでいる電話機(10
7)など出力することによりユーザにアナウンス(報
知)する。
Next, each element constituting the speech recognition apparatus (201) will be described. The voice of the user captured from the microphone (103) and the telephone (101) enters the voice recognition device (201) from the voice capturing unit (202).
The similarity calculation unit (203) uses the data (21
0) is calculated. The similarity is calculated by a penalty value subtracting unit (204).
1) is subtracted. That is, as the penalty value increases, the score of the similarity decreases. Then, the result sorting unit (20
5) and output the vocabulary from the top to the Nth order as a candidate group obtained as a result of recognition on the display screen (105) with character information or by voice to the speaker (104) and the user. Telephone connected to line (10
7) Announce (notify) to the user by outputting.

【0032】ユーザはこの認識結果を受け、出力された
N個の認識結果から、ユーザの意図する語彙を電話帳
(107)からの音声、プッシュボタン、マイク(10
8)、ディスプレイ画面に付随するボタン(109)、
タッチパネルなどにより選択する。これがシステムの音
声認識結果に対するユーザの認識処理となる。この確認
結果は誤認識検出部(207)に送られる。ここで音声
認識結果が誤認識だったかどうかを判定し、誤認識でな
かった場合はユーザの選択した語彙を、誤認識であった
場合はその旨を本音声認識装置の正式な認識結果として
結果出力部(209)から出力する。誤認識か否かの判
定は、ユーザの確認処理により第1位の候補が選択され
た場合には誤認識でない、それ以外の場合は誤認識、と
することにより行なう。
The user receives the recognition result and, based on the output N recognition results, inputs the vocabulary intended by the user from a voice from the telephone directory (107), a push button, a microphone (10).
8), buttons (109) attached to the display screen,
Select by touch panel. This is the user's recognition processing for the speech recognition result of the system. This confirmation result is sent to the misrecognition detection unit (207). Here, it is determined whether or not the speech recognition result is incorrect recognition. If not, the vocabulary selected by the user is determined as a result. Output from the output unit (209). The determination as to whether or not the recognition is erroneous is made by determining that the first candidate is selected by the user's confirmation processing, that no erroneous recognition is performed, otherwise, erroneous recognition is performed.

【0033】ユーザの確認結果はペナルティ値設定部
(208)にも送られる。ここでは、ユーザの確認結果
に従って、ペナルティ値データベース(211)に格納
するペナルティ値を更新する。
The result of the user's confirmation is also sent to the penalty value setting section (208). Here, the penalty value stored in the penalty value database (211) is updated according to the user's confirmation result.

【0034】図2は、本発明による音声認識方式のフロ
ーチャートである。ここでは、ユーザの発声する駅名を
認識し、その確認を取るシステムを例にして説明する。
FIG. 2 is a flowchart of the voice recognition system according to the present invention. Here, an example of a system that recognizes a station name spoken by a user and confirms the station name will be described.

【0035】システムが立ち上がると、認識対象語彙全
てに対応するpenalty(ペナルティ)配列を0で
初期化する(S101〜S103)。この値はペナルテ
ィ値に相当する。次にシステムは「駅名をどうぞ」とい
うアナウンスを出力(S104)することにより、ユー
ザに駅名の発声を促す。その後、ユーザが発声した音声
を取り込み(S105)、音声の認識処理を行う。
When the system starts up, the penalty arrays corresponding to all the recognition target words are initialized to 0 (S101 to S103). This value corresponds to a penalty value. Next, the system outputs an announcement “Please give me the station name” (S104) to prompt the user to say the station name. Thereafter, a voice uttered by the user is captured (S105), and a voice recognition process is performed.

【0036】まず、パラメータmax_ruijido
を−∞で初期化する(S106)。このパラメータは、
ペナルティ値を考慮した最大の類似度を保持する格納エ
リアであって、常にそれまでの最大値が入る変数であ
る。全ての認識対象語彙に対し、入力音声と認識対象語
彙との類似度を算出し(S108)、その値から各語彙
に対するペナルティ値を引いた数値を求める度にこのパ
ラメータの値と比較し、大きい方を選択して格納するこ
とによりペナルティ値を考慮した類似度が最大となる
“認識対象語彙[max]”を探し出す(S109〜S
111)。
First, the parameter max_ruijido
Is initialized with -∞ (S106). This parameter is
This is a storage area that holds the maximum similarity in consideration of the penalty value, and is a variable that always contains the maximum value up to that point. The degree of similarity between the input speech and the recognition target vocabulary is calculated for all the recognition target vocabularies (S108), and a value obtained by subtracting a penalty value for each vocabulary from the value is compared with the value of this parameter. The vocabulary [recognition target vocabulary [max] "that maximizes the similarity in consideration of the penalty value by selecting and storing the vocabulary is searched for (S109 to S109).
111).

【0037】次にその結果をユーザに確認する処理を行
う。システムアナウンスとして「“認識対象語彙[ma
x]”でよろしいですか?」と発声し(S112)、ユ
ーザに「はい」「いいえ」のボタンを押して指示させる
(S113)。S112で発声する語彙は、S110で
maxに格納した番号の語彙である。「いいえ」のボタ
ンが押されたならば、誤認識であったことになるため、
「認識失敗」とアナウンスし(S115)、そのS11
2で発声した認識語彙、即ちパラメータmaxに格納さ
れている値で特定される語彙にペナルティ値として1を
与える(S116)。S114で「はい」ボタンが押さ
れたと判定されるならば、認識は成功したとしてその認
識結果を再度アナウンスする(S117)。
Next, a process for confirming the result with the user is performed. As a system announcement, ""
x] "Is it OK?" (S112), and prompts the user by pressing the "Yes" or "No" button (S113). The vocabulary uttered in S112 is the vocabulary of the number stored in max in S110. If the "No" button is pressed, it is a misrecognition,
Announce "recognition failure" (S115), and the S11
A 1 is given as a penalty value to the recognized vocabulary uttered in 2, that is, the vocabulary specified by the value stored in the parameter max (S116). If it is determined in S114 that the "Yes" button has been pressed, the recognition is successful and the recognition result is announced again (S117).

【0038】最後に、全ての認識対象語彙に付随するペ
ナルティ値を更新する(S118〜S120)。実際に
は、各ペナルティ値をそれぞれ0.8倍している(S1
20)。これにより、誤認識した直後のペナルティ値は
0.8で、認識回数が増すにつれて0.8がかけ続けら
れるので、徐々に0に近づくようになっている。
Finally, the penalty values associated with all the words to be recognized are updated (S118 to S120). Actually, each penalty value is multiplied by 0.8 (S1
20). As a result, the penalty value immediately after erroneous recognition is 0.8, and the penalty value is continuously multiplied by 0.8 as the number of times of recognition increases, so that the value gradually approaches zero.

【0039】これらの処理が終わると、システムはユー
ザに終了するかどうかを問い(S121)、まだ続ける
のであれば駅名の発声を促すアナウンスを流す処理(S
104)まで戻る。
When these processes are completed, the system asks the user whether or not to end the process (S121). If the process is to be continued, an announcement prompting the utterance of the station name is issued (S121).
Return to 104).

【0040】次に、図3のフローチャートを用いて、上
述したような音声認識を用いた内線取り次ぎシステムサ
ーバの処理について説明する。
Next, the processing of the extension agent system server using the above-described speech recognition will be described with reference to the flowchart of FIG.

【0041】システムが立ち上がると、ペナルティ値デ
ータベースを0で初期化し(S301)、ユーザから電
話がかかってくるのを待つ(S302)。電話がかかっ
てくると、「誰におつなぎしましょう」とアナウンスを
流し(S303)、ユーザに人名の発声を促す(S30
4)。ここで取り込まれた音声は、認識対象語彙との類
似度(ruijido[i])を計算し、その語彙中で
ruijido[i]−penalty[i]が大きい
順に3つの語彙、i=max1,max2,max3を探
す(S305)。
When the system starts up, the penalty value database is initialized with 0 (S301), and waits for a call from the user (S302). When the call is received, an announcement is sent to "Who will you connect?" (S303), and the user is prompted to speak a personal name (S30).
4). The speech taken in here calculates the similarity (ruijido [i]) with the vocabulary to be recognized, and three vocabularies in the vocabulary in the descending order of ruijido [i] −penalty [i], i = max 1 , i = max 1 , Search for max 2 and max 3 (S305).

【0042】このでの1〜3位までの認識結果を音声合
成して出力することによりユーザに示し、ユーザが意図
する人名を選択させる。まず、予め用意してあるメッセ
ージの一部に“認識対象語彙[max i](i=1〜
3)”を挿入することにより、「“認識対象語彙[ma
1]”さんなら1と、“認識対象語彙[max2]”さ
んなら2と、“認識対象語彙[max3]”さんなら3
と、いない場合は4と発声して下さい。」というメッセ
ージを生成してシステムアナウンスを出力する(S30
6)。次にユーザの音声を取り込み(S307)、認識
対象語彙を「1」「2」「3」「4」としてS307で
取り込んだ音声がどの認識対象語彙に近いかという音声
認識処理を行う(S308)。
The recognition results of the first to third ranks are synthesized and output by voice to indicate to the user, and allow the user to select a desired person name. First, “a vocabulary to be recognized [max i] (i = 1 to
3) to insert ““ recognition target vocabulary [ma
x 1 ] ”is 1, 1 is“ recognition target vocabulary [max 2 ] ”, and 3 is “ recognition target vocabulary [max 3 ] ”.
If not, say 4. Is generated and a system announcement is output (S30).
6). Next, the user's voice is captured (S307), and the recognition target vocabulary is set to "1", "2", "3", or "4", and a voice recognition process is performed to determine which recognition target vocabulary is closer to the voice captured in S307 (S308). .

【0043】ここでの認識結果iが1〜3であれば、
“認識対象語彙[maxi]”さんに電話を転送し(S
309〜S311)、システムはペナルティ値初期化の
処理(S301)に戻り、ユーザの電話に対する待機状
態に戻る(S302)。認識結果iが4の場合、認識結
果は誤認識と判断し、認識結果となった認識語彙のペナ
ルティ値にその認識語彙の入力音声との類似度を代入す
る(S312)。そして、全ての認識対象語彙のペナル
ティ値を更新し、再びユーザに人名の発声を促す処理に
戻る(S303)。
If the recognition result i is 1 to 3,
A call is forwarded to “recognition target vocabulary [max i ]” (S
309 to S311), the system returns to the penalty value initialization process (S301), and returns to the standby state for the user's telephone (S302). If the recognition result i is 4, the recognition result is determined to be erroneous recognition, and the similarity with the input speech of the recognized vocabulary is substituted for the penalty value of the recognized vocabulary as the recognition result (S312). Then, the penalty values of all the recognition target vocabularies are updated, and the process returns to the process of prompting the user to speak a personal name again (S303).

【0044】次に、図4のフローチャートを用いて、上
述したような音声認識を用いて、駅名を入力するシステ
ムについて説明する。
Next, a system for inputting a station name by using the above-described voice recognition will be described with reference to the flowchart of FIG.

【0045】システムが立ち上がると、ペナルティ配列
を0で初期化する(S401〜S403)。次に駅名の
発声を促すアナウンスを流し(S404)、ユーザの発
声を取り込む(S405)。ここから駅名を認識対象語
彙とする音声認識処理を行うのだが、ペナルティ値が0
のものしか認識対象語彙としない(S408)。これに
より、認識にかかる処理を多少軽減することができる。
ペナルティ値が0の認識対象語彙は、入力音声との類似
度を算出する(S409)。ペナルティ値が0の認識対
象語彙の中で、最も類似度が高いものを1つ選び、それ
を認識結果とする(S406〜S412)。
When the system starts up, the penalty array is initialized with 0 (S401 to S403). Next, an announcement urging the utterance of the station name is played (S404), and the utterance of the user is taken in (S405). From here, speech recognition processing using the station name as the vocabulary to be recognized is performed, but the penalty value is 0.
Only the vocabulary for the word is recognized (S408). As a result, the processing for recognition can be reduced somewhat.
The recognition target vocabulary whose penalty value is 0 calculates the similarity with the input voice (S409). One of the vocabulary words having the highest similarity is selected from the recognition target vocabulary having the penalty value of 0, and the selected vocabulary is used as the recognition result (S406 to S412).

【0046】この認識結果をユーザにアナウンスで確認
する(S413)。ユーザは「はい」「いいえ」の音声
で答え(S414、S415)、「はい」であるなら認
識結果を再びアナウンスし(S416)、本処理を終了
する。「いいえ」である場合、認識結果である認識対象
語彙のペナルティ値を設定する。この値は、その認識結
果の類似度に10を掛けたものの整数部分とする(S4
17)。
The recognition result is confirmed to the user by an announcement (S413). The user answers with voices of “yes” and “no” (S414, S415), and if “yes”, announces the recognition result again (S416), and terminates this processing. If “No”, a penalty value of the recognition target vocabulary as a recognition result is set. This value is an integer part obtained by multiplying the similarity of the recognition result by 10 (S4
17).

【0047】ペナルティ値を設定すると、もう一度ユー
ザに駅名の発声を促すアナウンスを流し(S418)、
全体のペナルティ値の更新を行う(S419〜S42
3)。これは、ペナルティ値が0でないものに関して、
ペナルティ値を1ずつ減算する処理を行っている(S4
22)。
When the penalty value is set, an announcement to prompt the user to speak the station name is played again (S418),
The entire penalty value is updated (S419 to S42)
3). This means that for non-zero penalty values,
The penalty value is subtracted by one (S4).
22).

【0048】本システムにおいてペナルティ値は、ある
認識対象語彙が誤認識となってから、認識処理に加えな
い回数と考えることができる。
In the present system, the penalty value can be considered to be the number of times that a certain vocabulary to be recognized is not added to the recognition processing after the recognition error.

【0049】ここまで説明してきたシステムは、ユーザ
が電話を用いて音声認識機能を有する装置にアクセスし
て音声入力し、その入力音声の認識結果もユーザの電話
へ返すシステムであったが、ここからは何等かの回線で
結ばれたネットワーク(インターネット、LAN等)を
介してユーザの端末から音声認識サーバへ接続するシス
テムについて説明する。
The system described so far is a system in which a user accesses a device having a voice recognition function using a telephone and inputs a voice, and also returns a recognition result of the input voice to the user's telephone. A system for connecting a user terminal to a speech recognition server via a network (the Internet, a LAN, or the like) connected by some kind of line will be described.

【0050】図5は、そのようなシステムの構成を示す
図である。
FIG. 5 is a diagram showing the configuration of such a system.

【0051】この音声認識システムは、音声認識サーバ
(521)とそれにネットワークを介して接続された複
数の音声認識クライアント(501)からなる。
This speech recognition system comprises a speech recognition server (521) and a plurality of speech recognition clients (501) connected thereto via a network.

【0052】音声認識クライアント(501)はマイク
(502)などの音声取り込みデバイスからユーザの音
声波形を取り込み、音声波形送信部(503)によって
音声認識サーバ(521)に送られる。音声認識クライ
アントは直接音声認識処理を行うことはなく、音声を取
り込んで、その音声波形をネットワークで送信するのに
適当な形式に変形することしか行わない。その分、処理
が軽いため、処理性能があまり高くない環境でも動作が
可能である。
The voice recognition client (501) captures a user's voice waveform from a voice capture device such as a microphone (502), and sends the user's voice waveform to the voice recognition server (521) by the voice waveform transmission unit (503). The speech recognition client does not perform the speech recognition process directly, but only captures the speech and transforms the speech waveform into a form suitable for transmission over the network. Since the processing is light, the operation is possible even in an environment where the processing performance is not so high.

【0053】音声認識サーバ(521)はネットワーク
を介して得られた音声波形を音声認識する部分である。
ここでは、実際の音声認識を行う音声認識部(527)
とクライアント情報から音声認識に必要な音声認識パラ
メータを取得するクライアント管理部(522)に分か
れる。クライアントID取得部(523)では、ネット
ワークを介して得られた音声波形データに付属するクラ
イアントのIPアドレス、ポート番号から、各クライア
ントにユニークなIDを取得し、そのIDとクライアン
トデータベース(526)とを比較する。
The voice recognition server (521) is a part for voice-recognizing the voice waveform obtained via the network.
Here, a speech recognition unit (527) for performing actual speech recognition
And a client management unit (522) for acquiring speech recognition parameters necessary for speech recognition from the client information. The client ID acquisition unit (523) acquires a unique ID for each client from the IP address and port number of the client attached to the audio waveform data obtained via the network, and stores the ID and the client database (526). Compare.

【0054】ここでクライアントIDに対応するデータ
がクライアントデータベース中に存在した場合、以前に
そのクライアントからアクセスを受けたことになり、そ
のときに学習した音声認識パラメータを、音声認識パラ
メータ取得部(525)で取得する。もし、クライアン
トデータ中にクライアントIDに相当するデータが存在
しなかった場合、そのクライアントは音声認識サーバに
初めてアクセスしたと考えられ、音声認識パラメータを
学習し、クライアントデータベースにそのクライアント
IDと共に格納する。
If the data corresponding to the client ID exists in the client database, it means that the client has previously been accessed, and the speech recognition parameters learned at that time are input to the speech recognition parameter acquisition unit (525). ) To get. If there is no data corresponding to the client ID in the client data, it is considered that the client has accessed the voice recognition server for the first time, and the voice recognition parameters are learned and stored in the client database together with the client ID.

【0055】このようにして得られたクライアントの音
声認識パラメータは、音声波形と共に音声認識部(52
7)に送られ、音声認識処理が行われる。
The voice recognition parameters of the client obtained in this way are stored in the voice recognition unit (52) together with the voice waveform.
7) to perform voice recognition processing.

【0056】図6は、図5のシステムで実行される処理
を示すフローチャートである。
FIG. 6 is a flowchart showing the processing executed in the system of FIG.

【0057】音声認識クライアントは音声波形の取り込
み(S601)、その波形を音声認識サーバに送信する
(S602)。
The voice recognition client fetches a voice waveform (S601) and transmits the waveform to the voice recognition server (S602).

【0058】音声認識サーバは、クライアントからデー
タが送られてくる(S611)と、その送られてきたク
ライアントのIPアドレスやポート番号からクライアン
トIDを取得する(S612)。次に、クライアントデ
ータベースを検索し、もし取得されたクライアントID
に相当する音声認識パラメータがその中に存在するなら
ば(S613)、そのパラメータを取得する(S61
4)。無いのであれば、初めてアクセスしてきたクライ
アントとみなし、音声認識パラメータの学習を行い(S
615)、結果をクライアントデータベースに格納する
(S616)。これらの音声認識パラメータを用いて、
音声波形を認識し(S617)、認識結果をクライアン
トに送信する(S618)。
When data is transmitted from the client (S611), the voice recognition server acquires a client ID from the transmitted IP address and port number of the client (S612). Next, the client database is searched, and the obtained client ID is obtained.
If there is a voice recognition parameter corresponding to (S613), the parameter is acquired (S61).
4). If not, it is assumed that the client has accessed for the first time, and the speech recognition parameters are learned (S
615), and store the result in the client database (S616). Using these speech recognition parameters,
The voice waveform is recognized (S617), and the recognition result is transmitted to the client (S618).

【0059】音声認識クライアントは、音声認識サーバ
からの結果を表示し(S603)、処理を終了する。
The speech recognition client displays the result from the speech recognition server (S603), and ends the processing.

【0060】図8は、図5のシステムにおける図6とは
異なる処理例を示すフローチャートである。
FIG. 8 is a flowchart showing a processing example different from that of FIG. 6 in the system of FIG.

【0061】ここでのクライアントは、インターネット
に繋がったコンピュータと考えることができる。クライ
アントのソフトウェアはWebブラウザのプラグインと
してコンピュータにインストールする。このインストー
ル時にこのクライアント固有のIDを生成する。このI
Dはすべてのクライアント中でただ一つのものである必
要があり、マシンや、クライアントソフトウェアのシリ
アルNOや、IPアドレスなどから生成する。
The client here can be considered a computer connected to the Internet. The client software is installed on a computer as a Web browser plug-in. At the time of this installation, an ID unique to this client is generated. This I
D needs to be unique among all clients, and is generated from the machine, the serial number of the client software, the IP address, and the like.

【0062】ユーザがWebブラウザで音声認識サーバ
にアクセスすると、コンピュータに接続されたマイクに
よりユーザの音声を取り込み(S601)、プラグイン
がインストール時に作成したIDを取得し(S70
1)、音声波形と共にサーバに送信する(S703)。
ここで、サーバに送信する音声波形はマイクから取り込
んだ生の音声データとは限らず、音声認識に特化して圧
縮された音声データでもよい。また、「はい」「いい
え」のような、軽い処理で済む簡単な音声認識タスクで
あれば、音声認識サーバには送らず、このクライアント
のプラグインで音声認識を行ってしまってもよい。この
とき、音声波形をすべて取り込んでからサーバに一括し
て送信してもよいし、取り込まれた分だけ音声波形をリ
アルタイムに送信していってもよい。
When the user accesses the voice recognition server with a Web browser, the voice of the user is captured by a microphone connected to the computer (S601), and the ID created by the plug-in at the time of installation is acquired (S70).
1), is transmitted to the server together with the audio waveform (S703).
Here, the audio waveform transmitted to the server is not limited to the raw audio data captured from the microphone, but may be audio data compressed specifically for voice recognition. Further, if the task is a simple speech recognition task such as "yes" or "no" that requires only a small amount of processing, the speech recognition may not be sent to the speech recognition server but may be performed by the plug-in of this client. At this time, the entire audio waveform may be fetched and then transmitted to the server all at once, or the audio waveform may be transmitted in real time for the fetched amount.

【0063】音声認識サーバでは、クライアントからデ
ータが送られてくるのを常に監視しており(S61
1)、送られてくると、クライアントデータベースにそ
のクライアントIDがあるかどうか検索を行う(S61
2)。もし、クライアントデータベースにクライアント
IDが登録されていれば、その音声認識パラメータを取
得する(S613)。登録されていなければデフォルト
値を音声認識パラメータとして設定する(S616)。
これらの音声認識パラメータと音声波形を用い、音声認
識を行い(S614)、結果をクライアントに送信する
(S615)。
The voice recognition server constantly monitors the data sent from the client (S61).
1) When it is sent, a search is made to see if the client ID is present in the client database (S61).
2). If the client ID is registered in the client database, the voice recognition parameter is obtained (S613). If not registered, a default value is set as a voice recognition parameter (S616).
Voice recognition is performed using these voice recognition parameters and voice waveforms (S614), and the result is transmitted to the client (S615).

【0064】クライアントは、サーバへデータの送信
後、サーバから認識結果が返ってくるのを監視する(S
614)。結果が返ってくると、その結果をユーザに示
し(S615)、クライアントの処理を終える。
After transmitting the data to the server, the client monitors for the recognition result returned from the server (S).
614). When the result is returned, the result is shown to the user (S615), and the processing of the client ends.

【0065】サーバはクライアントへの結果の送信後、
そのクライアントに特有の音声認識パラメータを計算し
直す(S617)。具体的には、 1.音声波形中の最低パワーを算出し、その値を雑音レ
ベルとする。 2.音声波形中の最低パワーを算出し、その付近のパワ
ースペクトルを雑音パワースペクトルとする。 3.音声波形中の最高パワーを算出し、その値をマイク
感度レベルとする。 4.話者のクラスタリングを行い、その結果を話者情報
とする。 が考えられる。これらの音声認識パラメータは、そのク
ライアントIDと共にクライアントデータベースに格納
する(S618)。これにより一アクセス前の音声波形
から得られた音声認識パラメータを用いて音声認識を行
うことができるため、比較的クライアントの環境に適応
しやすい。
After the server sends the result to the client,
The speech recognition parameters unique to the client are calculated again (S617). Specifically, 1. The lowest power in the audio waveform is calculated, and the value is used as the noise level. 2. The lowest power in the speech waveform is calculated, and the power spectrum in the vicinity is set as the noise power spectrum. 3. The highest power in the audio waveform is calculated, and the calculated value is used as the microphone sensitivity level. 4. Speaker clustering is performed, and the result is used as speaker information. Can be considered. These voice recognition parameters are stored in the client database together with the client ID (S618). This makes it possible to perform speech recognition using the speech recognition parameters obtained from the speech waveform before one access, so that it is relatively easy to adapt to the environment of the client.

【0066】1の雑音レベル、3のマイク感度レベルを
用いることにより、音声/非音声判定のための閾値をク
ライアントの環境に応じて設定することができる。ま
た、2の雑音パワースペクトルを用い、Spectra
lSubtractionを行うことで、入力されたパ
ワースペクトルから雑音のないクリーンな音声波形を推
定することができる。4の話者情報を用いることで、そ
の話者に合った音響モデルを使用することができる。
By using the noise level of 1 and the microphone sensitivity level of 3, the threshold value for voice / non-voice determination can be set according to the client environment. In addition, Spectra using the noise power spectrum of 2
By performing lSubtraction, a clean speech waveform without noise can be estimated from the input power spectrum. By using the speaker information of No. 4, an acoustic model suitable for the speaker can be used.

【0067】一つのサーバに多数のクライアントが接続
する大規模な音声認識システムの場合、クライアントデ
ータベースが大きくなり過ぎてしまうことが考えられ
る。そのため、クライアントデータベースは最新の1万
件までしか登録しないようにしておけば、頻繁に使われ
るクライアントに対しては、クライアントデータを使用
する可能性が高くなり、過去に一度だけしか使用しなか
ったクライアントのクライアントデータは、早々にデー
タベースから消えることになる。
In the case of a large-scale speech recognition system in which many clients are connected to one server, the client database may be too large. Therefore, if only the latest 10,000 client databases are registered, the client data is more likely to be used for frequently used clients, and has been used only once in the past. The client's client data will quickly disappear from the database.

【0068】上述のようなシステムとすることにより、
音声認識システムがサーバと多数のクライアントに分け
れたシステムの場合でも、個々のクライアントに対応し
た音声認識パラメータを使用することができる。
By adopting the system as described above,
Even in the case where the speech recognition system is divided into a server and a large number of clients, speech recognition parameters corresponding to each client can be used.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明に係る音声認識装置の機能構成図FIG. 1 is a functional configuration diagram of a speech recognition device according to the present invention.

【図2】本発明に係る音声認識処理を示すフローチャー
FIG. 2 is a flowchart showing a speech recognition process according to the present invention.

【図3】内線取り次ぎシステムの処理を示すフローチャ
ート
FIG. 3 is a flowchart showing processing of an extension intermediary system.

【図4】駅名入力システムの処理を示すフローチャートFIG. 4 is a flowchart showing processing of a station name input system.

【図5】ネットワークを介してサーバとクライアントを
接続したシステムの構成図
FIG. 5 is a configuration diagram of a system in which a server and a client are connected via a network.

【図6】図5のシステムにおける第一の処理を示すフロ
ーチャート
FIG. 6 is a flowchart showing a first process in the system of FIG. 5;

【図7】図5のシステムにおける第二の処理を示すフロ
ーチャート
FIG. 7 is a flowchart showing a second process in the system of FIG. 5;

───────────────────────────────────────────────────── フロントページの続き (72)発明者 八木沢 津義 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 川崎 勝彦 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 山本 寛樹 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 山田 雅章 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 Fターム(参考) 5D015 AA02 HH05 KK02 LL02 LL04 LL05 LL07 LL12  ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Tsuyoshi Yagisawa 3-30-2 Shimomaruko, Ota-ku, Tokyo Within Canon Inc. (72) Inventor Katsuhiko Kawasaki 3-30-2 Shimomaruko, Ota-ku, Tokyo (72) Inventor Hiroki Yamamoto 3-30-2 Shimomaruko, Ota-ku, Tokyo Canon Inc. (72) Inventor Masaaki Yamada 3-30-2, Shimomaruko, Ota-ku, Tokyo Canon Inc. F term (reference) 5D015 AA02 HH05 KK02 LL02 LL04 LL05 LL07 LL12

Claims (51)

【特許請求の範囲】[Claims] 【請求項1】 音声を入力し、 前記入力した音声と辞書データとの類似度を求め、 前記辞書データに対応するペナルティ値を前記求めた類
似度より引いてペナルティ値を考慮した評価値を求め、 前記評価値に基づいて前記入力音声の認識結果として出
力する語彙を選択することを特徴とする音声認識方法。
1. A voice is input, a similarity between the input voice and dictionary data is obtained, and a penalty value corresponding to the dictionary data is subtracted from the obtained similarity to obtain an evaluation value in consideration of a penalty value. A speech recognition method comprising selecting a vocabulary to be output as a recognition result of the input speech based on the evaluation value.
【請求項2】 前記評価値が上位のものを前記認識結果
として出力する語彙として選択することを特徴とする請
求項1に記載の音声認識方法。
2. The speech recognition method according to claim 1, wherein a word having a higher evaluation value is selected as a vocabulary to be output as the recognition result.
【請求項3】 前記選択した語彙が誤りであるか否かを
判定し、 前記誤りと判定される場合は前記ペナルティ値を更新す
ることを特徴とする請求項1に記載の音声認識方法。
3. The speech recognition method according to claim 1, wherein it is determined whether or not the selected vocabulary is incorrect, and if the selected vocabulary is determined to be incorrect, the penalty value is updated.
【請求項4】 前記ペナルティ値は、語彙毎に保持した
値とすることを特徴とする請求項1に記載の音声認識方
法。
4. The speech recognition method according to claim 1, wherein the penalty value is a value held for each vocabulary.
【請求項5】 前記ペナルティ値の更新は、値を大きく
するものとすることを特徴とする請求項3に記載の音声
認識方法。
5. The speech recognition method according to claim 3, wherein the updating of the penalty value increases the value.
【請求項6】 前記ペナルティ値は、認識処理を繰り返
す毎に小さい値に更新することを特徴とする請求項1に
記載の音声認識方法。
6. The speech recognition method according to claim 1, wherein the penalty value is updated to a smaller value each time the recognition process is repeated.
【請求項7】 前記音声を、ネットワークを介して入力
することを特徴とする請求項1に記載の音声認識方法。
7. The speech recognition method according to claim 1, wherein the speech is input via a network.
【請求項8】 前記選択した語彙を出力することを特徴
とする請求項1に記載の音声認識方法。
8. The speech recognition method according to claim 1, wherein the selected vocabulary is output.
【請求項9】 前記選択した語彙を、ネットワークを介
して出力することを特徴とする請求項1に記載の音声認
識方法。
9. The speech recognition method according to claim 1, wherein the selected vocabulary is output via a network.
【請求項10】 前記出力した語彙に対して、第一位以
外の語彙を選択する指示が入力された場合に、前記誤り
であると判定することを特徴とする請求項3に記載の音
声認識方法。
10. The speech recognition according to claim 3, wherein, when an instruction to select a vocabulary other than the first vocabulary is input to the output vocabulary, the vocabulary is determined to be the error. Method.
【請求項11】 前記指示はネットワークを介して入力
することを特徴とする請求項10に記載の音声認識方
法。
11. The speech recognition method according to claim 10, wherein the instruction is input via a network.
【請求項12】 前記ネットワークを介して音声を送っ
てきた端末の識別情報に従って、当該音声を認識する時
の処理を変えることを特徴とする請求項7に記載の音声
認識方法。
12. The voice recognition method according to claim 7, wherein a process for recognizing the voice is changed according to the identification information of the terminal that has transmitted the voice via the network.
【請求項13】 前記ネットワークを介して音声を送っ
てきた端末の識別情報に従って、当該音声を認識する時
に用いるパラメータを変えることを特徴とする請求項7
に記載の音声認識方法。
13. The apparatus according to claim 7, wherein parameters used for recognizing the voice are changed according to the identification information of the terminal that has transmitted the voice via the network.
Voice recognition method described in.
【請求項14】 前記ネットワークを介して接続し得る
端末の識別情報と、その端末に適した音声認識に関する
情報を保持することを特徴とする請求項1に記載の音声
認識方法。
14. The speech recognition method according to claim 1, wherein identification information of a terminal connectable via the network and information relating to speech recognition suitable for the terminal are stored.
【請求項15】 前記保持した情報に従って、前記認識
時の処理を変えることを特徴とする請求項12に記載の
音声認識方法。
15. The speech recognition method according to claim 12, wherein the processing at the time of recognition is changed according to the held information.
【請求項16】 前記保持した情報に従って、前記認識
時のパラメータを変えることを特徴とする請求項13に
記載の音声認識方法。
16. The speech recognition method according to claim 13, wherein parameters for the recognition are changed according to the stored information.
【請求項17】 前記ネットワークを介して音声を送っ
てきた端末の識別情報が予め保持されていない場合は、
その識別情報と、その端末に適した音声認識に関する情
報を新たに登録することを特徴とする請求項12に記載
の音声認識方法。
17. If the identification information of the terminal that has transmitted the voice via the network is not stored in advance,
13. The speech recognition method according to claim 12, wherein the identification information and information relating to speech recognition suitable for the terminal are newly registered.
【請求項18】 音声を入力する入力手段と、 前記入力した音声と辞書データとの類似度を求める類似
度導出手段と、 前記辞書データに対応するペナルティ値を前記求めた類
似度より引いてペナルティ値を考慮した評価値を求る評
価値導出手段と、 前記評価値に基づいて前記入力音声の認識結果として出
力する語彙を選択する選択手段とを有することを特徴と
する音声認識装置。
18. An input unit for inputting a voice, a similarity deriving unit for obtaining a similarity between the input voice and the dictionary data, and a penalty value obtained by subtracting a penalty value corresponding to the dictionary data from the obtained similarity. A speech recognition apparatus comprising: an evaluation value deriving unit that obtains an evaluation value in consideration of a value; and a selection unit that selects a vocabulary to be output as a recognition result of the input speech based on the evaluation value.
【請求項19】 前記選択手段は、評価値が上位のもの
を前記認識結果として出力する語彙として選択すること
を特徴とする請求項18に記載の音声認識装置。
19. The speech recognition apparatus according to claim 18, wherein said selection means selects a word having a higher evaluation value as a vocabulary to be output as said recognition result.
【請求項20】 前記選択した語彙が誤りであるか否か
を判定する判定手段と、 前記判定手段により誤りと判定される場合は前記ペナル
ティ値を更新するペナルティ値更新手段とを有すること
を特徴とする請求項18に記載の音声認識装置。
20. A determination unit for determining whether or not the selected vocabulary is incorrect, and a penalty value updating unit for updating the penalty value when the determination unit determines that the word is incorrect. The speech recognition device according to claim 18, wherein:
【請求項21】 前記ペナルティ値を、語彙毎に保持す
る保持手段を有することを特徴とする請求項18に記載
の音声認識装置。
21. The speech recognition apparatus according to claim 18, further comprising a holding unit that holds the penalty value for each vocabulary.
【請求項22】 前記ペナルティ値更新手段は、値を大
きくするよう更新することを特徴とする請求項20に記
載の音声認識装置。
22. The speech recognition apparatus according to claim 20, wherein the penalty value updating unit updates the value so as to increase the value.
【請求項23】 前記ペナルティ値は、認識処理を繰り
返す毎に小さい値に更新することを特徴とする請求項2
1に記載の音声認識装置。
23. The method according to claim 2, wherein the penalty value is updated to a smaller value each time the recognition process is repeated.
2. The speech recognition device according to 1.
【請求項24】 前記入力手段は、ネットワークを介し
て音声を入力することを特徴とする請求項18に記載の
音声認識装置。
24. The speech recognition apparatus according to claim 18, wherein said input means inputs speech via a network.
【請求項25】 前記選択した語彙を出力する出力手段
を有することを特徴とする請求項18に記載の音声認識
装置。
25. The speech recognition apparatus according to claim 18, further comprising output means for outputting the selected vocabulary.
【請求項26】 前記選択した語彙を、ネットワークを
介して出力するネットワークへの出力手段を有すること
を特徴とする請求項18に記載の音声認識装置。
26. The speech recognition apparatus according to claim 18, further comprising output means for outputting the selected vocabulary via a network to a network.
【請求項27】 前記判定手段は、出力した語彙に対し
て、第一位以外の語彙を選択する指示が入力された場合
に、前記誤りであると判定することを特徴とする請求項
20に記載の音声認識装置。
27. The method according to claim 20, wherein the determination unit determines that the error is the error when an instruction to select a vocabulary other than the first vocabulary is input to the output vocabulary. The speech recognition device according to the above.
【請求項28】 前記指示はネットワークを介して入力
することを特徴とする請求項27に記載の音声認識装
置。
28. The speech recognition apparatus according to claim 27, wherein the instruction is input via a network.
【請求項29】 前記ネットワークを介して音声を送っ
てきた端末の識別情報に従って、当該音声を認識する時
の処理を変えるよう制御する制御手段を有することを特
徴とする請求項24に記載の音声認識装置。
29. The voice according to claim 24, further comprising control means for controlling a process for recognizing the voice in accordance with the identification information of the terminal which has transmitted the voice via the network. Recognition device.
【請求項30】 前記ネットワークを介して音声を送っ
てきた端末の識別情報に従って、当該音声を認識する時
に用いるパラメータを変える制御手段を有することを特
徴とする請求項24に記載の音声認識装置。
30. The speech recognition apparatus according to claim 24, further comprising control means for changing a parameter used for recognizing the speech in accordance with the identification information of the terminal that has sent the speech via the network.
【請求項31】 前記ネットワークを介して接続し得る
端末の識別情報と、その端末に適した音声認識に関する
情報を保持する認識情報保持手段とを有することを特徴
とする請求項18に記載の音声認識装置。
31. The voice according to claim 18, further comprising identification information of a terminal connectable via said network, and recognition information holding means for holding information relating to voice recognition suitable for the terminal. Recognition device.
【請求項32】 前記制御手段は、前記保持手段に保持
した情報に従って、前記認識時の処理を変えることを特
徴とする請求項29に記載の音声認識装置。
32. The speech recognition apparatus according to claim 29, wherein the control unit changes the processing at the time of the recognition in accordance with the information held in the holding unit.
【請求項33】 前記制御手段は、前記保持手段に保持
した情報に従って、前記認識時のパラメータを変えるこ
とを特徴とする請求項30に記載の音声認識装置。
33. The speech recognition apparatus according to claim 30, wherein the control unit changes the parameter at the time of the recognition according to the information held in the holding unit.
【請求項34】 前記ネットワークを介して音声を送っ
てきた端末の識別情報が予め保持されていない場合は、
その識別情報と、その端末に適した音声認識に関する情
報を新たに登録することを特徴とする請求項29に記載
の音声認識装置。
34. If the identification information of the terminal that has transmitted the voice via the network is not stored in advance,
30. The speech recognition apparatus according to claim 29, wherein the identification information and information relating to speech recognition suitable for the terminal are newly registered.
【請求項35】 音声を入力する為の制御プログラム
と、 前記入力した音声と辞書データとの類似度を求める為の
制御プログラムと、 前記辞書データに対応するペナルティ値を前記求めた類
似度より引いてペナルティ値を考慮した評価値を求める
為の制御プログラムと、 前記評価値に基づいて前記入力音声の認識結果として出
力する語彙を選択する為の制御プログラムとを記憶した
ことを特徴とするコンピュータにより読み取り可能な記
憶媒体。
35. A control program for inputting voice, a control program for obtaining a similarity between the input voice and dictionary data, and a penalty value corresponding to the dictionary data is subtracted from the obtained similarity. A control program for obtaining an evaluation value in consideration of a penalty value, and a control program for selecting a vocabulary to be output as a recognition result of the input voice based on the evaluation value. A readable storage medium.
【請求項36】 前記評価値が上位のものを前記認識結
果として出力する語彙として選択することを特徴とする
請求項35に記載のコンピュータにより読み取り可能な
記憶媒体。
36. The computer-readable storage medium according to claim 35, wherein a word having a higher evaluation value is selected as a vocabulary to be output as the recognition result.
【請求項37】 前記選択した語彙が誤りであるか否か
を判定する為の制御プログラムと、前記誤りと判定され
る場合は前記ペナルティ値を更新する為の制御プログラ
ムとを記憶したことを特徴とする請求項35に記載のコ
ンピュータにより読み取り可能な記憶媒体。
37. A control program for determining whether the selected vocabulary is incorrect, and a control program for updating the penalty value when the selected vocabulary is determined to be incorrect. A storage medium readable by a computer according to claim 35.
【請求項38】 前記ペナルティ値は、語彙毎に保持し
た値とすることを特徴とする請求項35に記載のコンピ
ュータにより読み取り可能な記憶媒体。
38. The computer-readable storage medium according to claim 35, wherein the penalty value is a value held for each vocabulary.
【請求項39】 前記ペナルティ値の更新は、値を大き
くするものとすることを特徴とする請求項37に記載の
コンピュータにより読み取り可能な記憶媒体。
39. The computer-readable storage medium according to claim 37, wherein the updating of the penalty value increases the value.
【請求項40】 前記ペナルティ値は、認識処理を繰り
返す毎に小さい値に更新することを特徴とする請求項3
5に記載のコンピュータにより読み取り可能な記憶媒
体。
40. The method according to claim 3, wherein the penalty value is updated to a smaller value each time the recognition process is repeated.
A storage medium readable by a computer according to claim 5.
【請求項41】 前記音声を、ネットワークを介して入
力することを特徴とする請求項35に記載のコンピュー
タにより読み取り可能な記憶媒体。
41. The computer-readable storage medium according to claim 35, wherein the voice is input via a network.
【請求項42】 前記選択した語彙を出力する為の制御
プログラムを記憶したことを特徴とする請求項35に記
載のコンピュータにより読み取り可能な記憶媒体。
42. The computer-readable storage medium according to claim 35, wherein a control program for outputting the selected vocabulary is stored.
【請求項43】 前記選択した語彙を、ネットワークを
介して出力する為の制御プログラムを記憶したことを特
徴とする請求項35に記載のコンピュータにより読み取
り可能な記憶媒体。
43. The computer-readable storage medium according to claim 35, wherein a control program for outputting the selected vocabulary via a network is stored.
【請求項44】 前記出力した語彙に対して、第一位以
外の語彙を選択する指示が入力された場合に、前記誤り
であると判定する為の制御プログラムを記憶したことを
特徴とする請求項37に記載のコンピュータにより読み
取り可能な記憶媒体。
44. A control program for determining an error when an instruction to select a vocabulary other than the first vocabulary is input to the output vocabulary. Item 38. A computer-readable storage medium according to Item 37.
【請求項45】 前記指示はネットワークを介して入力
することを特徴とする請求項44に記載のコンピュータ
により読み取り可能な記憶媒体。
45. The computer-readable storage medium according to claim 44, wherein the instruction is input via a network.
【請求項46】 前記ネットワークを介して音声を送っ
てきた端末の識別情報に従って、当該音声を認識する時
の処理を変える為の制御プログラムを記憶したことを特
徴とする請求項41に記載のコンピュータにより読み取
り可能な記憶媒体。
46. The computer according to claim 41, wherein a control program for changing a process of recognizing the voice according to the identification information of the terminal that has transmitted the voice via the network is stored. Storage medium readable by.
【請求項47】 前記ネットワークを介して音声を送っ
てきた端末の識別情報に従って、当該音声を認識する時
に用いるパラメータを変える為の制御プログラムを記憶
したことを特徴とする請求項44に記載のコンピュータ
により読み取り可能な記憶媒体。
47. The computer according to claim 44, wherein a control program for changing a parameter used for recognizing the voice according to the identification information of the terminal that has transmitted the voice via the network is stored. Storage medium readable by.
【請求項48】 前記ネットワークを介して接続し得る
端末の識別情報と、その端末に適した音声認識に関する
情報を読み出して用いる為の制御プログラムを記憶した
ことを特徴とする請求項35に記載のコンピュータによ
り読み取り可能な記憶媒体。
48. The apparatus according to claim 35, wherein identification information of a terminal connectable via the network and a control program for reading and using information relating to speech recognition suitable for the terminal are stored. Computer readable storage medium.
【請求項49】 前記保持した情報に従って、前記認識
時の処理を変えることを特徴とする請求項46に記載の
コンピュータにより読み取り可能な記憶媒体。
49. The computer-readable storage medium according to claim 46, wherein the processing at the time of recognition is changed according to the stored information.
【請求項50】 前記保持した情報に従って、前記認識
時のパラメータを変えることを特徴とする請求項47に
記載のコンピュータにより読み取り可能な記憶媒体。
50. The computer-readable storage medium according to claim 47, wherein the parameter at the time of recognition is changed according to the stored information.
【請求項51】 前記ネットワークを介して音声を送っ
てきた端末の識別情報が予め保持されていない場合は、
その識別情報と、その端末に適した音声認識に関する情
報を新たに登録する為の制御プログラムを記憶したこと
を特徴とする請求項46に記載のコンピュータにより読
み取り可能な記憶媒体。
51. When the identification information of the terminal that has transmitted the voice via the network is not stored in advance,
47. The computer-readable storage medium according to claim 46, wherein a control program for newly registering the identification information and information relating to speech recognition suitable for the terminal is stored.
JP27437199A 1999-09-28 1999-09-28 Method and device for speech recognition, and storage medium Withdrawn JP2001100786A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27437199A JP2001100786A (en) 1999-09-28 1999-09-28 Method and device for speech recognition, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27437199A JP2001100786A (en) 1999-09-28 1999-09-28 Method and device for speech recognition, and storage medium

Publications (1)

Publication Number Publication Date
JP2001100786A true JP2001100786A (en) 2001-04-13

Family

ID=17540735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27437199A Withdrawn JP2001100786A (en) 1999-09-28 1999-09-28 Method and device for speech recognition, and storage medium

Country Status (1)

Country Link
JP (1) JP2001100786A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006505002A (en) * 2002-11-02 2006-02-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Speech recognition method and system
JP2007004054A (en) * 2005-06-27 2007-01-11 Nissan Motor Co Ltd Voice interactive device and voice understanding result generation method
JP2008116560A (en) * 2006-11-01 2008-05-22 Nissan Motor Co Ltd Voice interactive apparatus and voice understanding result generating method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006505002A (en) * 2002-11-02 2006-02-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Speech recognition method and system
JP2007004054A (en) * 2005-06-27 2007-01-11 Nissan Motor Co Ltd Voice interactive device and voice understanding result generation method
JP4635743B2 (en) * 2005-06-27 2011-02-23 日産自動車株式会社 Spoken dialogue apparatus and speech understanding result generation method
JP2008116560A (en) * 2006-11-01 2008-05-22 Nissan Motor Co Ltd Voice interactive apparatus and voice understanding result generating method

Similar Documents

Publication Publication Date Title
CN110310623B (en) Sample generation method, model training method, device, medium, and electronic apparatus
US9443527B1 (en) Speech recognition capability generation and control
KR101622111B1 (en) Dialog system and conversational method thereof
US10930277B2 (en) Configuration of voice controlled assistant
USRE41080E1 (en) Voice activated/voice responsive item locater
US7791471B2 (en) Item locator system utilizing item and location bar codes
US7689417B2 (en) Method, system and apparatus for improved voice recognition
JP3968133B2 (en) Speech recognition dialogue processing method and speech recognition dialogue apparatus
CN1655235B (en) Automatic identification of telephone callers based on voice characteristics
CN110998720A (en) Voice data processing method and electronic device supporting the same
WO2019046026A1 (en) Context-based device arbitration
WO2016194740A1 (en) Speech recognition device, speech recognition system, terminal used in said speech recognition system, and method for generating speaker identification model
US20040210442A1 (en) Voice activated, voice responsive product locator system, including product location method utilizing product bar code and product-situated, location-identifying bar code
CN106558307A (en) Intelligent dialogue processing equipment, method and system
KR20190001434A (en) System and device for selecting a speech recognition model
KR20010108402A (en) Client-server speech recognition
CN109378006A (en) A kind of striding equipment method for recognizing sound-groove and system
CN104168353A (en) Bluetooth earphone and voice interaction control method thereof
WO2005004111A1 (en) Method for controlling a speech dialog system and speech dialog system
CN110308886A (en) The system and method for voice command service associated with personalized task are provided
US20030135371A1 (en) Voice recognition system method and apparatus
US20010056345A1 (en) Method and system for speech recognition of the alphabet
JP2001100786A (en) Method and device for speech recognition, and storage medium
KR20210029354A (en) Electronice device and control method thereof
US20220161131A1 (en) Systems and devices for controlling network applications

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20061205