JP3473704B2 - Voice recognition device - Google Patents

Voice recognition device

Info

Publication number
JP3473704B2
JP3473704B2 JP02738093A JP2738093A JP3473704B2 JP 3473704 B2 JP3473704 B2 JP 3473704B2 JP 02738093 A JP02738093 A JP 02738093A JP 2738093 A JP2738093 A JP 2738093A JP 3473704 B2 JP3473704 B2 JP 3473704B2
Authority
JP
Japan
Prior art keywords
word
voice
unit
recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP02738093A
Other languages
Japanese (ja)
Other versions
JPH06222790A (en
Inventor
浩明 小川
和夫 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP02738093A priority Critical patent/JP3473704B2/en
Publication of JPH06222790A publication Critical patent/JPH06222790A/en
Application granted granted Critical
Publication of JP3473704B2 publication Critical patent/JP3473704B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、音声を認識する場合に
用いて好適な音声認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus suitable for recognizing speech.

【0002】[0002]

【従来の技術】従来の音声認識装置は、大きく分けて、
発話者が発声した音声から、例えば単語(語彙)をワー
ドスポッティングする音声認識部と、音声認識部におけ
るワードスポッティングの結果得られた単語候補列を、
あらかじめ用意された、例えば構文情報などを用いて、
文単位で構文解析する解析部とから構成される。
2. Description of the Related Art Conventional speech recognition devices are roughly classified into
From a voice uttered by a speaker, for example, a speech recognition unit that word-spots a word (vocabulary), and a word candidate string obtained as a result of word spotting in the speech recognition unit,
Using the prepared syntax information, for example,
It is composed of a parsing unit for parsing sentence by sentence.

【0003】このように構成される音声認識装置におい
ては、解析部が音声認識部にワードスポッティングする
単語を要求すると、音声認識部において、発話者が発声
した音声から、その単語がワードスポッティングされ、
解析部に出力される。解析部においては、構文情報を用
いて、音声認識部におけるワードスポッティングの結果
得られた単語候補列が文単位で構文解析される。
In the speech recognition apparatus having such a configuration, when the analysis unit requests the speech recognition unit for a word to be spotted, the speech recognition unit performs word spotting on the voice uttered by the speaker.
It is output to the analysis unit. In the analysis unit, the word candidate string obtained as a result of the word spotting in the speech recognition unit is syntactically analyzed in sentence units using the syntax information.

【0004】そして、その構文解析結果に基づいて、ワ
ードスポッティング結果としての単語候補列から、誤っ
た単語候補を除き、正しい文(文章)が得られるように
なされている。
Then, based on the result of the syntactic analysis, a correct sentence (sentence) is obtained from the word candidate string as the word spotting result by removing the incorrect word candidate.

【0005】[0005]

【発明が解決しようとする課題】ところで、従来の音声
認識装置では、解析部より音声認識部にワードスポッテ
ィング処理要求された単語数が多い場合、音声認識部
が、発話者の発話終了時までに、その単語すべてのスポ
ッティング処理を行うことができないときがあった。
By the way, in the conventional voice recognition apparatus, when the number of words for which the word spotting processing is requested by the voice recognition unit is larger than that by the analysis unit, the voice recognition unit is required to finish the speech by the speaker. , There were times when I couldn't do the spotting process for all that word.

【0006】従って、この場合、入力された音声に対す
る応答が遅れる課題があった。
Therefore, in this case, there is a problem that the response to the input voice is delayed.

【0007】そこで、音声認識部に、解析部よりワード
スポッティング処理要求のあった単語のうちの一部の単
語のスポッティング処理を保留させる方法がある。
Therefore, there is a method in which the speech recognition unit suspends the spotting processing of some of the words for which the word spotting processing request has been made by the analysis unit.

【0008】しかしながら、この方法では、解析部が必
要とする単語のスポッティング処理が行われず、やはり
入力された音声に対する応答が遅れる場合があった。
However, according to this method, the spotting process of words required by the analysis unit is not performed, and the response to the input voice may be delayed.

【0009】本発明は、このような状況に鑑みてなされ
たものであり、装置の応答速度を向上させるものであ
る。
The present invention has been made in view of such a situation, and improves the response speed of the apparatus.

【0010】[0010]

【課題を解決するための手段】本発明の音声認識装置
は、音声を認識する認識手段としてのワードスポッティ
ング処理部4と、ワードスポッティング処理部4に、音
声中からの単語の音声認識処理を依頼するとともに、ワ
ードスポッティング処理部4の認識結果を解析し、音声
を理解する解析手段としての構文解析部5とを備え、構
文解析部5は、音声認識処理する優先度を単語に付加し
て、ワードスポッティング処理部4に供給し、ワードス
ポッティング処理部4は、音声認識処理する単語の単語
数を、単語の優先度または自身の音声認識処理能力に基
づいて変更し、単語の優先度に基づいて、音声中からの
単語の音声認識処理を行うことを特徴とする。
A speech recognition apparatus according to the present invention requests a word spotting processing section 4 as a recognition means for recognizing a speech and the word spotting processing section 4 to perform speech recognition processing of a word in a speech. In addition, the word spotting processing unit 4 is provided with a syntactic analysis unit 5 as an analyzing means for analyzing the recognition result and understanding the speech, and the syntactic analysis unit 5 adds a priority of speech recognition processing to the word, The word spotting processing unit 4 supplies the word spotting processing unit 4, and the word spotting processing unit 4 supplies the word
Based on word priority or your own speech recognition throughput.
Modify Zui, based on the word priority, and performs a speech recognition process words from in the speech.

【0011】この音声認識装置は、音声の音声区間を検
出する検出手段としての音声区間検出部3をさらに備え
ることができ、ワードスポッティング処理部4に、音声
区間中と音声区間終了後とで、単語の優先度に基づい
て、音声中から音声認識する単語を変更させることがで
きる。
The speech recognition apparatus can further include a speech section detection unit 3 as a detection means for detecting the speech section of the speech, and the word spotting processing unit 4 can detect the speech section during and after the speech section. Based on the priority of the word, the word to be recognized in the voice can be changed.

【0012】さらに、この音声認識装置は、構文解析部
5に、ワードスポッティング処理部4の認識結果の解析
結果に基づいて、単語の優先度を変更させることができ
る。
Further, this speech recognition apparatus can cause the syntax analysis unit 5 to change the priority of words based on the analysis result of the recognition result of the word spotting processing unit 4.

【0013】[0013]

【0014】[0014]

【作用】上記構成の音声認識装置においては、ワードス
ポッティング処理部4が、音声認識処理する単語の単語
数を、構文解析部5により付加された単語の優先度また
は自身の音声認識処理能力に基づいて変更し、さらに、
単語優先度に基づいて、音声中からの単語の音声認識
処理を行う。従って、入力された音声に対する応答処理
の迅速化を図ることができる。
In the speech recognition apparatus having the above-described structure, the word spotting processing unit 4 causes the words of the words to be speech-recognized
The number is the priority of the word added by the syntax analysis unit 5 or
Changes based on its own speech recognition processing capability, and
Based on the priority of the word, the speech recognition process of the word in the voice is performed. Therefore, it is possible to speed up the response process to the input voice.

【0015】ワードスポッティング処理部4に、音声区
間中と音声区間終了後とで、単語の優先度に基づいて、
音声中から音声認識する単語を変更させることができる
場合においては、例えば音声区間終了後には、優先度の
最も高い単語だけの音声認識処理を行うようにすること
ができるので、装置のリアルタイム性を向上させること
ができる。
In the word spotting processing unit 4, the word spotting processing unit 4 is based on the priority of the word during the voice section and after the end of the voice section.
In the case where the word to be recognized by voice can be changed from the voice, for example, after the end of the voice section, it is possible to perform the voice recognition process only for the word with the highest priority. Can be improved.

【0016】構文解析部5に、ワードスポッティング処
理部4の認識結果の解析結果に基づいて、単語の優先度
を変更させることができる場合においては、入力された
音声に対する応答処理の迅速化をさらに図ることができ
る。
In the case where the syntactic analysis unit 5 can change the priority of the word based on the analysis result of the recognition result of the word spotting processing unit 4, the response processing to the inputted voice is further speeded up. Can be planned.

【0017】[0017]

【0018】[0018]

【実施例】図1は、本発明の音声認識装置を応用した外
部機器コントローラの一実施例の構成を示すブロック図
である。この外部機器コントローラにおいては、外部機
器操作部6に接続された、例えばAV機器などの外部機
器(図示せず)に対する操作を音声により行うことがで
きるようになされている。
DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 is a block diagram showing the configuration of an embodiment of an external device controller to which the voice recognition device of the present invention is applied. In this external device controller, an external device (not shown) such as an AV device connected to the external device operating unit 6 can be operated by voice.

【0019】即ち、音声入力部1は、入力された音声を
電気信号としての音声信号に変換し、さらにA/D変換
して、音声分析部2に出力する。音声分析部2は、音声
入力部1からの音声信号から、例えば線形予測係数など
の音声の特徴パラメータを1フレームごとに抽出し、音
声区間検出部3およびワードスポッティング処理部4に
時系列に出力する。
That is, the voice input unit 1 converts the input voice into a voice signal as an electric signal, further A / D-converts it, and outputs it to the voice analysis unit 2. The voice analysis unit 2 extracts, for each frame, voice feature parameters such as a linear prediction coefficient from the voice signal from the voice input unit 1 and outputs them to the voice section detection unit 3 and the word spotting processing unit 4 in time series. To do.

【0020】音声区間検出部3は、音声分析部2からの
特徴パラメータに基づいて、発話の開始されたフレーム
およびその終了したフレーム、即ち音声区間を検出し、
ワードスポッティング処理部4および構文解析部5に出
力する。
The voice section detection unit 3 detects the frame at which the utterance started and the frame at which the utterance ended, that is, the voice section, based on the characteristic parameter from the voice analysis unit 2,
It is output to the word spotting processing unit 4 and the syntax analysis unit 5.

【0021】ワードスポッティング処理部4は、音声区
間検出部3で発話の開始されたフレームが検出される
と、入力された音声に対して、構文解析部5が単語の優
先度とともに出力した各単語のワードスポッティング
を、その単語の優先度に基づいて順次行い、そのワード
スポッティング結果を構文解析部5に出力する。
When the speech section detection unit 3 detects a frame at which speech is started, the word spotting processing unit 4 outputs each word output from the syntax analysis unit 5 together with the priority of the word to the input speech. The word spotting is sequentially performed based on the priority of the word, and the word spotting result is output to the syntax analysis unit 5.

【0022】即ち、ワードスポッティング処理部4は、
音声区間検出部3で発話の開始されたフレームが検出さ
れると、まず内蔵する入力バッファ(図示せず)に音声
分析部2からの音声の特徴パラメータを順次記憶し、そ
の入力バッファに記憶された音声の特徴パラメータを1
フレーム分ずつ読み出す。そして、ワードスポッティン
グ処理部4は、構文解析部5が単語の優先度とともに出
力した各単語の標準パターンを、その各単語の優先度に
基づいて、内蔵する入力バッファより順次読み出した入
力パターンとしての特徴パラメータにマッチングさせ、
その結果得られたスコアが所定の閾値以上であった場
合、そのスコアと、マッチングした区間の始点および終
点を構文解析部5に出力する。
That is, the word spotting processing unit 4 is
When the speech section detection unit 3 detects a frame at which speech is started, first, the characteristic parameters of the speech from the speech analysis unit 2 are sequentially stored in a built-in input buffer (not shown) and stored in the input buffer. Set the characteristic parameter of the voice
Read frame by frame. Then, the word spotting processing unit 4 sets the standard pattern of each word output by the syntax analysis unit 5 together with the priority of the word as the input pattern sequentially read from the built-in input buffer based on the priority of each word. Match the characteristic parameters,
When the score obtained as a result is equal to or higher than a predetermined threshold value, the score and the start point and end point of the matched section are output to the syntax analysis unit 5.

【0023】ここで、スコアとは、スポッティングした
単語の尤度を意味し、その値が大きいほど、スポッティ
ングした単語が確からしいものとする。
Here, the score means the likelihood of the spotted word, and the larger the value, the more likely the spotted word is.

【0024】構文解析部5は、音声区間検出部3で発話
の開始されたフレームが検出される前までに、入力され
る音声の仮説(文章仮説)をたて、音声の解析の初期段
階で必要となる単語すべてに最も高い優先度を付加し、
ワードスポッティング処理部4に出力するとともに、ワ
ードスポッティング処理を要求する。
The syntactic analysis unit 5 establishes a hypothesis (sentence hypothesis) of the input voice before the speech section detection unit 3 detects the frame in which the utterance has started, and at the initial stage of the analysis of the voice. Add the highest priority to all required words,
It outputs to the word spotting processing unit 4 and requests the word spotting processing.

【0025】さらに、構文解析部5は、音声区間検出部
3で発話の開始されたフレームが検出された後、ワード
スポッティング処理部4から、ワードスポッティング処
理を要求した各単語のスコア、始点、および終点が供給
されると、そのスコア、もしくは始点から終点までの区
間長、並びに内蔵する構文辞書(図示せず)にあらかじ
め登録された構文情報に基づいて、入力された音声を解
析し、その解析結果に基づいて、新たな文章仮説をたて
る。
Furthermore, after the speech section detection unit 3 detects the frame in which the utterance has started, the syntax analysis unit 5 causes the word spotting processing unit 4 to make a score, a start point, and a score for each word for which the word spotting processing is requested. When the end point is supplied, the input voice is analyzed based on the score or the section length from the start point to the end point and the syntax information registered in advance in the built-in syntax dictionary (not shown), and the analysis is performed. Create a new text hypothesis based on the results.

【0026】そして、構文解析部5は、新たな文章仮説
を解析するために必要となった単語に優先度を付加し、
ワードスポッティング処理部4に出力する。
Then, the syntactic analysis unit 5 adds priorities to the words necessary for analyzing the new sentence hypothesis,
It is output to the word spotting processing unit 4.

【0027】なお、この場合、単語の優先度は、構文解
析部5における文章仮説の検索(選択)方法に基づい
て、単語に付加される。即ち、構文解析部5において、
例えばbest-first法により、構文解析が行われている場
合には、確信度の高い文章仮説に関連する単語ほど、よ
り高い優先度が付加される。
In this case, the priority of the word is added to the word based on the method of searching (selecting) the sentence hypothesis in the syntax analysis unit 5. That is, in the syntax analysis unit 5,
For example, when syntactic analysis is performed by the best-first method, a higher priority is added to a word associated with a sentence hypothesis having a higher certainty factor.

【0028】構文解析部5は、音声区間検出部3で発話
の終了したフレームが検出された後、自身の構文解析結
果に基づいて、ワードスポッティング結果としての単語
候補列から、誤った(誤っていると思われる)単語候補
を除き、正しい(正しいと思われる)文(文章)を得る
と、それを外部機器操作部6に出力する。
After the speech section detection unit 3 detects the frame in which the utterance has ended, the syntactic analysis unit 5 makes an erroneous (incorrectly) error from the word candidate sequence as the word spotting result based on its own syntactic analysis result. When a correct sentence (sentence) is obtained excluding the word candidates that are considered to be present, it is output to the external device operation unit 6.

【0029】外部機器操作部6は、構文解析部5より出
力された文(文章)の内容に対応して、そこに接続され
た外部機器を操作する。
The external device operation unit 6 operates the external device connected thereto in accordance with the content of the sentence (sentence) output from the syntax analysis unit 5.

【0030】次に、その動作について説明する。まず音
声入力部1において、入力された音声が電気信号として
の音声信号に変換されてA/D変換され、音声分析部2
に出力される。音声分析部2において、音声入力部1か
らの音声信号から、1フレームごとの音声の特徴パラメ
ータが抽出され、音声区間検出部3およびワードスポッ
ティング処理部4に出力される。
Next, the operation will be described. First, in the voice input unit 1, the input voice is converted into a voice signal as an electric signal and A / D converted, and the voice analysis unit 2
Is output to. In the voice analysis unit 2, the voice feature parameter for each frame is extracted from the voice signal from the voice input unit 1 and output to the voice section detection unit 3 and the word spotting processing unit 4.

【0031】音声区間検出部3においては、音声分析部
2からの音声の特徴パラメータに基づいて、発話の開始
されたフレームおよびその終了したフレーム、即ち音声
区間が検出され、ワードスポッティング処理部4および
構文解析部5に出力される。
The voice section detection unit 3 detects the frame in which the utterance has started and the frame in which the utterance has ended, that is, the voice section, based on the characteristic parameters of the voice from the voice analysis unit 2, and the word spotting processing unit 4 and It is output to the syntax analysis unit 5.

【0032】同時に、構文解析部5では、音声区間検出
部3で発話の開始されたフレームが検出される前まで
に、入力される音声の文章仮説がたてられ、音声の解析
の初期段階で必要となる単語すべてに最も高い優先度が
付加されて、ワードスポッティング処理部4に出力され
る。
At the same time, the syntactic analysis unit 5 sets a sentence hypothesis of the input voice before the speech section detection unit 3 detects the frame in which the speech is started, and at the initial stage of the analysis of the voice. The highest priority is added to all necessary words, and the words are output to the word spotting processing unit 4.

【0033】そして、ワードスポッティング処理部4に
おいては、入力された音声に対して、構文解析部5が単
語の優先度とともに出力した各単語のワードスポッティ
ングが、例えば図2に示すフローチャートにしたがって
行われる。
In the word spotting processing unit 4, the word spotting of each word output from the syntax analysis unit 5 together with the priority of the word is performed on the input voice, for example, according to the flowchart shown in FIG. .

【0034】即ち、ワードスポッティング処理部4で
は、まずステップS1において、構文解析部5より出力
された(構文解析部5からワードスポッティング処理要
求(検索要求)のあった)単語すべての数を示す変数W
に0がセットされることにより初期化され、ステップS
2に進む。ステップS2において、構文解析部5より出
力された(構文解析部5からワードスポッティング処理
要求(検索要求)のあった)単語すべての数が変数Wに
セットされ、ステップS3に進み、音声区間検出部3で
発話の開始されたフレームが検出されたか否かが判定さ
れる。
That is, in the word spotting processing unit 4, first in step S1, a variable indicating the number of all the words output from the syntax analyzing unit 5 (the word spotting processing request (search request) has been issued from the syntax analyzing unit 5). W
Is initialized by setting 0 to step S
Go to 2. In step S2, the number of all the words output from the syntax analysis unit 5 (the word spotting processing request (search request) from the syntax analysis unit 5) is set in the variable W, and the process proceeds to step S3, and the voice section detection unit In 3, it is determined whether or not the frame in which speech has started is detected.

【0035】ステップS3において、音声区間検出部3
で発話の開始されたフレームが検出されていないと判定
された場合、ステップS2に戻り、ステップS3で音声
区間検出部3により発話の開始されたフレームが検出さ
れたと判定されるまで、ステップS2およびS3の処理
を繰り返す。
In step S3, the voice section detector 3
When it is determined that the frame in which the utterance is started is not detected in step S2, the process returns to step S2, and the steps in step S2 and step S3 are performed until it is determined in step S3 that the frame in which the utterance is started is detected. The process of S3 is repeated.

【0036】ステップS3において、音声区間検出部3
で発話の開始されたフレームが検出されたと判定された
場合、即ち音声入力部1に音声の入力が開始された場
合、ステップS4に進み、ワードスポッティング処理部
4がワードスポッティング処理する単語数Nを示す変数
Nに、変数Wに記憶された値(音声区間検出部3で発話
の開始されたフレームが検出される前までに、構文解析
部5よりワードスポッティング処理部4に処理要求のあ
った単語数W)がセットされ、ステップS5に進む。
In step S3, the voice section detector 3
When it is determined that the frame in which the utterance is started is detected, that is, when the input of the voice to the voice input unit 1 is started, the process proceeds to step S4, and the word spotting processing unit 4 sets the number N of words to be word-spotted. In the variable N shown, the value stored in the variable W (the word requested to be processed by the word spotting processing unit 4 from the syntactic analysis unit 5 before the frame in which speech is started is detected by the voice section detection unit 3) (Several W) is set, and the process proceeds to step S5.

【0037】ステップS5において、音声分析部2から
出力され、ワードスポッティング処理部4の内蔵する入
力バッファに既に記憶されている音声の特徴パラメータ
が1フレーム分だけ読み出され、ステップS6に進み、
ワードスポッティング処理部4の内蔵する入力バッファ
にデータ(音声分析部2より出力される音声の特徴パラ
メータ)が残っているか否かが判定される。ステップS
6において、ワードスポッティング処理部4の内蔵する
入力バッファにデータが残っていると判定された場合、
ステップS7に進み、ワードスポッティング処理部4が
ワードスポッティング処理する単語数Nを示す変数Nが
1だけデクリメントされ、ステップS8に進む。
In step S5, the voice feature parameters output from the voice analysis unit 2 and already stored in the input buffer incorporated in the word spotting processing unit 4 are read out for one frame, and the process proceeds to step S6.
It is determined whether or not data (characteristic parameter of the voice output from the voice analysis unit 2) remains in the input buffer built in the word spotting processing unit 4. Step S
When it is determined that the data remains in the input buffer incorporated in the word spotting processing unit 4 in 6,
In step S7, the word spotting processing unit 4 decrements the variable N indicating the number N of words to be subjected to word spotting by 1, and then proceeds to step S8.

【0038】一方、ステップS6において、ワードスポ
ッティング処理部4の内蔵する入力バッファにデータが
残っていないと判定された場合、ステップS7をスキッ
プして、ステップS8に進み、構文解析部5が単語の優
先度とともに出力した単語の標準パターンのうち、優先
度の高い順にN個の単語の標準パターンが、内蔵する入
力バッファより時系列に読み出された入力パターンとし
ての特徴パラメータに順次マッチングされ、その結果得
られたスコアが所定の閾値以上であった場合、スコア、
始点および終点が、ワードスポッティング処理部4の内
蔵する出力バッファ(図示せず)に供給されて記憶され
る。
On the other hand, if it is determined in step S6 that no data remains in the input buffer built in the word spotting processing section 4, then step S7 is skipped and step S8 follows. Among the standard patterns of the words output together with the priority, the standard patterns of N words in the descending order of priority are sequentially matched with the characteristic parameters as the input patterns read in time series from the built-in input buffer. If the resulting score is greater than or equal to a predetermined threshold, the score,
The start point and the end point are supplied to and stored in an output buffer (not shown) built in the word spotting processing unit 4.

【0039】即ち、ステップS8においては、構文解析
部5が単語の優先度とともに出力した単語のうち、優先
度の高いN個の単語がワードスポッティングされる。
That is, in step S8, among the words output by the syntax analysis unit 5 together with the priority of the words, the N high-priority words are word-spotted.

【0040】ステップS8のワードスポッティング処理
の後、ステップS9に進み、ワードスポッティング処理
部4の内蔵する入力バッファにデータ(音声分析部2よ
り出力される音声の特徴パラメータ)が残っているか否
かが判定される。ステップS9において、ワードスポッ
ティング処理部4の内蔵する入力バッファにデータが残
っていないと判定された場合、ステップS10に進み、
ワードスポッティング処理部4がワードスポッティング
処理する単語数Nを示す変数Nが1だけインクリメント
され、ステップS11に進む。
After the word spotting process in step S8, the process proceeds to step S9, and it is determined whether or not data (speech characteristic parameter output from the voice analysis unit 2) remains in the input buffer incorporated in the word spotting processing unit 4. To be judged. If it is determined in step S9 that no data remains in the input buffer built in the word spotting processing unit 4, the process proceeds to step S10.
The variable N indicating the number N of words subjected to word spotting processing by the word spotting processing unit 4 is incremented by 1, and the process proceeds to step S11.

【0041】一方、ステップS9において、ワードスポ
ッティング処理部4の内蔵する入力バッファにデータが
残っていると判定された場合、ステップS10をスキッ
プして、ステップS11に進み、構文解析部5から新た
なワードスポッティング処理要求(検索要求)があれ
ば、その要求のあった単語の数が変数Wに加算され、ス
テップS12に進む。
On the other hand, in step S9, when it is determined that the data remains in the input buffer built in the word spotting processing section 4, step S10 is skipped, the process proceeds to step S11, and the syntactic analysis section 5 creates a new one. If there is a word spotting processing request (search request), the number of requested words is added to the variable W, and the process proceeds to step S12.

【0042】ステップS12において、ワードスポッテ
ィング処理部4の内蔵する出力バッファにワードスポッ
ティング結果としてのスコア、始点、および終点が記憶
されていれば、それが構文解析部5に供給され、ステッ
プS13に進み、音声区間検出部3で発話の終了したフ
レームが検出されたか否かが判定されるとともに、ワー
ドスポッティング処理部4の内蔵する入力バッファが空
であるか否かが判定される。
In step S12, if the output buffer incorporated in the word spotting processing unit 4 stores the score, the start point, and the end point as the word spotting result, the score is supplied to the syntax analysis unit 5, and the process proceeds to step S13. The voice section detection unit 3 determines whether or not the frame in which the utterance has ended is detected, and whether or not the input buffer incorporated in the word spotting processing unit 4 is empty.

【0043】ステップS13において、音声区間検出部
3で発話の終了したフレームが検出されていないと判定
されるか、またはワードスポッティング処理部4の内蔵
する入力バッファが空でないと判定された場合、ステッ
プS5に戻り、再びステップS5からの処理を繰り返
す。
If it is determined in step S13 that the frame in which the utterance has ended is not detected by the voice section detector 3 or the input buffer incorporated in the word spotting processor 4 is not empty, step S13 Returning to S5, the processing from step S5 is repeated again.

【0044】ステップS13において、音声区間検出部
3で発話の終了したフレームが検出されたと判定され、
且つワードスポッティング処理部4の内蔵するバッファ
が空であると判定された場合、図3に示すステップS2
1に進み、今までに構文解析部5からワードスポッティ
ング処理の依頼のあった単語の中で、まだワードスポッ
ティング処理が行われていない単語のうち、優先度の最
も高い単語の数が、変数Nにセットされ、ステップS2
2に進む。
In step S13, it is determined that the speech section detection unit 3 has detected the frame for which speech has ended,
If it is determined that the internal buffer of the word spotting processing unit 4 is empty, step S2 shown in FIG.
In step 1, the number of words having the highest priority among the words for which word parsing processing has been requested by the syntax analysis unit 5 has not been performed. Is set to step S2
Go to 2.

【0045】ステップS22において、入力の終了した
音声全体に対して、構文解析部5から今までにワードス
ポッティング処理の依頼のあった単語の中で、まだワー
ドスポッティング処理が行われていない単語のうち、優
先度の最も高いN個の単語のワードスポッティング処理
が行われ、ステップS23に進み、ステップS22での
ワードスポッティング処理結果(スコア、始点、および
終点)が構文解析部5に出力され、ステップS24に進
む。
In step S22, of the words for which the word parsing process has been requested by the syntactic analysis unit 5 for the entire input speech, the word spotting process has not been performed yet. , The word spotting process of the N highest priority words is performed, the process proceeds to step S23, and the word spotting process result (score, start point, and end point) in step S22 is output to the syntax analysis unit 5, and step S24. Proceed to.

【0046】ステップS24において、変数Wから変数
Nが減算され、その減算値が変数Wにセットされ、ステ
ップS25に進む。即ち、ステップS24において、今
までに構文解析部5からワードスポッティング処理の依
頼のあった単語の中で、まだワードスポッティング処理
が行われていない単語の数から、ステップS22でワー
ドスポッティング処理が行われた単語の数が減算され、
ステップS25に進む。
In step S24, the variable N is subtracted from the variable W, the subtracted value is set in the variable W, and the process proceeds to step S25. That is, in step S24, the word spotting process is performed in step S22 from the number of words that have not been subjected to the word spotting process among the words for which the syntax analysis unit 5 has requested the word spotting process. The number of words
It proceeds to step S25.

【0047】ステップS25において、構文解析部5か
ら新たなワードスポッティング処理要求(検索要求)が
あれば、その要求のあった単語の数が変数Wに加算さ
れ、ステップS26に進み、構文解析部5からのワード
スポッティング処理要求(検索要求)が終了したか否か
が判定されるとともに、変数Wが0であるか否かが判定
される。
In step S25, if there is a new word spotting processing request (search request) from the syntax analysis unit 5, the number of requested words is added to the variable W, and the process proceeds to step S26, where the syntax analysis unit 5 It is determined whether or not the word spotting processing request (search request) has been completed, and whether or not the variable W is 0 is determined.

【0048】ステップS26において、構文解析部5か
らのワードスポッティング処理要求(検索要求)が終了
していないと判定されるか、または変数Wが0でないと
判定された場合、ステップS21に戻り、再びステップ
S21からの処理を繰り返す。
If it is determined in step S26 that the word spotting processing request (search request) from the syntax analysis unit 5 has not ended, or if it is determined that the variable W is not 0, the process returns to step S21, and again. The processing from step S21 is repeated.

【0049】ステップS26において、構文解析部5か
らのワードスポッティング処理要求(検索要求)が終了
したと判定され、且つ変数Wが0であると判定された場
合、処理を終了する。
When it is determined in step S26 that the word spotting processing request (search request) from the syntax analysis unit 5 has been completed and the variable W is 0, the processing is completed.

【0050】一方、構文解析部5では、ワードスポッテ
ィング処理部4から、ワードスポッティング処理を要求
した各単語のスコア、始点、および終点が供給される
と、そのスコア、もしくは始点から終点までの区間長、
並びに内蔵する構文辞書にあらかじめ登録された構文情
報に基づいて、入力された音声が解析され、その解析結
果に基づいて、新たな文章仮説がたてられるとともに、
その新たな文章仮説を解析するために必要となった単語
に、上述したようにして優先度が付加され(以前にワー
ドスポッティング処理の要求をした単語については、そ
の優先度が変更され)、ワードスポッティング処理部4
に出力される。
On the other hand, in the syntactic analysis unit 5, when the word spotting processing unit 4 supplies the score, start point, and end point of each word for which word spotting processing is requested, the score or the section length from the start point to the end point is supplied. ,
Also, based on the syntax information registered in advance in the built-in syntax dictionary, the input voice is analyzed, based on the analysis result, a new sentence hypothesis is created,
Priority is added to the words needed to analyze the new sentence hypothesis as described above (for words for which a word spotting process was previously requested, the priority is changed), and the word Spotting processing unit 4
Is output to.

【0051】そして、構文解析部5においては、音声区
間検出部3で発話の終了したフレームが検出された後、
自身の構文解析結果に基づいて、ワードスポッティング
結果としての単語候補列から、誤った(誤っていると思
われる)単語候補が除かれ、正しい(正しいと思われ
る)文(文章)が得られると、それが外部機器操作部6
に出力される。
In the syntactic analysis unit 5, after the speech section detection unit 3 detects the frame in which the utterance is completed,
Based on the result of its own parsing, the word candidate string as a word spotting result is excluded from the wrong (probably wrong) word candidate, and a correct (presumably correct) sentence (sentence) is obtained. , That is the external device operation part 6
Is output to.

【0052】外部機器操作部6においては、構文解析部
5より出力された文(文章)の内容に対応して、そこに
接続された外部機器が操作される。即ち、外部機器操作
部6に接続された外部機器が、例えばAV機器であり、
構文解析部5より出力された文(文章)が、例えば”C
D再生”であった場合、外部機器動作部6において、C
Dの再生が開始されるように、AV機器が操作される。
In the external device operating unit 6, the external device connected to the external device operating unit 6 is operated according to the content of the sentence (sentence) output from the syntax analyzing unit 5. That is, the external device connected to the external device operation unit 6 is, for example, an AV device,
The sentence (sentence) output from the syntax analysis unit 5 is, for example, “C
In the case of “D playback”, in the external device operation unit 6, C
The AV device is operated so that the reproduction of D is started.

【0053】以上のように、音声の入力中においては
(ステップS1乃至S13)、ワードスポッティング処
理部4の内蔵する入力バッファにデータ(音声の特徴パ
ラメータ)が残っており、ワードスポッティング処理部
4における処理が遅れている場合、ワードスポッティン
グ処理する単語数Nが減少され(ステップS7)、ま
た、ワードスポッティング処理部4の内蔵する入力バッ
ファが空で、ワードスポッティング処理部4における処
理に余裕がある場合、ワードスポッティング処理する単
語数Nが増加され(ステップS10)、ワードスポッテ
ィング処理部4において、構文解析部5からワードスポ
ッティング処理の依頼のあった単語のうち、優先度の高
い順にN個の単語のワードスポッティング処理が行われ
る(ステップS8)。
As described above, during voice input (steps S1 to S13), data (voice feature parameter) remains in the input buffer built in the word spotting processing unit 4, and the word spotting processing unit 4 operates. When the processing is delayed, the number N of words to be subjected to the word spotting processing is reduced (step S7), and the input buffer incorporated in the word spotting processing unit 4 is empty, so that the word spotting processing unit 4 has a sufficient processing capacity. The number N of words to be word-spotted is increased (step S10), and in the word-spotting processing unit 4, among the words for which word-spotting processing has been requested by the syntax analysis unit 5, N words are ordered in descending order of priority. Word spotting processing is performed (step S8).

【0054】また、音声の入力の終了後においては(ス
テップS21乃至S26)、ワードスポッティング処理
部4において、構文解析部5からワードスポッティング
処理の依頼のあった単語のうち、優先度の最も高い単語
のグループから順次ワードスポッティング処理される。
After the voice input is completed (steps S21 to S26), the word spotting processing unit 4 has the highest priority word out of the words requested by the syntax analyzing unit 5 for the word spotting processing. Word spotting processing is performed sequentially from the group.

【0055】従って、ワードスポッティング処理部4に
おいては、優先度の高い単語、即ち構文解析部5で構文
解析を行うのにより必要な単語から、順次ワードスポッ
ティング処理が行われるので、発話者の発話に対するレ
スポンスを向上させることができる。
Therefore, the word spotting processing unit 4 sequentially performs word spotting processing from a word having a high priority, that is, a word required by the syntax analysis unit 5 to perform the syntax analysis. The response can be improved.

【0056】さらに、ワードスポッティング処理部4の
処理能力に対応して、ワードスポッティング処理する単
語数を変更するようにしたので、ワードスポッティング
処理部4がリアルタイムで処理することのできる数を越
えた単語が、構文解析部5から与えられても、迅速に処
理を行うことができる。
Furthermore, since the number of words to be word-spotted is changed in accordance with the processing capability of the word spotting processor 4, the number of words that can be processed in real time by the word spotting processor 4 is exceeded. However, even if given by the syntactic analysis unit 5, the processing can be performed quickly.

【0057】以上、本発明の音声認識装置を、外部機器
コントローラに適用した場合について説明したが、本発
明は、外部機器コントローラの他、音声を認識するあら
ゆる装置に適用することができる。
The case where the voice recognition device of the present invention is applied to an external device controller has been described above, but the present invention can be applied to any device that recognizes voice in addition to the external device controller.

【0058】なお、本実施例では、ワードスポッティン
グ処理部4におけるワードスポッティングの方法につい
ては言及しなかったが、ワードスポッティング処理部4
においては、例えば、例えばDPマッチング法やHMM
法、特開昭60−249198、特開昭60−2491
99、または特開昭60−252396などに開示され
ている音声認識装置の音声認識アルゴリズムなど、あら
ゆる音声認識アルゴリズムに基づいて、ワードスポッテ
ィング処理するようにすることができる。
Although the word spotting method in the word spotting processing unit 4 is not mentioned in the present embodiment, the word spotting processing unit 4 is not mentioned.
For example, for example, DP matching method or HMM
Method, JP-A-60-249198, JP-A-60-24991
The word spotting process can be performed based on any voice recognition algorithm, such as the voice recognition algorithm of the voice recognition device disclosed in JP-A-60-252396.

【0059】さらに、本実施例においては、音声分析部
2で、音声から、線形予測係数を音声の特徴パラメータ
として抽出するようにしたが、これに限られるものでは
ない。即ち、音声分析部2では、音声から、例えば所定
の周波数帯域幅ごとのパワーやケプストラム係数、パー
コール係数、フォルマント、ゼロクロス数などのあらゆ
る特徴パラメータを抽出するようにすることができる。
Further, in the present embodiment, the voice analysis unit 2 extracts the linear prediction coefficient from the voice as the feature parameter of the voice, but the present invention is not limited to this. That is, the voice analysis unit 2 can extract all characteristic parameters such as power, cepstrum coefficient, Percoll coefficient, formant, and zero-cross number for each predetermined frequency bandwidth from the voice.

【0060】[0060]

【発明の効果】請求項1に記載の音声認識装置によれ
ば、認識手段が、音声認識処理する単語の単語数を、
析手段により付加された単語の優先度または自身の音声
認識処理能力に基づいて変更し、さらに、単語優先度
に基づいて、音声中からの単語の音声認識処理を行う。
従って、入力された音声に対する応答処理の迅速化を図
ることができる。
According to the speech recognition apparatus of the first aspect, the recognition means determines the number of words to be subjected to the speech recognition processing by the priority of the words added by the analysis means or the own speech.
The speech recognition processing is performed based on the recognition processing capability, and the speech recognition processing of the word in the speech is performed based on the priority of the word.
Therefore, it is possible to speed up the response process to the input voice.

【0061】請求項2に記載の音声認識装置によれば、
認識手段に、音声区間中と音声区間終了後とで、単語の
優先度に基づいて、音声中から音声認識する単語を変更
させる。従って、例えば音声区間終了後には、優先度の
最も高い単語だけの音声認識処理を行うようにすること
ができるので、装置のリアルタイム性を向上させること
ができる。
According to the voice recognition device of the second aspect,
The recognition unit changes the word to be recognized in the voice from the voice based on the priority of the word during the voice section and after the end of the voice section. Therefore, for example, after the end of the voice section, it is possible to perform the voice recognition processing only on the word having the highest priority, so that the real-time property of the device can be improved.

【0062】請求項3に記載の音声認識装置によれば、
解析手段に、認識手段の認識結果の解析結果に基づい
て、単語の優先度を変更させるので、入力された音声に
対する応答処理の迅速化をさらに図ることができる。
According to the voice recognition device of the third aspect,
Since the analysis unit changes the priority of the word based on the analysis result of the recognition result of the recognition unit, it is possible to further speed up the response process to the input voice.

【0063】[0063]

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の音声認識装置を応用した外部機器コン
トローラの一実施例の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of an embodiment of an external device controller to which a voice recognition device of the present invention is applied.

【図2】図1の実施例のワードスポッティング処理部4
の動作を説明するフローチャートである。
FIG. 2 is a word spotting processing unit 4 of the embodiment shown in FIG.
3 is a flowchart illustrating the operation of the above.

【図3】図2のフローチャートに続くフローチャートで
ある。
FIG. 3 is a flowchart following the flowchart of FIG.

【符号の説明】[Explanation of symbols]

1 音声入力部 2 音声分析部 3 音声区間検出部 4 ワードスポッティング処理部 5 構文解析部 6 外部機器操作部 1 Voice input section 2 Speech analysis section 3 Voice section detector 4 Word spotting processing section 5 Parsing part 6 External device operation section

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−255925(JP,A) 特開 平6−161488(JP,A) 特開 平3−177899(JP,A) 特開 昭63−165900(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28 JICSTファイル(JOIS)─────────────────────────────────────────────────── ─── Continuation of the front page (56) Reference JP-A-1-255925 (JP, A) JP-A-6-161488 (JP, A) JP-A-3-177899 (JP, A) JP-A-63- 165900 (JP, A) (58) Fields surveyed (Int.Cl. 7 , DB name) G10L 15/00-15/28 JISST file (JOIS)

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 音声を認識する認識手段と、 前記認識手段に、前記音声中からの単語の音声認識処理
を依頼するとともに、前記認識手段の認識結果を解析
し、前記音声を理解する解析手段とを備え、 前記解析手段は、音声認識処理する優先度を前記単語に
付加して、前記認識手段に供給し、 前記認識手段は、音声認識処理する単語の単語数を、前
記単語の優先度または自身の音声認識処理能力に基づい
て変更し、前記単語の優先度に基づいて、前記音声中か
らの前記単語の音声認識処理を行うことを特徴とする音
声認識装置。
1. A recognition unit for recognizing a voice, and an analysis unit for requesting the recognition unit to perform a voice recognition process of a word in the voice and analyzing a recognition result of the recognition unit to understand the voice. And the analysis means adds a priority for speech recognition processing to the word and supplies the word to the recognition means, and the recognition means calculates the number of words of the speech recognition processing as
Based on written word priority or own speech recognition processing ability
The speech recognition apparatus is characterized in that the speech recognition processing of the word in the speech is performed based on the priority of the word.
【請求項2】 前記音声の音声区間を検出する検出手段
をさらに備え、 前記認識手段は、前記音声区間中と前記音声区間終了後
とで、前記単語の優先度に基づいて、前記音声中から音
声認識する単語を変更することを特徴とする請求項1に
記載の音声認識装置。
2. A detection unit for detecting a voice section of the voice is further provided, wherein the recognizing unit selects from among the voice based on the priority of the word during the voice section and after the end of the voice section. The voice recognition apparatus according to claim 1, wherein the voice recognition word is changed.
【請求項3】 前記解析手段は、前記認識手段の認識結
果の解析結果に基づいて、前記単語の優先度を変更する
ことを特徴とする請求項に記載の音声認識装置。
3. The voice recognition device according to claim 1 , wherein the analysis unit changes the priority of the word based on an analysis result of a recognition result of the recognition unit.
JP02738093A 1993-01-22 1993-01-22 Voice recognition device Expired - Lifetime JP3473704B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP02738093A JP3473704B2 (en) 1993-01-22 1993-01-22 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02738093A JP3473704B2 (en) 1993-01-22 1993-01-22 Voice recognition device

Publications (2)

Publication Number Publication Date
JPH06222790A JPH06222790A (en) 1994-08-12
JP3473704B2 true JP3473704B2 (en) 2003-12-08

Family

ID=12219449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02738093A Expired - Lifetime JP3473704B2 (en) 1993-01-22 1993-01-22 Voice recognition device

Country Status (1)

Country Link
JP (1) JP3473704B2 (en)

Also Published As

Publication number Publication date
JPH06222790A (en) 1994-08-12

Similar Documents

Publication Publication Date Title
US6185530B1 (en) Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
JP3004883B2 (en) End call detection method and apparatus and continuous speech recognition method and apparatus
US7124080B2 (en) Method and apparatus for adapting a class entity dictionary used with language models
JP4414088B2 (en) System using silence in speech recognition
US20050021330A1 (en) Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes
JPH0883091A (en) Voice recognition device
JPH0968994A (en) Word voice recognition method by pattern matching and device executing its method
US20080262843A1 (en) Speech recognition apparatus and method
JP2002215187A (en) Speech recognition method and device for the same
KR101122591B1 (en) Apparatus and method for speech recognition by keyword recognition
JP2996019B2 (en) Voice recognition device
JP3473704B2 (en) Voice recognition device
CN112820281B (en) Voice recognition method, device and equipment
JP3440840B2 (en) Voice recognition method and apparatus
JPH06266386A (en) Word spotting method
JPH1124693A (en) Speech recognition device
JPH07230293A (en) Voice recognition device
JP3114389B2 (en) Voice recognition device
JP2921059B2 (en) Continuous speech recognition device
JP2880436B2 (en) Voice recognition device
JP3315565B2 (en) Voice recognition device
JP2905686B2 (en) Voice recognition device
JP3061292B2 (en) Accent phrase boundary detection device
JP3063855B2 (en) Finding the minimum value of matching distance value in speech recognition
JP2001005483A (en) Word voice recognizing method and word voice recognition device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030821

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080919

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090919

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090919

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100919

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110919

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110919

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120919

Year of fee payment: 9