JP6784859B1 - Voice recognition system and voice recognition device - Google Patents
Voice recognition system and voice recognition device Download PDFInfo
- Publication number
- JP6784859B1 JP6784859B1 JP2020034840A JP2020034840A JP6784859B1 JP 6784859 B1 JP6784859 B1 JP 6784859B1 JP 2020034840 A JP2020034840 A JP 2020034840A JP 2020034840 A JP2020034840 A JP 2020034840A JP 6784859 B1 JP6784859 B1 JP 6784859B1
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- data
- unit
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 claims abstract description 125
- 230000005540 biological transmission Effects 0.000 claims abstract description 28
- 238000011156 evaluation Methods 0.000 claims description 105
- 230000004913 activation Effects 0.000 claims description 43
- 238000006243 chemical reaction Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 19
- 238000009795 derivation Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 abstract description 16
- 230000004048 modification Effects 0.000 description 24
- 238000012986 modification Methods 0.000 description 24
- 238000000605 extraction Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 18
- 238000001514 detection method Methods 0.000 description 16
- 239000000284 extract Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 7
- 230000007547 defect Effects 0.000 description 4
- 230000035515 penetration Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 101100533533 Salmonella typhimurium silB gene Proteins 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】無線通信により送信された音声データにおける認識時間の削減を図る音声認識システム、及び音声認識装置を提供する。【解決手段】無線通信Wを用いた音声認識システム100であって、取得手段と、送信手段と、受信手段と、認識手段と、を備える。取得手段は、音声に基づき、音声データを取得する。送信手段は、UHF帯域を利用した無線通信により、前記音声データを送信する。受信手段は、前記音声データを連続した信号として一度に受信する。認識手段は、音素認識を用い、前記音声データの内容を認識した認識結果を導出する。例えば、前記送信手段は、パケット化処理が行われていない前記音声データを送信する。【選択図】図1PROBLEM TO BE SOLVED: To provide a voice recognition system and a voice recognition device for reducing the recognition time of voice data transmitted by wireless communication. A voice recognition system 100 using wireless communication W includes acquisition means, transmission means, reception means, and recognition means. The acquisition means acquires voice data based on the voice. The transmission means transmits the voice data by wireless communication using the UHF band. The receiving means receives the voice data as a continuous signal at a time. The recognition means uses phoneme recognition to derive a recognition result that recognizes the content of the voice data. For example, the transmission means transmits the voice data that has not been packetized. [Selection diagram] Fig. 1
Description
本発明は、音声認識システム、及び音声認識装置に関する。 The present invention relates to a voice recognition system and a voice recognition device.
従来、音声認識に関する技術として、例えば特許文献1の音声認識操作システム等が提案されている。
Conventionally, as a technique related to voice recognition, for example, a voice recognition operation system of
特許文献1の開示技術では、利用者によって音声コマンドが入力される音声入出力端末と、機械式駐車設備に設置され且つ音声入出力端末と近距離無線通信接続される音声認識装置と、音声認識装置が接続され且つ機械式駐車設備の作動を制御する制御装置と、制御装置と通信回線を介して接続され且つ利用者の使用許可確認と音声コマンドの分析と前記利用者の音声入出力端末への音声案内通知と制御装置への制御指令出力とを行う管制装置とを備える。
In the disclosure technology of
ここで、特許文献1では、Wi−Fi(登録商標)等の近距離無線通信を用いて、音声データを音声認識装置に送信することで、音声認識を行う技術が開示されている。しかしながら、Wi−Fi(登録商標)等のような無線パケット通信を用いて分割された音声データを受信する際、分割された音声データ毎に対する誤り検出や、各音声データを受信したタイミングとは異なる順番に入れ替える必要が生じる。このため、音声データの送受信から音声認識の結果を導くまでの期間が、想定以上に長くなる場合がある。これにより、例えば利用者は、音声が認識されなかったと判断し、再度音声を発することで、不要な音声認識処理を引き起こす懸念が挙げられる。
Here,
そこで本発明は、上述した問題に鑑みて案出されたものであり、その目的とするところは、無線通信により送信された音声データにおける認識時間の削減を図る音声認識システム、及び音声認識装置を提供することにある。 Therefore, the present invention has been devised in view of the above-mentioned problems, and an object of the present invention is a voice recognition system and a voice recognition device for reducing the recognition time of voice data transmitted by wireless communication. To provide.
第1発明に係る音声認識システムは、無線通信を用いた音声認識システムであって、音声に基づき、音声データを取得する取得手段と、UHF帯域を利用した無線通信により、前記音声データを送信する送信手段と、前記音声データを連続した信号として一度に受信する受信手段と、音素認識を用い、前記音声データの内容を認識した認識結果を導出する認識手段と、文字列情報、及び前記文字列情報に紐づく閾値を1以上含む起動センテンスが複数記憶された起動用データベースと、を備え、前記認識手段は、前記音素認識を用い、前記音声データの内容に対応する候補データ、及び前記候補データに紐づく信頼度を1以上含む候補センテンスを生成する生成手段と、前記起動用データベースを参照し、複数の前記起動センテンスのうち、前記候補センテンスに対応する第1起動センテンスを指定する指定手段と、前記信頼度と、前記第1起動センテンスに含まれる第1閾値とを比較する比較手段と、前記比較手段の結果に基づき、前記認識結果を導出する導出手段と、を有することを特徴とする。 The voice recognition system according to the first invention is a voice recognition system using wireless communication, and transmits the voice data by an acquisition means for acquiring voice data based on voice and wireless communication using a UHF band. A transmission means, a receiving means for receiving the voice data as a continuous signal at a time, a recognition means for deriving a recognition result of recognizing the contents of the voice data using phonetic element recognition, character string information, and the character string. A start-up database including a plurality of start-up sentences including one or more thresholds associated with information is provided , and the recognition means uses the phonetic element recognition to obtain candidate data corresponding to the contents of the voice data and the candidate data. A generation means for generating a candidate sentence including one or more reliabilitys associated with, and a designation means for designating a first start sentence corresponding to the candidate sentence among a plurality of the start sentences by referring to the start database. It is characterized by having a comparison means for comparing the reliability with the first threshold value included in the first activation sentence, and a derivation means for deriving the recognition result based on the result of the comparison means. ..
第2発明に係る音声認識システムは、第1発明において、前記送信手段は、パケット化処理が行われていない前記音声データを送信することを特徴とする。 The voice recognition system according to the second invention is characterized in that, in the first invention, the transmission means transmits the voice data that has not been packetized.
第3発明に係る音声認識システムは、第1発明又は第2発明において、複数の前記起動センテンスは、音声認識の開始を示す第1認識結果の導出に用いられる1つのセンテンスと、前記第1認識結果とは異なる前記認識結果の導出に用いられる複数のダミーセンテンスとを含むことを特徴とする。 In the voice recognition system according to the third invention, in the first invention or the second invention , the plurality of the activation sentences are one sentence used for deriving the first recognition result indicating the start of voice recognition, and the first recognition. It is characterized by including a plurality of dummy sentences used for deriving the recognition result different from the result.
第4発明に係る音声認識システムは、第1発明において、1つの収音装置と、音声認識装置を有する複数の駆動装置と、を更に備え、前記収音装置は、前記取得手段を行う変換部と、前記送信手段を行う通信部と、を有し、前記音声認識装置は、前記受信手段を行う受信部と、前記認識手段を行う認識部と、前記起動用データベースが記憶された記憶部と、を有し、前記駆動装置は、前記認識手段により導出された前記認識結果に基づき制御される被制御部を有することを特徴とする。 In the first invention, the voice recognition system according to the fourth invention further includes one sound collecting device and a plurality of driving devices having the voice recognition device, and the sound collecting device is a conversion unit that performs the acquisition means. And a communication unit that performs the transmission means, and the voice recognition device includes a reception unit that performs the reception means, a recognition unit that performs the recognition means, and a storage unit that stores the activation database. , The driving device is characterized by having a controlled unit controlled based on the recognition result derived by the recognition means.
第5発明に係る音声認識システムは、第4発明において、複数の前記起動センテンスは、音声認識の開始を示す第1認識結果に用いられる1つのセンテンスと、前記第1認識結果とは異なる前記認識結果に用いられる複数のダミーセンテンスとを含み、前記1つのセンテンスの内容は、記憶された複数の前記音声認識装置毎に異なることを特徴とする。 In the voice recognition system according to the fifth invention, in the fourth invention, the plurality of activation sentences are one sentence used for the first recognition result indicating the start of voice recognition and the recognition different from the first recognition result. It includes a plurality of dummy sentences used in the result, and the content of the one sentence is different for each of the plurality of stored voice recognition devices.
第6発明に係る音声認識システムは、第1発明〜第5発明の何れかにおいて、前記音声データに対するキャリブレーションを行うキャリブレーション手段を更に備え、前記キャリブレーション手段は、キャリブレーション用の音に基づく評価用音データを、複数生成する評価用音データ生成手段と、複数の前記評価用音データを前記無線通信により送信する評価用音データ送信手段と、複数の前記評価用音データを受信する評価用音データ受信手段と、前記音素認識を用いて、複数の前記評価用音データに対する評価結果を生成する評価手段と、前記評価結果を、前記無線通信により送信する評価結果送信手段と、前記評価結果を受信し、前記評価結果に基づく前記音声データの取得条件を設定する設定手段とを有することを特徴とする。 The voice recognition system according to the sixth invention further includes a calibration means for calibrating the voice data in any one of the first to fifth inventions, and the calibration means is based on the sound for calibration. Evaluation sound data generation means for generating a plurality of evaluation sound data, evaluation sound data transmission means for transmitting the plurality of evaluation sound data by the wireless communication, and evaluation for receiving the plurality of evaluation sound data. An evaluation means for generating evaluation results for a plurality of the evaluation sound data using the sound data receiving means, the sound element recognition, an evaluation result transmitting means for transmitting the evaluation results by the wireless communication, and the evaluation. It is characterized by having a setting means for receiving the result and setting the acquisition condition of the voice data based on the evaluation result.
第7発明に係る音声認識システムは、第6発明において、前記取得条件は、マイクゲイン、オートゲインコントロール、ダイナミックレンジコントロール、及びアコースティックエコー除去の少なくとも何れかの条件を含むことを特徴とする。 The voice recognition system according to the seventh invention is characterized in that, in the sixth invention, the acquisition condition includes at least one of a microphone gain, an auto gain control, a dynamic range control, and an acoustic echo cancellation.
第8発明に係る音声認識装置は、無線通信を用いた音声認識装置であって、UHF帯域を利用した無線通信により送信された音声データを、連続した信号として一度に受信する受信部と、音素認識を用い、前記音声データの内容を認識した認識結果を導出する認識部と、文字列情報、及び前記文字列情報に紐づく閾値を1以上含む起動センテンスが複数記憶された起動用データベースと、を備え、前記認識部は、前記音素認識を用い、前記音声データの内容に対応する候補データ、及び前記候補データに紐づく信頼度を1以上含む候補センテンスを生成する生成部と、前記起動用データベースを参照し、複数の前記起動センテンスのうち、前記候補センテンスに対応する第1起動センテンスを指定する指定部と、前記信頼度と、前記第1起動センテンスに含まれる第1閾値とを比較する比較部と、前記比較部の結果に基づき、前記認識結果を導出する導出部と、を有することを特徴とする。 The voice recognition device according to the eighth invention is a voice recognition device using wireless communication, and is a receiving unit that receives voice data transmitted by wireless communication using the UHF band at once as a continuous signal, and a sound element. A recognition unit that uses recognition to derive a recognition result that recognizes the contents of the voice data, a start-up database that stores a plurality of start-up sentences including character string information and a threshold value associated with the character string information of 1 or more, and a start-up database. The recognition unit includes a generation unit that uses the phonetic element recognition to generate candidate data corresponding to the content of the voice data, and a candidate sentence including one or more reliability associated with the candidate data, and the activation unit. The database is referred to, and among the plurality of the startup sentences, the designation unit that specifies the first startup sentence corresponding to the candidate sentence, the reliability, and the first threshold value included in the first startup sentence are compared. It is characterized by having a comparison unit and a derivation unit for deriving the recognition result based on the result of the comparison unit .
第1発明〜第7発明によれば、受信手段は、音声データを連続した信号として一度に受信する。また、認識手段は、音素認識を用い、音声データの内容を認識した認識結果を導出する。このため、音声データの受信開始から音声認識の結果を導くまでの期間を最小限に抑えることができる。これにより、無線通信により送信された音声データにおける認識時間の削減を実現することが可能となる。 According to the first to seventh inventions, the receiving means receives the voice data as continuous signals at once. Further, the recognition means uses phoneme recognition to derive the recognition result of recognizing the content of the voice data. Therefore, the period from the start of receiving the voice data to the result of the voice recognition can be minimized. This makes it possible to reduce the recognition time of voice data transmitted by wireless communication.
また、第1発明〜第7発明によれば、送信手段は、UHF帯域を利用した無線通信により、音声データを送信する。このため、Wi−Fi(登録商標)等のような普及率の高い帯域を利用した無線通信に比べて、同一帯域同士における通信障害の発生する可能性が低い。また、Wi−Fi(登録商標)等を利用した無線通信と同時に利用した場合においても、円滑に無線通信を実現することができる。これにより、用途の拡大を図ることが可能となる。 Further, according to the first to seventh inventions, the transmitting means transmits voice data by wireless communication using the UHF band. Therefore, compared to wireless communication using a band with a high penetration rate such as Wi-Fi (registered trademark), the possibility of communication failure between the same bands is low. Further, even when it is used at the same time as wireless communication using Wi-Fi (registered trademark) or the like, wireless communication can be smoothly realized. This makes it possible to expand the applications.
特に、第2発明によれば、送信手段は、パケット化処理が行われていない音声データを送信する。このため、音声データを受信する際、各パケットに対する誤り検出や、各パケットを受信したタイミングとは異なる順番に入れ替える処理等を、実施する必要がない。これにより、無線通信により送信された音声データにおける認識時間の削減を容易に実現することが可能となる。 In particular, according to the second invention, the transmitting means transmits voice data that has not been packetized. Therefore, when receiving voice data, it is not necessary to perform error detection for each packet, processing for replacing each packet in a different order from the reception timing, and the like. As a result, it is possible to easily reduce the recognition time of the voice data transmitted by wireless communication.
特に、第1発明〜第7発明によれば、指定手段は、起動用データベースを参照し、候補センテンスに対応する第1起動センテンスを指定する。このため、起動用データベースに記憶された起動センテンスの内容を変更することで、導出される認識結果の内容を容易に変更することができる。これにより、用途に応じたカスタマイズを容易に実現することが可能となる。 In particular, according to the first to seventh inventions, the designating means refers to the start-up database and designates the first start-up sentence corresponding to the candidate sentence. Therefore, by changing the content of the startup sentence stored in the startup database, the content of the derived recognition result can be easily changed. This makes it possible to easily realize customization according to the application.
特に、第3発明によれば、複数の起動センテンスは、音声認識の開始を示す第1認識結果の導出に用いられる1つのセンテンスと、第1認識結果とは異なる認識結果の導出に用いられる複数のダミーセンテンスとを含む。このため、無線通信により送信された音声データに対し、第1認識結果を優先的に生成させることができる。これにより、音声認識精度の更なる向上を図ることが可能となる。 In particular, according to the third invention, the plurality of activation sentences are one sentence used for deriving the first recognition result indicating the start of speech recognition and a plurality of sentences used for deriving a recognition result different from the first recognition result. Includes dummy sentences and. Therefore, the first recognition result can be preferentially generated for the voice data transmitted by wireless communication. This makes it possible to further improve the voice recognition accuracy.
特に、第4発明によれば、駆動装置は、認識手段により導出された認識結果に基づき制御される被制御部を有する。このため、音声データを1つの収音装置により送信することで、複数の駆動装置に対して遠隔操作を行うことができる。これにより、作業効率の向上を図ることが可能となる。 In particular, according to the fourth invention, the driving device has a controlled unit that is controlled based on the recognition result derived by the recognition means. Therefore, by transmitting the voice data by one sound collecting device, it is possible to remotely control a plurality of driving devices. This makes it possible to improve work efficiency.
特に、第5発明によれば、1つのセンテンスの内容は、記憶された複数の音声認識装置毎に異なる。このため、音声認識装置を有する駆動装置毎に、被制御部を制御するタイミングを異ならせることができる。これにより、1つの収音装置を用いて複数の駆動装置に対して遠隔操作を行う際、駆動装置別に独立した遠隔操作を実現することが可能となる。 In particular, according to the fifth invention, the content of one sentence is different for each of the plurality of stored voice recognition devices. Therefore, the timing for controlling the controlled unit can be different for each drive device having the voice recognition device. As a result, when remote control is performed on a plurality of drive devices using one sound collecting device, it is possible to realize independent remote control for each drive device.
特に、第6発明によれば、評価用音データ送信手段は、複数の評価用音データを無線通信により送信する。また、評価結果送信手段は、評価結果を、無線通信により送信する。このため、収音装置等のキャリブレーションを行う際に費やすデータの送受信回数を、最小限に抑えることができる。これにより、キャリブレーションの調整時間を大幅に削減することが可能となる。 In particular, according to the sixth invention, the evaluation sound data transmitting means transmits a plurality of evaluation sound data by wireless communication. Further, the evaluation result transmitting means transmits the evaluation result by wireless communication. Therefore, the number of times data is transmitted and received when calibrating the sound collecting device or the like can be minimized. This makes it possible to significantly reduce the calibration adjustment time.
特に、第7発明によれば、取得条件は、マイクゲイン、オートゲインコントロール、ダイナミックレンジコントロール、及びアコースティックエコー除去の少なくとも何れかの条件を含む。このため、一度のキャリブレーション手段を行うことで、音声認識システムを利用する様々な状況に適した取得条件を、容易に特定することができる。これにより、利用環境の制限を抑制することが可能となる。 In particular, according to the seventh invention, the acquisition conditions include at least one of microphone gain, auto gain control, dynamic range control, and acoustic echo cancellation. Therefore, by performing the calibration means once, it is possible to easily identify the acquisition conditions suitable for various situations in which the voice recognition system is used. This makes it possible to suppress restrictions on the usage environment.
第8発明によれば、受信部は、音声データを連続した信号として一度に受信する。また、認識部は、音素認識を用い、音声データの内容を認識した認識結果を導出する。このため、音声データの受信開始から音声認識の結果を導くまでの期間を最小限に抑えることができる。これにより、無線通信により送信された音声データにおける認識時間の削減を実現することが可能となる。 According to the eighth invention, the receiving unit receives the voice data as continuous signals at once. In addition, the recognition unit uses phoneme recognition to derive a recognition result that recognizes the content of voice data. Therefore, the period from the start of receiving the voice data to the result of the voice recognition can be minimized. This makes it possible to reduce the recognition time of voice data transmitted by wireless communication.
また、第8発明によれば、受信部は、UHF帯域を利用した無線通信により送信された音声データを受信する。このため、Wi−Fi(登録商標)等のような普及率の高い帯域を利用した無線通信に比べて、同一帯域同士における通信障害の発生する可能性が低い。また、Wi−Fi(登録商標)等を利用した無線通信と同時に利用した場合においても、円滑に無線通信を実現することができる。これにより、用途の拡大を図ることが可能となる。 Further, according to the eighth invention, the receiving unit receives the voice data transmitted by wireless communication using the UHF band. Therefore, compared to wireless communication using a band with a high penetration rate such as Wi-Fi (registered trademark), the possibility of communication failure between the same bands is low. Further, even when it is used at the same time as wireless communication using Wi-Fi (registered trademark) or the like, wireless communication can be smoothly realized. This makes it possible to expand the applications.
以下、本発明の実施形態における音声認識システム及び音声認識装置の一例について、図面を参照しながら説明する。 Hereinafter, an example of the voice recognition system and the voice recognition device according to the embodiment of the present invention will be described with reference to the drawings.
(第1実施形態:音声認識システム100の構成)
図1、及び図2を参照して、第1実施形態における音声認識システム100の構成の一例について説明する。図1は、本実施形態における音声認識システム100の構成の一例を示す模式図であり、図2は、本実施形態における音声認識システム100の動作の一例を示す模式図である。
(First Embodiment: Configuration of voice recognition system 100)
An example of the configuration of the
音声認識システム100は、利用者が音声認識機能を備える装置から離れた場所にいても、利用者の音声を認識するために用いられる。音声認識システム100は、利用者の音声に基づく音声データDを、無線通信Wを介して取得して認識することができる。
The
音声認識システム100は、例えば図1に示すように、音声認識装置1と、収音装置2とを備え、例えば駆動装置3を備えてもよい。音声認識システム100では、音声認識装置1と、収音装置2とが、UHF(Ultra High Frequency)帯域を利用した無線通信Wにより接続される。
The
例えば1つの収音装置2は、複数の音声認識装置1(図1では音声認識装置1a、1b)と無線通信Wにより接続される。このため、利用者は、収音装置2を介して、1つ以上の音声認識装置1に対し、音声に基づく音声データDを送信して認識させることができる。
For example, one
音声認識装置1は、例えば収音装置2に対して100m程度離間した場所に設けられ、例えば10〜30m程度離間した場所に設けられる。このため、音声認識システム100では、利用者が音声認識装置1に対して直接音声を発することができない環境においても、音声認識を実現することが可能となる。
The
音声認識装置1は、例えば有線通信又は無線通信Wを介して、1つ以上の駆動装置3と接続される。このため、音声認識装置1は、音声データDに対する認識結果に基づき、駆動装置3を制御することができる。なお、駆動装置3は、例えば音声認識装置1を有し、駆動装置3に音声認識装置1が内蔵されてもよい。また、音声認識装置1は、例えばインターネット等の通信網に接続されずに、独立して音声認識を行うことができる。
The
認識結果は、駆動装置3を制御するための情報を含むほか、例えば利用者が確認できるテキストデータや、利用者に報知(返答)するための音声に関する情報(音声情報、発話情報)等を含んでもよい。
The recognition result includes information for controlling the
音声認識システム100は、例えば図2に示すように、収音装置2を介して、利用者の音声に基づく音声データDを取得する。その後、収音装置2は、例えばUHF帯域を利用した無線通信Wにより、音声認識装置1に対して音声データDを送信する。
As shown in FIG. 2, for example, the
音声認識装置1は、音声データDを連続した信号として一度に受信する。音声認識装置1は、音素認識を用い、音声データDの内容を認識した認識結果を導出する。このため、音声認識システム100では、音声データDの受信開始から音声認識の結果を導くまでの期間を最小限に抑えることができる。これにより、無線通信Wにより送信された音声データDにおける認識時間の削減を実現することが可能となる。なお、例えば音声認識装置1は、認識結果に基づき、駆動装置3を制御してもよい。
The
音声認識装置1は、例えばJulius等の公知の音素認識技術を含む音声認識エンジンや、Python等のような公知の汎用プログラミング言語を用いて、音声データDの内容を認識した認識結果の導出を実現することができる。音声認識装置1は、例えば受信した音声データDに含まれる音素の配列(音素情報)を抽出し、音素情報に基づき認識結果を導出する。
The
音素情報は、利用者が発する音素の配列(例えば「a/k/a/r/i」等)を複数含む。音素は、母音と、子音とを含む公知のものである。なお、音素情報は、例えば音声の開始を示す無音区間(例えば「silB」等で示される開始無音区間)、及び音声の終了を示す無音区間(例えば「silE」等で示される終了無音区間)の少なくとも何れかを含んでもよい。開始無音区間、及び終了無音区間は、公知の音素認識技術により抽出することができる。 The phoneme information includes a plurality of phoneme sequences (for example, "a / k / a / r / i", etc.) emitted by the user. Phonemes are known including vowels and consonants. Note that the phoneme information includes, for example, a silence section indicating the start of voice (for example, a start silence section indicated by "silB" or the like) and a silence section indicating the end of voice (for example, an end silence section indicated by "silE" or the like). At least any of them may be included. The start silence section and the end silence section can be extracted by a known phoneme recognition technique.
音素情報は、例えば休止区間を含んでもよい。休止区間は、開始無音区間及び終了無音区間よりも短い区間を示し、例えば音素の区間と同程度の区間(長さ)を示す。休止区間は、公知の音素認識技術により抽出することができる。 The phoneme information may include, for example, a pause section. The pause section indicates a section shorter than the start silence section and the end silence section, and indicates, for example, a section (length) similar to the phoneme section. The pause section can be extracted by a known phoneme recognition technique.
<音声認識装置1>
図3(a)は、音声認識装置1の構成の一例を示す模式図である。音声認識装置1として、Raspberry Pi(登録商標)等のシングルボードコンピュータが用いられるほか、例えばパーソナルコンピュータ(PC)等のような公知の電子機器が用いられてもよい。音声認識装置1は、例えば筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105〜108とを備え、例えば通信機器111を備えてもよい。各構成101〜108は、内部バス110により接続される。
<
FIG. 3A is a schematic diagram showing an example of the configuration of the
CPU101は、音声認識装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、文字列データベース等の各種情報が保存される。保存部104として、例えばSDメモリーカードのほか、例えばHDD(Hard Disk Drive)、SSD(Solid State Drive)等のような公知のデータ保存媒体が用いられる。
The
I/F105は、通信機器111との各種情報の送受信を行うための公知のインターフェースである。通信機器111は、収音装置2等との無線通信Wを行うために用いられる。通信機器111として、例えばUHF帯域を利用できる公知の通信制御機器が用いられる。なお、通信機器111は、音声認識装置1に対して後付けで設けられるほか、音声認識装置1に内蔵されてもよい。
The I /
通信機器111は、例えばアンテナと、受信機構とを有し、例えば送信機構を有してもよい。受信機構は、例えば変調されたデータを復調するデジタル復調部と、符号化されたデータを復号する復号化部とを有する。送信機構は、例えば音声をデジタルデータ(音声データD)に変換する変換部と、音声データDを必要に応じて処理する通信部とを有する。通信部は、音声データDを符号化する符号化部と、音声データDを変調する変調部とを有する。変調部は、例えばDQPSK(Differential Quadrature Phase-Shift Keying)等の位相変調方式を用いて、データを変調する。なお、上述した通信機器111における少なくとも一部の機能を、例えば受信部11が行ってもよい。
The
I/F106は、用途に応じて接続される入力部112との各種情報の送受信を行うための公知のインターフェースである。入力部112として、例えばキーボードが用いられ、音声認識システム100の管理等を行う管理者等は、入力部112を介して、各種情報又は音声認識装置1の制御コマンド等を入力又は選択する。
The I /
I/F107は、用途に応じて接続される表示部113との各種情報の送受信を行うための公知のインターフェースである。表示部113は、保存部104に保存された各種情報や、音声認識装置1の処理状況等を出力する。表示部113として、例えばディスプレイが用いられ、例えばタッチパネル式でもよい。この場合、表示部113が入力部112を含む構成としてもよい。
The I /
I/F108は、例えば駆動装置3のような外部機器との各種情報の送受信を行うための公知のインターフェースである。I/F108は、例えば複数設けられ、インターネット等の通信網を介した各種情報の送受信を行うために用いられてもよい。
The I /
なお、I/F105〜I/F108として、例えば同一のものが用いられてもよく、各I/F105〜I/F108として、例えばそれぞれ複数のものが用いられてもよい。また、入力部112及び表示部113の少なくとも何れかは、状況に応じて取り外されてもよい。
As I / F105 to I / F108, for example, the same one may be used, and as each I / F105 to I / F108, for example, a plurality of ones may be used. Further, at least one of the
図3(b)は、音声認識装置1の機能の一例を示す模式図である。音声認識装置1は、受信部11と、認識部12と、記憶部13と、出力部14とを備える。なお、図3(b)に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現される。
FIG. 3B is a schematic diagram showing an example of the function of the
<<受信部11>>
受信部11は、例えば通信機器111を介して、音声データDを受信する。受信部11は、例えばUHF帯域を利用した無線通信Wにより送信された音声データDを、連続した信号として一度に受信する。即ち、受信部11は、例えば公知の無線パケット通信を用いた通信方式のような、受信したパケット毎に対する誤り検出や、各パケットの並べ替え等の処理を行わない。このため、受信部11は、音声データDを受信する際の通信期間を最小限に抑えることができる。
<<
The receiving
<<認識部12>>
認識部12は、音素認識を用い、音声データDの内容を認識した認識結果を導出する。認識部12は、例えばJulius等の公知の音素認識技術を含む音声認識エンジンや、Python等のような公知の汎用プログラミング言語を用いて実現することができる。
<<
The
<<記憶部13>>
記憶部13は、各種情報を保存部104に記憶させ、又は各種情報を保存部104から取出す。記憶部13は、例えば受信部11、認識部12、及び出力部14の処理内容に応じて、各種情報の記憶又は取出しを行う。
<<
The
<<出力部14>>
出力部14は、各種情報を表示部113等に出力する。出力部14は、例えば認識部12により導出された認識結果を、表示部113等に出力する。出力部14は、例えば認識結果に基づき、駆動装置3を制御するための制御情報を生成し、制御情報を駆動装置3に出力する。なお、出力部14は、例えば認識結果を制御情報として、駆動装置3に出力してもよい。
<<
The
<収音装置2>
図4(a)は、収音装置2の構成の一例を示す模式図である。収音装置2は、例えばマイクロフォンMと、制御部21と、変換部22と、通信部23と、アンテナAとを備え、例えば記憶部24を備えてもよい。収音装置2として、インカム(ヘッドセット付きトランシーバ)が用いられるほか、無線通信機能を備えた公知の収音機器が用いられる。
<
FIG. 4A is a schematic view showing an example of the configuration of the
<<マイクロフォンM>>
マイクロフォンMは、利用者の音声を収音する。マイクロフォンMとして、公知の収音機器が用いられる。
<< Microphone M >>
The microphone M collects the user's voice. A known sound collecting device is used as the microphone M.
<<制御部21>>
制御部21は、収音装置2全体の制御を行い、例えば音声データDの送受信に関する動作制御を行う。制御部21は、例えば送信する音声データDの変調方式等を制御するほか、音声データDを送信するタイミング等を制御する。制御部21として、例えばDSP(Digital Signal Processor)等の公知のプロセッサが用いられる。
<<
The
<<変換部22>>
変換部22は、マイクロフォンMにより収音された音声(アナログ信号)をデジタル信号(音声データD)に変換する。変換部22は、例えばPCM(Pulse Code Modulation)のような公知技術を用いて、アナログ信号をデジタル信号に変換し、音声データDとして取得する。変換部22として、A/Dコンバータが用いられる。
<< Conversion unit 22 >>
The conversion unit 22 converts the voice (analog signal) picked up by the microphone M into a digital signal (voice data D). The conversion unit 22 converts an analog signal into a digital signal and acquires it as voice data D by using a known technique such as PCM (Pulse Code Modulation). An A / D converter is used as the conversion unit 22.
<<通信部23>>
通信部23は、UHF帯域を利用した無線通信Wにより、音声データDを送信する。通信部23は、例えばアンテナAを介して、音声データDを送信する。通信部23は、例えば音声データDを符号化する符号化部と、音声データDを変調する変調部とを有する。変調部は、例えばDQPSK等の位相変調方式を用いて、データを変調する。
<<
The
通信部23は、例えばパケット化処理が行われていない音声データDを送信する。即ち、収音装置2では、例えば音声データDに対してパケット化処理を行わない。このため、通信部23は、音声データDを連続した信号として一度に送信することができる。これにより、音声認識装置1の受信部11では、音声データDを連続した信号として一度に受信することが可能となる。
The
収音装置2は、例えば上述した通信機器111と同様に、受信機構を有してもよい。なお、通信機器111の有する変換部、及び通信部は、変換部22、及び通信部23に対応させることができる。
The
<<記憶部24>>
記憶部24は、各種情報を図示しない保存部に記憶させ、又は各種情報を保存部から取出す。保存部は、例えば上述した保存部104と同様に、SDメモリーカード等の公知のデータ保存媒体が用いられる。
<<
The
<駆動装置3>
図4(b)は、駆動装置3の構成の一例を示す模式図である。駆動装置3は、例えば音声認識装置1を有し、例えば制御部31と、被制御部32とを有してもよい。
<Drive
FIG. 4B is a schematic view showing an example of the configuration of the
駆動装置3として、例えば照明、エアコン等の家電製品が用いられるほか、例えば稼働式ベッド、ドア、窓、カーテン等の駆動可能な部分を有する構成が用いられる。駆動装置3として、例えばロボット、無人搬送車(AGV:Automated Guided Vehicle)、生産機械等が用いられてもよい。
As the
<<制御部31>>
制御部31は、駆動装置3全体の制御を行う。制御部31は、例えば音声認識装置1から取得した認識結果、又は認識結果に基づき生成された制御情報に基づき、被制御部32を制御する。制御部31として、例えばCPU等のプロセッサが用いられる。
<<
The
<<被制御部32>>
被制御部32は、制御部31によって制御される。被制御部32は、例えば電気信号を用いて駆動する構成を示し、例えば空圧機構、油圧機構、モータ等を示すほか、制御回路等を示してもよい。
<< Controlled
The controlled
(第1実施形態:音声認識システム100の動作の一例)
次に、第1実施形態における音声認識システム100の動作の一例について説明する。図5は、本実施形態における音声認識システム100の動作の一例を示すフローチャートである。
(First Embodiment: An example of the operation of the voice recognition system 100)
Next, an example of the operation of the
音声認識システム100は、取得手段S110と、送信手段S120と、受信手段S130と、認識手段S140とを備える。取得手段S110及び送信手段S120は、例えば収音装置2を用いて実施することができ、受信手段S130及び認識手段S140は、例えば音声認識装置1を用いて実施することができる。
The
<取得手段S110>
取得手段S110は、音声に基づき、音声データDを取得する。例えば収音装置2のマイクロフォンMは、利用者の音声を収音する。その後、例えば変換部22は、アナログデータの音声をデジタルデータに変換し、音声データDとして取得する。変換部22は、例えばマイクロフォンMで音声を収音したタイミングに沿って、音声データDを逐次取得する。
<Acquisition means S110>
The acquisition means S110 acquires voice data D based on the voice. For example, the microphone M of the
<送信手段S120>
送信手段S120は、UHF帯域を利用した無線通信Wにより、音声データDを送信する。例えば通信部23は、音声データDに対して符号化処理、及び変調処理を実施したあと、アンテナAを介して、音声認識装置1に対して音声データDを送信する。通信部23は、例えば変換部22で音声データDを取得したタイミングに沿って、音声データDを逐次送信する。通信部23は、例えば複数の音声認識装置1に対し、1つの音声データDを送信してもよい。
<Transmission means S120>
The transmission means S120 transmits voice data D by wireless communication W using the UHF band. For example, the
送信手段S120では、例えば通信部23は、音声データDに対してパケット化処理を行わない状態で、音声データDを送信する。このため、音声データDを受信する際、各パケットに対する誤り検出や、各パケットを受信したタイミングとは異なる順番に入れ替える処理を実施する必要がない。
In the transmission means S120, for example, the
なお、例えばWi−Fi(登録商標)等のような無線パケット通信を用いて音声データDを受信する際、環境起因等の不具合によって一部のパケットが損失する場合がある。このとき、受信される音声データDに含まれる情報は、パケット単位で損失する。このため、不具合が音声データDに影響を及ぼした期間よりも長い期間に相当するデータ量の損失が発生し、音声認識の精度に影響を与え得る。従って、無線通信Wを用いて音声データDを送受信する場合、音声認識精度の著しい低下が発生し得る。 When receiving voice data D using wireless packet communication such as Wi-Fi (registered trademark), some packets may be lost due to a problem such as an environment. At this time, the information included in the received voice data D is lost in packet units. Therefore, a loss in the amount of data corresponding to a period longer than the period in which the defect affects the voice data D may occur, which may affect the accuracy of voice recognition. Therefore, when the voice data D is transmitted and received using the wireless communication W, the voice recognition accuracy may be significantly reduced.
これに対し、音声認識システム100において、送信手段S120は、音声データDに対してパケット化処理を行わずに、音声データDを送信する。即ち、無線通信Wによって音声データDを送受信する際、不具合によるデータの損失量は、不具合が音声データDに影響を及ぼした期間に相当する。このため、無線パケット通信を用いて音声データDを送信した場合に比べて、不具合によるデータの損失量を低減することができる。これにより、無線通信Wにより送信された音声データDにおける音声認識精度の低下の抑制が可能となる。
On the other hand, in the
<受信手段S130>
受信手段S130は、音声データDを連続した信号として一度に受信する。例えば音声認識装置1の受信部11は、通信機器111を介して音声データDを受信する。受信部11は、例えば通信部23で音声データDを送信したタイミングに沿って、音声データDを逐次受信する。受信部11は、例えば通信機器111を介して、音声データDの復調、及び復号の少なくとも何れかを行ってもよい。
<Receiving means S130>
The receiving means S130 receives the voice data D as a continuous signal at one time. For example, the receiving
<認識手段S140>
認識手段S140は、音素認識を用い、音声データDの内容を認識した認識結果を導出する。例えば認識部12は、公知の音声認識エンジンを用いて、音声データDの内容に対する認識結果を導出する。認識部12は、例えば受信部11で音声データDを受信したタイミングに沿って、音声データDの内容に対する認識結果を導出する。
<Recognition means S140>
The recognition means S140 uses phoneme recognition to derive a recognition result that recognizes the content of the voice data D. For example, the
例えば音声データDが休止区間を含む場合、認識部12は、休止区間を踏まえた認識結果を導出する。このため、受信手段S130において、音声データDを連続した信号として一度に受信することで、休止区間が損失する可能性を抑制できる。これにより、音声認識精度の向上を図ることが可能となる。
For example, when the voice data D includes a pause section, the
特に、送信手段S120において、音声データDに対してパケット化処理を行わない状態で、音声データDを送信することで、音声認識精度の更なる向上を図ることが可能となる。例えば音声データDに従来のパケット化処理を行う場合、休止区間が失われる可能性が大幅に高くなる。これに対し、音声認識システム100において、認識手段S140では、パケット化処理を行われていない音声データDの内容に対し、認識結果を導出する。このため、休止区間の損失を抑制した状態で、音声認識を実現することができる。
In particular, in the transmission means S120, the voice recognition accuracy can be further improved by transmitting the voice data D in a state where the voice data D is not packetized. For example, when the conventional packetization processing is performed on the voice data D, the possibility that the pause section is lost is greatly increased. On the other hand, in the
その後、例えば必要に応じて認識結果を出力する。例えば出力部14は、I/F107を介して、表示部113に認識結果を出力するほか、I/F108を介して、駆動装置3に認識結果を出力してもよい。
After that, for example, the recognition result is output as needed. For example, the
これにより、音声認識システム100の動作が終了する。
As a result, the operation of the
(第1実施形態:音声認識システム100の第1変形例)
次に、第1実施形態における音声認識システム100の第1変形例について説明する。音声認識システム100の第1変形例では、音声認識装置1が、起動用データベースを参照し、音声データDに対する認識結果を導出する。
(First Embodiment: First modification of voice recognition system 100)
Next, a first modification of the
<起動用データベース>
図6は、起動用データベースの一例を示す模式図である。起動用データベースは、音声認識装置1の保存部104に予め保存される。
<Startup database>
FIG. 6 is a schematic diagram showing an example of a startup database. The startup database is stored in advance in the
起動用データベースは、音声認識システム100における音声認識を開始する際に必要なキーワード(ウェイクワード)を認識する際に参照される。起動用データベースは、例えば利用される公知の音素認識技術との互換性を持たせた状態で、保存部104に保存されてもよい。
The activation database is referred to when recognizing a keyword (wake word) required for starting voice recognition in the
起動用データベースには、予め取得された起動センテンスが複数記憶される。起動センテンスは、1以上の文字列情報と、各文字列情報に紐づく閾値とを含む。起動用センテンスは、例えば文字列情報に紐づく音素情報を含んでもよく、例えば文字列情報の代わりに音素情報を含んでもよい。なお、閾値は、例えば起動センテンス毎に1つ紐づけられてもよい。 A plurality of boot sentences acquired in advance are stored in the boot database. The activation sentence includes one or more character string information and a threshold value associated with each character string information. The activation sentence may include, for example, phoneme information associated with the character string information, and may include, for example, phoneme information instead of the character string information. In addition, one threshold value may be associated with each activation sentence, for example.
起動センテンスは、音声データDの内容を推定するために用いられる。例えば1つの音声データDに対して、1つの起動センテンスが選択される。 The activation sentence is used to estimate the content of the voice data D. For example, one activation sentence is selected for one voice data D.
文字列情報として、単語や形態素等の意味を持つ表現要素が用いられるほか、意味を持たない文字列が用いられてもよい。なお、文字列情報は、日本語のほか、例えば2ヵ国以上の言語を含んでもよく、数字や利用箇所で用いられる略称等の文字列を含んでもよい。 As the character string information, an expression element having a meaning such as a word or a morpheme may be used, or a character string having no meaning may be used. In addition to Japanese, the character string information may include, for example, languages of two or more countries, and may include character strings such as numbers and abbreviations used in places of use.
音素情報として、例えば文字列情報に対応する音素の配列が用いられる。音素情報は、例えば休止区間(図6では「*」)を含んでもよい。音素情報は、例えば同一の文字列情報に対し、異なる音素の配列が紐づけられてもよい。 As the phoneme information, for example, an array of phonemes corresponding to character string information is used. The phoneme information may include, for example, a pause section (“*” in FIG. 6). As the phoneme information, for example, an array of different phonemes may be associated with the same character string information.
閾値は、音声データDに紐づく信頼度と比較を行う際に用いられる。信頼度は、音声データDから音素認識を用いて算出される値を示す。閾値は、例えば0以上1以下の範囲内で、任意の値が予め設定される。 The threshold value is used when comparing with the reliability associated with the voice data D. The reliability indicates a value calculated from the voice data D using phoneme recognition. The threshold value is set in advance, for example, in the range of 0 or more and 1 or less.
起動用データベースには、例えば各起動センテンスに紐づく認識情報が記憶されてもよい。この場合、音声データDに対して1つの起動センテンスを選択することで、選択された起動センテンスに紐づく認識情報を、認識結果として導出することができる。 For example, the recognition information associated with each startup sentence may be stored in the startup database. In this case, by selecting one activation sentence for the voice data D, the recognition information associated with the selected activation sentence can be derived as the recognition result.
例えば複数の起動センテンスは、1つのセンテンス(第1起動センテンス)と、複数のダミーセンテンスとを含んでもよい。第1起動センテンスは、音声認識の開始を示す認識結果(第1認識結果)の導出に用いられる。ダミーセンテンスは、第1認識結果とは異なる認識結果の導出に用いられる。 For example, a plurality of activation sentences may include one sentence (first activation sentence) and a plurality of dummy sentences. The first activation sentence is used to derive a recognition result (first recognition result) indicating the start of speech recognition. The dummy sentence is used to derive a recognition result different from the first recognition result.
例えば第1起動センテンスは、音声認識を開始する旨を示す情報(第1認識情報)と紐づいて、起動用データベースに保存される。このため、音声データDが第1起動センテンスに対応すると判断された場合には、第1認識情報が認識結果として導出され、音声認識を開始することができる。 For example, the first activation sentence is stored in the activation database in association with the information indicating that voice recognition is started (first recognition information). Therefore, when it is determined that the voice data D corresponds to the first activation sentence, the first recognition information is derived as the recognition result, and the voice recognition can be started.
例えばダミーセンテンスは、音声認識を開始しない(例えば「何もしない」)旨を示す情報と紐づいて、起動用データベースに保存される。このため、音声データDがダミーセンテンスに対応すると判断された場合には、音声認識を開始しないようにすることができる。 For example, a dummy sentence is stored in the startup database in association with information indicating that speech recognition is not started (for example, "do nothing"). Therefore, when it is determined that the voice data D corresponds to the dummy sentence, the voice recognition can be prevented from starting.
ここで、上述した無線通信(UHF帯域を利用した無線通信W)により受信した音声データDは、有線等で取得した音声データDに比べて、音声の特徴を認識し易いことを発明者は発見した。このため、音声データDを推定するために用いられる起動センテンスとして、1つの起動センテンスを用いるのみで十分であり、例えば1つの起動センテンスに類似する起動センテンスを設ける必要が無い。これにより、保存するデータ容量の低減を図ることが可能となる。また、1つの第1起動センテンスに対し、複数のダミーセンテンスを設定することで、第1起動センテンスが採用される可能性を高めることができる。これにより、音声認識装置1の誤動作を抑制することが可能となる。
Here, the inventor has discovered that the voice data D received by the above-mentioned wireless communication (wireless communication W using the UHF band) is easier to recognize the characteristics of voice than the voice data D acquired by wire or the like. did. Therefore, it is sufficient to use one activation sentence as the activation sentence used for estimating the voice data D, and it is not necessary to provide, for example, an activation sentence similar to one activation sentence. This makes it possible to reduce the amount of data to be stored. Further, by setting a plurality of dummy sentences for one first activation sentence, it is possible to increase the possibility that the first activation sentence is adopted. This makes it possible to suppress malfunction of the
なお、例えば第1起動センテンスに含まれる閾値を、ダミーセンテンスに含まれる閾値よりも低く設定してもよい。この場合、音声データDに対応するセンテンスとして、第1起動センテンスがより優先的に採用されるようにすることができる。 For example, the threshold value included in the first activation sentence may be set lower than the threshold value included in the dummy sentence. In this case, the first activation sentence can be preferentially adopted as the sentence corresponding to the voice data D.
例えば音声認識システム100が複数の音声認識装置1を備える場合、1つのセンテンス(第1起動センテンス)の内容は、記憶された複数の音声認識装置1毎に異なる。このため、音声認識装置1毎に、認識させるタイミングを異ならせることができる。また、例えば音声認識装置1を有する駆動装置3毎に、被制御部32を制御するタイミングを異ならせることができる。
For example, when the
(第1実施形態:音声認識システム100の動作の第1変形例)
次に、第1実施形態における音声認識システム100の動作の第1変形例について説明する。図7(a)は、本実施形態における音声認識システム100の動作における第1変形例の一部を示すフローチャートである。
(First Embodiment: First modification of the operation of the voice recognition system 100)
Next, a first modification of the operation of the
音声認識システム100の第1変形例では、例えば認識手段S140は、生成手段S141と、指定手段S142と、比較手段S143と、導出手段S144とを有する。なお、音声認識システム100の第1変形例では、例えば図7(b)に示すように、認識部12は、生成部12aと、指定部12bと、比較部12cとを有してもよい。
In the first modification of the
<生成手段S141>
生成手段S141は、上述した受信手段S130のあとに実施される。生成手段S141では、例えば生成部12aは、音素認識を用い、音声データDの内容に対応する候補センテンスを生成する。候補センテンスは、候補データ、及び信頼度をそれぞれ1以上含む。
<Generation means S141>
The generating means S141 is implemented after the receiving means S130 described above. In the generation means S141, for example, the
候補データは、音声データDから音素認識により抽出された音素情報、及び音素情報に対応する文字列の少なくとも何れかを示す。信頼度は、候補データに紐づき、音素認識により抽出された音素情報の確度(抽出精度)を示す。例えば生成部12aは、0以上1以下における範囲で、信頼度を算出する。生成部12aは、例えばJulius等の公知の音声認識エンジンを用いることで、候補センテンスの生成及び信頼度の算出を実現できる。
The candidate data indicates at least one of the phoneme information extracted from the voice data D by phoneme recognition and the character string corresponding to the phoneme information. The reliability indicates the accuracy (extraction accuracy) of the phoneme information extracted by the phoneme recognition in association with the candidate data. For example, the
<指定手段S142>
指定手段S142では、例えば指定部12bは、起動用データベースを参照し、複数の起動センテンスのうち、候補センテンスに対応する起動センテンス(第1起動センテンス)を指定する。指定部12bは、例えば候補センテンスに含まれる候補データと、起動センテンス毎に含まれる文字列情報又は音素情報とを比較し、同一又は類似する起動センテンスを指定する。指定部12bは、例えば候補センテンスに最も類似する起動センテンスを指定する。
<Designation means S142>
In the designation means S142, for example, the
<比較手段S143>
比較手段S143では、例えば比較部12cは、候補センテンスに含まれる信頼度と、指定された起動センテンスに含まれる閾値(第1閾値)とを比較する。比較部12cは、例えば信頼度が閾値以上の場合、候補センテンスが起動センテンスに対応すると判断する。比較部12cは、例えば信頼度が閾値未満の場合、候補センテンスが起動センテンスに対応しないと判断し、例えば再度指定手段S142を実施し、他の起動センテンスを指定してもよい。
<Comparison means S143>
In the comparison means S143, for example, the
なお、候補センテンス及び起動センテンスに複数の信頼度が含まれる場合、比較部12cは、各信頼度と、各閾値とを比較する。この際、候補センテンスが起動センテンスに対応すると判断する基準として、少なくとも一部の信頼度が閾値以上の場合としてもよく、任意に設定することができる。
When the candidate sentence and the activation sentence include a plurality of reliabilitys, the
<導出手段S144>
導出手段S144では、例えば認識部12は、比較手段S143の結果に基づき、認識結果を導出する。例えば起動用データベースに認識情報が記憶される場合、認識部12は、候補センテンスに対応する起動センテンスに紐づく認識情報を、認識結果として導出する。
<Derivation means S144>
In the derivation means S144, for example, the
これにより、例えば音声認識を開始する旨の認識結果が導出された場合、音声認識システム100における音声認識動作が開始され、例えば上述した取得手段S110等を実施する。なお、例えば音声認識を開始しない旨の認識結果が導出された場合、取得手段S110等を実施した上で、起動用データベースを参照する指定手段S142等が再度実施される。
As a result, for example, when a recognition result indicating that voice recognition is started is derived, the voice recognition operation in the
(第1実施形態:音声認識システム100の第2変形例)
次に、第1実施形態における音声認識システム100の第2変形例について説明する。音声認識システム100の第2変形例では、音声認識装置1が、文字列データベース、及び文法データベースを参照し、音声データDに対する認識結果を導出する。
(First Embodiment: Second modification of the voice recognition system 100)
Next, a second modification of the
音声認識システム100の第2変形例では、例えば音声認識装置1は、利用者の用途に応じて構築された文字列データベース、及び文法データベースを参照し、利用者の音声に対応する認識結果を導出する。音声認識装置1は、例えば上述した起動用データベースの代わりに、参照データベースを参照してもよい。
In the second modification of the
<データベース>
図8は、文字列データベース、文法データベース、及び参照データベースの一例を示す。各データベースは、音声認識装置1の保存部104に予め保存される。
<Database>
FIG. 8 shows an example of a character string database, a grammar database, and a reference database. Each database is stored in advance in the
<<文字列データベース>>
文字列データベースには、利用者が発すると想定される文字列(文字列情報)と、文字列情報に対応する音素(音素情報)が記憶される。このため、上記文字列及び音素を蓄積することで、用途に応じた認識を導出でき、様々な用途に展開することが可能となる。
<< Character string database >>
The character string database stores a character string (character string information) that is expected to be emitted by the user and a phoneme (phoneme information) corresponding to the character string information. Therefore, by accumulating the above character strings and phonemes, it is possible to derive recognition according to the application, and it is possible to develop it for various applications.
文字列データベースに記憶される音素の配列(音素情報)は、音声に含まれる休止区間を踏まえて分類することで、無線通信Wにより受信した音声データDに対する認識結果を導出する精度を飛躍的に向上させることが可能である。また、音声認識装置1では、例えば文字列データベースに記憶された文字列情報に限定して、音声に対する認識結果を導出する。このため、用途毎に文法データベースの内容を変更することで、用途に適した認識結果を高精度に導出することが可能となる。
By classifying the phoneme array (phoneme information) stored in the character string database based on the pause section included in the voice, the accuracy of deriving the recognition result for the voice data D received by the wireless communication W is dramatically improved. It is possible to improve. Further, in the
文字列データベースには、予め取得された文字列情報と、文字列情報に紐づく音素情報と、文字列情報に付与されたクラスIDとが記憶される。文字列データベースは、例えば後述する検出部12eによって候補データを検出するときに用いられる。
The character string database stores the character string information acquired in advance, the phonetic information associated with the character string information, and the class ID assigned to the character string information. The character string database is used, for example, when the
クラスIDは、文字列情報に紐づき、文字列情報の単語等が文法上用いられると想定される配列箇所(例えば第1クラスID「1」等)を示す。例えば音声の文法(センテンス)が「対象」+「助詞」+「アクション」として表すことができる場合、クラスIDとして、音声の「対象」となる文字列情報に対して「1」が用いられ、音声の「助詞」となる文字列情報に対して「2」が用いられ、音声の「アクション」となる文字列情報に対して「3」が用いられる。 The class ID indicates an arrangement location (for example, first class ID "1" or the like) in which words or the like of the character string information are assumed to be used grammatically in association with the character string information. For example, when the speech grammar (sentence) can be expressed as "target" + "particle" + "action", "1" is used for the character string information that is the "target" of the speech as the class ID. "2" is used for the character string information that becomes the "particle" of the voice, and "3" is used for the character string information that becomes the "action" of the voice.
文字列データベースに記憶された音素情報は、例えば文字列情報に対応する音素の配列から、少なくとも1つの子音を除いた配列を示してもい。簡易音素情報は、例えば図8における文字列情報「明かり」に紐づいた「a/a/i」のように、文字列情報に対応する基本的な音素の配列「a/k/a/r/i」から、子音を除いた母音のみによる音素の配列を示す。また、簡易音素情報は、例えば文字列情報「弾いて」に紐づいた「i/*/i/e」のように、母音と休止区間との組み合わせによる配列を示してもよいほか、子音を1つ除いた「i/*/i/t/e」のような、少なくとも1つの子音を除いた配列を示してもよい。 The phoneme information stored in the character string database may indicate, for example, an array in which at least one consonant is removed from an array of phonemes corresponding to the character string information. The simple phoneme information is a basic phoneme array "a / k / a / r" corresponding to the character string information, such as "a / a / i" associated with the character string information "light" in FIG. An array of phonemes consisting only of vowels excluding consonants from "/ i" is shown. In addition, the simple phoneme information may indicate an array based on a combination of vowels and pause sections, such as "i / * / i / e" linked to the character string information "play", and consonants. An array excluding at least one consonant, such as "i / * / i / t / e" excluding one, may be shown.
簡易音素情報は、例えば文字列情報に対応する母音と、濁音、半濁音、促音、及び拗音の少なくとも何れかを組み合わせた配列を示してもよい。この場合、簡易音素情報は、上記以外の子音を除いた配列を示し、例えば文字列情報に対応する無声子音を除いた配列を示す。 The simple phoneme information may indicate, for example, an array in which at least one of a vowel corresponding to character string information, a voiced sound, a semi-voiced sound, a sokuon, and a yoon is combined. In this case, the simple phoneme information shows an array excluding consonants other than the above, for example, an array excluding unvoiced consonants corresponding to the character string information.
例えば濁音は、文字列「が」に対応する音素「g/a」等を示し、半濁音は、文字列「ぱ」に対応する音素「p/a」等を示し、促音は、文字列「勝った」に対応する音素「k/a/q/t/a」等を示し、拗音は、文字列「しょ」に対応する音素「s/h/o」等を示す。 For example, a muddy sound indicates a phoneme "g / a" or the like corresponding to the character string "ga", a handakuon indicates a phoneme "p / a" or the like corresponding to the character string "pa", and a prompting sound indicates a character string "p / a" or the like. The phoneme "k / a / q / t / a" and the like corresponding to "win" are shown, and the phoneme "s / h / o" and the like corresponding to the character string "sho" are shown.
簡易音素情報の示す配列に、濁音、半濁音、促音、及び拗音の少なくとも何れかを含ませることで、特徴的な音声に音声認識の対象を絞ることができ、認識精度を更に向上させることが可能となる。例えば簡易音素情報の配列に、濁音、及び半濁音の少なくとも何れかを含ませることで、方言等の特徴を踏まえた音声認識を実現することができる。また、例えば簡易音素情報の配列に、促音、及び拗音の少なくとも何れかを含ませることで、認識し難い音声に対して認識精度の低下を抑制することができる。 By including at least one of voiced sound, semi-voiced sound, sokuon, and yoon in the arrangement indicated by the simple phoneme information, it is possible to narrow down the target of voice recognition to characteristic voices and further improve the recognition accuracy. It will be possible. For example, by including at least one of voiced sound and semi-voiced sound in the array of simple phoneme information, voice recognition based on characteristics such as dialect can be realized. Further, for example, by including at least one of a sokuon and a yoon in the array of simple phoneme information, it is possible to suppress a decrease in recognition accuracy for a voice that is difficult to recognize.
また、文字列データベースに記憶された音素情報は、1つの文字列情報に紐づく2つ以上のそれぞれ異なる音素の配列を示す音素候補情報を含んでもよい。各音素候補情報は、例えば図8における文字列情報「消して」に紐づいた「k/e/s/i/t/e」及び「e/i/e」のように、1つの文字列情報に対応し、それぞれ異なる音素の配列を示す。なお、例えば音素候補情報が、上述した簡易音素情報を含んでもよい。この場合、複数の利用者の中で子音を発することが困難な利用者が含まれる状況等においても、認識精度の低下を抑制することができる。 Further, the phoneme information stored in the character string database may include phoneme candidate information indicating an array of two or more different phonemes associated with one character string information. Each phoneme candidate information is a single character string such as "k / e / s / i / t / e" and "e / i / e" linked to the character string information "erase" in FIG. Corresponds to the information and shows a different arrangement of phonemes. For example, the phonetic candidate information may include the above-mentioned simple phonetic information. In this case, it is possible to suppress a decrease in recognition accuracy even in a situation where a user who has difficulty in producing a consonant among a plurality of users is included.
なお、例えば標準語における音素の配列「k/e/s/i/t/e」と、方言における音素の配列「k/e/s/u/t/e」とを、2つの音素候補情報として1つの文字列情報に紐づけてもよい。また、互いに異なる言語を、2つの音素候補情報として1つの文字列情報に紐づけてもよい。 For example, the phoneme array "k / e / s / i / t / e" in the standard language and the phoneme array "k / e / s / u / t / e" in the dialect are two phoneme candidate information. May be associated with one character string information. Further, different languages may be associated with one character string information as two phoneme candidate information.
以下、音素情報には、上述した簡易音素情報及び音素候補情報の少なくとも何れか含んでもよい点は同様であり、適宜説明を省略する。 Hereinafter, the phoneme information may include at least one of the above-mentioned simple phoneme information and phoneme candidate information, and the description thereof will be omitted as appropriate.
<<文法データベース>>
文法データベースには、文字列情報を組み合わせたセンテンスを生成するために必要な文法情報が記憶される。文法情報は、文字列情報毎に紐づくクラスIDの配列順序を示す情報を複数含む。文法データベースを参照することで、休止区間を踏まえて分類された音素の配列に基づいて文字列情報を検出したあと、容易に各文字列情報を組み合わせることができる。これにより、音声に対する文法を考慮した認識結果を導出することができる。この結果、利用者等の発する音声の内容を踏まえた音声認識を、高精度に実現することが可能となる。
<< Grammar database >>
The grammar database stores the grammar information required to generate a sentence that combines character string information. The grammatical information includes a plurality of information indicating the arrangement order of the class IDs associated with each character string information. By referring to the grammar database, it is possible to easily combine each character string information after detecting the character string information based on the arrangement of phonemes classified based on the pause interval. As a result, it is possible to derive a recognition result in consideration of the grammar for speech. As a result, it becomes possible to realize highly accurate voice recognition based on the content of the voice emitted by the user or the like.
文法データベースには、予め取得された複数のクラスIDの配列順序を示す文法情報が記憶される。文法データベースは、例えば
生成部12aによって信頼度を算出するときに用いられる。文法情報として、例えば第1文法情報「1、2、3」が用いられる場合、音声の候補として「対象」+「助詞」+「アクション」を示すセンテンスを生成することができる。文法情報は、例えば第1文法情報「1、2、3」、第2文法情報「4、5、6」、第3文法情報「2、1、3」等のクラスIDの配列順序を複数含む。
The grammar database stores grammar information indicating the sequence order of a plurality of class IDs acquired in advance. The grammar database is used, for example, when the
<<参照データベース>>
参照データベースには、予め取得された文字列情報と、文字列を組み合わせた参照センテンスと、文字列情報毎に付与された閾値とが記憶され、例えば文字列情報に紐づく音素情報が記憶されてもよい。参照データベースは、上述した起動用データベースと同様に用いられる。参照データベースは、例えば起動用データベースを参照して音声認識を開始したあと、指定手段S142等を実施するときに起動用データベースの代わりに用いられる。なお、参照データベースに記憶される文字列情報及び音素情報は、例えば文字列データベースに記憶される文字列情報及び音素情報と等しくすることで、データ容量を少なくすることができる。
<< Reference database >>
The reference database stores the character string information acquired in advance, the reference sentence that combines the character strings, and the threshold value assigned to each character string information. For example, the phonetic information associated with the character string information is stored. May be good. The reference database is used in the same manner as the startup database described above. The reference database is used in place of the startup database when, for example, the designated means S142 or the like is implemented after starting voice recognition by referring to the startup database. The data capacity can be reduced by making the character string information and the phonetic element information stored in the reference database equal to, for example, the character string information and the phonetic element information stored in the character string database.
参照データベースに記憶された音素情報は、例えば上述した簡易音素情報、及び音素候補情報の少なくとも何れかを含んでもよい。この場合、例えば図8に示すように、1つの文字列情報「明かり」に紐づく2つの音素候補情報「a/k/a/r/i」、「a/a/i」毎に、異なるセンテンスに分類する(図8では第1、第3参照センテンス)ほか、同一のセンテンスとしてもよい。また、例えば1つの文字列情報「弾いて」に紐づく2つの音素候補情報「h/i/*/i/t/e」、「i/*/i/e」毎に異なる閾値「0.800」、「0.890」を設定してもよいほか、同一の閾値を設定してもよい。 The phoneme information stored in the reference database may include, for example, at least one of the above-mentioned simple phoneme information and phoneme candidate information. In this case, for example, as shown in FIG. 8, the two phoneme candidate information "a / k / a / r / i" and "a / a / i" associated with one character string information "light" are different. In addition to classifying the sentences (see the first and third sentences in FIG. 8), the same sentences may be used. Further, for example, a different threshold value "0." For each of the two phoneme candidate information "h / i / * / i / t / e" and "i / * / i / e" linked to one character string information "play". In addition to setting "800" and "0.890", the same threshold value may be set.
なお、例えば簡易音素情報が優先的に選択されるように、簡易音素情報に紐づく閾値を低くしてもよい。この場合、濁音、半濁音、促音、拗音等を含む音声を、特徴的な音声として優先的に認識させることもできる。 In addition, for example, the threshold value associated with the simple phoneme information may be lowered so that the simple phoneme information is preferentially selected. In this case, a voice including a voiced sound, a semi-voiced sound, a sokuon, a yoon, etc. can be preferentially recognized as a characteristic voice.
(第1実施形態:音声認識システム100の動作の第2変形例)
次に、第1実施形態における音声認識システム100の動作の第2変形例について説明する。図9(a)は、本実施形態における音声認識システム100の動作における第2変形例の一部を示すフローチャートである。
(First Embodiment: Second modification of the operation of the voice recognition system 100)
Next, a second modification of the operation of the
音声認識システム100の第2変形例では、例えば認識手段S140は、抽出手段S145と、検出手段S146とを有する。なお、音声認識システム100の第2変形例では、例えば図9(b)に示すように、認識部12は、抽出部12dと、検出部12eとを有してもよい。
In the second modification of the
<抽出手段S145>
抽出手段S145は、上述した受信手段S130のあとに実施される。抽出手段S145では、例えば抽出部12dは、音素認識により、音声データDに含まれる開始無音区間及び終了無音区間を抽出する。また、抽出部12dは、開始無音区間と終了無音区間との間に挟まれた音素及び休止区間の配列を、音素認識により認識対象データとして抽出する。即ち、抽出部12dの基本的な機能は、音素認識技術を用いることにより実現することができる。
<Extraction means S145>
The extraction means S145 is implemented after the reception means S130 described above. In the extraction means S145, for example, the
抽出部12dは、例えば100ミリ秒以上1秒以下の非発話状態(無音区間)を、開始無音区間及び終了無音区間として抽出する。抽出部12dは、開始無音区間と終了無音区間との間に挟まれた区間(音声区間)に対し、音素及び休止区間を割り当てる。抽出部12dは、それぞれ割り当てられた音素及び休止区間の配列を、認識対象データとして抽出する。
The
抽出部12dは、例えば各音素の長さ、又は認識対象データ全体の長さを判定したあと、休止区間の長さを設定した上で、音素及び休止区間を割り当てた配列を、認識対象データとして抽出してもよい。すなわち、抽出部12dは、音素の長さ又は認識対象データ全体の長さに応じて、休止区間の長さを設定してもよい。
The
抽出部12dは、例えば図10の抽出手段S145に示すように、開始無音区間「silB」及び終了無音区間「silE」を抽出し、音声区間における配列「a/k/a/r/i/*/w/o/*/ts/u/k/e/t/e」(*は休止区間を示す)を、対象認識データとして抽出する。抽出部12dは、例えば1つの音声データDからそれぞれ異なる配列の対象認識データを複数抽出してもよい。この場合、抽出部12dにおける音素及び休止区間の割り当てに伴うバラつきを考慮した音声認識を実施することができる。例えば抽出部12dは、1つ以上5つ以下の対象認識データを抽出することで、処理時間を抑えた上で、認識精度を高めることができる。なお、抽出部12dは、例えば開始無音区間及び終了無音区間の少なくとも何れかを含む配列を、対象認識データとして抽出してもよい。
As shown in the extraction means S145 of FIG. 10, the
休止区間は、例えば呼吸音及びリップノイズの少なくとも何れかを含んでもよい。即ち、抽出部12dは、例えば休止区間に含まれる呼吸音及びリップノイズの少なくとも何れかを、認識対象データとして抽出してもよい。この場合、後述する文字列データベース等に記憶された音素情報に、呼吸音及びリップノイズの少なくとも何れかを含ませることで、より精度の高い認識結果を導出することが可能となる。
The rest interval may include, for example, at least one of breath sounds and lip noise. That is, the
<検出手段S146>
検出手段S146では、例えば検出部12eは、文字列データベースを参照し、認識対象データの有する音素の配列に対応する音素情報を選択する。また、検出部12eは、選択された音素情報に紐づく文字列情報及びクラスIDを候補データとして複数検出する。
<Detecting means S146>
In the detection means S146, for example, the
検出部12eは、例えば図10に示すように、認識対象データに対応する音素情報「a/k/a/r/i」、「w/o」、「ts/u/k/e/t/e」を選択し、各音素情報に紐づく文字列情報及びクラスID「明かり/1」、「を/2」、「つけて/3」を、それぞれ候補データとして検出する。このとき、認識対象データの数に応じて、候補データの数が増加する。なお、各音素の配列は、予め休止区間毎に区切られて分類されるほか、音素及び休止区間を含む音素情報に基づいて分類されてもよい。
As shown in FIG. 10, for example, the
<生成手段S141の変形例>
検出手段S146のあと、例えば生成手段S141が実施される。生成手段S141は、例えば上述した内容に加えて、文法データベースを参照し、候補センテンスを生成することができる。
<Modification example of generation means S141>
After the detection means S146, for example, the generation means S141 is implemented. The generation means S141 can generate a candidate sentence by referring to the grammar database, for example, in addition to the contents described above.
生成手段S141では、例えば生成部12aは、文法データベースを参照し、複数の候補データを文法情報に基づき組み合わせたセンテンスを生成する。また、生成部12aは、センテンスに含まれる候補データ毎の文字列情報に対する信頼度を、文法データベースを用いて算出する。信頼度の算出には、例えば文法データベースを参照したスタックデコーディングサーチが行われる。
In the generation means S141, for example, the
生成部12aは、例えば図10に示すように、第1文法情報「1、2、3」に含まれるクラスID毎に、各候補データ「明かり/1」、「を/2」、「つけて/3」のクラスIDを対応させ、センテンス「明かり/1」「を/2」「つけて/3」を生成する。このとき、例えば文法情報が「3、1、2」の場合、センテンスとして「つけて/3」「明かり/1」「を/2」が生成される。
As shown in FIG. 10, for example, the
生成部12aは、センテンスに含まれる各候補データ「明かり/1」、「を/2」、「つけて/3」、に対応する信頼度「0.982」、「1.000」、「0.990」を算出する。生成部12aは、各候補データの文字列情報に対して0以上1以下の範囲で信頼度を算出する。
The
生成部12aは、例えば文法データベースの文法情報の種類に応じて、複数のセンテンスを生成することができる。また、生成部12aは、文法情報の種類を選択することで、状況に適した音声認識を高精度で実施することができる。
The
生成部12aは、例えば各センテンスに対して、優先度を示すランクを設定(図10ではランク1〜ランク5)してもよい。ランクを設定することで、任意のランク下位にランク付けされたセンテンス(例えばランク6以下)を、評価対象から除外することができる。このため、後述する評価データとして選択される候補データの数を減らすことができ、処理速度の向上を図ることが可能となる。
For example, the
生成部12aは、例えば内容の異なるセンテンスに同一の候補データが含まれる場合、各候補データにはそれぞれ異なる信頼度を算出してもよい。例えば、第1センテンスに含まれる各候補データ「明かり/1」、「を/2」、「つけて/3」に対応する信頼度「0.982」、「1.000」、「0.990」が算出された場合、第2センテンスに含まれる各候補データ「明かり/1」、「を/2」、「弾いて/3」に対応する信頼度「0.942」、「1.000」、「0.023」が算出される。すなわち、同一の候補データ「明かり」であっても、センテンスの内容や組み合わせの順序によって、異なる信頼度が算出されてもよい。
For example, when the same candidate data is included in sentences having different contents, the
例えば信頼度として、各文字列情報に対して予め設定された値が用いられてもよい。この場合、予め設定された値は、例えば文法データベースに記憶される。上記のほか、例えば信頼度として、検出部12eにおいて検出された候補データ(又は候補データの文字列情報)の種類及び数に応じた相対値が用いられてもよい。例えば検出部12eにおいて検出された複数の候補データにおいて、1つのクラスIDが付与された文字列情報の種類が多くなるにつれて、各文字列情報に対して低い信頼度を算出するようにしてもよい。
For example, as the reliability, a preset value may be used for each character string information. In this case, the preset value is stored in the grammar database, for example. In addition to the above, for example, as the reliability, a relative value according to the type and number of candidate data (or character string information of the candidate data) detected by the
その後、例えば生成部12aは、信頼度に基づき、複数の候補データから1つ以上の候補データを選択し、選択した候補データに紐づく信頼度を含めた候補センテンスとして生成する。生成部12aは、例えば複数の候補データのうち、クラスID毎に最も高い信頼度が算出された候補データを選択し、候補センテンスとして生成する。例えば生成部12aは、同じクラスID「3」における候補データ「つけて/3/0.990」、「弾いて/3/0.023」のうち、最も高い信頼度を有する候補データ「つけて/3/0.990」を選択し、候補センテンスとして生成する。
After that, for example, the
その後、上述した指定手段S142等が実施される(例えば図7(a)、図10に示す指定手段S142、比較手段S143、導出手段S144)。なお、指定手段S142等においては、参照データベース又は起動用データベースが状況に応じて参照される。 After that, the above-mentioned designation means S142 and the like are implemented (for example, the designation means S142, the comparison means S143, and the derivation means S144 shown in FIG. 7A and FIG. 10). In the designating means S142 and the like, the reference database or the startup database is referred to depending on the situation.
なお、生成手段S141では、例えば候補センテンスを生成したあと、候補センテンスに基づき認識結果を導出してもよい。その場合、指定手段S142等は実施しなくてもよい。 In the generation means S141, for example, after generating a candidate sentence, the recognition result may be derived based on the candidate sentence. In that case, the designation means S142 and the like need not be implemented.
例えば生成部12aは、例えば候補センテンスをテキストや数値等のデータ形式に変換し、認識結果として導出するほか、例えば候補センテンスを音声データ形式や、駆動装置3を制御するための制御データ形式に変換し、認識結果として導出してもよい。なお、候補センテンスに基づくテキストや数値等のデータ形式、音声データ形式、又は制御データ形式に変換する方法は、公知の技術を用いることができ、必要に応じて各データ形式を蓄積したデータベース等を用いてもよい。
For example, the
本実施形態によれば、受信手段S130は、音声データDを連続した信号として一度に受信する。また、認識手段S140は、音素認識を用い、音声データDの内容を認識した認識結果を導出する。このため、音声データDの受信開始から音声認識の結果を導くまでの期間を最小限に抑えることができる。これにより、無線通信Wにより送信された音声データDにおける認識時間の削減を実現することが可能となる。 According to the present embodiment, the receiving means S130 receives the voice data D as continuous signals at once. Further, the recognition means S140 uses phoneme recognition to derive the recognition result of recognizing the content of the voice data D. Therefore, the period from the start of receiving the voice data D to the result of the voice recognition can be minimized. This makes it possible to reduce the recognition time of the voice data D transmitted by the wireless communication W.
また、本実施形態によれば、送信手段S120は、UHF帯域を利用した無線通信Wにより、音声データDを送信する。このため、Wi−Fi(登録商標)等のような普及率の高い帯域を利用した無線通信に比べて、同一帯域同士における通信障害の発生する可能性が低い。また、Wi−Fi(登録商標)等を利用した無線通信と同時に利用した場合においても、円滑に無線通信Wを実現することができる。これにより、用途の拡大を図ることが可能となる。 Further, according to the present embodiment, the transmission means S120 transmits the voice data D by the wireless communication W using the UHF band. Therefore, compared to wireless communication using a band with a high penetration rate such as Wi-Fi (registered trademark), the possibility of communication failure between the same bands is low. Further, even when it is used at the same time as wireless communication using Wi-Fi (registered trademark) or the like, wireless communication W can be smoothly realized. This makes it possible to expand the applications.
上記に加え、UHF帯域を利用した無線通信Wを用いることで、Wi−Fi(登録商標)やBluetooth(登録商標)等に比べ、認証コストが不要となるほか、プロトコルスタックが不要となる。このため、処理負荷を低減できるほか、及びリアルタイム性の向上を図ることができる。 In addition to the above, by using the wireless communication W using the UHF band, the authentication cost is not required and the protocol stack is not required as compared with Wi-Fi (registered trademark) and Bluetooth (registered trademark). Therefore, the processing load can be reduced and the real-time performance can be improved.
また、本実施形態によれば、送信手段S120は、パケット化処理が行われていない音声データDを送信する。このため、音声データDを受信する際、各パケットに対する誤り検出や、各パケットを受信したタイミングとは異なる順番に入れ替える処理等を、実施する必要がない。これにより、無線通信Wにより送信された音声データDにおける認識時間の削減を容易に実現することが可能となる。 Further, according to the present embodiment, the transmission means S120 transmits the voice data D that has not been packetized. Therefore, when receiving the voice data D, it is not necessary to perform error detection for each packet, processing for replacing each packet in a different order from the reception timing, and the like. This makes it possible to easily reduce the recognition time of the voice data D transmitted by the wireless communication W.
また、本実施形態によれば、指定手段S142は、起動用データベースを参照し、候補センテンスに対応する第1起動センテンスを指定する。このため、起動用データベースに記憶された起動センテンスの内容を変更することで、導出される認識結果の内容を容易に変更することができる。これにより、用途に応じたカスタマイズを容易に実現することが可能となる。 Further, according to the present embodiment, the designating means S142 refers to the startup database and designates the first startup sentence corresponding to the candidate sentence. Therefore, by changing the content of the startup sentence stored in the startup database, the content of the derived recognition result can be easily changed. This makes it possible to easily realize customization according to the application.
また、本実施形態によれば、複数の起動センテンスは、音声認識の開始を示す第1認識結果の導出に用いられる1つのセンテンスと、第1認識結果とは異なる認識結果の導出に用いられる複数のダミーセンテンスとを含む。このため、無線通信Wにより送信された音声データDに対し、第1認識結果を優先的に生成させることができる。これにより、音声認識精度の更なる向上を図ることが可能となる。 Further, according to the present embodiment, the plurality of activation sentences are one sentence used for deriving a first recognition result indicating the start of speech recognition and a plurality of sentences used for deriving a recognition result different from the first recognition result. Includes dummy sentences and. Therefore, the first recognition result can be preferentially generated for the voice data D transmitted by the wireless communication W. This makes it possible to further improve the voice recognition accuracy.
また、本実施形態によれば、駆動装置3は、認識手段S140により導出された認識結果に基づき制御される被制御部32を有する。このため、音声データDを1つの収音装置2により送信することで、複数の駆動装置3に対して遠隔操作を行うことができる。これにより、作業効率の向上を図ることが可能となる。
Further, according to the present embodiment, the
また、本実施形態によれば、1つのセンテンスの内容は、記憶された複数の音声認識装置1毎に異なる。このため、音声認識装置1を有する駆動装置3毎に、被制御部32を制御するタイミングを異ならせることができる。これにより、1つの収音装置2を用いて複数の駆動装置3に対して遠隔操作を行う際、駆動装置3別に独立した遠隔操作を実現することが可能となる。
Further, according to the present embodiment, the content of one sentence is different for each of the plurality of stored
また、本実施形態によれば、受信部11は、音声データDを連続した信号として一度に受信する。また、認識部12は、音素認識を用い、音声データDの内容を認識した認識結果を導出する。このため、音声データDの受信開始から音声認識の結果を導くまでの期間を最小限に抑えることができる。これにより、無線通信Wにより送信された音声データDにおける認識時間の削減を実現することが可能となる。
Further, according to the present embodiment, the receiving
また、本実施形態によれば、受信部11は、UHF帯域を利用した無線通信Wにより送信された音声データDを受信する。このため、Wi−Fi(登録商標)等のような普及率の高い帯域を利用した無線通信に比べて、同一帯域同士における通信障害の発生する可能性が低い。また、Wi−Fi(登録商標)等を利用した無線通信と同時に利用した場合においても、円滑に無線通信Wを実現することができる。これにより、用途の拡大を図ることが可能となる。
Further, according to the present embodiment, the receiving
(第2実施形態:音声認識システム100)
次に、第2実施形態における音声認識システム100の一例について説明する。上述した実施形態と、第2実施形態との違いは、音声データDのキャリブレーションを行う点である。なお、上述した実施形態と同様の内容については、説明を省略する。
(Second embodiment: voice recognition system 100)
Next, an example of the
音声認識システム100では、例えば図11に示すように、収音装置2を介して、キャリブレーション用の音を収音し、複数の評価用音データDaを生成する。このとき、複数のキャリブレーション用の音毎に対し、評価用音データDaを生成するほか、例えば1つのキャリブレーション用の音に対し、複数の評価用音データDaを生成してもよい。その後、収音装置2は、例えばUHF帯域を利用した無線通信Wにより、音声認識装置1に対して複数の評価用音データDaを送信する。
In the
音声認識装置1は、複数の評価用音データDaを受信する。音声認識装置1は、音素認識を用い、各評価用音データDaの内容を認識し、各認識結果に基づく評価結果Rを導出する。その後、音声認識装置1は、例えばUHF帯域を利用した無線通信Wにより、収音装置2に対して評価結果Rを送信する。
The
収音装置2は、評価結果Rを受信し、評価結果Rに基づく設定条件を設定する。このため、音声認識システム100では、キャリブレーションに必要な複数の評価用音データDaの評価結果Rを、一度の無線通信Wにより送受信することができる。これにより、従来のような1つの評価用音データに対する評価結果を受信し、評価結果に基づき設定を変更した上で再度1つの評価音データを送信し、評価結果を受信して設定を変更する、という動作を繰り返す場合に比べて、送信及びキャリブレーションの調整時間を大幅に削減することが可能となる。
The
(第2実施形態:音声認識システム100の動作の一例)
次に、第2実施形態における音声認識システム100の動作の一例について説明する。図12(a)は、本実施形態における音声認識システム100の動作における一例の一部を示すフローチャートである。
(Second Embodiment: Example of operation of voice recognition system 100)
Next, an example of the operation of the
音声認識システム100では、上述した実施形態の各手段に加え、キャリブレーション手段S200を更に備える。キャリブレーション手段S200は、主に上述した取得手段S110の前に実施され、音声認識精度の向上に繋げることができる。
The
キャリブレーション手段S200は、収音手段S210と、評価用音データ生成手段S220と、評価用音データ送信手段S230と、評価用音データ受信手段S240と、評価手段S250と、評価結果送信手段S260と、設定手段S270とを有する。なお、音声認識装置1は、例えば図12(b)に示すように、上述した実施形態の各構成に加え、評価部15を更に備えてもよい。
The calibration means S200 includes a sound collecting means S210, an evaluation sound data generating means S220, an evaluation sound data transmitting means S230, an evaluation sound data receiving means S240, an evaluation means S250, and an evaluation result transmitting means S260. , And setting means S270. The
<収音手段S210>
収音手段S210では、例えば収音装置2のマイクロフォンMは、キャリブレーション用の音を収音する。マイクロフォンMは、利用者の音声をキャリブレーション用の音として収音するほか、例えば予め録音された音声やキャリブレーション用の音源を、キャリブレーション用の音として収音してもよい。
<Sound collecting means S210>
In the sound collecting means S210, for example, the microphone M of the
<評価用音データ生成手段S220>
評価用音データ生成手段S220では、例えば変換部22は、キャリブレーション用の音に基づく評価用音データDaを、複数生成する。変換部22は、アナログデータのキャリブレーション用の音をデジタルデータに変換し、評価用音データDaとして生成する。
<Evaluation sound data generation means S220>
In the evaluation sound data generation means S220, for example, the conversion unit 22 generates a plurality of evaluation sound data Da based on the calibration sound. The conversion unit 22 converts the sound for calibration of analog data into digital data and generates it as evaluation sound data Da.
変換部22は、例えば収音手段S210において収音された、それぞれ異なる複数のキャリブレーション用の音に対し、それぞれデジタルデータに変換することで複数の評価用音データDaを生成する。この場合、例えば各キャリブレーションの音に対し、それぞれ異なる変換条件が、予め利用者等により設定されてもよい。 The conversion unit 22 generates a plurality of evaluation sound data Das by converting a plurality of different calibration sounds picked up by the sound collecting means S210 into digital data. In this case, for example, different conversion conditions may be set in advance by the user or the like for the sound of each calibration.
上記のほか、変換部22は、例えば図13に示すような参照用テーブルを参照し、1つのキャリブレーション用の音に対し、デジタルデータの変換条件が異なる複数の評価用音データDaを生成してもよい。なお、参照用テーブルの代わりに、予め利用者等により保存された任意の変換条件を参照してもよい。 In addition to the above, the conversion unit 22 refers to, for example, a reference table as shown in FIG. 13 and generates a plurality of evaluation sound data Das having different digital data conversion conditions for one calibration sound. You may. In addition, instead of the reference table, any conversion condition saved in advance by the user or the like may be referred to.
参照用テーブルには、アナログデータからデジタルデータへの変換条件(音声データDの取得条件)が予め記憶される。変換条件として、公知の変換パラメータが用いられ、例えば図13に示すように、マイクゲイン(MIC Gain)、オートゲインコントロール(AGC:Auto Gain Control)、ダイナミックレンジコントロール(DRC:Dynamic Range Control)、及びアコースティックエコー除去(AEC:Acoustic Echo Cancellation)の少なくとも何れかの条件を含み、例えば参照用テーブルには、各条件が設定された複数の組(No.)が記憶される。このため、変換部22は、参照用テーブルを参照することで、1つのキャリブレーション用の音に対し、それぞれ変換条件の異なる複数の評価用音データDaを生成することができる。 In the reference table, conversion conditions from analog data to digital data (acquisition conditions for audio data D) are stored in advance. Known conversion parameters are used as conversion conditions, for example, as shown in FIG. 13, microphone gain (MIC Gain), auto gain control (AGC: Auto Gain Control), dynamic range control (DRC: Dynamic Range Control), and A plurality of sets (No.) in which at least one of the conditions of Acoustic Echo Cancellation (AEC) is included and each condition is set are stored in the reference table, for example. Therefore, the conversion unit 22 can generate a plurality of evaluation sound data Das having different conversion conditions for one calibration sound by referring to the reference table.
<評価用音データ送信手段S230>
評価用音データ送信手段S230では、例えば通信部23は、例えばUHF帯域を利用した無線通信Wにより、複数の評価用音データDaを送信する。例えば通信部23は、複数の評価用音データDaに対して符号化処理、及び変調処理を実施したあと、アンテナAを介して、音声認識装置1に対して複数の評価用音データDaを送信する。
<Evaluation sound data transmission means S230>
In the evaluation sound data transmission means S230, for example, the
例えば通信部23は、複数の評価用音データDaに対してパケット化処理を行わない状態で、評価用音データDaを送信する。このため、複数の評価用音データDaを受信する際、各パケットに対する誤り検出や、各パケットを受信したタイミングとは異なる順番に入れ替える処理を実施する必要がない。
For example, the
<評価用音データ受信手段S240>
評価用音データ受信手段S240では、例えば音声認識装置1の受信部11は、通信機器111を介して複数の評価用音データDaを受信する。受信部11は、例えば通信部23で複数の評価用音データDaを送信したタイミングに沿って、複数の評価用音データDaを逐次受信する。受信部11は、例えば通信機器111を介して、評価用音データDaの復調、及び復号の少なくとも何れかを行ってもよい。
<Evaluation sound data receiving means S240>
In the evaluation sound data receiving means S240, for example, the receiving
<評価手段S250>
評価手段S250では、例えば評価部15は、音素認識を用いて、複数の評価用音データDaに対する評価結果Rを生成する。例えば評価部15は、公知の音声認識エンジンを用いて、複数の評価用音データDaの内容に対する評価を実施し、最も精度の高い評価が得られた評価用音データDaを選択し、選択した評価用音データDa(例えば第1データ)の情報を含む評価結果Rを生成する。
<Evaluation means S250>
In the evaluation means S250, for example, the
<評価結果送信手段S260>
評価結果送信手段S260では、例えば出力部14は、通信機器111を介して評価結果Rを送信する。出力部14は、例えばUHF帯域を利用した無線通信Wにより、収音装置2に対して評価結果Rを送信する。例えば出力部14は、評価結果Rに対して符号化処理、及び変調処理を実施したあと、収音装置2に対して評価結果Rを送信する。
<Evaluation result transmission means S260>
In the evaluation result transmitting means S260, for example, the
<設定手段S270>
設定手段S270では、例えば収音装置2の通信部23は、評価結果Rを受信する。収音装置2は、例えばアンテナAを介して評価結果Rを受信し、評価結果Rの復調、及び復号を行う。
<Setting means S270>
In the setting means S270, for example, the
その後、例えば制御部21は、評価結果Rに基づく音声データDの取得条件を設定する。制御部21は、例えば送信された複数の評価用音データDaのうち、評価結果Rに含まれる第1データに紐づく評価用音データDaを選択する。その後、制御部21は、選択した評価用音データDaの生成に用いられたデジタルデータの変換条件を特定することで、音声データDの取得条件を設定することができる。この際、制御部21は、参照用テーブルを参照して設定するほか、例えば予め設定された任意のパラメータを参照してもよい。
After that, for example, the
その後、上述した取得手段S110等が実施され、音声認識システム100が終了する。
After that, the above-mentioned acquisition means S110 and the like are implemented, and the
本実施形態によれば、上述した実施形態と同様の効果を得ることが可能となる。 According to this embodiment, it is possible to obtain the same effect as that of the above-described embodiment.
また、本実施形態によれば、評価用音データ送信手段S230は、複数の評価用音データDaを無線通信Wにより送信する。また、評価結果送信手段S260は、評価結果Rを、無線通信Wにより送信する。このため、収音装置2等のキャリブレーションを行う際に費やすデータの送受信回数を、最小限に抑えることができる。これにより、キャリブレーションの調整時間を大幅に削減することが可能となる。
Further, according to the present embodiment, the evaluation sound data transmission means S230 transmits a plurality of evaluation sound data Das by wireless communication W. Further, the evaluation result transmitting means S260 transmits the evaluation result R by the wireless communication W. Therefore, the number of times data is transmitted and received when calibrating the
また、本実施形態によれば、取得条件は、マイクゲイン、オートゲインコントロール、ダイナミックレンジコントロール、及びアコースティックエコー除去の少なくとも何れかの条件を含む。このため、一度のキャリブレーション手段S200を行うことで、音声認識システム100を利用する様々な状況に適した取得条件を、容易に特定することができる。これにより、利用環境の制限を抑制することが可能となる。
Further, according to the present embodiment, the acquisition condition includes at least one of the conditions of microphone gain, auto gain control, dynamic range control, and acoustic echo cancellation. Therefore, by performing the calibration means S200 once, it is possible to easily specify the acquisition conditions suitable for various situations in which the
本発明の実施形態を説明したが、上述した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上述した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上述した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although the embodiments of the present invention have been described, the above-described embodiments are presented as examples and are not intended to limit the scope of the invention. The novel embodiment described above can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the gist of the invention. The above-described embodiments and modifications thereof are included in the scope and gist of the invention, and are also included in the scope of the invention described in the claims and the equivalent scope thereof.
1 :音声認識装置
10 :筐体
11 :受信部
12 :認識部
13 :記憶部
14 :出力部
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :I/F
110 :内部バス
111 :通信機器
112 :入力部
113 :表示部
2 :収音装置
21 :制御部
22 :変換部
23 :通信部
24 :記憶部
3 :駆動装置
31 :制御部
32 :被制御部
100 :音声認識システム
A :アンテナ
M :マイクロフォン
S110 :取得手段
S120 :送信手段
S130 :受信手段
S140 :認識手段
W :無線通信
1: Voice recognition device 10: Housing 11: Reception unit 12: Recognition unit 13: Storage unit 14: Output unit 101: CPU
102: ROM
103: RAM
104: Preservation unit 105: I / F
106: I / F
107: I / F
108: I / F
110: Internal bus 111: Communication device 112: Input unit 113: Display unit 2: Sound collecting device 21: Control unit 22: Conversion unit 23: Communication unit 24: Storage unit 3: Drive device 31: Control unit 32: Controlled unit 100: Voice recognition system A: Antenna M: Microphone S110: Acquisition means S120: Transmission means S130: Reception means S140: Recognition means W: Wireless communication
Claims (8)
音声に基づき、音声データを取得する取得手段と、
UHF帯域を利用した無線通信により、前記音声データを送信する送信手段と、
前記音声データを連続した信号として一度に受信する受信手段と、
音素認識を用い、前記音声データの内容を認識した認識結果を導出する認識手段と、
文字列情報、及び前記文字列情報に紐づく閾値を1以上含む起動センテンスが複数記憶された起動用データベースと、
を備え、
前記認識手段は、
前記音素認識を用い、前記音声データの内容に対応する候補データ、及び前記候補データに紐づく信頼度を1以上含む候補センテンスを生成する生成手段と、
前記起動用データベースを参照し、複数の前記起動センテンスのうち、前記候補センテンスに対応する第1起動センテンスを指定する指定手段と、
前記信頼度と、前記第1起動センテンスに含まれる第1閾値とを比較する比較手段と、
前記比較手段の結果に基づき、前記認識結果を導出する導出手段と、
を有すること
を特徴とする音声認識システム。 A voice recognition system that uses wireless communication
An acquisition method for acquiring voice data based on voice,
A transmission means for transmitting the voice data by wireless communication using the UHF band, and
A receiving means for receiving the voice data as a continuous signal at once, and
A recognition means that uses phoneme recognition to derive a recognition result that recognizes the content of the voice data,
A start-up database that stores a plurality of start-up sentences including character string information and a threshold value associated with the character string information of 1 or more, and a start-up database.
Equipped with a,
The recognition means
A generation means that uses the phoneme recognition to generate candidate data corresponding to the content of the voice data and a candidate sentence including one or more reliability associated with the candidate data.
A designation means for designating the first startup sentence corresponding to the candidate sentence among the plurality of startup sentences by referring to the startup database.
A comparison means for comparing the reliability with the first threshold value included in the first activation sentence, and
A derivation means for deriving the recognition result based on the result of the comparison means,
A voice recognition system characterized by having .
を特徴とする請求項1記載の音声認識システム。 The voice recognition system according to claim 1, wherein the transmission means transmits the voice data that has not been packetized.
音声認識の開始を示す第1認識結果の導出に用いられる1つのセンテンスと、
前記第1認識結果とは異なる前記認識結果の導出に用いられる複数のダミーセンテンスと
を含むこと
を特徴とする請求項1又は2記載の音声認識システム。 The plurality of said activation sentences
One sentence used to derive the first recognition result indicating the start of speech recognition,
The voice recognition system according to claim 1 or 2, wherein a plurality of dummy sentences used for deriving the recognition result different from the first recognition result are included.
音声認識装置を有する複数の駆動装置と、
を更に備え、
前記収音装置は、
前記取得手段を行う変換部と、
前記送信手段を行う通信部と、
を有し、
前記音声認識装置は、
前記受信手段を行う受信部と、
前記認識手段を行う認識部と、
前記起動用データベースが記憶された記憶部と、
を有し、
前記駆動装置は、前記認識手段により導出された前記認識結果に基づき制御される被制御部を有すること
を特徴とする請求項1記載の音声認識システム。 One sound collecting device and
Multiple drive devices with voice recognition devices and
With more
The sound collecting device is
The conversion unit that performs the acquisition means and
The communication unit that performs the transmission means and
Have,
The voice recognition device is
The receiving unit that performs the receiving means and
A recognition unit that performs the recognition means and
The storage unit in which the startup database is stored and
Have,
The driving device, a speech recognition system according to claim 1, characterized in that it has a controlled unit that is controlled on the basis of the derived recognition result by the recognizing means.
音声認識の開始を示す第1認識結果に用いられる1つのセンテンスと、
前記第1認識結果とは異なる前記認識結果に用いられる複数のダミーセンテンスと
を含み、
前記1つのセンテンスの内容は、記憶された複数の前記音声認識装置毎に異なること
を特徴とする請求項4記載の音声認識システム。 The plurality of said activation sentences
One sentence used for the first recognition result indicating the start of speech recognition,
It includes a plurality of dummy sentences used for the recognition result different from the first recognition result.
The voice recognition system according to claim 4 , wherein the content of the one sentence is different for each of the plurality of stored voice recognition devices.
前記キャリブレーション手段は、
キャリブレーション用の音に基づく評価用音データを、複数生成する評価用音データ生成手段と、
複数の前記評価用音データを前記無線通信により送信する評価用音データ送信手段と、
複数の前記評価用音データを受信する評価用音データ受信手段と、
前記音素認識を用いて、複数の前記評価用音データに対する評価結果を生成する評価手段と、
前記評価結果を、前記無線通信により送信する評価結果送信手段と、
前記評価結果を受信し、前記評価結果に基づく前記音声データの取得条件を設定する設定手段と
を有すること
を特徴とする請求項1〜5の何れか1項記載の音声認識システム。 Further provided with a calibration means for calibrating the voice data,
The calibration means is
Evaluation sound data generation means for generating a plurality of evaluation sound data based on calibration sound, and
Evaluation sound data transmitting means for transmitting a plurality of the evaluation sound data by the wireless communication, and
Evaluation sound data receiving means for receiving a plurality of the evaluation sound data, and
An evaluation means that uses the phoneme recognition to generate evaluation results for a plurality of the evaluation sound data,
An evaluation result transmitting means for transmitting the evaluation result by the wireless communication,
The voice recognition system according to any one of claims 1 to 5 , further comprising a setting means for receiving the evaluation result and setting acquisition conditions for the voice data based on the evaluation result.
を特徴とする請求項6記載の音声認識システム。 The voice recognition system according to claim 6 , wherein the acquisition condition includes at least one of a microphone gain, an auto gain control, a dynamic range control, and an acoustic echo cancellation condition.
UHF帯域を利用した無線通信により送信された音声データを、連続した信号として一度に受信する受信部と、
音素認識を用い、前記音声データの内容を認識した認識結果を導出する認識部と、
文字列情報、及び前記文字列情報に紐づく閾値を1以上含む起動センテンスが複数記憶された起動用データベースと、
を備え、
前記認識部は、
前記音素認識を用い、前記音声データの内容に対応する候補データ、及び前記候補データに紐づく信頼度を1以上含む候補センテンスを生成する生成部と、
前記起動用データベースを参照し、複数の前記起動センテンスのうち、前記候補センテンスに対応する第1起動センテンスを指定する指定部と、
前記信頼度と、前記第1起動センテンスに含まれる第1閾値とを比較する比較部と、
前記比較部の結果に基づき、前記認識結果を導出する導出部と、
を有すること
を特徴とする音声認識装置。 A voice recognition device that uses wireless communication
A receiver that receives voice data transmitted by wireless communication using the UHF band as continuous signals at once, and
A recognition unit that uses phoneme recognition to derive a recognition result that recognizes the contents of the voice data,
A start-up database in which a plurality of start-up sentences including character string information and one or more threshold values associated with the character string information are stored, and
Equipped with a,
The recognition unit
A generation unit that uses the phoneme recognition to generate candidate data corresponding to the content of the voice data and a candidate sentence including one or more reliability associated with the candidate data.
A designation unit that refers to the startup database and specifies the first startup sentence corresponding to the candidate sentence among the plurality of startup sentences.
A comparison unit that compares the reliability with the first threshold value included in the first activation sentence.
A derivation unit that derives the recognition result based on the result of the comparison unit,
A voice recognition device characterized by having .
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020034840A JP6784859B1 (en) | 2020-03-02 | 2020-03-02 | Voice recognition system and voice recognition device |
PCT/JP2021/006156 WO2021177049A1 (en) | 2020-03-02 | 2021-02-18 | Voice recognition system and voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020034840A JP6784859B1 (en) | 2020-03-02 | 2020-03-02 | Voice recognition system and voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6784859B1 true JP6784859B1 (en) | 2020-11-11 |
JP2021139935A JP2021139935A (en) | 2021-09-16 |
Family
ID=73043553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020034840A Active JP6784859B1 (en) | 2020-03-02 | 2020-03-02 | Voice recognition system and voice recognition device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6784859B1 (en) |
WO (1) | WO2021177049A1 (en) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4299768B2 (en) * | 2004-11-18 | 2009-07-22 | 埼玉日本電気株式会社 | Voice recognition device, method, and portable information terminal device using voice recognition method |
US7792136B2 (en) * | 2007-01-31 | 2010-09-07 | Harris Corporation | Carrier sense multiple access (CSMA) for non-packetized wireless digital voice networks using intelligent conversation boundary detection |
JP2008281778A (en) * | 2007-05-10 | 2008-11-20 | Yaskawa Electric Corp | Robot |
JP2010041188A (en) * | 2008-08-01 | 2010-02-18 | Mitsubishi Electric Corp | Speech recognition device |
JP5476760B2 (en) * | 2009-03-26 | 2014-04-23 | ヤマハ株式会社 | Command recognition device |
US11012732B2 (en) * | 2009-06-25 | 2021-05-18 | DISH Technologies L.L.C. | Voice enabled media presentation systems and methods |
US10304449B2 (en) * | 2015-03-27 | 2019-05-28 | Panasonic Intellectual Property Management Co., Ltd. | Speech recognition using reject information |
-
2020
- 2020-03-02 JP JP2020034840A patent/JP6784859B1/en active Active
-
2021
- 2021-02-18 WO PCT/JP2021/006156 patent/WO2021177049A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2021177049A1 (en) | 2021-09-10 |
JP2021139935A (en) | 2021-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11514901B2 (en) | Anchored speech detection and speech recognition | |
US11657832B2 (en) | User presence detection | |
US11138974B2 (en) | Privacy mode based on speaker identifier | |
CN110808039B (en) | Information processing apparatus, information processing method, and recording medium | |
US20200251107A1 (en) | Voice control of remote device | |
US10074371B1 (en) | Voice control of remote device by disabling wakeword detection | |
JP6574169B2 (en) | Speech recognition with multi-directional decoding | |
US20200120396A1 (en) | Speech recognition for localized content | |
CN106463113B (en) | Predicting pronunciation in speech recognition | |
WO2015098109A1 (en) | Speech recognition processing device, speech recognition processing method and display device | |
CN110914897B (en) | Speech recognition system and speech recognition device | |
CN104934031B (en) | Speech recognition system and method for newly added spoken vocabularies | |
JPWO2013027360A1 (en) | Speech recognition system, recognition dictionary registration system, and acoustic model identifier sequence generation device | |
US20180268809A1 (en) | Voice keyword detection apparatus and voice keyword detection method | |
EP1734509A1 (en) | Method and system for speech recognition | |
US20210183358A1 (en) | Speech processing | |
US11348579B1 (en) | Volume initiated communications | |
US10143027B1 (en) | Device selection for routing of communications | |
US11693622B1 (en) | Context configurable keywords | |
JP6784859B1 (en) | Voice recognition system and voice recognition device | |
US11495240B1 (en) | Management of local devices | |
JP7178890B2 (en) | Speech recognition system and speech recognition device | |
US11564194B1 (en) | Device communication | |
US11172527B2 (en) | Routing of communications to a device | |
JP4449380B2 (en) | Speaker normalization method and speech recognition apparatus using the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200302 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200302 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200520 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200616 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200825 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200826 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201023 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6784859 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |